CN111801729B

CN111801729B - 用于引导控制设备中的语音输入的装置、系统和方法

Info

Publication number: CN111801729B
Application number: CN201980017095.9A
Authority: CN
Inventors: 阿沙姆·哈塔姆贝可伊
Original assignee: Universal Electronics Inc
Current assignee: Universal Electronics Inc
Priority date: 2018-01-03
Filing date: 2019-01-02
Publication date: 2024-05-24
Anticipated expiration: 2039-01-02
Also published as: WO2019136065A1; KR20200104898A; CN111801729A; JP7374099B2; EP3735687A1; EP3735687A4; JP2021509730A

Abstract

一种用于控制驻留在环境中的可控设备的系统和方法，包括适于接收语音输入的设备。该系统和方法为设备运行环境建立噪声阈值，在设备处接收语音输入，确定设备接收语音输入时环境的噪声水平，比较确定的噪声水平和建立的噪声阈值，并将一个或多个命令自动发送给可控设备，从而在确定的环境噪声水平大于建立的环境噪声阈值时使可控设备从第一音量水平转换到小于第一音量水平的第二音量水平。

Description

用于引导控制设备中的语音输入的装置、系统和方法

相关申请信息

本申请要求2017年7月12日提交的美国申请15/647,947的权益，并且是该申请的部分继续，其全部公开内容通过引用合并于此。

背景技术

能够通过使用按键来激活麦克风来控制用于接收语音输入的消费电子设备的操作的专用遥控器在本领域中是众所周知的，并且通常每个遥控器能够控制一种类型的消费电子设备的操作。这种专用遥控器旨在主要控制与消费者品牌名称相关联的消费电子设备的功能操作。例如，用于Apple TV品牌视频流转化器(streamer)的专用Apple品牌Siri遥控器可以通过使用专有的通信协议使用语音输入来控制音量、播放、暂停、倒回、停止等操作。这些专用遥控器通常仅对捆绑在一起的关联产品有效，无法与其他语音控制的消费电子设备一起使用。因此，期望提供一种控制设备，其允许用户使用语音命令来控制来自多个消费者品牌名称的多个不同类型的语音控制的消费电子设备。

发明内容

在下文中描述的是装置、系统和方法的示例，该装置、系统和方法允许使用语音命令来控制多个不同的语音控制的消费电子设备的操作，并且更具体地，提供了用于基于来自用户的语音输入将信号路由至来自不同消费者品牌名称的两个或多个语音控制的消费电子设备(以下称为“智能装置”)的控制设备。

在一个示例中，控制设备用于将格式化的语音数据提供给两个或多个智能装置。控制设备的功能组件包括：电子存储介质，具有包含在其中的用于存储多个设备配置文件的处理器可读代码，其中每个设备配置文件包括格式化协议，用于按照特定的智能装置所使用的协议来格式化从用户接收的语音命令；第一通信接口，用于将格式化的语音命令发送到两个或多个智能装置中的至少一个；麦克风，用于接收来自用户的语音输入；处理器，其耦合到电子存储介质、通信接口和麦克风，用于执行处理器可读代码。

在操作中，处理器可读代码使控制设备的处理器：通过麦克风接收第一语音命令；处理器用于确定第一语音命令所针对的第一智能装置；在与第一智能装置相关联的电子存储介质中识别第一格式化协议；根据第一格式化协议将语音命令格式化为格式化的语音命令；并通过通信接口将格式化的语音命令传输至第一智能装置。

还描述了一种用于向两个或多个智能装置提供格式化的语音数据的方法，该方法由与智能装置协作工作的控制设备执行，其中控制设备的处理器通过麦克风从用户接收第一语音命令。然后，处理器确定语音命令所针对的第一智能装置，并识别存储在电子存储介质中并且与第一智能装置相关联的第一格式化协议。然后，处理器按照第一格式化协议对接收到的语音命令进行格式化，并通过使用通信接口将格式化的语音命令发送给第一智能装置。类似地，处理器可以识别第二智能装置，并且将格式化的语音命令发送到该智能装置，其中在一些实施方式中，协议是专有协议、VoIP协议等。

还描述了一种用于向两个或多个智能装置提供格式化的语音数据的方法，该方法由与智能装置协作工作的控制设备执行，其中控制设备的处理器经由通信接口接收来自耦合到控制设备的智能装置的一个或更多个智能装置的标识。在该方法中，装置标识可以包括与智能装置标识相关联的预定唤醒词。控制设备的处理器可以将智能装置标识存储在耦合的电子存储介质中，并且处理器可以通过使用耦合到控制设备的处理器的麦克风从用户接收至少唤醒词和语音命令。然后，处理器确定智能装置标识，该智能装置标识存储在电子存储介质中，其对应于接收到的唤醒词和预定的唤醒词，预定和接收的唤醒词在此匹配。然后，处理器通过使用通信接口将语音命令发送到目标智能装置。在一些实施方式中，唤醒词可以是特定应用所需的字母数字消费者品牌名称、字母数字代码、用户命令等。

描述了用于将格式化的语音数据提供给两个或多个智能装置的另一种方法，该方法由与智能装置协作工作的控制设备执行。该方法包括：通过控制设备的处理器经由麦克风接收来自用户的语音命令；响应于接收到语音命令，通过控制设备的处理器经由通信接口将HDMI输入状态请求发送至连接的智能装置；由智能装置的处理器经由智能装置的通信接口接收HDMI输入状态请求，从而使智能装置的处理器检测活动的HDMI输入，活动的HDMI输入包括当前由智能装置呈现的来自装置的信号，确定与活动HDMI输入相关联的装置标识，通过智能装置的通信接口将智能装置标识发送给控制设备，此时控制设备的处理器通过控制设备的通信接口接收智能装置标识并根据存储在与装置标识关联的控制设备的电子存储介质中的格式化协议对语音命令进行格式化。

还描述了一种用于向两个或多个智能装置提供格式化的语音数据的系统，该系统由与耦合的远程服务器和控制设备协作的智能装置来执行。该系统可以包括智能装置，该智能装置具有使该智能装置执行以下操作的处理器可读代码：通过通信接口从控制设备接收第一语音命令；根据第一格式化协议格式化语音命令；经由通信接口将格式化的语音命令发送到远程服务器，其中远程服务器的处理器经由通信接口接收格式化的语音命令，并使用该语音命令来确定第一语音命令所针对的第一装置；经由通信接口从远程服务器接收语音命令所针对的第一装置的确定，并且经由通信接口将格式化的语音命令发送至所针对的智能装置。

通过下面的详细描述和附图，可以更好地理解本主题系统和方法的目的、优点、特征、特性和关系，所述详细描述和附图给出了说明性示例，并且指示了下文要求保护的发明的原理可以采用的各种方式。

附图说明

为了更好地理解所描述的系统和方法的各个方面，可以参考附图中所示的说明性示例，其中：

图1是示出使用专用遥控器向智能装置提供语音数据的现有技术系统的框图。

图2是示出使用控制设备向两个或多个智能装置提供格式化的语音数据的另一系统的框图。

图3是使用控制设备和相关联的应用将格式化的语音数据提供给两个或多个智能装置的又一个系统的说明性示例。

图4是图2所示的示例控制设备的功能框图，该控制设备用于向两个或多个智能装置提供格式化的语音数据。

图5是图2所示的示例智能装置的功能框图，该示例智能装置用于向两个或多个智能装置提供格式化的语音数据。

图6是示出用于实现两个或多个智能装置的语音控制的示例方法的流程图。

图7是示出用于在与接收语音输入相关的环境中控制设备产生的声音水平的示例方法的流程图。

图8是示出用于基于接收的语音水平来控制设备声音输入的示例方法的流程图。

具体实施方式

在下文中描述的是用于利用语音命令控制两个或多个智能装置的装置、系统和方法的示例，并且更具体地，涉及一种用于接收来自用户的语音输入以识别语音输入所针对的特定智能装置和用于将语音输入格式化为特定智能装置可以理解的数字信号的控制设备。

图1示出了本领域中已知的系统，其中专用遥控器被操作以主要通过使用语音命令来控制与专用遥控器具有相同消费品牌的第一智能装置的功能操作，并且该专用遥控器不旨在通过使用语音命令与不同消费品牌的第二智能装置进行通信或对其进行控制。本示例示出了两个专用遥控器，即Comcast品牌的Xfinity语音遥控器102和Apple品牌的Siri语音遥控器104，它们用于通过使用语音命令分别操作关联的智能装置，例如Comcast品牌的机顶盒108(以下称为“STB”)和Apple TV品牌流转化器110。某些消费设备具有互联网功能，即它们可以向位于本地数据网络(例如无线LAN)范围内的源发送内容或从其接收内容，和/或通过互联网向位于远程位置的源发送内容或从其接收内容。每个专用遥控器分别经由无线信号120和122与关联的智能装置进行通信，其中无线信号120和122彼此不同。通常，STB108和Apple TV品牌流转化器110通过HDMI电缆112连接到智能TV 106(以下称为“TV”)，并且还可以连接到无线路由器114，并且可以使用信号118，以与基于互联网云的语音处理服务116(例如Comcast品牌语音服务提供商或Apple品牌Siri语音服务)进行通信，以将专用遥控器接收到的语音命令发送至相同品牌的智能装置，其中智能装置将语音数据发送到关联的语音处理服务以进行解读。例如，Comcast品牌Xfinity语音遥控器102的用户按下麦克风键，导致遥控器开始录制用户的声音，例如“观看ESPN”或“向我展示儿童电影”，并且在释放键时录制结束。然后，遥控器使用基于语音的RF4CE无线协议压缩记录，并通过低带宽链路将其传输到STB108。STB108随后通过路由器114将记录发送给Comcast品牌语音服务提供商，以执行自然语言处理(NLP)以解读记录，确定相应的命令，然后将该命令发送回STB 108以执行相应的操作。在该实施方式中，Comcast品牌的Xfinity语音遥控器102不支持将语音命令发送到不同的消费者品牌的智能装置，例如Apple TV品牌的流转化器110。基于云的语音处理服务的操作是本领域技术人员众所周知的，在此不再赘述。

图2示出了根据本文的教导的示例性系统，并且包括控制设备202，例如独立的Amazon品牌的Echo设备(以下称为“Echo”)或具有语音输入能力的类似类型的设备，这种类型的设备可以包括但不限于平板电脑、PDA、具有关联的远程控制类型应用程序的手机、智能手表、计算机、可穿戴控制设备、遥控器或旨在控制两个或多个智能装置的中间设备。另外，可以预期，控制设备202可以是如美国申请号15/799,393中所描述的智能数字助理的形式，该美国专利通过引用并入本文，其中数字助理将被补充本文所述的一个或多个功能。从下面的描述中将会理解，控制设备202适于发送一个或多个不同的无线信号，例如信号120、122(也如图1所示)和/或信号212和214，以被相应的多个预期目标设备接收。这样的传输可以根据需要使用通信协议，例如IP语音(VoIP)，IP，智能波(S-WAVE)，Wi-Fi，低功耗蓝牙(BLE)，RF4CE，ZigBee，Z-波(Z-wave)，红外，6LoWPAN，Thread，Wi-Fi-ah，2G，3G，4G，NB-IoT，5G，NFC，RFID，SigFox等，以将命令传递给两个或多个智能装置。在该实施方式中，控制设备202被配置为从用户接收语音命令，并且将语音命令的格式化版本发送给由控制设备202确定的智能装置108、110、204和206中的一个或多个。在一些实施方式中，语音命令未被格式化。还应当理解的是，除了具有如本文所述的传输语音命令的格式化版本的能力之外，控制设备202可以配备有常规的遥控功能，通过该常规的遥控功能，可以将从一个或多个命令代码集中选择的一个或多个命令发送到受控设备，从而控制受控设备的功能操作，例如音量操作功能和电源操作功能等。

智能装置可以包括终端用户家中的消费电子设备，例如TV 106，STB108，Apple TV品牌流转化器110(均如图1所示)，Xbox品牌游戏系统204和Roku品牌流转化器206。尽管示出为TV 106，Xbox品牌游戏系统204，STB 108，Roku品牌流转化器206和Apple TV品牌流转化器110，应该理解，智能装置可以包括但不限于各种电视，VCR，DVR，DVD播放器，电缆或卫星转换器机顶盒，放大器，CD播放器，游戏机，家庭照明，智能无线集线器，窗帘，风扇，HVAC系统，个人计算机，可穿戴式健康监控设备，或者通常在一些实施方式中，通过使用典型地在局域网或广域网216与无线信号118相关联的无线路由器114，能够与控制类型的设备(例如，Echo或智能手机)和/或其他智能装置进行通信的任何消费产品。此类智能装置通常通过HDMI电缆112连接到TV 106，或者可以无线连接，并且可以操作以将数据发送到耦合到数据库210的耦合的远程服务器208和/或发送到图1所示的语音处理服务116。

用户可以通过按下控制设备202上的软键或机械键来操作控制设备202，该软键或机械键至少激活耦合的麦克风，从而允许用户的声音被记录和/或流传输并发送到一个或多个耦合的智能装置(以下单独地或共同地称为“装置”)。在一个实施方式中，控制设备202可以是基于音频的上下文识别系统的一部分，并且在一些实施方式中，可以是包括耦合到服务器208的至少一个智能装置的上下文命令路由系统的一部分，其中系统确定用户执行动作的意图并确定预期智能装置，用于将语音命令路由到所述智能装置以执行命令。在一些实施方式中，由包括耦合的感测接口的家庭娱乐系统来执行对用户意图的确定，以使得系统对在诸如用户的客厅之类的媒体观看区域中发生的事件的响应自动化。可以按照美国专利号9,137,570中所述的方式执行对用户意图的这种确定，该专利的全部内容通过引用合并在此。

在一个示例中，控制设备202可以通过以下方式操作：连续地监听基于音频的上下文(即，基于由用户说出语音命令而产生的音频信号的上下文)并且经由通信接口将基于音频的上下文(以下称为“语音命令”)发送给智能装置，该智能装置将语音命令发送至耦合的服务器208，服务器208自动执行基于音频的上下文识别操作，以便自动确定上下文命令路由和/或确定分类的至少一部分，以确定基于音频的上下文所针对的智能装置。

在该示例中，耦合至服务器208的诸如TV 106之类的智能装置经由第一通信接口(例如，Wi-Fi接收器)直接从服务器208接收预期装置确定信息，并使用预期装置确定信息确定语音命令所针对的智能装置。TV106经由第二通信接口(例如，RF4CE发射器)将语音命令发送到所识别的智能装置，以执行命令(例如，打开，关闭，提高音量，降低音量，将频道改变至频道X等)。

在另一示例中，控制设备202通过第一通信接口从服务器208接收预期装置确定信息，并且通过第二通信接口将语音命令发送到所标识的智能装置，在该智能装置上执行命令。

在又一个示例中，服务器208不仅确定预期设备确定信息，而且确定用户的意图以确定上下文命令路由。然后，命令本身通过广域网216传输到目标智能装置、传输到控制器202或传输到转发语音命令的智能装置。

在一个示例中，第一智能装置经由第一通信接口从服务器208接收预期装置确定信息，使用该装置确定信息来确定预期智能装置并将命令发送到预期智能装置以执行命令。

在一个示例中，第一智能装置从服务器208接收预期的装置确定信息以用于本地执行命令。

在另一示例中，第一智能装置可以在局域网中扫描连接的智能装置，并且可以向每个智能装置查询状态信息，以用于确定预期装置确定信息并将命令发送到预期智能装置。

在另一示例中，第一智能装置从服务器208接收预期装置确定信息，并将该装置确定信息发送至第二智能装置，其中第二智能装置使用该标识信息来确定所标识的智能装置，并经由第二通信接口将语音命令发送至所识别的智能装置，用于执行命令。

在一个示例中，智能装置将语音命令发送到关联的语音处理服务提供商以执行自然语言处理或类似处理，以确定相应的命令，然后将其发送到智能装置以执行命令操作。

在一个示例中，控制设备202经由通信接口将诸如“TV”、“Google”、“Alexa”、“Xbox”、“Game”或“STB”之类的唤醒词和诸如“打开”、“播放”、“停止”等命令记录和/或流向智能装置。唤醒词通常旨在标识智能装置，并在一些实施方式中用于更改智能装置的电源状态，例如从待机到满负荷。在一个示例中，控制设备202使用唤醒词来确定向哪个智能装置发送唤醒词，并且在一个示例中，控制设备202在接收到唤醒词之后紧接接收的命令。

在另一示例中，控制设备202经由广域网216将唤醒词和命令发送到服务器208，其中，由服务器208的处理器确定智能装置标识，并且其中服务器208将语音命令发送到那个智能装置。

在另一示例中，控制设备202从与控制设备202耦合的智能装置接收预期智能装置的标识，其中，预期的智能装置的标识包括关联的唤醒词，并且控制设备202将信息存储在电子存储介质中。然后，控制设备202从用户接收至少一个唤醒词，并使用该唤醒词来确定要发送该唤醒词或者与该唤醒词相关联的智能装置关联的语音命令的预期智能装置。

作为示例，控制设备202可以至少将唤醒词发送给TV 106。TV 106使用该唤醒词来确定与所接收的唤醒词相关联的智能装置标识。TV 106使用智能装置标识来确定唤醒词所针对的相应的智能装置。然后，TV 106将唤醒词和相关联的语音命令发送到所标识的智能装置，以执行命令。

在另一个示例中，与控制设备202和服务器208协同操作的智能装置在设置过程中被配置为，使用在设置过程(例如学习操作)中用户说出的并且将语音命令与支持该语音命令的智能装置相关联的预定语音命令来注册位于用户家中并由智能装置检测到的每个智能装置。例如，用户可以通过使用控制设备202来发出预定的语音命令，例如“播放音乐”，“暂停电影”，“开始录制”等。在该实施方式中，控制设备202发送语音命令给智能装置进行配置，其中智能装置通过使用服务器208可访问的数据库210，从服务器208接收与语音命令相对应的指令以及该命令的预期智能装置的标识。

例如，语音命令“播放音乐”可以通过服务器208与支持流音乐的智能装置(例如检测到的Apple TV品牌流转化器110)相关联。类似地，语音命令“暂停电影”可以通过服务器208与Roku品牌流转化器206相关联，“开始录制”可以与STB 108相关联。此后，当用户说出语音命令“播放音乐”时，通过使用控制设备202，所设置的智能装置使Apple TV品牌流转化器110执行流音乐的操作。

在又一示例中，控制设备202接收语音命令，该语音命令将自动使得输入状态请求(例如检测活动源/汇聚端口的请求，通信总线状态的请求等)被控制设备202发送至TV106，其中TV 106执行操作以从多个可能的输入中检测活动输入，以确定从存储在TV 106的电子存储介质中的多个装置标识中选择的关联装置标识。TV 106然后使用装置标识将语音命令发送到所标识的智能装置。

在一个示例中，控制设备202使用来自位于终端用户家中的多个耦合的智能装置的智能装置的标识，从与远程服务器208耦合的TV 106接收配置信息。在该示例中，配置信息包括由服务器208提供给TV 106的多个智能装置配置文件(以下称为“设备配置文件”)。例如，服务器208从TV 106接收位于终端用户家中的多个智能装置的标识，其中TV106执行操作以检测其他已连接的智能装置，并将该信息提供给远程服务器208。服务器208反过来分析该信息以确定每个检测到的智能装置的设备配置文件。服务器208将针对每个检测到的智能装置的设备配置文件存储在数据库210中，并且将针对每个检测到的智能装置的设备配置文件发送给TV 106，TV 106随后将配置发送给控制设备202。控制设备202可以经由设置过程从包括通用控制引擎200(以下称为“UCE”)的耦合的TV 106接收配置信息，该设置过程在下面的其他示例中进行描述。

此外，图2所示的任何智能装置可以以协同操作的方式进行操作，例如通过将任何智能装置用作主设备，而将服务器208用作从设备，反之亦然，以将一个或多个设备配置文件发送到控制设备202或另一个耦合的智能装置。设备配置文件可以本地存储在与控制设备202相关联的电子存储介质中或存储在智能装置的电子存储介质中。

应当理解，尽管将用户的语音命令描述为记录，但是语音命令可以由控制设备202实时地流传输，可以被部分地流传输或者可以被临时存储在控制设备202的电子存储介质中。此外，虽然将确定操作描述为交叉引用操作，但是应当理解，服务器208可以执行其他方法来确定关系，例如使用预定操作映射，使用索引，使用配对表，并且可以使用一种或多种方法。

图3是使用控制设备202的系统的示例，该控制设备202具有相关联的控制应用程序并且耦合到服务器208，用于向两个或多个智能装置提供语音命令。控制类型的应用程序(以下称为“应用程序”)在本领域中是众所周知的，因此在此不再描述。在该实施方式中，控制设备202通过使用具有适当应用接口300的应用程序可以发起操作，其中控制设备202可以确定每个语音命令被定向到哪个智能装置，可以根据语音命令所针对的智能装置来格式化语音命令，并且可以确定将格式化的语音命令发送给预期的智能装置的传输技术。例如，用户可以按下设置到控制设备202的用户界面上的软键，激活控制设备202的麦克风。然后，用户可以说出语音命令，该语音命令被控制设备202接收并随后被处理，以确定语音命令针对哪个智能装置。接下来，将语音命令格式化为确定的智能装置可以理解的数字信号。还应理解，图3中描绘的控制设备202上的音量控制键、频道控制键或电源键的激活可以导致将常规的远程控制命令传输到受控装置，以引起例如TV的受控装置执行相应的功能操作，例如使其声音静音。

在一个示例中，应用程序可以通过使用关联的麦克风来收听语音命令，并且当接收到语音命令时，该应用程序向智能装置发送请求以执行本地操作，以动态扫描局域网以查找连接的智能装置，查询每个智能装置的状态信息，例如特定智能装置上当前可用的媒体内容，支持的命令等。例如，TV 106可以启动对一个或多个智能装置(例如STB 108和Apple TV品牌流转化器110)的查询，其中每个智能装置实时向TV 106发送与在每个智能装置上执行的活动有关的信息。这样的活动信息可以包括可用的当前媒体内容，例如在AppleTV品牌流转化器110上正在观看的电视节目或电影，正在查看的照片，活动的应用程序及其在STB 108上显示的内容，正在使用的当前音量级别，支持的命令，并且可能包括诸如每个智能装置执行的最后用户操作或命令的标识之类的信息。在一些示例中，活动信息可以部分或全部显示在与智能装置耦合的显示器上，或者可以由第一智能装置提供给第二智能装置，以显示信息。

在另一个示例中，活动信息可以显示在与控制设备202耦合的显示器中，其中活动信息包含可激活的链接，当用户通过使用安装在控制设备202上的应用程序来激活时，该链接使智能装置执行相应的命令，例如“播放”，“停止”等。

在一个示例中，在控制设备202将语音命令发送到任务是将来自控制设备202的语音命令中继至语音处理服务或云服务的专用智能装置之后，语音处理服务116或云服务器302执行语音命令所针对的智能装置的确定。语音命令旨在命令的智能装置的标识和/或其他信息随后在同一智能装置处被接收回，随后将标识和/或其他信息提供给应用程序。或者，该应用程序可以直接通过无线路由器114或通过使用蜂窝网络直接将语音命令发送到语音处理服务116或关联的云服务302，从而无需智能装置将此信息中继到远程服务器/或从远程服务器中继来。语音处理服务116或云服务302然后可以将信息/指令直接发送回控制设备202。

在一个示例中，应用程序可以包括可以用于提供云服务302的指令，例如“如果这样就那样”(以下称为“IFTTT”)类型的指令，用于使一个或多个预先定义的IFTTT操作自动化，该预先定义的IFTTT操作导致IFTTT服务给一个或多个智能装置(例如TV 106，其通过UCE 200耦合到IFTTT服务)发送一个或多个预定义操作。类似地，此类操作可以通过使用工作流程工具在云服务302处预先填充，或者可以在设置操作期间由应用程序向IFTTT服务填充。

在一个示例中，应用程序连续或以预定的时间间隔向智能装置发送请求，以扫描局域网中连接的智能装置并查询每个智能装置的状态信息。

应当理解，尽管被描述为独立应用程序，但是可以安装在一个或多个智能装置上的一个或多个耦合应用程序可以协作以设置控制设备202、云服务302或TV 106，以将格式化的语音命令提供给两个或多个智能装置。此外，一个或多个应用程序可以协作以响应由智能装置或控制设备202发出的请求，以扫描局域网以查找连接的智能装置，并查询每个智能装置的状态信息。在一些示例中，可以通过使用驻留在智能装置或控制设备202中的设置代理程序来同步这些应用程序。进一步的细节可以在美国申请序列号14/277,968中找到，其全部内容通过引用合并于此。

图4示出了用于向两个或多个智能装置提供格式化的语音命令的控制设备(例如图2所示的控制设备202)的一个示例的功能框图400。在该示例中，控制设备202包括处理器402，电子存储介质404，通信接口406，用户接口408，至少一个收发器410和至少一个发射器412。

处理器402可以被配置为通过执行存储在电子存储介质404中的处理器可执行指令(例如，可执行代码)来提供控制设备的一般操作。处理器402通常包括通用微处理器，尽管也可以基于诸如计算能力、成本、大小等因素选择替代使用多种微处理器、微型计算机和/或微控制器中的任何一种。

电子存储介质404包括一个或多个信息存储设备，例如ROM、RAM、闪存、其他类型的电子、光学或机械电子存储介质设备、或其任意组合。电子存储介质404可用于存储处理器可执行的指令，以操作控制设备202。还将理解的是，一些或全部所示电子存储介质可物理地并入与处理器装置402相同的IC芯片中。

如本领域技术人员将理解的，一些或全部电子存储介质404可以存储多个设备配置文件，其中每个设备配置文件包括用于按照特定智能装置使用的协议来格式化语音命令的格式化协议，可以存储与一个或多个设备配置文件相关联的多个唤醒词和/或语音命令。例如，第一设备配置文件可以指定用于TV 106的语音操作(例如使TV 106改变频道、输入、音量等)的一个或多个数字信号的格式，而第二设备配置文件可以指定用于STB 108的语音操作(例如改变频道、控制音量等)的一个或多个数字信号的格式。

通信接口406包括一个或多个数据接口电路，例如众所周知的以太网、Wi-Fi、RF4CE、蓝牙或USB电路，其允许控制设备202与智能装置之间的无线通信，以及在一些实施方式中，经由广域网216在控制设备202和与其通信的无线路由器114以及服务器208之间的通信。在一个实施方式中，通信接口406包括一个或多个数据接口电路，例如至少一个收发器410和至少一个发射器412，其允许耦合的智能装置之间的通信。在该实施方式中，收发器410可以支持用于与第一智能装置通信的第一无线协议，第二收发器410可以支持用于与第二智能装置进行通信的第二无线协议，以向每个智能装置提供格式化的语音数据。

用户接口408包括用户输入设备，用于允许用户控制控制设备202的操作。用户输入通常包括至少一个或多个软键或机械键，用于允许用户向控制设备202中输入命令或信息。在一个示例中，用户接口408包括耦合到处理器402的麦克风，该麦克风用于接收用户的语音命令并将语音命令转换为电子信号，这在本领域中是众所周知的。

应当理解，功能块可以以不同于图4中所示的各种方式彼此耦合，并且为了清楚起见，没有示出控制设备202的操作所必需的所有功能块，例如电源、麦克风、一个或多个加速度计、多轴陀螺仪、分别包括不同的无线协议的各种其他收发器和发射器。

图5示出了智能装置(诸如TV 106，STB 108，Apple TV品牌的流转化器110(每个都如图1所示)，Xbox品牌的游戏系统204和Roku品牌的流转化器206(每个如图2所示))的一个示例的功能框图500。这样的智能装置可以通过语音命令来控制，可以是独立于说话者的，即，智能装置可以响应多个语音，并且可以一次响应多个命令。在一些实施方式中，智能装置可以经由本地操作来识别和/或认证说话者(即，用户)，并且可以经由广域网216或通过使用蜂窝网络将接收到的语音输入发送到语音处理服务116。

在该示例中，智能装置包括处理器502，电子存储介质504，通信接口506，用户接口508和收发器510。应当理解，功能块可以以除了图5所示的方式以外的多种方式彼此耦合，并且为清楚起见，没有示出智能装置操作所需的所有功能块，例如电源、分别包括不同的无线协议的各种其他收发器和发射器。

处理器502被配置为通过执行存储在电子存储介质504中的处理器可执行指令(例如，可执行代码)来提供智能装置的一般操作。处理器502通常包括通用微处理器，例如Intel酷睿I7品牌或AMD K10品牌微处理器，尽管也可以基于诸如计算能力、成本、尺寸等因素选择替代使用多种微处理器、微型计算机和/或微控制器中的任何一种。

电子存储介质504包括一个或多个信息存储设备，例如ROM、RAM、闪存、其他类型的电子、光学或机械电子存储介质设备、或其任意组合。电子存储介质504可以用于存储用于智能装置的操作的处理器可执行指令。还应当理解，一些或所有所示的电子存储介质可以物理地结合在与处理器装置502相同的IC芯片内。

如本领域技术人员将理解的，一些或全部电子存储介质504可以存储特定于要控制的每种类型的智能装置的指令或数据。例如，用于TV 106的指令可以包括根据从控制设备202接收的命令，经由通信接口506接收电视节目并在显示器上显示电视节目之一的指令。

其他指令使智能装置从控制设备202接收诸如唤醒词或语音命令之类的指令，其中处理器502使用语音命令来确定与语音命令相关联的智能装置标识。然后，智能装置通过广域网216将装置标识发送到控制设备202或耦合的智能装置。

还有其他指令使智能装置从控制设备202接收指令，这使处理器502启动检测过程，例如检测音-视频上的活动源/汇聚端口的请求/通信总线状态请求，从而检测有效的HDMI输入。然后，智能装置确定连接到活动HDMI输入的智能装置，并将装置标识发送到控制设备202或发送到耦合的智能装置。然后，控制设备202或耦合的智能装置使用设备标识将语音命令发送到所标识的智能装置。在一些示例中，智能装置将装置确定发送到服务器208，用于确定上下文命令路由。然后，服务器208将语音命令发送到所标识的智能装置。在另一个示例中，服务器208将语音命令发送到智能装置，其确定哪个智能装置被连接到活动HDMI输入，以执行命令或将命令转发到连接至活动HDMI输入的装置。

通信接口506包括一个或多个数据接口电路，例如收发器510、以太网、Wi-Fi、RF4CE、蓝牙或USB电路，其允许通过无线路由器114提供的局域网在智能装置与其他耦合的智能装置之间、智能装置与控制设备202之间进行数字通信，以及通过广域网216在智能装置和服务器208之间进行数字通信。在本实施方式中，收发器510可以支持无线协议，其用于从控制设备202接收语音命令，该收发器510可以解码、压缩或执行必要的其他操作，以将语音命令发送给语音处理服务116。

用户接口508包括用户输入设备和/或用户输出设备，用于允许用户控制智能装置的操作。用户输入通常包括一个或多个按钮、按键、触摸屏显示器等，用于允许用户将命令或信息输入到智能装置中。用户输出设备通常包括显示屏、触摸屏显示器、灯、增强回音壁等，用于根据期望/需要向用户呈现媒体内容。

应当理解，功能块可以以不同于图5中所示的各种方式彼此耦合，并且为了清楚起见，没有示出智能装置的操作所必需的所有功能块，诸如电源、均包括不同的无线协议的各种其他的收发器和发射器。

图6是用于实现两个或多个智能装置的语音控制的一种示例方法的流程图。该方法由位于控制设备202内的处理器402通过执行存储在电子存储介质404中的处理器可执行指令来实现。应理解，在一些示例中，并非图6中所示的所有步骤都被执行，并且执行步骤的顺序可能不同。还应当理解，为清楚起见，省略了本领域普通技术人员已知的一些较小的方法步骤。

在框600处，控制设备202的用户通过用户接口408向控制设备202说出语音命令。在一个示例中，用户首先按下控制设备202上的键以激活控制设备202上的麦克风。

在框602处，语音命令由处理器402经由用户接口408接收，并且通常将语音命令存储在电子存储介质404中。

在框604处，处理器402确定语音命令旨在到哪个智能装置。在一个示例中，处理器402评估语音命令并确定该语音命令旨在用于特定的智能装置，在该示例中是TV 106。根据上述示例中的一个或多个来执行确定操作。

在另一示例中，处理器402以预定格式发送语音命令，以供智能装置中预定的一个接收。在该示例中，处理器402被预先配置为与智能装置之一通信并且以预定智能装置理解的格式发送语音命令。预定的智能装置可以不同于语音命令所针对的智能装置。预定的智能装置接收语音命令，然后将其转发到远程服务器208。远程服务器208依次处理语音命令，以确定智能装置类型或语音命令所针对的特定智能装置的标识。例如，服务器208可以解读语音命令并提取多个预定命令之一，例如“增大音量”，“减小音量”，“改变频道”，“电视打开(关闭)”，“Roku打开(关闭)”等。基于该解读，服务器208至少识别语音命令所针对的智能装置类型。对于一些语音命令，例如“电视打开(关闭)”，“Roku打开(关闭)”，其中特定智能装置的标识包含在语音命令中，确定目标智能装置仅是解读语音命令以提取提到的智能装置的问题。在诸如“提高音量”，“降低音量”或“改变频道”之类的其他语音命令中，服务器208可以识别语音命令中的关键词，并通过将关键词与服务器208存储的智能装置类型相关联来确定可能的预期智能装置。例如，如果服务器208确定“音量”一词被说出，则服务器208可以确定该语音命令是用于TV 106或机顶盒110的。服务器208然后直接经由无线路由器114或经由预定的智能装置将预期的智能装置的标识返回到远程控制设备202。

在框606处，控制设备202经由收发器410从服务器208接收预期智能装置的标识，收发器410将标识提供给处理器402。

在框608处，处理器202接收标识，并且可以基于智能装置标识类型来确定语音命令所针对的特定智能装置。例如，服务器208可能已经识别了语音命令所针对的电视。处理器402然后基于较早的设置过程确定正在使用的电视的特定品牌和/或型号，以及诸如语音命令、唤醒词、预安装的应用程序、正在观看的内容、支持的无线协议、用户偏好等的操作能力。

设置过程包括向发现的智能装置发送信号，使其他智能装置将其设备信息(例如EDID、CEC、供应商名称、设备类型、设备状态、已安装的应用程序、设备上正在播放的当前媒体内容、媒体内容徽标、信息帧，SSDP、MDNC、IP mDNS服务列表、支持的无线协议(例如VoIP，IP，智能波(S-WAVE)，Wi-Fi，低功耗蓝牙(BLE)，RF4CE，ZigBee，Z波，红外)等)发送给正在请求的一个或多个智能装置。例如，设置过程可以用于确定包括相同操作能力的智能装置。对于此类设备，用户可能更喜欢在特定的智能装置上观看电视节目，并相应地设置用户偏好。在该实施方式中，用户偏好被聚集到设备配置文件。这种设备检测的更多细节可以在美国专利号8,812,629、8,558,676、8,659,400、8,830,074、8,896,413、9,215,394、9,437,105、9,449,500和9,019,435中找到，所有这些专利均通过引用整体并入本文。

在框610处，处理器402根据与所标识的智能装置相关联的格式化协议，将存储在电子存储介质404中的语音命令格式化为数据格式。

在框612处，处理器402经由发射器/收发器410和/或412将格式化的语音命令发送到所标识的智能装置。用于格式化语音命令的格式化协议可以另外包括其中要发送数据的传输协议。例如，与TV 106相关联的电子存储介质404内存储的格式化协议可以指示无线数据需要经由RF4CE发射器发送。在这种情况下，处理器402将格式化的语音命令路由到RF4CE发射器，并使RF4CE发射器将格式化的语音命令发送到TV106。

部分如图2描述的，设备配置文件包括用于多个智能装置的整个智能装置信息，例如在智能装置执行的设置过程中标识的数据，该数据通常包括智能装置的元数据、属性和用户设置的偏好，用于根据特定智能装置使用的协议将语音命令格式化的格式化协议，支持的网络或通信协议，语音命令代码结构或格式，语音服务或操作能力，状态信息等，这些信息可以存储在数据库210中并且可以由服务器208访问。

这些命令和操作功能定义了可以与此装置关联的一组“动词”和“语法”。

在一个示例中，响应于从服务器208接收到设备配置文件，TV 106可以经由通信接口506将设备配置文件发送到第二耦合智能装置，以用于控制设备202的配置，并且其中该设备配置文件采用第二智能装置使用的格式。例如，第一智能装置可以将从服务器208接收的设备配置文件发送给充当中间设备的第二智能装置，或者可以将一个或多个设备配置文件发送给控制设备202以存储在电子存储介质404中。

在又一个示例中，通过使用广域网216，云服务302将设备配置文件提供给控制设备202。然后，控制设备202可以将设备配置文件本地存储在电子存储介质404中。

在一个示例中，设备配置文件可以被处理器402以原始格式接收，可以通过执行包括用于创建数据结构的一组步骤的可读代码由处理器402将设备配置文件重构为特定的数据结构。在一个示例中，数据结构是阵列。在另一个示例中，数据结构是列表。在又一示例中，数据结构是处理器402执行数据重构操作所需的一种或多种数据类型的组合。

在另一个示例中，处理器402可以执行本地操作以将发现的装置信息与存储在电子存储介质404中的装置元数据进行交叉引用，或者通过针对每个识别的智能装置与服务器208协作执行的交叉引用操作进行本地操作。在该示例中，服务器208通过使用数据库210来确定信息，该信息在某些方面等于或类似于类似智能装置的装置信息，以用于生成或将数据聚集到设备配置文件或设备指纹。装置元数据包括智能装置属性，例如EDID，CEC，设备类型，支持的特征等，它们可以与发现的装置信息互补，并且通常包括用于多个智能装置的多个其他装置相关信息，例如基于云的装置服务，例如，装置的制造商提供的服务，关联的语音处理服务，功能，优选的通信方法，支持的网络或通信协议，命令代码结构或格式等。

另外，设备配置文件可以包括与智能装置的原始遥控器(例如，用于操作Comcast品牌的Comcast品牌的Xfinity语音遥控器102，STB 108或用于操作Apple TV品牌流转化器110的Apple品牌的Siri语音遥控器104(每个如图1所示))发送的信号具有相同结构的信号，用于将语音命令发送到智能装置，并且信号可以由控制设备202通过通信接口406经由类似于来自相同智能装置制造商的原始遥控器的信号的信号发送到第一耦合的智能装置。类似地，控制设备202可以通过使用类似于与第二智能装置相关的原始遥控器的信号的信号，将不同的信号发送给第二智能装置。

在另一个示例中，处理器402可以通过使用发现的装置信息和/或通过经由通信接口406以及经由使用广域网216执行在线搜索以获取相关的智能装置元数据(例如来自互联网或其他基于云的服务器)，来实时动态地生成设备配置文件。当操作完成时，设备配置文件可以存储在电子存储介质404中，或者可以存储在耦合的服务器或云服务302的电子存储介质中。

在另一示例中，设备配置文件由服务器208经由通信接口506被提供给包括UCE200的TV 106，或者由云服务302通过使用广域网216而被提供给TV 106。

在任何示例中，每个设备配置文件均包括格式化协议，该格式化协议用于按照特定智能装置所使用的协议来格式化语音命令，并且用于从位于最终用户家中的智能装置收集智能装置信息的标识的功能可以由通用控制引擎(UCE)200执行，如美国专利号9,215,394中所描述的那样，该专利的全部内容通过引用合并于此。在一个示例中，当包括UCE 200的智能装置最初通电时，可以启动自动设置过程，以在与包含UCE 200的智能装置相同的本地网络上识别或检测智能装置。可替代地，设置过程可以通过控制设备202上的按键启动，或通过智能装置识别并作用在智能装置上的语音命令来启动。在美国专利号9,307,178中描述了这种设置过程，该专利也通过引用整体并入本文。

在一个示例中，控制设备202包括电子存储介质404，该电子存储介质404具有在其中的处理器可读代码并且存储多个智能装置配置文件，其中每个设备配置文件包括用于按照特定智能装置使用的协议将语音命令格式化的格式化协议，其中服务器208将设备配置文件提供给智能装置。在该示例中，控制设备202经由麦克风从最终用户接收第一语音命令，该语音命令由控制设备202使用以确定第一语音命令所针对的第一智能装置。然后，控制设备202在与第一智能装置相关联的电子存储介质中识别第一格式化协议，将语音命令格式化为符合第一格式化协议的格式化语音命令，并将格式化后的语音命令发送给第一智能装置。

例如，用户可以按下麦克风键并说出一个或多个单词或声音以选择特定的智能装置，例如Apple TV品牌流转化器110。控制设备202基于语音命令确定与该智能装置相关联的设备配置文件，并识别用于与Apple TV品牌流转化器110进行通信的正确信号或协议。控制设备202将语音命令格式化为Apple品牌Siri语音遥控器104的相同语音命令。然后，控制设备202将语音命令发送给Apple TV品牌流转化器110。控制设备202接收第二语音命令，并类似地确定第二语音命令旨在到达的第二智能装置(例如STB 108)。然后，控制设备202将格式化的语音数据发送到STB 108。在一些示例中，设备配置文件包括如何向智能装置发送语音的定义，并且控制设备202可以执行本地操作以确定哪个智能装置与语音命令相关联，并且可以确定如何发送语音命令的一种或多种方法。

在一个示例中，控制设备202可以收听语音命令，并且当接收到语音命令时，控制设备202向智能装置发送请求以执行本地操作，以扫描局域网中连接的智能装置，并且动态查询每个智能装置的状态信息。此类状态信息包括已安装和/或支持的应用程序，智能装置的电源状态(即开/关)，当前媒体状态(例如播放特定歌曲或观看特定视频流)，支持的命令和/或脚本等。在一些示例中，状态信息可以由执行查询的智能装置或用于定义命令的上下文的服务器208使用。

在一个示例中，状态信息可以由执行信号嗅探操作(例如音频信号收听操作)来确定当前正在特定位置播放的媒体的第一智能装置来获得。在该示例中，智能装置包含执行所述信号嗅探操作的必要硬件和程序。信号嗅探操作在本领域中是众所周知的，在此不再描述。

在一个示例中，智能装置从耦合到数据库210的服务器208接收用于所连接的智能装置的代码或脚本，其中数据库210包括用于与所连接的智能装置进行通信的多个智能装置代码和/或脚本，并且其中代码和/或脚本用于识别上下文和预期的智能装置。例如，当用户说出“暂停”时，根据上下文，服务器208将向当前正在播放歌曲的智能装置提供优先级。

例如，TV 106可以向诸如STB 108和Apple TV品牌流转化器110之类的一个或多个智能装置发起查询，其中每个智能装置实时向TV 106发送与在每个智能装置上正在执行的活动有关的信息。这样的活动信息可以包括可用的当前媒体内容，例如在Apple TV品牌流转化器110上正在观看的电视节目或电影，正在查看的照片，活动的应用程序及其在STB108上显示的内容，支持的命令，并且可以包括诸如标识每个智能装置执行的最后的用户操作或命令的信息。在一些示例中，活动信息可以部分或全部显示在与智能装置耦合的显示器上，或者可以由第一智能装置提供给第二智能装置以显示信息。

在另一个示例中，活动信息可以显示在与控制设备202耦合的显示器中，其中活动信息包含可激活链接，当用户通过使用安装在控制设备202上的应用程序来激活该可激活链接时，其可以使智能装置执行相应的命令，例如“播放”，“停止”等。

在另一个示例中，控制设备202使用来自多个耦合的智能装置的智能装置的标识，从远程服务器208接收配置信息。例如，服务器208从TV 106接收位于终端用户家中的多个智能装置的标识。在此示例中，一个或多个智能装置执行操作以检测其他连接的智能装置，并将该信息提供给远程服务器208。服务器208依次分析该信息以确定每个检测到的智能装置的设备配置文件。服务器208将针对每个检测到的智能装置的设备配置文件存储在数据库210中，并将针对每个检测到的智能装置的设备配置文件直接发送到控制设备202。在一些示例中，设备配置文件包括一个或多个支持的命令和定义与智能装置相关的动词和语法的集合的操作能力，并且可以包括关于如何向智能装置发送语音的第二定义。

在又一示例中，控制设备202经由广域网216从云服务302接收配置信息。在该示例中，一个或多个智能装置执行操作以检测其他连接的智能装置并将该信息提供给云服务302。然后，云服务302分析该信息以确定每个检测到的智能装置的设备配置文件。然后，云服务302将用于每个检测到的智能装置的设备配置文件发送到控制设备202。

在另一个示例中，具有麦克风的设备接收语音命令并将语音命令发送到控制设备202，例如耦合到语音控制的智能个人助理服务(例如Amazon品牌Alexa品牌设备)的Echo或类似类型的智能装置，其自身用作家庭自动化集线器，并与语音处理服务116、云服务302或服务器208通信耦合。在此示例中，控制设备202将语音命令发送到Echo，模仿Amazon品牌Alexa品牌语音遥控器的信号。Echo将语音命令发送到Alexa品牌服务，其中Alexa品牌服务在与服务器208和云服务302(例如IFTTT)的协作过程中提供IFTTT服务，以自动执行一个或多个预定义IFTTT操作，该预定义IFTTT操作使得一个或多个预定义操作由IFTTT服务发送到通过使用UCE 200耦合到IFTTT服务的一个或多个智能装置(如TV 106)。该一个或多个操作经由通信接口506由TV 106接收，以由处理器502执行特定操作。此类操作可以在云服务302处预先填充，可以在控制设备202中经由与IFTTT服务相关联的应用程序预先填充和/或可以在与Alexa服务和TV 106相关联的IFTTT服务的设置期间填充。IFTTT服务和操作是本领域技术人员众所周知的，因此在此不进行描述。

例如，如果用户说出“Alexa，我想玩Xbox”，则控制设备202根据语音命令确定用户希望使用Echo，并识别用于与Echo通信的正确信号或协议。然后，Echo将语音命令发送到Alexa品牌服务，该服务耦合到云服务302(例如IFTTT服务)或类似的服务。IFTTT服务通过使用小应用程序或配方(recipe)来确定预定义的操作，以经由互联网将所确定的操作提供给服务器208。服务器208经由互联网从IFTTT服务接收一个或多个操作，以由处理器502提供给TV 106。TV 106经由通信接口506接收该操作，并且处理器502执行一个或多个所接收的操作。

例如，词语“Alexa我想玩Xbox”可以是与IFTTT服务关联并与云服务302关联的预定义短语或一系列预定义操作。此类操作可以包括自动更改在TV 106上的HDMI输入，打开Xbox品牌游戏系统204的电源，将音量设置为预定级别，将灯光调为预定级别，等等。一个或多个操作可以采用一个或多个IFTTT小程序的结构，可以将其合并为一个工作流，以便同时执行多个操作，或者可以以预定的时间间隔执行这些操作。应当理解，除非另有相反说明，否则所描述的操作中的一个或多个可以由TV 106接收和/或执行，或者可以由一个或多个耦合的智能装置接收和/或执行。

应当理解，如图2所示，控制设备202可以包括多个其他功能，例如启用运动传感器的功能，手势识别，并且可以包括显示图像(例如徽标、字母数字文本等)的功能。如图3所示，这样的控制设备可以与一个或多个应用程序协作以控制智能装置。此外，控制设备202可以与一个或多个智能装置协作，每个智能装置包括例如在客户端-服务器模型中的计算客户端以配置和/或控制智能装置。在一些示例中，麦克风耦合到位于用户家的不同房间中的一个或多个设备，其中具有麦克风的设备经由局域网或广域网216耦合到控制设备202，用于将语音命令发送给控制设备202。

在某些情况下，如图7和图8所示，与控制设备202相关联的语音处理服务(无论是驻留在设备本身上，还是由基于互联网云的处理服务提供等)可以执行响度分析，以确定正在提供给控制设备202的任何语音的响度和/或控制设备202在其中操作的环境的响度，即任何背景噪声的响度。作为非限制性示例，可以将美国专利号9,847,096中描述的响度感测组件和功能用于该目的。以这种方式，可以执行响度分析以确定响度估计，该响度估计指示控制语音输入和/或与控制语音输入一起接收的背景噪声的水平。基于响度估计，与预定阈值(可以通过校准控制设备202来确定，例如，通过在某些噪声条件下激活麦克风和/或通过以正常语音说一个或多个命令-阈值可以是绝对值或建立为一个范围)相比，系统可以确定控制语音输入正在被大声地提供(例如，控制语音输入的响度估计大于预定语音输入阈值)，控制语音输入正在被柔和地提供(例如，控制语音输入的响度估计小于预定语音输入阈值)，控制语音输入正在被正常地提供(例如，控制语音输入的响度估计在预定的语音输入阈值范围内)，环境是吵闹的(例如，环境的响度估计大于预设的环境阈值)，环境安静(例如，环境的响度估计小于预定环境阈值)和/或环境正常(例如，环境的响度估计在预定的环境阈值范围内)。

使用这样确定的响度信息，可以预期的是，控制设备202可以进一步调整以执行附加功能。例如，当控制设备202包括用于输出信息、播放音乐等的扬声器时(如美国申请号15/799,393中所描述)，控制设备202可以使用响度确定来自动调整信息、音乐等通过扬声器输出的水平。在这点上，当确定环境是吵闹(或正在变吵闹)时，控制设备202可以自动提高信息、音乐等经由扬声器输出的的水平(优选地，由此扬声器的DB输出略微升高，因此考虑到环境中的噪声水平，听众可以正确听到输出)；当确定环境安静(或正在变得安静)时，信息、音乐等经由扬声器输出的水平可以被降低；当确定讲话者已经提高(或正在提高)他们的声音时，可以将信息、音乐等经由扬声器输出的水平自动升高；当确定讲话者降低了(或者正在降低)他们的声音时，信息、音乐等通过扬声器输出的水平可以被自动降低。

还可以预期，该确定的响度信息可以被系统用来自动地发出一个或多个命令，以控制与环境相关联的响度水平。例如，当确定环境是吵闹的(或者正在变得吵闹)而用户正在试图向控制设备202提供语音时，系统可以尝试通过向一个或多个受控设备发送一个或多个命令(不管是语音命令或常规远程控制命令)来降低环境所产生的噪声。以这种方式，在确定环境为吵闹的(或正在变得吵闹)时，该系统可用于自动向声音源(例如电视)发送命令以静音、关闭电源或以其他方式降低声音源的输出音量级。该控制可以在控制设备202听到设备激活或触发关键字后立即执行，其优点是减少了用户说出命令之前环境所产生的噪音，因为命令输入通常要求更好的声音质量，以便系统理解命令。此外，系统可以基于系统状态信息自动确定以此方式控制的特定设备。因此，如果系统基于从系统接收到的状态信息得知电视当前处于打开状态，则系统可以自动选择电视作为要控制的设备。类似地，如果系统知道控制设备202最后用于打开电视、控制电视的音量等，则系统可以推断出(例如，当无法从连接的设备实际接收状态信息时)电视是产生声音的设备，并且可以自动选择电视作为要控制的设备。如所指出的，可以由系统单独地或组合地使用本文已经描述的任何控制步骤执行对一个或多个所选设备的控制。还将理解，如果需要，当系统确定用户不可能再发布语音通信时(例如，自从接收到最后一个命令起经过了预定的时间量之后，最后一个接收到的命令指示一个完整的请求，这意味着在给定的时间量内预计不会有进一步的语音输入，等等)，受控设备可以由系统自动返回给定状态(例如，重新通电，取消静音，提高音量)。此外，如果设备在接收到触发命令并立即使命令发出以降低可控设备的声音水平之后的预定时间段内没有收到可识别的命令，则系统可以运行以自动使得一个或多个其他命令被发出，以降低可控设备的声音水平，直到接收到并识别出语音输入命令、时限已过(据此，可控设备可返回到其原始状态)等。

还将理解，可以利用附加条件来适应地改变系统响应用户命令和查询或另外输出声音的方式。例如，上下文参数(例如，一天中的时间)可用于自动识别模式(例如，夜间时间/睡眠时间)，从而可以调节控制设备202的输出音频水平或禁止相应地调节。同样，可以针对一天中的不同时间等建立不同的响度阈值，以供如上所述使用。

在其他情况下，讲话者和/或环境的确定的响度水平也可以考虑音频源和控制设备202之间距离的度量，以提供改进的响应命令等的灵活性。例如，如果讲话者的命令听起来不大声，但是讲话者被测量为靠近控制设备202，则确定的响度水平可以指示用户正在耳语。然而，如果讲话者命令听起来不大声，但是讲话者被测量为与控制设备202相距很远，则确定的响度水平可以指示用户正在正常讲话或正在大喊。因此，在这样的情况下，所确定的响度水平可以是由如上所述的系统确定的声音水平，根据到音频源的测量距离而增加或降低。

为了用于调整确定的响度水平，可以利用绝对和/或相对距离。为此，可以利用提供给控制设备202的照相机、图像传感器、光传感器等，来准确地(或近似地)确定讲话者所处位置距离控制设备202多远和/或当讲话者说出命令时讲话者是否已经相对地靠近控制设备202或远离控制设备202移动。同样，可以使用麦克风阵列来完成距离的测量，该麦克风阵列将由两个或多个麦克风组成。此外，具有某种处理水平的单个麦克风也可以用于估计讲话者的距离。当然，可以将用于测量物体之间的距离的其他已知装置(例如在激光测量装置等中发现的那些)提供给控制设备202，以用于该目的。

还应当理解，到命令讲话者的测量距离同样可以用于调节可以由控制设备202生成的任何输出的响度水平，从而确保响应以适当的水平输出，例如，以足以让远处的预期接收者听到的水平，或以较低的水平，以免使近的预期接收者无法承受。

虽然描述为用于接收语音命令的麦克风，但是应该理解，麦克风包括将声音转换为电信号的任何换能器类型的设备，并且在每个设备中可以包括一个或多个麦克风，并且每个设备可以彼此耦合、耦合到控制设备202和智能装置。

尽管被描述为活动的HDMI输入，但是应该理解，活动的输入包括在音-视频上的任何活动的源/汇聚端口/通信总线状态，其可以有线或无线地连接到发起状态请求的智能装置。

还应理解的是，控制设备202可以在工厂被部分地配置预先安装的一个或多个设备配置文件。当初始通电时，控制设备202可以被配置为例如在控制设备202和STB 108开箱后彼此配对时与诸如STB 108的预定智能装置自动通信。类似地，当最终用户按下控制设备202上的第一键以发起与所述STB 108的通信时，可以执行自动配对操作。

尽管已经详细描述了各种概念，但是本领域技术人员将认识到，可以根据本公开的整体教导来对那些概念进行各种修改和替代。此外，尽管在功能模块的上下文中进行了描述并且使用框图格式进行了说明，但是应当理解，除非相反地指出，否则所描述的功能和/或特征中的一个或多个可以集成在单个物理设备和/或软件模块中，或者可以在单独的物理设备或软件模块中实现一个或多个功能和/或特征。还应当理解，为了能够理解本发明，不需要对每个模块的实际实现方案进行详细的讨论。相反，考虑到系统中各种功能模块的属性、功能和相互关系在本文中的公开，这样的模块的实际实现将完全在工程师的常规技能之内。因此，本领域技术人员使用普通技术就能够实践权利要求中阐述的发明，而无需进行过多的实验。另外将认识到，所公开的特定概念仅是说明性的，并不限制本发明的范围，本发明的范围将由所附权利要求及其任何等同方案的所有方面给出。

本文中引用的所有专利均通过引用全文并入本文。

Claims

1.一种用于控制驻留在环境中的可控装置的方法，所述可控装置包括适于接收语音输入的设备，所述方法包括：

使用从所述设备运行的环境中捕获的第一声音数据建立噪声阈值；

在所述设备处接收语音输入；

使用在所述设备接收到所述语音输入时从所述设备运行的环境中捕获的第二声音数据来确定噪声水平；

确定是否确定的噪声水平大于建立的噪声阈值；和

直接响应于确定了确定的噪声水平大于建立的噪声阈值，使得一个或多个命令自动发布到可控装置，从而使可控装置从具有第一音量水平的第一状态变为具有第二音量水平的第二状态，所述第二音量水平小于所述第一音量水平。

2.根据权利要求1所述的方法，其中所述设备适于支持远程控制功能，并且其中，所述一个或多个命令直接被所述设备发送到所述可控装置。

3.根据权利要求2所述的方法，其中所述一个或多个命令包括音量静音命令。

4.根据权利要求2所述的方法，其中所述一个或多个命令包括一个或多个音量减小命令。

5.根据权利要求2所述的方法，其中所述一个或多个命令包括电源关闭命令。

6.根据权利要求1所述的方法，包括：在接收到语音输入之后的预定时间段内，确定所述设备还没有接收到进一步的语音输入，并且作为响应，使一个或多个命令被自动发送至可控装置，从而使可控装置从第二状态转换回第一状态。

7.根据权利要求6所述的方法，其中所述设备适于支持远程控制功能，并且其中用于将所述可控装置从所述第一状态转换到所述第二状态以及将所述可控装置从所述第二状态转换回到第一状态的所述一个或多个命令都直接由所述设备传送到所述可控装置。

8.根据权利要求1所述的方法，包括：在接收到语音输入之后的预定时间段内，确定所述设备预期没有接收其他语音输入，并且作为响应，使一个或多个命令被自动发布给可控装置，从而使可控装置从第二状态转换回第一状态。

9.根据权利要求8所述的方法，其中所述设备适于支持远程控制功能，并且其中，用于将所述可控装置从所述第一状态转换到所述第二状态以及将所述可控装置从所述第二状态转换回到第一状态的所述一个或多个命令都直接由所述设备传送到所述可控装置。

10.根据权利要求1所述的方法，还包括使用所述可控装置的已知操作状态来确定是否要自动向所述可控装置发出一个或多个命令，从而使所述可控装置从具有第一音量水平的第一状态变为具有第二音量水平的第二状态，所述第二音量水平小于所述第一音量水平。

11.根据权利要求1所述的方法，还包括：使用所述可控装置的衍生操作状态来确定是否要自动向所述可控装置发出一个或多个命令，从而使所述可控装置从具有第一音量水平的第一状态转变为具有第二音量水平的第二状态，所述第二音量水平小于所述第一音量水平。

12.根据权利要求1所述的方法，还包括：为所述设备建立语音输入阈值；确定所接收的语音输入的语音水平；将所确定的语音水平与所述语音输入阈值进行比较；以及当所述比较指示所确定的语音输入水平大于所建立的语音输入阈值时，使得响应于语音输入而产生的一个或多个输出具有大于正常使用的输出水平的第一音量水平。

13.根据权利要求12所述的方法，其中所述设备包括扬声器，所述扬声器用于输出响应于所述语音输入而生成的一个或多个输出。

14.根据权利要求1所述的方法，还包括：为所述设备建立语音输入阈值；确定所接收的语音输入的语音水平；将所确定的语音水平与所述语音输入阈值进行比较；以及当所述比较指示所确定的语音输入水平大于所建立的语音输入阈值时，使得响应于语音输入而生成的一个或多个输出具有小于正常使用的输出水平的第一音量水平。

15.根据权利要求12所述的方法，其中所述设备包括扬声器，所述扬声器用于输出响应于所述语音输入而生成的一个或多个输出。

16.根据权利要求1所述的方法，包括：将一天中的时间与所建立的噪声阈值相关联，并且仅当在一天中的某一时间中接收到接收的语音输入时，才将所确定的噪声水平与所建立的噪声阈值进行比较。

17.根据权利要求1所述的方法，其中所述设备包括远程控制应用程序，其中所述远程控制应用程序设置有适于命令所述可控装置的功能操作的命令代码集，并且其中所述设备使用所设置的命令代码集将一个或多个命令通过使用与所述设备关联的发射器自动发送给可控装置，从而使可控装置从具有第一音量水平的第一状态转换为具有第二音量水平的第二状态，所述第二音量水平小于所述第一音量水平。

18.根据权利要求1所述的方法，其中所述设备包括语音控制应用程序，其中所述语音控制应用程序设置有至少一个协议，用于向至少一个另外的适于接收语音输入的设备发送语音命令，并且其中，所述设备使用设置的协议，通过使用与所述设备相关联的发射器，将一个或多个语音命令自动发送给至少一个其他设备，以使可控装置从具有第一音量水平的第一状态转变为具有第二音量水平的第二状态，所述第二音量水平小于所述第一音量水平。

19.根据权利要求18所述的方法，其中所述可控装置包括所述其他设备。

20.根据权利要求12所述的方法，其中当确定所接收的语音输入的语音水平时，利用到语音输入的源的测量距离。

21.根据权利要求14所述的方法，其中当确定所接收的语音输入的语音水平时，利用到语音输入的源的测量距离。