CN111903194A

CN111903194A - 使用连接的照明系统来增强语音命令的系统和方法

Info

Publication number: CN111903194A
Application number: CN201980023978.0A
Authority: CN
Inventors: O·P·奥拉莱耶; 韩东
Original assignee: Signify Holding BV
Current assignee: Signify Holding BV
Priority date: 2018-04-02
Filing date: 2019-03-25
Publication date: 2020-11-06
Anticipated expiration: 2039-03-25
Also published as: WO2019192869A1; EP3777485B1; EP3550939A1; EP3777485A1; US20210029803A1; CN111903194B

Abstract

一种用于经由包括连接的照明系统和基于话音的计算设备的系统来增强针对基于话音的计算设备的语音命令的处理的方法和系统。该方法包括利用一个或多个传感器收集与基于话音的计算设备附近的区域中的用户或环境状况有关的数据。从收集的数据确定与用户和/或局部区域或环境有关的一个或多个线索。照明系统的控制器接收与由基于话音的计算设备接收的声音输入有关的一个或多个参数。利用用户和/或环境线索来更新该一个或多个参数。利用更新的参数分析声音输入，以从声音输入中解释预期的语音命令。

Description

使用连接的照明系统来增强语音命令的系统和方法

技术领域

本公开一般地针对语音识别系统，并且更特别地涉及使用连接的照明系统来增强基于话音的计算设备进行的语音识别。

背景技术

当基于话音的家庭自动化设备（例如Amazon Echo、Google Home）无法听到语音输入时，设备会受到影响。例如，用户的语音命令可能会在高度占用的房间中丢失，可能由于背景或外界噪声而变得嘈杂，和/或由于说话者的方向、角度、姿势、尺寸和/或其他特征而可能无法被设备准确接收。结果，输入语音信号的质量的缺陷可导致输入信号不能被家庭自动化设备准确地处理。尤其是由于这样的设备主要依赖声音作为唯一输入源。

美国专利公开No. 2017188437描述了语音控制的电灯开关，其用作语音控制的端点，用户可在该端点处提供语音命令。这些语音命令控制的灯开关包括捕获语音命令并与居中的家庭自动化设备通信的麦克风。然而，在该标识的出版物中描述的语音控制的灯开关方案不能解决上述缺陷。

因此，在本领域中继续需要用于改进基于话音的计算设备的语音识别性能的系统和方法。

发明内容

本公开针对经由包括在连接的照明系统和基于话音的计算设备之间的通信层的系统来提高基于话音的计算设备中的语音命令的准确性的发明性系统和方法。连接的照明系统包括一些用于方位、占用和/或活动识别的集成传感器。这些传感器可以包括PIR传感器、微波传感器、热电堆传感器、温度和其他可嵌入的轻量传感器。所公开的实施例涉及使用连接的照明系统中的嵌入式传感器来增强对基于话音的计算设备的输入。作为示例，一个或多个传感器，诸如方位、微波、热电堆和/或其他类型的传感器，可以被配置为检测与基于话音的计算设备和照明系统附近的区域中的环境和用户有关的数据。基于收集的数据，可以确定与用户和环境有关的参数。例如，可以相对于基于话音的计算设备来定位用户。取决于所使用的特定传感器，可以从收集的数据确定附加用户或环境线索，诸如用户的相对高度或尺寸、身体取向（例如，用户是否站立、坐着、躺下等）、用户的面部取向（例如，用户朝哪个方向看）、用户的移动方向、房间中的人数、房间中活跃说话者的人数、房间中不存在人、室内温度、房间中占用者的相对尺寸，等等。另外，可以随时间推移跟踪此数据，并利用同时收集的数据分析房间中的历史模式。此信息可用于调整基于话音的计算设备所使用的语音处理算法的输入参数，从而补充对于基于话音的辅助设备的基于语音的命令，同时加强（或替换）基于语音的用户定位以及其他信号处理技术，诸如噪声消除或波束成形。

通常，在一个方面，提供了一种用于处理来自用户的语音命令的方法。该方法包括：由照明系统中的一个或多个传感器收集与基于话音的计算设备附近的区域有关的数据；从与该区域中的用户或环境状况有关的数据确定一个或多个线索；由照明系统的控制器接收与由基于话音的计算设备接收的声音输入有关的一个或多个参数；利用一个或多个线索更新一个或多个参数；以及利用更新的参数分析声音输入，以从声音输入中解释预期的语音命令。

根据一个实施例，一个或多个线索包括该区域中的用户总数、用户的移动方向、用户的身体取向、用户的面部取向、用户的尺寸或身高、该区域中的温度、该区域中的外界噪声水平、或包括上述至少一项的组合。

根据一个实施例，该方法还包括基于线索来确定该区域中的情景。根据一个实施例，用户包括成人用户和儿童用户，并且该方法还包括衰减或归一化由儿童用户产生的声音。根据一个实施例，该情景包括检测区中的用户、或者该用户以及一个或多个附加用户，并且该方法还包括衰减或归一化该区外部的声音。根据一个实施例，该情景包括不检测用户，并且该方法还包括忽略声音输入。

根据一个实施例，该方法还包括基于所存储的历史信息来确定用户的身份，所存储的历史信息包括先前收集的数据、先前确定的线索、或包括上述至少一项的组合。

根据一个实施例，该方法还包括确定该区域中的用户或另一用户是否是儿童，以及如果该用户被标识为儿童，则禁用、启用或修改该基于话音的计算设备将实施的语音命令的子集。

根据一个实施例，一个或多个传感器包括被动红外传感器、热电堆、相机、微波发射器、射频波发射器、温度传感器、外界噪声水平传感器、或包括上述至少一项的组合。

根据一个实施例，由照明系统的控制器接收的一个或多个参数包括由基于话音的计算设备使用声音定位技术生成的用户的估计位置。

根据一个实施例，该方法还包括检索在先的用户活动，并且更新包括利用在先的用户活动来更新一个或多个参数。

根据一个实施例，该方法还包括根据预期的语音命令来操作基于话音的计算设备。

通常在另一方面，提供了一种用于处理来自用户的语音命令的方法。该方法包括：由照明系统中的一个或多个传感器收集与基于话音的计算设备附近的区域中的用户有关的方位数据；从方位数据确定用户的位置；接收与语音输入有关的一个或多个参数；利用用户的位置更新一个或多个参数；以及利用更新的参数分析语音输入，以从语音输入中确定预期的语音命令。

通常在另一方面，提供了一种用于增强来自用户的语音命令的处理的照明系统。该照明系统包括一个或多个照明器材；一个或多个传感器，其被配置为收集与基于话音的计算设备附近的区域中的用户或环境状况有关的数据；以及控制器，其被配置为：从一个或多个传感器接收数据；从数据确定一个或多个线索用户；接收与由基于话音的计算设备接收的声音输入有关的一个或多个参数；利用线索更新一个或多个参数；并利用更新的参数分析声音输入，以从声音输入中确定预期的语音命令。

根据一个实施例，该传感器包括被动红外传感器、热电堆、相机、微波发射器、射频波发射器、温度传感器、外界噪声水平传感器、或包括上述至少一项的组合。

应当领会，上述概念和下面更详细讨论的附加概念的所有组合（假设这样的概念并不相互矛盾）被认为是本文公开的发明性主题的一部分。特别地，出现在本公开的结尾处的要求保护的主题的所有组合被认为是本文公开的发明性主题的一部分。还应领会，本文明确采用的、也可能出现在通过引用并入的任何公开中的术语应被赋予与本文公开的特定概念最一致的含义。

附图说明

在附图中，贯穿不同的视图，相似的附图标记通常指代相同的部分。而且，附图不一定按比例绘制，而是通常将重点放在说明本发明的原理上。

图1是根据本文公开的一个实施例的被配置为使用连接的照明系统来增强基于话音的计算设备的语音识别能力的系统的框图。

图2是图示出根据本文公开的一个实施例的用于使用诸如图1的系统之类的系统来使用连接的照明系统增强基于话音的计算设备的语音识别能力的方法的流程图。

图3是根据本文描述的一个示例的具有连接的照明系统的代表性区域的示意性平面图，该照明系统被配置为增强基于话音的计算设备的语音识别能力。

具体实施方式

本公开描述了基于话音的计算设备和照明系统的各种实施例。更一般而言，申请人已经认识并领会到，将有益的是，提供一种系统，其中使用由启用传感器的照明系统收集的方位、活动、占用、外界数据和/或其他数据来增强基于话音的计算设备从输入声音信号中准确地理解或解释语音命令的能力。利用本公开的某些实施例的特定目标是提高基于话音的计算设备正确解释语音命令的能力。

鉴于上述内容，各种实施例和实施方式针对包括启用传感器的照明系统的系统和方法，该启用传感器的照明系统用于增强基于话音的或语音激活的计算设备准确地解释或理解语音命令的能力。影响基于话音的设备的语音输入质量以及因此基于话音的设备从输入中理解语音命令的能力的因素包括（除了别的之外）：多个同时说话者、高背景噪声、缺乏说话者位置的三角测量的准确性、缺乏对说话者方位或就座角度的了解、缺乏有关外部特性的信息（例如室温或湿度）、以及难以针对处于相似角度但距麦克风阵列不同范围的多个说话者进行准确补偿。另外，由固定设备感知的话音质量与说话者的移动方向、说话的人的角度和身体取向、说话的人的尺寸等具有可校准的关系。

因此，照明系统包括一个或多个传感器，该一个或多个传感器被配置为检测与基于话音的设备和照明系统附近的区域中的环境和用户有关的方位数据。基于收集的数据，可以确定与用户和环境有关的参数。例如，可以相对于基于话音的设备来定位用户。根据所使用的特定传感器，可以从收集的数据确定附加用户或环境线索，诸如用户的相对高度或尺寸、身体取向（例如，用户是否站立、坐着、躺下等）、用户的面部取向（例如，用户朝哪个方向看）、用户的移动方向、房间中的人数、房间中活跃说话者的数目、房间中不存在人、室内温度、房间中占用者的相对尺寸，等等。另外，可以随时间推移跟踪此数据，并利用同时收集的数据分析房间中的历史模式。此信息可用于调整基于话音的设备所使用的语音处理算法的输入参数，从而补充对于基于话音的辅助设备的基于语音的命令，同时加强（或替换）由基于话音的设备使用声音定位以及其他信号处理技术（诸如噪声消除或波束成形）确定的用户的估计位置。

参照图1，在一个实施例中，提供了一种系统10，其包括基于话音的或语音激活的计算设备12、照明系统14以及在数据通信中连接计算设备12和照明系统14的通信层（诸如数据链路16）。计算设备12在本文中可以被称为“智能设备12”，并且可以包括任何已知的或开发的基于话音的或语音激活的计算设备。示例包括由Amazon以Echo的名义销售的设备、由Google以Google Home的名义销售的设备、以及由Apple以HomePod的名义销售的设备。

照明系统14包括一个或多个灯具18，灯具18中的至少一个装备有传感器20，传感器20被配置为收集与一个或多个邻近的用户（人、个人等）的位置、方位或取向有关的数据和/或与附近区域中的一个或多个外界或环境状况（诸如温度、噪声水平等）有关的数据。在一个实施例中，传感器20每个都包括一个被动红外（PIR）运动检测传感器，而在其他实施例中，传感器20可以包括热电堆、微波发射器、射频波发射器、相机、温度传感器、噪声水平传感器或可以检测外界或环境状况、邻近个人的方位或可以用来确定邻近个人的方位的任何其他传感器（例如，运动检测器可用于基于检测到的移动来确定用户的位置）。许多方位传感器还能够确定所检测对象的相对尺寸和/或形状。例如，通过映射检测到的红外发射的特定形状和尺寸，可以由PIR传感器或PIR传感器阵列确定用户的大致身高或身体取向，而移动可以通过跟踪红外发射的位置的变化来确定。其他方位传感器可以类似地至少大致确定对象（诸如人）的形状、尺寸和/或移动。

当前存在这样的连接的照明系统，其具有被配置为响应于检测到的移动而打开（和/或如果在某个预定时间段内未检测到用户移动而自动关闭）的灯具。有利地，可以利用这种类型的现有照明系统安装来辅助形成本文所公开的系统和方法。在形成照明系统14中使用的这种系统的商业可用的示例包括由Philips Lighting以Hue的名称销售的照明系统和由PointGrab，Inc.以CogniPoint的名义销售的建筑物控制系统。因此，应当领会，除了照明系统14之外和/或代替照明系统14，可以利用建筑物控制系统和其他启用传感器的系统。

照明系统14可以包括布置有处理器24、存储器26和通信模块28的控制器22。控制器22可以充当与灯具18通信的中央单元或网桥，以促进所有灯具18或灯具18的子集的受控操作（例如，以改变灯具发出的光的颜色、设置自动调光特征等）。灯具18可以彼此直接通信（例如，网状网络的一部分），或者仅经由控制器22通信。应领会的是，代替控制器22或除了控制器22之外，在控制器22被布置为中央单元的情况下，一个或多个灯具18可以布置有单独的控制器（其可以通常如关于控制器22所讨论的那样布置）。

处理器24可以采用任何合适的形式，诸如被配置为执行软件指令的微控制器、多个微控制器、电路系统、单个处理器或多个处理器。存储器26可以采用任何合适的形式或多种形式，包括诸如随机存取存储器（RAM）之类的易失性存储器，或者诸如只读存储器（ROM）、闪存、硬盘驱动器（HDD）、固态驱动器（SSD）或其他数据存储介质之类的非易失性存储器。存储器26可以由处理器24用于在其操作期间临时存储数据。数据和软件（例如分析传感器20收集的数据所必需的算法或软件）、操作系统、固件或其他应用程序，可以安装在存储器24中。通信模块28被布置为使得能够实现照明系统14的组件之间的有线或无线信号通信。通信模块28可以是使用包括但不限于Wi-Fi（例如，IEEE 802.11）、蓝牙、蜂窝、以太网、Zigbee等技术、能够实现有线或无线通信信号的发送和/或接收的任何模块、设备或装置。

智能设备12还可以包括麦克风30，麦克风30被配置为接收声音输入，该声音输入例如由控制器32经由任何期望的语音识别技术进行处理，以响应于经由语音输入发出的命令而引起智能设备12的一个或多个功能的操作。麦克风30可以包括麦克风阵列，例如以实现声音定位、波束形成或其他信号处理技术。类似于控制器22，控制器32可以包括通常如上所述布置的处理器34、存储器36和通信模块38。智能设备12可以包括特定的触发短语或代码字（“触发信号（trigger）”），该特定触发短语或代码字用于将智能设备12从被动收听模式转换（例如，在该模式中，智能设备12正在以有限的容量处理声音输入，例如，仅在标识邻近的用户是否已经说出触发信号所必需的程度上）至主动收听模式，在该模式下，智能设备12在标识触发信号之后针对一个或多个命令而处理语音输入。代表捕获的语音输入的声音信号可以被临时存储在存储器36中，并根据任何语音识别技术或方法经由处理器34进行分析。

数据链路16可以是用于在设备12和系统14之间传输数据的任何合适的装置（例如，分别经由控制器22和32的通信模块28和38）。数据链路16可以包括任何有线或无线通信协议或技术或其组合。在一个实施例中，数据链路16包括将智能设备12和照明系统14的控制器22连接在一起的以太网兼容电缆。在其他实施例中，数据链路16可以经由蓝牙、Wi-Fi、Zigbee或其他协议无线地形成。应领会的是，可以连接任意数量的中间网络设备以建立数据链路16，所述中间网络设备诸如路由器、网桥、调制解调器等。

另外，智能设备12和/或照明系统14可以与云实现的服务器40通信（例如，经由通信模块28和/或38），该服务器可以附加地或替换地包括用于利用附加计算资源辅助智能设备12和/或照明系统14的控制器。这样，应理解的是，本文中对控制器22和/或32的引用应包括这样的实施例，其中关于控制器22和/或32讨论的至少一些计算资源或过程由服务器40提供。换句话说，在一些实施例中，控制器22和32可以至少部分地由服务器40形成。此外，注意，智能设备12和照明系统14可以被组合或集成为例如单个设备，或者使得控制器22和32组合或集成在一起。还应当领会的是，可以通过智能设备12和照明系统14两者与互联网通信而在云实现的基础设施（诸如服务器40）上在智能设备12和照明系统14之间间接地建立数据链路16。

图2中图示了用于操作语音命令解释系统（例如，系统10）以利用启用传感器的照明系统（例如，具有传感器20的照明系统14）增强基于话音的或语音激活的计算设备（例如，智能设备12）的性能的方法100。如下面更详细地讨论的，方法100可以用于增强性能，诸如通过更正对基于话音的或语音激活的计算设备的不准确或无法辨认的语音命令、提高在拥挤的房间中解释命令的准确性、标识未成年人或儿童、更准确地解释用户的移动取向和/或方向、衰减或归一化源自非用户（例如媒体设备）的声音等。

方法100从步骤102a开始，在步骤102a中，用户对智能设备说话。在步骤104，（例如，经由麦克风30）接收用户的发声，并由智能设备对其进行分析（例如，由控制器32转换为数字信号）。响应于检测到发声，智能设备被激活和/或进入活跃模式。例如，在活跃模式下，智能设备可以被配置为主动接收并响应用户发出的语音命令。可以通过控制器32分析智能设备12的麦克风30所接收的语音输入来确定发声。

在智能设备激活时，可以将启动信号发送到照明系统或被照明系统拦截（例如，通过数据链路16）以启动步骤106。在步骤106，照明系统映射相关区域、相关区域中的区、和/或标识照明系统中的哪些灯具对应于相关区域或区。例如，由智能设备发送的启动信号可以包括智能设备确定的、语音触发信号所源自的大致的区、区域或方向，例如，通过利用多麦克风阵列和声音定位技术。

步骤106前进到步骤108，在步骤108中，照明系统开始从其集成的传感器（例如，传感器20）收集、获取和/或分析收集的数据。为了限制所需的计算资源，启用传感器的照明系统在正常情况下可能会常规地丢弃、删除或高度压缩由其传感器收集的收集数据。因此，步骤108可以包括存储相对增加数量的原始或未压缩数据，而不是丢弃或过度压缩该数据。步骤108可能导致在步骤104结束时从智能设备发送启动信号之后紧接着（和/或如果使用了已压缩数据，或在压缩或删除之前将数据存储一段时间，则紧居于在步骤104结束时从智能设备发送启动信号之前）在预设时间量（例如，几秒钟）内收集数据。

在步骤102b，用户继续说话以便发出一个或多个语音命令，指示智能设备采取某些特定动作。在步骤110，根据任何期望的语音识别或信号处理算法来接收和分析语音命令，以确定命令是否被清楚地理解。如果命令是可辨认的，则方法100可以在步骤112处结束，在步骤112中，智能设备根据语音命令的原始理解进行操作。如果命令不可辨认，则步骤110继续到步骤114，在步骤114中，定义命令的当前理解或解释的一些或全部参数（例如，原始声音信号、通过波束成形或其他技术处理的声音信号、通过声音定位估计出的用户方位等）被提供给照明系统。步骤110也可以独立地前进到步骤115，在步骤115重新定义、选择或更新感兴趣的相关区，例如，以用于方法100的未来循环。

在步骤116，照明系统使用从步骤114发送的参数和从步骤108收集的数据来对用户活动和环境特征进行分类。更特别地，这涉及确定与用户或环境状况有关的一个或多个“线索”，以及描述当前用户活动和环境场景或特征的一个或多个“情景”。例如，“线索”可以包括从有关受监视区域中的用户的数据（诸如该区域或区中的用户总数、指定区域或区中每个用户的特定位置、移动方向（或缺少移动）、身体取向（例如，用户是否坐着、站着、躺下等）、面部取向（例如，用户注视的方向）、用户的相对尺寸（例如，身高））计算或确定的可量化信息。线索还可以包括环境线索，诸如温度、外界噪声水平等。应领会的是，线索可以包括可从传感器收集的数据可量化地确定的这些或其他特征的任意组合。关于系统10，所收集的数据可以与算法（例如，线索检索算法）一起被存储在控制器22的存储器26中，该算法被配置为使得处理器24能够分析数据以标识、计算或以其他方式确定所确定的线索中的一个或多个线索。

相比之下，“情景”是指基于线索做出的概率猜测或更高级别的确定，这些概率猜测或更高级别的确定更一般地描述或标记了受监视区域中的当前情景。例如，系统可以具有线索的不同组合，所述线索指示不同情景，诸如当存在成人和儿童时、当存在一组用户或聚集的用户时、当仅存在单个用户时、或当不存在用户时。更具体地，下面参考图3讨论示例。关于系统10，线索可以被存储在存储器26中，并且可以被用作存储在存储器26中的另一算法（例如，情景检索算法）的输入，该另一算法被配置为基于线索确定各情景中的任何情景是否是可应用的。

步骤114也可以前进到步骤118和/或120，在步骤118和/或120中，智能设备分别请求针对特定属性或一般属性的附加上下文。例如，特定属性可以与特定线索（例如，一个或多个用户的位置、用户总数等）有关，而一般属性可以包括上面讨论的任何情景、特定类型的用户（例如，基于其测量的身高而被确定为儿童的多个用户）的总数等。

在步骤122，照明系统检索与在先线索和活动有关的存储信息。例如，可以针对模式或趋势分析所收集的数据和线索，并且将与每个模式或趋势相关联的数据关联在一起。在一个实施例中，系统被配置为创建使相关数据和线索关联的一个或多个简档。可以跟踪描述用户习惯的信息，诸如每个用户频繁发出语音命令的常见位置、身体和/或面部取向、一天中的时间、一周中的几天等。换句话说，系统可以跟踪代表用户每次发出语音命令时用户在何处、在何时以及在做什么的数据，以便发现行为的任何模式。例如，如果某个用户通常每天晚上在坐在其沙发上或在炉子上做饭时，或者在工作日期间在傍晚他们一回到家在其前门处就发出语音命令，则可以跟踪并存储此信息。

应领会的是，在步骤114中从智能设备发送的信息（例如，代表语音命令的声音信号）也可以被存储在这种类型的在先用户活动简档中。在一个实施例中，可以为每个语音命令生成“声纹”，作为量化每个用户的语音的不同声学特性的组合。例如，声纹可以包括用户话音的频谱分析以标识特性，诸如当用户发出不同单词的读音时，由用户独特的生理学产生的声音信号的声波频率和幅度的组合。

以这种方式，当用户与系统10交互时，可以例如在相应的简档中跟踪、编译和存储信息，诸如在发出命令时用户的位置、在发出命令时用户的身体和/或面部取向、用户发出的命令、用户发出命令的一天中的时间和/或一周中的某天、语音命令的可量化的语音特性（例如，声纹）等。可以将简档存储（例如，在存储器26中）作为阵列、矩阵、表格等。例如，可以为系统检测到的每个不同用户生成不同的简档（例如，通过分析诸如所测量的用户的尺寸/身高、用户的声纹等之类的信息）。作为另一个示例，可以对应于事件频繁发生的一天中的时间来生成简档。

在一个实施例中，利用用户简档来检测哪个用户正在发出语音命令，并且系统根据标识出哪个用户来做出不同的反应。例如，系统10可以被配置为使用如上所述的存储的简档信息来标识用户，使得仅当标识出适当用户时，才实施某些“个人”命令或与高安全级别相关联的命令。例如，只有在拥有银行帐户的用户被标识为发出语音命令的人的情况下，才可以由系统10实施用于检查该用户的该银行帐户余额的语音命令。

如上所指出的，可以跟踪在这些事件中的每个事件下发出的语音命令，并将语音命令与时间和收集的数据进行关联。例如，如果用户始终每天在晚上10:00左右要求其智能设备关闭灯，则可以将“关闭灯”的语音命令与发出该语音命令的通常时间范围、当发出该命令时用户最常处于何处等一起存储。作为另一个示例，如果传感器包括温度传感器，并且测量的温度异常热或冷（例如，高于或低于某个阈值，该阈值可以被预先编程或基于历史趋势确定），则系统可以为输入语音命令的解释分配更大的可能性，这些输入语音命令请求智能设备根据测得的温度来控制恒温器的操作（例如，如果温度冷则增加温度，或如果温度热则降低温度）。

以这种方式，如果智能设备确定语音命令的多种不同解释是可能的，则在先的用户数据可以用作决胜局，以便向与历史趋势最接近匹配的解释分配更高的可能性。作为另一个示例，由于用户相对于智能设备的位置、移动、身体取向、面部取向等将影响应使用哪些算法和/或算法的输入参数来产生最佳结果，因此历史用户活动数据在标识对系统可以测试的不同算法或算法的输入参数的选择方面也可能有用，例如，尝试查看这些测试组合中的任何组合是否从输入声音信号中产生更易懂的语音命令。

在步骤124，更新定义语音命令的当前理解或解释的参数（来自步骤114），即，利用新确定的线索和情景中的一个或多个（来自步骤116），以及在先的用户活动（来自步骤122）。例如，如果智能设备正在使用声音定位算法（例如，以促进波束成形或噪声消除），则智能设备将基于在麦克风阵列的每个麦克风处接收的语音输入之间的差异来估计说话者相对于智能设备的相对方位和/或角度。在该示例中，在步骤124，可以将智能设备估计的用户方位/角度与从如关于步骤108、116和122描述的方位数据、线索和/或在先的使用活动确定的方位/角度进行比较、平均、和/或替换。另外，可以通过从智能设备无法确定的信息（诸如用户将其发声朝向的角度（即面部取向）、用户是否在移动以及朝什么方向移动，或者用户是站着、坐着还是躺下（即身体取向））补充定义语音命令的当前理解的参数。

在步骤126，将更新的参数用作一种或多种语音识别算法的输入，以处理语音命令信号。语音识别算法可以与关于步骤110所讨论的智能设备最初使用的算法相同。在步骤128，对来自步骤126的重新处理的语音命令信号进行重新分析，以确定语音命令的理解或解释是否已被改进。如果否，则该方法在步骤112处结束，在步骤112中，智能设备根据原始理解进行动作。如果不能确定可能的理解，则步骤112可能导致智能设备无法采取行动或请求用户重复该命令。如果已经改进了理解（例如，智能设备成功地从经处理的声音信号解释了语音命令），则方法100在步骤130处结束，在步骤130中，实施新解释的命令。应领会的是，步骤116、122、124和/或126可以由所讨论的照明系统（例如，照明系统14）和/或由智能设备（例如，智能设备 12）、基于云的基础设施（例如，服务器40）或其组合来执行。

为了更好地领会本文所公开的系统和方法（诸如系统10和方法100）的各种实施例和实施方式，图3图示了一个示例，其中多个灯具18（具体是灯具18a、18b、18c和18d）被安装在代表性的环境或区域42中。灯具18a-18d中的每一个包括传感器20（即传感器20a、20b、20c和20d）中的一个或多个传感器。另外，图3中图示了多个代表性用户44，即用户44a、44b和44c以及一组用户44d。

由传感器20收集的数据可以用于建立或确定区域42的地图和/或在区域42内定位用户44。例如，在图3中，传感器20a-20d中的每个传感器对应于一个或多个感兴趣区（或简称为“区”）46，这些区更特别地被指定为区46a、46b、46c和46d。例如，区46可以是其中传感器20中的每个传感器被布置为收集数据的区域（例如，如果传感器20d感测到用户44b，则已知用户44b处于与该传感器相对应的区46d中）。应领会的是，除了区46之外或作为区46的替代，区域42可以进一步划分为不同数量的区，在每个区中细分为多个子区，和/或可以使用如下坐标系：指定用于定位由传感器20检测到的用户的参考坐标（例如，x和y坐标）。此外，区46被示出为矩形形状，但是区46可以形成为任何其他几何形状或不规则形状。如果传感器20依赖于用户的视线，则区46可以至少部分地由墙壁和其他障碍物限定。例如，房屋中的每个房间可能是不同的区。

在一个实施例中，例如，根据方法100的步骤116，将（多个）用户的取向和/或移动方向确定为线索。作为一个示例，用户的取向和/或移动方向可以用于辅助确定哪个用户正在发出智能设备接收到的语音命令，例如，通过向面对智能设备12的用户分配比背离智能设备的用户更高的可能性。在一个实施例中，传感器20包括至少一个布置为捕获图像（包括视频）的相机。在另一实施例中，控制器22（例如，存储在存储器26中或服务器40的存储器中）深度学习机制，诸如已被训练以标识图像中的对象或特征（诸如人和/或面部识别）的人工神经网络。在一个实施例中，可以例如通过跟踪与传感器20相对应的区内或跨区的用户来检测用户是否正在移动。

例如，关于图3，由于用户44a和44b两者都相对于智能设备12成大致相同的角度，因此智能设备12可能难以区分由用户44a和44b两者产生的声音信号。使用由传感器20收集的数据和从收集的数据确定的线索，系统10可以向用户44a分配更大的可能性，因为箭头48a所代表的方向指示用户44a通常面向设备12，而方向48b指示用户44b通常背离设备12。例如，在步骤124，可以提供用户44a的更精确的位置，以更新语音识别算法的输入参数。在一个实施例中，例如在步骤124提供用户44a和44b两者的精确位置，并且例如在步骤128提供比较结果，以查看是否针对所述用户中的任一用户的任一精确位置获得了更好的理解。

基于朝向特定区域的移动方向，系统10可以将更大的可能性分配给与用户正在移动到的区域有关的语音命令的解释。例如，作为另一示例，箭头48b可以指示用户44b的移动方向（即，检测到用户44b在箭头48b所指示的方向上行走）。在该示例中，方向48b通常指示用户44b正朝向电视机50行走，因此系统10可以将与电视机50相关的语音命令的解释与更高的置信度相关联。也即，系统10可以确定语音命令可能包括语音指令“打开电视”，并且因此为该解释分配更高的置信度，因为用户44b正朝向电视50行走。作为另一示例，可以检测到用户正朝向他们的房屋的特定房间或区域移动，例如朝向厨房，并且与用户的厨房有关的语音命令的解释可以被分配更高的置信度。

如果系统10包括被训练具有面部识别能力的深度学习机制，则可以至少部分地基于检测用户的面部瞄准哪个方向来确定用户的取向。除了用于确定多个可能的用户中的哪个用户发出了语音命令之外，移动方向和/或取向还可以在处理由接收到的语音输入所致的声音信号方面是有用的。例如，面向设备12的用户（例如，用户44a）和远离设备12的用户（例如，用户44b）说出的同一句话，或者在远离或朝向设备12移动时，可能导致可量化区分的声音信号，例如，由于用户所在房间或环境的多普勒效应、反射、混响或其他声学特性。以这种方式，可以基于发出语音命令的用户的取向和/或移动方向来采用不同的声音信号滤波技术。

如上指出的，系统可以被配置为根据成人-儿童情景进行操作，其中相对较高（例如，高于预设的身高或尺寸阈值）和/或具有指示成人的声纹（例如，话音中的较低频率范围）的第一用户和相对较小（例如，低于预设的身高或尺寸阈值）和/或具有指示儿童的声纹（例如，话音中的较高频率范围）的第二用户两者都被检测到。基于这种情景，系统可以更容易地例如使用噪声消除或波束成形来衰减或归一化被确定为源自儿童的语音输入，并且偏爱被确定为源自成人的那些语音输入。例如，在图3中，用户44a被图示为比用户44c更高/更大。以这种方式，当分析输入声音信号和/或归一化来自用户44c的方向的语音输入时，系统10可以更容易地包括与用户44a有关的线索。作为另一示例，某些命令可以在存在儿童的情况下被禁用或修改，例如以实施父母控制。例如，如果儿童（例如，用户44c）被检测为存在，则可能不实施播放被标记为针对成人观众（例如由于文件名、元数据等）的媒体文件（例如歌曲、电影等）的请求。作为另一示例，如果语音命令被确定为源自儿童（例如，用户44c），则可以仅实施由系统标识为“对儿童友好”的命令的子集。

作为另一示例，系统可以被配置为检测是否存在彼此紧紧接近的多个不同用户，诸如图3中所示的一组用户44d，并且由此确定情景包括群组、聚集或聚会。以这种方式，智能设备可以补偿来自房间其他区域的噪声。类似地，系统可以被配置为检测该区域中仅一个人的存在，但是存在多个声音源。在这种单个用户情景中，可以衰减或归一化来自已标识用户的特定方向以外的任何其他源的声音输入。作为无用户情景的另一示例，系统可以确定该区域中没有用户，并且因此当房间中不存在人时，对来自媒体设备的命令进行归一化。例如，如果在图3的示例中不存在用户44，则该信息可用于使智能设备12忽略由电视机50或其他媒体设备产生的噪声，否则当周围没人时，该噪声可能会无意中触发智能设备12的激活。

本领域普通技术人员将领会的是，图3说明了特定实施例的非限制性子集，并且来自启用传感器的照明系统的数据可以以各种其他方式用于增强基于话音的或语音激活的计算设备的性能。

尽管已经在本文中描述和图示了若干发明性实施例，但是本领域普通技术人员将容易想到用于执行本文所描述的功能和/或获得本文所描述的结果和/或本文所描述的优点中的一个或多个优点的多种其他手段和/或结构，并且这样的变型和/或修改中的每一个都被认为在本文所描述的发明性实施例的范围内。更一般地，本领域技术人员将容易领会，本文描述的所有参数、尺码、材料和配置意在是示例性的，并且实际参数、尺码、材料和/或配置将取决于发明性教导所用于的一个或多个特定应用。使用不超过常规实验，本领域技术人员将认识到或能够确定本文所描述的具体发明性实施例的许多等同方案。因此，应理解的是，前述实施例仅以举例的方式给出，并且在所附权利要求的范围及其等同范围内，可以以不同于具体描述和要求保护的其他方式实践发明性实施例。本公开的发明性实施例针对本文所描述的每个单独的特征、系统、物品、材料、套件和/或方法。另外，如果这样的特征、系统、物品、材料、套件和/或方法不是相互矛盾的，则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合被包括在本公开的发明范围内。

如本文在说明书和权利要求中使用的短语“和/或”应理解为是指如此连接的元素中的“任一个或两者”，即在一些情况下结合地存在而在其他情况下分离地存在的元素。利用“和/或”列出的多个元素应以相同的方式解释，即，如此连接的元素中的“一个或多个”。除了由“和/或”子句具体标识的元素之外，还可以可选地存在其他元素，无论与那些具体标识的元素相关还是无关。如本文在说明书和权利要求中所使用的，“或”应被理解为具有与上面定义的“和/或”相同的含义。

还应该理解的是，除非清楚地相反指示，在本文要求保护的包括一个以上步骤或动作的任何方法中，方法的步骤或动作的顺序不一定限于记载该方法的这些步骤或动作的顺序。

Claims

1.一种用于处理来自用户（44）的语音命令的方法，包括：

由照明系统（14）中的一个或多个传感器（20）收集与基于话音的计算设备（12）附近的区域（42）有关的数据；

从与所述用户和所述区域中的多个环境状况中的至少一个有关的数据确定一个或多个线索；

由所述照明系统的控制器（22）接收与由所述基于话音的计算设备接收的声音输入有关的一个或多个参数；

利用所述一个或多个线索更新所述一个或多个参数；

基于所述一个或多个线索和所述一个或多个传感器中的至少一个，确定所述区域中存在的占用；和

至少部分地基于所述区域的占用来处理所述声音输入。

2.根据权利要求1所述的方法，其中，所述一个或多个线索包括所述区域中的用户总数、所述用户的移动方向、所述用户的身体取向、所述用户的面部取向、所述用户的尺寸或身高、所述区域中的温度、所述区域中的外界噪声水平、或包括上述至少一项的组合。

3.根据权利要求1所述的方法，其中，所述占用包括成人用户和儿童用户之一，并且所述方法还包括：衰减或归一化由所述儿童用户产生的声音。

4.根据权利要求1所述的方法，其中，所述占用包括区中的一个或多个附加用户，并且所述方法还包括：衰减或归一化该区外部的声音。

5.根据权利要求1所述的方法，其中，所述占用包括检测附加用户的存在，并且所述方法还包括：基于所述附加用户的存在而忽略所述声音输入。

6.如权利要求1所述的方法，还包括：基于所存储的历史信息来确定所述用户的身份，所存储的历史信息包括先前收集的数据、先前确定的线索、或包括上述至少之一项的组合。

7.根据权利要求1所述的方法，还包括：确定所述区域中的用户或另一用户是否是儿童，以及如果所述用户被标识为儿童，则禁用、启用或修改所述基于话音的计算设备将实施的语音命令的子集。

8.根据权利要求1所述的方法，其中，所述一个或多个传感器包括被动红外传感器、热电堆、相机、微波发射器、射频波发射器、温度传感器、外界噪声水平传感器、或包括上述至少一项的组合。

9.根据权利要求1所述的方法，其中，由所述照明系统的控制器接收的所述一个或多个参数包括由所述基于话音的计算设备使用声音定位技术生成的所述用户的估计位置。

10.根据权利要求1所述的方法，其中，所述方法还包括：检索在先的用户活动，并且所述更新包括：利用所述在先的用户活动来更新所述一个或多个参数。

11.根据权利要求1所述的方法，还包括：根据所述预期的语音命令来操作所述基于话音的计算设备。

12.一种用于处理来自用户的语音命令的方法，包括：

由照明系统（14）中的一个或多个传感器（20）收集与基于话音的计算设备（12）附近的区域（42）中的用户（44）有关的方位数据；

从所述方位数据确定所述用户的位置；

接收与语音输入有关的一个或多个参数；

利用所述用户的位置更新所述一个或多个参数；

利用所述更新的参数分析所述语音输入，以从所述语音输入中确定预期的语音命令；

至少部分地基于所述区域的占用来处理所述语音输入。

13. 一种用于增强来自用户的语音命令的处理的照明系统，包括：

一个或多个灯具（18

一个或多个传感器（20），被配置为收集与基于话音的计算设备（12）附近的区域中的用户或环境状况有关的数据；和

控制器（22），被配置为：

从所述一个或多个传感器接收所述数据；

从所述数据确定一个或多个线索用户；

接收与由所述基于话音的计算设备接收的声音输入有关的一个或多个参数；

利用所述线索更新所述一个或多个参数；

至少部分地基于所述区域的占用来处理所述声音输入。

14.根据权利要求13所述的照明系统，其中，所述传感器包括被动红外传感器、热电堆、相机、微波发射器、射频波发射器、温度传感器、外界噪声水平传感器、或包括上述至少一项的组合。