CN110892476B

CN110892476B - 具有语音命令输入能力的装置

Info

Publication number: CN110892476B
Application number: CN201880045561.XA
Authority: CN
Inventors: 塔伦·塔姆
Original assignee: Ecobee Inc
Current assignee: Ecobee Inc
Priority date: 2017-05-10
Filing date: 2018-05-09
Publication date: 2024-03-22
Anticipated expiration: 2038-05-09
Also published as: US11521614B2; US20180330727A1; EP3635715A4; US20200335103A1; CN110892476A; WO2018207118A1; EP3635715A1; US10311870B2; US10726839B2; US20190251967A1; CA3063045A1

Abstract

具有远程处理的语音命令能力的计算机化装置包括低功率处理器，其执行松散算法模型以识别语音命令中的唤醒词前缀，该松散模型具有低错误拒绝率但受到高错误接受率，以及至少可以在低功率/低时钟速率模式和高功率/高时钟速率模式下操作的第二处理器。当第一处理器确定唤醒词的存在时，其引起第二处理器切换到高功率/高时钟速率模式并执行严格算法模型以验证唤醒词的存在。通过以这种方式使用两个处理器，降低了计算机化装置所需的平均总体功率，以及系统生成的废热量。

Description

具有语音命令输入能力的装置

相关申请的交叉参考

本申请要求提交于2017年5月10日的美国专利申请号15/591,188的权益，该申请以其全部内容通过应用并入本文。

技术领域

本发明涉及计算机化的装置。更具体地，本发明涉及诸如智能手机、HVAC控制器、灯开关、电源插座、车库门开启器控制器、远程传感器等之类的计算机化装置，其包括充当语音命令识别系统的语音命令输入端的能力。

背景技术

最近，通过诸如互联网的数据网络已经可以访问相对复杂的远程处理系统。此类所谓“基于云的”处理服务可以提供复杂的和/或计算复杂的过程的结果，该过程将被提供给以其他方式将无法实现此类服务的计算机化装置。

此种能力的有趣示例是语音识别，它通过采用具有高计算复杂度的分析模型，可以为口头命令和短语提供非常好的识别率。苹果公司实现的SIRI语音助手和Amazon公司提供的ALEXA语音服务是采用基于云的处理中心来实现其语音识别能力的语音识别系统的两个示例。

为了使用此系统，用户将说出预定义的单词或短语，在本文中称为“唤醒词”，随后在存在语音命令输入装置的情况下说出口头命令。在此类系统中，语音命令输入装置(用于ALEXA的Amazon ECHO等，以及用于SIRI的iPhone等)连续捕获并监视经由装置上一个或多个麦克风拾取的音频流。语音命令输入装置在装置的音频拾取范围内侦听要由用户说出的预定义“唤醒词”，随后发出命令。对此系统的有效命令的示例可以是“ALEXA，现在几点了？”，其中“ALEXA”是唤醒词。

所捕获的音频流由语音命令输入装置处理以检测何时/是否已经由用户说出唤醒词。当做出此肯定决定时，语音命令输入装置将连接到相关联的基于云的处理服务，并将由语音命令输入装置捕获的音频流式传输到该处理服务(即，在回声的情况下，传输到Amazon语音服务)。

处理服务分析接收到的音频流，以验证唤醒词的存在并确定用户说出的命令(如果有的话)。然后，处理服务确定适当的响应，并将该响应发送回装置(即，诸如“现在是下午3：04PM”之类的语音消息)或适当的另一系统或装置。可能的响应范围不受限制，并且可以包括语音和/或音乐音频流、数据、其他连接的装置(诸如照明控件)识别的命令等。

对于此类系统，优选使用基于云的处理服务，因为适当地分析所接收的音频以确定内容和含义的计算复杂度很高，并且目前最好在专用硬件诸如基于GPU或FPGA的处理引擎中实现。此硬件过于昂贵，物理上太大和/或具有超出许多计算机化装置，特别是由电池供电的那些计算机化装置中可用的功率要求，并因此不能包括在许多计算机化装置中，诸如智能手机、HVAC控制器、电灯开关等。

因此，提供语音命令能力以控制计算机化装置，特别是诸如计算机化电灯开关或电源插座之类的装置以及其他所谓的物联网装置(“IoT”)的能力，是非常理想的事情，因为许多此类计算机化装置不能合理地或经济地配备有诸如键盘、触摸屏等之类的硬件从而以其他方式允许对装置的控制。

然而，许多计算机化装置不容易满足计算机化装置与基于云的处理服务可靠交互的计算要求，因此当前需要语音命令输入装置，诸如Echo装置和/或Google的Home装置。特别地，由语音命令输入装置执行以捕获和识别监视词所需的语音识别模型要求在语音命令输入装置中采用具有高计算能力的处理器。此类高功率处理器在操作时会生成大量的废热，这在许多其他装置(诸如IoT装置，或消费者佩戴或携带的装置或HVAC控制器和远程传感器)中可能是问题。此外，此类高功率处理器通常需要大量的电功率，这对于电池供电的或寄生供电的装置(即，从其所控制的装置的控制信号获得其操作功率的计算机化装置)而言可能是问题。另外，在将语音命令中继到云服务之前处理唤醒词所需的时间增加了语音系统的总体延迟，从而降低了用户满意度。

不幸的是，诸如Echo和/或Home之类的专用语音命令输入装置的成本会减慢此类服务的采用和使用。希望有以可靠、经济和节省成本的方式为计算机化装置提供语音命令输入能力的系统和方法。

发明内容

本发明的目的是提供一种新颖的系统和方法，用于向计算机化装置提供远程处理的语音命令能力，并且该计算机化装置消除或减轻了现有技术的至少一个缺点。

根据本发明的第一方面，提供了一种识别针对计算机化装置的语音命令的唤醒词的方法，该方法包括以下步骤：(i)在计算机化装置处接收来自至少一个麦克风的音频信号；使用计算机化装置中的第一处理器处理接收到的音频信号，第一处理器将所处理的接收到的音频信号的副本放入预选大小的循环缓冲器中，并且第一处理器执行第一语音识别算法模型以检测预定义唤醒词的存在，第一语音识别算法模型被选择为以比预定义唤醒词的错误匹配的预定义水平更高的代价提供预定义唤醒词的错误不匹配的预定义相对较低水平；当第一处理器确定预定义唤醒词的匹配时，第一处理器向计算机化装置中的第二处理器提供信号，第二处理器通常以具有第一计算能力的第一速率操作，该信号引起第二处理器以具有大于第一计算能力的第二计算能力的第二速率开始操作，并且第二处理器：(a)将循环缓冲器的内容复制到第二缓冲器中；(b)将所处理的接收到的音频信号复制到第三缓冲器中；对第二缓冲器的内容执行第二语音识别算法模型，以验证预定义唤醒词的存在，第二语音识别算法模型比第一语音识别算法模型需要更大的计算处理，以实现预定义唤醒词的错误不匹配和错误匹配两者的预定义相对较低水平；(c)在用第二语言识别算法模型完成对第二缓冲器的内容的分析时，如果第二语音识别算法模型确定第二缓冲器中不存在预定义唤醒词，则使第二处理器返回到以第一速率操作，并且如果第二语音识别算法模型确定第二缓冲器中存在预定义唤醒词，则将第二缓冲器和第三缓冲器的内容转发到远离计算机化装置的语音处理服务，该语音处理服务可操作以接收和处理语音命令。

优选地，语音处理服务执行比第二语音识别算法模型需要更多计算处理的第三语音识别算法模型，语音处理服务对在语音处理服务处接收到的第二缓冲器的副本执行第三语音识别算法模型以验证其中是否存在唤醒词，并且如果第三语音识别算法模型未验证唤醒词的存在，则语音处理服务向计算机化装置发送指示不存在唤醒词的消息并且第二处理器返回到以第一速率操作，并且如果第三语音识别算法模型确实验证了唤醒词的存在，则语音处理服务处理第三缓冲器的内容。

根据本发明的另一方面，提供了一种计算机化装置，其包括：至少一个麦克风，其捕获用户语音；第一处理器，其对从至少一个麦克风接收的音频进行数字化和处理，并将所处理的音频的副本存储在循环缓冲器中，并执行第一语音识别算法模型以检测循环缓冲器中预定义唤醒词的存在，第一语音识别算法模型被选择为以比预定义唤醒词的错误匹配的预定义水平更高的代价提供预定义唤醒词的错误不匹配的预定义相对较低水平；第二处理器，其通常以具有第一计算能力的第一速率操作，并且响应于来自第一处理器的指示第一语音识别算法模型已在循环缓冲器中检测到唤醒词的存在的信号，使得第二处理器以具有比第一速率下的能力更大的计算能力的第二速率开始操作，第二处理器从第一处理器接收循环缓冲器的内容的副本，并且在第二缓冲器中接收和缓冲所处理的接收到的音频流的副本，第二处理器对循环缓冲器的内容的副本执行第二语音识别算法模型以验证预定义唤醒词的存在，该第二语音识别算法模型比第一语音识别算法模型需要更大的计算处理，并且被选择以实现高于第一处理器所实现的水平的预定义唤醒词的错误不匹配和错误匹配两者的预定义相对较低水平；数据通信模块，其可操作以在计算机化装置与远程语音处理服务之间提供数据通信，当第二语音识别算法模型验证循环缓冲器的内容的副本中唤醒词存在时，该数据通信向语音处理服务提供循环缓冲器的内容的副本和第二缓冲器的内容。

本发明提供了具有被远程处理的语音命令能力的计算机化装置。该装置包括：低功耗处理器，其执行松散算法模型以识别语音命令中的唤醒词前缀，该松散模型具有低错误拒绝率但遭受高错误接受率，以及第二处理器，其可以在至少低功率/低时钟速率模式和高功率/高时钟速率模式下操作。当第一处理器确定唤醒词的存在时，它使第二处理器切换到高功率/高时钟速率模式并执行严格算法模型以验证唤醒词的存在。通过以这种方式使用两个处理器，减少了计算机化装置所需的平均总功率，以及系统生成的废热量。

附图说明

现在将参考附图仅以举例的方式描述本发明的优选实施例，在附图中：

图1示出了根据本发明的实施例的计算机化装置的透视图；

图2示出了图1的计算机化装置的后视图；

图3示出了具有以虚线示出的调整片的图1的计算机化装置的侧视图；

图4示出了图1的装置的硬件框图；

图5示出了在图1的装置处接收到的音频的处理的数据流；以及

图6示出了包括其扬声器系统的图1的装置的硬件的分解视图。

具体实施方式

图1至图4示出了根据本发明的计算机化装置的示例，其中计算机化HVAC控制器总体上以20指示。尽管以下描述中的大部分都描述了HVAC控制器，但是本发明不限于此，并且其旨在该系统和方法可用于多种计算机化装置，诸如智能手机、智能手表、车库门开启器控制器、互联网连接的家用电器、手持式计算装置等。

装置20包括具有正面28的壳体24，该正面28包括透明的至少一部分，并且通过该部分可以看到触摸屏32并与之交互。正面28还可以配备有运动传感器(未示出)，该运动传感器可以用作占用传感器，其检测用户对装置20的存在和/或接近。

触摸屏32可以显示多种信息，包括操作消息、命令响应文本、图标、控件和菜单，并且可以根据需要从用户接收输入以改变装置20的操作。

装置20还包括一对间隔开的麦克风孔36，其允许来自外部壳体24的声音到达一个或多个内部麦克风(如下所述)，以及扬声器格栅40(在图2和图3中最优看到)，其允许从内部扬声器(也在下文讨论)发出的声音离开壳体24。装置20还包括活动指示器44，其可以是由一个或多个LED、灯组件等驱动的光导管，壳体24通常将经由调整片46(在图4中以虚线示出)安装到壁或其他表面或在无调整片的情况下直接安装到壁(未示出)。多个冷却通风口48在装置周围间隔开。

壳体24还包括在其后面上的斜面50(在图2和图3中最优看到)，其产生装置20和调整片46或壁之间的气隙。特别地，斜面50包括在扬声器格栅40周围的其底部边缘上的提高斜率区域52。扬声器格栅40远离麦克风孔36间隔开以最小化干扰。

图4示出了装置20的内部硬件42的框图，并且图6示出了内部硬件42的分解视图。硬件42 20包括应用处理器100，其可以是微处理器或本领域技术人员想到的任何其他合适的装置。处理器100能够以不同的时钟速率运行，以使可用的程序执行速率与可以不时改变的计算需求相匹配。此类多速率处理器是众所周知的。装置20还包括存储器104，其可以是可由处理器100访问的非易失性RAM和/或易失性RAM。对于本领域技术人员将显而易见的是，根据需要，存储器104可以与处理器100集成，或者可以是单独的分立装置或部件。

通常，存储器104将存储用于由处理器100执行的一个或多个程序，以及与程序的执行有关的各种参数以及程序所需的数据和工作值。

触摸屏32和运动传感器(如果存在)可操作地连接到处理器100，并且装置20还优选地包括实时时钟，作为处理器100中提供的服务，或者作为未示出的单独部件。

装置20还可以包括至少一个环境传感器108，其至少是温度传感器，但是还可以包括其他环境传感器，诸如湿度传感器、环境光传感器、磁罗盘、GPS接收器等，其确定要控制和/或监视的相应环境条件。通常，当装置20是HVAC控制器时，装置20中的环境传感器108将至少包括温度传感器和湿度传感器两者。

通信模块112连接到处理器100，以允许处理器100与通信网络诸如互联网和/或与额外的外部传感器或计算机化装置(未示出)进行通信。优选地，通信模块112可操作以使用至少一种无线通信协议，诸如WiFi；蓝牙；紫蜂；ZWave；蜂窝数据等，经由天线116无线地连接到期望的数据网络；但是也想到，通信模块112可以具有到数据网络的有线连接，诸如经由以太网连接。

通信模块112还允许装置20与基于互联网的服务(诸如天气服务器、远程监视系统、数据记录服务器、语音处理服务等)进行通信，并与装置20的用户远程用于监视和控制受控场所的环境状况或其他条件的应用程序进行通信。例如，远离装置20的用户可以经由互联网或其他数据通信网络或系统访问在智能手机或个人计算机上执行的应用程序，以将命令发送到装置20，以改变装置20或其控制的系统的操作。

装置20还包括辅助处理器组件120，其能够数字化和处理从至少一个，优选地两个或更多个麦克风124接收到的音频信号，如下所述。在本实施例中，辅助处理器组件120是DSP(数字信号处理器)，其可以接收来自麦克风124(位于壳体24内与孔36相邻)的输入，将它们数字化并根据DSP内存储的一个或多个程序对那些数字化信号执行信号处理操作。尽管当前实施例采用具有所需能力的单个装置DSP，但是还想到，如果需要的话，辅助处理器组件120可以由两个或更多个分立部件构成。还想到辅助处理器组件120可以是处理器100中包括的一个或多个单独的计算核心。

装置20还包括外围控制块128，其可以连接至一条或多条控制线，以用于由装置20控制的系统，诸如HVAC系统、车库门开启器、照明系统等，以及外围控制块128可以根据处理器100执行的一个或多个程序，从所连接的系统(诸如HVAC系统)接收信号和/或向其输出控制信号。

外围控制块128可以包括机械或固态继电器以向控制线提供输出，以及MUX或其他合适的装置，以用于从HVAC或其他受控系统接收相关输入信号，并将那些信号提供给处理器100

装置20上的硬件42还包括音频输出子系统132，其可响应于从处理器100接收到的信号而操作，以将放大的音频信号输出到扬声器系统136。根据需要，音频输出子系统100可以是分立装置，或者是合适分立装置的组合，并且优选地能够输出语音信号和/或音乐或其他声音。在图6中最优看到，扬声器系统136包括扬声器驱动器140和扬声器核心142(其与图2和图3所示的扬声器格栅40连通)。通过沿倾斜区域52安装，扬声器系统136以不垂直于背表面(即，调整片46或安装壁)的角度输出其声音，减小返回扬声器146中的声音的量。当使用调整片46时，调整片46上的倾斜表面148帮助引导输出的声音离开通过调整片46和壳体24之间的间隙，导引输出声音离开扬声器系统136和麦克风孔36两者。由于安装壁的材料特性(干式壁、砖块、石膏、煤渣砌块等)，调整片46的缺少或存在将影响扬声器系统136的性能与其输出声音的质量和音量。同样，设想音频输出子系统132将基于装置20的安装表面而包括不同的声音输出曲线。每个声音输出曲线将使扬声器系统136的频率和幅值输出成形以用于其特定安装表面的最佳性能。适当声音输出曲线的选择可由用户经由触摸屏32或其他适当措施执行。另选地，装置20可基于调整片46的自动检测来自动预选声音输出曲线(即，“调整片存在声音曲线”/“调整片不存在声音曲线”)。自动检测可通过使用装置20背面上的检测与调整片46的接触的开关(未示出)来提供，或本领域技术人员将想到的其他适当措施。

可以经由在智能手机等上运行的互联网连接的应用程序、触摸屏32和/或来自装置20从远程处理服务接收的语音命令的基于云的处理的响应，来实现对装置20的用户输入。

当装置20还用作用于此类命令的语音命令输入装置时，麦克风124接收用户的口头语音命令，并且如下面更详细地描述的，该接收到的音频的表示由装置20通过互联网或其他数据网络传输到远程处理服务。远程处理服务接收所传输的音频表示，并确定口头语音命令的含义，并准备适当响应，然后将该响应返回到装置20以执行，或由另一装置或服务进行处理。

取决于远程语音处理服务所提供的服务范围，可以从广泛的响应中选择对口头语音命令的响应。例如，远程处理服务可以具有一组有限的可用响应，所有这些都直接与装置20的控制和操作有关，即，语音命令可能是在将装置20用作HVAC控制器时将装置20控制的环境温度升高一度或多度的请求，并且在这种情况下，远程语音处理服务返回的响应将是装置20将其目标温度升高用户所命令的一度或多度的必要的程序命令，以及语音确认的音频流。

在更优选的实施例中，远程语音处理服务是能力广泛的系统，诸如上述的ALEXA语音服务，并且可以处理的语音命令的范围远远超出了与装置20的语音控制和操作具体地有关的那些范围。例如，用户可以要求当前时间，并且远程语音处理服务将向装置20返回说出当前时间的语音的音频流，以及通过扬声器136将该音频流播放给用户所必需的程序命令。

类似地，用户可以通过对装置20的语音命令订购快餐，诸如比萨饼，并且远程语音处理服务将完成该订购，也许是通过与用户通过麦克风124和扬声器136进行的一组交互式音频交易来完成，或根据用户先前定义的预定义设置(比萨饼的大小、配料、付款方式等)来完成，并将通过互联网将结果订单转发给比萨饼供应商，同时经由适当的音频语音流输出在装置20向用户确认该结果订单。

在这方面，除了执行计算机化装置20的其他控制功能，诸如调节环境中的温度和/或湿度之外，计算机化装置20可以执行语音命令输入装置，诸如Amazon Echo装置的许多或所有功能，通常用于与ALEXA语音服务或对应的Google Home装置和服务等进行交互。

然而，与上述Echo和/或Home装置不同，诸如装置20之类的计算机化装置在经由远程语音处理系统提供语音命令服务方面面临一些特定的挑战。特别地，如上所述，此类语音命令输入装置的已知实施方式要求用户以唤醒词或短语，例如用于Echo的“ALEXA”或用于Google Home的“Okay Google”作为开头向系统提供任何口头命令。因此，发给Echo的适当命令可能是例如“ALEXA，请为我订购披萨饼”，这将起动上述交互过程以完成订购。相反，“订购披萨饼”将不会调用任何响应，因为不存在唤醒词。

为了可接受的用户体验，语音命令输入装置应具有非常低的错误接受(“FA”)率，其被定义为语音命令装置错误地确定已接收到唤醒词的情况，以及非常低的错误拒绝(“FR”)率，其被定义为语音命令装置遗漏(无法识别)已向其说出唤醒词的情况。

为了确保获得可接受的低FA和FR率，现有的语音命令输入装置采用复杂且计算量大(通常称为“严格”)的算法模型，其处理所捕获的音频流并以高概率确定唤醒词的存在。采用的实际严格模型没有特别限制，并且一直在开发新模型。

语音命令输入装置连续收听其周围环境，使用严格算法模型处理所捕获的音频流，并且当确定唤醒词的存在时，语音命令输入装置将包含唤醒词和随后捕获的音频的音频流转发到远程语音处理服务，如上所述。

尽管已经证明此类系统在提供可接受的用户体验方面非常成功，但是在试图在计算机化装置诸如装置20上实现此类系统时仍然存在问题。具体地，上述用于检测唤醒词的严格算法模型需要以相对较高的时钟速率运行的计算能力强大的处理器来执行必要的计算，并且在此类条件下操作的处理器会消耗相对较高量的功率并生成对应的大量废热。取决于计算机化装置20的实际构造和使用，计算要求、功率要求和产生的废热可能是显著问题。

例如，如上所述，如果计算机化装置20是具有一个或多个搭载环境传感器108的HVAC控制器，则由执行严格唤醒词识别模型的处理器生成的废热将影响从环境传感器108提供的读数，并且必须进行补偿以获得准确的温度读数。对于手持式或可佩戴式计算机化装置，可能会遇到类似的加热问题，其中生成的废热可能会使用户握住或佩戴该计算机化装置不舒适。

类似地，如果计算机化装置20由电池供电，或由其他有限的电源供电，诸如通常在HVAC系统中采用的低电流16VAC控制线，则执行严密唤醒词识别模型的处理器的持续高时钟速率操作可能会使电源过载或太快耗尽电池。

此外，除了执行其他任务(诸如控制HVAC或其他系统或装置)之外，还能够连续执行严格唤醒词识别模型的处理器将必须具有更强大的计算能力，并因此可能以其他方式需要更昂贵的处理器。

因此，计算机化装置20采用两阶段方法进行唤醒词识别，该方法可以减少用于持续监视唤醒词的接收的平均计算处理和电功率需求，并且可以对应地减少装置20内生成的废热并且可以允许使用计算能力较低的处理器。

具体地说，在装置20中，辅助处理器组件120是相对于处理器100的低能力(即，在计算上)处理器，并且具有对应较低的电功率消耗和废热生成。经由麦克风124接收的音频信号由辅助处理器组件120处理以执行远场音频处理，诸如回声消除、降噪、到达方向、增益控制等，以及执行低计算复杂度的“松散”唤醒词识别模型。

与严格模型相反，选择该松散模型并将其配置用于由低功率处理器诸如辅助处理器组件120执行，其中已知松散模型的预期精度将不满足可接受的低FA和FR率的总体要求。具体地，对于松散模型的选择标准没有特别限制，只要该松散模型可以被合理地快速执行(能够至少实时地处理接收到的音频流)并且所选择的模型被配置为提供可接受的低的FR率，尽管以高FA率为代价。

图6示出了在装置20处处理接收到的音频的数据流程图。如图所示，来自麦克风124的音频流200中的一个或多个在辅助处理器组件120处连续接收。

在持续的基础上，辅助处理器组件120将接收到的流200数字化，并对流进行任何其他期望的处理(即，将两个或更多个接收到的流组合成单个流、回波消除、波束形成、增益等)以形成净化流204。

净化流204的副本由辅助处理器组件120转发到处理器100中实现的“向后看”循环缓冲器208，该循环缓冲器208存储了最近接收到的净化流204的预选长度。在本实施方式中，循环缓冲器208存储约两秒的最新净化流204。

此时，处理器100以降低的时钟速率运行，被选择为足以服务于处理器100上的处理负载以实现和更新循环缓冲器208，并执行处理器100正在执行的程序所要求的任何其他计算任务，并且处理器100没有执行用于唤醒词识别的严格模型。

以此减小的时钟速率，电功率需求和处理器100生成的废热都从处理器100以较高时钟速率运行时所经历的对应水平减小。

辅助处理器组件120还使用其正在执行的松散唤醒词识别模型来处理净化流204。如上所述，选择该松散模型并将其配置为以相对较高的FA率为代价提供可接受的低FR率，使得装置20错过用户陈述唤醒词的概率为可接受地低。

每当由辅助处理器组件120执行的松散唤醒词识别模型(正确或不正确地)确定净化流204包含预定义唤醒词时，辅助处理器组件120就会向处理器100提供信号212。在本实施方式中，信号212是中断信号，但是可以根据需要采用信令处理器100的任何其他合适的措施。

在接收到信号212时，处理器100切换自身以适当的更高时钟速率进行操作，并且处理器100复制循环缓冲器208的内容，以防止它们被来自净化流204的更新所覆写。处理器100还创建或重用线性缓冲器210，在线性缓冲器210中存储来自辅助处理器子组件120的进行的接收到的净化流204(代表在循环缓冲器208的复制内容之后发生的接收到的用户说话)。因此，在循环缓冲器208的内容的副本与线性缓冲器210中存储的内容之间，处理器100具有包含疑似唤醒词和用户说出的任何后续命令的经处理的音频流。

在复制循环缓冲器208的内容并且设置并开始加载线性缓冲器210之后，处理器100用其实现的严格唤醒词识别模型开始分析循环缓冲器208的复制内容的内容。严格唤醒词识别模型处理循环缓冲器208的内容的副本，以可接受的低FR和FA率两者来确定那些内容是否包含预定义唤醒词。

显而易见的是，严格模型的该处理实质上以较高的置信度验证了辅助处理器组件120中使用的松散模型所做的确定。如前所述，选择松散模型以提供低水平的遗漏(FR)唤醒词识别，但需要以相对较高的错误接受(FA)水平为代价。

通过使用这种两阶段方法，其中在辅助处理器组件120已使用松散模型确定已接收到唤醒词之后，处理器100用严格模型来验证唤醒词的存在或不存在，获得了正确检测到唤醒词存在的高概率，并且由于严格模型不是像现有技术的语音命令输入装置那样连续地执行，因此需要降低的平均总体计算水平。

因此，平均而言，处理器100的电功率需求减少，处理器100生成的废热也减少。此外，通过采用良好的实时编程实践在接收到信号212时中断和/或挂起处理器100上其他编程任务的执行，可以将处理器100所需的计算能力从除了在处理器100上执行的其他程序以外的连续处理严格模型所需的量减少到处理器100执行的其他程序被挂起或以较低速率由处理器100处理时处理严格模型所需的量。与除了在处理器100上执行的其他程序之外严格模型在处理器100上连续执行的情况相比，这允许采用成本更低的装置作为处理器100。

如果处理器100执行的严格模型确定循环缓冲器的内容副本不包含唤醒词(即，辅助处理器子组件120执行的松散模型使错误接受)，则循环缓冲器208的内容副本被删除，线性缓冲器210也被删除，并且处理器100返回到较低时钟速率操作模式。另选地，线性缓冲器210可被保持以在下次处理器100检测到唤醒词时被覆写，或甚至被传输到远距位点以用于FA条件的分析和学习。

如果处理器100执行的严格模型确定循环缓冲器208的内容副本确实包含唤醒词(即，辅助处理器子组件120执行的松散模型的确定是正确的)，则处理器100：点亮活动指示器44以向用户提供视觉指示，表明它已经接收到唤醒词并且正在监听其他命令；经由通信模块112连接到预定义的远程语音处理服务216(诸如Amazon语音服务)；并将循环缓冲器内容传递到语音处理服务216，并传递线性缓冲器210的当前内容(优选地以比将新数据添加到线性缓冲器210的速率更高的速率)并继续将添加到线性缓冲器210的新数据传递到语音处理服务216。

通过传递包括任何新添加的内容的循环缓冲器208和线性缓冲器210的内容的复制内容，语音处理服务216将接收净化流204的连续部分，该净化流204包括声称的唤醒词和任何后续的用户语音命令。

在本优选实施例中，在接收到净化流204的相关部分时，语音处理服务216执行甚至更严格，并且在计算上更昂贵的算法模型，以确认唤醒词的存在作为最终验证。在该实施例中，如果由语音处理服务216执行的更严格模型确定唤醒词实际上不存在于从处理器100接收的数据中，则语音处理服务216经由通信模块112向处理器100发送表示“错误接受”条件的信号，并且处理器100然后熄灭活动指示器44，删除循环缓冲器208和线性缓冲器210的副本，并返回较低时钟速率操作模式。

如果由语音处理服务216执行的更严格模型确认唤醒词的存在，或者如果不希望执行此验证步骤，则语音处理服务216继续处理接收到的净化流204的其余部分以确定用户的口头语音命令。

一旦确定并处理了接收到的口头命令，语音处理服务216为确定的命令创建一个或多个适当的响应，并将那些响应传输到适合于那些响应的装置和/或服务。例如，如果用户语音命令用于计算机化装置20以改变其控制的参数或系统中的一个，则经由通信模块112将响应从语音处理服务216发送到处理器100，从而改变处理器100的操作。或使处理器100向连接的模块、部件或装置(诸如外围控制模块128)输出所需的控制信号输出220。发送给装置20的任何响应通常还将包括经由音频输出子系统132和扬声器系统136播放给用户的适当语音响应确认。

作为示例，如果用户命令是“ALEXA，请将温度升高两度”，则语音处理系统216可以向处理器100发送包括以下命令的响应：将存储在其存储器中的目标温度值提高两度，并使处理器100经由音频输出子系统132和扬声器系统136向用户宣布“我已按您的要求将温度升高2度”。

如果用户命令是“ALEXA，请关闭风扇”，则语音处理系统216可以向处理器100发送包括以下命令的响应：产生到外围控制块128(等等)的控制信号输出220以停用HVAC循环风扇，并使处理器100经由音频输出子系统132和扬声器系统136向用户宣布“我已按您的要求关闭了风扇”。

如果用户命令是“ALEXA，我想订购比萨饼”，则语音处理系统216可以向处理器100发送带有命令的响应，以发起适当的交互式语音过程以确定比萨饼订单的相关细节，并且与适当的披萨供应商下订单，并使处理器100经由音频输出子系统132和扬声器系统136向用户宣布“确定，我已按您的要求订购了披萨”。

一旦任何语音命令会话完成，语音处理系统216向处理器100提供会话完成响应，然后处理器100删除线性缓冲器210与循环缓冲器208的内容的副本，并且处理器100返回其低功率/降低的时钟速率操作模式。

尽管根据本发明的计算机化装置的上述示例被示出为包括适合于该示例的HVAC控制器的一组部件，但是应当认识到，本发明不限于此。例如，如果计算机化装置20是车库门开启器，则可以省略触摸屏32和环境传感器108。此外，上述示例未明确说明用于计算机化装置20的电源。在所示的HVAC控制器示例中，设想通常会从HVAC系统控制线上的电力为计算机化装置20寄生供电。然而，还设想计算机化装置20可以从电池、单独电源等供电。

从以上描述中应该显而易见的是，本发明提供了一种用于识别将由远程语音处理系统处理的口头命令的唤醒词前缀的系统和方法。该系统和方法采用具有相对有限的处理能力的低功率处理器来执行松散识别模型，该松散识别模型提供了低FR率，但是对应地经受了否则不可接受的高FA率。当此松散识别模型确定唤醒词存在于缓冲和存储的音频流中时，它将向第二应用程序处理器发出信号，该处理器能够至少以低时钟速率和高时钟速率操作，其中高时钟速率引起应用处理器比以较低时钟速率操作时具有更高的计算能力，并且比低功率处理器具有更高的计算能力，但是这也增加了应用处理器的电功率要求及其生成的废热量。

在接收到信号时，应用处理器将其操作切换到较高的时钟速率，并执行严格识别模型，并分析缓冲和存储的音频流的内容以验证唤醒词的存在。如果不存在唤醒词，则应用处理器返回以较低的时钟频率操作并删除缓冲和存储的音频流。

如果应用处理器确认在缓冲和存储的音频流中存在唤醒词，则将缓冲和存储的音频流以及随后捕获的用户命令的音频流转发到语音处理服务以进行进一步处理。

使用低功率处理器，以及至少可以在低功率/低时钟速率模式和高功率/高时钟速率模式下操作的第二能力更高的应用处理器的该系统和方法降低了该系统和方法所需的平均总体电功率，并且对应地减少该系统生成的废热，并且可以降低该应用处理器所需的计算处理能力的水平，因此降低了其成本。

本发明的上述实施例旨在作为本发明的示例，并且在不脱离仅由所附权利要求定义的本发明的范围的情况下，本领域技术人员可以对其进行改变和修改。

Claims

1.一种识别针对计算机化装置的语音命令的唤醒词的方法，所述方法包括以下步骤：

(i)在所述计算机化装置处接收来自至少一个麦克风的音频信号；

(ii)使用所述计算机化装置中的第一处理器处理所述接收到的音频信号，所述第一处理器将经处理的所述接收到的音频信号的副本放入预选大小的循环缓冲器中，并且所述第一处理器执行第一语音识别算法模型以检测预定义唤醒词的存在，所述第一语音识别算法模型被选择为以比所述预定义唤醒词的错误匹配的预定义水平更高的代价提供所述预定义唤醒词的错误不匹配的预定义相对较低水平；

(iii)当所述第一处理器确定所述预定义唤醒词的匹配时，所述第一处理器向所述计算机化装置中的第二处理器提供第二信号，所述第二处理器通常以具有第一计算能力的第一速率操作，所述第二信号引起所述第二处理器以具有大于所述第一计算能力的第二计算能力的第二速率开始操作，并且所述第二处理器：

(a)将所述循环缓冲器的内容复制到第二缓冲器中；

(b)将经处理的所述接收到的音频信号复制到第三缓冲器中；对所述第二缓冲器的所述内容执行第二语音识别算法模型以验证所述预定义唤醒词的存在，所述第二语音识别算法模型比所述第一语音识别算法模型需要更大的计算处理，以实现所述预定义唤醒词的错误不匹配和错误匹配两者的预定义相对较低水平；

(c)在用所述第二语音识别算法模型完成对所述第二缓冲器的所述内容的分析时，如果所述第二语音识别算法模型确定所述第二缓冲器中不存在所述预定义唤醒词，则使所述第二处理器返回到以所述第一速率操作，并且如果所述第二语音识别算法模型确定所述第二缓冲器中存在所述预定义唤醒词，则将所述第二缓冲器和所述第三缓冲器的所述内容转发到远离所述计算机化装置的语音处理服务，所述语音处理服务可操作以接收和处理语音命令。

2.根据权利要求1所述的方法，还包括以下步骤：当所述第二处理器在(c)确定所述第二缓冲器中存在所述预定义唤醒词时，所述第二处理器激活活动指示器。

3.根据权利要求1所述的方法，其中所述语音处理服务执行比所述第二语音识别算法模型需要更多计算处理的第三语音识别算法模型，所述语音处理服务对在所述语音处理服务处接收到的所述第二缓冲器的所述副本执行所述第三语音识别算法模型以验证其中是否存在所述唤醒词，并且如果所述第三语音识别算法模型未验证所述唤醒词的存在，则所述语音处理服务向所述计算机化装置发送指示不存在所述唤醒词的消息并且所述第二处理器返回到以所述第一速率操作，并且如果所述第三语音识别算法模型确实验证了所述唤醒词的存在，则所述语音处理服务处理所述第三缓冲器的所述内容。

4.一种计算机化的装置，包括：

至少一个麦克风，其捕获用户语音；

第一处理器，其对从所述至少一个麦克风接收的音频进行数字化和处理，并将所处理的所述音频的副本存储在循环缓冲器中，并执行第一语音识别算法模型以检测所述循环缓冲器中预定义唤醒词的存在，所述第一语音识别算法模型被选择为以比所述预定义唤醒词的错误匹配的预定义水平更高的代价提供所述预定义唤醒词的错误不匹配的预定义相对较低水平；

第二处理器，其通常以具有第一计算能力的第一速率操作，并且响应于来自所述第一处理器的指示所述第一语音识别算法模型已在所述循环缓冲器中检测到所述唤醒词的存在的信号，使得所述第二处理器以具有比所述第一速率下的所述能力更大的计算能力的第二速率开始操作，所述第二处理器从所述第一处理器接收所述循环缓冲器的内容的副本，并且在第二缓冲器中接收和缓冲所述所处理的接收到的音频流的副本，所述第二处理器对所述循环缓冲器的所述内容的所述副本执行第二语音识别算法模型以验证所述预定义唤醒词的存在，所述第二语音识别算法模型比所述第一语音识别算法模型需要更大的计算处理，并且被选择以实现高于所述第一处理器所实现的水平的所述预定义唤醒词的错误不匹配和错误匹配两者的预定义相对较低水平；

数据通信模块，其可操作以在所述计算机化装置与远程语音处理服务之间提供数据通信，当所述第二语音识别算法模型验证所述循环缓冲器的所述内容的所述副本中所述唤醒词存在时，所述数据通信向所述语音处理服务提供所述循环缓冲器的所述内容的所述副本和所述第二缓冲器的所述内容。

5.根据权利要求4所述的计算机化装置，还包括活动指示器，其可操作以指示所述第二处理器何时确定所述第二缓冲器中存在所述预定义唤醒词。

6.根据权利要求4所述的计算机化的装置，其中

所述语音处理服务执行比所述第二语音识别算法模型需要更多计算处理的第三语音识别算法模型，所述语音处理服务对在所述语音处理服务处接收到的所述第二缓冲器的所述副本执行所述第三语音识别算法模型以验证其中是否存在所述唤醒词，并且如果所述第三语音识别算法模型未验证所述唤醒词的存在，则所述语音处理服务向所述计算机化装置发送指示不存在所述唤醒词的消息并且所述第二处理器返回到以所述第一速率操作，并且如果所述第三语音识别算法模型确实验证了所述唤醒词的存在，则所述语音处理服务处理存储在第三缓冲器中的经处理的所述音频的另一个副本。