CN105723451B

CN105723451B - 从低功率始终侦听模式到高功率语音识别模式的转换

Info

Publication number: CN105723451B
Application number: CN201380081082.0A
Authority: CN
Inventors: S.夏; B.R.皮布勒; F.M.萨拉佩尔; S.达杜; P-L.博萨; D.沃雷尔; E.贾姆萨拉根; I.L.辛; R.A.尤雷加; S.纳拉塞兰; M.S.乔世; O.法利克
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2020-02-28
Anticipated expiration: 2033-12-20
Also published as: EP3084760A4; EP3084760A1; US20150221307A1; CN105723451A; WO2015094369A1

Abstract

所公开的是用于主处理器和/或计算设备从低功能模式到其中可以完成完整词汇语音识别的高功能模式的无缝、单步且经语音触发的转换的实施例。在主处理器处于低功能模式中时由低功率音频处理器捕获第一音频样本。低功率音频处理器可以识别预定音频模式。低功率音频处理器在识别预定的音频模式时，触发主处理器以转换到高功能模式。在预定音频模式的端点之后的第一音频样本的端部可以被存储在由主处理器可访问的系统存储器中。第二音频样本被捕获并且被与第一音频样本的端部一起存储。一旦主处理器转换到高功能模式，可以执行多通道完整词汇语音识别并且可以基于所检测到的语音交互短语而执行功能。

Description

从低功率始终侦听模式到高功率语音识别模式的转换

技术领域

本文所描述的实施例一般涉及将计算设备从低功率和/或低功能状态转换到较高功率和/或较高功能状态。更特别地，所公开的实施例涉及使用低功率语音触发来无缝地发起主处理器从低功率和/或低功能状态到其中可以执行多通道语音识别的较高功率状态和/或较高功能状态的转换。

背景技术

语音识别一般地在计算设备中，并且特别地在诸如智能电话、平板电脑和膝上型计算机之类的移动计算设备中正在变得普遍。目前，发起语音识别应用通常要求用户操纵致动器（例如按动按钮）并且在用户能够说出命令（诸如“今天天气如何”）之前等待指示计算设备准备好侦听的提示（例如音频音调和/或用户接口显示麦克风）。换言之，当前语音识别是多步过程，包括由用户的发起步骤，接着是由计算设备的提示步骤之前的停顿。只有在提示步骤之后用户才能够继续进行以提供命令和/或以其它方式与计算设备的语音识别应用对接。

附图说明

图1是根据一个实施例的计算设备的示意图。

图2是根据一个实施例的数字信号处理器的示意图。

图3是根据一个实施例的计算设备的关系图。

图4A和4B是根据一个实施例的将计算设备从低功率模式转换到较高功率模式的方法的流程图。

具体实施方式

目前，为了发起计算设备上的语音识别应用，利用多步过程。例如，首先，要求用户操纵致动器（例如按动按钮）或说出触发短语以警告和/或唤醒主处理器语音识别功能，并且其次，在用户能够说出命令或以其它方式与计算设备的语音识别功能对接之前，用户必须等待计算设备提供指示计算设备准备好侦听的提示。此示例过程至少包括由用户的发起步骤，接着是由计算设备的提示步骤。在提示步骤之后，用户可以继续进行以提供命令和/或以其它方式与计算设备的语音识别功能对接。

本发明人已经认识到，语音识别的多步发起是麻烦且不自然的。用户体验受等待计算设备转换到较高功能模式并且提供提示以指示准备好施行语音识别的时间所影响。所公开的实施例提供主处理器和/或计算设备从低功能模式（其可以是低功率模式和/或有限特征模式）到高功能模式（其可以是其中可以完成单通道和/或多通道音频处理和完整词汇语音识别的较高功率模式和/或较高特征模式）的无缝、单步和语音触发的转换。所公开的实施例通过使得实现系统从低功能模式到高功能模式的单步（或“一次性（one-shot）”）无缝转换来使得实现更加自然的语音交互。

在某些实施例中，低功能模式是低功率模式。低功率模式可以包括低功率始终侦听功能。在某些这样的实施例中，低功能模式还可以是有限特征模式，其中主处理器的某些特征是不活动的或者以其它方式是不可用的。在其它实施例中，低功能模式是有限特征模式，其中主处理器的某些特征是不活动的或者以其它方式是不可用的。在某些实施例中，高功能模式是高（或较高）功率模式和/或较高特征模式，其中相比于在低功能模式中，主处理器的更多特征是活动的或者以其它方式可操作。高功能模式可以包括大词汇语音识别功能。

所公开的实施例可以在主处理器处于低功能模式中时通过低功率音频处理器来捕获第一音频样本。低功率音频处理器可以识别第一音频样本中的预定的音频模式（pattern）（例如唤醒短语，诸如“嗨助理”）。低功率音频处理器可以在识别到预定的音频模式时，触发主处理器转换到高功能模式。跟随预定的音频模式的端点的第一音频样本的端部可以被拷贝或以其它方式被存储在主处理器可访问的系统存储器中。后续音频样本或第二音频样本被捕获并且被与第一音频样本的端部一起存储在系统存储器中。一旦主处理器唤醒并且从低功能模式转换到高功能模式，则第一音频样本的端部和第二音频样本可以由主处理器在高功能模式中处理。高功能模式中的主处理器可以执行完整词汇语音识别以识别命令并且基于所检测的命令执行功能并且以其它方式能够实现语音交互。

图1是根据一个实施例的计算设备100的示意图。计算设备100包括主处理器102、低功率音频处理器104或其它专用硬件、一个或多个音频输入106（例如麦克风或麦克风端口）、音频输出108（例如扬声器或扬声器端口）和存储器110。计算设备100可以是移动设备，诸如智能电话、平板电脑、膝上型电脑、超极本^TM、个人数字助理等。在其它实施例中，计算设备100还可以是台式计算机、多合一或可穿戴设备（例如手表）。在又一实施例中，计算设备100可以是机动车的仪表盘单元或其它处理单元。计算设备100可以被配置成使得在处于低功率和/或低功能状态中的时实现语音识别应用的无缝或一步激活。

主处理器102可以是计算设备100的中央处理单元（CPU）或应用处理器，或者可以是任何类型的处理器，诸如微处理器、嵌入式处理器、数字信号处理器（DSP）、网络处理器或执行代码的其它设备。主处理器102可以包括一个或多个处理元件或核。主处理器102具有低功能模式（例如低功率模式或状态和/或低功能模式或状态），诸如待机模式、休眠模式、或睡眠模式，其可以在例如主处理器102未被使用时节省功率和电池寿命。主处理器102还可以具有一个或多个较高功能模式（例如较高功率模式或状态和/或较高功能模式或状态），诸如操作模式或全功率模式，其中主处理器102可以执行指令以执行例如计算和/或数据处理任务。例如，主处理器102可以被激活或触发以从低功能模式醒来（或“唤醒”）并且可以能够执行大词汇语音识别。如可以被认识到的，主处理器102可以能够执行其它计算任务，诸如媒体内容回放。

低功率音频处理器104可以是第二处理器（或其它硬件），其以比主处理器102的（多个）高功能模式更少的功率进行操作。低功率音频处理器104可以是数字信号处理器。低功率音频处理器104可以检测预定的音频模式的说出并且触发主处理器102从低功能模式转换到高功能模式。低功率音频处理器104可以使得实现从低功能模式和低功率小词汇语音识别到高功能模式和完整词汇语音识别的单个步骤和/或无缝转换。

低功率音频处理器104可以配置成对通过音频输入106接收（诸如经由麦克风）的音频信号进行采样。麦克风可以是板载麦克风（例如板载计算设备100）或可以是经由音频输入端口106耦合到计算设备100的另一设备（诸如耳机）的麦克风。

低功率音频处理器104可以存储来自音频信号的音频样本。音频样本可以被存储在低功率音频处理器104的存储设备（例如缓冲器）中。例如，低功率音频处理器104可以包括紧密耦合的静态随机存取存储器（SRAM）。作为另一示例，低功率音频处理器104的存储设备可以是数据紧密耦合存储器（DCCM）。循环缓冲器（circular buffer）可以被配置在存储设备中并且可以在低功率音频处理器104对音频信号进行采样时恒定地写入和盖写有音频样本。在其它实施例中，音频样本可以被存储在低功率音频处理器104外部和/或以其它方式对主处理器102可访问的存储器110中。

一检测到噪声，低功率音频处理器104就可以发起低功率语音识别模式以分析或以其它方式处理音频样本以识别预定的音频模式。预定的音频模式可以是语音触发或者预配置的唤醒短语。例如，语音触发或唤醒短语可以是“嗨助理”。预定的音频模式可以由用户可配置。系统可以识别的预定的音频模式的数目可能是有限的，使得低功率音频处理器104仅需要执行小词汇语音识别并且不需要执行大词汇语音识别。例如，低功率音频处理器104可以能够识别预定的音频模式的小集合，诸如五个语音触发。识别此小集合的预定音频模式之一的小词汇语音识别可以利用有限量的处理和/或功率来完成。除了限制预定音频模式的数目之外或者作为对其的替换，预定的音频模式可以消耗的时间量可以例如被限制到大约两秒。可以在应用层处强加限制以确保到达硬件的音频样本可用来完成低功率语音识别。例如，当终端用户说道“嗨助理”作为唤醒短语时，音频样本的第一集合的持续时间可以被限制到两秒。

一旦检测到预定的音频模式，低功率音频处理器104就可以触发主处理器102以唤醒或者从低功能模式转换到高功能模式。低功率音频处理器104继续捕获音频样本。可以激活另外的音频输入106，诸如另外的板载麦克风。在主处理器102和/或计算设备100唤醒并且从低功能模式转换到高功能模式所花费的时段期间，可以发生预处理。预处理可以包括声学回波消除、噪声抑制等以净化音频样本并且从而增强大词汇语音识别。在预定音频模式的端点之后的第一音频样本的部分和第二音频样本可以被冲刷（flush）到系统存储器110。例如，第二音频样本和第一音频样本的端部可以被拷贝到系统存储器110中的环形缓冲器。

存储器110对主处理器102可访问。根据一个实施例，系统存储器110可以包括双数据速率同步动态随机存取存储器（DDR SDRAM）。

一旦主处理器102已经转换到高功能模式，预定音频模式被低功率音频处理器104检测到的通知就可以被主处理器接收。通知可以经由中断、过程间通信（IPC）、门铃寄存器或任何其它适当处理器到处理器通信而被递送。到用户完成说出唤醒短语和语音交互短语（例如“嗨助理，我的下一约会是什么时候

”）时，可以预处理语音交互短语，主处理器102可以转换到较高功率，并且进行大词汇语音识别的应用正在解析信息以基于所说出的语音交互短语而采取行动。用户能够以无缝、自然的方式说出唤醒短语“嗨助理”和语音交互短语“我的下一约会是什么时候”而没有停顿。

在此初始语音交互短语（例如在唤醒短语之后的短语）之后，用户可以自然地停顿以等待计算设备的响应或行动。在此停顿期间，可以开始将从诸如一个或多个板载麦克风之类的经激活的另外的音频输入捕获的音频样本拷贝到存储器104。换言之，可以在初始语音交互短语之后开启多通道音频采样以避免第二样本和第一样本的端部之间的音频信号的不连续。第二样本和第一样本的端部之间的这种不连续可以抑制大词汇语音识别并且可能是不合期望的。

计算设备100的音频输出108（诸如扬声器）可以使得能够向用户呈现内容回放。主处理器可以向音频输出发送用户交互信号。计算设备100可以包括低功率音频回放应用。因此，低功率音频处理器104还可以被配置成执行声学回波消除以能够然后通过低功率语音识别来检测预定的音频模式。

如可以认识到的，前述特征可以以多个方式组合和/或可以采取不同形式。例如，在系统存储器速度增加时，由低功率音频处理器104捕获的音频样本可以直接存储到由主处理器102和低功率音频处理器104可访问的系统存储器110中的单个缓冲器。

图2是根据一个实施例的计算设备的低功率音频处理器200的示意图。低功率音频处理器200可以类似于图1的低功率音频处理器104。低功率音频处理器200可以是数字信号处理器。低功率音频处理器200可以用作固件解决方案，其在主处理器（例如中央处理单元/CPU）（例如图1的主处理器102）最初处于待机模式时能够实现低功率操作。所图示的低功率音频处理器200包括在主处理器处于待机模式时监视来自低功率音频处理器200和/或计算设备的板载麦克风220的输入音频信号的捕获模块202。语言模块204可以识别从输入音频信号捕获的样本中的预定的音频模式。触发模块206可以触发主处理器以从低功能模式转换到高功能模式。触发模块206还可以触发主处理器上的语音识别会话或应用。验证模块208可以操作成验证唤醒短语的说出的源（例如用户、发起者）。验证模块208可以因而根据给定用户来对语音交互短语进行寻址。验证模块208还可以确保仅经授权的个体可以触发计算设备上的语音识别会话。

图3是根据一个实施例的计算设备300的功能图。计算设备300执行各种功能并且可以包括各种处理器、模块和其它硬件元件以执行这些功能。例如，如所图示的计算设备300包括开关矩阵302、低功率音频处理器304、主处理器306和存储器308。计算设备300具有低功能模式和高功能模式。更具体地，计算设备300的主处理器306具有低功能模式和高功能模式。在所图示的实施例中，主处理器306的低功能模式包括低功率模式并且主处理器306的高功能模式包括高功率模式。

开关矩阵302接收音频输入的各种源并且可以向低功率音频处理器304呈现音频样本。音频输入可以被预先采样（例如已经数字化）或者开关矩阵可以提供采样功能。低功率麦克风310可以在无论何时计算设备300在操作时操作，包括当计算设备300处于低功能模式时。开关矩阵302可以提供通过低功率麦克风310接收的音频信号的样本。开关矩阵302还可以从媒体栈340（例如内容回放信号）接收可以用作回波参考的音频输入。开关矩阵302可以包括一个或多个另外的麦克风312，314，其可以在计算设备300处于低功能模式时被解激活并且可以被激活来作为计算设备300从低功能模式到高功能模式的转换的部分。

在其它实施例中，开关矩阵302可以是总线或音频路由器。在其它实施例中，低功率麦克风310可以直接链接到低功率音频处理器304。在又一些实施例中，开关矩阵302可以作为低功率音频处理器304的部分而被包括。

音频样本可以在主处理器306和/或计算设备308处于低功能模式的同时被从由麦克风310接收的音频信号捕获。如果媒体栈340和/或计算设备300处于内容回放模式（例如音频内容回放模式）中则可以应用声学回波消除324。音频样本然后可以被存储在循环缓冲器326中。在存储到循环缓冲器的样本上执行关键词检测和/或扬声器验证328（KD/SV）以识别预定的音频模式（例如由用户说出的唤醒短语）。如果在循环缓冲器326中的第一样本中识别到预定的音频模式，则可以向处于低功能模式的主处理器306上的KD/SV服务342发送通知。通知可以是中断、IPC等以触发主处理器306来转换到高功能模式和/或发起语音识别应用。

循环缓冲器中的第一音频样本的至少一部分（例如预定模式的端点之后的部分）在被拷贝到存储器308中的环形缓冲器336之前可能经历单个通道噪声抑制。端点之前的第一音频样本的部分（即预定的音频模式）可以被去掉（strip out）并且不被写入到存储器中的环形缓冲器336。在由KD/SV 328检测到预定的音频模式之后，一个或多个另外的麦克风312，314可以被激活并且计算设备和/或低功率音频处理器可以开始捕获多个通道的音频样本并且可以发生多通道噪声抑制332。还可以在多个通道上执行波束形成322。直到在预定的音频模式的检测之后发生静默时段为止，单个麦克风捕获和单个通道噪声抑制可以继续并且后续音频样本或第二音频样本可以被写入到存储器308中的环形缓冲器336。替换地，低功率音频处理器304可以继续将从单个麦克风310捕获的音频样本存储到循环缓冲器326。总之，低功率音频处理器304继续执行单个通道噪声抑制330，并且将音频样本写入到存储器308中的环形缓冲器336。多通道音频样本可以最初不被写入到存储器308中的环形缓冲器336以便避免音频信号中的不连续而同时用户继续与计算设备300的语音对接。一旦发生静默时段（例如在诸如“嗨助理，我的下一次约会是什么时候

”之类的唤醒短语和语音交互短语的说出之后），由多个通道捕获并且通过多通道噪声抑制332运行的音频样本可以直接被写入到存储器308中的环形缓冲器336。换言之，可以启用多麦克风捕获和多通道噪声抑制，但是不启用结果以避免用户说话期间信号中的不连续。可以在说话之间的静默时段期间启用多麦克风捕获和多通道噪声抑制的结果。

在另一实施例中，可以轻而易举地（as readily as available）激活多麦克风捕获和多通道噪声抑制的结果，并且可以执行收敛过程以解决由从单个通道移动到多通道处理所创建的任何不连续。

一旦处于高功能模式，主处理器306可以在写入到存储器308中的环形缓冲器336的音频样本上执行大词汇语音识别344。KD/SV应用程序接口（API）346可以使得语音识别应用344能够从存储器308中的环形缓冲器336接收或以其它方式访问音频样本。KD/SV API可以协调从单个通道音频处理和多通道音频处理的移动。

还可以使得计算设备300能够进入使用目前可用的方法的语音识别应用，包括多个步骤过程，其包括用户行动，接着是停顿以等待计算设备的计算设备准备接收命令或其它语音交互短语的指示。在激活时，诸如通过按钮或通过语音触发，计算设备300可以提供提示（例如经由显示屏或经由扬声器）以指示计算设备300准备接收用于语音识别的音频。将音频样本写入到存储器308中的环形缓冲器362并且语音识别应用344可以通过经由操作系统音频API 364接收或以其它方式访问音频样本来执行大词汇语音识别。这样，计算设备300可以通过目前可用的方法来使得实现语音对接和/或会话用户接口。

图4A和4B是根据一个实施例的将计算设备从低功率始终侦听模式转换到高功能模式的方法400的流程图。在计算设备的主处理器处于低功能模式时，从通过麦克风接收的音频信号捕获402音频样本。可以发生第一音频样本的预处理404。预处理404可以包括以下中的一个或多个：声学回波消除、噪声抑制和可以澄清或以其它方式改进用于语音识别的音频信号的其它滤波。音频样本可以被存储406在缓冲器中。低功率音频处理器上的低功率语音识别可以识别408第一音频样本中的预定音频模式。例如，预定音频模式可以是说话“嗨助理”。用户可以无缝并且没有停顿地继续说出语音交互短语，诸如“明天的天气如何”，其可以被部分地包括在第一音频样本中。因此，还可以识别410预定音频模式的端点。

响应于识别408预定的音频模式，在预定的音频模式的端点之后的第一缓冲器中的第一音频样本的至少部分可以被拷贝到主处理器可访问的系统存储器。例如，在预定音频模式的端点之后的第一缓冲器中的第一音频样本可以被拷贝到第二缓冲器。而且，响应于识别到408预定的音频模式，计算设备的主处理器可以被触发412以转换到高功能模式。此外，可以将计算设备的其它元件触发到较高功能模式。例如，可以激活计算设备的一个或多个另外的麦克风。

捕获414第二音频样本。第二音频样本可以从通过麦克风接收的音频信号捕获414。第二音频样本还可以从通过一个或多个另外的麦克风（其可能已经被激活）接收的一个或多个音频信号捕获414。第二音频样本可以被预处理。预处理可以包括以下中的一个或多个：声学回波消除、波束形成、噪声抑制和其它滤波。例如，可以在第二音频样本上执行单个通道噪声抑制。在另一实施例中，可以在第二音频样本上执行多通道噪声抑制。存储416第二音频样本。第二音频样本可以被存储416在例如由主处理器可访问的系统存储器中的第二缓冲器中。在其它实施例中，第二音频样本可以被存储416在第一缓冲器中，在预定音频模式的端点之后。

一旦主处理器转换到高功能模式，预定音频模式的端点之后的存储在第一缓冲器中的第一音频样本的部分和第二音频样本可以由处于高功能模式中的主处理器处理418。例如，在预定音频模式的端点之后的存储在第一缓冲器中的第一音频样本的部分和第二音频样本可以包括说话“明天天气如何”。主处理器可以执行大词汇语音识别以能够实现会话用户接口（CUI），使得用户可以说话并且主处理器可以识别语音交互短语，其可以包括询问和/或命令。主处理器可以执行语音识别以检测“明天天气如何

”并且可以执行420基于此检测到的语音交互短语的功能。

可以识别422第一语音交互短语之后的静默时段。在用户等待来自计算设备的响应时，静默时段可以发生在第一语音交互短语之后。在静默时段期间，计算设备可以从单个通道处理切换424到多通道处理。

示例实施例

示例1. 一种从低功能始终侦听模式转换到较高功能语音识别模式的计算系统，包括：具有低功能模式和高功能模式的主处理器；存储音频样本的缓冲器；在主处理器处于低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本并且在缓冲器中存储第一音频样本的低功率音频处理器，其中低功率音频处理器被配置成识别第一音频样本中的预定的音频模式，包括预定的音频模式的端点，并且触发主处理器转换到高功能模式，其中系统配置成，在低功率音频处理器触发主处理器时，从通过一个或多个麦克风接收的音频信号捕获第二音频样本并且存储第二音频样本，并且其中主处理器被配置成，在高功能模式中，在预定音频模式的端点之后的缓冲器中的第一音频样本的至少部分上且在第二音频样本上执行语音识别处理。

示例2. 示例1的系统，还包括一个或多个板载麦克风，每个被配置成接收音频信号，其中一个或多个板载麦克风包括所述麦克风和所述一个或多个麦克风。

示例3. 示例1的系统，其中第二音频样本被存储在预定音频模式的端点之后的缓冲器中。

示例4. 示例1的系统，其中缓冲器包括存储在主处理器处于低功能模式中时捕获的音频样本的第一缓冲器，并且其中系统还包括：对主处理器可访问以存储音频样本的第二缓冲器，其中第二音频样本被存储在第二缓冲器中，并且其中系统被配置成，在低功率音频处理器触发主处理器时，将在预定音频模式的端点之后的第一音频样本的至少部分拷贝到第二缓冲器。

示例5. 示例1的系统，其中低功率音频处理器包括：在主处理器处于低功能模式中时监视由板载麦克风接收的音频信号并且捕获音频信号的音频样本的捕获模块；识别所捕获的音频样本中的预定的音频模式的语言模块；以及基于预定的音频模式而触发计算设备的主处理器转换到高功能模式的触发模块。

示例6. 示例1的系统，还包括在第一音频样本上执行噪声抑制的单个通道噪声抑制模块。

示例7. 示例1的系统，还包括：

在第二音频样本上执行噪声抑制的多通道噪声抑制模块。

示例8. 示例1的系统，其中主处理器被配置成，在高功能模式中，施行语音识别处理以识别命令。

示例9. 示例8的系统，其中主处理器还被配置成基于所识别的命令而执行另外的功能。

示例10. 示例8的系统，其中主处理器还被配置成在确定命令之后识别静默时段，并且，在静默时段期间，将系统从第二音频样本的单通道处理切换到多通道处理。

示例11. 示例1的系统，还包括可操作成当主处理器处于高功能模式中时接收音频信号的多个另外的麦克风，其中一个或多个麦克风包括多个另外的麦克风，并且其中第二音频样本从通过多个另外的麦克风接收的音频信号捕获。

示例12. 示例1的系统，其中低功能模式包括低功率模式。

示例13. 示例1的系统，其中低功能模式包括低功率模式和有限特征模式。

示例14. 示例1的系统，其中低功能模式包括有限特征模式。

示例15. 示例1的系统，其中高功能模式包括较高功率模式。

示例16. 示例1的系统，其中高功能模式包括较高功率模式和较高特征模式。

示例17. 示例1的系统，其中高功能模式包括较高特征模式。

示例18. 一种将计算设备从低功能模式转换到高功能模式的方法，包括：在计算设备的主处理器处于低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本；在第一缓冲器中存储第一音频样本；通过低功率音频处理器识别第一音频样本中的预定的音频模式，包括预定音频模式的端点；响应于识别到预定的音频模式，触发计算设备的主处理器以转换到高功能模式；从通过一个或多个麦克风接收的音频信号捕获第二音频样本；

存储第二音频样本；以及通过处于高功能模式中的主处理器处理在预定音频模式的端点之后的第一缓冲器中存储的第一音频样本的至少一部分和第二音频样本。

示例19. 示例18的方法，还包括将在预定音频模式的端点之后的第一缓冲器中的第一音频样本的至少一部分拷贝到第二缓冲器，其中存储第二音频样本包括在第二缓冲器中存储第二音频样本。

示例20. 示例18的方法，还包括在主处理器处于低功能模式中时捕获的第一音频样本上执行单个通道噪声抑制。

示例21. 示例18的方法，还包括基于预定的音频模式而激活一个或多个麦克风，其中捕获第二音频样本包括从通过所激活的一个或多个麦克风接收的音频信号捕获第二音频样本。

示例22. 示例21的方法，还包括在主处理器处于高功能模式中时捕获的第二音频样本上执行多通道噪声抑制。

示例23. 示例18的方法，其中处理第一音频样本的至少一部分和第二音频样本包括执行语音识别以确定命令。

示例24. 示例23的方法，还包括通过处于高功能模式中的主处理器执行命令。

示例25. 示例23的方法，还包括：在确定命令之后识别静默时段；在静默时段期间，从另外的音频样本的单麦克风处理切换到多麦克风处理。

示例26. 示例18的方法，其中低功能模式包括低功率模式。

示例27. 示例18的方法，其中低功能模式包括低功率模式和有限特征模式。

示例28. 示例18的方法，其中低功能模式包括有限特征模式。

示例29. 示例18的方法，其中高功能模式包括较高功率模式。

示例30. 示例18的方法，其中高功能模式包括较高功率模式和较高特征模式。

示例31. 示例18的方法，其中高功能模式包括较高特征模式。

示例32. 一种从低功能始终侦听模式转换到较高功能语音识别模式的计算系统，系统被配置成执行示例18-31的任一个的方法。

示例33. 一种低功率始终侦听数字信号处理器，包括：在主处理器处于低功能模式中时监视由麦克风接收的音频信号并且捕获音频信号的第一音频样本的捕获模块；语言模块，其识别第一音频样本中的预定音频模式，包括预定音频模式的端点；以及触发模块，以响应于语言模块识别到预定的音频模式，触发主处理器以转换到高功能模式并且发起在预定的音频模式的端点之后捕获的第一音频样本的部分上和在触发模块触发主处理器之后捕获的第二音频样本上的语音识别处理。

示例34. 示例33的低功率始终侦听数字信号处理器，还包括存储第一音频样本的第一缓冲器。

示例35. 示例34的低功率始终侦听数字信号处理器，其中第一缓冲器由主处理器可访问。

示例36. 示例33的低功率始终侦听数字信号处理器，还包括在主处理器处于低功能模式中时接收音频信号的板载麦克风。

示例37. 示例33的低功率始终侦听数字信号处理器，还包括将在预定的音频模式的端点之后捕获的第一音频样本的一部分拷贝到第二缓冲器的冲刷模块（flush module），第二缓冲器由主处理器可访问。

示例38. 一个或多个机器可读存储介质，包括存储在其上的多个指令，所述多个指令响应于被执行而导致计算设备执行权利要求18-31中的任一个的方法。

上面的描述提供了众多特定细节以用于本文所描述的实施例的透彻理解。然而，本领域技术人员将认识到，可以省略一个或多个特定细节，或者可以使用其它方法、部件或材料。在一些情况中，未详细示出或描述操作。

另外，所描述的特征、操作或特性可以以任何合适的方式被组合在一个或多个实施例中。还将容易理解的是，结合所公开的实施例描述的方法的步骤或行动的次序可以被改变，如对本领域技术人员将显然的那样。因此，附图或具体实施方式中的任何次序仅仅用于说明性目的并且不意图暗示所要求的次序，除非被指定要求次序。实施例可以包括各种步骤，其可以被包含在机器可执行指令中以由通用或专用计算机（或其它电子设备）执行。替换地，步骤可以由包括用于执行步骤的特定逻辑的硬件部件或者由硬件、软件和/或固件的组合来执行。

实施例还可以被提供为计算机程序产品，其包括具有存储在其上的可以用于对计算机（或其它电子设备）编程以执行本文所描述的过程的指令的计算机可读存储介质。计算机可读存储介质可以包括但不限于：硬驱动机、软盘、光盘、CD-ROM、DVD-ROM、ROM、RAM、EPROM、EEPROM、磁或光卡、固态存储器设备或适合用于存储电子指令的其它类型的介质/机器可读介质。

如本文所使用的，软件模块或部件可以包括任何类型的计算机指令或计算机可执行代码，其位于存储器设备和/或计算机可读存储介质内。软件模块可以例如包括计算机指令的一个或多个物理或逻辑块，其可以被组织为例程、程序、对象、部件、数据结构等，其执行一个或多个任务或实现特定抽象数据类型。

在某些实施例中，特定软件模块可以包括存储在存储器设备的不同位置中的不同指令，其一起实现所描述的模块的功能。事实上，模块可以包括单个指令或许多指令，并且可以在若干不同代码段之上、在不同程序之中和跨若干存储器设备分布。一些实施例可以在分布式计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中，软件模块可以位于本地和/或远程存储器存储设备中。此外，在数据库记录中结合或再现在一起的数据可以在相同的存储器设备中，或者跨若干存储器设备驻留，并且可以跨网络而在数据库中的记录的字段中连接在一起。

对本领域技术人员而言将显而易见的是，可以对上面描述的实施例的细节作出许多改变而不脱离于本发明的根本原理。本发明的范围因而应当仅由下面的权利要求确定。

Claims

1.一种从低功能始终侦听模式转换到较高功能语音识别模式的计算系统，包括：

具有低功能模式和高功能模式的主处理器；

用于存储音频样本的缓冲器；

低功率音频处理器，用于在所述主处理器处于所述低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本并且用于在所述缓冲器中存储所述第一音频样本，其中所述低功率音频处理器被配置成识别所述第一音频样本中的预定音频模式，包括所述预定音频模式的端点，且触发所述主处理器转换到所述高功能模式，

其中所述系统被配置成，在所述低功率音频处理器触发所述主处理器时，从通过一个或多个麦克风接收的音频信号捕获第二音频样本并且存储所述第二音频样本，并且

其中所述主处理器被配置成，在所述高功能模式中，在所述缓冲器中的在所述预定音频模式的所述端点之后的所述第一音频样本的至少一部分上和在所述第二音频样本上执行语音识别处理。

2.权利要求1所述的系统，还包括一个或多个板载麦克风，每个被配置成接收音频信号，其中所述一个或多个板载麦克风包括所述麦克风和所述一个或多个麦克风。

3.权利要求1所述的系统，其中在所述缓冲器中在所述预定音频模式的所述端点之后存储所述第二音频样本。

4.权利要求1所述的系统，其中所述缓冲器包括用于存储在所述主处理器处于所述低功能模式中时捕获的音频样本的第一缓冲器，并且其中所述系统还包括：

所述主处理器可访问的、用于存储音频样本的第二缓冲器，

其中所述第二音频样本被存储在所述第二缓冲器中，并且

其中所述系统被配置成，在所述低功率音频处理器触发所述主处理器时，将在所述预定音频模式的所述端点之后的所述第一音频样本的所述至少一部分拷贝到所述第二缓冲器。

5.权利要求2所述的系统，其中所述低功率音频处理器包括：

捕获模块，用于在所述主处理器处于所述低功能模式中时监视由所述板载麦克风接收的所述音频信号并且用于捕获所述音频信号的音频样本；

语言模块，用于识别所捕获的音频样本中的所述预定音频模式；以及

触发模块，用于基于所述预定音频模式而触发所述计算设备的所述主处理器转换到所述高功能模式。

6.权利要求1所述的系统，还包括单通道噪声抑制模块，用于在所述第一音频样本上执行噪声抑制。

7.权利要求1所述的系统，还包括多通道噪声抑制模块，用于在所述第二音频样本上执行噪声抑制。

8.权利要求1所述的系统，其中所述主处理器被配置成，在所述高功能模式中，执行语音识别处理以识别命令。

9.权利要求8所述的系统，其中所述主处理器还被配置成基于识别的命令而执行另外的功能。

10.权利要求8所述的系统，其中所述主处理器还被配置成在确定所述命令之后识别静默时段，并且，在所述静默时段期间，将所述系统从第二音频样本的单通道处理切换到多通道处理。

11.权利要求1所述的系统，还包括多个另外的麦克风，可操作成当所述主处理器处于所述高功能模式中时接收音频信号，

其中所述一个或多个麦克风包括所述多个另外的麦克风，并且

其中从通过所述多个另外的麦克风接收的音频信号捕获所述第二音频样本。

12.一种用于将计算设备从低功能模式转换到高功能模式的方法，包括：

在所述计算设备的主处理器处于低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本；

在第一缓冲器中存储所述第一音频样本；

由低功率音频处理器识别所述第一音频样本中的预定音频模式，包括所述预定音频模式的端点；

响应于识别到所述预定音频模式，触发所述计算设备的所述主处理器转换到高功能模式；

从通过一个或多个麦克风接收的音频信号捕获第二音频样本；

存储所述第二音频样本；以及

由处于所述高功能模式中的所述主处理器处理在所述第一缓冲器中存储的在所述预定音频模式的所述端点之后的所述第一音频样本的至少一部分和所述第二音频样本。

13.权利要求12所述的方法，还包括将在所述第一缓冲器中的在所述预定音频模式的所述端点之后的所述第一音频样本的所述至少一部分拷贝到第二缓冲器，

其中存储所述第二音频样本包括在所述第二缓冲器中存储所述第二音频样本。

14.权利要求12所述的方法，还包括在所述主处理器处于所述低功能模式中时捕获的所述第一音频样本上执行单通道噪声抑制。

15.权利要求12所述的方法，还包括基于所述预定音频模式而激活一个或多个麦克风，其中捕获第二音频样本包括从通过所激活的一个或多个麦克风接收的音频信号捕获所述第二音频样本。

16.权利要求15所述的方法，还包括在所述主处理器处于所述高功能模式中时捕获的所述第二音频样本上执行多通道噪声抑制。

17.权利要求12所述的方法，其中处理所述第一音频样本的所述至少一部分和所述第二音频样本包括执行语音识别以确定命令。

18.权利要求17所述的方法，还包括由处于所述高功能模式中的所述主处理器执行所述命令。

19.权利要求17所述的方法，还包括：

在确定所述命令之后识别静默时段；

在所述静默时段期间，从另外的音频样本的单麦克风处理切换到多麦克风处理。

20.一种从低功能始终侦听模式转换到较高功能语音识别模式的计算系统，所述系统被配置成执行权利要求12-19中任一项所述的方法。

21.一种低功率始终侦听数字信号处理器，包括：

捕获模块，用于在主处理器处于低功能模式中时监视由麦克风接收的音频信号并且用于捕获所述音频信号的第一音频样本；

语言模块，用于识别所述第一音频样本中的预定音频模式，包括所述预定音频模式的端点；以及

触发模块，用于响应于所述语言模块识别到所述预定音频模式，触发所述主处理器转换到高功能模式并且发起在所述预定音频模式的所述端点之后捕获的所述第一音频样本的一部分上和在所述触发模块触发所述主处理器之后捕获的第二音频样本上的语音识别处理。

22.权利要求21所述的低功率始终侦听数字信号处理器，还包括第一缓冲器，用于存储所述第一音频样本。

23.权利要求22所述的低功率始终侦听数字信号处理器，其中所述第一缓冲器由所述主处理器可访问。

24.权利要求21所述的低功率始终侦听数字信号处理器，还包括板载麦克风，用于在所述主处理器处于所述低功能模式中时接收所述音频信号。

25.权利要求21所述的低功率始终侦听数字信号处理器，还包括冲刷模块，用于将在所述预定音频模式的所述端点之后捕获的所述第一音频样本的一部分拷贝到第二缓冲器，所述第二缓冲器由所述主处理器可访问。

26.一种机器可读存储介质，其上存储有指令，当由计算设备执行所述指令时，使得所述计算设备执行根据权利要求12-19中任一项所述的方法。

27.一种用于将计算设备从低功能模式转换到高功能模式的装置，包括：

用于在所述计算设备的主处理器处于低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本的部件；

用于在第一缓冲器中存储所述第一音频样本的部件；

用于由低功率音频处理器识别所述第一音频样本中的预定音频模式、包括所述预定音频模式的端点的部件；

用于响应于识别到所述预定音频模式，触发所述计算设备的所述主处理器转换到高功能模式的部件；

用于从通过一个或多个麦克风接收的音频信号捕获第二音频样本的部件；

用于存储所述第二音频样本的部件；以及

用于由处于所述高功能模式中的所述主处理器处理在所述第一缓冲器中存储的在所述预定音频模式的所述端点之后的所述第一音频样本的至少一部分和所述第二音频样本的部件。

28.权利要求27所述的装置，还包括用于将在所述第一缓冲器中的在所述预定音频模式的所述端点之后的所述第一音频样本的所述至少一部分拷贝到第二缓冲器的部件，

其中所述用于存储所述第二音频样本的部件包括用于在所述第二缓冲器中存储所述第二音频样本的部件。

29.权利要求27所述的装置，还包括用于在所述主处理器处于所述低功能模式中时捕获的所述第一音频样本上执行单通道噪声抑制的部件。

30.权利要求27所述的装置，还包括用于基于所述预定音频模式而激活一个或多个麦克风的部件，其中所述用于捕获第二音频样本的部件包括用于从通过所激活的一个或多个麦克风接收的音频信号捕获所述第二音频样本的部件。

31.权利要求30所述的装置，还包括用于在所述主处理器处于所述高功能模式中时捕获的所述第二音频样本上执行多通道噪声抑制的部件。

32.权利要求27所述的装置，其中所述用于处理所述第一音频样本的所述至少一部分和所述第二音频样本的部件包括用于执行语音识别以确定命令的部件。

33.权利要求32所述的装置，还包括用于由处于所述高功能模式中的所述主处理器执行所述命令的部件。

34.权利要求32所述的装置，还包括：

用于在确定所述命令之后识别静默时段的部件；

用于在所述静默时段期间，从另外的音频样本的单麦克风处理切换到多麦克风处理的部件。