CN108352168A

CN108352168A - 用于语音唤醒的低资源关键短语检测

Info

Publication number: CN108352168A
Application number: CN201680063783.5A
Authority: CN
Inventors: T·伯克莱特; J·霍弗
Original assignee: Intel IP Corp
Current assignee: Intel Corp
Priority date: 2015-11-24
Filing date: 2016-09-01
Publication date: 2018-07-31
Anticipated expiration: 2036-09-01
Also published as: US20170148444A1; EP3381035A1; US10937426B2; US20190371326A1; US9792907B2; US20180261218A1; WO2017091270A1; US10325594B2; CN108352168B

Abstract

讨论了与用于诸如语音唤醒之类的应用的关键短语检测有关的技术。此类技术可包括基于来自声学模型的子表音单元的评分来更新基于起始状态的拒绝模型和关键短语模型以生成拒绝似然评分和关键短语似然评分以及基于拒绝似然评分和关键短语似然评分来确定所接收音频输入是否与预定关键短语相关联。

Description

用于语音唤醒的低资源关键短语检测

优先权要求

本申请要求2015年11月24日提交的、题为“用于语音唤醒的低资源关键短语检测”的美国非临时专利申请S/N.14/950,670的优先权，并且该美国非临时专利申请通过引用其整体结合于此。

背景技术

关键短语或热词检测系统可被用于检测可发起由设备进行活动的单词或短语等等。例如，设备可基于对特定单词或短语的检测来唤醒(例如，从低功率或睡眠模式转变至活跃模式)。

当前关键短语检测系统可对关键短语的上下文依存音素(phone)进行建模，并且可使用高斯混合模型(GMM)来对变调声学进行建模。此类系统可包括用于关键短语的模型和用于非关键短语的模型。然而，此类模型对于低资源(例如，计算资源、存储器资源和功率资源)环境中的实现来说太复杂。使用较少资源(诸如较少功率)的较简单技术可被用在此类低资源环境中。然而，当前低资源技术在稳健性方面存在问题(例如，噪声、认假(falseaccept)等)。

如此，现有技术不能提供高质量低资源关键短语检测随着对实现诸如唤醒语音系统之类的关键短语检测系统的期望变得更加普遍，此类问题会变得至关重要。

附图说明

本文中所描述的资料通过示例方式而非限制性方式在所附附图中示出。为说明简单和清楚起见，附图中所示出的元件不一定是按比例绘制的。例如，为了清楚起见，可将一些元件的尺寸相对于其他元件扩大。此外，在被认为合适的情况下，在多个附图之间重复多个附图标记来指示对应或类似的元件。在附图中：

图1是用于提供关键短语检测的示例设置的示例性示图；

图2是用于提供关键短语检测的示例系统的示例性示图；

图3例示出与关键短语检测相关联的示例数据结构；

图4例示出示例声学模型深度神经网络；

图5例示出示例拒绝模型和示例关键短语模型；

图6例示出用于生成关键短语检测模型的示例过程；

图7是用于生成关键短语检测模型的示例系统的示例性示图；

图8例示出与生成关键短语检测模型相关联的示例数据结构；

图9是例示出用于关键短语检测的示例过程的流程图；

图10是用于执行关键短语检测和/或关键短语检测模型的生成的示例系统的示例性示图；

图11是示例系统的示例性示图；以及

图12例示出完全根据本公开的至少一些实现来布置的示例设备。

具体实施方式

现在参考所附附图描述一个或多个实施例或实现方案。尽管讨论了特定的配置和布置，但是，应当理解，仅出于示例性目的而这样做。相关领域内的技术人员将认识到，可采用其他配置和安排而不背离本说明书的精神和范围。对相关领域内的技术人员显而易见的是，也可在本文所描述内容以外的各种其他系统和应用中采用本文所描述的多种技术和/或安排。

尽管以下描述陈述了可在诸如例如芯片上系统(SoC)架构之类的架构中显示的各种实现方案，但是本文所述的多种技术和/或安排的实现方案不限于特定的架构和/或计算系统，并且可由用于类似目的的任何架构和/或计算系统来实现。例如，采用例如多个集成电路(IC)芯片(例如，包括数字信号处理器，专用硬件等等)和/或封装的各种架构和/或各种计算设备和/或消费者电子(CE)设备(诸如机顶盒、智能电话等之类)可实现本文所述的多种技术和/或布置。此外，尽管下列描述可能陈述了诸如逻辑实现、系统组件的类型和相互关系、逻辑分区/集成选择等之类的多个具体细节，但是可以不利用此类具体细节来实施要求保护的主题。在其他实例中，可能不详细地示出诸如例如控制结构和完整的软件指令序列之类的某些资料，从而避免使本文所公开的内容不清楚。

本文所公开的内容可实现在硬件、固件、软件或它们的任何组合中。也可以将本文所公开的内容实现为存储在机器可读介质上的指令，可由一个或多个处理器读取并执行这些指令。机器可读介质可包括用于以机器(如，计算设备)可读的形式存储或传送信息的任何介质和/或机制。例如，机器可读介质可包括只读存储器(ROM)；随机存取存储器(RAM)；磁盘存储介质；光存储介质；闪存设备；电、光、声或其它形式的传播信号(例如，载波、红外信号、数字信号等)等等。

在说明书中提到“一个实现方案”、“实现方案”、“示例实现方案”等表明所描述的实现方案可包括特定特征、结构或特性，但每个实施例可能不一定都包括该特定特征、结构或特性。此外，此类的短语不一定是指同一个实现方案。此外，当结合实现方案描述特定特征、结构或特性时，认为结合无论是否在本文中明确描述的其他实现方案以实现此类特征、结构或特性是在本领域技术人员的知识范围之内的。

本文所描述的方法、设备、装置、计算平台和制品涉及用于诸如语音唤醒之类的应用的低资源关键短语检测。

如上所述，关键短语或热词检测系统可被用于检测单词或短语等，这些单词或短语可发起由设备进行活动，诸如基于对关键短语的检测将设备从低功率或休眠模式唤醒到活跃模式。如本文所使用的，术语关键短语可指示要被检测的任何音频指示符或声学事件(诸如短语、单词或一组音素之类)或者音频或声学事件(诸如婴儿啼哭、尖叫之类)。此外，关键短语也被预先确定以供系统使用使得可提供对预定关键短语的检测。在实施例中，基于能量的语音激活检测可检测话音或一些形式的音频输入并且可基于该语音激活检测来发起如本文所讨论的关键短语检测。

在一些实施例中，子表音(sub-phonetic)单元的评分的时间序列可基于表示可包括输入话音的所接收音频输入的特征向量的时间序列来生成。例如，可包括输入话音流的音频输入可经由话筒来接收并且结果所得的音频数据可随时间而被采样以生成诸如梅尔频率倒谱系数(MFCC)之类的所提取系数。(例如，随时间获得的)多个MFCC集合可被堆叠以形成诸如多维特征向量之类的特征向量。此外，此类特征向量可随时间来生成以提供表示可包括话音的所接收音频的特征向量的时间序列。此类特征向量可基于声学模型(诸如深度神经网络(DNN)等等)来评分以提供子表音单元的评分。例如，子表音评分中的至少一些可与已说出的特定三音素(triphone)的似然相关联。

基于子表音单元的评分(例如，声学模型的输出)，基于起始状态的拒绝模型和与预定关键短语相关联的关键短语模型可被更新。例如，基于起始状态的拒绝模型和关键短语模型可在来自声学模型的输出的每一个时间实例下被更新。基于起始状态的拒绝模型可包括例如单一状态，该单一状态具有与声学模型的子表音单元的评分中的一些相关联的自循环。此类自循环可包括在没有来自模型的其他状态的任何转变的情况下基于来自声学模型的输出对单一状态的更新。此外，关键短语模型可包括多状态词典查找关键短语模型，该模型具有与用于预定关键短语的词典查找相关联的状态之间的转变。

基于对基于起始状态的拒绝模型和关键短语模型的更新，可关于所接收输入话音是否与预定关键短语相关联做出判定。例如，基于起始状态的拒绝模型的单一状态可为所接收音频输入提供拒绝似然评分(例如，所接收话音不是关键短语的似然)，而关键短语模型的最终状态为所接收音频输入提供关键短语似然性评分(例如，所接收话音是关键短语的似然)。关于所接收音频输入是否与预定关键短语相关联的判定可基于拒绝似然性评分和关键短语似然评分来确定。例如，基于拒绝似然评分和关键短语似然评分的似然评分(例如，对数似然比)可被确定并与预定阈值进行比较。例如，如果对数似然评分大于阈值，则设备可被激活或从睡眠模式等被唤醒。

此外，在本文所讨论的一些实施例中，声学模型(例如，修剪声学模型(a prunedacoustic model))、基于起始状态的拒绝模型以及关键短语模型可通过使用音频训练集来训练声学模型来生成使得声学模型具有表示绑定的三音素(例如，HMM-)状态的多个输出。例如，绑定的三音素状态中的每一个可与多个单音素中的一个相关联。此外，声学模型可包括表示诸如静默或背景噪声之类的非话音的输出。在实施例中，可训练声学模型(例如，DNN)。基于声学模型输出(例如，DNN输出)，其中每个可能音素是中心音素的三音素可被选择。与在训练期间最频繁被观测的中心音素对应的声学模型输出可被选择并且此类所选声学模型输出可被用作拒绝模型或被用于拒绝模型中。例如，N个最重要的中心音素声学模型输出可被选择以用于拒绝模型。在一些实施例中，与静默或背景噪声相关联的声学模型输出也可被添加至拒绝模型。然后，用于关键短语模型的声学模型输出的序列可被生成。例如，此类序列可通过词典查找来生成。给定诸如“Hello Machine(你好，机器)”之类的关键短语，基于词典查找，用于形成序列所需的声学模型输出可被确定并且此类声学模型输出可被放在一起以形成识别序列。

基于所选用于拒绝模型的声学模型输出的子集和用于关键短语模型的声学模型输出的子集，原始声学模型可被修剪使得其他声学模型输出被丢弃。如文本所讨论的，经修剪的声学模型可被实现(例如，评分)以用于关键短语检测。此类修改可提供基本上较小的声学模型以供实现，这可节省资源(例如，功率，计算、存储器等等)。此类建模可在训练和修剪过程期间提供与静默、声音、话音和关键短语的任何组合相关联的模型的生成。因此，此类建模及其实现可提供灵活性和低资源关键短语检测。例如，此类技术可在不同的噪声/信噪比(SNR)环境中提供低误差率同时提供低存储器要求(例如，少于大约30kB，包括语音激活检测)和低计算要求(例如，少于大约15MCP，包括语音激活检测)。

图1是根据本公开的至少一些实现来布置的用于提供关键短语检测的示例设置100的示例性示图。如图1所示，设置100可包括用户101向设备102提供音频输入111。例如，设备102可处于深度睡眠或功率节省模式等等，并且用户101可尝试经由关键短语检测来唤醒设备102。如果用户101提供被标识为设备102的关键短语的音频输入111，则设备102可从睡眠或功率节省模式等等唤醒。例如，设备102可为用户101提供基于语音自动唤醒能力。如所示，在一些示例中，基于语音自动唤醒系统可经由设备102来实现使得设备102可以是智能电话。然而，设备102可以是任何合适的设备，诸如计算机、膝上型计算机、超级本、智能电话、平板、平板电话、诸如手表或眼镜之类的可穿戴设备等等。在任何情形中，设备102可被描述为如本文所使用的计算设备。

如所示，在一些示例中，用户101可提供音频输入111以试图唤醒设备102，诸如此类。如将理解的，设备102还可接收背景噪声、静默、背景话音、不旨在获得对设备102的访问的语音等等来作为音频输入。例如，设备102可需要对不匹配(例如，如由本文所讨论的拒绝模型(rejection model)提供的)预定关键短语的音频(例如，音频输入111或其他音频)与匹配(例如，如由本文所讨论的关键短语模型提供的)预定关键短语的音频进行区分开或分类。

图2是根据本公开的至少一些实现来布置的用于提供关键短语检测的示例系统200的示例性示图。如图2所示，系统200可包括话筒201、特征提取模块202、声学评分模块203、对数似然比解码器204、关键短语和拒绝模型205、控制器206、声学模型208以及语音活动检测模块207。例如，如图2所示，对数似然比解码器204可将关键短语评分215提供给控制器206。基于关键短语评分215(例如，如果关键短语评分215大于阈值等等)，控制器206可提供系统唤醒指示符216(例如，如果关键短语评分215指示预定关键短语已被匹配)，或者控制器206可不提供此类指示符并且系统200可继续评估输入话音以得到匹配。如所示，在一些示例中，控制器206还可提供与关键短语相关联的系统命令218以请求系统200执行诸如启动应用、生成或检索数据之类的操作。如本文进一步所讨论的，在一些实施例中，特征提取模块202、声学评分模块203、对数似然比解码器204、控制器206以及语音活动检测模块207可经由数字信号处理器(DSP)来实现。

如所讨论的，在一些实施例中，系统200可实现单一关键短语，使得基于对该关键短语的检测，系统唤醒指示符216和/或系统命令218可被提供。在其他实施例中，系统200可实现多个关键短语(基于实现如本文所讨论的多个关键短语模型)。在此类实施例中，如果关键短语中的任何被检测到，则系统唤醒指示符216和/或系统命令218可被提供。此外，系统命令218可与关键短语中的特定关键短语相关联。例如，诸如“计算机，播放音乐(Computer,Play Music)”之类的第一唤醒命令(例如，关键短语)可唤醒设备(例如，经由系统唤醒指示符216)并播放音乐(例如，经由由系统命令218实现的音乐播放命令)，而诸如“计算机，我有邮件吗？(Computer,Do I Have Mail？)”之类的第二唤醒命令(例如，关键短语)可唤醒设备(例如，经由系统唤醒指示符216)并确定邮件是否已被接收(例如，经由由系统命令218实现的获取邮件命令)。

如所示，话筒201可从用户101(或者多个用户或环境等等)接收音频输入(AI)111。在一些示例中，音频输入111由用户101发出以唤醒系统200和/或使系统200执行操作。如所讨论的，话筒201可接收不旨在唤醒系统200的音频输入或者其他背景噪声或甚至静默。例如，音频输入111可包括话筒201的环境中由用户101发出的任何话音以及任何其他环境噪声或静默等等。音频输入111可被表征为音频、输入音频、输入话音流等等。话筒201可接收音频输入111和/或其他音频(例如，如空气中的声波)并将音频输入111和/或此类其他音频转换成诸如数字信号之类的电信号以生成音频数据(AD)211。例如，音频数据211可被存储在存储器(未在图2中示出)中、被转移以供继续处理等等。

如所示，语音活动检测模块207可接收音频数据211。例如，语音活动检测模块207可甚至在系统200的深度睡眠模式下操作(例如，经由DSP)以持续地监测语音数据211。一旦检测到需要由系统200进一步评估的语音或其他声音，语音活动检测模块207可提供启动信号(IS)217，该启动信号217可激活系统200的其他模块以提供关键短语检测。例如，语音活动检测模块207可将启动信号217提供给特征提取模块202以激活特征提取模块202以及系统200的其它组件。在实施例中，音频数据211的一部分(例如，360ms的音频数据等等)可由环形缓冲器等等来缓冲。当需要进一步评估的语音或其他声音被语音活动检测模块207检测到时，特征提取模块202可接收来自缓冲器的数据以及经由音频数据211的进一步传入音频。

如果预定关键短语被检测到，如本文所讨论的，则系统200可为用户101进入较高级操作模式。此外，语音活动检测模块207可在关键短语检测期间(例如，在关键短语未被检测到或尚未被检测到时)操作以确定系统200是否可被设置回深度睡眠模式等等。例如，语音活动检测模块207可为系统200提供低功率始终监听功能。例如，在由启动信号217进行的激活之际，音频数据211可被持续监视以进行关键短语检测直至控制器206确定关键短语已被检测到并且系统唤醒指示符216被提供或者直至由语音活动检测模块207作出重新进入睡眠模式或低功率状态等等的决定。

如所讨论的，特征提取模块202可接收音频数据211。例如，特征提取模块202可从话筒201、从所讨论的缓冲器、从系统200的其他存储器等等接收音频数据211，并且特征提取模块202可生成与音频输入111相关联的特征向量212。特征向量212可以是表示音频输入111的任何合适的特征或特征向量等等。例如，特征向量212可以是特征向量的时间序列(例如，每一个针对时间实例生成的特征向量)使得特征向量212中的每一个包括一堆特征或特征向量，其中每个特征或特征向量来自诸如采样时间之类的时间实例。

图3示出根据本公开的至少一些实现来布置的与关键短语检测相关联的示例数据结构300。如图3中所示，在多个采样时间301中的每一个(例如，被表示为采样时间t₀,t₁,…,t_N)下，可生成诸如梅尔频率倒谱系数(MFCC)之类的采样系数302。采样时间301可处于任何合适的间隔，诸如每10ms等等，并且在采样时间301中的每一个采样时间下执行的采样可采样任意时长的输入话音或音频，诸如25ms的音频等等。采样系数302可包括任何数量的采样系数，诸如在示例性示例中的13个系数。此外，采样系数302每一个可被称为特征、特征向量、采样等等。例如，采样系数302可以是表示所接收的音频的功率谱的系数。如所讨论的，在实施例中，采样系数302是表示所接收的音频的功率谱的梅尔频率倒谱系数。例如，参考图2，梅尔频率倒谱系数可通过对音频输入111和/或经由话筒201接收的音频进行傅立叶变换，映射到梅尔数值范围，确定每个梅尔频率下的功率的对数以及基于对该功率对数的离散余弦变换(DCT)确定梅尔频率倒谱系数，来基于音频输入111(例如，经由音频数据211)而确定。

继续参考图3，采样系数302可被堆叠或连结或组合等等以生成特征向量212。如所示，在实施例中，采样系数302的11个实例可被组合以生成多个特征向量212中的每个特征向量。此外，在堆叠之前，采样系数302可被归一化等等。例如，可通过倒谱均值归一化(cepstral mean normalization)等等处理梅尔频率倒谱系数以生成采样系数302。如所示，在实施例中，采样系数302的11个实例可被组合以生成每个特征向量使得每个特征向量是143(例如，11x13)维向量。然而，任何数量的采样系数302的实例可被组合或堆叠以生成特征向量212。如所示，特征向量FV₁可包括与时间t₀–t₁₀相关联的采样系数。此外，特征向量FV₂可包括与t₁–t₁₁相关联的采样系数，特征向量FV₃可包括与t₂–t₁₂相关联的采样系数等等，使得相邻特征向量相对于包括在其中的特征向量302具有交迭部分。

如图2和3所示，特征向量212可被提供给声学评分模块203。声学评分模块203可基于如经由存储器而接收的声学模型208来为特征向量212评分并基于特征向量212提供任何数量的输出评分214。输出评分214可被表征为评分、概率、子表音单元的评分等等。例如，声学评分模块203可针对特征向量212中的每一个生成此类输出评分或状态，以生成评分214的时间序列(在图3中被表示为评分S1,S2,…)。例如，评分214可以是子表音单元的评分的时间序列。在实施例中，声学评分模块203接收并实现声学模型208，如本文所讨论的那样。在实施例中，声学模型208可以是基于音频训练集预训练的深度神经网络(DNN)。在实施例中，声学模型208可以是具有任何数量的输出(诸如4000个输出等等)的深度神经网络。在另一实施例中，声学模型208是具有减少或修剪的输出数目的经修剪深度神经网络，使得仅可用输出的子集(例如，如确定的设置和/或训练)被提供或激活。此类修剪可在实现期间提供较小的存储器占用和/或较低的计算要求。此类必需输出可通过状态信号213来提供或者此类必需输出可在实现之前被预设置或预训练。

例如，声学评分模块203的输出(例如，评分214)可表示子表音单元，诸如绑定的上下文依存三音素状态。此类绑定的上下文依存三音素状态可表示被绑定至任一侧(例如，左和右)上的单音素以生成绑定的上下文依存三音素的单音素。语言例如可具有多个单音素(例如，30-50个单音素)并且诸如示例性绑定的上下文依存三音素状态之类的子表音单元可包括各种上下文中的此类单音素中的每一个，使得各其他单音素位于此类单音素之前或之后以生成许多组合(例如，子表音单元)。声学评分模块203可基于特征向量212在其输出处提供与此类子表音单元相关联的概率或评分等等(例如，关于哪个单元或音素已被说出的概率或评分)以及与静默和/或背景噪声等等相关联的概率或评分。如在图3中所示出并且如本文进一步讨论的，对于评分214中的每一个或一些，对数似然比解码器可生成对应的关键短语评分215(例如，被表示为关键短语评分KPS₁,KPS₂,…)。在图3的示例中，在与评分214相关联的每个时间实例下生成关键短语评分215。在其他示例中，关键短语评分215可按较小频率时间间隔来生成。

此外，如所讨论的，在一些实施例中，单一关键短语可被检测到并且系统可被唤醒(例如，经由系统唤醒指示符216)并且任选命令可基于所检测到的关键短语而被发出(例如，经由系统命令218)。在其他实施例中，第二或附加关键短语可被实现并且相关联的关键短语模型可由对数似然比解码器204来评估。例如，此类关键短语模型可被评估并且相关联的关键短语评分可被评估以确定多个关键短语中的特定关键短语是否已被检测到。例如，如参考图5进一步讨论的，可提供多个关键短语模型。在图3的上下文中，对数似然比解码器204可为此类关键短语模型中的每一个(并且在多个时间实例下)生成一关键短语评分或(诸)关键短语评分以供控制器206评估。

图4示出根据本公开的至少一些实现来布置的示例声学模型神经网络400。例如，神经网络400可在一些实施例中被实现为声学评分模块203。神经网络400可包括任何合适的神经网络，诸如人工神经网络、深度神经网络、卷积神经网络等等。如图4所示，神经网络400可包括输入层401、隐藏层402-406以及输出层407。为了呈现的清楚，神经网络400被例示为具有三个输入节点、各带有四个节点的隐藏层以及六个输出节点，然而，神经网络400可包括任何此类输入、隐藏和输出节点。输入层401可包括任何合适数目的节点，诸如与特征向量212中的每个特征向量中的元素的数目相等数目的多个节点。例如，输入层401可具有与特征向量212的143个维度中的每个维度相对应的143个节点。在其他示例中，特征向量可具有更少或更多的元素或维度并且输入层401可具有对应数目的节点。

此外，如在所例示的示例中，神经网络400可包括五个隐藏层402-406。然而，神经网络400可包括任何数量的隐藏层。隐藏层402-406可包括任何数量的节点。例如，隐藏层402-406可包括1500到2000个节点、2000到2500个节点等等。在一些示例中，隐藏层402-406具有相同数目的节点，而在其他示例中，一个或多个层可具有不同数目的节点。输出层407可包括任何合适数量的节点，使得评分214包括与绑定的上下文依存三音素状态等等对应的值。在一些示例中，神经网络400可实现隐马尔可夫模型(HMM)。如所讨论的，在一些实施例中，输出层407可被修剪使得仅预定输出节点(以及相关联评分214)被提供以使得可用状态或评分的子集经由神经网络400被实现。

回到图2，如所讨论的，来自声学评分模块203的评分214可被提供给对数似然比解码器204。同样，如所示，对数似然比解码器204还可接收并实现关键短语模型(或多个关键短语模型)和拒绝模型。例如，对数似然比解码器204可从存储器接收关键短语模型(或多个关键短语模型)和拒绝模型(例如，关键短语和拒绝模型205)。

图5示出根据本公开的至少一些实现来布置的示例拒绝模型501和示例关键短语模型502。如图5所示，拒绝模型501可包括单一状态511和多个自循环512。例如，单一状态511与起始状态相对应并且可提供基于单一起始状态的拒绝模型。此外，自循环512中的每一个可与评分214中的一个(例如，来自声学评分模块203的输出)相关联，使得自循环512为拒绝模型501的单一状态511提供自更新或求和等等。例如，自循环512中的每一个可与深度神经网络输出或对应于子表音单元的输出节点相关联。通过使用此类技术，例如，单一状态511可提供实现拒绝模型的起始状态。自循环512可包括任何数量的自循环。如所讨论的，在一些实施例中，声学评分模块203可不被修剪并且，在此类实施例中，自循环512可包括数千个自循环。在其他实施例中，声学评分模块203可被修剪并且在此类实施例中，自循环512可包括与很可能的拒绝状态相关联的数十个自循环。例如，在来自声学评分模块203的输出的每个时间实例下，拒绝模型501可被更新以提供与之相关联的拒绝似然评分。例如，自循环512可例示来自声学评分模块203的输出(例如，评分214)的每个时间实例下对单一状态511的更新。在实施例中，自循环512可与来自如本文进一步讨论的声学评分模块203的经修剪的输出评分相关联。

具有单一状态511的拒绝模型501与传统拒绝模型相比可提供大大减小的拒绝模型(例如，在存储器和计算资源使用方面)，这可并行地实现许多同等可能的单词或短语等等并且需要具有回溯的维特比(Viterbi)解码来提供最可能序列以确定拒绝似然。

同样如图5所示，关键短语模型502可在拒绝模型501之后并通过转变513来连接。关键短语模型502可包括通过转变523互连的多个状态521。状态521中的每一状态可包括诸如自循环522之类的一个或多个自循环或者可由诸如自循环522之类的一个或多个自循环来更新，并且状态521中的每一状态可基于诸转变523中的一转变或者来自关键短语模型502中的在前状态的转变513来更新。例如，每个自循环522(或弧)可与来自声学评分模块203的输出(例如，评分214中的一评分)相关联或相对应。在所例示的示例中，状态521中的每一个具有单一自循环522。然而，状态521中的一个或多个可包括多个自循环。在一些示例中，状态521中的一个或多个可以是具有自循环的表示静默的静默状态，使得关键短语可被建模成包括静默。关键短语模型502可包括任何合适的模型。例如，关键短语模型502可基于经由系统200实现的预定关键短语来选择并且关键短语模型502可基于词典查找来选择。例如，状态521之间的转变523可基于词典中的三音素-HMM-状态序列来选择。

基于拒绝模型501和关键短语模型502，在每个或一些时间实例下，可确定拒绝似然评分和关键短语似然评分。例如，拒绝似然评分可以是与拒绝模型501的单一状态511相关联的评分，并且关键短语似然评分可与关键短语模型502的状态521中的最终状态524相关联。例如，拒绝模型501和关键短语模型502可通过使用处于零或负无穷等等的所有节点或其状态来初始化参考图2和5，基于第一特征向量FV₁，声学评分模块203可生成评分S₁，并且拒绝模型501的单一状态511和关键短语模型502的第一状态可被更新。一旦第二特征向量FV₂被处理，声学评分模块203可生成评分S₂，并且拒绝模型501的单一状态511和关键短语模型502的第二状态可被更新。此类处理可继续进行，直至最终状态524从其初始化状态被更新成有意义的评分。在此类时间实例(以及随更新继续的后续时间实例)下，单一状态511的评分或概率等等以及最终状态524的评分或概率等等可被用于确定预定关键短语是否已被检测到。例如，关键短语评分215的时间序列可由对数似然比解码器204基于评分214、拒绝模型501和关键短语模型502来生成。

关键短语评分215可包括任何合适的关键短语评分，该关键短语评分将在单一状态511下生成的似然与在最终状态下生成的似然进行对比。在实施例中，关键短语评分215的关键短语评分可以是对数似然比。例如，关键短语评分215的关键短语评分可被确定，如式(1)中所示：

KPS＝log(p(X│KeyPhrase))-log(p(X│Reject)) (1)

其中KPS可以是关键短语评分，X可以是正被评估的特征向量的当前累加，而p提供X是KeyPhrase(关键短语)或Reject(拒绝)的成员的概率。

回到图2，如所示，控制器206可接收关键短语评分215(例如，关键短语评分的时间序列)并且控制器206可将关键短语评分215与阈值等进行比较以确定预定关键短语是否已被检测到。例如，如果关键短语评分215大于(或者大于或等于)阈值，则预定关键短语已被检测到并且控制器206可提供系统唤醒指示符216以唤醒系统200。如果关键短语评分215小于(或者小于或等于)阈值，则预定关键短语尚未被检测到并且控制器206可不提供系统唤醒指示符216并且控制器可继续监视关键短语评分215。

回到图5，例如，可基于以下伪代码为(例如，特征向量212的)每个特征向量确定(例如，关键短语评分215的)关键短语评分：

伪代码(1)

基于伪代码(1)，当score[current][length(score)]–score[current][0]>threshold(评分[当前][长度(评分)]–评分[当前][0]>阈值)时，可检测到预定关键短语，其中score[current][0](评分[当前][0])可以是拒绝模型的单一状态下的评分，而score[current][length(score)](评分[当前][长度(评分)])可以是关键短语模型的最终状态下的评分。所提供的阈值可以是任何合适的阈值。例如，阈值可被改变以实现各种安全性水平和/或可用性水平。例如，低阈值可降低置信度(并且可由此具有较多的认假(falseaccepts))，而较高阈值可具有较低认假但在嘈杂状况下具有较高数量的拒真(falsereject)。

例如，伪代码(1)可为拒绝模型和关键短语模型中的每个状态提供基于来自声学模型的与该状态相关联的(诸)评分以及从模型的任何相关联状态转变到该状态的评分来更新该状态的评分。由此，拒绝模型和关键短语模型的每一状态下的连续求和可被提供，并且拒绝模型的单一状态下以及关键短语模型的最终状态下的此类得分可被建模为对数似然比差异并与如所讨论的阈值进行比较以确定预定关键短语是否已被检测到。例如，在拒绝模型和关键短语模型中，评分可以是状态数目(例如，numStates(num状态))的数组，x可以是计数器变量，curScore(cur评分)可以是当前迭代下状态的评分，dnn_score(dnn_评分)可以是从声学模型(例如，DNN模型)检索的评分，而new_score(new_评分)可以是针对该迭代的拒绝/关键短语模型的更新后的评分。如所讨论的，在当前迭代下的更新之后，拒绝模型的单一状态处的评分(例如，score[current][length(score)])和关键短语模型的最终状态处的评分(例如，score[current][length(score)])可被用于确定关键短语是否已被检测到。

如所讨论的，在一些实施例中，声学评分模块203可在经由系统200实现之前被修剪。此外，拒绝模型501和关键短语模型502可基于可从经修剪的声学评分模块203得到的输出(例如，评分214)来生成。此类修剪和模型生成可提供在存储器占用、计算资源和功率使用方面提供低资源使用的关键短语检测模型。此类低资源使用在例如语音唤醒实现的情境中是有利地。

如本文所讨论的，以及如图5所示，在一些实施例中，可(例如，为单个关键短语)实现单个关键短语模型502。在一些实施例中，可实现多个关键短语模型(例如，每个与不同关键短语相关联)。例如，多个关键短语模型中的每一个可在拒绝模型501之后并通过转变连接至拒绝模型501，类似于关键短语模型502通过转变513连接至拒绝模型501。此外，如参考关键短语模型502所讨论的，多个关键短语模型中的每一个可包括通过转变互连的多个状态并且状态中的每一个可包括一个或多个自循环或由一个或多个自循环更新，使得可基于来自关键短语模型中的先前状态的转变(或来自拒绝模型501的转变)来更新状态。如所讨论的，每个自循环可与来自声学评分模块203的输出(例如，评分)相关联。

基于拒绝模型501和多个关键短语模型中的每一个，在每个或一些时间实例下，可确定拒绝似然评分和每个关键短语模型的关键短语似然评分。例如，拒绝似然评分可以是与拒绝模型501的单一状态511相关联的评分，而关键短语似然评分可与多个关键短语模型中的每一个的状态中的最终状态相关联。如本文所讨论的，基于拒绝似然评分和多个关键短语模型中的每一个的关键短语似然评分，可生成多个关键短语模型中的每一个的关键短语评分。

例如，回到图2，控制器206可接收此类关键短语评分(例如，关键短语评分的时间序列)，并且控制器206可将此类关键短语评分与阈值或相应阈值进行比较以确定预定关键短语是否已被检测到。例如，如果关键短语评分中的任一个大于(或者大于或等于)阈值或其相应阈值，则特定预定关键短语已被检测到并且控制器206可提供系统唤醒指示符216以唤醒系统200，并提供任选命令指示符(例如，系统命令218)以执行与该特定预定关键短语相关联的命令。如果全部关键短语评分都小于(或者小于或等于)阈值或其相应阈值，则控制器206可不提供系统唤醒指示符216并且控制器可针对预定关键短语继续进行监视。

图6示出根据本公开的至少一些实现来布置的用于生成关键短语检测模型的示例过程600。过程600可包括一个或多个操作601-607，如图6中所例示的那样。过程600或其部分可由设备或系统(例如，系统700或本文所讨论的任何其他设备或系统)来执行以生成关键短语检测模型。可针对将被用于经由设备或系统来检测的任何数量的关键短语(例如，任何数量的预定关键短语)重复过程600或其部分。此外，过程600将参考如图7所示的系统700来讨论。例如，如本文所使用的关键短语检测模型可包括基于起始状态的拒绝模型、关键短语模型以及经修剪的声学模型。

图7是根据本公开的至少一些实现来布置的用于生成关键短语检测模型的示例系统700的示例性示图。如所示，系统700可包括声学模型训练模块701、拒绝模型生成模块702、关键短语模型生成模块703以及声学模型生成模块704。此外，声学模型训练模块701可基于训练集(TS)711来训练初始或起始声学模块712并且可生成与被训练的声学模型的输出相关联的使用率(UR)713。使用率713可被提供给拒绝模型生成模块702，该拒绝模型生成模块702可选择被训练的声学模型的可用输出的子集(SS)717，如本文所进一步讨论的那样。声学模型生成模块704、拒绝模型生成模块702以及关键短语模型生成模块703可分别生成经修剪的声学模型(PAM)719(其还可被表征或描述为声学模型)、拒绝模型(RM)715以及关键短语模型(KPM)716，如本文所进一步讨论的那样。

回到图6，如所示，过程600可在操作601处开始，其中可训练声学模型。该声学模型可包括任何合适的声学模型，诸如人工神经网络、深度神经网络、卷积神经网络等等，如本文所讨论的那样。例如，在操作601处，可基于音频输入的预定训练集来训练完整的神经网络或模型(例如，具有可用输出节点的全集)。例如，可用输出节点的全集可包括与子表音单元(诸如，如本文所讨论的绑定的三音素HMM-状态)的评分对应的输出节点。此外，可用输出节点的全集可包括与静默、噪声等等对应的输出节点。例如，声学模型训练模块701可基于训练集711来训练声学模型712。

图8示出根据本公开的至少一些实现来布置的与生成关键短语检测模型相关联的示例数据结构800。如图8所示，词典等在图8中可包括与之相关联的多个单音素801(例如，被标记为MP₁,MP₂,…,MP_M)。例如，语言或词典中单词或短语的发音可被表示为一系列个体声音单元，这一系列个体声音单元可被表征为音素，并且单音素可被表征为单个音素。词典或语言等可包括任何数量的单音素801。同样如图8所示，对于每一个单音素，可生成多个输出节点802。例如，每个子表音单元或绑定的三音素HMM状态可与如本文所讨论的输出节点相对应。例如，绑定的三音素HMM状态可具有在其任一侧带有绑定的单音素的单音素。例如，输出节点ON_1,1–ON_1,N可对应于单音素MP₁，输出节点ON_2,1–ON_2,P可对应于单音素MP₂等等，使得输出节点ON_M,1–ON_M,Q可对应于单音素MP_M。例如，输出节点802中的每一节点可与单音素801中的特定单音素相关联。如所示，单音素801中的每一单音素可包括任何数量的相关联的输出节点802的输出状态。

在一些实现绑定的三音素HMM状态的示例中，子表音单元/输出节点中可存在交迭。例如，ON_1,2还可被用于MP₂的一些子表音单元中等等。例如，该结构可如下提供：单音素→三音素→子表音单元/ON。例如，三音素a/b/a和三音素e/t/a可各自具有3个子表音单元。然而，两个三音素中的第二个/a/可共享相同的子表音单元。此外，基于过程600和系统700训练的声学模型可包括用于输出节点802的每个节点的输出节点以及与静默、背景噪声等等相关联的输出节点。

回到图6，处理可在操作602处继续，其中可为与上下文依存三音素HMM状态相对应的声学模型的输出节点确定使用率。例如，参考图7，声学模型训练模块701可生成使用率713。该使用率可通过使用任何合适的技术或诸技术来确定。例如，在训练期间，当声学模型的输出节点被使用或者具有非零输出等等时，与该输出节点相关联的使用率可增加。这种对使用率的跟踪可在整个训练期间或其部分期间执行。

如所示，处理可在操作603处继续，其中可生成可用输出节点的子集，该子集包括与每个单音素相关联的最高使用输出节点或诸最高使用输出节点。例如，参考图8，对于单音素801中的每一单音素，可确定最高使用率输出节点以生成最高使用率输出节点803。例如，最高使用率输出节点ON_1,MU可对应于单音素M₁，最高使用率输出节点ON_2,MU可对应于单音素M₂等等。此类最高使用率输出节点803可被包括在输出节点813的子集中以供在拒绝模型(例如，拒绝模型715)中使用。在所例示的示例中，最高使用率输出节点803包括针对每个单音素的单个最高使用节点。然而，对于每个单音素，可使用任何数量的最高使用率输出节点。针对每个单音素的输出节点的数目可以相同或者它们可以不同。例如，可应用阈值来确定针对每个单音素的输出节点的数目，使得具有大于阈值的使用率的所有输出节点可被用于每个单音素。

回到图6，处理可在操作604处继续，其中可将与静默相关联或相对应的声学模型的输出节点包括在输出节点的子集中。例如，与非话音、静默和/或背景噪声相对应的声学模型712的输出节点中的全部或一些可被包括在输出节点的子集中。在一些示例中，与噪声等相对应的输出节点可被包括在输出节点的子集中。在实施例中，参考图7，拒绝模型生成模块702可执行操作603和604以生成子集717。

如图6所示，处理可在操作605处继续，其中可基于输出节点的子集生成拒绝模型。例如，拒绝模型可包括具有起始状态和与经由操作603和604生成的输出节点的子集相关联的自循环的基于起始的拒绝模型，如参考图5和本文别处所讨论的那样。例如，拒绝模型的自循环可与经由操作603和604生成的输出节点相关联。例如，可在通过绑定的三音素HMM状态的自循环在识别图的起始状态或第一状态中执行拒绝。拒绝模型可包括自循环，诸如与非话音(例如，非话音状态)相对应的输出节点(例如，HMM状态)以及训练期间被最多使用的那些输出节点(例如，在操作603处等确定的子集)。参考图7，子集717可包括由拒绝模型715使用的输出节点(例如，并且子集717可不被从经修剪的声学模型719剪去)。

处理可在操作606处继续，其中可生成一个或多个关键短语模型。例如，如参考图5和本文别处所讨论的，关键短语模型可包括具有每个状态之间的转变和/或与输出节点中的一个或多个相关联的每个状态的自循环的多节点或多状态词典查找关键短语模型。例如，参考图7，所生产的关键短语模型(例如，关键短语模型716)可包括声学模型712的输出节点的第二子集(例如，子集718)(虽然也会有交迭)。例如，参考图7，关键短语模型生成模块703可响应于关键短语714(或多个关键短语)生成关键短语模型716(或多个关键短语模型)。此外，关键短语模型生成模块703可提供指示由关键短语模型(或多个关键短语模型)使用的输出节点的子集718。例如，子集718可被传递到声学模型生成模块704并且子集718可包括由关键短语模型716(或多个关键短语模型)使用的输出节点，使得子集718可不被从经修剪的声学模型719剪去)。例如，声学模型712的输出节点的两个子集(例如，在拒绝模型715中使用的子集717和在关键短语模型718中使用的子集718)可定义经修剪的声学模型719中需要的输出节点。

处理可在操作607处继续，其中经修剪的声学模型可基于实现所需的输出节点的(诸)子集来生成。例如，经修剪的声学模型可包括与经由操作605和606等确定的输出节点的子集相关联的输出，同时其他输出节点被从经修剪的声学模型剪去或消去。如所讨论的，此类修剪可在实现期间提供低资源声学模型。例如，参考图7，声学模型生成模块704可接收子集717、子集718和声学模型712且声学模型生成模块704可从声学模型712丢弃或移除与子集717、718相关联的输出以生成经修剪的声学模型719。例如，输出的数目可从大约4000个输出减少至大约100个输出。

如所讨论的，声学模型生成模块704可实现操作607以生成经修剪的声学模型719，拒绝模型生成模块702可实现操作603、604和605以生成拒绝模型715，而关键短语模型生成模块703可实现操作606以生成关键短语模型716。

图9是示出根据本公开的至少一些实现来布置的用于关键短语检测的示例过程900的流程图。过程900可包括一个或多个操作901-903，如图9所例示的那样。过程900可形成例如由系统200执行的关键短语检测过程的至少一部分。此外，本文将参考图10的系统1000来描述过程900。

图10是根据本公开的至少一些实现来布置的用于执行关键短语检测和/或关键短语检测模型的生成的示例系统1000的示例性示图。如图10所示，系统1000可包括中央处理器1001、数字信号处理器1002、存储器1003和话筒201。同样如所示，中央处理器1001可包括声学模型训练模块701、拒绝模型生成模块702、关键短语模型生成模块703以及声学模型生成模块704。此外，数字信号处理器1002可包括特征提取模块202、声学评分模块203、对数似然比解码器204以及控制器206。在一些实施例中，数字信号处理器1002还可包括语音活动检测模块207。同样如所示，存储器1003可存储关键短语和拒绝模型205以及声学模型208。存储器1003还可存储音频数据、输入话音数据、语音活动检测参数或数据、系数数据、特征向量、评分、输出评分、关键短语评分、对数似然评分、阈值或本文所讨论的任何其他数据或数据结构。

中央处理器1001和数字信号处理器1002可包括可提供如本文所讨论的操作的任何数量和任意类型的处理单元。此类操作可经由软件或硬件或其组合来实现。例如，数字信号处理器1002可包括专门用于操纵从存储器1003或专用存储器获得的数据的电路。此外，中央处理器1001可包括可提供用于系统1000的控制和其他高级功能以及如本文所讨论的操作的任何数量和任意类型的处理单元或模块。在所例示的示例中，系统1000可被配置成执行关键短语检测并生成关键短语检测模型。在实施例中，系统1000可排除声学模型训练模块701、拒绝模型生成模块702、关键短语模型生成模块703以及声学模型生成模块704。在另一实施例中，系统1000可排除特征提取模块202、声学评分模块203、对数似然比解码器204以及控制器206。

存储器1003可以是任何类型的存储器，诸如易失性存储器(例如，静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)等)或者非易失性存储器(例如，闪存等)等等。在非限制性示例中，系统存储器1003可通过高速缓存存储器来实现。如所示，在实施例中，特征提取模块202、声学评分模块203、对数似然比解码器204以及控制器206可经由数字信号处理器1002来实现。在另一实施例中，特征提取模块202、声学评分模块203、对数似然比解码器204以及控制器206可经由中央处理器1001来实现。在其他实施例中，特征提取模块202、声学评分模块203、对数似然比解码器204以及控制器206中的全部或一些或部分可经由执行单元(EU)来实现。EU可包括例如可编程逻辑或电路，诸如可提供广泛的可编程逻辑功能的逻辑核或诸逻辑核。

回到图9的讨论，过程900可在操作901处开始，在那里可基于表示所接收的音频输入的特征向量的时间序列，经由声学模型的声学评分，来生成子表音单元的评分的时间序列。例如，经由数字信号处理器1002实现的特征提取模块202可生成如本文所讨论的表示所接收的音频输入的特征向量的时间序列。此外，如经由数字信号处理器1002实现的声学评分模块203可基于特征向量的时间序列和声学模型208来生成子表音单元的评分的时间序列。在实施例中，声学评分模块203是深度神经网络并且特征向量的时间序列包括第一特征向量，该第一特征向量包括一堆系数的时间序列，每个系数与采样时间相关联。

处理可在操作902处继续，在那里可基于子表音单元的评分的时间序列中的至少一些来更新基于起始状态的拒绝模型和与预定关键短语相关联的关键短语模型，以生成拒绝似然评分和关键短语似然评分。例如，如经由数字信号处理器1002实现的对数似然比解码器204可更新基于起始状态的拒绝模型和与预定关键短语相关联的关键短语模型以生成拒绝似然评分和关键短语似然评分。例如，对数似然比解码器204可实现经由存储器1003存储的关键短语和拒绝模型以确定拒绝似然评分和关键短语似然评分。在实施例中，基于起始状态的拒绝模型包括与操作901处确定的子表音单元的评分中的至少一些相关联的自循环。在实施例中，基于起始状态的拒绝模型仅包括关键短语模型之前的单一状态。在实施例中，关键短语模型是具有与用于预定关键短语的词典查找相关联的转变的多状态词典查找关键短语模型。例如，关键短语似然评分可与多状态词典查找关键短语模型的最终状态相关联。

处理可在操作903处继续，在那里可基于拒绝似然评分和关键短语似然评分来关于所接收的音频输入是否与预定关键短语相关联作出确定。例如，经由数字信号处理器1002实现的控制器206可基于拒绝似然评分和关键短语似然评分来确定所接收的音频输入是否与预定关键短语相关联。在实施例中，确定所接收的音频输入是否与预定关键短语相关联包括基于拒绝似然评分和关键短语似然评分来确定对数似然评分以及将该对数似然评分与阈值进行比较。例如，如果对数似然评分大于阈值，则控制器206可唤醒系统1000，如果并非如此，则控制器206可继续监视对数似然评分。

在一些示例中，可实现多个(例如，两个或更多个)关键短语和关键短语模型。例如，过程900可进一步包括基于子表音单元的评分的时间序列的至少一些更新与第二预定关键短语相关联的第二关键短语模型以生成第二关键短语似然评分，并且所接收的音频输入是否与第二预定关键短语相关联可基于拒绝似然评分和第二关键短语似然评分来确定。如果所接收的音频输入与第二预定关键短语相关联，则可提供与第二预定关键短语相对应的系统唤醒指示符和/或系统命令。例如，系统命令可以是用于让系统采取与第二预定关键短语相对应的动作的任何合适的命令。

如所讨论的，在一些实施例中，作为执行关键短语检测的附加或替代，系统1000可执行关键短语检测模型的生成。关键短语检测模型可包括基于起始状态的拒绝模型、关键短语模型以及经修剪的声学模型。例如，参考图6，如经由中央处理器1001实现的声学模型训练模块701可实现操作601。例如，声学模型训练模块701可训练具有多个输出节点的声学模型，这些输出节点包括上下文依存的绑定的三音素HMM状态形式的多个子表音单元，使得绑定的三音素HMM状态中的每一个与多个单音素中的一个相关联。此外，声学模型训练模块701可通过实现操作602来在训练期间确定子表音单元中的每一个的使用率。在实施例中，为绑定的三音素HMM状态中的每一个确定使用率包括当第一绑定的三音素状态在声学模型的训练期间具有非零输出时增加与第一绑定的三音素HMM状态相关联的第一使用率。

拒绝模型生成模块702可实现操作603以生成输出节点的所选子集，该子集包括与多个单音素中的每一个的最高使用率子表音单元相对应的至少一个输出节点。在实施例中，生成输出节点的所选子集包括在子集中至少提供与多个单音素中的每一个相关联的最高使用率绑定的上下文依存三音素HMM状态。在实施例中，声学模型的输出节点进一步包括多个静默节点。例如，拒绝模型生成模块702可任选地实现操作604以将声学模型的输出节点中的非话音节点包括在所选子集中。

此外，如经由中央处理器1001实现的拒绝模型生成模块702、关键短语模型生成模块703以及声学模型生成模块704可分别实现操作605、606和607。例如，拒绝模型生成模块702可生成如本文所讨论的基于起始状态的拒绝模型，使得基于起始状态的拒绝模型包括单一状态和自循环，该自循环与针对输出节点的所选子集的多个单音素中的每一个的最高使用率子表音单元的输出节点以及同非话音相关联的输出节点相对应。关键短语模型生成模块703可生成如本文所讨论的关键短语模型。在实施例中，关键短语模型包括多节点词典查找关键短语模型。在一些示例中，可生成多个关键短语模型使得可实现多个关键短语。如所讨论的，声学模型可包括全部所需输出(例如，子集中被拒绝模型使用的那些输出以及子集中被关键短语模型或诸关键短语模型使用的那些输出)。声学模型生成模块704可实现操作607以生成具有包括所讨论的输出节点的输出的经修剪的声学模型。例如，声学模型生成模块704可生成具有包括输出节点的所选子集的输出的经修剪的声学模型。

虽然本文所讨论的示例过程的实现可包括以所解说的次序示出的全部操作的执行，但本公开不限于此，并且在各个示例中，本文的示例过程的实现可包括所示出的操作的子集、与所解说的不同次序执行的操作、或附加操作。

此外，可响应于由一个或多个计算机程序产品提供的指令来执行本文中所讨论的任何一个或多个操作。此类程序产品可包括提供指令的信号承载介质，当例如由处理器执行这些指令时，这些指令可提供本文所描述的功能。能以一种或多种机器可读介质的任意形式来提供计算机程序产品。因此，例如，包括一个或多个图形处理单元或处理器核的处理器可响应于通过一个或多个机器可读介质转达给处理器的程序代码和/或指令或指令集来执行本文的示例过程中的步骤中的一个或多个。一般而言，机器可读介质能以程序代码和/或指令或指令集的形式来传递软件，这些程序代码和/或指令或指令集可使本文中所描述的任何设备和/或系统实现本文中所讨论的任何系统、操作、模块或组件。

如本文所述任意实现所使用的，术语“模块”指的是配置成提供本文所述的功能的软件逻辑、固件逻辑、硬件逻辑和/或电路的任何组合。软件可具体化为软件包、代码和/或指令或指令集，而如本文所述任一实现所使用的，“硬件”可单独或任意组合地包括例如硬接线电路、可编程电路、状态机电路、固定功能电路、执行单元电路和/或存储由可编程电路执行的指令的固件。可将模块整体或单独地具体化为形成较大系统的部分的电路，例如，集成电路(IC)、芯片上系统(SoC)等。

图11是根据本公开的至少一些实现来布置的示例系统1100的示例性示图。在各种实现中，系统1100可以是媒体系统，虽然系统1100并不限于此情境。例如，可将系统1100结合到个人计算机(PC)、膝上型计算机、超膝上型计算机、平板、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视机、智能设备(例如，智能电话、智能平板或智能电视)、移动互联网设备(MID)、消息收发设备、数据通信设备、相机(例如，傻瓜相机、超变焦相机、数码单透镜反射(DSLR)相机)等中。

在各种实现中，系统1100可包括耦合至显示器1120的平台1102。平台1102可接收来自诸如内容服务设备(一个或多个)1130或内容递送设备(一个或多个)1140或其他类似内容源之类的内容设备的内容。如所示，在一些示例中，系统1100可包括经由平台1102实现的话筒201。平台1102可经由如本文所讨论的话筒201接收输入话音。可将包括一个或多个导航特征的导航控制器1150用于与例如平台1102和/或显示器1120交互。在下文中更详细地描述这些组件中的每一个组件。

在各种实现中，系统1100可提供如所描述的关键短语检测。例如，如所描述的，关键短语检测可为设备或环境提供唤醒语音能力。在其他实现中，系统1100可提供生成关键短语检测模型(例如，包括声学模型、拒绝模型以及关键短语模型)。此类训练可例如在关键短语检测之前离线执行。

在各种实现方案中，平台1102可包括芯片组1105、处理器1110、存储器1112、天线1113、存储1114、图形子系统1115、应用1116和/或无线电1118的任意组合。芯片组1105可提供处理器1110、存储器1112、存储1114、图形子系统1115、应用1116和/或无线电1118之间的相互通信。例如，芯片组1105可包括能够提供与存储1114的互通的存储适配器(未描绘)。

可将处理器1110实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器、兼容x86指令集的处理器、多核或任何其他微处理器或中央处理单元(CPU)。在各种实现中，处理器1110可以是双核处理器(一个或多个)、双核移动处理器(一个或多个)等。

可将存储器1112实现为易失性存储器设备，例如但不限于，随机存取存储器(RAM)、动态随机存取存储器(DRAM)或静态RAM(SRAM)。

可将存储1114实现为非易失性存储设备，诸如但不限于，磁盘驱动器、光盘驱动器、磁带驱动器、内部存储设备、附连存储设备、闪存、电池备份的SDRAM(同步DRAM)和/或网络可访问存储设备。在各种实现中，存储设备1114可包括用于例如在包括多个硬驱动器的时候提供增加对有价值的数字媒体的增强存储性能的保护的技术。

图形子系统1115可执行对诸如静止图像或视频之类的图像进行的处理，以便进行显示。图形子系统1115可以是例如图形处理单元(GPU)或视觉处理单元(VPU)。可将模拟或数字接口用于通信地耦合图形子系统1115和显示器1120。例如，该接口可以是高清多媒体接口、显示端口、无线HDMI和/或适合无线HD的技术中的任意一个。可将图形子系统1115集成到处理器1110或芯片组1115中。在一些实现中，图形子系统1115可以是通信地耦合至芯片组1105的单独设备。

可在各种硬件架构中实现本文中所描述的图形和/或视频处理技术。例如，可在芯片组中集成图形和/或视频功能。或者，可使用分立的图形和/或视频处理器。作为又一实现，可由通用处理器(包括多核处理器)提供图形和/或视频功能。在进一步的实施例中，可在消费电子设备中实现这些功能。

无线电1118可包括能够使用各种合适的无线通信技术发送和接收信号的一个或多个无线电。此类技术可涉及横跨一个或多个无线网络的通信。示例无线网络包括(但不限于)无线局域网(WLAN)、无线个域网(WPAN)、无线城域网(WMAN)、蜂窝网络和卫星网络。在横跨此类网络进行通信时，无线电1118可根据任何版本的一个或多个适用的标准进行操作。

在各种实现中，显示器1120可包括任何电视机类型监视器或显示器。显示器1120可包括例如，计算机显示屏、触屏显示器、视频监视器、电视型设备和/或电视机。显示器1120可以是数字和/或模拟的。在各种实现中，显示器1120可以是全息显示器。同样，显示器1120可以是可接收视觉投影的透明表面。此类投影可传递各种形式的信息、图像和/或对象。例如，此类投影可以是用于移动增强现实(MAR)应用的视觉重叠。在一个或多个软件应用1116的控制下，平台1102可在显示器1120上显示用户界面1122。

在各种实现中，可由任何国家的、国际的和/或独立的服务机构来主管内容服务设备(一个或多个)1130，进而使平台1102例如经由因特网可访问该内容服务设备(一个或多个)1130。可将内容服务设备(一个或多个)1130耦合至平台1102和/或显示器1120。可将平台1102和/或内容服务设备(一个或多个)1130耦合至网络1160，以便往返于网络1160传递(如，发送和/或接收)媒体信息。也可将内容递送设备(一个或多个)1140耦合至平台1102和/或显示器1120。

在各种实现中，内容服务设备(一个或多个)1130可包括有线电视盒、个人计算机、网络、电话、能够递送数字信息和/或内容的因特网启用设备或装置，以及能够经由网络1160或直接地在内容提供商与平台1102和/或显示器1120之间单向地或双向地传递内容的任何其他类似设备。将领会，可经由网络1160，在系统1100中的任何一个组件和内容提供商之间往返地单向和/或双向传递内容。内容的示例可包括任何媒体信息，其包括例如视频、音乐、医疗和游戏信息等。

内容服务设备(一个或多个)1130可接收诸如包括媒体信息、数字信息和/或其他内容的有限电视节目之类的内容。内容提供商的示例可包括任何有线或卫星电视或者无线电或互联网内容提供商。所提供的示例并不旨在限制根据本公开、以任何方式进行的实现。

在各种实现中，平台1102可接收来自具有一个或多个导航特征的导航控制器1150的控制信号。可将控制器1150的导航特征用于与例如用户界面1122交互。在各种实现中，导航控制器1150可以是作为计算机硬件组件(更具体地说，人类接口设备)的、允许用户将空间(如，连续的和多维度的)数据输入计算机的指点设备。诸如图形用户界面(GUI)之类的许多系统以及电视机和监视器允许用户使用物理手势来控制数据，并向计算机或电视机提供数据。

可通过指针、光标、焦点环或显示设备上所显示的其他视觉指示符的移动，在显示设备(例如，显示器1120)上复制控制器1150的导航特征的移动。例如，在软件应用1116的控制下，位于导航控制器1150上的导航特征可被映射到例如用户界面1122上显示的虚拟导航特征。在各实施例中，控制器1150可能不是单独的组件，但是可集成到平台1102和/或显示器1120中。然而，本公开并不旨在限于本文所示或所述的元件或限于本文所示或所述的情境中。

在各种实现中，驱动器(未示出)可包括使用户能够在例如启用时，在初始开机之后，能够像通过触摸按钮打开和关闭电视机一样立即打开和关闭平台1102的技术。甚至当平台被“关闭”时，程序逻辑仍可允许平台1102将内容以流方式发送至媒体适配器或其它内容服务装置(一个或多个)1130或内容递送装置(一个或多个)1140。此外，芯片组1105可包括例如针对5.1环绕声音频和/或高清晰度7.1环绕声音频的硬件和/或软件。驱动器可包括用于集成图形平台的图形驱动器。在各种实现中，该图形驱动器可包括外围组件互连(PCI)快速图形卡。

在各种实现中，可集成系统1100中所示的任意一个或多个组件。例如，可集成平台1102和内容服务设备(一个或多个)1130，或可集成平台1102和内容递送设备(一个或多个)1140，或例如可集成平台1102、内容服务设备(一个或多个)1130和内容递送设备(一个或多个)1140。在各实施例中，平台1102和显示器1120可以是集成单元。可集成显示器1120和内容服务设备(一个或多个)1130，或者例如可集成显示器1120和内容递送设备(一个或多个)1140。这些示例并不旨在限制本公开。

在各实施例中，可将系统1100实现为无线系统、有线系统或无线和有线系统两者的组合。当将系统1100实现为无线系统时，该系统1100可包括适合于在无线共享介质上进行通信的组件和接口，无线共享介质例如是一个或多个天线、发射机、接收机、收发机、放大器、过滤器、控制逻辑等。无线共享介质的示例可包括无线频谱的多个部分，例如RF频谱等。当将系统1100实现为有线系统时，该系统1100可包括适合于在有线通信介质上进行通信的组件和接口，有线通信介质例如是输入/输出(I/O)适配器、用于将该I/O适配器与对应的有线通信介质连接的物理连接器、网络接口卡(NIC)、盘控制器、视频控制器、音频控制器等。有线通信介质的示例可包括线、电缆、金属引线、印刷电路板(PCB)、底板、交换结构、半导体材料、双绞线、同轴电缆、光纤等。

平台1102可建立用于传递信息的一个或多个逻辑或物理通道。该信息可包括媒体信息和控制信息。媒体信息可以是指表示针对用户的内容的任何数据。例如，内容示例可包括来自语音会话、视频会议、流视频、电子邮件(“email”)消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等的数据。来自语音对话的数据可以是例如，话音信息、静默时段、背景噪声、舒适噪声、音调等。控制信息可以是指表示针对自动系统的命令、指令或控制字的任何数据。例如，可将控制信息用于通过系统来路由媒体信息，或用于指示节点按照预先定义的方式来处理该媒体信息。然而，这些实施例并不限于图11中所示或所述的元件，也并不限于图11中所示或所述的情境中。

如上文所述，能以不同的物理样式或形状因子来使系统1100具体化。图12示出根据本公开的至少一些实现来布置的小形状因子设备的实现。在一些示例中，可经由设备1200来实现系统1100。在其他示例中，可经由设备1200来实现其他设备或系统或其部分。在各实施例中，可例如将设备1200实现为具有无线能力的移动计算设备。移动计算设备可以是指具有处理系统和移动电源或供电(诸如例如，一个或多个电池)的任何设备。

移动计算设备的示例可包括个人计算机(PC)、膝上型计算机、超膝上型计算机、平板电脑、触摸板、便携式计算机、手持式计算机、掌上电脑、个人数字助理(PDA)、蜂窝电话、蜂窝电话/PDA的组合、智能设备(例如，智能电话、智能平板电脑或智能电视机)、移动因特网设备(MID)、消息接发设备、数据通信设备、相机等等。

移动计算设备的示例还可包括被布置为由人穿戴的计算机，诸如腕式计算机、手指计算机、戒指计算机、眼镜计算机、皮带扣计算机、臂带计算机、鞋计算机、衣服计算机以及其他可穿戴计算机。在各实施例中，可将例如移动计算设备实现为能够执行计算机应用以及语音通信和/或数据通信的智能电话。尽管已经通过示例方式将移动计算设备实现为智能电话而描述了一些实施例，但是可以领会，也可以使用其他无线移动计算设备来实现其他实施例。各实施例不限于此上下文。

如图12所示，设备1200可包括具有前部1201和后部1202的外壳。设备1200包括显示器1204、输入/输出(I/O)设备1206以及集成天线1208。设备1200还可包括导航特征1212。I/O设备1206可包括用于向移动计算设备输入信息的任何合适的I/O设备。I/O设备1206的示例可包括字母数字键盘、数字小键盘、触摸板、输入键、按钮、开关、话筒、扬声器、语音识别设备和软件等。信息还可借助话筒201进入设备1200或者可通过语音识别设备来数字化。如所示，设备1200可包括集成到设备1200的后部1202(或别处)的相机1205(例如，包括透镜、光圈和成像传感器)以及闪光灯1210。

可使用硬件元件、软件元件或软硬件元件的组合来实现各实施例。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片集等。软件的示例可包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或它们的任意组合。确定是否使用硬件元件和/或软件元件来实现实施例可根据任何数量的因素而变化，这些因素诸如所期望的计算速率、功率电平、热容限、处理循环预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其他设计或性能约束。

至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现，指令表示处理器中的各种逻辑，指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的这些表示可以被存储在有形的机器可读介质上，并被提供给多个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。

尽管已经参考各实现方案描述了本文陈述的某些特征，但并不旨在以限制的含义来解释本说明书。因此，对本公开所属技术领域中的技术人员显而易见的本文所述的各实现方案的各种修改以及其他实现方案被认为落在本公开的精神和范围之内。

在一个或多个第一实施例中，用于关键短语检测的计算机实现的方法包括经由声学模型的声学评分基于表示所接收音频输入的特征向量的时间序列来生成子表音单元的评分的时间序列，基于子表音单元的评分的时间序列中的至少一些来更新基于起始状态的拒绝模型和与预定关键短语相关联的关键短语模型以生成拒绝似然评分和关键短语似然评分，以及基于拒绝似然评分和关键短语似然评分来确定所接收音频输入是否与预定关键短语相关联。

进一步关于第一实施例，基于起始状态的拒绝模型包括与声学模型的子表音单元的评分中的至少一些相关联的自循环。

进一步关于第一实施例，基于起始状态的拒绝模型包括在关键短语模型之前的单一状态。

进一步关于第一实施例，关键短语模型包括多状态词典查找关键短语模型，该多状态词典查找关键短语模型具有与用于预定关键短语的词典查找相关联的转变。

进一步关于第一实施例，关键短语模型包括多状态词典查找关键短语模型，该多状态词典查找关键短语模型具有与用于预定关键短语的词典查找相关联的转变，并且关键短语似然评分与多状态词典查找关键短语模型的最终状态相关联。

进一步关于第一实施例，判定所接收音频输入是否与预定关键短语相关联包括基于拒绝似然评分和关键短语似然评分来确定对数似然评分并将该对数似然评分与阈值进行比较。

进一步关于第一实施例，声学模型包括深度神经网络并且特征向量的时间序列包括第一特征向量，第一特征向量包括一堆系数的时间序列，每个系数与采样时间相关联。

进一步关于第一实施例，所述方法进一步包括基于子表音单元的评分的时间序列中的至少一些来更新与第二预定关键短语相关联的第二关键短语模型以生成第二关键短语似然评分并基于拒绝似然评分和第二关键短语似然评分确定所接收音频输入是否与第二预定关键短语相关联。

进一步关于第一实施例，所述方法进一步包括基于子表音单元的评分的时间序列中的至少一些来更新与第二预定关键短语相关联的第二关键短语模型以生成第二关键短语似然评分并基于拒绝似然评分和第二关键短语似然评分确定所接收音频输入是否与第二预定关键短语相关联，并且所接收音频输入与第二预定关键短语相关联，并且所述方法进一步包括提供与第二预定关键短语相对应的系统命令。

在一个或多个第二实施例中，用于执行关键短语检测的系统包括存储器和数字信号处理器，存储器被配置成存储声学模型、基于起始状态的拒绝模型以及与预定关键短语相关联的关键短语模型，数字信号处理器耦合至存储器，该数字信号处理器用于基于声学模型并基于表示音频输入的特征向量的时间序列来生成子表音单元的评分的时间序列，用于基于子表音单元的评分的时间序列中的至少一些来更新基于起始状态的拒绝模型和关键短语模型以生成拒绝似然评分和关键短语似然评分，以及用于基于拒绝似然评分和关键短语似然评分来确定所接收音频输入是否与预定关键短语相关联。

进一步关于第二实施例，基于起始状态的拒绝模型包括与声学模型的子表音单元的评分中的至少一些相关联的自循环。

进一步关于第二实施例，基于起始状态的拒绝模型包括在关键短语模型之前的单一状态。

进一步关于第二实施例，关键短语模型包括多状态词典查找关键短语模型，该多状态词典查找关键短语模型具有与用于预定关键短语的词典查找相关联的转变，和/或关键短语似然评分与多状态词典查找关键短语模型的最终状态相关联。

进一步关于第二实施例，关键短语模型包括多状态词典查找关键短语模型，该多状态词典查找关键短语模型具有与用于预定关键短语的词典查找相关联的转变。

进一步关于第二实施例，关键短语模型包括多状态词典查找关键短语模型，该多状态词典查找关键短语模型具有与用于预定关键短语的词典查找相关联的转变，并且关键短语似然评分与多状态词典查找关键短语模型的最终状态相关联。

进一步关于第二实施例，数字信号处理器进一步用于基于子表音单元的评分的时间序列中的至少一些来更新与第二预定关键短语相关联的第二关键短语模型以生成第二关键短语似然评分以及基于拒绝似然评分和第二关键短语似然评分确定所接收音频输入是否与第二预定关键短语相关联。

进一步关于第二实施例，数字信号处理器用于确定所接收音频输入是否与预定关键短语相关联包括数字信号处理器用于基于拒绝似然评分和关键短语似然评分来确定对数似然评分并将对数似然评分与阈值进行比较。

进一步关于第二实施例，声学模型包括深度神经网络并且特征向量的时间序列包括第一特征向量，第一特征向量包括一堆系数的时间序列，每个系数与采样时间相关联。

进一步关于第二实施例，数字信号处理器进一步用于基于子表音单元的评分的时间序列中的至少一些来更新与第二预定关键短语相关联的第二关键短语模型以生成第二关键短语似然评分并基于拒绝似然评分和第二关键短语似然评分确定所接收音频输入是否与第二预定关键短语相关联，并且所接收音频输入与第二预定关键短语相关联，数字信号处理器进一步用于提供与第二预定关键短相语对应的系统命令。

在一个或多个第三实施例中，用于生成包括基于起始状态的拒绝模型、关键短语模型和经修剪的声学模型的关键短语检测模型的计算机实现的方法包括：训练具有多个输出节点的声学模型，这些输出节点包括绑定的上下文依存三音素HMM状态形式的多个子表音单元，其中绑定的三音素HMM状态中的每一个与多个单音素中的一个相关联；以及通过在训练期间为子表音单元中的每一个确定使用率来生成输出节点的所选子集，将与多个单音素中的每一个的最高使用率子表音单元相对应的至少一个输出节点包括在所选子集中，并且将与关键短语模型的节点相对应的输出节点包括在所选子集中。

进一步关于第三实施例，所述方法进一步包括生成经修剪的声学模型，所述经修剪的声学模型具有包括输出节点的所选子集的输出。

进一步关于第三实施例，声学模型的多个输出节点进一步包括多个非话音节点，并且其中输出节点的所选子集包括多个非话音节点。

进一步关于第三实施例，为子表音单元中的每一个确定使用率包括在第一子表音单元在声学模型的训练期间具有非零输出时增加与第一子表音单元相关联的第一使用率。

进一步关于第三实施例，基于起始状态的拒绝模型包括单一状态和自循环，该自循环与输出节点的所选子集的多个单音素中的每一个的最高使用率子表音单元的输出节点相对应。

进一步关于第三实施例，关键短语模型包括多节点词典查找关键短语模型。

在一个或多个第四实施例中，用于生成包括基于起始状态的拒绝模型、关键短语模型和经修剪的声学模型的关键短语检测模型的系统包括存储器和耦合至该存储器的处理器，该存储器被配置成存储声学模型，该处理器用于训练具有多个输出节点的声学模型以及用于生成输出节点的所选子集，这些输出节点包括绑定的上下文依存三音素HMM状态形式的多个子表音单元，其中绑定的三音素HMM状态中的每一个与多个单音素中的一个相关联，其中处理器用于生成所选子集包括处理器用于通过在训练期间为子表音单元中的每一个确定使用率，用于将与多个单音素中的每一个的最高使用率子表音单元相对应的至少一个输出节点包括在所选子集中，以及用于将与关键短语模型的节点相对应的输出节点包括在所选子集中。

进一步关于第四实施例，处理器进一步用于生成经修剪的声学模型，该经修剪的声学模型具有包括输出节点的所选子集的输出。

进一步关于第四实施例，声学模型的多个输出节点进一步包括多个非话音节点，并且其中输出节点的所选子集包括多个非话音节点。

进一步关于第四实施例，处理器用于为子表音单元中的每一个确定使用率包括处理器用于在第一子表音单元在声学模型的训练期间具有非零输出时增加与第一子表音单元相关联的第一使用率。

进一步关于第四实施例，基于起始状态的拒绝模型包括单一状态和自循环，该自循环与输出节点的所选子集的多个单音素中的每一个的最高使用率子表音单元的输出节点对应。

进一步关于第四实施例，关键短语模型包括多节点词典查找关键短语模型。

在一个或多个第五实施例中，至少一种机器可读介质可包括多条指令，响应于在计算设备上执行这些指令，这些指令使该计算设备用于执行根据上述实施例中的任一个的方法或任何功能。

在一个或多个第六实施例中，设备或系统可包括用于执行根据上述实施例中的任一个的方法或任何功能的装置。

可认识到各实施例不被限制于所描述的实施例，也可被实施为带有修改和改动而不背离所附权利要求书的范围。例如，以上实施例可包括多个特征的特定组合。然而，上述实施例在这方面不受限制，并且在多个实现中，上述实施例可包括仅采用此类特征的子集、采用此类特征的不同次序、采用此类特征的不同组合、和/或采用与明确列出的那些特征相比而言的附加特征。因此，实施例的范围应参考所附权利要求书以及使这些权利要求享有权利的等效方案的完全范围来确定。

Claims

1.一种用于关键短语检测的计算机实现的方法，包括：

经由声学模型的声学评分基于表示所接收音频输入的特征向量的时间序列来生成子表音单元的评分的时间序列；

基于所述子表音单元的评分的时间序列中的至少一些来更新基于起始状态的拒绝模型和与预定关键短语相关联的关键短语模型以生成拒绝似然评分和关键短语似然评分；以及

基于所述拒绝似然评分和所述关键短语似然评分来确定所接收音频输入是否与所述预定关键短语相关联。

2.如权利要求1所述的方法，其特征在于，所述基于起始状态的拒绝模型包括与所述声学模型的子表音单元的所述评分中的至少一些相关联的自循环。

3.如权利要求1所述的方法，其特征在于，所述基于起始状态的拒绝模型包括在所述关键短语模型之前的单一状态。

4.如权利要求1所述的方法，其特征在于，所述关键短语模型包括多状态词典查找关键短语模型，所述多状态词典查找关键短语模型具有与用于所述预定关键短语的词典查找相关联的转变。

5.如权利要求4所述的方法，其特征在于，所述关键短语似然评分与所述多状态词典查找关键短语模型的最终状态相关联。

6.如权利要求1所述的方法，其特征在于，确定所接收音频输入是否与所述预定关键短语相关联包括：

基于所述拒绝似然评分和所述关键短语似然评分来确定对数似然评分；以及

将所述对数似然评分与阈值进行比较。

7.如权利要求1所述的方法，其特征在于，所述声学模型包括深度神经网络并且所述特征向量的时间序列包括第一特征向量，所述第一特征向量包括一堆系数的时间序列，每个系数与采样时间相关联。

8.如权利要求1所述的方法，其特征在于，进一步包括：

基于所述子表音单元的评分的时间序列中的至少一些来更新与第二预定关键短语相关联的第二关键短语模型以生成第二关键短语似然评分；以及

基于所述拒绝似然评分和所述第二关键短语似然评分来确定所接收音频输入是否与所述第二预定关键短语相关联。

9.如权利要求8所述的方法，其特征在于，所接收音频输入与所述第二预定关键短语相关联，所述方法进一步包括：

提供与所述第二预定关键短语相对应的系统命令。

10.一种用于执行关键短语检测的系统，包括：

存储器，所述存储器被配置成存储声学模型、基于起始状态的拒绝模型以及与预定关键短语相关联的关键短语模型；以及

数字信号处理器，所述数字信号处理器耦合至所述存储器，所述数字信号处理器用于基于所述声学模型并基于表示音频输入的特征向量的时间序列来生成子表音单元的评分的时间序列，用于基于所述子表音单元的评分的时间序列中的至少一些来更新所述基于起始状态的拒绝模型和所述关键短语模型以生成拒绝似然评分和关键短语似然评分，以及用于基于所述拒绝似然评分和所述关键短语似然评分来确定所接收音频输入是否与所述预定关键短语相关联。

11.如权利要求10所述的系统，其特征在于，所述基于起始状态的拒绝模型包括与所述声学模型的子表音单元的所述评分中的至少一些相关联的自循环。

12.如权利要求10所述的系统，其特征在于，所述基于起始状态的拒绝模型包括在所述关键短语模型之前的单一状态。

13.如权利要求10所述的系统，其特征在于，所述关键短语模型包括多状态词典查找关键短语模型，所述多状态词典查找关键短语模型具有与用于所述预定关键短语的词典查找相关联的转变。

14.如权利要求10所述的系统，其特征在于，所述数字信号处理器用于确定所接收音频输入是否与所述预定关键短语相关联包括所述数字信号处理器用于基于所述拒绝似然评分和所述关键短语似然评分来确定对数似然评分以及将所述对数似然评分与阈值进行比较。

15.如权利要求10所述的系统，其特征在于，所述数字信号处理器进一步用于基于所述子表音单元的评分的时间序列中的至少一些来更新与第二预定关键短语相关联的第二关键短语模型以生成第二关键短语似然评分并基于所述拒绝似然评分和所述第二关键短语似然评分确定所接收音频输入是否与所述第二预定关键短语相关联。

16.一种系统，包括：

用于经由声学模型的声学评分基于表示所接收音频输入的特征向量的时间序列来生成子表音单元的评分的时间序列的装置；

用于基于所述子表音单元的评分的时间序列中的至少一些来更新基于起始状态的拒绝模型和与预定关键短语相关联的关键短语模型以生成拒绝似然评分和关键短语似然评分的装置；以及

用于基于所述拒绝似然评分和所述关键短语似然评分来确定所接收音频输入是否与所述预定关键短语相关联的装置。

17.如权利要求16所述的系统，其特征在于，所述基于起始状态的拒绝模型包括与所述声学模型的子表音单元的所述评分中的至少一些相关联的自循环。

18.如权利要求16所述的系统，其特征在于，所述关键短语模型包括多状态词典查找关键短语模型，所述多状态词典查找关键短语模型具有与用于所述预定关键短语的词典查找相关联的转变。

19.如权利要求16所述的系统，其特征在于，所述用于确定所接收音频输入是否与所述预定关键短语相关联的装置包括：

用于基于所述拒绝似然评分和所述关键短语似然评分来确定对数似然评分的装置；以及

用于将所述对数似然评分与阈值进行比较的装置。

20.如权利要求16所述的系统，其特征在于，进一步包括：

用于基于所述子表音单元的评分的时间序列中的至少一些来更新与第二预定关键短语相关联的第二关键短语模型以生成第二关键短语似然评分的装置；以及

用于基于所述拒绝似然评分和所述第二关键短语似然评分来确定所接收音频输入是否与所述第二预定关键短语相关联的装置。

21.至少一种机器可读介质，所述至少一种机器可读介质包括多条指令，所述指令响应于在设备上被执行，使所述设备用于通过以下操作来执行关键短语检测：

22.如权利要求21所述的机器可读介质，其特征在于，所述基于起始状态的拒绝模型包括与所述声学模型的子表音单元的所述评分中的至少一些相关联的自循环。

23.如权利要求21所述的机器可读介质，其特征在于，所述关键短语模型包括多状态词典查找关键短语模型，所述多状态词典查找关键短语模型具有与用于所述预定关键短语的词典查找相关联的转变。

24.如权利要求21所述的机器可读介质，其特征在于，确定所接收音频输入是否与所述预定关键短语相关联包括：

将所述对数似然评分与阈值进行比较。

25.如权利要求21所述的机器可读介质，其特征在于，所述声学模型包括深度神经网络并且所述特征向量的时间序列包括第一特征向量，所述第一特征向量包括一堆系数的时间序列，每个系数与采样时间相关联。