CN104620314B

CN104620314B - 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统

Info

Publication number: CN104620314B
Application number: CN201380021842.9A
Authority: CN
Inventors: 迈克尔·J·纽曼; 罗伯特·罗思; 威廉·D·亚历山大; 穆尔布雷特保罗·A·范
Original assignee: Nuance Communications Inc
Current assignee: Serenes operations
Priority date: 2012-04-26
Filing date: 2013-04-23
Publication date: 2017-05-10
Anticipated expiration: 2033-04-23
Also published as: AU2013252518A1; AU2013252518B2; CN104620314A; WO2013163113A1; US9117449B2; IN2014DN09942A; JP6285914B2; EP2842125B1; EP2842125A1; JP2015520409A; KR20150022786A; US20130289994A1; EP2842125A4

Abstract

本文中公开的技术包括能够进行声音触发的系统和方法，该声音触发在不需要手动启动声音命令功能的情况下唤醒电子装置或使装置将额外的声音命令激活。另外，这种声音触发是动态可编程或可定制的。讲话者可对作为声音触发的特定短语进行编程或指定。一般来说，本文中的技术运行了一种声控唤醒系统，该系统在数字信号处理器(DSP)或电子装置的其它低功率、辅助处理单元上运行而不是在中央处理单元(CPU)上运行。语音识别管理器在电子装置上运行两个语音识别系统。CPU动态地创建用于DSP的紧凑的语音系统。这种紧凑的系统可在待机模式期间持续运行而不会过快地耗尽电池供电。

Description

用于具有用户可定义约束的小型语音识别的构造的嵌入式系统

技术领域

本公开涉及语音识别(speech recognition)，并且更具体地，涉及提供声控(voice-activated)或声音命令(voice command)功能的语音识别。

背景技术

语音识别或自动语音识别涉及识别口语词语(spoken words)的计算机化处理。针对语音识别存在多种用途，包括语音转录、语音翻译、通过声音控制装置和软件应用程序的能力、调用路由系统、互联网的声音搜索等。语音识别系统可以可选地与口语语言理解系统(spoken language understanding system)相配对，以在与系统交互时提取待执行的含义和/或命令。

语音识别系统非常复杂并且通过将话语的声学标记(acoustic signature)与词语的声学标记相匹配来进行操作。这种匹配可以可选地与统计学语言模型相组合。因此，在语音识别处理中使用声学建模和语言建模。声学模型可创建自口语话语(spokenutterances)的录音以及相关联的转录本。然后，声学模型定义了针对相应的词语的单独声音的统计学表示。语音识别系统使用声学模型以识别声音的序列，同时使用统计学语言模型以从识别出的声音识别可能的词语序列(word sequence)。

提供声控或声音命令功能的语音识别能使讲话者通过说出各种指令来控制装置和系统。例如，讲话者可说出命令以执行特定任务或说出查询以检索特定结果。口语输入(spoken input)可遵循执行特定任务的一组严格的短语，或者口语输入可以是自然语言，该自然语言由语音识别系统的自然语言单元来解释。声音命令功能在便携装置上变得越来越流行，尤其是电池供电的便携装置，例如，手机、膝上型电脑和平板电脑。

发明内容

给定装置的声音命令模式可主动收听口语命令，或在用户手动激活声音命令模式之前关闭。例如，一些移动电话包括响应于说出的用户输入，诸如呼叫特定个人、检索电子邮件消息、播放特定歌曲等以执行任务的功能。通常，用户将按下电话上的按钮(或选择图标)以激活声音命令模式，然后说出命令，例如：“呼叫约翰斯密斯”作为响应，电话或装置将开始呼叫相应的电话号码，例如，从联系人列表或其它目录检索电话号码。

尽管这种声音命令功能比较方便，然而访问这种功能需要用户按下按钮或以其它方式导航到供选择的菜单。因此，启动声音命令模式或特征并不是一个免手动过程。此外，不应将声音命令语音识别引擎作为免手动备选方案持续运行，因为常规语音识别引擎的功率需求很大。例如，连续运行作为声音命令模式的一部分的常规语音识别程序的普通手机会在大约几个小时之内(取决于电池容量的不同)耗尽电池电源的供应。功率消耗也是有线装置或电器存在的一个问题，因为使用常规语音识别系统会对装置的效率评估产生不利影响。由此，需要一种声控“唤醒”功能，其启动移动电话或其它装置的语音识别程序，又能消耗较少的电力，从而提供有效的免手动操作功能。

因此，本文中公开的技术包括能够进行声音触发的系统和方法，该声音触发以与手动启动声音命令功能(按下按钮)相似的方式唤醒装置或更确切地使装置激活所有/或剩余的声音命令。另外，这种声音触发是动态可编程或可定制的。例如，讲话者可对作为声音触发的特定短语(一个或多个词语)进行编程或指定，并可根据需要更改该声音触发短语。一般来说，本文中的技术运行声控唤醒系统，其在数字信号处理器(DSP)或电子装置的其它低功率的、辅助处理单元上操作。在DSP上运行语音识别程序会出现问题，因为常规语音识别系统相对较大。在DSP上运行唤醒特征的另一个问题是，需要提供动态可编程的唤醒特征。诸如在移动电话组装期间，在唤醒短语是可编程的同时促进了在DSP上运行唤醒系统，允许用户指定命令词语是困难的问题。

本文中的技术包括在电子装置上运行两个语音识别系统。第一语音系统，其相对大，在装置的中央处理单元(CPU)上运行；第二语音系统，其相对较小，在DSP上运行。给定的便携电子装置的CPU通常能在电子装置处于激活状态的同时进行大多数的处理。DSP通常运行在相对较低的功率上并且通常用于待机处理。例如，当电子装置被实例化为移动电话时，DSP通常负责在电话处于待机模式(CPU处于非激活状态)时收听呼入的电话呼叫。第一语音识别系统提取定制的触发短语，并且将语音模型和代码转换为相对较小的系统。该第二语音系统随后被转移至DSP，使得DSP可在CPU处于非激活状态的同时，例如当电子装置处于待机模式时运行第二语音系统。DSP使用该第二语音系统收听定制的触发短语。检测到说出的自定义触发短语时，DSP指示电子装置返回至激活状态，或其中CPU会对后续声音命令做出响应的状态。通过在DSP上运行较小的第二语音系统，电子装置可提供消耗相对较少电力的免手动声音触发唤醒特征。

一个实施例包括语音识别管理器，该语音识别管理器在电子装置上运行用于管理语音识别的语音识别处理或系统。语音识别管理器由电子装置的声控唤醒功能(即，用于配置唤醒功能的界面)接收配置输入。配置输入包括触发短语。在电子装置的第一处理器上接收配置输入。该电子装置还具有除了第一处理器之外的第二处理器。语音识别管理器创建与触发短语相对应的语音识别状态的网络。利用第一处理器运行的第一语音识别引擎在第一处理器创建该语音识别状态的网络。语音识别管理器将语音识别状态的网络从第一处理器转移至第二处理器，例如，从CPU转移到DSP。语音识别管理器然后利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎。在第一处理器的第一语音识别引擎处于非激活状态的同时，第二处理器运行第二语音识别引擎。运行该第二语音识别引擎可包括在第一语音识别引擎或第一处理器处于非激活状态的同时持续分析口语话语。响应于识别包括触发短语的特定口语话语，DSP或语音识别管理器向第一处理器发送信号，以使第一语音识别引擎返回至激活状态，从而启动控制电子装置的声音命令模式。

本文中的又一其它实施例包括用于执行上文总结的并且在下文详细公开的步骤和操作的软件程序。一个这样的实施例包括具有计算机存储介质(例如，非易失性、有形计算机可读介质；位于不同位置或相同位置的存储介质；计算机存储媒体或介质等)的计算机程序产品，计算机存储介质包括编码在其中的计算机程序逻辑，计算机程序逻辑在具有处理器和相对应存储器的计算机化装置中执行时，对处理器进行编程，以执行(或使处理器进行)本文中所公开的操作。这种布置通常被提供为软件、固件、微代码、代码数据(例如，数据结构)等的形式提供，布置或编码在计算机可读存储介质上，例如，光学介质(例如，CD-ROM)、软盘、硬盘、一个或多个ROM或RAM或PROM芯片、专用集成电路(ASIC)、场可编程门阵列(FPGA)等。软件或固件或其它这种配置可被安装至计算机化装置上，使计算机化装置实施本文中所阐述的技术。

由此，本公开的一个特定实施例涉及计算机程序产品,该计算机程序产品包括具有存储于其上的指令的一个或多个非易失性计算机存储介质,用于支持例如下列操作：由电子装置的声控唤醒功能接收配置输入,该配置输入包括触发短语，在电子装置的第一处理器上接收配置输入，电子装置具有除了第一处理器之外的第二处理器；创建与触发短语向对应的语音识别状态的网络，利用第一处理器运行的第一语音识别引擎在第一处理器创建该语音识别状态的网络；将该语音识别状态的网络从第一处理器转移至第二处理器；并且利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎，在第一处理器的第一语音识别引擎处于非激活状态的同时，第二处理器运行第二语音识别引擎。当通过相应的计算机装置的处理器执行该指令和本文中所述的方法时,使处理器执行本文中所公开的方法。

本公开的其它实施例包括软件程序以执行上文总结并且下面详细公开的方法实施例步骤和操作中的任一个。

毫无疑问，为了明确起见，已指明了本文所述的不同步骤的讨论顺序。一般来说，这些步骤可以任何适当顺序进行。

另外，应理解的是，本文的每个系统、方法、装置等可严格实施为软件程序、软件和硬件的组合，或单独的硬件，例如，处理器内的硬件或在操作系统或软件应用内实施或通过非软件应用，例如由人进行所有或一部分操作来实施。

如上所述，本文中的技术适用于支持声音命令语音识别的软件应用程序。但是，应注意的是，本文中的实施例并不限于用于这些应用程序，本文中讨论的技术也适用于其它应用。

另外，本文中的不同特征、技术、配置等可在本发明的不同地方进行讨论，但每个概念都可互相独立执行或互相组合执行。由此，本发明可以多种不同的方式实施和查看。

应注意的是，本文中的该发明内容部分并没有指出每一个实施例和/或本公开或本发明要求的增加的新颖性方面。相反，这个发明内容仅提供了不同实施例的初步讨论和与常规技术相比的相对应的创新点。对于本发明和实施例的额外细节和/或可能视角，读者应参见下文进一步讨论的本公开的具体实施方式部分和相对应的附图。

附图说明

从下面根据在附图中示出的本文中的优选实施例的更具体的描述，上述及其它目的、特点和优点将是显而易见的，在附图中，贯穿不同的视图的相似的参考符号指代相同的部分。示图并不一定按比例绘制，而是将重点放在对实施例、原理和概念进行图解说明。

图1为用于根据本文中的实施例的支持声音触发唤醒功能的装置的系统的框图。

图2为示出了根据本文中的实施例的支持声音触发唤醒的过程的示例的流程图。

图3至图4为示出了根据本文中的实施例的支持声音触发唤醒的过程的示例的流程图。

图5为在根据本文中的实施例的在计算机/网络环境中运行的语音识别管理器的示例框图。

具体实施方式

本文中公开的技术包括能够进行声音触发的系统和方法，该声音触发以与声音命令功能的手动启动(按下按钮)相似的方式来唤醒装置或引起装置使所有/或剩余的声音命令激活。另外，这种声音触发可动态地进行编程或可定制。例如，讲话者可对作为声音触发的特定短语(一个或多个词语)进行编程或指定，并可根据用户需要修改或改变这个声音触发短语。一般来说，本文中的技术运行了一种声控唤醒系统，其运行在数字信号处理器(DSP)或电子装置的其它低功率、辅助处理单元上而不是在中央处理单元(CPU)上运行。

尽管本文中公开的技术可以使用两个处理器的许多不同的电子装置来体现，但为了便于描述实施例，这个公开将主要参照移动电话，例如，电池供电的手机。在常规的移动电话中，通常存在两个处理器。存在主要或主CPU，其是相对强有力的。当手机被激活使用时，这个CPU操纵大多数处理，例如，电话呼叫、实用应用程序、电子邮件、游戏等。移动电话通常还包括辅助处理器，其是数字信号处理器(DSP)。DSP可以以非常低的功率起作用。DSP还可以(相对其本身)以较高功率模式运行。对于运行时间非常长的移动电话功能，这些功能通常运行在DSP上。例如，DSP是激活的移动电话的部件并且在电话处于待机模式或未被使用激活时收听呼入的电话呼叫。

本文中的技术包括在电子装置上运行两个语音识别系统。第一语音系统，其相对大，在装置的中央处理单元(CPU)上运行；以及第二语音系统，其相对较小，在DSP上运行。CPU语音系统可包括用于特定移动应用的一整套语音识别模型，例如，用于识别命令以访问联系人、电子邮件、歌曲，执行任务以及运行应用程序。这个一整套模型能够使用户能够选择针对用作语音唤醒触发的定制短语或词语。

第一/主系统接收定制的触发短语，然后使用这个触发短语以将语音模型和代码转换为相对小的系统。因此，CPU预计算了该较小的语音系统。该系统可具有两部分：(1)识别状态的网络；以及(2)声学模型信息。该识别状态的网络可由解码器使用，其搜索通过状态的序列的最佳路径。声学模型信息可包括来自语音的录音的测量。实施例可利用用于DSP唤醒特征的非常小的声学模型信息子集而良好地运行。这两部分共同组合成小系统，即，与CPU声音识别系统相比小的系统。通过非限制性示例，与主系统中可约为300千字节至2兆字节的网络相比，识别状态(由CPU编译的数据)的网络可具有近似为5千字节或10千字节的规模。因此，本技术提供了显著减小的规模。

定制的输入(定制的触发短语)可被指定为文本输入。在可替换的实施例中，该输入可以是讲话和/或作为文本的录入。音频输入可通过检验文本输入来帮助提高识别准确性。然而，应注意，针对触发短语的音频输入是不需要的。系统可基于最初仅作为文本录入的触发短语来执行唤醒功能。预计算系统然后可被转移至DSP。技术可包括在DSP上运行相对小的语音解码器。这个DSP解码器例如可具有约30千字节的代码规模(code size)。与此相反，在CPU上运行的语音解码器可具有约1-2兆字节的代码规模。例如，DSP识别器代码可仅具有在DSP上运行的几百行代码。在常规的识别器中，通常存在均相对较大的十二个模块。所有这些大的模块都可由在DSP上运行的单个模块代替。这个单个的模块可小于任何其它模块。换句话说，可创建完全专用的识别引擎来用于在DSP上使用，而不是运行普通的识别引擎。

然后，位于DSP上的识别器起到唤醒触发的作用。例如，识别器本质上确定是否说出了触发短语。如果DSP没有从接收的口语话语识别出唤醒短语，那么什么也不会发生。如果DSP识别器确定已说出了唤醒短语，那么CPU识别器变为激活的并且可开始或继续对说出的命令或查询做出响应。

存在可利用说出的短语或词语唤醒的一些装置，但这些触发词语是固定的。即，给定的触发命令被固定在电子装置中并且无法更改。这个固定的触发词语通常是在制造过程中设定的。换句话说，对于装置的使用寿命，触发词语是永久的。相反，本文中所公开的技术提供了可完全地定制或专用于用户的可配置/可更改的触发词语。本文中提供的这种定制不要求在线下载额外的代码或将装置返厂以重新配置触发命令。

在实施例中，训练模式或定制界面并不要求口语话语，而可利用文本输入以创建用于在DSP上运行的唤醒系统。尽管一些实施例还可接收用于确认文本输入的声音输入，但并不要求如此。仅从文本输入创建唤醒系统是有用的，因为预定义的声学模型可减小为基本上较小的模型，但具有与给定的触发词语类似的识别性能/准确性。因此，在一些实施例中，可从预先存在的与讲话者无关的声学模型提取被发送至DSP系统的声学模型数据。

一个特征在于，DSP声学模型不需要被适配于特定用户的声音。相反，系统可从较大模型选择针对特定触发短语所需的状态。对于给定的触发短语，存在相应数量的所需的状态ID。通过非限制性示例，如果给定的触发短语需要状态ID 2、7、48、138、455、……等，那么语音识别管理器或唤醒管理器然后将抽取这些状态ID，并对它们重新编号而被用于在较小模型中使用。这导致更小并且更加有效的模型。因此，给定词语的序列，主系统将这词语的序列转换成音素的序列和其它的常规语音表示。对于给定的短语，仅存在需要保持的少量模型状态。因此，大多数模型数据不需要被用于特定唤醒触发词语/短语。这还意味着用于语音识别的大多数代码不需要被用在诸如DSP的辅助处理单元上运行的较小的系统中。

现在参照图1，用户105正在操作电子装置137。电子装置137包括声音命令功能，该声音命令功能包括可定制的唤醒特征。用户105可以以文本的方式输入特定的触发短语。例如，用户105可键入任何短语，例如，“天才按钮”、“激活约翰的电话”、“扣押(sequester)”、“紫猴子洗碗工”等。应注意的是，如本文中所使用的术语“短语”或“触发短语”可指一个词语或多个词语。在用户105录入触发短语(用于初始设定)之后，中央处理单元110创建为了由数字信号处理器120使用的语音识别系统或状态。CPU 110可在生成用于唤醒功能的数据的同时访问声学模型112和语音识别状态114。CPU 110除了生成语音识别状态114之外还可从声学模型112(独立于讲话者的声学模型)提取或收集声学模型数据以被用作声学模型122。DSP 120然后可接收这个数据并将它存储为动态语音识别状态125。在语音识别期间，DSP 120然后可访问语音识别状态125和声学模型122。在已创建初始或新的触发短语以及附属数据之后，DSP 120然后可执行监控语音以识别是否说出了触发词语的识别程序。该唤醒功能可以在CPU 110待机时的非激活的，或至少在CPU 110上运行的声音命令功能是非激活时运行。CPU 110可保持为非激活的直至检测到触发短语。在DSP 120检测到那个触发短语被说出之后，该DSP向CPU 120发信号以返回至激活状态或可运行语音引擎以及响应于语音输入来执行任务的状态。给定的触发词语和对应的数据网络保持在DSP上直至用户期望创建新的触发短语。一旦接收到新的触发短语，系统可重复创建用于DSP 120的网络状态的过程。

现在更具体地说，当在CPU 110上接收到新的触发短语时，这个字符串可转换为音素的序列。这个序列可以已经存在或可能需要创建。对于每个音素，管理器识别相邻音素(位于每一侧的一个音素)以创建三音素(tri-phone)。然后将每个三音素转换为状态的序列。每个三音素具有用于声学状态的序列的模型。一般来说，给定的三音素模型具有两个或多个状态：开始和结束，或开始、中间和结束。结果是一组声学模型状态，其是哪些针对计分而在声学模型中查找到的。因此，将三音素映射为声学模型或声学模型状态，从而创建序列。

通过语音识别引擎对口语话语进行计分通常是一个相对的计分过程。语音识别管理器可使用识别语法。这个识别语法可对触发短语进行评价，以及对经过了一组诱发词语或短语的其它路径进行评价，使得语音识别管理器不过于频繁地进行识别(错误识别)。识别语法包括经过所有诱发词语和声学模型状态的路径。利用这个配置，管理器不需要剩余的声学模型或任何词汇模型。这个识别语法部分被编译成由DSP使用的相对紧凑的数据。

语音识别状态可被模型化为概率分布，高斯序列。当检测到口语话语时，将口语话语转换成帧，将其与概率分布相比较以得到分数。可选择诱发词语作为一组随机词语，其可与触发短语相似或完全不同。语音模型然后对口语话语以及一个或多个诱发进行评估以建立参考比较分数。如果口语话语的分数高于随机/诱发词语的分数(高出一预定量)，那么管理器确定识别到了口语话语。使用寻找绝对分数的模型可以可选择地被使用，但这个技术的准确性通常较低。使用相对分数能准确识别到口语词语，同时解决了背景噪声和语音的问题。

本文中的DSP识别引擎的优点在于DSP识别引擎(在触发短语识别期间)不需要假设，将词语转换成音素的序列，将词语转换成三音素，并且将三音素转换成状态的序列。这些过程步骤是不需要的，因为DSP识别器可作用在由CPU创建的状态的序列上。这种解码器可被称为有限状态转换机(FST)。因此，FST网络是在主CPU上编译的，并且然后向下延伸以使FST解码器在DSP上运行，响应于可定制的触发短语输入动态运行的网络，从而提供定制特定短语的系统，其系统比运行于CPU上的初始系统小得多。对于DSP解码器，在一些实施例中，尽管CPU编译的网络不同时，代码可以相同。数据最初可被收集用于构建声学模型122，但在构建单个声学模型之后，语音识别管理器可根据需要建立多个不同的小的模型(网络状态125)。

在语音分析期间，DSP接收口语话语，其通过网络对其进行处理以获得分数。DSP解码器还对随机/诱发词语，例如，“狗”或“弹射器”等进行处理。如果DSP解码器无法识别用于通过网络的口语话语的路径，那么放弃该假设。如果口语话语和诱发词语使其通过网络，那么口语话语(作为触发词语)的分数应比诱发词语高得多，其分数差可指示系统已说出了触发词语，并使CPU被唤醒或再次变为激活状态。任何时间说出任何词语时，可运行诱发词语。在该唤醒模式下，DSP可对收听到的所有词语进行分析。诱发词语数量较少帮助处理运行的更快，例如，约100个诱发词语。可替换地，可将诱发短语丢弃，代替使用普通的语音模型，其在检测触发词语的准确性上属于中等。移除短语可减少存储器开销，但也会降低准确性。应注意的是，对DSP(或辅助处理单元)编程可取决于给定的电子装置的专用硬件和配置情况。例如，在移动电话中运行的语音识别管理器可具有不同于在平板电脑、台式计算机、遥控器、电器、汽车灯内操作的实施例的配置。

图5示出了在根据本文中的实施例的在计算机/网络环境中运行的语音识别管理器140的示例框图。在流程图的描述之后将对图5的计算机系统硬件情况进行更加详细的描述说明。

现在将通过图2至图4的流程图和示意图对与语音识别管理器140相关联的功能进行讨论。为了便于下文讨论，语音识别管理器140或其它适当的实体执行流程图中的步骤。

现在将对实施例进行更具体的描述。图2为示出了本文中公开的实施例的流程图。在步骤210中，语音识别管理器由电子装置的声控唤醒功能接收配置输入。配置输入包括触发短语。换句话说，用户访问唤醒定制菜单以设定特定短语(词语或一组词语)，并且键入该短语，或以其它方式选择定制短语。配置输入在电子装置的第一处理器上接收(配置输入被发送给电子装置的第一处理器)。电子装置还具有除了第一处理器之外的第二处理器。

在步骤220中，语音识别管理器创建与触发短语相对应的语音识别状态的网络，即，基于触发短语。利用第一处理器运行的第一语音识别引擎在第一处理器创建语音识别状态的网络。

在步骤230中，语音识别管理器将语音识别状态的网络从第一处理器转移至第二处理器，即，将语音识别状态的网络转移至在第二处理器上的或可访问第二处理器的存储器。

在步骤240中，语音识别管理器利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎。在第一处理器的第一语音识别引擎处于非激活状态的同时，第二处理器运行第二语音识别引擎。应注意的是，第一处理器或CPU可处于激活状态，但第一语音识别引擎相比而言处于非激活状态，或不对声音命令任务做出响应。因此，无论电子装置处于待机模式还是正在被使用(例如，阅读内容，查看信息等)激活，电子装置的声音命令模式都不会主动收听待运行的任务。在其它实施例中，CPU不需要完全是非激活的，而相对于诸如由与电子装置交互的用户使用激活时的功耗，可在减小的功率模式下运行。

图3至图4为示出了在本文中所公开的语音识别管理器140的附加和/或可替换的实施例和可选的功能的流程图。在步骤210中，语音识别管理器由电子装置的声控唤醒功能接收配置输入。配置输入包括触发短语。在电子装置的第一处理器上接收配置输入(该配置输入被发送给电子装置的第一处理器)。电子装置还具有除了第一处理器之外的第二处理器。

在步骤212中，语音识别管理器经由电子装置的用户界面接收作为文本输入的触发短语。例如，用户键入希望将电子装置唤醒的短语。

在步骤213中，语音识别管理器接收确认文本输入的口语话语。在文本输入充足时，语音识别管理器还可处理文本输入的口语话语以确保准确地识别。

在步骤215中，第一处理器为中央处理单元，第二处理器为数字信号处理器。在步骤216中，当第一处理器处于激活状态时，与第一处理器相比，第二处理器使用较少的功率。通过在较低功率的处理器上运行唤醒特征，电子装置可收听触发词语，而没有过快地使电池耗尽。在步骤217中，第一处理器和第二处理器共同位于移动电话内。

在步骤220中，语音识别管理器创建与触发短语相对应的语音识别状态的网络。利用第一处理器运行的第一语音识别引擎在第一处理器创建语音识别状态的网络。

在步骤230中，语音识别管理器将语音识别状态的网络从第一处理器转移至第二处理器。在步骤232中，语音识别管理器将语音识别状态转移至数字信号处理器。

在步骤240中，语音识别管理器利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎。第二处理器运行第二语音识别引擎，同时在第一处理器的第一语音识别引擎处于非激活状态。

在步骤242中，在第一语音识别引擎处于非激活状态时，第二语音识别引擎利用第二处理器持续分析口语话语。在识别出包括触发短语的特定口语话语之后，语音识别管理器向第一处理器发送信号以将第一语音识别引擎返回至激活状态。

在步骤243中，第一处理器对后续声音命令做出响应。

在步骤246中，第一处理器处于非激活声音命令模式中，并且在响应于识别出包括触发短语的特定口语话语之后，使电子装置从非激活声音命令模式切换至激活声音命令模式。

在步骤248中，在电子装置处于待机模式时，第二处理器运行提供声控唤醒功能的第二语音识别引擎。

在其它实施例中，可在远程服务器上创建而不是在电子装置中创建新的状态序列和较小的声学模型。在这种实施例中，电子装置可将新的触发短语传输至服务器或云。新的触发短语可经由电子装置而被录入作为文本输入。远程服务器然后创建与触发短语相对应的语音识别状态的网络，并且然后将创建的状态序列和声学模型传输至电子装置，其然后可由辅助处理器或DSP使用。

继续参照图6，以下讨论提供了指示如何执行如上所述的与语音识别管理器140相关联的功能的基本实施例。然而，应注意的是，用于执行语音识别管理器140的实际配置可随着各个应用的不同而不同。例如，计算机系统149可包括执行如本文中所描述的处理的一个或多个计算机。

在不同的实施例中，计算机系统149可以是任何类型的装置，包括但不限于手机、个人计算机系统、台式计算机、膝上型电脑、笔记本电脑或上网本、主计算机系统、手持式计算机、工作站、网络计算机、路由器、网络交换机、桥、应用服务器、存储装置、消耗电子装置，例如照相机、摄像机、机顶盒、移动装置、电子游戏机、手持式电子游戏机，或者总体来说任何类型的计算或电子装置。

示出的计算机系统149被连接至用于为用户136显示图形用户界面133的显示监视器130以利用输入装置135进行操作。贮藏库138可选地被用于存储处理之前和之后的数据文件和内容。输入装置135可包括一个或多个装置，例如，键盘、电脑鼠标、麦克风等。

如图所示，本示例的计算机系统149包括耦接存储系统141、处理器142、I/O接口144和通信接口145的互连线路143。

I/O接口144为外围装置提供了连接，例如，包括电脑鼠标、键盘、移动光标的选择工具、显示屏等的输入装置135。

根据本文中的实施例，通信接口145使计算机系统149的语音识别管理器140通过网络进行通信，并且如果需要，检索创建视图、处理内容、与用户通信等所需的任何数据。

如图所示，存储器系统141被编码具有支持上文所述和下文进一步讨论的功能的语音识别管理器140-1。根据本文中描述的不同的实施例，语音识别管理器140-1(和/或如本文中所述的其它资源)可被体现为软件代码，例如，支持处理功能的数据和/或逻辑指令。

在一个实施例的操作期间，处理器142通过利用互连线路143访问存储系统141以启动、运行、执行、解释或以其它方式执行语音识别管理器140-1的逻辑指令。语音识别管理器140-1的运行生成语音识别管理器处理140-2中的处理功能。换句话说，语音识别管理器处理140-2代表在计算机系统149中的处理器142之内或之上执行的语音识别管理器140的一个或多个部分。

应注意的是，除了执行如本文中讨论的方法操作的语音识别管理器处理140-2之外，本文中的其它实施例包括语音识别管理器140-1本身(即，未运行的或未执行的逻辑指令和/或数据)。语音识别管理器140-1可被存储在非易失性有形计算机可读存储介质中，包括诸如软盘、硬盘、光学介质等的计算机可读存储介质。根据其它实施例，语音识别管理器140-1还可被存储在存储式系统中，例如，固件、只读存储器(ROM)中，或者，如在这个示例中，存储为存储器系统141内的可执行代码。

除了这些实施例之外，还应注意的是，本文中的其它实施例包括在处理器142中的语音识别管理器140-1的运行，如语音识别管理器处理140-2。因此，本领域的技术人员应理解的是，计算机系统149可包括其它过程和/或软件和硬件组件，例如，控制硬件资源或多个处理器的分配和使用的操作系统。

本领域的技术人员还应理解的是，在达到本发明的相同目标的情况下，还可对上文所述的技术的操作进行各种变化。这些变化应涵盖在本发明的范围之内。因此，上文对本发明的实施例的说明并不是限制性的。相反，对于本发明的实施例的任何限制均呈现于权利要求中。

Claims

1.一种用于管理语音识别的计算机实施方法，所述计算机实施方法包括：

由电子装置的声控唤醒功能接收配置输入，所述配置输入包括触发短语，在所述电子装置的第一处理器上接收所述配置输入，所述电子装置还具有除了所述第一处理器之外的第二处理器，其中，在所述第二处理器上首先接收所述配置输入和至少一个诱发词语；

创建包括与所述触发短语相对应的语音识别状态的网络的有限状态转换机网络，利用所述第一处理器运行的第一语音识别引擎在所述第一处理器创建所述语音识别状态的网络，其中，在没有应用词汇模型的情况下使用识别语法来评估所述触发短语；

将所述语音识别状态的网络从所述第一处理器转移至所述第二处理器；以及

利用与所述触发短语相对应的所述语音识别状态的网络在所述第二处理器运行第二语音识别引擎，在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时，所述第二处理器运行所述第二语音识别引擎，其中，所述第二语音识别引擎包括被配置为运行所述有限状态转换机网络的有限状态机转换机解码器，

其中，所述第一处理器是中央处理单元，并且其中，所述第二处理器是数字信号处理器，并且其中，所述第一处理器和所述第二处理器共同位于移动电话内。

2.根据权利要求1所述的计算机实施方法，其中，运行所述第二语音识别引擎包括：

在所述第一语音识别引擎处于非激活状态的同时，利用所述第二处理器持续分析口语话语；以及

响应于识别包括所述触发短语的特定口语话语，向所述第一处理器发送信号以使所述第一语音识别引擎返回至激活状态。

3.根据权利要求2所述的计算机实施方法，其中，所述第一语音识别引擎返回至激活状态包括所述第一处理器对后续声音命令做出响应。

4.根据权利要求1所述的计算机实施方法，其中，在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时，运行所述第二语音识别引擎包括所述第一处理器处于非激活声音命令模式；以及

响应于识别包括所述触发短语的特定口语话语，使所述电子装置从非激活声音命令模式切换至激活声音命令模式。

5.根据权利要求1所述的计算机实施方法，其中，在所述电子装置处于待机模式的同时，所述第二处理器运行提供所述声控唤醒功能的所述第二语音识别引擎。

6.根据权利要求1所述的计算机实施方法，其中，将所述语音识别状态转移至所述第二处理器包括将所述语音识别状态转移至数字信号处理器(DSP)。

7.根据权利要求1所述的计算机实施方法，其中，接收所述配置输入包括经由所述电子装置的用户界面接收作为文本输入的所述触发短语。

8.根据权利要求7所述的计算机实施方法，其中，接收所述配置输入包括接收确认所述文本输入的口语话语。

9.根据权利要求1所述的计算机实施方法，其中，当所述第一处理器处于激活状态时，所述第二处理器与所述第一处理器相比使用较少的电力。

10.一种用于管理语音识别的系统，所述系统包括：

第一处理器；

第二处理器；以及

耦接至所述处理器的存储器，所述存储器存储指令，当通过所述处理器运行所述指令时使所述系统执行以下的操作：

11.根据权利要求10所述的系统，其中，运行所述第二语音识别引擎包括：

12.根据权利要求11所述的系统，其中，使所述第一语音识别引擎返回至激活状态包括所述第一处理器对后续声音命令做出响应。

13.根据权利要求10所述的系统，其中，在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时，运行所述第二语音识别引擎包括所述第一处理器处于非激活声音命令模式；以及

14.根据权利要求10所述的系统，其中，在所述电子装置处于待机模式的同时，所述第二处理器运行提供所述声控唤醒功能的所述第二语音识别引擎。

15.根据权利要求10所述的系统，其中，将所述语音识别状态转移至所述第二处理器包括将所述语音识别状态转移至数字信号处理器(DSP)。

16.根据权利要求10所述的系统，其中，接收所述配置输入包括经由所述电子装置的用户界面接收作为文本输入的所述触发短语。

17.一种用于管理语音识别的计算机实施方法，所述计算机实施方法包括：

由电子装置的声控唤醒功能接收配置输入，所述配置输入包括触发短语，所述电子装置具有运行第一语音识别引擎的第一处理器，所述电子装置还具有除了所述第一处理器之外的第二处理器，其中，在所述第二处理器上首先接收所述配置输入和至少一个诱发词语；

将所述配置输入传输至远程服务器计算机；

创建包括与所述触发短语相对应的语音识别状态的网络的有限状态转换机网络，在所述远程服务器计算机上创建所述语音识别状态的网络，其中，在没有应用词汇模型的情况下使用识别语法来评估所述触发短语；

在所述电子装置上接收与所述触发短语相对应的所述语音识别状态的网络；

将所述语音识别状态的网络转移至所述第二处理器；并且

18.根据权利要求17所述的计算机实施方法，其中，运行所述第二语音识别引擎包括：

19.根据权利要求18所述的计算机实施方法，其中，使所述第一语音识别引擎返回至激活状态包括所述第一处理器对后续声音命令做出响应。

20.根据权利要求17所述的计算机实施方法，其中，在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时，运行所述第二语音识别引擎包括所述第一处理器处于非激活声音命令模式；以及