CN105009204A

CN105009204A - 语音识别功率管理

Info

Publication number: CN105009204A
Application number: CN201380064898.2A
Authority: CN
Inventors: 肯尼思·约翰·巴斯耶; 休·埃文·塞克-瓦尔克; 托尼·大卫; 赖因哈德·克内泽尔; 杰弗瑞·彭罗德·亚当斯; 斯坦·魏德纳·萨尔瓦多; 马赫什·克里希纳穆尔蒂
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2012-12-11
Filing date: 2013-12-09
Publication date: 2015-10-28
Anticipated expiration: 2033-12-09
Also published as: EP2932500A1; US20180096689A1; US10325598B2; EP2932500B1; US20140163978A1; JP6200516B2; US9704486B2; JP2016505888A; US20200043499A1; WO2014093238A1; CN105009204B; US11322152B2

Abstract

计算装置的功耗可通过一个或多个关键字进行管理。例如，如果所述计算装置获得的音频输入包含关键字，那么所述计算装置的网络接口模块和/或应用处理模块可被启用。所述音频输入然后可经由所述网络接口模块传输到远程计算装置，诸如，语音识别服务器。或者，所述计算装置可配有语音识别引擎，所述语音识别引擎配置来处理所述音频输入以便进行装置上的语音识别。

Description

语音识别功率管理

背景技术

计算装置可包含语音识别能力。例如，计算装置可捕获音频输入并使用声学模型和语言模型来识别语音。声学模型用来生成假设，其中基于语音的声学特征，声音子字单元(例如，音素等)对应于语音。语言模型基于所说语音所用语言的词汇特征来确定使用声学模型生成的哪个假设最有可能是语音的抄本。计算装置也能够针对具体的语音识别应用来处理识别的语音。例如，有限的语法或自然语言处理技术可用来处理语音。

附图简述

参考以下详细说明，结合附图，将更易于了解、同时更好地理解本公开的各方面以及随之而来的很多优点，在附图中：

图1为描绘说明性功率管理子系统的示意图。

图2为描绘包括功率管理子系统的说明性用户计算装置的示意图。

图3为描绘用于语音识别功率管理的说明性例行程序的流程图，所述语音识别功率管理可由图1的功率管理子系统实施。

图4A、图4B和图4C为描绘分布式语音识别系统的说明性操作的状态图。

图5为描绘说明性用户接口的直观图，所述用户接口可由包括功率管理子系统的用户计算装置提供。

详细说明

在语音识别的一些当前方法中，语音识别能力被分配到分布式计算环境中的一个或多个计算装置上。在这些方法的一个具体实例中，第一计算装置可配置来捕获音频输入，并且可通过网络将音频输入传输到第二计算装置。第二计算装置可对音频输入执行语音识别，并且生成音频输入中包含的语音的抄本。语音的抄本随后可通过网络从第二计算装置传输回到第一计算装置。在其他当前方法中，第一计算装置可配置来捕获音频输入并独立地转录音频输入。

在这些和其他当前方法中，第一计算装置可配置来保持在持续活动状态。在这种持续活动状态下，第一计算装置可连续不断地维持到第二计算装置的网络连接。第一计算装置也可继续为用来实施自身的语音识别能力的任何硬件提供电力。这些方法的一个缺点尤其在于，第一计算装置用来维持持续活动状态而消耗的能量可能是无法接受的。对于依赖电池电力的移动计算装置而言，这种能量需求特别成问题。当前方法中还有其他问题。

因此，本公开的方面涉及语音识别的功率管理。计算装置可配有功率管理子系统，所述功率管理子系统选择性地启用或停用计算装置的一个或多个模块。此启用可响应于音频输入，所述音频输入包括一个或多个预先指定的所说字词，本文中有时称为“关键字”。促使启用一个或多个部件的关键字在本文中有时称为“唤醒字”，而促使停用一个或多个部件的关键字在本文中有时称为“休眠字”。在一个特定实例中，计算装置可包括选择性地启用的网络接口模块，所述网络接口模块在启用时会消耗能量以使得计算装置连接到第二计算装置，诸如，语音识别服务器或其他计算装置。功率管理子系统可处理音频输入以确定音频输入是否包含唤醒字，并且响应于确定音频输入包括唤醒字而启用网络接口模块。启用网络接口模块之后，功率管理子系统可使音频输入传输到语音识别服务器以进行处理。

功率管理子系统自身可包括一个或多个选择性地启用的模块。在一些实施例中，一个或多个选择性地启用的模块被实施为专用硬件(诸如集成电路、数字信号处理器或其他类型的处理器)，其可从功能相对较少的低功率停用状态切换到功能相对较多的高功率启用状态，并且反之亦然。在其他实施例中，一个或多个模块被实施为软件，其包含由一个或多个通用处理器执行的计算机可执行代码。通过启用(或停用)通用处理器可启用(或停用)软件模块，所述通用处理器配置来或能够执行软件中包含的计算机可执行代码。在另外的实施例中，功率管理系统包括一个或多个硬件模块以及一个或多个软件模块。

功率管理子系统可还包括与一个或多个选择性地启用的模块通信的控制模块。此控制模块在本文中有时称为“功率管理模块”，并且可包括上述硬件或软件中的任一个。功率管理模块可使启用或停用功率管理子系统的模块。在一些实施例中，至少部分基于计算装置中包括的音频输入模块获得的音频输入的特征，功率管理模块启用或停用一个或多个模块。例如，功率管理子系统的模块可确定一个或多个值，例如，所述值可包括音频输入的能量水平或音量；对应于语音出现在音频输入中的可能性的分数；对应于关键字出现在语音中的可能性的分数；以及其他值。模块可将一个或多个值传送到功率管理模块，所述功率管理模块可与另一模块通信以使该模块启用，或者与从中接收一个或多个值的模块通信以使所述模块和/或其他模块停用。然而，在其他实施例中，第一选择性地启用的模块可直接与第二选择性地启用的模块通信，以使该模块启用。在此类实施例中，无需功率管理模块。在另外的实施例中，功率管理子系统可配有一个或多个模块，其中一个或多个模块中的至少一些彼此通信，但不与功率管理模块通信。

在一个示例性实施方案中，功率管理子系统可包括音频检测模块，所述音频检测模块可配置来确定计算装置获得的音频输入的能量水平或音量。尽管音频检测模块可持续监测音频输入，但功率管理子系统的其余部件可保持在低功率非活动状态，直到被启用为止(被功率管理模块或另一不同模块启用)。如果音频检测模块确定音频输入满足阈值能量水平或音量，则语音检测模块可被启用以确定音频输入是否包含语音。如果语音检测模块确定音频输入包含语音，则功率管理子系统中包括的语音处理模块可被启用。语音处理模块可确定语音是否包含唤醒字，并且可任选地对语音分类，以确定特定的用户是否说出所述唤醒字。如果语音处理模块确定语音包含唤醒字，那么应用处理模块可被启用，所述应用处理模块可实施存储在计算装置的存储器中的语音识别应用模块。例如，语音识别应用可包括智能代理前端，诸如，如2011年1月10日申请并于2012年1月19日公开为美国公布号2012/0016678的“智能自动助理(Intelligent Automated Assistant)”中所描述的智能代理前端。该专利申请的公开内容以全文引用的方式并入本文中。选择性地启用的网络接口模块也可被启用，如上文所述，并且音频输入可被传输到远程计算装置，以便进行处理。下文相对于图3更详细地论述了此示例性实施方案。或者，功率管理子系统可响应于检测到唤醒字而启用处理单元，所述处理单元实施计算装置的任何装置上的语音识别能力。

通过选择性地启用计算装置的模块，功率管理子系统可有利地提高计算装置的能量效率。通过选择性地启用一个或多个自身的模块，功率管理子系统还可提高计算装置的能量效率。尽管对于依赖电池电力的计算装置而言，此类实施方案尤其有利，但可能需要功率管理的所有计算装置均可受益于本公开的原理。

现在转到图1，示出可包括在计算装置中的说明性功率管理子系统100。功率管理子系统100可包括模/数转换器102；存储器缓冲模块104；音频检测模块106；语音检测模块108；语音处理模块110；应用处理模块112；以及功率管理模块120。存储器缓冲模块104可与音频检测模块106、语音检测模块108、语音处理模块110、应用处理模块112以及网络接口模块206通信。功率管理模块120同样可与音频检测模块106、语音检测模块108、语音处理模块110、应用处理模块112以及网络接口模块206通信。

模/数转换器102可接收来自音频输入模块208的音频输入。下文相对于图2还详细地论述音频输入模块208。模/数转换器102可配置来将模拟音频输入转换成数字音频输入，以便由功率管理子系统100的其他部件处理。在音频输入模块208获得数字音频输入(例如，音频输入模块208包括数字麦克风或其他数字音频输入装置)的实施例中，模/数转换器102可任选地从功率管理子系统100中省去。因此，音频输入模块208可将音频输入直接提供到功率管理子系统100的其他模块。

存储器缓冲模块104可包含配置来存储数字音频输入的一个或多个存储器缓冲区。音频输入模块208获得的音频输入(并且如果是模拟音频输入，则由模/数转换器102转换成数字形式)可被记录到存储器缓冲模块104。记录到存储器缓冲模块104的音频输入可由功率管理子系统100的其他模块存取，以便由这些模块处理，如本文中进一步论述。

存储器缓冲模块104的一个或多个存储器缓冲区可包括硬件存储器缓冲区、软件存储器缓冲区或者两者。一个或多个存储器缓冲区可具有相同的容量或不同的容量。存储器缓冲模块104的存储器缓冲区可经选择以存储，其他模块可取决于所述音频输入而启用。例如，如果只有音频检测模块106活动，那么音频输入可被存储到容量相对较小的硬件存储器缓冲区。然而，如果其他模块被启用，诸如，语音检测模块108、语音处理模块110、应用处理模块112和/或网络接口模块206，那么音频输入可存储到容量相对较大的软件存储器缓冲区。在一些实施例中，存储器缓冲模块104包含环形缓冲区，其中音频输入可按照音频输入模块208获得其的顺序进行记录和重写。

音频检测模块106可处理音频输入，以确定音频输入的能量水平。在一些实施例中，音频检测模块106包括低功率数字信号处理器(或其他类型的处理器)，所述处理器配置来确定所获得的音频输入的能量水平(诸如，音量、强度、振幅等)并且将音频输入的能量水平与能量水平阈值相比较。能量水平阈值可根据用户输入来设置，或者可由功率管理子系统100自动设置，如下文相对于图3进一步论述。在一些实施例中，音频检测模块106还配置来确定音频输入的能量水平至少在阈值持续时间内满足阈值。在此类实施例中，持续时间相对较短的高能量音频输入可对应于相对不可能包含语音的突发噪音，它们可被忽略并且不被功率管理子系统100的其他部件处理。

如果音频检测模块106确定所获得的音频输入的能量水平满足能量水平阈值，那么它可与功率管理模块120通信，以指导功率管理模块120启用语音检测模块108。或者，音频检测模块106可将能量水平传送到功率管理模块120，并且功率管理模块120可将所述能量水平与能量水平阈值相比较(且任选地与阈值持续时间相比较)，以确定是否启用语音检测模块108。在另一替代方案中，音频检测模块106可直接与语音检测模块108通信以将其启用。任选地，响应于音频检测模块106确定音频输入的能量水平满足阈值，功率管理模块120(或音频检测模块106)可指导音频输入模块208提高其采样率(无论是以帧速率还是位速率测量)。

语音检测模块108可处理音频输入，以确定音频输入是否包含语音。在一些实施例中，语音检测模块108包括低功率数字信号处理器(或其他类型的处理器)，所述处理器配置来实施一个或多个技术，以便确定音频输入是否包含语音。在一些实施例中，语音检测模块108应用话音活动检测(VAD)技术。此类技术可基于音频输入的各个量化方面确定语音是否存在于音频输入中，所述量化方诸如，音频输入的一个或多个帧之间的频谱斜率；一个或多个频谱带中的音频输入的能量水平；一个或多个频谱带中的音频输入的信噪比；或其他量化方面。在其他实施例中，语音检测模块108实施受限分类器，所述分类器配置来将语音与背景噪音区分开来。所述分类器可由诸如线性分类器、支持向量机以及决策树的技术实施。在另外的实施例中，语音检测模块108应用隐马尔可夫模型(Hidden Markov Model，HMM)或高斯混合模型(Gaussian Mixture Model，GMM)技术，以将音频输入与一个或多个声学模型相比较，所述声学模型可包括对应于语音、噪音(诸如环境噪音或背景噪音)或静默的模型。其他技术可用来确定语音是否存在于音频输入中。

使用上述任一技术，语音检测模块108均可确定一个分数或置信度水平，其值对应于语音实际存在于音频输入中的可能性(本文中所用的“可能性”可指常见用法，不管某件事是可能的还是统计上的用法)。如果分数满足阈值，那么语音检测模块108可确定语音存在于音频输入中。然而，如果分数不满足阈值，那么语音检测模块108可确定音频输入中没有语音。

语音检测模块108可将其关于语音是否存在于音频输入中的确定传送到功率管理模块120。如果语音存在于音频输入中，那么功率管理模块120可启用语音处理模块110(或者，语音检测模块108可直接与语音处理模块110通信)。如果语音不存在于音频输入中，那么功率管理模块120可停用语音检测模块108。或者，语音检测模块108可将分数传送到功率管理模块120，于是功率管理模块120可确定是启用语音处理模块110还是停用语音检测模块108。

语音处理模块110可处理音频输入，以确定语音中是否包含关键字。在一些实施例中，语音处理模块110包括微处理器，所述微处理器配置来检测语音中的关键字，诸如，唤醒字或休眠字。语音处理模块110可配置来使用HMM技术、GMM技术或其他语音识别技术来检测关键字。

通过确定关键字是否是在一个或多个音素或词语之前或之后立即说出来的，语音处理模块110能够将意外包含关键字的语音与有意说出的关键字分开。例如，如果关键字是“ten”，那么语音处理模块110能够将独立地说出“ten”的用户与意外说出“ten”(作为词语“Tennessee”、词语“forgotten”、词语“stent”或短语“ten bucks”的一部分)的用户区分开。

语音处理模块110还可配置来确定语音是否与包括功率管理子系统100的计算装置的特定用户相关联，或者语音是否对应于背景噪音；电视音频；音乐；或者用户以外的人的语音，以及其他分类。这一功能可用以下技术实施：诸如线性分类器、支持向量机和决策树，以及用于对音频输入进行分类的其他技术。

使用上述任一技术，语音处理模块110均可确定一个分数或置信度水平，其值对应于关键字实际存在于语音中的可能性。如果分数满足阈值，那么语音处理模块110可确定关键字存在于语音中。然而，如果分数不满足阈值，那么语音处理模块110可确定语音中没有关键字。

语音处理模块110可将其关于关键字是否存在于语音中的确定传送到功率管理模块120。如果关键字存在于语音中并且该关键字是唤醒字，那么功率管理模块120可启用应用处理模块112和网络接口模块206(或者，语音处理模块110可直接与这些其他模块通信)。如果音频输入中不存在关键字(或者关键字是休眠字)，那么功率管理模块120可停用语音处理模块110和语音检测模块108。或者，语音处理模块110可将分数传送到功率管理模块120，于是功率管理模块120可确定是启用应用处理模块112和网络接口模块206，还是停用语音处理模块110和语音检测模块108。在一些实施例中，只有在语音处理模块110确定特定用户说出了包含关键字的语音时，才会发生这些启用和/或停用。

应用处理模块112可包括配置来实施语音识别应用的微处理器，所述语音识别应用是由包含功率管理子系统的计算装置提供的。语音识别应用可以包括可能需要语音识别的任何应用，诸如听写应用、消息应用、智能代理前端应用或任何其他应用。语音识别应用也可配置来将语音格式化(例如，将语音压缩)，以便通过网络传输到远程计算装置，诸如语音识别服务器。

在一些实施例中，应用处理模块112包括专用微处理器，用于实施语音识别应用。在其他实施例中，应用处理模块112包括通用微处理器，所述微处理器也可实施由包括功率管理子系统100的计算装置提供的其他软件，诸如图2所示的处理单元202，将在下文进一步论述。

网络接口模块206在被启用时可通过一个或多个有线或无线网络提供连接。启用之后，网络接口模块206可通过网络将记录到存储器缓冲模块104的所接收音频输入传输到远程计算装置，诸如语音识别服务器。远程计算装置可将识别结果(例如，智能代理查询的抄本或响应)返回到包括网络接口模块206的计算装置，于是网络接口模块206可将接收的识别结果提供给应用处理模块112以便处理。下文相对于图2进一步论述网络接口模块206。

在不脱离本公开范围的情况下，功率管理子系统100的模块可进行组合或重新布置。上述任何模块的功能均可分配到多个模块，或与不同的模块相组合。如上所述，任何或所有模块均可实现在一个或多个集成电路中、一个或多个通用微处理器中，或者实现在一个或多个专用数字信号处理器或其他专用微处理硬件中。一个或多个模块也可实现在由计算装置中包括的处理单元202实施的软件中，如下文相对于图2进一步论述。此外，一个或多个模块可从功率管理子系统100中整个省去。

现在转到图2，示出了其中可包括功率管理子系统100的用户计算装置200。用户计算装置200包括处理单元202；非瞬时计算机可读媒体驱动器204；网络接口模块206；如图1所示的功率管理子系统100；以及音频输入模块208，它们均可借助通信总线而互相通信。用户计算装置200也可包括电源218，所述电源可为用户计算装置200的各种部件提供电力，诸如处理单元202；非瞬时计算机可读媒体驱动器204；网络接口模块206；如图1所示的功率管理子系统100；以及音频输入模块208。

处理单元202可包括一个或多个通用微处理器，所述微处理器配置来与存储器210来回通信，以实施存储于其中的各种软件模块，诸如用户接口模块212，操作系统214以及语音识别应用模块216。处理单元202还可与功率管理子系统100通信，并且可还实施在软件中实现的功率管理子系统100的任何模块。因此，处理单元202可配置来实施任何或所有以下模块：音频检测模块106；语音检测模块108；语音处理模块110；应用处理模块112以及功率管理模块120。此外，处理单元202可配置来实施装置上的自动语音识别能力，用户计算装置200可具有所述能力。

存储器210通常包括RAM、ROM和/或其他持续或非瞬时计算机可读存储媒体。用户接口模块212可配置来借助用户计算装置200的显示器(未示出)来呈现用户接口。用户接口模块212还可配置来处理经由用户输入装置(未示出)接收的用户输入，诸如鼠标、键盘、触摸屏、小键盘等。由用户接口模块212呈现的用户接口可为用户提供机会来定制功率管理子系统100的操作和/或用户计算装置200实施的其他操作。下文将相对于图5进一步论述用户接口的实例。存储器210可另外存储操作系统214，所述操作系统提供计算机程序指令，以便由处理单元202用在用户计算装置200的一般管理和操作中。存储器210还可包含计算机程序指令，应用处理模块112和/或处理单元202执行所述计算机程序指令，以便实施语音识别应用模块216的一个或多个实施例。如上所述，语音识别应用模块216可以是可使用语音识别结果的任何应用，诸如听写应用、消息应用、智能代理应用前端；或可有利地使用语音识别结果的任何其他应用。在一些实施例中，存储器210还可包含可由处理单元202实施的自动语音识别引擎(未示出)。

非瞬时计算机可读媒体驱动器204可包括本领域已知的任何电子数据存储器。在一些实施例中，非瞬时计算机可读媒体驱动器204存储一个或多个关键字模型(例如，唤醒字模型或休眠字模型)，其中功率管理子系统100可将音频输入与所述关键字模型相比较。非瞬时计算机可读媒体驱动器204还可存储一个或多个声学模型和/或语言模型，用于实施用户计算装置200的任何装置上的语音识别能力。关于语言模型和声学模型的其他信息可见2012年8月16日提交的标题为“判别式语言模型修剪(DISCRIMINATIVE LANGUAGE MODELPRUNING)”美国专利申请号13/587,799，以及2012年8月22日提交的标题为“无监督声学模型训练(UNSUPERVISED ACOUSTICMODEL TRAINING)”的美国专利申请号13/592,157。这两个申请的公开内容均以全文引用的方式并入本文中。

网络接口模块206可将用户计算装置200连接到一个或多个网络，诸如网络410，将在下文相对于图4A、图4B和图4C进一步论述。处理单元202和功率管理子系统100因而可接收来自远程计算装置的指令和信息，所述远程计算装置也可通过网络410进行通信，诸如语音识别服务器420，如下文也进一步论述。在一些实施例中，网络接口模块206包括无线网络接口，所述无线网络接口通过一个或多个无线网络为用户计算装置200提供连接。

在一些实施例中，网络接口模块206被选择性地启用。当网络接口模块206处于停用或“休眠”状态时，它可受限制地连接到或不连接到网络或计算系统，以便省电。在一些实施例中，网络接口模块206默认处于停用状态，并且响应于来自功率管理子系统100的信号而变得启用。当网络接口模块206处于启用状态时，它可相对大量地连接到网络或计算系统，因此网络接口模块206使得用户计算装置200能够将音频输入发送到远程计算装置和/或从远程计算装置(例如，语音识别服务器420)接收关键字确认、语音识别结果或者停用指令。

在一个特定的非限制性实例中，响应于功率管理子系统100确定音频输入包含唤醒字，网络接口模块206可被启用。功率管理子系统100可使音频输入经由启用的网络接口模块206而传输到远程计算装置(诸如语音识别服务器420)。任选地，在使随后接收的音频输入传输到远程计算装置之前，功率管理子系统100可获得来自远程计算装置的唤醒字的确认。响应于接收到来自远程计算装置的停用指令，响应于确定自从获得满足能量水平阈值的音频输入之后已过了至少预定量的时间，或者响应于接收到包含休眠字的音频输入，功率管理子系统100之后可将启用的网络接口模块206停用。

音频输入模块208可包括音频输入装置，诸如麦克风或麦克风阵列，不管是模拟的还是数字的。麦克风或麦克风阵列可实施为定向麦克风或麦克风定向阵列。在一些实施例中，音频输入模块208接收音频并且将音频提供到功率管理子系统100进行处理，大体上如上文相对于图1所论述。音频输入模块208还可接收来自功率管理子系统100的指令，以设置用于获得音频的采样率(无论是帧速率还是位速率)。音频输入模块208也可(或改为)包括一个或多个压电元件和/或微机电系统(MEMS)，其可将声能转换成电信号，以便由功率管理子系统100处理。音频输入模块208还可配有放大器、整流器以及所需的其他音频处理部件。

用户计算装置200可配有一个或多个另外的输入装置，诸如光传感器、位置传感器、图像捕获装置等。图2中并未示出此类另外的输入装置，以免模糊本公开的原理。在一些实施例中，另外的输入装置可检测条件的发生或不发生。关于此类条件的信息可被提供到功率管理子系统100，以确定用户计算装置200或功率管理子系统100的一个或多个部件应被启用还是停用。在一个实施例中，另外的输入装置包括配置来检测光水平的光传感器。在光传感器检测到的光水平不满足阈值时，功率管理模块120才可充当网络接口模块206、才可被启用。在另一实施例中，另外的输入装置包括配置有面部识别能力的图像捕获装置。在此实施例中，只有在图像捕获装置识别与用户计算装置200相关联的用户的面部时，网络接口模块206才可被启用。关于用输入装置控制语音识别能力的更多信息可见2002年1月30日提交的标题为“自动语音识别系统和方法(AUTOMATIC SPEECHRECOGNITION SYSTEM AND METHOD)”的美国专利申请号10/058,730，该申请在2003年7月31日被公开为美国专利公开号2003/0144844，其公开内容以全文引用的方式并入本文中。关于控制语音识别能力的进一步信息可见2012年12月4日颁布的标题为“使用物理现象检测器来控制语音识别引擎的操作(USING A PHYSICALPHENOMENON DETECTOR TO CONTROL OPERATION OF ASPEECH RECOGNITION ENGINE)”的美国专利号8,326,636。该专利的公开内容以全文引用的方式并入本文中。

可提供另外的输入装置，其可包含用户输入装置，诸如，鼠标、键盘、触摸屏、小键盘等。同样，可提供输出装置，诸如，显示器、扬声器、耳机等。在一个特定实例中，用户计算装置200可包括一个或多个输出装置，其配置来采用音频形式(例如，通过文本到语音)或视觉形式(例如，通过显示器)呈现语音识别结果。此类输入和输出装置已为本领域所熟知，并且无需在本文中进一步详细论述，且未在图2中示出，以避免模糊本发明的原理。

电源218可向用户计算装置200的各个部件提供电力。电源218可包括无线或便携式电源，诸如，一次性或可充电电池或电池组；或者可包括有线电源，诸如，配置来插入插座中的交流(AC)电源。在一些实施例中，电源218将其可供应的功率水平传送到功率管理子系统100(例如，剩余电池寿命的百分数、电源218是否插入插座等)。在一些实施例中，至少部分基于电源所指示的功率水平，功率管理子系统100选择性地启用或停用一个或多个模块。例如，如果用户计算装置200插入插座中，那么功率管理子系统100可启用网络接口模块206并让其处于启用状态。如果用户计算装置200使用电池电力，那么功率管理子系统100可选择性地启用和停用网络接口模块206，如上所述。

现在转到图3，示出了说明性例行程序300，其中功率管理子系统100的模块可被选择性地启用以处理音频输入。当说明性例行程序300中随后启用的模块可相对大量地处理需求和/或功率消耗时，说明性例行程序300代表处理和/或功率消耗的升级。

说明性例行程序300可在框302处开始，此时，音频输入模块208监测音频输入。在框304处，音频输入模块208可接收音频输入。在框306处，接收的音频输入可被记录到存储器缓冲模块104。在框308处，音频检测模块106可确定音频输入的能量水平是否满足能量水平阈值(以及任选地，音频输入的能量水平至少是否在阈值持续时间内满足能量水平阈值)。如果音频输入的能量水平并不满足能量水平阈值，那么在框310中，音频输入模块208可继续监测音频输入，直至接收到另一音频输入为止。

返回到框308，如果音频检测模块106确定音频输入的能量水平满足阈值，那么在框312处，功率管理模块120可启用语音检测模块108(或者，音频检测模块106可直接启用语音检测模块108，并且在接下来的框中，功率管理模块120也可省去)。在框314处，语音检测模块108可确定语音是否存在于所获得的音频输入中，大体如上文相对于图1所论述。如果语音检测模块108确定语音不存在于(或不可能存在于)音频输入中，那么在框316处，功率管理模块120可停用语音检测模块108。在框310中，音频输入模块208随后可继续监测音频输入，直至接收到另一音频输入为止。

返回到框314，如果语音检测模块108确定音频输入包含语音，那么在框318处，功率管理模块120可启用语音处理模块110。如上所述，在框320处，语音处理模块110可确定唤醒字是否存在于语音中。如果语音处理模块110确定唤醒字不存在于语音中(或不可能存在于语音中)，那么在框322处，语音处理模块110可被停用。语音检测模块108也可在框316处被停用。在框310中，音频输入装置208随后可继续监测音频输入，直至接收到另一音频输入为止。

返回到框320，如果在一些实施例中，语音处理模块110确定唤醒字存在于语音中，那么用户401，在框324中，语音处理模块110任选地确定语音是否与特定用户相关联(例如，用户是否说出唤醒字)，大体如上文相对于图1所论述。如果语音并不与特定用户相关联，那么在框322处，语音处理模块110可被停用。语音检测模块108也可在框316处被停用。在框310中，音频输入装置208随后可继续监测音频输入，直至接收到另一音频输入为止。如果语音与特定用户相关联，那么说明性例行程序300可进行到框326。在其他实施例中，框324可被省去，并且响应于语音处理模块110确定唤醒字存在于语音中，说明性例行程序300可直接从框320进行到框326。

在框326处，功率管理模块120可启用应用处理模块112，所述应用处理模块可实施图2所示的语音识别应用模块216。在框328处，功率管理模块120也可启用网络接口模块206。网络接口模块206被启用之后，记录到存储器缓冲模块104的音频输入可经由网络接口模块206通过网络进行传输。在一些实施例中，当网络接口模块206活动时，随后获得的音频输入从音频输入模块208直接提供到应用处理模块112和/或网络接口模块206，以用于传输到远程计算装置。然而，在其他实施例中，在将音频输入提供到网络接口模块206以便通过网络410传输到远程计算装置之前，语音检测模块108、语音处理模块110以及应用处理模块112中的任一个或全部均对所述音频输入进行处理。

在未示出的一些实施例中，功率管理子系统100等待，直到远程计算装置返回唤醒字存在于第一音频输入中的确认，以便传输随后的音频输入用于识别。如果远程计算装置没有提供唤醒字的确认，或者如果经由网络接口模块206接收到停用指令，那么网络接口模块206以及功率管理子系统100的一个或多个模块可被停用。

由于功率管理子系统100的许多操作可生成概率确定而非准确确定，因此，在说明性例行程序300期间可能出现误差。在一些情况下，功率管理子系统100的特定模块可提供“误报”，从而导致一个或多个模块被错误地启用。例如，在框314处，语音检测模块108可错误地确定存在语音，或者在框320处，语音处理模块110可错误地确定语音包含唤醒字，或在框324处，错误地确定语音属于用户。功率管理子系统100的模块之间的自适应阈值和交叉验证可有利地用来减少误报。本文中论述了自适应阈值的两个实例，但其他类型的自适应阈值是可能的。如上所述，在框314处，语音检测模块可确定语音存在于音频输入中。然而，语音处理模块110由于其较好的处理能力而可比语音检测模块108更准确地识别语音，它可确定实际上音频输入中没有语音。因此，语音处理模块110可指导语音检测模块108提高用于确定语音存在于音频输入中的分数阈值，以便减少将来的误报。同样地，如果远程计算装置(诸如语音识别服务器420)包含语音识别能力，那么远程计算装置可将语音中不存在唤醒字的指示传输到用户计算装置200，即使语音处理模块110可能已经指示存在唤醒字。因此，用于确定唤醒字存在于语音中的语音处理模块110的分数阈值可以提高，以便减少将来的误报。此外，可提供用户接口，从而使得用户可提高一个或多个分数阈值来减少误报，如下文相对于图5进一步描述。

在其他情况下，特定部件可提供“漏报”，从而功率管理子系统100的部件不被启用和/或网络接口模块206不被启用，即使用户已经说出唤醒字也是如此。例如，在框314处，语音检测模块108可错误地确定不存在语音，或者在框320处，语音处理模块110可错误地确定语音不包含唤醒字，或在框324处，错误地确定语音不属于用户。为了降低漏报的可能性，功率管理子系统100可定期降低阈值分数，例如，在框314、320和/或324中，降低满足阈值所需的分数。阈值可继续降低，直至获得一个或多个误报为止，如上所述。一旦获得一个或多个误报，阈值可不再进一步降低，或者可稍微提高。此外，可相应地提供用户接口，从而使得用户可降低一个或多个分数阈值来减少漏报，如下文相对于图5进一步描述。

在一些实施例中，如果在框314、320或324中的任一框处获得否定结果，那么并非所有启用的部件均被停用。例如，如果唤醒字在框320处未被识别出，那么语音处理模块110可在框322处被停用，但语音检测模块108可保持启用。此外，在一些实施方案中，可跳过某些框。在一些实施例中，在框314或320处满足阈值的分数会促使一个或多个随后的框被跳过。例如，如果在框320处，语音处理模块110非常肯定地确定唤醒字存在于语音中，那么说明性例行程序300可直接跳到框326

此外，在一些实施例中，用户计算装置200可包括被配置成由处理单元202执行的自动语音识别引擎。由于此类装置上的语音识别的功率消耗可能尤其高，因此，响应于语音处理模块110确定用户已经说出唤醒字，处理单元202可只实施自动语音识别引擎来识别语音。

现在参考图4A、图4B和图4C，说明性环境400中示出了分布式语音识别服务的示例性操作。环境400可包括用户401；如上所述的用户计算装置200；网络410；语音识别服务器420；以及数据暂存器430。

网络410可以是任何有线网络、无线网络或其组合。此外，网络410可以是个人区域网、局域网、广域网、电缆网络、卫星网络、蜂窝电话网或其组合。计算机通信领域的技术人员已熟知借由因特网或上述任何其他类型的通信网络进行通信的协议和装置，并且因此，无需在本文中更详细地描述。

语音识别服务器420通常可以是能够通过网络410进行通信的任何计算装置。在一些实施例中，语音识别服务器420被实施为一个或多个服务器计算装置，但其他实施方式是可能的。语音识别服务器420可能能够通过网络410从用户计算装置200接收音频输入。此音频输入可用多种方式进行处理，取决于语音识别服务器420的实施方式。在一些实施例中，语音识别服务器420处理从用户计算装置200接收的音频输入，以确认唤醒字存在(例如，通过将音频输入与唤醒字的已知模型相比较)，并且将确认传输到用户计算装置200。语音识别服务器420还可配置来使用已知的说话人鉴别技术来鉴别说出唤醒字的用户401。

语音识别服务器420可处理从用户计算装置200接收的音频输入，以根据音频输入来确定语音识别结果。例如，音频输入可包含用于智能代理来处理的口头查询；将被转录成文本的语音；或者适用于语音识别应用的其他语音。语音识别服务器420可通过网络410将语音识别结果传输到用户计算装置200。关于分布式语音识别应用的进一步信息可见于2012年2月14日颁布的标题为“用于无线装置的托管话音识别系统(Hosted voice recognition system for wireless devices)”的美国专利号8,117,268，该专利的公开内容以全文引用的方式并入本文中。

语音识别服务器420可与数据暂存器430本地或远程通信。数据暂存器430可实现为以下形式：硬盘驱动器、固态存储器，和/或语音识别服务器420可存取的任何其他类型的非瞬时计算机可读存储媒体。在不脱离本公开的精神和范围的情况下，数据存储器430也可以是本领域已知的分布式或跨分区的多个存储装置。此外，在一些实施例中，数据暂存器430被实施为基于网络的电子存储服务。

数据暂存器430可包括一个或多个唤醒字模型。在一些实施例中，唤醒字模型专用于用户401，而在其他实施例中，接收到用户计算装置200确定包含唤醒字的音频输入之后，语音识别服务器可将音频输入与数据暂存器430中存储的唤醒字的已知模型相比较。如果音频输入极其类似于已知模型，那么语音识别服务器420可将唤醒字的确认传输到用户计算装置200，于是用户计算装置200可获得待由语音识别服务器420处理的其他音频输入。

数据暂存器430还可包含用于语音识别的一个或多个声学和/或语言模型。这些模型可包括通用模型，以及专用模型。模型可专用于用户401；专用于用户计算装置200和/或语音识别服务器420实施的语音识别应用；或者可具有其他特定用途。关于语言模型和声学模型的其他信息可见2012年8月16日提交的标题为“判别式语言模型修剪(DISCRIMINATIVE LANGUAGE MODEL PRUNING)”的美国专利申请号13/587,799，以及2012年8月22日提交的标题为“无监督声学模型训练(UNSUPERVISED ACOUSTIC MODEL TRAINING)”的美国专利申请号13/592,157。这两个申请案的公开内容先前以引用的方式并入。

数据暂存器430还可包含数据，该数据响应于语音识别服务器420接收的音频输入中含有的查询。语音识别服务器420可识别音频输入中包含的语音，鉴别语音中包含的查询，并且处理查询以鉴别数据暂存器430中的响应数据。语音识别服务器420随后可通过网络410将包含响应数据的智能代理响应提供到用户计算装置200。数据暂存器430中还可包含其他数据。

将认识到，很多上述装置都是任选的，而且环境400的实施例可以或可不结合装置。此外，装置无需不同或离散。装置也可以在环境400中重新组织。例如，语音识别服务器420可表示为单个物理服务器计算装置，或者可以分成实现本文所述功能的多个物理服务器。此外，用户计算装置200可具有语音识别服务器420的一些或所有语音识别功能。

另外，应注意，在一些实施例中，用户计算装置200和/或语音识别服务器420可由实施在托管计算环境中的一个或多个虚拟机执行。托管计算环境可包含一个或多个快速配置和释放的计算资源，所述计算资源可包括计算装置、网络装置和/或存储装置。托管计算环境也可称为云计算环境。托管计算环境的一个或多个计算装置可包括如上所述的功率管理子系统100。

具体参考图4A，示出了可确认唤醒字的说明性操作。用户401可能说出唤醒字502。用户计算装置200可获得可能包含用户语音的音频输入(1)，并且确定唤醒字402存在于语音中(2)，大体如上文相对于图3所论述。音频输入还可包含话音命令或查询。响应于确定语音包含唤醒字，应用处理模块112和用户计算装置200的网络接口模块206可被启用(3)，并且音频输入通过网络410传输到语音识别服务器420(4)。语音识别服务器420可确认唤醒字存在于音频输入中(5)，并且可通过网络410将确认传输到用户计算装置200(6)。

现转到图4B，响应于接收来自语音识别服务器420的唤醒字的确认，用户计算装置200可继续获得音频输入(7)，所述音频输入将被提供到语音识别服务器420以用于处理。例如，获得的音频输入可包含智能代理查询404，用于由语音识别服务器420处理。或者，获得的音频输入可包含将被语音识别服务器420转录的语音(例如，用于由应用处理模块112执行的听写、文字处理或消息应用)。用户计算装置200可通过网络410将音频输入传输到语音识别服务器420(8)。任选地，将生成语音识别结果的语音识别应用的识别符可被提供给语音识别服务器420，因此，语音识别服务器420可生成结果，所述结果具体用于应用处理模块112实施的语音识别应用。语音识别服务器420可识别音频输入中包含的语音(9)，并且由此生成语音识别结果(10)。例如，语音识别结果可包含语音的抄本、语音中包含的查询的智能代理响应，或任何其他类型的结果。这些语音识别结果可通过网络410从语音识别服务器420传输到用户计算装置200(11)。响应于接收到结果，应用处理模块112可使以声音形式(例如，通过文本到语音)或以视觉形式(例如，通过用户计算装置200的显示器)来呈现结果(12)。

现在参考图4C，用户计算装置200可继续获得音频输入(13)，所述音频输入将被提供到语音识别服务器420以用于处理。用户计算装置200可通过网络410将音频输入传输到语音识别服务器420(14)。语音识别服务器可识别音频输入中包含的任何语音(15)。响应于识别出语音，语音识别服务器420可确定用户401不再对着用户计算装置200说话，并且停止任何随后的语音识别(16)。例如，用户401可说出并不对应于结构化命令或查询的字词，诸如无向的自然语言语音406。语音识别服务器420也可分析语音的速度、仔细程度、音调变化或清晰度，以确定该语音并不指向用户计算装置200，并且不应被处理成语音识别结果。

其他类型的音频输入也可促使语音识别服务器420停止随后的语音识别。或者，语音识别服务器420可确定接收的音频输入并不包含语音。响应于接收到并不包含指向用户计算装置200的语音的一个或多个音频输入，语音识别服务器420可确定语音识别结果不应被生成，并且语音识别应停止。此外，音频输入可包含预先确定的休眠字，所述休眠字可以是用户401选择的。如果语音识别服务器420检测到休眠字，那么语音识别服务器420可停止对音频输入执行语音识别。此外，语音识别服务器420可确定多个用户401存在于用户计算装置200的附近(例如，通过对用户计算装置200获得的多个音频输入执行说话人鉴别)。如果鉴别的用户401的数量满足阈值(所述阈值可以是大于一的任何数量的用户401)，那么语音识别服务器420可确定用户计算装置200获得的任何音频输入不太可能被处理成语音识别结果。

响应于确定用户401的语音并不指向用户计算装置200(或由于上述任何其他原因，确定不应执行随后的语音识别)，语音识别服务器420可通过网络410将停用指令传输到用户计算装置200(17)。响应于接收到停用指令，用户计算装置200可停用网络接口模块206以及功率管理子系统100的一个或多个部件(18)，诸如应用处理模块112、语音处理模块110和/或语音检测模块108。其他条件也可促使语音识别服务器420将停用指令传输到用户计算装置200。例如，返回到图4A，如果语音识别服务器420确定唤醒字并未存在于在状态(1)处接收到的音频输入中，那么语音识别服务器420可将停用指令传输到用户计算装置200。或者，语音识别服务器420可确定自从上次从用户计算装置200接收到包含语音的音频输入，已经过去了阈值时间量，并且可因此将停用指令传输到用户计算装置200。可确定其他标准，用于将停用指令传输到用户计算装置200。

再次返回到图4A，在接收到确定包含唤醒字的随后音频输入之后，用户计算装置200可启用功率管理子系统100的部件和网络接口模块206，并且将音频输入传输到语音识别服务器420。本文中示出的示例性操作因此可自己重复。

图4A、图4B和图4C中示出的示例性操作用于说明性目的。本文中示出的示例性操作中可省去一个或多个状态，或者可添加额外的状态。在一个特定的实例中，在传输语音识别服务器420将为其生成语音识别结果的音频输入之前，用户计算装置200无需从语音识别服务器420获得唤醒字的确认。此外，在停用网络接口模块206和/或功率管理子系统100的一个或多个部件诸如应用处理模块112、语音处理模块110或语音检测模块108之前，用户计算装置200无需获得停用指令。事实上，功率管理子系统100可(通过音频检测模块106)确定，自从用户计算装置200已获得能量水平满足能量水平阈值的音频输入之后，已经过去了至少阈值时间量。或者，用户计算装置200可(通过语音检测模块108)确定，自从获得包含语音的音频输入之后，已经过去了至少阈值时间量。响应于确定已经过去了阈值时间量，功率管理子系统100可使网络接口模块206停用，并且可停用其本身的一个或多个部件，如上文相对于图3所述。

此外，功率管理子系统100可配置来识别用户401选择并说出的休眠字，采用大体类似于图3所示的识别唤醒字的方式。如果休眠字被功率管理子系统100检测到(例如，被语音处理模块110检测到)，那么网络接口模块206和/或功率管理子系统100的一个或多个部件可被停用。同样地，如果用户计算装置200包含其自身装置上的语音识别能力，那么响应于检测到休眠字，它们可被停用。

图5描绘出说明性用户接口500，其可由用户计算装置200提供用于定制功率管理子系统100和用户计算装置200的操作。在一个实施例中，用户接口模块212通过用户接口500处理用户输入，并将其提供到功率管理子系统100。

能量水平阈值元件502可使得用户能够指定阈值能量水平，在该阈值能量水平，语音检测模块108应被启用，如图3中的框308所示。例如，如果用户计算装置200处于相对嘈杂的环境，或者如果用户计算装置200正在经历音频检测模块106确定的相当大量的“误报”，那么用户401可能会希望提高语音处理模块108被启用时所处的能量水平阈值。如果用户401处于相对安静的环境，或者如果用户计算装置200正在经历相当大量的漏报，那么用户401可能会希望降低语音检测模块108被启用时所处的能量水平阈值。如上所述，能量水平阈值可对应于音量阈值、强度阈值、振幅阈值或与音频输入相关的其他阈值。

关键字置信度阈值元件504可使得用户能够指定阈值分数，在该阈值分数，语音处理模块110确定关键字存在。同样地，鉴别置信度阈值元件可使得用户能够指定阈值分数，在该阈值分数，语音处理模块110确定用户说出关键字。在一个实施例中，响应于语音处理模块110识别出唤醒字(例如，语音处理模块110确定满足阈值的分数，所述分数对应于语音中包含唤醒字的可能性)，应用处理模块112和网络接口模块206被启用。在另一实施例中，响应于至少通过对应于唤醒字与用户相关联的可能性的阈值分数，语音处理模块110确定唤醒字与用户401相关联，应用处理模块112和网络接口模块206被启用。在另外的实施例中，响应于语音处理模块110至少通过阈值分数识别唤醒字并且至少通过阈值分数确定唤醒字与用户401相关联，应用处理模块112和网络接口模块206被启用。其他阈值元件可被提供来使得用户401能够设置个别阈值，用于启用功率管理子系统100的任何或所有个别部件。另外的阈值元件可被提供来使得用户能够指定说明性例行程序300的一个或多个框可被跳过的分数，大体如上文相对于图3所论述。

用户接口500还可包含一个或多个计时元件508A和508B。每个计时元件均可用来设置阈值时间间隔，在该阈值时间间隔，网络接口模块206和/或功率管理子系统100的一个或多个部件自动停用。参考计时元件508A，如果功率管理子系统100确定自从用户计算装置200获得能量水平满足能量水平阈值的音频输入之后，已经过去了至少阈值时间间隔，那么网络接口模块206可自动停用，此外，功率管理子系统100的应用处理模块112、语音处理模块110、语音检测模块108也是如此。另外的计时元件也可用来设置阈值时间间隔，在该阈值时间间隔之后，语音识别服务器420将停用指令自动发送到网络接口模块206和功率管理子系统100，大体如上文相对于图4C所论述。也可提供用于功率管理子系统100的其他模块的计时元件。

继续参考图5，用户401可选择唤醒字是否应由语音识别服务器420通过服务器确认元件510来进行确认。在一些实施例中，在语音处理模块110检测到唤醒字之后，如果唤醒字的确认从语音识别服务器420接收到，应用处理模块112和网络接口模块206才保持启用。如果用户401要求唤醒字的服务器确认，那么随后获得的音频输入可以不传输到语音识别服务器420，除非唤醒字被确认。然而，如上所述，未必要求确认。如果用户401并不要求唤醒字的服务器确认，那么用户计算装置200可将随后获得的一个或多个音频输入传输到语音处理模块110，所述语音处理模块检测语音中的唤醒字和/或确定语音与用户401相关联。

用户401也可选择是否要求用说话人鉴别元件512进行说话人鉴别。如果用户401要求说话人鉴别，那么语音处理模块110和/或语音识别服务器420可用来确定包含对应于唤醒字的语音的音频输入是否与用户401相关联。响应于语音处理模块110确定用户401就是语音的说话人，应用处理模块112和网络接口模块206可被启用。同样地，响应于从语音识别服务器420接收到用户401就是唤醒字的说话人的确认，网络接口模块206可保持启用状态。然而，如果用户401并不要求说话人鉴别，那么语音处理模块110和语音识别服务器420均无需鉴别说话人。

用户接口500还可包含装置上的识别选择元件514，其中用户401可选择用户计算装置200是否自己生成语音识别结果，或者音频输入是否发送到语音识别服务器420以用于处理成语音识别结果。如果用户计算装置200并不包含装置上的语音识别能力，那么装置上的识别选择元件514可任选地被禁用或停止。此外，如果电源218下降至低于阈值供电水平(例如，电池电量百分数)，那么装置上的识别选择元件514可自动取消选择(并且装置上的语音识别能力自动禁用)，因为处理单元202和/或应用处理模块112实施的装置上的语音识别能力可能会要求相对较大的电耗。

唤醒字方框516和休眠字方框518可包括用户接口元件，借此，用户401可记录用户401说出的唤醒字或休眠字，并将其回放。当用户401记录唤醒字或休眠字时，网络接口模块206可自动启用，从而使得包含用户语音的音频输入可被提供到语音识别服务器420。语音识别服务器420可返回记录的唤醒字或休眠字的抄本，从而用户可确定语音识别服务器420是否正确理解了记录的唤醒字或休眠字。或者，当用户401记录唤醒字或休眠字时，用户计算装置200的任何装置上的语音识别能力均可被启用，以对记录的用户401的语音进行转录。说出的唤醒字或休眠字的频谱指示也可由用户接口500提供。任选地，唤醒字方框516和休眠字方框518可包含唤醒字或休眠字的暗示，并且可指示用户401提供的唤醒字或休眠字的质量，所述质量可反映出唤醒字或休眠字会产生误报或漏报的可能性。关于提示关键字的进一步信息可见于2012年11月6日提交的标题为“唤醒字评估(WAKE WORD EVALUATION)”的美国专利申请号13/670,316。该申请案的公开内容以全文引用的方式并入本文中。

出于说明的目的，已将本公开的各方面论述为硬件实施方式。然而，如上所述，功率管理子系统100可部分或完全由处理单元202实施。例如，功率管理子系统100的一些或全部功能可实施为处理单元202执行的软件指令。在一个特定的非限制性实例中，语音处理模块110、应用处理模块112以及功率管理模块120的功能可实施为处理单元202执行的软件。因此，处理单元202可配置来响应于检测到唤醒字而选择性地启用和/或停用网络接口模块206。可能还有其他的实施方式。

根据实施例，本文所述的例行程序或算法中的任一个的某些动作、事件或功能可用不同的顺序来执行，并可被添加、合并或完全忽略(例如，并非所有描述的操作或事件都是实践算法所必需的)。此外，在某些实施例中，操作或事件可同时执行(例如，通过多线程处理、中断处理，或者多个处理器或处理器芯，或者在其他并行架构上)，而非连续执行。

结合本文公开的实施例描述的各种说明性逻辑块、模块、例行程序和算法步骤可实施为电子硬件、计算机软件，或是这两个的组合。为了清楚地说明硬件和软件的这种互换性，上文总体上就其功能描述了各种说明性部件、块、模块和步骤。此类功能是实施为硬件还是软件，取决于整个系统上施加的特定应用和设计限制。所述功能可用不同的方式实施，以便用于每个特定的应用，但此类实施决策不应被解释为脱离本公开的范围。

除非另行说明，或者根据上下文可用其他方式理解，否则本文中所用的条件性语言，诸如“可”、“可以”、“可能”、“也许”、“例如”等，总体上意图传达以下内容：某些实施例包含(但其他实施例不包含)某些特征、元件和/或步骤。因此，这些条件性语言总体上并不意图暗示：特征、元件和/或步骤是一项或多项实施例无论如何都需要的，或者在有或没有作者输入或提示的情况下，一项或多项实施例必然包含决策逻辑，不论这些特征、元件和/或步骤均包含其中还是将在任何特定的实施例中执行。术语“包括”、“包含”、“具有”等是同义词，以开放的形式使用，并且并不排除额外的元件、特征、动作、操作等等。此外，术语“或”具有包含意义(而并非排除意义)，因此(例如)在用于连接一系列元件时，术语“或”意味着这一系列元件中的一个、一些或所有元件。

除非另行说明，否则结合性语言(诸如短语“X、Y和Z中的至少一个”)将在上下文中被理解为大体传达一个项目、术语等可以是X、Y或Z或者其组合。因此，这些结合性语言通常并不意图暗示某些实施例要求分别存在X中的至少一个、Y中的至少一个以及Z中的一个。

虽然上文的具体实施方式已展示、描述并指出应用于各种实施例的新颖特征，但是应理解，在不脱离本发明的精神的情况下，可对所示装置或算法的形式和细节进行各种省略、取代和改变。应认识到，本文所述的本发明的某些实施例可采用不提供本文所述的所有特征和优点的方式实现，因为一些特征可独立于其他特征单独使用或实践。本文公开的本发明的范围由所附权利要求书、而非上述说明指示。权利要求书的范围涵盖其等效意义和范围内的所有变化。

条款:

1.一种系统，其包括：

音频输入模块，其配置来接收音频输入；

与所述音频输入模块通信的音频检测模块，所述音频检测模块配置来确定所述音频输入的音量，并且至少部分基于所确定的音量，使语音检测模块启用；

所述语音检测模块配置来确定指示所述音频输入包括语音的可能性的第一分数，并且至少部分基于所述分数，使唤醒字识别模块启用；

所述唤醒字识别模块配置来确定指示所述音频输入包括唤醒字的可能性的第二分数；以及

网络接口模块，其配置来将所获得的音频输入的至少一部分传输到远程计算装置。

2.根据条款1所述的系统，其中所述音频输入装置包括麦克风，所述音频检测模块包括第一数字信号处理器，所述语音检测模块包括第二数字信号处理器，并且所述唤醒字识别模块包括微处理器。

3.根据条款1所述的系统，其中：

所述语音检测模块还配置来使用以下各者中的至少一个来确定所述第一分数：隐马尔可夫模型、高斯混合模型、多个频谱带中的能量或者多个频谱带中的信噪比；并且

所述唤醒字识别模块还配置来使用以下各者中的至少一个来确定所述第二分数：应用处理模块、隐马尔可夫模型以及高斯混合模型。

4.根据条款1所述的系统，其中：

所述唤醒字识别模块还配置来至少部分基于所述第一分数来使所述音频检测模块停用；并且

所述唤醒字识别模块还配置来至少部分基于所述第二分数来使所述语音检测模块停用。

5.一种操作第一计算装置的计算机实施的方法，所述方法包括：

接收音频输入；

从所述音频输入确定一个或多个值，其中所述一个或多个值包括以下各者中的至少一个：

指示所述音频输入的能量水平的第一值；或

指示所述音频输入包括语音的可能性的第二值；

至少部分基于所述一个或多个值，启用所述第一计算装置的第一模块；

通过所述第一模块来执行操作，其中所述操作包括以下各者中的至少一个：

确定所述音频输入包括唤醒字；

对所述音频输入的至少一部分执行语音识别，以获得语音识别结果；或

使所述音频输入的至少一部分传输到第二计算装置。

6.根据条款5所述的计算机实施的方法，其中：

所述第一模块包括处理器，所述处理器可在低功率状态与高功率状态之间切换；并且

所述处理器只有在处于所述高功率状态时才执行所述操作。

7.根据条款6所述的计算机实施的方法，其中启用所述第一模块包括将所述处理器从所述低功率状态切换到所述高功率状态。

8.根据条款6所述的计算机实施的方法，其还包括停用所述第一模块，其中停用所述第一模块包括将所述处理器从所述高功率状态切换到所述低功率状态。

9.根据条款6所述的计算机实施的方法，其中所述处理器包括数字信号处理器或微处理器中的至少一个。

10.根据条款5所述的计算机实施的方法，其中所述第一模块包括配置来由微处理器执行的软件模块。

11.根据条款10所述的计算机实施的方法，其中启用所述第一模块包括使所述微处理器执行所述软件模块。

12.根据条款5所述的计算机实施的方法，其中所述操作包括使所述音频输入的至少一部分传输到所述第二计算装置，并且还包括从所述第二计算装置接收语音识别结果。

13.根据条款12所述的计算机实施的方法，其中所述语音识别结果包括以下各者中的至少一个：所述音频输入的至少一部分的抄本以及对包括在所述音频输入的至少一部分中的智能代理查询的响应。

14.根据条款12所述的计算机实施的方法，其还包括：

至少部分基于所述一个或多个值，启用所述第一计算装置的第二模块，其中所述第二模块配置来实施语音识别应用；以及

通过所述语音识别应用来处理所述语音识别结果。

15.一种装置，其包括：

第一处理器，其配置来：

确定一个或多个值，其中所述一个或多个值包括以下各者中的至少一个：指示音频输入的能量水平的第一值，或指示所述音频输入包括语音的可能性的第二值；以及

至少部分基于所述一个或多个值，使第二处理器启用；

所述第二处理器配置来执行操作，其中所述操作包括以下各者中的至少一个：

确定所述音频输入包括唤醒字；

使所述音频输入的至少一部分传输到第二装置。

16.根据条款15所述的装置，其中所述第一处理器包括数字信号处理器或微处理器中的至少一个。

17.根据条款15所述的装置，其中所述第二处理器包括数字信号处理器或微处理器中的至少一个。

18.根据条款15所述的装置，其还包括配置来存储所述音频输入的存储器缓冲模块。

19.根据条款18所述的装置，其中配置来存储所述音频输入的所述存储器缓冲模块包括环形缓冲区。

20.根据条款15所述的装置，其还包括与所述第一处理器通信的音频输入模块，其中所述音频输入模块配置来获得所述音频输入。

21.一种系统，其包括：

音频输入模块，其配置来获得音频输入；

与所述音频输入模块通信的第一模块；以及

与所述第一模块通信的第二模块；

其中所述第一模块配置来：

至少部分基于所述音频输入来确定一个或多个值，以及

至少部分基于所述一个或多个值，使所述第二模块启用；并且

其中所述第二模块配置来对所述音频输入的至少一部分执行语音识别。

22.根据条款21所述的系统，其中所述一个或多个值包括所述音频输入的音量。

23.根据条款22所述的系统，其中只有在所述音频输入的所述音量在至少阈值持续时间内满足音量阈值时，所述第二模块才被启用。

24.根据条款21所述的系统，其中所述一个或多个值包括所述音频输入包括语音的可能性。

25.根据条款21所述的系统，其中所述一个或多个值包括指示以下可能性的分数：所述音频输入包括唤醒字。

26.根据条款25所述的系统，其中所述一个或多个值还包括指示以下可能性的分数：所述唤醒字由与所述唤醒字相关联的用户说出。

27.根据条款21所述的系统，其中所述第二模块配置来通过为所述音频输入的至少一部分生成语音识别结果对所述音频输入的至少一部分执行语音识别。

28.根据条款21所述的系统，其中所述第二模块配置来通过以下操作对所述音频输入的至少一部分执行语音识别：

将所述音频输入传输到远程计算装置；以及

从所述远程计算装置接收所述音频输入的至少一部分的语音识别结果。

Claims

1.一种系统，其包括：

音频输入模块，其配置来接收音频输入；

2.根据权利要求1所述的系统，其中所述音频输入装置包括麦克风，所述音频检测模块包括第一数字信号处理器，所述语音检测模块包括第二数字信号处理器，并且所述唤醒字识别模块包括微处理器。

3.根据权利要求1所述的系统，其中：

4.根据权利要求1所述的系统，其中：

接收音频输入；

指示所述音频输入的能量水平的第一值；或

指示所述音频输入包括语音的可能性的第二值；

确定所述音频输入包括唤醒字；

使所述音频输入的至少一部分传输到第二计算装置。

6.根据权利要求5所述的计算机实施的方法，其中：

所述处理器只有在处于所述高功率状态时才执行所述操作。

7.根据权利要求6所述的计算机实施的方法，其中启用所述第一模块包括将所述处理器从所述低功率状态切换到所述高功率状态。

8.根据权利要求6所述的计算机实施的方法，其还包括停用所述第一模块，其中停用所述第一模块包括将所述处理器从所述高功率状态切换到所述低功率状态。

9.根据权利要求6所述的计算机实施的方法，其中所述处理器包括数字信号处理器或微处理器中的至少一个。

10.根据权利要求5所述的计算机实施的方法，其中所述操作包括使所述音频输入的至少一部分传输到所述第二计算装置，并且还包括从所述第二计算装置接收语音识别结果。

11.根据权利要求10所述的计算机实施的方法，其还包括：

通过所述语音识别应用来处理所述语音识别结果。

12.一种装置，其包括：

第一处理器，其配置来：

至少部分基于所述一个或多个值，使第二处理器启用；

所述第二处理器，其配置来执行操作，其中所述操作包括以下各者中的至少一个：

确定所述音频输入包括唤醒字；

使所述音频输入的至少一部分传输到第二装置。

13.根据权利要求12所述的装置，其中所述第一处理器包括数字信号处理器或微处理器中的至少一个。

14.根据权利要求12所述的装置，其还包括配置来存储所述音频输入的存储器缓冲模块。

15.根据权利要求12所述的装置，其还包括与所述第一处理器通信的音频输入模块，其中所述音频输入模块配置来获得所述音频输入。