CN110459207A

CN110459207A - 唤醒语音关键短语分割

Info

Publication number: CN110459207A
Application number: CN201910330352.6A
Authority: CN
Inventors: 托马什·多劳; 托比亚斯·博克雷; 普热米司勒·托马谢夫斯基; 塞巴斯蒂安·切里巴; 尤利乌斯·诺尔曼·霍耶茨基
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2018-05-07
Filing date: 2019-04-23
Publication date: 2019-11-15
Also published as: US20190043479A1; US20210264898A1; DE102019109148A1

Abstract

本公开涉及唤醒语音关键短语分割。提供了用于关键短语的分割的技术。根据实施例的实现该技术的方法包括：对从音频信号的时间分段提取的特征向量进行累加；以及基于那些特征向量生成一组声学评分。一组声学评分中的每个声学评分代表与时间分段相关联的语音类别的可能性。该方法还包括：生成评分模型状态序列的进展，每个评分模型状态序列基于与从音频信号的时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测。该方法还包括：分析评分状态序列的进展以检测与该进展相关联的模式，并且基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。

Description

唤醒语音关键短语分割

技术领域

本公开涉及唤醒语音关键短语分割。

背景技术

关键短语检测是语音使能设备中的重要特征。设备可以由来自用户的特定关键短语的话语从低功率侦听状态唤醒。关键短语检测事件发起人与设备的对话，例如，对于个人助理的命令或问题。这种对话包括对用户的语音的进一步处理，并且该处理的有效性很大程度上取决于确定音频信号中的关键短语的边界的精确度(该处理被称为关键短语分割)。但是，对于关键短语分割技术仍然存在大量重要问题。

发明内容

根据本公开的一方面，提供了一种用于关键短语分割的方法，该方法包括：由神经网络基于特征向量的累加(accumulation)生成一组声学评分，所述特征向量是从音频信号的时间分段(time segment)提取的，所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别(phonetic class)的可能性；由关键短语模型解码器生成评分模型状态序列的进展，所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测；由关键短语分割电路分析评分状态序列的所述进展，以检测与所述进展相关联的模式；以及由所述关键短语分割电路基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。

根据本公开的另一方面，提供了一种关键短语分割系统，该系统包括：特征提取电路，所述特征提取电路从音频信号的时间分段提取特征向量；累加电路，所述累加电路对所提取的特征向量中的选定数目的特征向量进行累加；声学模型评分神经网络，所述声学模型评分神经网络基于所累加的特征向量生成一组声学评分，所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性；关键短语模型评分电路，所述关键短语模型评分电路生成评分模型状态序列的进展，所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测；以及关键短语分割电路，所述关键短语分割电路分析评分状态序列的所述进展以检测与所述进展相关联的模式，并基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。

根据本公开的另一方面，提供了至少一种非暂态计算机可读存储介质，其上编码有指令，所述指令在被一个或多个处理器执行时使得用于关键短语分割的处理被执行，所述处理包括：对从音频信号的时间分段提取的特征向量进行累加；基于所累加的特征向量生成一组声学评分，所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性；生成评分模型状态序列的进展，每个评分模型状态语音单元基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测；分析评分状态序列的所述进展，以检测与所述进展相关联的模式；以及基于检测模式与期望模式的对齐，确定用于关键短语的分割的起始点和结束点。

根据本公开的另一方面，提供了一种用于关键短语分割的装置，该装置包括：用于基于特征向量的累加生成一组声学评分的装置，所述特征向量是从音频信号的时间分段提取的，所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性；用于生成评分模型状态序列的进展的装置，所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测；用于分析评分状态序列的所述进展，以检测与所述进展相关联的模式的装置；以及用于基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点的装置。

附图说明

随着下面的详细描述的进行，并且在参考附图的情况下，请求保护的主题的实施例的特征和优点将变得显而易见，其中，相同的标号描绘相同的部分。

图1是根据本公开的某些实施例配置的语音使能设备的顶层框图。

图2是根据本公开的某些实施例配置的关键短语检测和分割电路的框图。

图3是根据本公开的某些实施例配置的隐马尔可夫模型(Hidden Markov Model，HMM)关键短语评分电路的框图。

图4示出了根据本公开的某些实施例的HMM状态序列。

图5示出了根据本公开的某些实施例的HMM状态序列的进展。

图6是根据本公开的某些实施例配置的关键短语分割电路的框图。

图7是示出根据本公开的某些实施例配置的起始点计算电路的实施方式的流程图。

图8是示出根据本公开的某些实施例配置的结束点计算电路的实施方式的流程图。

图9是示出根据本公开的某些实施例的关键短语分割方法的流程图。

图10是示意性地示出根据本公开的某些实施例的被配置为执行关键短语分割的语音使能设备平台的框图。

尽管将参考说明性实施例进行下面的详细描述，但是根据本公开的很多替代、修改、和变形将显而易见。

具体实施方式

如前所述，针对语音使能设备中的关键短语分割技术仍然存在大量重要问题。例如，一些现有的关键短语分割技术基于语音活动检测，语音活动检测依赖于信号能量的变化来确定语音的起始点和停止点。这些技术的精确度有限，尤其是在噪声环境中的精确度有限。其他方法使用同样没有利用期望关键短语的先验知识的简单语音分类器，因此容易对语音进行错误分类，从而产生会不利地影响语音使能设备的性能的分割错误。

因此，本公开提供了精确度提高的用于实时从音频流中分割所检测到的唤醒语音关键短语的技术。关键短语的检测可以使语音使能设备从低功率侦听状态被唤醒到更高功率处理状态以用于辨认、理解、以及响应用户的语音。从输入音频信号中精确分割关键短语(例如，确定关键短语的起始时间和停止时间)对于这些后续语音处理任务的可靠性能很重要，下面将列出这些后续语音处理任务的示例。在一个实施例中，这些技术在利用期望信号特性的先验知识(包括关键短语的语音或子语音单元的序列)的语音使能设备中被实现，这允许从背景信号和噪声中更好地区分出关键短语。在一些这样的示例实施例中，这是通过跟踪期望模式的隐马尔可夫模型(HMM)关键短语模型评分以及识别产生匹配评分序列的输入音频信号的分段实现的，如下面将更详细地描述的。

所公开的技术可以实现在例如计算机系统或可以由这类系统执行或控制的软件产品中，尽管其他实施例将是显而易见的。该系统或产品被配置为执行用于语音使能设备的关键短语分割。根据一个实施例，实现这些技术的方法包括对从音频信号的时间分段提取的特征向量进行累加。该方法还包括实现神经网络，以基于所累加的特征向量生成一组声学评分。一组声学评分中的每个声学评分代表与时间分段相关联的语音类别的可能性。该方法还包括实现关键短语模型解码器，以生成模型状态评分序列的进展。每个评分模型状态序列基于与从音频信号的时间分段生成的声学评分组中的相应的一组声学评分相关联的(子)语音单元的检测。该方法还包括分析评分状态序列的进展以检测与该进展相关联的模式，并且基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。

将明白的是，本文描述的技术可以通过提供唤醒语音关键短语的更精确的分割以使得后续应用(例如，声学波束形成、语音辨认、和说话人识别)的性能增强，来允许提高语音使能设备的用户体验。相比依赖于语音活动检测或采用更简单的分类器(不利用关键短语的先验知识的分类器)的现有分割方法，所公开的技术提供了更可靠的关键短语分割。

所公开的技术可以实现在包括膝上型计算机、平板、智能电话、工作台、视频会议系统、游戏系统、智能家庭控制系统、以及低功率嵌入式DSP/CPU系统或设备在内的各种平台上。另外，在一些实施例中，数据可以完全在本地平台上被处理，或者部分处理可以被卸载到远程平台(例如，采用基于云的处理、或者可以由用户的各种本地计算系统访问的基于云的语音使能服务或应用)。这些技术还可以实现在硬件或软件、或者它们的组合中。

图1是根据本公开的某些实施例配置的语音使能设备100的顶层框图。语音使能设备100被示出为包括关键短语检测和分割电路120，该关键短语检测和分割电路被配置为：检测可以存在于包含来自设备的用户的语音的音频信号110中的唤醒语音关键短语，并且确定该关键短语的起始点和结束点。下面将更详细地说明关键短语检测和分割电路120的操作。还示出了缓冲器160，该缓冲器被配置为存储音频信号110的一部分供关键短语检测和分割电路120使用。在一些实施例中，缓冲器可以被配置为存储2至5秒的音频，该音频应该足够捕捉并存储典型关键短语，该典型关键短语一般具有介于600毫秒和1.5秒之间的持续时间。另外，示出了多个示例后续语音处理应用，这些应用包括波束形成电路130、自动语音辨认电路140、以及说话人ID电路150。这些示例应用可以得益于从音频信号110精确分割出关键短语，尽管包括文本相关说话人识别、情绪辨认、性别检测、年龄检测、以及噪声估计在内的很多其他这样的应用可以被预见到。关键短语分割的起始点和结束点190与到缓冲器160的入口一起被提供给这些应用，使得这些应用可以访问关键短语。在一些实施例中，缓冲器160可以被配置为存储从音频信号提取的特征向量(如下面将描述的)而不存储音频信号。

图2是根据本公开的某些实施例配置的关键短语检测和分割电路120的框图。关键短语检测和分割电路120被示出为包括特征提取电路210、累加电路230、声学模型评分神经网络240、隐马尔可夫模型(HMM)关键短语评分电路260、以及关键短语分割电路280。关键短语检测和分割电路120通过在每个迭代中处理所提供的音频信号110的块(例如，时间分段)来以迭代方式进行操作，如下面将更详细地描述的。

特征提取电路210被配置为从音频信号110的时间分段提取特征向量220。在一些实施例中，特征向量可以包括代表感兴趣的语音的声学性质的任何适当特征向量，并且这些特征向量可以使用根据本公开的已知技术提取。累加电路230被配置为对从连续时间分段提取的选定数目的特征向量进行累加，以提供用于表示所选择的时间段上的声学性质的足够宽的上下文。可以试探性地确定待累加的特征的数目和每个时间分段的持续时间。在一些实施例中，可以从每个时间分段提取一个特征向量，并且可以对涉及50至200毫秒的音频的5至20个特征向量进行累加。

声学模型评分神经网络240被配置为基于所累加的特征向量生成一组声学评分。一组声学评分中的每个声学评分代表与时间分段相关联的语音类别的可能性。在一些实施例中，语音类别可以是语音单元、子语音单元、三音素状态(例如，三个连续音素)、或单音素状态(例如，一个因素)。为了方便起见在本文中可交换使用的术语“语音单元”和“子语音单元”可以被认为包括音素、语音单元、和子语音单元。可以在神经网络的输出节点呈现每个声学评分。在一些实施例中，声学模型评分神经网络240被实现为深度神经网络(DNN)，尽管也可以使用其变形(例如，递归神经网络(RNN)和卷积神经网络(CNN))。

在较高层次上，HMM关键短语评分电路260被配置为生成评分模型状态序列的进展。每个评分模型状态序列基于与从音频信号的时间分段生成的声学评分组中的相应的一组声学评分相关联的(子)语音单元的检测。HMM关键短语评分电路260还被配置为基于声学评分组中的声学评分的累加和传播检测关键短语。下面将结合图3更详细地描述HMM关键短语评分电路260的操作。

在较高层次上，关键短语分割电路280被配置为分析评分状态序列的进展以检测与该进展相关联的模式，并且基于检测模式与期望模式的对齐以及与电路260提供的关键短语检测相关联的时间分段确定用于关键短语的分割的起始点和结束点。下面将结合图6至图8更详细地描述关键短语分割电路280的操作。

图3是根据本公开的某些实施例配置的HMM关键短语评分电路260的框图。对于每个迭代，对应于音频信号110的新时间分段，声学模型评分DNN 240在DNN的输出节点提供评分250。每个节点评分250代表与语音单元相关联的可能性。HMM关键短语评分电路260实现HMM状态序列(也称为马尔可夫链)，其对应于形成关键短语的(子)语音单元的序列。这在图4中示出，图4示出了包括N+1个状态的HMM状态序列400，其中，每个状态与评分{S₀,...S_N}相关联。每个HMM状态对应于一个或多个DNN节点评分250。初始HMM状态0是排斥(rejection)模型状态410。这种状态模拟不属于关键短语的任意内容并且其包括静默和排斥DNN节点评分。HMM状态1...N-1形成关键短语模型状态序列420。这些状态变换中的每个状态变换对应于与关键短语的特定部分(语音单元)相关联的一个DNN节点评分。在每个迭代中，基于来自在先迭代的HMM评分和新的相应DNN节点评分，计算每个HMM状态的新评分，如下面将说明的。关键短语模型的最终评分被计算为final score＝S_N+1-S₀，并且表示关键短语被说出的对数似然值(log likelihood)。

在一些实施例中，在关键短语模型状态420后面可以包括被称为虚拟(dummy)状态430的可选的附加第N状态。这种虚拟状态模拟在关键短语之后出现的任意内容，并且具有与排斥模型的作用类似的作用，这在于其模拟不属于关键短语的任意内容。其还对应于静默和排斥DNN节点评分250。虚拟状态430用于提高识别关键短语的末尾的可靠性，并且允许包括所说出的命令的关键短语之后的任意语音或静默的可能性。

HMM关键短语评分电路260被示出为包括累加电路310、传播电路320、标准化电路330、以及阈值电路340。

累加电路310被配置为对每个相应HMM状态的DNN节点评分250进行累加。对于每个关键短语模型状态420，k＝1...N，相应DNN节点的评分被添加到状态评分S_k。对于排斥状态0 410和虚拟状态N 430，所有静默和排斥DNN节点评分的最大值被添加到状态评分S₀和S_N。

传播电路320被配置为将所累加的状态评分传播通过序列。对于每个关键短语模型状态k＝0,...,N-1，如果下一个状态评分S_k+1低于S_k，则向前传播相关联的评分S_k。这可以表示为：S_k+1←S_k IF S_k>S_k+1。按照索引k的降序执行该操作，以避免数据依赖性。

标准化电路330被配置为通过减去状态评分的最大值来对状态评分进行标准化。这可以表示为：S_k←S_k-S_max，其中，S_max＝max{S_k:k＝0...N}。

阈值电路340被配置为比较最终评分(final score＝S_N+1-S₀，如上所述)和选定阈值，并且在最终评分超过该阈值的情况下生成关键短语检测事件275。关键短语检测与正在处理的音频信号110的当前时间分段相关联(该事件针对该当前时间分段发生)。

所公开的分割处理基于所观察到的HMM关键短语模型状态评分{S₀...S_N}的进展。图5示出了根据本公开的某些实施例的随着时间的进展的示例。每行描绘音频信号110的不同时间分段510的处理结果，其中时间从上到下增大。黑色填充圆圈540指示当前时间分段的最高可能性状态。在处理所检测出的关键短语期间对于关键短语模型状态评分的时间演变的分析示出进展总体上匹配具体模式。可以利用这个事实来辨认模式，在时间上将模式与输入音频信号对齐，并且识别包含关键短语的时间分段。

在处理音频信号110时，但是在关键短语被说出之前，在每个时间分段迭代中的S₀评分中累加排斥和静默DNN节点评分的最大值。这在图5的顶行示出。排斥和静默DNN节点评分大于任意关键短语DNN节点评分，因此S₀具有对应于HMM模型中的最高可能性状态的最高评分。在这个阶段，在传播操作中更新S₁，使得在每次迭代后S₁＝S₀。

当处理关键短语的第一部分时，在短语的开始520处，因为与状态1相关联的DNN节点评分较大，所以在累加操作中S₁变得大于S₀。这在图5的第二行示出。此时，从S₀到S₁的评分传播停止。当执行附加迭代时(例如，处理关键短语的附加时间分段时)，如第2至4行所示，处理重复。例如，在第2行，对于S₁和S₂：只要处理对应于状态1的(子)语音单元，S₁评分累加比S₂或S₀更高的评分，因此S₁评分继续传播到S₂。因此，在每个迭代后，S₂＝S₁。当进一步处理关键短语并且提供对应于状态2的(子)语音单元时，高评分在S₂中累加，并且从S₁到S₂的评分传播停止。该相同的微模式针对S₂和S₃等重复，直到S_N-2和S_N-1，只要正在处理整个关键短语(例如，图5的第三和第四行)。最后，在关键短语的末尾530处，处理静默或后续语音，此时S_N累加最高评分并且变得大于S_N-1。传播不再发生并且S_N>S_N-1(例如，图5的底行)。HMM模型评分的性质在于，当正在处理关键短语时，最高评分状态与当前处理的(子)语音单元的DNN节点评分相关联(图5中的黑色填充圆圈540表示的状态)。另外，高DNN节点评分的累加和传播使得马尔可夫链的尾部具有递减评分(黑色填充圆圈540右侧的状态)。这种模式被关键短语分割电路280用来确定关键短语的起始点和结束点190。

图6是根据本公开的某些实施例配置的关键短语分割电路280的框图。关键短语分割电路280被示出为包括起始点计算电路610和结束点计算电路620，这两个电路被配置为基于HMM关键短语评分电路260提供的关键短语检测275和模型评分270生成起始点和结束点190。下面将结合图7和图8描述起始点计算电路610和结束点计算电路620的操作。

计算是一种迭代处理，其中，每个迭代与正在处理的输入音频信号110的索引分段相关联。长度N的跟踪阵列T被用来存储用于将评分模式与输入数据对齐的分段的索引。关键短语分割处理的结果为：t_start---关键短语起始点的分段索引，以及t_end---关键短语结束点的分段索引。在关键短语评分期间但是在检测事件之前，跟踪评分以识别关键短语的开始。

图7是示出根据本公开的某些实施例配置的起始点计算电路610的实施方式的流程图。更具体地，在操作710，创建长度N的跟踪阵列T，该阵列的每个元素被设置为指示该元素尚未被初始化的值(例如，-1)。迭代处理开始于操作720。在操作720，模型评分S(t)270被提供用于与当前迭代相关联的音频信号的当前时间分段(由变量t索引)。在操作720，如果阵列T的第一个元素等于-1(即，尚未被初始化)，则利用当前处理的分段索引(t-1)对该元素进行初始化。

在操作730，对于每对连续状态，如果评分针对这些状态被传播，则T阵列中的相应值也被向前传播。只有T阵列的经过初始化的值被传播。在操作740，如果关键短语检测事件275尚未发生，则迭代利用下一个分段索引继续进行到操作720。否则，在操作750，将起始点设置为T阵列的N-1元素。

这些操作可以由下面的伪代码概述：

可以看出，T(0)一直等于-1，因此，只要从S(t,0)到S(t,1)的传播正在进行，就在操作A1.2中用-1覆写T(1)，并且在下一个迭代(操作A1.1)中利用新分段索引重新初始化T(1)。

一旦关键短语处理开始并且从S(t,0)到S(t,1)的传播停止，则T(1)的覆写停止。当S(t,1)评分在后续迭代中在HMM序列中向前传播时，T(1)中存储的最近分段索引t_start开始在T阵列中向前传播。相应地，对于k＝1...N-1，当处理与HMM状态k+1相关联的(子)语音单元时，传播T(k)→T(k+1)停止。

当正在处理的(子)语音单元的序列匹配关键短语模型并且关键短语检测事件发生时，随着状态评分S(t,1)...S(t,N)被传播，分段索引t_start被传播通过跟踪阵列。t_start值没有被最近的分段索引覆写，因为评分传播坚持前面描述的模式。t_start索引与匹配关键短语的(子)语音单元序列的开头相关联。

在关键短语检测事件处，从跟踪阵列T(N-1)读取t_start索引。这是关键短语的估计起始点(操作A1.3)。

图8是示出根据本公开的某些实施例配置的结束点计算电路620的实施方式的流程图。在检测事件已经发生并且识别出起始点之后，结束点计算开始。通过状态序列的迭代以从k＝N开始的降序索引k开始于操作810。在操作820，只要S(t,k)小于S(t,k-1)，就在操作830将T(k)设置为-1，在操作850减小k，并且在操作860，如果k仍然不等于零，则处理利用减小的k值从操作820开始重复。否则，如果在操作820S(t,k)大于或等于S(t,k-1)，则在操作840将T(k-1)传播到T(k)。

在操作870，检查终止条件。如果非负值已经被传播到T(N)(有效分段索引一直为非负值)并且如果S(t,N)是序列中的最大评分，则在操作880确定当前处理的分段是短语的终点。

这些操作可以由下面的伪代码概述：

在估计出起始点(操作A1.3)后，最高评分状态一般位于短语的中间之后(例如，图5的第三行)，并且最高评分状态是对应于当前处理的(子)语音单元的状态。假设m表示这种最高评分状态的索引。当处理关键短语的剩余部分时，m逐步从1增大到N-1。T表跟踪当前的最高评分状态。这在操作A2.1中进行，由于降序评分S(t,m+1)、S(t,m+2)、...S(t,m+2)，该操作确保非负分段索引从T(m)向前传播并且T(j)＝-1(对于j>m+1)。当正在处理关键短语的最后(子)语音单元时(m＝N-1)，则S(t,N-1)和S(t,N)是最高评分(HMM模型中的最大可能性)，所以满足A2.2中的两个条件并且当前处理分段的索引也是估计出的结束点。

试验结果表明，A2.2的第二条件S(t,N)是序列中的最大评分，单独提供令人满意的性能。在HMM评分中，在处理关键短语的最后(子)语音单元时，在大多数情况中这个条件都能被满足。但是，使用跟踪表有助于确保不会太早地确定结束点(直到分数传播继续通过每个状态并且在S(t,N)结束)。这提供了更加鲁棒的方案。

方法

图9是示出根据本公开的某些实施例的用于唤醒语音关键短语的分割的示例方法900的流程图。可以看出，该示例方法包括多个阶段或子处理，这些阶段或子处理的顺序在不同实施例中可以不同。但是，当作为总体考虑时，这些阶段和子处理形成根据本文公开的某些实施例的用于关键短语分割的处理。这些实施例可以例如，使用以上描述的图1至3和图6至8中所示的系统架构实现。但是，根据本公开将显而易见的，在其他实施例中也可以使用其他系统架构。因此，图9所示的各种功能与其他附图中所示的具体组件的关联性不用于暗示任何结构和/或用途上的限制。相反，其他实施例可以包括例如不同程度的集成，其中，多个功能可以由一个系统有效执行。例如，在替代实施例中，具有解耦合的子模块的单个模块可以用来执行方法900的所有功能。因此，取决于实施方式的粒度，其他实施例可以具有更少或更多的模块和/或子模块。在其他实施例中，所描绘的方法可以实现为包括一个或多个非暂态机器可读介质的计算机程序产品，该一个或多个非暂态机器可读介质在被一个或多个处理器执行时使得该方法被执行。根据本公开，多种变形和替代配置将是显而易见的。

如图9所示，在一个实施例中，用于关键短语分割的方法900开始于在操作910对从音频信号的时间分段提取的特征向量进行累加。在一些实施例中，可以从每个时间分段提取一个特征向量，并且可以累加涉及50至200毫秒的音频的5至20个最近的连续特征向量，以提供足够宽的上下文作为对于神经网络声学模型的输入。

接着，在操作920，将神经网络实现为基于所累加的特征向量生成一组声学评分。该组声学评分中的每个声学评分代表与音频信号的当前时间分段相关联的语音单元的可能性。在一些实施例中，神经网络是深度神经网络。

在操作930，将关键短语模型解码器实现为生成评分模型状态序列的进展。每个评分模型状态序列基于与从音频信号的时间分段(在先和当前分段)生成的声学评分组中的相应的一组声学评分相关联的(子)语音单元的检测。在一些实施例中，关键短语模型解码器是隐马尔可夫模型(HMM)解码器。

在操作940，分析评分状态序列的进展，以检测与该进展相关联的模式。在操作950，基于检测的模式与期望的预定模式的对齐，确定用于关键短语的分割的起始点和结束点。

当然，在一些实施例中，可以执行附加操作，如前面结合该系统所描述的。例如，可以基于声学评分组中的声学评分的累加和传播检测关键短语，如前所述，起始点的确定可以基于与关键短语的检测相关联的时间分段。在一些实施例中，可以将起始点和结束点提供给声学波束形成系统、自动语音辨认系统、以及说话人识别系统中的一者或多者。

示例系统

图10示出了根据本公开的某些实施例配置的执行分割中的关键短语检测的示例语音使能设备平台1000。在一些实施例中，平台1000可以容宿或者结合在个人计算机、工作台、服务器系统、智能家庭管理系统、膝上型计算机、超膝上型计算机、平板、触摸板、便携式计算机、手持计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话和PDA、智能设备(例如，智能电话或智能平板)、移动互联网设备(MID)、消息传送设备、数据通信设备、可穿戴设备、嵌入式系统等中。不同设备的任意组合可以用在某些实施例中。

在一些实施例中，平台1000可以包括处理器1020、存储器1030、关键短语检测和分割电路120、音频处理应用电路130、140、150、网络接口1040、输入/输出(I/O)系统1050、用户接口1060、控制系统应用1090、以及存储系统1070的任意组合。可以进一步看出，还提供总线和/或互连1092，以允许以上列出的各种组件和/或没有示出的其他组件之间的通信。平台1000可以通过网络接口1040耦合到网络1094，以允许与其他计算设备、平台、待控制设备、或其他资源通信。图10的框图中没有反映的其他元件和功能根据本公开将是显而易见的，并且将明白的是，其他实施例不限于任何特定的硬件配置。

处理器1020可以是任何适当处理器，并且可以包括一个或多个协处理器或控制器，例如，音频处理器、图形处理单元、或硬件加速器，以帮助控制和处理与平台1000相关联的操作。在一些实施例中，处理器1020可以实现为任何数目的处理器核。处理器(或处理器核)可以为任何类型的处理器，例如，微处理器、嵌入式处理器、数字信号处理器(DSP)、图形处理器(GPU)、网络处理器、现场可编程门阵列、或者被配置为执行代码的其他设备。处理器可以是多线程核，这在于它们可以每个核包括一个以上硬件线程上下文(或“逻辑处理器”)。处理器1020可以实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器。在一些实施例中，处理器1020可以被配置为x86指令集兼容处理器。

存储器1030可以使用任何适当类型的数字存储设备(包括例如闪存和/或随机存取存储器(RAM))实现。在一些实施例中，存储器1030可以包括本领域技术人员已知的存储器层级的各种层和/或高速缓存。存储器1030可以实现为易失性存储器设备，例如但不限于RAM、动态RAM(DRAM)、或静态RAM(SRAM)设备。存储系统1070可以实现为非易失性存储设备，例如但不限于硬盘驱动(HDD)、固态驱动(SSD)、通用串行总线(USB)驱动、光盘驱动、磁带驱动、内部存储设备、附加存储设备、闪存、电池备份同步DRAM(SDRAM)、和/或网络可访问存储设备中的一者或多者。在一些实施例中，存储系统1070可以包括在包括多个硬驱动时增加对于有价值的数字介质的存储性能增强保护的技术。

处理器1020可以被配置为执行操作系统(OS)1080，操作系统1080可以包括任何适当的操作系统，例如谷歌安卓(加利福尼亚州山景城的谷歌公司)、微软Windows(华盛顿州雷德蒙德市的微软公司)、苹果OS X(加利福尼亚州库比蒂诺市的苹果公司)、Linux、或实时操作系统(RTOS)。根据本公开将理解的是，本文提供的技术可以不针对结合平台1000提供的特定操作系统实现，因此也可以使用任何适当的现有或以后开发出的平台实现。

网络接口电路1040可以是任何适当的网络芯片或芯片集，该网络芯片或芯片集允许网络1094和/或设备平台1000的其他组件之间的有线和/或无线连接，从而使得平台1000能够与其他本地和/或远程计算系统、服务器、基于云的服务器、和/或其他资源通信。有线通信可以遵循现有的(或尚未开发出来的)标准，例如，以太网。无线通信可以遵循现有的(或尚未开发出来的)标准，例如，包括LTE(长期演进)的蜂窝通信、无线保真(Wi-Fi)、蓝牙、和/或近场通信(NFC)。示例性无线网络包括但不限于无线局域网、无线个域网、无线城域网、蜂窝网络、和卫星网络。

I/O系统1050可以被配置为在设备平台1000的各种I/O设备和其他组件之间接合(interface)。I/O设备可以包括但不限于用户接口1060和控制系统应用1090。用户接口1060可以包括诸如麦克风(或麦克风阵列)、扬声器、显示器元件、触摸板、键盘、和鼠标等的设备(未示出)。I/O系统1050可以包括图形子系统，该图形子系统被配置为执行图像处理以用于在显示元件上渲染。图形子系统可以是例如图形处理单元或视觉处理单元(VPU)。模拟或数字接口可以用来通信地耦合图形子系统和显示元件。例如，接口可以是高清晰度多媒体接口(HDMI)、显示端口、无线HDMI、和/或使用无线高清晰度兼容技术的任何其他适当接口中的任意接口。在一些实施例中，图形子系统可以集成到平台1000的处理器1020或任何芯片集中。控制系统应用1090可以被配置为基于在ASR电路140辨认出的唤醒语音关键短语之后说出的命令或请求执行动作。

将明白的是，在一些实施例中，平台1000的各种组件可以结合或集成在片上系统(SoC)架构中。在一些实施例中，这些组件可以是硬件组件、固件组件、软件组件、或者硬件、固件、或软件的任意适当组合。

如前所述，关键短语检测和分割电路120被配置为检测用户说出的唤醒语音关键短语并确定分割该关键短语的起始点和结束点。关键短语检测和分割电路120可以包括以上所述的图2、3、和6-8所示的任意或所有电路/组件。这些组件可以实现在各种适当软件和/或硬件中或者结合各种适当软件和/或硬件使用，这些软件和/或硬件耦合到平台1000或者形成平台1000的一部分。这些组件可以附加或者替代地实现在用户I/O设备中或者结合用户I/O设备使用，这些用户I/O设备能够向用户提供信息并且从用户接收信息和命令。

在一些实施例中，这些电路可以安装在平台1000本地，如图10的示例实施例中所示。替代地，平台1000可以实现在客户端-服务器布置中，其中，与这些电路相关联的至少一些功能是使用小应用程序(例如JavaScript小应用程序)或者其他可下载模块或子模块集提供给平台1000的。这些远程可访问的模块或子模块可以响应于来自客户端计算系统的访问具有客户端计算系统的用户感兴趣的资源的给定服务器的请求被实时提供。在这些实施例中，服务器可以在网络1094本地，或者通过一个或多个其他网络和/或通信信道远程耦合到网络1094。在一些情况中，对于给定网络或计算系统上的资源的访问可能需要诸如用户名、密码的凭证，和/或需要遵循任何其他适当的安全机制。

在各种实施例中，平台1000可以实现为无线系统、有线系统、或者它们二者的组合。当实现为无线系统时，平台1000可以包括适合用于在无线共享介质上进行通信的组件和接口，例如，一个或多个天线、收发机、接收机、发射机、放大器、滤波器、控制逻辑等。无线共享介质的示例可以包括无线频谱的部分，例如，射频频谱等。当实现为有线系统时，平台1000可以包括适合用于在有线通信介质上进行通信的组件和接口，例如，输入/输出适配器、连接输入/输出适配器和相应的有线通信介质的物理连接器、网络接口卡(NIC)、盘控制器、视频控制器、音频控制器等。有线通信介质的示例可以包括电线、线缆金属引线、印刷电路板(PCB)、背板、交换结构、半导体材料、双绞线、同轴电缆、光纤等。

各种实施例可以使用硬件元件、软件元件、或者它们二者的组合实现。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、电感器等)、集成电路、ASIC、可编程逻辑器件、数字信号处理器、FPGA、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片集等。软件的示例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、进程、软件接口、应用程序接口、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号、或它们的任意组合。确定实施例是否是使用硬件元件和/或软件元件实现可以根据任意数目的因素改变，这些因素例如是期望计算速率、功率等级、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度、以及其他设计或性能约束。

可以使用表达“耦合”和“连接”以及它们的衍生词描述一些实施例。这些术语不用于彼此的同义词。例如，可以使用术语“连接”和/或“耦合”描述一些实施例以指示两个以上元件彼此直接物理或电接触。但是，术语“耦合”也可以表示两个以上元件彼此不直接接触但是仍然相互协作或交互。

本文公开的各种实施例可以实现在各种形式的硬件、软件、固件、和/或专用处理器中。例如，在一个实施例中，至少一种非暂态计算机可读存储介质上编码有指令，这些指令在被一个或多个处理器执行时使得本文公开的一种或多种关键短语分割方法被实现。可以使用适当的编程语言来编码指令，这些编程语言例如是C、C++、面向对象的C、Java、JavaScript、Visual Basic.NET、初学者通用符号指令代码(BASIC)，或者可以替代地使用定制或专用指令集来编码指令。可以通过一个或多个计算机软件应用和/或小应用程序的形式提供这些指令，这些计算机软件应用和/或小应用程序有形地具体化在存储器设备上并且可以由具有任何适当架构的计算机执行。在一个实施例中，系统可以容宿在给定网站上，并且可以使用例如JavaScript或其他适当的基于浏览器的技术来实现。例如，在某些实施例中，系统可以利用经由网络1094可访问的远程计算机系统提供的处理资源。在其他实施例中，本文公开的功能可以结合在其他语音使能设备或基于语音的软件应用(例如，自动控制/导航、智能家庭管理、娱乐、和机器人应用)中。本文公开的计算机软件应用可以包括任意数目的不同模块、子模块、或不同功能的其他组件，并且可以向其他组件提供信息或从其他组件接收信息。这些模块可以用来例如与诸如显示屏、触敏表面、打印机、和/或任何其他适当设备的输入和/或输出设备通信。附图中没有反映的其他组件和功能根据本公开将显而易见，并且将明白的是，其他实施例不限于任何特定硬件或软件配置。因此，在其他实施例中，相比图10的示例实施例中包括的子组件，平台1000可以包括附加、更少、或替代的子组件。

前述非暂态计算机可读介质可以是用于存储数字信息的任何适当介质，例如，硬驱动、服务器、闪存、和/或随机存取存储器(RAM)、或存储器的组合。在替代实施例中，本文公开的组件和/或模块可以利用包括门级逻辑(例如，现场可编程门阵列(FPGA)的硬件或者诸如专用集成电路(ASIC)的专用半导体实现。其他实施例可以利用具有用于接收和输出数据的多个输入/输出端口以及用于执行本文公开的各种功能的多个嵌入例程的微控制器实现。将明白的是，可以使用硬件、软件、和固件的任意适当组合，并且其他实施例不限于任何特定系统架构。

一些实施例可以例如使用存储指令或指令集的机器可读介质或物品实现，其中，该指令或指令集在被机器执行时可以使得机器执行根据实施例的方法、处理、和/或操作。这种机器可以包括例如任何适当的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理等，并且可以使用硬件和/或软件的任意适当组合实现。机器可读介质或物品可以包括例如任何适当类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质和/或存储单元，例如存储器、可移除或不可移除介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、压缩盘只读存储器(CD-ROM)、压缩盘可记录(CD-R)存储器、压缩盘可重写(CD-RW)存储器、光盘、磁介质、磁光介质、可移除存储卡或盘、各种类型的数字通用盘(DVD)、磁带、磁盒等。指令可以包括使用任何适当的高级、低级、面向对象、视觉、汇编、和/或解析编程语言实现的任何适当类型的代码，例如，源代码、汇编代码、解析代码、可执行代码、静态代码、动态代码、加密代码等。

除非明确指出，否则可以明白的是，诸如“处理”、“计算”、“运算”、“确定”等的术语指代计算机或计算系统或类似电子计算设备的动作和/或处理，该计算机或计算系统或类似电子计算设备将计算机系统的寄存器和/或存储器单元中表示为物理量(例如，电子的)的数据操控和/或变换为计算机系统的寄存器、存储器单元、或其他这种信息存储传输或显示器中类似地表示为物理实体的其他数据。实施例不限于本上下文。

本文中的任意实施例中使用的术语“电路”或“电路系统”是功能性的并且可以包括例如单独或组合的硬连线电路、可编程电路(例如，包括一个或多个单独指令处理核的计算机处理器)、状态机电路、和/或存储可编程电路执行的指令的固件。电路可以包括被配置为执行一个或多个指令以执行本文描述的一个或多个操作的处理器和/或控制器。指令可以被具体化为例如被配置为使得电路执行任意前述操作的应用、软件、固件等。软件可以被具体化为记录在计算机可读存储设备的软件包、代码、指令、指令集、和/或数据。软件可以被具体化或实现为包括任意数目的处理，并且这些处理又可以被具体化或实现为包括层级方式的任意数目的线程。固件可以被具体化为硬编码(例如，非易失性)在存储器设备中的代码、指令或指令集、和/或数据。电路可以统一或单独被具体化为形成更大的系统(例如，集成电路(IC)、专用集成电路(ASIC)、片上系统(SoC)、桌面型计算机、膝上型计算机、平板计算机、服务器、智能电话等)的部分的电路。其他实施例可以实现为可编程控制设备执行的软件。在这些情况中，术语“电路”或“电路系统”意欲包括诸如可编程控制设备或能够执行软件的处理器的软件和硬件的组合。如本文描述的，各种实施例可以使用硬件元件、软件元件、或者它们的任意组合实现。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片集等。

已经给出很多具体细节，以提供对于实施例的透彻理解。但是，本领域普通技术人员将理解的是，实施例可以在没有这些具体细节的条件下实施。在其他实例中，没有详细描述公知操作、组件、和电路，以避免模糊实施例。可以明白的是，本文公开的具体结构和功能细节可以是说明性的，而不一定限制实施例的范围。另外，尽管已经用结构特征和/或方法动作专用的语言描述了主题，但是将理解的是，所附权利要求中限定的主题不一定限于本文描述的具体特征或动作。相反，本文描述的具体特征和动作被作为实现权利要求的示例形式公开。

进一步的示例实施例

下面的示例涉及进一步的实施例，根据这些实施例很多排列和配置将显而易见。

示例1是一种用于关键短语分割的方法，该方法包括：由神经网络基于特征向量的累加生成一组声学评分，所述特征向量是从音频信号的时间分段提取的，所述一组声学评分中的每个声学评分代表与时间分段相关联的语音类别的可能性；由关键短语模型解码器生成评分模型状态序列的进展，每个评分模型状态序列基于与从音频信号的时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测；由关键短语分割电路分析评分状态序列的进展，以检测与该进展相关联的模式；以及由关键短语分割电路基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。

示例2包括示例1的主题，还包括：基于声学评分组中的声学评分的累加和传播，检测关键短语。

示例3包括示例1或2的主题，其中，起始点的确定进一步基于与关键短语的检测相关联的时间分段之一。

示例4包括示例1至3中任一项的主题，其中，神经网络是深度神经网络，并且关键短语模型解码器是隐马尔可夫模型解码器。

示例5包括示例1至4中任一项的主题，其中，语音类别是语音单元、子语音单元、三音素状态、以及单因素状态中的至少一者。

示例6包括示例1至5中任一项的主题，还包括：将起始点和结束点提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者。

示例7包括示例1至6中任一项的主题，其中，神经网络、关键短语模型解码器、以及关键短语分割电路中的每一者是利用一个或多个处理器执行的指令实现的。

示例8是一种关键短语分割系统，该系统包括：特征提取电路，该特征提取电路从音频信号的时间分段提取特征向量；累加电路，该累加电路对所提取的特征向量中的选定数目的特征向量进行累加；声学模型评分神经网络，该声学模型评分神经网络基于所累加的特征向量生成一组声学评分，所述一组声学评分中的每个声学评分代表与时间分段相关联的语音类别的可能性；关键短语模型评分电路，该关键短语模型评分电路生成评分模型状态序列的进展，每个评分模型状态序列基于与从音频信号的时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测；以及关键短语分割电路，该关键短语分割电路分析评分状态序列的进展以检测与该进展相关联的模式，并基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。

示例9包括示例8的主题，其中，关键短语模型评分电路还基于声学评分组中的声学评分的累加和传播检测关键短语。

示例10包括示例8或9的主题，其中，起始点的确定进一步基于与关键短语的检测相关联的时间分段之一。

示例11包括示例8至10中任一项的主题，其中，声学模型评分神经网络是深度神经网络，并且关键短语模型评分电路实现隐马尔可夫模型解码器。

示例12包括示例8至11中任一项的主题，其中，语音类别是语音单元、子语音单元、三音素状态、和单音素状态中的至少一者。

示例13包括示例8至12中任一项的主题，其中，特征提取电路、累加电路、声学模型评分神经网络、关键短语模型评分电路、以及关键短语分割电路中的每一者是利用一个或多个处理器执行的指令实现的。

示例14是至少一种非暂态计算机可读存储介质，其上编码有指令，这些指令在被一个或多个处理器执行时使得用于关键短语分割的处理被执行，所述处理包括：对从音频信号的时间分段提取的特征向量进行累加；基于所累加的特征向量生成一组声学评分，所述一组声学评分中的每个声学评分代表与时间分段相关联的语音类别的可能性；生成评分模型状态序列的进展，每个评分模型状态语音单元基于与从音频信号的时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测；分析评分状态序列的进展，以检测与该进展相关联的模式；以及基于检测模式与期望模式的对齐，确定用于关键短语的分割的起始点和结束点。

示例15包括示例14的主题，所述处理还包括：基于声学评分组中的声学评分的累加和传播，检测关键短语。

示例16包括示例14或15的主题，其中，起始点的确定进一步基于与关键短语的检测相关联的时间分段之一。

示例17包括示例14至16中任一项的主题，其中，所述一组声学评分由深度神经网络生成，并且评分模型状态序列的进展是使用隐马尔可夫模型解码器生成的。

示例18包括示例14至17中任一项的主题，其中，语音类别是语音单元、子语音单元、三音素状态、和单因素状态中的至少一者。

示例19包括示例14至18中任一项的主题，所述处理还包括：将起始点和结束点提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者。

示例20包括示例14至19中任一项的主题，所述处理还包括：缓存音频信号并将所缓存的音频信号提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者，其中，所缓存的音频信号的持续时间在2至5秒范围内。

示例21包括示例14至20中任一项的主题，所述处理还包括：缓存特征向量并将所缓存的特征向量提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者，其中，所缓存的特征向量对应于音频信号的2至5秒范围内的持续时间。

示例22是一种用于关键短语分割的系统，该系统包括：用于由神经网络基于特征向量的累加生成一组声学评分的装置，所述特征向量是从音频信号的时间分段提取的，所述一组声学评分中的每个声学评分代表与时间分段相关联的语音类别的可能性；用于由关键短语模型解码器生成评分模型状态序列的进展的装置，每个评分模型状态序列基于与从音频信号的时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测；用于由关键短语分割电路分析评分状态序列的进展，以检测与该进展相关联的模式的装置；以及用于由关键短语分割电路基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点的装置。

示例23包括示例22的主题，还包括：用于基于声学评分组中的声学评分的累加和传播，检测关键短语的装置。

示例24包括示例22或23的主题，其中，起始点的确定进一步基于与关键短语的检测相关联的时间分段之一。

示例25包括示例22至24中任一项的主题，其中，神经网络是深度神经网络，并且关键短语模型解码器是隐马尔可夫模型解码器。

示例26包括示例22至25中任一项的主题，其中，语音类别是语音单元、子语音单元、三音素状态、以及单因素状态中的至少一者。

示例27包括示例22至26中任一项的主题，还包括：用于将起始点和结束点提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者的装置。

示例28包括示例22至27中任一项的主题，其中，神经网络、关键短语模型解码器、以及关键短语分割电路中的每一者是利用一个或多个处理器执行的指令实现的。

示例29包括示例22至28中任一项的主题，还包括：用于缓存音频信号并将所缓存的音频信号提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者的装置，其中，所缓存的音频信号在2至5秒范围内。

示例30包括示例22至29中任一项的主题，还包括：用于缓存特征向量并将所缓存的特征向量提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者的装置，其中，所缓存的特征向量对应于音频信号的2至5秒范围内的持续时间。

本文中采用的术语和表达被用作描述性而非限制性的术语，并且在使用这些术语和表达时不希望排除所示出和描述的特征的任何等同(或其部分)，并且认识到各种修改可以在权利要求的范围内。相应地，希望权利要求覆盖所有等同。本文描述了各种特征、方面、和实施例。这些特征、方面、和实施例容易相互组合以及与变形和改变组合，如本领域技术人员将理解的。因此，应该认为本公开覆盖这些组合、变形、和修改。希望本公开的范围不受详细描述限制，而受所附权利要求限制。请求该申请的优先权的未来递交的申请可以通过不同方式请求保护所公开的主题，并且一般可以包括本文中各种公开或表明的一个或多个元件的任意集合。

Claims

1.一种用于关键短语分割的方法，该方法包括：

由神经网络基于特征向量的累加生成一组声学评分，所述特征向量是从音频信号的时间分段提取的，所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性；

由关键短语模型解码器生成评分模型状态序列的进展，所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测；

由关键短语分割电路分析评分状态序列的所述进展，以检测与所述进展相关联的模式；以及

由所述关键短语分割电路基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。

2.如权利要求1所述的方法，还包括：基于所述声学评分组中的声学评分的累加和传播，检测所述关键短语。

3.如权利要求2所述的方法，其中，所述起始点的确定进一步基于与所述关键短语的检测相关联的所述时间分段之一。

4.如权利要求1-3中任一项所述的方法，其中，所述神经网络是深度神经网络，并且所述关键短语模型解码器是隐马尔可夫模型解码器。

5.如权利要求1-3中任一项所述的方法，其中，所述语音类别是语音单元、子语音单元、三音素状态、以及单因素状态中的至少一者。

6.如权利要求1-3中任一项所述的方法，还包括：将所述起始点和所述结束点提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者。

7.如权利要求1-3中任一项所述的方法，其中，所述神经网络、关键短语模型解码器、以及关键短语分割电路中的每一者是利用一个或多个处理器执行的指令实现的。

8.一种关键短语分割系统，该系统包括：

特征提取电路，所述特征提取电路从音频信号的时间分段提取特征向量；

累加电路，所述累加电路对所提取的特征向量中的选定数目的特征向量进行累加；

声学模型评分神经网络，所述声学模型评分神经网络基于所累加的特征向量生成一组声学评分，所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性；

关键短语模型评分电路，所述关键短语模型评分电路生成评分模型状态序列的进展，所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测；以及

关键短语分割电路，所述关键短语分割电路分析评分状态序列的所述进展以检测与所述进展相关联的模式，并基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。

9.如权利要求8所述的系统，其中，所述关键短语模型评分电路还基于所述声学评分组中的声学评分的累加和传播检测所述关键短语。

10.如权利要求9所述的系统，其中，所述起始点的确定进一步基于与所述关键短语的检测相关联的所述时间分段之一。

11.如权利要求10所述的系统，其中，所述声学模型评分神经网络是深度神经网络，并且所述关键短语模型评分电路实现隐马尔可夫模型解码器。

12.如权利要求8-11中任一项所述的系统，其中，所述语音类别是语音单元、子语音单元、三音素状态、和单音素状态中的至少一者。

13.如权利要求8-11中任一项所述的状态，其中，所述特征提取电路、累加电路、声学模型评分神经网络、关键短语模型评分电路、以及关键短语分割电路中的每一者是利用一个或多个处理器执行的指令实现的。

14.至少一种非暂态计算机可读存储介质，其上编码有指令，所述指令在被一个或多个处理器执行时使得用于关键短语分割的处理被执行，所述处理包括：

对从音频信号的时间分段提取的特征向量进行累加；

基于所累加的特征向量生成一组声学评分，所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性；

生成评分模型状态序列的进展，每个评分模型状态语音单元基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测；

分析评分状态序列的所述进展，以检测与所述进展相关联的模式；以及

基于检测模式与期望模式的对齐，确定用于关键短语的分割的起始点和结束点。

15.如权利要求14所述的计算机可读存储介质，所述处理还包括：基于所述声学评分组中的声学评分的累加和传播，检测所述关键短语。

16.如权利要求15所述的计算机可读存储介质，其中，所述起始点的确定进一步基于与所述关键短语的检测相关联的所述时间分段之一。

17.如权利要求14-16中任一项所述的计算机可读存储介质，其中，所述一组声学评分由深度神经网络生成，并且评分模型状态序列的所述进展是使用隐马尔可夫模型解码器生成的。

18.如权利要求14-16中任一项所述的计算机可读存储介质，其中，所述语音类别是语音单元、子语音单元、三音素状态、和单因素状态中的至少一者。

19.如权利要求14-16中任一项所述的计算机可读存储介质，所述处理还包括：将所述起始点和所述结束点提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者。

20.如权利要求19所述的计算机可读存储介质，所述处理还包括：缓存所述音频信号并将所缓存的音频信号提供给所述声学波束形成系统、所述声学语音辨认系统、所述说话人识别系统、所述文本相关说话人识别系统、所述情绪辨认系统、所述性别检测系统、所述年龄检测系统、以及所述噪声估计系统中的至少一者，其中，所缓存的音频信号的持续时间在2至5秒范围内。

21.如权利要求19所述的计算机可读存储介质，所述处理还包括：缓存所述特征向量并将所缓存的特征向量提供给所述声学波束形成系统、所述自动语音辨认系统、所述说话人识别系统、所述文本相关说话人识别系统、所述情绪辨认系统、所述性别检测系统、所述年龄检测系统、以及所述噪声估计系统中的至少一者，其中，所缓存的特征向量对应于所述音频信号的2至5秒范围内的持续时间。

22.一种用于关键短语分割的装置，该装置包括：

用于基于特征向量的累加生成一组声学评分的装置，所述特征向量是从音频信号的时间分段提取的，所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性；

用于生成评分模型状态序列的进展的装置，所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测；

用于分析评分状态序列的所述进展，以检测与所述进展相关联的模式的装置；以及

用于基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点的装置。

23.如权利要求22所述的装置，还包括：用于基于所述声学评分组中的声学评分的累加和传播，检测所述关键短语的装置。

24.如权利要求23所述的装置，其中，所述起始点的确定进一步基于与所述关键短语的检测相关联的所述时间分段之一。

25.如权利要求22-24中任一项所述的装置，其中，用于生成所述一组声学评分的装置包括深度神经网络，并且用于生成评分模型状态序列的所述进展的装置包括隐马尔可夫模型解码器。