CN102194454B

CN102194454B - 用于检测连续语音中的关键词的设备和方法

Info

Publication number: CN102194454B
Application number: CN2010101199955A
Authority: CN
Inventors: 李鹏; 郭庆; 王彬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-03-05
Filing date: 2010-03-05
Publication date: 2012-11-28
Anticipated expiration: 2030-03-05
Also published as: CN102194454A

Abstract

本发明涉及语音关键词检测设备和方法，该设备包括：输入装置，其输入连续语音；识别装置，其从连续语音中识别候选关键词，并给出相应的置信度，并且识别连续语音中包括的作为音子或音节的填充音；韵律特征提取装置，其提取与特定相邻填充音相关的韵律特征；韵律词边界确定装置，其根据韵律特征来确定特定相邻填充音之间的边界为韵律词边界的概率；置信度调整装置，其当与候选关键词对应的语音片段所包括的特定相邻填充音之间的边界为韵律词边界的概率越高时，将候选关键词的置信度调整得越小；判决装置，其判决调整后的候选关键词的置信度是否高于预先设定的阈值；以及输出装置，将调整后的置信度高于预先设定的阈值的候选关键词作为关键词输出。

Description

用于检测连续语音中的关键词的设备和方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种用于检测连续语音中的关键词的设备和方法。

背景技术

在人类的各种交流方式中，语音无疑占据着最重要的地位。从上世纪中叶计算机发明以来，随着其进入日常生活领域，人们希望能以语音作为人机交互的手段。与键盘、鼠标、按键、触摸等输入手段和显示器、打印机等输出手段相比，通过语音进行交互对用户来说更为方便和友好。从信息的流向划分，语音人机交互由两部分组成，一是计算机将人类的自然语言识别为可以处理的信息，二是计算机将返回信息转换为自然易懂的语音并输出。前者称为语音识别，后者称为语音合成。在计算机技术和人工智能学科的支持下，语音识别技术的研究在近二三十年间取得了长足的发展，并逐渐得到了应用。

按照工作方式，语音识别可以分为几大类。第一类是孤立词识别，只能识别单个输入的单词，常见于手机的语音拨号等应用。第二类是基于限定句型的识别，通过模板或有限状态图预先定义出所有可能的句子，从中找出与输入语音最相像的作为识别结果。这种技术多应用于特定领域的语音识别中。第三类是大词表连续语音识别，对输入语音的内容不做任何限制，并且将全部语音识别为文字。虽然理论上这种技术的应用应该最为广泛，但由于技术上面临很多还没有得到很好解决的问题，限制了其应用。最后一类就是本发明涉及的检测连续语音中的关键词。连续语音中的关键词检测与大词表连续语音识别的相同点在于不限制语音的内容；不同点在于它并不识别出所有内容，而是仅仅检测出语音中是否出现了预先定义的单词(亦即关键词)，并给出它们在语音中的位置。

关键词检测的结果中包含两个类型的错误。第一种称为误报(falsealarm，FA)，是指输入语音中的对应位置并不存在检出的关键词；第二种称为误拒(false rejection，FR)，是指输入语音中的关键词没有被检出。关键词检测系统的结果中，每个关键词都有一个对应的置信度，用以量化该检出是正确的可能性。置信度可以理解为关键词与对应的语音片段的相似程度，一般用关键词模型和参考模型的对数似然比或者关键词模型的后验概率来表示，它们又都基于声学模型的打分，细节可参照Hui Jiang的“Confidence measure for speech recognition：A survey[J]”，SpeechCommunication 45(2005)455-470。关键词检测系统预先设定一个接收阈值，只输出置信度大于该阈值的关键词。通过调节该阈值，可以平衡FA和FR两类错误。阈值越高，则FA越低，FR越高；反之，阈值越低，则FA越高，FR越低。

一般来讲，越短的关键词越容易被错误检出，这是因为短词更容易在连续语音中找到相似的语音片段。以中文为例，在相同接收阈值下，2字词误报率比3字词高若干倍，而4字及以上词则基本不会被误报。对于一个给定的阈值，短词会有较高的FA错误和较低的FR错误，而长词则相反。

在Sunil K.Gupta和Frank K.Soong的“Improved utterancerejection using length dependent thresholds[C]”，Proceedings ofInternational Conference on Spoken Language Processing，Sydney，1998：1040-1043中，公开了一种对不同时间长度的语音分段设定接收阈值的方法。在D.Jouvet，K.Bartkova和G.Mercier的“Hypothesis dependentthreshold setting for improved out-of-vocabulary data rej ection[C]”，Proceedings of International Conference on Acoustics，Speech，and SignalProcessing，Phoenix，1999：709-712中公开了一种类似的方法，对不同长度的单词(按其中包含的音节个数计算)设定不同的接收阈值。在发明人为Kwok Leung Lam等、名称为“System and method for utteranceverification of Chinese long and short keywords”的美国专利申请US2006/0074664A1中公开了一种为每一个关键词分别计算接收阈值的方法。相对于采用单一的阈值，以上这些方法都能降低系统的平均错误率。

但是，以上方法都是通过调节接收阈值来降低错误率的，而问题的本质在于传统方法只使用声学模型打分计算出的置信度本身并不可靠。一些误报的单词往往横跨语音中的两个词的边界，比如输入语音“我买两张《叶问》的票”中的“张叶”被误检出为关键词“张义”，并且具有较高的置信度。如果能够获得句子的分词信息，已知“张叶”对应的语音片段属于两个单词，则可以避免此类误报。上述方法都没有解决这个问题。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。但是，应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分，也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念，以此作为稍后给出的更详细描述的前序。

鉴于现有技术的上述情形，本发明的目的是提供一种用于检测连续语音中的关键词的设备和方法，其能够克服上述现有技术的缺点和不足，以降低语音关键词检测的误报率。

为了实现上述目的，根据本发明的一方面，提供了一种用于检测连续语音中的关键词的设备，其包括：输入装置，用于输入连续语音；识别装置，用于从所述输入装置输入的所述连续语音中识别候选关键词，并给出相应的置信度，并且识别所述连续语音中包括的填充音，其中，所述填充音是所述连续语音中包括的音子或音节；韵律特征提取装置，用于提取与所述连续语音中包括的特定相邻填充音相关的韵律特征；韵律词边界确定装置，用于根据所述韵律特征提取装置提取的所述韵律特征，确定所述连续语音中包括的特定相邻填充音之间的边界为韵律词边界的概率；置信度调整装置，用于当所述韵律词边界确定装置确定的所述连续语音中与所述候选关键词对应的语音片段所包括的特定相邻填充音之间的边界为韵律词边界的概率越高时，将所述识别装置识别的所述候选关键词的置信度调整得越小；判决装置，用于判决调整后的所述候选关键词的置信度是否高于预先设定的阈值；以及输出装置，将调整后的置信度高于预先设定的阈值的所述候选关键词作为关键词输出。

根据本发明的另一方面，还提供了一种用于检测连续语音中的关键词的方法，其包括如下步骤：接收输入的连续语音；从输入的所述连续语音中识别候选关键词，并给出相应的置信度，并且识别所述连续语音中包括的填充音，其中，所述填充音是所述连续语音中包括的音子或音节；提取与所述连续语音中包括的特定相邻填充音相关的韵律特征；根据提取的所述韵律特征，确定所述连续语音中包括的特定相邻填充音之间的边界为韵律词边界的概率；当确定的所述连续语音中与所述候选关键词对应的语音片段所包括的特定相邻填充音之间的边界为韵律词边界的概率越高时，将识别的所述候选关键词的置信度调整得越小；判决调整后的所述候选关键词的置信度是否高于预先设定的阈值；以及将调整后的置信度高于预先设定的阈值的所述候选关键词作为关键词输出。

根据本发明的另一方面，还提供了用于实现上述检测连续语音中的关键词的方法的计算机程序产品。

根据本发明的另一方面，还提供了计算机可读介质，其上记录有用于实现上述检测连续语音中的关键词的方法的计算机程序代码。

在本发明的上述技术方案中，通过调整候选关键词的置信度，可以消除部分被错误检出的关键词，从而提高关键词检测的准确度。

附图说明

本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1示出了根据本发明实施例的用于检测连续语音中的关键词的设备的框图；

图2具体示出了图1所示的识别装置120的结构的框图；以及

图3示出了根据本发明实施例的用于检测连续语音中的关键词的方法的流程图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其它元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其它细节。同时应注意，为了描述方便，下文以汉语关键词检测为例对本方明的实施例进行说明，但本发明并不限于汉语，而是可以应用于其他语言的关键词检测。

发明人通过实验和观察认识到，在关键词检测系统中，一些误报的关键词对应的语音片段实际上跨越两个单词的边界。传统的基于声学模型打分的置信度往往不能反应出这一现象。从语言学角度讲，人说话时会将一句话切分成若干韵律词，每个韵律词由一到多个单词组成，以汉语为例，超过95％的韵律词包含1-4个汉字(参见Qing Guo，Jie Zhang，NobuyukiKatae的“Prosodic word grouping with global probability estimationmethod[C]”，Proceedings of Fourth Conference on Speech Prosody，Campinas，2008)。在韵律词边界处的发音，会有一些特殊的声学现象，如短暂停顿、发音拉长等。发明人相应认识到，利用这些声学现象检测出韵律词的边界，则可以消除上述跨越词边界的误报错误。

下面参照附图详细描述根据本发明实施例的用于检测连续语音中的关键词的设备。

图1示出了根据本发明实施例的用于检测连续语音中的关键词的设备的框图。

如图1所示，用于检测连续语音中的关键词的设备(以下称之为“语音关键词检测设备”)100包括输入装置110、识别装置120、韵律特征提取装置130、韵律词边界确定装置140、置信度调整装置150、判决装置160和输出装置170。

输入装置110用于输入连续语音。输入的连续语音是任意一个说话的人连续的不限长度的语音。语音可以是麦克风采集的实时语音流，也可以是事先采集好存储在存储介质上的文件。

识别装置120用于从输入装置110输入的连续语音中识别候选关键词，并给出相应的置信度，并且识别连续语音中包括的填充音。

可以通过已知技术识别输入的连续语音中的候选关键词，并给出相应的置信度，同时识别连续语音中包括的填充音。下面将根据图2进行举例说明。然而应当明白，可采用的方法不限于所示的例子。

图2具体示出了图1所示的识别装置120的结构的框图。

如图2所示，识别装置120包括特征提取装置210、识别网络生成装置220和解码装置230。

特征提取装置210对输入的连续语音进行特征提取。特征提取的一般流程是，首先对语音加25ms的窗，窗内语音称为1帧。每次将窗口向前滑动10ms左右，通过数字信号处理技术逐帧地提取语音特征，得到一系列特征向量。常用的语音特征包括MFCC(Mel Frequency CepstralCoefficients)、LPC(Linear Prediction Coefficients)、PLP(PerceptionalLinear Prediction)、归一化能量、基频以及它们的1阶、2阶差分等。还可以使用LDA(Linear Discriminate Analysis)等技术对特征进行变换、压缩。以上都是本领域内众所周知的技术，这里不再详细描述。在本实施例中采用常见的39维特征，即12维的PLP加上归一化能量，再加上它们的一阶和二阶差分。

识别网络生成装置220将关键词列表(未示出)转换为解码装置230使用的识别网络的形式。关键词列表给出了用户定义的需要检出的所有关键词，以及其对应的声学模型表示。以汉语为例，一般使用声母和韵母作为声学模型的基本单元，则关键词列表的格式如下例所示：

识别网络生成装置220将列表中的关键词展开为以声学模型基本单元为节点，节点之间以弧连接的网络形式，这个网络称为关键词网络。关键词网络中从起点到终点的每一条路径对应着一个关键词。同时，还将生成一个填充音网络，其中每一条路径对应着一个填充音(filler)。一个填充音可以是一个音子(例如，汉语中的声韵母)，也可以是一个音节。这两个网络的例子可以参考Igor Szoke等的“Comparison of keywordspotting approaches for informal continuous speech[C]”，Proceedings ofEuropean Conference on Speech Communication and Technology，Lisbon，2005。

解码装置230使用Viterbi算法在关键词网络和填充音网络上对特征提取装置210提取的声学特征进行搜索，从中识别预先定义的候选关键词。在开始解码之前，需要先输入识别网络和声学模型(未示出)。声学模型用于对输入的特征进行声学打分。声学模型需要事先由大量数据利用工具训练得到，本实施例中的声学模型使用开源工具包HTK训练得到。有关HTK的细节可以参考S.Young等的“The HTK Book Version 3.4.1”，Cambridge University Press，2009。

在解码过程中，填充音网络起到两个作用。一是通过将非关键词部分语音识别为填充音，达到过滤语音中非关键词的目的。二是在关键词部分，将其声学得分作为参考，以获得候选关键词的置信度。例如：输入语音为“请问水立方怎么走”，以声韵母为填充音，则识别出的一种可能结果为“q in w ei(sp)sh uil i f an z en m o z ou”。在关键词网络上，解码装置也识别出了候选关键词“水立方”。候选关键词的置信度可以使用关键词声学模型和对应的填充音模型的对数似然比或者关键词模型的后验概率取得。以对数似然比为例，候选关键词KW的置信度用如下公式计算：

{CM}_{KW} = \log \frac{L (O | θ_{kw})}{L (O | θ_{F})}

其中，L(·)为似然度函数，O为候选关键词对应的语音片段的特征，θ_kw为关键词的声学模型，θ_F为对应的填充音的声学模型。因为Viterbi搜索以最大似然为准则，并且填充音网络对搜索路径的限制小于关键词网络，所以L(O|θ_F)总是不小于L(O|θ_KW)，即置信度不大于0。

除了识别语音中的候选关键词外，解码过程中还生成填充音的识别结果，例如上文提到的“q in w ei(sp)sh uil i fan zen mozou”。其中的“sp”表示语音中的短暂停顿，一般持续几十毫秒或稍长。结果中还包含了每个声学模型单元(汉语中为声韵母)所占的时长。

回到图1，韵律特征提取装置130提取与连续语音中包括的特定相邻填充音相关的韵律特征。具体地，韵律特征提取装置130以填充音识别结果作为输入，在识别出的每个韵母和相邻的下一个声母之间，也就是字与字之间，提取若干个韵律特征。参照C.W.Wightman，M.0stendorf的“Automatic recognition of prosodic phrases[C]”，Proceedings ofInternational Conference on Acoustics，Speech，and Signal Processing，Toronto，1991：321-324。本实施例中提取下述4个特征：短暂停顿的时长、前字的发音拉长度、后字的发音拉长度、语速变化量。

短暂停顿是指单词之间几十毫秒或稍长的发音停顿，其数值可以直接由识别结果中的sp的时长获得。如果两个字之间没有sp，则短暂停顿的时长为0。

对于汉语而言，一个字发音的长度是由其韵母部分发音的长度决定的，因此前字发音的拉长度可以用它的韵母的发音拉长度代替，其计算公式为：

\overset{&OverBar;}{d} = \frac{d - μ_{j}}{σ_{j}}

其中d是前字韵母的发音时长，μ_j和σ_j是由训练语料统计得到的该韵母的发音时长的均值和标准差，

是前字韵母的发音拉长度，其数值越大，则表示该韵母的发音拉长越明显。如果同一使用者的数据较多，还可以先对上述均值和方差做自适应，以使其适应使用者的语速。

后字发音的拉长度与前字发音的拉长度的计算方法相同，不再重述。

语速变化量用当前位置之前的3个字的平均时长和之后的3个字的平均时长的差表示。

将上述4个数值组成一个4维的特征向量，作为韵律特征提取装置130的输出。

应当注意，虽然在上述实施例中采用了上述4个韵律特征，但是本领域的技术人员应当清楚，韵律特征提取装置130可以提取部分上述韵律特征，或者还可以提取其他任意有助于确定韵律词边界的韵律特征。

韵律词边界确定装置140根据韵律特征提取装置130提取的韵律特征，确定连续语音中包括的特定相邻填充音之间的边界为韵律词边界的概率。仍举上文所述例子，检测的一种可能结果为“请问|水立方|怎么走”，其中的“|”表示一个韵律词边界。边界检测可以分解为一系列两类的分类问题，即，在每一个字边界，根据其对应的韵律特征，确定其“是”或者“不是”韵律词边界。分类器可以有很多选择，比如分类回归树(Classification and Regression Tree，CART)，支持向量机(SupportVector Machine，SVM)，高斯混合模型(Gaussian Mixture Model，GMM)、人工神经网络(Artificial Neural Network，ANN)等。下面以ANN为例描述其工作方式。

ANN是本领域内一项众所周知的技术，它模拟生物神经网络的结构和功能，通过对训练数据进行学习，获得数据分类等模式识别的能力。ANN是由若干层节点和节点间的连接组成的一个网络，第一层称为输入层，最后一层称为输出层，其它层称为中间层。训练时，由每个训练样本给定ANN的输入和输出，通过学习算法调节节点间连接的权重。

在本实施例中，ANN包括1个输入层，1个输出层和1个中间层。输入层有4个节点，对应4维韵律特征。输出层有1个节点，范围为0-1之间的数，表示输入特征对应的字边界是一个韵律词边界的概率。中间层节点的个数对ANN分类的性能有影响，可以通过实验选取最优的设置。

韵律词边界确定装置140的输出为一组0-1之间的数值(pb₁，pb₂，…)，其中pb_i表示第i个字边界为韵律词边界的概率。

置信度调整装置150根据韵律词边界确定装置140确定的连续语音中与候选关键词对应的语音片段所包括的特定相邻填充音之间的边界为韵律词边界的概率，调整识别装置120识别的候选关键词的置信度。假设被检出的关键词KW对应的语音片段中包含了一组字边界，对应的韵律词边界的概率为PB_KW＝(pb_i，…，pb_j)，则调整后的置信度为

{\hat{CM}}_{KW} = f ({CM}_{KW}, {PB}_{KW})

调整函数的形式可以随意指定，只需要满足PB_KW中各分量的值越大时

越小即可，即当关键词有越高的概率跨越韵律词边界时，其置信度便调整得越小。在本实施例中，使用下面的公式：

{\hat{CM}}_{KW} = {CM}_{KW} - γ Σ_{m = i}^{j} {pb}_{m}

7上式中的γ是一个大于0的数，用于控制韵律词边界检测结果对置信度调整的幅度，其最优数值可以通过实验确定。

继续上面的例子，假设识别装置120在语音“请问水立方怎么走”中检出了关键词“温水”，对应的语音片段为“问水”，因为两个词发音接近，其置信度会很高，假定为CM_KW＝-0.2。经过韵律词检测，可以得“问”和“水”之间是一个韵律词边界的概率很高，假定pb＝0.95，同时设γ＝1，则调整后的置信度为

判决装置160判决调整后的所述候选关键词的置信度是否高于预先设定的阈值δ。输出装置170将调整后的置信度高于δ的候选关键词作为关键词输出。例如，对于候选关键词KW，如果

则将KW作为语音关键词检测设备100的输出，否则丢弃该候选关键词。

δ的值可以设定为可调的，这样用户可以根据需要对其调节。例如，用户希望更多的关键词被检出而且能容忍较多的误报错误时，就可以调低δ的值。反之如果用户更重视检出的关键词的正确率，能容忍较高的误拒错误时，则调高δ的值。

虽然在上述实施例中是以汉语声韵母为填充音来描述的，但是本领域的技术人员应当清楚，也可以以音节为填充音来实施本发明。在这种情况下，连续语音中包括的特定相邻填充音指的是连续语音中包括的相邻音节。

下面将结合附图描述根据本发明实施例的用于检测连续语音中的关键词的方法。图3示出了根据本发明实施例的用于检测连续语音中的关键词的方法的流程图。

首先，在步骤S110，接收输入的连续语音。输入的连续语音是任意一个说话的人连续的不限长度的语音。语音可以是麦克风采集的实时语音流，也可以是事先采集好存储在存储介质上的文件。

接下来，在步骤S120，从输入的连续语音中识别候选关键词，并给出相应的置信度，并且识别连续语音中包括的填充音。

接下来，在步骤S130，提取与连续语音中包括的特定相邻填充音相关的韵律特征。

接下来，在步骤S140，根据在步骤S130提取的韵律特征，确定连续语音中包括的特定相邻填充音之间的边界为韵律词边界的概率。

接下来，在步骤S150，根据确定的连续语音中与候选关键词对应的语音片段所包括的特定相邻填充音之间的边界为韵律词边界的概率，调整识别的候选关键词的置信度。

接下来，在步骤S160，判决调整后的候选关键词的置信度是否高于预先设定的阈值δ。

最后，在步骤S170，将调整后的置信度高于δ的候选关键词作为关键词输出。

该方法的上述步骤的各种具体实施方式前面已经作过详细描述，在此不再重复说明。

显然，根据本发明的上述方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本发明的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时，只要该系统或者设备具有执行程序的功能，则本发明的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，计算机通过连接到因特网上的相应网站，并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本发明。

在本发明的设备和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是用于说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

通过上面对本发明的实施例的描述可知，本发明涵盖的技术方案包括但不限于如下的内容：

附记1.一种用于检测连续语音中的关键词的设备，包括：

输入装置，用于输入连续语音；

识别装置，用于从所述输入装置输入的所述连续语音中识别候选关键词，并给出相应的置信度，并且识别所述连续语音中包括的填充音；

韵律特征提取装置，用于提取与所述连续语音中包括的特定相邻填充音相关的韵律特征；

韵律词边界确定装置，用于根据所述韵律特征提取装置提取的所述韵律特征，确定所述连续语音中包括的特定相邻填充音之间的边界为韵律词边界的概率；

置信度调整装置，用于根据所述韵律词边界确定装置确定的所述连续语音中与所述候选关键词对应的语音片段所包括的特定相邻填充音之间的边界为韵律词边界的概率，调整所述识别装置识别的所述候选关键词的置信度；

判决装置，用于判决调整后的所述候选关键词的置信度是否高于预先设定的阈值；以及

输出装置，将调整后的置信度高于预先设定的阈值的所述候选关键词作为关键词输出。

附记2.根据附记1所述的用于检测连续语音中的关键词的设备，其中，所述连续语音为汉语连续语音，所述填充音为所述汉语连续语音中的汉字发音的声母和韵母，以及所述特定相邻填充音中的前一填充音是所述汉字发音的韵母，并且所述特定相邻填充音中的后一填充音是所述汉字发音的声母。

附记3.根据附记1所述的用于检测连续语音中的关键词的设备，其中，所述连续语音为汉语连续语音，所述填充音为所述汉语连续语音中的音节，以及所述特定相邻填充音为所述连续语音中包括的相邻音节。

附记4.根据附记2或3所述的用于检测连续语音中的关键词的设备，其中，与所述汉语连续语音中包括的特定相邻填充音相关的韵律特征包括以下特征中的一个或多个：所述汉语连续语音中的相邻汉字发音之间的发音短暂停顿的时长；所述相邻汉字发音中前一汉字发音的发音拉长度；所述相邻汉字发音中后一汉字发音的发音拉长度；以及发音语速变化量。

附记5.根据附记1所述的用于检测连续语音中的关键词的设备，其中，所述韵律词边界确定装置利用所述韵律特征、使用分类器来确定所述连续语音中包括的特定相邻填充音之间的边界为韵律词边界的概率。

附记6.根据附记5所述的用于检测连续语音中的关键词的设备，其中，所述分类器包括分类回归树、支持向量机、高斯混合模型和人工神经网络中的一个。

附记7.根据附记1所述的用于检测连续语音中的关键词的设备，其中，所述识别装置识别的候选关键词在所述连续语音中对应的语音片段中所包括的特定相邻填充音之间的边界为韵律词边界的概率越高，则所述候选关键词的置信度被所述置信度调整装置调整得越低。

附记8.一种用于检测连续语音中的关键词的方法，包括：

接收输入的连续语音；

从输入的所述连续语音中识别候选关键词，并给出相应的置信度，并且识别所述连续语音中包括的填充音；

提取与所述连续语音中包括的特定相邻填充音相关的韵律特征；

根据提取的所述韵律特征，确定所述连续语音中包括的特定相邻填充音之间的边界为韵律词边界的概率；

根据确定的所述连续语音中与所述候选关键词对应的语音片段所包括的特定相邻填充音之间的边界为韵律词边界的概率，调整识别的所述候选关键词的置信度；

判决调整后的所述候选关键词的置信度是否高于预先设定的阈值；以及

将调整后的置信度高于预先设定的阈值的所述候选关键词作为关键词输出。

附记9.根据附记8所述的用于检测连续语音中的关键词的方法，其中，所述连续语音为汉语连续语音，所述填充音为所述汉语连续语音中的汉字发音的声母和韵母，以及所述特定相邻填充音中的前一填充音是所述汉字发音的韵母，并且所述特定相邻填充音中的后一填充音是所述汉字发音的声母。

附记10.根据附记8所述的用于检测连续语音中的关键词的方法，其中，所述连续语音为汉语连续语音，所述填充音为所述汉语连续语音中的音节，以及所述特定相邻填充音为所述连续语音中包括的相邻音节。

附记11.根据附记9或10所述的用于检测连续语音中的关键词的方法，其中，与所述汉语连续语音中包括的特定相邻填充音相关的韵律特征包括以下特征中的一个或多个：所述汉语连续语音中的相邻汉字发音之间的发音短暂停顿的时长；所述相邻汉字发音中前一汉字发音的发音拉长度；所述相邻汉字发音中后一汉字发音的发音拉长度；以及发音语速变化量。

附记12.根据附记8所述的用于检测连续语音中的关键词的方法，其中，利用所述韵律特征，使用分类器来确定所述连续语音中包括的特定相邻填充音之间的边界为韵律词边界的概率。

附记13.根据附记12所述的用于检测连续语音中的关键词的方法，其中，所述分类器包括分类回归树、支持向量机、高斯混合模型和人工神经网络中的一个。

附记14.根据附记8所述的用于检测连续语音中的关键词的方法，其中，所述候选关键词在所述连续语音中对应的语音片段中所包括的特定相邻填充音之间的边界为韵律词边界的概率越高，则所述候选关键词的置信度被调整得越低。

附记15.一种程序产品，包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据附记8-14中任何一项所述的方法。

附记16.一种机器可读存储介质，其上携带有根据附记15所述的程序产品。

Claims

1.一种用于检测连续语音中的关键词的设备，包括：

输入装置，用于输入连续语音；

识别装置，用于从所述输入装置输入的所述连续语音中识别候选关键词，并给出相应的置信度，并且识别所述连续语音中包括的填充音，其中，所述填充音是所述连续语音中包括的音子或音节；

置信度调整装置，用于当所述韵律词边界确定装置确定的所述连续语音中与所述候选关键词对应的语音片段所包括的特定相邻填充音之间的边界为韵律词边界的概率越高时，将所述识别装置识别的所述候选关键词的置信度调整得越小；

2.根据权利要求1所述的用于检测连续语音中的关键词的设备，其中，所述连续语音为汉语连续语音，所述填充音为所述汉语连续语音中的汉字发音的声母和韵母，以及所述特定相邻填充音中的前一填充音是所述汉字发音的韵母，并且所述特定相邻填充音中的后一填充音是所述汉字发音的声母。

3.根据权利要求1所述的用于检测连续语音中的关键词的设备，其中，所述连续语音为汉语连续语音，所述填充音为所述汉语连续语音中的音节，以及所述特定相邻填充音为所述连续语音中包括的相邻音节。

4.根据权利要求2或3所述的用于检测连续语音中的关键词的设备，其中，与所述汉语连续语音中包括的特定相邻填充音相关的韵律特征包括以下特征中的一个或多个：所述汉语连续语音中的相邻汉字发音之间的发音短暂停顿的时长；所述相邻汉字发音中前一汉字发音的发音拉长度；所述相邻汉字发音中后一汉字发音的发音拉长度；以及发音语速变化量。

5.根据权利要求1所述的用于检测连续语音中的关键词的设备，其中，所述韵律词边界确定装置利用所述韵律特征、使用分类器来确定所述连续语音中包括的特定相邻填充音之间的边界为韵律词边界的概率。

6.根据权利要求5所述的用于检测连续语音中的关键词的设备，其中，所述分类器包括分类回归树、支持向量机、高斯混合模型和人工神经网络中的一个。

7.根据权利要求1所述的用于检测连续语音中的关键词的设备，其中，所述识别装置识别的候选关键词在所述连续语音中对应的语音片段中所包括的特定相邻填充音之间的边界为韵律词边界的概率越高，则所述候选关键词的置信度被所述置信度调整装置调整得越低。

8.一种用于检测连续语音中的关键词的方法，包括：

接收输入的连续语音；

从输入的所述连续语音中识别候选关键词，并给出相应的置信度，并且识别所述连续语音中包括的填充音，其中，所述填充音是所述连续语音中包括的音子或音节；

当确定的所述连续语音中与所述候选关键词对应的语音片段所包括的特定相邻填充音之间的边界为韵律词边界的概率越高时，将识别的所述候选关键词的置信度调整得越小；