CN103730115A

CN103730115A - 一种语音中检测关键词的方法和装置

Info

Publication number: CN103730115A
Application number: CN201310740533.9A
Authority: CN
Inventors: 李伟浩; 苏鹏宇
Original assignee: BEIJING JETSEN TECHNOLOGY Co Ltd
Current assignee: BEIJING JETSEN TECHNOLOGY Co Ltd
Priority date: 2013-12-27
Filing date: 2013-12-27
Publication date: 2014-04-16
Anticipated expiration: 2033-12-27
Also published as: CN103730115B

Abstract

本发明实施例公开了一种语音中检测关键词的方法和装置，属于音频处理领域。方法包括：将字网格中的弧进行优化，并聚类为混淆网络，并建立索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置，通过将字网格转成混淆网络，使强迫竞争词在同一个组里，使网格中在同一时间间隔出现的词按时间自然排序，直接利用混淆网络中词的后验概率作为置信度得分，由于混淆网络比网格占用空间小，结构简单且易于索引，并混淆网络中将不同调的拼音看作相同拼音进行查找，从而有效降低了漏检率，提高了查找效率。

Description

一种语音中检测关键词的方法和装置

技术领域

本发明涉及音频处理领域，尤其涉及一种语音中检测关键词的方法和装置。

背景技术

现有的检测方法中，主要分为基于补白模型及语音识别的检测方法；其中第一种方法无法自由地增添删改关键词，而第二种方法则对于局外词无法检测。

基于补白模型的语音关键词检测方法在进行关键词识别前需要事先定义好关键词和补白模型的搜索网络，检测速度快，但却没有利用语言模型的知识，当关键词发生改变时需要重新定义关键词和补白模型的搜索网络重新进行识别。而在新闻广播舆情信息检索任务中，待查询的关键词经常发生变化，因此不适合进行新闻广播的舆情信息检索。

基于词网格关键词检索方法，是通过语音识别解码技术产生词网格，其中网格中保留着识别过程中的多个侯选结果，特别适合与任务无关的关键词检测。但由于网格的结构复杂，存在比较多的冗余连接弧不利于数据处理和存储；因此关键词的漏检率比较大。

发明内容

本发明的实施例提供了一种语音中检测关键词的方法和装置，基于语音识别的基础上，识别出候选拼音，进而对关键词进行检测，能够很好地解决局外词的问题。

为达到上述目的，采用如下技术方案：

一种语音中检测关键词的方法，包括如下步骤：

对输入语音进行声学解码，根据声学编码对应的声学特征确定输入语音对应的候选词序列，并根据候选词序列和对应的回溯路径、匹配得分生成词候选网格；

将所述词候选网格进行拆分，形成以拼音为单位的候选字网格；

将所述字网格中的弧进行优化，并聚类为混淆网络；

根据混淆网络的格式，对每个拼音建立逆向索引；

将待检索关键词转换成目标拼音，并通过所述逆向索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置，根据混淆网络中各目标拼音的时序关系及对应的置信度判断所述待检索关键词是否出现在语音中。

进一步，所述根据声学编码对应的声学特征确定输入语音对应的候选词序列时，提取语音信号的线性感知预测参数，通过隐马尔可夫的声学模型及N-gram的语言模型，分别计算各线性感知预测参数在每个模型中的概率得分，利用维特比解码，搜索最优路径，得到输入语音对应的候选词序列。

进一步，所述利用维特比解码，搜索最优路径，得到输入语音对应的候选词序列具体为：根据贝叶斯决策准则，所述候选词序列为

\hat{W} = {\hat{w}}_{1}, {\hat{w}}_{2}, . . ., {\hat{w}}_{N} :

\hat{W} = \arg ma x_{w} P (W | Y) = \arg ma x_{w} \frac{p (W) P (Y | W)}{P (Y)}

其中,所述声学特征的特征矢量为Y＝y₁,y₂,...,y_N,P(W)为所述候选词序列中候选词W的先验概率，其值由语言模型决定；P(Y|W)表示候选词W产生特征矢量序列Y的条件概率；P(Y)为所述特征矢量Y的先验概率。

进一步，所述网格中包括弧和节点；弧记录了输入语音对应的解码信息，包括词、词的起始时间以及对应的声学、语言学特征得分；节点用于表示输入语音时对应的离散的时刻点，分别记录了前后连接弧的时刻信息。

进一步，所述将所述字网格中的弧进行优化，并聚类为混淆网络具体为：

在字网格上计算各条弧的后验概率，删去后验概率小于既定阈值的弧；

从字网格上提取一条从起始节点到终止节点的完整路径，作为网格对齐用的参考路径；

将所述字网格中的弧与参考路径作比较，合并具有相同拼音的弧，对不同拼音的弧进行聚类，形成不同拼音对应的相交弧组成混淆网络的元素。

进一步，所述合并具有相同拼音的弧时，对在时间上相交的具有相同拼音ID的各条弧进行合并，合并后形成的弧对应的后验概率等于原有各条弧对应的后验概率之和。

本发明还公开了一种语音中检测关键词的装置，包括如下模块：

解码模块，用于对输入语音进行声学解码，根据声学编码对应的声学特征确定输入语音对应的候选词序列，并根据候选词序列和对应的回溯路径、匹配得分生成词候选网格；

拆分模块，用于将所述词候选网格进行拆分，形成以拼音为单位的候选字网格；

转换模块，用于将所述候选字网格中的弧进行优化，并聚类为混淆网络；

索引模块，用于根据混淆网络的格式，对每个拼音建立逆向索引；

检索模块，用于将待检索关键词转换成目标拼音，并通过所述逆向索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置，根据混淆网络中各目标拼音的时序关系及对应的置信度判断所述待检索关键词是否出现在语音中。

进一步，所述解码模块提取语音信号的线性感知预测参数，通过隐马尔可夫的声学模型及N-gram的语言模型，分别计算各线性感知预测参数在每个模型中的概率得分，利用维特比解码，搜索最优路径，得到输入语音对应的候选词序列。

\hat{W} = {\hat{w}}_{1}, {\hat{w}}_{2}, . . ., {\hat{w}}_{N} :

\hat{W} = \arg ma x_{w} P (W | Y) = \arg ma x_{w} \frac{p (W) P (Y | W)}{P (Y)}

进一步，所述候选词网格中包括弧和节点；弧记录了输入语音对应的解码信息，包括词、词的起始时间以及对应的声学、语言学特征得分；节点用于表示输入语音时对应的离散的时刻点，分别记录了前后连接弧的时刻信息。

进一步，所述转换模块包括：

删减单元，用于在候选字网格上计算各条弧的后验概率，删去后验概率小于既定阈值的弧；

提取单元，用于从候选字网格上提取一条从起始节点到终止节点的完整路径，作为候选字网格对齐用的参考路径；

优化单元，用于将所述候选字网格中的弧与参考路径作比较，合并具有相同拼音的弧，对不同拼音的弧进行聚类，形成不同拼音对应的相交弧组成混淆网络的元素。

进一步，所述优化单元具体用于对在时间上相交的具有相同拼音ID的各条弧进行合并，合并后形成的弧对应的后验概率等于原有各条弧对应的后验概率之和。

本发明一种语音中检测关键词的方法和装置，将字网格中的弧进行优化，并聚类为混淆网络，并建立索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置，通过将字网格转成混淆网络，使强迫竞争词在同一个组里，使网格中在同一时间间隔出现的词按时间自然排序，直接利用混淆网络中词的后验概率作为置信度得分，由于混淆网络比网格占用空间小，结构简单且易于索引，并混淆网络中将不同调的拼音看作相同拼音进行查找，从而有效降低了漏检率，提高了查找效率。

附图说明

图1为本发明实施例一提供的一种语音中检测关键词的方法的流程图；

图2为本发明实施例一提供的一种语音中检测关键词的方法中候选词网格的示意图；

图3为本发明实施例一提供的一种语音中检测关键词的方法中候选字网格的示意图；

图4为本发明实施例一提供的一种语音中检测关键词的方法中混淆网络的示意图；

图5为本发明实施例一提供的一种语音中检测关键词的装置的模块结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

为本发明一种多屏同步播放的方法示意图的流程，如图1所示，所述方法包括：

步骤101：对输入语音进行声学解码，根据声学编码对应的声学特征确定输入语音对应的候选词序列，并根据候选词序列和对应的回溯路径、匹配得分生成词候选网格；

利用语音识别技术，对输入语音进行声学解码，生成具有多个候选的词网格。在语音识别中，输入的语音信号需要首先经过预处理和声学特征参数提取的过程。这里提取的是线性感知预测参数。通过隐马尔可夫的声学模型及N-gram的语言模型，分别计算声学特征在每个模型中的概率得分，利用维特比解码，搜索最优路径，找到语音的识别词序列。假设给定一段语音序列的特征矢量Y＝y₁,y₂,...,y_N,找出这段语音所代表的最有可能的词序列

根据贝叶斯决策准则可以得到：

\hat{W} = \arg ma x_{w} P (W | Y) = \arg ma x_{w} \frac{p (W) P (Y | W)}{P (Y)}

对于每个可能的词序列W，P(Y)是固定不变的，则上式可简化为：

\hat{W} = \arg \max_{w} p (W) P (Y | W)

其中,所述声学特征的特征矢量为Y＝y₁,y₂,...,y_N,P(W)为所述候选词序列中候选词W的先验概率，其值由语言模型决定；P(Y|W)表示给定词序列W产生特征矢量序列Y的条件概率，由声学模型决定；P(Y)为所述特征矢量Y的先验概率。

词候选网格是在保留每个时刻其累计概率最大的N个候选词序列W，并同时记载回溯路径，及其在声学模型与语言模型上的概率得分，将识别过程中的多个候选信息以文本形式保留下来，形成词候选网格。本实施例中，待检测的关键词为“捷成世纪”，由于在语言模型中不存在“捷成世纪”这个词，通过声学解码后，最后生成的词候选网格如图2所示。

词候选网格(Lattice)对应的数据结构中包括了弧和节点；每条弧记载了解码信息，包括词、词的起始时间以及对应的声学、语言学概率得分；而节点代表时间离散的时刻点，记载前后连接弧的有关信息，是弧的汇合点。在图2中，其中图中START与END分别表示开始与结束，sil表示静音段，每一条线表示一条解码路径。网格代表了一个压缩的解码空间，表示了识别过程的解码信息，在时间上相交的路径都构成了竞争关系，任何从起点到终点的完整路径构成一个可能的识别句子。

步骤102：将所述词候选网格进行拆分，形成以拼音为单位的候选字网格；

根据中文语言自身的特殊性，中文在字与拼音之间存在多对多的关系，相同的发音可用不同的字来表示，如Fourier可以译为“傅立叶”、“傅里叶”。在词网格中，不同的候选词可能具有相同的发音，而对于要检测的目标关键词有可能在语言模型中不存在，这样在网格中不能检测出目标关键词；为了解决这个问题，结合中文语言的特性，需要把词候选网格分裂成候选字网格，并以拼音为单位进行表示，如图3所示，将图2中的“世纪”和“城市”对应的弧分别进行拆分，分别形成两段新弧和一个节点，并以拼音中的音节为单位对弧标记。

步骤103：将所述候选字网格中的弧进行优化，并聚类为混淆网络。

以拼音为基本单元的候选字网格(Lattice)，虽然可以解决局外词(Out Of Vocabulary,OOV)问题，但由于网络的结构复杂、包含了较多的冗余信息，占用存储空间大，不利于建立索引来检索，因此需要把候选字网格转成混淆网络(Confusion Network)。混淆网络强迫竞争词在同一个组里，这就迫使网格中在同一时间间隔出现的词按时间自然排序，而且可以直接利用混淆网络中词的后验概率作为置信度得分。混淆网络比候选词网格占用空间小，结构简单且容易处理。

本实施例中，采用文献《语音关键词识别技术的研究》（孙成立，：[博士学位论文]，北京：北京邮电大学，2008）中的方法将候选词网格转换成混淆网络，具体算法：

1)在候选词网格上利用前向-后向算法计算弧的后验概率。

2)概率剪枝，剪去后验概率小于阀值的弧。

3)从候选词网格上提取一条从起始节点到终止节点的完整路径，该路径通常为1-Best识别结果的路径，作为网格对齐用的参考路径。

4)遍历网格，将所有的网格转移弧与参考路径作比较，对于时间竞争的转移弧，合并具有相同拼音的弧，对不同拼音的弧进行聚类。

1:弧合并算法，对在时间上相交的具有相同拼音ID的转移弧，合并这两个弧，合并后的弧对应的后验概率等于原有弧对应的各后验概率相加之和。

SIM (E_{1}, E_{2}) = \underset{e_{1} &Element; E_{1}, e_{2} &Element; E_{2}}{Σ} overlap (e_{1}, e_{2}) * (p (e_{1}) + p (e_{2}))

其中，E₁和E₂是相同拼音ID所在的弧集合,p(e_i)是弧的后验概率，overlap(e₁,e₂)表示在的时间上的重叠率,合并后的弧对应的后验概率为SIM(E₁,E₂)。

2:弧聚类算法，对时间上相交的不同拼音ID的弧即有竞争关系，把不同拼音对应的弧归并为同一混淆集。

本实施例中，通过上述方法可以把图3中的拼音网格转换成拼音的混淆网络，如图4所示，其中，开始端的弧sil不对应拼音，则后验概率为1.0；jie2对应的后验概率为0.4，jie3对应的后验概率为0.2，jue2对应的后验概率为0.4，各弧对应的拼音各不相同，则将此三段弧进行聚类为混淆集；cheng在候选字网格中由于均为二声，各弧对应的拼音相同，将cheng对应的三段弧进行合并，则后验概率为1.0；shi在候选字网格中有两段弧对应四声，各弧对应的拼音相同，将shi4对应的上下两端弧进行合并，对应的后验概率为0.7，并与拼音si对应的弧聚类为混淆集；ji在候选字网格中由于均为四声，各弧对应的拼音相同，将ji对应的三段弧合并，则对应的后验概率为1.0；同理，最末端的弧sil不对应拼音，则后验概率同为1.0。

步骤104：根据混淆网络的格式，对每个拼音建立逆向索引。

本实施例中，混淆网络的保存的格式为：

align sliceID pinying1 posterior1 pinying2posterior2…

info sliceID pinying1 starttime duration ascore gscorephones phonedus

其中，sliceID：混淆集的编号；pinying：拼音标志；starttime：拼音的起始时间；duration：拼音持续时间；ascore：声学模型得分；gscore：语言模型和发音得分；phones：拼音包含的音素；phonedurs：音素的驻留时间。

根据混淆网络的格式，对关键词进行检索前，必须对每个拼音建立逆向索引。因为关键词的每个拼音在语音中是有时序，对于关键词检测，即使检测出来的拼音如果发生时间不一致也认为是错误的；另外受噪音等影响，语音声学解码结果的具有不确定性，必须对每个识别结果标注置信度，以衡量结果的可靠性。其中，在混淆网络中的posterior即为该拼音的置信度。建立反向索引，可表示为：

pinyingID posterior starttime endtime sliceID

步骤105：将待检索关键词转换成目标拼音，并通过所述逆向索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置，根据混淆网络中各目标拼音的时序关系及对应的置信度判断所述待检索关键词是否出现在语音中。

建立好拼音索引后，把待检索的关键词转换成拼音，并通过逆向索引定位到关键词中的每个拼音发生的位置，判断每个拼音的时序关系及置信度来决定关键词是否发生。由于受到口音、背景噪音等影响，语音的声学解码不可能完全正确，有可能声调会发生错误，因此将不同调的拼音看作相同拼音，以减少漏检率。

本实施例中，待检索关键词为“捷成世纪”，其对应的拼音为：jie2cheng2shi4ji4。在如图2所示的生成的候选词网格中却没有“捷成世纪”这个词，但如图4所示经过变化为拼音的混淆网络后却是有“jie2cheng2shi4ji4”的拼音，因些能够很容易地确定出待检索关键词“捷成世纪”出现在语音中。

本发明还公开了一种语音中检测关键词的装置，如图5所示，包括如下模块：

解码模块501，用于对输入语音进行声学解码，根据声学编码对应的声学特征确定输入语音对应的候选词序列，并根据候选词序列和对应的回溯路径、匹配得分生成词候选网格；

拆分模块502，用于将所述词候选网格进行拆分，形成以拼音为单位的候选字网格；

转换模块503，用于将所述候选字网格中的弧进行优化，并聚类为混淆网络；

索引模块504，用于根据混淆网络的格式，对每个拼音建立逆向索引；

检索模块505，用于将待检索关键词转换成目标拼音，并通过所述逆向索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置，根据混淆网络中各目标拼音的时序关系及对应的置信度判断所述待检索关键词是否出现在语音中。

\hat{W} = {\hat{w}}_{1}, {\hat{w}}_{2}, . . ., {\hat{w}}_{N} :

\hat{W} = \arg ma x_{w} P (W | Y) = \arg ma x_{w} \frac{p (W) P (Y | W)}{P (Y)}

进一步，所述转换模块包括：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音中检测关键词的方法，其特征在于，包括如下步骤：

将所述候选字网格中的弧进行优化，并聚类为混淆网络；

根据混淆网络的格式，对每个拼音建立逆向索引；

2.根据权利要求1所述的方法，其特征在于：所述根据声学编码对应的声学特征确定输入语音对应的候选词序列时，提取语音信号的线性感知预测参数，通过隐马尔可夫的声学模型及N-gram的语言模型，分别计算各线性感知预测参数在每个模型中的概率得分，利用维特比解码，搜索最优路径，得到输入语音对应的候选词序列。

3.根据权利要求2所述的方法，其特征在于：所述利用维特比解码，搜索最优路径，得到输入语音对应的候选词序列具体为：根据贝叶斯决策准则，所述候选词序列为

\hat{W} = \arg ma x_{w} P (W | Y) = \arg ma x_{w} \frac{p (W) P (Y | W)}{P (Y)}

4.根据权利要求1所述的方法，其特征在于：所述候选词网格中包括弧和节点；弧记录了输入语音对应的解码信息，包括词、词的起始时间以及对应的声学、语言学特征得分；节点用于表示输入语音时对应的离散的时刻点，分别记录了前后连接弧的时刻信息。

5.根据权利要求1所述的方法，其特征在于：所述将所述候选字网格中的弧进行优化，并聚类为混淆网络具体为：

在候选字网格上计算各条弧的后验概率，删去后验概率小于既定阈值的弧；

从候选字网格上提取一条从起始节点到终止节点的完整路径，作为网格对齐用的参考路径；

将所述候选字网格中的弧与参考路径作比较，合并具有相同拼音的弧，对不同拼音的弧进行聚类，形成不同拼音对应的相交弧组成混淆网络的元素。

6.根据权利要求5所述的方法，其特征在于：所述合并具有相同拼音的弧时，对在时间上相交的具有相同拼音ID的各条弧进行合并，合并后形成的弧对应的后验概率等于原有各条弧对应的后验概率之和。

7.一种语音中检测关键词的装置，其特征在于，包括如下模块：

8.根据权利要求7所述的装置，其特征在于：所述解码模块提取语音信号的线性感知预测参数，通过隐马尔可夫的声学模型及N-gram的语言模型，分别计算各线性感知预测参数在每个模型中的概率得分，利用维特比解码，搜索最优路径，得到输入语音对应的候选词序列。

9.根据权利要求8所述的装置，其特征在于：所述利用维特比解码，搜索最优路径，得到输入语音对应的候选词序列具体为：根据贝叶斯决策准则，所述候选词序列为

\hat{W} = \arg ma x_{w} P (W | Y) = \arg ma x_{w} \frac{p (W) P (Y | W)}{P (Y)}

10.根据权利要求7所述的装置，其特征在于：所述候选词网格中包括弧和节点；弧记录了输入语音对应的解码信息，包括词、词的起始时间以及对应的声学、语言学特征得分；节点用于表示输入语音时对应的离散的时刻点，分别记录了前后连接弧的时刻信息。

11.根据权利要求7所述的装置，其特征在于：所述转换模块包括：

12.根据权利要求11所述的装置，其特征在于：所述优化单元具体用于对在时间上相交的具有相同拼音ID的各条弧进行合并，合并后形成的弧对应的后验概率等于原有各条弧对应的后验概率之和。