CN101819772B

CN101819772B - 一种基于语音分段的孤立词识别方法

Info

Publication number: CN101819772B
Application number: CN2010101105182A
Authority: CN
Inventors: 廖广锐; 刘萍; 汤磊
Original assignee: No709 Inst China Ship Heavy Industry Group Co Ltd
Current assignee: No709 Inst China Ship Heavy Industry Group Co Ltd; 709th Research Institute of CSIC
Priority date: 2010-02-09
Filing date: 2010-02-09
Publication date: 2012-03-28
Anticipated expiration: 2030-02-09
Also published as: CN101819772A

Abstract

一种基于语音分段的孤立词识别方法，其语音训练所得的连续HMM模型是以音节或半音节作为基元，将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型，识别时采用Viterbi算法。其优点是：识别结果(即识别正确的孤立词)的每一小段HMM模型与待识语音的每一小段特征参数都能达到比较满意匹配，因此该方法可以提高识别性能；每次完成一个音节或半音节末尾状态的识别运算后都可以直接拒识掉概率值较小的孤立词，因此该方法可以提高识别响应时间。

Description

一种基于语音分段的孤立词识别方法

技术领域

本发明涉及自动语音识别技术领域，具体的说是一种基于语音分段的孤立词识别方法。

背景技术

目前所用到的非特定人孤立词语音识别方法都是基于隐马尔可夫模型(Hidden Markov Model，HMM)，在语音识别过程中，将待识语音的所有特征参数与词表内所有孤立词的HMM作匹配处理，计算出最大的概率值作识别结果。

传统的非特定人孤立词语音识别方法是顺序的计算出待识语音特征参数停留在每个孤立词中最后一个音节或半音节(即最后一个状态)的输出概率，将概率最大的孤立词作为识别结果。这种一次性计算出待识语音对该孤立词的总概率的方法，不可避免错误的识别出来一些与待识语音总体特征相似的孤立词。

发明内容

本发明的目的是研制一种能有效地解决现有孤立词语音识别方法中的缺陷、语音识别性能高、识别响应时间短的基于语音分段的孤立词识别方法。

本发明一种基于语音分段的孤立词识别方法，其语音训练所得的连续HMM模型是以音节或半音节作为基元，将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型，识别时采用Viterbi算法；

其具体步骤如下：

(1)将词表中所有孤立词的每个音节或半音节分开作为识别单元；

(2)记录连续n帧待识语音特征参数停留在每个孤立词的第一个音节或半音节末尾状态的平均概率，拒识其概率值小于指定阈值的孤立词，选出那些概率值比较大的孤立词作为下一次的匹配对象；具体的说，根据待识语音的特征参数，计算出第n1帧待识语音停留在词表中第一个孤立词的第一个音节或半音节末尾状态的最大概率值P₁₁，并且该最大概率值既大于待识语音停留在前一状态的最大概率值也大于待识语音停留在后一状态的最大概率值，P₁₁为计算完对数的概率值，再判断后面的连续Δn1-1帧停留在第一个孤立词的第一个音节或半音节末尾状态是否也是最大概率及其概率值P_1i，其中1＜i＜Δn1+1，其平均概率值按如下公式①计算：

\overset{&OverBar;}{P 1} = (Σ_{i = 1}^{Δn 1} (P_{1 i} / (n 1 + i))) / Δn 1

①

P_1i代表从第n1帧起第i帧数据停留在第一个孤立词的第一个音节或半音节的最大概率；

(3)依次类推，计算待识语音其它的帧停留在词表内未拒识的每个孤立词第二、第三……倒数第二个音节或半音节的平均概率，并依次拒识掉部分概率值比较小的孤立词；具体的说，计算待识语音第n2帧并连续Δn2帧停留在词表中第一个孤立词的第二个音节或半音节末尾状态的平均概率

其计算方法与计算公式与①式类似：

\overset{&OverBar;}{P 2} = (Σ_{j = 1}^{Δn 2} (P_{2 j} / (n 2 + j))) / Δn 2

②

P_2j代表从第n2帧起第j帧数据停留在第一个孤立词第二个音节或半音节的相对最大概率；

同理，计算出待识语音停留在其它孤立词的第二个音节或半音节的平均概率，再拒识掉部分平均概率值小于某一指定阈值的孤立词；

(4)计算待识语音最后几帧停留在词表内未拒识的每个孤立词的最后一个音节或半音节的平均概率，并将最大平均概率值所代表的孤立词作为识别结果输出。

本发明一种基于语音分段的孤立词识别方法的优点是：识别结果(即识别正确的孤立词)的每一小段HMM模型与待识语音的每一小段特征参数都能达到比较满意匹配，因此该方法可以提高识别性能；每次完成一个音节或半音节末尾状态的识别运算后都可以直接拒识掉概率值较小的孤立词，因此该方法可以提高识别响应时间。

附图说明

图1为基于语音分段的孤立词识别方法的流程图。

具体实施方式

根据图1所示，一种基于语音分段的孤立词识别方法，其语音训练所得的连续HMM模型是以音节或半音节作为基元，将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型，识别时采用Viterbi算法；

其具体步骤如下：

\overset{&OverBar;}{P 1} = (Σ_{i = 1}^{Δn 1} (P_{1 i} / (n 1 + i))) / Δn 1

①

其计算方法与计算公式与①式类似：

\overset{&OverBar;}{P 2} = (Σ_{j = 1}^{Δn 2} (P_{2 j} / (n 2 + j))) / Δn 2

②

Claims

1.一种基于语音分段的孤立词识别方法，其特征在于：其语音训练所得的连续HMM模型是以音节或半音节作为基元，将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型，识别时采用Viterbi算法；

其具体步骤如下：

(2)记录Δn1帧待识语音特征参数停留在每个孤立词的第一个音节或半音节末尾状态的平均概率，拒识其概率值小于指定阈值的孤立词，选出那些概率值比较大的孤立词作为下一次的匹配对象；具体的说，根据待识语音的特征参数，计算出第n1帧待识语音停留在词表中第一个孤立词的第一个音节或半音节末尾状态的最大概率值P₁₁，并且该最大概率值既大于待识语音停留在前一状态的最大概率值也大于待识语音停留在后一状态的最大概率值，P₁₁为计算完对数的概率值，再判断后面的连续Δn1-1帧停留在第一个孤立词的第一个音节或半音节末尾状态是否也是最大概率及其概率值P_1i，其中1＜i＜Δn1+1，其平均概率值按如下公式①计算：

①

P_1i代表从第n1帧起第i帧数据停留在第一个孤立词的第一个音节或半音节末尾状态的最大概率；

(3)依次类推，计算待识语音其它的帧停留在词表内未拒识的每个孤立词第二、第三……倒数第二个音节或半音节末尾状态的平均概率，并依次拒识掉部分概率值比较小的孤立词；具体的说，计算待识语音第n2帧并连续Δn2帧停留在词表中第一个孤立词的第二个音节或半音节末尾状态的平均概率

其计算方法与计算公式与①式类似：

②

P_2j代表从第n2帧起第j帧数据停留在第一个孤立词第二个音节或半音节末尾状态的最大概率；

同理，计算出待识语音停留在其它孤立词的第二个音节或半音节末尾状态的平均概率，再拒识掉部分平均概率值小于某一指定阈值的孤立词；

(4)计算待识语音最后几帧停留在词表内未拒识的每个孤立词的最后一个音节或半音节末尾状态的平均概率，并将最大平均概率值所代表的孤立词作为识别结果输出。