CN1211026A

CN1211026A - 汉语普通话大词汇连续语音识别技术

Info

Publication number: CN1211026A
Application number: CN97116890A
Authority: CN
Inventors: 杜利民; 皮晓波
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 1997-09-05
Filing date: 1997-09-05
Publication date: 1999-03-17
Anticipated expiration: 2017-09-05
Also published as: CN1099662C

Abstract

本发明涉及语音信号处理中的一种语音识别技术,利用汉语普通话语音学知识指导和训练数据驱动相结合的方法,通过建立判决树的方式,实现模型状态层面的参数共享,建立语境相关的声学模型,声学模型建立在声、韵母层面上,对此,我们设计了一组语音学问题提供给判决树构造算法使用,利用能够提取的汉语普通话语音区别特征,如:清、浊音,鼻音、非鼻音等,在识别解码过程中,减少模型匹配的盲目性,提高搜索的效率和准确性。

Description

汉语普通话大词汇连续语音识别技术

本发明汉语普通话大词汇连续语音识别技术属于语音信号处理和识别技术领域。

汉语普通话大词汇连续语音识别目前还没有商用系统。其它语种的大词汇连续语音识别系统，如IBM公司96年的语音识别产品VoiceType，采用基于隐含马尔可夫模型的统计模型技术。采用隐含马尔可夫模型技术的系统可以取得较好的识别率，但是也存在固有缺点：(1)系统的识别过程完全依赖数量庞大的模型匹配计算，这使得系统技术变得格外复杂和脆弱。(2)模型的参数估计需要大量的训练数据，而且这些数据必须按统计的含义覆盖语音所有可能的变体，这使得大词汇连续语音识别系统的训练过程变得相当困难。由于这些缺点，使得完全基于隐含马尔可夫模型的语音识别系统的识别率在达到一定程度后，很难再进一步提高。

本发明的目的在于基于隐含马尔可夫模型的识别框架下以提取的语音学区别特征，提出一种汉语普通话大词汇连续语音识别的声学模型，它可同时降低识别系统的复杂性，从而解决了现有技术所存在的问题。

本发明的第一部分是采用汉语普通话语音学知识指导和训练数据驱动相结合的方法，建立精确的声学模型，提高识别系统的性能。

在连续语流中，协同发音现象十分显著。对自动语音识别器来说，由于它是基于每个识别单位的声学特征一致性的，协同发音的影响会使得识别单位的声学特征一致性大大降低，从而使识别系统的性能下降。处理协同发音影响的方法是利用语音音素在特定语境中的声学实现更一致的特点，建立语境相关的声学模型。即每个声学模型表示一个同时受左右语境影响的识别单位。如：汉语普通话，中国zhongguo，可以用声学模型串表示为：

Zhongguo=sil sil-zh+ong zh-ong+g ong-g+uo g-uo+sil sil

-表示前语境，+表示后语境。建立语境相关的声学模型，模型的数量急剧增加。以汉语普通话为例，语境无关的声、韵母声学模型只有几十个，而语境相关的声、韵母声学模型有数万个。实际上很难为这么多的声学模型准备足够的训练数据，使得每个声学模型的参数都能够得到有效估计。本发明采用下述方法来建立语境相关的声学模型，使得模型的精确性和可训练性得到兼顾。语境相关的声学模型建立方法：(1)声学模型建立在声、韵母层面上，但在考虑协同发音的影响时，仅考虑紧邻声、韵母的音素对声、韵母的影响。如：在中国zhongguo这个词中，韵母ong，语境相关模型为：

ts`-ong+k

ts`为zh的SAM表示，k为g的SAM表示。声母g的语境相关模型为：

N-g+u

N为ong的最后一个音素的SAM表示，u为uo的第一个音素的SAM表示。这种语境选择方式既考虑了协同发音的主要影响，同时又使得不同语境的数量不至于过于庞大。(2)采用汉语普通话语音学知识指导和训练数据驱动的判决树方式，进行声学模型状态层面的参数共享。图1是一个针对元音u的声学模型中状态1的判决树。在某一语境中的音素u通过这个判决树，可以选择一个概率分布来表示其状态1的输出概率分布。过程如下：首先回答根节点上的问题：音素前面是否是中辅音(z,c,s,zh,ch,sh,r)，如果语境是zh-u+sil，则前一音素是zh，回答是；这样到达下一个节点，回答该节点的问题：音素后面是否是寂静段，因为u后面正好是寂静段，所以回答是；由于该回答导致到达树的叶子，因此分布也就被选定了，即在该语境中，应该选择概率分布1表示音素u状态1。

建立判决树的系统框图如图2，步骤如下：

(A)采集训练语音数据。

(B)对每个训练语音数据提取特征矢量序列，语音特征可以选择LPC倒谱或摩尔倒谱。

(C)建立语境无关的21个声母模型、38个韵母模型、1个寂静段模型、1个暂停模型。并用B-W算法，用采集的训练语音数据，估计模型参数。

(D)用训练好的语境无关模型，对所有的训练语音数据进行状态分割。如图3所示。

(E)构造参数共享中需要的语音学问题：根据汉语普通话语音学对辅音的分类和辅音的听觉感知心理实验，我们设计了如下的辅音问题：辅音发音方式：1判断前(后)面是否是浊辅音2判断前(后)面是否是鼻音3判断前(后)面是否是可以作声母的鼻音4判断前(后)面是否是边音5判断前(后)面是否是浊擦音6判断前(后)面是否是送气音7判断前(后)面是否是塞音或塞擦音8判断前(后)面是否是擦音或塞擦音9判断前(后)面是否是塞音10判断前(后)面是否是擦音11判断前(后)面是否是塞擦音辅音发音部位1判断前(后)面是否是唇音或舌尖音2判断前(后)面是否是唇音3判断前(后)面是否是舌尖音4判断前(后)面是否是舌尖前音或舌尖后音5判断前(后)面是否是舌尖前音6判断前(后)面是否是舌尖后音7判断前(后)面是否是舌面音或舌根音8判断前(后)面是否是舌面音9判断前(后)面是否是舌根音总共(11+9)*2=40个问题。我们根据汉语语音学对元音的分类知识设计了下面的元音问题：元音舌位和唇形：1判断前(后)是否是圆唇元音2判断前(后)是否是开口呼元音3判断前(后)是否是齐齿呼元音4判断前(后)是否是合口呼元音5判断前(后)是否是撮口呼元音6判断前(后)是否是前元音7判断前(后)是否是中元音(前后位置)8判断前(后)是否是后元音9判断前(后)是否是高元音10判断前(后)是否是中元音(高低位置)11判断前(后)是否是低元音12判断前(后)是否是元音“iI”13判断前(后)是否是元音“Ii”14判断前(后)是否是元音“i”或“I”15判断前(后)是否是元音“7”,“eo”或“@”16判断前(后)是否是元音“oo”17判断前(后)是否是元音“u”或“U”18判断前(后)是否是元音“y”19判断前(后)是否是元音“a”,“A”,“AA”20判断前(后)是否是元音“e”共20*2=40个问题(F)对每个模型的每个状态构造一个判决树。

构造判决树的流程图如图4。步骤如下：

1根据前面状态分割的结果，调入每个模型的每个状态对应的语音学数据。

2建立一个判决树根节点，节点对应的概率分布由所有的训练语音数据得到。

3在设计好的汉语普通话语音学问题中，选择一个问题来分裂当前节点。选择的依据是使得下面似然概率增加最多。

L = Σ_{e = 1}^{E} Σ_{t = 1}^{E} \underset{s &Element; S}{Σ} Ln (\Pr (o_{t}^{e}; μ_{s}, Σ_{s})) γ_{s}^{e} (t) \approx Ln (\Pr (O; S))

E为样本数量，Te为各个样本的帧数，S为产生这些样本的状态集，O为观测矢量，μ为均值，∑为协方差矩阵，γ为状态住留概率。

上式可以简化为：

L = \underset{s &Element; S}{Σ} - \frac{1}{2} (n (1 + Ln (2 π)) + Ln ({| Σ}_{s} |) Σ_{e = 1}^{E} Σ_{t = 1}^{T_{e}} γ_{s}^{e} (t))

4如果似然概率增加大于域值L_min，则返回3继续进行数据分裂，否则转到5。

5选择两个节点，如果合并两个节点后，似然减少的值小于一个域值，则合并该两个节点。否则转到6。

6将构造好的判决树写入文件。(G)用B-W算法，用所有的训练语音数据，训练得到的模型参数。

本发明的第二部分是在识别解码过程中融入目前能够提取的汉语普通话语音区别特征，减少模型匹配的盲目性，提高搜索的效率和准确性，其中解码器是由拾音器、A/D变换器、区别特征提出取、特征提取、声学模型、路径搜索、发音词典、和语言模型所组成。

在完全基于隐含马尔可夫模型技术的系统中，搜索过程靠模型的匹配。由于事先没有任何语音信号的分段信息，解码算法只能假设在每一帧都有可能是语音学单位之间的转移位置。这种假设造成解码过程中存在大量的冗余计算。如果能够将目前能够提取的语音信号的位置信息加到解码过程中，则可以利用语音信号的位置信息来避免这种假设，从而减少解码过程中的冗余计算，提高解码的效率。

虽然在目前的研究水平下，还不能完全提取所有的语音区别特征，但是只要能够利用现有的技术条件可以提取出的语音区别特征，就可以减少解码过程的复杂度。在本解码器中，利用了清音、浊音的分界点位置，鼻音、非鼻音的分界点位置。过程如下：

1读入一帧语音信号。

2确定当前帧是清音或是浊音。如果是清音，则仅对清音的模型进行匹配，浊音模型中的累积概率置为零。如果是浊音，则转3。

3判断是鼻音还是非鼻音，如果是鼻音，则仅对鼻音模型进行匹配计算，非鼻音模型的累积概率置为零。

4判断语音信号是否处理完毕，是则结束，输出识别结果。否则转到1。

本发明的优点：

1．在语境相关的精确的声学模型建立过程中，通过选择合理的语境相关模型，并利用了汉语普通话语音学知识和数据驱动的方法进行参数共享，解决了模型的精确性和可训练性之间的矛盾。使得即使在有限的训练数据库的条件下，都可以建立尽可能精确的声学模型，从而提高了系统性能。

2．在解码过程中利用了目前可以提取的汉语普通话语音规则信息，减少了模型盲目匹配的数量，提高了解码效率和准确性，降低了系统的复杂程度。

图1为本发明元音u状态1的判决树示意图。

图2为本发明的建立声学模型的方块图。

图3为本发明语音数据状态分割示意图。

图4为本发明判决树构造流程图。

图5为本发明识别解码器方块图。

实例：一个汉语普通话大词汇连续语音识别系统构造过程：系统训练：

(A)采集训练语音数据。

(E)构造参数共享中需要的语音学问题。

(F)对每个模型的每个状态构造一个判决树。

(G)用B-W算法，用所有的训练语音数据，训练得到的模型参数。

(H)按照图5方框图构造识别解码器。

(I)优化解码器参数。

Claims

1．一种汉语普通话大词汇连续语音识别技术，其特征在于：将汉语普通话语音学知识和数据驱动相结合，建立精确的语境相关的声学模型。在识别解码器中融入能够提取的汉语普通话语音识别特征：清音、浊音的位置，鼻音非鼻音的位置。

2．根据权利要求1所述的汉语普通话大词汇连续语音识别技术，其特征在于：声学模型建立在声、韵母层面上，但在考虑协同发音的影响时，仅考虑紧邻声、韵母的音素对声、韵母的影响。

3．根据权利要求1所述的汉语普通话大词汇连续语音识别技术，其特征在于：所说的声学模型，在通过建立判决树的方式建立语境相关的声学模型，汉语普通话语音学知识通过建立语音学问题组的方式加入，判决树的建立标准是使得似然概率

L = \underset{s &Element; S}{Σ} - \frac{1}{2} (n (1 + Ln (2 π)) + Ln (| Σ_{s} |) Σ_{e = 1}^{E} Σ_{t = 1}^{T_{e}} γ_{s}^{e} (t))

最大。

4．根据权利要求3所述的汉语普通话大词汇连续语音识别技术，其特征在于：所说的语境相关声学模型，其形成方法：(一)辅音发音方式：1判断前(后)面是否是浊辅音2判断前(后)面是否是鼻音3判断前(后)面是否是可以作声母的鼻音4判断前(后)面是否是边音5判断前(后)面是否是浊擦音6判断前(后)面是否是送气音7判断前(后)面是否是塞音或塞擦音8判断前(后)面是否是擦音或塞擦音9判断前(后)面是否是塞音10判断前(后)面是否是擦音11判断前(后)面是否是塞擦音(二)辅音发音部位1判断前(后)面是否是唇音或舌尖音2判断前(后)面是否是唇音3判断前(后)面是否是舌尖音4判断前(后)面是否是舌尖前音或舌尖后音5判断前(后)面是否是舌尖前音6判断前(后)面是否是舌尖后音7判断前(后)面是否是舌面音或舌根音8判断前(后)面是否是舌面音9判断前(后)面是否是舌根音总共(11+9)*2=40个问题。(三)元音舌位和唇形：1判断前(后)是否是圆唇元音2判断前(后)是否是开口呼元音3判断前(后)是否是齐齿呼元音4判断前(后)是否是合口呼元音5判断前(后)是否是撮口呼元音6判断前(后)是否是前元音7判断前(后)是否是中元音(前后位置)8判断前(后)是否是后元音9判断前(后)是否是高元音10判断前(后)是否是中元音(高低位置)11判断前(后)是否是低元音12判断前(后)是否是元音”iI”13判断前(后)是否是元音”Ii”14判断前(后)是否是元音”i”或”I”15判断前(后)是否是元音“7”,”eo”或”@”16判断前(后)是否是元音“oo”17判断前(后)是否是元音“u”或”U”18判断前(后)是否是元音“y”19判断前(后)是否是元音“a”,“A”,“AA”20判断前(后)是否是元音“e”

5．根据权利要求4所述的汉语普通话大词汇连续语音识别技术，其特征在于：判决树的建立，其步骤如下：

1)根据语境无关模型分割状态的结果，调入每个模型的每个状态对应的语音学数据；

2)建立一个判决树根节点，节点对应的概率分布由所有的训练语音数据得到；

3)在设计好的汉语普通话语音学问题中，选择一个问题来分裂当前节点；

4)如果似然概率增加大于域值L_min，则返回3继续进行数据分裂，否则转到5；

5)选择两个节点，如果合并两个节点后，似然减少的值小于一个域值，则合并该两个节点，否则转到6；

6)将构造好的判决树写入文件。

6．根据权利要求1所述的汉语普通话大词汇连续语音识别技术，其特征在于：在识别解码过程中融入能够提取的汉语普通话语音区别特征：清音、浊音的位置，鼻音、非鼻音的位置。

7．根据权利要求1所述的汉语普通话大词汇连续语音识别技术，其特征在于：所说的解码器，它由拾音器、A/D变换器、区别特征提取、时频特征提取、声学模型、路径搜索、发音词典和语言模型所组成。