CN101447184A

CN101447184A - 基于音素混淆的中英文双语语音识别方法

Info

Publication number: CN101447184A
Application number: CNA2008101105556A
Authority: CN
Inventors: 颜永红; 张晴晴; 潘接林
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2007-11-28
Filing date: 2008-06-03
Publication date: 2009-06-03
Anticipated expiration: 2028-06-03
Also published as: CN101447184B

Abstract

本发明涉及一种基于音素混淆的中英文双语语音识别方法，该方法采用两遍音素聚类的方法统一中英文音素集，重新训练得到中英文混合声学模型，并修正相应的双语发音字典，解码器根据这些实现中英文双语识别。基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较；并且在毫无中文口音的英文数据，仅依靠标准中文和英文训练数据的前提下，对带有中文口音的英文片断的识别情况相对独立英文语音识别系统有了明显提高；同时基于TCM音素混淆的中英文双语语音识别系统也优于目前常见的利用对数似然准则进行音素聚类得到的双语识别系统的识别性能，具有很高的实用性。

Description

基于音素混淆的中英文双语语音识别方法

技术领域

本发明涉及双语语音识别方法，更具体地说，本发明涉及基于两遍音素聚类算法(TCM：Two-pass phone clustering method based on Confusion Matrix)的中英文双语识别方法。

背景技术

随着现代社会信息的全球化，双语以及多语通信成为越来越普遍的现象，这为语音识别技术带来了新的挑战。在双语识别中，主要存在的问题是说话人在讲母语的过程中会穿插进第二语言，并且插入的第二语言是带有说话人母语发音特点的(nonnative)。如何在保证语音识别系统对占主要地位的母语语音识别率的前提下，同时实现并提高对带有母语发音特点的第二语言的识别是双语识别研究的重点。

文献[1](Y.C.Chan，P.C.Ching，T.Lee and H.Cao＂Automatic speech recognitionof Cantonese-English Code-Mixing utterances＂，9th International Conference on SpokenLanguage Processing(Interspeech 2006-ICSLP)，pp.113-116，Pennsylvania，USA，September17-21，2006.)研究了广东话和英文的双语语音识别。在该研究中，为提高带有广东口音的英文识别率，录制了大量相应的语音数据进行训练，从而使得到的声学模型在识别带有广东口音的英文语音时性能有较大提高。但是，这样得到的识别系统非常依赖相应的训练数据，在现实生活中获取这样的母语口音数据是耗时耗资金的。当训练数据有限时，相应的识别系统的识别性能将大幅度下降。

在文献[2](S.Yu，S.Zhang，B.Xu，“Chinese-English bilingual phone modeling forcross-language speech recognition”，International Conference on Natural LanguageProcessing and Knowledge Engineering(ICASSP)，pp.603-609，2003.)中，S.Yu等研究了中英双语识别系统。在该研究中，S.Yu利用对数似然度(log-likelihood)作为音素间相似测度，将中英文音素按照相似度聚类到统一音素集上。文章采用对数似然作为测度，从实验结果看到，统一音素集在中文和英文测试集上的识别率相比独立语言识别系统的识别率都有所下降。这里主要问题在于，对数似然准则是基于不同音素高斯模型下同一语音特征矢量序列的观察概率的聚类准则，而事实上仅由高斯模型下的观察概率决定两音素间的相似度是不可靠的。真正能够直接反映两音素混淆度大小(或者说相似度大小)的，是看解码器对语音特征矢量解码后，某一音素容易识别成其它音素的错误统计情况。

随着信息全球化，中国与世界的交流越来越频繁，外国语(特别是英语)的使用也越来越频繁。人们在交谈过程中插入英文词汇表达的现象日益普遍。这使得中英双语的语音识别研究成为必需。

发明内容

因此，本发明的目的在于提供一种基于音素混淆的中英文双语语音识别方法，该方法仅基于标准中文和英文语音数据提高带有中文口音的英文语音识别率，同时保证占主要地位的中文语音的识别性能。为了实现上述目的，本发明的基于音素混淆的中英文双语语音识别方法，包括如下步骤：

第一步，采集一定数量的中文语音和英文语音，利用两遍(Two-pass)音素聚类算法(TCM)统计得到中英文混淆矩阵；

第二步，用中文声学模型对中文语音数据进行一遍强制对齐，得到中文音素级分段信息，该信息称之为中文音素参考信息；

第三步，用英文声学模型对中文语音数据进行一遍解码，得到英文音素级分段信息，并称之为英文音素解码信息；

第四步，将第二步和第三步得到的不同语种音素的分段信息在时间上对齐，当某两个音素的重合时间大于预先设定的门限值时，认为这两个音素出现一次“同现”(co-occurrence)，以图3为例，给出了中文音素“aa_ch”和英文音素“ae_en”之间的一次同现。

第五步，按照第四步的方法，统计出所有的同现情况并计算得到英文音素对应于中文音素的相似度矩阵。计算过程为：若设定M，N分别为中文和英文的音素数量，A_S，T(M，N)为相似度矩阵，A_i，j则为矩阵的第i^th行j^th列元素，若给定英文音素t_j和中文音素s_i，则英文音素对应于中文音素的相似度矩阵可由公式(1)得到：

A_{i, j} = \frac{count (t_{j} | s_{i})}{Σ_{n = 1}^{N} count (t_{n} | s_{i})} - - - (1)

其中A_i，j∈A_s，T(M，N)，i＝1......M，j＝1......N。count(t_j|s_i)表示中文音素s_i和英文音素t_j之间的同现出现次数。

第六步，基于准备好的英文语音数据，相应的重复第二到第五步，得到中文音素对应于英文音素的相似度矩阵。

经过上述第五步和第六步的两遍计算后，生成两个相似度矩阵(A_man，eng，A_eng，man)。

第七步，将得到的两个相似度矩阵给与相等权重加权平均，得到最终的混淆度矩阵A_TCM：

A_{TCM} = \frac{1}{2} (A_{man, eng} + {A_{eng, man}}^{T}) - - - (4)

A_TCM记录了来自不同语种间(在本文中特指中文和英文)任意两个音素的混淆程度。该过程利用“两遍(Two-pass)音素聚类算法(TCM)”，即分别对中文和英文都计算一次相似度矩阵后作加权平均。

第八步，得到混淆矩阵后，根据该矩阵进行音素聚类。如果A_TCM矩阵中i^th行j^th列元素是整个矩阵中的最大元素，这意味着来自相应语言的音素i^th和音素j^th最为相似，因此音素i^th和音素j^th可以聚类成一类；接下来将已聚成一类的音素i^th和音素j^th从矩阵中移出，在余下的矩阵元素中重复进行上述过程，直到聚类数达到要求。

第九步，根据第八步得到的两种语言音素间的对应关系，将训练时需要的文本语料以及决策树等信息都映射到统一音素集上，基于这些文件和已有的标准中文、英文数据，重新进行训练就可以得到中英双语声学模型。

本发明所述的方法在上述的技术方案中，还可以增加第十步，根据音素间对应关系，整理解码时需要的中文和英文发音字典，再加上中英文双语声学模型即构成一套完整的双语识别系统。

该系统可实现对中文、英文和中英文混合语音的识别。

本发明的优点在于：

本发明的特点：(1)建立一个统一的双语混合声学模型，使其能够处理中英文句间转换(inter-sentence language switching)和句内转换(intra-sentence languageswitching)，(2)提出一种新型基于混淆矩阵的两遍(Two-pass)音素聚类算法(TCM)，(3)在仅依靠标准中文和英文训练数据的前提下，提高系统对中文口音的英文片断的识别。

在本发明的基于音素混淆的中英文双语语音识别方法，采用两遍音素聚类的方法统一中英文音素集，重新训练得到中英文混合声学模型，并修正相应的双语发音字典，解码器根据这些实现中英文双语识别。基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较；并且在毫无中文口音的英文数据，仅依靠标准中文和英文训练数据的前提下，对带有中文口音的英文片断的识别情况相对独立英文语音识别系统有了明显提高；同时基于TCM音素混淆的中英文双语语音识别系统也优于目前常见的利用对数似然准则进行音素聚类得到的双语识别系统的识别性能。

本发明的系统实现了使用一套系统识别中文、英文以及中英文并存的语音片断。相比分别用两套独立系统进行识别，中英文双语识别系统不需要事先对语种进行判断。由于对两种语言间的一部分音素进行了聚类，在模型规模上也得到降低。我们进行了大量实网数据的测试，结果显示在识别性能方面，由于该系统在音素集上的聚类信息是基于解码器输出的音素序列错误情况进行统计得到的，这种准则更为直接，更能真实的反映出两种语言音素间的混淆程度，所以相比目前常见的利用对数似然准则进行音素聚类的双语识别系统，基于TCM音素混淆的中英文双语语音识别系统对中文、英文以及中英文并存的语音片断的识别率皆有稳定提高。与独立语言识别系统相比，基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较；而在对带有中文口音的英文片断的识别中，虽然该系统并没有中文口音的英文数据的额外加入，但由于TCM音素混淆本身完成了中文和英文数据的部分复用，使双语混合模型的英文音素模型部分带有了中文发音的特点，从而在仅有标准中文和英文训练数据的前提下，对带有中文口音的英文片断的识别情况明显优于独立英文语音识别系统。

附图说明

图1是基于两遍音素聚类算法TCM的中英文双语识别系统的基本原理框图；

图2是基于两遍音素聚类算法TCM的中英文双语识别系统的具体实施流程框图；

图3是中文音素“aa_ch”和英文音素“ae_en”之间的一次“同现”例图(为可区分中英文音素，中文音素皆带后缀“_ch”，英文音素带后缀“_en”)。

附图标记

1 中文语音接口 2 英文语音接口

3 中文模型模块 4 英文模型模块

5 中文音素强制对齐模块 6 英文音素解码模块

7 英文音素与中文音素相似度计算模块

8 英文音素强制对齐模块 9 中文音素解码模块

10 中文音素与英文音素相似度计算模块

11 中英文音素混淆矩阵计算模块

12 中英文混合声学模型模块 13 混合发音字典模块

14 中文语音解码模块 15 英文语音解码模块

16 中英文混合语音解码模块

具体实施方式

图1是基于两遍音素聚类算法TCM的中英文双语识别系统的基本原理框图，它描述了音素聚类算法的核心组成成分，主要由几个部分构成：中文/英文语音、中文/英文模型、强制对齐、解码、音素混淆矩阵生成以及中英文混合模型训练。图2是基于两遍音素聚类算法TCM的中英文双语识别系统的具体实施流程框图。

下面结合图1以及图2对本发明的具体实施方式做进一步详细描述：

本发明涉及的基于两遍音素聚类算法TCM的中英文双语识别系统的核心技术在于两遍(Two-pass)音素聚类算法TCM(模块1到11)。TCM是一种新型的基于混淆矩阵的音素聚类算法，通过两遍计算(Two-pass)，得到两种语言音素间的对应关系，利用该关系确定需要聚类的音素对。

本发明的方法中，中文和英文将交替作为源语言和目标语言进行两遍计算(Two-pass)。具体计算流程如下：

第一步，目标语言音素参考答案：选择一定量的目标语言训练数据(中文语音接口1或者英文语音接口2)，这些数据用于生成源语言对目标语言的混淆概率值。用目标语言声学模型(中文模型模块3或者英文模型模块4)对这些数据进行强制对齐(Force-align)，得到目标音素序列，同时记录下每个音素的时间信息(中文音素强制对齐模块5或者英文音素强制对齐模块8)。

第二步，中文音素-源语言识别结果：用中文声学模型(中文模型模块3)对第一步中的英文数据进行解码(Decode)，得到中文音素序列，同时记录下每个音素的时间信息(中文音素解码模块9)。

第三步，英文音素-源语言识别结果：用英文声学模型(英文模型模块4)对第一步中的中文数据进行解码(Decode)，得到英文音素序列，同时记录下每个音素的时间信息(英文音素解码模块6)。

第四步，“同现”准则：通过第一步、第二步和第三步，在同一批目标语言训练数据上，分别得到了目标语言和源语言的音素序列以及相应的时间段信息，根据这两个音素序列在时间轴上的位置关系，可以定义两个音素的“同现”现象。在计算“同现”前，首先定义一个“同现”矩阵，该矩阵为(源语言音素个数*目标语言音素个数)的矩阵，每个元素位置上记录了对应行和列的音素之间的“同现”次数。在本发明所述方法的实验中，定义当两个音素在时间段上重叠的时间占到目标语言音素持续时间一半时，算作一次“同现”。当目标语言音素i^th和源语言音素j^th出现一次“同现”时，在对应同现矩阵的i^th行j^th列的位置上加1记录。如图3所示，以中文作为目标语言时，中文音素“aa_ch”和英文音素“ae_en”出现的一次“同现”。

第五步，音素相似度计算(英文音素与中文音素相似度计算模块7或者中文音素与英文音素相似度计算模块10)：若设定M，N分别为源语言和目标语言音素个数，A_S，T(M，N)为从同现矩阵派生出来的矩阵，矩阵元素记录了源语言和目标语言音素之间的相似度情况。A_i，j为矩阵i^th行j^th列的元素，设定t_j为目标语言音素，s_i为源语言音素，两者之间的相似度计算为：

A_{i, j} = \frac{count (t_{j} | s_{i})}{Σ_{n = 1}^{N} count (t_{n} | s_{i})} - - - (3)

其中，A_i，j∈A_S，T(M，N)，i＝1......M，j＝1......N。

第六步，混淆矩阵(中英文音素混淆矩阵计算模块11)：第一步到第五步实现了音素聚类的第一遍计算，如果设定中文为源语言，经过上述步骤即得到(中文音素*英文音素)的相似度矩阵；然后交换中英文语言地位，将英文设为源语言重复进行一次上述过程得到(英文音素*中文音素)的相似度矩阵。经过两遍计算后，生成两个相似度矩阵(A_man，eng，A_eng，man)。

第七步，由上述两个矩阵加权得到最后的混淆矩阵：

A_{TCM} = \frac{1}{2} (A_{man, eng} + {A_{eng, man}}^{T}) - - - (4)

第八步，得到混淆矩阵后，根据该矩阵进行音素聚类。如果A_TCM矩阵中i^th行j^th列元素是整个矩阵中的最大元素，这意味着来自相应语言的音素j^th和音素j^th最为相似，因此音素i^th和音素j^th可以聚类成一类；接下来将已聚成一类的音素i^th和音素j^th从矩阵中移出，在余下的矩阵元素中重复进行上述过程，直到聚类数达到要求。

到此，我们基于两遍音素聚类算法TCM，完成了双语间的音素聚类过程，得到了统一的音素集和相应的聚类信息。

第九步，接下来根据得到的两种语言音素间的对应关系，将训练时需要的文本语料以及决策树等信息都映射到统一音素集上，基于这些文件和已有的标准中文、英文数据，重新进行一次标准声学模型训练就可以得到中英双语声学模型(中英文混合声学模型模块12)。然后根据音素间对应关系，整理解码时需要的中文和英文发音字典(混合发音字典模块13)，与已训练好的中英文双语声学模型一起构成一套完整的双语识别系统。该系统可实现对中文语音(中文语音解码模块14)、英文语音(英文语音解码模块15)和中英文混合语音(中英文语音解码模块16)的识别。

在进行的基于给定语法的实网数据测试中显示，基于两遍音素聚类算法TCM的中英文双语识别系统在纯英文测试集上的错误率相对独立英文识别系统下降7％-8％(相对值)；在纯中文测试集上基本保持了独立中文语音识别系统的识别率。在与目前常见的利用对数似然准则进行音素聚类的双语识别系统的比较中，基于两遍音素聚类算法TCM的中英文双语识别系统在纯英文测试集上的错误率相对降低5％-6％；在纯中文测试集上的错误率相对降低<0.5％；在中英文混合测试集上的错误率相对降低12％-13％。

Claims

1、一种基于音素混淆的中英文双语语音识别方法，包括如下步骤：

第一步，采集一定数量的中文语音和英文语音，利用两遍音素聚类算法统计得到中英文混淆矩阵；

第二步，用中文声学模型对中文语音数据进行一遍强制对齐，得到中文音素级分段信息，并称之为中文音素参考信息；

第四步，将第二步和第三步得到的不同语种音素的分段信息在时间上对齐，当某两个音素的重合时间大于预先设定的门限值时，则认为这两个音素出现一次“同现”；

第五步，按照第四步的方法，统计出所有的同现情况并计算得到英文音素对应于中文音素的相似度矩阵；

第六步，基于准备好的英文语音数据，相应的重复第二至第五步，获取中文音素对应于英文音素的相似度矩阵；

第七步，将经过上述第五步和第六步的两遍计算后得到的两个相似度矩阵给与相等权重加权平均，得到最终的混淆度矩阵；

第八步，得到混淆矩阵后，根据该矩阵进行音素聚类；

第九步，根据第八步得到的两种语言音素间的对应关系，将训练时需要的文本语料以及决策树等信息都映射到统一音素集上，基于这些文件和已有的标准中文、英文数据，重新进行训练从而得到中英双语声学模型。

2、按权利要求1所述的基于音素混淆的中英文双语语音识别方法，其特征在于，还包括：

第十步，根据音素间对应关系，整理解码时需要的中文和英文发音字典，与中英文双语声学模型一起构成一套完整的双语识别系统。

3、按权利要求1所述的基于音素混淆的中英文双语语音识别方法，其特征在于，

所述第五步中的计算过程为：若设定M，N分别为中文和英文的音素数量，A_S，T(M，N)为相似度矩阵，A_i，j则为矩阵的第i^th行j^th列元素，若给定英文音素t_j和中文音素s_i，则英文音素对应于中文音素的相似度矩阵可由公式(1)得到：

A_{i, j} = \frac{count (t_{j} | s_{i})}{Σ_{n = 1}^{N} count (t_{n} | s_{i})} - - - (1)

其中，A_i，j∈A_S，T(M，N)，i＝1......M，j＝1......N。count(t_j|s_i)表示中文音素s_i和英文音素t_j之间的同现出现次数。

4、按权利要求1所述的基于音素混淆的中英文双语语音识别方法，其特征在于，所述第七步中获得的最终混淆度矩阵A_TCM为：

A_{TCM} = \frac{1}{2} (A_{man, eng} + {A_{eng, man}}^{T}) - - - (4)

其中，A_TCM记录了来自中文和英文间任意两个音素的混淆程度，该过程利用“两遍音素聚类算法”完成，即，分别对中文和英文都计算一次相似度矩阵后作加权平均。

5、按权利要求1所述的基于音素混淆的中英文双语语音识别方法，其特征在于，

所述第八步中的聚类过程为：若A_TCM矩阵中i^th行j^th列元素是整个矩阵中的最大元素，则认为来自相应语言的音素i^th和音素j^th最为相似，从而将音素i^th和音素j^th聚类成一类；接下来将已聚成一类的音素i^th和音素j^th从矩阵中移出，在余下的矩阵元素中重复进行上述过程，直到聚类数达到要求。