CN108510978B

CN108510978B - 一种应用于语种识别的英语声学模型的建模方法及系统

Info

Publication number: CN108510978B
Application number: CN201810350474.7A
Authority: CN
Inventors: 刘巍巍; 邓妍; 董太清; 周建华; 李林涛; 唐玉建; 吴栋; 王浩; 孙建涛; 赵鹏; 辛艳; 张卫强; 刘加
Original assignee: People's Liberation Army 62315 Unit
Current assignee: People's Liberation Army 62315 Unit
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2020-08-21
Anticipated expiration: 2038-04-18
Also published as: CN108510978A

Abstract

本发明涉及一种应用于语种识别的英语声学模型的建模方法及系统,首先将现有CMU发音字典进行音素分割，形成适合的新的音素细化字典，然后根据音素细化字典对训练语音进行标记，得到标记后训练语音，进行GMM‑HMM模型训练，得到状态数为150‑250的聚类后三音子状态集，然后根据得到的聚类后三音子状态集和标记后训练语音进行DNN‑HMM模型训练；针对语种识别的特殊需求，得到全新的声学模型，应用于语种识别过程，音素识别结果既能有较高的准确性，又能在不同语种中有较好的一致性和稳健性，得到较好的语种识别结果。

Description

一种应用于语种识别的英语声学模型的建模方法及系统

技术领域

本发明属于语种识别领域，特别涉及一种应用于语种识别的英语声学模型的建模方法及系统。

背景技术

并行音素识别器后接向量空间模型语种识别系统通常由多个基于不同音素识别器前端的子系统组成。图1给出了并行音素识别器后接向量空间模型语种识别系统的基本框架。由图1可知，并行音素识别器后接向量空间模型语种识别系统由多个PRVSM子系统融合而成，由每个PRVSM子系统由音素识别、N元文法期望计数、音位结构特征提取、向量空间模型建模以及置信分数融合五个部分组成。音素识别器的识别准确性对语种识别性能影响很大，音素识别器的识别性能主要取决于声学模型的选取。

现有技术中，在语种识别任务中的音素识别器采用的声学模型与语音识别中的声学模型结构是相同的，但是由于两者的识别范围和目标不同，对声学模型在识别时的要求也不一样，主要表现在如下两个方面：(1)语音识别任务只对音素识别器所属的语种进行语音识别，都是语种相关的；而语种识别任务中音素识别器需要对多个语种进行音素识别任务，是语种无关的，要求音素识别结果在不同语种中有较好的一致性和稳健性。(2)语音识别任务中一般识别到字级或词级，语种识别任务一般识别到音素级，因此，他们对音素的不同协同发音现象描述的精细程度不同。因此，语种识别系统中的音素识别器不能照搬语音识别系统的音素识别器，需要对模型按照语种识别任务的特殊需求进行调整，使得音素识别结果在不同语种中有较好的一致性和稳健性，得到较好的语种识别结果。

发明内容

为了解决上述问题，本发明提供了一种应用于语种识别的英语声学模型的建模方法，具体方案如下：

一种应用于语种识别的英语声学模型的建模方法，包括如下步骤：

S1、根据英语口语缩减形式理论将CMU发音字典的音素进行分割，形成音素细化字典；

S2、基于音素细化字典对训练语音进行标注，得到标注后训练语音；

S3、使用标注后训练语音进行GMM-HMM声学模型训练，训练过程中对声学模型进行三音子状态聚类，设置聚类门限值，最终得到状态数为150-250的聚类后三音子状态集；

S4、基于标注后训练语音和三音子状态集作为训练数据，进行DNN-HMM模型训练，得到应用于语种识别的英语声学模型。

优选地，GMM-HMM声学模型和DNN-HMM模型均采用上下文相关的模型进行训练。

英语口语缩减形式理论包括如下五种类型：

(1)缩约：缩约是唯一存在于英语书写中的口语缩减形式，发生缩约现象的单词主要有助动词、情态动词和否定副词等词性的单词，发生缩约现象时该单词会简化并与前面的单词合并，并用符号“'”替代，如“I+am→I'm([ay][aem]→[aym])”“he+will→he'll([hhiy][wihl]→[hhiyl])”等等。

(2)省略：省略是将单词的某些音节略去，在口语中表现为不发声；其发生规律为(a)当音素[n]和音素[t]连在一起发音时，音素[t]会被省略，如“want([waont]→[waon])”；(b)相邻两单词中，若前一个单词以爆破音结尾，后一单词以辅音开头，前一个单词的爆破音会被省略，如“sit+down([siht][dawn]→[sihdawn])”；(c)单词词首的非重音音节会被省略，如“about([axbawt]→[bawt])”。

(3)连音：指两个相邻单词的首尾连接在一起发音，连音主要发生在以下两种上下文环境中：(a)如果前一个单词词尾为辅音，后一个单词词头为元音，则词尾辅音和词头元音一起发音，如“read+it([riyd][iht]→[riy]+[diht])”。但是这种情况下发音音素并没有改变，因此不在本文音素识别器设计考虑的范围内。(b)如果前一个单词词尾和后一个单词词头发音相同或相似，则两个发音会自然连接为一个发音，如“at+two([aet][tuw]→[aetuw])”。

(4)同化：同化是指两个相邻单词首尾发音之间互相影响而带来的发音变化；同化分为如下两种：(a)退化同化，两个相邻单词前一个单词词尾发音为浊音，后一个单词词头为清音，则浊音被后一个单词词头影响而清音化，如：“have+to([hhaev][tax]→[hhaef]+[tax])”。(b)合并同化，当[s]、[z]、[t]、[ts]、[d]、[dz]与[y]相连时，同化为另一个发音，如：“course+you([kaors][yuw]→[kaorshuw])”等。

(5)弱化：英语中的虚词(如连词、冠词、介词、人称代词、关系代词、助动词以及情态动词等)在口语中除了在某些被特殊强调的情况下，一般都会采取弱化的发音方式，其发音会被省略或者替换(元音发音一般变为对应的短元音或者中性元音)，如：“as([aez]→[axz])”，“this([dhihs]→[dhih])”等。

进一步地，音素细化字典包含58音素，相对于CMU发音字典增加如下19个音素：

dx，两个元音之间的d或者三个连续辅音中间的t变为dx，发音示例：muddy,dirty；

q，辅音末尾的t，发音示例：bat；

em，/m/前的短ah音和后面的辅音合并成一个音素，发音示例：bottom；

en，/n/前的短ah音和后面的辅音合并成一个音素，发音示例：button；

ing，/ih/和/ng/为相邻音素连续发音时,合并为ing，发音示例：washington；

nx，两个元音之间的n，发音示例：winner；

hv，两个元音之间的hh，发音示例：ahead；

el，/l/前的短ah音和后面的辅音合并成一个音素，发音示例：bottle；

ux，辅音前的uw，发音示例：toot；

ax，齿槽音前的非重读ah，发音示例：about，“ahead”可拆分音素如下：/axhheh1d/；

ix，齿槽音(t,d,n,l,s,z,r,sh,ch,j)前的非重读ih，发音示例：“roses”拆分音素如下：/row1zixz/；

axr，(1)/axr/在非重读音节时，/er/在非重读音节时；(2)/r/接在双元音后时/aw/("hour")，/ay/("fire")发音转化成/axr/,除了/r/是单词的首音节"irate"and"virus"的情况；发音示例：butter,your；

ah，两个辅音之间axh，发音示例：suspect；

bcl，/b/和/l/为相邻音素连续发音时,合并为bcl，发音示例：table；

dcl、gcl、pcl、tcl和kcl，与bcl相同。

进一步地，将58音素进行进一步调节，调节为53音素，所述音素细化字典相对于CMU发音字典增加如下14个音素：q、em、en、ing、el、ax、ix、axr、ang、eng、ong、iyr、ihr、ehr；其中，ang、eng、ong、iyr、ihr、ehr均为相邻音素连续发音时的连音调节，/ae/和/ng/作为相邻音素连续发音时，合并为ang，/eh/和/ng/合并为eng，/ao/和/ng/合并为ong，/aa/和/ng/合并为ong(部分对应ang)，/iy/和/r/合并为iyr，/ih/和/r/合并为ihr，/eh/和/r/合并为ehr；

进一步地，所述音素细化字典包含51音素，相对于CMU发音字典增加如下12个音素：q、em、en、ing、el、ax、ix、axr、dz、dr、ts、tr，其中dz、dr、ts、tr均相邻音素连续发音时的连音调节，/d/和/z/合并为dz，/d/和/r/合并为dr，/t/和/s/合并为ts，/t/和/r/合并为tr。

本发明还提供一种针对语种识别需求的英语声学建模系统，所述英语声学建模系统包括：

字典获取模块，用于收集经过英语口语缩减形式理论将CMU发音字典的音素进行分割后的音素，形成音素细化字典；语音标注模块，使用音素细化字典对训练语音进行标注，得到标注后训练语音；

GMM-HMM训练模块，使用标注后训练语音进行GMM-HMM声学模型训练，训练过程中对声学模型进行三音子状态聚类，设置聚类门限值，得到状态数为150-250的聚类后三音子状态集；

DNN-HMM训练模块，基于标注后训练语音和聚类后三音子状态集作为训练数据，进行DNN-HMM模型训练，得到应用于语种识别的英语声学模型。

本发明提供的针对语种识别需求的英语声学建模方法和系统，针对语种识别的特殊需求，首先根据口语变化后的发音规则，对现有的英语发音字典进行音素分割得到新的发音字典，根据新的发音字典对训练语音进行标注，并设定三音子聚类的状态数为150-250，进行模型训练，得到全新的声学模型，应用于语种识别过程，音素识别结果既能有较高的准确性，又能在不同语种中有较好的一致性和稳健性，得到较好的语种识别结果。

附图说明

图1.现有并行音素识别器后接向量空间模型语种识别系统图；

图2.实施例1的英语声学模型的建模方法流程示意图；

图3.实施例2的英语声学模型建模方法和音素识别流程示意图；

图4.实施例3的英语声学模型的建模系统各模块连接关系图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述，下列实施例仅用于解释本发明的发明内容，不用于限定本发明的保护范围。

实施例1

如图2所示，本实施例提供一种应用于语种识别的英语声学模型的建模方法，首先将现有CMU发音字典进行音素分割，形成适合的新的音素细化字典，然后根据音素细化字典对训练语音进行标记，并进行GMM-HMM模型训练，然后根据得到的聚类后三音子状态集进行DNN-HMM模型训练，具体包括如下步骤：

在实际的英语训练数据中，常常出现英语口语与标准发音字典中标注的发音不同的情况，这是口语发音中发音变化的正常现象，在口语中变化后的发音被称为英语口语的缩减形式(Reduced Forms，RF)，常见的英语口语的缩减形式有缩约、省略、同化、弱化等，本文吸收CMU字典单词多和TIMIT字典发音音素集描述详细的特点，以CMU字典为基础，参考TIMIT与CMU字典音素集之间对应关系，将CMU字典中的发音标注进行了细分，得到音素细化字典；CMU字典与英语音标之间的关系、CMU字典和TIMIT字典的符号集以及包含的音素内容本文不做详细描述。

S3、使用标注后训练语音进行GMM-HMM声学模型训练，训练过程中对声学模型进行三音子状态聚类，设置聚类门限值，最终得到状态数为150-250的聚类后三音子状态集；GMM-HMM模型可以采用最大似然训练得到，三音子状态聚类可以采用二叉决策树实现；

S4、基于标注后训练语音和三音子状态集作为训练数据，进行DNN-HMM模型训练，得到应用于语种识别的英语音素识别器的声学模型。

在DNN训练过程中，三音子s的后验概率在给定观察目标o的情况下被有L个隐含层的DNN建模。当输出层通过Softmax归一化生成后验概率时，这L个隐含层进行特征变换。DNN的训练过程是最优化交叉熵函数：

这里对于非目标状态d_s等于0，对于目标状态d_s等于1。对于测试阶段，对于观察所得o，该状态的前向概率p(o|s)由下式计算得到：

这里p(s)是该状态的先验概率，由基于状态强制对齐的GMM-HMM状态计算属于状态s的帧，p(o)是观察概率，可以忽略不计。作为示例性，步骤S4训练的详细步骤如下：

(1)训练一个好的状态绑定的CD-GMM-HMM系统，这里状态捆绑是基于数据驱动的二叉决策树。标注CD-GMM-HMM模型；

(2)解析GMM-HMM模型，给每个三音子状态的聚类一个序列号，这种序列号的编号从0开始。这种序列号名用于DNN训练中fine-tuning函数的训练标识。命名为align-raw文件；

(3)解析GMM-HMM模型，产生从每个物理三音子状态到相应的三音子状态序列号的映射。命名为state2id文件；

(4)将GMM-HMM模型转换成dnn-hmm1的模型；

(5)从低到高一次预训练DNN的每一层，将结果命名为ptdnn；

(6)用GMM-HMM模型对训练集产生状态级对准，命名为align-raw文件；

(7)将align-raw文件中的每个物理三音子状态转换成数字序号，命名为align文件；

(8)用align文件中的每帧的三音子状态序列号来fine-tuneDBN，用后向传播方法或其他方法，从ptdnn开始；将DBN标记为dnn。

(9)估计先验概率p(s_i)＝n(s_i)/n，这里n(s_i)是三音子s_i在align文件中的帧数，n是总帧数。

(10)用dnn和dnn-hmm₁重新估计转移概率来最大化观察特征的转移概率。将新的模型标记为dnn-hmm₂.

(11)如果在开发集上的识别准确率没有提升，就退出训练系统；反之用dnn和dnn-hmm₂对训练集产生一个新的状态级对准文件align-raw跳至第七步。

本实施例所提供的音素细化字典，可以为如下几个字典中的一个：

58音素字典，其中39个音素与CMU发音字典内的音素相同，还包括如下19个音素：dx、q、em、en、ing、nx、hv、el、ux、ax、ix、axr、ah、bcl、dcl、gcl、pcl、tcl、kcl。

53音素字典，其中39个音素与CMU发音字典内的音素相同，还包括如下14个音素：q、em、en、ing、el、ax、ix、ang、axr、eng、ong、iyr、ihr、ehr。

51音素字典，其中39个音素与CMU发音字典内的音素相同，还包括如下12个音素：q、em、en、ing、el、ax、ix、axr、dz、dr、ts、tr。

实施例2

本实施例所提供的应用于语种识别的英语声学模型的建模方法，如图3所示，与实施例1的区别在于，在步骤S1和S2之间还包括S201步骤，

S201、对音素细化字典内的58个音素进行音素聚类，得到音素数为46-47的聚类后音素细化字典；

聚类后音素细化字典将实施例1中与CMU字典不同的19个音素聚类为如下8个音素：q、em、en、ing、el、ax、ix、axr；还可以进一步的聚类为如下7个音素：em、en、ing、el、ax、ix、axr。

所述S2步骤中标注后训练语音是通过使用聚类后音素细化字典对训练语音进行标注而得到的。

对于音素聚类，本实施例可以采用基于状态时间对准的音素聚类(State-Time-Alignment Clustering，STAC)基于状态时间对准的音素聚类方法是对Bhattacharyya距离测度进行改进，在基于状态时间对准的音素聚类算法中，任意两个音素p和音素q的模型之间的距离定义为：

其中c(p_j,q_k)表示音素p的第个j(j＝1,2,3)状态和音素q的第个k(k＝1,2,3)状态重叠的次数，其表达式如下：

其中，Ti表示音素p的第i段训练数据的结束时间，

和

分别为音素p的第个j状态和音素q的第个k状态的状态占有率；

D(p_j,q_k)表示音素p的第个j状态和音素q的第个k状态的Bhattacharyya距离，其表达式如下：

其中，

分别为音素p的第个j状态的高斯模型均值和方差。

实施例3

如图4示，本实施例提供一种应用于语种识别的英语声学模型的建模系统，包括：

字典获取模块301，用于收集经过英语口语缩减形式理论将CMU发音字典的音素进行分割后的音素，形成音素细化字典；

音素聚类模块302，用于将音素细化字典内所有音素进行聚类，形成聚类后音素细化字典；语音标注模块303，使用聚类后音素细化字典对训练语音进行标注，得到标注后训练语音；

GMM-HMM训练模块304，使用标注后训练语音进行GMM-HMM声学模型训练，训练过程中对声学模型进行三音子状态聚类，设置聚类门限值，得到状态数为150-250的聚类后三音子状态集；

DNN-HMM训练模块305，基于标注后训练语音和聚类后三音子状态集作为训练数据，进行DNN-HMM模型训练，得到应用于语种识别的英语声学模型。

本实施例的音素细化字典可以为58音素字典，其中39个音素与CMU发音字典内的音素相同，还包括如下19个音素：dx、q、em、en、ing、nx、hv、el、ux、ax、ix、axr、ah、bcl、dcl、gcl、pcl、tcl、kcl。

聚类后音素细化字典将与CMU字典不同的19个音素聚类为如下8个音素：q、em、en、ing、el、ax、ix、axr；还可以进一步的聚类为如下7个音素：em、en、ing、el、ax、ix、axr。

试验例

采用本发明所提供的声学建模方法，采用13维PLP(c₀-c₁₂)、13维一阶差分PLP、13维二阶差分PLP共39维PLP特征作为声学特征，对输入的特征进行了均值归一化为零和单位方差归一化处理；GMM-HMM声学模型采用三状态的GMM-HMM模型来对音素进行建模，包括了从144状态到9308状态，每个状态有32个高斯分量；GMM-HMM模型是用最大似然训练得到的，然后ML训练的模型用来产生后续DNN训练需要的状态对齐标注；应用CUDAmat库来实现DNN训练，训练之前利用DBN进行预学习，采用了大约Switchboard训练数据库约300小时的数据用于训练，在fine-tuning阶段采用0.2的学习速率，得到应用于语种识别的不同参数的不同声学模型，在NISTLRE 2009测试库上用23个语种的语音来验证不同声学模型的语种识别性能，采用的参数为等错误概率EER(Equal Error Rate)和平均检测代价Cavg(minimumaverage cost)，不同声学模型所采用的参数及检测结果见表1。

表1不同声学模型参数数据及语种识别结果

其中，字典音素数的58、53、51、47和46分别为实施例1和实施例2中涉及的音素细化字典的声学模型；39音素数为采用CMU发音字典进行标注的声学模型，45音素数为采用TIMIT发音字典进行标注的声学模型，试验中，30s、10s和3s分别为测试语音的长短。

由上述试验结果可知，本发明提供的声学建模方法，音素细化字典、聚类后三音子状态数和训练模型三个特征相互配合，得到的声学模型，在语音识别方面性能优良，具有较高的稳健性和泛化能力。在语音识别中性能较优的声学模型例如试验例8所提供的声学模型，在语种识别中并不合适。

在试验过程中可知，采用CMU发音字典和TIMIT发音字典进行标注的声学模型，将三音子状态数下降到150后，音素识别的准确性下降，语种识别中泛化能力也一般，在将发音字典分割为58-47音素后，在状态数为150条件下，对英语音素的识别性能大大增加，同时语种识别性能也增加；其中当音素数为47个时，语种识别性能最佳，语种泛化能力和语音识别能力达到最佳平衡点。对三音子状态数进行考察，发现状态数下降到150-250之间，语种识别性能较佳，其中状态数为150效果最优。另外还对训练模型及模型基本参数进行考察，当音素数设置为47、状态数为150时，采用DNN-HMM模型，且模型隐含层为5层，窗长为21帧时，语种识别性能最佳，尤其是在长语音识别方面性能提升效果更为明显。

Claims

1.一种应用于语种识别的英语声学模型的建模方法，其特征在于，包括如下步骤：

2.如权利要求1所述的应用于语种识别的英语声学模型的建模方法，其特征在于，所述音素细化字典相对于CMU发音字典增加如下19个音素：dx、q、em、en、ing、nx、hv、el、ux、ax、ix、axr、ah、bcl、dcl、gcl、pcl、tcl、kcl。

3.如权利要求1所述的应用于语种识别的英语声学模型的建模方法，其特征在于，所述音素细化字典相对于CMU发音字典增加如下14个音素：q、em、en、ing、el、ax、ix、ang、axr、eng、ong、iyr、ihr、ehr。

4.如权利要求1所述的应用于语种识别的英语声学模型的建模方法，其特征在于，所述音素细化字典相对于CMU发音字典增加如下12个音素：q、em、en、ing、el、ax、ix、axr、dz、dr、ts、tr。

5.如权利要求2所述的应用于语种识别的英语声学模型的建模方法，其特征在于，在步骤S1和S2之间还包括S201步骤，

6.如权利要求5所述的应用于语种识别的英语声学模型的建模方法，其特征在于，所述聚类后音素细化字典相对于CMU发音字典增加如下8个音素：q、em、en、ing、el、ax、ix、axr。

7.如权利要求5所述的应用于语种识别的英语声学模型的建模方法，其特征在于，所述聚类后音素细化字典相对于CMU发音字典增加如下7个音素：em、en、ing、el、ax、ix、axr。

8.如权利要求1-7任一所述的应用于语种识别的英语声学模型的建模方法，其特征在于，所述DNN-HMM模型包含5个隐含层，窗长为21帧。

9.一种针对语种识别需求的英语声学建模系统，其特征在于，所述英语声学建模系统包括：

字典获取模块（301），用于收集经过英语口语缩减形式理论将CMU发音字典的音素进行分割后的音素，形成音素细化字典；语音标注模块（303），使用音素细化字典对训练语音进行标注，得到标注后训练语音；

GMM-HMM训练模块（304），使用标注后训练语音进行GMM-HMM声学模型训练，训练过程中对声学模型进行三音子状态聚类，设置聚类门限值，得到状态数为150-250的聚类后三音子状态集；

DNN-HMM训练模块（305），基于标注后训练语音和聚类后三音子状态集作为训练数据，进行DNN-HMM模型训练，得到应用于语种识别的英语声学模型。

10.如权利要求9所述的针对语种识别需求的英语声学建模系统，其特征在于，所述英语声学建模系统还包括：

音素聚类模块（302），用于将音素细化字典内所有音素进行聚类，形成聚类后音素细化字典；

所述语音标注模块（303），使用聚类后音素细化字典对训练语音进行标注，得到标注后训练语音。