CN108510978B - 一种应用于语种识别的英语声学模型的建模方法及系统 - Google Patents

一种应用于语种识别的英语声学模型的建模方法及系统 Download PDF

Info

Publication number
CN108510978B
CN108510978B CN201810350474.7A CN201810350474A CN108510978B CN 108510978 B CN108510978 B CN 108510978B CN 201810350474 A CN201810350474 A CN 201810350474A CN 108510978 B CN108510978 B CN 108510978B
Authority
CN
China
Prior art keywords
phoneme
dictionary
training
english
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810350474.7A
Other languages
English (en)
Other versions
CN108510978A (zh
Inventor
刘巍巍
邓妍
董太清
周建华
李林涛
唐玉建
吴栋
王浩
孙建涛
赵鹏
辛艳
张卫强
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's Liberation Army 62315 Unit
Original Assignee
People's Liberation Army 62315 Unit
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People's Liberation Army 62315 Unit filed Critical People's Liberation Army 62315 Unit
Priority to CN201810350474.7A priority Critical patent/CN108510978B/zh
Publication of CN108510978A publication Critical patent/CN108510978A/zh
Application granted granted Critical
Publication of CN108510978B publication Critical patent/CN108510978B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种应用于语种识别的英语声学模型的建模方法及系统,首先将现有CMU发音字典进行音素分割,形成适合的新的音素细化字典,然后根据音素细化字典对训练语音进行标记,得到标记后训练语音,进行GMM‑HMM模型训练,得到状态数为150‑250的聚类后三音子状态集,然后根据得到的聚类后三音子状态集和标记后训练语音进行DNN‑HMM模型训练;针对语种识别的特殊需求,得到全新的声学模型,应用于语种识别过程,音素识别结果既能有较高的准确性,又能在不同语种中有较好的一致性和稳健性,得到较好的语种识别结果。

Description

一种应用于语种识别的英语声学模型的建模方法及系统
技术领域
本发明属于语种识别领域,特别涉及一种应用于语种识别的英语声学模型的建模方法及系统。
背景技术
并行音素识别器后接向量空间模型语种识别系统通常由多个基于不同音素识别器前端的子系统组成。图1给出了并行音素识别器后接向量空间模型语种识别系统的基本框架。由图1可知,并行音素识别器后接向量空间模型语种识别系统由多个PRVSM子系统融合而成,由每个PRVSM子系统由音素识别、N元文法期望计数、音位结构特征提取、向量空间模型建模以及置信分数融合五个部分组成。音素识别器的识别准确性对语种识别性能影响很大,音素识别器的识别性能主要取决于声学模型的选取。
现有技术中,在语种识别任务中的音素识别器采用的声学模型与语音识别中的声学模型结构是相同的,但是由于两者的识别范围和目标不同,对声学模型在识别时的要求也不一样,主要表现在如下两个方面:(1)语音识别任务只对音素识别器所属的语种进行语音识别,都是语种相关的;而语种识别任务中音素识别器需要对多个语种进行音素识别任务,是语种无关的,要求音素识别结果在不同语种中有较好的一致性和稳健性。(2)语音识别任务中一般识别到字级或词级,语种识别任务一般识别到音素级,因此,他们对音素的不同协同发音现象描述的精细程度不同。因此,语种识别系统中的音素识别器不能照搬语音识别系统的音素识别器,需要对模型按照语种识别任务的特殊需求进行调整,使得音素识别结果在不同语种中有较好的一致性和稳健性,得到较好的语种识别结果。
发明内容
为了解决上述问题,本发明提供了一种应用于语种识别的英语声学模型的建模方法,具体方案如下:
一种应用于语种识别的英语声学模型的建模方法,包括如下步骤:
S1、根据英语口语缩减形式理论将CMU发音字典的音素进行分割,形成音素细化字典;
S2、基于音素细化字典对训练语音进行标注,得到标注后训练语音;
S3、使用标注后训练语音进行GMM-HMM声学模型训练,训练过程中对声学模型进行三音子状态聚类,设置聚类门限值,最终得到状态数为150-250的聚类后三音子状态集;
S4、基于标注后训练语音和三音子状态集作为训练数据,进行DNN-HMM模型训练,得到应用于语种识别的英语声学模型。
优选地,GMM-HMM声学模型和DNN-HMM模型均采用上下文相关的模型进行训练。
英语口语缩减形式理论包括如下五种类型:
(1)缩约:缩约是唯一存在于英语书写中的口语缩减形式,发生缩约现象的单词主要有助动词、情态动词和否定副词等词性的单词,发生缩约现象时该单词会简化并与前面的单词合并,并用符号“'”替代,如“I+am→I'm([ay][aem]→[aym])”“he+will→he'll([hhiy][wihl]→[hhiyl])”等等。
(2)省略:省略是将单词的某些音节略去,在口语中表现为不发声;其发生规律为(a)当音素[n]和音素[t]连在一起发音时,音素[t]会被省略,如“want([waont]→[waon])”;(b)相邻两单词中,若前一个单词以爆破音结尾,后一单词以辅音开头,前一个单词的爆破音会被省略,如“sit+down([siht][dawn]→[sihdawn])”;(c)单词词首的非重音音节会被省略,如“about([axbawt]→[bawt])”。
(3)连音:指两个相邻单词的首尾连接在一起发音,连音主要发生在以下两种上下文环境中:(a)如果前一个单词词尾为辅音,后一个单词词头为元音,则词尾辅音和词头元音一起发音,如“read+it([riyd][iht]→[riy]+[diht])”。但是这种情况下发音音素并没有改变,因此不在本文音素识别器设计考虑的范围内。(b)如果前一个单词词尾和后一个单词词头发音相同或相似,则两个发音会自然连接为一个发音,如“at+two([aet][tuw]→[aetuw])”。
(4)同化:同化是指两个相邻单词首尾发音之间互相影响而带来的发音变化;同化分为如下两种:(a)退化同化,两个相邻单词前一个单词词尾发音为浊音,后一个单词词头为清音,则浊音被后一个单词词头影响而清音化,如:“have+to([hhaev][tax]→[hhaef]+[tax])”。(b)合并同化,当[s]、[z]、[t]、[ts]、[d]、[dz]与[y]相连时,同化为另一个发音,如:“course+you([kaors][yuw]→[kaorshuw])”等。
(5)弱化:英语中的虚词(如连词、冠词、介词、人称代词、关系代词、助动词以及情态动词等)在口语中除了在某些被特殊强调的情况下,一般都会采取弱化的发音方式,其发音会被省略或者替换(元音发音一般变为对应的短元音或者中性元音),如:“as([aez]→[axz])”,“this([dhihs]→[dhih])”等。
进一步地,音素细化字典包含58音素,相对于CMU发音字典增加如下19个音素:
dx,两个元音之间的d或者三个连续辅音中间的t变为dx,发音示例:muddy,dirty;
q,辅音末尾的t,发音示例:bat;
em,/m/前的短ah音和后面的辅音合并成一个音素,发音示例:bottom;
en,/n/前的短ah音和后面的辅音合并成一个音素,发音示例:button;
ing,/ih/和/ng/为相邻音素连续发音时,合并为ing,发音示例:washington;
nx,两个元音之间的n,发音示例:winner;
hv,两个元音之间的hh,发音示例:ahead;
el,/l/前的短ah音和后面的辅音合并成一个音素,发音示例:bottle;
ux,辅音前的uw,发音示例:toot;
ax,齿槽音前的非重读ah,发音示例:about,“ahead”可拆分音素如下:/axhheh1d/;
ix,齿槽音(t,d,n,l,s,z,r,sh,ch,j)前的非重读ih,发音示例:“roses”拆分音素如下:/row1zixz/;
axr,(1)/axr/在非重读音节时,/er/在非重读音节时;(2)/r/接在双元音后时/aw/("hour"),/ay/("fire")发音转化成/axr/,除了/r/是单词的首音节"irate"and"virus"的情况;发音示例:butter,your;
ah,两个辅音之间axh,发音示例:suspect;
bcl,/b/和/l/为相邻音素连续发音时,合并为bcl,发音示例:table;
dcl、gcl、pcl、tcl和kcl,与bcl相同。
进一步地,将58音素进行进一步调节,调节为53音素,所述音素细化字典相对于CMU发音字典增加如下14个音素:q、em、en、ing、el、ax、ix、axr、ang、eng、ong、iyr、ihr、ehr;其中,ang、eng、ong、iyr、ihr、ehr均为相邻音素连续发音时的连音调节,/ae/和/ng/作为相邻音素连续发音时,合并为ang,/eh/和/ng/合并为eng,/ao/和/ng/合并为ong,/aa/和/ng/合并为ong(部分对应ang),/iy/和/r/合并为iyr,/ih/和/r/合并为ihr,/eh/和/r/合并为ehr;
进一步地,所述音素细化字典包含51音素,相对于CMU发音字典增加如下12个音素:q、em、en、ing、el、ax、ix、axr、dz、dr、ts、tr,其中dz、dr、ts、tr均相邻音素连续发音时的连音调节,/d/和/z/合并为dz,/d/和/r/合并为dr,/t/和/s/合并为ts,/t/和/r/合并为tr。
本发明还提供一种针对语种识别需求的英语声学建模系统,所述英语声学建模系统包括:
字典获取模块,用于收集经过英语口语缩减形式理论将CMU发音字典的音素进行分割后的音素,形成音素细化字典;语音标注模块,使用音素细化字典对训练语音进行标注,得到标注后训练语音;
GMM-HMM训练模块,使用标注后训练语音进行GMM-HMM声学模型训练,训练过程中对声学模型进行三音子状态聚类,设置聚类门限值,得到状态数为150-250的聚类后三音子状态集;
DNN-HMM训练模块,基于标注后训练语音和聚类后三音子状态集作为训练数据,进行DNN-HMM模型训练,得到应用于语种识别的英语声学模型。
本发明提供的针对语种识别需求的英语声学建模方法和系统,针对语种识别的特殊需求,首先根据口语变化后的发音规则,对现有的英语发音字典进行音素分割得到新的发音字典,根据新的发音字典对训练语音进行标注,并设定三音子聚类的状态数为150-250,进行模型训练,得到全新的声学模型,应用于语种识别过程,音素识别结果既能有较高的准确性,又能在不同语种中有较好的一致性和稳健性,得到较好的语种识别结果。
附图说明
图1.现有并行音素识别器后接向量空间模型语种识别系统图;
图2.实施例1的英语声学模型的建模方法流程示意图;
图3.实施例2的英语声学模型建模方法和音素识别流程示意图;
图4.实施例3的英语声学模型的建模系统各模块连接关系图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述,下列实施例仅用于解释本发明的发明内容,不用于限定本发明的保护范围。
实施例1
如图2所示,本实施例提供一种应用于语种识别的英语声学模型的建模方法,首先将现有CMU发音字典进行音素分割,形成适合的新的音素细化字典,然后根据音素细化字典对训练语音进行标记,并进行GMM-HMM模型训练,然后根据得到的聚类后三音子状态集进行DNN-HMM模型训练,具体包括如下步骤:
S1、根据英语口语缩减形式理论将CMU发音字典的音素进行分割,形成音素细化字典;
在实际的英语训练数据中,常常出现英语口语与标准发音字典中标注的发音不同的情况,这是口语发音中发音变化的正常现象,在口语中变化后的发音被称为英语口语的缩减形式(Reduced Forms,RF),常见的英语口语的缩减形式有缩约、省略、同化、弱化等,本文吸收CMU字典单词多和TIMIT字典发音音素集描述详细的特点,以CMU字典为基础,参考TIMIT与CMU字典音素集之间对应关系,将CMU字典中的发音标注进行了细分,得到音素细化字典;CMU字典与英语音标之间的关系、CMU字典和TIMIT字典的符号集以及包含的音素内容本文不做详细描述。
S2、基于音素细化字典对训练语音进行标注,得到标注后训练语音;
S3、使用标注后训练语音进行GMM-HMM声学模型训练,训练过程中对声学模型进行三音子状态聚类,设置聚类门限值,最终得到状态数为150-250的聚类后三音子状态集;GMM-HMM模型可以采用最大似然训练得到,三音子状态聚类可以采用二叉决策树实现;
S4、基于标注后训练语音和三音子状态集作为训练数据,进行DNN-HMM模型训练,得到应用于语种识别的英语音素识别器的声学模型。
在DNN训练过程中,三音子s的后验概率在给定观察目标o的情况下被有L个隐含层的DNN建模。当输出层通过Softmax归一化生成后验概率时,这L个隐含层进行特征变换。DNN的训练过程是最优化交叉熵函数:
Figure BDA0001633277430000081
这里对于非目标状态ds等于0,对于目标状态ds等于1。对于测试阶段,对于观察所得o,该状态的前向概率p(o|s)由下式计算得到:
Figure BDA0001633277430000082
这里p(s)是该状态的先验概率,由基于状态强制对齐的GMM-HMM状态计算属于状态s的帧,p(o)是观察概率,可以忽略不计。作为示例性,步骤S4训练的详细步骤如下:
(1)训练一个好的状态绑定的CD-GMM-HMM系统,这里状态捆绑是基于数据驱动的二叉决策树。标注CD-GMM-HMM模型;
(2)解析GMM-HMM模型,给每个三音子状态的聚类一个序列号,这种序列号的编号从0开始。这种序列号名用于DNN训练中fine-tuning函数的训练标识。命名为align-raw文件;
(3)解析GMM-HMM模型,产生从每个物理三音子状态到相应的三音子状态序列号的映射。命名为state2id文件;
(4)将GMM-HMM模型转换成dnn-hmm1的模型;
(5)从低到高一次预训练DNN的每一层,将结果命名为ptdnn;
(6)用GMM-HMM模型对训练集产生状态级对准,命名为align-raw文件;
(7)将align-raw文件中的每个物理三音子状态转换成数字序号,命名为align文件;
(8)用align文件中的每帧的三音子状态序列号来fine-tuneDBN,用后向传播方法或其他方法,从ptdnn开始;将DBN标记为dnn。
(9)估计先验概率p(si)=n(si)/n,这里n(si)是三音子si在align文件中的帧数,n是总帧数。
(10)用dnn和dnn-hmm1重新估计转移概率来最大化观察特征的转移概率。将新的模型标记为dnn-hmm2.
(11)如果在开发集上的识别准确率没有提升,就退出训练系统;反之用dnn和dnn-hmm2对训练集产生一个新的状态级对准文件align-raw跳至第七步。
本实施例所提供的音素细化字典,可以为如下几个字典中的一个:
58音素字典,其中39个音素与CMU发音字典内的音素相同,还包括如下19个音素:dx、q、em、en、ing、nx、hv、el、ux、ax、ix、axr、ah、bcl、dcl、gcl、pcl、tcl、kcl。
53音素字典,其中39个音素与CMU发音字典内的音素相同,还包括如下14个音素:q、em、en、ing、el、ax、ix、ang、axr、eng、ong、iyr、ihr、ehr。
51音素字典,其中39个音素与CMU发音字典内的音素相同,还包括如下12个音素:q、em、en、ing、el、ax、ix、axr、dz、dr、ts、tr。
实施例2
本实施例所提供的应用于语种识别的英语声学模型的建模方法,如图3所示,与实施例1的区别在于,在步骤S1和S2之间还包括S201步骤,
S201、对音素细化字典内的58个音素进行音素聚类,得到音素数为46-47的聚类后音素细化字典;
聚类后音素细化字典将实施例1中与CMU字典不同的19个音素聚类为如下8个音素:q、em、en、ing、el、ax、ix、axr;还可以进一步的聚类为如下7个音素:em、en、ing、el、ax、ix、axr。
所述S2步骤中标注后训练语音是通过使用聚类后音素细化字典对训练语音进行标注而得到的。
对于音素聚类,本实施例可以采用基于状态时间对准的音素聚类(State-Time-Alignment Clustering,STAC)基于状态时间对准的音素聚类方法是对Bhattacharyya距离测度进行改进,在基于状态时间对准的音素聚类算法中,任意两个音素p和音素q的模型之间的距离定义为:
Figure BDA0001633277430000111
其中c(pj,qk)表示音素p的第个j(j=1,2,3)状态和音素q的第个k(k=1,2,3)状态重叠的次数,其表达式如下:
Figure BDA0001633277430000112
其中,Ti表示音素p的第i段训练数据的结束时间,
Figure BDA0001633277430000113
Figure BDA0001633277430000114
分别为音素p的第个j状态和音素q的第个k状态的状态占有率;
D(pj,qk)表示音素p的第个j状态和音素q的第个k状态的Bhattacharyya距离,其表达式如下:
Figure BDA0001633277430000115
其中,
Figure BDA0001633277430000116
分别为音素p的第个j状态的高斯模型均值和方差。
实施例3
如图4示,本实施例提供一种应用于语种识别的英语声学模型的建模系统,包括:
字典获取模块301,用于收集经过英语口语缩减形式理论将CMU发音字典的音素进行分割后的音素,形成音素细化字典;
音素聚类模块302,用于将音素细化字典内所有音素进行聚类,形成聚类后音素细化字典;语音标注模块303,使用聚类后音素细化字典对训练语音进行标注,得到标注后训练语音;
GMM-HMM训练模块304,使用标注后训练语音进行GMM-HMM声学模型训练,训练过程中对声学模型进行三音子状态聚类,设置聚类门限值,得到状态数为150-250的聚类后三音子状态集;
DNN-HMM训练模块305,基于标注后训练语音和聚类后三音子状态集作为训练数据,进行DNN-HMM模型训练,得到应用于语种识别的英语声学模型。
本实施例的音素细化字典可以为58音素字典,其中39个音素与CMU发音字典内的音素相同,还包括如下19个音素:dx、q、em、en、ing、nx、hv、el、ux、ax、ix、axr、ah、bcl、dcl、gcl、pcl、tcl、kcl。
聚类后音素细化字典将与CMU字典不同的19个音素聚类为如下8个音素:q、em、en、ing、el、ax、ix、axr;还可以进一步的聚类为如下7个音素:em、en、ing、el、ax、ix、axr。
试验例
采用本发明所提供的声学建模方法,采用13维PLP(c0-c12)、13维一阶差分PLP、13维二阶差分PLP共39维PLP特征作为声学特征,对输入的特征进行了均值归一化为零和单位方差归一化处理;GMM-HMM声学模型采用三状态的GMM-HMM模型来对音素进行建模,包括了从144状态到9308状态,每个状态有32个高斯分量;GMM-HMM模型是用最大似然训练得到的,然后ML训练的模型用来产生后续DNN训练需要的状态对齐标注;应用CUDAmat库来实现DNN训练,训练之前利用DBN进行预学习,采用了大约Switchboard训练数据库约300小时的数据用于训练,在fine-tuning阶段采用0.2的学习速率,得到应用于语种识别的不同参数的不同声学模型,在NISTLRE 2009测试库上用23个语种的语音来验证不同声学模型的语种识别性能,采用的参数为等错误概率EER(Equal Error Rate)和平均检测代价Cavg(minimumaverage cost),不同声学模型所采用的参数及检测结果见表1。
表1不同声学模型参数数据及语种识别结果
Figure BDA0001633277430000141
其中,字典音素数的58、53、51、47和46分别为实施例1和实施例2中涉及的音素细化字典的声学模型;39音素数为采用CMU发音字典进行标注的声学模型,45音素数为采用TIMIT发音字典进行标注的声学模型,试验中,30s、10s和3s分别为测试语音的长短。
由上述试验结果可知,本发明提供的声学建模方法,音素细化字典、聚类后三音子状态数和训练模型三个特征相互配合,得到的声学模型,在语音识别方面性能优良,具有较高的稳健性和泛化能力。在语音识别中性能较优的声学模型例如试验例8所提供的声学模型,在语种识别中并不合适。
在试验过程中可知,采用CMU发音字典和TIMIT发音字典进行标注的声学模型,将三音子状态数下降到150后,音素识别的准确性下降,语种识别中泛化能力也一般,在将发音字典分割为58-47音素后,在状态数为150条件下,对英语音素的识别性能大大增加,同时语种识别性能也增加;其中当音素数为47个时,语种识别性能最佳,语种泛化能力和语音识别能力达到最佳平衡点。对三音子状态数进行考察,发现状态数下降到150-250之间,语种识别性能较佳,其中状态数为150效果最优。另外还对训练模型及模型基本参数进行考察,当音素数设置为47、状态数为150时,采用DNN-HMM模型,且模型隐含层为5层,窗长为21帧时,语种识别性能最佳,尤其是在长语音识别方面性能提升效果更为明显。

Claims (10)

1.一种应用于语种识别的英语声学模型的建模方法,其特征在于,包括如下步骤:
S1、根据英语口语缩减形式理论将CMU发音字典的音素进行分割,形成音素细化字典;
S2、基于音素细化字典对训练语音进行标注,得到标注后训练语音;
S3、使用标注后训练语音进行GMM-HMM声学模型训练,训练过程中对声学模型进行三音子状态聚类,设置聚类门限值,最终得到状态数为150-250的聚类后三音子状态集;
S4、基于标注后训练语音和三音子状态集作为训练数据,进行DNN-HMM模型训练,得到应用于语种识别的英语声学模型。
2.如权利要求1所述的应用于语种识别的英语声学模型的建模方法,其特征在于,所述音素细化字典相对于CMU发音字典增加如下19个音素:dx、q、em、en、ing、nx、hv、el、ux、ax、ix、axr、ah、bcl、dcl、gcl、pcl、tcl、kcl。
3.如权利要求1所述的应用于语种识别的英语声学模型的建模方法,其特征在于,所述音素细化字典相对于CMU发音字典增加如下14个音素:q、em、en、ing、el、ax、ix、ang、axr、eng、ong、iyr、ihr、ehr。
4.如权利要求1所述的应用于语种识别的英语声学模型的建模方法,其特征在于,所述音素细化字典相对于CMU发音字典增加如下12个音素:q、em、en、ing、el、ax、ix、axr、dz、dr、ts、tr。
5.如权利要求2所述的应用于语种识别的英语声学模型的建模方法,其特征在于,在步骤S1和S2之间还包括S201步骤,
S201、对音素细化字典内的58个音素进行音素聚类,得到音素数为46-47的聚类后音素细化字典;
所述S2步骤中标注后训练语音是通过使用聚类后音素细化字典对训练语音进行标注而得到的。
6.如权利要求5所述的应用于语种识别的英语声学模型的建模方法,其特征在于,所述聚类后音素细化字典相对于CMU发音字典增加如下8个音素:q、em、en、ing、el、ax、ix、axr。
7.如权利要求5所述的应用于语种识别的英语声学模型的建模方法,其特征在于,所述聚类后音素细化字典相对于CMU发音字典增加如下7个音素:em、en、ing、el、ax、ix、axr。
8.如权利要求1-7任一所述的应用于语种识别的英语声学模型的建模方法,其特征在于,所述DNN-HMM模型包含5个隐含层,窗长为21帧。
9.一种针对语种识别需求的英语声学建模系统,其特征在于,所述英语声学建模系统包括:
字典获取模块(301),用于收集经过英语口语缩减形式理论将CMU发音字典的音素进行分割后的音素,形成音素细化字典;语音标注模块(303),使用音素细化字典对训练语音进行标注,得到标注后训练语音;
GMM-HMM训练模块(304),使用标注后训练语音进行GMM-HMM声学模型训练,训练过程中对声学模型进行三音子状态聚类,设置聚类门限值,得到状态数为150-250的聚类后三音子状态集;
DNN-HMM训练模块(305),基于标注后训练语音和聚类后三音子状态集作为训练数据,进行DNN-HMM模型训练,得到应用于语种识别的英语声学模型。
10.如权利要求9所述的针对语种识别需求的英语声学建模系统,其特征在于,所述英语声学建模系统还包括:
音素聚类模块(302),用于将音素细化字典内所有音素进行聚类,形成聚类后音素细化字典;
所述语音标注模块(303),使用聚类后音素细化字典对训练语音进行标注,得到标注后训练语音。
CN201810350474.7A 2018-04-18 2018-04-18 一种应用于语种识别的英语声学模型的建模方法及系统 Expired - Fee Related CN108510978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810350474.7A CN108510978B (zh) 2018-04-18 2018-04-18 一种应用于语种识别的英语声学模型的建模方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810350474.7A CN108510978B (zh) 2018-04-18 2018-04-18 一种应用于语种识别的英语声学模型的建模方法及系统

Publications (2)

Publication Number Publication Date
CN108510978A CN108510978A (zh) 2018-09-07
CN108510978B true CN108510978B (zh) 2020-08-21

Family

ID=63382428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810350474.7A Expired - Fee Related CN108510978B (zh) 2018-04-18 2018-04-18 一种应用于语种识别的英语声学模型的建模方法及系统

Country Status (1)

Country Link
CN (1) CN108510978B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053364A (zh) * 2019-12-27 2021-06-29 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN111798841B (zh) * 2020-05-13 2023-01-03 厦门快商通科技股份有限公司 声学模型训练方法、系统、移动终端及存储介质
CN111798868B (zh) 2020-09-07 2020-12-08 北京世纪好未来教育科技有限公司 语音强制对齐模型评价方法、装置、电子设备及存储介质
CN112216270B (zh) * 2020-10-09 2024-02-06 携程计算机技术(上海)有限公司 语音音素的识别方法及系统、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1609828A (zh) * 2003-10-22 2005-04-27 无敌科技股份有限公司 通过基本音素合成英文单字的语音数据的系统及方法
CN1613107A (zh) * 2001-11-06 2005-05-04 D·S·P·C·技术有限公司 基于hmm的文字-音素分析器及其训练方法
JP2008152043A (ja) * 2006-12-18 2008-07-03 Toshiba Corp 音声認識装置及び音声認識方法
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
JP2009251199A (ja) * 2008-04-04 2009-10-29 Oki Electric Ind Co Ltd 音声合成装置、方法及びプログラム
CN101727901A (zh) * 2009-12-10 2010-06-09 清华大学 嵌入式系统的汉英双语语音识别方法
CN104575497A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1613107A (zh) * 2001-11-06 2005-05-04 D·S·P·C·技术有限公司 基于hmm的文字-音素分析器及其训练方法
CN1609828A (zh) * 2003-10-22 2005-04-27 无敌科技股份有限公司 通过基本音素合成英文单字的语音数据的系统及方法
JP2008152043A (ja) * 2006-12-18 2008-07-03 Toshiba Corp 音声認識装置及び音声認識方法
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
JP2009251199A (ja) * 2008-04-04 2009-10-29 Oki Electric Ind Co Ltd 音声合成装置、方法及びプログラム
CN101727901A (zh) * 2009-12-10 2010-06-09 清华大学 嵌入式系统的汉英双语语音识别方法
CN104575497A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于GMM-HMM的声学模型训练研究;王为凯;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170228;第270-274页 *
混合双语语音识别的研究;张晴晴等;《声学学报》;20100331;第35卷(第2期);第29-31,38页-45页,图4-1,表4-1等 *

Also Published As

Publication number Publication date
CN108510978A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN108510978B (zh) 一种应用于语种识别的英语声学模型的建模方法及系统
OstendorfÝ et al. Prosody models for conversational speech recognition
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
Rasipuram et al. Articulatory feature based continuous speech recognition using probabilistic lexical modeling
Renals et al. Speech recognition
Razavi et al. Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework
Vazhenina et al. Phoneme set selection for Russian speech recognition
Ashihara et al. SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge?
Kipyatkova et al. Analysis of long-distance word dependencies and pronunciation variability at conversational Russian speech recognition
Razavi et al. Towards weakly supervised acoustic subword unit discovery and lexicon development using hidden Markov models
Wang et al. RNN-based prosodic modeling for mandarin speech and its application to speech-to-text conversion
Kipyatkova et al. Recurrent neural network-based language modeling for an automatic Russian speech recognition system
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
Razavi et al. An HMM-based formalism for automatic subword unit derivation and pronunciation generation
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
Park et al. Real-time continuous phoneme recognition system using class-dependent tied-mixture hmm with hbt structure for speech-driven lip-sync
Valizada Subword speech recognition for agglutinative languages
Golda Brunet et al. Transcription correction using group delay processing for continuous speech recognition
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
Gauvain et al. Speech-to-text conversion in French
Kanokphara et al. Pronunciation variation speech recognition without dictionary modification on sparse database
Imseng et al. Hierarchical multilayer perceptron based language identification
Mitankin et al. Large vocabulary continuous speech recognition for Bulgarian
Arısoy et al. Lattice extension and rescoring based approaches for LVCSR of Turkish
Cerf-Danon et al. Speech recognition in French with a very large dictionary.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200821

Termination date: 20210418

CF01 Termination of patent right due to non-payment of annual fee