CN109119072A - 基于dnn-hmm的民航陆空通话声学模型构建方法 - Google Patents
基于dnn-hmm的民航陆空通话声学模型构建方法 Download PDFInfo
- Publication number
- CN109119072A CN109119072A CN201811135847.5A CN201811135847A CN109119072A CN 109119072 A CN109119072 A CN 109119072A CN 201811135847 A CN201811135847 A CN 201811135847A CN 109119072 A CN109119072 A CN 109119072A
- Authority
- CN
- China
- Prior art keywords
- land sky
- civil aviaton
- dnn
- hmm
- land
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000009466 transformation Effects 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims abstract description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 5
- 230000006978 adaptation Effects 0.000 claims abstract description 4
- 238000006243 chemical reaction Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 claims description 2
- 239000000463 material Substances 0.000 claims description 2
- 238000013508 migration Methods 0.000 claims description 2
- 230000005012 migration Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000012546 transfer Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 19
- 230000004913 activation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
一种基于DNN‑HMM的民航陆空通话声学模型构建方法。其包括制作中文陆空通话语料库;对民航陆空通话语音信号进行预处理;从民航陆空通话语音信号中提取出Fbank特征作为民航陆空通话语音特征;对民航陆空通话语音特征进行线性判别分析、特征空间最大似然回归变换以及说话人自适应训练变换处理;利用经过处理后的语音特征搭建基于DNN‑HMM的陆空通话声学模型等步骤。本发明效果:通过提取陆空通话语音的FBANK与MFCC特征来训练DNN网络,得到适用于陆空通话语音识别的DNN‑HMM声学模型,结合词典和语言模型,在构建的数据上,使用特征增强的DNN‑HMM模型可使陆空通话语音音素识别错误率降低到5.62%。
Description
技术领域
本发明属于语音识别技术领域,特别涉及一种基于DNN-HMM的民航陆空通话声学模型构建方法。
背景技术
随着国民经济的不断发展,由于飞机具有快捷舒适的特点,因此已成为人们出行的首选交通工具,尤其在近几年,民航航班数量明显增加,国际航空公司的航班增量更大,因此民航安全将面临一个更严峻的考验。民航陆空通话作为飞行员与管制员在飞行过程中主要的信息沟通方式,对保障飞行安全有着重要意义,管制员和飞行员只有正确地理解陆空通话内容,才能有效地保障飞行安全。
由于陆空通话特殊应用场景、句式结构和特殊发音,决定了通用语音识别模型无法应用于陆空通话领域。声学模型是语音识别系统的重要组成部分。目前针对中文陆空通话语音识别和声学建模的研究并不多见,且大多集中在对陆空通话关键词的语音识别和基于传统高斯混合模型-隐马尔可夫模型(GMM-HMM)声学建模。利用深度神经网络(DNN)的强大分类能力,搭建基于DNN-HMM的中文陆空通话声学模型,提高陆空通话语音识别性能,辅助飞行员理解管制指令,保障飞行安全。深度学习算法中的神经网络结构具有强大的分析提取信息的能力,在语音识别领域有着广泛的应用。卷积神经网络(CNN)各隐层之间非全连接,通过卷积核卷积计算降低特征维度;长短时记忆网络(LSTM)各隐层之间是全连接的,且可得到时序信息,但计算复杂度较高。DNN较CNN与LSTM结构更加简单且易实现,各隐层之间全连接能够保留更多信息。对于陆空通话而言,其语法规则较为固定,不使用很复杂的网络,也能取得很好的识别效果,因此,有必要发明一种基于深度神经网络-隐马尔可夫模型(DNN-HMM)的陆空通话声学模型构建方法。
发明内容
为了解决上述问题,本发明的目的在于提供一种基于DNN-HMM的民航陆空通话声学模型构建方法。
为了达到上述目的,(暂空)
本发明提供的基于DNN-HMM的民航陆空通话声学模型构建方法具有如下有益效果:基于DNN网络与HMM模型来搭建DNN-HMM模型,通过提取陆空通话语音的FBANK与MFCC特征来训练DNN网络,得到适用于陆空通话语音识别的DNN-HMM声学模型,结合词典和语言模型,在构建的数据上,使用特征增强的DNN-HMM模型可使陆空通话语音音素识别错误率降低到5.62%。
附图说明
图1为本发明提供的基于DNN-HMM的民航陆空通话声学模型构建方法流程图。
图2为从陆空通话语音信号中提取Fbank特征过程示意图。
图3为梅尔滤波器组尺度变化示意图。
图4为DNN结构图
图5为DNN-HMM框架图。
具体实施方式
下面结合附图和具体实施例对本发明提供的基于DNN-HMM的民航陆空通话声学模型构建方法进行详细说明。
如图1所示,本发明提供的基于DNN-HMM的民航陆空通话声学模型构建方法包括按顺序进行的下列步骤:
步骤1)制作中文陆空通话语料库;
根据民航陆空通话标准,以实际陆空通话语音和相关课程教材作为建立语料库的原始参考,建立中文陆空通话语料库;该语料库由空管专业人员与一线工作管制员共同录制,包含多条飞行各个阶段的民航陆空通话语音信号。本发明采用的中文陆空通话语料库共包含13400条(共21人,15男,6女生,每人录音640句)音频文件,容量4G,录音格式为:采样率8kHz,比特率256kbps,单声道,wav格式,并标注出民航陆空通话语音信号的文本序列和音素信息。
步骤2)对上述中文陆空通话语料库中的民航陆空通话语音信号进行预处理;
语音信号是时变的非平稳信号,需要通过分帧加窗转换成短时平稳信号进行处理。由于实际民航陆空通话语速明显快于日常对话,因此将民航陆空通话语音信号帧长设置为10ms,帧移设为帧长的50%;使用过零点端点检测技术提取民航陆空通话语音信号的语音段,去除非语音段;再通过预加重处理来提升民航陆空通话语音信号的高频分量。
步骤3)从上述预处理后的民航陆空通话语音信号中提取出Fbank特征作为语音特征;
声学特征是表达语音信号内部规律的一种形式,好的特征应该具有优秀的区分性,主要体现在声学模型利用不同的建模单元建模时应该具有较强的鲁棒性。本发明采用Fbank特征作为语音识别的声学特征,较之梅尔频率倒谱系数(MFCC)特征少了一次离散余弦变换,可减少语音特征在时域的前后关联性丢失,能够更好地保留语音信号中的结构信息。图2是从陆空通话语音信号中提取Fbank特征过程示意图。
Fbank特征提取是对上述预处理后的每一帧民航陆空通话语音信号进行离散傅里叶变换(Discrete Fourier Transform,DFT),获得民航陆空通话语音信号的频域表达,将得到的线性频率f转换为倒谱域的Mel频率,公式如下:
当在梅尔刻度上面是均匀分度的话,频率之间的距离将会是逐渐增大的,梅尔刻度的滤波器组的尺度变化如图3所示。在Mel频谱范围内设置39个等带宽的三角状带通滤波器,然后将Mel频谱输入到这39个三角状带通滤波器中,分别计算出这39个三角状带通滤波器输出的对数能量与每一帧民航陆空通话语音信号的能量,构成一个40维的Fbank特征。
步骤4)对上述民航陆空通话语音特征进行线性判别分析、特征空间最大似然回归变换以及说话人自适应训练变换处理;
对上述民航陆空通话语音特征进行线性判别分析(LDA)和特征空间最大似然回归(FMLLR)变换,以增强语音特征的区分性,进行说话人自适应训练(SAT)变换,以减少说话人口音的影响,从而可提高语音特征的鲁棒性以及声学模型的性能。
步骤5)利用经过步骤4)处理后的语音特征搭建基于DNN-HMM的陆空通话声学模型;
每一帧民航陆空通话语音信号的Fbank特征为40维,将当前帧及其前后各N帧连接,以这2N+1帧的语音特征作为基于DNN-HMM的陆空通话声学模型的输入,以音素作为基元,使用最大似然估计准则对该模型进行训练,搭建上下文相关的三音素模型,并对搭建好的三音素模型的语音特征进行LDA、SAT、FMLLR变换(简称增强变换),以进一步增加语音特征的鲁棒性。模型初始学习率为0.008,初始权重为0.5,包含4个隐层,每层节点数为1024,利用sigmod函数作为模型激活函数,输出语音特征为3642维。
DNN是由受限玻尔兹曼机(RBM)叠加而成的一种自底向上训练的网络模型,结构如图4所示。通过无监督训练生成DNN模型的初始权重,再通过有监督训练,利用各层之间的连接关系,使用期望输出与实际输出之间的误差自顶向下逐层传递,不断调整DNN模型的参数,完成整个DNN模型的训练。
RBM是一种无向网络模型,其训练的关键在于训练该网络模型中各层之间的连接参数。RBM由包含随机节点的输入层与服从二值分布的隐层相连接而构成,能量函数为:
其中,θ={ai,bj,wij}表示每个RBM的参数集合,ai表示输入层第i个输入单元的偏移量、bj表示隐层第j个隐含单元的偏移量、wij表示第i个输入单元和第j个隐含单元之间的连接权重,并且wij=wj。V表示输入层节点个数、H表示隐层节点个数。似然函数p(v|θ)和归一化因子z(θ)为:
若已知输入层各个节点,根据输入和连接权重,可求出隐层第j个节点的激活概率为:
其中,激活函数σ(x)=1/(1+|exp(-x))。由于RBM是无向网络模型,输入层第i个节点的激活概率为:
想要得到输入样本的分布,可以利用RBM训练样本的最大似然函数对数值估算每个RBM的参数集合θ的近似值θ*,公式如下,其中T为训练样本的数目:
使用训练样本初始化输入单元的各个状态,计算得到隐层各单元的状态,再根据隐层各单元的状态反向推测出输入单元的状态,完成单层RBM的参数更新和训练。将计算所得输出状态作为下一个RBM的输入数据,以此类推完成DNN模型的训练。
根据中文陆空通话语料库中标注的音素信息,将陆空通话的各个音素映射到HMM结构的各个状态上,音素序列随时间变化的过程就构成了HMM状态转移过程。然后,以中文陆空通话语料库中标注的音素信息作为期望输出,根据DNN模型训练基本方法可以得到DNN模型的输出。最后,HMM的训练,给定民航陆空通话语音信号,假定语音信号在t时刻处于状态sj的前向概率为αt(sj),后向概率为βt(sj),计算状态占有概率γt(sj)和每一时刻的状态转移概率,找出每一个语音特征的后验概率并映射为HMM状态,与DNN的softmax函数输出相对应,完成基于DNN-HMM的陆空通话语音识别声学模型的构建。一个M隐层的DNN-HMM框架如图5所示。
实验与分析
在陆空通话声学模型构建中,选取每人录制的固定500条语音(共21*500条)作为DNN模型的训练数据,每人剩余的140条语音(21*140条)作为DNN模型的测试数据。对训练数据进行音素标注,以上述标注的音素信息作为DNN模型的期望输出,调整DNN模型结构,完成DNN模型的训练,同时作为先验信息计算HMM的结构。
一般地,使用音素错误率(Phoneme Error Rate,PER)作为声学模型评价的标准。为了使识别出来的音素序列和标准的音素序列之间保持一致,需要进行替换、删除或者插入某些音素在内的操作,这些插入(Ci)、替换(Cs)和删除(Cd)的音素的总个数占标准的音素序列中音素(C)总数的百分比即为音素错误率,计算公式如下:
为了确定基于DNN-HMM的陆空通话声学模型的最优输入,分别利用MFCC特征、Fbank特征及二者增强变换后得到的语音特征作为该声学模型的输入,并对比声学模型的音素错误率,如表1所示。可以看出,Fbank特征更适合作为基于DNN-HMM的陆空通话声学模型的输入,这是由于基于DNN-HMM的声学模型不需要做高斯拟合,Fbank特征更多地保留了原始语音信号的相关信息,可以使深度神经网络更好地利用音素的前后相关性,更精确地确定输出特征所对应的音素。同时,通过语音特征增强变换,可以进一步降低音素错误率。因此,在后续实验中均采用增强变换后的Fbank特征作为基于DNN-HMM的陆空通话声学模型的输入。
表1不同语音特征输入基于DNN-HMM的陆空通话声学模型的音素识别结果
输入维数对基于DNN-HMM的陆空通话声学模型的训练十分重要。如果输入维数过大,会造成过度拟合,而输入维数过小会造成拟合不够。在基于DNN-HMM的陆空通话声学模型构建中,本发明选定连接帧数目为11帧,对比不同Fbank特征维数对音素错误率的影响,如表2所示。
表2 Fbank特征维数对音素错误率的影响
当每一帧语音信号的Fbank特征维数固定时,采用不同的连接帧数对基于DNN-HMM的陆空通话声学模型构建也有较大影响,如表3所示。从表2、表3可以看出,输入特征向量长度为40*11(前后连接11帧,每一帧包含40维的Fbank特征),基于DNN-HMM的陆空通话声学模型的音素错误率最低。
表3连接帧数对音素错误率的影响
将本发明方法与传统GMM-HMM模型的声学模型构建方法进行对比,在民航陆空通话语料库上进行实验分析。音素识别结果如表4所示。可以看出,本发明方法的音素错误率更低,更适合对陆空通话语音信号的声学建模。需要指出的是,目前的民航陆空通话语料库规模仍然较小,随着语料库规模的增大,相关语音识别工作的实验证明,基于DNN-HMM的陆空通话声学模型优势将更明显。
表4不同声学模型的音素识别结果
上述实验结果说明,利用DNN-HMM模型搭建陆空通话语音识别声学模型是可行的,同时基于DNN-HMM的陆空通话声学模型的性能优于GMM-HMM模型。同时也证明了本发明方法的实用性和可行性。
Claims (5)
1.一种基于DNN-HMM的民航陆空通话声学模型构建方法,其特征在于:所述的方法包括按顺序进行的下列步骤:
步骤1)制作中文陆空通话语料库;
步骤2)对上述中文陆空通话语料库中的民航陆空通话语音信号进行预处理;
步骤3)从上述预处理后的民航陆空通话语音信号中提取出Fbank特征作为民航陆空通话语音特征;
步骤4)对上述民航陆空通话语音特征进行线性判别分析、特征空间最大似然回归变换以及说话人自适应训练变换处理;
步骤5)利用经过步骤4)处理后的语音特征搭建基于DNN-HMM的陆空通话声学模型。
2.根据权利要求1所述的基于DNN-HMM的民航陆空通话声学模型构建方法,其特征在于:在步骤1)中,所述的制作中文陆空通话语料库的方法是:根据民航陆空通话标准,以实际陆空通话语音和相关课程教材作为建立语料库的原始参考,建立中文陆空通话语料库;该语料库由空管专业人员与一线工作管制员共同录制,包含多条飞行各个阶段的民航陆空通话语音信号,并标注出民航陆空通话语音信号的文本序列和音素信息。
3.根据权利要求1所述的基于DNN-HMM的民航陆空通话声学模型构建方法,其特征在于:在步骤2)中,所述的对上述中文陆空通话语料库中的民航陆空通话语音信号进行预处理的方法是:将民航陆空通话语音信号帧长设置为10ms,帧移设为帧长的50%;使用过零点端点检测技术提取民航陆空通话语音信号的语音段,去除非语音段;再通过预加重处理来提升民航陆空通话语音信号的高频分量。
4.根据权利要求1所述的基于DNN-HMM的民航陆空通话声学模型构建方法,其特征在于:在步骤3)中,所述的从上述预处理后的民航陆空通话语音信号中提取出Fbank特征作为民航陆空通话语音特征的方法是:
对上述预处理后的每一帧民航陆空通话语音信号进行离散傅里叶变换,获得民航陆空通话语音信号的频域表达,将得到的线性频率f转换为倒谱域的Mel频率,公式如下:
在Mel频谱范围内设置39个等带宽的三角状带通滤波器,然后将Mel频谱输入到这39个三角状带通滤波器中,分别计算出这39个三角状带通滤波器输出的对数能量与每一帧民航陆空通话语音信号的能量,构成一个40维的Fbank特征。
5.根据权利要求1所述的基于DNN-HMM的民航陆空通话声学模型构建方法,其特征在于:在步骤5)中,所述的利用经过步骤4)处理后的语音特征搭建基于DNN-HMM的陆空通话声学模型的方法是:
每一帧民航陆空通话语音信号的Fbank特征为40维,将当前帧及其前后各N帧连接,以这2N+1帧的语音特征作为基于DNN-HMM的陆空通话声学模型的输入,以音素作为基元,使用最大似然估计准则对该模型进行训练,搭建上下文相关的三音素模型,并对搭建好的三音素模型的语音特征进行LDA、SAT、FMLLR变换;
根据中文陆空通话语料库中标注的音素信息,将陆空通话的各个音素映射到HMM结构的各个状态上,音素序列随时间变化的过程就构成了HMM状态转移过程。然后,以中文陆空通话语料库中标注的音素信息作为期望输出,根据DNN模型训练基本方法可以得到DNN模型的输出。最后,HMM的训练,给定民航陆空通话语音信号,假定语音信号在t时刻处于状态sj的前向概率为αt(sj),后向概率为βt(sj),计算状态占有概率γt(sj)和每一时刻的状态转移概率,找出每一个语音特征的后验概率并映射为HMM状态,与DNN的softmax函数输出相对应,完成基于DNN-HMM的陆空通话语音识别声学模型的构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811135847.5A CN109119072A (zh) | 2018-09-28 | 2018-09-28 | 基于dnn-hmm的民航陆空通话声学模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811135847.5A CN109119072A (zh) | 2018-09-28 | 2018-09-28 | 基于dnn-hmm的民航陆空通话声学模型构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109119072A true CN109119072A (zh) | 2019-01-01 |
Family
ID=64856994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811135847.5A Pending CN109119072A (zh) | 2018-09-28 | 2018-09-28 | 基于dnn-hmm的民航陆空通话声学模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109119072A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637526A (zh) * | 2019-01-08 | 2019-04-16 | 西安电子科技大学 | 基于个人身份特征的dnn声学模型的自适应方法 |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN110211588A (zh) * | 2019-06-03 | 2019-09-06 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及电子设备 |
CN110390929A (zh) * | 2019-08-05 | 2019-10-29 | 中国民航大学 | 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法 |
CN111292727A (zh) * | 2020-02-03 | 2020-06-16 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
CN111429912A (zh) * | 2020-03-17 | 2020-07-17 | 厦门快商通科技股份有限公司 | 关键词检测方法、系统、移动终端及存储介质 |
CN111696522A (zh) * | 2020-05-12 | 2020-09-22 | 天津大学 | 基于hmm和dnn的藏语语音识别方法 |
CN111739508A (zh) * | 2020-08-07 | 2020-10-02 | 浙江大学 | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 |
CN111798838A (zh) * | 2020-07-16 | 2020-10-20 | 上海茂声智能科技有限公司 | 一种提高语音识别准确率的方法、系统、设备及存储介质 |
CN112133292A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的端到端的自动语音识别方法 |
CN112216272A (zh) * | 2019-06-25 | 2021-01-12 | 南京航空航天大学 | 一种针对民航陆空通话领域的语种识别方法 |
CN112632977A (zh) * | 2020-12-23 | 2021-04-09 | 昆明学院 | 一种彝语语音数据自动标注方法 |
CN110189746B (zh) * | 2019-03-20 | 2021-06-11 | 成都天奥信息科技有限公司 | 一种应用于地空通信的话音识别方法 |
CN115359784A (zh) * | 2022-10-21 | 2022-11-18 | 成都爱维译科技有限公司 | 基于迁移学习的民航陆空语音识别模型训练方法及系统 |
CN115394288A (zh) * | 2022-10-28 | 2022-11-25 | 成都爱维译科技有限公司 | 民航多语种无线电陆空通话的语种识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160240190A1 (en) * | 2015-02-12 | 2016-08-18 | Electronics And Telecommunications Research Institute | Apparatus and method for large vocabulary continuous speech recognition |
WO2017166966A1 (zh) * | 2016-03-29 | 2017-10-05 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法、装置及存储介质 |
CN108109615A (zh) * | 2017-12-21 | 2018-06-01 | 内蒙古工业大学 | 一种基于dnn的蒙古语声学模型的构造和使用方法 |
CN108492820A (zh) * | 2018-03-20 | 2018-09-04 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN108520298A (zh) * | 2018-04-09 | 2018-09-11 | 中国民航大学 | 一种基于改进lstm-rnn的陆空通话语义一致性校验方法 |
-
2018
- 2018-09-28 CN CN201811135847.5A patent/CN109119072A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160240190A1 (en) * | 2015-02-12 | 2016-08-18 | Electronics And Telecommunications Research Institute | Apparatus and method for large vocabulary continuous speech recognition |
WO2017166966A1 (zh) * | 2016-03-29 | 2017-10-05 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法、装置及存储介质 |
US20180277103A1 (en) * | 2016-03-29 | 2018-09-27 | Tencent Technology (Shenzhen) Company Limited | Constructing speech decoding network for numeric speech recognition |
CN108109615A (zh) * | 2017-12-21 | 2018-06-01 | 内蒙古工业大学 | 一种基于dnn的蒙古语声学模型的构造和使用方法 |
CN108492820A (zh) * | 2018-03-20 | 2018-09-04 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN108520298A (zh) * | 2018-04-09 | 2018-09-11 | 中国民航大学 | 一种基于改进lstm-rnn的陆空通话语义一致性校验方法 |
Non-Patent Citations (3)
Title |
---|
张志辉: "基于民航陆空对话的语音关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张志辉: "基于民航陆空对话的语音识别关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
黄威等: "基于深度神经网络的语音识别研究", 《现代计算机(专业版)》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637526A (zh) * | 2019-01-08 | 2019-04-16 | 西安电子科技大学 | 基于个人身份特征的dnn声学模型的自适应方法 |
CN110189746B (zh) * | 2019-03-20 | 2021-06-11 | 成都天奥信息科技有限公司 | 一种应用于地空通信的话音识别方法 |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN110211588A (zh) * | 2019-06-03 | 2019-09-06 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及电子设备 |
US11482208B2 (en) | 2019-06-03 | 2022-10-25 | Beijing Dajia Internet Information Technology Co., Ltd. | Method, device and storage medium for speech recognition |
CN112216272A (zh) * | 2019-06-25 | 2021-01-12 | 南京航空航天大学 | 一种针对民航陆空通话领域的语种识别方法 |
CN112133292A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的端到端的自动语音识别方法 |
CN110390929A (zh) * | 2019-08-05 | 2019-10-29 | 中国民航大学 | 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法 |
CN111292727A (zh) * | 2020-02-03 | 2020-06-16 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
CN111292727B (zh) * | 2020-02-03 | 2023-03-24 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
CN111429912A (zh) * | 2020-03-17 | 2020-07-17 | 厦门快商通科技股份有限公司 | 关键词检测方法、系统、移动终端及存储介质 |
CN111429912B (zh) * | 2020-03-17 | 2023-02-10 | 厦门快商通科技股份有限公司 | 关键词检测方法、系统、移动终端及存储介质 |
CN111696522A (zh) * | 2020-05-12 | 2020-09-22 | 天津大学 | 基于hmm和dnn的藏语语音识别方法 |
CN111696522B (zh) * | 2020-05-12 | 2024-02-23 | 天津大学 | 基于hmm和dnn的藏语语音识别方法 |
CN111798838A (zh) * | 2020-07-16 | 2020-10-20 | 上海茂声智能科技有限公司 | 一种提高语音识别准确率的方法、系统、设备及存储介质 |
CN111739508A (zh) * | 2020-08-07 | 2020-10-02 | 浙江大学 | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 |
CN112632977A (zh) * | 2020-12-23 | 2021-04-09 | 昆明学院 | 一种彝语语音数据自动标注方法 |
CN112632977B (zh) * | 2020-12-23 | 2023-06-06 | 昆明学院 | 一种彝语语音数据自动标注方法 |
CN115359784A (zh) * | 2022-10-21 | 2022-11-18 | 成都爱维译科技有限公司 | 基于迁移学习的民航陆空语音识别模型训练方法及系统 |
CN115359784B (zh) * | 2022-10-21 | 2023-01-17 | 成都爱维译科技有限公司 | 基于迁移学习的民航陆空语音识别模型训练方法及系统 |
CN115394288A (zh) * | 2022-10-28 | 2022-11-25 | 成都爱维译科技有限公司 | 民航多语种无线电陆空通话的语种识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
CN103928023B (zh) | 一种语音评分方法及系统 | |
CN112767958B (zh) | 一种基于零次学习的跨语种音色转换系统及方法 | |
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
WO2018227781A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN109272990A (zh) | 基于卷积神经网络的语音识别方法 | |
CN107146601A (zh) | 一种用于说话人识别系统的后端i‑vector增强方法 | |
CN110517663A (zh) | 一种语种识别方法及识别系统 | |
CN105869624A (zh) | 数字语音识别中语音解码网络的构建方法及装置 | |
CN109065032A (zh) | 一种基于深度卷积神经网络的外部语料库语音识别方法 | |
CN107103900A (zh) | 一种跨语言情感语音合成方法及系统 | |
CN111210803B (zh) | 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法 | |
CN110070855A (zh) | 一种基于迁移神经网络声学模型的语音识别系统及方法 | |
CN110930981A (zh) | 多对一语音转换系统 | |
CN106548775A (zh) | 一种语音识别方法和系统 | |
CN106898354A (zh) | 基于dnn模型和支持向量机模型的说话人个数估计方法 | |
CN109377981A (zh) | 音素对齐的方法及装置 | |
CN110047504A (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
CN111009235A (zh) | 一种基于cldnn+ctc声学模型的语音识别方法 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN114944150A (zh) | 一种基于双任务的Conformer陆空通话声学模型构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190101 |