CN109119072A - 基于dnn-hmm的民航陆空通话声学模型构建方法 - Google Patents

基于dnn-hmm的民航陆空通话声学模型构建方法 Download PDF

Info

Publication number
CN109119072A
CN109119072A CN201811135847.5A CN201811135847A CN109119072A CN 109119072 A CN109119072 A CN 109119072A CN 201811135847 A CN201811135847 A CN 201811135847A CN 109119072 A CN109119072 A CN 109119072A
Authority
CN
China
Prior art keywords
land sky
civil aviaton
dnn
hmm
land
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811135847.5A
Other languages
English (en)
Inventor
贾桂敏
邱意
李凯涛
杨金锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation University of China
Original Assignee
Civil Aviation University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation University of China filed Critical Civil Aviation University of China
Priority to CN201811135847.5A priority Critical patent/CN109119072A/zh
Publication of CN109119072A publication Critical patent/CN109119072A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

一种基于DNN‑HMM的民航陆空通话声学模型构建方法。其包括制作中文陆空通话语料库;对民航陆空通话语音信号进行预处理;从民航陆空通话语音信号中提取出Fbank特征作为民航陆空通话语音特征;对民航陆空通话语音特征进行线性判别分析、特征空间最大似然回归变换以及说话人自适应训练变换处理;利用经过处理后的语音特征搭建基于DNN‑HMM的陆空通话声学模型等步骤。本发明效果:通过提取陆空通话语音的FBANK与MFCC特征来训练DNN网络,得到适用于陆空通话语音识别的DNN‑HMM声学模型,结合词典和语言模型,在构建的数据上,使用特征增强的DNN‑HMM模型可使陆空通话语音音素识别错误率降低到5.62%。

Description

基于DNN-HMM的民航陆空通话声学模型构建方法
技术领域
本发明属于语音识别技术领域,特别涉及一种基于DNN-HMM的民航陆空通话声学模型构建方法。
背景技术
随着国民经济的不断发展,由于飞机具有快捷舒适的特点,因此已成为人们出行的首选交通工具,尤其在近几年,民航航班数量明显增加,国际航空公司的航班增量更大,因此民航安全将面临一个更严峻的考验。民航陆空通话作为飞行员与管制员在飞行过程中主要的信息沟通方式,对保障飞行安全有着重要意义,管制员和飞行员只有正确地理解陆空通话内容,才能有效地保障飞行安全。
由于陆空通话特殊应用场景、句式结构和特殊发音,决定了通用语音识别模型无法应用于陆空通话领域。声学模型是语音识别系统的重要组成部分。目前针对中文陆空通话语音识别和声学建模的研究并不多见,且大多集中在对陆空通话关键词的语音识别和基于传统高斯混合模型-隐马尔可夫模型(GMM-HMM)声学建模。利用深度神经网络(DNN)的强大分类能力,搭建基于DNN-HMM的中文陆空通话声学模型,提高陆空通话语音识别性能,辅助飞行员理解管制指令,保障飞行安全。深度学习算法中的神经网络结构具有强大的分析提取信息的能力,在语音识别领域有着广泛的应用。卷积神经网络(CNN)各隐层之间非全连接,通过卷积核卷积计算降低特征维度;长短时记忆网络(LSTM)各隐层之间是全连接的,且可得到时序信息,但计算复杂度较高。DNN较CNN与LSTM结构更加简单且易实现,各隐层之间全连接能够保留更多信息。对于陆空通话而言,其语法规则较为固定,不使用很复杂的网络,也能取得很好的识别效果,因此,有必要发明一种基于深度神经网络-隐马尔可夫模型(DNN-HMM)的陆空通话声学模型构建方法。
发明内容
为了解决上述问题,本发明的目的在于提供一种基于DNN-HMM的民航陆空通话声学模型构建方法。
为了达到上述目的,(暂空)
本发明提供的基于DNN-HMM的民航陆空通话声学模型构建方法具有如下有益效果:基于DNN网络与HMM模型来搭建DNN-HMM模型,通过提取陆空通话语音的FBANK与MFCC特征来训练DNN网络,得到适用于陆空通话语音识别的DNN-HMM声学模型,结合词典和语言模型,在构建的数据上,使用特征增强的DNN-HMM模型可使陆空通话语音音素识别错误率降低到5.62%。
附图说明
图1为本发明提供的基于DNN-HMM的民航陆空通话声学模型构建方法流程图。
图2为从陆空通话语音信号中提取Fbank特征过程示意图。
图3为梅尔滤波器组尺度变化示意图。
图4为DNN结构图
图5为DNN-HMM框架图。
具体实施方式
下面结合附图和具体实施例对本发明提供的基于DNN-HMM的民航陆空通话声学模型构建方法进行详细说明。
如图1所示,本发明提供的基于DNN-HMM的民航陆空通话声学模型构建方法包括按顺序进行的下列步骤:
步骤1)制作中文陆空通话语料库;
根据民航陆空通话标准,以实际陆空通话语音和相关课程教材作为建立语料库的原始参考,建立中文陆空通话语料库;该语料库由空管专业人员与一线工作管制员共同录制,包含多条飞行各个阶段的民航陆空通话语音信号。本发明采用的中文陆空通话语料库共包含13400条(共21人,15男,6女生,每人录音640句)音频文件,容量4G,录音格式为:采样率8kHz,比特率256kbps,单声道,wav格式,并标注出民航陆空通话语音信号的文本序列和音素信息。
步骤2)对上述中文陆空通话语料库中的民航陆空通话语音信号进行预处理;
语音信号是时变的非平稳信号,需要通过分帧加窗转换成短时平稳信号进行处理。由于实际民航陆空通话语速明显快于日常对话,因此将民航陆空通话语音信号帧长设置为10ms,帧移设为帧长的50%;使用过零点端点检测技术提取民航陆空通话语音信号的语音段,去除非语音段;再通过预加重处理来提升民航陆空通话语音信号的高频分量。
步骤3)从上述预处理后的民航陆空通话语音信号中提取出Fbank特征作为语音特征;
声学特征是表达语音信号内部规律的一种形式,好的特征应该具有优秀的区分性,主要体现在声学模型利用不同的建模单元建模时应该具有较强的鲁棒性。本发明采用Fbank特征作为语音识别的声学特征,较之梅尔频率倒谱系数(MFCC)特征少了一次离散余弦变换,可减少语音特征在时域的前后关联性丢失,能够更好地保留语音信号中的结构信息。图2是从陆空通话语音信号中提取Fbank特征过程示意图。
Fbank特征提取是对上述预处理后的每一帧民航陆空通话语音信号进行离散傅里叶变换(Discrete Fourier Transform,DFT),获得民航陆空通话语音信号的频域表达,将得到的线性频率f转换为倒谱域的Mel频率,公式如下:
当在梅尔刻度上面是均匀分度的话,频率之间的距离将会是逐渐增大的,梅尔刻度的滤波器组的尺度变化如图3所示。在Mel频谱范围内设置39个等带宽的三角状带通滤波器,然后将Mel频谱输入到这39个三角状带通滤波器中,分别计算出这39个三角状带通滤波器输出的对数能量与每一帧民航陆空通话语音信号的能量,构成一个40维的Fbank特征。
步骤4)对上述民航陆空通话语音特征进行线性判别分析、特征空间最大似然回归变换以及说话人自适应训练变换处理;
对上述民航陆空通话语音特征进行线性判别分析(LDA)和特征空间最大似然回归(FMLLR)变换,以增强语音特征的区分性,进行说话人自适应训练(SAT)变换,以减少说话人口音的影响,从而可提高语音特征的鲁棒性以及声学模型的性能。
步骤5)利用经过步骤4)处理后的语音特征搭建基于DNN-HMM的陆空通话声学模型;
每一帧民航陆空通话语音信号的Fbank特征为40维,将当前帧及其前后各N帧连接,以这2N+1帧的语音特征作为基于DNN-HMM的陆空通话声学模型的输入,以音素作为基元,使用最大似然估计准则对该模型进行训练,搭建上下文相关的三音素模型,并对搭建好的三音素模型的语音特征进行LDA、SAT、FMLLR变换(简称增强变换),以进一步增加语音特征的鲁棒性。模型初始学习率为0.008,初始权重为0.5,包含4个隐层,每层节点数为1024,利用sigmod函数作为模型激活函数,输出语音特征为3642维。
DNN是由受限玻尔兹曼机(RBM)叠加而成的一种自底向上训练的网络模型,结构如图4所示。通过无监督训练生成DNN模型的初始权重,再通过有监督训练,利用各层之间的连接关系,使用期望输出与实际输出之间的误差自顶向下逐层传递,不断调整DNN模型的参数,完成整个DNN模型的训练。
RBM是一种无向网络模型,其训练的关键在于训练该网络模型中各层之间的连接参数。RBM由包含随机节点的输入层与服从二值分布的隐层相连接而构成,能量函数为:
其中,θ={ai,bj,wij}表示每个RBM的参数集合,ai表示输入层第i个输入单元的偏移量、bj表示隐层第j个隐含单元的偏移量、wij表示第i个输入单元和第j个隐含单元之间的连接权重,并且wij=wj。V表示输入层节点个数、H表示隐层节点个数。似然函数p(v|θ)和归一化因子z(θ)为:
若已知输入层各个节点,根据输入和连接权重,可求出隐层第j个节点的激活概率为:
其中,激活函数σ(x)=1/(1+|exp(-x))。由于RBM是无向网络模型,输入层第i个节点的激活概率为:
想要得到输入样本的分布,可以利用RBM训练样本的最大似然函数对数值估算每个RBM的参数集合θ的近似值θ*,公式如下,其中T为训练样本的数目:
使用训练样本初始化输入单元的各个状态,计算得到隐层各单元的状态,再根据隐层各单元的状态反向推测出输入单元的状态,完成单层RBM的参数更新和训练。将计算所得输出状态作为下一个RBM的输入数据,以此类推完成DNN模型的训练。
根据中文陆空通话语料库中标注的音素信息,将陆空通话的各个音素映射到HMM结构的各个状态上,音素序列随时间变化的过程就构成了HMM状态转移过程。然后,以中文陆空通话语料库中标注的音素信息作为期望输出,根据DNN模型训练基本方法可以得到DNN模型的输出。最后,HMM的训练,给定民航陆空通话语音信号,假定语音信号在t时刻处于状态sj的前向概率为αt(sj),后向概率为βt(sj),计算状态占有概率γt(sj)和每一时刻的状态转移概率,找出每一个语音特征的后验概率并映射为HMM状态,与DNN的softmax函数输出相对应,完成基于DNN-HMM的陆空通话语音识别声学模型的构建。一个M隐层的DNN-HMM框架如图5所示。
实验与分析
在陆空通话声学模型构建中,选取每人录制的固定500条语音(共21*500条)作为DNN模型的训练数据,每人剩余的140条语音(21*140条)作为DNN模型的测试数据。对训练数据进行音素标注,以上述标注的音素信息作为DNN模型的期望输出,调整DNN模型结构,完成DNN模型的训练,同时作为先验信息计算HMM的结构。
一般地,使用音素错误率(Phoneme Error Rate,PER)作为声学模型评价的标准。为了使识别出来的音素序列和标准的音素序列之间保持一致,需要进行替换、删除或者插入某些音素在内的操作,这些插入(Ci)、替换(Cs)和删除(Cd)的音素的总个数占标准的音素序列中音素(C)总数的百分比即为音素错误率,计算公式如下:
为了确定基于DNN-HMM的陆空通话声学模型的最优输入,分别利用MFCC特征、Fbank特征及二者增强变换后得到的语音特征作为该声学模型的输入,并对比声学模型的音素错误率,如表1所示。可以看出,Fbank特征更适合作为基于DNN-HMM的陆空通话声学模型的输入,这是由于基于DNN-HMM的声学模型不需要做高斯拟合,Fbank特征更多地保留了原始语音信号的相关信息,可以使深度神经网络更好地利用音素的前后相关性,更精确地确定输出特征所对应的音素。同时,通过语音特征增强变换,可以进一步降低音素错误率。因此,在后续实验中均采用增强变换后的Fbank特征作为基于DNN-HMM的陆空通话声学模型的输入。
表1不同语音特征输入基于DNN-HMM的陆空通话声学模型的音素识别结果
输入维数对基于DNN-HMM的陆空通话声学模型的训练十分重要。如果输入维数过大,会造成过度拟合,而输入维数过小会造成拟合不够。在基于DNN-HMM的陆空通话声学模型构建中,本发明选定连接帧数目为11帧,对比不同Fbank特征维数对音素错误率的影响,如表2所示。
表2 Fbank特征维数对音素错误率的影响
当每一帧语音信号的Fbank特征维数固定时,采用不同的连接帧数对基于DNN-HMM的陆空通话声学模型构建也有较大影响,如表3所示。从表2、表3可以看出,输入特征向量长度为40*11(前后连接11帧,每一帧包含40维的Fbank特征),基于DNN-HMM的陆空通话声学模型的音素错误率最低。
表3连接帧数对音素错误率的影响
将本发明方法与传统GMM-HMM模型的声学模型构建方法进行对比,在民航陆空通话语料库上进行实验分析。音素识别结果如表4所示。可以看出,本发明方法的音素错误率更低,更适合对陆空通话语音信号的声学建模。需要指出的是,目前的民航陆空通话语料库规模仍然较小,随着语料库规模的增大,相关语音识别工作的实验证明,基于DNN-HMM的陆空通话声学模型优势将更明显。
表4不同声学模型的音素识别结果
上述实验结果说明,利用DNN-HMM模型搭建陆空通话语音识别声学模型是可行的,同时基于DNN-HMM的陆空通话声学模型的性能优于GMM-HMM模型。同时也证明了本发明方法的实用性和可行性。

Claims (5)

1.一种基于DNN-HMM的民航陆空通话声学模型构建方法,其特征在于:所述的方法包括按顺序进行的下列步骤:
步骤1)制作中文陆空通话语料库;
步骤2)对上述中文陆空通话语料库中的民航陆空通话语音信号进行预处理;
步骤3)从上述预处理后的民航陆空通话语音信号中提取出Fbank特征作为民航陆空通话语音特征;
步骤4)对上述民航陆空通话语音特征进行线性判别分析、特征空间最大似然回归变换以及说话人自适应训练变换处理;
步骤5)利用经过步骤4)处理后的语音特征搭建基于DNN-HMM的陆空通话声学模型。
2.根据权利要求1所述的基于DNN-HMM的民航陆空通话声学模型构建方法,其特征在于:在步骤1)中,所述的制作中文陆空通话语料库的方法是:根据民航陆空通话标准,以实际陆空通话语音和相关课程教材作为建立语料库的原始参考,建立中文陆空通话语料库;该语料库由空管专业人员与一线工作管制员共同录制,包含多条飞行各个阶段的民航陆空通话语音信号,并标注出民航陆空通话语音信号的文本序列和音素信息。
3.根据权利要求1所述的基于DNN-HMM的民航陆空通话声学模型构建方法,其特征在于:在步骤2)中,所述的对上述中文陆空通话语料库中的民航陆空通话语音信号进行预处理的方法是:将民航陆空通话语音信号帧长设置为10ms,帧移设为帧长的50%;使用过零点端点检测技术提取民航陆空通话语音信号的语音段,去除非语音段;再通过预加重处理来提升民航陆空通话语音信号的高频分量。
4.根据权利要求1所述的基于DNN-HMM的民航陆空通话声学模型构建方法,其特征在于:在步骤3)中,所述的从上述预处理后的民航陆空通话语音信号中提取出Fbank特征作为民航陆空通话语音特征的方法是:
对上述预处理后的每一帧民航陆空通话语音信号进行离散傅里叶变换,获得民航陆空通话语音信号的频域表达,将得到的线性频率f转换为倒谱域的Mel频率,公式如下:
在Mel频谱范围内设置39个等带宽的三角状带通滤波器,然后将Mel频谱输入到这39个三角状带通滤波器中,分别计算出这39个三角状带通滤波器输出的对数能量与每一帧民航陆空通话语音信号的能量,构成一个40维的Fbank特征。
5.根据权利要求1所述的基于DNN-HMM的民航陆空通话声学模型构建方法,其特征在于:在步骤5)中,所述的利用经过步骤4)处理后的语音特征搭建基于DNN-HMM的陆空通话声学模型的方法是:
每一帧民航陆空通话语音信号的Fbank特征为40维,将当前帧及其前后各N帧连接,以这2N+1帧的语音特征作为基于DNN-HMM的陆空通话声学模型的输入,以音素作为基元,使用最大似然估计准则对该模型进行训练,搭建上下文相关的三音素模型,并对搭建好的三音素模型的语音特征进行LDA、SAT、FMLLR变换;
根据中文陆空通话语料库中标注的音素信息,将陆空通话的各个音素映射到HMM结构的各个状态上,音素序列随时间变化的过程就构成了HMM状态转移过程。然后,以中文陆空通话语料库中标注的音素信息作为期望输出,根据DNN模型训练基本方法可以得到DNN模型的输出。最后,HMM的训练,给定民航陆空通话语音信号,假定语音信号在t时刻处于状态sj的前向概率为αt(sj),后向概率为βt(sj),计算状态占有概率γt(sj)和每一时刻的状态转移概率,找出每一个语音特征的后验概率并映射为HMM状态,与DNN的softmax函数输出相对应,完成基于DNN-HMM的陆空通话语音识别声学模型的构建。
CN201811135847.5A 2018-09-28 2018-09-28 基于dnn-hmm的民航陆空通话声学模型构建方法 Pending CN109119072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811135847.5A CN109119072A (zh) 2018-09-28 2018-09-28 基于dnn-hmm的民航陆空通话声学模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811135847.5A CN109119072A (zh) 2018-09-28 2018-09-28 基于dnn-hmm的民航陆空通话声学模型构建方法

Publications (1)

Publication Number Publication Date
CN109119072A true CN109119072A (zh) 2019-01-01

Family

ID=64856994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811135847.5A Pending CN109119072A (zh) 2018-09-28 2018-09-28 基于dnn-hmm的民航陆空通话声学模型构建方法

Country Status (1)

Country Link
CN (1) CN109119072A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637526A (zh) * 2019-01-08 2019-04-16 西安电子科技大学 基于个人身份特征的dnn声学模型的自适应方法
CN110111783A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于深度神经网络的多模态语音识别方法
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN110390929A (zh) * 2019-08-05 2019-10-29 中国民航大学 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法
CN111292727A (zh) * 2020-02-03 2020-06-16 北京声智科技有限公司 一种语音识别方法及电子设备
CN111429912A (zh) * 2020-03-17 2020-07-17 厦门快商通科技股份有限公司 关键词检测方法、系统、移动终端及存储介质
CN111696522A (zh) * 2020-05-12 2020-09-22 天津大学 基于hmm和dnn的藏语语音识别方法
CN111739508A (zh) * 2020-08-07 2020-10-02 浙江大学 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
CN111798838A (zh) * 2020-07-16 2020-10-20 上海茂声智能科技有限公司 一种提高语音识别准确率的方法、系统、设备及存储介质
CN112133292A (zh) * 2019-06-25 2020-12-25 南京航空航天大学 一种针对民航陆空通话领域的端到端的自动语音识别方法
CN112216272A (zh) * 2019-06-25 2021-01-12 南京航空航天大学 一种针对民航陆空通话领域的语种识别方法
CN112632977A (zh) * 2020-12-23 2021-04-09 昆明学院 一种彝语语音数据自动标注方法
CN110189746B (zh) * 2019-03-20 2021-06-11 成都天奥信息科技有限公司 一种应用于地空通信的话音识别方法
CN115359784A (zh) * 2022-10-21 2022-11-18 成都爱维译科技有限公司 基于迁移学习的民航陆空语音识别模型训练方法及系统
CN115394288A (zh) * 2022-10-28 2022-11-25 成都爱维译科技有限公司 民航多语种无线电陆空通话的语种识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160240190A1 (en) * 2015-02-12 2016-08-18 Electronics And Telecommunications Research Institute Apparatus and method for large vocabulary continuous speech recognition
WO2017166966A1 (zh) * 2016-03-29 2017-10-05 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法、装置及存储介质
CN108109615A (zh) * 2017-12-21 2018-06-01 内蒙古工业大学 一种基于dnn的蒙古语声学模型的构造和使用方法
CN108492820A (zh) * 2018-03-20 2018-09-04 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN108520298A (zh) * 2018-04-09 2018-09-11 中国民航大学 一种基于改进lstm-rnn的陆空通话语义一致性校验方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160240190A1 (en) * 2015-02-12 2016-08-18 Electronics And Telecommunications Research Institute Apparatus and method for large vocabulary continuous speech recognition
WO2017166966A1 (zh) * 2016-03-29 2017-10-05 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法、装置及存储介质
US20180277103A1 (en) * 2016-03-29 2018-09-27 Tencent Technology (Shenzhen) Company Limited Constructing speech decoding network for numeric speech recognition
CN108109615A (zh) * 2017-12-21 2018-06-01 内蒙古工业大学 一种基于dnn的蒙古语声学模型的构造和使用方法
CN108492820A (zh) * 2018-03-20 2018-09-04 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN108520298A (zh) * 2018-04-09 2018-09-11 中国民航大学 一种基于改进lstm-rnn的陆空通话语义一致性校验方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张志辉: "基于民航陆空对话的语音关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张志辉: "基于民航陆空对话的语音识别关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
黄威等: "基于深度神经网络的语音识别研究", 《现代计算机(专业版)》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637526A (zh) * 2019-01-08 2019-04-16 西安电子科技大学 基于个人身份特征的dnn声学模型的自适应方法
CN110189746B (zh) * 2019-03-20 2021-06-11 成都天奥信息科技有限公司 一种应用于地空通信的话音识别方法
CN110111783A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于深度神经网络的多模态语音识别方法
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
US11482208B2 (en) 2019-06-03 2022-10-25 Beijing Dajia Internet Information Technology Co., Ltd. Method, device and storage medium for speech recognition
CN112216272A (zh) * 2019-06-25 2021-01-12 南京航空航天大学 一种针对民航陆空通话领域的语种识别方法
CN112133292A (zh) * 2019-06-25 2020-12-25 南京航空航天大学 一种针对民航陆空通话领域的端到端的自动语音识别方法
CN110390929A (zh) * 2019-08-05 2019-10-29 中国民航大学 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法
CN111292727A (zh) * 2020-02-03 2020-06-16 北京声智科技有限公司 一种语音识别方法及电子设备
CN111292727B (zh) * 2020-02-03 2023-03-24 北京声智科技有限公司 一种语音识别方法及电子设备
CN111429912A (zh) * 2020-03-17 2020-07-17 厦门快商通科技股份有限公司 关键词检测方法、系统、移动终端及存储介质
CN111429912B (zh) * 2020-03-17 2023-02-10 厦门快商通科技股份有限公司 关键词检测方法、系统、移动终端及存储介质
CN111696522A (zh) * 2020-05-12 2020-09-22 天津大学 基于hmm和dnn的藏语语音识别方法
CN111696522B (zh) * 2020-05-12 2024-02-23 天津大学 基于hmm和dnn的藏语语音识别方法
CN111798838A (zh) * 2020-07-16 2020-10-20 上海茂声智能科技有限公司 一种提高语音识别准确率的方法、系统、设备及存储介质
CN111739508A (zh) * 2020-08-07 2020-10-02 浙江大学 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
CN112632977A (zh) * 2020-12-23 2021-04-09 昆明学院 一种彝语语音数据自动标注方法
CN112632977B (zh) * 2020-12-23 2023-06-06 昆明学院 一种彝语语音数据自动标注方法
CN115359784A (zh) * 2022-10-21 2022-11-18 成都爱维译科技有限公司 基于迁移学习的民航陆空语音识别模型训练方法及系统
CN115359784B (zh) * 2022-10-21 2023-01-17 成都爱维译科技有限公司 基于迁移学习的民航陆空语音识别模型训练方法及系统
CN115394288A (zh) * 2022-10-28 2022-11-25 成都爱维译科技有限公司 民航多语种无线电陆空通话的语种识别方法及系统

Similar Documents

Publication Publication Date Title
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN103928023B (zh) 一种语音评分方法及系统
CN112767958B (zh) 一种基于零次学习的跨语种音色转换系统及方法
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及系统
WO2018227781A1 (zh) 语音识别方法、装置、计算机设备及存储介质
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN109272990A (zh) 基于卷积神经网络的语音识别方法
CN107146601A (zh) 一种用于说话人识别系统的后端i‑vector增强方法
CN110517663A (zh) 一种语种识别方法及识别系统
CN105869624A (zh) 数字语音识别中语音解码网络的构建方法及装置
CN109065032A (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN107103900A (zh) 一种跨语言情感语音合成方法及系统
CN111210803B (zh) 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法
CN110070855A (zh) 一种基于迁移神经网络声学模型的语音识别系统及方法
CN110930981A (zh) 多对一语音转换系统
CN106548775A (zh) 一种语音识别方法和系统
CN106898354A (zh) 基于dnn模型和支持向量机模型的说话人个数估计方法
CN109377981A (zh) 音素对齐的方法及装置
CN110047504A (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN111009235A (zh) 一种基于cldnn+ctc声学模型的语音识别方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Sinha et al. Acoustic-phonetic feature based dialect identification in Hindi Speech
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN114944150A (zh) 一种基于双任务的Conformer陆空通话声学模型构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190101