CN110111783A - 一种基于深度神经网络的多模态语音识别方法 - Google Patents
一种基于深度神经网络的多模态语音识别方法 Download PDFInfo
- Publication number
- CN110111783A CN110111783A CN201910284551.8A CN201910284551A CN110111783A CN 110111783 A CN110111783 A CN 110111783A CN 201910284551 A CN201910284551 A CN 201910284551A CN 110111783 A CN110111783 A CN 110111783A
- Authority
- CN
- China
- Prior art keywords
- training
- audio
- modal
- image
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 230000001537 neural effect Effects 0.000 claims abstract description 6
- 238000009432 framing Methods 0.000 claims abstract description 4
- 230000009467 reduction Effects 0.000 claims abstract description 4
- 230000005236 sound signal Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 64
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000003252 repetitive effect Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006854 communication Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012614 Monte-Carlo sampling Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度神经网络的多模态语音识别方法,包括以下步骤:基于汉语音素构建句子级别的语料文本,并录制多模态数据,包括:彩色图像、深度图像、深度数据以及音频信息;获取说话人发音过程中的唇部图像与音频信号,对唇部图像进行加窗分帧,对图像进行DCT变换及PCA降维,选取合适维度的图像特征与音频的MFCC特征做特征拼接,形成新的多模态音频特征;搭建中文的自动语音识别系统,使用深度神经网络‑隐马尔科夫模型进行声学模型的建模,并选取多模态语音特征拼接作为输入,进行训练与测试解码,降低字和句子的识别错误率。本发明降低了声学模型在词和句子的识别错误率。
Description
技术领域
本发明涉及语音识别、声学建模和深度学习领域,尤其涉及一种基于深度神经网络的多模态语音识别方法。
背景技术
目前在相关技术中,语音作为人与计算机间最自然的交互途径,有着得天独厚的优势,这也使得语音识别成为热门的研究领域。无论是车载语音识别导航,智能手机上的语音助手,都显示了其巨大的应用价值和未来前景。
然而,相较于人类的感官听觉能力,语音识别技术在识别的准确性以及整体性能的鲁棒性上仍存在着诸多缺陷,其识别的准确性依赖于自身的声学模型,同时容易受到外界环境噪声的干扰。
发明内容
本发明提供了一种基于深度神经网络的多模态语音识别方法,本发明针对汉语连续语音识别在噪声环境下识别效果不佳的问题,提出了利用视觉信息补充语音信息,进行多模态语音特征融合,并使用DNN-HMM模型(深度神经网络-隐马尔科夫模型)进行声学模型建模,在实验室录制的中文语料库上进行实验解码,降低了声学模型在词和句子的识别错误率,详见下文描述:
一种基于深度神经网络的多模态语音识别方法,所述方法包括以下步骤:
基于汉语音素构建句子级别的语料文本,并录制多模态数据,包括:彩色图像、深度图像、深度数据以及音频信息;
获取说话人发音过程中的唇部图像与音频信号,对唇部图像进行加窗分帧,对图像进行DCT变换及PCA降维,选取合适维度的图像特征与音频的MFCC特征做特征拼接,形成新的多模态音频特征;
搭建中文的自动语音识别系统,使用深度神经网络-隐马尔科夫模型进行声学模型的建模,并选取多模态语音特征拼接作为输入,进行训练与测试解码,降低字和句子的识别错误率。
所述深度神经网络-隐马尔科夫模型的训练具体为:
基于受限玻尔兹曼机,对每一层进行预训练,训练算法是具有1步马尔可夫链蒙特卡罗采样的对比发散算法,第一个受限玻尔兹曼机采用高斯-伯努利单元,其余的RBM采用伯努利-伯努利单元;
训练属于无监督训练,只需提供输入数据目录,将训练数据的方差与小批量中的重建数据的方差进行比较。
本发明提供的技术方案的有益效果是:
1、本方法基于汉语音素的平衡,设计了句子级别的中文语料文本,并使用Kinect设备录制了话者发音过程中的彩色图像、深度图像、面部特征点数据、音频数据,作为后续实验的训练、测试数据;
2、本方法针对单模态的语音信息容易受到噪声干扰的问题,提出了结合图像信息从视觉角度来补充音频信息,对话者发音过程的唇部图像,与音频提取的特征进行特征融合,形成新的多模态音频特征;
3、本方法在Kaldi平台上搭建自动语音识别系统,并结合深度学习技术使用深度神经网络来进行声学模型的建模,并使用录制的中文连续语音进行训练与测试解码,降低了字和句子的识别错误率。
附图说明
图1为现有技术提供的语音识别系统架构的示意图;
图2为本发明提供的基于深度神经网络的多模态语音识别方法的示意图;
图3为GMM-HMM声学模型训练示意图;
图4为DNN-HMM混合模型的示意图;
图5为融合层次与模式分类的示意图;
图6为图像数据的彩图、深度图和灰度图;
其中,(a)为彩色人脸图像;(b)为人脸深度图像;(c)为唇部灰度图像。
图7为使用15、40个人训练集的字识别错误率示意图;
图8为使用15、40个人训练集的句子识别错误率示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
而相较于传统的纯音频信息的语音识别,融合了视觉信息的多模态语音识别具有更好的鲁棒性[1][2]、准确性。而在多模态信息的非接触式人机交互中,作为人类最具表现力的外部特征,人脸是信息交流过程中感知视觉信息的主要载体。特别地,人脸的唇部区域对于感知语义信息起着很重要的作用[3]。在表达语义内容时,唇部区域的运动可以使得信息更丰富、更高效的传递,增强交流的效果和真实感,极大提高了信息的理解效果。而这其中唇部区域的运动是表情动作的重要组成部分,因此,结合唇部特征的多模态语音信息具有重要的研究意义。
语音识别方法,根据其完成任务的不同,其分类的方式也不尽相同,主要可分为三种情况[4]:
1、根据话者和识别的相关性来区分,可分为:仅针对特定发音人的识别;非特定发音人的识别,一般需要使用大规模不同话者的音频数据进行训练和学习;多人的语音识别:对特定的一组人的语音进行识别,只对需要做识别的部分人进行训练。
2、根据说话的方式来区分,可分为:孤立词识别,语音识别的单位为单个孤立的词语,在训练和学习的时候要求词与词之间要有明显的停顿;连接词语音识别,对连续的词语进行识别,会产生连音的现象,但是一般来说不会构成句子。
3、根据识别的词汇量来区分,可分为:小规模词汇量的识别,一般只包含几十个单词的语料库;中等规模词汇量的识别,包括上千个不同的词语;大规模词汇量的识别,通常包括上万个词汇。而目前随着计算性能的不断提高,不同规模下识别方法的准确度也不断在提高。
利用统计方法来进行识别是长久以来主要的语音识别方法,对语音信号进行处理后提取特征,转化成频谱特征向量,再结合统计模型,对于观察序列o={o1,o2,...,oT},结合最大后验概率(MAP)计算出最可能的序列w*,如公式(1)所示。
w*=argwmaxp(w|o) (1)
进一步的根据贝叶斯公式,可得到w*,如公式(2)所示。
式中,O代表观察序列,通常从语音波形信号中来提取,p(o)代表先验概率,条件概率p(o|w)代表根据公式计算得到的观察序列的概率,其作用对应于结构中声学模型(Acoustic Model,AM)。p(w)代表先验概率,对应于结构中的语言模型(Language Model,LM)。而根据公式,将这两者结合,计算得到最佳的输出序列的过程称之为解码。如图1 所示,为语音识别系统的整体架构,接下来对每个部分进行详细的介绍。
在语音识别中,主流的声学模型是基于混合高斯模型的隐马尔可夫模型,也被称之为 GMM-HMM模型,如图2所示。基于前面的讨论,GMM-HMM的本质上是一个统计模型,描述了两个相互依赖的随机过程,一个是可观测的过程,另一个是不可观测的隐藏的马尔科夫过程。在语音识别的过程中,GMM-HMM的一个状态与语音中的音素的子段相关联。通过最大似然准则[5]或EM算法[6]在训练GMM-HMM语音识别系统中的目标是最小化联合概率意义下的经验风险,这涉及到语言标签序列和帧级别上提取语音声学特征序列。在本方法所设计的大词汇量语音识别中,使用到了词级别的标签,而非状态级别的标签。在训练基于GMM-HMM的ASR系统时,参数绑定通常被当做一种标准化的手段来使用。例如,三音素中相似的声学状态可以共享相同的GMM。
对于整个模型,一般常用E-M算法来进行训练,得到HMM的转移概率。其主要步骤包括:
E(estimate)-step:对于观察序列,估计在t时刻状态sj的概率rt(sj), M(maximization)-step:即根据概率rt(sj)重新估计HMM参数aij。
其中,对于E-step,给定观察序列,估计时刻t处于状态sj的概率rt(sj)。定义βt(sj)为 t时刻处于状态sj时未来观测的概率,如公式(3)所示。
βt(sj)=p(xt+1,xt+2,xT|s(t)=sj,λ) (3)
其中,λ为求某个时刻状态集合的条件,s(t)为t时刻的状态,xT为序列xT中第T时刻的序列位置,T为序列xT的下标索引,通过递归来计算。
进行初始化后如公式(4)所示。
βt(si)=aiE (4)
其中,aiE为根据概率重估的参数,βt(si)为t时刻处于状态si时未来观测的概率。
递归,如公式(5)所示。
其中,bj(xt+1)为HMM中状态j的发射概率密度函数,βt+1(sj)为t+1时刻处于sj状态时未来观测的概率。
终止条件,如公式(6)所示。
其中,p(x|λ)为在λ条件下状态集合的概率,β0(sj)为初始时刻处于sj状态时未来观测的概率,bj(x1)为HMM中状态j的发射概率密度函数,β1(sj)为t=1时刻处于sj状态时未来观测的概率,aT(sE)为概率重估参数。
对于M-step,根据概率rtsj重新估计HMM参数λ。对于λ中高斯参数部分,和GMM 处理方式相同写成向量形式,其结果如公式(7)及公式(8)所示。
其中,uj为均值,xt为观测序列,∑j为方差。
其中,对于λ中的状态转移概率aij,定义c(si→sj)表示从状态sj转到si的次数,其定义如公式(9)所示。
实际运算时,定义每一时刻的转移概率ξt(si,sj)为时刻t从si→sj的概率,其定义如公式(10)所示。
ξt(si,sj)=p(s(t)=si,s(t+1)=sj|x,λ) (10)
则可得到状态的定义,如公式(11)所示。
这个过程被称之为前向-后向算法。
实施例1
本方法在Kaldi实验平台、数据库和自动语音识别系统搭建完成后,需要对声学模型进行训练:
一、GMM-HMM模型训练
在进行GMM-HMM声学模型训练时,主要思想是采用隐马尔可夫模型对语音信号的时序特征进行建模,然后通过混合高斯模型来计算每个模型状态的发射概率。
如图3所示,首先需要对输入的时序特征做归一化,即进行CMVN(倒谱均值方差归一化)处理,降低说话人个体特征引起的差异。然后用处理之后的时序特征训练单音子高斯模型,紧接着,使用单音子高斯模型和Viterbi算法,对训练数据中的句子进行强制对齐,得到音素的切分信息。最后,使用得到的切分信息进行三音子模型的训练,而且,在这个过程中,逐渐加入各种不同的时序特征变换的方法,如LDA(隐含狄利克雷分布),MLLT (最大似然线性变换),SAT(说话人自适应训练)和fMLLR(特征空间最大似然线性回归)等来提高模型的性能。
在标准的GMM模型训练过程中,单音子高斯模型的目标在于做句子级别上的翻译,即训练给定标注与语音之间的映射。而在三音子模型的训练过程中,目标在于做音素到语音之间的对齐。其具体训练流程如下所示。
(1)单音子高斯模型训练
1、初始化模型:模型初始化,得到第0个模型(高斯模型),根据已经提取到的特征(高斯模型的均值和方差),以及计算得到的初始状态转移概率,得到初始化的模型;
均值:方差:D(X)=E[X-E(X)2]
2、初始化训练图:根据声学数据中的字典,把文本信息转化成相对应的音素序号,以此来生成训练中所用到的有限状态转化器,使得每一个句子都能够构造出一个有限状态转化网络;
3、对标签初始化对齐:通过已经训练好有限状态转换器来分割特征文件,使得其均匀分布,其中,切割完成后的特征文件中有的包含静音音素,通过查看分割后的每一帧的标注,用单音子高斯模型对每一帧数据进行建模;
4、统计单音子高斯模型所需要的数据:根据每帧特征和它所对齐的状态,计算出现的次数,而对于声学模型,更新其GMM参数,全部计算完毕后,将其数据累计量写入特征文件中;
5、参数重估,生成新的单音子高斯模型:根据计算的参数,对单音子高斯模型进行最大似然重新估计,并得到新的单音子高斯模型;
6、对新的单音子高斯模型作平滑处理;
7、特征重新对齐;
8、迭代训练,重复执行步骤4-7。
9、输出最后的模型参数。
(2)三音素模型训练
1、特征处理:根据单音子高斯模型训练的对齐结果,对三音素作参数统计,生成决策树;
2、三音素绑定;
3、初始化三音素模型;
4、把决策树中的叶子节点值设立为三音素模型中的生成元素;
5、生成训练图;
6、迭代训练,重复单音子高斯模型训练中的步骤4-7;
7、生成最后的三音素模型。
(3)LDA+MLLT训练
1、计算并生成先验概率,统计LDA所需要的统计量;
2、估计LDA矩阵;
3、通过对转换后的特征重新估计,生成决策树;
4、三音素绑定;
5、模型初始化;
其中,上述的步骤1-5为本领域技术人员所公知,本发明实施例对此不做赘述。
6、把决策树中的叶子节点值设立为三音素模型中的生成元素;
7、生成训练图;
8、迭代训练重新对齐,估计MLLT矩阵,对GMM模型进行变换,组合变换矩阵,重新估计统计量,并估计生成新的模型(加入LDA和MLLT的三音素模型);
9、输出最后的模型(加入LDA和MLLT的三音素模型)。
(4)SAT训练
1、生成先验概率,统计计算fmllr所需统计量;
2、对转换后的特征重新估计,生成决策树;
3、三音素绑定;
4、模型初始化;
5、把决策树中的叶子节点值设立为三音素模型中的生成元素;
6、生成训练图;
7、迭代训练重新对齐,估计fmllr矩阵,组合变换矩阵,重新估计统计量,并估计生成新的模型,输出最后模型(发音人自适应的模型)。
二、DNN-HMM模型训练
使用之前训练好的GMM模型,开始进行DNN模型的训练,整体流程如图4所示。使用DNN进行声学模型训练,首先需要已训练好的GMM模型中的LDA+MLLT+fMLLR 特征。在进行DNN训练之前,首先定义主要的训练参数。Job number表示并行计算的多线程数目,本实验中通过GPU进行加速,并行数目取8,训练速度比CPU计算快10倍。隐层的数目为4,节点数为1024。Minibatch的数值越大,训练速度越快,但是数值过大有可能会造成训练的不稳定,本实验中Minibatch大小为256。初始学习率为0.008,在整体神经网络的损失值低于阈值时,学习率衰减,在最后两层降低为0.004。神经网络的输入选取MFCC与fbank的组合特征,对每一帧选取其左右相邻的5帧组合成11帧的向量,即神经网络的输入维度为440,输出维度为1026。
DNN在获取特征后,进行训练时,主要分为三个阶段:预训练阶段、帧级别的交叉熵训练、序列的区分性训练。
预训练阶段,基于受限玻尔兹曼机(RBM),对每一层进行预训练。其原理主要根据Hinton的论文实施,训练算法是具有1步马尔可夫链蒙特卡罗采样(CD-1)的对比发散算法。第一个受限玻尔兹曼机采用高斯-伯努利单元,其余的RBM采用伯努利-伯努利单元。训练属于无监督训练,因此只需要提供输入数据目录就足够了。当使用高斯-伯努利单元训练 RBM时,存在着权重爆炸的风险,特别是在较大的学习率和数千个隐藏神经元的情况下。因此,为了避免权重爆炸,本实验将训练数据的方差与小批量中的重建数据的方差进行比较。如果重建方差比训练数据方差大2倍,则权重会缩小,学习率会暂时降低。
本发明的主要工作和贡献如下:
(1)建立了一个小规模的中文连续语音多模态数据库,基于39个汉语音素构建了句子级别的语料文本。并在录音室录制了60余人的多模态数据,包括彩色图像、深度图像、深度数据以及音频信息。
(2)通过kinect获取说话人发音过程中的唇部图像与音频信号。本方法对唇部图像进行加窗分帧,来弥补图像帧和音频帧之间的采样速率差异。然后对图像进行DCT变换及PCA 降维。选取合适维度的图像特征与音频的MFCC特征做特征拼接,形成新的多模态音频特征。
(3)在Kaldi上搭建中文的自动语音识别系统。传统的声学模型采用GMM-H MM建模,适用于孤立词级别的语音识别,而对于句子级别的中文连续语音识别效果不佳。本方法采用DNN来进行声学建模,并选取11帧的多模态语音特征拼接作为输入,进行DNN训练。实验结果显示,对测试集的解码结果中,相对于传统的GMM模型,DNN模型对字和句子的识别正确率都有所提高,尤其是在句子的识别率上提高幅度明显。
实施例2
在图4中,在DNN-HMM中,对任意一个状态S∈[1,S],通过训练DNN来估计状态的后验概率p(qt=s|xt)。而在传统的GMM框架下,需要使用其多个不同的GMM对不同的状态建模。另外,深度神经网络的输入不再是一帧音频的特征,而是多帧音频拼接后组合特征,这样相邻帧之间的信息能够体现语音的时序性,使信息可以被有效地利用。
信息融合分为三个层次:数据融合,特征融合,决策融合,如图5所示。
如图6所示,实验采集的彩色图像分辨率为1920×1080,采样频率是每秒30帧。深度图像分辨率为512×424,采样频率同样是每秒30帧。且每帧图像均带有时间戳,以便对标注进行对齐。
如图3所示,首先需要对输入的特征做归一化,即进行CMVN处理,降低说话人个体特征引起的差异。然后用处理之后的特征训练单音子高斯模型,紧接着,使用单音子高斯模型和Viterbi算法,对训练数据中的句子进行强制对齐,得到音素的切分信息。最后,使用得到的切分信息进行三音子模型的训练,而且,在这个过程中,逐渐加入各种不同的特征变换的方法,如LDA,MLLT,SAT和fMLLR等来提高模型的性能。
通过实验可以发现,使用DNN声学建模在字和句子级别上都提高了识别的准确率,尤其是在句子级别上,相较于最好的GMM模型,也能提高18%-20%的识别率。这是因为 DNN使用了大量的数据进行训练建模,使得声学模型的时序性更强,解码的识别率更高。作为验证实验,本发明实施例选取了15个人的数据作为训练集,将其训练出来的模型使用测试集进行解码,其实验结果如图7、图8所示。通过实验验证了本方法的可行性。
参考文献
[1]Lippmann R P.Speech recognition by machines and humans[J].SpeechCommunication, 1997,22(1):1-15.
[2]Sanderson C,Paliwal K.Noise compensation in a person verificationsystem using face and multiple speech features[J].Pattern Recognition,2003,36(2):293-302.
[3]Bregler C,Covell M,Slaney M.Video Rewrite:driving visual speechwith audio[C]. Conference on Computer Graphics&Interactive Techniques.ACMPress/Addison-Wesley Publishing Co.1997.
[4]吴一超.基于统计模型的语音识别系统研究及DSP实现[D].电子科技大学,2012.
[5]Hamilton J D.A New Approach to the Economic Analysis ofNonstationary Time Series and the Business Cycle[J].Econometrica,1989,57(2):357-384.
[6]Viterbi A.Error bounds for convolutional codes and anasymptotically optimum decoding algorithm[J].IEEE Trans.informat.theory,1967,13(2):260-269.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于深度神经网络的多模态语音识别方法,其特征在于,所述方法包括以下步骤:
基于汉语音素构建句子级别的语料文本,并录制多模态数据,包括:彩色图像、深度图像、深度数据以及音频信息;
获取说话人发音过程中的唇部图像与音频信号,对唇部图像进行加窗分帧,对图像进行DCT变换及PCA降维,选取合适维度的图像特征与音频的MFCC特征做特征拼接,形成新的多模态音频特征;
搭建中文的自动语音识别系统,使用深度神经网络-隐马尔科夫模型进行声学模型的建模,并选取多模态语音特征拼接作为输入,进行训练与测试解码,降低字和句子的识别错误率。
2.根据权利要求1所述的一种基于深度神经网络的多模态语音识别方法,其特征在于,所述深度神经网络-隐马尔科夫模型的训练具体为:
基于受限玻尔兹曼机,对每一层进行预训练,训练算法是具有1步马尔可夫链蒙特卡罗采样的对比发散算法,第一个受限玻尔兹曼机采用高斯-伯努利单元,其余的RBM采用伯努利-伯努利单元;
训练属于无监督训练,只需提供输入数据目录,将训练数据的方差与小批量中的重建数据的方差进行比较。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284551.8A CN110111783A (zh) | 2019-04-10 | 2019-04-10 | 一种基于深度神经网络的多模态语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284551.8A CN110111783A (zh) | 2019-04-10 | 2019-04-10 | 一种基于深度神经网络的多模态语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110111783A true CN110111783A (zh) | 2019-08-09 |
Family
ID=67483711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910284551.8A Pending CN110111783A (zh) | 2019-04-10 | 2019-04-10 | 一种基于深度神经网络的多模态语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110111783A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028833A (zh) * | 2019-12-16 | 2020-04-17 | 广州小鹏汽车科技有限公司 | 一种交互、车辆的交互方法、装置 |
CN111312217A (zh) * | 2020-02-28 | 2020-06-19 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
CN111462733A (zh) * | 2020-03-31 | 2020-07-28 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN111554279A (zh) * | 2020-04-27 | 2020-08-18 | 天津大学 | 一种基于Kinect的多模态人机交互系统 |
CN111583916A (zh) * | 2020-05-19 | 2020-08-25 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111696522A (zh) * | 2020-05-12 | 2020-09-22 | 天津大学 | 基于hmm和dnn的藏语语音识别方法 |
CN111772422A (zh) * | 2020-06-12 | 2020-10-16 | 广州城建职业学院 | 一种智能婴儿床 |
CN111985335A (zh) * | 2020-07-20 | 2020-11-24 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于面部生理信息的唇语识别方法及装置 |
CN112037788A (zh) * | 2020-09-10 | 2020-12-04 | 中航华东光电(上海)有限公司 | 一种语音纠正融合技术 |
CN112397089A (zh) * | 2019-08-19 | 2021-02-23 | 中国科学院自动化研究所 | 语音发出者身份识别方法、装置、计算机设备及存储介质 |
CN112720527A (zh) * | 2020-12-25 | 2021-04-30 | 航天科工深圳(集团)有限公司 | 音乐舞蹈自编程机器人 |
CN113159270A (zh) * | 2020-01-22 | 2021-07-23 | 阿里巴巴集团控股有限公司 | 视听任务处理装置和方法 |
CN113241065A (zh) * | 2021-05-11 | 2021-08-10 | 北京工商大学 | 基于视觉面部轮廓运动的构音障碍语音识别方法及系统 |
CN113270086A (zh) * | 2021-07-19 | 2021-08-17 | 中国科学院自动化研究所 | 一种融合多模态语义不变性的语音识别文本增强系统 |
CN113691818A (zh) * | 2021-08-25 | 2021-11-23 | 深圳龙岗智能视听研究院 | 视频目标检测方法、系统、存储介质、计算机视觉终端 |
CN113743379A (zh) * | 2021-11-03 | 2021-12-03 | 杭州魔点科技有限公司 | 一种多模态特征的轻量活体识别方法、系统、装置和介质 |
CN113780408A (zh) * | 2021-09-09 | 2021-12-10 | 安徽农业大学 | 一种基于音频特征的生猪状态识别方法 |
CN113782048A (zh) * | 2021-09-24 | 2021-12-10 | 科大讯飞股份有限公司 | 多模态语音分离方法、训练方法及相关装置 |
CN113852851A (zh) * | 2021-08-12 | 2021-12-28 | 国网浙江省电力有限公司营销服务中心 | 一种基于并行流模型的快速唇动-语音对齐方法 |
WO2022033556A1 (zh) * | 2020-08-14 | 2022-02-17 | 华为技术有限公司 | 电子设备及其语音识别方法和介质 |
CN115276697A (zh) * | 2022-07-22 | 2022-11-01 | 交通运输部规划研究院 | 一种集成智能语音的海岸电台通信系统 |
CN113782048B (zh) * | 2021-09-24 | 2024-07-09 | 科大讯飞股份有限公司 | 多模态语音分离方法、训练方法及相关装置 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150161994A1 (en) * | 2013-12-05 | 2015-06-11 | Nuance Communications, Inc. | Method and Apparatus for Speech Recognition Using Neural Networks with Speaker Adaptation |
EP2889804A1 (en) * | 2013-12-30 | 2015-07-01 | Alcatel Lucent | Systems and methods for contactless speech recognition |
CN105389097A (zh) * | 2014-09-03 | 2016-03-09 | 中兴通讯股份有限公司 | 一种人机交互装置及方法 |
CN105529038A (zh) * | 2014-10-21 | 2016-04-27 | 阿里巴巴集团控股有限公司 | 对用户语音信号进行处理的方法及其系统 |
CN105702250A (zh) * | 2016-01-06 | 2016-06-22 | 福建天晴数码有限公司 | 语音识别方法和装置 |
CN105874424A (zh) * | 2014-01-10 | 2016-08-17 | 微软技术许可有限责任公司 | 协同的语音和姿态输入 |
CN105976809A (zh) * | 2016-05-25 | 2016-09-28 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
CN106125925A (zh) * | 2016-06-20 | 2016-11-16 | 华南理工大学 | 基于手势和语音控制的智能抓捕方法 |
CN106782503A (zh) * | 2016-12-29 | 2017-05-31 | 天津大学 | 基于发音过程中生理信息的自动语音识别方法 |
CN106919251A (zh) * | 2017-01-09 | 2017-07-04 | 重庆邮电大学 | 一种基于多模态情感识别的虚拟学习环境自然交互方法 |
US20170236516A1 (en) * | 2016-02-16 | 2017-08-17 | Carnegie Mellon University, A Pennsylvania Non-Profit Corporation | System and Method for Audio-Visual Speech Recognition |
CN107203769A (zh) * | 2017-04-27 | 2017-09-26 | 天津大学 | 基于dct和lbp特征融合的图像特征提取方法 |
US20180174586A1 (en) * | 2016-12-21 | 2018-06-21 | Intel Corporation | Speech recognition using depth information |
CN108615525A (zh) * | 2016-12-09 | 2018-10-02 | 中国移动通信有限公司研究院 | 一种语音识别方法及装置 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN109036376A (zh) * | 2018-10-17 | 2018-12-18 | 南京理工大学 | 一种闽南语语音合成方法 |
CN109119072A (zh) * | 2018-09-28 | 2019-01-01 | 中国民航大学 | 基于dnn-hmm的民航陆空通话声学模型构建方法 |
-
2019
- 2019-04-10 CN CN201910284551.8A patent/CN110111783A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150161994A1 (en) * | 2013-12-05 | 2015-06-11 | Nuance Communications, Inc. | Method and Apparatus for Speech Recognition Using Neural Networks with Speaker Adaptation |
EP2889804A1 (en) * | 2013-12-30 | 2015-07-01 | Alcatel Lucent | Systems and methods for contactless speech recognition |
CN105874424A (zh) * | 2014-01-10 | 2016-08-17 | 微软技术许可有限责任公司 | 协同的语音和姿态输入 |
CN105389097A (zh) * | 2014-09-03 | 2016-03-09 | 中兴通讯股份有限公司 | 一种人机交互装置及方法 |
CN105529038A (zh) * | 2014-10-21 | 2016-04-27 | 阿里巴巴集团控股有限公司 | 对用户语音信号进行处理的方法及其系统 |
CN105702250A (zh) * | 2016-01-06 | 2016-06-22 | 福建天晴数码有限公司 | 语音识别方法和装置 |
US20170236516A1 (en) * | 2016-02-16 | 2017-08-17 | Carnegie Mellon University, A Pennsylvania Non-Profit Corporation | System and Method for Audio-Visual Speech Recognition |
CN105976809A (zh) * | 2016-05-25 | 2016-09-28 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
CN106125925A (zh) * | 2016-06-20 | 2016-11-16 | 华南理工大学 | 基于手势和语音控制的智能抓捕方法 |
CN108615525A (zh) * | 2016-12-09 | 2018-10-02 | 中国移动通信有限公司研究院 | 一种语音识别方法及装置 |
US20180174586A1 (en) * | 2016-12-21 | 2018-06-21 | Intel Corporation | Speech recognition using depth information |
CN106782503A (zh) * | 2016-12-29 | 2017-05-31 | 天津大学 | 基于发音过程中生理信息的自动语音识别方法 |
CN106919251A (zh) * | 2017-01-09 | 2017-07-04 | 重庆邮电大学 | 一种基于多模态情感识别的虚拟学习环境自然交互方法 |
CN107203769A (zh) * | 2017-04-27 | 2017-09-26 | 天津大学 | 基于dct和lbp特征融合的图像特征提取方法 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN109119072A (zh) * | 2018-09-28 | 2019-01-01 | 中国民航大学 | 基于dnn-hmm的民航陆空通话声学模型构建方法 |
CN109036376A (zh) * | 2018-10-17 | 2018-12-18 | 南京理工大学 | 一种闽南语语音合成方法 |
Non-Patent Citations (6)
Title |
---|
LIU L ET AL.: "Comparison of DCT and autoencoder-based features for DNN-HMM multimodal silent speech recognition", 《INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING》 * |
TAMURA S ET AL.: "Audio-visual speech recognition using deep bottleneck features and high-performance", 《2015 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA)》 * |
俞大海 等: "Deep HMI-多模态深度学习技术在智能家居中的应用", 《2017年中国家用电器技术大会·论文集》 * |
柳欣 等: "多生物特征融合发展现状及其展望", 《小型微型计算机系统》 * |
黄孝平: "《当代机器深度学习方法与应用研究》", 30 November 2017, 电子科技大学出版社 * |
黄雅婷 等: "鸡尾酒会问题与相关听觉模型的研究现状与展望", 《自动化学报》 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397089B (zh) * | 2019-08-19 | 2023-07-04 | 中国科学院自动化研究所 | 语音发出者身份识别方法、装置、计算机设备及存储介质 |
CN112397089A (zh) * | 2019-08-19 | 2021-02-23 | 中国科学院自动化研究所 | 语音发出者身份识别方法、装置、计算机设备及存储介质 |
CN111028833A (zh) * | 2019-12-16 | 2020-04-17 | 广州小鹏汽车科技有限公司 | 一种交互、车辆的交互方法、装置 |
CN113159270A (zh) * | 2020-01-22 | 2021-07-23 | 阿里巴巴集团控股有限公司 | 视听任务处理装置和方法 |
CN111312217A (zh) * | 2020-02-28 | 2020-06-19 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
WO2021169023A1 (zh) * | 2020-02-28 | 2021-09-02 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
CN111462733B (zh) * | 2020-03-31 | 2024-04-16 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN111462733A (zh) * | 2020-03-31 | 2020-07-28 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN111554279A (zh) * | 2020-04-27 | 2020-08-18 | 天津大学 | 一种基于Kinect的多模态人机交互系统 |
CN111696522B (zh) * | 2020-05-12 | 2024-02-23 | 天津大学 | 基于hmm和dnn的藏语语音识别方法 |
CN111696522A (zh) * | 2020-05-12 | 2020-09-22 | 天津大学 | 基于hmm和dnn的藏语语音识别方法 |
CN111583916A (zh) * | 2020-05-19 | 2020-08-25 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111772422A (zh) * | 2020-06-12 | 2020-10-16 | 广州城建职业学院 | 一种智能婴儿床 |
CN111985335A (zh) * | 2020-07-20 | 2020-11-24 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于面部生理信息的唇语识别方法及装置 |
WO2022033556A1 (zh) * | 2020-08-14 | 2022-02-17 | 华为技术有限公司 | 电子设备及其语音识别方法和介质 |
CN112037788B (zh) * | 2020-09-10 | 2021-08-24 | 中航华东光电(上海)有限公司 | 一种语音纠正融合方法 |
CN112037788A (zh) * | 2020-09-10 | 2020-12-04 | 中航华东光电(上海)有限公司 | 一种语音纠正融合技术 |
CN112720527B (zh) * | 2020-12-25 | 2024-04-09 | 航天科工深圳(集团)有限公司 | 音乐舞蹈自编程机器人 |
CN112720527A (zh) * | 2020-12-25 | 2021-04-30 | 航天科工深圳(集团)有限公司 | 音乐舞蹈自编程机器人 |
CN113241065A (zh) * | 2021-05-11 | 2021-08-10 | 北京工商大学 | 基于视觉面部轮廓运动的构音障碍语音识别方法及系统 |
CN113241065B (zh) * | 2021-05-11 | 2022-05-24 | 北京工商大学 | 基于视觉面部轮廓运动的构音障碍语音识别方法及系统 |
CN113270086B (zh) * | 2021-07-19 | 2021-10-15 | 中国科学院自动化研究所 | 一种融合多模态语义不变性的语音识别文本增强系统 |
CN113270086A (zh) * | 2021-07-19 | 2021-08-17 | 中国科学院自动化研究所 | 一种融合多模态语义不变性的语音识别文本增强系统 |
US11488586B1 (en) | 2021-07-19 | 2022-11-01 | Institute Of Automation, Chinese Academy Of Sciences | System for speech recognition text enhancement fusing multi-modal semantic invariance |
CN113852851A (zh) * | 2021-08-12 | 2021-12-28 | 国网浙江省电力有限公司营销服务中心 | 一种基于并行流模型的快速唇动-语音对齐方法 |
CN113691818A (zh) * | 2021-08-25 | 2021-11-23 | 深圳龙岗智能视听研究院 | 视频目标检测方法、系统、存储介质、计算机视觉终端 |
CN113780408A (zh) * | 2021-09-09 | 2021-12-10 | 安徽农业大学 | 一种基于音频特征的生猪状态识别方法 |
CN113782048A (zh) * | 2021-09-24 | 2021-12-10 | 科大讯飞股份有限公司 | 多模态语音分离方法、训练方法及相关装置 |
CN113782048B (zh) * | 2021-09-24 | 2024-07-09 | 科大讯飞股份有限公司 | 多模态语音分离方法、训练方法及相关装置 |
CN113743379A (zh) * | 2021-11-03 | 2021-12-03 | 杭州魔点科技有限公司 | 一种多模态特征的轻量活体识别方法、系统、装置和介质 |
CN115276697A (zh) * | 2022-07-22 | 2022-11-01 | 交通运输部规划研究院 | 一种集成智能语音的海岸电台通信系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111783A (zh) | 一种基于深度神经网络的多模态语音识别方法 | |
CN108305616B (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
An et al. | Deep CNNs with self-attention for speaker identification | |
Cui et al. | Data augmentation for deep neural network acoustic modeling | |
Chen et al. | Multi-task learning for text-dependent speaker verification | |
Chavan et al. | An overview of speech recognition using HMM | |
CN110751208A (zh) | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 | |
CN110706692B (zh) | 儿童语音识别模型的训练方法及系统 | |
CN110853670B (zh) | 音乐驱动的舞蹈生成方法 | |
Woellmer et al. | Keyword spotting exploiting long short-term memory | |
CN108829662A (zh) | 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统 | |
Bear et al. | Decoding visemes: Improving machine lip-reading | |
CN105575388A (zh) | 情感语音处理 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
KR20060090687A (ko) | 시청각 콘텐츠 합성을 위한 시스템 및 방법 | |
Weninger et al. | Emotion recognition in naturalistic speech and language—a survey | |
Sarkar et al. | Time-contrastive learning based deep bottleneck features for text-dependent speaker verification | |
CN110136686A (zh) | 基于STARGAN与i向量的多对多说话人转换方法 | |
Guo et al. | Deep neural network based i-vector mapping for speaker verification using short utterances | |
CN107358947A (zh) | 说话人重识别方法及系统 | |
Srivastava et al. | Significance of neural phonotactic models for large-scale spoken language identification | |
Ng et al. | Teacher-student training for text-independent speaker recognition | |
Ling | An acoustic model for English speech recognition based on deep learning | |
US20140142925A1 (en) | Self-organizing unit recognition for speech and other data series | |
CN108182938B (zh) | 一种基于dnn的蒙古语声学模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190809 |