CN110111783A

CN110111783A - 一种基于深度神经网络的多模态语音识别方法

Info

Publication number: CN110111783A
Application number: CN201910284551.8A
Authority: CN
Inventors: 喻梅; 程旻余童; 高洁; 刘志强; 徐天一; 于瑞国; 李雪威; 胡晓凯
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-08-09

Abstract

本发明公开了一种基于深度神经网络的多模态语音识别方法，包括以下步骤：基于汉语音素构建句子级别的语料文本，并录制多模态数据，包括：彩色图像、深度图像、深度数据以及音频信息；获取说话人发音过程中的唇部图像与音频信号，对唇部图像进行加窗分帧，对图像进行DCT变换及PCA降维，选取合适维度的图像特征与音频的MFCC特征做特征拼接，形成新的多模态音频特征；搭建中文的自动语音识别系统，使用深度神经网络‑隐马尔科夫模型进行声学模型的建模，并选取多模态语音特征拼接作为输入，进行训练与测试解码，降低字和句子的识别错误率。本发明降低了声学模型在词和句子的识别错误率。

Description

一种基于深度神经网络的多模态语音识别方法

技术领域

本发明涉及语音识别、声学建模和深度学习领域，尤其涉及一种基于深度神经网络的多模态语音识别方法。

背景技术

目前在相关技术中，语音作为人与计算机间最自然的交互途径，有着得天独厚的优势，这也使得语音识别成为热门的研究领域。无论是车载语音识别导航，智能手机上的语音助手，都显示了其巨大的应用价值和未来前景。

然而，相较于人类的感官听觉能力，语音识别技术在识别的准确性以及整体性能的鲁棒性上仍存在着诸多缺陷，其识别的准确性依赖于自身的声学模型，同时容易受到外界环境噪声的干扰。

发明内容

本发明提供了一种基于深度神经网络的多模态语音识别方法，本发明针对汉语连续语音识别在噪声环境下识别效果不佳的问题，提出了利用视觉信息补充语音信息，进行多模态语音特征融合,并使用DNN-HMM模型(深度神经网络-隐马尔科夫模型)进行声学模型建模，在实验室录制的中文语料库上进行实验解码，降低了声学模型在词和句子的识别错误率，详见下文描述：

一种基于深度神经网络的多模态语音识别方法，所述方法包括以下步骤：

基于汉语音素构建句子级别的语料文本，并录制多模态数据，包括：彩色图像、深度图像、深度数据以及音频信息；

获取说话人发音过程中的唇部图像与音频信号，对唇部图像进行加窗分帧，对图像进行DCT变换及PCA降维，选取合适维度的图像特征与音频的MFCC特征做特征拼接，形成新的多模态音频特征；

搭建中文的自动语音识别系统，使用深度神经网络-隐马尔科夫模型进行声学模型的建模，并选取多模态语音特征拼接作为输入，进行训练与测试解码，降低字和句子的识别错误率。

所述深度神经网络-隐马尔科夫模型的训练具体为：

基于受限玻尔兹曼机，对每一层进行预训练，训练算法是具有1步马尔可夫链蒙特卡罗采样的对比发散算法，第一个受限玻尔兹曼机采用高斯-伯努利单元，其余的RBM采用伯努利-伯努利单元；

训练属于无监督训练，只需提供输入数据目录，将训练数据的方差与小批量中的重建数据的方差进行比较。

本发明提供的技术方案的有益效果是：

1、本方法基于汉语音素的平衡，设计了句子级别的中文语料文本，并使用Kinect设备录制了话者发音过程中的彩色图像、深度图像、面部特征点数据、音频数据，作为后续实验的训练、测试数据；

2、本方法针对单模态的语音信息容易受到噪声干扰的问题，提出了结合图像信息从视觉角度来补充音频信息，对话者发音过程的唇部图像，与音频提取的特征进行特征融合，形成新的多模态音频特征；

3、本方法在Kaldi平台上搭建自动语音识别系统，并结合深度学习技术使用深度神经网络来进行声学模型的建模，并使用录制的中文连续语音进行训练与测试解码，降低了字和句子的识别错误率。

附图说明

图1为现有技术提供的语音识别系统架构的示意图；

图2为本发明提供的基于深度神经网络的多模态语音识别方法的示意图；

图3为GMM-HMM声学模型训练示意图；

图4为DNN-HMM混合模型的示意图；

图5为融合层次与模式分类的示意图；

图6为图像数据的彩图、深度图和灰度图；

其中，(a)为彩色人脸图像；(b)为人脸深度图像；(c)为唇部灰度图像。

图7为使用15、40个人训练集的字识别错误率示意图；

图8为使用15、40个人训练集的句子识别错误率示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

而相较于传统的纯音频信息的语音识别，融合了视觉信息的多模态语音识别具有更好的鲁棒性^[1][2]、准确性。而在多模态信息的非接触式人机交互中，作为人类最具表现力的外部特征，人脸是信息交流过程中感知视觉信息的主要载体。特别地，人脸的唇部区域对于感知语义信息起着很重要的作用^[3]。在表达语义内容时，唇部区域的运动可以使得信息更丰富、更高效的传递，增强交流的效果和真实感，极大提高了信息的理解效果。而这其中唇部区域的运动是表情动作的重要组成部分，因此，结合唇部特征的多模态语音信息具有重要的研究意义。

语音识别方法，根据其完成任务的不同，其分类的方式也不尽相同，主要可分为三种情况^[4]：

1、根据话者和识别的相关性来区分，可分为：仅针对特定发音人的识别；非特定发音人的识别，一般需要使用大规模不同话者的音频数据进行训练和学习；多人的语音识别：对特定的一组人的语音进行识别，只对需要做识别的部分人进行训练。

2、根据说话的方式来区分，可分为：孤立词识别，语音识别的单位为单个孤立的词语，在训练和学习的时候要求词与词之间要有明显的停顿；连接词语音识别，对连续的词语进行识别，会产生连音的现象，但是一般来说不会构成句子。

3、根据识别的词汇量来区分，可分为：小规模词汇量的识别，一般只包含几十个单词的语料库；中等规模词汇量的识别，包括上千个不同的词语；大规模词汇量的识别，通常包括上万个词汇。而目前随着计算性能的不断提高，不同规模下识别方法的准确度也不断在提高。

利用统计方法来进行识别是长久以来主要的语音识别方法，对语音信号进行处理后提取特征，转化成频谱特征向量，再结合统计模型，对于观察序列o＝{o₁,o₂,...,o_T}，结合最大后验概率(MAP)计算出最可能的序列w^*，如公式(1)所示。

w^*＝arg_wmaxp(w|o) (1)

进一步的根据贝叶斯公式，可得到w^*，如公式(2)所示。

式中，O代表观察序列，通常从语音波形信号中来提取，p(o)代表先验概率，条件概率p(o|w)代表根据公式计算得到的观察序列的概率，其作用对应于结构中声学模型(Acoustic Model,AM)。p(w)代表先验概率，对应于结构中的语言模型(Language Model，LM)。而根据公式，将这两者结合，计算得到最佳的输出序列的过程称之为解码。如图1 所示，为语音识别系统的整体架构，接下来对每个部分进行详细的介绍。

在语音识别中，主流的声学模型是基于混合高斯模型的隐马尔可夫模型，也被称之为 GMM-HMM模型,如图2所示。基于前面的讨论，GMM-HMM的本质上是一个统计模型，描述了两个相互依赖的随机过程，一个是可观测的过程，另一个是不可观测的隐藏的马尔科夫过程。在语音识别的过程中，GMM-HMM的一个状态与语音中的音素的子段相关联。通过最大似然准则^[5]或EM算法^[6]在训练GMM-HMM语音识别系统中的目标是最小化联合概率意义下的经验风险，这涉及到语言标签序列和帧级别上提取语音声学特征序列。在本方法所设计的大词汇量语音识别中，使用到了词级别的标签，而非状态级别的标签。在训练基于GMM-HMM的ASR系统时，参数绑定通常被当做一种标准化的手段来使用。例如，三音素中相似的声学状态可以共享相同的GMM。

对于整个模型，一般常用E-M算法来进行训练，得到HMM的转移概率。其主要步骤包括：

E(estimate)-step：对于观察序列，估计在t时刻状态s_j的概率r_t(s_j)， M(maximization)-step：即根据概率r_t(s_j)重新估计HMM参数a_ij。

其中，对于E-step，给定观察序列，估计时刻t处于状态s_j的概率r_t(s_j)。定义β_t(s_j)为 t时刻处于状态s_j时未来观测的概率，如公式(3)所示。

β_t(s_j)＝p(x_t+1,x_t+2,x_T|s(t)＝s_j,λ) (3)

其中，λ为求某个时刻状态集合的条件，s(t)为t时刻的状态，x_T为序列x_T中第T时刻的序列位置，T为序列x_T的下标索引，通过递归来计算。

进行初始化后如公式(4)所示。

β_t(s_i)＝a_iE (4)

其中，a_iE为根据概率重估的参数，β_t(s_i)为t时刻处于状态si时未来观测的概率。

递归，如公式(5)所示。

其中，b_j(x_t+1)为HMM中状态j的发射概率密度函数，β_t+1(s_j)为t+1时刻处于s_j状态时未来观测的概率。

终止条件，如公式(6)所示。

其中，p(x|λ)为在λ条件下状态集合的概率，β₀(s_j)为初始时刻处于s_j状态时未来观测的概率，b_j(x₁)为HMM中状态j的发射概率密度函数，β₁(s_j)为t＝1时刻处于s_j状态时未来观测的概率，a_T(s_E)为概率重估参数。

对于M-step，根据概率r_ts_j重新估计HMM参数λ。对于λ中高斯参数部分，和GMM 处理方式相同写成向量形式，其结果如公式(7)及公式(8)所示。

其中，u^j为均值，x_t为观测序列，∑^j为方差。

其中，对于λ中的状态转移概率a_ij,定义c(s_i→s_j)表示从状态s_j转到s_i的次数，其定义如公式(9)所示。

实际运算时，定义每一时刻的转移概率ξ_t(s_i,s_j)为时刻t从s_i→s_j的概率，其定义如公式(10)所示。

ξ_t(s_i,s_j)＝p(s(t)＝s_i,s(t+1)＝s_j|x,λ) (10)

则可得到状态的定义，如公式(11)所示。

这个过程被称之为前向-后向算法。

实施例1

本方法在Kaldi实验平台、数据库和自动语音识别系统搭建完成后，需要对声学模型进行训练：

一、GMM-HMM模型训练

在进行GMM-HMM声学模型训练时，主要思想是采用隐马尔可夫模型对语音信号的时序特征进行建模，然后通过混合高斯模型来计算每个模型状态的发射概率。

如图3所示，首先需要对输入的时序特征做归一化，即进行CMVN(倒谱均值方差归一化)处理，降低说话人个体特征引起的差异。然后用处理之后的时序特征训练单音子高斯模型，紧接着，使用单音子高斯模型和Viterbi算法，对训练数据中的句子进行强制对齐，得到音素的切分信息。最后，使用得到的切分信息进行三音子模型的训练，而且，在这个过程中，逐渐加入各种不同的时序特征变换的方法，如LDA(隐含狄利克雷分布)，MLLT (最大似然线性变换)，SAT(说话人自适应训练)和fMLLR(特征空间最大似然线性回归)等来提高模型的性能。

在标准的GMM模型训练过程中，单音子高斯模型的目标在于做句子级别上的翻译，即训练给定标注与语音之间的映射。而在三音子模型的训练过程中，目标在于做音素到语音之间的对齐。其具体训练流程如下所示。

(1)单音子高斯模型训练

1、初始化模型：模型初始化，得到第0个模型(高斯模型)，根据已经提取到的特征(高斯模型的均值和方差)，以及计算得到的初始状态转移概率，得到初始化的模型；

均值：方差：D(X)＝E[X-E(X)²]

2、初始化训练图：根据声学数据中的字典，把文本信息转化成相对应的音素序号，以此来生成训练中所用到的有限状态转化器，使得每一个句子都能够构造出一个有限状态转化网络；

3、对标签初始化对齐：通过已经训练好有限状态转换器来分割特征文件，使得其均匀分布，其中，切割完成后的特征文件中有的包含静音音素，通过查看分割后的每一帧的标注，用单音子高斯模型对每一帧数据进行建模；

4、统计单音子高斯模型所需要的数据：根据每帧特征和它所对齐的状态，计算出现的次数，而对于声学模型，更新其GMM参数，全部计算完毕后，将其数据累计量写入特征文件中；

5、参数重估，生成新的单音子高斯模型：根据计算的参数，对单音子高斯模型进行最大似然重新估计，并得到新的单音子高斯模型；

6、对新的单音子高斯模型作平滑处理；

7、特征重新对齐；

8、迭代训练，重复执行步骤4-7。

9、输出最后的模型参数。

(2)三音素模型训练

1、特征处理：根据单音子高斯模型训练的对齐结果，对三音素作参数统计，生成决策树；

2、三音素绑定；

3、初始化三音素模型；

4、把决策树中的叶子节点值设立为三音素模型中的生成元素；

5、生成训练图；

6、迭代训练，重复单音子高斯模型训练中的步骤4-7；

7、生成最后的三音素模型。

(3)LDA+MLLT训练

1、计算并生成先验概率，统计LDA所需要的统计量；

2、估计LDA矩阵；

3、通过对转换后的特征重新估计，生成决策树；

4、三音素绑定；

5、模型初始化；

其中，上述的步骤1-5为本领域技术人员所公知，本发明实施例对此不做赘述。

6、把决策树中的叶子节点值设立为三音素模型中的生成元素；

7、生成训练图；

8、迭代训练重新对齐，估计MLLT矩阵，对GMM模型进行变换，组合变换矩阵，重新估计统计量，并估计生成新的模型(加入LDA和MLLT的三音素模型)；

9、输出最后的模型(加入LDA和MLLT的三音素模型)。

(4)SAT训练

1、生成先验概率，统计计算fmllr所需统计量；

2、对转换后的特征重新估计，生成决策树；

3、三音素绑定；

4、模型初始化；

5、把决策树中的叶子节点值设立为三音素模型中的生成元素；

6、生成训练图；

7、迭代训练重新对齐，估计fmllr矩阵，组合变换矩阵，重新估计统计量，并估计生成新的模型，输出最后模型(发音人自适应的模型)。

二、DNN-HMM模型训练

使用之前训练好的GMM模型，开始进行DNN模型的训练，整体流程如图4所示。使用DNN进行声学模型训练，首先需要已训练好的GMM模型中的LDA+MLLT+fMLLR 特征。在进行DNN训练之前，首先定义主要的训练参数。Job number表示并行计算的多线程数目，本实验中通过GPU进行加速，并行数目取8，训练速度比CPU计算快10倍。隐层的数目为4，节点数为1024。Minibatch的数值越大，训练速度越快，但是数值过大有可能会造成训练的不稳定，本实验中Minibatch大小为256。初始学习率为0.008，在整体神经网络的损失值低于阈值时，学习率衰减，在最后两层降低为0.004。神经网络的输入选取MFCC与fbank的组合特征，对每一帧选取其左右相邻的5帧组合成11帧的向量，即神经网络的输入维度为440，输出维度为1026。

DNN在获取特征后，进行训练时，主要分为三个阶段：预训练阶段、帧级别的交叉熵训练、序列的区分性训练。

预训练阶段，基于受限玻尔兹曼机(RBM)，对每一层进行预训练。其原理主要根据Hinton的论文实施，训练算法是具有1步马尔可夫链蒙特卡罗采样(CD-1)的对比发散算法。第一个受限玻尔兹曼机采用高斯-伯努利单元，其余的RBM采用伯努利-伯努利单元。训练属于无监督训练，因此只需要提供输入数据目录就足够了。当使用高斯-伯努利单元训练 RBM时，存在着权重爆炸的风险，特别是在较大的学习率和数千个隐藏神经元的情况下。因此，为了避免权重爆炸，本实验将训练数据的方差与小批量中的重建数据的方差进行比较。如果重建方差比训练数据方差大2倍，则权重会缩小，学习率会暂时降低。

本发明的主要工作和贡献如下：

(1)建立了一个小规模的中文连续语音多模态数据库，基于39个汉语音素构建了句子级别的语料文本。并在录音室录制了60余人的多模态数据，包括彩色图像、深度图像、深度数据以及音频信息。

(2)通过kinect获取说话人发音过程中的唇部图像与音频信号。本方法对唇部图像进行加窗分帧，来弥补图像帧和音频帧之间的采样速率差异。然后对图像进行DCT变换及PCA 降维。选取合适维度的图像特征与音频的MFCC特征做特征拼接，形成新的多模态音频特征。

(3)在Kaldi上搭建中文的自动语音识别系统。传统的声学模型采用GMM-H MM建模，适用于孤立词级别的语音识别，而对于句子级别的中文连续语音识别效果不佳。本方法采用DNN来进行声学建模，并选取11帧的多模态语音特征拼接作为输入，进行DNN训练。实验结果显示，对测试集的解码结果中，相对于传统的GMM模型，DNN模型对字和句子的识别正确率都有所提高，尤其是在句子的识别率上提高幅度明显。

实施例2

在图4中，在DNN-HMM中，对任意一个状态S∈[1,S]，通过训练DNN来估计状态的后验概率p(q_t＝s|x_t)。而在传统的GMM框架下，需要使用其多个不同的GMM对不同的状态建模。另外，深度神经网络的输入不再是一帧音频的特征，而是多帧音频拼接后组合特征，这样相邻帧之间的信息能够体现语音的时序性，使信息可以被有效地利用。

信息融合分为三个层次：数据融合，特征融合，决策融合，如图5所示。

如图6所示，实验采集的彩色图像分辨率为1920×1080，采样频率是每秒30帧。深度图像分辨率为512×424，采样频率同样是每秒30帧。且每帧图像均带有时间戳，以便对标注进行对齐。

如图3所示，首先需要对输入的特征做归一化，即进行CMVN处理，降低说话人个体特征引起的差异。然后用处理之后的特征训练单音子高斯模型，紧接着，使用单音子高斯模型和Viterbi算法，对训练数据中的句子进行强制对齐，得到音素的切分信息。最后，使用得到的切分信息进行三音子模型的训练，而且，在这个过程中，逐渐加入各种不同的特征变换的方法，如LDA，MLLT，SAT和fMLLR等来提高模型的性能。

通过实验可以发现，使用DNN声学建模在字和句子级别上都提高了识别的准确率，尤其是在句子级别上，相较于最好的GMM模型，也能提高18％-20％的识别率。这是因为 DNN使用了大量的数据进行训练建模，使得声学模型的时序性更强，解码的识别率更高。作为验证实验，本发明实施例选取了15个人的数据作为训练集，将其训练出来的模型使用测试集进行解码，其实验结果如图7、图8所示。通过实验验证了本方法的可行性。

参考文献

[1]Lippmann R P.Speech recognition by machines and humans[J].SpeechCommunication, 1997,22(1):1-15.

[2]Sanderson C,Paliwal K.Noise compensation in a person verificationsystem using face and multiple speech features[J].Pattern Recognition,2003,36(2):293-302.

[3]Bregler C,Covell M,Slaney M.Video Rewrite:driving visual speechwith audio[C]. Conference on Computer Graphics&Interactive Techniques.ACMPress/Addison-Wesley Publishing Co.1997.

[4]吴一超.基于统计模型的语音识别系统研究及DSP实现[D].电子科技大学,2012.

[5]Hamilton J D.A New Approach to the Economic Analysis ofNonstationary Time Series and the Business Cycle[J].Econometrica,1989,57(2):357-384.

[6]Viterbi A.Error bounds for convolutional codes and anasymptotically optimum decoding algorithm[J].IEEE Trans.informat.theory,1967,13(2):260-269.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的多模态语音识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于深度神经网络的多模态语音识别方法，其特征在于，所述深度神经网络-隐马尔科夫模型的训练具体为：