CN110633683B

CN110633683B - 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法

Info

Publication number: CN110633683B
Application number: CN201910888992.9A
Authority: CN
Inventors: 杜吉祥; 陈雪娟; 张洪博; 雷庆
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2022-03-25
Anticipated expiration: 2039-09-19
Also published as: CN110633683A

Abstract

本发明公开了一种结合DenseNet和resBi‑LSTM的中文句子级唇语识别方法，本发明将唇语识别拆分为拼音预测与语言翻译两个部分，降低了唇语识别的难度。使用DenseNet提取视觉特征，充分利用浅层特征，有效缓解了梯度消失的问题，并且减少了网络的参数。使用1×1卷积代替全连接实现特征降维的功能，保留了特征中的空间信息，在唇语识别技术研究中，空间信息起着重要作用。使用resBi‑LSTM进行视觉特征的处理，最后得到结合了视觉特征和语义特征的复杂特征，减少了有效信息的损失，提高了唇语识别的准确率。

Description

结合DenseNet和resBi-LSTM的中文句子级唇语识别方法

技术领域

本发明涉及人工智能领域，尤其涉及一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法。

背景技术

随着大数据、云计算、互联网、物联网等信息技术的发展，泛在感知数据和图形处理器等计算平台的推动，以深度神经网络为代表的人工智能技术飞速发展，人工智能正成为推动人类进入智能时代的决定性力量。人工智能的普及对社会的。影响日益凸显，在图像分类、语音识别、知识问答、人机对弈、无人驾驶等领域产生了积极的影响，使之迎来爆发式增长的新高潮。人工智能作为新一轮科技革命的核心力量，推动着国家的进步。唇语识别作为人工智能领域的一个分支，同样起着重要的作用。

唇语识别技术在很多领域可以发挥重大作用。例如，据调查，现如今公共场所的监控设备，受限于成本和技术，大多都只有单一的摄像头，并没有麦克风，仅仅能做到基本的用户人脸图像采集，而无法获取用户讲话内容，不利于公共安全的警戒与保护工作。而唇语识别技术可以解决这一问题，更有效地利用监控视频，为公共安全的建设提供有效支持，最大程度上保障民众的利益不受侵犯。唇语识别的关键技术在于如何提取说话人连续的口型变化特征，如何根据连续变化的口型特征识别出对应的发音，以及计算出可能性最大的自然语言语句。目前已经提出了许多方法，这些方法根据数据集的分类，可以分为词级和句子级唇语识别方法。前者每次只能识别单个词汇，后者识别整个语句。

句子级唇语识别端到端方法基本上基于两个框架，一个是序列到序列(seq2seq)框架，一个是连接时序分类(CTC)框架。seq2seq模型利用全局context信息把一个域的序列转化为另一个域的序列，由encoder(编码器)和decoder(解码器)两部分组成。基于RNN的seq2seq模型的表现会随着句子长度快速下降，并且不能区别对待重要性不同的单词。从而有了改进的基于注意力机制的seq2seq模型，在机器翻译、语音识别、唇语识别等领域取得了较好的成果。CTC算法，一般需要与RNN或DNN结合使用，无需事先标注好训练数据中输入序列和输出序列的映射关系。CTC适用于存在一一对应关系、主要利用局部context信息的问题，例如语音识别、OCR、唇语识别等。以上两种框架均属于对特征序列的处理，在提取口型变化特征阶段，两种框架采用的模型可以通用。一般使用卷积神经网络(CNN)进行特征的提取，例如VGG、ResNet等等。

据我们所知，现如今，唇语识别公开的句子级数据集只有英文的，例如LRS、LRS3等，暂时没有大型句子级中文唇语识别公开数据集。本发明在自己制作的小型数据集上进行研究。由于汉字标签的数量较多，现有数据集的大小无法直接训练得到一个识别为汉字的唇语识别模型，故将其拆分为两部分，一个是预测拼音序列的拼音预测模型，一个是将拼音转化为汉字的语言翻译模型。本发明的关键部分在拼音预测模型，并使用CTC框架对该模型进行训练。

目前，Combining residual networks with LSTMs for lipreading(下面简述Combining.)方法与本发明的拼音预测模型较为相似。该模型是个词级的唇语识别分类模型，首先使用一层时空卷积提取唇部区域的短期动态特征，紧接着三维最大池化层被用来降低三维特征图的空间大小。随后三维特征图在每个时间步上经过一个二维的残差网络(ResNet)，提取唇部序列中的空间特征。最后，先使用一层全连接层降低维度，然后使用两层双向LSTM对特征序列进行处理，最后使用全连接层将其分成500类，得到最终的单词分类结果。

发明内容

本发明的目的就在于为了解决上述问题而提供一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法，解决以下问题：

第一，由于汉语的数量比较大，在唇语识别过程中，如果直接要求得到最终的汉语结果是很困难的。很多汉字具有相同的读音，例如“播”、“玻”和“波”都读“bo”，拼音替换汉字作为标签可以大大降低唇语识别的难度，所以将唇语识别模型拆分为拼音序列预测模型和语言翻译(拼音到汉字)模型。这样中文唇语识别的主要难点就是提高拼音预测模型的准确率。

第二，在拼音预测模型中，最重要的一点就是视觉特征的提取，提取得到的特征更能体现唇部运动特征，那么最后的拼音预测结果也能更好。本发明提出了结合时空卷积和二维DenseNet对唇部图片序列进行特征的提取。其中DenseNet相比于ResNet，通过密集连接的方式缓解梯度消失问题，加强特征传播，鼓励特征复用，极大的减少了参数量。而DenseNet中不同层次学习的串联的特征图增加了后续层输入的变化并提高了效率。

第三，特征序列处理模块是拼音预测模型中另一个重要的模块。该模块一般使用双向LSTM对视觉特征进行分析其中的语义信息，得到最终的结果。但在这个过程中，随着双向LSTM层的加深，特征信息会有一部分的损耗。在本发明中，加入ResNet中的shortcutconnection方法，让视觉特征可以传播到更深的特征序列处理网络中，得到更为全面的语义信息。此网络称之为残差双向LSTM(resBi-LSTM)。

第四，在得到拼音预测序列后，需要将其转化为汉字。在这一阶段，有些类似于机器翻译，不同之处在于拼音序列和汉字序列的前后语序以及字数长度是一致的，而机器翻译的语序和长度并不相同。因此，并不需要机器翻译模型中的Dncoder部分对整个输入序列进行与ground truth的映射。本发明使用堆叠的multi-head attention来完成这个语言翻译模型。

本发明通过以下技术方案来实现上述目的：

本发明包括以下步骤：

步骤一，视觉特征提取：

拼音预测模型的输入是唇部图片序列，假设该输入序列为T×H×W(时间/高度/宽度)，先使用时空卷积提取时空特征，捕获唇部区域短时的运动特征，该部分的使用64个5×7×7(时间/高度/宽度)大小的三维卷积核，卷积层后紧跟着Batch Normalization(BN)和Rectified Linear Units(ReLU)，得到的三维特征图经过三维最大池化层减小其空间大小；经过这部分网络，得到

大小的tensor；

随后是二维的DenseNet进一步提取序列的唇部区域特征；这里采用的DenseNet是121-layer的版本；并且只使用其中的稠密块(Dense blocks)和过渡层(Transitionlayer)；稠密块网络中的每一层都直接与其前面层相连，实现特征的重复利用；且在稠密块中的Bottleneck层，在3x3的卷积之前加入1x1的卷积，这减小了网络的参数量；过渡层在每两个稠密块之间，为了进一步减少特征图的数量，提升模型的紧凑程度；经过DenseNet网络，tensor的大小为

随后，在空间维度上使用自适应平均池化(adaptive averagepool)，对每一个唇部输入图片得到一个1024维的向量；这就是提取得到的视觉特征；

步骤二，特征序列处理：

对于特征序列的处理，是为了得到其中的语义信息；在这一步使用双向LSTM；在双向LSTM之上加入了shortcut connection，命名为残差双向LSTM(resBi-LSTM)；在此使用加法操作，将视觉信息在每一层地双向LSTM中传播，所以此网络可以通过视觉信息与语义信息学习到更为复杂地特征，有助于后续拼音序列地预测；在此网络中，双向LSTM的隐藏层节点数(hidden size)设置为256，由于是双向的，所以输出向量的维度应为512维；加法操作要求相加的两个向量维度一致，因此，在resBi-LSTM层前，需要将特征的维度降到需要的512维；使用1×1卷积进行降维操作，相比于Combining.方法中的全连接层，1×1卷积可以保留特征中的空间信息；这部分空间信息在resBi-LSTM层中也有着重要的作用；通过这部分网络，最终每一个唇部图片帧得到512维的向量；

步骤三，时序数据分类：

在得到512维的特征向量后，需要对每一帧的结果进行分类；使用全连接和SoftMax进行分类；在训练阶段，使用CTC损失进行训练，CTC损失函数的计算公式如下：

L_ctc＝-ln(p_ctc(y|x))#(2)

其中，T是输入序列的长度，

表示输出标签w_t的SoftMax概率，且在时间t，w_t∈{a，ai，an，ao，…，zun，zuo，blank}；w＝(w₁，w₂，…，w_T)是一条序列的CTC路径，y是真实值(即标签)，

表示可以映射到标签y的所有CTC路径集合；

在测试阶段，使用CTC的prefix beam decode进行序列的解码，得到拼音预测序列；

步骤四，语言翻译模型：

在这一步，需要将上述步骤得到的拼音序列翻译为最终需要的汉字序列；首先使用词嵌入(word embedding)将拼音映射为512维的词向量，拼音的位置信息以正弦函数的形式在固定位置嵌入，以此作为网络的输入，并且该输入同时作为网络的query,key和value；本发明使用6层堆叠的multi-head attention和feed forward，紧跟着一层全连接层，并使用交叉熵损失训练从拼音到汉字的语言翻译模型；在测试的时候，直接选取全连接层输出值最大的作为最终结果。

本发明的有益效果在于：

本发明是一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法，与现有技术相比，本发明具有如下优点：

1.本发明将唇语识别拆分为拼音预测与语言翻译两个部分，降低了唇语识别的难度。

2.本发明使用DenseNet提取视觉特征，充分利用浅层特征，有效缓解了梯度消失的问题，并且减少了网络的参数。

3.本发明使用1×1卷积代替全连接实现特征降维的功能，保留了特征中的空间信息，在唇语识别技术研究中，空间信息起着重要作用。

4.本发明使用resBi-LSTM进行视觉特征的处理，最后得到结合了视觉特征和语义特征的复杂特征，减少了有效信息的损失，提高了唇语识别的准确率。

附图说明

图1是本发明的唇语识别模型流程图；

图2是本发明的拼音预测模型流程图；

图3是本发明的语言翻译模型流程图。

具体实施方式

下面结合附图对本发明作进一步说明：

本发明使用自制的中文句子级唇语识别数据集(来自于新闻联播与罗辑思维节目)进行唇语识别研究。本发明提出的方法流程图可见图1，分为两个模型，分别是拼音预测模型(图2)和语言翻译模型(图3)。其中在拼音翻译模型分为三个步骤：视觉特征提取、特征序列处理、时序数据分类。

步骤1，视觉特征提取：

拼音预测模型的输入是唇部图片序列，假设该输入序列为T×H×W(时间×高度×宽度)，先使用时空卷积提取时空特征，捕获唇部区域短时的运动特征，该部分的使用64个5×7×7(时间/高度/宽度)大小的三维卷积核，卷积层后紧跟着Batch Normalization(BN)和Rectified Linear Units(ReLU)，得到的三维特征图经过三维最大池化层减小其空间大小。经过这部分网络，得到

大小的tensor。

随后是二维的DenseNet进一步提取序列的唇部区域特征。这里采用的DenseNet是121-layer的版本。并且只使用其中的稠密块(Dense blocks)和过渡层(Transitionlayer)。稠密块网络中的每一层都直接与其前面层相连，实现特征的重复利用。且在稠密块中的Bottleneck层，在3x3的卷积之前加入1x1的卷积，这减小了网络的参数量。过渡层在每两个稠密块之间，为了进一步减少特征图的数量，提升模型的紧凑程度。经过DenseNet网络，tensor的大小为

随后，在空间维度上使用自适应平均池化(adaptiveaverage pool)，对每一个唇部输入图片得到一个1024维的向量。这就是提取得到的视觉特征。

步骤2，特征序列处理：

对于特征序列的处理，其实就是为了得到其中的语义信息。在这一步通常使用双向LSTM。本发明中，为了更好地传播利用视觉特征，在双向LSTM之上加入了shortcutconnection，命名为残差双向LSTM(resBi-LSTM)。在此使用加法操作，将视觉信息在每一层地双向LSTM中传播，所以此网络可以通过视觉信息与语义信息学习到更为复杂地特征，有助于后续拼音序列地预测。在此网络中，双向LSTM的隐藏层节点数(hidden size)设置为256，由于是双向的，所以输出向量的维度应为512维。加法操作要求相加的两个向量维度一致，因此，在resBi-LSTM层前，需要将特征的维度降到需要的512维。本发明中使用1×1卷积进行降维操作，相比于Combining.方法中的全连接层，1×1卷积可以保留特征中的空间信息。这部分空间信息在resBi-LSTM层中也有着重要的作用。通过这部分网络，最终每一个唇部图片帧得到512维的向量。

步骤3，时序数据分类：

在得到512维的特征向量后，需要对每一帧的结果进行分类。本发明中使用全连接和SoftMax进行分类。在训练阶段，使用CTC损失进行训练，CTC损失函数的计算公式如下：

L_ctc＝-ln(p_ctc(y|x))#(2)

其中，T是输入序列的长度，

表示输出标签w_t的SoftMax概率，且在时间t，w_t∈{a，ai，an，ao，…，zun，zuo，zuo，blank}；w＝(w₁，w₂，…，w_T)是一条序列的CTC路径，y是真实值(即标签)，

表示可以映射到标签y的所有CTC路径集合。

在测试阶段，使用CTC的prefix beam decode进行序列的解码，得到拼音预测序列。

步骤4，语言翻译模型

在这一步，需要将上述步骤得到的拼音序列翻译为最终需要的汉字序列。首先使用词嵌入(word embedding)将拼音映射为512维的词向量，拼音的位置信息以正弦函数的形式在固定位置嵌入，以此作为网络的输入，并且该输入同时作为网络的query,key和value。本发明使用6层堆叠的multi-head attention和feed forward，紧跟着一层全连接层，并使用交叉熵损失训练从拼音到汉字的语言翻译模型。

在测试的时候，直接选取全连接层输出值最大的作为最终结果。

本发明的实验结果如下：

本发明在Combining.方法的基础上，这里将其更改了训练机制，在自制数据集上进行了改进创新，结果如表1所示。首先改进特征提取的方法，DenseNet可以提取到比ResNet更为有效的空间特征；其次是改进视觉特征处理模块，结合了视觉特征与语义特征可以获得更复杂的特征，有助于最终的分类结果；随后采用1×1卷积替换全连接层，保留视觉特征中的空间特征，结果表明，这是有效的。其中

由于拼音预测中的错误，导致在拼音转汉字的过程中损失8％左右的准确率。

表1各方法拼音错误率和汉字错误率结果图

以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法，其特征在于，包括以下步骤：

步骤一，视觉特征提取：

拼音预测模型的输入是唇部图片序列，假设该输入序列为：时间T×高度H×宽度W，先使用时空卷积提取时空特征，捕获唇部区域短时的运动特征，该部分的使用64个5T×7H×7W大小的三维卷积核，卷积层后紧跟着Batch Normalization和Rectified Linear Units，得到的三维特征图经过三维最大池化层减小其空间大小；经过这部分网络，得到

大小的tensor；

随后是二维的DenseNet进一步提取序列的唇部区域特征；这里采用的DenseNet是121-layer的版本；并且只使用其中的稠密块和过渡层；稠密块网络中的每一层都直接与其前面层相连，且在稠密块中的Bottleneck层，在3x3的卷积之前加入1x1的卷积，过渡层在每两个稠密块之间，为了进一步减少特征图的数量，提升模型的紧凑程度；经过DenseNet网络，tensor的大小为

随后，在空间维度上使用自适应平均池化，对每一个唇部输入图片得到一个1024维的向量；这就是提取得到的视觉特征；

步骤二，特征序列处理：

对于特征序列的处理，是为了得到其中的语义信息；在这一步使用双向LSTM；在双向LSTM之上加入了shortcut connection，命名为残差双向LSTM；在此使用加法操作，将视觉信息在每一层地双向LSTM中传播，在此网络中，双向LSTM的隐藏层节点数设置为256，由于是双向的，所以输出向量的维度应为512维；加法操作要求相加的两个向量维度一致，因此，在resBi-LSTM层前，需要将特征的维度降到需要的512维；使用1×1卷积进行降维操作，1×1卷积可以保留特征中的空间信息；通过这部分网络，最终每一个唇部图片帧得到512维的向量；

步骤三，时序数据分类：

L_ctc＝-ln(p_ctc(y|x))#(2)

其中，T是输入序列的长度，

表示输出标签w_t的SoftMax概率，且在时间t，

w＝(w₁，w₂，…，w_T)是一条序列的CTC路径，y是真实值，

表示可以映射到标签y的所有CTC路径集合；

步骤四，语言翻译模型：

在这一步，需要将上述步骤得到的拼音序列翻译为最终需要的汉字序列；首先使用词嵌入将拼音映射为512维的词向量，拼音的位置信息以正弦函数的形式在固定位置嵌入，以此作为网络的输入，并且该输入同时作为网络的query,key和value；本发明使用6层堆叠的multi-head attention和feed forward，紧跟着一层全连接层，并使用交叉熵损失训练从拼音到汉字的语言翻译模型；在测试的时候，直接选取全连接层输出值最大的作为最终结果。