CN109524006B

CN109524006B - 一种基于深度学习的汉语普通话唇语识别方法

Info

Publication number: CN109524006B
Application number: CN201811210728.1A
Authority: CN
Inventors: 赵美蓉; 吴大江; 邢广鑫; 郑叶龙
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2023-01-24
Anticipated expiration: 2038-10-17
Also published as: CN109524006A

Abstract

本发明公开了一种基于深度学习的汉语普通话唇语识别方法，考虑到汉语语言结构的特点，采用了编码器‑解码器的算法架构，为了具有通用性和扩展性，使用卷积神经网络提取视频特征，编码器与解码器的子单元采用循环卷神经网络，汉语普通话标签采用词嵌入的编码方式，为了唇语算法识别的准确性，在编码器‑解码器输出部分添加注意力机制。本发明以汉语普通话句子级唇语识别为研究对象，通过分析影响唇语识别的制约因素，在建立的唇语识别模型中针对性的添加解决方法，获得了可以实际应用的唇语识别技术，为更高准确度和更具扩展性的唇语解决方案提供理论和技术基础。

Description

一种基于深度学习的汉语普通话唇语识别方法

技术领域

本发明涉及计算机视觉和深度学习领域，特别涉及一种基于深度学习的汉语普通话唇语识别方法。

背景技术

唇语识别是一种在不借助语音信息帮助的前提下，通过唇部、脸部和舌部运动的视觉特征翻译理解说话人信息的技术，其还也依赖于语境提供的信息，语言知识。唇语也被称为视觉语言，也即基于说话时唇部运动的模式识别。

传统的唇语识别方法大多采用人工提取唇部的低级或高级特征，之后将得到的特征送到特征分类器，如SVM，Adaboost等，进行词语级别的分类。这样的方法尽管计算量小，但是受制于人工提取特征这一非常具有技巧性的过程，实际表现中容易受到光照，投射变换等的影响。另外，进行简单词分类的唇语识别，在实际应用场景中局限性较多，不能满足真实场景中多变的语言环境。

唇语识别是计算机视觉和人机交互领域重要的研究课题，借助唇部特征的辨识，可将其应用在后天聋哑人士的语言功能恢复、刑事侦查、身份认证等领域。目前大量的安防监控摄像头只有视频而没有音频信息，采用唇语辅助技术可以获得许多单纯依靠视频无法得到的信息。另外，唇语识别技术也可以解决嘈杂环境下音频识别准确度不高的问题。所以唇语识别技术在军事、工业、民用领域都有重要的实践意义。

发明内容

本发明的目的是克服现有技术中的不足，提供一种基于深度学习的汉语普通话唇语识别方法，本发明以汉语普通话句子级唇语识别为研究对象，通过分析影响唇语识别的制约因素，比如：光照，边缘效应等，在建立的唇语识别模型中针对性的添加解决方法，获得了可以实际应用的唇语识别技术，为更高准确度和更具扩展性的唇语解决方案提供理论和技术基础。

本发明所采用的技术方案是：一种基于深度学习的汉语普通话唇语识别方法，包括以下步骤：

步骤1，基于原始数据建立唇读数据集；

步骤2，采用多阶段卷积神经网络提取唇读数据集中静默视频中说话人唇部区域，并采用时空卷积神经网络处理唇部区域得到静默视频序列的口型动作特征；同时，对唇读数据集中的细标签序列进行词嵌入处理得到向量形式的细标签序列；

步骤3，将静默视频序列口型动作特征和向量形式的细标签序列送入编码器-解码器，在编码器-解码器中，采用注意力机制使得解码器中的向量形式的细标签与编码器中的口型动作特征相对应，得到向量形式的细标签序列和静默视频序列口型动作特征对齐后的向量表示；

步骤4，采用多层感知器将步骤3得到的对齐后的向量表示转变成概率分布形式的结果，完成唇语识别网络的搭建；

步骤5，采用唇读数据集中的数据对唇语识别网络进行训练，得到唇语识别模型，唇语识别模型的输出为概率最大的细标签序列；

步骤6，对唇语识别模型进行测试，采用定向搜索技术改善步骤5得到的细标签序列，得到最佳的唇语识别结果。

进一步的，步骤1中，所述的唇读数据集建立方法为：

步骤1-1，使用基于梯度直方图的人脸检测算法处理原始视频的每一帧；相同的说话者使用KLT追踪器组织在一起；使用回归树集合从稀疏像素强度的子集中提取面部地标点，得到目标人说话视频片段；

步骤1-2，把步骤1-1得到的目标人说话视频片段平均分割成2秒一段的视频子序列，每段分割后的视频子序列均包含音频；

步骤1-3，将步骤1-2分割后的视频子序列进行音频视频分离，得到音频序列和静默视频序列；使用语音转写服务将音频序列内容转写为对应的文字作为粗标签序列，将静默视频序列与粗标签序列进行对齐；

步骤1-4，将步骤1-3中语音转写后的粗标签序列进行分词，按词性得到含有空格的文本作为细标签序列；

步骤1-5，将步骤1-3得到的静默视频序列与步骤1-4得到的细标签序列对齐，并进行人工校验，得到唇读数据集。

进一步的，步骤2中，所述的词嵌入编码方式采用的是Word2vec，所述Word2vec采用Skip-Gram网络。

进一步的，步骤3中，所述的编码器-解码器采用基于长短时记忆网络的编码器-解码器。

本发明的有益效果是：

本发明提出针对汉语普通话的句子级唇语识别方法，即建立以卷积神经网络为特征提取器，以编码器-解码器架构为主框架，采用词嵌入的方式编码汉语句子中的词语，结合注意力机制与多层感知器来提高系统鲁棒性。

本唇语识别方法的提出，有利于为唇语识别领域采用深度学习技术提供实验验证，有利于理论的发展与完善。同时根据验证结果，可以为实际场景中应用唇语识别技术提供了可能，为进一步发展更加准确和更具鲁棒性的唇语识别方案提供了理论储备和方案储备。

附图说明

图1是本发明基于深度学习的汉语普通话唇语识别方法流程图；

图2是时空卷积神经网络各层输出示意图；

图3是长短时记忆网络结构图；

图4是Skip-Gram示意图；

图5是注意力机制示意图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下：

如附图1所示，一种基于深度学习的汉语普通话唇语识别方法，考虑到汉语语言结构的特点，采用了编码器-解码器的算法架构，为了具有通用性和扩展性，使用卷积神经网络提取视频特征，编码器与解码器的子单元采用循环卷神经网络，汉语普通话标签采用词嵌入的编码方式，为了唇语算法识别的准确性，在编码器-解码器输出部分添加注意力机制。包括以下步骤：

步骤1，基于原始数据建立唇读数据集：

步骤1-1，使用基于梯度直方图的人脸检测算法处理原始视频的每一帧；相同的说话者使用KLT追踪器组织在一起；使用回归树集合从稀疏像素强度的子集中提取面部地标点，得到目标人说话视频片段；其中，所述原始视频可以使用网络爬虫从互联网上抓取。

步骤1-2，考虑到计算机GPU的限制，以及网络架构约束的情况，把步骤1-1得到的目标人说话视频片段平均分割成2秒一段的视频子序列，每段分割后的视频子序列均包含音频。

步骤1-3，将步骤1-2分割后的视频子序列进行音频视频分离，分别得到音频序列和静默视频序列；使用科大讯飞的商用语音转写服务将音频序列内容转写为对应文字作为粗标签序列，将静默视频序列与粗标签序列进行对齐。

步骤1-4，不同于英文或其他使用基本字母拼写的语言，它们自然的带有空格而不需要分词，汉语由于其自身的结构原因需要分词处理。为提高汉语唇语识别的准确率，将步骤1-3中将语音转写后的粗标签序列采用使用分词工具进行分词，按词性得到含有空格的文本作为细标签序列，其中，所述分词工具可采用优化后的Thulac或Jieba。

步骤2，采用多阶段卷积神经网络(MTCNN)提取唇读数据集中静默视频中的说话人唇部区域，并采用时空卷积神经网络(STCNN)提取唇部区域的静默视频序列口型动作特征；同时，采用Word2vec网络对唇读数据集中的细标签序列进行词嵌入编码处理得到向量形式的细标签序列。

其中，时空卷积神经网络(STCNN)提取特征如下所示：

不同于传统的特征工程需要手工选取特征的不便及选取的特征易受光照、图像形变等的影响。使用STCNN可以有效的从数据集中学习出不同自然状态下的特征信息，相较于特征工程方法，具有非常好的泛化性和可扩展性。

在卷积神经网络中，STCNN卷积操作可以同时计算空间和时间飞度特征。通过将STCNN卷积核应用到多个连续帧，之后堆叠成的立方体张量结构来实现STCNN卷积操作。通过这种构造，卷积层中的特征图谱连接到前一层中的多个连续帧，从而可以捕获运动信息。

形式上，在第i层的第j个特征图谱中，指定位置(x,y,z)处的数值为

由下式计算得到：

其中，b_ij为偏置项，R_i是3D卷积核沿着时间维度的尺寸，

为连接到前一层的第m个特征图谱的卷积核的位置(p,q,r)处的值。P_i和Q_i分别为卷积核的高度和宽度。在下采样层，特征图谱的分辨率通过在前一层特征图谱的局部邻域中进行池化操作来降低，从而可以增强对输入失真的不变性。

实验结果在唇读数据集上完成训练和测试，所述唇读数据集为帧数53，大小196x196的3通道彩色半身说话人视频片段。STCNN的输入为使用MTCNN提取的大小为60x60的唇部外接矩形区域视频序列。本实施例中，时空卷积神经网络的超参数为使用3个卷积层，3个池化层，每层都使用BatchNormalizaion和Dropout进行正则化处理，防止过拟合，时空卷积核设置为5x5x5，步长设置为1x1x1，池化层使用MaxPooling，核尺寸为1x2x2。在时间轴上不进行下采样，以保证可以获取充分多的时间序列特征信息。时空卷积神经网络(STCNN)各层输出如图2所示。

其中，Word2vec进行词嵌入处理如下所示：

将分词处理后的结果送入词嵌入网络，采用的词嵌入模型是Word2vec，Word2vec运算量小，编码结果准确性高。词嵌入是一种可学习的单词表示形式，允许具有相似含义的单词具有类似的表示形式。该方法的关键在于为每个单词使用稠密的分布式表示。每个单词由一个实值向量表示，通常表示为数十或数百维。使用稠密和低维向量的好处主要是大多数神经网络工具不能很好地处理非常高维的稀疏向量。而Word2vec是一种有效的从大量非结构化文本数据中学习高质量矢量表示的方法。与常用的One-Hot不同的是，使用Word2vec编码的字符信息可以进行距离比较，具有相似语义内容的信息在词嵌入空间中距离较近，反之亦然。这样使用Word2vec进行字符编码后，在模型推断解码过程中可以使得推断的效果更加自然，也即接近真实的上下文环境。Word2vec由两种相反的网络组成：Skip-Gram和CBOW，CBOW使用较小的数据集，而Skip-Gram将每个上下文对象作为一个新的观察对象，在较大的数据集上表现更好。本发明中涉及的唇读数据集规模较大所以采用的是Skip-Gram网络，Skip-Gram网络结构如图4所示，图4中，

表示隐藏层单元，

表示对应于训练集中输入单词的独热编码表示向量，

是对应于训练集中输出单词的独热编码表示向量。V×N维矩阵W是输入层和隐藏层之间的权重矩阵，它的第m行表示对应于词汇表中第m个单词的权重。每个输出单词向量与N×V输出矩阵W'有关。

步骤3，将静默视频序列口型动作特征和向量形式的细标签序列送入基于长短时记忆网络(LSTM)的编码器-解码器，静默视频序列口型动作特征送入编码器，向量形式的细标签序列送入解码器。在编码器-解码器中，采用注意力机制使得解码器中的向量形式的细标签与编码器中的口型特征相对应，得到向量形式的细标签序列和静默视频序列口型动作特征对齐后的向量表示。

其中，基于长短时记忆网络(LSTM)的编码器-解码器的组成如下：

在编码器-解码器框架中，编码器将输入语句(向量

)的序列)读入向量c^ED中。最常用的方法是使用循环神经网络：

其中，

是时刻t的隐藏状态，c^ED是隐藏状态序列产生的向量。f^ED和q^ED是非线性函数。本发明中，f^ED使用的是LSTM，

长短时记忆网络(LSTM)结构图如图3所示。图3中，f^LSTM表示遗忘门输出，i^LSTM表示输入门输出，z^LSTM表示输入经过输入激活函数处理后的输出，o^LSTM表示输出门输出，

表示未加权连接，

表示加权连接，

表示时间滞后连接，“●”表示分支点，“⊙”表示乘法，

表示求和，

表示门激活函数(sigmoid)，

输入激活函数(tanh)，

表示输出激活函数(tanh)。

LSTM在循环隐藏层中拥有被称为记忆块的特殊单元。记忆块具有自连接的记忆单元，除了存储称为门的特殊乘法单元外，还存储网络的时间状态，以便可以控制信息流。基本的LSTM记忆单元包括三个重要的门和一个记忆体状态。输入门控制输入流向记忆单元，输出门控制记忆单元激活到网络其余部分的输出流。遗忘门通过记忆单元的自连接将单元的内部状态作为输入添加到记忆单元中。从而自适应的忘记或重置记忆单元的记忆。使用LSTM可以有效解决传统的循环卷积神经网络梯度消失问题。

编码器和解码器分别都级联了3层LSTM，每层隐藏单元个数为256，每层LSTM之间使用残差连接，同时使用Dropout进行正则化处理，减少模型过拟合风险，增强模型的表达能力。

其中，注意力机制的作用如下所示：

实际场景中可能会有长度较长汉语语句，本发明为了进一步增加唇语识别的精度，系统架构中还添加了注意力机制，其可以使得模型解码器关注特定位置的编码内容，而不用将整个编码内容都作为解码的依据，进而提高模型解码效果。在注意力模型中，条件概率定义为

p(y_i|y₁,…,y_i-1,x)＝g(y_i-1,s_i,c_i) (4)

如图5，其中s_i是循环神经网络中时刻i的隐藏状态。s_i的计算公式为

s_i＝f(s_i-1,y_i-1,c_i) (5)

其中，编码器将输入语句映射到标签序列(h₁,…,h_Tx)，该标签序列与上下文向量c_i有关。上下文向量c_i使用其对应的标签h_i的加权和来计算，即

每个标签h_j的权重α_ij的计算公式为

其中

e_ij＝a(s_i-1,h_j) (8)

这是一个对齐模型，它对位置j周围的输入和位置i处的输出的匹配程度进行评分。得分与循环神经网络的隐藏状态s_i-1和输入句子的第j个标签h_j有关。

步骤4，采用多层感知器(MLP)将步骤3得到的对齐后的向量表示转变成概率分布形式的结果，至此，完成了唇语识别网络的搭建。

步骤5，采用唇读数据集中的数据对唇语识别网络进行训练，得到唇语识别模型，唇语识别模型的输出为概率最大的细标签序列。

步骤6，对唇语识别模型进行测试，采用定向搜索技术(Beam search)改善步骤5得到的细标签序列，得到最佳的唇语识别结果。

本发明为针对汉语语言结构特点，提出了基于编码器-解码器架构融合时空卷积神经网络的特征提取器和词嵌入网络，并使用注意力机制的端到端的算法模型。其中特征提取器使用的是时空卷积神经网络(STCNN)，编码器-解码器子单元采用的是长短时记忆网络(LSTM)，词嵌入(Eembedding)编码方式采用的是Word2vec。汉字不同于英文等字母型语言有很多不同，英语等字母型语言由基本的少数字母拼写而成，对于编码而言由于其基本编码单元少(如英文由26个字母组成)，使用简单的One-hot编码即可得到较好的结果，而汉字其由大量的基本汉字组成(据统计，常用基本汉字有4000个左右)，直接使用One-hot编码训练出可用的语言模型需要巨大的语料库，同时由于One-hot编码向量的稀疏性和正交性不利于深度神经网络的训练，针对于此本发明提出了汉字标签送入网络前进行分词处理的解决方法，该方法可以有效解决语料库不是非常巨大时汉语唇语识别结果的准确性过低的问题。

系统使用唇读数据集汉语普通话唇语识别数据集来训练模型，使用改进的多阶段卷积神经网络(MTCNN)提取静默视频中唇部区域，而后将提取的唇部区域送入时空卷积网络STCNN中，用于提取唇部动作的视觉特征信息。基于LSTM的编码器-解码器用于将唇部视觉特征信息进行编码并在模型推断时，将其解码成为相关的文本信息。注意力机制可以使得模型解码器关注特定位置的编码器编码内容，而不用将整个编码内容都作为解码的依据，进而提高模型解码效果。使用优化后的Thulac来对汉字语句进行分词，分词后的结果送入Word2vec，该部分在网络中的作用本质上来说是充当字符编码的作用。编码器-解码器架构将可变长度序列编码为固定长度表示，并将给定的固定长度向量表示为可变长序列。从概率角度看，该模型是在一个可变长度序列的条件下，使用通用的方法来学习另一个可变长序列的条件概率分布。

尽管上面结合附图对本发明的优选实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，并不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可以做出很多形式，这些均属于本发明的保护范围之内。

Claims

1.一种基于深度学习的汉语普通话唇语识别方法，其特征在于，包括以下步骤：

步骤1，基于原始数据建立唇读数据集：包括：

步骤1-5，将步骤1-3得到的静默视频序列与步骤1-4得到的细标签序列对齐，并进行人工校验，得到唇读数据集；

2.根据权利要求1所述的一种基于深度学习的汉语普通话唇语识别方法，其特征在于，步骤2中，所述的词嵌入编码方式采用的是Word2vec，所述Word2vec采用Skip-Gram网络。

3.根据权利要求1所述的一种基于深度学习的汉语普通话唇语识别方法，其特征在于，步骤3中，所述的编码器-解码器采用基于长短时记忆网络的编码器-解码器。