CN111259785B

CN111259785B - 基于时间偏移残差网络的唇语识别方法

Info

Publication number: CN111259785B
Application number: CN202010038845.5A
Authority: CN
Inventors: 吴晓华; 樊友平; 庞红; 令狐阳
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2022-09-20
Anticipated expiration: 2040-01-14
Also published as: CN111259785A

Abstract

本发明公开了一种基于时间偏移残差网络的唇语识别方法，首先提取图片序列中人物嘴唇区域，构建一个基于时间偏移模块的深度残差网络模型，自动地提取每个图片帧中嘴唇形状特征；然后使用LSTM将时间偏移模块的序列特征转化为一个时间序列上的特征向量；最后将特征向量输入至一个含有注意力机制的语言序列生成模型，产生唇语识别结果。本发明将视频图片中的唇动序列转化为语言序列，采用了特殊的残差网络模块，解决了唇语识别中计算复杂的问题，具有准确度高和运行效率高的特点。

Description

基于时间偏移残差网络的唇语识别方法

技术领域

本发明属于人工智能和深度学习技术领域，具体涉及一种基于时间偏移残差网络的唇语识别方法的设计。

背景技术

随着深度学习和人工智能技术的发展，以及高清视频监控的大规模应用，在机器视觉领域内出现了唇语识别技术。唇语识别技术可应用于生物活体认证、噪声环境下的语音识别辅助以及安防领域的监控等场景中，具有重要的社会现实意义与价值。

因为嘴唇运动带来的信息也是说话内容一种重要表现形式，所以观察人们说话时嘴唇运动变化可以识别说话内容。通过深度学习方法构建神经网络模型让机器学会阅读唇语是一种新的技术。目前使用的神经网络模型具有计算量复杂、识别计算量大等问题。而且唇语识别技术需要大量的唇语视频数据，但是目前标准的唇语数据一般取自于电视新闻节目中的视频素材，而且受嘴形、唇色以及人们发音等影响，即使人们说出相同的内容，每个人的唇动信息都不相同，这导致了目前唇语识别在应用时出现了准确率不高的问题。

发明内容

本发明的目的是为了解决现有的唇语识别技术的计算量大且准确率不高的问题，提出了一种基于时间偏移残差网络的唇语识别方法，能够高效而又准确地识别唇语。

本发明的技术方案为：基于时间偏移残差网络的唇语识别方法，包括训练数据预处理阶段、神经网络模型训练阶段和预测识别阶段。

训练数据预处理阶段包括以下步骤S1～S3：

S1、选取包含嘴唇的原始图片并对其进行检测与裁剪，得到嘴唇区域图片序列。

S2、对嘴唇区域图片序列进行数据增强。

S3、对数据增强后的图片序列进行归一化，得到预处理后的训练数据。

神经网络模型训练阶段包括以下步骤S4～S6：

S4、将预处理后的训练数据作为神经网络模型编码器的输入，输出得到编码过后的特征向量序列和编码器状态向量。

S5、将编码过后的特征向量序列和编码器状态向量作为神经网络模型解码器的输入，当解码出结尾标志符时，结束解码过程。

S6、基于反向传播算法，采用导师驱动的方式最小化交叉熵损失训练整个神经网络模型，得到训练完成的神经网络模型。

预测识别阶段包括以下步骤S7～S9：

S7、对待识别图片进行预处理，并将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入，输出编码过后的特征向量序列和编码器状态向量。

S8、将编码过后的特征向量序列和编码器状态向量作为训练完成的神经网络模型解码器的输入，当解码出结尾标志符时，结束解码过程。

S9、拼接训练完成的神经网络模型解码器的所有输出，得到唇语识别结果。

进一步地，步骤S1包括以下分步骤：

S11、从训练数据集中选取部分包含嘴唇的原始图片，标记嘴唇区域矩形框作为嘴唇检测训练标签。

S12、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练。

S13、使用训练完成的模型检测训练数据集中所有原始图片的嘴唇区域，得到嘴唇区域图片序列。

进一步地，步骤S2具体为：对嘴唇区域图片序列进行随机平移、旋转、缩放、水平翻转和随机改变明暗度，得到数据增强后的图片序列。

进一步地，步骤S3具体为：对数据增强后的图片序列三个通道的像素值进行归一化，将每一个像素值除以255，映射到0到1的数值范围，得到预处理后的训练数据。

进一步地，步骤S4中的神经网络模型编码器包括基于TSM的2DResnet和BiLSTM。

步骤S4包括以下分步骤：

S41、在2DResnet的残差连接块中添加时间偏移模块TSM。

S42、通过基于TSM的2DResnet同时提取输入图片的空间特征和短期图片的序列特征，输出特征向量序列。

S43、将2DResnet输出的特征向量序列输入到BiLSTM中提取长期图片的序列特征，输出得到编码过后的特征向量序列和编码器状态向量。

进一步地，步骤S5中的神经网络模型解码器采用基于注意力的长短时记忆网络结构LSTM。

步骤S5包括以下分步骤：

S51、将编码器状态向量s作为神经网络模型解码器的初始输入状态s₀，并基于注意力计算公式计算当前输入状态与编码过后的特征向量的相关度，计算公式为：

其中a_ij表示第i个输入状态s_i与第j个编码过后的特征向量h_j的相关度，e_ij表示未归一化的第i个输入状态s_i与第j个编码过后的特征向量h_j的相关度，e_ik表示未归一化的第i个输入状态s_i与第k个编码过后的特征向量h_k的相关度，T表示编码过后的特征向量序列长度，且有：

e_ij＝f(s_i-1,h_j)

其中f(·)表示单层的全连接神经网络函数，s_i-1表示第i-1个输入状态，h_j表示第j个编码过后的特征向量。

S52、对所有编码过后的特征向量根据相关度进行加权平均，得到加权平均特征向量，计算公式为：

其中c_i表示第i个加权平均特征向量。

S53、将加权平均特征向量c_i与正确标签词的词向量拼接后得到第i个神经网络模型解码器的输入x_i，并将其输入至神经网络模型解码器，输出得到第i个词的预测类别y_i和当前第i个输入状态s_i。

S54、令计数值i加1，重复步骤S53，直到神经网络模型解码器输出标签类别为结尾标志符时，结束解码过程。

进一步地，步骤S6包括以下分步骤：

S61、计算神经网络模型解码器所有位置交叉熵损失的平均值，计算公式为：

其中loss表示神经网络模型解码器所有位置交叉熵损失的平均值，T₀表示包含结尾标记词的输出语句长度，y_l表示第l个正确类别的one-hot向量，

表示所有类别的预测概率。

S62、基于反向传播算法，计算神经网络模型所有参数的梯度。

S63、使用基于动量的随机梯度下降优化算法迭代更新神经网络模型的参数值来最小化平均交叉熵损失，直到算法收敛，得到训练完成的神经网络模型。

进一步地，步骤S7包括以下分步骤：

S71、选取部分待识别图片，标记嘴唇区域矩形框作为嘴唇检测训练标签。

S72、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练。

S73、使用训练完成的模型检测所有待识别图片的嘴唇区域，得到嘴唇区域图片序列。

S74、对嘴唇区域图片序列三个通道的像素值进行归一化，将每一个像素值除以255，映射到0到1的数值范围，得到预处理后的待识别图片序列。

S75、将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入，输出编码过后的特征向量序列和编码器状态向量。

进一步地，步骤S8包括以下分步骤：

S81、将编码器状态向量s作为神经网络模型解码器的初始输入状态s₀，并基于注意力计算公式计算当前输入状态与编码过后的特征向量的相关度，计算公式为：

e_ij＝f(s_i-1,h_j)

S82、对所有编码过后的特征向量根据相关度进行加权平均，得到加权平均特征向量，计算公式为：

其中c_i表示第i个加权平均特征向量。

S83、将加权平均特征向量c_i与第i-1个词的预测类别y_i-1拼接后得到第i个神经网络模型解码器的输入x_i，并将其输入至神经网络模型解码器，输出得到第i个词的预测类别y_i和当前第i个输入状态s_i。

S84、令计数值i加1，重复步骤S83，直到神经网络模型解码器输出标签类别为结尾标志符时，结束解码过程。

进一步地，步骤S9包括以下分步骤：

S91、拼接训练完成的神经网络模型解码器的所有输出类别，并去掉结尾标志符。

S92、将所有输出类别转化为对应的词或字，得到唇语识别结果。

本发明的有益效果是：本发明提供了一种基于时间偏移残差网络的唇语识别方法，基于2D残差网络，可以准确提取序列图片的空间特征，时间偏移模块TSM通过交换相邻帧的部分通道特征图达到3D卷积提取短期图片的序列特征的能力，既能保证2D残差网络的高效性，又能达到3D残差网络的准确性；加上BiLSTM的结构能有效捕捉长期图片序列特征，最终实现高效并且准确的唇语序列特征提取；此外，本发明通过基于注意力的LSTM解码器，能够有效且准确地解码出唇语序列图片中的文字信息。

附图说明

图1所示为本发明实施例提供的基于时间偏移残差网络的唇语识别方法流程图。

图2所示为本发明实施例提供的整体的方案示意图。

图3所示为本发明实施例提供的基于TSM的残差单元结构图。

图4所示为本发明实施例提供的基于TSM的18层的残差网络结构图。

图5所示为本发明实施例提供的基于注意力的LSTM解码器解码过程示意图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种基于时间偏移残差网络的唇语识别方法，如图1所示，包括训练数据预处理阶段、神经网络模型训练阶段和预测识别阶段。本发明实施例中，仿真实验使用的唇语图片序列共9994个样本，其中前8994条为训练样本，后1000条为测试样本。唇语图片序列最长为24帧，平均长度7至8帧，每张为半脸包含嘴唇的图片。输出唇语文字字典大小431，输出文字长度最长为4，平均长度3至4，本发明实施例的整体方案如图2所示。

其中，训练数据预处理阶段包括以下步骤S1～S3：

S1、选取包含嘴唇的73567张原始图片并对其进行检测与裁剪，得到嘴唇区域图片序列。

S2、对嘴唇区域图片序列进行数据增强。

步骤S1包括以下分步骤S11～S13：

S11、从9994条训练数据集中随机选取1000条图片样本序列，再从每一条图片样本序列中随机采样一张包含嘴唇的原始图片，使用Dlib库中的Imglab对这1000张图片标记嘴唇区域矩形框，并作为嘴唇检测训练标签。

S12、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练。

本发明实施例中，将700张图片作为嘴唇区域检测模型的训练集，剩下300张作为嘴唇区域检测模型的测试集，训练准确率0.99，召回率0.96，测试准确率0.98，召回率0.97。

S13、使用训练完成的模型检测训练数据集中73567张原始图片的嘴唇区域，得到嘴唇区域图片序列，单进程执行耗时35分钟。

步骤S2具体为：使用神经网络框架keras的图像预处理类ImageDataGenerator对嘴唇区域图片序列进行实时增强，对嘴唇区域图片序列进行随机平移0至15％、旋转0至20度、缩放0至0.2、50％概率水平翻转和随机改变明暗度0.2至1.0。

步骤S3具体为：对数据增强后的图片序列三个通道的像素值进行归一化，将每一个像素值除以255，映射到0到1的数值范围，得到预处理后的训练数据。

神经网络模型训练阶段包括以下步骤S4～S6：

本发明实施例中，神经网络模型编码器包括基于时间偏移模块TSM(temporal-shift-module)的2DResnet和BiLSTM，神经网络模型解码器采用基于注意力的长短时记忆网络结构LSTM。

步骤S4包括以下分步骤S41～S43：

S41、在2DResnet的残差连接块中添加时间偏移模块TSM。本发明实施例中，TSM通过交换相邻帧的部分通道特征图达到3D卷积提取短期图片的序列特征的功能，既能保证编码器具有2D卷积神经网络的高效性，又能达到3D卷积神经网络的准确度。

本发明实施例中，为了加快神经网络模型的训练时间，将预处理后的图片序列统一为64×64大小的3通道彩色图片，并将所有图片序列补0至24帧固定长度作为神经网络模型编码器的输入。如图3所示，本发明实施例首先在残差单元中添加TSM来改进2D残差网络单元结构，其中TSM将特征图中1/4的通道与前后帧特征图的通道交换。如图4所示，神经网络模型编码器中卷积部分采用基于TSM的18层2DResnet，输出的特征向量维度为24×512；循环部分采用隐藏层单元个数为256、层数为2的双向LSTM。神经网络模型编码器最终输出特征向量序列维度为24×256，状态s维度为2×256。

如图5所示，步骤S5包括以下分步骤S51～S54：

e_ij＝f(s_i-1,h_j)

本发明实施例中，编码器状态向量s的维度为2×256，相关度a_ij的维度为1×T，T＝24，编码过后的特征向量h_j的维度为1×256。

其中c_i表示第i个加权平均特征向量。本发明实施例中，加权平均特征向量c_i的维度为1×256。

进一步地，步骤S6包括以下分步骤S61～S63：

其中loss表示神经网络模型解码器所有位置交叉熵损失的平均值，T₀表示包含结尾标记词的输出语句长度，y_l表示第l个正确类别的one-hot向量，维度为1×431，

表示所有类别的预测概率，维度为1×431。

S63、使用动量为0.9、学习率为0.01的随机梯度下降优化算法迭代更新神经网络模型的参数值来最小化平均交叉熵损失，当验证损失不下降的时候，学习率减小10倍。本发明实施例中，batch_size＝32的情况下，在150轮收敛，训练精度0.99，测试精度0.74。

预测识别阶段包括以下步骤S7～S9：

步骤S7包括以下分步骤S71～S75：

S72、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练。

S75、将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入，输出编码过后的特征向量序列(维度为1×256)和编码器状态向量(维度为2×256)。

本发明实施例中，对待识别图片进行预处理时只需要对其进行裁剪与归一化处理，不需要对其进行数据增强。

步骤S8包括以下分步骤S81～S84：

e_ij＝f(s_i-1,h_j)

其中c_i表示第i个加权平均特征向量。

本发明实施例中，步骤S8与步骤S5的具体步骤基本相同，唯一区别是步骤S5中LSTM解码器的输入词是正确的标签词，而步骤S8中是上一个LSTM解码器的预测结果词。

步骤S9包括以下分步骤S91～S92：

下面以两个具体实验例对本发明提供的基于时间偏移残差网络的唇语识别方法的估计正确率和运行速度做进一步描述。

(1)估计正确率。

本具体实验例中，当预测的所有字正确的时候预测结果才算正确，数据集的语句在封闭集合中，一共有313个语句类别。编码器采用18层3DResnet和BiLSTM的时候训练150轮收敛，测试准确率0.73。18层基于TSM的2DResnet和BiLSTM的时候训练150轮收敛，测试准确率0.74。可见本发明在2DResnet情况下能达到和3DResnet一样的性能，对比结果如表1所示：

表1测试结果表

编码器网络结构	训练轮数	测试精度
			TSM+2DResnet+BiLSTM	150	0.74
3DResnet+BiLSTM	150	0.73

(2)运行速度。

将本发明方法与基于3DResnet+BiLSTM为编码器的方法的运行速度的进行比较。本发明方法的程序均是由Python框架keras编写，测试机器为Intel(R)i7处理器，主频为2.4GHz，内存为32GB，GPU为GTX1080ti，显存12G，对比结果如表2所示：

表2训练和预测时间(单位：秒)

方法	平均训练时间/轮	平均预测时间/轮
			TSM+2DResnet+BiLSTM	43	4
3DResnet+BiLSTM	62	7

可以看到，相比于3DResnet+BiLSTM，本发明方法训练时间较明显缩短，且预测时间也有明显优势，平均每个样本预测时间为0.004秒，满足实时性的要求。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于时间偏移残差网络的唇语识别方法，其特征在于，包括训练数据预处理阶段、神经网络模型训练阶段和预测识别阶段；

所述训练数据预处理阶段包括以下步骤S1～S3：

S1、选取包含嘴唇的原始图片并对其进行检测与裁剪，得到嘴唇区域图片序列；

S2、对嘴唇区域图片序列进行数据增强；

S3、对数据增强后的图片序列进行归一化，得到预处理后的训练数据；

所述神经网络模型训练阶段包括以下步骤S4～S6：

S4、将预处理后的训练数据作为神经网络模型编码器的输入，输出得到编码过后的特征向量序列和编码器状态向量；

S5、将编码过后的特征向量序列和编码器状态向量作为神经网络模型解码器的输入，当解码出结尾标志符时，结束解码过程；

S6、基于反向传播算法，采用导师驱动的方式最小化交叉熵损失训练整个神经网络模型，得到训练完成的神经网络模型；

所述预测识别阶段包括以下步骤S7～S9：

S7、对待识别图片进行预处理，并将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入，输出编码过后的特征向量序列和编码器状态向量；

S8、将编码过后的特征向量序列和编码器状态向量作为训练完成的神经网络模型解码器的输入，当解码出结尾标志符时，结束解码过程；

S9、拼接训练完成的神经网络模型解码器的所有输出，得到唇语识别结果；

所述步骤S4中的神经网络模型编码器包括基于TSM的2DResnet和BiLSTM；

所述步骤S4包括以下分步骤：

S41、在2DResnet的残差连接块中添加时间偏移模块TSM；

S42、通过基于TSM的2DResnet同时提取输入图片的空间特征和短期图片的序列特征，输出特征向量序列；

S43、将2DResnet输出的特征向量序列输入到BiLSTM中提取长期图片的序列特征，输出得到编码过后的特征向量序列和编码器状态向量；

所述步骤S5中的神经网络模型解码器采用基于注意力的长短时记忆网络结构LSTM；

所述步骤S5包括以下分步骤：

e_ij＝f(s_i-1,h_j)

其中f(·)表示单层的全连接神经网络函数，s_i-1表示第i-1个输入状态，h_j表示第j个编码过后的特征向量；

其中c_i表示第i个加权平均特征向量；

S53、将加权平均特征向量c_i与正确标签词的词向量拼接后得到第i个神经网络模型解码器的输入x_i，并将其输入至神经网络模型解码器，输出得到第i个词的预测类别y_i和当前第i个输入状态s_i；

2.根据权利要求1所述的唇语识别方法，其特征在于，所述步骤S1包括以下分步骤：

S11、从训练数据集中选取部分包含嘴唇的原始图片，标记嘴唇区域矩形框作为嘴唇检测训练标签；

S12、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练；

3.根据权利要求1所述的唇语识别方法，其特征在于，所述步骤S2具体为：对嘴唇区域图片序列进行随机平移、旋转、缩放、水平翻转和随机改变明暗度，得到数据增强后的图片序列。

4.根据权利要求1所述的唇语识别方法，其特征在于，所述步骤S3具体为：对数据增强后的图片序列三个通道的像素值进行归一化，将每一个像素值除以255，映射到0到1的数值范围，得到预处理后的训练数据。

5.根据权利要求1所述的唇语识别方法，其特征在于，所述步骤S6包括以下分步骤：

表示所有类别的预测概率；

S62、基于反向传播算法，计算神经网络模型所有参数的梯度；

6.根据权利要求1所述的唇语识别方法，其特征在于，所述步骤S7包括以下分步骤：

S71、选取部分待识别图片，标记嘴唇区域矩形框作为嘴唇检测训练标签；

S72、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练；

S73、使用训练完成的模型检测所有待识别图片的嘴唇区域，得到嘴唇区域图片序列；

S74、对嘴唇区域图片序列三个通道的像素值进行归一化，将每一个像素值除以255，映射到0到1的数值范围，得到预处理后的待识别图片序列；

7.根据权利要求1所述的唇语识别方法，其特征在于，所述步骤S8包括以下分步骤：

e_ij＝f(s_i-1,h_j)

其中c_i表示第i个加权平均特征向量；

S83、将加权平均特征向量c_i与第i-1个词的预测类别y_i-1拼接后得到第i个神经网络模型解码器的输入x_i，并将其输入至神经网络模型解码器，输出得到第i个词的预测类别y_i和当前第i个输入状态s_i；

8.根据权利要求1所述的唇语识别方法，其特征在于，所述步骤S9包括以下分步骤：

S91、拼接训练完成的神经网络模型解码器的所有输出类别，并去掉结尾标志符；