CN117351957A

CN117351957A - 基于视觉跟踪的唇语图像识别方法和装置

Info

Publication number: CN117351957A
Application number: CN202311233034.0A
Authority: CN
Inventors: 印二威; 张星昱; 冯慕轩; 张亚坤; 郑昌艳; 谢良; 张皓洋; 白晓伟; 闫野
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2024-01-05

Abstract

本发明公开了一种基于视觉跟踪的唇语图像识别方法和装置，所述方法包括：获取待识别唇语图像集；所述待识别唇语图像集，包括若干个人脸图像；对所述待识别唇语图像集进行预检测处理，得到增强唇语图像集；利用唇部识别模型，对增强唇语图像集进行识别处理，得到识别结果信息；所述唇语图像识别结果信息，用于表示所述唇语图像的唇部位置信息。所述唇部识别模型，包括第一识别网络和第二识别网络。第一识别网络用于得到唇部位置信息；第二识别网络，对人脸图像数据进行姿态预测处理，得到人脸姿态类别信息和人脸姿态角度信息。本发明所构建的模型结构简单，硬件实现成本低，在移动端训练模型后能够对视频中的整脸进行唇部特征点标注以及切割。

Description

基于视觉跟踪的唇语图像识别方法和装置

技术领域

本发明属于图像技术领域，特别涉及一种基于视觉跟踪的唇语图像识别方法和装置。

背景技术

唇语识别(Lip reading，LR)，是一种在没有声音时通过分析用户唇部图像序列，依靠口型特征和特定语音之间的对应关系，判断用户的语言内容的技术，是人工智能的新方向。唇语识别涉及模式识别、计算机视觉、图像处理和自然语言处理等技术，多应用于信息安全、语音识别、驾驶辅助等领域。

基于视觉跟踪的唇读方法用于在无声或噪声干扰严重的环境下，或对于存在听觉障碍的人群，如何利用通过嘴唇运动进行语言识别至关重要。基于视觉跟踪的唇读方法可以通过观察和分析人说话时唇部运动的特征变化，识别出人所说话的内容，具有广阔的应用前景：在医疗健康领域，可以借助唇语识别辅助患有听力障碍的病人沟通交流；在安防领域，人脸识别同时通过唇语识别以提高活体识别的安全性。

早期的唇语识别大多基于隐马尔可夫模型(hidden Markov model,HMM)，离散余弦变换(discrete cosine transform,DCT)等传统特征提取方法提取唇部图像的浅层特征(纹理特征、形状特征、颜色特征、拓扑特征)，这些方法能够解决一定数据规模下识别精度不高的问题，但其实现时需要具备丰富唇读知识作为基础。此外，传统方法还存在泛化性不高的缺点。

近年来，随着大规模数据集的出现，基于深度学习的方法可以自动抽取深层特征，逐渐成为唇语识别研究的主流方法。基于深度学习的唇语识别方法将一系列的唇部图像送入前端以提取特征，然后传递给后端以进行分类预测，并以端到端的形式进行训练。由于卷积神经网络(CNN)具有强大的特征抽取能力，近年来逐渐成为唇语识别时空特征提取阶段的主流方法。

对于基于深度学习的唇语识别方法而言，如何获取有效的唇语图像，是该方法成功应用的关键。在有效唇语图像获取过程中，主要面临以下问题：一是人脸表情变化很大，真实环境光照复杂，而且现实中大量存在人脸局部被遮挡的情况等；二是人脸是3D的，位姿变化多样，另外因拍摄设备和环境影响，成像质量也有好有坏；三是现有训练样本各个类别存在不平衡的问题；四是在计算受限的设备比如手机终端，必须要考虑计算速度和模型文件大小问题。

发明内容

针对目前唇语图像获取过程中面临的突出问题，本发明公开了一种基于视觉跟踪的唇语图像识别方法和装置，通过实现模态协同表征共性内容，弥补单模态独立存在的表征残缺问题，建立模态信息深度融合机制下的唇语视频合成解决方案，优化高光照干扰模式下唇语识别效果，以此提升复杂场景下唇语识别的鲁棒性，从而扩展唇语识别的可实现性。

本发明公开了一种基于视觉跟踪的唇语图像识别方法，包括：

S1，获取待识别唇语图像集；所述待识别唇语图像集，包括若干个人脸图像；

S2，对所述待识别唇语图像集进行预检测处理，得到增强唇语图像集；

S3，利用唇部识别模型，对所述增强唇语图像集进行识别处理，得到唇语图像识别结果信息；所述唇语图像识别结果信息，用于表示所述唇语图像的唇部位置信息。

所述对所述待识别唇语图像集进行预检测处理，得到增强唇语图像集，包括：

S21，对所述待识别唇语图像集进行坐标变换处理，得到二维待识别唇语图像集；所述二维待识别唇语图像集，包括二维平面坐标下的人脸图像数据和特征点标注信息；所述特征点，包括人脸中的左眼、右眼、鼻子、嘴巴和眉毛；

S22，对所述二维待识别唇语图像集进行图像数据增强处理，得到增强唇语图像集。

所述唇部识别模型，包括第一识别网络和第二识别网络；所述第一识别网络，用于对所述人脸图像数据进行处理，得到唇部位置信息；所述第二识别网络，用于对人脸图像数据进行姿态预测处理，得到人脸姿态类别信息和人脸姿态角度信息；

所述第一识别网络，包括第一输入模块、第一卷积模块、深度可分离卷积模块、第一升维卷积模块、第二升维卷积模块、第三升维卷积模块、第四升维卷积模块、第二卷积模块、第一池化模块、第三卷积模块和第一全连接模块；

所述第一识别网络的第一输入模块的输入端，用于接收所述增强唇语图像集；所述第一识别网络的第一输入模块的输出端，与所述第一识别网络的第一卷积模块的输入端相连接；所述第一识别网络的第一卷积模块的输出端，与所述第一识别网络的深度可分离卷积模块的输入端相连接；所述第一识别网络的深度可分离卷积模块的输出端，与所述第一识别网络的第一升维卷积模块的输入端相连接；所述第一识别网络的第一升维卷积模块的输出端，与所述第一识别网络的第二升维卷积模块的输入端相连接；所述第一识别网络的第二升维卷积模块的输出端，与所述第一识别网络的第三升维卷积模块的输入端相连接；所述第一识别网络的第三升维卷积模块的输出端，与所述第一识别网络的第四升维卷积模块的输入端相连接；所述第一识别网络的第四升维卷积模块的输出端，与所述第一识别网络的第二卷积模块的输入端相连接；所述第一识别网络的第二卷积模块的输出端，与所述第一识别网络的第一池化模块的输入端相连接；所述第一识别网络的第一池化模块的输出端，与所述第一识别网络的第三卷积模块的输入端相连接；所述第一识别网络的第三卷积模块的输出端，与所述第一识别网络的第一全连接模块的输入端相连接；

所述第二识别网络，包括第二输入模块、第四卷积模块、第五卷积模块、第六卷积模块、第二池化模块、第七卷积模块、第二全连接模块和第三全连接模块；

所述第二识别网络的第二输入模块的输入端，与所述第一识别网络的第二升维卷积模块的输出端相连接；所述第二识别网络的第二输入模块的输出端，与所述第二识别网络的第四卷积模块的输入端相连接；所述第二识别网络的第四卷积模块的输出端，与所述第二识别网络的第五卷积模块的输入端相连接；所述第二识别网络的第五卷积模块的输出端，与所述第二识别网络的第六卷积模块的输入端相连接；所述第二识别网络的第六卷积模块的输出端，与所述第二识别网络的第二池化模块的输入端相连接；所述第二识别网络的第二池化模块的输出端，与所述第二识别网络的第七卷积模块的输入端相连接；所述第二识别网络的第七卷积模块的输出端，与所述第二识别网络的第二全连接模块的输入端相连接；所述第二识别网络的第二全连接模块的输出端，与所述第二识别网络的第三全连接模块的输入端相连接；

所述第一识别网络的第一全连接模块的输出端，用于输出所述唇部识别模型的唇语图像识别结果信息。

在利用唇部识别模型，对所述增强唇语图像集进行识别处理，得到唇语图像识别结果信息之前，还包括：

S301，获取训练样本集；所述训练样本集，包括若干个人体图片训练样本；所述人体图片训练样本，包括人体图像数据和人体标注信息；所述人体标注信息，包括人体目标在人体图片的位置信息；

S302，对所述训练样本集进行坐标变换处理，得到二维训练样本集；所述二维训练样本集，包括二维平面坐标下的人体图像数据和人体标注信息；

S303，利用图像特征检测模型，对所述二维训练样本集进行特征检测，得到第一特征点图像集；所述第一特征点图像集，包括对齐后的人脸的特征点图像数据和人脸特征点信息；所述人脸特征点信息，包括对齐后的人脸图像数据中的特征点的类别信息和位置信息、对齐后的人脸姿态类别信息和对齐后的人脸姿态角度信息；所述人脸姿态类别包括侧脸、正脸、抬头、低头、表情、遮挡；所述人脸姿态角度信息，包括人脸的第一姿态角、第二姿态角和第三姿态角；所述第一姿态角，是人脸所在平面的法线，相对于水平面上的矢状向的偏转角度；所述第二姿态角，是人脸所在平面的法线，相对于水平面上的矢状向的垂线的偏转角度；所述第三姿态角，是人脸所在平面的法线，相对于大地垂直方向的偏转角度；

S304，利用第一特征点图像集对所述唇部识别模型进行训练处理，得到训练完毕的唇部识别模型。

所述利用第一特征点图像集对所述唇部识别模型进行训练处理，得到训练完毕的唇部识别模型，包括：

S3041，对第一特征点图像集进行分割处理，得到训练特征点集合和测试特征点集合；所述训练特征点集合，包括若干个特征点训练样本；所述特征点训练样本，包括特征点图像数据和特征点标注信息；所述测试特征点集合，包括若干个特征点测试样本；所述特征点测试样本，包括测试特征点图像数据和测试特征点标注信息；所述特征点标注信息和测试特征点标注信息，均包括对特征点的类型信息、特征点的位置信息、特征点所在人脸的人脸姿态类别信息和人脸姿态角度信息的标注结果；

S3042，将所述训练特征点集合的特征点图像数据，输入唇部识别模型，得到识别训练结果集合；所述识别训练结果集合，包括若干个特征点识别训练结果；所述特征点识别训练结果，包括识别得到的特征点图像数据和特征点估计信息；所述特征点估计信息，包括特征点的类型信息、特征点的位置信息、特征点所在人脸的人脸姿态类别信息和人脸姿态角度信息的估计结果；

S3043，利用唇部识别模型的损失函数，对所述识别训练结果集合和训练特征点集合进行计算处理，得到损失函数值信息；

S3044，判断所述损失函数值信息的损失函数值是否满足收敛条件，得到第一判断结果；

当所述第一判断结果为否时，判断所述损失函数值信息的迭代次数是否等于训练次数阈值，得到第二判断结果；

当所述第二判断结果为否时，确定模型训练状态为不满足终止训练条件；

当所述第二判断结果为是时，确定所述模型训练状态为满足终止训练条件；

当所述第一判断结果为是时，确定所述模型训练状态为满足终止训练条件；

当所述模型训练状态为不满足终止训练条件时，利用参数更新模型对所述第一识别网络的第一卷积模块、深度可分离卷积模块、第一升维卷积模块、第二升维卷积模块、第三升维卷积模块、第四升维卷积模块、第二卷积模块和第三卷积模块进行参数更新，执行S3041；

所述参数更新模型为：

θ←θ+v；

式中，x⁽ⁱ⁾为训练特征点集合中的第i个特征点训练样本，y⁽ⁱ⁾为训练特征点集合中的第i个特征点训练样本对应的特征点标注信息，v为参数更新值，θ为所述第一识别网络的第一卷积模块、深度可分离卷积模块、第一升维卷积模块、第二升维卷积模块、第三升维卷积模块、第四升维卷积模块、第二卷积模块和第三卷积模块的参数，η为初始参数学习率，α为动量角度参数，0≤α≤π/4，表示针对变量θ求偏导数，f(x⁽ⁱ⁾；θ)表示唇部识别模型对训练特征点集合中的第i个特征点训练样本得到的特征点估计信息，f(·)为唇部识别模型对应的计算函数；

当所述模型训练状态为满足终止训练条件时，将所述测试特征点集合输入唇部识别模型，得到识别测试结果集合；对所述识别测试结果集合中的特征点估计信息与所述测试特征点集合中的测试特征点标注信息进行比对处理，得到所述测试特征点集合的识别准确率值；

判断所述识别准确率值是否大于预设准确率阈值，得到第三判断结果；

若所述第三判断结果为不大于预设准确率阈值，执行S3041；

若所述第三判断结果为大于预设准确率阈值，完成对所述唇部识别模型的训练处理过程，得到训练完毕的唇部识别模型。

所述第一识别网络，其损失函数的表达式为：

其中，M0表示所述训练特征点集合中的特征点训练样本数量，N表示人脸图像所包含的特征点总数，C0为人脸姿态类别数，为第c个人脸姿态类别下的第n个特征点的权重值，c表示人脸姿态类别的序号，n表示特征点序号，/>表示特征点估计信息中的对第m个特征点训练样本的第n个特征点所在人脸的第k姿态角的估计结果，与所述特征点标注信息中的第m个特征点训练样本的第n个特征点所在人脸的第k姿态角的标注结果之间的差值，K表示人脸姿态角度信息所包括的姿态角类型数，K＝3；/>表示特征点估计信息中的对第m个特征点训练样本的第n个特征点位置信息的估计结果，与所述特征点标注信息中的第m个特征点训练样本的第n个特征点位置信息的标注结果之间的欧氏距离。

所述图像特征检测模型，包括：第一特征标注网络、第二特征标注网络和特征输出网络；

所述第一特征标注网络，包括输入层、第一卷积层、第二卷积层、第一池化层、第三卷积层和第一全连接层；

所述第一特征标注网络的输入层，接收所述二维训练样本集；所述第一特征标注网络的输入层的输出端，与所述第一特征标注网络的第一卷积层的输入端相连；所述第一特征标注网络的第一卷积层的输出端，与所述第一特征标注网络的第二卷积层的输入端相连；所述第一特征标注网络的第二卷积层的输出端，与所述第一特征标注网络的第一池化层的输入端相连；所述第一特征标注网络的第一池化层的输出端，与所述第一特征标注网络的第三卷积层的输入端相连；所述第一特征标注网络的第三卷积层的输出端，与所述第一特征标注网络的第一全连接层的输入端相连；

所述第二特征标注网络，包括输入层、第四卷积层、第五卷积层、第二池化层、第六卷积层和第二全连接层；

所述第二特征标注网络的输入层的输入端，与所述第一特征标注网络的第一全连接层的输出端相连接，也与所述第一特征标注网络的输入层的输出端相连；所述第二特征标注网络的输入层的输出端，与所述第二特征标注网络的第四卷积层的输入端相连；所述第二特征标注网络的第四卷积层的输出端，与所述第二特征标注网络的第五卷积层的输入端相连；所述第二特征标注网络的第五卷积层的输出端，与所述第二特征标注网络的第二池化层的输入端相连；所述第二特征标注网络的第二池化层的输出端，与所述第二特征标注网络的第六卷积层的输入端相连；所述第二特征标注网络的第六卷积层的输出端，与所述第二特征标注网络的第二全连接层的输入端相连；

所述特征输出网络，包括输入层、第七卷积层、第八卷积层、第三池化层、第九卷积层、第十卷积层和第三全连接层；

所述特征输出网络的输入层的输入端，与所述第二特征标注网络的第二全连接层的输出端相连接，也与所述第一特征标注网络的输入层的输出端相连；所述特征输出网络的输入层的输出端，与所述特征输出网络的第七卷积层的输入端相连；所述特征输出网络的第七卷积层的输出端，与所述特征输出网络的第八卷积层的输入端相连；所述特征输出网络的第八卷积层的输出端，与所述特征输出网络的第三池化层的输入端相连；所述特征输出网络的第三池化层的输出端，与所述特征输出网络的第九卷积层的输入端相连；所述特征输出网络的第九卷积层的输出端，与所述特征输出网络的第十卷积层的输入端相连；所述特征输出网络的第十卷积层的输出端，与所述特征输出网络的第三全连接层的输入端相连。

本发明还公开了一种基于视觉跟踪的唇语图像识别装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行所述的基于视觉跟踪的唇语图像识别方法。

本发明还公开了一种计算机可存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行所述的基于视觉跟踪的唇语图像识别方法。

本发明还公开了一种信息数据处理终端，所述信息数据处理终端用于实现所述的基于视觉跟踪的唇语图像识别方法。

本发明的有益效果为：

本发明所构建的模型结构简单，硬件实现成本低，在移动端训练模型后能够对视频中的整脸进行唇部特征点标注以及切割。通过获得的特征点信息。可以对数据进行其他处理：如激活帧检测，唇部区域切割。以及通过唇部运动情况控制采集硬件运动装置。从而可以合理的调整耳机采集摄像头与唇部的位置；

本发明采用第二识别网络辅助监督第一识别网络训练后，可以使得模型的鲁棒性更好；

本发明使用轻量化网络对图片数据集进行训练，使得整个模型的容量在10mb以下。部署在移动端后可以极大的减轻移动端的算力负担。空出的计算资源可以用于数据处理以及识别。

附图说明

图1为本发明方法的实施流程图；

图2为本发明公开的第一识别网络的组成结构参数图；

图3为本发明公开的第二识别网络的组成结构参数图。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

图1为本发明方法的实施流程图；图2为本发明公开的第一识别网络的组成结构参数图；图3为本发明公开的第二识别网络的组成结构参数图。图2和图3中，t表示对应模块的拓展因子，c表示输出通道数，n表示对应模块在训练过程中的重复计算次数，s表示训练过程中对应模块的训练步长，input表示该模块的输入变量的维度，operator表示该模块名称。

S21，对所述待识别唇语图像集进行坐标变换处理，得到二维待识别唇语图像集；所述二维待识别唇语图像集，包括二维平面坐标下的人脸图像数据和特征点标注信息；所述坐标变换处理，是将三维数据进行降维处理，得到二维数据。具体的，可采用舍弃三维数据中的高度维数据的方式，得到二维数据。所述特征点标注信息，包括特征点位置信息和特征点类型信息；所述特征点，包括人脸中的左眼、右眼、鼻子、嘴巴和眉毛；

S22，对所述二维待识别唇语图像集进行图像数据增强处理，得到增强唇语图像集；所述图像数据增强处理，可采用对图像进行随机旋转，再对旋转后的图像施加噪声的方式实现。

所述唇部识别模型，包括第一识别网络和第二识别网络；所述第一识别网络，用于对所述人脸图像数据进行处理，得到唇部位置信息；所述第二识别网络，用于对人脸图像数据进行姿态预测处理，得到人脸姿态类别信息和人脸姿态角度信息。

第一识别网络的结构参数示意图如图2所示。本发明所公开的第一识别网络，在图2所示结构基础上，在Conv3×3和Conv7×7之间接入了第一池化模块。图2中，Conv3×3为表示卷积核维度为3行3列的卷积模块，Depthwise Conv3×3表示深度可分离卷积模块，Bottleneck表示升维卷积模块，Full Connection表示全连接层。

所述第二识别网络的第二输入模块的输入端，与所述第一识别网络的第二升维卷积模块的输出端相连接；所述第二识别网络的第二输入模块的输出端，与所述第二识别网络的第四卷积模块的输入端相连接；所述第二识别网络的第四卷积模块的输出端，与所述第二识别网络的第五卷积模块的输入端相连接；所述第二识别网络的第五卷积模块的输出端，与所述第二识别网络的第六卷积模块的输入端相连接；所述第二识别网络的第六卷积模块的输出端，与所述第二识别网络的第二池化模块的输入端相连接；所述第二识别网络的第二池化模块的输出端，与所述第二识别网络的第七卷积模块的输入端相连接；所述第二识别网络的第七卷积模块的输出端，与所述第二识别网络的第二全连接模块的输入端相连接；所述第二识别网络的第二全连接模块的输出端，与所述第二识别网络的第三全连接模块的输入端相连接。

第二识别网络的结构示意图如图3所示。本发明所公开的第二识别网络，在图3所示结构基础上，在第三个Conv3×3和Conv7×7之间接入了第二池化模块。图3中，Conv3×3为表示卷积核维度为3行3列的卷积模块，Full Connection表示全连接层。

所述第一识别网络和第二识别网络，均采用Relu激活函数。

所述第二识别网络对每一个输入的人脸样本进行三维欧拉角估计，再结合训练数据中的特征点信息进行损失函数计算；第二识别网络的目的是监督和辅助第一识别网络的特征点检测。另外需要注意的一点是，这个第二识别网络的输入不是训练数据，而是第一识别网络的中间输出(第4个Block)。

所述深度可分离卷积模块，其卷积内核的维度与输入矩阵数据的维度相同，其计算过程表示为：

G_m＝∑_i,jK_i,j,m·F_i,j,m，

式中，F是维度为W×H×M的输入矩阵数据，F_i,j,m表示矩阵F中的第一维度上序号为i、第二维度上序号为j、第三维度上序号为m的元素；K是维度为W×H×M的深度卷积核矩阵，K_i,j,m表示矩阵K中的第一维度上序号为i、第二维度上序号为j、第三维度上序号为m的元素，G_m表示深度可分离卷积模块的第m个通道的输出，所述深度可分离卷积模块的输出为1×1×M的向量G，G_m也表示向量G的第m个元素。

S303，利用图像特征检测模型，对所述二维训练样本集进行特征检测，得到第一特征点图像集；所述第一特征点图像集，包括对齐后的人脸的特征点图像数据和人脸特征点信息；所述人脸特征点信息，包括对齐后的人脸图像数据中的特征点的类别信息和位置信息、对齐后的人脸姿态类别信息和对齐后的人脸姿态角度信息；所述人脸姿态类别包括侧脸、正脸、抬头、低头、表情、遮挡等；所述人脸姿态角度信息，包括人脸的第一姿态角、第二姿态角和第三姿态角；所述第一姿态角，是人脸所在平面的法线，相对于水平面上的矢状向的偏转角度；所述第二姿态角，是人脸所在平面的法线，相对于水平面上的矢状向的垂线的偏转角度；所述第三姿态角，是人脸所在平面的法线，相对于大地垂直方向的偏转角度；所述矢状向，是与人体的矢状面平行的方向。所述特征点信息，包括人脸中的左眼、右眼、鼻子、嘴巴和眉毛等的边界点信息。

在得到训练完毕的唇部识别模型后，利用训练完毕的唇部识别模型，对所述增强唇语图像集进行识别处理，得到唇语图像识别结果信息。

所述训练样本集，可以是WFLW通用数据集。

S3041，对第一特征点图像集进行分割处理，得到训练特征点集合和测试特征点集合；所述训练特征点集合，包括若干个特征点训练样本；所述特征点训练样本，包括特征点图像数据和特征点标注信息；所述测试特征点集合，包括若干个特征点测试样本；所述特征点测试样本，包括测试特征点图像数据和测试特征点标注信息；所述特征点标注信息和测试特征点标注信息，可从第一特征点图像集的人脸特征点信息中获取；所述特征点标注信息和测试特征点标注信息，均包括对特征点的类型信息、特征点的位置信息、特征点所在人脸的人脸姿态类别信息和人脸姿态角度信息的标注结果；

所述分割处理，是按照一定比例对所述第一特征点图像集进行拆分，所述比例值，可以随机生成；

S3042，将所述训练特征点集合的特征点图像数据，输入唇部识别模型，得到识别训练结果集合；所述识别训练结果集合，包括若干个特征点识别训练结果；所述特征点识别训练结果，包括识别得到的特征点图像数据和特征点估计信息；所述特征点估计信息，包括特征点的类型信息、特征点的位置信息、特征点所在人脸的人脸姿态类别信息和人脸姿态角度信息的估计结果；所述特征点的类型信息，包括人脸中的左眼、右眼、鼻子、嘴巴和眉毛；

S3044，判断所述损失函数值信息的损失函数值是否满足收敛条件，得到第一判断结果；所述收敛条件，可以是所述损失函数值信息的损失函数值小于设定损失阈值；

所述参数更新模型为：

θ←θ+v；

式中，x⁽ⁱ⁾为训练特征点集合中的第i个特征点训练样本，y⁽ⁱ⁾为训练特征点集合中的第i个特征点训练样本对应的特征点标注信息，v为参数更新值，θ为所述第一识别网络的第一卷积模块、深度可分离卷积模块、第一升维卷积模块、第二升维卷积模块、第三升维卷积模块、第四升维卷积模块、第二卷积模块和第三卷积模块的参数，η为初始参数学习率，α为动量角度参数，0≤α≤π/4，表示针对变量θ求偏导数，f(x⁽ⁱ⁾；θ)表示唇部识别模型对训练特征点集合中的第i个特征点训练样本得到的特征点估计信息，f(·)为唇部识别模型对应的计算函数；所述动量角度参数，可设置为常数，或者在每次训练过程中随机生成。为了使得训练过程更加平滑，避免错过最优点，本发明引入了动量角度参数α，并通过对动量角度参数α求取tan(α)值，利用tan(α)对参数变化量进行更新，从而避免了每次更新时模型参数的过大波动。

当所述模型训练状态为满足终止训练条件时，将所述测试特征点集合输入唇部识别模型，得到识别测试结果集合；对所述识别测试结果集合中的特征点估计信息与所述测试特征点集合中的测试特征点标注信息进行比对处理，得到所述测试特征点集合的识别准确率值；所述识别测试结果集合所包含的信息类型，与识别训练结果集合所包含的信息类型相同。

若所述第三判断结果为不大于预设准确率阈值，执行S3041；

所述预设准确率阈值，可以是90％。

所述第一识别网络，其损失函数的表达式为：

其中，M0表示所述训练特征点集合中的特征点训练样本数量，N表示人脸图像所包含的特征点总数，C0为人脸姿态类别数，为第c个人脸姿态类别下的第n个特征点的权重值，其可通过预先设置或实时更新得到，所述实时更新，是在每一轮对唇部识别模型训练后，根据第c个人脸姿态类别下的第n个特征点的识别准确率/>和角度值的平均值的余弦值/>进行计算得到，/>c表示人脸姿态类别的序号，n表示特征点序号，/>表示特征点估计信息中的对第m个特征点训练样本的第n个特征点所在人脸的第k姿态角的估计结果，与所述特征点标注信息中的第m个特征点训练样本的第n个特征点所在人脸的第k姿态角的标注结果之间的差值，K表示人脸姿态角度信息所包括的姿态角类型数，K＝3；/>表示特征点估计信息中的对第m个特征点训练样本的第n个特征点位置信息的估计结果，与所述特征点标注信息中的第m个特征点训练样本的第n个特征点位置信息的标注结果之间的欧氏距离。

在训练过程中，第二识别网络计算得到对每个特征点训练样本的每个个特征点所在人脸的三个姿态角的估计结果，并发送给第一识别网络，用于计算损失函数。

所述利用图像特征检测模型，对所述二维训练样本集进行特征检测，得到第一特征点图像集，包括：

对所述二维训练样本集中的人体图像进行上采样和下采样处理，得到图像金字塔表征；

利用第一特征标注网络，对输入的图像金字塔表征进行处理，得到图像中是否包含人脸的第一判别向量，所述第一判别向量维度为1×1×2，其两个数值用于表征图像包含人脸的概率和图像不包含人脸的概率；

利用第二特征标注网络，对所述图像金字塔表征和第一判别向量进行处理，得到人脸的边框预测信息；

利用特征输出网络，对所述图像金字塔表征和人脸的边框预测信息进行处理，得到对齐后的人脸图像数据和人脸特征点信息；

所述特征输出网络的输出层，对上一层的输入人脸图像进行仿射变换，得到对齐后的人脸图像数据。

所述第一特征标注网络，对输入的图像金字塔表征进行处理后，得到对每个输入图像的预测结果，再利用所述预测结果与输入图像的真实标签，计算得到所述输入图像包含人脸的概率，其计算过程为：

其中，p_i代表对第i个输入图像的预测结果，代表第i个输入图像的真实标签信息，/>表示第i个输入图像包含人脸的概率。

从第一特征标注网络到第二特征标注网络，再到最后的特征输出网络，网络输入的图像越来越大，卷积层的通道数越来越多，网络的深度也越来越深，因此识别人脸的准确率应该也是越来越高的。同时第一特征标注网络的运行速度越快，第二特征标注网络次之、特征输出网络运行速度最慢。之所以使用三个网络，是因为一开始如果直接对图像使用特征输出网络，速度会非常慢。实际上第一特征标注网络先做了一层过滤，将过滤后的结果再交给第二特征标注网络进行过滤，最后将过滤后的结果交给效果最好但是速度最慢的特征输出网络进行识别。这样在每一步都提前减少了需要判别的数量，有效地降低了计算的时间。

对于三个网络，每个网络的输出都会有三个部分，分别是：

网络的第一部分输出是用来判断该图像是否包含人脸，输出向量大小为1×1×2，也就是两个值，即图像是人脸的概率和图像不是人脸的概率。这两个值加起来严格等于1，之所以使用两个值来表示，是为了方便定义交叉熵损失函数。

网络的第二部分给出框的精确位置，一般称为框回归。第一特征标注网络输入的12×12的图像块可能并不是完美的人脸框的位置，如有的时候人脸并不正好为方形，有可能12×12的图像偏左或偏右，因此需要输出当前框位置相对完美的人脸框位置的偏移。这个偏移大小为1×1×4，即表示框左上角的横坐标的相对偏移，框左上角的纵坐标的相对偏移、框的宽度的误差、框的高度的误差。

网络的第三部分给出人脸的5个特征点的位置。5个特征点分别对应着左眼的位置、右眼的位置、鼻子的位置、左嘴巴的位置、右嘴巴的位置。每个特征点需要两维来表示，因此输出是向量大小为1×1×10。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于视觉跟踪的唇语图像识别方法，其特征在于，包括：

2.如权利要求1所述的基于视觉跟踪的唇语图像识别方法，其特征在于，所述对所述待识别唇语图像集进行预检测处理，得到增强唇语图像集，包括：

3.如权利要求2所述的基于视觉跟踪的唇语图像识别方法，其特征在于，所述唇部识别模型，包括第一识别网络和第二识别网络；所述第一识别网络，用于对所述人脸图像数据进行处理，得到唇部位置信息；所述第二识别网络，用于对人脸图像数据进行姿态预测处理，得到人脸姿态类别信息和人脸姿态角度信息；

4.如权利要求3所述的基于视觉跟踪的唇语图像识别方法，其特征在于，在利用唇部识别模型，对所述增强唇语图像集进行识别处理，得到唇语图像识别结果信息之前，还包括：

5.如权利要求4所述的基于视觉跟踪的唇语图像识别方法，其特征在于，所述利用第一特征点图像集对所述唇部识别模型进行训练处理，得到训练完毕的唇部识别模型，包括：

所述参数更新模型为：

θ←θ+v；

若所述第三判断结果为不大于预设准确率阈值，执行S3041；

6.如权利要求5所述的基于视觉跟踪的唇语图像识别方法，其特征在于，所述第一识别网络，其损失函数的表达式为：

7.如权利要求4所述的基于视觉跟踪的唇语图像识别方法，其特征在于，所述图像特征检测模型，包括：第一特征标注网络、第二特征标注网络和特征输出网络；

8.一种基于视觉跟踪的唇语图像识别装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的基于视觉跟踪的唇语图像识别方法。

9.一种计算机可存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的基于视觉跟踪的唇语图像识别方法。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现权利要求1-7任意一项所述的基于视觉跟踪的唇语图像识别方法。