CN112861791A

CN112861791A - 一种结合图神经网络和多特征融合的唇语识别方法

Info

Publication number: CN112861791A
Application number: CN202110263683.XA
Authority: CN
Inventors: 张成伟; 赵昊天; 张满囤; 刘川; 申冲
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-05-28
Anticipated expiration: 2041-03-11
Also published as: CN112861791B

Abstract

本发明公开了一种结合图神经网络和多特征融合的唇语识别方法。该方法首先提取并构建人脸变化序列，标注人脸特征点，再矫正唇部偏转角度，通过训练后唇部语义分割网络预处理后，通过单帧特征点关系的图结构和相邻帧特征点关系的图结构来训练唇语识别网络，最终通过训练后唇语识别网络生成唇语识别结果。本发明将识别网络数据集和唇部语义分割网络数据集经CNN提取和特征融合后的CNN唇部特征和唇部区域特征点经GNN提取和融合后的GNN唇部特征经特征融合后输入到BiGRU中识别，解决时间序列特征提取困难和唇部特征提取受外界因素影响的问题，有效提取唇部的静态特征和唇部变化的动态特征，具有唇部变化特征提取能力强、识别结果准确度高等特点。

Description

一种结合图神经网络和多特征融合的唇语识别方法

技术领域

本发明属于人工智能和深度学习领域，具体是一种结合图神经网络和多特征融合的唇语识别方法。

背景技术

随着科学技术的发展和硬件制造水平的提升，基于深度学习的人工智能技术越来越受到研究者的关注。深度学习领域包含众多子领域，如机器视觉、自然语言处理等。结合机器视觉和自然语言处理两种技术的唇语识别获得了越来越多的关注。唇语识别具有非常观念广阔的应用场景，例如基于唇部特征的活体检测、辅助听障人士交流、交通摄像头语音恢复等。

唇语识别面临的困难有很多，例如某些语句可能会对应速度非常快的唇部变化或者很微小的唇部变化，这都会增加识别任务的难度。

目前的唇语识别解决方法有很多种，按信息来源可以大致分为单视觉特征唇语识别和视听结合的双流识别。唇部视觉特征是唇部原始图像序列，还有基于此衍生出的其他变种，例如描绘相邻图像像素变化的光流图序列、根据唇部图像标注的时序特征点序列等。唇语识别还经常会和音频识别结合，可以用于增强语音和去除噪声。语音识别也可以将其包含的大量信息通过知识蒸馏的方法传递给唇语识别网络，从而提升唇语识别的精度。但这些方法大都没有考虑到唇部偏转角度、光照强度、光照角度和说话人身份信息对唇语识别任务的影响，传统方法对唇部序列变化的信息提取能力也十分有限，这都导致了唇语识别的精度处于一个上升的瓶颈期。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种结合图神经网络和多特征融合的唇语识别方法。

本发明解决所述技术问题的技术方案是，提供一种结合图神经网络和多特征融合的唇语识别方法，其特征在于，该方法包括以下步骤：

S1、制作识别网络数据集；

S2、使用人脸标注算法标注人脸特征点；

S3、从S2得到的人脸特征点中选取唇部区域特征点，再根据唇部区域特征点计算得到识别网络数据集的每帧中各自的唇部区域特征点的中心的坐标；再将左侧唇部关键特征点和右侧唇部关键特征点中对应的特征点对分别转换为向量，并将其相加计算得到识别网络数据集的每帧的唇部偏转向量V；再根据唇部偏转向量V计算每帧的唇部偏转角度θ；然后将每帧以各自的唇部区域特征点的中心的坐标为原点，旋转θ°将每帧图像转正，得到修正后识别网络数据集，进而完成人脸对齐；

所述唇部区域特征点是从人脸特征点中选取位于唇部区域的唇部特征点以及分别位于鼻尖、下巴、左鄂和右鄂位置的鼻尖特征点、下巴特征点、左鄂特征点和右鄂特征点；

所述左侧唇部关键特征点是从唇部特征点中选取位于最左侧的四个和左鄂特征点；右侧唇部关键特征点是从唇部特征点中选取位于最右侧的四个和右鄂特征点；特征点对是左侧唇部关键特征点和右侧唇部关键特征点中关于人脸中轴线对称的两个特征点形成的组合；

S4、根据S3得到的唇部区域特征点的中心的坐标将S3得到的修正后识别网络数据集切分为固定尺寸的唇部图像，再合并成唇部图像序列，得到切分后识别网络数据集；

S5、将S4得到的切分后识别网络数据集输入训练后唇部语义分割网络，得到分割后识别网络数据集；

S6、训练唇语识别网络：使用S3得到的唇部区域特征点、S4得到的切分后识别网络数据集和S5得到的分割后识别网络数据集来训练唇语识别网络，得到训练后唇语识别网络；

S7、通过训练后唇语识别网络来进行特征识别分类，生成唇语识别结果。

与现有技术相比，本发明有益效果在于：

(1)本发明首先提取并构建人脸变化序列，标注人脸特征点，再矫正唇部偏转角度，通过训练后唇部语义分割网络预处理后，通过单帧特征点关系的图结构和相邻帧特征点关系的图结构来训练唇语识别网络，最终通过训练后唇语识别网络生成唇语识别结果。

(2)本发明采用图神经网络(Graph Neural Network，GNN)和语义分割(SemanticSegmentation)技术即将识别网络数据集和唇部语义分割网络数据集经CNN提取和特征融合后的CNN唇部特征和唇部区域特征点经GNN提取和融合后的GNN唇部特征经特征融合后输入到BiGRU中识别，解决时间序列特征提取困难和唇部特征提取受说话人身份、光照、唇部偏转角度等外界因素影响的问题，使唇语识别网络能更精准的识别唇部形状特征，有效提取唇部的静态特征和唇部变化的动态特征，具有唇部变化特征提取能力强、识别结果准确度高和运行效率高等特点。

(3)相比于传统的基于颜色梯度直方图和像素颜色变化的唇部区域检测算法，本发明采用的U-net唇部语义分割网络具有更高的精准度，同时运行速度更快。

(4)本发明将唇部区域特征点分为单帧特征点关系的图结构和相邻帧特征点关系的图结构，进一步增强了识别结果准确度。

附图说明

图1是本发明的切分后识别网络数据集的一帧图像；

图2是本发明的使用训练后唇部语义分割网络处理图1后得到的分割后识别网络数据集图像；

图3是本发明的唇部区域特征点的位置图；

图4是本发明的单帧特征点关系的图结构；

图5是本发明的相邻帧特征点关系的图结构；

图6是本发明的GNN的网络结构示意图；

图7是本发明的CNN的网络结构示意图；

图8是本发明的BiGRU的网络结构示意图。

具体实施方式

下面给出本发明的具体实施例。具体实施例仅用于进一步详细说明本发明，不限制本申请权利要求的保护范围。

本发明提供了一种结合图神经网络和多特征融合的唇语识别方法(简称方法)，其特征在于，该方法包括以下步骤：

S1、制作识别网络数据集：从公开的唇语识别数据集ouluvs2中选择样本，使用FaceGen软件进行3D人脸重建，并导出人脸变化序列并保存为RGB视频，作为识别网络数据集；

优选地，S1中，由于人脸重建需要正面人脸以及两个侧面人脸的图像，而目前使用较多的唇语识别数据集ouluvs2中提供了0°、30°、45°、60°、90°共5个角度的高清人脸图像，故本方法使用ouluvs2中的0°人脸图像、90°人脸图像以及经过水平翻转的90°人脸图像通过高仿真3D人脸重建软件FaceGen生成3D人脸模型，再合并成人脸变化序列。为保证生成的人脸模型更接近真实环境，本方法还设置了多种环境变化，如唇部倾斜、光照强度、光照角度、唇部部分遮挡等变量。本方法共使用了20位实验对象的人脸数据，包括10位男性和10位女性，共生成5000条数据，10个分类，并将这些数据按照训练集:测试集＝8:2的比例进行随机取样。识别网络数据集中的每个带标签的视频长度为1秒，帧率为25帧/秒，并保存为RGB视频，至此完成了识别网络数据集的采集。

S2、由于识别网络数据集中人脸模型的唇部区域非常小，而唇语识别与人物背景无关，所以需要确定唇部在背景中的位置，并将特征提取出来；由于识别网络数据集的视频数量非常庞大，人工标注费时费力，故本方法使用人脸标注算法(本实施例是dlib开源工具)标注人脸特征点，并保存为单独的文件；将人脸特征点与识别网络数据集分开存放，以便后续计算调用；

使用dlib开源工具进行人脸特征点标注，共得到68个人脸特征点。

S3、根据特征点对齐人脸：从S2得到的人脸特征点中选取唇部区域特征点(如图3所示)，再根据唇部区域特征点计算得到识别网络数据集的每帧中各自的唇部区域特征点的中心的坐标；再将左侧唇部关键特征点和右侧唇部关键特征点中对应的特征点对分别转换为向量，并将其相加计算得到识别网络数据集的每帧的唇部偏转向量V；再根据每帧的唇部偏转向量V计算每帧的唇部偏转角度θ；然后将每帧以各自的唇部区域特征点的中心的坐标为原点，旋转θ°将每帧图像转正，得到修正后识别网络数据集，进而完成人脸对齐，矫正人脸，减小面部倾斜对唇部特征提取的影响；

所述唇部区域特征点是从dlib开源工具定义的68个人脸特征点中选取位于唇部区域的20个唇部特征点以及分别位于鼻尖、下巴、左鄂(即上颚左端)和右鄂(即上颚右端)位置的鼻尖特征点、下巴特征点、左鄂特征点和右鄂特征点，共24个特征点；

所述左侧唇部关键特征点是从dlib开源工具定义的68个人脸特征点中选取位于左侧嘴角处的4个唇部特征点(即20个唇部特征点中位于最左侧的四个)和左鄂特征点，共5个特征点；右侧唇部关键特征点是从dlib开源工具定义的68个人脸特征点中选取位于右侧嘴角处的4个唇部特征点(即20个唇部特征点中位于最右侧的四个)和右鄂特征点，共5个特征点；特征点对是左侧唇部关键特征点和右侧唇部关键特征点中关于人脸中轴线对称的两个特征点形成的组合，具体是左鄂(特征点编号{14})与右鄂(特征点编号{4})、特征点编号{55}与特征点编号{49}、特征点编号{54}与特征点编号{50}、特征点编号{65}与特征点编号{61}、特征点编号{56}与特征点编号{60}；

优选地，S3中，每帧的唇部区域特征点的中心的坐标的计算公式如式(1)所示：

式(1)中，x_i表示第i帧中的唇部区域特征点的中心的横坐标，y_i表示第i帧中的唇部区域特征点的中心的纵坐标；N表示唇部区域特征点的个数，本实施例中N＝24；

优选地，S3中，由于嘴角处的4对特征点以及左鄂和右鄂这一对特征点受唇部形变影响较小，且可以表示唇部倾斜角度，故采用它们来计算唇部偏转向量V，唇部偏转向量V的计算公式如式(2)所示：

式(2)中，l表示左侧唇部关键特征点，其编号为{14，55，54,56,65}；r表示右侧唇部关键特征点，其编号为{4,49,50,60,61}；land表示第i帧的全部人脸特征点，i表示第i帧，k表示第k对特征点；各个向量均是以左侧唇部关键特征点为起点、右侧唇部关键特征点为终点得到的；

优选地，S3中，根据每帧的唇部偏转向量V计算每帧的唇部偏转角度θ的计算公式如式(3)所示：

θ_i＝arctan(V_i) (3)；

唇部偏转角度θ为唇部偏转向量V与直角坐标系x轴正向的夹角，本方法在制作识别网络数据集时引入的唇部偏转角度为±30°，经实验表明，该方法计算得到的唇部偏转角度θ与实际唇部偏转角度误差在±0.5°以内。

S4、根据S3得到的唇部区域特征点的中心的坐标将S3得到的修正后识别网络数据集切分为固定尺寸(本实施例是112×112像素)的唇部图像(如图1所示)，再将唇部图像转化为灰度图后，再合并成唇部图像序列，得到切分后识别网络数据集；

优选地，S4中，将得到的切分后识别网络数据集按照训练集:测试集＝8:2的比例进行划分，再将训练集随机裁切为固定尺寸的唇部图像70％～90％大小的图像(本实施例是96×96像素)用于防止网络过拟合，将测试集中心裁切为随机裁切得到的图像的相同尺寸，用于后续测试唇语识别网络的识别精度；

S5、将S4得到的切分后识别网络数据集输入训练后唇部语义分割网络，得到分割后识别网络数据集(如图2所示)；

优选地，唇部语义分割网络的训练方法是：使用唇部语义分割网络数据集训练基于U-net结构的唇部语义分割网络，用于减小说话人身份、光照等因素对唇部特征提取的影响；唇部语义分割网络采用IoU loss作为损失函数计算损失值；当损失值不再下降或者达到指定迭代次数时，训练结束，得到训练后唇部语义分割网络；若损失值仍然下降且未达到指定迭代次数时，由输出层至输入层逐层反向计算各层神经元输出误差，然后根据梯度下降法调节唇部语义分割网络参数，进行模型更新，直到损失值不再下降或达到指定迭代次数，使唇部语义分割网络达到最优，训练结束，得到训练后唇部语义分割网络；

优选地，IoU loss的计算过程如式(4)所示：

式(4)中，C表示类别总数，y_true表示像素点的真实值，y_pred表示像素点的预测值；

表示遍历图像的所有像素点；

优选地，为训练唇部语义分割网络，本方法从S1得到的识别网络数据集随机提取1％的样本(本实施例为100条视频)，将这些样本拆分为适当数量的图片(本实施例为至少500图片，原则是足够训练唇部语义分割网络，同时尽量减少人工标注的工作量)，采用LabelMe软件标注唇部区域，得到唇部语义分割网络数据集。

优选地，S6中，唇语识别网络分为图神经网络GNN(如图6所示)、卷积神经网络CNN(如图7所示)和双向门控循环单元BiGRU(如图8所示)的三部分；

为了增强GNN网络的特征提取能力，将S3得到的唇部区域特征点按照单帧特征点关系的图结构(如图4所示)和相邻帧特征点关系的图结构(如图5所示，用于表示唇部特征点变化)作为输入，将两部分图结构分别输入到基于U-net结构的GNN中，使用不同的特征点距离进行图卷积运算来提取特征，分别得到唇部关系特征和唇部变化特征，并将两个特征进行特征融合，得到GNN唇部特征作为输出；

再将S4得到的切分后识别网络数据集和S5得到的分割后识别网络数据集输入到CNN中，经四层卷积进行特征提取，分别得到唇部原图特征和唇部分割特征，并将两个特征进行特征融合，得到CNN唇部特征；

再将GNN唇部特征和CNN唇部特征作为输入，经特征融合后，输入到BiGRU中进行计算，之后经FC全连接层和SoftMax层计算得到预测结果；再使用CE loss(cross entropyloss)作为损失函数，根据预测结果和标签label的标注值计算唇语识别网络的损失值loss；当损失值loss不再下降或者达到指定迭代次数时，训练结束，得到训练后唇语识别网络；若loss仍然下降且未达到指定迭代次数时，由输出层至输入层逐层反向计算各层神经元输出误差，然后根据梯度下降法调节唇语识别网络的各个权重值和偏置值，直到loss不再下降或达到指定迭代次数，使唇语识别网络达到最优，训练结束，得到训练后唇语识别网络；

优选地，CE loss的计算过程如式(8)所示：

式(8)中，loss表示损失值；p(label)表示标签label的标注值，q(label)表示标签label的预测概率；

优选地，S6中，单帧特征点关系的图结构G1根据公式(5)定义：

G1＝(V1,E1) (5)

式(5)中，V1表示第i帧唇部区域特征点的编号；E1表示单帧的特征点的连接关系；

相邻帧特征点关系的图结构G2根据公式(6)定义：

G2＝(V2,E2) (6)

式(6)中，V2表示第i-1帧、第i帧和第i+1帧唇部区域特征点的编号；E2表示相邻帧的特征点的连接关系。

优先地，S6中，将两部分图结构分别输入基于U-net结构的GNN中进行卷积特征提取，具体是：单帧特征点关系的图卷积采用距离为1的特征点进行关系特征的提取；相邻帧特征点关系的图卷积采用距离为2的特征点进行变化特征的提取；

由图4可以看出，单帧特征点的连接关系为编号4-编号34、4-51、4-50、4-49、4-60、4-59、4-9、14-34、14-53、14-54、14-55、14-56、14-57、14-9、34-50、34-51、34-52、34-53、34-54、9-60、9-59、9-58、9-57、9-56、49-50、49-61、49-60、55-54、55-65、55-56、60-61、60-68、60-59、50-51、50-61、50-62、61-51、61-62、61-68、61-59、51-52、51-62、51-63、59-58、59-67、59-68、62-52、62-63、62-67、62-68、68-63、68-67、68-58、52-53、52-63、52-64、63-53、63-64、63-66、63-67、67-64、67-66、67-57、67-58、58-66、58-57、53-54、53-64、53-65、57-56、57-65、57-66、64-54、64-65、64-66、65-54、65-66、65-56、66-56；

图5中，从左到右的虚线点分别为第i-1帧、第i帧和第i+1帧的第j个特征点(即相邻三帧相同位置的特征点)，左侧的空心点为第i-1帧的第j个特征点的相邻特征点，右侧的空心点为第i+1帧的第j个特征点的相邻特征点。

优选地，S6中，CNN中，四层卷积进行特征提取具体是：将输入转成尺寸为B×T×W×H×1的张量，其中B为批量大小，T为帧数，W为宽度，H为高度，本实施例中，W和H均为96，经第一层卷积输出B×T×64×64×64的张量，经第二层卷积输出B×T×16×16×256的张量，经第三层卷积输出B×T×4×4×512的张量，经第四层卷积输出B×T×1×1×1024的张量，并调整为B×T×1024的张量作为提取到的特征即唇部原图特征和唇部分割特征；

下面以两个具体的实验例对本发明提供的高精度唇语识别方法的正确率做进一步描述。

本具体实验例中，当预测的结果分类与标签的分类一致时才算预测结果正确。识别网络数据集共有10个样本分类。本实验设置了多个对比实验，网络结构的后端识别网络均为BiGRU模型，测试结果如表1所示：

表1

实验序号	特征种类	测试精度(％)
			1	唇部原图特征	85.6
2	唇部原图特征+唇部分割特征	89.3
			3	唇部原图特征+唇部变化特征+唇部关系特征	91.5
4	唇部原图特征+唇部分割特征+唇部变化特征+唇部关系特征	93.9

可以看到，相比于仅使用唇部原图的方法，本发明提出的唇部原图特征+唇部分割特征+唇部变化特征+唇部关系特征的特征融合唇语识别方法具有较高的准确率。

本发明未述及之处适用于现有技术。

Claims

1.一种结合图神经网络和多特征融合的唇语识别方法，其特征在于，该方法包括以下步骤：

S1、制作识别网络数据集；

S2、使用人脸标注算法标注人脸特征点；

2.根据权利要求1所述的结合图神经网络和多特征融合的唇语识别方法，其特征在于，S1具体是：从公开的唇语识别数据集ouluvs2中选择样本，使用FaceGen软件进行3D人脸重建，并导出人脸变化序列并保存为RGB视频，作为识别网络数据集。

3.根据权利要求2所述的结合图神经网络和多特征融合的唇语识别方法，其特征在于，S1中，使用FaceGen软件进行3D人脸重建具体是：使用ouluvs2中的0°人脸图像、90°人脸图像以及经过水平翻转的90°人脸图像通过3D人脸重建软件FaceGen生成3D人脸模型。

4.根据权利要求1所述的结合图神经网络和多特征融合的唇语识别方法，其特征在于，S2中，使用dlib开源工具进行人脸特征点标注，共得到68个人脸特征点；

S3中，所述唇部区域特征点是从dlib开源工具定义的68个人脸特征点中选取位于唇部区域的20个唇部特征点以及分别位于鼻尖、下巴、左鄂和右鄂位置的鼻尖特征点、下巴特征点、左鄂特征点和右鄂特征点，共24个特征点；

S3中，所述左侧唇部关键特征点是从20个唇部特征点中选取位于最左侧的四个和左鄂特征点，共5个特征点；右侧唇部关键特征点是从20个唇部特征点中选取位于最右侧的四个和右鄂特征点，共5个特征点。

5.根据权利要求1所述的结合图神经网络和多特征融合的唇语识别方法，其特征在于，S3中，每帧的唇部区域特征点的中心的坐标的计算公式如式(1)所示：

式(1)中，x_i表示第i帧中的唇部区域特征点的中心的横坐标，y_i表示第i帧中的唇部区域特征点的中心的纵坐标；N表示唇部区域特征点的个数；

S3中，唇部偏转向量V的计算公式如式(2)所示：

式(2)中，l表示左侧唇部关键特征点；r表示右侧唇部关键特征点，land表示第i帧的全部人脸特征点，k表示第k对特征点；

S3中，根据每帧的唇部偏转向量V计算每帧的唇部偏转角度θ的计算公式如式(3)所示：

θ_i＝arctan(V_i) (3)。

6.根据权利要求1所述的结合图神经网络和多特征融合的唇语识别方法，其特征在于，S4中，将得到的切分后识别网络数据集按照训练集:测试集＝8:2的比例进行划分，再将训练集随机裁切为固定尺寸的唇部图像70％～90％大小的图像用于防止网络过拟合，将测试集中心裁切为随机裁切得到的图像的相同尺寸，用于后续测试唇语识别网络的识别精度。

7.根据权利要求1所述的结合图神经网络和多特征融合的唇语识别方法，其特征在于，S5中，唇部语义分割网络的训练方法是：使用唇部语义分割网络数据集训练基于U-net结构的唇部语义分割网络；唇部语义分割网络采用IoU loss作为损失函数计算损失值；

IoU loss的计算过程如式(4)所示：

表示遍历图像的所有像素点；

从S1得到的识别网络数据集随机提取样本，将这些样本拆分为至少500图片，采用LabelMe软件标注唇部区域，得到唇部语义分割网络数据集。

8.根据权利要求1所述的结合图神经网络和多特征融合的唇语识别方法，其特征在于，S6中，唇语识别网络分为图神经网络GNN、卷积神经网络CNN和双向门控循环单元BiGRU；

将S3得到的唇部区域特征点按照单帧特征点关系的图结构和相邻帧特征点关系的图结构作为输入，将两部分图结构分别输入到GNN中，使用不同的特征点距离进行图卷积提取特征，分别得到唇部关系特征和唇部变化特征，并将两个特征进行特征融合，得到GNN唇部特征；

再将GNN唇部特征和CNN唇部特征作为输入，经特征融合后，输入到BiGRU中进行计算，之后经FC全连接层和SoftMax层计算得到预测结果；再使用CE loss作为损失函数，根据预测结果和标签label的标注值计算唇语识别网络的损失值；当损失值不再下降或者达到指定迭代次数时，训练结束，得到训练后唇语识别网络；若损失值仍然下降且未达到指定迭代次数时，由输出层至输入层逐层反向计算各层神经元输出误差，然后根据梯度下降法调节唇语识别网络的各个权重值和偏置值，直到损失值不再下降或达到指定迭代次数，使唇语识别网络达到最优，训练结束，得到训练后唇语识别网络；

CEloss的计算过程如式(8)所示：

式(8)中，p(label)表示标签label的标注值，q(label)表示标签label的预测概率。

9.根据权利要求8所述的结合图神经网络和多特征融合的唇语识别方法，其特征在于，S6中，单帧特征点关系的图结构G1根据公式(5)定义：

G1＝(V1,E1) (5)

相邻帧特征点关系的图结构G2根据公式(6)定义：

G2＝(V2,E2) (6)

10.根据权利要求8所述的结合图神经网络和多特征融合的唇语识别方法，其特征在于，S6中，将两部分图结构分别输入到GNN中进行图卷积提取特征，具体是：单帧特征点关系的图卷积采用距离为1的特征点进行关系特征的提取；相邻帧特征点关系的图卷积采用距离为2的特征点进行变化特征的提取。