CN113239902B

CN113239902B - 一种基于双判别器生成对抗网络的唇语识别方法及装置

Info

Publication number: CN113239902B
Application number: CN202110772322.8A
Authority: CN
Inventors: 刘丽; 张成伟; 张雪毅; 薛桂香; 赵雨
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-09-28
Anticipated expiration: 2041-07-08
Also published as: CN113239902A

Abstract

本申请涉及一种基于双判别器生成对抗网络的唇语识别方法及装置，该方法包括：从视频中导出不同角度的人脸图片，根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集；并根据唇部多角度数据集得到的生成器数据集、身份判别器数据集、角度判别器数据集，再生成对抗网络数据模型；利用所述对抗网络数据模型对待识别的视频进行唇语识别，转换得到0°唇部图像；从所述0°唇部图像提取唇部特征向量，对所述唇部特征向量进行建模分类，得到唇部分类结果，根据所述唇部分类结果导出识别语言。本发明实施例具有和真实环境相似的视觉效果，可以很好的指导模型适应实际应用环境，进一步提升唇语识别模型的准确率。

Description

一种基于双判别器生成对抗网络的唇语识别方法及装置

技术领域

本申请涉及人工智能领域，特别是涉及一种基于双判别器生成对抗网络的唇语识别方法及装置。

背景技术

唇语识别是一项结合计算机视觉和自然语言处理的复杂任务，可以用来自动推断视觉和听觉信息包含的文字内容，具有很广的应用价值，如从无声监控视频或电影中恢复语音。最近几年，唇语识别的发展主要受以下两方面的推动：首先是深度学习技术的快速发展，这是一种源于神经科学的技术，在图像处理，语言模型等领域都取得了巨大的成功。其次是大型数据集的提出，他们为唇语识别提供了大量的训练数据和复杂的环境变化，极大地促进了唇语识别的发展。

大多数的唇语识别模型包含前端特征提取模型和后端分类模型。前端特征提取模型主要负责提取序列的每一帧的特征和每帧之间的变化特征。后端分类模型主要负责从前端模型输出的特征向量中学习整个序列的模式变化。但在特征提取阶段，大部分方法只采用简单的数据预处理，如随机裁切，水平翻转，增加对比度等，这些预处理方法只能一定程度上缓解过拟合问题，并不能很好的解决说话者状态如面部偏转等对特征提取的影响。

发明内容

基于此，有必要针对上述技术问题，提供一种基于双判别器生成对抗网络的唇语识别方法及装置。

第一方面，本发明实施例提供了一种基于双判别器生成对抗网络的唇语识别方法，包括以下步骤：

从视频中导出不同角度的人脸图片，根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集；

根据所述唇部多角度数据集得到生成器数据集，并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集；

训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型，训练所述角度分类数据集得到角度分类器；

利用所述角度分类器对待识别的视频进行唇语识别，得到第一唇部图像，利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像；

从所述0°唇部图像提取唇部特征向量，对所述唇部特征向量进行建模分类，得到唇部分类结果，根据所述唇部分类结果导出识别语言。

进一步的，所述从视频中导出不同角度的人脸图片，根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集，包括：

将视频中人脸图片按照不同角度进行的每一帧拆分，得到每一帧的正视图，左视图，右视图组成的三视图图片；

使用人脸建模工具和所述三视图图片对每一帧面部图像进行人脸建模，导出人脸模型；

对所述人脸模型的不同角度对应的视图，使用标注工具标注特征点，定位唇部区域，裁切出唇部区域，得到唇部多角度数据集。

进一步的，所述根据所述人脸图片得到生成器数据集，从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集，包括：

使用头部姿态估计算法对所述唇部多角度数据集的人脸进行处理，得到人脸的偏转角度；

根据所述唇部多角度数据集中的随机选取不同的人脸图片，并标记每张人脸图片的说话者身份和偏转角度；

从所述唇部多角度数据集的人脸身份提取身份判别器数据集，从所述唇部多角度数据集中头部偏转角度提取角度判别器数据集，从所述唇部多角度数据集的人脸角度提取角度分类数据集。

进一步的，所述利用所述角度分类器对待识别的视频进行唇语识别，得到第一唇部图像，利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像，包括：

待识别的视频分离出人脸的图片输入到角度分类器，得到第一唇部图像，并对所述第一唇部图像进行估算，得到待识别人脸偏转的角度；

通过所述对抗网络数据模型构建6个一级转换器，利用所述一级转换器对所述待识别人脸偏转的角度进行一级转换，得到0°唇部图像、±20°唇部图像、±40°唇部图像；

利用所述角度判别器数据集、身份判别器数据集、生成器数据集构建二级转换器，将±20°唇部图像、±40°唇部图像转换为0°唇部图像。

另一方面，本发明实施例还提供了一种基于双判别器生成对抗网络的唇语识别装置，包括：

多角度数据集模块，从视频中导出不同角度的人脸图片，根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集；

数据集分类模块，用于根据所述唇部多角度数据集得到生成器数据集，并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集；

判别器训练模块，用于训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型，训练所述角度分类数据集得到角度分类器；

唇部图像转换模块，用于利用所述角度分类器对待识别的视频进行唇语识别，得到第一唇部图像，利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像；

唇语识别模块，用于从所述0°唇部图像提取唇部特征向量，对所述唇部特征向量进行建模分类，得到唇部分类结果，根据所述唇部分类结果导出识别语言。

进一步的，所述多角度数据集模块包括人脸模型识别单元，所述人脸模型识别单元用于：

进一步的，所述数据集分类模块包括偏转角度定位单元，所述偏转角度定位单元用于：

进一步的，所述唇部图像转换模块包括角度转换单元，所述角度转换单元用于：

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本申请的有益效果是：本发明实施例公开了一种基于双判别器生成对抗网络的唇语识别方法及装置，本发明实施例制作的数据集具有更密集的唇部变化角度，数据更加贴近真实环境中的数据分布，具有和真实环境相似的视觉效果，可以很好的指导模型适应实际应用环境。此外，本发明实施例设计的双判别器可以同时计算生成图片与目标图片的人脸身份评分和转动角度评分，较传统的基于像素差异的单判别器模型，本发明设计的身份角度双判别器可以更好地指导模型生成质量更高，更真实的唇部图像。本发明实施例设计的转换器模型将大角度范围分成两个较小角度的阶段，减小了单个模型训练数据包含的角度范围，很好的提升了模型的转换质量和模型的训练速度，进一步提升唇语识别模型的准确率。

附图说明

图1为一个实施例中公开的一种基于双判别器生成对抗网络的唇语识别方法的流程示意图；

图2为一个实施例中公开的人脸模型识别过程的流程示意图；

图3为一个实施例中人脸偏转角度定位的流程示意图；

图4为一个实施例中通过转换器将人脸角度转换的流程示意图；

图5为一个实施例中一种基于双判别器生成对抗网络的唇语识别装置的结构框图。

具体实施方式

在一个实施例中，如图1所示，提供了一种基于双判别器生成对抗网络的唇语识别方法，包括以下步骤：

步骤101，从视频中导出不同角度的人脸图片，根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集；

步骤102，根据所述唇部多角度数据集得到生成器数据集，并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集；

步骤103，训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型，训练所述角度分类数据集得到角度分类器；

步骤104，利用所述角度分类器对待识别的视频进行唇语识别，得到第一唇部图像，利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像；

步骤105，从所述0°唇部图像提取唇部特征向量，对所述唇部特征向量进行建模分类，得到唇部分类结果，根据所述唇部分类结果导出识别语言。

具体地，首先本实施例首先使用3D人脸重建技术，对多位具有不同人脸属性的测试者进行人脸3D建模，生成更真实的，可控的人脸模型，并控制模型的光照条件，旋转角度等属性，制作了唇部多角度数据集，与现有的多角度数据集的实验室环境相比，本发明制作的数据集具有更密集的唇部变化角度，数据更加贴近真实环境中的数据分布，具有和真实环境相似的视觉效果，可以很好的指导模型适应实际应用环境。其次，本实施例设计的双判别器生成对抗网络模型较传统的单判别器生成对抗网络模型具有更好的实验效果。本实施例设计的双判别器可以同时计算生成图片与目标图片的人脸身份评分和转动角度评分，较传统的基于像素差异的单判别器模型，本发明设计的身份角度双判别器可以更好地指导模型生成质量更高，更真实的唇部图像。另一方面，本实施例设计的基于双判别器生成对抗网络模型和角度分类器模型的转换器模型较传统的一步转换模型有更好地效果，传统转换器模型训练时会输入很大角度范围的唇部图像，并由一个生成对抗网路模型进行转正，而本发明设计的转换器模型将大角度范围分成两个较小角度的阶段，减小了单个模型训练数据包含的角度范围，很好的提升了模型的转换质量和模型的训练速度，进一步提升唇语识别模型的准确率。

在一个实施例中，如图2所示，通过人脸模型识别得到唇部多角度数据集的流程包括：

步骤201，将视频中人脸图片按照不同角度进行的每一帧拆分，得到每一帧的正视图，左视图，右视图组成的三视图图片；

步骤202，使用人脸建模工具和所述三视图图片对每一帧面部图像进行人脸建模，导出人脸模型；

步骤203，对所述人脸模型的不同角度对应的视图，使用标注工具标注特征点，定位唇部区域，裁切出唇部区域，得到唇部多角度数据集。

具体地，使用每一帧的三视图图片和FaceGen 3D人脸建模软件对测试者的每一帧面部图像进行人脸建模,每一帧对应一个人脸模型，一个视频长为N帧，故一个视频得到N个人脸模型，每个人脸模型都导出±60°范围内121个角度的121张图片，即121个头部偏转角度的图片，一个视频导出N×121张图片，再使用dlib工具标注特征点，定位唇部区域，裁切出唇部区域，得到唇部多角度数据集。

在一个实施例中，如图3所示，人脸偏转角度定位的流程包括以下步骤：

步骤301，使用头部姿态估计算法对所述唇部多角度数据集的人脸进行处理，得到人脸的偏转角度；

步骤302，根据所述唇部多角度数据集中的随机选取不同的人脸图片，并标记每张人脸图片的说话者身份和偏转角度；

步骤303，从所述唇部多角度数据集的人脸身份提取身份判别器数据集，从所述唇部多角度数据集中头部偏转角度提取角度判别器数据集，从所述唇部多角度数据集的人脸角度提取角度分类数据集。

具体地，在本实施例中数据集的头部姿态包含±30°以内的偏航角，使用头部姿态估计算法计算唇部多角度数据集每一帧的头部姿态即每一帧的俯仰角、偏航角和滚转角，并由此提取每一帧的偏航角即偏转角度，并将此数值扩大为原来的2倍，得到更大范围的偏转角度，并以每一帧的偏转角度为y，帧数为x，其中，y的范围为±60°，x的范围为1-29，得到头部偏转变化折线。根据头部偏转程度计算公式，计算每一个头部偏转变化折线的头部偏转程度评分，数值越大，变化越快，偏转程度越严重，偏转程度评分越高。选出头部偏转程度计算公式计算得到的头部偏转评分最高的50个头部偏转变化折线，根据头部偏转变化折线，使用曲线拟合方法，得到平滑的头部偏转变化曲线，并将头部偏转变化曲线根据延长公式，延长至长度为40，得到最终的头部偏转变化曲线。根据50个最终的头部偏转变化曲线，随机与多角度数据集的1560个视频名匹配，并根据角度选取公式，从在同一视频名下的每一帧文件中选取对应的角度的图片，组成识别网络数据集的一个样本，每一个视频名随机和10个头部偏转变化曲线组合，共得到15600个样本(视频)，组成识别网络数据集。

其中，生成器数据集由多角度数据集中的所有图片随机选取50000张图片组成，并标记每张图片的说话者身份和偏转角度。身份判别器数据集由多角度数据集按说话者身份进行随机选择，共选取50000张图片，包含52位说话者，并标注说话者身份。角度判别器数据集由多角度数据集按头部偏转角度分类，每一类包含多个说话者的同一角度的图片，一个角度选取360张图片，包含52位说话者，每个角度每位说话者选取6张图片，并标记角度。角度分类数据集：从多角度数据集选取121×52×6=37752张图片，并按121个角度分类，一个角度包含52位说话者，每位说话者选取6张图片。

在一个实施例中，如图4所示，依据数据对象属性进行数据操作的流程包括：

步骤401，待识别的视频分离出人脸的图片输入到角度分类器，得到第一唇部图像，并对所述第一唇部图像进行估算，得到待识别人脸偏转的角度；

步骤402，通过所述对抗网络数据模型构建6个一级转换器，利用所述一级转换器对所述待识别人脸偏转的角度进行一级转换，得到0°唇部图像、±20°唇部图像、±40°唇部图像；

步骤403，利用所述角度判别器数据集、身份判别器数据集、生成器数据集构建二级转换器，将±20°唇部图像、±40°唇部图像转换为0°唇部图像。

具体地，本实施例设计的生成对抗网络模型包含一个生成器，一个身份判别器，一个角度判别器。生成器是以带有偏转的唇部图像为输入，输出转换后的唇部图像的网络模型，以U-Net为基础结构。身份判别器和角度判别器均以深度卷积网络SE-ResNet为基础结构。身份判别器以身份判别器数据集的成对的两张身份相同或身份不同的图片为输入，经两个SE-ResNet卷积后，分别得到两张图片的身份特征向量，尺寸均为1024，并将两个身份特征向量拼接在一起，得到尺寸为2048的张量，经过2层全连接网络计算后得到一个数值，表示身份判别器对两张图片的身份属性差异的评分。相同身份标签的两张图片经身份判别器计算得到的评分应趋近于1，不同身份标签的两张图片经身份判别器计算得到的评分应趋近于0。

角度判别器以角度判别器数据集的成对的两张身份相同，角度不同的图片为输入，经两个SE-ResNet卷积后，分别得到两张图片的角度特征向量，尺寸均为1024，并将两个角度特征向量拼接在一起，得到尺寸为2048的张量，经过2层全连接网络计算后得到一个数值，表示角度判别器对两张图片的角度属性差异的评分。两张图片计算的角度差异与标签的角度差异越小，角度属性差异的评分应趋近于1，两张图片计算的角度差异与标签的角度差异越大，角度属性差异的评分应趋近于0。

本实施例主要是通过0°唇部图像来实现唇部的矫正，设计的唇部矫正主要包含三个阶段。第一阶段为角度分类阶段，使用角度分类器进行角度分类，输入图片，输出角度估计结果。第二阶段包括6个一级转换器，将6个小角度区域，一个角度区域范围为20°的唇部图像经一级转换器转换为区间最靠近0°的转换点，即-3号一级转换器负责将-60°~-40°的唇部图像转换为-40°，-2号一级转换器负责将-40°~-20°的唇部图像转换为-20°，-1号一级转换器负责将-20°~0°的唇部图像转换为0°，1号一级转换器负责将0°~-20°的唇部图像转换为0°，2号一级转换器负责将20°~40°的唇部图像转换为20°，3号一级转换器负责将40°~60°的唇部图像转换为40°。第三阶段包括1个二级转换器，将所有转换点的图像转换为0°，即将±40°，±20°的唇部图像转换为0°。对于1个角度分类器，本实施例使用角度分类器数据集训练角度分类器，得到可以估计输入图片偏转角度的角度分类器。对于6个一级转换器，本实施例将使用训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型作为每一个一级转换器。之后使用角度判别器数据集和身份判别器数据集和生成器数据集的不同角度范围的图像继续训练生成器，即-3号一级转换器使用-60°~-40°的生成器数据集，-2号一级转换器使用-40°~-20°的生成器数据集，-1号一级转换器使用-20°~0°的生成器数据集，1号一级转换器使用0°~20°的生成器数据集，2号一级转换器使用20°~40°的生成器数据集，3号一级转换器使用40°~60°的生成器数据集。对于1个二级转换器，本实施例将使用使用角度判别器数据集和身份判别器数据集和生成器数据集的几个转换点角度的图像，即±40和±20°的生成器数据集图像继续训练生成器，得到在保证身份不变的情况下，可以将具有±40°和±20°的唇部偏转图像转换为0°唇部偏转的唇部图像的1个二级转换器。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，公开了一种基于双判别器生成对抗网络的唇语识别装置，包括：

多角度数据集模块501，从视频中导出不同角度的人脸图片，根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集；

数据集分类模块502，用于根据所述唇部多角度数据集得到生成器数据集，并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集；

判别器训练模块503，用于训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型，训练所述角度分类数据集得到角度分类器；

唇部图像转换模块504，用于利用所述角度分类器对待识别的视频进行唇语识别，得到第一唇部图像，利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像；

唇语识别模块505，用于从所述0°唇部图像提取唇部特征向量，对所述唇部特征向量进行建模分类，得到唇部分类结果，根据所述唇部分类结果导出识别语言。

在一个实施例中，所述多角度数据集模块501包括人脸模型识别单元，所述人脸模型识别单元用于：

在一个实施例中，所述数据集分类模块502包括偏转角度定位单元，所述偏转角度定位单元用于：

在一个实施例中，所述唇部图像转换模块504包括角度转换单元，所述角度转换单元用于：

关于基于双判别器生成对抗网络的唇语识别装置的具体限定可以参见上文中对于基于双判别器的唇语方法的限定，在此不再赘述。上述基于双判别器生成对抗网络的唇语识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于双判别器生成对抗网络的唇语识别方法，其特征在于，包括以下步骤：

从所述0°唇部图像提取唇部特征向量，对所述唇部特征向量进行建模分类，得到唇部分类结果，根据所述唇部分类结果导出识别语言；

生成对抗网络模型包含一个生成器，一个身份判别器，一个角度判别器；

生成器是以带有偏转的唇部图像为输入，输出转换后的唇部图像的网络模型；

身份判别器以身份判别器数据集的成对的两张身份相同或身份不同的图片为输入，经卷积后得到身份特征向量，再将所述身份特征向量拼接在一起，经过全连接网络计算后得到一个身份数值，所述身份数值表示身份判别器对身份属性差异的评分；

角度判别器以角度判别器数据集的成对的两张身份相同，角度不同的图片为输入，经卷积后得到角度特征向量，将所述角度特征向量拼接在一起，经过全连接网络计算后得到一个角度数值，所述角度数值表示角度判别器对角度属性差异的评分。

2.根据权利要求1所述的基于双判别器生成对抗网络的唇语识别方法，其特征在于，所述从视频中导出不同角度的人脸图片，根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集，包括：

3.根据权利要求1所述的基于双判别器生成对抗网络的唇语识别方法，其特征在于，所述根据所述人脸图片得到生成器数据集，从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集，包括：

4.根据权利要求1所述的基于双判别器生成对抗网络的唇语识别方法，其特征在于，所述利用所述角度分类器对待识别的视频进行唇语识别，得到第一唇部图像，利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像，包括：

5.一种基于双判别器生成对抗网络的唇语识别装置，其特征在于，包括：

唇语识别模块，用于从所述0°唇部图像提取唇部特征向量，对所述唇部特征向量进行建模分类，得到唇部分类结果，根据所述唇部分类结果导出识别语言；

6.根据权利要求5所述的基于双判别器生成对抗网络的唇语识别装置，其特征在于，所述多角度数据集模块包括人脸模型识别单元，所述人脸模型识别单元用于：

7.根据权利要求5所述的基于双判别器生成对抗网络的唇语识别装置，其特征在于，所述数据集分类模块包括偏转角度定位单元，所述偏转角度定位单元用于：

8.根据权利要求5所述的基于双判别器生成对抗网络的唇语识别装置，其特征在于，所述唇部图像转换模块包括角度转换单元，所述角度转换单元用于：