CN111178337A

CN111178337A - 人脸关键点数据增强方法、装置、系统以及模型训练方法

Info

Publication number: CN111178337A
Application number: CN202010167639.4A
Authority: CN
Inventors: 杨帆; 郝强; 潘鑫淼; 胡建国
Original assignee: Nanjing Zhenshi Intelligent Technology Co Ltd
Current assignee: Xiaoshi Technology Jiangsu Co ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-05-19
Anticipated expiration: 2040-01-07
Also published as: CN110807448B; CN110807448A; CN111178337B

Abstract

本发明属于人脸识别技术领域，提供一种人脸关键点数据增强方法、装置、系统以及模型训练方法，通过对人脸图像局部区域仿射变换并拼接的人脸关键点数据增强方法，以提高样本的数量和多样性，有利于提升关键点检测模型的训练效果。在已标注数据的基础上，采用局部仿射变换即可高效地生成人脸关键点数据，从而提升后续模型训练的准确率和泛化性。

Description

人脸关键点数据增强方法、装置、系统以及模型训练方法

技术领域

本发明涉及人脸识别技术领域，具体而言涉及一种基于局部仿射变换的人脸关键点数据增强方法、装置、系统以及训练人脸关键点检测模型的方法。

背景技术

训练人脸关键点检测模型，需要大规模的带标签人脸数据，获取到的人脸图像中往往自然表情居多，如张嘴、闭眼的图像相对较少，这种较为单一的数据会使得训练后的模型泛化能力较差。

此外，人脸关键点数据的标注耗时费力，标注员需要对每张人脸图像精细地标注几十甚至上百个关键点。这两个方面因素大大限制了高质量数据的获取，进而影响深度学习模型的性能。数据增强是快速提升数据量的高效方法，但现有的人脸关键点数据增强方法，例如平移、旋转、缩放等，无法对人脸轮廓及五官进行改变，如睁眼变为闭眼、胖脸形变为瘦脸形。因此即使数据量增加了，但数据的多样性并未提高。

发明内容

本发明目的在于提供一种基于局部仿射变换的人脸关键点数据增强方法与系统，通过对人脸图像局部区域仿射变换并拼接的人脸关键点数据增强，有效地提高样本的数量和多样性，有利于提升关键点检测模型的训练效果。

本发明的上述目的通过独立权利要求的技术特征实现，从属权利要求以另选或有利的方式发展独立权利要求的技术特征。

为达成上述目的，本发明提出一种基于局部仿射变换的人脸关键点数据增强方法，包括：

步骤1、采集N张包含人脸的彩色图像，N为正整数，且N≥100；

步骤2、对每个彩色图像中的最大的人脸标注其104个关键点，其中包括0~32号点为脸部轮廓点，33~50号点为眉毛关键点，51~65号点为鼻子关键点，66~83号点为眼睛关键点，84~103号点为嘴部关键点，得到的标注数据；

步骤3、对标注数据进行预处理，得到人脸边界框，并扩展成正方形边界框，然后截取正方形边界框内的图像并缩放至64×64像素大小的图像；

步骤4、对64×64像素大小的图像修正104个关键点坐标；

步骤5、根据修正后的关键点坐标和图像边缘点坐标对修正后的图像数据构建三角图像阵列；

步骤6、从步骤4得到图像数据中选择多组原始的彩色图像中缺乏的人脸形态的关键点数据作为目标关键点数据，得到目标关键点的坐标数据，包括闭眼时的关键点、侧脸时的关键点以及张大嘴时的关键点；

步骤7、对按照步骤3预处理后的每个图像数据进行图像增强，对三角图像阵列中的各个子区域进行仿射变换；

步骤8、将步骤7中仿射变换后的各子区域图像按照目标子区域图像的三个顶点坐标重新拼接，得到新的人脸图像，与之对应的关键点坐标作为目标关键点坐标；

步骤9、对步骤8拼接后的人脸图像和对应的目标关键点数据使用数据增强方法再次进行随机增强。

根据本发明的公开，还提出一种基于局部仿射变换的人脸关键点数据增强装置，包括：

用于采集N张包含人脸的彩色图像的模块，N为正整数，且N≥100；

用于对每个彩色图像中的最大的人脸标注其104个关键点的模块，其中包括0~32号点为脸部轮廓点，33~50号点为眉毛关键点，51~65号点为鼻子关键点，66~83号点为眼睛关键点，84~103号点为嘴部关键点，得到的标注数据；

用于对标注数据进行预处理，得到人脸边界框，并扩展成正方形边界框，然后截取正方形边界框内的图像并缩放至64×64像素大小的图像的模块；

用于对64×64像素大小的图像修正104个关键点坐标的模块；

用于根据修正后的关键点坐标和图像边缘点坐标对修正后的图像数据构建三角图像阵列的模块；

用于从64×64像素大小的图像数据中选择多组原始的彩色图像中缺乏的人脸形态的关键点数据作为目标关键点数据，得到目标关键点的坐标数据的模块，包括闭眼时的关键点、侧脸时的关键点以及张大嘴时的关键点；

用于对预处理后的每个图像数据进行图像增强，对三角图像阵列中的各个子区域进行仿射变换的模块；

用于将仿射变换后的各子区域图像按照目标子区域图像的三个顶点坐标重新拼接，得到新的人脸图像的模块，与之对应的关键点坐标作为目标关键点坐标；

用于对拼接后的人脸图像和对应的目标关键点数据使用现有的数据增强方法再次进行随机增强的模块。

根据本发明的公开，还提出一种系统，包括：

一个或多个处理器；

存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括：

步骤1、采集N张包含人脸的彩色图像，N为正整数，且N≥100；

步骤4、对64×64像素大小的图像修正104个关键点坐标；

步骤6、从步骤4得到图像数据中选择多组原始的彩色图像中缺乏的人脸形态的关键点数据作为目标关键点数据，得到关键点的坐标数据，包括闭眼时的关键点、侧脸时的关键点以及张大嘴时的关键点；

步骤9、对步骤8拼接后的人脸图像和对应的目标关键点数据使用现有的数据增强方法再次进行随机增强。

根据本发明的公开，还提出一种使用所述的训练数据集训练人脸关键点检测模型的方法，所述训练的人脸关键点检测模型输入为含有人脸的宽高均为64像素的图像，输出为104个人脸关键点坐标；

人脸关键点检测模型由卷积层、最大值池化层和全连接层组成，卷积层的卷积核大小为3×3，步长为1，补零方式为Same Padding；

最大值池化层的池化窗口大小为2×2、步长为2；

第一个全连接层神经元数为1024，第二个全连接层神经元数为208；

卷积层和第一个全连接层后采用ReLU激活函数激活；

模型训练时的一个批次数据损失函数为：

其中，

为混合数据集中某一批次的第

个训练样本的第

个关键点坐标，

为一个批次的数据量，

为模型对第

个训练图像预测的第

个关键点坐标；

最终，训练得到预测人脸关键点坐标的模型输出。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是本发明的人脸关键点数据增强方法的示例性流程图。

图2是人脸关键点的示意图。

图3是人脸的三角图像阵列示意图。

图4是基于融合的数据集进行人脸关键点训练模型的示意图。

图5是现有的传统数据增强方法和本发明数据增强方法的对比示意图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是应为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

本发明公开的实施例的基于局部仿射变换的人脸关键点数据增强方法，整体上旨在通过对人脸图像局部区域仿射变换并拼接的人脸关键点数据增强方法，以提高样本的数量和多样性，有利于提升关键点检测模型的训练效果。

结合图1-图4所示，下面对其具体实现进行更加具体的说明。

步骤1、采集N张包含人脸的彩色图像，N为正整数，且N≥100。

优选地，人脸的彩色图像尽可能进行多场景选择，例如覆盖到不同人脸姿态、不同性别年龄、不同光照条件、不同背景、不同遮挡情况等。

步骤2、对每个彩色图像中的最大的人脸标注其104个关键点，结合图2所示，其中包括0~32号点为脸部轮廓点，33~50号点为眉毛关键点，51~65号点为鼻子关键点，66~83号点为眼睛关键点，84~103号点为嘴部关键点，得到的标注数据。

步骤3、对标注数据进行预处理，得到人脸边界框，并扩展成正方形边界框，然后截取正方形边界框内的图像并缩放至64×64像素大小的图像，从而确保数据中的人脸位置及占比大致相似，以降低模型训练的难度。

步骤4、对64×64像素大小的图像修正104个关键点坐标。

优选地，按照下述方式修正104个关键点坐标：

其中，

为第

幅图像修正后的第

个关键点坐标，

，

表示图像

的边界框边长，

表示图像左上角坐标。

步骤5、根据修正后的关键点坐标和图像边缘点坐标对修正后的图像数据构建三角图像阵列。

优选地，所述步骤5中，根据104个关键点坐标（

）和8个图像边缘点坐标将预处理后的图像数据划分成三角形子区域组成三角图像阵列；其中图像边缘点坐标是指图像左上角坐标

、上边缘中点坐标

、右上角坐标

、左边缘中点坐标

、右边缘中点坐标

、左下角坐标

、下边缘中点坐标

以及右下角坐标

然后，将这112个点

采用Bowyer-Watson三角剖分算法划分三角形子区域，划分后每个子区域的三个顶点组成一个新的集合

，其中

：

其中，

为第

幅图的第

个子区域的3个顶点，

，

为划分后的三角形子区域个数，

。

步骤6、从步骤4得到图像数据（修正后）中选择多组原始的彩色图像中缺乏的人脸形态的关键点数据作为目标关键点数据，得到关键点的坐标数据，包括闭眼时的关键点、侧脸时的关键点以及张大嘴时的关键点。

优选地，所述步骤9的随机增强处理包括：

1）-30°到30°的随机旋转；

2）边长10%的随机平移；

3）边长90%到120%的随机缩放；

4）50%概率的水平翻转；以及

5）对图像进行30%概率的高斯模糊和30%概率的颜色抖动。

优选地，所述步骤2中，对104个关键点的标注，得到标注数据为：

其中，

为第

幅图像；

为第

幅图像的第

个关键点坐标；

，

。

优选地，所述步骤3中，根据标注的关键点坐标的最高点、最低点、最左点、最右点确定人脸边界框，并向外扩展边长的20%，若此时边界框为矩形，则将矩形框的短边再次扩展至与长边相等，得到正方形边界框；

再将图像中边界框内的部分截取出来，并放缩至64×64像素大小的图像

。

优选地，所述步骤7中，所述仿射变换的处理，其中：

对每个预处理后的数据做数据增强时，首先随机选择一组目标关键点

，

，其中

为目标关键点数据总组数，

为第

组目标关键点数据的第

个坐标，

，

为8个图像边缘点坐标；

将第

幅待增强图像的第

个子区域图像

由点

两两连线围成，对应的目标子区域

为目标关键点

两两连线围成的区域，采用opencv图像处理库的applyAffineTransform函数将子区域

仿射变换为目标子区域

的形状，得到新的子区域图像

，变换后的三个顶点坐标为

；

对各子区域图像都进行上述操作得到

个变换后的子区域图像

。

优选地，在步骤8中，按照目标子区域图像的三个顶点坐标重新拼接，得到新的人脸图像，其具体包括：

新建一张64X64大小像素值为0的三通道图像，将仿射变换后的各三角形子区域图像

按照3个顶点

放置到空白图像的

位置，拼接得到新的人脸图像。拼接后图像对应的关键点坐标为目标关键点坐标，即拼接后的图像和目标关键点坐标组成一组增强后的数据。

优选地，前述方法更加包括：

对每一个原始的彩色图像经过前述预处理得到的64×64像素大小的原始图像数据按照前述的方法进行增强，重复9次，以将数据量扩充9倍；

再将原始图像数据与新的人脸图像数据进行合并，组成新的用于人脸关键点检测模型训练的训练数据集。

结合图3、4所示，根据本发明的公开，还提出一种使用所述的训练数据集训练人脸关键点检测模型的方法，所述训练的人脸关键点检测模型输入为含有人脸的宽高均为64像素的图像，输出为104个人脸关键点坐标；

人脸关键点检测模型由卷积层、最大值池化层和全连接层组成，卷积层的卷积核大小为3×3，步长为1，补零方式为Same Padding（卷积核个数标注在图4中各卷积层的括号内）；

最大值池化层的池化窗口大小为2×2、步长为2；

卷积层和第一个全连接层后采用ReLU激活函数激活；

模型训练时的一个批次数据损失函数为：

其中，

为混合数据集中某一批次的第

个训练样本的第

个关键点坐标，

为一个批次的数据量，

为模型对第

个训练图像预测的第

个关键点坐标；

最终，训练得到预测人脸关键点坐标的模型输出。

藉由本发明的方案，由于人脸关键点数据的获取和标注较为耗时，而现有的数据增强方法无法对图像脸形、五官进行调整，难以提升数据的多样性。本发明的方案中在已标注数据的基础上，采用局部仿射变换即可高效地生成人脸关键点数据，从而提升后续模型训练的准确率和泛化性。

结合图5所示，其中左图为待增强的人脸图像，右边第一行三张图为采用现有数据增强方法后的图像，右边第二行三张图为采用本发明数据增强方法后的图像。可以发现，现有方法只能对人脸位置或颜色进行改变，而本发明方法在此基础上还可以改变脸型、眼睛和嘴巴开闭程度、脸部姿态，大大提升了数据的多样性。

在训练关键点预测模型前，先按照步骤1~4准备10000组标注好的人脸数据，人脸数据覆盖多种脸型、性别、年龄、脸部姿态、表情以及背景环境，由于不同数据获取的难易程度不同，数据中大部分为正脸、表情自然的人脸图像。

测试数据包括简单测试集和困难测试集，简单测试集为100张表情自然、正脸数据，这类数据在训练数据中的占比较多；困难测试集为100张表情丰富（表现为眼睛、嘴巴开闭程度不一等）、侧脸数据，这类数据在训练数据中的占比较少，因此用来评估模型的泛化能力。

采用现有数据增强方法和本发明数据增强方法后训练模型的测试效果

	简单测试集NME	困难测试集NME
			采用现有方法	5.17%	9.77%
采用本发明方法	3.66%	7.25%

上表为采用现有数据增强方法和本发明数据增强方法后训练模型的测试效果。测试采用归一化的评价误差（Normalized Mean Error, NME）

其中，

为第

个测试图像的第

个关键点坐标，

为模型对第

个测试图像预测的第

个关键点坐标，

,

为测试数据量，

为第

个测试图像的双眼中心距离。可以看出，采用本发明数据增强方法后训练的模型在简单数据集和困难数据集的测试效果均优于采用现有数据增强方法后训练的模型，可见采用本发明方法有利于提升模型的精度，同时本发明方法在困难数据集的NME比现有方法低2.52%，本发明方法能有效增强数据的多样性，有利于提升模型的泛化能力。

结合图示，本发明的前述实施例还可以根据具体实施配置如下。

{人脸关键点数据增强装置}

一种基于局部仿射变换的人脸关键点数据增强装置，包括：

用于对64×64像素大小的图像修正104个关键点坐标的模块；

{系统}

一种系统，包括：

一个或多个处理器；

步骤1、采集N张包含人脸的彩色图像，N为正整数，且N≥100；

步骤4、对64×64像素大小的图像修正104个关键点坐标；

步骤9、对步骤8拼接后的人脸图像和对应的目标关键点数据使用现有的数据增强方法再次进行随机增强

优选地，前述系统可以是计算机系统，或者服务器系统，而不论这些计算机系统是搭建在本地端，亦或者云端，均可在配置的数据处理、存储、传输以及数据总线的基础上，依照上述配置进行人脸关键点数据的增强以及进行模型的训练。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。