CN113011401B

CN113011401B - 人脸图像姿态估计和校正方法、系统、介质及电子设备

Info

Publication number: CN113011401B
Application number: CN202110479976.1A
Authority: CN
Inventors: 马卫民; 成西锋; 袁德胜; 杨祥如; 游浩泉; 林治强; 党毅飞; 崔龙; 李伟超; 王海涛
Original assignee: Winner Technology Co ltd
Current assignee: Winner Technology Co ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2023-03-21
Anticipated expiration: 2041-04-30
Also published as: CN113011401A

Abstract

本发明提供一种人脸图像姿态估计和校正方法、系统、介质及电子设备，收集人脸图像数据并标注人脸关键点，计算人脸的旋转平移向量标签，建立训练数据集和测试数据集；设置旋转平移向量损失函数，利用所述训练数据集训练搭建的卷积神经网络模型，直至所述旋转平移向量损失函数计算得到的损失达到预设阈值时停止训练；利用所述测试数据集评估训练得到的卷积神经网络模型，以从中选择一最优的卷积神经网络模型作为目标网络模型。本发明的人脸图像姿态估计和校正方法、系统、介质及电子设备，既可以完成人脸姿态估计，也能用于仿射变换校正对齐人脸图像，去除使用人脸检测器校正对齐方法对后续属性识别和特征提取模块应用不利的影响。

Description

人脸图像姿态估计和校正方法、系统、介质及电子设备

技术领域

本发明涉及人脸图像处理技术领域，特别是涉及一种人脸图像姿态估计和校正方法、系统、介质及电子设备。

背景技术

人脸姿态估计和校正对齐在人脸属性分类和人脸特征识别等领域中有着重要的作用，人脸姿态估计是对二维图像中的人脸在三维世界坐标系中所处的姿态进行估计，人脸校正对齐是将二维图像中角度不正的人脸修正对齐。人脸角度较大(例如侧脸、抬头、低头等)的人脸会导致属性类内间距和人脸特征向量距离增加，从而影响相应模型的准确率。

目前人脸属性分类和人脸特征识别在智能商业、视频监控等领域中都有着广泛的应用，准确高效的人脸姿态估计方法可以过滤应用场景中一些姿态角度大的人脸图像，而校正对齐方法可以将姿态角度较小符合条件的人脸图像对正对齐，这样有助于提升人脸属性分类和人脸特征识别的准确率。例如在智能商业常见的商场客流分析系统中，由于采集到的顾客人脸图像是通过被动式摄像头抓取的，这些图片的人脸姿态角度往往变化较大，对这些图片直接分析人脸的各属性和特征会降低模型的准确率和召回率，无法建立精准的顾客画像数据，影响智能客流分析系统的整体精度，因此一种准确高效的人脸姿态估计和校正对齐方法可以提升很多人脸相关任务的准确率。现在主流的人脸姿态估计和校正对齐方法主要包括以下两种：其一是基于人脸关键点检测的方法，依据检测到的人脸关键点计算旋转平移矩阵得到人脸姿态角度，再根据旋转平移矩阵做仿射变换对齐人脸，这种方法会依赖于人脸关键点的准确定位，如果定位出现误差或者人脸表情变化大导致关键点相对位置变化剧烈时，会造成人脸姿态估计较大误差和人脸对齐效果差的情况；其二是使用神经网络直接回归人脸姿态角度，校正对齐则用人脸box检测器定位后依据姿态角度旋转图像达到对齐目的，这种方法需要人脸检测器的box框作定位裁剪旋转图片，对齐后的人脸图片将和人脸检测器风格相关，对检测器风格的依赖不利于属性识别模型和特征提取模型的鲁棒性。

由于方法一校正对齐的人脸图片是通过人脸关键点计算旋转平移矩阵再进行仿射变换而来，要比方法二依赖于检测框得到的人脸对齐图像具有更好的泛化性和适用性，缺点是对人脸关键点的定位准确度要求较高，对人脸表情变化的情况处理效果不佳，因此，研究出一种准确高效的人脸姿态估计和校正对齐方法有着重要意义。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种人脸图像姿态估计和校正方法、系统、介质及电子设备，用于解决现有技术中人脸姿态估计和校正效率低的问题。

为实现上述目的及其他相关目的，本发明提供一种人脸图像姿态估计和校正方法，收集人脸图像数据并标注人脸关键点，计算人脸的旋转平移向量标签，建立训练数据集和测试数据集；设置旋转平移向量损失函数，利用所述训练数据集训练搭建的卷积神经网络模型，直至所述旋转平移向量损失函数计算得到的损失达到预设阈值时停止训练；利用所述测试数据集评估训练得到的卷积神经网络模型，以从中选择一最优的卷积神经网络模型作为目标网络模型；通过所述目标网络模型获得所述人脸图像的旋转平移矩阵，进而通过第一预设函数计算旋转偏移矩阵，以通过仿射变换对齐校正所述人脸图像。

于本发明的一实施例中，所述人脸关键点包括所述人脸图像上左眼中心、右眼中心、鼻子、左嘴角以及右嘴角五个关键点信息。

于本发明的一实施例中，所述计算人脸的旋转平移向量标签具体包括：获取图像坐标系、世界坐标系与相机坐标系三者之间的相互转换关系；利用第二预设函数求解对应的旋转矩阵与平移向量，并通过第三预设函数将所述旋转矩阵转换为旋转向量，进而得到所述旋转平移向量标签。

于本发明的一实施例中，所述旋转平移向量损失函数的公式如下：

其中，f(x)是所述卷积神经网络模型预测的旋转平移向量输出值，Y是所述旋转平移向量标签。

于本发明的一实施例中，还包括将所述人脸图像缩放成固定尺寸，并减去像素均值归一化到[-1,1]区间。

于本发明的一实施例中，还包括通过所述旋转平移矩阵获得人脸姿态欧拉角。

于本发明的一实施例中，所述卷积神经网络模型包括resnet18、mobelnet、efficientnet以及shufflenet网络中的至少一种模型。

为实现上述目的及其他相关目的，本发明提供一种上述的人脸图像姿态估计和校正系统，包括：

收集模块，用于收集人脸图像数据并标注人脸关键点，计算人脸的旋转平移向量标签，建立训练数据集和测试数据集；

训练模块，用于设置旋转平移向量损失函数，利用所述训练数据集训练搭建的卷积神经网络模型，直至所述旋转平移向量损失函数计算得到的损失达到预设阈值时停止训练；

选择模块，用于利用所述测试数据集评估训练得到的卷积神经网络模型，以从中选择一最优的卷积神经网络模型作为目标网络模型；

校正模块，用于通过所述目标网络模型获得所述人脸图像的旋转平移矩阵，进而通过第一预设函数计算旋转偏移矩阵，以通过仿射变换对齐校正所述人脸图像。

为实现上述目的及其他相关目的，本发明提供一种上述的计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述人脸图像姿态估计和校正方法。

为实现上述目的及其他相关目的，本发明提供一种上述的电子设备，所述电子设备包括：所述存储器用于存储计算机程序，所述处理器用于加载执行所述计算机程序，以使所述电子设备执行所述的人脸图像姿态估计和校正方法。

如上所述，本发明的人脸图像姿态估计和校正方法、系统、介质及电子设备，本方案网络模型直接回归人脸旋转平移向量的任务要比目前依赖人脸关键点定位模型的方法更简单容易，可以降低网络模型的复杂性和参数量，带来计算性能上的提升；同时本方案网络模型直接预测人脸图像的旋转平移向量，既可以完成人脸姿态估计，也能用于仿射变换校正对齐人脸图像，去除使用人脸检测器校正对齐方法对后续属性识别和特征提取模块应用不利的影响。

附图说明

图1显示为本发明的人脸图像姿态估计和校正方法于一实施例中的方法步骤图；

图2显示为本发明的人脸图像姿态估计和校正方法于一实施例中的人脸旋转平移示意图；

图3显示为本发明的人脸图像姿态估计和校正方法于一实施例中的网络模型结构示意图；

图4显示为本发明的人脸图像姿态估计和校正方法于一实施例中的点对点坐标示意图；

图5显示为本发明的人脸图像姿态估计和校正系统于一实施例中的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，于发明一实施例中，本实施例应用于商场顾客人脸分析，本发明的人脸图像姿态估计和校正方法包括如下步骤：

步骤S11、收集人脸图像数据并标注人脸关键点，计算人脸的旋转平移向量标签，建立训练数据集和测试数据集；

步骤S12、设置旋转平移向量损失函数，利用所述训练数据集训练搭建的卷积神经网络模型，直至所述旋转平移向量损失函数计算得到的损失达到预设阈值时停止训练；

步骤S13、利用所述测试数据集评估训练得到的卷积神经网络模型，以从中选择一最优的卷积神经网络模型作为目标网络模型；

步骤S14、通过所述目标网络模型获得所述人脸图像的旋转平移矩阵，进而通过第一预设函数计算旋转偏移矩阵，以通过仿射变换对齐校正所述人脸图像。

具体地，收集商场人脸抓拍相机抓取的顾客人脸图像，所述人脸关键点包括所述人脸图像上左眼中心、右眼中心、鼻子、左嘴角以及右嘴角五个关键点信息。

进一步地，于发明一实施例中，还包括对所述人脸图像进行预处理操作：将所述人脸图像缩放成固定尺寸，例如“112x112”，减去像素均值并归一化到[-1,1]区间。

进一步地，于发明一实施例中，所述计算人脸的旋转平移向量标签具体包括：获取图像坐标系、世界坐标系与相机坐标系三者之间的相互转换关系；利用第二预设函数求解对应的旋转矩阵与平移向量，并通过第三预设函数将所述旋转矩阵转换为旋转向量，进而得到所述旋转平移向量标签。

具体地，如图2所示，参数点p为所述世界坐标系中一个所述人脸关键点，假设不存在相机径向畸变情况下，所述世界坐标系、所述相机坐标系以及所述图像坐标系的转换关系如下：

所述世界坐标系到所述相机坐标系的转换关系为：

其中，XYZ为所述相机坐标系的坐标轴标号，UVW为所述世界坐标系的坐标轴标号，R 为所述旋转矩阵，T为所述平移向量。

所述相机坐标系到所述图像坐标系的转换关系为：

其中，所述xy为所述图像坐标系的坐标轴标号，f_x为所述人脸抓拍相机在所述图像坐标系横轴方向的焦距长度值，f_y为所述人脸抓拍相机在所述图像坐标系纵轴方向的焦距长度值，c_x为所述人脸图像中心点在所述图像坐标系横轴方向的数值，c_y为所述人脸图像中心点在所述图像坐标系在纵轴方向的数值，所述s为缩放尺度。

进一步地，得到所述图像坐标系到所述世界坐标系的转换关系为：

据此利用第二预设函数求解得到对应的所述旋转矩阵R和所述平移向量T，其中，所述第二预设函数可为OpenCV的solvePnP函数，其中OpenCV为一个跨平台的开源计算机视觉和机器学习软件库，并通过第三预设函数将所述旋转矩阵R转换为旋转向量，其中，所述第三预设函数为OpenCV的Rodrigues函数，进而得到旋转向量标签(r_x，r_y，r_z)与平移向量标签 (t_x，t_y，t_z)，以获得所人脸图像的旋转平移向量标签，并建立所述训练数据集和所述测试数据集，其中，所述训练数据集和所述测试数据集中的数据包括所述人脸图像和对应图中人脸的所述旋转平移向量。

需要说明的是，本申请提出的方法通过预测所述人脸图像的旋转平移向量(r_x，r_y，r_z，t_x，t_y，t_z)，相比神经网络回归预测人脸关键点坐标，例如“5×2D landmarks”，再去计算人脸姿态和校正对齐人脸的方法可以降低任务难度，容易使用小网络提升任务的性能和效率，神经网络预测旋转平移向量捕捉的是脸部的刚性变换信息，而神经网络要定位人脸关键点则要包含脸部的刚性变换信息和面部变形的非刚性变换信息，并且要与特定对象的面部形状联系在一起，这样增加了神经网络回归任务的复杂性。

进一步地，于发明一实施例中，所述旋转平移向量损失函数的公式如下：

其中，f(x)是所述卷积神经网络模型预测的旋转平移向量输出值，Y是所述旋转平移向量标签，利用所述训练数据集训练搭建的卷积神经网络模型，其中，所述卷积神经网络模型包括resnet18、mobelnet、efficientnet以及shufflenet网络中的至少一种模型，以resnet18为例，所述resnet18结构如图3所示，采用两个全连接层，即FC512、FC256，其中，FC表示深度学习中的全连接层，数字表示维度，这两层通过所述卷积神经网络模型获取所述旋转平移向量，输出结果为“512”维的特征数据；搭建所述卷积神经网络模型并进行参数初始化，载入resnet18作为特征提取主干网络，初始权值参数为resnet18在ImageNet上的预训练权重，分别使用两层全连接层构建旋转平移向量预测子网络，其中权重采用均值为“0”，均方差为“0.01”的正态分布进行初始化，偏差采用“0”进行初始化，其中，ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库，resnet18在ImageNet上的所述预训练权重为已知技术，在此不做赘述。

进一步地，利用所述训练数据集训练所述卷积神经网络模型的过程中，通过所述损失函数计算网络损失，每次梯度反向传播使损失下降，直到损失不再下降或者精度达到所述预设阈值时停止训练，优选地，所述预设阈值可以设置为“90％”。

进一步地，所述训练数据集训练搭建的卷积神经网络模型，可以得出多个训练模型，利用所述测试数据集对训练得到的卷积神经网络模型进行测试，以得到最优的卷积神经网络模型作为目标网络模型，其中，所述目标网络模型的响应度最高且训练准确度也最高，通过所述目标网络模型获得商场顾客的所述人脸图像的旋转平移矩阵，进而通过第一预设函数计算旋转偏移矩阵，以通过仿射变换进行姿态估计和人脸校正对齐。优选地，所述第一预设函数为OpenCV的estimateAffinePartial2D函数。

需要说明的是，如图4所示，为人脸图片的2D坐标对应所述人脸关键点的3D模型坐标的点对点示意图，首先将所述旋转矩阵R和所述平移向量T组合为所述旋转平移矩阵，再和所述人脸关键点的3D模型代入所述图像坐标系和所述世界坐标系的转换公式中，计算得到所述人脸图像上人脸的2D关键点坐标，再结合标准所述人脸关键点的2D模型使用OpenCV的estimateAffinePartial2D函数计算二维平面的旋转偏移矩阵，最后使用OpenCV的warpAffine函数进行仿射变换得到对齐的人脸图像，由于所述仿射变换为现有技术，在此不作赘述。

进一步地，于发明一实施例中，还包括通过所述旋转平移矩阵获得人脸姿态欧拉角。

具体地，将所述旋转平移矩阵转换为所述人脸姿态欧拉角的公式如下：

进而得到所述人脸姿态欧拉角的计算公式：

具体地，通过所述人脸姿态欧拉角获得顾客的头部动作变化，所述人脸姿态欧拉角分别为仰俯角ψ、偏航角φ以及滚转角γ，其中，所述仰俯角代表顾客抬头低头的动作变化；所述偏航角代表顾客左右摇头的动作变化；所述滚转角代表顾客转头的动作变化。

请参阅图5，在一实施例中，本实施例提供的一种人脸图像姿态估计和校正系统30，所述系统包括：

收集模块51，用于收集人脸图像数据并标注人脸关键点，计算人脸的旋转平移向量标签，建立训练数据集和测试数据集；

训练模块52，用于设置旋转平移向量损失函数，利用所述训练数据集训练搭建的卷积神经网络模型，直至所述旋转平移向量损失函数计算得到的损失达到预设阈值时停止训练；

选择模块53，用于利用所述测试数据集评估训练得到的卷积神经网络模型，以从中选择一最优的卷积神经网络模型作为目标网络模型；

校正模块54，用于通过所述目标网络模型获得所述人脸图像的旋转平移矩阵，进而通过第一预设函数计算旋转偏移矩阵，以通过仿射变换对齐校正所述人脸图像。

由于本实施例的具体实现方式与前述方法实施例对应，因而于此不再对同样的细节做重复赘述，本领域技术人员也应当理解，图5实施例中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个或多个物理实体上，且这些模块可以全部以软件通过处理元件调用的形式实现，也可以全部以硬件的形式实现，还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。

除此之外，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述车载摄像头多媒体内容侦听检测方法。

除此之外，本发明还提供一种电子设备，详细的，电子设备至少包括通过总线连接的：存储器、处理器，其中，存储器用于存储计算机程序，处理器用于执行存储器存储的计算机程序，以执行前述方法实施例中的全部或部分步骤。

综上所述，本发明直接回归人脸旋转平移向量的任务要比目前依赖人脸关键点定位模型的方法更简单容易，可以降低网络模型的复杂性和参数量，带来计算性能上的提升，同时通过预测人脸图像的旋转平移向量，既可以完成人脸姿态估计，也能用于仿射变换校正对齐人脸图像，去除使用人脸检测器校正对齐方法对后续属性识别和特征提取模块应用不利的影响。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种人脸图像姿态估计和校正方法，其特征在于，包括：

收集人脸图像数据并标注人脸关键点，计算人脸的旋转平移向量标签，建立训练数据集和测试数据集；其中，所述计算人脸的旋转平移向量标签具体包括：获取图像坐标系、世界坐标系与相机坐标系三者之间的相互转换关系；利用第二预设函数求解对应的旋转矩阵与平移向量，并通过第三预设函数将所述旋转矩阵转换为旋转向量，进而得到所述旋转平移向量标签；

设置旋转平移向量损失函数，利用所述训练数据集训练搭建的卷积神经网络模型，直至所述旋转平移向量损失函数计算得到的损失达到预设阈值时停止训练；

利用所述测试数据集评估训练得到的卷积神经网络模型，以从中选择一最优的卷积神经网络模型作为目标网络模型；

通过所述目标网络模型获得所述人脸图像的旋转平移矩阵，进而通过第一预设函数计算旋转偏移矩阵，以通过仿射变换对齐校正所述人脸图像。

2.根据权利要求1所述的人脸图像姿态估计和校正方法，其特征在于，所述人脸关键点包括所述人脸图像上左眼中心、右眼中心、鼻子、左嘴角以及右嘴角五个关键点信息。

3.根据权利要求1所述的人脸图像姿态估计和校正方法，其特征在于，所述旋转平移向量损失函数的公式如下：

4.根据权利要求1所述的人脸图像姿态估计和校正方法，其特征在于，还包括将所述人脸图像缩放成固定尺寸，并减去像素均值归一化到[-1,1]区间。

5.根据权利要求1所述的人脸图像姿态估计和校正方法，其特征在于，还包括通过所述旋转平移矩阵获得人脸姿态欧拉角。

6.根据权利要求1所述的人脸图像姿态估计和校正方法，其特征在于，所述卷积神经网络模型包括resnet18、mobelnet、efficientnet以及shufflenet网络中的至少一种模型。

7.一种人脸图像姿态估计和校正系统，其特征在于，包括：

收集模块，用于收集人脸图像数据并标注人脸关键点，计算人脸的旋转平移向量标签，建立训练数据集和测试数据集；其中，所述计算人脸的旋转平移向量标签具体包括：获取图像坐标系、世界坐标系与相机坐标系三者之间的相互转换关系；利用第二预设函数求解对应的旋转矩阵与平移向量，并通过第三预设函数将所述旋转矩阵转换为旋转向量，进而得到所述旋转平移向量标签；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6任一项所述人脸图像姿态估计和校正方法。

9.一种电子设备，其特征在于，所述电子设备包括：存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行如权利要求1至6中任一项所述人脸图像姿态估计和校正方法。