CN115205926A

CN115205926A - 一种基于多任务学习的轻量化鲁棒人脸对齐方法及系统

Info

Publication number: CN115205926A
Application number: CN202210675385.6A
Authority: CN
Inventors: 凌强; 代淇源; 陈瑞
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-10-18

Abstract

本发明涉及一种基于多任务学习的轻量化鲁棒人脸对齐方法及系统，其方法包括：S1：收集人脸图像，并对人脸图像进行平移、缩放和旋转的预处理，得到训练集；S2：获取训练集中人脸图像的人脸关键点L；使用姿态估计算法标注训练集中人脸图像的3D头部姿态欧拉角Θ，并将3D头部姿态欧拉角Θ转换为头部姿态旋转矩阵R^Θ；S3：将训练集输入人脸对齐网络，输出人脸关键点预测值P和头部姿态旋转矩阵的预测值R^Φ，分别构建头部姿态损失函数、人脸关键点损失函数和总损失函数，用于训练人脸对齐网络。本发明提供的方法,使用轻量化模型同时对齐人脸关键点和头部姿态，并使用头部姿态对齐任务来辅助人脸关键点的定位，增强轻量化模型的对大姿态人脸的鲁棒性。

Description

一种基于多任务学习的轻量化鲁棒人脸对齐方法及系统

技术领域

本发明涉及图像处理领域，具体涉及一种基于多任务学习的轻量化鲁棒人脸对齐方法及系统。

背景技术

人脸对齐又称人脸关键点定位，其目的是从一张人脸图像中定位一组预定义的人脸关键标记点(分布于面部轮廓、左/右眼睛、左/右眉毛、鼻子和上/下嘴唇等区域)的精确位置。人脸对齐是人脸识别、表情分析、人脸特效和疲劳检测等任务的基础，旨在为后续任务提供更丰富的人脸信息，其检测准确度对后续任务起着至关重要的作用。但对大角度头部姿态、夸张表情和存在遮挡等极端情况的人脸实现对齐仍是极大的挑战。

目前人脸对齐方法主要分为机器学习方法和深度学习方法两大类。例如级联回归树等机器学习方法已具有较高的检测精度，且具有极高的计算效率，在嵌入式系统中被广泛应用。但这类方法过于依赖统计模型，对各种极端情况的人脸检测效果差，因而其应用局限于正视人脸识别等简单场景。

基于深度学习的方法主要使用卷积神经网络(CNN)模型，具体的检测方法可分为直接回归方法和热力图预测方法。直接回归方法在CNN后直接使用全连接层回归所有关键点在原图中的横纵坐标，计算效率高但对人脸的位置分布敏感；热力图预测方法使用特定的CNN结构输出高分辨率的特征图，再为每一个关键点单独预测其平面分布响应图，取响应最高的位置作为每个关键点的预测坐标，这种方法具有极高的检测精度，但高分辨率特征图的计算具有极高的内存和运算量的消耗，无法作为其他人脸任务的前置环节实现工程应用。

对于3D人脸特效和3D人脸重建等应用场景，使用人脸关键点检测或头部姿态估计作为前置环节能减少使用生成模型的计算开销。现有的方法常使用人脸关键点与一组预定义的3D关键点计算投影关系，以估计头部姿态，或使用独立的头部姿态检测算法单独获取人脸图像的头部姿态，人脸关键点检测和头部姿态估计作为两个步骤完成，忽略了两者具有的强关联性。因此，如何在单一模型实现人脸关键点对齐和头部姿态对齐成为一个亟待解决的问题。

发明内容

为了解决上述技术问题，本发明提供一种基于多任务学习的轻量化鲁棒人脸对齐方法及系统。

本发明技术解决方案为：一种基于多任务学习的轻量化鲁棒人脸对齐方法，包括：

步骤S1：收集人脸图像，并对所述人脸图像进行平移、缩放和旋转的预处理，扩充样本，构建训练集；

步骤S2：标注所述训练集中人脸图像的人脸关键点L；使用姿态估计算法标注所述训练集中人脸图像的3D头部姿态欧拉角Θ，并将所述3D头部姿态欧拉角Θ转换为头部姿态旋转矩阵R^Θ；

步骤S3：将所述训练集输入人脸对齐网络，输出人脸关键点预测值P和头部姿态旋转矩阵的预测值R^Φ，分别构建头部姿态损失函数、人脸关键点损失函数和总损失函数，用于训练所述人脸对齐网络。

本发明与现有技术相比，具有以下优点：

1、人脸关键点对齐和头部姿态对齐属于两个细分技术领域，但实际应用中两者往往同时出现。头部姿态对齐方法通常独立于人脸关键点对齐方法，或依托于人脸关键点对齐方法的结果进行线性估计。本发明采用深度学习方法，以两者的线性关联作为基础，使用两个全连接层直接从同一模型的多尺度特征上对齐人脸关键点和头部姿态，增强了人脸对齐方法的实用性。

2、轻量化卷积网络模型的参数量远小于常规卷积网络，使其能够应用于嵌入式设备，但鲁棒性较差。本发明从多任务学习的角度出发，通过训练模型的头部姿态对齐，保证模型能够学习到潜在的面部整体特征，根据两个全连接层之间的非可逆线性约束辅助人脸关键点对齐的训练，由头部姿态引导面部关键点整体形变的一致性，保证模型在面部遮挡和大角度头部姿态情况下的人脸关键点对齐鲁棒性，提升了轻量级人脸对齐模型的可靠性。

附图说明

图1为本发明实施例中一种基于多任务学习的轻量化鲁棒人脸对齐方法的流程图；

图2为本发明实施例中人脸对齐网络结构示意图；

图3为本发明实施例中人脸关键点和头部姿态的检测结果示意图；

图4为本发明实施例中一种基于多任务学习的轻量化鲁棒人脸对齐系统的结构框图。

具体实施方式

本发明提供了一种基于多任务学习的轻量化鲁棒人脸对齐方法，使用轻量化模型同时对齐人脸关键点和头部姿态，并使用头部姿态对齐任务来辅助人脸关键点的定位，增强轻量化模型的对大姿态人脸的鲁棒性。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于多任务学习的轻量化鲁棒人脸对齐方法，包括下述步骤：

步骤S1：收集人脸图像，并对人脸图像进行平移、缩放和旋转的预处理，扩充样本，构建训练集；

步骤S2：获取训练集中人脸图像的人脸关键点L；使用姿态估计算法标注训练集中人脸图像的3D头部姿态欧拉角Θ，并将3D头部姿态欧拉角Θ转换为头部姿态旋转矩阵R^Θ；

步骤S3：将训练集输入人脸对齐网络，输出人脸关键点预测值P和头部姿态旋转矩阵的预测值R^Φ，分别构建头部姿态损失函数、人脸关键点损失函数和总损失函数，用于训练人脸对齐网络。

在一个实施例中，上述步骤S1：收集人脸图像，并对人脸图像进行平移、缩放和旋转的预处理，扩充样本，构建训练集；

本发明实施例使用两个公开数据集300W(300 Faces in the Wild)和300VW(300Videos in the Wild)作为人脸图像样本，两个数据集中每个人脸图像样本都包含68个人脸关键点的标注。通过对人脸图像样本的数据扩充，包括：0.8至1.25倍以内的尺度缩放、±10像素以内的平移、±30°以内的旋转，以及随机亮度和饱和度的调整，将调整后的人脸图像构建训练集，用于训练人脸对齐网络。

本发明实施例所用训练集中每个人脸图像已经包含68个关键点的标注，所以可以直接获取这些关键点的坐标值L。但是，人工标注人脸图像的头部姿态角较为困难，本发明实施例采用已有的高精度姿态检测算法进行人脸图像的头部姿态估计，并将其作为标注标签。

在一个实施例中，上述步骤S2中使用姿态估计算法标注训练集中人脸图像的3D头部姿态欧拉角Θ，并将3D头部姿态欧拉角Θ转换为头部姿态旋转矩阵R^Θ，具体包括：

将人脸图像输入姿态估计算法，得到3D头部姿态欧拉角Θ，Θ包括：俯仰角α、偏航角β和滚转角Y，根据下述公式(1)～(4)，计算得到头部姿态旋转矩阵R^Θ：

R^Θ＝R_z*R_y*R_x (4)。

本发明实施例采用基于ResNet50的高精度头部姿态检测算法HopeNet对人脸图像的头部姿态进行估计。首先将样本集统一缩放至224×224像素尺寸后，输入HopeNet获取对应的俯仰角α、偏航角β和滚转角γ三个头部姿态欧拉角Θ，再转换为头部姿态旋转矩阵R^Θ。

在一个实施例中，上述步骤S3：将训练集输入人脸对齐网络，输出人脸关键点预测值P和头部姿态旋转矩阵的预测值R^Φ，分别构建头部姿态损失函数、人脸关键点损失函数和总损失函数，用于训练人脸对齐网络，具体包括：

如图2所示，为本发明实施例构建的人脸对齐网络，将人脸图像缩小至112×112像素作为轻量化人脸对齐网络的输入，以减少运算开销。本发明对轻量化卷积网络MobileNetV3-small进行修改，移除第一个卷积下采样模块中的下采样操作，以对应更低分辨率的图像输入，保持后续计算特征图的尺寸一致；并将特征提取网络最后一层输出通道数为576的1×1卷积修改为输出通道数为144的7×7卷积，以获取全局特征。选择最后三个尺度的特征，对应空间通道尺寸为14×14×48、7×7×96和1×1×144，将三个特征进行全局池化，获得尺寸为1×1×48、1×1×96和1×1×144的三个特征，再拼接为1×1×288的输出特征，最后使用两个全连接层，分别预测68个人脸关键点的横纵坐标P和包含9个参数的头部姿态旋转矩阵R^Φ。

本发明所构建的人脸对齐网络在轻量化卷积网络的基础上，修改原有的网络输出结构，大多数轻量化卷积网络具有多级卷积与下采样的结构，人脸对齐网络只使用最后三个下采样尺度对应的卷积模块输出特征图，将这些特征图进行全局池化操作后拼接，使用两个全连接层进行预测。人脸对齐网络可从多个尺度的特征进行预测，充分利用不同分辨率尺度下的全局与局部特征。全局特征有利于学习人脸整体信息，用于预测头部姿态；在整体信息的基础上引入局部特征信息，从而精确预测每个人脸关键点的位置。

同时，本发明分别构建头部姿态损失函数、人脸关键点损失函数和总损失函数用于训练人脸对齐网络，具体包括：

步骤S31：基于头部姿态旋转矩阵R^Θ，构建头部姿态损失函数loss_pose，如公式(5)所示：

loss_pose＝||R^Φ-R^Θ||₁ (5)

其中，R^Φ为人脸对齐网络预测的头部姿态旋转矩阵；||·||₁为L1范数运算符；

步骤S32：基于3D头部姿态欧拉角Θ和标注的人脸关键点L，构建人脸关键点损失函数loss_points，如公式(6)所示：

其中，K为头部姿态欧拉角的个数，即K＝3；σ为姿态权重调节参数，本发明实施例中σ＝0.1，N为预定义人脸关键点的个数；P_j为人脸对齐网络预测的第j个人脸关键点平面坐标值；L_j为真实的第j个人脸关键点平面坐标值；

步骤S33：构建总损失函数loss_total，如公式(7)所示，用于训练人脸对齐网络：

loss_total＝loss_pose+loss_points (7)

本发明实施例的人脸对齐网络的训练采用多任务学习方式，输入一批人脸图像，同步训练对应的68个人脸关键点和头部姿态旋转矩阵的预测结果。人脸对齐网络学习头部姿态信息能够辅助人脸关键点的定位，尤其是大角度姿态的人脸图像，头部姿态对应的特征参数可直接确定人脸关键点的大致形变状态。实际上，由于人脸的相似性，任意人脸图像的平面关键点可由一组不变的预定义3D关键点，按照投影变换线性地近似对齐，因而本发明的人脸对齐网络采用两个全连接层分别预测人脸关键点和姿态旋转矩阵，保证两者所需特征具有强耦合性。预测头部姿态的特征可以线性地预测大致的平面关键点，再由多尺度的局部特征对关键点进行个体差异化调整。

在实际训练的计算中，按照loss_pose和loss_points分别构建头部姿态旋转矩阵和人脸关键点的损失函数，通过最小化总损失函数loss_total完成人脸对齐网络的参数训练。

本发明实施例使用上述的300W和300VW数据集作为训练集训练人脸对齐网络，在WFLW数据集的人脸样本对训练好的人脸对齐网络进行了测试，部分人脸关键点和头部姿态的检测结果如图3所示。可以看出，本发明所提出的人脸对齐网络在大角度姿态、夸张表情、面部遮挡以及图像模糊等情况下，人脸关键点对齐和头部姿态对齐均具有较高的检测精度，对复杂环境下的人脸对齐具有良好的鲁棒性。

本发明提供了一种基于多任务学习的轻量化鲁棒人脸对齐方法，用于实现轻量化卷积网络对人脸图像的强鲁棒性人脸对齐，包括人脸关键点对齐和头部姿态对齐。针对轻量化卷积网络模型的多任务输出结构进行改进，把将最后一层特征直接池化作为输出特征向量，再使用全连接层进行预测的结构，改为对多个尺度的中间层特征及最后一层输出特征分别进行池化，将各个尺度的特征拼接作为输出特征向量，再连接两个全连接层分别预测人脸关键点和头部姿态的输出，以构建多任务人脸对齐网络。该网络结构同时利用高分辨率浅层特征的局部细节信息和低分辨率深层特征的面部整体信息，有助于维持深度神经网络对局部人脸关键点和整体面部朝向预测的空间一致性。

同时，将人脸关键点的平面坐标值和头部姿态旋转矩阵作为两个全连接层的预测值，而非直接预测头部姿态相对于相机坐标系的3D欧拉角。根据相机坐标系到图像坐标系的线性投影关系，两个线性全连接层保证了平面关键点与头部姿态旋转矩阵的部分线性关系，强约束关系使人脸对齐网络能够更为准确地识别大角度头部姿态下的人脸关键点。

实施例二

如图4所示，本发明实施例提供了一种基于多任务学习的轻量化鲁棒人脸对齐系统，包括下述模块：

构建训练集模块41，用于收集人脸图像，并对人脸图像进行平移、缩放和旋转的预处理，扩充样本，构建训练集；

标注人脸关键点和头部姿态模块42，用于标注训练集中人脸图像的人脸关键点L；使用姿态估计算法标注训练集中人脸图像的3D头部姿态欧拉角Θ，并将3D头部姿态欧拉角Θ转换为头部姿态旋转矩阵R^Θ；

训练人脸对齐网络模块43，用于将训练集输入人脸对齐网络，输出人脸关键点预测值P和头部姿态旋转矩阵的预测值R^Φ，分别构建头部姿态损失函数和人脸关键点损失函数，用于训练人脸对齐网络。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于多任务学习的轻量化鲁棒人脸对齐方法，其特征在于，包括：

步骤S2：获取所述训练集中人脸图像的人脸关键点L；使用姿态估计算法标注所述训练集中人脸图像的3D头部姿态欧拉角Θ，并将所述3D头部姿态欧拉角Θ转换为头部姿态旋转矩阵R^Θ；

2.根据权利要求1所述的基于多任务学习的轻量化鲁棒人脸对齐方法，其特征在于，所述步骤S2中使用姿态估计算法标注所述训练集中人脸图像的3D头部姿态欧拉角Θ，并将所述3D头部姿态欧拉角Θ转换为头部姿态旋转矩阵R^Θ，具体包括：

将所述人脸图像输入所述姿态估计算法，得到3D头部姿态欧拉角Θ，Θ包括：俯仰角α、偏航角β和滚转角γ，根据下述公式(1)～(4)，计算得到头部姿态旋转矩阵R^Θ：

R^Θ＝R_z*R_y*R_x (4)。

3.根据权利要求2所述的基于多任务学习的轻量化鲁棒人脸对齐方法，其特征在于，所述步骤S3中分别构建头部姿态损失函数、人脸关键点损失函数和总损失函数，具体包括：

loss_pose＝||R^Φ-R^Θ||₁ (5)

其中，R^Φ为所述人脸对齐网络预测的头部姿态旋转矩阵；||·||₁为L1范数运算符；

其中，K为头部姿态欧拉角的个数，即K＝3；σ为姿态权重调节参数，N为预定义人脸关键点的个数；P_j为所述人脸对齐网络预测的第j个人脸关键点平面坐标值；L_j为真实的第i个人脸关键点平面坐标值；

步骤S33：构建总损失函数loss_total，如公式(7)所示，用于训练所述人脸对齐网络：

loss_total＝loss_pose+loss_points (7)。

4.一种基于多任务学习的轻量化鲁棒人脸对齐系统，其特征在于，包括下述模块：

构建训练集模块，用于收集人脸图像，并对所述人脸图像进行平移、缩放和旋转的预处理，扩充样本，构建训练集；

标注人脸关键点和头部姿态模块，用于标注所述训练集中人脸图像的人脸关键点L；使用姿态估计算法标注所述训练集中人脸图像的3D头部姿态欧拉角Θ，并将所述3D头部姿态欧拉角Θ转换为头部姿态旋转矩阵R^Θ；

训练人脸对齐网络模块，用于将所述训练集输入人脸对齐网络，输出人脸关键点预测值P和头部姿态旋转矩阵的预测值R^Φ，分别构建头部姿态损失函数和人脸关键点损失函数，用于训练所述人脸对齐网络。