CN112507848A

CN112507848A - 一种移动端实时人脸姿态估计方法

Info

Publication number: CN112507848A
Application number: CN202011396378.XA
Authority: CN
Inventors: 严安; 周治尹
Original assignee: Shanghai Dianze Intelligent Technology Co ltd; Zhongke Zhiyun Technology Co ltd
Current assignee: Shanghai Dianze Intelligent Technology Co ltd; Zhongke Zhiyun Technology Co ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-16
Anticipated expiration: 2040-12-03
Also published as: CN112507848B

Abstract

本申请提供一种移动端实时人脸姿态估计方法，该方法包括以下步骤：获取待检测图片，对待检测图片进行预处理；检测器加载预训练网络的参数，生成默认锚点；将预处理好的图片放入检测器中进行预测，使用主干网络中最后一个卷积层的特征与锚点相结合的方法进行关键点检测；将检测器得到的人脸框预测值和人脸关键点进行解码操作；采用阈值为0.4的NMS算法消除重叠检测框，得到人脸检测框、人脸关键点；分别计算人脸姿态偏航角(

)、俯仰角(

)和翻滚角(

)。在上述的实现过程中，本申请采用二维图像三个人脸关键点计算人脸的姿态信息，无需通过人脸三维坐标信息，同时避免了当人脸出现遮挡物如口罩等无法计算人脸姿态信息的问题，较神经网络计算量小，实时性高。

Description

一种移动端实时人脸姿态估计方法

技术领域

本发明涉及姿态估计技术领域，尤其涉及一种移动端实时人脸姿态估计方法。

背景技术

人脸姿态估计是通过对一张人脸图像进行分析，获得脸部朝向的角度信息。姿态估计是多姿态问题中较为关键的步骤。一般可以用旋转矩阵、旋转向量、四元数或欧拉角表示。人脸的姿态变化通常包括上下俯仰(pitch)、左右旋转(yaw)以及平面内角度旋转(roll)。因此，姿态估计在多姿态人脸的识别算法中具有巨大的现实意义和实用价值。

目前，人脸姿态估计的方法包括将人脸图像从图像空间映射到姿态空间，该方法的需要获取人脸关键点的三维坐标信息，如中国专利（CN111222469A）所示的人脸姿态量化估计方法，其需要先检测人脸获取不便计算的人脸关键点三维坐标信息从而实现姿态估计；通过神经网络等模型对图像进行机器学习，从而获得姿态信息来进行分类，如中国专利（CN110826402A）所披露的基于多任务的人脸质量估计方法，其使用神经网络训练模型，需要大量的数据且耗时。

发明内容

本发明采用在二维图像上使用三个人脸关键点计算出人脸的姿态信息（偏航角、俯仰角和翻滚角），同时计算量相对于传统的神经网络小，实时性高。为解决上述技术问题，本发明提出一种移动端实时人脸姿态估计方法，包括以下步骤：

步骤S1：获取待检测图片，对待检测图片进行预处理；

步骤S2：检测器加载预训练网络的参数，并根据预先设定好的锚点的尺寸以及长宽比例，生成默认的锚点；所述检测器包括主干网络、预测层和多任务损失层构成；

步骤S3：将预处理好的图片放入所述检测器中进行预测，使用主干网络中最后一个卷积层的特征与锚点相结合的方法进行人脸检测和人脸关键点检测；

步骤S4：将所述检测器得到的人脸框预测值和人脸关键点预测值进行解码操作；

步骤S5：采用阈值为0.4的非极大值抑制算法（NMS算法）消除重叠检测框，得到最终的人脸检测框、人脸关键点，包括检测框的左上角坐标、右下角坐标、两只耳朵坐标和眉心坐标；

步骤S6：根据步骤S5得到的结果分别计算人脸姿态偏航角(

)、俯仰角(

)和翻滚角(

)。

优选地，所述预训练网络的训练过程为：

采集人脸数据组成数据集，所述数据集的目标框比例和设定的锚点比例对应；采用颜色失真、增加亮度对比、随机裁剪和水平翻转等方法增加数据防止模型过拟合；

基于Pytorch开源深度学习库搭建和训练深度神经网络，采用动量为0.9，权重衰减因子为0.0005的梯度随机下降（SGD随机优化算法）进行网络训练；

在所述网络训练的前100轮，初始化学习率设置为

，在之后的50轮和100轮各降低10倍。在训练期间，首先将每个预测值与最佳的Jaccard重叠锚点进行匹配，之后，将锚点匹配到具有高于0.35阈值的Jaccard重叠人脸；

将预处理好的图片放入预训练后的所述检测器中进行预测，将所述主干网络中的最后一个卷积层中的特征输入到预测层进行人脸框、人脸关键点定位等操作。对于每个锚点，使用相对其坐标的4个偏移量以及N个用于分类的分数进行表示，N=2；

在所述检测器训练时针对每个锚点，最小化式多任务损失函数：

其中

为交叉熵损失函数，检测锚点是否包含目标分类；

为锚点有目标的概率，如果锚点包含目标，则

，否则为0；

采用smoth-L1损失函数用于人脸锚点定位，

为预测框的坐标偏移量

为正样本锚点的坐标偏移量；

采用smoth-L1损失函数用于人脸关键点定位，

为预测的关键点偏移量，

为正样本关键点坐标偏移量；

其中

和

分别代表左耳预测关键点坐标偏移量和正样本关键点偏移量，

和

分别代表眉心预测关键点坐标偏移量和正样本关键点偏移量，

和

分别代表右耳预测关键点坐标偏移量和正样本关键点偏移量；

和

分别为人脸框和关键点损失函数的权重系数；锚点根据实际应用场景采用(40, 60, 80,120)来匹配相应的有效感受野。

优选地，所述解码操作过程为：

将所述检测器得到的人脸框预测值

进行解码操作，转化为边界框的真实位置

：

将所述检测器得到的人脸关键点偏移值

，转化为关键点的真实位置

：

其中，

表示生成的锚点。

优选地，所述的偏航角(

)、俯仰角(

)和翻滚角(

)计算过程分别为：

偏航角计算过程为：

;

俯仰角的计算过程为：

;

翻滚角的计算过程为：

;

其中

、

是眉心与两耳连线垂直相交点坐标；

、

是左耳的坐标，

、

是眉心的坐标，

、

为右耳的坐标。

与现有技术相比，本发明的有益效果是：

本发明采用二维图像三个人脸关键点计算人脸的姿态信息（偏航角、俯仰角和翻滚角），无需通过人脸三维坐标信息，同时避免了当人脸出现遮挡物如口罩等无法计算人脸姿态信息的问题，相对于传统的神经网络计算量小，实时性高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的移动端实时人脸姿态估计方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参见图1本申请提供的移动端实时人脸姿态估计方法的流程示意图；一种移动端实时人脸姿态估计方法，包括以下步骤：

步骤S1：获取待检测图片，对待检测图片进行预处理；

步骤S6：计算人脸姿态偏航角(

)、俯仰角(

)和翻滚角(

)。

本申请的提供了预训练网络的训练过程，具体为：

在网络训练的前100轮，初始化学习率设置为

在所述检测器训练时针对每个锚点，最小化多任务损失函数：

其中

为交叉熵损失函数，检测锚点是否包含目标分类；

为锚点有目标的概率，如果锚点包含目标，则

，否则为0；

采用smoth-L1损失函数用于人脸锚点定位，

为预测框的坐标偏移量，

为正样本锚点的坐标偏移量；

采用smoth-L1损失函数用于人脸关键点定位，

为预测的关键点偏移量，

为正样本关键点坐标偏移量；

其中

和

和

和

和

本申请的还提供了解码操作过程，具体为：

将检测器得到的所述人脸框预测值

进行解码操作，转化为边界框的真实位置

：

；

；

将所述检测器得到的所述人脸关键点预测值

，转化为关键点的真实位置

：

其中，

表示生成的锚点。

本申请的人脸姿态偏航角(

)、俯仰角(

)和翻滚角(

)计算过程分别为：

偏航角计算过程为：

；

；

；

俯仰角的计算过程为：

；

；

；

翻滚角的计算过程为：

；

；

其中

、

是眉心与两耳连线垂直相交点坐标；

、

是左耳的坐标，

、

是眉心的坐标，

、

为右耳的坐标。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。