CN111881743A

CN111881743A - 一种基于语义分割的人脸特征点定位方法

Info

Publication number: CN111881743A
Application number: CN202010579916.2A
Authority: CN
Inventors: 张卡; 何佳; 戴亮亮; 尼秀明
Original assignee: Anhui Qingxin Internet Information Technology Co ltd
Current assignee: Anhui Qingxin Internet Information Technology Co ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-11-03
Anticipated expiration: 2040-06-23

Abstract

本发明公开了一种基于语义分割的人脸特征点定位方法，属于人脸识别技术领域，包括：获取待识别的单个人脸局部图像作为预先训练好的深度神经网络模型的输入，该深度神经网络模型包括图像编码器模块网络和图像解码器模块网络；利用图像编码器模块网络获取单个人脸局部图像的高层语义特征图；利用图像解码器模块网络对高层语义特征图进行语义分割，得到人脸特征点位置概率图。本发明采用基于深度学习的图像语义分割技术，综合利用人脸图像的深层语义特征和浅层细节特征来定位人脸特征点，人脸特征点定位更加精准。

Description

一种基于语义分割的人脸特征点定位方法

技术领域

本发明涉及人脸识别技术领域，特别涉及一种基于语义分割的人脸特征点定位方法。

背景技术

人脸特征点定位是指在人脸图像上，通过机器视觉技术精确的定位出脸部的关键特征点位置，关键特征点包括嘴角、眼角、鼻尖等器官位置以及脸部轮廓等位置。人脸特征点定位是人脸识别系统、表情识别系统和人脸属性分析系统等应用领域的技术基础，人脸特征点定位的质量好坏会直接影响到后续工作的可靠性和精准度。

近20年来，人脸特征点定位算法一直是机器视觉领域的研究热点，涌现出很多经典算法，具体算法可以分为以下几类：

(1)基于传统技术的人脸特征点定位算法，该类算法主要基于人脸的统计形状模型方法和级联回归的方法，如经典的算法：ASM、AAM、SDM、LBF等。该类算法的特点是利用人脸器官的几何位置关系，采用统计方法和级联优化的方法获取最终的人脸特征点位置，由于算法提取人脸特征的表达能力有限，并且对人脸特征点之间的形状约束并没有考虑，该类算法的特征点定位精准度误差较大。

(2)基于深度学习的人脸特征点定位算法，近年来，深度学习技术凭借着可以模拟人类大脑神经网络，能够进行精确的非线性预测，各个领域都得到了广泛的关注和应用，出现了一批经典的人脸特征点定位网络框架，如记忆下降法(Mnemonic Descent Method，MDM)、面部地标探测器(A Practical Facial Landmark Detectordensenet，PFLD)，基于深度多任务学习的人脸标志点检测(Facial Landmark Detection by Deep Multi-taskLearning，TCDCN)等。该类算法的特点是利用卷积神经网络模型抓取人脸的深层语义特征，利用这些高层语义特征，或基于多分支任务训练模式，或基于级联多个神经网络模型迭代优化训练模式，获取最终的人脸特征点位置。该类算法相对于传统技术的人脸特征点定位算法，人脸特征点定位精准度有很大的提升，但是特征点定位主要利用的是人脸的深层语义特征，对人脸的浅层语义特征(人脸细节信息)利用较少，导致人脸特征点的定位存在一定的误差。

发明内容

本发明的目的在于克服上述背景技术存在的缺陷，提高人脸特征点定位的精准性。

为实现以上目的，本发明采用一种基于语义分割的人脸特征点定位方法，包括如下步骤：

获取待识别的单个人脸局部图像作为预先训练好的深度神经网络模型的输入，该深度神经网络模型包括图像编码器模块网络和图像解码器模块网络；

利用图像编码器模块网络获取单个人脸局部图像的高层语义特征图；

利用图像解码器模块网络对高层语义特征图进行语义分割，得到人脸特征点位置概率图。

进一步地，所述图像编码器模块网络采用经典的resnet-18网络结构，包括卷积层conv0和四个卷积运算集合体，每个卷积运算集合体内部均设置有不同核尺寸不同跨度的卷积层，所述图像编码器模块网络的输入为大尺寸3通道RGB图像，输出是卷积层conv0得到的语义特征图C0以及四个卷积运算集合体得到的语义特征图C1、C2、C3和C4。

进一步地，所述图像解码器模块网络包括特征点位置概率图预测网络和AUM模块组，AUM模块组包括4倍AUM模块、8倍AUM模块、16倍AUM模块和四个2倍AUM模块，四个2倍AUM模块的输出依次连接，每个AUM模块的输入为高分辨率特征图和低分辨率特征图，输出是高分辨率特征图；

所述特征图C0、C1、C2和C3分别输入至四个2倍AUM模块，所述特征图C4经卷积运算得到的特征图D0作为首个2倍AUM模块的输入，首个2倍AUM模块的输出为特征图D1，剩下三个2倍AUM模块输出的特征图依次为D2、D3、D43，特征图D0、D1、D2分别作为16倍AUM模块、8倍AUM模块、4倍AUM模块的输入，16倍AUM模块、8倍AUM模块、4倍AUM模块的输出分别是特征图D40、D41和D42，特征图D40、D41、D42和D43拼接得到的特征图D4作为所述特征点位置概率图预测网络的输入，所述特征点位置概率图预测网络的输出为所述人脸特征点位置概率图。

进一步地，所述AUM模块包括上采样层upsample、卷积层conv1、拼接层concat1、卷积运算层conv-warp、上采样运算层warp和sum层；

卷积层conv1的输入为所述高分辨率特征图，上采样层upsample的输入为所述低分辨率特征图，卷积层conv1和上采样层upsample的输出均与拼接层concat1的输入连接，拼接层concat1的输出与卷积运算层conv-warp输入连接，卷积运算层conv-warp的输出和低分辨率特征图均作为上采样运算层warp的输入，所述高分辨率特征图和上采样运算层warp的输出均作为sum层的输入，sum层的输出为所述人脸特征点位置概率图；

其中，拼接层concat1用于按通道维度拼接两个输入特征图得到的拼接特征图，卷积运算层conv-warp用于将拼接特征图转换得到上采样位置变换映射图，上采样运算层warp用于根据上采样位置变换映射图完成上采样运算，sum层用于实现两个输入特征图逐像素相加。

进一步地，所述上采样运算层warp用于根据上采样位置变换映射图完成上采样运算，包括：

依据所述上采样位置变换映射图，获取所述高分辨率特征图上的点在所述低分辨率特征图上的对应位置；

获取所述低分辨率特征图上的对应位置周围4个最近位置点的值；

根据该4个最近位置点的值，计算得到所述低分辨率特征图上点的值，计算公式为：

其中，(x,y)表示所述高分辨率特征图在所述低分辨率特征图上的对应位置的点坐标，(x₁,y₁)、(x₂,y₁)、(x₁,y₂)、(x₂,y₂)表示在低分辨率图上距离点(x,y)最近的四个已知值的点坐标。

进一步地，所述特征点位置概率图预测网络包括卷积层conv_predict_1和卷积层conv_predict_2，卷积层conv_predict_1的输入为所述特征图D4，输出与卷积层conv_predict_2连接，卷积层conv_predict_2的输出为所述人脸特征点位置概率图。

进一步地，所述预先训练好的深度神经网络模型的训练步骤包括：

获取训练样本图像集，集合中的每个单个人脸局部图像样本上标注有特征点的位置；

根据每个单个人脸局部图像样本上标注有特征点的位置，得到特征点位置概率标注图：

其中，(x,y)是指人脸图像上某个特征点周围点的坐标，G(x,y)表示(x,y)处像素点对应的概率值，(u,v)是指人脸图像上某个特征点的坐标，σ是高斯分布标准差，π是圆周率；

设置所述图像编码器模块网络的目标损失函数和所述图像解码器模块网络的目标损失函数；

将每个单个人脸局部图像样本作为所述深度神经网络模型的输入，将特征点位置概率标注图作为所述深度神经网络模型的输出，以对所述深度神经网络模型进行训练，得到所述预先训练好的深度神经网络模型。

进一步地，所述图像编码器模块网络的目标损失函数采用二分类交叉熵损失函数，所述图像解码器模块网络的目标损失函数采用均方差损失函数。

进一步地，所述图像编码器模块网络还包括辅助网络aux-net，辅助网络aux-net的输入与所述resnet-18网络结构中的最后一个卷积运算集合体中的卷积层输出连接，输出为利用回归分析运算得到的单个人脸局部图像样本的特征点位置；辅助网络aux-net包括全局均值池化层和全连接层。

进一步地，在所述利用图像解码器模块网络对高层语义特征图进行语义分割，得到人脸特征点位置概率图之后，还包括：

在所述人脸特征点位置概率图上选择可信度大于可信度阈值的所有特征点作为候选特征点；

取候选特征点的平均位置作为最终识别的特征点位置。

与现有技术相比，本发明存在以下技术效果：本发明采用基于深度学习的图像语义分割技术，使用分类运算代替回归运算来定位人脸特征点，综合利用人脸图像的深层语义特征和浅层细节特征来定位人脸特征点，并采用新设计的AUM模块，自适应的完成深层语义特征的上采样操作，人脸图像细节信息和人脸语义信息结合的更加完美，人脸特征点定位更加精准，鲁棒性更高。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种基于语义分割的人脸特征点定位方法的流程图；

图2是本发明整体设计流程图；

图3是深度神经网络模型的结构图，其中AUM(x)括号里的值表示该AUM模块对输入特征图分辨率的放大倍数；

图4是AUM模块的结构图；

图5是人脸特征点位置概率标注图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1所示，本实施例公开了一种基于语义分割的人脸特征点定位方法，包括如下步骤S1至S3：

S1、获取待识别的单个人脸局部图像作为预先训练好的深度神经网络模型的输入，该深度神经网络模型包括图像编码器模块网络和图像解码器模块网络；

S2、利用图像编码器模块网络获取单个人脸局部图像的高层语义特征图；

S3、利用图像解码器模块网络对高层语义特征图进行语义分割，得到人脸特征点位置概率图。

需要说明的是，本实施例是在已经获取单个人脸局部图像的前提下进行的，为了方便说明，本发明采用5个人脸特征点进行叙述(本发明不局限于5个点)，5个人脸特征点分别是：左眼睛中心点、右眼睛中心点、鼻尖点、左嘴角点、右嘴角点。

在上述对待识别的单个人脸局部图像进行特征点定位之前，还需对深度神经网络模型进行构建及训练，然后利用训练好的深度神经网络模型进行人脸特征点识别，如图2所示，以构建用于识别5个人脸特征点的深度神经网络模型为例：

1)设计深度神经网络模型：

本发明设计的深度神经网络模型，主要作用是借助一个精心设计的深度神经网络模型，提取人脸图像的深层语义特征和浅层细节特征，综合利用提取的语义特征和细节特征，精准的计算出人脸特征点位置。本发明设计的深度神经网络模型包括图像编码器模块encoder和图像解码器模块decoder。本发明采用的是卷积神经网络(CNN)，为了方便叙述本发明，定义一些术语：特征图分辨率指的是特征图高度×特征图宽度，特征图尺寸指的是特征图高度×特征图宽度×特征图通道数，核尺寸指的是核宽度×核高度，跨度指的是宽度方向跨度×高度方向跨度，另外，每一个卷积层后面均带有批量归一化层和非线性激活层。该深度神经网络模型的具体设计步骤如下：

1-1)设计深度神经网络模型的输入图像：

本发明所采用的输入图像是尺寸为224×224的3通道RGB图像，输入图像尺寸越大，其包含的细节越多，越有利于精确定位人脸特征点。

1-2)设计图像编码器模块网络：

图像编码器模块网络主要用于快速提取输入人脸图像的高层语义特征，高层语义特征提取的质量直接影响后续人脸特征点定位的准确度。由于本发明采用的输入图像尺寸较大，不利于深度神经网络模型的快速运行，因此，需要一种能够快速提取输入人脸图像特征的高效网络。

如图3中的encoder模块所示，本发明采用经典的resnet-18网络结构作为图像编码器模块网络，其中，conv0是一个核尺寸是7×7，跨度是2×2的卷积层，这种大核尺寸大跨度卷积操作可以快速降低特征图分辨率，大大降低后续操作的运算量，同时保留更多图像细节，其输出特征图C0的特征图尺寸是112x112x64；stage1、stage2、stage3、stage4分别是resnet-18的4个阶段的卷积运算集合体，每一个stage内部的卷积层均是核尺寸是3×3的卷积层，除了第一个卷积层的跨度是2×2外，其余卷积层的跨度均是1×1，C1、C2、C3、C4分别表示不同运算阶段的输出特征图，其中，C1的特征图尺寸是56x56x64，C2的特征图尺寸是28x28x128，C3的特征图尺寸是14x14x256，C4的特征图尺寸是7x7x512。为了增加图像编码器模块的特征提取能力，本发明设计了一个只在训练阶段起作用的辅助网络aux-net，该辅助网络通过回归分析运算获取人脸的5个特征点位置，其网络结构包括一个全局均值池化层ave-pool和一个输出是10维的全连接层fc。

1-3)设计图像解码器模块网络：

图像解码器模块网络主要依据图像编码器模块提取的高层语义特征和本发明设计的AUM(Adaptive Upsample Module)模块，对输入人脸图像进行综合的语义分割，获取人脸特征点位置概率图。如图3的decoder模块所示，图像解码器模块由特征点位置概率图预测网络和AUM模块组构成，AUM模块组包括4倍AUM模块、8倍AUM模块、16倍AUM模块和四个2倍AUM模块。其中，每个AUM模块有两个输入特征图，分别是高分辨率特征图和低分辨率特征图，其输出特征图是一个高分辨率特征图，因此，AUM模块完成了由低分率特征图到高分辨率特征图的分辨率放大变换。D0特征图是由步骤1-2)中C4特征图通过一个核尺寸为1x1，跨度为1x1的卷积层运算获取的，其特征图尺寸是7x7x256。D1、D2、D3、D43、D42、D41、D40分别是AUM模块运算后的输出特征图，其中，D1的特征图尺寸是14x14x128，D2的特征图尺寸是28x28x64，D3的特征图尺寸是56x56x32，D43、D42、D41、D40的特征图尺寸均是112x112x32，D43、D42、D41、D40这4个特征图按照通道维度进行拼接，形成D4特征图，D4的特征图尺寸是112x112x128。AUM模块的这种分辨率放大变换功能和常规上采样运算类似，常规的上采样运算指的是采用双线性插值算法或者简单的对应填充算法进行图像分辨率放大运算。然而，常规上采样运算的缺点是采用固定的位置对应关系进行运算，而由图像编码器模块网络获取的特征图之间的位置对应关系并不是固定的，此时采用常规上采样运算，上采样图会存在一定的位置误差，导致最终的人脸特征点定位出现偏差。

其中，AUM模块的具体结构如图4所示，upsample层是常规上采样层；conv1是一个核尺寸为1x1，跨度为1x1的卷积层，主要用来调整输入特征图的通道数；concat1层用来按通道维度拼接两个输入特征图；conv-warp层是一个核尺寸为3x3，跨度为1x1的卷积运算层，其作用是生成上采样位置变换映射图；warp层主要根据上采样位置变换映射图完成精准的上采样运算，具体运算过程如下：首先，高分辨率特征图上的点依据上采样位置变换映射图，获取在低分辨率图上的对应位置，然后在低分辨率图上获取此位置周围4个最近位置点的值，最后通过公式计算的结果就是高分辨率特征图上点的值；sum层实现两个输入特征图逐像素相加，公式如下：

其中，(x,y)表示高分辨率图在低分辨率图上的对应位置的点坐标，(x₁,y₁)、(x₂,y₁)、(x₁,y₂)、(x₂,y₂)表示在低分辨率图上距离点(x,y)最近的四个已知值的点坐标，*表示乘号。

特征点位置概率图预测网络包括：一个核尺寸为3x3，跨度为1x1的卷积层conv_predict_1；一个核尺寸为1x1，跨度为1x1的卷积层conv_predict_2，conv_predict_2输出的特征图就是特征点位置概率图，其特征图尺寸是112x112x5，其中，5表示输出5张特征图，每一张输出特征图对应一个特征点的位置概率图。

2)训练深度神经网络模型：

主要是通过大量的标注好的训练样本数据，优化深度神经网络模型参数，使得深度神经网络模型能够精确定位出人脸特征点位置，具体的步骤如下：

2-1)获取训练样本图像，主要是收集各种场景，各种光线、各种角度下的人脸图像，通过现有的人脸检测算法，获取每个人脸的局部区域图像，然后在每张人脸局部图像上标注5个特征点的位置，并记录特征点位置信息，如图5(a)所示；

2-2)生成特征点位置概率标注图，基于步骤2-1)获取的人脸5个特征点，按照如下公式，在每个特征点周围计算各个点可能是特征点的概率分布，距离标注特征点越近的点，其概率越大，如图5(b)所示：

其中，(x,y)是指人脸图像上某个特征点周围点的坐标，G(x,y)表示(x,y)处像素点对应的概率值，(u,v)是指人脸图像上某个特征点的坐标，σ是高斯分布标准差，π是圆周率。

2-3)设计深度神经网络模型的目标损失函数，图像解码器模块网络的目标损失函数采用的是二分类交叉熵损失函数，图像编码器模块网络的辅助网络采用的均方差(MSE)损失函数。

2-4)训练深度神经网络模型，主要是把标注好的人脸样本图像集合送入定义好的深度神经网络模型，学习相关的模型参数。

3)使用深度神经网络模型，对于任意给出的一个人脸图像，经过深度神经网络模型前向运算后，输出特征点位置概率图。其中，概率图表示图像上某个位置点成为特征点的可信度，选择可信度大于0.8的所有候选特征点，取其平均位置作为最终的特征点位置。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义分割的人脸特征点定位方法，其特征在于，包括：

2.如权利要求1所述的基于语义分割的人脸特征点定位方法，其特征在于，所述图像编码器模块网络采用经典的resnet-18网络结构，包括卷积层conv0和四个卷积运算集合体，每个卷积运算集合体内部均设置有不同核尺寸不同跨度的卷积层，所述图像编码器模块网络的输入为大尺寸3通道RGB图像，输出是卷积层conv0得到的语义特征图C0以及四个卷积运算集合体得到的语义特征图C1、C2、C3和C4。

3.如权利要求2所述的基于语义分割的人脸特征点定位方法，其特征在于，所述图像解码器模块网络包括特征点位置概率图预测网络和AUM模块组，AUM模块组包括4倍AUM模块、8倍AUM模块、16倍AUM模块和四个2倍AUM模块，四个2倍AUM模块的输出依次连接，每个AUM模块的输入为高分辨率特征图和低分辨率特征图，输出是高分辨率特征图；

4.如权利要求3所述的基于语义分割的人脸特征点定位方法，其特征在于，所述AUM模块包括上采样层upsample、卷积层conv1、拼接层concat1、卷积运算层conv-warp、上采样运算层warp和sum层；

5.如权利要求4所述的基于语义分割的人脸特征点定位方法，其特征在于，所述上采样运算层warp用于根据上采样位置变换映射图完成上采样运算，包括：

6.如权利要求3所述的基于语义分割的人脸特征点定位方法，其特征在于，所述特征点位置概率图预测网络包括卷积层conv_predict_1和卷积层conv_predict_2，卷积层conv_predict_1的输入为所述特征图D4，输出与卷积层conv_predict_2连接，卷积层conv_predict_2的输出为所述人脸特征点位置概率图。

7.如权利要求1～6任一项所述的基于语义分割的人脸特征点定位方法，其特征在于，所述预先训练好的深度神经网络模型的训练步骤包括：

8.如权利要求7所述的基于语义分割的人脸特征点定位方法，其特征在于，所述图像编码器模块网络的目标损失函数采用二分类交叉熵损失函数，所述图像解码器模块网络的目标损失函数采用均方差损失函数。

9.如权利要求8所述的基于语义分割的人脸特征点定位方法，其特征在于，所述图像编码器模块网络还包括辅助网络aux-net，辅助网络aux-net的输入与所述resnet-18网络结构中的最后一个卷积运算集合体中的卷积层输出连接，输出为利用回归分析运算得到的单个人脸局部图像样本的特征点位置；辅助网络aux-net包括全局均值池化层和全连接层。

10.如权利要求7所述的基于语义分割的人脸特征点定位方法，其特征在于，在所述利用图像解码器模块网络对高层语义特征图进行语义分割，得到人脸特征点位置概率图之后，还包括：

取候选特征点的平均位置作为最终识别的特征点位置。