CN106599830B

CN106599830B - 人脸关键点定位方法及装置

Info

Publication number: CN106599830B
Application number: CN201611135718.7A
Authority: CN
Inventors: 孙哲南; 赫然; 谭铁牛; 李琦; 曹冬; 宋凌霄
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2020-03-17
Anticipated expiration: 2036-12-09
Also published as: CN106599830A

Abstract

本发明公开了一种人脸关键点定位方法及装置。该方法包括：通过多任务卷积神经网络进行粗定位，确定人脸关键点大体位置；然后在关键点周围提取局部区域，通过全局级联卷积神经网络把关键点周围提取局部区域融合到一起，进行级联定位；最后在针对每个关键点单独训练卷积神经网络进行精细定位。本发明所用神经网络总体数目较少，定位效果相对较好。

Description

人脸关键点定位方法及装置

技术领域

本发明涉及数字图像处理，计算机视觉等技术领域，具体涉及一种基于全局卷积神经网络人脸关键点定位方法及装置。

背景技术

关键点定位(检测)在计算机视觉中是一个重要的问题，指的是定位人脸中有语义结构信息的一些关键部位，如眼睛，鼻子和嘴巴等，是有监督人脸对齐中的一个重要的步骤。关键点定位也有很多实际的应用，比如说人脸识别、人脸表情分析、人机交互应用等。由于头部姿态、人脸表情以及光照的变化，关键点定位依然是一个十分有挑战性的问题。传统的基于卷积神经网络的关键点检测算法先用一个整体神经网络定位关键点，之后把每个关键点单独隔离出来定位。虽然传统的方法定位精度较高，但是忽略了人脸形状的全局信息，对光照变化、遮挡等不够鲁棒，时间复杂度偏高，很难应用在大规模场景下的精准关键点定位。

发明内容

为了解决现有技术不足，本发明的目的是提供一种基于全局卷积神经网络的关键点定位方法，该方法利用了人脸整体形状信息，把关键点之间位置顺序关系作为约束，加入到卷积神经网络之中，提高了关键点定位的鲁棒性。另外，为了克服大姿态对于人脸定位影响，本发明在第一阶段用多任务卷积神经网络定位关键点，同时考虑姿态估计和关键点定位，提升了在大姿态场景下的关键点定位精度。最后在每个关键点周围提取局部区域，训练精细关键点定位模型。综上所述，相比其他方法，本发明用三阶段卷积神经网络进行关键点定位，对于姿态、遮挡和光照等比较鲁棒，可以更加精准的定位人脸关键点。

根据本发明一方面，提供了一种人脸关键点定位方法，包括如下步骤：

将待检测人脸图像缩放到第一指定分辨率，形成第一缩放待检测人脸图像；

将所述第一缩放待检测人脸图像输入至第一阶段多任务关键点定位模型中，得到第一关键点定位坐标和第一头部姿态估计值；

将所述待检测人脸图像缩放到第二指定分辨率，得到第二缩放待检测人脸图像，所述第二指定分辨率大于第一指定分辨率；

以缩放后的第二缩放待检测人脸图像中的第一关键点定位坐标为中心，提取周围第一预定大小的第一局部区域图像；

将所述第一局部区域图像输入至第二阶段关键点校准模型中，得到第二关键点定位坐标；

将所述待检测人脸图像缩放至第三指定分辨率，得到第三缩放待检测人脸图像，第三指定分辨率大于第二指定分辨率；

以缩放后的第三缩放待检测人脸图像中的第二关键点定位坐标为中心，提取周围第二预定大小的第二局部区域图像；

将所述第二局部区域图像输入至第三阶段关键点检测模型中，得到最终的关键点定位坐标；其中，不同关键点对应不同的所述第三阶段关键点检测模型。

其中，所述第一阶段多任务关键点定位模型通过如下方式训练得到：

获取包括人脸图像样本的训练样本集，在人脸图像样本中标定人脸关键点位置和头部姿态信息；

通过人脸检测器获取人脸图像样本中的人脸目标区域，把人脸目标区域缩放到第一指定分辨率，并更新标定的人脸关键点位置；

构建第一阶段多任务深度卷积神经网络；

将人脸图像样本的人脸目标区域作为输入图像输入至第一阶段多任务深度卷积神经网络进行训练，得到第一阶段关键点定位模型。

其中，训练所述第一阶段多任务深度卷积神经网络的目标函数如下表示：

J＝J_r(S^g，f(I；W_r))+J_l(P^g，f(I；W_l))

其中，J_r表示人脸关键点定位的损失函数，J_l表示头部姿态信息估计的损失函数，S^g，P^g分别表示输入图像中标定的人脸关键点位置和头部姿态信息，I为输入图像，f(·)是第一阶段多任务深度卷积神经网络的非线性映射函数，W_r、W_l分别表示基于回归和基于分类的映射矩阵；

其中，J_r用回归形式的平方误差损失函数表示如下：

其中，N表示输入图像的个数，

是第i个输入图像中标定的人脸关键点位置，

表示第一阶段多任务深度卷积神经网络中第T层的输入，

为所述第一阶段多任务深度卷积神经网络中第T层的映射函数，

为第一阶段多任务深度卷积神经网络中第T层的回归映射矩阵；

其中，J_l用分类形式的交叉熵损失函数表示如下：

其中，K为头部姿态信息的类别数目，

表示第i个输入图像中标定的头部姿态信息；

表示第i个输入图像被分为第k类头部姿态信息的概率，

为预测的第i个输入图像的头部姿态信息。

其中，所述

如下表示：

其中，

是第k类头部姿态信息的映射矩阵，

是第j类头部姿态信息的映射矩阵，

其中，所述第二阶段关键点校准模型如下训练得到：

获取包括人脸图像样本的训练样本集，以及利用第一阶段多任务关键点定位模型定位得到的所述人脸图像样本的初始人脸关键点位置；

将所述人脸图像样本中的人脸目标区域缩放到第二指定分辨率，并更新所述初始人脸关键点位置；

以更新后的所述初始人脸关键点位置为中心，提取周边预定范围内的局部区域图像；

构建第二阶段全局卷积神经网络；所述第二阶段全局卷积神经网络包括多个子神经网络和一个全连接层，所述多个子神经网络中的每一个对应不同的人脸关键点，所述全连接层用于连接所述多个子神经网络；

将所提取每个人脸关键点的局部区域图像作为输入图像分别输入至第二阶段全局卷积神经网络中对应的子神经网络进行训练，得到第二阶段全局关键点定位模型。

其中，所述第二阶段全局卷积神经网络的目标函数如下表示：

J＝J_r2(ΔS^g，f₂(I_p；W_r))

其中，J_r2表示关键点定位的损失函数，ΔS＝S^g-S0表示标定的人脸关键点位置和更新后的所述初始人脸关键点位置的差值，S0是更新后的所述初始人脸关键点位置，I_p表示输入图像，f₂(·)是第二阶段全局卷积神经网络的非线性映射函数。

其中，所述第三阶段关键点检测模型如下训练得到：

获取包括人脸图像样本的训练样本集，以及利用第二阶段关键点校准模型定位得到的所述人脸图像样本的校准人脸关键点位置；

将所述人脸图像样本中的人脸目标区域缩放到第三指定分辨率，并更新所述校准人脸关键点位置；

以更新后的所述校准人脸关键点位置为中心，提取周边预定范围内的局部区域图像；

根据所述提取的局部区域图像训练得到关键点检测模型，其中，根据不同人脸关键点对应的局部区域训练得到不同的关键点检测模型。

根据本发明第二方面，提供了一种人脸关键点定位装置，包括：

第一缩放模块，用于将待检测人脸图像缩放到第一指定分辨率，形成第一缩放待检测人脸图像；

初始定位模块，用于将所述第一缩放待检测人脸图像输入至第一阶段多任务关键点定位模型中，得到第一关键点定位坐标和第一头部姿态估计值；

第二缩放模块，用于将所述待检测人脸图像缩放到第二指定分辨率，得到第二缩放待检测人脸图像，所述第二指定分辨率大于第一指定分辨率；

第一局部区域提取模块，用于以缩放后的第二缩放待检测人脸图像中的第一关键点定位坐标为中心，提取周围第一预定大小的第一局部区域图像；

校准模块，用于将所述第一局部区域图像输入至第二阶段关键点校准模型中，得到第二关键点定位坐标；

第三缩放模块，用于将所述待检测人脸图像缩放至第三指定分辨率，得到第三缩放待检测人脸图像，第三指定分辨率大于第二指定分辨率；

第二局部区域提取模块，用于以缩放后的第三缩放待检测人脸图像中的第二关键点定位坐标为中心，提取周围第二预定大小的第二局部区域图像；

最终定位模块，用于将所述第二局部区域图像输入至第三阶段关键点检测模型中，得到最终的关键点定位坐标；其中，不同关键点对应不同的所述第三阶段关键点检测模型。

其中，还包括训练模块，用于训练所述第二阶段关键点校准模型，包括：

第一获取子模块，用于获取包括人脸图像样本的训练样本集，以及利用第一阶段多任务关键点定位模型定位得到的所述人脸图像样本的初始人脸关键点位置；

缩放子模块，用于将所述人脸图像样本中的人脸目标区域缩放到第二指定分辨率，并更新所述初始人脸关键点位置；

更新子模块，用于以更新后的所述初始人脸关键点位置为中心，提取周边预定范围内的局部区域图像；

构建子模块，用于构建第二阶段全局卷积神经网络；所述第二阶段全局卷积神经网络包括多个子神经网络和一个全连接层，所述多个子神经网络中的每一个对应不同的人脸关键点，所述全连接层用于连接所述多个子神经网络；

训练子模块，用于将所提取每个人脸关键点的局部区域图像作为输入图像分别输入至第二阶段全局卷积神经网络中对应的子神经网络进行训练，得到第二阶段全局关键点定位模型。

根据本发明第三方面，提供了一种人脸关键点定位装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

本发明采用由粗到精的三阶段关键点定位方法，通过多任务卷积神经网络进行粗定位，确定人脸关键点大体位置；然后在关键点周围提取局部区域，通过全局级联卷积神经网络把关键点周围提取局部区域融合到一起，进行级联定位；最后在针对每个关键点单独训练卷积神经网络进行精细定位。在第一阶段的粗定位之中，把多种任务结合：头部姿态估计和人脸关键点定位，通过一个目标函数求解相关任务，增加了第一阶段模型对于头部姿态的鲁棒性能。在第二阶段中，本发明把不同部位关键点之间的位置顺序关系作为约束加入到神经网络训练中，增加了定位精度。在最后一个阶段再根据针对每个关键点单独训练关键点检测模型，进一步提高了定位的精度。本发明提出的关键点定位算法定位精度高，泛华性能好。

附图说明

图1是本发明基于全局卷积神经网络的关键点定位的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明的目的是提供一种基于全局卷积神经网络的关键点定位方法。该方法把把不同部位关键点之间的位置顺序关系作为约束加入到神经网络训练中，实现精准的关键点定位。

根据本发明一方面，提供了一种基于全局卷积神经网络关键点定位方法，如图1所示，包括如下步骤：

步骤S1，建立人脸图像训练集，借助于相关标定软件，人工标定关键点位置的绝对坐标S^g和头部姿态信息P^g：左侧脸(侧脸角度大于60度)，轻微左侧脸(侧脸角度在30度到60度之间)，正脸(侧脸角度在负30度到30度之间)，轻微右侧脸(侧脸角度在负30度到负60度之间)，右侧脸(侧脸角度在负60度以上)。

步骤S2，通过人脸检测器获取训练集中人脸图像中的人脸位置，把人脸区域缩放到指定分辨率大小，更新标定的关键点位置，将将标定的关键点人脸位置坐标更新到缩放后人脸区域中的相对位置坐标。

所述步骤S2具体包括如下：

步骤S21，对输入人脸图像进行尺度变换、旋转、缩放等，计算扰动后关键点位置，增加训练样本。

步骤S22，检测训练集中人脸图像中的人脸位置，把人脸区域缩放到第一指定分辨率，比如50x50，更新标定的人脸关键点位置。

步骤S3，构建第一阶段多任务深度卷积神经网络，利用所述训练集中的人脸图像对其进行训练得到多任务关键点定位模型，该多任务关键点定位模型能够通过多任务学习(同时预测头部姿态和关键点位置)精准的定位关键点。

步骤S31，步骤S2中训练集中人脸图像中缩放到第一指定分辨率的人脸区域的坐标位置归一化到0-1之间，图像像素灰度值也归一化到0-1之间，形成训练样本。

步骤S32，把步骤S31中的训练样本输入到多任务卷积神经网络之中进行训练，最终得到多任务关键点定位模型。

在一实施例中，第一阶段多任务深度卷积神经网络关键点定位目标函数为：

J＝J_r(S^g，f(I；W_r))+J_l(P^g，f(I；W_l))

上述公式表示同时进行关键点定位和头部姿态估计，可以定位较大姿态下的关键点。公式中J_r表示关键点定位的损失函数，J_l表示头部姿态估计的损失函数，S^g，P^g分别表示人脸关键点位置坐标、头部姿态信息，I为输入图像，f(·)是第一阶段的多任务卷积神经网络的非线性映射函数，W_r、W_l分别表示基于回归和基于分类的映射矩阵。其中，J_r用回归形式的平方误差损失函数表示：

其中N表示输入图像的个数，

是第i个输入样本的关键点坐标的实际值，

表示第i个样本在第T层神经网络的输入，

为多任务卷积神经网络第T层映射函数，

为多任务卷积神经网络第T层基于回归的映射矩阵；J_l用分类形式的交叉熵损失函数表示，

其中K为头部姿态类别，

表示第i个输入的实际头部姿态信息，

表示第i个样本在第T层神经网络的输入，头部姿态被分成第k，k＝1，...，K类的概率为：

其中，

为预测的第i个输入的头部姿态，T_j(j＝1，...，K)是第T层神经网络中与头部姿态分类相关信息。

是多任务卷积神经网络中第T层第k类头部姿态的映射矩阵，

是多任务卷积神经网络中第T层第j类头部姿态的映射函数，

为多任务卷积神经网络第T层基于分类的映射矩阵。

步骤S4，为了更加精准的定位关键点，本发明采取由粗到精的策略，把人脸图像再次缩放到第二指定分辨率，比如80x80，所述第二指定分辨率大于第一指定分辨率；同时根据步骤S3粗略定位的人脸关键点坐标，更新缩放后的人脸关键点坐标。

步骤S5，根据步骤S4得到人脸关键点位置，以关键点位置为中心提取其周边预定范围内的局部区域，并重新进行归一化，归一化后把所有关键点位置周围提取的局部区域像素值串联起来输入到第二阶段全局卷积神经网络之中定位人脸关键点坐标的精细值。

其中，所述全局卷积神经网络包括多个子神经网络以及一个全连接层，所述全连接层用于将所述多个子神经网络连接起来，所述多个子神经网络的输出作为全连接层的输入，全连接层的输出为所述全卷积神经网络的输出；所述多个子神经网络中的每个子神经网络对应所述人脸的其中一个关键点，训练好的所述多个子神经网络分别用于识别所述人脸的其中一个关键点，例如人脸包括五个关键点，所述子神经网络为五个，分别对应一个关键点；

步骤S5包括：

步骤S51，以步骤S4中得到关键点位置为中心，提取其周边预定范围内的局部区域的像素值，并且把像素值归一化到0-1之间。

步骤S52，把所有关键点周围提取的局部区域归一化的像素值串联起来输入到第二阶段全局卷积神经网络之中定位关键点。

第二阶段全局卷积神经网络总体目标函数如下：

J＝J_r2(ΔS，f₂(I_p；W_r))

其中J_r2表示关键点定位的损失函数，ΔS＝S^g-S¹表示人脸关键点位置坐标的实际值和第一阶段多任务神经网络输出预测值的差值，S¹是第一阶段多任务卷积神经网络预测的人脸关键点位置坐标，I_p表示以S¹为中心提取的其周边预定范围内局部区域的像素值，f₂(·)是第二阶段全局卷积神经网络的非线性映射函数，W_r表示第二阶段卷积神经网络回归映射矩阵。在每个关键点周围提取的局部区域像素值I_p依次输入到各自独立的子神经网络之中，最后在全连接层串联，其中每个各自独立的子神经网络形式如下：

层	类型	核参数	激活函数	输出大小
					IO	输入层	-	-	32x32x3
C1	卷积层	5x5x16	relu	32x32x16
					P2	池化层	2x2	-	16x16x16
C3	卷积层	3x3x32	relu	18x18x32
					P4	池化层	2x2	-	9x9x32
C5	局部卷积层	3x3x64	relu	9x9x64
					F7	全连接层	-	-	1x1x60

步骤S6，根据本发明由粗到精的策略，把人脸图像再次缩放到第三指定分辨率，比如120x120，第三指定分辨率大于第一指定分辨率和第二指定分辨率；同时根据步骤S5定位的人脸关键点坐标，计算缩放后的关键点位置坐标。

步骤S7，根据S6定位的人脸关键点坐标，在关键点位置周围提取预定大小的局部区域像素值，针对每一个关键点单独训练关键点定位模型，输入第三阶段卷积神经网络进行精细定位。

步骤S61，以步骤S6中得到的关键点位置为中心，提取其周边预定范围内的局部区域的像素值，并且把像素值归一化到0-1之间。

步骤S62，对每个关键点周围提取的局部区域像素值单独训练一个局部关键点检测器，经行精细定位。

第三阶段局部卷积神经网络目标函数如下：

J＝J_r3(ΔS，f₃(Ip；W_r))

其中J_r3表示关键点定位的损失函数，ΔS＝S^g-S²表示人脸关键点位置坐标的实际值和第二阶段全局卷积神经网络输出预测值的差值，S²是第二阶段全局卷积神经网络预测的人脸关键点位置坐标，I_p表示以S²为中心提取的其周边预定范围内局部区域的像素值，f₃(·)是第三阶段卷积神经网络的非线性映射函数。第三阶段输出的关键点位置就是我们三阶段级联神经网络的最终定位结果。以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。