CN110705437A

CN110705437A - 一种基于动态级联回归的人脸关键点检测方法及系统

Info

Publication number: CN110705437A
Application number: CN201910920681.6A
Authority: CN
Inventors: 李厚强; 张之昊; 周文罡
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-01-17

Abstract

本发明公开了一种基于动态级联回归的人脸关键点检测方法及系统，方法包括：获取待检测人脸图片，将待检测人脸图片输入全局估计网络，输出人脸关键点位置的粗糙初始值；将人脸关键点位置的粗糙初始值输入带有终止准则的局部回归网络进行细致迭代回归，输出待检测人脸图片的人脸关键点检测结果。本发明能够利用基于直接形状回归模型的方法提供一个粗糙的人脸关键点位置估计，再利用一个带有终止准则的级联回归模型，从粗糙的人脸关键点位置估计出发，进行细致地迭代回归，并用终止准则控制迭代步数，有效的提高了人脸关键点的检测精度。

Description

一种基于动态级联回归的人脸关键点检测方法及系统

技术领域

本发明涉及人脸关键点处理技术领域，尤其涉及一种基于动态级联回归的人脸关键点检测方法及系统。

背景技术

人脸关键点检测作为一项基础的计算机视觉处理任务，它不仅有助于人脸识别任务，而且也为表情识别任务奠定基础。

目前，较为传统的基于级联回归的人脸关键点检测方法主要使用人工特征驱动回归进程，这种方法较为容易陷入局部最优。为了克服人工特征的缺陷，近些年大部分基于级联回归的工作利用神经网络完成特征提取和人脸关键点回归过程。简单地，可以将这类方法分为两大类，一种是使用围绕关键点提取的图像块作为回归网络的输入，一般可以将这种网络称为局部回归网络；另一种是使用整张图片以及关键点的热点图作为回归网络的输入，一般可以将这种网络称为全局回归网络。

由此可以看出，目前的基于级联回归模型的人脸关键点检测方法对提供的初始人脸关键点位置十分敏感，特别是对基于局部回归模型的方法，当提供的初始人脸关键点位置远离真实位置时，这些方法特别容易陷入局部最优，使得关键点检测精度比较差。另外，目前的基于级联回归模型的人脸关键点检测方法基本使用固定的回归迭代步数，并不能依据实际情况做出迭代步数的增减。即使当关键点的检测精度达到一定程度时，在没有达到预定的回归迭代步数的情况下，级联回归过程会继续进行不必要的计算。

因此，如何更加有效的进行人脸关键点检测，提高检测精度，是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于动态级联回归的人脸关键点检测方法，能够利用基于直接形状回归模型的方法提供一个粗糙的人脸关键点位置估计，再利用一个带有终止准则的级联回归模型，从粗糙的人脸关键点位置估计出发，进行细致地迭代回归，并用终止准则控制迭代步数，有效的提高了人脸关键点的检测精度。

本发明提供了一种基于动态级联回归的人脸关键点检测方法，包括：

获取待检测人脸图片；

将所述待检测人脸图片输入全局估计网络，输出人脸关键点位置的粗糙初始值；

将所述人脸关键点位置的粗糙初始值输入带有终止准则的局部回归网络进行细致迭代回归，输出所述待检测人脸图片的人脸关键点检测结果。

优选地，所述方法还包括：

将带有终止准则的动态级联回归过程进行强化学习公式化表述；

利用DDPG算法对所述局部回归网络进行训练。

优选地，所述终止准则包括：人脸关键点位置增量的绝对值小于预设阈值。

优选地，所述全局估计网络中除池化层和输出层以外的网络层使用以修正线性单元作为神经元的激活函数。

优选地，所述全局估计网络采用的损失函数是被眼角距离正则化后的估计人脸关键点位置和真实人脸关键点位置间的欧氏距离。

一种基于动态级联回归的人脸关键点检测系统，包括：

获取模块，用于获取待检测人脸图片；

全局估计网络，用于以所述待检测人脸图片作为输入，输出人脸关键点位置的粗糙初始值；

局部回归网络，用于以所述人脸关键点位置的粗糙初始值作为输入，基于终止准则进行细致迭代回归，输出所述待检测人脸图片的人脸关键点检测结果。

优选地，所述系统还包括：

强化学习公式化表述模块，用于将带有终止准则的动态级联回归过程进行强化学习公式化表述；

训练模块，用于利用DDPG算法对所述局部回归网络进行训练。

综上所述，本发明公开了一种基于动态级联回归的人脸关键点检测方法，当需要对人脸关键点进行检测时，首先获取待检测人脸图片，然后将待检测人脸图片输入全局估计网络，输出人脸关键点位置的粗糙初始值，再将人脸关键点位置的粗糙初始值输入带有终止准则的局部回归网络进行细致迭代回归，输出待检测人脸图片的人脸关键点检测结果。本发明能够利用基于直接形状回归模型的方法提供一个粗糙的人脸关键点位置估计，再利用一个带有终止准则的级联回归模型，从粗糙的人脸关键点位置估计出发，进行细致地迭代回归，并用终止准则控制迭代步数，有效的提高了人脸关键点的检测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种基于动态级联回归的人脸关键点检测方法实施例1的方法流程图；

图2为本发明公开的一种基于动态级联回归的人脸关键点检测方法实施例2的方法流程图；

图3为本发明公开的一种基于动态级联回归的人脸关键点检测系统实施例1的结构示意图；

图4为本发明公开的一种基于动态级联回归的人脸关键点检测系统实施例2的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种基于动态级联回归的人脸关键点检测方法实施例1的方法流程图，所述方法可以包括以下步骤：

S101、获取待检测人脸图片；

当需要进行人脸关键点检测时，首先获取需要进行人脸关键点检测的人脸图片，即，获取待检测人脸图片。

S102、将待检测人脸图片输入全局估计网络，输出人脸关键点位置的粗糙初始值；

当获取到待检测人脸图片后，将待检测人脸图片作为全局估计网络的输入，全局估计网络基于输入的待检测人脸图片输出一个较为粗略的人脸关键点位置，即输出待检测人脸图片的人脸关键点位置的粗糙初始值。其中，输出的人脸关键点位置的粗糙初始值，作为级联回归过程的初始值。由此可以看出，作为一个级联回归过程初始值提供者的身份，全局估计网络在不要求高检测准确度的情况下，不仅能处理各种人脸姿势和表情的状况，也能解决人脸图片和人脸关键点分布间的高度非线性性。

S103、将人脸关键点位置的粗糙初始值输入带有终止准则的局部回归网络进行细致迭代回归，输出待检测人脸图片的人脸关键点检测结果。

当通过全局估计网络得到人脸关键点位置的粗糙初始值后，将人脸关键点位置的粗糙初始值输入局部回归网络，局部回归网络在人脸关键点位置的粗糙初始值的基础上进行细致迭代回归，此外，对级联回归过程引入终止准则，形成动态级联回归模型，最终输出待检测人脸图片的人脸关键点检测结果。

综上所述，在上述实施例中，当需要对人脸关键点进行检测时，首先获取待检测人脸图片，然后将待检测人脸图片输入全局估计网络，输出人脸关键点位置的粗糙初始值，再将人脸关键点位置的粗糙初始值输入带有终止准则的局部回归网络进行细致迭代回归，输出待检测人脸图片的人脸关键点检测结果。本发明能够利用基于直接形状回归模型的方法提供一个粗糙的人脸关键点位置估计，再利用一个带有终止准则的级联回归模型，从粗糙的人脸关键点位置估计出发，进行细致地迭代回归，并用终止准则控制迭代步数，有效的提高了人脸关键点的检测精度。

如图2所示，为本发明公开的一种基于动态级联回归的人脸关键点检测方法实施例2的方法流程图，所述方法可以包括以下步骤：

S201、获取待检测人脸图片；

S202、将待检测人脸图片输入全局估计网络，输出人脸关键点位置的粗糙初始值；

具体的，本实施例使用的全局估计网络的卷积部分可以采用VGG-13网络一样的结构，每两个卷积层后接一个最大池化层，卷积操作参数设置与VGG-13一致，在卷积部分后面接两个全连接层输出最终的人脸关键点估计位置。除了池化层和输出层，其他网络层都使用ReLU激活函数。采用的损失函数可以是被眼角距离正则化后的估计人脸关键点位置和真实人脸关键点位置间的欧氏距离。

S203、将人脸关键点位置的粗糙初始值输入带有终止准则的局部回归网络进行细致迭代回归，输出待检测人脸图片的人脸关键点检测结果；

S204、将带有终止准则的动态级联回归过程进行强化学习公式化表述；

进一步地，本实施例将带有终止准则的动态级联回归过程进行强化学习公式化表述。

具体的，在决策过程模型中，或者更准确的表述为马尔可夫决策过程中，一个智能体通过不断与环境进行沟通交流，执行一系列动作，最后实现某一确定目标。在人脸关键点检测任务中，智能体的目标就是通过一系列的动作准确的定位关键点的位置。同样地，本实施例将基于动态级联过程的人脸关键点检测模型进行强化学习公式化，对动态级联过程中的一些概念进行强化学习表述。

首先，两个重要的概念是状态和动作，以及相应的状态转移函数。状态定义为一个包含两个元素的元组，分别为围绕当前估计的人脸关键点的图片块以及上一步的动作特征。对于级联回归的初始状态，估计的人脸关键点位置由全局估计网络给定，动作特征初始化为零。动作定义为人脸关键点的回归增量。所以环境的状态转移函数同样分为两个部分，一部分是人脸关键点位置依据局部回归网络产生的增量进行更新，另一部分是动作特征进行更新。

其次，终止准则作为实现级联回归过程动态化的重要元素，是本实施例的一个重要组成部分。给级联回归过程添加终止准则的目的是希望级联回归过程在人脸关键点检测准确(即十分靠近真实人脸关键点)的情况是，及时停止级联回归过程的计算。在训练过程中，人脸关键点的真实位置是可得到的，于是，本实施例在训练过程中采用的终止准则既是要求估计的人脸关键点位置与真实位置的距离小于一个阈值。显然这个准则在测试时是无效的，因为在测试时并不能得到人脸关键点的真实位置。于是，本实施例采用的终止准则在上述条件的基础上再加上对动作(即人脸关键点位置增量)的限制。当局部回归网络已经输出足够准确的人脸关键点位置时，下一次局部回归网络迭代给出的动作理论上是十分靠近零的值，因此，另一个终止准则的条件是动作的绝对值小于一个阈值。在测试时，由于无法获得人脸关键点的真实位置，本实施例将估计的人脸关键点位置与真实位置间的距离恒定为零。因此，在测试时只有动作的绝对值小于阈值一个条件起作用。

最后，强化学习中还有一个重要的量化概念即是回报函数。本实施例采用较为稠密的及时回报函数，在每一步中，当当前步骤估计的人脸关键点的位置相对于上一步在一定阈值下更靠近真实人脸关键点位置时，返回一个正的反馈值。相反地，当估计出的人脸关键点的位置相对于上一步在一定阈值下更为远离真实人脸关键点位置时，返回一个负的反馈值。其他情况返回0。此外，为了激励准确的人脸关键点检测和较少的级联回归步数，在一定回归迭代步数下达到终止准则的情况，环境返回一个较大的正终止回报值，在一定回归迭代步数下仍未达到终止准则时，环境返回一个绝对值较大的负终止回报值并强制结束级联回归过程。回报函数在测试时是不再需要的。

S205、利用DDPG算法对局部回归网络进行训练。

从强化学习的角度，局部回归网络可视为强化学习中的策略网络，它以状态作为输入，输出对应的动作。局部回归网络是一个仅有两层卷积，两个全连接层的简单神经网络。为了便利于强化学习的训练，本实施例进一步提出了状态-动作价值网络，它和局部回归网络共享卷积层操作，同时以状态和动作作为网络的输入。状态-动作函数是对某一状态、动作下对实现最终目的的一种评价，它被定义为累计回报值的期望值。本实施例用状态-价值网络来近似状态-动作函数，从而提供对某一状态下采取某一动作的一种量化评价。

考虑到基于动态级联回归模型的人脸关键点检测任务中，本实施例定义的动作是连续的，最终采用DDPG算法完成对局部回归网络的训练。DDPG算法的核心思想在于使用收集于级联回归过程中的状态、动作、回报函数等信息，交替迭代完成对策略网络和价值网络的更新。这也是本实施例引入状态-动作价值网络的原因，它是所使用的DDPG算法的需要，只用来辅助策略网络的训练，在测试阶段，该网络将被抛弃。此外，由于在人脸关键点检测任务中，状态、动作空间极其巨大，直接使用DDPG算法优化策略网络可行性并不高，于是，本实施例对动态级联过程使用固定的迭代回归步长，先利用监督学习对局部回归网络进行预训练，在此基础上，再利用强化学习进行训练，完成级联回归过程的动态化。

如图3所示，为本发明公开的一种基于动态级联回归的人脸关键点检测系统实施例1的结构示意图，所述系统可以包括：

获取模块301，用于获取待检测人脸图片；

全局估计网络302，用于以待检测人脸图片作为输入，输出人脸关键点位置的粗糙初始值；

局部回归网络303，用于以人脸关键点位置的粗糙初始值作为输入，基于终止准则进行细致迭代回归，输出待检测人脸图片的人脸关键点检测结果。

如图4所示，为本发明公开的一种基于动态级联回归的人脸关键点检测系统实施例2的结构示意图，所述系统可以包括：

获取模块401，用于获取待检测人脸图片；

全局估计网络402，用于以待检测人脸图片作为输入，输出人脸关键点位置的粗糙初始值；

局部回归网络403，用于以人脸关键点位置的粗糙初始值作为输入，基于终止准则进行细致迭代回归，输出待检测人脸图片的人脸关键点检测结果；

强化学习公式化表述模块404，用于将带有终止准则的动态级联回归过程进行强化学习公式化表述；

其次，终止准则作为实现级联回归过程动态化的重要元素，是本实施例的一个重要组成部分。给级联回归过程添加终止准则的目的是希望级联回归过程在人脸关键点检测准确(即十分靠近真实人脸关键点)的情况下，及时停止级联回归过程的计算。在训练过程中，人脸关键点的真实位置是可得到的，于是，本实施例在训练过程中采用的终止准则既是要求估计的人脸关键点位置与真实位置的距离小于一个阈值。显然这个准则在测试时是无效的，因为在测试时并不能得到人脸关键点的真实位置。于是，本实施例采用的终止准则在上述条件的基础上再加上对动作(即人脸关键点位置增量)的限制。当局部回归网络已经输出足够准确的人脸关键点位置时，下一次局部回归网络迭代给出的动作理论上是十分靠近零的值，因此，另一个终止准则的条件是动作的绝对值小于一个阈值。在测试时，由于无法获得人脸关键点的真实位置，本实施例将估计的人脸关键点位置与真实位置间的距离恒定为零。因此，在测试时只有动作的绝对值小于阈值一个条件起作用。

训练模块405，用于利用DDPG算法对所述局部回归网络进行训练。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于动态级联回归的人脸关键点检测方法，其特征在于，包括：

获取待检测人脸图片；

2.根据权利要求1所述的方法，其特征在于，还包括：

利用DDPG算法对所述局部回归网络进行训练。

3.根据权利要求1所述的方法，其特征在于，所述终止准则包括：人脸关键点位置增量的绝对值小于预设阈值。

4.根据权利要求1所述的方法，其特征在于，所述全局估计网络中除池化层和输出层以外的网络层使用以修正线性单元作为神经元的激活函数。

5.根据权利要求1所述的方法，其特征在于，所述全局估计网络采用的损失函数是被眼角距离正则化后的估计人脸关键点位置和真实人脸关键点位置间的欧氏距离。

6.一种基于动态级联回归的人脸关键点检测系统，其特征在于，包括：

获取模块，用于获取待检测人脸图片；

7.根据权利要求6所述的系统，其特征在于，还包括：

训练模块，用于利用DDPG算法对所述局部回归网络进行训练。

8.根据权利要求6所述的系统，其特征在于，所述终止准则包括：人脸关键点位置增量的绝对值小于预设阈值。

9.根据权利要求6所述的系统，其特征在于，所述全局估计网络中除池化层和输出层以外的网络层使用以修正线性单元作为神经元的激活函数。

10.根据权利要求6所述的系统，其特征在于，所述全局估计网络采用的损失函数是被眼角距离正则化后的估计人脸关键点位置和真实人脸关键点位置间的欧氏距离。