CN108446619A

CN108446619A - 基于深度强化学习的人脸关键点检测方法及装置

Info

Publication number: CN108446619A
Application number: CN201810199909.2A
Authority: CN
Inventors: 鲁继文; 周杰; 刘昊; 郭明皓
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2018-08-24
Anticipated expiration: 2038-03-12
Also published as: CN108446619B

Abstract

本发明公开了一种基于深度强化学习的人脸关键点检测方法及装置，其中，方法包括以下步骤：通过马尔科夫决策过程对人脸关键点检测问题进行数学建模；通过形状推测网络得到一个初始形状，将其通过k近邻，获取该形状候选子集；通过形状决策网络对形状候选子集中每个候选形状进行评价，并获取分数最高的形状；将形状推断网络和形状决策网络通过策略梯度同时优化，获取最终推断决策网络结构，以得到人脸关键点。该方法通过推断决策的框架，能够在形状连续空间中，找到一条最优的形状搜索路径，以最大化形状评价分数，从而有效提高人脸关键点检测的准确性和可靠性。

Description

基于深度强化学习的人脸关键点检测方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于深度强化学习的人脸关键点检测方法及装置。

背景技术

人脸关键点检测旨在对于给定的人脸图像，定位多个特征关键点(如眉毛、眼睛、鼻子、嘴巴、面廓等)的位置。该技术在多个人脸分析人物中起着重要的作用，如人脸识别、头部姿态估计、人脸属性分析等。

尽管近年来有一系列方法致力于人脸关键点检测的研究中，但是人脸关键点检测问题依旧具有很大的挑战性。这主要由于在自然开放场景下获得的人脸图像由于大姿态和大表情，具有很大的变化性，使得人脸关键点检测的算法很容易陷入局部最优，很难处理一些极端情况，导致最终关键点检测效果很差。

相关技术的主要的研究方法可以分为两类：基于模型的方法，基于级联回归的方法。基于模型的方法主要是通过对于小批量人脸训练数据进行PCA(Principal componentsanalysis，主成分分析)主成分分析，获得人脸的形状模型，对于测试图像，通过调整人脸形状模型的点的位置和参数，使得表观能量最大化，得到调整后的模型结果即为检测结果。基于级联回归的方法主要是通过从一个平均人脸形状出发，提取每个关键点的局部特征，通过回归器学习人脸形状的变化量，以级联的方式逐步更新形状。

目前基于级联回归的方法取得了最先进的结果也是最流行的人脸关键点检测方法。代表方法有：ESR(Explicit Shape Regression，显式形状回归)，SDM(Spatial DubinModel，监督下降模型)，CFSS(Coarse to Fine Shape Searching，由粗到精的形状搜索)。尽管这些方法能实现较高的准确率，但是线性回归的映射方式很难模拟人脸图像像素和人脸形状之间这种复杂非线性的关系。为了处理这个问题，基于深度神经网络的方法也应用到了人脸关键点检测中，这类方法能够直接从原始图像中得到人脸关键点的位置。代表方法有：DCNC(deep convolution cascaded network,深度卷积级联网络)，DSSD(Deconvolutional Single Shot Detector，深度共享结构化检测器)，MDM(memorabledescent method，可记忆下降方法)。然而，这种基于级联的处理方式经常对于人脸形状的初始化很敏感，尤其在人脸处于大姿态和大表情形变的条件下。这种级联方法会导致不同级之间的错误累积，最终导致结果偏差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度强化学习的人脸关键点检测方法，该方法可以有效提高人脸关键点检测的准确性和可靠性。

本发明的另一个目的在于提出一种基于深度强化学习的人脸关键点检测装置。

为达到上述目的，本发明一方面实施例提出了一种基于深度强化学习的人脸关键点检测方法，包括以下步骤：通过马尔科夫决策过程对人脸关键点检测问题进行数学建模；通过形状推测网络得到一个初始形状，将其通过k近邻，获取该形状候选子集；通过形状决策网络对所述形状候选子集中每个候选形状进行评价，并获取分数最高的形状；将所述形状推断网络和所述形状决策网络通过策略梯度同时优化，获取最终推断决策网络结构，以得到人脸关键点。

本发明实施例的基于深度强化学习的人脸关键点检测方法，通过推断决策的框架，能够在形状连续空间中，找到一条最优的形状搜索路径，以最大化形状评价分数，从而有效提高人脸关键点检测的准确性和可靠性。

另外，根据本发明上述实施例的基于深度强化学习的人脸关键点检测方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述马尔科夫决策过程包括动作、状态和奖励，其中，所述动作为提供所有关键点的更新位移量得到的形状偏差，所述状态为通过剪裁人脸图像中关键点附近的图像块得到的人脸局部表观特征，所述奖励为通过归一化的点对点距离得到。

进一步地，在本发明的一个实施例中，在所述形状推测网络中，第一优化目标为：

形状推断网络输出的动作为：

相对应到状态空间为：

其中，ρ_π(x)为状态空间概率分布，X为提取的人脸局部表观特征，为可微策略函数，为期望，为推断网络函数，I为图像，p为人脸关键点形状，d为局部图像块大小。

进一步地，在本发明的一个实施例中，在所述形状决策网络中，第二优化目标为：

其中，Q_π()为决策网络函数，r()为奖励函数。

进一步地，在本发明的一个实施例中，所述策略梯度的梯度公式为：

其中，为决策网络函数。

为达到上述目的，本发明另一方面实施例提出了一种基于深度强化学习的人脸关键点检测装置，包括：建模模块，用于通过马尔科夫决策过程对人脸关键点检测问题进行数学建模；获取模块，用于通过形状推测网络得到一个初始形状，将其通过k近邻，获取该形状候选子集；评价获取模块，用于通过形状决策网络对所述形状候选子集中每个候选形状进行评价，并获取分数最高的形状；处理模块，用于将所述形状推断网络和所述形状决策网络通过策略梯度同时优化，获取最终推断决策网络结构，以得到人脸关键点。

本发明实施例的基于深度强化学习的人脸关键点检测装置，通过推断决策的框架，能够在形状连续空间中，找到一条最优的形状搜索路径，以最大化形状评价分数，从而有效提高人脸关键点检测的准确性和可靠性。

另外，根据本发明上述实施例的基于深度强化学习的人脸关键点检测装置还可以具有以下附加的技术特征：

形状推断网络输出的动作为：

相对应到状态空间为：

其中，Q_π()为决策网络函数，r()为奖励函数。

进一步地，在本发明的一个实施例中，策略梯度的梯度公式为：

其中，为决策网络函数。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于深度强化学习的人脸关键点检测方法的流程图；

图2为根据本发明一个具体实施例的基于深度强化学习的人脸关键点检测方法的流程图；

图3为根据本发明一个实施例的在公开人脸数据库300W中有挑战子集上的部分结果的示意图；

图4为根据本发明一个实施例的方法与相关技术的对比示意图；

图5为根据本发明一个实施例的基于深度强化学习的人脸关键点检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于深度强化学习的人脸关键点检测方法及装置，首先将参照附图描述根据本发明实施例提出的基于深度强化学习的人脸关键点检测方法。

图1是本发明一个实施例的基于深度强化学习的人脸关键点检测方法的流程图。

如图1所示，该基于深度强化学习的人脸关键点检测方法包括以下步骤：

在步骤S101中，通过马尔科夫决策过程对人脸关键点检测问题进行数学建模。

可以理解的是，本发明实施例将人脸关键点检测问题建模为马尔科夫决策过程。

进一步地，在本发明的一个实施例中，马尔科夫决策过程包括动作、状态和奖励，其中，动作为提供所有关键点的更新位移量得到的形状偏差，状态为通过剪裁人脸图像中关键点附近的图像块得到的人脸局部表观特征，奖励为通过归一化的点对点距离得到。

具体地，下面对于马尔科夫决策过程中的关键定义做出解释：

动作：形状偏差，提供所有关键点的更新位移量。

状态：人脸局部表观特征，通过剪裁人脸图像中关键点附近的图像块得到。

奖励：通过归一化的点对点距离得到奖励。具体为：

在步骤S102中，通过形状推测网络得到一个初始形状，将其通过k近邻，获取该形状候选子集。

可以理解的是，如图2所示，本发明实施例从一张给定的人脸图像和任意初始化人脸形状出发，每次迭代中，推断决策智能体首先推断一个动作作为形状更新残差以更新初始形状，然后通过k近邻获得形状候选的一个子集。

进一步地，在本发明的一个实施例中，形状推测网络中，第一优化目标为：

形状推断网络输出的动作为：

相对应到状态空间为：

具体而言，形状推测网络旨在学习一个在形状连续空间上的策略，使得通过该策略得到的形状搜索路径最大化期望的形状评价分数。由于在连续空间上使用随机策略需要更多的采样而导致运算成本的增加，本发明实施例使用确定策略，并使用可导的深度策略函数，来解决状态到动作的非线性映射问题。优化目标为

形状推断网络输出的动作为

相对应到状态空间

由于直接在连续的形状空间中得到一个连续的动作可能会引入偏差，本发明实施例首先制造一个离散的形状集，然后将推测网络得到的形状通过k近邻，得到该形状集的一个自己，用于后续的形状决策网络。

在步骤S103中，通过形状决策网络对形状候选子集中每个候选形状进行评价，并获取分数最高的形状。

可以理解的是，如图2所示，本发明实施例随后智能体对于子集中每个候选形状进行评价，并选择分数最高的形状作为下次迭代的初始化。

进一步地，在本发明的一个实施例中，在形状决策网络中，第二优化目标为：

其中，Q_π()为决策网络函数，r()为奖励函数。

具体而言，形状决策网络旨在根据人脸图像，评价某一形状的质量并给出分数。优化目标为

为了从语义层面上得到对于形状的评价，本发明实施例利用了LSTM(Long Short-Term Memory，长短期记忆网络)结构，通过可记忆的考虑人脸不同部分给出评价，并将所有人脸关键点分为C个部分，然后将每部分的图像输入LSTM结构，最终得到评价分数。

在步骤S104中，将形状推断网络和形状决策网络通过策略梯度同时优化，获取最终推断决策网络结构，以得到人脸关键点。

其中，为决策网络函数。

可以理解的是，本发明实施例在训练阶段将形状推断网络和形状决策网络通过策略梯度同时优化，梯度公式为

本发明实施例在公开人脸数据库300W中有挑战子集上的部分结果如图3所示。

另外，本发明实施例的目的是解决现有人脸关键点检测方法对初始化敏感，容易陷入局部最优的问题。本发明实施例通过推断决策网络，学习评价当前人脸形状的质量并作出决策以获得可信的新的人脸形状。与现有方法的对比如图4所示。

综上，本发明实施例具有以下优点：

(1)本发明实施例通过定义一个形状推断决策的智能体，将人脸关键点检测问题建模为马尔科夫决策过程。该智能体在整个连续的动作空间中估计一个确定的策略，使得整个迭代过程中累积形状评价值最高。

(2)本发明实施例中推断决策网络均为深度神经网络，其中，推断网络预测一个形状，并通过近邻获得候选形状的一个子集；决策网络使用长短期记忆模型选择子集中评价最高的形状作为下一次迭代的初始化。

(3)本发明实施例通过推断决策网络的迭代，获得在整个形状连续空间中的一条形状搜索路径，该路径在每一次迭代中都能够获得更高的形状评价分数，最终取得不受初始化影响的结果。

根据本发明实施例提出的基于深度强化学习的人脸关键点检测方法，通过推断决策的框架，能够在形状连续空间中，找到一条最优的形状搜索路径，以最大化形状评价分数，从而有效提高人脸关键点检测的准确性和可靠性。

其次参照附图描述根据本发明实施例提出的基于深度强化学习的人脸关键点检测装置。

图5是本发明一个实施例的基于深度强化学习的人脸关键点检测装置的结构示意图。

如图5所示，该基于深度强化学习的人脸关键点检测装置10包括：建模模块100、获取模块200、评价获取模块300和处理模块400。

其中，建模模块100用于通过马尔科夫决策过程对人脸关键点检测问题进行数学建模。获取模块200用于通过形状推测网络得到一个初始形状，将其通过k近邻，获取该形状候选子集。评价获取模块300用于通过形状决策网络对形状候选子集中每个候选形状进行评价，并获取分数最高的形状。处理模块400用于将形状推断网络和形状决策网络通过策略梯度同时优化，获取最终推断决策网络结构，以得到人脸关键点。本发明实施例的装置10通过推断决策的框架，能够在形状连续空间中，找到一条最优的形状搜索路径，以最大化形状评价分数，从而有效提高人脸关键点检测的准确性和可靠性。

进一步地，在本发明的一个实施例中，在形状推测网络中，第一优化目标为：

形状推断网络输出的动作为：

相对应到状态空间为：

其中，Q_π()为决策网络函数，r()为奖励函数。。

其中，为决策网络函数。

需要说明的是，前述对基于深度强化学习的人脸关键点检测方法实施例的解释说明也适用于该实施例的基于深度强化学习的人脸关键点检测装置，此处不再赘述。

根据本发明实施例提出的基于深度强化学习的人脸关键点检测装置，通过推断决策的框架，能够在形状连续空间中，找到一条最优的形状搜索路径，以最大化形状评价分数，从而有效提高人脸关键点检测的准确性和可靠性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度强化学习的人脸关键点检测方法，其特征在于，包括以下步骤：

通过马尔科夫决策过程对人脸关键点检测问题进行数学建模；

通过形状推测网络得到一个初始形状，将其通过k近邻，获取该形状候选子集；

通过形状决策网络对所述形状候选子集中每个候选形状进行评价，并获取分数最高的形状；以及

将所述形状推断网络和所述形状决策网络通过策略梯度同时优化，获取最终推断决策网络结构，以得到人脸关键点。

2.根据权利要求1所述的基于深度强化学习的人脸关键点检测方法，其特征在于，所述马尔科夫决策过程包括动作、状态和奖励，其中，所述动作为提供所有关键点的更新位移量得到的形状偏差，所述状态为通过剪裁人脸图像中关键点附近的图像块得到的人脸局部表观特征，所述奖励为通过归一化的点对点距离得到。

3.根据权利要求1所述的基于深度强化学习的人脸关键点检测方法，其特征在于，在所述形状推测网络中，第一优化目标为：

形状推断网络输出的动作为：

相对应到状态空间为：

4.根据权利要求1或2所述的基于深度强化学习的人脸关键点检测方法，其特征在于，在所述形状决策网络中，第二优化目标为：

其中，Q_π()为决策网络函数，r()为奖励函数。

5.根据权利要求1-4任一项所述的基于深度强化学习的人脸关键点检测方法，其特征在于，所述策略梯度的梯度公式为：

其中，为决策网络函数。

6.一种基于深度强化学习的人脸关键点检测装置，其特征在于，包括：

建模模块，用于通过马尔科夫决策过程对人脸关键点检测问题进行数学建模；

获取模块，用于通过形状推测网络得到一个初始形状，将其通过k近邻，获取该形状候选子集；

评价获取模块，用于通过形状决策网络对所述形状候选子集中每个候选形状进行评价，并获取分数最高的形状；以及

处理模块，用于将所述形状推断网络和所述形状决策网络通过策略梯度同时优化，获取最终推断决策网络结构，以得到人脸关键点。

7.根据权利要求6所述的基于深度强化学习的人脸关键点检测装置，其特征在于，所述马尔科夫决策过程包括动作、状态和奖励，其中，所述动作为提供所有关键点的更新位移量得到的形状偏差，所述状态为通过剪裁人脸图像中关键点附近的图像块得到的人脸局部表观特征，所述奖励为通过归一化的点对点距离得到。

8.根据权利要求6所述的基于深度强化学习的人脸关键点检测装置，其特征在于，在所述形状推测网络中，第一优化目标为：

形状推断网络输出的动作为：

相对应到状态空间为：

9.根据权利要求8或7所述的基于深度强化学习的人脸关键点检测装置，其特征在于，在所述形状决策网络中，第二优化目标为：

其中，Q_π()为决策网络函数，r()为奖励函数。

10.根据权利要求6-9任一项所述的基于深度强化学习的人脸关键点检测装置，其特征在于，策略梯度的梯度公式为：

其中，为决策网络函数。