CN106991388A

CN106991388A - 关键点定位方法

Info

Publication number: CN106991388A
Application number: CN201710191274.7A
Authority: CN
Inventors: 孙哲南; 李琦; 张鸿文
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-03-27
Filing date: 2017-03-27
Publication date: 2017-07-28
Anticipated expiration: 2037-03-27
Also published as: CN106991388B

Abstract

一种关键点定位方法，包括以下步骤：输入图片，采用预训练的全卷积网络获取图片中感兴趣物体的每个关键点的响应图；基于每个关键点的响应图，采用预训练的点分布模型获取每个关键点的初始定位；基于加权约束均值漂移方法，迭代调整每个关键点的定位，最后得到每个关键点的最终定位。本发明将数据驱动的表达能力及模型驱动的先验推理能力有机地结合起来，其使用的全卷积网络能有效应对图片中物体的刚性及非刚性变换，点分布模型能有效应对图片中存在的遮挡情况，加权约束均值漂移能合理地权衡前两者的作用，从而极大地提高了关键点定位的鲁棒性。

Description

关键点定位方法

技术领域

本发明属于模式识别、计算机视觉、数字图像处理等技术领域，更具体地涉及一种关键点定位方法。

背景技术

关键点定位是计算机自动处理图像的重要环节之一，其旨在快速、准确的定位出图像中感兴趣物体语义性较强的关键点，例如人脸图像中的眼角、鼻尖和嘴角等。

就人脸关键点定位而言，现有技术中，传统的基于模型驱动方法及新兴的基于数据驱动方法均能较好地处理表情变化不大及轻微遮挡下的近正面人脸图片。但受限于模型驱动方法的表达能力及数据驱动方法对异常点的敏感性，现有技术并未能较好地处理头部姿态较大、表情夸张及存在严重遮挡的人脸图片。另外，现有技术通常根据人脸检测器的输出结果对关键点定位进行初始化，这种初始化策略使得定位算法容易陷入局部最小值，从而在极端情况下甚至会致使算法完全失效。

发明内容

基于以上问题，本发明的目的在于提出一种关键点定位方法，用于解决上述技术问题中的至少之一。

为实现上述目的，本发明提出一种关键点定位方法，包括以下步骤：

步骤S1、输入图片，采用预训练的全卷积网络获取图片中感兴趣物体的每个关键点的响应图；

步骤S2、基于每个关键点的响应图，采用预训练的点分布模型获取每个关键点的初始定位；

步骤S3、基于加权约束均值漂移方法，迭代调整每个关键点的定位，最后得到每个关键点的最终定位。

进一步地，上述步骤S2具体包括以下步骤：

步骤S21、选择每个关键点的响应图中响应值最大的位置，作为每个关键点的粗略定位；

步骤S22、采用预训练的点分布模型以最小重构误差重构上述粗略定位，得到一定位形状，并将定位形状作为每个关键点的初始定位。

进一步地，上述步骤S3具体包括以下步骤：

步骤S31、提取每个关键点的响应图中，以当前定位为中心的每个关键点的局部响应图；

步骤S32、基于每个关键点的局部响应图，计算置信度向量；

步骤S33、对每个关键点的局部响应图进行归一化，使每个关键点的局部响应图的响应值求和为1；

步骤S34、基于归一化后的局部响应图计算均值漂移向量；

步骤S35、基于置信度向量和均值漂移向量，采用加权约束均值漂移方法计算点分布模型的参数更新量；

步骤S36、基于参数更新量，采用点分布模型更新所述每个关键点的定位；

步骤S37、判断点分布模型的计算是否收敛或是否达到最大迭代次数，是，则输出每个关键点的最终定位，否，则重复步骤S31～S36。

进一步地，上述步骤S31中的每个关键点的局部响应图的大小随着迭代次数的增加而减小，直至其宽度小于预设值。

进一步地，上述置信度向量根据每个关键点的局部响应图的响应情况计算；局部响应图的响应值越大、响应位置越集中，置信度向量越大；置信度向量w_i的表达式如下：

其中，sigmoid(·)为S型函数，a、b为经验参数，Ψ_i是第i个关键点对应的形状索引坐标的集合，是局部响应图在坐标y_i处的取值，表示局部响应图响应值的空间分布方差。

进一步地，上述形状索引坐标是局部响应图在原响应图中对应的坐标。

进一步地，上述均值漂移向量为通过对每个关键点的局部响应图进行核密度估计计算得到；进行核密度估计时，高斯核函数的方差与每个关键点的局部响应图的置信度成反比；均值漂移向量的表达式如下：

其中，Ψ_i是第i个关键点对应的形状索引坐标的集合，π_yi是局部响应图在坐标y_i处的取值，为高斯分布的概率密度函数，表示第i个关键点在坐标轴y轴上的当前定位，ρ为平滑响应图的自由参数，w_i为置信度向量，I为单位矩阵，是局部响应图在坐标z_i处的取值，表示第i个关键点的当前定位。

进一步地，上述采用加权约束均值漂移计算所述点分布模型的参数更新量的表达式如下：

Δp＝-(ρΛ^-1+J^TWJ)^-1(ρΛ^-1p^c-J^TWv)；

其中Δp是点分布模型的参数更新量，ρ为平滑响应图的自由参数，A是点分布模型的参数p的高斯先验分布的方差矩阵，J为点分布模型的雅可比矩阵，W＝diag(w_i)是以置信度向量w_i为主对角元素的对角矩阵，p^c表示当前的点分布模型参数，v是均值漂移向量。

进一步地，上述全卷积网络的回归目标为每个关键点的理想响应图；理想响应图为一幅以关键点的真实定位为中心的二维高斯响应图。

进一步地，上述点分布模型为每个关键点的定位形状与模型参数的映射函数；模型参数包括图片中每个关键点定位形状的仿射变换及非刚性变换参数。

进一步地，上述最大迭代次数根据实际情况调整，通常可设置为10～20之间。

本发明提出的关键点定位方法，具有以下有益效果：

1、本发明使用全卷积网络为每个关键点回归获取出其响应图，并从这些响应图中获取关键点的初始定位。这种初始化策略较好地利用图片的全局信息而使得算法不易受局部最小点的影响，因而能较好地应对物体的刚性及非刚性变换，例如人脸图片中的头部姿态及表情变化。

2、本发明采用点分布模型，能有效应对图片中存在的遮挡情况；考虑到响应图的置信度向量，并将其嵌入到加权约束均值漂移中，从而有机地融合全卷积网络的表达能力和点分布模型的先验推理能力。

3、本发明将数据驱动的表达能力及模型驱动的先验推理能力有机地结合起来，使其能较好地应对图片中因物体刚性及非刚性变换和遮挡引起的变化，极大地提高了关键点定位的鲁棒性，为现实场景下的感兴趣物体的关键点定位提供了一种新思路。

附图说明

图1是本发明提出的关键点定位方法的流程框图；

图2是本发明一实施例提出的关键点定位方法的流程图；

图3是本发明一实施例提出的关键点定位方法应用于人脸关键点定位的操作示意图；

图4(a)是本发明一实施例提出的关键点定位方法中关键点的响应图示例；

图4(b)是本发明一实施例提出的关键点定位方法中关键点的理想响应图示例；

图5是本发明一实施例提出的关键点定位方法中的输入图片、响应图及各种定位的输出示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，并参照附图，对本发明进一步详细说明。所描述的实施例子仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明将数据驱动的表达能力及模型驱动的先验信息进行了有机的融合，其使用全卷积网络为每个关键点回归出其响应图，并利用点分布模型从响应图中获取关键点的初始定位。此外，本发明将响应图的置信度向量嵌入到加权约束均值漂移中，从而有机地融合全卷积网络的表达能力和约束局部模型的先验推理能力。对图片中感兴趣物体的非遮挡部分，对应关键点的定位结果更信赖于响应图。而对图片中感兴趣物体的遮挡部分，对应关键点的定位结果更信赖于点分布模型的先验信息。这样，本发明能较好地应对图片中因物体刚性及非刚性变换和遮挡引起的变化，极大地提高了关键点定位的鲁棒性。

具体地，如图1所示，本发明公开了一种关键点定位方法，包括如下三大步骤：

步骤S1、输入图片，采用预训练的全卷积网络获取所述图片中感兴趣物体的每个关键点的响应图；

步骤S3、基于加权约束均值漂移，迭代调整每个关键点的定位，得到每个关键点的最终定位。

具体地，全卷积网络能有效学习感兴趣物体的纹理信息，其输出的响应图对感兴趣物体的缩放、旋转和平移有较好的不变性，这使得算法能有效应对图片中物体的刚性及非刚性变换(例如人脸图片中因头部姿态及表情引起的变化)。

具体地，利用点分布模型从响应图中获取关键点的初始定位，这种初始化策略能较好地利用图片的全局信息而使得算法不易受局部最小点的影响，因此对图片中感兴趣物体的遮挡部分，对应关键点的定位结果更信赖于点分布模型的先验信息，这样，本发明能较好地应对图片中遮挡引起的变化，并适用于不同的物体检测器。

具体地，利用加权约束均值漂移方法，迭代地调整关键点定位。其中根据响应图及当前定位计算的均值漂移向量指示着响应图中似然概率密度高的方向，而响应图的置信度作为对应均值漂移向量的权重。对于图片中感兴趣物体的遮挡部分，对应关键点响应图的置信度较低，定位结果更信赖点分布模型约束下的推理结果。而对于图片中感兴趣物体的非遮挡部分，对应关键点响应图的置信度较高，定位结果更信赖于响应图给出的均值漂移结果。

优选地，上述全卷积网络的回归目标为每个关键点的理想响应图。

具体地，上述理想响应图为一幅以关键点的真实定位为中心的二维高斯响应图。

在一优选实施例中，上述步骤S2具体包括以下步骤：

步骤S22、采用预训练的点分布模型重构出一个逼近每个关键点的粗略定位的定位形状，作为每个关键点的初始定位。

在另一优选实施例中，上述步骤S3具体包括以下步骤：

步骤S32、基于每个关键点的局部响应图，计算置信度向量；

步骤S34、基于归一化后的局部响应图计算均值漂移向量；

步骤S35、基于置信度向量和均值漂移向量，采用加权约束均值漂移计算点分布模型的参数更新量；

步骤S36、基于参数更新量，采用点分布模型更新每个关键点的定位；

步骤S37、判断点分布模型的计算是否收敛或达到最大迭代次数，是，则输出每个关键点的最终定位，否，则重复步骤S31～S36。

最大迭代次数的预设值可根据实际情况调整，通常可设置为10～20之间。

优选地，上述步骤S31中的每个关键点的局部响应图的大小随着迭代次数的增加而减小，直至其宽度等于预设值。

优选地，上述预设值的典型值为输入图片宽度的5％～15％。

优选地，上述置信度向量根据每个关键点的局部响应图的响应情况计算；局部响应图的响应值越大、响应位置越集中，置信度向量越大。

上述置信度向量的表达式如下：

具体地，上述形状索引坐标是局部响应图在原响应图中对应的坐标。

优选地，上述均值漂移向量为通过对每个关键点的局部响应图进行核密度估计计算得到的；进行核密度估计时，高斯核函数的方差与每个关键点的局部响应图的置信度成反比。

上述均值漂移向量的表达式如下：

其中，Ψ_i是第i个关键点对应的形状索引坐标集合，是局部响应图在坐标y_i处的取值，为高斯分布的概率密度函数，表示第i个关键点在坐标轴y轴上的当前定位，ρ为平滑响应图的自由参数，w_i为置信度向量，I为单位矩阵，是局部响应图在坐标z_i处的取值，表示第i个关键点的当前定位。

上述采用加权约束均值漂移计算点分布模型的参数更新量的表达式如下：

Δp＝-(ρΛ^-1+J^TWJ)^-1(ρΛ^-1p^c-J^TWv)； (3)

优选地，上述点分布模型为每个关键点的定位形状与模型参数的映射函数；所述模型参数包括所述图片中每个关键点定位形状的仿射变换及非刚性变换参数。

以下通过具体实施例对本发明提出的关键点定位方法进行详细说明。

实施例

本实施例以人脸关键点定位为例，提出一种基于数据和模型混合驱动的关键点定位方法，适用于人脸关键点定位，能较好地应对现实场景中人脸图片头部姿态变化大、表情夸张及遮挡严重等情况，且适用于Viola-Jones人脸检测器的各种变体。

下面以人脸关键点定位为例，参照附图2～4，对本实施例提出的关键点定位方法的实施细节作进一步详细说明：

步骤S1、将人脸图片输入到一个预训练的全卷积网络，从全卷积网络的输出端得到每个关键点的响应图。如图4(a)是一个关键点的响应图示例；

该全卷积网络由三个子网络组成，分别为主网络，融合网络和上采样网络。主网络、融合网络及上采样网络的输出均为每个关键点的响应图，上采样网络输出响应图的尺寸与输入图片一致，而主网络和融合网络输出响应图的尺寸一样且比输入图片小。主网络最后一次池化后的特征层与输出层的前一层特征层串连起来作为融合网络的输入。主网络及融合网络采用普通卷积核或膨胀卷积核或两者的组合。将融合网络的输出作为上采样网络的输入。上采样网络采用反卷积操作。

值得说明的是，上述全卷积网络中的融合网络能利用关键点间的空间依赖关系，使得输出的响应图更具判别性。而全卷积网络中使用的膨胀卷积核相对普通卷积核更能合理地利用不同尺度下的纹理信息，并使得网络模型更为精致。

上述全卷积网络的训练目标为

其中λ为网络参数，表示训练图片及其关键点真实定位x^*，N表示训练集，表示第i个关键点的理想响应图，为网络在输入时第i通道的输出。这里所述第i个关键点的理想响应图定义为一张尺寸与输入图片一致的灰度图片，其在坐标值x的像素值定义为其中是第i个关键点的真实定位坐标，σ用于设置响应区域的大小。主网络和融合网络训练目标的形式与全卷积网络一致，而所用理想响应图的尺寸则缩小至与其输出层一致。图4(b)是图4(a)对应关键点的理想响应图示例。

需要说明的是，在本实施例中，训练全卷积网络时可先训练主网络和融合网络，再使用其模型精调整个全卷积网络。精调时，应使主网络及融合网络的学习率置为0。

步骤S2、基于每个关键点的响应图，采用预训练的点分布模型获取每个关键点的初始定位，具体的包括以下步骤：

步骤S21、将每张响应图的最大响应点位置作为其关键点的粗略定位；

步骤S22、将步骤S21得到的粗略定位投影到预训练的点分布模型并得到关键点的初始定位。

本实施例所述的点分布模型表述如下：

其中x是关键点定位形状，是关键点定位的平均形状，Φ是对训练形状集应用主成分分析得出的前m个最大特征值对应的特征向量，s是尺度参数，R是平面内旋转参数，q是非刚性变换参数，t是平移参数。点分布模型参数p＝{s，R，t，q}。

其中，将粗略定位投影到点分布模型的具体步骤如下：

步骤S221、应用普鲁克分析(Procrustes analysis)，将粗略定位对齐到平均形状得到仿射变换参数s、R和t。应用参数到粗略定位得到归一化粗略形状应用下式求得非刚性变换参数q：

步骤S222、得到参数s、R、t和q后，应用点分布模型生成新的定位形状作为关键点的初始定位。

步骤S3、基于加权约束均值漂移方法，迭代调整每个关键点的定位，得到每个关键点的最终定位；具体地包括以下步骤：

步骤S31、由当前定位获得每个关键点的形状索引坐标；

该形状索引坐标指的是以关键点坐标为中心，大小为r×r的方格坐标集。这里所述的尺寸r随着迭代次数增加而递减，直至等于预设值，该预设值的典型值为输入图片宽度的8％；

步骤S32、根据形状索引坐标从每个关键点的响应图获取其局部响应图，对局部响应图中索引坐标超出响应图索引边界的部分填0，计算局部响应图的置信度向量；

其中第i张局部响应图的置信度向量的表达式如公式(1)所示。公式(1)中的a和b取值分别为0.25和20。

步骤S34、由局部响应图计算其均值漂移向量；

其中计算第i张局部响应图的均值漂移向量的表达式如公式(2)所示。

其中，参数更新量的表达式如公式(3)所示。

值得说明的是，本实施例中，加权约束均值漂移是基于约束关键点均值漂移(RLMS)改进而来的，因此在对响应图进行核密度估计(KDE)时，对高斯核函数的方差用响应图的置信度作调整，即如下式所示：

其中表示图片中第i个关键点落在坐标x_i的概率，视候选定位坐标y_i为隐变量，应用期望最大算法及高斯牛顿法可求得参数更新量的表达式，即为加权约束均值漂移。

值得说明的是，本实施例中，加权约束均值漂移可理解为交替地根据局部响应图计算关键点的更新步长并对其施加点分布模型的约束，而响应图的置信度较好地平衡了更新步长与点分布模型的关系，充分互补了数据驱动和模型驱动的优势。

步骤S36、应用参数更新，根据点分布模型得到关键点的更新定位；

步骤S37、判断点分布模型的计算是否收敛或迭代次数达到预设值15，是，则输出每个关键点的最终定位，否，则重复步骤S31～S36。

如图5展示了若干输入图片及经过关键点定位方法各个步骤的输出，其中第一列是输入图片，第二列是各关键点的响应图与输入图片的叠加显示，第三列是由响应图中最大响应位置得到的粗略定位，第四列是将粗略定位投影到点分布模型得到的初始定位，第五列是使用加权约束均值漂移迭代得到的最终定位。从图5中可看出，本实施例对现实场景中人脸图片存在的头部姿态变化大、表情夸张及遮挡严重等情况表现良好。

综上所述，本实施例提出的关键点定位方法，其优点在于充分融合了数据驱动的表达能力及模型驱动的先验推理能力，与其他关键点定位方法相比，本实施例提出的方法对现实场景下的图片中因感兴趣物体的刚性及非刚性变换、遮挡及光照引起的变化情况表现更为鲁棒、准确。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种关键点定位方法，包括以下步骤：

步骤S2、基于所述每个关键点的响应图，采用预训练的点分布模型获取所述每个关键点的初始定位；

步骤S3、基于加权约束均值漂移方法，迭代调整所述每个关键点的定位，最后得到所述每个关键点的最终定位。

2.如权利要求1所述的关键点定位方法，其特征在于，所述步骤S2具体包括以下步骤：

步骤S21、选择所述每个关键点的响应图中响应值最大的位置，作为所述每个关键点的粗略定位；

步骤S22、采用预训练的点分布模型以最小重构误差重构上述粗略定位，得到一定位形状，并将所述定位形状作为所述每个关键点的初始定位。

3.如权利要求1所述的关键点定位方法，其特征在于，所述步骤S3具体包括以下步骤：

步骤S31、提取所述每个关键点的响应图中，以当前定位为中心的每个关键点的局部响应图；

步骤S32、基于所述每个关键点的局部响应图，计算置信度向量；

步骤S33、对所述每个关键点的局部响应图进行归一化，使所述每个关键点的局部响应图的响应值求和为1；

步骤S34、基于所述归一化后的局部响应图计算均值漂移向量；

步骤S35、基于所述置信度向量和均值漂移向量，采用加权约束均值漂移方法计算所述点分布模型的参数更新量；

步骤S36、基于所述参数更新量，采用所述点分布模型更新所述每个关键点的定位；

步骤S37、判断所述点分布模型的计算是否收敛或是否达到最大迭代次数，是，则输出所述每个关键点的最终定位，否，则重复步骤S31～S36。

4.如权利要求3所述的关键点定位方法，其特征在于，所述步骤S31中的每个关键点的局部响应图的大小随着迭代次数的增加而减小，直至其宽度小于预设值。

5.根据权利要求3所述的关键点定位方法，其特征在于，所述置信度向量根据所述每个关键点的局部响应图的响应情况计算；所述局部响应图的响应值越大、响应位置越集中，所述置信度向量越大；所述置信度向量w_i的表达式如下：

w_{i} = s i g m o i d (a \frac{Σ_{y_{i} &Element; Ψ_{i}} π_{y_{i}}}{{var}_{y_{i} &Element; Ψ_{i}} (π_{y_{i}} y_{i})} + b);

6.如权利要求5所述的关键点定位方法，其特征在于，所述形状索引坐标是指所述局部响应图在原响应图中对应的坐标。

7.如权利要求3所述的关键点定位方法，其特征在于，所述均值漂移向量为通过对所述每个关键点的局部响应图进行核密度估计计算得到；所述均值漂移向量的表达式如下：

其中，Ψ_i是第i个关键点对应的形状索引坐标的集合，是局部响应图在坐标y_i处的取值，为高斯分布的概率密度函数，表示第i个关键点在坐标轴y轴上的当前定位，ρ为平滑响应图的自由参数，w_i为置信度向量，I为单位矩阵，是局部响应图在坐标z_i处的取值，表示第i个关键点的当前定位。

8.如权利要求3所述的关键点定位方法，其特征在于，所述采用加权约束均值漂移方法计算所述点分布模型的参数更新量的表达式如下：

Δp＝-(ρΛ^-1+J^TWJ)^-1(ρΛ^-1p^c-J^TWv)；

9.如权利要求1所述的关键点定位方法，其特征在于，所述全卷积网络的回归目标为所述每个关键点的理想响应图；所述理想响应图为一幅以所述关键点的真实定位为中心的二维高斯响应图。

10.如权利要求1所述的关键点定位方法，其特征在于，所述点分布模型为所述每个关键点的定位形状与模型参数的映射函数；所述模型参数包括所述图片中每个关键点定位形状的仿射变换及非刚性变换参数。