CN105868769A

CN105868769A - 图像中的人脸关键点定位方法及装置

Info

Publication number: CN105868769A
Application number: CN201510036577.2A
Authority: CN
Inventors: 童志军; 刘彬; 张洪明
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-01-23
Filing date: 2015-01-23
Publication date: 2016-08-17

Abstract

本申请实施例公开了图像中的人脸关键点定位方法及装置，所述方法包括：对待检测目标图像进行人脸检测，确定人脸区域范围；利用第一预测模型确定所述人脸区域范围内各个人脸关键点的初始位置；基于所述人脸区域范围内各个像素的像素值以及所述各个人脸关键点的初始位置，利用第二预测模型进行多次迭代运算，逐步更新各个人脸关键点的位置，并当迭代运算结束时，确定所述人脸区域框内各个人脸关键点的最终位置；其中，在首次迭代运算时，所述第二预测模型以所述初始位置处提取的形状索引特征为输入。通过本申请实施例，能够更准确的进行人脸关键点的定位。

Description

图像中的人脸关键点定位方法及装置

技术领域

本申请涉及人脸关键点定位技术领域，特别是涉及图像中的人脸关键点定位方法及装置。

背景技术

随着科技的发展，图像在信息传播上起到极大的作用。其中有很多图像是与人脸相关的，并且，在实际应用中，有很多场合都需要进行自动化的人脸关键点(主要为眼睛、鼻子、嘴巴和人脸外轮廓点)定位。例如，这些场合包括：人脸表情合成、人脸属性分析(包括分析出性别、表情类型等)、三维人脸恢复，等等。然而，图像中的人物往往姿态各异、表情夸张并且背景复杂，导致人脸关键点很难精确定位。

传统的人脸关键点定位算法主要分为基于全局特征和局部特征的定位算法。其中，基于全局特征的定位算法主要包括基于DCNN(Deep ConvolutionNeural Networks)的人脸关键点定位算法，该算法通过设计深层的非线性卷积神经网络，首先在第一层得到鲁棒的人脸关键点位置，之后，在第二层中，可以在第一层输出的人脸关键点处，按照五官位置分区域确定Patch(图像片)，对每个人脸关键点使用DCNN算法分别精细调整，最终得到由粗到精的人脸关键点定位结果。但是，这种分区域Patch对每个人脸关键点单独局部调优，由于缺少人脸整体形状的约束，只能限制在很小的一个范围内调整，不能达到人脸关键点位置的全局最优。

而基于局部特征最好的人脸关键点定位算法是基于SDM(SupervisedDescent Method)监督下降的回归预测算法。该算法首先初始化平均人脸形状并提取形状索引特征，利用预先训练得到的一系列回归矩阵和偏置项，基于监督地梯度下降框架由粗到精地拟合到真实的人脸关键点位置。但是这种算法是根据人脸检测框初始化平均人脸形状，作为算法迭代的初始点，导致算法精度严重依赖人脸检测框的位置和大小，当实际人脸检测框和训练人脸图像标定的人脸检测框的不一致时，人脸关键点定位往往会失败。然而，现有技术中，一般通过基础的人脸识别技术，识别出大致的矩形区域，以该区域作为人脸检测框，作为算法迭代的起始点，显然，这种矩形区域往往是不够准确的，因此，最终的人脸关键点定位结果也往往不够准确，

因此，如何更准确的进行人脸关键点的定位，成为需要本领域技术人员解决的技术问题。

发明内容

本申请提供了图像中的人脸关键点定位方法及装置，能够更准确的进行人脸关键点的定位。

本申请提供了如下方案：

一种图像中的人脸关键点定位方法，包括：

对待检测目标图像进行人脸检测，确定人脸区域范围；

利用第一预测模型确定所述人脸区域范围内各个人脸关键点的初始位置；所述第一预测模型以所述人脸区域范围内各个像素的像素值为输入，用于描述人脸区域范围内各个像素的像素值与人脸关键点位置之间的非线性映射关系；

基于所述人脸区域范围内各个像素的像素值以及所述各个人脸关键点的初始位置，利用第二预测模型进行多次迭代运算，逐步更新各个人脸关键点的位置，并当迭代运算结束时，确定所述人脸区域框内各个人脸关键点的最终位置；其中，在首次迭代运算时，所述第二预测模型以所述初始位置处提取的形状索引特征为输入；所述形状索引特征根据各个像素的像素值以及所述初始位置信息确定。

一种图像中的人脸关键点定位装置，包括：

人脸区域范围确定单元，用于对待检测目标图像进行人脸检测，确定人脸区域范围；

第一预测单元，用于利用第一预测模型确定所述人脸区域范围内各个人脸关键点的初始位置；所述第一预测模型以所述人脸区域范围内各个像素的像素值为输入，用于描述人脸区域范围内各个像素的像素值与人脸关键点位置之间的非线性映射关系；

第二预测单元，用于基于所述人脸区域范围内各个像素的像素值以及所述各个人脸关键点的初始位置，利用第二预测模型进行多次迭代运算，逐步更新各个人脸关键点的位置，并当迭代运算结束时，确定所述人脸区域框内各个人脸关键点的最终位置；其中，在首次迭代运算时，所述第二预测模型以所述初始位置处提取的形状索引特征为输入；所述形状索引特征根据各个像素的像素值以及所述初始位置信息确定。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，可以首先利用第一预测模型对人脸关键点的初始位置进行预测，然后以该初始位置作为第二预测模型的起点，再进行由粗到精的修正，最终可以使得预测结果的准确度得到提高。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的方法的流程图；

图2是本申请实施例中人脸关键点标注位置示意图；

图3是本申请实施例提供的装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，为了更精确的进行人脸关键点的定位，可以分为两个处理阶段，首先，使用DNN(Deep Neural Networks，深层神经网络)等第一预测模型，由人脸区域范围内各个像素的像素值整体回归出人脸关键点的初始位置。然后，使用Cascade Regression等第二预测模型进行多次迭代，由第一阶段确定出的人脸关键点的初始位置，逐步逼近人脸关键点的真实位置。下面对具体的实现方式进行详细介绍。

参见图1，本申请实施例首先提供了一种图像中的人脸关键点定位方法，该方法可以包括以下步骤：

S101：对待检测目标图像进行人脸检测，确定人脸区域范围；

其中，待检测目标图像可以是任意格式，任意大小的人脸图像，具体的，这些图像可以包括电商平台中的商品主图、细节图、画报封面图、广告图等，还可以包括其他平台或者应用中需要进行表情合成等处理的图像。

在确定了待检测的目标图像之后，可以首先对该图像进行人脸检测，此时，可以确定出人脸区域范围。也就是说，在一幅图像中，人脸区域只占其中的一部分，其他部分还有背景以及人体的其他部分等等，在该步骤中，就是从整幅图像中识别出人脸所在的区域。该区域一般会是以一个矩形框等进行划定，并不会精确到识别出人脸轮廓曲线等。需要说明的是，关于人脸区域检测的具体实现方式，可以参见已有技术中的实现，由于其不属于本申请的发明重点，因此，这里不再详述。

S102：利用第一预测模型确定所述人脸区域框内各个人脸关键点的初始位置；所述第一预测模型以所述人脸区域范围内各个像素的像素值为输入，用于描述人脸区域范围内各个像素的像素值与人脸关键点位置之间的非线性映射关系

在确定出人脸区域范围之后，可以利用该区域范围内各个像素的像素值，进行第一个阶段的预测。其中，为了便于处理，在具体进行预测之前，还可以首先对人脸区域范围的图像进行归一化处理，例如，归一化后的分辨率可以为50×50，然后将其作为第一预测模型的输入，进行人脸关键点初始位置的定位。

关于该步骤中的第一预测模型，可以是DNN模型，或者还可以是AutoEncoder、DCNN、DBM等其他的深度学习模型。在使用具体的第一预测模型进行预测之前，可以首先进行第一预测模型的训练，以确定具体用于预测的模型参数。其中，训练过程中，模型初始化可以选用已有的公开的模型参数，或者采用layer wise的Pretrain的方式初始化模型参数，在这个基础上微调模型参数。通过这些方法可以加速模型训练，得到更精确的模型参数。

下面以DNN模型为例，对具体的第一模型预测训练及预测过程进行介绍。

首先介绍第一预测模型训练过程。

训练数据由训练样本中的人脸图像和对应的人工标注的人脸关键点位置实际坐标组成，人脸关键点的标注示例如图2所示。关于人工标注的人脸关键点位置，可以是由用户通过观察人脸图像中各个器官所在的位置来标注的，一般而言，每个训练样本中标注的人脸关键点的数量是相等的，例如，一般可以为68个。

其中，为了增强训练样本的多样性，还可以将原始训练样本，通过镜像、平移、旋转等进行扩充。例如，原始训练样本有3837个，通过水平镜像对称扩充为7674个，之后还可以通过平移、旋转等扰动增加训练样本，进一步增强样本的多样性。这样，可以防止DNN训练模型过拟合到训练数据上，提高模型应对实际场景的鲁棒性。

接下来，针对每个训练样本，可以首先确定出人脸区域范围，将人脸图像归一化为50×50大小，并且还可以使用Z-Score等方式归一化像素值。这样，每个训练样本输入到DNN网络时，输入的都是2500个像素的像素值。由于需要预测的结果是各个人脸关键点所在的位置，而人工标注的人脸关键点数量为68个，每个人脸关键点的位置一般由坐标来表示，其中包括横坐标和纵坐标，因此，DNN网络的输出一般为136个数值，对应68个人脸关键点的横纵坐标。例如，输出的值可以为(x1，y1，x2，y2……x68，y68)，其中(x1，y1)对应第一个人脸关键点位置的坐标，(x2，y2)对应第二个人脸关键点位置的坐标，以此类推。另外，DNN网络一般具有多层的特点，因此，还可以预先定义好中间各层的节点数量。例如，对于前述例子，DNN网络结构可以为[2500，1600，900，400，136]，也就是说，输入层为2500个神经元，输出层为136个，中间3个隐含层分别为1600、900、400。

具体实现时，在各层上可以选用Sigmoid等非线性激活函数来模拟人脸像素值和人脸关键点位置坐标之间的非线性映射关系。但是，由于Sigmoid激活函数的输出值一般仅分布在[0，1]区间内，但输出的人脸关键点位置坐标不仅仅分布在[0，1]区间内，例如，对于分辨率为50×50的人脸图像，最大的坐标可能就是(50，50)。因此，在本申请实施例中，可以在前k-1层(假设DNN网络共为k层)选用Sigmoid激活函数，最后一层选用线性回归函数。这样，该DNN网络的前k-1层可以表示为：

F^{*} = \arg \min | | S_{g} (x) - f_{k} (f_{k - 1} (\cdot \cdot \cdot f_{1} (x))) {| |}_{2}^{2} + α Σ_{i = 1}^{k} {| | W | |}_{F}^{2} - - - (1)

其中，

f_i(a_i-1)＝σ(W_ia_i-1+b_i)i＝1,2…,k-1

DNN的第k层可以表示为：

f_k(a_k-1)＝W_ka_k-1+b_k (2)

σ代表前四层中各层上的Sigmoid激活函数，从式(1)中的f_k(f_k-1(…f₁(x)))部分可以看出，每一层的激活函数都以上一层的函数值作为自变量，这样可以提高非线性程度，有利于提高预测的准确度。

S_g(x)代表人工标注的人脸关键点真实坐标。

a_i代表人脸区域范围内各个像素的像素值。

W_i和b_i是训练过程中前k-1层待确定的参数，W_k和b_k是第k层待确定的参数。

其中，假设DNN网络结构为[2500，1600，900，400，136]，则：

W₁是一个2500×2500的矩阵，b₁是一个2500×1的向量；

W₂是一个1600×2500的矩阵，b₂是一个1600×1的向量；

W₃是一个900×1600的矩阵，b₃是一个900×1的向量；

W₄是一个400×900的矩阵，b₄是一个400×1的向量；

到了第五层的时候，是进行的线性回归，因此，W₅是一个136×400的矩阵，b₅是一个136×1的向量。

其中，在初始状态下，各个层上的W以及b可以具有预置的初始值，具体的取值可以是根据经验值等确定。

其他训练参数的取值也可以根据经验值等进行设置，例如可以为：weightDecay＝0.001，learningRate＝0.01，momentum＝0.9，scalingLearningRate＝0.98。

在将上述训练参数初始值确定之后，就可以进入具体的训练过程，训练的最终目的就是确定出W以及b的值，使得式(1)以及式(2)所表达的非线性映射关系，能够更准确的表达出人脸图像中的像素值与各个人脸关键点位置之间的映射关系。具体进行训练时，可以进行多次迭代，其中，在每一次迭代时，可以分别将各个训练样本对应的像素值输入到模型中，逐层运算之后，到第五层可以输出一个136×1的向量，对应预测出的68个关键位置的坐标，然后将预测结果与预先标注的人脸关键点位置进行比对，确定出预测的误差，然后基于随机梯度下降优化的方式，对各个W以及b的值进行优化调整，直到算法收敛之后，就可以确定出各个W以及b的最终取值，训练过程结束。

总之，在具体进行训练时，可以确定出训练样本图像，并确定出训练样本图像中的人脸区域范围，利用人脸区域范围内各个像素的像素值进行多次迭代运算，直到算法收敛时，确定出第一预测模型中参数的最终值，其中，在每一次迭代运算中，利用上一次迭代中调整后的参数，对人脸关键点位置进行预测，并将预测结果与已知的人脸关键点实际位置进行比对，根据误差的方向，对第一预测模型中的参数进行调整。

接下来介绍预测的过程。

由于已经训练得到各个W以及b的最终取值，因此，DNN网络的具体结构已经确定，也即，此时式(1)以及式(2)中的参数W以及b的取值已经是训练得到的值。因此，可以用来进行人脸关键点初始位置的预测。

具体的在进行预测时，首先可以将人脸区域范围内的图像归一化为预置的分辨率，该预置的分辨率可以与对第一预测模型进行训练时，将训练样本图像归一化到的分辨率相同。例如，对于某一目标图像，同样可以首先确定出人脸区域范围，将该区域图像的分辨率归一化到50×50，并使用Z-Score对像素值进行归一化，之后就可以利用建立好的第一预测模型进行预测。具体的，可以将归一化之后的像素值输入到式(1)以及式(2)中，并向前传播，最终第一预测模型输出的值即为预测出的各个人脸关键点的位置。例如，假设DNN网络结构中最后一层为136个神经元，则意味着可以预测出68个人脸关键点的位置。在该方式中，由于利用了人脸图像的整体信息，并且该模块对人脸检测出的人脸区域范围不敏感，因此能够得到鲁棒的人脸关键点位置。

当然，在该步骤中预测出人脸关键点位置之后，并不是直接作为最终的预测结果，而是作为人脸关键点的初始位置，基于该初始位置进行后续第二阶段的更加精细的预测。

S103：基于所述人脸区域范围内各个像素的像素值以及所述各个人脸关键点的初始位置，利用第二预测模型进行多次迭代运算，逐步更新各个人脸关键点的位置，并当迭代运算结束时，确定所述人脸区域框内各个人脸关键点的最终位置；其中，在首次迭代运算时，所述第二预测模型以所述初始位置处提取的形状索引特征为输入；所述形状索引特征根据各个像素的像素值以及所述初始位置信息确定。

在第二阶段中的具体预测，可以是基于形状索引特征进行的预测，在本申请实施例中，可以利用人脸区域框内各个像素的像素值以及所述各个人脸关键点的初始位置，计算出各个人脸关键点的初始位置处提取形状索引特征，然后再作为预置的第二预测模型的输入，对第一阶段中确定出的人脸关键点位置进行由粗到精的更精细预测。

关于该步骤中的第二预测模型，可以是Cascade Regression模型，或者，还可以是线性回归模型、Logistic回归、或者DNN、Random Forests等非线性回归模型。在使用具体的第二预测模型进行预测之前，同样可以首先进行第二预测模型的训练，以确定具体用于预测的模型参数。

下面以Cascade Regression模型为例，对具体的第二预测模型训练及预测过程进行介绍。

首先介绍第二预测模型训练过程。

对于第二预测模型而言，训练数据可以由训练样本中的人脸图像、在第一阶段预测的人脸关键点初始位置、以及人工标注的人脸关键点位置实际坐标组成。具体的，可以首先将每个训练样本表达为一个三元组：其中，I_i为每张人脸训练样本各个像素上的像素值，在训练样本归一化到分辨率为50×50的情况下，I_i是一个2500×1的向量；S_i为人工标注的人脸关键点的实际位置，在人脸关键点为68个的情况下，S_i是一个136×1的向量；为通过DNN计算出的人脸关键点的初始位置，同样的，在人脸关键点为68个的情况下，是一个136×1的向量。

具体训练时，首先可以计算每个样本中，人脸关键点的初始位置和实际位置之间的误差并提取初始位置的形状索引特征然后基于最小二乘计算回归矩阵R^t，最后更新人脸关键点的位置下次迭代时，计算更新后的人脸关键点位置与实际位置之间的误差，在重新更新后的位置处的提取形状索引特征，重新计算回归矩阵R^t，再更新人脸关键点位置，以此类推，整个优化迭代四至五次即可收敛。

其中，提取的具体形状索引特征可以包括SIFT、HOG、Gabor、LBP等局部特征描述子。例如，是一个(L×68)×1的向量，其中，L为具体的局部特征描述子的特征维度数，例如，对于SIFT，L＝128，则128×68＝8704，因此，是一个8704×1的向量。

R^t是训练过程中需要计算的模型参数，在上述假设的数值的情况下，该R^t是一个136×8704的矩阵，在每次迭代过程中，都可以计算得到一个R^t，迭代n次，算法收敛后，可以得到n个R^t，并分别记录这n个R^t，后续的预测过程中，每次迭代时，使用对应轮次上的R^t进行人脸关键点位置的更新。

具体的，训练的过程可以由以下各式所示：

Δ S_{i}^{t} = S_{i}^{t} - {\overset{&OverBar;}{S}}_{i}^{t} - - - (3)

f_{i}^{t} = h^{t} (I_{i}, {\overset{&OverBar;}{S}}_{i}^{t - 1}) - - - (4)

根据上述两个公式的计算结果，可以进行以下计算：

R^{t} = \arg \min_{R} Σ_{i} | R * f_{i}^{t} - Δ S_{i}^{t} | - - - (5)

之后，可以用得到的R^t，计算更新的人脸关键点位置：

{\overset{&OverBar;}{S}}_{i}^{t} : = {\overset{&OverBar;}{S}}_{i}^{t} + R * f_{i}^{t} - - - (6)

需要说明的是，式5中的R^t是根据提取出的关键初始位置处的形状索引特征，以及人脸关键点初始位置与实际位置之间的误差计算出来的，因此，R^t只是一个逼近实际映射关系的值，相应的，利用式(6)计算出的可以看作是人脸关键点的更新后的位置，与式(3)中实际人工标注的人脸关键点实际位置是不相等的，在利用当前R^t对人脸关键点位置进行更新后，可以根据更新后的位置与实际位置之间的误差，对R^t进行调整。这样，多次迭代的目的，就是使得R^t逐步更准确的描述出映射关系，并最终使得利用R^t更新后的人脸关键点位置逐步逼近标注的人脸关键点实际位置。

总之，假设经过4次迭代后算法收敛，则可以得到R¹、R²、R³、R⁴这样四个矩阵，后续的预测过程，同样可以进行4次迭代，每次迭代过程中，根据上一次迭代更新后的人脸关键点位置，以及对应的训练次数上获得的R^t进行人脸关键点位置的更新。

另外，在前述的方案中，每次迭代使用的图像的像素值可以是相同的，为了使得第二阶段的预测结果更准确，还可以基于每个训练样本生成高斯金字塔图像，也即，针对同一训练样本，可以生成多个不同分辨率的图像，例如，可以有50×50、75×75、100×100、125×125等等，每次迭代过程中，可以用不同分辨率的图像进行预测。这样，在第一次迭代时，I₁仍然是一个2500×1的向量；在第二次迭代时，人脸图像内包含75×75＝5625个像素，因此I₂是一个5625×1的向量；在第二次迭代时，人脸图像内包含100×100＝10000个像素，因此I₃是一个10000×1的向量，以此类推。由于分辨率越高的情况下，能够获得的有效信息将更多，因此，有利于获得更准确的预测结果，进而，在训练的过程中，获得的R^t也更准确。

总之，在进行第二预测模型的训练时，可以确定训练样本图像，确定出训练样本图像中的人脸区域范围，并根据人脸区域范围内各个像素的像素值，利用第一预测模型确定出人脸区域范围内人脸关键点的初始位置，然后可以以人脸区域范围内各个像素的像素值以及初始位置处的形状索引特征为起点，进行多次迭代，直到算法收敛时，可以确定出第二预测模型需要迭代的次数，以及每次迭代使用的回归矩阵。其中，在每次迭代运算中，可以首先计算上次迭代运算中更新后的人脸关键点的位置与人脸关键点实际位置之间的误差，并提取上次迭代运算中更新后的人脸关键点位置处的形状索引特征，利用该误差以及该形状索引特征，计算回归矩阵，并利用该回归矩阵重新更新人脸关键点位置；其中，在首次迭代运算时，利用的是第一预测模型确定出的人脸关键点的初始位置，计算与人脸关键点实际位置之间的误差。由于首次迭代时使用的人脸关键点初始位置是根据第一预测模型预测的，而不再是一个矩形等大致的人脸区域范围，因此，预测的准确度会更高。

下面介绍第二预测模型的具体预测过程。

具体在利用第二预测模型进行预测时，由于已经针对具体的目标图像进行完了第一阶段的预测，得到了各个人脸关键点的初始位置，因此，同样可以首先利用式(4)提取初始位置的形状索引特征之后利用式(6)计算更新后的人脸关键点位置信息，下次在更新后的人脸关键点位置处重新提取形状索引特征，并利用式(6)重新计算更新后的人脸关键点位置信息，以此类推。其中，由于在训练过程中经过n次迭代得到了n个R^t，因此，在进行预测时，同样可以迭代n次，其中，在进行第i次迭代时，使用的是训练过程中第i次迭代时得到的R^t，在第n次迭代结束后，就可以得到最终定位出的人脸关键点位置。

另外，如果训练过程中采用了高斯金字塔图像，则在预测时，也同样可以针对待预测的目标图像生成高斯金字塔图像，在每次迭代过程中，使用不同分辨率下的像素值信息，这样可以得到更为准确的预测结果。

总之，通过本申请实施例，可以首先利用第一预测模型对人脸关键点的初始位置进行预测，然后以该初始位置作为第二预测模型的起点，再进行由粗到精的修正，最终可以使得预测结果的准确度得到提高。

与本申请实施例提供的图像中的人脸关键点定位方法相对应，本申请实施例还提供了一种图像中的人脸关键点定位装置，参见图3，该装置具体可以包括：

人脸区域范围确定单元301，用于对待检测目标图像进行人脸检测，确定人脸区域范围；

第一预测单元302，用于利用第一预测模型确定所述人脸区域范围内各个人脸关键点的初始位置；所述第一预测模型以所述人脸区域范围内各个像素的像素值为输入，用于描述人脸区域范围内各个像素的像素值与人脸关键点位置之间的非线性映射关系；

第二预测单元303，用于基于所述人脸区域范围内各个像素的像素值以及所述各个人脸关键点的初始位置，利用第二预测模型进行多次迭代运算，逐步更新各个人脸关键点的位置，并当迭代运算结束时，确定所述人脸区域框内各个人脸关键点的最终位置；其中，在首次迭代运算时，所述第二预测模型以所述初始位置处提取的形状索引特征为输入；所述形状索引特征根据各个像素的像素值以及所述初始位置信息确定。

其中，所述第一预测模型包括深层神经网络DNN模型，所述DNN模型包括k层，其中，前k-1层采用非线性激活函数，第k层采用线性回归函数。

在利用第一预测模型确定所述人脸区域范围内各个人脸关键点的初始位置之前，还包括对所述第一预测模型的训练过程，所述训练过程包括：

第一训练单元，用于确定训练样本图像，并确定出训练样本图像中的人脸区域范围以及已知的人脸关键点的实际位置，利用人脸区域范围内各个像素的像素值进行多次迭代运算，直到算法收敛时，确定出第一预测模型中参数的最终值；

其中，在每一次迭代运算中，利用上一次迭代中调整后的参数，对人脸关键点位置进行预测，并将预测结果与已知的人脸关键点实际位置进行比对，根据误差的方向，对第一预测模型中的参数进行调整。

另外，该装置还可以包括：

归一化处理单元，用于在利用第一预测模型确定所述人脸区域范围内各个人脸关键点的初始位置之前，将所述人脸区域范围内的图像归一化为预置的分辨率，所述预置的分辨率与对第一预测模型进行训练时，将训练样本图像归一化到的分辨率相同。

在利用第二预测模型进行多次迭代运算之前，还包括对所述第二预测模型的训练过程，所述训练过程包括：

初始位置确定单元，用于确定训练样本图像，确定出训练样本图像中的人脸区域范围以及已知的人脸关键点的实际位置，并根据所述人脸区域范围内各个像素的像素值，利用第一预测模型确定出所述人脸区域范围内人脸关键点的初始位置；

第二训练单元，用于以所述人脸区域范围内各个像素的像素值以及所述初始位置处的形状索引特征为起点，进行多次迭代，直到算法收敛时，确定出第二预测模型中每次迭代使用的回归矩阵；

其中，在每次迭代运算中，计算上次迭代运算中更新后的人脸关键点的位置与人脸关键点实际位置之间的误差，并根据人脸区域范围内各像素的像素值，提取上一次迭代运算中更新后的人脸关键点位置处的形状索引特征，利用所述误差以及所述形状索引特征，计算回归矩阵，并利用该回归矩阵重新更新人脸关键点位置；其中，在首次迭代运算时，利用所述第一预测模型确定出的人脸关键点的初始位置，计算与人脸关键点实际位置之间的误差。

为了使得预测结果更准确，在训练过程中，还可以包括：

第一高斯金字塔图像生成单元，用于将所述训练样本图像生成高斯金字塔图像，以便在每次迭代运算过程中，使用不同分辨率的图像像素值信息进行计算。

具体在利用第二预测模型进行多次迭代运算，逐步更新各个人脸关键点的位置时，在首次之后的各次迭代运算中，可以根据人脸区域范围内各像素的像素值，提取上一次迭代运算中更新后的人脸关键点位置处的形状索引特征，并利用该形状索引特征以及当前轮次对应的回归矩阵，计算出此次迭代中更新后的人脸关键点位置。

另外，该装置还可以包括：

第二高斯金字塔图像生成单元，用于将所述目标图像生成高斯金字塔图像，以便在每次利用第二预测模型进行迭代时，使用不同分辨率的图像像素值信息进行计算。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的图像中的人脸关键点定位方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像中的人脸关键点定位方法，其特征在于，包括：

对待检测目标图像进行人脸检测，确定人脸区域范围；

2.根据权利要求1所述的方法，其特征在于，所述第一预测模型包括深层神经网络DNN模型，所述DNN模型包括k层，其中，前k-1层采用非线性激活函数，第k层采用线性回归函数。

3.根据权利要求1所述的方法，其特征在于，在利用第一预测模型确定所述人脸区域范围内各个人脸关键点的初始位置之前，还包括对所述第一预测模型的训练过程，所述训练过程包括：

确定训练样本图像，并确定出训练样本图像中的人脸区域范围以及已知的人脸关键点的实际位置，利用人脸区域范围内各个像素的像素值进行多次迭代运算，直到算法收敛时，确定出第一预测模型中参数的最终值；

4.根据权利要求1所述的方法，其特征在于，还包括：

在利用第一预测模型确定所述人脸区域范围内各个人脸关键点的初始位置之前，将所述人脸区域范围内的图像归一化为预置的分辨率，所述预置的分辨率与对第一预测模型进行训练时，将训练样本图像归一化到的分辨率相同。

5.根据权利要求1所述的方法，其特征在于，在利用第二预测模型进行多次迭代运算之前，还包括对所述第二预测模型的训练过程，所述训练过程包括：

确定训练样本图像，确定出训练样本图像中的人脸区域范围以及已知的人脸关键点的实际位置，并根据所述人脸区域范围内各个像素的像素值，利用第一预测模型确定出所述人脸区域范围内人脸关键点的初始位置；

以所述人脸区域范围内各个像素的像素值以及所述初始位置处的形状索引特征为起点，进行多次迭代，直到算法收敛时，确定出第二预测模型中每次迭代使用的回归矩阵；

6.根据权利要求5所述的方法，其特征在于，还包括：

将所述训练样本图像生成高斯金字塔图像，以便在每次迭代运算过程中，使用不同分辨率的图像像素值信息进行计算。

7.根据权利要求5所述的方法，其特征在于，在利用第二预测模型进行多次迭代运算，逐步更新各个人脸关键点的位置时，在首次之后的各次迭代运算中，根据人脸区域范围内各像素的像素值，提取上一次迭代运算中更新后的人脸关键点位置处的形状索引特征，并利用该形状索引特征以及当前轮次对应的回归矩阵，计算出此次迭代中更新后的人脸关键点位置。

8.根据权利要求7所述的方法，其特征在于，还包括：

将所述目标图像生成高斯金字塔图像，以便在每次利用第二预测模型进行迭代时，使用不同分辨率的图像像素值信息进行计算。

9.一种图像中的人脸关键点定位装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述第一预测模型包括深层神经网络DNN模型，所述DNN模型包括k层，其中，前k-1层采用非线性激活函数，第k层采用线性回归函数。

11.根据权利要求9所述的装置，其特征在于，在利用第一预测模型确定所述人脸区域范围内各个人脸关键点的初始位置之前，还包括对所述第一预测模型的训练过程，所述训练过程包括：

12.根据权利要求9所述的装置，其特征在于，还包括：

13.根据权利要求9所述的装置，其特征在于，在利用第二预测模型进行多次迭代运算之前，还包括对所述第二预测模型的训练过程，所述训练过程包括：

14.根据权利要求13所述的装置，其特征在于，还包括：

15.根据权利要求13所述的装置，其特征在于，在利用第二预测模型进行多次迭代运算，逐步更新各个人脸关键点的位置时，在首次之后的各次迭代运算中，根据人脸区域范围内各像素的像素值，提取上一次迭代运算中更新后的人脸关键点位置处的形状索引特征，并利用该形状索引特征以及当前轮次对应的回归矩阵，计算出此次迭代中更新后的人脸关键点位置。

16.根据权利要求15所述的装置，其特征在于，还包括：