CN107609519A

CN107609519A - 一种人脸特征点的定位方法及装置

Info

Publication number: CN107609519A
Application number: CN201710833953.XA
Authority: CN
Inventors: 黄朝露
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2018-01-19
Anticipated expiration: 2037-09-15
Also published as: CN107609519B

Abstract

本发明实施例提供了一种人脸特征点的定位方法及装置，其中的方法包括：获取人脸图像；通过深度神经网络处理所述人脸图像，得到所述人脸图像中的人脸特征点的位置信息，所述深度神经网络为根据人脸样本训练得到的网络模型，所述人脸样本包括多种背景及姿态下的人脸样本图像以及与各个人脸样本图像对应的人脸特征点的位置信息。通过本发明实施例，可以提高复杂背景以及多种姿态下人脸特征点定位的准确度。

Description

一种人脸特征点的定位方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种人脸特征点的定位方法及装置。

背景技术

人脸特征点定位是指基于人脸检测技术对图像进行识别，确定出眼、鼻、嘴巴、脸部轮廓等面部关键特征点的位置信息。人脸特征点定位技术是人脸识别、图形学和计算机视觉领域中的一个关键问题，具有重要地位。

目前，人脸特征点定位方法主要包括可变形模板方法、点分布模型方法、图模型方法、级联形状回归方法等。其中，级联形状回归方法具有较高的定位精度和速度，应用较为广泛。

然而，级联形状回归方法非常依赖于初始化特征点的准确度，在实际应用中，人脸特征点往往会受到环境因素如光照不均、背景复杂，以及人脸因素如头发、胡子、眼镜、人脸姿态等的干扰，导致人脸特征点的定位出现较大的偏差。

发明内容

本发明实施例提供一种人脸特征点的定位方法及装置，以解决现有技术中在复杂背景以及多种姿态下人脸特征点定位不准确的问题。

第一方面，本发明实施例提供了一种人脸特征点的定位方法，所述方法包括：

获取人脸图像；

通过深度神经网络处理所述人脸图像，得到所述人脸图像中的人脸特征点的位置信息，所述深度神经网络为根据人脸样本训练得到的网络模型，所述人脸样本包括多种背景及姿态下的人脸样本图像以及与各个人脸样本图像对应的人脸特征点的位置信息。

可选地，所述深度神经网络包括可变形卷积神经网络和递归神经网络；所述通过深度神经网络处理所述人脸图像，得到所述人脸图像中的人脸特征点的位置信息，包括：

根据所述可变形卷积神经网络，获取所述人脸图像对应的特征映射图；

根据所述递归神经网络，对所述特征映射图进行迭代计算，以得到所述人脸图像中的人脸特征点的位置信息。

可选地，所述可变形卷积神经网络包括至少一个卷积层，且在所述至少一个卷积层之间设置有跃层连接；所述根据所述可变形卷积神经网络，获取所述人脸图像对应的特征映射图，包括：

根据所述至少一个卷积层，对所述人脸图像执行可变形卷积操作，以得到卷积结果；

对所述人脸图像和所述卷积结果执行相加操作，以得到残差结果；

对所述残差结果执行池化层的降维操作，以得到所述人脸图像对应的特征映射图。

可选地，所述递归神经网络为长短时记忆网络。

可选地，通过如下步骤训练得到所述网络模型：

收集多种背景及姿态下的人脸样本图像；

标记所述人脸样本图像中的人脸特征点的位置信息；

确定网络模型的网络结构；所述网络模型包括可变形卷积神经网络和递归神经网络；

根据所述人脸样本图像以及与各个人脸样本图像对应的人脸特征点的位置信息，训练所述网络模型的模型参数。

第二方面，本发明实施例提供了一种人脸特征点的定位装置，所述装置包括：

图像获取模块，用于获取人脸图像；

图像处理模块，用于通过深度神经网络处理所述人脸图像，得到所述人脸图像中的人脸特征点的位置信息，所述深度神经网络为根据人脸样本训练得到的网络模型，所述人脸样本包括多种背景及姿态下的人脸样本图像以及与各个人脸样本图像对应的人脸特征点的位置信息。

可选地，所述深度神经网络包括可变形卷积神经网络和递归神经网络；所述图像处理模块，包括：

卷积子模块，用于根据所述可变形卷积神经网络，获取所述人脸图像对应的特征映射图；

递归子模块，用于根据所述递归神经网络，对所述特征映射图进行迭代计算，以得到所述人脸图像中的人脸特征点的位置信息。

可选地，所述可变形卷积神经网络包括至少一个卷积层，且在所述至少一个卷积层之间设置有跃层连接；所述卷积子模块，包括：

卷积单元，用于根据所述至少一个卷积层，对所述人脸图像执行可变形卷积操作，以得到卷积结果；

残差单元，用于对所述人脸图像和所述卷积结果执行相加操作，以得到残差结果；

降维单元，用于对所述残差结果执行池化层的降维操作，以得到所述人脸图像对应的特征映射图。

可选地，所述递归神经网络为长短时记忆网络。

可选地，所述装置还包括：模型训练模块，用于训练得到所述网络模型；所述模型训练模块，包括：

收集子模块，用于收集各种背景及姿态下的人脸样本图像；

标记子模块，用于标记所述人脸样本图像中的人脸特征点的位置信息；

确定子模块，用于确定网络模型的网络结构；所述网络模型包括可变形卷积神经网络和递归神经网络；

训练子模块，用于根据所述人脸样本图像以及与各个人脸样本图像对应的人脸特征点的位置信息，训练所述网络模型的模型参数。

第三方面，本发明实施例提供了一种计算设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述的人脸特征点的定位方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现所述的人脸特征点的定位方法的步骤

本发明实施例根据已训练的网络模型，获取人脸图像中的人脸特征点的位置信息，由于所述网络模型为根据多种背景及姿态下的人脸样本训练得到，所述人脸样本包括多种背景及姿态下的人脸样本图像以及与各个人脸样本图像对应的人脸特征点的位置信息，因此该网络模型可以识别不同背景及姿态下的人脸特征点，以提高复杂背景以及多种姿态下人脸特征点定位的准确度。

此外，所述网络模型包括可变形卷积神经网络和递归神经网络，由于所述可变形卷积网络采用的是可变形的卷积核，可以通过偏移量获取更广泛范围内的图像特征，因此可以适应不同形状、大小等的几何形变，以提高复杂背景以及多种姿态下人脸特征点定位的准确度；再者，由于所述递归神经网络具有记忆信息，可以体现特征之间的关联性，可以进一步提高定位的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明的一种人脸特征点的定位方法实施例一的流程图；

图2示出了本发明的一种训练所述网络模型的方法实施例的流程图；

图3示出了本发明的一种网络模型的网络结构示意图；

图4示出了本发明的一种人脸特征点的定位装置实施例的结构框图；

图5示出了本发明的一种计算设备1500的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例一

参照图1，示出了本发明的一种人脸特征点的定位方法实施例一的流程图，具体可以包括如下步骤：

步骤101、获取人脸图像；

本发明实施例可适用于通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

在本发明实施例中，首先，可以获取待定位的人脸图像。具体地，可以通过任意方式获取所述人脸图像，例如可以通过网络下载、相机拍摄、视频截取等方式获取任意格式及大小的人脸图像。可以理解，本发明实施例对于所述人脸图像的获取方式、所述人脸图像的格式、大小以及数目均不加以限制。

在本发明的一种可选实施例中，所述方法还可以包括：

对所述人脸图像进行人脸检测，以获取所述人脸图像中的人脸区域。

在定位前，可以对所述人脸图像进行人脸检测，以获得所述人脸图像中的人脸区域，这样，在后续定位过程中，只需要在人脸区域中提取人脸特征点以及定位人脸特征点的位置即可，可以缩小定位范围，减少定位过程中的计算量，提高定位的准确度和定位速度。

在实际应用中，有些人脸图像由于受到各种条件的限制和随机干扰，往往不能直接使用，因此，本发明实施例还可以对所述人脸图像进行灰度校正、噪声过滤等图像预处理。所述预处理具体可以包括：光线补偿、灰度变换、直方图均衡化、归一化、几何校正、滤波以及锐化等。对经过预处理之后的人脸图像进行人脸检测，可以减少噪声的干扰，进一步提高定位的准确度。

步骤102、通过深度神经网络处理所述人脸图像，得到所述人脸图像中的人脸特征点的位置信息，所述深度神经网络为根据人脸样本训练得到的网络模型，所述人脸样本包括多种背景及姿态下的人脸样本图像以及与各个人脸样本图像对应的人脸特征点的位置信息。

然后，将所述人脸图像输入已经训练好的网络模型，即可输出得到人脸特征点的位置信息；所述网络模型具体可以为根据多种背景及姿态下的人脸样本训练得到的深度神经网络模型，所述人脸样本包括多种背景及姿态下的人脸样本图像以及与各个人脸样本图像对应的人脸特征点的位置信息。

例如，可以预先收集不同背景及姿态下的人脸图像，并且标注出每张人脸图像中人脸特征点的位置，如收集4000张人脸图像，其中包括800个用户在不同背景或姿态下的各5张人脸图像，将已标注的人脸图像作为训练数据，如在每张人脸图像中标注出眼睛、鼻子、嘴巴等人脸特征点的具体位置，将原始人脸图像输入网络模型，对网络模型的定位结果和标注的真实结果进行比对，并不断调整网络模型的参数，通过大量训练数据的反复训练，直到网络模型能够准确输出人脸特征点的准确位置信息。在训练完成之后，所述网络模型的输入端可以接收人脸图像，输出端可以输出人脸特征点的位置信息，例如眉毛、眼睛、鼻子、上嘴唇、舌头、下嘴唇、以及脸部轮廓等特征点的具体位置。由于本发明实施例的网络模型为根据多种背景及姿态下的人脸图像训练得到，因此该网络模型可以识别不同背景及姿态下的人脸特征点，以提高复杂背景以及多种姿态下人脸特征点定位的准确度。

在本发明的一种可选实施例中，所述深度神经网络具体可以包括可变形卷积神经网络和递归神经网络；所述通过深度神经网络处理所述人脸图像，得到所述人脸图像中的人脸特征点的位置信息，包括：

步骤S11、根据所述可变形卷积神经网络，获取所述人脸图像对应的特征映射图；

在实际应用中，传统卷积神经网络的标准卷积核的形状通常为长方形或正方形，然而在变幻万千的不同人脸图像中，长方形或正方形难以表现出不同姿态、表情等因素下变化的五官的形状，因此，本发明实施例的网络模型采用可变形卷积神经网络来提取人脸特征。

标准卷积核的卷积计算过程如公式(1)所示：

可变形卷积核的卷积计算过程如公式(2)所示：

其中，I表示原始图像或者特征映射图，W为卷积核参数，F为卷积后的输出特征，i，j为图像坐标索引，m，n为卷积核参数的索引，o_m，o_n为可变形卷积核相对于标准卷积核每一位置的偏移量，该偏移量可以通过训练得到。从上述公式(1)和(2)可以看出，可变形卷积核相对标准卷积核中每个采样点的位置都增加了一个偏移量。

通过这些偏移量，卷积核可以在当前位置附近随意采样，通过偏移量可以获取更广泛范围内的图像特征，适应不同形状、大小等的几何形变，由于可变形卷积神经网络的卷积核的自由度高，能够更自由、更精准的识别不同背景及姿态下的人脸特征，因此本发明实施例可以提高人脸特征点定位的准确度。

步骤S12、根据所述递归神经网络，对所述特征映射图进行迭代计算，以得到所述人脸图像中的人脸特征点的位置信息。

所述递归神经网络可以接收所述可变卷积神经网络输出的特征映射图，结合递归神经网络中的记忆信息，预测得到所述人脸图像中的多个人脸特征点的位置信息。

可以理解，本发明实施例对所述递归神经网络的种类不加以限制，例如可以是时间递归神经网络，也可以是结构递归神经网络等。在本发明的一种可选实施例中，所述递归神经网络具体可以为LSTM(Long Short-Term Memory，长短时记忆网络)，本发明实施例的可变形卷积神经网络已经从人脸图像中学习到了特征映射图，但是单一的卷积神经网络容易忽略人脸特征在时域上的信息，因此，本发明实施例进一步通过LSTM来学习不同背景及姿态下人脸特征点在时域上的关联特征。

此外，由于LSTM属于时间递归神经网络，具备级联回归方法的特征，在不同的时间递归周期中能够准确估计当前定位的误差，并在下一个时间周期中进行精准校正，最终逼近真实的人脸特征点的位置，因此能够提高人脸特征点定位的精度。

具体地，所述LSTM可以接收t时刻的特征映射图，并根据对t时刻之前的特征映射图预测得到的人脸特征点的位置信息，预测t时刻的人脸特征点的位置信息。例如，将当前时刻的特征映射图输入到LSTM，LSTM可以输出一个190维的特征向量，所述190维的特征向量具体可以包括95个人脸特征点的x，y坐标值，对应于眼睛、眉毛、嘴巴等人脸特征点的位置信息。

综上，本发明实施例根据已训练的网络模型，获取人脸图像中的人脸特征点的位置信息，由于所述网络模型为根据多种背景及姿态下的人脸样本训练得到，因此该网络模型可以识别不同背景及姿态下的人脸特征点，以提高复杂背景以及多种姿态下人脸特征点定位的准确度。

此外，所述网络模型包括可变形卷积神经网络和递归神经网络，由于所述可变形卷积网络采用的是可变形的卷积核，可以通过偏移量获取更广泛范围内的图像特征，因此可以适应不同形状、大小等的几何形变，以提高复杂背景以及多种姿态下人脸特征点定位的准确度；再者，由于所述递归神经网络具有记忆信息，可以体现特征之间的关联性，可以进一步提高复杂背景以及多种姿态下人脸特征点定位的准确度。

方法实施例二

在实际应用中，卷积层在信息传递的过程中，会存在信息丢失的问题，并且随着深度神经网络的层数增多加，训练误差也会增大，网络越不容易收敛。为解决上述问题，本发明实施例采用基于残差学习的深度卷积神经网络，以解决卷积层信息丢失问题，以及增加网络训练过程的收敛速度。

在本发明的一种可选实施例中，所述可变形卷积神经网络具体可以为基于残差学习的深度卷积神经网络；所述可变形卷积神经网络包括至少一个卷积层，且在所述至少一个卷积层之间设置有跃层连接；所述根据所述可变形卷积神经网络，获取人脸图像对应的特征映射图，具体可以包括如下步骤：

步骤S21、根据所述至少一个卷积层，对所述人脸图像执行可变形卷积操作，以得到卷积结果；

在本发明实施例中，所述至少一个卷积层具体可以包括：卷积核大小为3×3的可变形卷积层，3×3大小的卷积核提取特征的效果较好，并且参数较少，便于计算。可选地，所述至少一个卷积层还可以包括：卷积核大小为1×1的标准卷积层，1×1大小的卷积核可用于对特征维度进行降维，以减少计算量，以使本发明的人脸特征点的定位方法可以在如移动终端等的计算设备上执行。可以理解，本发明实施例对于卷积层的个数以及卷积核的大小不加以限制。

在实际应用中，在对所述人脸图像执行可变形卷积操作，得到卷积结果之后，还可以对所述卷积结果执行批量归一化操作、缩放操作，以及激活等操作，以得到该卷积层的特征映射图。

步骤S22、对所述人脸图像和所述卷积结果执行相加操作，以得到残差结果；

在本发明实施例中，若所述可变形卷积神经网络的输入端和其中某一个卷积层的输出端设置有跃层连接，则对所述人脸图像和该卷积层输出的卷积结果执行相加操作，以得到残差结果，从而可以将输入信息绕道传到输出端，以保留更多原始人脸图像的细节信息，进而可以解决卷积层信息丢失的问题，并且可以提高神经网络模型训练过程的收敛速度。

步骤S23、对所述残差结果执行池化层的降维操作，以得到所述人脸图像对应的特征映射图。

在实际应用中，所述基于残差学习的深度卷积神经网络可以包括至少一个残差网络单元，每个残差网络单元可以包括至少一个卷积层。可以理解，本发明实施例对于残差网络单元的数目和卷积层的数目不加以限制。

在本发明的一种应用示例中，所述可变形卷积神经网络包括3个残差网络单元，这3个残差网络单元可以依次连接，为便于描述，将所述3个残差网络单元分别记为block1、block2和block3。其中，block1接收原始的人脸图像，经过卷积层的可变形卷积操作、跃层连接的相加操作、以及池化层的降维操作之后，将输出结果输入到block2，block2再经过卷积层的可变形卷积操作、跃层连接的相加操作、以及池化层的降维操作之后，将输出结果输入到block3，block3再经过卷积层的可变形卷积操作、跃层连接的相加操作、以及池化层的降维操作之后，输出最终获取得到的特征映射图。将block3获取得到的特征映射图输入递归神经网络进行递归计算，即可得到人脸特征点的位置信息。所述block1的处理过程具体可以包括如下步骤：

步骤A1、接收人脸图像；

具体地，block1接收的是原始的人脸图像，具体可以为RGB3通道的图像数据。

步骤A2、对所述人脸图像经过3×3的可变形卷积操作、批量归一化操作、缩放操作，以及激活操作，以得到第一特征映射图；

具体地，第一层卷积层可以为可变形卷积层，对人脸图像进行卷积核大小为3×3的可变形卷积操作，对卷积结果依次执行批量归一化操作、缩放操作，以及激活操作，以得到第一特征映射图。

其中，激活操作可以通过ReLU函数来实现，ReLU激活函数可以消除小于0的神经元，保留有效的神经元，进而可以筛选出更有效的人脸特征，还可以避免梯度爆炸的问题。

步骤A3、对所述第一特征映射图经过1×1的标准卷积操作、批量归一化操作、缩放操作，以及激活操作，以得到第二特征映射图；

具体地，第二层卷积层可以为标准卷积层，对第一特征映射图进行卷积核大小为1×1的标准卷积操作，对卷积结果依次执行批量归一化操作、缩放操作，以及激活操作，以得到第二特征映射图。

步骤A4、对所述人脸图像和所述第二特征映射图执行相加操作得到第三特征映射图；

在本发明实施例中，可以在第二层卷积层之后设置跃层连接，将人脸图像直接传到第二层卷积层的输出端，以对人脸图像和所述第二特征映射图执行相加操作，具体地，可以对两个图像逐个元素进行相加，以得到第三特征映射图。其中，跃层连接相当于执行了同等映射，不会产生额外的参数，也不会增加计算复杂度，在保留人脸图像细节信息的基础上，可以提高训练神经网络的收敛速度。

步骤A5、对所述第三特征映射图经过3×3的可变形卷积操作、批量归一化操作、缩放操作，以及激活操作，以得到第四特征映射图；

具体地，第三层卷积层可以为可变形卷积层，对第三特征映射图进行卷积核大小为3×3的可变形卷积操作，对卷积结果依次执行批量归一化操作、缩放操作，以及激活操作，以得到第四特征映射图。在实际应用中，步骤A5与步骤A2可以采用不同的训练参数。

步骤A6、对所述第四特征映射图经过1×1的标准卷积操作、批量归一化操作、缩放操作，以及激活操作，以得到第五特征映射图；

具体地，第四层卷积层可以为标准卷积层，对第四特征映射图进行卷积核大小为1×1的标准卷积操作，对卷积结果依次执行批量归一化操作、缩放操作，以及激活操作，以得到第五特征映射图。在实际应用中，步骤A6与步骤A3可以采用不同的训练参数。

步骤A7、对所述第三特征映射图和所述第五特征映射图执行相加操作得到第六特征映射图；

在本发明实施例中，可以在第四层卷积层之后设置跃层连接，将第二层卷积层得到的第三特征映射图直接传到第四层卷积层的输出端，以对第三特征映射图和第五特征映射图执行相加操作，具体地，可以对两个图像逐个元素进行相加，以得到第六特征映射图。

步骤A8、对所述第六特征映射图经过3×3的可变形卷积操作、批量归一化操作、缩放操作，以及激活操作，以得到第七特征映射图；

具体地，第五层卷积层可以为可变形卷积层，对人脸图像进行卷积核大小为3×3的可变形卷积操作，对卷积结果依次执行批量归一化操作、缩放操作，以及激活操作，以得到第七特征映射图。

步骤A9、对所述第七特征映射图经过1×1的标准卷积操作、批量归一化操作、缩放操作，以及激活操作，以得到第八特征映射图；

具体地，第八层卷积层可以为标准卷积层，对第七特征映射图进行卷积核大小为1×1的标准卷积操作，对卷积结果依次执行批量归一化操作、缩放操作，以及激活操作，以得到第八特征映射图。

步骤A10、对所述第八特征映射图经过池化层的降维操作得到block1输出的特征映射图。

将block1输出的特征映射图输入到block2，block2按照上述步骤A1至步骤A10的过程对block1输出的特征映射图进行处理，得到block2输出的特征映射图，再将block2输出的特征映射图输入到block3，block3按照上述步骤A1至步骤A10的过程对block2输出的特征映射图进行处理，得到最终的特征映射图，例如，所述最终的特征映射图具体可以为一个4维特征向量，向量的维度参数具体可以包括：输入人脸图像的数目，特征映射图的数量，特征映射图的高度，特征映射图的宽度。需要说明的是，block1、block2和block3的执行过程中区别在于，block1接收的是原始的人脸图像，block2接收的是block1输出的特征映射图，block3接收的是block2输出的特征映射图。

可以理解，上述残差网络单元的结构示意图仅作为本发明的一种应用示例，在实际应用中，本领域技术人员可以根据需要设置残差网络单元的数目，以及卷积层的层数，例如，还可以上述应用示例中增加或减少训练参数不同的可变形卷积层和标准卷积层。

综上，本发明实施例在卷积层之间设置有跃层连接，可以将输入信息绕道传到输出端，从而可以保留更多原始人脸图像的细节信息，以解决卷积层信息丢失的问题，并且可以提高神经网络模型训练过程的收敛速度。

此外，本发明实施例还可以在每个卷积层后面增加基于ReLU函数的隐藏层，该激活函数可以消除小于0的神经元，筛选出更有效的人脸特征，进而有助于提高定位的准确度。

方法实施例三

本实施例在上述实施例的基础上，详细说明本发明的网络模型的训练过程。参照图2，示出了本发明的一种训练所述网络模型的方法实施例的流程图，具体可以包括：

步骤201、收集多种背景及姿态下的人脸样本图像；

具体地，可以从网络下载、相机拍摄等方式收集多种背景及姿态下的人脸图像。例如可以针对同一张人脸在不同光照下进行拍摄，或者，通过不同角度进行拍摄，以得到不同背景及姿态的人脸图像，如强光、弱光、正面、侧面、低头、抬头、戴眼镜、不戴眼镜等。

步骤202、标记所述人脸样本图像中的人脸特征点的位置信息；

具体地，可以通过人工标注的方式标注出每张人脸样本图像中的人脸特征点的位置，如收集4000张人脸样本图像，其中包括800个用户在不同背景或姿态下的各5张人脸样本图像，如在每张人脸样本图像中标注出眼睛、鼻子、嘴巴等人脸特征点的具体位置，将已标注的人脸样本图像作为训练数据。

步骤203、确定网络模型的网络结构；所述网络模型包括可变形卷积神经网络和递归神经网络；

在本发明实施例中，可以确定网络模型包括3个可变形卷积的残差网络单元(block1、block2和block3)和3个LSTM单元(LSTM1、LSTM2和LSTM3)。参照图3，示出了本发明的一种网络模型的网络结构示意图。将人脸图像输入block1，对人脸图像依次经过block1、block2和block3的处理后，可以得到所述人脸图像对应的特征映射图，将所述特征映射图输入LSTM1，依次经过LSTM1、LSTM2和LSTM3的处理后，可以得到人脸特征点的位置信息。

步骤204、根据所述人脸样本图像以及与各个人脸样本图像对应的人脸特征点的位置信息，训练所述网络模型的模型参数。

在本发明实施例中，可以采用反向传播算法训练所述网络模型的模型参数，具体地，将所述训练数据和权重以及偏置输入初始的网络模型，通过更新模型中的每一个权重，使得模型最终的输出结果接近已标注的真实结果。在确定所述网络模型中各节点之间的连接的最佳权重参数时，可以停止训练过程，得到已训练的网络模型。

综上，本发明实施例的网络模型为根据多种背景及姿态下的人脸样本训练得到，因此该网络模型可以识别不同背景及姿态下的人脸特征点，以提高复杂背景以及多种姿态下人脸特征点定位的准确度。

装置实施例

参照图4，示出了本发明的一种人脸特征点的定位装置实施例的结构框图，所述装置具体可以包括：

图像获取模块401，用于获取人脸图像；

图像处理模块402，用于通过深度神经网络处理所述人脸图像，得到所述人脸图像中的人脸特征点的位置信息，所述深度神经网络为根据人脸样本训练得到的网络模型，所述人脸样本包括多种背景及姿态下的人脸样本图像以及与各个人脸样本图像对应的人脸特征点的位置信息。

可选地，所述深度神经网络具体可以包括：可变形卷积神经网络和递归神经网络；所述图像处理模块，具体可以包括：

卷积子模块，用于根据所述可变形卷积神经网络，获取人脸图像对应的特征映射图；

可选地，所述装置还可以包括：

检测模块，用于对所述人脸图像进行人脸检测，以获取所述人脸图像中的人脸区域。

可选地，所述可变形卷积神经网络包括至少一个卷积层，且在所述至少一个卷积层之间设置有跃层连接；所述卷积子模块，具体可以包括：

可选地，所述递归神经网络为长短时记忆网络。

可选地，所述装置还可以包括：模型训练模块，用于训练得到所述网络模型；所述模型训练模块，具体可以包括：

收集子模块，用于收集多种背景及姿态下的人脸样本图像；

参照图5，示出了本发明一种计算设备1500的结构示意图，具体可以包括：至少一个处理器1501、存储器1502、至少一个网络接口1504、用户接口1503、屏幕1506。计算设备1500中的各个组件通过总线系统1505耦合在一起。可理解，总线系统1505用于实现这些组件之间的连接通信。总线系统1505除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统1505。

其中，用户接口1503可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本发明实施例中的存储器1502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本发明实施例描述的系统和方法的存储器1502旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器1502存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统15021和应用程序15022。

其中，操作系统15021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序15022，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序15022中。

在本发明实施例中，通过调用存储器1502存储的程序或指令，具体的，可以是应用程序15022中存储的程序或指令，处理器1501用于获取人脸图像；通过深度神经网络处理所述人脸图像，得到所述人脸图像中的人脸特征点的位置信息，所述深度神经网络为根据人脸样本训练得到的网络模型，所述人脸样本包括多种背景及姿态下的人脸样本图像以及与各个人脸样本图像对应的人脸特征点的位置信息。

上述本发明实施例揭示的方法可以应用于处理器1501中，或者由处理器1501实现。处理器1501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1501可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1502，处理器1501读取存储器1502中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本发明所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本发明实施例中所述功能的模块(例如过程、函数等)来实现本发明实施例中所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

可选地，处理器1501还用于：根据所述可变形卷积神经网络，获取所述人脸图像对应的特征映射图；根据所述递归神经网络，对所述特征映射图进行迭代计算，以得到所述人脸图像中的人脸特征点的位置信息。

可选地，处理器1501还用于：根据所述至少一个卷积层，对所述人脸图像执行可变形卷积操作，以得到卷积结果；对所述人脸图像和所述卷积结果执行相加操作，以得到残差结果；对所述残差结果执行池化层的降维操作，以得到所述人脸图像对应的特征映射图。

可选地，处理器1501还用于：通过如下步骤训练得到所述网络模型：收集多种背景及姿态下的人脸样本图像；标记所述人脸样本图像中的人脸特征点的位置信息；确定网络模型的网络结构；所述网络模型包括可变形卷积神经网络和递归神经网络；根据所述人脸样本图像以及与各个人脸样本图像对应的人脸特征点的位置信息，训练所述网络模型的模型参数。

本发明实施例的网络模型为根据多种背景及姿态下的人脸样本训练得到，因此该网络模型可以识别不同背景及姿态下的人脸特征点，以提高复杂背景以及多种姿态下人脸特征点定位的准确度。此外，所述网络模型包括可变形卷积神经网络和递归神经网络，由于所述可变形卷积网络采用的是可变形的卷积核，可以通过偏移量获取更广泛范围内的图像特征，因此可以适应不同形状、大小等的几何形变，以提高复杂背景以及多种姿态下人脸特征点定位的准确度；再者，由于所述递归神经网络具有记忆信息，可以体现特征之间的关联性，可以进一步提高复杂背景以及多种姿态下人脸特征点定位的准确度。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种人脸特征点的定位方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人脸特征点的定位方法，其特征在于，所述方法包括：

获取人脸图像；

2.根据权利要求1所述的方法，其特征在于，所述深度神经网络包括可变形卷积神经网络和递归神经网络；所述通过深度神经网络处理所述人脸图像，得到所述人脸图像中的人脸特征点的位置信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述可变形卷积神经网络包括至少一个卷积层，且在所述至少一个卷积层之间设置有跃层连接；所述根据所述可变形卷积神经网络，获取所述人脸图像对应的特征映射图，包括：

4.根据权利要求1所述的方法，其特征在于，所述递归神经网络为长短时记忆网络。

5.根据权利要求1所述的方法，其特征在于，通过如下步骤训练得到所述网络模型：

收集多种背景及姿态下的人脸样本图像；

标记所述人脸样本图像中的人脸特征点的位置信息；

6.一种人脸特征点的定位装置，其特征在于，所述装置包括：

图像获取模块，用于获取人脸图像；

7.根据权利要求6所述的装置，其特征在于，所述深度神经网络包括可变形卷积神经网络和递归神经网络；所述图像处理模块，包括：

8.根据权利要求6所述的装置，其特征在于，所述可变形卷积神经网络包括至少一个卷积层，且在所述至少一个卷积层之间设置有跃层连接；所述卷积子模块，包括：

9.根据权利要求6所述的装置，其特征在于，所述递归神经网络为长短时记忆网络。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：模型训练模块，用于训练得到所述网络模型；所述模型训练模块，包括：

收集子模块，用于收集各种背景及姿态下的人脸样本图像；

11.一种计算设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项所述的人脸特征点的定位方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至5中任一项所述的人脸特征点的定位方法的步骤。