CN109376593B

CN109376593B - 人脸特征点定位方法及系统

Info

Publication number: CN109376593B
Application number: CN201811052432.1A
Authority: CN
Inventors: 陈继; 谢衍涛
Original assignee: Hangzhou Gexiang Technology Co ltd
Current assignee: Hangzhou Gexiang Technology Co ltd
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2020-12-29
Anticipated expiration: 2038-09-10
Also published as: CN109376593A

Abstract

本发明公开了一种人脸特征点定位方法及系统，该方法包括获取待进行人脸检测的图像；根据所述图像得到人脸矩形框图像；对所述人脸矩形框图像进行检测，得到第一特征点坐标；根据所述第一特征点坐标得到第一坐标通道信息；将所述第一坐标通道信息和颜色通道输入到卷积神经网络，得到人脸特征点的空间坐标。本发明提供的人脸特征点定位方法及系统通过引入坐标信息通道，使得需要标注的图片数量减少，网络收敛更快，提高了特征点定位的精度，而且可以控制精度，以适合不同的应用场景。

Description

人脸特征点定位方法及系统

技术领域

本发明涉及人脸识别领域，尤其涉及一种人脸特征点定位方法及系统。

背景技术

人脸特征点定位是指在给定人脸矩形框之后，标定出其中的人脸关键点位置，例如眼睛轮廓点、鼻子尖点等。

在深度学习方法流行之前，主流的人脸特征点定位方法都是从一个初始的特征点估计开始，通过扰动这些特征点，寻找到一个和人脸的最优匹配。其中，还需要设计特征提取算子，预设特征分布类型等。应用深度学习方法之后，就变成了端对端，输入一张人脸图像，输出的是特征点的坐标。但是，该方法的缺点是需要大量的标注图片，以及需要大量的计算用于模型训练。

发明内容

本发明的目的是提供一种人脸特征点定位方法及系统，以解决现有技术中的问题，以减少标注图片和计算的数量，提高人脸特征点定位的精度。

本发明提供了一种人脸特征点定位方法，其中，包括：

获取待进行人脸检测的图像；

根据所述图像得到人脸矩形框图像；

对所述人脸矩形框图像进行检测，得到第一特征点坐标；

根据所述第一特征点坐标得到第一坐标通道信息；

将所述第一坐标通道信息和颜色通道输入到卷积神经网络，得到人脸特征点的空间坐标。

可选地，所述第一特征点包括两个眼睛特征点和一个嘴巴特征点。

可选地，还包括：根据所述人脸特征点的空间坐标，更新第一坐标通道信息；

将更新后的第一坐标通道信息和颜色通道输入到卷积神经网络，得到更新的人脸特征点的空间坐标。

可选地，所述卷积神经网络包括输入层、特征提取层和线性回归层；

所述输入层用于将所述第一坐标通道信息和颜色通道合成一个通道的张量；

所述特征提取层用于学习特征提取算子并提取图像特征；

所述线性回归层用于将所述图像特征转换为人脸特征点的空间坐标。

可选地，所述人脸特征点的空间坐标包括至少60个特征点的空间坐标。

本发明还提供了一种人脸特征点定位系统，其中，包括：

获取单元，用于获取待进行人脸检测的图像；

第一图像处理单元，用于根据所述图像得到人脸矩形框图像；

检测单元，用于对所述人脸矩形框图像进行检测，得到第一特征点坐标；

第一计算单元，用于根据所述第一特征点坐标得到第一坐标通道信息；

第二计算单元，用于将所述第一坐标通道信息和颜色通道输入到卷积神经网络，得到人脸特征点的空间坐标。

可选地：所述第一计算单元，还用于根据所述人脸特征点的空间坐标，更新第一坐标通道信息；

所述第二计算单元，还用于将更新后的第一坐标通道信息和颜色通道输入到卷积神经网络，得到更新的人脸特征点的空间坐标。

所述特征提取层用于学习特征提取算子并提取图像特征；

本发明提供的人脸特征点定位方法及系统通过引入坐标信息通道，使得需要标注的图片数量减少，网络收敛更快，提高了特征点定位的精度。进一步通过迭代求精，提高了特征点定位的精度，而且可以控制精度，以适合不同的应用场景。

附图说明

图1为本发明实施例提供的人脸特征点定位方法的流程图；

图2为特征点(3，2)的X坐标通道；

图3为特征点(3，2)的Y坐标通道；

图4为卷积神经网络的架构图；

图5为本发明实施例提供的人脸特征点定位系统的结构图。

附图标记说明：

201-获取单元 202-第一图像处理单元 203-裁剪单元 204-第一计算单元205-第二计算单元

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

图1为本发明实施例提供的一种人脸特征点定位方法的流程图，如图1所示，本发明实施例提供了一种人脸特征点定位方法，包括如下步骤：

S101、获取待进行人脸检测的图像。

S102、根据所述图像得到人脸矩形框图像。

通过矩形框从获取到的待进行人脸检测的图像中裁剪出人脸矩形框图像。

S103、对所述人脸矩形框图像进行检测，得到第一特征点坐标。优选地，所述第一特征点包括两个眼睛特征点和一个嘴巴特征点。

在该步骤中，通过快速低精度的检测，可以仅得到眼睛和嘴巴这三个关键点，该步骤的精度要求低、检测速度快。

S104、根据所述第一特征点坐标得到第一坐标通道信息。

上述的第一特征点坐标包括左眼、右眼和嘴巴的坐标，得到的第一坐标通道信息包括LEye_x，LEye_y，REye_x，REye_y，Mouth_x，Mouth_y,分别表示左眼、右眼和嘴巴的X和Y坐标通道信息。

S105、将所述第一坐标通道信息和颜色通道(RGB)输入到卷积神经网络，得到人脸特征点的空间坐标。该空间坐标可以通过下文中的第二计算单元获得。

以下具体描述如何构建人脸特征点的空间坐标通道。

假设图像的分辨率是10×10，某特征点P：(x,y)，其中x＝3，y＝2，其坐标通道分别如图2和图3所示。具体而言，给定一个特征点P：(x,y)，可以构建两个坐标通道，X通道和Y通道。所谓通道，和图像的颜色通道一样，由矩阵表示，矩阵的行数和列数与图像的宽高是对应的。构建步骤如下：

1、设图像的宽是W，高是H，特征点P的坐标是(x,y)。

2、生成X通道，即矩阵X_H×W，其元素x_ij＝j-x，其中：

i∈[0，H)，j∈[0，W)

图4所示的卷积神经网络的架构图，卷积神经网络包括输入层、特征提取层和线性回归层。

其中，输入层将第一坐标通道信息和颜色通道合成一个9通道的张量。特征提取层负责学习特征提取算子并提取图像特征。线性回归层负责将图像特征转换为人类特征点的空间坐标，其输出的形式为[x₁,y₁，…，x_i,y_i，…，x_N，y_N],其中x_i，y_i即为第i个特征点的坐标，N为特征点的个数。

各层的参数如表1所示，其中，网络每一层之间传递的数据是张量，这里的张量是3阶的，即H×W×C，例如彩色图像就是一个C＝3的张量，其中H×W代表图像的高和宽，体现在表1中的分辨率，C为深度，体现在表1中的通道数。

表1

卷积层、池化层和内积层均为现有技术中的神经网络层，在此不再赘述。但是这些网络层的参数需要设置，体现在表1中的层参数，下文将会具体介绍各个符号的含义。

Concat层中的层参数3表示将若干个输入张量沿第3维连接起来。设有n个输入张量，依次是：

这些张量的分辨率都是相等的，即H×W，而第3维的长度C_i可能各不相同，经过Concat操作之后得到一个新的张量T，则：

以此类推。

K3×3表示卷积(Convolution)核的大小是3×3，K2×2表示卷积核大小是2×2。

S2×2表示卷积运算的步长(Stride)是2×2，同理S1×1表示步长是1×1。

P1×1表示卷积运算时，要对输入张量的宽高进行填充运算，分别是在输入张量的左、右、上、下个填充一个单元。P0×0表示不填充。

ReLU表示该层的传递函数是ReLU函数：

Linear表示该层的传递函数是线性函数f(x)＝x

Max表示该层的运算单元是求最大值，即：

本实施例中，所述人脸特征点的空间坐标包括至少60个特征点的空间坐标，图4中输出的是66个特征点，所以通道是132个。可以理解的是，该特征点的数量可以根据实际需要进行设定。

本实施例中，优选的是在得到第一特征点的第一坐标通道信息时，将迭代次数M进行初始化。根据精度需求，该迭代次数M可以是1-10中的任意一个。具体的迭代过程可以包括：

根据所述人脸特征点的空间坐标，更新第一坐标通道信息；将更新后的第一坐标通道信息和颜色通道输入到上述的卷积神经网络，得到更新的人脸特征点的空间坐标。

本实施例中，上述的更新迭代可以根据需要设定迭代次数，如果达到设定的M次，则结束上述更新操作。

上述的卷积神经网络存在大量权值，即卷积层的卷积核的权值和内积层的内积运算的权值，这些权值需要通过学习来找到最佳的取值，即：

其中，F(x；θ)表示本实施例中的人脸特征点定位网络，即卷积神经网络，x代表输入Concat层输出的9通道张量，y则是矢量，表示人工标注好的特征点坐标信息，其长度等于2×N，其中N＝66。训练过程就是寻找最优权值θ*的过程，下文介绍训练流程。

第一步，准备训练数据集I，数据集包括图像文件和对应的描述文件，这些描述文件包括人脸框和预先标注好的特征点坐标。设图像个数为L，特征点个数为N，初始化迭代总次数M，随机初始化卷积神经网络各层的权重。

第二步，初始化迭代索引：iter:＝0。

第三步，初始化图像索引：i:＝0。

第四步，根据第i张图像及其信息截取图像中的人脸图像，并根据眼睛、嘴巴特征点坐标生成6层坐标通道，即由LEye_x，LEye_y，REye_x，Reye_y，Mouth_x,Mouth_y生成。

第五步，根据坐标信息定义长度为2N的目标矢量：

F：＝[x₁,y₁，…，x_N，y_N]。

第六步，将人脸图像的3个RGB层和6个坐标层合成一个9层的张量作为卷积神经网络的输入。

第七步，经过卷积神经网络计算各个特征点的空间坐标，即长度为2N的向量F′。

第八步，计算误差，即：

第九步，由反向传播算法，根据误差更新各层的权重。

第十步，i:＝i+1。如果i<L，回到第四步。

第十一步，iter:＝iter+1。

第十二步，如果iter≥M，结束，否则回到第三步。

图5为本发明实施例提供的人脸特征点定位系统的结构图，基于上述定位方法，本发明实施例还提供了一种人脸特征点定位系统，包括获取单元201、第一图像处理单元202、检测单元203、第一计算单元204和第二计算单元205。

其中，获取单元201用于获取待进行人脸检测的图像；第一图像处理单元202用于根据所述图像得到人脸矩形框图像；检测单元203用于对所述人脸矩形框图像进行检测，得到第一特征点坐标；第一计算单元204用于根据所述第一特征点坐标得到第一坐标通道信息；第二计算单元205用于将所述第一坐标通道信息和颜色通道输入到卷积神经网络，得到人脸特征点的空间坐标。

上述的第一特征点优选地包括两个眼睛特征点和一个嘴巴特征点。

进一步地，所述第一计算单元204还用于根据所述人脸特征点的空间坐标，更新第一坐标通道信息；所述第二计算单元205还用于将更新后的第一坐标通道信息和颜色通道输入到卷积神经网络，得到更新的人脸特征点的空间坐标，通过迭代更新提高定位精度。

该人脸特征点的空间坐标可以包括至少60个特征点的空间坐标。

优选地，卷积神经网络包括输入层、特征提取层和线性回归层；所述输入层用于将所述第一坐标通道信息和颜色通道合成一个通道的张量；所述特征提取层用于学习特征提取算子并提取图像特征；所述线性回归层用于将所述图像特征转换为人脸特征点的空间坐标。

本发明实施例提供的人脸特征点定位方法及系统通过引入坐标信息通道，使得需要标注的图片数量减少，网络收敛更快，提高了特征定位点的精度。进一步通过迭代求精，提高了特征点定位的精度，而且可以控制精度，以适合不同的应用场景。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，以上所述仅为本发明的较佳实施例，但本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种人脸特征点定位方法，其特征在于，包括：

获取待进行人脸检测的图像；

根据所述图像得到人脸矩形框图像；

对所述人脸矩形框图像进行检测，得到第一特征点坐标；

根据所述第一特征点坐标得到第一坐标通道信息，所述坐标通道信息包括：X坐标通道信息和Y坐标通道信息，通道信息由矩阵表示，矩阵的行数和列数与图像的宽高是对应的，构建步骤如下：

(1)设图像的宽是W，高是H，特征点P的坐标是(x,y)；

(2)生成X通道，即矩阵X_H×W，其元素x_ij＝j-x，其中：i∈[0,H),j∈[0,W)；

2.根据权利要求1所述的人脸特征点定位方法，其特征在于，所述第一特征点包括两个眼睛特征点和一个嘴巴特征点。

3.根据权利要求1所述的人脸特征点定位方法，其特征在于，还包括：

根据所述人脸特征点的空间坐标，更新第一坐标通道信息；

4.根据权利要求1所述的人脸特征点定位方法，其特征在于，所述卷积神经网络包括输入层、特征提取层和线性回归层；

所述特征提取层用于学习特征提取算子并提取图像特征；

5.根据权利要求1所述的人脸特征点定位方法，其特征在于，所述人脸特征点的空间坐标包括至少60个特征点的空间坐标。

6.一种人脸特征点定位系统，其特征在于，包括：

获取单元，用于获取待进行人脸检测的图像；

第一计算单元，用于根据所述第一特征点坐标得到第一坐标通道信息，所述坐标通道信息包括：X坐标通道信息和Y坐标通道信息，通道信息由矩阵表示，矩阵的行数和列数与图像的宽高是对应的，构建步骤如下：

(1)设图像的宽是W，高是H，特征点P的坐标是(x,y)；

7.根据权利要求6所述的人脸特征点定位系统，其特征在于，所述第一特征点包括两个眼睛特征点和一个嘴巴特征点。

8.根据权利要求6所述的人脸特征点定位系统，其特征在于：

所述第一计算单元，还用于根据所述人脸特征点的空间坐标，更新第一坐标通道信息；

9.根据权利要求6所述的人脸特征点定位系统，其特征在于，所述卷积神经网络包括输入层、特征提取层和线性回归层；

所述特征提取层用于学习特征提取算子并提取图像特征；

10.根据权利要求6所述的人脸特征点定位系统，其特征在于，所述人脸特征点的空间坐标包括至少60个特征点的空间坐标。