CN105354565A

CN105354565A - 基于全卷积网络人脸五官定位与判别的方法及系统

Info

Publication number: CN105354565A
Application number: CN201510980543.9A
Authority: CN
Inventors: 石建萍; 梁继; 隋凌志
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2016-02-24

Abstract

本申请提供了一种基于全卷积网络人脸五官定位与判别方法及系统，其中该方法具体包括：收集人脸图片并对人脸五官进行标注，形成一个训练数据集合；设计一个全卷积神经网络；利用训练数据集合对全卷积神经网络进行训练；利用已经训练好的全卷积神经网络，对人脸图片进行五官定位和标注。本申请通过全卷积网络进行图像分割的方式，能够得到输入人脸每一点的预测类别，从而能够得到精确的五官位置，避免了基于人脸关键点的关键点不足以及关键点不够稳定的问题。

Description

基于全卷积网络人脸五官定位与判别的方法及系统

技术领域

本发明涉及图像处理的人脸识别领域，具体涉及一种基于全卷积网络人脸五官定位与判别的方法及系统。

背景技术

人脸作为人体的一个重要生物特征，近几年在图像处理，视觉技术，信息安全等领域有着越来越重要的作用。而人脸中，五官的判别与定位技术是人脸识别，人脸跟踪等应用的基础。现有的人脸五官定位技术主要通过预测一些预先设计的关键点，如眼角、眉梢、嘴角等实现。一般常见的人脸关键点个数为每张人脸21个关键点。而这种基于人脸关键点定位的方式由于关键点位置少，识别准确度和精度都不高，对于一些需要细节的应用，如美图、定妆等图像处理应用，则很难满足要求。

目前，利用人脸关键点定位的方式，为了达到美妆级别的精度，通常的做法是增加预测的关键点的数目，如将关键点个数增加为68个或106个。但该方法会遇到如下问题：1)增多的人脸关键点的标注数据仍不够多；2)68点或106点仍没有完全覆盖五官的边界，从关键点生成的五官区域通常是多边形，形状并不准确，依然难以达到美妆等应用的精度需求；3)人脸关键点会在边界上有小范围移动偏差(如眼睛中间的一点可能在前帧偏左，而后帧偏右)，导致视频上的结果会有抖动。

发明内容

为了解决现有技术中，人脸五官识别的准确度和精度不高，无法满足多细节且高精度的应用需求的问题，本发明提出了一种基于全卷积网络人脸五官定位与判别的方法和系统。

该基于全卷积网络的人脸五官定位方法，包括：

步骤11：收集人脸图片并对人脸五官进行标注，形成一个训练数据集合；

步骤12：设计一个全卷积神经网络；

步骤13：利用步骤11中的训练数据集合对步骤12中设计的全卷积神经网络进行训练；

步骤14：利用步骤13已经训练好的全卷积神经网络，对人脸图片进行五官定位和标注。

该基于全卷积网络的人脸五官定位系统，包括：

收集标注模块，收集人脸图片并对人脸五官进行标注，形成一个训练数据集合；

神经网络设计模块，用于设计一个全卷积神经网络；

神经网络训练模块，用于利用收集标注模块中的训练数据集合对神经网络设计模块中设计的全卷积神经网络进行训练；

五官定位标注模块，利用神经网络训练模块中的已经训练好的全卷积神经网络，对人脸图片进行五官定位和标注。

本发明的基于全卷积网络的人脸五官定位方法与现有的基于人脸关键点定位的五官定位方法相比，本发明能够得到输入人脸图像每个像素点的类别，从而实现高精度的人脸五官识别，彻底解决了现有技术中关键点个数不足，生成的五官定位形状不准确，精度不高等问题。

本发明通过全卷积网络进行图像分割的方式，能够得到输入人脸每一点的预测类别，从而能够得到精确的五官位置，避免了基于人脸关键点的关键点不足以及关键点不够稳定的问题。

和公知的全卷积神经网络相比，本发明通过在卷积层之后增加两层反卷积层，将输出放大到与输入图片同样的大小。具体的，在第9层卷积化层之后，特征大小仅为原图的1/16，直接输出结果无法达到像素级别的精度。而通过之后的三层反卷积层，我们能够得到的输出具有像素级别精度的结果。通过学习反卷积的权重大小能够更好的得到更适宜的放大参数。利用该神经网络的分类结果如图3所示。

附图说明

图1是基于全卷积网络人脸五官定位与判别方法的流程图；

图2是全卷积网络的分层结构示意图；

图3是基于全卷积网络人脸五官定位与判别方法的结果示意图；

图4是基于全卷积网络人脸五官定位与判别系统的整体框架图。

具体实施方式

下面结合附图1-3和具体实施方式，对本申请中的基于全卷积网络人脸五官定位与判别方法做进一步详细的说明。

参见附图1所示，所述人脸五官定位与判别方法，包括如下步骤：

步骤11：收集人脸图片并对人脸五官进行标注，形成一个训练数据集合。

针对收集的人脸图片，手工标注五官类别。五官类别包括但不限于，脸部，左眼，右眼，左眉，右眉，鼻子，上嘴唇，下嘴唇，嘴中部，舌部，及背景。

为了获得更好的训练效果，优选的，手工标注为像素级别标注。针对收集的人脸图片，按照像素进行五官类别的标注，针对边界区域，按照最可能的归属类别进行标注。

此外，优选的，收集的人脸图片可以具有多样性，可以包括人脸的正面图片，侧面图片，五官信息完全的图片，或只有部分五官信息的图片，图片清晰或者模糊但是五官仍然可以识别的图片。但五官很小或非常模糊的图片不包含在训练数据集合中。

优选的，在标注五官前，先预处理收集的人脸图片。预处理操作具体包括：

步骤10：截取训练数据集合的人脸图片中的人脸区域，去掉多余的背景区域，并对人脸进行转正、对齐。

因为不同的人脸照片，具有不同的姿态。为了使得训练效果更好，可以利用自适应增强分类器(AdaBoost分类器)或者传统深度学习的人脸检测算法检测人脸和人脸关键点。所述人脸关键点包括眼角、眉毛的末端、嘴角、鼻尖等位置信息。根据检测的人脸关键点，计算一个该人脸到标准人脸的仿射或者相似变换，把该人脸与标准人脸对齐。

步骤12：设计一个全卷积神经网络。该全卷积神经网络的前端可以是任何多个卷积层(convolutionallayer)和池化层(poolinglayer)的组合，后端是多个反卷积层(deconvolutionlayer)的组合，最后为softmax或其他等效损耗层。该神经网络的具体层结构如附图2所示。

在一个优选的实施例中，该全卷积神经网络的结构如下：

第一层，卷积层，卷积核大小为3x3，步长stride为2；

第二层，最大池化层(Maxpooling)，池化区间为2x2，步长stride为2；

第三层，卷积层，卷积核大小为3x3，步长Stride为1；

第四层，最大池化层(Maxpooling)，池化区间为2x2，步长stride为2；

第五层，卷积层，卷积核大小为3x3，步长Stride为1；

第六层，最大池化层(Maxpooling)，池化区间为2x2，步长stride为2；

第七层，卷积层，卷积核大小为3x3，步长stride为1；

第八层，卷积层，卷积核大小为3x3，步长stride为1；

第九层，卷积层，卷积核大小为3x3，步长stride为1；

第十层，反卷积层，卷积核大小为6x6，步长stride为4；

第十一层，反卷积层，卷积核大小为6x6，步长stride为4；

第十二层，反卷积层，卷积核大小为6x6，步长stride为1。

在上述全卷积神经网络中，每个卷积层和反卷积层之后都有一个非线性响应单元。卷积层的输入是经过预处理的图像或者图像特征，通过一线性变换输出新的图像特征。池化层主要将多个数值映射到一个数值，该层连接在卷积层后面，用于进一步加强学习到的图像特征的非线性，增强学习的特征的平移不变性。该非线性响应单元采用纠正线性单元ReLU(RectifiedLinearUnits)，在卷积层和反卷积层后增加上述纠正线性单元，主要用于将卷积层和反卷积层的映射结果尽量稀疏一些，更接近人的视觉反应，从而使图像处理效果更好。

将卷积层的卷积核设为3x3，能更好的综合局部信息。

设定卷积层和最大池化层(Maxpooling)的步长stride，目的是为了让上层特征在不增加计算量的前提下获得更大的视野，同时最大池化层的步长stride还有增强空间不变性的特征，即允许同样的输入出现在不同的图像位置上，而输出结果响应相同。

反卷积层为卷积层的逆向操作，反卷积层的步长stride产生的效果是相应的扩大输出，从而达到在人脸分割和五官识别的目标中，输出和输入同样大小，即全图每一个像素都有其对应的类别。反卷积层的卷积核比卷积层大，目的是希望综合更多的底层特征来智能的得到放大的结果。

在一个优选实施例中，在最后第十二层的反卷积层后增加一损耗层，即softmaxloss层，用于计算损耗。

本申请通过在三层1x1的卷积层之后增加三层反卷积层，将输出放大到与输入图片同样的大小。通过学习反卷积的权重大小能够更好的得到更适宜的放大参数。采用全卷积网络分割的方式，可以精确的学习出每一点的类别，得到密集的五官标注结果。

综上所述，该全卷积神经网络的卷积层主要用于信息归纳和融合。最大池化层(Maxpooling)主要进行高层信息的归纳。而反卷积层将输出放大到输入大小。该神经网络结构可以进行微调来适应不同的性能和效率的权衡。

步骤13：利用步骤11中的训练数据集合对步骤12中设计的全卷积神经网络进行训练。

训练方法采用随机梯度下降法。该训练方法中的迭代次数，学习率的初始设置可以随意设定。

在一个优选的实施例中，训练过程总共迭代约60000次。学习率初始设置为0.001，之后每20000轮学习率更新为原来的1/10。

优选的，对于步骤11中的训练数据集合的图片，进行随机旋转正负30度，随机进行90％-110％的大小变化扰动，随机左右翻转，来扩充训练样本。步骤13也可以采用扩充的训练样本对全卷积神经网络进行训练。

对步骤13中已经训练好的全卷积神经网络，进行简单改变。增加一输入层和一输出层，输入层接受任意大小的原始图片，全卷积网络将输出的像素级别的人脸分割结果，及五官的定位与标注。

最终的结果如图3所示，输入图片为一张包含人脸的图片，经过本申请的全卷积神经网络分类后，能够输出对应的五官分类结果和标注，例如眉毛类别，眼睛类别，鼻子类别，上嘴唇类别，舌头类别，下嘴唇类别，以及脸部。上述五官分类能够精确到像素级，即可以精确的学习到包含人脸图片的每一个点的类别，从而得到密集的五官标注结果。

此外，本申请还公开了一种全卷积网络人脸五官定位与判别的系统。参见附图4所示，所述人脸五官定位与判别系统，包括如下模块：

收集标注模块，用于收集人脸图片并对人脸五官进行标注，形成一个训练数据集合。

优选的，系统还包括一预处理模块，用于截取训练数据集合的人脸图片中的人脸区域，去掉多余的背景区域，并对人脸进行转正、对齐。

神经网络设计模块，用于设计一个全卷积神经网络。该全卷积神经网络的前端可以是任何多个卷积层(convolutionallayer)和池化层(poolinglayer)的组合，后端是多个反卷积层(deconvolutionlayer)的组合，最后为softmax或其他等效损耗层。该神经网络的具体层结构如附图2所示。

在一个优选的实施例中，该全卷积神经网络的结构如下：

第一层，卷积层，卷积核大小为3x3，步长stride为2；

第三层，卷积层，卷积核大小为3x3，步长Stride为1；

第五层，卷积层，卷积核大小为3x3，步长Stride为1；

第七层，卷积层，卷积核大小为3x3，步长stride为1；

第八层，卷积层，卷积核大小为3x3，步长stride为1；

第九层，卷积层，卷积核大小为3x3，步长stride为1；

第十层，反卷积层，卷积核大小为6x6，步长stride为4；

第十一层，反卷积层，卷积核大小为6x6，步长stride为4；

第十二层，反卷积层，卷积核大小为6x6，步长stride为1。

将卷积层的卷积核设为3x3，能更好的综合局部信息。

神经网络训练模块，用于利用收集标注模块中的训练数据集合对神经网络设计模块中设计的全卷积神经网络进行训练。

优选的，对于收集标注模块中的训练数据集合的图片，进行随机旋转正负30度，随机进行90％-110％的大小变化扰动，随机左右翻转，来扩充训练样本。神经网络训练模块也可以采用扩充的训练样本对全卷积神经网络进行训练。

对神经网络训练模块中已经训练好的全卷积神经网络，进行简单改变。增加一输入层和一输出层，输入层接受任意大小的原始图片，全卷积网络将输出的像素级别的人脸分割结果，及五官的定位与标注。

和公知的全卷积神经网络相比，本申请的卷积层之后有三层反卷积层，可以将输出放大到与输入图片同样的大小。具体的，在第九层卷积层之后，特征大小仅为原图的1/16，直接输出结果无法达到像素级别的精度。而通过之后的三层反卷积层，可以得到的输出具有像素级别精度的结果。通过学习反卷积的权重大小能够更好的得到更适宜的放大参数。

本申请通过全卷积网络进行图像分割的方式，能够得到输入人脸每一点的预测类别，从而能够得到精确的五官位置，避免了基于人脸关键点的关键点不足以及关键点不够稳定的问题。

以上对本公开进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。

Claims

1.一种基于全卷积网络人脸五官定位与判别方法，该方法包括如下步骤：

步骤12：设计一个全卷积神经网络；

2.如权利要求1所述的方法，其特征在于，优选的，该方法还包括步骤S10：在对五官进行标注前，进行预处理操作，截取所述训练数据集合的人脸图片中的人脸区域，去掉多余的背景区域，并对人脸进行转正、对齐。

3.如权利要求2所述的方法，其特征在于，对人脸进行对齐具体为，利用AdaBoost分类器或者深度学习的人脸检测算法检测人脸和人脸关键点，根据检测的人脸关键点，计算该人脸到标准人脸的仿射或者相似变换，把该人脸与标准人脸对齐。

4.如权利要求1所述的方法，其特征在于，所述人脸五官标注为手工标注。

5.如权利要求4所述的方法，其特征在于，所述手工标注为像素级别标注。

6.如权利要求1所述的方法，其特征在于，所述全卷积神经网络的前端是多个卷积层和池化层的组合，后端是多个反卷积层的组合。

7.如权利要求6所述的方法，其特征在于，所述全卷积神经网络具体结构为，

第一层，卷积层，卷积核大小为3x3，步长stride为2；

第二层，最大池化层，池化区间为2x2，步长stride为2；

第三层，卷积层，卷积核大小为3x3，步长Stride为1；

第四层，最大池化层，池化区间为2x2，步长stride为2；

第五层，卷积层，卷积核大小为3x3，步长Stride为1；

第六层，最大池化层，池化区间为2x2，步长stride为2；

第七层，卷积层，卷积核大小为3x3，步长stride为1；

第八层，卷积层，卷积核大小为3x3，步长stride为1；

第九层，卷积层，卷积核大小为3x3，步长stride为1；

第十层，反卷积层，卷积核大小为6x6，步长stride为4；

第十一层，反卷积层，卷积核大小为6x6，步长stride为4；

第十二层，反卷积层，卷积核大小为6x6，步长stride为1。

8.如权利要求6所述的方法，其特征在于，所述全卷积神经网络还包括一个损耗层，用于计算损耗。

9.如权利要求6所述的方法，其特征在于，在所述卷积层和所述反卷积层之后都增加一个非线性响应单元。

10.如权利要求1所述的方法，其特征在于，步骤S13中所述训练采用随机梯度下降法。

11.一种基于全卷积网络人脸五官定位与判别系统，该系统包括如下模块：

神经网络设计模块，用于设计一个全卷积神经网络；

神经网络训练模块，用于利用所述收集标注模块中的训练数据集合对所述神经网络设计模块中设计的全卷积神经网络进行训练；

五官定位标注模块，利用所述神经网络训练模块中的已经训练好的全卷积神经网络，对人脸图片进行五官定位和标注。

12.如权利要求11所述的系统，其特征在于，该系统还包括：

预处理模块，用于截取所述训练数据集合的人脸图片中的人脸区域，去掉多余的背景区域，并对人脸进行转正、对齐。

13.如权利要求12所述的系统，其特征在于，对人脸进行对齐具体为，利用AdaBoost分类器或者深度学习的人脸检测算法检测人脸和人脸关键点，根据检测的人脸关键点，计算该人脸到标准人脸的仿射或者相似变换，把该人脸与标准人脸对齐。

14.如权利要求11所述的系统，其特征在于，所述人脸五官标注为手工标注。

15.如权利要求14所述的系统，其特征在于，所述手工标注为像素级别标注。

16.如权利要求11所述的系统，其特征在于，所述全卷积神经网络的前端是多个卷积层和池化层的组合，后端是多个反卷积层的组合。

17.如权利要求16所述的系统，其特征在于，所述全卷积神经网络具体结构为，

第一层，卷积层，卷积核大小为3x3，步长stride为2；

第二层，最大池化层，池化区间为2x2，步长stride为2；

第三层，卷积层，卷积核大小为3x3，步长Stride为1；

第四层，最大池化层，池化区间为2x2，步长stride为2；

第五层，卷积层，卷积核大小为3x3，步长Stride为1；

第六层，最大池化层，池化区间为2x2，步长stride为2；

第七层，卷积层，卷积核大小为3x3，步长stride为1；

第八层，卷积层，卷积核大小为3x3，步长stride为1；

第九层，卷积层，卷积核大小为3x3，步长stride为1；

第十层，反卷积层，卷积核大小为6x6，步长stride为4；

第十一层，反卷积层，卷积核大小为6x6，步长stride为4；

第十二层，反卷积层，卷积核大小为6x6，步长stride为1。

18.如权利要求16所述的系统，其特征在于，所述全卷积神经网络还包括一个损耗层，用于计算损耗。

19.如权利要求16所述的系统，其特征在于，在所述卷积层和所述反卷积层之后增加一个非线性响应单元。

20.如权利要求11所述的系统，其特征在于，所述神经网络训练模块采用随机梯度下降法进行训练。