CN107729819A

CN107729819A - 一种基于稀疏全卷积神经网络的人脸标注方法

Info

Publication number: CN107729819A
Application number: CN201710872819.0A
Authority: CN
Inventors: 温世平; 董明辉
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2018-02-23
Anticipated expiration: 2037-09-22
Also published as: CN107729819B

Abstract

本发明公开了一种基于稀疏全卷积神经网络的人脸标注方法，包括：使用人脸图像数据库对全卷积神经网络分割模型进行第一阶段的训练，得到基础全卷积神经网络分割模型；在优化目标函数中加入group Lasso与intra‑group Lasso稀疏正则项，对基础全卷积神经网络分割模型进行第二阶段训练，得到用于人脸标注的稀疏全卷积神经网络分割模型；使用稀疏全卷积神经网络分割模型对待标注的人脸图像进行初步标注，输出结果为待标注的人脸图像中每个像素点标注为头发、皮肤和背景的概率；使用全连接条件随机场模型结合双元潜能对输出结果进行优化，得到最后的标注结果。本发明精度高、鲁棒性强、参数冗余少且计算资源消耗小。

Description

一种基于稀疏全卷积神经网络的人脸标注方法

技术领域

本发明属于人工智能图像处理领域，更具体地，涉及一种基于稀疏全卷积神经网络的人脸标注方法。

背景技术

人脸标注是指对主要包含人脸部的图像进行各区域的分割，根据需求的不同，将图像分割为3类(头发、背景、面部)或者更多类(即将面部成分继续分割)。脸部标识作为一个前端处理，在人脸识别、人脸虚拟美妆、影像编辑等多个领域具有重要的应用。精确的脸部标识结果是后端处理的基础，同时为了能获得实时应用，测试效率需要在满足精度的要求下尽可能提高。

目前大多数的脸部标识算法主要基于人工设计的特征进行图像分割，条件随机场模型分类是其中具有代表性的方法，但是由于人工设计的特征多采用纹理、颜色、灰度梯度等浅层特征。这些特征容易受光照、角度、灰度等因素的影响，并且在模型训练过程中无法学习更新特征，所以传统的办法在分割精度方面难以达到令人满意的要求。人脸标注是一项非常具有挑战性的任务，因为不同人脸图像中，头发颜色、头发形状、人脸姿势、拍摄角度等问题都会出现非常大的变化，因此需要具有较强表达能力的模型来学习这些特征。上个世纪80年代，Yuan Lecun等人就已经提出了深度学习的基本理论，但是用于当时的硬件水平并不能满足其计算要求，所以人工智能发展缓慢，但是随着硬件水平的提高，深度学习的兴起，运用卷积神经网络学习的特征代替人工设计的特征的方法被广泛采用，这种方法克服了传统特征的不足，在精度上有了极大的提升，但是由于采用了深层特征和滑窗操作等方法，造成了大量的参数冗余，使得训练和测试时间较长，并且模型需要大量的存储空间，难以达到实际应用的要求。

由此可见，传统人脸标注方法存在精度不高、鲁棒性不强的技术问题，基于深度学习的人脸标注方法存在参数冗余、模型复杂、计算资源消耗大的技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于稀疏全卷积神经网络的人脸标注方法，由此解决传统人脸标注方法存在精度不高、鲁棒性不强的技术问题，基于深度学习的人脸标注方法存在参数冗余、模型复杂、计算资源消耗大的技术问题。

为实现上述目的，本发明提供了一种基于稀疏全卷积神经网络的人脸标注方法，包括：

(1)使用人脸图像数据库对不存在全连接层的全卷积神经网络分割模型进行第一阶段的训练，优化目标函数为交叉熵损失函数加防过拟合项，当全卷积神经网络分割模型的分割精度不再提升时结束第一阶段训练，得到基础全卷积神经网络分割模型；

(2)在优化目标函数中加入group Lasso与intra-group Lasso稀疏正则项，对基础全卷积神经网络分割模型进行第二阶段训练，当基础全卷积神经网络分割模型的分割精度不再提升时结束第二阶段训练，得到用于人脸标注的稀疏全卷积神经网络分割模型；

(3)使用稀疏全卷积神经网络分割模型对待标注的人脸图像进行初步标注，标注过程中裁剪掉稀疏为0的通道，输出结果为待标注的人脸图像中每个像素点标注为头发、皮肤和背景的概率；

(4)使用全连接条件随机场模型结合双元潜能对输出结果进行优化，双元潜能为待标注的人脸图像中不同像素点之间的位置与颜色强度差值，得到最后的标注结果。

进一步的，步骤(2)包括：

在优化目标函数中加入group Lasso与intra-group Lasso稀疏正则项：

其中，E_D(W)为损失函数，R(W)为所有权值的正则项，R_g1(W^(l))为group Lasso稀疏正则项，R_g2(W^(l))为intra-group Lasso稀疏正则项，λ表示过拟合系数，λ₁表示group Lasso稀疏正则项的权重，λ₂表示intra-group Lasso稀疏正则项的权重，L表示全卷积神经网络分割模型的卷积层总数，W^(l)为全卷积神经网络分割模型的第l个卷积层的参数；

经过group Lasso稀疏正则项稀疏优化后，当卷积层中的某一组的参数全部为0时，裁剪该组，达到压缩网络结构的目的；使用intra-group Lasso稀疏正则项稀疏优化后，将卷积层中的不同组相同位置的权值作为一组，进行权值稀疏化，将未裁剪通道继续稀疏优化，当基础全卷积神经网络分割模型的分割精度不再提升时，得到用于人脸标注的稀疏全卷积神经网络分割模型。

进一步的，group Lasso稀疏正则项为：

其中，为全卷积神经网络分割模型的第l个卷积层的参数，N_l，C_l，H_l，W_l分别为该层输入特征图数量，输出特征图数量，输出特征图高度和输出特征图宽度，w^(g1)表示每个group Lasso分组内的参数集合，表示每个group Lasso分组内的参数集合中的第i个参数。

进一步的，intra-group Lasso稀疏正则项为：

其中，w^(g2)表示每个intra-group Lasso分组内的参数集合，表示每个intra-group Lasso分组内的参数集合中的第i个参数。

进一步的，步骤(1)还包括对全卷积神经网络分割模型进行加权融合，加权融合方式如下：

设P_1score，P_2score，P_3score，P_4score，P_5score分别为池化层1、池化层2、池化层3、池化层4、池化层5的得分层的特征图，UP₂(·)表示2倍的反卷积操作，M_out表示最后融合特征图，则：

M_out＝UP₂(UP₂(UP₂(UP₂(UP₂(P_5score)+a₁P_4score)+a₂P_3score)+a₃P_2score)+a₄P_1score)

其中，a₁为池化层4得分层的加权权重，a₂为池化层3得分层的加权权重，a₃为池化层2得分层的加权权重，a₄为池化层1得分层的加权权重。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提供一种基于稀疏全卷积神经网络的人脸标注方法，该方法与现有人脸标注算法相比，具有更高的标注精度、更强的鲁棒性，同时该方法通过一种新型稀疏算法大大减少了传统卷积神经网络的参数，减少了标注时间，减少了计算资源和存储资源的消耗，大大增加了可应用性，可将一张人脸图像快速精准的标注出头发、背景和皮肤三个区域。

(2)本发明通过加权全卷积神经网络提取分级特征，具有较强的特征提取能力，相对传统面部标注方法具有更强的鲁棒性、更高的分割精度；新型稀疏正则项的引入，使全卷积神经网络模型参数大幅减少，减少运算时间，同时保证分割精度。本发明所提出的方法更容易应用于嵌入式设备等移动平台。

附图说明

图1是本发明实施例提供的一种基于稀疏全卷积神经网络的人脸标注方法的流程图；

图2是本发明实施例提供的用于人脸标注的基础全卷积神经网络分割模型结构；

图3是本发明实施例提供的未经稀疏优化的卷积操作示意图；

图4是本发明实施例提供的经过Lasso稀疏优化的卷积操作示意图；

图5是本发明实施例提供的经过group Lasso稀疏优化的卷积操作示意图；

图6是本发明实施例提供的经过group Lasso和intra-group Lasso稀疏优化的卷积操作示意图；

图7为本发明实施例提供的各步骤的输出结果；

图8为本发明实施例提供的卷积层2_1稀疏前的卷积核状态；

图9为本发明实施例提供的卷积层2_1稀疏后的卷积核状态。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于稀疏全卷积神经网络的人脸标注方法，包括：

如图2所示，本发明所提出的卷积神经网络全部由卷积层、池化层和反卷积层组成，没有全连接层，故称为全卷积神经网络。输入图像依次经过卷积1、池化层1、卷积2、池化层2、卷积3、池化层3、卷积4、池化层4、卷积5、池化层5获得多级特征，其中卷积1包括卷积层1_1、卷积层1_2，卷积2包括卷积层2_1、卷积层2_2，卷积3包括卷积层3_1、卷积层3_2，卷积4包括卷积层4_1、卷积层4_2，卷积5包括卷积层5_1、卷积层5_2。其中每个卷积层后经过ReLu激活函数，以引入非线性因素。然后池化层5的得分层经过2倍的反卷积层与池化层4的得分层进行加权融合，获得融合层1；融合层1经过2倍的反卷积层与池化层3的得分层进行加权融合，获得融合层2；融合层经过2倍的反卷积层与池化层2的得分层进行加权融合，获得融合层3；融合层3经过2倍的反卷积层与池化层1的得分层进行加权融合，获得融合层4；融合层4经过2倍的反卷积层获得与输入图像相同尺寸的特征图，特征图经过Softmax层获得各像素点的标注概率，取每个像素点最高概率类别即获得最后的标注结果。

本发明实施例优选的，卷积层1_1：卷积核尺寸3*3，步长为1，输出通道为64；

卷积层1_2：卷积核尺寸3*3，步长为1，输出通道为64；

池化层1：最大值池化，池化因子为2，步长为2；

卷积层2_1：卷积核尺寸3*3，步长为1，输出通道为128；

卷积层2_2：卷积核尺寸3*3，步长为1，输出通道为128；

池化层2：最大值池化，池化因子为2，步长为2；

卷积层3_1：卷积核尺寸3*3，步长为1，输出通道为256；

卷积层3_2：卷积核尺寸3*3，步长为1，输出通道为256；

池化层3：最大值池化，池化因子为2，步长为2；

卷积层4_1：卷积核尺寸3*3，步长为1，输出通道为512；

卷积层4_2：卷积核尺寸3*3，步长为1，输出通道为512；

池化层4：最大值池化，池化因子为2，步长为2；

卷积层5_1：卷积核尺寸3*3，步长为1，输出通道为512；

卷积层5_2：卷积核尺寸3*3，步长为1，输出通道为512；

池化层5：最大值池化，池化因子为2，步长为2；

池化层5得分层：卷积核尺寸为1*1，步长为1，输出通道为3；

池化层4得分层：卷积核尺寸为1*1，步长为1，输出通道为3；

池化层3得分层：卷积核尺寸为1*1，步长为1，输出通道为3；

池化层2得分层：卷积核尺寸为1*1，步长为1，输出通道为3；

池化层1得分层：卷积核尺寸为1*1，步长为1，输出通道为3；

池化层5得分反卷积层：反卷积核尺寸为4*4，步长为2，输出通道为3；

融合层1：池化层5得分反卷积层与池化层4得分层特征加权融合；

融合层1反卷积层：反卷积核尺寸为4*4，步长为2，输出通道为3；

融合层2：融合层1反卷积层与池化层3得分层特征加权融合；

融合层2反卷积层：反卷积核尺寸为4*4，步长为2，输出通道为3；

融合层3：融合层2反卷积层与池化层2得分层特征加权融合；

融合层3反卷积层：反卷积核尺寸为4*4，步长为2，输出通道为3；

融合层4：融合层3反卷积层与池化层1的分层特征加权融合；

融合层4反卷积层：反卷积核尺寸为4*4，步长为2，输出通道为3；

概率层：融合层4反卷积层经过Softmax函数；

其中，加权融合方式如下：

虽然L₁正则化(Lasso)可以进行网络参数进行稀疏化，但是其在网络结构精简方面的作用比较小。在进行全卷积神经网络的结构精简时，只有与某个特征图输出通道相连接的所有卷积核都稀疏为0之后，该通道才可以被裁剪掉。在本发明中，将与某个输出通道相连接的所有卷积核视为一组，同时稀疏优化该组内的所有参数，将组内的所有参数同时置为0，则该组所对应的输出通道就可以被裁剪出网络，称这种方法为convolutionalgroup Lasso优化。但是仅仅采用这种优化方式，容易导致有些组的参数得到稀疏优化(全部置为0)，有些组没有得到有效的稀疏优化(全部没有置为0)，因此又采用了组内稀疏优化方法intra-group Lasso，该方法将不同输出通道内的卷积核中，相同位置的权值作为一组，在获得组水平的优化同时，进行组内稀疏优化，同时通过该稀疏方法可以对卷积核大小进行裁剪。图3到6展示了一个简化版的卷积操作(具有3个输入通道，2个输出通道)。图3展示了未进行稀疏操作的卷积核状态，不同颜色表示不同的卷积核。图4展示了Lasso稀疏的卷积核状态，卷积核中白色方块表示该卷积核对应位置的权值稀疏为0，这种正则项稀疏的结果难以裁剪整个输出通道或者整个卷积核，继而难以进行特征选择，也无法获得一个更为精简的网络结构，对简化神经网络的运算意义不大。图5展示了group Lasso稀疏的卷积核状态，同一个输出通道(第二个输出通道)对应的卷积核全部置为0，则该输出通道可以被裁剪。图6展示了group Lasso+intra-group Lasso稀疏的卷积核状态，在第二个输出通道稀疏的基础上，第二个输出通道中相应的权值也进行了稀疏优化，相比Lasso，该稀疏方式可以获得更为合适的卷积核尺寸。

全卷积神经网络的输出结果是十分光滑的，并且产生的是均匀同质的分类结果，然而在面部语义分割中，需要非常精细的分割结果，尤其是头发区域。为了解决这个问题，本发明采用了全连接条件随机场模型作为后端处理，此模型最早由等人提出，该模型采用如下的能量函数：

其中x是每个像素点标注的类别标签，y为输入图像的像素点集合，u_i(x_i)为每个像素点的单元势能，其具体为：

u_i(x_i)＝-logP(x_i)

其中P(x_i)为稀疏全卷积神经网络输出的每个像素点标注为皮肤、头发、背景的概率。

p_ij(x_i，x_j)是双元势能，(i，j)为输入图像中任意两点之间的组合，无论两点之间的距离大小，因此称为全连接条件随机场。其具体为：

其中p表示像素点的位置信息，I表示像素点的颜色信息。该双元势能由两部分高斯核组成，第一部分高斯核依赖两个像素点之间的位置和颜色信息差别，第二部分的高斯核仅依赖两个像素点之间的位置信息差别。ω₁，ω₂控制两类高斯核的控制比例，σ_α，σ_β，σ_γ控制高斯核的大小。

图7展示了本发明所提出方法的6例标注结果。第一列为输入图像，第二列为未进行稀疏优化的全卷积神经网络的标注结果，第三列为进行稀疏优化的全卷积神经网络的标注结果，第四列为稀疏全卷积神经网络与全连接条件随机场模型结合的标注结果，第五列为真值。从分割结果可以看出，本发明所提出的方法对各种复杂情况有非常好的鲁棒性。在头发颜色、形状发生较大变化(第1个样例)、多人物干扰(第2、6个样例)、面部有遮挡(第4、5个样例)和有胡须(第3个样例)、皮肤颜色与头发颜色非常接近(第6个样例)的情况下仍然可以较成功的分割出对应类别。并且经过稀疏优化后的模型在整体分布上更加接近真实值，采用全连接条件随机场后端处理后，在类别分界上面分割更加细致，在一定程度上弥补了全卷积神经网络丢失的细节特征。

以卷积层2_1为例对稀疏效果进行说明。图8为卷积层2_1未稀疏优化前的卷积核状态，其中每个输出通道的卷积核排列为一行，共64行(即64个输出通道)，颜色越深表示对应位置的值越大。图9为卷积层2_1经过稀疏优化后的卷积核状态，其中可见权值以组的形式被全部稀疏置0(每行的权值同时被置为0)，另外由于intra-group Lasso的使用，组内参数也得到了稀疏(每列的权值同时被置为0)。

结合稀疏效果展示与输出结果展示，可以看出本发明所提出的面部标注解决方案，不仅具有较强的鲁棒性、准确性，同时可以保证网络具有较高的稀疏性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于稀疏全卷积神经网络的人脸标注方法，其特征在于，包括：

2.如权利要求1所述的一种基于稀疏全卷积神经网络的人脸标注方法，其特征在于，所述步骤(2)包括：

在优化目标函数中加入group Lasso与intra-group Lasso稀疏正则项：

<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>E</mi> <mi>D</mi> </msub> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&lambda;</mi> <mi>R</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>1</mn> </msub> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <msub> <mi>R</mi> <mrow> <mi>g</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>2</mn> </msub> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <msub> <mi>R</mi> <mrow> <mi>g</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow>

3.如权利要求2所述的一种基于稀疏全卷积神经网络的人脸标注方法，其特征在于，所述group Lasso稀疏正则项为：

<mrow> <msub> <mi>R</mi> <mrow> <mi>g</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>g</mi> <mn>1</mn> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>l</mi> </msub> </msubsup> <mo>|</mo> <mo>|</mo> <msup> <mi>w</mi> <mrow> <mo>(</mo> <mi>g</mi> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>|</mo> <msub> <mo>|</mo> <mrow> <mi>g</mi> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>g</mi> <mn>1</mn> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>l</mi> </msub> </msubsup> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>C</mi> <mi>l</mi> </msub> <mo>&times;</mo> <msub> <mi>H</mi> <mi>l</mi> </msub> <mo>&times;</mo> <msub> <mi>W</mi> <mi>l</mi> </msub> </mrow> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>g</mi> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

4.如权利要求3所述的一种基于稀疏全卷积神经网络的人脸标注方法，其特征在于，所述intra-group Lasso稀疏正则项为：

<mrow> <msub> <mi>R</mi> <mrow> <mi>g</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>g</mi> <mn>2</mn> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>C</mi> <mi>l</mi> </msub> <mo>&times;</mo> <msub> <mi>H</mi> <mi>l</mi> </msub> <mo>&times;</mo> <msub> <mi>W</mi> <mi>l</mi> </msub> </mrow> </msubsup> <mo>|</mo> <mo>|</mo> <msup> <mi>w</mi> <mrow> <mo>(</mo> <mi>g</mi> <mn>2</mn> <mo>)</mo> </mrow> </msup> <mo>|</mo> <msub> <mo>|</mo> <mrow> <mi>g</mi> <mn>2</mn> </mrow> </msub> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>g</mi> <mn>2</mn> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>C</mi> <mi>l</mi> </msub> <mo>&times;</mo> <msub> <mi>H</mi> <mi>l</mi> </msub> <mo>&times;</mo> <msub> <mi>W</mi> <mi>l</mi> </msub> </mrow> </msubsup> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>l</mi> </msub> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>g</mi> <mn>2</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

5.如权利要求1-4任意一项所述的一种基于稀疏全卷积神经网络的人脸标注方法，其特征在于，所述步骤(1)还包括对全卷积神经网络分割模型进行加权融合，加权融合方式如下：

设P_1score，P_2score，P_3score，P_4score，P_5score分别为池化层1、池化层2、池化层3、池化层4、池化层5的得分层的特征图，UP₂(●)表示2倍的反卷积操作，M_out表示最后融合特征图，则：