CN108073876A

CN108073876A - 面部解析设备和面部解析方法

Info

Publication number: CN108073876A
Application number: CN201611025410.7A
Authority: CN
Inventors: 郭天楚; 金暎星; 张辉; 钱德恒; 俞炳仁; 郑贺; 徐静涛; 韩在濬; 崔昌圭
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2018-05-25
Anticipated expiration: 2036-11-14
Also published as: KR102458243B1; CN108073876B; KR20180054414A

Abstract

本发明提供一种面部解析设备和面部解析方法。根据本发明的面部解析方法，包括：将待测样本输入到残差网络模块；使用训练好的残差网络模块对待测样本进行处理，其中，所述残差网络模块包括沿着从输入到输出方向排列的多个顺序结合的残差块，将所述多个顺序结合的残差块中的预定的第N个残差块的输出发送到残差反卷积网络模块；使用训练好的残差反卷积网络模块处理所述第N个残差块的输出，以得到分类图，其中，残差反卷积网络模块包括多个顺序结合的残差反卷积块，所述多个残差反卷积块分别与所述多个残差块中的第一个到第N个残差块对应。采用本发明的面部解析方法，能够提升人脸解析的性能，同时该方法模型尺寸大幅度减小。

Description

面部解析设备和面部解析方法

技术领域

本发明涉及一种与计算机视觉有关的图像处理设备和图像处理方法，尤其涉及一种包括残差反卷积网络的面部解析设备和面部解析方法。

背景技术

计算机视觉是指用摄像机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉操作，并进一步做图形处理从而使信号成为更适合人眼观察或仪器检测的图像。计算机视觉使用计算机及相关设备来模拟生物视觉，其最终研究目标就是使计算机能像人那样通过视觉观察和理解世界，具有自主适应环境的能力。在智能化和数字化的今天，计算机视觉得到越来越广泛的应用和极大的关注。

使用深度学习做语意分割及解析是计算机视觉中的热点话题，所谓图像语意分割，简单而言就是给定一张图片，对图片上的每一个像素点进行分类。深度神经网络可以很好的抽象出图像低维特征。但神经网络在提取特征的同时，利用了池化层将特征的分辨率降低，而如何将低维高效的特征图转化为高维的像素级分类结果是分割任务的难题。主要有以下两种解决方案。第一种方案是利用‘hole’算法并且去池化层，尽可能减小网络分辨率的降低，并将最后得到的特征图双线性内插放大；第二种方案是将得到的低维特征通过堆叠的反卷积学习细节，将特征图放大。

实现像素级高精度的人脸解析，需要得到高精度的特征图，进而对每个像素进行分类。然而，上述方法存在一定的技术缺陷。

上述第一种方案，尽管在网络中尽可能的去除了池化层，减少分辨率的损失，但是后期还是需要用双线性内插方法得到高维特征图，还是存在了一定的精度损失。主要体现在边缘模糊。上述第二种方案，使用反卷积得到的特征图比第一种方案更为细致，但是仍然缺乏细节。主要体现在，堆叠的反卷积是不断的希望在一个粗糙的特征图上直接通过反卷积操作得到一个细致的特征图，这样会使得每个反卷积的函数并不能更加关注于细节的学习。随着深度网络技术的成熟，使用更深的深度神经网络一定意义上可以更好的提升准确率。堆叠的反卷积网络会随着网络的加深而变得难以训练，经本申请发明人研究分析，其原因有二。第一，随着网络层数的加深，会造成梯度弥散或者网络训练衰退，造成整个网络很难达到一个较优的位置。第二，堆叠的反卷积网络始终是利用上一层的粗糙特征图作为输入，期望通过反卷积输出一个细致的特征图，求解空间较大，不容易收敛。

另外，对于诸如人脸的面部解析任务而言，人脸有很好的结构性，可以很容易的借助五点检测获取结构信息。这些先验信息可以帮助提升人脸解析的结果。但是目前现有的技术对于如何使用先验信息还没有一个良好的方案。

发明内容

本发明通过提供一种面部解析设备和一种面部解析方法，其至少基本上解决了上述问题和/或缺点，并可能提供另外的优点。此外，不要求示例性实施例必须克服所有上述缺点，示例性实施例可以不同时解决上述多个问题中的全部。另外，上面在背景技术部分中描述的方案并不意味着该技术方案是现有技术。

根据本发明的一方面，提供一种面部解析方法，包括：将待测样本输入到残差网络模块；使用训练好的残差网络模块对待测样本进行处理，其中，所述残差网络模块包括沿着从输入到输出方向排列的多个顺序结合的残差块，将所述多个顺序结合的残差块中的预定的第N个残差块的输出发送到残差反卷积网络模块，其中，N为自然数并且小于残差网络模块包括的所有残差块的总个数；使用训练好的残差反卷积网络模块处理所述第N个残差块的输出，以得到分类图，其中，残差反卷积网络模块包括多个顺序结合的残差反卷积块，所述多个残差反卷积块分别与所述多个残差块中的第一个残差块到第N个残差块对应。

通过对面部识别训练样本执行的面部识别任务来对残差网络模块进行预训练，以优化残差网络模块中的权重参数；通过对面部解析训练样本执行的面部解析任务来对残差网络模块和残差反卷积网络模块进行联合训练，以优化残差反卷积网络模块中的权重参数并进一步优化残差网络模块中的权重参数。

所述预训练步骤包括：将面部识别训练样本输入到残差网络模块并执行面部识别任务，对残差网络模块的最后一个块的输出进行平均池化，然后执行身份全连接操作，调节残差网络模块中的权重参数以使softmax函数最小化。

其中，所述联合训练步骤包括：将残差网络模块中的权重参数初始化为预训练步骤中得到的权重参数，将残差反卷积网络模块的权重参数进行随机初始化，保持所述第N个残差块的输出作为残差反卷积网络模块的输入，将面部解析训练样本输入到残差网络模块，使残差网络模块和残差反卷积网络模块执行面部解析任务，调节残差反卷积网络模块中的权重参数和残差网络模块中的权重参数以使softmax函数最小化。

所述面部解析方法还包括：使用训练好的先验信息模块获取待测样本的先验信息，并将先验信息与残差反卷积网络模块的输出进行融合，得到分割结果。

获取待测样本的先验信息包括：比较待测样本与面部解析训练库中的所有面部并找出面部解析训练库中与待测样本最接近的一组面部，获取该最接近的一组面部的标定信息并求取平均值，作为待测样本的先验信息。

通过面部解析任务来对先验信息模块进行训练以优化先验信息模块中的权重参数。

对先验信息模块进行训练的步骤包括对先验信息模块执行第一训练以及对残差网络模块、残差反卷积网络模块和先验信息模块整体执行第二训练，在所述第一训练中，使除去该先验信息模块中的权重参数之外的所有参数固定，调节先验信息模块中的权重参数以使softmax函数最小化；在所述第二训练中，利用调节好的权重参数初始化先验信息模块，解除所述固定，然后通过让残差网络模块、残差反卷积网络模块和先验信息模块一起对面部解析训练样本执行面部解析任务，来进一步整体优化残差网络模块、残差反卷积网络模块和先验信息模块中的权重参数。

所述融合包括：将残差反卷积网络输出的分类图与先验信息拼接成拼接图，用卷积核卷积上述拼接图，得到先验信息的贡献图，将该贡献图与残差反卷积网络输出的分类图做元素级相加，得到所述分割结果。

所述面部解析方法还包括：利用稠密条件随机场方法改善分割结果。

所述改善分割结果包括：将先验信息模块输出的分割结果作为稠密条件随机场的unary项来改善分割结果。

残差网络模块还包括位于第一个残差块之前的卷积块，残差反卷积网络模块还包括位于最后一个残差反卷积块之后的反卷积块。

所述其余残差块中的任一残差块的输出经过最大值池化处理后作为该残差块的下一级残差块的输入，所述多个残差反卷积块中的任一残差反卷积块的输出经过最大值反池化处理后作为该残差反卷积块下一级的输入。

每个残差反卷积块均包括稠密模块、细节学习模块和降维模块。

残差网络模块具有4个或5个残差块，残差反卷积网络模块的残差反卷积块的数量比残差网络模块的残差块的数量少一个。

残差网络模块中的卷积块的每个卷积层中具有64个卷积核，残差反卷积网络模块中的反卷积块的每个反卷积层中具有64个反卷积核。

残差块将输入数据的通道数变为原来的两倍，残差反卷积块将输入数据的通道数变为原来的二分之一。

其中，在将训练样本输入到残差网络模块之前对训练样本进行处理，所述处理包括以下三种处理中的任意一种、或者处理B和处理C的组合：A.保持训练样本的原始图像数据不变，以便直接输入到残差网络模块；B.将训练样本的原始图像数据进行随机镜像；C.将训练样本的原始图像数据进行随机裁剪。

其中，所述预定的第N个残差块为沿输入到输出方向排列的所述多个顺序结合的残差块中的倒数第二个残差块或倒数第三个残差块。

根据本发明的另一方面，提供了一种面部解析设备，包括：待测样本输入单元，用于将待测样本输入到残差网络模块；残差网络模块，被训练好的残差网络模块对待测样本进行处理，残差网络模块包括沿着从输入到输出方向排列的多个顺序结合的残差块，残差网络模块将所述多个顺序结合的残差块中的预定的第N个残差块的输出发送到残差反卷积网络模块，其中，N为自然数并且小于残差网络模块包括的所有残差块的总个数；残差反卷积网络模块，被训练好的残差反卷积网络模块处理所述第N个残差块的输出，以得到分类图，其中，残差反卷积网络模块包括多个顺序结合的残差反卷积块，所述多个残差反卷积块分别与所述多个残差块中的第一个残差块到第N个残差块对应。

所述面部解析设备还包括：先验信息模块，被训练好的先验信息模块获取待测样本的先验信息，并将先验信息与残差反卷积网络模块的输出进行融合，得到分割结果。

所述面部解析设备还包括：稠密条件随机场模块，利用稠密条件随机场方法改善分割结果。

根据本发明的另一方面，提供一种训练如上所述的面部解析设备的训练方法，包括：通过对面部识别训练样本执行的面部识别任务来对残差网络模块进行预训练，以优化残差网络模块中的权重参数；通过对面部解析训练样本执行的面部解析任务来对残差网络模块和残差反卷积网络模块进行联合训练，以优化残差反卷积网络模块中的权重参数并进一步优化残差网络模块中的权重参数。

其中，所述预训练的步骤包括：将残差网络模块中的权重参数随机初始化；通过对面部识别训练样本执行的面部识别任务来对残差网络模块进行预训练，以优化残差网络模块中的权重参数。所述联合训练的步骤包括：将残差网络模块中的权重参数初始化为预训练步骤中得到的权重参数，将残差反卷积网络模块的权重参数进行随机初始化，保持所述第N个残差块的输出作为残差反卷积网络模块的输入；通过对面部解析训练样本执行的面部解析任务来对残差网络模块和残差反卷积网络模块进行联合训练，以优化残差反卷积网络模块中的权重参数并进一步优化残差网络模块中的权重参数。

所述训练方法进一步包括：使除先验信息模块中的权重参数之外的所有参数固定，对先验信息模块执行第一训练，以得到优化的先验信息模块的权重参数；使用通过第一训练调节好的权重参数初始化先验信息模块，解除对残差网络模块和残差反卷积网络模块中的权重参数的固定，然后通过让残差网络模块、残差反卷积网络模块和先验信息模块一起对面部解析训练样本执行面部解析任务来执行第二训练，从而得到进一步整体优化后的残差网络模块、残差反卷积网络模块和先验信息模块中的权重参数。

根据本发明的实施例提供的残差反卷积网络模块中的残差分支可使得梯度不会弥散，从而使得网络更容易优化。

根据本发明的实施例设计的残差反卷积网络模块中的各个残差反卷积块包括稠密模块、细节学习模块和降维模块这三个子块，相当于把一个从粗糙特征图到细节特征图的过程分为三步，尤其是在细节学习模块，其在粗糙特征图的基础上补全细节，而不是由粗糙特征图直接得出细节，因此能够得出更细致准确的分割结果。

本发明提供的结构可以解决现有方法的技术缺陷，能够更为细致的学习高分辨率的特征图，提升人脸解析的性能。同时，该方法模型尺寸大幅度减小，具有广阔的应用前景。

针对特征图粗糙的问题，本发明设计了残差反卷积结构，在恢复特征图分辨率的同时，更侧重于学习细节信息，使得最终的预测结果精度更高。

另外，本发明还引入了先验信息，而且本发明具有独特的先验信息的融合方式，从而能让先验信息作为一个分支引用，使得网络学习出先验的贡献率，提高逐像素分类的准确率。

附图说明

通过下面结合示例性地示出一例的附图进行的描述，本发明的上述和其他目的和特点将会变得更加清楚，其中：

图1是示意性示出根据本发明的实施例的面部解析设备的框图；

图2是示意性示出根据本发明的实施例的使用人脸识别任务预训练残差网络的方法的流程图；

图3A是示意性示出根据本发明的实施例的使用人脸解析任务联合训练残差网络和残差反卷积网络的流程图；

图3B是示意性示出根据本发明的实施例的面部解析方法的流程图；

图4是示意性示出根据本发明的另一实施例的面部解析设备的框图；

图5A是示意性示出根据本发明的另一实施例的使用人脸解析任务训练面部解析设备的流程图；

图5B是示意性示出根据本发明的另一实施例的面部解析方法的流程图；

图6A是示意性示出根据本发明的实施例的残差网络模块的框图；

图6B是示意性示出根据本发明的实施例的残差网络模块中的残差块13的放大示图；

图7A是示意性示出根据本发明的实施例的残差反卷积网络模块的框图；

图7B是示意性示出根据本发明的实施例的残差反卷积网络模块中的残差反卷积块23的放大示图；

图8是示意性示出根据本发明的另一实施例的与残差网络模块和残差反卷积网络模块协同工作的先验信息模块的框图。

图9以对比方式示出了根据本发明的实施例的方法的分类效果与VGG反卷积算法的分类效果。

具体实施方式

以下，参照附图来详细说明本发明的实施例。本发明的面部解析设备和面部解析方法可适用于解析各种面部结构(诸如人脸、计算机虚拟的脸、动物的脸)，但为了方便起见，下面仅以人脸为例进行说明。

首先，介绍一下残差和残差网络。

残差是指输入与估计值(拟合值)之间的差。残差单元的输出由多个卷积层级联的输出和输入元素间相加(保证卷积层输出和输入元素维度相同)，再经过ReLU(修正线性单元)激活后得到。将这种结构级联起来，就得到了残差网络。

图1是示意性示出根据本发明的实施例的面部解析设备的框图。图6A是示意性示出根据本发明的实施例的残差网络模块的框图。图6B是示意性示出根据本发明的实施例的残差网络模块中的残差块13的放大示图。图7A是示意性示出根据本发明的实施例的残差反卷积网络模块的框图。图7B是示意性示出根据本发明的实施例的残差反卷积网络模块中的残差反卷积块23的放大示图。

参见图1、图6A和图7A，根据本发明的实施例的面部解析设备包括待测样本输入单元7、残差网络模块10和残差反卷积网络模块20。待测样本输入单元7用于将待测样本(例如，人脸图片)输入到残差网络模块10。

被训练好的残差网络模块10对待测样本进行处理，残差网络模块10包括沿着从输入到输出方向排列的多个顺序结合的残差块(例如，图6A中的残差块12-16)，残差网络模块10将所述多个顺序结合的残差块中的预定的第N个残差块(例如，图6A中的残差块15)的输出发送到残差反卷积网络模块，如图6A和图7A所示。其中，N为自然数并且小于残差网络模块包括的所有残差块的总个数。

被训练好的残差反卷积网络模块20处理所述第N个残差块(例如图6A和图7A中的残差块15)的输出，从而可以得到分类图31。

其中，残差反卷积网络模块包括多个顺序结合的残差反卷积块(例如，图7A中的残差反卷积块22-25)，所述多个残差反卷积块22-25分别与所述多个残差块中的第一个残差块到第N个残差块12-15对应。

其中，最为优选的是，所述预定的第N个残差块为沿输入到输出方向排列的所述多个顺序结合的残差块中的倒数第二个残差块。此时可以获得最好的分割效果。

其中，较为优选的是，所述预定的第N个残差块为沿输入到输出方向排列的所述多个顺序结合的残差块中的倒数第三个残差块。

下面参照图6A和图6B来详细描述残差网络模块10的示例性的结构和操作。

如图6A所示，残差网络模块10可以包括沿着输入到输出方向排列的例如6个块，所述6个块可以为沿着输入到输出方向顺序结合的卷积块11和五个残差块12-16。

卷积块11可以优选是例如两个堆叠的卷积层，卷积层中的卷积核的大小可以是例如3×3(图6A中显示为3*3)，每一卷积层中的卷积核的数量优选为64个，卷积块11用于将输入数据转换成适于残差块接收的格式。上面的卷积层的数量、以及卷积核的数量和大小只是优选的参数，但本发明不限于此。

残差块12到残差块16中的每一块都是残差结构，其中，残差块13的具体结构可以如图6B所示，其他残差块12、14-16的结构与残差块13的结构相似，仅仅只是卷积核的数量有所不同而已。例如，图6B的左上部方框中显示了“1*1卷积256”，其中，1*1代表卷积核的尺寸，256是该卷积核的数量，其他残差块(残差块12和残差块14-16)中与残差块13的对应卷积核的数量很可能是不同的。残差块的数量优选为5个，也可以优选为4个，残差块中的如图6B中所示的卷积核的个数和大小均为优选的，但本发明不限于此。

下面将整体描述残差网络模块10的操作。

如图6A所示，假设输入数据为RGB三通道，假设该图像为例如224×224(长乘宽)大小的图片(当然，也可以是图像尺寸为250×250的其他尺寸的图片)，从而将输入数据变为224×224×3(3为通道数)。本申请的卷积块11优选含有两个卷积层，每个卷积层中所含有的3×3卷积核的数量优选为64个。输入到卷积块11的第一个卷积层的图像数据(224×224×3)与64个3×3的卷积核做卷积运算后成为224×224×64的数据，将该数据与64个3×3的卷积核再一次做卷积运算后得到另一224×224×64的数据，将该数据进行最大值池化处理后变为尺寸为112×112×64(图像尺寸减半)的数据，然后将该数据输入到残差块12，残差块12的结构与图6B中示出的残差块13的放大结构类似(下文中将详细描述)，仅仅卷积核的个数不同。残差块12升维后输出112×112×128的数据(变成128个通道)，从残差块12输出后再次进行最大值池化变为56×56×128，然后输入残差块13，升维后输出56×56×256的数据，然后经过最大值池化处理后输入残差块14，升维后输出28×28×512，然后经过最大值池化处理后输入残差块15，升维后输出14×14×1024，然后经过最大值池化处理后输入残差块16，输出7×7×1024，经平均池化后变为1×1×1024。残差块16的输出经平均池化后的输出用于对整个残差网络模块10的预训练。在上面这些参数中，重要的参数是卷积块11的每个卷积层中的卷积核的个数(优选为64)和每个残差块对数据进行升维后的通道的数量(图6A中的128、256、512、1024)，采用如本实施例的参数设计时可以达到较好的分割效果。

下面参照图6B描述残差块中的卷积核的操作。首先，在图6B的左下部的方框(模块)中，将56×56×128尺寸(长×宽×通道数)的图片数据输入该方框/模块，然后该模块中的128个1×1大小的卷积核对输入图片数据做卷积运算，再将该运算结果与128个3×3大小的卷积核再做卷积运算，进一步将得到的运算结果与256个1×1大小的卷积核做进一步卷积运算，得到尺寸为56×56×256的数据，将该数据送入加法器，图6B的左上部的方框(1*1卷积，256)做完运算后将另一数据也输入加法器，将上述两个数据求和。求和后的数据再如图6B的箭头所示做进一步的运算，在此不再赘述。

根据本发明的实施例的残差网络，各个残差块之间是通过最大值池化来连接的。下面举例来说明最大值池化，假定对输入图像数据采用2×2的最大值池化，由于图像是一个矩阵，则在图像的每个2×2的范围采用一个最大值作为这2×2范围的代表，舍弃其他的值，最后得到的结果就是2×2最大值池化的结果。类似地，平均池化的定义就是取平均值，例如，对输入图像数据采用7×7的平均池化，则在图像的每个7×7的范围采用一个平均值作为这7×7范围的代表，舍弃其他的值，最后得到的结果就是7×7的平均池化的结果。

下面将参照图7A和图7B来详细描述残差反卷积网络模块20的示例性的结构和操作。

如图7A所示，残差反卷积网络模块20可以包括沿着从输入到输出方向顺序结合的4个残差反卷积块25-22和一个反卷积块21。与残差网络模块类似，本发明的残差反卷积网络模块优选使用3个或如图7A所示的4个残差反卷积块，当然，本发明不限于此。残差块15的输出经最大值反池化后被输入到残差反卷积网络25，残差反卷积网络25经过一系列处理(类似于图7B所示)后，输出数据，该数据经进一步的最大值反池化被输入到下一级残差反卷积块，以此类推，最后从残差反卷积块22输出的数据经最大值反池化被输入到反卷积块21中。反卷积块21处理后的结果再经一次1×1的卷积后得到分类图31。

其中，反卷积块21可以包括例如两个反卷积层，每个反卷积层包括例如64个3×3的反卷积核。

图7B是示意性示出根据本发明的实施例的残差反卷积网络模块中的残差反卷积块23的放大示图，其他残差反卷积块22、24-25与残差反卷积块23的结构类似，仅仅是反卷积核的个数可能不同而已。如图7B所示，每个残差反卷积块可包含三个模块，分别为稠密模块、细节学习模块、降维模块。稠密模块进行三种反卷积运算，细节学习模块进行三种反卷积运算与求和运算，降维模块进行四种反卷积运算与求和运算。

下面介绍稠密模块的运算操作。将56×56×256尺寸(长×宽×通道数)的图片数据输入稠密模块，然后稠密模块中的128个1×1大小的反卷积核对输入图片做反卷积运算，再将该运算结果与128个3×3大小的反卷积核再做反卷积运算，进一步将得到的运算结果与256个1×1大小的反卷积核再做反卷积运算。

下面介绍细节学习模块的结构和运算操作。细节学习模块包括残差分支8和反卷积分支。反卷积分支包括三步不同的反卷积运算，反卷积分支的运算结果将与残差分支相加。具体来说，将稠密模块的输出数据发送到细节学习模块，细节学习模块中的128个1×1大小的反卷积核先将该数据做反卷积运算，再将该运算结果与128个3×3大小的反卷积核再做反卷积运算，进一步将得到的运算结果与256个1×1大小的反卷积核再做反卷积运算。将此运算结果与残差分支8的数据(稠密模块的输出数据)做求和运算，然后输出到降维模块。残差反卷积网络模块10中的该残差分支8可使得梯度不会弥散，从而使得网络更容易优化。

对降维模块的运算操作的描述与上面类似，可参见图7B，在此不再赘述。

以上列出的具体参数和结构仅仅是优选示例，本发明不限于此。

图2是示意性示出根据本发明的实施例的使用人脸识别任务预训练残差网络的方法的流程图。

下面参照图2详细描述预训练残差网络模块10的过程。作为一种优化的方式，在S110，对残差网络模块10中的卷积核的权重参数进行随机初始化，将人脸识别训练库中的人脸识别训练样本(多张人脸图片)输入到残差网络模块10。在S120，执行人脸识别任务，即，卷积块11和残差块12-16对输入图片数据进行如上所述的处理，对残差网络模块10的最后一个残差块16的输出进行平均池化，然后执行身份全连接操作，调节残差网络模块10中的卷积核的权重以使softmax函数(为一种损失函数)最小化，从而在S130得到优化的权重参数，完成对残差网络模块10的预训练。其中，所谓身份全连接操作是指全连接操作输出的神经元的个数为人脸识别训练库中人物的身份的个数(比如说，使用人脸识别的任务来训练数据，人脸识别训练库当中有多少个身份，则全连接就输出相应数量的身份)，然后调节网络的卷积核的权重使得各个数据输入时得到的Softmax的值是最小的，从而使得残差网络可以准确识别出每张人脸的身份。

图3A是示意性示出根据本发明的实施例的使用人脸解析任务联合训练残差网络和残差反卷积网络的流程图。联合训练主要是指这么一个过程，即将残差反卷积网络模块20堆叠在残差网络模块10上，其中，去除残差网络的最后一个块(即残差块16)，然后将整个网络用人脸解析任务进行调优。

参见图3A，首先，在S210和S220中，将人脸解析训练样本输入到经过预训练的残差网络模块10，即将残差网络模块10中的权重参数初始化为预训练步骤中得到的权重参数，残差网络模块10的具体结构及其预训练过程可参见上面的描述。

然后，在S230，得到粗糙特征图，所述粗糙特征图是残差网络模块10倒数第二个残差块的输出。

在S240，将残差反卷积网络模块20的权重参数进行随机初始化，保持残差网络模块10的所述倒数第二个残差块15的输出(粗糙特征图)作为残差反卷积网络模块20的输入。残差反卷积网络模块20对粗糙特征图做进一步的处理。

在S250，通过对人脸解析训练样本执行的面部解析任务来对残差网络模块10和残差反卷积网络模块20进行联合训练，以优化残差反卷积网络模块20中的卷积核的权重参数并进一步优化残差网络模块10中的卷积核的权重参数。上述这些训练都利用了softmax函数，调节残差反卷积网络模块中的权重参数和残差网络模块中的权重参数以使softmax函数最小化。

在上面的两种训练过程中，除了将输入的训练样本的原始图像数据直接输入到卷积块11这一种方式之外，为了丰富原始数据，还可能需要对训练样本的原始图像数据做进一步的处理，例如，可将原始图像随机裁剪成例如224×224大小的图片，还可以将原始图像进行随机镜像(例如，可随机进行水平翻转)，或者这两种处理都进行，这样可以避免针对同一图像进行多次训练时的过拟合现象。也就是说，输入数据可以是输入的训练样本的原始图像数据，也可能是经过随机镜像后的数据，可能是被随机裁剪后的数据，或者是经过随机裁剪和随机镜像的数据。

图3B是示意性示出根据本发明的实施例的面部解析方法的流程图。

如图3B所示，首先，在S410和S420，将待测样本(例如，人脸图片)输入到经过联合训练的残差网络。

在S430，经过残差网络模块10的处理，得到粗糙特征图。

在S440，将倒数第二个残差块的输出(粗糙特征图)输入到经过联合训练的反卷积网络，经过运算后在S450得到分类图。

图4是示意性示出根据本发明的另一实施例的面部解析设备的框图。

从图4中可以看出，根据本发明的另一实施例的面部解析设备除了包括待测样本输入单元7、残差网络模块10和残差反卷积网络模块20以外，还可以包括先验信息模块30。其中，待测样本输入单元7、残差网络模块10和残差反卷积网络模块20的结构和操作与前面的实施例的结构和操作基本相同，在此不再赘述。

图8是示意性示出根据本发明的另一实施例的与残差网络模块和残差反卷积网络模块协同工作的先验信息模块30的框图。

如图8所示，先验信息模块30的融合操作包括：将残差反卷积网络模块20输出的分类图31与先验信息拼接成拼接图，用卷积核卷积上述拼接图，得到先验信息的贡献图34，将该贡献图34与残差反卷积网络输出的分类图31做元素级相加，得到所述分割结果。

具体地说，将残差反卷积网络输出的分类图31与先验信息拼接起来。设类别的数量为N，图像大小为W*H，则分类图31与先验信息的大小均为W*H*N(有N个通道)。拼接图大小为W*H*2N。用一个卷积核卷积上述拼接图，得到一个先验信息的贡献图34。该贡献图34为先验信息对于每一类别的贡献图，其大小为W*H*N。将该先验信息贡献图34与残差反卷积网络输出的分类图31做元素级相加，得到最终的分割结果。

在进行正式面部解析之前，需要训练图4所示的根据本发明的另一实施例的面部解析设备。

首先，先使用如图2所示的预训练和图3A所示的联合训练方法来训练图4所示的根据本发明的另一实施例的面部解析设备。

然后再采用图5A的方法进行进一步的训练，图5A是示意性示出根据本发明的另一实施例的使用人脸解析任务进行第一训练和第二训练的流程图。

如图5A所示，在步骤S210和S220将人脸解析训练样本输入到经过联合训练的残差网络，在步骤S230，得到粗糙特征图，所述粗糙特征图是残差网络模块10倒数第二个残差块的输出。

在S240，将粗糙特征图输入到经过联合训练的残差反卷积网络模块20，残差反卷积网络模块20对粗糙特征图做进一步的处理并在S250得到分类图。

在S260，获取先验信息。

在S270，融合分类图与先验信息。

在S280，对先验信息模块30执行第一训练。

在S290，对残差网络模块、残差反卷积网络模块和先验信息模块整体执行第二训练。

其中，在所述第一训练中，使除去该先验信息模块30中的权重参数之外的所有参数固定，调节先验信息模块30中的权重参数以得到优化的权重参数使softmax函数最小化。在所述第二训练中，利用调节好的权重参数初始化先验信息模块，解除所述固定，然后通过让残差网络模块、残差反卷积网络模块和先验信息模块一起对面部解析训练样本执行面部解析任务，来进一步整体优化残差网络模块10、残差反卷积网络模块20和先验信息模块30中的权重参数。完成第一训练和第二训练后即完成了所有模块的整体训练。

在上面的训练过程中，除了将输入的训练样本的原始图像数据直接输入到卷积块11这一种方式之外，为了丰富原始数据，还可能需要对训练样本的原始图像数据做进一步的处理，例如，可将原始图像随机裁剪成例如224×224大小的图片，还可以将原始图像进行随机镜像(例如，可随机进行水平翻转)，或者这两种处理都进行，这样可以避免针对同一图像进行多次训练时的过拟合现象。也就是说，输入数据可以是输入的训练样本的原始图像数据，也可能是经过随机镜像后的数据，可能是被随机裁剪后的数据，或者是经过随机裁剪和随机镜像的数据。

图5B是示意性示出根据本发明的另一实施例的面部解析方法的流程图。

如图5B所示，将待测样本(例如，人脸图片)输入到经过上述整体训练的网络，在S350得到分类图。

在S360，被训练好的先验信息模块30获取待测样本的先验信息。

先验信息与具体输入的图片有关。具体地说，首先设置一个人脸解析训练库，库里面放置有若干张不同人脸的图片，每张图片可通过例如人的手工标定来标记图片的类别信息，例如，图片中的哪个部分是背景，哪里是皮肤，哪里是头发，哪里是五官。然后在输入测试图片时，根据本发明的实施例的系统会比较测试图片中的人脸与库里面的所有人脸，找出五官轮廓与测试图片中的人脸最接近的一组人脸，然后获取库里的这组人脸的标定信息的平均值作为测试图片的先验信息。

获取先验信息的步骤具体为：比较待测样本与面部解析训练库中的所有面部并找出面部解析训练库中与待测样本最接近的一组面部，获取该最接近的一组面部的标定信息并求取平均值，作为待测样本的先验信息。

然后在S370，将先验信息与残差反卷积网络模块输出的分类图31进行融合，得到分割结果。

参见图4，根据本发明的另一实施例的面部解析设备还可以包括稠密条件随机场模块40。测试过程中，利用稠密条件随机场方法提升最终预测结果。也就是说，稠密条件随机场模块40可利用稠密条件随机场方法改善分割结果。

具体地说，稠密条件随机场模块40将先验信息模块30在S380输出的分割结果作为稠密条件随机场的unary项(unary项为本领域技术人员所公知)，从而最终得到精确的图像分类结果。

根据本发明的实施例的面部解析方法可以主要包含以下几个部分。一、设计一个残差网络，用人脸识别的任务来预训练，使得该网络可以很好的提取人脸特征，从而使得残差网络里包含的参数有一个较优的初始化表示。二、设计一个残差反卷积网络，其权重随机初始化，残差反卷积网络与残差网络(利用在预训练步骤中优化好的权重来初始化残差网络的权重)一起协同工作，利用人脸解析任务来优化权重参数，其目的是在残差网络已经获得较优参数的基础上，训练残差反卷积网络的参数，使得残差反卷积网络可以重建出高分辨率的特征图，并且特征图的每个像素可以精确分类。三、添加先验残差部分，引入先验信息，将整个网络在人脸解析任务上调优。四、利用稠密的条件随机场算法对分割结果进行优化。

本申请在公开的LFW人脸库上进行了算法性能的比较。LFW人脸库是当前国际上用于评估非受限环境下人脸技术最权威的数据库，它包含从互联网上下载的13,233幅人脸图像，这些图像来自5,749人，其中1,680人有两幅或更多图像，剩余4069人只有一幅图像。该测试库包含训练样本1500张，测试样本927张。

表一示出了各种方法的像素精度和模型大小。从表1中可以看出，与传统方法相比，本申请的像素精度最高，达到97.53％，在具有高精度的同时，本申请的模型大小反而最小，仅为103M，优势非常明显。

图9A-图9D以对比方式示出了根据本发明的实施例的方法的分类效果与VGG反卷积算法的分类效果，可以看出，本申请的结果的精度更好。例如，在图9C中，使用VGG反卷积方法将人物的一部分头发与背景分到了一起，而采用本申请的方法，则准确区分了头发与背景。

表一

除非另外有相反的描述，否则每个实施例中的对特征或方面的描述被认为是适用于其他实施例中的类似的特征或方面。

出于促进对本发明的原理的理解的目的，已经对附图中示出的优选实施例进行了说明，并已经使用了特定的语言来描述这些实施例。然而，该特定的语言并非意图限制本发明的范围，本发明应被解释成包括对于本领域普通技术人员而言通常会出现的所有实施例。此外，除非元件被特别地描述为“必不可少的”或“关键的”，否则没有元件或模块对本发明的实施是必不可少的。

虽然上面已经详细描述了本发明的示例性实施例，但本发明所属技术领域中具有公知常识者在不脱离本发明的精神和范围内，可对本发明的实施例做出各种的修改、润饰和变型。但是应当理解，在本领域技术人员看来，这些修改、润饰和变型仍将落入权利要求所限定的本发明的示例性实施例的精神和范围内。

最后，除非这里指出或者另外与上下文明显矛盾，否则这里描述的所有方法的步骤可以以任意合适的顺序执行。

Claims

1.一种面部解析方法，包括：

将待测样本输入到残差网络模块；

使用训练好的残差网络模块对待测样本进行处理，其中，所述残差网络模块包括沿着从输入到输出方向排列的多个顺序结合的残差块，将所述多个顺序结合的残差块中的预定的第N个残差块的输出发送到残差反卷积网络模块，其中，N为自然数并且小于残差网络模块包括的所有残差块的数量；

使用训练好的残差反卷积网络模块处理所述第N个残差块的输出，以得到分类图，其中，残差反卷积网络模块包括多个顺序结合的残差反卷积块，所述多个残差反卷积块分别与所述多个残差块中的第一个残差块到第N个残差块对应。

2.根据权利要求1所述的面部解析方法，其中，

通过对面部识别训练样本执行的面部识别任务来对残差网络模块进行预训练，以优化残差网络模块中的权重参数；

通过对面部解析训练样本执行的面部解析任务来对残差网络模块和残差反卷积网络模块进行联合训练，以优化残差反卷积网络模块中的权重参数并进一步优化残差网络模块中的权重参数。

3.根据权利要求2所述的面部解析方法，其中，所述预训练步骤包括：

将面部识别训练样本输入到残差网络模块并执行面部识别任务，对残差网络模块的最后一个残差块的输出进行平均池化，然后执行身份全连接操作，调节残差网络模块中的权重参数以使softmax函数最小化。

4.根据权利要求2或3所述的面部解析方法，其中，所述联合训练步骤包括：

将残差网络模块中的权重参数初始化为预训练步骤中得到的权重参数，将残差反卷积网络模块的权重参数进行随机初始化，保持所述第N个残差块的输出作为残差反卷积网络模块的输入，将面部解析训练样本输入到残差网络模块，使残差网络模块和残差反卷积网络模块执行面部解析任务，调节残差反卷积网络模块中的权重参数和残差网络模块中的权重参数以使softmax函数最小化。

5.根据权利要求1或2所述的面部解析方法，还包括：

使用训练好的先验信息模块获取待测样本的先验信息，并将先验信息与残差反卷积网络模块的输出进行融合，得到分割结果。

6.根据权利要求5所述的面部解析方法，其中，获取待测样本的先验信息包括：

比较待测样本与面部解析训练库中的所有面部并找出面部解析训练库中与待测样本最接近的一组面部，获取该最接近的一组面部的标定信息并求取平均值，作为待测样本的先验信息。

7.根据权利要求5所述的面部解析方法，其中，

8.根据权利要求7所述的面部解析方法，其中，对先验信息模块进行训练的步骤包括对先验信息模块执行第一训练以及对残差网络模块、残差反卷积网络模块和先验信息模块的整体执行第二训练，

在所述第一训练中，使除去该先验信息模块中的权重参数之外的所有参数固定，调节先验信息模块中的权重参数以使softmax函数最小化；

在所述第二训练中，利用调节好的权重参数初始化先验信息模块，解除所述固定，然后通过让残差网络模块、残差反卷积网络模块和先验信息模块一起对面部解析训练样本执行面部解析任务，来进一步整体优化残差网络模块、残差反卷积网络模块和先验信息模块中的权重参数。

9.根据权利要求5所述的面部解析方法，其中，所述融合包括：

将残差反卷积网络输出的分类图与先验信息拼接成拼接图，用卷积核卷积上述拼接图，得到先验信息的贡献图，将该贡献图与残差反卷积网络输出的分类图做元素级相加，得到所述分割结果。

10.根据权利要求5所述的面部解析方法，还包括：

利用稠密条件随机场方法改善分割结果。

11.根据权利要求10所述的面部解析方法，其中，所述改善分割结果包括：

将先验信息模块输出的分割结果作为稠密条件随机场的unary项来改善分割结果。

12.根据权利要求1所述的面部解析方法，其中，

13.根据权利要求1或12所述的面部解析方法，其中，

14.根据权利要求1所述的面部解析方法，其中，

15.根据权利要求14所述的面部解析方法，其中，

细节学习模块包括残差分支和反卷积分支。

16.根据权利要求1所述的面部解析方法，其中，

17.根据权利要求1所述的面部解析方法，其中，

18.根据权利要求1或17所述的面部解析方法，其中，

19.根据权利要求2、7和8中任一项所述的面部解析方法，其中，在将训练样本输入到残差网络模块之前对训练样本进行处理，所述处理包括以下三种处理中的任意一种、或者处理B和处理C的组合：

A.保持训练样本的原始图像数据不变，以便直接输入到残差网络模块；

B.将训练样本的原始图像数据进行随机镜像；

C.将训练样本的原始图像数据进行随机裁剪。

20.根据权利要求1所述的面部解析方法，其中，所述预定的第N个残差块为沿输入到输出方向排列的所述多个顺序结合的残差块中的倒数第二个残差块或倒数第三个残差块。

21.一种面部解析设备，包括：

待测样本输入单元，用于将待测样本输入到残差网络模块；

残差网络模块，被训练好的残差网络模块对待测样本进行处理，残差网络模块包括沿着从输入到输出方向排列的多个顺序结合的残差块，残差网络模块将所述多个顺序结合的残差块中的预定的第N个残差块的输出发送到残差反卷积网络模块，其中，N为自然数并且小于残差网络模块包括的所有残差块的数量；

残差反卷积网络模块，被训练好的残差反卷积网络模块处理所述第N个残差块的输出，以得到分类图，其中，残差反卷积网络模块包括多个顺序结合的残差反卷积块，所述多个残差反卷积块分别与所述多个残差块中的第一个残差块到第N个残差块对应。

22.根据权利要求21所述的面部解析设备，还包括：

先验信息模块，被训练好的先验信息模块获取待测样本的先验信息，并将先验信息与残差反卷积网络模块的输出进行融合，得到分割结果。

23.根据权利要求22所述的面部解析设备，还包括：

稠密条件随机场模块，利用稠密条件随机场方法改善分割结果。

24.一种训练如权利要求21-23中任一项所述的面部解析设备的训练方法，包括：

25.根据权利要求24所述的训练方法，其中，

所述预训练的步骤包括：将残差网络模块中的权重参数随机初始化；通过对面部识别训练样本执行的面部识别任务来对残差网络模块进行预训练，以优化残差网络模块中的权重参数；

所述联合训练的步骤包括：将残差网络模块中的权重参数初始化为预训练步骤中得到的权重参数，将残差反卷积网络模块的权重参数进行随机初始化，保持所述第N个残差块的输出作为残差反卷积网络模块的输入；通过对面部解析训练样本执行的面部解析任务来对残差网络模块和残差反卷积网络模块进行联合训练，以优化残差反卷积网络模块中的权重参数并进一步优化残差网络模块中的权重参数。

26.根据权利要求25所述的训练方法，所述训练方法进一步包括：

使除先验信息模块中的权重参数之外的所有参数固定，对先验信息模块执行第一训练，以得到优化的先验信息模块的权重参数；

使用通过第一训练调节好的权重参数初始化先验信息模块，解除对残差网络模块和残差反卷积网络模块中的权重参数的固定，然后通过让残差网络模块、残差反卷积网络模块和先验信息模块一起对面部解析训练样本执行面部解析任务来执行第二训练，从而得到进一步整体优化后的残差网络模块、残差反卷积网络模块和先验信息模块中的权重参数。