CN108304765A

CN108304765A - 用于人脸关键点定位与语义分割的多任务检测装置

Info

Publication number: CN108304765A
Application number: CN201711310450.0A
Authority: CN
Inventors: 赵昱程; 唐帆; 董未名; 张晓鹏
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-07-20
Anticipated expiration: 2037-12-11
Also published as: CN108304765B

Abstract

本发明涉及数字图像处理技术领域，具体提供了一种用于人脸关键点定位与语义分割的多任务检测装置，旨在解决如何同时提高人脸关键点定位和人脸语义分割准确性的技术问题。为此目的，本发明中的多任务深度模型可以采用深度学习算法对目标人脸图像进行语义分割，并获取目标人脸图像中的人脸关键点。具体地，关键点定位模块可以基于编码网络并依据人脸特征获取人脸关键点的位置信息，语义分割模块可以基于解码网络对特征图进行语义分割。本发明中多任务深度模型采用编解码网络结构，同时还通过信息增强单元将编码网络中的浅层信息引入到解码网络，因而能够兼顾人脸关键点定位与语义分割之间的协同信息，进而提供高人脸关键点定位和语义分割的准确性。

Description

用于人脸关键点定位与语义分割的多任务检测装置

技术领域

本发明涉及数字图像处理技术领域，具体涉及了一种用于人脸关键点定位与语义分割的多任务检测装置。

背景技术

人脸图像分析技术主要应用于情感识别和人脸识别等领域，其中，人脸关键点定位技术和人脸语义分割技术，作为人脸图像分析技术中的基础性分析技术，其检测结果将会极大地影响最终的人脸图像分析结果。当前，在人脸图像分析过程中主要采用单独处理的方式，即分别实施人脸关键点定位和人脸语义分割，但是这种处理方式未考虑人脸关键点定位与人脸语义分割之间的协同关系，因此会损失部分信息进而降低人脸图像分析结果的准确性。

发明内容

为了解决现有技术中的上述问题，即为了解决如何同时提高人脸关键点定位和人脸语义分割准确性的技术问题，本发明提供了一种用于人脸关键点定位与语义分割的多任务检测装置。

本发明中的多任务检测装置包括多任务深度模型，其配置为采用深度学习算法对目标人脸图像进行语义分割，并获取所述目标人脸图像中的人脸关键点；

所述多任务深度模型包括关键点定位模块和语义分割模块；

所述关键点定位模块，配置为基于编码网络提取所述目标人脸图像中的人脸特征，并依据所提取的人脸特征获取人脸关键点的位置信息；

所述语义分割模块，配置为基于解码网络对特征图进行语义分割；其中，所述特征图为所述关键点定位模块输出的包含人脸关键点的位置信息的图像；所述解码网络中每个解码单元分别与编码网络中对应的编码单元连接。

进一步地，本发明提供的一个优选技术方案为：

所述装置还包括第一模型训练模块，其配置为基于预设第一训练样本图像，并按照下式所示的损失函数loss_L对所述关键点定位模块进行网络训练，其中，所述预设第一训练样本图像包含人脸关键点与五官语义分割标注信息；

其中，所述N和i分别为预设第一训练样本图像中人脸关键点的总数和序号，所述为采用所述关键点定位模块对所述预设第一训练样本图像检测得到的第i个人脸关键点的位置信息，所述(a_i,b_i)为对所述预设第一训练样本图像中第i个人脸关键点进行归一化处理后的位置信息，

并且所述(x_i,y_i)为所述第i个人脸关键点对应的像素位置信息，ω和h分别为所述预设第一训练样本图像的宽和高，(x,y)为所述预设第一训练样本图像的中点位置信息。

进一步地，本发明提供的一个优选技术方案为：

所述装置还包括第二模型训练模块，其配置为按照下式所示的损失函数loss_S对所述语义分割模块进行网络训练：

其中，所述为特征图中第j个像素点对应的五官语义分割标注信息；所述所述中的“z_j,c”为语义分割模块中输出层的第c个通道所输出的第j个像素点的像素值，所述为语义分割模块中输出层所输出的第j个像素点的像素累加值，所述中的z_j为语义分割模块中输出层所输出的第j个像素点的最大像素值，所述n为语义分割模块中输出层所输出的特征图分辨率。

进一步地，本发明提供的一个优选技术方案为：

所述编码单元包括相连的卷积层和下采样层，其中，所述卷积层的输入端与所述下采样层的输出端分别为该编码单元的输入端与输出端；

所述解码单元包括依次连接的上采样层、信息增强单元与卷积层，并且所述信息增强单元还与对应编码单元中卷积层的输出端连接，其中，所述上采样层的输入端与所述卷积层的输出端分别为该解码单元的输入端与输出端。

进一步地，本发明提供的一个优选技术方案为：

所述信息增强单元包括第一增强子单元；

所述第一增强子单元包括两个卷积层和一个残差相加子单元，其中，所述第一增强子单元的一个输入端直接与所述残差相加子单元的一个输入端连接，所述第一增强子单元的另一个输入端通过一个所述卷积层与所述残差相加子单元的另一个输入端连接，所述第一增强子单元的输出端通过另一个所述卷积层与所述残差相加子单元的输出端连接。

进一步地，本发明提供的一个优选技术方案为：

所述信息增强单元包括第二增强子单元；

所述第二增强子单元包括两个卷积层和一个叠加子单元，其中，所述第二增强子单元的一个输入端通过一个所述卷积层与所述叠加子单元的一个输入端连接，所述第二增强子单元的另一个输入端直接与所述叠加子单元的另一个输入端连接，所述第二增强子单元的输出端通过另一个所述卷积层与所述叠加子单元的输出端连接。

进一步地，本发明提供的一个优选技术方案为：

所述解码网络中首个所述解码单元的信息增强单元为所述第一增强子单元，其他所述解码单元的信息增强单元为所述第二增强子单元。

进一步地，本发明提供的一个优选技术方案为：

所述装置还包括第三模型训练模块，其配置为基于预设第二训练样本图像，并按照下式所示的损失函数Loss_D对所述关键点定位模块进行初始化网络训练：

Loss_D＝-(1-l)*log(1-p)-l*log(p)

其中，所述p为关键点定位模块预测所述预设第二训练样本图像为正样本的概率，所述l为所述预设第二训练样本图像的训练标注，当输入至关键点定位模块的预设第二训练样本图像为正样本时l＝1，当输入至关键点定位模块的预设第二训练样本图像为负样本时l＝0，所述正样本与负样本分别为包含与未包含人脸的图像。

与最接近的现有技术相比，上述技术方案至少具有以下有益效果：

1、本发明中的多任务深度模型可以对人脸关键点定位和语义分割同时进行深度学习，充分利用二者之间的协同关系，进而增大人脸关键点定位和语义分割的准确性。

2、本发明中的关键点定位模块基于欧氏距离损失函数，能够对人脸关键点进行准确定位。

3、本发明中的第三模型训练模块可以对关键点定位模块进行初始化网络训练，从而提高第一模型训练模块对关键点定位模块进行网络训练时的收敛速度。

4、本发明中的语义分割模块基于解码网络对特征图进行语义分割，并且该解码网络中设置有信息增强单元，可以将编码网络中的浅层信息引入解码网络，降低信息损失。

附图说明

图1是本发明实施例中一种多任务深度模型的主要结构示意图；

图2是本发明实施例中第一增强子单元的主要结构示意图；

图3是本发明实施例中第二增强子单元的主要结构示意图；

图4是本发明实施例中第一种语义分割效果示意图；

图5是本发明实施例中第二种语义分割效果示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本实施例中用于人脸关键点定位与语义分割的多任务检测装置主要包括多任务深度模型，该模型可以配置为采用深度学习算法对目标人脸图像进行语义分割，并获取目标人脸图像中的人脸关键点。

参阅附图1，图1示例性示出了本实施例中多任务深度模型的主要结构。如图1所示，本实施例中多任务深度模型主要包括关键点定位模块、语义分割模块、第一模型训练模块、第二模型训练模块和第三模型训练模块。

本实施例中关键点定位模块可以配置为基于编码网络提取目标人脸图像中的人脸特征，并依据所提取的人脸特征获取人脸关键点的位置信息。语义分割模块可以配置为基于解码网络对特征图进行语义分割，其中，特征图为关键点定位模块输出的包含人脸关键点的位置信息的图像。本实施例中首先可以采用第三模型训练模块对关键点定位模块进行初始化网络训练，以提高关键点定位模块的收敛速度。然后采用第一模型训练模块对经过初始化网络训练后的关键点定位模块进行网络训练，以及第二模型训练模块对语义分割模块进行网络训练。

具体地，本实施例中第三模型训练模块可以配置为基于预设第二训练样本图像，并按照下式(1)所示的损失函数Loss_D对关键点定位模块进行初始化网络训练：

Loss_D＝-(1-l)*log(1-p)-l*log(p) (1)

公式(1)中各参数含义为：

p为关键点定位模块预测预设第二训练样本图像为正样本的概率，l为预设第二训练样本图像的训练标注，当输入至关键点定位模块的预设第二训练样本图像为正样本时l＝1，当输入至关键点定位模块的预设第二训练样本图像为负样本时l＝0，所述正样本与负样本分别为包含与未包含人脸的图像。

本实施例中第一模型训练模块可以配置为基于预设第一训练样本图像，并按照下式(2)所示的损失函数loss_L对关键点定位模块进行网络训练，其中，预设第一训练样本图像包含人脸关键点与五官语义分割标注信息。

公式(2)中各参数含义为：

N和i分别为预设第一训练样本图像中人脸关键点的总数和序号，为采用关键点定位模块对预设第一训练样本图像检测得到的第i个人脸关键点的位置信息，(a_i,b_i)为对预设第一训练样本图像中第i个人脸关键点进行归一化处理后的位置信息，其中，该归一化处理后的位置信息如下式(3)所示：

公式(3)中各参数含义为：

(x_i,y_i)为第i个人脸关键点对应的像素位置信息，ω和h分别为预设第一训练样本图像的宽和高，(x,y)为预设第一训练样本图像的中点位置信息。

本实施例中第一模型训练模块采用上式(2)所示的欧式距离损失函数对人脸关键点进行定位，当人脸关键点的预测值与实际值相差较大时将关键点定位模块中待优化参数权重设置为较大值，当人脸关键点的预测值与实际值相差较小时将关键点定位模块中待优化参数权重设置为较小值。

本实施例中第二模型训练模块可以配置为按照下式(4)所示的损失函数loss_S对语义分割模块进行网络训练：

公式(4)中各参数含义为：

为特征图中第j个像素点对应的五官语义分割标注信息；中的“z_j,c”为语义分割模块中输出层的第c个通道所输出的第j个像素点的像素值，为语义分割模块中输出层所输出的第j个像素点的像素累加值，中的z_j为语义分割模块中输出层所输出的第j个像素点的最大像素值，n为语义分割模块中输出层所输出的特征图分辨率。

在本实施例的一个优选实施方案中，可以采用均衡采样的方法对不同种类的像素施加不同的权重值，避免不同种类的像素数量差距较大造成的语义分割误差。具体地，首先计算每种像素对应标签的频率freq(c)，然后对该标签施加权重α_c＝median_freq/freq(c)，其中，median_freq为所有种类像素对应标签的频率中值。例如，本实施例中可以采用参考资料《Eigen D,Fergus R.Predicting depth,surface normals and semanticlabels with a common multi-scale convolutional architecture[C]//Proceedingsof the IEEE International Conference on Computer Vision.2015:2650-2658.》公开的均衡采样方法。

进一步地，本实施例中图1所示的多任务深度模型基于编解码网络结构，其中，解码网络2中每个解码单元分别与编码网络1中对应的编码单元连接。

本实施例中编码单元包括相连的卷积层11和下采样层12，其中，卷积层11的输入端与下采样层12的输出端分别为该编码单元的输入端与输出端。如图1所示，本实施例中编码网络1包括三个编码单元，其中，位于编码网络1输入侧的前两个编码单元均包括一个卷积层，最后一个编码单元包括三个卷积层。

本实施例中解码单元包括依次连接的上采样层23、信息增强单元与卷积层21，并且信息增强单元还与对应编码单元中卷积层的输出端连接，其中，上采样层23的输入端与卷积层21的输出端分别为该解码单元的输入端与输出端。如图1所示，本实施例中解码网络2包括三个解码单元。具体地，位于解码网络输入侧的首个解码单元包括三个卷积层21、第一增强子单元221与一个上采样层23，其中，第一增强子单元221还与位于编码网络1输入侧的最后一个编码单元中的卷积层11的输出端连接。解码网络中的其他两个解码单元包括一个卷积层21、第二增强子单元222与一个上采样层23，其中，第二增强子单元还与编码单元中卷积层11的输出端连接。

继续参阅附图2和3，图2示例性示出了本实施例中第一增强子单元221的主要结构，图3示例性示出了本实施例中第二增强子单元222的主要结构。

如图2所示，本实施例中第一增强子单元221主要包括两个卷积层2211和一个残差相加子单元2212。具体地，第一增强子单元221的一个输入端直接与残差相加子单元2212的一个输入端连接，第一增强子单元221的另一个输入端通过一个卷积层2211与残差相加子单元2212的另一个输入端连接，第一增强子单元221的输出端通过另一个卷积层2211与残差相加子单元2212的输出端连接。

本实施例中图1所示模型采用第一增强子单元221时，其两路输入数据相似，因此无需对图像进行特征映射。同时，由于网络深层特征具有稀疏性，因此采用残差相加子单元2212能够减小计算量。

如图3所示，本实施例中第二增强子单元222主要包括两个卷积层2221和一个叠加子单元2222。具体地，第二增强子单元222的一个输入端通过一个卷积层2221与叠加子单元2222的一个输入端连接，第二增强子单元222的另一个输入端直接与叠加子单元2222的另一个输入端连接，第二增强子单元222的输出端通过另一个卷积层2221与叠加子单元2222的输出端连接。

本实施例中在第二增强子单元中利用卷积层对特征图像进行映射变换，能够降低多任务深度模型中不同层之间特征的差异性，例如可以采用卷积核为3×3的卷积层。

继续参阅附图4，图4示例性示出了本实施例中多种语义分割的实施效果。如图4所示，第一行三幅图像均为测试样本的原始图像。第二行三幅图为基于不采用信息增强单元的语义分割模块的输出结果。第三行三幅图为基于仅采用第二增强子单元222的语义分割模块的输出结果。第四行三幅图为将图1所示模型中解码网络的第一增强子单元221替换为第二语义增强子单元222后，语义分割模块的输出结果。第五行三幅图为图1所示模型中语义分割模块的输出结果，即语义分割模块对于的解码网络同时采用第一增强子单元221与第二增强子单元222。

通过图4可以得到，在不采用信息增强单元时语义分割模块的分割效果最差，尤其是对眼睛、眉毛和嘴唇等五官信息的丢失最多。当仅采用第二增强子单元222时分割图像的边缘仍存在一定的毛刺。当同时采用第一增强子单元221与第二增强子单元222时语义分割模块的分割效果最好。

本实施例中基于信息增强单元能够在解码网络2中引入对应编码网络1的浅层信息，细化图像分割边缘，弥补由于编码网络1下采样带来的信息损失。

继续参阅附图5，图5示例性示出了本实施例中语义分割模块与常规语义分割方法的实施效果。如图5所示，第一行六幅图像均为测试样本的原始图像。第二行六幅图像为采用图1所示模型得到的分割图像。第二行六幅图像为采用参考资料《Saito S,Li T,LiH.Real-Time Facial Segmentation and Performance Capture from RGB Input[M]//Computer Vision–ECCV 2016.Springer International Publishing,2016:524-534.》公开的方法得到的分割图像。

通过图5可以得到，本发明公开的语义分割模块能够对图像的细节和边缘处理地更好。

本领域技术人员可以理解，上述用于人脸关键点定位与语义分割的多任务检测装置还包括一些其他公知结构，例如处理器、控制器、存储器等，其中，存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等，处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等，为了不必要地模糊本公开的实施例，这些公知的结构未在图1中示出。

应该理解，图1中的各个模块的数量仅仅是示意性的。根据实际需要，各模块可以具有任意的数量。

本领域技术人员可以理解，可以对实施例中装置的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元组合成一个模块或单元，以及此外可以把它们分成多个子模块或子单元。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在本发明的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，PC程序和PC程序产品)。这样的实现本发明的程序可以存储在PC可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包括”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种用于人脸关键点定位与语义分割的多任务检测装置，其特征在于，所述装置包括多任务深度模型，其配置为采用深度学习算法对目标人脸图像进行语义分割，并获取所述目标人脸图像中的人脸关键点；

所述多任务深度模型包括关键点定位模块和语义分割模块；

2.根据权利要求1所述的多任务检测装置，其特征在于，所述装置还包括第一模型训练模块，其配置为基于预设第一训练样本图像，并按照下式所示的损失函数loss_L对所述关键点定位模块进行网络训练，其中，所述预设第一训练样本图像包含人脸关键点与五官语义分割标注信息；

3.根据权利要求1所述的多任务检测装置，其特征在于，所述装置还包括第二模型训练模块，其配置为按照下式所示的损失函数loss_S对所述语义分割模块进行网络训练：

4.根据权利要求1-3任一项所述的多任务检测装置，其特征在于，

5.根据权利要求4所述的多任务检测装置，其特征在于，

所述信息增强单元包括第一增强子单元；

6.根据权利要求5所述的多任务检测装置，其特征在于，

所述信息增强单元包括第二增强子单元；

7.根据权利要求6所述的多任务检测装置，其特征在于，

8.根据权利要求1-3任一项所述的多任务检测装置，其特征在于，所述装置还包括第三模型训练模块，其配置为基于预设第二训练样本图像，并按照下式所示的损失函数Loss_D对所述关键点定位模块进行初始化网络训练：

Loss_D＝-(1-l)*log(1-p)-l*log(p)