CN110782503B

CN110782503B - 一种基于两分支深度相关网络的人脸图像合成方法和装置

Info

Publication number: CN110782503B
Application number: CN201910870159.1A
Authority: CN
Inventors: 张婷; 张招亮; 廖欢; 唐文杰
Original assignee: China Electronics Import And Export Co ltd
Current assignee: China Electronics Import And Export Co ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2021-06-15
Anticipated expiration: 2039-09-16
Also published as: CN110782503A

Abstract

本发明涉及一种基于两分支深度相关网络的人脸图像合成方法和装置。该方法的步骤包括：将任意角度的人脸图像输入包含几何分支网络和纹理分支网络的两分支深度相关网络；通过几何分支网络和纹理分支网络分别提取图像的几何特征和纹理特征；将提取的图像的几何特征和纹理特征进行融合，得到标准光照下的正面人脸图像。其中纹理分支采用结构化的L1损失进行优化，几何分支用来预测输入的侧面人脸图像的姿态。本发明能够融合几何特征和纹理特征，实现正面人脸图像的重建。

Description

一种基于两分支深度相关网络的人脸图像合成方法和装置

技术领域

本发明属于计算机视觉领域，具体涉及一种基于两分支深度相关网络的人脸图像合成方法和装置。

背景技术

人脸识别是计算机视觉领域中一个重要的研究主题。由于其使用方便、准确性高等特点，它在安防监控、金融服务、手机终端和实体商业等领域得到了广泛应用。最近几年，深度神经网络在人脸识别方面取得了巨大的成功，基于卷积神经网络的人脸识别系统的性能已经显著地超过了基于手工设计特征的人脸识别系统。

角度和纹理变化是影响人脸识别性能的两个主导因素。同时，对于任意视角的人脸图像，生成对应的正面人脸图像被广泛认为是提升人脸识别性能的有效方式。

Zhenyao Zhu等人(ZHU Z，LUO P，WANG X，et al.Deep learning identity-preserving face space[C]//IEEE International Conference on Computer Vision(ICCV).2013：113-120.)提出了一种深度卷积神经网络FIP(Face Identity-Preserving)来将任意角度和光照的人脸图像重建为标准光照下的正面人脸图像。Junho Yim等人(YIMJ，JUNG H，YOO B，et al.Rotating your face using multi-task deep neural network[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR).2015：676-684.)提出了一种全新的深度学习架构来将任意角度和光照下的人脸图像转换为目标角度的人脸图像。他们首先使用独热码(one-hot vector)对目标姿态进行编码，并且将这个编码补在输入人脸图像的四周，将大小为60×60的人脸图像变成大小为61×61的图像。然后把这个补全的图像送入一个网络来生成目标角度的人脸图像，同时预测输入人脸图像的角度。

尽管基于二维模型的人脸识别方法比较有效率且只需要单幅图像作为输入，它们只利用了人脸的纹理特征来校正人脸。当人脸进行平面外左右旋转时，这些纹理特征并不足以定位图像块的对应性，从而导致人脸成分的不匹配和错误的合成结果。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种基于两分支深度相关网络的人脸合成方法和装置，能够融合几何和纹理特征用于正面人脸图像的重建。

不同于现有的方法，本发明分别提取输入人脸图像的纹理和几何信息，而不是仅仅提取人脸图像的纹理信息。本发明公开了一种新型的两分支深度相关网络，该网络融合几何和纹理特征用于正面人脸重建，以单幅侧面人脸图像作为网络输入。首先分别通过两个分支来提取它的纹理特征和几何特征，其中纹理分支采用结构化的L1损失进行优化，而几何分支用来预测输入侧面人脸图像的姿态。然后融合纹理信息和几何信息来重建标准光照下的正面人脸图像。

本发明的一种基于两分支深度相关网络的人脸图像合成方法，包括以下步骤：

将任意角度的人脸图像输入包含几何分支网络和纹理分支网络的两分支深度相关网络；

通过几何分支网络和纹理分支网络分别提取图像的几何特征和纹理特征；

将提取的图像的几何特征和纹理特征进行融合，得到标准光照下的正面人脸图像。

进一步地，两分支深度相关网络的几何分支学习预测输入侧面人脸图像的姿态，由三个卷积层和一个全连接层组成。每个卷积层后面都接着一个激活函数(例如PReLU激活函数)和一个最大池化层，其中一个特例是第三个卷积层没有池化层。几何分支将第三个卷积层连接到一个有若干结点(例如七个结点)的全连接层，其中每个结点代表输入人脸图像属于某一范围角度的概率。几何分支在Multi-PIE测试数据集上人脸视角分类的平均准确率为94.3％。

进一步地，两分支深度相关网络的纹理分支学习从任意角度的人脸图像合成标准光照下的正面人脸图像。纹理分支的输入和几何分支的输入图像是相同的。纹理分支由三个局部连接层和一个全连接层组成。每个局部连接层后面都接着一个激活函数(例如PReLU激活函数)和一个最大池化层，其中一个特例是第三个局部连接层没有池化层。将第三个局部连接层连接到一个有若干结点(例如3600个结点)的全连接层。由于人脸图像不同区域的特征区分性较大，因此采用局部连接层而不是卷积层。局部连接层提取到的特征比权重共享的标准卷积层提取到的特征更具有区分性。

进一步地，两分支深度相关网络的相关层融合几何分支的最后一个卷积层的特征图和纹理分支的最后一个局部连接层的特征图来重建最终的标准光照下的正面人脸图像。通过融合基于几何特征的表达和基于纹理特征的表达，捕获了不同特征之间的相乘的图像块相关性。因为相关层利用一个特征来卷积另一个特征，所以没有需要训练的参数。分别将几何和纹理特征标记为ψ_g和ψ_t，同时将ψ_g和ψ_t在一个大小为(2k+1)×(2k+1)的图像块上的相关操作定义如下：

其中，ψ_c表示融合之后的特征，x₁，x₂表示ψ_g和ψ_t中图像块的中心点，c表示相关运算，o表示以x1或者x2为中心的图像块的范围。

在ψ_c上应用一个全连接层如下：

Y＝f(W₁ψ_c+b₁)

其中，Y是全连接层的输出，f(·)是非线性激活函数，W₁是权重参数，b₁是偏置参数。

进一步地，现有技术通常使用L1损失或者L2损失函数来生成人脸图像，与他们不同，本发明定义了一个结构化的L1损失函数作为纹理分支和网络最终合成人脸图像的损失函数。为了提升合成人脸五官的质量，结构化的L1损失在人脸关键部位的像素上设置了更大的权重，其中关键的人脸五官部分包括眉毛、眼睛、鼻子、嘴巴和牙齿。这些关键部位的像素位置构成了掩膜M。合成最终人脸图像的损失函数L_f定义如下：

L_f＝|Y^GT-Y|+α|M⊙Y^GT-M⊙Y|

其中，Y^GT和Y分别是真值人脸图像和合成的标准光照下的正面人脸图像，M表示掩膜，α表示用来平衡人脸关键部位像素之间权重的系数，⊙表示哈达玛积(HadamardProduct)。

网络总体损失函数定义如下：

L＝L_f+γL_g+βL_t

其中，L_g和L_t分别代表几何分支和纹理分支的损失，γ和β是用来平衡损失函数的常数系数。

进一步地，网络的训练过程分为三个步骤：

1)利用L_g的监督信息预训练几何分支，提取输入人脸图像有效的几何信息；

2)利用L_t的监督信息预训练纹理分支，提取输入人脸图像有效的纹理信息；

3)利用L的监督信息微调整个网络，这个步骤的重点在于融合提取的几何信息和纹理信息来合成正面人脸图像，将最后一个全连接层的学习率设为前面两个分支的若干倍(如10倍，也可以是其它倍数)。

这种训练方式帮助两分支深度相关网络分别保持两个流的几何信息和纹理信息，同时增强了网络的人脸识别性能。

基于同一发明构思，本发明还提供一种基于两分支深度相关网络的人脸图像合成装置，其包括：

几何分支网络模块，用于提取输入的任意角度的人脸图像的几何特征；

纹理分支网络模块，用于提取输入的任意角度的人脸图像的纹理特征；

相关层模块，用于将提取的图像的几何特征和纹理特征进行融合，得到标准光照下的正面人脸图像。

本发明的有益效果如下：

本发明提出了一种基于两分支深度相关网络的人脸合成方法和装置，能够融合几何和纹理特征用于正面人脸重建。不同于已有的工作，本发明融合几何和纹理特征用于正面人脸重建，以单幅侧面人脸图像作为网络输入。首先分别通过两个分支来提取它的纹理特征和几何特征，其中纹理分支与已有工作的网络类似，而几何分支用来预测输入侧面人脸图像的姿态。然后融合纹理信息和几何信息来重建标准光照下的正面人脸图像。基准数据集Multi-PIE和LFW上的实验结果表明，本发明提出的网络的性能优于现有的大多数方法。

附图说明

图1为本发明的两分支深度相关网络的网络结构图。

图2显示了纹理分支网络不同层特征的可视化结果。

图3显示了几何分支网络不同层特征的可视化结果。

图4为在Multi-PIE测试数据集上合成的样本图像。其中1、3、5、7行为每个人在六个角度和随机光照下的图像，2、4、6、8行为合成的标准光照下的正面人脸图像。

图5为在LFW数据集上合成的人脸图像。其中1、3、5列为原始的人脸图像，2、4、6列为合成的标准光照下的正面人脸图像。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本实施例提出了一种基于两分支深度相关网络的人脸图像合成方法，可以分别提取任意角度的人脸图像的几何特征和纹理特征，然后将提取的几何特征和纹理特征进行融合，得到标准光照下的正面人脸图像。

本实施例的一种基于两分支深度相关网络的人脸合成方法，包括以下步骤：

S1：根据检测到的人脸关键点，对Multi-PIE数据库、CelebFaees Attributes(CelebA)和LFW人脸数据库中的人脸图像进行裁剪。共进行了两组实验：Multi-PIE数据集做训练和测试；CelebA数据集做训练，LFW数据集做测试。

S2：对裁剪后的训练图像进行翻转、位移、尺度缩放和旋转等操作进行数据扩增。

S3：将处理后的人脸图像送入几何分支，用softmax损失函数对几何分支进行优化。

S4：将处理后的人脸图像同时送入纹理分支，用结构化的L1损失函数对纹理分支进行优化。

S5：将几何分支的最后一个卷积层的特征图ψ_g和纹理分支的最后一个局部连接层的特征图ψ_t送入相关网络，用结构化的L1损失函数对相关网络进行优化。

图1所示为本发明的网络结构图。两分支深度相关网络首先选取一幅任意姿态的人脸图像作为网络的输入，通过两个分支分别提取图像的几何特征和纹理特征。其中，几何特征是指包含人脸姿态信息的特征；纹理特征是指包含人脸不同区域纹理信息的特征。然后，网络用一个相关层将两个分支的中间层结合起来重建正面人脸图像。针对几何和纹理特征，在相关层进行匹配。相关层上面的层学习如何从这些匹配中生成正面人脸图像。最后，使用线性判别分析方法(Linear DiscriminantAnalysis，LDA)对网络输出的人脸图像进行分类。

图2显示了纹理分支网络不同层特征的可视化结果。如图2所示，其中不同灰度的点表示不同人的人脸图像的特征，不同人的第一个池化层的特征与输入层的特征聚合在一起。从第二个池化层开始，相同人的特征表达开始聚合。在第三个局部连接层中，不同人之间的特征已经基本分离。在网络的最后一层，相同人重建得到的人脸图像聚合在一起，而不同人重建得到的人脸图像彼此分离。以上所有的结果证明了纹理分支可以提取到有效的纹理信息，同时深度相关网络可以改善纹理分支中提取到的人脸特征表达。

图3显示了几何分支网络不同层特征的可视化结果。如图3所示，其中不同灰度的点表示不同视角下的人脸图像的特征，随着层数的增加，相同视角下的人脸图像的特征逐渐聚合。几何分支中输出层的可视化结果说明了几何分支最终提取到的特征在不同的视角下具有区分性。

图4为在Multi-PIE测试数据集上合成的样本。其中1、3、5、7行为每个人在六个角度和随机光照下的图像。2、4、6、8行为合成的标准光照下的正面人脸图像。

图5为在LFW数据集上合成的人脸图像。其中1、3、5列为原始的人脸图像。2、4、6列为合成的标准光照下的正面人脸图像。

基于同一发明构思，本发明另一实施例提供一种基于两分支深度相关网络的人脸图像合成装置，其包括：

其中的两分支深度相关网络的具体网络构成、网络训练方式等，参见前文对本发明方法的说明。

基于同一发明构思，本发明的另一个实施例提供一种计算机/服务器，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

本发明中的几何分支网络、纹理分支网络除上述实施例中公开的网络结构以外，也可以采用其它适用的网络结构。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于两分支深度相关网络的人脸图像合成方法，其特征在于，包括以下步骤：

将提取的图像的几何特征和纹理特征进行融合，得到标准光照下的正面人脸图像；

所述两分支深度相关网络包含一相关层，用于融合几何分支网络的最后一个卷积层的特征图和纹理分支网络的最后一个局部连接层的特征图，来重建最终的标准光照下的正面人脸图像；通过融合基于几何特征的表达和基于纹理特征的表达，捕获不同特征之间的相乘的图像块相关性；

分别将几何和纹理特征标记为ψ_g和ψ_t，所述相关层将ψ_g和ψ_t在一个大小为(2k+1)×(2k+1)的图像块上的相关操作定义如下：

其中，ψ_c表示融合之后的特征，x₁，x₂表示ψ_g和ψ_t中图像块的中心点，c表示相关运算，o表示以x1或者x2为中心的图像块的范围；

在ψ_c上应用一个全连接层如下：

Y＝f(W₁ψ_c+b₁)

2.根据权利要求1所述的方法，其特征在于，所述几何分支网络学习预测输入侧面人脸图像的姿态，包含三个卷积层和一个全连接层；第一个卷积层和第二个卷积层后面连接一个激活函数和一个最大池化层，第三个卷积层连接全连接层，全连接层中每个结点代表输入人脸图像属于某一范围角度的概率。

3.根据权利要求2所述的方法，其特征在于，所述纹理分支网络学习从任意角度的人脸图像合成标准光照下的正面人脸图像，包含三个局部连接层和一个全连接层；第一个局部连接层和第二个局部连接层后面连接一个激活函数和一个最大池化层，第三个局部连接层连接全连接层。

4.根据权利要求3所述的方法，其特征在于，所述几何分支网络和所述纹理分支网络中的激活函数为PReLU激活函数；所述几何分支网络的全连接层含有七个结点；所述纹理分支网络的全连接层含有3600个结点。

5.根据权利要求1所述的方法，其特征在于，所述两分支深度相关网络的总体损失函数定义如下：

L＝L_f+γL_g+βL_t

其中，L_f是合成最终人脸图像的损失函数，L_g和L_t分别代表几何分支和纹理分支的损失，γ和β是用来平衡损失函数的常数系数。

6.根据权利要求5所述的方法，其特征在于，损失函数L_f定义如下：

L_f＝|Y^GT-Y|+α|M⊙Y^GT-M⊙Y|

其中，Y^GT和Y分别是真值人脸图像和合成的标准光照下的正面人脸图像，M表示掩膜，α表示用来平衡人脸关键部位像素之间权重的系数，⊙表示哈达玛积。

7.根据权利要求5或6所述的方法，其特征在于，所述两分支深度相关网络的训练过程包括：

利用L_g的监督信息预训练几何分支网络，提取输入的人脸图像的有效的几何信息；

利用L_t的监督信息预训练纹理分支网络，提取输入的人脸图像的有效的纹理信息；

利用L的监督信息微调整个两分支深度相关网络，融合提取的几何信息和纹理信息来合成正面人脸图像。

8.一种采用权利要求1～7中任一权利要求所述方法的基于两分支深度相关网络的人脸图像合成装置，其特征在于，包括：