CN115471901B

CN115471901B - 基于生成对抗网络的多姿态人脸正面化方法及系统

Info

Publication number: CN115471901B
Application number: CN202211365059.1A
Authority: CN
Inventors: 刘成云; 曹佳倩; 陈振学; 张玉娇; 孙露娜; 钟昆儒; 秦皓
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-04-07
Anticipated expiration: 2042-11-03
Also published as: CN115471901A

Abstract

本公开提供了基于生成对抗网络的多姿态人脸正面化方法及系统，涉及图像数据转换技术领域，包括获取多姿态人脸图像并进行预处理；将多姿态人脸图像输入至人脸正面化模型中提取抽象特征，采用双注意力机制建立上下文关系，将上下文信息编码为局部特征，通过注意力挖掘通道图之间的相互依赖关系，形成相互依赖的特征图，获取语义特征表示；利用所述语义特征表示的特征图进行正面人脸图像的合成；本公开人脸注意力机制增强人脸中最具判别性区域的生成效果，指导生成结构更真实的人脸图像。

Description

基于生成对抗网络的多姿态人脸正面化方法及系统

技术领域

本公开涉及图像数据转换技术领域，具体涉及基于生成对抗网络的多姿态人脸正面化方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

在生活中，通过生物特征识别个体身份是各个场景下的主要方式，如指纹识别，虹膜识别，人脸识别等。其中人脸识别具有非接触性和非强制性的优点，成为了人工智能、计算机视觉领域的研究热点，同时也产生很多优秀的应用产品。然而在非受限的环境（如监控视频）中，受到姿态、光照、遮挡、表情等因素的影响，这些应用及现有的人脸识别模型的性能会严重下降。近年来，人脸识别的研究重点也逐渐从受限环境下的人脸识别转变为非受限环境下的人脸识别。人脸识别在现实场景中有广泛的应用，且在非受限环境问题上还有提升空间。研究人脸正面化解决多姿态识别问题具有重要的实际意义。此外，人脸正面化在其他领域也有利用价值，如为刑侦领域的办案人员提供参考等。

姿态是非受限条件下影响人脸识别模型性能下降的主要因素，姿态问题的本质是人脸头部刚性旋转导致的自遮挡问题，意味着用于识别的人脸信息的缺失。随着生成对抗网络的发展，很多基于该网络的人脸正面化方法被提出，这些方法很大程度上提高了多姿态人脸识别的准确率，但现有的方法存在网络复杂，训练时间长，需要先验知识（如人脸偏转角度）等问题，且图像生成质量和正面化后的人脸识别准确率有待进一步提高。

发明内容

本公开为了解决上述问题，提出了基于生成对抗网络的多姿态人脸正面化方法及系统，通过残差块加深生成对抗网络层数，并融合多种注意力机制，对数据库中多种姿态的人脸图像生成正面人脸图像，在保证生成图像质量的同时，提高了生成图像的速度。

根据一些实施例，本公开采用如下技术方案：

基于生成对抗网络的多姿态人脸正面化方法，包括：

获取多姿态人脸图像并进行预处理；

将多姿态人脸图像输入至人脸正面化模型中提取抽象特征，采用双注意力机制建立上下文关系，将上下文信息编码为局部特征，通过注意力挖掘通道图之间的相互依赖关系，形成相互依赖的特征图，获取语义特征表示；

利用所述语义特征表示的特征图进行正面人脸图像的合成。

根据一些实施例，本公开采用如下技术方案：

基于生成对抗网络的多姿态人脸正面化系统，包括：

图像获取模块，用于获取多姿态人脸图像并进行预处理；

图像特征提取模块，用于将多姿态人脸图像输入至人脸正面化模型中提取抽象特征，采用双注意力机制建立上下文关系，将上下文信息编码为局部特征，通过注意力挖掘通道图之间的相互依赖关系，形成相互依赖的特征图，获取语义特征表示；

图像合成模块，用于利用所述语义特征表示的特征图进行正面人脸图像的合成。

根据一些实施例，本公开采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的基于生成对抗网络的多姿态人脸正面化方法。

根据一些实施例，本公开采用如下技术方案：

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的基于生成对抗网络的多姿态人脸正面化方法。

与现有技术相比，本公开的有益效果为：

本公开在多姿态人脸正面化模型中采用了多种注意力机制，位置注意力在局部特征上建立丰富的上下文关系，将更广泛的上下文信息编码为局部特征，进而增强他们的表示能力；通道注意力通过挖掘通道图之间的相互依赖关系，可以突出相互依赖的特征图，提高特定语义的特征表示，人脸注意力机制增强人脸中最具判别性区域的生成效果，指导生成结构更真实的人脸图像。

本公开利用残差块构成深度特征编码器，加深网络，使网络提取到更细节和抽象的特征，生成图像在细节上更接近真实图像。

本公开提出的算法能有效为视频监控等场景下的人脸识别提供帮助，同时满足准确性和实时性要求，能够克服训练时间长的问题。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本发明实施例1的流程图；

图2为本发明实施例1的网络框架示意图；

图3为本发明实施例1的深度特征编码器示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种基于生成对抗网络的多姿态人脸正面化方法，包括：

步骤1：获取多姿态人脸图像并进行预处理；

步骤2：将多姿态人脸图像输入至人脸正面化模型中提取抽象特征，采用双注意力机制建立上下文关系，将上下文信息编码为局部特征，通过注意力挖掘通道图之间的相互依赖关系，形成相互依赖的特征图，获取语义特征表示；

步骤3：利用所述语义特征表示的特征图进行正面人脸图像的合成。

作为一种实施例，预处理的方式为进行图像裁剪，进行图像大小格式的统一裁剪，使得图像大小为相同尺寸。

本公开的整体思路为：获取人脸图像，依据获取的多姿态人脸图像，以及预设的人脸正面化模型，得到正面人脸图像；

其中，所述人脸正面化模型通过生成对抗网络训练得到。

利用人脸正面化转换模型对人脸图像库中的多姿态人脸图像转换成正面人脸图像，多姿态人脸图像可以理解为多种视角的人脸图像，包括偏转和俯仰角度，人脸正面化模型可以理解为融合多种注意力机制的生成对抗网络。

本实施例的具体步骤为：

S1、获取人脸图像，收集人脸图像库，比如人脸照片库，对人脸图像库的图像划分形成训练集和测试集，如图2所示；具体的，人脸图像库的收集可以通过手机、相机等进行收集，也可以在网络上进行现有人脸图像的收集；可以理解的，人脸图像库中可以包括多种姿态的人脸图像照片。

步骤S1的具体过程为：

对人脸图像进行预处理，得到相同尺寸的图像，输入到神经网络中；得到相同尺寸的图像时，可以先采用python库处理不同的格式文件和图像类型，使用numpy ndarray存储图像，通过PIL进行裁剪图像的操作。

S2、将预处理之后的人脸照片图像的训练集输入到如图2所示的生成对抗网络中进行训练，训练过程中采用多种注意力机制学习特征依赖关系，并且使用深度特征编码器学习更抽象的特征，使保持速度的同时，提高合成质量；步骤S2的具体过程为：

S2.1、下采样部分，依次通过一个步长为1卷积核为7×7的卷积层，一个步长为2卷积核为5×5的卷积层，以及三个步长为2卷积核为3×3的卷积层；

S2.2、深度特征编码器部分，由如图3所示部分堆叠而成（堆叠四次），图3示意的模块由残差块和双注意力模块串联组成。残差块帮助加深网络，进一步得到更丰富的图像信息。双注意力模块由位置注意力模块和通道注意力模块并联组成。位置注意力在局部特征上建立丰富的上下文关系，将更广泛的上下文信息编码为局部特征，所述局部特征就是每个位置的特征，也就是每个像素点的信息，图像中的每一个像素点不可能是孤立的，一个像素一定和周围像素是有一定的关系的，所以针对每个局部特征要融合上下文特征重新编码为新的局部特征，进而增强他们的表示能力；通道注意力通过挖掘通道图之间的相互依赖关系，相互依赖关系指的是特征图的各个通道之间的相互关系，在高级语义特征中，每一个通道都可以被认为是对于某一个类的特殊响应，增强拥有这种响应的特征通道可以有效的提高任务效果，通道注意力通过计算一个权重因子，对每个通道进行加权，突出重要的通道，增强特征表示，可以突出相互依赖的特征图，通过通道注意力合成的新的特征图中，增强了需要的语义特征的表示。通道注意力模块通过整合所有通道映射之间的相关特征来选择性地强调存在相互依赖的通道映射，最后得到的是融合了通道信息的特征图，提高特定语义的特征表示；

S2.3、上采样模块采用了和下采样模块对称的结构。至此，生成器的结构介绍完毕；

S2.4：在判别器结构方面，如图2所示，由四个判别器组成，分别针对整张人脸、眼睛、鼻子、嘴巴区域；每个判别器均包括一个下采样模块、一个全连接层；其中，下采样模块包括四个步长为2卷积核为3×3的卷积层，最后两层前增加一个自我注意力模块；

S2.5、下采样后网络通过一个全连接层，进入特征图的计算判断中；

S2.6、最后，通过一个步长为1卷积核为4×4的卷积层得到判别结果。

本实施例中，整体损失函数包括对抗生成网络损失函数、多尺度像素损失函数、感知损失函数、身份保留损失函数和总变分损失函数；

其中，生成对抗网络损失函数为：

其中， D _j为判别器，I代表真实的人脸图像，代表生成的人脸图像， j为人脸区域编号及对应判别器的编号，可取值 F, E, N, M分别对应整张人脸图像，眼睛区域、鼻子区域、嘴巴区域。

多尺度像素损失函数为：

其中， i包含三个尺度，分别为128×128, 64×64, 32×32， C为图像通道数， W和 H为对应的宽度和高度。 W _i和 H _i分别代表每个尺度下对应的宽度和高度，三个尺度分别为128×128, 64×64, 32×32。真实正面人脸图像，为生成的正面人脸图像。

感知损失函数为：

其中，为真实的正面人脸图像，为生成的正面人脸图像，代表求特征图的网络（vgg16）。

身份保留损失函数为：

其中，i从1到2，代表的是分类网络的最后两层卷积层。

总变分损失函数为：

本实施例利用生成对抗网络解决了多姿态人脸正面化问题；对人脸照片库中的人脸照片划分形成训练集和测试集，对人脸照片的图像进行预处理，得到相同尺寸的图像，输入到神经网络中；通过生成对抗网络，融合多种注意力机制，增加深度特征编码器，提取更抽象细节的特征，提高人脸正面化效果，从而提高多姿态人脸识别准确率；本实施例提出的人脸正面化算法能有效为监控视频等非受控环境下的人脸识别应用领域提供帮助，同时满足准确性和实时性要求，能够克服训练时间长，需要其他人脸先验知识的问题。

实施例二

本公开的一种实施例中提供了一种基于生成对抗网络的多姿态人脸正面化系统，包括：

图像获取模块，用于获取多姿态人脸图像并进行预处理；

实施例三

本公开的一种实施例中提供了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的基于生成对抗网络的多姿态人脸正面化方法步骤。

实施例四

本公开的一种实施例中提供了一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的基于生成对抗网络的多姿态人脸正面化方法步骤。

以上实施例二、三和四的系统中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本公开是参照根据本公开实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于生成对抗网络的多姿态人脸正面化方法，其特征在于，包括：

获取多姿态人脸图像并进行预处理；

将多姿态人脸图像输入至人脸正面化模型中提取抽象特征，采用双注意力机制建立上下文关系，将上下文信息编码为局部特征，通过注意力挖掘通道图之间的相互依赖关系，形成相互依赖的特征图，获取语义特征表示；所述人脸正面化模型通过生成对抗网络训练得到，利用人脸正面化模型对人脸图像库中的多姿态人脸图像转换成正面人脸图像，多姿态人脸图像为多种视角的人脸图像，包括偏转和俯仰角度，人脸正面化模型为融合多种注意力机制的生成对抗网络；

所述生成对抗网络包括生成器、判别器，所述生成器包括下采样部分、深度特征编码器部分以及上采样部分，所述判别器包括四个判别器结构，针对对应人脸图像中的人脸、眼睛、鼻子以及嘴巴区域，每个判别器均包括一个下采样模块、一个全连接层；

深度特征编码器由残差块和双注意力模块串联组成，双注意力机制为模型中包括双注意力模块，所述双注意力模块由位置注意力模块和通道注意力模块并联组成；其中，位置注意力模块在局部特征上建立上下文关系，将上下文信息编码为局部特征，针对每个局部特征融合上下文特征重新编码为新的局部特征，进而增强表示能力；通道注意力通过挖掘通道图之间的相互依赖关系，通道注意力通过计算一个权重因子，对每个通道进行加权，增强特征表示，突出相互依赖的特征图，通过通道注意力合成的新的特征图中，增强语义特征的表示；通道注意力模块通过整合所有通道映射之间的相关特征来选择性地强调存在相互依赖的通道映射，最后得到融合了通道信息的特征图；

利用所述语义特征表示的特征图进行正面人脸图像的合成。

2.如权利要求1所述的基于生成对抗网络的多姿态人脸正面化方法，其特征在于，所述预处理的方式为进行图像大小格式的裁剪，使得图像大小为相同尺寸。

3.如权利要求1所述的基于生成对抗网络的多姿态人脸正面化方法，其特征在于，所述下采样模块包括四个步长为2，卷积核为3×3的卷积层，并且在最后两层前增加一个自我注意力模块。

4.基于生成对抗网络的多姿态人脸正面化系统，其特征在于，包括：

图像获取模块，用于获取多姿态人脸图像并进行预处理；

图像特征提取模块，用于将多姿态人脸图像输入至人脸正面化模型中提取抽象特征，采用双注意力机制建立上下文关系，将上下文信息编码为局部特征，通过注意力挖掘通道图之间的相互依赖关系，形成相互依赖的特征图，获取语义特征表示；所述人脸正面化模型通过生成对抗网络训练得到，利用人脸正面化模型对人脸图像库中的多姿态人脸图像转换成正面人脸图像，多姿态人脸图像为多种视角的人脸图像，包括偏转和俯仰角度，人脸正面化模型为融合多种注意力机制的生成对抗网络；

5.一种计算机可读存储介质，其特征在于，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-3中任一项所述的基于生成对抗网络的多姿态人脸正面化方法。

6.一种终端设备，其特征在于，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行如权利要求1-3中任一项所述的基于生成对抗网络的多姿态人脸正面化方法。