CN116229531A

CN116229531A - 一种协作渐进生成对抗网络的人脸正面图像合成方法

Info

Publication number: CN116229531A
Application number: CN202211558868.4A
Authority: CN
Inventors: 周丽芳; 张合龙; 李伟生; 吴非
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-06-06

Abstract

本发明请求保护一种协作渐进生成对抗网络的人脸正面图像合成方法(CP‑GAN)，旨在从包含姿态变化和遮挡的人脸图像中自动检测遮挡区域并实现人脸图像转正，属于计算机视觉技术领域。所述方法包括以下步骤：步骤1.本发明提出了一种拓扑感知模块，该模块有助于精确定位姿态变化下的随机遮挡。步骤2.本发明设计了一个新的双通道生成对抗网络，它可以使两个通道相互协作来感知任务间的互补特征。步骤3.本发明采用渐进式人脸生成策略，旨在使两个通道可以有效协作，同时以更平滑的方式完成人脸合成。步骤4.本发明同时引入两个判别器用于判断两个通道所合成图片的真实性，同时利用任务间的协同关系以及拓扑特征，有效提高了姿态变化和遮挡下的人脸识别精度。

Description

一种协作渐进生成对抗网络的人脸正面图像合成方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于生成对抗机制的人脸正面图像合成方法。

背景技术

人脸识别是计算机视觉领域的重要课题之一，随着深度学习的发展，人脸识别近年来取得了显著的成就，相关研究成果已经被应用于门禁系统、移动支付、安全防务等诸多领域。尽管受控环境下的人脸识别模型已经达到了很高的精度，然而在无约束环境下的人脸识别还存在着许多挑战。在无约束环境中，人脸通常存在姿态变化，并伴有遮挡、光照和表情等其他影响因素。其中，包含姿态变化和遮挡的人脸图像对识别精度有较大影响。然而，现有的正面图像合成方法或人脸去遮挡方法仅分别关注这两个问题中的一个，这使其成为一个紧迫但尚未解决的问题。

为了解决姿态变化带给人脸识别的挑战，近几年研究者们开始专注于一项热门且富有挑战的研究课题，凭借一张任意角度的人脸图像准确的合成出一张标准清晰的正脸图像，即人脸正面图像合成。另一方面，人脸去遮挡技术通过恢复人脸的遮挡区域的方式解决人脸识别中的遮挡问题。目前，仅有极少数方法考虑将人脸去遮挡作为正面图像合成的预处理来同时解决这两个问题。此类同时解决姿态变化和遮挡的代表方法有：TS-GAN(Simultaneous Face Completion and Frontalization via Mask Guided Two-StageGAN),IF-GAN(Generative Adversarial Network for Identity Preserving FacialImage Inpainting and Frontalization)以及CFR-GAN(Complete Face Recovery GAN:Unsupervised Joint Face Rotation and De-Occlusion from a Single-View Image)。该类方法的核心思想是先通过去遮挡得到完整的侧面人脸图像，然后再对该图像进行正面图像合成操作，从而得到正面无遮挡的人脸图像。然而，第一步去遮挡的结果将干扰第二步正面图象合成的结果。此外，由于姿态变化和遮挡同时出现会进一步破坏面部结构信息，因此单独解决其中一个问题无法有效地恢复身份信息，这将直接导致人脸识别精度的下降。最后，该类方法大多数需要将遮挡信息作为输入提供给网络，因此该类方法难以应对现实场景中的随机遮挡问题。因此，如何缓解因此姿态变化和遮挡共同导致的人脸识别精度下降挑战成为了一个急需解决但是未被充分研究的问题。为了解决以上问题，本发明提出一种协作渐进生成对抗网络的人脸正面图像合成方法。

CN109815928B，一种基于对抗学习的人脸图像合成方法和装置。该方法提供一种新型的生成对抗网络(FC-GAN)，旨在从遮挡的人脸图像合成标准光照下的正面人脸图像。FC-GAN使用一个编码器-解码器的卷积神经网络结构作为生成器，同时引入了两个判别器：一个是全局判别器，用于区分整张人脸图像的真实性，同时保持人的身份信息不变；另一个是局部判别器，用于区分人脸中遮挡区域的真实性。此外引入一个人脸语义分割网络强化生成图像中人脸五官的一致性。通过对比合成人脸图像和真实人脸图像的语义标签，反传梯度给生成器调整合成人脸图像的五官。基准数据集Multi-PIE上的实验结果表明，FC-GAN的性能优于现有的大多数方法。

FC-GAN(CN109815928B)被提出完成类似的任务，即遮挡下的正面图像合成。FC-GAN使用一个编码器-解码器的卷积神经网络结构作为生成器，同时引入了两个判别器用于判断合成图像中全局与局部图像的真实性，并且使用人脸语义分割网络引导生成器关注人脸五官的一致性。然而，FC-GAN存在两个主要的问题：1)遮挡区域作为一个重要的先验信息没有被利用，这使得该方法不能直接关注遮挡区域的图像恢复，并且遮挡区域的遮挡物信息将损坏人脸图像特征，最终导致合成图像的质量。与FC-GAN不同，本发明提出了基于拓扑结构引导的遮挡检测网络，用于精准定位遮挡区域，从而保留未遮挡区域，过滤遮挡信息。2)由于姿态变化和遮挡的共存，执行该任务需要将其分解为人脸去遮挡和正面图像合成两项任务，并且这两项任务之间的互助性也需要被充分考虑。作为单阶段方法，FC-GAN不能很好地处理这两个任务，并且该方法的去遮挡过程是不可解释，也无法利用任务间的互助性，这些缺陷限制了它的扩展性。与FC-GAN相比，本发明提出了一个新的双通道生成对抗网络，用于分别处理人脸去遮挡和正面图像合成。同时，本发明引入渐进式的生成策略，使得两个通道在渐进生成的过程中相互协作来感知任务间的互补特征。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种协作渐进生成对抗网络的人脸正面图像合成方法。本发明的技术方案如下：

一种协作渐进生成对抗网络的人脸正面图像合成方法，其包括以下步骤：

步骤1、将一张包含姿态变化和遮挡的人脸图像输入到CP-GAN遮挡检测网络中，定位人脸的遮挡区域，从而保留未遮挡区域；

步骤2、将所述遮挡检测网络处理后的人脸图像以及姿态编码输入到CP-GAN双通道协同对抗生成网络中，通过对抗生成网络的生成器多次迭代逐步转正人脸图像和恢复人脸遮挡区域；

步骤3、将合成图片以及数据库中对应的真实图像分别输入正面化判别器和去遮挡判别器，通过所述判别器区分人脸图像的真实性，并且使用交叉熵损失、对抗损失、像素级损失、人脸身份损失和对称损失构建最终的损失函数，通多生成对抗网络的对抗训练，更新参数得到目标网络模型。

进一步的，所述步骤1将一张包含姿态和遮挡变化的人脸图像输入到CP-GAN遮挡检测网络，有效定位人脸的遮挡区域，从而保留未遮挡区域，具体包括以下步骤：

A1、将训练图像输入到遮挡检测网络，遮挡检测网络以U-Net结构作为基础网络结构，对输入图像编码提取特征，得到各层特征F₁，F₂，F₃，F₄，然后通过跳跃连接到对应解码器用于检测遮挡区域，从而保留未遮挡区域；

A2、为了充分利用人脸结构以及遮挡物的拓扑特征信息以进行遮挡检测，通过采用拓扑结构感知模块将上述特征F₁，F₂在跳跃连接前进行特征优化，得到含有人脸和遮挡区域结构信息的拓扑特征；

A3、设计一个拓扑特征感知模块，在进行不同层的跳跃连接之间，先将F₁和F₂在输入到拓扑结构感知模块中进行优化，得到拓扑结构特征。

进一步的，所述步骤A2通过采用拓扑结构感知模块将上述特征F₁，F₂在跳跃连接前进行特征优化，得到含有人脸和遮挡区域结构信息的拓扑特征，具体包括：

B1、对输入特征进行可变形卷积，首先将原始特征输入到一个卷积层中获取每个采样点的偏移量offset，然后可变形卷积根据offset对原始特征进行采样，其公式为：

其中x代表F₁、F₂，x′_o表示通过可变形卷积增强后包含结构信息的特征，给定一个有k个采样位置的卷积核，w(p_k)表示可变形卷积的卷积核权重，p表示卷积核中心位置，而k＝{1，…，|R|}，而p_k表示原始采样点位置，Δp_k表示学习的offset，Δm_k用于指出第k个采样位置的重要程度，R＝{(-1,-1),(-1,0),…,(0,1),(1,1)}表示一个3×3规则的卷积核，通过公式(1)得到x′_o；

B2、对输入特征使用通道注意力机制进行特征增强得到增强后的特征x′_e，通道注意力能够找出更具判别力的通道用于遮挡检测；

B3、将x′_o和x′_e进行特征拼接，得到拓扑结构特征x′输出到跳跃连接中，从而最终得到遮挡区域信息M′。

进一步的，所述步骤B3将x′_o和x′_e进行特征拼接，得到拓扑结构特征x′输出到跳跃连接中，并且最终得到遮挡区域信息M′，通过和遮挡区域标签进行二进制交叉熵损失的计算来优化遮挡检测网络，其具体公式为：

其中，N是每个图像的总像素数，M表示检测标签，而M′表示检测网络的输出；最后，以0.5为阈值对检测图进行二值化，为双通道生成对抗网络提供指导。

进一步的，所述步骤2将所述遮挡检测网络处理后的人脸图像以及姿态编码输入到CP-GAN双通道协同对抗生成网络中，通过所述生成器生成特定姿态人脸图像和恢复人脸遮挡区域，并且通过多次迭代逐步转正人脸图像，具体包括以下步骤，

C1、首先将原始图像、遮挡区域以及目标姿态编码输入到CP-GAN双通道网络，分为正面化通道和去遮挡通道，用公式表示为：

其中

为第I次人脸旋转结果，/>

为第I次人脸去遮挡的结果，P^I为第I次需要生成的人脸姿态编码，M′为人脸的遮挡区域，(1-M′)表示未被遮挡区域，G_F表示正面化通道生成器，G_D表示去遮挡通道生成器；正面化通道和去遮挡通道之间通过交互特征完成两个任务的协作；

C2、最终CP-GAN将通过多次迭代，以渐进的方式完成图像合成，G_D和G_F的求解可以建模成如下最小化优化问题：

其中yⁱ表示数据库中对应的真实图片，d(·)表示用于计算合成图片与真实图片之间的距离函数。

进一步的，所述步骤C1中正面化通道和去遮挡通道之间通过交互特征完成两个任务的协作，具体包括以下步骤：

首先两个通道G_F和G_D各自对需要处理的图像

在编码阶段进行特征提取，所提取到的特征分别表示为/>

然后在解码阶段前将两个特征进行拼接，通过特征共享的方式，两个通道交互所需要的互补特征，其公式表示为：

其中Encoder_F，Encoder_D分别为正面化通道和去遮挡的编码器，

和/>

为其对应的提取到的特征；两个通道对应的解码器部分将对两个特征进行拼接，并根据拼接后的特征进行图像合成，其公式表示为：

其中Decoder_F，Decoder_D分别为正面化通道和去遮挡的解码器，cat表示特征拼接操作。

进一步的，所述步骤C2，CP-GAN将通过多次迭代，以渐进的方式完成图像合成，具体包括以下步骤：

E1、使用三维人脸对齐方法得到当前人脸姿态信息；

E2、在得到人脸姿态信息后，将人脸正面化的过程分解为多个步骤，将姿态码作为条件输入网络，并通过渐进方法逐步进行正面化；姿势代码是一个大小为11的one-hot编码，它表示需要生成的面部姿态，范围从-75°至+75°，间隔为15，由原始姿态决定需要旋转的次数。

进一步的，所述步骤3具体包括：

F1、首先将合成图片以及数据库中对应的真实图像分别输入正面化通道判别器和去遮挡通道判别器中用于训练两个判别器：

其中D_f，D_d分别为正面化通道和去遮挡通道的判别器，CP-GAN旨在通过生成器和判别器之间的对抗训练来生成逼真的图像，

和/>

为去遮挡通道和正面化通道的预测结果，而/>

与/>

表示与两个通道预测结果所对应的真实的人脸图像。/>

表示

服从真实数据概率分布的期望，/>

表示/>

服从真实数据概率分布的期望。同样/>

/>

表示

服从真实数据概率分布的期望，/>

表示

服从真实数据概率分布的期望。

F2、然后将合成图片与数据库中对应的真实图片进行像素级损失L_pixel、人脸身份损失

和对称损失L_sym的计算，其具体公式为：

其中，W,H为图形的长和高，

为包括正面化通道和去遮挡通道生成器输出的结果，/>

为数据库中对应的真实目标图片，·₁表示L1损失，ψ(·)为预训练好的人脸识别模型，·₂表示2损失，ψ_pool和ψ_fc分别表示人脸识别模型最后一个池化层和全连接层的输出。

进一步的，将上述四种损失进行相加操作，得到最终的图像合成损失L_total，具体包括：

通过将遮挡检测网络以及双通道生成对抗网络整个到一个统一的网络框架中，一个协作渐进的双通道生成对抗网络因此形成，其参数可以通过L_total进行优化：

L_total＝λ₁L_dis+λ₂L_Det+λ₃L_pixel+λ₄L_id+λ₅L_sym (15)

其中，λ₁，λ₂，λ₃，λ₄和λ₅表示总的损失函数中的超参数。

本发明的优点及有益效果如下：

1.现实场景中，人脸遮挡区域是难以准确定位的，由于遮挡物本身的随机性，包括姿态变化、不同的形状、混合的类型、非固定位置和其他不可预测的问题。鲁棒的遮挡物检测算法能够帮助去遮挡网络保留更多的细节信息，使去遮挡任务能够专注于对丢失的部分进行恢复。但是由于大多数遮挡检测算法都是在合成数据集上进行的训练以及测试，故在真实场景下都不能都很好的实现遮挡物检测，这会导致去遮挡网络的性能大大下降。本发明利用人脸和遮挡物拓扑结构信息作为遮挡检测的引导，能够精准地定位各种随机遮挡下的遮挡区域。该模块通过结合可变形卷积和通道注意力机制，在感知拓扑结构特征的同时也能够保持较快的推理速度。

2.考虑到了去遮挡和正面图像合成两个任务之间的相关性：由于姿态变化和遮挡将共同导致人脸结构信息的丢失，而人脸结构信息蕴含着重要的人脸身份信息。此外使用去遮挡作为正面化的预处理无法保证能够得到准确可靠的去遮挡结果。因此，我们提供了一个新的双通道生成对抗网络模型用于同时解决姿态变化和遮挡问题。并且不同于主流方法，我们以双通道特征共享的方式将两个任务有机地协同，使得两个任务之间的互助性能够被充分地利用。本发明能够有效的提升姿态变化和遮挡下的人脸识别性能。

3.本发明引入渐进式的生成策略，通过三维人脸对齐模型，获得当前的人脸的姿态信息。然后根据姿态信息确定人脸正面化旋转的次数。渐进式的生成方法使两个通道在多次迭代的过程中有效地协作，并且不断地提升合成图像的质量。同时以更平滑的方式完成人脸合成，不同于其他单步正面图像合成方法，能够将以正面图像合成这一复杂的任务分解为多个简单的子任务。通过一系列子任务的完成不断地逼近目标结果，能够有效地保留人脸的身份信息。

附图说明

图1是本发明提供优选实施例的总体网络模型结构示意图。

图2为本发明的拓扑结构感知模块结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明实例基于生成对抗网络和U-net结构网络作为生成器的基本框架，详见文献Goodfellow I J,Pouget-Abadie J,Mirza M,et al.Generative Adversarial Nets[C]//Neural Information Processing Systems(NIPS).2014.和Ronneberger O,FischerP,Brox T.U-net:Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assistedintervention.Springer,Cham,2015:234-241。首先检测遮挡区域，然后基于遮挡检测的结果去除原始图像的遮挡区域，并将其用作后续网络的输入。检测结果用于保留未遮挡的区域，作为去遮挡和正面图像合成的引导，使CP-GAN能够避免提取被遮挡污染的特征。与其他方法不同，本发明提出的双通道生成对抗网络不先执行去遮挡，然后以线性方式执行正面化。相反，我们设计了一个新的双通道生成对抗网络，它可以通过正面图像合成和去遮挡两个任务之间的协作来感知两个任务的互补特征。我们还设计了一种新的渐进式生成策略，通过姿势编码指定所需的姿势，将面部正面化分解为多个小的渐进式旋转，这有助于降低正面化任务的难度并增强身份信息的保留。它还使两个任务之间的交互更加有效。然后将合成图片以及数据库中对应的真实图像分别输入正面化判别器和去遮挡判别器中，通过所述判别器区分人脸图像的真实性，并且使用交叉熵损失、对抗损失、像素级损失、人脸身份损失和对称损失构建最终的损失函数，通多生成对抗网络的对抗训练，更新参数得到目标网络模型。

图1为本发明的总体网络模型结构示意图，包括如下步骤：

一种协作渐进生成对抗网络的人脸正面图像合成方法，包括以下步骤：

其中

为第I次人脸旋转结果，/>

首先两个通道G_F和G_D各自对需要处理的图像

在编码阶段进行特征提取，所提取到的特征分别表示为/>

其中Encoder_F，Encoder_D分别为正面化通道和去遮挡的编码器，

和/>

E1、使用三维人脸对齐方法得到当前人脸姿态信息；

进一步的，所述步骤3具体包括：

和/>

为去遮挡通道和正面化通道的预测结果，而/>

与/>

表示与两个通道预测结果所对应的真实的人脸图像。/>

表示/>

服从真实数据概率分布的期望，/>

表示/>

服从真实数据概率分布的期望。同样/>

表示/>

服从真实数据概率分布的期望，/>

表示/>

服从真实数据概率分布的期望。

和对称损失L_sym的计算，其具体公式为：

其中，W,H为图形的长和高，

为包括正面化通道和去遮挡通道生成器输出的结果，/>

为数据库中对应的真实目标图片，·₁表示L1损失，ψ(·)为预训练好的人脸识别模型，·₂表示2损失，ψ_pool和ψ_fc分别表示最后一个池化层和全连接层的输出。

L_total＝λ₁L_dis+λ₂L_Det+λ₃L_pixel+λ₄L_id+λ₅L_sym (15)

本发明通过集成由拓扑结构感知模块引导的遮挡检测网络和双通道生成对抗网络进行人脸去遮挡和正面图像合成，能够合成真实的并且保留身份信息的人脸正面图像，并且合成的图片能够有效地提升在姿态变化和遮挡共同影响下的人脸识别精度。具体来说，本发明提出了一种拓扑感知模块，该模块有助于精确定位随机遮挡区域。本发明设计了一个新的双通道生成对抗网络，它可以使两个通道相互协作来感知任务间的互补特征。同时，本发明采用渐进式人脸生成策略，旨在使两个通道可以有效协作，同时以更平滑的方式完成人脸合成，有效地保留人脸身份信息。本发明同时引入两个判别器用于判断两个通道所合成图片的真实性。通过利用任务间的协同关系以及拓扑特征，本发明提高了在姿态变化和遮挡下的人脸识别精度。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种协作渐进生成对抗网络的人脸正面图像合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种协作渐进生成对抗网络的人脸正面图像合成方法，其特征在于，所述步骤1将一张包含姿态和遮挡变化的人脸图像输入到CP-GAN遮挡检测网络，有效定位人脸的遮挡区域，从而保留未遮挡区域，具体包括以下步骤：

3.根据权利要求2所述的一种协作渐进生成对抗网络的人脸正面图像合成方法，其特征在于，所述步骤A2通过采用拓扑结构感知模块将上述特征F₁，F₂在跳跃连接前进行特征优化，得到含有人脸和遮挡区域结构信息的拓扑特征，具体包括：

其中x代表F₁、F₂，x′_o表示通过可变形卷积增强后包含结构信息的特征，给定一个有k个采样位置的卷积核，w(p_k)表示可变形卷积的卷积核权重，p表示卷积核中心位置，而k＝{1,…,|R|}，而p_k表示原始采样点位置，Δp_k表示学习的offset，Δm_k用于指出第k个采样位置的重要程度，R＝{(-1,-1),(-1,0),…,(0,1),(1,1)}表示一个3×3规则的卷积核，通过公式(1)得到x′_o；