CN116229531A - 一种协作渐进生成对抗网络的人脸正面图像合成方法 - Google Patents

一种协作渐进生成对抗网络的人脸正面图像合成方法 Download PDF

Info

Publication number
CN116229531A
CN116229531A CN202211558868.4A CN202211558868A CN116229531A CN 116229531 A CN116229531 A CN 116229531A CN 202211558868 A CN202211558868 A CN 202211558868A CN 116229531 A CN116229531 A CN 116229531A
Authority
CN
China
Prior art keywords
face
occlusion
channel
image
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211558868.4A
Other languages
English (en)
Inventor
周丽芳
张合龙
李伟生
吴非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211558868.4A priority Critical patent/CN116229531A/zh
Publication of CN116229531A publication Critical patent/CN116229531A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明请求保护一种协作渐进生成对抗网络的人脸正面图像合成方法(CP‑GAN),旨在从包含姿态变化和遮挡的人脸图像中自动检测遮挡区域并实现人脸图像转正,属于计算机视觉技术领域。所述方法包括以下步骤:步骤1.本发明提出了一种拓扑感知模块,该模块有助于精确定位姿态变化下的随机遮挡。步骤2.本发明设计了一个新的双通道生成对抗网络,它可以使两个通道相互协作来感知任务间的互补特征。步骤3.本发明采用渐进式人脸生成策略,旨在使两个通道可以有效协作,同时以更平滑的方式完成人脸合成。步骤4.本发明同时引入两个判别器用于判断两个通道所合成图片的真实性,同时利用任务间的协同关系以及拓扑特征,有效提高了姿态变化和遮挡下的人脸识别精度。

Description

一种协作渐进生成对抗网络的人脸正面图像合成方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于生成对抗机制的人脸正面图像合成方法。
背景技术
人脸识别是计算机视觉领域的重要课题之一,随着深度学习的发展,人脸识别近年来取得了显著的成就,相关研究成果已经被应用于门禁系统、移动支付、安全防务等诸多领域。尽管受控环境下的人脸识别模型已经达到了很高的精度,然而在无约束环境下的人脸识别还存在着许多挑战。在无约束环境中,人脸通常存在姿态变化,并伴有遮挡、光照和表情等其他影响因素。其中,包含姿态变化和遮挡的人脸图像对识别精度有较大影响。然而,现有的正面图像合成方法或人脸去遮挡方法仅分别关注这两个问题中的一个,这使其成为一个紧迫但尚未解决的问题。
为了解决姿态变化带给人脸识别的挑战,近几年研究者们开始专注于一项热门且富有挑战的研究课题,凭借一张任意角度的人脸图像准确的合成出一张标准清晰的正脸图像,即人脸正面图像合成。另一方面,人脸去遮挡技术通过恢复人脸的遮挡区域的方式解决人脸识别中的遮挡问题。目前,仅有极少数方法考虑将人脸去遮挡作为正面图像合成的预处理来同时解决这两个问题。此类同时解决姿态变化和遮挡的代表方法有:TS-GAN(Simultaneous Face Completion and Frontalization via Mask Guided Two-StageGAN),IF-GAN(Generative Adversarial Network for Identity Preserving FacialImage Inpainting and Frontalization)以及CFR-GAN(Complete Face Recovery GAN:Unsupervised Joint Face Rotation and De-Occlusion from a Single-View Image)。该类方法的核心思想是先通过去遮挡得到完整的侧面人脸图像,然后再对该图像进行正面图像合成操作,从而得到正面无遮挡的人脸图像。然而,第一步去遮挡的结果将干扰第二步正面图象合成的结果。此外,由于姿态变化和遮挡同时出现会进一步破坏面部结构信息,因此单独解决其中一个问题无法有效地恢复身份信息,这将直接导致人脸识别精度的下降。最后,该类方法大多数需要将遮挡信息作为输入提供给网络,因此该类方法难以应对现实场景中的随机遮挡问题。因此,如何缓解因此姿态变化和遮挡共同导致的人脸识别精度下降挑战成为了一个急需解决但是未被充分研究的问题。为了解决以上问题,本发明提出一种协作渐进生成对抗网络的人脸正面图像合成方法。
CN109815928B,一种基于对抗学习的人脸图像合成方法和装置。该方法提供一种新型的生成对抗网络(FC-GAN),旨在从遮挡的人脸图像合成标准光照下的正面人脸图像。FC-GAN使用一个编码器-解码器的卷积神经网络结构作为生成器,同时引入了两个判别器:一个是全局判别器,用于区分整张人脸图像的真实性,同时保持人的身份信息不变;另一个是局部判别器,用于区分人脸中遮挡区域的真实性。此外引入一个人脸语义分割网络强化生成图像中人脸五官的一致性。通过对比合成人脸图像和真实人脸图像的语义标签,反传梯度给生成器调整合成人脸图像的五官。基准数据集Multi-PIE上的实验结果表明,FC-GAN的性能优于现有的大多数方法。
FC-GAN(CN109815928B)被提出完成类似的任务,即遮挡下的正面图像合成。FC-GAN使用一个编码器-解码器的卷积神经网络结构作为生成器,同时引入了两个判别器用于判断合成图像中全局与局部图像的真实性,并且使用人脸语义分割网络引导生成器关注人脸五官的一致性。然而,FC-GAN存在两个主要的问题:1)遮挡区域作为一个重要的先验信息没有被利用,这使得该方法不能直接关注遮挡区域的图像恢复,并且遮挡区域的遮挡物信息将损坏人脸图像特征,最终导致合成图像的质量。与FC-GAN不同,本发明提出了基于拓扑结构引导的遮挡检测网络,用于精准定位遮挡区域,从而保留未遮挡区域,过滤遮挡信息。2)由于姿态变化和遮挡的共存,执行该任务需要将其分解为人脸去遮挡和正面图像合成两项任务,并且这两项任务之间的互助性也需要被充分考虑。作为单阶段方法,FC-GAN不能很好地处理这两个任务,并且该方法的去遮挡过程是不可解释,也无法利用任务间的互助性,这些缺陷限制了它的扩展性。与FC-GAN相比,本发明提出了一个新的双通道生成对抗网络,用于分别处理人脸去遮挡和正面图像合成。同时,本发明引入渐进式的生成策略,使得两个通道在渐进生成的过程中相互协作来感知任务间的互补特征。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种协作渐进生成对抗网络的人脸正面图像合成方法。本发明的技术方案如下:
一种协作渐进生成对抗网络的人脸正面图像合成方法,其包括以下步骤:
步骤1、将一张包含姿态变化和遮挡的人脸图像输入到CP-GAN遮挡检测网络中,定位人脸的遮挡区域,从而保留未遮挡区域;
步骤2、将所述遮挡检测网络处理后的人脸图像以及姿态编码输入到CP-GAN双通道协同对抗生成网络中,通过对抗生成网络的生成器多次迭代逐步转正人脸图像和恢复人脸遮挡区域;
步骤3、将合成图片以及数据库中对应的真实图像分别输入正面化判别器和去遮挡判别器,通过所述判别器区分人脸图像的真实性,并且使用交叉熵损失、对抗损失、像素级损失、人脸身份损失和对称损失构建最终的损失函数,通多生成对抗网络的对抗训练,更新参数得到目标网络模型。
进一步的,所述步骤1将一张包含姿态和遮挡变化的人脸图像输入到CP-GAN遮挡检测网络,有效定位人脸的遮挡区域,从而保留未遮挡区域,具体包括以下步骤:
A1、将训练图像输入到遮挡检测网络,遮挡检测网络以U-Net结构作为基础网络结构,对输入图像编码提取特征,得到各层特征F1,F2,F3,F4,然后通过跳跃连接到对应解码器用于检测遮挡区域,从而保留未遮挡区域;
A2、为了充分利用人脸结构以及遮挡物的拓扑特征信息以进行遮挡检测,通过采用拓扑结构感知模块将上述特征F1,F2在跳跃连接前进行特征优化,得到含有人脸和遮挡区域结构信息的拓扑特征;
A3、设计一个拓扑特征感知模块,在进行不同层的跳跃连接之间,先将F1和F2在输入到拓扑结构感知模块中进行优化,得到拓扑结构特征。
进一步的,所述步骤A2通过采用拓扑结构感知模块将上述特征F1,F2在跳跃连接前进行特征优化,得到含有人脸和遮挡区域结构信息的拓扑特征,具体包括:
B1、对输入特征进行可变形卷积,首先将原始特征输入到一个卷积层中获取每个采样点的偏移量offset,然后可变形卷积根据offset对原始特征进行采样,其公式为:
Figure SMS_1
其中x代表F1、F2,x′o表示通过可变形卷积增强后包含结构信息的特征,给定一个有k个采样位置的卷积核,w(pk)表示可变形卷积的卷积核权重,p表示卷积核中心位置,而k={1,…,|R|},而pk表示原始采样点位置,Δpk表示学习的offset,Δmk用于指出第k个采样位置的重要程度,R={(-1,-1),(-1,0),…,(0,1),(1,1)}表示一个3×3规则的卷积核,通过公式(1)得到x′o
B2、对输入特征使用通道注意力机制进行特征增强得到增强后的特征x′e,通道注意力能够找出更具判别力的通道用于遮挡检测;
B3、将x′o和x′e进行特征拼接,得到拓扑结构特征x′输出到跳跃连接中,从而最终得到遮挡区域信息M′。
进一步的,所述步骤B3将x′o和x′e进行特征拼接,得到拓扑结构特征x′输出到跳跃连接中,并且最终得到遮挡区域信息M′,通过和遮挡区域标签进行二进制交叉熵损失的计算来优化遮挡检测网络,其具体公式为:
Figure SMS_2
其中,N是每个图像的总像素数,M表示检测标签,而M′表示检测网络的输出;最后,以0.5为阈值对检测图进行二值化,为双通道生成对抗网络提供指导。
进一步的,所述步骤2将所述遮挡检测网络处理后的人脸图像以及姿态编码输入到CP-GAN双通道协同对抗生成网络中,通过所述生成器生成特定姿态人脸图像和恢复人脸遮挡区域,并且通过多次迭代逐步转正人脸图像,具体包括以下步骤,
C1、首先将原始图像、遮挡区域以及目标姿态编码输入到CP-GAN双通道网络,分为正面化通道和去遮挡通道,用公式表示为:
Figure SMS_3
Figure SMS_4
其中
Figure SMS_5
为第I次人脸旋转结果,/>
Figure SMS_6
为第I次人脸去遮挡的结果,PI为第I次需要生成的人脸姿态编码,M′为人脸的遮挡区域,(1-M′)表示未被遮挡区域,GF表示正面化通道生成器,GD表示去遮挡通道生成器;正面化通道和去遮挡通道之间通过交互特征完成两个任务的协作;
C2、最终CP-GAN将通过多次迭代,以渐进的方式完成图像合成,GD和GF的求解可以建模成如下最小化优化问题:
Figure SMS_7
其中yi表示数据库中对应的真实图片,d(·)表示用于计算合成图片与真实图片之间的距离函数。
进一步的,所述步骤C1中正面化通道和去遮挡通道之间通过交互特征完成两个任务的协作,具体包括以下步骤:
首先两个通道GF和GD各自对需要处理的图像
Figure SMS_8
在编码阶段进行特征提取,所提取到的特征分别表示为/>
Figure SMS_9
然后在解码阶段前将两个特征进行拼接,通过特征共享的方式,两个通道交互所需要的互补特征,其公式表示为:
Figure SMS_10
Figure SMS_11
其中EncoderF,EncoderD分别为正面化通道和去遮挡的编码器,
Figure SMS_12
和/>
Figure SMS_13
为其对应的提取到的特征;两个通道对应的解码器部分将对两个特征进行拼接,并根据拼接后的特征进行图像合成,其公式表示为:
Figure SMS_14
Figure SMS_15
其中DecoderF,DecoderD分别为正面化通道和去遮挡的解码器,cat表示特征拼接操作。
进一步的,所述步骤C2,CP-GAN将通过多次迭代,以渐进的方式完成图像合成,具体包括以下步骤:
E1、使用三维人脸对齐方法得到当前人脸姿态信息;
E2、在得到人脸姿态信息后,将人脸正面化的过程分解为多个步骤,将姿态码作为条件输入网络,并通过渐进方法逐步进行正面化;姿势代码是一个大小为11的one-hot编码,它表示需要生成的面部姿态,范围从-75°至+75°,间隔为15,由原始姿态决定需要旋转的次数。
进一步的,所述步骤3具体包括:
F1、首先将合成图片以及数据库中对应的真实图像分别输入正面化通道判别器和去遮挡通道判别器中用于训练两个判别器:
Figure SMS_16
Figure SMS_17
其中Df,Dd分别为正面化通道和去遮挡通道的判别器,CP-GAN旨在通过生成器和判别器之间的对抗训练来生成逼真的图像,
Figure SMS_18
和/>
Figure SMS_19
为去遮挡通道和正面化通道的预测结果,而/>
Figure SMS_20
与/>
Figure SMS_21
表示与两个通道预测结果所对应的真实的人脸图像。/>
Figure SMS_22
表示
Figure SMS_23
服从真实数据概率分布的期望,/>
Figure SMS_24
表示/>
Figure SMS_25
服从真实数据概率分布的期望。同样/>
Figure SMS_26
/>
表示
Figure SMS_27
服从真实数据概率分布的期望,/>
Figure SMS_28
表示
Figure SMS_29
服从真实数据概率分布的期望。
F2、然后将合成图片与数据库中对应的真实图片进行像素级损失Lpixel、人脸身份损失
Figure SMS_30
和对称损失Lsym的计算,其具体公式为:
Figure SMS_31
Figure SMS_32
Figure SMS_33
其中,W,H为图形的长和高,
Figure SMS_34
为包括正面化通道和去遮挡通道生成器输出的结果,/>
Figure SMS_35
为数据库中对应的真实目标图片,·1表示L1损失,ψ(·)为预训练好的人脸识别模型,·2表示2损失,ψpool和ψfc分别表示人脸识别模型最后一个池化层和全连接层的输出。
进一步的,将上述四种损失进行相加操作,得到最终的图像合成损失Ltotal,具体包括:
通过将遮挡检测网络以及双通道生成对抗网络整个到一个统一的网络框架中,一个协作渐进的双通道生成对抗网络因此形成,其参数可以通过Ltotal进行优化:
Ltotal=λ1Ldis2LDet3Lpixel4Lid5Lsym (15)
其中,λ1,λ2,λ3,λ4和λ5表示总的损失函数中的超参数。
本发明的优点及有益效果如下:
1.现实场景中,人脸遮挡区域是难以准确定位的,由于遮挡物本身的随机性,包括姿态变化、不同的形状、混合的类型、非固定位置和其他不可预测的问题。鲁棒的遮挡物检测算法能够帮助去遮挡网络保留更多的细节信息,使去遮挡任务能够专注于对丢失的部分进行恢复。但是由于大多数遮挡检测算法都是在合成数据集上进行的训练以及测试,故在真实场景下都不能都很好的实现遮挡物检测,这会导致去遮挡网络的性能大大下降。本发明利用人脸和遮挡物拓扑结构信息作为遮挡检测的引导,能够精准地定位各种随机遮挡下的遮挡区域。该模块通过结合可变形卷积和通道注意力机制,在感知拓扑结构特征的同时也能够保持较快的推理速度。
2.考虑到了去遮挡和正面图像合成两个任务之间的相关性:由于姿态变化和遮挡将共同导致人脸结构信息的丢失,而人脸结构信息蕴含着重要的人脸身份信息。此外使用去遮挡作为正面化的预处理无法保证能够得到准确可靠的去遮挡结果。因此,我们提供了一个新的双通道生成对抗网络模型用于同时解决姿态变化和遮挡问题。并且不同于主流方法,我们以双通道特征共享的方式将两个任务有机地协同,使得两个任务之间的互助性能够被充分地利用。本发明能够有效的提升姿态变化和遮挡下的人脸识别性能。
3.本发明引入渐进式的生成策略,通过三维人脸对齐模型,获得当前的人脸的姿态信息。然后根据姿态信息确定人脸正面化旋转的次数。渐进式的生成方法使两个通道在多次迭代的过程中有效地协作,并且不断地提升合成图像的质量。同时以更平滑的方式完成人脸合成,不同于其他单步正面图像合成方法,能够将以正面图像合成这一复杂的任务分解为多个简单的子任务。通过一系列子任务的完成不断地逼近目标结果,能够有效地保留人脸的身份信息。
附图说明
图1是本发明提供优选实施例的总体网络模型结构示意图。
图2为本发明的拓扑结构感知模块结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明实例基于生成对抗网络和U-net结构网络作为生成器的基本框架,详见文献Goodfellow I J,Pouget-Abadie J,Mirza M,et al.Generative Adversarial Nets[C]//Neural Information Processing Systems(NIPS).2014.和Ronneberger O,FischerP,Brox T.U-net:Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assistedintervention.Springer,Cham,2015:234-241。首先检测遮挡区域,然后基于遮挡检测的结果去除原始图像的遮挡区域,并将其用作后续网络的输入。检测结果用于保留未遮挡的区域,作为去遮挡和正面图像合成的引导,使CP-GAN能够避免提取被遮挡污染的特征。与其他方法不同,本发明提出的双通道生成对抗网络不先执行去遮挡,然后以线性方式执行正面化。相反,我们设计了一个新的双通道生成对抗网络,它可以通过正面图像合成和去遮挡两个任务之间的协作来感知两个任务的互补特征。我们还设计了一种新的渐进式生成策略,通过姿势编码指定所需的姿势,将面部正面化分解为多个小的渐进式旋转,这有助于降低正面化任务的难度并增强身份信息的保留。它还使两个任务之间的交互更加有效。然后将合成图片以及数据库中对应的真实图像分别输入正面化判别器和去遮挡判别器中,通过所述判别器区分人脸图像的真实性,并且使用交叉熵损失、对抗损失、像素级损失、人脸身份损失和对称损失构建最终的损失函数,通多生成对抗网络的对抗训练,更新参数得到目标网络模型。
图1为本发明的总体网络模型结构示意图,包括如下步骤:
一种协作渐进生成对抗网络的人脸正面图像合成方法,包括以下步骤:
步骤1、将一张包含姿态变化和遮挡的人脸图像输入到CP-GAN遮挡检测网络中,定位人脸的遮挡区域,从而保留未遮挡区域;
步骤2、将所述遮挡检测网络处理后的人脸图像以及姿态编码输入到CP-GAN双通道协同对抗生成网络中,通过对抗生成网络的生成器多次迭代逐步转正人脸图像和恢复人脸遮挡区域;
步骤3、将合成图片以及数据库中对应的真实图像分别输入正面化判别器和去遮挡判别器,通过所述判别器区分人脸图像的真实性,并且使用交叉熵损失、对抗损失、像素级损失、人脸身份损失和对称损失构建最终的损失函数,通多生成对抗网络的对抗训练,更新参数得到目标网络模型。
进一步的,所述步骤1将一张包含姿态和遮挡变化的人脸图像输入到CP-GAN遮挡检测网络,有效定位人脸的遮挡区域,从而保留未遮挡区域,具体包括以下步骤:
A1、将训练图像输入到遮挡检测网络,遮挡检测网络以U-Net结构作为基础网络结构,对输入图像编码提取特征,得到各层特征F1,F2,F3,F4,然后通过跳跃连接到对应解码器用于检测遮挡区域,从而保留未遮挡区域;
A2、为了充分利用人脸结构以及遮挡物的拓扑特征信息以进行遮挡检测,通过采用拓扑结构感知模块将上述特征F1,F2在跳跃连接前进行特征优化,得到含有人脸和遮挡区域结构信息的拓扑特征;
A3、设计一个拓扑特征感知模块,在进行不同层的跳跃连接之间,先将F1和F2在输入到拓扑结构感知模块中进行优化,得到拓扑结构特征。
进一步的,所述步骤A2通过采用拓扑结构感知模块将上述特征F1,F2在跳跃连接前进行特征优化,得到含有人脸和遮挡区域结构信息的拓扑特征,具体包括:
B1、对输入特征进行可变形卷积,首先将原始特征输入到一个卷积层中获取每个采样点的偏移量offset,然后可变形卷积根据offset对原始特征进行采样,其公式为:
Figure SMS_36
其中x代表F1、F2,x′o表示通过可变形卷积增强后包含结构信息的特征,给定一个有k个采样位置的卷积核,w(pk)表示可变形卷积的卷积核权重,p表示卷积核中心位置,而k={1,…,|R|},而pk表示原始采样点位置,Δpk表示学习的offset,Δmk用于指出第k个采样位置的重要程度,R={(-1,-1),(-1,0),…,(0,1),(1,1)}表示一个3×3规则的卷积核,通过公式(1)得到x′o
B2、对输入特征使用通道注意力机制进行特征增强得到增强后的特征x′e,通道注意力能够找出更具判别力的通道用于遮挡检测;
B3、将x′o和x′e进行特征拼接,得到拓扑结构特征x′输出到跳跃连接中,从而最终得到遮挡区域信息M′。
进一步的,所述步骤B3将x′o和x′e进行特征拼接,得到拓扑结构特征x′输出到跳跃连接中,并且最终得到遮挡区域信息M′,通过和遮挡区域标签进行二进制交叉熵损失的计算来优化遮挡检测网络,其具体公式为:
Figure SMS_37
其中,N是每个图像的总像素数,M表示检测标签,而M′表示检测网络的输出;最后,以0.5为阈值对检测图进行二值化,为双通道生成对抗网络提供指导。
进一步的,所述步骤2将所述遮挡检测网络处理后的人脸图像以及姿态编码输入到CP-GAN双通道协同对抗生成网络中,通过所述生成器生成特定姿态人脸图像和恢复人脸遮挡区域,并且通过多次迭代逐步转正人脸图像,具体包括以下步骤,
C1、首先将原始图像、遮挡区域以及目标姿态编码输入到CP-GAN双通道网络,分为正面化通道和去遮挡通道,用公式表示为:
Figure SMS_38
Figure SMS_39
其中
Figure SMS_40
为第I次人脸旋转结果,/>
Figure SMS_41
为第I次人脸去遮挡的结果,PI为第I次需要生成的人脸姿态编码,M′为人脸的遮挡区域,(1-M′)表示未被遮挡区域,GF表示正面化通道生成器,GD表示去遮挡通道生成器;正面化通道和去遮挡通道之间通过交互特征完成两个任务的协作;
C2、最终CP-GAN将通过多次迭代,以渐进的方式完成图像合成,GD和GF的求解可以建模成如下最小化优化问题:
Figure SMS_42
其中yi表示数据库中对应的真实图片,d(·)表示用于计算合成图片与真实图片之间的距离函数。
进一步的,所述步骤C1中正面化通道和去遮挡通道之间通过交互特征完成两个任务的协作,具体包括以下步骤:
首先两个通道GF和GD各自对需要处理的图像
Figure SMS_43
在编码阶段进行特征提取,所提取到的特征分别表示为/>
Figure SMS_44
然后在解码阶段前将两个特征进行拼接,通过特征共享的方式,两个通道交互所需要的互补特征,其公式表示为:
Figure SMS_45
Figure SMS_46
其中EncoderF,EncoderD分别为正面化通道和去遮挡的编码器,
Figure SMS_47
和/>
Figure SMS_48
为其对应的提取到的特征;两个通道对应的解码器部分将对两个特征进行拼接,并根据拼接后的特征进行图像合成,其公式表示为:
Figure SMS_49
Figure SMS_50
其中DecoderF,DecoderD分别为正面化通道和去遮挡的解码器,cat表示特征拼接操作。
进一步的,所述步骤C2,CP-GAN将通过多次迭代,以渐进的方式完成图像合成,具体包括以下步骤:
E1、使用三维人脸对齐方法得到当前人脸姿态信息;
E2、在得到人脸姿态信息后,将人脸正面化的过程分解为多个步骤,将姿态码作为条件输入网络,并通过渐进方法逐步进行正面化;姿势代码是一个大小为11的one-hot编码,它表示需要生成的面部姿态,范围从-75°至+75°,间隔为15,由原始姿态决定需要旋转的次数。
进一步的,所述步骤3具体包括:
F1、首先将合成图片以及数据库中对应的真实图像分别输入正面化通道判别器和去遮挡通道判别器中用于训练两个判别器:
Figure SMS_51
Figure SMS_52
其中Df,Dd分别为正面化通道和去遮挡通道的判别器,CP-GAN旨在通过生成器和判别器之间的对抗训练来生成逼真的图像,
Figure SMS_55
和/>
Figure SMS_58
为去遮挡通道和正面化通道的预测结果,而/>
Figure SMS_60
与/>
Figure SMS_56
表示与两个通道预测结果所对应的真实的人脸图像。/>
Figure SMS_59
表示/>
Figure SMS_62
服从真实数据概率分布的期望,/>
Figure SMS_63
表示/>
Figure SMS_53
服从真实数据概率分布的期望。同样/>
Figure SMS_57
表示/>
Figure SMS_61
服从真实数据概率分布的期望,/>
Figure SMS_64
表示/>
Figure SMS_54
服从真实数据概率分布的期望。
F2、然后将合成图片与数据库中对应的真实图片进行像素级损失Lpixel、人脸身份损失
Figure SMS_65
和对称损失Lsym的计算,其具体公式为:
Figure SMS_66
Figure SMS_67
Figure SMS_68
其中,W,H为图形的长和高,
Figure SMS_69
为包括正面化通道和去遮挡通道生成器输出的结果,/>
Figure SMS_70
为数据库中对应的真实目标图片,·1表示L1损失,ψ(·)为预训练好的人脸识别模型,·2表示2损失,ψpool和ψfc分别表示最后一个池化层和全连接层的输出。
进一步的,将上述四种损失进行相加操作,得到最终的图像合成损失Ltotal,具体包括:
通过将遮挡检测网络以及双通道生成对抗网络整个到一个统一的网络框架中,一个协作渐进的双通道生成对抗网络因此形成,其参数可以通过Ltotal进行优化:
Ltotal=λ1Ldis2LDet3Lpixel4Lid5Lsym (15)
其中,λ1,λ2,λ3,λ4和λ5表示总的损失函数中的超参数。
本发明通过集成由拓扑结构感知模块引导的遮挡检测网络和双通道生成对抗网络进行人脸去遮挡和正面图像合成,能够合成真实的并且保留身份信息的人脸正面图像,并且合成的图片能够有效地提升在姿态变化和遮挡共同影响下的人脸识别精度。具体来说,本发明提出了一种拓扑感知模块,该模块有助于精确定位随机遮挡区域。本发明设计了一个新的双通道生成对抗网络,它可以使两个通道相互协作来感知任务间的互补特征。同时,本发明采用渐进式人脸生成策略,旨在使两个通道可以有效协作,同时以更平滑的方式完成人脸合成,有效地保留人脸身份信息。本发明同时引入两个判别器用于判断两个通道所合成图片的真实性。通过利用任务间的协同关系以及拓扑特征,本发明提高了在姿态变化和遮挡下的人脸识别精度。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (9)

1.一种协作渐进生成对抗网络的人脸正面图像合成方法,其特征在于,包括以下步骤:
步骤1、将一张包含姿态变化和遮挡的人脸图像输入到CP-GAN遮挡检测网络中,定位人脸的遮挡区域,从而保留未遮挡区域;
步骤2、将所述遮挡检测网络处理后的人脸图像以及姿态编码输入到CP-GAN双通道协同对抗生成网络中,通过对抗生成网络的生成器多次迭代逐步转正人脸图像和恢复人脸遮挡区域;
步骤3、将合成图片以及数据库中对应的真实图像分别输入正面化判别器和去遮挡判别器,通过所述判别器区分人脸图像的真实性,并且使用交叉熵损失、对抗损失、像素级损失、人脸身份损失和对称损失构建最终的损失函数,通多生成对抗网络的对抗训练,更新参数得到目标网络模型。
2.根据权利要求1所述的一种协作渐进生成对抗网络的人脸正面图像合成方法,其特征在于,所述步骤1将一张包含姿态和遮挡变化的人脸图像输入到CP-GAN遮挡检测网络,有效定位人脸的遮挡区域,从而保留未遮挡区域,具体包括以下步骤:
A1、将训练图像输入到遮挡检测网络,遮挡检测网络以U-Net结构作为基础网络结构,对输入图像编码提取特征,得到各层特征F1,F2,F3,F4,然后通过跳跃连接到对应解码器用于检测遮挡区域,从而保留未遮挡区域;
A2、为了充分利用人脸结构以及遮挡物的拓扑特征信息以进行遮挡检测,通过采用拓扑结构感知模块将上述特征F1,F2在跳跃连接前进行特征优化,得到含有人脸和遮挡区域结构信息的拓扑特征;
A3、设计一个拓扑特征感知模块,在进行不同层的跳跃连接之间,先将F1和F2在输入到拓扑结构感知模块中进行优化,得到拓扑结构特征。
3.根据权利要求2所述的一种协作渐进生成对抗网络的人脸正面图像合成方法,其特征在于,所述步骤A2通过采用拓扑结构感知模块将上述特征F1,F2在跳跃连接前进行特征优化,得到含有人脸和遮挡区域结构信息的拓扑特征,具体包括:
B1、对输入特征进行可变形卷积,首先将原始特征输入到一个卷积层中获取每个采样点的偏移量offset,然后可变形卷积根据offset对原始特征进行采样,其公式为:
Figure FDA0003983742310000021
其中x代表F1、F2,x′o表示通过可变形卷积增强后包含结构信息的特征,给定一个有k个采样位置的卷积核,w(pk)表示可变形卷积的卷积核权重,p表示卷积核中心位置,而k={1,…,|R|},而pk表示原始采样点位置,Δpk表示学习的offset,Δmk用于指出第k个采样位置的重要程度,R={(-1,-1),(-1,0),…,(0,1),(1,1)}表示一个3×3规则的卷积核,通过公式(1)得到x′o
B2、对输入特征使用通道注意力机制进行特征增强得到增强后的特征x′e,通道注意力能够找出更具判别力的通道用于遮挡检测;
B3、将x′o和x′e进行特征拼接,得到拓扑结构特征x′输出到跳跃连接中,从而最终得到遮挡区域信息M′。
4.根据权利要求3所述的一种协作渐进生成对抗网络的人脸正面图像合成方法,其特征在于,所述步骤B3将x′o和x′e进行特征拼接,得到拓扑结构特征x′输出到跳跃连接中,并且最终得到遮挡区域信息M′,通过和遮挡区域标签进行二进制交叉熵损失的计算来优化遮挡检测网络,其具体公式为:
Figure FDA0003983742310000022
其中,N是每个图像的总像素数,M表示检测标签,而M′表示检测网络的输出;最后,以0.5为阈值对检测图进行二值化,为双通道生成对抗网络提供指导。
5.根据权利要求4所述的一种协作渐进生成对抗网络的人脸正面图像合成方法,其特征在于,所述步骤2将所述遮挡检测网络处理后的人脸图像以及姿态编码输入到CP-GAN双通道协同对抗生成网络中,通过所述生成器生成特定姿态人脸图像和恢复人脸遮挡区域,并且通过多次迭代逐步转正人脸图像,具体包括以下步骤,
C1、首先将原始图像、遮挡区域以及目标姿态编码输入到CP-GAN双通道网络,分为正面化通道和去遮挡通道,用公式表示为:
Figure FDA0003983742310000031
Figure FDA0003983742310000032
其中
Figure FDA0003983742310000033
为第I次人脸旋转结果,/>
Figure FDA0003983742310000034
为第I次人脸去遮挡的结果,PI为第I次需要生成的人脸姿态编码,M′为人脸的遮挡区域,(1-M′)表示未被遮挡区域,GF表示正面化通道生成器,GD表示去遮挡通道生成器;正面化通道和去遮挡通道之间通过交互特征完成两个任务的协作;
C2、最终CP-GAN将通过多次迭代,以渐进的方式完成图像合成,GD和GF的求解可以建模成如下最小化优化问题:
Figure FDA0003983742310000035
其中yi表示数据库中对应的真实图片,d(·)表示用于计算合成图片与真实图片之间的距离函数。
6.根据权利要求5所述的一种协作渐进生成对抗网络的人脸正面图像合成方法,其特征在于,所述步骤C1中正面化通道和去遮挡通道之间通过交互特征完成两个任务的协作,具体包括以下步骤:
首先两个通道GF和GD各自对需要处理的图像
Figure FDA0003983742310000036
在编码阶段进行特征提取,所提取到的特征分别表示为/>
Figure FDA0003983742310000037
然后在解码阶段前将两个特征进行拼接,通过特征共享的方式,两个通道交互所需要的互补特征,其公式表示为:
Figure FDA0003983742310000038
Figure FDA0003983742310000039
其中EncoderF,EncoderD分别为正面化通道和去遮挡的编码器,
Figure FDA0003983742310000041
和/>
Figure FDA0003983742310000042
为其对应的提取到的特征;两个通道对应的解码器部分将对两个特征进行拼接,并根据拼接后的特征进行图像合成,其公式表示为:/>
Figure FDA0003983742310000043
Figure FDA0003983742310000044
其中DecoderF,DecoderD分别为正面化通道和去遮挡的解码器,cat表示特征拼接操作。
7.根据权利要求5所述的一种协作渐进生成对抗网络的人脸正面图像合成方法,其特征在于,所述步骤C2,CP-GAN将通过多次迭代,以渐进的方式完成图像合成,具体包括以下步骤:
E1、使用三维人脸对齐方法得到当前人脸姿态信息;
E2、在得到人脸姿态信息后,将人脸正面化的过程分解为多个步骤,将姿态码作为条件输入网络,并通过渐进方法逐步进行正面化;姿势代码是一个大小为11的one-hot编码,它表示需要生成的面部姿态,范围从-75°至+75°,间隔为15,由原始姿态决定需要旋转的次数。
8.根据权利要求1所述的一种协作渐进生成对抗网络的人脸正面图像合成方法,其特征在于,所述步骤3具体包括:
F1、首先将合成图片以及数据库中对应的真实图像分别输入正面化通道判别器和去遮挡通道判别器中用于训练两个判别器:
Figure FDA0003983742310000045
Figure FDA0003983742310000046
其中Df,Dd分别为正面化通道和去遮挡通道的判别器,CP-GAN旨在通过生成器和判别器之间的对抗训练来生成逼真的图像,
Figure FDA0003983742310000047
和/>
Figure FDA0003983742310000048
为去遮挡通道和正面化通道的预测结果,而/>
Figure FDA0003983742310000049
与/>
Figure FDA00039837423100000410
表示与两个通道预测结果所对应的真实的人脸图像。/>
Figure FDA0003983742310000051
表示/>
Figure FDA0003983742310000052
服从真实数据概率分布的期望,/>
Figure FDA0003983742310000053
表示/>
Figure FDA0003983742310000054
服从真实数据概率分布的期望。同样/>
Figure FDA0003983742310000055
表示/>
Figure FDA0003983742310000056
服从真实数据概率分布的期望,/>
Figure FDA0003983742310000057
表示/>
Figure FDA0003983742310000058
服从真实数据概率分布的期望;
F2、然后将合成图片与数据库中对应的真实图片进行像素级损失Lpixel、人脸身份损失
Figure FDA0003983742310000059
和对称损失Lsym的计算,其具体公式为:
Figure FDA00039837423100000510
Figure FDA00039837423100000511
Figure FDA00039837423100000512
其中,W,H为图形的长和高,
Figure FDA00039837423100000513
为包括正面化通道和去遮挡通道生成器输出的结果,
Figure FDA00039837423100000514
为数据库中对应的真实目标图片,||·||1表示L1损失,ψ(·)为预训练好的人脸识别模型,||·||2表示2损失,ψpool和ψfc分别表示人脸识别模型的最后一个池化层和全连接层的输出。
9.根据权利要求8所述的一种协作渐进生成对抗网络的人脸正面图像合成方法,其特征在于,将上述四种损失进行相加操作,得到最终的图像合成损失Ltotal,具体包括:
通过将遮挡检测网络以及双通道生成对抗网络整个到一个统一的网络框架中,一个协作渐进的双通道生成对抗网络因此形成,其参数可以通过Ltotal进行优化:
Ltotal=λ1Ldis2LDet3Lpixel4Lid5Lsym (15)
其中,λ1,λ2,λ3,λ4和λ5表示总的损失函数中的超参数。
CN202211558868.4A 2022-12-06 2022-12-06 一种协作渐进生成对抗网络的人脸正面图像合成方法 Pending CN116229531A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211558868.4A CN116229531A (zh) 2022-12-06 2022-12-06 一种协作渐进生成对抗网络的人脸正面图像合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211558868.4A CN116229531A (zh) 2022-12-06 2022-12-06 一种协作渐进生成对抗网络的人脸正面图像合成方法

Publications (1)

Publication Number Publication Date
CN116229531A true CN116229531A (zh) 2023-06-06

Family

ID=86584866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211558868.4A Pending CN116229531A (zh) 2022-12-06 2022-12-06 一种协作渐进生成对抗网络的人脸正面图像合成方法

Country Status (1)

Country Link
CN (1) CN116229531A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116652988A (zh) * 2023-07-28 2023-08-29 江苏泽宇智能电力股份有限公司 智能光纤配线机器人及其控制方法
CN117765372A (zh) * 2024-02-22 2024-03-26 广州市易鸿智能装备股份有限公司 一种工业缺陷样本图像生成的方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116652988A (zh) * 2023-07-28 2023-08-29 江苏泽宇智能电力股份有限公司 智能光纤配线机器人及其控制方法
CN116652988B (zh) * 2023-07-28 2023-10-27 江苏泽宇智能电力股份有限公司 智能光纤配线机器人及其控制方法
CN117765372A (zh) * 2024-02-22 2024-03-26 广州市易鸿智能装备股份有限公司 一种工业缺陷样本图像生成的方法、装置、电子设备及存储介质
CN117765372B (zh) * 2024-02-22 2024-05-14 广州市易鸿智能装备股份有限公司 一种工业缺陷样本图像生成的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Han et al. A survey on visual transformer
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
Seow et al. A comprehensive overview of Deepfake: Generation, detection, datasets, and opportunities
CN116229531A (zh) 一种协作渐进生成对抗网络的人脸正面图像合成方法
US11216652B1 (en) Expression recognition method under natural scene
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
Lee et al. Deep learning-based pupil center detection for fast and accurate eye tracking system
Vamsi et al. Deepfake detection in digital media forensics
Baek et al. Generative adversarial ensemble learning for face forensics
CN115565238A (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
Kim et al. Real-time facial feature extraction scheme using cascaded networks
Wang et al. Hierarchical open-vocabulary universal image segmentation
Yin et al. Dynamic difference learning with spatio-temporal correlation for deepfake video detection
CN113239834B (zh) 一种可预训练手模型感知表征的手语识别系统
Wani et al. Deep learning-based video action recognition: a review
Li et al. Rethinking lightweight salient object detection via network depth-width tradeoff
RU2755396C1 (ru) Нейросетевой перенос выражения лица и позы головы с использованием скрытых дескрипторов позы
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
CN115471901A (zh) 基于生成对抗网络的多姿态人脸正面化方法及系统
Rajalaxmi et al. Deepfake Detection using Inception-ResNet-V2 Network
Yavuzkiliç et al. DeepFake face video detection using hybrid deep residual networks and LSTM architecture
Ni et al. Background and foreground disentangled generative adversarial network for scene image synthesis
Das et al. Occlusion robust sign language recognition system for indian sign language using CNN and pose features
Hummady et al. A Review: Face Recognition Techniques using Deep Learning
Shit et al. Real-time emotion recognition using end-to-end attention-based fusion network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination