CN111860186A - 一种基于多注意力机制的人脸属性编辑网络 - Google Patents

一种基于多注意力机制的人脸属性编辑网络 Download PDF

Info

Publication number
CN111860186A
CN111860186A CN202010583325.2A CN202010583325A CN111860186A CN 111860186 A CN111860186 A CN 111860186A CN 202010583325 A CN202010583325 A CN 202010583325A CN 111860186 A CN111860186 A CN 111860186A
Authority
CN
China
Prior art keywords
attribute
attention
network
editing
attribute editing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010583325.2A
Other languages
English (en)
Other versions
CN111860186B (zh
Inventor
张珂
苏昱坤
何颖宣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN202010583325.2A priority Critical patent/CN111860186B/zh
Publication of CN111860186A publication Critical patent/CN111860186A/zh
Application granted granted Critical
Publication of CN111860186B publication Critical patent/CN111860186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提出了一种基于多注意力机制的人脸属性编辑网络。在生成器的跳跃连接中引入了加性注意力机制,并提出基于注意力机制的U型网络连接,用于筛选与属性无关的细节特征,使之与解码器特征互补。同时采用互补自注意力机制,帮助模型区分属性编辑区域和非属性编辑区域,以保证模型的属性编辑能力和细节保留能力。此外,互补自注意机制能增加生成图像中对长程依赖的建模能力,增加图像的几何约束。该人脸属性编辑网络能够平衡生成对抗网络的属性操控能力和细节保留能力,同时能对相干属性进行解耦,并且在感官质量、属性分类准确率和重建图像质量上有着巨大的提升。

Description

一种基于多注意力机制的人脸属性编辑网络
技术领域
本申请属于图像领域,尤其涉及一种基于多注意力机制的人脸属性编辑网络。
背景技术
随着互联网的快速发展,图像成为人们传递信息、获取信息的重要载体,图像数量迅速增长,如何对图像进行快速、有效的分析和处理显得越来越重要。在图像处理领域中,人脸图像包含了丰富的个人信息,例如情绪、年龄和身份信息等。面部属性的排列组合构成了每个人独特的人脸信息,面部属性在人的社会交往中起到了基础性作用,因此人脸图像的研究一直是机器学习领域的研究热点。人脸属性编辑技术成为了实现仿生代理、进行人机情感交互过程中不可或缺的重要工具。在人机交互、人脸重建、数据集扩增、智能摄影、市场营销等多个智能领域存在广阔的应用前景。
人脸属性编辑的目标即生成具有目标属性人脸的同时保留其与目标属性无关的面部细节。在现有技术中,人脸属性编辑模型的生成器(Generator)大都采用了编解码器结构(encoder-decoder),对原图像信息进行压缩提取,并在属性向量的指导下对人脸图像进行编辑,从而实现人脸属性编辑。在先前的工作中,为了提取不同尺度的图像属性信息,需要用堆叠的卷积层对原图像进行多次空间合并或者下采样。残差结构的编/解码器,瓶颈层的引入增加了下采样次数,使特征潜空间高度压缩,导致了模糊的属性编辑结果和严重的内容缺失问题。图像经过编解码器结构的压缩后不可避免地会有细节损失,潜空间的特征向量只包含了图像的主要信息,而忽视了细节信息,而细节信息的保存是图像真实度和质量的保证。研究人员试图采用在编解码器中添加跳跃连接,以融合编码器潜空间特征,为解码器支路补充细节信息。然而生成器通过跳跃连接获得细节保留能力的同时需要付出降低属性操控能力的代价。如何平衡人脸属性编辑网络的细节保留能力和属性编辑能力仍然是亟待解决的问题。
申请内容
为了解决上述技术问题,为了解决申请人发现的上述技术问题,本申请提出了一种人脸属性编辑方法,记为(Multi-attention U-Net Generative Adversarial Network,MU-GAN)。主要是提出了一种基于多注意力机制的人脸属性编辑网络。本申请首先针对细节保留问题,在基于编解码器的生成对抗网络(Generative Adversarial Network,GAN)中采用对称的U型网络(U-Net)结构代替原有的非对称编解码器结构,保证编解码两端的潜空间信息容量对等,解决因为解码器通道数骤减而导致的潜空间信息丢失。而后在U-Net结构中,在原有的跳跃直连中加入加性注意力机制(Additive Attention Mechanism,AAM)构建基于注意力机制的U型网络连接(Attention U-Net Connection,AUC)模块,该模块对编码器特征进行选择性的传递,在获得各层级的细节信息同时防止信息冗余,进而平衡GAN的细节保留和人脸属性编辑能力。也就是说,在注意力机制的指导下选择性传递细节信息的同时又防止信息冗余带来的属性编辑能力下降的问题。
一种基于多注意力机制的人脸属性编辑网络,包括基于编解码器结构的生成器和共享权值的真伪/属性分类鉴别器,包括基于编解码器结构的生成器和共享权值的真伪/属性分类鉴别器,所述网络结构为:
在基于编解码器的生成对抗网络(Generative Adversarial Network,GAN)中采用对称的U型网络(U-Net)结构代替原有的非对称编解码器结构,保证编解码两端的潜空间信息容量对等,以解决因为解码器通道数骤减而导致的潜空间信息丢失;
在U-Net结构中,在原有的跳跃直连中加入加性注意力机制构建基于注意力机制的U型网络连接模块,该模块对编码器特征进行选择性的传递,在获得各层级的细节信息同时防止信息冗余,进而平衡GAN的细节保留和人脸属性编辑能力;
在编解码器的卷积层之间加入互补自注意力(Complementary Self Attention,CSA)层,CSA层是卷积层的补充,分别利用了自注意系数的掩膜β′ji和反掩膜(1-β′ji),将属性编辑区域与非编辑区域进行分割,有助于分割属性相关/无关区域,以针对性地加强属性编辑能力和细节保留能力。
其中,所述在基于编解码器的生成对抗网络中采用对称的U型网络结构代替原有的非对称编解码器结构,保证编解码两端的潜空间信息容量对等,以解决因为解码器通道数骤减而导致的潜空间信息丢失;
在U-Net结构中,在原有的跳跃直连中加入加性注意力机制构建基于注意力机制的U型网络连接模块,该模块对编码器特征进行选择性的传递,在获得各层级的细节信息同时防止信息冗余,进而平衡GAN的细节保留和人脸属性编辑能力,在网络中的具体表示如下:
第l层的编/解码器特征el/dl∈C×W×H,首先经过两个相互独立的线性转换wq和wk,被映射到两个线性空间q和
Figure BDA0002553250520000031
其中N=W×H。此处用i代表向量中的第i个位置的元素,AUC中的线性转换可由以下公式表示:
Figure BDA0002553250520000032
接着将
Figure BDA0002553250520000033
Figure BDA0002553250520000034
做矩阵加法并经过ReLU函数,获得加性相似度系数
Figure BDA0002553250520000035
最后,经过另一个先行转换Wt和Sigmoid函数得到了注意力图α。
Figure BDA0002553250520000036
Figure BDA0002553250520000037
其中注意力系数αi∈[0,1]代表了相应位置的图像特征的显著性,以选择性地传递细节信息,作为解码器特征的补充。让属性编辑和特征保留各取所需。
AUC模块的输出表示特征
Figure BDA0002553250520000038
如下:
Figure BDA0002553250520000039
最后将AUC模块的输出特征与解码器特征进行合并,选择性地增加模型的细节保留能力:
Figure BDA0002553250520000041
其中,所述在编解码器的卷积层之间加入互补自注意力层,CSA层是卷积层的补充,分别利用了自注意系数的掩膜β′ji和反掩膜(1-β′ji),将属性编辑区域与非编辑区域进行分割,有助于分割属性相关/无关区域,以针对性地加强属性编辑能力和细节保留能力,在网络中的具体表示如下:
对两路特征进行矩阵相乘并经过softmax函数,注意力系数矩阵β'计算如下:
Figure BDA0002553250520000046
Figure BDA0002553250520000042
本申请中分别利用了自注意系数的掩膜β′ji和反掩膜(1-β′ji),将属性编辑区域与非编辑区域进行分割,并对两路特征进行通道合并,此处的输出特征尺寸为
Figure BDA0002553250520000043
将属性编辑相关的信息与属性无关信息分离,且保存在不同通道,有利于后续解码过程中各取所需,以兼顾属性编辑能力和细节保留能力:
Figure BDA0002553250520000044
其中,
Figure BDA0002553250520000045
是两个独立的线性变换。
本申请具有的优点如下:
本申请所述的人脸属性编辑方法采用了基于注意力机制的U型网络连接(AUC)编解码器两端,代替了原有的跳跃连接,在注意力机制的指导下选择性传递细节信息的同时又防止信息冗余带来的属性编辑能力下降的问题。
本申请构建互补自注意力模块,将其引入传统的生成器全卷积编解码结构中。通过互补自注意力模块区分属性编辑/非编辑区域,并对其分别进行信息增强,以同时加强属性编辑和细节保留能力。
本申请受益于AAM和CSAM机制这两种注意力机制,即多注意力机制,模型拥有强大的属性解耦能力,能有效防止目标属性之间的相互干扰,仅改变需要被改变的人脸图像区域。
附图说明
图1是基于多注意力机制的人脸属性编辑网络的示意图;
图2是AUC结构示意图;
图3是CSA机制示意图;
图4是MU-GAN及其他当前主流方法的部分生成样例;
图5是MU-GAN及其他当前主流方法的属性分类准确率对比。
具体实施方式
正如背景技术部分所述,如何平衡人脸属性编辑网络的细节保留能力和属性编辑能力仍然是亟待解决的问题。
具体的,申请人发现,现有的基于编解码结构的全卷积生成对抗网络人脸属性编辑方法主要存在以下问题:
现有方法在编解码器之间加入了跳跃直连(skip-connection),信息不经过筛选,直接连通编解码器两端。在编解码结构中加入跳跃直连在提高模型细节保留能力的同时也造成了信息冗余,降低了模型的属性操控能力。
除了上述技术问题,申请人还发现,现有的自注意(Self Attention,SA)机制仅增强注意力显著区域的特征向量,而抑制注意力不显著区域的特征。这样固然可以增强属性编辑能力,但却不利于背景细节的保留。而且,人脸属性标签中存在相关关系,如“性别”和“胡子”属性。现有方法难以对属性进行解耦,属性编辑经常会引起非目标属性改变。
针对上述基于编解码结构的全卷积生成对抗网络人脸属性编辑方法中存在的“在编解码结构中加入跳跃直连在提高模型细节保留能力的同时也造成了信息冗余,降低了模型的属性操控能力”这一技术问题,本申请提出了一种人脸属性编辑方法,具体提出了一种基于多注意力机制的人脸属性编辑网络,即Multi-attention U-Net GenerativeAdversarial Network,MU-GAN。如图1所示,本申请首先针对细节保留问题,在基于编解码器的生成对抗网络(Generative Adversarial Network,GAN)中采用对称的U型网络(U-Net)结构代替原有的非对称编解码器结构,保证编解码两端的潜空间信息容量对等,解决因为解码器通道数骤减而导致的潜空间信息丢失。而后在U-Net结构中,在原有的跳跃直连中加入加性注意力机制(Additive Attention Mechanism,AAM)构建基于注意力机制的U型网络连接(Attention U-Net Connection,AUC)模块,该模块对编码器特征进行选择性的传递,在获得各层级的细节信息同时防止信息冗余,进而平衡GAN的细节保留和人脸属性编辑能力。也就是说,在注意力机制的指导下选择性传递细节信息的同时又防止信息冗余带来的属性编辑能力下降的问题。可见,AUC模块用于筛选与属性无关的编码器细节特征,使之与解码器特征互补。
除了加性注意力机制,在编解码器的卷积层之间加入互补自注意力(Complementary Self Attention,CSA)层。也就说本本申请采用多注意力机制。CSA机制是卷积层的补充,有助于分割属性相关/无关区域,以针对性地加强属性编辑能力和细节保留能力。
此外,互补自注意力受益于自监督信号,有助于模型建模图像区域间长程、多层级的依赖关系。可以有效兼顾全局和局部特征,帮助GAN习得空间上的几何约束。可见,本申请采用多注意力机制训练人脸属性生成网络,让生成器生成的样本分布尽可能接近真实样本分布,其中,多注意力机制让模型拥有更强大的属性编辑、细节保留、结构约束和属性解耦能力。即本申请利用基于多注意力机制的人脸属性编辑网络对人脸图像进行属性编辑。
现有人脸属性编辑模型常采用基于编解码器的GAN,现将编码器记作Genc,解码器记作Gdec。带有属性标签a的人脸图像xa输入生成器中,此时编码器特征Fe可表示如下:
Fe=Genc(xa) (1)
Figure BDA0002553250520000071
其中
Figure BDA0002553250520000072
表示输入人脸图像经过第i个编码器层的输出编码特征。同理可得解码器特征Fd
Fd=Gdec(Fe) (3)
Figure BDA0002553250520000073
Fd经过代表解码器特征,各层级的编码器输出特征fe i经由解码器重建为人脸属性编辑图像。传统的方法,为了让生成结果有更丰富的细节信息,在编解码结构中加入了跳跃直连(skip-connection)。让对应层级的编/解码器相互连接,将编码器输出特征与解码器解码特征合并以解决编码过程导致的信息过度压缩。
以第i层为例,现有skip-connection结构如下:
Figure BDA0002553250520000074
公式中的[·,·]表示特征之间的合并操作。现有方法直接合并编/解码器特征,在简单地增强细节保留能力的同时,也造成了信息冗余。将编码器特征中有效信息与无效信息无差别地传递到解码器端,极大地制约了人脸属性编辑网络的属性编辑能力。
针对skip-connection无法选择性地传递编码器特征的问题,本申请提出了基于注意力机制的U型网络连接,记作AUC。其中AUC结构如图2所示,其具体结构介绍如下:
为了不失普遍性,取第l个编/解码层为例。第l层的编/解码器特征el/dl∈C×W×H,首先经过两个相互独立的线性转换Wq和Wk,被映射到两个线性空间q和
Figure BDA0002553250520000081
其中N=W×H。此处用i代表向量中的第i个位置的元素,AUC中的线性转换可由以下公式表示:
Figure BDA0002553250520000082
接着将
Figure BDA0002553250520000083
Figure BDA0002553250520000084
做矩阵加法并经过ReLU函数,获得加性相似度系数
Figure BDA0002553250520000085
最后,经过另一个先行转换Wt和Sigmoid函数得到了注意力图α。
Figure BDA0002553250520000086
Figure BDA0002553250520000087
其中注意力系数αi∈[0,1]代表了相应位置的图像特征的显著性,以选择性地传递细节信息,作为解码器特征的补充。让属性编辑和特征保留各取所需。
AUC模块的输出表示特征
Figure BDA0002553250520000088
如下:
Figure BDA0002553250520000089
最后将AUC模块的输出特征与解码器特征进行合并,选择性地增加模型的细节保留能力:
Figure BDA00025532505200000810
注意,当特征向量经过转置卷积时,特征图长、宽分别变为原来的2倍;因为先前的“通道合并”,特征通道数在输入转置卷积层之前已经加倍,所以经过卷积层后,通道数应变为原来的1/4。
现有的方法尝试在卷积层后加入自注意(Self Attention,SA)层,以弥补卷积核感受野受限的问题,对图像施加几何约束。然而,现有的SA层仅增强注意力显著区域的特征向量,而抑制注意力不显著区域的特征。这样固然可以增强属性编辑能力,但却不利于背景细节的保留。在SA层中,取前层卷积网络提取的图像特征
Figure BDA00025532505200000811
作为模块的输入,即Q和K。x经历两个线性变换,对特征进行降维,映射到相互独立的特征空间
Figure BDA00025532505200000812
Figure BDA00025532505200000813
对两路特征进行矩阵相乘得到向量bij并经过softmax函数,注意力系数矩阵β计算如下:
Figure BDA00025532505200000911
Figure BDA0002553250520000091
最后将注意力系数矩阵β与和v(x)做逐像素乘积,得到输出特征:
Figure BDA0002553250520000092
其中,
Figure BDA0002553250520000093
在本申请中提出了一种互补自注意(Complementary Self Attention,CSA)层,利用自信息以同时增强属性编辑和细节保留能力。其中CSA结构如图3所示。与SA相似,本方法取前层卷积网络提取的图像特征
Figure BDA0002553250520000094
作为模块的输入,即Q和K。x'经历两个线性变换,降维并映射到相互独立的特征空间
Figure BDA0002553250520000095
Figure BDA0002553250520000096
对两路特征进行矩阵相乘得到向量b′ij并经过softmax函数,注意力系数矩阵β'计算如下:
Figure BDA00025532505200000912
Figure BDA0002553250520000097
最后,不同的是,本申请中分别利用了自注意系数的掩膜β′ji和反掩膜(1-β′ji),将属性编辑区域与非编辑区域进行分割,并对两路特征进行通道合并,此处的输出特征尺寸为
Figure BDA0002553250520000098
将属性编辑相关的信息与属性无关信息分离,且保存在不同通道,有利于后续解码过程中各取所需,以兼顾属性编辑能力和细节保留能力:
Figure BDA0002553250520000099
其中,
Figure BDA00025532505200000910
是两个独立的线性变换。
可见,本申请提出了一种基于多注意力机制的人脸属性编辑网络。受益于多注意力机制,模型有强大的细节保留、属性编辑、几何约束和属性解耦能力,采用该方法训练人脸属性编辑网络,合成的人脸图像有更高的属性准确度和更逼真的图像质量,且更好地保留了与属性无关的人脸细节。
所以使用基于多注意力机制的人脸属性编辑器能够提升人脸属性编辑的精度和图像质量。在多注意力机制的帮助下,各属性的特征潜空间相互独立,能有效消除目标属性之间的相互干扰,达到属性解耦的目的。
针对上述基于编解码结构的全卷积生成对抗网络人脸属性编辑方法中的存在的技术问题,本申请提出了一种人脸属性编辑方法,具体地该方法中提出了一种基于多注意力机制的人脸属性编辑网络。本申请所述的人脸属性编辑方法与现有技术中方法的区别在于:1.采用了基于注意力机制的U型网络连接(AUC)编解码器两端,代替了原有的跳跃连接,在注意力机制的指导下选择性传递细节信息的同时又防止信息冗余带来的属性编辑能力下降的问题。2.构建互补自注意力模块,将其引入传统的生成器全卷积编解码结构中。通过互补自注意力模块区分属性编辑/非编辑区域,并对其分别进行信息增强,以同时加强属性编辑和细节保留能力。3.受益于AAM和CSAM机制这两种注意力机制,即多注意力机制,模型拥有强大的属性解耦能力,能有效防止目标属性之间的相互干扰,仅改变需要被改变的人脸图像区域。
即本申请具有以下优点:
1.本申请在基于编解码器的生成对抗网络的基础上提出多注意力机制的概念设计了AUC跃层连接模块,该模块与跳跃直连模块相比,能有针对性地传递与原标签无关的细节信息。
2.本申请在全卷积生成器结构中引入CSA机制,增强了GAN对全局多层级长程依赖的建模能力,让生成的人脸属性编辑结果更符合几何约束。
3.本申请采用多注意力机制协同引导人脸属性编辑,使模型具有属性解耦能力。
4.本申请可以使用端到端(end-to-end)的方式训练,并在人脸数据集CelebA上取得优秀的结果。在人脸属性编辑任务上的定性和定量结果,显示了其优于基准模型的优势。
为了证明本申请提出人脸属性编辑方法的优点,下面进行实验分析:
定性实验:
将本申请和现有的AttGAN与STGAN进行比较,AttGAN与STGAN的结果均来自官方实现的模型,定性实验的结果如图4所示。总体来说,AttGAN生成的图像一定程度上存在伪影,模糊等问题,而本申请提出的模型的结果则更加真实,接近真实样本。人脸属性编辑要义的另一种解释是,仅改变需要改变的人脸属性。细节的保留分为两种,一种是视觉空间区域上的细节保留,主要体现形式是图像细节的细腻程度;一种是抽象语义上的属性解耦合,防止属性之间的相互影响,导致其他无关属性发生改变。
首先从图4中可以看出,本申请提出的方法较其他模型更优,主要体现在图像有更好的真实度,和细节保真度,对照组图像则显得更加平滑模糊。可能的原因是模型采用类U-Net结构,形成编解码器特征互补。
其次本申请提出的模型能有效地应对属性之间的干扰,对属性间的相关关系进行解耦。如图4所示,因为男性群体普遍为短发、而女性长发居多,性别属性变化时,对照组中常出现头发长度变化。然而在本申请提出的模型中很好地对属性进行了解耦合,排除了样本中其他属性对目标属性的干扰。
接着本申请提出的模型具有更强的结构约束性,能够更加清晰地区分属性相关的空间区域。现有技术的方法在属性操控能力上仍然有局限性,在对全局级别的属性(如黑、金黄、棕色发色,肤色)进行编辑时,在对照组的生成样本中,当背景与发色接近的时候,网络常常会将背景识别为头发,导致产生严重的伪影;或者当处理肤色属性时,提出的模型能更好地分割面部和背景,而不是只是简单地将图像中心部分涂白。
定量实验:
在人脸属性迁移任务中,生成图像质量主要表现在生成结果是否真实,原图像是否准确地从原域迁移到目标域。采用属性迁移准确率,图像真实度两项指标对属性迁移图像进行定量分析。属性迁移准确率指标通过多标签分类网络对生成图像进行属性分类。按照本申请提出模型同样的数据集划分方式,首先将CelebA数据集,分为训练集和测试集。使用一个改进的ResNet模型在训练集上训练,在训练集上达到94.79%的属性分类准确率,其中ResNet由三个卷积块组[3,4,6]构成,经由一个平均池化层后与13个独立的由两个线性层组成的分类器连接。AttGAN、STGAN和MU-GAN在CelebA数据集上的属性迁移准确率如图5所示,属性分类结果表明,除了性别属性外,提出的模型在其他属性分类准确率上超越了相关工作。如表1所示,平均准确率达到89.15%,相比AttGAN的83.91%和STGAN的84.89%有较大的提升。除了性别属性,其他属性分类准确率都要优于原模型,尤其是眼镜属性上相比其他模型有了较大的提升,这也侧面地说明了模型对空间约束能力更加出众,能更精准地区分出图像中与目标属性相关的区域。
表1.CelebA数据集上属性编辑结果的分类准确率
Method AttGAN STGAN MU-GAN
Average Accuracy 83.91 84.89 89.15
衡量图像真实度的评价指标是峰值信噪比和结构相似度(PSNR/SSIM)。利用原图像利用原标签a生成重建图像
Figure BDA0002553250520000122
并将其与原图像xa进行比较,计算得出的PSNR/SSIM值如表2所示。结果表明提出的模型中的对称attention U-Net编解码结构有助于图像的细节保留,对比AttGAN有较大的提升。AUC结构能保留更多图像细节,生成更细腻、更高质量的重建图像。
表2.重建图像的PSNR/SSIM
Figure BDA0002553250520000121
本说明书中各个部分采用递进的方式描述,每个部分重点说明的都是与其他部分的不同之处,各个部分之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims (3)

1.一种基于多注意力机制的人脸属性编辑网络,包括基于编解码器结构的生成器和共享权值的真伪/属性分类鉴别器,其特征在于,包括基于编解码器结构的生成器和共享权值的真伪/属性分类鉴别器,所述网络结构为:
在基于编解码器的生成对抗网络(Generative Adversarial Network,GAN)中采用对称的U型网络(U-Net)结构代替原有的非对称编解码器结构,保证编解码两端的潜空间信息容量对等,以解决因为解码器通道数骤减而导致的潜空间信息丢失;
在U-Net结构中,在原有的跳跃直连中加入加性注意力机制(Additive AttentionMechanism,AAM)构建基于注意力机制的U型网络连接(Attention U-Net Connection,AUC)模块,该模块对编码器特征进行选择性的传递,在获得各层级的细节信息同时防止信息冗余,进而平衡GAN的细节保留和人脸属性编辑能力;
在编解码器的卷积层之间加入互补自注意力(Complementary Self Attention,CSA)层,CSA层是卷积层的补充,分别利用了自注意系数的掩膜β'ji和反掩膜(1-β'ji),将属性编辑区域与非编辑区域进行分割,有助于分割属性相关/无关区域,以针对性地加强属性编辑能力和细节保留能力。
2.根据权利要求1所述的人脸属性编辑网络,其特征在于,所述在基于编解码器的生成对抗网络中采用对称的U型网络结构代替原有的非对称编解码器结构,保证编解码两端的潜空间信息容量对等,以解决因为解码器通道数骤减而导致的潜空间信息丢失;
在U-Net结构中,在原有的跳跃直连中加入加性注意力机制构建基于注意力机制的U型网络连接模块,该模块对编码器特征进行选择性的传递,在获得各层级的细节信息同时防止信息冗余,进而平衡GAN的细节保留和人脸属性编辑能力,在网络中的具体表示如下:
第l层的编/解码器特征el/dl∈C×W×H,首先经过两个相互独立的线性转换wq和wk,被映射到两个线性空间q和
Figure FDA0002553250510000011
其中N=W×H。此处用i代表向量中的第i个位置的元素,AUC中的线性转换可由以下公式表示:
Figure FDA0002553250510000021
接着将
Figure FDA0002553250510000022
Figure FDA0002553250510000023
做矩阵加法并经过ReLU函数,获得加性相似度系数
Figure FDA0002553250510000024
最后,经过另一个先行转换Wt和Sigmoid函数得到了注意力图α。
Figure FDA0002553250510000025
Figure FDA0002553250510000026
其中注意力系数αi∈[0,1]代表了相应位置的图像特征的显著性,以选择性地传递细节信息,作为解码器特征的补充。让属性编辑和特征保留各取所需。
AUC模块的输出表示特征
Figure FDA0002553250510000027
如下:
Figure FDA0002553250510000028
最后将AUC模块的输出特征与解码器特征进行合并,选择性地增加模型的细节保留能力:
Figure FDA0002553250510000029
3.根据权利要求1所述的人脸属性编辑网络,其特征在于,所述在编解码器的卷积层之间加入互补自注意力层,CSA层是卷积层的补充,分别利用了自注意系数的掩膜β'ji和反掩膜(1-β'ji),将属性编辑区域与非编辑区域进行分割,有助于分割属性相关/无关区域,以针对性地加强属性编辑能力和细节保留能力,在网络中的具体表示如下:
对两路特征进行矩阵相乘并经过softmax函数,注意力系数矩阵β'计算如下:
Figure FDA00025532505100000210
Figure FDA00025532505100000211
本申请中分别利用了自注意系数的掩膜β'ji和反掩膜(1-β'ji),将属性编辑区域与非编辑区域进行分割,并对两路特征进行通道合并,此处的输出特征尺寸为
Figure FDA0002553250510000031
将属性编辑相关的信息与属性无关信息分离,且保存在不同通道,有利于后续解码过程中各取所需,以兼顾属性编辑能力和细节保留能力:
Figure FDA0002553250510000032
其中,
Figure FDA0002553250510000033
是两个独立的线性变换。
CN202010583325.2A 2020-06-23 2020-06-23 一种基于多注意力机制的人脸属性编辑网络 Active CN111860186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010583325.2A CN111860186B (zh) 2020-06-23 2020-06-23 一种基于多注意力机制的人脸属性编辑网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010583325.2A CN111860186B (zh) 2020-06-23 2020-06-23 一种基于多注意力机制的人脸属性编辑网络

Publications (2)

Publication Number Publication Date
CN111860186A true CN111860186A (zh) 2020-10-30
CN111860186B CN111860186B (zh) 2022-04-12

Family

ID=72989727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010583325.2A Active CN111860186B (zh) 2020-06-23 2020-06-23 一种基于多注意力机制的人脸属性编辑网络

Country Status (1)

Country Link
CN (1) CN111860186B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699727A (zh) * 2020-11-17 2021-04-23 南京理工大学 一种联合反射注意力和自注意力机制的道路水体检测方法
CN112734873A (zh) * 2020-12-31 2021-04-30 北京深尚科技有限公司 对抗生成网络的图像属性编辑方法、装置、设备及介质
CN113239784A (zh) * 2021-05-11 2021-08-10 广西科学院 一种基于空间序列特征学习的行人重识别系统及方法
CN113408673A (zh) * 2021-08-19 2021-09-17 联想新视界(南昌)人工智能工研院有限公司 生成对抗网络子空间解耦和生成编辑方法、系统及计算机
CN113724340A (zh) * 2021-07-09 2021-11-30 北京工业大学 基于跳跃连接注意力的引导式人脸图像编辑方法及系统
CN113780209A (zh) * 2021-09-16 2021-12-10 浙江工业大学 一种基于注意力机制的人脸属性编辑方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344920A (zh) * 2018-12-14 2019-02-15 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN110288537A (zh) * 2019-05-20 2019-09-27 湖南大学 基于自注意力的深度生成式对抗网络的人脸图像补全方法
CN111275613A (zh) * 2020-02-27 2020-06-12 辽宁工程技术大学 一种引入注意力机制生成对抗网络人脸属性编辑方法
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344920A (zh) * 2018-12-14 2019-02-15 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN110288537A (zh) * 2019-05-20 2019-09-27 湖南大学 基于自注意力的深度生成式对抗网络的人脸图像补全方法
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN111275613A (zh) * 2020-02-27 2020-06-12 辽宁工程技术大学 一种引入注意力机制生成对抗网络人脸属性编辑方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOXIA SONG ET AL.: "Face attribute editing based on generative adversarial networks", 《SIGNAL, IMAGE AND VIDEO PROCESSING》 *
包仁达 等: "基于区域敏感生成对抗网络的自动上妆算法", 《软件学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699727A (zh) * 2020-11-17 2021-04-23 南京理工大学 一种联合反射注意力和自注意力机制的道路水体检测方法
CN112699727B (zh) * 2020-11-17 2022-10-28 南京理工大学 一种联合反射注意力和自注意力机制的道路水体检测方法
CN112734873A (zh) * 2020-12-31 2021-04-30 北京深尚科技有限公司 对抗生成网络的图像属性编辑方法、装置、设备及介质
CN112734873B (zh) * 2020-12-31 2023-10-03 北京慧美未来科技有限公司 对抗生成网络的图像属性编辑方法、装置、设备及介质
CN113239784A (zh) * 2021-05-11 2021-08-10 广西科学院 一种基于空间序列特征学习的行人重识别系统及方法
CN113724340A (zh) * 2021-07-09 2021-11-30 北京工业大学 基于跳跃连接注意力的引导式人脸图像编辑方法及系统
CN113408673A (zh) * 2021-08-19 2021-09-17 联想新视界(南昌)人工智能工研院有限公司 生成对抗网络子空间解耦和生成编辑方法、系统及计算机
CN113780209A (zh) * 2021-09-16 2021-12-10 浙江工业大学 一种基于注意力机制的人脸属性编辑方法
CN113780209B (zh) * 2021-09-16 2024-02-02 浙江工业大学 一种基于注意力机制的人脸属性编辑方法

Also Published As

Publication number Publication date
CN111860186B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN111860186B (zh) 一种基于多注意力机制的人脸属性编辑网络
Sun et al. Learning pooling for convolutional neural network
CN111932444A (zh) 基于生成对抗网络的人脸属性编辑方法及信息处理终端
CN112307332B (zh) 基于用户画像聚类的协同过滤推荐方法、系统及存储介质
Ruiz et al. Learning disentangled representations with reference-based variational autoencoders
CN113407663B (zh) 基于人工智能的图文内容质量识别方法和装置
CN116844179A (zh) 基于多模态交叉注意力机制图文融合的情感分析方法
Zhu et al. Commutative lie group vae for disentanglement learning
Tan et al. Unsupervised multi-view clustering by squeezing hybrid knowledge from cross view and each view
Yue et al. Multiple auxiliary information based deep model for collaborative filtering
Meng et al. An online riemannian pca for stochastic canonical correlation analysis
Liu et al. Image feature selection embedded distribution differences between classes for convolutional neural network
Cheng et al. Multi-view multi-label learning with view feature attention allocation
Ahmad et al. Understanding GANs: fundamentals, variants, training challenges, applications, and open problems
Kapusniak et al. Metric Flow Matching for Smooth Interpolations on the Data Manifold
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质
Huang Image super-resolution reconstruction based on generative adversarial network model with double discriminators
Zhou et al. Anchor-based scalable multi-view subspace clustering
Zhao et al. Anomaly detection for images using auto-encoder based sparse representation
Yang et al. Robust anchor-based multi-view clustering via spectral embedded concept factorization
Ni et al. Natural Image Reconstruction from fMRI Based on Self-supervised Representation Learning and Latent Diffusion Model
Qiu et al. Superpixel-wise contrast exploration for salient object detection
CN113688258A (zh) 一种基于柔性多维聚类的信息推荐方法及系统
Guo et al. Multiview nonlinear discriminant structure learning for emotion recognition
Pernuš et al. ChildNet: Structural Kinship Face Synthesis Model With Appearance Control Mechanisms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant