CN114494529A - 一种基于代价敏感学习的人脸属性编辑方法 - Google Patents

一种基于代价敏感学习的人脸属性编辑方法 Download PDF

Info

Publication number
CN114494529A
CN114494529A CN202210006417.3A CN202210006417A CN114494529A CN 114494529 A CN114494529 A CN 114494529A CN 202210006417 A CN202210006417 A CN 202210006417A CN 114494529 A CN114494529 A CN 114494529A
Authority
CN
China
Prior art keywords
image
attribute
network
editing
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210006417.3A
Other languages
English (en)
Inventor
张亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Yangtze River Delta Research Institute of UESTC Huzhou
Priority to CN202210006417.3A priority Critical patent/CN114494529A/zh
Publication of CN114494529A publication Critical patent/CN114494529A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/63Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor by the player, e.g. authoring using a level editor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

该发明公开了一种基于代价敏感学习的人脸属性编辑方法,属于计算机视觉领域。该方法首先选择使用生成对抗网络作为基本框架,在训练生成对抗网络时结合代价敏感学习的思想,分别为判别器和生成器的引入了具有代价敏感的损失函数,其中包含错分代价和错误编辑代价。引入错分代价的目的是为了让判别器能够不受不平衡的数据集的影响,公平的去区分每一个人脸属性,从而能够更好的指导生成器编辑人脸属性的效果。在训练好生成对抗网络后,通过往生成器中输入原始人脸图像和属性编辑向量即可得到编辑后的人脸图像。从训练公平性的角度出发,本发明充分利用了代价敏感学习和生成对抗网络的优势,提高了现有人脸属性编辑模型的属性编辑成功率。

Description

一种基于代价敏感学习的人脸属性编辑方法
技术领域
本发明属于计算机视觉领域,主要涉及真实世界中的人脸属性编辑的问题;主要应用于影视娱乐产业,人机交互以及机器视觉理解等方面。
背景技术
目前,影视娱乐,人机交互,计算机视觉等领域,对图像的生成与属性编辑的需求越来越大。例如:在角色扮演游戏中,玩家可以根据喜好控制参数生成人物头像;在早期教育中,可以根据文本生成匹配的图像,利用图像引导幼儿认识世界的多彩多样;在目前流行的短视频平台中,用户可以使用平台提供的图像编辑技术来修改视频中人脸的头发颜色,眼睛大小等属性,获得更有趣味性的使用体验。其中,人脸属性编辑的目的是操作给定人脸上的单个或多个属性,在保留其他细节的同时生成具有所需属性的新人脸图像。生成对抗网络(GAN,Generative Adversarial Networks)由于具有计算量小,生成图像质量高,模型构造简单等优点,通常被引用到人脸属性编辑任务当中。
近年来,许多基于GAN的人脸属性编辑模型被提出。AttGAN在GAN的基础上引入了编码器-解码器结构,以原始图像以及目标属性向量作为输入来控制GAN的生成器编辑图像,在人脸属性编辑任务上取得了良好的效果。参考文献:He,Z.,Zuo,W.,Kan,M.,Shan,S.,&Chen,X.(2019).Attgan:Facial attribute editing by only changing what youwant.IEEE transactions on image processing,28(11),5464-5478.但由于编码器-解码器结构存在下采样操作,会不可避免地损失一些图片信息,造成编辑后的图像模糊和丢失细节。在AttGAN的基础上,STGAN将选择性转移单元融入编码器-解码器结构中,以同时提高属性操作能力和编辑后的图像质量。参考文献:Liu,M.,Ding,Y.,Xia,M.,Liu,X.,Ding,E.,Zuo,W.,&Wen,S.(2019).STGAN:A unified selective transfer network for arbitraryimage attribute editing.In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition(pp.3673-3682).
现存的人脸属性编辑方法主要通过改进模型结构以及损失函数来提升属性编辑的准确率和编辑图像的质量。但由于训练数据集的人脸属性分布不均匀,导致属性编辑的效果容易受到影响,例如CelebA数据集中的人脸具有秃头属性的情况十分少见,AttGAN、STGAN等经过该数据集训练的模型在修改人脸的秃头属性时都出现了编辑后人脸的秃头属性没有改动或编辑质量不佳的现象。
目前的深度学习模型大都是由数据驱动,所以数据的好坏直接影响了深度学习模型的性能。由于分布不平衡的数据集,例如数据集中的样本的类别,属性分布不均衡,造成的深度模型公平性问题,如对人的种族、性别、年龄等的歧视引起了广泛的社会争议。均衡数据集的不平衡,消除模型潜在的属性歧视,构建公平的深度模型是推动人工智能进一步得到广泛应用的关键环节。参考文献:Tan,S.,Shen,Y.,&Zhou,B.(2020).Improving theFairness of Deep Generative Models without Retraining.arXiv preprint arXiv:2012.04842.
代价敏感学习是指为不同类别的样本提供不同的权重,从而让深度学习模型进行学习的一种方法,可以很好的用来解决数据集的样本类别分布不均衡对模型性能的影响。本发明为了消除类别分布不平衡的数据集对人脸属性编辑模型的编辑效果的影响,基于代价敏感学习提出了一种可以公平训练人脸属性编辑模型的方法,取得了出色的效果。
发明内容
本发明是一种基于代价敏感学习的人脸属性编辑方法,以生成对抗网络为基础模型,结合代价敏感学习,解决现有技术中由于数据集的样本分布不平衡而造成属性编辑效果受影响的问题。
该方法首先选择使用生成对抗网络作为人脸编辑模型,并对训练图片进行归一化和缩放裁剪至128*128*3的大小,以原始人脸图像和属性标签作为输入,生成128*128*3的大小的编辑人脸图像。该方法借鉴了代价敏感学习的思想,在训练生成对抗网络的时候,为不同的输入样本设置不同的损失函数的权重,从而让人脸编辑模型公平的学习对各个人脸属性的编辑操作。本发明从公平性训练的角度出发,提出了两个改进措施来均衡数据集的不平衡对属性编辑模型的影响:1)在训练生成对抗网络的判别器时,为数据集中分布概率低的人脸属性赋予更高的损失权重,以保证判别器能够公平的学习区分出每个人脸属性;2)在训练生成对抗网络的生成器时,为发生概率低的属性编辑操作赋予更高的损失权重,以保证生成器能够公平的去编辑每个人脸属性。通过上述方法,本发明充分利用了代价敏感学习和生成对抗网络的优势,提高了现有人脸属性编辑方法的属性编辑准确性和编辑人脸图像质量。
为了方便地描述本发明内容,首先对一些术语进行定义。
定义1:生成对抗网络。生成对抗网络包含两个不相同的神经网络,一个称为生成器G,另一个称为判别器D,这两个神经网络在训练过程中相互对抗,判别器的目的是区分真实数据分布pr和生成数据分布pg,而生成器的目的则是不让判别器将这两个分布区分开来,最终使得生成数据分布和真实数据分布一致:pr=pg
定义2:代价敏感学习。在代价敏感学习中,代价的定义问题是首要解决的问题之一,本发明主要关注的是错分代价
Figure BDA0003456975480000021
和错误编辑代价
Figure BDA0003456975480000022
M为人脸属性个数,且每个人脸属性只有两种状态:0代表不存在,1代表存在。其中错分代价Ci1是指将第i个人脸属性由0错误分类为1的代价,Ci2是指将第i个人脸属性由1错误分类为0的代价;错误编辑代价Ai1是对第i个人脸属性发生错误编辑的代价,错误编辑代价Ai2是未对人脸的第i个属性发生编辑的代价。
定义3:批归一化层。这是一个深度神经网络训练的技巧,就是对每一批数据进行归一化,它不仅可以加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中“梯度弥散”的问题,从而使得训练深层网络模型更加容易和稳定。
定义4:实例归一化层。这是一个经常被用在风格迁移任务中的深度神经网络训练的技巧,就是对每一个图像样本的每一个通道单独进行归一化。可以加速模型收敛,并且保持每个图像样本之间的独立。
定义5:ReLU激活层。又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数,表达式为f(x)=max(0,x)
定义6:Tanh激活层。可以用表达式Tanh(x)=(ex-e-x)/(ex+e-x)定义。
定义7:U-net网络。UNet是著名的图像分割网络,包括三部分:编码器和解码器以及对称跳跃连接。其中编码器通过卷积和下采样来降低图像的尺寸,逐级提取浅层的图像特征;编码器则通过卷积和上采样来恢复图像的尺寸,并逐级提取深层的图像特征;跳跃连接则是把编码器提取的浅层图像特征与解码器中对称的深层图像特征进行连接。
定义8:选择性转移单元(Selective TransferUnits,STU)。STU是一种门控循环单元(Gate Recurrent Unit,GRU)的变体,由STGAN提出。门控循环单元是循环神经网络的一种,和LSTM(Long-Short Term Memory)一样,是为了解决长期记忆和反向传播中的梯度等问题而提出来的,但它较LSTM网络的结构更加简单,而且效果也很好。
定义9:属性编辑成功率。属性编辑成功率是用来衡量人脸属性编辑模型的属性修改能力。这里我们在CelebA数据集上训练了一个人脸属性分类器来判断生成的人脸的属性。该属性分类器在CelebA数据集上进行训练,在CelebA测试集上,每个属性的准确率达到了94.5%。
因而本发明技术方案为一种基于训练公平性的人脸属性编辑模型,该方法包括:
步骤1:对数据集进行预处理;
获取真实人脸图像,并将这些真实图像按照其中人脸显示的属性进行标注,对所有图片像素值进行归一化;
步骤2:构建生成对抗网络的判别器网络和生成器网络;
1)判别器网络构建
判别器网络输入为图片,输出为一个标量和一个向量;判别器网络D分为三个模块:特征提取模块De、对抗损失模块Dadv和属性分类模块Dcls;特征提取模块De的输入为图片,输出为图片的特征向量,特征提取模块De由5层卷积网络块依次连接而成;对抗损失模块Dadv的输入为特征提取模块De提取的特征,输出为标量,值越大表示图像越真实,对抗损失模块D2采用两层线性网络块构成;属性分类模块Dcls的输入为特征提取模块De的提取的特征,输出为属性分类向量,属性分类模块Dcls由两层线性网络块构成。网络总结结构参见图1,卷积网络块参见图2,转置卷积网络块结构参见图3,线性网络块参见图4;
2)生成器网络构建
生成器网络输入为原始图像和图像的属性编辑向量,输出为属性编辑后图像;生成器网络G主要由三个部分构成:编码器模块Genc、解码器模块Gdec、滤波模块GF。其中编码器模块Genc的输入原始图像,输出为图像特征,由5层卷积网络块依次连接而成;解码器模块Gdec的输入为图像特征和图像的过滤特征,输出为编辑后人脸图像,由5层转置卷积网络块依次连接而成,并且编码器和解码器之间采用了Unet网络中的对称跳跃连接;滤波模块GF的输入为图像特征,输出为图像的过滤特征,采用STU结构构成,主要用于选择性过滤编码器和解码器之间的对称跳跃连接中传递的图像特征。
步骤3:设计人脸属性编辑模型训练过程中的属性编辑操作;
本发明采取小批量梯度下降算法对模型进行优化,分批次向模型输入数据集中的N个图像样本一属性标签对:(x,l),属性标签l是一个长度为M二进制向量,每一位的0或1分别表示对应属性的无或有。属性编辑向量构造方式如下:以图像样本x本身的属性标签作为它的原始标签ls,并为每个图像样本x随机挑取其他图像样本的属性标签作为目标属性标签lt,以保证属性编辑操作不会存在冲突,以Δl=lt-ls作为图像x的属性编辑向量。当Δli=1时,表示为图像x增加第i个属性;当Δli=0时,表示不改变图像x的第i个属性;当Δli=-1时,表示为图像x去掉第i个属性。属性编辑向量构造方式参见图5。
步骤4:设计错分代价和错误编辑代价
1)统计数据集中的人脸属性分布概率P=[p1p2…pM]:其中M为人脸属性个数,第i个属性在数据集中的分布概率为
Figure BDA0003456975480000041
其中
Figure BDA0003456975480000042
i=1,2,...,M表示第i个属性在数据集中出现的次数,Ndata为数据集的样本数量。然后根据人脸属性的分布概率P可以计算得到训练过程中第i个属性发生编辑的概率为2pi(1-pi)。
2)计算错分代价
Figure BDA0003456975480000043
其中将第i个属性由1分类为0的代价为Ci1=1/pi;将第i个属性由0分类为1的代价为Ci2=1/(1-pi)。即可得
Figure BDA0003456975480000044
3)计算错误编辑代价
Figure BDA0003456975480000045
当未对图像的第i个属性进行编辑时,而发生了错误编辑的代价为Ai1=1/(1-2pi(1-pi));当对图像的第i个属性进行编辑时,而未发生编辑的代价为Ai2=1/(2pi(1-pi))。即可得到
Figure BDA0003456975480000046
步骤5:设计损失函数;
1)从训练公平性角度出发,针对判别器网络设计损失函数,以均衡不平衡数据集的影响:设由生成器编辑后的图像xg~pg,pg为生成器拟合的图像分布。设真实图像——属性标签对(xr,lr)~pdata,pdata为真实图像数据集的分布。利用判别器的特征提取模块De来提取查询图像xr的图像特征:fr=De(xr),将真实图像的特征fr送到判别器的对抗损失模块Dadv中计算图像的真实度估计:Dadv(xr)。按照上述过程,可以得到生成图像xg的真实度估计Dadv。这样可以构造生成对抗网络的判别器的对抗损失:
Figure BDA0003456975480000051
其中,Dadv(xg)表示判别器的对抗损失模块对编辑图像的输出值,输出值越大表明编辑图像越真实,
Figure BDA0003456975480000052
表示对该输出值的期望,Dadv(xr)表示判别器的对抗损失模块对编辑图像的输出值,
Figure BDA0003456975480000053
表示对该输出值的期望。
Figure BDA0003456975480000054
即分布
Figure BDA0003456975480000055
为数据集分布pr和生成图像分布pg的线性混合,∈*表示线性混合系数,
Figure BDA0003456975480000056
表示判别函数关于混合图像求梯度,
Figure BDA0003456975480000057
为梯度惩罚项,用来约束判别器模型的参数符合lipschitz连续条件,λgp为梯度惩罚系数。
将真实图像的特征fr送到判别器的属性分类模块Dcls中预测图像的属性分类,输出表示为Dcls(xr)。结合步骤4的2)中计算得到的错分代价C,可以为判别器构造具有代价敏感的分类损失函数:
Figure BDA0003456975480000058
其中,Dcls(xr)表示判别器的属性分类模块对原始图像xr *的属性预测向量,
Figure BDA0003456975480000059
表示对图像xr的第i个属性的预测值,要求与原始属性标签的第i个分量
Figure BDA00034569754800000513
越一致越好。所以,判别器的总损失函数为:
Figure BDA00034569754800000510
其中,
Figure BDA00034569754800000511
为判别器的对抗损失,
Figure BDA00034569754800000512
为判别器的分类损失,λcls为属性分类损失函数的权重。
2)从训练公平性角度出发,针对生成器网络设计损失函数,以均衡不平衡数据集的影响:设从数据集中抽取的原始图像——属性标签对为(xs,ls)~pdata,同时按照步骤3的方法为每一张图片抽取目标属性标签lt,构造属性编辑向量Δl。首先利用生成器的编码器提取原始图像的特征fs=Denc(xs),将原始图像特征fs和属性编辑向量Δl进行拼接得到带有条件的图像特征ft,将原始图像特征fs和0向量(长度为M)进行拼接得到不带条件的图像特征fr以用于图像重建。然后分别将ft,fr送入滤波模块DF中得到过滤特征f′t,f′r,然后将图像特征和过滤特征送入解码器Ddec中,分别得到编辑人脸图像xt=Ddec(ft,f′t)和重建人脸图像xr=Ddec(fr,f′r),为了方便表示,这里简记为xt=G(xs,Δl),xr=G(xs,0)。然后按照步骤5的1)中的过程得到编辑人脸xt的真实度Dadv(xt),然后构造生成器的对抗损失函数:
Figure BDA0003456975480000061
其中,G(xs,Δl)为生成器关于属性编辑向量Δl对原始图像xs进行编辑后的图像,D(G(xs,Δl))为判别器关于编辑图像xt=G(xs,Δl)的真实度预测值,该值越高,表明编辑后图像越真实;
Figure BDA0003456975480000062
表示对编辑后图像xt的真实度的数学期望。
按照步骤5的1)中的过程得到编辑人脸xt的属性预测向量Dcls(xt),结合步骤4的3)中计算的错误编辑代价A,构造生成器的属性编辑损失函数:
Figure BDA0003456975480000063
其中,1[·]为指示函数,当Δl=0时,1[Δl]=1,即Ail[Δl]=Ai1;当Δl≠0时,1[Δl]=2,即Ai[Δl]=Ai2。Dcls(xt)表示判别器的属性分类模块对编辑人脸xt的属性预测向量,
Figure BDA0003456975480000064
表示对图像xt的第i个属性的预测值,要求与目标属性标签的第i个分量
Figure BDA0003456975480000065
越一致越好。
同时,为了保证生成器G能够保留人脸的基本信息,要求重建人脸图像xr=G(xs,0)和原始人脸图像xs越一致越好,构造生成器的图像重建损失函数:
Figure BDA0003456975480000066
其中,||·||1为矩阵1范数,当重建图像xr=G(xs,0)与原始图像xs的每个像素点的取值越一致的时候,||xs-G(xs,0)||1越小。所以,生成器的总损失函数为:
Figure BDA0003456975480000067
其中,λop为属性编辑损失的权重,λrec为图像重建损失的权重。
步骤6:训练步骤2中构建的生成对抗神经网络,利用步骤5构建的损失函数进行网络训练,在更新生成器网络G时固定判别器网络D的参数,而更新判别器网络D时则固定生成器网络G的参数,每次迭代更新判别器5次然后更新生成器一次;
步骤7:采用训练完成的生成器网络G来对测试集中的人脸图像进行属性编辑,并用属性编辑成功率来衡量本发明提出的模型的属性编辑效果。测试结果参见图6。
本文的创新之处在于:
1)首次在人脸属性编辑任务中引入了训练公平性的概念,根据数据集中样本属性的统计特性对模型训练过程的损失进行均衡,以消除样本分布不平衡的数据集对模型的影响。
2)本发明结合代价敏感学习的思想,为生成对抗网络的判别器构造了带有代价敏感的属性分类损失函数,以约束判别器能够公平的区分每个人脸属性的状态。
3)本发明结合代价敏感学习的思想,为生成对抗网络的生成器构造了带有代价敏感的属性编辑损失函数,以约束生成器能够公平的去编辑每个人脸属性,同时尽可能的保留未要求编辑的人脸属性。最后在CelebA数据集上验证本发明提出的方法,结果显示本发明提出的方法的人脸属性编辑成功率相较于之前的工作有了显著提高。
附图说明
图1为本发明方法主要流程图。
图2为本发明方法的卷积网络块结构图。(a)为生成器中的卷积网络块,(b)为判别器中的卷积网络块。
图3为本发明方法的转置卷积网络结构图。
图4为本发明方法的线性网络结构图
图5为本发明方法构造属性编辑向量的示意图。
图6为本发明方法的实验结果图。
具体实施方式
步骤1:对数据集进行预处理;
获取CelebA数据集(http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html),CelebA数据集[34]包含10177个名人身份的202599张人脸图片,每张图片都做好了40个二元属性标记,例如是否有眼镜、刘海、胡须等。本文将图像缩放并裁剪为128*128*3的像素尺寸,选择其中的182000张人脸图像和属性标签作为训练数据集,将另外20000张人脸图像和属性标签作为测试数据集,随机打乱训练顺序,最后对图片像素值进行归一化至范围[-1,1]。
步骤2:构建生成对抗网络的生成器网络和判别器网络;
1)判别器网络构建
判别器网络输入为图片,输出为一个标量和一个向量;判别器网络D分为三个模块:特征提取模块De、对抗损失模块Dadv和属性分类模块Dcls;特征提取模块De的输入为图片,输出为图片的特征向量,特征提取模块De由5层卷积网络块依次连接而成;对抗损失模块Dadv的输入为特征提取模块De提取的特征,输出为标量,值越大表示图像越真实,对抗损失模块D2采用两层线性网络块构成;属性分类模块Dcls的输入为特征提取模块De的提取的特征,输出为属性分类向量,属性分类模块Dcls由两层线性网络块构成。网络总结结构参见图1,卷积网络块参见图2,转置卷积网络块结构参见图3,线性网络块参见图4;
2)生成器网络构建
生成器网络输入为原始图像和图像的属性编辑向量,输出为属性编辑后图像;生成器网络G主要由三个部分构成:编码器模块Genc、解码器模块Gdec、滤波模块GF。其中编码器模块Genc的输入原始图像,输出为图像特征,由5层卷积网络块依次连接而成;解码器模块Gdec的输入为图像特征和图像的过滤特征,输出为编辑后人脸图像,由5层转置卷积网络块依次连接而成,并且编码器和解码器之间采用了Unet网络中的对称跳跃连接;滤波模块GF的输入为图像特征,输出为图像的过滤特征,采用STU结构构成,主要用于选择性过滤编码器和解码器之间的对称跳跃连接中传递的图像特征。
步骤3:设计人脸属性编辑模型训练过程中的属性编辑操作;
本发明采取小批量梯度下降算法对模型进行优化,分批次向模型输入数据集中的N个图像样本-属性标签对:(x,l),属性标签l是一个长度为M二进制向量,每一位的0或1分别表示对应属性的无或有。属性编辑向量构造方式如下:以图像样本x本身的属性标签作为它的原始标签ls,并为每个图像样本x随机挑取其他图像样本的属性标签作为目标属性标签lt,以保证属性编辑操作不会存在冲突,以Δl=lt-ls作为图像x的属性编辑向量。当Δli=1时,表示为图像x增加第i个属性;当Δli=0时,表示不改变图像x的第i个属性;当Δli=-1时,表示为图像x去掉第i个属性。属性编辑向量构造方式参见图5。
步骤4:设计错分代价和错误编辑代价
1)首先统计数据集中的人脸属性分布概率P=[p1,p2,...,pM],其中M为人脸属性个数,第i个属性在数据集中的分布概率为
Figure BDA0003456975480000081
其中
Figure BDA0003456975480000082
i=1,2,...,M表示第i个属性在数据集中出现的次数,Ndata为数据集的样本数量。然后根据人脸属性的分布概率P可以计算得到训练过程中第i个属性发生编辑的概率为2pi(1-pi)。
2)计算错分代价
Figure BDA0003456975480000083
其中将第i个属性由1分类为0的代价为Ci1=1/pi;将第i个属性由0分类为1的代价为Ci2=1/(1-pi)。即可得
Figure BDA0003456975480000084
3)计算错误编辑代价
Figure BDA0003456975480000085
当未对图像的第i个属性进行编辑时,而发生了错误编辑的代价为Ai1=1/(1-2pi(1-pi));当对图像的第i个属性进行编辑时,而未发生编辑的代价为Ai2=1/(2pi(1-pi))。即可得到
Figure BDA0003456975480000086
步骤5:设计损失函数;
1)从训练公平性角度出发,针对判别器网络设计损失函数,以均衡不平衡数据集的影响:设由生成器编辑后的图像xg~pg,pg为生成器拟合的图像分布。设真实图像——属性标签对(xr,lr)~pdata,pdata为真实图像数据集的分布。利用判别器的特征提取模块De来提取查询图像xr的图像特征:fr=De(xr),将真实图像的特征fr送到判别器的对抗损失模块Dadv中计算图像的真实度估计:Dadv(xr)。按照上述过程,可以得到生成图像xg的真实度估计Dadv(xg)。这样可以构造生成对抗网络的判别器的对抗损失:
Figure BDA0003456975480000091
其中,Dadv(xg)表示判别器的对抗损失模块对编辑图像的输出值,输出值越大表明编辑图像越真实,
Figure BDA0003456975480000092
表示对该输出值的期望,Dadv(xr)表示判别器的对抗损失模块对编辑图像的输出值,
Figure BDA0003456975480000093
表示对该输出值的期望。
Figure BDA0003456975480000094
即分布
Figure BDA0003456975480000095
为数据集分布pr和生成图像分布pg的线性混合,∈表示线性混合系数,
Figure BDA0003456975480000096
表示判别函数关于混合图像求梯度,
Figure BDA0003456975480000097
为梯度惩罚项,用来约束判别器模型的参数符合lipschitz连续条件,λgp为梯度惩罚系数。
将真实图像的特征fr送到判别器的属性分类模块Dcls中预测图像的属性分类,输出表示为Dcls(xr)。结合步骤4的2)中计算得到的错分代价C,可以为判别器构造具有代价敏感的分类损失函数:
Figure BDA0003456975480000098
其中,Dcls(xr)表示判别器的属性分类模块对原始图像xr的属性预测向量,
Figure BDA0003456975480000099
表示对图像xr的第i个属性的预测值,要求与原始属性标签的第i个分量
Figure BDA00034569754800000914
越一致越好。所以,判别器的总损失函数为:
Figure BDA00034569754800000910
其中,
Figure BDA00034569754800000911
为判别器的对抗损失,
Figure BDA00034569754800000912
为判别器的分类损失,λcls为属性分类损失函数的权重。
2)从训练公平性角度出发,针对生成器网络设计损失函数,以均衡不平衡数据集的影响:设从数据集中抽取的原始图像——属性标签对为(xs,ls)~pdata,同时按照步骤3的方法为每一张图片抽取目标属性标签lt,构造属性编辑向量Δl。首先利用生成器的编码器提取原始图像的特征fs=Denc(xs),将原始图像特征fs和属性编辑向量Δl进行拼接得到带有条件的图像特征ft,将原始图像特征fs和0向量(长度为M)进行拼接得到不带条件的图像特征fr以用于图像重建。然后分别将ft,fr送入滤波模块DF中得到过滤特征f′t,f′r,然后将图像特征和过滤特征送入解码器Ddec中,分别得到编辑人脸图像xt=Ddec(ft,f′t)和重建人脸图像xr=Ddec(fr,f′r),为了方便表示,这里简记为xt=G(xs,Δl),xr=G(xs,0)。然后按照步骤5的1)中的过程得到编辑人脸xt的真实度Dadv(xt),然后构造生成器的对抗损失函数:
Figure BDA00034569754800000913
其中,G(xs,Δl)为生成器关于属性编辑向量Δl对原始图像xs进行编辑后的图像,D(G(xs,Δl))为判别器关于编辑图像xt=G(xs,Δl)的真实度预测值,该值越高,表明编辑后图像越真实;
Figure BDA0003456975480000101
表示对编辑后图像xt的真实度的数学期望。
按照步骤5的1)中的过程得到编辑人脸xt的属性预测向量Dcls(xt),结合步骤4的3)中计算的错误编辑代价A,构造生成器的属性编辑损失函数:
Figure BDA0003456975480000102
其中,1[·]为指示函数,当Δl=0时,1[Δl]=1,即Ai1[Δl]=Ai1;当Δl≠0时,1[Δl]=2,即Ai[Δl]=Ai2。Dcls(xt)表示判别器的属性分类模块对编辑人脸xt的属性预测向量,
Figure BDA0003456975480000103
表示对图像xt的第i个属性的预测值,要求与目标属性标签的第i个分量
Figure BDA0003456975480000106
越一致越好。
同时,为了保证生成器G能够保留人脸的基本信息,要求重建人脸图像xr=G(xs,0)和原始人脸图像xs越一致越好,构造生成器的图像重建损失函数:
Figure BDA0003456975480000104
其中,||·||1为矩阵1范数,当重建图像xr=G(xs,0)与原始图像xs的每个像素点的取值越一致的时候,||xs-G(xs,0)||1越小。所以,生成器的总损失函数为:
Figure BDA0003456975480000105
其中,λop为属性编辑损失的权重,λrec为图像重建损失的权重。
步骤6:训练步骤2中构建的生成对抗神经网络,利用步骤5构建的损失函数进行网络训练,在更新生成器网络G时固定判别器网络D的参数,而更新判别器网络D时则固定生成器网络G的参数,每次迭代更新判别器5次然后更新生成器一次;
步骤7:采用训练完成的生成器网络G来对测试集中的人脸图像进行属性编辑,并用属性编辑成功率来衡量本发明提出的模型的属性编辑效果,测试结果参见图6。本发明以AttGAN和STGAN为基本模型,分别将本发明提出的公平性训练方法(fairness)对它们进行改进,从图6可见,通过施加本发明的公平性训练方法,AttGAN的属性编辑准确率提升了4.7%,STGAN的属性编辑准确率提升了5.5%,可见本文的方法能够显著提升人脸属性编辑模型的编辑效果。
图片大小:128*128*3
编辑的人脸属性有:Bald、Bangs、Black_Hair、Blond_Hair、Brown_Hair、Bushy_Eyebrows、Eyeglasses、Male、Mouth_Slightly_Open、Mustache、No_Beard、Pale_Skin、Young,人脸属性数量M:13
学习率:0.0002,在第100代后降为0.0001
训练批次大小N:32
迭代次数:200
判别器的属性分类损失函数权重λcls:1
判别器的梯度惩罚系数λgp:10
生成器的属性操作损失函数权重λop:10
生成器的图像重建损失权重λrec:100。

Claims (1)

1.一种基于代价敏感学习的人脸属性编辑方法,该方法包括:
步骤1:对数据集进行预处理;
获取真实人脸图像,并将这些真实图像按照其中人脸显示的属性进行标注,对所有图片像素值进行归一化;
步骤2:构建生成对抗网络的判别器网络和生成器网络;
1)判别器网络构建
判别器网络输入为图片,输出为一个标量和一个向量;判别器网络D分为三个模块:特征提取模块De、对抗损失模块Dadv和属性分类模块Dcls;特征提取模块De的输入为图片,输出为图片的特征向量,特征提取模块De由5层卷积网络块依次连接而成;对抗损失模块Dadv的输入为特征提取模块De提取的特征,输出为标量,值越大表示图像越真实,对抗损失模块D2采用两层线性网络块构成;属性分类模块Dcls的输入为特征提取模块De的提取的特征,输出为属性分类向量,属性分类模块Dcls由两层线性网络块构成;
2)生成器网络构建
生成器网络输入为原始图像和图像的属性编辑向量,输出为属性编辑后图像;生成器网络G主要由三个部分构成:编码器模块Genc、解码器模块Gdec、滤波模块GF;其中编码器模块Genc的输入原始图像,输出为图像特征,由5层卷积网络块依次连接而成;解码器模块Gdec的输入为图像特征和图像的过滤特征,输出为编辑后人脸图像,由5层转置卷积网络块依次连接而成,并且编码器和解码器之间采用了Unet网络中的对称跳跃连接;滤波模块GF的输入为图像特征,输出为图像的过滤特征,采用STU结构构成,主要用于选择性过滤编码器和解码器之间的对称跳跃连接中传递的图像特征;
步骤3:设计人脸属性编辑模型训练过程中的属性编辑操作;
本发明采取小批量梯度下降算法对模型进行优化,分批次向模型输入数据集中的N个图像样本-属性标签对:(x,l),属性标签l是一个长度为M二进制向量,每一位的0或1分别表示对应属性的无或有;属性编辑向量构造方式如下:以图像样本x本身的属性标签作为它的原始标签ls,并为每个图像样本x随机挑取其他图像样本的属性标签作为目标属性标签lt,以保证属性编辑操作不会存在冲突,以Δl=lt-ls作为图像x的属性编辑向量;当Δli=1时,表示为图像x增加第i个属性;当Δli=0时,表示不改变图像x的第i个属性;当Δli=-1时,表示为图像x去掉第i个属性;
步骤4:设计错分代价和错误编辑代价
1)首先统计数据集中的人脸属性分布概率P=[p1 p2 … pM],其中M为人脸属性个数,第i个属性在数据集中的分布概率为
Figure FDA0003456975470000021
其中
Figure FDA0003456975470000022
表示第i个属性在数据集中出现的次数,Ndata为数据集的样本数量;然后根据人脸属性的分布概率P可以计算得到训练过程中第i个属性发生编辑的概率为2pi(1-pi);
2)计算错分代价
Figure FDA0003456975470000023
其中将第i个属性由1分类为0的代价为Ci1=1/pi;将第i个属性由0分类为1的代价为Ci2=1/(1-pi);即可得
Figure FDA0003456975470000024
3)计算错误编辑代价
Figure FDA0003456975470000025
当未对图像的第i个属性进行编辑时,而发生了错误编辑的代价为Ai1=1/(1-2pi(1-pi));当对图像的第i个属性进行编辑时,而未发生编辑的代价为Ai2=1/(2pi(1-pi));即可得到
Figure FDA0003456975470000026
步骤5:设计损失函数;
1)从训练公平性角度出发,针对判别器网络设计损失函数,以均衡不平衡数据集的影响:设由生成器编辑后的图像xg~pg,pg为生成器拟合的图像分布;设真实图像——属性标签对(xr,lr)~pdata,pdata为真实图像数据集的分布;利用判别器的特征提取模块De来提取查询图像xr的图像特征:fr=De(xr),将真实图像的特征fr送到判别器的对抗损失模块Dadv中计算图像的真实度估计:Dadv(xr);按照上述过程,可以得到生成图像xg的真实度估计Dadv(xg);这样可以构造生成对抗网络的判别器的对抗损失:
Figure FDA0003456975470000027
其中,Dadv(xg)表示判别器的对抗损失模块对编辑图像的输出值,输出值越大表明编辑图像越真实,
Figure FDA0003456975470000028
表示对该输出值的期望,Dadv(xr)表示判别器的对抗损失模块对编辑图像的输出值,
Figure FDA0003456975470000031
表示对该输出值的期望;
Figure FDA0003456975470000032
即分布
Figure FDA0003456975470000033
为数据集分布pr和生成图像分布pg的线性混合,∈表示线性混合系数,
Figure FDA0003456975470000034
表示判别函数关于混合图像求梯度,
Figure FDA0003456975470000035
为梯度惩罚项,用来约束判别器模型的参数符合lipschitz连续条件,λgp为梯度惩罚系数;
将真实图像的特征fr送到判别器的属性分类模块Dcls中预测图像的属性分类,输出表示为Dcls(xr);结合步骤4的2)中计算得到的错分代价C,可以为判别器构造具有代价敏感的分类损失函数:
Figure FDA0003456975470000036
其中,Dcls(xr)表示判别器的属性分类模块对原始图像xr的属性预测向量,
Figure FDA0003456975470000037
表示对图像xr的第i个属性的预测值,要求与原始属性标签的第i个分量
Figure FDA00034569754700000311
越一致越好;所以,判别器的总损失函数为:
Figure FDA0003456975470000038
其中,
Figure FDA0003456975470000039
为判别器的对抗损失,
Figure FDA00034569754700000310
为判别器的分类损失,λcls为属性分类损失函数的权重;
2)从训练公平性角度出发,针对生成器网络设计损失函数,以均衡不平衡数据集的影响:设从数据集中抽取的原始图像——属性标签对为(xs,ls)~pdata,同时按照步骤3的方法为每一张图片抽取目标属性标签lt,构造属性编辑向量Δl;首先利用生成器的编码器提取原始图像的特征fs=Denc(xs),将原始图像特征fs和属性编辑向量Δl进行拼接得到带有条件的图像特征ft,将原始图像特征fs和0向量(长度为M)进行拼接得到不带条件的图像特征fr以用于图像重建;然后分别将ft,fr送入滤波模块DF中得到过滤特征f′t,f′r,然后将图像特征和过滤特征送入解码器Ddec中,分别得到编辑人脸图像xt=Ddec(ft,f′t)和重建人脸图像xr=Ddec(fr,f′r),为了方便表示,这里简记为xt=G(xs,Δl),xr=G(xs,0);然后按照步骤5的1)中的过程得到编辑人脸xt的真实度Dadv(xt),然后构造生成器的对抗损失函数:
Figure FDA0003456975470000041
其中,G(xs,Δl)为生成器关于属性编辑向量Δl对原始图像xs进行编辑后的图像,D(G(xs,Δl))为判别器关于编辑图像xt=G(xs,Δl)的真实度预测值,该值越高,表明编辑后图像越真实;
Figure FDA0003456975470000042
表示对编辑后图像xt的真实度的数学期望;
按照步骤5的1)中的过程得到编辑人脸xt的属性预测向量Dcls(xt),结合步骤4的3)中计算的错误编辑代价A,构造生成器的属性编辑损失函数:
Figure FDA0003456975470000043
其中,1[·]为指示函数,当Δl=0时,1[Δl]=1,即Ail[Δl]=Ai1;当Δl≠0时,1[Δl]=2,即Ai[Δl]=Ai2;Dcls(xt)表示判别器的属性分类模块对编辑人脸xt的属性预测向量,
Figure FDA0003456975470000044
表示对图像xt的第i个属性的预测值,要求与目标属性标签的第i个分量
Figure FDA0003456975470000045
越一致越好;
同时,为了保证生成器G能够保留人脸的基本信息,要求重建人脸图像xr=G(xs,0)和原始人脸图像xs越一致越好,构造生成器的图像重建损失函数:
Figure FDA0003456975470000046
其中,||·||1为矩阵1范数,当重建图像xr=G(xs,0)与原始图像xs的每个像素点的取值越一致的时候,||xs-G(xs,0)||1越小;所以,生成器的总损失函数为:
Figure FDA0003456975470000047
其中,λop为属性编辑损失的权重,λrec为图像重建损失的权重;
步骤6:训练步骤2中构建的生成对抗神经网络,利用步骤5构建的损失函数进行网络训练,在更新生成器网络G时固定判别器网络D的参数,而更新判别器网络D时则固定生成器网络G的参数,每次迭代更新判别器5次然后更新生成器一次;
步骤7:采用训练完成的生成器网络G来对测试集中的人脸图像进行属性编辑,并用属性编辑成功率来衡量本发明提出的模型的属性编辑效果。
CN202210006417.3A 2022-01-05 2022-01-05 一种基于代价敏感学习的人脸属性编辑方法 Pending CN114494529A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210006417.3A CN114494529A (zh) 2022-01-05 2022-01-05 一种基于代价敏感学习的人脸属性编辑方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210006417.3A CN114494529A (zh) 2022-01-05 2022-01-05 一种基于代价敏感学习的人脸属性编辑方法

Publications (1)

Publication Number Publication Date
CN114494529A true CN114494529A (zh) 2022-05-13

Family

ID=81510865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210006417.3A Pending CN114494529A (zh) 2022-01-05 2022-01-05 一种基于代价敏感学习的人脸属性编辑方法

Country Status (1)

Country Link
CN (1) CN114494529A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863225A (zh) * 2022-07-06 2022-08-05 腾讯科技(深圳)有限公司 图像处理模型训练方法、生成方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863225A (zh) * 2022-07-06 2022-08-05 腾讯科技(深圳)有限公司 图像处理模型训练方法、生成方法、装置、设备及介质
CN114863225B (zh) * 2022-07-06 2022-10-04 腾讯科技(深圳)有限公司 图像处理模型训练方法、生成方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109508669B (zh) 一种基于生成式对抗网络的人脸表情识别方法
CN105069400B (zh) 基于栈式稀疏自编码的人脸图像性别识别系统
KR102203355B1 (ko) 상품 체험에 따른 체험정보 추출 시스템 및 방법
CN109710934B (zh) 基于情感的客服质量监督算法
CN109344759A (zh) 一种基于角度损失神经网络的亲属识别方法
CN107784678B (zh) 卡通人脸图像的生成方法、装置和终端
CN110134868A (zh) 一种基于用户偏好异构性分析的推荐方法
CN110348352B (zh) 一种人脸图像年龄迁移网络的训练方法、终端和存储介质
CN110569842B (zh) 一种用于gan模型训练的半监督学习的方法
CN111652798A (zh) 人脸姿态迁移方法和计算机存储介质
CN116704079B (zh) 图像生成方法、装置、设备及存储介质
Bao et al. Predict then interpolate: A simple algorithm to learn stable classifiers
CN116704085B (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN110929836A (zh) 神经网络训练及图像处理方法和装置、电子设备、介质
Dogan et al. Semi-supervised image attribute editing using generative adversarial networks
CN111598153A (zh) 数据聚类的处理方法、装置、计算机设备和存储介质
CN112651301A (zh) 一种整合人脸全局和局部特征的表情识别方法
CN114494529A (zh) 一种基于代价敏感学习的人脸属性编辑方法
CN116977457A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN111914617A (zh) 一种基于平衡栈式生成式对抗网络的人脸属性编辑方法
Tan et al. Controllable and identity-aware facial attribute transformation
Liu et al. Learning shape and texture progression for young child face aging
CN113222808A (zh) 一种基于生成式对抗网络的人脸口罩移除方法
CN115439904A (zh) 一种基于知识引导的人脸属性编辑方法
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination