CN111931908A - 一种基于人脸轮廓的人脸图像自动生成方法 - Google Patents
一种基于人脸轮廓的人脸图像自动生成方法 Download PDFInfo
- Publication number
- CN111931908A CN111931908A CN202010717549.8A CN202010717549A CN111931908A CN 111931908 A CN111931908 A CN 111931908A CN 202010717549 A CN202010717549 A CN 202010717549A CN 111931908 A CN111931908 A CN 111931908A
- Authority
- CN
- China
- Prior art keywords
- mask
- image
- matting
- loss
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 68
- 241000282414 Homo sapiens Species 0.000 claims abstract description 57
- 230000006870 function Effects 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 31
- 238000010586 diagram Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 7
- 230000005284 excitation Effects 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000001815 facial effect Effects 0.000 claims 2
- 238000011156 evaluation Methods 0.000 description 29
- 230000000694 effects Effects 0.000 description 6
- 210000000887 face Anatomy 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 5
- 230000008447 perception Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000004209 hair Anatomy 0.000 description 3
- 238000002347 injection Methods 0.000 description 3
- 239000007924 injection Substances 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Geometry (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computer Graphics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于人脸轮廓的人脸图像自动生成方法,包括如下步骤:步骤1、建立及准备数据集;步骤2、设计基于图像掩模mask的人脸图像生成模型;步骤3、训练基于mask的人脸图像生成模型;步骤4、使用matting对步骤3中的人脸图像生成模型进行输入数据的改进;步骤5、训练基于matting的人脸图像生成模型;步骤6、基于训练好的人脸图像生成模型自动生成人脸图像。
Description
技术领域
本发明是一种基于人脸轮廓的人脸图像自动生成方法,属于计算机视觉领域。
背景技术
在图像生成领域,人脸生成是一个很大的挑战,也有十分广阔的应用场景。近年来,关于人脸的相关技术研究十分火热。人脸检测,人脸识别,图像美学等人工智能技术在实现物联网一体化中有着举足轻重的作用。但是,人脸数据集的缺乏也大大制约了人脸检测等相关深度学习技术的发展。尽管公认的有一些特定人脸数据集,但是对于种类繁多的人脸相关技术来说,现有的数据集往往不够全面。大多数数据集都是欧美人脸,制约了其他地方人脸相关模型的训练。现有的解决办法是利用网络爬虫技术,搜集网络上人脸图片,但是这种方法搜集来的图片数据集,难以保证其质量,往往数据集的分布不平均,导致训练的结果无法令人满意。
发明内容
为了解决上述技术问题,本发明在当前人脸数据集不足且不全面的基础上提出了基于人脸轮廓的人脸图像自动生成方法。在结合了生成对抗网络之后,训练得到的人脸生成模型能够很好的实现高质量人脸图像的生成,流程简单功能强大。
本发明的技术解决方案:一种基于人脸轮廓的人脸图像自动生成方法,包括如下步骤:
步骤1、建立及准备数据集;
步骤2、设计基于图像掩模mask的人脸图像生成模型;
步骤3、训练基于mask的人脸图像生成模型;
步骤4、使用matting对步骤3中的人脸图像生成模型进行输入数据的改进;
步骤5、训练基于matting的人脸图像生成模型;
步骤6、基于训练好的人脸图像生成模型自动生成人脸图像。
具体如下:
步骤1、数据集的准备及建立:参考人脸抠图数据集,采用semantic humanmatting算法所用的matting数据集,该数据集有34000张图片,图片多为欧美上身人脸,以彩色图片为主,夹杂黑白图片。为生成符合基于mask的人脸图像生成的数据集,本发明将matting数据集的边缘进行修改,生成34000张mask数据集。本发明选择其中的12000张图片作为数据集,其中11000张作为训练集,1000张作为验证集。
使用matting对人脸图像生成模型进行修改时,使用抠图领域的matting数据集,数据集中包含34000张图片,本发明选择与mask数据集相同的12000张图片,其中11000张作为训练集,1000张作为验证集。
步骤2、基于mask的人脸图像生成模型的设计:mask标注人脸轮廓信息,相当于将人脸的风格信息天然地分为两类,一类是由mask提供的轮廓信息,另一类是人脸的其他部分组成的风格信息。本发明将这两类的信息分别生成。
在带有语义标签图的有条件GAN生成的启发下,将mask看作是具有两类的语义标签图,一类是人脸图,另一类是背景图。与pix2pix模型类似,可以将标注有两类语义的mask图作为生成器的输入,通过卷积进行下采样,扩充维度,再经过不断地卷积,进行信息地扩充,这样保证了语义轮廓特征的准确性。此外,像pix2pix这样的结构可以通过卷积,以大的参数量学习到一些粗糙、以及中等的风格;
人脸生成,由于只关注于人脸一个类别,且人脸类别变化大,有眼睛、鼻子、耳朵等部位,也有头发、眉毛、皱纹等细节变化,这导致不能单纯地将人脸生成看作是像素与像素之间的语义生成。关键是在pix2pix的基础上关注于细节信息(细致风格)的生成。参考于StyleGAN对于细致风格是在到尺度上进行注入,而pix2pix对于图片三次(4次)下采样后,正好落入细致风格的尺度区间上,因此可以在下采样后卷积的过程中,类似于StyleGAN进行细致风格的注入。
步骤3、基于mask的人脸图像生成模型的训练:
(1)mask作为语义标签图先与生成器生成的假图片一起送入辨别器,得到辨别器将假图片预测为假所造成的损失Lfakefake;
(2)mask作为语义标签图与真实图片一起送入辨别器,得到辨别器将真实图片预测为真所造成的损失Ltruetrue,并保存4层下采样卷积后的结果;
(3)语义分割图与假图片再次一起送入辨别器,得到辨别器将假图片预测为真所造成的损失Lfaketrue,并保存4层下采样卷积后的结果;
(4)将两次保存结果进行L1loss比较,计算细节损失Ldetail;
(5)分别对生成器与辨别器进行训练。其中生成器损失为:Lg=Lfaketrue+Ldetail。并且细节损失Ldetail额外训练一次AdaIN以及映射网络参数,辨别器损失为:Ld=Lfakefake+Ltruetrue;
(6)本发明采用LSGAN用于稳定训练,具体的实验参数为一个训练批次为8,初始学习率为0.0002,共训练200轮,每一轮学习率下降0.1,使用的优化算法为Adam优化算法,其动量参数为0.5。损失函数中,采用的10个PatchGAN损失,感知损失采用的是VGG不同层的对比损失L1,VGG采用的是预训练好的网络。两部分组成的辨别器损失,分别占比为0.5,三部分组成的生成器损失,分别占比为1/3。
步骤4、使用matting对人脸图像生成模型进行改进:
本发明将输入数据做如下处理:
(1)将matting转化为对应的三分图。三分图可以理解为粗糙版本的mask图,三分图标注了三类,一类是纯背景,类别为0,一类是纯前景,类别为1,一类是边缘部分,类别为2。转化为三分图相当于人为地对数据进行了分类,让模型可以分离地关注于边缘部分和非边缘部分地生成;
(2)将matting图与生成的三分图,在维度上进行拼接,作为模型的最终输入。matting图与三分图拼接的好处在于,给予模型边缘细节方面更多的信息。可以让生成器在边缘细节方面,前背景过渡方面,进行更好的生成;
(3)对于辨别器的输入,基于mask的人脸生成模型输入由两部分组成,一是生成器的输入,另一部分是生成器生成的图像或真实图像。基于matting的人脸生成模型的输入改为matting图与生成器生成的图与真实图像的拼接。这样做的好处是,由于matting图在边缘部分不再是生硬的0或者1(前景或者背景),这使得生成器在边缘部分有更加精确且平滑的约束。最后生成的效果更佳。
步骤5、基于matting的人脸图像生成模型的训练:
(1)动态训练损失。GAN本身的训练过程已经是动态的学习过程,但辨别器的损失函数却没有随着训练过程的变化而变化。基于此,本发明在GAN训练过程中设计了动态的损失函数,在不同的训练阶段,各部分的损失函数有着不同的占比。
本发明辨别器采用的损失函数三部分构成,一是辨别器判断图像真假的二分类交叉熵损失,二是PatchGAN所产生的细节比较L1损失,三是感知损失,本发明采取VGG损失。其中判断图像真假产生的损失由于是对整幅图像的辨别,可以认为是整体评价损失,而细节损失与感知损失由于受卷积层感受野的限制,可以认为是细节评价损失。整体评价损失和细节评价损失的比重会随着训练过程的变化而变化。
本发明将训练过程分为三个阶段,分别为初始阶段,中期阶段,以及后期阶段。人脸生成模型的训练轮数为200轮,其中前60轮为初始阶段,60轮到140轮为中期阶段,后60轮为后期阶段。初始阶段的训练,其损失函数主要以整体评价损失为主,其中占比为80%,细节评价损失占比20%。中期阶段中,损失函数中,整体评价损失与细节评价损失占同样比重。后期阶段,其损失函数以细节评价损失为主,占比为60%,而整体评价损失占比40%。
基于matting的人脸生成模型中,生成器与辨别器结构与基于mask的人脸生成模型一致。其中训练过程中的训练轮数、一个批次的图像数、初始化参数、学习率等其他参数均一致;
本发明与现有技术相比的优点在于:
(1)本发明是首先提出基于人脸轮廓的人脸图像生成方法。
(2)本发明在mask人脸轮廓的基础上,使用GAN网络对修改过的人脸抠图数据集进行训练得到了人脸图像的自动生成。mask标注了人脸的轮廓信息,相当于将人脸的风格信息天然地分为两类,一类是由mask提供的轮廓信息,另一类是人脸的其他部分组成的风格信息。本发明将这两类信息分别生成。
(3)本发明在基于mask的人脸图像自动生成方法中,将mask图看作具有两类的语义标签图,一类是人脸图,另一类是背景图。将标注有两类语义的mask图作为生成器的输入,通过卷积进行下采样,扩充维度,再经过不断地卷积,进行信息地扩充,这样保证了语义轮廓特征的准确性也获得了粗糙、中等的风格。
(4)本发明参考StyleGAN进行细致风格的注入,在保证了生成人脸的语义轮廓特征的准确性下得到更加细致的人脸特征信息,使得基于mask的人脸图像生成模型获得更高质量的人脸图片。
(5)本发明使用FID距离在验证集上将本发明与其他模型进行比较获得较低分数,这表明本发明的生成对抗网络生成的人脸图像质量较高。
(6)受抠图领域的matting的启发,本发明对基于mask的人脸图像生成模型进行了改进,获得了更加自然、细致。
(7)本发明的基于matting的人脸图像的生成创新性的使用了动态训练损失的方法。判断图像真假产生的损失由于是对整幅图像的辨别,认为是整体评价损失,而细节损失与感知损失由于受卷积层感受野的限制,可以认为是细节评价损失。整体评价损失和细节评价损失的比重会随着训练过程的变化而变化。
附图说明
图1为本发明方法的流程框图;
图2为本发明训练神经网络的数据集;
图3为本发明的基于mask的人脸图像生成模型结构图;
图4为本发明的基于matting的人脸图像生成模型结构图;
图5为本发明的基于mask的人脸图像自动生成的效果图;
图6为本发明的基于matting的人脸图像自动生成的效果图;
图7为本发明的基于mask和基于matting的人脸图像自动生成模型的FID对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
生成对抗网络:Generative Adversarial Networks,GAN是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。
StyleGAN:借鉴了风格迁移的思想,将图像生成看作是给图像不断地加风格。同时为了更好控制图像生成,StyleGAN生成了一个风格空间,将风格更好的解耦和,可以通过对隐向量适当的截取,进行样式融合,从而控制图像的生成;
PatchGAN:使用PatchGAN可以生成高分辨率、高细节的图像;
感知损失:将真实图片卷积得到的特征与生成图片卷积得到的特征作比较,使得高层信息(内容和全局结构)接近,也就是感知的意思;
pix2pix:pix2pix模型完成成对图像的像素到像素的转换,可以得到比较清晰的结果;
ResNet:深度残差网络,可以使得训练数百甚至数千层网络得到可能;
AdaIN结构:给定任意的仿射参数能够合成具有任意风格的图像;
ReLU激励函数:线性整流函数,又称修正线性单元,神经网络中常用的激活函数;
mask:图像掩模,用选定的图像、图形或物体,对处理的图像(全部或局部)进行遮挡,来控制图像处理的区域或处理过程;
matting:一般出现在抠图领域,关注图像的边缘的分割;
FID:评估由生成对抗网络生成的图像的质量,较低分数与较高质量的图像有很高的相关性。
参见图1,本发明一种基于人脸轮廓的人脸图像自动生成方法,总体实现过程如下:
(1)首先是数据集的准备及建立。参考人脸抠图数据集,采用semantic humanmatting算法所用的matting数据集,如图2所示。该数据集有34000张图片,图片多为欧美上身人脸,以彩色图片为主,夹杂黑白图片。选择其中的12000张图片作为mask数据集,其中11000张作为训练集,1000张作为验证集。将此数据集中的matting图片边缘进行修改,选择其中的12000张图片作为mask数据集,其中11000张作为训练集,1000张作为验证集。
(2)设计基于mask的人脸图像自动生成模型。mask标注人脸轮廓信息,相当于将人脸的风格信息天然地分为两类,一类是由mask提供的轮廓信息,另一类是人脸的其他部分组成的风格信息。本发明将这两类的信息分别生成。在带有语义标签图的有条件GAN生成的启发下,将mask看作是具有两类的语义标签图,一类是人脸图,另一类是背景图。与pix2pix模型类似,可以将标注有两类语义的mask图作为生成器的输入,通过卷积进行下采样,扩充维度,再经过不断地卷积,进行信息地扩充,这样保证了语义轮廓特征的准确性。此外,像pix2pix这样的结构可以通过卷积,以大的参数量学习到一些粗糙、以及中等的风格。最后参考StyleGAN将细致风格的注入到神经网络中。基于以上的描述设计出基于mask的人脸图像自动生成模型如图3,其分为生成器和辨别器两个部分,生成器部分输入为人脸掩模的mask图像,经过生成器中的卷积,归一化和激励函数,残差块以及AdaIN结构的计算得到生成的图像然后和人脸掩模的mask图像输入到辨别器中,通过辨别器的卷积,归一化和激励函数,残差块以及sigmoid的计算得到最终生成的图像。
(3)基于mask的人脸图像自动生成模型进行训练。设计损失函数并在mask数据集进行训练。本发明采用LSGAN用于稳定训练,具体的实验参数为一个训练批次为8,初始学习率为0.0002,共训练200轮,每一轮学习率下降0.1,使用的优化算法为Adam优化算法,其动量参数为0.5。损失函数中,采用的10个PatchGAN损失,感知损失采用的是VGG不同层的对比损失L1,VGG采用的是预训练好的网络。两部分组成的辨别器损失,分别占比为0.5,三部分组成的生成器损失,分别占比为1/3。
(4)使用matting对人脸图像生成模型进行改进。基于mask的图像人脸生成具有固有的缺陷,本发明注意到生成的人脸图像在边缘部分过于平滑和粗糙,尤其是头发部分,也就是前景与后景的过渡十分粗糙,如图5所示;对此,本发明分析其原因在于输入图像是mask前景背景图,其边缘部分的分割本身就不够精细,细节部分较为粗糙,这在根本上就难以精确地约束生成器在边缘部分的生成。在前述的基于mask的人脸图像模型设计中,对于生成的人脸真假的辨别,辨别器在一定程度上是依据生成的人脸要与输入mask图像的轮廓一致。但当mask图像,其本身前景和背景部分的过渡就过于粗糙,这固有缺陷使得辨别器在比较时就难以在像素级上精确地约束,使得生成器在边缘部分的约束较小,难以精确化生成。为了解决mask图像在边缘部分的固有缺陷,受图像matting的启发,本发明对基于mask人脸生成模型进行改进,在输入与约束中增加matting信息,提高了人脸边缘部分的生成效果,如图6所示。
(5)基于matting的人脸图像生成模型的训练。在matting数据集上对改进后的人脸生成模型进行训练。GAN训练过程是一个动态地博弈过程,生成器和辨别器在不断地相互博弈中互相完善,这种博弈过程与人类对某一事物地认识学习过程类似。本发明观察到,当人对人脸进行写真时,绘画地过程也是一个不断博弈提升的过程,由整体到部分、由粗糙到精细。在这个动态地提升过程中,评价的指标也在动态地变化。当画人脸的轮廓时,评价的指标只在于整体像不像,这个时候细节部分的评价占比极低,随着绘画的深入,细节部分评价占比不断提高,整体部分评价的占比逐渐降低到一定的程度。由于GAN本身的训练过程已经是动态的学习过程,但辨别器的损失函数却没有随着训练过程的变化而变化。基于此,本发明在GAN训练过程中设计了动态的损失函数,在不同的训练阶段,各部分的损失函数有着不同的占比。
最后,图7展示了本发明的基于mask和基于matting的人脸图像自动生成模型的FID对比图。从图中可知,改进后的基于matting的人脸图像生成模型得到较低的FID值,FID值越低表明生成的图像的质量越高。这说明改进后的方法能够提升生成人脸的真实度。
为了更详细的说明本发明,下面对上述各步骤的进行更详细的介绍如下:
1、基于mask的人脸图像生成模型的设计
本发明中使用的基于mask的人脸图像生成模型的结构图如图2所示,其生成器详细设计如下:
(1)参考StyleGAN,本发明设计了由8层全连接层组成的映射网络,512维的隐向量经过映射网络后生成风格空间,与StyleGAN不同是,理论上生成的风格空间是细致特征风格的映射空间,并不包含粗糙以及中等特征风格。细致特征风格空间会经过不同的仿射变换(一层卷积)转化为不同的细致风格,嵌入到不同的ResNet结构块中,进行风格注入;
(2)粗糙以及中等风格生成网络为经典的pix2pix生成器网络:mask图作为语义图作为输入,先将输入维度扩大为64维,紧接着连续进行3次卷积下采样,卷积核大小为3×3,维度逐步扩大为512维,这个过程可以进一步扩大感受野,并且增加参数的共享。后面紧跟8个ResNet+AdaIN结构块,然后经过三次反卷积恢复到原先尺度,卷积核为3×3。最后经过一层卷积,将特征维度转化为RGB维度进行输出;
(3)ResNet+AdaIN模块,将ResNet结构与AdaIN风格注入器相结合,输入先经过一层卷积,归一化以及激励函数,然后进入AdaIN风格注入器,AdaIN对输入的每一个维度进行放缩与偏差,最后结果与开始的输入做维度上的拼接,最后输出。这样结构既能获取细致风格信息,又促进了梯度的传递;
(4)所有的归一化函数为实例归一化,激励函数为ReLU函数。
辨别器的详细设计为:本发明是将mask图分别与训练集真实图片,生成器生成的假图片在通道维度上进行拼接,作为辨别器的输入,辨别器分为两个尺度,分别为原尺度,以及降采样两倍后尺度。在每一个尺度上,输入都连续经过4层的下采样卷积层,最后经过一层卷积,在每个位置上输出0或者1,作为预测图像的真假,0代表当前位置预测为假图片,1代表当前位置为真图片。同时,为了获取细致风格信息,本发明也采用了PatchGAN,将真图片与假图片在不同下采样尺度上的结果做L1损失函数的比较,指导生成器细节的生成。此外,为了更好的约束AdaIN部分提供细节信息(风格),本发明将PathGAN产生的损失额外地指导AdaIN以及映映射网络部分的梯度下降,让其专注于细致的风格。
2、基于mask的人脸图像生成模型的训练
设计完基于mask的人脸图像生成模型的网络结构图,之后需要设计其损失函数,便于在mask数据集上面进行训练。详细的损失函数设计如下:
(1)mask作为语义标签图先与生成器生成的假图片一起送入辨别器,得到辨别器将假图片预测为假所造成的损失Lfakefake;
(2)mask作为语义标签图与真实图片一起送入辨别器,得到辨别器将真实图片预测为真所造成的损失Ltruetrue,并保存4层下采样卷积后的结果;
(3)语义分割图与假图片再次一起送入辨别器,得到辨别器将假图片预测为真所造成的损失Lfaketrue,并保存4层下采样卷积后的结果;
(4)将两次保存结果进行L1loss比较,计算细节损失Ldetail;
(5)分别对生成器与辨别器进行训练。其中生成器损失为:Lg=Lfaketrue+Ldetail。并且细节损失Ldetail额外训练一次AdaIN以及映射网络参数,辨别器损失为:Ld=Lfakefake+Ltruetrue;
3、使用matting对人脸图像生成模型进行改进
由于使用mask进行人脸图像的生成存在缺陷,因此在受到matting的启发下对基于mask的人脸图像生成模型进行了改进,详细的改进如下:
本发明将原先的mask语义二分图,变为matting图像中的α维度图,α维度图不同于mask边缘部分生硬的分割,对于某一像素,不再是单纯的标记类别,是否是前景还是背景,而是标记是前景的概率。对于人脸内部位置的像素,α维度图将其标记为1,代表这些位置的像素是前景的概率为100%,对于前景边缘以外位置的像素,α维度图将其标注为0,代表这些位置的像素是前景的概率是0%,也就是100%是背景,而对于那些处于边缘位置的像素,α维度图将其标注为0到1之间,代表这些位置的像素,有一定比例概率是前景像素,有一定的比例概率是背景像素,也可以理解为,这些位置的像素是由不同比例的前景和背景融合构成。这样,可以解决mask图像引导的人脸生成的固有缺陷,可以精确地对边缘部分的生成提供约束,让边缘部分从前景到背景的过渡更为自然,尤其是对于头发丝等精细边缘的生成,作用更大。
本发明修改了基于mask的人脸生成模型的输入部分。在原模型中,输入的mask语义图维度为b×c×w×h,b代表一次训练中一个批次图像的数量,c代表是图像的维度,不管是原先的mask图还是matting图,c维都是1。w,h分别表示输入图像的宽和高。每个批次的图像在输入到模型之前,先对于c维度进行扩充,由维度数1扩充到类别数。例如,在原先的mask图(语义分割图)中,类别数为2,分别表示前景和背景,那么输入的维度被扩充为2,维中的每一维都只有一个类别。在原基于mask的人脸生成模型中,这样数据预处理,相当于人为地对数据进行了类别上的分类,有利于模型表示不同类别的不同特征。在改进版本的基于matting的人脸生成模型中,由于输入图像的改变,matting图像不再标注类别,而是标注前景和背景的概率,为了让生成模型更加关注于边缘部分的生成,本发明将输入数据做如下处理:
(1)将matting转化为对应的三分图。三分图可以理解为粗糙版本的mask图,三分图标注了三类,一类是纯背景,类别为0,一类是纯前景,类别为1,一类是边缘部分,类别为2。转化为三分图相当于人为地对数据进行了分类,让模型可以分离地关注于边缘部分和非边缘部分地生成;
(2)将matting图与生成的三分图,在c维度上进行拼接,作为模型的最终输入。matting图与三分图拼接的好处在于,给予模型边缘细节方面更多的信息。可以让生成器在边缘细节方面,前背景过渡方面,进行更好的生成;
(3)对于辨别器的输入,基于mask的人脸生成模型输入由两部分组成,一是生成器的输入,另一部分是生成器生成的图像或真实图像。基于matting的人脸生成模型的输入改为matting图与生成器生成的图与真实图像的拼接。这样做的好处是,由于matting图在边缘部分不再是生硬的0或者1(前景或者背景),这使得生成器在边缘部分有更加精确且平滑的约束。最后生成的效果更佳。
基于以上的描述,本发明设计的基于matting的人脸图像生成模型的结构如图4所示,整体结构依旧为生成器和辨别器组成,与图3类似,但是输入改成了人脸的matting图像。
4、基于matting的人脸图像生成模型
改进后的人脸图像生成模型整体结构和基于mask的人脸图像生成模型类似,但是在基于matting的人脸图像生成模型中加入了动态训练损失,其详细情况如下:
本发明辨别器采用的损失函数三部分构成,一是辨别器判断图像真假的二分类交叉熵损失,二是PatchGAN所产生的细节比较L1损失,三是感知损失。其中判断图像真假产生的损失由于是对整幅图像的辨别,可以认为是整体评价损失,而细节损失与感知损失由于受卷积层感受野的限制,可以认为是细节评价损失。整体评价损失和细节评价损失的比重会随着训练过程的变化而变化。
本发明将训练过程分为三个阶段,分别为初始阶段,中期阶段,以及后期阶段。人脸生成模型的训练轮数为200轮,其中前60轮为初始阶段,60轮到140轮为中期阶段,后60轮为后期阶段。初始阶段的训练,其损失函数主要以整体评价损失为主,其中占比为80%,细节评价损失占比20%。中期阶段中,损失函数中,整体评价损失与细节评价损失占同样比重。后期阶段,其损失函数以细节评价损失为主,占比为60%,而整体评价损失占比40%。
基于matting的人脸生成模型中,生成器与辨别器结构与基于mask的人脸生成模型一致。其中训练过程中的训练轮数、一个批次的图像数、初始化参数、学习率等其他参数均一致。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (6)
1.一种基于人脸轮廓的人脸图像自动生成方法,其特征在于,包括如下步骤:
步骤1、建立及准备数据集;
步骤2、设计基于图像掩模mask的人脸图像生成模型;
步骤3、训练基于mask的人脸图像生成模型;
步骤4、使用matting对步骤3中的人脸图像生成模型进行输入数据的改进;
步骤5、训练基于matting的人脸图像生成模型;
步骤6、基于训练好的人脸图像生成模型自动生成人脸图像。
2.根据权利要求1所述的一种基于人脸轮廓的人脸图像自动生成方法,其特征在于,步骤(1)建立及准备数据集,包括如下步骤:
参考人脸抠图数据集,采用semantic human matting算法所用的matting数据集;
将matting数据集的边缘进行修改,生成34000张mask数据集;选择其中的12000张图片作为数据集,其中11000张作为训练集,1000张作为验证集;
基于matting的人脸图像生成模型,使用抠图领域的matting数据集,数据集中包含34000张图片,选择与mask数据集相同的12000张图片,其中11000张作为训练集,1000张作为验证集。
3.根据权利要求1所述的一种基于人脸轮廓的人脸图像自动生成方法,其特征在于,步骤(2)设计基于图像掩模mask的人脸图像生成模型,具体包括:
首先是生成器的设计,生成器部分输入为人脸掩模的mask图像,经过生成器中的卷积,归一化和激励函数,残差块以及AdaIN结构的计算得到生成的图像然后和人脸掩模的mask图像输入到辨别器中,具体步骤如下:
步骤(2.1)参考StyleGAN,设计由8层全连接层组成的映射网络,512维的隐向量经过映射网络后生成风格空间;
步骤(2.2)将pix2pix生成器网络作为粗糙以及中等风格生成网络;
步骤(2.3)将ResNet结构与AdaIN风格注入器相结合,得到ResNet+AdaIN模块,;
步骤(2.4)所有的归一化函数为实例归一化,激励函数为ReLU函数;
辨别器设计为:
步骤(2.5)将mask图分别与训练集真实图片,生成器生成的假图片在通道维度上进行拼接,作为辨别器的输入;
步骤(2.6)采用PatchGAN,将真图片与假图片在不同下采样尺度上的结果做L1损失函数的比较,指导生成器细节的生成;
步骤(2.7)将PathGAN产生的损失额外地指导AdaIN以及映映射网络部分的梯度下降,让其专注于细致的风格。
4.根据权利要求1所述的一种基于人脸轮廓的人脸图像自动生成方法,其特征在于,步骤(3)训练基于mask的人脸图像生成模型,具体如下:
(3.1)人脸图像掩模mask作为语义标签图先与生成器生成的假图片一起送入辨别器,得到辨别器将假图片预测为假所造成的损失Lfakefake;
(3.2)人脸图像掩模mask作为语义标签图与真实图片一起送入辨别器,得到辨别器将真实图片预测为真所造成的损失Ltruetrue,保存输入辨别器的图像连续经过4层的下采样卷积层后的结果;
(3.3)语义分割图与假图片再次一起送入辨别器,得到辨别器将假图片预测为真所造成的损失Lfaketrue,并保存4层下采样卷积后的结果;
(3.4)将两次保存结果进行L1loss比较,计算细节损失Ldetail;
(3.5)分别对生成器与辨别器进行训练。其中生成器损失为:Lg=Lfaketrue+Ldetail;并且细节损失Ldetail额外训练一次AdaIN以及映射网络参数,辨别器损失为:Ld=Lfakefake+Ltruetrue;
(3.6)采用LSGAN用于稳定训练,实验参数为一个训练批次为8,初始学习率为0.0002,共训练200轮,每一轮学习率下降0.1,使用的优化算法为Adam优化算法,其动量参数为0.5;损失函数中,采用的10个PatchGAN损失,感知损失采用的是VGG不同层的对比损失L1,VGG采用的是预训练好的网络;两部分组成的辨别器损失,分别占比为0.5,三部分组成的生成器损失,分别占比为1/3。
5.根据权利要求3所述的一种基于人脸轮廓的人脸图像自动生成方法,其特征在于,步骤(4)使用matting对人脸图像生成模型进行改进如下:
步骤(4.1)将原先的mask语义二分图,变为matting图像中的α维度图,α维度图不同于mask边缘部分生硬的分割,对于某一像素,不再是单纯的标记类别,是否是前景还是背景,而是标记是前景的概率;
步骤(4.2)修改了基于mask的人脸生成模型的输入部分;在原模型中,输入的mask语义图维度为b×c×w×h,b代表一次训练中一个批次图像的数量,c代表是图像的维度,原先的mask图和matting图,c维都是1;w,h分别表示输入图像的宽和高;每个批次的图像在输入到模型之前,先对于c维度进行扩充,由维度数1扩充到类别数;
步骤(4.3)在改进后的基于matting的人脸生成模型中,由于输入图像的改变,matting图像不再标注类别,而是标注前景和背景的概率,生成模型更加关注于边缘部分的生成,将输入数据做如下处理:
将matting转化为对应的三分图;将matting图与生成的三分图,在c维度上进行拼接,作为模型的最终输入;基于matting的人脸生成模型的输入改为matting图与生成器生成的图与真实图像的拼接。
6.根据权利要求5所述的一种基于人脸轮廓的人脸图像自动生成方法,其特征在于,步骤(5)基于matting的人脸图像生成模型的训练如下:
动态训练损失,在GAN训练过程中设计了动态的损失函数,在不同的训练阶段,各部分的损失函数有着不同的占比;
辨别器采用的损失函数包括三部分:
二是PatchGAN所产生的细节比较L1损失:
即把目标值Yi与估计值f(xi)的绝对值的总和S最小化;
三是感知损失:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010717549.8A CN111931908B (zh) | 2020-07-23 | 2020-07-23 | 一种基于人脸轮廓的人脸图像自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010717549.8A CN111931908B (zh) | 2020-07-23 | 2020-07-23 | 一种基于人脸轮廓的人脸图像自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931908A true CN111931908A (zh) | 2020-11-13 |
CN111931908B CN111931908B (zh) | 2024-06-11 |
Family
ID=73314550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010717549.8A Active CN111931908B (zh) | 2020-07-23 | 2020-07-23 | 一种基于人脸轮廓的人脸图像自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931908B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113034517A (zh) * | 2021-03-31 | 2021-06-25 | 华南理工大学 | 基于生成对抗模型的全自动抠图方法及装置、介质和设备 |
CN113822245A (zh) * | 2021-11-22 | 2021-12-21 | 杭州魔点科技有限公司 | 人脸识别方法、电子设备和介质 |
WO2022257456A1 (zh) * | 2021-06-10 | 2022-12-15 | 平安科技(深圳)有限公司 | 头发信息识别方法、装置、设备及存储介质 |
CN117274504A (zh) * | 2023-11-17 | 2023-12-22 | 深圳市加推科技有限公司 | 智能名片的制作方法、智能销售系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050017067A (ko) * | 2003-08-13 | 2005-02-21 | 학교법인 울산공업학원 | 가변 타원 마스크와 형태학적 특징을 이용한 얼굴 인식 방법 |
CN108510500A (zh) * | 2018-05-14 | 2018-09-07 | 深圳市云之梦科技有限公司 | 一种基于人脸肤色检测的虚拟人物形象的头发图层处理方法及系统 |
CN111369427A (zh) * | 2020-03-06 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、可读介质和电子设备 |
-
2020
- 2020-07-23 CN CN202010717549.8A patent/CN111931908B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050017067A (ko) * | 2003-08-13 | 2005-02-21 | 학교법인 울산공업학원 | 가변 타원 마스크와 형태학적 특징을 이용한 얼굴 인식 방법 |
CN108510500A (zh) * | 2018-05-14 | 2018-09-07 | 深圳市云之梦科技有限公司 | 一种基于人脸肤色检测的虚拟人物形象的头发图层处理方法及系统 |
CN111369427A (zh) * | 2020-03-06 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、可读介质和电子设备 |
Non-Patent Citations (1)
Title |
---|
林宇彬: "证件照自动生成与人脸识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 25 - 38 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113034517A (zh) * | 2021-03-31 | 2021-06-25 | 华南理工大学 | 基于生成对抗模型的全自动抠图方法及装置、介质和设备 |
CN113034517B (zh) * | 2021-03-31 | 2023-02-14 | 华南理工大学 | 基于生成对抗模型的全自动抠图方法及装置、介质和设备 |
WO2022257456A1 (zh) * | 2021-06-10 | 2022-12-15 | 平安科技(深圳)有限公司 | 头发信息识别方法、装置、设备及存储介质 |
CN113822245A (zh) * | 2021-11-22 | 2021-12-21 | 杭州魔点科技有限公司 | 人脸识别方法、电子设备和介质 |
CN117274504A (zh) * | 2023-11-17 | 2023-12-22 | 深圳市加推科技有限公司 | 智能名片的制作方法、智能销售系统及存储介质 |
CN117274504B (zh) * | 2023-11-17 | 2024-03-01 | 深圳市加推科技有限公司 | 智能名片的制作方法、智能销售系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111931908B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN111931908A (zh) | 一种基于人脸轮廓的人脸图像自动生成方法 | |
CN110543846B (zh) | 一种基于生成对抗网络的多姿态人脸图像正面化方法 | |
CN109919830B (zh) | 一种基于美学评价的带参考人眼图像修复方法 | |
CN108268859A (zh) | 一种基于深度学习的人脸表情识别方法 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN112950661A (zh) | 一种基于注意力生成对抗网络人脸卡通画生成方法 | |
CN112163498B (zh) | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 | |
CN114758288B (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN108830237B (zh) | 一种人脸表情的识别方法 | |
CN112395951B (zh) | 一种面向复杂场景的域适应交通目标检测与识别方法 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN113112416B (zh) | 一种语义引导的人脸图像修复方法 | |
CN112418032B (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
US12056909B2 (en) | Method and apparatus for face recognition robust to alignment status of the face | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN115512103A (zh) | 多尺度融合遥感图像语义分割方法及系统 | |
Nie et al. | Urca-gan: Upsample residual channel-wise attention generative adversarial network for image-to-image translation | |
CN112669343A (zh) | 一种基于深度学习的壮族少数民族服饰分割方法 | |
CN115546461A (zh) | 一种基于掩膜去噪和特征选择的人脸属性编辑方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN114360051A (zh) | 一种基于渐进式层级加权注意网络的细粒度行为识别方法 | |
CN112016592B (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |