CN116612211B - 一种基于gan和3d系数重建的人脸图像身份合成方法 - Google Patents
一种基于gan和3d系数重建的人脸图像身份合成方法 Download PDFInfo
- Publication number
- CN116612211B CN116612211B CN202310505074.XA CN202310505074A CN116612211B CN 116612211 B CN116612211 B CN 116612211B CN 202310505074 A CN202310505074 A CN 202310505074A CN 116612211 B CN116612211 B CN 116612211B
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- block
- convolution
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 18
- 230000004927 fusion Effects 0.000 claims description 105
- 230000006870 function Effects 0.000 claims description 91
- 230000004913 activation Effects 0.000 claims description 84
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 36
- 230000003044 adaptive effect Effects 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 15
- 230000008447 perception Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 8
- 241000282326 Felis catus Species 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 208000032538 Depersonalisation Diseases 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 230000008685 targeting Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 5
- 238000003786 synthesis reaction Methods 0.000 abstract description 4
- 238000005286 illumination Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
一种基于GAN和3D系数重建的人脸图像身份合成方法,通过从2D图像提取3D系数特征,从而将源图像和目标图像中的人脸进行3D建模,能够保留人脸图像更多的几何结构信息,并生成高质量的人脸合成图像。与传统的人脸图像身份合成方法不同,3D系数重建人脸图像身份合成方法可以获得更多的表情、姿态、光照和纹理等方面的信息,同时能够更好地处理遮挡和局部缺失等问题。
Description
技术领域
本发明涉及人脸图像身份合成领域,具体涉及一种基于GAN和3D系数重建的人脸图像身份合成方法。
背景技术
人脸图像身份合成是一种自动将源图像的人脸身份转移到目标图像上的技术,同时保持目标图像上所有其他与身份无关的内容未被修改的技术。受益于深度神经网络的快速发展,该技术经常被用于娱乐和教育领域,尽管有时候合成的结果并不能使人完全满意,但是,来自该行业的需求逐渐引起了人们对该研究领域的关注。
常用的人脸图像身份合成模型通常分别从源图像和目标图像中获取身份信息和属性信息,并进行特征融合,最后生成合成的人脸。这些方法专注于如何将身份信息和属性信息从2D图像中充分的解纠缠,然而,2D图像中缺乏一些3D系数特征,使得生成的图像不能使人满意,因此基于3D系数的人脸图像身份合成方法在保留特征属性方面具有巨大的优势。基于3D重建技术,通过对源图像和目标图像中的人脸进行3D建模并重组,从而保留更多的几何结构信息,并生成高质量的人脸合成图像,它与传统方法不同,3D系数重建人脸图像人脸图像身份合成方法可以获得图像中更多的表情、姿态、光照和纹理等方面的信息,同时能够更好地处理遮挡和局部缺失等问题。
发明内容
本发明为了克服以上技术的不足,提供了一种可以获得更多信息,生成高质量人脸合成图像的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于GAN和3D系数重建的人脸图像身份合成方法,包括如下步骤:
a)对目标视频Vt进行检测,提取出n个目标人脸图像,将源人脸图像Is与各个目标人脸图像进行对齐;
b)建立3D系数融合感知网络,将源人脸图像Is和目标人脸图像输入到3D系数融合感知网络中,得到3D系数融合特征Ffuse;
c)建立特征融合-生成式网络,将目标人脸图像和3D系数融合特征Ffuse输入到特征融合-生成式网络中,输出得到交换身份后的人脸图像
d)通过损失函数迭代优化交换身份后的人脸图像
e)将交换身份后的人脸图像集Ifake合成视频Vfake。
进一步的,步骤a)包括如下步骤:
a-1)使用opencv读取目标视频Vt,使用dlib人脸检测工具对目标视频Vt的每一帧提取图像,得到n个目标人脸图像的集合It,其中/>为第i个目标人脸图像,i∈{1,...,n};a-2)使用dlib人脸检测工具将源人脸图像Is与第i个人脸图像/>进行对齐。
进一步的,步骤b)包括如下步骤:
b-1)3D系数融合感知网络由3D编码器和身份编码器Eid构成;
b-2)3D系数融合感知网络的3D编码器由预训练的Deep3DFaceRecon网络构成,将源人脸图像Is输入到3D编码器中,输出得到源人脸图像的3D身份系数特征将第i个目标人脸图像/>输入到3D编码器中,输出得到目标人脸图像的3D属性系数特征Ft 3D;
b-3)使用torch.cat()函数将源人脸图像的3D身份系数特征与目标人脸图像的3D属性系数特征Ft 3D进行拼接,得到3D系数融合特征/>
b-4)3D系数融合感知网络的身份编码器Eid由第一下采样残差块、第二下采样残差块、第一全局自注意力块、第二全局自注意力块构成;
b-5)身份编码器Eid的第一下采样残差块由第一分支、第二分支构成,第一分支依次由卷积层、下采样层构成,第二分支依次由卷积层、正则化层、ReLU激活函数层、下采样层构成,将源人脸图像Is输入到第一下采样残差块的第一分支中,输出得到特征将源人脸图像Is输入到第一下采样残差块的第二分支中,输出得到特征/>将特征/>与特征相加得到融合特征/>
b-6)身份编码器Eid的第一全局自注意力块由第一分支、第二分支构成,第一分支依次由卷积层、下采样层构成,第二分支依次由第一卷积层、第一正则化层、第一ReLU激活函数层、自注意力层、下采样层、第二卷积层、第二正则化层、第二ReLU激活函数层构成,将融合特征输入到第一全局自注意力块的第一分支中,输出得到特征/>将融合特征输入到第一全局自注意力块的第二分支中,输出得到特征/>将特征/>与特征相加得到融合特征/>
b-7)身份编码器Eid的第二下采样残差块由第一分支、第二分支构成,第一分支依次由卷积层、下采样层构成,第二分支依次由卷积层、正则化层、ReLU激活函数层、下采样层构成,将融合特征输入到第一下采样残差块的第一分支中,输出得到特征/>将融合特征/>输入到第二下采样残差块的第二分支中,输出得到特征/>将特征/>与特征相加得到融合特征/>
b-8)身份编码器Eid的第二全局自注意力块由第一分支、第二分支构成,第一分支依次由卷积层、下采样层构成,第二分支依次由第一卷积层、第一正则化层、第一ReLU激活函数层、自注意力层、下采样层、第二卷积层、第二正则化层、第二ReLU激活函数层构成,将融合特征输入到第一全局自注意力块的第一分支中,输出得到特征/>将融合特征输入到第二全局自注意力块的第二分支中,输出得到特征/>将特征/>与特征相加得到身份特征Fid;
b-9)使用torch.cat()函数将3D系数融合特征与身份特征Fid进行拼接,得到3D系数融合特征Ffuse。
优选的,步骤b-5)中第一下采样残差块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0,第一下采样残差块的第二分支的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤b-6)中第一全局自注意力块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0,第一全局自注意力块的第二分支的第一卷积层和第二卷积层的卷积核大小均为3×3、步长为1、填充为1;步骤b-7)中第二下采样残差块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0,第一下采样残差块的第二分支的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤b-8)中第二全局自注意力块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0,第一全局自注意力块的第二分支的第一卷积层和第二卷积层的卷积核大小均为3×3、步长为1、填充为1。
进一步的,步骤c)包括如下步骤:
c-1)特征融合-生成式网络由属性编码器Eattr、特征融合网络、解码器网络构成;
c-2)特征融合-生成式网络的属性编码器Eattr由第一下采样块、第二下采样块、第三下采样块、第四下采样块、MLP模块构成;
c-3)属性编码器Eattr的第一下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成,将第i个目标人脸图像输入到第一下采样块中,输出得到特征Ft 1,属性编码器Eattr的第二下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成,将特征Ft 1输入到第二下采样块中,输出得到特征Ft 2,属性编码器Eattr的MLP模块依次由第一Linear层、ReLU激活函数层、第二Linear层构成,将特征Ft 2输入到MLP模块中,输出得到特征Ft 3,属性编码器Eattr的第三下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成,将特征Ft 3输入到第三下采样块中,输出得到特征Ft 4,属性编码器Eattr的第四下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成,将特征Ft 4输入到第四下采样块中,输出得到属性特征Ft;
c-4)特征融合网络由第一自适应特征融合块、第二自适应特征融合块、第三自适应特征融合块构成;
c-5)特征融合网络的第一自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成,第一adain层由正则化层、第一卷积层、第二卷积层构成,第二adain层由正则化层、第一卷积层、第二卷积层构成,将属性特征Ft输入到第一adain层的正则化层中,输出得到特征Ft adain1-1,将3D系数融合特征Ffuse输入到第一adain层的第一卷积层中,输出得到特征将3D系数融合特征Ffuse输入到第一adain层的第二卷积层中,输出得到特征/>将特征Ft adain1-1与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征/>依次输入到第一自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中,输出得到特征/>将特征/>输入到第二adain层的正则化层中,输出得到特征Ft adain2-1,将3D系数融合特征Ffuse输入到第二adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第二卷积层中,输出得到特征/>将特征Ft adain2-1与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征依次输入到第一自适应特征融合块的第二ReLU激活函数层、第二卷积层中,输出得到特征/>c-6)特征融合网络的第二自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成,第一adain层由正则化层、第一卷积层、第二卷积层构成,第二adain层由正则化层、第一卷积层、第二卷积层构成,将特征/>输入到第一adain层的正则化层中,输出得到特征/>将3D系数融合特征Ffuse输入到第一adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第一adain层的第二卷积层中,输出得到特征/>将特征与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征/>依次输入到第二自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中,输出得到特征/>将特征/>输入到第二adain层的正则化层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第二卷积层中,输出得到特征/>将特征/>与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征依次输入到第二自适应特征融合块的第二ReLU激活函数层、第二卷积层中,输出得到特征/>c-7)特征融合网络的第三自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成,第一adain层由正则化层、第一卷积层、第二卷积层构成,第二adain层由正则化层、第一卷积层、第二卷积层构成,将特征/>输入到第一adain层的正则化层中,输出得到特征/>将3D系数融合特征Ffuse输入到第一adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第一adain层的第二卷积层中,输出得到特征/>将特征与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征/>依次输入到第三自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中,输出得到特征/>将特征/>输入到第二adain层的正则化层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第二卷积层中,输出得到特征/>将特征/>与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征依次输入到第三自适应特征融合块的第二ReLU激活函数层、第二卷积层中,输出得到特征/>c-8)解码器网络由第一上采样块、第二上采样块、第三上采样块、第四上采样块构成;
c-9)解码器网络的第一上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成,将特征输入到第一上采样块中,输出得到特征/>
c-10)解码器网络的第二上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成,将特征输入到第二上采样块中,输出得到特征/>
c-11)解码器网络的第三上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成,将特征输入到第三上采样块中,输出得到特征/>
c-12)解码器网络的第四上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成,将特征输入到第四上采样块中,输出得到交换身份后的人脸图像/>优选的,步骤c-3)中第一下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1,第二下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1,第三下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1,第四下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤c-5)中第一自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1;步骤c-6)中第二自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1;步骤c-7)中第三自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1;步骤c-9)中第一上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤c-10)中第二上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤c-11)中第三上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤c-12)中第四上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1。进一步的,步骤d)包括如下步骤:
d-1)将第i个目标人脸图像输入到多尺度判别器Dr,输出得到特征/>将交换身份后的人脸图像/>输入到多尺度判别器Dr,输出得到特征/>通过公式计算得到真实损失lossT,式中ReLU(·)为ReLU激活函数,torch.ones_like(·)为torch.ones_like函数,通过公式计算得到真实损失lossF,通过公式lossD=lossT+lossF计算得到真假损失lossD;
d-2)通过dlib人脸检测工具提取第i个目标人脸图像的人脸关键点Lt,通过dlib人脸检测工具提取源人脸图像Is的人脸关键点Ls,通过dlib人脸检测工具提取交换身份后的人脸图像/>的人脸关键点Lfake,通过公式lossshape=||Lfake-Ls||1+||Lfake-Lt||1计算形状感知损失lossshape,||·||1为L1范数;
d-3)将交换身份后的人脸图像替代步骤b-5)中的源人脸图像Is后重复执行步骤b-5)至步骤b-8),得到交换身份后的图像特征Ffake,通过公式lossid=1-cos(Fid,Ffake)计算得到身份损失lossid,式中cos(·,·)为计算两者的余弦相似度;
d-4)通过公式计算得到重建损失lossrec;d-5)将交换身份后的人脸图像/>替代步骤b)中源人脸图像Is后重复执行步骤b)至步骤c),得到新的交换身份后的人脸图像/>通过公式/>计算得到循环一致性损失losscyc;
d-6)使用反向传播法,利用真假损失lossD、形状感知损失lossshape、身份损失lossid、重建损失lossrec、循环一致性损失losscyc迭代优化交换身份后的人脸图像进一步的,步骤e)包括如下步骤:
e-1)所有n个交换身份后的人脸图像形成交换身份后的人脸图像集Ifake,e-2)通过多媒体处理工具ffmpeg将交换身份后的人脸图像集Ifake合成视频Vfake。
本发明的有益效果是:通过从2D图像提取3D系数特征,从而将源图像和目标图像中的人脸进行3D建模,能够保留人脸图像更多的几何结构信息,并生成高质量的人脸合成图像。与传统的人脸图像身份合成方法不同,3D系数重建人脸图像身份合成方法可以获得更多的表情、姿态、光照和纹理等方面的信息,同时能够更好地处理遮挡和局部缺失等问题
附图说明
图1为本发明的3D系数融合感知网络的结构图;
图2为本发明的属性编码器的网络结构图;
图3为本发明的身份编码器的网络结构图;
图4为本发明的解码器网络的结构图;
图5为本发明的特征融合网络的结构图。
具体实施方式
下面结合附图1至附图5对本发明做进一步说明。
一种基于GAN和3D系数重建的人脸图像身份合成方法,包括如下步骤:
a)对目标视频Vt进行检测,提取出n个目标人脸图像,将源人脸图像Is与各个目标人脸图像进行对齐。最终使提取的图像大小为512×512像素。
b)建立3D系数融合感知网络,将源人脸图像Is和目标人脸图像输入到3D系数融合感知网络中,得到3D系数融合特征Ffuse。
c)建立特征融合-生成式网络,将目标人脸图像和3D系数融合特征Ffuse输入到特征融合-生成式网络中,输出得到交换身份后的人脸图像
d)通过损失函数迭代优化交换身份后的人脸图像
e)将交换身份后的人脸图像集Ifake合成视频Vfake。
本发明提出了一种两阶段网络架构的人脸图像身份合成方法。在第一阶段网络中分别提取源人脸图像的3D身份系数特征和目标人脸图像的3D属性系数特征,并将3D身份系数特征和3D属性系数特征重组形成一个新的3D系数特征。然后提取源人脸图像的身份特征与3D系数特征重组成3D融合特征。在第二阶段网络中,首先提取目标人脸的属性特征和语义特征,然后将第一阶段网络中的3D融合特征与目标人脸的属性特征和语义特征融合,最后通过解码器生成交换身份后的人脸图像。
实施例1:
步骤a)包括如下步骤:
a-1)使用opencv读取目标视频Vt,使用dlib人脸检测工具对目标视频Vt的每一帧提取图像,得到n个目标人脸图像的集合It,其中/>为第i个目标人脸图像,i∈{1,...,n}。a-2)使用dlib人脸检测工具将源人脸图像Is与第i个人脸图像/>进行对齐。
实施例2:
步骤b)包括如下步骤:
b-1)3D系数融合感知网络由3D编码器和身份编码器Eid构成。
b-2)3D系数融合感知网络的3D编码器由预训练的Deep3DFaceRecon网络构成,将源人脸图像Is输入到3D编码器中,输出得到源人脸图像的3D身份系数特征将第i个目标人脸图像/>输入到3D编码器中,输出得到目标人脸图像的3D属性系数特征Ft 3D。
b-3)使用torch.cat()函数将源人脸图像的3D身份系数特征与目标人脸图像的3D属性系数特征Ft 3D进行拼接,得到3D系数融合特征/>b-4)3D系数融合感知网络的身份编码器Eid由第一下采样残差块、第二下采样残差块、第一全局自注意力块、第二全局自注意力块构成。
b-5)身份编码器Eid的第一下采样残差块由第一分支、第二分支构成,第一分支依次由卷积层、下采样层构成,第二分支依次由卷积层、正则化层、ReLU激活函数层、下采样层构成,将源人脸图像Is输入到第一下采样残差块的第一分支中,输出得到特征将源人脸图像Is输入到第一下采样残差块的第二分支中,输出得到特征/>将特征/>与特征相加得到融合特征/>
b-6)身份编码器Eid的第一全局自注意力块由第一分支、第二分支构成,第一分支依次由卷积层、下采样层构成,第二分支依次由第一卷积层、第一正则化层、第一ReLU激活函数层、自注意力层、下采样层、第二卷积层、第二正则化层、第二ReLU激活函数层构成,将融合特征输入到第一全局自注意力块的第一分支中,输出得到特征/>将融合特征输入到第一全局自注意力块的第二分支中,输出得到特征/>将特征/>与特征相加得到融合特征/>
b-7)身份编码器Eid的第二下采样残差块由第一分支、第二分支构成,第一分支依次由卷积层、下采样层构成,第二分支依次由卷积层、正则化层、ReLU激活函数层、下采样层构成,将融合特征输入到第一下采样残差块的第一分支中,输出得到特征/>将融合特征/>输入到第二下采样残差块的第二分支中,输出得到特征/>将特征/>与特征相加得到融合特征/>
b-8)身份编码器Eid的第二全局自注意力块由第一分支、第二分支构成,第一分支依次由卷积层、下采样层构成,第二分支依次由第一卷积层、第一正则化层、第一ReLU激活函数层、自注意力层、下采样层、第二卷积层、第二正则化层、第二ReLU激活函数层构成,将融合特征输入到第一全局自注意力块的第一分支中,输出得到特征/>将融合特征输入到第二全局自注意力块的第二分支中,输出得到特征/>将特征/>与特征相加得到身份特征Fid。
b-9)使用torch.cat()函数将3D系数融合特征与身份特征Fid进行拼接,得到3D系数融合特征Ffuse。
在该实施例中,优选的,步骤b-5)中第一下采样残差块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0,第一下采样残差块的第二分支的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤b-6)中第一全局自注意力块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0,第一全局自注意力块的第二分支的第一卷积层和第二卷积层的卷积核大小均为3×3、步长为1、填充为1;步骤b-7)中第二下采样残差块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0,第一下采样残差块的第二分支的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤b-8)中第二全局自注意力块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0,第一全局自注意力块的第二分支的第一卷积层和第二卷积层的卷积核大小均为3×3、步长为1、填充为1。
实施例3:
步骤c)包括如下步骤:
c-1)特征融合-生成式网络由属性编码器Eattr、特征融合网络、解码器网络构成。
c-2)特征融合-生成式网络的属性编码器Eattr由第一下采样块、第二下采样块、第三下采样块、第四下采样块、MLP模块构成。
c-3)属性编码器Eattr的第一下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成,将第i个目标人脸图像输入到第一下采样块中,输出得到特征Ft 1,属性编码器Eattr的第二下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成,将特征Ft 1输入到第二下采样块中,输出得到特征Ft 2,属性编码器Eattr的MLP模块依次由第一Linear层、ReLU激活函数层、第二Linear层构成,将特征Ft 2输入到MLP模块中,输出得到特征Ft 3,属性编码器Eattr的第三下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成,将特征Ft 3输入到第三下采样块中,输出得到特征Ft 4,属性编码器Eattr的第四下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成,将特征Ft 4输入到第四下采样块中,输出得到属性特征Ft。
c-4)特征融合网络由第一自适应特征融合块、第二自适应特征融合块、第三自适应特征融合块构成。
c-5)特征融合网络的第一自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成,第一adain层由正则化层、第一卷积层、第二卷积层构成,第二adain层由正则化层、第一卷积层、第二卷积层构成,将属性特征Ft输入到第一adain层的正则化层中,输出得到特征Ft adain1-1,将3D系数融合特征Ffuse输入到第一adain层的第一卷积层中,输出得到特征将3D系数融合特征Ffuse输入到第一adain层的第二卷积层中,输出得到特征/>将特征Ft adain1-1与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征/>依次输入到第一自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中,输出得到特征/>将特征/>输入到第二adain层的正则化层中,输出得到特征Ft adain2-1,将3D系数融合特征Ffuse输入到第二adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第二卷积层中,输出得到特征/>将特征Ft adain2-1与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征依次输入到第一自适应特征融合块的第二ReLU激活函数层、第二卷积层中,输出得到特征/>c-6)特征融合网络的第二自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成,第一adain层由正则化层、第一卷积层、第二卷积层构成,第二adain层由正则化层、第一卷积层、第二卷积层构成,将特征/>输入到第一adain层的正则化层中,输出得到特征/>将3D系数融合特征Ffuse输入到第一adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第一adain层的第二卷积层中,输出得到特征/>将特征与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征/>依次输入到第二自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中,输出得到特征/>将特征/>输入到第二adain层的正则化层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第二卷积层中,输出得到特征/>将特征/>与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征依次输入到第二自适应特征融合块的第二ReLU激活函数层、第二卷积层中,输出得到特征/>c-7)特征融合网络的第三自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成,第一adain层由正则化层、第一卷积层、第二卷积层构成,第二adain层由正则化层、第一卷积层、第二卷积层构成,将特征/>输入到第一adain层的正则化层中,输出得到特征/>将3D系数融合特征Ffuse输入到第一adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第一adain层的第二卷积层中,输出得到特征/>将特征与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征/>依次输入到第三自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中,输出得到特征/>将特征/>输入到第二adain层的正则化层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第二卷积层中,输出得到特征/>将特征/>与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征依次输入到第三自适应特征融合块的第二ReLU激活函数层、第二卷积层中,输出得到特征/>c-8)解码器网络由第一上采样块、第二上采样块、第三上采样块、第四上采样块构成。
c-9)解码器网络的第一上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成,将特征输入到第一上采样块中,输出得到特征/>
c-10)解码器网络的第二上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成,将特征输入到第二上采样块中,输出得到特征/>
c-11)解码器网络的第三上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成,将特征输入到第三上采样块中,输出得到特征/>
c-12)解码器网络的第四上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成,将特征输入到第四上采样块中,输出得到交换身份后的人脸图像/>在该实施例中,优选的,步骤c-3)中第一下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1,第二下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1,第三下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1,第四下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤c-5)中第一自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1;步骤c-6)中第二自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1;步骤c-7)中第三自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1;步骤c-9)中第一上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤c-10)中第二上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤c-11)中第三上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤c-12)中第四上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1。
实施例4:
步骤d)包括如下步骤:
d-1)将第i个目标人脸图像输入到多尺度判别器Dr,输出得到特征/>将交换身份后的人脸图像/>输入到多尺度判别器Dr,输出得到特征/>通过公式计算得到真实损失lossT,式中ReLU(·)为ReLU激活函数,torch.ones_like(·)为torch.ones_like函数,通过公式计算得到真实损失lossF,通过公式lossD=lossT+lossF计算得到真假损失lossD。
d-2)通过dlib人脸检测工具提取第i个目标人脸图像的人脸关键点Lt,通过dlib人脸检测工具提取源人脸图像Is的人脸关键点Ls,通过dlib人脸检测工具提取交换身份后的人脸图像/>的人脸关键点Lfake,通过公式lossshape=||Lfake-Ls||1+||Lfake-Lt||1计算形状感知损失lossshape,||·||1为L1范数。
d-3)将交换身份后的人脸图像替代步骤b-5)中的源人脸图像Is后重复执行步骤b-5)至步骤b-8),得到交换身份后的图像特征Ffake,通过公式lossid=1-cos(Fid,Ffake)计算得到身份损失lossid,式中cos(·,·)为计算两者的余弦相似度。
d-4)通过公式计算得到重建损失lossrec。通过重建损失进行像素级的监督。
d-5)将交换身份后的人脸图像替代步骤b)中源人脸图像Is后重复执行步骤b)至步骤c),得到新的交换身份后的人脸图像/>通过公式/>计算得到循环一致性损失losscyc。
d-6)使用反向传播法,利用真假损失lossD、形状感知损失lossshape、身份损失lossid、重建损失lossrec、循环一致性损失losscyc迭代优化交换身份后的人脸图像实施例5:
步骤e)包括如下步骤:
e-1)所有n个交换身份后的人脸图像形成交换身份后的人脸图像集Ifake,e-2)通过多媒体处理工具ffmpeg将交换身份后的人脸图像集Ifake合成视频Vfake。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于GAN和3D系数重建的人脸图像身份合成方法,其特征在于,包括如下步骤:
a)对目标视频Vt进行检测,提取出n个目标人脸图像,将源人脸图像Is与各个目标人脸图像进行对齐;
b)建立3D系数融合感知网络,将源人脸图像Is和目标人脸图像输入到3D系数融合感知网络中,得到3D系数融合特征Ffuse;
c)建立特征融合-生成式网络,将目标人脸图像和3D系数融合特征Ffuse输入到特征融合-生成式网络中,输出得到交换身份后的人脸图像
d)通过损失函数迭代优化交换身份后的人脸图像
e)将交换身份后的人脸图像集Ifake合成视频Vfake;
步骤a)包括如下步骤:
a-1)使用opencv读取目标视频Vt,使用dlib人脸检测工具对目标视频Vt的每一帧提取图像,得到n个目标人脸图像的集合It,其中/>为第i个目标人脸图像,i∈{1,...,n};
a-2)使用dlib人脸检测工具将源人脸图像Is与第i个人脸图像进行对齐;
步骤b)包括如下步骤:
b-1)3D系数融合感知网络由3D编码器和身份编码器Eid构成;
b-2)3D系数融合感知网络的3D编码器由预训练的Deep3DFaceRecon网络构成,将源人脸图像Is输入到3D编码器中,输出得到源人脸图像的3D身份系数特征Fs 3D,将第i个目标人脸图像输入到3D编码器中,输出得到目标人脸图像的3D属性系数特征Ft 3D;
b-3)使用torch.cat()函数将源人脸图像的3D身份系数特征Fs 3D与目标人脸图像的3D属性系数特征Ft 3D进行拼接,得到3D系数融合特征
b-4)3D系数融合感知网络的身份编码器Eid由第一下采样残差块、第二下采样残差块、第一全局自注意力块、第二全局自注意力块构成;
b-5)身份编码器Eid的第一下采样残差块由第一分支、第二分支构成,第一分支依次由卷积层、下采样层构成,第二分支依次由卷积层、正则化层、ReLU激活函数层、下采样层构成,将源人脸图像Is输入到第一下采样残差块的第一分支中,输出得到特征Fs 1-1,将源人脸图像Is输入到第一下采样残差块的第二分支中,输出得到特征Fs 1-2,将特征Fs 1-1与特征Fs 1-2相加得到融合特征Fs 1;
b-6)身份编码器Eid的第一全局自注意力块由第一分支、第二分支构成,第一分支依次由卷积层、下采样层构成,第二分支依次由第一卷积层、第一正则化层、第一ReLU激活函数层、自注意力层、下采样层、第二卷积层、第二正则化层、第二ReLU激活函数层构成,将融合特征Fs 1输入到第一全局自注意力块的第一分支中,输出得到特征Fs 2-1,将融合特征Fs 1输入到第一全局自注意力块的第二分支中,输出得到特征Fs 2-2,将特征Fs 2-1与特征Fs 2-2相加得到融合特征Fs 2;
b-7)身份编码器Eid的第二下采样残差块由第一分支、第二分支构成,第一分支依次由卷积层、下采样层构成,第二分支依次由卷积层、正则化层、ReLU激活函数层、下采样层构成,将融合特征Fs 2输入到第一下采样残差块的第一分支中,输出得到特征Fs 3-1,将融合特征Fs 2输入到第二下采样残差块的第二分支中,输出得到特征Fs 3-2,将特征Fs 3-1与特征Fs 3-2相加得到融合特征Fs 3;
b-8)身份编码器Eid的第二全局自注意力块由第一分支、第二分支构成,第一分支依次由卷积层、下采样层构成,第二分支依次由第一卷积层、第一正则化层、第一ReLU激活函数层、自注意力层、下采样层、第二卷积层、第二正则化层、第二ReLU激活函数层构成,将融合特征Fs 3输入到第一全局自注意力块的第一分支中,输出得到特征Fs 4-1,将融合特征Fs 3输入到第二全局自注意力块的第二分支中,输出得到特征Fs 4-2,将特征Fs 4-1与特征Fs 4-2相加得到身份特征Fid;
b-9)使用torch.cat()函数将3D系数融合特征与身份特征Fid进行拼接,得到3D系数融合特征Ffuse。
2.根据权利要求1所述的基于GAN和3D系数重建的人脸图像身份合成方法,其特征在于:步骤b-5)中第一下采样残差块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0,第一下采样残差块的第二分支的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤b-6)中第一全局自注意力块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0,第一全局自注意力块的第二分支的第一卷积层和第二卷积层的卷积核大小均为3×3、步长为1、填充为1;步骤b-7)中第二下采样残差块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0,第一下采样残差块的第二分支的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤b-8)中第二全局自注意力块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0,第一全局自注意力块的第二分支的第一卷积层和第二卷积层的卷积核大小均为3×3、步长为1、填充为1。
3.根据权利要求1所述的基于GAN和3D系数重建的人脸图像身份合成方法,其特征在于,步骤c)包括如下步骤:
c-1)特征融合-生成式网络由属性编码器Eattr、特征融合网络、解码器网络构成;
c-2)特征融合-生成式网络的属性编码器Eattr由第一下采样块、第二下采样块、第三下采样块、第四下采样块、MLP模块构成;
c-3)属性编码器Eattr的第一下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成,将第i个目标人脸图像输入到第一下采样块中,输出得到特征Ft 1,属性编码器Eattr的第二下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成,将特征Ft 1输入到第二下采样块中,输出得到特征Ft 2,属性编码器Eattr的MLP模块依次由第一Linear层、ReLU激活函数层、第二Linear层构成,将特征Ft 2输入到MLP模块中,输出得到特征Ft 3,属性编码器Eattr的第三下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成,将特征Ft 3输入到第三下采样块中,输出得到特征Ft 4,属性编码器Eattr的第四下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成,将特征Ft 4输入到第四下采样块中,输出得到属性特征Ft;
c-4)特征融合网络由第一自适应特征融合块、第二自适应特征融合块、第三自适应特征融合块构成;
c-5)特征融合网络的第一自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成,第一adain层由正则化层、第一卷积层、第二卷积层构成,第二adain层由正则化层、第一卷积层、第二卷积层构成,将属性特征Ft输入到第一adain层的正则化层中,输出得到特征Ft adain1-1,将3D系数融合特征Ffuse输入到第一adain层的第一卷积层中,输出得到特征将3D系数融合特征Ffuse输入到第一adain层的第二卷积层中,输出得到特征/>将特征Ft adain1-1与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征/>依次输入到第一自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中,输出得到特征/>将特征/>输入到第二adain层的正则化层中,输出得到特征Ft adain2-1,将3D系数融合特征Ffuse输入到第二adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第二卷积层中,输出得到特征/>将特征Ft adain2-1与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征/>依次输入到第一自适应特征融合块的第二ReLU激活函数层、第二卷积层中,输出得到特征/>
c-6)特征融合网络的第二自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成,第一adain层由正则化层、第一卷积层、第二卷积层构成,第二adain层由正则化层、第一卷积层、第二卷积层构成,将特征输入到第一adain层的正则化层中,输出得到特征/>将3D系数融合特征Ffuse输入到第一adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第一adain层的第二卷积层中,输出得到特征/>将特征/>与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征/>依次输入到第二自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中,输出得到特征/>将特征/>输入到第二adain层的正则化层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第二卷积层中,输出得到特征/>将特征/>与特征/>相乘得到特征将特征/>与特征/>相加,输出得到特征/>将特征/>依次输入到第二自适应特征融合块的第二ReLU激活函数层、第二卷积层中,输出得到特征
c-7)特征融合网络的第三自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成,第一adain层由正则化层、第一卷积层、第二卷积层构成,第二adain层由正则化层、第一卷积层、第二卷积层构成,将特征输入到第一adain层的正则化层中,输出得到特征/>将3D系数融合特征Ffuse输入到第一adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第一adain层的第二卷积层中,输出得到特征/>将特征/>与特征/>相乘得到特征/>将特征/>与特征/>相加,输出得到特征/>将特征/>依次输入到第三自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中,输出得到特征/>将特征/>输入到第二adain层的正则化层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第一卷积层中,输出得到特征/>将3D系数融合特征Ffuse输入到第二adain层的第二卷积层中,输出得到特征/>将特征/>与特征/>相乘得到特征将特征/>与特征/>相加,输出得到特征/>将特征/>依次输入到第三自适应特征融合块的第二ReLU激活函数层、第二卷积层中,输出得到特征
c-8)解码器网络由第一上采样块、第二上采样块、第三上采样块、第四上采样块构成;
c-9)解码器网络的第一上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成,将特征输入到第一上采样块中,输出得到特征/>
c-10)解码器网络的第二上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成,将特征输入到第二上采样块中,输出得到特征/>
c-11)解码器网络的第三上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成,将特征输入到第三上采样块中,输出得到特征/>
c-12)解码器网络的第四上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成,将特征输入到第四上采样块中,输出得到交换身份后的人脸图像/>
4.根据权利要求3所述的基于GAN和3D系数重建的人脸图像身份合成方法,其特征在于:步骤c-3)中第一下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1,第二下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1,第三下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1,第四下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤c-5)中第一自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1;步骤c-6)中第二自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1;步骤c-7)中第三自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1;步骤c-9)中第一上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤c-10)中第二上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤c-11)中第三上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1;步骤c-12)中第四上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1。
5.根据权利要求1所述的基于GAN和3D系数重建的人脸图像身份合成方法,其特征在于,步骤d)包括如下步骤:
d-1)将第i个目标人脸图像输入到多尺度判别器Dr,输出得到特征/>将交换身份后的人脸图像/>输入到多尺度判别器Dr,输出得到特征/>通过公式计算得到真实损失lossT,式中ReLU(·)为ReLU激活函数,torch.ones_like(·)为torch.ones_like函数,通过公式计算得到真实损失lossF,通过公式lossD=lossT+lossF计算得到真假损失lossD;
d-2)通过dlib人脸检测工具提取第i个目标人脸图像的人脸关键点Lt,通过dlib人脸检测工具提取源人脸图像Is的人脸关键点Ls,通过dlib人脸检测工具提取交换身份后的人脸图像/>的人脸关键点Lfake,通过公式lossshape=||Lfake-Ls||1+||Lfake-Lt||1计算形状感知损失lossshape,||·||1为L1范数;
d-3)将交换身份后的人脸图像替代步骤b-5)中的源人脸图像Is后重复执行步骤b-5)至步骤b-8),得到交换身份后的图像特征Ffake,通过公式lossid=1-cos(Fid,Ffake)计算得到身份损失lossid,式中cos(·,·)为计算两者的余弦相似度;
d-4)通过公式计算得到重建损失lossrec;
d-5)将交换身份后的人脸图像替代步骤b)中源人脸图像Is后重复执行步骤b)至步骤c),得到新的交换身份后的人脸图像/>通过公式/>计算得到循环一致性损失losscyc;
d-6)使用反向传播法,利用真假损失lossD、形状感知损失lossshape、身份损失lossid、重建损失lossrec、循环一致性损失losscyc迭代优化交换身份后的人脸图像
6.根据权利要求3所述的基于GAN和3D系数重建的人脸图像身份合成方法,其特征在于,步骤e)包括如下步骤:
e-1)所有n个交换身份后的人脸图像形成交换身份后的人脸图像集
e-2)通过多媒体处理工具ffmpeg将交换身份后的人脸图像集Ifake合成视频Vfake。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505074.XA CN116612211B (zh) | 2023-05-08 | 2023-05-08 | 一种基于gan和3d系数重建的人脸图像身份合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505074.XA CN116612211B (zh) | 2023-05-08 | 2023-05-08 | 一种基于gan和3d系数重建的人脸图像身份合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116612211A CN116612211A (zh) | 2023-08-18 |
CN116612211B true CN116612211B (zh) | 2024-02-02 |
Family
ID=87675697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310505074.XA Active CN116612211B (zh) | 2023-05-08 | 2023-05-08 | 一种基于gan和3d系数重建的人脸图像身份合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612211B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315798B (zh) * | 2023-11-20 | 2024-03-12 | 齐鲁工业大学(山东省科学院) | 一种基于身份脸型特征的深度伪造检测方法 |
CN117853695B (zh) * | 2024-03-07 | 2024-05-03 | 成都信息工程大学 | 基于局部空间自注意力的3d感知图像合成方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805090A (zh) * | 2018-06-14 | 2018-11-13 | 广东工业大学 | 一种基于平面网格模型的虚拟试妆方法 |
CN109344693A (zh) * | 2018-08-13 | 2019-02-15 | 华南理工大学 | 一种基于深度学习的人脸多区域融合表情识别方法 |
CN113888399A (zh) * | 2021-10-25 | 2022-01-04 | 河北工业大学 | 一种基于风格融合与域选结构的人脸年龄合成方法 |
CN114359113A (zh) * | 2022-03-15 | 2022-04-15 | 天津市电子计算机研究所有限公司 | 一种人脸图像重建复原方法的检测方法及应用系统 |
CN114926581A (zh) * | 2022-04-22 | 2022-08-19 | 中国科学院软件研究所 | 二维到三维人脸表情迁移方法、电子装置及存储介质 |
CN115311720A (zh) * | 2022-08-11 | 2022-11-08 | 山东省人工智能研究院 | 一种基于Transformer的deepfake生成方法 |
CN115713680A (zh) * | 2022-11-18 | 2023-02-24 | 山东省人工智能研究院 | 一种基于语义引导的人脸图像身份合成方法 |
WO2023050992A1 (zh) * | 2021-09-30 | 2023-04-06 | 广州视源电子科技股份有限公司 | 用于人脸重建的网络训练方法、装置、设备及存储介质 |
CN115937429A (zh) * | 2022-12-20 | 2023-04-07 | 上海大学 | 一种基于单张图像的细粒度3d人脸重建方法 |
-
2023
- 2023-05-08 CN CN202310505074.XA patent/CN116612211B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805090A (zh) * | 2018-06-14 | 2018-11-13 | 广东工业大学 | 一种基于平面网格模型的虚拟试妆方法 |
CN109344693A (zh) * | 2018-08-13 | 2019-02-15 | 华南理工大学 | 一种基于深度学习的人脸多区域融合表情识别方法 |
WO2023050992A1 (zh) * | 2021-09-30 | 2023-04-06 | 广州视源电子科技股份有限公司 | 用于人脸重建的网络训练方法、装置、设备及存储介质 |
CN113888399A (zh) * | 2021-10-25 | 2022-01-04 | 河北工业大学 | 一种基于风格融合与域选结构的人脸年龄合成方法 |
CN114359113A (zh) * | 2022-03-15 | 2022-04-15 | 天津市电子计算机研究所有限公司 | 一种人脸图像重建复原方法的检测方法及应用系统 |
CN114926581A (zh) * | 2022-04-22 | 2022-08-19 | 中国科学院软件研究所 | 二维到三维人脸表情迁移方法、电子装置及存储介质 |
CN115311720A (zh) * | 2022-08-11 | 2022-11-08 | 山东省人工智能研究院 | 一种基于Transformer的deepfake生成方法 |
CN115713680A (zh) * | 2022-11-18 | 2023-02-24 | 山东省人工智能研究院 | 一种基于语义引导的人脸图像身份合成方法 |
CN115937429A (zh) * | 2022-12-20 | 2023-04-07 | 上海大学 | 一种基于单张图像的细粒度3d人脸重建方法 |
Non-Patent Citations (3)
Title |
---|
HifiFace: 3D Shape and Semantic Prior Guided High Fidelity Face Swapping;Wang, Yuhan;Computer Vision and Pattern Recognition;1-10 * |
基于多级时空域3D卷积的换脸视频检测方法;包晗等;信息安全学报;第7卷(第05期);29-38 * |
基于特征增强的人脸属性转换;魏子涵;王慧;王晶;高岚;张伟功;;微电子学与计算机(10);38-41+47 * |
Also Published As
Publication number | Publication date |
---|---|
CN116612211A (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116612211B (zh) | 一种基于gan和3d系数重建的人脸图像身份合成方法 | |
Alsaiari et al. | Image denoising using a generative adversarial network | |
CN112381716B (zh) | 一种基于生成式对抗网络的图像增强方法 | |
CN111951368B (zh) | 一种点云、体素和多视图融合的深度学习方法 | |
CN110363068B (zh) | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 | |
CN116246022B (zh) | 一种基于渐进式去噪引导的人脸图像身份合成方法 | |
US20230071559A1 (en) | Neural opacity point cloud | |
Yue et al. | IENet: Internal and external patch matching ConvNet for web image guided denoising | |
Krishnan et al. | SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference | |
Yuan et al. | Make encoder great again in 3d gan inversion through geometry and occlusion-aware encoding | |
CN115713680A (zh) | 一种基于语义引导的人脸图像身份合成方法 | |
Li et al. | High-resolution network for photorealistic style transfer | |
Li et al. | Neulighting: Neural lighting for free viewpoint outdoor scene relighting with unconstrained photo collections | |
Ren et al. | Facial geometric detail recovery via implicit representation | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
Rao et al. | Extreme feature regions detection and accurate quality assessment for point-cloud 3D reconstruction | |
Liu et al. | Facial image inpainting using multi-level generative network | |
Liu et al. | Component semantic prior guided generative adversarial network for face super-resolution | |
Zhang et al. | Enhanced visual perception for underwater images based on multistage generative adversarial network | |
Mu et al. | Neural 3D reconstruction from sparse views using geometric priors | |
Yang et al. | BareSkinNet: De‐makeup and De‐lighting via 3D Face Reconstruction | |
Porav et al. | Reducing Steganography In Cycle-consistency GANs. | |
CN116402908A (zh) | 一种基于异构式成像的密集光场图像重建方法 | |
CN113205005B (zh) | 一种面向低光照低分辨率的人脸图像幻构方法 | |
Wang et al. | Boosting light field image super resolution learnt from single-image prior |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |