CN116246022B - 一种基于渐进式去噪引导的人脸图像身份合成方法 - Google Patents
一种基于渐进式去噪引导的人脸图像身份合成方法 Download PDFInfo
- Publication number
- CN116246022B CN116246022B CN202310218283.6A CN202310218283A CN116246022B CN 116246022 B CN116246022 B CN 116246022B CN 202310218283 A CN202310218283 A CN 202310218283A CN 116246022 B CN116246022 B CN 116246022B
- Authority
- CN
- China
- Prior art keywords
- identity
- layer
- features
- downsampling
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000750 progressive effect Effects 0.000 title claims abstract description 86
- 238000001308 synthesis method Methods 0.000 title claims abstract description 14
- 230000004927 fusion Effects 0.000 claims description 169
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 116
- 238000010606 normalization Methods 0.000 claims description 109
- 230000004913 activation Effects 0.000 claims description 106
- 238000005070 sampling Methods 0.000 claims description 77
- 238000002156 mixing Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- LJROKJGQSPMTKB-UHFFFAOYSA-N 4-[(4-hydroxyphenyl)-pyridin-2-ylmethyl]phenol Chemical compound C1=CC(O)=CC=C1C(C=1N=CC=CC=1)C1=CC=C(O)C=C1 LJROKJGQSPMTKB-UHFFFAOYSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 18
- 230000008569 process Effects 0.000 abstract description 7
- 230000008447 perception Effects 0.000 abstract description 5
- 239000000284 extract Substances 0.000 abstract 1
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 208000032538 Depersonalisation Diseases 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
一种基于渐进式去噪引导的人脸图像身份合成方法,通过身份编码器充分提取身份特征,同时训练了一种渐进式身份去噪引导模型,过程中加入了身份引导和3D形状感知引导,使生成的人脸图像拥有更接近源图像帧身份和目标图像帧属性的特征。具有更好的稳定性,在百万分辨率条件下生成的图像仍然具有优势。
Description
技术领域
本发明涉及人脸身份图像合成技术领域,具体涉及一种基于渐进式去噪引导的人脸图像身份合成方法。
背景技术
网络信息化时代的发展,使得深度学习领域中的人脸身份合成技术走进日常生活,最常见的是手机app中出现的换脸功能,可以将自己的身份转移到某些明星身上,满足自身的娱乐性。此外,人脸身份合成技术在商业领域也取得很大的成就,例如,男星布鲁斯·威利斯利用自己的身份信息,为手机公司拍摄一部出色的广告。传统的人脸身份合成技术经历了从图像编辑方法到3D建模方法,再到使用生成对抗网络(GAN)技术。传统的图像编辑和3D建模,有大量人工参与的痕迹,出现效率低且生成的图像质量不高的问题。另外,基于生成对抗的技术与传统方式相比,它无需太多人工的参与,仅需要建立神经网络模型通过大量学习,即可生成图像,但是这种方法在训练期间拥有不稳定的特性,导致生成图像的质量良莠不齐。
发明内容
本发明为了克服以上技术的不足,提供了一种在训练过程中加入身份特征和3D形状感知特征用于引导图像的生成,能够生成质量更稳定、更真实的人脸图像的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于渐进式去噪引导的人脸图像身份合成方法,包括如下步骤:
a)对源视频Vs进行提取,提取出源图像帧Xs,对目标视频Vt进行提取,提取出目标图像帧Xt;
b)对图像帧Xs和图像帧Xt进行人脸检测并对齐,得到对齐后的源图像帧Xs和目标图像帧Xt;
c)建立身份编码器Eid,将源图像帧Xs输入到身份编码器Eid中提取出源图像帧Xs中的身份特征Fs;
d)建立渐进式身份去噪引导模型GID,将身份特征Fs、目标图像帧Xt及时间嵌入噪声Ttemb输入到渐进式身份去噪引导模型GID中,输出得到噪声图像Xnoise,时间嵌入噪声Ttemb为符合N(0,1)的高斯噪声;
e)利用损失函数迭代渐进式身份去噪引导模型GID,得到训练后的渐进式身份去噪引导模型GID;
f)将训练后的渐进式身份去噪引导模型GID输出的噪声图像Xnoise作为具有源图像帧Xs和目标图像帧Xt属性的人脸图像Xfake。
进一步的,步骤a)中利用opencv图像处理算法读取源视频Vs和目标视频Vt,分别提取得到图像帧Xs及图像帧Xt。
进一步的,步骤b)中利用MTCNN算法对图像帧Xs和图像帧Xt进行人脸检测并对齐。
进一步的,步骤c)包括如下步骤:
c-1)身份编码器Eid由第一卷积层、第一下采样残差块、第二下采样残差块、第三下采样残差块、瓶颈残差块、第二卷积层构成,第一下采样残差块、第二下采样残差块、第三下采样残差块均由第一分支和第二分支构成,第一下采样残差块、第二下采样残差块、第三下采样残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成,第一下采样残差块、第二下采样残差块、第三下采样残差块的第二分支均依次由卷积层、池化层构成,瓶颈残差块由第一分支和第二分支构成,瓶颈残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成,瓶颈残差块的第二分支依次由卷积层、池化层构成;
c-2)将源图像帧Xs输入到身份编码器Eid的第一卷积层中,输出得到特征Fs 1;c-3)将特征Fs 1输入到身份编码器Eid的第一下采样残差块的第一分支中,输出得到特征Fs 2-1,将特征Fs 1输入到身份编码器Eid的第一下采样残差块的第二分支中,输出得到特征Fs 2-2,将特征Fs 2-1与特征Fs 2-2相加得到混合特征Fs 2;
c-4)将混合特征Fs 2输入到身份编码器Eid的第二下采样残差块的第一分支中,输出得到特征Fs 3-1,将混合特征Fs 2输入到身份编码器Eid的第二下采样残差块的第二分支中,输出得到特征Fs 3-2,将特征Fs 3-1与特征Fs 3-2相加得到混合特征Fs 3;
c-5)将混合特征Fs 3输入到身份编码器Eid的第三下采样残差块的第一分支中,输出得到特征Fs 4-1,将混合特征Fs 3输入到身份编码器Eid的第三下采样残差块的第二分支中,输出得到特征Fs 4-2,将特征Fs 4-1与特征Fs 4-2相加得到混合特征Fs 4;
c-6)将混合特征Fs 4输入到身份编码器Eid的瓶颈残差块的第一分支中,输出得到特征Fs 5-1,将混合特征Fs 4输入到身份编码器Eid的瓶颈残差块的第二分支中,输出得到特征Fs 5-2,将特征Fs 5-1与特征Fs 5-2相加得到混合特征Fs 5;c-7)将混合特征Fs 5输入到身份编码器Eid的第二卷积层中,输出得到身份特征Fs。
优选的,步骤c-1)中第一卷积层的卷积核大小为3×3,步长为1,填充为1;步骤c-1)中第二卷积层的卷积核大小为4×4,步长为1,填充为0;步骤c-1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第一分支的卷积层的卷积核大小为3×3,步长为1,填充为1;步骤c-1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第二分支的卷积层的卷积核大小为1×1,步长为1,填充为0;步骤c-1)中瓶颈残差块的第一分支的卷积层的卷积核大小为3×3,步长为1,填充为1;步骤c-1)中瓶颈残差块的第二分支的卷积层的卷积核大小为1×1,步长为1,填充为0。
进一步的,步骤d)包括如下步骤:
d-1)渐进式身份去噪引导模型GID由第一卷积层、第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络、中间自注意力模块、第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络、第二卷积层构成,第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成,中间自注意力模块由第一身份融合瓶颈残差块、第二身份融合瓶颈残差块、自注意力机制构成,第一身份融合瓶颈残差块及第二身份融合瓶颈残差块均依次由第一BatchNorm归一化层、第一ReLU激活层、第二BatchNorm归一化层、第二ReLU激活层、卷积层构成,第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成;
d-2)将目标图像帧Xt输入到渐进式身份去噪引导模型GID的第一卷积层中,输出得到目标图像帧特征Ft;
d-3)将目标图像帧特征Ft依次输入到渐进式身份去噪引导模型GID的第一身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征将时间嵌入噪声Ttemb进行非线性归一化操作,将身份特征Fs与非线性归一化后的时间嵌入噪声Ttemb相加得到特征/>将特征/>与特征/>相加得到特征/>将特征依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-4)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第二身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-5)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第三身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第三BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-6)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第四身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第四BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-7)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第五身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第五BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-8)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第六身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第六BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-9)将特征/>依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中,输出得到特征/>d-10)将特征/>依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中,输出得到特征/>d-11)将特征输入到中间自注意力模块的自注意力机制中,输出得到特征Fmid;
d-12)将特征Fmid依次输入到渐进式身份去噪引导模型GID的第一身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-13)将特征/>依次输入到渐进式身份去噪引导模型GID的第二身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第二身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-14)将特征/>依次输入到渐进式身份去噪引导模型GID的第三身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第三身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-15)将特征/>依次输入到渐进式身份去噪引导模型GID的第四身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第四身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-16)将特征/>依次输入到渐进式身份去噪引导模型GID的第五身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第五身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-17)将特征/>依次输入到渐进式身份去噪引导模型GID的第六身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第六身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-18)将特征/>输入到渐进式身份去噪引导模型GID的第二卷积层中,输出得到噪声图像Xnoise。
优选的,步骤d-1)中渐进式身份去噪引导模型GID的第一卷积层及第二卷积层的卷积核大小均为3×3,步长均为1,填充均为1;步骤d-1)中第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3,步长均为1,填充均为1;步骤d-1)中第一身份融合瓶颈残差块及第二身份融合瓶颈残差块的卷积层的卷积核大小均为3×3,步长均为1,填充均为1;步骤d-1)中第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3,步长均为1,填充均为1。
进一步的,步骤e)包括如下步骤:
e-1)将噪声图像Xnoise和目标图像帧Xt输入到DDPM模型的噪声计算网络中,得到丢失噪声εr;
e-2)将噪声图像Xnoise替代步骤d-2)中的目标图像帧Xt后重复执行步骤d-2)至步骤d-18)后得到的噪声图像Xnoise,将噪声图像Xnoise替代步骤c-2)中的源图像帧Xs后重复执行步骤c-2)至步骤c-7)后得到身份特征Fs作为噪声图像特征Fnoise;
e-3)将噪声图像Xnoise输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征将目标图像帧Xt输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征/>e-4)通过公式Lidentity=1-cos(Fs,Fnoise)计算得到身份丢失损失Lidentity;e-5)通过公式计算得到3D形状丢失损失L3D,式中||·||2为L2范数;
e-6)通过公式计算得到噪声损失Lnoise,式中ε为高斯噪声;
e-7)通过反向传播法利用身份丢失损失Lidentity、3D形状丢失损失L3D、噪声损失Lnoise迭代渐进式身份去噪引导模型GID至500epochs,得到训练后的渐进式身份去噪引导模型GID。
本发明的有益效果是:通过身份编码器充分提取身份特征,同时训练了一种渐进式身份去噪引导模型,过程中加入了身份引导和3D形状感知引导,使生成的人脸图像拥有更接近源图像帧身份和目标图像帧属性的特征。具有更好的稳定性,在百万分辨率条件下生成的图像仍然具有优势。
附图说明
图1为本发明的渐进式身份去噪引导训练模型图;
图2为本发明的推理模型流程图;
图3为本发明的身份融合下采样残差块结构图;
图4为本发明的身份编码器中的下采样残差块结构图。
具体实施方式
下面结合附图1至附图4对本发明做进一步说明。
一种基于渐进式去噪引导的人脸图像身份合成方法,包括如下步骤:
a)对源视频Vs进行提取,提取出图像帧Xs,对目标视频Vt进行提取,提取出图像帧Xt。
b)对图像帧Xs和图像帧Xt进行人脸检测并对齐,得到对齐后的源图像帧Xs和目标图像帧Xt。
c)建立身份编码器Eid,将源图像帧Xs输入到身份编码器Eid中提取出源图像帧Xs中的身份特征Fs。
d)建立渐进式身份去噪引导模型GID,将身份特征Fs、目标图像帧Xt及时间嵌入噪声Ttemb输入到渐进式身份去噪引导模型GID中,输出得到噪声图像Xnoise,时间嵌入噪声Ttemb为符合N(0,1)的高斯噪声。
e)利用损失函数迭代渐进式身份去噪引导模型GID,得到训练后的渐进式身份去噪引导模型GID。
f)将训练后的渐进式身份去噪引导模型GID输出的噪声图像Xnoise作为具有源图像帧Xs和目标图像帧Xt属性的人脸图像Xfake。
先在正向过程中对人脸图像添加高斯噪声进行破坏图像,然后在反向过程中通过去除噪声生成图像,并且在生成过程中加入身份特征、3D形状感知特征以此来引导原始图像进行身份转换的人脸图像身份合成。通过身份编码器充分提取身份特征,同时训练了一种渐进式身份去噪引导模型,过程中加入了身份引导和3D形状感知引导,使生成的人脸图像拥有更接近源图像帧身份和目标图像帧属性的特征。此外,我们的模型比其他方法具有更好的稳定性,在百万分辨率条件下生成的图像仍然具有优势。
实施例1:
步骤a)中利用opencv图像处理算法读取源视频Vs和目标视频Vt,分别提取得到图像帧Xs及图像帧Xt。
实施例2:
步骤b)中利用MTCNN算法对图像帧Xs和图像帧Xt进行人脸检测并对齐。
实施例3:
步骤c)包括如下步骤:
c-1)身份编码器Eid由第一卷积层、第一下采样残差块、第二下采样残差块、第三下采样残差块、瓶颈残差块、第二卷积层构成,第一下采样残差块、第二下采样残差块、第三下采样残差块均由第一分支和第二分支构成,第一下采样残差块、第二下采样残差块、第三下采样残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成,第一下采样残差块、第二下采样残差块、第三下采样残差块的第二分支均依次由卷积层、池化层构成,瓶颈残差块由第一分支和第二分支构成,瓶颈残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成,瓶颈残差块的第二分支依次由卷积层、池化层构成。
c-2)将源图像帧Xs输入到身份编码器Eid的第一卷积层中,输出得到特征Fs 1。
c-3)将特征Fs 1输入到身份编码器Eid的第一下采样残差块的第一分支中,输出得到特征Fs 2-1,将特征Fs 1输入到身份编码器Eid的第一下采样残差块的第二分支中,输出得到特征Fs 2-2,将特征Fs 2-1与特征Fs 2-2相加得到混合特征Fs 2。
c-4)将混合特征Fs 2输入到身份编码器Eid的第二下采样残差块的第一分支中,输出得到特征Fs 3-1,将混合特征Fs 2输入到身份编码器Eid的第二下采样残差块的第二分支中,输出得到特征Fs 3-2,将特征Fs 3-1与特征Fs 3-2相加得到混合特征Fs 3。
c-5)将混合特征Fs 3输入到身份编码器Eid的第三下采样残差块的第一分支中,输出得到特征Fs 4-1,将混合特征Fs 3输入到身份编码器Eid的第三下采样残差块的第二分支中,输出得到特征Fs 4-2,将特征Fs 4-1与特征Fs 4-2相加得到混合特征Fs 4。
c-6)将混合特征Fs 4输入到身份编码器Eid的瓶颈残差块的第一分支中,输出得到特征Fs 5-1,将混合特征Fs 4输入到身份编码器Eid的瓶颈残差块的第二分支中,输出得到特征Fs 5-2,将特征Fs 5-1与特征Fs 5-2相加得到混合特征Fs 5;c-7)将混合特征Fs 5输入到身份编码器Eid的第二卷积层中,输出得到身份特征Fs。
实施例4:
步骤c-1)中第一卷积层的卷积核大小为3×3,步长为1,填充为1;步骤c-1)中第二卷积层的卷积核大小为4×4,步长为1,填充为0;步骤c-1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第一分支的卷积层的卷积核大小为3×3,步长为1,填充为1;步骤c-1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第二分支的卷积层的卷积核大小为1×1,步长为1,填充为0;步骤c-1)中瓶颈残差块的第一分支的卷积层的卷积核大小为3×3,步长为1,填充为1;步骤c-1)中瓶颈残差块的第二分支的卷积层的卷积核大小为1×1,步长为1,填充为0。
实施例5:
步骤d)包括如下步骤:
d-1)渐进式身份去噪引导模型GID由第一卷积层、第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络、中间自注意力模块、第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络、第二卷积层构成,第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成,中间自注意力模块由第一身份融合瓶颈残差块、第二身份融合瓶颈残差块、自注意力机制构成,第一身份融合瓶颈残差块及第二身份融合瓶颈残差块均依次由第一BatchNorm归一化层、第一ReLU激活层、第二BatchNorm归一化层、第二ReLU激活层、卷积层构成,第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成。
d-2)将目标图像帧Xt输入到渐进式身份去噪引导模型GID的第一卷积层中,输出得到目标图像帧特征Ft。
d-3)将目标图像帧特征Ft依次输入到渐进式身份去噪引导模型GID的第一身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征将时间嵌入噪声Ttemb进行非线性归一化操作,将身份特征Fs与非线性归一化后的时间嵌入噪声Ttemb相加得到特征/>将特征/>与特征/>相加得到特征/>将特征依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-4)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第二身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-5)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第三身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第三BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-6)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第四身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第四BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征d-7)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第五身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第五BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-8)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第六身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第六BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-9)将特征/>依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中,输出得到特征d-10)将特征/>依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中,输出得到特征/>d-11)将特征/>输入到中间自注意力模块的自注意力机制中,输出得到特征Fmid。
d-12)将特征Fmid依次输入到渐进式身份去噪引导模型GID的第一身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征将特征/>与特征Fu 1相加得到特征Fu 2,将特征Fu 2依次输入到第一身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-13)将特征/>依次输入到渐进式身份去噪引导模型GID的第二身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征Fu 4依次输入到第二身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-14)将特征/>依次输入到渐进式身份去噪引导模型GID的第三身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征Fu 6,将特征Fu 6依次输入到第三身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-15)将特征/>依次输入到渐进式身份去噪引导模型GID的第四身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征Fu 7,将特征/>与特征Fu 7相加得到特征/>将特征Fu 8依次输入到第四身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-16)将特征/>依次输入到渐进式身份去噪引导模型GID的第五身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第五身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-17)将特征/>依次输入到渐进式身份去噪引导模型GID的第六身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第六身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-18)将特征/>输入到渐进式身份去噪引导模型GID的第二卷积层中,输出得到噪声图像Xnoise。
实施例6:
步骤d-1)中渐进式身份去噪引导模型GID的第一卷积层及第二卷积层的卷积核大小均为3×3,步长均为1,填充均为1;步骤d-1)中第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3,步长均为1,填充均为1;步骤d-1)中第一身份融合瓶颈残差块及第二身份融合瓶颈残差块的卷积层的卷积核大小均为3×3,步长均为1,填充均为1;步骤d-1)中第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3,步长均为1,填充均为1。
实施例7:
步骤e)包括如下步骤:
e-1)将噪声图像Xnoise和目标图像帧Xt输入到DDPM模型的噪声计算网络中,得到丢失噪声εr。
e-2)将噪声图像Xnoise替代步骤d-2)中的目标图像帧Xt后重复执行步骤d-2)至步骤d-18)后得到的噪声图像Xnoise,将噪声图像Xnoise替代步骤c-2)中的源图像帧Xs后重复执行步骤c-2)至步骤c-7)后得到身份特征Fs作为噪声图像特征Fnoise。
e-3)将噪声图像Xnoise输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征将目标图像帧Xt输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征/>e-4)通过公式Lidentity=1-cos(Fs,Fnoise)计算得到身份丢失损失Lidentity。e-5)通过公式计算得到3D形状丢失损失L3D,式中||·||2为L2范数。
e-6)通过公式计算得到噪声损失Lnoise,式中ε为高斯噪声。
e-7)通过反向传播法利用身份丢失损失Lidentity、3D形状丢失损失L3D、噪声损失Lnoise迭代渐进式身份去噪引导模型GID至500epochs,得到训练后的渐进式身份去噪引导模型GID。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于渐进式去噪引导的人脸图像身份合成方法,其特征在于,包括如下步骤:
a)对源视频Vs进行提取,提取出图像帧Xs,对目标视频Vt进行提取,提取出图像帧Xt;
b)对图像帧Xs和图像帧Xt进行人脸检测并对齐,得到对齐后的源图像帧Xs和目标图像帧Xt;
c)建立身份编码器Eid,将源图像帧Xs输入到身份编码器Eid中提取出源图像帧Xs中的身份特征Fs;
d)建立渐进式身份去噪引导模型GID,将身份特征Fs、目标图像帧Xt及时间嵌入噪声Ttemb输入到渐进式身份去噪引导模型GID中,输出得到噪声图像Xnoise,时间嵌入噪声Ttemb为符合N(0,1)的高斯噪声;
e)利用损失函数迭代渐进式身份去噪引导模型GID,得到训练后的渐进式身份去噪引导模型GID;
f)将训练后的渐进式身份去噪引导模型GID输出的噪声图像Xnoise作为具有源图像帧Xs和目标图像帧Xt属性的人脸图像Xfake;
步骤d)包括如下步骤:
d-1)渐进式身份去噪引导模型GID由第一卷积层、第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络、中间自注意力模块、第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络、第二卷积层构成,第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成,中间自注意力模块由第一身份融合瓶颈残差块、第二身份融合瓶颈残差块、自注意力机制构成,第一身份融合瓶颈残差块及第二身份融合瓶颈残差块均依次由第一BatchNorm归一化层、第一ReLU激活层、第二BatchNorm归一化层、第二ReLU激活层、卷积层构成,第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成;
d-2)将目标图像帧Xt输入到渐进式身份去噪引导模型GID的第一卷积层中,输出得到目标图像帧特征Ft;
d-3)将目标图像帧特征Ft依次输入到渐进式身份去噪引导模型GID的第一身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征将时间嵌入噪声Ttemb进行非线性归一化操作,将身份特征Fs与非线性归一化后的时间嵌入噪声Ttemb相加得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>
d-4)将目标图像帧特征依次输入到渐进式身份去噪引导模型GID的第二身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-5)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第三身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第三BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-6)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第四身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第四BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-7)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第五身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第五BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-8)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型GID的第六身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征/>将特征与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第六BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-9)将特征/>依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中,输出得到特征/>
d-10)将特征依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中,输出得到特征/>
d-11)将特征输入到中间自注意力模块的自注意力机制中,输出得到特征Fmid;
d-12)将特征Fmid依次输入到渐进式身份去噪引导模型GID的第一身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-13)将特征/>依次输入到渐进式身份去噪引导模型GID的第二身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第二身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-14)将特征/>依次输入到渐进式身份去噪引导模型GID的第三身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第三身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-15)将特征/>依次输入到渐进式身份去噪引导模型GID的第四身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第四身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-16)将特征/>依次输入到渐进式身份去噪引导模型GID的第五身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第五身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>d-17)将特征/>依次输入到渐进式身份去噪引导模型GID的第六身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第六身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征/>
d-18)将特征输入到渐进式身份去噪引导模型GID的第二卷积层中,输出得到噪声图像Xnoise。
2.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法,其特征在于:步骤a)中利用opencv图像处理算法读取源视频Vs和目标视频Vt,分别提取得到图像帧Xs及图像帧Xt。
3.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法,其特征在于:步骤b)中利用MTCNN算法对图像帧Xs及图像帧Xt进行人脸检测并对齐。
4.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法,其特征在于,步骤c)包括如下步骤:
c-1)身份编码器Eid由第一卷积层、第一下采样残差块、第二下采样残差块、第三下采样残差块、瓶颈残差块、第二卷积层构成,第一下采样残差块、第二下采样残差块、第三下采样残差块均由第一分支和第二分支构成,第一下采样残差块、第二下采样残差块、第三下采样残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成,第一下采样残差块、第二下采样残差块、第三下采样残差块的第二分支均依次由卷积层、池化层构成,瓶颈残差块由第一分支和第二分支构成,瓶颈残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成,瓶颈残差块的第二分支依次由卷积层、池化层构成;
c-2)将源图像帧Xs输入到身份编码器Eid的第一卷积层中,输出得到特征
c-3)将特征输入到身份编码器Eid的第一下采样残差块的第一分支中,输出得到特征将特征/>输入到身份编码器Eid的第一下采样残差块的第二分支中,输出得到特征将特征/>与特征/>相加得到混合特征/>
c-4)将混合特征输入到身份编码器Eid的第二下采样残差块的第一分支中,输出得到特征/>将混合特征/>输入到身份编码器Eid的第二下采样残差块的第二分支中,输出得到特征/>将特征/>与特征/>相加得到混合特征/>
c-5)将混合特征输入到身份编码器Eid的第三下采样残差块的第一分支中,输出得到特征/>将混合特征/>输入到身份编码器Eid的第三下采样残差块的第二分支中,输出得到特征/>将特征/>与特征/>相加得到混合特征/>
c-6)将混合特征输入到身份编码器Eid的瓶颈残差块的第一分支中,输出得到特征将混合特征/>输入到身份编码器Eid的瓶颈残差块的第二分支中,输出得到特征/>将特征/>与特征/>相加得到混合特征/>c-7)将混合特征/>输入到身份编码器Eid的第二卷积层中,输出得到身份特征Fs。
5.根据权利要求4所述的基于渐进式去噪引导的人脸图像身份合成方法,其特征在于:步骤c-1)中第一卷积层的卷积核大小为3×3,步长为1,填充为1;步骤c-1)中第二卷积层的卷积核大小为4×4,步长为1,填充为0;步骤c-1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第一分支的卷积层的卷积核大小为3×3,步长为1,填充为1;步骤c-1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第二分支的卷积层的卷积核大小为1×1,步长为1,填充为0;步骤c-1)中瓶颈残差块的第一分支的卷积层的卷积核大小为3×3,步长为1,填充为1;步骤c-1)中瓶颈残差块的第二分支的卷积层的卷积核大小为1×1,步长为1,填充为0。
6.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法,其特征在于:步骤d-1)中渐进式身份去噪引导模型GID的第一卷积层及第二卷积层的卷积核大小均为3×3,步长均为1,填充均为1;步骤d-1)中第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3,步长均为1,填充均为1;步骤d-1)中第一身份融合瓶颈残差块及第二身份融合瓶颈残差块的卷积层的卷积核大小均为3×3,步长均为1,填充均为1;步骤d-1)中第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3,步长均为1,填充均为1。
7.根据权利要求4所述的基于渐进式去噪引导的人脸图像身份合成方法,其特征在于,步骤e)包括如下步骤:
e-1)将噪声图像Xnoise和目标图像帧Xt输入到DDPM模型的噪声计算网络中,得到丢失噪声εr;
e-2)将噪声图像Xnoise替代步骤d-2)中的目标图像帧Xt后重复执行步骤d-2)至步骤d-18)后得到的噪声图像Xnoise,将噪声图像Xnoise替代步骤c-2)中的源图像帧Xs后重复执行步骤c-2)至步骤c-7)后得到身份特征Fs作为噪声图像特征Fnoise;
e-3)将噪声图像Xnoise输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征将目标图像帧Xt输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征/>
e-4)通过公式Lidentity=1-cos(Fs,Fnoise)计算得到身份丢失损失Lidentity;
e-5)通过公式计算得到3D形状丢失损失L3D,式中||·||2为L2范数;
e-6)通过公式计算得到噪声损失Lnoise,式中ε为高斯噪声;
e-7)通过反向传播法利用身份丢失损失Lidentity、3D形状丢失损失L3D、噪声损失Lnoise迭代渐进式身份去噪引导模型GID至500epochs,得到训练后的渐进式身份去噪引导模型GID。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310218283.6A CN116246022B (zh) | 2023-03-09 | 2023-03-09 | 一种基于渐进式去噪引导的人脸图像身份合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310218283.6A CN116246022B (zh) | 2023-03-09 | 2023-03-09 | 一种基于渐进式去噪引导的人脸图像身份合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116246022A CN116246022A (zh) | 2023-06-09 |
CN116246022B true CN116246022B (zh) | 2024-01-26 |
Family
ID=86629397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310218283.6A Active CN116246022B (zh) | 2023-03-09 | 2023-03-09 | 一种基于渐进式去噪引导的人脸图像身份合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116246022B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116486464B (zh) * | 2023-06-20 | 2023-09-01 | 齐鲁工业大学(山东省科学院) | 一种基于注意力机制的卷积对抗网络的人脸伪造检测方法 |
CN116740540B (zh) * | 2023-08-11 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备以及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850168A (zh) * | 2021-09-16 | 2021-12-28 | 百果园技术(新加坡)有限公司 | 人脸图片的融合方法、装置、设备及存储介质 |
CN114155139A (zh) * | 2021-11-23 | 2022-03-08 | 山东省人工智能研究院 | 一种基于向量离散化表示的deepfake生成方法 |
WO2022132808A1 (en) * | 2020-12-18 | 2022-06-23 | Meta Platforms, Inc. | Altering a facial identity in a video stream |
CN115546461A (zh) * | 2022-10-28 | 2022-12-30 | 河北工业大学 | 一种基于掩膜去噪和特征选择的人脸属性编辑方法 |
CN115713680A (zh) * | 2022-11-18 | 2023-02-24 | 山东省人工智能研究院 | 一种基于语义引导的人脸图像身份合成方法 |
-
2023
- 2023-03-09 CN CN202310218283.6A patent/CN116246022B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022132808A1 (en) * | 2020-12-18 | 2022-06-23 | Meta Platforms, Inc. | Altering a facial identity in a video stream |
CN113850168A (zh) * | 2021-09-16 | 2021-12-28 | 百果园技术(新加坡)有限公司 | 人脸图片的融合方法、装置、设备及存储介质 |
CN114155139A (zh) * | 2021-11-23 | 2022-03-08 | 山东省人工智能研究院 | 一种基于向量离散化表示的deepfake生成方法 |
CN115546461A (zh) * | 2022-10-28 | 2022-12-30 | 河北工业大学 | 一种基于掩膜去噪和特征选择的人脸属性编辑方法 |
CN115713680A (zh) * | 2022-11-18 | 2023-02-24 | 山东省人工智能研究院 | 一种基于语义引导的人脸图像身份合成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116246022A (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116246022B (zh) | 一种基于渐进式去噪引导的人脸图像身份合成方法 | |
CN111199522B (zh) | 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法 | |
Xie et al. | Image inpainting with learnable bidirectional attention maps | |
CN111915530B (zh) | 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN111709895A (zh) | 基于注意力机制的图像盲去模糊方法及系统 | |
CN111028177A (zh) | 一种基于边缘的深度学习图像去运动模糊方法 | |
CN110728219A (zh) | 基于多列多尺度图卷积神经网络的3d人脸生成方法 | |
CN116612211B (zh) | 一种基于gan和3d系数重建的人脸图像身份合成方法 | |
CN111931857B (zh) | 一种基于mscff的低照度目标检测方法 | |
CN113989129A (zh) | 基于门控和上下文注意力机制的图像修复方法 | |
CN114998160B (zh) | 一种并行多尺度特征融合的卷积神经网络去噪方法 | |
Chan et al. | GLEAN: Generative latent bank for image super-resolution and beyond | |
CN113689434A (zh) | 一种基于条带池化的图像语义分割方法 | |
CN113034355A (zh) | 一种基于深度学习的肖像图像双下巴去除方法 | |
CN115713680A (zh) | 一种基于语义引导的人脸图像身份合成方法 | |
CN114155139B (zh) | 一种基于向量离散化表示的deepfake生成方法 | |
CN115063463A (zh) | 一种基于无监督学习的鱼眼相机场景深度估计方法 | |
CN112288626B (zh) | 一种基于双路径深度融合的人脸幻构方法及系统 | |
CN117274059A (zh) | 基于图像编码-解码的低分辨率图像重构方法及其系统 | |
CN116977651A (zh) | 一种基于双分支和多尺度特征提取的图像去噪方法 | |
CN116703719A (zh) | 一种基于人脸3d先验信息的人脸超分辨率重建装置及方法 | |
CN113205005B (zh) | 一种面向低光照低分辨率的人脸图像幻构方法 | |
CN114494387A (zh) | 一种生成数据集网络模型及雾图生成方法 | |
CN113902647A (zh) | 一种基于双闭环网络的图像去模糊方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |