CN116246022B

CN116246022B - 一种基于渐进式去噪引导的人脸图像身份合成方法

Info

Publication number: CN116246022B
Application number: CN202310218283.6A
Authority: CN
Inventors: 刘瑞霞; 李子安; 舒明雷; 陈长芳; 单珂
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2024-01-26
Anticipated expiration: 2043-03-09
Also published as: CN116246022A

Abstract

一种基于渐进式去噪引导的人脸图像身份合成方法，通过身份编码器充分提取身份特征，同时训练了一种渐进式身份去噪引导模型，过程中加入了身份引导和3D形状感知引导，使生成的人脸图像拥有更接近源图像帧身份和目标图像帧属性的特征。具有更好的稳定性，在百万分辨率条件下生成的图像仍然具有优势。

Description

一种基于渐进式去噪引导的人脸图像身份合成方法

技术领域

本发明涉及人脸身份图像合成技术领域，具体涉及一种基于渐进式去噪引导的人脸图像身份合成方法。

背景技术

网络信息化时代的发展，使得深度学习领域中的人脸身份合成技术走进日常生活，最常见的是手机app中出现的换脸功能，可以将自己的身份转移到某些明星身上，满足自身的娱乐性。此外，人脸身份合成技术在商业领域也取得很大的成就，例如，男星布鲁斯·威利斯利用自己的身份信息，为手机公司拍摄一部出色的广告。传统的人脸身份合成技术经历了从图像编辑方法到3D建模方法，再到使用生成对抗网络(GAN)技术。传统的图像编辑和3D建模，有大量人工参与的痕迹，出现效率低且生成的图像质量不高的问题。另外，基于生成对抗的技术与传统方式相比，它无需太多人工的参与，仅需要建立神经网络模型通过大量学习，即可生成图像，但是这种方法在训练期间拥有不稳定的特性，导致生成图像的质量良莠不齐。

发明内容

本发明为了克服以上技术的不足，提供了一种在训练过程中加入身份特征和3D形状感知特征用于引导图像的生成，能够生成质量更稳定、更真实的人脸图像的方法。

本发明克服其技术问题所采用的技术方案是：

一种基于渐进式去噪引导的人脸图像身份合成方法，包括如下步骤：

a)对源视频V_s进行提取，提取出源图像帧X_s，对目标视频V_t进行提取，提取出目标图像帧X_t；

b)对图像帧X_s和图像帧X_t进行人脸检测并对齐，得到对齐后的源图像帧X_s和目标图像帧X_t；

c)建立身份编码器E_id，将源图像帧X_s输入到身份编码器E_id中提取出源图像帧X_s中的身份特征F_s；

d)建立渐进式身份去噪引导模型G_ID，将身份特征F_s、目标图像帧X_t及时间嵌入噪声T_temb输入到渐进式身份去噪引导模型G_ID中，输出得到噪声图像X_noise,时间嵌入噪声T_temb为符合N(0,1)的高斯噪声；

e)利用损失函数迭代渐进式身份去噪引导模型G_ID，得到训练后的渐进式身份去噪引导模型G_ID；

f)将训练后的渐进式身份去噪引导模型G_ID输出的噪声图像X_noise作为具有源图像帧X_s和目标图像帧X_t属性的人脸图像X_fake。

进一步的，步骤a)中利用opencv图像处理算法读取源视频V_s和目标视频V_t，分别提取得到图像帧X_s及图像帧X_t。

进一步的，步骤b)中利用MTCNN算法对图像帧X_s和图像帧X_t进行人脸检测并对齐。

进一步的，步骤c)包括如下步骤：

c-1)身份编码器E_id由第一卷积层、第一下采样残差块、第二下采样残差块、第三下采样残差块、瓶颈残差块、第二卷积层构成，第一下采样残差块、第二下采样残差块、第三下采样残差块均由第一分支和第二分支构成，第一下采样残差块、第二下采样残差块、第三下采样残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成，第一下采样残差块、第二下采样残差块、第三下采样残差块的第二分支均依次由卷积层、池化层构成，瓶颈残差块由第一分支和第二分支构成，瓶颈残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成，瓶颈残差块的第二分支依次由卷积层、池化层构成；

c-2)将源图像帧X_s输入到身份编码器E_id的第一卷积层中，输出得到特征F_s ¹；c-3)将特征F_s ¹输入到身份编码器E_id的第一下采样残差块的第一分支中，输出得到特征F_s ^2-1，将特征F_s ¹输入到身份编码器E_id的第一下采样残差块的第二分支中，输出得到特征F_s ^2-2，将特征F_s ^2-1与特征F_s ^2-2相加得到混合特征F_s ²；

c-4)将混合特征F_s ²输入到身份编码器E_id的第二下采样残差块的第一分支中，输出得到特征F_s ^3-1，将混合特征F_s ²输入到身份编码器E_id的第二下采样残差块的第二分支中，输出得到特征F_s ^3-2，将特征F_s ^3-1与特征F_s ^3-2相加得到混合特征F_s ³；

c-5)将混合特征F_s ³输入到身份编码器E_id的第三下采样残差块的第一分支中，输出得到特征F_s ^4-1，将混合特征F_s ³输入到身份编码器E_id的第三下采样残差块的第二分支中，输出得到特征F_s ^4-2，将特征F_s ^4-1与特征F_s ^4-2相加得到混合特征F_s ⁴；

c-6)将混合特征F_s ⁴输入到身份编码器E_id的瓶颈残差块的第一分支中，输出得到特征F_s ^5-1，将混合特征F_s ⁴输入到身份编码器E_id的瓶颈残差块的第二分支中，输出得到特征F_s ^5-2，将特征F_s ^5-1与特征F_s ^5-2相加得到混合特征F_s ⁵；c-7)将混合特征F_s ⁵输入到身份编码器E_id的第二卷积层中，输出得到身份特征F_s。

优选的，步骤c-1)中第一卷积层的卷积核大小为3×3，步长为1，填充为1；步骤c-1)中第二卷积层的卷积核大小为4×4，步长为1，填充为0；步骤c-1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第一分支的卷积层的卷积核大小为3×3，步长为1，填充为1；步骤c-1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第二分支的卷积层的卷积核大小为1×1，步长为1，填充为0；步骤c-1)中瓶颈残差块的第一分支的卷积层的卷积核大小为3×3，步长为1，填充为1；步骤c-1)中瓶颈残差块的第二分支的卷积层的卷积核大小为1×1，步长为1，填充为0。

进一步的，步骤d)包括如下步骤：

d-1)渐进式身份去噪引导模型G_ID由第一卷积层、第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络、中间自注意力模块、第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络、第二卷积层构成,第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成，中间自注意力模块由第一身份融合瓶颈残差块、第二身份融合瓶颈残差块、自注意力机制构成，第一身份融合瓶颈残差块及第二身份融合瓶颈残差块均依次由第一BatchNorm归一化层、第一ReLU激活层、第二BatchNorm归一化层、第二ReLU激活层、卷积层构成，第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成；

d-2)将目标图像帧X_t输入到渐进式身份去噪引导模型G_ID的第一卷积层中，输出得到目标图像帧特征F_t；

d-3)将目标图像帧特征F_t依次输入到渐进式身份去噪引导模型G_ID的第一身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征将时间嵌入噪声T_temb进行非线性归一化操作，将身份特征F_s与非线性归一化后的时间嵌入噪声T_temb相加得到特征/>将特征/>与特征/>相加得到特征/>将特征依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-4)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第二身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-5)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第三身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第三BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-6)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第四身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第四BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-7)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第五身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第五BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-8)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第六身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第六BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-9)将特征/>依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中，输出得到特征/>d-10)将特征/>依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中，输出得到特征/>d-11)将特征输入到中间自注意力模块的自注意力机制中，输出得到特征F_mid；

d-12)将特征F_mid依次输入到渐进式身份去噪引导模型G_ID的第一身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-13)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第二身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第二身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-14)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第三身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第三身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-15)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第四身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第四身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-16)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第五身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第五身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-17)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第六身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第六身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-18)将特征/>输入到渐进式身份去噪引导模型G_ID的第二卷积层中，输出得到噪声图像X_noise。

优选的，步骤d-1)中渐进式身份去噪引导模型G_ID的第一卷积层及第二卷积层的卷积核大小均为3×3，步长均为1，填充均为1；步骤d-1)中第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3，步长均为1，填充均为1；步骤d-1)中第一身份融合瓶颈残差块及第二身份融合瓶颈残差块的卷积层的卷积核大小均为3×3，步长均为1，填充均为1；步骤d-1)中第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3，步长均为1，填充均为1。

进一步的，步骤e)包括如下步骤：

e-1)将噪声图像X_noise和目标图像帧X_t输入到DDPM模型的噪声计算网络中，得到丢失噪声ε_r；

e-2)将噪声图像X_noise替代步骤d-2)中的目标图像帧X_t后重复执行步骤d-2)至步骤d-18)后得到的噪声图像X_noise，将噪声图像X_noise替代步骤c-2)中的源图像帧X_s后重复执行步骤c-2)至步骤c-7)后得到身份特征F_s作为噪声图像特征F_noise；

e-3)将噪声图像X_noise输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征将目标图像帧X_t输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征/>e-4)通过公式L_identity＝1-cos(F_s,F_no_ise)计算得到身份丢失损失L_identity；e-5)通过公式计算得到3D形状丢失损失L_3D，式中||·||₂为L2范数；

e-6)通过公式计算得到噪声损失L_noise，式中ε为高斯噪声；

e-7)通过反向传播法利用身份丢失损失L_identity、3D形状丢失损失L_3D、噪声损失L_noise迭代渐进式身份去噪引导模型G_ID至500epochs，得到训练后的渐进式身份去噪引导模型G_ID。

本发明的有益效果是：通过身份编码器充分提取身份特征，同时训练了一种渐进式身份去噪引导模型，过程中加入了身份引导和3D形状感知引导，使生成的人脸图像拥有更接近源图像帧身份和目标图像帧属性的特征。具有更好的稳定性，在百万分辨率条件下生成的图像仍然具有优势。

附图说明

图1为本发明的渐进式身份去噪引导训练模型图；

图2为本发明的推理模型流程图；

图3为本发明的身份融合下采样残差块结构图；

图4为本发明的身份编码器中的下采样残差块结构图。

具体实施方式

下面结合附图1至附图4对本发明做进一步说明。

a)对源视频V_s进行提取，提取出图像帧X_s，对目标视频V_t进行提取，提取出图像帧X_t。

b)对图像帧X_s和图像帧X_t进行人脸检测并对齐，得到对齐后的源图像帧X_s和目标图像帧X_t。

c)建立身份编码器E_id，将源图像帧X_s输入到身份编码器E_id中提取出源图像帧X_s中的身份特征F_s。

d)建立渐进式身份去噪引导模型G_ID，将身份特征F_s、目标图像帧X_t及时间嵌入噪声T_temb输入到渐进式身份去噪引导模型G_ID中，输出得到噪声图像X_noise,时间嵌入噪声T_temb为符合N(0,1)的高斯噪声。

e)利用损失函数迭代渐进式身份去噪引导模型G_ID，得到训练后的渐进式身份去噪引导模型G_ID。

先在正向过程中对人脸图像添加高斯噪声进行破坏图像，然后在反向过程中通过去除噪声生成图像，并且在生成过程中加入身份特征、3D形状感知特征以此来引导原始图像进行身份转换的人脸图像身份合成。通过身份编码器充分提取身份特征，同时训练了一种渐进式身份去噪引导模型，过程中加入了身份引导和3D形状感知引导，使生成的人脸图像拥有更接近源图像帧身份和目标图像帧属性的特征。此外，我们的模型比其他方法具有更好的稳定性，在百万分辨率条件下生成的图像仍然具有优势。

实施例1：

步骤a)中利用opencv图像处理算法读取源视频V_s和目标视频V_t，分别提取得到图像帧X_s及图像帧X_t。

实施例2：

步骤b)中利用MTCNN算法对图像帧X_s和图像帧X_t进行人脸检测并对齐。

实施例3：

步骤c)包括如下步骤：

c-1)身份编码器E_id由第一卷积层、第一下采样残差块、第二下采样残差块、第三下采样残差块、瓶颈残差块、第二卷积层构成，第一下采样残差块、第二下采样残差块、第三下采样残差块均由第一分支和第二分支构成，第一下采样残差块、第二下采样残差块、第三下采样残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成，第一下采样残差块、第二下采样残差块、第三下采样残差块的第二分支均依次由卷积层、池化层构成，瓶颈残差块由第一分支和第二分支构成，瓶颈残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成，瓶颈残差块的第二分支依次由卷积层、池化层构成。

c-2)将源图像帧X_s输入到身份编码器E_id的第一卷积层中，输出得到特征F_s ¹。

c-3)将特征F_s ¹输入到身份编码器E_id的第一下采样残差块的第一分支中，输出得到特征F_s ^2-1，将特征F_s ¹输入到身份编码器E_id的第一下采样残差块的第二分支中，输出得到特征F_s ^2-2，将特征F_s ^2-1与特征F_s ^2-2相加得到混合特征F_s ²。

c-4)将混合特征F_s ²输入到身份编码器E_id的第二下采样残差块的第一分支中，输出得到特征F_s ^3-1，将混合特征F_s ²输入到身份编码器E_id的第二下采样残差块的第二分支中，输出得到特征F_s ^3-2，将特征F_s ^3-1与特征F_s ^3-2相加得到混合特征F_s ³。

c-5)将混合特征F_s ³输入到身份编码器E_id的第三下采样残差块的第一分支中，输出得到特征F_s ^4-1，将混合特征F_s ³输入到身份编码器E_id的第三下采样残差块的第二分支中，输出得到特征F_s ^4-2，将特征F_s ^4-1与特征F_s ^4-2相加得到混合特征F_s ⁴。

实施例4：

步骤c-1)中第一卷积层的卷积核大小为3×3，步长为1，填充为1；步骤c-1)中第二卷积层的卷积核大小为4×4，步长为1，填充为0；步骤c-1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第一分支的卷积层的卷积核大小为3×3，步长为1，填充为1；步骤c-1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第二分支的卷积层的卷积核大小为1×1，步长为1，填充为0；步骤c-1)中瓶颈残差块的第一分支的卷积层的卷积核大小为3×3，步长为1，填充为1；步骤c-1)中瓶颈残差块的第二分支的卷积层的卷积核大小为1×1，步长为1，填充为0。

实施例5：

步骤d)包括如下步骤：

d-1)渐进式身份去噪引导模型G_ID由第一卷积层、第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络、中间自注意力模块、第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络、第二卷积层构成,第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成，中间自注意力模块由第一身份融合瓶颈残差块、第二身份融合瓶颈残差块、自注意力机制构成，第一身份融合瓶颈残差块及第二身份融合瓶颈残差块均依次由第一BatchNorm归一化层、第一ReLU激活层、第二BatchNorm归一化层、第二ReLU激活层、卷积层构成，第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成。

d-2)将目标图像帧X_t输入到渐进式身份去噪引导模型G_ID的第一卷积层中，输出得到目标图像帧特征F_t。

d-3)将目标图像帧特征F_t依次输入到渐进式身份去噪引导模型G_ID的第一身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征将时间嵌入噪声T_temb进行非线性归一化操作，将身份特征F_s与非线性归一化后的时间嵌入噪声T_temb相加得到特征/>将特征/>与特征/>相加得到特征/>将特征依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-4)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第二身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-5)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第三身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第三BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-6)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第四身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第四BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征d-7)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第五身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第五BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-8)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第六身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第六BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-9)将特征/>依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中，输出得到特征d-10)将特征/>依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中，输出得到特征/>d-11)将特征/>输入到中间自注意力模块的自注意力机制中，输出得到特征F_mid。

d-12)将特征F_mid依次输入到渐进式身份去噪引导模型G_ID的第一身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征将特征/>与特征F_u ¹相加得到特征F_u ²，将特征F_u ²依次输入到第一身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-13)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第二身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征F_u ⁴依次输入到第二身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-14)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第三身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征F_u ⁶，将特征F_u ⁶依次输入到第三身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-15)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第四身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征F_u ⁷，将特征/>与特征F_u ⁷相加得到特征/>将特征F_u ⁸依次输入到第四身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-16)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第五身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第五身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-17)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第六身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第六身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-18)将特征/>输入到渐进式身份去噪引导模型G_ID的第二卷积层中，输出得到噪声图像X_noise。

实施例6：

步骤d-1)中渐进式身份去噪引导模型G_ID的第一卷积层及第二卷积层的卷积核大小均为3×3，步长均为1，填充均为1；步骤d-1)中第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3，步长均为1，填充均为1；步骤d-1)中第一身份融合瓶颈残差块及第二身份融合瓶颈残差块的卷积层的卷积核大小均为3×3，步长均为1，填充均为1；步骤d-1)中第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3，步长均为1，填充均为1。

实施例7：

步骤e)包括如下步骤：

e-1)将噪声图像X_noise和目标图像帧X_t输入到DDPM模型的噪声计算网络中，得到丢失噪声ε_r。

e-2)将噪声图像X_noise替代步骤d-2)中的目标图像帧X_t后重复执行步骤d-2)至步骤d-18)后得到的噪声图像X_noise，将噪声图像X_noise替代步骤c-2)中的源图像帧X_s后重复执行步骤c-2)至步骤c-7)后得到身份特征F_s作为噪声图像特征F_noise。

e-3)将噪声图像X_noise输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征将目标图像帧X_t输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征/>e-4)通过公式L_identity＝1-cos(F_s,F_no_ise)计算得到身份丢失损失L_identity。e-5)通过公式计算得到3D形状丢失损失L_3D，式中||·||₂为L2范数。

e-6)通过公式计算得到噪声损失L_noise，式中ε为高斯噪声。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于渐进式去噪引导的人脸图像身份合成方法，其特征在于，包括如下步骤：

a)对源视频V_s进行提取，提取出图像帧X_s，对目标视频V_t进行提取，提取出图像帧X_t；

f)将训练后的渐进式身份去噪引导模型G_ID输出的噪声图像X_noise作为具有源图像帧X_s和目标图像帧X_t属性的人脸图像X_fake；

步骤d)包括如下步骤：

d-3)将目标图像帧特征F_t依次输入到渐进式身份去噪引导模型G_ID的第一身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征将时间嵌入噪声T_temb进行非线性归一化操作，将身份特征F_s与非线性归一化后的时间嵌入噪声T_temb相加得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>

d-4)将目标图像帧特征依次输入到渐进式身份去噪引导模型G_ID的第二身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-5)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第三身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第三BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-6)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第四身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第四BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-7)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第五身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第五BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-8)将目标图像帧特征/>依次输入到渐进式身份去噪引导模型G_ID的第六身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征/>将特征与特征/>相加得到特征/>将特征/>依次输入到第一身份融合下采样残差网络的第六BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-9)将特征/>依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中，输出得到特征/>

d-10)将特征依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中，输出得到特征/>

d-11)将特征输入到中间自注意力模块的自注意力机制中，输出得到特征F_mid；

d-12)将特征F_mid依次输入到渐进式身份去噪引导模型G_ID的第一身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征将特征/>与特征/>相加得到特征/>将特征/>依次输入到第一身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-13)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第二身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第二身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-14)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第三身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第三身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-15)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第四身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第四身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-16)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第五身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第五身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>d-17)将特征/>依次输入到渐进式身份去噪引导模型G_ID的第六身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>依次输入到第六身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征/>

d-18)将特征输入到渐进式身份去噪引导模型G_ID的第二卷积层中，输出得到噪声图像X_noise。

2.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法，其特征在于：步骤a)中利用opencv图像处理算法读取源视频V_s和目标视频V_t，分别提取得到图像帧X_s及图像帧X_t。

3.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法，其特征在于：步骤b)中利用MTCNN算法对图像帧X_s及图像帧X_t进行人脸检测并对齐。

4.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法，其特征在于，步骤c)包括如下步骤：

c-2)将源图像帧X_s输入到身份编码器E_id的第一卷积层中，输出得到特征

c-3)将特征输入到身份编码器E_id的第一下采样残差块的第一分支中，输出得到特征将特征/>输入到身份编码器E_id的第一下采样残差块的第二分支中，输出得到特征将特征/>与特征/>相加得到混合特征/>

c-4)将混合特征输入到身份编码器E_id的第二下采样残差块的第一分支中，输出得到特征/>将混合特征/>输入到身份编码器E_id的第二下采样残差块的第二分支中，输出得到特征/>将特征/>与特征/>相加得到混合特征/>

c-5)将混合特征输入到身份编码器E_id的第三下采样残差块的第一分支中，输出得到特征/>将混合特征/>输入到身份编码器E_id的第三下采样残差块的第二分支中，输出得到特征/>将特征/>与特征/>相加得到混合特征/>

c-6)将混合特征输入到身份编码器E_id的瓶颈残差块的第一分支中，输出得到特征将混合特征/>输入到身份编码器E_id的瓶颈残差块的第二分支中，输出得到特征/>将特征/>与特征/>相加得到混合特征/>c-7)将混合特征/>输入到身份编码器E_id的第二卷积层中，输出得到身份特征F_s。

5.根据权利要求4所述的基于渐进式去噪引导的人脸图像身份合成方法，其特征在于：步骤c-1)中第一卷积层的卷积核大小为3×3，步长为1，填充为1；步骤c-1)中第二卷积层的卷积核大小为4×4，步长为1，填充为0；步骤c-1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第一分支的卷积层的卷积核大小为3×3，步长为1，填充为1；步骤c-1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第二分支的卷积层的卷积核大小为1×1，步长为1，填充为0；步骤c-1)中瓶颈残差块的第一分支的卷积层的卷积核大小为3×3，步长为1，填充为1；步骤c-1)中瓶颈残差块的第二分支的卷积层的卷积核大小为1×1，步长为1，填充为0。

6.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法，其特征在于：步骤d-1)中渐进式身份去噪引导模型G_ID的第一卷积层及第二卷积层的卷积核大小均为3×3，步长均为1，填充均为1；步骤d-1)中第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3，步长均为1，填充均为1；步骤d-1)中第一身份融合瓶颈残差块及第二身份融合瓶颈残差块的卷积层的卷积核大小均为3×3，步长均为1，填充均为1；步骤d-1)中第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3，步长均为1，填充均为1。

7.根据权利要求4所述的基于渐进式去噪引导的人脸图像身份合成方法，其特征在于，步骤e)包括如下步骤：

e-3)将噪声图像X_noise输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征将目标图像帧X_t输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征/>

e-4)通过公式L_identity＝1-cos(F_s,F_noise)计算得到身份丢失损失L_identity；

e-5)通过公式计算得到3D形状丢失损失L_3D，式中||·||₂为L2范数；

e-6)通过公式计算得到噪声损失L_noise，式中ε为高斯噪声；