CN115311720B

CN115311720B - 一种基于Transformer的deepfake生成方法

Info

Publication number: CN115311720B
Application number: CN202210964397.0A
Authority: CN
Inventors: 舒明雷; 曹伟; 王英龙; 董安明; 高天雷
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2023-06-06
Anticipated expiration: 2042-08-11
Also published as: CN115311720A

Abstract

一种基于Transformer的deepfake生成方法，通过将预处理得到的源身份人脸和目标身份人脸图片，放入基于Swin Transformer为主干网络的编码器，得到图片中的人脸整体编码特征，再将编码特征进行特征向量嵌入得到最终编码向量，再放入基于注意力的解码器生成特定的身份图片之前，将编码向量进行嵌出。之后嵌出向量通过基于注意力的解码器即可生成特定身份的高分辨图片。之后为了提升图片生成质量，使用图片块判别器进行更加大的区域感知。最后再利用人脸转化中的人脸扭曲和插值模块、肤色校正模块和人脸融合拼接模块生成最终的人脸交换结果。本专利不仅加强了编码和解码过程中人脸表情和身份信息的控制而且最终得到高分辨图片人脸交换的结果。

Description

一种基于Transformer的deepfake生成方法

技术领域

本发明涉及视频或图片中人脸交换领域，具体涉及一种基于Transformer的deepfake生成方法。

背景技术

随着深度学习技术的发展、自媒体的兴起而产生的大量人脸数据，deepfake技术随之产生。Deepfake生成是指给定任意两个人脸图片，选定一个为源身份人脸图片，另一个则为目标身份人脸图片。具体来说，是通过二者最终生成的人脸，应当包含源身份人脸的身份信息,同时保证与目标身份人脸的属性信息(表情、姿势和光照等等)保持一致。

之前的这些deepfake生成方法，都是基于卷积神经网络为主要框架的。人们设计了各种各样的卷积神经网络模块来满足换脸需求。从最开始的上采样、下采样模块到之后的身份信息模块、人脸属性分离模块以及其它模块，这些功能模块在提高deepfake生成效率上发挥了一定的作用，但是也存在一定的问题。首先，由于卷积神经网络自身的局限性，存在归纳偏置的问题，无法对图片的长距离关系进行把握。因此使用卷积神经网络设计的编码模块不可避免地导致编码向量缺乏人脸表情和身份的丰富特征信息。其次，现有绝大部分的生成方法无法在高分辨率图片做到清晰的生成。

发明内容

本发明为了克服以上技术的不足，提供了一种使用Swin Transformer作为编码器以及包含注意力的解码器，来加强编码和解码过程中人脸表情和身份信息的控制的基于Transformer的deepfake生成方法。

本发明克服其技术问题所采用的技术方案是：

一种基于Transformer的deepfake生成方法，包括：

a)对包含源身份人脸的源视频V_s进行人脸识别及人脸对齐操作，得到源身份人脸图片P_s，对包含目标身份人脸的目标视频V_t进行人脸识别及人脸对齐操作，得到目标身份人脸图片P_t；

b)建立网络模型，该网络模型由Swin Transformer编码器E、向量嵌入单元V_in、源身份的向量嵌出单元V_outs、目标身份的向量嵌出单元V_outt、源身份的基于注意力的解码器G_s、目标身份的基于注意力的解码器G_t、源身份图片的判别器D_s以及目标身份图片的判别器D_t构成；

c)将源身份人脸图片P_s和目标身份人脸图片P_t输入Swin Transformer编码器E中，输出得到源身份人脸图片的编码向量

及目标身份人脸图片的编码向量/>

d)将源身份人脸图片的编码向量

及目标身份人脸图片的编码向量/>

分别输入到向量嵌入单元V_in中，输出得到源身份人脸图片的编码向量/>

及目标身份人脸图片的编码向量/>

/>

e)将源身份人脸图片的编码向量

输入到源身份的向量嵌出单元V_outs中，输出得到源身份人脸图片的解码向量V_s，将目标身份人脸图片的编码向量/>

输入到目标身份的向量嵌出单元V_outt中，输出得到目标身份人脸图片的解码向量V_t；

f)将源身份人脸图片的解码向量V_s输入到源身份的基于注意力的解码器G_s中，输出得到源身份人脸图片的重建高分辨率图片R_s，将目标身份人脸图片的解码向量V_t输入到目标身份的基于注意力的解码器G_t中，输出得到目标身份人脸图片的重建高分辨率图片R_t；

g)将高分辨率图片R_s输入到源身份图片的判别器D_s中，采用PatchGAN判别器对高分辨率图片R_s进行判别，得到判别结果

将高分辨率图片R_t输入到目标身份图片的判别器D_t中，采用PatchGAN判别器对高分辨率图片R_t进行判别，得到判别结果/>

完成模型建立；h)通过损失函数l_all利用Adam优化器迭代步骤c)至g)中模型的参数，得到优化后的模型；i)将目标身份人脸图片P_t输入到步骤h)中优化后的模型内，依次经过优化后的模型的Swin Transformer编码器E、向量嵌入单元V_in、源身份的向量嵌出单元V_outs、源身份的基于注意力的解码器G_s后输出得到高分辨率图片解码结果R_t2s，利用dlib库对目标身份人脸图片P_t检测分别得到目标身份人脸的人脸特征点f_k、目标人脸图片P_t ^p及目标人脸背景图片P_t ^c；

j)根据高分辨率图片解码结果R_t2s、目标身份人脸的人脸特征点f_k、目标人脸图片P_t ^p及目标人脸背景图片P_t ^c得到最终换脸结果R_output。

进一步的，步骤a)中使用InsightFace工具对包含源身份人脸的源视频V_s以及包含目标身份人脸的目标视频V_t进行人脸识别及人脸对齐操作。

优选的，步骤a)中源身份人脸图片P_s及目标身份人脸图片P_t的大小均设置为224*224。

进一步的，步骤c)包括如下步骤：

c-1)Swin Transformer编码器E依次由patch Partition模块、第一处理模块、第二处理模块、第三处理模块及第四处理模块构成；

c-2)所述patch Partition模块由一个卷积核为4*4、步长为4的卷积层构成，将源身份人脸图片P_s和目标身份人脸图片P_t分别输入到patch Partition模块中，输出得到不重叠的源身份人脸图片的图片块P_s ^patch及目标身份人脸图片的图片块P_t ^patch，将图片块P_s ^patch及图片块P_t ^patch加上绝对位置编码，分别得到编码向量P_s ^e和编码向量P_t ^e；

c-3)所述第一处理模块依次由Linear Embeding层、第一Swin Transformerblock、第二Swin Transformer block构成，Linear Embeding层由一个卷积核为1*1、输出特征通道数为33的卷积层构成，第一Swin Transformer block与第二Swin Transformerblock均由Swin Transformer网络中以移动窗口所构成的注意力计算单元构成，第一SwinTransformer block与第二Swin Transformer block的多头个数设置为3，将编码向量P_s ^e和编码向量P_t ^e输入到第一处理模块后，分别输出得到编码向量

和编码向量/>

c-4)所述第二处理模块依次由Swin Transformer网络中的patch merging层、第一Swin Transformer block、第二Swin Transformer block构成，第一Swin Transformerblock与第二Swin Transformer block均由Swin Transformer网络中以移动窗口所构成的注意力计算单元构成，第一Swin Transformer block与第二Swin Transformer block的多头个数设置为6，将编码向量

和编码向量/>

输入到第二处理模块后，分别输出得到编码向量/>

和编码向量/>

c-5)所述第三处理模块依次由Swin Transformer网络中的patch merging层、第一Swin Transformer block、第二Swin Transformer block、第三Swin Transformerblock、第四Swin Transformer block、第五Swin Transformer block、第六SwinTransformer block构成，第一Swin Transformer block、第二Swin Transformer block、第三Swin Transformer block、第四Swin Transformer block、第五Swin Transformerblock、第六Swin Transformer block均由Swin Transformer网络中以移动窗口所构成的注意力计算单元构成，第一Swin Transformer block、第二Swin Transformer block、第三Swin Transformer block、第四Swin Transformer block、第五Swin Transformer block、第六Swin Transformer block的多头个数设置为12，将编码向量

和编码向量/>

输入到第三处理模块后，分别输出得到编码向量/>

和编码向量/>

c-6)所述第四处理模块依次由Swin Transformer网络中的patch merging层、第一Swin Transformer block、第二SwinTransformer block、第三Swin Transformer block、第四Swin Transformer block、第五Swin Transformer block、第六Swin Transformer block构成，第一Swin Transformerblock、第二Swin Transformer block、第三Swin Transformer block、第四SwinTransformer block、第五Swin Transformer block、第六Swin Transformer block均由Swin Transformer网络中以移动窗口所构成的注意力计算单元构成，第一SwinTransformer block、第二Swin Transformer block、第三Swin Transformer block、第四Swin Transformer block、第五Swin Transformer block、第六Swin Transformer block的多头个数设置为12，将编码向量/>

和编码向量/>

输入到第四处理模块后，分别输出得到编码向量/>

和编码向量/>

优选的，步骤d)中向量嵌入单元V_in由一个卷积核为1*1、输出特征通道数为256的卷积层构成；步骤e)中源身份的向量嵌出单元V_outs及目标身份的向量嵌出单元V_outt均依次由两个卷积核为1*1、输出特征通道数为256的卷积层构成。

进一步的，步骤f)包括如下步骤：

f-1)源身份的基于注意力的解码器G_s和目标身份的基于注意力的解码器G_t均依次由3*3卷积核的第一卷积层、第一残差模块、第二残差模块、第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元、第三残差模块、第四残差模块、第五残差模块、第一自注意力模块、第二自注意力模块、第三自注意力模块、第一上采样模块、第二上采样模块、第三上采样模块、第二卷积层构成；

f-2)第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元均依次由残差模块和上采样模块构成，所述第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块以及第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元中的残差模块均由第一分支和第二分支构成，所述第一分支依次由第一批标准化层、第一ReLU函数层、卷积核为3*3的第一卷积层、卷积核为2*2最大池化层、第二批标准化层、第二ReLU函数层及卷积核为3*3第二卷积层构成，所述第二分支依次由第三批标准化层、ReLU函数层及卷积核为3*3的第三卷积层构成，第一自注意力模块、第二自注意力模块、第三自注意力模块均由第一分支、第二分支构成，所述第一分支由归一化层、第一卷积层、第二卷积层、第三卷积层、第一乘法模块、Softmax函数层、第二乘法模块及第四卷积层构成；

f-3)将源身份人脸图片的解码向量V_s输入到源身份的基于注意力的解码器G_s中，经第一卷积层卷积后，输出得到向量

将向量/>

输入到第一残差模块中的第一分支后输出得到向量/>

将向量/>

输入到第一残差模块中的第二分支后输出得到向量/>

将向量

与向量/>

相加得到向量/>

将向量/>

输入到第二残差模块中的第一分支后输出得到向量/>

将向量/>

输入到第二残差模块中的第二分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第一上采样单元的残差模块第一个分支后输出得到向量/>

将向量/>

输入到第一上采样单元的残差模块第二个分支后输出得到向量

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第一上采样单元的上采样模块中，输出得到向量/>

将向量/>

输入到第二上采样单元的残差模块第一个分支后输出得到向量/>

将向量/>

输入到第二上采样单元的残差模块第二个分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第二上采样单元的上采样模块中，输出得到向量/>

将向量/>

输入到第三上采样单元的残差模块第一个分支后输出得到向量/>

将向量/>

输入到第三上采样单元的残差模块第二个分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第三上采样单元的上采样模块中，输出得到向量/>

将向量/>

输入到第四上采样单元的残差模块第一个分支后输出得到向量/>

将向量/>

输入到第四上采样单元的残差模块第二个分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第四上采样单元的上采样模块中，输出得到向量/>

将向量/>

输入到第三残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第三残差模块的第二分支后，输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第四残差模块的第一分支后，输出得到向量

将向量/>

输入到第四残差模块的第二分支后，输出得到向量/>

将向量/>

与向量

相加得到向量/>

将向量/>

输入到第五残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第五残差模块的第二分支后，输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第一自注意力模块的第一分支的归一化层归一化处理后得到向量/>

将向量/>

分别输入到第一卷积层、第二卷积层、第三卷积层中，分别输出得到特征映射空间向量/>

将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值

式中softmax(·)为Softmax激活函数，T为转置，d_ks1为空间向量/>

的维度，将激活函数值/>

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式/>

计算得到注意力

将注意力/>

输入到第四卷积层中，输出得到向量/>

将向量/>

与第一自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量/>

输入到第二自注意力模块的第一分支的归一化层归一化处理后，得到向量/>

将向量/>

分别输入到第一卷积层、第二卷积层、第三卷积层中，分别输出得到特征映射空间向量

将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量

将空间向量/>

输入到Softmax函数层中，得到激活函数值/>

式中d_ks2为空间向量/>

的维度，将激活函数值/>

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式/>

计算得到注意力/>

将注意力/>

输入到第四卷积层中，输出得到向量/>

将向量/>

与第二自注意力模块的第二分支输入的向量/>

相加得到向量

将向量/>

输入到第三自注意力模块的第一分支的归一化层归一化处理后，得到向量

将向量/>

将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值

式中d_ks3为空间向量/>

的维度，将激活函数值/>

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式

计算得到注意力/>

将注意力

输入到第四卷积层中，输出得到向量/>

将向量/>

与第三自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量/>

依次输入到源身份的基于注意力的解码器G_s的第一上采样模块、第二上采样模块、第三上采样模块、第二卷积层后输出得到高分辨图片R_s。

f-4)将目标身份人脸图片的解码向量V_t输入到目标身份的基于注意力的解码器G_t中，经第一卷积层卷积后，输出得到向量

将向量/>

输入到第一残差模块中的第一分支后输出得到向量/>

将向量/>

输入到第一残差模块中的第二分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第二残差模块中的第一分支后输出得到向量/>

将向量/>

输入到第二残差模块中的第二分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第一上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

输入到第二上采样单元的残差模块第二个分支后输出得到向量

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第二上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第三上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第四上采样单元的上采样模块中，输出得到向量/>

将向量R_t ^u输入到第三残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第三残差模块的第二分支后，输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第四残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第四残差模块的第二分支后，输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第五残差模块的第一分支后，输出得到向量

将向量/>

输入到第五残差模块的第二分支后，输出得到向量/>

将向量/>

与向量

相加得到向量/>

将向量/>

输入到第一自注意力模块的第一分支的归一化层归一化处理后，得到向量/>

将向量/>

将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值/>

式中d_kt1为空间向量/>

的维度，将激活函数值/>

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式

计算得到注意力/>

将注意力

输入到第四卷积层中，输出得到向量/>

将向量/>

与第一自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量/>

将向量/>

将特征映射/>

及

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值/>

式中d_kt2为空间向量/>

的维度，将激活函数值/>

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式/>

计算得到注意力/>

将注意力/>

输入到第四卷积层中，输出得到向量/>

将向量/>

与第二自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量/>

输入到第三自注意力模块的第一分支的归一化层归一化处理后，得到向量/>

将向量/>

将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量

输入到Softmax函数层中，得到激活函数值/>

式中d_kt3为空间向量/>

的维度，将激活函数值/>

及空间向量V_t ³一同输入到第二乘法模块中进行相乘计算，通过公式/>

计算得到注意力

将注意力/>

输入到第四卷积层中，输出得到向量

将向量/>

与第三自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量

依次输入到目标身份的基于注意力的解码器G_t的第一上采样模块、第二上采样模块、第三上采样模块、第二卷积层后输出得到高分辨图片R_t。

进一步的，步骤c-2)中通过随机生成一组相同的维度的可学习参数得到绝对位置编码。

优选的，步骤f-1)中第二卷积层的卷积核为3*3、步长为1、填充为1及输出特征通道数为3，第一上采样模块、第二上采样模块、第三上采样模块均依次由最近邻插值算法单元及一个卷积核为3*3、步长为1、填充为1的卷积层构成，步骤f-2)中第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元中的上采样模块依次由最近邻插值算法单元及一个卷积核为3*3、步长为1、填充为1的卷积层构成，步骤f-2)中第一自注意力模块、第二自注意力模块、第三自注意力模块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小为3*3、步长为1，第四卷积层的卷积核大小为1*1、步长为1。

进一步的，步骤h)中通过公式l_all＝l_rec+l_d+l_lpips计算得到损失函数l_all，式中l_rec为重建图片损失，l_d为判别损失，l_lpips为感知相似性损失，l_rec＝||R_s-P_s||²+||R_t-P_t||²，

式中D_s(P_s)为将源身份人脸图片P_s输入到源身份图片的判别器D_s中，采用PatchGAN判别器对源身份人脸图片P_s进行判别后的判别结果，D_t(P_t)为将目标身份人脸图片P_t输入到目标身份图片的判别器中，采用PatchGAN判别器对目标身份人脸图片P_t进行判别后的判别结果，

式中C_i为VGG网络第i层的特征通道数，H_i为VGG网络第i层的特征长度，W_i为VGG网络第i层的特征宽度，i∈{1,...,n}，n为VGG网络的总层数，VGG_i(R_s)为将高分辨率图片R_s输入到VGG网络第i层后得到的输出结果，VGG_i(P_s)为将源身份人脸图片P_s输入到VGG网络第i层后得到的输出结果，VGG_i(R_t)为将高分辨率图片R_t输入到VGG网络第i层后得到的输出结果，VGG_i(P_t)为将目标身份人脸图片P_t输入到VGG网络第i层后得到的输出结果。

进一步的，步骤j)包括如下步骤：

j-1)将目标身份人脸图片P_t根据Delaunay三角剖分算法和人脸特征点f_k计算得到图片P_t ^d；

j-2)将高分辨率图片解码结果R_t2s根据图片P_t ^d中的人脸特征点使用双线性插值和仿射变换得到人脸插值结果R_V；

j-3)将图片P_t ^d利用凸包算法和目标身份人脸的人脸特征点f_k计算得到相应的目标人脸掩膜M_t；

j-4)将图片P_t ^d通过剪裁操作后得到背景为黑色的图片P_t ^f；

j-5)将图片P_t ^f进行高斯模糊化操作，得到图片P_t ^b，将人脸插值结果R_V进行高斯模糊化操作，得到图片

j-6)通过公式

计算得到肤色转化结果R_c；

j-7)通过公式

计算得到人脸融合结果/>

式中⊙为同或逻辑运算，通过公式/>

来优化人脸融合结果/>

的像素值P(M_t,R_c,P_t ^p)，式中||·||₂为L2范数，▽为梯度算子，f为目标人脸图片P_t ^p与肤色转化结果R_c连接边缘区域；

j-8)将人脸融合结果

和目标人脸背景图片P_t ^c拼接得到最终换脸结果R_output。

本发明的有益效果是：通过将预处理得到的源身份人脸和目标身份人脸图片，放入基于Swin Transformer为主干网络的编码器，得到图片中的人脸整体编码特征(包含眼睛、鼻子、嘴巴、肤色、背景等等特征)，再将编码特征进行特征向量嵌入得到最终编码向量，再放入基于注意力的解码器生成特定的身份图片之前，将编码向量进行嵌出。之后嵌出向量通过基于注意力的解码器即可生成特定身份的高分辨图片，同时该图片保留目标身份的表情、姿势、光照等等特征。最后为了提升图片生成质量，使用图片块判别器进行更加大的区域感知，提升对图片细节的把控，来使得生成图片的细节更加清晰、内容更加完整。该方法模型不仅加强了编码和解码过程中人脸表情和身份信息的控制而且最终得到高分辨图片人脸交换的结果。

附图说明

图1为本发明的网络模型结构图；

图2为本发明的Swin Transformer编码器模型图；

图3为本发明的基于注意力的解码器模型图；

图4为本发明的残差模块网络模型图；

图5为本发明的自注意力模块网络模型图；

图6为本发明的人脸转化过程图。

具体实施方式

下面结合附图1至附图6对本发明做进一步说明。

如附图6所示，一种基于Transformer的deepfake生成方法，包括：

a)对包含源身份人脸的源视频V_s进行人脸识别及人脸对齐操作，得到源身份人脸图片P_s，对包含目标身份人脸的目标视频V_t进行人脸识别及人脸对齐操作，得到目标身份人脸图片P_t。

b)如附图1所示，建立网络模型，该网络模型由Swin Transformer编码器E、向量嵌入单元V_in、源身份的向量嵌出单元V_outs、目标身份的向量嵌出单元V_outt、源身份的基于注意力的解码器G_s、目标身份的基于注意力的解码器G_t、源身份图片的判别器D_s以及目标身份图片的判别器D_t构成。

及目标身份人脸图片的编码向量/>

d)将源身份人脸图片的编码向量

及目标身份人脸图片的编码向量/>

及目标身份人脸图片的编码向量/>

e)将源身份人脸图片的编码向量

输入到目标身份的向量嵌出单元V_outt中，输出得到目标身份人脸图片的解码向量V_t。

f)将源身份人脸图片的解码向量V_s输入到源身份的基于注意力的解码器G_s中，输出得到源身份人脸图片的重建高分辨率图片R_s，将目标身份人脸图片的解码向量V_t输入到目标身份的基于注意力的解码器G_t中，输出得到目标身份人脸图片的重建高分辨率图片R_t。

完成模型建立。h)通过损失函数l_all利用Adam优化器迭代步骤c)至g)中模型的参数，得到优化后的模型。i)将目标身份人脸图片P_t输入到步骤h)中优化后的模型内，依次经过优化后的模型的Swin Transformer编码器E、向量嵌入单元V_in、源身份的向量嵌出单元V_outs、源身份的基于注意力的解码器G_s后输出得到高分辨率图片解码结果R_t2s，利用dlib库对目标身份人脸图片P_t检测分别得到目标身份人脸的人脸特征点f_k、目标人脸图片P_t ^p及目标人脸背景图片P_t ^c。

利用Swin Transformer编码器的层级式架构来学习到人脸图片多尺度的丰富特征。为了便于对特征的学习，进一步对编码器提取的特征压缩并且在生成特定身份图片之前对特征进行嵌出。然后为了生成特定目标身份的高分辨图片，本发明使用基于注意力的解码器来完成高分辨图片的重建。基于注意力的解码器中利用Transformer来补充卷积神经网络的不足，使得解码器可以进行长距离把控，加强了编码和解码过程中人脸表情和身份信息的控制。最终再利用人脸转化中的人脸扭曲和插值模块、肤色校正模块和人脸融合拼接模块生成最终的人脸交换结果。解决了人脸交换领域目前存在的两个问题：(1)生成的人脸交换结果对身份信息和表情信息控制得不够细致。(2)绝大部分方法无法在高分辨率的图片上进行清晰的生成。

实施例1：

步骤a)中使用InsightFace工具对包含源身份人脸的源视频V_s以及包含目标身份人脸的目标视频V_t进行人脸识别及人脸对齐操作。

实施例2：

步骤a)中源身份人脸图片P_s及目标身份人脸图片P_t的大小均设置为224*224。

实施例3：

如附图2所示，步骤c)包括如下步骤：

c-1)Swin Transformer编码器E依次由patch Partition模块、第一处理模块、第二处理模块、第三处理模块及第四处理模块构成。

c-2)所述patch Partition模块由一个卷积核为4*4、步长为4的卷积层构成，将源身份人脸图片P_s和目标身份人脸图片P_t分别输入到patch Partition模块中，输出得到不重叠的源身份人脸图片的图片块P_s ^patch及目标身份人脸图片的图片块P_t ^patch，将图片块P_s ^patch及图片块P_t ^patch加上绝对位置编码，分别得到编码向量P_s ^e和编码向量P_t ^e。

和编码向量/>

c-4)所述第二处理模块依次由Swin Transformer网络中的patch merging层、第一SwinTransformer block、第二Swin Transformer block构成，第一Swin Transformer block与第二Swin Transformer block均由Swin Transformer网络中以移动窗口所构成的注意力计算单元构成，第一Swin Transformer block与第二Swin Transformer block的多头个数设置为6，将编码向量/>

和编码向量/>

输入到第二处理模块后，分别输出得到编码向量

和编码向量/>

和编码向量/>

输入到第三处理模块后，分别输出得到编码向量/>

和编码向量/>

和编码向量/>

输入到第四处理模块后，分别输出得到编码向量/>

和编码向量/>

实施例4：

步骤d)中向量嵌入单元V_in由一个卷积核为1*1、输出特征通道数为256的卷积层构成；步骤e)中源身份的向量嵌出单元V_outs及目标身份的向量嵌出单元V_outt均依次由两个卷积核为1*1、输出特征通道数为256的卷积层构成。

实施例5：

如附图3所示，步骤f)包括如下步骤：

f-1)源身份的基于注意力的解码器G_s和目标身份的基于注意力的解码器G_t均依次由3*3卷积核的第一卷积层、第一残差模块、第二残差模块、第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元、第三残差模块、第四残差模块、第五残差模块、第一自注意力模块、第二自注意力模块、第三自注意力模块、第一上采样模块、第二上采样模块、第三上采样模块、第二卷积层构成。

f-2)如附图4所示，第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元均依次由残差模块和上采样模块构成，所述第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块以及第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元中的残差模块均由第一分支和第二分支构成，所述第一分支依次由第一批标准化层(Batch Normalization)、第一ReLU函数层、卷积核为3*3的第一卷积层、卷积核为2*2最大池化层、第二批标准化层(Batch Normalization)、第二ReLU函数层及卷积核为3*3第二卷积层构成，所述第二分支依次由第三批标准化层(Batch Normalization)、ReLU函数层及卷积核为3*3的第三卷积层构成，如附图5所示，第一自注意力模块、第二自注意力模块、第三自注意力模块均由第一分支、第二分支构成，所述第一分支由归一化层、第一卷积层、第二卷积层、第三卷积层、第一乘法模块、Softmax函数层、第二乘法模块及第四卷积层构成。

将向量/>

输入到第一残差模块中的第一分支后输出得到向量/>

将向量/>

输入到第一残差模块中的第二分支后输出得到向量/>

将向量

与向量/>

相加得到向量/>

将向量/>

输入到第二残差模块中的第一分支后输出得到向量/>

将向量/>

输入到第二残差模块中的第二分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第一上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第二上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第三上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第四上采样单元的上采样模块中，输出得到向量/>

将向量/>

输入到第三残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第三残差模块的第二分支后，输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第四残差模块的第一分支后，输出得到向量

将向量/>

输入到第四残差模块的第二分支后，输出得到向量/>

将向量/>

与向量

相加得到向量/>

将向量/>

输入到第五残差模块的第一分支后，输出得到向量

将向量/>

输入到第五残差模块的第二分支后，输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

将向量/>

将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值/>

式中softmax(·)为Softmax激活函数，T为转置，d_ks1为空间向量/>

的维度，将激活函数值/>

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式/>

计算得到注意力

将注意力/>

输入到第四卷积层中，输出得到向量/>

将向量/>

与第一自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量/>

将向量/>

将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量

将空间向量/>

输入到Softmax函数层中，得到激活函数值/>

式中d_ks2为空间向量/>

的维度，将激活函数值/>

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式/>

计算得到注意力/>

将注意力/>

输入到第四卷积层中，输出得到向量/>

将向量/>

与第二自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量/>

将向量/>

将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值

式中d_ks3为空间向量/>

的维度，将激活函数值/>

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式

计算得到注意力/>

将注意力

输入到第四卷积层中，输出得到向量/>

将向量/>

与第三自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量/>

将向量/>

输入到第一残差模块中的第一分支后输出得到向量/>

将向量/>

输入到第一残差模块中的第二分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第二残差模块中的第一分支后输出得到向量/>

将向量/>

输入到第二残差模块中的第二分支后输出得到向量/>

将向量

与向量/>

相加得到向量/>

将向量/>

将向量/>

输入到第一上采样单元的残差模块第二个分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第一上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第二上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第三上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第四上采样单元的上采样模块中，输出得到向量/>

将向量/>

输入到第三残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第三残差模块的第二分支后，输出得到向量/>

将向量

与向量/>

相加得到向量/>

将向量/>

输入到第四残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第四残差模块的第二分支后，输出得到向量/>

将向量

与向量/>

相加得到向量/>

将向量/>

输入到第五残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第五残差模块的第二分支后，输出得到向量/>

将向量

与向量/>

相加得到向量/>

将向量/>

将向量/>

将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值/>

式中d_kt1为空间向量/>

的维度，将激活函数值

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式/>

计算得到注意力/>

将注意力

输入到第四卷积层中，输出得到向量/>

将向量/>

与第一自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量/>

将向量/>

将特征映射/>

及

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值/>

式中d_kt2为空间向量/>

的维度，将激活函数值/>

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式/>

计算得到注意力/>

将注意力/>

输入到第四卷积层中，输出得到向量/>

将向量/>

与第二自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量/>

将向量/>

将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量

输入到Softmax函数层中，得到激活函数值/>

式中d_kt3为空间向量

的维度，将激活函数值/>

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式/>

计算得到注意力

将注意力/>

输入到第四卷积层中，输出得到向量

将向量/>

与第三自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量

实施例6：

步骤c-2)中通过随机生成一组相同的维度的可学习参数得到绝对位置编码。

实施例7：

步骤f-1)中第二卷积层的卷积核为3*3、步长为1、填充为1及输出特征通道数为3，第一上采样模块、第二上采样模块、第三上采样模块均依次由最近邻插值算法单元及一个卷积核为3*3、步长为1、填充为1的卷积层构成，步骤f-2)中第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元中的上采样模块依次由最近邻插值算法单元及一个卷积核为3*3、步长为1、填充为1的卷积层构成，步骤f-2)中第一自注意力模块、第二自注意力模块、第三自注意力模块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小为3*3、步长为1，第四卷积层的卷积核大小为1*1、步长为1。

实施例8：

为了提升重建图像真实性，计算重建高分辨率图片R_s、重建高分辨率图片R_t和源身份人脸图片P_s、目标身份人脸图片P_t之间的重建图片损失l_rec，计算判别结果

判别结果

和源身份人脸图片P_s、目标身份人脸图片P_t之间的判别损失l_d，计算重建高分辨率图片R_s、重建高分辨率图片R_t和源身份人脸图片P_s、目标身份人脸图片P_t之间的感知相似性损失l_lpips。具体的，步骤h)中通过公式l_all＝l_rec+l_d+l_lpips计算得到损失函数l_all，l_rec＝||R_s-P_s||²+||R_t-P_t||²，/>

实施例9：

步骤j)包括如下步骤：

j-1)将目标身份人脸图片P_t根据Delaunay三角剖分算法和人脸特征点f_k计算得到图片P_t ^d。

j-2)将高分辨率图片解码结果R_t2s根据图片P_t ^d中的人脸特征点使用双线性插值和仿射变换得到人脸插值结果R_V。

j-3)将图片P_t ^d利用凸包算法和目标身份人脸的人脸特征点f_k计算得到相应的目标人脸掩膜M_t。

j-4)将图片P_t ^d通过剪裁操作后得到背景为黑色的图片P_t ^f。

j-6)通过公式

计算得到肤色转化结果R_c。

j-7)通过公式

计算得到人脸融合结果/>

式中⊙为同或逻辑运算。由于目标人脸图片P_t ^p与肤色转化结果R_c存在不同的光照条件，因为同时使用泊松融合来优化人脸融合结果/>

的像素值，具体的，通过公式

来优化人脸融合结果/>

的像素值P(M_t,R_c,P_t ^p)，式中||·||₂为L2范数，▽为梯度算子，f为目标人脸图片P_t ^p与肤色转化结果R_c连接边缘区域。

j-8)将人脸融合结果

和目标人脸背景图片P_t ^c拼接得到最终换脸结果R_output。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Transformer的deepfake生成方法，其特征在于，包括：

及目标身份人脸图片的编码向量/>

d)将源身份人脸图片的编码向量

及目标身份人脸图片的编码向量/>

及目标身份人脸图片的编码向量/>

e)将源身份人脸图片的编码向量

完成模型建立；

h)通过损失函数l_all利用Adam优化器迭代步骤c)至g)中模型的参数，得到优化后的模型；

i)将目标身份人脸图片P_t输入到步骤h)中优化后的模型内，依次经过优化后的模型的Swin Transformer编码器E、向量嵌入单元V_in、源身份的向量嵌出单元V_outs、源身份的基于注意力的解码器G_s后输出得到高分辨率图片解码结果R_t2s，利用dlib库对目标身份人脸图片P_t检测分别得到目标身份人脸的人脸特征点f_k、目标人脸图片P_t ^p及目标人脸背景图片P_t ^c；

j)根据高分辨率图片解码结果R_t2s、目标身份人脸的人脸特征点f_k、目标人脸图片P_t ^p及目标人脸背景图片P_t ^c得到最终换脸结果R_output；

步骤j)包括如下步骤：

j-4)将图片P_t ^d通过剪裁操作后得到背景为黑色的图片P_t ^f；

j-6)通过公式

计算得到肤色转化结果R_c；

j-7)通过公式

计算得到人脸融合结果/>

式中⊙为同或逻辑运算，通过公式/>

来优化人脸融合结果

j-8)将人脸融合结果

和目标人脸背景图片P_t ^c拼接得到最终换脸结果R_output。

2.根据权利要求1所述的基于Transformer的deepfake生成方法，其特征在于：步骤a)中使用InsightFace工具对包含源身份人脸的源视频V_s以及包含目标身份人脸的目标视频V_t进行人脸识别及人脸对齐操作。

3.根据权利要求1所述的基于Transformer的deepfake生成方法，其特征在于：步骤a)中源身份人脸图片P_s及目标身份人脸图片P_t的大小均设置为224*224。

4.根据权利要求1所述的基于Transformer的deepfake生成方法，其特征在于，步骤c)包括如下步骤：

c-3)所述第一处理模块依次由Linear Embeding层、第一Swin Transformer block、第二Swin Transformer block构成，Linear Embeding层由一个卷积核为1*1、输出特征通道数为33的卷积层构成，第一Swin Transformer block与第二Swin Transformer block均由Swin Transformer网络中以移动窗口所构成的注意力计算单元构成，第一SwinTransformer block与第二Swin Transformer block的多头个数设置为3，将编码向量P_s ^e和编码向量P_t ^e输入到第一处理模块后，分别输出得到编码向量

和编码向量/>

和编码向量/>

输入到第二处理模块后，分别输出得到编码向量/>

和编码向量/>

c-5)所述第三处理模块依次由Swin Transformer网络中的patchmerging层、第一Swin Transformer block、第二Swin Transformer block、第三SwinTransformer block、第四Swin Transformer block、第五Swin Transformer block、第六Swin Transformer block构成，第一Swin Transformer block、第二Swin Transformerblock、第三Swin Transformer block、第四Swin Transformer block、第五SwinTransformer block、第六Swin Transformer block均由Swin Transformer网络中以移动窗口所构成的注意力计算单元构成，第一Swin Transformer block、第二SwinTransformer block、第三Swin Transformer block、第四Swin Transformer block、第五Swin Transformer block、第六Swin Transformer block的多头个数设置为12，将编码向量/>

和编码向量/>

输入到第三处理模块后，分别输出得到编码向量/>

和编码向量/>

c-6)所述第四处理模块依次由Swin Transformer网络中的patch merging层、第一SwinTransformer block、第二Swin Transformer block、第三Swin Transformer block、第四Swin Transformer block、第五Swin Transformer block、第六Swin Transformer block构成，第一Swin Transformer block、第二Swin Transformer block、第三SwinTransformer block、第四Swin Transformer block、第五Swin Transformer block、第六Swin Transformer block均由Swin Transformer网络中以移动窗口所构成的注意力计算单元构成，第一Swin Transformer block、第二Swin Transformer block、第三SwinTransformer block、第四Swin Transformer block、第五Swin Transformer block、第六Swin Transformer block的多头个数设置为12，将编码向量/>

和编码向量/>

输入到第四处理模块后，分别输出得到编码向量/>

和编码向量/>

5.根据权利要求1所述的基于Transformer的deepfake生成方法，其特征在于：步骤d)中向量嵌入单元V_in由一个卷积核为1*1、输出特征通道数为256的卷积层构成；步骤e)中源身份的向量嵌出单元V_outs及目标身份的向量嵌出单元V_outt均依次由两个卷积核为1*1、输出特征通道数为256的卷积层构成。

6.根据权利要求1所述的基于Transformer的deepfake生成方法，其特征在于，步骤f)包括如下步骤：

f-1)源身份的基于注意力的解码器G_s和目标身份的基于注意力的解码器G_t均依次由3*3卷积核的第一卷积层、第一残差模块、第二残差模块、第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元、第三残差模块、第四残差模块、第五残差模块、第一自注意力模块、第二自注意力模块、第三自注意力模块、第一上采样模块、第二上采样模块、第三上采样模块、第二卷积层构成；f-2)第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元均依次由残差模块和上采样模块构成，所述第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块以及第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元中的残差模块均由第一分支和第二分支构成，所述第一分支依次由第一批标准化层、第一ReLU函数层、卷积核为3*3的第一卷积层、卷积核为2*2最大池化层、第二批标准化层、第二ReLU函数层及卷积核为3*3第二卷积层构成，所述第二分支依次由第三批标准化层、ReLU函数层及卷积核为3*3的第三卷积层构成，第一自注意力模块、第二自注意力模块、第三自注意力模块均由第一分支、第二分支构成，所述第一分支由归一化层、第一卷积层、第二卷积层、第三卷积层、第一乘法模块、Softmax函数层、第二乘法模块及第四卷积层构成；

将向量/>

输入到第一残差模块中的第一分支后输出得到向量/>

将向量/>

输入到第一残差模块中的第二分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第二残差模块中的第一分支后输出得到向量/>

将向量/>

输入到第二残差模块中的第二分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第一上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第二上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第三上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第四上采样单元的上采样模块中，输出得到向量/>

将向量/>

输入到第三残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第三残差模块的第二分支后，输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第四残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第四残差模块的第二分支后，输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第五残差模块的第一分支后，输出得到向量

将向量/>

输入到第五残差模块的第二分支后，输出得到向量/>

将向量/>

与向量

相加得到向量/>

将向量/>

将向量/>

V_s ¹，将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值/>

式中softmax(·)为Softmax激活函数，T为转置，d_ks1为空间向量/>

的维度，将激活函数值/>

及空间向量V_s ¹一同输入到第二乘法模块中进行相乘计算，通过公式/>

计算得到注意力

将注意力/>

输入到第四卷积层中，输出得到向量

将向量/>

与第一自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量

将向量

将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量

将空间向量/>

输入到Softmax函数层中，得到激活函数值/>

式中d_ks2为空间向量/>

的维度，将激活函数值/>

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式/>

计算得到注意力/>

将注意力/>

输入到第四卷积层中，输出得到向量/>

将向量/>

与第二自注意力模块的第二分支输入的向量/>

相加得到向量

将向量/>

将向量/>

将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值

式中d_ks3为空间向量/>

的维度，将激活函数值/>

及空间向量/>

一同输入到第二乘法模块中进行相乘计算，通过公式

计算得到注意力/>

将注意力

输入到第四卷积层中，输出得到向量/>

将向量/>

与第三自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量/>

依次输入到源身份的基于注意力的解码器G_s的第一上采样模块、第二上采样模块、第三上采样模块、第二卷积层后输出得到高分辨图片R_s；

将向量/>

输入到第一残差模块中的第一分支后输出得到向量/>

将向量/>

输入到第一残差模块中的第二分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第二残差模块中的第一分支后输出得到向量/>

将向量/>

输入到第二残差模块中的第二分支后输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第一上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第二上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第三上采样单元的上采样模块中，输出得到向量/>

将向量/>

将向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

输入到第四上采样单元的上采样模块中，输出得到向量/>

将向量/>

输入到第三残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第三残差模块的第二分支后，输出得到向量/>

将向量

与向量/>

相加得到向量/>

将向量/>

输入到第四残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第四残差模块的第二分支后，输出得到向量/>

将向量

与向量/>

相加得到向量/>

将向量/>

输入到第五残差模块的第一分支后，输出得到向量/>

将向量/>

输入到第五残差模块的第二分支后，输出得到向量/>

将向量/>

与向量/>

相加得到向量/>

将向量/>

将向量/>

V_t ¹，将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值/>

式中d_kt1为空间向量/>

的维度，将激活函数值

及空间向量V_t ¹一同输入到第二乘法模块中进行相乘计算，通过公式

计算得到注意力/>

将注意力

输入到第四卷积层中，输出得到向量/>

将向量/>

与第一自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量/>

将向量/>

V_t ²，将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值/>

式中d_kt2为空间向量/>

的维度，将激活函数值/>

及空间向量V_t ²一同输入到第二乘法模块中进行相乘计算，通过公式/>

计算得到注意力/>

将注意力/>

输入到第四卷积层中，输出得到向量/>

将向量/>

与第二自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量/>

将向量/>

V_t ³，将特征映射/>

及/>

输入到第一乘法模块中进行相乘计算，得到空间向量/>

将空间向量/>

输入到Softmax函数层中，得到激活函数值/>

式中d_kt3为空间向量/>

的维度，将激活函数值/>

计算得到注意力

将注意力/>

输入到第四卷积层中，输出得到向量

将向量/>

与第三自注意力模块的第二分支输入的向量/>

相加得到向量/>

将向量

7.根据权利要求4所述的基于Transformer的deepfake生成方法，其特征在于：步骤c-2)中通过随机生成一组相同的维度的可学习参数得到绝对位置编码。

8.根据权利要求6所述的基于Transformer的deepfake生成方法，其特征在于：步骤f-1)中第二卷积层的卷积核为3*3、步长为1、填充为1及输出特征通道数为3，第一上采样模块、第二上采样模块、第三上采样模块均依次由最近邻插值算法单元及一个卷积核为3*3、步长为1、填充为1的卷积层构成，步骤f-2)中第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元中的上采样模块依次由最近邻插值算法单元及一个卷积核为3*3、步长为1、填充为1的卷积层构成，步骤f-2)中第一自注意力模块、第二自注意力模块、第三自注意力模块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小为3*3、步长为1，第四卷积层的卷积核大小为1*1、步长为1。

9.根据权利要求1所述的基于Transformer的deepfake生成方法，其特征在于：步骤h)中通过公式l_all＝l_rec+l_d+l_lpips计算得到损失函数l_all，式中l_rec为重建图片损失，l_d为判别损失，l_lpips为感知相似性损失，l_rec＝||R_s-P_s||²+||R_t-P_t||²，

，式中C_i为VGG网络第i层的特征通道数，H_i为VGG网络第i层的特征长度，W_i为VGG网络第i层的特征宽度，i∈{1,...,n}，n为VGG网络的总层数，VGG_i(R_s)为将高分辨率图片R_s输入到VGG网络第i层后得到的输出结果，VGG_i(P_s)为将源身份人脸图片P_s输入到VGG网络第i层后得到的输出结果，VGG_i(R_t)为将高分辨率图片R_t输入到VGG网络第i层后得到的输出结果，VGG_i(P_t)为将目标身份人脸图片P_t输入到VGG网络第i层后得到的输出结果。/>