CN116612211B

CN116612211B - 一种基于gan和3d系数重建的人脸图像身份合成方法

Info

Publication number: CN116612211B
Application number: CN202310505074.XA
Authority: CN
Inventors: 李子安; 刘瑞霞; 舒明雷; 陈超; 刘照阳; 周书旺
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2024-02-02
Anticipated expiration: 2043-05-08
Also published as: CN116612211A

Abstract

一种基于GAN和3D系数重建的人脸图像身份合成方法，通过从2D图像提取3D系数特征，从而将源图像和目标图像中的人脸进行3D建模，能够保留人脸图像更多的几何结构信息，并生成高质量的人脸合成图像。与传统的人脸图像身份合成方法不同，3D系数重建人脸图像身份合成方法可以获得更多的表情、姿态、光照和纹理等方面的信息，同时能够更好地处理遮挡和局部缺失等问题。

Description

一种基于GAN和3D系数重建的人脸图像身份合成方法

技术领域

本发明涉及人脸图像身份合成领域，具体涉及一种基于GAN和3D系数重建的人脸图像身份合成方法。

背景技术

人脸图像身份合成是一种自动将源图像的人脸身份转移到目标图像上的技术，同时保持目标图像上所有其他与身份无关的内容未被修改的技术。受益于深度神经网络的快速发展，该技术经常被用于娱乐和教育领域，尽管有时候合成的结果并不能使人完全满意，但是，来自该行业的需求逐渐引起了人们对该研究领域的关注。

常用的人脸图像身份合成模型通常分别从源图像和目标图像中获取身份信息和属性信息，并进行特征融合，最后生成合成的人脸。这些方法专注于如何将身份信息和属性信息从2D图像中充分的解纠缠，然而，2D图像中缺乏一些3D系数特征，使得生成的图像不能使人满意，因此基于3D系数的人脸图像身份合成方法在保留特征属性方面具有巨大的优势。基于3D重建技术，通过对源图像和目标图像中的人脸进行3D建模并重组，从而保留更多的几何结构信息，并生成高质量的人脸合成图像，它与传统方法不同，3D系数重建人脸图像人脸图像身份合成方法可以获得图像中更多的表情、姿态、光照和纹理等方面的信息，同时能够更好地处理遮挡和局部缺失等问题。

发明内容

本发明为了克服以上技术的不足，提供了一种可以获得更多信息，生成高质量人脸合成图像的方法。

本发明克服其技术问题所采用的技术方案是：

一种基于GAN和3D系数重建的人脸图像身份合成方法，包括如下步骤：

a)对目标视频V_t进行检测，提取出n个目标人脸图像，将源人脸图像I_s与各个目标人脸图像进行对齐；

b)建立3D系数融合感知网络，将源人脸图像I_s和目标人脸图像输入到3D系数融合感知网络中，得到3D系数融合特征F_fuse；

c)建立特征融合-生成式网络，将目标人脸图像和3D系数融合特征F_fuse输入到特征融合-生成式网络中，输出得到交换身份后的人脸图像

d)通过损失函数迭代优化交换身份后的人脸图像

e)将交换身份后的人脸图像集I_fake合成视频V_fake。

进一步的，步骤a)包括如下步骤：

a-1)使用opencv读取目标视频V_t，使用dlib人脸检测工具对目标视频V_t的每一帧提取图像，得到n个目标人脸图像的集合I_t，其中/>为第i个目标人脸图像，i∈{1,...,n}；a-2)使用dlib人脸检测工具将源人脸图像I_s与第i个人脸图像/>进行对齐。

进一步的，步骤b)包括如下步骤：

b-1)3D系数融合感知网络由3D编码器和身份编码器E_id构成；

b-2)3D系数融合感知网络的3D编码器由预训练的Deep3DFaceRecon网络构成，将源人脸图像I_s输入到3D编码器中，输出得到源人脸图像的3D身份系数特征将第i个目标人脸图像/>输入到3D编码器中，输出得到目标人脸图像的3D属性系数特征F_t ^3D；

b-3)使用torch.cat()函数将源人脸图像的3D身份系数特征与目标人脸图像的3D属性系数特征F_t ^3D进行拼接，得到3D系数融合特征/>

b-4)3D系数融合感知网络的身份编码器E_id由第一下采样残差块、第二下采样残差块、第一全局自注意力块、第二全局自注意力块构成；

b-5)身份编码器E_id的第一下采样残差块由第一分支、第二分支构成，第一分支依次由卷积层、下采样层构成，第二分支依次由卷积层、正则化层、ReLU激活函数层、下采样层构成，将源人脸图像I_s输入到第一下采样残差块的第一分支中，输出得到特征将源人脸图像I_s输入到第一下采样残差块的第二分支中，输出得到特征/>将特征/>与特征相加得到融合特征/>

b-6)身份编码器E_id的第一全局自注意力块由第一分支、第二分支构成，第一分支依次由卷积层、下采样层构成，第二分支依次由第一卷积层、第一正则化层、第一ReLU激活函数层、自注意力层、下采样层、第二卷积层、第二正则化层、第二ReLU激活函数层构成，将融合特征输入到第一全局自注意力块的第一分支中，输出得到特征/>将融合特征输入到第一全局自注意力块的第二分支中，输出得到特征/>将特征/>与特征相加得到融合特征/>

b-7)身份编码器E_id的第二下采样残差块由第一分支、第二分支构成，第一分支依次由卷积层、下采样层构成，第二分支依次由卷积层、正则化层、ReLU激活函数层、下采样层构成，将融合特征输入到第一下采样残差块的第一分支中，输出得到特征/>将融合特征/>输入到第二下采样残差块的第二分支中，输出得到特征/>将特征/>与特征相加得到融合特征/>

b-8)身份编码器E_id的第二全局自注意力块由第一分支、第二分支构成，第一分支依次由卷积层、下采样层构成，第二分支依次由第一卷积层、第一正则化层、第一ReLU激活函数层、自注意力层、下采样层、第二卷积层、第二正则化层、第二ReLU激活函数层构成，将融合特征输入到第一全局自注意力块的第一分支中，输出得到特征/>将融合特征输入到第二全局自注意力块的第二分支中，输出得到特征/>将特征/>与特征相加得到身份特征F_id；

b-9)使用torch.cat()函数将3D系数融合特征与身份特征F_id进行拼接，得到3D系数融合特征F_fuse。

优选的，步骤b-5)中第一下采样残差块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0，第一下采样残差块的第二分支的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤b-6)中第一全局自注意力块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0，第一全局自注意力块的第二分支的第一卷积层和第二卷积层的卷积核大小均为3×3、步长为1、填充为1；步骤b-7)中第二下采样残差块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0，第一下采样残差块的第二分支的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤b-8)中第二全局自注意力块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0，第一全局自注意力块的第二分支的第一卷积层和第二卷积层的卷积核大小均为3×3、步长为1、填充为1。

进一步的，步骤c)包括如下步骤：

c-1)特征融合-生成式网络由属性编码器E_attr、特征融合网络、解码器网络构成；

c-2)特征融合-生成式网络的属性编码器E_attr由第一下采样块、第二下采样块、第三下采样块、第四下采样块、MLP模块构成；

c-3)属性编码器E_attr的第一下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成，将第i个目标人脸图像输入到第一下采样块中，输出得到特征F_t ¹，属性编码器E_attr的第二下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成，将特征F_t ¹输入到第二下采样块中，输出得到特征F_t ²，属性编码器E_attr的MLP模块依次由第一Linear层、ReLU激活函数层、第二Linear层构成，将特征F_t ²输入到MLP模块中，输出得到特征F_t ³，属性编码器E_attr的第三下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成，将特征F_t ³输入到第三下采样块中，输出得到特征F_t ⁴，属性编码器E_attr的第四下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成，将特征F_t ⁴输入到第四下采样块中，输出得到属性特征F_t；

c-4)特征融合网络由第一自适应特征融合块、第二自适应特征融合块、第三自适应特征融合块构成；

c-5)特征融合网络的第一自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成，第一adain层由正则化层、第一卷积层、第二卷积层构成，第二adain层由正则化层、第一卷积层、第二卷积层构成，将属性特征F_t输入到第一adain层的正则化层中，输出得到特征F_t ^adain1-1，将3D系数融合特征F_fuse输入到第一adain层的第一卷积层中，输出得到特征将3D系数融合特征F_fuse输入到第一adain层的第二卷积层中，输出得到特征/>将特征F_t ^adain1-1与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征/>依次输入到第一自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中，输出得到特征/>将特征/>输入到第二adain层的正则化层中，输出得到特征F_t ^adain2-1，将3D系数融合特征F_fuse输入到第二adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第二卷积层中，输出得到特征/>将特征F_t ^adain2-1与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征依次输入到第一自适应特征融合块的第二ReLU激活函数层、第二卷积层中，输出得到特征/>c-6)特征融合网络的第二自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成，第一adain层由正则化层、第一卷积层、第二卷积层构成，第二adain层由正则化层、第一卷积层、第二卷积层构成，将特征/>输入到第一adain层的正则化层中，输出得到特征/>将3D系数融合特征F_fuse输入到第一adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第一adain层的第二卷积层中，输出得到特征/>将特征与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征/>依次输入到第二自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中，输出得到特征/>将特征/>输入到第二adain层的正则化层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第二卷积层中，输出得到特征/>将特征/>与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征依次输入到第二自适应特征融合块的第二ReLU激活函数层、第二卷积层中，输出得到特征/>c-7)特征融合网络的第三自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成，第一adain层由正则化层、第一卷积层、第二卷积层构成，第二adain层由正则化层、第一卷积层、第二卷积层构成，将特征/>输入到第一adain层的正则化层中，输出得到特征/>将3D系数融合特征F_fuse输入到第一adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第一adain层的第二卷积层中，输出得到特征/>将特征与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征/>依次输入到第三自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中，输出得到特征/>将特征/>输入到第二adain层的正则化层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第二卷积层中，输出得到特征/>将特征/>与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征依次输入到第三自适应特征融合块的第二ReLU激活函数层、第二卷积层中，输出得到特征/>c-8)解码器网络由第一上采样块、第二上采样块、第三上采样块、第四上采样块构成；

c-9)解码器网络的第一上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成，将特征输入到第一上采样块中，输出得到特征/>

c-10)解码器网络的第二上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成，将特征输入到第二上采样块中，输出得到特征/>

c-11)解码器网络的第三上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成，将特征输入到第三上采样块中，输出得到特征/>

c-12)解码器网络的第四上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成，将特征输入到第四上采样块中，输出得到交换身份后的人脸图像/>优选的，步骤c-3)中第一下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1，第二下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1，第三下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1，第四下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤c-5)中第一自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1；步骤c-6)中第二自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1；步骤c-7)中第三自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1；步骤c-9)中第一上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤c-10)中第二上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤c-11)中第三上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤c-12)中第四上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1。进一步的，步骤d)包括如下步骤：

d-1)将第i个目标人脸图像输入到多尺度判别器D_r，输出得到特征/>将交换身份后的人脸图像/>输入到多尺度判别器D_r，输出得到特征/>通过公式计算得到真实损失loss_T，式中ReLU(·)为ReLU激活函数，torch.ones_like(·)为torch.ones_like函数，通过公式计算得到真实损失loss_F，通过公式loss_D＝loss_T+loss_F计算得到真假损失loss_D；

d-2)通过dlib人脸检测工具提取第i个目标人脸图像的人脸关键点L_t，通过dlib人脸检测工具提取源人脸图像I_s的人脸关键点L_s，通过dlib人脸检测工具提取交换身份后的人脸图像/>的人脸关键点L_fake，通过公式loss_shape＝||L_fake-L_s||₁+||L_fake-L_t||₁计算形状感知损失loss_shape，||·||₁为L1范数；

d-3)将交换身份后的人脸图像替代步骤b-5)中的源人脸图像I_s后重复执行步骤b-5)至步骤b-8)，得到交换身份后的图像特征F_fake，通过公式loss_id＝1-cos(F_id,F_fake)计算得到身份损失loss_id，式中cos(·,·)为计算两者的余弦相似度；

d-4)通过公式计算得到重建损失loss_rec；d-5)将交换身份后的人脸图像/>替代步骤b)中源人脸图像I_s后重复执行步骤b)至步骤c)，得到新的交换身份后的人脸图像/>通过公式/>计算得到循环一致性损失loss_cyc；

d-6)使用反向传播法，利用真假损失loss_D、形状感知损失loss_shape、身份损失loss_id、重建损失loss_rec、循环一致性损失loss_cyc迭代优化交换身份后的人脸图像进一步的，步骤e)包括如下步骤：

e-1)所有n个交换身份后的人脸图像形成交换身份后的人脸图像集I_fake，e-2)通过多媒体处理工具ffmpeg将交换身份后的人脸图像集I_fake合成视频V_fake。

本发明的有益效果是：通过从2D图像提取3D系数特征，从而将源图像和目标图像中的人脸进行3D建模，能够保留人脸图像更多的几何结构信息，并生成高质量的人脸合成图像。与传统的人脸图像身份合成方法不同，3D系数重建人脸图像身份合成方法可以获得更多的表情、姿态、光照和纹理等方面的信息，同时能够更好地处理遮挡和局部缺失等问题

附图说明

图1为本发明的3D系数融合感知网络的结构图；

图2为本发明的属性编码器的网络结构图；

图3为本发明的身份编码器的网络结构图；

图4为本发明的解码器网络的结构图；

图5为本发明的特征融合网络的结构图。

具体实施方式

下面结合附图1至附图5对本发明做进一步说明。

a)对目标视频V_t进行检测，提取出n个目标人脸图像，将源人脸图像I_s与各个目标人脸图像进行对齐。最终使提取的图像大小为512×512像素。

b)建立3D系数融合感知网络，将源人脸图像I_s和目标人脸图像输入到3D系数融合感知网络中，得到3D系数融合特征F_fuse。

d)通过损失函数迭代优化交换身份后的人脸图像

e)将交换身份后的人脸图像集I_fake合成视频V_fake。

本发明提出了一种两阶段网络架构的人脸图像身份合成方法。在第一阶段网络中分别提取源人脸图像的3D身份系数特征和目标人脸图像的3D属性系数特征，并将3D身份系数特征和3D属性系数特征重组形成一个新的3D系数特征。然后提取源人脸图像的身份特征与3D系数特征重组成3D融合特征。在第二阶段网络中，首先提取目标人脸的属性特征和语义特征，然后将第一阶段网络中的3D融合特征与目标人脸的属性特征和语义特征融合，最后通过解码器生成交换身份后的人脸图像。

实施例1：

步骤a)包括如下步骤：

a-1)使用opencv读取目标视频V_t，使用dlib人脸检测工具对目标视频V_t的每一帧提取图像，得到n个目标人脸图像的集合I_t，其中/>为第i个目标人脸图像，i∈{1,...,n}。a-2)使用dlib人脸检测工具将源人脸图像I_s与第i个人脸图像/>进行对齐。

实施例2：

步骤b)包括如下步骤：

b-1)3D系数融合感知网络由3D编码器和身份编码器E_id构成。

b-2)3D系数融合感知网络的3D编码器由预训练的Deep3DFaceRecon网络构成，将源人脸图像I_s输入到3D编码器中，输出得到源人脸图像的3D身份系数特征将第i个目标人脸图像/>输入到3D编码器中，输出得到目标人脸图像的3D属性系数特征F_t ^3D。

b-3)使用torch.cat()函数将源人脸图像的3D身份系数特征与目标人脸图像的3D属性系数特征F_t ^3D进行拼接，得到3D系数融合特征/>b-4)3D系数融合感知网络的身份编码器E_id由第一下采样残差块、第二下采样残差块、第一全局自注意力块、第二全局自注意力块构成。

b-8)身份编码器E_id的第二全局自注意力块由第一分支、第二分支构成，第一分支依次由卷积层、下采样层构成，第二分支依次由第一卷积层、第一正则化层、第一ReLU激活函数层、自注意力层、下采样层、第二卷积层、第二正则化层、第二ReLU激活函数层构成，将融合特征输入到第一全局自注意力块的第一分支中，输出得到特征/>将融合特征输入到第二全局自注意力块的第二分支中，输出得到特征/>将特征/>与特征相加得到身份特征F_id。

在该实施例中，优选的，步骤b-5)中第一下采样残差块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0，第一下采样残差块的第二分支的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤b-6)中第一全局自注意力块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0，第一全局自注意力块的第二分支的第一卷积层和第二卷积层的卷积核大小均为3×3、步长为1、填充为1；步骤b-7)中第二下采样残差块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0，第一下采样残差块的第二分支的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤b-8)中第二全局自注意力块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0，第一全局自注意力块的第二分支的第一卷积层和第二卷积层的卷积核大小均为3×3、步长为1、填充为1。

实施例3：

步骤c)包括如下步骤：

c-1)特征融合-生成式网络由属性编码器E_attr、特征融合网络、解码器网络构成。

c-2)特征融合-生成式网络的属性编码器E_attr由第一下采样块、第二下采样块、第三下采样块、第四下采样块、MLP模块构成。

c-3)属性编码器E_attr的第一下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成，将第i个目标人脸图像输入到第一下采样块中，输出得到特征F_t ¹，属性编码器E_attr的第二下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成，将特征F_t ¹输入到第二下采样块中，输出得到特征F_t ²，属性编码器E_attr的MLP模块依次由第一Linear层、ReLU激活函数层、第二Linear层构成，将特征F_t ²输入到MLP模块中，输出得到特征F_t ³，属性编码器E_attr的第三下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成，将特征F_t ³输入到第三下采样块中，输出得到特征F_t ⁴，属性编码器E_attr的第四下采样块依次由InstanceNorm2d层、ReLU激活函数层、卷积层、池化层构成，将特征F_t ⁴输入到第四下采样块中，输出得到属性特征F_t。

c-4)特征融合网络由第一自适应特征融合块、第二自适应特征融合块、第三自适应特征融合块构成。

c-5)特征融合网络的第一自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成，第一adain层由正则化层、第一卷积层、第二卷积层构成，第二adain层由正则化层、第一卷积层、第二卷积层构成，将属性特征F_t输入到第一adain层的正则化层中，输出得到特征F_t ^adain1-1，将3D系数融合特征F_fuse输入到第一adain层的第一卷积层中，输出得到特征将3D系数融合特征F_fuse输入到第一adain层的第二卷积层中，输出得到特征/>将特征F_t ^adain1-1与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征/>依次输入到第一自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中，输出得到特征/>将特征/>输入到第二adain层的正则化层中，输出得到特征F_t ^adain2-1，将3D系数融合特征F_fuse输入到第二adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第二卷积层中，输出得到特征/>将特征F_t ^adain2-1与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征依次输入到第一自适应特征融合块的第二ReLU激活函数层、第二卷积层中，输出得到特征/>c-6)特征融合网络的第二自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成，第一adain层由正则化层、第一卷积层、第二卷积层构成，第二adain层由正则化层、第一卷积层、第二卷积层构成，将特征/>输入到第一adain层的正则化层中，输出得到特征/>将3D系数融合特征F_fuse输入到第一adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第一adain层的第二卷积层中，输出得到特征/>将特征与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征/>依次输入到第二自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中，输出得到特征/>将特征/>输入到第二adain层的正则化层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第二卷积层中，输出得到特征/>将特征/>与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征依次输入到第二自适应特征融合块的第二ReLU激活函数层、第二卷积层中，输出得到特征/>c-7)特征融合网络的第三自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成，第一adain层由正则化层、第一卷积层、第二卷积层构成，第二adain层由正则化层、第一卷积层、第二卷积层构成，将特征/>输入到第一adain层的正则化层中，输出得到特征/>将3D系数融合特征F_fuse输入到第一adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第一adain层的第二卷积层中，输出得到特征/>将特征与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征/>依次输入到第三自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中，输出得到特征/>将特征/>输入到第二adain层的正则化层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第二卷积层中，输出得到特征/>将特征/>与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征依次输入到第三自适应特征融合块的第二ReLU激活函数层、第二卷积层中，输出得到特征/>c-8)解码器网络由第一上采样块、第二上采样块、第三上采样块、第四上采样块构成。

c-12)解码器网络的第四上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成，将特征输入到第四上采样块中，输出得到交换身份后的人脸图像/>在该实施例中，优选的，步骤c-3)中第一下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1，第二下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1，第三下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1，第四下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤c-5)中第一自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1；步骤c-6)中第二自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1；步骤c-7)中第三自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1；步骤c-9)中第一上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤c-10)中第二上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤c-11)中第三上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤c-12)中第四上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1。

实施例4：

步骤d)包括如下步骤：

d-1)将第i个目标人脸图像输入到多尺度判别器D_r，输出得到特征/>将交换身份后的人脸图像/>输入到多尺度判别器D_r，输出得到特征/>通过公式计算得到真实损失loss_T，式中ReLU(·)为ReLU激活函数，torch.ones_like(·)为torch.ones_like函数，通过公式计算得到真实损失loss_F，通过公式loss_D＝loss_T+loss_F计算得到真假损失loss_D。

d-2)通过dlib人脸检测工具提取第i个目标人脸图像的人脸关键点L_t，通过dlib人脸检测工具提取源人脸图像I_s的人脸关键点L_s，通过dlib人脸检测工具提取交换身份后的人脸图像/>的人脸关键点L_fake，通过公式loss_shape＝||L_fake-L_s||₁+||L_fake-L_t||₁计算形状感知损失loss_shape，||·||₁为L1范数。

d-3)将交换身份后的人脸图像替代步骤b-5)中的源人脸图像I_s后重复执行步骤b-5)至步骤b-8)，得到交换身份后的图像特征F_fake，通过公式loss_id＝1-cos(F_id,F_fake)计算得到身份损失loss_id，式中cos(·,·)为计算两者的余弦相似度。

d-4)通过公式计算得到重建损失loss_rec。通过重建损失进行像素级的监督。

d-5)将交换身份后的人脸图像替代步骤b)中源人脸图像I_s后重复执行步骤b)至步骤c)，得到新的交换身份后的人脸图像/>通过公式/>计算得到循环一致性损失loss_cyc。

d-6)使用反向传播法，利用真假损失loss_D、形状感知损失loss_shape、身份损失loss_id、重建损失loss_rec、循环一致性损失loss_cyc迭代优化交换身份后的人脸图像实施例5：

步骤e)包括如下步骤：

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于GAN和3D系数重建的人脸图像身份合成方法，其特征在于，包括如下步骤：

d)通过损失函数迭代优化交换身份后的人脸图像

e)将交换身份后的人脸图像集I_fake合成视频V_fake；

步骤a)包括如下步骤：

a-1)使用opencv读取目标视频V_t，使用dlib人脸检测工具对目标视频V_t的每一帧提取图像，得到n个目标人脸图像的集合I_t，其中/>为第i个目标人脸图像，i∈{1,...,n}；

a-2)使用dlib人脸检测工具将源人脸图像I_s与第i个人脸图像进行对齐；

步骤b)包括如下步骤：

b-1)3D系数融合感知网络由3D编码器和身份编码器E_id构成；

b-2)3D系数融合感知网络的3D编码器由预训练的Deep3DFaceRecon网络构成，将源人脸图像I_s输入到3D编码器中，输出得到源人脸图像的3D身份系数特征F_s ^3D，将第i个目标人脸图像输入到3D编码器中，输出得到目标人脸图像的3D属性系数特征F_t ^3D；

b-3)使用torch.cat()函数将源人脸图像的3D身份系数特征F_s ^3D与目标人脸图像的3D属性系数特征F_t ^3D进行拼接，得到3D系数融合特征

b-5)身份编码器E_id的第一下采样残差块由第一分支、第二分支构成，第一分支依次由卷积层、下采样层构成，第二分支依次由卷积层、正则化层、ReLU激活函数层、下采样层构成，将源人脸图像I_s输入到第一下采样残差块的第一分支中，输出得到特征F_s ^1-1，将源人脸图像I_s输入到第一下采样残差块的第二分支中，输出得到特征F_s ^1-2，将特征F_s ^1-1与特征F_s ^1-2相加得到融合特征F_s ¹；

b-6)身份编码器E_id的第一全局自注意力块由第一分支、第二分支构成，第一分支依次由卷积层、下采样层构成，第二分支依次由第一卷积层、第一正则化层、第一ReLU激活函数层、自注意力层、下采样层、第二卷积层、第二正则化层、第二ReLU激活函数层构成，将融合特征F_s ¹输入到第一全局自注意力块的第一分支中，输出得到特征F_s ^2-1，将融合特征F_s ¹输入到第一全局自注意力块的第二分支中，输出得到特征F_s ^2-2，将特征F_s ^2-1与特征F_s ^2-2相加得到融合特征F_s ²；

b-7)身份编码器E_id的第二下采样残差块由第一分支、第二分支构成，第一分支依次由卷积层、下采样层构成，第二分支依次由卷积层、正则化层、ReLU激活函数层、下采样层构成，将融合特征F_s ²输入到第一下采样残差块的第一分支中，输出得到特征F_s ^3-1，将融合特征F_s ²输入到第二下采样残差块的第二分支中，输出得到特征F_s ^3-2，将特征F_s ^3-1与特征F_s ^3-2相加得到融合特征F_s ³；

b-8)身份编码器E_id的第二全局自注意力块由第一分支、第二分支构成，第一分支依次由卷积层、下采样层构成，第二分支依次由第一卷积层、第一正则化层、第一ReLU激活函数层、自注意力层、下采样层、第二卷积层、第二正则化层、第二ReLU激活函数层构成，将融合特征F_s ³输入到第一全局自注意力块的第一分支中，输出得到特征F_s ^4-1，将融合特征F_s ³输入到第二全局自注意力块的第二分支中，输出得到特征F_s ^4-2，将特征F_s ^4-1与特征F_s ^4-2相加得到身份特征F_id；

2.根据权利要求1所述的基于GAN和3D系数重建的人脸图像身份合成方法，其特征在于：步骤b-5)中第一下采样残差块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0，第一下采样残差块的第二分支的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤b-6)中第一全局自注意力块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0，第一全局自注意力块的第二分支的第一卷积层和第二卷积层的卷积核大小均为3×3、步长为1、填充为1；步骤b-7)中第二下采样残差块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0，第一下采样残差块的第二分支的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤b-8)中第二全局自注意力块的第一分支的卷积层的卷积核大小为1×1、步长为1、填充为0，第一全局自注意力块的第二分支的第一卷积层和第二卷积层的卷积核大小均为3×3、步长为1、填充为1。

3.根据权利要求1所述的基于GAN和3D系数重建的人脸图像身份合成方法，其特征在于，步骤c)包括如下步骤：

c-5)特征融合网络的第一自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成，第一adain层由正则化层、第一卷积层、第二卷积层构成，第二adain层由正则化层、第一卷积层、第二卷积层构成，将属性特征F_t输入到第一adain层的正则化层中，输出得到特征F_t ^adain1-1，将3D系数融合特征F_fuse输入到第一adain层的第一卷积层中，输出得到特征将3D系数融合特征F_fuse输入到第一adain层的第二卷积层中，输出得到特征/>将特征F_t ^adain1-1与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征/>依次输入到第一自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中，输出得到特征/>将特征/>输入到第二adain层的正则化层中，输出得到特征F_t ^adain2-1，将3D系数融合特征F_fuse输入到第二adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第二卷积层中，输出得到特征/>将特征F_t ^adain2-1与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征/>依次输入到第一自适应特征融合块的第二ReLU激活函数层、第二卷积层中，输出得到特征/>

c-6)特征融合网络的第二自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成，第一adain层由正则化层、第一卷积层、第二卷积层构成，第二adain层由正则化层、第一卷积层、第二卷积层构成，将特征输入到第一adain层的正则化层中，输出得到特征/>将3D系数融合特征F_fuse输入到第一adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第一adain层的第二卷积层中，输出得到特征/>将特征/>与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征/>依次输入到第二自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中，输出得到特征/>将特征/>输入到第二adain层的正则化层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第二卷积层中，输出得到特征/>将特征/>与特征/>相乘得到特征将特征/>与特征/>相加，输出得到特征/>将特征/>依次输入到第二自适应特征融合块的第二ReLU激活函数层、第二卷积层中，输出得到特征

c-7)特征融合网络的第三自适应特征融合块由第一adain层、第一ReLU激活函数层、第一卷积层、Upsamele层、第二adain层、第二ReLU激活函数层、第二卷积层构成，第一adain层由正则化层、第一卷积层、第二卷积层构成，第二adain层由正则化层、第一卷积层、第二卷积层构成，将特征输入到第一adain层的正则化层中，输出得到特征/>将3D系数融合特征F_fuse输入到第一adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第一adain层的第二卷积层中，输出得到特征/>将特征/>与特征/>相乘得到特征/>将特征/>与特征/>相加，输出得到特征/>将特征/>依次输入到第三自适应特征融合块的第一ReLU激活函数层、第一卷积层、Upsamele层中，输出得到特征/>将特征/>输入到第二adain层的正则化层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第一卷积层中，输出得到特征/>将3D系数融合特征F_fuse输入到第二adain层的第二卷积层中，输出得到特征/>将特征/>与特征/>相乘得到特征将特征/>与特征/>相加，输出得到特征/>将特征/>依次输入到第三自适应特征融合块的第二ReLU激活函数层、第二卷积层中，输出得到特征

c-8)解码器网络由第一上采样块、第二上采样块、第三上采样块、第四上采样块构成；

c-12)解码器网络的第四上采样块依次由InstanceNorm2d层、LeakyReLU激活函数层、卷积层、上采样层构成，将特征输入到第四上采样块中，输出得到交换身份后的人脸图像/>

4.根据权利要求3所述的基于GAN和3D系数重建的人脸图像身份合成方法，其特征在于：步骤c-3)中第一下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1，第二下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1，第三下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1，第四下采样块的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤c-5)中第一自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1；步骤c-6)中第二自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1；步骤c-7)中第三自适应特征融合块的第一卷积层及第二卷积层的卷积核大小均为3×3、步长均为1、填充均为1；步骤c-9)中第一上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤c-10)中第二上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤c-11)中第三上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1；步骤c-12)中第四上采样块的卷积层的卷积核大小为3×3、步长为1、填充为1。

5.根据权利要求1所述的基于GAN和3D系数重建的人脸图像身份合成方法，其特征在于，步骤d)包括如下步骤：

d-4)通过公式计算得到重建损失loss_rec；

d-5)将交换身份后的人脸图像替代步骤b)中源人脸图像I_s后重复执行步骤b)至步骤c)，得到新的交换身份后的人脸图像/>通过公式/>计算得到循环一致性损失loss_cyc；

d-6)使用反向传播法，利用真假损失loss_D、形状感知损失loss_shape、身份损失loss_id、重建损失loss_rec、循环一致性损失loss_cyc迭代优化交换身份后的人脸图像

6.根据权利要求3所述的基于GAN和3D系数重建的人脸图像身份合成方法，其特征在于，步骤e)包括如下步骤：

e-1)所有n个交换身份后的人脸图像形成交换身份后的人脸图像集

e-2)通过多媒体处理工具ffmpeg将交换身份后的人脸图像集I_fake合成视频V_fake。