CN113011357A

CN113011357A - 基于时空融合的深度伪造人脸视频定位方法

Info

Publication number: CN113011357A
Application number: CN202110325432.XA
Authority: CN
Inventors: 田玉敏; 吴自力; 王笛; 蔡妍; 潘蓉
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-22
Anticipated expiration: 2041-03-26
Also published as: CN113011357B

Abstract

本发明公开了一种基于时空融合的深度伪造人脸视频定位方法，其步骤为：(1)构建卷积神经网络；(2)构建融合时域和空间域特征的分类网络；(3)构建分割定位任务网络；(4)构建重建任务网络；(5)构建多任务融合网络；(6)生成多任务融合损失函数；(7)生成训练集；(8)训练多任务融合网络；(9)对深度伪造人脸视频进行识别定位。本发明构建融合时域和空间域特征的分类网络提取特征，可以提取到更完整的帧内和帧间特征，获得更高的准确率，同时，本发明构建用于训练多任务融合网络的多任务融合损失函数，解决了未见攻击类别和任务单一化导致的影响泛化能力和功能完善性的问题。

Description

基于时空融合的深度伪造人脸视频定位方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像识别技术领域中一种基于时空融合的深度伪造人脸视频定位方法。本发明可应用于对含人脸视频进行鉴伪并对伪造区域进行标记。

背景技术

深度伪造是指借助深度学习产生的任何逼真的视听内容，也指制造这类内容的技术。随着深度学习技术的不断发展，深度伪造生成技术使用门槛降低，感官效果越来越逼真，鲁棒性逐渐提升，数据依赖逐渐减少。现有的深度伪造方法，使得当前高泛化能力深度伪造鉴伪系统的需求不断增大。

目前的鉴伪方法主要有图片级别鉴伪和视频级别鉴伪。图片鉴伪有基于数字信号的方法例如频谱图、高频噪声等；基于深度学习的方法例如RGB空间特征、多流特征等。视频鉴伪的方法有基于人脸生物特征的方法，例如眨眼频率、心跳频率等；基于深度学习的方法，例如根据纹理、颜色、时序、光流等伪造痕迹鉴别的方法。

Stehouwer J等人在其发表的论文“On the Detection of Digital FaceManipulation”(Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR)，pp 5781-5790，2020)中提出了一种基于深度卷积神经网络的深度伪造人脸视频检测方法。该方法的实现步骤是，将视频提取帧，根据帧图像生成对应的注意力图，将帧内人脸图像分别输入卷积神经网络，并结合使用注意力机制处理和改进分类器模型的特征图，突出显示帧内信息区域，提高了对伪造图像的二元分类能力。该方法有效证明注意力机制可以较好地应用在深度伪造视频检测与定位任务中。但是，该方法仍然存在的不足之处是，由于该方法只关注了帧图像的信息，识别系统缺失了伪造视频的时域特征，忽略了视频帧间不一致性，导致在伪造视频的识别过程中影响识别的精度。

南京信息工程大学在其申请的专利文献“一种基于长短期记忆网络的换脸视频检测方法”(申请号：202010105761.9，申请公布号：CN 111353395 A)中公开了一种基于长短期记忆网络的深度伪造人脸视频检测方法。该方法首先对视频提取帧，将卷积神经网络的输出作为图像的特征，并将各帧图像提取到的特征拼接为特征序列，输入到长短期记忆网络进行训练，对深度伪造人脸视频做分类标签。该方法可以达到较好的分类结果。但是，该方法仍然存在的不足之处是，由于该方法只关注已知的攻击类型数据集，导致应对未见攻击的能力较弱，泛化能力较差，并且只能对深度伪造视频分类，不能对伪造区域进行定位，任务单一，只提供检测分类结果，没有定位结果的辅助，导致识别系统功能不完善，影响识别的精度。

发明内容

本发明的目的在于针对上述已有技术的不足，提供一种基于时空融合多任务模型的伪造人脸视频定位方法，用于解决由于忽略了伪造视频的时域特征，导致在伪造视频的识别过程中识别精度的降低，以及由于忽略未见攻击类别和任务单一化导致影响识别系统的泛化能力和功能完善性。

实现本发明目的的思路是，构建融合时域和空间域特征的分类网络对人脸视频进行特征提取，由于该网络融合了空间域特征和时域特征，提高对待识别视频中帧内差异和帧间不一致性的敏感性，用来解决对伪造人脸视频特征提取不完整从而导致的伪造视频的识别过程中识别精度的降低的问题。构建多任务融合网络和多任务融合损失函数，由于该网络融合了具有共性特征的相关任务用于网络训练，用来解决忽略未见攻击类别和任务单一从而导致影响识别系统的泛化能力和功能完善性的问题。

本发明实现的具体步骤如下：

(1)构建卷积神经网络：

(1a)搭建一个13层的卷积神经网络，其结构依次为：第一卷积层，第二卷积层，第一池化层，第三卷积层，第四卷积层，第二池化层，第五卷积层，第六卷积层，第七卷积层，第三池化层，第八卷积层，第九卷积层，第十卷积层；

(1b)将第一至第十卷积层的卷积核的大小均设置为3×3，卷积核的个数分别设置为64，64，128，128，256，256，256，512，512，512，步长均设置为1，第一至第三池化层设置为最大池化方式，池化区域核的大小均设置为2×2，步长均设置为1；

(2)构建融合时域和空间域特征的分类网络：

(2a)搭建一个14层的空间域网络，其结构依次为：第一池化层，第二池化层，第一卷积层，第二卷积层，第一soft max层，第三池化层，第四池化层，第三卷积层，第二softmax层，第四卷积层，第五池化层，第一全连接层，第二全连接层，第三soft max层；第一池化层与第二池化层并联，将第一至第四卷积层的卷积核的大小分别设置为1×1，1×1，3×3，3×3，卷积核的个数分别设置为256，512，1，256；将第一至第五池化层分别设置为自适应最大池化方式，自适应平均池化方式，通道上的最大池化方式，通道上的平均池化方式，最大池化方式，第五池化层池化区域核的大小设置为2×2，步长设置为1，第一至第二全连接层的神经元个数分别设置为4096，1000；

(2b)搭建一个由输入层，隐藏层，输出层组成的长短时记忆网络，该长短时记忆网络的输出层依次与全连接层和soft max层连接组成时域网络；将全连接层的神经元个数设置为1000；

(2c)将空间域网络与时域网络并联组成融合时域和空间域特征的分类网络；

(3)构建分割定位任务网络：

(3a)搭建一个13层的分割定位任务网络，其结构依次为：第一反卷积层，第一批归一化层，第二反卷积层，第二批归一化层，第三反卷积层，第四反卷积层，第三批归一化层，第五反卷积层，第六反卷积层，第四批归一化层，第七反卷积层，第八反卷积层，soft max层；

(3b)设置分割定位任务网络的参数如下：第一至第八反卷积层的卷积核大小均设置为3×3，卷积核的个数分别设置为512，256，256，128，128，64，64，2，步长分别设置为2，1，2，1，2，1，2，1；第一至第四批处理化层通道数分别设置为512，256，18，64；

(4)构建重建任务网络：

(4a)搭建一个8层的重建任务网络，其结构依次为：第一反卷积层，第一批归一化层，第二反卷积层，第三反卷积层，第二批归一化层，第四反卷积层，第五反卷积层，Tanh层；

(4b)设置重建任务网络的参数如下：第一至第五反卷积层的卷积核大小均设置为3×3，卷积核的个数分别设置为128，128，64，64，3，步长分别设置为1，2，1，2，1，第一和第二批处理化层通道数分别设置为128，64；

(5)构建多任务融合网络：

将卷积神经网络的第十卷积层分别与融合时域和空间域特征的分类网络的第一池化层、分割定位任务网络的第一反卷积层串联，将分割定位任务网络的第三反卷积层与重建任务网络的第一反卷积层串联，组成多任务融合网络；

(6)生成多任务融合损失函数：

(6a)生成融合时域和空间域特征的分类网络损失函数L₁如下：

λ表示分类网络中空间域网络预测注意力特征图的损失函数的权重比，其取值为[0,1]范围内选取的一个小数，*表示相乘操作，T表示待输入图像的帧数，∑表示求和操作，i表示待输入图像的帧序号，i＝1,2,3,...,M，M的取值与T相等，|·|表示取绝对值操作，m_i表示由第i帧待输入图像经过预处理得到的第a帧注意力掩膜，

表示由第i帧待输入图像经过分类网络中空间域网络预测的第b帧注意力特征图，a和b的取值均与i相等,μ表示分类网络中空间域网络预测待输入图像标签的损失函数的权重比，其取值为[0,1]范围内选取的一个小数，log表示以自然常数e为底的对数操作，y_i表示第i帧待输入图像的真实性标签，

表示分类网络中空间域网络预测第i帧待输入图像标签的概率，α表示分类网络中时域网络预测连续T帧待输入图像标签的损失函数的权重比，其取值为[0,1]范围内选取的一个小数，y表示连续T帧待输入图像所属原始视频的真实性标签，

表示分类网络中时域网络预测连续T帧待输入图像标签的概率；

(6b)生成分割定位任务网络损失函数L₂如下：

其中，n_i表示由第i帧待输入图像经过预处理得到的第c帧混合边缘掩膜，

表示由第i帧待输入图像经过分割定位任务网络预测的定位掩膜的第d帧定位掩膜，c和d的取值均与i相等；

(6c)生成重建任务网络损失函数L₃如下：

其中，x_i表示第i帧待输入图像，

表示由第i帧待输入图像经过重建任务网络预测的第h帧重建图像，h的取值与i相等，||·||₂表示二范数操作；

(6d)生成多任务融合损失函数L：

L＝L₁+β*L₂+γ*L₃

其中，β表示分割定位任务网络损失函数的权重比，其取值为[0,1]范围内选取的一个小数，γ表示重建任务网络的损失函数的权重比，其取值为[0,1]范围内选取的一个小数；

(7)生成训练集：

(7a)选取包含至少4种类别、至少1000对、且具有对应掩膜视频的视频样本组成人脸视频集；对视频集中的每个人脸视频依次进行抽帧、人脸提取、真伪标记操作得到该视频对应的人脸图像，并对视频集中每个人脸视频的掩膜视频进行抽帧、伪造区域掩膜提取操作，得到该掩膜视频对应的伪造区域掩膜，将所有人脸图像和伪造区域掩膜组成训练集；

(7b)利用注意力掩膜计算公式，计算训练集中的每帧人脸图像中每个像素的像素值，生成该帧人脸图像的注意力掩膜；

(7c)利用混合边缘掩膜计算公式，计算训练集中的每帧伪造区域掩膜中每个像素的像素值，生成该帧伪造区域掩膜的混合边缘掩膜；

(8)训练多任务融合网络：

(8a)将多任务融合网络中卷积神经网络的权值参数初始化为预训练好的VGG16网络模型的权值参数；

(8b)将训练集输入到初始化后的多任务融合网络中，利用决策融合分数计算公式，计算多任务融合网络中分类网络的决策融合分数，作为分类标签值，利用SGD优化器对训练集中的训练图片进行迭代训练，直至多任务融合损失函数L的值不断收敛为止，得到训练好的多任务融合网络，保存训练好的多任务融合网络的权值参数；

(9)对深度伪造人脸视频进行识别定位：

(9a)将待识别的源视频依次进行抽帧和人脸提取操作，得到处理后的人脸图像；

(9b)将处理后的人脸图像输入到训练好的多任务融合网络中，输出预测标签和定位掩膜；

(9c)将定位掩膜和与其对应的源视频的人脸图像合成，得到标记后的人脸图像，并对每帧标记后的人脸图像进行合并视频操作，得到定位标记后的视频。

与现有技术相比，本发明具有以下优点：

第一，由于本发明构建了一个融合时域和空间域特征的分类网络，用于更完整地提取视频中每帧图像的特征，克服了现有技术中由于忽略了伪造视频的时域特征，导致在伪造视频的识别过程中识别精度的降低的问题，使得本发明既能关注伪造区域，又能利用伪造人脸视频的视频特性，从而提高了伪造视频的鉴伪分类准确率。

第二，由于本发明构建了用于训练多任务融合网络的多任务融合损失函数，该函数可以融合分类任务提供的类内特征与定位任务提供的类间特征，克服了现有技术中由于忽略未见攻击类别和任务单一化导致的影响泛化能力和功能完善性的问题，从而使得该网络可以提取多种深度伪造类别的共性特征并且相关任务完成特征共享，使得本发明有效提高了识别系统的模型的泛化性能和完善了识别系统的功能性。

附图说明

图1是本发明的流程图；

图2是本发明仿真实验中训练与测试识别步骤的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细描述。

参照图1，对本发明的具体步骤做进一步的详细描述。

步骤1，构建卷积神经网络。

搭建一个13层的卷积神经网络，其结构依次为：第一卷积层，第二卷积层，第一池化层，第三卷积层，第四卷积层，第二池化层，第五卷积层，第六卷积层，第七卷积层，第三池化层，第八卷积层，第九卷积层，第十卷积层。

将第一至第十卷积层的卷积核的大小均设置为3×3，卷积核的个数分别设置为64，64，128，128，256，256，256，512，512，512，步长均设置为1，第一至第三池化层设置为最大池化方式，池化区域核的大小均设置为2×2，步长均设置为1。

步骤2，构建融合时域和空间域特征的分类网络。

搭建一个14层的空间域网络，其结构依次为：第一池化层，第二池化层，第一卷积层，第二卷积层，第一soft max层，第三池化层，第四池化层，第三卷积层，第二soft max层，第四卷积层，第五池化层，第一全连接层，第二全连接层，第三soft max层；第一池化层与第二池化层并联，将第一至第四卷积层的卷积核的大小分别设置为1×1，1×1，3×3，3×3，卷积核的个数分别设置为256，512，1，256；将第一至第五池化层分别设置为自适应最大池化方式，自适应平均池化方式，通道上的最大池化方式，通道上的平均池化方式，最大池化方式，第五池化层池化区域核的大小设置为2×2，步长设置为1，第一至第二全连接层的神经元个数分别设置为4096，1000。

搭建一个由输入层，隐藏层，输出层组成的长短时记忆网络，该长短时记忆网络的输出层依次与全连接层和soft max层连接组成时域网络；将全连接层的神经元个数设置为1000；

将空间域网络与时域网络并联组成融合时域和空间域特征的分类网络。

步骤3，构建分割定位任务网络。

搭建一个13层的分割定位任务网络，其结构依次为：第一反卷积层，第一批归一化层，第二反卷积层，第二批归一化层，第三反卷积层，第四反卷积层，第三批归一化层，第五反卷积层，第六反卷积层，第四批归一化层，第七反卷积层，第八反卷积层，soft max层。

设置分割定位任务网络的参数如下：第一至第八反卷积层的卷积核大小均设置为3×3，卷积核的个数分别设置为512，256，256，128，128，64，64，2，步长分别设置为2，1，2，1，2，1，2，1；第一至第四批处理化层通道数分别设置为512，256，18，64。

步骤4，构建重建任务网络。

搭建一个8层的重建任务网络，其结构依次为：第一反卷积层，第一批归一化层，第二反卷积层，第三反卷积层，第二批归一化层，第四反卷积层，第五反卷积层，Tanh层。

设置重建任务网络的参数如下：第一至第五反卷积层的卷积核大小均设置为3×3，卷积核的个数分别设置为128，128，64，64，3，步长分别设置为1，2，1，2，1，第一和第二批处理化层通道数分别设置为128，64。

步骤5，构建多任务融合网络。

将卷积神经网络的第十卷积层分别与融合时域和空间域特征的分类网络的第一池化层、分割定位任务网络的第一反卷积层串联，将分割定位任务网络的第三反卷积层与重建任务网络的第一反卷积层串联，组成多任务融合网络。

步骤6，生成多任务融合损失函数。

生成融合时域和空间域特征的分类网络损失函数L₁如下：

其中，λ表示分类网络中空间域网络预测注意力特征图的损失函数的权重比，其取值为[0,1]范围内选取的一个小数，*表示相乘操作，T表示待输入图像的帧数，∑表示求和操作，，i表示待输入图像的帧序号，i＝1,2,3,...,M，M的取值与T相等，|·|表示取绝对值操作，m_i表示由第i帧待输入图像经过预处理得到的第a帧注意力掩膜，

表示分类网络中时域网络预测连续T帧待输入图像标签的概率。

生成分割定位任务网络损失函数L₂如下：

表示由第i帧待输入图像经过分割定位任务网络预测的定位掩膜的第d帧定位掩膜，c和d的取值均与i相等。

生成重建任务网络损失函数L₃如下：

其中，x_i表示第i帧待输入图像，

表示由第i帧待输入图像经过重建任务网络预测的第h帧重建图像，h的取值与i相等，||·||₂表示二范数操作

生成多任务融合损失函数L：

L＝L₁+β*L₂+γ*L₃

其中，β表示分割定位任务网络损失函数的权重比，其取值为[0,1]范围内选取的一个小数，γ表示重建任务网络的损失函数的权重比，其取值为[0,1]范围内选取的一个小数。

步骤7，生成训练集。

选取包含至少4种类别、至少1000对、且具有对应掩膜视频的视频样本组成人脸视频集；对视频集中的每个人脸视频依次进行抽帧、人脸提取、真伪标记操作得到该视频对应的人脸图像，并对视频集中每个人脸视频的掩膜视频进行抽帧、伪造区域掩膜提取操作，得到该掩膜视频对应的伪造区域掩膜，将所有人脸图像和伪造区域掩膜组成训练集。

利用注意力掩膜计算公式，计算训练集中的每帧人脸图像中每个像素的像素值，生成该帧人脸图像的注意力掩膜。

利用混合边缘掩膜计算公式，计算训练集中的每帧伪造区域掩膜中每个像素的像素值，生成该帧伪造区域掩膜的混合边缘掩膜。

所述注意力掩膜计算公式如下：

其中，

表示注意力掩膜中第p行第q列的像素值，

表示伪造图像中第j行第k列的像素值，

表示伪造图像对应的真实图像中第l行第o列的像素值，j和l的取值均与p相等，k和o的取值均与q相等，f(·)表示取像素值操作，当像素值小于0.1时像素值为0，当像素值大于或等于0.1时像素值为1。

所述混合边缘掩膜计算公式如下：

其中，

表示混合边缘掩膜中第r行s列的像素值，g(·)表示高斯模糊操作，

表示伪造区域掩膜中第u行v列的像素值，u的取值与r相等，v的取值与s相等，·表示像素相乘操作。

步骤8，训练多任务融合网络。

将多任务融合网络中卷积神经网络的权值参数初始化为预训练好的VGG16网络模型的权值参数。

将训练集输入到初始化后的多任务融合网络中，利用决策融合分数计算公式，计算多任务融合网络中分类网络的决策融合分数，作为分类标签值，利用SGD优化器对训练集中的训练图片进行迭代训练，直至多任务融合损失函数L的值不断收敛为止，得到训练好的多任务融合网络，保存训练好的多任务融合网络的权值参数。

所述决策融合分数计算公式如下：

其中，S表示分类网络的决策融合分数，

表示[0,1]范围内取值的时域决策分数的权重比，S_i表示分类网络中空间域网络预测第i帧待输入图像标签的决策分数，S_t表示分类网络中时域网络预测连续T帧待输入图像标签的决策分数。

步骤9，对深度伪造人脸视频进行识别定位。

将待识别的源视频依次进行抽帧和人脸提取操作，得到处理后的人脸图像。

将处理后的人脸图像输入到训练好的多任务融合网络中，输出预测标签和定位掩膜。

将定位掩膜和与其对应的源视频的人脸图像合成，得到标记后的人脸图像，并对每帧标记后的人脸图像进行合并视频操作，得到定位标记后的视频。

本发明的效果可以通过以下仿真实验进一步说明。

1.仿真条件。

本发明的仿真实验采用软件Pycharm作为仿真工具，计算机配置为Intel Corei7/3.6GHz/16G，64位Ubuntu18.04操作系统。

2.仿真实验内容。

本发明的仿真实验采用本发明的方法，利用FaceForensics深度伪造人脸视频数据集中视频生成的训练集，对本发明所构建的多任务融合网络进行训练，再利用训练好的网络对深度伪造人脸视频进行识别。

本发明的仿真实验使用的数据来自FaceForensics深度伪造人脸视频数据集上进行，该数据集是由德国慕尼黑工业大学创建，包含由DeepFake、FaceSwap、Face2Face、Neural Texture四种深度伪造方法生成的伪造视频和与其对应的真实视频，每个视频都具有对应的掩膜视频。

下面结合图2的训练与测试识别步骤的流程图对本发明的仿真内容做进一步的描述。

使用FFmpeg工具，对FaceForensics深度伪造人脸视频数据集中的每个视频样本，以每秒5帧的频率进行视频抽帧。

使用dlib人脸识别工具shape_predictor_68_face_landmarks对抽帧后的每帧图像进行人脸提取，丢弃不含人脸的图像，将所有人脸图像的尺寸裁剪为224×224×3。以0和1将人脸图像标记真伪，将真实图像标记为0，将伪造图像标记为1，得到处理后的人脸图像。

使用FFmpeg工具，对每个视频样本对应的掩膜视频，以每秒5帧的频率进行视频抽帧。对抽帧后的每帧图像按照与其对应的视频样本的人脸标记候选框进行裁剪，得到处理后的伪造区域掩膜。

将人脸图像和伪造区域掩膜组成图像数据集。将图像数据集按照7:1.5:1.5的比例分别随机划分为训练集，验证集和测试集。

将训练集输入到多任务融合网络进行迭代更新训练，在每次迭代中，再将验证集输入到当前迭代更新网络参数后的网络中，分别输出当前迭代中的损失值，使用早起停止法，将当前迭代时的损失值与前几次迭代时的损失值对比，若当前迭代时的损失值不但停止下降反而上升，就及时停止训练，保存当前迭代时网络模型的网络参数，避免模型由于过度训练而导致过拟合。

将测试集中每个人脸图像输入训练好的网络模型中测试，输出对当前人脸图像所属类别的预测概率，利用准确率评估方法对识别模型效果进行评估：

其中，Acc表示准确率，TP表示把假样本正确分类为假样本的数目，TN表示把真样本正确分类为真样本的数目，FP表示把真样本错误分类为假样本的数目，FN表示把假样本错误分类为真样本的数目。

Claims

1.一种基于时空融合的深度伪造人脸视频定位方法，其特征在于，构建卷积神经网络，构建融合时域和空间域特征的分类网络，构建分割定位任务网络，构建重建任务网络，构建多任务融合网络；该方法步骤包括如下：

(1)构建卷积神经网络：

(2)构建融合时域和空间域特征的分类网络：

(2a)搭建一个14层的空间域网络，其结构依次为：第一池化层，第二池化层，第一卷积层，第二卷积层，第一softmax层，第三池化层，第四池化层，第三卷积层，第二softmax层，第四卷积层，第五池化层，第一全连接层，第二全连接层，第三softmax层；第一池化层与第二池化层并联，将第一至第四卷积层的卷积核的大小分别设置为1×1，1×1，3×3，3×3，卷积核的个数分别设置为256，512，1，256；将第一至第五池化层分别设置为自适应最大池化方式，自适应平均池化方式，通道上的最大池化方式，通道上的平均池化方式，最大池化方式，第五池化层池化区域核的大小设置为2×2，步长设置为1，第一至第二全连接层的神经元个数分别设置为4096，1000；

(2b)搭建一个由输入层，隐藏层，输出层组成的长短时记忆网络，该长短时记忆网络的输出层依次与全连接层和softmax层连接组成时域网络；将全连接层的神经元个数设置为1000；

(3)构建分割定位任务网络：

(3a)搭建一个13层的分割定位任务网络，其结构依次为：第一反卷积层，第一批归一化层，第二反卷积层，第二批归一化层，第三反卷积层，第四反卷积层，第三批归一化层，第五反卷积层，第六反卷积层，第四批归一化层，第七反卷积层，第八反卷积层，softmax层；

(4)构建重建任务网络：

(5)构建多任务融合网络：

(6)生成多任务融合损失函数：

其中，λ表示分类网络中空间域网络预测注意力特征图的损失函数的权重比，其取值为[0,1]范围内选取的一个小数，*表示相乘操作，T表示待输入图像的帧数，∑表示求和操作，i表示待输入图像的帧序号，i＝1,2,3,...,M，M的取值与T相等，|·|表示取绝对值操作，m_i表示由第i帧待输入图像经过预处理得到的第a帧注意力掩膜，