CN115909172A

CN115909172A - 深度伪造视频检测分割识别系统、终端及存储介质

Info

Publication number: CN115909172A
Application number: CN202211639132.XA
Authority: CN
Inventors: 雷宗霏; 沈海斌
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-04-04

Abstract

本发明属于计算机视觉领域，具体公开了一种深度伪造视频检测系统、终端及存储介质，包括数据预处理模块、特征提取模块、重要区域定位模块、局部随机消除模块、多尺度特征融合模块及分类器模块，重要区域定位模块能够根据CNN提取出的特征图，动态地从原始训练样本中提取并选择最具判别意义的区域，局部区域消除模块利用定位出的若干重要区域，对随机消除的策略做出指导和改进。多尺度特征融合模块将卷积神经网络提取出的特征分化为不同尺度，并组成新特征图的不同通道。本发明提出一种动态复合特征增强的深度伪造视频检测算法，提高了模型在遇到不同压缩率的数据集或者陌生数据集时的泛化能力。

Description

深度伪造视频检测分割识别系统、终端及存储介质

技术领域

本发明属于计算机视觉领域，具体涉及一种深度伪造视频检测分割识别系统、终端及存储介质。

背景技术

随着深度学习算法的发展和各种硬件计算能力的提高，以生成对抗网络为代表的一系列生成模型如雨后春笋般出现在人们面前。这项技术逐渐被应用到了生活中的很多领域，例如图像风格迁移、图像高分辨率重建、图片修复、3D打印。

然而，近些年来，这项技术出现了被滥用的趋势，深度伪造技术便是其中一项很有争议的应用。“深度伪造”一词翻译自英文单词“deepfake”，这个单词由“deep learning”和“fake”两个单词组合而成，意指由深度学习模型生成的虚假图像或者视频。一些提供换脸视频生成功能软件降低了使用这项技术的门槛，这意味着任何人都能够以极低的成本将一段视频中的人物换成其他指定对象。这些软件的出现引发了人们对这项技术的担心和科研界的关注。在此之后，深度伪造视频生成技术和深度伪造视频检测技术都在不断发展着，两项技术呈现出一种博弈的状态，前者旨在生成视频质量更佳且更加真实的视频，而后者旨在准确分辨出一段视频是由真实的物理设备录制而成的还是由算法生成的。

深度伪造视频检测的一大难点在于——一个在A数据集上训练得到的模型，在B数据集上的准确率明显下降。这主要是因为在由不同生成算法得到的视频中，伪影存在的区域和尺寸均有着较大差异。此外，即使使用与训练集相同的数据集进行测试，如果测试集中的视频经过一定程度的压缩，模型的性能同样会出现较大幅度的下降。这主要是因为视频在经过压缩时一部分信息发生了丢失，而这会直接导致伪造视频中的伪影区域的尺度发生变化，从而使得检测模型更难捕捉到这部分特征。此外，经过压缩的真实视频有可能会出现一些不清晰或者不连续的局部区域，这些在视频处理过程中产生的脏信息可能会使得检测模型误将真实视频鉴别为深度伪造视频。

发明内容

针对现有的深度伪造视频检测技术泛化性能较低的问题，本发明提出了一种深度伪造视频检测分割识别系统、终端及存储介质，通过学习多种尺度的特征，提升模型在跨压缩率或跨数据集测试时的准确率。

本发明采用的技术方案如下：

一种深度伪造视频检测系统，包括：

数据预处理模块，用于从视频中提取人脸区域，其输入为视频文件，输出为多张经过增强的包含人脸区域的图像，增强策略为加入高斯噪声与实际场景中不同视频质量压缩变化的模拟。

特征提取模块，用于从人脸的全局或局部区域中提取特征。输入为完整的人脸图像或者局部区域，输出为尺寸为14×14的特征图。

重要区域定位模块，用于在训练的过程中从样本中提取最具判别意义的区域，即定位出最重要的若干区域，包含非最大值抑制(NMS)筛选层。深度伪造视频中的伪影大多分布在人脸的五官周围，眼睛周围的伪影大小受到眼睛尺寸的限制，而鼻子、下巴作为人脸中比较立体的区域，容易产生较大尺寸的伪影。定位过程中选用不同大小的滑动窗口，根据实际场景中深度伪造视频中伪影的分布和尺度特性进行模拟。其输入为人脸图像经过特征提取模块提取出的14×14的特征图，输出为提取出的多个区域的顶点坐标和特征图，定位过程中选用不同大小的滑动窗口，对实际场景中深度伪造视频中伪影的分布和尺度特性进行模拟。

局部随机消除模块，用于在训练的过程中在“重要区域定位模块”的指导下，对训练样本的局部区域进行遮挡，本质为一种数据增强的手段。其输入为原始的训练样本和“重要区域定位模块”输出的多个区域的顶点坐标，输出为经过局部消除的新训练样本。

多尺度特征融合模块，用于融合不同尺度的特征，包含多个“池化-卷积-上采样”形式的子结构，将人脸图像中多种尺度的特征提取并融合至新特征图中，实际场景中伪造视频包含细小的伪影区域，多尺度特征融合模块通过利用各尺度的伪影区域的特征图，可防止这些特征消失在全局平均池化的过程中。输入为“重要区域定位模块”输出的特征图，输出为经过融合的新特征图。

分类器模块，用于给出样本的分类结果，由全局平均池化层、全连接层、激活函数组成。输入为“多尺度特征融合模块”输出的特征图，输出为最终的分类结果。

当深度伪造视频检测系统处于训练模式时，输入为经过增强的包含人脸区域的图像，输出为该图像的真伪两种类别经过归一化的概率、每个局部区域图像属于真伪两种类别的经过归一化的概率。

当深度伪造视频检测系统处于推理模式时，输入为原始的包含人脸区域的图像，输出为该图像属于真伪两种类别的经过归一化的概率。

进一步地，所述数据预处理模块的处理过程包括：从视频文件中等间隔地提取N帧，并使用经过训练的MTCNN提取每一帧中的人脸区域，最终保存的图像经过人脸对齐，其中N根据所需的数据量确定。

本发明属于一种基于帧内图像的深度伪造视频检测技术，因此在训练和推理时均需要从视频中提取若干独立的帧。为了减少视频中背景信息的干扰，本发明使用MTCNN提取每张帧中的人脸区域。考虑到实际情境中获取到的视频文件的分辨率和视频质量往往有所差异，在数据预处理模块中，随机对人脸区域进行低分辨率模拟和加噪，具体操作为：低分辨率模拟时将原始样本降采样然后放大至原始大小；加噪处理时加入均值为0的高斯噪声。

进一步地，所述特征提取模块使用修改后的ResNet-50作为特征提取网络，与原始ResNet-50网络结构相比，ResBlock_4层中卷积核的步长调整为1，该层最终输出的特征图的大小为14×14。

进一步地，所述重要区域定位模块的处理过程包括：设一幅图像经过ResNet-50提取出的特征图为F∈R^C×H×W，其中C,H,W分别代表特征图的通道数、高度和宽度。如下方公式表示，通过对F的每个通道进行累加，可以得到其对应的激活图A，其中f_i代表特征图F在第i个通道的分量，如下方公式表示：

对于激活图中一块指定区域r，该区域的激活程度可以用如下公式计算得到，该区域的左上角的坐标为(x₀,y₀)，右下角的坐标为(x₁,y₁)。

接着，如下公式所表示，使用Soft-NMS算法计算出最重要的K个区域。其中A代表激活图，t为Soft-NMS算法中使用的阈值，K为选取的区域数量，

和

分别代表第i个区域左上角和右下角的坐标。

所述重要区域定位模块，考虑到人脸中眼睛、鼻子、嘴巴占整体面部区域的大小，本发明使用最小3×3，最大7×10的多种尺度的滑动窗口。

进一步地，所述局部随机消除模块的处理过程包括：本发明从14×14的特征图中选择多个尺寸的窗口，其中较小的窗口(例如3×3)可以覆盖一个完整的五官，而较大的窗口(例如7×10)可以覆盖半张脸。本发明从得到的K个关键区域中随机选择一块，当选出的区域面积小于原图的1/3时，消除这块区域对应的像素值，而当选择出的区域大于原图的1/3时，只消除这块区域中随机一半区域的像素值。

进一步地，所述多尺度特征融合模块的处理过程包括：首先，利用多个池化层得到多个对应尺度的特征图。然后使用1×1的卷积核对池化后的特征图进行降维。接着，将每个尺度的小特征图上采样至与原特征图相同尺寸，并与原特征图拼接成新特征图的不同通道，实际场景中伪造视频包含细小的伪影区域，多尺度特征融合模块可防止其消失在全局平均池化的过程中。本发明使用两个窗口大小分别为3和6的池化层。

进一步地，所述特征提取模块、多尺度特征融合模块均使用SGD优化器来进行网络训练的优化。

本发明还提供了一种终端设备，所述终端设备包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现所述动态复合特征增强的深度伪造视频检测系统。

本发明还提供了一种计算机可读存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现所述动态复合特征增强的深度伪造视频检测系统。

与现有技术相比，本发明所具有的有益效果包括：

本发明提出重要区域定位模块能够根据CNN提取出的特征图，动态地从原始训练样本中提取并选择最具判别意义的区域。并特别针对这些区域，更新模型参数，从而学习到不同区域的伪影特征。在训练和推理时，均不需要手动提取人脸的关键区域，即不需要其他辅助模型对人脸区域进行分割。

本发明提出的局部区域消除模块利用定位出的若干重要区域，对随机消除的策略做出指导和改进，从而在提升模型的泛化性能的同时，减少噪声信息的引入，防止模型收敛速度受到影响。

本发明利用多尺度特征融合模块，将卷积神经网络提取出的特征分化为不同尺度，并组成新特征图的不同通道，从而防止部分细微的细节在池化的过程中被丢弃。使得模型能够学习到不同尺度的伪影特征，从而在遇到不同分辨率、压缩率的测试样本时，保证较高的准确率。

综合而言，针对深度伪造视频检测算法泛化性能不足的问题，本发明提出一种动态复合特征增强的深度伪造视频检测算法，通过引入多尺度特征融合模块、重要区域定位模块、局部随机消除模块，提高了模型在遇到不同压缩率的数据集或者陌生数据集时的泛化能力。

附图说明

图1是本发明在训练和测试阶段的数据流向示意图；

图2是本发明提出的方法在预处理阶段的操作示意图；

图3是本发明在特征提取阶段使用的修改后的ResNet-50的网络中每一层的参数和输出大小；

图4是本发明在训练阶段的流程图；

图5是本发明在测试阶段的流程图；

图6是本发明在训练阶段根据特征图选择局部重点区域的原理示意图；

图7是本发明在训练阶段根据选择出的局部重点区域，随机选取被遮挡的区域的原理示意图；

图8是本发明在训练阶段使用的多尺度特征融合模块的网络结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步详细地说明。

本发明的实施例及其实施过程如下：

请参阅图1-图8，一种深度伪造视频检测系统，包括数据预处理模块、特征提取模块、重要区域定位模块、局部随机消除模块、多尺度特征融合模块及分类器模块。

数据预处理模块用于从视频中提取人脸区域，如图2所示。本发明属于一种基于帧内图像的深度伪造视频检测技术，因此在训练和推理时均需要从视频中提取若干独立的帧。为了减少视频中背景信息的干扰，本发明使用MTCNN提取每张帧中的人脸区域。得到人脸区域后使用“随机水平翻转”和“随机角度旋转”两种数据增强技术。输入为视频文件，输出为多张经过增强的包含人脸区域的图像。其中，使用“随机水平翻转”增强操作的概率为50％，使用“随机角度旋转”的概率为50％，旋转的角度为[-10°,10°]中的随机值。

特征提取模块用于从人脸的全局或局部区域中提取特征。输入为完整的人脸图像或者人脸图像的局部区域，输出为尺寸为14×14的特征图。

重要区域定位模块用于在训练的过程中从样本中提取最具判别意义的区域，即定位出最重要的若干区域，包含非最大值抑制(NMS)筛选层。输入为人脸图像经过特征提取模块提取出的14×14的特征图，输出为提取出的多个区域的顶点坐标和特征图。

局部随机消除模块用于在训练的过程中在“重要区域定位模块”的指导下，对训练样本的局部区域进行遮挡。输入为原始的训练样本和“重要区域定位模块”输出的多个区域的顶点坐标，输出为经过局部消除的新训练样本。

多尺度特征融合模块用于融合不同尺度的特征，包含多个“池化-卷积-上采样”形式的子结构。输入为“重要区域定位模块”输出的特征图，输出为经过融合的新特征图。

分类器模块用于给出样本的分类结果，由一个全局平均池化层、一个全连接层、一个Sigmoid激活函数组成。输入为“多尺度特征融合模块”输出的特征图，输出为最终的分类结果。

本实施例中，特征提取网络使用修改后的ResNet-50作为特征提取模块的主干网络，其结构如图3表示。相比原始的ResNet-50，本发明将ResBlock_4层中卷积核的步长调整为1，该层最终输出的特征图的大小为14×14。

进一步地，重要区域定位模块的处理过程包括：如图4所示，设一幅图像经过ResNet-50提取出的特征图为F∈R^C×H×W，其中C,H,W分别代表特征图的通道数、高度和宽度。如下方公式表示，通过对F的每个通道进行累加，可以得到其对应的激活图A，其中f_i代表特征图F在第i个通道的分量。

对于激活图中一块指定区域r，该区域的激活程度可以用如下公式计算得到，该区域的左上角的坐标为)x₀,y₀)，右下角的坐标为(x₁,y₁)。

然后如图6所表示，使用Soft-NMS算法计算出最重要的K个区域。其中A代表激活图，t为Soft-NMS算法中使用的阈值，在本实施例中选定为0.3；K为选取的区域数量，

和

分别代表第i个区域左上角和右下角的坐标，其逻辑如下公式所表示。

本实施例中选取了多种局部区域的窗口大小，其中小窗口选择4×4，3×5，5×3这3种形状，中等窗口选择6×6，5×7，7×5这3种，大窗口选择8×8，7×10，10×7这3种。对于每一个训练样本，本实施例选择大、中、小三种窗口各两个，当显存受限时，可减小K的值，当显存资源较为丰富时，可适当增大K的值。

局部随机消除模块的处理过程包括：如图7所示，本发明从14×14的特征图中选择多个尺寸的窗口，本发明从得到的K个关键区域中随机选择一块，当选出的区域为上述小、中窗口时，消除这块区域对应的像素值，而当选择出的区域为上述大窗口时，只消除这块区域中随机一半区域的像素值。

多尺度特征融合模块的处理过程包括：如图8所示，首先，利用多个池化层得到多个对应尺度的特征图。然后使用1×1的卷积核对池化后的特征图进行降维。接着，将每个尺度的小特征图上采样至与原特征图相同尺寸，并与原特征图拼接成新特征图的不同通道。本实施例中使用两个窗口大小分别为3和6的池化层。

在本实施例中，使用添加α-balance因子的Focal loss作为全局区域和局部区域的分类的损失函数，增大复杂样本在整体损失中的权重。

L_global＝loss(P(X_g),Y)

其中，X_g为输入的原始图像，

为第i个局部区域，K为抽取出的局部区域个数，Y为该样本的真实类别，P则为模型的SoftMax层输出的概率。最终的损失函数由这两部分损失加权求和得到：

Loss＝L_global+λL_parts

λ在第一个epoch中设为0.5，在后续epoch中设为1。

在本实施例中，所述特征提取模块、多尺度特征融合模块提供SGD优化器具体系数选择如下：

特征提取模块的学习率初始化为1e-5,多尺度特征融合模块和分类器模块的学习率初始化为1e-3，所有参数的学习率每经过5个epoch调整为原来的0.2，共训练20个epoch。

在本实施例中，当处于测试模式，如图5所示，在前向传递的过程中不使用重要区域定位模块和局部随机消除模块，即不对样本施加训练模式时应用的动态数据增强技术。输入的人脸测试样本在经过特征提取模块和多尺度特征融合模块后，由分类器模块给出其所属类别。

本申请实施例还公开一种终端设备。

一种终端设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该设备的数据库用于存储业务请求、业务数据等数据。该设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。

本申请实施例还公开一种计算机可读存储介质。

一种存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各系统实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例系统中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各系统的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例仅用于说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解；其依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种深度伪造视频检测系统，其特征在于，包括：

数据预处理模块，用于从视频中提取人脸区域，其输入视频文件，输出多张经过增强的包含人脸区域的图像，增强策略为加入高斯噪声与实际场景中不同视频质量压缩变化的模拟；

特征提取模块，用于从人脸的全局或局部区域中提取特征，其输入为完整的人脸图像或者局部区域，输出深度神经网络提取出的特征图；

重要区域定位模块，用于在训练的过程中从样本中提取最具判别意义的区域，其输入为人脸图像经过特征提取模块提取出的特征图，输出为提取出的多个区域的顶点坐标和特征图，定位过程中选用不同大小的滑动窗口，根据实际场景中深度伪造视频中伪影的分布和尺度特性进行模拟；局部随机消除模块，用于在训练的过程中在重要区域定位模块的指导下，对训练样本的局部区域进行遮挡，其输入为原始的训练样本和重要区域定位模块输出的多个区域的顶点坐标，输出为经过局部消除的新训练样本；

多尺度特征融合模块，用于融合不同尺度的特征，包含多个“池化-卷积-上采样”形式的子结构，其输入为重要区域定位模块输出的特征图，输出为经过融合的新特征图；以及

分类器模块，用于给出样本的分类结果，由全局平均池化层、全连接层、激活函数组成，其输入为多尺度特征融合模块输出的特征图，输出为最终的分类结果。

2.根据权利要求1所述一种深度伪造视频检测系统，其特征在于，所述数据预处理模块的处理过程包括：从视频文件中等间隔地提取N帧，并使用经过训练的MTCNN提取每一帧中的人脸区域，最终保存的图像经过人脸对齐，其中N根据所需的数据量确定。

3.根据权利要求1所述一种深度伪造视频检测系统，其特征在于，所述特征提取模块使用修改后的ResNet-50作为特征提取网络，与原始ResNet-50网络结构相比，ResBlock_4层中卷积核的步长调整为1，该层最终输出的特征图的大小为14×14。

4.根据权利要求1所述一种深度伪造视频检测系统，其特征在于，所述重要区域定位模块的处理过程包括：图像经过ResNet-50提取出的特征图为F∈R^C×H×W，其中C,H,W分别代表特征图的通道数、高度和宽度，激活图A由对F的每个通道进行累加得到，其中f_i代表特征图F在第i个通道的分量，如下方公式表示：

对于激活图中一块指定区域r，该区域的激活程度可以用如下公式计算得到，该区域的左上角的坐标为(x₀,y₀)，右下角的坐标为(x₁,y₁)；

接着，使用Soft-NMS算法计算出最重要的K个区域，其中A代表激活图，t为Soft-NMS算法中使用的阈值，K为选取的区域数量，

和

分别代表第i个区域左上角和右下角的坐标，

5.根据权利要求1所述一种深度伪造视频检测系统，其特征在于，所述局部随机消除模块的处理过程包括：从特征图中选择多个尺寸的窗口，从得到的K个关键区域中随机选择一块，消除这块区域对应的像素值。

6.根据权利要求1所述一种深度伪造视频检测系统，其特征在于，所述多尺度特征融合模块的处理过程包括：利用多个不同池化层得到多个对应尺度的包含细小的伪影区域的特征图，然后使用1×1的卷积核对池化后的特征图进行降维，接着，将每个尺度的小特征图上采样至与原特征图相同尺寸，并与原特征图拼接成新特征图的不同通道。

7.一种终端设备，其特征在于，所述终端设备包括：

至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-6中任一项所述深度伪造视频检测系统。

8.一种计算机可读存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-6中任一项所述深度伪造视频检测系统。