CN114612847A

CN114612847A - 一种Deepfake视频篡改检测方法以及系统

Info

Publication number: CN114612847A
Application number: CN202210330676.1A
Authority: CN
Inventors: 章登勇; 吴鹏杰; 李峰; 彭建; 蒲怀建
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-06-10

Abstract

本发明公开了一种Deepfake视频篡改检测方法以及系统，本发明基于子空间连续学习思想，将目标视频中帧图像序列的不同子空间区域，全部经过级联网络的特征提取，级联网络对同一张帧图像的不同子空间区域分别学习特征，能对篡改遗留下的不平衡痕迹进行有效利用；另外级联网络在学习像素邻域特征的同时，也兼顾了彩色图像三通道的关联性特征，其充分捕捉人脸面部子空间区域之间的特征关系以及RGB图像通道之间的色彩分布特征，能够提高对目标视频的篡改检测的准确度；而且相较于现有基于数据驱动的CNN或GAN的深度学习网络，本发明使用的级联网络的参数量较少，极大的减少特征学习的时间，提高了整体的篡改检测效率。

Description

一种Deepfake视频篡改检测方法以及系统

技术领域

本发明涉及视频篡改检测技术领域，特别涉及一种Deepfake视频篡改检测方法以及系统。

背景技术

Deepfake视频篡改是计算机视觉领域及图下行取证领域的热门研究课题，在人脸审核、新闻鉴真、肖像维权、色情图像审核等诸多方面均有很高的实用价值，保护着广大公民的信息安全。Deepfake视频篡改检测的主要任务是能够对流传于网络中的大量的视频媒体进行人物真实性的鉴别，判断视频中的某一人物的身份信息，神态表情是否被人为修改过。相对于目前比较流行的基于深度学习方法模型对Deepfake视频的篡改检测，非深度学习的鉴别模型能够表现出更加节省时间和减少占用计算机资源的优势。

基于深度学习的人脸篡改检测模型对数据集具有较大的依赖性，更换到不同数据集上测试性能，他们表现出的鉴别精度都会下降，这主要是因为基于深度学习的篡改检测方法，若想有效的识别一类篡改技术留下的痕迹，就要学习该类技术所生成的新特征，所以每当有新的篡改技术出现，总会对现有检测方法提出挑战。而基于非深度学习的鉴别模型，在学习图像的特征时，可以针对图像的底层特征定向精准的学习分类特征，可解释性也更强。

现有的Deepfake视频篡改检测方案还存在如下缺陷：

1)现有检测模型一般是使用基于数据驱动的CNN或GAN的深度学习网络，它们一般是几十万上百万的参数量，这样导致整体计算量大；

2)现有检测模型通常以单通道的像素图像作为输入，这样会丢失RGB图像通道间的色彩分布特征，而且未对视频篡改遗留下的颜色分布不平衡痕迹进行有效利用。

发明内容

本发明旨在至少解决现有技术中存在的技术问题。为此，本发明提出一种Deepfake视频篡改检测方法以及系统，能够提高对视频的篡改检测的准确度。

本发明的第一方面，提供了一种Deepfake视频篡改检测方法，包括如下步骤：

从目标视频中筛选出帧图像序列，所述帧图像序列中的每张帧图像均包含人脸面部区域；

将每张所述帧图像中的人脸面部区域划分为多张子帧图像，每张所述子帧图像表示从所述人脸面部区域中划分出的其中一个子空间区域；

通过预先设置的级联网络对所有所述子帧图像进行特征提取；其中，通过所述级联网络对所述子帧图像进行特征提取包括：

对所述子帧图像进行卷积，将卷积后的结果进行像素邻域相关性特征提取，将特征提取结果进行池化，将池化结果进行特征表示，得到高频、中频以及低频的第一特征图分量；对所述低频的第一特征图分量进行卷积，将卷积后的结果进行像素邻域相关性特征提取，将特征提取结果进行池化，将池化结果进行特征表示，得到高频、中频以及低频的第二特征图分量；依次类推，直至对所述低频的第N-1特征图分量进行卷积，将卷积后的结果进行像素邻域相关性特征提取，将特征提取结果进行池化，将池化结果进行特征表示，得到高频、中频以及低频的第N特征图分量；其中，N是指所述级联网络的最大层数；

根据所有中频的第一特征图分量至第N特征图分量生成特征向量；

根据所述特征向量进行视频篡改检测。

根据本发明的实施例，至少具有如下技术效果：

本方法首先从目标视频中筛选出包含人脸面部区域的帧图像；然后将每张帧图像中的人脸面部区域进行不重复划分，划分出多个子空间区域，得到多张子帧图像；然后将多张子帧图像作为级联网络的输入项，通过级联网络中每层子网络对输入的每个帧图像的多个子空间区域进行特征提取，其中，通过级联网络的第一层子网络对输入的子空间区域进行第一次卷积、像素邻域相关性特征提取、池化处理以及特征表示，得到高频、低频及中频的特征图分量，舍弃高频的特征图分量，将低频的特征图分量作为下一层子网络的输入，依次类推，直至最后一层子网络输出高频、低频及中频的特征图分量；然后将每层子网络产生的低频的特征图分量生成特征向量，最后根据特征向量进行预测，实现对目标视频的是否篡改的检测。

本方法基于子空间连续学习思想，将来自目标视频中帧图像序列的不同子空间区域，全部经过级联网络的特征提取，级联网络对同一张帧图像的不同子空间区域分别学习特征，能对篡改遗留下的不平衡痕迹进行有效利用；另外级联网络在学习像素邻域特征的同时，也兼顾了彩色图像三通道的关联性特征，其充分捕捉人脸面部子空间区域之间的特征关系以及RGB图像通道之间的色彩分布特征，能够提高对目标视频的篡改检测的准确度；而且相较于现有基于数据驱动的CNN或GAN的深度学习网络，本方法使用的级联网络的参数量较少，极大的减少特征学习的时间，提高了整体的篡改检测效率。

根据本发明的一些实施例，所述从目标视频中筛选出帧图像序列，包括步骤：

从所述目标视频中依次选取出所有含有人脸面部区域的帧图像；

计算相邻两张所述帧图像之间的像素矩阵距离，当相邻两张所述帧图像之间的像素矩阵距离大于阈值，则保留相邻两张所述帧图像；当相邻两张所述帧图像之间的像素矩阵距离小于或等于阈值，则删除相邻两张所述帧图像中的清晰度较低的所述帧图像；

将保留的所述帧图像组成帧图像序列。

根据本发明的一些实施例，所述计算相邻两张所述帧图像之间的像素矩阵距离，还包括步骤：

将彩色所述帧图像转换成灰度所述帧图像，计算相邻两张灰度所述帧图像之间的像素矩阵距离。

根据本发明的一些实施例，在所述将每张所述帧图像中的人脸面部区域划分为多张子帧图像之前，还包括步骤：

当所述帧图像的人脸面部区域的尺寸小于预设值，则通过RCAN网络对小于所述预设值的所述帧图像进行超分辨化。

根据本发明的一些实施例，所述根据所有中频的第一特征图分量至第N特征图分量生成特征向量，包括步骤：

通过PCA对中频的第一特征图分量至第N特征图分量进行主成分分析并保留设定能量值，生成特征向量。

根据本发明的一些实施例，在所述生成特征向量之后，还包括：

通过XGBoost分类器对所述特征向量设定与分类标签。

根据本发明的一些实施例，所述级联网络由4层子网络组成，前两层的子网络的卷积核大小为2*2，步长为1；后两层的子网络的卷积核大小为3*3，步长为1。

本发明的第二方面，提供了一种Deepfake视频篡改检测系统，包括：

帧图像筛选模块，用于从目标视频中筛选出帧图像序列，所述帧图像序列中的每张帧图像均包含人脸面部区域；

子空间划分模块，用于将每张所述帧图像中的人脸面部区域划分为多张子帧图像，每张所述子帧图像表示从所述人脸面部区域中划分出的其中一个子空间区域；

级联网络模块，用于对所有所述子帧图像进行特征提取，其中，通过所述级联网络对所述子帧图像进行特征提取包括：

特征提取模块，用于根据所有中频的第一特征图分量至第N特征图分量生成特征向量；

决策模块，用于根据所述特征向量进行视频篡改检测。

根据本发明的实施例，至少具有如下技术效果：

本系统首先利用帧图像筛选模块从目标视频中筛选出包含人脸面部区域的帧图像；然后利用子空间划分模块将每张帧图像中的人脸面部区域进行不重复划分，划分出多个子空间区域，得到多张子帧图像；然后利用级联网络模块将多张子帧图像作为级联网络的输入项，通过级联网络中每层子网络对输入的每个帧图像的多个子空间区域进行特征提取，其中，通过级联网络的第一层子网络对输入的子空间区域进行卷积、像素邻域相关性特征提取、池化处理以及特征表示，得到高频、低频及中频的特征图分量，舍弃高频的特征图分量，将低频的特征图分量作为下一层子网络的输入，依次类推，直至最后一层子网络输出高频、低频及中频的特征图；然后利用特征提取模块将每层子网络产生的中频的特征图分量生成特征向量，最后利用决策模块根据特征向量进行预测，实现对目标视频的是否篡改的检测。

本系统基于子空间连续学习思想，将来自目标视频中帧图像序列的不同子空间区域，全部经过级联网络的特征提取，级联网络对同一张帧图像的不同子空间区域分别学习特征，能对篡改遗留下的不平衡痕迹进行有效利用；另外级联网络在学习像素邻域特征的同时，也兼顾了彩色图像三通道的关联性特征，其充分捕捉人脸面部子空间区域之间的特征关系以及RGB图像通道之间的色彩分布特征，能够提高对目标视频的篡改检测的准确度；而且相较于现有基于数据驱动的CNN或GAN的深度学习网络，本系统使用的级联网络的参数量较少，极大的减少特征学习的时间，提高了整体的篡改检测效率。

本发明的第三方面，提供了一种Deepfake视频篡改检测设备，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如上述的Deepfake视频篡改检测方法。

本发明的第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述的Deepfake视频篡改检测方法。

需要注意的是，本发明的第三方面至第四方面与现有技术之间的有益效果与上述的Deepfake视频篡改检测方法与现有技术之间的有益效果相同，此处不再细述。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例提供的一种Deepfake视频篡改检测方法的流程示意图；

图2是本发明另一个实施例提供的一种Deepfake视频篡改检测方法的流程示意图；

图3是本发明一个实施例提供的帧图像筛选的示意图；

图4是本发明一个实施例提供的提帧效果示意图；

图5是本发明另一个实施例提供的一种Deepfake视频篡改检测方法的流程框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

第一实施例

Deepfake视频篡改是计算机视觉领域及图下行取证领域的热门研究课题，在人脸审核、新闻鉴真、肖像维权、色情图像审核等诸多方面均有很高的实用价值，保护着广大公民的信息安全。Deepfake视频篡改检测的主要任务是能够对流传于网络中的大量的视频媒体进行人物真实性的鉴别，判断视频中的某一人物的身份信息，神态表情是否被人为修改过。

现有的Deepfake视频篡改检测方案还存在如下缺陷：

为了解决上述技术缺陷，参照图1，本发明的一个实施例，提供了一种Deepfake视频篡改检测方法，包括如下步骤：

步骤S101、从目标视频中筛选出帧图像序列，帧图像序列中的每张帧图像均包含人脸面部区域。

其中，目标视频是指需要判断是否发生人脸篡改的视频(也称需要判断人脸真伪的视频)；帧图像序列由多张帧图像组成；在一些实施例中，可通过OpenCV或Matlab从目标视频中提取包含人脸面部区域的帧图像，这为本领域技术人员的公知常识，本实施例不再细述。

步骤S103、将每张帧图像中的人脸面部区域划分为多张子帧图像，每张子帧图像表示从人脸面部区域中划分出的其中一个子空间区域。在一些实施例中，以人脸五观将帧图像中的人脸面部区域划分为五个子空间区域，即得到五张子帧图像。需要注意的是，这里使用子帧图像来表示帧图像划分出的子图像。

步骤S105、通过预先设置的级联网络对所有子帧图像进行特征提取；其中，通过级联网络对子帧图像进行特征提取包括：

对子帧图像进行卷积，将卷积后的结果进行像素邻域相关性特征提取，将特征提取结果进行池化，将池化结果进行特征表示，得到高频、中频以及低频的第一特征图分量；

对低频的第一特征图分量进行卷积，将卷积后的结果进行像素邻域相关性特征提取，将特征提取结果进行池化，将池化结果进行特征表示，得到高频、中频以及低频的第二特征图分量；

依次类推，直至对低频的第N-1特征图分量进行卷积，将卷积后的结果进行像素邻域相关性特征提取，将特征提取结果进行池化，将池化结果进行特征表示，得到高频、中频以及低频的第N特征图分量；其中，N是指级联网络的最大层数。

在步骤S105中，级联网络基于子空间连续学习(Successive Subspace Learning，SSL)的思想，通过级联网络中每层子网络对输入的每个帧图像的多个子空间区域进行特征提取，其中，第一层子网络对输入的子空间区域进行卷积、像素邻域相关性特征提取、池化以及特征表示，得到高频、低频及中频的特征图分量，将低频的特征图分量作为下一层子网络的输入，依次类推，直至最后一层子网络输出高频、低频及中频的特征图分量(每一层子网络输出的特征图从上到下，局部特征逐渐减少，全局特征逐渐增强；自左至右，特征维度下降，特征表达能力增强)。第一层子网络输出的特征图分量更具备局部特征细节，而最后一层输出的特征图分量更具备全局特征的描述能力。

步骤S107、根据所有中频的第一特征图分量至第N特征图分量生成特征向量。

步骤S109、根据特征向量进行视频篡改检测。

第二实施例

参照图2，基于上述实施例，在步骤S101中，从目标视频中筛选出帧图像序列，包括步骤：

步骤S1011、从目标视频中依次选取出所有含有人脸面部区域的帧图像。对于目标视频，步骤S1011通过逐帧遍历的方式检测含有人脸的彩色帧图像。

步骤S1012、将彩色帧图像转换成灰度帧图像，使用灰度帧图像计算像素矩阵距离。这样处理能够提高后续相邻两张帧图像之间的像素矩阵距离的计算速度。需要注意的是，在本文中，从目标视频中筛选出的是彩色帧图像。将彩色帧图像转换成灰度帧图像是为了提高计算像素矩阵距离的计算效率。后续处理的帧图像都是彩色帧图像。

步骤S1013、计算相邻两张帧图像之间的像素矩阵距离，当相邻两张帧图像之间的像素矩阵距离大于阈值，则保留相邻两张彩色帧图像；当相邻两张帧图像之间的像素矩阵距离小于或等于阈值，则删除相邻两张帧图像中的清晰度较低的彩色帧图像。步骤S1013在步骤S1011选取的所有帧图像的基础上，保留相似度较低，清晰度较高的帧图像，对视频中的低质量的帧图像进行剔除，仅保留面部清晰且重复性低的帧图像，这提高了级联网络在学习特征时的效率和资源占用率，降低用于后续网络训练和测试的数据冗余。

步骤S1014、将保留的帧图像组成帧图像序列。

在步骤S103之前，还包括步骤：

步骤S102、当帧图像的人脸面部区域的尺寸小于预设值，则通过RCAN网络对小于预设值的帧图像进行超分辨化。以使超分辨化处理后的帧图像的人脸面部区域的尺寸满足预设值。步骤S102主要作用是对帧图像中人脸面部区域的尺寸进行控制，当帧图像的人脸面部区域的尺寸小于预设值，通过RCAN网络对小于预设值的帧图像进行超分辨化处理，在改变帧图像尺寸的同时，也增强了在后续特征提取可以利用的高频信息(即增强了RGB图像通道之间色彩分布的高频特征信息，以提升后续级联网络的处理效果)。需要注意的是，这里对预设值不进行具体限制，可根据实际需求进行设定。

基于上述实施例，级联网络由4层子网络组成，前两层的子网络的卷积核大小为2*2，步长为1；后两层的子网络的卷积核大小为3*3，步长为1。

基于上述实施例，步骤S107中将所有低频的第一特征图分量至第N特征图分量生成特征向量，包括：通过PCA对低频的第一特征图分量至第N特征图分量进行主成分析并保留设定能量值，生成特征向量。通过PCA(Principal Components Analysis主成分分析)对步骤S105产生的低频的第一特征通道至第N特征通道进行特征的二次提取，能够达到增强特征表现力和降维的目的。

第三实施例

本发明的一个实施例，提供了一种Deepfake视频篡改检测系统，本系统包括：帧图像筛选模块、RCAN网络模块、子空间划分模块、级联网络模块、特征提取模块、聚合模块以及决策模块。本系统执行一种Deepfake视频篡改检测方法，方法包括：

步骤S201、通过帧图像筛选模块从目标视频中采样出帧图像。

对于输入的目标视频，首先将彩色图像转为灰度图像，提高后续像素矩阵距离计算速度。先缓存目标视频中的第一张含有人脸面部区域的帧图像作为基准，并经过对齐处理记录其面部像素矩阵特征，保存其对应的彩色图像。

再往后读取的每一帧含有人脸面部区域的帧图像，都将与前一个基准帧图像比较，比较二者之间的像素矩阵距离，当距离大于阈值0.3时，认为二者具有较大的面部特征变化，保存两者。图像距离计算公式为：

其中，

表示前一张灰度帧图像像素矩阵的第i个像素值，

为后一张灰度帧图像像素矩阵的第i个像素值，经实验分析，

的阈值优选0.3。

若两张帧图像的像素矩阵距离小于或等于阈值0.3时，将两张彩色帧图像视为相似图像，此时使用拉普拉斯算法计算比较两张帧图像的清晰度，并保留其中比较清晰的帧图像。清晰度比较表达式为：

其中，Img_clt是图像A和图像B之间比较清晰的图像，Lap_A.Var与Lap_B.Var分别代表图像A和图像B的清晰度指标值，这些值由OpenCV中的Laplacian算法得到，用于分析图像的清晰度。

如图3所示，第一行图像代表被保留的帧图像，被保留的图像具有多样性且比较清晰；第二行图像代表被丢弃的帧图像，是重复或模糊的帧图像。

步骤S202、通过RCAN网络模块将人脸面部区域尺寸太小的帧图像进行超分辨处理。

对所有保留的帧图像，检查其面部区域的尺寸大小，对大小合适的直接保留，而面部区域的尺寸太小的(例如小于68*128)，使用RCAN网络对其进行超分辨处理，达到改变图像尺寸目的的同时，也增强了RGB图像通道之间色彩分布的高频特征信息，以便于后续级联网络模块的相关处理。比较小的人脸面部区域的帧图像将会通过RCAN网络，被超分辨化处理，图4(d)中的右下角的图像即为图4(c)右下角图像超分辨处理得到。

步骤S203、通过子空间划分模块对人脸面部区域进行不重复划分。将同一张帧图像划分为不同区域的子帧图像，划分出的图像作为级联网络模块的输入数据集。

步骤S204、通过级联网络模块对子帧图像进行第一次特征提取。

对于输入的单个子空间区域图像，先进行第一次特征提取，将会得到若干特征图，将特征图分为高频、中频、低频三类。将第一层子网络得到的高频特征图分量丢弃，中频特征图分量进入PCA主成分析进行降维和特征蒸馏，低频特征图分量作为第二层子网络的输入，类似的，得到高频、中频、低频三类特征图分量。以此类推，直至经过四层子网络的特征提取。当来自同一视频的帧序列以及来自帧序列的不同子空间区域，全部经过级联网络的特征提取之后，每一层的特征图从上到下，细节特征逐渐减少，全局特征逐渐增强；自左至右，特征维度下降，特征表达能力增强。

步骤S205、通过特征提取模块对所有的低频的特征图进行主成份分析并设定不同的预分类标签。

通过PCA进行深层次的提取(达到增强特征表现力的目的)和降维。级联网络生成的特征图，在进入PCA主成分析之后，会被二次的降维和特征提取，由此，特征图的维度被极大下降，得到对应的特征向量通道。每一个特征图对应一个特征向量通道，训练阶段的特征向量将会根据在数据集的来源，被归为预分类标签。在设定预分类标签时，使用了XGBoost分类器，XGBoost分类器的参数规模适合于该模块，通过对XGBoost分类器训练并测试为每一个特征向量设定预分类标签。

步骤S206、通过聚合模块对不同的预分类标签、目标视频、采样的帧图像、子空间区域信息进行聚合。聚合模块相当于存储标签信息的容器，其一方面用于对采样的帧图像的不同子空间区域的聚合。另一方面用于对目标视频的所有采样的帧图像的聚合。

步骤S207、通过决策模块进行检测。

决策模块根据两种类型(真和假)预分类标签数量采用平均化权重的方式，根据置信度阈值区间，对视频为真的可能性进行决策，将会得到视频篡改的检测结果。

如图5所示，给出Deepfake视频的篡改检测具体过程；

大小为68*68*3的子空间区域经过编号后，对应着来自视频的某一帧的某个子空间区域位置，其中68*68为图像尺寸，3代表图像RGB三通道。

一个68*68*3的图像首先进入级联网络的第一层(图5中使用1st-PixelHop++表示)，该层的卷积核大小为2*2，步长为1，经过Neighborhood Construction(进行像素邻域相关性特征提取)和C/W Saab transform(进行特征表示)两个模块特征处理后，再经(2*2)-(1*1)的池化(图5中使用Max-Pooling表示)。其中，Neighborhood Construction与CNN网络的卷积核功能相似，相较于应用灰度图像的特征学习，本实施例将NeighborhoodConstruction作为捕捉彩色图像特征的“卷积核”，达到对彩色图像的像素邻域特征的提取目的。

第二层的卷积核为2*2，第三层、第四层的卷积核为3*3，步长均为1。

经过第一层级联网络后，得到K₁＝K₁₁+K₁₂+K₁₃数量的特征图，其中：

K₁₃代表高频、相关性差的特征通道，被丢弃；

K₁₁代表中频、弱相关性特征的特征通道，直接进入PCA(图5中使用PCA表示)；

K₁₂代表低频、强相关性的特征通道，被送到第二层(图5中使用2nd-PixelHop++表示)继续特征的提取。需要注意的是，级联网络将自动划分高频、中频以及低频的特征通道，其中高频是指图像细节(边缘和轮廓)变化快，低频反之，中频介于二者之间。

以此规律层层级联进行特征提取后，第一层的特征图更具备局部特征细节，而第四层的特征图更具备全局特征的描述能力。级联网络在学习像素邻域特征的同时，也兼顾了彩色图像三通道的关联性特征。

然后对于数量为K₁₁、K₂₁、K₃₁、K₄₁的特征向量通道，在进入到第二次特征提取阶段，即进入特征提取模块(图5中使用Feature Distillation Module表示)后，PCA会对每个特征通道进行主成分析并保留90％的能量，保存为特征向量，并绑定预分类标签(图5中使用Pre-Classifiers表示，Pre-Classifiers使用XGBoost分类器)。

聚合模块(图5中使用Feature Concatenation Module表示)对来自Pre-Classifiers产生的标签以及所属视频、采样的帧图像、子空间区域信息的聚合，聚合模块包含了两部分内容，一是对帧图像的不同子空间区域的聚合，二是对同一视频所有帧图像的聚合。

最后，对于一个视频，决策模块(图5中使用Decision module)中将会有E＝(K₁₁+K₂₁+K₃₁+K₄₁)*n*N个预分类标签向量，其中，n＝5表示子空间预取个数，N代表一个视频中被保留的具有人脸面部区域的帧图像数目，一般为数十个。Decision module对来自同一视频的E个预分类标签向量采用平均化权重的方式，计算检测视频的真实性。

本实施例提供的Deepfake视频篡改检测系统及方法相比于现有Deepfake视频检测方案，有如下优点：

(1)相比于基于CNN和GAN的检测模型，本系统首先对视频中的低质量帧图像进行剔除，仅保留面部清晰且重复性低的帧图像，提高系统在学习特征时的效率和资源占用率。

(2)在Deepfake视频篡改领域中，使用RCAN超分辨处理的方式对图像大小进行处理，在改变图像尺寸的同时，也增强了在特征提取时可以利用的高频信息(即增强了RGB图像通道之间色彩分布的高频特征信息，以提升后续级联网络处理效果)；

(3)本系统基于的SSL思想，将来自目标视频的帧图像的不同子空间区域，全部经过级联网络的特征提取。级联网络对同一张帧图像的不同子空间区域分别学习特征，更能对篡改技术遗留下的不平衡痕迹进行有效利用；另外级联网络在学习像素邻域特征的同时，也兼顾了彩色图像三通道的关联性特征，充分捕捉了人脸面部子空间区域之间的特征关系以及RGB图像通道之间的色彩分布特征，结合图像邻域特征关系和RGB之间的色彩分布特征，进行了有效特征提取和分类，能够提高对目标视频的篡改检测的准确度；

(4)本系统的参数量仅为四数万多个，是很多具有相当鉴别精度的Deepfake模型参数量的几分之一，甚至几十分之一，是一种轻量级视频篡改检测系统。

第四实施例

本发明还提供一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现：

如上述的Deepfake视频篡改检测方法。

处理器和存储器可以通过总线或者其他方式连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。

在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述实施例的Deepfake视频篡改检测方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的Deepfake视频篡改检测方法。

第五实施例

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行：

如上述的Deepfake视频篡改检测方法。

该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述电子设备实施例中的一个处理器执行，可使得上述处理器执行：

如上述实施例中的Deepfake视频篡改检测方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。

某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储数据(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。

计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的数据并且可以被计算机访问的任何其他的介质。

此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何数据递送介质。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种Deepfake视频篡改检测方法，其特征在于，包括如下步骤：

根据所述特征向量进行视频篡改检测。

2.根据权利要求1所述的Deepfake视频篡改检测方法，其特征在于，所述从目标视频中筛选出帧图像序列，包括步骤：

将保留的所述帧图像组成帧图像序列。

3.根据权利要求2所述的Deepfake视频篡改检测方法，其特征在于，所述计算相邻两张所述帧图像之间的像素矩阵距离包括：

4.根据权利要求1所述的Deepfake视频篡改检测方法，其特征在于，在所述将每张所述帧图像中的人脸面部区域划分为多张子帧图像之前，还包括步骤：

5.根据权利要求1所述的Deepfake视频篡改检测方法，其特征在于，所述根据所有中频的第一特征图分量至第N特征图分量生成特征向量，包括步骤：

6.根据权利要求1所述的Deepfake视频篡改检测方法，其特征在于，在所述生成特征向量之后，还包括：

通过XGBoost分类器对所述特征向量设定与分类标签。

7.根据权利要求1至6任一项所述的Deepfake视频篡改检测方法，其特征在于，所述级联网络由4层子网络组成，前两层的子网络的卷积核大小为2*2，步长为1；后两层的子网络的卷积核大小为3*3，步长为1。

8.一种Deepfake视频篡改检测系统，其特征在于，包括：

决策模块，用于根据所述特征向量进行视频篡改检测。

9.一种Deepfake视频篡改检测设备，其特征在于，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的Deepfake视频篡改检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的Deepfake视频篡改检测方法。