CN115393760A

CN115393760A - Deepfake合成视频检测方法、系统及设备

Info

Publication number: CN115393760A
Application number: CN202210979393.XA
Authority: CN
Inventors: 刘光尧; 李志刚; 胡永健; 郭晶晶; 黄威; 汪磊; 佘惠敏; 余泽琼
Original assignee: Institute of Forensic Science Ministry of Public Security PRC
Current assignee: Institute of Forensic Science Ministry of Public Security PRC
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-25

Abstract

本发明涉及一种Deepfake合成视频检测方法、系统、设备及介质，包括：划分数据集进行分帧，并提取各帧检测区域的RGB图像I；利用双树复小波变换将RGB图像I分解为低频子带S_L和不同方向的高频子带集合S_H；将低频子带S_L和高频子带集合S_H分别输入到频域特征提取网络，得到频域特征F_DT‑CWT；将低频子带S_L和高频子带集合S_H输入到基于能量调整的图像增强分支进行处理，得到空域特征F_RGB；将频域特征F_DT‑CWT和空域特征F_RGB进行特征拼接融合，获得单帧分类特征F_C；将单帧分类特征F_C输入到预选训练的分类器网络模块实现Deepfake视频鉴别，输出判决类别。

Description

Deepfake合成视频检测方法、系统及设备

技术领域

本发明是关于一种基于双树复小波变换(DT-CWT)的Deepfake合成视频检测方法、系统、设备及介质，涉及Deepfake合成视频篡改检测技术领域。

背景技术

近年来，得益于深度生成模型的快速发展，以Deepfake为代表的视频深度伪造合成技术在互联网上快速流行。随着深度学习方面众多开源技术的出现，视频合成的技术门槛也越来越低，一些不法分子能够未经许可轻易合成特定人物的假视频并恶意使用，因此针对Deepfake合成视频的检测至关重要。

现有Deepfake合成视频检测算法主要通过神经网络实现，此类检测方法在库内的检测准确率通常可高达99％以上，然而在跨库测试时性能出现明显下降，存在泛化性能不足的问题。

为了提高算法的泛化性能，现有检测技术公开有利用DCT提取频域信息并分析局部频率统计特性用于Deepfake合成视频伪造检测，在压缩视频上实现了较好的检测结果，但是在跨库检测时仍然出现较大下降。现有检测技术还公开了基于RGB图像和高频噪声的双流网络进行Deepfake合成视频的检测，通过两个模态之间的信息交互促进特征学习，但是噪声特征容易受到人脸数据来源和人脸伪造方法的影响，导致不同数据库的噪声特性有所差别，因此算法的泛化能力仍有待提高。

发明内容

针对上述问题，本发明的目的是提供一种能够有助于提高检测性能，增强算法鲁棒性的Deepfake合成视频检测方法、系统、设备及介质。

为实现上述目的，本发明采取以下技术方案：

第一方面，本发明提供一种Deepfake合成视频检测方法，包括：

划分数据集，对各个数据集的视频进行分帧，并提取各帧检测区域的RGB图像I；

利用双树复小波变换将RGB图像I分解为低频子带S_L和不同方向的高频子带集合S_H；

将低频子带S_L和高频子带集合S_H分别输入到频域特征提取网络，得到频域特征F_DT-CWT；

将低频子带S_L和高频子带集合S_H输入到基于能量调整的图像增强分支进行处理，得到空域特征F_RGB；

将频域特征F_DT-CWT和空域特征F_RGB进行特征拼接融合，获得单帧分类特征F_C；

将单帧分类特征F_C输入到预选训练的分类器网络模块实现Deepfake视频鉴别，输出判决类别。

所述的Deepfake合成视频检测方法，进一步地，利用双树复小波变换将RGB图像I分解为低频子带S_L和不同方向的高频子带集合S_H，包括：

双树复小波变换将RGB图像I在多个方向分解，产生指向{±15°,±45°,±75°}的6个不同方向的高频子带和1个低频子带。

所述的Deepfake合成视频检测方法，进一步地频域特征提取网络包括频域特征提取分支网络和基于交叉注意力机制的频域特征融合网络；其中，

频域特征提取分支网络用于将输入的低频子带S_L和高频子带集合S_H进行提取到低频检测特征图F_L和高频检测特征图F_H；

基于交叉注意力机制的频域特征融合网络用于将低频检测特征图F_L和高频检测特征图F_H进行融合，得到频域特征F_DT-CWT。

所述的Deepfake合成视频检测方法，进一步地频域特征提取分支网络由高频SF-Net网络和低频SF-Net网络构成，均采用一个卷积核大小为3x3的普通卷积和5个反向残差模块依次相连的结构，其中，针对高频SF-Net网络，选择第4个反残差模块的输出特征映射作为高频特征图，针对低频SF-Net网络，选择第5个反残差模块的输出特征映射作为低频特征图。

所述的Deepfake合成视频检测方法，进一步地基于交叉注意力机制的频域特征融合网络通过交叉注意力模块将高频特征图和低频特征图经过自注意力模块获得的(0,1)开区间的注意力引导特征图，并将新生成的自注意力权重图重新组合成多通道的注意力引导特征图T，其组合方式如式所示：

式中，

表示逐元素乘法，

表示逐元素相加，M(HF)和M(LF)分别表示根据高频特征图HF和低频特征图LF产生的自注意力权重图。

所述的Deepfake合成视频检测方法，进一步地将低频子带S_L和高频子带集合S_H输入到基于能量调整的图像增强分支进行处理，包括：低频削弱、高频增强、双树复小波逆变换、Gamma矫正和/或Xception网络特征提取。

所述的Deepfake合成视频检测方法，进一步地分类器模块的训练过程，包括：

将训练集中的RGB人脸图像进行双树复小波变换，分别输入到频域特征提取网络和基于能量调整的图像增强分支以及分类器网络模块获得预测概率p；

利用预测概率p与给定的二分类标签计算交叉熵损失；

以最小化交叉熵损失为目标训练模型；

采用自适应Adam算法作为优化器进行模型训练。

第二方面，本发明提供的一种Deepfake合成视频检测系统，包括：

分帧提取单元，被配置为划分数据集，对各个数据集的视频进行分帧，并提取各帧检测区域的RGB图像I；

频带分解单元，被配置为利用双树复小波变换将RGB图像I分解为低频子带S_L和不同方向的高频子带集合S_H；

频域特征提取单元，被配置为将低频子带S_L和高频子带集合S_H分别输入到频域特征提取网络，得到频域特征F_DT-CWT；

空域特征提取单元，被配置为将低频子带S_L和高频子带集合S_H输入到基于能量调整的图像增强分支进行处理，得到空域特征F_RGB；

融合单元，被配置为将频域特征F_DT-CWT和空域特征F_RGB进行特征拼接融合，获得单帧分类特征F_C；

视频预测单元，被配置为将单帧分类特征F_C输入到预选训练的分类器网络模块实现Deepfake视频鉴别，输出判决类别。

第三方面，本发明还提供一种电子设备，包括计算机程序指令，其中，所述程序指令被处理器执行时用于实现所述的Deepfake合成视频检测方法。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，其中，所述程序指令被处理器执行时用于实现所述的Deepfake合成视频检测方法。

本发明由于采取以上技术方案，其具有以下特点：

1、本发明提供的基于双树复小波频域特征的Deepfake合成视频检测算法，能够获取表征能力更强的篡改特征，从而提高检测算法的泛化能力。

2、本发明设计的频域特征提取网络，能够有效地提取双树复小波频域特征，同时网络模型浅、参数少，避免了过深的网络造成过拟合甚至退化的问题，算法运行速度快，有利于在实际场景中应用。

3、本发明采用了基于交叉注意力机制的频域特征融合模块，相比于特征拼接的方法，该特征融合方式能够将注意功能从一种流扩展到另一种流，生成丰富的特征表征形式，有助于进一步加强特征间的关系，减少歧义，从而提高模型的性能。

4、本发明对频域特征提取网络和频域特征融合方式进行了改进和设计，同时采用基于能量调整的图像增强技术对空域图像进行预处理，提高图像中感兴趣位置的对比度，有助于帮助模型提高检测性能，增强算法的鲁棒性。

综上，本发明可以广泛应用于Deepfake合成视频篡改检测中。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。在整个附图中，用相同的附图标记表示相同的部件。在附图中：

图1为本发明实施例的Deepfake合成视频检测方法的网络架构示意图；

图2为本发明实施例的Deepfake合成视频检测方法的训练阶段流程示意图；

图3为本发明实施例的SF-Net网络架构示意图；

图4为本发明实施例的频域特征提取网络架构图；

图5为本发明实施例的基于能量调整的图像增强分支架构图；

图6为本发明实施例的电子设备结构图。

具体实施方式

应理解的是，文中使用的术语仅出于描述特定示例实施方式的目的，而无意于进行限制。除非上下文另外明确地指出，否则如文中使用的单数形式“一”、“一个”以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具有”是包含性的，并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在，但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说明的特定顺序执行，除非明确指出执行顺序。还应当理解，可以使用另外或者替代的步骤。

尽管可以在文中使用术语第一、第二、第三等来描述多个元件、部件、区域、层和/或部段，但是，这些元件、部件、区域、层和/或部段不应被这些术语所限制。这些术语可以仅用来将一个元件、部件、区域、层或部段与另一区域、层或部段区分开。除非上下文明确地指出，否则诸如“第一”、“第二”之类的术语以及其它数字术语在文中使用时并不暗示顺序或者次序。因此，以下讨论的第一元件、部件、区域、层或部段在不脱离示例实施方式的教导的情况下可以被称作第二元件、部件、区域、层或部段。

为了便于描述，可以在文中使用空间相对关系术语来描述如图中示出的一个元件或者特征相对于另一元件或者特征的关系，这些相对关系术语例如为“内部”、“外部”、“内侧”、“外侧”、“下面”、“上面”等。这种空间相对关系术语意于包括除图中描绘的方位之外的在使用或者操作中装置的不同方位。

本发明提供的Deepfake合成视频检测方法、系统、设备及介质，包括：划分数据集，对各个数据集的视频进行分帧，并提取各帧检测区域的RGB图像I；利用双树复小波变换将RGB图像I分解为低频子带S_L和不同方向的高频子带集合S_H；将低频子带S_L和高频子带集合S_H分别输入到频域特征提取网络，得到频域特征F_DT-CWT；将低频子带S_L和高频子带集合S_H输入到基于能量调整的图像增强分支进行处理，得到空域特征F_RGB；将频域特征F_DT-CWT和空域特征F_RGB进行特征拼接融合，获得单帧分类特征F_C；将单帧分类特征F_C输入到预选训练的分类器网络模块实现Deepfake视频鉴别，输出判决类别。因此，本发明能够通过双树复小波获取表征能力更强的篡改检测特征，具有较好的检测效果，能够有效提高泛化性能。

下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一：本实施例提供的基于双树复小波的Deepfake合成视频检测方法，包括：

S1:划分数据集，对各个数据集的视频进行分帧，并提取各帧检测区域的RGB图像I。

S2:利用双树复小波变换将RGB图像I分解为1个低频子带S_L和6个不同方向的高频子带集合S_H。

S3:构建频域特征提取网络，包括频域特征提取分支网络和基于交叉注意力机制的频域特征融合网络，包括：

S31:构建频域特征提取分支网络，将低频子带S_L和高频子带集合S_H分别输入到频域特征提取分支网络，得到低频检测特征图F_L和高频检测特征图F_H。

具体地，频域特征提取分支网络由高频SF-Net网络和低频SF-Net网络构成，均采用一个卷积核大小为3x3的普通卷积和5个反向残差模块依次相连的结构。每个反向残差模块先是扩展层、批归一化层、ReLU激活函数层，接着是卷积核大小为1x1的深度可分离卷层、批归一化层、ReLU激活函数层，最后连接1x1卷积层和批归一化层，每个反向残差模块的重复次数由超参数n决定。其中，针对高频SF-Net网络，选择第4个反残差模块的输出特征映射作为高频特征图，针对低频SF-Net网络，选择第5个反残差模块的输出特征映射作为低频特征图。

S32:构建基于交叉注意力机制的频域特征融合网络，将低频检测特征图F_L和高频检测特征图F_H输入基于交叉注意力机制的频域特征融合网络进行融合，得到频域特征F_DT-CWT。

基于交叉注意力机制的频域特征融合网络，用于将输出低频特征图和高频特征图进行融合。

具体地，构建基于交叉注意力机制的频域特征融合网络，其中，交叉注意力权重图分别是由高频特征图或低频特征图经过自注意力模块获得的(0,1)开区间的注意力引导特征图。高频特征图的处理方式与低频特征图的处理方式相同，将高频特征图或低频特征图分别与对应的交叉注意力权重图进行相加，可以增强高频特征图或低频特征图中重要的潜在特征。最后将新生成的两个特征图重新组合成多通道的注意力引导特征图T，其组合方式如式所示：

式中，

表示逐元素乘法，

S4:构建基于能量调整的图像增强分支，将低频子带S_L和高频子带集合S_H输入到基于能量调整的图像增强分支，分别经过低频削弱、高频增强、双树复小波逆变换、Gamma矫正、Xception网络特征提取等过程，得到空域特征FRGB。

具体地，基于能量调整的图像增强分支采用DT-CWT将人脸区域图像分解为大小、位置和方向均不同的分量，并削弱低频子带，增强高频子带，具体计算公式为：

其中，F(x,y)表示经过DT-CWT的2级分解得到的低频子图，(m,n)表示子图中幅值最大点的位置，F′(x,y)表示低频削弱后的低频子带图像。其中，常数k表示削弱的程度。

基于能量调整的图像增强分支中的高频增强，具体计算公式为：

D′^a＝D^α/s O＜s＜1

式中，将2级双树复小波变换得到的6个高频子带记为D^α，α＝{±15°,±45°,±75°}，增强后的子带为D′^α，常数s表示增强的程度。高频增强的含义即增强细节系数。

进一步地，为了保证增强前后图像总能量不变，采用Gamma校正进行调整，具体公式为：

其中，u(i,j)为反变换后生成的图像，g(i,j)为Gamma校正后的图像，γ为校正因子，m_u为u(i,j)的灰度均值，m_f为原始图像的灰度均值，τ为常数，作用是调整图像的亮度值。

更进一步地，Xception网络特征提取过程中将经过能量调整后的增强图像送入Xception网络中，其中Xception网络的最后一层平均池化层的2048维输出张量为学习到的颜色特征F_RGB。

S5:将频域特征F_DT-CWT和空域特征F_RGB进行特征拼接融合，获得单帧分类特征F_C。

S6:将分类特征F_C送入由全连接层、Softmax激活层构成的训练好的分类器网络模块，获得预测概率p，若p大于0.5则判断为真实视频，反之判断为合成视频。

具体地，分类器网络模块的训练过程包括：

计算损失函数并反向传播更新网络权重系数，保存网络的模型和最佳权重。

将训练集中的RGB人脸图像进行双树复小波变换，分别输入到频域特征提取网络和基于能量调整的图像增强分支以及分类器网络模块获得预测概率p。

利用预测概率p与给定的二分类标签计算交叉熵损失。

以最小化交叉熵损失为目标训练模型。

在训练过程中，采用自适应Adam算法作为优化器，设置初始学习率为0.0001，学习率的优化方案为训练2个周期验证集的损失没有下降时，将学习率以0.5的倍率减少；同时设置训练周期为20，训练的批尺寸为32；最后保存对于验证集损失最小的模型和权重，完成模型训练，获得训练完成的分类器网络模块。

下面通过具体实施例详细说明本实施例的基于双树复小波的Deepfake合成视频检测方法的实现过程。

本实施例选择TIMIT-DF数据库、FaceForensics++(下文简称FF++)数据库，DeepfakeDetection(下文简称DFD)数据库和FFW数据库进行库内测试和跨库测试。本实施例将DFD数据库的C23数据和FF++数据库的C0和C23数据按照视频7：2：1的比例划分为训练集、验证集和测试集。TIMIT-DF数据和FFW数据库将用于跨库测试，其中FFW缺乏真实视频，因此从FF++测试集中选择50个真实视频进行补充。在划分数据库时考虑到如果训练集、验证集和测试集中含有重复的数据，在训练时会造成对源域的严重过拟合，导致算法的泛化性能下降，因此本实施例选择按人员对数据集进行划分，即确保同一个人员的真脸和Deepfake假脸只能出现在训练、验证和测试其中一个数据集中。本实施例划分和使用的数据库如表1所示。本实验在Linux系统上进行，主要是基于深度学习框架Keras来实现，显卡为GTX1080Ti，CUDA版本为9.0.176。

表1数据库划分(单位：帧)

如图1、图2所示，本实施例的基于双树复小波变换的Deepfake合成视频检测方法，包括步骤：

S1：将待检测视频解码为帧序列，并提取各帧检测区域的RGB图像I；

具体地，将各个数据库视频先解码为帧序列，并设定间隔进行采样，间隔可以设置为5，并以视频为单位保存帧序列；接着通过开源框架Dlib库人脸检测器get_frontal_face_detector对视频帧序列进行人脸识别，提取人脸的68个特征点，其中第30个特征点是鼻尖位置，最后以鼻尖为中心点，裁剪得到尺寸为256×256的区域，作为特征提取区域。

S2：将特征提取区域进行双树复小波变换，分解为高频子带S_H和低频子带S_L。

将特征提取区域调整为统一大小的RGB图像I，并进行归一化处理作为特征检测区域的颜色特征数据，双树复小波变换将RGB图像I在多个方向分解，产生指向{±15°,±45°,±75°}的6个不同方向的高频子带和1个低频子带。

S3：构建频域特征提取网络，包括高低频特征提取分支网络和基于交叉注意力机制的频域特征融合网络。

将低频子带S_L和高频子带集合S_H分别送入对应的频域特征提取分支网络，分别得到低频检测特征图F_L和高频检测特征图F_H。将输出低频检测特征图和高频检测特征图输入基于交叉注意力机制的频域特征融合模块进行融合，得到频域特征F_DT-CWT；

S31：构建频域特征提取分支网络

本实施例中，频域特征提取分支由高频SF-Net网络和低频SF-Net网络构成。SF-Net网络使用MoileNet V2的反向残差模块作为网络模型的基础模块，其网络结构如图3所示。SF-Net网络采用一个卷积核为3x3的普通卷积和5个反向残差模块依次相连的结构，SF-Net结构的详细参数如表2所示。

表2 SF-Net结构详细参数

本实施例将尺寸大小为256×256×1的低频子带输入到低频SF-Net网络，选择第5个反残差模块的输出特征映射作为低频特征图，将尺寸大小128×128×6的高频子带输入到高频SF-Net网络，选择选择第4个反残差模块的输出特征映射作为低频特征图，输出的低频特征图和高频特征图数据维度均为16×16×320。

S32：构建基于交叉注意力机制的频域特征融合网络

如图4所示，在本实施例中，使用基于交叉注意力机制的频域特征融合网络，以低频特征为例，在交叉注意力模块中，交叉注意力权重图是由低频特征图经过自注意力模块获得的(0,1)开区间的注意力引导特征图。高频特征图的处理方式与低频特征图的处理方式相同，最后将新生成的两个特征图重新组合成多通道的注意力引导特征图。

S4：构建基于能量调整的图像增强分支，将低频子带S_L和高频子带集合S_H送入基于能量调整的图像增强分支，分别经过低频削弱、高频增强、双树复小波逆变换、Gamma矫正、Xception网络特征提取等过程，得到空域特征F_RGB；

在本实施例中，如图5所示，采用DT-CWT将人脸区域图像分解为大小、位置和方向均不同的分量，并削弱低频子带，增强高频子带，从而达到放大表征细节的高频分量。接下来是双树复小波逆变换，为了保证增强前后图像总能量不变，采用Gamma非线性变换处理，调整原始图像的灰度值，能够调节图像亮度从而达到增强图像的视觉效果的目的。

S5：将频域特征F_DT-CWT和空域特征F_RGB进行特征拼接融合，获得单帧分类特征F_C。

S6:基于分类器网络模块进行预测。

将分类特征F_C送入由全连接层、Softmax激活层构成的分类器网络模块，获得预测概率p。若p大于0.5则判断为真实视频，反之判断为合成视频。

分类器网络模块的训练过程为：计算损失函数并反向传播更新网络权重系数，保存网络的模型和最佳权重。将训练集中的RGB人脸图像进行双树复小波变换，分别输入到频域特征提取网络和基于能量调整的图像增强分支以及分类器网络模块获得预测概率p。利用预测概率p与给定的分类标签计算交叉熵损失。以最小化交叉熵损失为目标训练模型。在训练过程中，采用自适应Adam算法作为优化器，设置初始学习率为0.0001，学习率的优化方案为训练2个周期验证集的损失没有下降时，将学习率以0.5的倍率减少；同时设置训练周期为20，训练的批尺寸为32；最后保存对于验证集损失最小的模型和权重。

交叉熵损失函数定义如式：

其中，x表示样本，y表示实际的标签，a表示预测的输出，n表示样本的总数量。

S8：模型应用：加载模型训练步骤保存的分类网络和参数作为检测系统的后台模块，将测试集的每个视频帧输入检测系统，预测分类结果。

在本实施例中，分别加载利用DFD数据库和FF++数据库的训练集训练后的模型和权重，进行测试；本实施例Deepfake假脸检测算法的性能指标为半错误率(HalfTotalError Rate，HTER)，半错误率(HTER)计算公式如下：

其中，FAR(False Acceptance Rate)为错误接受率，即算法把Deepfake假脸判别为真实视频人脸的比率；FRR(False Rejection Rate)为错误拒绝率，即算法把真实视频人脸判别为Deepfake假脸的比率。

为了能够全面探讨算法的泛化能力，本实施例将使用DFD(C23)数据库、FF++(C0&C23)数据库分别作为训练数据库，并对DFD(C23)数据库、FF++(C0)、FF++(C23)数据库、TIMIT-DF数据库以及FFW数据库进行跨库性能验证。表3、4分别展示了在DFD(C23)、FF++(C0&C23)数据库训练的模型测试HTER结果。

表3对比算法实验HTER结果一(％)

表4对比算法实验HTER结果二(％)

从表3中可以看出，在DFD(C23)数据库上训练的模型，本发明算法在库内测试HTER为1.93％，在FF++(C0)、FF++(C23)、TIMIT-DF、FFW的跨库测试上，HTER分别为11.95、16.73、13.74和18.42，本发明算法在库内测试和跨库测试均表现优异。

从表4中观察到，在FF++(C0&C23)上训练的模型中，本发明算法在库内测试HTER为0.54％，在FF++(C23)、DFD(C23)、TIMIT-DF、FFW的跨库测试上，HTER分别为1.84、22.81、24.23和13.15，进一步说明本发明算法在库内测试和跨库测试均表现优异。

综上，本实施例利用双树复小波变换的方法，设计了频域特征提取分支和基于能量调整的图像增强分支网络，将输入数据分别送入频域特征提取分支以及基于能量调整的图像增强分支获得频域特征F_DT-CWT和空域特征F_RGB，将这两类特征送入分类器网络模块对Deepfake合成视频进行鉴别，实验结果证明，双树复小波变换、基于交叉注意力机制的特征融合方法以及图像增强都能提高Deepfake合成视频检测系统的性能。

实施例二：上述实施例一提供了Deepfake合成视频检测方法，与之相对应地，本实施例提供一种Deepfake合成视频检测系统。本实施例提供的系统可以实施实施例一的Deepfake合成视频检测方法，该系统可以通过软件、硬件或软硬结合的方式来实现。为了描述的方便，描述本实施例时以功能分为各种单元分别描述。当然，在实施时可以把各单元的功能在同一个或多个软件和/或硬件中实现。例如，该系统可以包括集成的或分开的功能模块或功能单元来执行实施例一各方法中的对应步骤。由于本实施例的系统基本相似于方法实施例，所以本实施例描述过程比较简单，相关之处可以参见实施例一的部分说明即可，本发明提供的Deepfake合成视频检测系统的实施例仅仅是示意性的。

具体地，本实施例提供的基于双树复小波的Deepfake合成视频检测系统，包括：

实施例三：本实施例提供一种与本实施例一所提供的Deepfake合成视频检测方法对应的电子设备，电子设备可以是用于客户端的电子设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行实施例一的方法。

如图6所示，电子设备包括处理器、存储器、通信接口和总线，处理器、存储器和通信接口通过总线连接，以完成相互间的通信。总线可以是工业标准体系结构(ISA，IndustryStandard Architecture)总线，外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等等。存储器中存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行本实施例一所提供的Deepfake合成视频检测方法。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算设备的限定，具体的计算设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实现中，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、光盘等各种可以存储程序代码的介质。

在另一些实现中，处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器，在此不做限定。

实施例四：本实施例一的Deepfake合成视频检测方法可被具体实现为一种计算机程序产品，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本实施例一所述的Deepfake合成视频检测方法的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实现”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种Deepfake合成视频检测方法，其特征在于，包括：

2.根据权利要求1所述的Deepfake合成视频检测方法，其特征在于，利用双树复小波变换将RGB图像I分解为低频子带S_L和不同方向的高频子带集合S_H，包括：

3.根据权利要求1所述的Deepfake合成视频检测方法，其特征在于，频域特征提取网络包括频域特征提取分支网络和基于交叉注意力机制的频域特征融合网络；其中，

4.根据权利要求3所述的Deepfake合成视频检测方法，其特征在于，频域特征提取分支网络由高频SF-Net网络和低频SF-Net网络构成，均采用一个卷积核大小为3x3的普通卷积和5个反向残差模块依次相连的结构，其中，针对高频SF-Net网络，选择第4个反残差模块的输出特征映射作为高频特征图，针对低频SF-Net网络，选择第5个反残差模块的输出特征映射作为低频特征图。

5.根据权利要求3或4所述的Deepfake合成视频检测方法，其特征在于，基于交叉注意力机制的频域特征融合网络通过交叉注意力模块将高频特征图和低频特征图经过自注意力模块获得的(0,1)开区间的注意力引导特征图，并将新生成的自注意力权重图重新组合成多通道的注意力引导特征图T，其组合方式如式所示：

式中，

表示逐元素乘法，

6.根据权利要求1所述的Deepfake合成视频检测方法，其特征在于，将低频子带S_L和高频子带集合S_H输入到基于能量调整的图像增强分支进行处理，包括：低频削弱、高频增强、双树复小波逆变换、Gamma矫正和/或Xception网络特征提取。

7.根据权利要求1所述的Deepfake合成视频检测方法，其特征在于，分类器模块的训练过程，包括：

利用预测概率p与给定的二分类标签计算交叉熵损失；

以最小化交叉熵损失为目标训练模型；

采用自适应Adam算法作为优化器进行模型训练。

8.一种Deepfake合成视频检测系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括计算机程序指令，其中，所述程序指令被处理器执行时用于实现权利要求1～7任一项所述的Deepfake合成视频检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，其中，所述程序指令被处理器执行时用于实现如权利要求1～7任一项所述的Deepfake合成视频检测方法。