CN112927202A

CN112927202A - 多时域多特征结合的Deepfake视频检测方法及系统

Info

Publication number: CN112927202A
Application number: CN202110207530.3A
Authority: CN
Inventors: 胡永健; 余泽琼; 刘琲贝; 王宇飞
Original assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Current assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-06-08
Anticipated expiration: 2041-02-25
Also published as: CN112927202B

Abstract

本发明公开了一种多时域多特征结合的Deepfake视频检测方法及系统，该方法步骤包括：将划分后数据集的视频解码并采样，获取特征提取区域的RGB图像和YUV图像；将RGB图像输入Xception网络学习，提取颜色特征；YUV图像进行分块DCT变换，得到三维DCT系数并输入频域特征提取网络学习，提取DCT特征；构建短时域模块，获取相邻两帧的一阶差分图像和灰度差值，输入VGG16网络提取梯度特征；将颜色特征、DCT特征和梯度特征拼接得到单帧特征；分别计算待检测视频的连续多帧图像，获得多个单帧特征，输入构建的长时域模块训练，训练后对视频进行分类，判断是否为Deepfake视频。本发明利用多时域模块捕获视频的时域信息，结合多特征对Deepfake视频进行检测，具有较好的检测效果，并提高了泛化能力。

Description

多时域多特征结合的Deepfake视频检测方法及系统

技术领域

本发明涉及Deepfake视频篡改检测技术领域，具体涉及一种多时域多特征结合的Deepfake视频检测方法及系统。

背景技术

Deepfake视频篡改技术是由深度网络模型生成假脸，再由生成的假脸替换真实视频中人脸的一种篡改视频技术。现如今存在多款基于深度网络模型的视频换脸应用程序，如DeepFaceLab、Deep-Faceswap、Deep-Faceswap-GAN等。现有的Deepfake视频检测技术中一种方式是通过单帧RGB图像呈现的颜色特征输入深度神经网络，在库内测试准确率可达90％以上，但跨库性能严重降低，泛化性能差。另一种方式选取其他的篡改特征用于检测，比如眼睛眨眼特征，语音与口型一致性特征，光流场特征等，此类技术由于Deepfake视频篡改技术的进一步提升，已经逐步克服上述眨眼少，语音口型不一致等问题，目前的换脸效果已经达到很高的水平，而此类技术的检测效果不佳，难以满足检测准确率的需求。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种多时域多特征结合的Deepfake视频检测方法及系统，本发明所设计的网络能够准确提取DCT特征、颜色特征和梯度特征，同时利用长短时域模块，提高网络模型的库内检测率和泛化性能。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种多时域多特征结合的Deepfake视频检测方法，包括下述步骤：

划分数据集，并将各个数据集的视频解码为帧序列，并设定间隔进行采样，保存为帧序列S；

检测帧序列S中各帧的人脸区域，作为特征提取区域；

将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习，得到颜色卷积特征F_RGB；

对特征提取区域进行分块切分，并对YUV三通道图像进行分块DCT变换，得到三维DCT系数，将三维DCT系数输入频域特征提取网络进行预测，得到DCT卷积特征F_DCT，所述频域特征提取网络包括多个Inverted Residuals模块、卷积层和平均池化层；

构建短时域模块STB，所述短时域模块STB用于获取相邻两帧的一阶差分图像和灰度差值，输入VGG16网络进行梯度特征学习，得到梯度特征F_grad；

将同一帧人脸区域的颜色卷积特征F_RGB、DCT卷积特征F_DCT和梯度特征F_grad进行特征融合获得单帧特征；

构建长时域模块，所述长时域模块包括多层LSTM层和全连接层；

分别计算待检测视频保存的连续多帧图像，获得多个单帧特征，输入长时域模块捕获远程时间上的特征上下文；

采用训练后的长时域模块LTB对待检测视频帧进行预测分类，判断视频是否为Deepfake视频。

作为优选的技术方案，所述将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习，得到颜色卷积特征F_RGB，具体步骤包括：

将特征提取区域调整为统一大小的RGB图像，并进行归一化处理，作为特征检测区域的颜色特征数据，选取Xception网络的最后一层平均池化层输出张量作为学习到的颜色卷积特征F_RGB。

作为优选的技术方案，所述对特征提取区域进行分块切分，并对YUV三通道图像进行分块DCT变换，得到三维DCT系数，具体步骤包括：

读取特征提取区域的RGB三通道图像，获取特征提取区域的YUV三通道图像，得到I_Y,I_U,I_V的图像，对YUV三通道图像进行不规则大小m₁×m₂的分块切分，其中m₁是指将图像横坐标切分为m₁块，m₂是指将图像纵坐标切分为m₂块，对I_Y,I_U,I_V图像的m₁×m₂个分块分别做二维DCT变换，将YUV三通道的各个分块的DCT变换幅度频谱按照原来分块位置进行拼接得到三维DCT系数。

作为优选的技术方案，所述二维DCT变换具体计算公式为：

其中，(i,j)表示图像中像素点的二维坐标，f(i,j)表示该坐标下图像的像素值，N表示图像的宽，F(u,v)为提取的DCT系数。

作为优选的技术方案，所述二维DCT变换采用矩阵处理方式，具体计算公式为：

F＝AfA^T

其中，F表示DCT系数矩阵，f表示图像像素矩阵，(i,j)表示图像中像素点的二维坐标，N表示图像的宽。

作为优选的技术方案，所述频域特征提取网络采用5个Inverted Residuals模块依次相连，然后接1×1普通卷积、平均池化层、Sigmoid激活函数；

所述Inverted Residuals模块先是扩展层，激活函数为ReLU，接着是深度可分离卷积，卷积核大小为(3,3)，激活函数为ReLU，最后接1×1卷积，且为线性变换，同时每个Inverted Residuals模块都由超参数决定每层的重复次数。

作为优选的技术方案，所述将三维DCT系数输入频域特征提取网络进行预测，得到DCT卷积特征F_DCT，具体步骤包括：

设置训练参数、训练周期、优化器和初始学习率；

损失函数采用交叉熵函数，训练完成后，保存对于验证集损失最小的模型和权重，将频域特征提取网络的最后一层平均池化层预测的输出张量作为DCT特征F_DCT。

作为优选的技术方案，所述短时域模块STB由相邻两帧的特征提取区域分别经过灰度化，采用Sobel算子进行x和y向的一阶差分计算，对x和y方向的一阶差分图像进行加权求和得到一阶梯度图像，将相邻两帧的一阶梯度图像结合灰度差值输入VGG16网络进行梯度特征的学习，设置训练参数，训练完成后保存对于验证集损失最小的模型和权重，将VGG16网络的倒数第二层全连接层预测的输出张量作为学习到的梯度特征F_grad。

作为优选的技术方案，所述长时域模块包括三层LSTM层和2通道的全连接层，第一LSTM层和第二LSTM层返回完整的输出序列，第三LSTM层只返回一维输出序列，最后输入2通道的全连接层，采用Softmax激活函数，输出二分类结果，即判断是否为Deepfake视频。

本发明还提供一种多时域多特征结合的Deepfake视频检测系统，包括：视频解码采样模块、人脸区域提取模块、颜色特征提取网络模块、DCT变换模块、DCT特征提取网络模块、梯度特征提取网络模块、特征向量构建模块和长时域模块；

所述视频解码采样模块用于将各个数据集的视频解码为帧序列，并设定间隔进行采样，保存为帧序列S；

所述人脸区域提取模块用于检测帧序列S中各帧的人脸区域，作为特征提取区域；

所述颜色特征提取网络模块用于将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习，得到颜色卷积特征F_RGB；

所述DCT变换模块用于对特征提取区域进行分块切分，并对YUV三通道图像进行分块DCT变换，得到三维DCT系数；

所述DCT特征提取网络模块用于将三维DCT系数输入频域特征提取网络进行预测，得到DCT卷积特征F_DCT，所述频域特征提取网络包括多个Inverted Residuals模块、卷积层和平均池化层；

所述梯度特征提取网络模块用于构建短时域模块STB，所述短时域模块STB用于获取相邻两帧的一阶差分图像和灰度差值，输入VGG16网络进行梯度特征学习，得到梯度特征F_grad；

所述特征向量构建模块用于将同一帧人脸区域的颜色卷积特征F_RGB、DCT卷积特征F_DCT和梯度特征F_grad进行特征融合获得单帧特征；

所述长时域模块包括多层LSTM层和全连接层；

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明设计了多时域模块，即短时域模块STB用于捕获相邻帧时域信息，长时域模块LTB用以捕获远程时间上的特征上下文，通过多时域模块能够有效地利用篡改视频帧序列时域不一致的痕迹，提升检测性能。

(2)本发明采用了对YUV图像进行分块DCT变换后获取Deepfake频域篡改痕迹的技术方案，利用Deepfake假脸在DCT域存在周期性的现象，将DCT特征用于Deepfake视频检测，有效改善了检测性能。

(3)本发明采用了DCT特征、颜色特征结合梯度特征的技术方案，相比于直接使用RGB图像特征，不仅能提高库内检测准确率，同时还使跨库准确率有明显提升，提高了网络模型的泛化性能。

(4)本发明设计了一种频域特征提取网络，该网络能够有效地提取DCT频域特征，同时网络模型浅，参数少，运行速度快，有利于在实际场景中应用。

附图说明

图1为本发明多时域多特征结合的Deepfake视频检测方法的网络架构示意图

图2为本发明多时域多特征结合的Deepfake视频检测方法的训练阶段流程示意图；

图3为本发明真假脸帧DCT系数平均值示意图；

图4为本发明的频域特征提取网络各层次的结构示意图；

图5为本发明的短时域模块结构示意图；

图6为本发明的长时域模块网络结构各层次的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例采用Deepfake视频数据库TIMIT、FaceForensics++与DeepfakeDetection作为检测数据集。TIMIT数据库选取了16对肤色和光照差异近似的对象，使用开源的Deep-Faceswap-GAN方法实现人脸互换，对于每一对视频，分别使用不同的模型和融合技术合成低质量(LQ)和高质量(HQ)的两种视频。FaceForensics++数据库是基于自编码器模型的Deep-Faceswap方法实现的，并使用H.264编码器分别合成压缩率0(C0)、压缩率23(C23)，压缩率40(C40)3种不同压缩程度的视频，其中真实视频1000个，换脸视频3000个。DeepfakeDetection数据库视频包含无压缩率(C0)，压缩率23(C23)，压缩率40(C40)，其中包含真实视频363个，换脸视频3068个。本实施例使用TIMIT数据集，FaceForensics++的C0数据集和DeepfakeDetection的C23数据集，同时为了保证正负样本的比例均衡，在选取的数据集中保证真实视频帧和换脸视频帧的比例在1:1左右。实验训练集数量为81920帧，验证集数量为20480帧，测试集数量为10240帧；本实验在Linux系统上进行，主要是基于深度学习框架Keras来实现，显卡为GTX1080Ti，CUDA版本为9.0.176。

如图1、图2所示，本实施例提供一种多时域多特征结合的Deepfake视频检测方法，包括下述步骤：

S1：将待检测视频解码为帧序列并每隔5帧保存1帧；

在本实施例中，利用OpenCV开源软件库中的VideoCapture类将视频进行解码，把视频解码成帧序列F₁,F₂,F₃,…,F_N，其中，N为单个视频的帧数，将每个视频的帧序列每隔5帧保存1帧为独立文件夹，以防不同视频产生相互干扰；

S2：将保存的帧序列S进行人脸区域检测，作为特征提取区域；

在本实施例中，遍历读取所有视频文件夹中的帧序列路径，通过Dlib库人脸检测器get_frontal_face_detector对视频帧图像进行人脸的识别，提取人脸区域的方框的4个坐标值X_min，X_max，Y_min，Y_max，将视频的帧路径、4个坐标值、视频标签写入csv文件中；

网络训练预处理步骤为：读取csv文件，按照帧路径读取图像，根据人脸区域坐标点计算人脸区域中心点，以人脸区域中心点截取帧图像256×256区域，作为特征提取区域。

人脸区域中心点计算公式如下：

X₀＝X_min+(X_max-X_min)/2

Y₀＝Y_min+(Y_max-Y_min)/2

S3：将特征提取区域的RGB(红、绿、蓝三通道)图像输入Xception网络进行颜色卷积特征学习，得到颜色卷积特征F_RGB；

在本实施例中，具体步骤如下：

将特征提取区域调整大小为H×W×3的RGB图像，并进行归一化处理，作为特征检测区域的颜色特征数据，其中H为统一调整后的RGB图像的高，W为统一调整后的RGB图像的宽，在本实施例中，H的值优选256，W的值优选256。

选择Xception网络作为基准卷积神经网络，将统一调整后的RGB图像送入Xception网络中进行颜色卷积特征学习的模型训练。选取Xception网络的最后一层平均池化层输出张量作为学习到的颜色卷积特征F_RGB。

设置模型训练参数，训练周期为30，优化器为Adam，初始学习率为0.001，使用Keras中的回调函数ReduceLROnPlateau优化学习率，损失函数设置为交叉熵，训练的批尺寸为64，训练优化网络的参数，训练完成后，保存对于验证集损失最小的模型和权重。导入保存的模型和参数，将Xception网络的最后一层平均池化层预测的2048维输出张量作为学习到的颜色特征F_RGB。本实施例从RGB(红绿蓝)三通道的图像像素值中，通过网络去学习Deepfake视频篡改痕迹，比如脸部的伪影等；

S4：对特征提取区域进行分块切分，并对YUV三通道图像进行分块DCT变换，得到三维DCT系数；

具体步骤如下：

DCT变换的全称是离散余弦变换(Discrete Cosine Transform)，能够将空域的信号转换为频域的信号，并且具有良好的去相关性的作用。将1000张Deepfake数据库真脸视频帧和假脸视频帧的人脸区域分别做DCT变换，将DCT变换结果取均值，并将均值经过log函数处理，最后打印成图片，结果如图3所示。Deepfake视频是由深度网络模型生成假脸，再由生成的假脸替换真实视频中人脸。在由深度模型生成假脸过程中，由于引入了转置卷积，即引入了上采样，故生成的假脸在DCT变换后会呈现周期性。并且由于视频每帧都替换假脸后，需要重新编码生成视频。这导致了视频帧细节信息丢失，影响频域的高频信息。从图3可看出，在高频区域，真假脸的DCT系数存在一定的区别，真脸图片高频信息对比假脸图片高频信息更加丰富。

读取特征提取区域的RGB(红、绿、蓝三通道)图像，获取特征提取区域的YUV三通道图像，得到I_T,I_U,I_V的图像，“Y”表示明亮度，也就是灰阶值，“U”和“V”表示的则是色度，作用是描述影像色彩及饱和度，用于指定像素的颜色，在本实施中采用YUV颜色编码方法获取得到YUV三通道图像；

对YUV三通道图像进行不规则大小m₁×m₂的分块切分，其中m₁是指将图像横坐标切分为m₁块，m₂是指将图像纵坐标切分为m₂块，对I_Y,I_U,I_V图像的m₁×m₂个分块分别做二维DCT变换，即离散余弦变换，实现空域的信号转换到频域上，将YUV三通道的各个分块的DCT变换幅度频谱按照原来分块位置进行拼接得到三维DCT系数。在本实施例中，m₁的值优选为3，m₂的值优选为3。

二维DCT变换具体计算公式为：

其中(i,j)表示图像中像素点的二维坐标，f(i,j）表示该坐标下图像的像素值，N表示图像的宽(本实施例中图像的宽和长相等)，F(u,v)为本实施例提取的DCT系数。

另外，由于DCT变换高度的对称性，可以使用更简单的矩阵处理方式：

F＝AfA^T

其中，F表示DCT系数矩阵，f表示图像像素矩阵，(i,j)表示图像中像素点的二维坐标，N表示图像的宽(本实施例中图像的宽和长相等)；

RGB颜色域转换为亮度-色调-饱和度系统YUV的转换公式如下：

Y＝0.3×R+0.59×G+0.11×B

U＝(B-Y)×0.493

V＝(R-Y)×0.877

其中R，G，B指的是图像每个像素点三个字节的颜色值，也就是该颜色分量的数值。

S5：构建频域特征提取网络，将DCT系数输入频域特征提取网络学习，得到DCT特征F_DCT；

S51：构建频域特征提取网络；

在本实施例中，使用深度卷积神经网络MoileNetv2的Inverted Residual模块作为网络模型的基础模块。如图4所示，频域特征提取网络包括5个Inverted Residuals模块依次相连，然后接1×1普通卷积、平均池化层、Sigmoid激活函数。其中Inverted Residuals模块先是扩展层Expansion layers，即1×1卷积根据超参数扩展因子t做通道维数的提升，激活函数为ReLU，由于ReLU操作会使一些神经元失活，做通道维数的提升可以保留低维特征信息；接着是深度可分离卷积，卷积核大小为(3,3)，激活函数为ReLU，相比普通卷积，深度可分离卷积参数数量小，运行成本低；最后接1×1卷积，且为线性变换，来捕获兴趣流形，防止非线性引起太多信息损失，并将结果映射到低维度，同时每个Inverted Residuals模块都由超参数n决定每层的重复次数。

S52：将DCT系数输入频域特征提取网络学习，得到DCT特征F_DCT；

将三维DCT系数送入上述构建的频域特征提取网络，进行频域特征的学习的训练。设置模型训练参数，训练周期为20，优化器为Adam，初始学习率为0.001，使用Keras中的回调函数ReduceLROnPlateau优化学习率，损失函数设置为交叉熵，训练的批尺寸为32。训练优化网络的参数，训练完成后，保存对于验证集损失最小的模型和权重。导入保存的模型和参数，将频域特征提取网络的最后一层平均池化层预测的1280维输出张量作为学习到的DCT特征F_DCT。

S6：构建短时域模块STB，利用STB提取特征提取区域的梯度图像，输入VGG16网络进行梯度特征F_grad的学习；

如图5所示，短时域模块STB由相邻两帧的特征提取区域分别经过灰度化，采用Sobel算子进行x和y向的一阶差分计算，对x和y方向的一阶差分图像进行加权求和得到一阶梯度图像。将相邻两帧的一阶梯度图像结合灰度差值输入VGG16网络进行梯度特征的学习，选取VGG16作为该支路的基准网络。设置模型训练参数，训练周期为15，优化器为Adam，初始学习率为0.0001，使用Keras中的回调函数ReduceLROnPlateau优化学习率，损失函数设置为交叉熵，训练的批尺寸为32。训练优化网络的参数，训练完成后，保存对于验证集损失最小的模型和权重。导入保存的模型和参数，将VGG16网络的倒数第二层全连接层预测的512维输出张量作为学习到的梯度特征F_grad。

其中x，y方向的Sobel算子如下：

S7：训练阶段，构建并训练长时域模块，生成分类模型；

S71：将颜色特征F_RGB，DCT特征F_DCT和梯度特征F_grad进行特征融合获得单帧特征，分别计算训练集中每个视频选取的连续10帧图像，获得10个单帧特征；

将同一帧图像的特征提取区域的RGB三通道图像输入预训练的Xception进行预测，得到1×1×c₀的颜色特征F_RGB，将该特征提取区域的YUV三通道图像的三维DCT系数输入预训练的频域特征提取网络进行预测，得到1×1×c₁的DCT特征F_DCT。将该特征提取区域的梯度图像输入预训练的VGG16网络进行预测，得到1×1×c₂的梯度特征F_grad。将三个特征进行一维数组的级联融合，得到1×1×(c₀+c₁+c₂)的单帧特征F_frame，该特征将作为后续长时域模块的单个序列输入，在本实施例中，c₀取值为2048，c₁取值为1280，c₂取值为512。选取视频文件夹里面连续的10帧F_n,F_n+1,F_n+2,…,F_n+9，按上述计算单帧特征F_frame的方法，得到3840×10维的时域特征，作为长时域模块的输入。

S72：将长时域模块LTB进行模型训练，计算损失函数并反向传播更新网络权重系数，保存网络的模型和最佳权重。

如图6所示，长时域模块LTB由三层LSTM层接全连接层构成，使模型能学习更高层次的时间表示；第一，二个LSTM层返回完整的输出序列，包含时间步，表示学习到的时间表示；最后一个LSTM层只返回一维输出序列，最后输入2通道的全连接层，采用Softmax激活函数，输出二分类结果，即判断是否为Deepfake视频。本实施例设置模型训练参数为训练周期5，优化器为rmsprop，初始学习率为0.001，使用Keras中的回调函数ReduceLROnPlateau优化学习率，损失函数设置为交叉熵，训练的批尺寸为32。训练优化网络的参数，训练完成后，保存对于验证集损失最小的模型和权重。

S8：模型应用：加载模型训练步骤保存的模型结构和参数作为检测系统的后台模块；将测试集的每个视频都选取连续10帧的，提取10个单帧特征，输入检测系统，预测分类结果。

在本实施例中，加载利用DFD数据库的训练集训练后的Xception网络的模型和权重，频域特征提取网络的模型和权重，VGG16网络模型和权重以及长时域模块的模型和权重作为测试模型进行测试；本实施例Deepfake假脸检测算法的性能指标为半错误率(HalfTotal Error Rate，HTER)和受试者工作特征曲线(Receiver Operating CharacteristicCurve，ROC)下面积(Area Under Curve，AUC)。ROC曲线是根据一系列不同的阈值，以真阳性率为纵坐标，假阳性率为横坐标绘制的曲线。半错误率(HTER)计算公式如下：

其中FAR(False Acceptance Rate)为错误接受率，即算法把Deepfake假脸判别为真实视频人脸的比率；FRR(False Rejection Rate)为错误拒绝率，即算法把真实视频人脸判别为Deepfake假脸的比率。

为了证明本发明的可行性以及检验该方法的泛化性能，将本发明的方法与直接采用RGB图像输入Xception模型的方法进行对比，采用DFD数据库作为训练集，TIMIT，DFD(C23)，FF++(C0)作为测试集。库内以及跨库结果如下表1所示：

表1DFD(C23)数据库训练模型测试结果表

由表1可知，上述实验结果证明，本发明比直接采用RGB图像输入Xception模型的方法的库内HTER降低了2％左右，AUC提高了3％左右。从跨库测试结果观察，本算法比直接采用RGB图像输入Xception模型的方法，在FF++(C0)的跨库检测中HTER降低了7％左右，TIMIT的跨库检测中HTER降低了11％，这说明本发明能有效提升Deepfake假脸检测的泛化性能。同时，在Deepfake假脸检测库内检测上能达到很高的AUC，达到0.99以上，HTER在降低至0.02；这说明本发明在保证库内高准确率的同时，还能保证跨库的准确率，能够有效地提高模型的泛化性能。

本实施例利用频域的DCT特征，结合颜色特征和梯度特征，对单帧图像的篡改痕迹进行学习鉴别；同时再通过篡改视频的时域篡改痕迹不连续，存在抖动的特点，设计了短时域模块获取相邻两帧的时域信息和长时域模块捕获远程时间上的特征上下文，对Deepfake视频进行鉴别，实验结果证明，DCT特征，颜色特征，梯度特征以及多时域模块都能提高Deepfake视频检测系统的性能。

实施例2

本实施例提供一种多时域多特征结合的Deepfake视频检测系统，包括：视频解码采样模块、人脸区域提取模块、颜色特征提取网络模块、DCT变换模块、DCT特征提取网络模块、梯度特征提取网络模块、特征向量构建模块和长时域模块；

在本实施例中，视频解码采样模块用于将各个数据集的视频解码为帧序列，并设定间隔进行采样，保存为帧序列S；

在本实施例中，人脸区域提取模块用于检测帧序列S中各帧的人脸区域，作为特征提取区域；

在本实施例中，颜色特征提取网络模块用于将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习，得到颜色卷积特征F_RGB；

在本实施例中，DCT变换模块用于对特征提取区域进行分块切分，并对YUV三通道图像进行分块DCT变换，得到三维DCT系数；

在本实施例中，DCT特征提取网络模块用于将三维DCT系数输入频域特征提取网络进行预测，得到DCT卷积特征F_DCT，所述频域特征提取网络包括多个Inverted Residuals模块、卷积层和平均池化层；

在本实施例中，梯度特征提取网络模块用于构建短时域模块STB，所述短时域模块STB用于获取相邻两帧的一阶差分图像和灰度差值，输入VGG16网络进行梯度特征学习，得到梯度特征F_grad；

在本实施例中，特征向量构建模块用于将同一帧人脸区域的颜色卷积特征F_RGB、DCT卷积特征F_DCT和梯度特征F_grad进行特征融合获得单帧特征；

在本实施例中，长时域模块包括多层LSTM层和全连接层；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种多时域多特征结合的Deepfake视频检测方法，其特征在于，包括下述步骤：

检测帧序列S中各帧的人脸区域，作为特征提取区域；

2.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法，其特征在于，所述将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习，得到颜色卷积特征F_RGB，具体步骤包括：

3.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法，其特征在于，所述对特征提取区域进行分块切分，并对YUV三通道图像进行分块DCT变换，得到三维DCT系数，具体步骤包括：

读取特征提取区域的RGB三通道图像，获取特征提取区域的YUV三通道图像，得到I_Y，I_U，I_V的图像，对YUV三通道图像进行不规则大小m₁×m₂的分块切分，其中m₁是指将图像横坐标切分为m₁块，m₂是指将图像纵坐标切分为m₂块，对I_Y，I_U，I_V图像的m₁×m₂个分块分别做二维DCT变换，将YUV三通道的各个分块的DCT变换幅度频谱按照原来分块位置进行拼接得到三维DCT系数。

4.根据权利要求3所述的多时域多特征结合的Deepfake视频检测方法，其特征在于，所述二维DCT变换具体计算公式为：

其中，(i，j)表示图像中像素点的二维坐标，f(i，j)表示该坐标下图像的像素值，N表示图像的宽，F(u，v)为提取的DCT系数。

5.根据权利要求3所述的多时域多特征结合的Deepfake视频检测方法，其特征在于，所述二维DCT变换采用矩阵处理方式，具体计算公式为：

F＝AfA^T

其中，F表示DCT系数矩阵，f表示图像像素矩阵，(i，j)表示图像中像素点的二维坐标，N表示图像的宽。

6.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法，其特征在于，所述频域特征提取网络采用5个Inverted Residuals模块依次相连，然后接1×1普通卷积、平均池化层、Sigmoid激活函数；

所述Inverted Residuals模块先是扩展层，激活函数为ReLU，接着是深度可分离卷积，卷积核大小为(3，3)，激活函数为ReLU，最后接1×1卷积，且为线性变换，同时每个InvertedResiduals模块都由超参数决定每层的重复次数。

7.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法，其特征在于，所述将三维DCT系数输入频域特征提取网络进行预测，得到DCT卷积特征F_DCT，具体步骤包括：

设置训练参数、训练周期、优化器和初始学习率；

8.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法，其特征在于，所述短时域模块STB由相邻两帧的特征提取区域分别经过灰度化，采用Sobel算子进行x和y向的一阶差分计算，对x和y方向的一阶差分图像进行加权求和得到一阶梯度图像，将相邻两帧的一阶梯度图像结合灰度差值输入VGG16网络进行梯度特征的学习，设置训练参数，训练完成后保存对于验证集损失最小的模型和权重，将VGG16网络的倒数第二层全连接层预测的输出张量作为学习到的梯度特征F_grad。

9.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法，其特征在于，所述长时域模块包括三层LSTM层和2通道的全连接层，第一LSTM层和第二LSTM层返回完整的输出序列，第三LSTM层只返回一维输出序列，最后输入2通道的全连接层，采用Softmax激活函数，输出二分类结果，即判断是否为Deepfake视频。

10.一种多时域多特征结合的Deepfake视频检测系统，其特征在于，包括：视频解码采样模块、人脸区域提取模块、颜色特征提取网络模块、DCT变换模块、DCT特征提取网络模块、梯度特征提取网络模块、特征向量构建模块和长时域模块；

所述长时域模块包括多层LSTM层和全连接层；