CN112734696A

CN112734696A - 基于多域特征融合的换脸视频篡改检测方法及系统

Info

Publication number: CN112734696A
Application number: CN202011544772.3A
Authority: CN
Inventors: 胡永健; 林育仪; 刘琲贝; 王宇飞
Original assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Current assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-30
Anticipated expiration: 2040-12-24
Also published as: CN112734696B

Abstract

本发明公开了一种基于多域特征融合的换脸视频篡改检测方法及系统，该方法包括下述步骤：数据集划分；视频分帧并选择待测帧序列，提取各帧图像待检测区域；计算检测区域的RGB特征、DFT特征和光流特征图像；构建多路卷积神经网络的卷积特征提取模块；各支路卷积特征输入注意力模块，生成注意力引导特征图；多路注意力引导特征级联融合，输入用于特征分类的全连接层；将特征图像输入多路卷积神经网络进行训练，保存网络模型和最佳权重；利用训练完成后的模型进行预测分类，输出换脸视频篡改检测结果。本发明能够较好地结合视频在空间域、频域以及时域的篡改信息，提高了模型的泛化能力，利用通道注意力机制优化模型对多个领域分类特征的学习。

Description

基于多域特征融合的换脸视频篡改检测方法及系统

技术领域

本发明涉及数字视频的篡改检测技术领域，具体涉及一种基于多域特征融合的换脸视频篡改检测方法及系统。

背景技术

人工智能的发展极大地降低了视频篡改伪造技术的门槛，近年来利用深度网络生成的换脸视频在社交媒体上广泛传播，恶意的视频篡改伪造对个人肖像权和舆论传播造成不良的影响，且随着换脸视频合成效果越来越逼真，换脸视频篡改检测的难度也不断增大，因此，针对换脸视频篡改检测技术的研究具有重要的意义。

现有的换脸视频篡改检测技术主要包括基于传统手工特征、卷积神经网络提取特征、以及卷积神经网络与递归神经网络相结合提取特征等三类方法，其中基于传统手工特征的方法提取视频帧图像的频域特征、生物特征等手工特征输入SVM等传统分类器进行分类，存在特征提取不充分的缺陷，导致分类器检测效果不佳；基于卷积神经网络提取特征的方法将视频单帧图像输入卷积神经网络进行特征提取，但未考虑视频的时域信息，在库内测试可以达到较高的检测效果，但跨库检测性能大幅下降；基于卷积神经网络和递归神经网络结合提取特征的方法将视频帧序列图像输入卷积神经网络进行特征提取，再输入递归神经网络提取特征时域信息，但也存在模型泛化能力不足的问题。

上述方法虽然在一定程度上提升了换脸视频篡改检测的库内检测性能，但存在跨库检测性能不足的问题，降低了方法的实用性和应用价值。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于多域特征融合的换脸视频篡改检测方法及系统，本发明结合视频数据在空间域、频域以及时域的特征，在保证库内较好检测效果的同时，有效降低了模型跨库测试的平均错误率，提高了模型的泛化能力，利用基于注意力机制的多域特征融合方式提取鲁棒特征，优化模型对多个领域分类特征的学习，保证了模型对换脸视频篡改信息的提取能力。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于多域特征融合的换脸视频篡改检测方法，包括下述步骤：

将待测数据集划分为训练集、验证集和测试集；

将各数据集的视频进行分帧，选择待测视频帧序列，提取各帧图像待检测区域；

计算各帧图像检测区域的RGB特征图像；

计算各帧图像检测区域的DFT特征图像；

计算各帧图像检测区域的光流特征图像；

构建多路卷积神经网络的卷积特征提取模块；

将多路卷积神经网络各支路的卷积特征输入注意力模块，生成注意力引导特征图；

将各支路的注意力引导特征进行级联融合，输入用于特征分类的全连接层；

将RGB特征图像、DFT特征图像和光流特征图像输入所述多路卷积神经网络进行模型训练，计算损失函数并反向传播更新网络权重系数，保存网络的模型和最佳权重；

利用训练完成后的多路卷积神经网络进行特征提取和预测分类，输出换脸视频篡改检测结果。

作为优选的技术方案，所述将各数据集的视频进行分帧，选择待测视频帧序列，具体步骤包括：

将各数据集的视频进行分帧，得到视频帧序列图像{f₀,f₁,…,f_N-1}，选择帧序列图像{f₁,…,f_N-1}作为待测视频帧序列，其中N表示单个视频分帧后的总帧数。

作为优选的技术方案，所述提取各帧图像待检测区域，具体步骤包括：

采用视频帧图像的人脸区域作为待检测区域，利用人脸框左上角坐标点(x_t,y_t)和右下角坐标点(x_b,y_b)提取各帧图像的人脸区域作为待处理对象。

作为优选的技术方案，所述计算各帧图像检测区域的RGB特征图像，具体步骤包括：

将各帧图像检测区域I_k使用双线性插值方法统一调整成大小为L_S×L_S×3的RGB图像，并进行归一化，作为各帧图像检测区域的空间域RGB特征图像，其中k为单个视频帧序列号，k∈{1,…,N-1}，N表示单个视频分帧后的总帧数。

作为优选的技术方案，所述计算各帧图像检测区域的DFT特征图像，具体步骤包括：

将各帧图像检测区域I_k进行二维离散傅里叶变换得到傅里叶谱

并将频域低频成分平移到频域中心，求其幅度谱并取对数，调整成大小为L_F×L_F×1的频谱图像，归一化后作为各帧图像检测区域的频域DFT特征图像，其中k为视频帧序列号，k∈{1,…,N-1}，N表示单个视频分帧后的总帧数，L_F表示统一调整后的DFT特征图像的宽和高。

作为优选的技术方案，所述计算各帧图像检测区域的光流特征图像，具体步骤包括：

将计算视频连续前后帧图像检测区域I_k-1和I_k分别调整成大小为L_O×L_O×1的灰度图像，采用Gunnar Farneback算法计算I_k-1和I_k的稠密光流场，可视化成大小为L_O×L_O×3的光流图，并进行归一化，作为各帧图像检测区域的时域光流特征图像，其中，k为视频帧序列号，k∈{1,…,N-1}，N表示单个视频分帧后的总帧数，L_O表示统一调整后的光流特征图像的宽和高。

作为优选的技术方案，所述构建多路卷积神经网络的卷积特征提取模块，具体结构包括三个网络分支，第一部分是RGB特征提取分支，采用Xception作为基准网络，第二部分是DFT特征提取分支，采用Xception作为基准网络，第三部分是光流特征提取分支，采用ResNet50作为基准网络。

作为优选的技术方案，所述将多路卷积神经网络各支路的卷积特征输入注意力模块，生成注意力引导特征图，所述注意力引导特征图的计算公式为：

其中，G_α表示注意力引导特征图，G表示卷积特征图，A(G)表示经过注意力模块后生成的注意力权重图，

表示矩阵逐元素相乘，

表示全局平均池化层，

和

分别表示

和c通道数的全连接层，σ₁表示ReLU激活函数，σ₂表示Sigmoid激活函数。

作为优选的技术方案，所述将各支路的注意力引导特征进行级联融合，输入用于特征分类的全连接层，具体步骤包括：

将各支路注意力引导特征图G_α经过全局平均池化层，输出大小为1×1×c₀的RGB特征向量、大小为1×1×c₁的DFT特征向量和大小为1×1×c₂的光流特征向量，将多路特征向量进行级联融合，生成大小为1×1×(c₀+c₁+c₂)的高维特征向量，最后输入2通道的全连接层，采用Softmax激活函数，输出用于特征分类的2维向量。

本发明提供一种基于多域特征融合的换脸视频篡改检测系统，包括：数据集划分模块、视频数据预处理模块、特征图像计算模块、卷积特征提取构建模块、注意力构建模块、特征融合模块、网络训练模块和检测模块；

所述数据集划分模块用于将数据集划分为训练集、验证集和测试集；

所述视频数据预处理模块用于对视频数据进行分帧预处理，并提取各帧图像人脸检测区域；

所述特征图像计算模块用于计算各帧图像检测区域的RGB特征图像、DFT特征图像和光流特征图像；

所述卷积特征提取构建模块用于构建多路卷积神经网络的卷积特征提取模块，所述多路卷积神经网络的卷积特征提取模块用于提取RGB特征图像、DFT特征图像和光流特征图像的高维语义特征；

所述注意力构建模块用于构建注意力模块，所述注意力模块用于将多路卷积神经网络各支路的卷积特征生成注意力引导特征图；

所述特征融合模块用于将所述多路卷积神经网络各支路的注意力引导特征进行级联融合，并将融合后的高维特征输入全连接层进行特征分类；

所述网络训练模块用于将RGB特征图像、DFT特征图像和光流特征图像输入所述多路卷积神经网络训练，训练完成后保存多路卷积神经网络的模型和最佳权重；

所述检测模块用于通过训练完成后的多路卷积神经网络进行特征提取和预测分类，输出测试样本篡改检测结果。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明将待测数据的RGB特征、DFT特征和光流特征图像输入多路卷积神经网络提取高维度语义特征，通过注意力模块生成各支路的注意力引导特征图，采用级联融合的方式得到高维融合特征用于检测分类，为换脸视频篡改检测提供了一种有效的途径，达到了有效提高模型泛化能力的效果。

(2)本发明采用传统手工特征和深度神经网络结合的方式，提取换脸视频数据在多个领域的篡改痕迹，充分利用了视频数据在空间域、频域和时域的特征信息，在保持库内较好检测效果的同时，有效降低了模型跨库测试的平均错误率。

(3)本发明采用注意力模块生成多路卷积神经网络各支路的注意力引导特征图，并采用级联融合的方式生成高维融合分类特征，通过使用通道注意力机制，优化了模型对多个领域分类特征的学习，保证了模型对换脸视频篡改信息的提取能力。

附图说明

图1为本发明基于多域特征融合的换脸视频篡改检测方法的训练流程图；

图2为本发明基于多域特征融合的换脸视频篡改检测方法的测试流程图；

图3为本发明基于多域特征融合的换脸视频篡改检测方法的模型整体结构示意图；

图4(a)为本发明视频帧图像示意图；

图4(b)为本发明RGB特征图像示意图；

图4(c)为本发明DFT特征图像示意图；

图4(d)为本发明光流特征图像示意图；

图5为本发明注意力模块的网络结构示意图；

图6为本发明训练完成后的模型测试ROC曲线示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

本实施例采用DeepFakeDetection(DFD)、FaceForensics++(FF++)和TIMIT三个换脸视频数据库进行训练和测试，DFD数据库包含1089个真实视频和9204个换脸视频，分为合成压缩率0(C0)、合成压缩率23(C23)和合成压缩率40(C40)三种不同压缩程度的视频，其中真实视频数据来源于28名演员在不同的场景下拍摄组成。FF++数据库包含1000个真实视频和3000个换脸视频，其中由Deepfake篡改方式合成的换脸视频有1000个，分为合成压缩率0(C0)、合成压缩率23(C23)和合成压缩率40(C40)三种不同压缩程度的视频，真实视频数据来源于视频网站YouTube。TIMIT数据库包含559个真实视频和640个换脸视频，换脸视频包括低质量(LQ)和高质量(HQ)两种视频，真实视频数据由43个对象，每个对象分别拍摄13个视频组成。

如下表1所示，上述公开的换脸视频数据库的详细信息如下：

表1换脸视频数据库的详细信息表

	DFD	FF++	TIMIT
				视频来源	相机拍摄	YouTube网站	相机拍摄
分辨率	1920×1080	1280×720	512×384
				拍摄人数	28	-	43
真实视频数量	1089	1000	559
				换脸视频数量	9204	3000	640

本实施例以在DFD(C23)数据库上进行训练，在DFD(C23)数据库上进行库内测试以及FF++(C0)数据库、TIMIT数据库上进行跨库测试为例，详细介绍本实施例实施过程，先将三个数据库分别按照7：2：1的比例划分为训练集、验证集和测试集。本实施例主要基于深度学习框架Keras来实现，实验所用显卡为TITAN XP，系统为Ubuntu16.04，CUDA版本为9.0.176，cudnn版本为7.4.1，OpenCV版本为4.1.2。

如图1、图2和图3所示，本实施例提供一种基于多域特征融合的换脸视频篡改检测方法，包括下述步骤：

S1：将各数据集的视频进行分帧，选择待测视频帧序列；

在本实施例中，使用OpenCV将各数据集的视频数据进行分帧，并保存各帧图像，如图4(a)所示，得到原始的视频帧图像，在每个待测视频帧序列{f₀,f₁,…,f_N-1}中选择帧序列图像{f₁,…,f_N-1}作为待测视频帧序列，其中N表示单个视频分帧后的总帧数。本实施例中利用视频前后连续两帧的帧图像计算光流特征图像，作为后一帧图像的光流特征，因此，为了保证每帧图像都能对应连续两帧间的光流特征图像，本实施例不考虑视频的第1帧图像f₀作为待测帧图像；

S2、提取各帧图像待检测区域作为待处理对象；

在本实施例中，采用视频帧图像的人脸区域作为待检测区域，使用Dlib库中的卷积神经网络检测各帧图像的人脸框左上角坐标点(x_t,y_t)和右下角坐标点(x_b,y_b)，利用坐标点(x_t,y_t)和(x_b,y_b)提取各帧图像的人脸区域作为待处理对象；

S3、计算各帧图像检测区域的RGB(红、绿、蓝三通道图像)特征图像I_S；

如图4(b)所示，在本实施例中，将各帧图像检测区域I_k使用双线性插值方法统一调整成大小为224×224×3的RGB图像，并进行归一化，作为各帧图像检测区域的空间域RGB特征图像I_S，其中k为单个视频帧序列号，k∈{1,…,N-1}，N表示单个视频分帧后的总帧数；

S4、计算各帧图像检测区域的DFT(离散傅里叶变换)特征图像I_F；

由于图像的重采样操作可能会导致图像的频谱失真，因此本实施例在计算各帧图像检测区域I_k的DFT特征图像I_F时，不调整原始帧图像检测区域I_k的大小，而是统一调整傅里叶变换后频谱图像的大小。如图4(c)所示，将各帧图像检测区域I_k进行二维离散傅里叶变换得到傅里叶谱

将频域低频成分平移到频域中心，求其幅度谱并取对数，使用双线性插值方法调整成大小为128×128×1的频谱图像，归一化后作为各帧图像检测区域的频域DFT特征图像I_F,其中k为视频帧序列号，k∈{1,…,N-1}，N表示单个视频分帧后的总帧数，

和I_F的计算公式如下：

其中，I_k(x,y)表示帧图像检测区域I_k在坐标点(x,y)的灰度像素值，x∈{0,…,W-1},y∈{0,…,H-1}，大写W和H分别表示帧图像检测区域的宽和高，

表示I_k(x,y)的离散傅里叶变换，u∈{0,…,W-1},v∈{0,…,H-1}；

S5、计算各帧图像检测区域的光流特征图像I_O；

如图4(d)所示，将视频前后连续两帧图像的检测区域I_k-1和I_k采用双线性插值方法统一调整成大小为224×224×1的灰度图像，采用Gunnar Farneback光流算法计算I_k-1和I_k的稠密光流场，即计算检测区域所有像素点的运动矢量场，可视化成大小为224×224×3的RGB光流图，并进行归一化，作为各帧图像检测区域的时域光流特征图I_O，其中，k表示视频帧序列号，k∈{1,…,N-1}，N表示单个视频分帧后的总帧数，利用OpenCV提供的CalcOpticalFlowFarneback函数实现Gunnar Farneback算法计算稠密光流场，函数参数设置如下：prev输入前一帧图像，next输入后一帧图像，flow为输出的光流，金字塔上下两层间的尺度关系pyr_scale设为0.5，金字塔层数levels设为3，均值窗口大小winsize设为6，迭代次数iterations设为3，像素领域大小ploy_n设为5，高斯标准差poly_sigma设为1.1，计算方法flags设为0；

S6、构建多路卷积神经网络Z的卷积特征提取模块；

在本实施例中，多路卷积神经网络Z的卷积特征提取模块包括三个网络分支，第一部分是RGB特征提取分支，采用输入为224×224×3大小的Xception作为基准网络，第二部分是DFT特征提取分支，采用输入为128×128×1大小的Xception作为基准网络，第三部分是光流特征提取分支，采用输入为224×224×3大小的ResNet50作为基准网络，其中网络参数include_top设为False，即三个网络分支均不包括基准网络结构最后的分类模块；

S7、将多路卷积神经网络Z各支路的卷积特征输入注意力模块，生成注意力引导特征图G_α；

在本实施例中，采用SE(Squeeze-and-Excitation)通道注意力模块，该模块的目的在于通过挤压和激励的方式自适应地调整各通道的特征响应值，以增强重要通道特征。多路卷积神经网络Z各支路最后的卷积特征输出层输出大小为h×w×c的卷积特征图G，小写h、w和c分别表示卷积特征图G的高度、宽度和通道数，将特征图输入SE注意力模块，如图5所示，依次经过全局平均池化层、

通道的全连接层、ReLU激活函数、c通道的全连接层、Sigmoid激活函数，得到大小为1×1×c的注意力通道权重向量，将注意力通道权重向量扩增成大小为h×w×c的注意力权重图A(G)，将卷积特征图G与注意力权重图A(G)相乘输出大小为h×w×c的注意力引导特征图G_α，其中r是一个缩放参数，用于特征通道信息降维，本实施例中r＝16，G_α计算公式如下：

其中，G表示卷积特征图，A(G)表示经过注意力模块后生成的注意力权重图，

表示矩阵逐元素相乘，

表示全局平均池化层，

和

分别表示

和c通道数的全连接层，σ₁表示ReLU激活函数，σ₂表示Sigmoid激活函数，生成数值范围在(0,1)区间的注意力权重图；

S8、将多路卷积神经网络Z各支路的注意力引导特征进行级联融合，输入用于特征分类的全连接层；

将多路卷积神经网络Z各支路生成的注意力引导特征图G_α输入全局平均池化层，输出大小为1×1×2048的RGB特征向量、大小为1×1×2048的DFT特征向量和大小为1×1×2048的光流特征向量，将多路特征向量进行级联融合，生成大小为1×1×6144的高维特征向量，最后输入2通道的全连接层，采用Softmax激活函数，输出用于特征分类的2维向量；

S9、训练阶段，将特征图像[I_S,I_F,I_O]输入多路卷积神经网络Z进行模型训练，计算损失函数并反向传播更新网络权重系数，保存网络的模型和最佳权重；

在本实施例中，将计算得到的RGB特征、DFT特征和光流特征图像[I_S,I_F,I_O]输入多路卷积神经网络Z进行端到端训练，采用Adam优化器作为训练优化器，学习率设置为1×10^-4，一阶矩估计的指数衰减率beta_1为0.9，二阶矩估计的指数衰减率beta_2为0.999，防止在实现中除以零的模糊因子epsilon为1×10^-8，学习率下降decay为0.0。采用交叉熵损失函数作为训练损失函数，以最小化损失函数为目的迭代更新网络权重系数；

为了避免过拟合，本实施例采用提前停止策略，分为两个训练阶段，根据经验，设定第一阶段的验证集损失值最大持续上升次数阈值e₁＝6，第二阶段的验证集损失值最大持续上升次数阈值e₂＝10，当第一阶段的验证集损失值持续上升次数达到所设阈值e₁时，将学习率降低为1×10^-6进行第二阶段训练，当第二阶段的验证集损失值持续上升次数达到所设阈值e₂时终止模型训练，保存最小损失值的权重作为网络最佳权重；

S10、测试阶段，利用训练完成后的多路卷积神经网络Z进行特征提取和预测分类，输出测试集样本篡改检测结果；

在本实施例中，加载利用DFD(C23)数据库的训练集训练后的多路卷积神经网络Z的模型和权重，利用DFD(C23)数据库的验证集计算判决阈值T，分别预测DFD(C23)、FF++(C0)和TIMIT三个数据库的测试集数据，根据判决阈值T计算库内和跨库的平均错误率HTER，根据各个测试集的样本预测结果绘制ROC曲线并计算AUC值；

采用等错误率(Equal Error Rate，EER)准则确定判决阈值T，利用验证集数据的模型预测概率和标签，计算不同阈值下的虚警率(False Alarm Rate，FAR)和漏检率(FalseNegative Rate，FNR)，当满足虚警率等于漏检率时，达到等错误率状态，记录当前阈值为判决阈值T，本实施例中判决阈值T＝0.2505，其中FAR和FNR计算公式如下：

其中，V_FP表示验证集真实人脸被误判为篡改人脸的图片数，V_TN表示验证集真实人脸被判断为真实人脸的图片数，V_FN表示验证集篡改人脸被误判为真实人脸的图片数，V_TP表示验证集篡改人脸被判断为篡改人脸的图片数；

采用平均错误率(Half Total Error Rate，HTER)和受试者工作特征曲线(Receiver Operating Characteristic Curve，ROC)下面积(Area Under Curve，AUC)作为算法评价指标，HTER为判决阈值T下虚警率和漏检率的平均值，HTER值越小，表明模型的检测效果越好，ROC曲线是以样本预测概率为阈值计算不同阈值下的假正例率(FalsePositive Rate，FPR)和真正例率(True Positive Rate，TPR)，并以FPR为横坐标，TPR为纵坐标绘制的曲线，AUC为ROC曲线下方的面积，AUC值越大，表明分类器的效果越好，其中HTER、FPR和TPR具体计算公式如下：

其中，T_FP表示测试集真实人脸被误判为篡改人脸的图片数，T_FN表示测试集篡改人脸被误判为真实人脸的图片数，T_TN表示测试集真实人脸被判断为真实人脸的图片数，T_TP表示测试集篡改人脸被判断为篡改人脸的图片数；

本实施例在DFD(C23)数据库上训练模型的库内和跨库测试结果如下表2所示，如图6所示，得到训练完成后的模型测试ROC曲线图。

表2DFD(C23)数据库训练模型测试结果表

由表2可知，本实施例在DFD(C23)数据库上训练模型的库内测试平均错误率为1.6％，AUC面积为99.9％，库内测试平均错误率较低，AUC值较高，表现出较好的库内测试结果；在FF++(C0)数据库上平均错误率为8.3％，AUC面积为97.5％，在TIMIT数据库上平均错误率为13.4％，AUC面积为93.2％，跨库测试平均错误率较低，AUC值较高，表现出较好的跨库测试结果，验证了本实施例方法的有效性。

本实施例采用传统手工特征和深度神经网络结合的方式，提取换脸视频数据在多个领域的篡改痕迹，充分利用了视频数据在空间域、频域和时域的特征信息，在保持库内较好检测效果的同时，有效降低了模型跨库测试的平均错误率。本实施例采用基于注意力机制的多域特征融合方式提取鲁棒特征，优化了模型对多个领域分类特征的学习，保证了模型对换脸视频篡改信息的提取能力，上述实验结果证明，本实施例在DFD(C23)数据库上的库内和跨库测试性能良好，有效提高了模型的泛化能力。

本实施例还提供一种基于多域特征融合的换脸视频篡改检测系统，包括：数据集划分模块、视频数据预处理模块、特征图像计算模块、卷积特征提取构建模块、注意力构建模块、特征融合模块、网络训练模块和检测模块；

在本实施例中，数据集划分模块用于将数据集划分为训练集、验证集和测试集；

在本实施例中，视频数据预处理模块用于对视频数据进行分帧预处理，并提取各帧图像人脸检测区域；

在本实施例中，特征图像计算模块用于计算各帧图像检测区域的RGB特征图像、DFT特征图像和光流特征图像；

在本实施例中，卷积特征提取构建模块用于构建多路卷积神经网络的卷积特征提取模块，所述多路卷积神经网络的卷积特征提取模块用于提取RGB特征图像、DFT特征图像和光流特征图像的高维语义特征；

在本实施例中，注意力构建模块用于构建注意力模块，所述注意力模块用于将多路卷积神经网络各支路的卷积特征生成注意力引导特征图；

在本实施例中，特征融合模块用于将所述多路卷积神经网络各支路的注意力引导特征进行级联融合，并将融合后的高维特征输入全连接层进行特征分类；

在本实施例中，网络训练模块用于将RGB特征图像、DFT特征图像和光流特征图像输入所述多路卷积神经网络训练，训练完成后保存多路卷积神经网络的模型和最佳权重；

在本实施例中，检测模块用于通过训练完成后的多路卷积神经网络进行特征提取和预测分类，输出测试样本篡改检测结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多域特征融合的换脸视频篡改检测方法，其特征在于，包括下述步骤：

将待测数据集划分为训练集、验证集和测试集；

计算各帧图像检测区域的RGB特征图像；

计算各帧图像检测区域的DFT特征图像；

计算各帧图像检测区域的光流特征图像；

构建多路卷积神经网络的卷积特征提取模块；

2.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法，其特征在于，所述将各数据集的视频进行分帧，选择待测视频帧序列，具体步骤包括：

将各数据集的视频进行分帧，得到视频帧序列图像{f₀，f₁，…，f_N-1}，选择帧序列图像{f₁，…，f_N-1}作为待测视频帧序列，其中N表示单个视频分帧后的总帧数。

3.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法，其特征在于，所述提取各帧图像待检测区域，具体步骤包括：

采用视频帧图像的人脸区域作为待检测区域，利用人脸框左上角坐标点(x_t，y_t)和右下角坐标点(x_b，y_b)提取各帧图像的人脸区域作为待处理对象。

4.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法，其特征在于，所述计算各帧图像检测区域的RGB特征图像，具体步骤包括：

将各帧图像检测区域I_k使用双线性插值方法统一调整成大小为L_S×L_S×3的RGB图像，并进行归一化，作为各帧图像检测区域的空间域RGB特征图像，其中k为单个视频帧序列号，k∈{1，…，N-1}，N表示单个视频分帧后的总帧数。

5.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法，其特征在于，所述计算各帧图像检测区域的DFT特征图像，具体步骤包括：

并将频域低频成分平移到频域中心，求其幅度谱并取对数，调整成大小为L_F×L_F×1的频谱图像，归一化后作为各帧图像检测区域的频域DFT特征图像，其中k为视频帧序列号，k∈{1，…，N-1}，N表示单个视频分帧后的总帧数，L_F表示统一调整后的DFT特征图像的宽和高。

6.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法，其特征在于，所述计算各帧图像检测区域的光流特征图像，具体步骤包括：

将计算视频连续前后帧图像检测区域I_k-1和I_k分别调整成大小为L_O×L_O×1的灰度图像，采用Gunnar Fameback算法计算I_k-1和I_k的稠密光流场，可视化成大小为L_O×L_O×3的光流图，并进行归一化，作为各帧图像检测区域的时域光流特征图像，其中，k为视频帧序列号，k∈{1，…，N-1}，N表示单个视频分帧后的总帧数，L_O表示统一调整后的光流特征图像的宽和高。

7.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法，其特征在于，所述构建多路卷积神经网络的卷积特征提取模块，具体结构包括三个网络分支，第一部分是RGB特征提取分支，采用Xception作为基准网络，第二部分是DFT特征提取分支，采用Xception作为基准网络，第三部分是光流特征提取分支，采用ResNet50作为基准网络。

8.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法，其特征在于，所述将多路卷积神经网络各支路的卷积特征输入注意力模块，生成注意力引导特征图，所述注意力引导特征图的计算公式为：

表示矩阵逐元素相乘，

表示全局平均池化层，

和

分别表示

9.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法，其特征在于，所述将各支路的注意力引导特征进行级联融合，输入用于特征分类的全连接层，具体步骤包括：

10.一种基于多域特征融合的换脸视频篡改检测系统，其特征在于，包括：数据集划分模块、视频数据预处理模块、特征图像计算模块、卷积特征提取构建模块、注意力构建模块、特征融合模块、网络训练模块和检测模块；