CN115273186A

CN115273186A - 基于图像特征融合的深度伪造人脸视频检测方法及系统

Info

Publication number: CN115273186A
Application number: CN202210843607.0A
Authority: CN
Inventors: 赖志茂
Original assignee: China People's Police University
Current assignee: China People's Police University
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-11-01

Abstract

本发明公开了一种基于图像特征融合的深度伪造人脸视频检测方法,该方法包括下述步骤：先对视频分帧；提取待测视频的人脸区域获得人脸图像；对待测人脸图像的空域数据、频域数据及PLGF图分别进行预处理操作，且以一个统一相同的尺寸要求结果为目的分别进行调整，获取到人脸图像空域特征、人脸图像频域特征和人脸图像PLGF特征；将上述特征采用网络结构进行拼接融合，输入双层LSTM网络结构，提取得到最终的融合特征，再输入用于分类的全连接层；最后经过Softmax激活函数输出判断。本发明采用不同信息域数据预处理方式，再进行融合特征，在保证库内较好检测效果的同时，还显著降低了跨库检测的平均错误率，该方法提升了检测器的泛化能力，具有较强的鲁棒性。

Description

基于图像特征融合的深度伪造人脸视频检测方法及系统

技术领域

本发明涉及深度伪造视频检测技术领域，具体涉及一种基于图像特征融合的深度伪造人脸视频检测方法一种基于图像特征融合的深度伪造人脸视频检测方法及系统。

背景技术

生成式深度学习算法的发展，驱动了以深度伪造(DeepFake)为代表的人脸图像和视频伪造技术在互联网快速流行。现阶段，深度伪造技术反取证能力不断增强，向具有高逼真度和对抗性的方向发展，检测能力跟不上伪造能力的演进速度，检测结果的可靠性与泛化能力不足以支撑现实的应用。为减轻深度伪造人脸视频的危害，国内外研究者提出了多种不同的检测取证方法，然而这些方法普遍存在跨库检测性能较差的问题。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于图像特征融合的深度伪造人脸视频检测方法一种基于图像特征融合的深度伪造人脸视频检测方法及系统，本发明融合人脸视频的空域、频域、PLGF(Pattern of Local Gravitational Force)等多种特征信息，同时还利用双层LSTM网络进一步增加时域上的信息，在保证库内较好检测效果的同时，还显著降低了跨库检测的平均错误率。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于图像特征融合的深度伪造人脸视频检测方法，该方法包括下述步骤：

使用FFmpeg工具对视频进行分帧，按一定频率采样提取各帧人脸区域获得待测人脸图像；

对待测人脸图像的空域数据、频域数据和PLGF图分别进行预处理操作，且以一个统一相同的尺寸要求结果为目的分别进行调整，获取到人脸图像空域特征、人脸图像频域特征和人脸图像PLGF特征；

将上述3个支路的特征采用网络结构进行拼接融合，输入双层LSTM网络结构，提取得到最终的融合特征，再输入用于分类的全连接层；最后经过 Softmax激活函数输出，判断视频是否为深度伪造视频。

所述获得待测人脸图像，具体步骤包括：

使用FFmpeg工具对训练集和测试集的视频进行分帧，得到视频帧系列图像，然后利用Python中DLib机器学习库的人脸提取模型提取待测视频的人脸区域获得人脸图像，该人脸图像以I表示，为具有R、G、B三个颜色通道，且尺寸不定的图像，或利用RetinaFace人脸检测网络进行人脸区域提取。

所述对待测人脸图像的空域数据进行预处理操作，输入空域特征提取网络，获取得到人脸图像空域特征，具体步骤包括：

在提取空域特征时，需要对I进行双线性插值，将其尺寸调整为224×224 ×3，并进行归一化，将得到的空域图像记为I_S作为提取空域特征的分支网络的输入，然后输入Xception网络进行特征提取，或采用ResNet-50网络结构，获取得到2048维人脸图像空域特征。

所述对待测人脸图像的频域数据进行预处理操作，输入频域特征提取网络，获取得到人脸图像频域特征，具体步骤包括：

在提取频域特征时，首先需要对I中各通道进行DFT变换，并将低频分量移到中心，得到各颜色通道的频谱图，假设R通道(x,y)位置的幅值为AR (x,y)，则频域图像对应位置的数值如下式所示：

其中x∈[0,W-1],y∈[0,H-1]为位置坐标，W为人脸图像I的宽，H为人脸图像I的高，A^R(x,y)∈[0,255]，其他位置的数值以此类推，其后对各通道的频域图像均利用双线性插值方法将尺寸调整为224×224，最终得到尺寸为224× 224×3的频域图像IF作为提取频域特征的分支网络的输入，然后输入 Xception网络或采用ResNet-50网络结构进行特征提取，获取得到2048维人脸图像频域特征。

所述对待测人脸图像的PLGF图进行预处理操作，输入PLGF图特征提取网络，获取得到人脸图像PLGF特征，具体步骤包括：

在提取PLGF图特征时，首先将I中三个颜色通道在水平方向和垂直方向分别与PLGF算子进行卷积得到水平梯度G_hor和垂直梯度G_ver，PLGF卷积具体表达如下式所示：

其中，f_hor和f_ver分别为局部重力模式(PLGF)的水平方向和垂直方向的3× 3卷积核，x∈[0,W-1],y∈[0,H-1]为位置坐标，W为人脸图像I的宽，H为人脸图像I的高，I[x，y]为坐标[x，y]的像素值，I[x，y]∈[0,255],G_d[x，y]为坐标(x，y) 的方向梯度；

然后根据朗伯模型，对水平方向和垂直方向的梯度进行光照分离得到水平光照分离梯度ISG_hor和垂直光照分离梯度ISG_ver，光照分离进行的操作是将梯度除以加上防止除零的极小值的自身像素值，由于在很小的区域内光照强度变化缓慢为恒值L，则消除光照分量L得到仅与反射系数相关的人脸材质性特征，具有丰富的纹理信息，作为检测人脸真伪的有效特征，光照分离具体表达如下列式子所示：

其中x∈[0,W-1],y∈[0,H-1]为位置坐标，W为人脸图像I的宽，H为人脸图像I的高；

接着对水平方向和垂直方向的光照分离梯度进行线性激活操作得到合成梯度ISG，组成PLGF图，如下式所示：

最后对各通道的PLGF图进行双线性插值，将其尺寸调整为224×224，得到最终的PLGF输入图像IP，然后输入Xception网络进行提取，或采用ResNet-50 网络结构，获取得到2048维人脸图像PLGF特征。

其输入双层LSTM网络结构，提取得到最终的融合特征，包括如下:

在通过特征提取网络从空域、频域及PLGF提取3个2048维特征后，将提取的特征进行拼接融合，得到6144维的特征，接着将10帧人脸图像的6144维融合特征输入双层LSTM网络结构，提取得到最终的512维融合特征；

其第一层LSTM的输出含有10个时间步，输出的特征再送入第二层LSTM，第二层LSTM输入为512维特征，输出为只含1个时间步的512维特征。

其输入用于分类的全连接层，以最后512维特征通过一个全连接层，输出2 维的向量，再经过Softmax激活函数输出视频所含人脸为真实人脸或伪造人脸的二分类结果。

一种用于上述的图像特征融合的深度伪造人脸视频检测方法的系统，其特征在于，由图像特征融合的深度伪造人脸视频检测方法顺序形成的系统，包括：所述系统包括数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模块、Xception特征提取构建模块、特征融合模块、网络模型参数训练模块和预测分类模块，由数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模块、Xception特征提取构建模块、特征融合模块、网络模型参数训练模块和预测分类模块依检测方法依次连接；

所述数据集划分模块用于将数据集按7:2:1的比例划分为训练集、验证集和测试集；

所述人脸图像区域提取模块用于对视频数据分帧处理，并提取人脸区域获得待测人脸图像；

所述不同信息域的数据预处理模块用于待测人脸图像的空域图像IS、频域图像IF和PLGF图像IP；

所述Xception特征提取构建模块用于提取得到2048维空域特征、2048维频域特征和2048维PLGF特征；

所述特征融合模块用于将提取的不同信息域特征进行拼接融合得到6144维特征，并输入双层LSTM网络结构，提取得到最终的512维融合特征，然后输入用于分类的全连接层；

所述网络模型参数训练模块用于计算损失函数并利用Adam方法进行优化，更新权重参数，保存最佳模型参数；

所述预测分类模块用于采用训练完成后的网络对待测视频进行预测分类，判断视频是否为深度伪造视频。

一种存储介质，存储有程序，所述程序被处理器执行时实现如权利要求 1-7任一项所述图像特征融合的深度伪造人脸视频检测方法。

一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现如上述图像特征融合的深度伪造人脸视频检测方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明采用不同信息域数据预处理方式，得到人脸视频的空域、频域、PLGF等多种特征信息，再进行融合，充分提取深度伪造视频的篡改痕迹，在保证库内较好检测效果的同时，还显著降低了跨库检测的平均错误率。

(2)本发明融合了人脸视频的空域、频域、PLGF等多种特征信息，同时还利用双层LSTM网络进一步增加时域上的信息，提升了检测方法的泛化能力。

(3)本发明在拼接融合特征之后进一步利用双层LSTM网络时域上的特征信息，为深度伪造视频检测提供了一种有效途径。

附图说明

图1为本发明基于图像特征融合的深度伪造人脸视频检测方法的流程示意图；

图2为本发明基于图像特征融合的深度伪造人脸视频检测方法的网络整体框架示意图；

图3为本发明基于图像特征融合的深度伪造人脸视频检测方法所用的 Xception网络结构图；

图4为本发明基于图像特征融合的深度伪造人脸视频检测方法所用的双层 LSTM网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

本实施例实验使用Nvidia的GTX1080Ti显卡，其显存为11GB。操作系统环境为Ubuntu 14.04，编程语言为Python 3.6，深度学习框架是以TensorFlow 1.14为后台的Keras 2.2.5。

本实施例在公开数据集FaceForensics++(FF++)、DeepFakeDetection (DFD)和TIMIT三个视频数据库进行实验。FaceForensics++数据库视频收集于YouTube视频网站，包含1000个真实人物视频，采用了4种人脸伪造技术(DeepFake、Face2Face、FaceSwap和NeuralTextures)生成4种类型的人脸伪造视频，每个种类的伪造视频数量为1000个。同时，FaceForensics++数据库视频还使用H.264将视频压缩成无损视频、高质量视频和低质量视频，分别对应压缩率是0、23和40，用于模拟视频在实际传输过程中存在的压缩情况。DeepFakeDetection数据库包含1089个原始视频和9204个伪造视频，背景更加丰富，人物的面部表情更加多样。与FaceForensics++数据库类似， DeepFakeDetection数据库也将视频按压缩率的不同分为C0，C23和C40三种。 TIMIT数据库是利用开源的人脸替换算法生成的人脸伪造视频。该数据库从 VIDTIMIT数据库中选取了具有相似面部特征的16对人脸生成伪造视频，每个视频具有两种不同分辨率大小的版本。训练时将数据库按7:2:1的比例划分为训练集、验证集和测试集，训练样本的批尺寸设置为32。

如图1、图2、图3和图4所示，本实施例基于图像特征融合的深度伪造人脸视频检测方法，包括下述步骤：

S1：获得检测人脸区域图像；

在本实施例中,首先使用FFmpeg工具对训练集和测试集的视频进行分帧，得到视频帧系列图像，然后利用Python中DLib机器学习库的人脸提取模型提取待测视频的人脸区域获得人脸图像。该人脸图像以I表示，为具有R、G、B 三个颜色通道，且尺寸不定的图像。

S2:不同信息域的数据预处理

在本实施例中,在提取空域特征时，需要对I进行双线性插值，将其尺寸调整为224×224×3，并进行归一化，将得到的空域图像记为IS作为提取空域特征的分支网络的输入。然后输入Xception网络进行提取，采用ResNet-50网络结构提取，获取得到2048维人脸图像空域特征。

在本实施例中,在提取频域特征时，首先需要对I中各通道进行DFT变换，并将低频分量移到中心，得到各颜色通道的频谱图。假设R通道(x,y)位置的幅值为AR(x,y)，则频域图像对应位置的数值如下式所示：

其中

表示I的R通道频谱图像在(x,y)位置的幅值， x∈[0,W-1],y∈[0,H-1]为位置坐标，W为人脸图像I的宽，H为人脸图像I的高，A^R(x,y)∈[0,255]。其他通道的数值以此类推。其后对各通道的频域图像均利用双线性插值方法将尺寸调整为224×224，最终得到尺寸为224×224×3 的频域图像IF作为提取频域特征的分支网络的输入。然后输入Xception网络进行提取，或采用ResNet-50网络结构提取，获取得到2048维人脸图像频域特征。

在本实施例中,在提取PLGF图特征时，首先将I中三个颜色通道在水平方向和垂直方向分别与PLGF算子进行卷积得到水平梯度G_hor和垂直梯度G_ver。 PLGF卷积具体表达如下式所示：

其中，f_hor和f_ver分别为局部重力模式(PLGF)的水平方向和垂直方向的3×3卷积核，x∈[0,W-1],y∈[0,H-1]为位置坐标，W为人脸图像I的宽，H为人脸图像I的高，I[x，y]为坐标(x，y)的像素值，I[x，y]∈[0,255],G_d[x，y]为坐标(x，y)的方向梯度；u和v的取值是-1到1。 I[x，y]为坐标(x，y)的像素值,G_d[x，y]为坐标(x，y)的方向梯度。

然后根据朗伯模型，对水平方向和垂直方向的梯度进行光照分离得到水平光照分离梯度ISG_hor和垂直光照分离梯度ISG_ver。光照分离进行的操作是将梯度除以加上防止除零的极小值的自身像素值，由于在很小的区域内光照强度变化缓慢为恒值L，则可以消除光照分量L得到仅与反射系数相关的人脸材质性特征，具有丰富的纹理信息，可以作为检测人脸真伪的有效特征。光照分离具体表达如下列式子所示：

其中x∈[0,W-1],y∈[0,H-1]为位置坐标，W为人脸图像I的宽，H为人脸图像I的高。接着对水平方向和垂直方向的光照分离梯度进行线性激活操作得到合成梯度ISG，组成PLGF图，如下式所示：

其中x∈[0,W-1],y∈[0,H-1]为位置坐标，W为人脸图像I的宽，H为人脸图像I的高。最后对各通道的PLGF图进行双线性插值，将其尺寸调整为224× 224，得到最终的PLGF输入图像IP。然后输入Xception网络进行提取，或采用 ResNet-50网络结构提取，获取得到2048维人脸图像PLGF特征。

在本实施例中,对于待检测的视频，按每5帧采样一次的频率进行下采样，得到实际用于检测的帧图像，以避免相邻检测帧中人脸图像过于相近，导致冗余信息过多。对下采样后得到的帧图像按前述方法进行处理，得到各帧对应的 IS、IF及IP，即完成了对相应的数据预处理工作。

S3:Xception网络特征提取

如图3所示，在本实施例中,由于作为网络输入的IS、IF及IP尺寸完全一致，因此用于提取人脸图像的空域、频域和PLGF特征的Xception网络也具有相同的结构。检测方法所用到的Xception网络结构中的Conv表示通常的卷积层，SeparableConv表示深度可分离卷积层，3×3和1×1表示卷积核或池化核的尺寸，stride＝2×2表示卷积核或池化核的滑动步长为2，若无特别指出则滑动步长默认为1。

S4：双层LSTM时域特征提取网络

如图4所示，在本实施例中,在通过上述Xception网络从空域、频域及 PLGF提取3个2048维特征后，将提取的特征进行拼接融合，得到6144维的特征。其是通过将连续多帧的前述三种特征向量拼接融合输入LSTM网络结构进行提取人脸图像的时域特征。接着将10帧人脸图像的6144维融合特征输入双层 LSTM网络结构，提取得到最终的512维融合特征，并通过全连接层输出真实人脸和伪造人脸的二分类结果。

该部分网络结构要求如图6所示。图中第一层LSTM输入为6144维特征，输出为512维特征，对原本分开的各领域特征进行了进一步融合。第一层LSTM 的输出含有10个时间步，输出的特征再送入第二层LSTM。第二层LSTM输入为 512维特征，输出为只含1个时间步的512维特征，即为融合了人脸图像空域、频域、PLGF及时域信息的特征。最后512维特征通过一个全连接层，输出2维的向量，再经过Softmax激活函数，学习率设置为0.0001，一阶矩指数衰减率设置为0.9，二阶矩指数衰减率设置为0.999，输出视频所含人脸为真实人脸或伪造人脸的二分类结果。

其整体步骤为使用FFmpeg工具对视频分帧；利用Python中Dlib机器学习库的人脸提取模型提取待测视频的人脸区域获得人脸图像；利用Xception网络从人脸空域图像中直接提取人脸图像的空域特征；对人脸图像进行离散傅里叶变换得到对应的频谱图，再通过Xception网络或ResNet-50网络从频谱图中提取得到人脸图像的频域特征；采用公式计算人脸图像的PLGF(Pattern of Local Gravitational Force)图，再通过Xception网络从PLGF图中提取人脸图像的 PLGF特征；通过将连续多帧的前述三种特征向量拼接融合输入LSTM网络结构进行提取人脸图像的时域特征。最终LSTM网络结构输出的特征融合了人脸图像空域、频域、PLGF及时域4个信息域的信息，用于最终的全连接层、Softmax激活函数输出得出分类检测。本发明基于图像特征融合方法对深度伪造人脸视频进行检测，经过实验验证表明，该方法提升了检测器的泛化能力，具有较强的鲁棒性。

通过上述步骤方法检测，实验结果通过半总错误率(Half Total Error Rate，HTER)来作为评价指标，为算法在判决阈值下虚警率和漏检率的平均值。其中FAR(FalseAcceptance Rate)指的是错误接受率，也就是算法把换脸人脸判断为真实人脸的比率，FRR(False Rejection Rate)指的是错误拒绝率，也就是算法把真实人脸判断为换脸人脸的比率，其中N_f2t指的是将换脸人脸判断为真实人脸的次数，N_f指的是换脸人脸总的攻击次数，N_t2f指的是将真实人脸判断为换脸人脸的次数，N_t指的是真实人脸总的检测次数。HTER越低，则算法的性能越好。具体定义如下式所示：

在本实施例中，分别在DFD(C23)数据库和FF++(C0及C23)数据库上进行训练，然后在DFD(C23)数据库、FF++(C0)数据库、FF++(C23)数据库和 TIMIT数据库上进行测试，并选择HTER作为算法评价指标。实验结果如表1及表2所示。

表1 DFD(C23)数据库训练模型的性能比较(％)

表2 FF++(C0及C23)数据库训练模型的性能比较(％)

由表1及表2可见，本实施例在以DFD(C23)数据库作为训练样本时，在库内检测和大部分跨库检测时具有最佳的性能。而在以FF++(C0及C23)数据库作为训练样本时，展示出算法的鲁棒性与泛化能力。

本实施例还提供一种基于图像特征融合的深度伪造人脸视频检测系统，包括：数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模块、Xception特征提取构建模块、特征融合模块、网络模型参数训练模块和预测分类模块；由数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模块、Xception特征提取构建模块、特征融合模块、网络模型参数训练模块和预测分类模块依检测方法依次连接。

在本实施例中，数据集划分模块用于将数据集按7:2:1的比例划分为训练集、验证集和测试集；人脸图像区域提取模块用于对视频数据分帧处理，并提取人脸区域获得待测人脸图像；不同信息域的数据预处理模块用于待测人脸图像的空域图像IS、频域图像IF和PLGF图像IP；Xception特征提取构建模块用于提取得到2048维空域特征、2048维频域特征和2048维PLGF特征；特征融合模块用于将提取的不同信息域特征进行拼接融合得到6144维特征，并输入双层 LSTM网络结构，提取得到最终的512维融合特征，然后输入用于分类的全连接层；网络模型参数训练模块用于计算损失函数并利用Adam方法进行优化，更新权重参数，保存最佳模型参数；预测分类模块用于采用训练完成后的网络对待测视频进行预测分类，判断视频是否为深度伪造视频。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，该方法包括下述步骤：

将上述3个支路的特征采用网络结构进行拼接融合，输入双层LSTM网络结构，提取得到最终的融合特征，再输入用于分类的全连接层；最后经过Softmax激活函数输出，判断视频是否为深度伪造视频。

2.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，所述获得待测人脸图像，具体步骤包括：

3.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，所述对待测人脸图像的空域数据进行预处理操作，输入空域特征提取网络，获取得到人脸图像空域特征，具体步骤包括：

在提取空域特征时，需要对I进行双线性插值，将其尺寸调整为224×224×3，并进行归一化，将得到的空域图像记为I_S作为提取空域特征的分支网络的输入，然后输入Xception网络进行特征提取，或采用ResNet-50网络结构，获取得到2048维人脸图像空域特征。

4.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，所述对待测人脸图像的频域数据进行预处理操作，输入频域特征提取网络，获取得到人脸图像频域特征，具体步骤包括：

在提取频域特征时，首先需要对I中各通道进行DFT变换，并将低频分量移到中心，得到各颜色通道的频谱图，假设R通道(x,y)位置的幅值为AR(x,y)，则频域图像对应位置的数值如下式所示：

其中x∈[0,W-1],y∈[0,H-1]为位置坐标，W为人脸图像I的宽，H为人脸图像I的高，A^R(x,y)∈[0,255]，其他位置的数值以此类推，其后对各通道的频域图像均利用双线性插值方法将尺寸调整为224×224，最终得到尺寸为224×224×3的频域图像IF作为提取频域特征的分支网络的输入，然后输入Xception网络或采用ResNet-50网络结构进行特征提取，获取得到2048维人脸图像频域特征。

5.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，所述对待测人脸图像的PLGF图进行预处理操作，输入PLGF图特征提取网络，获取得到人脸图像PLGF特征，具体步骤包括：

其中，f_hor和f_ver分别为局部重力模式(PLGF)的水平方向和垂直方向的3×3卷积核，x∈[0,W-1],y∈[0,H-1]为位置坐标，W为人脸图像I的宽，H为人脸图像I的高，I[x，y]为坐标(x，y)的像素值，I[x，y]∈[0,255],G_d[x，y]为坐标(x，y)的方向梯度；

最后对各通道的PLGF图进行双线性插值，将其尺寸调整为224×224，得到最终的PLGF输入图像IP，然后输入Xception网络进行提取，或采用ResNet-50网络结构，获取得到2048维人脸图像PLGF特征。

6.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，其输入双层LSTM网络结构，提取得到最终的融合特征，包括如下:

7.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，其输入用于分类的全连接层，以最后512维特征通过一个全连接层，输出2维的向量，再经过Softmax激活函数输出视频所含人脸为真实人脸或伪造人脸的二分类结果。

8.一种用于如权利要求1～7任一所述的图像特征融合的深度伪造人脸视频检测方法的系统，其特征在于，由图像特征融合的深度伪造人脸视频检测方法顺序形成的系统，包括：所述系统包括数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模块、Xception特征提取构建模块、特征融合模块、网络模型参数训练模块和预测分类模块，由数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模块、Xception特征提取构建模块、特征融合模块、网络模型参数训练模块和预测分类模块依检测方法依次连接；

9.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7任一项所述图像特征融合的深度伪造人脸视频检测方法。

10.一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现如权利要求1-7任一项所述图像特征融合的深度伪造人脸视频检测方法。