CN114387641A

CN114387641A - 基于多尺度卷积网络和ViT的虚假视频检测方法及系统

Info

Publication number: CN114387641A
Application number: CN202111573856.4A
Authority: CN
Inventors: 林浩; 骆伟祺
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-22

Abstract

本发明提出一种基于多尺度卷积网络和ViT的虚假视频检测方法及系统，虚假视频检测的技术领域，首先对待检测数据集进行处理得到视频帧序列，识别并提取待检测视频数据集视频帧序列中图像的人脸区域，然后搭建基于多尺度卷积网络和ViT的虚假视频检测模型，基于该模型准确提取人脸特征，同时融合人脸区域的不同尺度信息，其中，多尺度特征提取模块通过学习低质量虚假视频中图像的边缘信息，得到整个人脸图片的多尺度特征，利用ViT代替作为分类的全局平均池化和全连接层，提高了低质量虚假视频的检测准确率和检测性能。

Description

基于多尺度卷积网络和ViT的虚假视频检测方法及系统

技术领域

本发明涉及虚假视频检测的技术领域，更具体地，涉及一种基于多尺度卷积网络和ViT的虚假视频检测方法及系统。

背景技术

Deepfake视频篡改技术是由深度网络模型生成假脸，再由生成的假脸替换真实视频中人脸的一种篡改技术。随着换脸技术的升级及相关应用的开源，换脸用途也从最初的娱乐逐渐演变成犯罪工具，对人们的名誉和社会的安定形成潜在的威胁，因此，针对Deepfake虚假视频的检测刻不容缓，具有极大的现实意义。

当前，大多数Deepfake虚假视频检测技术通常利用单流卷积神经网络来提取虚假视频帧的人脸特征，获取其高维人脸特征图，然后使用全局平均池化和全连接来实现分类，以区分真实视频及虚假视频。

现有技术中公开了一种视频虚假人脸检测方法及电子装置，方法中提到：首先对待检测视频进行人脸定位，得到人脸序列，然后对人脸序列进行预处理，得到指定大小和长度的视频采样帧序列，将视频采样帧序列输入训练好的三维残差学习卷积神经网络，判断待检测视频中的人脸是否为虚假人脸。其中，三维残差学习卷积神经网络包括一或多个卷积层及相应最大池化层、若干由一或多个三维残差学习模块组成的三维残差学习层、一平均池化层及一输出层；三维残差学习模块包括分别连接三维残差学习模块输入的第一支路、第二支路和对两条第一支路与第二支路输出结果相加的运算层。这种方式对高质量的视频检测具备很好的检测性能，但在检测被高度压缩的低质量视频时，检测准确率会降低。而且，低质量视频作为经过高度压缩的或经过多次压缩的视频，模糊了真实视频与虚假视频的边界，使得虚假视频检测变的更加艰难。

发明内容

为解决当前Deepfake虚假视频检测技术在对低质量视频进行检测时，检测准确率低、检测性能不足的问题，本发明提出一种基于多尺度卷积网络和ViT的虚假视频检测方法及系统，准确提取人脸特征，融合人脸区域的不同尺度信息，提高虚假视频检测技术对低质量虚假视频的检测准确率和检测性能。

为了达到上述技术效果，本发明的技术方案如下：

一种基于多尺度卷积网络和ViT的虚假视频检测方法，其特征在于，包括以下步骤：

S1.确定待检测视频数据集，将待检测视频数据集的视频解码为帧序列，对帧序列进行随机采样选取，得到帧序列S；

S2.识别帧序列S中的人脸区域并提取，然后预处理，得到特征提取区域；

S3.搭建基于多尺度卷积网络和ViT的虚假视频检测模型，包括预处理模块、多尺度特征提取模块、人脸高维语义信息提取模块及ViT模块；

S4.将特征提取区域的RGB图像输入预处理模块进行颜色特征学习，得到颜色特征f_p；

S5.通过多尺度特征提取模块提取出f_p的多尺度特征图f_p＇，并将多尺度特征图fp＇转变为高维多尺度特征图f₁；

S6.通过人脸高维语义信息提取模块将颜色特征fp转变为高维人脸语义特征f₂，将高维多尺度特征图f₁与高维人脸语义特征f₂融合为特征图

S7.利用ViT模块学习特征图

的全局信息并作出预测，得到真实、虚假视频的分类输出结果。

在本技术方案中，识别并提取待检测视频数据集视频帧序列中图像的人脸区域，搭建基于多尺度卷积网络和ViT的虚假视频检测模型，基于该模型准确提取人脸特征，同时融合人脸区域的不同尺度信息，其中，多尺度特征提取模块通过学习低质量虚假视频中图像的边缘信息，得到整个人脸图片的多尺度特征，利用ViT模块代替传统作为分类的全局平均池化和全连接层，提高了对低质量虚假视频的检测准确率和检测性能。

优选地，步骤S1中所述的待检测视频数据集中包括高质量真实视频、高质量虚假视频、经压缩的低质量真实视频及经压缩的低质量虚假视频，高质量真实视频、高质量虚假视频作为高质量视频，与经压缩的低质量真实视频、经压缩的低质量虚假视频在用于训练时，分开训练；将待检测视频数据集的视频解码为帧序列后，每个帧序列存放于独立文件夹，防止不同视频产生相互干扰。

优选地，在步骤S2中，遍历读取帧序列S中的每一个视频帧图像，对视频帧图像进行人脸区域识别，在对人脸区域预处理时，确定已识别的人脸区域的中心，基于中心选定特定尺寸大小的人脸区域作为特征提取区域。

优选地，步骤S3所述的预处理模块以EfficientNet-B4作为基准卷积神经网络，包括依次连接的一个3*3卷积层及EfficientNet-B4的前十个MBConv Blocks；

所述的多尺度特征提取模块连接预处理模块，多尺度特征提取模块包括依次连接的空洞卷积单元及深度分离卷积单元，所述空洞卷积单元包括L个不同感受野的并列空洞卷积，深度分离卷积单元包括Q个深度分离卷积块及P个残差分离卷积块，每个深度分离卷积块均由relu非线性激活函数和一个深度分离卷积、以及归一化层组成，每一个残差分离卷积块在深度分离卷积块中都带有一个线形的残差连接；

所述人脸高维语义信息提取模块连接预处理模块，人脸高维语义信息提取模块以EfficientNet-B4为基础网络，具体由依次连接的EfficientNet-B4的后22个MBConvBlocks组成；

多尺度特征提取模块的输出端与人脸高维语义信息提取模块的输出端融合后，连接ViT模块，所述ViT模块包括依次连接的深度分离卷积块及Vision Transformer模块，Vision Transformer模块包括Embedding层、Transformer Encoder层及MLP Head分类层。

优选地，步骤S4所述将特征提取区域的RGB图像输入预处理模块进行颜色特征学习的过程为：

S41.将特征提取区域调整大小为(H，W，3)的RGB图像，并进行归一化处理，作为颜色特征数据，其中，H表示RGB图像的高度，W为RGB图像的宽度，3为通道；

S42.设置预处理模块的训练参数、损失函数，对预处理模块进行训练，得到训练好的预处理模块；

S43.将调整后的RGB图像输入训练好的预处理模块进行颜色卷积特征学习，选择EfficientNet-B4的前十个MBConv Blocks输出的张量作为颜色特征f_p。

优选地，步骤S5的过程为：

S51.设置空洞卷积单元中L个不同感受野的并列空洞卷积的空洞大小及卷积核大小；

S52.将颜色特征f_p分别输入空洞卷积单元的L个不同感受野的并列空洞卷积，利用L个不同感受野的并列空洞卷积分别提取人脸边缘特征信息，得到L个尺度特征图F₁，…，F_L；

S53.将L个尺度特征图F₁，…，F_L与颜色特征fp融合，得到多尺度特征图fp＇；

S54.将多尺度特征图f_p＇输入深度分离卷积单元，利用深度分离卷积单元的深度分离卷积块及残差分离卷积块，将多尺度特征图fp＇转变为高维多尺度特征图f₁。

优选地，在步骤S6中，人脸高维语义信息提取模块接收预处理模块输出的颜色特征f_p，人脸高维语义信息提取模块中依次连接的EfficientNet-B4的后22个MBConv Blocks将颜色特征f_p转变为高维人脸语义特征f₂。

优选地，在步骤S7中，利用ViT模块学习特征图F_fuse的全局信息时，TransformerEncoder的每一层均能得到

的全局信息，设置交叉熵损失函数，反向传播ViT模块的权重参数，得到训练好的虚假视频检测模型；

多尺度特征提取模块的输出端输出高维多尺度特征图f₁，人脸高维语义信息提取模块的输出端输出高维人脸语义特征f₂，高维多尺度特征图f₁与高维人脸语义特征f₂融合为特征图

特征图

输入ViT模块，通过深度分离卷积块从空间跟通道两个独立的维度上学习特征图

的信息，并且提升特征图

的维度，将升维后的特征图划分为若干区块Patches，通过线性映射将每个区块Patch映射到一维向量中，然后经PositionEmbedding后输入至Transformer Encoder层；这样，transformer不仅可以通过(self-attention)自注意力机制获得整个特征图的信息，还可以通过可学习的位置嵌入来理解输入特征图的结构，从而将特征图F_fuse的局部和全局信息结合。

优选地，在步骤S7利用ViT模块学习特征图

的全局信息并作出预测，将预测的结果经过一个softmax函数，得到模型预测真实、虚假视频的概率值。通过概率值，得到视频的预测结果(真实还是虚假)。

本发明还提出一种基于多尺度卷积网络和ViT的虚假视频检测系统，包括：

待检测视频数据集处理模块，用于确定待检测视频数据集，将待检测视频数据集的视频解码为帧序列，对帧序列进行随机采样选取，得到帧序列S；

人脸区域识别处理模块，识别帧序列S中的人脸区域并提取，然后预处理，得到特征提取区域；

检测模型构建模块，用于搭建基于多尺度卷积网络和ViT的虚假视频检测模型；

基于多尺度卷积网络和ViT的虚假视频检测模型包括预处理模块、多尺度特征提取模块、人脸高维语义信息提取模块及ViT模块；

预处理模块对特征提取区域的RGB图像进行颜色特征学习，得到颜色特征fp；多尺度特征提取模块提取出f_p的多尺度特征图f_p＇，并将多尺度特征图f_p＇转变为高维多尺度特征图f₁；人脸高维语义信息提取模块将颜色特征fp转变为高维人脸语义特征f₂，将高维多尺度特征图f₁与高维人脸语义特征f₂融合为特征图

ViT模块学习特征图

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种基于多尺度卷积网络和ViT的虚假视频检测方法及系统，首先对待检测数据集进行处理得到视频帧序列，识别并提取待检测视频数据集视频帧序列中图像的人脸区域，然后搭建基于多尺度卷积网络和ViT的虚假视频检测模型，基于该模型准确提取人脸特征，同时融合人脸区域的不同尺度信息，其中，多尺度特征提取模块通过学习低质量虚假视频中图像的边缘信息，得到整个人脸图片的多尺度特征，利用ViT模块代替传统作为分类的全局平均池化和全连接层，提高了低质量虚假视频的检测准确率和检测性能。

附图说明

图1表示本发明实施例1中提出的基于多尺度卷积网络和ViT的虚假视频检测方法的流程图；

图2表示本发明实施例1中搭建的基于多尺度卷积网络和ViT的虚假视频检测模型的结构框图；

图3表示本发明实施例3中提出的基于多尺度卷积网络和ViT的虚假视频检测系统的结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

考虑当前的虚假视频检测技术对高质量的真假视频集已经达到较好的检测效果，但是在面对被高度压缩的视频(如经过H.264高度压缩的视频，本申请中称为低质量视频)时，因低质量视频模糊了真实视频与虚假视频的边界，检测起来较困难，因此检测性能不佳，为了克服此缺陷，本实施例中提出了一种基于多尺度卷积网络和ViT的虚假视频检测方法，该方法利用具有Vision transformer(ViT)的多尺度卷积网络来检测低质量视频的真假性，流程图参见图1，包括以下步骤：

S7.利用ViT模块学习特征图

在本实施例中，步骤S1中所述的待检测视频数据集中包括高质量真实视频、高质量虚假视频、经压缩的低质量真实视频及经压缩的低质量虚假视频，高质量真实视频、高质量虚假视频作为高质量视频，与经压缩的低质量真实视频、经压缩的低质量虚假视频在用于训练时，分开训练；使用python的opencv库将待检测视频数据集的视频解码，视频解码为帧序列后，每个帧序列存放于独立文件夹，防止不同视频产生相互干扰。

在步骤S2中，遍历读取帧序列S中的每一个视频帧图像，对视频帧图像进行人脸区域识别，通过MTCNN人脸检测模型对视频帧图像进行人脸的识别，提取人脸区域，使用在对人脸区域预处理时，确定已识别的人脸区域的中心，基于中心选定特定尺寸大小的人脸区域作为特征提取区域，在本实施例中，选定320x320的大小作为特征提取区域。

在经过上述对视频帧的处理后，从本申请利用具有Vision transformer的多尺度卷积网络来检测低质量视频的真假性的思想出发，搭建基于多尺度卷积网络和ViT的虚假视频检测模型，模型结构参见图2，包括预处理模块、多尺度特征提取模块、人脸高维语义信息提取模块及ViT模块，具体的：

预处理模块对应图2所示的Pre-processing Module，预处理模块以EfficientNet-B4作为基准卷积神经网络，包括依次连接的一个3*3卷积层及EfficientNet-B4的前十个MBConv Blocks(MBConv Blocks#1～MBConv Blocks#10)；

多尺度特征提取模块连接预处理模块，多尺度特征提取模块对应图2所示的Stream#1:Multi-scale Module，多尺度特征提取模块包括依次连接的空洞卷积单元及深度分离卷积单元，空洞卷积单元包括L个不同感受野的并列空洞卷积，在本实施例中，空洞卷积单元采用4个不同感受野的并列空洞卷积来进行人脸边缘特征信息的提取；深度分离卷积单元包括Q个深度分离卷积块及P个残差分离卷积块，参见图2，深度分离卷积块共两个，表示为：SeparableConv Block；残差分离卷积块共4个，表示为：ResidualSeparableConv Block；更具体的，每个深度分离卷积块均由relu非线性激活函数和一个深度分离卷积、以及归一化层组成，每一个残差分离卷积块在深度分离卷积块中都带有一个线形的残差连接；

人脸高维语义信息提取模块连接预处理模块，人脸高维语义信息提取模块对应图2所示的Stream#2:MBConv Blocks Module,人脸高维语义信息提取模块以EfficientNet-B4为基础网络，具体由依次连接的EfficientNet-B4的后22个MBConv Blocks组成；

多尺度特征提取模块的输出端与人脸高维语义信息提取模块的输出端融合后，连接ViT模块，ViT模块对应图2所示的Vision Transformer Module,ViT模块包括依次连接的深度分离卷积块SeparableConv Block及Vision Transformer模块，Vision Transformer模块包括Embedding层、Transformer Encoder层及MLP Head分类层。

在本实施例中，步骤S4所述将特征提取区域的RGB图像输入预处理模块进行的颜色特征学习基于所搭建的虚假视频检测模型实现，过程为：

S41.将特征提取区域调整大小为(H，W，3)的RGB图像，并进行归一化处理，作为颜色特征数据，其中，H表示RGB图像的高度，W为RGB图像的宽度，3为通道，此时H与W均为320，归一化处理采用常规操作，此处不在赘述；

步骤S5的过程为：

S51.设置空洞卷积单元中L个不同感受野的并列空洞卷积的空洞大小及卷积核大小；基于上述虚假视频检测模型的具体组成，L取4，这4个并列空洞卷积的空洞分别设置为3，6，12，18，在并列空洞卷积在应用时，为了不改变原有特征图的大小，将这四个并列空洞卷积的卷积核大小都设为1；

S52.将颜色特征f_p分别输入空洞卷积单元的L个不同感受野的并列空洞卷积，利用L个不同感受野的并列空洞卷积分别提取人脸边缘特征信息，得到L个尺度特征图F₁，…，F_L，即F₁，F₂，F₃,，F₄；

S53.将L个尺度特征图F₁，…，F_L与颜色特征fp融合，得到多尺度特征图fp＇；在本实施例中，将F₁，F₂，F₃,，F₄，F_RGB进行融合，基于图2所示的模型结构，该融合过程通过图2中在Stream#1:Multi-scale Module中预处理模块的输出与四个并列空洞卷积的“汇合”体现，得到多尺度特征图fp＇；

S54.将多尺度特征图fp＇输入深度分离卷积单元，利用深度分离卷积单元的深度分离卷积块及残差分离卷积块从空间和通道两个独立的维度上学习多尺度特征图fp＇的信息，且得到低质量视频帧图像的边缘信息，将多尺度特征图fp＇转变为高维多尺度特征图f₁。

在步骤S6中，人脸高维语义信息提取模块接收预处理模块输出的颜色特征f_p，人脸高维语义信息提取模块中依次连接的EfficientNet-B4的后22个MBConv Blocks将颜色特征f_p转变为高维人脸语义特征f₂。

在步骤S7中，利用ViT模块学习特征图F_fuse的全局信息时，TransformerEncoder的每一层均能得到

具体的：训练周期为20，优化器为ADAM,初始学习率为0.0001，每10个训练周期，学习率就调整为原来的1/10，损失函数设计为交叉熵，训练的批处理为48，最后训练周期完成后，保存损失最小的虚假视频检测模型权重参数。

参见图2，多尺度特征提取模块的输出端输出高维多尺度特征图f₁，人脸高维语义信息提取模块的输出端输出高维人脸语义特征f₂，高维多尺度特征图f₁与高维人脸语义特征f₂融合为特征图

特征图

的信息，并且提升特征图

的维度，将升维后的特征图划分为若干区块Patches，通过线性映射将每个区块Patch映射到一维向量中，然后经Position Embedding后输入至Transformer Encoder层；这样，transformer不仅可以通过(self-attention)自注意力机制获得整个特征图的信息，还可以通过可学习的位置嵌入来理解输入特征图的结构，从而将特征图F_fuse的局部和全局信息结合。注意力机制的计算公式如下：

其中，Q,K,V分别表述输入的特征图

经过一组映射得到的查询、关键、值向量，注意力的距离随着网络深度增加而增加,从而将特征图

的局部和全局信息结合。

通过引入ViT模块，以Vision transformer去代替传统单流神经网络原有的全局平均池化以及全连接，实现分类。

在本实施例中，步骤S7利用ViT模块学习特征图

实施例2

本实施例以具体的例子验证实施例1所提出方法的有效性。

待检测的视频数据集采用Deepfake视频数据库Celeb-DF、FaceForensics++(LQ版本)与WildDeepfake作为检测数据集。Celeb-DF是一个高质量的Deepfake视频数据集，视频的平均长度大约为13s，帧率约为30；FaceForensics++(LQ版本)是经过了H.264高度压缩的视频数据集，里面包含1000个真实视频，以及4000个虚假视频，这4000个虚假视频来源于四种不同的造假算法；WildDeepfake是一个来源于互联网的视频数据集，可能经过了一次或者多次压缩，并且具有多个来源。本实验在Linux系统上进行，主要是基于深度学习框架pytorch来实现。

将待检测的视频解码为帧序列并随机挑选出50帧，使用python的opencv库将视频进行解码，将视频解码成帧序列，每个视频的帧为独立文件夹，防止不同视频产生相互干扰，对保存的50帧帧序列进行人脸区域识别检测，并作为特征提取区域，具体操作为：

遍历读取所有文件夹中的帧序列路径，通过MTCNN人脸检测模型对视频帧图像进行人脸的识别，提取人脸区域，将挑选出的切完脸的视频帧的路径以及视频标签写入到csv文件中，读取csv文件，根据路径，得到人脸区域，并将其中心选定调整为320x320的大小，作为特征提取区域。

将特征提取区域的RGB图像(如图2所示的图片)输入到预处理模块中进行颜色卷积特征学习，得到颜色特征f_p，利用多尺度特征提取模块的空洞卷积单元提取f_p的多尺度信息，得到多尺度特征图f_p＇，为了得到更高维的多尺度特征图，利用多尺度特征提取模块的的深度分离卷积单元将多尺度特征图f_p＇转变为高维多尺度特征图f₁；与此同时，通过人脸高维语义信息提取模块将颜色特征f_p转变为高维人脸语义特征f₂，将高维多尺度特征图f_p与高维人脸语义特征f₂融合为特征图

具体流转可参见图2，最后，利用ViT模块学习特征图

的全局信息并作出预测，得到真实、虚假视频的分类输出结果，在本实施例中，以AUC(AUC值为ROC曲线所覆盖的区域面积,显然,AUC越大,分类效果越好)与ACC(检测准确率)作为评价指标，以传统基于Xception网络的检测方法作为对比算法，应用本发明所提出的方法以及基于Xception网络的检测方法对三种视频数据集的检测结果如表1所示。

表1

三种视频数据集中，Celeb-DF是一个高质量的Deepfake视频数据集，这个数据集是极度不平衡的，采用AUC作为这个数据集的评价指标(因为使用ACC会引起较大的差异，不平衡的数据，在模型效果度量上，不会使用ACC的)，WildDeepfake是一个来源于互联网的视频数据集，可能经过了一次或者多次压缩，并且具有多个来源，属于低质量视频数据集，同理，WildDeepfake是一个比较平衡的数据集，所以使用ACC来做评价指标，而不采用AUC。很多检测数据集是不平衡的(虚假的视频数量远远大于真实的视频数量)，所以这种时候，采用AUC这个指标，如果是平衡的数据集(虚假视频跟真实视频的比例接近1:1)，就利用ACC指标评估，由表1可知，在面对WildDeepfake低质量视频检测时，传统基于Xception网络的检测方法的检测准确率仅有76.27％，检测性能较低，而应用本申请所提出的方法的检测准确率达到82.63％，另外在检测性能上，应用本申请所提出的方法也优于传统方法，表明本申请所提出的方法在对低质量虚假视频检测时，检测准确率和检测性能较高，验证了本申请所提出方法的有效性。

实施例3

参见图3，本发明还提出一种基于多尺度卷积网络和ViT的虚假视频检测系统，包括：

检测模型构建模块，用于搭建基于多尺度卷积网络和ViT的虚假视频检测模型；基于多尺度卷积网络和ViT的虚假视频检测模型包括预处理模块、多尺度特征提取模块、人脸高维语义信息提取模块及ViT模块；

ViT模块学习特征图

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多尺度卷积网络和ViT的虚假视频检测方法，其特征在于，包括以下步骤：

S7.利用ViT模块学习特征图

2.根据权利要求1所述的基于多尺度卷积网络和ViT的虚假视频检测方法，其特征在于，步骤S1中所述的待检测视频数据集中包括高质量真实视频、高质量虚假视频、经压缩的低质量真实视频及经压缩的低质量虚假视频，高质量真实视频、高质量虚假视频作为高质量视频，与经压缩的低质量真实视频、经压缩的低质量虚假视频在用于训练时，分开训练；将待检测视频数据集的视频解码为帧序列后，每个帧序列存放于独立文件夹。

3.根据权利要求2所述的基于多尺度卷积网络和ViT的虚假视频检测方法，其特征在于，在步骤S2中，遍历读取帧序列S中的每一个视频帧图像，对视频帧图像进行人脸区域识别，在对人脸区域预处理时，确定已识别的人脸区域的中心，基于中心选定特定尺寸大小的人脸区域作为特征提取区域。

4.根据权利要求3所述的基于多尺度卷积网络和ViT的虚假视频检测方法，其特征在于，步骤S3所述的预处理模块以EfficientNet-B4作为基准卷积神经网络，包括依次连接的一个3*3卷积层及EfficientNet-B4的前十个MBConv Blocks；

5.根据权利要求4所述的基于多尺度卷积网络和ViT的虚假视频检测方法，其特征在于，步骤S4所述将特征提取区域的RGB图像输入预处理模块进行颜色特征学习的过程为：

6.根据权利要求4所述的基于多尺度卷积网络和ViT的虚假视频检测方法，其特征在于，步骤S5的过程为：

7.根据权利要求4所述的基于多尺度卷积网络和ViT的虚假视频检测方法，其特征在于，在步骤S6中，人脸高维语义信息提取模块接收预处理模块输出的颜色特征f_p，人脸高维语义信息提取模块中依次连接的EfficientNet-B4的后22个MBConv Blocks将颜色特征f_p转变为高维人脸语义特征f₂。

8.根据权利要求4所述的基于多尺度卷积网络和ViT的虚假视频检测方法，其特征在于，在步骤S7中，利用ViT模块学习特征图F_fuse的全局信息时，TransformerEncoder的每一层均能得到

特征图

的信息，并且提升特征图

的维度，将升维后的特征图划分为若干区块Patches，通过线性映射将每个区块Patch映射到一维向量中，然后经PositionEmbedding后输入至Transformer Encoder层。

9.根据权利要求1所述的基于多尺度卷积网络和ViT的虚假视频检测方法，其特征在于，在步骤S7利用ViT模块学习特征图

的全局信息并作出预测，将预测的结果经过一个softmax函数，得到模型预测真实、虚假视频的概率值。

10.一种基于多尺度卷积网络和ViT的虚假视频检测系统，其特征在于，包括：

ViT模块学习特征图