CN114782858A

CN114782858A - 一种基于预训练多模态模型的伪造视频检测方法及系统

Info

Publication number: CN114782858A
Application number: CN202210308992.9A
Authority: CN
Inventors: 李邵梅; 吉立新; 黄瑞阳; 宋旭晖; 高超; 张建朋; 汪浣沙
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-07-22

Abstract

本发明公开一种基于预训练多模态模型的伪造视频检测方法及系统，该方法包括：步骤1、将待检测视频中声音信息转换成文本，并完成字幕和和视频帧的对齐；步骤2、筛选出含字幕的视频帧集合；步骤3、基于预训练的多模态模型逐帧判断含字幕的视频帧集合中每个视频帧的真伪；步骤4、综合含字幕的视频帧集合中所有视频帧的真伪判断结果得出待检测视频的真伪。本发明利用事先训练好的多模态模型同时提取视频中的画面和声音信息，实现视觉和听觉信息的融合，提高对伪造视频检测的精度。

Description

一种基于预训练多模态模型的伪造视频检测方法及系统

技术领域

本发明属于多媒体信息内容处理和网络空间安全技术领域，尤其涉及一种基于预训练多模态模型的伪造视频检测方法及系统。

背景技术

现在方法主要有两类，一是只基于视频帧的画面信息进行检测；二是将多模态伪造视频中的画面信息和声音信息分别进行送入图像处理和语音处理模块中进行检测，没有考虑画面信息和声音内容信息之间的关联性。这两种方法都没有充分利用视频中的多种模态信息，导致识别精度不高。

发明内容

本发明针对同时包含目标人物人脸画面和声音的跨模态伪造视频检测识别精度不高的问题，提出了一种基于预训练多模态模型的伪造视频检测方法及系统，利用事先训练好的多模态模型同时提取视频中的画面和声音信息，实现视觉和听觉信息的融合，提高对伪造视频检测的精度。

为了实现上述目的，本发明采用以下技术方案：

本发明一方面提出一种基于预训练多模态模型的伪造视频检测方法，包括：

步骤1：将待检测视频中声音信息转换成文本，并完成字幕和和视频帧的对齐；

步骤2：筛选出含字幕的视频帧集合；

步骤3：基于预训练的多模态模型逐帧判断含字幕的视频帧集合中每个视频帧的真伪；

步骤4：综合含字幕的视频帧集合中所有视频帧的真伪判断结果得出待检测视频的真伪。

进一步地，所述步骤1包括：

对待检测的视频，首先进行视觉信息的抽取得到视频帧序列；然后，提取视频中的音频信息，利用Google的语音转文本API将音频转写成文本；最后，对视频帧序列和转写后的文本进行对齐；

对于没有语音内容的视频帧，其字幕为空，标记为“NULL”。

进一步地，所述对视频帧序列和转写后的文本进行对齐包括：

对于转写文本中的每句话，对应找出其在原始视频中起始帧和结束帧的位置，然后把该句话的文本当作字幕标注在起始帧和结束帧的之间的每个视频帧上，作为这些帧的字幕。

进一步地，所述模型由三层组成，第一层是嵌入层，由四种类型的信息嵌入进行叠加得到视频帧的嵌入；第二层是特征编码层，基于预训练的VL-BERT模型从视频帧中提取视觉和听觉信息，得到统一表征的特征向量；第三层是判决层，基于多层感知机MLP对视频帧的真伪进行判决。

进一步地，所述步骤3包括：

将带字幕的视频帧中的文本元素和视觉元素共同转换成序列，进行编码嵌入后送入到预训练的VL-BERT模型中提取多模态统一特征；

对输入序列进行嵌入，输入序列的嵌入由四类信息组成，第一类信息是位置嵌入，第二类信息是片段嵌入，第三类信息是视觉特征嵌入，第四类信息是Token嵌入；

对于每个视频帧，转换成输入序列后，得到上述四类信息的嵌入，叠加后得到输入序列的原始信息嵌入；

将上述原始信息嵌入输入到训练好的VL-BERT模型中，得到融合视觉和语言信息的统一表征；

将该统一表征输入到多层感知机中进行判决，该感知机的隐藏层有2个节点，第一个节点的输出值作为该视频帧是真实视频帧的概率，输出的结果如果大于0.5，则该视频帧判为真实，否则判为伪造。

进一步地，所述视觉特征由视觉几何特征和视觉外观特征组成；每个视觉元素的视觉几何嵌入用一个四维向量表示

其中(x_LT,y_LT)和(x_RB,y_RB)分别表示左上角和右下角的坐标，W、H表示输入视频帧的宽度和高度；输入序列中的视觉元素的视觉外观特征由AlexNet检测器进行提取。

进一步地，所述VL-BERT模型由多个双向Transformer编码器组成，每个Transformer由自注意力层和全连接层构成；该模型事先在Conceptual Captions数据集上进行预训练。

进一步地，所述步骤4包括：

对于每个视频，如果判为真实的视频帧数量大于判为伪造的视频帧数量，则判定该视频是真实视频，否则判定为伪造视频。

本发明另一方面提出一种基于预训练多模态模型的伪造视频检测系统，包括：

信息转换模块，用于将待检测视频中声音信息转换成文本，并完成字幕和和视频帧的对齐；

筛选模块，用于筛选出含字幕的视频帧集合；

第一判断模块，用于基于预训练的多模态模型逐帧判断含字幕的视频帧集合中每个视频帧的真伪；

第二判断模块，用于综合含字幕的视频帧集合中所有视频帧的真伪判断结果得出待检测视频的真伪。

进一步地，所述信息转换模块具体用于：

对于没有语音内容的视频帧，其字幕为空，标记为“NULL”。

进一步地，所述第一判断模块具体用于：

进一步地，所述第二判断模块具体用于：

与现有技术相比，本发明具有的有益效果：

附图说明

图1为本发明实施例一种基于预训练多模态模型的伪造视频检测方法的流程图；

图2为本发明实施例基于VLBERT-MLP的伪造视频帧检测流程图；

图3为本发明实施例AlexNet的网络结构示意图；

图4为本发明实施例Transformer的结构示意图；

图5为本发明实施例一种基于预训练多模态模型的伪造视频检测系统的架构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

如图1所示，本发明的一种基于预训练多模态模型的伪造视频检测方法，包括：

步骤2：筛选出含字幕的视频帧集合；

本发明对伪造视频的检测综合了视频中的画面信息和声音信息，由于本专利中采用视觉-语言模型对这两类信息进行融合，所以首先要将声音信息转换成文本，并且完成文本跟视频帧的对齐，具体过程如下。

对待检测的视频，首先进行视觉信息的抽取得到视频帧序列；然后，提取视频中的音频信息，利用Google的语音转文本API将音频转写成文本；最后，对视频帧序列和转写后的文本进行对齐，具体过程是对于转写文本中的每句话，对应找出其在原始视频中起始帧和结束帧的位置，然后把这句话的文本当作字幕标注在起始帧和结束帧的之间的每个视频帧上，作为这些帧的字幕。对于没有语音内容的视频帧，其字幕就为空，标记为“NULL”。举例而言，有一个视频一共有20帧，里面的人物说了两句话：“we sing birthday part，we havefun。”。如果“we sing birthday part”是从第3帧开始说的，第6帧结束的；“we have fun。”是从第10帧开始说的，11帧结束的，那么对这些帧的字幕标注结果如下：

表1.对某视频中声音信息处理后跟视频帧匹配的结果

接下来，把字幕不为NULL的视频帧，按照图1所示的处理流程逐帧进行真伪检测，对于表1中的声音和视频帧匹配的结果，需要对第3、4、5、6、10、11、12帧逐帧进行真伪检测。

图1中对每帧视频帧的真伪检测采用如图2所示的模型(VLBERT-MLP)，该模型主要由三层组成。第一层是嵌入层，由四种类型的信息嵌入进行叠加得到视频帧的嵌入；第二层是特征编码层，基于训练好的预训练模型VL-BERT从视频帧中提取视觉和听觉信息，得到统一表征的特征向量；第三层是判决层，基于多层感知机(Multilayer Perceptron，MLP)对视频帧的真伪进行判决。下面分别对各层进行介绍。

我们以对表1中的第3帧的处理过程为例进行说明。如图2所示，带字幕的视频帧中的文本元素和视觉元素共同转换成序列，进行编码嵌入后送入到VL-BERT中提取多模态统一特征。VL-BERT只能对固定长度的序列进行处理，所以这里我们限定输入序列的长度为30。对于文本元素和视觉元素以及其他标识元素总数大于30的视频帧，我们对字幕文本信息进行截取，只取前一部分的内容，从而保证序列的总长度为30。具体而言，输入序列除去3个必须包含的标识Token[CLS]、[SEP]和[END]，视觉元素和文本元素的总数不能超过27，如果某视频帧中人脸的个数是N，那么就只能取字幕文本中的前(27-N)个单词作为文本元素了。对于字幕文本中的单词个数和人脸个数总和小于27的情况，对序列后面进行补0，补齐到30。

前面介绍了如何将视频帧转换成输入序列，下面介绍如何对输入序列进行嵌入。输入序列的嵌入由四类信息组成，第一类信息是位置嵌入，用于向每个输入元素添加一个可学习的序列位置特征来表示其在输入序列中的顺序，每个单词的序列位置特征跟它们在字幕句子中所在的位置相关，每个单词在句子中的位置按照前后关系依次进行排列。由于输入的视觉元素之间没有自然的顺序，在输入序列中对它们进行任何排列都应该得到相同的结果，所以视觉元素的序列位置特征都是相同的。

第二类信息是片段嵌入，用于将输入元素从不同的来源中区分开来，如图2所示，A表示来源于字幕的信息，B表示来源于图像的信息。

第三类信息是视觉特征嵌入，如图2中右边所示，对于从视频帧中提取的人脸区域及整个视频帧区域，分别提取视觉几何特征和视觉外观特征，然后将二者串联形成视觉特征。人脸提取的过程可以采用RetinaFace模型完成。视觉几何嵌入用来表征视频帧中每个输入视觉元素的几何位置，每个视觉元素的视觉几何嵌入用一个四维向量表示

其中(x_LT,y_LT)和(x_RB,y_RB)分别表示左上角和右下角的坐标，W、H表示输入视频帧的宽度和高度。输入序列中的视觉元素的视觉外观特征由AlexNet检测器进行提取；输入序列中的非视觉元素，对应的视觉外观特征是对整个输入视频帧提取的特征。AlexNet的网络结构如图3所示，该网络的参数经由ImageNet数据集的训练数据训练得到。

图3中的fc表示全连接层，pool表示池化层，conv表示卷积层。卷积层后的第1个参数表示卷积核的个数，第2个参数表示卷积的步长。如图3所示，第1个卷积层的卷积核个数是96，步长是4；第2个卷积层的卷积核个数是256。

第四类信息是Token嵌入，其中字幕文本中的每个单词分别得到自身的嵌入，对每个特殊的元素分配特殊的Token。在序列的最前面增加一个[CLS]标记，用于标识可学习的分类结果；对于视觉元素，为每个元素分配一个特殊的[IMG]标记；另外在视觉信息和字幕信息之间用[SEP]标记进行隔断。

对于每个视频帧，转换成输入序列后，得到上述四类信息的嵌入，叠加后得到输入序列的原始信息嵌入；接下来将上述原始信息嵌入输入到预训练好的VL-BERT模型中，以输出包含视觉和语言双重表征的特征向量，实现对视频帧中所有信息特征的抽取。VL-BERT由多个双向Transformer编码器组成，每个Transformer由自注意力层和全连接层构成，Transformer的结构如图4所示。

基于Transformer的多头注意力网络对输入序列进行特征提取的具体过程如下：

z'_l＝MHA(LN(z_l-1))+(z_l-1),l＝1...L (1)

z_l＝MLP(LN(z'_l))+(z'_l),l＝1...L (2)

公式(1)-(3)中的MHA(·)表示图4中的多头注意力机制，LN(·)表示图4中的层归一化，MLP(·)表示图4中的多层感知机，

代表z_l第1维的数据。其中，LN(·)用于对输入中的某一维或某几维做归一化，假定要对输入X做归一化的那维数据为x＝{x₁,x₂,…x_n}，则计算公式为：

其中E(x)为x的均值，

Var[x]为x的方差，

ε是为了防止分母为0而加的一个很小的值，一般取值为1e-05。

MHA(·)的计算过程如下：

Q＝W_Q·X (5)

K＝W_K·X (6)

V＝W_V·X (7)

其中，W_Q、W_K、W_V是可学习的参数矩阵，d是K^T·Q的维数，假定K表示神经网络的输出类别数，v为输出向量，v_j为v中第j个输出类别的值，i表示当前需要计算的类别，计算结果在0到1之间，且所有类别的softmax值求和为1。softmax(·)的计算公式为：

MLP(·)的计算过程如下：

我们采用只有2个隐藏层的多层感知机，假设输入向量x的维度为M，第1个隐藏层有H₁个节点(H₁的取值跟输入图像块嵌入的维度D一样)，第2个隐藏层有H₂个节点，H₂的值就是该多层感知机的输出维度。则第1个隐藏层节点输出的计算公式为：

第2个隐藏层节点输出的计算公式为：

分别是第1层和第2层可学习的权重。g(·)代表激活函数，这里采用ReLU函数，计算公式为：

在本发明中，VL-BERT由上述3个Transformer结构组成，该模型先在ConceptualCaptions数据集上进行预训练，该数据集包含大约330万张带有标题注释的图片。训练过程中对数据集中的标题中的文本需要进行如下处理。数据集中所有标题的文本中的单词进行统计分析，构建文本的编码字典，具体过程是统计训练数据集标题中的所有英文单词，提取出现频率最多的1000个单词，对这1000个单词进行one-hot编码，形成编码词典。

每个视频帧的原始信息嵌入输入上述VL-BERT模型后，得到融合视觉和语言信息的统一表征，然后将该统一表征输入到图2最上层所示的多层感知机中进行判决。伪造视频检测本质上是一个二分类的问题，所以这个感知机的隐藏层有2个节点，第一个节点的输出值作为该视频帧是真实视频帧的概率；第一个节点的输出值作为该视频帧是伪造视频帧的概率。

对图2所示的对视频帧进行真伪检测的检测模型(VLBERT-MLP)的训练过程如下：

训练阶段：收集100个真实的带声音和人脸的视频和100个基于深度伪造生成的带声音和人脸的视频，对于每个真实的视频，利用Google的语音转文本API将音频转写成文本；最后，对视频帧序列和转写后的文本进行对齐，具体过程详见图1下面的文字描述。对每个真实视频经过上述处理后，提取字幕不为NULL的视频帧作为真实有效帧。将所有真实视频中的真实有效帧组成带字幕的正向样本集

其中N_p代表所有真实视频中真实有效帧的总和。

同样，对于每个深度伪造视频进行同样的视频帧和字幕的对齐操作，然后提取字幕不为NULL的视频帧作为伪造有效帧。将所有伪造视频中的伪造有效帧组成带字幕的负向样本集

其中N_n代表所有深度伪造视频中伪造有效帧的总和。

将P和N输入到图1所示的网络中进行训练，其中正向样本集中每个样本的标签为1，负向样本集中每个样本的标签为0。

检测阶段，对于待检测的视频，利用Google的语音转文本API将音频转写成文本；然后，对视频帧序列和转写后的文本进行对齐。对于没有语音内容的视频帧，其字幕就为空，标记为“NULL”。将字幕标记不为“NULL”的视频帧，如图1所示送入训练好的模型中进行检测，输出的结果如果大于0.5，则判为真实，否则判为伪造。对于每个视频，如果判为真实的视频帧数量大于判为伪造的视频帧数量，就判定这个视频是真实视频，否则判定为伪造视频。

下面以对表1中第1个字幕不为NULL的视频帧(即视频的第3帧)的检测流程为例来进行详细说明。这帧的文本元素的个数是4(4个单词)，视觉元素的个数是2(2个人脸)，加上标识Token[CLS]、[SEP]和[END],序列总长度是9，先对这长度为9的序列进行编码嵌入，再将其填充成长度为30的序列编码嵌入。

4类信息的嵌入都将相应的元素映射到9×1004维的空间。位置嵌入采用的是可学习的编码方式，所以初始化为全0的9×1004维矩阵。片段嵌入采用one-hot编码的方式，对于来自文本的编码为“A”的元素，嵌入成{1,0,0,....,0}，除了第1个值是1，后面有1003个0；对于来自图像的编码为“B”的元素，嵌入成{0,1,0,0,....,0}，除了第2个值是1，第1个值及其余1002个值都为0。在视觉嵌入中，如图2所示，序列的第1，第2，第3，第4，第5，第6和第9个位置的视觉元素是整个视频帧，第7和第8个位置的视觉元素分别是从视频中检测出的两个人脸。每个视觉元素送入图3所示的AlnexNet网络中提取视觉嵌入的处理过程如下：

(1)对于输入的视觉信息，首先重新规整为227×227×3的大小，然后送入第1个卷积层，该层有96个卷积核，每个卷积核的大小是11×11×3，步长是4，因为(227-11)/4+1＝55，所以卷积后的输出为55×55×96，然后对这些输出值用Relu进行过滤，Relu后的数据维度也是55×55×96，然后送入Max pool，Max pool采用3X3的池化核，步长为2，Max pool后的数据维度为27×27×96，最后采用LRN(Local Response Normalization，局部响应归一化)进行归一化，得到维度为27×27×96的输出；

(2)上述27×27×96的输出作为第2个卷积层的输入，第2个卷积层有256个卷积核，每个卷积核的大小为5×5，步长为1，卷积后的维度为27×27×256，然后对这些输出值用Relu进行过滤，Relu后的数据维度也是27×27×256，Maxpool采用3×3的池化核，步长为2，Max pool后的数据维度为13×13×256，最后采用LRN(Local Response Normalization，局部响应归一化)进行归一化，得到维度为13×13×256的输出；

(3)上述13×13×256的输出作为第3个卷积层的输入，第3个卷积层有384个卷积核，每个卷积核的大小为3×3，步长为1，卷积后的维度为13×13×384，然后对这些输出值用Relu进行过滤，Relu后的数据维度也是13×13×384作为该层的输出；

(4)上述13×13×384的输出作为第4个卷积层的输入，第4个卷积层有384个卷积核，每个卷积核的大小为3×3，步长为1，卷积后的维度为13×13×384，然后对这些输出值用Relu进行过滤，Relu后的数据维度也是13×13×384作为该层的输出；

(5)上述13×13×384的输出作为第5个卷积层的输入，第5个卷积层有256个卷积核，每个卷积核的大小为3×3，步长为1，卷积后的维度为13×13×256，然后对这些输出值用Relu进行过滤，Relu后的数据维度也是13×13×256，Maxpool采用3×3的池化核，步长为2，Max pool后的数据维度为6×6×256，最后采用LRN(Local Response Normalization，局部响应归一化)进行归一化，得到维度为6×6×256的输出；

(6)上述6×6×256的输出送入第6层的全连接层中，线性映射成4096×1维的输出，然后经过Relu和Drop out，输出4096×1维的结果；

(7)上述4096×1的输出送入第7层的全连接层中，线性映射成4096×1维的输出，然后经过Relu和Drop out，输出4096×1维的结果；

(8)上述4096×1的输出送入第8层的全连接层中，线性映射成1000×1维的输出。

每个视觉元素的上述1000×1维的视觉特征和4×1维的视觉几何嵌入拼接得到1004×1维的视觉嵌入，其中人脸的视觉几何嵌入用一个4维向量表示

其中(x_LT,y_LT)和(x_RB,y_RB)分别表示人脸区域左上角和右下角的坐标，W、H表示输入图像的宽度和高度。其他的视觉元素的几何嵌入都是{0,1,1,0}。图2中整个视频帧的大小是272×272，其中第一个红色人脸区域的左上角和右下角的坐标分别为{49,190}和{114,149}，第二个紫色人脸区域的左上角和右下角的坐标分别为{133,217}和{177,163}，则序列的第1，第2，第3，第4，第5，第6和第9个位置的视觉元素几何嵌入是{0,1,1,0}，第7和第8个位置的视觉元素几何嵌入分别是为{0.18,0.699,0.419,0.548}和{0.489,0.798,0.651,0.599}。

Token嵌入采用one-hot编码的方式，其中[CLS]、[SEP]、[IMG]、[END]分别编码成1004维的向量c_[CLS]＝{1,0,...,0}(1后面1003个0)、c_[SEP]＝{0,1,0,....,0}(1后面1002个0)、c_[IMG]＝{0,0,1,0,....,0}(1后面1001个0)和c_[END]＝{0,0,0,1,0,....,0}(1后面1000个0)。对于其他Token(单词)，嵌入过程中前4维都为0，从第5维到1004维进行编码。对于每个单词，到根据训练语料构建的编码词典中进行查询，如果能查到，就取出1000维的编码，在前面补4个0构成这里的token嵌入。图2中，“we”、“sing”、“part”这三个单词从编码词典中能查到，编码分别为c_we＝{0,...,0,1,0,...,0}(1前面有40个0，后面有959个0)、c_sing＝{0,...,0,1,0,...,0}(1前面有111个0，后面有888个0)、c_part＝{0,...,0,1,0,...,0}c_sing＝{0,...,0,1,0,...,0}(1前面有519个0，后面有480个0)。结合前面4个特殊Token的编码结果，把这三个单词的编码扩展到1004维，分别为

(1前面有44个0，后面有959个0)、

(1前面有115个0，后面有888个0)和

(1前面有523个0，后面有480个0)。“birthday”这个单词编码字典中没有，就编码成1004维的全0向量

(1004个0)。

上述4类信息的嵌入相加后得到9×1004维的原始信息嵌入，如前所述，需要将其扩展到30*1004维，具体方法是对于第10行到第30行，都用全0补齐。

完成编码嵌入后，将上述30×1004维输入到VL-BERT中进行特征提取，如前所示，VL-BERT由3个图4结构所示的Transformer组成，其中多头注意力机制的头数是6，Transformer中多层感知机有1个隐藏层，用于将30×1004维的输入转换成30×200维。

最后，将VL-BERT输出的30×200维中的第1行输入到图2中最上面用于判别的多层感知机进行判决。该感知机有1个隐藏层，用于将1×200维的输入转换成1×2维。对于图2中第3个视频帧的例子，多层感知机的输出为{0.7,0.15}，因为0.7>0.15所以该视频帧判为真实视频帧。

按照上述流程，依次对视频的第3、4、5、6、10、11帧进行检测得到结果分别如表2所示：

表2.第3、4、5、6、10、11视频帧的检测结果

综合表2中所有帧的检测结果，判定该视频为伪造视频。

值得说明的是，本实施例中是以视频中所讲的语言为英文进行描述的，本方法也适用于视频中所讲的语言为中文的情况。在视频中所讲的语言为中文时，在进行Token嵌入时，文本部分序列的每个元素是这个视频帧的字幕中的每个字。

在上述实施例的基础上，如图5所示，本发明还提出一种基于预训练多模态模型的伪造视频检测系统，包括：

筛选模块，用于筛选出含字幕的视频帧集合；

进一步地，所述信息转换模块具体用于：

对于没有语音内容的视频帧，其字幕为空，标记为“NULL”。

进一步地，所述第一判断模块具体用于：

进一步地，所述第二判断模块具体用于：

综上，本发明针对同时包含目标人物人脸画面和声音的跨模态伪造视频检测识别精度不高的问题，提出了一种基于预训练多模态模型的伪造视频检测方法及系统，利用事先训练好的多模态模型同时提取视频中的画面和声音信息，实现视觉和听觉信息的融合，提高对伪造视频检测的精度。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于预训练多模态模型的伪造视频检测方法，其特征在于，包括：

步骤2：筛选出含字幕的视频帧集合；

2.根据权利要求1所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述步骤1包括：

对于没有语音内容的视频帧，其字幕为空，标记为“NULL”。

3.根据权利要求2所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述对视频帧序列和转写后的文本进行对齐包括：

4.根据权利要求1所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述模型由三层组成，第一层是嵌入层，由四种类型的信息嵌入进行叠加得到视频帧的嵌入；第二层是特征编码层，基于预训练的VL-BERT模型从视频帧中提取视觉和听觉信息，得到统一表征的特征向量；第三层是判决层，基于多层感知机MLP对视频帧的真伪进行判决。

5.根据权利要求4所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述步骤3包括：

6.根据权利要求5所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述视觉特征由视觉几何特征和视觉外观特征组成；每个视觉元素的视觉几何嵌入用一个四维向量表示

7.根据权利要求5所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述VL-BERT模型由多个双向Transformer编码器组成，每个Transformer由自注意力层和全连接层构成；该模型事先在Conceptual Captions数据集上进行预训练。

8.根据权利要求1所述的一种基于预训练多模态模型的伪造视频检测方法，其特征在于，所述步骤4包括：

9.一种基于预训练多模态模型的伪造视频检测系统，其特征在于，包括：

筛选模块，用于筛选出含字幕的视频帧集合；