CN115965810A

CN115965810A - 一种基于多模态一致性的短视频谣言检测方法

Info

Publication number: CN115965810A
Application number: CN202211555818.0A
Authority: CN
Inventors: 林扬豪; 曹冬林; 游锦鹏; 林达真
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-04-14

Abstract

一种基于多模态一致性的短视频谣言检测方法，属于自然语言处理领域。针对谣言视频中存在对于主题的曲解和关键帧的篡改的问题，设计一种基于主题和关键帧的短视频谣言分类模型TKCM；TKCM使用聚合网络获取视频的主题特征、使用注意力网络获取视频的关键帧特征，将两者信息输入模态调节机制调整网络对三种模态的重要性关注度，拼接特征进行短视频谣言检测。针对谣言视频存在不一致问题，提出学习不一致信息的方法，将融入主题、关键帧和不一致性信息的方法ICIM一起用来谣言检测。实验结果表明，在短视频谣言数据集上的F1值比常用的视频分类模型有4％～7％的提升。与融入一致性信息之前的模型相比，在F1值上有2.3％的提升。

Description

一种基于多模态一致性的短视频谣言检测方法

技术领域

本发明属于自然语言处理领域，尤其是涉及一种基于多模态一致性的短视频谣言检测方法。通过融合多模态信息和训练模型的一致性判别能力来解决视频谣言检测任务中由于各模态间信息不一致带来的识别困难问题。

背景技术

随着近些年来短视频平台的快速发展，短视频越来越火，受众也越来越多。据数据分析网QuestMobile平台2021年1月发表的报告：2020年6月，抖音月活跃用户数达到51336万人，快手月活跃用户数达到42975万人；抖音月人均使用时长达到1569.5min，快手则为1162.6min。人人都可随时随地在短视频平台上发表自己的言论、上传视频，这使得短视频平台成为舆论的阵地。

同时，也有一些人通过编造内容、剪切视频、组合内容来制造谣言视频，以达到一些不良的目的，如吸引眼球、引导、传播等。这导致人们很难区分谣言和真实情况，使得有人在无意中成为谣言的传播者。北京师范大学新闻传播学院的统计则显示，近五分之一的网络谣言现在配有短视频。由于受众面广、传播快、煽动性强，网络谣言很容易引起公众的焦虑和恐慌，导致各种群体性事件，严重威胁社会安全。在短视频快速发展的时代，各种短视频平台已经成为谣言传播的温床。由于视频比纯文本或者图文更具有欺骗性，且其来源和真实性难以考证，视频的网络谣言更具危害性。因此，准确及时地检测短视频谣言，对于维护社会媒体平台的舆论稳定，保护国家网络话语权，保证社会秩序的平稳发展具有重要的现实意义。

现存的工作中，对文本信息的谣言检测用到的通常是自然语言处理中常用的几种编码技术，包括RNN、CNN、对抗网络、图结构和自动编码等。

谣言数据往往不仅包含文本信息，还包含视觉信息，如图片和视频。传统的基于统计的方法使用额外的图像数量、图像的流行度和图像的类型来检测谣言。然而，这些基于统计的特征并不能说明图像的语义特征。随着深度学习的发展，学者提出使用神经网络从图像中提取特征，并将提取的特征用于谣言检测。然而，现有的图像造假技术可以改变图像的语义信息，而基于卷积网络模型只能提取像素级的图像信息，无法判断图像是否被造假。

关于文字和视觉信息的研究表明，文字和图片信息在谣言检测任务中证明是有效的。有效地结合文字和视觉信息进行谣言检测，也可以提高谣言检测的效果。

目前短视频谣言检测主要存在以下两个问题：

(1)短视频谣言的多模态信息融合问题。经典的多模态融合更多考虑多个模态从底层特征开始，通过深度学习逐步聚合成为跨模态特征，但谣言视频中存在对于主题的曲解和关键帧的篡改等手段，因此，短视频谣言的多模态融合需要从主题和关键帧角度来学习谣言特征。

(2)模态间不一致问题。人为制造谣言视频的过程，通常是通过对视频的画面、标题和音频进行拼合、剪接和捏造。导致三种模态之间描述的内容、场景、发生的时间等出现不一致的情况。经典的多模态视频分类，更多通过提取多个模态的特征，融合成视频的整体特征进行分类，无法学习到谣言视频模态间不一致的信息。因此，传统的多模态视频分类方法无法很好的应用在谣言视频检测上，短视频谣言检测需要学习模态间不一致信息。

发明内容

本发明的目的在于提供一种基于多模态一致性的短视频谣言检测方法，用于短视频的辟谣，针对短视频谣言的产生手段是曲解主题和篡改关键帧，以及经过人工合成的谣言视频会出现模态间不一致的情况；本发明第一步从主题和关键帧角度来融合多模态谣言特征；第二步通过学习模态间不一致信息来引导多模态间的融合。

本发明包括以下步骤：

1)建立基于主题和关键帧的短视频谣言分类模型TKCM；

2)使用预训练好的各模态特征提取器对单模态特征进行提取，使用聚合网络获取视频的主题特征，使用注意力网络获取视频的关键帧特征，将三种模态输入短视频谣言分类模型TKCM；

3)将各模态的主题特征与关键帧特征输入模态调节机制调整网络对三种模态的重要性关注度，拼接主题特征与关键帧特征，融合多模态信息；

4)构建一致性数据集，训练模态间一致性检测模型获取一致性信息；

5)将主题特征、关键帧特征与一致性信息融合，共同作为短视频谣言检测手段。

在步骤1)中，所述短视频谣言分类模型TKCM包括谣言部分和非谣言部分，从短视频平台获取辟谣视频，人工截取其中存在的谣言部分建立短视频谣言数据集；非谣言部分，从短视频平台上关于知识普及且博主关注量较多的视频中获取。

在步骤2)中，所述三种模态包括文本模态、视觉模态和音频模态；所述使用预训练好的各模态特征提取器对单模态特征进行提取的具体步骤可为：经过预训练模型获得每种模态的单帧特征向量，将每个模态的单帧聚合起来形成整体的主题特征；同时，使用注意力的方式筛选以获取关键帧；分别采用NeXtVLAD网络和Attention Cluster网络这两种聚合网络获取主题特征和关键帧特征；关键帧特征提取采用注意力机制网络AttentionCluster，它能给相对重要的帧分配更多的权重，主要用于选择视频中的关键帧，并获取三种模态下的关键帧表征；主题特征提取采用NeXtVLAD网络选取聚类中心，然后对视觉、文本和音频等进行编码以得到在每个模态下的主题特性表征。

在步骤3)中，所述三种模态的重要性有所不同，在三种模态进行拼接之前，将三种模态的特征向量各自乘以一个小于或者等于1的超参数，对各个模态的特征向量值进行适当的缩小或相对放大，预先改变三种模态在最终分类器中的主导作用。

在步骤4)中，所述构建一致性数据集是通过组合不同的视频中的模态来得到一致性数据集，对于不一致的数据，利用数据集中不同视频中的各个模态进行随机组合；对于模态间是一致的数据，将非谣言数据中相对应的模态进行组合。

在步骤5)中，将文本-视觉和文本-音频一致性模型嵌入到整体谣言分类框架中，将得到的一致性特征分别通过一个全连接层，然后和TKCM中获取的各模态主题关键帧特征拼接。最后，通过线性层映射至二维空间，进行谣言检测二分任务。

本发明建立两个模型，基于主题和关键帧的短视频谣言检测模型、模态间一致性检测模型，将这两个模型得到的多模态融合特征一起用来谣言检测。

与现有的技术相比，本发明具有如下的优点和效果：

(1)本发明通过融合两种模态的信息增强视频谣言检测效果，三种模态中各有其特有的信息差异且能够通过融合提升视频谣言分类效果。

(2)谣言视频中存在对于主题的曲解和关键帧的篡改等手段，本发明多模态融合从短视频谣言的主题和关键帧角度学习谣言特征。

(3)针对模态不一致的谣言视频，本发明提出利用BERT来学习视频中文本-视觉、文本-音频模态间是否一致的信息，再将训练完成的模型嵌入整体框架中，将学习到的一致性信息同谣言特征信息进行融合，辅助模型对谣言的检测。

(4)本发明在短视频谣言数据集上的F1值比常用的视频分类模型有4％～7％的提升。与融入一致性信息之前的模型相比，在F1值上有2.3％的提升。

附图说明

图1为基于主题和关键帧的短视频谣言检测模型结构图。

图2为主题特征提取模块使用的NeXtVLAD网络详细结构。

图3为关键帧特征提取模块使用的Attention Cluster模型结构。

图4为文本-视频一致性分类模型。

图5为本发明提出的基于多模态一致性的短视频谣言检测的整体结构图。

具体实施方式

以下实施例将结合附图对本发明进行作进一步的说明。本发明实施例建立两个模型，基于主题和关键帧的短视频谣言检测模型、模态间一致性检测模型，将这两个模型得到的多模态融合特征一起用来谣言检测。

1.基于主题和关键帧的短视频谣言检测模型

首先使用预训练好的各模态特征提取器对单模态特征进行提取，然后使用聚合网络获取视频的主题特征、使用注意力网络获取视频的关键帧特征，最后将两者信息输入模态调节机制调整网络对三种模态的重要性关注度，并拼接特征进行短视频谣言检测。具体模型结构如图1所示。

视频共包含三种模态，分别是文本模态、视觉模态和音频模态。采用各模态下预训练过的特征提取器进行特征提取。

文本来自视频的标题，经过数据的预处理之后，通过预训练模型BERT，取最后一层的输出，得到上下文对应的文本特征向量H_t＝{h_t1，h_t2…h_tn}，其中H_t∈R^tn*768，tn为文本的token长度。

对于音频，采用预训练模型，获得音频特征向量。将音频重采样为16kHz单声道音频，使用25ms的Hann时窗，以十毫秒的帧移对音频进行短时傅里叶变换得到频谱图，然后将频谱图映射到六十四阶mel滤波器组中计算mel声谱，计算log(mel-spectrum+0.01)，以求得稳定的mel声谱。其中，所加的0.01的偏置值是为避免对0取对数。这些特征以0.96s的时长被组帧，并且没有帧的重叠，每一帧都包含64个mel频带，时长10ms(即总共96帧)。模型输出数据格式为[nums_frames，128]，其中nums_frames为帧长，nums_frames表示音频时长/0.96。通过这些操作，获得音频的特征编码表示H_a＝{h_a1，h_a2…h_an}，其中H_a∈R^an*768，an为音频的帧长。

视频经过抽帧处理后，得到多张图像，利用视频预训练模型对抽取的图像进行特征提取。为了与音频保持同步，按每间隔0.96秒对视频抽取一帧，将其保存；视频中抽取出来的帧依次输入预训练过的ResNet-50模型后得到每帧对应的编码表示。将一个视频中序列帧的特征向量表示为H_p＝{h_p1，h_p2…h_pn}，其中H_p∈R^pn*768，pn为每个视频抽取的帧数。

主题特征提取采用NeXtVLAD网络选取聚类中心，对视觉、文本和音频等进行编码以得到在每个模态下的主题特性表征。NeXtVLAD的完整结构如图2所示，简化结构见图1的主题特征提取模块。各模态的特征信息在聚合和编码以前用attention方法分解成一个在比较低纬度的特征向量。定义NeXtVLAD网络的输入有M帧，每帧为N维，G为分组的大小。先将输入向量x经过全连接层，将输入向量的N维特征升维到λN维，记为其中λ通常设置为2，即将(M，N)转化为(M，2*N)。接着通过三条支路，第一条先将转化为即将(M，λN)转化为再将分别与k个维度为的聚类中心c_k做差，即下方公式中的第二条支路将输入到全连接层再经过激活函数sofimax，即下方公式中的表示第i帧的第g组的特征在第k个聚类中心c_k的比例。第三条支路将输入到全连接层再经过sigmoid，即下方公式中的表示第i帧在第g组的权重，相当于注意力大小；最终将每帧划分为g个较低维度的特征向量空间，则每帧视频可表示为：

聚合多帧图片的特征，在帧维度和组维度求和，即得到聚合之后的特征Y_jk，即下式：

将得到的聚合特征进行降维。通过一个全连接层对Y_jk进行降维，最终得到NeXtVLAD的输出。

关键帧特征提取采用注意力机制网络Attention Cluster。它能给相对重要的帧分配更多的权重，主要用于选择视频中的关键帧，并获取三种模态下的关键帧表征。Attention Cluster的模型结构如图3所示，整个模型可以分为局部特征集成和获得全局关键帧特征向量两个部分。

局部特征集成，获得基于注意力的全局特征。注意力输出本质上等同于一个加权平均，v＝aX。v是由注意力单元得出的全局特征，a是由两个全连接层组成的权重向量，a＝softmax(w₂ tanh(W₁X^T+b₁)+b₂)。在实际实现中，v是由移位操作产生的，其中，α和β是可学习的标量。通过对每一个注意力单元的输出添加一个独立可学习的线性变换处理后进行L2正则化，使每个注意力单元倾向于学习不同的分布特征，这使得注意力集群能够更好地学习来自不同分布的数据，改善整个网络的学习表示。由于使用注意力集群，每个注意力单元的输出被组合起来，得到多个全局特征g＝[v₁，v₂，…，v_N]，其中N是聚类簇的数量。

获得全局关键帧特征向量。将多个全局特征拼接以后，使用全连接层对其降维，得到的向量特征作为模型的输出。通过Attention Cluster网络分别对上述步骤提取到的每个模态聚合，得到文本、视频、视觉下的关键帧特征向量，分别记为H_t-AC∈R^1*768、H_a-AC∈R¹ ^*768、H_p-AC∈R^1*768。

两个聚合网络提取出来的各个模态下的主题特征向量与关键帧特征向量分别进行拼合，公式如下所示，得到每种模态对应的视频级特征向量。分别表示为：

将各模态特征向量各自乘以超参数，范围是(0，1]，对各个模态的特征向量值进行适当的缩小或相对放大，预先改变三种模态在最终分类器中的主导作用，本发明将此称之为模态调节机制。三种模态在进行拼接前进行如下公式的转换，其中α、β和γ为人为设置的超参数。

调节后的多模态特征分别经过全连接层进行线性变化得到H_t、H_a、H_p，拼接得到H_v，最后经过线性映射至二维空间，进行二分类任务，公式如下：

H_t＝H_t-outW_t

H_a＝H_a-outW_a

H_p＝H_p-outW_p

H_v＝[H_t，H_a，H_p]

logits＝W^TH_v+b

p(y|logits)＝softmax(logits)

其中，W和b分别是最后的线性层权重与偏差。为了对模型进行训练，采用最小化交叉熵损失函数。

2.基于模态间一致性的短视频谣言检测模型

人为制造谣言视频常常会导致三种模态之间描述的内容、场景、发生的时间等出现不一致的情况。例如，标题是“大象会飞”，而视频中的画面却是其它动物的飞行，将其称为模态间的不一致性。这一部分是用来检测模态间不一致性。

首先，通过对谣言视频数据集的视频标题、视觉序列和音频序列进行分离，得到每个视频中的文本、视觉、音频三种模态的数据集，通过组合不同视频中的模态得到一致性数据集。

对于标签为负的数据，即模态间是不一致的数据集，利用数据集中不同视频中的各个模态进行随机组合。例如视频A的视觉模态和视频B的文本模态，将其组合为一条数据。采用的谣言数据集有584条、非谣言数据集有625条，通过随机拼合的方式，共可获得1209条不一致的数据。

对于标签为正的数据，即模态间是一致的数据集，默认非谣言数据中模态都是一致的。故将非谣言数据中相对应的模态进行组合，例如，在谣言数据集中，视频A的视觉模态和视频A的文本模态，将其组合为一条数据。非谣言数据集有625条，故可获得625条一致性数据。

构建完数据后，设计一致性分类模型，模型结构如图4所示，以文本-视频一致性数据说明。由于BERT及其多种变体已经被证明能较好的处理文本视觉音频的数据。而且BERT对文本编码的有效性以及文本-视觉一致性数据集和文本-音频一致性数据集都需要对文本有深层次的理解，所以本发明选用BERT来学习一致性信息。

对于文本分类任务，在BERT的输入起始位置插入一个[CLS]符号，将该符号对应的输出向量作为整个文本的语义表示，用于文本分类，[CLS]可以理解为：与文本中已有的其它字或者词相比，引入这个额外的符号代表无明显语义信息，能更加公平地融合文本中各个字或词的语义信息，作为整段文本的特征表示。[SEP]符号作为分割，放置在两句话的中间。在本发明中采用这种想法并做出修改以适应多模态的输入，以文本视觉一致性分类模型举例，通过拼接“[CLS]文本表征[SEP]视觉表征”作为BERT的输入，[SEP]用来分隔不同模态间的特征表示。

在一致性模型中，以一致性标签为导向，将[CLS]对应的输出作为最后分类的输入。通过这种方式，使得模型学习到的一致性信息最终能够保存在[CLS]这个字符的特征向量中，以便后续嵌入整体模型使用[CLS]来提取学习到的一致性信息。

通过分别在文本-视觉一致性数据集和文本-音频一致性数据集上训练BERT，得到包含有一致性信息的文本-视觉BERT和文本-音频BERT，分别用bert-p和bert-a代表。

3.融合主题关键帧和一致性分类模型

谣言的特征往往不只在于模态间不一致，尽管描述的内容和视频音频内容相符合，但是可能出现对主题的曲解引导和关键帧篡改成与描述内容一致。所以，需要融合主题关键帧和一致性分类模型，一起对短视频谣言进行检测，融合模型的整体结构如图5所示。

将两个一致性特征H_[CLS]-p、H_[CLS]-a和三种模态的视频级特征，即将和拼接，得到H_o，如下公式所示：

将得到的视频表征H_o经过线性层映射到二维空间，进行二分类任务；将得到的二维向量进行softmax操作，得到输出类别y的概率，具体过程如下式，损失函数采用交叉熵损失：

logits＝W^TH_o+b

p(y|logits)＝softmax(logits)

以下具体实施例包含三部分：基于主题和关键帧检测短视频谣言、一致性分类、融合主题关键帧和一致性信息辟谣。基于主题和关键帧检测短视频谣言部分,以下简称TKCM包含4个实施例：TKCM模态组合分析、TKCM性能评估、TKCM各模块评估、TKCM案例分析。一致性分类部分包括1个实施例：一致性分类的实验评估。融合主题关键帧和一致性信息短视频辟谣部分，以下简称ICIM，包含3个实施例：ICIM性能评估、ICIM各模块评估、ICIM案例分析。

1.基于主题和关键帧检测短视频谣言部分实验

本发明构建一个短视频谣言数据集，从抖音平台获取辟谣短视频，这些辟谣视频中包含谣言部分，人为裁剪出谣言部分作为短视频谣言。对于非谣言短视频，从抖音平台获取普及知识且用户关注量多的博主视频。两部分一起作为短视频谣言数据集，数据集大小表1所示。

表1谣言数据集

谣言数据集	非谣言	谣言	总和
				训练集	500	468	968
测试集	125	116	241
				总和	625	584	1209

实验中，使用BERT提取的文本特征向量维度768，使用音频预训练模型提取出的音频特征向量维度128，使用ResNet提取的视觉特征向量维度1024。在训练模型时，优化函数为ADAM，初始的学习率0.0002，同时使用L2正则化和Dropout防止模型过拟合。

在模态调整机制中，超参数的设置分别为α＝0.8、β＝0.7、γ＝1，这是经过实验后发现该设置时效果最好。

一、TKCM模态组合分析

为了验证各种模态及其组合在短视频谣言检测中的效果，分别设置单模态、多种模态组合进行实验。在实验中，为了公平性，删除模态调节机制，表2展示实验结果，实验结果采用准确率、精确率、召回率和F1值作为评价指标。

表2模态组合实验结果

模态	准确率	精确率	召回率	F1值
					文本	69.7％	71.3％	69.9％	70.4％
视觉	72.1％	72.6％	72.8％	73.4％
					音频	68.9％	70.5％	68.8％	69.6％
文本+视觉	75.9％	77.2％	76.0％	76.6％
					文本+音频	72.6％	74.0％	72.8％	76.6％
视觉+音频	74.6％	76.2％	74.4％	75.3％
					文本+视觉+音频	75.5％	76.7％	76.0％	76.3％

对比三个单模态的实验结果可以发现，单纯利用视觉模态比单纯利用其它模态的实验效果更好。利用视觉模态比文本模态在准确率上有两个多百分点的提升，比音频模态有三个多个百分点的提升。说明在谣言视频检测中视觉模态发挥更加重要的作用，其次为文本模态。这也为本发明中提出的模态调节机制指明超参数设置大小。

对比单模态及其对应的双模态组合，例如对比仅利用文本模态和文本+视觉、文本+音频的双模态组合实验结果，可以发现不管是融入视觉模态还是音频模态，效果都有了提升，说明文本模态与视觉模态和音频模态之间包含的信息具有差异，可以通过融合两种模态的信息来增强视频谣言检测效果。

对比双模态组合与三模态的实验结果，双模态中效果最好的组合(即文本+视觉)的结果在准确率上高于三种模态的组合，说明加入模态调节机制是必要的。

总而言之，在短视频谣言检测中视觉模态发挥更加重要的作用，其次为文本模态。模态之间包含的信息具有差异，可以通过融合两种模态的信息来增强视频谣言检测效果。三种模态中各有其特有的信息差异且能够通过融合来提升视频谣言分类效果。

二、TKCM性能评估

将基于主题和关键帧检测短视频谣言模型与其他模型的实验结果对比，表3展示实验结果，其中加粗部分为最优结果。通过对比本文模型与其它视频分类模型的效果可以发现，该模型在短视频谣言数据集上表现出最佳的效果，准确率比其它模型有1.7％～4.6％的提升，这表明通过基于主题和关键帧特征提取的有效性，同时也说明对主题和关键帧的建模更适合短视频谣言检测任务。

表3 TKCM与不同模型实验结果对比

模型	准确率	精确率	召回率	F1值
					VideoLSTM	73.9％	75.4％	73.6％	74.5％
FSTCN	72.6％	74.4％	72.2％	73.2％
					ActionVLAD	75.1％	76.4％	75.2％	75.8％
TPN	75.1％	76.9％	74.4％	75.6％
					att-RNN	72.2％	73.8％	72.0％	72.9％
MVT	75.5％	77.0％	75.2％	76.1％
					TKCM	77.2％	78.2％	77.6％	77.9％

表3中VideoLSTM、FSTCN、ActionVLAD和TPN是基于单模态的视频分类，而att-RNN、MVT、TKCM和都是基于多模态的方式，从中可以看出多模态的方式在准确率上普遍比单模态高，说明利用多种模态对于视频谣言检测是有帮助的。其中，att-RNN虽然利用了视觉与文本模态，但是准确率较低。att-RNN在各个模态的特征提取上利用的是较为原始的LSTM和VGG，而MVT利用的模型如文本的ERNIE更能获取高级的特征，通过与MVT的比较，可以发现att-RNN在谣言视频检测上效果较差的原因是att-RNN对于特征提取模型较弱，无法获取视觉、文本的高级特征而导致的，同时也验证各模态特征提取器的重要性。

通过该实验可知，对主题和关键帧的建模适合谣言视频任务的检测。利用多种模态对于视频谣言检测是有帮助的，各模态的特征提取器影响谣言视频检测效果。

三、TKCM各模块评估

表4展示基于主题和关键帧检测短视频谣言模型与去掉各个模块后实验结果对比，其中加粗部分为最优结果。通过表格可以直观看出，将TKCM-NV、TKCM-AC同其他模型对比，分别只利用主题特征和关键帧特征都能提升分类效果。结合主题特征和关键帧特征能够更加有效的提升谣言视频的分类效果。该结果说明通过结合视频的三种模态上的两种信息，能够有效的提升模型的分类效果。其次，聚类的主题抽取和关键帧抽取能够在谣言检测中挖掘不同的信息，形成信息互补优势。

表4

模型	准确率	精确率	召回率	F1值
					TKCM-NV	75.9％	77.2％	76.0％	76.6％
TKCM-AC	75.5％	77.0％	75.2％	76.1％
					TKCM-MAM	75.5％	76.7％	76.0％	76.3％
TKCM	77.2％	78.2％	77.6％	77.9％

表中，AC代表AttentionCluster网络，NV代表NeXtVLAD网络，MAM代表模态调节机制，“-”代表在模型中将该模块去掉。

为探究模态调节机制效果，将模态调节机制去掉，实验以验证模态调节机制有效性。实验表明，去掉模态调节机制后，在准确率上有所下降。表明三种模态的重要性不同且通过模态调节机制能够帮助模型更好的提升分类效果。同时，通过三种模态的模态调节机制权重大小(视觉1.0、文本0.8、音频0.7)，可以发现视觉模态在短视频谣言检测中发挥最重要作用。

注意力机制需要足够的数据量进行学习，由于数据量少导致网络训练不充足，无法对各个模态进行足够的注意力分配，模态间的重要性差异无法得到体现，导致分类效果差。针对此问题，采用模态调节机制。为了验证模态调节机制的可行性和有效性，将模态调节机制替换为一层自注意力机制，进行实验对比。

表5模态调节机制对比实验结果

模型	准确率	精确率	召回率	F1值
					Attention	76.3％	77.9％	76.0％	76.9％
MAM	77.2％	78.2％	77.6％	77.9％

表中，MAM代表模态调节机制，Attention代表注意力机制。

表5展示模态调节机制的实验结果。通过对比实验结果，使用模态调节机制比注意力机制在F1值上有一个百分点的提升，模态调节机制通过超参数的设置方式在数据量少的情况下比注意力机制表现得更好，说明本文提出的模态调节机制的有效性。

同时，也说明注意力机制在少量数据集上训练无法充分发挥这些输入之间的关系，无法指导模型对重要特征进行充分注意，而模态调节机制通过人为设置的方式指导模型对重要模态进行更多的关注，从而解决数据量小情况下注意力无法充分训练问题。

实施例4：TKCM案例分析

选取若干样本进行实验测试。表6选取的两个例子进行展示说明。表7为各个模型对上述两个例子中的预测结果，为方便观看，表格中将真实标签加粗加下划线，预测正确的加粗。

表6谣言案例

通过对比TKCM-NV、TKCM-AC和TKCM可以发现，TKCM-NV对例子1的预测错误、对例子2预测正确，TKCM-AC对例子1的预测正确、对例子2预测错误，而当两个网络结合起来，对两个例子的预测都正确。说明通过两个网络的信息融合能够进行信息互补增强，从而有助于短视频谣言检测任务。

TKCM在两个例子上的预测结果正确，VideoLSTM、FSTCN、att-RNN、ActionVLAD、TPN和MVT在预测上都出现错误，表明TKCM在部分例子上具有更好的检测能力，能够捕获其它模型没有获取的有效信息。具有比其它模型突出的检测能力。

表7不同模型对样例的预测结果

模型	例子1	例子2
			正确标签	<![CDATA[<u>谣言</u>]]>	<![CDATA[<u>谣言</u>]]>
VideoLSTM	非谣言	非谣言
			FSTCN	非谣言	非谣言
ActionVLAD	谣言	非谣言
			TPN	非谣言	非谣言
att-RNN	非谣言	谣言
			MVT	非谣言	谣言
TKCM-NV	非谣言	谣言
			TKCM-AC	谣言	非谣言
TKCM	谣言	谣言

2.一致性分类部分

实施例5：一致性分类实验评估

一致性分类模型中是在中文语料库预训练过的bert版本，由Hugging face提供的bert-base-chinese版本，每个token的向量维度768。在训练过程中，使用的优化函数为ADAM，初始的学习率0.0002，同时使用L2正则化和Dropout来防止模型过拟合。

本实施例中构建两种数据集，第一种是文本-视觉一致性数据集；第二种是文本-音频一致性数据集。即分别构建文本-视觉一致性数据和不一致数据，文本-音频一致性数据和不一致数据。表8展示了这两个数据集的详细的数据情况。

表8一致性数据集

	一致数据量	不一致数据量	总和
				文本-视觉一致性	625	1209	1834
文本-音频一致性	625	1209	1834

为了更好的理解本发明构建的一致性数据集，表9展示文本-音频数据集中正负样本的例子。

表9文本-视觉一致性数据举例

由于视频中音频信息是一系列的音频信号，为了展示视频中的音频信息，将视频中说话的内容记录下来，作为音频信息展示，实际操作中处理的是wav格式的音频信号。

为验证一致性分类模型对一致性信息特征的表达效果，使用构建好的一致性数据集进行模态间一致性分类实验，表10展示实验结果。

表10一致性分类实验结果

模型	准确率	精确率	召回率	F1值
					BERT-p	88.8％	80.4％	88.8％	84.4％
BERT-a	86.6％	77.1％	86.4％	81.5％

表中，BERT-p和BERT-a分别代表文本-视觉和文本-音频一致性分类模型。

通过表中的实验结果可以直观发现，文本-视觉一致性分类的准确率达到88.8％，文本-音频准确率也能够达到86.6％。说明利用预训练模型BERT并且通过微调能够得到较好的分类效果，能够高效的识别出模态间的一致性与否。这种较佳的一致性分类效果说明模型学习到了模态间的一致性信息，在嵌入整体模型后能够挖掘出新数据的一致性信息。

模型以一致性标签为导向，在模型的下游任务中，将“[CLS]”输入最后的线性分类器中，达到较好的实验效果。同时，较高的分类效果也证明“[CLS]”对应的表征中包含模型学习到的一致性信息，能够在嵌入整体模型中利用“[CLS]”表征获取一致性信息，从而辅助模型进行短视频谣言检测。

3.融合主题关键帧和一致性信息短视频辟谣部分

实施例6：ICIM性能评估

融入一致性谣言检测实验设置如下，在训练模型时，冻住bert-a、bert-p不再训练，优化函数为ADAM，初始的学习率为0.0002，同时使用L2正则化和Dropout防止模型过拟合。模型总参数量约为600M。

同前所述，在模态调节机制中，超参数设置分别为α＝0.8、β＝0.7、γ＝1，即在拼接之前文本模态乘以0.8、音频模态乘以0.7、视觉模态乘以1.0。

在分类器中会通过输出一个一维向量，包含与类别数量一样个数的概率值，即代表着该视频属于每个类别的概率值，将概率值最大的对应的类别作为预测结果。表11展示对比实验结果，其中加粗部分为最优结果。通过对比本文模型与其它视频分类模型的效果可以发现，本发明在短视频谣言数据集上表现出最佳的效果。

在融合文本-视觉、文本-音频一致性信息之后，准确率和精确率在所有的对比模型中最高，说明文本-视觉、文本-音频一致性信息有利于模型自动谣言检测，提高谣言检测的效果。ICIM在TKCM的基础上增加一致性信息差，分类效果得到提升，这说明短视频谣言中不同模态间存在一致性信息差，这种信息差对谣言分类起到帮助作用，提升分类效果。

表11 ICIM与不同模型的实验结果对比

模型	准确率	精确率	召回率	F1值
					VideoLSTM	73.9％	75.4％	73.6％	74.5％
FSTCN	72.6％	74.4％	72.2％	73.2％
					ActionVLAD	75.1％	76.4％	75.2％	75.8％
TPN	75.1％	76.9％	74.4％	75.6％
					att-RNN	72.2％	73.8％	72.0％	72.9％
MVT	75.5％	77.0％	75.2％	76.1％
					TKCM	77.2％	78.2％	77.6％	77.9％
ICIM	79.7％	80.6％	80.0％	80.2％

实施例7：ICIM各模块评估

不同多模态间一致性信息可能影响检测效果，为研究多模态间一致性信息差对谣言分类的影响程度，本实施例中分别删除文本视觉一致性和文本音频一致性信息进行实验，表12中展示实验结果。

表12 ICIM不同模态一致性影响结果

模型	准确率	精确率	召回率	F1值
					ICIM-(bert-a)	79.3％	81.0％	78.4％	79.7％
ICIM-(bert-p)	77.6％	78.9％	77.6％	78.2％
					TKCM	77.2％	78.2％	77.6％	77.9％
ICIM	79.7％	80.6％	80.0％	80.2％

在表12中，bert-p、bert-a分别代表文本-视觉一致性BERT、文本-音频一致性BERT,“ICIM-”表示ICIM去掉后面的模块。

在对比只融入一种一致性信息时，即表中的第一行和第二行，只融入文本-视觉特征时，效果最优，说明文本-视觉的一致性信息在谣言检测时发挥更加重要作用。由于召回率代表的是正样本中正确预测的比例，说明文本与视觉的一致性信息可对正样本进行更好的分类。精确率在融入两者信息却出现下降的效果，部分正样本在文本-音频一致上未能有明显的信息，而融入文本-音频一致性信息后反而带来噪声。

为了验证ICIM模型在不同类型的谣言视频上的分类结果，我们根据谣言的类型对谣言数据集进行了更准确的划分，然后对各类型谣言的分类结果进行统计。测试集中划分的数量以及统计结果见表13。然后对比TKCM和ICIM在不同谣言类型上的分类结果，见表14。

文本型谣言短视频指的是在视频中以文字的形式呈递谣言的内容。例如视频中以聊天记录的形式呈现内容，通过视频中配上相应的配音、BGM构建的视频。

知识型谣言短视频指视频中的讨论的内容涉及到专业领域，需要特定的专业知识才能辨认出是否为谣言；编造消息型谣言短视频指的是为了达到某一目的人为编造出来的假消息。在视频中配上这一消息的说明，使该类型的谣言短视频以假乱真；曲解实情型谣言短视频指的是对视频中的实际情况进行曲解，在短视频中融入曲解视频内容的说法，以引起他人关注。

表13 ICIM对不同类型谣言视频实验结果

对比TKCM和ICIM模型可以发现，加入一致性信息之后在除了文本类型短视频谣言上其它各个类型上的检测效果都得到了提升。尤其是在曲解实情类和编造消息类，说明一致性信息对这两类的短视频谣言类型的检测帮助最大。相对于单纯的对视频的主题和关键帧特征学习，一致性信息能够对比模态间的信息，使得曲解实情类模态之间的不对应关系被发现，从而提升模型对曲解实情类和编造消息类的分类效果。

表14 TKCM和ICIM在不同类型谣言短视频实验对比

类型	TKCM	ICIM
			文本型	50.0％	50.0％
知识型	76.3％	78.9％
			编造消息	75.0％	83.3％
曲解实情	80.0％	90.0％
			总计	75.0％	79.3％

实施例8：ICIM案例分析

该实施例中选取若干个样本进行实验测试。表15选取的两个例子展示说明。表16中展示各个模型对上述两个例子中的预测结果，为了方便观看，表格中将预测正确的加粗。

表15ICIM谣言案例

例子1说明：企鹅是一种不会飞的动物，视觉中的动物是鸟，与标题中所说的企鹅不一致。

例子2说明：视频中说的人造鸡蛋是一种玩具，标题中的人造鸡蛋与视觉中的玩具不一致。

表16不同模型案例预测结果

模型	例子1	例子2
			VideoLSTM	非谣言	非谣言
FSTCN	非谣言	非谣言
			att-RNN	谣言	非谣言
ActionVLAD	非谣言	非谣言
			TPN	非谣言	非谣言
MVT	谣言	非谣言
			ICIM	谣言	谣言
TKCM	非谣言	非谣言
			ICIM-(bert-p)	谣言	非谣言
ICIM-(bert-a)	谣言	谣言

从表可以发现，ICIM和ICIM-(bert-a)模型能有效识别出模型不一致的谣言视频，而其他模型对上述两个例子的预测出现错误。

通过对比TKCM模型和ICIM模型，说明融入带有一致性信息的模块能帮助模型识别出模态不一致的谣言视频，证明在视频谣言分类中加入一致性，能有效辅助模型谣言自动检测。

通过对比ICIM-(bert-a)模型和ICIM-(bert-p)模型，ICIM-(bert-a)的两个预测结果都是正确的，而ICIM-(bert-p)模型对例子2的预测出现错误，说明在部分例子中，文本-视觉一致性信息更重要，更能够有效的辅助模型进行短视频谣言自动检测。

通过对比TKCM模型和ICIM-(bert-p)模型，TKCM模型在两个例子中的预测结果都是错误的，而在融入文本-音频一致性信息之后，对例子1的预测结果是正确的，说明文本-音频一致性信息发挥作用，也能够辅助模型进行短视频谣言自动检测。

对于VideoLSTM、FSTCN、att-RNN、ActionVLAD和TPN预测都出现错误的结果，其中att-RNN使用视觉与文本两种模态特征，而其他基准模型只使用视觉特征，说明单纯的使用部分模态的信息对于谣言的视频检测存在信息不足的现象。att-RNN、MVT在例子1上取得正确的预测结果，可能是由于较其他基准模型获得更多的标题文本信息。

实验和结果表明，本发明相对于现有的技术具有如下的优点和效果：

(1)从实例分析中可以看出，模态之间包含的信息具有差异，可以通过融合两种模态的信息增强视频谣言检测效果。三种模态中各有其特有的信息差异且能够通过融合来提升视频谣言分类效果。

(2)经典的多模态融合更多考虑多个模态从底层特征开始，通过深度学习逐步聚合成为跨模态特征。但谣言视频中存在对于主题的曲解和关键帧的篡改等手段，本发明考虑多模态融合需要从短视频谣言的主题和关键帧角度来学习谣言特征。

(3)针对模态不一致的谣言视频，本发明提出利用BERT学习视频中文本-视觉、文本-音频模态间是否一致的信息。再将训练完成的模型嵌入整体框架中，将学习到的一致性信息同谣言特征信息进行融合，辅助模型对谣言的检测。

Claims

1.一种基于多模态一致性的短视频谣言检测方法，其特征在于包括以下步骤：

1)建立基于主题和关键帧的短视频谣言分类模型TKCM；

2.如权利要求1所述一种基于多模态一致性的短视频谣言检测方法，其特征在于在步骤1)中，所述短视频谣言分类模型TKCM包括谣言部分和非谣言部分，从短视频平台获取辟谣视频，人工截取其中存在的谣言部分建立短视频谣言数据集；非谣言部分，从短视频平台上关于知识普及且博主关注量较多的视频中获取。

3.如权利要求1所述一种基于多模态一致性的短视频谣言检测方法，其特征在于在步骤2)中，所述三种模态包括文本模态、视觉模态和音频模态。

4.如权利要求1所述一种基于多模态一致性的短视频谣言检测方法，其特征在于在步骤2)中，所述使用预训练好的各模态特征提取器对单模态特征进行提取的具体步骤为：经过预训练模型获得每种模态的单帧特征向量，将每个模态的单帧聚合起来形成整体的主题特征；同时，使用注意力的方式筛选以获取关键帧；分别采用NeXtVLAD网络和AttentionCluster网络这两种聚合网络获取主题特征和关键帧特征；关键帧特征提取采用注意力机制网络Attention Cluster，它能给相对重要的帧分配更多的权重，主要用于选择视频中的关键帧，并获取三种模态下的关键帧表征；主题特征提取采用NeXtVLAD网络选取聚类中心，然后对视觉、文本和音频等进行编码以得到在每个模态下的主题特性表征。

5.如权利要求1所述一种基于多模态一致性的短视频谣言检测方法，其特征在于在步骤3)中，所述三种模态的重要性有所不同，在三种模态进行拼接之前，将三种模态的特征向量各自乘以一个小于或者等于1的超参数，对各个模态的特征向量值进行适当的缩小或相对放大，预先改变三种模态在最终分类器中的主导作用。

6.如权利要求1所述一种基于多模态一致性的短视频谣言检测方法，其特征在于在步骤4)中，所述构建一致性数据集是通过组合不同的视频中的模态来得到一致性数据集，对于不一致的数据，利用数据集中不同视频中的各个模态进行随机组合；对于模态间是一致的数据，将非谣言数据中相对应的模态进行组合。

7.如权利要求1所述一种基于多模态一致性的短视频谣言检测方法，其特征在于在步骤5)中，所述将主题特征、关键帧特征与一致性信息融合的具体步骤为：将文本-视觉和文本-音频一致性模型嵌入到整体谣言分类框架中，将得到的一致性特征分别通过一个全连接层，然后和TKCM中获取的各模态主题关键帧特征拼接；通过线性层映射至二维空间，进行谣言检测二分任务。