CN117874607A - 一种虚假新闻早期检测方法、系统、设备、介质 - Google Patents
一种虚假新闻早期检测方法、系统、设备、介质 Download PDFInfo
- Publication number
- CN117874607A CN117874607A CN202311801082.5A CN202311801082A CN117874607A CN 117874607 A CN117874607 A CN 117874607A CN 202311801082 A CN202311801082 A CN 202311801082A CN 117874607 A CN117874607 A CN 117874607A
- Authority
- CN
- China
- Prior art keywords
- text
- modal
- features
- mode
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 85
- 230000000007 visual effect Effects 0.000 claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 23
- 230000004927 fusion Effects 0.000 claims description 25
- 238000013461 design Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 48
- 239000000284 extract Substances 0.000 abstract description 11
- 238000000034 method Methods 0.000 description 35
- 239000000523 sample Substances 0.000 description 29
- 238000002474 experimental method Methods 0.000 description 13
- 238000002679 ablation Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/091—Active learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
针对现实情况下小样本、多模态的虚假新闻早期检测场景,检测准确度低的问题,本发明公开了一种虚假新闻早期检测方法,基于多模态预训练模型CLIP构建了一个多模态提示学习框架,首先利用CLIP的图像编码器和文本编码器分别提取虚假新闻的视觉特征和文本特征;其次,通过多模态提示学习框架将视觉特征和文本特征融合,得到融合的多模态特征,并设计可学习的提示向量,将可学习的提示向量输入到预训练的CLIP文本编码器得到类别特征;最后,通过计算多模态特征与类别特征之间的余弦相似性,进行多模态新闻分类,从而实现在小样本情况下对虚假新闻进行早期检测。
Description
技术领域
本发明涉及多模态虚假新闻检测以及预训练模型提示学习技术领域,具体涉及一种虚假新闻早期检测方法、系统、设备、介质。
背景技术
社交媒体信息是由短文本和视觉数据构成的多模态信息,已成为人们接受和发布新闻的一种流行方式。由于其生动的视觉感知,吸引读者在社交媒体平台上浏览新闻。随着信息通过社交媒体平台快速传播,这些信息中带有负面甚至恶意目的的虚假新闻利用这种戏剧性的视觉背景迅速传播,可能造成严重后果。因此,至关重要的是在早期阶段确定其真实性,以避免严重后果。现有研究发现,在没有有效的传播网络和充足的标记数据的情况下,对虚假新闻的显性提醒会降低虚假新闻带来的不良后果,所以应对虚假新闻进行早期检测。
而越来越多的社交媒体新闻不仅涉及自然语言内容,还涉及图片和视频等视觉内容,这为利用多模态数据进行虚假新闻早期检测提供了新的视角。在现有技术中,根据是否有充足的带标记的训练数据,将现有的虚假新闻检测方法可以分为:数据充足场景下的有监督方法和小样本场景下的弱监督方法两类。
有监督多模态虚假新闻检测方法,利用了文本和视觉模态的新闻信息,并高度依赖于高质量的标签数据。随着深度神经网络和预训练模型的兴起,出现很多功能强大的特征提取器,比如文本特征提取器Bert,Transformer等,视觉特征提取器VGG,ResNet等。Singhal等人利用视觉特征提取器提取视觉信息,利用文本特征提取器提取文本特征,之后将视觉信息和文本信息进行拼接融合,进行虚假新闻检测。Wang等人设计了一个辅助任务,事件鉴别,来度量不同事件之间的差异,并进一步学习新闻事件的不变特征,通过辅助任务更好的理解多模态信息,从而帮助虚假新闻检测。Khattar提出了端到端的多模态变分自编码器,使用双峰的变分自编码器和二元分类器进行虚假新闻检测任务。Qian等人将所得文本和图像表示送入一个多模态的上下文注意力网络以融合模态内和模态间的关系,并设计了一个层次化的编码网络来捕获虚假新闻检测中丰富的语义信息。Wu等人从图像中提取空间域特征和频域特征,从文本中提取文本特征,将多个共注意力层堆叠在一起融合多模态特征,可以学习到多个模态之间的依赖关系。
弱监督虚假新闻检测方法,可以在小样本场景下进行预测的方法。许多模型基于图结构或伪标签来利用部分标注的数据进行虚假新闻检测。Jiang等人提出通过预训练语言模型让提示学习指导虚假新闻检测的方法。Jiang等人针对小样本的应用场景提出了多模态虚假新闻检测模型,利用CLIP模型生成的多模态特征与预训练的语言模型的文本表示相融合,以帮助虚假新闻检测的提示学习。
然而,由于数据标注需要消耗大量的人力物力,现实场景存在大量不完全标注(部分数据有标注,部分数据没有标注),不精确标注(标注的数据往往粒度较粗),不准确标注(标注数据不一定准确,可能存在错误标注)的情况,因此需要模型可以在小样本的场景下进行虚假新闻检测。而第一类方案,即有监督多模态虚假新闻检测方法,需要大量有标注数据,在小样本情况下表现不佳,也就很难应用于虚假新闻的早期检测。第二类方案虽然可以应用于小样本场景,但部分模型只关注文本信息进行单模态虚假新闻检测,忽略了视觉模态中蕴含的语义信息。基于现有的工作,Jiang等人在不久前针对小样本的应用场景提出了多模态虚假新闻检测模型,利用CLIP模型生成的多模态特征与预训练的语言模型的文本表示相融合,以帮助虚假新闻检测的prompt learning。然而,该模型并未充分贴合CLIP原有的预训练方式,导致CLIP的优势并未被完全发挥出来。
综上所述,现有方法并未针对现实情况下小样本、多模态的虚假新闻早期检测场景进行设计,在利用预训练模型时也没有充分贴合原有的预训练方式来最大程度的利用预训练时已学到的知识。
发明内容
针对上述存在的问题,本发明针对小样本情景下的多模态虚假新闻检测任务,以多模态预训练模型CLIP为基础,改进CLIP手工制定的提示模板,将设计可学习的提示向量与多模态表示进行对比学习,提出一种基于多模态提示学习的虚假新闻早期检测方法,实现少样本多模态虚假新闻检测。
本发明所采用的技术方案如下:
一种虚假新闻早期检测方法,其特征在于,包括以下步骤:
步骤1:获取待检测的多模态信息;
步骤2:构建多模态提示学习框架;
步骤3:将待检测的多模态信息输入到多模态提示学习框架中;
步骤4:通过多模态提示学习框架进行多模态学习,对待检测的多模态信息进行检测,并输出检测结果。
进一步地,步骤2构建的多模态提示学习框架包括特征抽取模块、多模态特征融合模块、可学习的Prompt设计模块和相似性计算模块;
特征抽取模块,用于利用预训练好的CLIP模型抽取输入的待检测的多模态信息的视觉特征和文本特征;
多模态特征融合模块,用于将抽取出的视觉特征和文本特征进行融合,得到待检测的多模态信息的多模态特征;
可学习的Prompt设计模块,用于通过一组可学习的向量代替原来手工设计的提示模板,通过可学习向量得到类别特征;
相似性计算模块,用于计算多模态特征与类别特征之间的余弦相似度,对待检测的多模态信息进行分类。
进一步地,所述多模态特征融合模块包括两个并行的共注意力模块以及一个全连接层,每个共注意力模块包括依次连接的多头注意力层、残差连接&归一化、全连接前馈网络层、残差连接&归一化;
两个共注意力模块,用于根据输入的文本特征和视觉特征分别得到带有视觉信息的文本特征以及带有文本信息的视觉特征;
全连接层,用于根据输入的带有视觉信息的文本特征和带有文本信息的视觉特征,得到充分融合的多模态特征。
进一步地,步骤4的具体步骤包括:
步骤41:保持CLIP模型参数冻结,将待检测的多模态信息x输入到特征提取模块,特征提取模块利用预训练好的CLIP的图像编码器和文本编码器分别提取出x的视觉特征HI和文本特征HT;
步骤42:将HT和HI输入到多模态特征融合模块,经过两个共注意力模块分别得到带有视觉信息的文本特征和带有文本信息的视觉特征/>并在全连接层中将/>和/>融合,得到多模态特征HM;
步骤43:利用可学习的Prompt设计模块,得到可学习的提示向量p,并将p输入到预训练的CLIP文本编码器g(·),得到类别特征HC,HC=g(p);
步骤44:相似性计算模块计算多模态特征HM与类别特征HC之间的余弦相似性,对x进行分类,并输出分类结果。
进一步地,步骤42中计算多模态特征的步骤包括:
步骤421:根据输入的文本特征HT,通过式(4)得到带有视觉信息的文本特征
H′T=HT+MA(HT,HI,HI)
其中,FFN表示全连接前馈网络层,MA表示多头注意力函数;
步骤422:根据输入的视觉特征HI,通过式(5)得到带有文本信息的视觉特征
H′I=HI+MA(HI,HT,HT)
步骤423:通过式(6)将和/>进行融合,得到x的多模态特征HM:
其中,W表示注意力矩阵。
进一步地,步骤44的具体步骤包括:
步骤441:计算多模态特征HM与类别特征HC之间的余弦相似性,得到x属于类别i的概率p:
其中,τ表示CLIP学习到的温度参数,k表示类别数量;
步骤442:根据概率p对x进行分类,输出虚假新闻早期检测结果。
一种虚假新闻早期检测系统,基于如权利要求1所述的虚假新闻早期检测方法实现,其特征在于,包括检测信息输入模块、多模态提示学习框架构建模块、检测文本输入模块以及多模态学习模块;
检测信息输入模块,用于获取待检测的多模态信息;
多模态提示学习框架构建模块,用于构建多模态提示学习框架;
检测文本输入模块,用于将待检测的多模态信息输入到多模态提示学习框架;
多模态学习模块,通过多模态提示学习框架进行多模态学习,对待检测的多模态信息进行检测,并输出检测结果。
一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的虚假新闻早期检测方法。
一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的虚假新闻早期检测方法。
本发明的有益效果是:
第一,本发明通过设计采用共注意力层有效融合了文本和视觉模态中的语义信息;
第二,本发明采用可学习的提示向量,与手工制定模版相比,让模型自己学习提示向量能更好地捕捉到类别和多模态嵌入之间的语义信息;
第三,本发明通过对比学习的方式贴合CLIP原有的预训练方式,与只利用CLIP的编码器提取特征再使用额外的分类网络进行分类相比,本发明能更充分地利用CLIP预训练阶段学到的知识,达到更好的分类效果;
第四,本发明采用提示学习的方法而非微调,保持CLIP参数冻结,不仅减少了训练成本,也使模型在小样本情况下有更好的表现,更适合虚假新闻早期检测任务。
附图说明
图1为本发明所提检测方法的流程图。
图2为本发明的多模态提示学习框架示意图。
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
本发明针对小样本情景下的多模态虚假新闻检测任务,以多模态预训练模型CLIP为基础,采用连续prompts设计提示学习,提出了一个基于CLIP的多模态提示学习框架(MPL),用于在小样本情况下对虚假新闻进行早期检测。
1、提示学习
微调和提示学习是预训练模型的两种典型范例。微调适应下游任务,提示学习根据特定模板处理输入信息,将任务重构为预训练模型可以更好地利用的形式。例如,使用BERT对一个文本信息进行虚假新闻检测,即输出这个信息是真的还是假的。传统的微调范式是使用大量数据和标签去训练模型参数,利用微调后的模型提取信息特征,然后输入到分类头进行分类。而提示学习范式无需针对预训练模型做任何训练,即冻结模型参数。提示学习会对输入进行处理,即在文本信息的前面或后面加上一句提示,“这个信息是[MASK]”,然后让BERT用“真的”或“假的”对[MASK]填空,以此来对这个信息进行分类。这样的填空提示模版可以让任务更贴近BERT的预训练方式,即Masked Language Model,MLM。提示学习能够充分利用预训练时模型学到的知识,大幅减少训练成本,在小样本场景也能有很好的表现。
提示学习分为手工设计模板和自动学习模板。前者为不同任务不同数据集手动制定模板,但需要额外的人力和知识,并且结果不稳定,一个词的差异就可能使结果剧烈波动。后者则让模型自动学习合适的模板,又分为离散prompt和连续prompt。离散Prompt指的是自动生成由自然语言的词组成的Prompt,因此其搜索空间是离散的。连续prompt则是去除了自然语言的限制,直接在连续的嵌入空间进行搜索,学到的prompt是一串向量而不是一句话。连续prompt在许多自然文本分类或图片分类任务中都取得了很好的结果,证明了该方法在分类任务中的有效性。
2、CLIP
CLIP是一种基于对比学习的大型多模态预训练视觉语言模型。与CV中常见的基于标签的表示学习方法不同,CLIP的训练数据是文本-图像对,即一张图像和它对应的文本描述。为了学习不同的概念,让模型更易于应用到不同的下游任务上,CLIP中集合了由4亿个图像-文本对组成的大型训练数据集。
CLIP由两个编码器组成,分别是Image Encoder和Text Encoder。图像编码器用来提取图像的特征,包括不同尺寸的resnet或vision transformer。文本编码器用来提取文本的特征,采用NLP中常用的text transformer模型。
CLIP对提取的文本特征和图像特征进行对比学习。对于一个包含N个文本-图像对的训练batch,将N个文本特征和N个图像特征两两组合,CLIP模型会预测出N2个可能的文本-图像对的相似度,即文本特征和图像特征的余弦相似性。正样本有N个,即真正属于一对的文本和图像,而剩余的N2-N个文本-图像对为负样本,CLIP的训练目标就是最大化正样本的相似度,同时最小化负样本的相似度。
预训练的编码器只能得到文本和图像的特征,所以CLIP使用提示模板来对预训练好的模型进行迁移。CLIP可以直接实现zero-shot的图像分类,即不需要任何训练数据,就能在下游任务上实现分类。首先构建提示模板,即根据任务的分类标签构建每个类别的描述文本:A photo of{label},然后将这些文本送入Text Encoder得到对应的文本特征,如果类别数目为N,那么将得到N个文本特征。然后将要预测的图像送入Image Encoder得到图像特征,与N个文本特征计算余弦相似度,这样就可以根据最高的相似度对图像进行分类。
本发明基于CLIP对多模态新闻进行分类,并为了贴合CLIP对比学习的预训练方式,同时改进CLIP手工制定的模板,设计连续性prompts与多模态表示进行对比学习,从而实现少样本多模态虚假新闻检测。
3、本发明所提检测方法
(1)问题定义和符号系统
本发明将虚假新闻检测任务定义为一个二元分类问题,并考虑两种模态:文本和图像,这是在线社交媒体平台上最流行的信息载体。一条多模态新闻被标记为一个图像-文本对x=(T,I),其中T表示文本,I表示图像,令人印象深刻的图像I用于说明一个新闻观点的主要文本T。多模态假新闻检测的目标是为输入新闻分配一个标签y∈{0,1},其中0代表真实新闻,1代表假新闻。
(2)基于CLIP的多模态提示学习框架(MPL)
如图2所示,MPL框架采用共注意层融合多模态以及可学习提示自动化提示工程,从而充分利用多模态信息和预训练模型的知识。MPL框架包括特征抽取模块、多模态特征融合模块、可学习的Prompt设计模块和相似性计算模块,下面分别对各模块进行介绍:
①特征抽取模块
该模块利用预训练好的CLIP Image Encoder和CLIPText Encoder分别抽取多模态新闻的视觉特征HI和文本特征HT;
②多模态特征融合模块
该模块用于将提取出的视觉特征和文本特征进行融合,得到多模态新闻的多模态特征HM;
本发明基于共注意力(co-attention设计多模态融合模块。传统transformer的自注意力(self-attention)中的queries,keys,values均来自同同一个输入,而co-attention的queries来自一个输入,keys和values来自另一个输入,并且残差连接的只有queries值。
所述多模态特征融合模块包括两个并行的共注意力模块以及一个全连接层,每个共注意力模块包括依次连接的多头注意力层、残差连接&归一化、全连接前馈网络层、残差连接&归一化。
来自不同输入的d×1维V,Q,K输入到包含m个注意力头的多头注意力层,多头注意力函数MA的计算过程如下所示:
MA(Q,K,V)=hWO
Qi=QWi Q,Ki=KWi K,Vi=VWi V (2)
其中,表示线性变换矩阵,A表示注意力计算函数、Qi、Ki、Vi分别表示第i个头的输入,/>表示第i个头的投影矩阵、dh=d/m表示每个头的输出维度。
全连接前馈网络层包括两个线性变换和一个RELU激活函数:
FFN(x)=max(0,xW1)W2 (3)
其中,x表示该层的输入;max(0,xW1)表示RELU激活函数;W1、W2表示线性变换矩阵;
本发明通过分别将HI和HT输入到两个并行的共注意力模块中实现视觉特征HI与文本特征HT融合,具体为:首先,以文本特征HT作为Q,视觉特征HI作为K和V,先经过多头注意力层计算MA(HT,HI,HI),再经过残差连接&归一化得到H′T,然后经过全连接前馈网络层得到FFN(H′T),最后经过残差连接&归一化,得到带有视觉信息的文本特征即:
H′T=HT+MA(HT,HI,HI)
其次,以视觉特征HI作为Q,文本特征HT作为K和V,经过先经过多头注意力层计算MA(HI,HT,HT),再经过残差连接&归一化得到H′I,然后经过全连接前馈网络层得到FFN(H′I),最后经过残差连接&归一化,得到带有文本信息的视觉特征即:
H′I=HI+MA(HI,HT,HT)
最后,将和/>输入到全连接层,得到充分融合文本信息与视觉信息的多模态特征HM:
其中为投影矩阵。
③可学习的提示向量模块
CLIP利用手工设计的模板进行小样本实验,但手工设计的模板不仅需要额外的知识和人力,性能还会受到模板质量的限制。为了更好地利用预训练模型CLIP的知识,本发明设计了可学习的提示向量:用一组可学习的向量代替原来手工设计的提示模板,并将向量与类别拼接,得到可学习的提示向量p:
p=[V1][V2]……[V16][class] (7)
其中,Vi(i=1,2,…,16)表示可学习的词嵌入,class表示提示信息中赋予检测文本的标签,该标签的值可为“真”或“假”。
对于虚假新闻检测数据集,通过训练集训练得到16个可学习的词嵌入Vi,作为类别真、假的上下文提示向量。
④相似性计算模块
该模块用于计算多模态特征与类别特征之间的余弦相似度,从而实现对多模态新闻分类。
(3)基于MPL框架的虚假新闻早期检测方法
本发明的检测方法主要包括以下步骤:
步骤1:对于由图像I和文本T组成的多模态新闻x,保持CLIP的参数冻结;
步骤2:如公式(1)所示,使用预训练的CLIP图像编码器f(·)从图像中提取视觉特征HI,使用预训练的CLIP文本编码器g(·)从文本中提取文本特征HT:
HI=f(I),HT=g(T) (1);
步骤3:使用多模态特征融合模块将特征HI和HT融合,得到x的多模态特征HM;
步骤4:通过可学习的提示向量模块,得到可学习的提示向量p,并将p输入到预训练的CLIP文本编码器g(·),得到类别特征HC;
HC=g(p);
步骤5:计算多模态特征HM与类别特征HC之间的余弦相似性,实现对多模态新闻x进行分类,新闻x属于类别i的概率为:
其中,τ表示CLIP学习到的温度参数,k表示类别数量。
实施例
为了验证本方法的有效性,分别在三个基准数据集上进行了实验,并将结果与有监督的完全训练的多模态假新闻检测方法和最新的基于提示的少样本假新闻检测方法在充分数据和少样本的情况下进行了比较。
1、实验设置
本实施例使用预训练的CLIP(ViT-L/14@336px)模型作为文本编码器和图像编码器,并保持其所有参数冻结。连续提示符通过从标准差为0.02的零均值高斯分布中抽样随机初始化。在多模态特征融合模块中,设置d=768,m=8,dff=1536。并使用学习率为0.001的SGD优化器在训练期间优化模型参数。本模型被训练了20个epochs,选择验证性能最好的检查点进行测试。为了充分证明本方法的有效性,在监督的完全训练和少量拍摄的情况下,对完全训练的多模态假新闻检测方法和基于提示的少量拍摄假新闻检测方法进行了两组对比实验。
(1)对比实验一(有监督情景)
为了与完全训练的多模态假新闻检测方法进行比较,遵循现有方法,并以8:2的比例将数据集划分为训练集和测试集。在数据充足的情况下,使用所有的训练数据来训练我们的模型和基线,而在样本较少的情况下,从训练集采样的少量数据来训练我们的模型。具体来说,将从每个类别中抽取16个实例进行训练。由于少样本训练集对模型的性能影响较大,所以我们使用不同的随机种子重复数据采样5次,取5次实验的平均分,除去最高分和最低分,作为少样本实验的结果。
(2)对比实验二(少样本情景)
为了进一步证明本方法在少样本情况下的优势,将其与最先进的基于提示的少数镜头假新闻检测方法进行了比较。首先从数据集中随机抽取少量实例进行训练,从每个类别中抽取k个实例,其中k∈[2,4,8,16],并使用剩余的实例进行测试。此外,还创建了一个与模型选择的训练集大小相同的验证集。为了减少训练集和验证集对模型性能的影响,我们用5个随机种子重复数据采样,剔除最高分和最低分取平均分作为实验结果。
2、数据集
本实施例使用三个多模态基准FND数据集来评估本方法的性能,分别是Twitter,gossipcop,politifact,这三个数据集是从多个社交平台收集的真实数据集。Twitter数据集由包含文本信息、视觉信息和社交上下文信息的tweet组成。Politifact和Gossipcop数据集是分别从FakeNewsNet存储库的政治和娱乐领域收集的两个英文数据集。PolitiFact是一个关于政治新闻的数据集,被专家称为假新闻或真新闻。与此同时,GossipCop讲述的是得分在0到10分之间的娱乐故事,FakeNewsNet的作者认为得分低于5分是假新闻。
为了减少冗余,为具有多个图像的新闻只保留最相关图像,该图像是通过预先训练的CLIP模型基于文本和图像的余弦相似性计算的,并排除了没有图片或图片URL无效的新闻。每个数据集的统计信息如表1所示。
表1统计信息
Politifact | GossipCop | ||
#of fake news | 8,011 | 164 | 2,581 |
#of real news | 6,200 | 321 | 10,259 |
#of images | 477 | 485 | 12,816 |
3、对比方法
如上所述,本实施例进行了两组对比实验。为了保证公平性,使用这些方法的原始指标进行比较。为了更直观地显示few-shot模型的比较,我们使用few-shot方法进行特殊比较。与完全训练的多模态假新闻检测方法相比时,选择了七个经典的完全训练的多模态模型作为基线:
1)EANN使用事件识别器捕获新闻事件信息并提取与事件无关的新闻特征,用来辅助虚假新闻检测;
2)MVAE使用与二进制分类器耦合的变分自动编码器来学习文本和图像的共享表示;
3)SpotFake使用VGG和BERT分别提取图像和文本特征,并将它们连接起来进行分类;
4)SAFE提取新闻内容的多模态(文本和视觉)特征以及它们之间的关系,通过相似性感知的多模态方法检测假新闻;
5)MCAN利用频域特征和空域特征,堆叠多个共同注意层以融合多模态特征;
6)LIIMR识别和抑制来自较弱模态的信息,并在每个样本的基础上从较强模态提取相关信息;
7)CAFE提出了一种模糊感知的多模态假新闻检测方法,以自适应地聚合单峰特征和跨模态相关性;
进一步地,本实施例还与两个先进的基于提示学习的虚假新闻检测方法进行对比,一个是单模态的,另一个是多模态的:
1)KPL基于预训练的语言模型Robert提取特征,并将从知识图谱中提取的实体的知识信息纳入提示学习,以指导虚假新闻检测;
2)SAMPLE利用CLIP模型生成的多模态特征与预训练的语言模型Robert的文本表示相融合,利用CLIP生成的标准余弦相似性来调整融合的多模态特征的强度,以帮助虚假新闻检测的提示学习。
为了评估本模型和基线的性能,选择了Accuracy、Precision、Recall和F1作为评估指标。准确率是正确预测在整个预测中所占的比例,它可以直观地显示模型的性能。fake-precision是被预测为假新闻的样本实际上是假新闻的概率,代表了正确分类假新闻的能力。fake-recall代表本方法能发现多少假新闻,fake-recall越高,则表示发现的假新闻越多,这对早期发现很重要。real-Precision和real-Recall是一样的。F1平衡精确率和召回率,以最大限度地提高两者。
4、结果讨论
1)与有监督多模态虚假新闻检测方法对比结果如表2所示,从表2可以看出本模型在数据充足情况和小样本情况下的结果。MPL-Full指利用全部训练集数据训练;MPL-16指每类只利用16个数据进行训练。
表2完全训练的方法在完全训练的环境下的结果
从表2中可知,与其他模型相比,在数据充足情况下,本发明的性能达到了最优。在三个数据集都达到了最好的accuracy,并且除gossipcop数据集外,本发明的真假新闻的F1也都处于最高水准。并且本模型主体CLIP是保持参数冻结的,只有连续prompt和多模态特征融合模块的参数会随训练更新,所以本发明的训练参数会远小于其他模型,所需的训练成本和耗时也更低。在小参数少时间的训练下,本模型取得的成果依旧远超于其他模型,充分证明了多模态提示学习方法的有效性。
在小样本情况下,本模型MPL每类仅使用16个训练数据也达到了很好的效果,在Twitter和politifact数据集上本发明与SOTA并没有差太多,甚至超过了几个使用全部训练数据的经典模型。这证明了在数据稀少的情况下本模型具备先进性,只需要从少量的带标签数据中学习,就能达到很好的分类效果。在gossipcop数据集上,虽然本发明的accuracy未达到令人满意的效果,但假新闻的recall达到了最高,说明本方法可以找到更多的假新闻,这对早期检测来说是很有意义的。
2)为了进一步验证本发明在小样本设置下的优势,在politifact与gossipcop上与基于提示学习的虚假新闻检测方法进行了对比。我们为每个类选择k个数据进行训练,k∈[2,4,8,16],并选择同等数量的数据作为验证集来选择模型,剩下的全部作为测试集。
表3少样本方法在PolitiFact数据集上的结果
表4少样本方法在GossipCop数据集上的结果
如表3所示,在politifact数据集上,本发明的所有结果在所有k-shot实验上都达到了最优,证明了在小样本场景下本方法的优越性。
如表4所示,在gossipcop数据集上,本发明在k=8和k=16的设置下取得了最好的ACC,说明了本方法的有效性。
5、消融实验
为验证本发明提出的模块的有效性,进行了消融实验。在16shot的设置下对三个数据集进行了多个消融实验。对于w/o image,去掉了视觉特征HI,仅使用文本特征HT与类别特征HC计算相似度;对于w/o text,去掉了文本特征HT,仅使用视觉特征HI与类别特征HC计算相似度;对于w/o fusion,去掉了多模态特征融合模块,改为直接将视觉特征HI与文本特征HT拼接;对于w/o learnable prompt,去掉可学习提示向量,改为手工制定的提示向量[According to the image and text,this news is][class];对于w/o similarity,不使用计算相似度的方式分类预测,改为将多模态特征HM与类别特征HC拼接得到特征HF,输入到线性回归分类器进行分类预测;对于w/o frozen,不冻结CLIP的参数,在训练过程中微调整个模型。
消融实验的结果如表5所示,从表中可以看出,每个模块都是有作用的,缺少任意模块都会导致性能衰减。w/o image和w/o text证明了本模型充分利用了两个模态的信息,只使用任一单一模态都会导致性能衰减。w/o fusion证明了简单的拼接两个模态的特征并不能充分利用多模态上下文。而本发明的多模态特征融合方法则是让两个模态特征互相学习对方的语义,再融合在一起,可以充分融合不同模态的语义信息,证明了本方法的有效性。w/o learnable prompt展现了使用连续性prompt带来的提升。与手工制定模版相比,让模型自己学习提示向量能更好地捕捉到类别和多模态特征的语义信息,更好地适用于下游任务。w/o similarity证明了本模型贴合CLIP预训练方式,与只利用CLIP的编码器提取特征再使用额外的分类网络进行分类相比,本方法能更充分地利用CLIP预训练阶段学到的知识,达到更好的分类效果。w/o frozen证明了在小样本情境下,提示学习相比微调方法所带来的提升,证明了本方法在小样本情景下的有效性。
表5三个数据集的消融研究结果
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (9)
1.一种虚假新闻早期检测方法,其特征在于,包括以下步骤:
步骤1:获取待检测的多模态信息;
步骤2:构建多模态提示学习框架;
步骤3:将待检测的多模态信息输入到多模态提示学习框架中;
步骤4:通过多模态提示学习框架进行多模态学习,对待检测的多模态信息进行检测,并输出检测结果。
2.如权利要求1所述的一种虚假新闻早期检测方法,其特征在于,步骤2构建的多模态提示学习框架包括特征抽取模块、多模态特征融合模块、可学习的Prompt设计模块和相似性计算模块;
特征抽取模块,用于利用预训练好的CLIP模型抽取输入的待检测的多模态信息的视觉特征和文本特征;
多模态特征融合模块,用于将抽取出的视觉特征和文本特征进行融合,得到待检测的多模态信息的多模态特征;
可学习的Prompt设计模块,用于通过一组可学习的向量代替原来手工设计的提示模板,通过可学习向量得到类别特征;
相似性计算模块,用于计算多模态特征与类别特征之间的余弦相似度,对待检测的多模态信息进行分类。
3.如权利要求2所述的一种虚假新闻早期检测方法,其特征在于,所述多模态特征融合模块包括两个并行的共注意力模块以及一个全连接层,每个共注意力模块包括依次连接的多头注意力层、残差连接&归一化、全连接前馈网络层、残差连接&归一化;
两个共注意力模块,用于根据输入的文本特征和视觉特征分别得到带有视觉信息的文本特征以及带有文本信息的视觉特征;
全连接层,用于根据输入的带有视觉信息的文本特征和带有文本信息的视觉特征,得到充分融合的多模态特征。
4.如权利要求3所述的一种虚假新闻早期检测方法,其特征在于,步骤4的具体步骤包括:
步骤41:保持CLIP模型参数冻结,将待检测的多模态信息x输入到特征提取模块,特征提取模块利用预训练好的CLIP的图像编码器和文本编码器分别提取出X的视觉特征HI和文本特征HT;
步骤42:将HT和HI输入到多模态特征融合模块,经过两个共注意力模块分别得到带有视觉信息的文本特征和带有文本信息的视觉特征/>并在全连接层中将/>和/>融合,得到多模态特征HM;
步骤43:利用可学习的Prompt设计模块,得到可学习的提示向量p,并将p输入到预训练的CLIP文本编码器g(·),得到类别特征HC,HC=g(p);
步骤44:相似性计算模块计算多模态特征HM与类别特征HC之间的余弦相似性,对x进行分类,并输出分类结果。
5.如权利要求4所述的一种虚假新闻早期检测方法,其特征在于,步骤42中计算多模态特征的步骤包括:
步骤421:根据输入的文本特征HT,通过式(4)得到带有视觉信息的文本特征
H′T=HT+MA(HT,HI,HI)
其中,FFN表示全连接前馈网络层,MA表示多头注意力函数;
步骤422:根据输入的视觉特征HI,通过式(5)得到带有文本信息的视觉特征
H′I=HI+MA(HI,HT,HT)
步骤423:通过式(6)将和/>进行融合,得到x的多模态特征HM:
其中,W表示注意力矩阵。
6.如权利要求5所述的一种虚假新闻早期检测方法,其特征在于,步骤44的具体步骤包括:
步骤441:计算多模态特征HM与类别特征HC之间的余弦相似性,得到x属于类别i的概率p:
其中,τ表示CLIP学习到的温度参数,k表示类别数量;
步骤442:根据概率p对x进行分类,输出虚假新闻早期检测结果。
7.一种虚假新闻早期检测系统,基于如权利要求1所述的虚假新闻早期检测方法实现,其特征在于,包括检测信息输入模块、多模态提示学习框架构建模块、检测文本输入模块以及多模态学习模块;
检测信息输入模块,用于获取待检测的多模态信息;
多模态提示学习框架构建模块,用于构建多模态提示学习框架;
检测文本输入模块,用于将待检测的多模态信息输入到多模态提示学习框架;
多模态学习模块,通过多模态提示学习框架进行多模态学习,对待检测的多模态信息进行检测,并输出检测结果。
8.一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的虚假新闻早期检测方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的虚假新闻早期检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311801082.5A CN117874607A (zh) | 2023-12-26 | 2023-12-26 | 一种虚假新闻早期检测方法、系统、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311801082.5A CN117874607A (zh) | 2023-12-26 | 2023-12-26 | 一种虚假新闻早期检测方法、系统、设备、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117874607A true CN117874607A (zh) | 2024-04-12 |
Family
ID=90580381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311801082.5A Pending CN117874607A (zh) | 2023-12-26 | 2023-12-26 | 一种虚假新闻早期检测方法、系统、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117874607A (zh) |
-
2023
- 2023-12-26 CN CN202311801082.5A patent/CN117874607A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Less is more: Picking informative frames for video captioning | |
Ma et al. | Learning to answer questions from image using convolutional neural network | |
CN112270196A (zh) | 实体关系的识别方法、装置及电子设备 | |
CN113033438B (zh) | 一种面向模态非完全对齐的数据特征学习方法 | |
CN113035311A (zh) | 一种基于多模态注意力机制的医学图像报告自动生成方法 | |
CN116955699B (zh) | 一种视频跨模态搜索模型训练方法、搜索方法及装置 | |
CN114782997B (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 | |
CN112613582A (zh) | 一种基于深度学习混合模型的争议焦点检测方法及装置 | |
CN116956920A (zh) | 一种多任务协同表征的多模态命名实体识别方法 | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 | |
Yang et al. | Bicro: Noisy correspondence rectification for multi-modality data via bi-directional cross-modal similarity consistency | |
Nguyen et al. | Manga-mmtl: Multimodal multitask transfer learning for manga character analysis | |
Decorte et al. | Design of negative sampling strategies for distantly supervised skill extraction | |
Ou et al. | Refining BERT embeddings for document hashing via mutual information maximization | |
CN112966507A (zh) | 构建识别模型及攻击识别方法、装置、设备及存储介质 | |
CN117235605A (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 | |
CN116719900A (zh) | 基于超图建模文档级因果结构的事件因果关系识别方法 | |
CN117874607A (zh) | 一种虚假新闻早期检测方法、系统、设备、介质 | |
CN114386412B (zh) | 一种基于不确定性感知的多模态命名实体识别方法 | |
CN112035670B (zh) | 基于图像情感倾向的多模态谣言检测方法 | |
Gao et al. | Sensitive image information recognition model of network community based on content text | |
Jiang et al. | Large Visual-Language Models Are Also Good Classifiers: A Study of In-Context Multimodal Fake News Detection | |
Wang et al. | RSRNeT: a novel multi-modal network framework for named entity recognition and relation extraction | |
CN114254107B (zh) | 一种事件抽取系统及方法 | |
Preethi et al. | Video Captioning using Pre-Trained CNN and LSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |