CN116910683A - 一种基于事件依赖的多模态虚假新闻检测方法 - Google Patents
一种基于事件依赖的多模态虚假新闻检测方法 Download PDFInfo
- Publication number
- CN116910683A CN116910683A CN202310663327.6A CN202310663327A CN116910683A CN 116910683 A CN116910683 A CN 116910683A CN 202310663327 A CN202310663327 A CN 202310663327A CN 116910683 A CN116910683 A CN 116910683A
- Authority
- CN
- China
- Prior art keywords
- event
- text
- news
- representing
- characterization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 238000012512 characterization method Methods 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 15
- 235000019580 granularity Nutrition 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000012015 optical character recognition Methods 0.000 claims description 2
- 238000013526 transfer learning Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims 3
- 230000017105 transposition Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 10
- 239000000284 extract Substances 0.000 abstract description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000005065 mining Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于事件依赖的多模态虚假新闻检测方法,属于多模态信息处理技术领域。本方法从多模态新闻中抽取事件,并借助事件实现新闻的多层次特征抽取和融合。首先,利用外部工具抽取的事件信息作为弱监督标签,结合图像和文本抽取出关键文本表征作为事件软标签。其次,设计对抗学习机制,结合事件标签抽取每个模态中和事件语义无关的事件不变特征。然后,设计多模态协同注意力机制,结合事件标签抽取每个模态中和事件语义相关的事件特定特征。最后,结合多个模态的多个事件特征,生成完整的多模态新闻表征进行真假预测。事件特定特征和事件不变特征从不同角度出发挖掘新闻的不同层次的特征,并引入高阶事件语义来改善多模态信息融合效果。
Description
技术领域
本发明涉及一种基于事件依赖的多模态虚假新闻检测方法,属于多模态信息处理技术领域。
背景技术
近年来,越来越多的人通过社交媒体来获取和发布信息。新闻信息具有随意性、不可控等特点,引起了假新闻的泛滥,这对个人和社会造成了负面影响。多模态虚假新闻检测技术,旨在对社交媒体上的多模态帖子进行真实性检测。
事件作为新闻的主旨信息,有助于增强对多模态新闻的理解和推理。因此,借助事件信息可以增强多模态新闻的特征抽取和融合,从而提高虚假新闻检测能力。新闻的事件特征包括事件特定特征和事件不变特征。其中,事件不变特征是在不同事件中可以共享的判断新闻真假的证据,比如文本中的夸张用语和煽动情感、图像中吸引人的视觉冲击,学习事件不变特征可以提高模型的泛化能力,更好地应对未见事件中的新闻。事件特定特征,是与特定事件语义相关联的不同于其他事件的特性,有助于发现真假新闻中的共现关系,并有助于模型进行逻辑推理,从而生成新的判断依据。
目前,研究人员提出了一些基于多模态信息增强的检测方法,在高阶语义上进行多模态信息融合,例如,Li等人提出对重要实体进行对齐和捕获,以实体为中心进行特征比较和聚合,实现跨模态交互检测假新闻,但其忽略了实体的动作和属性信息。此外,还有一些基于事件的检测方法,借助新闻的内容和所属事件快速检测假新闻。Wang等人提出事件对抗网络,捕捉不同领域的事件不变特征。Zhu等人提出记忆引导的多视图多领域检测框架,捕捉特定领域特征和特定领域下的事件特征。
虽然现有的方法在多模态虚假新闻检测任务上取得了一些成效,但是,为了更好地捕捉多模态新闻的完善表征,改善假新闻检测效果,还需要从以下几个方面进一步考虑:
1.真实世界中新闻的文本和图像的信息丰富度是不同的,大多数新闻以文本为主图像为辅,若直接基于图像和文本的全局表征进行多模态信息融合,会引入噪声,降低检测效果,特别是以实体或事件为中心的新闻。
2.真实世界的新闻通常不带有事件标签,但是事件作为新闻的主旨信息,有助于模型理解新闻,改善多模态融合效果。
3.已有的研究只关注事件不变特征,本方法认为事件特定特征对虚假新闻检测任务也有帮助。它有助于发现真假新闻中的共现关系,并有助于模型进行逻辑推理,生成新的判断依据。
综上,为了生成完善的多模态新闻表征,需要借助新闻的文本和图像自动抽取事件标签,并利用事件标签从不同角度进行多模态新闻的特征抽取和融合。
发明内容
本发明的目的是为了克服现有的多模态虚假新闻检测方法直接用全局表征或实体进行信息融合并且只考虑不变特征等技术缺陷,创造性地提出一种基于事件依赖的多模态虚假新闻检测方法。本方法能够有效改善多模态新闻信息融合效果,生成更完善的多模态表征,增强虚假新闻的检测能力。
本方法的创新点在于:利用文本和图像信息自动抽取事件标签,首次将不同层次的事件特定特征和事件不变特征相结合,自动地进行多模态虚假新闻检测。
本发明采用的技术手段包括:
首先,抽取和图像信息对齐的关键文本表征,作为事件软标签。
然后,借助事件在每个模态中抽取事件语义相关的细粒度事件特定特征和事件语义无关的粗粒度事件不变特征。
最后,结合不同层次的事件特征生成完善的多模态新闻表征,检测新闻真假。
本发明是基于以下技术方案实现的。
一种基于事件依赖的多模态虚假新闻检测方法,包括如下步骤:
步骤1:对多模态新闻中的文本信息和图像信息进行编码。
具体地,包括:
步骤1.1:首先获取新闻文本的粗粒度全局表征和所有字符表征构成的细粒度局部表征(可利用通用语义表示模型BERT实现,Bidirectional Encoder Representationfrom Transformers,简称BERT),然后将表征输入线性层控制输出向量的维度。
抽取不同粒度的文本表征有助于从不同角度挖掘新闻的不同特征,更好地挖掘完善的新闻文本特征。
步骤1.2:获取新闻图像的全局表征和不同区域表征构成的局部表征(可以利用卷积神经网络模型VGG19实现,Visual Geometry Group),然后将表征输入线性层控制输出向量的维度。
步骤2:结合文本信息和图像信息,抽取多模态新闻的事件表征。
事件作为新闻的主旨信息,有助于模型理解新闻,改善多模态融合效果,增强对多模态新闻的理解和推理。考虑到新闻中重要的文本元素往往是通过图像来说明和强调,因此,新闻文本中与图像相关的关键文本语义信息可以作为新闻的事件标签。
本发明利用多头协同注意力机制,结合视觉和文本细粒度信息来抽取事件软标签。同时,为限制生成的多模态事件表征更靠近新闻的真实事件语义,且和判断新闻真假的依据更相关,进一步设计对比损失和分类损失监督生成的事件表征。
步骤3:结合事件抽取每个模态的事件特定特征。
事件特定特征有助于发现真假新闻中的共现关系,并有助于模型进行逻辑推理。本方法借助事件特征来实现文本和图像模态的多模态信息融合。
具体地,设计两个基于事件的多模态协同注意力模块,分别用于捕捉文本和图像两个模态的事件特定特征。第一个多模态协同注意力模块的输入分别为图像局部特征和事件局部特征,通过该模块实现图像和事件的多模态信息融合,同时捕获隐含的判断线索(比如多模态信息是否对齐),第二个多模态协同注意力模块的输入是文本局部特征和事件局部特征,用于实现文本和事件表征的融合。最后,将学习到的两个模态的事件特定特征进行拼接,得到新闻的多模态事件特定特征。
步骤4:结合事件抽取每个模态的事件不变特征。
事件不变特征是在不同事件中可以共享的判断新闻真假的证据(比如文本中的夸张用语和煽动情感、图像中吸引人的视觉冲击等),学习事件不变特征能够提高模型的泛化能力,更好地应对未见事件中的新闻。
本发明设计两个基于对抗网络的事件不变特征抽取模块。每个模块均包含一个鉴别器和一个生成器;文本编码器和图像编码器是两个生成器,作为生成器,它们用生成的信息欺骗鉴别器,尽力混淆鉴别器,使之不能区分信息来自哪个模态。
其中,鉴别器的输入是事件表征和生成器得到的文本或图像表征,它努力区分信息是来自事件模态还是来自文本或图像模态。
生成器与鉴别器进行博弈对抗,最终二者的损失函数达到平衡。
步骤5:预测多模态新闻的真假标签。
将得到的新闻的多模态事件特定特征和事件不变特征进行拼接,融合多层次的事件表征,生成最终的新闻多模态表征。
然后,将新闻的多模态表征传入全连接层和softmax层,预测新闻的真假标签。
步骤6:训练卷积神经网络。
具体地,使用交叉熵损失函数计算最终的分类损失值,进行梯度反向传播更新模型的所有参数,设置训练轮次,并改善过拟合现象。
至此,完成了基于事件依赖的多模态虚假新闻检测方法,实现了新闻真假标签预测。
有益效果
本发明方法,与现有技术相比,具有以下优点:
1.本方法从不同角度出发挖掘新闻的事件特征,包括细粒度的事件语义相关的事件特定特征和粗粒度的事件语义无关的事件不变特征,二者相互补充构成完善的新闻表征。
2.本方法基于新闻的文本和图像自动抽取多模态事件语义标签,作为新闻的主旨信息,辅助后续事件特征的挖掘。
3.本方法利用事件进行多模态信息融合,通过引入包含实体和属性的高阶事件语义,改善由于多模态信息丰富度不同导致融合效果差的问题。
附图说明
图1为本发明方法的流程图。
图2为本发明方法的实现框图。
具体实施方式
下面结合附图和实施例对本发明方法进行详细说明。
实施例
本实施例选用了两个通用多模态新闻数据集WEIBO和GossipCop。
从数据集中随机选取一个多模态新闻样本(x,y),分析新闻的真实性标签。每个样本(x,y)={{T,P},y},其中T表示新闻的原始文本,P表示该新闻的图像,即每个帖子包含文本和图像两种模态,y表示x样本的二进制0/1标签,即新闻的真假。
如图1所示,一种基于事件依赖的多模态虚假新闻检测方法,包括以下步骤:
步骤1:对于每个帖子,获取其文本的全局表征和字符级表征,以及其图像的全局表征和区域级表征。
进一步地,包括以下步骤:
步骤1.1:文本编码。
本实施例中,使用BERT作为文本编码器的核心模块。除原始文本,图像中携带的文本也是重要的补充材料。
本实施例中,利用光学字符识别技术识别出图像中的文字TO,将原始文本T和补充文本TO拼接,并以[SEP]分隔,输入到BERT中,同时设置最大长度,长则截断短则补齐,可以得到文本编码特征,如式1所示:
Rcls,Ri=BERT([CLS]T[SEP]To[SEP]) (1)
其中,Rcls表示全局文本表征,Ri表示字符级文本表征,To表示图像中的文字。
输出包含两个部分:一个是包含所有字符编码的细粒度文本特征Ri={r1,r2,...,ri,...,rn},ri对应第i个单词的表征,n表示文本的最大长度;另一个是全局文本表征Rcls,是BERT最后的隐藏层[CLS]位置的表征向量,该向量无偏的融合了全文信息。
具体地,关于BERT版本选择,在中文数据集WEIBO中使用“bert-base-chinese”模型编码文本,在英文数据集GossipCop中使用“bert-base-uncased”模型编码文本。
步骤1.2:图像编码。
本实施例中,使用VGG作为图像编码的核心模块。给定图像P,首先将其调整为224×224像素,然后输入VGG,取VGG最后的全连接层和卷积层的输出作为不同粒度的图像特征,输出如下:
Va,Vi=VGG(P) (2)
该输出包含两个部分,一个是局部图像特征Vi={v1,v2,...,vi,...,vn},其中vi表示变换后图像的第i个平均池化卷积层特征,是从VGG的倒数第二个卷积层抽取的;另一个是全局图像表征Va,是最后一个全连接层的输出。
具体地,选择在ImageNet数据集上训练好的VGG19对图像进行编码。
步骤2:依据文本和图像信息,抽取每个帖子的多模态事件信息。
进一步地,包括以下步骤:
步骤2.1:生成多模态事件软标签。
本实施例中,设计多头协同注意力模块,结合视觉和文本细粒度信息抽取事件软标签。该模块由多头自注意机制、残差连接、层归一化和全连接前馈网络构成。将局部图像表示Vi作为查询,将前面得到的字符级文本表征Ri作为键和值,通过计算查询和键值的相关性,得到与图像对应的文本的重要性,得到最终的事件细粒度表征Ei。如式3、式4所示:
Qi=ViWQ,Ki=RiWK,Vi=RiWV (3)
其中,Qi表示查询向量,Ki表示键向量,Vi表示值向量;WQ、WK、WV为可学习的矩阵参数,dk是表征向量的维度;Ei表示事件细粒度表征。T表示矩阵转置。
为突出文本和图像表征在事件抽取过程中对最终的事件语义表征的不同贡献程度,在对生成的表征归一化之前,对生成的交互特征Ei和字符级文本表征Ri添加不同的权重,使用一个超参数μ衡量文本表征在事件表征中的加强程度,如下式:
E′i=LayerNorm(Ei+μRi) (5)
Ei″=FeedForwardNetwork(Ei′) (6)
Ei=LayerNorm(Ei″+Ei′) (7)
其中,Ei′表示经过第一个归一化层后的事件表征,LayerNorm()表示归一化层,FeedForwardNetwork()表示前馈神经网络层,Ei″表示第一个前馈神经网络之后的事件表征;Ei为最终的细粒度多模态事件表征,然后对其进行维度转换,并传入全连接层得到全局事件表征Ea,具体如下:
Ea=Fc(WePermute(Ei)+be) (8)
其中,We、be为可学习的矩阵参数,Fc()表示全连接层,Permute()是维度转换操作。
至此,得到两种粒度的多模态事件表征。
步骤2.2:设计损失函数监督生成的事件表征。
为了限制生成的多模态事件表征更靠近新闻的真实事件语义,且和判断新闻真假的依据更相关,设计两个损失函数监督生成的事件表征。
第一个是分类损失,计算直接将生成的全局事件表征传入全连接层和softmax层进行新闻真假预测,并利用交叉熵损失函数计算预测值和真实标签之间的分类损失。具体如下:
其中,We'和be'均为可学习的参数矩阵,表示预测的新闻标签,We′为可学习的矩阵参数,softmax()表示归一化指数函数,Le_cls表示事件分类损失,yi表示该新闻的真实标签。
第二个是相似度损失,计算生成的事件表征和从文本及图像中抽取的多模态事件表征的相似度损失。具体地,可以使用工具OmniEvent作为文本事件解析器以抽取文本中的事件信息,使用百度的图像信息抽取工具作为图像事件解析器以抽取图像中的人名、地标等通用物体和场景信息。上述得到的事件信息均为文本格式,将所有信息拼接作为新闻的多模态事件信息弱标签Te,将Te传入BERT得到事件表征标签,将其和从文本图像中学习的全局多模态事件表征进行对比,计算对比损失,希望生成的多模态事件表征更靠近真实的高阶事件语义。具体如下:
Re=BERT(Te) (11)
其中,N表示样本数量。sim表示余弦相似度计算公式。Lsim表示事件相似度损失。Re表示事件标签表征向量。Ea表示抽取的事件表征向量。
步骤3:抽取每个模态的事件特定特征。
本实施例中,设计两个结构完全相同的多模态协同注意力模块,分别用于捕捉文本和图像的事件特定特征。
下面,以文本模态为例,描述如何融合事件信息生成文本模态的事件特定特征。
首先,给定文本和事件的细粒度表征,以事件为查询,以文本为键和值,通过三个不同的可学习的线性投影层得到查询向量、键值向量、值向量。计算如下:
Qi=EiWQ,Ki=RiWK,Vi=RiWV (13)
之后,通过计算查询向量和键值向量的相关性,得到与事件对应的不同文本字符的重要性,进而加权生成事件信息增强的文本表征。计算如下:
其中,Sti表示结合事件信息之后的文本表征。
然后,通过两个归一化层和一个前馈神经网络层进一步融合,生成结合事件和文本的多模态表征信息。计算如下:
Sti′=LayerNorm(Sti+Vi) (15)
Sti″=FeedForwardNetwork(St′i) (16)
Est=layerNorm(Sti″+Sti′) (17)
其中,Sti′表示经过第一个归一化层后的文本表征,Sti″表示经过前馈神经网络层的文本表征,Est表示最后结合事件的文本模态事件特定特征。
同样地,结合事件表征和图像表征生成图像的事件特定特征Esv,将两个模态的事件特定特征拼接,得到新闻完整的事件特定特征。计算如下:
其中,Espe表示新闻的事件特定特征,Est表示文本的事件特定特征,Esv表示图像的事件特定特征,表示拼接操作。
步骤4:抽取每个模态的事件不变特征。
设计两个结构完全相同的基于对抗网络的事件不变特征抽取模块,分别捕捉图像和文本的事件不变特征。每个模块包含一个鉴别器和一个生成器;其中,生成器包括一个线性层、一个正则化层和一个dropout层;鉴别器不设计具体的网络结构,参考域迁移学习中的方法,通过添加梯度反转层实现。
生成器得到的两个事件不变特征计算公式如下:
Ve=generatorv(Va) (19)
Re=generatorr(Rcls) (20)
其中,Va表示图像的全局表征,Ve表示图像的事件不变特征,generatorv表示图像的生成器,Rcls表示文本的全局表征,Re表示文本的事件不变特征,generatorr表示文本的生成器。
在训练过程中,利用MSE损失函数计算两个损失,一个是Lgloss,其目标是最大化从生成器中提取的事件不变特征和事件标签之间的差异,即最小化经过梯度反转层的事件不变特征和事件标签之间的差异。另一个是Ldloss,其目标是最小化生成器得到的事件不变特征和事件标签之间的距离。具体计算公式如下:
Lgloss=MSE(Ea,GRL(Ve))+MSE(Ea,GRL(Re))) (21)
Ldloss=MSE(Ea,Ve)+MSE(Ea,Re)) (22)
其中,MSE()表示均方误差,GRL()表示梯度反转层,Ea表示全局事件表征,Re表示文本的事件不变特征,Ve表示图像的事件不变特征。
训练完成后,保留生成器为新闻生成事件不变特征。拼接从生成器得到的两个模态的事件不变特征,得到最终的新闻事件不变特征。
步骤5:生成完善的多模态新闻表征,预测其真假标签。
将得到的新闻的多模态事件特定特征Espe和事件不变特征Einv,二者进行拼接,融合多层次的事件表征,生成最终的新闻多模态表征Eall,公式如下:
然后,将新闻的多模态表征传入一个全连接层和softmax层,预测该新闻是真新闻还是假新闻,最终的输出结果是一个二元组[0,1]。
其中,Wf和bf是可训练的参数矩阵和偏置项。表示最终预测的新闻真假标签。*表示向量相乘。
训练过程中,使用真实标签yi和预测标签计算分类交叉熵损失,损失计算如下:
其中,Lcls表示最终的新闻真假分类损失。
步骤6:训练神经网络。
整个模型最终的损失值定义如下,通过梯度反向传播更新所有参数,训练过程中逐步最小化各个损失。
Lfinal=Le_cls+Lsim+Ldloss+Lgloss+Lcls (27)
其中,Lfinal表示模型的总损失,Le_cls表示事件新闻分类损失,Lsim表示事件相似度损失,Ldloss表示鉴别器损失,Lgloss表示生成器损失。
同时,采取多种方法改善过拟合现象,在中间层添加batch-normalization并以0.4的概率随机dropout、对模型的参数添加L2正则化、使用早停法让模型自适应训练轮数。
图2为基于本方法的实施框图。为了评估模型的好坏,数据集的划分方法和已有的研究保持相同,并使用准确率(Accuracy,Acc)、查准率(Percision,P)、召回率(Recall,R)和F1分数作为模型的评价指标。
表1:9种分类方式-2个数据集效果比较
实验结果如表1所示。
Claims (5)
1.一种基于事件依赖的多模态虚假新闻检测方法,其特征在于:
首先,抽取和图像信息对齐的关键文本表征,作为事件软标签;
然后,借助事件在每个模态中抽取事件语义相关的细粒度事件特定特征和事件语义无关的粗粒度事件不变特征;
最后,结合不同层次的事件特征生成完善的多模态新闻表征,检测新闻真假。
2.如权利要求1所述的一种基于事件依赖的多模态虚假新闻检测方法,包括如下步骤:
步骤1:对多模态新闻中的文本信息和图像信息进行编码;
步骤1.1:首先获取新闻文本的粗粒度全局表征和所有字符表征构成的细粒度局部表征,然后将表征输入线性层控制输出向量的维度;
步骤1.2:获取新闻图像的全局表征和不同区域表征构成的局部表征,然后将表征输入线性层控制输出向量的维度;
步骤2:结合文本信息和图像信息,抽取多模态新闻的事件表征;
利用多头协同注意力机制,结合视觉和文本细粒度信息来抽取事件软标签;同时,为限制生成的多模态事件表征更靠近新闻的真实事件语义,且和判断新闻真假的依据更相关,设计对比损失和分类损失监督生成的事件表征;
步骤3:结合事件抽取每个模态的事件特定特征;
设计两个基于事件的多模态协同注意力模块,分别用于捕捉文本和图像两个模态的事件特定特征;第一个多模态协同注意力模块的输入分别为图像局部特征和事件局部特征,通过该模块实现图像和事件的多模态信息融合,同时捕获隐含的判断线索,第二个多模态协同注意力模块的输入是文本局部特征和事件局部特征,用于实现文本和事件表征的融合;最后,将学习到的两个模态的事件特定特征进行拼接,得到新闻的多模态事件特定特征;
步骤4:结合事件抽取每个模态的事件不变特征;
设计两个基于对抗网络的事件不变特征抽取模块;每个模块均包含一个鉴别器和一个生成器;文本编码器和图像编码器是两个生成器,作为生成器,它们用生成的信息欺骗鉴别器,尽力混淆鉴别器,使之不能区分信息来自哪个模态;
其中,鉴别器的输入是事件表征和生成器得到的文本或图像表征,它努力区分信息是来自事件模态还是来自文本或图像模态;
生成器与鉴别器进行博弈对抗,最终二者的损失函数达到平衡;
步骤5:预测多模态新闻的真假标签;
将得到的新闻的多模态事件特定特征和事件不变特征进行拼接,融合多层次的事件表征,生成最终的新闻多模态表征;
然后,将新闻的多模态表征传入全连接层和softmax层,预测新闻的真假标签;
步骤6:训练卷积神经网络;
使用交叉熵损失函数计算最终的分类损失值,进行梯度反向传播更新模型的所有参数,设置训练轮次,并改善过拟合现象。
3.如权利要求2所述的一种基于事件依赖的多模态虚假新闻检测方法,其特征在于,步骤1中:
步骤1.1:文本编码;
使用BERT作为文本编码器的核心模块;利用光学字符识别技术识别出图像中的文字TO,将原始文本T和补充文本TO拼接,并以[SEP]分隔,输入到BERT中,同时设置最大长度,长则截断短则补齐,得到文本编码特征,如式1所示:
Rcls,Ri=BERT([CLS]T[SEP]To[SEP]) (1)
其中,Rcls表示全局文本表征,Ri表示字符级文本表征,To表示图像中的文字;
输出包含两个部分:一个是包含所有字符编码的细粒度文本特征Ri={r1,r2,...,ri,...,rn},ri对应第i个单词的表征,n表示文本的最大长度;另一个是全局文本表征Rcls,是BERT最后的隐藏层[CLS]位置的表征向量,该向量无偏的融合了全文信息;
步骤1.2:图像编码;
使用VGG作为图像编码的核心模块;给定图像P,首先将其调整为224×224像素,然后输入VGG,取VGG最后的全连接层和卷积层的输出作为不同粒度的图像特征,输出如下:
Va,Vi=VGG(P) (2)
该输出包含两个部分,一个是局部图像特征Vi={v1,v2,...,vi,...,vn},其中vi表示变换后图像的第i个平均池化卷积层特征,是从VGG的倒数第二个卷积层抽取的;另一个是全局图像表征Va,是最后一个全连接层的输出;
选择在数据集上训练好的VGG19对图像进行编码。
4.如权利要求2所述的一种基于事件依赖的多模态虚假新闻检测方法,其特征在于,步骤2中:
步骤2.1:生成多模态事件软标签;
设计多头协同注意力模块,结合视觉和文本细粒度信息抽取事件软标签;该模块由多头自注意机制、残差连接、层归一化和全连接前馈网络构成;将局部图像表示Vi作为查询,将前面得到的字符级文本表征Ri作为键和值,通过计算查询和键值的相关性,得到与图像对应的文本的重要性,得到最终的事件细粒度表征Ei,如式3、式4所示:
Qi=ViWQ,Ki=RiWK,Vi=RiWV (3)
其中,Qi表示查询向量,Ki表示键向量,Vi表示值向量;WQ、WK、WV为可学习的矩阵参数,dk是表征向量的维度;Ei表示事件细粒度表征;T表示矩阵转置;
在对生成的表征归一化之前,对生成的交互特征Ei和字符级文本表征Ri添加不同的权重,使用一个超参数μ衡量文本表征在事件表征中的加强程度,如下式:
E′i=LayerNorm(Ei+μRi) (5)
Ei″=FeedForwardNetwork(E′i) (6)
Ei=LayerNorm(Ei″+Ei′) (7)其中,E′i表示经过第一个归一化层后的事件表征,LayerNorm()表示归一化层,FeedForwardNetwork()表示前馈神经网络层,Ei″表示第一个前馈神经网络之后的事件表征;Ei为最终的细粒度多模态事件表征,然后对其进行维度转换,并传入全连接层得到全局事件表征Ea,具体如下:
Ea=Fc(WePermute(Ei)+be) (8)
其中,We、be为可学习的矩阵参数,Fc()表示全连接层,Permute()是维度转换操作;
至此,得到两种粒度的多模态事件表征;
步骤2.2:设计两个损失函数监督生成的事件表征;
第一个是分类损失,计算直接将生成的全局事件表征传入全连接层和softmax层进行新闻真假预测,并利用交叉熵损失函数计算预测值和真实标签之间的分类损失;具体如下:
其中,We′和be′均为可学习的参数矩阵,表示预测的新闻标签,W′e为可学习的矩阵参数,softmax()表示归一化指数函数,Le_cls表示事件分类损失,yi表示该新闻的真实标签;
第二个是相似度损失,计算生成的事件表征和从文本及图像中抽取的多模态事件表征的相似度损失;
上述得到的事件信息均为文本格式,将所有信息拼接作为新闻的多模态事件信息弱标签Te,将Te传入BERT得到事件表征标签,将其和从文本图像中学习的全局多模态事件表征进行对比,计算对比损失,希望生成的多模态事件表征更靠近真实的高阶事件语义;具体如下:
Re=BERT(Te) (11)
其中,N表示样本数量;sim表示余弦相似度计算公式;Lsim表示事件相似度损失;Re表示事件标签表征向量;Ea表示抽取的事件表征向量;
在步骤3中:
设计两个结构完全相同的多模态协同注意力模块,分别用于捕捉文本和图像的事件特定特征;
对于文本,首先给定文本和事件的细粒度表征,以事件为查询,以文本为键和值,通过三个不同的可学习的线性投影层得到查询向量、键值向量、值向量;计算如下:
Qi=EiWQ,Ki=RiWK,Vi=RiWV (13)
之后,通过计算查询向量和键值向量的相关性,得到与事件对应的不同文本字符的重要性,进而加权生成事件信息增强的文本表征;计算如下:
其中,Sti表示结合事件信息之后的文本表征;
然后,通过两个归一化层和一个前馈神经网络层进一步融合,生成结合事件和文本的多模态表征信息;计算如下:
Sti′=LayerNorm(Sti+Vi) (15)
Sti″=FeedForwardNetwork(St′i) (16)
Est=LayerNorm(Sti″+Sti′) (17)
其中,Sti′表示经过第一个归一化层后的文本表征,Sti″表示经过前馈神经网络层的文本表征,Est表示最后结合事件的文本模态事件特定特征;
结合事件表征和图像表征生成图像的事件特定特征Esv,将两个模态的事件特定特征拼接,得到新闻完整的事件特定特征;计算如下:
其中,Espe表示新闻的事件特定特征,Est表示文本的事件特定特征,Esv表示图像的事件特定特征,表示拼接操作。
5.如权利要求2所述的一种基于事件依赖的多模态虚假新闻检测方法,其特征在于,步骤4中,设计两个结构完全相同的基于对抗网络的事件不变特征抽取模块,分别捕捉图像和文本的事件不变特征;每个模块包含一个鉴别器和一个生成器;其中,生成器包括一个线性层、一个正则化层和一个dropout层;鉴别器不设计具体的网络结构,参考域迁移学习中的方法,通过添加梯度反转层实现;
生成器得到的两个事件不变特征计算公式如下:
Ve=generatorv(Va) (19)
Re=generatorr(Rcls) (20)
其中,Va表示图像的全局表征,Ve表示图像的事件不变特征,generatorv表示图像的生成器,Rcls表示文本的全局表征,Re表示文本的事件不变特征,generatorr表示文本的生成器;
在训练过程中,利用MSE损失函数计算两个损失,一个是Lgloss,其目标是最大化从生成器中提取的事件不变特征和事件标签之间的差异,即最小化经过梯度反转层的事件不变特征和事件标签之间的差异;另一个是Ldloss,其目标是最小化生成器得到的事件不变特征和事件标签之间的距离;计算公式如下:
Lgloss=MSE(Ea,GRL(Ve))+MSE(Ea,GRL(Re))) (21)
Ldloss=MSE(Ea,Ve)+MSE(Ea,Re)) (22)
其中,MSE()表示均方误差,GRL()表示梯度反转层,Ea表示全局事件表征,Re表示文本的事件不变特征,Ve表示图像的事件不变特征;
训练完成后,保留生成器为新闻生成事件不变特征;拼接从生成器得到的两个模态的事件不变特征,得到最终的新闻事件不变特征;
在步骤5中,将得到的新闻的多模态事件特定特征Espe和事件不变特征Einv,二者进行拼接,融合多层次的事件表征,生成最终的新闻多模态表征Eall,公式如下:
然后,将新闻的多模态表征传入一个全连接层和softmax层,预测该新闻是真新闻还是假新闻,最终的输出结果是一个二元组[0,1];
其中,Wf和bf是可训练的参数矩阵和偏置项;表示最终预测的新闻真假标签;*表示向量相乘;
训练过程中,使用真实标签yi和预测标签计算分类交叉熵损失,损失计算如下:
其中,Lcls表示最终的新闻真假分类损失;
在步骤6中,整个模型最终的损失值定义如下,通过梯度反向传播更新所有参数,训练过程中逐步最小化各个损失;
Lfinal=Le_cls+Lsim+Ldloss+Lgloss+Lcls (27)
其中,Lfinal表示模型的总损失,Le_cls表示事件新闻分类损失,Lsim表示事件相似度损失,Ldloss表示鉴别器损失,Lgloss表示生成器损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310663327.6A CN116910683A (zh) | 2023-06-06 | 2023-06-06 | 一种基于事件依赖的多模态虚假新闻检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310663327.6A CN116910683A (zh) | 2023-06-06 | 2023-06-06 | 一种基于事件依赖的多模态虚假新闻检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116910683A true CN116910683A (zh) | 2023-10-20 |
Family
ID=88363653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310663327.6A Pending CN116910683A (zh) | 2023-06-06 | 2023-06-06 | 一种基于事件依赖的多模态虚假新闻检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910683A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117391051A (zh) * | 2023-12-12 | 2024-01-12 | 江西师范大学 | 一种融合情感的共同注意网络多模态虚假新闻检测方法 |
-
2023
- 2023-06-06 CN CN202310663327.6A patent/CN116910683A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117391051A (zh) * | 2023-12-12 | 2024-01-12 | 江西师范大学 | 一种融合情感的共同注意网络多模态虚假新闻检测方法 |
CN117391051B (zh) * | 2023-12-12 | 2024-03-08 | 江西师范大学 | 一种融合情感的共同注意网络多模态虚假新闻检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Das et al. | Detecting hate speech in multi-modal memes | |
CN115033670A (zh) | 多粒度特征融合的跨模态图文检索方法 | |
Zeng et al. | Tag-assisted multimodal sentiment analysis under uncertain missing modalities | |
Li et al. | One-class knowledge distillation for face presentation attack detection | |
CN115293170A (zh) | 一种基于协同注意力融合的方面级多模态情感分析方法 | |
CN114662497A (zh) | 一种基于协同神经网络的虚假新闻检测方法 | |
CN116910683A (zh) | 一种基于事件依赖的多模态虚假新闻检测方法 | |
Zhu et al. | Multimodal zero-shot hateful meme detection | |
CN116796251A (zh) | 一种基于图文多模态的不良网站分类方法、系统及设备 | |
CN115964482A (zh) | 一种基于用户认知一致性推理的多模态虚假新闻检测方法 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
Liu et al. | BDNet: A BERT-based dual-path network for text-to-image cross-modal person re-identification | |
CN117391051B (zh) | 一种融合情感的共同注意网络多模态虚假新闻检测方法 | |
CN112988959B (zh) | 基于证据推断网络的虚假新闻可解释性检测系统及方法 | |
Chaudhary et al. | Signnet ii: A transformer-based two-way sign language translation model | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos | |
CN116385946B (zh) | 面向视频的目标片段定位方法、系统、存储介质及设备 | |
CN117521012A (zh) | 基于多模态上下文分层分步对齐的虚假信息检测方法 | |
Bacharidis et al. | Improving deep learning approaches for human activity recognition based on natural language processing of action labels | |
Qi et al. | Video captioning via a symmetric bidirectional decoder | |
CN116343256A (zh) | 一种基于bert的文本到图像跨模态行人重识别方法 | |
Pan et al. | Attentive Feature Focusing for Person Search by Natural Language | |
Anusudha | Real time face recognition system based on YOLO and InsightFace | |
Liang et al. | Language-Guided Visual Aggregation Network for Video Question Answering | |
CN117746441B (zh) | 一种视觉语言理解方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |