CN113283535A - 一种融合多模态特征的虚假消息检测方法和装置 - Google Patents

一种融合多模态特征的虚假消息检测方法和装置 Download PDF

Info

Publication number
CN113283535A
CN113283535A CN202110652948.5A CN202110652948A CN113283535A CN 113283535 A CN113283535 A CN 113283535A CN 202110652948 A CN202110652948 A CN 202110652948A CN 113283535 A CN113283535 A CN 113283535A
Authority
CN
China
Prior art keywords
features
tweet
propagation
text
message detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110652948.5A
Other languages
English (en)
Other versions
CN113283535B (zh
Inventor
陈晋音
徐晓东
程点
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110652948.5A priority Critical patent/CN113283535B/zh
Publication of CN113283535A publication Critical patent/CN113283535A/zh
Application granted granted Critical
Publication of CN113283535B publication Critical patent/CN113283535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种融合多模态特征的虚假消息检测方法和装置,包括以下步骤:利用文本特征提取器和图像特征提取器从推文中分别提取文本特征和图像特征;拼接文本特征和图像特征得到推文的内容特征;利用基于GCN模型构建的传播结构特征提取器提取推文在传播过程中产生的结构特征;利用分类器基于推文的内容特征和结构特征进行虚假消息检测。不仅考虑了推文内容本身对应的特征,还融合了其在传播过程中产生的结构特征,有效提高了虚假消息的检测性能。

Description

一种融合多模态特征的虚假消息检测方法和装置
技术领域
本发明属于计算机视觉和虚假消息检测领域,具体地说是一种融合多模态特征的虚假消息检测方法和装置。
背景技术
随着计算机技术高速发展、互联网产生大数据和神经网络训练方法改进,人工智能得到了快速发展。自然语言处理(NLP)是计算机科学领域和人工智能领域中的一个分支,它与计算机和人类之间使用自然语言进行互动密切相关。由于人类语言的复杂性,让机器理解人类语言被认为是一项艰巨的任务。NLP技术致力于使计算机能够像人类一样理解语言。机器学习是受NLP影响最深远的领域之一,尤为突出的是深度学习技术。该领域分为语音识别、自然语言理解和自然语言生成三个部分。其应用领域非常广泛,如天猫精灵和Siri等语音助手,还有机器翻译和文本过滤等。
计算机视觉是人工智能领域的一个重要分支。它的目的是让计算机看懂图片里的内容。对于人类来说看懂图片是一件很简单的事情,但是对于机器来说这是一个非常难的事情。目前主流的基于深度学习的机器视觉方法,其原理跟人类大脑工作的原理比较相似:通过构造多层的神经网络,较低层的识别初级的图像特征,若干底层特征组成更上一层特征,最终通过多个层级的组合,最终在顶层做出分类。计算机视觉在现实生活中的应用场景非常广泛,例如人脸识别、车牌识别、图片鉴黄等。
近年来以社交网络为代表的互联网技术迅猛发展,越来越多的人通过社交媒体获取新闻,社交媒体可以及时、全面地提供世界各地正在发生的事情。与此同时,假新闻铺天盖地,而且极具迷惑性。各种不法分子利用各种社交平台发布虚假消息,进行各种违法犯罪活动,给国家安全和社会稳定带来了严重的影响。它对人类社会造成的危害使其成为学术界亟待解决的问题。
到目前为止,研究人员已经利用各种检测方法来识别虚假消息,深度学习模型由于其优越的特征提取能力,其性能与传统方法相比有了很大的提高。有研究者提出了融合文本和图像特征的虚假消息检测方法,但其忽略了消息在传播过程中产生的有效信息,这在一定程度上限制了检测方法的性能。
发明内容
鉴于上述技术问题,本发明的目的是提供一种融合多模态特征的虚假消息检测方法和装置,以实现虚假消息的识别。
本发明解决其技术问题所采用的技术方案是:
第一方面,实施例提供的一种融合多模态特征的虚假消息检测方法,包括以下步骤:
利用文本特征提取器和图像特征提取器从推文中分别提取文本特征和图像特征;拼接文本特征和图像特征得到推文的内容特征;
利用基于GCN模型构建的传播结构特征提取器提取推文在传播过程中产生的结构特征;
利用分类器基于推文的内容特征和结构特征进行虚假消息检测。
优选地,所述文本特征提取器采用Transformers模型。
优选地,所述图像特征提取器采用VGG-19模型。
优选地,推文经过GCN模型计算得到在传播过程中产生的自上而下的传播特征和自下而上的传播特征,然后,将自上而下的传播特征和自下而上的传播特征进行拼接以实现两者的信息融合,得到最终表征推文传播结构的结构特征。
优选地,所述分类器包括至少1层全连接层和softmax层,其中,全连接层用于拼接推文的内容特征和结构特征,得到推文的高阶表示,softmax层用于对推文的高阶表示进行分类预测,以判别推文是否为虚假消息。
优选地,所述分类器包括2层全连接层和softmax层。
第二方面,实施例提供的一种融合多模态特征的虚假消息检测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,所述处理器执行计算机程序时实现上述融合多模态特征的虚假消息检测方法。
本发明具有的有益效果至少包括:实施例提供的一种融合多模态特征的虚假消息检测方法和装置,不仅考虑了推文内容本身对应的特征,还融合了其在传播过程中产生的结构特征,有效提高了虚假消息的检测性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是一实施例提供的一种融合多模态特征的虚假消息检测方法的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1是一实施例提供的一种融合多模态特征的虚假消息检测方法的流程图。如图1所示,实施例提供的虚假消息检测方法,包括以下步骤:
步骤1,利用文本特征提取器提取推文的文本特征。
推文是指推文具有应用推广性质的文章,包含文本语句和图像等,被广泛的转载和推荐,但是这些推文中往往存在虚假消息,本发明的目的就是对虚假消息进行检测。
实施例中,使用Transformers模型的双向编码器表示(即BERT模型)进行文本特征提取,来捕捉文本内容潜在的语义和上下文含义。BERT模型本质上是一个多层双向Transformer编码器,每层的输出被传递到下一个编码器。文本特征提取器的输入是文本文章中单词的序列,这些单词首先被嵌入到向量中。将句子中第i个词的D维词嵌入向量表示为Ti∈RD,因此,输入句子的表示如下:
Figure BDA0003112464290000041
对于每个特征向量Tf,使用平均池化操作来根据它们的重要性从所有单词中获得文本特征,最后再经过一个全连接层来确保文本特征的最终输出与图像特征具有相同的维度。表示如下:
Figure BDA0003112464290000042
Figure BDA0003112464290000043
表示文本特征提取器的最终输出的文本特征,
Figure BDA0003112464290000044
表示该全连接层的权重矩阵,Rt表示BERT模型的最后一层输出,σ表示Leaky RELU激活函数。
步骤2,利用图像特征提取器取推文的图像特征。
本实施例中,采用基于ImageNet数据集预训练的VGG-19模型作为图像特征提取器对推文所附的图像进行视觉特征的提取。同样的,在VGG-19模型的最后一层添加全连接层来确保图像特征提取器的最终输出维度与文本特征是一致的。表示如下:
Figure BDA0003112464290000051
Figure BDA0003112464290000052
表示图像特征提取器的最终输出,
Figure BDA0003112464290000053
表示该全连接层的权重矩阵,Rvgg表示VGG-19模型的最后一层输出,σ表示Leaky RELU激活函数。
步骤3,拼接文本特征和图像特征得到推文的内容特征。
实施例中,将上述文本特征
Figure BDA0003112464290000054
和图像特征
Figure BDA0003112464290000055
拼接得到最终表征推文的内容特征Rf1∈R2m,表示如下:
Figure BDA0003112464290000056
步骤4,利用传播结构特征提取器提取推文的结构特征。
实施例中,基于回复和转发关系为源推文构建传播结构G=(V,E),其中V为参与回复和转发的用户集,E为回复和转发关系。令A∈Rn*n为其邻接矩阵,X为源推文基于传播树的特征矩阵。分别使用(A,X)和(AT,X)作为GCN模型的输入来分别捕获自上而下的传播特征和自下而上的传播特征,其中AT表示A的转置。GCN是最有效的卷积方法之一,GCN的卷积操作可以看成是消息传递结构。上述GCN模型由两个单层的GCN层构成,单层GCN的传递公式表示如下:
Figure BDA0003112464290000057
Hk表示第k层的隐层特征表示,
Figure BDA0003112464290000058
是归一化的邻接矩阵,其中
Figure BDA0003112464290000059
即添加了自环。
经过GCN模型得到推文在传播过程中产生的自上而下的传播特征HTD和自下而上的传播特征HBU。最后将自上而下的传播特征HTD和自下而上的传播特征HBU进行拼接来将两者的信息融合,来得到最终表征推文传播结构的特征Rf2
Rf2=concat(MEAN(HTD),MEAN(HBU))
其中MEAN()表示平均池化(mean-pooling)操作。
步骤5,利用分类器基于推文的内容特征和结构特征进行虚假消息检测。
实施例中,采用两层全连接层和softmax层构建分类器。将上述内容特征和结构特征进行拼接,得到整个推文的高阶表示Rf
Rf=concat(Rf1,Rf2)
将高阶表示Rf输入到分类器中,以得到推文的预测标签
Figure BDA0003112464290000061
Figure BDA0003112464290000062
FC()为全连接层,使用交叉熵作为训练过程中的损失函数。
实施例还提供了一种融合多模态特征的虚假消息检测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序所述处理器执行计算机程序时实现上述融合多模态特征的虚假消息检测方法。
上述实施例提供的一种融合多模态特征的虚假消息检测方法和装置,分别对内容特征和传播结构特征进行提取,并融合不同模态的特征,实现虚假消息的识别。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种融合多模态特征的虚假消息检测方法,其特征在于,包括以下步骤:
利用文本特征提取器和图像特征提取器从推文中分别提取文本特征和图像特征;拼接文本特征和图像特征得到推文的内容特征;
利用基于GCN模型构建的传播结构特征提取器提取推文在传播过程中产生的结构特征;
利用分类器基于推文的内容特征和结构特征进行虚假消息检测。
2.如权利要求1所述的融合多模态特征的虚假消息检测方法,其特征在于,所述文本特征提取器采用Transformers模型。
3.如权利要求1所述的融合多模态特征的虚假消息检测方法,其特征在于,所述图像特征提取器采用VGG-19模型。
4.如权利要求1所述的融合多模态特征的虚假消息检测方法,其特征在于,基于回复和转发关系为源推文构建传播结构G=(V,E),其中V为参与回复和转发的用户集,E为回复和转发关系,令A∈Rn*n为其邻接矩阵,X为源推文基于传播树的特征矩阵,分别使用(A,X)和(AT,X)作为GCN模型的输入来分别捕获自上而下的传播特征和自下而上的传播特征,其中AT表示A的转置。
5.如权利要求1所述的融合多模态特征的虚假消息检测方法,其特征在于,推文经过GCN模型计算得到在传播过程中产生的自上而下的传播特征和自下而上的传播特征,然后,将自上而下的传播特征和自下而上的传播特征进行拼接以实现两者的信息融合,得到最终表征推文传播结构的结构特征。
6.如权利要求1所述的融合多模态特征的虚假消息检测方法,其特征在于,所述分类器包括至少1层全连接层和softmax层,其中,全连接层用于拼接推文的内容特征和结构特征,得到推文的高阶表示,softmax层用于对推文的高阶表示进行分类预测,以判别推文是否为虚假消息。
7.如权利要求6所述的融合多模态特征的虚假消息检测方法,其特征在于,所述分类器包括2层全连接层和softmax层。
8.一种融合多模态特征的虚假消息检测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1~7任一项所述的融合多模态特征的虚假消息检测方法。
CN202110652948.5A 2021-06-11 2021-06-11 一种融合多模态特征的虚假消息检测方法和装置 Active CN113283535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110652948.5A CN113283535B (zh) 2021-06-11 2021-06-11 一种融合多模态特征的虚假消息检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110652948.5A CN113283535B (zh) 2021-06-11 2021-06-11 一种融合多模态特征的虚假消息检测方法和装置

Publications (2)

Publication Number Publication Date
CN113283535A true CN113283535A (zh) 2021-08-20
CN113283535B CN113283535B (zh) 2024-03-29

Family

ID=77284268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110652948.5A Active CN113283535B (zh) 2021-06-11 2021-06-11 一种融合多模态特征的虚假消息检测方法和装置

Country Status (1)

Country Link
CN (1) CN113283535B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280057A (zh) * 2017-12-26 2018-07-13 厦门大学 一种基于blstm的微博谣言检测方法
CN111428151A (zh) * 2020-04-20 2020-07-17 浙江工业大学 一种基于网络增速的虚假消息识别方法及其装置
US20210089579A1 (en) * 2019-09-23 2021-03-25 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for collecting, detecting and visualizing fake news

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280057A (zh) * 2017-12-26 2018-07-13 厦门大学 一种基于blstm的微博谣言检测方法
US20210089579A1 (en) * 2019-09-23 2021-03-25 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for collecting, detecting and visualizing fake news
CN111428151A (zh) * 2020-04-20 2020-07-17 浙江工业大学 一种基于网络增速的虚假消息识别方法及其装置

Also Published As

Publication number Publication date
CN113283535B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN112200317B (zh) 多模态知识图谱构建方法
CN112035669B (zh) 基于传播异质图建模的社交媒体多模态谣言检测方法
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN111079444A (zh) 一种基于多模态关系的网络谣言检测方法
CN115033670A (zh) 多粒度特征融合的跨模态图文检索方法
Li et al. Context-aware group captioning via self-attention and contrastive features
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN112131347A (zh) 一种基于多模态融合的假新闻检测方法
Yang et al. Constrained lstm and residual attention for image captioning
Liu et al. Fact-based visual question answering via dual-process system
CN115982350A (zh) 基于多模态Transformer的虚假新闻检测方法
Zhang et al. Image-enhanced multi-level sentence representation net for natural language inference
CN113469214A (zh) 虚假新闻检测方法、装置、电子设备和存储介质
Verma et al. Automatic image caption generation using deep learning
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
Wang et al. Rare-aware attention network for image–text matching
Naseem et al. A multimodal framework for the identification of vaccine critical memes on Twitter
Sharma et al. Evolution of visual data captioning Methods, Datasets, and evaluation Metrics: A comprehensive survey
Dost et al. Aligning and linking entity mentions in image, text, and knowledge base
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
Cai et al. Multi‐level deep correlative networks for multi‐modal sentiment analysis
CN113283535B (zh) 一种融合多模态特征的虚假消息检测方法和装置
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
CN113516198A (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant