CN113283535A - 一种融合多模态特征的虚假消息检测方法和装置 - Google Patents
一种融合多模态特征的虚假消息检测方法和装置 Download PDFInfo
- Publication number
- CN113283535A CN113283535A CN202110652948.5A CN202110652948A CN113283535A CN 113283535 A CN113283535 A CN 113283535A CN 202110652948 A CN202110652948 A CN 202110652948A CN 113283535 A CN113283535 A CN 113283535A
- Authority
- CN
- China
- Prior art keywords
- features
- tweet
- propagation
- text
- message detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种融合多模态特征的虚假消息检测方法和装置,包括以下步骤:利用文本特征提取器和图像特征提取器从推文中分别提取文本特征和图像特征;拼接文本特征和图像特征得到推文的内容特征;利用基于GCN模型构建的传播结构特征提取器提取推文在传播过程中产生的结构特征;利用分类器基于推文的内容特征和结构特征进行虚假消息检测。不仅考虑了推文内容本身对应的特征,还融合了其在传播过程中产生的结构特征,有效提高了虚假消息的检测性能。
Description
技术领域
本发明属于计算机视觉和虚假消息检测领域,具体地说是一种融合多模态特征的虚假消息检测方法和装置。
背景技术
随着计算机技术高速发展、互联网产生大数据和神经网络训练方法改进,人工智能得到了快速发展。自然语言处理(NLP)是计算机科学领域和人工智能领域中的一个分支,它与计算机和人类之间使用自然语言进行互动密切相关。由于人类语言的复杂性,让机器理解人类语言被认为是一项艰巨的任务。NLP技术致力于使计算机能够像人类一样理解语言。机器学习是受NLP影响最深远的领域之一,尤为突出的是深度学习技术。该领域分为语音识别、自然语言理解和自然语言生成三个部分。其应用领域非常广泛,如天猫精灵和Siri等语音助手,还有机器翻译和文本过滤等。
计算机视觉是人工智能领域的一个重要分支。它的目的是让计算机看懂图片里的内容。对于人类来说看懂图片是一件很简单的事情,但是对于机器来说这是一个非常难的事情。目前主流的基于深度学习的机器视觉方法,其原理跟人类大脑工作的原理比较相似:通过构造多层的神经网络,较低层的识别初级的图像特征,若干底层特征组成更上一层特征,最终通过多个层级的组合,最终在顶层做出分类。计算机视觉在现实生活中的应用场景非常广泛,例如人脸识别、车牌识别、图片鉴黄等。
近年来以社交网络为代表的互联网技术迅猛发展,越来越多的人通过社交媒体获取新闻,社交媒体可以及时、全面地提供世界各地正在发生的事情。与此同时,假新闻铺天盖地,而且极具迷惑性。各种不法分子利用各种社交平台发布虚假消息,进行各种违法犯罪活动,给国家安全和社会稳定带来了严重的影响。它对人类社会造成的危害使其成为学术界亟待解决的问题。
到目前为止,研究人员已经利用各种检测方法来识别虚假消息,深度学习模型由于其优越的特征提取能力,其性能与传统方法相比有了很大的提高。有研究者提出了融合文本和图像特征的虚假消息检测方法,但其忽略了消息在传播过程中产生的有效信息,这在一定程度上限制了检测方法的性能。
发明内容
鉴于上述技术问题,本发明的目的是提供一种融合多模态特征的虚假消息检测方法和装置,以实现虚假消息的识别。
本发明解决其技术问题所采用的技术方案是:
第一方面,实施例提供的一种融合多模态特征的虚假消息检测方法,包括以下步骤:
利用文本特征提取器和图像特征提取器从推文中分别提取文本特征和图像特征;拼接文本特征和图像特征得到推文的内容特征;
利用基于GCN模型构建的传播结构特征提取器提取推文在传播过程中产生的结构特征;
利用分类器基于推文的内容特征和结构特征进行虚假消息检测。
优选地,所述文本特征提取器采用Transformers模型。
优选地,所述图像特征提取器采用VGG-19模型。
优选地,推文经过GCN模型计算得到在传播过程中产生的自上而下的传播特征和自下而上的传播特征,然后,将自上而下的传播特征和自下而上的传播特征进行拼接以实现两者的信息融合,得到最终表征推文传播结构的结构特征。
优选地,所述分类器包括至少1层全连接层和softmax层,其中,全连接层用于拼接推文的内容特征和结构特征,得到推文的高阶表示,softmax层用于对推文的高阶表示进行分类预测,以判别推文是否为虚假消息。
优选地,所述分类器包括2层全连接层和softmax层。
第二方面,实施例提供的一种融合多模态特征的虚假消息检测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,所述处理器执行计算机程序时实现上述融合多模态特征的虚假消息检测方法。
本发明具有的有益效果至少包括:实施例提供的一种融合多模态特征的虚假消息检测方法和装置,不仅考虑了推文内容本身对应的特征,还融合了其在传播过程中产生的结构特征,有效提高了虚假消息的检测性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是一实施例提供的一种融合多模态特征的虚假消息检测方法的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1是一实施例提供的一种融合多模态特征的虚假消息检测方法的流程图。如图1所示,实施例提供的虚假消息检测方法,包括以下步骤:
步骤1,利用文本特征提取器提取推文的文本特征。
推文是指推文具有应用推广性质的文章,包含文本语句和图像等,被广泛的转载和推荐,但是这些推文中往往存在虚假消息,本发明的目的就是对虚假消息进行检测。
实施例中,使用Transformers模型的双向编码器表示(即BERT模型)进行文本特征提取,来捕捉文本内容潜在的语义和上下文含义。BERT模型本质上是一个多层双向Transformer编码器,每层的输出被传递到下一个编码器。文本特征提取器的输入是文本文章中单词的序列,这些单词首先被嵌入到向量中。将句子中第i个词的D维词嵌入向量表示为Ti∈RD,因此,输入句子的表示如下:
对于每个特征向量Tf,使用平均池化操作来根据它们的重要性从所有单词中获得文本特征,最后再经过一个全连接层来确保文本特征的最终输出与图像特征具有相同的维度。表示如下:
步骤2,利用图像特征提取器取推文的图像特征。
本实施例中,采用基于ImageNet数据集预训练的VGG-19模型作为图像特征提取器对推文所附的图像进行视觉特征的提取。同样的,在VGG-19模型的最后一层添加全连接层来确保图像特征提取器的最终输出维度与文本特征是一致的。表示如下:
步骤3,拼接文本特征和图像特征得到推文的内容特征。
步骤4,利用传播结构特征提取器提取推文的结构特征。
实施例中,基于回复和转发关系为源推文构建传播结构G=(V,E),其中V为参与回复和转发的用户集,E为回复和转发关系。令A∈Rn*n为其邻接矩阵,X为源推文基于传播树的特征矩阵。分别使用(A,X)和(AT,X)作为GCN模型的输入来分别捕获自上而下的传播特征和自下而上的传播特征,其中AT表示A的转置。GCN是最有效的卷积方法之一,GCN的卷积操作可以看成是消息传递结构。上述GCN模型由两个单层的GCN层构成,单层GCN的传递公式表示如下:
经过GCN模型得到推文在传播过程中产生的自上而下的传播特征HTD和自下而上的传播特征HBU。最后将自上而下的传播特征HTD和自下而上的传播特征HBU进行拼接来将两者的信息融合,来得到最终表征推文传播结构的特征Rf2:
Rf2=concat(MEAN(HTD),MEAN(HBU))
其中MEAN()表示平均池化(mean-pooling)操作。
步骤5,利用分类器基于推文的内容特征和结构特征进行虚假消息检测。
实施例中,采用两层全连接层和softmax层构建分类器。将上述内容特征和结构特征进行拼接,得到整个推文的高阶表示Rf:
Rf=concat(Rf1,Rf2)
FC()为全连接层,使用交叉熵作为训练过程中的损失函数。
实施例还提供了一种融合多模态特征的虚假消息检测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序所述处理器执行计算机程序时实现上述融合多模态特征的虚假消息检测方法。
上述实施例提供的一种融合多模态特征的虚假消息检测方法和装置,分别对内容特征和传播结构特征进行提取,并融合不同模态的特征,实现虚假消息的识别。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种融合多模态特征的虚假消息检测方法,其特征在于,包括以下步骤:
利用文本特征提取器和图像特征提取器从推文中分别提取文本特征和图像特征;拼接文本特征和图像特征得到推文的内容特征;
利用基于GCN模型构建的传播结构特征提取器提取推文在传播过程中产生的结构特征;
利用分类器基于推文的内容特征和结构特征进行虚假消息检测。
2.如权利要求1所述的融合多模态特征的虚假消息检测方法,其特征在于,所述文本特征提取器采用Transformers模型。
3.如权利要求1所述的融合多模态特征的虚假消息检测方法,其特征在于,所述图像特征提取器采用VGG-19模型。
4.如权利要求1所述的融合多模态特征的虚假消息检测方法,其特征在于,基于回复和转发关系为源推文构建传播结构G=(V,E),其中V为参与回复和转发的用户集,E为回复和转发关系,令A∈Rn*n为其邻接矩阵,X为源推文基于传播树的特征矩阵,分别使用(A,X)和(AT,X)作为GCN模型的输入来分别捕获自上而下的传播特征和自下而上的传播特征,其中AT表示A的转置。
5.如权利要求1所述的融合多模态特征的虚假消息检测方法,其特征在于,推文经过GCN模型计算得到在传播过程中产生的自上而下的传播特征和自下而上的传播特征,然后,将自上而下的传播特征和自下而上的传播特征进行拼接以实现两者的信息融合,得到最终表征推文传播结构的结构特征。
6.如权利要求1所述的融合多模态特征的虚假消息检测方法,其特征在于,所述分类器包括至少1层全连接层和softmax层,其中,全连接层用于拼接推文的内容特征和结构特征,得到推文的高阶表示,softmax层用于对推文的高阶表示进行分类预测,以判别推文是否为虚假消息。
7.如权利要求6所述的融合多模态特征的虚假消息检测方法,其特征在于,所述分类器包括2层全连接层和softmax层。
8.一种融合多模态特征的虚假消息检测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1~7任一项所述的融合多模态特征的虚假消息检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110652948.5A CN113283535B (zh) | 2021-06-11 | 2021-06-11 | 一种融合多模态特征的虚假消息检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110652948.5A CN113283535B (zh) | 2021-06-11 | 2021-06-11 | 一种融合多模态特征的虚假消息检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283535A true CN113283535A (zh) | 2021-08-20 |
CN113283535B CN113283535B (zh) | 2024-03-29 |
Family
ID=77284268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110652948.5A Active CN113283535B (zh) | 2021-06-11 | 2021-06-11 | 一种融合多模态特征的虚假消息检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283535B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280057A (zh) * | 2017-12-26 | 2018-07-13 | 厦门大学 | 一种基于blstm的微博谣言检测方法 |
CN111428151A (zh) * | 2020-04-20 | 2020-07-17 | 浙江工业大学 | 一种基于网络增速的虚假消息识别方法及其装置 |
US20210089579A1 (en) * | 2019-09-23 | 2021-03-25 | Arizona Board Of Regents On Behalf Of Arizona State University | Method and apparatus for collecting, detecting and visualizing fake news |
-
2021
- 2021-06-11 CN CN202110652948.5A patent/CN113283535B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280057A (zh) * | 2017-12-26 | 2018-07-13 | 厦门大学 | 一种基于blstm的微博谣言检测方法 |
US20210089579A1 (en) * | 2019-09-23 | 2021-03-25 | Arizona Board Of Regents On Behalf Of Arizona State University | Method and apparatus for collecting, detecting and visualizing fake news |
CN111428151A (zh) * | 2020-04-20 | 2020-07-17 | 浙江工业大学 | 一种基于网络增速的虚假消息识别方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113283535B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112200317B (zh) | 多模态知识图谱构建方法 | |
CN112035669B (zh) | 基于传播异质图建模的社交媒体多模态谣言检测方法 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN111079444A (zh) | 一种基于多模态关系的网络谣言检测方法 | |
CN115033670A (zh) | 多粒度特征融合的跨模态图文检索方法 | |
Li et al. | Context-aware group captioning via self-attention and contrastive features | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN112131347A (zh) | 一种基于多模态融合的假新闻检测方法 | |
Yang et al. | Constrained lstm and residual attention for image captioning | |
Liu et al. | Fact-based visual question answering via dual-process system | |
CN115982350A (zh) | 基于多模态Transformer的虚假新闻检测方法 | |
Zhang et al. | Image-enhanced multi-level sentence representation net for natural language inference | |
CN113469214A (zh) | 虚假新闻检测方法、装置、电子设备和存储介质 | |
Verma et al. | Automatic image caption generation using deep learning | |
CN117391051B (zh) | 一种融合情感的共同注意网络多模态虚假新闻检测方法 | |
Wang et al. | Rare-aware attention network for image–text matching | |
Naseem et al. | A multimodal framework for the identification of vaccine critical memes on Twitter | |
Sharma et al. | Evolution of visual data captioning Methods, Datasets, and evaluation Metrics: A comprehensive survey | |
Dost et al. | Aligning and linking entity mentions in image, text, and knowledge base | |
CN116756363A (zh) | 一种由信息量引导的强相关性无监督跨模态检索方法 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
Cai et al. | Multi‐level deep correlative networks for multi‐modal sentiment analysis | |
CN113283535B (zh) | 一种融合多模态特征的虚假消息检测方法和装置 | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
CN113516198A (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |