CN113469214A - 虚假新闻检测方法、装置、电子设备和存储介质 - Google Patents
虚假新闻检测方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113469214A CN113469214A CN202110553822.2A CN202110553822A CN113469214A CN 113469214 A CN113469214 A CN 113469214A CN 202110553822 A CN202110553822 A CN 202110553822A CN 113469214 A CN113469214 A CN 113469214A
- Authority
- CN
- China
- Prior art keywords
- news
- text
- features
- layer
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 189
- 239000013598 vector Substances 0.000 claims abstract description 125
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 239000013604 expression vector Substances 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 27
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000834151 Notesthes Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种虚假新闻检测方法、装置、电子设备和存储介质,所述方法包括:将待检测新闻数据输入至新闻检测模型中,得到新闻检测模型输出的新闻检测结果;其中,新闻检测模型用于提取待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定新闻检测结果。本发明基于自注意力机制确定各文本特征与图像特征对应的上下文向量,可以使得文本特征中携带的信息与图像特征中携带的信息相互进行补充,进而使得基于各上下文向量得到的拼接向量够准确且完整表达待检测新闻数据中包含的信息内容,实现准确获取新闻检测结果。
Description
技术领域
本发明涉及新闻检测技术领域,尤其涉及一种虚假新闻检测方法、装置、电子设备和存储介质。
背景技术
社交媒体网站是人们在日常生活中分享信息、表达和交换意见的便利平台,随着用户数量的不断增长,为社交媒体网站带来各种各样的信息数据。然而,这些信息数据的真实性难以保证,同时虚假的新闻数据还会误导用户,甚至造成不良后果,因此亟需检测网站新闻的真实性,避免虚假新闻传播。
目前,检测虚假新闻主要包括如下方法:一是通过用户报道虚假新闻,然后邀请相关领域的专家或机构进行确认,耗时费力。二是从帖子的媒体内容和用户的社会语境中设计出大量手工制作的特征,利用这些复杂的特征作为训练样本,训练支持向量机分类器和决策树分类器被训练来检测虚假新闻。然而,虚假新闻的内容是高度复杂的,很难被手工制作的特征完全捕捉到。三是利用递归神经网络(RNNs)从帖子中学习隐藏特征以及利用卷积神经网络(CNNs)从虚假新闻中获取关键特征及其高层交互,但该方法只关注文本自身内容,无法准确检测虚假新闻。
发明内容
本发明提供一种虚假新闻检测方法、装置、电子设备和存储介质,用以解决现有技术中无法准确对虚假新闻进行检测的缺陷。
本发明提供一种虚假新闻检测方法,包括:
确定待检测新闻数据;
将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;
其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
根据本发明提供的一种虚假新闻检测方法,所述将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果,包括:
将所述待检测新闻数据输入至所述新闻检测模型的特征提取层,得到所述特征提取层输出的所述多个文本特征和所述图像特征;
将各文本特征和所述图像特征输入至所述新闻检测模型的自注意力层,得到所述自注意力层输出的各文本特征与所述图像特征对应的上下文向量;
将各上下文向量输入至所述新闻检测模型的向量拼接层,得到所述向量拼接层输出的所述拼接向量;
将所述拼接向量输入至所述新闻检测模型的特征分类层,得到所述特征分类层输出的所述新闻检测结果。
根据本发明提供的一种虚假新闻检测方法,所述将所述待检测新闻数据输入至所述新闻检测模型的特征提取层,得到所述特征提取层输出的所述多个文本特征和所述图像特征,包括:
将所述待检测新闻数据输入至所述特征提取层的文本提取层,得到所述文本提取层输出的所述多个文本特征;
将所述待检测新闻数据输入至所述特征提取层的图像提取层,得到所述图像提取层输出的所述图像特征。
根据本发明提供的一种虚假新闻检测方法,所述文本提取层是基于BERT模型训练得到的,所述图像提取层是基于ResNet50训练得到的。
根据本发明提供的一种虚假新闻检测方法,所述自注意力层包括预设数量的自注意力子层,所述预设数量是对所述多个文本特征进行分组确定的,各自注意力子层用于基于自注意力机制确定各分组的文本特征与所述图像特征对应的上下文向量;
所述将各文本特征和所述图像特征输入至所述新闻检测模型的自注意力层,得到所述自注意力层输出的各文本特征与所述图像特征对应的上下文向量,包括:
将各分组的文本特征以及所述图像特征输入至对应的自注意力子层,得到所述自注意力子层输出的各分组的文本特征与所述图像特征对应的上下文向量。
根据本发明提供的一种虚假新闻检测方法,各自注意力子层包括第一上下文层、第二上下文层和信息融合层;
所述将各分组的文本特征以及所述图像特征输入至对应的自注意力子层,得到所述自注意力子层输出的各分组的文本特征与所述图像特征对应的上下文向量,包括:
将各分组的文本特征输入至所述第一上下文层,得到所述第一上下文层输出的文本表示向量;
将所述文本表示向量以及所述图像特征输入至所述第二上下文层,得到所述第二上下文层输出的图像表示向量;
将所述文本表示向量和所述图像表示向量输入至所述信息融合层,得到所述各分组的文本特征与所述图像特征对应的上下文向量。
根据本发明提供的一种虚假新闻检测方法,所述样本新闻数据是从预设数据集中获取的,所述预设数据集包括微博数据集和TWITTER数据集中的至少一种。
本发明还提供一种虚假新闻检测装置,包括:
确定单元,用于确定待检测新闻数据;
检测单元,用于将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;
其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述虚假新闻检测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述虚假新闻检测方法的步骤。
本发明提供的虚假新闻检测方法、装置、电子设备和存储介质,通过新闻检测模型提取待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与图像特征对应的上下文向量,可以使得文本特征中携带的信息与图像特征中携带的信息相互进行补充,进而使得基于各上下文向量得到的拼接向量够准确且完整表达待检测新闻数据中包含的信息内容,实现准确获取新闻检测结果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的虚假新闻检测方法的流程示意图;
图2是本发明提供的新闻检测模型的检测流程示意图;
图3是本发明提供的虚假新闻检测装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
社交媒体网站是人们在日常生活中分享信息、表达和交换意见的便利平台,不断增长的用户数量导致了社交媒体网站上各种各样的信息数据。然而,由于用户不去检查共享信息的可靠性,这些信息数据的真实性难以保证,导致大量虚假新闻的广泛传播,而且这些虚假新闻很容易误导读者,甚至造成严重的社会后果。
目前,现有的关于虚假新闻的检测方法包括:一是从帖子的媒体内容和用户的社会语境中设计出大量手工制作的特征。通过这些复杂的特征,训练分类器(如支持向量机分类器和决策树分类器),进而采用训练完成的分类器进行虚假新闻检测。然而,虚假新闻的内容是高度复杂的,很难被手工制作的特征完全捕捉到。二是利用递归神经网络(RNNs)从帖子中学习隐藏特征以及利用卷积神经网络(CNNs)从虚假新闻中获取关键特征及其高层交互,但上述方法大多只关注文本内容,忽略了多模态信息(如文本、图片等)的帖子,而多模态信息是社交媒体平台的关键组成部分。
虽然上述方法在能够进行虚假新闻检测,但在利用文本内容的多模态上下文信息和层次语义方面仍存在不足。例如在开放系统中,如Twitter和微博,新闻文章通常包括文本和图像等综合内容数据,新闻文章的图像内容通常包含许多不确定元素,若没有文本信息的帮助很难理解,以及文本内容的新闻文章中包含的某些细节都显示在图像内容,从而只关注文本内容无法准备对虚假新闻进行检测。
对此,本发明提供一种虚假新闻检测方法。图1是本发明提供的虚假新闻检测方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、确定待检测新闻数据;
步骤120、将待检测新闻数据输入至新闻检测模型中,得到新闻检测模型输出的新闻检测结果;
其中,新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;新闻检测模型用于提取待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定新闻检测结果。
具体地,待检测新闻数据包含多模态信息,如文本数据以及图像数据,待检测新闻数据可以是通过OCR对新闻(网页新闻、报纸新闻等)进行识别获取的,也可以是通过手动输入文本数据以及图像数据,本实施例对此不作具体限定。
在确定待检测新闻数据之后,将待检测新闻数据输入至新闻检测模型中,可以得到新闻检测模型输出的新闻检测结果。该新闻检测结果可以为“是虚假新闻”或“不是虚假新闻”,也可以是“虚假新闻的概率”,本实施例对此不作具体限定。
此外,由于待检测新闻数据包含文本数据以及图像数据,从而在将待检测新闻数据输入至新闻检测模型后,可以提取待检测新闻数据的多个文本特征和图像特征,以及基于自注意力机制,可以使得文本特征中携带的信息与图像特征中携带的信息相互进行补充,即可以理解为通过文本特征可以理解图像特征中的不确定信息,通过图像特征也可以获取文本特征中的细节内容,进而使得各文本特征与图像特征对应的上下文向量可以准确且完整表达对应新闻数据中包含的信息内容,最后对各上下文向量进行拼接,得到拼接向量,从而使得拼接向量能够准确且完整表达待检测新闻数据中包含的信息内容,进而准确确定新闻检测结果。
由此可见,相较于传统方法中通过用户报道虚假新闻,然后邀请相关领域的专家或机构进行确认是否为虚假信息,本发明实施例将待检测新闻数据输入至新闻检测模型后,即可自动获取新闻检测结果,不仅方便快捷,提高了新闻检测效率,而且不依赖于人工分析确认,避免人工失误造成的误判,准确率较高。
相较于传统方法中从帖子的媒体内容和用户的社会语境中设计出大量手工制作的特征,利用这些复杂的特征作为训练样本,训练支持向量机分类器和决策树分类器被训练来检测虚假新闻。本发明实施例中的新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的,样本新闻数据可以从各个公开数据集中获取,且各样本新闻数据是真实的,从而能够使得基于各样本新闻数据训练得到的新闻检测模型准确进行虚假新闻检测,而不需要像传统方法中手工制作模拟虚假新闻的特征,不仅效率较低,而且手工制作得到的虚假新闻特征无法完全捕捉虚假新闻的所有信息,从而无法准确进行新闻检测。
相较于传统方法中利用递归神经网络(RNNs)从帖子中学习隐藏特征以及利用卷积神经网络(CNNs)从虚假新闻中获取关键特征及其高层交互,本发明实施例基于自注意力机制确定各文本特征与图像特征对应的上下文向量,使得文本特征中携带的信息与图像特征中携带的信息相互进行补充,进而使得各上下文向量可以准确且完整表达对应新闻数据中包含的文本信息和图像信息内容,进而准确确定新闻检测结果,避免上述传统方法只关注文本自身内容,无法准确检测虚假新闻问题。
此外,在将待检测新闻数据输入至新闻检测模型之前,还可以预先训练得到新闻检测模型,具体可以通过执行如下步骤实现:首先,收集大量样本新闻数据,通过人工标注确定样本新闻数据对应的新闻检测结果。随即,基于样本新闻数据及样本新闻数据对应的新闻检测结果对初始模型进行训练,从而得到新闻检测模型。
可以理解的是,还可以预先提取样本新闻数据对应的图像数据(image)和文本数据(text),进而N个样本新闻数据(post)可以表示为:
其中,dv表示图像的特征维度,dt表示文本的特征维度。
yi∈[1,0]∈Rc
其中,yij=1表示样本新闻为谣言,yij=0表示样本新闻为非谣言。
本发明实施例提供的虚假新闻检测方法,通过新闻检测模型提取待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与图像特征对应的上下文向量,可以使得文本特征中携带的信息与图像特征中携带的信息相互进行补充,进而使得基于各上下文向量得到的拼接向量够准确且完整表达待检测新闻数据中包含的信息内容,实现准确获取新闻检测结果。
为了评估本发明实施例的检测效果,采用WEIBO和TWITTER进行验证。其中,微博数据集(WEIBO)采集自新华社和微博,且每个数据集中的帖子包含文本和图片。TWITTER数据集由包含文本信息、视觉信息和与之相关的社会上下文信息的帖子组成。每个数据集包括大量的文本和带有标签的图像。WEIBO数据集按照8:2进行划分训练集和测试集,而TWITTER数据集本身已划分好训练集和测试集。虚假新闻检测任务是一种二值分类任务,其评价指标通常是准确性指标。然而,当数据集遭受类别不平衡时,它变得不太可靠。因此,除了准确性(Accuracy)指标外,还添加了精度(Precision)、召回率(Recall)和F1分数(F1)作为任务的补充评价指标。表1是本实施例提出的方法(HMCAN)与其他方法的比较列表,从表1可以看出,相比于其他的方法,本实施例提供的方法在TWITTER数据集上的性能优于所有基线论文。在WEIBO数据集中,HMCAN在假新闻(1)情况下的召回率和F1以及准确率都低于SpotFake*,而在真实新闻(0)情况下,HMCAN的准确率、召回率和F1更高。需要注意的是这里,SpotFake*的结果来自基线论文,而SpotFake的结果是复现作者论文中的方法得到的结果。研究结果表明,本实施例提供的方法能够在统一的深度模型框架中联合建模多模态上下文信息和文本层次语义,可以更好地捕获帖子的底层表示,用于假新闻检测。
表1
基于上述实施例,将待检测新闻数据输入至新闻检测模型中,得到新闻检测模型输出的新闻检测结果,包括:
将待检测新闻数据输入至新闻检测模型的特征提取层,得到特征提取层输出的多个文本特征和图像特征;
将各文本特征和图像特征输入至新闻检测模型的自注意力层,得到自注意力层输出的各文本特征与图像特征对应的上下文向量;
将各上下文向量输入至新闻检测模型的向量拼接层,得到向量拼接层输出的拼接向量;
将拼接向量输入至新闻检测模型的特征分类层,得到特征分类层输出的新闻检测结果。
具体地,特征提取层用于提取待检测新闻数据的多个文本特征和图像特征,该特征提取层可以基于文本编码网络(如BERT)提取文本特征,以及图像编码网络(如ResNet50)提取图像特征。需要说明的是,若待检测新闻中没有图片,即无法从待检测新闻数据中提取图像特征,本发明实施例可以在待检测新闻中添加一张空白的图片,从而可以从待检测新闻数据中提取文本特征和图像特征。
在提取文本特征和图像特征之后,将各文本特征和图像特征输入至新闻检测模型的自注意力层,由自注意力层对各文本特征和图像特征进行自注意力计算,得到各文本特征与图像特征对应的上下文向量;其中,可以将各文本特征按照图像编码网络的层数进行分组,将每组中的文本特征与图像特征进行自注意力计算后,得到各分组的上下文向量,从而使得文本特征中携带的信息与图像特征中携带的信息相互进行补充,进而使得各上下文向量可以准确且完整表达对应新闻数据中包含的文本信息和图像信息内容。
在确定各上下文向量之后,将其输入至新闻检测模型的向量拼接层,得到向量拼接层输出的拼接向量,进而特征分类层基于拼接向量进行分类识别,确定待检测新闻数据是否为虚假新闻。
其中,特征分类层是以多模态表示C(即拼接向量)为输入,目的是将待检测新闻数据分类为谣言或者非谣言,它包含一个完全连接的层,并具有相应的激活功能,来预测待检测新闻数据(如帖子)的真伪。
其中,N表示帖子的个数。
基于上述任一实施例,将待检测新闻数据输入至新闻检测模型的特征提取层,得到特征提取层输出的多个文本特征和图像特征,包括:
将待检测新闻数据输入至特征提取层的文本提取层,得到文本提取层输出的多个文本特征;
将待检测新闻数据输入至特征提取层的图像提取层,得到图像提取层输出的图像特征。
具体地,文本提取层可以基于文本编码网络提取文本特征,例如可以采用BERT(Bidirectional Encoder Representations from Transformers)提取文本特征,BERT作为文本语言模型的核心模块,在问答、翻译、阅读理解和文本分类等诸多领域都被证明是有效的。对于给定一个文本内容可以将建模为一系列单词 (m表示文本中单词的个数),将转换后的特征表示为S={s1,…,sm},其中sj表示对应单词wj转换后的特征。通过预训练模型BERT计算单词特征sj公式如下:
另外,图像提取层可以基于图像编码的网络提取图像特征,对于给定一个图像内容使用预训练模型ResNet50来提取图片区域特征,输出是一组区域特征O={o1,…,om}(n表示图片中区域的个数),其中oj为第j个区域的特征经过平均池化卷积之后的特征。也就是说,对于给定的图像内容图像编码网络倒数第二池化层的操作可以表示为:
基于上述任一实施例,文本提取层是基于BERT模型训练得到的,图像提取层是基于ResNet50训练得到的。
具体地,基于BERT模型可以提取待检测新闻数据中的文本特征,基于ResNet50可以提取待检测新闻数据中的图像特征,从而可以基于待检测新闻的多模态数据(文本特征和图像特征),准确判断待检测新闻是否为虚假新闻。
基于上述任一实施例,自注意力层包括预设数量的自注意力子层,预设数量是对多个文本特征进行分组确定的,各自注意力子层用于基于自注意力机制确定各分组的文本特征与图像特征对应的上下文向量;
将各文本特征和图像特征输入至新闻检测模型的自注意力层,得到自注意力层输出的各文本特征与图像特征对应的上下文向量,包括:
将各分组的文本特征以及图像特征输入至对应的自注意力子层,得到自注意力子层输出的各分组的文本特征与图像特征对应的上下文向量。
具体地,文本提取层可以基于BERT提取文本特征,BERT由11个中间层和1个输出层的输出组成。直观地说,为了利用中间层中的丰富语义,可以在12层的每一个输出的文本特征与图像特征进行自注意力计算,但这将增加模型的计算复杂度。为了解决这个问题,可以将12层分成g组,即将每12/g个相邻的层归为一组,也可以理解为将自注意力层分为12/g个自注意力子层,各子层均会得到一个上下文向量,对各子层的上下文向量进行拼接,从而可以使得拼接得到的拼接向量可以用于判断待检测新闻数据是否为虚假新闻。由于g是一个参数,取值可以是{1,2,3,4,6,12}中的任何值,但是通过实验发现,在WEIBO数据集上,g=3可以取得最优,因此模型中,取g=3,然后将BERT的每4个相邻层的输出相加。
由此可见,本实施例设计了一个层次编码网络来探索分层语义信息。通过不同的多模态上下文注意力网络单元(即自注意力子层),会得到不同的C值,分别表示为C0,C1,C2。最后将这三个输出拼接:
C=concat(C0,C1,C2)
其中,concat表示拼接操作,C是待检测新闻数据的拼接向量。
基于上述任一实施例,各自注意力子层包括第一上下文层、第二上下文层和信息融合层;
将各分组的文本特征以及图像特征输入至对应的自注意力子层,得到自注意力子层输出的各分组的文本特征与图像特征对应的上下文向量,包括:
将各分组的文本特征输入至第一上下文层,得到第一上下文层输出的文本表示向量;
将文本表示向量以及图像特征输入至第二上下文层,得到第二上下文层输出的图像表示向量;
将文本表示向量和图像表示向量输入至信息融合层,得到各分组的文本特征与图像特征对应的上下文向量。
具体地,为了有效地融合待检测新闻数据中的文本特征和图像特征,本实施例设计了一个多模态上下文注意力网络即多个自注意力子层来构建多模态语境信息并从中提取高阶互补信息。如图2所示,自注意力子层由第一上下文层和第二上下文层(ContextualTransformer1和Contextual Transformer2)组成,第一上下文层和第二上下文层关注不同的上下文信息,从而进行多模态表示学习。
如图2所示,每个自注意力子层由两个transformer单元组成,它们将来自不同模态的数据作为输入(input1和input2)。以Contextual Transformer1为例,input1和input2分别代表文本信息和图像信息。首先,一个自注意力网络Fsingle(左边部分)用来学习文本(input)的表示。自注意力网络计算文本模态内亲和矩阵Asingle,如下所示:
文本Ht的表示是独立学习的,不考虑多模态上下文。因此,我们引入了一个模态间注意力网络Fco(右边部分)以视觉信息(input2)作为文本进一步更新Ht。其核心思想是从学习到的文本表示中提取与图像相关的信息,对视觉信息进行补充。因此,与Fsingle不同,Fco计算的是模态间亲和矩阵Aco,而不是模态内亲和矩阵:
其中,Aco[i,j]表示文本中第j个单词对第i个图片区域的重要性程度。然后,Fco使用模态间亲和矩阵Aco学习多模态上下文感知文本表示,如下所示:
最后,将Ht和Hv池化成成两个特征向量,然后将两个特征向量拼接成一个特征向量(CT/CV)作为文本表示向量。与Contextual Transformer1类似,Contextual Transformer2将图像和文本分别作为input1和input2,从而学习图像表示向量。
需要说明的是,Contextual Transformer1和Contextual Transformer2不共享权重。对于多模态上下文注意力网络(即自注意力层),将Contextual Transformer1的输出设为CT,将Contextual Transformer2的输出设为CV。然后,令多模态上下文注意力网络的输出为C=αCT+βCV,其中α+β=1。
基于上述任一实施例,样本新闻数据是从预设数据集中获取的,预设数据集包括微博数据集和TWITTER数据集中的至少一种。
具体地,新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的,样本新闻数据可以从各个公开数据集中获取,如微博数据集和TWITTER数据集中的至少一种,不仅可以使得各样本新闻数据是真实的,从而基于各样本新闻数据训练得到的新闻检测模型能够准确进行虚假新闻检测,而不需要像传统方法中手工制作模拟虚假新闻的特征,不仅效率较低,而且手工制作得到的虚假新闻特征无法完全捕捉虚假新闻的所有信息,从而无法准确进行新闻检测。
下面对本发明提供的虚假新闻检测装置进行描述,下文描述的虚假新闻检测装置与上文描述的虚假新闻检测方法可相互对应参照。
基于上述任一实施例,本发明提供一种虚假新闻检测装置,如图3所示,包括:
确定单元310,用于确定待检测新闻数据;
检测单元320,用于将待检测新闻数据输入至新闻检测模型中,得到新闻检测模型输出的新闻检测结果;
其中,新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;新闻检测模型用于提取待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定新闻检测结果。
基于上述任一实施例,所述检测单元320,包括:
特征提取单元,用于将所述待检测新闻数据输入至所述新闻检测模型的特征提取层,得到所述特征提取层输出的所述多个文本特征和所述图像特征;
自注意力单元,用于将各文本特征和所述图像特征输入至所述新闻检测模型的自注意力层,得到所述自注意力层输出的各文本特征与所述图像特征对应的上下文向量;
特征拼接单元,用于将各上下文向量输入至所述新闻检测模型的向量拼接层,得到所述向量拼接层输出的所述拼接向量;
特征分类单元,用于将所述拼接向量输入至所述新闻检测模型的特征分类层,得到所述特征分类层输出的所述新闻检测结果。
基于上述任一实施例,所述特征提取单元,,包括:
文本提取单元,用于将所述待检测新闻数据输入至所述特征提取层的文本提取层,得到所述文本提取层输出的所述多个文本特征;
图像提取单元,用于将所述待检测新闻数据输入至所述特征提取层的图像提取层,得到所述图像提取层输出的所述图像特征。
基于上述任一实施例,所述文本提取层是基于BERT模型训练得到的,所述图像提取层是基于ResNet50训练得到的。
基于上述任一实施例,所述自注意力层包括预设数量的自注意力子层,所述预设数量是对所述多个文本特征进行分组确定的,各自注意力子层用于基于自注意力机制确定各分组的文本特征与所述图像特征对应的上下文向量;
所述自注意力单元,用于:
将各分组的文本特征以及所述图像特征输入至对应的自注意力子层,得到所述自注意力子层输出的各分组的文本特征与所述图像特征对应的上下文向量。
基于上述任一实施例,各自注意力子层包括第一上下文层、第二上下文层和信息融合层;
所述自注意力单元,包括:
第一向量表示单元,用于将各分组的文本特征输入至所述第一上下文层,得到所述第一上下文层输出的文本表示向量;
第二向量表示单元,用于将所述文本表示向量以及所述图像特征输入至所述第二上下文层,得到所述第二上下文层输出的图像表示向量;
信息融合单元,用于将所述文本表示向量和所述图像表示向量输入至所述信息融合层,得到所述各分组的文本特征与所述图像特征对应的上下文向量。
基于上述任一实施例,所述样本新闻数据是从预设数据集中获取的,所述预设数据集包括微博数据集和TWITTER数据集中的至少一种。
图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、存储器(memory)420、通信接口(Communications Interface)430和通信总线440,其中,处理器410,存储器420,通信接口430通过通信总线440完成相互间的通信。处理器410可以调用存储器420中的逻辑指令,以执行虚假新闻检测方法,该方法包括:确定待检测新闻数据;将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
此外,上述的存储器420中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的虚假新闻检测方法,该方法包括:确定待检测新闻数据;将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的虚假新闻检测方法,该方法包括:确定待检测新闻数据;将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种虚假新闻检测方法,其特征在于,包括:
确定待检测新闻数据;
将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;
其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
2.根据权利要求1所述的虚假新闻检测方法,其特征在于,所述将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果,包括:
将所述待检测新闻数据输入至所述新闻检测模型的特征提取层,得到所述特征提取层输出的所述多个文本特征和所述图像特征;
将各文本特征和所述图像特征输入至所述新闻检测模型的自注意力层,得到所述自注意力层输出的各文本特征与所述图像特征对应的上下文向量;
将各上下文向量输入至所述新闻检测模型的向量拼接层,得到所述向量拼接层输出的所述拼接向量;
将所述拼接向量输入至所述新闻检测模型的特征分类层,得到所述特征分类层输出的所述新闻检测结果。
3.根据权利要求2所述的虚假新闻检测方法,其特征在于,所述将所述待检测新闻数据输入至所述新闻检测模型的特征提取层,得到所述特征提取层输出的所述多个文本特征和所述图像特征,包括:
将所述待检测新闻数据输入至所述特征提取层的文本提取层,得到所述文本提取层输出的所述多个文本特征;
将所述待检测新闻数据输入至所述特征提取层的图像提取层,得到所述图像提取层输出的所述图像特征。
4.根据权利要求3所述的虚假新闻检测方法,其特征在于,所述文本提取层是基于BERT模型训练得到的,所述图像提取层是基于ResNet50训练得到的。
5.根据权利要求2所述的虚假新闻检测方法,其特征在于,所述自注意力层包括预设数量的自注意力子层,所述预设数量是对所述多个文本特征进行分组确定的,各自注意力子层用于基于自注意力机制确定各分组的文本特征与所述图像特征对应的上下文向量;
所述将各文本特征和所述图像特征输入至所述新闻检测模型的自注意力层,得到所述自注意力层输出的各文本特征与所述图像特征对应的上下文向量,包括:
将各分组的文本特征以及所述图像特征输入至对应的自注意力子层,得到所述自注意力子层输出的各分组的文本特征与所述图像特征对应的上下文向量。
6.根据权利要求5所述的虚假新闻检测方法,其特征在于,各自注意力子层包括第一上下文层、第二上下文层和信息融合层;
所述将各分组的文本特征以及所述图像特征输入至对应的自注意力子层,得到所述自注意力子层输出的各分组的文本特征与所述图像特征对应的上下文向量,包括:
将各分组的文本特征输入至所述第一上下文层,得到所述第一上下文层输出的文本表示向量;
将所述文本表示向量以及所述图像特征输入至所述第二上下文层,得到所述第二上下文层输出的图像表示向量;
将所述文本表示向量和所述图像表示向量输入至所述信息融合层,得到所述各分组的文本特征与所述图像特征对应的上下文向量。
7.根据权利要求1至6任一项所述的虚假新闻检测方法,其特征在于,所述样本新闻数据是从预设数据集中获取的,所述预设数据集包括微博数据集和TWITTER数据集中的至少一种。
8.一种虚假新闻检测装置,其特征在于,包括:
确定单元,用于确定待检测新闻数据;
检测单元,用于将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;
其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述虚假新闻检测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述虚假新闻检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110553822.2A CN113469214A (zh) | 2021-05-20 | 2021-05-20 | 虚假新闻检测方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110553822.2A CN113469214A (zh) | 2021-05-20 | 2021-05-20 | 虚假新闻检测方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113469214A true CN113469214A (zh) | 2021-10-01 |
Family
ID=77871192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110553822.2A Pending CN113469214A (zh) | 2021-05-20 | 2021-05-20 | 虚假新闻检测方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469214A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114840771A (zh) * | 2022-03-04 | 2022-08-02 | 北京中科睿鉴科技有限公司 | 基于新闻环境信息建模的虚假新闻检测方法 |
CN115100664A (zh) * | 2022-06-20 | 2022-09-23 | 济南大学 | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 |
CN115130613A (zh) * | 2022-07-26 | 2022-09-30 | 西北工业大学 | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 |
CN115423050A (zh) * | 2022-11-04 | 2022-12-02 | 暨南大学 | 一种虚假新闻检测方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079444A (zh) * | 2019-12-25 | 2020-04-28 | 北京中科研究院 | 一种基于多模态关系的网络谣言检测方法 |
CN111160452A (zh) * | 2019-12-25 | 2020-05-15 | 北京中科研究院 | 一种基于预训练语言模型的多模态网络谣言检测方法 |
CN111368075A (zh) * | 2020-02-27 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文章质量预测方法、装置、电子设备及存储介质 |
CN111797326A (zh) * | 2020-05-27 | 2020-10-20 | 中国科学院计算技术研究所 | 一种融合多尺度视觉信息的虚假新闻检测方法及系统 |
-
2021
- 2021-05-20 CN CN202110553822.2A patent/CN113469214A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079444A (zh) * | 2019-12-25 | 2020-04-28 | 北京中科研究院 | 一种基于多模态关系的网络谣言检测方法 |
CN111160452A (zh) * | 2019-12-25 | 2020-05-15 | 北京中科研究院 | 一种基于预训练语言模型的多模态网络谣言检测方法 |
CN111368075A (zh) * | 2020-02-27 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文章质量预测方法、装置、电子设备及存储介质 |
CN111797326A (zh) * | 2020-05-27 | 2020-10-20 | 中国科学院计算技术研究所 | 一种融合多尺度视觉信息的虚假新闻检测方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114840771A (zh) * | 2022-03-04 | 2022-08-02 | 北京中科睿鉴科技有限公司 | 基于新闻环境信息建模的虚假新闻检测方法 |
CN115100664A (zh) * | 2022-06-20 | 2022-09-23 | 济南大学 | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 |
CN115100664B (zh) * | 2022-06-20 | 2024-04-09 | 济南大学 | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 |
CN115130613A (zh) * | 2022-07-26 | 2022-09-30 | 西北工业大学 | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 |
CN115130613B (zh) * | 2022-07-26 | 2024-03-15 | 西北工业大学 | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 |
CN115423050A (zh) * | 2022-11-04 | 2022-12-02 | 暨南大学 | 一种虚假新闻检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008311B (zh) | 一种基于语义分析的产品信息安全风险监测方法 | |
Abdullah et al. | Fake news classification bimodal using convolutional neural network and long short-term memory | |
CN113469214A (zh) | 虚假新闻检测方法、装置、电子设备和存储介质 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN111046941B (zh) | 一种目标评论检测方法、装置、电子设备和存储介质 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN111814454A (zh) | 一种社交网络上的多模态网络欺凌检测模型 | |
CN111831790A (zh) | 一种基于低门限集成与文本内容匹配的虚假新闻识别方法 | |
CN111159485A (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN112800225B (zh) | 一种微博评论情绪分类方法和系统 | |
CN113822224A (zh) | 融合多模态学习与多粒度结构学习的谣言检测方法及装置 | |
CN114662497A (zh) | 一种基于协同神经网络的虚假新闻检测方法 | |
Islam et al. | A proposed Bi-LSTM method to fake news detection | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN115221864A (zh) | 一种多模态假新闻检测方法及系统 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
Li et al. | Semantic‐enhanced multimodal fusion network for fake news detection | |
CN117033626A (zh) | 一种文本审核方法、装置、设备及存储介质 | |
CN115309899B (zh) | 一种文本中特定内容识别存储方法及系统 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
Xu et al. | Estimating similarity of rich internet pages using visual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |