CN113469214A - 虚假新闻检测方法、装置、电子设备和存储介质 - Google Patents

虚假新闻检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113469214A
CN113469214A CN202110553822.2A CN202110553822A CN113469214A CN 113469214 A CN113469214 A CN 113469214A CN 202110553822 A CN202110553822 A CN 202110553822A CN 113469214 A CN113469214 A CN 113469214A
Authority
CN
China
Prior art keywords
news
text
features
layer
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110553822.2A
Other languages
English (en)
Inventor
徐常胜
钱胜胜
方全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110553822.2A priority Critical patent/CN113469214A/zh
Publication of CN113469214A publication Critical patent/CN113469214A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种虚假新闻检测方法、装置、电子设备和存储介质,所述方法包括:将待检测新闻数据输入至新闻检测模型中,得到新闻检测模型输出的新闻检测结果;其中,新闻检测模型用于提取待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定新闻检测结果。本发明基于自注意力机制确定各文本特征与图像特征对应的上下文向量,可以使得文本特征中携带的信息与图像特征中携带的信息相互进行补充,进而使得基于各上下文向量得到的拼接向量够准确且完整表达待检测新闻数据中包含的信息内容,实现准确获取新闻检测结果。

Description

虚假新闻检测方法、装置、电子设备和存储介质
技术领域
本发明涉及新闻检测技术领域,尤其涉及一种虚假新闻检测方法、装置、电子设备和存储介质。
背景技术
社交媒体网站是人们在日常生活中分享信息、表达和交换意见的便利平台,随着用户数量的不断增长,为社交媒体网站带来各种各样的信息数据。然而,这些信息数据的真实性难以保证,同时虚假的新闻数据还会误导用户,甚至造成不良后果,因此亟需检测网站新闻的真实性,避免虚假新闻传播。
目前,检测虚假新闻主要包括如下方法:一是通过用户报道虚假新闻,然后邀请相关领域的专家或机构进行确认,耗时费力。二是从帖子的媒体内容和用户的社会语境中设计出大量手工制作的特征,利用这些复杂的特征作为训练样本,训练支持向量机分类器和决策树分类器被训练来检测虚假新闻。然而,虚假新闻的内容是高度复杂的,很难被手工制作的特征完全捕捉到。三是利用递归神经网络(RNNs)从帖子中学习隐藏特征以及利用卷积神经网络(CNNs)从虚假新闻中获取关键特征及其高层交互,但该方法只关注文本自身内容,无法准确检测虚假新闻。
发明内容
本发明提供一种虚假新闻检测方法、装置、电子设备和存储介质,用以解决现有技术中无法准确对虚假新闻进行检测的缺陷。
本发明提供一种虚假新闻检测方法,包括:
确定待检测新闻数据;
将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;
其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
根据本发明提供的一种虚假新闻检测方法,所述将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果,包括:
将所述待检测新闻数据输入至所述新闻检测模型的特征提取层,得到所述特征提取层输出的所述多个文本特征和所述图像特征;
将各文本特征和所述图像特征输入至所述新闻检测模型的自注意力层,得到所述自注意力层输出的各文本特征与所述图像特征对应的上下文向量;
将各上下文向量输入至所述新闻检测模型的向量拼接层,得到所述向量拼接层输出的所述拼接向量;
将所述拼接向量输入至所述新闻检测模型的特征分类层,得到所述特征分类层输出的所述新闻检测结果。
根据本发明提供的一种虚假新闻检测方法,所述将所述待检测新闻数据输入至所述新闻检测模型的特征提取层,得到所述特征提取层输出的所述多个文本特征和所述图像特征,包括:
将所述待检测新闻数据输入至所述特征提取层的文本提取层,得到所述文本提取层输出的所述多个文本特征;
将所述待检测新闻数据输入至所述特征提取层的图像提取层,得到所述图像提取层输出的所述图像特征。
根据本发明提供的一种虚假新闻检测方法,所述文本提取层是基于BERT模型训练得到的,所述图像提取层是基于ResNet50训练得到的。
根据本发明提供的一种虚假新闻检测方法,所述自注意力层包括预设数量的自注意力子层,所述预设数量是对所述多个文本特征进行分组确定的,各自注意力子层用于基于自注意力机制确定各分组的文本特征与所述图像特征对应的上下文向量;
所述将各文本特征和所述图像特征输入至所述新闻检测模型的自注意力层,得到所述自注意力层输出的各文本特征与所述图像特征对应的上下文向量,包括:
将各分组的文本特征以及所述图像特征输入至对应的自注意力子层,得到所述自注意力子层输出的各分组的文本特征与所述图像特征对应的上下文向量。
根据本发明提供的一种虚假新闻检测方法,各自注意力子层包括第一上下文层、第二上下文层和信息融合层;
所述将各分组的文本特征以及所述图像特征输入至对应的自注意力子层,得到所述自注意力子层输出的各分组的文本特征与所述图像特征对应的上下文向量,包括:
将各分组的文本特征输入至所述第一上下文层,得到所述第一上下文层输出的文本表示向量;
将所述文本表示向量以及所述图像特征输入至所述第二上下文层,得到所述第二上下文层输出的图像表示向量;
将所述文本表示向量和所述图像表示向量输入至所述信息融合层,得到所述各分组的文本特征与所述图像特征对应的上下文向量。
根据本发明提供的一种虚假新闻检测方法,所述样本新闻数据是从预设数据集中获取的,所述预设数据集包括微博数据集和TWITTER数据集中的至少一种。
本发明还提供一种虚假新闻检测装置,包括:
确定单元,用于确定待检测新闻数据;
检测单元,用于将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;
其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述虚假新闻检测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述虚假新闻检测方法的步骤。
本发明提供的虚假新闻检测方法、装置、电子设备和存储介质,通过新闻检测模型提取待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与图像特征对应的上下文向量,可以使得文本特征中携带的信息与图像特征中携带的信息相互进行补充,进而使得基于各上下文向量得到的拼接向量够准确且完整表达待检测新闻数据中包含的信息内容,实现准确获取新闻检测结果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的虚假新闻检测方法的流程示意图;
图2是本发明提供的新闻检测模型的检测流程示意图;
图3是本发明提供的虚假新闻检测装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
社交媒体网站是人们在日常生活中分享信息、表达和交换意见的便利平台,不断增长的用户数量导致了社交媒体网站上各种各样的信息数据。然而,由于用户不去检查共享信息的可靠性,这些信息数据的真实性难以保证,导致大量虚假新闻的广泛传播,而且这些虚假新闻很容易误导读者,甚至造成严重的社会后果。
目前,现有的关于虚假新闻的检测方法包括:一是从帖子的媒体内容和用户的社会语境中设计出大量手工制作的特征。通过这些复杂的特征,训练分类器(如支持向量机分类器和决策树分类器),进而采用训练完成的分类器进行虚假新闻检测。然而,虚假新闻的内容是高度复杂的,很难被手工制作的特征完全捕捉到。二是利用递归神经网络(RNNs)从帖子中学习隐藏特征以及利用卷积神经网络(CNNs)从虚假新闻中获取关键特征及其高层交互,但上述方法大多只关注文本内容,忽略了多模态信息(如文本、图片等)的帖子,而多模态信息是社交媒体平台的关键组成部分。
虽然上述方法在能够进行虚假新闻检测,但在利用文本内容的多模态上下文信息和层次语义方面仍存在不足。例如在开放系统中,如Twitter和微博,新闻文章通常包括文本和图像等综合内容数据,新闻文章的图像内容通常包含许多不确定元素,若没有文本信息的帮助很难理解,以及文本内容的新闻文章中包含的某些细节都显示在图像内容,从而只关注文本内容无法准备对虚假新闻进行检测。
对此,本发明提供一种虚假新闻检测方法。图1是本发明提供的虚假新闻检测方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、确定待检测新闻数据;
步骤120、将待检测新闻数据输入至新闻检测模型中,得到新闻检测模型输出的新闻检测结果;
其中,新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;新闻检测模型用于提取待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定新闻检测结果。
具体地,待检测新闻数据包含多模态信息,如文本数据以及图像数据,待检测新闻数据可以是通过OCR对新闻(网页新闻、报纸新闻等)进行识别获取的,也可以是通过手动输入文本数据以及图像数据,本实施例对此不作具体限定。
在确定待检测新闻数据之后,将待检测新闻数据输入至新闻检测模型中,可以得到新闻检测模型输出的新闻检测结果。该新闻检测结果可以为“是虚假新闻”或“不是虚假新闻”,也可以是“虚假新闻的概率”,本实施例对此不作具体限定。
此外,由于待检测新闻数据包含文本数据以及图像数据,从而在将待检测新闻数据输入至新闻检测模型后,可以提取待检测新闻数据的多个文本特征和图像特征,以及基于自注意力机制,可以使得文本特征中携带的信息与图像特征中携带的信息相互进行补充,即可以理解为通过文本特征可以理解图像特征中的不确定信息,通过图像特征也可以获取文本特征中的细节内容,进而使得各文本特征与图像特征对应的上下文向量可以准确且完整表达对应新闻数据中包含的信息内容,最后对各上下文向量进行拼接,得到拼接向量,从而使得拼接向量能够准确且完整表达待检测新闻数据中包含的信息内容,进而准确确定新闻检测结果。
由此可见,相较于传统方法中通过用户报道虚假新闻,然后邀请相关领域的专家或机构进行确认是否为虚假信息,本发明实施例将待检测新闻数据输入至新闻检测模型后,即可自动获取新闻检测结果,不仅方便快捷,提高了新闻检测效率,而且不依赖于人工分析确认,避免人工失误造成的误判,准确率较高。
相较于传统方法中从帖子的媒体内容和用户的社会语境中设计出大量手工制作的特征,利用这些复杂的特征作为训练样本,训练支持向量机分类器和决策树分类器被训练来检测虚假新闻。本发明实施例中的新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的,样本新闻数据可以从各个公开数据集中获取,且各样本新闻数据是真实的,从而能够使得基于各样本新闻数据训练得到的新闻检测模型准确进行虚假新闻检测,而不需要像传统方法中手工制作模拟虚假新闻的特征,不仅效率较低,而且手工制作得到的虚假新闻特征无法完全捕捉虚假新闻的所有信息,从而无法准确进行新闻检测。
相较于传统方法中利用递归神经网络(RNNs)从帖子中学习隐藏特征以及利用卷积神经网络(CNNs)从虚假新闻中获取关键特征及其高层交互,本发明实施例基于自注意力机制确定各文本特征与图像特征对应的上下文向量,使得文本特征中携带的信息与图像特征中携带的信息相互进行补充,进而使得各上下文向量可以准确且完整表达对应新闻数据中包含的文本信息和图像信息内容,进而准确确定新闻检测结果,避免上述传统方法只关注文本自身内容,无法准确检测虚假新闻问题。
此外,在将待检测新闻数据输入至新闻检测模型之前,还可以预先训练得到新闻检测模型,具体可以通过执行如下步骤实现:首先,收集大量样本新闻数据,通过人工标注确定样本新闻数据对应的新闻检测结果。随即,基于样本新闻数据及样本新闻数据对应的新闻检测结果对初始模型进行训练,从而得到新闻检测模型。
可以理解的是,还可以预先提取样本新闻数据对应的图像数据(image)和文本数据(text),进而N个样本新闻数据(post)可以表示为:
Figure BDA0003076415350000081
其中,dv表示图像的特征维度,dt表示文本的特征维度。
因此,每个样本新闻数据对应的样本新闻检测结果,即
Figure BDA0003076415350000082
分配的语义标签向量为:
yi∈[1,0]∈Rc
其中,yij=1表示样本新闻为谣言,yij=0表示样本新闻为非谣言。
本发明实施例提供的虚假新闻检测方法,通过新闻检测模型提取待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与图像特征对应的上下文向量,可以使得文本特征中携带的信息与图像特征中携带的信息相互进行补充,进而使得基于各上下文向量得到的拼接向量够准确且完整表达待检测新闻数据中包含的信息内容,实现准确获取新闻检测结果。
为了评估本发明实施例的检测效果,采用WEIBO和TWITTER进行验证。其中,微博数据集(WEIBO)采集自新华社和微博,且每个数据集中的帖子包含文本和图片。TWITTER数据集由包含文本信息、视觉信息和与之相关的社会上下文信息的帖子组成。每个数据集包括大量的文本和带有标签的图像。WEIBO数据集按照8:2进行划分训练集和测试集,而TWITTER数据集本身已划分好训练集和测试集。虚假新闻检测任务是一种二值分类任务,其评价指标通常是准确性指标。然而,当数据集遭受类别不平衡时,它变得不太可靠。因此,除了准确性(Accuracy)指标外,还添加了精度(Precision)、召回率(Recall)和F1分数(F1)作为任务的补充评价指标。表1是本实施例提出的方法(HMCAN)与其他方法的比较列表,从表1可以看出,相比于其他的方法,本实施例提供的方法在TWITTER数据集上的性能优于所有基线论文。在WEIBO数据集中,HMCAN在假新闻(1)情况下的召回率和F1以及准确率都低于SpotFake*,而在真实新闻(0)情况下,HMCAN的准确率、召回率和F1更高。需要注意的是这里,SpotFake*的结果来自基线论文,而SpotFake的结果是复现作者论文中的方法得到的结果。研究结果表明,本实施例提供的方法能够在统一的深度模型框架中联合建模多模态上下文信息和文本层次语义,可以更好地捕获帖子的底层表示,用于假新闻检测。
表1
Figure BDA0003076415350000091
基于上述实施例,将待检测新闻数据输入至新闻检测模型中,得到新闻检测模型输出的新闻检测结果,包括:
将待检测新闻数据输入至新闻检测模型的特征提取层,得到特征提取层输出的多个文本特征和图像特征;
将各文本特征和图像特征输入至新闻检测模型的自注意力层,得到自注意力层输出的各文本特征与图像特征对应的上下文向量;
将各上下文向量输入至新闻检测模型的向量拼接层,得到向量拼接层输出的拼接向量;
将拼接向量输入至新闻检测模型的特征分类层,得到特征分类层输出的新闻检测结果。
具体地,特征提取层用于提取待检测新闻数据的多个文本特征和图像特征,该特征提取层可以基于文本编码网络(如BERT)提取文本特征,以及图像编码网络(如ResNet50)提取图像特征。需要说明的是,若待检测新闻中没有图片,即无法从待检测新闻数据中提取图像特征,本发明实施例可以在待检测新闻中添加一张空白的图片,从而可以从待检测新闻数据中提取文本特征和图像特征。
在提取文本特征和图像特征之后,将各文本特征和图像特征输入至新闻检测模型的自注意力层,由自注意力层对各文本特征和图像特征进行自注意力计算,得到各文本特征与图像特征对应的上下文向量;其中,可以将各文本特征按照图像编码网络的层数进行分组,将每组中的文本特征与图像特征进行自注意力计算后,得到各分组的上下文向量,从而使得文本特征中携带的信息与图像特征中携带的信息相互进行补充,进而使得各上下文向量可以准确且完整表达对应新闻数据中包含的文本信息和图像信息内容。
在确定各上下文向量之后,将其输入至新闻检测模型的向量拼接层,得到向量拼接层输出的拼接向量,进而特征分类层基于拼接向量进行分类识别,确定待检测新闻数据是否为虚假新闻。
其中,特征分类层是以多模态表示C(即拼接向量)为输入,目的是将待检测新闻数据分类为谣言或者非谣言,它包含一个完全连接的层,并具有相应的激活功能,来预测待检测新闻数据(如帖子)的真伪。
Figure BDA0003076415350000111
其中,σ(·)是softmax激活函数,
Figure BDA0003076415350000112
表示第n个帖子的预测概率,b表示偏置项,Cn是第n个帖子的特征表示,可以使用Yn来表示第n个帖子的真实标签,使用交叉熵损失来计算检测损失:
Figure BDA0003076415350000113
其中,N表示帖子的个数。
基于上述任一实施例,将待检测新闻数据输入至新闻检测模型的特征提取层,得到特征提取层输出的多个文本特征和图像特征,包括:
将待检测新闻数据输入至特征提取层的文本提取层,得到文本提取层输出的多个文本特征;
将待检测新闻数据输入至特征提取层的图像提取层,得到图像提取层输出的图像特征。
具体地,文本提取层可以基于文本编码网络提取文本特征,例如可以采用BERT(Bidirectional Encoder Representations from Transformers)提取文本特征,BERT作为文本语言模型的核心模块,在问答、翻译、阅读理解和文本分类等诸多领域都被证明是有效的。对于给定一个文本内容
Figure BDA0003076415350000114
可以将
Figure BDA0003076415350000115
建模为一系列单词
Figure BDA0003076415350000116
Figure BDA0003076415350000117
(m表示文本中单词的个数),将转换后的特征表示为S={s1,…,sm},其中sj表示对应单词wj转换后的特征。通过预训练模型BERT计算单词特征sj公式如下:
Figure BDA0003076415350000118
其中,
Figure BDA0003076415350000119
是BERT中对应字符的输出层的隐藏状态,dt是单词嵌入的维度。
另外,图像提取层可以基于图像编码的网络提取图像特征,对于给定一个图像内容
Figure BDA0003076415350000121
使用预训练模型ResNet50来提取图片区域特征,输出是一组区域特征O={o1,…,om}(n表示图片中区域的个数),其中oj为第j个区域的特征经过平均池化卷积之后的特征。也就是说,对于给定的图像内容
Figure BDA0003076415350000122
图像编码网络倒数第二池化层的操作可以表示为:
Figure BDA0003076415350000123
其中,
Figure BDA0003076415350000124
dv是单词嵌入的维度。
基于上述任一实施例,文本提取层是基于BERT模型训练得到的,图像提取层是基于ResNet50训练得到的。
具体地,基于BERT模型可以提取待检测新闻数据中的文本特征,基于ResNet50可以提取待检测新闻数据中的图像特征,从而可以基于待检测新闻的多模态数据(文本特征和图像特征),准确判断待检测新闻是否为虚假新闻。
基于上述任一实施例,自注意力层包括预设数量的自注意力子层,预设数量是对多个文本特征进行分组确定的,各自注意力子层用于基于自注意力机制确定各分组的文本特征与图像特征对应的上下文向量;
将各文本特征和图像特征输入至新闻检测模型的自注意力层,得到自注意力层输出的各文本特征与图像特征对应的上下文向量,包括:
将各分组的文本特征以及图像特征输入至对应的自注意力子层,得到自注意力子层输出的各分组的文本特征与图像特征对应的上下文向量。
具体地,文本提取层可以基于BERT提取文本特征,BERT由11个中间层和1个输出层的输出组成。直观地说,为了利用中间层中的丰富语义,可以在12层的每一个输出的文本特征与图像特征进行自注意力计算,但这将增加模型的计算复杂度。为了解决这个问题,可以将12层分成g组,即将每12/g个相邻的层归为一组,也可以理解为将自注意力层分为12/g个自注意力子层,各子层均会得到一个上下文向量,对各子层的上下文向量进行拼接,从而可以使得拼接得到的拼接向量可以用于判断待检测新闻数据是否为虚假新闻。由于g是一个参数,取值可以是{1,2,3,4,6,12}中的任何值,但是通过实验发现,在WEIBO数据集上,g=3可以取得最优,因此模型中,取g=3,然后将BERT的每4个相邻层的输出相加。
Figure BDA0003076415350000131
其中,
Figure BDA0003076415350000132
表示文本中第i个单词BERT中第j层的表示,
Figure BDA0003076415350000133
表示第i个单词的第k组表示。dt表示单词的嵌入维度。
由此可见,本实施例设计了一个层次编码网络来探索分层语义信息。通过不同的多模态上下文注意力网络单元(即自注意力子层),会得到不同的C值,分别表示为C0,C1,C2。最后将这三个输出拼接:
C=concat(C0,C1,C2)
其中,concat表示拼接操作,C是待检测新闻数据的拼接向量。
基于上述任一实施例,各自注意力子层包括第一上下文层、第二上下文层和信息融合层;
将各分组的文本特征以及图像特征输入至对应的自注意力子层,得到自注意力子层输出的各分组的文本特征与图像特征对应的上下文向量,包括:
将各分组的文本特征输入至第一上下文层,得到第一上下文层输出的文本表示向量;
将文本表示向量以及图像特征输入至第二上下文层,得到第二上下文层输出的图像表示向量;
将文本表示向量和图像表示向量输入至信息融合层,得到各分组的文本特征与图像特征对应的上下文向量。
具体地,为了有效地融合待检测新闻数据中的文本特征和图像特征,本实施例设计了一个多模态上下文注意力网络即多个自注意力子层来构建多模态语境信息并从中提取高阶互补信息。如图2所示,自注意力子层由第一上下文层和第二上下文层(ContextualTransformer1和Contextual Transformer2)组成,第一上下文层和第二上下文层关注不同的上下文信息,从而进行多模态表示学习。
如图2所示,每个自注意力子层由两个transformer单元组成,它们将来自不同模态的数据作为输入(input1和input2)。以Contextual Transformer1为例,input1和input2分别代表文本信息和图像信息。首先,一个自注意力网络Fsingle(左边部分)用来学习文本(input)的表示。自注意力网络计算文本模态内亲和矩阵Asingle,如下所示:
Figure BDA0003076415350000141
其中,
Figure BDA0003076415350000142
Figure BDA0003076415350000143
是不同的全连接层。Asing[i,j]表示文本中第j个单词对第i个单词的重要性程度。基于模内亲和矩阵,可以学习文本Ht的表示如下:
Figure BDA0003076415350000144
Figure BDA0003076415350000145
其中,
Figure BDA0003076415350000146
是一个全连接层,layer_norm是一个归一化层。
Figure BDA0003076415350000147
是一个将非线性转换引入到模型中的两层全连接网络。
文本Ht的表示是独立学习的,不考虑多模态上下文。因此,我们引入了一个模态间注意力网络Fco(右边部分)以视觉信息(input2)作为文本进一步更新Ht。其核心思想是从学习到的文本表示中提取与图像相关的信息,对视觉信息进行补充。因此,与Fsingle不同,Fco计算的是模态间亲和矩阵Aco,而不是模态内亲和矩阵:
Figure BDA0003076415350000148
其中,Aco[i,j]表示文本中第j个单词对第i个图片区域的重要性程度。然后,Fco使用模态间亲和矩阵Aco学习多模态上下文感知文本表示,如下所示:
Figure BDA0003076415350000151
Figure BDA0003076415350000152
最后,将Ht和Hv池化成成两个特征向量,然后将两个特征向量拼接成一个特征向量(CT/CV)作为文本表示向量。与Contextual Transformer1类似,Contextual Transformer2将图像和文本分别作为input1和input2,从而学习图像表示向量。
需要说明的是,Contextual Transformer1和Contextual Transformer2不共享权重。对于多模态上下文注意力网络(即自注意力层),将Contextual Transformer1的输出设为CT,将Contextual Transformer2的输出设为CV。然后,令多模态上下文注意力网络的输出为C=αCT+βCV,其中α+β=1。
基于上述任一实施例,样本新闻数据是从预设数据集中获取的,预设数据集包括微博数据集和TWITTER数据集中的至少一种。
具体地,新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的,样本新闻数据可以从各个公开数据集中获取,如微博数据集和TWITTER数据集中的至少一种,不仅可以使得各样本新闻数据是真实的,从而基于各样本新闻数据训练得到的新闻检测模型能够准确进行虚假新闻检测,而不需要像传统方法中手工制作模拟虚假新闻的特征,不仅效率较低,而且手工制作得到的虚假新闻特征无法完全捕捉虚假新闻的所有信息,从而无法准确进行新闻检测。
下面对本发明提供的虚假新闻检测装置进行描述,下文描述的虚假新闻检测装置与上文描述的虚假新闻检测方法可相互对应参照。
基于上述任一实施例,本发明提供一种虚假新闻检测装置,如图3所示,包括:
确定单元310,用于确定待检测新闻数据;
检测单元320,用于将待检测新闻数据输入至新闻检测模型中,得到新闻检测模型输出的新闻检测结果;
其中,新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;新闻检测模型用于提取待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定新闻检测结果。
基于上述任一实施例,所述检测单元320,包括:
特征提取单元,用于将所述待检测新闻数据输入至所述新闻检测模型的特征提取层,得到所述特征提取层输出的所述多个文本特征和所述图像特征;
自注意力单元,用于将各文本特征和所述图像特征输入至所述新闻检测模型的自注意力层,得到所述自注意力层输出的各文本特征与所述图像特征对应的上下文向量;
特征拼接单元,用于将各上下文向量输入至所述新闻检测模型的向量拼接层,得到所述向量拼接层输出的所述拼接向量;
特征分类单元,用于将所述拼接向量输入至所述新闻检测模型的特征分类层,得到所述特征分类层输出的所述新闻检测结果。
基于上述任一实施例,所述特征提取单元,,包括:
文本提取单元,用于将所述待检测新闻数据输入至所述特征提取层的文本提取层,得到所述文本提取层输出的所述多个文本特征;
图像提取单元,用于将所述待检测新闻数据输入至所述特征提取层的图像提取层,得到所述图像提取层输出的所述图像特征。
基于上述任一实施例,所述文本提取层是基于BERT模型训练得到的,所述图像提取层是基于ResNet50训练得到的。
基于上述任一实施例,所述自注意力层包括预设数量的自注意力子层,所述预设数量是对所述多个文本特征进行分组确定的,各自注意力子层用于基于自注意力机制确定各分组的文本特征与所述图像特征对应的上下文向量;
所述自注意力单元,用于:
将各分组的文本特征以及所述图像特征输入至对应的自注意力子层,得到所述自注意力子层输出的各分组的文本特征与所述图像特征对应的上下文向量。
基于上述任一实施例,各自注意力子层包括第一上下文层、第二上下文层和信息融合层;
所述自注意力单元,包括:
第一向量表示单元,用于将各分组的文本特征输入至所述第一上下文层,得到所述第一上下文层输出的文本表示向量;
第二向量表示单元,用于将所述文本表示向量以及所述图像特征输入至所述第二上下文层,得到所述第二上下文层输出的图像表示向量;
信息融合单元,用于将所述文本表示向量和所述图像表示向量输入至所述信息融合层,得到所述各分组的文本特征与所述图像特征对应的上下文向量。
基于上述任一实施例,所述样本新闻数据是从预设数据集中获取的,所述预设数据集包括微博数据集和TWITTER数据集中的至少一种。
图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、存储器(memory)420、通信接口(Communications Interface)430和通信总线440,其中,处理器410,存储器420,通信接口430通过通信总线440完成相互间的通信。处理器410可以调用存储器420中的逻辑指令,以执行虚假新闻检测方法,该方法包括:确定待检测新闻数据;将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
此外,上述的存储器420中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的虚假新闻检测方法,该方法包括:确定待检测新闻数据;将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的虚假新闻检测方法,该方法包括:确定待检测新闻数据;将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种虚假新闻检测方法,其特征在于,包括:
确定待检测新闻数据;
将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;
其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
2.根据权利要求1所述的虚假新闻检测方法,其特征在于,所述将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果,包括:
将所述待检测新闻数据输入至所述新闻检测模型的特征提取层,得到所述特征提取层输出的所述多个文本特征和所述图像特征;
将各文本特征和所述图像特征输入至所述新闻检测模型的自注意力层,得到所述自注意力层输出的各文本特征与所述图像特征对应的上下文向量;
将各上下文向量输入至所述新闻检测模型的向量拼接层,得到所述向量拼接层输出的所述拼接向量;
将所述拼接向量输入至所述新闻检测模型的特征分类层,得到所述特征分类层输出的所述新闻检测结果。
3.根据权利要求2所述的虚假新闻检测方法,其特征在于,所述将所述待检测新闻数据输入至所述新闻检测模型的特征提取层,得到所述特征提取层输出的所述多个文本特征和所述图像特征,包括:
将所述待检测新闻数据输入至所述特征提取层的文本提取层,得到所述文本提取层输出的所述多个文本特征;
将所述待检测新闻数据输入至所述特征提取层的图像提取层,得到所述图像提取层输出的所述图像特征。
4.根据权利要求3所述的虚假新闻检测方法,其特征在于,所述文本提取层是基于BERT模型训练得到的,所述图像提取层是基于ResNet50训练得到的。
5.根据权利要求2所述的虚假新闻检测方法,其特征在于,所述自注意力层包括预设数量的自注意力子层,所述预设数量是对所述多个文本特征进行分组确定的,各自注意力子层用于基于自注意力机制确定各分组的文本特征与所述图像特征对应的上下文向量;
所述将各文本特征和所述图像特征输入至所述新闻检测模型的自注意力层,得到所述自注意力层输出的各文本特征与所述图像特征对应的上下文向量,包括:
将各分组的文本特征以及所述图像特征输入至对应的自注意力子层,得到所述自注意力子层输出的各分组的文本特征与所述图像特征对应的上下文向量。
6.根据权利要求5所述的虚假新闻检测方法,其特征在于,各自注意力子层包括第一上下文层、第二上下文层和信息融合层;
所述将各分组的文本特征以及所述图像特征输入至对应的自注意力子层,得到所述自注意力子层输出的各分组的文本特征与所述图像特征对应的上下文向量,包括:
将各分组的文本特征输入至所述第一上下文层,得到所述第一上下文层输出的文本表示向量;
将所述文本表示向量以及所述图像特征输入至所述第二上下文层,得到所述第二上下文层输出的图像表示向量;
将所述文本表示向量和所述图像表示向量输入至所述信息融合层,得到所述各分组的文本特征与所述图像特征对应的上下文向量。
7.根据权利要求1至6任一项所述的虚假新闻检测方法,其特征在于,所述样本新闻数据是从预设数据集中获取的,所述预设数据集包括微博数据集和TWITTER数据集中的至少一种。
8.一种虚假新闻检测装置,其特征在于,包括:
确定单元,用于确定待检测新闻数据;
检测单元,用于将所述待检测新闻数据输入至新闻检测模型中,得到所述新闻检测模型输出的新闻检测结果;
其中,所述新闻检测模型是基于样本新闻数据及样本新闻数据的新闻检测结果训练得到的;所述新闻检测模型用于提取所述待检测新闻数据的多个文本特征和图像特征,基于自注意力机制确定各文本特征与所述图像特征对应的上下文向量,并基于各上下文向量的拼接向量确定所述新闻检测结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述虚假新闻检测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述虚假新闻检测方法的步骤。
CN202110553822.2A 2021-05-20 2021-05-20 虚假新闻检测方法、装置、电子设备和存储介质 Pending CN113469214A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110553822.2A CN113469214A (zh) 2021-05-20 2021-05-20 虚假新闻检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110553822.2A CN113469214A (zh) 2021-05-20 2021-05-20 虚假新闻检测方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113469214A true CN113469214A (zh) 2021-10-01

Family

ID=77871192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110553822.2A Pending CN113469214A (zh) 2021-05-20 2021-05-20 虚假新闻检测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113469214A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840771A (zh) * 2022-03-04 2022-08-02 北京中科睿鉴科技有限公司 基于新闻环境信息建模的虚假新闻检测方法
CN115100664A (zh) * 2022-06-20 2022-09-23 济南大学 基于相关性信息扩展的多模态虚假新闻识别方法及系统
CN115130613A (zh) * 2022-07-26 2022-09-30 西北工业大学 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN115423050A (zh) * 2022-11-04 2022-12-02 暨南大学 一种虚假新闻检测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法
CN111160452A (zh) * 2019-12-25 2020-05-15 北京中科研究院 一种基于预训练语言模型的多模态网络谣言检测方法
CN111368075A (zh) * 2020-02-27 2020-07-03 腾讯科技(深圳)有限公司 文章质量预测方法、装置、电子设备及存储介质
CN111797326A (zh) * 2020-05-27 2020-10-20 中国科学院计算技术研究所 一种融合多尺度视觉信息的虚假新闻检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法
CN111160452A (zh) * 2019-12-25 2020-05-15 北京中科研究院 一种基于预训练语言模型的多模态网络谣言检测方法
CN111368075A (zh) * 2020-02-27 2020-07-03 腾讯科技(深圳)有限公司 文章质量预测方法、装置、电子设备及存储介质
CN111797326A (zh) * 2020-05-27 2020-10-20 中国科学院计算技术研究所 一种融合多尺度视觉信息的虚假新闻检测方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840771A (zh) * 2022-03-04 2022-08-02 北京中科睿鉴科技有限公司 基于新闻环境信息建模的虚假新闻检测方法
CN115100664A (zh) * 2022-06-20 2022-09-23 济南大学 基于相关性信息扩展的多模态虚假新闻识别方法及系统
CN115100664B (zh) * 2022-06-20 2024-04-09 济南大学 基于相关性信息扩展的多模态虚假新闻识别方法及系统
CN115130613A (zh) * 2022-07-26 2022-09-30 西北工业大学 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN115130613B (zh) * 2022-07-26 2024-03-15 西北工业大学 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN115423050A (zh) * 2022-11-04 2022-12-02 暨南大学 一种虚假新闻检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110008311B (zh) 一种基于语义分析的产品信息安全风险监测方法
Abdullah et al. Fake news classification bimodal using convolutional neural network and long short-term memory
CN113469214A (zh) 虚假新闻检测方法、装置、电子设备和存储介质
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN111046941B (zh) 一种目标评论检测方法、装置、电子设备和存储介质
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN111814454A (zh) 一种社交网络上的多模态网络欺凌检测模型
CN111831790A (zh) 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
CN112800225B (zh) 一种微博评论情绪分类方法和系统
CN113822224A (zh) 融合多模态学习与多粒度结构学习的谣言检测方法及装置
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
Islam et al. A proposed Bi-LSTM method to fake news detection
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN115221864A (zh) 一种多模态假新闻检测方法及系统
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN114662586A (zh) 一种基于共注意的多模态融合机制检测虚假信息的方法
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Li et al. Semantic‐enhanced multimodal fusion network for fake news detection
CN117033626A (zh) 一种文本审核方法、装置、设备及存储介质
CN115309899B (zh) 一种文本中特定内容识别存储方法及系统
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
Xu et al. Estimating similarity of rich internet pages using visual information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination