CN113032525A - 虚假新闻检测方法、装置、电子设备以及存储介质 - Google Patents

虚假新闻检测方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN113032525A
CN113032525A CN202110311653.1A CN202110311653A CN113032525A CN 113032525 A CN113032525 A CN 113032525A CN 202110311653 A CN202110311653 A CN 202110311653A CN 113032525 A CN113032525 A CN 113032525A
Authority
CN
China
Prior art keywords
node
comment
user
module
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110311653.1A
Other languages
English (en)
Inventor
廖好
彭佳豪
刘启鑫
周明洋
王毅
陆克中
毛睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202110311653.1A priority Critical patent/CN113032525A/zh
Publication of CN113032525A publication Critical patent/CN113032525A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种虚假新闻检测方法、装置、电子设备以及存储介质,该虚假新闻检测方法包括:获取待检测新闻的文本内容以及所述待检测新闻对应的评论信息和用户信息;利用文本内容编码模块对所述文本内容的第一句子进行编码,得到句子特征向量;所述第一句子是所述文本内容包含的至少两个句子中的任一个;利用用户评论联合编码模块对所述评论信息和用户信息进行编码,得到用户评论联合特征矩阵;将所述句子特征向量和所述用户评论联合特征矩阵输入联合注意力模块,得到所述待检测新闻的检测结果。本申请实施例结合新闻的文本内容、用户信息以及评论信息检测虚假新闻,提高虚假新闻检测的准确率。

Description

虚假新闻检测方法、装置、电子设备以及存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种虚假新闻检测方法、装置、电子设 备以及存储介质。
背景技术
长期以来,虚假信息一直被认为是一个严重的社会问题,其中虚假新闻是最具代表性 的问题之一。更糟糕的是,高度发达的社交媒体使得虚假新闻广泛传播,给人类生活的各 个方面带来了实质性的伤害。假新闻往往是指借新闻报道传播的虚假的、煽动性的信息。 在这个自媒体快速发展的时代,虚假新闻在社交网络上很常见。
目前,一般的虚假新闻检测方法是通过深度学习算法结合新闻的文本内容检测新闻的 真实性。然而,在社交媒体上的新闻的文本内容比较短,而且碎片化,从而导致新闻携带 的信息不全面、内在逻辑不完整。因此通过新闻的文本内容检测虚假新闻的方法存在局限 性,使得虚假新闻检测的准确率不高。
发明内容
鉴于上述现有技术的不足,本申请的目的在于提供一种虚假新闻检测方法、装置、电 子设备以及存储介质,旨在解决虚假新闻检测的准确率不高的问题。
第一方面,本申请实施例提供一种虚假新闻检测方法,包括:
获取待检测新闻的文本内容以及所述待检测新闻对应的评论信息和用户信息;
利用文本内容编码模块对所述文本内容的第一句子进行编码,得到句子特征向量;所 述第一句子是所述文本内容包含的至少两个句子中的任一个;
利用用户评论联合编码模块对所述评论信息和用户信息进行编码,得到用户评论联合 特征矩阵;
将所述句子特征向量和所述用户评论联合特征矩阵输入联合注意力模块,得到所述待 检测新闻的检测结果。
在本申请实施例中,利用文本内容编码模块获取待检测新闻的文本内容中的有效信 息,利用用户评论联合编码模块获取评论信息和用户信息中的有效信息,利用联合注意力 模块结合文本内容、评论信息以及用户信息检测待检测新闻是否为虚假新闻,提高虚假新 闻检测的准确率。
在第一方面的一种实施方式中,所述文本内容编码模块包括单词编码模块和句子编码 模块,所述利用文本内容编码模块对所述文本内容的第一句子进行编码,得到句子特征向 量,包括:
利用所述单词编码模块学习的单词上下文信息对所述第一句子的第一单词进行编码, 得到单词特征向量;所述第一单词是所述第一句子包含的至少两个单词中的任一个;
利用所述句子编码模块学习的句子上下文信息和所述单词特征向量对所述第一句子 进行编码,得到所述句子特征向量。
在本申请实施例中,结合单词上下文信息对第一单词进行编码,使得单词特征向量能 够更好的表示第一单词的特征,结合句子上下文信息对第一句子进行编码,使句子特征向 量能够更好的表示第一句子的语音特征,提高虚假新闻检测的准确率。
在第一方面的一种实施方式中,所述单词编码模块包括统一预训练语言模型,所述句 子编码模块包括门控循环单元神经网络模型。
在第一方面的一种实施方式中,所述用户评论联合编码模块包括异构图模块和图神经 网络模块;所述利用用户评论联合编码模块对所述评论信息和用户信息进行编码,得到用 户评论联合特征矩阵,包括:
利用所述异构图模块构建与所述评论信息和用户信息对应的异构图,所述异构图包括 多个用户节点、多个评论节点以及所述多个用户节点和所述多个评论节点之间的联系;
利用所述图神经网络模块对所述多个用户节点和所述多个评论节点进行编码,得到用 户特征矩阵和评论特征矩阵;
拼接所述用户特征矩阵和所述评论特征矩阵,得到所述用户评论联合特征矩阵。
在本申请实施例中,通过构建与用户信息和评论信息的异构图,获取用户节点与评论 节点的联系,挖掘待检测新闻对应的评论信息和用户信息中的有效信息。
在第一方面的一种实施方式中,所述图神经网络模块包括节点特征编码模块、节点聚 合模块以及邻接节点混合模块,所述利用所述图神经网络模块对所述多个用户节点和所述 多个评论节点进行编码,得到用户特征矩阵和评论特征矩阵,包括:
利用所述节点特征编码模块对第一节点进行编码,得到所述第一节点对应的节点向 量;所述第一节点是所述多个用户节点中的任一个或者所述多个评论节点中的任一个;
获取所述第一节点的邻接节点;
确定所述邻接节点中所述第一节点的同类邻接节点和非同类邻接节点;
利用所述节点聚合模块对所述同类邻接节点进行聚合,得到所述第一节点对应的聚合 特征向量,以及所述同类邻接节点对应的聚合特征向量;
利用所述节点聚合模块对所述非同类邻接节点进行聚合,得到所述非同类邻接节点对 应的聚合特征向量;
利用所述邻接节点混合模块结合所述第一节点对应的聚合特征向量、所述同类邻接节 点对应的聚合特征向量以及所述非同类邻接节点对应的聚合特征向量,得到所述第一节点 对应的节点特征向量;
在所述第一节点是所述多个用户节点中的任一个的情况下,所述用户特征矩阵包含所 述第一节点对应的特征向量,在所述第一节点是所述多个评论节点中的任一个的情况下, 所述评论特征矩阵包含所述第一节点对应的特征向量。
在本申请实施例中,利用节点聚合模块获取同一类型邻接节点之间的相似特征,得到 第一节点的聚合特征向量,通过邻接节点混合模块结合第一节点的两种不同类型邻接节点 的特征信息,得到第一节点对应的节点特征向量,使得第一节点对应的节点特征向量更好 的表示第一节点的特征。
在第一方面的一种实施方式中,所述第一节点包括属性信息与文本信息;所述节点特 征编码模块包括属性编码模块和文本编码模块;所述利用所述节点特征聚合模块对第一节 点进行编码,得到所述第一节点对应的节点向量,包括:
利用所述属性编码模块对所述属性信息进行编码,得到所述第一节点对应的属性向 量;
利用所述文本编码模块对所述文本信息进行编码,得到所述第一节点对应的文本向 量;
对所述属性向量与所述文本向量进行处理,得到所述节点向量。
在本申请实施例中,结合第一节点的文本信息和属性信息对第一节点进行编码,使得 到的节点向量更好的表示第一节点的特征。
在第一方面的一种实施方式中,在所述第一节点是所述多个用户节点中的任一个的情 况下,所述属性信息包括关注数、好友数以及发布的推文数;在所述第一节点是所述多个 评论节点中的任一个的情况下,所述属性信息包括点赞数量、转发数量以及回复数量。
在本申请实施例中,通过用户节点的关注数、好友数以及发布的推文数等信息确定该 用户节点在虚假新闻检测过程中对检测结果的影响。通过评论节点的点赞数量、转发数量 以及回复数量可以确定该评论节点对应的评论的质量。
第二方面,本申请实施例提供一种虚假新闻检测装置,包括:获取单元、编码单元以 及检测单元;
所述获取单元用于获取待检测新闻的文本内容以及所述待检测新闻对应的评论信息 和用户信息;
所述编码单元用于利用文本内容编码模块对所述文本内容的第一句子进行编码,得到 句子特征向量;所述第一句子是所述文本内容包含的至少两个句子中的任一个;
所述编码单元还用于利用用户评论联合编码模块对所述评论信息和用户信息进行编 码,得到用户评论联合特征矩阵;
所述检测单元用于将所述句子特征向量和所述用户评论联合特征矩阵输入联合注意 力模块,得到所述待检测新闻的检测结果。
在本申请实施例中,利用文本内容编码模块获取待检测新闻的文本内容中的有效信 息,利用用户评论联合编码模块获取评论信息和用户信息中的有效信息,利用联合注意力 模块结合文本内容、评论信息以及用户信息检测待检测新闻是否为虚假新闻,提高虚假新 闻检测的准确率。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器用 于存储一个或多个程序,所述一个或多个程序被配置成由所述处理器执行,所述程序包括 用于执行如第一方面或者第一方面的任意一种可能的实施方式中的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存 储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述 处理器执行如第一方面或者第一方面的任意一种可能的实施方式中的方法。
在本申请实施例中,利用文本内容编码模块获取待检测新闻的文本内容中的有效信 息,利用用户评论联合编码模块获取评论信息和用户信息中的有效信息,利用联合注意力 模块结合文本内容、评论信息以及用户信息检测待检测新闻是否为虚假新闻,提高虚假新 闻检测的准确率。
附图说明
图1为本申请实施例提供的一种虚假新闻检测方法的流程示意图;
图2为本申请实施例提供的又一种虚假新闻检测方法的流程示意图;
图3为本申请实施例提供的一种虚假新闻检测架构图;
图4为本申请实施例提供的一种统一预训练语言模型的架构图;
图5为本申请实施例提供的一种用户-评论异构图;
图6为本申请实施例提供的一种图神经网络模块的架构图;
图7为本申请实施例提供的一种节点编码方法的流程示意图;
图8为本申请实施例提供的一种实验结果图;
图9为本申请实施例提供的一种虚假新闻检测装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出 了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所 描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加 透彻全面。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同 对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在 于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术 人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的 实施方式的目的,不是旨在于限制本申请。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地 描述。
请参阅图1,图1为本申请实施例提供的一种虚假新闻检测方法的流程示意图。如图 1所示,该虚假新闻检测方法包括如下步骤。
101,获取待检测新闻的文本内容以及所述待检测新闻对应的评论信息和用户信息。
具体的,新闻,也叫消息,是指通过报纸、电台、广播、电视台等媒体途径所传播信息的一种称谓。新闻是记录社会、传播信息、反映时代的一种文体,除了发表于报刊、广 播、互联网、电视上的评论与专文外的常用文本都属于新闻之列,包括消息、通讯、特写、 速写(有的将速写纳入特写之列)等等。在本申请实施例中,可以从个新闻媒体中获取待 检测新闻的文本内容以及待检测新闻对应的评论信息和用户信息。待检测新闻对应的用户 信息是指对待检测新闻进行评论的用户的信息。用户信息可以包括多个对待检测新闻进行 评论的用户的信息,每个用户的信息可以包括用户所发布的评论文本信息、用好友信息、 关注信息以及状态信息等。待检测新闻对应的评论信息是指与待检测新闻相关的评论的信息。评论信息可以包括多条与待检测新闻相关的评论的信息,每条评论的信息可以包括评论文本信息、回复数、转发数以及点赞数等。获取待检测新闻的文本内容以及待检测新闻对应的评论信息和用户信息,以结合待检测新闻的文本内容及其对应的评论信息和用户信息来检测待检测新闻的真实性。
102,利用文本内容编码模块对所述文本内容的第一句子进行编码,得到句子特征向 量。
具体的,新闻文本内容是检测真假新闻的关键。假新闻往往带有夸张的语言风格,以 引起人们的注意,从而传播不准确的信息。文本内容编码模块可以是训练好的神经网络模 型,可以将文本数据转化为向量数据,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。在本申请实施例中,文本内容编码模块用于对待检测新闻的文本内容中的第一句子进行编码,将待检测新闻的文本内容中的第一句子的文本数据转化为向量数据,得到文本内容中的句子对应的句子特征向量。上述第一句子是上述文本内容包含的至少两个句子中的任一个。将第一句子输入到文本内容编码模块中,利用文本内容编码模块对第一句子进行编码,可以得到第一句子对应的句子特征向量。该句子特征向量是第一句子到向量空间的映射,可以表示第一句子的语言特性。文本内容编码模块可以用过独热编码的方式对第一句子进行编码,也可以通过其他句子编码的方式对第一句子进行编码。
进一步的,待检测新闻的文本内容可以被分为多个句子,将文本内容的多个句子输入 到文本内容编码模块中,利用文本内容编码模块对该多个句子进行编码,得到该多个句子 对应的多个句子特征向量。将多个句子特征向量拼接可以得到文本内容对应的文本特征矩 阵,该文本特征矩阵包括句子特征向量。
进一步的,待检测新闻的文本内容可以由多个句子组成,一个句子可以由多个单词组 成,因此待检测新闻的文本内容的重要信息可以从单词层面和句子层面获得,上述文本内 容编码模块可以包括单词编码模块和句子编码模块。单词编码模块用于对第一句子中的单 词进行编码,得到单词特征向量。句子编码模块结合单词特征向量对第一句子进行编码, 得到第一句子对应的句子特征向量。
103,利用用户评论联合编码模块对评论信息和用户信息进行编码,得到用户评论联 合特征矩阵。
具体的,上述用户评论联合编码模块可以是训练好的神经网络模型,用于挖掘待检测 新闻对应的评论信息和用户信息中的有效信息。用户评论联合特征矩阵是由用户特征矩阵 和评论特征矩阵横向拼接而成,用户特征矩阵和评论特征矩阵分别是用户信息和评论信息 在数学空间上的特征表示。例如,用户特征矩阵是一个20*100的矩阵,评论特征矩阵也 是一个20*100的矩阵,则由用户特征矩阵和评论特征矩阵拼接得到的用户评论联合特征 矩阵是一个20*200的矩阵。用户评论联合特征矩阵包括第一用户评论联合特征向量,第 一用户评论联合特征向量是由第一用户特征向量和第一评论特征向量拼接而成,第一评论 特征向量对应的第一评论是由第一用户特征向量对应的第一用户发布的评论。其中,第一 用户评论联合特征向量是用户评论联合特征矩阵中的任意一个用户评论联合特征向量,第 一评论特征向量是评论特征矩阵中的任意一个评论特征向量,第一用户特征向量是用户特 征矩阵中与第一评论特征向量对应的用户特征向量。用户评论联合特征矩阵是待检测新闻 的多条用户评论的特征向量的集合,第一用户评论联合特征向量可以是待检测新闻的任一 条用户评论的特征向量。
进一步的,用户评论联合编码模块可以包括异构图模块和图神经网络模块。异构图模 块用于构建与用户信息和评论信息对应的异构图,该异构图包括多个用户节点、多个评论 节点以及多个用户节点和多个评论节点之间的联系。图神经网络模块用于对上述异构图中 的多个用户节点和多个评论节点进行编码,得到用户特征矩阵和评论特征矩阵。拼接用户 特征矩阵和评论特征矩阵,得到用户评论联合特征矩阵。
104,将所述句子特征向量和所述用户评论联合特征矩阵输入联合注意力模块,得到 所述待检测新闻的检测结果。
具体的,一条假新闻中不是所有句子都是假的,一些真实的句子是为了掩盖虚假信息。 如果我们仅仅依靠新闻内容中的真假句子来判断新闻是真还是假,那是不准确的,因为每 一句在识别假新闻方面的重要性不同。新闻评论往往反映了新闻内容的真实性,用户可能 会根据自己的观点给出一些虚假新闻检测的重要线索。然而,一些用户可能是水军,他们 的评论对于虚假新闻检测来说应该不那么重要,因此选择与新闻内容相关的评论对于虚假 新闻检测至关重要。
将包含上述句子特征向量的文本特征矩阵和用户评论联合特征矩阵输入联合注意力 模块,利用联合注意力模块学习待检测新闻的文本内容中的句子和评论信息之间语义一致 性。
首先,计算一致性矩阵以改变文本特征矩阵和用户评论联合特征矩阵的维度,便于计 算待检测新闻文本的文本内容中的句子和待检测新闻用户评论的注意力权重。用户评论联 合特征矩阵表示为C'={C1',...,C'k},文本特征矩阵表示为S={S1,...,SN},一致性矩阵的计算 公式如下:
F=tanh(C'TWIS)
其中WI是权重矩阵。通过一致性矩阵变换待检测新闻文本的文本内容中的句子和待检 测新闻用户评论的注意力映射:
HS=tanh(WSS+(WC'C')F)
HC’=tanh(WC'S+(WSC')FT)
其中WC'和WS是权重参数。得到待检测新闻文本的文本内容中的句子和待检测新闻用 户评论的注意力映射后,计算待检测新闻文本的文本内容中的句子和待检测新闻用户评论 的注意力权重为:
Figure BDA0002989059800000061
Figure BDA0002989059800000062
其中Whc'和Whs是注意力权重。基于以上的注意力权重,待检测新闻的文本内容中的句 子特征向量和待检测新闻用户评论的特征向量的转换为:
Figure BDA0002989059800000063
Figure BDA0002989059800000064
其中
Figure BDA0002989059800000065
Figure BDA0002989059800000066
从联合注意力模块得到。待检测新闻的文本特征矩阵转换为
Figure BDA0002989059800000067
待检测新闻的用户评论联合特征矩阵转换为
Figure BDA0002989059800000068
聚合
Figure BDA0002989059800000069
Figure BDA00029890598000000610
得到待检测新闻的 检测结果为:
Figure BDA00029890598000000611
其中Wf是权重参数,bf是偏置值。
Figure BDA00029890598000000612
用作待检测新闻检测的检测结果,检测 结果包括真实新闻和虚假新闻。在
Figure BDA0002989059800000071
的情况下,表示待检测新闻为虚假新闻,在
Figure BDA0002989059800000072
的情况下,表示待检测新闻为真实新闻。
在检测虚假新闻的二进制分类问题中,利用联合注意力模块检测待检测新闻的损失函 数为:
Figure BDA0002989059800000073
其中y∈[0,1]是新闻的真实标签,代表虚假新闻和真实新闻。
在本申请实施例中,利用文本内容编码模块获取待检测新闻的文本内容中的有效信 息,利用用户评论联合编码模块获取评论信息和用户信息中的有效信息,利用联合注意力 模块结合文本内容、评论信息以及用户信息检测待检测新闻是否为虚假新闻,提高虚假新 闻检测的准确率。
请参阅图2,图2为本申请实施例提供的又一种虚假新闻检测方法的流程示意图。如 图2所示,该虚假新闻检测方法包括如下步骤。
201,获取待检测新闻的文本内容以及所述待检测新闻对应的评论信息和用户信息。
其中,步骤201的具体实施可以参见图1所示的步骤101的具体描述,此处不再赘述。
202,利用单词编码模块学习的单词上下文信息对第一句子的第一单词进行编码,得 到单词特征向量。
具体的,上述单词编码模块用于学习第一句子中单词上下文信息,并利用学习的单词 上下文信息对第一单词进行编码。上述第一单词是上述第一句子包含的至少两个单词中的 任一个。单词特征向量是第一单词在向量空间上的映射,可以表示第一单词的语言特征。
如图3所示,待检测新闻的文本内容可以分为多个句子,对文本内容中的句子进行分 词处理,可以得到每个句子对应的单词序列。因为待检测新闻的文本内容中包含了多个句 子,且需要计算待检测新闻的文本内容中的每一个句子对应的句子特征向量,为了使说明 更为方便简洁,在本实施例将从文本内容中随机抽取一个句子作为第一句子,后续将以计 算第一句子的句子特征向量为例进行说明,其中,该第一句子表示的是上述文本内容中的 任意一个句子。对第一句子进行分词处理后得到第一句子对应的单词序列为(Wi1,Wi2,..., Wim),即第一句子由单词Wi1、Wi2到单词Wim组成。将第一句子中的单词序列输入到单 词编码模块中,单词编码模块读取第一句子的单词序列,单词Wi1、单词Wi2到单词Wim, 并获取单词Wi1到单词Wim之间的单词上下文信息,利用获取到的单词上下文信息分别对 单词Wi1到单词Wim进行编码,得到单词Wi1到单词Wim对应的单词特征向量hi1、hi2到 hiM。对应的,hi1为单词Wi1的单词特征向量,hi2为单词Wi2的单词特征向量,hiM为单词 Wim的单词特征向量。
可以理解的是,在对单词序列中多个单词进行编码时,分别学习每个单词的上下文信 息对单词进行编码。在第一句子中的不同位置上包括多个相同的单词的情况下,该单词在 第一句子中不同位置上的单词特征向量是不同的。
203,利用句子编码模块学习的句子上下文信息和单词特征向量对第一句子进行编码, 得到句子特征向量。
如图3所示,获取到单词Wi1到单词Wim对应的单词特征向量hi1、hi2到hiM,第一句 子由单词Wi1到单词Wim组成,因此可以通过单词特征向量加权求和的方式计算第一句子 的句向量vi。由于在步骤201中,利用单词编码模块学习的单词上下文信息对第一句子中 的单词进行编码,因此通过将单词特征向量加权求和的方式得到的句向量vi可以表示第一 句子的语言特征。
为了更准确的表示第一句子的特征,利用句子编码模块学习的句子上下文信息对第一 句子句向量进行重编码,得到句子特征向量Si,得到的句子特征向量Si携带第一句子的上 下文信息。
在一种实施方式中,上述单词编码模块可以包括统一预训练语言模型(UnifiedLanguage Model,UnliLM),上述句子编码模块可以包括门控循环单元(Gated RecurrentUnit,GRU)神经网络模型。
UniLM模型的结构如图4所示,UniLM模型能够很好地处理新闻内容中自然语言的理解问题。第一句子可以被分成多个单词,并输入到UniLM中。UniLM模型可以通过学 习单词的上下文语境内容来捕捉单词之间的关系,最终得到第一句子中每个单词的词向 量。该模型经过预训练,可用于三种语言建模目标:单向(从左到右或从右到左读取文本内 容),双向(从左到右和从右到左读取文本内容)和逐句预测。UniLM模型包括分段嵌入 (segmentembedding)、位置嵌入(position embedding)、符号嵌入(token embedding) 和L层Tranformer模块。在一个句子的不同位置可能有多个相同的单词,但是这个单词的 词向量应该是不同的。位置嵌入用于区分句子中单词的位置。符号嵌入将单词从符号转换 为向量,Transformer是一种使用注意力机制来学习文本中单词间上下文语境的模型。 UniLM模型读取一个句子si从单词wi到单词wiM如下:
hit=UniLM(wit),t∈{1,...,M}
其中hit是一个词向量表示。得到第一句子中M个单词的词向量后,第一句子的句向量vi可以由M个单词组成,表示为:
Figure BDA0002989059800000081
其中αit表示在第一句子i中第t个单词的重要性,计算如下:
h'it=tanh(hit)
Figure BDA0002989059800000082
其中h'W是权重参数。
经过上述步骤,得到第一句子的句向量,使用带有GRU单元的递归神经网络对第一句子进行重新编码。单向GRU算法只能捕获当前句子和下一个句子之间的特征。使用双 向GRU可以捕获上句和下句之间的特征。双向GRU模型包含前向
Figure BDA0002989059800000083
和后向
Figure BDA0002989059800000084
利用双向GRU对第一句子进行编码:
Figure BDA0002989059800000085
Figure BDA0002989059800000086
获得的第一句子的句子特征向量Si是由前置隐藏层和后置隐藏层组成,表示为:
Figure BDA0002989059800000087
在本申请实施例中,利用UniLM模型对第一句子中的各个单词进行编码,得到第一句子中各个单词的词向量。再将第一句子中各个单词的词向量加权求和,得到第一句子的句向量。为了更好的表示第一句子的特征,利用双向GRU模型捕获句子间的上下文信息 对第一句子进行重新编码,得到第一句子的句子特征向量。
204,利用异构图模块构建与评论信息和用户信息对应的异构图。
具体的,上述异构图模块用于构造待检测新闻对应的评论和用户的异构图。上述评论 信息可以包括多条评论的信息,上述用户信息可以包括多个用户的信息。待检测新闻可以 对应多条评论,每条评论对应每个用户。当用户浏览新闻会同时浏览新闻对应的评论,这 会影响用户将要发布的评论,因此同一条新闻的评论与评论之间是相关的。因此构造的异 构图可以包括多个用户节点、多个评论节点、多个用户节点和多个评论节点之间的联系以 及多个评论节点之间的联系。
如图5所示,图5为本申请实施例提供的一种用户-评论异构图,对于用户节点来说, 用户节点对应的用户发表过的评论节点、回复该用户的用户节点以及与该用户评论同一新 闻的用户节点之间都是有联系的,都可以直接或间接的构成该用户节点的邻接节点。在本 申请实施例中,主要研究待检测新闻的评论信息对待检测新闻的影响,因此可以不考虑用 户节点之间的关系。
对于评论节点来说,发布该评论的用户节点、回复该评论的评论节点以及与对同一新 闻进行评论的评论节点之间都是有联系的,可以构成该评论节点的邻接节点。
205,利用图神经网络模块对异构图包括的多个用户节点和多个评论节点进行编码, 得到用户特征矩阵和评论特征矩阵。
具体的,神经网络模块用于将异构图中的各个节点向量化,得到各个节点对应的节点 特征向量,拼接用户节点的节点特征向量构成用户特征向量,拼接评论节点的节点特征向 量构成评论特征矩阵。
可选的,请参阅图6,图6是本申请实施例提供的一种图神经网络模块的架构图。如图6所示,上述图神经网络模块可以包括节点特征编码模块、节点聚合模块以及邻接节点混合模块。请参阅图7,图7为本申请实施例提供的一种节点编码方法的流程示意图,如 图7所示,该节点编码方法包括如下步骤。
701,利用节点特征编码模块对第一节点进行编码,得到第一节点对应的节点向量。
具体的,第一节点是上述多个用户节点中的任一个或者上述多个评论节点中的任一 个。因为异构图中包含了多个用户节点和多个评论节点,且需要计算多个用户节点和多个 评论节点中的每一个节点对应的节点特征向量,为了使说明更为方便简洁,在本实施例将 从多个用户节点和多个评论节点中随机抽取一个节点作为第一节点,后续将以计算第一节 点的节点特征向量为例进行说明,其中,该第一节点表示的是上述多个用户节点和多个评 论节点中的任意一个节点。
在本申请实施例中,节点特征编码模块用于获取节点的特征信息,对节点进行编码。 利用节点特征编码模块对第一节点进行编码,得到第一节点对应的节点向量Nj,节点向量 Nj可以在向量空间上表示第一节点的特征。
进一步的,第一节点包括节点的属性信息和文本信息。上述节点特征编码模块包括属 性编码模块和文本编码模块,步骤401中,利用节点特征聚合模块对第一节点进行编码, 得到所述第一节点对应的节点向量,可以包括如下步骤:
(11)利用所述属性编码模块对所述属性信息进行编码,得到所述第一节点对应的属 性向量;
(12)利用所述文本编码模块对所述文本信息进行编码,得到所述第一节点对应的文 本向量;
(13)对所述属性向量与所述文本向量进行处理,得到所述节点向量。
在本申请实施例中,第一节点包括属性信息和文本信息,节点特征编码模块可以包括 属性编码模块和文本编码模块,属性编码模块用于对节点的属性信息进行编码,文本编码 模块用于对节点的文本信息进行编码。利用属性编码模块和文本编码模块分别对第一节点 的属性信息和文本信息进行编码,得到第一节点对应的属性向量和文本向量,对属性向量 和文本向量进行处理可以得到第一节点对应的节点向量Nj
具体的,在第一节点包括多个属性信息的情况下,利用属性编码模块分别对第一节点 的各个属性信息进行编码,可以得到第一节点的属性向量。上述文本编码模块可以为上述 文本内容编码模块,即利用上述文本内容编码模块对第一节点的文本信息中的句子进行编 码,得到对应的句子特征向量,构成第一节点的文本向量。获得第一节点的属性向量和文 本向量后,可以对第一节点的属性向量和文本向量进行均值池化处理,也可以对第一节点 的属性向量和文本向量进行最大池化处理,或者直接将第一节点的属性向量和文本向量相 加,得到第一节点的节点向量Nj。其中,通过均值池化层得到的节点向量Nj可以更好的 保留属性向量和文本向量的特征,使得节点向量更好的表示第一节点的特征。
可选的,在第一节点是多个用户节点中的任一个的情况下,第一节点的属性信息包括 关注数、好友数以及发布的推文数;在第一节点是多个评论节点中的任一个的情况下,第 一节点的属性信息包括点赞数量、转发数量以及回复数量。
在第一节点是多个用户节点中的任一个的情况下,第一节点的属性信息包括关注数、 好友数以及发布的推文数。属性编码模块可以通过独热编码的方式对第一节点的属性进行 编码,即属性编码模块分别对第一节点的关注数、好友数以及发布的推文数进行独热编码, 将第一节点的属性信息转换为属性向量。属性编码模块对第一节点的关注数进行独热编码 时,先对关注数按照数值的大小进行区间划分,分别对每个区间进行独热编码,即可得到 每个区间对应的标签。然后按照第一节点的关注数的数值确定第一节点所属区间,并获取 该区间的标签,以该区间的标签作为第一节点关注数这个属性对应的属性向量。同样的, 对第一节点的好友数和发布的推文数的编码方式与对第一节点的关注数编码方式相同。分 别对第一节点的关注数、好友数以及发布的推文数进行编码,得到第一节点每个属性对应 的属性向量。
在第一节点是多个用户节点中的任一个的情况下,第一节点的文本信息包括第一节点 对应的用户所发布的评论文本。在第一节点对应的用户发布多条评论的情况下,分别利用 文本编码模块对多条评论中的每条评论的文本信息进行编码,得到多条评论对应的多个文 本向量,拼接多个文本向量得到第一节点的文本向量。
在第一节点是多个评论节点中的任一个的情况下,第一节点的属性信息包括点赞数 量、转发数量以及回复数量。属性编码模块可以通过独热编码的方式对第一节点的属性进 行编码,即属性编码模块分别对第一节点的点赞数量、转发数量以及回复数量进行独热编 码,将第一节点的属性信息转换为属性向量。属性编码模块对第一节点的点赞数量进行独 热编码时,先对点赞数量按照数值的大小进行区间划分,分别对每个区间进行独热编码, 即可得到每个区间对应的标签。然后按照第一节点的点赞数量的数值确定第一节点所属区 间,并获取该区间的标签,以该区间的标签作为第一节点点赞数量这个属性对应的属性向 量。同样的,对第一节点的转发数和回复数量的编码方式与对第一节点的点赞数量编码方 式相同。分别对第一节点的点赞数量、转发数量以及回复数量进行编码,得到第一节点每 个属性对应的属性向量。在第一节点是多个评论节点中的任一个的情况下,第一节点的文 本信息即为第一节点对应的评论的文本内容,利用文本编码模块对第一节点的文本信息进 行编码得到第一节点的文本向量。
在本申请实施例中,通过用户节点的关注数、好友数以及发布的推文数确定该用户节 点对应的用户是否为水军用户,水军用户一般会有更少的粉丝、更少的朋友以及更多低质 量的同类评论。水军用户的评论对于虚假新闻检测来说影响力极小,通过用户节点的关注 数、好友数以及发布的推文数可以确定该用户节点在虚假新闻检测的检测结果的影响。通 过评论节点的点赞数量、转发数量以及回复数量可以确定该评论节点对应的评论质量,从 而确定该评论节点对虚假新闻检测的检测结果的影响。
702,获取第一节点的邻接节点。
如图5所示,异构图中包括多个用户节点、多个评论节点、多个用户节点与多个评论 节点之间的联系以及多个评论节点之间的联系,因此可以通过异构图获取第一节点的邻接 节点,第一节点的邻接节点指的是与第一节点有联系的节点。可以通过采样的方式获得第 一节点的所有邻接节点。
703,确定所述邻接节点中所述第一节点的同类邻接节点和非同类邻接节点。
具体的,在第一节点为多个用户节点中的任一个的情况下,第一节点的同类节点为用 户节点,非同类节点为评论节点。在异构图中包括多个用户节点和多个评论节点之间的联 系,因此第一节点的邻接节点包含评论节点。在本申请实施例中,主要考虑待检测新闻评 论对于新闻真实性的影响,因此可以不考虑用户节点与用户节点之间的联系。在不考虑用 户节点之间的联系的情况下,第一节点的邻接节点中不包括用户节点,即第一节点没有同 类邻接节点,第一节点的邻接节点都是非同类邻接节点。
在第一节点为多个评论节点中的任一个的情况下,第一节点的邻接节点包括评论节点 和用户节点。第一节点的同类节点包括评论节点,非同类节点包括用户节点。
704,利用节点聚合模块对同类邻接节点进行聚合,得到第一节点对应的聚合特征向 量,以及同类邻接节点对应的聚合特征向量。
具体的,同一类型的邻接节点具有相似的特征,节点聚合模块用于获取同类邻接节点 之间的相似特征,对同类邻接节点进行聚合,以获取同类邻接节点的聚合特征向量。将第 一节点及其同类邻接节点的集合输入到节点聚合模块中,得到第一节点对应的聚合特征向 量v′ii,以及同类邻接节点对应的聚合特征向量(v′iC或v′iU)。
进一步的,节点聚合模块可以包括双向长短期记忆(Long short-term memory,LSTM) 模块。利用双向LSTM模块对同类邻接节点进行聚合时,需要先将同类邻接节点进行随机 排序,得到同类邻接节点序列,将该同类邻接节点序列输入到双向LSTM模块中,得到该 同类邻接节点序列中各个同类邻接节点对应的聚合特征向量。利用LSTM模块对同类邻接 节点进行聚合,使得到的聚合特征向量具有更高的表达能力。
705,利用节点聚合模块对非同类邻接节点进行聚合,得到非同类邻接节点对应的聚 合特征向量。
具体的,将第一节点的非同类邻接节点输入到节点聚合模块,利用节点聚合模块对第 一节点的非同类邻接节点进行聚合,得到非同类邻接节点对应的聚合特征向量(v′iC或v′iU)。
706,利用邻接节点混合模块结合第一节点对应的聚合特征向量、同类邻接节点对应 的聚合特征向量以及非同类邻接节点对应的聚合特征向量,得到第一节点对应的特征向 量。
具体的,不同类型的邻接节点对第一节点有不同的影响。在第一节点为评论节点的情 况下,第一节点有两种不同类型的邻接节点,因为第一节点的两种不同类型的邻接节点信 息是必需的,可以利用注意力机制结合两种不同类型邻接节点的特征信息,得到第一节点 对应的节点特征向量。
第一节点的节点特征向量表示为:
vi=αiiv′iiiCv′iCiUv′iU
其中,v′ii为第一节点的聚合特征向量,v′iC为第一节点邻接的评论节点的聚合特征向量, v′iU为与第一节点邻接的用户节点的聚合特征向量,αiv,v∈{i,C,U},αiv表示不同向量内嵌 的重要性,计算公式如下:
Figure BDA0002989059800000121
其中LeakyReLU是线性整流函数(Rectified Linear Unit,ReLU)的变式。与ReLU相 比,它不会造成激活函数进入负区间时神经元不学习的问题,u是注意力模块的参数。
在第一节点是多个用户节点中的任一个的情况下,上述用户特征矩阵包含第一节点对 应的节点特征向量,在第一节点是多个评论节点中的任一个的情况下,上述评论特征矩阵 包含第一节点对应的节点特征向量。
206,拼接用户特征矩阵和评论特征矩阵,得到用户评论联合特征矩阵。
具体的,横向拼接用户特征矩阵和评论特征矩阵,使得评论特征矩阵中的第一评论特 征向量和用户特征矩阵中的第一用户特征向量横向拼接形成第一用户评论联合特征向量, 第一评论特征向量对应的第一评论是由第一用户特征向量对应的第一用户发布的评论。其 中,第一评论特征向量是评论特征矩阵中的任意一个评论特征向量。用户评论联合特征矩 阵包括第一用户评论联合特征矩阵。
207,将句子特征向量和用户评论联合特征矩阵输入联合注意力模块,得到待检测新 闻的检测结果。
其中,步骤207的具体实施可以参见图1所示的步骤104的具体描述,此处不再赘述。
在本申请实施例中,结合第一句子中单词上下文信息以及第一句子的句子上下文信息 对第一句子进行编码,使得到的句子特征向量对第一句子具有更好的表达效果。通过异构 图模块构建与用户信息和评论信息对应的异构图,获取用户信息和评论信息中的用户和评 论以及评论和评论之间的关系,通过图神经网络模块对异构图中的用户节点和评论节点进 行编码,以获取异构图中各个节点的节点特征向量,使得到的节点特征向量能够更好的表 示节点的特征。通过联合注意力模块学习待检测新闻的文本内容中的句子和评论信息之间 语义一致性,以对待检测新闻的真实性进行检测,从而提高虚假新闻检测的准确率。
下文将介绍本申请实施例相关的实验数据,以佐证本申请上述方法实施例提供的虚假 新闻检测方法能提虚假新闻检测的准确率。
在本申请实施例中,数据集可以从FakeNewsNet中收集,数据集可以分为Politifact 和Gossipcop两个数据集。在Politifact数据集中,综合考虑记者和网站上政治新闻的专家 评论,Politifact数据集中的新闻被分为真实新闻和虚假新闻。在Gossipcop数据集中,包 括从各个媒体收集的具有评分的娱乐新闻,Gossipcop数据集中的新闻也分为真实新闻和虚 假新闻。数据集中的数据如表1所示。
表1
Platform Politifact Gossipcop
Users 36,060 95,139
Comments-Users 73,373 129,710
True News 152 1,112
Fake News 237 862
数据集包含带有标签的新闻的文本内容及其对应的用户信息和评论信息。每条新闻对 应的评论都是由FakeNewsNet工具获取的。每条评论的信息包括评论文本信息和评论属性 信息,评论属性信息包括回复数、转发数和点赞数等。每个用户的信息包括该用户发布的 所有评论文本信息和用户属性信息,用户属性信息包括好友数、关注数、验证标志和状态 数等。
在本实验中,我们对比了本申请实施例提供的虚假新闻检测方法(为便于描述,将本 申请实施例提供的虚假新闻检测方法记为GCAL)和其它八种方法进行比较。其中,该八种方法主要分为图神经网络方法和文本分类方法两大类。图神经网络方法包括异构图神经网络(Heterogeneous Graph Neural Network,HetGNN)、图注意力网络(Graph AttentionNetworks,GAT)和图采样聚合算法(Graph SAmple and aggreGatE,GSAGE)。HetGNN 是一种异构图神经网络,通过聚集不同类型的节点来完成各种图挖掘任务。GAT使用自注 意力神经网络来聚合邻接结点的特征来完成各种任务。GSAGE通过采样和收集来自邻接 结点的特征来生成用于节点嵌入的聚合器。文本分类方法可以包括分级注意网络 (HierarchicalAttention Network,HAN)、文本卷积神经网络(Text Convolutional Neural Network,text-CNN)、文本循环神经网络(Text Recursive Neural Network,text-RNN)、 基于用户评论生成器的文本卷积神经网络(Text Convolutional Neural Network-User ResponseGenerator,TCNN-URG)和可解释的虚假新闻检测(Explainable FakE News Detection,dEFEND)。HAN结合节点层注意力机制和语义层注意力机制来学习新闻内容 的信息。text-CNN结合了卷积神经网络和新闻内容,通过利用多个卷积隐藏层,它可以自 动提取文本特征。text-RNN使用LSTM对递归神经网络的最后一个输出中的文本信息进行 编码。TCNN-URG利用两个卷积神经网络和条件式变分自编码机进行分类。dEFEND是一 个研究句子-评论共同注意力机制的子网络模型,利用新闻内容和用户评论来共同捕获可解 释的前k个最值得检查的句子和用户评论,以此来完成虚假新闻检测。
在本实验中,通过最常用的准确度、精确度、召回率、F1和AUC来评估二分类任务中的结果。准确率(Accuracy)是所有预测正确的样本与总的样本的比值,指对于给定的 测试数据集,分类器正确分类的样本数与总样本数之比。精确率(Precision)是将正类样 本中预测为正类的数目和总样本中预测为正类的数目的比值,它是针对我们预测结果而言的,Precision又称为查准率。召回率(Recall)是将正类样本中预测为正类的数目和总样本中 正类的数目的比值,表示正类样本中的预测准确正例有多少被预测正确了,它是针对我们 原来的样本而言的,Recall又称为查全率。精确率和召回率是互相影响的,理想情况下肯 定是做到两者都高,但是一般情况下精确率高、召回率就低,召回率低、精确率高。所以,在两者都要求高的情况下,可以用F1来衡量。F1是精确率和召回率的调和平均值。F1的 计算公式如下:
Figure BDA0002989059800000141
其中,Pre表示精确率,Rec表示召回率。
AUC为接受者操作特性曲线(Receiver Operating Characteristic,ROC)下方的面积大 小,该ROC曲线反映敏感性和特异性连续变量的综合指标,ROC曲线上每个点反映着对 同一信号刺激的感受性,ROC曲线的横坐标为预测为正但实际为负的样本占所有负例样本 的比例,纵坐标为预测为正且实际为正的样本占所有正例样本的比例。
在本实验中,将数据集随机分为训练集和验证集,获得了一组新闻作为待检测新闻集 来进行虚假新闻检测。其中,训练集占数据集的75%,验证集占数据集的25%。对每种虚 假新闻检测方法使用相同的嵌入维度(d=200)。在本申请实施例提供的虚假新闻检测方 法中,由于考虑时间性能,对数据集中的新闻文本内容中的句子设置最大长度为50,最大 评论长度为20。不同的是,在Politifact数据集中,学习率为0.0002,而在Gossipcop数据 集中,学习率为0.0015。以准确率、精确率、召回率以及F1作为指标,分别使用上述八 种虚假新闻检测方法对待检测新闻集进行检测,得到的结果如表2所示。
表2
Figure BDA0002989059800000142
所有方法的检测结果如表2所示,其中包括详细的评价指标。从检测结果中可以看出, 本申请实施例提供的GCAL可以在两个数据集上获得最佳性能,我们注意到以下分析。首 先,大多数具有注意力机制的方法趋于预测更多正确的新闻(HetGNN、GAT、GSAGE、HAN、dEFEND和本申请实施例提供的GCAL)。这意味着注意力机制可以更好地捕获新闻内容中 的信息。其次,基于句子-评论联合注意力机制的方法(dEFEBD和GCAL)比其他方法表现 更好,因为新闻句子语境和评论语境促进了对新闻内容的额外信息的学习。这表明复杂的 深度机器学习模型可以通过提取高阶特征获得良好的性能,也就是说,新闻内容的附加信 息有助于提高虚假新闻检测的准确性。根据与图神经网络方法的比较,通过构建异构图神 经网络我们观察到网络的异质性。
就Politifact数据集的准确率、召回率和F1而言,目前的结果表明,本申请实施例提 供的GCAL与其他方法相比具有更高的检测能力。就精确率而言,我们发现TCNN-URG 的表现优于GCAL。经过详细的分析,我们观察到TCNN-URG倾向于正确地预测更多真 实的新闻。然而,我们的研究致力于检测假新闻,因此更高的精确率和更低的召回率并不 是不准确的。在考虑Gossipcop数据集的准确率、精确率和F1时,结果表明,与其他方法 相比,尽管在召回率方面略低于TCNN-URG,但是GCAL依然具有最佳性能。尽管dEFEND 是这一领域最有用的方法之一,并利用直接的注意力学习机制来获得强大的虚假新闻检测 能力。但本申请实施例提供的方法从所有评估指标来看,都优于HetGNN和dEFEND,这 意味着异构图神经网络学习模块的有效性。例如,与dEFEND相比,GCAL在Politifact 数据集上的准确率提高了4%,召回率提高了7%,F1提高了5%,在Gossipcop数据集上 也稍好一些。本申请实施例提供的方法基于预训练语言模型的用户评论异构图学习,挖掘 更多新闻内容的潜在信息。
在本实验中,为了详细验证本方案的有效性,对本申请实施例提供的虚假新闻检测框 架(GCAL)进行消融分析。首先构建一个用户-评论异构图网络,然后消除用户节点,得到对比的虚假新闻检测框架(GCAL_NU)或消除评论节点得到对比的虚假新闻检测框架(GCAL_NC)。分别利用GCAL、GCAL_NU和GCAL_NC检测待检测新闻,得到的结 果如图8所示。图8中,Acc、Pre和Rec分别表示准确率、精确率和召回率,从图8中, 可以发现GCAL比GCAL_NC和GCAL_NU具有更好的性能。表明用户注意力机制和上 下文语境特征的结合使GCAL能够提取更多特征信息,并结果更好更稳定。用户评论异构 图网络构建后,用户节点或评论节点聚合计算两种节点上下文语境特征,结果不会出现明 显的波动。更重要的是,用户-评论关系和单词-句子注意力学习确实可以更好地帮助新闻 验证。
在虚假新闻检测时,目标是从所有句子中学习到一个排名列表RS。在每条新闻中,排名列表由k个可解释性最高的句子组成,它们在识别假新闻的任务中起着至关重要的作用。为了分析本申请实施例提供的虚假新闻检测方法评估的前k个可解释句子是否更接近那些最需要在新闻中检查的句子,利用ClaimBuster获得一个排名列表
Figure RE-GDA0003058366700000151
作为评价基准。ClaimBuster是一个工具,它收集了大约20000句话,用于识别有价值的声明,并且可以计算0到1之间的可靠的分数。因此,一条声明获得的分数越高,其阐述地内容与事实越一 致。特别是,以排名列表
Figure RE-GDA0003058366700000152
为基准,通过比较GCAL和dEFEND确定的新闻内容中的前 k条排名列表来观察新闻句子可解释性表现。同时,利用平均精确率来评估结果,其中k设 置为5和10。在评估过程中,引入另一个参数n来控制与n条相邻的句子进行比较,其中n 设置为0到4。在本实验中可以得到两个观察结果,一方面,在两个数据集上结果表明, 在GCAL中找到与事实更一致的前k条可解释句子的总体性能明显优于dEFEND。因此, 本申请实施例提供的虚假新闻检测方法可以促进分析找出最需要检查的句子。另一方面, 由于n的增加,我们注意到平均准确率显示出上升趋势,因为与评价基准相比,匹配条件 放缓了。
请参阅图9,图9为本申请实施例提供的一种虚假新闻检测装置。如图所示,该虚假新闻检测装置90包括包括:获取单元901、编码单元902以及检测单元903。
上述获取单元901用于获取待检测新闻的文本内容以及上述待检测新闻对应的评论信 息和用户信息。
上述编码单元902用于利用文本内容编码模块对文本内容的第一句子进行编码,得到 句子特征向量。上述第一句子是上述文本内容包含的至少两个句子中的任一个。
上述编码单元902还用于利用用户评论联合编码模块对上述评论信息和用户信息进行 编码,得到用户评论联合特征矩阵。
上述检测单元903用于将上述句子特征向量和上述用户评论联合特征矩阵输入联合注 意力模块,得到上述待检测新闻的检测结果。
关于上述实施例中的虚假新闻检测装置90,其中各个模块执行操作的具体方式已经在 有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在本申请实施例中,利用文本内容编码模块获取待检测新闻的文本内容中的有效信 息,利用用户评论联合编码模块获取评论信息和用户信息中的有效信息,利用联合注意力 模块结合文本内容、评论信息以及用户信息检测待检测新闻是否为虚假新闻,提高虚假新 闻检测的准确率。
请参阅图10,图10为本申请实施例提供的一种电子设备的结构示意图,如图10所示, 该电子设备100包括处理器1001和存储器1002。处理器1001、存储器1002可以通过通信总线1003相互连接。通信总线1003可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture, 简称EISA)总线等。通信总线1003可以分为地址总线、数据总线、控制总线等。为便于 表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。存储器 1002用于存储计算机程序,计算机程序包括程序指令,处理器1001被配置用于调用程序 指令,上述程序包括用于执行图1~图7所示虚假新闻检测方法中的部分或全部步骤。
处理器1001可以是通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制以上方案程序执行 的集成电路。
存储器1002可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令 的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通 用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具 有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于 此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一 起。
本申请实施例还提供一种计算机可读存储介质,其中,该计算机可读存储介质存储用 于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述图1~图7所示的方法 实施例中记载的任何一种虚假新闻检测方法的部分或全部步骤。
应当理解的是,本申请的应用不限于上述的举例,对本领域普通技术人员来说,可以 根据上述说明加以改进或变换,所有这些改进和变换都应属于本申请所附权利要求的保护 范围。

Claims (10)

1.一种虚假新闻检测方法,其特征在于,包括:
获取待检测新闻的文本内容以及所述待检测新闻对应的评论信息和用户信息;
利用文本内容编码模块对所述文本内容的第一句子进行编码,得到句子特征向量;所述第一句子是所述文本内容包含的至少两个句子中的任一个;
利用用户评论联合编码模块对所述评论信息和所述用户信息进行编码,得到用户评论联合特征矩阵;
将所述句子特征向量和所述用户评论联合特征矩阵输入联合注意力模块,得到所述待检测新闻的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述文本内容编码模块包括单词编码模块和句子编码模块,所述利用文本内容编码模块对所述文本内容的第一句子进行编码,得到句子特征向量,包括:
利用所述单词编码模块学习的单词上下文信息对所述第一句子的第一单词进行编码,得到单词特征向量;所述第一单词是所述第一句子包含的至少两个单词中的任一个;
利用所述句子编码模块学习的句子上下文信息和所述单词特征向量对所述第一句子进行编码,得到所述句子特征向量。
3.根据权利要求2所述的方法,其特征在于,所述单词编码模块包括统一预训练语言模型,所述句子编码模块包括门控循环单元神经网络模型。
4.根据权利要求1所述的方法,其特征在于,所述用户评论联合编码模块包括异构图模块和图神经网络模块;所述利用用户评论联合编码模块对所述评论信息和用户信息进行编码,得到用户评论联合特征矩阵,包括:
利用所述异构图模块构建与所述评论信息和用户信息对应的异构图,所述异构图包括多个用户节点、多个评论节点以及所述多个用户节点和所述多个评论节点之间的联系;
利用所述图神经网络模块对所述多个用户节点和所述多个评论节点进行编码,得到用户特征矩阵和评论特征矩阵;
拼接所述用户特征矩阵和所述评论特征矩阵,得到所述用户评论联合特征矩阵。
5.根据权利要求4所述的方法,其特征在于,所述图神经网络模块包括节点特征编码模块、节点聚合模块以及邻接节点混合模块,所述利用所述图神经网络模块对所述多个用户节点和所述多个评论节点进行编码,得到用户特征矩阵和评论特征矩阵,包括:
利用所述节点特征编码模块对第一节点进行编码,得到所述第一节点对应的节点向量;所述第一节点是所述多个用户节点中的任一个或者所述多个评论节点中的任一个;
获取所述第一节点的邻接节点;
确定所述邻接节点中所述第一节点的同类邻接节点和非同类邻接节点;
利用所述节点聚合模块对所述同类邻接节点进行聚合,得到所述第一节点对应的聚合特征向量,以及所述同类邻接节点对应的聚合特征向量;
利用所述节点聚合模块对所述非同类邻接节点进行聚合,得到所述非同类邻接节点对应的聚合特征向量;
利用所述邻接节点混合模块结合所述第一节点对应的聚合特征向量、所述同类邻接节点对应的聚合特征向量以及所述非同类邻接节点对应的聚合特征向量,得到所述第一节点对应的节点特征向量;
在所述第一节点是所述多个用户节点中的任一个的情况下,所述用户特征矩阵包含所述第一节点对应的节点特征向量,在所述第一节点是所述多个评论节点中的任一个的情况下,所述评论特征矩阵包含所述第一节点对应的节点特征向量。
6.根据权利要求5所述的方法,其特征在于,所述第一节点包括属性信息与文本信息;所述节点特征编码模块包括属性编码模块和文本编码模块;所述利用所述节点特征聚合模块对第一节点进行编码,得到所述第一节点对应的节点向量,包括:
利用所述属性编码模块对所述属性信息进行编码,得到所述第一节点对应的属性向量;
利用所述文本编码模块对所述文本信息进行编码,得到所述第一节点对应的文本向量;
对所述属性向量与所述文本向量进行处理,得到所述节点向量。
7.根据权利要求6所述的方法,其特征在于,在所述第一节点是所述多个用户节点中的任一个的情况下,所述属性信息包括关注数、好友数以及发布的推文数;在所述第一节点是所述多个评论节点中的任一个的情况下,所述属性信息包括点赞数量、转发数量以及回复数量。
8.一种虚假新闻检测装置,其特征在于,包括:获取单元、编码单元以及检测单元;
所述获取单元用于获取待检测新闻的文本内容以及所述待检测新闻对应的评论信息和用户信息;
所述编码单元用于利用文本内容编码模块对所述文本内容的第一句子进行编码,得到句子特征向量;所述第一句子是所述文本内容包含的至少两个句子中的任一个;
所述编码单元还用于利用用户评论联合编码模块对所述评论信息和用户信息进行编码,得到用户评论联合特征矩阵;
所述检测单元用于将所述句子特征向量和所述用户评论联合特征矩阵输入联合注意力模块,得到所述待检测新闻的检测结果。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器用于存储一个或多个程序,所述一个或多个程序被配置成由所述处理器执行,所述程序包括用于执行如权利要求1~7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~7任一项所述的方法。
CN202110311653.1A 2021-03-23 2021-03-23 虚假新闻检测方法、装置、电子设备以及存储介质 Pending CN113032525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110311653.1A CN113032525A (zh) 2021-03-23 2021-03-23 虚假新闻检测方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110311653.1A CN113032525A (zh) 2021-03-23 2021-03-23 虚假新闻检测方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN113032525A true CN113032525A (zh) 2021-06-25

Family

ID=76473102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110311653.1A Pending CN113032525A (zh) 2021-03-23 2021-03-23 虚假新闻检测方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113032525A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392334A (zh) * 2021-06-29 2021-09-14 长沙理工大学 冷启动环境下的虚假评论检测方法
CN113849599A (zh) * 2021-09-03 2021-12-28 北京中科睿鉴科技有限公司 基于模式信息和事实信息的联合虚假新闻检测方法
CN113869431A (zh) * 2021-09-30 2021-12-31 平安科技(深圳)有限公司 虚假信息检测方法、系统、计算机设备及可读存储介质
CN115374372A (zh) * 2022-08-26 2022-11-22 广州工程技术职业学院 网络社区虚假信息快速识别方法及装置、设备、存储介质
CN117574261A (zh) * 2023-10-19 2024-02-20 重庆理工大学 一种多领域虚假新闻读者认知检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639252A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于新闻-评论关联性分析的虚假新闻识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639252A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于新闻-评论关联性分析的虚假新闻识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAO LIAO等: ""Fake News Detection Through Graph Comment Advanced Learning"", 《COMPUTER SCIENCE》, pages 1 - 6 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392334A (zh) * 2021-06-29 2021-09-14 长沙理工大学 冷启动环境下的虚假评论检测方法
CN113392334B (zh) * 2021-06-29 2024-03-08 长沙理工大学 冷启动环境下的虚假评论检测方法
CN113849599A (zh) * 2021-09-03 2021-12-28 北京中科睿鉴科技有限公司 基于模式信息和事实信息的联合虚假新闻检测方法
CN113849599B (zh) * 2021-09-03 2023-01-24 北京中科睿鉴科技有限公司 基于模式信息和事实信息的联合虚假新闻检测方法
CN113869431A (zh) * 2021-09-30 2021-12-31 平安科技(深圳)有限公司 虚假信息检测方法、系统、计算机设备及可读存储介质
CN113869431B (zh) * 2021-09-30 2024-05-07 平安科技(深圳)有限公司 虚假信息检测方法、系统、计算机设备及可读存储介质
CN115374372A (zh) * 2022-08-26 2022-11-22 广州工程技术职业学院 网络社区虚假信息快速识别方法及装置、设备、存储介质
CN115374372B (zh) * 2022-08-26 2023-04-07 广州工程技术职业学院 网络社区虚假信息快速识别方法及装置、设备、存储介质
CN117574261A (zh) * 2023-10-19 2024-02-20 重庆理工大学 一种多领域虚假新闻读者认知检测方法

Similar Documents

Publication Publication Date Title
Boenninghoff et al. Explainable authorship verification in social media via attention-based similarity learning
CN113032525A (zh) 虚假新闻检测方法、装置、电子设备以及存储介质
Bhuvaneshwari et al. Spam review detection using self attention based CNN and bi-directional LSTM
KR20080075501A (ko) 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템
Zhang et al. A deep learning approach for detecting fake reviewers: Exploiting reviewing behavior and textual information
CN112347367A (zh) 信息服务提供方法、装置、电子设备和存储介质
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
Al Sulaimani et al. Short text classification using contextual analysis
Pillai et al. Misinformation detection using an ensemble method with emphasis on sentiment and emotional analyses
Sabeeh et al. Enhancing the fake news detection by applying effective feature selection based on semantic sources
Wang et al. Does applying deep learning in financial sentiment analysis lead to better classification performance?
CN113965377A (zh) 一种攻击行为检测方法及装置
Jimenez et al. An empirical study on identifying sentences with salient factual statements
CN116976341A (zh) 实体识别方法、装置、电子设备、存储介质及程序产品
US20210241147A1 (en) Method and device for predicting pair of similar questions and electronic equipment
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN111177526B (zh) 网络意见领袖识别方法及装置
Matos et al. Comparing different approaches for detecting hate speech in online Portuguese comments
Lan et al. Mining semantic variation in time series for rumor detection via recurrent neural networks
Khan et al. Fake News Classification using Machine Learning: Count Vectorizer and Support Vector Machine
CN111292119A (zh) 一种筛选疑似非法组织的方法和系统
ShiXiao et al. Real-time Sentiment Analysis on Social Networks using Meta-model and Machine Learning Techniques
Jony et al. Domain specific fine tuning of pre-trained language model in NLP

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination