CN113849599B

CN113849599B - 基于模式信息和事实信息的联合虚假新闻检测方法

Info

Publication number: CN113849599B
Application number: CN202111031772.8A
Authority: CN
Inventors: 曹娟; 盛强; 张雪遥; 钟雷; 谢添
Original assignee: Beijing Zhongke Ruijian Technology Co ltd
Current assignee: Beijing Zhongke Ruijian Technology Co ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2023-01-24
Anticipated expiration: 2041-09-03
Also published as: CN113849599A

Abstract

本发明涉及一种基于模式信息和事实信息的联合虚假新闻检测方法。本发明所采用的技术方案是：一种基于模式信息和事实信息的联合虚假新闻检测方法，其特征在于：从待测新闻中提取模式信息触发词、事实信息触发词和普通词；构建异构图；对异构图使用动态异构图卷积操作，动态更新异构图上两两节点之间的连边权重，生成模式偏好分布和事实偏好分布；基于待测新闻和模式偏好分布得到模式信息感知的聚合向量；基于待测新闻和事实偏好分布得到事实信息感知的聚合向量，并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量；基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。

Description

基于模式信息和事实信息的联合虚假新闻检测方法

技术领域

本发明涉及一种基于模式信息和事实信息的联合虚假新闻检测方法。适用于社交媒体数据挖掘和互联网内容安全领域。

背景技术

社交媒体上的虚假新闻问题已经在政治、经济、民生等方面对现实世界构成了威胁，为了实现对虚假新闻的高效检测，已有许多研究着眼于开发自动虚假新闻检测系统。

目前，国内外自动检测虚假新闻内容的方法大致可分为两种：

第一类是基于模式信息的检测方法，这类方法关注于虚假新闻是“如何写”的，即不同虚假新闻之间共享的模式信息(如风格、情感、语言运用偏好等)，而不关注具体的虚假新闻内容，例如通过检测虚假新闻中的情感信息；

第二类是基于事实信息的检测方法，这类方法与上一类方法的关注点相反，主要通过检索外部证据库以判断给定新闻中描述的事件是否为真，而不关注新闻事件是以怎样的形式表达，例如引入了维基百科作为外部证据库，直接使用搜索引擎得到相关证据，并根据这些证据本身的可信度和其对给定新闻的支持、反对或中立立场，判断给定新闻所描述事件的真实性。

这两类方法在侧重点上各有不同，但至今为止，仍缺少一种联合检测方法将这两类方法中的模型有效结合，实现联合基于模式信息和事实信息的虚假新闻检测，其中的挑战在于，由于模型的关注点不同，基于模式信息和基于事实信息的模型容易受到无关信息的干扰，具体而言：

(1)由于数据集偏差(数据集语料分布与真实世界语料分布的差异)的客观存在，基于模式信息的检测模型很容易过拟合到在训练集上高频出现的事件相关词语上，例如“车祸”、“死亡”等，而这些事件相关词语无法泛化到没有出现过的其它事件上，这限制了模型的性能。

(2)由于社交媒体上的新闻帖往往不仅仅包含狭义的该事件其中的要素，还可能包括发布者的点评或其它背景的补充。这导致一条社交媒体新闻中不仅包含需要被查证的描述，还有需要无法查证或不需要查证的词句，而这些词句会在检索匹配外部证据和根据外部证据进行推理时造成干扰。

发明内容

本发明要解决的技术问题是：针对上述存在的问题，提供一种基于模式信息和事实信息的联合虚假新闻检测方法。

本发明所采用的技术方案是：一种基于模式信息和事实信息的联合虚假新闻检测方法，其特征在于：

从待测新闻中提取模式信息触发词、事实信息触发词和普通词；

构建异构图，该异构图包含三类节点，分别对应模式信息触发词、事实信息触发词和普通词；

对异构图使用动态异构图卷积操作，动态更新异构图上两两节点之间的连边权重，生成模式偏好分布和事实偏好分布；

基于待测新闻和模式偏好分布得到模式信息感知的聚合向量；

基于待测新闻和事实偏好分布得到事实信息感知的聚合向量，并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量；

基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。

所述构建异构图，包括：

异构图每个节点的初始表示获取自预训练好的BERT模型，将每个节点的初始表示堆叠起来，构成初始节点特征矩阵H⁽⁰⁾∈R^n×d；

对于异构图中第i个和第j个节点，其初始连边权重为

所述对异构图使用动态异构图卷积操作，包括：

设动态异构图卷积网络有L层，在第l层已完成计算的情况下，即已经得到l层的节点特征矩阵H^(l)和连边权重矩阵A^(l)，第(l+1)层的异构图卷积操作如下：

其中

是A^(l)的子矩阵，仅包含类型τ节点与其它所有节点的连边权重，T是模式信息触发词、事实信息触发词和普通词三种词项类型名的集合；

是H(^l)的子矩阵；

是第(l+1)层可学习的权重矩阵；ReLU是非线性激活函数，其表达式为ReLU(x)＝max(0,x)；

连边权重矩阵由下式更新：

A^(l+l)＝αA^(l)+(1-α)ΔA^(l+1)

其中

是用于本层连边权重更新的可学习的权重矩阵，σ代表sigmoid函数，α是用于控制更新幅度的常数。

所述生成模式偏好分布和事实偏好分布，包括：

对于异构图中第i个节点，其模式偏好得分m_Pi是所有该节点连边权重之和与事实信息触发词对应节点的连边权重之和的差；

对于异构图中第i个节点，其事实偏好得分m_Fi是所有该节点连边权重之和与模式信息触发词对应节点的连边权重之和的差；

用每个节点的偏好得分构成序列，并进行归一化操作，得到模式偏好分布m_P和事实偏好分布m_F，如下

所述基于待测新闻和模式偏好分布得到模式信息感知的聚合向量，包括：

使用模式偏好分布对待测新闻每个词项的表达向量进行加权聚合，得到模式信息感知的聚合向量。

所述基于待测新闻和事实偏好分布得到事实信息感知的聚合向量，并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量，包括：

使用事实偏好分布对待测新闻每个词项的表达向量进行加权聚合，得到事实信息感知的聚合向量；

将事实信息感知的聚合向量和相关证据的整体表达输入推断模块，得到事实信息感知的推理向量；所述相关证据的整体表达由各证据中所有词项表达求平均得到。

所述基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性，包括：

将模式信息感知的聚合向量和事实信息感知的推理向量拼接起来，输入一个多层全连接神经网络和sigmoid层，得到新闻真实性预测结果

根据预先设定的阈值thr，得到最终的预测结果，当新闻真实性预测结果大于thr则表明为假新闻，反之为非假新闻。

一种基于模式信息和事实信息的联合虚假新闻检测装置，其特征在于，包括：

词项提取模块，用于从待测新闻中提取模式信息触发词、事实信息触发词和普通词；

异构图构建模块，用于构建异构图，该异构图包含三类节点，分别对应模式信息触发词、事实信息触发词和普通词；

偏好分布生成模块，用于对异构图使用动态异构图卷积操作，动态更新异构图上两两节点之间的连边权重，生成模式偏好分布和事实偏好分布；

模式检测模块，用于基于待测新闻和模式偏好分布得到模式信息感知的聚合向量；

事实检测模块，用于基于待测新闻和事实偏好分布得到事实信息感知的聚合向量，并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量；

真实性判别模块，用于基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。

一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述基于模式信息和事实信息的联合虚假新闻检测方法的步骤。

一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述基于模式信息和事实信息的联合虚假新闻检测方法的步骤。

本发明的有益效果是：本发明首先根据基于模式或事实信息的虚假新闻检测模型的信息需求特点，分别生成了两类模型的词项偏好分布；之后使用上述偏好分布，分别引导基于模式或事实信息的虚假新闻检测模型关注到待测新闻中自身偏好的部分文字信息，从而实现高效、低干扰的特征学习，两模型学习得到的特征经过融合后被送入分类器，该分类器结合模式和事实信息综合判断待测消息是否为虚假新闻。

本发明提取待测新闻词项中有模式信息或事实信息指示能力的触发词，将词项分为模式信息触发词、事实信息触发词和普通词三类，并构建了含有三类节点的异构图来表示、学习词项之间的关系；通过多层动态异构图卷积网络的学习后，对词项之间的连边权重进行聚合生成两种词项偏好分布，即模式偏好分布和事实偏好分布，用于引导后续真实性判断模型的学习过程。

本发明在典型的基于模式信息和基于事实信息的虚假新闻检测模型中利用注意力机制加入了偏好分布对词项重要性的加权干预，从而实现对检测模型关注点的引导，能有效捕捉基于模式信息和基于事实信息的虚假新闻检测模型的偏好，从而更好地融合了两类方法，提高了虚假新闻检测的性能；经过引导的两种模型分别输出模式信息感知的聚合向量和事实信息感知的推理向量，用于最后分类器(全连接神经网络)的虚假新闻检测任务。

现有基于模式信息和基于事实信息的方法都面临无关信息的干扰问题，泛化性有限。本发明有效融合了这两种模型，在实际使用可以做到取长补短，从而提高了整体检测方案的泛化性，可以应对更多的检测场景。

附图说明

图1为实施例的流程图。

图2为实施例中动态异构图卷积网络示意图。

图3为实施例中基于模式信息的虚假新闻检测模型示意图。

图4为实施例中基于事实信息的虚假新闻检测模型示意图。

具体实施方式

如图1所示，本实施例为一种基于模式信息和事实信息的联合虚假新闻检测方法，其特征在于：

S1、基于图神经网络的词项偏好分布建模。给定一条含有n个词项的待测新闻P，为了预测P中的各个词项更可能提供模式信息还是事实信息(即更可能被基于模式还是事实信息的虚假新闻检测模型偏好)，实现输入信息的基于模型偏好的“软”分离，利用图神经网络对P进行了词项偏好分布建模，词项偏好分布，即含有n个0～1实数且总和为1的序列，其中第i个实数对应P中第i个词项的得分，分数越高，说明该词项越可能提供对应模型偏好的信息。建模过程如图2所示。

S1-1、从待测新闻中提取模式信息触发词、事实信息触发词和普通词。提取待测新闻(含有n个词项)中有模式信息或事实信息指示能力的触发词(触发词，即通常而言能够较为稳定地指示信息类别(模式信息或事实信息)的词)，将词项分为模式信息触发词、事实信息触发词和普通词三类。

对于模式信息触发词，本例通过与已有的情感词典HowNet(包含否定词、程度词、情感词、主张词等)、大连理工大学中文情感词汇本体库、标点符号列表进行匹配来提取；对于事实信息触发词，本例通过实体识别工具(Lexical Analysis ofChinese)进行提取，提取完成后，待测新闻的n个词项被分为三组：(1)n_s个模式信息触发词

(2)n_e个事实信息触发词

(3)剩余的n_r＝n-n_s-n_e个普通词

S1-2、构建异构图，该异构图包含三类节点，分别对应模式信息触发词、事实信息触发词和普通词。

为发现触发词对词项偏好分布学习的引导作用，本实施例构建异构图(heterogeneous graph)G，该异构图包含三种节点，分别对应步骤S1-1获得的三组词项，模式信息触发词S、事实信息触发词E和普通词R。

每个节点的初始表示(维度为d)获取自预训练好的BERT模型，将异构图中每个节点的初始表示堆叠起来，构成初始节点特征矩阵H⁽⁰⁾∈R^n×d。

为了初始化节点之间的连边权重矩阵(包含两两节点之间的关联程度)A⁽⁰⁾∈R^n×n，本实施例使用归一化后的余弦相似度，对于第i个和第j个节点，其初始连边权重为

S1-3、对异构图使用动态异构图卷积操作，动态更新异构图上两两节点之间的连边权重，生成模式偏好分布和事实偏好分布。

本实施例对异构图G使用动态异构图卷积操作，在考虑节点类型不同的前提下，动态地更新两两节点之间的连边权重，以通过触发词的影响，动态学习得到词项偏好分布。

假设动态异构图卷积网络有L层，在第l层已完成计算的情况下，即已经得到l层的节点特征矩阵H^(l)和连边权重矩阵A^(l)，第(l+1)层的异构图卷积操作如下

其中，

是A^(l)的子矩阵，仅包含类型τ节点与其它所有节点的连边权重，T是上述三种词项类型名的集合，即T＝{S,E,R}。类似地，

是H^(l)的子矩阵。

是第(l+1)层可学习的权重矩阵。ReLU是非线性激活函数，其表达式为ReLU(x)＝max(0,x)；在实用中，也可以更换其它非线性激活函数，如LeakyReLU等。

之后，连边权重矩阵由下式更新

A^(l+1)＝αA^(l)+(1-α)ΔA^(l+1)

其中

是用于本层连边权重更新的可学习的权重矩阵，σ代表sigmoid函数，即

α是用于控制更新幅度的常数。

经过L层动态异构图卷积网络后，异构图G中的连边权重可以充分地刻画词项之间的复杂关系，从而可以生成词项偏好分布。考虑到之后需要引导基于模式信息和基于事实信息的虚假新闻检测模型，本实施例对应地生成了两个词项偏好分布，即模式偏好分布和事实偏好分布。

对于第i个节点(词项)，其模式偏好得分m_Pi是所有该节点连边权重之和与事实触发词对应节点的连边权重之和的差，即为

类似地，其事实偏好得分m_Fi为

最后，用每个词项的偏好得分构成序列，并进行归一化操作(使序列和为1)，即得到了模式偏好分布m_P和事实偏好分布m_F，如下

S2、偏好分布引导的联合虚假新闻检测。分布建模完成后，即可得到待测新闻的模式偏好分布m_P和事实偏好分布m_F。使用上述分布作为引导，基于模式信息和基于事实信息的虚假新闻检测模型可以关注到符合其信息需求的部分文字，有利于其对待测消息真实性的判断。

S2-1、基于待测新闻和模式偏好分布得到模式信息感知的聚合向量。如图3所示，给定待测新闻P基于模式信息的虚假新闻检测模型首先通过一个文本编码器(如LSTM、BERT等)获得待测新闻P中每个词项的向量表达p₁,p₂,…,p_n，使用步骤S1中学习得到的模式偏好分布m_P对待测新闻每个词项的表达向量进行加权聚合，得到模式信息感知的聚合向量p_a。

S2-2、基于待测新闻和事实偏好分布得到事实信息感知的聚合向量，并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量。

如图4所示，给定待测新闻P，基于事实信息的虚假新闻检测模型首先从事实核查源(如在线百科、辟谣文章库、搜索引擎等)进行检索，得到n_f个相关证据(文档)；之后将待测新闻P和检索到的相关证据都进行文本编码(如使用LSTM、BERT等)，获得待测新闻P中每个词项的向量表达q₁,q₂,…,q_n和相关证据的整体表达

(由各证据中所有词项表达求平均得到)；使用步骤S1学习得到的事实偏好分布m_F对每个词项的表达向量进行加权聚合，得到事实信息感知的聚合向量q_a。

将q_a和

输入推断模块(Inference Module)，即得到事实信息感知的推理向量

此处的推断模块不是固定的，使用任何自然语言推断(Natural LanguageInference)模型均可，例如ESIM。

S3、基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。

将上述模式信息感知的聚合向量p_a和事实信息感知的推理向量f拼接起来，输入一个多层全连接神经网络(即多层感知机，MLP)和sigmoid层，得到联合模式信息和事实信息的新闻真实性预测结果

根据预先设定的阈值thr(一般设为0.5)，判断得到最终的预测结果：

本实施例还提供一种基于模式信息和事实信息的联合虚假新闻检测装置，包括偏好分布建模模块、虚假新闻检测模块和真实性判别模块，其中偏好分布建模模块包括词项提取模块、异构图构建模块和偏好分布生成模块，虚假新闻检测模块包括模式检测模块和事实检测模块。

本例中词项提取模块用于从待测新闻中提取模式信息触发词、事实信息触发词和普通词；异构图构建模块用于构建异构图，该异构图包含三类节点，分别对应模式信息触发词、事实信息触发词和普通词；偏好分布生成模块用于对异构图使用动态异构图卷积操作，动态更新异构图上两两节点之间的连边权重，生成模式偏好分布和事实偏好分布；模式检测模块用于基于待测新闻和模式偏好分布得到模式信息感知的聚合向量；事实检测模块用于基于待测新闻和事实偏好分布得到事实信息感知的聚合向量，并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量；真实性判别模块用于基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。

本实施例还提供一种存储介质，其上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本例中基于模式信息和事实信息的联合虚假新闻检测方法的步骤。

本实施例还提供一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本例中基于模式信息和事实信息的联合虚假新闻检测方法的步骤。