CN111061843B

CN111061843B - 一种知识图谱引导的假新闻检测方法

Info

Publication number: CN111061843B
Application number: CN201911369712.XA
Authority: CN
Inventors: 刘金硕; 李晨曦; 邓娟; 李扬眉
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-08-25
Anticipated expiration: 2039-12-26
Also published as: CN111061843A

Abstract

本发明公开了一种知识图谱引导的假新闻检测方法，包括：步骤1、基于假新闻检测数据集，构建知识图谱作为假新闻检测的背景知识，并预训练知识图谱嵌入模型；步骤2、抽取待检测新闻文本中的实体，并连接到知识图谱；步骤3、基于新闻文本与实体，获取新闻文本的词级别增强表示，并基于注意力机制提取新闻文本词级别特征；步骤4、获取新闻文本字级别表示，基于注意力机制抽取新闻文本字级别特征；步骤5、基于实体注意力模型，抽取新闻文本中的实体特征；步骤6、融合待检测新闻文本的词级别特征、字级别特征、实体特征，对待检测新闻文本进行真实性检测。本发明引入知识图谱来引导深度学习模型进行假新闻检测，提高了模型识别准确率与泛化性能。

Description

一种知识图谱引导的假新闻检测方法

技术领域

本发明涉及信息处理技术领域，尤其涉及一种知识图谱引导的假新闻检测方法。

背景技术

假新闻是一种有意且确实是虚假的新闻，可能会误导读者。近年来，随着互联网技术和社交网络的发展，互联网已经成为人们获取新闻信息的主要来源，随之产生的假新闻也成为近年来最热门的社会政治话题之一，并且在“美国大选”和“脱欧”之后受到特别关注。假新闻具有成本低、易于获取和快速传播的特点，容易误导公众舆论扰、乱社会秩序以及破坏社交媒体的信誉。因此需要研究假新闻检测，建立一个科学合理、行之有效、高效准确的假新闻检测发放，来对互联网中的假新闻进行有效的检测，达到快速准确识别假新闻的作用。这对于维护社会稳定和谐、提高社交媒体的信誉、心造科学安全的互联网环境具有十分积极的意义。

对于传统的假新闻检测模型，一部分研究从文本本身提取包括文本风格、情感特征等各种特征，并训练分类器来对新闻文本进行分类；一部分研究利用事实检测来进行假新闻的检测，主要是检测新闻内容与事实信息的冲突来判定新闻内容的真实性；一部分研究把假新闻检测任务当作普通的文本分类任务，使用深度学习模型对新闻文本本身抽取特征并进行分类。

发明人在研究假新闻检测的时候发现，现有方法都局限于从新闻文本本身抽取特征，而缺乏外部先验知识的引入。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种知识图谱引导的假新闻检测方法。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种知识图谱引导的假新闻检测方法，该方法包括以下步骤：

步骤1、基于假新闻检测数据集，构建知识图谱作为假新闻检测的背景知识，并预训练知识图谱嵌入模型；

步骤2、抽取待检测新闻文本中的实体，并连接到知识图谱；

步骤3、基于新闻文本与实体，获取新闻文本的词级别增强表示，并基于注意力机制提取新闻文本词级别特征；

步骤4、获取新闻文本字级别表示，并基于注意力机制抽取新闻文本字级别特征；

步骤5、基于实体注意力模型，抽取新闻文本中的实体特征；

步骤6、融合待检测新闻文本的词级别特征、字级别特征、实体特征，对待检测新闻文本进行真实性检测。

进一步地，本发明的步骤1的具体方法为：

步骤1.1、获取假新闻检测任务的数据集，利用命名体识别模型与实体链接模型抽取数据集中的实体，并将实体链接到开源知识图谱中，将抽取出的实体作为种子节点，利用广度优先遍历算法在开源知识谱图中获取一个子图谱作为假新闻检测模型的先验知识；知识图谱记为G＝{(s，p，o)}，其中(s，p，o)为三元组，s和o为实体，p为实体之间的关系；

步骤1.2、预训练图谱嵌入模型；利用步骤1.1中构建的知识图谱，使用TransE模型来预训练知识图谱嵌入模型，预训练的知识图谱嵌入模型记为M^kge。

进一步地，本发明的步骤1.2中预训练知识图谱嵌入模型的具体方法为：

对于每一个三元组(s，p，o)，将嵌入结果表示为(h，r，t)，嵌入模型对每一个三元组嵌入结果设计一个得分函数：

模型的损失函数如下：

其中，(h，r，t)∈S表示正样本三元组集合，(h′，r，t′)∈S′表示负样本三元组集合。

进一步地，本发明的步骤2的具体方法为：

步骤2.1、使用预训练的命名体识别模型与实体链接模型抽取出待检测新闻文本中的实体，并链接到知识图谱；实体集合记为E＝{e₁，e₂，...，e_m}。

进一步地，本发明的步骤3的具体方法为：

步骤3.1、对新闻文本进行分词，新闻文本词序列表示为：

W＝{w₁，w₂，...，w_n}

并利用词嵌入模型获取文本词向量矩阵：

其中，表示第i个词的词向量，/>是向量拼接操作；

步骤3.2、获取词序列的位置信息，并计算词序列的位置编码；

位置编码计算方式如下：

其中，pos表示词在句子中的位置信息，d_w表示词向量的维度，i表示词向量的位置信息。第i个词W_i对应的位置编码记为对应词序列的位置编码矩阵记为：

步骤3.3、拼接词序列的词向量与位置编码，词W_i的表示更新为：

获取词序列的位置信息，并计算词序列的位置编码。

步骤3.4，使用自注意力模型计算词级别的表示结果，计算公式如下：

其中，W^Q、W^K、W^V为参数矩阵，d_k为归一化参数；

步骤3.5、融合词级别表示结果与实体表示结果，获取文本基于知识图谱的增强表示。利用预训练的图谱嵌入模型获取文本实体向量矩阵融合与/>获取增强表示，对于被识别为实体的词，其增强表示计算公式为对于非实体的词，增强表示计算公式如下新闻文本基于知识图谱的词级别的增强表示记为

步骤3.6、使用双向长短期记忆模型(BiLSTM)，对新闻文本的词级别表示结果进行编码。长短期记忆模型(LSTM)模型可以更好的捕捉到较长距离的依赖关系。LSTM在每个时刻拥有一个隐藏状态作为输出，输入为上一时刻的隐藏状态以及当前时刻的词。向前LSTM公式表示为：

BiLSTM由向前LSTM与向后LSTM组成，输出的隐藏状态分别表示为拼接两个输出作为BiLSTM的输出/>

步骤3.7、计算每个词的注意力权重；文本中每个词对于假新闻判别任务的重要程度并不相同，注意力权重越大，表明其越重要；首先使用一个线性变化：在线性变化的基础上，每个单词的注意力权重计算如下：

步骤3.8、对编码结果进行注意力加权求和，计算新闻文本的词级别特征：

进一步地，本发明的步骤4的具体方法为：

步骤4.1、获取新闻文本字级别的表示；新闻文本的字序列记为C＝{c₁，c₂，...，c_l}，利用预训练的字嵌入模型，获取新闻文本的字向量矩阵：

步骤4.2、与计算新闻文本的词级别特征相同，利用BiLSTM与注意力机制计算新闻文本的字级别特征；字级别的BiLSTM编码结果表示为注意力权重表示为/>新闻文本字级别的特征表示为/>

进一步地，本发明的步骤5的具体方法为：

步骤5.1、计算新闻文本实体注意力权重，对于新闻文本的实体表示矩阵首先计算两两实体之间的注意力影响值/>a_ij表示实体j对实体i的注意力影响值，W_a和b_a是模型的参数，σ是一个sigmoid激活函数；

步骤5.2、计算每个实体的注意力权重，实体i的注意力权重利用实体注意力权重加权实体向量矩阵，新的实体向量矩阵表示为：/>

步骤5.3、使用文本卷积神经网络提取新闻文本的实体特征，

进一步地，本发明的步骤5中卷积神经网络的具体方法为：

步骤5.3、使用不同大小的卷积核对实体向量矩阵进行卷积，卷积操作的定义如下：

其中，是一个卷积操作的结果，W_c是卷积核参数矩阵，b_c卷积偏差值，h是卷积核的窗口大小，tanh是激活函数；对于每一个卷积核，实体向量矩阵的卷积结果表示为：

步骤5.4、对于卷积结果使用最大池化提取特征图，最大池化操作如下：

步骤5.5、使用三个卷积核，窗口h大小分别设置为2、3、4，提取出三个卷积核对应的特征向量，拼接特征向量作为新闻文本的实体向量

进一步地，本发明的步骤6的具体方法为：

步骤6.1、融合新闻文本的词级别特征f_w、字级别特征f_c、实体特征f_e，待检测新闻文本的特征表示为

步骤6.2、对于问文本特征f，利用全链接层与softmax判别新闻文本真实性。

进一步地，本发明的步骤6.2中判别新闻文本真实性的具体方法为：

步骤6.2.1、对于文本特征f，使用全链接层计算新闻文本的分类概率，全链接层表示为：

P＝[p_f，p_t]＝σ(fW_f+b)

其中，W_f、b为参数矩阵与偏置变量，σ为激活函数；P是一个二维向量，p_f，p_t分别表示新闻文本为假的概率与为真的概率；

步骤6.2.2、对于新闻文本的分类概率P＝[p_f，p_t]，使用softmax进行归一化；其公式为：

P′＝[p′_f，p′_t]

步骤6.2.3、根据归一化的分类概率P′＝[p′_f，p′_t]，输出新闻文本的分类结果。

本发明产生的有益效果是：本发明的知识图谱引导的假新闻检测方法，该方法通过引入知识图谱作为先验知识，并结合深度学习模型来引导模型进行假新闻的检测。模型通过对文本进行命名体识别来引入知识图谱三元组作为先验的额外知识，在一般的文本表示上结合实体表示进行文本增强表示，并基于注意力机制与序列模型提取文本词级别增强表示的特征，同时设计实体注意力模型结合文本卷积模型提取实体级别特征，使用两种特征结合字级别的特征，融合三种特征来判断新闻的真实性

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明中实施流程图。

图2是本发明中知识图谱构建流程图

图3是本发明中文本词级别特征抽取流程图。

图4是本发明中文本字级别特征抽取流程图。

图5是本发明中文本实体特征抽取流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明针对现有假新闻检测方法不能引入额外先验知识的缺点，通过引入知识图谱作为先验知识，结合深度学习模型，使用知识图谱引导深度学习模型检测假新闻。

如图1所示，本发明实施例的知识图谱引导的假新闻检测方法，包括如下步骤：

首先，获取假新闻检测任务的数据集，利用命名体识别模型与实体链接模型抽取数据集中的实体，并将实体链接到开源知识图谱中，将抽取出的实体作为种子节点，利用广度优先遍历算法在开源知识谱图中获取一个子图谱作为假新闻检测模型的先验知识，并利用知识图谱预训练一个知识图谱嵌入模型。其流程图如图2所示。

抽取待检测文本中的实体，利用预训练的预训练的命名体识别模型与实体链接模型，抽取出待检测新闻文本中的实体，实体集合记为E。

对新闻文本进行词嵌入与实体嵌入，并融合两种嵌入作为新闻文本增强表示，然后利用注意力机制与双向长短期记忆模型，提取新闻文本词级别特征，其流程如图3所示。利用预训练的嵌入模型，获取新闻文本的词嵌入结果与实体嵌入结果/>使用字注意力模型获取词表示特征图融合/>与/>获获得文本基于知识图谱的增强表示

利用双向长短期记忆模型对增强表示结果进行编码，获得每个词对应编码结果使用注意力机制计算每个词的注意力权重/>对编码结果进行加权求和，获得文本增强表示的词级别的特征/>

对新闻文本进行字嵌入，然后利用注意力机制与双向长短期记忆模型，提取新闻文本字级别特征。其流程如图4所示，利用预训练的字嵌入模型，获取文本的字向量矩阵使用双向长短期记忆模型对字向量矩阵编码，表示为/>使用注意力模型计算注意力权重，表示为/>加权求和获得文本字级别特征/>

利用预训练知识图谱嵌入模型，对待检测文本中提取的实体进行向量表示，使用实体注意力模型与文本卷积神经网络提取文本实体特征，其流程如图5所示。首先抽取文本中的实体，并利用预训练的知识图谱嵌入模型获取文本实体向量矩阵

设计实体注意力模型计算实体的注意力权重

更新每个实体的表示向量最后利用文本卷积神经网络提取文本实体特征/>

融合新闻文本的词级别特征f_w、字级别特征f_c、实体特征f_e，获取知识图谱引导的新闻文本特征利用全链接层与softmax判别新闻文本真实性。

判别新闻文本真实性的具体方法为：

对于文本特征f，使用全链接层计算新闻文本的分类概率，全链接层表示为：

P＝[p_f，p_t]＝σ(fW_f+b)

对于新闻文本的分类概率P＝[p_f，p_t]，使用softmax进行归一化；其公式为：

P′＝[p′_f，p′_t]

根据归一化的分类概率P′＝[p′_f，p′_t]，输出新闻文本的分类结果。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种知识图谱引导的假新闻检测方法，其特征在于，该方法包括以下步骤：

步骤2、抽取待检测新闻文本中的实体，并连接到知识图谱；

步骤5、基于实体注意力模型，抽取新闻文本中的实体特征；

步骤6、融合待检测新闻文本的词级别特征、字级别特征、实体特征，对待检测新闻文本进行真实性检测；

步骤3的具体方法为：

步骤3.1、对新闻文本进行分词，新闻文本词序列表示为：

W＝{w₁，w₂，...，w_n}

并利用词嵌入模型获取文本词向量矩阵：

其中，表示第i个词的词向量，/>是向量拼接操作；

步骤3.2、获取词序列的位置信息，并计算词序列的位置编码；对应词序列的位置编码矩阵记为：表示第i个词的位置向量；

其中，W^Q、W^K、W^V为参数矩阵，d_k为归一化参数；

步骤3.5、融合词级别表示结果与实体表示结果，获取文本基于知识图谱的增强表示；利用预训练的图谱嵌入模型获取文本实体向量矩阵融合/>与获取增强表示，对于被识别为实体的词，其增强表示计算公式为对于非实体的词，增强表示计算公式如下新闻文本基于知识图谱的词级别的增强表示记为

步骤3.6、使用双向长短期记忆模型BiLSTM，对新闻文本的词级别表示结果进行编码；长短期记忆模型LSTM能捕捉长距离的依赖关系；LSTM在每个时刻拥有一个隐藏状态作为输出，输入为上一时刻的隐藏状态以及当前时刻的词；向前LSTM每一个状态的输出表示为BiLSTM由向前LSTM与向后LSTM组成，输出的隐藏状态分别表示为/>拼接两个输出作为BiLSTM的输出/>

2.根据权利要求1所述的知识图谱引导的假新闻检测方法，其特征在于，步骤1的具体方法为：

3.根据权利要求2所述的知识图谱引导的假新闻检测方法，其特征在于，步骤1.2中预训练知识图谱嵌入模型的具体方法为：

对于每一个三元组(s，p，o)，将嵌入结果表示为(h，r,t)，嵌入模型对每一个三元组嵌入结果设计一个得分函数：

模型的损失函数如下：

4.根据权利要求1所述的知识图谱引导的假新闻检测方法，其特征在于，步骤2的具体方法为：

5.根据权利要求1所述的知识图谱引导的假新闻检测方法，其特征在于，步骤4的具体方法为：

步骤4.1、获取新闻文本字级别的表示；新闻文本的字序列记为C＝{c₁，c₂，...c_l}，利用预训练的字嵌入模型，获取新闻文本的字向量矩阵：

6.根据权利要求5所述的知识图谱引导的假新闻检测方法，其特征在于，步骤5的具体方法为：

步骤5.1、计算新闻文本实体注意力权重，对于新闻文本的实体表示矩阵首先计算两两实体之间的注意力影响值/>a_ij表示实体j对实体i的注意力影响值，W_c和b_a是模型的参数，σ是一个sigmoid激活函数；

步骤5.2、计算每个实体的注意力权重，实体i的注意力权重利用实体注意力权重加权实体向量矩阵，新的实体向量矩阵表示为：

步骤5.3、使用文本卷积神经网络提取新闻文本的实体特征，

7.根据权利要求6所述的知识图谱引导的假新闻检测方法，其特征在于，步骤5中卷积神经网络的具体方法为：

8.根据权利要求1所述的知识图谱引导的假新闻检测方法，其特征在于，步骤6的具体方法为：

9.根据权利要求8所述的知识图谱引导的假新闻检测方法，其特征在于，步骤6.2中判别新闻文本真实性的具体方法为：

P＝[p_f,p_t]＝σ(fW_f+b)

P′＝[p′_f,p′_t]