CN117807322B

CN117807322B - 一种基于知识图谱检索的虚假新闻检测方法及系统

Info

Publication number: CN117807322B
Application number: CN202410227224.XA
Authority: CN
Inventors: 马廷淮; 边叶鑫
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-05-14
Anticipated expiration: 2044-02-29
Also published as: CN117807322A

Abstract

本发明公开了一种基于知识图谱检索的虚假新闻检测方法及系统，方法包括：将事实验证数据中的原始声明分为若干子声明，然后将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率；根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，对可信预测答案进行保留；对可信预测答案进行知识增强提取子图，根据子图来训练问题生成模型；通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题；对第二问题进行预测获得第二证据答案；根据可信预测答案和第二证据答案进行虚假新闻检测；可以有效过滤噪声信息，提高了事实验证的准确性。

Description

一种基于知识图谱检索的虚假新闻检测方法及系统

技术领域

本发明属于虚假新闻检测领域，具体涉及基于知识图谱检索的虚假新闻检测方法及系统。

背景技术

自动假新闻检测是人工智能领域的一个重要主题，其中自动化事实验证是当中重要挑战之一。其任务是通过根据从可靠来源检索到的证据检查声明是否在事实上是正确的。通过自动事实验证，能够在一定程度上减轻事实核查人员的负担。现在已经有通过非结构化文本来辅助事实核查工作，基于此能够更好地揭示短语之间的细粒度关系，从而提高事实验证的准确性。

然而，现有工作通常直接将声明或其所有的语义元素视为节点来进行检索增强，此类检索方式缺乏噪声过滤机制。声明中本身所刻意构造的误导信息将会严重危害检索增强的有效性，并且会引入更多的误导信息。现有模型通常依据原始声明直接进行问题生成来预测声明的正确性，但由于存在声明本身过于简短的问题，以及内涵错误信息的原因，往往无法生成一个清晰合理的问题来预测声明的正确性。

发明内容

本发明提供了一种基于知识图谱检索的虚假新闻检测方法及系统，可以有效过滤噪声信息，并通过有针对性的知识检索增强来进行二次问题生成，提高了事实验证的准确性。

为达到上述目的，本发明所采用的技术方案是：

本发明第一方面提供了一种基于知识图谱检索的虚假新闻检测方法，包括：

获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案；

根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题；根据第一问题由证据数据库中检索获得第一证据信息，将第一证据信息作为上下文信息得到第一证据答案；

将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率，将事实验证数据中的原始声明分为若干子声明；根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，对可信预测答案进行保留；

对可信预测答案进行知识增强提取子图，根据子图来训练问题生成模型；通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题；对第二问题进行预测获得第二证据答案；根据可信预测答案和第二证据答案进行虚假新闻检测。

进一步地，对事实验证数据进行语义角色标注获得对应的语义信息的过程包括：

识别事实验证数据中的动词，标记动词与相关单词或短语的关系映射并分配角色获得对应的语义信息。

进一步地，根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题，包括：

将事实验证数据中的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征N；

将中间特征N和带掩码的原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第一问题。

进一步地，将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率，包括：

将相同第一问题对应的第一证据答案与声明答案拼接而成的答案对，然后把答案对转化为答案特征，

将第一证据答案与声明答案输入至Transformer模型的注意力机制获得注意力权重，表达公式为：

；

公式中，表示为注意力权重，/>表示为第一证据答案，/>表示为声明答案；、/>和/>表示为可学习的参数；/>表示为激活函数；

根据注意力权重对答案特征进行加权求和获得预测特征F，表示公式为：

；

公式中，表示为由答案对转化的答案特征；

将预测特征F输入至全连接层获得标签预测概率。

进一步地，根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，包括：

所述标签预测概率分为支持标签概率与否定标签概率；若支持标签概率与否定标签概率差值小于0.005，则将子声明的标签预测标记为不可信预测答案；否则，将子声明的标签预测标记为可信预测答案。

进一步地，对可信预测答案进行知识增强提取子图，包括：

将声明答案到第一证据答案分别作为节点，构建相同问题对应的声明答案到第一证据答案的连接边，对可信预测答案进行知识图谱检索来进行子图提取；

通过注意力机制学习节点v与相邻节点之间的权重/>，表示公式为：

；

基于权重计算获得节点v学习到的内部结构，表达公式为：

；

公式中，、/>、/>和/>表示为学习参数；/>表示为节点/>的节点特征；表示为节点v的节点特征；/>表示为节点v与相邻节点j之间的相关性得分；/>为激活函数；/>表示为节点v学习到的内部结构；/>为节点v的邻居节点个数。

进一步地，通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题，包括：

通过门控过滤模块对声明答案到第一证据答案对应节点上的信息进行筛选获得门控特征，表达公式为:

；

其中，、/>和/>代表可训练参数，/>，/>分别代表来自同一问题的证据答案节点和声明答案节点，/>为所对应的门控过滤向量，/>表示Hadamard积；

将门控特征和所述不可信预测答案所对应的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征/>；

将中间特征和所述不可信预测答案所对应的带掩码原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第二问题。

本发明第二方面提供了一种基于知识图谱检索的虚假新闻检测系统，包括：

获取模块，用于获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案；

筛选模块，获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案；根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题；根据第一问题由证据数据库中检索获得第一证据信息，将第一证据信息作为上下文信息得到第一证据答案；将事实验证数据中的原始声明分为若干子声明，然后将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率；根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，对可信预测答案进行保留；

判定模块，用于对可信预测答案进行知识增强提取子图，根据子图来训练问题生成模型；通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题；对第二问题进行预测获得第二证据答案；根据可信预测答案和第二证据答案进行虚假新闻检测。

本发明第三方面提供了电子设备包括存储介质和处理器；所述存储介质用于存储指令；所述处理器用于根据所述指令进行操作以执行本发明第一方面所述的方法。

与现有技术相比，本发明的有益效果：

本发明将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率，将事实验证数据中的原始声明分为若干子声明；根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，对不可信预测答案进行二次判定，对可信预测答案进行保留；通过对后续生成的答案标签进行筛选的方式，减少了后续检索增强过程中噪声信息的引入，该方法弥补了以往直接将声明或其所有的语义元素视为节点来进行检索增强而引入噪声信息的方法。

本发明对可信预测答案进行知识增强提取子图，根据子图来训练问题生成模型；通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题；对第二问题进行预测获得第二证据答案；根据可信预测答案和第二证据答案进行虚假新闻判断，减少了冗余信息，加强了重要语义信息，提高了生成问题的清晰度。

附图说明

图1是实施例1提供的基于知识图谱检索的虚假新闻检测的流程图；

图2是实施例1提供的第二问题生成模型图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

如图1至图2所示，本实施提供了一种基于知识图谱检索的虚假新闻检测方法，包括：

获取事实验证数据并对事实验证数据进行语义角色标注，过程包括：

识别事实验证数据中的动词，标记动词与相关单词或短语的关系映射并分配角色获得对应的语义信息，将语义信息作为声明答案。

根据语义信息通过以大型双向自回归变压器（Bidirectional and Auto-Regressive Transformers-Large，简称为Bart-Large）为基础的问题生成模型生成第一问题，包括：

将中间特征N和带掩码的原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第一问题；根据第一问题由证据数据库中检索获得第一证据信息，将第一证据信息作为上下文信息得到第一证据答案。

将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率，包括：

将相同第一问题对应的第一证据答案与声明答案拼接而成的答案对，将答案对转化为答案特征；

；

公式中，表示为由答案对转化的答案特征；

将预测特征F输入至全连接层获得标签预测概率。

将事实验证数据中的原始声明分为若干子声明；根据标签预测概率对于第一证据答案进行分类获得可信预测答案和不可信预测答案，包括：

所述标签预测概率分为支持标签概率与否定标签概率；若支持标签概率与否定标签概率差值小于0.005，则将子声明的标签预测标记为不可信预测答案；否则，将子声明的标签预测标记为可信预测答案；对不可信预测答案进行二次判定，对可信预测答案进行保留。

本实施例通过对后续生成的答案标签进行筛选的方式，减少了后续检索增强过程中噪声信息的引入，该方法弥补了以往直接将声明或其所有的语义元素视为节点来进行检索增强而引入噪声信息的方法。

对可信预测答案进行知识增强提取子图，包括：

；

基于权重计算获得节点v学习到的内部结构，表达公式为：

；

根据子图来训练问题生成模型；通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题，包括：

；

对第二问题进行预测获得第二证据答案；根据可信预测答案和第二证据答案进行虚假新闻判断，本实施中减少了冗余信息，加强了重要语义信息，提高了生成问题的清晰度。

实施例2

一种基于知识图谱检索的虚假新闻检测系统，本实施所述的系统可以应用于实施例1所述的方法，所述虚假新闻检测系统包括：

筛选模块，获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案；根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题；根据第一问题由证据数据库中检索获得第一证据信息，将第一证据信息作为上下文信息得到第一证据答案；将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率，将事实验证数据中的原始声明分为若干子声明；根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，对可信预测答案进行保留；

判定模块，用于对可信预测答案进行知识增强提取子图，根据子图来训练问题生成模型；通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题；对第二问题进行预测获得第二证据答案；根据可信预测答案和第二证据答案进行虚假新闻判断。

实施例3

本实施例提供了电子设备包括存储介质和处理器；所述存储介质用于存储指令；所述处理器用于根据所述指令进行操作以执行实施例1所述的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于知识图谱检索的虚假新闻检测方法，其特征在于，包括：

根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题，包括：将事实验证数据中的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征N；将中间特征N和带掩码的原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第一问题；

根据第一问题由证据数据库中检索获得第一证据信息，将第一证据信息作为上下文信息得到第一证据答案；

将事实验证数据中的原始声明分为若干子声明，然后将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率；根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，对可信预测答案进行保留；

对可信预测答案进行知识增强提取子图，包括：

；

基于权重计算获得节点v学习到的内部结构，表达公式为：

；

公式中，、/>、/>和/>表示为学习参数；/>表示为节点/>的节点特征；/>表示为节点v的节点特征；/>表示为节点v与相邻节点j之间的相关性得分；/>为激活函数；表示为节点v学习到的内部结构；/>为节点v的邻居节点个数；

根据子图来训练问题生成模型；通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题；对第二问题进行预测获得第二证据答案；根据可信预测答案和第二证据答案进行虚假新闻检测。

2.根据权利要求1所述的虚假新闻检测方法，其特征在于，对事实验证数据进行语义角色标注获得对应的语义信息的过程包括：

3.根据权利要求1所述的虚假新闻检测方法，其特征在于，将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率，包括：

；

公式中，表示为注意力权重，/>表示为第一证据答案，/>表示为声明答案；/>、和/>表示为可学习的参数；/>表示为激活函数；

；

公式中，表示为由答案对转化的答案特征；

将预测特征F输入至全连接层获得标签预测概率。

4.根据权利要求1所述的虚假新闻检测方法，其特征在于，根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，包括：

5.根据权利要求1所述的虚假新闻检测方法，其特征在于，通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题，包括：

；

6.一种基于知识图谱检索的虚假新闻检测系统，其特征在于，包括：

判定模块，用于对可信预测答案进行知识增强提取子图，根据子图来训练问题生成模型；通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题；对第二问题进行预测获得第二证据答案；根据可信预测答案和第二证据答案进行虚假新闻判断；

所述筛选模块根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题，包括：将事实验证数据中的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征N；将中间特征N和带掩码的原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第一问题；

所述判定模块对可信预测答案进行知识增强提取子图，包括：

；

基于权重计算获得节点v学习到的内部结构，表达公式为：

；

公式中，、/>、/>和/>表示为学习参数；/>表示为节点/>的节点特征；/>表示为节点v的节点特征；/>表示为节点v与相邻节点j之间的相关性得分；/>为激活函数；表示为节点v学习到的内部结构；/>为节点v的邻居节点个数。

7.电子设备包括存储介质和处理器；所述存储介质用于存储指令；其特征在于，所述处理器用于根据所述指令进行操作以执行权利要求1至权利要求5任一项所述的虚假新闻检测方法。