CN117807322B - 一种基于知识图谱检索的虚假新闻检测方法及系统 - Google Patents
一种基于知识图谱检索的虚假新闻检测方法及系统 Download PDFInfo
- Publication number
- CN117807322B CN117807322B CN202410227224.XA CN202410227224A CN117807322B CN 117807322 B CN117807322 B CN 117807322B CN 202410227224 A CN202410227224 A CN 202410227224A CN 117807322 B CN117807322 B CN 117807322B
- Authority
- CN
- China
- Prior art keywords
- answer
- evidence
- question
- prediction
- declaration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000012795 verification Methods 0.000 claims abstract description 40
- 230000007246 mechanism Effects 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱检索的虚假新闻检测方法及系统,方法包括:将事实验证数据中的原始声明分为若干子声明,然后将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率;根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案,对可信预测答案进行保留;对可信预测答案进行知识增强提取子图,根据子图来训练问题生成模型;通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题;对第二问题进行预测获得第二证据答案;根据可信预测答案和第二证据答案进行虚假新闻检测;可以有效过滤噪声信息,提高了事实验证的准确性。
Description
技术领域
本发明属于虚假新闻检测领域,具体涉及基于知识图谱检索的虚假新闻检测方法及系统。
背景技术
自动假新闻检测是人工智能领域的一个重要主题,其中自动化事实验证是当中重要挑战之一。其任务是通过根据从可靠来源检索到的证据检查声明是否在事实上是正确的。通过自动事实验证,能够在一定程度上减轻事实核查人员的负担。现在已经有通过非结构化文本来辅助事实核查工作,基于此能够更好地揭示短语之间的细粒度关系,从而提高事实验证的准确性。
然而,现有工作通常直接将声明或其所有的语义元素视为节点来进行检索增强,此类检索方式缺乏噪声过滤机制。声明中本身所刻意构造的误导信息将会严重危害检索增强的有效性,并且会引入更多的误导信息。现有模型通常依据原始声明直接进行问题生成来预测声明的正确性,但由于存在声明本身过于简短的问题,以及内涵错误信息的原因,往往无法生成一个清晰合理的问题来预测声明的正确性。
发明内容
本发明提供了一种基于知识图谱检索的虚假新闻检测方法及系统,可以有效过滤噪声信息,并通过有针对性的知识检索增强来进行二次问题生成,提高了事实验证的准确性。
为达到上述目的,本发明所采用的技术方案是:
本发明第一方面提供了一种基于知识图谱检索的虚假新闻检测方法,包括:
获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案;
根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题;根据第一问题由证据数据库中检索获得第一证据信息,将第一证据信息作为上下文信息得到第一证据答案;
将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率,将事实验证数据中的原始声明分为若干子声明;根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案,对可信预测答案进行保留;
对可信预测答案进行知识增强提取子图,根据子图来训练问题生成模型;通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题;对第二问题进行预测获得第二证据答案;根据可信预测答案和第二证据答案进行虚假新闻检测。
进一步地,对事实验证数据进行语义角色标注获得对应的语义信息的过程包括:
识别事实验证数据中的动词,标记动词与相关单词或短语的关系映射并分配角色获得对应的语义信息。
进一步地,根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题,包括:
将事实验证数据中的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征N;
将中间特征N和带掩码的原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第一问题。
进一步地,将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率,包括:
将相同第一问题对应的第一证据答案与声明答案拼接而成的答案对,然后把答案对转化为答案特征,
将第一证据答案与声明答案输入至Transformer模型的注意力机制获得注意力权重,表达公式为:
;
;
公式中,表示为注意力权重,/>表示为第一证据答案,/>表示为声明答案;、/>和/>表示为可学习的参数;/>表示为激活函数;
根据注意力权重对答案特征进行加权求和获得预测特征F,表示公式为:
;
公式中,表示为由答案对转化的答案特征;
将预测特征F输入至全连接层获得标签预测概率。
进一步地,根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案,包括:
所述标签预测概率分为支持标签概率与否定标签概率;若支持标签概率与否定标签概率差值小于0.005,则将子声明的标签预测标记为不可信预测答案;否则,将子声明的标签预测标记为可信预测答案。
进一步地,对可信预测答案进行知识增强提取子图,包括:
将声明答案到第一证据答案分别作为节点,构建相同问题对应的声明答案到第一证据答案的连接边,对可信预测答案进行知识图谱检索来进行子图提取;
通过注意力机制学习节点v与相邻节点之间的权重/>,表示公式为:
;
;
基于权重计算获得节点v学习到的内部结构,表达公式为:
;
公式中,、/>、/>和/>表示为学习参数;/>表示为节点/>的节点特征;表示为节点v的节点特征;/>表示为节点v与相邻节点j之间的相关性得分;/>为激活函数;/>表示为节点v学习到的内部结构;/>为节点v的邻居节点个数。
进一步地,通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题,包括:
通过门控过滤模块对声明答案到第一证据答案对应节点上的信息进行筛选获得门控特征,表达公式为:
;
;
其中,、/>和/>代表可训练参数,/>,/>分别代表来自同一问题的证据答案节点和声明答案节点,/>为所对应的门控过滤向量,/>表示Hadamard积;
将门控特征和所述不可信预测答案所对应的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征/>;
将中间特征和所述不可信预测答案所对应的带掩码原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第二问题。
本发明第二方面提供了一种基于知识图谱检索的虚假新闻检测系统,包括:
获取模块,用于获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案;
筛选模块,获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案;根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题;根据第一问题由证据数据库中检索获得第一证据信息,将第一证据信息作为上下文信息得到第一证据答案;将事实验证数据中的原始声明分为若干子声明,然后将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率;根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案,对可信预测答案进行保留;
判定模块,用于对可信预测答案进行知识增强提取子图,根据子图来训练问题生成模型;通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题;对第二问题进行预测获得第二证据答案;根据可信预测答案和第二证据答案进行虚假新闻检测。
本发明第三方面提供了电子设备包括存储介质和处理器;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行本发明第一方面所述的方法。
与现有技术相比,本发明的有益效果:
本发明将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率,将事实验证数据中的原始声明分为若干子声明;根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案,对不可信预测答案进行二次判定,对可信预测答案进行保留;通过对后续生成的答案标签进行筛选的方式,减少了后续检索增强过程中噪声信息的引入,该方法弥补了以往直接将声明或其所有的语义元素视为节点来进行检索增强而引入噪声信息的方法。
本发明对可信预测答案进行知识增强提取子图,根据子图来训练问题生成模型;通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题;对第二问题进行预测获得第二证据答案;根据可信预测答案和第二证据答案进行虚假新闻判断,减少了冗余信息,加强了重要语义信息,提高了生成问题的清晰度。
附图说明
图1是实施例1提供的基于知识图谱检索的虚假新闻检测的流程图;
图2是实施例1提供的第二问题生成模型图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
如图1至图2所示,本实施提供了一种基于知识图谱检索的虚假新闻检测方法,包括:
获取事实验证数据并对事实验证数据进行语义角色标注,过程包括:
识别事实验证数据中的动词,标记动词与相关单词或短语的关系映射并分配角色获得对应的语义信息,将语义信息作为声明答案。
根据语义信息通过以大型双向自回归变压器(Bidirectional and Auto-Regressive Transformers-Large,简称为Bart-Large)为基础的问题生成模型生成第一问题,包括:
将事实验证数据中的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征N;
将中间特征N和带掩码的原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第一问题;根据第一问题由证据数据库中检索获得第一证据信息,将第一证据信息作为上下文信息得到第一证据答案。
将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率,包括:
将相同第一问题对应的第一证据答案与声明答案拼接而成的答案对,将答案对转化为答案特征;
将第一证据答案与声明答案输入至Transformer模型的注意力机制获得注意力权重,表达公式为:
;
;
公式中,表示为注意力权重,/>表示为第一证据答案,/>表示为声明答案;、/>和/>表示为可学习的参数;/>表示为激活函数;
根据注意力权重对答案特征进行加权求和获得预测特征F,表示公式为:
;
公式中,表示为由答案对转化的答案特征;
将预测特征F输入至全连接层获得标签预测概率。
将事实验证数据中的原始声明分为若干子声明;根据标签预测概率对于第一证据答案进行分类获得可信预测答案和不可信预测答案,包括:
所述标签预测概率分为支持标签概率与否定标签概率;若支持标签概率与否定标签概率差值小于0.005,则将子声明的标签预测标记为不可信预测答案;否则,将子声明的标签预测标记为可信预测答案;对不可信预测答案进行二次判定,对可信预测答案进行保留。
本实施例通过对后续生成的答案标签进行筛选的方式,减少了后续检索增强过程中噪声信息的引入,该方法弥补了以往直接将声明或其所有的语义元素视为节点来进行检索增强而引入噪声信息的方法。
对可信预测答案进行知识增强提取子图,包括:
将声明答案到第一证据答案分别作为节点,构建相同问题对应的声明答案到第一证据答案的连接边,对可信预测答案进行知识图谱检索来进行子图提取;
通过注意力机制学习节点v与相邻节点之间的权重/>,表示公式为:
;
;
基于权重计算获得节点v学习到的内部结构,表达公式为:
;
公式中,、/>、/>和/>表示为学习参数;/>表示为节点/>的节点特征;表示为节点v的节点特征;/>表示为节点v与相邻节点j之间的相关性得分;/>为激活函数;/>表示为节点v学习到的内部结构;/>为节点v的邻居节点个数。
根据子图来训练问题生成模型; 通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题,包括:
通过门控过滤模块对声明答案到第一证据答案对应节点上的信息进行筛选获得门控特征,表达公式为:
;
;
其中,、/>和/>代表可训练参数,/>,/>分别代表来自同一问题的证据答案节点和声明答案节点,/>为所对应的门控过滤向量,/>表示Hadamard积;
将门控特征和所述不可信预测答案所对应的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征/>;
将中间特征和所述不可信预测答案所对应的带掩码原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第二问题。
对第二问题进行预测获得第二证据答案;根据可信预测答案和第二证据答案进行虚假新闻判断,本实施中减少了冗余信息,加强了重要语义信息,提高了生成问题的清晰度。
实施例2
一种基于知识图谱检索的虚假新闻检测系统,本实施所述的系统可以应用于实施例1所述的方法,所述虚假新闻检测系统包括:
获取模块,用于获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案;
筛选模块,获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案;根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题;根据第一问题由证据数据库中检索获得第一证据信息,将第一证据信息作为上下文信息得到第一证据答案;将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率,将事实验证数据中的原始声明分为若干子声明;根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案,对可信预测答案进行保留;
判定模块,用于对可信预测答案进行知识增强提取子图,根据子图来训练问题生成模型;通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题;对第二问题进行预测获得第二证据答案;根据可信预测答案和第二证据答案进行虚假新闻判断。
实施例3
本实施例提供了电子设备包括存储介质和处理器;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行实施例1所述的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (7)
1.一种基于知识图谱检索的虚假新闻检测方法,其特征在于,包括:
获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案;
根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题,包括:将事实验证数据中的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征N;将中间特征N和带掩码的原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第一问题;
根据第一问题由证据数据库中检索获得第一证据信息,将第一证据信息作为上下文信息得到第一证据答案;
将事实验证数据中的原始声明分为若干子声明,然后将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率;根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案,对可信预测答案进行保留;
对可信预测答案进行知识增强提取子图,包括:
将声明答案到第一证据答案分别作为节点,构建相同问题对应的声明答案到第一证据答案的连接边,对可信预测答案进行知识图谱检索来进行子图提取;
通过注意力机制学习节点v与相邻节点之间的权重/>,表示公式为:
;
;
基于权重计算获得节点v学习到的内部结构,表达公式为:
;
公式中,、/>、/>和/>表示为学习参数;/>表示为节点/>的节点特征;/>表示为节点v的节点特征;/>表示为节点v与相邻节点j之间的相关性得分;/>为激活函数;表示为节点v学习到的内部结构;/>为节点v的邻居节点个数;
根据子图来训练问题生成模型;通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题;对第二问题进行预测获得第二证据答案;根据可信预测答案和第二证据答案进行虚假新闻检测。
2.根据权利要求1所述的虚假新闻检测方法,其特征在于,对事实验证数据进行语义角色标注获得对应的语义信息的过程包括:
识别事实验证数据中的动词,标记动词与相关单词或短语的关系映射并分配角色获得对应的语义信息。
3.根据权利要求1所述的虚假新闻检测方法,其特征在于,将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率,包括:
将相同第一问题对应的第一证据答案与声明答案拼接而成的答案对,然后把答案对转化为答案特征,
将第一证据答案与声明答案输入至Transformer模型的注意力机制获得注意力权重,表达公式为:
;
;
公式中,表示为注意力权重,/>表示为第一证据答案,/>表示为声明答案;/>、和/>表示为可学习的参数;/>表示为激活函数;
根据注意力权重对答案特征进行加权求和获得预测特征F,表示公式为:
;
公式中,表示为由答案对转化的答案特征;
将预测特征F输入至全连接层获得标签预测概率。
4.根据权利要求1所述的虚假新闻检测方法,其特征在于,根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案,包括:
所述标签预测概率分为支持标签概率与否定标签概率;若支持标签概率与否定标签概率差值小于0.005,则将子声明的标签预测标记为不可信预测答案;否则,将子声明的标签预测标记为可信预测答案。
5.根据权利要求1所述的虚假新闻检测方法,其特征在于,通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题,包括:
通过门控过滤模块对声明答案到第一证据答案对应节点上的信息进行筛选获得门控特征,表达公式为:
;
;
其中,、/>和/>代表可训练参数,/>,/>分别代表来自同一问题的证据答案节点和声明答案节点,/>为所对应的门控过滤向量,/>表示Hadamard积;
将门控特征和所述不可信预测答案所对应的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征/>;
将中间特征和所述不可信预测答案所对应的带掩码原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第二问题。
6.一种基于知识图谱检索的虚假新闻检测系统,其特征在于,包括:
获取模块,用于获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案;
筛选模块,获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案;根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题;根据第一问题由证据数据库中检索获得第一证据信息,将第一证据信息作为上下文信息得到第一证据答案;将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率,将事实验证数据中的原始声明分为若干子声明;根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案,对可信预测答案进行保留;
判定模块,用于对可信预测答案进行知识增强提取子图,根据子图来训练问题生成模型;通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题;对第二问题进行预测获得第二证据答案;根据可信预测答案和第二证据答案进行虚假新闻判断;
所述筛选模块根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题,包括:将事实验证数据中的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征N;将中间特征N和带掩码的原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第一问题;
所述判定模块对可信预测答案进行知识增强提取子图,包括:
将声明答案到第一证据答案分别作为节点,构建相同问题对应的声明答案到第一证据答案的连接边,对可信预测答案进行知识图谱检索来进行子图提取;
通过注意力机制学习节点v与相邻节点之间的权重/>,表示公式为:
;
;
基于权重计算获得节点v学习到的内部结构,表达公式为:
;
公式中,、/>、/>和/>表示为学习参数;/>表示为节点/>的节点特征;/>表示为节点v的节点特征;/>表示为节点v与相邻节点j之间的相关性得分;/>为激活函数;表示为节点v学习到的内部结构;/>为节点v的邻居节点个数。
7.电子设备包括存储介质和处理器;所述存储介质用于存储指令;其特征在于,所述处理器用于根据所述指令进行操作以执行权利要求1至权利要求5任一项所述的虚假新闻检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410227224.XA CN117807322B (zh) | 2024-02-29 | 2024-02-29 | 一种基于知识图谱检索的虚假新闻检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410227224.XA CN117807322B (zh) | 2024-02-29 | 2024-02-29 | 一种基于知识图谱检索的虚假新闻检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117807322A CN117807322A (zh) | 2024-04-02 |
CN117807322B true CN117807322B (zh) | 2024-05-14 |
Family
ID=90423641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410227224.XA Active CN117807322B (zh) | 2024-02-29 | 2024-02-29 | 一种基于知识图谱检索的虚假新闻检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117807322B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275965A (zh) * | 2019-06-27 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
CN110472045A (zh) * | 2019-07-11 | 2019-11-19 | 中山大学 | 一种基于文档嵌入的短文本虚假问题分类预测方法及装置 |
CN110737763A (zh) * | 2019-10-18 | 2020-01-31 | 成都华律网络服务有限公司 | 一种融合知识图谱和深度学习的中文智能问答系统及方法 |
US10803387B1 (en) * | 2019-09-27 | 2020-10-13 | The University Of Stavanger | Deep neural architectures for detecting false claims |
CN112328859A (zh) * | 2020-11-05 | 2021-02-05 | 南开大学 | 一种基于知识感知注意力网络的虚假新闻检测方法 |
CN113961692A (zh) * | 2021-11-26 | 2022-01-21 | 思必驰科技股份有限公司 | 机器阅读理解方法及系统 |
CN114048286A (zh) * | 2021-10-29 | 2022-02-15 | 南开大学 | 一种融合图转换器和共同注意力网络的自动事实验证方法 |
WO2022036616A1 (zh) * | 2020-08-20 | 2022-02-24 | 中山大学 | 一种基于低标注资源生成可推理问题的方法和装置 |
CN116134432A (zh) * | 2020-01-14 | 2023-05-16 | 雷克斯股份有限公司 | 用于提供对查询的答案的系统和方法 |
CN116523031A (zh) * | 2023-07-05 | 2023-08-01 | 深圳须弥云图空间科技有限公司 | 语言生成模型的训练方法、语言生成方法及电子设备 |
CN116662500A (zh) * | 2023-05-12 | 2023-08-29 | 吉林大学 | 一种基于bert模型与外部知识图谱的问答系统构建方法 |
CN117349501A (zh) * | 2023-10-18 | 2024-01-05 | 重庆理工大学 | 基于图神经网络的双过滤证据感知虚假新闻检测方法 |
CN117390299A (zh) * | 2023-09-28 | 2024-01-12 | 中国人民解放军国防科技大学 | 基于图证据的可解释性虚假新闻检测方法 |
-
2024
- 2024-02-29 CN CN202410227224.XA patent/CN117807322B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275965A (zh) * | 2019-06-27 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
CN110472045A (zh) * | 2019-07-11 | 2019-11-19 | 中山大学 | 一种基于文档嵌入的短文本虚假问题分类预测方法及装置 |
US10803387B1 (en) * | 2019-09-27 | 2020-10-13 | The University Of Stavanger | Deep neural architectures for detecting false claims |
CN110737763A (zh) * | 2019-10-18 | 2020-01-31 | 成都华律网络服务有限公司 | 一种融合知识图谱和深度学习的中文智能问答系统及方法 |
CN116134432A (zh) * | 2020-01-14 | 2023-05-16 | 雷克斯股份有限公司 | 用于提供对查询的答案的系统和方法 |
WO2022036616A1 (zh) * | 2020-08-20 | 2022-02-24 | 中山大学 | 一种基于低标注资源生成可推理问题的方法和装置 |
CN112328859A (zh) * | 2020-11-05 | 2021-02-05 | 南开大学 | 一种基于知识感知注意力网络的虚假新闻检测方法 |
CN114048286A (zh) * | 2021-10-29 | 2022-02-15 | 南开大学 | 一种融合图转换器和共同注意力网络的自动事实验证方法 |
CN113961692A (zh) * | 2021-11-26 | 2022-01-21 | 思必驰科技股份有限公司 | 机器阅读理解方法及系统 |
CN116662500A (zh) * | 2023-05-12 | 2023-08-29 | 吉林大学 | 一种基于bert模型与外部知识图谱的问答系统构建方法 |
CN116523031A (zh) * | 2023-07-05 | 2023-08-01 | 深圳须弥云图空间科技有限公司 | 语言生成模型的训练方法、语言生成方法及电子设备 |
CN117390299A (zh) * | 2023-09-28 | 2024-01-12 | 中国人民解放军国防科技大学 | 基于图证据的可解释性虚假新闻检测方法 |
CN117349501A (zh) * | 2023-10-18 | 2024-01-05 | 重庆理工大学 | 基于图神经网络的双过滤证据感知虚假新闻检测方法 |
Non-Patent Citations (3)
Title |
---|
Knowledge graph informed fake news classificaiton via heterogeneous representation ensembles;Boshko koloski 等;《Neurocomputing》;20220728;第496卷;208-226 * |
基于动态记忆和双层重构强化的知识图谱至文本转译模型;马廷淮 等;《计算机科学》;20230315;第50卷(第3期);12-22 * |
基于图卷积网络的虚假新闻检测算法研究;王有泽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220215(第2期);I138-1188 * |
Also Published As
Publication number | Publication date |
---|---|
CN117807322A (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Umer et al. | CNN-based automatic prioritization of bug reports | |
Camburu et al. | e-snli: Natural language inference with natural language explanations | |
Stein et al. | Intrinsic plagiarism analysis | |
CN110705255B (zh) | 检测语句之间的关联关系的方法和装置 | |
US11853706B2 (en) | Generative language model for few-shot aspect-based sentiment analysis | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
US20210142233A1 (en) | Systems and methods for process mining using unsupervised learning | |
CN117349437A (zh) | 基于智能ai的政府信息管理系统及其方法 | |
Bella et al. | ATLaS: A framework for traceability links recovery combining information retrieval and semi-supervised techniques | |
Dave et al. | Management of implicit requirements data in large srs documents: taxonomy and techniques | |
Li et al. | Empirically revisiting and enhancing automatic classification of bug and non-bug issues | |
CN112529743B (zh) | 合同要素抽取方法、装置、电子设备及介质 | |
CN117521063A (zh) | 基于残差神经网络并结合迁移学习的恶意软件检测方法及装置 | |
CN117312562A (zh) | 内容审核模型的训练方法、装置、设备及存储介质 | |
CN117807322B (zh) | 一种基于知识图谱检索的虚假新闻检测方法及系统 | |
Bella et al. | Semi-supervised approach for recovering traceability links in complex systems | |
CN111695117B (zh) | 一种webshell脚本检测方法及装置 | |
CN110728310A (zh) | 一种基于超参数优化的目标检测模型融合方法及融合系统 | |
CN118364190B (zh) | 一种基于深度学习的有害网站识别方法及装置 | |
CN118468200B (zh) | 一种污染源在线监测数据中的造假数据分析方法 | |
Yang et al. | A Software Failure Mode Analysis Method Based on Test Knowledge Graph | |
US20230214598A1 (en) | Semantic Frame Identification Using Capsule Networks | |
CN117574391B (zh) | 一种基于三地址码和神经网络的代码漏洞检测方法和系统 | |
Ackerman et al. | Theory and Practice of Quality Assurance for Machine Learning Systems An Experiment Driven Approach | |
Ackerman et al. | Theory and Practice of Quality Assurance for Machine Learning Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |