CN110837892A - 基于带类型关系路径嵌入的事实溯因推理方法 - Google Patents

基于带类型关系路径嵌入的事实溯因推理方法 Download PDF

Info

Publication number
CN110837892A
CN110837892A CN201911103315.8A CN201911103315A CN110837892A CN 110837892 A CN110837892 A CN 110837892A CN 201911103315 A CN201911103315 A CN 201911103315A CN 110837892 A CN110837892 A CN 110837892A
Authority
CN
China
Prior art keywords
path
fact
relation
individual
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911103315.8A
Other languages
English (en)
Inventor
杜剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN201911103315.8A priority Critical patent/CN110837892A/zh
Publication of CN110837892A publication Critical patent/CN110837892A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于带类型关系路径嵌入模型的对附带OWL 2 DL本体的知识图谱进行事实溯因推理的方法,属于人工智能领域。本发明的主要特征在于先根据知识图谱中的事实和附带的OWL 2 DL本体计算知识图谱中所有长度不超过人工设定的邻域阈值ρ的频繁关系路径,再根据知识图谱蕴含的事实和负采样的虚假事实学习预测知识图谱事实的带类型关系路径的嵌入模型,最后根据给定的观察事实,计算最大可能推导观察事实的带类型关系路径,并将该带类型关系路径转换成带变量的三元组集合计算给定事实的溯因解释。发明内容主要包括频繁关系路径集的计算、虚假事实的负采样、带类型关系路径的嵌入模型学习,以及最大可能推导给定事实的带类型关系路径的计算。本发明为附带复杂而不完备本体的知识图谱提供一种实用的事实溯因推理方式,适用于知识图谱的事实验证,保证知识图谱的构建质量。

Description

基于带类型关系路径嵌入的事实溯因推理方法
技术领域
本发明涉及一种基于带类型关系路径嵌入模型的对附带OWL 2 DL本体的知识图谱进行事实溯因推理的方法,属于人工智能领域。该方法适用于知识图谱的事实验证,保证知识图谱的构建质量。
背景技术
知识图谱(Knowledge Graph)旨在描述客观世界的概念、实体、事件及其之间的关系,可以简单地表示为(实体,关系,实体)三元组的集合。2012年5月,谷歌公司发布谷歌知识图谱(Google Knowledge Graph),并以此为基础构建下一代的语义搜索引擎。这是“知识图谱”名称的由来,也标志着大规模知识图谱将在语义搜索中得到广泛的应用。谷歌知识图谱的发布一石激起千层浪,微软必应、搜狗、百度等搜索引擎公司在短短一年内也纷纷发布了各自的知识图谱产品,如百度“知心”、搜狗“知立方”(现改名为“立知”)等等。随后,以社交为主战场的腾讯开始构建自己的社交知识图谱,以电商为主战场的阿里巴巴也利用自身的商业数据优势构建自己的商品知识图谱。据报道,目前国内除了BAT三大巨头外,不少知识图谱创业公司也逐步发展起来,并在智能客服、金融、法律、公安、航空和医疗等知识密集型领域开展知识图谱的应用。
为了实现知识图谱的最大价值,知识图谱应能随着大数据的演化而演化,不断消化吸收新数据,完善知识体系。为了持续保证知识图谱的质量,我们需要人工判定新增三元组的真实性。由于在不少领域,每天都会出现大量的新事实,可以往知识图谱中添加的三元组是很多的,因此降低人工判定三元组真实性的成本是保证知识图谱质量的关键。辅助人工判定三元组真实性是离不开逻辑信息的。基于逻辑的溯因推理(logic-based abductivereasoning),简称溯因推理,可以实现三元组真实性验证的推理过程。溯因推理根据给定三元组(称作观察事实)和逻辑背景,计算能在逻辑背景中添加的最小三元组集合以推断出观察事实并且维持与逻辑背景的一致性。我们将这种满足最小性和一致性的三元组集合称作观察事实的溯因解释。利用溯因解释,我们就可以从固定的数据源或者万维网中检索相关证据资料来支持溯因解释中的三元组,以此作为给定三元组真实性的判定依据。
在溯因推理机制中,我们普遍利用当前知识图谱中存储的事实三元组和附带的用于术语知识定义的本体来充当逻辑背景。OWL(Web Ontology Language)是万维网联盟(W3C)推荐的本体表达标准语言,在学术界和业界都被广泛地采用。OWL的逻辑基础是描述逻辑,是一阶谓词逻辑的子类,具有容易阅读理解的语法结构和形式化的语义,能进行严谨的自动推理。OWL的最新版本是2009年发布的第二版本,其中与描述逻辑对应的最大集是OWL 2 DL,表达能力很强,但仍然能维持自动推理的可判定性,即保证推理过程在有限的时间内终止。基于OWL 2 DL强表达、可判定并被学术界和业界广泛接纳的优点,本发明假设知识图谱的附带本体是用OWL 2 DL表达的。
OWL 2 DL将客观世界中出现的概念、实体、事件及其之间的关系采用类(class)、属性(property)、个体(individual)和数值(value)等四种要素来定义,可以表达事实三元组和等价于一阶谓词逻辑规则的OWL 2 DL公理。由这些要素表达的事实三元组包括三种形式:一是个体类型三元组(个体,rdf:type,类),二是个体关系三元组(个体,属性,个体),三是个体属性值三元组(个体,属性,数值)。为了简化说明,本发明将数值看成一种特殊的个体,这样可以将个体属性值三元组看成个体关系三元组来处理。于是,本发明假设知识图谱是由个体类型三元组和个体关系三元组构成的,附带的本体是由OWL 2 DL公理构成的,而溯因推理中输入的观察事实是个体类型三元组或者个体关系三元组。
溯因推理在实际应用中存在两大问题。首先,溯因推理的逻辑背景是不完备的。逻辑背景中的本体很难涵盖所有常识知识,特别是OWL 2 DL本体只能表达确定性知识,而不能表达不确定性知识。这意味着溯因推理在实际应用中,很可能不能推导出合理的溯因解释。其次,溯因推理的计算代价很高,在封闭个体域上通常比传统的演绎推理高出一个计算复杂度等级,在开放个体域上甚至存在无穷大的溯因解释,导致推理过程不能在有限时间内终止。
发明内容
在国家自然科学基金项目(编号61876204)和广州市科技计划项目(编号201804010496)的联合资助下,本发明提出一种基于带类型关系路径嵌入的近似溯因推理方法,解决溯因推理在实际应用中存在的逻辑背景不完备和计算代价高两大问题。
本发明假设不确定性知识能用于溯因推理过程,具体的表现为个体类型三元组(个体a,rdf:type,类C)对应一阶谓词逻辑中的原子C(a),能被如下形式的一阶谓词逻辑规则推导:
C(a)←r1(a,x1),C1(x1),r2(x1,x2),C2(x2),…,rn(xn-1,xn),Cn(xn);
而个体关系三元组(个体a,属性r,个体b)对应一阶谓词逻辑中的原子r(a,b),能被如下形式的一阶谓词逻辑规则推导:
r(a,b)←r1(a,x1),C1(x1),r2(x1,x2),C2(x2),…,rn(xn-1,b)。
上述规则中x1,…,xn-1,xn都是受存在量词约束的变量,两类规则的规则体可以分别看成是带类型的关系路径(r1,C1,r2,C2,…,rn,Cn)和(r1,C1,r2,C2,…,rn)。两类规则表达的是不确定知识,不需要被附带本体蕴含,只需要能够从知识图谱中不完全归纳得到即可。
基于上述假设,本发明提出一种三阶段的近似溯因推理方法,针对附带OWL 2 DL本体的知识图谱和给定的观察事实,计算最大可能推导观察事实的带类型关系路径,并根据该关系路径计算溯因解释。
阶段1确定能推导观察事实的带类型关系路径的范围。这种带类型关系路径需要有一定的统计显著性,因此阶段1计算知识图谱中所有长度不超过人工设定的邻域阈值ρ的频繁关系路径,其中关系路径的长度是指该路径上属性的个数,我们称属性序列(属性1,属性2,…,属性n)为知识图谱中连接个体a和个体b的关系路径,当且仅当存在个体序列(a,a1,…,an-1,b)使如下n个个体关系三元组(a,属性1,a1)、(a1,属性2,a2)、…、(an-1,属性n,b)能被知识图谱所蕴含;此外,我们称知识图谱中某个关系路径是频繁的,当且仅当知识图谱中该关系路径连接的个体对(a,b)的数量不小于人工设定的支持数阈值θ。
阶段2构建用于预测三元组事实成立概率的嵌入模型。具体地说,阶段2通过知识图谱蕴含的事实和负采样得到的虚假事实来学习预测知识图谱事实的带类型关系路径的嵌入,其中带类型关系路径的嵌入是指该路径的实值向量表示,而带类型关系路径的关系路径部分限定为阶段1计算得到的频繁关系路径。嵌入模型的训练目标是尽量保证知识图谱蕴含的每个事实的成立概率与任意一个负采样得到的对应虚假事实的成立概率之差不小于人工设定的边缘阈值γ。
对于溯因推理的整个过程而言,阶段1和阶段2都属于准备阶段,可以离线完成,而阶段3则是在线进行的阶段。给定一个观察事实,阶段3利用阶段2学习得到的嵌入模型计算最大可能推导该事实的带类型关系路径,并将该带类型关系路径转换成带变量的三元组集合,集合的任意真子集进行常量替换变成能被知识图谱所蕴含的事实集合,真子集的补集进行相同的常量替换后充当给定事实的候选溯因解释;若候选溯因解释满足最小性和一致性,则它就是一个所求的溯因解释。
上述方法中,准备阶段是离线进行的,一旦完成即可用于任意观察事实的溯因解释求解。另一方面,针对一个给定的观察事实,阶段3的计算时间是嵌入模型应用时间和带类型关系路径二分匹配时间的总和。因此,本发明提出的方法计算复杂度不高,在线阶段仅仅是邻域阈值ρ的指数级别,能够解决溯因推理过程中逻辑背景不完备和计算代价高两大实际问题。
附图说明
附图1是本发明提出的近似溯因推理方法的整体流程图,包括数据流和控制流的运作过程,其中左三角部分概述了阶段1的过程,右三角部分概述了阶段2的过程,下三角部分概述了阶段3的过程。附图2描述了带类型关系路径的嵌入模型的结构,该模型用于预测给定事实的成立概率。
具体实施方式
本发明包括三个阶段。阶段1计算知识图谱中所有长度不超过邻域阈值ρ的频繁关系路径。阶段2构建用于预测三元组事实成立概率的嵌入模型。阶段3针对给定的观察事实,利用阶段2学习得到的嵌入模型计算最大可能推导该事实的带类型关系路径,然后基于该路径计算给定事实的溯因解释。
阶段1的具体流程如附图1的左三角部分所示。首先,我们利用开源的OWL 2 DL推理机HermiT计算在附带的OWL 2 DL本体下知识图谱能蕴含的所有事实,即所有的个体关系三元组和个体类型三元组,得到蕴含的事实集。根据OWL 2 DL的逻辑单调性,该蕴含事实集包含知识图谱原有的所有事实。然后,针对每个个体,我们采用广度优先搜索在蕴含事实集对应的有向图中计算从该个体出发的长度不大于邻域阈值ρ的关系路径(属性1,属性2,…,属性n),其中n≤ρ且路径中每个属性是属性名或者逆属性。对于每一条关系路径L,我们将其端点处的个体对(a,b)添加到L对应的个体对集合中。处理完所有个体后,针对每条访问过的关系路径L,我们将L对应的个体对集合的大小s与支持数阈值θ作比较,并将满足s≥θ的关系路径添加到频繁关系路径集合中。
阶段2的具体流程如附图1的右三角部分所示。
首先,针对每个个体a,我们采用广度优先搜索在阶段1得到的蕴含事实集对应的有向图中计算从个体a出发的长度不大于邻域阈值ρ的个体关系交互路径(a,属性1,a1,属性2,a2,…,属性n,an),其中n≤ρ且路径中每个属性是属性名或者逆属性,并将个体关系交互路径中的个体替换为个体所属的最大类集,得到形式为(类集0,属性1,类集1,属性2,类集2,…,属性n,类集n)的邻域路径。我们将个体a的邻域路径集记作NP(a),并定义个体a和个体b之间的相似度为:
sim(a,b)=|NP(a)∩NP(b)|/|NP(a)∪NP(b)|
然后,我们构建如附图2所示的嵌入模型来预测给定事实的成立概率。若给定事实为个体关系三元组(a,属性,b),我们考虑所有形式为(a,属性1,类1,属性2,类2,…,属性n-1,类n-1,属性n,b)的带类型关系路径来预测给定事实的成立概率,其中(属性1,属性2,…,属性n)必须是个体a某条邻域路径的关系路径部分,类i(i=1,…,n-1)必须是属性i值域和属性i+1定义域的交集的子类。若给定事实为个体类型三元组(a,rdf:type,类),我们考虑所有形式为(a,属性1,类1,属性2,类2,…,属性n-1,类n-1,属性n,类n)的带类型关系路径来预测给定事实的成立概率,其中(属性1,属性2,…,属性n)必须是个体a某条邻域路径的关系路径部分,类i(i=1,…,n-1)必须是属性i值域和属性i+1定义域的交集的子类,而类n必须是属性n值域的子类。
我们先采用长短时记忆(Long-Short Time Memory,LSTM)网络计算关系路径(r1,r2,…,rn)的嵌入,其中ri(i=1,…,n)是属性名或者逆属性。具体定义如下面公式所示,其中LSTMr表示基于关系的LSTM单元函数,v(rt)是属性rt的表示向量,ht是输出单元向量,ct是记忆单元向量,h0和c0都设定为全0向量,hn是关系路径的嵌入向量:
(ht,ct)=LSTMr(v(rt),ht-1,ct-1)
其中v(rt)是可以学习的参数。
我们再采用LSTM网络计算关系路径(r1,r2,…,rn)中每个节点上可以添加的类的序列及其嵌入。针对给定事实为个体关系三元组的情况,类序列的形式为(C1,C2,…,Cn-1),而针对给定事实为个体类型三元组的情况,类序列的形式为(C1,C2,…,Cn-1,Cn),其中Ci(i=1,…,n-1)是ri值域和ri+1定义域的交集的子类,Cn是rn值域的子类。我们使用软注意力机制产生类序列中每个元素的嵌入向量。具体定义如下面公式所示,其中LSTMC表示基于类的LSTM单元函数,{Ct1,…,CtNt}表示Ct位置上可以出现的类集合,FNinit,c表示用于初始化记忆单元的全连接网络函数,FNinit,h表示用于初始化输出单元的全连接网络函数,FNatt,class表示用于类融合的Bahdanau注意力机制函数,v(Cti)是类Cti的表示向量,
Figure BSA0000194617410000041
是输出单元向量,
Figure BSA0000194617410000042
是记忆单元向量。对于给定事实为个体关系三元组的情况,
Figure BSA0000194617410000043
是类序列的嵌入向量,而对于给定事实为个体类型三元组的情况,
Figure BSA0000194617410000044
是类序列的嵌入向量:
Figure BSA0000194617410000046
Figure BSA0000194617410000047
at=∑i=1,…,Ntαtiv(Cti)
αti=exp(eti)/∑k=1,…,Ntexp(etk)
其中W1,b1,W2,b2,Wc,bc,vc和v(Cti)都是可以学习的参数。
然后,我们拼接关系路径的嵌入向量和类序列的嵌入向量,得到当前带类型关系路径的嵌入向量。假设p1,…,pm为给定事实可以考虑的不同带类型关系路径,我们使用v(pi)表示当前带类型关系路径pi的嵌入向量,则当给定事实为个体关系三元组时
Figure BSA0000194617410000049
当给定事实为个体类型三元组时我们再采用软注意力机制产生所有带类型关系路径的融合向量
Figure BSA00001946174100000411
该融合向量的具体定义如下面公式所示,其中FNatt,path表示用于路径融合的Bahdanau注意力机制函数,va(r)表示r对应的注意力向量,va(C)表示C对应的注意力向量:
αi=exp(ei)/∑k=1,…,mexp(ek)
ei=FNatt,path(v(pi),va(r))当给定事实为个体关系三元组(a,r,b)时
ei=FNatt,path(v(pi),va(C))当给定事实为个体类型三元组(a,rdf:type,C)时
FNatt,path(v1,v2)=vp Ttanh(Wp[v1;v2]+bp)
其中va(r),va(C),Wp,bp和vp都是可以学习的参数。
最后,我们采用带sigmoid激活函数的全连接网络函数FNpred来预测给定事实f的成立概率,即
Figure BSA00001946174100000413
其中W3和b3都是可以学习的参数。
我们假设在附带的OWL 2 DL本体下不能被知识图谱所蕴含的事实都是虚假事实,并要求上述用于预测事实成立概率的嵌入模型能保证蕴含事实的成立概率大于虚假事实的成立概率。由于虚假事实的数量太多,我们不能考虑所有的蕴含事实-虚假事实对,因此我们在每次迭代更新嵌入模型的参数时采用负采样的方法来产生蕴含事实-虚假事实对。具体的方法是逐个处理阶段1得到的蕴含事实集的元素,负采样一个或两个虚假事实,组合成蕴含事实-虚假事实对。针对当前蕴含事实的负采样过程如下:
若当前蕴含事实是个体关系三元组(a,r,b),则我们分别修改头尾个体,构造两个虚假事实。对于所有满足(ā,r,b)不在蕴含事实集中的个体ā,我们根据ā和a之间相似度sim(ā,a)分布一致的概率分布从中抽取一个个体ā,并将(ā,r,b)作为首个构造的虚假事实。对于所有满足不在蕴含事实集中的个体
Figure BSA0000194617410000052
我们根据
Figure BSA0000194617410000053
和b之间相似度
Figure BSA0000194617410000054
分布一致的概率分布从中抽取一个个体
Figure BSA0000194617410000055
并将
Figure BSA0000194617410000056
作为第二个构造的虚假事实。
若当前蕴含事实是个体类型三元组(a,rdf:type,C),则我们只修改头个体,构造一个虚假事实。对于所有满足(ā,r,b)不在蕴含事实集中的个体ā,我们根据ā和a之间相似度sim(ā,a)分布一致的概率分布从中抽取一个个体ā,并将(ā,r,b)作为构造的虚假事实。
为了能够运用负采样的方式训练上述嵌入模型,我们引入另一个超参数即蕴含事实成立概率与虚假事实成立概率之差的边缘阈值γ。我们将蕴含事实-虚假事实对(fT,fF)的损失函数值定义为max(0,Pr(fF)+γ-Pr(fT)),于是嵌入模型的训练目标就是最小化所有蕴含事实-虚假事实对的损失函数值之和。上述嵌入模型采用梯度随机下降方法来训练,并采用Dropout机制来避免过分拟合,采用RMSProp优化方法来动态调整学习率。
阶段3的具体流程如附图1下三角部分所示。给定一个观察事实,我们利用阶段2训练得到的嵌入模型计算该观察事实的溯因解释。
如果观察事实是个体关系三元组(a,r,b),则我们考虑所有形式为(a,属性1,类1,属性2,类2,…,属性n-1,类n-1,属性n,b)的带类型关系路径,其中(属性1,属性2,…,属性n)必须是个体a某条邻域路径的关系路径部分,类i(i=1,…,n-1)必须是属性i值域和属性i+1定义域的交集的子类。假设p1,…,pm为观察事实可以考虑的不同带类型关系路径,则我们先选择使FNatt,path(v(pi),va(r))取最大值的pk,然后在构成pk的关系路径(r1,r2,…,rn)的中间节点Ct(t=1,…,n-1)处从rt值域和rt+1定义域的交集的子类集{Ct1,Ct2,…,CtNt}中选择使
Figure BSA0000194617410000057
取最大值的Cts,得到最大可能推导观察事实的带类型关系路径(r1,C1,r2,C2,…,Cn-1,rn)。最后,我们将(r1,C1,r2,C2,…,Cn-1,rn)转换成带变量的三元组集合S={(a,r1,x1),(x1,rdf:type,C1),(x1,r2,x2),(x2,rdf:type,C2),…,(xn-1,rdf:type,Cn-1),(xn-1,rn,xn)},其中x1,x2,…,xn-1,xn是变量。
如果观察事实是个体类型三元组(a,rdf:type,C),则我们考虑所有形式为(a,属性1,类1,属性2,类2,…,属性n-1,类n-1,属性n,类n)的带类型关系路径,其中(属性1,属性2,…,属性n)必须是个体a某条邻域路径的关系路径部分,类i(i=1,…,n-1)必须是属性i值域和属性i+1定义域的交集的子类,类n必须是属性n值域的子类。假设p1,…,pm为观察事实可以考虑的不同带类型关系路径,则我们先选择使FNatt,path(v(pi),va(C))取最大值的pk,然后在构成pk的关系路径(r1,r2,…,rn)的中间节点Ct(t=1,…,n-1)处从rt值域和rt+1定义域的交集的子类集{Ct1,Ct2,…,CtNt}中选择使
Figure BSA0000194617410000058
取最大值的Cts,并在末端节点Cn处从rn值域的子类集{Cn1,Cn2,…,CnNn}中选择使取最大值的Cns,得到最大可能推导观察事实的带类型关系路径(r1,C1,r2,C2,…,Cn-1,rn,Cn)。最后,我们将(r1,C1,r2,C2,…,Cn-1,rn,Cn)转换成带变量的三元组集合S={(a,r1,x1),(x1,rdf:type,C1),(x1,r2,x2),(x2,rdf:type,C2),…,(xn-1,rdf:type,Cn-1),(xn-1,rn,xn),(xn,rdf:type,Cn)},其中x1,x2,…,xn-1,xn是变量。
接着,我们考虑S的所有二分子集对(S1,S2),满足S1∪S2=S,S1∩S2=Φ且|S2|>0。对于每个使三元组集合S1σ成为知识图谱蕴含事实集子集的常量替换σ,我们检查S2σ是否包含知识图谱蕴含事实集的元素、S2σ添加到知识图谱中是否与附带的OWL 2 DL本体一致,以及S2σ是否有某个直接真子集,将其添加到知识图谱中能够在附带的OWL 2 DL本体下蕴含观察事实,其中S2σ中遗留的不同变量看作知识图谱外的不同新个体。如果S2σ不包含知识图谱蕴含事实集的元素,且S2σ添加到知识图谱中与附带的OWL 2 DL本体一致,且将S2σ的任意直接真子集添加到知识图谱中都不能在附带的OWL 2 DL本体下蕴含观察事实,那么S2σ就是一个我们所求的溯因解释。
以上实施仅为本发明的其中一种实施方式,其描述较为具体详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的情况下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于带类型关系路径嵌入的事实溯因推理方法,在附带OWL 2 DL本体的知识图谱中为给定的观察事实计算溯因解释,其中溯因解释定义为最小的三元组集合,将其添加到知识图谱中能推断出观察事实并维持与附带本体的逻辑一致性;该方法的特征在于包含以下三个阶段:
阶段1根据知识图谱中的事实和附带的OWL 2 DL本体,计算知识图谱中所有长度不超过人工设定的邻域阈值ρ的频繁关系路径,其中事实指的是个体关系三元组(个体,属性,个体)或个体类型三元组(个体,rdf:type,类),关系路径指的是属性序列(属性1,属性2,…,属性n),关系路径的长度是指路径上属性的个数,我们称属性序列(属性1,属性2,…,属性n)为知识图谱中连接个体a和个体b的关系路径,当且仅当存在个体序列(a,a1,…,an-1,b)使如下n个个体关系三元组(a,属性1,a1)、(a1,属性2,a2)、…、(an-1,属性n,b)能在附带的OWL 2DL本体下被知识图谱所蕴含;此外,我们称知识图谱中某个关系路径是频繁的,当且仅当知识图谱中该关系路径连接的个体对(a,b)的数量不小于人工设定的支持数阈值θ;
阶段2根据知识图谱蕴含的事实和负采样的虚假事实来学习用于事实预测的带类型关系路径的嵌入模型,其中任带类型关系路径的嵌入是指该带类型关系路径的实值向量表示,个体关系三元组(a,属性,b)对应的带类型关系路径形式为(a,属性1,类1,属性2,类2,…,属性n-1,类n-1,属性n,b),个体类型三元组(a,rdf:type,类)对应的带类型关系路径形式为(a,属性1,类1,属性2,类2,…,属性n-1,类n-1,属性n,类n),这里涉及的关系路径(属性1,属性2,…,属性n-1,属性n)限定为阶段1计算得到的频繁关系路径;
阶段3对给定的观察事实进行溯因推理,即根据给定的观察事实,计算最大可能推导该事实的带类型关系路径,并将该带类型关系路径转换成带变量的三元组集合,集合的任意真子集进行常量替换变成能被知识图谱所蕴含的事实集合,真子集的补集进行相同的常量替换后充当观察事实的候选溯因解释;若将候选溯因解释添加到知识图谱中能维持与附带本体的逻辑一致性,并且将该候选溯因解释的任意直接真子集添加到知识图谱中都不能在附带本体下蕴含观察事实,则该候选溯因解释是一个所求的溯因解释。
2.根据权利要求1中提出的基于带类型关系路径嵌入的事实溯因推理方法,其特征在于阶段1中采用的计算频繁关系路径的方法是先计算在附带的OWL 2 DL本体下知识图谱能蕴含的所有事实,然后针对每个个体,通过宽度优先搜索在蕴含事实集对应的有向图中计算从该个体出发的长度不大于邻域阈值ρ的关系路径,再统计各条关系路径的端点处的个体对,最后针对各条访问过的关系路径统计端点处出现过的不同个体对数量s,与支持数阈值θ比较,只保留满足s≥θ的关系路径,构成频繁关系路径集合。
3.根据权利要求1中提出的基于带类型关系路径嵌入的事实溯因推理方法,其特征在于阶段2中采用的负采样方法是先基于个体的邻域路径集合计算知识图谱中任意两个个体之间的相似度,其中个体的邻域路径是该个体所属的形式为(类集0,属性1,类集1,属性2,类集2,…,属性n,类集n)的长度n不超过邻域阈值ρ的带类集关系路径,两个个体的相似度定义为它们邻域路径集合的交集元素个数与并集元素个数的比例,然后针对知识图谱所蕴含的每个事实构造其对应的虚假事实:若该事实是个体关系三元组,则按照与个体相似度分布一致的概率分布随机选取头实体的替换实体构造一个虚假事实,再按照与个体相似度分布一致的概率分布随机选取尾实体的替换实体构造另一个虚假事实;若该事实是个体类型三元组,则只按照与个体相似度分布一致的概率分布随机选取头实体的替换实体构造一个虚假事实。
4.根据权利要求1中提出的基于带类型关系路径嵌入的事实溯因推理方法,其特征在于阶段2中采用的带类型关系路径的嵌入模型的学习方法是针对知识图谱蕴含的事实或者负采样得到的事实,抽取该事实三元组头实体的邻域路径的关系路径部分形成头实体所属的关系路径集合P,并对集合P中的每条关系路径,先用长短时记忆网络即LSTM网络计算该关系路径的嵌入,再利用软注意力机制和LSTM网络计算在该关系路径上允许添加的类序列嵌入,并将关系路径嵌入和类序列嵌入拼接起来作为该事实的一个预测向量,最后使用软注意力机制将P中所有关系路径对应的预测向量累加起来经由一个带sigmoid激活函数的全连接网络计算事实成立概率,其中关系路径(属性1,属性2,…,属性n)上允许添加的类序列(类1,类2,…,类n-1)或(类1,类2,…,类n-1,类n)满足类i(i=1,…,n-1)是属性i值域和属性i+1定义域的交集的子类,且类n是属性n值域的子类;上述嵌入模型的训练目标是针对知识图谱蕴含的每个事实fT,最小化Pr(fF)+γ-Pr(fT),其中Pr(f)表示由嵌入模型计算得到的事实f的成立概率,fF是根据fT负采样得到的任意一个虚假事实,γ是人工设定的非负边缘阈值。
5.根据权利要求1中提出的基于带类型关系路径嵌入的事实溯因推理方法,其特征在于阶段3中采用的计算最大可能推导给定事实的带类型关系路径的方法是先抽取给定事实三元组头实体的邻域路径的关系路径部分形成头实体所属的关系路径集合P,再利用阶段2学习得到的嵌入模型计算P中注意力值最大的关系路径,然后计算该关系路径中每个节点上允许添加的注意力值最大的类,并由该关系路径及其所有节点上的类构成最大可能推导给定事实的带类型关系路径。
CN201911103315.8A 2019-11-12 2019-11-12 基于带类型关系路径嵌入的事实溯因推理方法 Pending CN110837892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911103315.8A CN110837892A (zh) 2019-11-12 2019-11-12 基于带类型关系路径嵌入的事实溯因推理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911103315.8A CN110837892A (zh) 2019-11-12 2019-11-12 基于带类型关系路径嵌入的事实溯因推理方法

Publications (1)

Publication Number Publication Date
CN110837892A true CN110837892A (zh) 2020-02-25

Family

ID=69574868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911103315.8A Pending CN110837892A (zh) 2019-11-12 2019-11-12 基于带类型关系路径嵌入的事实溯因推理方法

Country Status (1)

Country Link
CN (1) CN110837892A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949764A (zh) * 2020-08-18 2020-11-17 桂林电子科技大学 一种基于双向注意力机制的知识图谱补全方法
CN112380120A (zh) * 2020-11-13 2021-02-19 华南理工大学 单元测试代码结构自动解析与路径分析方法
CN112396185A (zh) * 2021-01-21 2021-02-23 中国人民解放军国防科技大学 一种事实验证方法、系统、计算机设备和存储介质
CN112632296A (zh) * 2020-12-31 2021-04-09 上海交通大学 基于知识图谱具有可解释性的论文推荐方法及系统、终端
CN113254550A (zh) * 2021-06-29 2021-08-13 浙江大华技术股份有限公司 基于知识图谱的推荐方法、电子设备和计算机存储介质
CN115423106A (zh) * 2022-11-04 2022-12-02 南京信息工程大学 一种基于多模态事件知识图谱的溯因推理方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949764A (zh) * 2020-08-18 2020-11-17 桂林电子科技大学 一种基于双向注意力机制的知识图谱补全方法
CN112380120A (zh) * 2020-11-13 2021-02-19 华南理工大学 单元测试代码结构自动解析与路径分析方法
CN112380120B (zh) * 2020-11-13 2022-06-10 华南理工大学 单元测试代码结构自动解析与路径分析方法
CN112632296A (zh) * 2020-12-31 2021-04-09 上海交通大学 基于知识图谱具有可解释性的论文推荐方法及系统、终端
CN112632296B (zh) * 2020-12-31 2022-09-23 上海交通大学 基于知识图谱具有可解释性的论文推荐方法及系统、终端
CN112396185A (zh) * 2021-01-21 2021-02-23 中国人民解放军国防科技大学 一种事实验证方法、系统、计算机设备和存储介质
CN112396185B (zh) * 2021-01-21 2021-05-11 中国人民解放军国防科技大学 一种事实验证方法、系统、计算机设备和存储介质
US11521041B2 (en) 2021-01-21 2022-12-06 National University Of Defense Technology Fact validation method and system, computer device and storage medium
CN113254550A (zh) * 2021-06-29 2021-08-13 浙江大华技术股份有限公司 基于知识图谱的推荐方法、电子设备和计算机存储介质
CN115423106A (zh) * 2022-11-04 2022-12-02 南京信息工程大学 一种基于多模态事件知识图谱的溯因推理方法

Similar Documents

Publication Publication Date Title
CN110837892A (zh) 基于带类型关系路径嵌入的事实溯因推理方法
Domingos et al. Markov logic: A unifying framework for statistical relational learning
Domingos et al. Markov Logic
Du et al. On attribution of recurrent neural network predictions via additive decomposition
Garg et al. Quantum embedding of knowledge for reasoning
Ma et al. STLnet: Signal temporal logic enforced multivariate recurrent neural networks
Cheng et al. Rlogic: Recursive logical rule learning from knowledge graphs
Napoli et al. An agent-driven semantical identifier using radial basis neural networks and reinforcement learning
Gomes et al. BERT-and TF-IDF-based feature extraction for long-lived bug prediction in FLOSS: A comparative study
Liu et al. Fuzzy clustering with semantic interpretation
Bünz et al. Graph neural networks and boolean satisfiability
Bárcena et al. Fed-XAI: Federated Learning of Explainable Artificial Intelligence Models.
Nie et al. Knowledge reasoning method for military decision support knowledge graph mixing rule and graph neural networks learning together
Song et al. Spammer detection using graph-level classification model of graph neural network
Aljamel et al. Smart information retrieval: Domain knowledge centric optimization approach
Liu et al. Jointly modeling aspect and sentiment with dynamic heterogeneous graph neural networks
Zhu et al. Ontology learning from incomplete semantic web data by belnet
Sen et al. Combining Rules and Embeddings via Neuro-Symbolic AI for Knowledge Base Completion
Sen et al. Logical neural networks for knowledge base completion with embeddings & rules
Monner et al. Recurrent neural collective classification
Lisi et al. Dealing with Incompleteness and Vagueness in Inductive Logic Programming.
Altszyler et al. Zero-shot multi-domain dialog state tracking using descriptive rules
Dhami et al. Non-parametric learning of gaifman models
Athanasopoulos et al. Predicting the evolution of communities with online inductive logic programming
van Bakel et al. Approximate knowledge graph query answering: from ranking to binary classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination