CN114741460A - 基于规则间关联的知识图谱数据扩展方法及系统 - Google Patents

基于规则间关联的知识图谱数据扩展方法及系统 Download PDF

Info

Publication number
CN114741460A
CN114741460A CN202210649331.2A CN202210649331A CN114741460A CN 114741460 A CN114741460 A CN 114741460A CN 202210649331 A CN202210649331 A CN 202210649331A CN 114741460 A CN114741460 A CN 114741460A
Authority
CN
China
Prior art keywords
rule
knowledge graph
logic
graph
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210649331.2A
Other languages
English (en)
Other versions
CN114741460B (zh
Inventor
任昭春
王梓涵
任鹏杰
陈竹敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210649331.2A priority Critical patent/CN114741460B/zh
Publication of CN114741460A publication Critical patent/CN114741460A/zh
Application granted granted Critical
Publication of CN114741460B publication Critical patent/CN114741460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于规则间关联的知识图谱数据扩展方法及系统,其属于知识图谱表示技术领域,所述方案包括:获取待处理的知识图谱,从中抽取逻辑规则,实现规则池的构建;计算每条逻辑规则的置信度,并基于所述置信度计算逻辑规则间关联的置信度;对所述逻辑规则进行实例化,获得候选三元组,基于规则约束的优化方法计算每个候选三元组的软标签;基于所述软标签将获得的候选三元组与原始知识图谱构建为新知识图谱,基于所述新知识图谱,采用基于图神经网络的编码器获得实体表示向量,并基于表示学习的解码器获得所述新知识图谱中的关系向量表示,进行缺失三元组成立可能性预测;迭代执行上述步骤,直至满足收敛条件,获得最终的知识图谱。

Description

基于规则间关联的知识图谱数据扩展方法及系统
技术领域
本发明属于知识图谱表示技术领域,尤其涉及一种基于规则间关联的知识图谱数据扩展方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
传统的知识图谱表示方法主要直推式地预测缺失三元组,要求所有的实体在模型训练阶段出现过。然而,在现实的场景中,知识图谱中的知识范围在不断扩大,原有知识图谱之外的实体(OOKG entities)在不断出现。例如,在著名知识图谱DBpedia中,每天都有200多个新实体出现。如图1所示,展示了原有知识图谱之外的实体出现和相关事实预测的例子,给定观察到的知识图谱,假设“太阳”这个实体是新出现的,并且存在一个辅助三元组连接原有知识图谱中的实体(observed entity)和新出现实体“太阳”,即(太阳,被围绕,行星)。接下来,基于观察到的事实和辅助三元组,目标是表示原有知识图谱之外的实体,并预测这些实体缺失的三元组(例如,(太阳,吸引,质量))。然而,为了表示这些新出现的实体,大多数传统的知识表示框架不可避免地需要重新训练模型,非常耗时。
现有方案虽然聚合了新出现实体周围的邻居信息,来表示新出现实体,但是这些框架面临严重的数据稀疏性问题;为了解决该问题,GEN和HRFN设计了元学习(metalearning)和图神经网络(graph neural network)的结合框架在元训练阶段模拟新实体出现的情况,这些方法利用了新出现实体之间的三元组,然而这些三元组往往缺失或者非常稀疏。VN网络利用逻辑规则和对称路径规则,预测新出现实体的虚拟邻居,从而缓解数据稀疏性问题;但是,发明人发现,上述方法主要建模了新出现实体一到两跳的领居结构信息,或者通过挖掘规则来增强预测效果,而忽略了很多其它的有用特征;同时,现有方法将规则置信分数(rule confidence)设为定值,或者利用启发式的规则挖掘方法,其严重忽略了规则挖掘、规则推理及表示学习三个过程之间的关系。
发明内容
本发明为了解决上述问题,提供了一种基于规则间关联的知识图谱数据扩展方法及系统,所述方案将知识图谱中逻辑规则间的关联关系引入知识图谱中新出现实体相关事实的预测中,提高了预测精确度,同时,通过对规则挖掘、规则推理、和表示学习三个过程之间的交互信息进行建模,有效提高了逻辑规则的挖掘效率和知识表示的质量。
根据本发明实施例的第一个方面,提供了一种基于规则间关联的知识图谱数据扩展方法,包括:
步骤1:获取原始知识图谱,通过对所述知识图谱进行遍历获取逻辑规则,实现规则池的构建;
步骤2:计算每条逻辑规则的置信度分数,并基于所述置信度分数计算逻辑规则间关联的置信度分数;
步骤3:对所述逻辑规则进行实例化,获得候选三元组,基于规则约束的优化方法计算每个候选三元组的软标签;其中,所述规则约束基于逻辑规则的置信度分数以及逻辑规则间关联的置信度分数确定;
步骤4:基于所述软标签将获得的候选三元组与原始知识图谱构建为新知识图谱,基于所述新知识图谱,采用基于图神经网络的编码器获得实体表示向量,并基于表示学习的解码器获得所述新知识图谱中的关系向量表示;基于所述实体表示向量及所述关系向量表示预测新知识图谱中缺失三元组成立可能性;
步骤5:迭代执行所述步骤2至步骤4,直至满足收敛条件,获得最终的知识图谱。
进一步的,所述基于规则约束的优化方法计算每个候选三元组的软标签,具体采用如下目标函数:
Figure 263453DEST_PATH_IMAGE001
其中,C为常数,t vn 为包含虚拟邻居的三元组,st vn )为t vn 的软标签(求解该优化问题得到),It vn )为t vn 的真实值(由
Figure 582439DEST_PATH_IMAGE002
计算得到),
Figure 687798DEST_PATH_IMAGE003
Figure 73518DEST_PATH_IMAGE004
为松弛变量,
Figure 365959DEST_PATH_IMAGE005
为完整逻辑规则的置信度分数,
Figure 488636DEST_PATH_IMAGE006
为逻辑规则间关联的置信度分数,
Figure 448502DEST_PATH_IMAGE007
为逻辑规则,
Figure 241008DEST_PATH_IMAGE008
为实例化后的规则间关联。
进一步的,所述逻辑规则包括规则头和规则体;所述规则头对应于知识图谱中的三元组;所述规则体对应于规则头的头实体到尾实体之间的路径。
进一步的,所述计算每条逻辑规则的置信度分数,基于所述逻辑规则中规则头和规则体所对应路径的相似度进行计算。
进一步的,所述逻辑规则间关联采用如下方式获得:
基于逻辑规则的规则体中是否存在缺失三元组,判断所述逻辑规则为完整逻辑规则或不完整逻辑规则;
实例化所述逻辑规则,基于路径搜索算法获取所述完整逻辑规则与不完整规则之间的关联路径。
进一步的,所述对所述知识图谱进行遍历获取逻辑规则,具体基于路径搜索算法获得。
根据本发明实施例的第二个方面,提供了一种基于规则间关联的知识图谱数据扩展系统,包括:
规则池构建单元,其用于获取原始知识图谱,通过对所述知识图谱进行遍历获取逻辑规则,实现规则池的构建;
置信度计算单元,其用于计算每条逻辑规则的置信度分数,并基于所述置信度分数计算逻辑规则间关联的置信度分数;
规则推理单元,其用于对所述逻辑规则进行实例化,获得候选三元组,基于规则约束的优化方法计算每个候选三元组的软标签;其中,所述规则约束基于逻辑规则的置信度分数以及逻辑规则间关联的置信度分数确定;
表示学习单元,其用于基于所述软标签将获得的候选三元组与原始知识图谱构建为新知识图谱,基于所述新知识图谱,采用基于图神经网络的编码器获得实体表示向量,并基于表示学习的解码器获得所述新知识图谱中的关系向量表示;基于所述实体表示向量及所述关系向量表示预测新知识图谱中缺失三元组成立可能性;
迭代优化单元,其用于迭代执行所述置信度计算单元、规则推理单元及表示学习单元的步骤,直至满足收敛条件,获得最终的知识图谱。
根据本发明实施例的第三方面,提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上所述的一种基于规则间关联的知识图谱数据扩展方法。
根据本发明实施例的第四方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的一种基于规则间关联的知识图谱数据扩展方法。
与现有技术相比,本发明的有益效果是:
(1)本发明所述方案提供了一种基于规则间关联的知识图谱数据扩展方法及系统,所述方案将知识图谱中逻辑规则间的关联关系引入知识图谱中新出现实体相关事实的预测中,提高了预测精确度,同时,通过对规则挖掘、规则推理、和表示学习三个过程之间的交互信息进行建模,有效提高了逻辑规则的挖掘效率和知识表示的质量。
(2)所述方案有效识别了知识图谱中逻辑规则及逻辑规则间关联关系,挖掘出更多与新出现实体有关的结构信息,进一步提高了对新出现实体相关事实的预测精确度。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明背景技术中所述的原有知识图谱之外的实体出现和相关事实预测示意图;
图2为本发明实施例中所述的基于规则间关联的知识图谱数据扩展方法的框架示意图;
图3为本发明实施例中所述的基于规则间关联的知识图谱数据扩展方法流程图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
术语解释:
隐变量(Latent variable):潜变量,或称隐变量,潜在变量,在统计学中的表示不可观测随机变量,与观测变量相对。
规则(Rule): 知识图谱中的一种图特征,表示多个事实之间的推理关系。
规则间关联(Inter-rule correlation):表示规则间之间的关联关系,表示知识图谱规则之间的推理关系,其对应一条路径。
完整逻辑规则:其表示知识图谱多个事实和多个关系的推导关系,形如:
Figure 551904DEST_PATH_IMAGE009
不完整逻辑规则:其与相应完整逻辑规则具有相同的形式,但是规则体中存在三元组缺失。
实施例一:
本实施例的目的是提供一种基于规则间关联的知识图谱数据扩展方法。
如图3所示,一种基于规则间关联的知识图谱数据扩展方法,包括:
步骤1:获取原始知识图谱,通过对所述知识图谱进行遍历获取逻辑规则,实现规则池的构建;
步骤2:计算每条逻辑规则的置信度分数,并基于所述置信度分数计算逻辑规则间关联的置信度分数;
步骤3:对所述逻辑规则进行实例化,获得候选三元组,基于规则约束的优化方法计算每个候选三元组的软标签;其中,所述规则约束基于逻辑规则的置信度分数以及逻辑规则间关联的置信度分数确定;
步骤4:基于所述软标签将获得的候选三元组与原始知识图谱构建为新知识图谱,基于所述新知识图谱,采用基于图神经网络的编码器获得实体表示向量,并基于表示学习的解码器获得所述新知识图谱中的关系向量表示;基于所述实体表示向量及所述关系向量表示预测新知识图谱中缺失三元组成立可能性;
步骤5:迭代执行所述步骤2至步骤4,直至满足收敛条件,获得最终的知识图谱。
其中,所述收敛条件需满足如下训练损失函数:
Figure 212692DEST_PATH_IMAGE010
其中,ℒ为可观察三元组集合,包含训练阶段可观察知识图谱的所有三元组,
Figure 27065DEST_PATH_IMAGE011
则为含有虚拟邻居的三元组集合。
进一步的,所述基于规则约束的优化方法计算每个候选三元组的软标签,具体采用如下目标函数:
Figure 256052DEST_PATH_IMAGE012
其中,C为常数,t vn 为包含虚拟邻居的三元组,st vn )为t vn 的软标签(求解该优化问题得到),It vn )为t vn 的真实值(由
Figure 788664DEST_PATH_IMAGE013
计算得到),
Figure 253144DEST_PATH_IMAGE014
Figure 922023DEST_PATH_IMAGE015
为松弛变量,
Figure 321911DEST_PATH_IMAGE016
为完整逻辑规则的置信度分数,
Figure 341820DEST_PATH_IMAGE017
为逻辑规则间关联的置信度分数,
Figure 344411DEST_PATH_IMAGE018
为逻辑规则,
Figure 133375DEST_PATH_IMAGE019
为实例化后的规则间关联。
进一步的,所述逻辑规则包括规则头和规则体;所述规则头对应于知识图谱中的三元组;所述规则体对应于规则头的头实体到尾实体之间的路径。
进一步的,所述计算每条逻辑规则的置信度分数,基于所述逻辑规则中规则头和规则体所对应路径的相似度进行计算。
进一步的,所述逻辑规则间关联采用如下方式获得:
基于逻辑规则的规则体中是否存在缺失三元组,判断所述逻辑规则为完整逻辑规则或不完整逻辑规则;
实例化所述逻辑规则,基于路径搜索算法获取所述完整逻辑规则与不完整规则之间的关联路径,其中,本实施例中采用深度优先遍历算法。
进一步的,所述对所述知识图谱进行遍历获取逻辑规则,具体基于路径搜索算法获得。
具体的,为了便于理解,以下结合附图对本实施例所述方案进行详细说明:
为了解决现有技术存在的问题,本实施例提供了一种基于规则间关联的知识图谱数据扩展方法,所述方案通过识别知识图谱中规则间的关联关系,设计了一种迭代式框架,来建模规则挖掘、规则推理、和表示学习三个过程之间的交互信息。如图2所示,所述方案主要包括三个阶段:规则挖掘、规则推理和表示学习;基于给定原始知识图谱,首先从知识图谱中挖掘对应逻辑规则,通过路径搜索产生规则池和利用关系表示计算规则置信度。接下来,在规则推理阶段,利用实例化之后的规则预测候选三元组,并构建规则约束的最优化方法计算每个候选三元组的软标签。在此基础上,这些将候选三元组和原来的知识图谱构成新的知识图谱,并输入至基于图神经网络的编码器中。最后,基于表示学习的解码器将关系映射为表示向量,计算缺失三元组的成立可能性分数,预测知识图谱中的缺失三元组。在训练阶段,规则挖掘、规则推理,和表示学习三个步骤不断迭代循环,直至收敛。具体的,如图3所示,所述方法包括如下步骤:
步骤1:在训练之前,本发明利用路径游走算法产生规则池,低质量的规则则被筛选出去;在每个训练轮次;
步骤2:首先利用当前轮次的关系表示,计算每条规则对应的置信分数;
步骤3:在规则推理阶段,本发明设计了基于规则的优化问题,计算了规则推理三元组的真实性分数,得到了推理出的虚拟邻居的软标签;
步骤4:在表示学习阶段,带有虚拟邻居的知识图谱输入到基于图神经网络的编码器和基于表示学习的解码器,对知识图谱中的关系和实体进行编码和表示,预测知识图谱缺失的事实;
步骤5:所述步骤2至步骤4不断迭代直至达到收敛条件。
以下进行详细说明:
(一)规则挖掘
给定能够观察到的知识图谱,规则挖掘阶段首先通过筛选知识图谱中的路径得到逻辑规则(logic rule);接着,基于获得的逻辑规则,本实施例所述方案通过查询知识图谱中不完整逻辑规则和逻辑规则间路径;最后,所述方案基于当前逻辑规则间关系表示,计算逻辑规则的置信度分数。
(1)生成规则池。
具体的:对于逻辑规则来说,知识图谱中任一三元组可以看成候选的逻辑规则头(rule head)。规则体(rule body)则可以看成规则头的头实体到尾实体之间的路径。因此,利用路径搜索算法(本实施例中采用深度优先搜索)可以从给定知识图谱中抽取可能的规则体。其中,规则体长度限定为小于2,具体的可根据实际需求进行设置。
对于逻辑规则间关联,基于逻辑规则,通过两个步骤挖掘规则间的关联关系:
1)发现不完整的逻辑规则。具体的,基于从逻辑规则,寻找所有规则体存在一个缺失三元组的不完整逻辑规则;
2)寻找候选逻辑规则间路径。具体的,首先实例化抽取的完整和不完整规则(用实际实体取代规则中的变量),接着寻找完整和不完整逻辑规则之间的关联路径(该路径限定于两个规则中相同位置的实体,长度小于3,具体可根据实际需求进行设置);
(2)规则置信分数计算。
具体的,基于生成的规则池,利用当前循环的关系表示计算每条规则的置信度(Confidence)分数。
对于逻辑规则来说,规则头和规则体可以看成和规则相关的两条路径。我们通过计算两条规则头和规则体对应路径的相似度表示逻辑规则的置信度,如下所示:
Figure 202700DEST_PATH_IMAGE020
其中,
Figure 444326DEST_PATH_IMAGE021
Figure 250607DEST_PATH_IMAGE022
分别是规则体和规则头的路径表示向量,
Figure 159658DEST_PATH_IMAGE023
是相似性函数。其中,路径表示向量由路径经过的关系表示向量相加得到,相似性则利用向量或者矩阵范数来衡量。
基于逻辑规则的置信度分数,同时考虑完整和不完整规则置信度分数,可以计算规则间关联的置信度分数如下所示:
Figure 635769DEST_PATH_IMAGE024
其中,
Figure 630270DEST_PATH_IMAGE025
Figure 974664DEST_PATH_IMAGE026
分别表示完整逻辑规则
Figure 738221DEST_PATH_IMAGE027
和不完整规则
Figure 385234DEST_PATH_IMAGE028
的置信度。
(二)规则推理
在规则推理阶段,给定抽取规则,基于规则挖掘获得的逻辑规则,推理出新的三元组(其利用的是逻辑规则本身具有的推理能力,无需额外推理过程),并计算推理得到三元组的软标签。
这里,我们使用了基于t范数的模糊逻辑,该方法关键在于利用简单三元组真实性分数以及逻辑关系计算复杂三元组(由多个简单三元组和逻辑关系组成)的真实性分数。那么,对于实例化的逻辑规则
Figure 867031DEST_PATH_IMAGE029
,对应的条件真实性分数可以按如下方式计算:
Figure 15115DEST_PATH_IMAGE030
其中,
Figure 633178DEST_PATH_IMAGE031
表示由规则预测的三元组软标签集合,
Figure 716672DEST_PATH_IMAGE032
是可观察知识图谱中的三元组,
Figure 420186DEST_PATH_IMAGE033
则是包含虚拟邻居、规则推理出来的三元组。
Figure 106382DEST_PATH_IMAGE034
是三元组
Figure 578952DEST_PATH_IMAGE035
的真实性分数,可由表示学习中的方法计算得到。
Figure 692401DEST_PATH_IMAGE036
是新预测三元组
Figure 534411DEST_PATH_IMAGE037
的软标签。
在此基础上,实例化之后的规则间关联
Figure 758718DEST_PATH_IMAGE038
的条件真实性分数为:
Figure 351374DEST_PATH_IMAGE039
其中,
Figure 901304DEST_PATH_IMAGE040
表示实例化完整逻辑规则
Figure 454776DEST_PATH_IMAGE041
的真实性分数。
Figure 482775DEST_PATH_IMAGE042
表示实例化不完整规则
Figure 929937DEST_PATH_IMAGE043
的条件真实性分数。
为了得到最优化的软标签
Figure 650768DEST_PATH_IMAGE044
,本实施例构建了如下优化问题:
Figure 691536DEST_PATH_IMAGE045
其中,C是常数。该问题是凸优化问题,存在闭式解:
Figure 523226DEST_PATH_IMAGE046
其中,
Figure 824895DEST_PATH_IMAGE047
Figure 716627DEST_PATH_IMAGE048
分别为
Figure 244692DEST_PATH_IMAGE049
Figure 614493DEST_PATH_IMAGE050
Figure 36247DEST_PATH_IMAGE051
的导数,并且都是常数。
Figure 98881DEST_PATH_IMAGE052
则是截断函数。
(三)表示学习
在表示学习阶段,包含有虚拟邻居以及新预测知识图谱输入到基于图神经网络的编码器和基于表示学习的解码器中。通过这种方式,知识图谱中的实体和关系可以被映射到隐藏空间,利用连续向量表示。
如图2所示,展示了图神经网络的编码器结构,其中,基于图神经网络的编码器包括结构层和查询层,第l结构层可以表示为下面的形式:
Figure 347198DEST_PATH_IMAGE053
其中,
Figure 786269DEST_PATH_IMAGE054
是为关系r设计的注意力权重,
Figure 62530DEST_PATH_IMAGE055
则是第l实体
Figure 296065DEST_PATH_IMAGE056
的表示向量,
Figure 533142DEST_PATH_IMAGE057
表示第l的映射矩阵。除了结构信息以外,输入三元组中的查询关系也是非常重要的特征。因此,
本实施例设计了如下查询层,具体表示如下:
Figure 244746DEST_PATH_IMAGE058
Figure 641093DEST_PATH_IMAGE059
其中,
Figure 45529DEST_PATH_IMAGE060
是未正则化的权值。
Figure 769903DEST_PATH_IMAGE061
是神经网络激活函数。利用基于图神经网络的编码器得到实体表示
Figure 285198DEST_PATH_IMAGE062
基于表示学习的解码器将知识图谱中的关系映射为向量表示
Figure 536050DEST_PATH_IMAGE063
,最后可以按如下方式预测缺失三元组的成立可能性(即真实性分数):
Figure 111388DEST_PATH_IMAGE064
其中,
Figure 323058DEST_PATH_IMAGE065
分别表示正则化之后的实体表示向量,
Figure 642044DEST_PATH_IMAGE066
则表示对角关系矩阵。其中,所述解码器的输入为编码器编码的实体表示向量,输出为三元组成立的可能性分数,关系表示向量以及实体表示向量。
进一步的,所述方法采用如下训练损失函数:
Figure 747403DEST_PATH_IMAGE067
其中,
Figure 493642DEST_PATH_IMAGE068
为可观察三元组集合,包含训练阶段可观察知识图谱的所有三元组,
Figure 425564DEST_PATH_IMAGE069
则为含有虚拟邻居的三元组集合。
实施例二:
本实施例的目的是提供一种基于规则间关联的知识图谱数据扩展系统。
一种基于规则间关联的知识图谱数据扩展系统,包括:
规则池构建单元,其用于获取待处理的知识图谱,通过对所述知识图谱进行遍历获取逻辑规则,实现规则池的构建;其中,所述知识图谱包括原始知识图谱、新出现的实体及其辅助三元组;
置信度计算单元,其用于计算每条逻辑规则的置信度分数,并基于所述置信度分数计算逻辑规则间关联的置信度分数;
规则推理单元,其用于对所述逻辑规则进行实例化,获得候选三元组,基于规则约束的优化方法计算每个候选三元组的软标签;其中,所述规则约束基于逻辑规则的置信度分数以及逻辑规则间关联的置信度分数确定;
表示学习单元,其用于基于所述软标签将获得的候选三元组与原始知识图谱构建为新知识图谱,基于所述新知识图谱,采用基于图神经网络的编码器获得实体表示向量,并基于表示学习的解码器获得所述新知识图谱中的关系向量表示;基于所述实体表示向量及所述关系向量表示预测新知识图谱中缺失三元组成立可能性;
迭代优化单元,其用于迭代执行所述置信度计算单元、规则推理单元及表示学习单元的步骤,直至满足收敛条件,获得最终的知识图谱。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一中所述的方法。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
上述实施例提供的一种基于规则间关联的知识图谱数据扩展方法及系统可以实现,具有广阔的应用前景。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于规则间关联的知识图谱数据扩展方法,其特征在于,包括:
步骤1:获取待处理的知识图谱,通过对所述知识图谱进行遍历获取逻辑规则,实现规则池的构建;
步骤2:计算每条逻辑规则的置信度分数,并基于所述置信度分数计算逻辑规则间关联的置信度分数;
步骤3:对所述逻辑规则进行实例化,获得候选三元组,基于规则约束的优化方法计算每个候选三元组的软标签;其中,所述规则约束基于逻辑规则的置信度分数以及逻辑规则间关联的置信度分数确定;
步骤4:基于所述软标签将获得的候选三元组与原始知识图谱构建为新知识图谱,基于所述新知识图谱,采用基于图神经网络的编码器获得实体表示向量,并基于表示学习的解码器获得所述新知识图谱中的关系向量表示;基于所述实体表示向量及所述关系向量表示预测新知识图谱中缺失三元组成立可能性;
步骤5:迭代执行所述步骤2至步骤4,直至满足收敛条件,获得最终的知识图谱。
2.如权利要求1所述的一种基于规则间关联的知识图谱数据扩展方法,其特征在于,所述基于规则约束的优化方法计算每个候选三元组的软标签,具体采用如下目标函数:
Figure 114332DEST_PATH_IMAGE001
其中,C为常数,t vn 为包含虚拟邻居的三元组,st vn )为t vn 的软标签,通过求解该优化问题得到;It vn )为t vn 的真实值,由
Figure 749713DEST_PATH_IMAGE002
计算得到;
Figure 171467DEST_PATH_IMAGE003
Figure 608002DEST_PATH_IMAGE004
为松弛变量,
Figure 482417DEST_PATH_IMAGE005
为完整逻辑规则的置信度分数,
Figure 921489DEST_PATH_IMAGE006
为逻辑规则间关联的置信度分数,
Figure 197749DEST_PATH_IMAGE007
为逻辑规则,
Figure 306651DEST_PATH_IMAGE008
为实例化后的规则间关联。
3.如权利要求1所述的一种基于规则间关联的知识图谱数据扩展方法,其特征在于,所述逻辑规则包括规则头和规则体;所述规则头对应于知识图谱中的三元组;所述规则体对应于规则头的头实体到尾实体之间的路径。
4.如权利要求1所述的一种基于规则间关联的知识图谱数据扩展方法,其特征在于,所述计算每条逻辑规则的置信度分数,基于所述逻辑规则中规则头和规则体所对应路径的相似度进行计算。
5.如权利要求1所述的一种基于规则间关联的知识图谱数据扩展方法,其特征在于,所述逻辑规则间关联采用如下方式获得:
基于逻辑规则的规则体中是否存在缺失三元组,判断所述逻辑规则为完整逻辑规则或不完整逻辑规则;
实例化所述逻辑规则,基于路径搜索方法获取所述完整逻辑规则与不完整规则之间的关联路径。
6.如权利要求1所述的一种基于规则间关联的知识图谱数据扩展方法,其特征在于,所述对所述知识图谱进行遍历获取逻辑规则,具体采用路径搜索算法获得。
7.一种基于规则间关联的知识图谱数据扩展系统,其特征在于,包括:
规则池构建单元,其用于获取待处理的知识图谱,通过对所述知识图谱进行遍历获取逻辑规则,实现规则池的构建;
置信度计算单元,其用于计算每条逻辑规则的置信度分数,并基于所述置信度分数计算逻辑规则间关联的置信度分数;
规则推理单元,其用于对所述逻辑规则进行实例化,获得候选三元组,基于规则约束的优化方法计算每个候选三元组的软标签;其中,所述规则约束基于逻辑规则的置信度分数以及逻辑规则间关联的置信度分数确定;
表示学习单元,其用于基于所述软标签将获得的候选三元组与原始知识图谱构建为新知识图谱,基于所述新知识图谱,采用基于图神经网络的编码器获得实体表示向量,并基于表示学习的解码器获得所述新知识图谱中的关系向量表示;基于所述实体表示向量及所述关系向量表示预测新知识图谱中缺失三元组成立可能性;
迭代优化单元,其用于迭代执行所述置信度计算单元、规则推理单元及表示学习单元的步骤,直至满足收敛条件,获得最终的知识图谱。
8.如权利要求7所述的一种基于规则间关联的知识图谱数据扩展系统,其特征在于,所述基于规则约束的优化方法计算每个候选三元组的软标签,具体采用如下目标函数:
Figure 668362DEST_PATH_IMAGE009
其中,C为常数,t vn 为包含虚拟邻居的三元组,st vn )为t vn 的软标签,通过求解该优化问题得到;It vn )为t vn 的真实值,其由
Figure 645545DEST_PATH_IMAGE010
计算得到;
Figure 776312DEST_PATH_IMAGE011
Figure 56115DEST_PATH_IMAGE012
为松弛变量,
Figure 170702DEST_PATH_IMAGE013
为完整逻辑规则的置信度分数,
Figure 685997DEST_PATH_IMAGE014
为逻辑规则间关联的置信度分数,
Figure 812216DEST_PATH_IMAGE015
为逻辑规则,
Figure 387553DEST_PATH_IMAGE016
为实例化后的规则间关联。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一项所述的一种基于规则间关联的知识图谱数据扩展方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的一种基于规则间关联的知识图谱数据扩展方法。
CN202210649331.2A 2022-06-10 2022-06-10 基于规则间关联的知识图谱数据扩展方法及系统 Active CN114741460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210649331.2A CN114741460B (zh) 2022-06-10 2022-06-10 基于规则间关联的知识图谱数据扩展方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210649331.2A CN114741460B (zh) 2022-06-10 2022-06-10 基于规则间关联的知识图谱数据扩展方法及系统

Publications (2)

Publication Number Publication Date
CN114741460A true CN114741460A (zh) 2022-07-12
CN114741460B CN114741460B (zh) 2022-09-30

Family

ID=82287561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210649331.2A Active CN114741460B (zh) 2022-06-10 2022-06-10 基于规则间关联的知识图谱数据扩展方法及系统

Country Status (1)

Country Link
CN (1) CN114741460B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024036662A1 (zh) * 2022-08-17 2024-02-22 深圳计算科学研究院 一种基于数据采样的并行图规则挖掘方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069638A (zh) * 2019-03-12 2019-07-30 北京航空航天大学 一种结合规则和路径的知识图谱组合表示学习方法
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN111144570A (zh) * 2019-12-27 2020-05-12 福州大学 一种联合逻辑规则和置信度的知识表示方法
CN111191460A (zh) * 2019-12-30 2020-05-22 福州大学 一种结合逻辑规则和碎片化知识的关系预测方法
CN112417171A (zh) * 2020-11-23 2021-02-26 南京大学 面向知识图谱表示学习的数据增广方法
CN113517045A (zh) * 2020-04-10 2021-10-19 山东大学 一种基于路径生成的电子病历icd代码预测方法及预测系统
CN114064928A (zh) * 2021-11-24 2022-02-18 国家电网有限公司大数据中心 一种知识图谱的知识推理方法、装置、设备及存储介质
WO2022057671A1 (zh) * 2020-09-16 2022-03-24 浙江大学 一种基于神经网络的知识图谱不一致性推理方法
WO2022114368A1 (ko) * 2020-11-27 2022-06-02 숭실대학교산학협력단 뉴로 심볼릭 기반 릴레이션 임베딩을 통한 지식완성 방법 및 장치

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069638A (zh) * 2019-03-12 2019-07-30 北京航空航天大学 一种结合规则和路径的知识图谱组合表示学习方法
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN111144570A (zh) * 2019-12-27 2020-05-12 福州大学 一种联合逻辑规则和置信度的知识表示方法
CN111191460A (zh) * 2019-12-30 2020-05-22 福州大学 一种结合逻辑规则和碎片化知识的关系预测方法
CN113517045A (zh) * 2020-04-10 2021-10-19 山东大学 一种基于路径生成的电子病历icd代码预测方法及预测系统
WO2022057671A1 (zh) * 2020-09-16 2022-03-24 浙江大学 一种基于神经网络的知识图谱不一致性推理方法
CN112417171A (zh) * 2020-11-23 2021-02-26 南京大学 面向知识图谱表示学习的数据增广方法
WO2022114368A1 (ko) * 2020-11-27 2022-06-02 숭실대학교산학협력단 뉴로 심볼릭 기반 릴레이션 임베딩을 통한 지식완성 방법 및 장치
CN114064928A (zh) * 2021-11-24 2022-02-18 国家电网有限公司大数据中心 一种知识图谱的知识推理方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024036662A1 (zh) * 2022-08-17 2024-02-22 深圳计算科学研究院 一种基于数据采样的并行图规则挖掘方法及装置

Also Published As

Publication number Publication date
CN114741460B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN112633010B (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN110209770B (zh) 一种基于策略价值网络和树搜索增强的命名实体识别方法
CN111985245A (zh) 基于注意力循环门控图卷积网络的关系提取方法及系统
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN106897254B (zh) 一种网络表示学习方法
CN112905801B (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
WO2024032096A1 (zh) 反应物分子的预测方法、训练方法、装置以及电子设备
CN113420163B (zh) 基于矩阵融合的异构信息网知识图谱补全方法和装置
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
Wang et al. A novel discrete firefly algorithm for Bayesian network structure learning
CN110083702A (zh) 一种基于多任务学习的方面级别文本情感转换方法
CN113780002A (zh) 基于图表示学习和深度强化学习的知识推理方法及装置
CN114741460B (zh) 基于规则间关联的知识图谱数据扩展方法及系统
Hegazy et al. Dimensionality reduction using an improved whale optimization algorithm for data classification
CN112463987A (zh) 一种中国古典园林知识图谱补全与认知推理方法
CN114580638A (zh) 基于文本图增强的知识图谱表示学习方法及系统
CN112380835A (zh) 融合实体和句子推理信息的问题答案提取方法及电子装置
Wang et al. Echo state network with a global reversible autoencoder for time series classification
CN112199884A (zh) 物品分子生成方法、装置、设备及存储介质
CN112738647A (zh) 一种基于多层级编码-解码器的视频描述方法及系统
CN114818682B (zh) 基于自适应实体路径感知的文档级实体关系抽取方法
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
CN114399048A (zh) 基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统
CN114444697A (zh) 一种基于知识图谱的常识缺失信息多跳推理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant