CN113111185A - 一种用于知识图谱补全任务的关键路径构建方法和系统 - Google Patents

一种用于知识图谱补全任务的关键路径构建方法和系统 Download PDF

Info

Publication number
CN113111185A
CN113111185A CN202110240278.6A CN202110240278A CN113111185A CN 113111185 A CN113111185 A CN 113111185A CN 202110240278 A CN202110240278 A CN 202110240278A CN 113111185 A CN113111185 A CN 113111185A
Authority
CN
China
Prior art keywords
path
entity
positive sample
target
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110240278.6A
Other languages
English (en)
Inventor
俞山青
甘燃
张建林
童天航
宣琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110240278.6A priority Critical patent/CN113111185A/zh
Publication of CN113111185A publication Critical patent/CN113111185A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于知识图谱补全任务的关键路径构建方法及系统,基于目标知识图谱,构建正样本集合;通过最大路径深度优先搜索方法,构建关系搜索概率模型,依据正样本集合的剩余正样本数据集,构建目标路径池模型;基于目标路径池模型的动态路径指标,构建补全任务的关键路径模型,对目标知识图谱进行补全任务;系统包括知识图谱构建模块、正样本抽取模块、路径特征搜索模块、路径特征筛选模块、数据存储模块;知识图谱构建模块通过正样本抽取模块与路径特征搜索模块连接;路径特征搜索模块通过路径特征筛选模块与数据存储模块连接;本发明缓解了知识图谱路径稀疏,提高路径搜索效率,提高知识图谱补全任务精度。

Description

一种用于知识图谱补全任务的关键路径构建方法和系统
技术领域
本发明属于计算机技术领域,特别是涉及一种用于知识图谱补全任务的关键路径构建方法及系统。
背景技术
随着我国信息技术以及经济的飞速发展,每个领域的数据都在与日俱增,如何将这样爆炸的数据进行合理存储始终备受关注。知识图谱技术由谷歌在2013年首次提出,本质上是揭示实体之间关系的语义网络。演化至今日,知识图谱技术通常以RDF模型将数据储存为三元组形式。然而随着数据的不断迭代更新,知识图谱中的知识量同样日益增加,一些著名的知识图谱如Freebase以及yago数据集目前已经达到了相当大的规模。
然而,虽然知识图谱的规模日益增加,知识图谱中通常存在缺失的知识,甚至是错误的知识。随着知识图谱的演化,对已经存在的知识图谱进行补全的需求越来越大。根据医疗图谱补全药物对应的症状,根据金融图谱补全企业之间的责任关系,根据运动领域图谱补全运动员与球队之间的效力关系,这些在各领域都是急需解决的问题。近年来一系列知识图谱补全算法,也可称为知识图谱推理算法不断涌现。知识图谱补全算法旨在通过当前知识图谱已有的知识推断出知识图谱中隐含的、缺失的知识,通常可以分为实体补全以及关系补全。实体补全旨在给定一个头实体以及关系,从而推理其缺失的尾实体或是给定尾实体以及关系从而推理其缺失的头实体。关系推理旨在确定两个实体之间是否存在指定关系,实现对缺失关系的补全。
目前主流的知识图谱补全技术包括:基于嵌入的补全方法,其中典型的有trans系列模型以及双线性模型等。其思路是将实体和关系嵌入到低维空间,通过设计损失函数最大化正样本的得分,最小化负样本的得分以进行嵌入。最终根据输入实体对以及关系的得分进行推理任务。基于嵌入的补全方法在实体关系向量嵌入结束后,通过简单的向量得分函数计算就能够快速进行推理。其仍然存在许多缺点例如可解释性不强以及一些模型不能很好的处理一对多、多对一以及多对多的三元组。此外还有许多补全方法还包括基于关联规则的方法、基于神经网络的方法等,在此不进行赘述。
另一类重要的推理方法为基于路径的推理方法,根据目标任务提取知识图谱中的路径作为特征,根据样本是否满足路径以及在路径约束下的游走概率设置路径特征矩阵进而训练线性模型进行推理任务。由于路径由知识图谱中的实际关系序列构成,因此具有较强的可解释性。目前主流的知识图谱路径推理方法包括路径排序算法、SFE算法、一系列基于强化学习的路径发现算法例如DeepPath,以及将路径信息结合嵌入的若干改进算法。基于路径的推理算法通常都无法回避的问题是:1)某些任务由于图谱的稀疏无法找到足够的路径进行推理任务。2)由于图谱中的关系过多,容易产生冗余的路径同时路径搜索效率低下。路径排序算法通过随机游走获得路径,然而这样的方式效率较低同时无法有偏向地寻找路径。SFE算法通过双向游走试图缓解路径搜索效率低下的问题,然而其通过随机选取中间节点可能导致一些信息的丢失。DeepPath算法通过强化学习的方式设置三个奖励函数以搜索知识图谱中具有代表性的路径,然而其强化学习网络需要进行预训练同时搜索效率较低同时容易搜索出关系重复的长路径。
发明内容
为了克服当前基于路径的推理方法中路径搜索效率低下,路径特征不足,推理任务精度不高的情况。本发明提供一种用于知识图谱补全任务的关键路径构建方法,包括以下步骤:
S1.基于目标知识图谱,获得所述目标知识图谱的实体入度,根据所述补全任务中,所述目标知识图谱的图谱目标关系,获得所述目标知识图谱的正样本头实体集合和所述正样本头实体对应的目标尾实体集合,基于所述正样本头实体、目标尾实体集合、图谱目标关系,构建正样本集合;
S2.基于所述正样本集合,获得部分正样本数据集,通过所述部分正样本数据集的最大路径深度优先搜索方法,基于所述部分正样本数据集的实体和实体路径,获得所述部分正样本数据集的路径支持数、路径实例数、动态路径置信度、动态路径实体对覆盖率,基于所述路径支持数、路径实例数、动态路径置信度、动态路径实体对覆盖率,获得所述部分正样本数据集的路径池、关系矩阵,基于所述路径池、关系矩阵,构建关系搜索概率模型,其中,所述部分正样本数据集,包括,部分正样本头实体,部分目标尾实体集合,所述部分正样本头实体包括若干头实体,所述部分目标尾实体集合包括若干目标尾实体;
S3.基于所述关系搜索概率模型,依据所述正样本集合的剩余正样本数据集,获得所述剩余正样本数据集的剩余正样本头实体集合和剩余正样本目标尾实体集合,基于所述剩余正样本头实体集合和剩余正样本目标尾实体集合,更新所述路径池、关系矩阵、关系搜索概率模型,获得目标关系搜索概率模型,基于所述目标关系搜索概率模型,构建目标路径池模型;
S4.基于所述目标路径池模型的动态路径指标,构建所述补全任务的关键路径模型,通过所述关键路径模型,对所述目标知识图谱进行所述补全任务。
优选地,所述S1还包括,根据所述实体入度是否大于阈值决定是否为该实体添加逆关系三元组,基于所述实体入度和目标知识图谱,通过添加逆关系三元组构建新知识图谱。
优选地,所述路径支持数,用于表示所述实体从所述头实体出发,到所述目标尾实体的所述实体路径的路径数量;
所述路径实例数,用于表示所述实体从所述头实体出发,基于所述实体路径,到所述目标尾实体的实体数量。
优选地,所述动态路径置信度,用于表示所述实体,通过所述头实体出发,基于所述实体路径,到所述目标尾实体的概率。
优选地,所诉动态路径实体对覆盖率,用于表示基于所述实体路径,所述实体的实体对数,在所述部分正样本数据集的比例。
优选地,所述S2还包括以下步骤:
S2.1.基于所述路径池,通过所述目标关系、所述实体路径的路径数量,构建关系矩阵,基于所述关系矩阵,确定所述实体路径的动态置信度;
S2.2.基于所述部分正样本数据集,通过深度优先方式搜索所述实体路径,找到所述实体对应的所述部分目标尾实体集合,记录所述实体路径的所述动态路径置信度、动态路径实体对覆盖率;
S2.3.判断所述实体路径是否为新路径,如果所述实体路径是所述新路径,将所述新路径添加入所述路径池,如果所述实体路径不是所述新路径,更新所述动态路径置信度、动态路径实体对覆盖率指标,基于所述关系矩阵,依据所述路径池,更新所述关系搜索概率模型。
优选地,所述S3包括以下步骤:
S3.1.基于关系搜索概率模型,依据所述剩余正样本头实体集合和剩余正样本目标尾实体集合,判断是否进行所述实体路径的搜索,若进行搜索,将所述实体路径的路径长度加1获得搜索路径,基于所述搜索路径,进行路径概率深度搜索,若不进行搜索,继续进行S3.1 的判断直至进行所述路径概率深度搜索;
S3.2.设置最大路径长度,当所述搜索路径大于所述最大路径长度时或所述剩余正样本头实体集合未搜索到所述剩余正样本目标尾实体集合时,跳出所述路径概率深度搜索,返回S3.1,否则,进入 S3.3;
S3.3.当所述搜索路径不大于所述最大路径长度时或所述剩余正样本头实体集合搜索到所述剩余正样本目标尾实体集合时,计算并更新所述动态路径置信度、动态实体对覆盖率指标、关系矩阵、关系搜索概率模型;
S3.4.基于更新后的动态路径置信度、动态实体对覆盖率指标、关系矩阵、关系搜索概率模型,构建所述目标路径池模型。
优选地,所述S4还包括以下步骤:
S401.根据所述动态路径指标和动态路径实体对覆盖率对所述实体路径进行筛选,设置动态路径置信度阈值以保证所述实体路径的可靠性,设置动态路径实体对覆盖率阈值以保证所述实体路径的高适用性,获得符合设置阈值的目标实体路径,基于所述目标关系搜索概率模型,获得目标关系搜索概率;
S402.基于所述目标实体路径的长度,设置动态路径置信度阈值和动态路径实体对覆盖率阈值,筛选所述目标实体路径,获得最终实体路径模型;
S403.基于所述最终实体路径模型,构建所述关键路径模型,对所述目标知识图谱进行所述补全任务。
优选地,知识图谱构建模块、正样本抽取模块、路径特征搜索模块、路径特征筛选模块、数据存储模块;
所述知识图谱构建模块通过所述正样本抽取模块与所述路径特征搜索模块连接;
所述路径特征搜索模块通过所述路径特征筛选模块与所述数据存储模块连接;
所述知识图谱构建模块,用于获取所述目标知识图谱,并评估所述实体入度,对所述实体入度小于一定值的尾实体三元组添加逆关系三元组,从而构成所述新知识图谱;
所述正样本抽取模块:用于根据所述正样本头实体集合和所述目标尾实体集合构建第一正样本集合,随机更换目标尾实体集合为同类实体从而构成第二正样本集合,通过所述第一正样本集合和第二正样本集合,构建所述正样本集合;
所述路径特征搜索模块:用于初始化设置所述路径特征以及关系的一系列评价指标,在路径搜索的过程中,通过更新所述评价指标指导路径搜索;
所述路径特征筛选模块:用于在所述路径特征搜索模块工作结束后,根据所述路径特征搜索模块更新完毕的路径特征评价指标值筛选所述路径特征,获得最佳路径特征,基于所述最佳路径特征,进行知识图谱补全任务。
优选地,所述路径特征搜索模块,包括,路径支持数初始单元、路径实例数初始单元、动态路径置信度初始单元、动态路径实体对覆盖率初始单元;
所述路径特征搜索模块,通过所述路径支持数初始单元、路径实例数初始单元、动态路径置信度初始单元、动态路径实体对覆盖率初始单元,获得初始化的所述路径池和关系矩阵,通过所述路径池和关系矩阵,获得初始关系搜索概率,基于所述初始关系搜索概率,对所述剩余样本进行路径概率深度搜索,通过对所述剩余样本的头实体及其对应的目标实体集合完成搜索后,更新所述路径池、关系矩阵、关系搜索概率模型,构建所述目标路径池模型。
本发明的积极进步效果在于:
缓解知识图谱路径稀疏,通过合理添加逆关系三元组,丰富知识图谱路径同时防止高出度实体产生;
提高路径搜索效率,通过动态关系置信度指标动态的更新搜索策略,从而使搜索空间与当前的补全任务更为相关,进而提高路径搜索效率;
发现关键路径,通过动态路径置信度、动态实体对覆盖率等指标在众多路径中发现对于当前补全任务最为关键的路径;
提高知识图谱补全任务精度,通过保留的更为关键的路径,以此进行知识图谱补全任务并且能够获得更好的推理精度。
附图说明
图1为本发明所述的总体流程图;
图2为本发明所述的初始化流程图;
图3为本发明所述深度概率搜索流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1-3所示,一种用于知识图谱补全任务的关键路径构建方法,包括以下步骤:
S1.基于目标知识图谱,获得所述目标知识图谱的实体入度,根据所述补全任务中,所述目标知识图谱的图谱目标关系,获得所述目标知识图谱的正样本头实体集合和所述正样本头实体对应的目标尾实体集合,基于所述正样本头实体、目标尾实体集合、图谱目标关系,构建正样本集合;
S2.基于所述正样本集合,获得部分正样本数据集,通过所述部分正样本数据集的最大路径深度优先搜索方法,基于所述部分正样本数据集的实体和实体路径,获得所述部分正样本数据集的路径支持数、路径实例数、动态路径置信度、动态路径实体对覆盖率,基于所述路径支持数、路径实例数、动态路径置信度、动态路径实体对覆盖率,获得所述部分正样本数据集的路径池、关系矩阵,基于所述路径池、关系矩阵,构建关系搜索概率模型,其中,所述部分正样本数据集,包括,部分正样本头实体,部分目标尾实体集合,所述部分正样本头实体包括若干头实体,所述部分目标尾实体集合包括若干目标尾实体;
S3.基于所述关系搜索概率模型,依据所述正样本集合的剩余正样本数据集,获得所述剩余正样本数据集的剩余正样本头实体集合和剩余正样本目标尾实体集合,基于所述剩余正样本头实体集合和剩余正样本目标尾实体集合,更新所述路径池、关系矩阵、关系搜索概率模型,获得目标关系搜索概率模型,基于所述目标关系搜索概率模型,构建目标路径池模型;
S4.基于所述目标路径池模型的动态路径指标,构建所述补全任务的关键路径模型,通过所述关键路径模型,对所述目标知识图谱进行所述补全任务。
所述S1还包括,根据所述实体入度是否大于阈值决定是否为该实体添加逆关系三元组,基于所述实体入度和目标知识图谱,通过添加逆关系三元组构建新知识图谱。
所述路径支持数,用于表示所述实体从所述头实体出发,到所述目标尾实体的所述实体路径的路径数量;
所述路径实例数,用于表示所述实体从所述头实体出发,基于所述实体路径,到所述目标尾实体的实体数量。
所述动态路径置信度,用于表示所述实体,通过所述头实体出发,基于所述实体路径,到所述目标尾实体的概率。
所诉动态路径实体对覆盖率,用于表示基于所述实体路径,所述实体的实体对数,在所述部分正样本数据集的比例。
所述S2还包括以下步骤:
S2.1.基于所述路径池,通过所述目标关系、所述实体路径的路径数量,构建关系矩阵,基于所述关系矩阵,确定所述实体路径的动态置信度;
S2.2.基于所述部分正样本数据集,通过深度优先方式搜索所述实体路径,找到所述实体对应的所述部分目标尾实体集合,记录所述实体路径的所述动态路径置信度、动态路径实体对覆盖率;
S2.3.判断所述实体路径是否为新路径,如果所述实体路径是所述新路径,将所述新路径添加入所述路径池,如果所述实体路径不是所述新路径,更新所述动态路径置信度、动态路径实体对覆盖率指标,基于所述关系矩阵,依据所述路径池,更新所述关系搜索概率模型。
所述S3包括以下步骤:
S3.1.基于关系搜索概率模型,依据所述剩余正样本头实体集合和剩余正样本目标尾实体集合,判断是否进行所述实体路径的搜索,若进行搜索,将所述实体路径的路径长度加1获得搜索路径,基于所述搜索路径,进行路径概率深度搜索,若不进行搜索,继续进行S3.1 的判断直至进行所述路径概率深度搜索;
S3.2.设置最大路径长度,当所述搜索路径大于所述最大路径长度时或所述剩余正样本头实体集合未搜索到所述剩余正样本目标尾实体集合时,跳出所述路径概率深度搜索,返回S3.1,否则,进入 S3.3;
S3.3.当所述搜索路径不大于所述最大路径长度时或所述剩余正样本头实体集合搜索到所述剩余正样本目标尾实体集合时,计算并更新所述动态路径置信度、动态实体对覆盖率指标、关系矩阵、关系搜索概率模型;
S3.4.基于更新后的动态路径置信度、动态实体对覆盖率指标、关系矩阵、关系搜索概率模型,构建所述目标路径池模型。
所述S4还包括以下步骤:
S401.根据所述动态路径指标和动态路径实体对覆盖率对所述实体路径进行筛选,设置动态路径置信度阈值以保证所述实体路径的可靠性,设置动态路径实体对覆盖率阈值以保证所述实体路径的高适用性,获得符合设置阈值的目标实体路径,基于所述目标关系搜索概率模型,获得目标关系搜索概率;
S402.基于所述目标实体路径的长度,设置动态路径置信度阈值和动态路径实体对覆盖率阈值,筛选所述目标实体路径,获得最终实体路径模型;
S403.基于所述最终实体路径模型,构建所述关键路径模型,对所述目标知识图谱进行所述补全任务。
知识图谱构建模块、正样本抽取模块、路径特征搜索模块、路径特征筛选模块、数据存储模块;
所述知识图谱构建模块通过所述正样本抽取模块与所述路径特征搜索模块连接;
所述路径特征搜索模块通过所述路径特征筛选模块与所述数据存储模块连接;
所述知识图谱构建模块,用于获取所述目标知识图谱,并评估所述实体入度,对所述实体入度小于一定值的尾实体三元组添加逆关系三元组,从而构成所述新知识图谱;
所述正样本抽取模块:用于根据所述正样本头实体集合和所述目标尾实体集合构建第一正样本集合,随机更换目标尾实体集合为同类实体从而构成第二正样本集合,通过所述第一正样本集合和第二正样本集合,构建所述正样本集合;
所述路径特征搜索模块:用于初始化设置所述路径特征以及关系的一系列评价指标,在路径搜索的过程中,通过更新所述评价指标指导路径搜索;
所述路径特征筛选模块:用于在所述路径特征搜索模块工作结束后,根据所述路径特征搜索模块更新完毕的路径特征评价指标值筛选所述路径特征,获得最佳路径特征,基于所述最佳路径特征,进行知识图谱补全任务。
所述路径特征搜索模块,包括,路径支持数初始单元、路径实例数初始单元、动态路径置信度初始单元、动态路径实体对覆盖率初始单元;
所述路径特征搜索模块,通过所述路径支持数初始单元、路径实例数初始单元、动态路径置信度初始单元、动态路径实体对覆盖率初始单元,获得初始化的所述路径池和关系矩阵,通过所述路径池和关系矩阵,获得初始关系搜索概率,基于所述初始关系搜索概率,对所述剩余样本进行路径概率深度搜索,通过对所述剩余样本的头实体及其对应的目标实体集合完成搜索后,更新所述路径池、关系矩阵、关系搜索概率模型,构建所述目标路径池模型。
下面具体解释本申请的技术思路和技术应用手段:
1)评估原始知识图谱的实体入度,对实体入度小于一定值的尾实体三元组添加逆关系三元组,并根据补全任务的目标关系获取所有正样本头实体及其对应的目标尾实体集合共同构成正样本集合;
2)选取部分正样本进行最大路径限制下的深度优先搜索以获得部分路径并记录其初始路径支持数、初始路径实例数、初始动态路径置信度以及初始动态路径实体对覆盖率等一系列评价指标,同时根据以上指标获得初始化的路径池、关系矩阵,并计算初始关系搜索概率;
3)根据初始化的关系搜索概率对剩余的样本进行路径概率深度搜索,根据当前关系的搜索概率决定是否从当前的实体沿着该关系出发进行搜索。在每一个正样本头实体及其对应的目标实体集合完成搜索后,立即更新路径池、关系矩阵以及各关系的搜索概率;
4)当剩余正样本搜索结束后,获得最终的路径池,根据路径池中储存的动态路径指标发现目标任务的关键路径。
一种知识图谱补全任务中关键路径的发现方法,其特征在于:所述方法包括以下步骤:
1)评估原始知识图谱的实体入度,对实体入度小于一定值的尾实体三元组添加逆关系三元组,并根据补全任务的目标关系获取所有正样本头实体及其对应的目标尾实体集合共同构成正样本集合;
2)选取部分正样本进行最大路径限制下的深度优先搜索以获得部分路径并记录其初始路径支持数、初始路径实例数、初始动态路径置信度以及初始动态路径实体对覆盖率等一系列评价指标,同时根据以上指标获得初始化的路径池、关系矩阵,并计算初始关系搜索概率;
3)根据初始化的关系搜索概率对剩余的样本进行路径概率深度搜索,根据当前关系的搜索概率决定是否从当前的实体沿着该关系出发进行搜索。在每一个正样本头实体及其对应的目标实体集合完成搜索后,立即更新路径池、关系矩阵以及各关系的搜索概率;
4)当剩余正样本搜索结束后,获得最终的路径池,根据路径池中储存的动态路径指标发现目标任务的关键路径。
目标关系正样本,其定义如下:对于目标关系r,知识图谱KG,图谱目标关系r的所有正样本实体对集合被定义为D:
Figure BDA0002961944820000151
一个正样本被定义为
Figure BDA0002961944820000152
其中
Figure BDA0002961944820000153
表示第i个正样本头实体,
Figure BDA0002961944820000154
表示第i个正样本头实体对应的目标尾实体集合。即
Figure BDA0002961944820000155
其中
Figure BDA0002961944820000156
表示头实体与头实体
Figure BDA0002961944820000157
存在目标关系三元组r的尾实体。即图谱中存在三元组
Figure BDA0002961944820000158
一系列路径评价指标,包括路径支持数,路径实例数,路径实体对覆盖数,动态路径实体对置信度以及动态路径实体对覆盖率定义如下:
1)路径实体对支持数:对于给定的头实体eh,目标尾实体et以及一条路径特征p=r1,r2,...,rl,定义路径实体对支持数如下:
Figure BDA0002961944820000161
其中ei代表知识图谱KG中的任意实体。代表从头实体eh出发,经过任意实体能够沿着路径p走到尾实体et的数量。
2)路径实例数:对于给定的头实体以及一条路径特征 p=r1,r2,...,rl,定义路径头实体实例数如下:
Figure BDA0002961944820000162
其中ej代表知识图谱KG中的任意实体。代表从头实体eh出发,经过任意实体能够沿着路径p走到任意尾实体的数量。
5)路径动态置信度:对于给定的路径特征p=r1,r2,...,rl,定义动态路径置信度如下:
Figure BDA0002961944820000163
其中k表示当前正样本集合中的第k个正样本。其代表了以当前头实体 eh出发,经过任意实体能够沿着路径p走到目标尾实体的概率。同时,该指标随着搜索过的样本数k不断动态变化。
6)路径动态实体对覆盖率:
Figure BDA0002961944820000164
其代表当前的路径p满足的实体对数在所有正样本数中的比例。其中:
Figure BDA0002961944820000165
代表当前实体对
Figure BDA0002961944820000166
是否满足当前的路径p,其定义如下:
Figure BDA0002961944820000171
路径池、关系矩阵以及关系搜索概率初始化方法,包括以下具体步骤:
1)设置路径池P,其中储存目标关系所挖掘出所有的路径特征,设置关系矩阵C={cij}m×n∈Rm×n,其中m代表KG中的所有关系,n 代表当前路径池P中的路径数量。其中每一个元素cij含义为当关系 rj是否存在路径Pj,若存在则值为该路径的动态置信值,否则为0。其定义如下:
Figure BDA0002961944820000172
此时,关系ri的置信度向量
Figure BDA0002961944820000173
定义如下:
Figure BDA0002961944820000174
2)依次取出正样本,从正样本头实体出发,以深度优先的方式搜索路径长度小于l的路径,当找到任意头实体对应的目标尾实体,记录当前的路径并根据3中所述公式计算路径的动态置信度、动态实体对覆盖率指标。若该路径是一条新的路径,则将其添加入路径池,若该路径已存在路径池中,对应更新其动态路径置信度以及动态路径实体对覆盖率指标。同时,根据当前的路径池同步更新关系矩阵C并进一步计算所有关系的关系搜索概率。关系ri的搜索概率定义如下:
Figure BDA0002961944820000175
其含义为,根据该关系继续进行路径深度搜索的概率,其中α,β,γ用来控制生成一个0到1之间的概率。
Figure BDA0002961944820000181
表示当前关系ri的关系置信值定义如下:
Figure BDA0002961944820000182
其中λ12=1,用来控制选取当前路径的偏好。
3)当达到设定的样本数,结束初始化过程,保存最终的初始化路径动态置信度、路径动态实体对覆盖率、关系矩阵以及路径搜索概率。
对剩余样本进行路径概率深度搜索的方法,包括具体以下步骤:
1)从一个样本的头实体出发,根据头实体连接的关系概率决定是否沿着该关系进行搜索。若不进行搜索则更换下一关系继续决定是否进行搜索。若进行搜索,则依次搜索以该头实体出发沿着该关系所到达的实体集合,当前的路径长度加1并依次以实体集合中的实体作为新的头实体继续进行路径概率深度搜索。特别的,当某一实体的同一种关系出度较大时,可以随机抽样其中一部分进行深度概率搜索以获得更高的效率。
2)当目前的路径长度大于设置的最大路径长度l或者当前头实体未连接到任意实体时,跳出当前的概率深度搜索。当发现路径时,计算并更新路径池中的动态置信度以及动态实体对覆盖率指标同时更新关系矩阵并计算更新关系搜索概率。
3)当正样本集合中的剩余所有样本进行概率深度搜索后,获得最终的路径池P以及关系矩阵C。
目标任务关键路径发现方法,包括具体以下步骤:
1)根据动态路径指标以及动态路径实体对覆盖率对最终路径池中的路径进行筛选,设置动态路径置信度阈值以保证路径的可靠性以及动态路径实体对覆盖率阈值以保证路径的高适用性并最终保留符合设置阈值的路径。根据最终的关系矩阵计算出最终关系搜索概率,关系搜索概率越高即代表该关系在目标任务中参与到更多的高质量路径中,与目标推理任务越为相关。
2)根据路径的长度设置不同的动态路径置信度阈值以及动态路径实体对覆盖率阈值进行路径选择,长度越短的路径设置越低的阈值,反之越高。
3)最终保留的路径可视作一种特殊的关联规则直接进行匹配执行目标关系推理任务,也可以作为一些基于路径的知识图谱推理方法的路径输入进行推理。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种用于知识图谱补全任务的关键路径构建方法,其特征在于,包括以下步骤:
S1.基于目标知识图谱,获得所述目标知识图谱的实体入度,根据所述补全任务中,所述目标知识图谱的图谱目标关系,获得所述目标知识图谱的正样本头实体集合和所述正样本头实体对应的目标尾实体集合,基于所述正样本头实体、目标尾实体集合、图谱目标关系,构建正样本集合;
S2.基于所述正样本集合,获得部分正样本数据集,通过所述部分正样本数据集的最大路径深度优先搜索方法,基于所述部分正样本数据集的实体和实体路径,获得所述部分正样本数据集的路径支持数、路径实例数、动态路径置信度、动态路径实体对覆盖率,基于所述路径支持数、路径实例数、动态路径置信度、动态路径实体对覆盖率,获得所述部分正样本数据集的路径池、关系矩阵,基于所述路径池、关系矩阵,构建关系搜索概率模型,其中,所述部分正样本数据集,包括,部分正样本头实体,部分目标尾实体集合,所述部分正样本头实体包括若干头实体,所述部分目标尾实体集合包括若干目标尾实体;
S3.基于所述关系搜索概率模型,依据所述正样本集合的剩余正样本数据集,获得所述剩余正样本数据集的剩余正样本头实体集合和剩余正样本目标尾实体集合,基于所述剩余正样本头实体集合和剩余正样本目标尾实体集合,更新所述路径池、关系矩阵、关系搜索概率模型,获得目标关系搜索概率模型,基于所述目标关系搜索概率模型,构建目标路径池模型;
S4.基于所述目标路径池模型的动态路径指标,构建所述补全任务的关键路径模型,通过所述关键路径模型,对所述目标知识图谱进行所述补全任务。
2.如权利要求1所述一种用于知识图谱补全任务的关键路径构建方法,其特征在于,
所述S1还包括,根据所述实体入度是否大于阈值决定是否为该实体添加逆关系三元组,基于所述实体入度和目标知识图谱,通过添加逆关系三元组构建新知识图谱。
3.如权利要求1所述一种用于知识图谱补全任务的关键路径构建方法,其特征在于,
所述路径支持数,用于表示所述实体从所述头实体出发,到所述目标尾实体的所述实体路径的路径数量;
所述路径实例数,用于表示所述实体从所述头实体出发,基于所述实体路径,到所述目标尾实体的实体数量。
4.如权利要求1所述一种用于知识图谱补全任务的关键路径构建方法,其特征在于,
所述动态路径置信度,用于表示所述实体,通过所述头实体出发,基于所述实体路径,到所述目标尾实体的概率。
5.如权利要求1所述的一种用于知识图谱补全任务的关键路径构建方法,其特征在于,
所诉动态路径实体对覆盖率,用于表示基于所述实体路径,所述实体的实体对数,在所述部分正样本数据集的比例。
6.如权利要求1所述一种用于知识图谱补全任务的关键路径构建方法,其特征在于,
所述S2还包括以下步骤:
S2.1.基于所述路径池,通过所述目标关系、所述实体路径的路径数量,构建关系矩阵,基于所述关系矩阵,确定所述实体路径的动态置信度;
S2.2.基于所述部分正样本数据集,通过深度优先方式搜索所述实体路径,找到所述实体对应的所述部分目标尾实体集合,记录所述实体路径的所述动态路径置信度、动态路径实体对覆盖率;
S2.3.判断所述实体路径是否为新路径,如果所述实体路径是所述新路径,将所述新路径添加入所述路径池,如果所述实体路径不是所述新路径,更新所述动态路径置信度、动态路径实体对覆盖率指标,基于所述关系矩阵,依据所述路径池,更新所述关系搜索概率模型。
7.如权利要求1所述一种用于知识图谱补全任务的关键路径构建方法,其特征在于,
所述S3包括以下步骤:
S3.1.基于关系搜索概率模型,依据所述剩余正样本头实体集合和剩余正样本目标尾实体集合,判断是否进行所述实体路径的搜索,若进行搜索,将所述实体路径的路径长度加1获得搜索路径,基于所述搜索路径,进行路径概率深度搜索,若不进行搜索,继续进行S3.1的判断直至进行所述路径概率深度搜索;
S3.2.设置最大路径长度,当所述搜索路径大于所述最大路径长度时或所述剩余正样本头实体集合未搜索到所述剩余正样本目标尾实体集合时,跳出所述路径概率深度搜索,返回S3.1,否则,进入S3.3;
S3.3.当所述搜索路径不大于所述最大路径长度时或所述剩余正样本头实体集合搜索到所述剩余正样本目标尾实体集合时,计算并更新所述动态路径置信度、动态实体对覆盖率指标、关系矩阵、关系搜索概率模型;
S3.4.基于更新后的动态路径置信度、动态实体对覆盖率指标、关系矩阵、关系搜索概率模型,构建所述目标路径池模型。
8.如权利要求7所述一种用于知识图谱补全任务的关键路径构建方法,其特征在于,
所述S4还包括以下步骤:
S401.根据所述动态路径指标和动态路径实体对覆盖率对所述实体路径进行筛选,设置动态路径置信度阈值以保证所述实体路径的可靠性,设置动态路径实体对覆盖率阈值以保证所述实体路径的高适用性,获得符合设置阈值的目标实体路径,基于所述目标关系搜索概率模型,获得目标关系搜索概率;
S402.基于所述目标实体路径的长度,设置动态路径置信度阈值和动态路径实体对覆盖率阈值,筛选所述目标实体路径,获得最终实体路径模型;
S403.基于所述最终实体路径模型,构建所述关键路径模型,对所述目标知识图谱进行所述补全任务。
9.如权利要求1-8任一权利要求所述的一种用于知识图谱补全任务的关键路径构建系统,其特征在于,包括,
知识图谱构建模块、正样本抽取模块、路径特征搜索模块、路径特征筛选模块、数据存储模块;
所述知识图谱构建模块通过所述正样本抽取模块与所述路径特征搜索模块连接;
所述路径特征搜索模块通过所述路径特征筛选模块与所述数据存储模块连接;
所述知识图谱构建模块,用于获取所述目标知识图谱,并评估所述实体入度,对所述实体入度小于一定值的尾实体三元组添加逆关系三元组,从而构成所述新知识图谱;
所述正样本抽取模块:用于根据所述正样本头实体集合和所述目标尾实体集合构建第一正样本集合,随机更换目标尾实体集合为同类实体从而构成第二正样本集合,通过所述第一正样本集合和第二正样本集合,构建所述正样本集合;
所述路径特征搜索模块:用于初始化设置所述路径特征以及关系的一系列评价指标,在路径搜索的过程中,通过更新所述评价指标指导路径搜索;
所述路径特征筛选模块:用于在所述路径特征搜索模块工作结束后,根据所述路径特征搜索模块更新完毕的路径特征评价指标值筛选所述路径特征,获得最佳路径特征,基于所述最佳路径特征,进行知识图谱补全任务。
10.如权利要求9所述一种用于知识图谱补全任务的关键路径构建方法,其特征在于,
所述路径特征搜索模块,包括,路径支持数初始单元、路径实例数初始单元、动态路径置信度初始单元、动态路径实体对覆盖率初始单元;
所述路径特征搜索模块,通过所述路径支持数初始单元、路径实例数初始单元、动态路径置信度初始单元、动态路径实体对覆盖率初始单元,获得初始化的所述路径池和关系矩阵,通过所述路径池和关系矩阵,获得初始关系搜索概率,基于所述初始关系搜索概率,对所述剩余样本进行路径概率深度搜索,通过对所述剩余样本的头实体及其对应的目标实体集合完成搜索后,更新所述路径池、关系矩阵、关系搜索概率模型,构建所述目标路径池模型。
CN202110240278.6A 2021-03-04 2021-03-04 一种用于知识图谱补全任务的关键路径构建方法和系统 Pending CN113111185A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110240278.6A CN113111185A (zh) 2021-03-04 2021-03-04 一种用于知识图谱补全任务的关键路径构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110240278.6A CN113111185A (zh) 2021-03-04 2021-03-04 一种用于知识图谱补全任务的关键路径构建方法和系统

Publications (1)

Publication Number Publication Date
CN113111185A true CN113111185A (zh) 2021-07-13

Family

ID=76710250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110240278.6A Pending CN113111185A (zh) 2021-03-04 2021-03-04 一种用于知识图谱补全任务的关键路径构建方法和系统

Country Status (1)

Country Link
CN (1) CN113111185A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187868A (zh) * 2023-04-27 2023-05-30 深圳市迪博企业风险管理技术有限公司 一种基于知识图谱的产业链发展质量评价方法及装置
CN116402416A (zh) * 2023-04-11 2023-07-07 北京思维实创科技有限公司 指标数据驱动的企业组织冗余度与重要性评价方法及系统
CN116910386A (zh) * 2023-09-14 2023-10-20 深圳市智慧城市科技发展集团有限公司 地址补全方法、终端设备及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402416A (zh) * 2023-04-11 2023-07-07 北京思维实创科技有限公司 指标数据驱动的企业组织冗余度与重要性评价方法及系统
CN116402416B (zh) * 2023-04-11 2023-10-20 北京思维实创科技有限公司 指标数据驱动的企业组织冗余度与重要性评价方法及系统
CN116187868A (zh) * 2023-04-27 2023-05-30 深圳市迪博企业风险管理技术有限公司 一种基于知识图谱的产业链发展质量评价方法及装置
CN116910386A (zh) * 2023-09-14 2023-10-20 深圳市智慧城市科技发展集团有限公司 地址补全方法、终端设备及计算机可读存储介质
CN116910386B (zh) * 2023-09-14 2024-02-02 深圳市智慧城市科技发展集团有限公司 地址补全方法、终端设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN109918532B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN107145977B (zh) 一种对在线社交网络用户进行结构化属性推断的方法
CN113111185A (zh) 一种用于知识图谱补全任务的关键路径构建方法和系统
CN108509463B (zh) 一种问题的应答方法及装置
Bouckaert Bayesian network classifiers in weka
CN108733976B (zh) 基于融合生物与拓扑特征的关键蛋白质识别方法
CN108647800B (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN111667050B (zh) 度量学习方法、装置、设备及存储介质
US8527564B2 (en) Image object retrieval based on aggregation of visual annotations
CN108875040A (zh) 词典更新方法及计算机可读存储介质
CN110837602A (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN109829065B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN111310023B (zh) 基于记忆网络的个性化搜索方法及系统
CN111382283B (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
CN112395438A (zh) 一种多标签图像的哈希码生成方法和系统
CN110390352A (zh) 一种基于相似性哈希的图像暗数据价值评估方法
CN111445008A (zh) 一种基于知识蒸馏的神经网络搜索方法及系统
CN113011471A (zh) 一种社交群体的划分方法、划分系统及相关装置
CN104731882A (zh) 一种基于哈希编码加权排序的自适应查询方法
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及系统
CN106649731A (zh) 一种基于大规模属性网络的节点相似性搜索方法
CN112990387B (zh) 模型优化方法、相关设备及存储介质
KR102221263B1 (ko) 뇌기능 지식 베이스 자가 성장 시스템 및 방법
CN112765414A (zh) 一种图嵌入向量的生成方法及基于图嵌入的社区发现方法
CN113312029B (zh) 一种界面推荐方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210713