CN114003727A - 一种知识图谱路径的检索方法及其系统 - Google Patents

一种知识图谱路径的检索方法及其系统 Download PDF

Info

Publication number
CN114003727A
CN114003727A CN202110997869.8A CN202110997869A CN114003727A CN 114003727 A CN114003727 A CN 114003727A CN 202110997869 A CN202110997869 A CN 202110997869A CN 114003727 A CN114003727 A CN 114003727A
Authority
CN
China
Prior art keywords
value
node
query
path
bidirectional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110997869.8A
Other languages
English (en)
Inventor
杨丛聿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN202110997869.8A priority Critical patent/CN114003727A/zh
Publication of CN114003727A publication Critical patent/CN114003727A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种知识图谱路径的检索方法及其系统,方法包括:获取知识图谱中每个结点的无权PR值组,计算带权双向PR值;根据每个结点的无权PR值组对结点进行筛选得到低价值结点,并且获取得到低价值结点关系;获取用户的查询请求,根据查询请求的双向PR值确定查询方向,根据查询条件并结合查询方向对知识图谱中的包含有低价值结点和/或低价值结点关系的路径进行过滤,以获取得到第一查询数据和第二查询数据之间的路径,计算第一路径集合中的路径的权重调和平均值,根据路径的权重调和平均值在第一路径集合中筛选得到符合预设规则的路径作为查询路径。本发明减少数据遍历的规模和使得查询结果符合用户所需要的,即查询结果更具有参考价值。

Description

一种知识图谱路径的检索方法及其系统
技术领域
本发明涉及通信技术领域,尤其涉及一种知识图谱路径的检索方法及其系统。
背景技术
知识图谱通常以图的模型组织管理数据,在实际应用场景中,查询两结点的路径是个重要的查询模式,如两个人之间的关系脉络,机构的组织结构都可以归结于此场景。
然而路径查询通常存在性能隐患,即一些查询细节的选择都会对查询性能产生极大影响,如查询方向的选择,途径大结点等,一旦处理不善很容易引起大规模数据的遍历,进而提高服务器的压力和产生查询超时。
为了规避这些问题,在现有技术中通常会加一些定制化的逻辑,例如在查询的时候指定方向,且将查询方向交由业务层去决定,一旦业务层疏忽或者使用不善很容易对系统产生影响;大结点是图谱中最棘手的问题之一,通常查询时人为调优查询条件去规避这些结点,但是大结点的产生时机并不是可控的,可能在查询调优后出现,进而对系统稳定性产生影响。
上述现有技术中的路径查询中可能会存在下述问题:
(1)路径查询时无法由系统选择查询方向来减少数据的遍历规模
(2)无法在查询的路径中系统地规避大结点
(3)缺少发现低价值的结点和关系组合的机制(例如汉族为结点,民族为关系),并在查询中跳过。
发明内容
针对现有技术中存在的上述问题,现提供一种知识图谱路径的检索方法及其系统。
具体技术方案如下:
一种知识图谱路径的检索方法,其中,包括以下步骤:
步骤S1,获取知识图谱,知识图谱包括多个结点,通过pagerank算法计算每个结点的无权PR值组,无权PR值组包括无权正向PR值、无权反向PR值和无权双向PR值,根据结点的无权双向PR值计算带权双向PR值;
步骤S2,根据每个结点的无权PR值组对结点进行筛选,以筛选得到低价值结点,并且获取得到低价值结点关系,低价值结点关系包括低价值结点对应的结点关系;
步骤S3,获取用户的查询请求,查询请求包括第一查询数据、第二查询数据和查询条件,根据第一查询数据对应的结点和第二查询数据对应的结点的双向PR值确定查询方向,以根据查询条件并结合查询方向对所述知识图谱中的包含有所述低价值结点和/或所述低价值结点关系的路径进行过滤,以获取得到第一查询数据和第二查询数据之间的路径,形成第一路径集合,第一路径包括多个结点,每两个相邻的结点之间存在结点关系;
步骤S4,根据查询条件结合第一路径集合中的路径中的每个结点的双向PR值计算路径的权重调和平均值,根据路径的权重调和平均值在第一路径集合中筛选得到符合预设规则的路径作为查询路径,并将查询路径反馈至用户;
其中,双向PR值为无权双向PR值或带权双向PR值。
优选的,知识图谱路径的检索方法,其中,步骤S2中筛选得到低价值结点具体包括:
将正向PR值超过预设正向PR阈值的结点作为低价值结点;和/或
将反向PR值超过预设反向PR阈值的结点作为低价值结点;和/或
将双向PR值超过预设双向PR阈值的结点作为低价值结点。
优选的,知识图谱路径的检索方法,其中,步骤S2中的筛选得到低价值结点,具体包括:
计算结点的正向PR值和反向PR值之间的差的绝对值,并将绝对值超过预设绝对值阈值的结点作为低价值结点。
优选的,知识图谱路径的检索方法,其中,步骤S1中获取带权双向PR值具体包括:
将结点的双向PR值按照预设权重算法进行加权求和,以得到结点的加权和;
并根据加权和通过pagerank算法计算得到结点对应的带权双向PR值。
优选的,知识图谱路径的检索方法,其中,步骤S2中的获取得到低价值结点关系,具体包括:
获取得到低价值结点关联的结点关系;
并根据低价值结点关联的结点关系的出现的次数进行排序,以将排序后的预设数量的结点关系设置为低价值结点关系。
优选的,知识图谱路径的检索方法,其中,步骤S4中的查询条件包括:查询终止条件和查询方式;
其中,查询终止条件包括:结束结点或最大跳数;
第一路径集合中的路径的结点关系小于或等于最大跳数。
优选的,知识图谱路径的检索方法,其中,步骤S3中确定查询方向,具体包括以下步骤:
获取查询条件中的查询模式,于查询模式为全路径模式时:
对第一查询数据进行分析,以分析得到第一查询数据的第一结点,获取得到第一结点的无权双向PR值以及与第一结点相邻的至少一个相邻结点的无权双向PR值,并且将第一结点的无权双向PR值以及与第一结点相邻的至少一个相邻结点的无权双向PR值进行求和计算,以得到第一求和值;
对第二查询数据进行分析,以分析得到第二查询数据的第二结点,获取得到第二结点的无权双向PR值以及与第二结点相邻的至少一个相邻结点的无权双向PR值,并且将第二结点的无权双向PR值以及与第二结点相邻的至少一个相邻结点的无权双向PR值进行求和计算,以得到第二求和值;
判断第一求和值是否大于第二求和值;
若是,将第二结点作为起始结点;
若否,将第一结点作为起始结点。
优选的,知识图谱路径的检索方法,其中,步骤S3中确定查询方向,具体包括以下步骤:
获取查询条件中的查询模式,于查询模式为关键路径模式时:
对第一查询数据进行分析,以分析得到第一查询数据的第一结点,获取得到第一结点的带权双向PR值以及与第一结点相邻的至少一个相邻结点的带权双向PR值,并且将第一结点的带权双向PR值以及与第一结点相邻的至少一个相邻结点的带权双向PR值进行求和计算,以得到第三求和值;
对第二查询数据进行分析,以分析得到第二查询数据的第二结点,获取得到第二结点的带权双向PR值以及与第二结点相邻的至少一个相邻结点的带权双向PR值,并且将第二结点的带权双向PR值以及与第二结点相邻的至少一个相邻结点的带权双向PR值进行求和计算,以得到第四求和值;
判断第三求和值是否大于第四求和值;
若是,将第二结点作为起始结点;
若否,将第一结点作为起始结点。
还包括一种知识图谱路径的检索方法,其中,包括以下步骤:
步骤A1,获取知识图谱,知识图谱包括多个结点,通过pagerank算法计算每个结点的无权PR值组,无权PR值组包括无权正向PR值、无权反向PR值和无权双向PR值;
步骤A2,获取用户的查询请求,查询请求包括第一查询数据、第二查询数据和查询条件,根据查询条件结合第一查询数据对应的结点和第二查询数据对应的结点的无权双向PR值确定查询方向,以根据查询条件并结合查询方向在知识图谱中获取得到第一查询数据和第二查询数据之间的路径,形成第二路径集合,第一路径包括多个结点,每两个相邻的结点之间存在结点关系;
步骤A3,根据第二路径集合中的路径中的每个结点的无权双向PR值计算路径的权重调和平均值,根据路径的权重调和平均值在第二路径集合中筛选得到符合预设规则的路径作为查询路径,并将查询路径反馈至用户。
还包括一种知识图谱路径的检索系统,其中,具体包括:
计算模块,获取知识图谱,知识图谱包括多个结点,通过pagerank算法计算每个结点的无权PR值组,无权PR值组包括无权正向PR值、无权反向PR值和无权双向PR值,根据结点的无权双向PR值计算带权双向PR值;
筛选模块,根据每个结点的无权正向PR值和无权反向PR值对结点进行筛选,以筛选得到低价值结点,并且获取得到低价值结点关系,低价值结点关系包括低价值结点对应的结点关系;
查询模块,获取用户的查询请求,查询请求包括第一查询数据、第二查询数据和查询条件,根据第一查询数据对应的结点和第二查询数据对应的结点的双向PR值确定查询方向,以根据查询条件并结合查询方向对所述知识图谱中的包含有所述低价值结点和/或所述低价值结点关系的路径进行过滤,以获取得到第一查询数据和第二查询数据之间的路径,形成第一路径集合,第一路径包括多个结点,每两个相邻的结点之间存在结点关系;
反馈模块,根据查询条件结合第一路径集合中的路径中的每个结点的双向PR值计算路径的权重调和平均值,根据路径的权重调和平均值在第一路径集合中筛选得到符合预设规则的路径作为查询路径,并将查询路径反馈至用户;
其中,双向PR值为无权双向PR值或带权双向PR值。
上述技术方案具有如下优点或有益效果:
第一、将知识图谱和PageRank算法相结合,由于知识图谱中的结点关系存在权重,因此可以在计算每个结点的无权PR值组后,又引入了带权PR值的计算,即计算时在每个结点关系上额外考虑了结点关系的权重,以更客观的反应路径查询场景中每个结点的到达率;
第二、在路径查询中可根据双向PR值确定查询方向以减少数据遍历的规模。
第三、通过对正向和反向的无权PR值分析来筛选出低价值的结点&关系组合,从而实现在路径查询中规避低价值结点&关系组合可以有效减少大结点的影响。
第四、在路径查询结果引入关系权值,以得到符合预设规则的查询路径,使得查询结果更具有参考价值。
附图说明
参考所附附图,以更加充分地描述本发明的实施例。然而,所附附图仅用于说明和阐述,并不构成对本发明范围的限制。
图1为本发明知识图谱路径的检索方法的实施例一的流程图;
图2为本发明知识图谱路径的检索方法的实施例一的知识图谱示意图;
图3为本发明知识图谱路径的检索方法的实施例二的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本发明包括:
实施例一;
当用户指定执行关键路径查询模式或者用户没有指定路径查询模式时,需要进行低价值结点和低价值结点关系进行过滤;
此时的,一种知识图谱路径的检索方法,包括以下步骤:
步骤S1,获取知识图谱,知识图谱包括多个结点,通过pagerank算法计算每个结点的无权PR值组,无权PR值组包括无权正向PR值、无权反向PR值和无权双向PR值,根据结点的无权双向PR值计算带权双向PR值;
步骤S2,根据每个结点的无权PR值组对结点进行筛选,以筛选得到低价值结点,并且获取得到低价值结点关系,低价值结点关系包括低价值结点对应的结点关系;
步骤S3,如图1所示,获取用户的查询请求,查询请求包括第一查询数据、第二查询数据和查询条件,根据第一查询数据对应的结点和第二查询数据对应的结点的双向PR值确定查询方向,以根据查询条件并结合查询方向对所述知识图谱中的包含有所述低价值结点和/或所述低价值结点关系的路径进行过滤,以获取得到第一查询数据和第二查询数据之间的路径,形成第一路径集合,第一路径集合中的路径包括多个结点,每两个相邻的结点之间存在结点关系,如图2所示,总公司结点和与总公司相邻的结点之间的结点关系均为下属关系;
步骤S4,根据查询条件结合第一路径集合中的路径中的每个结点的双向PR值计算路径的权重调和平均值,根据路径的权重调和平均值在第一路径集合中筛选得到符合预设规则的路径作为查询路径,并将查询路径反馈至用户;
其中,双向PR值为无权双向PR值或带权双向PR值。
在上述实施例中,不同于现有技术中的PageRank计算逻辑,知识图谱的路径查询不存在随机点击行为的概率问题,故此处不考虑阻尼因子(其中,阻尼因子表示用户持续点击每个网页中链接的概率),以及直接转移概率(直接转移概率表示用户直接访问某个网页的概率)。
在上述实施例中,将知识图谱和PageRank算法相结合,由于知识图谱中的结点关系存在权重,因此可以在计算每个结点的无权PR值组后,又引入了带权PR值的计算,即计算时在每个结点关系上额外考虑了结点关系的权重,以更客观的反应路径查询场景中每个结点的到达率;
在上述实施例中,在路径查询中可根据双向PR值确定查询方向以减少数据遍历的规模。
在上述实施例中,通过对正向和反向的无权PR值分析来筛选出低价值的结点&关系组合,从而实现在路径查询中规避低价值结点&关系组合可以有效减少大结点的影响。
在上述实施例中,在路径查询结果引入关系权值,以得到符合预设规则的查询路径,使得查询结果更符合用户所需要的,即查询结果更具有参考价值。
在上述实施例中,第一查询数据可以为需查询实体的实体ID或者需查询实体,同上,第二查询数据可以为需查询实体的实体ID或者需查询实体。
需要说明的是,上述步骤不一定是按照顺序执行的。
在上述实施例中,知识图谱是一种图状具有关联性的知识集合,即知识图谱通常用图的数据结构来组织数据,其整体很类似网页出链/入链这种结构。在网页排名分析中最具代表性的便是PageRank算法,通过其求得的PR值实质是每个网页的到达率,该算法在搜索领域广泛引用,并影响了很多其他领域,如在文本分析中的TextRank算法(用于为文本生成关键字和摘要)。
如何将PageRank的思想引入知识图谱,将PR值的概念引入图谱的分析具备很高的应用价值,知识图谱不同于PageRank的是:
1)知识图谱的路径搜索不是单向的;
其中,单向可以理解为:A的出链包含B(B的出链不包含A),仅需要考虑A到B的链路,不用考虑B到A的跳转;
图谱则不同,例如A的父亲是B,在查询经过A结点时可以走到B结点,反过来同样需要成立,查询经过B结点也需要能走到A结点;
2)在PageRank算法中每个网页跳转到其他出链的概率是相等的(计算概率时采用了均值的做法),而图谱分析中关系是存在权重的,不同的关系在路径查询中具备不同价值。
因此,考虑到知识图谱的路径查询在方向选择上通常是双向的;与此同时,为了发现异常结点需要分析每个结点的正向PR和反向PR值,通常来讲正向PR远大于或小于反向PR的结点,很大概率存在低价值的结点关系组合,例如XX作为国籍(大量结点会指向XX这个结点,但XX作为源结点指向其他结点的数量不会太多,体现在无权PR值上是正向PR远大于反向PR)。由此可见,为了达到路径查询优化的目的,需要分析3个维度的PR值(正向PR值-只考虑出,反向PR值-只考虑入,双向PR值)。对每个结点而言,三者不同的是公式(1)中Mpi的范围以及关系方向的选择。
其中,步骤S1中的结点的单次PR值的计算逻辑具体包括以下步骤:
首先,计算知识图谱的结点的无权PR值组,其中,结点的PR值计算公式如下述公式(1)所示:
Figure BDA0003234438750000071
其中,
Figure BDA0003234438750000072
用于表示纳入计算的结点集合;
当计算某个结点i的正向PR值时,
Figure BDA0003234438750000073
是所有指向该结点i的结点集合;
当计算某个结点i的反向PR值时,
Figure BDA0003234438750000074
是该结点i指向所有其他结点的集合;
当计算某个结点i的双向PR值,
Figure BDA0003234438750000075
包含了与该结点i存在双向的所有结点的集合,其中,双向是指同时存在正向和反向;
Pi用于表示待求PR值节点;
Pj用于表示Mpi中被遍历的节点;
L(pj)用于表示l(pi,pj),其中,l(pi,pj)用于表示结点j转移到结点i的概率;
PR(pi)用于表示pi节点的PR值;
PR(pj)用于表示pj节点的PR值。
接着,对PageRank的求解进行多轮迭代,其中每轮状态转移的计算逻辑如下述公式(2)所示:
Figure BDA0003234438750000076
在上述公式(2)中,l(pi,pj)用于表示结点j转移到结点i的概率,从结点j出发转移到其他结点的概率之和为1,体现在状态转移矩阵上是每列上的和为1,即
Figure BDA0003234438750000081
其中,
Figure BDA0003234438750000082
R用于表示PR值的特征向量。
在无权PR计算逻辑各类关系不存在差异,故采用平均的计算的方式,例如在计算正向PR值时,结点A有三个出边分别指向B、C、D,则对应的概率值l(pB,pA),l(pC,pA),l(pD,pA)均为1/3;
不同于PageRank中两个链接间的关系仅需考虑有无跳转,知识图谱中两结点间可能存在多条关系,此处影响的是l(pi,pj)的计算逻辑,在两结点间存在多条关系时,此处的值为多个关系跳转概率的累加;
在PageRank中R的初始值选择对于R的收敛没有影响,因此每个结点的初始PR值均设定为1/N,N为所有结点的个数。
最后,在经过多轮迭代后,计算能够收敛得到最终的PR值。
进一步地,在上述实施例中,为了发现异常结点需要分析每个结点的正向PR和反向PR值,因此,步骤S2中筛选得到低价值结点可以有以下几种方式:
第一种、将正向PR值超过预设正向PR阈值的结点作为低价值结点。
第二种、将反向PR值超过预设反向PR阈值的结点作为低价值结点。
第三种、将双向PR值超过预设双向PR阈值的结点作为低价值结点。
第四种、计算结点的正向PR值和反向PR值之间的差的绝对值,并将绝对值超过预设绝对值阈值的结点作为低价值结点。
例如,低价值结点的正向PR值和反向PR值的差超过预设绝对值阈值,即此时的低价值结点的正向PR值远大于反向PR值;
例如,低价值结点的反向PR值和正向PR值的差超过预设绝对值阈值,即此时的反向PR值远大于正向PR值。
需要说明的是,针对低价值结点以及低价值结点对应的关系加点可以定期检查和确认是否为低价值结点或低价值结点关系,并维护低价值的结点&关系组合,后续可用于计算带权PR值时降权,同时在路径查询中跳过。
其中,上述筛选得到低价值结点的四种方式可以自由组合。
例如,可以同时将第一种、第二种和第三种获取得到的结点均作为低价值结点。
进一步地,在上述实施例中,步骤S1中获取带权双向PR值具体包括:
将结点的双向PR值按照预设权重算法进行加权求和,以得到结点的加权和;
并根据加权和通过pagerank算法计算得到结点对应的带权双向PR值。
在上述实施例中,可以通过下述公式(3)计算得到结点的加权和:
Figure BDA0003234438750000091
其中,在上述公式(3)中,r(pi,pj)用于表示结点i的加权和;
Pi用于表示待求PR值节点;
Pj用于表示Mpi中被遍历的节点;
K用于表示结点i和结点j之间的结点关系的编号;
M用于表示结点i和结点j之间的结点关系的数量;
weight(pi,pj,k)表示结点i和结点j之间的第k条关系;
进一步地,在上述实施例中,通过下述公式(4)计算得到结点的带权双向PR值:
Figure BDA0003234438750000092
其中,在上述公式(4)中,l(pi,pj)用于表示结点j转移到结点i的概率;
Pi用于表示待求PR值节点;
Pj用于表示Mpi中被遍历的节点;
Figure BDA0003234438750000093
用于表示与该结点j存在双向的所有结点的集合,其中,双向是指同时存在正向关系和反向关系;
r(pi,pj)用于表示结点i到结点j的加权和;
r(pk,pj)用于表示结点k到结点j的加权和;
pk用于表示加权求和过程中遍历的节点;
并且,
Figure BDA0003234438750000101
N用于表示和pi有关系的节点数。
进一步地,在上述实施例中,步骤S2中的获取得到低价值结点关系,具体包括:
获取得到低价值结点关联的结点关系;
并根据低价值结点关联的结点关系的出现的次数进行排序,以将排序后的预设数量的结点关系设置为低价值结点关系。
在上述实施例中,预设数量可以自定义设置;
例如,可以将预设数量设置为10,此时对这些低价值结点涉及到的结点关系出现的次数进行统计,并根据统计个数降序排列,取top 10的结点关系作为低价值结点关系。
进一步地,在上述实施例中,在步骤S2之后还包括:
对低价值结点和低价值结点关系设置过滤标签。
在上述实施例中,可以将设置有过滤标签的低价值结点和低价值结点关系进行过滤,以得到第一路径集合。
作为优选的实施方式,可以直接在查询过程中将设置有过滤标签的低价值结点和低价值结点关系进行过滤,直接得到第一路径集合。
作为优选的实施方式,可以先根据查询条件并结合查询方向获取得到路径集合,再对上述路径集合中的包含有所述低价值结点和/或所述低价值结点关系的路径进行过滤,以获取得到第一查询数据和第二查询数据之间的路径,形成第一路径集合。
在上述实施例中,通过对低价值结点和低价值结点关系设置过滤标签,从而避免现有技术中黑名单查询存在的负载度的问题,以进一步降低查询的复杂度,进而提高查询效率。
进一步地,在上述实施例中,步骤S4中的查询条件包括:查询终止条件和查询方式;
其中,查询终止条件包括:结束结点或最大跳数;
第一路径集合中的路径的结点关系小于或等于最大跳数。
在上述实施例中,当起始结点和结束结点之间的结点关系小于或等于最大跳数时,查询终止条件可以为到达结束结点;
当起始结点和结束结点之间的结点关系大于最大跳数时,查询终止条件为达到最大跳数。
在上述实施例中,路径查询的复杂度和最大跳数是强相关的,因此可以通过设置最大跳数来限制路径查询的复杂度,以提高查询效率。
在上述实施例中,查询方式包括单向查询和双向查询。
其中,单向查询是指从起始结点处往结束结点的方向进行路径查询,例如:起始结点为结点A,结束结点为结点D,此时的查询方向为:结点A→结点B→结点C→结点D;
双向查询是指同时从起始结点处到结束结点的路径中存在两个方向,例如:起始结点为结点A,结束结点为结点D,此时的查询方向可以为:结点A→结点B←结点C→结点D。
作为优选的实施方式,最大跳数可以自定义设置,例如,可以将最大跳数设置为5.
进一步地,举例说明为何要获取查询方向;
如图2所示,当查询数据中的第一关键词关联与某A1市分公司结点,第二关键词关联与总公司结点时,并且需要获取某市分公司结点和总公司结点之间的组织结构;
此时如果以总公司为起始结点开始查询,逐层遍历,每层都要获取到所有省的分公司,最终才能找到查询目标某市分公司,最终将形成一个伞状的查询路径,逐层展开,查询复杂度较高;如果以某A1市分公司为起始结点开始查询,查询路径将是简单的单向路径,查询复杂度很低。由此可见,查询起点和方向的选择对于路径查询而言是至关重要的,一旦选错数据遍历方向可能形成数据遍历风暴以及超时。
因此,此处需要获取正确的查询方向(其中,正确的查询方向指的是:以某A1市分公司为起始结点开始查询),根据第一查询数据关联的结点的双向PR值和第二查询数据关联的结点的双向PR值选择查询方向。
作为优选的实施方式,此时步骤S3中确定查询方向可以包括以下步骤:
获取查询条件中的查询模式,于查询模式为关键路径模式时:
对第一查询数据进行分析,以分析得到第一查询数据的第一结点,获取得到第一结点的带权双向PR值以及与第一结点相邻的至少一个相邻结点的带权双向PR值,并且将第一结点的带权双向PR值以及与第一结点相邻的至少一个相邻结点的带权双向PR值进行求和计算,以得到第三求和值;
对第二查询数据进行分析,以分析得到第二查询数据的第二结点,获取得到第二结点的带权双向PR值以及与第二结点相邻的至少一个相邻结点的带权双向PR值,并且将第二结点的带权双向PR值以及与第二结点相邻的至少一个相邻结点的带权双向PR值进行求和计算,以得到第四求和值;
判断第三求和值是否大于第四求和值;
若是,将第二结点作为起始结点;
若否,将第一结点作为起始结点。
在上述确定查询方向中,实现了查询方向由低PR和地向高PR和地进行扩散,并且在上述实施例中,由于双向PR值反映的是一个结点在整个知识图谱中的到达率以及影响力,因此双向PR值地和越大的区域其子图的到达率也越高,因此本实施例采用双向PR值来衡量明确查询方向,从而实现通过由低到达率地向高到达率的查询来降低数据扩散幅度。
在上述实施例中,当用户没有指定查询模式时,可以将关键路径模式作为默认的查询模式,从而通过由低到达率地向高到达率的查询来降低数据扩散幅度。
作为优选的实施方式步骤S3中确定查询方向,还可以包括以下步骤:
获取查询条件中的查询模式,于查询模式为全路径模式时:
对第一查询数据进行分析,以分析得到第一查询数据的第一结点,获取得到第一结点的无权双向PR值以及与第一结点相邻的至少一个相邻结点的无权双向PR值,并且将第一结点的无权双向PR值以及与第一结点相邻的至少一个相邻结点的无权双向PR值进行求和计算,以得到第一求和值;
对第二查询数据进行分析,以分析得到第二查询数据的第二结点,获取得到第二结点的无权双向PR值以及与第二结点相邻的至少一个相邻结点的无权双向PR值,并且将第二结点的无权双向PR值以及与第二结点相邻的至少一个相邻结点的无权双向PR值进行求和计算,以得到第二求和值;
判断第一求和值是否大于第二求和值;
若是,将第二结点作为起始结点;
若否,将第一结点作为起始结点。
在上述确定查询方向中,实现了查询方向由低PR和地向高PR和地进行扩散,并且在上述实施例中,由于双向PR值反映的是一个结点在整个知识图谱中的到达率以及影响力,因此双向PR值地和越大的区域其子图的到达率也越高,因此本实施例采用双向PR值来衡量明确查询方向,从而实现通过由低到达率地向高到达率的查询来降低数据扩散幅度。
实施例二、当用户执行全路径查询模式时,即此时不需要进行路径过滤,此时的一种知识图谱路径的检索方法,包括以下步骤:
步骤A1,获取知识图谱,知识图谱包括多个结点,通过pagerank算法计算每个结点的无权PR值组,无权PR值组包括无权正向PR值、无权反向PR值和无权双向PR值;
步骤A2,如图3所示,获取用户的查询请求,查询请求包括第一查询数据、第二查询数据和查询条件,根据查询条件结合第一查询数据对应的结点和第二查询数据对应的结点的无权双向PR值确定查询方向,以根据查询条件并结合查询方向在知识图谱中获取得到第一查询数据和第二查询数据之间的路径,形成第二路径集合,第二路径包括多个结点,每两个相邻的结点之间存在结点关系;
步骤A3,根据第二路径集合中的路径中的每个结点的无权双向PR值计算路径的权重调和平均值,根据路径的权重调和平均值在第二路径集合中筛选得到符合预设规则的路径作为查询路径,并将查询路径反馈至用户。
需要说明的是,本实施例二相较于实施例一除了涉及低价值结点和低价值结点关系的实施方式外,其余实施方式一致,在此不做赘述。
实施例三,一种知识图谱路径的检索系统,具体包括:
计算模块,获取知识图谱,知识图谱包括多个结点,通过pagerank算法计算每个结点的无权PR值组,无权PR值组包括无权正向PR值、无权反向PR值和无权双向PR值,根据结点的无权双向PR值计算带权双向PR值;
筛选模块,根据每个结点的无权正向PR值和无权反向PR值对结点进行筛选,以筛选得到低价值结点,并且获取得到低价值结点关系,低价值结点关系包括低价值结点对应的结点关系;
查询模块,获取用户的查询请求,查询请求包括第一查询数据、第二查询数据和查询条件,根据第一查询数据对应的结点和第二查询数据对应的结点的双向PR值确定查询方向,以根据查询条件并结合查询方向在知识图谱中获取得到第一查询数据和第二查询数据之间的路径,形成第一路径集合,第一路径包括多个结点,每两个相邻的结点之间存在结点关系;
反馈模块,将第一路径集合中包含有低价值结点的路径过滤,以得到第一路径集合,根据查询条件结合第一路径集合中的路径中的每个结点的双向PR值计算路径的权重调和平均值,根据路径的权重调和平均值在第一路径集合中筛选得到符合预设规则的路径作为查询路径,并将查询路径反馈至用户;
其中,双向PR值为无权双向PR值或带权双向PR值。
需要说明的是,本实施例三和实施例一的实施方式一致,在此不做赘述。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (10)

1.一种知识图谱路径的检索方法,其特征在于,包括以下步骤:
步骤S1,获取知识图谱,所述知识图谱包括多个结点,通过pagerank算法计算每个结点的无权PR值组,所述无权PR值组包括无权正向PR值、无权反向PR值和无权双向PR值,根据结点的所述无权双向PR值计算带权双向PR值;
步骤S2,根据每个结点的无权PR值组对结点进行筛选,以筛选得到低价值结点,并且获取得到低价值结点关系,所述低价值结点关系包括所述低价值结点对应的结点关系;
步骤S3,获取用户的查询请求,所述查询请求包括第一查询数据、第二查询数据和查询条件,根据所述第一查询数据对应的结点和所述第二查询数据对应的结点的双向PR值确定查询方向,以根据所述查询条件并结合所述查询方向对所述知识图谱中的包含有所述低价值结点和/或所述低价值结点关系的路径进行过滤,以获取得到所述第一查询数据和所述第二查询数据之间的路径,形成第一路径集合,所述第一路径集合中的路径包括多个结点,每两个相邻的结点之间存在结点关系;
步骤S4,根据所述查询条件结合所述第一路径集合中的所述路径中的每个结点的双向PR值计算所述路径的权重调和平均值,根据所述路径的权重调和平均值在所述第一路径集合中筛选得到符合预设规则的路径作为查询路径,并将所述查询路径反馈至用户;
其中,双向PR值为无权双向PR值或带权双向PR值。
2.如权利要求1所述的知识图谱路径的检索方法,其特征在于,所述步骤S2中筛选得到所述低价值结点具体包括:
将正向PR值超过预设正向PR阈值的结点作为所述低价值结点;和/或
将反向PR值超过预设反向PR阈值的结点作为所述低价值结点;和/或
将双向PR值超过预设双向PR阈值的结点作为所述低价值结点。
3.如权利要求1所述的知识图谱路径的检索方法,其特征在于,所述步骤S2中的筛选得到所述低价值结点,具体包括:
计算结点的正向PR值和反向PR值之间的差的绝对值,并将所述绝对值超过预设绝对值阈值的结点作为所述低价值结点。
4.如权利要求1所述的知识图谱路径的检索方法,其特征在于,所述步骤S1中获取带权双向PR值具体包括:
将结点的所述双向PR值按照预设权重算法进行加权求和,以得到结点的加权和;
并根据所述加权和通过pagerank算法计算得到结点对应的带权双向PR值。
5.如权利要求1所述的知识图谱路径的检索方法,其特征在于,所述步骤S2中的获取得到低价值结点关系,具体包括:
获取得到所述低价值结点关联的结点关系;
并根据所述低价值结点关联的结点关系的出现的次数进行排序,以将排序后的预设数量的结点关系设置为所述低价值结点关系。
6.如权利要求1所述的知识图谱路径的检索方法,其特征在于,所述步骤S4中的查询条件包括:查询终止条件和查询方式;
其中,所述查询终止条件包括:结束结点或最大跳数;
所述第一路径集合中的路径的结点关系小于或等于所述最大跳数。
7.如权利要求1所述的知识图谱路径的检索方法,其特征在于,所述步骤S3中确定查询方向,具体包括以下步骤:
获取所述查询条件中的查询模式,于所述查询模式为全路径模式时:
对所述第一查询数据进行分析,以分析得到所述第一查询数据的第一结点,获取得到所述第一结点的无权双向PR值以及与所述第一结点相邻的至少一个相邻结点的无权双向PR值,并且将所述第一结点的无权双向PR值以及与所述第一结点相邻的至少一个相邻结点的无权双向PR值进行求和计算,以得到第一求和值;
对所述第二查询数据进行分析,以分析得到所述第二查询数据的第二结点,获取得到所述第二结点的无权双向PR值以及与所述第二结点相邻的至少一个相邻结点的无权双向PR值,并且将所述第二结点的无权双向PR值以及与所述第二结点相邻的至少一个相邻结点的无权双向PR值进行求和计算,以得到第二求和值;
判断所述第一求和值是否大于所述第二求和值;
若是,将所述第二结点作为起始结点;
若否,将所述第一结点作为起始结点。
8.如权利要求1所述的知识图谱路径的检索方法,其特征在于,所述步骤S3中确定查询方向,具体包括以下步骤:
获取所述查询条件中的查询模式,于所述查询模式为关键路径模式时:
对所述第一查询数据进行分析,以分析得到所述第一查询数据的第一结点,获取得到所述第一结点的带权双向PR值以及与所述第一结点相邻的至少一个相邻结点的带权双向PR值,并且将所述第一结点的带权双向PR值以及与所述第一结点相邻的至少一个相邻结点的带权双向PR值进行求和计算,以得到第三求和值;
对所述第二查询数据进行分析,以分析得到所述第二查询数据的第二结点,获取得到所述第二结点的带权双向PR值以及与所述第二结点相邻的至少一个相邻结点的带权双向PR值,并且将所述第二结点的带权双向PR值以及与所述第二结点相邻的至少一个相邻结点的带权双向PR值进行求和计算,以得到第四求和值;
判断所述第三求和值是否大于所述第四求和值;
若是,将所述第二结点作为起始结点;
若否,将所述第一结点作为起始结点。
9.一种知识图谱路径的检索方法,其特征在于,包括以下步骤:
步骤A1,获取知识图谱,所述知识图谱包括多个结点,通过pagerank算法计算每个结点的无权PR值组,所述无权PR值组包括无权正向PR值、无权反向PR值和无权双向PR值;
步骤A2,获取用户的查询请求,所述查询请求包括第一查询数据、第二查询数据和查询条件,根据所述查询条件结合所述第一查询数据对应的结点和所述第二查询数据对应的结点的无权双向PR值确定查询方向,以根据所述查询条件并结合所述查询方向在所述知识图谱中获取得到所述第一查询数据和所述第二查询数据之间的路径,形成第二路径集合,所述第二路径集合中的路径包括多个结点,每两个相邻的结点之间存在结点关系;
步骤A3,根据所述第二路径集合中的所述路径中的每个结点的无权双向PR值计算所述路径的权重调和平均值,根据所述路径的权重调和平均值在所述第二路径集合中筛选得到符合预设规则的路径作为查询路径,并将所述查询路径反馈至用户。
10.一种知识图谱路径的检索系统,其特征在于,具体包括:
计算模块,获取知识图谱,所述知识图谱包括多个结点,通过pagerank算法计算每个结点的无权PR值组,所述无权PR值组包括无权正向PR值、无权反向PR值和无权双向PR值,根据结点的所述无权双向PR值计算带权双向PR值;
筛选模块,根据每个结点的无权正向PR值和无权反向PR值对结点进行筛选,以筛选得到低价值结点,并且获取得到低价值结点关系,所述低价值结点关系包括所述低价值结点对应的结点关系;
查询模块,获取用户的查询请求,所述查询请求包括第一查询数据、第二查询数据和查询条件,根据所述第一查询数据对应的结点和所述第二查询数据对应的结点的双向PR值确定查询方向,以根据所述查询条件并结合所述查询方向对所述知识图谱中的包含有所述低价值结点和/或所述低价值结点关系的路径进行过滤,以获取得到所述第一查询数据和所述第二查询数据之间的路径,形成第一路径集合,所述第一路径包括多个结点,每两个相邻的结点之间存在结点关系;
反馈模块,根据所述查询条件结合所述第一路径集合中的所述路径中的每个结点的双向PR值计算所述路径的权重调和平均值,根据所述路径的权重调和平均值在所述第一路径集合中筛选得到符合预设规则的路径作为查询路径,并将所述查询路径反馈至用户;
其中,双向PR值为无权双向PR值或带权双向PR值。
CN202110997869.8A 2021-08-27 2021-08-27 一种知识图谱路径的检索方法及其系统 Pending CN114003727A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110997869.8A CN114003727A (zh) 2021-08-27 2021-08-27 一种知识图谱路径的检索方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110997869.8A CN114003727A (zh) 2021-08-27 2021-08-27 一种知识图谱路径的检索方法及其系统

Publications (1)

Publication Number Publication Date
CN114003727A true CN114003727A (zh) 2022-02-01

Family

ID=79921158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110997869.8A Pending CN114003727A (zh) 2021-08-27 2021-08-27 一种知识图谱路径的检索方法及其系统

Country Status (1)

Country Link
CN (1) CN114003727A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254132A (zh) * 2022-03-01 2022-03-29 北京理工大学 一种材料数据的检索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254132A (zh) * 2022-03-01 2022-03-29 北京理工大学 一种材料数据的检索方法

Similar Documents

Publication Publication Date Title
RU2387005C2 (ru) Способ и система ранжирования объектов на основе отношений внутри типа и между типами
US11314823B2 (en) Method and apparatus for expanding query
Liu et al. Keywords‐driven and popularity‐aware paper recommendation based on undirected paper citation graph
Woo et al. Networking support for query processing in sensor networks
US7636713B2 (en) Using activation paths to cluster proximity query results
US7653618B2 (en) Method and system for searching and retrieving reusable assets
EP1596314A1 (en) Method and system for determining similarity of objects based on heterogeneous relationships
US20110066623A1 (en) Methods and Systems for Compressing Indices
Tsioutsiouliklis et al. Link recommendations for PageRank fairness
Santoso et al. Close dominance graph: An efficient framework for answering continuous top-$ k $ dominating queries
Bidoni et al. A generalization of the pagerank algorithm
Fariss et al. Comparative study of skyline algorithms for selecting Web Services based on QoS
CN114003727A (zh) 一种知识图谱路径的检索方法及其系统
Maaradji et al. Social web mashups full completion via frequent sequence mining
Huang et al. Discovering association rules with graph patterns in temporal networks
Li et al. DSM-PLW: Single-pass mining of path traversal patterns over streaming Web click-sequences
Zhou et al. Clustering analysis in large graphs with rich attributes
Yang et al. On characterizing and computing the diversity of hyperlinks for anti-spamming page ranking
Kimelfeld et al. Efficient Engines for Keyword Proximity Search.
US20080256037A1 (en) Method and system for generating an ordered list
US10394761B1 (en) Systems and methods for analyzing and storing network relationships
He et al. Scaling Up k-Clique Densest Subgraph Detection
Ma et al. InfMatch: Finding isomorphism subgraph on a big target graph based on the importance of vertex
Liu et al. Context-aware graph pattern based top-k designated nodes finding in social graphs
Chandrasekaran et al. Efficient Web Service Discovery and Selection Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination