CN111177410A

CN111177410A - 基于进化R-tree的知识图谱存储和相似性检索方法

Info

Publication number: CN111177410A
Application number: CN201911382486.9A
Authority: CN
Inventors: 陈海波; 张宸宇
Original assignee: Hangzhou Zedaxin Pharmaceutical Alliance Information Technology Co Ltd; Zhejiang Sci Tech University ZSTU
Current assignee: Hangzhou Zedaxin Pharmaceutical Alliance Information Technology Co Ltd; Zhejiang Sci Tech University ZSTU
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-19
Anticipated expiration: 2039-12-27
Also published as: CN111177410B

Abstract

本发明公开了一种基于进化R‑tree的知识图谱存储和相似性检索方法，本发明根据知识项在知识图谱中的关系，为每项构成一个特征空间的邻域，相似性越高的项其邻域的重叠度越高，每个邻域都是特征空间中的超立方体，从而使得相似性检索转变成判断立方体重叠问题，从而将相似性检索问题转换成边界值比较问题，简化了计算过程；本发明采用进化R‑tree将图的搜索问题转换成树的搜索问题，在R‑tree引入了根据查询频率进化R‑tree结构的方法，R‑tree节点根据历史查询频度完成分裂操作和重构操作，解决了R‑tree节点区域分布与实际查询分布不一致问题，从而减少访问节点数量，提高检索效率。

Description

基于进化R-tree的知识图谱存储和相似性检索方法

技术领域

本发明涉及知识图谱及检索领域，尤其涉及一种基于进化R-tree的知识图谱存储和相似性检索方法。

背景技术

基于云平台的医药知识图谱的存储、检索和推理技术是当前医药大数据智能化的关键技术，它能够满足多种应用场景的实际需要，提供包括临床辅助决策、趋势预测、易感人群检索、语义问答、疾病检查、食谱理疗等在内的多方面的综合性应用服务。

由于医药领域的知识存在大量的隐语义关联，在以某个关键词或者句子作为检索输入的时候，不仅需要检索到匹配的知识条目，还需要快速检索到与该知识条目相似的关联条目，并按照相似的程度进行排序，逐批有条理的交付检索结果，这是当前医药云知识图谱存储和检索的关键技术难点，也是行业应用亟待解决的技术问题之一。

医药知识图谱多以图数据库的形式来存储知识条目，如Neo4J、RDF4j等，以知识项为节点，以知识项语义关联为边，通过RDF语法实现知识条目的检索，这种基于图沿边检索的方法往往效率很低，需要进行大量的深度遍历和回溯，且检索结果的相似性需要在检索以外再进行量化计算，导致更低的应用效率。近年来随着图神经网络技术的成熟，知识图谱也可以采用图神经网络来完成检索，该技术为每个节点和边存储一个特征向量和一个状态，通过动态修改节点和边的特征值和状态来达到学习的目标，与传统RDF图数据库的形式相比，图神经网络更有利于进行复杂的知识推理，然而其检索技术仍旧是基于图的边缘搜索技术，检索效率仍有待提高。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于进化R-tree的知识图谱存储和相似性检索方法，该方法使用树型结构存储知识索引，并根据用户检索的特征分布逐步进化索引树结构，以达到逐步优化检索效率的目的。

本发明的目的是通过以下技术方案来实现的：一种基于进化R-tree的知识图谱存储和相似性检索方法，包括：

(1)将知识图谱记为G＝<V,R>，其中V为知识项的集合，

是实数集，N＝|V|是知识项集合的大小，P是知识项的维度，每个知识项构成P维特征空间中的点，R则是知识语义关系的集合，

为V的子集；为集合V中每一个知识项构建一个多维邻域；

(2)构建初始R-tree：初始R-tree共有N+1个节点，其中N个知识项作为叶节点，它们具有共同的唯一父节点，每个节点表示为六元组(id,region,index,parent,childs,fre)，其中id为节点的唯一整数标识，region表示该节点所包围的特征空间区域，index为指向原知识图谱存储项的索引，patent为父节点的id，childs为子节点id的集合，fre为节点访问频率，初始值为0；对于叶节点，其region即为知识项的邻域，对于非叶节点，其region为其子节点的邻域的外接邻域；

(3)基于R-tree的检索：对于一个R-tree，第i层节点的个数记为m⁽ⁱ⁾，1<i≤H+1，其中H+1为树的高度；记M为R-tree节点的最大子节点个数；给定一个检索区域W(w₁,w₂,...,w_P)，其中w_i(i＝1,2,...,P)表示检索区域第i维的宽度，第i层第j个节点所包围的特征空间区域R_ij(r_ij1,r_ij2,...,r_ijP)与W相交的概率记为PR_ij，r_ijq(q＝1,2,...,P)表示特征空间区域第q维的宽度；

第k层的平均节点访问个数n_k为：

整个R-tree的平均节点访问个数F为树的每一层的节点访问个数之和；

在检索过程中，让R-tree的节点分布随着检索区域的分布动态进化，包括：

(3.1)对检索区域W，从R-tree自根节点向叶节点检索，并对所有检索到的叶节点，令其fre值加1；

(3.2)若节点的子节点数量超过M，则执行分裂操作；

(3.3)若某节点的fre值大于频率阈值FRE_max。

进一步地，所述步骤(1)中，所述为集合V中每一个知识项构建一个多维邻域，包括：

(1.1)对V中的任一个元素

构建一个多元高斯函数N(x|u，Σ)，x,u,Σ分别为多元高斯函数的自变量、均值和方差；令u＝v，取v邻域K个元素

构成v的邻域集

根据Φ计算Σ：

(1.2)根据多元高斯函数N(x|u，Σ)建立方程：

其中θ为超参，取值在[0.5,0.8]之间，缺省值为0.5，该方程的解为特征空间的一个椭球。

(1.3)对P维空间的每一维P_i，计算P_i的邻域长度。

进一步地，所述步骤(1.3)包括：用u₁,u₂,...,u_P表示u的每一维的值，即u＝(u₁,u₂,...,u_P)；令x＝(u₁,u₂,...,u_P)/x_i，表示将u_i用一个未知的变量x_i替换后得到的向量(i∈{1,2,...,P})，将x代入到方程(1.2)中可解得x_i(i∈{1,2,...,P})，从而(v₁±x₁,v₂±x₂,...,v_p±x_p)构成v的一个P维邻域。

进一步地，所述步骤(2)中，对于非叶节点，其region为其子节点的邻域的外接邻域，外接邻域的计算方法如下：对于任一个非叶节点z，有T个子节点，R_i＝(u_i1±x_i1,u_i2±x_i2，...，u_iP±x_iP)为其第i个子节点所包围的特征空间区域，i＝1,...,T，则z所包围的特征空间区域region_z为：

region_z＝(u_z1±x_z1,u_z2±x_z2,...,u_zP±x_zP) (2.1)

其中对每一个u_zt和x_zt,t＝1,2，...,P，计算公式如下：

这里大括号表示集合，min表示取集合元素的最小值，max表示取集合元素的最大值。

进一步地，所述步骤(3)中，R-tree节点的最大子节点个数M的取值与知识图谱的规模本身相关，取值在

之间，缺省值为

进一步地，所述步骤(3)中，R-tree的查询效率不仅与节点所包围的特征空间区域相关，也与节点的子节点所包围的特征空间区域分布相关：若检索区域与节点的子节点相交较少，则回溯访问操作次数也较少，因此需要减少子节点的访问个数。

进一步地，所述步骤(3.2)中，分裂的基本思想是让分裂后同一个子节点fre值相近，且子节点尽量重叠，具体包括以下子步骤：

(3.2.1)输入：待分裂节点Node；输出：分裂后的节点集Snode。

(3.2.2)Node的每个子节点集合为Childs＝{C₁,C₂,...,C_T}，对其中每一个子节点C_i(i∈{1,2,...,T})，计算其所包围的特征空间区域在第j维(j∈{1,2...,P})的上下边界延伸后穿越其它子节点的数量，记为

和

分别表示第i个子节点的第j维的下边界和上边界延伸后穿过其它子节点包围的特征空间区域的数量。

对于第j维(j∈{1,2...,P})，其全部子节点计算的穿越数集合为：

所有维的全部子节点计算的穿越数构成一个P×2T的矩阵：

(3.2.3)对公式(3.2)中的每一行，都存在一个最小值，记为N_j,min(其中j为行号，j∈{1,2,...,P})。由于矩阵中每行中取最小值的元素可能不止一个，则第j行中所有满足值等于N_j,min的元素构成一个集合，称为最小穿越集。

其中t1,t2,tk∈{1,2,...,T},s1,s2,...,sk∈{1,2},k≤2T，且满足S_j,min中的每一个元素，其值都等于N_j,min。

(3.2.4)S_j,min(j∈{1,2,...,P}₎实际上对应了一个节点分裂方案：该集合中每一个元素

第ti个子节点的第j维的下边界(当q＝1时)或上边界(当q＝2时)延伸后将所有子节点分隔成两组，因此S_j,min能够将Node的T个子节点分成k+1个组，记为

(3.2.5)由于j∈{1,2,...,P}，步骤(3.2.4)共形成P个节点分裂方案，下面根据每个子节点的fre值，计算步骤(3.2.4)划分

的不匹配度，并选择不匹配最小的那个方案。不匹配度是指与实际查询分布的不匹配程度，定义为：

为Node节点的第j维分组的不匹配度，N_x＝|GC_x|，即第x组所有子节点的数量，fre_i为第x组中第i个子节点的fre值。

(3.2.6)对所有的

选择其中不匹配最小的划分作为分裂结果，并根据此分裂结果调整R-tree。

进一步地，所述步骤(3.3)中，重构操作具体包括以下子步骤：

(3.3.1)从倒数第二层节点开始逐层开始向上重构，令L为当前重构的层，其初值为H。

(3.3.2)对第L层的每一对节点

若两者包围区域region不相交，则不进行重构。

(3.3.3)若

的所有子节点的fre值都不相同，也不进行重构。

(3.3.4)对

的所有子节点按照fre值从大到小排序，取前M个作为

的子节点，剩余的作为

的子节点，并重新计算

的包围特征空间区域；重构的两个节点至少有一个节点的空间利用率达到最大。该过程使得查询频度fre相近且区域有重叠的子节点被分到同一个父节点。

(3.3.5)令L＝L-1，若L为0，重构结束，否则返回步骤(3.3.1)。

进一步地，所述步骤(3.3)中，频率阈值FRE_max可以取一段时间内单日查询次数的均值。

本发明的有益效果是：

1、本发明根据知识项在知识图谱中的关系，为每项构成一个特征空间的邻域，相似性越高的项其邻域的重叠度越高，每个邻域都是特征空间中的超立方体，从而使得相似性检索转变成判断立方体重叠问题，从而将相似性检索问题转换成边界值比较问题，简化了计算过程。

2、本发明采用进化R-tree将图的搜索问题转换成树的搜索问题，在R-tree引入了根据查询频率进化R-tree结构的方法，R-tree节点根据历史查询频度完成分裂操作和重构操作，解决了R-tree节点区域分布与实际查询分布不一致问题，从而减少访问节点数量，提高检索效率的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中节点分裂流程示意图；

图2为本发明实施例中节点重构流程示意图；

图3为本发明实施例中节点分裂执行示例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明提供的一种基于进化R-tree的知识图谱存储和相似性检索方法，包括：

(1)令G＝<V,R>为知识图谱，其中V为知识项的集合，

是实数集，N＝|V|是知识项集合的大小，P是知识项的维度，每个知识项构成P维特征空间中的点；R则是知识语义关系的集合，

为V的子集。该方法首先为V中每一个知识项构建一个多维邻域，构建方法如下：

(1.1)对V中的任一个元素

构成v的邻域集

根据Φ计算Σ：

(1.2)根据多元高斯函数N(x|u，Σ)建立方程：

(1.3)对P维空间的每一维P_i，计算P_i的邻域长度：

用u₁,u₂,...,u_P表示u的每一维的值，即u＝(u₁,u₂,...,u_P)；令x＝(u₁,u₂,...,u_P)/x_i，表示将u_i用一个未知的变量x_i替换后得到的向量(i∈{1,2,...,P})，将x代入到方程(1.2)中可解得x_i(i∈{1,2,...,P})，从而(v₁±x₁,v₂±x₂,...,v_p±x_p)构成v的一个P维邻域。

(2)在第一步的基础上构建初始R-tree。初始R-tree共有N+1个节点，其中N个知识项作为叶节点，它们有共同的唯一父节点(根节点)，每个节点可以表示为六元组(id,region,index,parent,childs,fre)，id为节点的唯一整数标识，region表示该节点所包围的特征空间区域，index为指向原知识图谱存储项的索引，对于非叶节点，其值总是0，patent为父节点的id，childs为子节点id的集合，fre为节点访问频率，初始值为0。

在原有知识图谱的存储上增加对R-tree的六元组的存储。由于叶节点就是知识项，因此其region就是知识项的邻域，对于非叶节点，其region为其子节点的邻域的外接邻域，外接邻域的计算方法如下：对于任一个非叶节点z，有T个子节点，R_i＝(u_i1±x_i1,u_i2±x_i2，...，u_iP±x_iP)为其第i个子节点所包围的特征空间区域，i＝1,...,T，则z所包围的特征空间区域region_z为：

region_z＝(u_z1±x_z1,u_z2±x_z2,...,u_zP±x_zP) (2.1)

其中对每一个u_zt和x_zt,t＝1,2，...,P，计算公式如下：

(3)初始R-tree的检索效率是比较低的，因为根节点以所有的叶节点为子节点，这使得相似性检索需要遍历所有叶节点，检查每个叶节点所包围的特征空间区域是否与检索区域相交，因此需要考虑通过增加R-tree的深度分裂节点来提高检索效率。

传统的R-tree分裂算法并不考虑实际检索区域的分布规律，而合理的R-tree节点分布应与检索区域的分布规律相关：对于一个R-tree，第i层节点的个数记为m⁽ⁱ⁾，1<i≤H+1，其中H+1为树的高度。记M为R-tree节点的最大子节点个数，这里M取值与知识图谱的规模本身相关，取值在

之间，缺省值为

给定一个检索区域W(w₁,w₂,...,w_P)，其中w_i(i＝1,2,...,P)表示检索区域第i维的宽度，任一个R-tree节点所包围的特征空间区域R_ij(r_ij1,r_ij2,...,r_ijP)与W相交的概率(不考虑其子节点)记为PR_ij，R_ij表示第i层第j个节点所包围的特征空间区域，r_ijq,(q＝1,2,...,P)表示特征空间区域第q维的宽度。

由此可知第k层的平均节点访问个数为：

而整个R-tree的平均节点访问个数F为树的每一层的节点访问个数之和(第一层根节点必然被访问)：

公式(3.3)表明R-tree的查询效率不仅与节点所包围的特征空间区域相关，也与节点的子节点所包围的特征空间区域分布相关：若检索区域与节点的子节点相交较少，则回溯访问操作次数也较少，因此需要重新考虑如何减少子节点的访问个数。查询效率与不同检索区域出现的概率相关，因此改进的R-tree是让R-tree的节点分布随着检索区域的分布动态进化，具体由步骤(3.1)-(3.4)完成。

(3.1)对检索区域W，从R-tree自根节点向叶节点检索，并对所有检索到的叶节点，令其fre值加1。

(3.2)若节点的子节点数量超过M，则执行分裂操作，分裂的基本思想是让分裂后同一个子节点fre值相近，且子节点尽量重叠，流程示意见图1，具体包括以下子步骤：

(3.2.1)输入：待分裂节点Node；输出：分裂后的节点集Snode。

(3.2.2)Node的每个子节点集合为Childs＝{C₁,C₂,...,C_T}，对其中每一个子节点C_i(i∈{1,2,...,T})，计算其所包围的特征空间区域在第j维(j∈{1,2...,P})的上下边界延伸后穿越其它子节点的数量(称为穿越数)，记为

和

分别表示第i个子节点的第j维的下边界(j1)和上边界(j2)延伸后穿过其它子节点包围的特征空间区域的数量。

所有维的全部子节点计算的穿越数构成一个P×2T的矩阵：

(3.2.3)对公式(3.5)中的每一行，都存在一个最小值，记为N_j,min(其中j为行号，j∈{1,2,...,P})。由于矩阵中每行中取最小值的元素可能不止一个，则第j行中所有满足值等于N_j,min的元素构成一个集合，称为最小穿越集。

(3.2.6)对所有的

(3.3)若某节点的fre值大于FRE_max，则执行重构操作。FRE_max取30天的单日查询次数的均值，重构流程示意见图2，具体包括以下子步骤：

(3.3.2)对第L层的每一对节点

若两者的包围区域region不相交，则不进行重构。

(3.3.3)若

的所有子节点的fre值都不相同，也不进行重构。

(3.3.4)对

的所有子节点按照fre值从大到小排序，取前M个作为

的子节点，剩余的作为

的子节点，并根据公式(2.1)重新计算

(3.3.5)令L＝L-1，若L为0，重构结束，否则返回步骤(3.3.1)。

为了说明该方法如何提高检索效率的特点，通过一个示例说明分裂方法和重构方法对R-tree方法的改进。该示例针对医药知识图谱，为了可视化改进效果，这里假设特征维度P＝2，第一维表示中药饮片药材的毒性，第二维表示中药饮片药材的发酵时间。共6个知识检索项，分别是干姜、石决明、赤芍、芒硝、栀子、生地黄，用小写字母a,b,c,d,e,f表示，每个知识项的邻接区域构成如图3所示，其中W为检索区域(毒性范围0.2-0.6，发酵时间0.6-0.7)，节点分裂过程如下：

1)对第一维，计算每项左边界和右边界穿过其它节点的个数，分别为：

2)对以上排列按照从小到大的顺序排序，取得其中最小值子集，如下：

3)按以上排列分组，取f节点的第一维下边界，c节点的第一维上边界，b节点的第一维下边界，d节点的第一维上边界，a节点的第一维两个边界，将所有边界延伸后进行分组，结果为：{{f,e,c},{b,d},{a}}；

4)若各个节点被访问的频度为{a:0,b:4,c:1,d:3,e:0,f:0}，根据公式3.8计算最小值子集的不匹配度为：

5)对第二维，计算每项下边界和上边界穿过其它节点的个数，分别为{a:0,1；c:1,0；b:1,1；d:0,1；f:1,1；e:1,0}

6)对以上排列按照从小到大的顺序排序，取得其中最小值子集，如下：

7)按以上排列分组，取a节点的第二维下边界，c节点的第二维上边界，d节点的第二维下边界，e节点的第二维上边界，将所有边界延伸后进行分组，结果为：{{e,f,d},{b,c,a}}；

8)根据公式3.8计算最小值子集的不匹配度为：

9)比较第一维和第二维匹配度，取最小的作为划分，划分结果为：{{f,e,c},{b,d},{a}}；对检索区域W，采用该访问只要访问一个节点，即可以检索出b(石决明)，d(芒硝)。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于进化R-tree的知识图谱存储和相似性检索方法，其特征在于，包括：

(1)将知识图谱记为G＝<V,R>，其中V为知识项的集合，

为V的子集；为集合V中每一个知识项构建一个多维邻域。

(2)构建初始R-tree：初始R-tree共有N+1个节点，其中N个知识项作为叶节点，它们具有共同的唯一父节点，每个节点表示为六元组(id,region,index,parent,childs,fre)，其中id为节点的唯一整数标识，region表示该节点所包围的特征空间区域，index为指向原知识图谱存储项的索引，patent为父节点的id，childs为子节点id的集合，fre为节点访问频率，初始值为0；对于叶节点，其region即为知识项的邻域，对于非叶节点，其region为其子节点的邻域的外接邻域。

第k层的平均节点访问个数n_k为：

(3.2)若节点的子节点数量超过M，则执行分裂操作；

(3.3)若某节点的fre值大于频率阈值FRE_max，则执行重构操作。

2.根据权利要求1所述的一种基于进化R-tree的知识图谱存储和相似性检索方法，其特征在于，所述步骤(1)中，所述为集合V中每一个知识项构建一个多维邻域，包括：

(1.1)对V中的任一个元素

构成v的邻域集

根据Φ计算Σ：

(1.2)根据多元高斯函数N(x|u，Σ)建立方程：

(1.3)对P维空间的每一维P_i，计算P_i的邻域长度。

3.根据权利要求1所述的一种基于进化R-tree的知识图谱存储和相似性检索方法，其特征在于，所述步骤(1.3)包括：用u₁,u₂,...,u_P表示u的每一维的值，即u＝(u₁,u₂,...,u_P)；令x＝(u₁,u₂,...,u_P)/x_i，表示将u_i用一个未知的变量x_i替换后得到的向量(i∈{1,2,...,P})，将x代入到方程(1.2)中可解得x_i(i∈{1,2,...,P})，从而(v₁±x₁,v₂±x₂,...,v_p±x_p)构成v的一个P维邻域。

4.根据权利要求1所述的一种基于进化R-tree的知识图谱存储和相似性检索方法，其特征在于，所述步骤(2)中，对于非叶节点，其region为其子节点的邻域的外接邻域，外接邻域的计算方法如下：对于任一个非叶节点z，有T个子节点，R_i＝(u_i1±x_i1,u_i2±x_i2，...，u_iP±x_iP)为其第i个子节点所包围的特征空间区域，i＝1,...,T，则z所包围的特征空间区域region_z为：

region_z＝(u_z1±x_z1,u_z2±x_z2,...,u_zP±x_zP) (2.1)

其中对每一个u_zt和x_zt,t＝1,2，...,P，计算公式如下：

5.根据权利要求1所述的一种基于进化R-tree的知识图谱存储和相似性检索方法，其特征在于，所述步骤(3)中，R-tree节点的最大子节点个数M的取值与知识图谱的规模本身相关，取值在

之间，缺省值为

6.根据权利要求1所述的一种基于进化R-tree的知识图谱存储和相似性检索方法，其特征在于，所述步骤(3)中，R-tree的查询效率不仅与节点所包围的特征空间区域相关，也与节点的子节点所包围的特征空间区域分布相关：若检索区域与节点的子节点相交较少，则回溯访问操作次数也较少，因此需要减少子节点的访问个数。

7.根据权利要求1所述的一种基于进化R-tree的知识图谱存储和相似性检索方法，其特征在于，所述步骤(3.2)中，分裂的基本思想是让分裂后同一个子节点fre值相近，且子节点尽量重叠，具体包括以下子步骤：

(3.2.1)输入：待分裂节点Node；输出：分裂后的节点集Snode。