CN111309979B - 一种基于邻居向量的RDF Top-k查询方法 - Google Patents

一种基于邻居向量的RDF Top-k查询方法 Download PDF

Info

Publication number
CN111309979B
CN111309979B CN202010122931.4A CN202010122931A CN111309979B CN 111309979 B CN111309979 B CN 111309979B CN 202010122931 A CN202010122931 A CN 202010122931A CN 111309979 B CN111309979 B CN 111309979B
Authority
CN
China
Prior art keywords
node
label
nodes
matching
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010122931.4A
Other languages
English (en)
Other versions
CN111309979A (zh
Inventor
董荣胜
刘江江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010122931.4A priority Critical patent/CN111309979B/zh
Publication of CN111309979A publication Critical patent/CN111309979A/zh
Application granted granted Critical
Publication of CN111309979B publication Critical patent/CN111309979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于邻居向量的RDF Top‑k查询方法,该方法在离线阶段,将RDF数据和SPARQL查询分别建模为RDF数据图和SPARQL查询图,并构造邻接表、逆邻接表、标签节点反向列表索引、节点邻居节点标签列表索引、节点h‑hop邻居节点集合、P‑In和P‑Out等索引;在匹配阶段,采用一种基于卡方统计技术对候选节点的邻居节点的结构以及邻居节点的标签进行相似度量,并采用生成树的方式进行扩展匹配;最后,得到Top‑k个和SPARQL查询图近似匹配序列,并输出每个序列中SPARQL查询图中变量节点所匹配的数据图节点的标签。该方法避免了代价高昂的图同构和编辑距离计算,对标签和结构不匹配的情况有很强的鲁棒性,能够准确高效地回答SPARQL近似查询问题。

Description

一种基于邻居向量的RDF Top-k查询方法
技术领域
本发明涉及大规模RDF数据查询技术领域,具体是一种基于邻居向量的RDF Top-k查询方法。
背景技术
资源描述框架(Resource Description Framework,简称RDF)是由W3C提出的对万维网上信息进行描述的一个框架,它为Web上的各种应用提供信息描述规范。SPARQL是W3C为实现RDF数据的检索标准所定义的查询语言。许多应用在生成RDF数据时产生错误数据(如手动数据输入引入错误等)从而导致RDF数据变脏。此外,在智能问答场景中,在将用户提出的自然语言问题转化为符合SPARQL查询标准的问题时,通常会引入标签噪声和结构噪声。对带有噪声的SPARQL查询执行精确查找,系统很难找出完全符合SPARQL查询问题的答案,因此,无法有效满足用户的查询需求。如何在有脏数据和带有噪音的SPARQL的情况下,获得用户满意的Top-k查询,是当前研究RDF查询的一个热点。
目前,RDF数据上的Top-k查询主要为关键词查询,一种方法为对关键词直接构造查询结果的方式,另一种方法通常是对关键词构造出形式化查询结果进行查询。基于关键词直接构造查询结果的方法,通常需要借助有效的索引,如基于关键词的倒排索引,摘要索引等进行子图定位,在RDF数据中找到包含关键词的最小子图结构。而对关键词构造出形式化查询的方法,通常包括关键词映射、构建查询和对查询进行排序三个步骤。
针对目前SPARQL中存在的噪声等问题,本发明提供一种基于邻居向量的近似子图匹配方法。在离线阶段,将RDF数据和SPARQL查询分别建模为RDF数据图和SPARQL查询图,并构造邻接表、逆邻接表、标签节点反向列表索引、节点邻居节点标签列表索引、节点h-hop邻居节点集合等、P-In和P-Out。在匹配阶段,采用一种基于卡方统计技术对节点的邻居节点的结构以及邻居节点的标签进行相似度量,并采用树生成的方式进行扩展匹配。最后,得到Top-k个和SPARQL查询图近似的匹配序列,并输出SPARQL查询变量对应的匹配节点标签。
发明内容
本发明的目的在于提供一种邻居向量的Top-k RDF查询方法,该方法采用一种卡方统计方法对候选节点的背景结构、标签分布和h-hop邻居节点进行相似度量,并采用生成树的方式进行扩展;该方法能够有效输出带有噪声的Top-k RDF查询结果。
实现本发明目的的技术方案是:
一种基于邻居向量的RDF Top-k查询方法,所述RDF的数据集为<S,P,O>三元组的集合,查询问题满足SPARQL标准,包括如下步骤:
1)分别将RDF数据和SPARQL查询建模为有向标签RDF数据图G和SPARQL查询图Q,使用邻接表对RDF数据图G和SPARQL查询图Q进行存储,并构建逆邻接表;
2)分别为RDF数据图G和SPARQL查询图Q创建标签节点反向列表索引ILG和ILQ,创建节点邻居节点标签列表索引LNLG和LNLQ,创建边标签相关的起始节点和终止节点列表索引P-In和P-Out,为RDF数据图G的每个节点u创建h-hop邻接节点集合;
3)为SPARQL查询图Q中的每一个节点构建节点标签匹配对,得到节点标签匹配对列表VPL;
4)构建大根堆PH,依次计算节点标签匹配对列表VPL每一个节点标签匹配对<ui,vi>的卡方值
Figure GDA0003665155530000021
构建三元组
Figure GDA0003665155530000022
并依次插入到大根堆PH中;
5)从大根堆PH中提取卡方值
Figure GDA0003665155530000023
最大的三元组
Figure GDA0003665155530000024
以节点<u,v>为根以生成树的方式进行扩展匹配,得到一个近似匹配序列M(i),并添加到近似匹配序列集合M中;重复该步骤,直到得到满足用户所需的k个近似匹配序列;
6)输出M中每一个近似匹配序列中查询图Q中变量节点所匹配的数据图G中节点的标签。
所述的步骤1),具体包括如下步骤:
1-1)将RDF数据建模为有向标签RDF数据图G=<V,Lv,E,Le>,其中,V表示RDF数据图G中的节点集合,V中的每一个节点对应RDF三元组<S,P,O>中的S和O;Lv表示RDF数据图G中的节点的标签集合;E表示图G中节点之间有向边的集合,对应于RDF三元组<S,P,O>中的S和O之间的P;Le表示图G中有向边标签的集合;使用邻接表的方式存储RDF数据图,同时构建逆邻接表;
1-2)将SPARQL查询建模为有向标签SPARQL查询图Q=<V′,L′v,E′,L′e>,其中,V′表示SPARQL查询图中的节点集合,V′中的每一个节点对应SPARQL三元组<S,P,O>中的S和O;L′v表示SPARQL查询图中的节点的标签集合,若SPARQL查询中S和O为变量节点,则采用符号{*}作为变量节点标签;E′表示SPARQL查询图中节点之间有向边的集合,对应于SPARQL三元组<S,P,O>中S和O之间的P;L′e表示SPARQL查询图中有向边标签的集合;使用邻接表方式存储SPARQL查询图,同时构建逆邻接表。
所述的步骤2),具体包括如下步骤:
2-1)为RDF数据图G构建标签节点反向列表索引ILG,若给定一个标签L(v),RDF数据图G中存在该标签,快速定位到标签为L(v)的节点v,即将标签映射到节点ID;为SPARQL查询图Q构建标签节点反向列表索引ILQ,给定一个标签能快速定位到查询图节点ID;
2-2)为RDF数据图G的每一个节点v构建邻居节点标签列表索引
Figure GDA0003665155530000031
其中,NG(v)表示节点v的邻居节点,在构建的过程中,将节点的邻居节点标签按照标签ID从小到大排序;为SPARQL查询图构建节点邻居节点标签列表索引
Figure GDA0003665155530000032
其中,NQ(u)表示节点u的邻居节点,节点的邻居节点标签按照标签ID从小到大排序;
2-3)在SPARQL查询中,为有效减少变量节点ui的候选域,分别构建邻接表、逆邻接表、边标签相关的起始节点和终止节点列表索引P-In和P-Out;具体的构造方式为:若变量节点ui存在有向出射边<ui,uj>,其中uj为节点ui的邻接点,若uj为常量节点,则通过构建节点uj的逆邻接表以减少变量节点ui的候选域;若uj为变量节点,则通过在数据图中G构建有向边标签<ui,uj>的起始节点的集合P-In,以减少变量节点ui的候选域;若变量节点ui存在有向入射边<uj,ui>,若uj为常量节点,则通过节点uj的邻接表以减少变量节点ui的候选域;若uj为变量节点,则可以通过在数据图中G构建有向边<ui,uj>标签的终止节点的集合P-Out,以减少变量节点ui的候选域;对于查询图中的变量节点,使用以上四种变量节点索引进一步减少变量节点的候选集;
2-4)为RDF数据图G中每一个节点v构造h-hop邻居节点集合,表示为Nh(v)={<v′,i>:d(v,v′)<h,i≤h},其中,v′表示RDF数据图G中与节点v的最短路径长度小于等于h的节点。
所述的步骤3)具体是:对于SPARQL查询图Q中的每一个节点ui,若该节点为常量节点,通过RDF数据图中节点标签反向列表索引ILG获得和节点ui标签相同的节点vi,构建节点标签匹配对(ui,vi)并插入到节点标签匹配对列表VPL中;若节点ui为变量节点,其标签未知,候选节点为RDF数据图中的所有节点,通过步骤2)所构建的邻接表、逆邻接表、P-In和P-Out索引以获得节点ui的最小候选域CR(ui),并将节点标签匹配节点对(ui,v′i)插入到节点对列表VPL中,其中v′i∈CR(ui)。
所述的步骤4),具体包括如下步骤:
4-1)计算节点标签匹配对的匹配符号列表:依次从节点标签匹配序列VPL中取出一个节点标签匹配对(ui,vi),假设RDF数据图G中节点ui的两个邻居节点分别为x和y,其对应的标签分别为
Figure GDA0003665155530000041
Figure GDA0003665155530000042
SPARQL查询图Q中节点的vi的两个邻居节点分别a和b,其对应的标签分别为
Figure GDA0003665155530000043
Figure GDA0003665155530000044
节点ui的两个邻居节点标签
Figure GDA0003665155530000045
和节点的vi的两个邻居节点标签
Figure GDA0003665155530000046
的标签匹配程度可以使用三种符号类型s2,s1和s0进行描述,计算规则如下所示:
s2:节点ui的两个邻接节点标签与节点vi的两个邻居节点标签完全相同,形式化描述为:
Figure GDA0003665155530000047
s1:节点ui的两个邻居节点标签中仅有一个邻接节点的标签与节点vi的一个邻居节点标签相同,形式化描述为:
Figure GDA0003665155530000048
s0:节点ui的两个邻居节点标签中没有一个邻居节点的标签与节点vi的一个邻居节点标签相同,可以形式化描述为:
Figure GDA0003665155530000049
标签重叠的符号的优先级为s2>s1>s0,因此,每一个节点标签匹配对的邻接节点标签匹配情况可以表示为一个由s2、s1和s0组成的符号序列S(ui,vi);若查询图中节点不存在邻接节点,则默认节点对标签匹配符号序列为空,查询图节点ui的两两邻居节点标签的组合的数量为d(d-1)/2,因此,节点标签匹配节点对符号列表的长度为d(d-1)/2;若候选节点vi的邻居节点的数量少于查询图节点ui的数量,则为节点vi构造一个长度为d(d-1)/2的临时邻居节点标签序列,将节点vi的邻居节点标签序列全部复制到节点vi的临时邻居节点标签序列,其余deg(ui)-deg(vi)个空标签位使用字符{#}进行填充,字符{#}不与任何标签匹配;
4-2)计算节点标签匹配预期标签匹配符号s2、s1和s0的出现概率:假设数据图中标签的数量为L,且RDF数据图和SPARQL查询图中的标签都是独立分布的,候选节点vi的邻居节点的数量为d=deg(vi),查询图中某个节点与数据图中某个节点标签相同的概率为1/L,不相同的概率为(1-1/L),则节点ui的一个邻居节点标签与节点vi的任一邻居节点不相同的概率为(1-1/L)d,对于节点标签匹配对(ui,vi),符号s0、s1和s2出现的概率分别为:
pr(s0)=((1-1/L)d)2 (1)
pr(s1)=2·(1-(1-1/L)d)(1-1/L)d (2)
pr(s2)=(1-(1-1/L)d)2 (3)
标签匹配符号s0、s1和s2构成了完整的事件空间即pr(s0)+pr(s1)+pr(s2)=1;
4-3)计算节点标签匹配对卡方值:采用卡方统计量χ2计算事件期望频数和观察频数的之间的标准化平方差,计算公式如下:
Figure GDA0003665155530000051
其中Oi和Ei分别为事件i观察频数和期望频数,期望频数Ei=len×pi,其中len为观察的总次数;χ2统计量遵循卡方分布,p-value越低,χ2统计量越高,则统计显著性越高;因此,检索相似度更高的子图转化为查找具有χ2值较大的子图,对于一个节点标签匹配对,分别使用步骤4-2)中公式(1),(2)和(3)计算查询图每个节点标签匹配对符号s0、s1和s2预期出现概率,并结合符号s0、s1和s2实际出现次数计算每个节点标签匹配对的卡方值;
4-4)依次为每一个节点标签匹配对<ui,vi>计算卡方值
Figure GDA0003665155530000052
构建三元组
Figure GDA0003665155530000061
插入大根堆PH中,并根据节点标签匹配对的卡方值进行排序。
所述的步骤5),具体包括如下步骤:
5-1)从大堆PH中提取卡方值最大的节点标签匹配对<u,v>,插入到匹配序列M(i)中,并在RDF数据图G中和SPARQL查询图Q中分别将u和v标记为已匹配节点,在匹配过程中,已经匹配的节点不能重新匹配;
5-2)构建辅助大根堆SH,创建u为中心的邻接顶点和以v为中心的h-hop邻居节点标签匹配对,匹配节点对中的节点具有相同的标签;计算该匹配节点对的节点匹配程度函数Fh(u′,v′),其中u′为u的邻接节点,v′为v的邻接节点,并将三元组<u′,v′,Fh(u′,v′)>插入到辅助堆SH中;节点匹配程度函数表示为:
Figure GDA0003665155530000062
其中节点v″是与节点v′的最短距离小于等于h且标签相等的节点;d(v″,v′)表示节点v″是到节点v′的最短距离;α(0<α<1)为距离影响因子,αd(v″,v′)表示节点v″和节点v′的邻近度,随着距离的增大而减小;β为边标签影响因子,取值为0<β<0.1;
Figure GDA0003665155530000063
的计算方法采用公式(4)进行计算;
5-3)若SPARQL查询图中的节点尚未匹配完毕且辅助大根堆SH不空,从辅助大根堆SH中,提取具有最大节点匹配值的节点标签匹配对<u,v>,将<u,v>加入到当前近似匹配序列M(i)中,并分别标记u和v为已匹配节点;若SPARQL查询图中的节点全部匹配完毕或者辅助大根堆SH为空,则停止匹配,将序列M(i)加入到近似匹配序列集合M中;
5-4)为了获取用户所需要的前k个近似匹配查询,首先,将辅助大根堆SH置空,并从主大根堆PH中提取尚未匹配且卡方值的最大的匹配节点对,重复该步骤,直到得到一个大小为k的近似匹配序列M。
所述的步骤6),具体是输出近似匹配序列集合M中每一个序列M(i)中查询图为变量对应的RDF数据图中的节点标签。
本发明提供的一种基于邻居向量的RDF Top-k查询方法,该方法采用近似子图匹配技术用于回答带有标签噪声和结构噪声的SPARQL查询。在匹配阶段之间,构建变量节点索引以缩小变量节点的候选域,构建节点的邻居节点标签集合,节点h-hop邻居节点集合等索引。在线匹配阶段,采用一种卡方统计量用于衡量查询节点和候选节点的标签相似度和结构相似度,并充分考虑查询图节点的h-hop邻居节点,以增加查询图匹配的相似性。该方法避免了代价高昂的图同构和编辑距离计算,对标签和结构不匹配的情况有很强的鲁棒性,能够准确高效的回答SPARQL近似查询问题。
附图说明
图1为本发明实施例中本方法的整体框架图。
具体实施方式
下面结合实施例对本发明内容作进一步阐述,但不是对本发明的限定。
实施例:
一种基于邻居向量的RDF查询方法,针对大规模RDF数据进行查询,该方法主要分为离线阶段和在线阶段,离线阶段主要包括RDF数据的预处理和索引的构建。在线阶段主要使用卡方值计算相似节点的匹配程度,并以树的方式进行扩展近似匹配。以RDF数据集三元组的集合为例,RDF的数据集为<S,P,O>三元组的集合,查询问题符合SPARQL标准的,由于在实际的查询问题通常很少出现P为变量的情况,因此本发明不考虑P为变量的情况,如图1所示,包括如下步骤:
1)分别将RDF数据和SPARQL查询建模为有向标签RDF数据图G和SPARQL查询图Q,使用邻接表对RDF数据图G和SPARQL查询图Q进行存储,并构建逆邻接表,具体步骤如下:
1-1)将RDF数据建模为有向标签RDF数据图G=<V,Lv,E,Le>,其中,V表示RDF数据图G中的节点集合,V中的每一个节点对应RDF三元组<S,P,O>中的S和O,即RDF三元组中的S和O可以映射到唯一节点;Lv表示RDF数据图G中的节点的标签集合;E表示图G中节点之间有向边的集合,对应于RDF三元组<S,P,O>中S和O之间的P;Le表示图G中有向边标签的集合。使用邻接表的方式存储RDF数据图,同时构建逆邻接表;
1-2)将SPARQL查询建模为有向标签SPARQL查询图Q=<V′,L′v,E′,L′e>,其中,V′表示SPARQL查询图中的节点集合,V′中的每一个节点对应SPARQL三元组<S,P,O>中的S和O;L′v表示SPARQL查询图中的节点的标签集合,若SPARQL查询中S和O为变量节点,则采用符号{*}作为变量节点标签;E′表示SPARQL查询图中节点之间有向边的集合,对应于SPARQL三元组<S,P,O>中的S和O之间的P;L′e表示SPARQL查询图中有向边标签的集合。使用邻接表方式存储SPARQL查询图,同时构建逆邻接表。
2)分别为RDF数据图G和SPARQL查询图Q创建标签节点反向列表索引ILG和ILQ,创建节点邻居节点标签列表索引LNLG和LNLQ,创建边标签相关的起始节点和终止节点列表索引P-In和P-Out,为RDF数据图G的每个节点u创建h-hop邻接节点集合,具体包括如下步骤:
2-1)为RDF数据图G构建标签节点反向列表索引ILG,即将标签哈希映射到RDF数据图节点。若给定一个标签L(v),若RDF数据图G中存在该标签,能快速定位到标签为L(v)的节点v,即将标签映射到节点ID。为SPARQL查询图Q构建标签节点反向列表索引ILQ,给定一个标签能快速定位到查询图节点ID,若给定标签{*},则可以映射到查询图Q所有变量节点;
2-2)为RDF数据图G的每一个节点v构建邻居节点标签列表索引
Figure GDA0003665155530000081
其中,N(v)表示节点v的邻居节点。在构建的过程中,将节点的邻居节点标签按照标签ID从小到大排序。为SPARQL查询图构建节点邻居节点标签列表索引
Figure GDA0003665155530000082
其中,NQ(u)表示节点u的邻居节点,节点的邻居节点标签按照标签ID从小到大排序;
2-3)在SPARQL查询中,为有效减少变量节点ui的候选域,分别构建邻接表、逆邻接表、边标签相关的起始节点和终止节点列表索引P-In和P-Out。具体的构造方式如下:若变量节点ui存在有向出射边<ui,uj>,其中uj为节点ui的邻接点,若uj为常量节点,则通过构建节点uj的逆邻接表以减少变量节点ui的候选域;若uj为变量节点,则通过在数据图中G构建有向边标签<ui,uj>的起始节点的集合P-In(ei)={vi|<vi,vj>∈E,Le<vi,vj>=L′e<ui,uj>},以减少变量节点ui的候选域;若变量节点ui存在有向入射边<uj,ui>,若uj为常量节点,则通过节点uj的邻接表以减少变量节点ui的候选域;若uj为变量节点,则可以通过在数据图中G构建有向边<ui,uj>标签的终止节点的集合P-Out(ei)={vj|<vi,vj>∈E,Le<vi,vj>=L′e<ui,uj>},以减少变量节点ui的候选域。对于查询图中的变量节点,使用以上四种变量节点索引可以进一步减少变量节点的候选集。
2-4)为RDF数据图G中每一个节点v构造h-hop邻居节点集合,表示为Nh(v)={<v′,i>:d(v,v′)<h,i≤h},其中v′表示RDF数据图G中与节点v的最短路径长度小于等于h的节点。
3)为SPARQL查询图Q中的每一个节点构建节点标签匹配对,得到节点标签匹配对列表VPL;具体是:对于SPARQL查询图Q中的每一个节点ui,若该节点为常量节点,通过RDF数据图中节点标签反向列表索引ILG获得和节点ui标签相同的节点vi,构建标签匹配节点对(ui,vi)并插入到节点标签匹配对列表VPL中;若节点ui为变量节点,其标签未知,候选节点为RDF数据图中的所有节点,通过步骤3所构建的邻接表、逆邻接表、P-In和P-Out索引以获得节点u最小候选域CR(ui),并将节点标签匹配对(ui,v′i)插入到节点标签匹配列表VPL中,其中v′∈CR(ui)。
4)构建大根堆PH,依次计算节点标签匹配对列表VPL每一个节点标签匹配对<ui,vi>的卡方值
Figure GDA0003665155530000091
构建三元组
Figure GDA0003665155530000092
并依次插入到大根堆PH中;具体包括如下步骤;
4-1)计算节点标签匹配对的匹配符号列表。依次从节点标签匹配序列VPL中取出一个节点标签匹配对(ui,vi)。假设RDF数据图G中节点ui的两个邻居节点分别为x和y,其对应的标签分别为
Figure GDA0003665155530000093
Figure GDA0003665155530000094
SPARQL查询图Q中节点的vi的两个邻居节点分别a和b,其对应的标签分别为
Figure GDA0003665155530000095
Figure GDA0003665155530000096
节点ui的两个邻居节点标签
Figure GDA0003665155530000097
和节点的vi的两个邻居节点标签
Figure GDA0003665155530000098
的标签匹配程度可以使用三种符号类型s2,s1和s0进行描述,计算规则如下所示:
s2:节点u的两个邻接节点标签与节点v的两个邻居节点标签完全相同,形式化描述为:
Figure GDA0003665155530000099
s1:节点u的两个邻居节点标签中仅有一个邻接节点的标签与节点v的一个邻居节点标签相同,形式化描述为:
Figure GDA0003665155530000101
s0:节点u的两个邻居节点标签中没有一个邻居节点的标签与节点v的滑动窗口中的一个邻居节点标签相同,可以形式化描述为:
Figure GDA0003665155530000102
标签重叠的符号的优先级为s2>s1>s0,因此,每一个节点标签匹配对的邻接节点标签匹配情况可以表示为一个由s2、s1和s0组成的符号序列S(ui,vi)。若查询图中节点不存在邻接节点,则默认节点对标签匹配符号序列为空。查询图节点ui的两两邻居节点标签的组合的数量为d(d-1)/2,因此,节点标签匹配节点对符号列表的长度为d(d-1)/2。若候选节点vi的邻居节点的数量少于查询图节点ui的数量,则为节点vi构造一个长度为d(d-1)/2的临时邻居节点标签序列。将节点vi的邻居节点标签序列全部复制到节点vi的临时邻居节点标签序列,其余deg(ui)-deg(vi)个空标签位使用符号{#}进行填充,空标签不与任何标签匹配。
假设节点标签匹配对<u0,v0>,节点u0的邻居节点标签为
Figure GDA0003665155530000103
节点v0的邻居节点标签为
Figure GDA0003665155530000104
节点u0的邻居节点数量为3,而候选节点v0的邻居节点数量为2,则为节点v0采用一个长度为3的临时邻居节点标签序列{A,C,#}。查询图节点u0的两两组成的邻居节点序列为{AB,AC,BC},数据图节点v0的两两组成的邻居节点序列为{AC,A#,C#}。标签AC和标签AC最匹配,匹配程度为s2;标签AB和标签A#最匹配,匹配程度为s1;标签BC标签C#最匹配,匹配程度为s1。因此,节点标签匹配对(ui,vi)的标签符号序列为S(ui,vi)={s2,s1,s1}。
4-2)计算节点标签匹配预期标签匹配符号s2,s1和s0的出现概率。假设数据图中标签的数量为L,且RDF数据图和SPARQL查询图中的标签都是独立分布的,候选节点vi的邻居节点的数量为d=deg(vi)。查询图中某个节点与数据图中某个节点标签相同的概率为1/L,不相同的概率为(1-1/L),则节点ui的一个邻居节点标签与节点vi的任一邻居节点不相同的概率为(1-1/L)d。对于节点标签匹配对(ui,vi),符号s0,s1和s2出现的概率分别为:
pr(s0)=((1-1/L)d)2 (1)
pr(s1)=2·(1-(1-1/L)d)(1-1/L)d (2)
pr(s2)=(1-(1-1/L)d)2 (3)
标签匹配符号s0,s1和s2构成了完整的事件空间即pr(s0)+pr(s1)+pr(s2)=1。假设数据图中节点的标签的数量为L=3,对于节点标签匹配对<u0,v0>,节点u0的邻居节点标签为
Figure GDA0003665155530000119
节点v0的邻居节点标签为
Figure GDA00036651555300001110
候选节点的度为d=2,根据公式(1),(2),(3)计算可得pr(s0)=0.197,pr(s1)=0.493,pr(s2)=0.308。
4-3)计算节点标签匹配对卡方值。卡方统计量χ2通常用于计算事件期望频数和观察频数的之间的标准化平方差:
Figure GDA0003665155530000111
其中,Oi和Ei分别为事件i观察频数和期望频数,期望频数Ei=len×pi,其中len为观察的总次数。χ2统计量遵循卡方分布,p-value越低,χ2统计量越高,因此统计显著性越高。因此,检索相似度更高的子图转化为查找具有χ2值较大的子图。对于一个节点标签匹配对,分别使用步骤4-2)中公式(1),(2)和(3)计算查询图每个节点标签匹配对符号s0,s1和s2预期出现概率,并结合符号s0,s1和s2实际出现次数计算每个节点标签匹配对的卡方值。
对于节点标签匹配对<u0,v0>,节点u0的邻居节点标签为
Figure GDA0003665155530000112
节点v0的邻居节点标签为
Figure GDA0003665155530000113
符号s0,s1和s2的观察频数分别为0,2,1。假定标签节点的数量为L=4,pr(s0)=0.197,pr(s1)=0.493,pr(s2)=0.308,查询图节点u0的度为3,则s0,s1和s2的期望频数E(s0)=3×0.197=0.591,E(s1)=3×0.493=1.479,E(s2)=3×0.308=0.924,使用步骤4-3)中公式4可得节点标签匹配对<u0,v0>的卡方值为
Figure GDA0003665155530000114
4-4)依次为每一个节点标签匹配对<ui,vi>计算卡方值
Figure GDA0003665155530000115
构建三元组
Figure GDA0003665155530000116
插入大根堆PH中,并根据节点标签匹配对的卡方值进行排序。
5)从大根堆PH中提取卡方值
Figure GDA0003665155530000117
最大的三元组
Figure GDA0003665155530000118
以节点<u,v>为根以生成树的方式进行扩展匹配,得到一个近似匹配序列M(i),并添加到近似匹配序列集合M中,重复该步骤,直到得到满足用户所需的k个近似匹配序列;具体包括如下步骤:
5-1)从大根堆PH中提取卡方值最大的节点标签匹配对<u,v>,插入到匹配序列M(i)中,并在RDF数据图G中和SPARQL查询图Q中分别将u和v标记为已匹配节点。在匹配过程中,已经匹配的节点不能重新匹配。
5-2)构建辅助大根堆SH,创建以u为中心的邻接顶点和以v为中心的h-hop邻居节点标签匹配节点对,匹配节点对中的节点具有相同的标签。计算该节点匹配对的节点匹配程度函数Fh(u′,v′),其中u′为u的邻接节点,v′为v的h-hop邻接节点,并将三元组<u′,v′,Fh(u′,v′)>插入到辅助堆SH中。节点匹配程度函数表示为
Figure GDA0003665155530000121
其中节点v″是与节点v′的最短距离小于等于h且标签相等的节点;d(v″,v′)表示节点v″是到节点v′的最短距离;α(0<α<1)是距离影响因子,αd(v″,v′)表示节点v″和节点v′的邻近度,随着距离的增大而减小;β为边标签影响因子,若边标签相同,取值为1,否则取值为0<β<0.1,
Figure GDA0003665155530000122
的计算方法如公式(4)所示。
假设以节点标签匹配对(u0,v0)为根进行扩展,跳h=2,则可以考虑以v0为中心2跳的邻居节点。节点u0的邻居节点为u1,其标签为B,节点v0的邻居节点为v1,标签为C,若节点v1的邻居节点为v2,标签为B,则构成节点标签匹配对(u1,v2)。则节点标签匹配对(u1,v2)的节点匹配值F2(u1,v2)可以根据步骤5-2)公式(5)计算。
5-3)若SPARQL查询图中的节点尚未匹配完毕且辅助大根堆SH不空,从辅助大根堆SH中,提取具有最大节点匹配值的节点标签匹配对<u,v>,将<u,v>加入到当前近似匹配序列M(i)中,并分别标记u和v为已匹配节点。若SPARQL查询图中的节点全部匹配完毕或者辅助大根堆SH为空,则停止匹配,将序列M(i)加入到近似匹配序列集合M中。
5-4)为了获取用户所需要的前k个近似匹配查询,首先,将辅助大根堆SH置空,并从主大根堆PH中提取尚未匹配且卡方值的最大的匹配节点对,重复该步骤,直到得到一个大小为k的近似匹配序列M。
6)输出M中每一个近似匹配序列中查询图Q中变量节点所匹配的数据图G中节点的标签,即
输出近似匹配序列集合M中每一个序列M(i)中查询图为变量所匹配的RDF数据图中的节点标签。

Claims (6)

1.一种基于邻居向量的RDF Top-k查询方法,所述RDF的数据集为<S,P,O>三元组的集合,查询问题满足SPARQL标准,其特征在于,包括如下步骤:
1)分别将RDF数据和SPARQL查询建模为有向标签RDF数据图G和SPARQL查询图Q,使用邻接表对RDF数据图G和SPARQL查询图Q进行存储,并构建逆邻接表;
2)分别为RDF数据图G和SPARQL查询图Q创建标签节点反向列表索引ILG和ILQ,创建节点邻居节点标签列表索引LNLG和LNLQ,创建边标签相关的起始节点和终止节点列表索引P-In和P-Out,为RDF数据图G的每个节点u创建h-hop邻接节点集合;
3)为SPARQL查询图Q中的每一个节点构建节点标签匹配对,得到节点标签匹配对列表VPL;
4)构建大根堆PH,依次计算节点标签匹配对列表VPL每一个节点标签匹配对<ui,vi>的卡方值
Figure FDA0003665155520000011
构建三元组
Figure FDA0003665155520000012
并依次插入到大根堆PH中;具体包括如下步骤:
4-1)计算节点标签匹配对的匹配符号列表:依次从节点标签匹配序列VPL中取出一个节点标签匹配对(ui,vi),假设RDF数据图G中节点ui的两个邻居节点分别为x和y,其对应的标签分别为
Figure FDA0003665155520000013
Figure FDA0003665155520000014
SPARQL查询图Q中节点的vi的两个邻居节点分别a和b,其对应的标签分别为
Figure FDA0003665155520000015
Figure FDA0003665155520000016
节点ui的两个邻居节点标签
Figure FDA0003665155520000017
和节点的vi的两个邻居节点标签
Figure FDA0003665155520000018
的标签匹配程度使用三种符号类型s2,s1和s0进行描述,计算规则如下所示:
s2:节点ui的两个邻接节点标签与节点vi的两个邻居节点标签完全相同,形式化描述为:s2:
Figure FDA0003665155520000019
s1:节点ui的两个邻居节点标签中仅有一个邻接节点的标签与节点vi的一个邻居节点标签相同,形式化描述为:s1:
Figure FDA00036651555200000110
s0:节点ui的两个邻居节点标签中没有一个邻居节点的标签与节点vi的一个邻居节点标签相同,形式化描述为:s0:
Figure FDA00036651555200000111
标签重叠的符号的优先级为s2>s1>s0,因此,每一个节点标签匹配对的邻接节点标签匹配情况表示为一个由s2、s1和s0组成的符号序列S(ui,vi);若查询图中节点不存在邻接节点,则默认节点对标签匹配符号序列为空,查询图节点ui的两两邻居节点标签的组合的数量为d(d-1)/2,因此,节点标签匹配节点对符号列表的长度为d(d-1)/2;若候选节点vi的邻居节点的数量少于查询图节点ui的数量,则为节点vi构造一个长度为d(d-1)/2的临时邻居节点标签序列,将节点vi的邻居节点标签序列全部复制到节点vi的临时邻居节点标签序列,其余deg(ui)-deg(vi)个空标签位使用字符{#}进行填充,字符{#}不与任何标签匹配;
4-2)计算节点标签匹配预期标签匹配符号s2、s1和s0的出现概率:假设数据图中标签的数量为L,且RDF数据图和SPARQL查询图中的标签都是独立分布的,候选节点vi的邻居节点的数量为d=deg(vi),查询图中某个节点与数据图中某个节点标签相同的概率为1/L,不相同的概率为(1-1/L),则节点ui的一个邻居节点标签与节点vi的任一邻居节点不相同的概率为(1-1/L)d,对于节点标签匹配对(ui,vi),符号s0、s1和s2出现的概率分别为:
pr(s0)=((1-1/L)d)2 (1)
pr(s1)=2·(1-(1-1/L)d)(1-1/L)d (2)
pr(s2)=(1-(1-1/L)d)2 (3)
标签匹配符号s0、s1和s2构成了完整的事件空间即pr(s0)+pr(s1)+pr(s2)=1;
4-3)计算节点标签匹配对卡方值:采用卡方统计量χ2计算事件期望频数和观察频数的之间的标准化平方差,计算公式如下:
Figure FDA0003665155520000021
其中Oi和Ei分别为事件i观察频数和期望频数,期望频数Ei=len×pi,其中len为观察的总次数;χ2统计量遵循卡方分布,p-value越低,χ2统计量越高,则统计显著性越高;因此,检索相似度更高的子图转化为查找具有χ2值较大的子图,对于一个节点标签匹配对,分别使用步骤4-2)中公式(1),(2)和(3)计算查询图每个节点标签匹配对符号s0、s1和s2预期出现概率,并结合符号s0、s1和s2实际出现次数计算每个节点标签匹配对的卡方值;
4-4)依次为每一个节点标签匹配对<ui,vi>计算卡方值
Figure FDA0003665155520000022
构建三元组
Figure FDA0003665155520000031
插入大根堆PH中,并根据节点标签匹配对的卡方值进行排序;
5)从大根堆PH中提取卡方值
Figure FDA0003665155520000032
最大的三元组
Figure FDA0003665155520000033
以节点<u,v>为根以生成树的方式进行扩展匹配,得到一个近似匹配序列M(i),并添加到近似匹配序列集合M中;重复该步骤,直到得到满足用户所需的k个近似匹配序列;
6)输出M中每一个近似匹配序列中查询图Q中变量节点所匹配的数据图G中节点的标签。
2.根据权利要求1所述的一种基于邻居向量的RDF Top-k查询方法,其特征在于,所述的步骤1),具体包括如下步骤:
1-1)将RDF数据建模为有向标签RDF数据图G=<V,Lv,E,Le>,其中,V表示RDF数据图G中的节点集合,V中的每一个节点对应RDF三元组<S,P,O>中的S和O;Lv表示RDF数据图G中的节点的标签集合;E表示图G中节点之间有向边的集合,对应于RDF三元组<S,P,O>中的S和O之间的P;Le表示图G中有向边标签的集合;使用邻接表的方式存储RDF数据图,同时构建逆邻接表;
1-2)将SPARQL查询建模为有向标签SPARQL查询图Q=<V′,L′v,E′,L′e>,其中,V′表示SPARQL查询图中的节点集合,V′中的每一个节点对应SPARQL三元组<S,P,O>中的S和O;L′v表示SPARQL查询图中的节点的标签集合,若SPARQL查询中S和O为变量节点,则采用符号{*}作为变量节点标签;E′表示SPARQL查询图中节点之间有向边的集合,对应于SPARQL三元组<S,P,O>中S和O之间的P;L′e表示SPARQL查询图中有向边标签的集合;使用邻接表方式存储SPARQL查询图,同时构建逆邻接表。
3.根据权利要求1所述的一种基于邻居向量的RDF Top-k查询方法,其特征在于,所述的步骤2),具体包括如下步骤:
2-1)为RDF数据图G构建标签节点反向列表索引ILG,若给定一个标签L(v),RDF数据图G中存在该标签,快速定位到标签为L(v)的节点v,即将标签映射到节点ID;为SPARQL查询图Q构建标签节点反向列表索引ILQ,给定一个标签能快速定位到查询图节点ID;
2-2)为RDF数据图G的每一个节点v构建邻居节点标签列表索引
Figure FDA0003665155520000041
其中,NG(v)表示节点v的邻居节点,在构建的过程中,将节点的邻居节点标签按照标签ID从小到大排序;为SPARQL查询图构建节点邻居节点标签列表索引
Figure FDA0003665155520000042
其中,NQ(u)表示节点u的邻居节点,节点的邻居节点标签按照标签ID从小到大排序;
2-3)在SPARQL查询中,为有效减少变量节点ui的候选域,分别构建邻接表、逆邻接表、边标签相关的起始节点和终止节点列表索引P-In和P-Out;具体的构造方式为:若变量节点ui存在有向出射边<ui,uj>,其中uj为节点ui的邻接点,若uj为常量节点,则通过构建节点uj的逆邻接表以减少变量节点ui的候选域;若uj为变量节点,则通过在数据图中G构建有向边标签<ui,uj>的起始节点的集合P-In,以减少变量节点ui的候选域;若变量节点ui存在有向入射边<uj,ui>,若uj为常量节点,则通过节点uj的邻接表以减少变量节点ui的候选域;若uj为变量节点,则通过在数据图中G构建有向边<ui,uj>标签的终止节点的集合P-Out,以减少变量节点ui的候选域;对于查询图中的变量节点,使用以上四种变量节点索引进一步减少变量节点的候选集;
2-4)为RDF数据图G中每一个节点v构造h-hop邻居节点集合,表示为Nh(v)={<v′,i>:d(v,v′)<h,i≤h},其中,v′表示RDF数据图G中与节点v的最短路径长度小于等于h的节点。
4.根据权利要求1所述的一种基于邻居向量的RDF Top-k查询方法,其特征在于,所述的步骤3)具体是:对于SPARQL查询图Q中的每一个节点ui,若该节点为常量节点,通过RDF数据图中节点标签反向列表索引ILG获得和节点ui标签相同的节点vi,构建节点标签匹配对(ui,vi)并插入到节点标签匹配对列表VPL中;若节点ui为变量节点,其标签未知,候选节点为RDF数据图中的所有节点,通过步骤2)所构建的邻接表、逆邻接表、P-In和P-Out索引以获得节点ui的最小候选域CR(ui),并将节点标签匹配节点对(ui,v′i)插入到节点对列表VPL中,其中v′i∈CR(ui)。
5.根据权利要求1所述的一种基于邻居向量的RDF Top-k查询方法,其特征在于,所述的步骤5),具体包括如下步骤:
5-1)从大根堆PH中提取卡方值最大的节点标签匹配对<u,v>,插入到匹配序列M(i)中,并在RDF数据图G中和SPARQL查询图Q中分别将u和v标记为已匹配节点,在匹配过程中,已经匹配的节点不能重新匹配;
5-2)构建辅助大根堆SH,创建u为中心的邻接顶点和以v为中心的h-hop邻居节点标签匹配对,匹配节点对中的节点具有相同的标签;计算该匹配节点对的节点匹配程度函数Fh(u′,v′),其中u′为u的邻接节点,v′为v的邻接节点,并将三元组<u′,v′,Fh(u′,v′)>插入到辅助堆SH中;节点匹配程度函数表示为:
Figure FDA0003665155520000051
其中节点v″是与节点v′的最短距离小于等于h且标签相等的节点;d(v″,v′)表示节点v″是到节点v′的最短距离;α(0<α<1)为距离影响因子,αd(v″,v′)表示节点v″和节点v′的邻近度,随着距离的增大而减小;β为边标签影响因子,取值为0<β<0.1;
Figure FDA0003665155520000052
的计算方法采用公式(4)进行计算;
5-3)若SPARQL查询图中的节点尚未匹配完毕且辅助大根堆SH不空,从辅助大根堆SH中,提取具有最大节点匹配值的节点标签匹配对<u,v>,将<u,v>加入到当前近似匹配序列M(i)中,并分别标记u和v为已匹配节点;若SPARQL查询图中的节点全部匹配完毕或者辅助大根堆SH为空,则停止匹配,将序列M(i)加入到近似匹配序列集合M中;
5-4)为了获取用户所需要的前k个近似匹配查询,首先,将辅助大根堆SH置空,并从主大根堆PH中提取尚未匹配且卡方值的最大的匹配节点对,重复该步骤,直到得到一个大小为k的近似匹配序列M。
6.根据权利要求1所述的一种基于邻居向量的RDF Top-k查询方法,其特征在于,所述的步骤6),具体是输出近似匹配序列集合M中每一个序列M(i)中查询图为变量对应的RDF数据图中的节点标签。
CN202010122931.4A 2020-02-27 2020-02-27 一种基于邻居向量的RDF Top-k查询方法 Active CN111309979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010122931.4A CN111309979B (zh) 2020-02-27 2020-02-27 一种基于邻居向量的RDF Top-k查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010122931.4A CN111309979B (zh) 2020-02-27 2020-02-27 一种基于邻居向量的RDF Top-k查询方法

Publications (2)

Publication Number Publication Date
CN111309979A CN111309979A (zh) 2020-06-19
CN111309979B true CN111309979B (zh) 2022-08-05

Family

ID=71145187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010122931.4A Active CN111309979B (zh) 2020-02-27 2020-02-27 一种基于邻居向量的RDF Top-k查询方法

Country Status (1)

Country Link
CN (1) CN111309979B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984828A (zh) * 2020-06-30 2020-11-24 联想(北京)有限公司 一种邻居节点检索方法和装置
CN113220820B (zh) * 2020-12-15 2022-09-16 中国人民解放军国防科技大学 基于图的高效sparql查询应答方法、装置和设备
CN113010746B (zh) * 2021-03-19 2023-08-29 厦门大学 一种基于子树倒排索引的病历图序列检索方法及系统
CN114417073B (zh) * 2022-03-28 2022-08-05 之江实验室 一种加密图的邻居节点查询方法及装置、电子设备
CN116304213B (zh) * 2023-03-20 2024-03-19 中国地质大学(武汉) 基于图神经网络的rdf图数据库子图匹配查询优化方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778251A (zh) * 2014-02-19 2014-05-07 天津大学 面向大规模rdf图数据的sparql并行查询方法
CN106844445A (zh) * 2016-12-16 2017-06-13 天津大学 基于语义的资源描述框架rdf图划分方法
CN107992608A (zh) * 2017-12-15 2018-05-04 南开大学 一种基于关键字上下文的sparql查询语句自动生成方法
CN108509543A (zh) * 2018-03-20 2018-09-07 福州大学 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法
CN109684325A (zh) * 2018-11-07 2019-04-26 天津大学 一种高效的rdf数据存储查询系统
CN109992593A (zh) * 2019-03-13 2019-07-09 中南大学 一种基于子图匹配的大规模数据并行查询方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510321B2 (en) * 2006-08-03 2013-08-13 International Business Machines Corporation Information retrieval from relational databases using semantic queries
US10515085B2 (en) * 2016-06-19 2019-12-24 Data.World, Inc. Consolidator platform to implement collaborative datasets via distributed computer networks
US10423663B2 (en) * 2017-01-18 2019-09-24 Oracle International Corporation Fast graph query engine optimized for typical real-world graph instances whose small portion of vertices have extremely large degree

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778251A (zh) * 2014-02-19 2014-05-07 天津大学 面向大规模rdf图数据的sparql并行查询方法
CN106844445A (zh) * 2016-12-16 2017-06-13 天津大学 基于语义的资源描述框架rdf图划分方法
CN107992608A (zh) * 2017-12-15 2018-05-04 南开大学 一种基于关键字上下文的sparql查询语句自动生成方法
CN108509543A (zh) * 2018-03-20 2018-09-07 福州大学 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法
CN109684325A (zh) * 2018-11-07 2019-04-26 天津大学 一种高效的rdf数据存储查询系统
CN109992593A (zh) * 2019-03-13 2019-07-09 中南大学 一种基于子图匹配的大规模数据并行查询方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Fast top-k search in knowledge graphs;S Yang等;《2016 IEEE 32nd International Conference on Data Engineering》;20160623;第990-1001页 *
RDF数据查询处理技术综述;杜方等;《软件学报》;20130615(第06期);第62-82页 *
Spark GraphX上的SPARQL查询处理算法;邱慧等;《计算机科学与探索》;20171101(第09期);第5-15页 *
分布式Top-k子图匹配技术;兰超等;《清华大学学报(自然科学版)》;20160815(第08期);第73-79页 *
应用SPARQL进行RDF数据查询;陈彦;《企业技术开发》;20070701(第07期);第8-12页 *

Also Published As

Publication number Publication date
CN111309979A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111309979B (zh) 一种基于邻居向量的RDF Top-k查询方法
CN107111617B (zh) 数据库中的图处理
WO2016078368A1 (zh) 一种基于k-核的社区搜索算法
Yang et al. Identifying influential spreaders in complex networks based on network embedding and node local centrality
CN111445963B (zh) 一种基于图节点信息聚合的子图同构约束求解方法
CN109766710B (zh) 关联社交网络数据的差分隐私保护方法
Chindelevitch et al. Local optimization for global alignment of protein interaction networks
JP2014059754A (ja) 情報処理システム、及び、情報処理方法
CN113836341B (zh) 基于无监督转换器平衡哈希的遥感图像检索方法
Li et al. An efficient probabilistic approach for graph similarity search
Kim et al. An optimization approach for semantic-based XML schema matching
CN113792188B (zh) 一种目录数据比对方法
Wang et al. A branch and bound irredundant graph algorithm for large-scale MLCS problems
CN113515540A (zh) 一种数据库的查询重写方法
CN112966165A (zh) 基于图神经网络的交互式社区搜索方法及装置
CN116028610B (zh) 一种超关系知识图谱上的n元复杂查询嵌入方法
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN111078896A (zh) 基于prmatc算法的知识库补全方法
Bergmeister et al. Efficient and scalable graph generation through iterative local expansion
CN115034837A (zh) 一种基于知识图谱的产品销量预测方法、设备和介质
Liu et al. Constructing the Bayesian network structure from dependencies implied in multiple relational schemas
Patra et al. Motif discovery in biological network using expansion tree
Husfeldt et al. Hardness results for dynamic problems by extensions of Fredman and Saks' chronogram method
Ding et al. An unsupervised framework for author-paper linking in bibliographic retrieval system
Ferrer et al. On the relation between the median and the maximum common subgraph of a set of graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant