CN111309979B

CN111309979B - 一种基于邻居向量的RDF Top-k查询方法

Info

Publication number: CN111309979B
Application number: CN202010122931.4A
Authority: CN
Inventors: 董荣胜; 刘江江
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2022-08-05
Anticipated expiration: 2040-02-27
Also published as: CN111309979A

Abstract

本发明公开了一种基于邻居向量的RDF Top‑k查询方法，该方法在离线阶段，将RDF数据和SPARQL查询分别建模为RDF数据图和SPARQL查询图，并构造邻接表、逆邻接表、标签节点反向列表索引、节点邻居节点标签列表索引、节点h‑hop邻居节点集合、P‑In和P‑Out等索引；在匹配阶段，采用一种基于卡方统计技术对候选节点的邻居节点的结构以及邻居节点的标签进行相似度量，并采用生成树的方式进行扩展匹配；最后，得到Top‑k个和SPARQL查询图近似匹配序列，并输出每个序列中SPARQL查询图中变量节点所匹配的数据图节点的标签。该方法避免了代价高昂的图同构和编辑距离计算，对标签和结构不匹配的情况有很强的鲁棒性，能够准确高效地回答SPARQL近似查询问题。

Description

一种基于邻居向量的RDF Top-k查询方法

技术领域

本发明涉及大规模RDF数据查询技术领域，具体是一种基于邻居向量的RDF Top-k查询方法。

背景技术

资源描述框架(Resource Description Framework，简称RDF)是由W3C提出的对万维网上信息进行描述的一个框架，它为Web上的各种应用提供信息描述规范。SPARQL是W3C为实现RDF数据的检索标准所定义的查询语言。许多应用在生成RDF数据时产生错误数据(如手动数据输入引入错误等)从而导致RDF数据变脏。此外，在智能问答场景中，在将用户提出的自然语言问题转化为符合SPARQL查询标准的问题时，通常会引入标签噪声和结构噪声。对带有噪声的SPARQL查询执行精确查找，系统很难找出完全符合SPARQL查询问题的答案，因此，无法有效满足用户的查询需求。如何在有脏数据和带有噪音的SPARQL的情况下，获得用户满意的Top-k查询，是当前研究RDF查询的一个热点。

目前，RDF数据上的Top-k查询主要为关键词查询，一种方法为对关键词直接构造查询结果的方式，另一种方法通常是对关键词构造出形式化查询结果进行查询。基于关键词直接构造查询结果的方法，通常需要借助有效的索引，如基于关键词的倒排索引，摘要索引等进行子图定位，在RDF数据中找到包含关键词的最小子图结构。而对关键词构造出形式化查询的方法，通常包括关键词映射、构建查询和对查询进行排序三个步骤。

针对目前SPARQL中存在的噪声等问题，本发明提供一种基于邻居向量的近似子图匹配方法。在离线阶段，将RDF数据和SPARQL查询分别建模为RDF数据图和SPARQL查询图，并构造邻接表、逆邻接表、标签节点反向列表索引、节点邻居节点标签列表索引、节点h-hop邻居节点集合等、P-In和P-Out。在匹配阶段，采用一种基于卡方统计技术对节点的邻居节点的结构以及邻居节点的标签进行相似度量，并采用树生成的方式进行扩展匹配。最后，得到Top-k个和SPARQL查询图近似的匹配序列，并输出SPARQL查询变量对应的匹配节点标签。

发明内容

本发明的目的在于提供一种邻居向量的Top-k RDF查询方法，该方法采用一种卡方统计方法对候选节点的背景结构、标签分布和h-hop邻居节点进行相似度量，并采用生成树的方式进行扩展；该方法能够有效输出带有噪声的Top-k RDF查询结果。

实现本发明目的的技术方案是：

一种基于邻居向量的RDF Top-k查询方法，所述RDF的数据集为<S，P，O>三元组的集合，查询问题满足SPARQL标准，包括如下步骤：

1)分别将RDF数据和SPARQL查询建模为有向标签RDF数据图G和SPARQL查询图Q，使用邻接表对RDF数据图G和SPARQL查询图Q进行存储，并构建逆邻接表；

2)分别为RDF数据图G和SPARQL查询图Q创建标签节点反向列表索引IL^G和IL^Q，创建节点邻居节点标签列表索引LNL^G和LNL^Q，创建边标签相关的起始节点和终止节点列表索引P-In和P-Out，为RDF数据图G的每个节点u创建h-hop邻接节点集合；

3)为SPARQL查询图Q中的每一个节点构建节点标签匹配对，得到节点标签匹配对列表VPL；

4)构建大根堆PH，依次计算节点标签匹配对列表VPL每一个节点标签匹配对＜u_i,v_i＞的卡方值

构建三元组

并依次插入到大根堆PH中；

5)从大根堆PH中提取卡方值

最大的三元组

以节点＜u,v＞为根以生成树的方式进行扩展匹配，得到一个近似匹配序列M(i)，并添加到近似匹配序列集合M中；重复该步骤，直到得到满足用户所需的k个近似匹配序列；

6)输出M中每一个近似匹配序列中查询图Q中变量节点所匹配的数据图G中节点的标签。

所述的步骤1)，具体包括如下步骤：

1-1)将RDF数据建模为有向标签RDF数据图G＝＜V,L_v,E,L_e＞，其中，V表示RDF数据图G中的节点集合，V中的每一个节点对应RDF三元组<S，P，O>中的S和O；L_v表示RDF数据图G中的节点的标签集合；E表示图G中节点之间有向边的集合，对应于RDF三元组<S，P，O>中的S和O之间的P；L_e表示图G中有向边标签的集合；使用邻接表的方式存储RDF数据图，同时构建逆邻接表；

1-2)将SPARQL查询建模为有向标签SPARQL查询图Q＝＜V′,L′_v,E′,L′_e＞，其中，V′表示SPARQL查询图中的节点集合，V′中的每一个节点对应SPARQL三元组<S，P，O>中的S和O；L′_v表示SPARQL查询图中的节点的标签集合，若SPARQL查询中S和O为变量节点，则采用符号{*}作为变量节点标签；E′表示SPARQL查询图中节点之间有向边的集合，对应于SPARQL三元组<S,P,O>中S和O之间的P；L′_e表示SPARQL查询图中有向边标签的集合；使用邻接表方式存储SPARQL查询图，同时构建逆邻接表。

所述的步骤2)，具体包括如下步骤：

2-1)为RDF数据图G构建标签节点反向列表索引IL^G，若给定一个标签L(v)，RDF数据图G中存在该标签，快速定位到标签为L(v)的节点v，即将标签映射到节点ID；为SPARQL查询图Q构建标签节点反向列表索引IL^Q，给定一个标签能快速定位到查询图节点ID；

2-2)为RDF数据图G的每一个节点v构建邻居节点标签列表索引

其中，N^G(v)表示节点v的邻居节点，在构建的过程中，将节点的邻居节点标签按照标签ID从小到大排序；为SPARQL查询图构建节点邻居节点标签列表索引

其中，N^Q(u)表示节点u的邻居节点，节点的邻居节点标签按照标签ID从小到大排序；

2-3)在SPARQL查询中，为有效减少变量节点u_i的候选域，分别构建邻接表、逆邻接表、边标签相关的起始节点和终止节点列表索引P-In和P-Out；具体的构造方式为：若变量节点u_i存在有向出射边<u_i,u_j>，其中u_j为节点u_i的邻接点，若u_j为常量节点，则通过构建节点u_j的逆邻接表以减少变量节点u_i的候选域；若u_j为变量节点，则通过在数据图中G构建有向边标签<u_i,u_j>的起始节点的集合P-In，以减少变量节点u_i的候选域；若变量节点u_i存在有向入射边<u_j,u_i>，若u_j为常量节点，则通过节点u_j的邻接表以减少变量节点u_i的候选域；若u_j为变量节点，则可以通过在数据图中G构建有向边<u_i,u_j>标签的终止节点的集合P-Out，以减少变量节点u_i的候选域；对于查询图中的变量节点，使用以上四种变量节点索引进一步减少变量节点的候选集；

2-4)为RDF数据图G中每一个节点v构造h-hop邻居节点集合，表示为N_h(v)＝{＜v′,i＞:d(v,v′)＜h,i≤h}，其中，v′表示RDF数据图G中与节点v的最短路径长度小于等于h的节点。

所述的步骤3)具体是：对于SPARQL查询图Q中的每一个节点u_i，若该节点为常量节点，通过RDF数据图中节点标签反向列表索引IL^G获得和节点u_i标签相同的节点v_i，构建节点标签匹配对(u_i,v_i)并插入到节点标签匹配对列表VPL中；若节点u_i为变量节点，其标签未知，候选节点为RDF数据图中的所有节点，通过步骤2)所构建的邻接表、逆邻接表、P-In和P-Out索引以获得节点u_i的最小候选域CR(u_i)，并将节点标签匹配节点对(u_i,v′_i)插入到节点对列表VPL中，其中v′_i∈CR(u_i)。

所述的步骤4)，具体包括如下步骤：

4-1)计算节点标签匹配对的匹配符号列表：依次从节点标签匹配序列VPL中取出一个节点标签匹配对(u_i,v_i)，假设RDF数据图G中节点u_i的两个邻居节点分别为x和y，其对应的标签分别为

和

SPARQL查询图Q中节点的v_i的两个邻居节点分别a和b，其对应的标签分别为

和

节点u_i的两个邻居节点标签

和节点的v_i的两个邻居节点标签

的标签匹配程度可以使用三种符号类型s₂，s₁和s₀进行描述，计算规则如下所示：

s₂：节点u_i的两个邻接节点标签与节点v_i的两个邻居节点标签完全相同，形式化描述为：

s₁：节点u_i的两个邻居节点标签中仅有一个邻接节点的标签与节点v_i的一个邻居节点标签相同，形式化描述为：

s₀：节点u_i的两个邻居节点标签中没有一个邻居节点的标签与节点v_i的一个邻居节点标签相同，可以形式化描述为：

标签重叠的符号的优先级为s₂＞s₁＞s₀，因此，每一个节点标签匹配对的邻接节点标签匹配情况可以表示为一个由s₂、s₁和s₀组成的符号序列S(u_i,v_i)；若查询图中节点不存在邻接节点，则默认节点对标签匹配符号序列为空，查询图节点u_i的两两邻居节点标签的组合的数量为d(d-1)/2，因此，节点标签匹配节点对符号列表的长度为d(d-1)/2；若候选节点v_i的邻居节点的数量少于查询图节点u_i的数量，则为节点v_i构造一个长度为d(d-1)/2的临时邻居节点标签序列，将节点v_i的邻居节点标签序列全部复制到节点v_i的临时邻居节点标签序列，其余deg(u_i)-deg(v_i)个空标签位使用字符{#}进行填充，字符{#}不与任何标签匹配；

4-2)计算节点标签匹配预期标签匹配符号s₂、s₁和s₀的出现概率：假设数据图中标签的数量为L，且RDF数据图和SPARQL查询图中的标签都是独立分布的，候选节点v_i的邻居节点的数量为d＝deg(v_i)，查询图中某个节点与数据图中某个节点标签相同的概率为1/L，不相同的概率为(1-1/L)，则节点u_i的一个邻居节点标签与节点v_i的任一邻居节点不相同的概率为(1-1/L)^d，对于节点标签匹配对(u_i，v_i)，符号s₀、s₁和s₂出现的概率分别为：

pr(s₀)＝((1-1/L)^d)² (1)

pr(s₁)＝2·(1-(1-1/L)^d)(1-1/L)^d (2)

pr(s₂)＝(1-(1-1/L)^d)² (3)

标签匹配符号s₀、s₁和s₂构成了完整的事件空间即pr(s₀)+pr(s₁)+pr(s₂)＝1；

4-3)计算节点标签匹配对卡方值：采用卡方统计量χ²计算事件期望频数和观察频数的之间的标准化平方差，计算公式如下：

其中O_i和E_i分别为事件i观察频数和期望频数，期望频数E_i＝len×p_i，其中len为观察的总次数；χ²统计量遵循卡方分布，p-value越低，χ²统计量越高，则统计显著性越高；因此，检索相似度更高的子图转化为查找具有χ²值较大的子图，对于一个节点标签匹配对，分别使用步骤4-2)中公式(1)，(2)和(3)计算查询图每个节点标签匹配对符号s₀、s₁和s₂预期出现概率，并结合符号s₀、s₁和s₂实际出现次数计算每个节点标签匹配对的卡方值；

4-4)依次为每一个节点标签匹配对＜u_i,v_i＞计算卡方值

构建三元组

插入大根堆PH中，并根据节点标签匹配对的卡方值进行排序。

所述的步骤5)，具体包括如下步骤：

5-1)从大堆PH中提取卡方值最大的节点标签匹配对＜u,v＞,插入到匹配序列M(i)中，并在RDF数据图G中和SPARQL查询图Q中分别将u和v标记为已匹配节点，在匹配过程中，已经匹配的节点不能重新匹配；

5-2)构建辅助大根堆SH，创建u为中心的邻接顶点和以v为中心的h-hop邻居节点标签匹配对，匹配节点对中的节点具有相同的标签；计算该匹配节点对的节点匹配程度函数F_h(u′,v′)，其中u′为u的邻接节点，v′为v的邻接节点，并将三元组＜u′,v′,F_h(u′,v′)＞插入到辅助堆SH中；节点匹配程度函数表示为：

其中节点v″是与节点v′的最短距离小于等于h且标签相等的节点；d(v″,v′)表示节点v″是到节点v′的最短距离；α(0<α<1)为距离影响因子，α^d(v″,v′)表示节点v″和节点v′的邻近度，随着距离的增大而减小；β为边标签影响因子，取值为0＜β＜0.1；

的计算方法采用公式(4)进行计算；

5-3)若SPARQL查询图中的节点尚未匹配完毕且辅助大根堆SH不空，从辅助大根堆SH中，提取具有最大节点匹配值的节点标签匹配对＜u,v＞，将＜u,v＞加入到当前近似匹配序列M(i)中，并分别标记u和v为已匹配节点；若SPARQL查询图中的节点全部匹配完毕或者辅助大根堆SH为空，则停止匹配，将序列M(i)加入到近似匹配序列集合M中；

5-4)为了获取用户所需要的前k个近似匹配查询，首先，将辅助大根堆SH置空，并从主大根堆PH中提取尚未匹配且卡方值的最大的匹配节点对，重复该步骤，直到得到一个大小为k的近似匹配序列M。

所述的步骤6)，具体是输出近似匹配序列集合M中每一个序列M(i)中查询图为变量对应的RDF数据图中的节点标签。

本发明提供的一种基于邻居向量的RDF Top-k查询方法，该方法采用近似子图匹配技术用于回答带有标签噪声和结构噪声的SPARQL查询。在匹配阶段之间，构建变量节点索引以缩小变量节点的候选域，构建节点的邻居节点标签集合，节点h-hop邻居节点集合等索引。在线匹配阶段，采用一种卡方统计量用于衡量查询节点和候选节点的标签相似度和结构相似度，并充分考虑查询图节点的h-hop邻居节点，以增加查询图匹配的相似性。该方法避免了代价高昂的图同构和编辑距离计算，对标签和结构不匹配的情况有很强的鲁棒性，能够准确高效的回答SPARQL近似查询问题。

附图说明

图1为本发明实施例中本方法的整体框架图。

具体实施方式

下面结合实施例对本发明内容作进一步阐述，但不是对本发明的限定。

实施例：

一种基于邻居向量的RDF查询方法，针对大规模RDF数据进行查询，该方法主要分为离线阶段和在线阶段，离线阶段主要包括RDF数据的预处理和索引的构建。在线阶段主要使用卡方值计算相似节点的匹配程度，并以树的方式进行扩展近似匹配。以RDF数据集三元组的集合为例，RDF的数据集为<S，P，O>三元组的集合，查询问题符合SPARQL标准的，由于在实际的查询问题通常很少出现P为变量的情况，因此本发明不考虑P为变量的情况，如图1所示，包括如下步骤：

1)分别将RDF数据和SPARQL查询建模为有向标签RDF数据图G和SPARQL查询图Q，使用邻接表对RDF数据图G和SPARQL查询图Q进行存储，并构建逆邻接表，具体步骤如下：

1-1)将RDF数据建模为有向标签RDF数据图G＝＜V,L_v,E,L_e＞，其中，V表示RDF数据图G中的节点集合，V中的每一个节点对应RDF三元组<S,P,O>中的S和O，即RDF三元组中的S和O可以映射到唯一节点；L_v表示RDF数据图G中的节点的标签集合；E表示图G中节点之间有向边的集合，对应于RDF三元组<S，P，O>中S和O之间的P；L_e表示图G中有向边标签的集合。使用邻接表的方式存储RDF数据图，同时构建逆邻接表；

1-2)将SPARQL查询建模为有向标签SPARQL查询图Q＝＜V′,L′_v,E′,L′_e＞，其中，V′表示SPARQL查询图中的节点集合，V′中的每一个节点对应SPARQL三元组<S,P,O>中的S和O；L′_v表示SPARQL查询图中的节点的标签集合，若SPARQL查询中S和O为变量节点，则采用符号{*}作为变量节点标签；E′表示SPARQL查询图中节点之间有向边的集合，对应于SPARQL三元组<S,P,O>中的S和O之间的P；L′_e表示SPARQL查询图中有向边标签的集合。使用邻接表方式存储SPARQL查询图，同时构建逆邻接表。

2)分别为RDF数据图G和SPARQL查询图Q创建标签节点反向列表索引IL^G和IL^Q，创建节点邻居节点标签列表索引LNL^G和LNL^Q，创建边标签相关的起始节点和终止节点列表索引P-In和P-Out，为RDF数据图G的每个节点u创建h-hop邻接节点集合，具体包括如下步骤：

2-1)为RDF数据图G构建标签节点反向列表索引IL^G，即将标签哈希映射到RDF数据图节点。若给定一个标签L(v)，若RDF数据图G中存在该标签，能快速定位到标签为L(v)的节点v，即将标签映射到节点ID。为SPARQL查询图Q构建标签节点反向列表索引IL^Q，给定一个标签能快速定位到查询图节点ID，若给定标签{*},则可以映射到查询图Q所有变量节点；

2-2)为RDF数据图G的每一个节点v构建邻居节点标签列表索引

其中，N(v)表示节点v的邻居节点。在构建的过程中，将节点的邻居节点标签按照标签ID从小到大排序。为SPARQL查询图构建节点邻居节点标签列表索引

2-3)在SPARQL查询中，为有效减少变量节点u_i的候选域，分别构建邻接表、逆邻接表、边标签相关的起始节点和终止节点列表索引P-In和P-Out。具体的构造方式如下：若变量节点u_i存在有向出射边<u_i,u_j>，其中u_j为节点u_i的邻接点，若u_j为常量节点，则通过构建节点u_j的逆邻接表以减少变量节点u_i的候选域；若u_j为变量节点，则通过在数据图中G构建有向边标签<u_i,u_j>的起始节点的集合P-In(e_i)＝{v_i|＜v_i,v_j＞∈E,L_e＜v_i,v_j＞＝L′_e＜u_i,u_j＞}，以减少变量节点u_i的候选域；若变量节点u_i存在有向入射边<u_j,u_i>，若u_j为常量节点，则通过节点u_j的邻接表以减少变量节点u_i的候选域；若u_j为变量节点，则可以通过在数据图中G构建有向边<u_i,u_j>标签的终止节点的集合P-Out(e_i)＝{v_j|＜v_i,v_j＞∈E,L_e＜v_i,v_j＞＝L′_e＜u_i,u_j＞}，以减少变量节点u_i的候选域。对于查询图中的变量节点，使用以上四种变量节点索引可以进一步减少变量节点的候选集。

2-4)为RDF数据图G中每一个节点v构造h-hop邻居节点集合，表示为N_h(v)＝{＜v′,i＞:d(v,v′)＜h,i≤h}，其中v′表示RDF数据图G中与节点v的最短路径长度小于等于h的节点。

3)为SPARQL查询图Q中的每一个节点构建节点标签匹配对，得到节点标签匹配对列表VPL；具体是：对于SPARQL查询图Q中的每一个节点u_i，若该节点为常量节点，通过RDF数据图中节点标签反向列表索引IL^G获得和节点u_i标签相同的节点v_i，构建标签匹配节点对(u_i,v_i)并插入到节点标签匹配对列表VPL中；若节点u_i为变量节点，其标签未知，候选节点为RDF数据图中的所有节点，通过步骤3所构建的邻接表、逆邻接表、P-In和P-Out索引以获得节点u最小候选域CR(u_i)，并将节点标签匹配对(u_i,v′_i)插入到节点标签匹配列表VPL中，其中v′∈CR(u_i)。

构建三元组

并依次插入到大根堆PH中；具体包括如下步骤；

4-1)计算节点标签匹配对的匹配符号列表。依次从节点标签匹配序列VPL中取出一个节点标签匹配对(u_i,v_i)。假设RDF数据图G中节点u_i的两个邻居节点分别为x和y，其对应的标签分别为

和

和

节点u_i的两个邻居节点标签

和节点的v_i的两个邻居节点标签

s₂：节点u的两个邻接节点标签与节点v的两个邻居节点标签完全相同，形式化描述为：

s₁：节点u的两个邻居节点标签中仅有一个邻接节点的标签与节点v的一个邻居节点标签相同，形式化描述为：

s₀：节点u的两个邻居节点标签中没有一个邻居节点的标签与节点v的滑动窗口中的一个邻居节点标签相同，可以形式化描述为：

标签重叠的符号的优先级为s₂＞s₁＞s₀，因此，每一个节点标签匹配对的邻接节点标签匹配情况可以表示为一个由s₂、s₁和s₀组成的符号序列S(u_i,v_i)。若查询图中节点不存在邻接节点，则默认节点对标签匹配符号序列为空。查询图节点u_i的两两邻居节点标签的组合的数量为d(d-1)/2，因此，节点标签匹配节点对符号列表的长度为d(d-1)/2。若候选节点v_i的邻居节点的数量少于查询图节点u_i的数量，则为节点v_i构造一个长度为d(d-1)/2的临时邻居节点标签序列。将节点v_i的邻居节点标签序列全部复制到节点v_i的临时邻居节点标签序列，其余deg(u_i)-deg(v_i)个空标签位使用符号{#}进行填充，空标签不与任何标签匹配。

假设节点标签匹配对<u₀,v₀>,节点u₀的邻居节点标签为

节点v₀的邻居节点标签为

节点u₀的邻居节点数量为3，而候选节点v₀的邻居节点数量为2，则为节点v₀采用一个长度为3的临时邻居节点标签序列{A,C,#}。查询图节点u₀的两两组成的邻居节点序列为{AB,AC,BC},数据图节点v₀的两两组成的邻居节点序列为{AC,A#,C#}。标签AC和标签AC最匹配，匹配程度为s₂；标签AB和标签A#最匹配，匹配程度为s₁；标签BC标签C#最匹配，匹配程度为s₁。因此，节点标签匹配对(u_i,v_i)的标签符号序列为S(u_i,v_i)＝{s₂,s₁,s₁}。

4-2)计算节点标签匹配预期标签匹配符号s₂,s₁和s₀的出现概率。假设数据图中标签的数量为L，且RDF数据图和SPARQL查询图中的标签都是独立分布的，候选节点v_i的邻居节点的数量为d＝deg(v_i)。查询图中某个节点与数据图中某个节点标签相同的概率为1/L,不相同的概率为(1-1/L),则节点u_i的一个邻居节点标签与节点v_i的任一邻居节点不相同的概率为(1-1/L)^d。对于节点标签匹配对(u_i,v_i)，符号s₀，s₁和s₂出现的概率分别为:

pr(s₀)＝((1-1/L)^d)² (1)

pr(s₁)＝2·(1-(1-1/L)^d)(1-1/L)^d (2)

pr(s₂)＝(1-(1-1/L)^d)² (3)

标签匹配符号s₀，s₁和s₂构成了完整的事件空间即pr(s₀)+pr(s₁)+pr(s₂)＝1。假设数据图中节点的标签的数量为L＝3，对于节点标签匹配对<u₀,v₀>,节点u₀的邻居节点标签为

节点v₀的邻居节点标签为

候选节点的度为d＝2,根据公式(1)，(2)，(3)计算可得pr(s₀)＝0.197,pr(s₁)＝0.493,pr(s₂)＝0.308。

4-3)计算节点标签匹配对卡方值。卡方统计量χ²通常用于计算事件期望频数和观察频数的之间的标准化平方差：

其中，O_i和E_i分别为事件i观察频数和期望频数，期望频数E_i＝len×p_i，其中len为观察的总次数。χ²统计量遵循卡方分布，p-value越低，χ²统计量越高，因此统计显著性越高。因此，检索相似度更高的子图转化为查找具有χ²值较大的子图。对于一个节点标签匹配对，分别使用步骤4-2)中公式(1)，(2)和(3)计算查询图每个节点标签匹配对符号s₀，s₁和s₂预期出现概率，并结合符号s₀，s₁和s₂实际出现次数计算每个节点标签匹配对的卡方值。

对于节点标签匹配对<u₀,v₀>,节点u₀的邻居节点标签为

节点v₀的邻居节点标签为

符号s₀，s₁和s₂的观察频数分别为0，2，1。假定标签节点的数量为L＝4,pr(s₀)＝0.197,pr(s₁)＝0.493,pr(s₂)＝0.308，查询图节点u₀的度为3，则s₀，s₁和s₂的期望频数E(s₀)＝3×0.197＝0.591,E(s₁)＝3×0.493＝1.479,E(s₂)＝3×0.308＝0.924,使用步骤4-3)中公式4可得节点标签匹配对<u₀,v₀>的卡方值为

4-4)依次为每一个节点标签匹配对＜u_i,v_i＞计算卡方值

构建三元组

5)从大根堆PH中提取卡方值

最大的三元组

以节点＜u,v＞为根以生成树的方式进行扩展匹配，得到一个近似匹配序列M(i)，并添加到近似匹配序列集合M中，重复该步骤，直到得到满足用户所需的k个近似匹配序列；具体包括如下步骤：

5-1)从大根堆PH中提取卡方值最大的节点标签匹配对＜u,v＞,插入到匹配序列M(i)中，并在RDF数据图G中和SPARQL查询图Q中分别将u和v标记为已匹配节点。在匹配过程中，已经匹配的节点不能重新匹配。

5-2)构建辅助大根堆SH，创建以u为中心的邻接顶点和以v为中心的h-hop邻居节点标签匹配节点对，匹配节点对中的节点具有相同的标签。计算该节点匹配对的节点匹配程度函数F_h(u′,v′)，其中u′为u的邻接节点，v′为v的h-hop邻接节点，并将三元组＜u′,v′,F_h(u′,v′)＞插入到辅助堆SH中。节点匹配程度函数表示为

其中节点v″是与节点v′的最短距离小于等于h且标签相等的节点；d(v″,v′)表示节点v″是到节点v′的最短距离；α(0<α<1)是距离影响因子，α^d(v″,v′)表示节点v″和节点v′的邻近度，随着距离的增大而减小；β为边标签影响因子，若边标签相同，取值为1，否则取值为0＜β＜0.1，

的计算方法如公式(4)所示。

假设以节点标签匹配对(u₀,v₀)为根进行扩展，跳h＝2，则可以考虑以v₀为中心2跳的邻居节点。节点u₀的邻居节点为u₁，其标签为B，节点v₀的邻居节点为v₁，标签为C，若节点v₁的邻居节点为v₂，标签为B，则构成节点标签匹配对(u₁,v₂)。则节点标签匹配对(u₁,v₂)的节点匹配值F₂(u₁,v₂)可以根据步骤5-2)公式(5)计算。

5-3)若SPARQL查询图中的节点尚未匹配完毕且辅助大根堆SH不空，从辅助大根堆SH中，提取具有最大节点匹配值的节点标签匹配对＜u,v＞，将＜u,v＞加入到当前近似匹配序列M(i)中，并分别标记u和v为已匹配节点。若SPARQL查询图中的节点全部匹配完毕或者辅助大根堆SH为空，则停止匹配，将序列M(i)加入到近似匹配序列集合M中。

6)输出M中每一个近似匹配序列中查询图Q中变量节点所匹配的数据图G中节点的标签，即

输出近似匹配序列集合M中每一个序列M(i)中查询图为变量所匹配的RDF数据图中的节点标签。

Claims

1.一种基于邻居向量的RDF Top-k查询方法，所述RDF的数据集为<S，P，O>三元组的集合，查询问题满足SPARQL标准，其特征在于，包括如下步骤：

构建三元组

并依次插入到大根堆PH中；具体包括如下步骤：

和

和

节点u_i的两个邻居节点标签

和节点的v_i的两个邻居节点标签

的标签匹配程度使用三种符号类型s₂，s₁和s₀进行描述，计算规则如下所示：

s₂：节点u_i的两个邻接节点标签与节点v_i的两个邻居节点标签完全相同，形式化描述为：s₂:

s₁：节点u_i的两个邻居节点标签中仅有一个邻接节点的标签与节点v_i的一个邻居节点标签相同，形式化描述为：s₁:

s₀：节点u_i的两个邻居节点标签中没有一个邻居节点的标签与节点v_i的一个邻居节点标签相同，形式化描述为：s₀:

标签重叠的符号的优先级为s₂＞s₁＞s₀，因此，每一个节点标签匹配对的邻接节点标签匹配情况表示为一个由s₂、s₁和s₀组成的符号序列S(u_i,v_i)；若查询图中节点不存在邻接节点，则默认节点对标签匹配符号序列为空，查询图节点u_i的两两邻居节点标签的组合的数量为d(d-1)/2，因此，节点标签匹配节点对符号列表的长度为d(d-1)/2；若候选节点v_i的邻居节点的数量少于查询图节点u_i的数量，则为节点v_i构造一个长度为d(d-1)/2的临时邻居节点标签序列，将节点v_i的邻居节点标签序列全部复制到节点v_i的临时邻居节点标签序列，其余deg(u_i)-deg(v_i)个空标签位使用字符{#}进行填充，字符{#}不与任何标签匹配；

pr(s₀)＝((1-1/L)^d)² (1)

pr(s₁)＝2·(1-(1-1/L)^d)(1-1/L)^d (2)

pr(s₂)＝(1-(1-1/L)^d)² (3)

4-4)依次为每一个节点标签匹配对＜u_i,v_i＞计算卡方值

构建三元组

插入大根堆PH中，并根据节点标签匹配对的卡方值进行排序；

5)从大根堆PH中提取卡方值

最大的三元组

2.根据权利要求1所述的一种基于邻居向量的RDF Top-k查询方法，其特征在于，所述的步骤1)，具体包括如下步骤：

3.根据权利要求1所述的一种基于邻居向量的RDF Top-k查询方法，其特征在于，所述的步骤2)，具体包括如下步骤：

2-2)为RDF数据图G的每一个节点v构建邻居节点标签列表索引

2-3)在SPARQL查询中，为有效减少变量节点u_i的候选域，分别构建邻接表、逆邻接表、边标签相关的起始节点和终止节点列表索引P-In和P-Out；具体的构造方式为：若变量节点u_i存在有向出射边<u_i,u_j>，其中u_j为节点u_i的邻接点，若u_j为常量节点，则通过构建节点u_j的逆邻接表以减少变量节点u_i的候选域；若u_j为变量节点，则通过在数据图中G构建有向边标签<u_i,u_j>的起始节点的集合P-In，以减少变量节点u_i的候选域；若变量节点u_i存在有向入射边<u_j,u_i>，若u_j为常量节点，则通过节点u_j的邻接表以减少变量节点u_i的候选域；若u_j为变量节点，则通过在数据图中G构建有向边<u_i,u_j>标签的终止节点的集合P-Out，以减少变量节点u_i的候选域；对于查询图中的变量节点，使用以上四种变量节点索引进一步减少变量节点的候选集；

4.根据权利要求1所述的一种基于邻居向量的RDF Top-k查询方法，其特征在于，所述的步骤3)具体是：对于SPARQL查询图Q中的每一个节点u_i，若该节点为常量节点，通过RDF数据图中节点标签反向列表索引IL^G获得和节点u_i标签相同的节点v_i，构建节点标签匹配对(u_i,v_i)并插入到节点标签匹配对列表VPL中；若节点u_i为变量节点，其标签未知，候选节点为RDF数据图中的所有节点，通过步骤2)所构建的邻接表、逆邻接表、P-In和P-Out索引以获得节点u_i的最小候选域CR(u_i)，并将节点标签匹配节点对(u_i,v′_i)插入到节点对列表VPL中，其中v′_i∈CR(u_i)。

5.根据权利要求1所述的一种基于邻居向量的RDF Top-k查询方法，其特征在于，所述的步骤5)，具体包括如下步骤：

5-1)从大根堆PH中提取卡方值最大的节点标签匹配对＜u,v＞,插入到匹配序列M(i)中，并在RDF数据图G中和SPARQL查询图Q中分别将u和v标记为已匹配节点，在匹配过程中，已经匹配的节点不能重新匹配；

的计算方法采用公式(4)进行计算；

6.根据权利要求1所述的一种基于邻居向量的RDF Top-k查询方法，其特征在于，所述的步骤6)，具体是输出近似匹配序列集合M中每一个序列M(i)中查询图为变量对应的RDF数据图中的节点标签。