CN103778251A

CN103778251A - 面向大规模rdf图数据的sparql并行查询方法

Info

Publication number: CN103778251A
Application number: CN201410056349.7A
Authority: CN
Inventors: 吕雪栋; 冯志勇; 王鑫
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2014-02-19
Filing date: 2014-02-19
Publication date: 2014-05-07
Anticipated expiration: 2034-02-19
Also published as: CN103778251B

Abstract

本发明涉及RDF图数据处理，为提供一种对大规模RDF图数据的高效并行查询处理方法，减少磁盘读写次数，提高查询效率，为此，本发明采用的技术方案是，面向大规模RDF图数据的SPARQL并行查询方法，包括下列步骤：1)使用整体同步并行BSP模型描述RDF图数据；2)使用资源的URI来标记；3)对于RDF图数据集中的每一条三元组；4)对于3)中的每一条边e，使用URI_r作为e_r的标记；5)获得用户提交的查询请求q₀；6)选择不同的传播路径，并行传播；7)利用贪心算法评估q_i-1中的每条子句所包含的信息量；8)重复6)和7)，直到所有子句都经过绑定。本发明主要应用于图数据处理。

Description

面向大规模RDF图数据的SPARQL并行查询方法

技术领域

本发明涉及RDF（Resource Description Framework，资源描述框架）图数据处理和查询、查询领域，具体来说，涉及面向大规模RDF图数据的并行查询领域，即面向大规模RDF图数据的SPARQL（SPARQL Protocol and RDF Query Language，SPARQL协议与RDF查询语言）并行查询方法。

背景技术

互联网中的信息由大量的计算机发送和接收，但是目前计算机并不能理解这些信息。针对这种情况，1998年Tim Berners-Lee提出语义网的概念。资源描述框架（RDF）是语义网的基本数据格式。由于RDF图数据格式具有非常好的扩展性和灵活性，因此社交网络、生物信息等越来越多的领域采用RDF格式发布数据，实现对RDF图的查询是利用这些信息的基础。SPARQL是在RDF模型基础上的标准查询语言。与传统的关系型数据库中进行的查询不同，在图上进行的查询具有更高的复杂度，因为这种查询实际上是在一张RDF图上进行子图匹配（BGP）。

然而目前单机集中存储和处理的管理方式已经无法应对RDF图数据的巨大规模，分布式存储和并行处理是语义Web的发展趋势，也是目前对RDF图数据进行管理和计算的有效手段。MapReduce（一种面向大规模数据的并行分布式编程模型）可以高效地处理大规模数据，但是对于更适合用消息传递模式来解决的图计算，MapReduce并不是最佳选择。

目前来看，无论是基于索引的存储，还是基于文件的存储，MapReduce框架下的查询处理方式都是将大的完整的查询拆分成小的子查询，这些子查询从各个数据节点上获得部分结果，再将这些部分结果集中起来，做连接处理，最终获得完整的结果。目前集中在分布式RDF图数据上的查询研究焦点也是如何拆分完整的查询和如何将部分结果连接成最终结果。这样的查询处理过程存在以下一些问题：

（1）没有充分利用RDF图数据的图结构特征，也就是没有利用图数据里相邻顶点的连接关系。机械地将图数据当作独立的边来处理。

（2）没有充分利用SPARQL语句的图图结构特征。

（3）查询过程中涉及到多次输入输出，且输入输出的数据量巨大。

发明内容

为克服现有技术的不足，提供一种对大规模RDF图数据的高效并行查询处理方法，充分利用RDF图数据的图的特性，清晰直观地完成SPARQL查询任务，减少磁盘读写次数，提高查询效率。为此，本发明采用的技术方案是，面向大规模RDF图数据的SPARQL并行查询方法，包括下列步骤：

1)使用整体同步并行BSP（Bulk Synchronous Parallel字头缩写）模型描述RDF图数据，RDF图数据中的每一个资源都被具体为一个可执行计算的BSP中的计算单元；

2)使用资源的URI来标记每一个与该资源对应的计算单元；

3)对于RDF图数据集中的每一条三元组：主语计算单元S,谓语P,宾语计算单元O，建立主语计算单元S到宾语计算单元O的有向边e，使用谓语P的URI作为e的标记，并将e的相关信息保存在主语计算单元S的本地数据域中；

4)对于3)中的每一条边e，建立一条方向相反的边e_r，使用URI_r作为e_r的标记，其中URI为谓语P的URI，并将e_r的相关信息保存在宾语计算单元O的本地数据域中；

5)获得用户提交的SPARQL查询请求q₀，分析q₀，利用贪心算法评估q₀中每条子句分别包含的信息量，将包含信息量最多的子句tp_i，i为计数器，初始时i=1，作为首要待处理子句，将q₀发送给tp_i的主语计算单元S，若S是未知变量，则发送给宾语计算单元O；

6)S或O接收到q_i-1时，在正向边或反向边中查找满足tp_i的可能解的集合E_i，并根据E_i中的信息对q_i-1中的变量进行绑定，得到部分绑定后的查询q_i，由于可能出现多个互不矛盾的绑定可能，所以存在多个不同的q_i，每个q_i根据所包含信息的不同，选择不同的传播路径，并行传播；

7)i=i+1，利用贪心算法评估q_i-1中的每条子句所包含的信息量，将包含信息量最多的子句tp_i作为首要待处理子句，将q_i-1发送给tp_i的主语计算单元S，若S是未知变量，则发送给宾语计算单元O；

8)重复6)和7)，直到所有子句都经过绑定，且各个子句绑定变量时没有出现冲突，如果得到多于0个查询结果，则返回这些结果。

上述的步骤5)中，使用贪心算法评估每个子句所包含的信息量，并根据子句所包含的信息量决定从哪一个计算单元开始执行查询，子句共分为八种类型，优先级的高低受该子句所包含的信息量的影响。最有可能匹配、匹配代价最小的子句将被排在靠前的位置，相对最难匹配、匹配代价最大的子句将被放在靠后的位置，如果某一子句包含的信息量比较大，或者该子句包含了一个出现次数比较高的变量，那么这个子句的排序就比较靠前；反之，如果子句中变量较多，或者其所包含的变量在其他子句中出现的次数较少，则该子句排序就比较靠后。

本发明的技术特点及效果：

本发明针对大规模RDF图数据的SPARQL查询，提供了一种基于BSP并行计算模型的解决方法，满足了大规模分布式存储环境下的基本图模式查询要求，提高了对大规模RDF图数据的查询速度，有助于RDF图数据的利用和管理。

附图说明

图1是某查询在计算单元之间的转发路径。

图2是本发明对RDF图数据结构的扩展结果。

图3在各个不同大小的数据集上执行10个查询的平均时间图。

图4在不同大小的DBpedia数据集上不同复杂程度的查询的平均响应时间效果图。

具体实施方式

本发明采用的技术方案是：

9)使用BSP模型描述RDF图数据，RDF图数据中的每一个资源都被具体为一个可执行计算的BSP中的计算单元；

10)使用资源的URI（Uniform resource identifier，统一资源标示符）来标记每一个与该资源对应的计算单元；

11)对于RDF图数据集中的每一条三元组（S,P,O），建立主语计算单元S到宾语计算单元O的有向边e，使用谓语P的URI作为e的标记，并将e的相关信息保存在主语计算单元S的本地数据域中；

12)对于3)中的每一条边e，建立一条方向相反的边e_r，使用URI_r（其中URI为谓语P的URI）作为e_r的标记，并将e_r的相关信息保存在宾语计算单元O的本地数据域中；

13)获得用户提交的SPARQL查询请求q₀，分析q₀，利用贪心算法评估q₀中每条子句分别包含的信息量，将包含信息量最多的子句tp_i（i=1）作为首要待处理子句，将q₀发送给tp_i的主语计算单元S（若S是未知变量，则发送给宾语计算单元O）；

14)S（或O）接收到q_i-1时，在正向边或反向边中查找满足tp_i的可能解的集合E_i，并根据E_i中的信息对q_i-1中的变量进行绑定，得到部分绑定后的查询q_i（由于可能出现多个互不矛盾的绑定可能，所以存在多个不同的q_i，每个q_i根据所包含信息的不同，选择不同的传播路径，并行传播）；

15)i=i+1，利用贪心算法评估q_i-1中的每条子句所包含的信息量，将包含信息量最多的子句tp_i作为首要待处理子句，将q_i-1发送给tp_i的主语计算单元S（若S是未知变量，则发送给宾语计算单元O）；

16)重复6)和7)，直到所有子句都经过绑定，且各个子句绑定变量时没有出现冲突。如果得到多于0个查询结果，则返回这些结果。

上述的步骤5)中，使用贪心算法评估每个子句所包含的信息量，评估方法为：给每条子句打分，不包含未知变量的子句得分高于部分成分未知的子句，所有成分均未知的子句得分最低；包含公共变量的子句得分高于包含非公共变量的子句。根据子句得分决定从哪一个计算单元开始执行查询。子句共分为八种类型，优先级的高低受该子句所包含的信息量的影响。最有可能匹配、匹配代价最小的子句将被排在靠前的位置，相对最难匹配、匹配代价最大的子句将被放在靠后的位置。如果某一子句包含的信息量比较大（例如，只含有一个变量或者不含变量），或者该子句包含了一个出现次数比较高的变量（例如，星状查询的中心变量），那么这个子句的排序就比较靠前；反之，如果子句中变量较多，或者其所包含的变量在其他子句中出现的次数较少，则该子句排序就比较靠后。

上述步骤6)中。当某个计算单元接到中间结果q_i后，从q_i的未处理子句中读取优先级最高的子句tp，检查tp是8种子句中的哪一种：若变量出现在谓语或宾语的位置上，说明当前计算单元是tp的主语。此时，当前计算单元需要在出边中查找与tp相匹配的信息，并根据查找到的信息对tp中的变量进行绑定；若变量出现在主语的位置上，说明当前计算单元是tp的宾语。此时，当前计算单元需要在入边中查找与tp相匹配的信息，并根据查找到的信息对tp中的变量进行绑定。绑定不仅仅限于tp，若其他未处理子句中也包含tp中的变量，则需要对这些同名变量一并绑定。绑定完成后，当前计算单元需要把tp添加已处理的边列表中，并从未处理的边列表中将其删除。由于绑定导致未处理边列表中子句的变量状态发生了变化，因此在转发q_i+1给下一个计算单元之前，需要对未处理边列表中的边重新确定处理优先级顺序。

下面结合附图对本发明作进一步详细说明。

图1是一个查询请求在其所涉及到的计算单元之间的转发路径，其中在计算单元O1处出现了一个分支，下面结合该过程对实施方式进行详细说明：

1)使用BSP模型描述RDF图数据，RDF图数据中的每一个资源都被具体为一个可执行计算的BSP中的计算单元，计算单元由图1中的矩形表示；

2)使用资源的URI来标记每一个与该资源对应的计算单元；

3)对于RDF图数据集中的每一条三元组（S,P,O），建立主语计算单元S到宾语计算单元O的有向边e，使用谓语P的URI作为e的标记，并将e的相关信息保存在主语计算单元S的本地数据域中，图1中单向箭头表示两个计算单元之间的一条边；

4)对于3)中的每一条边e，建立一条方向相反的边e_r，使用URI_r（其中URI为谓语P的URI）作为e_r的标记，并将e_r的相关信息保存在宾语计算单元O的本地数据域中，e_r没有在图中画出，每一条e_r都是与对应的e反向的边，如图2所示；

5)获得用户提交的SPARQL查询请求q₀，分析q₀，利用贪心算法评估q₀中每条子句分别包含的信息量，将包含信息量最多的子句tp_i作为首要待处理子句，将q₀发送给tp_i的主语计算单元S（若S是未知变量，则发送给宾语计算单元O）；

6)S（或O）接收到q_i-1时，在正向边或反向边中查找满足tp_i的可能解的集合E_i，并根据E_i中的信息对q_i-1中的变量进行绑定，得到部分绑定后的查询q_i（由于可能出现多个互不矛盾的绑定可能，所以存在多个不同的q_i，每个q_i根据所包含信息的不同，选择不同的传播路径，并行传播）；

7)i=i+1，利用贪心算法评估q_i-1中的每条子句所包含的信息量，将包含信息量最多的子句tp_i作为首要待处理子句，将q_i-1发送给tp_i的主语计算单元S（若S是未知变量，则发送给宾语计算单元O）；

8)重复6)和7)，直到所有子句都经过绑定，且各个子句绑定变量时没有出现冲突。如果得到多于0个查询结果，则返回这些结果。

上述的步骤5)中，使用贪心算法评估每个子句所包含的信息量，并根据子句所包含的信息量决定从哪一个计算单元开始执行查询，子句共分为8种类型，如表3所示。优先级的高低受该子句所包含的信息量的影响。最有可能匹配、匹配代价最小的子句将被排在靠前的位置，相对最难匹配、匹配代价最大的子句将被放在靠后的位置。如果某一子句包含的信息量比较大（例如，只含有一个变量或者不含变量），或者该子句包含了一个出现次数比较高的变量（例如，星状查询的中心变量），那么这个子句的排序就比较靠前；反之，如果子句中变量较多，或者其所包含的变量在其他子句中出现的次数较少，则该子句排序就比较靠后。

上述步骤6)中。当某个计算单元接到中间结果q_i后，从q_i的未处理子句（用列表tps_toprocess表示）中读取优先级最高的子句tp，确定tp属于8种子句类型中的哪一种：若变量出现在谓语或宾语的位置上，说明当前计算单元是tp的主语。此时，当前计算单元需要在出边中查找与tp相匹配的信息，并根据查找到的信息对tp中的变量进行绑定；若变量出现在主语的位置上，说明当前计算单元是tp的宾语。此时，当前计算单元需要在入边中查找与tp相匹配的信息，并根据查找到的信息对tp中的变量进行绑定。绑定不仅仅限于tp，若其他未处理子句中也包含tp中的变量，则需要对这些同名变量一并绑定。绑定完成后，当前计算单元需要把tp添加已处理的边列表（用tps_processed表示）中，并从未处理的边列表中将其删除。由于绑定导致未处理边列表中子句的变量状态发生了变化，因此在转发q_i+1给下一个计算单元之前，需要对未处理边列表中的边重新确定处理优先级顺序。具体步骤如下：

输入：tps_toprocess，tps_processed

输出：tps_toprocess，tps_processed

1.接收其他顶点发送来的tps_toprocess和tps_processed.新建标志变量flag.

2.取出待处理的三元组模式中处理优先级最高的一条tp=tps_toprocess.get(0).

3.判断tp中是否包含未知变量.

3.1.若包含，设该变量名为x，在出边列表或入边中查找满足tp的边，数量为n.

如果n>0，对于满足tp的边edge_i执行下面的操作：

根据edge_i中的信息，绑定tps_toprocess中所有的x，令flag=1.

如果n=0，令flag=0.

3.2.若不包含，在出边列表或入边列表中查找是否存在边满足tp的边，若存在则flag=1，否则flag=0；

3.3.如果flag==1：将tp从tps_toprocess中删除并添加到tps_processed中；如果flag==0：抛弃tps_toprocess和tps_processed.

4.检查tps_toprocess是否为空.若是，说明所有三元组模式都匹配完毕，当前结果为最终结果，将当前结果作为最终结果返回.若否，将tps_toprocess和tps_processed传递给下一个计算单元.

例如，对于图1中的查询q，初始时包括三条子句，如表1所示，q中共包含了两个未知变量x和y，在经过一次传播后，q中的一个未知变量被绑定，得到表2所示结果。

本发明使用了LUBM（Lehigh University Benchmark）数据集和DBpedia数据集作为测试数据。LUBM提供了一个数据生成器和14条标准的查询测试语句，从中选出了10条测试查询。图3是在各个不同大小的数据集上执行10个查询的平均时间。随着数据集大小的增加，查询时间也随之上升。10个查询在LUBM-1上执行的平均时间为0.497s，在LUBM-10上执行的平均时间为2.191s，虽然三元组数量增长了11.8倍，但是查询时间只增长了3.4倍。

图4描述了在不同大小的DBpedia数据集上不同复杂程度的查询的平均响应时间。从图中可以看到，查询执行时间随查询语句包含的三元组模式数量和数据集规模的增长而增长。对查询中的每一个三元组模式，无论其是否包含未知变量，都需要一个超步来处理，因此处理一个查询所需要的总的超步数量与BGP查询中包含的三元组模式数量相同。对于同一个数据集，查询时间与查询语句中的三元组模式数量线性相关。对同一条查询语句，当数据集规模变大时，查询时间变长，但是时间的增长速度远远小于数据的增长速度。

表1

表2

表3

Claims

1.一种面向大规模RDF图数据的SPARQL并行查询方法，其特征是，包括下列步骤：

面向大规模RDF图数据的SPARQL并行查询方法，包括下列步骤：

2)使用资源的URI来标记每一个与该资源对应的计算单元；

2.如权利要求1所述的面向大规模RDF图数据的SPARQL并行查询方法，其特征是，上述的步骤5)中，使用贪心算法评估每个子句所包含的信息量，并根据子句所包含的信息量决定从哪一个计算单元开始执行查询，子句共分为八种类型，优先级的高低受该子句所包含的信息量的影响。最有可能匹配、匹配代价最小的子句将被排在靠前的位置，相对最难匹配、匹配代价最大的子句将被放在靠后的位置，如果某一子句包含的信息量比较大，或者该子句包含了一个出现次数比较高的变量，那么这个子句的排序就比较靠前；反之，如果子句中变量较多，或者其所包含的变量在其他子句中出现的次数较少，则该子句排序就比较靠后。