CN104834754A

CN104834754A - 一种基于连接代价的sparql语义数据查询优化方法

Info

Publication number: CN104834754A
Application number: CN201510288922.1A
Authority: CN
Inventors: 徐雷; 方卿; 袁小群
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2015-08-12

Abstract

本发明提供了一种基于连接代价的SPARQL语义数据查询优化方法，本方法使用RDF的模式信息来精简SPARQL基本图模式，然后使用B树结构快速估计SPARQL连接图的节点大小及边权值，使用连接代价估计并结合动态规划方法找到最优逻辑查询计划，从而提高RDF语义数据的查询效率。<b/>

Description

一种基于连接代价的SPARQL语义数据查询优化方法

技术领域

本发明属于计算机查询优化技术领域，具体涉及一种基于连接代价的SPARQL语义查询优化方法。

背景技术

目前关联数据(Linked Data)的规模逐年递增，基于关联数据的语义查询的效率一直有待提高。关联数据一般采用RDF(资源描述框架)来表达，目前对RDF文档查询优化研究主要分为2个方面：一种是对RDF文档建立有效的索引机制，以及Oracle、Mysql等关系数据库对RDF文档的序列化索引机制；另一种是对RDF标准查询语言SPARQL的优化。前者主要依赖于RDF的索引结构、磁盘索引存储方式或数据库的特性来达到较高的I/O吞吐性能；后者从分析SPARQL语法语义的角度，研究其查询机制，找到最优的逻辑查询计划。SPARQL类似于SQL查询语言的select-from结构，它的执行需要相应的查询处理器进行编译。在编译过程中会进行关系代数等价转换，关系代数的等价形式有多种，各操作子的执行顺序，连接操作的代价，以及操作子的具体实现方式都有差异，所以存在对SPARQL的各种逻辑优化策略。

目前对SPARQL优化的方法中，一些是从SPARQL语句中属性相关性的角度来调整SPARQL语句中连接操作的选择度估值，以及使用自适应存储系统FlexTable来改善查询效率；还有的方法采用SPARQL语义约简规则以及选择估值策略融合的方案来设计SPARQL的优化算法；以及利用元组模式的选择度估值寻找元组模式最优连接顺序的方法，这种方法已应用于Jena的SPARQL查询优化器ARQ中；将SPARQL查询模式进行分组也是一种优化策略，还可以采用贝叶斯网和链直方图的方法进行选择度的估计来优化SPARQL查询。

发明内容

本发明在于解决海量RDF语义数据查询效率低下的问题，设计了一种基于连接代价的SPARQL语义查询优化方法。

为实现上述目标，本发明采用如下技术方案：

一种基于连接代价的SPARQL语义数据查询优化方法，包括如下步骤：

步骤1：构建RDF语义数据索引，使用B树结构对RDF语义数据进行索引存储，选择spo、pos、osp三种索引方式；其中，s为主语、p为谓语、o为宾语；

步骤2：获取用户客户端提交的SPARQL查询语句，解析出SPARQL查询语句中的图模式，并表示为SPARQL连接图形式；

步骤3：利用RDF模式信息简化SPARQL查询语句，得到简化的SPARQL连接图；

步骤4：估计SPARQL查询语句子查询结果的基数大小cart(t)；使用公式cart(t)＝3×N/4进行估计，其中N表示子查询经过哈希运算后结果集个数的取值范围；t表示SPARQL查询语句中的一个子查询，对应精简后的SPARQL连接图中的一个节点；子查询是指SPARQL连接图模式中的一条三元组查询；

步骤5：对连接操作的结果集大小进行估计；

步骤6：根据步骤5得到的连接操作的结果集大小的估计值，使用动态规划方法在整个连接图空间中查找最优的执行顺序。

步骤7：根据最佳执行顺序，产生新的SPARQL查询并提交服务器端执行语义查询；

步骤8：结束。

进一步的，所述的步骤3中利用RDF模式信息简化SPARQL查询语句；的具体精简规则为：

①对含有公共变量的SPARQL连接图模式{？x rdf:type C1.？x rdf:type C2.……}简化为{？xrdf:type C1.……}，其中，C1和C2是RDF中的概念，？x表示待查询的变量；

②对于{？x rdf:type C1.？x p o.……}的SPARQL连接图模式，其中p为非rdf:type类型的属性，简化为{？x p o.……}，o为宾语；使用该规则时，根据模式信息考察谓语p的定义域或值域是否为单个概念，如果是，直接按该规则简化，如果不是，SPARQL连接图模式将不进行简化处理；

③对于含有公共变量形{？x p1？o.？y p2？o.……}的图模式，其中p 1是p 2的子属性，简化为{？x p1？o.……}。

进一步的，所述的步骤5中使用如下方法估计连接操作结果集的基数：

其中，R和S分别表示PARQL查询语句子查询结果的基数大小，表示连接操作的结果集基数大小的估计，s表示选中率，|R|表示R的基数，|S|表示S的基数，其估计通过cart(t)计算；假设R中的变量集合为V_R，S中的变量集合为V_S；s的确定分如下几种情况：

①当左右连接操作数没有公共变量时，SPARQL连接图中子图之间没有直接的边连接，这种情况泛化为笛卡尔积，这时s＝1，那么

②当左右连接操作数有公共变量时，假设公共变量的集合为V_RS＝V_R∩V_S，W(R,V_RS)表示R上的V_RS变量集上的不同值的个数，W(S,V_RS)表示S上的V_RS变量集上的不同值数,并假设不同值在操作数上都是均匀分布的；当W(R,V_RS)≤W(S,V_RS)，假设R在变量V_RS的值都在S上，那么R中每个元组在S中有个元组匹配，则：

s = \frac{1}{W (S, V_{RS})};

同理当W(S,V_RS)≤W(R,V_RS)时，

s = \frac{1}{W (R, V_{RS})},

两种情况可简化为：

进一步的，所述的W(R,V_RS),W(S,V_RS)的估计利用子查询结果基数的估计值和属性统计信息来计算。

进一步的，所述的步骤6中，该步骤中求解的每一个阶段需要求解的项目包括：连接操作结果集大小的估计T、连接操作最小代价的估计C、该阶段最佳执行顺序Q。

进一步的，所述的连接操作最小代价的估计C使用中间结果集基数和进行估计。

进一步的，所述的动态规划方法为：

首先，初始化SPARQL连接图，包括节点大小及边的权值；

第一阶段：计算每一条边的连接操作结果集大小的估计T1，每一条边的连接操作最小代价的估计C1，第一阶段最佳执行顺序Q1。

第二阶段：计算每两条连接边的连接操作结果集大小的估计T2、每两条边的连接操作最小代价的估计C2、第二阶段最佳执行顺序Q2。

第三阶段：计算每三条连接边的连接操作结果集大小的估计T3、每三条边的连接操作最小代价的估计C3、第三阶段最佳执行顺序Q3，直至所有连接边都计算完成，输出该阶段的Q。

本发明的有益效果是：一种基于连接代价的SPARQL语义查询优化方法能够提高SPARQL语义查询的效率，使得用户提交的查询请求的结果反馈更为迅速，提升用户体验。

附图说明

图1为本方法的流程图；

图2为表1中SPARQL查询语句对应的连接图。

具体实施方式

结合附图和实施实例对本方法进行详细说明，图1是本方法的流程图，具体步骤如下：

步骤1，构建RDF语义数据索引，使用B树结构对RDF语义数据进行索引存储，选择spo、pos、osp三种索引方式；其中，s为主语、p为谓语、o为宾语；该步骤产生的索引数据将用于后续SPARQL语义数据查询的对象；

本实施例中，RDF可使用三元组模式表示，即主语—谓语—宾语(spo)的形式，由于三元组模式的变量位置只有主语、谓语和宾语3个位置，三元组模式有8种情况。去掉最特化的模式(s p o)和最泛化的模式(？s？p？o)，其中，？s，？p和？o表示待查询的变量，依此为子查询模式中的主语、谓语和宾语变量，将得到6种模式：(？s p o)、(？s？p o)、(s？p o)、(s？p？o)、(s p？o)、(？s p？o)。为了节省存储空间，本方法选择spo、pos、osp这三种索引策略，可匹配上面6种模式。

步骤2，获取用户客户端提交的SPARQL查询语句，解析出SPARQL查询语句中的图模式(Graph Patterns)，并将其表示为SPARQL连接图；

表1

如表1的SPARQL查询语句示例，LUBM基准中的第2个查询语句Q2，NS是查询语句的命名空间，RDF Dataset是查询的RDF数据集对象，QF是需要查询的实体变量，GP是查询模式即查询需满足的条件，SM是对查询结果的修饰，GP对应的是该SPARQL查询语的图模式，其连接图表示为图2。图2中，SPARQL查询语句对应的连接图，其中1-6表示将SPARQL查询语句中每一个子查询转换得到的节点，如果两个节点之间有公共的变量则在节点之间增加一条边；连接图表示方法为：将GP中的每个三元组模式映射为节点v，若三元组模式之间存在公共的变量，则节点之间添加一条边e，该连接图为无向连通图，如果按照用户输入的图模式中的三元组顺序编号，对于表1中的SPARQL查询语句示例，将产生图2所示的连接图，连接图越复杂，表明三元组之间的关联越多，查询的代价可能越大。

步骤3，利用RDF模式信息简化SPARQL查询语句，得到简化的SPARQL连接图，便于对SPARQL查询语句的子查询进行结果基数的估计；

精简SPARQL连接图，由于RDF模式信息中存在概念之间的上下位关系、属性关系等推理关系且RDF属性中也存在递推的推理关系，因此，SPARQL连接图模式中如果存在这种类型的子查询模式就意味着查询模式中有冗余，可以对其精简，从而减少查询操作的实际执行次数；具体精简规则为：

①对于含有公共变量的SPARQL连接图模式{？x rdf:type C1.？x rdf:type C2.……}，其中，C1和C2都是RDF中的概念，SPARQL连接图模式可简化为{？x rdf:type C1.……}，即将{？x rdf:type C2.}子查询表示的节点及其关联的边从SPARQL连接图中删除；？x表示待查询的变量，在该例中表示子中的主语变量。

②对于{？x rdf:type C1.？x p o.……}的SPARQL连接图模式，其中p为非rdf:type类型的属性，直接简化为{？x p o.……}，o为宾语；即将{？x rdf:type C1}子查询表示的节点及其关联的边从SPARQL连接图中删除。使用该规则时，需要根据模式信息考察谓语p的定义域或值域是否为单个概念，如果是，直接按该规则简化，如果不是，那么图模式将不进行简化处理。

③对于含有公共变量形{？x p1？o.？y p2？o.……}的SPARQL图模式，其中p 1是p 2的子属性，简化为{？x p1？o.……}，即将{？y p2？o}子查询表示的节点及其关联的边从SPARQL连接图中删除。由于该子查询的匹配结果集蕴含于父查询的匹配结果集，两个结果集进行连接运算的结果集同子查询匹配结果集一致。

子查询是指SPARQL连接图模式中的一条三元组查询。

这些规则都力图保证SPARQL图模式中的子查询特殊化而非泛化，剔除泛化的子查询，可以减少集合操作，缩短查询时间。

步骤4，根据得到的SPARQL连接图，估计SPARQL查询语句子查询结果的基数大小cart(t)，其中t表示SPARQL查询语句中的一个子查询，对应精简后的SPARQL连接图中的一个节点。此处的子查询就是精简后的SPARQL连接图中的一个节点，一个节点相当于一个子查询，对其估计就是计算该节点执行查询后的近似结果集大小；使用公式cart(t)＝3×N/4在步骤1中构建的RDF语义数据索引上进行估计，其中N表示子查询经过哈希运算后结果集个数的取值范围大小。

根据子查询估计该查询的基数大小cart(t)，对三元组模式匹配结果大小的估计建立在B树的基础上。比如对于三元组模式(？s p o)，假设对变量？s的HASH值的取值范围设置为[0-0xff]，0xff表示的是16进制的数字；那么整个三元组的HASH值的取值范围就可以确定，假设为[n1,n2]，对于该取值范围在B树上查询计算键值在n1和n2之间的结果数N，这两个结果之间的数据包含了整个三元组模式匹配的结果。对于该结果基数的估计使用cart(t)＝3×N/4来计算，这是由于B树节点键值数目在[m/2,m-1]之间，其中m是B树的阶数，即B树中节点最多只能有m个；故乘以3/4表示对B树利用率的估计。

步骤5，对连接操作的结果集大小进行估计；即估计连接图边的权值，对于连接操作结果集大小的估计使用节点(子查询结果)基数的估计值，采用如下公式来估计连接操作结果集的基数：

其中，R和S分别表示三元组模式匹配后的结果集，即估计的SPARQL查询语句子查询结果的基数大小，表示连接操作的结果集基数大小的估计，s表示选中率，|R|表示R的基数，|S|表示S的基数，其估计通过cart(t)来计算。假设R中的变量集合为V_R,S中的变量集合为V_S。s的确定分如下几种情况：

s = \frac{1}{W (S, V_{RS})};

同理当W(S,V_RS)≤W(R,V_RS)时，

s = \frac{1}{W (R, V_{RS})},

两种情况可简化为：

公式(1)。

对W(R,V_RS),W(S,V_RS)的估计利用节点基数的估计值和属性统计信息来计算。

表2

表2为三元组模式匹配结果中变量的不同值估计，其中TP列表示一个子查询的模式Triple Pattern，？s？p？o分别表示该模式的主语、谓语和宾语变量，表中的值表示相应的变量在执行该查询模式后的结果集大小的估计值，表中给出了对三元组模式中变量的不同值数的估计，只考虑谓语位置为常量的模式，谓语为变量的情形在实际使用过程中很少会用到。其中对于t3模式中？o的不同值个数的估计有所不同，原因在于？o的不同值数根据RDF数据集结构、大小的不同而可能有很大的差异造成如果依赖card(t3)，将造成估值不准确的结果。本方法使用B树索引统计了在所有指定属性下该模式中变量？o的不同值数，记为dintinct(？o)并生成属性值表。

步骤6，根据步骤5得到的连接操作的结果集大小的估计值，使用动态规划方法在整个连接图空间中查找最优的执行顺序。该步骤求解的每一个阶段需要求解的项目包括：连接操作结果集大小的估计T、连接操作最小代价的估计C(使用中间结果集基数的和来估计)、该阶段最佳执行顺序Q。

所述的动态规划方法为：

首先，初始化SPARQL连接图，包括节点大小及边的权值。

表3

第1阶段的估计值如表3所示，其中E(eij)表示节点vi和vj之间的边的权值，min{vi,vj}→max{vi,vj}表示节点基数最小的节点→节点基数最大的节点。

第1阶段的T1为初始化图中边的权值，由于第1阶段之前没有中间结果产生，因此最小代价C₁的估计都为0，Q1的估计则根据启发式规则将节点基数cart(vi)最小的排在前面。所述的启发式规则就是指连接操作一般将小的集合放在连接操作的左边，即顺序在前。

表4

表4给出了第2阶段的估值情况，对于Q2的确定则根据最小C2值对应的左深连接树来确定，利用右集合的索引进行快速连接，减少内存使用率，避免中间关系的重复构建。

对于第3阶段的求解过程和上述阶段一样，这样直至所有的边都进行了代价估值，本方法将在最后一个阶段输出最小代价对应的连接顺序，即最优查询计划。

步骤7，根据最佳执行顺序，产生新的SPARQL查询语句并提交服务器端执行语义查询。

Claims

1.一种基于连接代价的SPARQL语义数据查询优化方法，其特征在于，包括如下步骤：

步骤5：对连接操作的结果集大小进行估计；

步骤8：结束。

2.根据权利要求1所述的一种基于连接代价的SPARQL语义数据查询优化方法，其特征在于，所述的步骤3中利用RDF模式信息简化SPARQL查询语句；的具体精简规则为：

3.根据权利要求1所述的一种基于连接代价的SPARQL语义数据查询优化方法，其特征在于，所述的步骤5中使用如下方法估计连接操作结果集的基数：

其中，R和S分别表示SPARQL查询语句子查询结果的基数大小，表示连接操作的结果集基数大小的估计，s表示选中率，|R|表示R的基数，|S|表示S的基数，其估计通过cart(t)计算；假设R中的变量集合为V_R，S中的变量集合为V_S；s的确定分如下几种情况：

s = \frac{1}{W (S, V_{RS})};

同理当W(S,V_RS)≤W(R,V_RS)时，

s = \frac{1}{W (R, V_{RS})},

两种情况可简化为：

4.根据权利要求3所述的一种基于连接代价的SPARQL语义数据查询优化方法，其特征在于，所述的W(R,V_RS),W(S,V_RS)的估计利用子查询结果基数的估计值和属性统计信息来计算。

5.根据权利要求1所述的一种基于连接代价的SPARQL语义数据查询优化方法，其特征在于，所述的步骤6中，该步骤中求解的每一个阶段需要求解的项目包括：连接操作结果集大小的估计T、连接操作最小代价的估计C、该阶段最佳执行顺序Q。

6.根据权利要求5所述的一种基于连接代价的SPARQL语义数据查询优化方法，其特征在于，所述的连接操作最小代价的估计C使用中间结果集基数和进行估计。

7.根据权利要求6所述的一种基于连接代价的SPARQL语义数据查询优化方法，其特征在于，所述的动态规划方法为：

首先，初始化SPARQL连接图，包括节点大小及边的权值；

第一阶段：计算每一条边的连接操作结果集大小的估计T1，每一条边的连接操作最小代价的估计C1，第一阶段最佳执行顺序Q1；

第二阶段：计算每两条连接边的连接操作结果集大小的估计T2、每两条边的连接操作最小代价的估计C2、第二阶段最佳执行顺序Q2；