CN104834754A - 一种基于连接代价的sparql语义数据查询优化方法 - Google Patents

一种基于连接代价的sparql语义数据查询优化方法 Download PDF

Info

Publication number
CN104834754A
CN104834754A CN201510288922.1A CN201510288922A CN104834754A CN 104834754 A CN104834754 A CN 104834754A CN 201510288922 A CN201510288922 A CN 201510288922A CN 104834754 A CN104834754 A CN 104834754A
Authority
CN
China
Prior art keywords
sparql
attended operation
estimation
rdf
connection layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510288922.1A
Other languages
English (en)
Inventor
徐雷
方卿
袁小群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201510288922.1A priority Critical patent/CN104834754A/zh
Publication of CN104834754A publication Critical patent/CN104834754A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • G06F16/24544Join order optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于连接代价的SPARQL语义数据查询优化方法,本方法使用RDF的模式信息来精简SPARQL基本图模式,然后使用B树结构快速估计SPARQL连接图的节点大小及边权值,使用连接代价估计并结合动态规划方法找到最优逻辑查询计划,从而提高RDF语义数据的查询效率。<b/>

Description

一种基于连接代价的SPARQL语义数据查询优化方法
技术领域
本发明属于计算机查询优化技术领域,具体涉及一种基于连接代价的SPARQL语义查询优化方法。
背景技术
目前关联数据(Linked Data)的规模逐年递增,基于关联数据的语义查询的效率一直有待提高。关联数据一般采用RDF(资源描述框架)来表达,目前对RDF文档查询优化研究主要分为2个方面:一种是对RDF文档建立有效的索引机制,以及Oracle、Mysql等关系数据库对RDF文档的序列化索引机制;另一种是对RDF标准查询语言SPARQL的优化。前者主要依赖于RDF的索引结构、磁盘索引存储方式或数据库的特性来达到较高的I/O吞吐性能;后者从分析SPARQL语法语义的角度,研究其查询机制,找到最优的逻辑查询计划。SPARQL类似于SQL查询语言的select-from结构,它的执行需要相应的查询处理器进行编译。在编译过程中会进行关系代数等价转换,关系代数的等价形式有多种,各操作子的执行顺序,连接操作的代价,以及操作子的具体实现方式都有差异,所以存在对SPARQL的各种逻辑优化策略。
目前对SPARQL优化的方法中,一些是从SPARQL语句中属性相关性的角度来调整SPARQL语句中连接操作的选择度估值,以及使用自适应存储系统FlexTable来改善查询效率;还有的方法采用SPARQL语义约简规则以及选择估值策略融合的方案来设计SPARQL的优化算法;以及利用元组模式的选择度估值寻找元组模式最优连接顺序的方法,这种方法已应用于Jena的SPARQL查询优化器ARQ中;将SPARQL查询模式进行分组也是一种优化策略,还可以采用贝叶斯网和链直方图的方法进行选择度的估计来优化SPARQL查询。
发明内容
本发明在于解决海量RDF语义数据查询效率低下的问题,设计了一种基于连接代价的SPARQL语义查询优化方法。
为实现上述目标,本发明采用如下技术方案:
一种基于连接代价的SPARQL语义数据查询优化方法,包括如下步骤:
步骤1:构建RDF语义数据索引,使用B树结构对RDF语义数据进行索引存储,选择spo、pos、osp三种索引方式;其中,s为主语、p为谓语、o为宾语;
步骤2:获取用户客户端提交的SPARQL查询语句,解析出SPARQL查询语句中的图模式,并表示为SPARQL连接图形式;
步骤3:利用RDF模式信息简化SPARQL查询语句,得到简化的SPARQL连接图;
步骤4:估计SPARQL查询语句子查询结果的基数大小cart(t);使用公式cart(t)=3×N/4进行估计,其中N表示子查询经过哈希运算后结果集个数的取值范围;t表示SPARQL查询语句中的一个子查询,对应精简后的SPARQL连接图中的一个节点;子查询是指SPARQL连接图模式中的一条三元组查询;
步骤5:对连接操作的结果集大小进行估计;
步骤6:根据步骤5得到的连接操作的结果集大小的估计值,使用动态规划方法在整个连接图空间中查找最优的执行顺序。
步骤7:根据最佳执行顺序,产生新的SPARQL查询并提交服务器端执行语义查询;
步骤8:结束。
进一步的,所述的步骤3中利用RDF模式信息简化SPARQL查询语句;的具体精简规则为:
①对含有公共变量的SPARQL连接图模式{?x rdf:type C1.?x rdf:type C2.……}简化为{?xrdf:type C1.……},其中,C1和C2是RDF中的概念,?x表示待查询的变量;
②对于{?x rdf:type C1.?x p o.……}的SPARQL连接图模式,其中p为非rdf:type类型的属性,简化为{?x p o.……},o为宾语;使用该规则时,根据模式信息考察谓语p的定义域或值域是否为单个概念,如果是,直接按该规则简化,如果不是,SPARQL连接图模式将不进行简化处理;
③对于含有公共变量形{?x p1?o.?y p2?o.……}的图模式,其中p 1是p 2的子属性,简化为{?x p1?o.……}。
进一步的,所述的步骤5中使用如下方法估计连接操作结果集的基数:
其中,R和S分别表示PARQL查询语句子查询结果的基数大小,表示连接操作的结果集基数大小的估计,s表示选中率,|R|表示R的基数,|S|表示S的基数,其估计通过cart(t)计算;假设R中的变量集合为VR,S中的变量集合为VS;s的确定分如下几种情况:
①当左右连接操作数没有公共变量时,SPARQL连接图中子图之间没有直接的边连接,这种情况泛化为笛卡尔积,这时s=1,那么
②当左右连接操作数有公共变量时,假设公共变量的集合为VRS=VR∩VS,W(R,VRS)表示R上的VRS变量集上的不同值的个数,W(S,VRS)表示S上的VRS变量集上的不同值数,并假设不同值在操作数上都是均匀分布的;当W(R,VRS)≤W(S,VRS),假设R在变量VRS的值都在S上,那么R中每个元组在S中有个元组匹配,则: s = 1 W ( S , V RS ) ; 同理当W(S,VRS)≤W(R,VRS)时, s = 1 W ( R , V RS ) , 两种情况可简化为:
进一步的,所述的W(R,VRS),W(S,VRS)的估计利用子查询结果基数的估计值和属性统计信息来计算。
进一步的,所述的步骤6中,该步骤中求解的每一个阶段需要求解的项目包括:连接操作结果集大小的估计T、连接操作最小代价的估计C、该阶段最佳执行顺序Q。
进一步的,所述的连接操作最小代价的估计C使用中间结果集基数和进行估计。
进一步的,所述的动态规划方法为:
首先,初始化SPARQL连接图,包括节点大小及边的权值;
第一阶段:计算每一条边的连接操作结果集大小的估计T1,每一条边的连接操作最小代价的估计C1,第一阶段最佳执行顺序Q1。
第二阶段:计算每两条连接边的连接操作结果集大小的估计T2、每两条边的连接操作最小代价的估计C2、第二阶段最佳执行顺序Q2。
第三阶段:计算每三条连接边的连接操作结果集大小的估计T3、每三条边的连接操作最小代价的估计C3、第三阶段最佳执行顺序Q3,直至所有连接边都计算完成,输出该阶段的Q。
本发明的有益效果是:一种基于连接代价的SPARQL语义查询优化方法能够提高SPARQL语义查询的效率,使得用户提交的查询请求的结果反馈更为迅速,提升用户体验。
附图说明
图1为本方法的流程图;
图2为表1中SPARQL查询语句对应的连接图。
具体实施方式
结合附图和实施实例对本方法进行详细说明,图1是本方法的流程图,具体步骤如下:
步骤1,构建RDF语义数据索引,使用B树结构对RDF语义数据进行索引存储,选择spo、pos、osp三种索引方式;其中,s为主语、p为谓语、o为宾语;该步骤产生的索引数据将用于后续SPARQL语义数据查询的对象;
本实施例中,RDF可使用三元组模式表示,即主语—谓语—宾语(spo)的形式,由于三元组模式的变量位置只有主语、谓语和宾语3个位置,三元组模式有8种情况。去掉最特化的模式(s p o)和最泛化的模式(?s?p?o),其中,?s,?p和?o表示待查询的变量,依此为子查询模式中的主语、谓语和宾语变量,将得到6种模式:(?s p o)、(?s?p o)、(s?p o)、(s?p?o)、(s p?o)、(?s p?o)。为了节省存储空间,本方法选择spo、pos、osp这三种索引策略,可匹配上面6种模式。
步骤2,获取用户客户端提交的SPARQL查询语句,解析出SPARQL查询语句中的图模式(Graph Patterns),并将其表示为SPARQL连接图;
表1
如表1的SPARQL查询语句示例,LUBM基准中的第2个查询语句Q2,NS是查询语句的命名空间,RDF Dataset是查询的RDF数据集对象,QF是需要查询的实体变量,GP是查询模式即查询需满足的条件,SM是对查询结果的修饰,GP对应的是该SPARQL查询语的图模式,其连接图表示为图2。图2中,SPARQL查询语句对应的连接图,其中1-6表示将SPARQL查询语句中每一个子查询转换得到的节点,如果两个节点之间有公共的变量则在节点之间增加一条边;连接图表示方法为:将GP中的每个三元组模式映射为节点v,若三元组模式之间存在公共的变量,则节点之间添加一条边e,该连接图为无向连通图,如果按照用户输入的图模式中的三元组顺序编号,对于表1中的SPARQL查询语句示例,将产生图2所示的连接图,连接图越复杂,表明三元组之间的关联越多,查询的代价可能越大。
步骤3,利用RDF模式信息简化SPARQL查询语句,得到简化的SPARQL连接图,便于对SPARQL查询语句的子查询进行结果基数的估计;
精简SPARQL连接图,由于RDF模式信息中存在概念之间的上下位关系、属性关系等推理关系且RDF属性中也存在递推的推理关系,因此,SPARQL连接图模式中如果存在这种类型的子查询模式就意味着查询模式中有冗余,可以对其精简,从而减少查询操作的实际执行次数;具体精简规则为:
①对于含有公共变量的SPARQL连接图模式{?x rdf:type C1.?x rdf:type C2.……},其中,C1和C2都是RDF中的概念,SPARQL连接图模式可简化为{?x rdf:type C1.……},即将{?x rdf:type C2.}子查询表示的节点及其关联的边从SPARQL连接图中删除;?x表示待查询的变量,在该例中表示子中的主语变量。
②对于{?x rdf:type C1.?x p o.……}的SPARQL连接图模式,其中p为非rdf:type类型的属性,直接简化为{?x p o.……},o为宾语;即将{?x rdf:type C1}子查询表示的节点及其关联的边从SPARQL连接图中删除。使用该规则时,需要根据模式信息考察谓语p的定义域或值域是否为单个概念,如果是,直接按该规则简化,如果不是,那么图模式将不进行简化处理。
③对于含有公共变量形{?x p1?o.?y p2?o.……}的SPARQL图模式,其中p 1是p 2的子属性,简化为{?x p1?o.……},即将{?y p2?o}子查询表示的节点及其关联的边从SPARQL连接图中删除。由于该子查询的匹配结果集蕴含于父查询的匹配结果集,两个结果集进行连接运算的结果集同子查询匹配结果集一致。
子查询是指SPARQL连接图模式中的一条三元组查询。
这些规则都力图保证SPARQL图模式中的子查询特殊化而非泛化,剔除泛化的子查询,可以减少集合操作,缩短查询时间。
步骤4,根据得到的SPARQL连接图,估计SPARQL查询语句子查询结果的基数大小cart(t),其中t表示SPARQL查询语句中的一个子查询,对应精简后的SPARQL连接图中的一个节点。此处的子查询就是精简后的SPARQL连接图中的一个节点,一个节点相当于一个子查询,对其估计就是计算该节点执行查询后的近似结果集大小;使用公式cart(t)=3×N/4在步骤1中构建的RDF语义数据索引上进行估计,其中N表示子查询经过哈希运算后结果集个数的取值范围大小。
根据子查询估计该查询的基数大小cart(t),对三元组模式匹配结果大小的估计建立在B树的基础上。比如对于三元组模式(?s p o),假设对变量?s的HASH值的取值范围设置为[0-0xff],0xff表示的是16进制的数字;那么整个三元组的HASH值的取值范围就可以确定,假设为[n1,n2],对于该取值范围在B树上查询计算键值在n1和n2之间的结果数N,这两个结果之间的数据包含了整个三元组模式匹配的结果。对于该结果基数的估计使用cart(t)=3×N/4来计算,这是由于B树节点键值数目在[m/2,m-1]之间,其中m是B树的阶数,即B树中节点最多只能有m个;故乘以3/4表示对B树利用率的估计。
步骤5,对连接操作的结果集大小进行估计;即估计连接图边的权值,对于连接操作结果集大小的估计使用节点(子查询结果)基数的估计值,采用如下公式来估计连接操作结果集的基数:
其中,R和S分别表示三元组模式匹配后的结果集,即估计的SPARQL查询语句子查询结果的基数大小,表示连接操作的结果集基数大小的估计,s表示选中率,|R|表示R的基数,|S|表示S的基数,其估计通过cart(t)来计算。假设R中的变量集合为VR,S中的变量集合为VS。s的确定分如下几种情况:
①当左右连接操作数没有公共变量时,SPARQL连接图中子图之间没有直接的边连接,这种情况泛化为笛卡尔积,这时s=1,那么
②当左右连接操作数有公共变量时,假设公共变量的集合为VRS=VR∩VS,W(R,VRS)表示R上的VRS变量集上的不同值的个数,W(S,VRS)表示S上的VRS变量集上的不同值数,并假设不同值在操作数上都是均匀分布的;当W(R,VRS)≤W(S,VRS),假设R在变量VRS的值都在S上,那么R中每个元组在S中有个元组匹配,则: s = 1 W ( S , V RS ) ; 同理当W(S,VRS)≤W(R,VRS)时, s = 1 W ( R , V RS ) , 两种情况可简化为:
     公式(1)。
对W(R,VRS),W(S,VRS)的估计利用节点基数的估计值和属性统计信息来计算。
表2
表2为三元组模式匹配结果中变量的不同值估计,其中TP列表示一个子查询的模式Triple Pattern,?s?p?o分别表示该模式的主语、谓语和宾语变量,表中的值表示相应的变量在执行该查询模式后的结果集大小的估计值,表中给出了对三元组模式中变量的不同值数的估计,只考虑谓语位置为常量的模式,谓语为变量的情形在实际使用过程中很少会用到。其中对于t3模式中?o的不同值个数的估计有所不同,原因在于?o的不同值数根据RDF数据集结构、大小的不同而可能有很大的差异造成如果依赖card(t3),将造成估值不准确的结果。本方法使用B树索引统计了在所有指定属性下该模式中变量?o的不同值数,记为dintinct(?o)并生成属性值表。
步骤6,根据步骤5得到的连接操作的结果集大小的估计值,使用动态规划方法在整个连接图空间中查找最优的执行顺序。该步骤求解的每一个阶段需要求解的项目包括:连接操作结果集大小的估计T、连接操作最小代价的估计C(使用中间结果集基数的和来估计)、该阶段最佳执行顺序Q。
所述的动态规划方法为:
首先,初始化SPARQL连接图,包括节点大小及边的权值。
第一阶段:计算每一条边的连接操作结果集大小的估计T1,每一条边的连接操作最小代价的估计C1,第一阶段最佳执行顺序Q1。
第二阶段:计算每两条连接边的连接操作结果集大小的估计T2、每两条边的连接操作最小代价的估计C2、第二阶段最佳执行顺序Q2。
第三阶段:计算每三条连接边的连接操作结果集大小的估计T3、每三条边的连接操作最小代价的估计C3、第三阶段最佳执行顺序Q3,直至所有连接边都计算完成,输出该阶段的Q。
表3
第1阶段的估计值如表3所示,其中E(eij)表示节点vi和vj之间的边的权值,min{vi,vj}→max{vi,vj}表示节点基数最小的节点→节点基数最大的节点。
第1阶段的T1为初始化图中边的权值,由于第1阶段之前没有中间结果产生,因此最小代价C1的估计都为0,Q1的估计则根据启发式规则将节点基数cart(vi)最小的排在前面。所述的启发式规则就是指连接操作一般将小的集合放在连接操作的左边,即顺序在前。
表4
表4给出了第2阶段的估值情况,对于Q2的确定则根据最小C2值对应的左深连接树来确定,利用右集合的索引进行快速连接,减少内存使用率,避免中间关系的重复构建。
对于第3阶段的求解过程和上述阶段一样,这样直至所有的边都进行了代价估值,本方法将在最后一个阶段输出最小代价对应的连接顺序,即最优查询计划。
步骤7,根据最佳执行顺序,产生新的SPARQL查询语句并提交服务器端执行语义查询。

Claims (7)

1.一种基于连接代价的SPARQL语义数据查询优化方法,其特征在于,包括如下步骤:
步骤1:构建RDF语义数据索引,使用B树结构对RDF语义数据进行索引存储,选择spo、pos、osp三种索引方式;其中,s为主语、p为谓语、o为宾语;
步骤2:获取用户客户端提交的SPARQL查询语句,解析出SPARQL查询语句中的图模式,并表示为SPARQL连接图形式;
步骤3:利用RDF模式信息简化SPARQL查询语句,得到简化的SPARQL连接图;
步骤4:估计SPARQL查询语句子查询结果的基数大小cart(t);使用公式cart(t)=3×N/4进行估计,其中N表示子查询经过哈希运算后结果集个数的取值范围;t表示SPARQL查询语句中的一个子查询,对应精简后的SPARQL连接图中的一个节点;子查询是指SPARQL连接图模式中的一条三元组查询;
步骤5:对连接操作的结果集大小进行估计;
步骤6:根据步骤5得到的连接操作的结果集大小的估计值,使用动态规划方法在整个连接图空间中查找最优的执行顺序。
步骤7:根据最佳执行顺序,产生新的SPARQL查询并提交服务器端执行语义查询;
步骤8:结束。
2.根据权利要求1所述的一种基于连接代价的SPARQL语义数据查询优化方法,其特征在于,所述的步骤3中利用RDF模式信息简化SPARQL查询语句;的具体精简规则为:
①对含有公共变量的SPARQL连接图模式{?x rdf:type C1.?x rdf:type C2.……}简化为{?xrdf:type C1.……},其中,C1和C2是RDF中的概念,?x表示待查询的变量;
②对于{?x rdf:type C1.?x p o.……}的SPARQL连接图模式,其中p为非rdf:type类型的属性,简化为{?x p o.……},o为宾语;使用该规则时,根据模式信息考察谓语p的定义域或值域是否为单个概念,如果是,直接按该规则简化,如果不是,SPARQL连接图模式将不进行简化处理;
③对于含有公共变量形{?x p1?o.?y p2?o.……}的图模式,其中p 1是p 2的子属性,简化为{?x p1?o.……}。
3.根据权利要求1所述的一种基于连接代价的SPARQL语义数据查询优化方法,其特征在于,所述的步骤5中使用如下方法估计连接操作结果集的基数:
其中,R和S分别表示SPARQL查询语句子查询结果的基数大小,表示连接操作的结果集基数大小的估计,s表示选中率,|R|表示R的基数,|S|表示S的基数,其估计通过cart(t)计算;假设R中的变量集合为VR,S中的变量集合为VS;s的确定分如下几种情况:
①当左右连接操作数没有公共变量时,SPARQL连接图中子图之间没有直接的边连接,这种情况泛化为笛卡尔积,这时s=1,那么
②当左右连接操作数有公共变量时,假设公共变量的集合为VRS=VR∩VS,W(R,VRS)表示R上的VRS变量集上的不同值的个数,W(S,VRS)表示S上的VRS变量集上的不同值数,并假设不同值在操作数上都是均匀分布的;当W(R,VRS)≤W(S,VRS),假设R在变量VRS的值都在S上,那么R中每个元组在S中有个元组匹配,则: s = 1 W ( S , V RS ) ; 同理当W(S,VRS)≤W(R,VRS)时, s = 1 W ( R , V RS ) , 两种情况可简化为:
4.根据权利要求3所述的一种基于连接代价的SPARQL语义数据查询优化方法,其特征在于,所述的W(R,VRS),W(S,VRS)的估计利用子查询结果基数的估计值和属性统计信息来计算。
5.根据权利要求1所述的一种基于连接代价的SPARQL语义数据查询优化方法,其特征在于,所述的步骤6中,该步骤中求解的每一个阶段需要求解的项目包括:连接操作结果集大小的估计T、连接操作最小代价的估计C、该阶段最佳执行顺序Q。
6.根据权利要求5所述的一种基于连接代价的SPARQL语义数据查询优化方法,其特征在于,所述的连接操作最小代价的估计C使用中间结果集基数和进行估计。
7.根据权利要求6所述的一种基于连接代价的SPARQL语义数据查询优化方法,其特征在于,所述的动态规划方法为:
首先,初始化SPARQL连接图,包括节点大小及边的权值;
第一阶段:计算每一条边的连接操作结果集大小的估计T1,每一条边的连接操作最小代价的估计C1,第一阶段最佳执行顺序Q1;
第二阶段:计算每两条连接边的连接操作结果集大小的估计T2、每两条边的连接操作最小代价的估计C2、第二阶段最佳执行顺序Q2;
第三阶段:计算每三条连接边的连接操作结果集大小的估计T3、每三条边的连接操作最小代价的估计C3、第三阶段最佳执行顺序Q3,直至所有连接边都计算完成,输出该阶段的Q。
CN201510288922.1A 2015-05-29 2015-05-29 一种基于连接代价的sparql语义数据查询优化方法 Pending CN104834754A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510288922.1A CN104834754A (zh) 2015-05-29 2015-05-29 一种基于连接代价的sparql语义数据查询优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510288922.1A CN104834754A (zh) 2015-05-29 2015-05-29 一种基于连接代价的sparql语义数据查询优化方法

Publications (1)

Publication Number Publication Date
CN104834754A true CN104834754A (zh) 2015-08-12

Family

ID=53812640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510288922.1A Pending CN104834754A (zh) 2015-05-29 2015-05-29 一种基于连接代价的sparql语义数据查询优化方法

Country Status (1)

Country Link
CN (1) CN104834754A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468702A (zh) * 2015-11-18 2016-04-06 中国科学院计算机网络信息中心 一种大规模rdf数据关联路径发现方法
CN105955999A (zh) * 2016-04-20 2016-09-21 华中科技大学 一种大规模RDF图的ThetaJoin查询处理方法
CN106599091A (zh) * 2016-11-24 2017-04-26 上海交通大学 基于键值存储的rdf图结构存储和索引方法
CN106815339A (zh) * 2017-01-03 2017-06-09 北京华胜信泰数据技术有限公司 查询计划更新的方法和装置
CN106933844A (zh) * 2015-12-30 2017-07-07 中国科学院深圳先进技术研究院 面向大规模rdf数据的可达性查询索引的构建方法
WO2017181866A1 (en) * 2016-04-21 2017-10-26 Huawei Technologies Co., Ltd. Making graph pattern queries bounded in big graphs
CN108711136A (zh) * 2018-04-28 2018-10-26 华中科技大学 一种rdf图数据的cpu-gpu协同查询处理系统和方法
CN111241127A (zh) * 2020-01-16 2020-06-05 华南师范大学 基于谓语组合的sparql查询优化方法、系统、存储介质及设备
CN112732746A (zh) * 2021-01-13 2021-04-30 首都师范大学 一种基于sparql端点联合的动态连接排序方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722542A (zh) * 2012-05-23 2012-10-10 无锡成电科大科技发展有限公司 一种资源描述框架图模式匹配方法
CN103778251A (zh) * 2014-02-19 2014-05-07 天津大学 面向大规模rdf图数据的sparql并行查询方法
US20140304251A1 (en) * 2013-04-03 2014-10-09 International Business Machines Corporation Method and Apparatus for Optimizing the Evaluation of Semantic Web Queries
CN104462609A (zh) * 2015-01-06 2015-03-25 福州大学 结合星型图编码的rdf数据存储与查询方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722542A (zh) * 2012-05-23 2012-10-10 无锡成电科大科技发展有限公司 一种资源描述框架图模式匹配方法
US20140304251A1 (en) * 2013-04-03 2014-10-09 International Business Machines Corporation Method and Apparatus for Optimizing the Evaluation of Semantic Web Queries
CN103778251A (zh) * 2014-02-19 2014-05-07 天津大学 面向大规模rdf图数据的sparql并行查询方法
CN104462609A (zh) * 2015-01-06 2015-03-25 福州大学 结合星型图编码的rdf数据存储与查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐雷: "SPARQL查询优化", 《现代图书情报技术》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468702A (zh) * 2015-11-18 2016-04-06 中国科学院计算机网络信息中心 一种大规模rdf数据关联路径发现方法
CN105468702B (zh) * 2015-11-18 2019-03-22 中国科学院计算机网络信息中心 一种大规模rdf数据关联路径发现方法
CN106933844B (zh) * 2015-12-30 2020-06-05 中国科学院深圳先进技术研究院 面向大规模rdf数据的可达性查询索引的构建方法
CN106933844A (zh) * 2015-12-30 2017-07-07 中国科学院深圳先进技术研究院 面向大规模rdf数据的可达性查询索引的构建方法
CN105955999A (zh) * 2016-04-20 2016-09-21 华中科技大学 一种大规模RDF图的ThetaJoin查询处理方法
WO2017181866A1 (en) * 2016-04-21 2017-10-26 Huawei Technologies Co., Ltd. Making graph pattern queries bounded in big graphs
CN106599091A (zh) * 2016-11-24 2017-04-26 上海交通大学 基于键值存储的rdf图结构存储和索引方法
CN106599091B (zh) * 2016-11-24 2020-07-14 上海交通大学 基于键值存储的rdf图结构存储和索引方法
CN106815339A (zh) * 2017-01-03 2017-06-09 北京华胜信泰数据技术有限公司 查询计划更新的方法和装置
CN106815339B (zh) * 2017-01-03 2020-11-03 北京华胜信泰数据技术有限公司 查询计划更新的方法和装置
CN108711136A (zh) * 2018-04-28 2018-10-26 华中科技大学 一种rdf图数据的cpu-gpu协同查询处理系统和方法
CN111241127A (zh) * 2020-01-16 2020-06-05 华南师范大学 基于谓语组合的sparql查询优化方法、系统、存储介质及设备
CN112732746A (zh) * 2021-01-13 2021-04-30 首都师范大学 一种基于sparql端点联合的动态连接排序方法

Similar Documents

Publication Publication Date Title
CN104834754A (zh) 一种基于连接代价的sparql语义数据查询优化方法
US10120902B2 (en) Apparatus and method for processing distributed relational algebra operators in a distributed database
Zhao et al. Modeling MongoDB with relational model
EP3251034B1 (en) Query optimization adaptive to system memory load for parallel database systems
CN103927346B (zh) 基于数据量的查询连接方法
US7730055B2 (en) Efficient hash based full-outer join
US10585887B2 (en) Multi-system query execution plan
CN103064875B (zh) 一种服务化空间数据分布式查询方法
US8150836B2 (en) System, method, and computer-readable medium for reducing row redistribution costs for parallel join operations
US20130013585A1 (en) Hash join and hash aggregation integration system
US20110022581A1 (en) Derived statistics for query optimization
EP3251030B1 (en) Workload aware data placement for join-based query processing in a cluster
CN104504154A (zh) 一种数据聚合查询的方法及装置
US20190005092A1 (en) Query optimization using propagated data distinctness
CN103778251A (zh) 面向大规模rdf图数据的sparql并行查询方法
CN105550332A (zh) 一种基于双层索引结构的起源图查询方法
CN105608077A (zh) 一种大数据分布式存储方法和系统
Wang et al. Adaptive time, monetary cost aware query optimization on cloud database systems
CN110297858B (zh) 执行计划的优化方法、装置、计算机设备和存储介质
Ghionna et al. H-DB: a hybrid quantitative-structural sql optimizer
CN104573916A (zh) 一种技术指标实例生成方法及装置
Yarygina et al. Optimizing resource allocation for approximate real-time query processing
Zhu et al. Hydb: Access optimization for data-intensive service
US11803545B1 (en) Runtime statistics feedback for query plan cost estimation
US11409746B2 (en) Method and apparatus for processing query using N-ary join operators

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150812

WD01 Invention patent application deemed withdrawn after publication