CN103778251A - 面向大规模rdf图数据的sparql并行查询方法 - Google Patents

面向大规模rdf图数据的sparql并行查询方法 Download PDF

Info

Publication number
CN103778251A
CN103778251A CN201410056349.7A CN201410056349A CN103778251A CN 103778251 A CN103778251 A CN 103778251A CN 201410056349 A CN201410056349 A CN 201410056349A CN 103778251 A CN103778251 A CN 103778251A
Authority
CN
China
Prior art keywords
clause
computing unit
information
rdf
sparql
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410056349.7A
Other languages
English (en)
Other versions
CN103778251B (zh
Inventor
吕雪栋
冯志勇
王鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201410056349.7A priority Critical patent/CN103778251B/zh
Publication of CN103778251A publication Critical patent/CN103778251A/zh
Application granted granted Critical
Publication of CN103778251B publication Critical patent/CN103778251B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及RDF图数据处理,为提供一种对大规模RDF图数据的高效并行查询处理方法,减少磁盘读写次数,提高查询效率,为此,本发明采用的技术方案是,面向大规模RDF图数据的SPARQL并行查询方法,包括下列步骤:1)使用整体同步并行BSP模型描述RDF图数据;2)使用资源的URI来标记;3)对于RDF图数据集中的每一条三元组;4)对于3)中的每一条边e,使用URIr作为er的标记;5)获得用户提交的查询请求q0;6)选择不同的传播路径,并行传播;7)利用贪心算法评估qi-1中的每条子句所包含的信息量;8)重复6)和7),直到所有子句都经过绑定。本发明主要应用于图数据处理。

Description

面向大规模RDF图数据的SPARQL并行查询方法
技术领域
本发明涉及RDF(Resource Description Framework,资源描述框架)图数据处理和查询、查询领域,具体来说,涉及面向大规模RDF图数据的并行查询领域,即面向大规模RDF图数据的SPARQL(SPARQL Protocol and RDF Query Language,SPARQL协议与RDF查询语言)并行查询方法。
背景技术
互联网中的信息由大量的计算机发送和接收,但是目前计算机并不能理解这些信息。针对这种情况,1998年Tim Berners-Lee提出语义网的概念。资源描述框架(RDF)是语义网的基本数据格式。由于RDF图数据格式具有非常好的扩展性和灵活性,因此社交网络、生物信息等越来越多的领域采用RDF格式发布数据,实现对RDF图的查询是利用这些信息的基础。SPARQL是在RDF模型基础上的标准查询语言。与传统的关系型数据库中进行的查询不同,在图上进行的查询具有更高的复杂度,因为这种查询实际上是在一张RDF图上进行子图匹配(BGP)。
然而目前单机集中存储和处理的管理方式已经无法应对RDF图数据的巨大规模,分布式存储和并行处理是语义Web的发展趋势,也是目前对RDF图数据进行管理和计算的有效手段。MapReduce(一种面向大规模数据的并行分布式编程模型)可以高效地处理大规模数据,但是对于更适合用消息传递模式来解决的图计算,MapReduce并不是最佳选择。
目前来看,无论是基于索引的存储,还是基于文件的存储,MapReduce框架下的查询处理方式都是将大的完整的查询拆分成小的子查询,这些子查询从各个数据节点上获得部分结果,再将这些部分结果集中起来,做连接处理,最终获得完整的结果。目前集中在分布式RDF图数据上的查询研究焦点也是如何拆分完整的查询和如何将部分结果连接成最终结果。这样的查询处理过程存在以下一些问题:
(1)没有充分利用RDF图数据的图结构特征,也就是没有利用图数据里相邻顶点的连接关系。机械地将图数据当作独立的边来处理。
(2)没有充分利用SPARQL语句的图图结构特征。
(3)查询过程中涉及到多次输入输出,且输入输出的数据量巨大。
发明内容
为克服现有技术的不足,提供一种对大规模RDF图数据的高效并行查询处理方法,充分利用RDF图数据的图的特性,清晰直观地完成SPARQL查询任务,减少磁盘读写次数,提高查询效率。为此,本发明采用的技术方案是,面向大规模RDF图数据的SPARQL并行查询方法,包括下列步骤:
1)使用整体同步并行BSP(Bulk Synchronous Parallel字头缩写)模型描述RDF图数据,RDF图数据中的每一个资源都被具体为一个可执行计算的BSP中的计算单元;
2)使用资源的URI来标记每一个与该资源对应的计算单元;
3)对于RDF图数据集中的每一条三元组:主语计算单元S,谓语P,宾语计算单元O,建立主语计算单元S到宾语计算单元O的有向边e,使用谓语P的URI作为e的标记,并将e的相关信息保存在主语计算单元S的本地数据域中;
4)对于3)中的每一条边e,建立一条方向相反的边er,使用URIr作为er的标记,其中URI为谓语P的URI,并将er的相关信息保存在宾语计算单元O的本地数据域中;
5)获得用户提交的SPARQL查询请求q0,分析q0,利用贪心算法评估q0中每条子句分别包含的信息量,将包含信息量最多的子句tpi,i为计数器,初始时i=1,作为首要待处理子句,将q0发送给tpi的主语计算单元S,若S是未知变量,则发送给宾语计算单元O;
6)S或O接收到qi-1时,在正向边或反向边中查找满足tpi的可能解的集合Ei,并根据Ei中的信息对qi-1中的变量进行绑定,得到部分绑定后的查询qi,由于可能出现多个互不矛盾的绑定可能,所以存在多个不同的qi,每个qi根据所包含信息的不同,选择不同的传播路径,并行传播;
7)i=i+1,利用贪心算法评估qi-1中的每条子句所包含的信息量,将包含信息量最多的子句tpi作为首要待处理子句,将qi-1发送给tpi的主语计算单元S,若S是未知变量,则发送给宾语计算单元O;
8)重复6)和7),直到所有子句都经过绑定,且各个子句绑定变量时没有出现冲突,如果得到多于0个查询结果,则返回这些结果。
上述的步骤5)中,使用贪心算法评估每个子句所包含的信息量,并根据子句所包含的信息量决定从哪一个计算单元开始执行查询,子句共分为八种类型,优先级的高低受该子句所包含的信息量的影响。最有可能匹配、匹配代价最小的子句将被排在靠前的位置,相对最难匹配、匹配代价最大的子句将被放在靠后的位置,如果某一子句包含的信息量比较大,或者该子句包含了一个出现次数比较高的变量,那么这个子句的排序就比较靠前;反之,如果子句中变量较多,或者其所包含的变量在其他子句中出现的次数较少,则该子句排序就比较靠后。
本发明的技术特点及效果:
本发明针对大规模RDF图数据的SPARQL查询,提供了一种基于BSP并行计算模型的解决方法,满足了大规模分布式存储环境下的基本图模式查询要求,提高了对大规模RDF图数据的查询速度,有助于RDF图数据的利用和管理。
附图说明
图1是某查询在计算单元之间的转发路径。
图2是本发明对RDF图数据结构的扩展结果。
图3在各个不同大小的数据集上执行10个查询的平均时间图。
图4在不同大小的DBpedia数据集上不同复杂程度的查询的平均响应时间效果图。
具体实施方式
本发明采用的技术方案是:
9)使用BSP模型描述RDF图数据,RDF图数据中的每一个资源都被具体为一个可执行计算的BSP中的计算单元;
10)使用资源的URI(Uniform resource identifier,统一资源标示符)来标记每一个与该资源对应的计算单元;
11)对于RDF图数据集中的每一条三元组(S,P,O),建立主语计算单元S到宾语计算单元O的有向边e,使用谓语P的URI作为e的标记,并将e的相关信息保存在主语计算单元S的本地数据域中;
12)对于3)中的每一条边e,建立一条方向相反的边er,使用URIr(其中URI为谓语P的URI)作为er的标记,并将er的相关信息保存在宾语计算单元O的本地数据域中;
13)获得用户提交的SPARQL查询请求q0,分析q0,利用贪心算法评估q0中每条子句分别包含的信息量,将包含信息量最多的子句tpi(i=1)作为首要待处理子句,将q0发送给tpi的主语计算单元S(若S是未知变量,则发送给宾语计算单元O);
14)S(或O)接收到qi-1时,在正向边或反向边中查找满足tpi的可能解的集合Ei,并根据Ei中的信息对qi-1中的变量进行绑定,得到部分绑定后的查询qi(由于可能出现多个互不矛盾的绑定可能,所以存在多个不同的qi,每个qi根据所包含信息的不同,选择不同的传播路径,并行传播);
15)i=i+1,利用贪心算法评估qi-1中的每条子句所包含的信息量,将包含信息量最多的子句tpi作为首要待处理子句,将qi-1发送给tpi的主语计算单元S(若S是未知变量,则发送给宾语计算单元O);
16)重复6)和7),直到所有子句都经过绑定,且各个子句绑定变量时没有出现冲突。如果得到多于0个查询结果,则返回这些结果。
上述的步骤5)中,使用贪心算法评估每个子句所包含的信息量,评估方法为:给每条子句打分,不包含未知变量的子句得分高于部分成分未知的子句,所有成分均未知的子句得分最低;包含公共变量的子句得分高于包含非公共变量的子句。根据子句得分决定从哪一个计算单元开始执行查询。子句共分为八种类型,优先级的高低受该子句所包含的信息量的影响。最有可能匹配、匹配代价最小的子句将被排在靠前的位置,相对最难匹配、匹配代价最大的子句将被放在靠后的位置。如果某一子句包含的信息量比较大(例如,只含有一个变量或者不含变量),或者该子句包含了一个出现次数比较高的变量(例如,星状查询的中心变量),那么这个子句的排序就比较靠前;反之,如果子句中变量较多,或者其所包含的变量在其他子句中出现的次数较少,则该子句排序就比较靠后。
上述步骤6)中。当某个计算单元接到中间结果qi后,从qi的未处理子句中读取优先级最高的子句tp,检查tp是8种子句中的哪一种:若变量出现在谓语或宾语的位置上,说明当前计算单元是tp的主语。此时,当前计算单元需要在出边中查找与tp相匹配的信息,并根据查找到的信息对tp中的变量进行绑定;若变量出现在主语的位置上,说明当前计算单元是tp的宾语。此时,当前计算单元需要在入边中查找与tp相匹配的信息,并根据查找到的信息对tp中的变量进行绑定。绑定不仅仅限于tp,若其他未处理子句中也包含tp中的变量,则需要对这些同名变量一并绑定。绑定完成后,当前计算单元需要把tp添加已处理的边列表中,并从未处理的边列表中将其删除。由于绑定导致未处理边列表中子句的变量状态发生了变化,因此在转发qi+1给下一个计算单元之前,需要对未处理边列表中的边重新确定处理优先级顺序。
下面结合附图对本发明作进一步详细说明。
图1是一个查询请求在其所涉及到的计算单元之间的转发路径,其中在计算单元O1处出现了一个分支,下面结合该过程对实施方式进行详细说明:
1)使用BSP模型描述RDF图数据,RDF图数据中的每一个资源都被具体为一个可执行计算的BSP中的计算单元,计算单元由图1中的矩形表示;
2)使用资源的URI来标记每一个与该资源对应的计算单元;
3)对于RDF图数据集中的每一条三元组(S,P,O),建立主语计算单元S到宾语计算单元O的有向边e,使用谓语P的URI作为e的标记,并将e的相关信息保存在主语计算单元S的本地数据域中,图1中单向箭头表示两个计算单元之间的一条边;
4)对于3)中的每一条边e,建立一条方向相反的边er,使用URIr(其中URI为谓语P的URI)作为er的标记,并将er的相关信息保存在宾语计算单元O的本地数据域中,er没有在图中画出,每一条er都是与对应的e反向的边,如图2所示;
5)获得用户提交的SPARQL查询请求q0,分析q0,利用贪心算法评估q0中每条子句分别包含的信息量,将包含信息量最多的子句tpi作为首要待处理子句,将q0发送给tpi的主语计算单元S(若S是未知变量,则发送给宾语计算单元O);
6)S(或O)接收到qi-1时,在正向边或反向边中查找满足tpi的可能解的集合Ei,并根据Ei中的信息对qi-1中的变量进行绑定,得到部分绑定后的查询qi(由于可能出现多个互不矛盾的绑定可能,所以存在多个不同的qi,每个qi根据所包含信息的不同,选择不同的传播路径,并行传播);
7)i=i+1,利用贪心算法评估qi-1中的每条子句所包含的信息量,将包含信息量最多的子句tpi作为首要待处理子句,将qi-1发送给tpi的主语计算单元S(若S是未知变量,则发送给宾语计算单元O);
8)重复6)和7),直到所有子句都经过绑定,且各个子句绑定变量时没有出现冲突。如果得到多于0个查询结果,则返回这些结果。
上述的步骤5)中,使用贪心算法评估每个子句所包含的信息量,并根据子句所包含的信息量决定从哪一个计算单元开始执行查询,子句共分为8种类型,如表3所示。优先级的高低受该子句所包含的信息量的影响。最有可能匹配、匹配代价最小的子句将被排在靠前的位置,相对最难匹配、匹配代价最大的子句将被放在靠后的位置。如果某一子句包含的信息量比较大(例如,只含有一个变量或者不含变量),或者该子句包含了一个出现次数比较高的变量(例如,星状查询的中心变量),那么这个子句的排序就比较靠前;反之,如果子句中变量较多,或者其所包含的变量在其他子句中出现的次数较少,则该子句排序就比较靠后。
上述步骤6)中。当某个计算单元接到中间结果qi后,从qi的未处理子句(用列表tps_toprocess表示)中读取优先级最高的子句tp,确定tp属于8种子句类型中的哪一种:若变量出现在谓语或宾语的位置上,说明当前计算单元是tp的主语。此时,当前计算单元需要在出边中查找与tp相匹配的信息,并根据查找到的信息对tp中的变量进行绑定;若变量出现在主语的位置上,说明当前计算单元是tp的宾语。此时,当前计算单元需要在入边中查找与tp相匹配的信息,并根据查找到的信息对tp中的变量进行绑定。绑定不仅仅限于tp,若其他未处理子句中也包含tp中的变量,则需要对这些同名变量一并绑定。绑定完成后,当前计算单元需要把tp添加已处理的边列表(用tps_processed表示)中,并从未处理的边列表中将其删除。由于绑定导致未处理边列表中子句的变量状态发生了变化,因此在转发qi+1给下一个计算单元之前,需要对未处理边列表中的边重新确定处理优先级顺序。具体步骤如下:
输入:tps_toprocess,tps_processed
输出:tps_toprocess,tps_processed
1.接收其他顶点发送来的tps_toprocess和tps_processed.新建标志变量flag.
2.取出待处理的三元组模式中处理优先级最高的一条tp=tps_toprocess.get(0).
3.判断tp中是否包含未知变量.
3.1.若包含,设该变量名为x,在出边列表或入边中查找满足tp的边,数量为n.
如果n>0,对于满足tp的边edgei执行下面的操作:
根据edgei中的信息,绑定tps_toprocess中所有的x,令flag=1.
如果n=0,令flag=0.
3.2.若不包含,在出边列表或入边列表中查找是否存在边满足tp的边,若存在则flag=1,否则flag=0;
3.3.如果flag==1:将tp从tps_toprocess中删除并添加到tps_processed中;如果flag==0:抛弃tps_toprocess和tps_processed.
4.检查tps_toprocess是否为空.若是,说明所有三元组模式都匹配完毕,当前结果为最终结果,将当前结果作为最终结果返回.若否,将tps_toprocess和tps_processed传递给下一个计算单元.
例如,对于图1中的查询q,初始时包括三条子句,如表1所示,q中共包含了两个未知变量x和y,在经过一次传播后,q中的一个未知变量被绑定,得到表2所示结果。
本发明使用了LUBM(Lehigh University Benchmark)数据集和DBpedia数据集作为测试数据。LUBM提供了一个数据生成器和14条标准的查询测试语句,从中选出了10条测试查询。图3是在各个不同大小的数据集上执行10个查询的平均时间。随着数据集大小的增加,查询时间也随之上升。10个查询在LUBM-1上执行的平均时间为0.497s,在LUBM-10上执行的平均时间为2.191s,虽然三元组数量增长了11.8倍,但是查询时间只增长了3.4倍。
图4描述了在不同大小的DBpedia数据集上不同复杂程度的查询的平均响应时间。从图中可以看到,查询执行时间随查询语句包含的三元组模式数量和数据集规模的增长而增长。对查询中的每一个三元组模式,无论其是否包含未知变量,都需要一个超步来处理,因此处理一个查询所需要的总的超步数量与BGP查询中包含的三元组模式数量相同。对于同一个数据集,查询时间与查询语句中的三元组模式数量线性相关。对同一条查询语句,当数据集规模变大时,查询时间变长,但是时间的增长速度远远小于数据的增长速度。
Figure BDA0000467377620000061
表1
Figure BDA0000467377620000062
表2
表3

Claims (2)

1.一种面向大规模RDF图数据的SPARQL并行查询方法,其特征是,包括下列步骤:
面向大规模RDF图数据的SPARQL并行查询方法,包括下列步骤:
1)使用整体同步并行BSP(Bulk Synchronous Parallel字头缩写)模型描述RDF图数据,RDF图数据中的每一个资源都被具体为一个可执行计算的BSP中的计算单元;
2)使用资源的URI来标记每一个与该资源对应的计算单元;
3)对于RDF图数据集中的每一条三元组:主语计算单元S,谓语P,宾语计算单元O,建立主语计算单元S到宾语计算单元O的有向边e,使用谓语P的URI作为e的标记,并将e的相关信息保存在主语计算单元S的本地数据域中;
4)对于3)中的每一条边e,建立一条方向相反的边er,使用URIr作为er的标记,其中URI为谓语P的URI,并将er的相关信息保存在宾语计算单元O的本地数据域中;
5)获得用户提交的SPARQL查询请求q0,分析q0,利用贪心算法评估q0中每条子句分别包含的信息量,将包含信息量最多的子句tpi,i为计数器,初始时i=1,作为首要待处理子句,将q0发送给tpi的主语计算单元S,若S是未知变量,则发送给宾语计算单元O;
6)S或O接收到qi-1时,在正向边或反向边中查找满足tpi的可能解的集合Ei,并根据Ei中的信息对qi-1中的变量进行绑定,得到部分绑定后的查询qi,由于可能出现多个互不矛盾的绑定可能,所以存在多个不同的qi,每个qi根据所包含信息的不同,选择不同的传播路径,并行传播;
7)i=i+1,利用贪心算法评估qi-1中的每条子句所包含的信息量,将包含信息量最多的子句tpi作为首要待处理子句,将qi-1发送给tpi的主语计算单元S,若S是未知变量,则发送给宾语计算单元O;
8)重复6)和7),直到所有子句都经过绑定,且各个子句绑定变量时没有出现冲突,如果得到多于0个查询结果,则返回这些结果。
2.如权利要求1所述的面向大规模RDF图数据的SPARQL并行查询方法,其特征是,上述的步骤5)中,使用贪心算法评估每个子句所包含的信息量,并根据子句所包含的信息量决定从哪一个计算单元开始执行查询,子句共分为八种类型,优先级的高低受该子句所包含的信息量的影响。最有可能匹配、匹配代价最小的子句将被排在靠前的位置,相对最难匹配、匹配代价最大的子句将被放在靠后的位置,如果某一子句包含的信息量比较大,或者该子句包含了一个出现次数比较高的变量,那么这个子句的排序就比较靠前;反之,如果子句中变量较多,或者其所包含的变量在其他子句中出现的次数较少,则该子句排序就比较靠后。
CN201410056349.7A 2014-02-19 2014-02-19 面向大规模rdf图数据的sparql并行查询方法 Expired - Fee Related CN103778251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410056349.7A CN103778251B (zh) 2014-02-19 2014-02-19 面向大规模rdf图数据的sparql并行查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410056349.7A CN103778251B (zh) 2014-02-19 2014-02-19 面向大规模rdf图数据的sparql并行查询方法

Publications (2)

Publication Number Publication Date
CN103778251A true CN103778251A (zh) 2014-05-07
CN103778251B CN103778251B (zh) 2016-09-07

Family

ID=50570486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410056349.7A Expired - Fee Related CN103778251B (zh) 2014-02-19 2014-02-19 面向大规模rdf图数据的sparql并行查询方法

Country Status (1)

Country Link
CN (1) CN103778251B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239428A (zh) * 2014-08-26 2014-12-24 国家电网公司 Iec61970 cim模型数据查询访问方法
CN104462609A (zh) * 2015-01-06 2015-03-25 福州大学 结合星型图编码的rdf数据存储与查询方法
CN104572970A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于本体库内容的sparql查询语句生成系统
CN104809168A (zh) * 2015-04-06 2015-07-29 华中科技大学 超大规模rdf图数据的划分与并行分布处理方法
CN104834754A (zh) * 2015-05-29 2015-08-12 武汉大学 一种基于连接代价的sparql语义数据查询优化方法
CN105512226A (zh) * 2015-11-30 2016-04-20 北大方正集团有限公司 一种查询优化方法及装置
CN108520035A (zh) * 2018-03-29 2018-09-11 天津大学 基于星形分解的sparql基本图模式查询处理方法
CN108984633A (zh) * 2018-06-21 2018-12-11 广东顺德西安交通大学研究院 一种基于节点上下文向量空间的rdf近似答案查询方法
CN110110034A (zh) * 2019-05-10 2019-08-09 天津大学深圳研究院 一种基于图的rdf数据管理方法、装置及存储介质
CN111309979A (zh) * 2020-02-27 2020-06-19 桂林电子科技大学 一种基于邻居向量的RDF Top-k查询方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101243288B1 (ko) * 2011-02-24 2013-03-13 주식회사 솔트룩스 스트리밍 데이터의 실시간 추론장치 및 방법
CN102693310B (zh) * 2012-05-28 2016-08-03 无锡成电科大科技发展有限公司 一种基于关系数据库的资源描述框架查询方法和系统
CN103116625A (zh) * 2013-01-31 2013-05-22 重庆大学 一种基于Hadoop的海量RDF数据分布式查询处理方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239428A (zh) * 2014-08-26 2014-12-24 国家电网公司 Iec61970 cim模型数据查询访问方法
CN104572970B (zh) * 2014-12-31 2017-09-12 浙江大学 一种基于本体库内容的sparql查询语句生成系统
CN104572970A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于本体库内容的sparql查询语句生成系统
CN104462609A (zh) * 2015-01-06 2015-03-25 福州大学 结合星型图编码的rdf数据存储与查询方法
CN104462609B (zh) * 2015-01-06 2017-09-15 福州大学 结合星型图编码的rdf数据存储与查询方法
CN104809168A (zh) * 2015-04-06 2015-07-29 华中科技大学 超大规模rdf图数据的划分与并行分布处理方法
CN104809168B (zh) * 2015-04-06 2017-12-29 华中科技大学 超大规模rdf图数据的划分与并行分布处理方法
CN104834754A (zh) * 2015-05-29 2015-08-12 武汉大学 一种基于连接代价的sparql语义数据查询优化方法
CN105512226A (zh) * 2015-11-30 2016-04-20 北大方正集团有限公司 一种查询优化方法及装置
CN108520035A (zh) * 2018-03-29 2018-09-11 天津大学 基于星形分解的sparql基本图模式查询处理方法
CN108984633A (zh) * 2018-06-21 2018-12-11 广东顺德西安交通大学研究院 一种基于节点上下文向量空间的rdf近似答案查询方法
CN108984633B (zh) * 2018-06-21 2020-10-20 广东顺德西安交通大学研究院 一种基于节点上下文向量空间的rdf近似答案查询方法
CN110110034A (zh) * 2019-05-10 2019-08-09 天津大学深圳研究院 一种基于图的rdf数据管理方法、装置及存储介质
CN111309979A (zh) * 2020-02-27 2020-06-19 桂林电子科技大学 一种基于邻居向量的RDF Top-k查询方法
CN111309979B (zh) * 2020-02-27 2022-08-05 桂林电子科技大学 一种基于邻居向量的RDF Top-k查询方法

Also Published As

Publication number Publication date
CN103778251B (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN103778251A (zh) 面向大规模rdf图数据的sparql并行查询方法
Hammoud et al. DREAM: distributed RDF engine with adaptive query planner and minimal communication
Schwarte et al. Fedx: Optimization techniques for federated query processing on linked data
Saleem et al. Daw: Duplicate-aware federated query processing over the web of data
Ding et al. Enabling smart transportation systems: A parallel spatio-temporal database approach
CN105786808B (zh) 一种用于分布式执行关系型计算指令的方法与设备
US9229979B2 (en) Optimizing parallel queries using interesting distributions
CN108052635A (zh) 一种异构数据源统一联合查询方法
CN104239572A (zh) 基于分布式缓存实现元数据分析的系统及方法
US20140280324A1 (en) Executing stored procedures at parallel databases
CN105550332B (zh) 一种基于双层索引结构的起源图查询方法
CN103177094B (zh) 一种物联网数据清洗方法
US9430525B2 (en) Access plan for a database query
RU2007137005A (ru) Система и способ для формирования и передачи запрошенных данных между сетевыми прикладными программами
WO2015074477A1 (zh) 路径分析方法和装置
CN109815254A (zh) 基于大数据的跨地域任务调度方法及系统
CN103036921B (zh) 一种用户行为分析系统和方法
CN104408159A (zh) 一种数据关联、加载、查询方法及装置
CN104834754A (zh) 一种基于连接代价的sparql语义数据查询优化方法
CN103646051A (zh) 一种基于列存储的大数据并行处理系统及方法
CN105550274A (zh) 双副本并行数据库的查询方法和装置
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
Montoya et al. Towards efficient query processing over heterogeneous RDF interfaces
Madkour et al. WORQ: workload-driven RDF query processing
CN106471501A (zh) 数据查询的方法、数据对象的存储方法和数据系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160907