CN115422233B - 一种复杂空间rdf查询并行处理方法及装置 - Google Patents
一种复杂空间rdf查询并行处理方法及装置 Download PDFInfo
- Publication number
- CN115422233B CN115422233B CN202211365322.7A CN202211365322A CN115422233B CN 115422233 B CN115422233 B CN 115422233B CN 202211365322 A CN202211365322 A CN 202211365322A CN 115422233 B CN115422233 B CN 115422233B
- Authority
- CN
- China
- Prior art keywords
- query
- graph
- query plan
- spatial
- rdf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000001914 filtration Methods 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 14
- 238000013500 data storage Methods 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000013439 planning Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24532—Query optimisation of parallel queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Operations Research (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种复杂空间RDF查询并行处理方法及装置,涉及数据查询领域,所述方法包括:获取空间RDF数据和查询数据;根据第一算法,将所述查询数据分解为可并行执行的带空间过滤的查询计划图;根据所述空间RDF数据和所述查询计划图,进行并行查询处理。与现有技术比较,本发明解决在大规模知识库中复杂空间RDF查询效率较低的问题,实现了对复杂空间RDF查询的并行处理,效率高。
Description
技术领域
本发明涉及数据查询领域,具体而言,涉及一种复杂空间RDF查询并行处理方法及装置。
背景技术
现有的大部分空间RDF查询方法是基于串行的,个别支持并行RDF查询方法是基于数据空间索引而实现的,并未考虑到空间RDF查询的复杂性(查询中含有众多三元组查询模式,以及多个空间过滤条件),在实际使用中对于复杂空间RDF查询效率不太理想,而对于大规模知识库查询而言,提高复杂空间RDF查询效率是必要的,因此研究一种支持复杂空间RDF的并行查询方法对于大规模知识库的相关研究具有重要意义。
发明内容
本发明解决的问题是如何解决在大规模知识库中复杂空间RDF查询效率较低的问题。
为解决上述问题,本发明提供本发明提供一种复杂空间RDF查询并行处理方法,包括如下步骤:
获取空间RDF数据和查询数据;
根据第一算法,将所述查询数据分解为可并行执行的带空间过滤的查询计划图;
根据所述空间RDF数据和所述查询计划图,进行并行查询处理。
可选地,所述获取空间RDF数据,具体包括:
获取初始RDF数据;
根据所述初始RDF数据建立多个二维存储表,且每个所述二维存储表封装为一个弹性分布式数据集;
获取两个数据存储结构,所述数据存储结构用于存储所述弹性分布式数据集中的空间对象,且每个所述数据储存结构封装为一个空间弹性分布式数据集;
根据所述空间弹性分布式数据集获得所述空间RDF数据。
可选地,所述根据第一算法,将所述查询数据分解为可并行执行的带空间过滤的查询计划图,具体包括:
将所述查询数据转化为变量图;
根据第二算法,形成满足特定条件的查询计划图;
根据所述满足特定条件的查询计划图和第五算法,形成可并行执行的带空间过滤的查询计划图。
可选地,所述根据第二算法,形成满足特定条件的查询计划图,具体包括:
获取特定队列;
根据所述特定队列与第三算法,形成最终查询计划集合;
根据所述最终查询计划集合,筛选出所述满足特定条件的查询计划图。
可选地,所述根据所述特定队列与第三算法,形成最终查询计划集合,具体包括:
获取原始查询计划集合;
将所述变量图加入所述特定队列中,判断所述变量图的规模大小;
当所述变量图的规模等于1时,根据第四算法,得到当前查询计划图,将所述当前查询查询图加入到所述原始查询计划集合中,形成最终查询计划集合;
当所述变量图的规模大于1时,将所述原始查询计划集合初始化,并将所述变量图分解为多个子图,根据所述子图的内容对所述变量图进行缩减,得到当前变量图,将所述当前变量图加入所述特定队列中,判断当前所述变量图的规模,若所述当前变量图的规模大于1,将所述当前变量图分解为多个第一子图,根据所述第一子图的内容对所述当前变量图进行缩减,直至所述当前变量图的规模等于1。
可选地,所述当所述变量图的规模等于1时,根据第四算法,得到当前查询计划图,具体包括:
判断所述特定队列是否为第一个图;
若所述特定队列是第一个图,根据第一运算符,转换所述特定队列中所有数据,得到所述当前查询计划图;
若当所述特定队列不是第一个图,根据第二运算符,转换当前所述特定队列中所有数据,得到所述当前查询计划图。
可选地,所述根据所述满足特定条件的查询计划图和第五算法,形成可并行执行的带空间过滤的查询计划图,具体包括:
获取空间过滤符;
根据所述满足特定条件的查询计划图,将所述空间过滤操作符添加到所述满足特定条件的查询计划图中;
当所述空间过滤操作符为范围过滤操作符时,通过范围过滤方式形成可并行执行的带空间过滤的查询计划图;
当所述空间过滤操作符为距离过滤操作符时,通过距离过滤方式形成可并行执行的带空间过滤的查询计划图。
可选地,所述根据所述空间RDF数据和所述查询计划图,进行并行查询处理,具体包括:
将所述带空间过滤的查询计划图进行任务分区;
若所述任务中涉及空间过滤,对所述任务涉及的所述弹性分布式数据集进行所述空间过滤,生成新的所述弹性分布式数据集;
对若干个所述新的弹性分布式数据集进行并行表连接操作,至完成对所有所述任务的查询。
本发明所述的复杂空间RDF查询并行处理方法相对于现有技术的优势在于:本发明提供一种复杂空间RDF查询并行处理方法,解决了在大规模知识库中复杂空间RDF查询效率较低的问题,实现了对复杂空间RDF数据的并行查询处理,效率高。
为解决上述技术问题,本发明还提供一种复杂空间RDF查询并行处理装置,包括:
获取单元,所述获取单元用于获取空间RDF数据和查询数据;
分解单元,所述分解单元用于根据第一算法,将所述查询数据分解为可并行执行的带空间过滤的查询计划图;
查询单元,所述查询单元用于根据所述空间RDF数据和所述查询计划图,进行并行查询处理。
本发明所述的复杂空间RDF查询并行处理装置与复杂空间RDF查询并行处理方法相对于现有技术的优势相同,在此不再赘述。
为解决上述技术问题,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述复杂空间RDF查询并行处理方法的步骤。
本发明所述的计算机设备与所述复杂空间RDF查询并行处理方法 相对于现有技术的优势相同,在此不再赘述。
附图说明
图1为本发明实施例中复杂空间RDF查询并行处理方法的应用环境图;
图2为本发明实施例中复杂空间RDF查询并行处理方法的流程图;
图3为本发明实施例中GeoSpark数据管理图;
图4为本发明实施例中空间RDF查询并行处理方法中表T1和T9的距离空间过滤示意图;
图5为本发明实施例中复杂空间RDF查询并行处理装置结构图;
图6为本发明实施例中计算机设备的内部结构图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。
在本申请实施例的描述中,术语“一些实施例”的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
图1为本申请实施例中复杂空间RDF查询并行处理方法的应用环境图。参照图1,该复杂空间RDF查询并行处理方法应用于复杂空间RDF查询并行处理系统。该复杂空间RDF查询并行处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种复杂空间RDF查询并行处理方法。本实施例主要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。参照图2,该复杂空间RDF查询并行处理方法具体包括如下步骤:
步骤S1,获取空间RDF数据和查询数据;
步骤S2,根据第一算法,将所述查询数据分解为可并行执行的带空间过滤的查询计划图;
步骤S3,根据所述空间RDF数据和所述查询计划图,进行并行查询处理;
其中,主语Subject(Sub) 或者宾语Object(Obj) 含有空间信息;资源描述框架RDF是一个使用可扩展标记语言语法来表示的资料模型,用来描述网络资源的特性,及资源与资源之间的关系。
在一些优选的实施例中,查询数据为查询语句,具体查询语句如:
本实施例中,空间变量在图中以加粗及大写形式表示以与非空间变量区别,如空间变量a与空间信息相关联,则以A表示。
本实施例提供一种复杂空间RDF查询并行处理方法,通用过将查询数据分解为可并行执行的带空间过滤的查询计划图,再通过查询计划图和空间RED数据进行并行查询处理,很大程度的提高了在大规模知识库中复杂空间RDF查询效率。
一些实施例中,步骤S1中,获取空间RDF数据,具体包括:
步骤S11,获取初始RDF数据;
步骤S12,根据所述初始RDF数据建立多个二维存储表,且每个所述二维存储表封装为一个弹性分布式数据集;
步骤S13,获取两个数据存储结构,所述数据存储结构用于存储所述弹性分布式数据集中的空间对象,且每个所述数据储存结构封装为一个空间弹性分布式数据集;
步骤S14,根据所述空间弹性分布式数据集获得所述空间RDF数据。
在一些优选的实施例中,如图3所示,GeoSpark是一个用于处理大规模空间数据的开源内存集群,通过储存系统获取若干空间RDF数据,根据不同谓词Predicate建立多个二维存储表,每个表对应一个弹性分布式数RDD,其中每个表分别用两棵R树存储Subject(Sub)和Object(Obj)对象中的空间对象,每个R树对应一个空间弹性分布式数据集SRDD。
其中,将空间RDF数据存储到存储系统HDFS/HBase中,GeoSpark组织管理存储的数据以便于后续查询并行执行。
一些实施例中,步骤S2中,根据第一算法,将所述查询数据分解为可并行执行的带空间过滤的查询计划图,具体包括:
步骤S21,将所述查询数据转化为变量图;
步骤S22,根据第二算法,形成满足特定条件的查询计划图;
步骤S23,根据所述满足特定条件的查询计划图和第五算法,形成可并行执行的带空间过滤的查询计划图。
在一些优选的实施例中,查询数据为查询语句,根据查询语句生成对应的变量图,执行现有的第二算法,生成对应的查询计划图。
一些实施例中,步骤S22中,根据第二算法,形成满足特定条件的查询计划图,具体包括:
步骤S221,获取特定队列;
步骤S222,根据所述特定队列与第三算法,形成最终查询计划集合;
步骤S223,根据所述最终查询计划集合,筛选出所述满足特定条件的查询计划图。
其中,在一些优选的实施例中,第二算法为优化版团聚算法CliqueSquare-MSC,CliqueSquare-MSC是配备了基于图和团的独特优化算法,能够基于n元相等联接生成高度可并行化的平面查询计划,使并行查询处理更高效。
在一些优选的实施例中,步骤S222中,根据所述最终查询计划集合,筛选出所述满足特定条件的查询计划图,具体包括:
在最终查询计划图集合QP中筛选出满足最小集覆盖及简单覆盖的查询计划图;
另一些实施例中,步骤S222中,根据所述特定队列与第三算法,形成最终查询计划集合,具体包括:
步骤S2221,获取原始查询计划集合;
步骤S2222,将所述变量图加入所述特定队列中,判断所述变量图的规模大小;
步骤S2223,当所述变量图的规模等于1时,根据第四算法,得到当前查询计划图,将所述当前查询查询图加入到所述原始查询计划集合中,形成最终查询计划集合;
步骤S2224,当所述变量图的规模大于1时,将所述原始查询计划集合初始化,并将所述变量图分解为多个子图,根据所述子图的内容对所述变量图进行缩减,得到当前变量图,将所述当前变量图加入所述特定队列中,判断当前所述变量图的规模,若所述当前变量图的规模大于1,将所述当前变量图分解为多个第一子图,根据所述第一子图的内容对所述当前变量图进行缩减,直至所述当前变量图的规模等于1。
其中,在一些优选的实施例中,第三算法为团聚算法CliqueSquare;第四算法为创建查询计划图算法CreateQueryPlans,CreateQueryPlans算法是根据队列内容生成对应的查询计划图,根据判断特定队列,最后得到查询计划图,基于这两种算法,使并行查询处理高效。
一些优选的实施例中,步骤S2223中,当所述变量图的规模等于1时,根据第四算法,得到当前查询计划图,具体包括:
步骤A1,判断所述特定队列是否为第一个图;
步骤A2,若所述特定队列是第一个图,根据第一运算符,转换所述特定队列中所有数据,得到所述当前查询计划图;
步骤A3,若当所述特定队列不是第一个图,根据第二运算符,转换当前所述特定队列中所有数据,得到所述当前查询计划图。
在一些优选的实施例中,步骤SA2中,若所述特定队列是第一个图,根据第一运算符,转换所述特定队列中所有数据,得到所述当前查询计划图,具体包括:
如果特定队列是第一个图,则使用数学Match运算符,将特定队列中所有三元组转换,得到所述当前查询计划图。
在一些优选的实施例中,步骤SA3中,若当所述特定队列不是第一个图,根据第二运算符,转换当前所述特定队列中所有数据,得到所述当前查询计划图,具体包括:
如果特定队列不是第一个图,则使用连接Join运算符,将当前图中的每个节点与前一个图出现过该节点的团连接起来,重复此步骤,得到查询计划图;
其中,将多个三元组根据特定要求组成一个个团。
另一些实施例中,步骤S22中,根据所述满足特定条件的查询计划图和第五算法,形成可并行执行的带空间过滤的查询计划图,具体包括:
步骤S221,获取空间过滤符;
步骤S222,根据所述满足特定条件的查询计划图,将所述空间过滤操作符添加到所述满足特定条件的查询计划图中;
步骤S223,当所述空间过滤操作符为范围过滤操作符时,通过范围过滤方式形成可并行执行的带空间过滤的查询计划图;
步骤S224,当所述空间过滤操作符为距离过滤操作符时,通过距离过滤方式形成可并行执行的带空间过滤的查询计划图。
其中,一些优选的实施例中,第五算法为空间过滤算法SpatialFilterTask,将空间过滤操作符添加到查询计划图中,连接对应的实体,形成包含空间过滤操作符的查询计划图并返回。
一些优选的实施例中,步骤S223中,当所述空间过滤操作符为范围过滤操作符时,通过范围过滤方式形成可并行执行的带空间过滤的查询计划图,具体包括:
若为范围过滤,则连接至图中,并连接Subject(Sub)和Object(Obj)对应的Match运算符,其中Subject(Sub)和Object(Obj)需为空间变量,将查询语句中的空间过滤操作符添加至当前图中,得到可并行执行的带空间过滤的查询计划图。
在一些优选的实施例中,步骤S224中,当所述空间过滤操作符为距离过滤操作符时,通过距离过滤方式形成可并行执行的带空间过滤的查询计划图,具体包括:
一些实施例中,步骤S3中,根据所述空间RDF数据和所述查询计划图,进行并行查询处理,具体包括:
步骤S31,将所述带空间过滤的查询计划图进行任务分区;
步骤S32,若所述任务中涉及空间过滤,对所述任务涉及的所述弹性分布式数据集进行所述空间过滤,生成新的所述弹性分布式数据集;
步骤S33,对若干个所述新的弹性分布式数据集进行并行表连接操作,至完成对所有所述任务的查询。
一些优选的实施例中,步骤S32中,若所述任务中涉及空间过滤,对所述任务涉及的所述弹性分布式数据集进行所述空间过滤,生成新的所述弹性分布式数据集,具体包括:
如果任务中涉及空间过滤,对任务涉及的二维存储表RDD和所对应的SRDD进行空间过滤(T1表和T9表为例,如图4),过滤后生成新的二维存储表RDD以及新的SRDD,其中,A和L表示带空间信息的变量,b和k表示不带空间信息的变量;
一些优选的实施中,步骤S33中,对若干个所述新的弹性分布式数据集进行并行表连接操作,至完成对所有所述任务的查询,具体包括:
对新的二维存储表RDD进行表连接操作,输出表连接结果,同时执行下一步并行连接操作,当执行完查询计划图的顶层节点任务后,返回查询结果。
其中,用特定格式的查询语句对空间RDF数据图进行查询,则称为空间RDF查询,形如:
Condition为过滤条件,当Condition是针对查询中的空间变量进行空间过滤时,考虑以下两种空间过滤方式:
本实施例提供一种复杂空间RDF查询并行处理方法,通用调用第一算法,即支持空间数据的优化版团聚算法GeoCliqueSquare-MSC,将查询语句生成对应变量图,先执行现有的优化版团聚算法CliqueSquare-MSC,生成对应的查询计划图,并执行空间过滤算法SpatialFilterTask,生成可并行执行的带空间过滤的查询计划图,GeoSpark根据查询计划执行复杂空间RDF查询,获得查询结果,很大程度上解决了现有技术中大规模知识库中复杂空间RDF查询效率较低的问题。
如图5所示,在一个实施例中,提供复杂空间RDF查询并行处理装置,包括:
获取单元510,所述获取单元510用于获取空间RDF数据和查询数据;
分解单元520,所述分解单元520用于根据第一算法,将所述查询数据分解为可并行执行的带空间过滤的查询计划图;
查询单元530,所述查询单元530用于根据所述空间RDF数据和所述查询计划图,进行并行查询处理。
本实施例中的获取单元510还用于获取初始RDF数据;根据所述初始RDF数据建立多个二维存储表,且每个所述二维存储表封装为一个弹性分布式数据集;获取两个数据存储结构,所述数据存储结构用于存储所述弹性分布式数据集中的空间对象,且每个所述数据储存结构封装为一个空间弹性分布式数据集;根据所述空间弹性分布式数据集获得所述空间RDF数据;
本实施例中的分解单元520还用于将所述查询数据转化为变量图;根据第二算法,形成满足特定条件的查询计划图;根据所述满足特定条件的查询计划图和第五算法,形成可并行执行的带空间过滤的查询计划图;
本实施例中的处理单元530还用于将所述带空间过滤的查询计划图进行任务分区;若所述任务中涉及空间过滤,对所述任务涉及的所述弹性分布式数据集进行所述空间过滤,生成新的所述弹性分布式数据集;对若干个所述新的弹性分布式数据集进行并行表连接操作,至完成对所有所述任务的查询。
本发明所述的复杂空间RDF查询并行处理装置与所述复杂空间RDF查询并行处理方法相对于现有技术的优势相同,在此不再赘述。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述复杂空间RDF查询并行处理方法的步骤。
图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图6所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现复杂空间RDF查询并行处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行复杂空间RDF查询并行处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述复杂空间RDF查询并行处理方法 的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
虽然本公开披露如上,但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
Claims (8)
1.一种复杂空间RDF查询并行处理方法,其特征在于,包括如下步骤:
获取空间RDF数据和查询数据,其中,所述空间RDF数据通过空间弹性分布式数据集获得;
将所述查询数据转化为变量图,根据优化版团聚算法CliqueSquare-MSC,形成满足特定条件的查询计划图,根据所述满足特定条件的查询计划图和空间过滤算法,形成可并行执行的带空间过滤的查询计划图;
将所述带空间过滤的查询计划图进行任务分区,若所述任务中涉及空间过滤,对所述任务涉及的所述空间弹性分布式数据集进行空间过滤,生成新的所述空间弹性分布式数据集,对若干个所述新的空间弹性分布式数据集进行并行表连接操作,至完成对所有所述任务的查询。
2.根据权利要求1所述的复杂空间RDF查询并行处理方法,其特征在于,所述空间RDF数据通过空间弹性分布式数据集获得,具体包括:
获取初始RDF数据;
根据所述初始RDF数据建立多个二维存储表,且每个所述二维存储表封装为一个弹性分布式数据集;
获取两个数据存储结构,所述数据存储结构用于存储所述弹性分布式数据集中的空间对象,且每个所述数据存储结构封装为一个空间弹性分布式数据集;
根据所述空间弹性分布式数据集获得所述空间RDF数据。
3.根据权利要求1所述的复杂空间RDF查询并行处理方法 ,其特征在于,所述根据优化版团聚算法CliqueSquare-MSC,形成满足特定条件的查询计划图,具体包括:
获取特定队列;
根据所述特定队列与第三算法,形成最终查询计划集合;
根据所述最终查询计划集合,筛选出所述满足特定条件的查询计划图。
4.根据权利要求3所述的复杂空间RDF查询并行处理方法,其特征在于,所述根据所述特定队列与第三算法,形成最终查询计划集合,具体包括:
获取原始查询计划集合;
将所述变量图加入所述特定队列中,判断所述变量图的规模大小;
当所述变量图的规模等于1时,根据第四算法,得到当前查询计划图,将所述当前查询计划图加入到所述原始查询计划集合中,形成最终查询计划集合;
当所述变量图的规模大于1时,将所述原始查询计划集合初始化,并将所述变量图分解为多个子图,根据所述子图的内容对所述变量图进行缩减,得到当前变量图,将所述当前变量图加入所述特定队列中,判断当前所述变量图的规模,若所述当前变量图的规模大于1,将所述当前变量图分解为多个第一子图,根据所述第一子图的内容对所述当前变量图进行缩减,直至所述当前变量图的规模等于1。
5.根据权利要求4所述的复杂空间RDF查询并行处理方法,其特征在于,所述当所述变量图的规模等于1时,根据第四算法,得到当前查询计划图,具体包括:
判断所述特定队列是否为第一个图;
若所述特定队列是第一个图,根据第一运算符,转换所述特定队列中所有数据,得到所述当前查询计划图;
若当所述特定队列不是第一个图,根据第二运算符,转换当前所述特定队列中所有数据,得到所述当前查询计划图。
6.根据权利要求1所述的复杂空间RDF查询并行处理方法,其特征在于,所述根据所述满足特定条件的查询计划图和空间过滤算法,形成可并行执行的带空间过滤的查询计划图,具体包括:
获取空间过滤符;
根据所述满足特定条件的查询计划图,将所述空间过滤操作符添加到所述满足特定条件的查询计划图中;
当所述空间过滤操作符为范围过滤操作符时,通过范围过滤方式形成可并行执行的带空间过滤的查询计划图;
当所述空间过滤操作符为距离过滤操作符时,通过距离过滤方式形成可并行执行的带空间过滤的查询计划图。
7.一种复杂空间RDF查询并行处理装置,其特征在于,包括:
获取单元,所述获取单元用于获取空间RDF数据和查询数据,其中,所述空间RDF数据通过空间弹性分布式数据集获得;
分解单元,所述分解单元用于将所述查询数据转化为变量图,根据优化版团聚算法CliqueSquare-MSC,形成满足特定条件的查询计划图,根据所述满足特定条件的查询计划图和空间过滤算法,形成可并行执行的带空间过滤的查询计划图;
查询单元,所述查询单元用于将所述带空间过滤的查询计划图进行任务分区,若所述任务中涉及空间过滤,对所述任务涉及的所述空间弹性分布式数据集进行空间过滤,生成新的所述空间弹性分布式数据集,对若干个所述新的空间弹性分布式数据集进行并行表连接操作,至完成对所有所述任务的查询。
8.一种计算机设备,其特征在于,包括存储器和处理器:
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1-6中任一项所述的复杂空间RDF查询并行处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211365322.7A CN115422233B (zh) | 2022-11-03 | 2022-11-03 | 一种复杂空间rdf查询并行处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211365322.7A CN115422233B (zh) | 2022-11-03 | 2022-11-03 | 一种复杂空间rdf查询并行处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115422233A CN115422233A (zh) | 2022-12-02 |
CN115422233B true CN115422233B (zh) | 2023-02-24 |
Family
ID=84207379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211365322.7A Active CN115422233B (zh) | 2022-11-03 | 2022-11-03 | 一种复杂空间rdf查询并行处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115422233B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304213B (zh) * | 2023-03-20 | 2024-03-19 | 中国地质大学(武汉) | 基于图神经网络的rdf图数据库子图匹配查询优化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462609A (zh) * | 2015-01-06 | 2015-03-25 | 福州大学 | 结合星型图编码的rdf数据存储与查询方法 |
CN114661956A (zh) * | 2020-12-22 | 2022-06-24 | 南京航空航天大学 | 一种基于Pregel的时态T-SPARQL查询和推理方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9639575B2 (en) * | 2012-03-30 | 2017-05-02 | Khalifa University Of Science, Technology And Research | Method and system for processing data queries |
US11675785B2 (en) * | 2020-01-31 | 2023-06-13 | Oracle International Corporation | Dynamic asynchronous traversals for distributed graph queries |
-
2022
- 2022-11-03 CN CN202211365322.7A patent/CN115422233B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462609A (zh) * | 2015-01-06 | 2015-03-25 | 福州大学 | 结合星型图编码的rdf数据存储与查询方法 |
CN114661956A (zh) * | 2020-12-22 | 2022-06-24 | 南京航空航天大学 | 一种基于Pregel的时态T-SPARQL查询和推理方法 |
Non-Patent Citations (1)
Title |
---|
基于Spark和Redis的大规模RDF数据查询系统;阳杰等;《计算机系统应用》;20170915(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115422233A (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3674914A1 (en) | Multi-party data joint query method, device, server and storage medium | |
CN103646025A (zh) | 一种基于推理的层级知识库构建系统和方法 | |
CN115422233B (zh) | 一种复杂空间rdf查询并行处理方法及装置 | |
US20180075049A1 (en) | Schema to schema converter | |
CN106528898A (zh) | 将非关系型数据库数据转换到关系型数据库的方法及装置 | |
CN112732466A (zh) | 一种服务调用方法、装置和系统 | |
Al Naami et al. | GISQF: An efficient spatial query processing system | |
CN112286957A (zh) | 基于结构化查询语言的bi系统的api应用方法及系统 | |
CN107545509A (zh) | 一种多关系社交网络的社团划分方法 | |
CN103004135A (zh) | 访问控制方法及访问控制服务器 | |
CN113407810B (zh) | 一种基于大数据的城市信息和服务集成系统及方法 | |
CN103902565A (zh) | 一种数据访问关系的确定方法及装置 | |
CN116795859A (zh) | 数据分析方法、装置、计算机设备和存储介质 | |
CN112540995A (zh) | 数据更新方法、电子设备及存储介质 | |
CN113722337B (zh) | 业务数据确定方法、装置、设备及存储介质 | |
CN113742369B (zh) | 数据权限管理方法、系统和存储介质 | |
CN115599787A (zh) | 一种水平分表方法、装置、电子设备及存储介质 | |
Lage | Concept oriented design of numerical software | |
CN111309368A (zh) | 一种基于b/s框架开发信息管理方法,系统,设备及可读存储介质 | |
US10152556B1 (en) | Semantic modeling platform | |
CN110633459A (zh) | 数据报表的自动生成方法及系统、计算机可读存储介质 | |
CN117593406B (zh) | 一种桑基图生成方法、装置、设备及计算机可读存储介质 | |
Zaidi et al. | ADMI: A multi-agent architecture to autonomously generate data mining services | |
CN103810242A (zh) | 创新经纬网及文献位置自动识别系统及方法 | |
CN117573199B (zh) | 一种模型差异对比分析方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |