CN101408900A - 一种网格计算环境下的分布式空间数据查询优化方法 - Google Patents

一种网格计算环境下的分布式空间数据查询优化方法 Download PDF

Info

Publication number
CN101408900A
CN101408900A CNA2008102271623A CN200810227162A CN101408900A CN 101408900 A CN101408900 A CN 101408900A CN A2008102271623 A CNA2008102271623 A CN A2008102271623A CN 200810227162 A CN200810227162 A CN 200810227162A CN 101408900 A CN101408900 A CN 101408900A
Authority
CN
China
Prior art keywords
spatial
data
join operation
services
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008102271623A
Other languages
English (en)
Other versions
CN101408900B (zh
Inventor
谢传节
刘高焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Geographic Sciences and Natural Resources of CAS
Original Assignee
Institute of Geographic Sciences and Natural Resources of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Geographic Sciences and Natural Resources of CAS filed Critical Institute of Geographic Sciences and Natural Resources of CAS
Priority to CN2008102271623A priority Critical patent/CN101408900B/zh
Publication of CN101408900A publication Critical patent/CN101408900A/zh
Application granted granted Critical
Publication of CN101408900B publication Critical patent/CN101408900B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种网格计算环境下分布式空间数据查询优化方法,适用于网格计算环境中,步骤为:(1)解析用户查询,形成两个或两个以上的空间数据网格服务之间的空间连接操作图;(2)根据空间连接操作图,生成空间数据网格服务间可能存在的空间连接操作的估算代价矩阵;(3)采用渐进式的查询优化方法,依次更新估算代价矩阵,并按照空间连接操作平衡树的形成规则,根据估算代价矩阵选择较优的空间连接操作;(4)对于第三步中选择出的较优的空间连接操作,根据可执行空间连接计算网格资源状况和空间分割并行策略,生成一个较优的空间连接操作执行方案。本发明能适应网格计算环境动态变化和计算资源丰富的特点,并能根据这些特点生成较优的查询执行方案,从而提高了网格环境下分布式空间数据查询执行的效率。

Description

一种网格计算环境下的分布式空间数据查询优化方法
技术领域:
本发明涉及一种网格计算环境下的分布式空间数据查询优化方法,属于信息技术领域,主要是综合了网格计算技术,网络分布式数据查询优化技术和空间数据查询优化技术,解决了在网格计算环境下多个网格节点间空间数据连接的查询优化问题。
背景技术:
通过实施科学数据共享平台建设项目和电子政务项目,当前通过Web网络共享的空间数据资源越来越丰富,这促进了网络分布式异构空间数据无缝集成的应用需求。但受传统Web体系的限制,在分布式空间数据无缝集成技术中,跨网络分布式空间数据联合查询往往会成为性能瓶颈,制约着空间数据集成的实际应用。网格计算平台这一新型web体系结构,通过良好的资源管理设施和丰富的计算资源,为研发高效率的分布式空间数据联合查询技术提供了新的平台。
从1998年网格提出至今,网格的概念及其相关技术得到了国内外的高度重视,并在欧美掀起研究的热潮。网格的理解已经不局限于科学计算,已经扩展到数据网格、服务网格、仪器网格、虚拟现实网格、信息网格、知识网格等方方面面。网格计算平台也快速的应用到大气模拟,资源环境信息管理等诸多应用领域。网格平台同空间信息的结合,得到了GIS领域的关注和重视,一些研究分析了空间分析同网格计算结合的可行性,在运用网格平台上的计算资源来提高空间分析效率方面进行了一些探索性研究,并在遥感信息和网格计算结合方面取得了一些进展。在应用空间信息,国际上出现了一些网格计算技术为基础的空间信息共享和应用平台,如Earth System Grid。通过网格连接的空间信息资源越来越丰富,这也推动了网格平台上空间数据集成的应用需求。
网格平台上的信息集成问题一直是网格计算领域一个关键问题,与此相关的研究,如网格平台上数据资源的访问、网格平台上数据的分布式查询、数据缓存的运用、网格资源在数据集成中的运用等方面研究大量涌现。在网格平台上的数据访问已有GGF(Global GridForum)下设了专门的技术组进行标准化,并已形成了OGSA-DAI数据访问网格服务标准。网格信息集成中的分布式数据查询受到了特别的关注,如建立在OGSA-DAI基础上的OGSA-DQP就以网格服务的方式实现了分布式的数据查询,另外针对网格资源动态变化的特点,出现了一些结合网格特点的分布式数据查询优化算法,但这些优化算法没有考虑空间数据的特点,不能直接应用到分布式空间数据查询优化中。
当前在网格计算平台上进行空间信息集成方面的研究比较少,已有的研究是将传统的基于包装器/中介器信息集成系统结构引用到网格平台中,主要研究信息集成过程中的语义集成问题等,关于结合网格平台特点进行分布式空间数据查询优化方面目前研究还不深入,基本上是直接沿用了传统的查询优化方法,不能很好的适应网格计算平台动态变化,也不能发挥网格计算资源丰富的特点。
分布式空间信息集成一直是GIS领域研究的热点问题,先后有三种体系结构的空间信息集成体系结构,包括空间数据仓库、联邦空间数据库和基于包装器/中介器的分布式空间数据集成系统。而在空间数据集成系统中,分布式的空间数据查询优化一直是其中的核心技术问题之一,而分布式空间数据的空间连接操作则是查询优化的关键环节。针对不同的系统结构,目前已提出了多种分布式空间数据查询优化算法,这些查询优化优化方法一般都是运行在稳定、封闭的网络环境中,不能直接应用到网格计算环境中。
发明内容:
本发明所解决的技术问题是:提供一种高效率网格计算环境下的分布式空间数据查询优化方法,该方法能适应开放式网格计算环境动态变化的特点,也能够充分利用可用网格计算资源,并结合网格资源的现状,合理的制定并行化策略来提高网格计算资源的利用率,从而提高网格计算环境下分布式空间数据查询的效率。
本发明所采用的技术解决方案是:在标准的网格计算体系下,通过设置不同类型的网格服务来实现分布式空间数据的查询,并通过优化算法来提高分布式空间数据查询的效率,该优化算法包括如下步骤:
第一步,解析用户查询,形成两个或两个以上的空间数据网格服务之间的空间连接操作图;
第二步,根据第一步中形成的空间连接操作图,生成空间数据网格服务间可能存在的空间连接操作的估算代价矩阵;
第三步,采用渐进式的查询优化方法,依次更新第二步中的估算代价矩阵,并按照逐步形成空间连接操作平衡树的规则,根据估算代价矩阵选择较优的空间连接操作;
第四步,对于第三步中选择出的较优的空间连接操作,根据可执行空间连接计算的网格资源状况和空间分割并行策略,生成一个较优的空间连接操作执行方案,其中网格资源状况指CPU、内存、网络带宽等的使用状况。
所述第一步中,形成空间连接操作图的方法为:解析用户查询语句,构建查询语句操作语法树,重构查询语句操作语法树,将用户查询操作转化为两个或两个以上空间空间数据网格服务间的查询操作。
所述第二步中,生成空间连接操作的估算代价矩阵的方法为:
步骤a,根据空间连接操作图中的空间数据网格服务之间的空间连接生成估算代价矩阵框架,估算代价矩阵框架的行、列均为空间数据网格服务;
步骤b,采用估算代价公式(1)得出估算代价矩阵框架中的每个元素值C连接代价
C连接代价=Max(C数据服务1,C数据服务2)+C数据传输+C连接计算    (1)
公式(1)中的第一部分Max(C数据服务1,C数据服务2)是空间数据网格服务的数据访问代价,该代价值是参与空间连接的两个空间数据网格服务估算代价值中较大的值;第二部分C数据传输是数据网格服务获取的数据结果集的网络传输代价;第三部分C连接计算是空间连接操作执行的代价;
上述的空间数据网格服务的数据访问代价的估算公式(2)如下:
C数据服务=C网络延迟+C数据访问    (2)
公式(2)中,空间网格数据服务的访问代价估算值包括两部分,一部分C网络延迟是对空间数据网格服务访问的网络延迟平均值;第二部分C数据访问是数据访问在空间数据网格服务本地执行代价,该C数据访问代价值的估算公式(3)如下:
C数据访问=(a状态*R元组数+b状态*J元组数+c状态)    (3)
公式(3)中空间数据网格服务本地执行代价由一线性回归方程计算,公式(3)中共有三个变量,即a状态、b状态、c状态,其上标“状态”表示当前服务器所处的负载状态,公式(2)中的R元组数和J元组数为常量,R元组数表示查询中将访问数据的元组总数,J元组数表示查询中连接计算将访问的元组总数;
所述的第三步中,采用的渐进式的查询优化方法为:在每一个空间连接操作结束后都需更新估算代价矩阵,如果该估算代价矩阵不为空,则根据当前正在执行的空间连接操作和可用的网格资源状况,判断是否选择下一个空间连接操作;如果估算代价矩阵为空,则整个优化过程执行结束;
所述的第三步中,更新估算代价矩阵时,每一个空间连接操作执行结束都启动更新估算代价矩阵操作,具体更新过程为:首先从估算代价矩阵中删除当前已执行结束的空间连接操作涉及的两个空间数据网格服务,将空间连接操作结果作为新的空间数据网格服务添加到估算代价矩阵中;然后根据空间数据网格服务间的空间连接操作图判断估算代价矩阵中已存在其他空间数据网格服务与新添加的空间数据网格服务之间的空间连接操作关系,并估算其执行代价写入带估算代价矩阵。
所述的第三步中,空间连接操作平衡树的形成规则为:将更新后的估算代价矩阵中的空间连接操作,按照从下而上顺序,从树的叶结点开始直到最后的根节点,逐步组织成一个每个分支的代价都大致相等的空间连接操作平衡树,而且尽可能降低树的高度,增加可并行执行子查询的数量;根据估算代价矩阵选择较优的空间连接操作的方法为:选择平衡树中层次最低的空间数据网格服务间的空间连接操作,如果存在多个相同层次的空间连接操作,则选择预估代价最小的空间连接操作执行,也可以一次选择多个没有依赖关系的空间连接操作并行执行,并行化的程度根据可用的网格资源状况设定。
所述的第四步中,空间连接执行方案生成方法为:根据可供执行空间连接操作的网格资源数量及不同子区间分割时空间连接操作执行的预估代价,将空间连接操作分割为多个子区间空间连接操作的并集,并行执行子区间上的空间连接操作。
本发明与现有技术相比的优点在于:本发明通过使用渐进式查询,在查询推进的过程中,根据网格资源的最新状况进行查询执行方案的优化,能够适应网格计算环境的动态性特点,保证查询执行方案有效性和高效性;同时,根据可用当前可用计算资源的状况,采用空间分割并行的方法将空间连接操作分割为多个子区间空间连接操作的并集,在计算资源上并行执行,能充分利用网格中丰富的计算资源,提高查询执行的效率。
附图说明
图1为本发明网格计算环境下分布式空间数据查询优化方法的流程图;
图2为本发明中三种不同类型网格服务交互作用来实现分布式空间数据查询示意图;
图3为本发明中某个用户查询被解析为多个空间数据网格服务间的空间连接操作图;
图4为本发明的方法的第三步中所生成的一个空间数据网格服务间的空间连接操作平衡树示意图;
图5为本发明中采用的kd-tree空间分区方案当子区域空间对象数为2时的空间划分示意图。
具体实施方式
本发明的核心思想在于:为了适应网格计算环境的动态性特点,采用渐进式查询优化方法,在查询的推进的过程中,根据网格资源的最新状况进行查询执行方案的优化,并且根据网格中计算资源丰富的特点,采用空间分割并行的方法执行空间连接操作,充分利用网格计算资源,从而提高空间查询执行效率。
在本发明中,分布式空间数据查询是通过不同类型的网格服务来实现,具体的说有三种专门为实现分布式空间数据查询而定义的网格服务,即空间数据网格服务、空间连接计算网格服务和分布式空间数据查询网格服务。在具体软件实现上,分布式空间数据查询的优化和执行是空间数据查询网格服务基本功能;不同网格节点间的空间数据连接操作则可由空间数据网格服务和空间连接执行网格服务协同完成。对于空间连接操作采用空间数据分割并行的方式,通过空间数据分割将完整空间上空间连接操作,分割成多个空间子区域上空间连接操作,多个子空间上的空间连接操作可以并行执行,以提高空间连接操作的效率。本发明通过这三种类型服务交互协作,完成分布式空间数据查询工作。图2为本发明中三种不同类型网格服务交互作用来实现分布式空间数据查询示意图。
如图1所示,本发明的具体实施步骤如下:
第一步:解析用户查询,形成两个或两个以上空间数据网格服务之间的空间连接操作图。
根据用户的查询请的和空间数据模式解析用户查询语句,构建查询语句操作语法树;重构查询语法树,将用户查询操作转化为不同空间数据网格服务间的查询操作。如图3,一个用户查询被解析为几个不同网格数据服务间的空间连接操作,其中JS1、JS2、JS3为空间数据网格服务间的空间连接查询,而DS1、DS2、DS3、DS4为四个不同的空间数据网格服务。
第二步:根据空间连接操作图生成空间数据网格服务间可能存在的空间连接操作估算代价矩阵。
生成空间连接操作的估算代价矩阵由如下两步完成:
步骤a,根据空间连接操作图中的空间数据网格服务之间的空间连接生成估算代价矩阵框架,估算代价矩阵框架的行、列均为空间数据网格服务;
步骤b,采用估算代价公式(1)得出估算代价矩阵框架中的每个元素值;
C连接代价=Max(C数据服务1,C数据服务2)+C数据传输+C连接计算    (1)
公式(1)中的第一部分Max(C数据服务1,C数据服务2)是空间数据网格服务的数据访问代价,该代价值是参与空间连接的两个空间数据网格服务估算代价值中较大的值;第二部分C数据传输是空间数据网格服务获取的数据结果集的网络传输代价;第三部分C连接计算是空间连接操作执行的代价;
上述的空间数据网格服务数据访问代价的估算公式(2)如下:
C数据服务=C网络延迟+C数据访问        (2)
公式(2)中空间数据网格服务的访问代价估算值包括两部分,一部分C网络延迟是对空间数据网格服务访问的网络延迟平均值;第二部分C数据访问是数据访问在空间数据网格服务本地执行代价,该C数据访问代价值的估算公式(3)如下:
C数据访问=(a状态*R元组数+b状态*J元组数+c状态)    (3)
公式(3)中空间数据网格服务本地执行代价由一线性回归方程计算,公式(3)中共有三个变量,即a状态、b状态、c状态其上标“状态”表示当前服务器所处的负载状态,“状态”可以为{负载轻,正常负载,高负载}三个状态中的任意一个状态,其中负载轻表示服务目前的负载为其最大负载能力的30%以下,正常负载指服务目前的负载为其最大负载能力的30%到70%,高负载指务目前的负载超过其最大负载能力的70%,a状态、b状态、c状态表示公式(3)中三个回归系数处在不同状态时的值;公式(2)中的R元组数和J元组数为常量,R元组数表示查询中将访问数据的元组总数,J元组数表示查询中空间连接计算将访问的元组总数。
公式(1)中,数据传输代价的估算需要明确空间数据网格服务数据结果集的大小和空间连接计算的方式。当返回数据集的大小未知时,直接采用空间连接属性所在数据集大小。
本发明中空间数据网格服务间空间连接计算的方式有两种,一种是将参与空间连接计算的空间数据传输到另一个空间数据网格服务的网格节点上;另一种情况是两个空间数据网格服务的结果数据集同时传输到第三方计算节点上,由第三方计算节点完成,在后一种情况下传输代价取两个结果数据集分别传输到第三方时,传输代价较大的值。
公式(1)中,空间连接操作计算代价只同两个因素有关,即单个空间连接操作的计算时间和连接操作数量,空间连接操作的数量由参与操作的两个数据集的大小得出,这里空间连接计算代价是假定所有空间连接都被绑定到相同网格计算资源后的估算值。
表1为图3所示用户查询经过第二步后所生成的初始估算代价矩阵,表1中空间数据网格服务的上标“0”表示空间数据网格服务在渐进查询优化所形成的空间连接操作平衡树的最低层,下标是空间数据网格服务的编号。
表1
 DS1 0   DS2 0   DS3 0   DS4 0
  DS1 0   ~   15   25   ~
  DS2 0   15   ~   36   40
  DS3 0   25   36   ~   30
  DS4 0   ~   40   30   ~
第三步:采用渐进式的查询优化方法,依次更新估算代价矩阵,并按照逐步形成空间连接操作平衡树的规则,根据估算代价矩阵选择较优空间连接操作。
本步骤实施渐进式查询优化,每一对空间数据网格服务之间的空间连接操作执行结束都须执行该步骤,执行时按照先后次序完成估算代价矩阵的更新和下一个空间连接操作的选择两个方面的操作。
估算代价矩阵更新步骤如下:
(1)第一次执行渐进式查询优化时,直接跳过该步骤;
(2)当一对空间数据网格服务之间的空间连接操作执行结束调用该步骤时,从矩阵中删除当前已执行结束的空间连接操作涉及的两个空间数据网格服务,更新矩阵中已存在空间连接的估算值;
(3)将空间连接操作结果作为新的空间数据网格服务添加到矩阵中,该数据服务的上标为生成该数据集的两个数据服务上标最大值加1,表示该数据服务在渐进查询优化所形成的空间连接操作平衡树所处的层次;
(4)根据空间数据网格服务间的空间连接操作图判断矩阵中已存在其
(5)他空间数据网格服务与新添加空间数据网格服务之间的空间连接操作关系,并估算其执行代价写入带估算代价矩阵;如表2是DS1,DS2之间空间连接操作结束后,经过更新的估算代价矩阵,表3是DS3,DS4之间空间连接操作结束后,经过更新后的估算代价矩阵。
表2
  DS12 1   DS3 0   DS4 0
  DS12 1   ~   35   45
  DS3 0   35   ~   30
  DS4 0   45   30   ~
表3
  DS12 1   DS34 1
  DS12 1   ~   40
  DS34 1   40   ~
下一个空间连接操作选取步骤如下:
(1)评估当前的网格资源现状,并根据不同情况采取以下动作
a.如没有实现空间数据网格服务间的空间连接操作所需的网格计算资源,则查询优化操作失败,查询优化操作结束;
b.如果当前可用的网格资源使用都处于70%以上的高负载状态,而且当前查询中有正在执行的分布式空间连接操作,则放弃本轮优化操作;
c.如具有可用的网格资源,则转入执行步骤(2)
(2)如果估算代价矩阵为只有二个空间数据网格服务,则返回该两个空间数据网格服务之间的空间连接操作,同时删除代价矩阵,查询优化操作完成;
(3)当矩阵中有多个空间数据网格服务时,并按照空间连接操作平衡树的形成规则生成空间连接操作平衡树,即按照从下而上顺序,从树的叶结点开始直到最后的根节点,逐步组织成一个每个分支的代价都大致相等的空间连接操作平衡树,而且尽可能降低树的高度,增加可并行执行子查询的数量,如图4是根据表1中的估算代价矩阵法形成的空间数据网格服务间空间连接操作平衡树;算法总是选择平衡树中层次最低的空间数据网格服务间尚未执行的空间连接操作,如果存在多个相同层次的空间连接操作,选择预估代价最小的空间连接操作执行,也可以一次选择多个没有依赖关系的空间连接操作并行执行,并行化的程度根据可用的网格资源状况设定;
(4)对于选择的每个空间连接操作,从估算代价矩阵中删除其涉及的两个空间数据网格服务。
第四步:对于两个空间数据网格服务间的空间连接操作,根据可执行空间连接计算网格资源的状况和空间分割并行策略,生成一个较优的空间连接操作执行方案。
对于空间连接操作,根据可用执行空间连接操作网格计算资源,采用空间分割的方法,生成合理的执行方案,由如下几步完成:
(1)根据执行空间连接网格计算资源的运行历史信息,获取相应空间连接计算资源能力评估信息,建立空间连接网格计算资源的排序列表,空间连接计算网格资源能力的评价公式为:
S服务能力=a*C单位数据传输+b*C空间计算能力        (4)
公式(4)中,空间连接计算资源服务能力按照该计算资源所处的网络环境和计算能力两个方面来衡量,所处的网络环境由单位数据通过网格到达该计算资源的代价来评价,而计算能力则由该计算资源完成单个空间计算所需的平均时间代价,无论是单位数据传输代价还是空间计算代价,均由该网格计算资源的历史统计信息得出。在公式(4)中二个变量,即a,b表示在评价某一网格计算资源能力时网络传输和计算能力各自所占的比重;
(2)根据下列算法制订空间连接操作执行方案:
a.获取空间连接的空间数据网格服务信息,包括参与空间连接的数据集的大小,数据列平均宽度等统计信息;
b.从排序的网格计算资源列表的表头中获取空间连接计算资源,如列表为空,则空间连接操作执行失败,退出查询操作;否则将选中的网格计算资源加入到待执行网格计算资源列表中,按照公式(1)估算空间连接在该计算资源上的执行代价;
c.从空间连接网格计算资源列表的表头获取下一个空间连接计算资源,如此时列表为空,退出执行方案生成程序,并返回当前的执行方案;否则将选中的网格计算资源加入到待执行网格计算资源列表中,根据资源数决定空间连接的分区数,再以参与空间连接操作的对象数最大的数据集为基准,获取每个分区的参与空间连接的空间对象个数,并以此为基准估算每个分区在不同的空间连接计算资源上的执行代价,而整个空间连接的总代价为执行代价最大的子分区空间连接执行的代价,如公式(5)所示;
C连接=Max(C子连接1,C子连接2,…C子连接n)        (5)
如果新的方案的执行代价大于上一个方案的代价,则退出执行方案生成程序,并返回上一个方案,否则重复执行上述步骤c。
(3)根据返回的执行方案获取每个分布的空间对象个数,在以该对象个数为参数,调用参与空间连接操作的对象数最大的空间数据网格服务的空间分割功能,按照kd-tree获取空间分区方案,并以此为基础改写原始空间连接查询为多个分区子空间连接查询的并集。如图5是子区域空间对象数为2时的空间分区方案。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1、一种网格计算环境下分布式空间数据查询优化方法,适用于网格计算环境中,其特征在于步骤如下:
第一步,解析用户查询,形成两个或两个以上的空间数据网格服务之间的空间连接操作图;
第二步,根据第一步中形成的空间连接操作图,生成空间数据网格服务间可能存在的空间连接操作的估算代价矩阵;
第三步,采用渐进式的查询优化方法,依次更新第二步中的估算代价矩阵,并按照空间连接操作平衡树的形成规则,根据估算代价矩阵选择较优的空间连接操作;
第四步,对于第三步中选择出的较优的空间连接操作,根据可执行空间连接计算的网格资源状况和空间分割并行策略,生成一个较优的空间连接操作执行方案。
2、根据权利要求1所述的网格计算环境下分布式空间数据查询优化方法,其特征在于:所述第一步中,形成空间连接操作图的方法为:解析用户查询语句,构建查询语句操作语法树,重构查询语句操作语法树,将用户查询操作转化为两个或两个以上空间数据网格服务间的查询操作。
3、根据权利要求1所述的网格计算环境下分布式空间数据查询优化方法,其特征在于:所述的第二步中,生成空间连接操作的估算代价矩阵的方法为:
步骤a,根据空间连接操作图中的空间数据网格服务之间的空间连接生成估算代价矩阵框架,估算代价矩阵框架的行、列均为空间数据网格服务;
步骤b,采用估算代价公式(1)得出估算代价矩阵框架中的每个元素值C连接代价
C连接代价=Max(C数据服务1,C数据服务2)+C数据传输+C连接计算     (1)
公式(1)中的第一部分Max(C数据服务1,C数据服务2)是空间数据网格服务的数据访问代价,该代价值是参与空间连接的两个空间数据网格服务估算代价值中较大的值;第二部分C数据传输是数据网格服务获取的数据结果集的网络传输代价;第三部分C连接计算是空间连接操作执行的代价;
上述的空间数据网格服务的数据访问代价的估算公式(2)如下:
C数据服务=C网络延迟+C数据访问                       (2)
公式(2)中,空间网格数据服务的访问代价估算值包括两部分,一部分C网络延迟是对空间数据网格服务访问的网络延迟平均值;第二部分C数据访问是数据访问在空间数据网格服务本地执行代价,该C数据访问代价值的估算公式(3)如下:
C数据访问=(a状态*R元组数+b状态*J元组数+c状态)    (3)
公式(3)中空间数据网格服务本地执行代价由一线性回归方程计算,公式(3)中共有三个变量,即a状态、b状态、c状态,其上标“状态”表示当前服务器所处的负载状态,公式(2)中的R元组数和J元组数为常量,R元组数表示查询中将访问数据的元组总数,J元组数表示查询中空间连接计算将访问的元组总数。
4、根据权利要求1所述的网格计算环境下分布式空间数据查询优化方法,其特征在于:所述的第三步中,采用的渐进式的查询优化方法为:在每一个空间连接操作结束后都需更新估算代价矩阵,如果该估算代价矩阵不为空,则根据当前正在执行的空间连接操作和可用的网格资源状况,判断是否选择下一个空间连接操作;如果估算代价矩阵为空,则整个优化过程执行结束。
5、根据权利要求1所述的网格计算环境下分布式空间数据查询优化方法,其特征在于:所述的第三步中,启动更新估算代价矩阵操作的时机为每一个空间连接操作执行结束时,具体更新过程为:首先从估算代价矩阵中删除当前已执行结束的空间连接操作涉及的两个空间数据网格服务,将空间连接操作结果作为新的空间数据网格服务添加到估算代价矩阵中;然后根据空间数据网格服务间的空间连接操作图判断估算代价矩阵中已存在其他空间数据网格服务与新添加的空间数据网格服务之间的空间连接操作关系,并估算其执行代价写入带估算代价矩阵。
6、根据权利要求1所述的网格计算环境下分布式空间数据查询优化方法,其特征在于:所述的第三步中,空间连接操作平衡树的形成规则为:将更新后的估算代价矩阵中的空间连接操作,按照从下而上顺序,从树的叶结点开始直到最后的根节点,逐步组织成一个每个分支的代价均大致相等的空间连接操作平衡树,而且尽可能降低树的高度,增加可并行执行子查询的数量;所述的根据估算代价矩阵选择较优的空间连接操作的方法为:选择平衡树中层次最低的空间数据网格服务间的空间连接操作,如果存在多个相同层次的空间连接操作,则选择预估代价最小的空间连接操作执行,也可以一次选择多个没有依赖关系的空间连接操作在并行执行,并行化的程度根据可用的网格资源状况设定。
7、根据权利要求1所述的网格计算环境下分布式空间数据查询优化方法,其特征在于:所述的第四步中,空间连接执行方案生成方法为:根据可供执行空间连接操作的网格资源数量及不同子区间分割时空间连接操作执行的预估代价,将空间连接操作分割为多个子区间空间连接操作的并集,并行执行子区间上的空间连接操作。
CN2008102271623A 2008-11-24 2008-11-24 一种网格计算环境下的分布式空间数据查询优化方法 Expired - Fee Related CN101408900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102271623A CN101408900B (zh) 2008-11-24 2008-11-24 一种网格计算环境下的分布式空间数据查询优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102271623A CN101408900B (zh) 2008-11-24 2008-11-24 一种网格计算环境下的分布式空间数据查询优化方法

Publications (2)

Publication Number Publication Date
CN101408900A true CN101408900A (zh) 2009-04-15
CN101408900B CN101408900B (zh) 2011-03-16

Family

ID=40571912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102271623A Expired - Fee Related CN101408900B (zh) 2008-11-24 2008-11-24 一种网格计算环境下的分布式空间数据查询优化方法

Country Status (1)

Country Link
CN (1) CN101408900B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064955A (zh) * 2012-12-28 2013-04-24 华为技术有限公司 查询规划方法及装置
CN103514243A (zh) * 2012-06-18 2014-01-15 株式会社日立制作所 时空数据管理系统、时空数据管理方法及其程序
CN104899209A (zh) * 2014-03-05 2015-09-09 阿里巴巴集团控股有限公司 针对开放式数据处理服务的优化方法和装置
CN105045790A (zh) * 2015-03-13 2015-11-11 北京航空航天大学 图数据搜索系统、方法和设备
CN105630988A (zh) * 2015-12-23 2016-06-01 中山大学 一种快速检测空间数据变化并更新的方法及系统
CN106055563A (zh) * 2016-05-19 2016-10-26 福建农林大学 一种基于网格划分的并行空间查询方法及其系统
CN107193813A (zh) * 2016-03-14 2017-09-22 阿里巴巴集团控股有限公司 数据表连接方式处理方法及装置
WO2018157680A1 (zh) * 2017-03-01 2018-09-07 华为技术有限公司 一种执行计划的生成方法、装置及数据库服务器
CN110008238A (zh) * 2019-03-12 2019-07-12 北京东方国信科技股份有限公司 Nlj改进表连接方法及基于该改进方法的数据查询方法
CN110019298A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 数据处理方法和装置
CN110019341A (zh) * 2017-12-08 2019-07-16 杭州海康威视数字技术股份有限公司 一种数据查询方法及装置
CN110188424A (zh) * 2019-05-16 2019-08-30 浙江大学 一种面向动边界流场数值模拟的局部区域网格重构并行方法
CN110245135A (zh) * 2019-05-05 2019-09-17 华中科技大学 一种基于numa架构的大规模流式图数据更新方法
CN110825734A (zh) * 2019-10-09 2020-02-21 上海交通大学 平衡树的并发更新方法及读写系统
CN110955726A (zh) * 2019-11-26 2020-04-03 中思博安科技(北京)有限公司 一种确定分布式代价的方法、装置、存储介质及电子设备
CN113157806A (zh) * 2021-04-19 2021-07-23 清华大学 网格数据分布式存储服务系统、方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146352B2 (en) * 2003-06-23 2006-12-05 Microsoft Corporation Query optimizer system and method
US20050210023A1 (en) * 2004-03-18 2005-09-22 Renato Barrera Query optimizer using implied predicates

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514243A (zh) * 2012-06-18 2014-01-15 株式会社日立制作所 时空数据管理系统、时空数据管理方法及其程序
CN103514243B (zh) * 2012-06-18 2016-12-28 株式会社日立制作所 时空数据管理系统和时空数据管理方法
CN103064955A (zh) * 2012-12-28 2013-04-24 华为技术有限公司 查询规划方法及装置
CN104899209A (zh) * 2014-03-05 2015-09-09 阿里巴巴集团控股有限公司 针对开放式数据处理服务的优化方法和装置
CN104899209B (zh) * 2014-03-05 2018-05-18 阿里巴巴集团控股有限公司 针对开放式数据处理服务的优化方法和装置
CN105045790A (zh) * 2015-03-13 2015-11-11 北京航空航天大学 图数据搜索系统、方法和设备
CN105630988A (zh) * 2015-12-23 2016-06-01 中山大学 一种快速检测空间数据变化并更新的方法及系统
CN107193813A (zh) * 2016-03-14 2017-09-22 阿里巴巴集团控股有限公司 数据表连接方式处理方法及装置
US11650990B2 (en) 2016-03-14 2023-05-16 Alibaba Group Holding Limited Method, medium, and system for joining data tables
CN106055563A (zh) * 2016-05-19 2016-10-26 福建农林大学 一种基于网格划分的并行空间查询方法及其系统
CN106055563B (zh) * 2016-05-19 2019-06-25 福建农林大学 一种基于网格划分的并行空间查询方法及其系统
WO2018157680A1 (zh) * 2017-03-01 2018-09-07 华为技术有限公司 一种执行计划的生成方法、装置及数据库服务器
CN110019298A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 数据处理方法和装置
CN110019341A (zh) * 2017-12-08 2019-07-16 杭州海康威视数字技术股份有限公司 一种数据查询方法及装置
CN110019341B (zh) * 2017-12-08 2021-07-23 杭州海康威视数字技术股份有限公司 一种数据查询方法及装置
CN110008238A (zh) * 2019-03-12 2019-07-12 北京东方国信科技股份有限公司 Nlj改进表连接方法及基于该改进方法的数据查询方法
CN110245135A (zh) * 2019-05-05 2019-09-17 华中科技大学 一种基于numa架构的大规模流式图数据更新方法
CN110245135B (zh) * 2019-05-05 2021-05-18 华中科技大学 一种基于numa架构的大规模流式图数据更新方法
CN110188424A (zh) * 2019-05-16 2019-08-30 浙江大学 一种面向动边界流场数值模拟的局部区域网格重构并行方法
CN110188424B (zh) * 2019-05-16 2021-01-15 浙江大学 一种面向动边界流场数值模拟的局部区域网格重构并行方法
CN110825734A (zh) * 2019-10-09 2020-02-21 上海交通大学 平衡树的并发更新方法及读写系统
CN110825734B (zh) * 2019-10-09 2023-04-28 上海交通大学 平衡树的并发更新方法及读写系统
CN110955726A (zh) * 2019-11-26 2020-04-03 中思博安科技(北京)有限公司 一种确定分布式代价的方法、装置、存储介质及电子设备
CN110955726B (zh) * 2019-11-26 2022-12-23 中思博安科技(北京)有限公司 一种确定分布式代价的方法、装置、存储介质及电子设备
CN113157806A (zh) * 2021-04-19 2021-07-23 清华大学 网格数据分布式存储服务系统、方法、装置、设备及介质

Also Published As

Publication number Publication date
CN101408900B (zh) 2011-03-16

Similar Documents

Publication Publication Date Title
CN101408900B (zh) 一种网格计算环境下的分布式空间数据查询优化方法
Wilschut et al. Dataflow query execution in a parallel main-memory environment
Hammoud et al. DREAM: distributed RDF engine with adaptive query planner and minimal communication
Maccioni et al. Scalable pattern matching over compressed graphs via dedensification
Vastenhouw et al. A two-dimensional data distribution method for parallel sparse matrix-vector multiplication
CN102467570B (zh) 用于分布式数据仓库的连接查询系统和方法
CN102722531B (zh) 一种云环境中基于分片位图索引的查询方法
Galpin et al. SNEE: a query processor for wireless sensor networks
CN101916280A (zh) 并行计算系统及按查询内容进行负载均衡的方法
CN104885078A (zh) 用于大规模并行处理数据库集群中的两阶段查询优化的方法
CN103336808A (zh) 一种基于bsp模型的实时图数据处理系统及方法
CN104572833B (zh) 一种映射规则创建方法及装置
Liao et al. MRPrePost—A parallel algorithm adapted for mining big data
CN109815283A (zh) 一种异构数据源可视化查询方法
Kleinrock et al. On parallel processing systems: Amdahl's law generalized and someresults on optimal design
CN104834754A (zh) 一种基于连接代价的sparql语义数据查询优化方法
CN104504018A (zh) 基于浓密树和自顶向下的大数据实时查询优化方法
CN101800768B (zh) 一种基于存储联盟子集划分的网格数据副本生成方法
US20080133459A1 (en) Database Query Optimizer That Takes Network Choice Into Consideration
CN102325161B (zh) 一种基于查询工作量估算的xml分片方法
CN105262663A (zh) 一种混合虚拟网络的跨域映射方法
CN102521413B (zh) 基于网络报表的取数装置和方法
CN105608077A (zh) 一种大数据分布式存储方法和系统
CN113282797A (zh) 一种采用并行排序构建水库调度网络节点拓扑关系的方法
CN106528849B (zh) 面向完整历史记录的图查询开销方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110316

Termination date: 20141124

EXPY Termination of patent right or utility model