CN103118102A - 一种在云计算环境下空间数据访问规律的统计与控制系统及方法 - Google Patents

一种在云计算环境下空间数据访问规律的统计与控制系统及方法 Download PDF

Info

Publication number
CN103118102A
CN103118102A CN2013100315558A CN201310031555A CN103118102A CN 103118102 A CN103118102 A CN 103118102A CN 2013100315558 A CN2013100315558 A CN 2013100315558A CN 201310031555 A CN201310031555 A CN 201310031555A CN 103118102 A CN103118102 A CN 103118102A
Authority
CN
China
Prior art keywords
information
spatial data
statistical
statistics
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100315558A
Other languages
English (en)
Other versions
CN103118102B (zh
Inventor
杨博雄
倪玉华
贺辉
陈红顺
刘琨
彭宇帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Normal University Zhuhai
Original Assignee
Beijing Normal University Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Normal University Zhuhai filed Critical Beijing Normal University Zhuhai
Priority to CN201310031555.8A priority Critical patent/CN103118102B/zh
Publication of CN103118102A publication Critical patent/CN103118102A/zh
Application granted granted Critical
Publication of CN103118102B publication Critical patent/CN103118102B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于云计算的空间数据分布访问规律动态统计和控制系统及方法。本发明包括空间数据访问云服务节点分组单元(100)、空间数据访问规律动态统计与信息表达单元(200)、空间数据访问规律信息分发与融合单元(300)以及空间数据统计多目标优化与动态反馈单元(400);本发明通过空间粒度、时间粒度策略、统计信息表达和分块压缩控制统计信息基量,在动态性和实时性上取得平衡;同时,通过虚拟云分组及云链模型、云协作代理分发以及统计信息全局融合,实现全局统计和控制统计信息总量,在全局性和网络流量上取得平衡。本发明可应用于大规模并行计算与地理信息系统应用技术领域。

Description

一种在云计算环境下空间数据访问规律的统计与控制系统及方法
技术领域
本发明涉及一种在云计算环境下空间数据访问规律的统计与控制系统以及该系统的统计与控制方法,属于大规模并行计算应用技术领域,尤其涉及地理信息系统应用技术领域。
背景技术
随着高精度遥感影像技术的发展,对空间数据(DOM/DEM/DLG/DRG)的开发和利用,已经被广泛重视并应用到众多领域。数字地球中的空间信息服务质量问题,即如何支持大规模、高强度的并发用户访问以提供高可靠、高可用的空间信息服务以及如何快速地将空间数据传输并显示在数字地球的客户端,成为工业界和学术界的关注热点。随着互联网络技术的发展和宽带网络的普及,空间数据的服务形式从桌面转变到分布式网络环境中,新的服务形式迫切需要将空间数据服务和网络通信技术融合到一起,从而在分布式网络环境下为用户各种空间数据浏览、分析、查询、漫游等服务提供高效的平台支持。空间信息服务的质量,对于加速推广和普及空间信息服务和提升数字地球用户的服务体验,具有重要意义,相关的研究也就成为热点。
目前空间信息服务的大规模普及应用仍然受到众多现实条件的限制,包括有限的网络带宽资源、海量的空间数据信息和领域信息、庞大的用户请求量和机器性能的限制等。国内外相关专家学者、科研单位及企业一直致力于利用现有的资源来提升空间数据服务能力,也取得了较多的科研成果和产品,但是均存在一定程度的缺陷,或是以一方面的绝对牺牲来换取另一方面的提升,如花费巨资增加有效物理负载能力和提升服务速度。然而,这些方法成本高昂,且总是难以追赶由于用户数量增加而对服务器带宽的爆炸式需求增长,如Google Earth等,其管理者们在2006年的Interop展会上表示这种消耗速度简直让人难以置信,对这些方面的前景甚为担忧。
利用空间数据访问分布规律、相关性规律调整存储组织策略和副本分布,能大幅度提高空间数据服务系统的性能,从而大大改善数字地球用户的服务感受。主要从两个方面考虑:空间数据的存储组织和相关数据的预取和缓存;前者针对存储服务的不同,这又包含两层意思:一方面是存储介质的不同,如存储速度,有普通硬盘存储、半导体存储等;另一方面指服务性能的不同,有高性能服务器,也有普通服务器,将合适的数据存储在合适的存储介质和存储服务器上,提高热点数据的并发存储访问速度;而后者针对访问数据的相关性,将相关的数据存储在不同的存储器间,提高相关数据的并发传输速度。而空间数据的访问规律可以为空间数据的存储组织、副本数量及其存储分布提供依据;而用户访问行为规律不但可以为数据的存储组织、副本数量及其存储分布提供依据,而且可以为服务器进行预取和缓存提供知识。因此,空间数据分布规律统计、获取是解决空间信息服务的公众应用难以大规模普及这一问题的关键之一。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于云计算的空间数据分布访问规律动态统计和控制系统及方法,通过空间粒度、时间粒度策略、统计信息表达和分块压缩控制统计信息基量,在动态性和实时性上取得平衡;同时,通过虚拟云分组及云链模型、云协作代理分发以及统计信息全局融合,实现全局统计和控制统计信息总量,在全局性和网络流量上取得平衡。
本发明所述的在云计算环境下空间数据访问规律的统计与控制系统所采用的技术方案是:该系统包括用于将空间数据节点服务能力虚拟化,通过服务节点能力的表达,建立空间数据服务节点虚拟区域云,按照服务对象不同,对虚拟区域云进行分组和分层,并通过云链把分组和分层后的不同虚拟区域云组成整体动态统计与控制的云节点组织的空间数据访问云服务节点分组单元;用于动态统计空间数据被访问量,并压缩为基础压缩统计信息,对访问密集和访问稀少的统计信息进行分块压缩,将各个密集信息压缩分块依次附加到基础压缩统计信息后,并包含分块的定位信息,形成全局压缩统计信息输出的空间数据访问规律动态统计与信息表达单元;用于在云计算环境下,建立一种通过递归调用和信息合并减少信息传输副本数量的云协作代理分发模型进行统计信息分发,并从时间有效性和数据有效性方面限定统计结果的融合的空间数据访问规律信息分发与融合单元;以及用于建立多目标优化模型,提高空间数据访问规律的动态统计效率,并通过动态反馈修改多目标优化模型的约束条件,进一步优化多目标优化模型以使统计效率优化的空间数据统计多目标优化与动态反馈单元。
所述空间数据访问云服务节点分组单元包括用于表达空间数据服务器节点能力的空间数据服务器节点能力表达模块、用于平衡空间数据服务节点在区域云内服务的能力并使服务能力自动分组归类的空间数据服务节点虚拟区域云模块以及用于在不同的虚拟区域云之间自动形成云链,达到统计信息的融合并最终形成全局统计信息的虚拟区域云分层云链模块。
所述空间数据访问规律动态统计与信息表达单元包括用于从基础压缩统计信息中分块出访问密集统计信息的访问密集统计信息分块模块、用于从基础压缩统计信息中分块出并压缩访问稀少统计信息的访问稀少统计信息分块压缩模块、用于对每个密集统计信息分块进行压缩的访问密集统计信息分块压缩模块以及用于合并各个分块压缩统计信息并形成全局压缩统计信息输出的合并分块压缩统计信息和输出模块。
所述空间数据访问规律信息分发与融合单元包括用于对空间数据访问规律信息进行分发的云协作代理分发统计信息模块、用于使访问统计信息分发在动态性和传输信息量之间取得平衡的基于统计粒度的动态统计模块以及用于减少由于服务节点动态性造成访问统计信息丢失的基于空间粒度的分块统计融合模块。
所述空间数据统计多目标优化与动态反馈单元包括用于对空间数据统计中的目标变量进行优化的多目标智能优化模块以及用于优化统计效率的动态反馈信息模块。
在空间数据统计中的目标变量包括统计时产生的信息压缩计算开销、信息融合计算开销、网络带宽统计分化和控制开销。
上述系统在云计算环境下空间数据访问规律的统计与控制方法包括以下步骤:
(1)空间数据访问服务云节点组织建立:通过所述空间数据访问云服务节点分组单元将空间数据节点服务能力虚拟化,通过服务节点能力的表达,建立空间数据服务节点虚拟区域云,按照服务对象不同,对虚拟区域云进行分组和分层,最后通过云链把分组和分层后的不同虚拟区域云组成整体动态统计与控制的云节点组织;
(2)对空间数据访问统计信息进行分块压缩,形成分块压缩的动态统计与信息表达并进行统计结果的融合:通过所述空间数据访问规律动态统计与信息表达单元和所述空间数据访问规律信息分发与融合单元,动态统计空间数据被访问量,并压缩为基础压缩统计信息,对访问密集和访问稀少的统计信息进行分块压缩,将各个密集信息压缩分块依次附加到基础压缩统计信息后,并包含分块的定位信息,形成全局压缩统计信息输出,在云计算环境下,建立一种通过递归调用和信息合并减少信息传输副本数量的云协作代理分发模型进行统计信息分发,并从时间有效性和数据有效性方面限定统计结果的融合;
(3)对空间数据访问统计时的动态目标变量进行动态优化,以使统计效率优化:通过所述空间数据统计多目标优化与动态反馈单元建立多目标优化模型,提高空间数据访问规律的动态统计效率,并通过动态反馈修改多目标优化模型的约束条件,进一步优化多目标优化模型以使统计效率优化。
在上述步骤(3)中,建立多目标优化模型的过程如下:
将在统计信息过程中的n个参数作为需要决策的变量,统计时产生的影响统计效率的m个量作为目标变量,有
                                                     
Figure 695898DEST_PATH_IMAGE001
              
其中,
Figure 962931DEST_PATH_IMAGE002
,为n维的决策矢量,X 为n维的决策空间,m维的目标矢量,Ym维的目标空间,目标函数F(x)定义了m个由决策空间向目标空间的映射函数;g i (x)≤0(i=1,2,…,q)定义了q个不等式约束;h i (x)=0(j=1,2,…,p)定义了p个等式约束。
本发明的有益效果是:本发明在云计算环境下,通过虚拟分组云及云链模型、云服务节点优选、云协作代理分发模型以及统计信息全局融合,从方法上实现全局统计和控制统计信息总量,在全局性和网络流量上取得平衡,实现空间数据访问规律的全局融合,解决由于全局动态统计带来的不可承载的网络流量问题,能实时动态跟踪空间数据访问全局分布规律,大大改善空间数据系统公众服务能力。
附图说明
图1是本发明系统的结构示意图;
图2是所述空间数据访问云服务节点分组单元100的功能模块图;
图3是所述空间数据访问规律动态统计与信息表达单元200的功能模块图;
图4是所述空间数据访问规律信息分发与融合单元300的功能模块图;
图5是所述空间数据统计多目标优化与动态反馈单元400的功能模块图;
图6是本发明方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。
本发明的一种在云计算环境下空间数据访问规律的统计与控制系统以及该系统的统计与控制方法。本实施例主要以地理信息系统作为载体进行具体说明。
如图1所示,所述一种在云计算环境下空间数据访问规律的统计与控制系统包括空间数据访问云服务节点分组单元100、空间数据访问规律动态统计与信息表达单元200、空间数据访问规律信息分发与融合单元300以及空间数据统计多目标优化与动态反馈单元400。所述空间数据访问云服务节点分组单元100用于将空间数据节点服务能力虚拟化,通过服务节点能力的表达,建立空间数据服务节点虚拟区域云,按照服务对象不同,对虚拟区域云进行分组和分层,并通过云链把分组和分层后的不同虚拟区域云组成整体动态统计与控制的云节点组织。所述空间数据访问规律动态统计与信息表达单元200用于动态统计空间数据被访问量,并压缩为基础压缩统计信息,对访问密集和访问稀少的统计信息进行分块压缩,将各个密集信息压缩分块依次附加到基础压缩统计信息后,并包含分块的定位信息,形成全局压缩统计信息输出。所述空间数据访问规律信息分发与融合单元300用于在云计算环境下,建立一种通过递归调用和信息合并减少信息传输副本数量的云协作代理分发模型进行统计信息分发,并从时间有效性和数据有效性方面限定统计结果的融合。所述空间数据统计多目标优化与动态反馈单元400用于建立多目标优化模型,提高空间数据访问规律的动态统计效率,并通过动态反馈修改多目标优化模型的约束条件,进一步优化多目标优化模型以使统计效率优化。
如图2至图5所示,所述空间数据访问云服务节点分组单元100包括用于表达空间数据服务器节点能力的空间数据服务器节点能力表达模块101、用于平衡空间数据服务节点在区域云内服务的能力并使服务能力自动分组归类的空间数据服务节点虚拟区域云模块102以及用于在不同的虚拟区域云之间自动形成云链,达到统计信息的融合并最终形成全局统计信息的虚拟区域云分层云链模块103。所述空间数据访问规律动态统计与信息表达单元200包括用于从基础压缩统计信息中分块出访问密集统计信息的访问密集统计信息分块模块201、用于从基础压缩统计信息中分块出并压缩访问稀少统计信息的访问稀少统计信息分块压缩模块202、用于对每个密集统计信息分块进行压缩的访问密集统计信息分块压缩模块203以及用于合并各个分块压缩统计信息并形成全局压缩统计信息输出的合并分块压缩统计信息和输出模块204。所述空间数据访问规律信息分发与融合单元300包括用于提高服务节点进行空间数据访问规律信息分发的云协作代理分发统计信息模块301、用于使访问统计信息分发在动态性和传输信息量之间取得平衡的基于统计粒度的动态统计模块302以及用于减少由于服务节点动态性造成访问统计信息丢失的基于空间粒度的分块统计融合模块303。所述空间数据统计多目标优化与动态反馈单元400包括用于对空间数据统计中的目标变量进行优化的多目标智能优化模块401以及用于优化统计效率的动态反馈信息模块402。在空间数据统计中的目标变量包括统计时产生的信息压缩计算开销、信息融合计算开销、网络带宽统计分化和控制开销。
相对于传统分布式或集群环境,云计算的显著特征是异构和松偶合。因此,需要充分考虑在这种特殊环境下的云服务节点分组模型,达到异构与服务统一表达、松偶合与节点按序组织的平衡。本发明基于云计算应用环境,采用成熟的云计算基础平台进行改造,构建一个空间数据动态统计服务的第三方公有云服务平台,提供空间数据统计信息分发与融合服务。针对设备和存储异构和服务并发的特点,在公有云服务平台的基础上创建统计服务“虚拟云”,并对“虚拟云”进行分组和分层,采用“分组虚拟区域云”调度模型,并利用“分组虚拟区域云”组成的云链完成整体云计算环境的体系构造。具体实现方法如下。
(1)空间数据访问服务云节点组织建立:通过所述空间数据访问云服务节点分组单元100将空间数据节点服务能力虚拟化,通过服务节点能力的表达,建立空间数据服务节点虚拟区域云,按照服务对象不同,对虚拟区域云进行分组和分层,最后通过云链把分组和分层后的不同虚拟区域云组成整体动态统计与控制的云节点组织。在这一过程中,包括以下方面。
①利用所述空间数据服务器节点能力表达模块101进行空间数据服务器节点能力表达。
节点服务能力表达包括节点服务性能表达和节点应用负载表达。其中节点服务性能表达需要包含节点提供服务的主要性能参数,如访问带宽、响应时间、计算性能等,即节点it时刻的服务性能
Figure 207541DEST_PATH_IMAGE004
是其带宽B i ,响应速度T i ,计算能力C i 及时间t的函数;节点应用负载表达需要包含节点服务对象规模、请求服务排队队列、请求服务数据总量等,即节点it时刻的负载
Figure 263222DEST_PATH_IMAGE005
是其服务对象规模S i ,请求排队队列Q i ,请求数据总量D i 及时间t的函数。因此,可以定义节点i的能力CAP i 为:
      
Figure 892917DEST_PATH_IMAGE006
                                           
②利用所述空间数据服务节点虚拟区域云模块102建立空间数据服务节点虚拟区域云,并平衡空间数据服务节点在区域云内服务的能力并使服务能力自动分组归类。
通过服务节点能力的表达,可以计算任意时刻,某节点i的服务能力在云环境下的总服务能力比,即:
      
Figure 629929DEST_PATH_IMAGE007
                                       
将所获得的服务能力映射为[0,1]的样本空间,作为云计算环境下的虚拟化资源。对于任意服务节点p i ,分组个数N为目标样本空间,方法调度的基本思想是:基于贝努利大数定律,将空间节点均匀分布在N个样本空间组中,使每个样本空间的节点服务能力方差最小。这样形成服务能力的自动分组归类,达到区域云内服务的平衡。
③通过所述虚拟区域云分层云链模块103进行虚拟区域云分组分层形成云链。
不同的虚拟区域云按照其服务对象自动形成云链,各个区域云之间通过领导节点代理形成领导云,依次类推,形成云链;云链的各个叶子节点服务器之间,通过云代理节点进行统计信息的融合,形成基础融合统计信息;区域云之间通过领导节点进行统计信息的融合,最终形成全局统计信息。
(2)对空间数据访问统计信息进行分块压缩,形成分块压缩的动态统计与信息表达并进行统计结果的融合:通过所述空间数据访问规律动态统计与信息表达单元200和所述空间数据访问规律信息分发与融合单元300,动态统计空间数据被访问量,并压缩为基础压缩统计信息,对访问密集和访问稀少的统计信息进行分块压缩,将各个密集信息压缩分块依次附加到基础压缩统计信息后,并包含分块的定位信息,形成全局压缩统计信息输出,在云计算环境下,建立一种通过递归调用和信息合并减少信息传输副本数量的云协作代理分发模型进行统计信息分发,并从时间有效性和数据有效性方面限定统计结果的融合。
基于Hotmap模型,考虑到分布规律的特性,少量数据占用了大量的用户访问,因此,统计数据中,不但存在大量的瓦片是0或1的访问,而且大部分访问行为是分块集中的,即热点区域吸引了大量的访问,基于以上对动态统计信息特征的分析,对统计信息进行分块压缩。基于以上分析,本专利提出一种分块压缩方法,方法的基本思路是:
①利用所述访问密集统计信息分块模块201对访问密集统计信息分块。
总的思路是:通过方法找到访问密集的统计信息子分块集V,则未记入V的统计信息中存在大量的0或1访问;然后提取访问密集的信息分块,并对其对应统计信息位进行“0”替换,形成新的统计信息全集;可以得出,新的统计信息全集存在大量的0或1等相同访问,即全局上成为稀少访问分块;该方法的主要目的是将访问密集信息分块“孤岛”剥离后使统计信息中的访问密集信息稀少化。该步骤的关键是访问密集信息子分块的分类方法,分析如下:
首先,在地理测绘领域,根据地形及影像数据建立起瓦片金字塔模型,在金子塔空间将三维瓦片统计信息映射到四维空间的点(X,Y,Z,C),其中(X,Y,Z)代表三维空间的瓦片坐标位置,第四维空间值C代表瓦片的统计访问次数,这样,就将统计信息分块的问题退化为在四维空间中寻找到这样一个面,使分类边界的间隔(距离)最大,该问题演变成一个二次规划问题,使用拉格朗日函数合并优化问题和约束,再使用对偶理论,得到上述的分类优化问题的解,所获取的面在各坐标位置的C值就是块密集访问分类的访问次数门限值,门限值以下的属于稀少访问次数,门限值以上的属于密集访问次数。
找到对应坐标的门限值后,以该坐标为中心,依据分类精度要求,设定门限误差,向外扩散,获取属于该门限的分类块。依次类推,可以得到所有的密集分类块。
②利用所述访问稀少统计信息分块压缩模块202访问稀少统计信息并分块压缩。
通过改进的分类游程编码形成基础压缩统计信息;通过分析,可以知道,在地理信息系统的地形访问存在水平访问、垂直访问或者斜插访问,即可能存在连续的“0 0 0 0 …”访问,也可能存在“1 0 1 0 …”访问,利用改进的游程编码,通过信息编码和标识,使游程记录的相同信息目标可以不局限于1个。
③利用所述访问密集统计信息分块压缩模块203访问密集统计信息并分块压缩。
针对每个密集信息分块子集,其表达的访问空间范围依然很大,产生的信息量也较多,具体采用如下方法压缩:将信息子块看成一个全局统计信息,考虑到信息访问的特征,相邻区域的访问次数差异较小,因此,首先通过增量编码对信息进行预处理,使信息中出现的“数据种类”减少(即尽可能出现相同的数);然后将预处理后的信息进行熵编码;通过增量编码后,由于数据种类减少,熵编码中字典长度也相应的减少,再经过熵编码压缩,同步达到减少信息量的目的。
④利用所述合并分块压缩统计信息和输出模块204合并各个分块压缩信息并输出。
将各个密集信息压缩分块依次附加到基础压缩统计信息之后,并包含分块的位置,大小等定位信息,形成全局压缩信息输出。
由于动态统计信息需要通过云协作代理分发与融合,因此编码后的信息基量必须满足快速融合的要求,提高处理效率。其快速融合可行性分析如下:
  根据Hotmap模型,少量数据吸引了大量的访问,因此,存在的密集访问子集有限,根据信息的这一特征,可以选择密集访问分块不融合,而是直接附加在基础信息之后,由此带来的传输开销有限;在服务器收到其它全部服务器的统计信息后再进行解压缩融合,此时的融合只需要将统计信息附加即可。
 基础信息由于采用游程编码,可以通过游程长度直接定位信息,因此可以遍历游程合并融合统计信息,如信息1:(5,1)(4,0)和信息2:(4,1)(2,0)(3,1),都是9个数据,首先取信息2的(4,1)为基准(因为比信息1的(5,1)短,以短的为准),与信息1的(5,1)中的4个1合并,形成融合信息(4,2),则剩余信息都变成5个数据:信息1(1,1)(4,0)和信息2(2,0)(3,1),依次类推,可以遍历合并成新信息:(4,2)(1,1)(1,0)(3,1),方法简单可行。
(3)通过所述空间数据访问规律信息分发与融合单元300对空间数据访问规律信息进行分发与融合。
由于统计的目标基本统一,统计信息具有可融合特点,即各个服务器产生的统计信息可以合并而传输的信息量没有增加或者增加很少,基于云计算环境,提出一种通过递归调用和信息合并减少信息传输副本数量的云协作代理分发模型,其基本思路是:
①通过所述云协作代理分发统计信息模块301对空间数据访问规律信息进行云协作代理分发。
通过分析可知,若每个服务器都要将自己的统计数据发送给其它服务器,如果整个地形系统的瓦片数量为M,这样N个服务器,则总共会产生N份不同的数据,每份数据大小为O(M)。且同时都需要复制N-1份给其它服务器,则总共需要传输N*(N-1)次,对应的其数据量大小属于O(M×N×N);考虑到瓦片数据的相关性,不同服务器产生的数据虽然不同,但其对应瓦片数据属性一致,可以通过合并减少需要传输的数据份数,这样,在某服务器收到一个数据副本时,通过和自己的数据合并,产生一个新的数据集,该数据集大小基本不变,但包含了两份数据的信息,这样只要发送这份数据即可,以减少数据的冗余,同理,通过这种冗余合并,采取一定的分发策略,可以得出,总的数据量大小可以减少到O(M×N)。该方法的关键是代理节点的选择,保证选择的节点即有能力胜任代理融合,也不会给自己的服务带来影响,基于以上要求,提出基于节点服务能力评价的代理节点选择方法,分析如下:
定义PPC(Peer Providing Capability)为节点i对节点j的服务能力,则有:
        
Figure 464899DEST_PATH_IMAGE008
                          
其中
Figure 957060DEST_PATH_IMAGE009
为节点代理服务i能提供给节点j的传输带宽,为节点的计算能力,
Figure 286859DEST_PATH_IMAGE011
为节点目前收到的代理请求队列长度,
Figure 992646DEST_PATH_IMAGE012
为节点目前为用户l服务消耗的计算能力,S为节点目前服务的用户个数。节点服务能力PPC表示节点能力越强,优先选择的机会越大;节点需要服务的消耗越多,优先选择的机会越小。
②利用所述动态统计模块302进行基于统计粒度的动态统计,使访问统计信息分发在动态性和传输信息量之间取得平衡。
分别设置时间粒度和空间粒度门限:从时间有效性和数据有效性方面限定统计结果融合频率,调整统计信息分发策略,使满足阀值条件才触发统计信息的分发,减少分发的次数,在动态性与传输信息量之间取得平衡。本方法的关键是两个阈值的选取,阈值越大,传输的次数越小,一次传输的有效数据越多,效率越高,但动态性越差,反之动态性越好。分析如下:
设总瓦片数为Np i (t)为每块瓦片的t时间内的总访问次数,
Figure 654046DEST_PATH_IMAGE014
t时间内瓦片平均访问次数,则有:
      
Figure 382967DEST_PATH_IMAGE016
                                     
同样,设其中某瓦片最大访问次数为p时平均运行时间为
Figure 524099DEST_PATH_IMAGE018
,则有:
                                           
其中M为统计次数。
若定义初始最大访问次数p为256,则根据统计信息可以得到,记为
Figure 2013100315558100002DEST_PATH_IMAGE024
,根据
Figure 669089DEST_PATH_IMAGE024
,可以计算平均访问次数,记为
Figure 2013100315558100002DEST_PATH_IMAGE026
,并将对应的平均访问时间记为
Figure 2013100315558100002DEST_PATH_IMAGE028
,若记=256(256为一字节表达的最大数),则可得到统计的初始时间阀值和粒度阀值。
基于Hotmap模型,20%的空间数据对象聚集了80%的访问请求,即在海量空间数据集合中,只有少量数据被访问,因此,需要进行访问规律统计融合的空间数据对象也是少量的,空间粒度策略的另一个方面是统计空间对象的选择,以选择有用的空间数据对象的访问规律进行统计,这包括两个方面:一是空间数据集的选择;二是空间数据域的选择。前者需要根据空间数据的有效性或活动性进行选择,如历史封存数据对象、不活跃数据对象集则不在统计范围之内;而后者,则要依据Hotmap模型,针对统计对象区域进行选择,如SRTM90数据对象,其海洋区域数据则不需要统计。
③利用所述分块统计融合模块303进行基于空间粒度的分块统计融合,以减少由于服务节点动态性造成访问统计信息丢失。
在空间粒度下,对统计信息进行分块分发和融合,通过减少由于节点动态性对统计信息的丢失,需要选择一个合理的分块融合粒度,相关方法思想和前述关于空间粒度的选择方法类似,在此不再叙述。
基于以上方法,设计一种自反馈模型,在统计过程中动态调整阀值,使之对初始阀值具有一定的自愈和智能特征,通过进化,最终达到最佳。
(4)对空间数据访问统计时的动态目标变量进行动态优化,以使统计效率优化:通过所述空间数据统计多目标优化与动态反馈单元400建立多目标优化模型,提高空间数据访问规律的动态统计效率,并通过动态反馈修改多目标优化模型的约束条件,进一步优化多目标优化模型以使统计效率优化。
   空间数据访问规律的动态统计效率体现在统计的实时性、精确度以及统计开销上。统计的实时性越强,精度越高,且统计开销越小,则统计效率越高,反之,则统计效率越小。统计的实时性和统计时间粒度有关;统计的精确度和统计的空间粒度、压缩方法有关(有损压缩时);而统计的开销体则体现在计算开销和统计的网络开销上,统计的实时性越强,精度越高,计算资源指出和网络传输支出越多,统计开销越大,反之,则统计开销越小;因此,体现统计效率的三个方面(实时性、精确度、开销)是相互矛盾的。如何在这三者之间寻求到一个平衡,是一个多目标优化问题,其基本思路是:
  ①利用所述多目标智能优化模块401对空间数据统计中的目标变量进行优化。
  将统计时间粒度、统计空间粒度、统计信息压缩比以及虚拟云分组规模、虚拟云分层级数等参数视为n个需要决策的变量,统计时产生的计算开销(信息压缩、信息融合)、网络带宽开销(统计分化、控制)等作为m个目标变量,则依据多目标优化模型,有:
        
Figure 689184DEST_PATH_IMAGE001
                  
其中,
Figure 41668DEST_PATH_IMAGE002
,为n维的决策矢量,X 为n维的决策空间,
Figure 46533DEST_PATH_IMAGE003
m维的目标矢量,Ym维的目标空间。目标函数F(x)定义了m个由决策空间向目标空间的映射函数;g i (x)≤0(i=1,2,…,q)定义了q个不等式约束;h i (x)=0(j=1,2,…,p)定义了p个等式约束。
该模型的目的,是通过寻求较佳的统计决策变量x,使目标变量y最小。
②通过所述动态反馈信息模块402动态反馈多目标,使统计效率更加优化。
基于动态和并发,模型的约束条件也是动态变化的,因此需要通过动态反馈修改约束条件,达到动态的自愈和自我进化。首先,通过先验知识和初步估计完成初始约束条件的输入,如(3)中的时间粒度参数等;然后,通过统计融合,对统计规律的效率进行评价,并反馈调整约束条件,进一步优化决策变量。
所述空间数据统计多目标优化与动态反馈单元400在GIS云体系结构和服务需求表达研究基础上,结合按需服务模型。综合考虑统计信息的数据特征和节点服务能力差异,建立包括空间代价和时间代价在内的代价模型,并根据服务建立多目标(动态性、精度、服务影响等)优化模型,指导系统进行自我优化和有选择性地进行服务控制和管理(如:服务自动迁移、统计粒度调整等)。通过统一、融合和反馈,实现云分组模型、动态统计策略、统计信息分发和融合模型的进化和自愈。
本发明针对云计算环境下空间数据服务具有节点动态、服务能力异构以及拓扑关系不确定特征,设计一种基于云计算的空间数据分布规律动态统计方法,通过空间粒度、时间粒度策略、统计信息表达和分块压缩算法控制统计信息基量,在动态性和实时性上取得平衡;同时,通过虚拟云分组及云链模型、节点优选算法、云协作代理分发以及统计信息全局融合算法,从方法上实现全局统计和控制统计信息总量,在全局性和网络流量上取得平衡。 本发明可以解决由于全局动态统计带来的不可承载的网络流量问题,能实时动态跟踪空间数据访问全局分布规律,大大改善空间数据系统公众服务能力。
本发明可应用于大规模并行计算与地理信息系统应用技术领域。

Claims (8)

1.一种在云计算环境下空间数据访问规律的统计与控制系统,其特征在于,它包括:
用于将空间数据节点服务能力虚拟化,通过服务节点能力的表达,建立空间数据服务节点虚拟区域云,按照服务对象不同,对虚拟区域云进行分组和分层,并通过云链把分组和分层后的不同虚拟区域云组成整体动态统计与控制的云节点组织的空间数据访问云服务节点分组单元(100);
用于动态统计空间数据被访问量,并压缩为基础压缩统计信息,对访问密集和访问稀少的统计信息进行分块压缩,将各个密集信息压缩分块依次附加到基础压缩统计信息后,并包含分块的定位信息,形成全局压缩统计信息输出的空间数据访问规律动态统计与信息表达单元(200);
用于在云计算环境下,建立一种通过递归调用和信息合并减少信息传输副本数量的云协作代理分发模型进行统计信息分发,并从时间有效性和数据有效性方面限定统计结果的融合的空间数据访问规律信息分发与融合单元(300);以及
用于建立多目标优化模型,提高空间数据访问规律的动态统计效率,并通过动态反馈修改多目标优化模型的约束条件,进一步优化多目标优化模型以使统计效率优化的空间数据统计多目标优化与动态反馈单元(400)。
2.根据权利要求1所述的一种在云计算环境下空间数据访问规律的统计与控制系统,其特征在于:所述空间数据访问云服务节点分组单元(100)包括用于表达空间数据服务器节点能力的空间数据服务器节点能力表达模块(101)、用于平衡空间数据服务节点在区域云内服务的能力并使服务能力自动分组归类的空间数据服务节点虚拟区域云模块(102)以及用于在不同的虚拟区域云之间自动形成云链,达到统计信息的融合并最终形成全局统计信息的虚拟区域云分层云链模块(103)。
3.根据权利要求2所述的一种在云计算环境下空间数据访问规律的统计与控制系统,其特征在于:所述空间数据访问规律动态统计与信息表达单元(200)包括用于从基础压缩统计信息中分块出访问密集统计信息的访问密集统计信息分块模块(201)、用于从基础压缩统计信息中分块出并压缩访问稀少统计信息的访问稀少统计信息分块压缩模块(202)、用于对每个密集统计信息分块进行压缩的访问密集统计信息分块压缩模块(203)以及用于合并各个分块压缩统计信息并形成全局压缩统计信息输出的合并分块压缩统计信息和输出模块(204)。
4.根据权利要求3所述的一种在云计算环境下空间数据访问规律的统计与控制系统,其特征在于:所述空间数据访问规律信息分发与融合单元(300)包括用于对空间数据访问规律信息进行分发的云协作代理分发统计信息模块(301)、用于使访问统计信息分发在动态性和传输信息量之间取得平衡的基于统计粒度的动态统计模块(302)以及用于减少由于服务节点动态性造成访问统计信息丢失的基于空间粒度的分块统计融合模块(303)。
5.根据权利要求4所述的一种在云计算环境下空间数据访问规律的统计与控制系统,其特征在于:所述空间数据统计多目标优化与动态反馈单元(400)包括用于对空间数据统计中的目标变量进行优化的多目标智能优化模块(401)以及用于优化统计效率的动态反馈信息模块(402)。
6.根据权利要求5所述的一种在云计算环境下空间数据访问规律的统计与控制系统,其特征在于:在空间数据统计中的目标变量包括统计时产生的信息压缩计算开销、信息融合计算开销、网络带宽统计分化和控制开销。
7.一种如权利要求6所述的一种在云计算环境下空间数据访问规律的统计与控制系统在云计算环境下对空间数据访问规律的统计与控制方法,其特征在于,该方法包括以下步骤,
(1)      空间数据访问服务云节点组织建立:通过所述空间数据访问云服务节点分组单元(100)将空间数据节点服务能力虚拟化,通过服务节点能力的表达,建立空间数据服务节点虚拟区域云,按照服务对象不同,对虚拟区域云进行分组和分层,最后通过云链把分组和分层后的不同虚拟区域云组成整体动态统计与控制的云节点组织;
(2)      对空间数据访问统计信息进行分块压缩,形成分块压缩的动态统计与信息表达并进行统计结果的融合:通过所述空间数据访问规律动态统计与信息表达单元(200)和所述空间数据访问规律信息分发与融合单元(300),动态统计空间数据被访问量,并压缩为基础压缩统计信息,对访问密集和访问稀少的统计信息进行分块压缩,将各个密集信息压缩分块依次附加到基础压缩统计信息后,并包含分块的定位信息,形成全局压缩统计信息输出,在云计算环境下,建立一种通过递归调用和信息合并减少信息传输副本数量的云协作代理分发模型进行统计信息分发,并从时间有效性和数据有效性方面限定统计结果的融合;
(3)      对空间数据访问统计时的动态目标变量进行动态优化,以使统计效率优化:通过所述空间数据统计多目标优化与动态反馈单元(400)建立多目标优化模型,提高空间数据访问规律的动态统计效率,并通过动态反馈修改多目标优化模型的约束条件,进一步优化多目标优化模型以使统计效率优化。
8.根据权利要求7所述的一种在云计算环境下空间数据访问规律的统计与控制方法,其特征在于,在所述步骤(3)中,建立多目标优化模型的过程如下:
      将在统计信息过程中的n个参数作为需要决策的变量,统计时产生的影响统计效率的m个量作为目标变量,有
                                                     
Figure 2013100315558100001DEST_PATH_IMAGE001
                 
其中,
Figure 2013100315558100001DEST_PATH_IMAGE002
,为n维的决策矢量,X 为n维的决策空间,
Figure 2013100315558100001DEST_PATH_IMAGE003
m维的目标矢量,Ym维的目标空间,目标函数F(x)定义了m个由决策空间向目标空间的映射函数;g i (x)≤0(i=1,2,…,q)定义了q个不等式约束;h i (x)=0(j=1,2,…,p)定义了p个等式约束。
CN201310031555.8A 2013-01-28 2013-01-28 一种在云计算环境下空间数据访问规律的统计与控制系统及方法 Expired - Fee Related CN103118102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310031555.8A CN103118102B (zh) 2013-01-28 2013-01-28 一种在云计算环境下空间数据访问规律的统计与控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310031555.8A CN103118102B (zh) 2013-01-28 2013-01-28 一种在云计算环境下空间数据访问规律的统计与控制系统及方法

Publications (2)

Publication Number Publication Date
CN103118102A true CN103118102A (zh) 2013-05-22
CN103118102B CN103118102B (zh) 2016-05-04

Family

ID=48416372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310031555.8A Expired - Fee Related CN103118102B (zh) 2013-01-28 2013-01-28 一种在云计算环境下空间数据访问规律的统计与控制系统及方法

Country Status (1)

Country Link
CN (1) CN103118102B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103458032A (zh) * 2013-09-03 2013-12-18 武汉大学 一种空间数据访问规律动态统计及信息压缩的方法及系统
CN106603570A (zh) * 2017-01-05 2017-04-26 深圳大学 一种应用数据访问的控制方法及装置
CN106612329A (zh) * 2016-12-29 2017-05-03 北京奇艺世纪科技有限公司 一种缓存方法及装置
CN107436582A (zh) * 2016-05-25 2017-12-05 西门子公司 对基于云的应用的数据闭环控制的系统、控制器及方法
CN111858151A (zh) * 2019-04-29 2020-10-30 Emc知识产权控股有限公司 用于在备份操作期间优先处理关键数据对象存储的方法和系统
CN112965810A (zh) * 2021-01-27 2021-06-15 合肥大多数信息科技有限公司 一种基于共享网络通道的多内核浏览器数据整合方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721880B1 (en) * 2000-05-31 2004-04-13 Lucent Technologies Inc. Method and apparatus for maintaining configuration information in a computing environment
CN101616177A (zh) * 2009-07-21 2009-12-30 武汉大学 基于p2p的网络地形系统的数据传输共享方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721880B1 (en) * 2000-05-31 2004-04-13 Lucent Technologies Inc. Method and apparatus for maintaining configuration information in a computing environment
CN101616177A (zh) * 2009-07-21 2009-12-30 武汉大学 基于p2p的网络地形系统的数据传输共享方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王浩等: "数字地球中影像数据的Zipf-like访问分布及应用分析", 《武汉大学学报-信息科学版》, vol. 35, no. 3, 31 March 2010 (2010-03-31), pages 356 - 359 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103458032A (zh) * 2013-09-03 2013-12-18 武汉大学 一种空间数据访问规律动态统计及信息压缩的方法及系统
CN103458032B (zh) * 2013-09-03 2016-03-16 武汉大学 一种空间数据访问规律动态统计及信息压缩的方法及系统
CN107436582A (zh) * 2016-05-25 2017-12-05 西门子公司 对基于云的应用的数据闭环控制的系统、控制器及方法
CN106612329A (zh) * 2016-12-29 2017-05-03 北京奇艺世纪科技有限公司 一种缓存方法及装置
CN106612329B (zh) * 2016-12-29 2020-03-20 北京奇艺世纪科技有限公司 一种缓存方法及装置
CN106603570A (zh) * 2017-01-05 2017-04-26 深圳大学 一种应用数据访问的控制方法及装置
CN111858151A (zh) * 2019-04-29 2020-10-30 Emc知识产权控股有限公司 用于在备份操作期间优先处理关键数据对象存储的方法和系统
CN111858151B (zh) * 2019-04-29 2024-08-23 Emc知识产权控股有限公司 用于在备份操作期间优先处理关键数据对象存储的方法和系统
CN112965810A (zh) * 2021-01-27 2021-06-15 合肥大多数信息科技有限公司 一种基于共享网络通道的多内核浏览器数据整合方法

Also Published As

Publication number Publication date
CN103118102B (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN103118102B (zh) 一种在云计算环境下空间数据访问规律的统计与控制系统及方法
CN104820714B (zh) 基于hadoop的海量瓦片小文件存储管理方法
CN103118132B (zh) 一种面向时空数据的分布式缓存系统及方法
CN107770259A (zh) 基于文件热度和节点负载的副本数量动态调整方法
CN104065568A (zh) 一种Web服务器集群的路由方法
Li et al. A prefetching model based on access popularity for geospatial data in a cluster-based caching system
CN108460121A (zh) 智慧城市中时空数据小文件合并方法
US11381506B1 (en) Adaptive load balancing for distributed systems
CN106055590A (zh) 基于大数据及图数据库的电力网络数据处理方法和系统
Li et al. Scalable replica selection based on node service capability for improving data access performance in edge computing environment
Li et al. A Load-balancing method for network GISs in a heterogeneous cluster-based system using access density
Jafari et al. GeoIP clustering: Solving replica server placement problem in content delivery networks by clustering users according to their physical locations
Peng et al. Value‐aware cache replacement in edge networks for Internet of Things
Wu et al. Efficient federated learning on resource-constrained edge devices based on model pruning
Wang et al. A storage method for remote sensing images based on google s2
CN103458032B (zh) 一种空间数据访问规律动态统计及信息压缩的方法及系统
Li et al. A novel HBase data storage in wireless sensor networks
Wang et al. Block storage optimization and parallel data processing and analysis of product big data based on the hadoop platform
Dongjie et al. A data grouping model based on cache transaction for unstructured data storage systems
Liu et al. Proactive data caching and replacement in the edge computing environment
CN102096723A (zh) 基于副本复制算法的数据查询方法
Bai et al. An efficient skyline query algorithm in the distributed environment
He et al. Dynamic decision-making strategy of replica number based on data hot
CN103888373B (zh) 一种网络节点的副本文件存储容量的调整方法和装置
CN108063731B (zh) 一种分布式数据流中基于数据分布的负载均衡分发方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160504

Termination date: 20170128

CF01 Termination of patent right due to non-payment of annual fee