CN106933511B

CN106933511B - 考虑负载均衡与磁盘效率的空间数据存储组织方法及系统

Info

Publication number: CN106933511B
Application number: CN201710109179.8A
Authority: CN
Inventors: 潘少明; 种衍文; 李红; 汤戈
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-02-27
Filing date: 2017-02-27
Publication date: 2020-02-14
Anticipated expiration: 2037-02-27
Also published as: CN106933511A

Abstract

本发明公开了一种考虑负载均衡与磁盘效率的空间数据存储组织方法及系统，包括：根据空间数据文件被用户访问请求的次数，统计空间数据文件的平均访问并发度；根据分布式地理信息系统负载均衡需求，按照平均访问并发度，将空间数据文件分布存储到分布式地理信息系统服务器；根据空间数据文件的平均访问并发度和平均访问间隔距离，计算空间数据文件的平均访问连续度；根据空间数据文件的平均访问连续度，将相同服务器中的空间数据文件进行连续存储组织。本发明在满足负载均衡要求的同时，实现连续被访问空间数据的有效批量读取，保障了地理信息系统的存储效率。本项目受国家自然科学基金资助完成（基金号：41671382，41271398）。

Description

考虑负载均衡与磁盘效率的空间数据存储组织方法及系统

技术领域

本发明属于空间数据存储组织技术领域，特别是涉及一种考虑负载均衡与磁盘效率的空间数据存储组织方法及系统。

背景技术

地理信息系统在城市规划、环境监测以及防灾减灾等领域的应用也越来越普及，需要着重解决由于用户的密集访问所带来的无限带宽需求(Infinite Bandwidth)、无限容量需求(Infinite Capacity)以及无限处理能力需求(Infinite ProcessingCapability)，分布式系统为海量空间数据提供存储和访问服务成为解决上述问题的有效途径之一。目前传统的网络地理信息系统，如NASA WorldWind等，通常采用数据驱动的空间数据存储组织方法，其主要是利用数据本身的固有特性(位置、属性)对数据进行分布存储，该方法的一个显著优点是查找索引效率较高，但其也存在用户访问需求匹配度不够、部分存储节点热度高、访问服务排队长、负载不均衡等问题。

在信息处理领域，针对数据的分布存储等研究相对较多，相应算法策略包括动态布局策略、SP策略及PB策略、数据融合(合并)与数据分块技术以及K-means聚类等^[1～3]。其中动态布局策略在每次数据访问请求之后更新现有数据布局，以实时优化数据布局；SP策略及PB策略通过最小化服务时间方差实现负载均衡；而K-means聚类则通过两阶段算法动态部署数据集，使每个数据中心处理的计算数都非常接近。但这些算法大部分都是针对专门的应用系统，或者为了计算的负载均衡进行设计，或者其布局更新策略难以满足“大数据”的应用需求。

专门针对空间数据的组织策略则包括基于概率潜语义分析(PLSA)^[4]和基于特征匹配^[5]的小文件合并策略，以及基于并发访问的数据分布算法(APSA)^[6]等，前两者主要通过数据合并存储和组织，实现数据从存储节点的连续批量读取，重点考虑的是磁盘I/O效率。后者则利用访问相关性分布存储和组织数据，实现对数据并发访问和系统的负载均衡，重点考虑的是网络I/O效率，但上述算法策略都只考虑了空间数据存储组织在某一个层面的局部要求，缺乏全局协同。

总之，现有的单纯从提高地理信息系统并发能力的角度分布存储空间数据的方法或通过合并存储提高空间数据连续读取效率的方法，都不能同时满足地理信息系统负载均衡需求和高效磁盘I/O需求。

文中涉及如下参考文献：

[1]Qin X,Jiang H,Manzanares A,Ruan X,Yin S.Dynamic load balancing forI/O-intensive applications on clusters.ACM Transactions on Storage,2009,5(3):300–309；

[2]Brinkmann A,Effert S,Scheideler C.Dynamic and redundant dataplacement.In:Proceedings of the 27th international conference on distributedcomputing systems(ICDCS’07),2007,Toronto,pp 29–39；

[3]Dong B,Zheng QH,Tian F,Chao KM,Ma R,Anane R.An optimized approachfor storing and accessing small files on cloud storage.Journal of Network andComputer Application,2012,35:1847–1862.

[4]王涛,姚士红,徐正全,熊炼.云存储中面向访问任务的小文件合并与预取策略.武汉大学学报(信息科学版),2013,38(12):1504-1508.

[5]熊炼,徐正全,王涛,顾鑫.云环境下的时空数据小文件存储策略.武汉大学学报(信息科学版),2014,39(10):1252-1256.

[6]Pan S,Li Y,Xu Z,Chong Y.Distributed Storage Algorithm forGeospatial Image Data Based on Data Access Patterns.PLoS ONE,2015,10(7):e0133029.doi:10.1371/journal.pone.0133029.

发明内容

本发明的目的是提供一种考虑负载均衡与磁盘效率的空间数据存储组织方法及系统。

本发明思路为：

首先，按照分布式地理信息系统服务器数量长度，对空间数据的访问日志信息进行分段。然后，统计各子段内空间数据访问次数，以计算空间数据相互间的平均访问并发度。最后，按照平均访问并发度将热点空间数据分布存储于分布式地理信息系统的不同服务器，以提高分布式地理信息系统的整体负载均衡性能。与此同时，对各服务器中空间数据，从空间数据的访问日志信息中抽取属于该服务器的子访问日志信息，并依照子访问日志信息计算空间数据的平均访问连续度；根据平均访问连续度、存储效率、空间数据大小，计算连续存储的空间数据数量，将每个服务器中的空间数据进行连续存储组织，以提高空间数据的服务器磁盘I/O效率。

本发明技术方案如下：

一、考虑负载均衡与磁盘效率的空间数据存储组织方法，包括：

步骤1，空间数据文件的平均访问并发度计算，本步骤进一步包括：

1.1从分布式地理信息系统中获得用户对空间数据文件的访问日志信息A＝(a₁,a₂,…,a_M)和T＝(t₁,t₂,…,t_M)，a_m和t_m分别表示用户第m次访问的空间数据文件的标识和访问绝对时间，m＝1,2,...M，M为用户访问的总次数；

1.2记分布式地理信息系统中服务器数量为C，以C个元素为一组对A中元素顺次划分，获得若干子段A_k；

1.3统计各空间数据文件在各子段A_k上的访问次数；

1.4对任意两个空间数据文件，分别计算该两个空间数据文件在各子段A_k上的并发度，所有并发度的平均值即该两个空间数据文件间的平均访问并发度；

所述的并发度采用如下方法计算：记任意两个空间数据文件为f_n1和f_n2，则f_n1和f_n2在子段A_k上的并发度

r_kn1和r_kn2分别为f_n1和f_n2在子段A_k上的访问次数；

步骤2，空间数据文件的多数据中心存储分布，本步骤进一步包括：

2.1将步骤1所得的平均访问并发度构建成平均访问并发度矩阵Ξ，Ξ中第i行第j列的元素即第i个和第j个空间数据文件间的平均访问并发度；

2.2从Ξ中找到最大的平均访问并发度ξ_max，令Ξ中主对角线元素值为ξ_max；构建与Ξ大小相同的最大平均访问并发度矩阵，其中所有元素值均为ξ_max；最大平均访问并发度矩阵减去Ξ，得转换后的平均访问并发度矩阵Ξ′；

2.3从Ξ′中搜索各服务器的分布存储模式，具体为：

2.3a重新排列Ξ′中元素，使Ξ′的度最小，将重新排列后的Ξ′记为Ξ′'；

2.3b从Ξ′'的第1行开始，计算当前行x中非零元素长度L_x，x表示当前行的行号；

2.3c以Ξ′'当前行x中第一个非零元素为顶点，取大小为L_x×L_x的上三角矩阵U_x；

2.3d遍历当前上三角矩阵U_x中元素，找出最大元素，将该最大元素所对应的两个空间数据文件在第x个服务器上的分布存储模式值p_xij设为1，i和j为该最大元素在Ξ′中的行号和列号；然后，以该最大元素为顶点，重新取大小为L_x×L_x的上三角矩阵U_x，重复循环本步骤，直至找到Qx个空间数据文件存储于第x个服务器；循环终止即获得存储于第x个服务器的空间数据文件的分布存储模式P_x＝(p_xij)_N×N，Qx表示第x个服务器中存储的空间数据文件数量，该值根据存储器存储容量灵活设置；

2.3e根据分布存储模式P_x＝(p_xij)_N×N，从Ξ′'中删除存储于第x个服务器的所有空间数据文件所对应的行和列；

2.3f判断是否找到C个分布存储模式，若找到，结束，执行步骤2.4；否则，令x＝x+1，然后执行步骤2.3b；

2.4根据分布存储模式，将空间数据文件分布存储到各服务器；

步骤3，空间数据文件的平均访问连续度计算，本步骤进一步包括：

3.1抽取各服务器存储的空间数据文件的访问日志信息A_x和T_x，记为子访问日志信息；

对各服务器分别执行：

3.2以H个元素为一组分别对该服务器的T_x和A_x中元素顺次划分，获得若干子段T_xw和A_xw；H为用户访问空间数据文件时的浏览路径深度，通过预测获得；

3.3对存储于该服务器的任意两个空间数据文件，分别计算该两个空间数据文件在各子段T_xw上的平均访问时间差，所有子段T_xw上的平均访问时间差的平均值即该两个空间数据文件在该服务器上的平均访问间隔距离；同时，还分别计算该两个空间数据文件在各子段A_xw上的并发度，所有并发度的平均值即该两个空间数据文件在该服务器的平均访问并发度；

3.4该两个空间数据文件的平均访问并发度和平均访问间隔距离的比值，即平均访问连续度；

步骤4，空间数据文件的连续存储组织，本步骤进一步包括：

4.1根据空间数据文件大小和高效磁盘I/O需求，计算要连续存储在单个磁盘分片上的空间数据文件数量H₀；

对各服务器分别执行：

4.2初始化当前平均访问连续度序列，具体为：以服务器存储的任意空间数据文件为基准，获得基准空间数据文件和服务器存储的其他空间数据文件的平均访问连续度序列，即初始化的当前平均访问连续度序列；

4.3更新当前平均访问连续度序列，具体为：将当前平均访问连续度序列中最大值对应的空间数据文件序号记为nmax，以序号为nmax的空间数据文件为基准，重新获得基准空间数据文件和其他空间数据文件的平均访问连续度序列；

4.4从当前平均访问连续度序列中选择最大的(H-1)个元素，将该(H-1)个元素所对应的空间数据文件和序号为nmax的空间数据文件连续存储于服务器S_x的磁盘上，然后执行步骤4.5；

空间数据文件连续存储于服务器S_x的磁盘上，具体为：

按照与基准空间数据文件的平均访问连续度从大到小，对该(H-1)个元素所对应的空间数据文件和序号为nmax的空间数据文件进行排序，对排序后的空间数据文件以H₀个为一组进行分组，剩余不够1组的空间数据文件不分组，将所获得的各组空间数据文件连续存储于服务器S_x的不同磁盘分片上；

4.5将H个空间数据文件中，已连续存储的空间数据文件的平均访问连续度设置为0，返回步骤4.4继续执行，直至所有空间数据文件被连续存储或者未连续存储的空间数据文件数量小于H₀，若未连续存储的空间数据文件数量小于H₀，将这些剩余的空间数据文件储于同一磁盘分片。

子步骤1.2中，若A元素数量不是C的整倍数，丢弃A中排列最前面的部分元素，以使剩余元素数量为C的整倍数，之后再对A中元素进行顺次划分。

子步骤2.4具体为：

对各服务器的分布存储模式P_x＝(p_xij)_N×N分别执行：

从P_x＝(p_xij)_N×N中找到Qx行，且Qx中每行均存在至少1个元素不为0；将所找到的Qx行的行号作为标识，将标识对应的空间数据文件存储到该服务器。

子步骤3.1具体为：

对各服务器S_x分别执行：

初始化服务器S_x对应的子访问日志信息为A_x＝A＝(a₁,a₂,…,a_M)和T_x＝T＝(t₁,t₂,…,t_M)；

记服务器S_x的分布存储模式为P_x＝(p_xij)_N×N，遍历分布存储模式P_x＝(p_xij)_N×N的所有行，判断当前行是否存在非零元素，若不存在，将该行的行号作为目标标识，将A_x中和目标标识相同的元素删除，同时删除T_x中对应的元素；当所有行遍历完成，最后的A_x和T_x即服务器S_x的子访问日志信息。

子步骤3.3中，所述的平均访问时间差采用如下方法获得：

若两个空间数据文件f_n1和f_n2在子段T_xw上同时出现，将第β次出现的f_n1和f_n2作为一组，计算同组内f_n1和f_n2在子段T_xw上所出现的绝对时间的差值，所有组的绝对时间的差值的平均值即f_n1和f_n2的平均访问时间差；β＝1,2，…B，B为f_n1和f_n2在子段T_xw上出现次数中的较小值；

若f_n1和f_n2在子段T_xw上未出现或未同时出现，则f_n1和f_n2在子段T_xw上的平均访问时间差设为1。

子步骤4.1中，需要连续存储在单个磁盘分片上的空间数据文件数量

其中，

表示上取整，f_size为单个空间数据文件大小，d_size为磁盘分片存储空间大小。

二、考虑负载均衡与磁盘效率的空间数据存储组织系统，包括：

(1)空间数据平均访问并发度计算单元，用于基于空间数据文件同时被用户访问请求的次数统计，计算空间数据文件的平均访问并发度；

所述的空间数据平均访问并发度计算单元进一步包括：

访问日志信息记录模块，用于记录分布式地理信息系统中用户对空间数据文件的访问日志信息；

访问日志信息分段模块，用于根据分布式地理信息系统中服务器数量，将访问日志信息分成多个子段；

访问次数统计模块，用于统计各访问日志信息子段中各空间数据的访问次数；

平均访问并发度计算模块，用于根据从各访问日志信息子段统计得到的空间数据访问次数，计算空间数据文件的平均访问并发度；

(2)空间数据多数据中心存储分布单元，用于根据分布式地理信息系统负载均衡需求，按照空间数据文件的平均访问并发度，将空间数据文件分布存储到分布式地理信息系统的所有服务器；

所述的空间数据多数据中心存储分布单元进一步包括：

平均访问并发度矩阵生成模块，用于将空间数据文件的平均访问并发度组织成平均访问并发度矩阵；

平均访问并发度矩阵变换模块，用于将平均访问并发度矩阵进行最大最小转换；

平均访问并发度矩阵搜索模块，用于从转换后的平均访问并发度矩阵搜索空间数据文件的多数据中心分布存储模式；

多数据中心存储分布模块，用于利用多数据中心分布存储模式，将空间数据文件分布存储到分布式地理信息系统的所有服务器；

(3)平均访问连续度计算单元，用于根据空间数据文件夹同时被用户访问的平均访问并发度和平均访问间隔距离，统计计算空间数据文件的平均访问连续度；

所述的平均访问连续度计算单元进一步包括：

访问日志抽取模块，用于按照多数据中心分布存储模式从访问日志信息中抽取各服务器存储空间数据文件的子访问日志信息；

访问间隔计算模块，用于利用抽取的子访问日志信息计算空间数据文件的平均访问间隔距离；

平均访问连续度计算模块，用于利用平均访问并发度和平均访问间隔距离计算空间数据文件的平均访问连续度；

(4)连续存储组织单元，用于根据空间数据文件的平均访问连续度，将分布式地理信息服务器中的空间数据文件进行连续存储组织；

所述的连续存储组织单元进一步包括：

连续存储规模计算模块，用于根据空间数据大小和高效磁盘I/O需求，计算需要连续存储的空间数据文件数量；

连续度排序模块，用于以任意空间数据文件为基准，根据空间数据文件的平均访问连续度，对所有其它空间数据文件的连续度进行排序；

连续存储组织模块，用于将基准空间数据文件和按照空间数据文件连续存储规模及按照平均访问连续度高低选择的其它空间数据文件一起连续存储于分布地理信息系统服务器。

分布式地理信息系统中，为提高系统负载均衡性能，需要将被同时访问的空间数据分布存储；为提高磁盘存储效率，需要将被访问的空间数据合并存储；这样就导致用户访问服务的负载均衡要求和磁盘存储服务的并行读取要求之间的矛盾需求，单纯考虑负载均衡或磁盘存储效率，势必损害另一方面的性能。本发明则可解决该问题，利用空间数据的并发度，将同时访问的空间数据分布存储的同时，利用服务器内部空间数据的连续度，将需要连续访问的空间数据连续存储，以在满足负载均衡要求的同时，实现连续被访问空间数据的有效批量读取，保障了地理信息系统的存储效率，具有较好的工程实践性，适用于大规模分布式环境下地理信息系统。

本发明的有益效果为：

(1)本发明根据空间数据文件的并发度将同时被访问的空间数据文件分布存储在不同的服务器上，以实现热点数据的并行访问和服务，提高系统整体的负载均衡率；利用存储在相同服务器上的空间数据文件的连续度，将连续度高的空间数据文件连续存储在服务器的磁盘空间内，以实现空间数据从磁盘空间的有效批量读取，减少磁盘搜索和磁头移动，提高了存储系统的I/O效率。

(2)本项目受国家自然科学基金资助完成(基金号：41671382，41271398)。

附图说明

图1是本发明系统的整体结构示意图；

图2是本发明空间数据平均访问并发度计算单元的功能模块示意图；

图3是本发明空间数据多数据中心存储分布单元的功能模块示意图；

图4是本发明空间数据平均访问连续度计算单元的功能模块示意图；

图5是本发明空间数据连续存储组织单元的功能模块示意图；

图6是本发明方法的系统流程图。

具体实施方式

分布式地理信息系统在面对大规模用户访问时，由于磁盘的读取速度较慢，又为了避免服务器单点实效，提高系统整体服务性能等，需要将同时被访问的空间数据分布存储在不同的服务器，以提高负载均衡性能；同时，将连续访问的空间数据存储在存储器的连续磁盘空间，以减少磁头的搜索和移动，提高存储性能。而综合考虑地理信息系统的以上两个方面的要求进行空间数据进行分布存储组织，是满足分布式地理信息系统大规模用户访问服务性能的有效途径。

本发明设计了一种考虑负载均衡与磁盘效率的空间数据存储组织方法，通过将平均访问并发度高的数据分布存储于不同服务器，以保证负载均衡性能。同时，在同一个服务器内部，将平均访问连续度高的空间数据，根据存储效率进行连续存储组织，以减少磁头移动距离，提高存储效率。该方法能同时满足上层网络I/O和底层磁盘I/O的矛盾需求，且能根据当前分布式地理信息系统的运行，自动获得所需要的访问日志信息，从而实现根据数据属性、用户属性和地理信息系统服务器属性的动态调整。

以下对本发明技术方案的具体实施提供详细建议说明。

如图1所示，本发明系统包括空间数据平均访问并发度计算单元(100)、空间数据多数据中心存储分布单元(200)、空间数据平均访问连续度计算单元(300)和空间数据连续存储组织单元(400)。空间数据平均访问并发度计算单元(100)用于基于空间数据文件同时被用户访问请求的次数统计，计算空间数据文件的平均访问并发度。空间数据多数据中心存储分布单元(200)用于根据分布式地理信息系统负载均衡需求，按照空间数据的平均访问并发度，将空间数据均匀分布存储到分布式地理信息的所有服务器中。空间数据平均访问连续度计算单元(300)用于根据空间数据同时被用户访问的平均访问并发度和平均访问间隔距离统计，计算空间数据的平均访问连续度。空间数据连续存储组织单元(400)用于根据空间数据的平均访问连续度，将分布式地理信息服务器中的空间数据进行连续存储组织。

如图2所示，空间数据平均访问并发度计算单元(100)进一步包括访问日志信息记录模块(101)、访问日志信息分段模块(102)、访问次数统计模块(103)和平均访问并发度计算模块(104)。其中，访问日志信息记录模块(101)用于记录分布式地理信息系统中用户对空间数据的访问日志信息；访问日志信息分段模块(102)用于根据分布式地理信息系统中服务器的数量，将所记录的空间数据的访问日志信息分成多个子段；访问次数统计模块(103)用来统计各子段中各空间数据的访问次数；平均访问并发度计算模块(104)用来根据统计得到的各空间数据的访问次数，计算空间数据相互间的平均访问并发度。

如图3所示，空间数据多数据中心存储分布单元(200)进一步包括平均访问并发度矩阵生成模块(201)、平均访问并发度矩阵变换模块(202)、平均访问并发度矩阵搜索模块(203)和多数据中心存储分布模块(204)。其中，平均访问并发度矩阵生成模块(201)用来将平均访问并发度组织成平均访问并发度矩阵；平均访问并发度矩阵变换模块(202)用来将平均访问并发度矩阵进行最大最小转换；平均访问并发度矩阵搜索模块(203)用来从转换后的平均访问并发度矩阵搜索多数据中心分布存储模式；多数据中心存储分布模块(204)用来利用多数据中心空间数据分布存储模式将空间数据分布式的分布存储到地理信息系统的所有服务器。

如图4所示，空间数据平均访问连续度计算单元(300)进一步包括访问日志信息抽取模块(301)、访问间隔计算模块(302)和平均访问连续度计算模块(303)。其中，访问日志信息抽取模块(301)用来按照多数据中心分布存储模式，从访问日志信息中抽取各服务器存储的空间数据的子访问日志信息；访问间隔计算模块(302)用来利用抽取的子访问日志信息计算空间数据的平均访问间隔距离；平均访问连续度计算模块(303)用来利用空间数据的平均访问并发度和平均访问间隔距离，计算空间数据的平均访问连续度。

如图5所示，空间数据连续存储组织单元(400)进一步包括连续存储规模计算模块(401)、连续度排序模块(402)和连续存储组织模块(403)。其中，连续存储规模计算模块(401)用来根据空间数据大小和高效磁盘I/O需求，计算需要连续存储的空间数据数量；连续度排序模块(402)用来以任意空间数据为基准，根据平均访问连续度对所有其它空间数据的连续度进行排序；连续存储组织模块(403)用来将基准空间数据文件和按照空间数据文件连续存储规模及按照平均访问连续度高低选择的其它空间数据文件一起连续存储于地理信息系统服务器中。

如图6所示，本发明方法的具体实施过程的步骤如下。

(1)空间数据文件的平均访问并发度计算。

本步骤进一步包括：

①利用访问日志信息记录模块(101)，记录并获得分布式地理信息系统中用户对空间数据的访问日志信息。所述的访问日志信息为按照用户访问时间顺序记录且包含对应的空间数据文件索引。

设F＝{f₁,f₂,…,f_N}为存储的所有空间数据文件的集合，f_n表示第n个空间数据文件，n为空间数据文件的标识，n＝1,2，…N；N为空间数据文件的总数量。分布式地理信息系统按照时间顺序记录用户访问的空间数据文件的标识，并以A＝(a₁,a₂,…,a_M)的形式保存在内存中或以文件或数据库的形式保存在存储器中。其中，A中元素按照用户访问的实际时间顺序排列；a_m表示用户第m次访问的空间数据文件的标识，即用户第m次访问的空间数据文件为f_am，1≤a_m≤N；M表示用户访问的总次数。相应的，记录用户每次访问的绝对时间，并以T＝(t₁,t₂,…,t_M)的形式和A一起保存，t₂表示用户第m次访问空间数据文件的绝对时间。A和T作为用户访问分布式地理信息系统的访问日志信息。

②利用访问日志分段模块(102)，根据分布式地理信息系统中服务器的数量，将所记录的访问日志信息划分为多个子段。

设C是分布式地理信息系统中服务器总数。按照A中元素的顺序，以C个元素为一组对A中元素进行顺次划分，获得若干子段A＝{A₁,A₂,…,A_K}，其中，A_k＝{a_k1,a_k2,…,a_kC}，A_k表示第k个子段，k＝1,2，…K，K为子段的总数量；a_kc∈[1,N]，c＝1,2，…C。若A元素数量不是C的整倍数，丢弃A中排列最前面的部分元素，以使剩余元素数量为C的整倍数，之后再对A中元素进行分段。

参数C通过参数输入获得，参数输入方式包括但不限于文件、用户输入、网络发现等。

③利用访问次数统计模块(103)统计每个子段中每个空间数据文件的访问次数。

对任意子段A_k，若任意空间数据文件f_n在该子段中出现的次数为r_kn次，则r_kn为空间数据文件f_n在子段A_k上的访问次数。

④利用平均访问并发度计算模块(104)，根据从每个子段统计得到的各空间数据文件的访问次数，计算所有空间数据相互间的平均访问并发度。

对任意子段A_k，空间数据文件f_n1和f_n2在该子段A_k上的并发度ξ_k(n1,n2)为：

其中，r_kn1和r_kn2分别为空间数据文件f_n1和f_n2在子段A_k上的访问次数；n1∈[1,N]，n2∈[1,N]，且n1≠n2。

则对所有子段，空间数据文件f_n1和f_n2相互间的平均访问并发度ξ(n1,n2)为：

(2)空间数据文件的多数据中心存储分布

通过空间数据多数据中心存储分布单元(200)，根据分布式地理信息系统负载均衡需求，按照空间数据的平均访问并发度，将空间数据均匀分布存储到所有服务器中。

本步骤进一步包括：

①利用平均访问并发度矩阵生成模块(201)，将空间数据文件的平均访问并发度组织成平均访问并发度矩阵。

将所有空间数据文件相互间的平均访问并发度，按照式(3)组织成平均访问并发度矩阵Ξ：

其中，ξ(i,j)表示第i个和第j个空间数据文件间的平均访问并发度。

②利用平均访问并发度矩阵变换模块(202)，将平均访问并发度矩阵进行转换。

从平均访问并发度矩阵中找到最大的平均访问并发度，记为ξ_max；令平均访问并发度矩阵中ξ(1,1)＝ξ(2,2)＝…＝ξ(N,N)＝ξ_max，即令平均访问并发度矩阵中主对角线元素值为ξ_max。将ξ_max与平均访问并发度矩阵中每个元素均相减，得到转换后的平均访问并发度矩阵Ξ′：

显然，转换后，平均访问并发度越高的空间数据文件，其对应在转换后的平均访问并发度矩阵中元素值越小。反之，平均访问并发度越低的空间数据文件，其对应在转换后的平均访问并发度矩阵中的元素值越大。

③利用平均访问并发度矩阵搜索模块(203)，从转换后的平均访问并发度矩阵搜索多数据中心分布存储模式。

负载均衡的目标是实现每个服务器内存储的空间数据文件的平均访问并发度最小，即从转换后的平均访问并发度矩阵Ξ′中，找到Qx行和Qx列，且对应行和列的元素值之和最大。Qx为第x个服务器中存储的空间数据文件数量，该值可根据存储器存储容量灵活设置。该目标可转换为从转换后的平均访问并发度矩阵Ξ′中找到C个子矩阵，其行列元素之和最大。

本子步骤可采用现有的矩阵排列搜索法实现，具体过程如下：

3.1对Ξ′中元素重新排列，使得Ξ′的度最小，以减少搜索次数。将重新排列后的Ξ′记为Ξ′'，将空间数据文件的多数据中心分布存储模式记数器初始化为0。

3.2从Ξ′'第1行开始，计算当前行x中非零元素长度，即当前行中非零元素的数量，记为L_x。

3.3以Ξ′'中当前行x中第一个非零元素为顶点，取大小为L_x×L_x的上三角矩阵，记为U_x。

3.4遍历当前上三角矩阵U_x中元素，找出最大元素，将该最大元素所对应的两个空间数据文件在第x个服务器上的分布存储模式值p_xij设为1，i和j为该最大元素在Ξ′中的行号和列号；然后，以该最大元素为顶点，重新取大小为L_x×L_x的上三角矩阵U_x，重复循环本步骤，直至找到Qx个空间数据文件存储于第x个服务器；循环终止即获得存储于第x个服务器的Qx个空间数据文件的分布存储模式P_x＝(p_xij)_N×N，p_xij＝1则表示Ξ′中第i个和第j个空间数据文存储于第x个服务器上。分布存储模式P_x＝(p_xij)_N×N中，不存储于第x个服务器的空间数据文件，其对应的分布存储模式值缺省为0。

3.5根据所获得的第x个服务器的分布存储模式，从Ξ′'中删除存储于第x个服务器的所有空间数据文件所对应的行和列。

3.6多数据中心分布存储模式记数器加1。

3.7判断是否找到C个分布存储模式，若找到，则结束搜索，执行步骤3.8；否则，令x＝x+1，返回步骤3.2。

3.8输出所有服务器的分布存储模式，即多数据中心分布存储模式。

④利用多数据中心存储分布模块(204)，根据获得的多数据中心分布模式，将空间数据文件分布存储到分布式地理信息系统的所有服务器中。

本步骤具体为：

根据空间数据文件的分布存储模式P_x＝(p_xij)_N×N，其中，1≤x≤C，从分布存储模式中找到Qx行，且每行存在至少1个元素不为0；

将所找到的Qx行的行号作为标识，把标识对应的空间数据文件存储到第x个服务器中；

循环遍历处理所有空间数据文件的分布存储模式，将空间数据文件分布存储到分布式地理信息系统的所有服务器中。

(3)空间数据文件的平均访问连续度计算

通过空间数据平均访问连续度计算单元(300)，根据平均访问并发度和平均访问间隔距离，计算空间数据的平均访问连续度。

本步骤进一步包括；

①利用访问日志信息抽取模块(301)，按照多数据中心分布存储模式，从访问日志信息中抽取各服务器的子访问日志信息。

将分布式地理信息系统中任意服务器记为S_x，其分布存储模式记为P_x＝(p_xij)_N×N。初始化服务器S_x对应的子访问日志信息为A_x＝A＝(a₁,a₂,…,a_M)和T_x＝T＝(t₁,t₂,…,t_M)。

根据分布存储模式P_x＝(p_xij)_N×N，按照如下步骤遍历P_x的所有行：

判断当前行是否存在非零元素，若不存在，将该行的行号作为目标标识，将A_x中和目标标识相同的元素删除，同时删除T_x中对应的元素。

当所有行遍历完成，输出最终的A_x和T_x作为服务器S_x的子访问日志信息。

遍历所有服务器，输出所有服务器的子访问日志信息。

②利用访问间隔计算模块(302)，根据各服务器的子访问日志信息，计算空间数据文件的平均访问间隔距离。

对分布式地理信息系统中任意服务器S_x，其对应的子访问日志信息为A_x和T_x。按照T_x中元素顺序，以H个元素为一组对T_x中元素进行顺次划分，获得若干子段T_x＝{T_x1,T_x2,…,T_xW}，其中，T_xw表示第w个子段，T_xw＝{t_w1,t_w2,…,t_wH}，w＝1,2，…W，W为子段的总数量。若T_x元素数量不是H的整倍数，丢弃T_x中排列最前面的部分元素，以使剩余元素数量为H的整倍数，之后再对T_x中元素进行划分分段。

考察任意子段T_xw，空间数据文件f_n1和f_n2在子段T_xw上的平均访问时间差记为d_xw(n1,n2)，若空间数据文件f_n1和f_n2在子段T_xw上同时出现，则d_xw(n1,n2)通过两者在T_xw上的绝对时间相减得到，否则设d_xw(n1,n2)＝1。由此，则空间数据文件f_n1和f_n2在服务器S_x上的平均访问间隔距离λ_x(n1,n2)为：

参数H为用户访问空间数据文件时的浏览路径深度，即根据用户当前访问状态，预测得到的用户未来访问路径的最大步数。相关研究表明，H一般在5～10内取值。本发明中，H通过参数输入获得，参数输入方式包括但不限于文件、用户输入、函数参数等。

③利用平均访问连续度计算模块(303)，根据平均访问并发度和平均访问间隔距离，计算空间数据的平均访问连续度。

对分布式地理信息系统中任意服务器S_x，其对应的子访问日志信息为A_x和T_x，计算空间数据文件f_n1和f_n2在服务器S_x上的平均访问并发度ξ_x(n1,n2)：

计算ξ_x(n1,n2)时，先按照A_x中元素顺序，以H个元素为一组对A_x中元素进行顺次划分，获得若干子段A_x＝{A_x1,A_x2,…,A_xW},若A_x元素数量不是H的整倍数，丢弃A_x中排列最前面的部分元素，以使剩余元素数量为H的整倍数，之后再对A_x中元素进行划分分段。r_wn1和r_wn2分别为空间数据文件f_n1和f_n2在子段A_xw上的访问次数。

则空间数据文件f_n1和f_n2在服务器S_x上的平均访问连续度γ_x(n1,n2)为：

(4)空间数据文件的连续存储组织

通过空间数据连续存储组织单元(400)，根据空间数据文件的平均访问连续度，将分布式地理信息服务器中空间数据进行连续存储组织。

本步骤具体为：

①利用连续存储规模计算模块(401)，根据空间数据文件大小和高效磁盘I/O需求，计算需要连续存储的空间数据文件数量。

单个空间数据文件大小f_size可以自动检测文件大小获得。高效磁盘I/O需求指为减少磁盘读取数据的移动距离，并实现高效的磁盘空间利用，所采用的磁盘分片存储空间大小记为d_size。磁盘分片存储空间大小通过参数输入，参数输入方式包括但不限于文件、用户输入、函数参数等。

基于单个空间数据大小f_size和磁盘分片存储空间大小d_size，计算单片可以需要连续存储的空间数据文件数量

表示上取整。

②利用连续度排序模块(402)，以任意空间数据文件为基准，根据基准空间数据文件与其他空间数据文件的平均访问连续度，对所有其他空间数据文件进行排序。

对分布式地理信息系统中任意服务器S_x，得到存储在该服务器S_x上的任意空间数据文件f_n1和其它存储在该服务器S_x上的所有空间数据文件的平均访问连续度Γ_x(n1)为：

Γ_x(n1)＝(γ_x(n1,1),γ_x(n1,2),…,γ_x(n1,N)) (8)

设γ_x(n1,n1)＝0，按照从大到小的顺序对Γ_x(n1)中元素重新排序，并输出。同时记录重新排列后的空间数据文件序号。

③利用连续存储组织模块(403)，根据磁盘存储容量，将基准空间数据文件和按照连续度高低选择的其它空间数据一起连续存储于分布式地理信息系统服务器中。

对分布式地理信息系统中任意服务器S_x，按照如下步骤执行：

(a)从当前Γ_x(n1)中选择一个最大值，n＝1,2，…N，将该最大值对应的空间数据文件序号记为nmax；

(b)以序号为nmax的空间数据文件为基准，重新获得Γ_x(n1)，从Γ_x(n1)中选择前(H-1)个元素，将该(H-1)个元素对应的空间数据文件和序号为nmax的空间数据文件顺序存储于服务器S_x的磁盘上。具体的存储方法为：按照当前Γ_x(n1)中顺序，将获得的H个空间数据文件以H₀个为一组进行分组，剩余不够1组的空间数据文件不分组，将所获得的各组空间数据文件连续存储于服务器S_x的不同磁盘分片上；

(c)将连续存储的空间数据文件所对应的所有平均访问连续度设为0，返回步骤(a)，继续执行直至当前Γ_x(n1)中所有元素均为0或其中不为0的元素数量小于H₀，若当前Γ_x(n1)中不为0的元素数量小于H₀，将这些不为0元素所对应的空间数据文件存储于同一磁盘分片。

Claims

1.考虑负载均衡与磁盘效率的空间数据存储组织方法，其特征是，包括：

1.3统计各空间数据文件在各子段A_k上的访问次数；

所述的并发度采用如下方法计算：记任意两个空间数据文件为f_n1和f_n2，则f_n1和f_n2在子段A_k上的并发度r_kn1和r_kn2分别为f_n1和f_n2在子段A_k上的访问次数；

2.3从Ξ′中搜索各服务器的分布存储模式，具体为：

2.3a重新排列Ξ′中元素，使Ξ′的度最小，将重新排列后的Ξ′记为Ξ″；

2.3b从Ξ″的第1行开始，计算当前行x中非零元素长度L_x，x表示当前行的行号；

2.3c以Ξ″当前行x中第一个非零元素为顶点，取大小为L_x×L_x的上三角矩阵U_x；

2.3e根据分布存储模式P_x＝(p_xij)_N×N，从Ξ″中删除存储于第x个服务器的所有空间数据文件所对应的行和列；

对各服务器分别执行：

步骤4，空间数据文件的连续存储组织，本步骤进一步包括：

对各服务器分别执行：

空间数据文件连续存储于服务器S_x的磁盘上，具体为：

2.如权利要求1所述的考虑负载均衡与磁盘效率的空间数据存储组织方法，其特征是：

3.如权利要求1所述的考虑负载均衡与磁盘效率的空间数据存储组织方法，其特征是：

子步骤2.4具体为：

对各服务器的分布存储模式P_x＝(p_xij)_N×N分别执行：

4.如权利要求1所述的考虑负载均衡与磁盘效率的空间数据存储组织方法，其特征是：

子步骤3.1具体为：

对各服务器S_x分别执行：

5.如权利要求1所述的考虑负载均衡与磁盘效率的空间数据存储组织方法，其特征是：

子步骤3.3中，所述的平均访问时间差采用如下方法获得：

6.如权利要求1所述的考虑负载均衡与磁盘效率的空间数据存储组织方法，其特征是：

其中，

7.考虑负载均衡与磁盘效率的空间数据存储组织系统，其特征是，包括：

所述的空间数据平均访问并发度计算单元进一步包括：

所述的空间数据多数据中心存储分布单元进一步包括：

所述的平均访问连续度计算单元进一步包括：

所述的连续存储组织单元进一步包括：