CN106933511B - 考虑负载均衡与磁盘效率的空间数据存储组织方法及系统 - Google Patents

考虑负载均衡与磁盘效率的空间数据存储组织方法及系统 Download PDF

Info

Publication number
CN106933511B
CN106933511B CN201710109179.8A CN201710109179A CN106933511B CN 106933511 B CN106933511 B CN 106933511B CN 201710109179 A CN201710109179 A CN 201710109179A CN 106933511 B CN106933511 B CN 106933511B
Authority
CN
China
Prior art keywords
spatial data
data files
average access
access
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710109179.8A
Other languages
English (en)
Other versions
CN106933511A (zh
Inventor
潘少明
种衍文
李红
汤戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201710109179.8A priority Critical patent/CN106933511B/zh
Publication of CN106933511A publication Critical patent/CN106933511A/zh
Application granted granted Critical
Publication of CN106933511B publication Critical patent/CN106933511B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers

Abstract

本发明公开了一种考虑负载均衡与磁盘效率的空间数据存储组织方法及系统,包括:根据空间数据文件被用户访问请求的次数,统计空间数据文件的平均访问并发度;根据分布式地理信息系统负载均衡需求,按照平均访问并发度,将空间数据文件分布存储到分布式地理信息系统服务器;根据空间数据文件的平均访问并发度和平均访问间隔距离,计算空间数据文件的平均访问连续度;根据空间数据文件的平均访问连续度,将相同服务器中的空间数据文件进行连续存储组织。本发明在满足负载均衡要求的同时,实现连续被访问空间数据的有效批量读取,保障了地理信息系统的存储效率。本项目受国家自然科学基金资助完成(基金号:41671382,41271398)。

Description

考虑负载均衡与磁盘效率的空间数据存储组织方法及系统
技术领域
本发明属于空间数据存储组织技术领域,特别是涉及一种考虑负载均衡与磁盘效率的空间数据存储组织方法及系统。
背景技术
地理信息系统在城市规划、环境监测以及防灾减灾等领域的应用也越来越普及,需要着重解决由于用户的密集访问所带来的无限带宽需求(Infinite Bandwidth)、无限容量需求(Infinite Capacity)以及无限处理能力需求(Infinite ProcessingCapability),分布式系统为海量空间数据提供存储和访问服务成为解决上述问题的有效途径之一。目前传统的网络地理信息系统,如NASA WorldWind等,通常采用数据驱动的空间数据存储组织方法,其主要是利用数据本身的固有特性(位置、属性)对数据进行分布存储,该方法的一个显著优点是查找索引效率较高,但其也存在用户访问需求匹配度不够、部分存储节点热度高、访问服务排队长、负载不均衡等问题。
在信息处理领域,针对数据的分布存储等研究相对较多,相应算法策略包括动态布局策略、SP策略及PB策略、数据融合(合并)与数据分块技术以及K-means聚类等[1~3]。其中动态布局策略在每次数据访问请求之后更新现有数据布局,以实时优化数据布局;SP策略及PB策略通过最小化服务时间方差实现负载均衡;而K-means聚类则通过两阶段算法动态部署数据集,使每个数据中心处理的计算数都非常接近。但这些算法大部分都是针对专门的应用系统,或者为了计算的负载均衡进行设计,或者其布局更新策略难以满足“大数据”的应用需求。
专门针对空间数据的组织策略则包括基于概率潜语义分析(PLSA)[4]和基于特征匹配[5]的小文件合并策略,以及基于并发访问的数据分布算法(APSA)[6]等,前两者主要通过数据合并存储和组织,实现数据从存储节点的连续批量读取,重点考虑的是磁盘I/O效率。后者则利用访问相关性分布存储和组织数据,实现对数据并发访问和系统的负载均衡,重点考虑的是网络I/O效率,但上述算法策略都只考虑了空间数据存储组织在某一个层面的局部要求,缺乏全局协同。
总之,现有的单纯从提高地理信息系统并发能力的角度分布存储空间数据的方法或通过合并存储提高空间数据连续读取效率的方法,都不能同时满足地理信息系统负载均衡需求和高效磁盘I/O需求。
文中涉及如下参考文献:
[1]Qin X,Jiang H,Manzanares A,Ruan X,Yin S.Dynamic load balancing forI/O-intensive applications on clusters.ACM Transactions on Storage,2009,5(3):300–309;
[2]Brinkmann A,Effert S,Scheideler C.Dynamic and redundant dataplacement.In:Proceedings of the 27th international conference on distributedcomputing systems(ICDCS’07),2007,Toronto,pp 29–39;
[3]Dong B,Zheng QH,Tian F,Chao KM,Ma R,Anane R.An optimized approachfor storing and accessing small files on cloud storage.Journal of Network andComputer Application,2012,35:1847–1862.
[4]王涛,姚士红,徐正全,熊炼.云存储中面向访问任务的小文件合并与预取策略.武汉大学学报(信息科学版),2013,38(12):1504-1508.
[5]熊炼,徐正全,王涛,顾鑫.云环境下的时空数据小文件存储策略.武汉大学学报(信息科学版),2014,39(10):1252-1256.
[6]Pan S,Li Y,Xu Z,Chong Y.Distributed Storage Algorithm forGeospatial Image Data Based on Data Access Patterns.PLoS ONE,2015,10(7):e0133029.doi:10.1371/journal.pone.0133029.
发明内容
本发明的目的是提供一种考虑负载均衡与磁盘效率的空间数据存储组织方法及系统。
本发明思路为:
首先,按照分布式地理信息系统服务器数量长度,对空间数据的访问日志信息进行分段。然后,统计各子段内空间数据访问次数,以计算空间数据相互间的平均访问并发度。最后,按照平均访问并发度将热点空间数据分布存储于分布式地理信息系统的不同服务器,以提高分布式地理信息系统的整体负载均衡性能。与此同时,对各服务器中空间数据,从空间数据的访问日志信息中抽取属于该服务器的子访问日志信息,并依照子访问日志信息计算空间数据的平均访问连续度;根据平均访问连续度、存储效率、空间数据大小,计算连续存储的空间数据数量,将每个服务器中的空间数据进行连续存储组织,以提高空间数据的服务器磁盘I/O效率。
本发明技术方案如下:
一、考虑负载均衡与磁盘效率的空间数据存储组织方法,包括:
步骤1,空间数据文件的平均访问并发度计算,本步骤进一步包括:
1.1从分布式地理信息系统中获得用户对空间数据文件的访问日志信息A=(a1,a2,…,aM)和T=(t1,t2,…,tM),am和tm分别表示用户第m次访问的空间数据文件的标识和访问绝对时间,m=1,2,...M,M为用户访问的总次数;
1.2记分布式地理信息系统中服务器数量为C,以C个元素为一组对A中元素顺次划分,获得若干子段Ak
1.3统计各空间数据文件在各子段Ak上的访问次数;
1.4对任意两个空间数据文件,分别计算该两个空间数据文件在各子段Ak上的并发度,所有并发度的平均值即该两个空间数据文件间的平均访问并发度;
所述的并发度采用如下方法计算:记任意两个空间数据文件为fn1和fn2,则fn1和fn2在子段Ak上的并发度
Figure BDA0001233944500000031
rkn1和rkn2分别为fn1和fn2在子段Ak上的访问次数;
步骤2,空间数据文件的多数据中心存储分布,本步骤进一步包括:
2.1将步骤1所得的平均访问并发度构建成平均访问并发度矩阵Ξ,Ξ中第i行第j列的元素即第i个和第j个空间数据文件间的平均访问并发度;
2.2从Ξ中找到最大的平均访问并发度ξmax,令Ξ中主对角线元素值为ξmax;构建与Ξ大小相同的最大平均访问并发度矩阵,其中所有元素值均为ξmax;最大平均访问并发度矩阵减去Ξ,得转换后的平均访问并发度矩阵Ξ′;
2.3从Ξ′中搜索各服务器的分布存储模式,具体为:
2.3a重新排列Ξ′中元素,使Ξ′的度最小,将重新排列后的Ξ′记为Ξ′';
2.3b从Ξ′'的第1行开始,计算当前行x中非零元素长度Lx,x表示当前行的行号;
2.3c以Ξ′'当前行x中第一个非零元素为顶点,取大小为Lx×Lx的上三角矩阵Ux
2.3d遍历当前上三角矩阵Ux中元素,找出最大元素,将该最大元素所对应的两个空间数据文件在第x个服务器上的分布存储模式值pxij设为1,i和j为该最大元素在Ξ′中的行号和列号;然后,以该最大元素为顶点,重新取大小为Lx×Lx的上三角矩阵Ux,重复循环本步骤,直至找到Qx个空间数据文件存储于第x个服务器;循环终止即获得存储于第x个服务器的空间数据文件的分布存储模式Px=(pxij)N×N,Qx表示第x个服务器中存储的空间数据文件数量,该值根据存储器存储容量灵活设置;
2.3e根据分布存储模式Px=(pxij)N×N,从Ξ′'中删除存储于第x个服务器的所有空间数据文件所对应的行和列;
2.3f判断是否找到C个分布存储模式,若找到,结束,执行步骤2.4;否则,令x=x+1,然后执行步骤2.3b;
2.4根据分布存储模式,将空间数据文件分布存储到各服务器;
步骤3,空间数据文件的平均访问连续度计算,本步骤进一步包括:
3.1抽取各服务器存储的空间数据文件的访问日志信息Ax和Tx,记为子访问日志信息;
对各服务器分别执行:
3.2以H个元素为一组分别对该服务器的Tx和Ax中元素顺次划分,获得若干子段Txw和Axw;H为用户访问空间数据文件时的浏览路径深度,通过预测获得;
3.3对存储于该服务器的任意两个空间数据文件,分别计算该两个空间数据文件在各子段Txw上的平均访问时间差,所有子段Txw上的平均访问时间差的平均值即该两个空间数据文件在该服务器上的平均访问间隔距离;同时,还分别计算该两个空间数据文件在各子段Axw上的并发度,所有并发度的平均值即该两个空间数据文件在该服务器的平均访问并发度;
3.4该两个空间数据文件的平均访问并发度和平均访问间隔距离的比值,即平均访问连续度;
步骤4,空间数据文件的连续存储组织,本步骤进一步包括:
4.1根据空间数据文件大小和高效磁盘I/O需求,计算要连续存储在单个磁盘分片上的空间数据文件数量H0
对各服务器分别执行:
4.2初始化当前平均访问连续度序列,具体为:以服务器存储的任意空间数据文件为基准,获得基准空间数据文件和服务器存储的其他空间数据文件的平均访问连续度序列,即初始化的当前平均访问连续度序列;
4.3更新当前平均访问连续度序列,具体为:将当前平均访问连续度序列中最大值对应的空间数据文件序号记为nmax,以序号为nmax的空间数据文件为基准,重新获得基准空间数据文件和其他空间数据文件的平均访问连续度序列;
4.4从当前平均访问连续度序列中选择最大的(H-1)个元素,将该(H-1)个元素所对应的空间数据文件和序号为nmax的空间数据文件连续存储于服务器Sx的磁盘上,然后执行步骤4.5;
空间数据文件连续存储于服务器Sx的磁盘上,具体为:
按照与基准空间数据文件的平均访问连续度从大到小,对该(H-1)个元素所对应的空间数据文件和序号为nmax的空间数据文件进行排序,对排序后的空间数据文件以H0个为一组进行分组,剩余不够1组的空间数据文件不分组,将所获得的各组空间数据文件连续存储于服务器Sx的不同磁盘分片上;
4.5将H个空间数据文件中,已连续存储的空间数据文件的平均访问连续度设置为0,返回步骤4.4继续执行,直至所有空间数据文件被连续存储或者未连续存储的空间数据文件数量小于H0,若未连续存储的空间数据文件数量小于H0,将这些剩余的空间数据文件储于同一磁盘分片。
子步骤1.2中,若A元素数量不是C的整倍数,丢弃A中排列最前面的部分元素,以使剩余元素数量为C的整倍数,之后再对A中元素进行顺次划分。
子步骤2.4具体为:
对各服务器的分布存储模式Px=(pxij)N×N分别执行:
从Px=(pxij)N×N中找到Qx行,且Qx中每行均存在至少1个元素不为0;将所找到的Qx行的行号作为标识,将标识对应的空间数据文件存储到该服务器。
子步骤3.1具体为:
对各服务器Sx分别执行:
初始化服务器Sx对应的子访问日志信息为Ax=A=(a1,a2,…,aM)和Tx=T=(t1,t2,…,tM);
记服务器Sx的分布存储模式为Px=(pxij)N×N,遍历分布存储模式Px=(pxij)N×N的所有行,判断当前行是否存在非零元素,若不存在,将该行的行号作为目标标识,将Ax中和目标标识相同的元素删除,同时删除Tx中对应的元素;当所有行遍历完成,最后的Ax和Tx即服务器Sx的子访问日志信息。
子步骤3.3中,所述的平均访问时间差采用如下方法获得:
若两个空间数据文件fn1和fn2在子段Txw上同时出现,将第β次出现的fn1和fn2作为一组,计算同组内fn1和fn2在子段Txw上所出现的绝对时间的差值,所有组的绝对时间的差值的平均值即fn1和fn2的平均访问时间差;β=1,2,…B,B为fn1和fn2在子段Txw上出现次数中的较小值;
若fn1和fn2在子段Txw上未出现或未同时出现,则fn1和fn2在子段Txw上的平均访问时间差设为1。
子步骤4.1中,需要连续存储在单个磁盘分片上的空间数据文件数量
Figure BDA0001233944500000061
其中,
Figure BDA0001233944500000062
表示上取整,fsize为单个空间数据文件大小,dsize为磁盘分片存储空间大小。
二、考虑负载均衡与磁盘效率的空间数据存储组织系统,包括:
(1)空间数据平均访问并发度计算单元,用于基于空间数据文件同时被用户访问请求的次数统计,计算空间数据文件的平均访问并发度;
所述的空间数据平均访问并发度计算单元进一步包括:
访问日志信息记录模块,用于记录分布式地理信息系统中用户对空间数据文件的访问日志信息;
访问日志信息分段模块,用于根据分布式地理信息系统中服务器数量,将访问日志信息分成多个子段;
访问次数统计模块,用于统计各访问日志信息子段中各空间数据的访问次数;
平均访问并发度计算模块,用于根据从各访问日志信息子段统计得到的空间数据访问次数,计算空间数据文件的平均访问并发度;
(2)空间数据多数据中心存储分布单元,用于根据分布式地理信息系统负载均衡需求,按照空间数据文件的平均访问并发度,将空间数据文件分布存储到分布式地理信息系统的所有服务器;
所述的空间数据多数据中心存储分布单元进一步包括:
平均访问并发度矩阵生成模块,用于将空间数据文件的平均访问并发度组织成平均访问并发度矩阵;
平均访问并发度矩阵变换模块,用于将平均访问并发度矩阵进行最大最小转换;
平均访问并发度矩阵搜索模块,用于从转换后的平均访问并发度矩阵搜索空间数据文件的多数据中心分布存储模式;
多数据中心存储分布模块,用于利用多数据中心分布存储模式,将空间数据文件分布存储到分布式地理信息系统的所有服务器;
(3)平均访问连续度计算单元,用于根据空间数据文件夹同时被用户访问的平均访问并发度和平均访问间隔距离,统计计算空间数据文件的平均访问连续度;
所述的平均访问连续度计算单元进一步包括:
访问日志抽取模块,用于按照多数据中心分布存储模式从访问日志信息中抽取各服务器存储空间数据文件的子访问日志信息;
访问间隔计算模块,用于利用抽取的子访问日志信息计算空间数据文件的平均访问间隔距离;
平均访问连续度计算模块,用于利用平均访问并发度和平均访问间隔距离计算空间数据文件的平均访问连续度;
(4)连续存储组织单元,用于根据空间数据文件的平均访问连续度,将分布式地理信息服务器中的空间数据文件进行连续存储组织;
所述的连续存储组织单元进一步包括:
连续存储规模计算模块,用于根据空间数据大小和高效磁盘I/O需求,计算需要连续存储的空间数据文件数量;
连续度排序模块,用于以任意空间数据文件为基准,根据空间数据文件的平均访问连续度,对所有其它空间数据文件的连续度进行排序;
连续存储组织模块,用于将基准空间数据文件和按照空间数据文件连续存储规模及按照平均访问连续度高低选择的其它空间数据文件一起连续存储于分布地理信息系统服务器。
分布式地理信息系统中,为提高系统负载均衡性能,需要将被同时访问的空间数据分布存储;为提高磁盘存储效率,需要将被访问的空间数据合并存储;这样就导致用户访问服务的负载均衡要求和磁盘存储服务的并行读取要求之间的矛盾需求,单纯考虑负载均衡或磁盘存储效率,势必损害另一方面的性能。本发明则可解决该问题,利用空间数据的并发度,将同时访问的空间数据分布存储的同时,利用服务器内部空间数据的连续度,将需要连续访问的空间数据连续存储,以在满足负载均衡要求的同时,实现连续被访问空间数据的有效批量读取,保障了地理信息系统的存储效率,具有较好的工程实践性,适用于大规模分布式环境下地理信息系统。
本发明的有益效果为:
(1)本发明根据空间数据文件的并发度将同时被访问的空间数据文件分布存储在不同的服务器上,以实现热点数据的并行访问和服务,提高系统整体的负载均衡率;利用存储在相同服务器上的空间数据文件的连续度,将连续度高的空间数据文件连续存储在服务器的磁盘空间内,以实现空间数据从磁盘空间的有效批量读取,减少磁盘搜索和磁头移动,提高了存储系统的I/O效率。
(2)本项目受国家自然科学基金资助完成(基金号:41671382,41271398)。
附图说明
图1是本发明系统的整体结构示意图;
图2是本发明空间数据平均访问并发度计算单元的功能模块示意图;
图3是本发明空间数据多数据中心存储分布单元的功能模块示意图;
图4是本发明空间数据平均访问连续度计算单元的功能模块示意图;
图5是本发明空间数据连续存储组织单元的功能模块示意图;
图6是本发明方法的系统流程图。
具体实施方式
分布式地理信息系统在面对大规模用户访问时,由于磁盘的读取速度较慢,又为了避免服务器单点实效,提高系统整体服务性能等,需要将同时被访问的空间数据分布存储在不同的服务器,以提高负载均衡性能;同时,将连续访问的空间数据存储在存储器的连续磁盘空间,以减少磁头的搜索和移动,提高存储性能。而综合考虑地理信息系统的以上两个方面的要求进行空间数据进行分布存储组织,是满足分布式地理信息系统大规模用户访问服务性能的有效途径。
本发明设计了一种考虑负载均衡与磁盘效率的空间数据存储组织方法,通过将平均访问并发度高的数据分布存储于不同服务器,以保证负载均衡性能。同时,在同一个服务器内部,将平均访问连续度高的空间数据,根据存储效率进行连续存储组织,以减少磁头移动距离,提高存储效率。该方法能同时满足上层网络I/O和底层磁盘I/O的矛盾需求,且能根据当前分布式地理信息系统的运行,自动获得所需要的访问日志信息,从而实现根据数据属性、用户属性和地理信息系统服务器属性的动态调整。
以下对本发明技术方案的具体实施提供详细建议说明。
如图1所示,本发明系统包括空间数据平均访问并发度计算单元(100)、空间数据多数据中心存储分布单元(200)、空间数据平均访问连续度计算单元(300)和空间数据连续存储组织单元(400)。空间数据平均访问并发度计算单元(100)用于基于空间数据文件同时被用户访问请求的次数统计,计算空间数据文件的平均访问并发度。空间数据多数据中心存储分布单元(200)用于根据分布式地理信息系统负载均衡需求,按照空间数据的平均访问并发度,将空间数据均匀分布存储到分布式地理信息的所有服务器中。空间数据平均访问连续度计算单元(300)用于根据空间数据同时被用户访问的平均访问并发度和平均访问间隔距离统计,计算空间数据的平均访问连续度。空间数据连续存储组织单元(400)用于根据空间数据的平均访问连续度,将分布式地理信息服务器中的空间数据进行连续存储组织。
如图2所示,空间数据平均访问并发度计算单元(100)进一步包括访问日志信息记录模块(101)、访问日志信息分段模块(102)、访问次数统计模块(103)和平均访问并发度计算模块(104)。其中,访问日志信息记录模块(101)用于记录分布式地理信息系统中用户对空间数据的访问日志信息;访问日志信息分段模块(102)用于根据分布式地理信息系统中服务器的数量,将所记录的空间数据的访问日志信息分成多个子段;访问次数统计模块(103)用来统计各子段中各空间数据的访问次数;平均访问并发度计算模块(104)用来根据统计得到的各空间数据的访问次数,计算空间数据相互间的平均访问并发度。
如图3所示,空间数据多数据中心存储分布单元(200)进一步包括平均访问并发度矩阵生成模块(201)、平均访问并发度矩阵变换模块(202)、平均访问并发度矩阵搜索模块(203)和多数据中心存储分布模块(204)。其中,平均访问并发度矩阵生成模块(201)用来将平均访问并发度组织成平均访问并发度矩阵;平均访问并发度矩阵变换模块(202)用来将平均访问并发度矩阵进行最大最小转换;平均访问并发度矩阵搜索模块(203)用来从转换后的平均访问并发度矩阵搜索多数据中心分布存储模式;多数据中心存储分布模块(204)用来利用多数据中心空间数据分布存储模式将空间数据分布式的分布存储到地理信息系统的所有服务器。
如图4所示,空间数据平均访问连续度计算单元(300)进一步包括访问日志信息抽取模块(301)、访问间隔计算模块(302)和平均访问连续度计算模块(303)。其中,访问日志信息抽取模块(301)用来按照多数据中心分布存储模式,从访问日志信息中抽取各服务器存储的空间数据的子访问日志信息;访问间隔计算模块(302)用来利用抽取的子访问日志信息计算空间数据的平均访问间隔距离;平均访问连续度计算模块(303)用来利用空间数据的平均访问并发度和平均访问间隔距离,计算空间数据的平均访问连续度。
如图5所示,空间数据连续存储组织单元(400)进一步包括连续存储规模计算模块(401)、连续度排序模块(402)和连续存储组织模块(403)。其中,连续存储规模计算模块(401)用来根据空间数据大小和高效磁盘I/O需求,计算需要连续存储的空间数据数量;连续度排序模块(402)用来以任意空间数据为基准,根据平均访问连续度对所有其它空间数据的连续度进行排序;连续存储组织模块(403)用来将基准空间数据文件和按照空间数据文件连续存储规模及按照平均访问连续度高低选择的其它空间数据文件一起连续存储于地理信息系统服务器中。
如图6所示,本发明方法的具体实施过程的步骤如下。
(1)空间数据文件的平均访问并发度计算。
本步骤进一步包括:
①利用访问日志信息记录模块(101),记录并获得分布式地理信息系统中用户对空间数据的访问日志信息。所述的访问日志信息为按照用户访问时间顺序记录且包含对应的空间数据文件索引。
设F={f1,f2,…,fN}为存储的所有空间数据文件的集合,fn表示第n个空间数据文件,n为空间数据文件的标识,n=1,2,…N;N为空间数据文件的总数量。分布式地理信息系统按照时间顺序记录用户访问的空间数据文件的标识,并以A=(a1,a2,…,aM)的形式保存在内存中或以文件或数据库的形式保存在存储器中。其中,A中元素按照用户访问的实际时间顺序排列;am表示用户第m次访问的空间数据文件的标识,即用户第m次访问的空间数据文件为fam,1≤am≤N;M表示用户访问的总次数。相应的,记录用户每次访问的绝对时间,并以T=(t1,t2,…,tM)的形式和A一起保存,t2表示用户第m次访问空间数据文件的绝对时间。A和T作为用户访问分布式地理信息系统的访问日志信息。
②利用访问日志分段模块(102),根据分布式地理信息系统中服务器的数量,将所记录的访问日志信息划分为多个子段。
设C是分布式地理信息系统中服务器总数。按照A中元素的顺序,以C个元素为一组对A中元素进行顺次划分,获得若干子段A={A1,A2,…,AK},其中,Ak={ak1,ak2,…,akC},Ak表示第k个子段,k=1,2,…K,K为子段的总数量;akc∈[1,N],c=1,2,…C。若A元素数量不是C的整倍数,丢弃A中排列最前面的部分元素,以使剩余元素数量为C的整倍数,之后再对A中元素进行分段。
参数C通过参数输入获得,参数输入方式包括但不限于文件、用户输入、网络发现等。
③利用访问次数统计模块(103)统计每个子段中每个空间数据文件的访问次数。
对任意子段Ak,若任意空间数据文件fn在该子段中出现的次数为rkn次,则rkn为空间数据文件fn在子段Ak上的访问次数。
④利用平均访问并发度计算模块(104),根据从每个子段统计得到的各空间数据文件的访问次数,计算所有空间数据相互间的平均访问并发度。
对任意子段Ak,空间数据文件fn1和fn2在该子段Ak上的并发度ξk(n1,n2)为:
其中,rkn1和rkn2分别为空间数据文件fn1和fn2在子段Ak上的访问次数;n1∈[1,N],n2∈[1,N],且n1≠n2。
则对所有子段,空间数据文件fn1和fn2相互间的平均访问并发度ξ(n1,n2)为:
Figure BDA0001233944500000112
(2)空间数据文件的多数据中心存储分布
通过空间数据多数据中心存储分布单元(200),根据分布式地理信息系统负载均衡需求,按照空间数据的平均访问并发度,将空间数据均匀分布存储到所有服务器中。
本步骤进一步包括:
①利用平均访问并发度矩阵生成模块(201),将空间数据文件的平均访问并发度组织成平均访问并发度矩阵。
将所有空间数据文件相互间的平均访问并发度,按照式(3)组织成平均访问并发度矩阵Ξ:
Figure BDA0001233944500000113
其中,ξ(i,j)表示第i个和第j个空间数据文件间的平均访问并发度。
②利用平均访问并发度矩阵变换模块(202),将平均访问并发度矩阵进行转换。
从平均访问并发度矩阵中找到最大的平均访问并发度,记为ξmax;令平均访问并发度矩阵中ξ(1,1)=ξ(2,2)=…=ξ(N,N)=ξmax,即令平均访问并发度矩阵中主对角线元素值为ξmax。将ξmax与平均访问并发度矩阵中每个元素均相减,得到转换后的平均访问并发度矩阵Ξ′:
Figure BDA0001233944500000121
显然,转换后,平均访问并发度越高的空间数据文件,其对应在转换后的平均访问并发度矩阵中元素值越小。反之,平均访问并发度越低的空间数据文件,其对应在转换后的平均访问并发度矩阵中的元素值越大。
③利用平均访问并发度矩阵搜索模块(203),从转换后的平均访问并发度矩阵搜索多数据中心分布存储模式。
负载均衡的目标是实现每个服务器内存储的空间数据文件的平均访问并发度最小,即从转换后的平均访问并发度矩阵Ξ′中,找到Qx行和Qx列,且对应行和列的元素值之和最大。Qx为第x个服务器中存储的空间数据文件数量,该值可根据存储器存储容量灵活设置。该目标可转换为从转换后的平均访问并发度矩阵Ξ′中找到C个子矩阵,其行列元素之和最大。
本子步骤可采用现有的矩阵排列搜索法实现,具体过程如下:
3.1对Ξ′中元素重新排列,使得Ξ′的度最小,以减少搜索次数。将重新排列后的Ξ′记为Ξ′',将空间数据文件的多数据中心分布存储模式记数器初始化为0。
3.2从Ξ′'第1行开始,计算当前行x中非零元素长度,即当前行中非零元素的数量,记为Lx
3.3以Ξ′'中当前行x中第一个非零元素为顶点,取大小为Lx×Lx的上三角矩阵,记为Ux
3.4遍历当前上三角矩阵Ux中元素,找出最大元素,将该最大元素所对应的两个空间数据文件在第x个服务器上的分布存储模式值pxij设为1,i和j为该最大元素在Ξ′中的行号和列号;然后,以该最大元素为顶点,重新取大小为Lx×Lx的上三角矩阵Ux,重复循环本步骤,直至找到Qx个空间数据文件存储于第x个服务器;循环终止即获得存储于第x个服务器的Qx个空间数据文件的分布存储模式Px=(pxij)N×N,pxij=1则表示Ξ′中第i个和第j个空间数据文存储于第x个服务器上。分布存储模式Px=(pxij)N×N中,不存储于第x个服务器的空间数据文件,其对应的分布存储模式值缺省为0。
3.5根据所获得的第x个服务器的分布存储模式,从Ξ′'中删除存储于第x个服务器的所有空间数据文件所对应的行和列。
3.6多数据中心分布存储模式记数器加1。
3.7判断是否找到C个分布存储模式,若找到,则结束搜索,执行步骤3.8;否则,令x=x+1,返回步骤3.2。
3.8输出所有服务器的分布存储模式,即多数据中心分布存储模式。
④利用多数据中心存储分布模块(204),根据获得的多数据中心分布模式,将空间数据文件分布存储到分布式地理信息系统的所有服务器中。
本步骤具体为:
根据空间数据文件的分布存储模式Px=(pxij)N×N,其中,1≤x≤C,从分布存储模式中找到Qx行,且每行存在至少1个元素不为0;
将所找到的Qx行的行号作为标识,把标识对应的空间数据文件存储到第x个服务器中;
循环遍历处理所有空间数据文件的分布存储模式,将空间数据文件分布存储到分布式地理信息系统的所有服务器中。
(3)空间数据文件的平均访问连续度计算
通过空间数据平均访问连续度计算单元(300),根据平均访问并发度和平均访问间隔距离,计算空间数据的平均访问连续度。
本步骤进一步包括;
①利用访问日志信息抽取模块(301),按照多数据中心分布存储模式,从访问日志信息中抽取各服务器的子访问日志信息。
将分布式地理信息系统中任意服务器记为Sx,其分布存储模式记为Px=(pxij)N×N。初始化服务器Sx对应的子访问日志信息为Ax=A=(a1,a2,…,aM)和Tx=T=(t1,t2,…,tM)。
根据分布存储模式Px=(pxij)N×N,按照如下步骤遍历Px的所有行:
判断当前行是否存在非零元素,若不存在,将该行的行号作为目标标识,将Ax中和目标标识相同的元素删除,同时删除Tx中对应的元素。
当所有行遍历完成,输出最终的Ax和Tx作为服务器Sx的子访问日志信息。
遍历所有服务器,输出所有服务器的子访问日志信息。
②利用访问间隔计算模块(302),根据各服务器的子访问日志信息,计算空间数据文件的平均访问间隔距离。
对分布式地理信息系统中任意服务器Sx,其对应的子访问日志信息为Ax和Tx。按照Tx中元素顺序,以H个元素为一组对Tx中元素进行顺次划分,获得若干子段Tx={Tx1,Tx2,…,TxW},其中,Txw表示第w个子段,Txw={tw1,tw2,…,twH},w=1,2,…W,W为子段的总数量。若Tx元素数量不是H的整倍数,丢弃Tx中排列最前面的部分元素,以使剩余元素数量为H的整倍数,之后再对Tx中元素进行划分分段。
考察任意子段Txw,空间数据文件fn1和fn2在子段Txw上的平均访问时间差记为dxw(n1,n2),若空间数据文件fn1和fn2在子段Txw上同时出现,则dxw(n1,n2)通过两者在Txw上的绝对时间相减得到,否则设dxw(n1,n2)=1。由此,则空间数据文件fn1和fn2在服务器Sx上的平均访问间隔距离λx(n1,n2)为:
Figure BDA0001233944500000141
参数H为用户访问空间数据文件时的浏览路径深度,即根据用户当前访问状态,预测得到的用户未来访问路径的最大步数。相关研究表明,H一般在5~10内取值。本发明中,H通过参数输入获得,参数输入方式包括但不限于文件、用户输入、函数参数等。
③利用平均访问连续度计算模块(303),根据平均访问并发度和平均访问间隔距离,计算空间数据的平均访问连续度。
对分布式地理信息系统中任意服务器Sx,其对应的子访问日志信息为Ax和Tx,计算空间数据文件fn1和fn2在服务器Sx上的平均访问并发度ξx(n1,n2):
Figure BDA0001233944500000142
计算ξx(n1,n2)时,先按照Ax中元素顺序,以H个元素为一组对Ax中元素进行顺次划分,获得若干子段Ax={Ax1,Ax2,…,AxW},若Ax元素数量不是H的整倍数,丢弃Ax中排列最前面的部分元素,以使剩余元素数量为H的整倍数,之后再对Ax中元素进行划分分段。rwn1和rwn2分别为空间数据文件fn1和fn2在子段Axw上的访问次数。
则空间数据文件fn1和fn2在服务器Sx上的平均访问连续度γx(n1,n2)为:
Figure BDA0001233944500000151
(4)空间数据文件的连续存储组织
通过空间数据连续存储组织单元(400),根据空间数据文件的平均访问连续度,将分布式地理信息服务器中空间数据进行连续存储组织。
本步骤具体为:
①利用连续存储规模计算模块(401),根据空间数据文件大小和高效磁盘I/O需求,计算需要连续存储的空间数据文件数量。
单个空间数据文件大小fsize可以自动检测文件大小获得。高效磁盘I/O需求指为减少磁盘读取数据的移动距离,并实现高效的磁盘空间利用,所采用的磁盘分片存储空间大小记为dsize。磁盘分片存储空间大小通过参数输入,参数输入方式包括但不限于文件、用户输入、函数参数等。
基于单个空间数据大小fsize和磁盘分片存储空间大小dsize,计算单片可以需要连续存储的空间数据文件数量
Figure BDA0001233944500000152
Figure BDA0001233944500000153
表示上取整。
②利用连续度排序模块(402),以任意空间数据文件为基准,根据基准空间数据文件与其他空间数据文件的平均访问连续度,对所有其他空间数据文件进行排序。
对分布式地理信息系统中任意服务器Sx,得到存储在该服务器Sx上的任意空间数据文件fn1和其它存储在该服务器Sx上的所有空间数据文件的平均访问连续度Γx(n1)为:
Γx(n1)=(γx(n1,1),γx(n1,2),…,γx(n1,N)) (8)
设γx(n1,n1)=0,按照从大到小的顺序对Γx(n1)中元素重新排序,并输出。同时记录重新排列后的空间数据文件序号。
③利用连续存储组织模块(403),根据磁盘存储容量,将基准空间数据文件和按照连续度高低选择的其它空间数据一起连续存储于分布式地理信息系统服务器中。
对分布式地理信息系统中任意服务器Sx,按照如下步骤执行:
(a)从当前Γx(n1)中选择一个最大值,n=1,2,…N,将该最大值对应的空间数据文件序号记为nmax;
(b)以序号为nmax的空间数据文件为基准,重新获得Γx(n1),从Γx(n1)中选择前(H-1)个元素,将该(H-1)个元素对应的空间数据文件和序号为nmax的空间数据文件顺序存储于服务器Sx的磁盘上。具体的存储方法为:按照当前Γx(n1)中顺序,将获得的H个空间数据文件以H0个为一组进行分组,剩余不够1组的空间数据文件不分组,将所获得的各组空间数据文件连续存储于服务器Sx的不同磁盘分片上;
(c)将连续存储的空间数据文件所对应的所有平均访问连续度设为0,返回步骤(a),继续执行直至当前Γx(n1)中所有元素均为0或其中不为0的元素数量小于H0,若当前Γx(n1)中不为0的元素数量小于H0,将这些不为0元素所对应的空间数据文件存储于同一磁盘分片。

Claims (7)

1.考虑负载均衡与磁盘效率的空间数据存储组织方法,其特征是,包括:
步骤1,空间数据文件的平均访问并发度计算,本步骤进一步包括:
1.1从分布式地理信息系统中获得用户对空间数据文件的访问日志信息A=(a1,a2,…,aM)和T=(t1,t2,…,tM),am和tm分别表示用户第m次访问的空间数据文件的标识和访问绝对时间,m=1,2,...M,M为用户访问的总次数;
1.2记分布式地理信息系统中服务器数量为C,以C个元素为一组对A中元素顺次划分,获得若干子段Ak
1.3统计各空间数据文件在各子段Ak上的访问次数;
1.4对任意两个空间数据文件,分别计算该两个空间数据文件在各子段Ak上的并发度,所有并发度的平均值即该两个空间数据文件间的平均访问并发度;
所述的并发度采用如下方法计算:记任意两个空间数据文件为fn1和fn2,则fn1和fn2在子段Ak上的并发度rkn1和rkn2分别为fn1和fn2在子段Ak上的访问次数;
步骤2,空间数据文件的多数据中心存储分布,本步骤进一步包括:
2.1将步骤1所得的平均访问并发度构建成平均访问并发度矩阵Ξ,Ξ中第i行第j列的元素即第i个和第j个空间数据文件间的平均访问并发度;
2.2从Ξ中找到最大的平均访问并发度ξmax,令Ξ中主对角线元素值为ξmax;构建与Ξ大小相同的最大平均访问并发度矩阵,其中所有元素值均为ξmax;最大平均访问并发度矩阵减去Ξ,得转换后的平均访问并发度矩阵Ξ′;
2.3从Ξ′中搜索各服务器的分布存储模式,具体为:
2.3a重新排列Ξ′中元素,使Ξ′的度最小,将重新排列后的Ξ′记为Ξ″;
2.3b从Ξ″的第1行开始,计算当前行x中非零元素长度Lx,x表示当前行的行号;
2.3c以Ξ″当前行x中第一个非零元素为顶点,取大小为Lx×Lx的上三角矩阵Ux
2.3d遍历当前上三角矩阵Ux中元素,找出最大元素,将该最大元素所对应的两个空间数据文件在第x个服务器上的分布存储模式值pxij设为1,i和j为该最大元素在Ξ′中的行号和列号;然后,以该最大元素为顶点,重新取大小为Lx×Lx的上三角矩阵Ux,重复循环本步骤,直至找到Qx个空间数据文件存储于第x个服务器;循环终止即获得存储于第x个服务器的空间数据文件的分布存储模式Px=(pxij)N×N,Qx表示第x个服务器中存储的空间数据文件数量,该值根据存储器存储容量灵活设置;
2.3e根据分布存储模式Px=(pxij)N×N,从Ξ″中删除存储于第x个服务器的所有空间数据文件所对应的行和列;
2.3f判断是否找到C个分布存储模式,若找到,结束,执行步骤2.4;否则,令x=x+1,然后执行步骤2.3b;
2.4根据分布存储模式,将空间数据文件分布存储到各服务器;
步骤3,空间数据文件的平均访问连续度计算,本步骤进一步包括:
3.1抽取各服务器存储的空间数据文件的访问日志信息Ax和Tx,记为子访问日志信息;
对各服务器分别执行:
3.2以H个元素为一组分别对该服务器的Tx和Ax中元素顺次划分,获得若干子段Txw和Axw;H为用户访问空间数据文件时的浏览路径深度,通过预测获得;
3.3对存储于该服务器的任意两个空间数据文件,分别计算该两个空间数据文件在各子段Txw上的平均访问时间差,所有子段Txw上的平均访问时间差的平均值即该两个空间数据文件在该服务器上的平均访问间隔距离;同时,还分别计算该两个空间数据文件在各子段Axw上的并发度,所有并发度的平均值即该两个空间数据文件在该服务器的平均访问并发度;
3.4该两个空间数据文件的平均访问并发度和平均访问间隔距离的比值,即平均访问连续度;
步骤4,空间数据文件的连续存储组织,本步骤进一步包括:
4.1根据空间数据文件大小和高效磁盘I/O需求,计算要连续存储在单个磁盘分片上的空间数据文件数量H0
对各服务器分别执行:
4.2初始化当前平均访问连续度序列,具体为:以服务器存储的任意空间数据文件为基准,获得基准空间数据文件和服务器存储的其他空间数据文件的平均访问连续度序列,即初始化的当前平均访问连续度序列;
4.3更新当前平均访问连续度序列,具体为:将当前平均访问连续度序列中最大值对应的空间数据文件序号记为nmax,以序号为nmax的空间数据文件为基准,重新获得基准空间数据文件和其他空间数据文件的平均访问连续度序列;
4.4从当前平均访问连续度序列中选择最大的(H-1)个元素,将该(H-1)个元素所对应的空间数据文件和序号为nmax的空间数据文件连续存储于服务器Sx的磁盘上,然后执行步骤4.5;
空间数据文件连续存储于服务器Sx的磁盘上,具体为:
按照与基准空间数据文件的平均访问连续度从大到小,对该(H-1)个元素所对应的空间数据文件和序号为nmax的空间数据文件进行排序,对排序后的空间数据文件以H0个为一组进行分组,剩余不够1组的空间数据文件不分组,将所获得的各组空间数据文件连续存储于服务器Sx的不同磁盘分片上;
4.5将H个空间数据文件中,已连续存储的空间数据文件的平均访问连续度设置为0,返回步骤4.4继续执行,直至所有空间数据文件被连续存储或者未连续存储的空间数据文件数量小于H0,若未连续存储的空间数据文件数量小于H0,将这些剩余的空间数据文件储于同一磁盘分片。
2.如权利要求1所述的考虑负载均衡与磁盘效率的空间数据存储组织方法,其特征是:
子步骤1.2中,若A元素数量不是C的整倍数,丢弃A中排列最前面的部分元素,以使剩余元素数量为C的整倍数,之后再对A中元素进行顺次划分。
3.如权利要求1所述的考虑负载均衡与磁盘效率的空间数据存储组织方法,其特征是:
子步骤2.4具体为:
对各服务器的分布存储模式Px=(pxij)N×N分别执行:
从Px=(pxij)N×N中找到Qx行,且Qx中每行均存在至少1个元素不为0;将所找到的Qx行的行号作为标识,将标识对应的空间数据文件存储到该服务器。
4.如权利要求1所述的考虑负载均衡与磁盘效率的空间数据存储组织方法,其特征是:
子步骤3.1具体为:
对各服务器Sx分别执行:
初始化服务器Sx对应的子访问日志信息为Ax=A=(a1,a2,…,aM)和Tx=T=(t1,t2,…,tM);
记服务器Sx的分布存储模式为Px=(pxij)N×N,遍历分布存储模式Px=(pxij)N×N的所有行,判断当前行是否存在非零元素,若不存在,将该行的行号作为目标标识,将Ax中和目标标识相同的元素删除,同时删除Tx中对应的元素;当所有行遍历完成,最后的Ax和Tx即服务器Sx的子访问日志信息。
5.如权利要求1所述的考虑负载均衡与磁盘效率的空间数据存储组织方法,其特征是:
子步骤3.3中,所述的平均访问时间差采用如下方法获得:
若两个空间数据文件fn1和fn2在子段Txw上同时出现,将第β次出现的fn1和fn2作为一组,计算同组内fn1和fn2在子段Txw上所出现的绝对时间的差值,所有组的绝对时间的差值的平均值即fn1和fn2的平均访问时间差;β=1,2,…B,B为fn1和fn2在子段Txw上出现次数中的较小值;
若fn1和fn2在子段Txw上未出现或未同时出现,则fn1和fn2在子段Txw上的平均访问时间差设为1。
6.如权利要求1所述的考虑负载均衡与磁盘效率的空间数据存储组织方法,其特征是:
子步骤4.1中,需要连续存储在单个磁盘分片上的空间数据文件数量
Figure FDA0001233944490000041
其中,
Figure FDA0001233944490000042
表示上取整,fsize为单个空间数据文件大小,dsize为磁盘分片存储空间大小。
7.考虑负载均衡与磁盘效率的空间数据存储组织系统,其特征是,包括:
(1)空间数据平均访问并发度计算单元,用于基于空间数据文件同时被用户访问请求的次数统计,计算空间数据文件的平均访问并发度;
所述的空间数据平均访问并发度计算单元进一步包括:
访问日志信息记录模块,用于记录分布式地理信息系统中用户对空间数据文件的访问日志信息;
访问日志信息分段模块,用于根据分布式地理信息系统中服务器数量,将访问日志信息分成多个子段;
访问次数统计模块,用于统计各访问日志信息子段中各空间数据的访问次数;
平均访问并发度计算模块,用于根据从各访问日志信息子段统计得到的空间数据访问次数,计算空间数据文件的平均访问并发度;
(2)空间数据多数据中心存储分布单元,用于根据分布式地理信息系统负载均衡需求,按照空间数据文件的平均访问并发度,将空间数据文件分布存储到分布式地理信息系统的所有服务器;
所述的空间数据多数据中心存储分布单元进一步包括:
平均访问并发度矩阵生成模块,用于将空间数据文件的平均访问并发度组织成平均访问并发度矩阵;
平均访问并发度矩阵变换模块,用于将平均访问并发度矩阵进行最大最小转换;
平均访问并发度矩阵搜索模块,用于从转换后的平均访问并发度矩阵搜索空间数据文件的多数据中心分布存储模式;
多数据中心存储分布模块,用于利用多数据中心分布存储模式,将空间数据文件分布存储到分布式地理信息系统的所有服务器;
(3)平均访问连续度计算单元,用于根据空间数据文件夹同时被用户访问的平均访问并发度和平均访问间隔距离,统计计算空间数据文件的平均访问连续度;
所述的平均访问连续度计算单元进一步包括:
访问日志抽取模块,用于按照多数据中心分布存储模式从访问日志信息中抽取各服务器存储空间数据文件的子访问日志信息;
访问间隔计算模块,用于利用抽取的子访问日志信息计算空间数据文件的平均访问间隔距离;
平均访问连续度计算模块,用于利用平均访问并发度和平均访问间隔距离计算空间数据文件的平均访问连续度;
(4)连续存储组织单元,用于根据空间数据文件的平均访问连续度,将分布式地理信息服务器中的空间数据文件进行连续存储组织;
所述的连续存储组织单元进一步包括:
连续存储规模计算模块,用于根据空间数据大小和高效磁盘I/O需求,计算需要连续存储的空间数据文件数量;
连续度排序模块,用于以任意空间数据文件为基准,根据空间数据文件的平均访问连续度,对所有其它空间数据文件的连续度进行排序;
连续存储组织模块,用于将基准空间数据文件和按照空间数据文件连续存储规模及按照平均访问连续度高低选择的其它空间数据文件一起连续存储于分布地理信息系统服务器。
CN201710109179.8A 2017-02-27 2017-02-27 考虑负载均衡与磁盘效率的空间数据存储组织方法及系统 Expired - Fee Related CN106933511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710109179.8A CN106933511B (zh) 2017-02-27 2017-02-27 考虑负载均衡与磁盘效率的空间数据存储组织方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710109179.8A CN106933511B (zh) 2017-02-27 2017-02-27 考虑负载均衡与磁盘效率的空间数据存储组织方法及系统

Publications (2)

Publication Number Publication Date
CN106933511A CN106933511A (zh) 2017-07-07
CN106933511B true CN106933511B (zh) 2020-02-14

Family

ID=59423248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710109179.8A Expired - Fee Related CN106933511B (zh) 2017-02-27 2017-02-27 考虑负载均衡与磁盘效率的空间数据存储组织方法及系统

Country Status (1)

Country Link
CN (1) CN106933511B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460121B (zh) * 2018-01-22 2022-02-08 重庆邮电大学 智慧城市中时空数据小文件合并方法
CN109634518A (zh) * 2018-10-29 2019-04-16 成都华为技术有限公司 一种存储资源配置方法及装置
CN109669636B (zh) * 2018-12-20 2020-04-21 深圳领络科技有限公司 一种分布式智能存储系统
CN110162293B (zh) * 2019-05-10 2020-10-09 上海紫翊网络科技有限公司 一种用于均衡负载的随机编号生成方法、装置和终端
CN113778727A (zh) * 2020-06-19 2021-12-10 北京沃东天骏信息技术有限公司 数据处理方法及装置、电子设备和计算机可读存储介质
CN113703688B (zh) * 2021-09-20 2024-03-15 安徽丰合佳行信息技术有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079902A (zh) * 2007-06-29 2007-11-28 清华大学 海量数据分级存储方法
CN103049554A (zh) * 2012-12-31 2013-04-17 吴立新 一种矢量qr树并行索引技术
CN105550208A (zh) * 2015-12-02 2016-05-04 南京邮电大学 基于谱哈希的相似性存储设计方法
CN105743975A (zh) * 2016-01-28 2016-07-06 深圳先进技术研究院 基于数据访问分布的缓存放置方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040055901A (ko) * 2002-12-23 2004-06-30 한국전자통신연구원 점진적인 공간 데이터 서비스 시스템 및 방법
US9892178B2 (en) * 2013-09-19 2018-02-13 Workday, Inc. Systems and methods for interest-driven business intelligence systems including event-oriented data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079902A (zh) * 2007-06-29 2007-11-28 清华大学 海量数据分级存储方法
CN103049554A (zh) * 2012-12-31 2013-04-17 吴立新 一种矢量qr树并行索引技术
CN105550208A (zh) * 2015-12-02 2016-05-04 南京邮电大学 基于谱哈希的相似性存储设计方法
CN105743975A (zh) * 2016-01-28 2016-07-06 深圳先进技术研究院 基于数据访问分布的缓存放置方法及系统

Also Published As

Publication number Publication date
CN106933511A (zh) 2017-07-07

Similar Documents

Publication Publication Date Title
CN106933511B (zh) 考虑负载均衡与磁盘效率的空间数据存储组织方法及系统
US10515101B2 (en) Determining clusters of similar activities
US20160350302A1 (en) Dynamically splitting a range of a node in a distributed hash table
CN106528717A (zh) 数据处理方法和系统
Fu et al. An experimental evaluation of large scale GBDT systems
CN105843841A (zh) 一种小文件存储方法和系统
US20110179013A1 (en) Search Log Online Analytic Processing
CN104573082B (zh) 基于访问日志信息的空间小文件数据分布存储方法及系统
Siddique et al. Comparing synopsis techniques for approximate spatial data analysis
Aydin et al. Mining spatiotemporal co-occurrence patterns in non-relational databases
Choi et al. Progressive top-k subarray query processing in array databases
CN109218366A (zh) 基于k均值的监控视频热度云存储方法
Bao et al. Optimizing segmented trajectory data storage with HBase for improved spatio-temporal query efficiency
Ma et al. In-memory distributed indexing for large-scale media data retrieval
Ibrahim et al. Analyses of indexing techniques on uncertain data with high dimensionality
US11068484B2 (en) Accelerating queries with complex conditions using zone map enhancements
Jian et al. Automatic content-based recommendation in e-commerce
Nie et al. Efficient storage support for real-time near-duplicate video retrieval
Jiang et al. MOIST: a scalable and parallel moving object indexer with school tracking
CN113360551B (zh) 一种靶场中时序数据的存储与快速统计方法及系统
WO2023273082A1 (en) Method for constructing feature base library, feature retrieval method, and related device
JP2000112973A (ja) 空間インデックス方法及び空間インデックス処理プログラムを格納した媒体
CN107193487B (zh) 一种随机访问识别方法及系统
Maguerra et al. A survey on solutions for big spatio-temporal data processing and analytics
Kvet Referencing validity assignment using B+ tree index enhancements

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200214

Termination date: 20210227

CF01 Termination of patent right due to non-payment of annual fee