CN103942253A - 一种负载均衡的空间数据处理方法和系统 - Google Patents
一种负载均衡的空间数据处理方法和系统 Download PDFInfo
- Publication number
- CN103942253A CN103942253A CN201410099363.5A CN201410099363A CN103942253A CN 103942253 A CN103942253 A CN 103942253A CN 201410099363 A CN201410099363 A CN 201410099363A CN 103942253 A CN103942253 A CN 103942253A
- Authority
- CN
- China
- Prior art keywords
- data
- subregion
- load balancing
- result
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及计算机系统领域,提供一种负载均衡的空间数据处理方法,包括:S1:获取原始数据;S2:对经过S1步骤处理后的数据进行分布统计;S3:根据所述分布统计结果,得出负载均衡的分区结果;S4:将所述分区结果向拓扑结构中的每台计算服务器分发;S5:所述拓扑结构中的每台计算服务器分别执行具体空间数据处理方法;S6:通过具体空间数据处理方法及所述分区结果,得出各分区的处理结果修正映射表,根据所述修正映射表修正全部局部结果,合并得出全局结果;S7:将所述全局结果存储在空间数据库中。本发明还提供一种负载均衡的空间数据处理系统。本发明可有效平均分配处理器的计算负荷,提高设备利用率、降低计算时间。
Description
技术领域
本发明涉及计算机系统领域,特别涉及一种负载均衡的空间数据处理方法和系统。
背景技术
空间数据处理技术是“智慧城市”、航天遥感、公共卫生与健康、灾害预警等众多领域中使用的关键技术。传统的空间数据处理系统,如GIS系统、关系数据库系统等,不少已经具备着比较完善高效的算法库;但是受制于历史原因,大多数的系统及算法库都只是基于单机的——如果数据量太大,单一计算机内存不能一次容纳所有的待处理数据,将必然导致大量的内外存缓存切换,造成严重的系统延缓。而随着数据获取的器材与技术在质量上和数量上的迅速发展,所获取到的空间数据的规模更大、增长极快,数据的类型也呈多样化,同时空间数据处理算法普遍计算复杂度都比较大,这些不利的因素都对这些传统的空间数据处理系统构成了巨大的挑战。
现今的大型计算机可以提供先进的处理器和大量的内存。然而,即使计算机内存能容纳所有数据,但由于很多数据处理算法的计算量并非随着数据量增加而线性增长的,而是平方级甚至指数级增长,因此不能通过简单移植单机算法来解决海量数据处理的问题。而如果能设计一套并行处理过程,通过对原始数据进行有效分区再分别计算,最后进行聚合运算,那么将有效的降低整体的计算量。因此并行处理是大数据处理的必由之道。
并行处理过程除了需要设计好各部分的局部处理算法和整体合并算法外,还必须处理如何进行有效分区的问题。从实验观察,处理算法的计算量并非与待处理的数据量成正比,而且与数据的空间分布与索引密切相关;因此,如果仅凭平分数据量进行分区计算,将可能造成负载严重不均衡,根据木板原理——最终完成时间取决于计算最慢的分区,这将严重妨碍并行计算处理的效率。譬如,发明人对超过十亿条原始空间数据进行聚类处理,将所有数据按数据量平分到16台配置一样的计算机分别处理,实验表明负载最多的一台比负载最少的一台慢了近68倍时间完成计算任务。
发明内容
本发明通过一种负载均衡的空间数据处理方法和系统,有效平均分配每一台并行处理器的处理计算负荷,提高了并行集群系统的设备利用率、降低了全局计算时间;统计分析数据和结果都存储在系统中,可供本组数据执行其他分析应用时调用,节省了计算时间。
本发明采用如下技术方案:
一种负载均衡的空间数据处理方法,包括:
S1:获取原始数据、汇总原始数据、读取原始数据并加载到处理系统,将文本格式的原始数据处理为以每行为一条数据记录的文本格式,将非文本格式的原始数据处理为以链接方式与所述数据记录产生连接耦合;
S2:对经过S1步骤处理后的数据进行分布统计,得出分布统计结果;
S3:根据所述分布统计结果,得出负载均衡的分区结果;
S4:将所述分区结果向拓扑结构中的每台计算服务器分发;
S5:所述拓扑结构中的每台计算服务器分别执行具体空间数据处理方法,得出各个分区的局部处理结果,并将其暂存;
S6:通过具体空间数据处理方法及所述分区结果,得出各分区的处理结果修正映射表,根据所述修正映射表修正全部局部结果,合并得出全局结果;
S7:根据预设条件所采用的聚类算法、范围搜索算法、相似性算法等算法特性,若所述的全局结果暂时不理想,可通过调整参数后,多次执行步骤S1到步骤S6,选择较优结果作为符合条件的全局结果,并将所述全局结果存储在空间数据库中。
优选地,步骤S2中,对经过步骤S1处理后的数据进行分布统计进一步包括:
第一步,按照预设的空间格栅大小,将全局数据空间分解为多个的格栅,作为原子空间;
第二步,利用并行处理系统,并行统计每个所述原子空间内的数据量及局部分布,将统计结果存为统计文件,并在统计过程中对输入数据进行校验,清洗掉不符合处理规范的数据,按照数据处理的需求和算法对所述原子空间的大小进行设定。
优选地,步骤S3中,根据所述分布统计结果,得出负载均衡的分区结果进一步包括:服务器利用数学模型计算出每个所述原子空间的计算量分布情况,并据此作为权重值,计算出负载均衡的分区建议结果。
优选地,所述负载均衡的空间数据处理方法所需的参数包括:每个原子空间的边长值,每个原子空间内的数据量及其局部空间分布。
优选地,所述负载均衡的空间数据处理方法的计算量采用完成一次计算或查询所需的磁盘访问次数,作为与平台性能关系的衡量基准。
优选地,所述负载均衡的空间数据处理方法的计算量的计算方法进一步包括:
第一步,通过平均扇出值与分区的数据量计算出所属分区索引树的高度,对于任一原子空间,该原子空间的计算量与所属分区索引树的高度线性正相关;
第二步,对于任一原子空间,通过所属分区索引树的平均扇出值、该原子空间的内部数据量及其原子空间局部分布情况,推算出该原子空间对整体索引树的性能干涉因子,则该原子空间的计算量与该性能干涉因子线性正相关,与性能干涉因子的n次方线性正相关,设n为此空间的维度,对于常用的二维空间数据集则n为2;
第三步,每个分区的计算量是其所包括的所有原子空间的计算量的总和,由此得出两边分区的计算预估值,并计算得出两边分区的计算预估值之差;
将所述所有的格栅的边作为空间二分线的候选,设它们所构成的集合为L,对于集合L中的所有候选二分线,均假设若按照它来执行划分,根据上述方法求得其两边分区的计算预估值,得出两边分区的计算预估值之差的绝对值,选取使绝对值最小的线作为此空间的最优二分线,并按此来使当前空间分解为两个子空间;
设初始空间划分任务队列Qt只包括全局数据空间范围SU,初始划分结果队列Qp为空;若队列Qt非空,则弹出它的首个元素,若计算得首个元素的计算预估值大于集群系统中单台计算机的合适计算能力,则将首个元素根据上述的空间最优二分方法分解为元素A与元素B,并将元素A、元素B插入任务队列Qt的尾部;若计算预估值小于合适计算能力,则将首个元素插入到结果队列Qp的尾部;重复执行上述步骤,直到任务队列Qt为空,则结果队列Qp即为本次空间划分的结果集,将此分区结果集将存储起来,由此可得出负载均衡的空间划分方法。
优选地,步骤S4进一步包括:将数据分发到并行计算系统的每一个计算服务器中去;分发为实际的数据传输或者各计算服务器对放置于共享存储空间中的数据的局部访问权的获取。
本发明还提供了一种负载均衡的空间数据处理系统,用于实现空间数据的并行分区处理达致负载均衡,其特征在于,所述负载均衡的空间数据处理系统包括:
获取数据模块,用于获取原始数据,汇总原始数据,读取原始数据并加载到处理系统,将文本格式的原始数据处理为以每行为一条数据记录的文本格式,将非文本格式的原始数据处理为以链接等方式与该条数据记录产生连接耦合;
数据分布统计模块,用于对经过S1步骤处理后的数据进行分布统计,得出分布统计结果;
智能分区计算模块,用于根据所述分布统计结果,得出负载均衡的分区结果;
数据分发模块,用于将所述数据进行按照所述负载均衡的分区结果进行分发,拓扑结构中的每台计算服务器接收分发来的数据;
分区处理模块,用于拓扑结构中的每台计算服务器将分别执行具体空间数据处理方法,得出各个分区的局部处理结果,并将其暂存;
合并处理模块,用于通过具体空间数据处理方法及所述分区结果,得出各分区的处理结果修正映射表,根据修正映射表修正全部局部结果,合并得出全局结果;
数据存储模块,用于将符合条件的所述全局结果存储在空间数据库中,不符合条件的所述全局结果通过调整参数后,再次重复步骤S1到步骤S6,直到所述全局结果符合条件后,将所述全局结果存储在空间数据库中。
本发明公开的一种负载均衡的空间数据处理方法和系统,能实现有效平均分配每一台并行处理器的处理计算负荷,提高了并行集群系统的设备利用率、降低了全局计算时间;统计分析数据和结果都存储在系统中,可供本组数据执行其他分析应用时调用,节省了计算时间。
附图说明
图1为本发明实施例提供的一种负载均衡的空间数据处理方法;
图2为本发明实施例提供的一种负载均衡的空间数据处理系统。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种负载均衡的空间数据处理方法和系统,包括:
S1:获取原始数据、汇总原始数据、读取原始数据并加载到处理系统,将文本格式的原始数据处理为以每行为一条数据记录的文本格式,将非文本格式的原始数据处理为以链接方式与所述数据记录产生连接耦合;
S2:对经过S1步骤处理后的数据进行分布统计,得出分布统计结果;
S3:根据所述分布统计结果,得出负载均衡的分区结果;
S4:将所述分区结果向拓扑结构中的每台计算服务器分发;
S5:所述拓扑结构中的每台计算服务器分别执行具体空间数据处理方法,得出各个分区的局部处理结果,并将其暂存;
S6:通过具体空间数据处理方法及所述分区结果,得出各分区的处理结果修正映射表,根据所述修正映射表修正全部局部结果,合并得出全局结果;
S7:根据预设条件所采用的聚类算法、范围搜索算法、相似性算法等算法特性,判断全局结果是否理想。
若所述的全局结果理想,则进入步骤S71:将所述全局结果存储在空间数据库中。
若所述的全局结果暂时不理想,则进入步骤S72:调整参数,返回步骤S1。多次执行步骤S1到步骤S6,选择较优结果作为符合条件的全局结果,并将所述全局结果存储在空间数据库中。
本发明还提供了一种负载均衡的空间数据处理系统,用于实现空间数据的并行分区处理达致负载均衡,其特征在于,所述负载均衡的空间数据处理系统包括:
获取数据模块,用于获取原始数据,汇总原始数据,读取原始数据并加载到处理系统,将文本格式的原始数据处理为以每行为一条数据记录的文本格式,将非文本格式的原始数据处理为以链接等方式与该条数据记录产生连接耦合;数据分布统计模块,用于对经过S1步骤处理后的数据进行分布统计,得出分布统计结果;
智能分区计算模块,用于根据所述分布统计结果,得出负载均衡的分区结果;
数据分发模块,用于将所述数据进行按照所述负载均衡的分区结果进行分发,拓扑结构中的每台计算服务器接收分发来的数据;
分区处理模块,用于拓扑结构中的每台计算服务器将分别执行具体空间数据处理方法,得出各个分区的局部处理结果,并将其暂存;
合并处理模块,用于通过具体空间数据处理方法及所述分区结果,得出各分区的处理结果修正映射表,根据修正映射表修正全部局部结果,合并得出全局结果;
数据存储模块,用于将符合条件的所述全局结果存储在空间数据库中,不符合条件的所述全局结果通过调整参数后,再次重复步骤S1到步骤S6,直到所述全局结果符合条件后,将所述全局结果存储在空间数据库中。
本发明通过一种负载均衡的空间数据处理方法和系统,有效平均分配每一台并行处理器的处理计算负荷,提高了并行集群系统的设备利用率、降低了全局计算时间;统计分析数据和结果都存储在系统中,可供本组数据执行其他分析应用时调用,节省了计算时间。
实施例1:
请参阅图1所示,为本发明一种负载均衡的空间数据处理方法流程图。该方法包括下述步骤:
步骤S1:获取原始数据、汇总原始数据、读取原始数据并加载到处理系统,将文本格式的原始数据处理为以每行为一条数据记录的文本格式,将非文本格式的原始数据处理为以链接方式与所述数据记录产生连接耦合。
步骤S2:对经过S1步骤处理后的数据进行分布统计,得出分布统计结果;
对经过步骤S1处理后的数据进行分布统计进一步包括:
第一步,按照预设的空间格栅大小,将全局数据空间分解为多个的格栅,作为原子空间;
第二步,利用并行处理系统,并行统计每个所述原子空间内的数据量及局部分布,将统计结果存为统计文件,并在统计过程中对输入数据进行校验,清洗掉不符合处理规范的数据,按照数据处理的需求和算法对所述原子空间的大小进行设定。
步骤S3:根据所述分布统计结果,得出负载均衡的分区结果;
根据所述分布统计结果,得出负载均衡的分区结果进一步包括:服务器利用数学模型计算出每个所述原子空间的计算量分布情况,并据此作为权重值,计算出负载均衡的分区建议结果;
所述负载均衡的空间数据处理方法所需的参数包括:每个原子空间的边长值,每个原子空间内的数据量及其局部空间分布;
所述负载均衡的空间数据处理方法的计算量采用完成一次计算或查询所需的磁盘访问次数,作为与平台性能关系的衡量基准;
所述负载均衡的空间数据处理方法的计算量的计算方法进一步包括:
第一步,通过平均扇出值与分区的数据量计算出所属分区索引树的高度,对于任一原子空间,该原子空间的计算量与所属分区索引树的高度线性正相关;
第二步,对于任一原子空间,通过所属分区索引树的平均扇出值、该原子空间的内部数据量及其原子空间局部分布情况,推算出该原子空间对整体索引树的性能干涉因子,则该原子空间的计算量与该性能干涉因子线性正相关,与性能干涉因子的n次方线性正相关,设n为此空间的维度,对于常用的二维空间数据集则n为2;
第三步,每个分区的计算量是其所包括的所有原子空间的计算量的总和,由此得出两边分区的计算预估值,并计算得出两边分区的计算预估值之差;
将所述所有的格栅的边作为空间二分线的候选,设它们所构成的集合为L,对于集合L中的所有候选二分线,均假设若按照它来执行划分,根据上述方法求得其两边分区的计算预估值,得出两边分区的计算预估值之差的绝对值,选取使绝对值最小的线作为此空间的最优二分线,并按此来使当前空间分解为两个子空间;
设初始空间划分任务队列Qt只包括全局数据空间范围SU,初始划分结果队列Qp为空;若队列Qt非空,则弹出它的首个元素,若计算得首个元素的计算预估值大于集群系统中单台计算机的合适计算能力,则将首个元素根据上述的空间最优二分方法分解为元素A与元素B,并将元素A、元素B插入任务队列Qt的尾部;若计算预估值小于合适计算能力,则将首个元素插入到结果队列Qp的尾部;重复执行上述步骤,直到任务队列Qt为空,则结果队列Qp即为本次空间划分的结果集,将此分区结果集将存储起来,由此可得出负载均衡的空间划分方法。
步骤S4:将所述分区结果向拓扑结构中的每台计算服务器分发;
将数据分发到并行计算系统的每一个计算服务器中去;分发为实际的数据传输或者各计算服务器对放置于共享存储空间中的数据的局部访问权的获取;
为了让各计算服务器尽量少通讯或无通讯,其实际所需分发的数据域会扩展到每个分区的有限外边界,其扩展值由具体数据处理方法决定。
步骤S5:所述拓扑结构中的每台计算服务器分别执行具体空间数据处理方法,得出各个分区的局部处理结果,并将其暂存。
步骤S6:通过具体空间数据处理方法及所述分区结果,得出各分区的处理结果修正映射表,根据所述修正映射表修正全部局部结果,合并得出全局结果。
步骤S7:根据预设条件所采用的聚类算法、范围搜索算法、相似性算法等算法特性,判断全局结果是否理想。
若所述的全局结果理想,则进入步骤S71:将所述全局结果存储在空间数据库中。
若所述的全局结果暂时不理想,则进入步骤S72:调整参数,返回步骤S1。多次执行步骤S1到步骤S6,选择较优结果作为符合条件的全局结果,并将所述全局结果存储在空间数据库中。
本实施例通过一种负载均衡的空间数据处理方法,有效平均分配每一台并行处理器的处理计算负荷,提高了并行集群系统的设备利用率、降低了全局计算时间;统计分析数据和结果都存储在系统中,可供本组数据执行其他分析应用时调用,节省了计算时间。
实施例2:
本实施例提供了一种负载均衡的空间数据处理系统。请参阅图2所示,为用户操作本发明实施例2一种负载均衡的空间数据处理系统示意图。该系统包含下述模块:
获取数据模块,用于获取原始数据,汇总原始数据,读取原始数据并加载到处理系统,将文本格式的原始数据处理为以每行为一条数据记录的文本格式,将非文本格式的原始数据处理为以链接等方式与该条数据记录产生连接耦合;
数据分布统计模块,用于对经过S1步骤处理后的数据进行分布统计,得出分布统计结果;
智能分区计算模块,用于根据所述分布统计结果,得出负载均衡的分区结果;
数据分发模块,用于将所述数据进行按照所述负载均衡的分区结果进行分发,拓扑结构中的每台计算服务器接收分发来的数据;
分区处理模块,用于拓扑结构中的每台计算服务器将分别执行具体空间数据处理方法,得出各个分区的局部处理结果,并将其暂存;
合并处理模块,用于通过具体空间数据处理方法及所述分区结果,得出各分区的处理结果修正映射表,根据修正映射表修正全部局部结果,合并得出全局结果;
数据存储模块,用于将符合条件的所述全局结果存储在空间数据库中,不符合条件的所述全局结果通过调整参数后,再次重复步骤S1到步骤S6,直到所述全局结果符合条件后,将所述全局结果存储在空间数据库中。
本系统采用实施例1中的步骤S1~步骤S7进行负载均衡的空间数据处理。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种负载均衡的空间数据处理方法,其特征在于,包括:
S1:获取原始数据、汇总原始数据、读取原始数据并加载到处理系统,将文本格式的原始数据处理为以每行为一条数据记录的文本格式,将非文本格式的原始数据处理为以链接方式与所述数据记录产生连接耦合;
S2:对经过S1步骤处理后的数据进行分布统计,得出分布统计结果;
S3:根据所述分布统计结果,得出负载均衡的分区结果;
S4:将所述分区结果向拓扑结构中的每台计算服务器分发;
S5:所述拓扑结构中的每台计算服务器分别执行具体空间数据处理方法,得出各个分区的局部处理结果,并将其暂存;
S6:通过具体空间数据处理方法及所述分区结果,得出各分区的处理结果修正映射表,根据所述修正映射表修正全部局部结果,合并得出全局结果;
S7:根据预设条件所采用的聚类算法、范围搜索算法、相似性算法等算法特性,若所述的全局结果暂时不理想,可通过调整参数后,多次执行步骤S1到步骤S6,选择较优结果作为符合条件的全局结果,并将所述全局结果存储在空间数据库中。
2.根据权利要求1所述的负载均衡的空间数据处理方法,其特征在于,步骤S2中,对经过步骤S1处理后的数据进行分布统计进一步包括:
第一步,按照预设的空间格栅大小,将全局数据空间分解为多个格栅,作为原子空间;
第二步,利用并行处理系统,并行统计每个所述原子空间内的数据量及局部分布,将统计结果存为统计文件,并在统计过程中对输入数据进行校验,清洗掉不符合处理规范的数据,按照数据处理的需求和算法对所述原子空间的大小进行设定。
3.根据权利要求2所述的负载均衡的空间数据处理方法,其特征在于,步骤S3中,根据所述分布统计结果,得出负载均衡的分区结果进一步包括:服务器利用数学模型计算出每个所述原子空间的计算量分布情况,并据此作为权重值,计算出负载均衡的分区建议结果。
4.根据权利要求2所述的负载均衡的空间数据处理方法,其特征在于,所述负载均衡的空间数据处理方法所需的参数包括:每个原子空间的边长值,每个原子空间内的数据量及其局部空间分布。
5.根据权利要求1所述的负载均衡的空间数据处理方法,其特征在于,所述负载均衡的空间数据处理方法的计算量采用完成一次计算或查询所需的磁盘访问次数,作为与平台性能关系的衡量基准。
6.根据权利要求2或5所述的负载均衡的空间数据处理方法,其特征在于,所述负载均衡的空间数据处理方法的计算量的计算方法进一步包括:
第一步,通过平均扇出值与分区的数据量计算出所属分区索引树的高度,对于任一原子空间,该原子空间的计算量与所属分区索引树的高度线性正相关;
第二步,对于任一原子空间,通过所属分区索引树的平均扇出值、该原子空间的内部数据量及其原子空间局部分布情况,推算出该原子空间对整体索引树的性能干涉因子,则该原子空间的计算量与该性能干涉因子线性正相关,与性能干涉因子的n次方线性正相关,设n为此空间的维度,对于常用的二维空间数据集则n为2;
第三步,每个分区的计算量是其所包括的所有原子空间的计算量的总和,由此得出两边分区的计算预估值,并计算得出两边分区的计算预估值之差;
将所述所有的格栅的边作为空间二分线的候选,设它们所构成的集合为L,对于集合L中的所有候选二分线,均假设若按照它来执行划分,根据上述方法求得其两边分区的计算预估值,得出两边分区的计算预估值之差的绝对值,选取使绝对值最小的线作为此空间的最优二分线,并按此来使当前空间分解为两个子空间;
设初始空间划分任务队列Qt只包括全局数据空间范围SU,初始划分结果队列Qp为空;若队列Qt非空,则弹出它的首个元素,若计算得首个元素的计算预估值大于集群系统中单台计算机的合适计算能力,则将首个元素根据上述的空间最优二分方法分解为元素A与元素B,并将元素A、元素B插入任务队列Qt的尾部;若计算预估值小于合适计算能力,则将首个元素插入到结果队列Qp的尾部;重复执行上述步骤,直到任务队列Qt为空,则结果队列Qp即为本次空间划分的结果集,将此分区结果集将存储起来,由此可得出负载均衡的空间划分方法。
7.根据权利要求1所述的负载均衡的空间数据处理方法,其特征在于,步骤S4进一步包括:将数据分发到并行计算系统的每一个计算服务器中去;分发为实际的数据传输或者各计算服务器对放置于共享存储空间中的数据的局部访问权的获取。
8.一种负载均衡的空间数据处理系统,用于实现空间数据的并行分区处理达致负载均衡,其特征在于,所述负载均衡的空间数据处理系统包括:
获取数据模块,用于获取原始数据,汇总原始数据,读取原始数据并加载到处理系统,将文本格式的原始数据处理为以每行为一条数据记录的文本格式,将非文本格式的原始数据处理为以链接等方式与该条数据记录产生连接耦合;
数据分布统计模块,用于对经过S1步骤处理后的数据进行分布统计,得出分布统计结果;
智能分区计算模块,用于根据所述分布统计结果,得出负载均衡的分区结果;
数据分发模块,用于将所述数据进行按照所述负载均衡的分区结果进行分发,拓扑结构中的每台计算服务器接收分发来的数据;
分区处理模块,用于拓扑结构中的每台计算服务器将分别执行具体空间数据处理方法,得出各个分区的局部处理结果,并将其暂存;
合并处理模块,用于通过具体空间数据处理方法及所述分区结果,得出各分区的处理结果修正映射表,根据修正映射表修正全部局部结果,合并得出全局结果;
数据存储模块,用于将符合条件的所述全局结果存储在空间数据库中,不符合条件的所述全局结果通过调整参数后,再次重复步骤S1到步骤S6,直到所述全局结果符合条件后,将所述全局结果存储在空间数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410099363.5A CN103942253B (zh) | 2014-03-18 | 2014-03-18 | 一种负载均衡的空间数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410099363.5A CN103942253B (zh) | 2014-03-18 | 2014-03-18 | 一种负载均衡的空间数据处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103942253A true CN103942253A (zh) | 2014-07-23 |
CN103942253B CN103942253B (zh) | 2017-07-14 |
Family
ID=51189921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410099363.5A Expired - Fee Related CN103942253B (zh) | 2014-03-18 | 2014-03-18 | 一种负载均衡的空间数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103942253B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104407879A (zh) * | 2014-10-22 | 2015-03-11 | 江苏瑞中数据股份有限公司 | 一种电网时序大数据并行加载方法 |
CN105260249A (zh) * | 2015-09-19 | 2016-01-20 | 中国地质大学(武汉) | 空间计算域计算强度特征提取方法 |
CN105354091A (zh) * | 2015-10-19 | 2016-02-24 | 北京天耀宏图科技有限公司 | 一种基于空间位置的弹性负载均衡方法及系统 |
CN107729138A (zh) * | 2017-09-14 | 2018-02-23 | 北京天耀宏图科技有限公司 | 一种高性能分布式矢量空间数据的分析方法和装置 |
CN108427725A (zh) * | 2018-02-11 | 2018-08-21 | 华为技术有限公司 | 数据处理方法、装置和系统 |
CN109286661A (zh) * | 2018-08-29 | 2019-01-29 | 广东恒电信息科技股份有限公司 | 一种企业级PaaS平台自动化部署的数据处理方法 |
CN111198904A (zh) * | 2018-11-16 | 2020-05-26 | 千寻位置网络有限公司 | 数据处理方法及装置、处理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844679A (ja) * | 1994-07-29 | 1996-02-16 | Toshiba Corp | 情報処理システム |
US20050289215A1 (en) * | 2004-06-09 | 2005-12-29 | Canon Kabushiki Kaisha | Information processing apparatus and its control method |
CN101576994A (zh) * | 2009-06-22 | 2009-11-11 | 中国农业大学 | 遥感图像处理方法及装置 |
CN102835974A (zh) * | 2012-08-23 | 2012-12-26 | 华南理工大学 | 基于并行计算机的医学超声三维成像方法 |
US20130024479A1 (en) * | 2011-07-20 | 2013-01-24 | Salesforce.Com, Inc. | Methods and systems for processing large graphs using density-based processes using map-reduce |
-
2014
- 2014-03-18 CN CN201410099363.5A patent/CN103942253B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844679A (ja) * | 1994-07-29 | 1996-02-16 | Toshiba Corp | 情報処理システム |
US20050289215A1 (en) * | 2004-06-09 | 2005-12-29 | Canon Kabushiki Kaisha | Information processing apparatus and its control method |
CN101576994A (zh) * | 2009-06-22 | 2009-11-11 | 中国农业大学 | 遥感图像处理方法及装置 |
US20130024479A1 (en) * | 2011-07-20 | 2013-01-24 | Salesforce.Com, Inc. | Methods and systems for processing large graphs using density-based processes using map-reduce |
CN102835974A (zh) * | 2012-08-23 | 2012-12-26 | 华南理工大学 | 基于并行计算机的医学超声三维成像方法 |
Non-Patent Citations (1)
Title |
---|
程果等: "一种面向复杂地理空间栅格数据处理算法并行化的任务调度方法", 《国防科技大学学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104407879A (zh) * | 2014-10-22 | 2015-03-11 | 江苏瑞中数据股份有限公司 | 一种电网时序大数据并行加载方法 |
CN104407879B (zh) * | 2014-10-22 | 2018-02-02 | 江苏瑞中数据股份有限公司 | 一种电网时序大数据并行加载方法 |
CN105260249A (zh) * | 2015-09-19 | 2016-01-20 | 中国地质大学(武汉) | 空间计算域计算强度特征提取方法 |
CN105260249B (zh) * | 2015-09-19 | 2019-04-23 | 中国地质大学(武汉) | 空间计算域计算强度特征提取方法 |
CN105354091A (zh) * | 2015-10-19 | 2016-02-24 | 北京天耀宏图科技有限公司 | 一种基于空间位置的弹性负载均衡方法及系统 |
CN107729138A (zh) * | 2017-09-14 | 2018-02-23 | 北京天耀宏图科技有限公司 | 一种高性能分布式矢量空间数据的分析方法和装置 |
CN107729138B (zh) * | 2017-09-14 | 2020-11-20 | 北京天耀宏图科技有限公司 | 一种高性能分布式矢量空间数据的分析方法和装置 |
CN108427725A (zh) * | 2018-02-11 | 2018-08-21 | 华为技术有限公司 | 数据处理方法、装置和系统 |
CN109286661A (zh) * | 2018-08-29 | 2019-01-29 | 广东恒电信息科技股份有限公司 | 一种企业级PaaS平台自动化部署的数据处理方法 |
CN111198904A (zh) * | 2018-11-16 | 2020-05-26 | 千寻位置网络有限公司 | 数据处理方法及装置、处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103942253B (zh) | 2017-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103942253A (zh) | 一种负载均衡的空间数据处理方法和系统 | |
CN105446979B (zh) | 数据挖掘方法和节点 | |
Markowitz | The elimination form of the inverse and its application to linear programming | |
CN105894234B (zh) | 计算自提柜投放位置的数据处理方法和系统 | |
CN104615638A (zh) | 一种面向大数据的分布式密度聚类方法 | |
CN110222029A (zh) | 一种大数据多维分析计算效率提升方法及系统 | |
CN111104457A (zh) | 基于分布式数据库的海量时空数据管理方法 | |
CN105550368A (zh) | 一种高维数据的近似最近邻检索方法及检索系统 | |
CN105205052A (zh) | 一种数据挖掘方法及装置 | |
CN105677755B (zh) | 一种处理图数据的方法及装置 | |
CN116167581A (zh) | 电池需求量预估方法、装置、调度方法和计算机设备 | |
CN107301094A (zh) | 面向大规模动态事务查询的动态自适应数据模型 | |
CN113568759A (zh) | 一种基于云计算的大数据处理方法及其系统 | |
CN112668225A (zh) | 配网网格的规划方法、装置、计算机设备和存储介质 | |
CN104951442A (zh) | 一种确定结果向量的方法和装置 | |
CN116720791A (zh) | 一种分布式光伏发电质量管理方法及系统 | |
Tirthapura et al. | A formal analysis of space filling curves for parallel domain decomposition | |
CN104850591A (zh) | 一种数据的转换存储方法及装置 | |
Wang et al. | Coded alternating least squares for straggler mitigation in distributed recommendations | |
CN104933110A (zh) | 一种基于MapReduce的数据预取方法 | |
CN104699697A (zh) | 一种数据处理方法及装置 | |
CN103780688A (zh) | 迁移方法和装置 | |
CN110751161A (zh) | 基于Spark的节点相似度计算方法、装置及终端 | |
Dialynas et al. | A computer system for the stochastic disaggregation of monthly into daily hydrological time series as part of a three-level multivariate scheme | |
Huang et al. | An aggregating based model order reduction method for power grids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170714 Termination date: 20190318 |