CN111339221B - 数据处理方法、系统及存储介质 - Google Patents
数据处理方法、系统及存储介质 Download PDFInfo
- Publication number
- CN111339221B CN111339221B CN201811548403.4A CN201811548403A CN111339221B CN 111339221 B CN111339221 B CN 111339221B CN 201811548403 A CN201811548403 A CN 201811548403A CN 111339221 B CN111339221 B CN 111339221B
- Authority
- CN
- China
- Prior art keywords
- platform
- file
- data processing
- server
- request information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000004140 cleaning Methods 0.000 claims abstract description 25
- 230000000007 visual effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 25
- 230000007547 defect Effects 0.000 abstract description 19
- 238000004891 communication Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种数据处理方法、系统及存储介质,该方法包括:数据处理平台获取待处理栅格数据文件;对待处理栅格数据文件进行Spark清洗,生成业务需求的图层分包文件;对图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。本发明通过spark清洗海量栅格数据,解决了现有技术中数据处理响应慢的缺点,通过压缩文件存储方式,解决了现有技术海量栅格数据存储空间占用较大的缺点。
Description
技术领域
本发明涉及分布式数据技术领域,尤其涉及一种海量栅格数据处理方法、系统及存储介质。
背景技术
目前,随着数据量大幅增长,海量数据处理和服务应用便捷运维的压力日益倍增,使得界面响应速度以及操作流畅度不够,影响用户体验。
传统的栅格数据一般采用空间数据存储技术,建立较为复杂的索引,大大增加了数据的存储空间,尤其对于海量栅格数据来说设备成本较高。因此,传统的栅格处理方法在处理大数据量的栅格数据上具有响应速度慢、空间数据库存储空间占用大等缺点,因此用户体验较差且设备成本较高。
随着栅格数据量的增加,数据处理速度和存储容量越来越受到限制,因此有必要采用新的数据处理和存储模式。
发明内容
本发明的主要目的在于提供一种数据处理方法、系统及存储介质,旨在提高海量栅格数据处理的速度,并减少存储成本。
为实现上述目的,本发明提供的一种数据处理方法,所述方法应用于数据处理系统,所述数据处理系统包括数据处理平台,所述方法包括:
所述数据处理平台获取待处理栅格数据文件;
所述数据处理平台对所述待处理栅格数据文件进行清洗,生成业务需求的图层分包文件;
所述数据处理平台对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。
可选地,所述数据处理系统还包括:平台后端,所述平台后端配置有若干平台服务器,所述方法还包括:
所述平台后端根据预先配置的配置文件扫描对应的压缩包存储路径,从所述分布式文件系统下载对应的压缩包文件到相应的平台服务器。
可选地,所述数据处理系统还包括:平台前端和负载均衡代理服务器,所述方法还包括:
所述平台前端接收用户通过访问平台可视化界面发送的请求信息,将所述请求信息发送至所述负载均衡代理服务器;
所述负载均衡代理服务器根据平台前端发送的请求信息进行负载均衡,将所述请求信息分发到平台后端相应的平台服务器,或者分发到平台后端相应的平台服务器及其备份服务器;
接收到所述请求信息的平台服务器,或者平台服务器及其备份服务器,响应所述请求信息,将本机上的压缩包文件生成图片返回给平台前端呈现。
可选地,所述请求信息包括地理位置信息和/及业务图层信息。
可选地,所述对所述待处理栅格数据文件进行清洗,生成业务需求的图层分包文件的步骤包括:
获取预设的与业务需求相对应的配置文件;
根据预设的与业务需求相对应的配置文件,通过spark组件对所述待处理栅格数据文件进行Spark清洗,生成业务需求的图层分包文件。
可选地,所述对所述图层分包文件进行压缩,生成压缩包存储在分布式文件系统的步骤包括:
按照预设规则对所述图层分包文件进行压缩,生成ZIP包文件存储在分布式文件系统。
本发明实施例还提出一种数据处理系统,所述数据处理系统包括数据处理平台,所述数据处理平台,用于获取待处理栅格数据文件,对所述待处理栅格数据文件进行清洗,生成业务需求的图层分包文件,对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。
可选地,所述数据处理系统还包括:平台后端、平台前端和负载均衡代理服务器,所述平台后端配置有若干平台服务器;
所述平台后端,用于根据预先配置的配置文件扫描对应的压缩包存储路径,从所述分布式文件系统下载对应的压缩包文件到相应的平台服务器;
所述平台前端,用于接收用户通过访问平台可视化界面发送的请求信息,将所述请求信息发送至所述负载均衡代理服务器;
所述负载均衡代理服务器,用于根据平台前端发送的请求信息进行负载均衡,将所述请求信息分发到平台后端相应的平台服务器,或者分发到平台后端相应的平台服务器及其备份服务器;
所述平台后端,还用于接收并呈现平台服务器,或者平台服务器及其备份服务器响应所述请求信息返回的基于本机上的压缩包文件生成的图片。
本发明实施例还提出一种数据处理系统,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理方法的步骤。
本发明实施例提出的一种数据处理方法、系统及存储介质,数据处理平台获取待处理栅格数据文件,对所述待处理栅格数据文件进行清洗,生成业务需求的图层分包文件;对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。由此通过分布式模式及清洗海量栅格数据,有利于对不同区域或者类型的数据进行负载均衡处理,降低每台机器的负荷,提高响应速度,解决了现有技术中数据处理响应慢的缺点,通过压缩文件存储方式,解决了现有技术海量栅格数据存储空间占用较大的缺点。
附图说明
图1是本发明数据处理方法第一实施例的流程示意图;
图2是本发明数据处理方法第二实施例的流程示意图;
图3是本发明数据处理方法第三实施例的流程示意图;
图4是本发明实施例的涉及的栅格数据处理流向示意图;
图5是本发明实施例运行环境涉及的系统架构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
为了使本发明的技术方案更加清楚、明了,下面将结合附图作进一步详述。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:数据处理平台获取待处理栅格数据文件,对所述待处理栅格数据文件进行Spark清洗,生成业务需求的图层分包文件;对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。由此通过分布式模式及spark清洗海量栅格数据,有利于对不同区域或者类型的数据进行负载均衡处理,降低每台机器的负荷,提高响应速度,解决了现有技术中数据处理响应慢的缺点,通过压缩文件存储方式,解决了现有技术海量栅格数据存储空间占用较大的缺点。
术语解释
栅格数据,栅格数据是按网格单元的行与列排列、具有不同灰度或颜色的阵列数据。栅格结构是大小相等分布均匀、紧密相连的像元(网格单元)阵列来表示空间地物或现象分布的数据组织。是最简单、最直观的空间数据结构,它将地球表面划分为大小、均匀、紧密相邻的网格阵列。每一个单元(象素)的位置由它的行列号定义,所表示的实体位置隐含在栅格行列位置中,数据组织中的每个数据表示地物或现象的非几何属性或指向其属性的指针。栅格结构的最显著特点是:数据直接记录属性的指针或属性本身,而其所在位置则根据行列号转换成相应的坐标给出。也就是说,定位是根据数据在数据集合中的位置得到的。
Nginx:是一个高性能的HTTP和反向代理服务,具有稳定性强,性能好等特点,底层语言为C语言。
Spark:是一种开源的并行计算引擎,它可在大规模集群上可靠地并行处理大数据量级(TB)数据,支持交互式计算和复杂算法,底层用scala语言实现。
Hdfs(Hadoop分布式文件系统):是一种高容错性分布式文件系统,能提供高吞吐量的数据访问,适合部署在大规模集群上,底层由Java语言实现。
由于传统栅格数据一般采用空间数据存储技术,建立较为复杂的索引,大大增加了数据的存储空间,尤其对于海量栅格数据来说设备成本较高,因此,减少海量数据的存储空间就显得尤为重要。
本发明就是为了解决以上响应慢和存储成本高两大缺点,通过spark清洗海量栅格算法解决响应慢的缺点,通过本地压缩文件存储方式解决存储空间占用较大的缺点。
具体地,如图1所示,图1是本发明实施例方案涉及的栅格数据处理流向示意图。
本发明实施例方案涉及的栅格数据处理环节主要包括:前端部分、Nginx负载均衡、平台后端、数据处理平台的数据清洗和数据压缩五个部分。其中:
前端:前端主要是接收用户访问平台可视化界面发送的请求信息,请求信息主要包括地理位置信息、业务图层信息等;
Nginx负载均衡:提取前端请求信息,根据需要负载到不同的平台服务器,每台服务器可以有至少一台备份服务器,存储相同的数据信息,分发到该台服务器的请求会再次被负载到该机和其备份机器上,因此,多台服务器同时响应不仅可以提高响应速度还能保证当其中一台服务器宕机时,请求正常返回结果,从而保证数据不丢失;
平台后端:扫描hdfs上的ZIP文件,根据需要(比如配置文件)下载到相应的平台服务器,接受并处理前端请求,返回结果给前端;
数据清洗:扫描hdfs上的栅格数据文件,通过spark组件运用一定的算法处理成需要的图层文件;
数据压缩:将spark清洗完的数据按一定的需求和级别压缩成ZIP包存储在hdfs。
具体地,如图2所示,本发明第一实施例提出一种数据处理方法,所述方法应用于数据处理系统,所述数据处理系统包括数据处理平台,所述方法包括:
步骤S101,所述数据处理平台获取待处理栅格数据文件;
其中,数据处理平台可以设置在分布式文件系统内,也可以独立于分布式文件系统之外设置。
待处理栅格数据文件可以包括各种待处理栅格数据,其来源可以从外部数据库、服务器、终端设备或平台等获取。
通常栅格数据的获取主要由以下几个途径:
⑴栅格法:在待输入的图形上均匀划分栅格单元,逐个栅格地决定其属性代码,最后形成栅格数字地图文件。
⑵转换法:用手扶跟踪数字化或自动跟踪数字化得到矢量结构数据,再转换为栅格结构。
⑶扫描数字化:逐点扫描待输入的专题地图,对扫描数据重新采样与再编码,从而得到栅格数据文件。
⑷分类影像输入:将经过分类解译的遥感影像数据直接或重新采样后输入系统,这是一种高效获取数据的方法。
作为一种实施方式,各外部设备可以将待处理栅格数据文件推送到分布式文件系统中,触发数据处理任务。
步骤S102,所述数据处理平台对所述待处理栅格数据文件进行清洗,生成业务需求的图层分包文件;
本实施例中,是通过数据清洗来提高栅格数据处理响应速度,其中,对所述待处理栅格数据文件进行Spark清洗,生成业务需求的图层分包文件,具体采用如下方案:
首先,根据业务需求预先配置有相应的配置文件,用于进行数据清洗。
然后,进行数据清洗,本实施例中,在数据清洗时具体采用Spark清洗的方式。获取预设的与业务需求相对应的配置文件;根据预设的与业务需求相对应的配置文件,通过spark组件对所述待处理栅格数据文件进行Spark清洗,生成业务需求的图层分包文件。
步骤S103,所述数据处理平台对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。
数据处理平台对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统,具体可以按照预设规则(比如:按一定的需求和级别)对图层分包文件进行压缩,生成ZIP包文件存储在分布式文件系统。
本实施例采用分布式模式能够有效解决栅格数据处理响应慢和存储成本高的缺陷,有利于对不同区域或者类型的数据进行负载均衡处理,降低每台机器的负荷,提高响应速度。
本实施例通过上述方案,数据处理平台获取待处理栅格数据文件,对所述待处理栅格数据文件进行Spark清洗,生成业务需求的图层分包文件;对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。由此通过分布式模式及spark清洗海量栅格数据,对不同区域或者类型的数据进行负载均衡处理,降低每台机器的负荷,提高响应速度,解决了现有技术中数据处理响应慢的缺点,通过压缩文件存储方式,解决了现有技术海量栅格数据存储空间占用较大的缺点。
如图3所示,本发明第二实施例提出一种数据处理方法,基于上述图2所示的实施例,所述数据处理系统还包括:平台后端,所述平台后端配置有若干平台服务器,所述方法还包括:
步骤S104,所述平台后端根据预先配置的配置文件扫描对应的压缩包存储路径,从所述分布式文件系统下载对应的压缩包文件到相应的平台服务器。
相比上述图2所示的第一实施例,本实施例还包括平台服务器下载对应的压缩包文件的方案。
具体地,作为一种实现方式,平台后端配置有若干平台服务器,为了保证数据不丢失,平台服务器可以配置一个或多个备份服务器,同时在平台后端预先根据不同的文件或者不同的平台服务器配置有的不同配置文件,并在平台后端设置相应的转发节点,将不同配置文件转发至相应的平台服务器。
配置文件中可以携带对应栅格数据文件的压缩包存储路径。
作为一种实施方式,在平台服务器下载栅格数据文件时,平台后端或者平台服务器可以根据预先配置的配置文件扫描对应的压缩包存储路径,从所述分布式文件系统下载对应的压缩包文件到相应的平台服务器。
本实施例通过上述方案,数据处理平台获取待处理栅格数据文件,对所述待处理栅格数据文件进行Spark清洗,生成业务需求的图层分包文件;对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。由此通过分布式模式及spark清洗海量栅格数据,对不同区域或者类型的数据进行负载均衡处理,降低每台机器的负荷,提高响应速度,解决了现有技术中数据处理响应慢的缺点,通过压缩文件存储方式,解决了现有技术海量栅格数据存储空间占用较大的缺点。
此外,平台服务器也可以从分布式文件系统下载对应的压缩包文件到相应的平台服务器,从而实现数据的分发与分布存储。
如图4所示,本发明第三实施例提出一种数据处理方法,基于上述图3所示的实施例,所述数据处理系统还包括:平台前端和负载均衡代理服务器,所述方法还包括:
步骤S105,所述平台前端接收用户通过访问平台可视化界面发送的请求信息,将所述请求信息发送至所述负载均衡代理服务器;
步骤S106,所述负载均衡代理服务器根据平台前端发送的请求信息进行负载均衡,将所述请求信息分发到平台后端相应的平台服务器,或者分发到平台后端相应的平台服务器及其备份服务器;
步骤S107,接收到所述请求信息的平台服务器,或者平台服务器及其备份服务器,响应所述请求信息,将本机上的压缩包文件生成图片返回给平台前端呈现。
相比上述图3所示的实施例,本实施例还包括:根据前端请求反馈数据,并实现负载均衡的方案。
具体地,在本实施例中,平台前端可以提供访问平台可视化界面给用户进行交互操作。平台前端通过访问平台可视化界面接收用户发送的请求信息,将所述请求信息发送至所述负载均衡代理服务器。
其中,请求信息可以包括地理位置信息和/或业务图层信息等。
负载均衡代理服务器可以采用Nginx负载均衡代理服务器,Nginx负载均衡代理服务器提取前端请求信息,根据需要负载到不同的平台服务器,每台服务器可以有至少一台备份服务器,存储相同的数据信息,分发到该台服务器的请求会再次被负载到该服务器和其备份服务器上,因此,多台服务器同时响应不仅可以提高数据响应速度还能保证当其中一台服务器宕机时,请求能够正常返回结果,从而保证数据不丢失。
在平台后端,接收到上述请求信息的平台服务器,或者平台服务器及其备份服务器,响应该请求信息,将本机上的压缩包文件生成PNG等格式图片返回给平台前端呈现。
本实施例通过上述方案,数据处理平台获取待处理栅格数据文件,对所述待处理栅格数据文件进行Spark清洗,生成业务需求的图层分包文件;对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。由此通过分布式模式及spark清洗海量栅格数据,对不同区域或者类型的数据进行负载均衡处理,降低每台机器的负荷,提高响应速度,解决了现有技术中数据处理响应慢的缺点,通过压缩文件存储方式,解决了现有技术海量栅格数据存储空间占用较大的缺点。
此外,平台服务器也可以从分布式文件系统下载对应的压缩包文件到相应的平台服务器,从而实现数据的分发与分布存储。平台前端也可以根据用户的请求,将请求信息发送至负载均衡代理服务器,由负载均衡代理服务器根据需要负载到不同的平台服务器,相应的平台服务器进行响应,将本机上的压缩包文件生成PNG图片返回给平台前端呈现,从而在满足前端请求的同时,实现负载均衡处理,降低每台机器的负荷,进一步的提高数据响应速度。
此外,可以参照图1所示,本发明实施例还提出一种数据处理系统,所述数据处理系统包括数据处理平台,所述数据处理平台,用于获取待处理栅格数据文件,对所述待处理栅格数据文件进行Spark清洗,生成业务需求的图层分包文件,对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。
进一步地,所述数据处理系统还包括:平台后端、平台前端和负载均衡代理服务器,所述平台后端配置有若干平台服务器;
所述平台后端,用于根据预先配置的配置文件扫描对应的压缩包存储路径,从所述分布式文件系统下载对应的压缩包文件到相应的平台服务器;
所述平台前端,用于接收用户通过访问平台可视化界面发送的请求信息,将所述请求信息发送至所述负载均衡代理服务器;
所述负载均衡代理服务器,用于根据平台前端发送的请求信息进行负载均衡,将所述请求信息分发到平台后端相应的平台服务器,或者分发到平台后端相应的平台服务器及其备份服务器;
所述平台后端,还用于接收并呈现平台服务器,或者平台服务器及其备份服务器响应所述请求信息返回的基于本机上的压缩包文件生成的PNG图片。
本实施例数据处理系统实现数据处理的原理请参照上述各实施例,在此不再赘述。
此外,本发明实施例还提出一种数据处理系统,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
具体地,如图5所示,本实施例系统可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图5中示出的系统结构并不构成对平台的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序。
在图5所示的系统中,网络接口1004主要用于连接网络服务器,与网络服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据处理程序,并执行以下操作:
所述数据处理平台获取待处理栅格数据文件;
所述数据处理平台对所述待处理栅格数据文件进行清洗,生成业务需求的图层分包文件;
所述数据处理平台对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。
进一步地,处理器1001可以用于调用存储器1005中存储的数据处理程序,还执行以下操作:
所述平台后端根据预先配置的配置文件扫描对应的压缩包存储路径,从所述分布式文件系统下载对应的压缩包文件到相应的平台服务器。
进一步地,处理器1001可以用于调用存储器1005中存储的数据处理程序,还执行以下操作:
所述平台前端接收用户通过访问平台可视化界面发送的请求信息,将所述请求信息发送至所述负载均衡代理服务器;
所述负载均衡代理服务器根据平台前端发送的请求信息进行负载均衡,将所述请求信息分发到平台后端相应的平台服务器,或者分发到平台后端相应的平台服务器及其备份服务器;
接收到所述请求信息的平台服务器,或者平台服务器及其备份服务器,响应所述请求信息,将本机上的压缩包文件生成图片返回给平台前端呈现。
进一步地,处理器1001可以用于调用存储器1005中存储的数据处理程序,还执行以下操作:
获取预设的与业务需求相对应的配置文件;
根据预设的与业务需求相对应的配置文件,通过spark组件对所述待处理栅格数据文件进行Spark清洗,生成业务需求的图层分包文件。
进一步地,处理器1001可以用于调用存储器1005中存储的数据处理程序,还执行以下操作:
按照预设规则对所述图层分包文件进行压缩,生成ZIP包文件存储在分布式文件系统。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理方法的步骤。
本实施例数据处理系统实现数据处理的原理请参照上述各实施例,在此不再赘述。
相比现有技术,本发明实施例提出的一种数据处理方法、系统及存储介质,通过数据处理平台获取待处理栅格数据文件,对所述待处理栅格数据文件进行Spark清洗,生成业务需求的图层分包文件;对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。由此通过分布式模式及spark清洗海量栅格数据,对不同区域或者类型的数据进行负载均衡处理,降低每台机器的负荷,提高响应速度,解决了现有技术中数据处理响应慢的缺点,通过压缩文件存储方式,解决了现有技术海量栅格数据存储空间占用较大的缺点。
此外,平台服务器也可以从分布式文件系统下载对应的压缩包文件到相应的平台服务器,从而实现数据的分发与分布存储。平台前端也可以根据用户的请求,将请求信息发送至负载均衡代理服务器,由负载均衡代理服务器根据需要负载到不同的平台服务器,相应的平台服务器进行响应,将本机上的压缩包文件生成PNG图片返回给平台前端呈现,从而在满足前端请求的同时,实现负载均衡处理,降低每台机器的负荷,进一步的提高数据响应速度。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法应用于数据处理系统,所述数据处理系统包括数据处理平台,所述方法包括:
所述数据处理平台获取待处理栅格数据文件;
所述数据处理平台对所述待处理栅格数据文件进行清洗,生成业务需求的图层分包文件;
所述数据处理平台对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。
2.根据权利要求1所述的方法,其特征在于,所述数据处理系统还包括:平台后端,所述平台后端配置有若干平台服务器,所述方法还包括:
所述平台后端根据预先配置的配置文件扫描对应的压缩包存储路径,从所述分布式文件系统下载对应的压缩包文件到相应的平台服务器。
3.根据权利要求2所述的方法,其特征在于,所述数据处理系统还包括:平台前端和负载均衡代理服务器,所述方法还包括:
所述平台前端接收用户通过访问平台可视化界面发送的请求信息,将所述请求信息发送至所述负载均衡代理服务器;
所述负载均衡代理服务器根据平台前端发送的请求信息进行负载均衡,将所述请求信息分发到平台后端相应的平台服务器,或者分发到平台后端相应的平台服务器及其备份服务器;
接收到所述请求信息的平台服务器,或者平台服务器及其备份服务器,响应所述请求信息,将本机上的压缩包文件生成图片返回给平台前端呈现。
4.根据权利要求3所述的方法,其特征在于,所述请求信息包括地理位置信息和/或业务图层信息。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述对所述待处理栅格数据文件进行清洗,生成业务需求的图层分包文件的步骤包括:
获取预设的与业务需求相对应的配置文件;
根据预设的与业务需求相对应的配置文件,通过spark组件对所述待处理栅格数据文件进行Spark清洗,生成业务需求的图层分包文件。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述对所述图层分包文件进行压缩,生成压缩包存储在分布式文件系统的步骤包括:
按照预设规则对所述图层分包文件进行压缩,生成ZIP包文件存储在分布式文件系统。
7.一种数据处理系统,其特征在于,所述数据处理系统包括数据处理平台,所述数据处理平台,用于获取待处理栅格数据文件,对所述待处理栅格数据文件进行清洗,生成业务需求的图层分包文件,对所述图层分包文件进行压缩,生成压缩包文件存储在分布式文件系统。
8.根据权利要求7所述的数据处理系统,其特征在于,所述数据处理系统还包括:平台后端、平台前端和负载均衡代理服务器,所述平台后端配置有若干平台服务器;
所述平台后端,用于根据预先配置的配置文件扫描对应的压缩包存储路径,从所述分布式文件系统下载对应的压缩包文件到相应的平台服务器;
所述平台前端,用于接收用户通过访问平台可视化界面发送的请求信息,将所述请求信息发送至所述负载均衡代理服务器;
所述负载均衡代理服务器,用于根据平台前端发送的请求信息进行负载均衡,将所述请求信息分发到平台后端相应的平台服务器,或者分发到平台后端相应的平台服务器及其备份服务器;
所述平台后端,还用于接收并呈现平台服务器,或者平台服务器及其备份服务器响应所述请求信息返回的基于本机上的压缩包文件生成的图片。
9.一种数据处理系统,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1-6中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的数据处理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811548403.4A CN111339221B (zh) | 2018-12-18 | 2018-12-18 | 数据处理方法、系统及存储介质 |
PCT/CN2019/118770 WO2020125290A1 (zh) | 2018-12-18 | 2019-11-15 | 数据处理方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811548403.4A CN111339221B (zh) | 2018-12-18 | 2018-12-18 | 数据处理方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339221A CN111339221A (zh) | 2020-06-26 |
CN111339221B true CN111339221B (zh) | 2024-04-26 |
Family
ID=71100161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811548403.4A Active CN111339221B (zh) | 2018-12-18 | 2018-12-18 | 数据处理方法、系统及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111339221B (zh) |
WO (1) | WO2020125290A1 (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101159603A (zh) * | 2007-10-30 | 2008-04-09 | 中兴通讯股份有限公司 | 一种无线网络海量数据存储方法 |
CN102521298A (zh) * | 2011-11-30 | 2012-06-27 | 北京地拓科技发展有限公司 | 一种时空栅格数据存储管理方法和系统 |
CN103186549A (zh) * | 2011-12-28 | 2013-07-03 | 泰瑞数创科技(北京)有限公司 | 一种海量瓦片栅格数据文件的管理方法 |
CN103678682A (zh) * | 2013-12-26 | 2014-03-26 | 中国科学院遥感与数字地球研究所 | 基于抽象模板的海量栅格数据处理及管理方法 |
CN104361064A (zh) * | 2014-11-04 | 2015-02-18 | 中国银行股份有限公司 | 对数据文件的数据清洗方法和数据文件处理方法 |
CN104820714A (zh) * | 2015-05-20 | 2015-08-05 | 国家电网公司 | 基于hadoop的海量瓦片小文件存储管理方法 |
CN105718499A (zh) * | 2015-12-11 | 2016-06-29 | 中国地质调查局发展研究中心 | 地质资料数据清洗方法及系统 |
CN106570160A (zh) * | 2016-11-04 | 2017-04-19 | 北方工业大学 | 一种海量时空数据清洗方法及装置 |
CN106777150A (zh) * | 2016-12-19 | 2017-05-31 | 国网山东省电力公司电力科学研究院 | 一种融合电网运行环境及设备信息的跨系统数据转换方法 |
CN107766541A (zh) * | 2017-10-30 | 2018-03-06 | 北京国电通网络技术有限公司 | 配用电全局全量数据传输及存储方法、装置、电子设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9703797B2 (en) * | 2015-02-18 | 2017-07-11 | Exagrid Systems, Inc. | Multi-level deduplication |
CN105868365A (zh) * | 2016-03-30 | 2016-08-17 | 浪潮通信信息系统有限公司 | 一种基于Hadoop的传统网管数据处理方法 |
GB201615747D0 (en) * | 2016-09-15 | 2016-11-02 | Gb Gas Holdings Ltd | System for data management in a large scale data repository |
CN106649801A (zh) * | 2016-12-29 | 2017-05-10 | 广东精规划信息科技股份有限公司 | 一种基于多源物联网位置感知的时空关系分析系统 |
CN107608862B (zh) * | 2017-10-13 | 2020-10-27 | 众安信息技术服务有限公司 | 监控告警方法、监控告警装置及计算机可读存储介质 |
CN107704601A (zh) * | 2017-10-13 | 2018-02-16 | 中国人民解放军第三军医大学第附属医院 | 大数据检索方法与系统、计算机存储介质及电子设备 |
-
2018
- 2018-12-18 CN CN201811548403.4A patent/CN111339221B/zh active Active
-
2019
- 2019-11-15 WO PCT/CN2019/118770 patent/WO2020125290A1/zh active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101159603A (zh) * | 2007-10-30 | 2008-04-09 | 中兴通讯股份有限公司 | 一种无线网络海量数据存储方法 |
CN102521298A (zh) * | 2011-11-30 | 2012-06-27 | 北京地拓科技发展有限公司 | 一种时空栅格数据存储管理方法和系统 |
CN103186549A (zh) * | 2011-12-28 | 2013-07-03 | 泰瑞数创科技(北京)有限公司 | 一种海量瓦片栅格数据文件的管理方法 |
CN103678682A (zh) * | 2013-12-26 | 2014-03-26 | 中国科学院遥感与数字地球研究所 | 基于抽象模板的海量栅格数据处理及管理方法 |
CN104361064A (zh) * | 2014-11-04 | 2015-02-18 | 中国银行股份有限公司 | 对数据文件的数据清洗方法和数据文件处理方法 |
CN104820714A (zh) * | 2015-05-20 | 2015-08-05 | 国家电网公司 | 基于hadoop的海量瓦片小文件存储管理方法 |
CN105718499A (zh) * | 2015-12-11 | 2016-06-29 | 中国地质调查局发展研究中心 | 地质资料数据清洗方法及系统 |
CN106570160A (zh) * | 2016-11-04 | 2017-04-19 | 北方工业大学 | 一种海量时空数据清洗方法及装置 |
CN106777150A (zh) * | 2016-12-19 | 2017-05-31 | 国网山东省电力公司电力科学研究院 | 一种融合电网运行环境及设备信息的跨系统数据转换方法 |
CN107766541A (zh) * | 2017-10-30 | 2018-03-06 | 北京国电通网络技术有限公司 | 配用电全局全量数据传输及存储方法、装置、电子设备 |
Non-Patent Citations (1)
Title |
---|
基于FSM的物联网大数据清洗算法;郭雷勇;A;20200229;第53卷(第2期);301-311 * |
Also Published As
Publication number | Publication date |
---|---|
CN111339221A (zh) | 2020-06-26 |
WO2020125290A1 (zh) | 2020-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8670614B2 (en) | Method and system for providing tile map service using image fusion | |
CN103593147B (zh) | 一种数据读取的方法及装置 | |
CN104834722A (zh) | 基于cdn的内容管理系统 | |
CN106791889B (zh) | 一种视频处理方法及系统、分布式对象存储系统 | |
CN110599891B (zh) | 一种电网设备地图渲染方法 | |
CN106453572B (zh) | 基于云服务器同步图像的方法及系统 | |
CN101136911A (zh) | 一种采用p2p技术下载文件的方法和p2p下载系统 | |
CN110096660A (zh) | 用于加载页面图片的方法、装置和电子设备 | |
CN105912698A (zh) | 磁盘中数据文件的删除方法及系统 | |
US20190114989A1 (en) | Systems and methods for image optimization | |
CN104346345A (zh) | 数据的存储方法及装置 | |
JPH1027165A (ja) | 分散情報サービスシステム | |
CN105610869B (zh) | 一种流媒体的调度方法及装置 | |
CN106682167A (zh) | 用户行为数据的统计装置及方法 | |
CN105187562A (zh) | 操作远程文件的系统及方法 | |
US8099578B2 (en) | Method and system for finding scrolled regions within a tile cache | |
CN111339221B (zh) | 数据处理方法、系统及存储介质 | |
CN106815283A (zh) | 数据处理方法、装置及电子设备 | |
CN110968704B (zh) | 一种RADOS Gateway的多媒体处理方法 | |
CN109617960B (zh) | 一种基于属性化分离的web AR数据呈现方法 | |
CN103825922B (zh) | 一种数据更新方法及web服务器 | |
CN107592553A (zh) | 一种图像压缩代理权衡处理方法及装置 | |
CN115827236A (zh) | 实景三维在云发布过程中负载性能优化方法及系统 | |
JP2013145954A (ja) | 分散情報処理装置 | |
CN104378396A (zh) | 数据管理装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |