CN105589951A - 一种海量遥感影像元数据分布式存储方法及并行查询方法 - Google Patents

一种海量遥感影像元数据分布式存储方法及并行查询方法 Download PDF

Info

Publication number
CN105589951A
CN105589951A CN201510958688.9A CN201510958688A CN105589951A CN 105589951 A CN105589951 A CN 105589951A CN 201510958688 A CN201510958688 A CN 201510958688A CN 105589951 A CN105589951 A CN 105589951A
Authority
CN
China
Prior art keywords
data
tree
node
dkd
sensing image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510958688.9A
Other languages
English (en)
Other versions
CN105589951B (zh
Inventor
王学志
王逢阳
周园春
黎建辉
肖潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201510958688.9A priority Critical patent/CN105589951B/zh
Publication of CN105589951A publication Critical patent/CN105589951A/zh
Application granted granted Critical
Publication of CN105589951B publication Critical patent/CN105589951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海量遥感影像元数据分布式存储方法及并行查询方法。涉及基于HDFS存储、Spark分布式并行计算、Redis内存缓存的海量遥感影像元数据并行空间索引构建和查询。该方法在KD-Tree算法基础上发明了DKD-Tree算法。在Spark框架下利用DKD-Tree算法构建分区,将构建的分区数据保存在HDFS中,利用Spark先在构建的DKD-Tree中进行分区查询,再在查询到的分区中进行具体的查询,基于DKD-Tree的查询大大缩减查询范围,提高查询效率。本发明可以在大数据环境下对遥感影像元数据做到实时查询,在数据量增加时,可以增加Spark节点保证查询的实时性,具有很好的可扩展性。

Description

一种海量遥感影像元数据分布式存储方法及并行查询方法
技术领域
本发明属于海量遥感影像元数据查询领域,适用于海量遥感影像元数据的分布式存储和分布式并行查询。具体涉及一种基于HDFS存储、Spark分布式并行计算、Redis内存缓存的海量遥感影像元数据并行空间索引构建和分布式并行查询方法。
背景技术
随着遥感影像元数据的不断积累,传统的空间数据库已不能满足对数据增长的存储和查询。大数据技术的出现,海量遥感影像元数据的存储、查询、分析成为了可能。空间数据库是通过空间索引技术提高查询效率,常用的索引技术有网格、KD树、四叉树、R树以及它们的变形。国内外空间数据库厂商一般采用四叉树和R-树的索引方法,如国外的ArcView、GeoSpatialDataBlade均采用R树系列的空间索引技术,国内的MapGis和SuperMap均采用四叉树作为空间索引,Oracle公司的SpatialWare采用了四叉树和R树结合的索引方法。
单机的文件系统不能满足大数据的存储和查询分析。随着近几年大数据技术的出现,文件系统得到了快速发展,出现了大量基于硬盘的分布式文件系统和基于内存的分布式文件系统。分布式文件系统HDFS已经被广泛运用。HDFS是一个高容错性、高吞吐率、适合海量数据集、能够部署在廉价的机器上的分布式文件系统。
现阶段大数据计算框架层出不穷,Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果和最终结果可以保存在内存中,从而不需要多次读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。本发明的分区是基于树的构建,构建过程是递归迭代的过程。在树上查询也是基于内存,Spark能够将数据缓存到内存。基于以上优点,本发明的实施阶段采用Spark框架实现。
发明内容
针对遥感影像元数据具有数据量大、计算复杂度高等特点,提出了一种海量遥感影像元数据分布式存储方法及并行查询方法。本方法对遥感影像元数据进行均匀地理分区,对分区后的数据进行分布式并行查询的解决方案。
均匀地理分区是指在大数据框架Spark下,根据现有的KD-Tree算法发明了DKD-Tree算法。首先根据DKD-Tree算法对遥感影像元数据构建索引树。其次在构建DKD-Tree的过程中,将DKD-Tree索引子树序列化并分散存储在分布式文件系统HDFS的各个机器节点上。最后将DKD-Tree叶子节点上的数据以一个数据分区保存到HDFS中。在对数据分区的时候,根据DKD-Tree叶子节点数据条数阈值保证每个分区中数据量能够使得Spark单个Task快速计算。原始的KD-Tree算法只能对空间点数据(例如坐标数据)构建空间索引,DKD-Tree算法可以对空间面数据(例如多边形)构建空间索引,其次原始的KD-Tree算法不能在分布式下并行构建索引。
海量数据查询是指利用Spark分布式并行计算能力,对遥感影像元数据在DKD-Tree上进行分布式并行分区查询。将查询到的分区在Spark集群节点上进行并行计算,最后将所有机器上的查询结果汇总,然后缓存到Redis内存数据库中。
数据分区和数据查询的具体步骤如下:
(a)海量遥感影像元数据分区:
1.将原始未分区的海量遥感影像元数据存储到分布式文件系统HDFS中。
2.根据属性进行属性(例如遥感影像元数据产生的时间,遥感影像元数据的文件大小,遥感影像元数据的地理区域[例如中国、美国等]等)分区,并冗余存储到HDFS。优化针对不同属性条件进行快速查询。
3.利用DKD-Tree算法对每个属性分区后的数据再分别进行均匀地理范围(地理范围指遥感影像元数据的经纬度范围)分区。
(1)参看图1,首先读取所有遥感影像元数据,计算最大经度和最大纬度的均值和方差、数据总条数N、最小边界矩阵MBR(MinimumBoundingRectangle)。构建DKD-Tree根节点。将根节点保存到队列中。从队列中弹出一个节点标记为当前节点。
计算最小边界矩阵MBR:计算每条元数据的最小经度minLon,最大经度maxLon,最小纬度minLax,最大纬度minLax。
计算纬度(经度)的均值公式:
Mean max L a t = Σ i N max L a t N , Mean max L o n = Σ i N max L o n N .
计算纬度(经度)的方差公式:
Var max L o n = Σ i N ( max L o n - Mean max L o n ) 2 N , Var max L a t = Σ i N ( max L a t - Mean max L a t ) 2 N .
(2)判断如果当前节点数据条数小于最小数据条数阈值,则当前节点不再分裂。将当前节点标记为叶子节点,并分配唯一的ID标识。
(3)判断如果当前树深度大于树深度阈值则将当前树序列化并保存到HDFS。将当前树的每个叶子节点中的数据保存到HDFS。(将叶子节点ID作为文件夹名称,将叶子节点中数据保存到文件夹中。)
(4)如果当前节点数据条数小于等于最小数据条数阈值。选择方差最大的维度(经度或者纬度)进行数据划分。计算数据条目的中位数。(中位数:例如方差最大维是经度。1.首先对所有数据按照最大经度maxLon排序。2.求出最大经度的中位数。)
方差最大维(经度或者纬度):Maxdim=max(VarmaxLat,VarmaxLon)
(5)根据(4)中计算的中位数将数据分为三个分支。①.最大边界(如果最大维为经度,最大边界指最大经度maxLon)小于中位数的影像数据。②最小边界(如果最大维为经度,最小边界指最小经度minLon)大于中位数的影像数据。③数据在①和②之外的其他数据。
(b)海量遥感影像元数据查询:
1.针对遥感影像元数据进行分区并行查询。
(1)参看图2,将(a)中构建的所有的DKD-Tree缓存到集群各个节点的内存中。
(2)将查询条件(例如查询多边形polygon)在对应DKD-Tree树上进行查询,查询数据所在分区。比如说查询条件中带有时间条件(2013-2015年),DKD-Tree按照年份构建的树,比如2013年构建多颗DKD-Tree,2014年构建多颗DKD-Tree,2015年构建多颗DKD-Tree;那么对应的DKD-Tree即指根据2013、2014、2015年份构建的所有DKD-Tree。
①对于完全覆盖(查询多边形完全包含DKD-Tree节点的MBR)DKD-Tree的节点的查询,如果当前节点是叶子节点,返回(叶子节点ID,数据条数count)。如果不是叶子节点,将该节点下的所有叶子节点都返回(叶子节点ID,数据条数count)。
②对部分覆盖(查询多边形与DKD-Tree节点的MBR相交)的叶子节点,返回叶子节点ID。
(3)在遥感影像元数据中查询。(对于(2)中完全覆盖的数据都满足条件,因此不用在遥感影像元数据中查询)。
①从HDFS中读取(2)所有部分覆盖分区(每个叶子节点中的数据保存到HDFS,即为一个分区)下的数据M。
②利用Spark计算查询多边形与每个分区下遥感影像元数据是否相交。
③最后对每个分区的遥感影像元数据相交条数进行累加。
④返回分区(区号等于叶子节点ID)和该分区下相交条数(叶子节点ID,数据条数count)。
(4)将完全覆盖的查询结果和部分覆盖查询结果汇总。汇总结果为一个数组result。数组格式为[(leftID1,count1),(leftID2,count2),……]。
(5)将汇总结果按照叶子节点ID排序。
(6)将排序后的结果缓存到内存数据库Redis中,保存格式为(查询多边形,result)。
2.针对分页查询返回结果。
(1)根据每次查询条件(例如查询多边形和页码[polygon,pageNum]),首先根据查询多边形polygon从Redis中读取缓存结果。
(2)根据当前页号pageNum、每页数据条数pageSize和1中(4)得到的缓存结果result,计算数据所在分区。
①计算最小分区。
partIDMin=min(P),其中P满足(count1+count2+…+countP)/pageSize>pageNum。
②计算最大分区。
partIDMax=min(Q),其中Q满足(count1+count2+…+countQ)/pageSize>=(pageNum+1)。
③当前页数据所在分区为(P,P+1,P+2,……,Q-2,Q-1,Q),其中P和Q都是正整数且P<=Q,(P+1,P+2,……,Q-2,Q-1)分区中所有满足多边形相交的数据都要返回。在P分区中只需要返回最后R条数据Pr,在Q中只需要返回前T条数据Qt。
④P中的最后R条数据Pr。
Pr=(count1+count2+…+countP)-pageSize*(pageNum-1)。
⑤Q中前T条数据Qt。
Qt=pageSize*pageNum-(count1+count2+…+countQ-2+countQ-1)。
(3)并行查询当前页数据。
①计算当前页数据在每个分区下的数据范围。根据(2)中的计算结果可知,(P,P+1,P+2,……,Q-2,Q-1,Q)分区下的数据范围为[(Pr,countP),(0,countP+1),(0,countP+2),……,(0,countQ-2),(0,countQ-1),(Qt,countQ)]。
②并行计算每个分区下数据。(如果当前分区是完全覆盖,同样不需要重新计算,直接返回即可)。
Ⅰ.从HDFS中读取每个分区数据。
Ⅱ.对查询多边形与每个分区中的数据计算是否相交。
Ⅲ.分别收集每个分区中相交数据。
Ⅳ.对每个分区中的相交数据按照遥感影像元数据的编号进行排序。
Ⅴ.根据每个分区的数据范围[(Pr,countP),(0,countP+1),(0,countP+2),……,(0,countQ-2),(0,countQ-1),(Qt,countQ)],返回每个分区下满足当前页的数据。
Ⅵ.对Ⅴ中所有返回的数据进行汇总。
与现有技术相比,本发明的积极效果如下:
在传统地理空间数据库中,对遥感影像元数据构建索引并查询,如果数据超过2G,覆盖数据条数超过800万条,每次查询接近30秒。利用数据库可编程性受到了限制,只能通过SQL、数据库函数等进行查询优化,优化效果不会提高太多。特别是在海量数据下,数据库技术难以实现查询。
传统的KD-Tree算法一般只能在单机上对点空间对象进行空间索引构建。DKD-Tree算法能够在分布式环境下构建索引和处理点、线、面、体等空间对象的查询。
表1是利用DKD-Tree在Spark下做的查询统计,可以看出对于大查询,覆盖的分区会增多,但是完全覆盖的分区也会增多,由于完全覆盖的分区计算量很小,因此查询时间会大大节省。
表1Spark下利用DKD-Tree查询统计表
如图3所示在空间数据库、单独利用Spark、在Spark下利用DKD-Tree查询时间的对比图,该图能够有效的说明本方法和空间数据库以及单纯的Spark在海量遥感影像元数据下查询的效率。
如图4所示如果集群增加计算节点核数,每个查询的时间在不断减小。所以随着数据量的增加,只要增加集群资源,即可保证查询的实时性。因此该发明具有很好的扩展性。如图5所示如果不对遥感影像元数据进行均匀物理分区,只是用Spark进行分布式并行计算。在每次查询的时候,要读取所有遥感影像元数据,计算的时候要耗费大量的计算节点和CPU核数,计算时间大大增加,不能保证查询的实时性。
图3、图4、图5是第一次查询所消耗的时间。利用本发明在非第一页查询的速度均不会超过1秒,利用空间数据库非第一次查询的时间会稳定在5-15s之间,只利用Spark非第一次查询时间会比第一次查询花费的时间更多。
本发明不仅可以解决海量数据查询,而且实时性能够得到保证。有利于构建大型地理信息查询系统。
附图说明
图1是本发明基于Spark构建DKD-Tree树的分布式并行分区步骤图。
图2是本发明基于Spark在DKD-Tree树上分布式并行查询的步骤图。
图3是在空间数据库、Spark、Spark和DKD-Tree三种情况第一次查询结果图。
图4是在Spark建DKD-Tree之后在集群核数增加情况下第一次查询结果图。
图5是在Spark下计算核数增加情况下的查询结果图。
具体实施方式
本发明的具体实施方案是结合HDFS和Spark大数据框架进行数据存储和高效查询。HDFS可以做到数据分布式存储,在大数据环境下,HDFS能够保证数据一致性和数据容灾。如果想要实现大数据的高效查询必须做到数据常驻内存和任务常驻内存并且在计算的时候数据分布均匀,不出现长尾现象。Spark作为分布式并行计算框架能够实现数据缓存,合理高效的任务调度,这为遥感影像元数据的高效查询提供了基础。
1.对数据进行属性分区。
(1)首先对数据按照年份属性进行分区。在HDFS中以年份、月份创建文件夹。以2000年为例,创建200001文件夹。200001代表2000年1月份。将2000年一月份的数据保存到该文件夹下。
(2)其次以区域进行属性分区。比如按照美国、中国等国家进行分区。
(3)由于用户在查询数据的时候有查询条件,查询条件中一般都附带有属性。可以根据用户的查询习惯进行属性分区。
2.在Spark下利用DKD-Tree算法分布式并行分区。
(1)选择分裂维度:从HDFS上读取所有数据,计算经度和纬度最大值的均值和方差,选择方差最大的维度进行分裂数据。
(2)计算分裂值:利用Spark并行计算数据总条数Count和数据条数的中位数,按照所选维度边界的最大值排序,获取中位数数据条目,将该数据条的所选维度最大值作为分裂值。
(3)分裂数据:如果元数据的最大值小于分裂值,将该元数据加入node1节点。如果元数据的最小值大于分裂值,将元数据放入node3节点。将剩余即不满足node1又不满足node3要求的元数据放入node2。
(4)递归分裂:执行第一步,递归地进行数据分裂。
(5)停止分裂:如果当前节点小于等于节点最大元数据数量,则当前节点不再分裂。
(6)保存元数据:将不再分裂的叶子节点数据保存到HDFS。文件名称为叶子结点编号。
(7)保存DKD-Tree树:在保存DKD-Tree树的时候,如果树的深度大于最大深度阈值,就要将该棵树序列化保存,防止树的层数过大,在树中并行查询的时候出现长尾现象(在树中查询分区的时候,如果有一颗子树的深度过大,其它子树都查询结束了,还要等待该子树查询结束,才能一块返回查询分区)。
3.利用Spark进行海量遥感元数据查询。
(1)由于Spark本身不带任务常驻内存服务和远程调用服务,可以利用RPC远程过程调用协议技术(RemoteProcedureCallProtocol)实现远程调用和Spark任务常驻内存。
(2)数据的缓存功能主要包括DKD-Tree的缓存和原始数据缓存。首先将DKD-Tree缓存到Spark集群各个节点的内存,然后利用Spark的Cache功能将原始数据尽可能多的缓存到各个机器的内存(Spark的缓存可以控制百分比,默认百分比为4:6,其中Spark计算内存占40%,数据缓存内存占60%)。
(3)由于数据的查询一般都有分页功能,在分页的时候需要先查询数据的总条数。因此在第一次查询的时候将查询的数据总条数和查询结果在各个分区的分布情况缓存到内存数据库Redis。以查询多边形相交为例,查询的具体实施方案如下:首先根据查询多边形在DKD-Tree上递归查询分区。具体是将查询多边形与DKD-Tree节点的MBR进行计算,如果满足查询多边形完全包含MBR,直接将该节点下所有叶子节点分区号和分区数据条数返回。如果查询多边形与MBR相交,利用Spark的分布式并行计算能力,计算该分区下所有元数据与查询多边形的相交情况,累计相交的数据条数并返回。如果查询多边形的MBR和树节点的MBR不相交,则直接跳过该结点。
(4)在所有机器上并行计算结束后,收集所有查询结果,并合并为数组序列。数组的数据格式为(PartitionID,count)分区编号和该分区下满足多边形相交的数据总条数。然后将所有数据按照PartitionID进行排序,最终缓存到内存数据库Redis中。存储时以多边形为Key,以数据序列为value。
(5)在除了第一次的查询中,首先从Redis中获取value值,根据查询的当前页数计算数据所在分区,根据数据分区利用Spark并行计算。将当前页的数据结果汇总返回。

Claims (10)

1.一种海量遥感影像元数据分布式存储方法,其步骤为:
1)根据设定属性对海量遥感影像元数据进行属性分区;
2)对每一属性分区后的数据分别进行均匀地理范围分区;
21)首先读取每一属性分区中的遥感影像元数据,计算遥感影像元数据的最大经度的均值和方差、最大纬度的均值和方差、数据总条数N、最小边界矩阵MBR,构建DKD-Tree根节点,然后将根节点保存到一队列中;
22)从该队列中弹出一个节点标记为当前节点,如果当前节点的数据条数小于最小数据条数阈值,则当前节点不再分裂;将当前节点标记为叶子节点,并分配唯一的ID标识;如果当前节点数据条数大于或等于最小数据条数阈值,则选择方差最大的维度进行数据划分,即首先根据所选维度计算数据条目的中位数,然后根据该中位数将数据分为三个分支:①最大边界小于中位数的影像数据、②最小边界大于中位数的影像数据以及在情况①和②之外的数据;然后将分支节点放入该队列中;
23)重复步骤22)构建每一属性分区的DKD-Tree树,当当前DKD-Tree树深度大于树深度阈值则将当前DKD-Tree树序列化并保存,并保存当前DKD-Tree树的每个叶子节点中的数据。
2.如权利要求1所述的方法,其特征在于,所述方差最大的维度为经度或者纬度。
3.如权利要求1或2所述的方法,其特征在于,所述属性分区后的数据、DKD-Tree树序列化的数据、叶子节点中的数据均保存到HDFS系统中。
4.如权利要求3所述的方法,其特征在于,将叶子节点ID作为文件夹名称,将叶子节点中数据保存到对应文件夹中。
5.如权利要求3所述的方法,其特征在于,所述设定属性为遥感影像元数据产生的时间、遥感影像元数据的文件大小或遥感影像元数据的地理区域。
6.一种基于权利要求1所述海量遥感影像元数据分布式存储方法所存储数据的并行查询方法,其步骤为:
1)将各属性分区的DKD-Tree树分别缓存到集群各个节点的内存中;
2)根据查询条件在对应DKD-Tree树上进行查询:①对于完全覆盖DKD-Tree的节点的查询,如果当前节点是叶子节点,则返回该叶子节点ID及其数据条数;如果不是叶子节点,则返回当前节点下的每一叶子节点ID及其数据条数;②对部分覆盖的叶子节点,则返回该叶子节点ID;
3)读取步骤2)中所有部分覆盖的叶子节点对应的数据M;计算查询条件与每个叶子节点对应遥感影像元数据是否相交;将每一叶子节点中相交的遥感影像元数据条数进行累加;然后返回对应的叶子节点ID以及相交数据条数;
4)将完全覆盖的查询结果和部分覆盖查询的结果汇总返回。
7.如权利要求6所述的方法,其特征在于,利用Spark计算查询条件与每个叶子节点对应遥感影像元数据是否相交。
8.如权利要求6或7所述的方法,其特征在于,所述汇总结果为一个数组,该数组格式为[(叶子节点ID1,数据条数1),(叶子节点ID2,数据条数2),……]。
9.如权利要求6或7所述的方法,其特征在于,对汇总结果按照叶子节点ID排序,然后将排序后的结果缓存到内存数据库Redis中。
10.如权利要求9所述的方法,其特征在于,对于分页查询,即查询中包含查询条件和页码,则首先根据分页查询中的查询条件从内存数据库Redis中读取缓存结果,然后根据当前页码、每页数据条数和读取的缓存结果,计算数据所在的分区;然后计算当前页数据在每个叶子节点中的数据范围;然后从HDFS中读取每个分区数据,计算查询条件与每个分区中的相交数据,然后根据每个分区的数据范围返回每个分区中满足当前页的数据;最后对所有返回的数据进行汇总;其中,HDFS中的每一分区存储一叶子节点对应的数据。
CN201510958688.9A 2015-12-18 2015-12-18 一种海量遥感影像元数据分布式存储方法及并行查询方法 Active CN105589951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510958688.9A CN105589951B (zh) 2015-12-18 2015-12-18 一种海量遥感影像元数据分布式存储方法及并行查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510958688.9A CN105589951B (zh) 2015-12-18 2015-12-18 一种海量遥感影像元数据分布式存储方法及并行查询方法

Publications (2)

Publication Number Publication Date
CN105589951A true CN105589951A (zh) 2016-05-18
CN105589951B CN105589951B (zh) 2019-03-26

Family

ID=55929530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510958688.9A Active CN105589951B (zh) 2015-12-18 2015-12-18 一种海量遥感影像元数据分布式存储方法及并行查询方法

Country Status (1)

Country Link
CN (1) CN105589951B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975634A (zh) * 2016-06-22 2016-09-28 清华大学 分布式数据存储系统中多维有序数据的存储方法
CN106095929A (zh) * 2016-06-12 2016-11-09 惠龙易通国际物流股份有限公司 一种车船位置信息数据的处理方法及系统
CN106209989A (zh) * 2016-06-29 2016-12-07 山东大学 基于spark平台的空间数据并行计算系统及其方法
CN106528773A (zh) * 2016-11-07 2017-03-22 山东首讯信息技术有限公司 一种基于Spark平台支持空间数据管理的图计算系统及方法
CN106681807A (zh) * 2016-11-28 2017-05-17 中国人民解放军国防科学技术大学 一种基于Spark的成像卫星任务预处理并行化方法
CN107329983A (zh) * 2017-06-01 2017-11-07 昆仑智汇数据科技(北京)有限公司 一种机器数据分布式存储、读取方法及系统
CN108241655A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种系统数据转存方法
CN108549696A (zh) * 2018-04-16 2018-09-18 安徽工业大学 一种基于内存计算的时间序列数据相似性查询方法
CN108874799A (zh) * 2017-05-09 2018-11-23 中国科学院沈阳自动化研究所 高速并行数据查找方法
CN109033340A (zh) * 2018-07-23 2018-12-18 武汉大学 一种基于Spark平台的点云K邻域的搜索方法及装置
CN109299111A (zh) * 2018-11-14 2019-02-01 郑州云海信息技术有限公司 一种元数据查询方法、装置、设备及计算机可读存储介质
CN109344306A (zh) * 2018-07-27 2019-02-15 中国科学院计算机网络信息中心 一种领域多标准元数据定制化在线汇交与服务方法及系统
CN109450985A (zh) * 2018-10-17 2019-03-08 甘肃万维信息技术有限责任公司 一种基于Html5高性能的Web影像加载展现系统
CN109618308A (zh) * 2018-12-28 2019-04-12 济南浪潮高新科技投资发展有限公司 一种基于Spark Streaming处理物联网数据的方法
CN109726225A (zh) * 2019-01-11 2019-05-07 广东工业大学 一种基于Storm的分布式流数据存储与查询方法
CN109976904A (zh) * 2019-02-25 2019-07-05 贵州电网有限责任公司 Redis内存管理在采集系统的处理方法
CN110083598A (zh) * 2019-03-22 2019-08-02 深圳先进技术研究院 一种面向Spark的遥感数据索引方法、系统及电子设备
US10902069B2 (en) 2018-12-18 2021-01-26 Runtime Collective Limited Distributed indexing and aggregation
CN113127500A (zh) * 2019-12-30 2021-07-16 中科星图股份有限公司 分页查询方法、电子设备和计算机可读存储介质
CN113722518A (zh) * 2021-08-27 2021-11-30 中科星通(廊坊)信息技术有限公司 基于遥感影像元数据的存储方法、检索方法、设备及介质
CN114817443A (zh) * 2022-06-30 2022-07-29 广东省科学院广州地理研究所 一种基于瓦片的卫星遥感图像数据处理方法及装置
CN117056088A (zh) * 2023-10-11 2023-11-14 武汉大学 一种基于MapReduce的多模态测图数据分布式并行计算方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339570A (zh) * 2008-08-12 2009-01-07 北京航空航天大学 一种高效的海量遥感数据分布式组织管理方法
CN102169494A (zh) * 2011-04-06 2011-08-31 北京师范大学 分布式遥感数据管理系统和管理方法
CN102402530A (zh) * 2010-09-13 2012-04-04 方正国际软件有限公司 一种元数据分布式查询方法、装置及系统
CN102446208A (zh) * 2011-09-02 2012-05-09 华东师范大学 一种基于分布式的海量遥感影像快速建立金字塔算法
CN102508639A (zh) * 2011-10-10 2012-06-20 北京邮电大学 一种基于卫星遥感数据特征的分布式并行处理方法
US20130151202A1 (en) * 2006-08-17 2013-06-13 At&T Intellectual Property I, L.P. Collaborative incident media recording system
CN103595791A (zh) * 2013-11-14 2014-02-19 中国科学院深圳先进技术研究院 一种海量遥感数据的云存取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130151202A1 (en) * 2006-08-17 2013-06-13 At&T Intellectual Property I, L.P. Collaborative incident media recording system
CN101339570A (zh) * 2008-08-12 2009-01-07 北京航空航天大学 一种高效的海量遥感数据分布式组织管理方法
CN102402530A (zh) * 2010-09-13 2012-04-04 方正国际软件有限公司 一种元数据分布式查询方法、装置及系统
CN102169494A (zh) * 2011-04-06 2011-08-31 北京师范大学 分布式遥感数据管理系统和管理方法
CN102446208A (zh) * 2011-09-02 2012-05-09 华东师范大学 一种基于分布式的海量遥感影像快速建立金字塔算法
CN102508639A (zh) * 2011-10-10 2012-06-20 北京邮电大学 一种基于卫星遥感数据特征的分布式并行处理方法
CN103595791A (zh) * 2013-11-14 2014-02-19 中国科学院深圳先进技术研究院 一种海量遥感数据的云存取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GANG FU.ETC: "Segmentation for High-Resolution Optical Remote Sensing Imagery Using Improved Quadtree and Region Adjacency Graph Technique", 《REMOTE SENSING》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095929A (zh) * 2016-06-12 2016-11-09 惠龙易通国际物流股份有限公司 一种车船位置信息数据的处理方法及系统
CN105975634A (zh) * 2016-06-22 2016-09-28 清华大学 分布式数据存储系统中多维有序数据的存储方法
CN106209989B (zh) * 2016-06-29 2019-04-16 山东大学 基于spark平台的空间数据并行计算系统及其方法
CN106209989A (zh) * 2016-06-29 2016-12-07 山东大学 基于spark平台的空间数据并行计算系统及其方法
CN106528773A (zh) * 2016-11-07 2017-03-22 山东首讯信息技术有限公司 一种基于Spark平台支持空间数据管理的图计算系统及方法
CN106528773B (zh) * 2016-11-07 2020-06-26 山东联友通信科技发展有限公司 一种基于Spark平台支持空间数据管理的图计算系统及方法
CN106681807A (zh) * 2016-11-28 2017-05-17 中国人民解放军国防科学技术大学 一种基于Spark的成像卫星任务预处理并行化方法
CN106681807B (zh) * 2016-11-28 2020-04-14 中国人民解放军国防科学技术大学 一种基于Spark的成像卫星任务预处理并行化方法
CN108241655A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种系统数据转存方法
CN108874799B (zh) * 2017-05-09 2021-11-30 中国科学院沈阳自动化研究所 高速并行数据查找方法
CN108874799A (zh) * 2017-05-09 2018-11-23 中国科学院沈阳自动化研究所 高速并行数据查找方法
CN107329983B (zh) * 2017-06-01 2020-12-01 昆仑智汇数据科技(北京)有限公司 一种机器数据分布式存储、读取方法及系统
CN107329983A (zh) * 2017-06-01 2017-11-07 昆仑智汇数据科技(北京)有限公司 一种机器数据分布式存储、读取方法及系统
CN108549696B (zh) * 2018-04-16 2022-02-01 安徽工业大学 一种基于内存计算的时间序列数据相似性查询方法
CN108549696A (zh) * 2018-04-16 2018-09-18 安徽工业大学 一种基于内存计算的时间序列数据相似性查询方法
CN109033340A (zh) * 2018-07-23 2018-12-18 武汉大学 一种基于Spark平台的点云K邻域的搜索方法及装置
CN109033340B (zh) * 2018-07-23 2021-03-16 武汉大学 一种基于Spark平台的点云K邻域的搜索方法及装置
CN109344306B (zh) * 2018-07-27 2021-12-10 中国科学院计算机网络信息中心 一种领域多标准元数据定制化在线汇交与服务方法及系统
CN109344306A (zh) * 2018-07-27 2019-02-15 中国科学院计算机网络信息中心 一种领域多标准元数据定制化在线汇交与服务方法及系统
CN109450985A (zh) * 2018-10-17 2019-03-08 甘肃万维信息技术有限责任公司 一种基于Html5高性能的Web影像加载展现系统
CN109299111A (zh) * 2018-11-14 2019-02-01 郑州云海信息技术有限公司 一种元数据查询方法、装置、设备及计算机可读存储介质
US10902069B2 (en) 2018-12-18 2021-01-26 Runtime Collective Limited Distributed indexing and aggregation
CN109618308A (zh) * 2018-12-28 2019-04-12 济南浪潮高新科技投资发展有限公司 一种基于Spark Streaming处理物联网数据的方法
CN109726225B (zh) * 2019-01-11 2023-08-01 广东工业大学 一种基于Storm的分布式流数据存储与查询方法
CN109726225A (zh) * 2019-01-11 2019-05-07 广东工业大学 一种基于Storm的分布式流数据存储与查询方法
CN109976904A (zh) * 2019-02-25 2019-07-05 贵州电网有限责任公司 Redis内存管理在采集系统的处理方法
CN110083598A (zh) * 2019-03-22 2019-08-02 深圳先进技术研究院 一种面向Spark的遥感数据索引方法、系统及电子设备
CN113127500A (zh) * 2019-12-30 2021-07-16 中科星图股份有限公司 分页查询方法、电子设备和计算机可读存储介质
CN113722518A (zh) * 2021-08-27 2021-11-30 中科星通(廊坊)信息技术有限公司 基于遥感影像元数据的存储方法、检索方法、设备及介质
CN114817443A (zh) * 2022-06-30 2022-07-29 广东省科学院广州地理研究所 一种基于瓦片的卫星遥感图像数据处理方法及装置
CN117056088A (zh) * 2023-10-11 2023-11-14 武汉大学 一种基于MapReduce的多模态测图数据分布式并行计算方法及系统
CN117056088B (zh) * 2023-10-11 2024-01-19 武汉大学 一种基于MapReduce的多模态测图数据分布式并行计算方法及系统

Also Published As

Publication number Publication date
CN105589951B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN105589951A (zh) 一种海量遥感影像元数据分布式存储方法及并行查询方法
CN109284338B (zh) 一种基于混合索引的卫星遥感大数据优化查询方法
EP3812915B1 (en) Big data statistics at data-block level
CN110147377B (zh) 大规模空间数据环境下基于二级索引的通用查询方法
US20140280375A1 (en) Systems and methods for implementing distributed databases using many-core processors
Dittrich et al. Indexing moving objects using short-lived throwaway indexes
US20130254212A1 (en) Data indexing system, data indexing method and data querying method
CN111586091B (zh) 一种实现算力组配的边缘计算网关系统
CN106796589B (zh) 空间数据对象的索引方法和系统
CN105574194B (zh) 一种用于电子地图界面的坐标点处理方法及装置
CN103118132B (zh) 一种面向时空数据的分布式缓存系统及方法
CN103473276A (zh) 超大型数据存储方法、分布式数据库系统及其检索方法
AU2020101071A4 (en) A Parallel Association Mining Algorithm for Analyzing Passenger Travel Characteristics
CN110175175A (zh) 一种基于spark的分布式空间二级索引与范围查询算法
Jing et al. An improved distributed storage and query for remote sensing data
CN111563081A (zh) 一种矢量要素并行计算方法、装置、存储介质及终端
Ceci et al. Big data techniques for supporting accurate predictions of energy production from renewable sources
Li et al. R-Store: A scalable distributed system for supporting real-time analytics
Shangguan et al. Big spatial data processing with Apache Spark
CN116775661A (zh) 基于北斗网格技术的空间大数据存储与管理方法
CN104239470A (zh) 一种面向分布式环境的空间数据复合处理系统和方法
EP3182299B1 (en) Methods and systems for estimating the number of points in two-dimensional data
CN112100130A (zh) 一种基于数据立方体模型的海量遥感变量多维聚合信息的计算方法
CN107341193B (zh) 路网中移动对象查询方法
CN104123329A (zh) 搜索方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant