CN113722274A

CN113722274A - 一种高效的R-tree索引遥感数据存储模型

Info

Publication number: CN113722274A
Application number: CN202110910728.8A
Authority: CN
Inventors: 许鑫; 马新明
Original assignee: Henan Agricultural University
Current assignee: Henan Agricultural University
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-30
Anticipated expiration: 2041-08-09
Also published as: CN113722274B

Abstract

本发明涉及一种高效的R‑tree索引遥感数据存储模型，该模型的具体操作步骤如下：文件分类算法、一级索引的建立、文件合并、二级索引的建立和索引缓存；基于R‑tree索引的优化分类树存储模型，解决采用多种分布式储存技术存储遥感数据的高效存储和快速查询问题，本模型在存储效率方面比传统分布式存储方式提高39%，基于R‑tree索引建立多级优化索引存储索引信息，并实现索引缓存减少查询时间，结果表明查询效率比传统分布式存储方式提高64.4%，基于R‑tree索引的优化分类树存储模型采用多种分布式存储技术实现对海量遥感数据的存储，不仅低成本的解决遥感数据的存储问题，而且提高了遥感数据的存储效率和查询效率，可以满足遥感数据的存储要求。

Description

一种高效的R-tree索引遥感数据存储模型

技术领域

本发明涉及遥感数据存储技术领域，尤其涉及一种高效的R-tree 索引遥感数据存储模型。

背景技术

随着遥感技术的不断发展，遥感数据的存储规模也在不断增大, 单景的遥感数据已经达到了GB级别并且仍在增加，总体来看，遥感数据呈现单个数据量持续增长，总体数据规模巨大化的趋势，传统的遥感数据存储技术因存在存储成本高，用户体验差等多种问题已经不能满足现在发展的需求；因此，遥感数据的存储时影响遥感技术发展的一个重要因素。

使用分布式的文件存储系统是解决这一问题的方法，分布式文件系统解决了海量遥感数据的存储问题，但是不同的分布式存储系统对不同规模数据文件的存储效率存在很大差距，分布式文件存储系统大致可分两类；

第一类传统的分布式文件存储系统，这类存储系统通常将大文件分割成小的文件块，然后对每一个小文件进行存储；使用Hadoop分布式文件系统存储空间数据，该方法基于编码技术提高数据的查询性能，提高HDFS中的数据平衡性；将云计算技术应用于地理信息系统，使用Hadoop实现了遥感数据的存储与管理系统，在有效的处理遥感数据同时提高了遥感数据的存储管理效率；但是HDFS更加适用于大数据文件的存储，无法满足遥感数据中的小文件的存储问题，当遥感数据中含有过多的小数据量文件存储时将会占用过多内存，增加主节点的负担，这类分布式文件系统适合海量的大文件的存储，对于小文件的存储会消耗更多的存储空间和存储访问时间；

第二类针对海量小文件的分布式存储系统针对非结构化数据的存储特点，提出了一种基于优化的集群MongoDB的高可用分布式存储系统，不仅可以增强数据的可用性，而且可以提高服务器的可伸缩性；等人针对数据模型变化的问题采用MongoDB对非结构化数据进行存储，并为了获得更好的性能，定义归一化程度和嵌入程度的策略，减少查询执行时间，相比HDFS而言MongoDB更加适合小数据量的非结构化数据的存储，这类存储系统主要针对海量小文件存储而设计的高可用、高性能、易扩展的分布式文件系统，其缺点是缺乏对大文件的存储管理方案。

遥感数据处理时通常用到多个分布式文件存储系统的场景，处理遥感数据时，通常需要对单景的遥感数据进行分割成含有标志物的小文件，对这些小文件再按照地块位置信息或者标志物特征进行二次分割形成更小的带有特征属性的遥感数据文件，遥感数据处理过程中，将会产生许多小文件数据，对HDFS中的小文件采用相关性分析对小文件进行分类，将相关的小文件合并成一个大文件进行存储有效减轻NameNode的负载，提高HDFS上海量小文件的存储和访问效率；人将小文件进行相关性分析进行分类，通过对分类后的三种不同类型的文件分别建立不同的存储方案实现小文件的高效存储和读取，建立小文件存储策略并将遥感数据分类存储到不同的分布式存储系统可以解决占用存储空间过多和存储效率低下的问题；因此，研发一种结合大文件和小文件相结合的高效分布式文件存储模型尤为重要。

另外，尽管遥感数据的分布式存储技术发展迅速，但缺乏一种适当的方法实现跨多个分布式存储系统的遥感数据的快速存储和精准查询；面向多个分布式存储系统，快速精准的检索遥感数据也是一个亟需解决的问题；跨多个分布式存储系统的存储和检索的解决方案是建立索引，通过索引检索出数据经过整合给出响应，这种方法会产生过多的索引数据占用存储空间，整合响应的过程会消耗过多的时间；等人提出了域索引，此方法是一种新的索引结构类别，用于跨多个存储库高效地查询数据域，域索引为多个数据库联动查询提供了可行的方法，但对于非结构化的遥感数据分布式存储时需要保证查询的性能，阐明了底层索引结构的选择如何影响不同查询操作的性能，并表明用于构建索引的方法和数据集的动态特性对这些索引结构的性能有显著影响，根据遥感数据的空间特征以及遥感数据之间的相互性我们选择面向多维度的索引结构：R-tree是用于空间查询的最流行的索引方法，在跨分布式系统存储中更能体现多维查询的优势，等人提出了一种新的空间聚类算法和r树插入算法，对空间索引性能的对比分析表明，新方法极大地减少了r树兄弟节点的重叠，保持了节点数量的平衡。索引信息的数量会随着存储数据的增加不断变多，为了更加快速的查询数据，索引数据的缓存是必要的，设计基于GIP+的索引缓冲区存储索引信息，以减少插入和搜索的成本，以用户的自定义的访问时间更改缓存区的数据减少查询的成本。

发明内容

本发明解决的问题在于提供一种高效的R-tree索引遥感数据存储模型，基于HDFS和MongoDB两种分布式存储技术实现遥感数据的跨数据库分类存储，基于R-Tree索引技术构建遥感数据的索引信息，利用缓存技术实现海量遥感数据高效存储和快速查询，目的是解决遥感数据处理过程中的数据存储问题，提供一种低成本，高扩展性的跨多个分布式存储系统的存储模型，为海量遥感数据存储和查询提供高效快捷，易于操作实施的解决方案，为海量遥感数据的存储与管理提供技术依据。

为了实现上述目的，本发明采用了如下技术方案：

一种高效的R-tree索引遥感数据存储模型，该模型的具体操作步骤如下：

步骤一：文件分类算法；

步骤二：一级索引的建立；

步骤三：文件合并；

步骤四：二级索引的建立；

步骤五：索引缓存。

优选的，所述一级索引的建立的具体操作步骤：遥感数据在存储之前对数据进行按照一定规则进行分类，能够有效提高存储效率，针对HDFS和MongoDB的存储特点，设计实验确定MongoDB和HDFS 两种分布式存储系统最佳的存储方案，并通过实验对比分析HDFS和MongoDB对不同数据量文件的存储效率，确定最高存储效率下的文件分类算法。

优选的，所述一级索引的建立的具体操作步骤：采用HDFS和 MongoDB两种分布式存储技术实现遥感数据的存储，文件分类后不同级别的文件需要存储到不同的数据库中，建立一级索引结构，确定不同级别文件存储的具体位置，提高数据检索的速度保证数据的安全性和唯一性。

优选的，所述文件合并的具体操作步骤：文件在上传到HDFS 时，判断文件是否大于数据块大小，当文件大于数据块大小时文件将直接存入数据库中，当文件小于数据块大小时，如果直接存入数据库会按照文件块大小存储占用大量的存储空间，通过文件合并的方法对小文件进行合并存储，能够减少数据的存储空间以及缓解NameNode 的内存压力，从而提高遥感数据的存取效率。

优选的，所述二级索引的建立的具体操作步骤：二级索引的建立主要用于确定小文件合并后的存储位置，通过建立临时合并存储文件和索引表，能够快速的对小文件进行读取。

优选的，所述索引缓存的具体操作步骤：当文件数据不断增大时，索引总量的大小也随之增大，当检索数据时的查询时间就会随之增大，通过索引缓存机制能够有效减少查询时间，增大检索效率。

本发明的有益效果是：利用文件分类的方法，基于R树索引的 CR-tree的存储模型，通过对遥感数据的存储特点进行实验与分析，通过文件分类的方法对遥感数据进行科学有效的分类，提高了本研究的存储模型的存储效率。建立了基于R树索引的优化多级索引模型，通过对分类后的遥感数据建立多级索引机制，通过索引缓存策略进一步实现遥感数据的精准的检索，减少了海量遥感数据存储时对 NameNode的请求次数，节省了文件检索所需的时间；

小文件高效存储方案将小文件的遥感数据文件进行合并储存，通过建立文件索引的方式对小文件进行高效快速的存储和查询，本文研究的储存模型提高海量遥感的存储效率和查询效率，当文件数量逐渐增加的情况下本研究的存储模型的存储优势逐渐变得明显；另外，本研究未采用并行存储方式，下一步可以考虑采用并行存储的方式进一步提高存储效率。

附图说明

图1为本发明流程图；

图2为本发明模型结构图；

图3为本发明一级索引表图；

图4为本发明存储结构图；

图5为本发明二级索引表图；

图6为本发明基于哈希表和双向链表的LRU算法图；

图7为本发明索引查询流程图；

图8为本发明不同数据下的HDFS和MongoDB存储时间图；

图9为本发明效率统计图；

图10为本发明存储时间对比图；

图11为本发明效率统计图；

图12为本发明查询速度对比图；

图13为本发明效率提升图；

图14为本发明计算公式图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面给出具体实施例。

参见图1，一种高效的R-tree索引遥感数据存储模型，该模型的具体操作步骤如下：

步骤一：文件分类算法，遥感数据在存储之前对数据进行按照一定规则进行分类，能够有效提高存储效率，针对HDFS和MongoDB 的存储特点，设计实验确定MongoDB和HDFS两种分布式存储系统最佳的存储方案，并通过实验对比分析HDFS和MongoDB对不同数据量文件的存储效率，确定最高存储效率下的文件分类算法；

步骤二：一级索引的建立，采用HDFS和MongoDB两种分布式存储技术实现遥感数据的存储，文件分类后不同级别的文件需要存储到不同的数据库中，建立一级索引结构，确定不同级别文件存储的具体位置，提高数据检索的速度保证数据的安全性和唯一性；

步骤三：文件合并，文件在上传到HDFS时，判断文件是否大于数据块大小，当文件大于数据块大小时文件将直接存入数据库中，当文件小于数据块大小时，如果直接存入数据库会按照文件块大小存储占用大量的存储空间，通过文件合并的方法对小文件进行合并存储，能够减少数据的存储空间以及缓解NameNode的内存压力，从而提高遥感数据的存取效率；

步骤四：二级索引的建立，二级索引的建立主要用于确定小文件合并后的存储位置，通过建立临时合并存储文件和索引表，能够快速的对小文件进行读取；

步骤五：索引缓存，当文件数据不断增大时，索引总量的大小也随之增大，当检索数据时的查询时间就会随之增大，通过索引缓存机制能够有效减少查询时间，增大检索效率。

文件分类的作用主要包括两个部分：通过预先的文件分类使本研究的存储模型达到最高的存储效率、分类后的数据便于索引的建立。

主要通过存储文件的大小对遥感数据进行三种级别的分类，通过 MongoDB和HDFS的存储特点，设计对应的实验的出最适合 MongoDB存储的文件大小范围以及HDFS最适合的文件大小，基于HDFS的文件块默认大小为128M，将文件分为三类，设定MongoDB 对小文件存储效率最高的文件大小为X，设计文件分类规则，不同级别的文件将会建立索引并存储到不同的数据库中。

文件分类算法的伪代码如下：

将利用R树空间索引模型的思想，通过对不同数据量的文件进行分级分类，通过建立多级别的索引实现空间索引。

模型结构如图2；

(1)一级索引表如图3所示，文件在存储是都会随机生成一个唯一的ID用来标识文件，字段file_name表示文件名称，字段storage_location表示文件的存储位置分为HDFS或者MongoDB，字段update_time表示文件的上一次修改时间，字段fiel_level表示通过文件分类后文件的级别。

为了优化HDFS中小文件的存储效率，将存入HDFS中的小文件进行合并后存储，当遥感数据文件存储时，如果文件大小小于数据块大小，将建立一个临时件用于存储小文件，并使用建立的二级索引表存储小文件的索引信息，存储结构如图4所示：

临时文件用于存储合并后小文件，小文件在临时文件中的位置信息存放在索引表中，通过索引表中的文件偏移量offset来确定小文件的起始位置，通过文件的大小file_size获得文件的全部数据实现小文件的索引。

(2)二级索引表如图5所示，二级索引表主要用来解决小文件合并存储的问题。表中字段tempfiel_id表示多个小文件合成后的临时文件的ID，字段tempfile_name表示临时文件的名字通常都以创建时间命名，字段file_name表示存储的小文件的名称，字段file_size表示文件的数据量的大小，字段offset表示小文件合并存储时的偏移量，字段update_time文件的上一次修改时间。

遥感数据能够通过文件的数据量的大小进行分类存储，通过建立不同级别的索引对文件进行有效的存储管理，实现了遥感数据的快速查询，并根据本文研究的存储模型的特点进行索引优化提高遥感数据的存储效率和读取效率。

随着文件存储数量的不断增加，索引数据量也随之不断增大，当进行文件查询时查询效率也会随之下降。通过缓存技术能够有效减少查询时间，通过分析农业遥感数据的实时性的存储特点将采用最近最久访问LRU策略，即当一个数据文件最近时间没有被访问，那么在将来被访问的可能性很小，基于以上的缓存策略，本文设计了基于哈希表和双向链表的LRU算法如图6：

缓存将使用哈希表存储文件的名称，值为链表中的节点，节点中存储文件索引，节点的顺序通过双向链表来记录，最近访问节点为 Head；

当文件存储时，设置哈希表中的Key值，如果哈希表中的文件名不存在，则新建节点，如果链表的长度超标，则将尾部的最后一个节点去掉替换成新节点，如果节点存储在则更新节点值，将节点置于链表头部；

当文件查询时，先查询缓存中的key值，如果Key值存在则取出对应的索引数据，并将对应节点移动到链表头部；

索引查询流程如图7：

读取遥感数据时，首先查询缓存中是否有对应的文件名，如果有则直接根据索引值查找文件，否则再根据文件名称进入MongoDB一级索引表中查找文件的存储位置，如果数据存储到MongoDB数据库中，可以确定存储文件为小文件直接通过二级索引表进行检索，若数据存储在HDFS中，通过判断文件级别确定文件大小，大文件直接在HDFS中进行检索，小文件通过二级索引表找出小文件存储的临时文件，并通过文件偏移量和文件大小对文件进行检索；

通过查询流程可得，在文件检索的过程中，减少了NameNode的 RPC请求时间，通过建立的索引模型直接想存储节点发送检索请求，节省了数据库内部请求和等待时间，提高了文件查询的效率。

一、HDFS与MongoDB小文件存储效率对比

HDFS的文件大小通常是GB到TB级别的，因此，HDFS在设计时被调整为支持大文件的存储，在存储小于HDFS分块大小的数据时，HDFS也会按照分块大小进行存储，增大了存储空间的同时也影响了存取效率；

MongoDB是一个介于关系数据库和非关系数据库之间的产品，使用高效的二进制数据存储，并且自动处理数据碎片实现数据的高效存储；

实验通过分析HDFS与MongoDB两种分布式数据库对小文件存储的效率的对比设计最优存储模型。

实验方案：

(1)从测试数据集中选出小于HDFS分块大小的数据集；

(2)从重新选取的测试集中分别选出100、500、1000、5000、 10000不同数量集的5组测试数据，记录不同测试数据集下的存储时间如图8；

通过上图HDFS和MongoDB存储时间的测试结果，通过效率计算公式1，可以得出图9的结果：

通过图和表可知在相同数据量的情况下MongoDB对小文件的存储效率更高，在不同数量级的小文件下，使用MongoDB数据库比HDFS提升的效率出现先增后减的趋势，在1000个文件时提升的效率达到86.2％，总体来说，MongoDB比HDFS更加适合小文件的存储。

二、存储

为了验证本文的CR-tree存储模型与原始HDFS在文件存储速度的差异，分别选取5组测试数据，分别存储到原始HDFS存储系统和使用CR-tree存储模型的异构数据库中，每组测试数据经过 3次存储，记录存储时间并取平均值，如图10：

由实验结果看出，本研究的CR-tree存储模型的存储速度优于原始HDFS的存储速度。通过效率计算公式1，可以得出如图11的结果；

当文件数量较小时，大文件和小文件数量相对平衡，两种存储模型都需要对NameNode节点发送请求，虽然CR-tree对NameNode 的请求次数远远少于原始HDFS，但两者的存储时间相差不多，随着文件数量的逐渐增加，HM存储模型的优势逐渐体现，在300000文件数量下CR-tree存储模型的存储速度远远大于原始HDFS。因此，由实验结果可以得出，随着存储文件数量的逐渐增加，CR-tree存储模型与原生HDFS的差距逐渐增大，存储优势更加明显，在文件数量达到30万时存储效率提升了39％。

三、检索

为验证本研究的HM模型与原始HDFS在数据查询速度的差异，从测试数据中分别选取5组测试数据，分别存储HDFS和本研究的HM异构数据库中，在每组测试数据中随机选取10个文件进行查询操作，取10次平均值作为最终查询时间；

结果如图12所示：

通过效率计算公式1，可以得出如图13的结果；

由实验结果看出，由于本研究中采用基于R树空间索引的 CR-tree模型，将分类后的文件预先建立一级索引，并将合并后的小文件建立二级索引，在检索遥感数据文件时减少了对NameNode的请求次数，直接从索引中查询文件，节省了查询的时间，所以本研究的HM存储模型的查询速度优于原始HDFS的查询速度。另外，当文件数量不断增大时，本研究的方案的查询优势更加明显，当文件数量达到30万时查询效率提升了64.4％。

计算公式1、2和3如图14：

公式(1)计算平均执行时间，公式(2)计算存储速率。公式(3)计算提升效率。

公式(1)中，Tend为命令执行的结束时间，Tstart为命令执行的开始时间，n为同一实验的执行次数，Tavg为平均执行时间。为了减少实验误差，同样的实验进行了多次，Tavgis的值通过多次结果平均计算得到；

公式(2)中v代表存储速率，p代表总的数据量，t代表总的存储时间；

公式(3)中的ρ是提升效率，Tb和Ta是两种方法的存储时间。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种高效的R-tree索引遥感数据存储模型，其特征在于，该模型的具体操作步骤如下：

步骤一：文件分类算法；

步骤二：一级索引的建立；

步骤三：文件合并；

步骤四：二级索引的建立；

步骤五：索引缓存。

2.根据权利要求1所述的一种高效的R-tree索引遥感数据存储模型，其特征在于，所述一级索引的建立的具体操作步骤：遥感数据在存储之前对数据进行按照一定规则进行分类，能够有效提高存储效率，针对HDFS和MongoDB的存储特点，设计实验确定MongoDB和HDFS两种分布式存储系统最佳的存储方案，并通过实验对比分析HDFS和MongoDB对不同数据量文件的存储效率，确定最高存储效率下的文件分类算法。

3.根据权利要求1所述的一种高效的R-tree索引遥感数据存储模型，其特征在于，所述一级索引的建立的具体操作步骤：采用HDFS 和MongoDB两种分布式存储技术实现遥感数据的存储，文件分类后不同级别的文件需要存储到不同的数据库中，建立一级索引结构，确定不同级别文件存储的具体位置。

4.根据权利要求1所述的一种高效的R-tree索引遥感数据存储模型，其特征在于，所述文件合并的具体操作步骤：文件在上传到 HDFS 时，判断文件是否大于数据块大小，当文件大于数据块大小时文件将直接存入数据库中，当文件小于数据块大小时，如果直接存入数据库会按照文件块大小存储占用大量的存储空间，通过文件合并的方法对小文件进行合并存储。

5.根据权利要求1所述的一种高效的R-tree索引遥感数据存储模型，其特征在于，所述二级索引的建立的具体操作步骤：二级索引的建立用于确定小文件合并后的存储位置。

6.根据权利要求1所述的一种高效的R-tree索引遥感数据存储模型，其特征在于，所述索引缓存的具体操作步骤：当文件数据不断增大时，索引总量的大小也随之增大，当检索数据时的查询时间就会随之增大，通过索引缓存机制减少查询时间。