CN110704431A

CN110704431A - 一种海量数据的分级存储管理方法

Info

Publication number: CN110704431A
Application number: CN201910891478.0A
Authority: CN
Inventors: 倪亚晖; 刘志亮; 赵锦春; 王超; 王常捷; 吴鎏玺; 赵春晓
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-01-17

Abstract

本发明涉及一种海量数据的分级存储管理方法，包括：确定待存储数据的状态：冷数据、热数据、在线数据、近线数据；当待存储数据为热数据时，将数据源从HDFS加载到Inceptor中的分布式内存列式存储Holodesk中，通过内存加速分析，在秒级别响应，对数据进行交互式探索挖掘；当待存储数据为冷数据时，利用Erasure Code的可配置策略，将源数据块存入指定HDFS目录下，通过Raid Server监控，在指定生命周期后将指定目录下的文件降低其副本数为1，并由10个数据块生成4个冗余校验块。本发明提出的一种海量数据的分级存储管理方法，能够实现海量数据的分级存储，节约了存储成本。

Description

一种海量数据的分级存储管理方法

技术领域

本发明涉及计算机存储技术领域，特别是涉及一种海量数据的分级存储管理方法。

背景技术

随着信息技术、移动互联网、物联网等技术的发展，数据出现指数型的增长，大数据的技术及应用得到了高度的关注和重视，甚至被列入了国家的战略。为了应对高频数据访问，大多数采用实时性能较高的大规模存储集群对数据进行存储。然而，由于数据量过大会使得数据库的访问性能下降，若是为了匹配不断增加的数据规模而搭建更多的数据库，则会导致存储成本大大升高。通常，我们会把数据分为热数据，在线数据，近线数据和冷数据。不同的数据种类的应用和处理会有不同的需求。在大数据时代，对于海量数据应该考虑数据的分级存储以节约存储成本。

发明内容

为了克服现有技术的上述不足，本发明提出了一种海量数据的分级存储管理方法，解决现有数据存储成本高的技术问题。

本发明是通过以下技术方案实现的：

一种海量数据的分级存储管理方法，包括：

确定待存储数据的状态：冷数据、热数据、在线数据、近线数据；

当待存储数据为热数据时，将数据源从HDFS加载到Inceptor中的分布式内存列式存储 Holodesk中，通过内存加速分析，在秒级别响应，对数据进行交互式探索挖掘；

当待存储数据为冷数据时，利用Erasure Code的可配置策略，将源数据块存入指定HDFS 目录下，通过Raid Server监控，在指定生命周期后将指定目录下的文件降低其副本数为1，并由10个数据块生成4个冗余校验块。

进一步的，在内存数据库的存储层，将二维数据表缓存入独立的分布式内存或固态硬盘 SSD上。

进一步的，所述的内存数据库为星环内存数据库，所述星环内存数据库中的数据存储在内存和/或固态硬盘SSD中。

进一步的，创建数据源对应的数据表的元信息，在内存中对数据源创建数据表的结构，根据元信息把当前的数据行生成为一个列式数据块并存储到固态硬盘SSD上。

进一步的，当所述列式数据块的列为索引列时，通过对每个索引列建立一个倒排索引，并采用RadixTree结构将索引列存储到固态硬盘SSD的对应位置的文件中。

与现有技术相比，本发明的有益效果在于：

本发明提出的一种海量数据的分级存储管理方法，根据数据的访问热度分级存储，提高了存储性能并降低了存储成本。

附图说明

图1为本发明实施例所述Holodesk框架图；

图2为本发明实施例所述的热数据存储流程图；

图3为本发明实施例所述采用TDH优化的HDFS2存储冷数据时的示意图；

图4为现有的采用开源的HDFS2存储冷数据时的示意图。

具体实施方式

展示一下实例来具体说明本发明的某些实施例，且不应解释为限制本发明的范围。对本发明公开的内容可以同时从材料、方法和反应条件进行改进，所有这些改进，均应落入本发明的精神和范围之内。

如图1-3所示的一种海量数据的分级存储管理方法，包括：

冷数据是较长时间之前的状态数据，即用户画像数据，常见的有银行凭证、税务凭证、医疗档案、影视资料等。冷数据不需要实时访问到离线数据，用于灾难恢复的备份或者因为要遵守法律规定必须保留一段时间的。

热数据指即时的位置状态、交易和浏览行为。如即时的地理位置，某一特定时间活跃的手机应用等，能够表征“正在什么位置干什么事情”。另外一些实时的记录信息，如用户刚刚打开某个软件或者网站进行了一些操作，热数据可以通过第三方平台去积累，开发者也可以根据用户使用行为积累。

对于热数据和在线数据，更多的需要考虑应用在使用数据时的高效性，Inceptor用 Holodesk的技术来加速热数据处理。对于近线数据，由于应用存取的需求相比热数据和在线数据大大减少，主要需要保证数据存储的可靠性，并考虑如何在保证可靠性的基础上能尽量减少副本以节约存储空间。

当待存储数据为冷数据时，利用Erasure Code的可配置策略，将源数据块存入指定HDFS 目录下，通过Raid Server监控，在指定生命周期后将指定目录下的文件降低其副本数为1，并由10个数据块生成4个冗余校验块，将3倍存储开销(如图4)降低到1.4倍，并且在数据可靠性方面，Erasure Code在14个数据块中可容忍任意4个块丢失，比3份冗余存储可容忍2份数据块丢失更可靠。冷数据可使用Erasure Code自动降低存储开销。

在本实施例中，在内存数据库的存储层，将二维数据表缓存入独立的分布式内存或固态硬盘SSD上，避免GC问题。并通过建立自定义高效列式存储结构，减少数据传输。

在本实施例中，所述的内存数据库为星环内存数据库，所述的星环内存数据库不仅仅可以支持数据存储在内存中，同样支持内存加SSD的混合存储架构，使得内存数据库中数据不仅能存储在内存中也能存储在SSD中，并且性能不会受到太大的影响。很大程度上提升了内存数据库的容量以及整体的性价比。

在本实施例中，创建数据源对应的数据表的元信息，在内存中对数据源创建数据表的结构，根据元信息把当前的数据行生成为一个列式数据块并存储到固态硬盘SSD上，能够更加有效的使用内存，实现后续在固态硬盘SSD上查询数据的性能达到与在内存上查询数据相近的性能，能够进一步支持后续以高速的查询效率为基础的强大的数据分析能力。

在本实施例中，当所述列式数据块的列为索引列时，通过对每个索引列建立一个倒排索引，并采用RadixTree结构将索引列存储到固态硬盘SSD的对应位置的文件中，能够提高后续数据查询的效率。

具体应用:数据在导入HDFS后的一段时间内访问频繁，在一段时间后访问频率降低甚至正常状态下不访问。可以通过设置该数据的冷却时间，当这些数据到达冷却时间后，会自动触发降副本的进程，降低存储开销。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种海量数据的分级存储管理方法，其特征在于，包括：

当待存储数据为热数据时，将数据源从HDFS加载到Inceptor中的分布式内存列式存储Holodesk中，通过内存加速分析，在秒级别响应，对数据进行交互式探索挖掘；

当待存储数据为冷数据时，利用Erasure Code的可配置策略，将源数据块存入指定HDFS目录下，通过Raid Server监控，在指定生命周期后将指定目录下的文件降低其副本数为1，并由10个数据块生成4个冗余校验块。

2.根据权利要求1所述的一种海量数据的分级存储管理方法，其特征在于，在内存数据库的存储层，将二维数据表缓存入独立的分布式内存或固态硬盘SSD上。

3.根据权利要求2所述的一种海量数据的分级存储管理方法，其特征在于，所述的内存数据库为星环内存数据库，所述星环内存数据库中的数据存储在内存和/或固态硬盘SSD中。

4.根据权利要求1所述的一种海量数据的分级存储管理方法，其特征在于，创建数据源对应的数据表的元信息，在内存中对数据源创建数据表的结构，根据元信息把当前的数据行生成为一个列式数据块并存储到固态硬盘SSD上。

5.根据权利要求4所述的一种海量数据的分级存储管理方法，其特征在于，当所述列式数据块的列为索引列时，通过对每个索引列建立一个倒排索引，并采用RadixTree结构将索引列存储到固态硬盘SSD的对应位置的文件中。