CN110704431A - 一种海量数据的分级存储管理方法 - Google Patents

一种海量数据的分级存储管理方法 Download PDF

Info

Publication number
CN110704431A
CN110704431A CN201910891478.0A CN201910891478A CN110704431A CN 110704431 A CN110704431 A CN 110704431A CN 201910891478 A CN201910891478 A CN 201910891478A CN 110704431 A CN110704431 A CN 110704431A
Authority
CN
China
Prior art keywords
data
stored
memory
blocks
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910891478.0A
Other languages
English (en)
Inventor
倪亚晖
刘志亮
赵锦春
王超
王常捷
吴鎏玺
赵春晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910891478.0A priority Critical patent/CN110704431A/zh
Publication of CN110704431A publication Critical patent/CN110704431A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种海量数据的分级存储管理方法,包括:确定待存储数据的状态:冷数据、热数据、在线数据、近线数据;当待存储数据为热数据时,将数据源从HDFS加载到Inceptor中的分布式内存列式存储Holodesk中,通过内存加速分析,在秒级别响应,对数据进行交互式探索挖掘;当待存储数据为冷数据时,利用Erasure Code的可配置策略,将源数据块存入指定HDFS目录下,通过Raid Server监控,在指定生命周期后将指定目录下的文件降低其副本数为1,并由10个数据块生成4个冗余校验块。本发明提出的一种海量数据的分级存储管理方法,能够实现海量数据的分级存储,节约了存储成本。

Description

一种海量数据的分级存储管理方法
技术领域
本发明涉及计算机存储技术领域,特别是涉及一种海量数据的分级存储管理方法。
背景技术
随着信息技术、移动互联网、物联网等技术的发展,数据出现指数型的增长,大数据的技术及应用得到了高度的关注和重视,甚至被列入了国家的战略。为了应对高频数据访问,大多数采用实时性能较高的大规模存储集群对数据进行存储。然而,由于数据量过大会使得数据库的访问性能下降,若是为了匹配不断增加的数据规模而搭建更多的数据库,则会导致存储成本大大升高。通常,我们会把数据分为热数据,在线数据,近线数据和冷数据。不同的数据种类的应用和处理会有不同的需求。在大数据时代,对于海量数据应该考虑数据的分级存储以节约存储成本。
发明内容
为了克服现有技术的上述不足,本发明提出了一种海量数据的分级存储管理方法,解决现有数据存储成本高的技术问题。
本发明是通过以下技术方案实现的:
一种海量数据的分级存储管理方法,包括:
确定待存储数据的状态:冷数据、热数据、在线数据、近线数据;
当待存储数据为热数据时,将数据源从HDFS加载到Inceptor中的分布式内存列式存储 Holodesk中,通过内存加速分析,在秒级别响应,对数据进行交互式探索挖掘;
当待存储数据为冷数据时,利用Erasure Code的可配置策略,将源数据块存入指定HDFS 目录下,通过Raid Server监控,在指定生命周期后将指定目录下的文件降低其副本数为1,并由10个数据块生成4个冗余校验块。
进一步的,在内存数据库的存储层,将二维数据表缓存入独立的分布式内存或固态硬盘 SSD上。
进一步的,所述的内存数据库为星环内存数据库,所述星环内存数据库中的数据存储在内存和/或固态硬盘SSD中。
进一步的,创建数据源对应的数据表的元信息,在内存中对数据源创建数据表的结构,根据元信息把当前的数据行生成为一个列式数据块并存储到固态硬盘SSD上。
进一步的,当所述列式数据块的列为索引列时,通过对每个索引列建立一个倒排索引,并采用RadixTree结构将索引列存储到固态硬盘SSD的对应位置的文件中。
与现有技术相比,本发明的有益效果在于:
本发明提出的一种海量数据的分级存储管理方法,根据数据的访问热度分级存储,提高了存储性能并降低了存储成本。
附图说明
图1为本发明实施例所述Holodesk框架图;
图2为本发明实施例所述的热数据存储流程图;
图3为本发明实施例所述采用TDH优化的HDFS2存储冷数据时的示意图;
图4为现有的采用开源的HDFS2存储冷数据时的示意图。
具体实施方式
展示一下实例来具体说明本发明的某些实施例,且不应解释为限制本发明的范围。对本发明公开的内容可以同时从材料、方法和反应条件进行改进,所有这些改进,均应落入本发明的精神和范围之内。
如图1-3所示的一种海量数据的分级存储管理方法,包括:
确定待存储数据的状态:冷数据、热数据、在线数据、近线数据;
冷数据是较长时间之前的状态数据,即用户画像数据,常见的有银行凭证、税务凭证、医疗档案、影视资料等。冷数据不需要实时访问到离线数据,用于灾难恢复的备份或者因为要遵守法律规定必须保留一段时间的。
热数据指即时的位置状态、交易和浏览行为。如即时的地理位置,某一特定时间活跃的手机应用等,能够表征“正在什么位置干什么事情”。另外一些实时的记录信息,如用户刚刚打开某个软件或者网站进行了一些操作,热数据可以通过第三方平台去积累,开发者也可以根据用户使用行为积累。
对于热数据和在线数据,更多的需要考虑应用在使用数据时的高效性,Inceptor用 Holodesk的技术来加速热数据处理。对于近线数据,由于应用存取的需求相比热数据和在线数据大大减少,主要需要保证数据存储的可靠性,并考虑如何在保证可靠性的基础上能尽量减少副本以节约存储空间。
当待存储数据为热数据时,将数据源从HDFS加载到Inceptor中的分布式内存列式存储 Holodesk中,通过内存加速分析,在秒级别响应,对数据进行交互式探索挖掘;
当待存储数据为冷数据时,利用Erasure Code的可配置策略,将源数据块存入指定HDFS 目录下,通过Raid Server监控,在指定生命周期后将指定目录下的文件降低其副本数为1,并由10个数据块生成4个冗余校验块,将3倍存储开销(如图4)降低到1.4倍,并且在数据可靠性方面,Erasure Code在14个数据块中可容忍任意4个块丢失,比3份冗余存储可容忍2份数据块丢失更可靠。冷数据可使用Erasure Code自动降低存储开销。
在本实施例中,在内存数据库的存储层,将二维数据表缓存入独立的分布式内存或固态硬盘SSD上,避免GC问题。并通过建立自定义高效列式存储结构,减少数据传输。
在本实施例中,所述的内存数据库为星环内存数据库,所述的星环内存数据库不仅仅可以支持数据存储在内存中,同样支持内存加SSD的混合存储架构,使得内存数据库中数据不仅能存储在内存中也能存储在SSD中,并且性能不会受到太大的影响。很大程度上提升了内存数据库的容量以及整体的性价比。
在本实施例中,创建数据源对应的数据表的元信息,在内存中对数据源创建数据表的结构,根据元信息把当前的数据行生成为一个列式数据块并存储到固态硬盘SSD上,能够更加有效的使用内存,实现后续在固态硬盘SSD上查询数据的性能达到与在内存上查询数据相近的性能,能够进一步支持后续以高速的查询效率为基础的强大的数据分析能力。
在本实施例中,当所述列式数据块的列为索引列时,通过对每个索引列建立一个倒排索引,并采用RadixTree结构将索引列存储到固态硬盘SSD的对应位置的文件中,能够提高后续数据查询的效率。
具体应用:数据在导入HDFS后的一段时间内访问频繁,在一段时间后访问频率降低甚至正常状态下不访问。可以通过设置该数据的冷却时间,当这些数据到达冷却时间后,会自动触发降副本的进程,降低存储开销。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种海量数据的分级存储管理方法,其特征在于,包括:
确定待存储数据的状态:冷数据、热数据、在线数据、近线数据;
当待存储数据为热数据时,将数据源从HDFS加载到Inceptor中的分布式内存列式存储Holodesk中,通过内存加速分析,在秒级别响应,对数据进行交互式探索挖掘;
当待存储数据为冷数据时,利用Erasure Code的可配置策略,将源数据块存入指定HDFS目录下,通过Raid Server监控,在指定生命周期后将指定目录下的文件降低其副本数为1,并由10个数据块生成4个冗余校验块。
2.根据权利要求1所述的一种海量数据的分级存储管理方法,其特征在于,在内存数据库的存储层,将二维数据表缓存入独立的分布式内存或固态硬盘SSD上。
3.根据权利要求2所述的一种海量数据的分级存储管理方法,其特征在于,所述的内存数据库为星环内存数据库,所述星环内存数据库中的数据存储在内存和/或固态硬盘SSD中。
4.根据权利要求1所述的一种海量数据的分级存储管理方法,其特征在于,创建数据源对应的数据表的元信息,在内存中对数据源创建数据表的结构,根据元信息把当前的数据行生成为一个列式数据块并存储到固态硬盘SSD上。
5.根据权利要求4所述的一种海量数据的分级存储管理方法,其特征在于,当所述列式数据块的列为索引列时,通过对每个索引列建立一个倒排索引,并采用RadixTree结构将索引列存储到固态硬盘SSD的对应位置的文件中。
CN201910891478.0A 2019-09-20 2019-09-20 一种海量数据的分级存储管理方法 Pending CN110704431A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910891478.0A CN110704431A (zh) 2019-09-20 2019-09-20 一种海量数据的分级存储管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910891478.0A CN110704431A (zh) 2019-09-20 2019-09-20 一种海量数据的分级存储管理方法

Publications (1)

Publication Number Publication Date
CN110704431A true CN110704431A (zh) 2020-01-17

Family

ID=69195780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910891478.0A Pending CN110704431A (zh) 2019-09-20 2019-09-20 一种海量数据的分级存储管理方法

Country Status (1)

Country Link
CN (1) CN110704431A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639121A (zh) * 2020-04-07 2020-09-08 国网新疆电力有限公司 一种构建客户画像的大数据平台及构建方法
CN112307222A (zh) * 2020-11-12 2021-02-02 田树东 一种应用于5g富媒体消息的冷热分级分区列式存储技术
CN117289872A (zh) * 2023-10-10 2023-12-26 北京三博脑科医院有限公司 一种计算机大数据存储系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715039A (zh) * 2015-03-23 2015-06-17 星环信息科技(上海)有限公司 基于硬盘和内存的列式存储和查询方法及设备
CN106547859A (zh) * 2016-10-21 2017-03-29 杭州朗和科技有限公司 一种多租户数据存储系统下的数据文件的存储方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715039A (zh) * 2015-03-23 2015-06-17 星环信息科技(上海)有限公司 基于硬盘和内存的列式存储和查询方法及设备
CN106547859A (zh) * 2016-10-21 2017-03-29 杭州朗和科技有限公司 一种多租户数据存储系统下的数据文件的存储方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639121A (zh) * 2020-04-07 2020-09-08 国网新疆电力有限公司 一种构建客户画像的大数据平台及构建方法
CN112307222A (zh) * 2020-11-12 2021-02-02 田树东 一种应用于5g富媒体消息的冷热分级分区列式存储技术
CN117289872A (zh) * 2023-10-10 2023-12-26 北京三博脑科医院有限公司 一种计算机大数据存储系统

Similar Documents

Publication Publication Date Title
US11422982B2 (en) Scaling stateful clusters while maintaining access
JP6522812B2 (ja) 分散型データベースシステム用高速クラッシュ回復
CN107844388B (zh) 从备份系统流式恢复数据库
US10061834B1 (en) Incremental out-of-place updates for datasets in data stores
US9772949B2 (en) Apparatus, system and method for providing a persistent level-two cache
US11093387B1 (en) Garbage collection based on transmission object models
US9996557B2 (en) Database storage system based on optical disk and method using the system
CN103516549B (zh) 一种基于共享对象存储的文件系统元数据日志机制
CN110704431A (zh) 一种海量数据的分级存储管理方法
WO2019109854A1 (zh) 分布式数据库数据处理方法、装置、存储介质及电子装置
CN103037004A (zh) 云存储系统操作的实现方法和装置
US11093290B1 (en) Backup server resource-aware discovery of client application resources
Sarkar et al. Query language support for timely data deletion
CN103970844A (zh) 大数据的写入方法和装置、读取方法和装置及处理系统
US11272006B2 (en) Intelligently distributing retrieval of recovery data amongst peer-based and cloud-based storage sources
US11436193B2 (en) System and method for managing data using an enumerator
CN109308310B (zh) 一种用于资产管理平台的子系统数据互联处理方法
CN109254880B (zh) 一种处理数据库宕机的方法及装置
CN115981559A (zh) 分布式数据存储方法、装置、电子设备和可读介质
US7949632B2 (en) Database-rearranging program, database-rearranging method, and database-rearranging apparatus
KR20150061314A (ko) 네트워크 분산 파일 시스템 기반 iSCSI 스토리지 시스템에서의 장애 복구 방법 및 시스템
US11720551B1 (en) Method and system for streaming data from portable storage devices
Duan et al. A high‐performance distributed file system for large‐scale concurrent HD video streams
US12007983B2 (en) Optimization of application of transactional information for a hybrid transactional and analytical processing architecture
US11842085B1 (en) Up-sized cluster performance modeling for a tiered data processing service

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination