CN108153805A - 一种高效清理Hbase时序数据的方法、系统 - Google Patents

一种高效清理Hbase时序数据的方法、系统 Download PDF

Info

Publication number
CN108153805A
CN108153805A CN201711143374.9A CN201711143374A CN108153805A CN 108153805 A CN108153805 A CN 108153805A CN 201711143374 A CN201711143374 A CN 201711143374A CN 108153805 A CN108153805 A CN 108153805A
Authority
CN
China
Prior art keywords
rowkey
hbase
data
search engine
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711143374.9A
Other languages
English (en)
Inventor
李坤祥
周保群
黄春豪
叶梅霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ruijiang Cloud Computing Co Ltd
Guangdong Eflycloud Computing Co Ltd
Original Assignee
Guangdong Ruijiang Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ruijiang Cloud Computing Co Ltd filed Critical Guangdong Ruijiang Cloud Computing Co Ltd
Priority to CN201711143374.9A priority Critical patent/CN108153805A/zh
Publication of CN108153805A publication Critical patent/CN108153805A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种高效清理Hbase时序数据的方法、系统,包括Hbase、Hbase一行记录的主键rowkey、分布式消息队列集群kafka、程序a、程序b和快速搜索引擎,包括时序数据的写入和时序数据的清理;写入时序数据的过程:程序a往Hbase里面写数据,生成时间与rowkey的记录,然后将该记录写到kafka上,程序b从kafka上读取该记录并写入快速搜索引擎;清理时序数据的过程:先从搜索引擎查出时间区间内的rowkey集合,根据rowkey集合精确删除hbase里的记录,再删除搜索引擎里该时间段内的记录。本发明解决清理时序数据时,耗时长的问题,实现高效清理时序数据的效果。

Description

一种高效清理Hbase时序数据的方法、系统
技术领域
本发明涉及Hbase数据处理领域,尤其涉及一种高效清理Hbase时序数据的方法、系统。
背景技术
Hbase是一个开源的、分布式、多版本。面向列储存模型的数据库,它采用key-Value格式来存储数据,rowkey是Hbase一行记录的主键,Hbase加载数据时,是根据rowkey的二进制顺序从小到大进行的。Hbase读取记录只能按照rowkey扫描,一次rowkey需要根据业务来设计以利用其存储排序特性提高性能。在存储时序数据的使用中,rowkey的设计往往不能满足各方面的要求,比如清理过期数据耗时太长而影响到线上业务的稳定性。
在现有技术中,清理过期数据,需要全表扫描rowkey中的时间部分,把符合条件的rowkey记录下来,然后进行批量处理。在数据量大的时候耗时太长,占用大量系统资源并且影响线上系统的稳定性。
发明内容
本发明的目的在于提出一种高效清理Hbase时序数据的方法、系统,以解决清理时序数据时,耗时长的问题,实现高效清理时序数据的效果。
为达此目的,本发明采用以下技术方案:
一种高效清理Hbase时序数据的方法,包括Hbase、Hbase一行记录的主键rowkey、分布式消息队列集群kafka、程序a、程序b和快速搜索引擎,包括时序数据写入的过程和清理时序数据的过程;
写入时序数据过程:
步骤一:所述程序a向所述Hbase写入数据并生成记录,该记录为所述rowkey和时间的对应关系,然后将这个记录写到所述kafka的消息队列中;
步骤二:在所述快速搜索引擎上创建索引,所述rowkey以时间做所述索引;
步骤三:监听所述kafka的所述程序b将所述kafka的消息队列中的记录提取出来并写到所述快速搜索引擎上,所述快速搜素引擎上将该记录以索引的形式存储;
清理时序数据的过程:
步骤A:从所述快速搜索引擎上查找出需要清理的时序数据的时间段,根据时间段查找出以这个时间段为索引的rowkey集合;
步骤B:将所述rowkey集合分成多个子集,根据所述rowkey集合的子集删除所述Hbase里的数据;
步骤C:遍历完整个所述rowkey集合,将所述rowkey集合里的所有子集在所述Hbase里的数据删除完;
步骤D:删除所述快速搜索引擎上的所述rowkey集合。
现有技术中,是群表扫描rowkey中的时间部分,把符合条件的rowkey记录下来,然后批量清理,但是这种做法太消耗时间,并且占用大量的系统资源,而且影响线上系统的稳定性。而本发明通过利用快速搜索引擎为Hbase和rowkey做时间维度的索引,可以提供快速搜索某一时间段内rowkey结果集的能力,从而实现高效清理时序数据,这样也避免了对Hbase做全表扫描,在清理数据时不用做全表扫描也能准确定位到记录的位置。同时降低了rowkey的设计难度,在设计rowkey的时候不用考虑按时间查询的性能问题,降低了开发难度。同时由于没有保存中间结果的需求,大大的节省系统资源,对线上系统的风险降到最低。
优选的,包括根据rowkey集合删除Hbase里的数据的过程:
步骤b1:所述快速搜索引擎根据所述rowkey集合向所述Hbase提出删除请求;
步骤b2:所述Hbase接收所述快速搜索引擎发出的删除请求,并根据所述rowkey集合查找到所述Hbase里的数据,然后删除数据;
步骤b3:所述Hbase删除数据后,向所述快速搜索引擎返回删除完毕的信息,所述快速搜索引擎接收到删除完毕的信息后,删除所述rowkey集合。
优选的,包括遍历整个rowkey集合的过程:
步骤C1:将整个所述rowkey集合分成多个子集,并进行遍历;
步骤C2:判断子集是否符合遍历条件,若是,则便删除所述Hbase里子集对应的数据;
步骤C3:整个所述rowkey集合遍历完成,删除整个所述rowkey集合。
为了防止rowkey集合的数据量太大,因此将rowkey进行分批,利用遍历的形式完成数据删除。
一种高效清理Hbase时序数据方法的系统,包括Hbase、Hbase一行记录的主键rowkey、分布式消息队列集群kafka、程序a、程序b和快速搜索引擎,时序数据写入模块,用于写入时序数据;
所述程序a向所述Hbase写入数据并生成记录,该记录为所述rowkey和时间的对应关系,然后将这个记录写到所述kafka的消息队列中;
在所述快速搜索引擎上创建索引,所述rowkey以时间做所述索引;
监听所述kafka的所述程序b将所述kafka的消息队列中的记录提取出来并写到所述快速搜索引擎上,所述快速搜素引擎上将该记录以索引的形式存储;
时序数据清理模块,用于清理时序数据;
从所述快速搜索引擎上查找出需要清理的时序数据的时间段,根据时间段查找出以这个时间段为索引的rowkey集合;
将所述rowkey集合分成多个子集,根据所述rowkey集合的子集删除所述Hbase里的数据;
遍历完整个所述rowkey集合,将所述rowkey集合里的所有子集在所述Hbase里的数据删除完;
删除所述快速搜索引擎上的所述rowkey集合。
优选的,包括删除Hbase里的数据模块,根据rowkey集合删除Hbase里的数据;
所述快速搜索引擎根据所述rowkey集合向所述Hbase提出删除请求;
所述Hbase接收所述快速搜索引擎发出的删除请求,并根据所述rowkey集合查找到所述Hbase里的数据,然后删除数据;
所述Hbase删除数据后,向所述快速搜索引擎返回删除完毕的信息,所述快速搜索引擎接收到删除完毕的信息后,删除所述rowkey集合。
优选的,包括遍历模块,用于遍历rowkey集合;
将整个所述rowkey集合分成多个子集,并进行遍历;
判断子集是否符合遍历条件,若是,则便删除所述Hbase里子集对应的数据;
整个所述rowkey集合遍历完成,删除整个所述rowkey集合。
附图说明
图1是本发明的写入时序数据的流程图;
图2是本发明的清理时序数据的流程图;
图3是本发明的删除时序数据的流程图;
图4是本发明的遍历rowkey集合的流程图。
其中:Hbase(1)、rowkey(2)、kafka(3)、程序a(4)、程序b(5)、快速搜索引擎(6)、rowkey集合(7)。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
本实施例的一种高效清理Hbase时序数据的方法,包括Hbase(1)、Hbase一行记录的主键rowkey(2)、分布式消息队列集群kafka(3)、程序a(4)、程序b(5)和快速搜索引擎(6),包括时序数据写入的过程和清理时序数据的过程;
如图1所示,写入时序数据过程:
步骤一:所述程序a(4)向所述Hbase(1)写入数据并生成记录,该记录为所述rowkey(2)和时间的对应关系,然后将这个记录写到所述kafka(3)的消息队列中;
步骤二:在所述快速搜索引擎(6)上创建索引,所述rowkey(2)以时间做所述索引;
步骤三:监听所述kafka(3)的所述程序b(5)将所述kafka(3)的消息队列中的记录提取出来并写到所述快速搜索引擎(6)上,所述快速搜素引擎(6)将该记录以索引的形式存储;
如图2所示,清理时序数据的过程:
步骤A:从所述快速搜索引擎(6)上查找出需要清理的时序数据的时间段,根据时间段查找出以这个时间段为索引的rowkey集合(7);
步骤B:将所述rowkey集合(7)分成多个子集,根据所述rowkey集合(7)的子集删除所述Hbase(1)里的数据;
步骤C:遍历完整个所述rowkey集合(7),将所述rowkey集合(7)里的所有子集在所述Hbase(1)里的数据删除完;
步骤D:删除所述快速搜索引擎(6)上的所述rowkey集合(7)。
现有技术中,是群表扫描rowkey中的时间部分,把符合条件的rowkey记录下来,然后批量清理,但是这种做法太消耗时间,并且占用大量的系统资源,而且影响线上系统的稳定性。而本发明通过利用快速搜索引擎为Hbase和rowkey做时间维度的索引,可以提供快速搜索某一时间段内rowkey结果集的能力,从而实现高效清理时序数据,这样也避免了对Hbase做全表扫描,在清理数据时不用做全表扫描也能准确定位到记录的位置。同时降低了rowkey的设计难度,在设计rowkey的时候不用考虑按时间查询的性能问题,降低了开发难度。同时由于没有保存中间结果的需求,大大的节省系统资源,对线上系统的风险降到最低。
优选的,如图3所示,包括根据rowkey集合(7)删除所述Hbase(1)里的数据的过程:
步骤b1:所述快速搜索引擎(6)根据所述rowkey集合(7)向所述Hbase(1)提出删除请求;
步骤b2:所述Hbase(1)接收所述快速搜索引擎(6)发出的删除请求,并根据所述rowkey集合(7)查找到所述Hbase(1)里的数据,然后删除数据;
步骤b3:所述Hbase(1)删除数据后,向所述快速搜索引擎(6)返回删除完毕的信息,所述快速搜索引擎(6)接收到删除完毕的信息后,删除所述rowkey集合(7)。
优选的,如图4所示,包括遍历整个rowkey集合(7)的过程:
步骤C1:将整个所述rowkey集合(7)分成多个子集,并进行遍历;
步骤C2:判断子集是否符合遍历条件,若是,则便删除所述Hbase(1)里子集对应的数据;
步骤C3:整个所述rowkey集合(7)遍历完成,删除整个所述rowkey集合(7)。
为了防止rowkey集合的数据量太大,因此将rowkey进行分批,利用遍历的形式完成数据删除。
一种高效清理Hbase时序数据方法的系统,包括Hbase(1)、Hbase(1)一行记录的主键rowkey(2)、分布式消息队列集群kafka(3)、程序a(4)、程序b(5)和快速搜索引擎(6),包括时序数据写入模块,用于写入时序数据;
所述程序a(4)向所述Hbase(1)写入数据并生成记录,该记录为所述rowkey(2)和时间的对应关系,然后将这个记录写到所述kafka(3)的消息队列中;
在所述快速搜索引擎(6)上创建索引,所述rowkey(2)以时间做所述索引;
监听所述kafka(3)的所述程序b(5)将所述kafka(3)的消息队列中的记录提取出来并写到所述快速搜索引擎(6)上,所述快速搜素引擎上将该记录以索引的形式存储;
包括时序数据清理模块,用于清理时序数据;
从所述快速搜索引擎(6)上查找出需要清理的时序数据的时间段,根据时间段查找出以这个时间段为索引的rowkey集合(7);
将所述rowkey集合(7)分成多个子集,根据所述rowkey集合(7)的子集删除所述Hbase(1)里的数据;
遍历完整个所述rowkey集合(7),将所述rowkey集合(7)里的所有子集在所述Hbase(1)里的数据删除完;
删除所述快速搜索引擎(6)上的所述rowkey(2)集合。
优选的,包括删除Hbase(1)里的数据模块,根据rowkey集合(7)删除Hbase(1)里的数据;
所述快速搜索引擎(6)根据所述rowkey集合(7)向所述Hbase(1)提出删除请求;
所述Hbase(1)接收所述快速搜索引擎(6)发出的删除请求,并根据所述rowkey集合(7)查找到所述Hbase(1)里的数据,然后删除数据;
所述Hbase(1)删除数据后,向所述快速搜索引擎(6)返回删除完毕的信息,所述快速搜索引擎(6)接收到删除完毕的信息后,删除所述rowkey集合(7)。
优选的,包括遍历模块,用于遍历rowkey集合(7);
将整个所述rowkey集合(7)分成多个子集,并进行遍历;
判断子集是否符合遍历条件,若是,则便删除所述Hbase(1)里子集对应的数据;
整个所述rowkey集合(7)遍历完成,删除整个所述rowkey集合(7)。
以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

Claims (6)

1.一种高效清理Hbase时序数据的方法,包括Hbase、Hbase一行记录的主键rowkey、分布式消息队列集群kafka、程序a、程序b和快速搜索引擎,其特征在于:包括时序数据写入的过程和清理时序数据的过程;
写入时序数据过程:
步骤一:所述程序a向所述Hbase写入数据并生成记录,该记录为所述rowkey和时间的对应关系,然后将这个记录写到所述kafka的消息队列中;
步骤二:在所述快速搜索引擎上创建索引,所述rowkey以时间做所述索引;
步骤三:监听所述kafka的所述程序b将所述kafka的消息队列中的记录提取出来并写到所述快速搜索引擎上,所述快速搜素引擎上将该记录以索引的形式存储;
清理时序数据的过程:
步骤A:从所述快速搜索引擎上查找出需要清理的时序数据的时间段,根据时间段查找出以这个时间段为索引的rowkey集合;
步骤B:将所述rowkey集合分成多个子集,根据所述rowkey集合的子集删除所述Hbase里的数据;
步骤C:遍历完整个所述rowkey集合,将所述rowkey集合里的所有子集在所述Hbase里的数据删除完;
步骤D:删除所述快速搜索引擎上的所述rowkey集合。
2.根据权利要求1所述一种高效清理Hbase时序数据的方法,其特征在于:
包括根据rowkey集合删除Hbase里的数据的过程:
步骤b1:所述快速搜索引擎根据所述rowkey集合向所述Hbase提出删除请求;
步骤b2:所述Hbase接收所述快速搜索引擎发出的删除请求,并根据所述rowkey集合查找到所述Hbase里的数据,然后删除数据;
步骤b3:所述Hbase删除数据后,向所述快速搜索引擎返回删除完毕的信息,所述快速搜索引擎接收到删除完毕的信息后,删除所述rowkey集合。
3.根据权利要求1所述一种高效清理时序数据的方法,其特征在于:
包括遍历整个rowkey集合的过程:
步骤C1:将整个所述rowkey集合分成多个子集,并进行遍历;
步骤C2:判断子集是否符合遍历条件,若是,则便删除所述Hbase里子集对应的数据;
步骤C3:整个所述rowkey集合遍历完成,删除整个所述rowkey集合。
4.一种高效清理Hbase时序数据方法的系统,包括Hbase、Hbase一行记录的主键rowkey、分布式消息队列集群kafka、程序a、程序b和快速搜索引擎,其特征在于:时序数据写入模块,用于写入时序数据;
所述程序a向所述Hbase写入数据并生成记录,该记录为所述rowkey和时间的对应关系,然后将这个记录写到所述kafka的消息队列中;
在所述快速搜索引擎上创建索引,所述rowkey以时间做所述索引;
监听所述kafka的所述程序b将所述kafka的消息队列中的记录提取出来并写到所述快速搜索引擎上,所述快速搜素引擎上将该记录以索引的形式存储;
时序数据清理模块,用于清理时序数据;
从所述快速搜索引擎上查找出需要清理的时序数据的时间段,根据时间段查找出以这个时间段为索引的rowkey集合;
将所述rowkey集合分成多个子集,根据所述rowkey集合的子集删除所述Hbase里的数据;
遍历完整个所述rowkey集合,将所述rowkey集合里的所有子集在所述Hbase里的数据删除完;
删除所述快速搜索引擎上的所述rowkey集合。
5.根据权利要求4所述一种高效清理Hbase时序数据方法的系统,其特征在于:包括删除Hbase里的数据模块,根据rowkey集合删除Hbase里的数据;
所述快速搜索引擎根据所述rowkey集合向所述Hbase提出删除请求;
所述Hbase接收所述快速搜索引擎发出的删除请求,并根据所述rowkey集合查找到所述Hbase里的数据,然后删除数据;
所述Hbase删除数据后,向所述快速搜索引擎返回删除完毕的信息,所述快速搜索引擎接收到删除完毕的信息后,删除所述rowkey集合。
6.根据权利要求4所述一种高效清理Hbase时序数据方法的系统,其特征在于:包括遍历模块,用于遍历rowkey集合;
将整个所述rowkey集合分成多个子集,并进行遍历;
判断子集是否符合遍历条件,若是,则便删除所述Hbase里子集对应的数据;
整个所述rowkey集合遍历完成,删除整个所述rowkey集合。
CN201711143374.9A 2017-11-17 2017-11-17 一种高效清理Hbase时序数据的方法、系统 Pending CN108153805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711143374.9A CN108153805A (zh) 2017-11-17 2017-11-17 一种高效清理Hbase时序数据的方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711143374.9A CN108153805A (zh) 2017-11-17 2017-11-17 一种高效清理Hbase时序数据的方法、系统

Publications (1)

Publication Number Publication Date
CN108153805A true CN108153805A (zh) 2018-06-12

Family

ID=62468749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711143374.9A Pending CN108153805A (zh) 2017-11-17 2017-11-17 一种高效清理Hbase时序数据的方法、系统

Country Status (1)

Country Link
CN (1) CN108153805A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471856A (zh) * 2018-09-17 2019-03-15 中新网络信息安全股份有限公司 一种基于Hbase协处理器的大数据实时索引方法
CN113806307A (zh) * 2021-08-09 2021-12-17 阿里巴巴(中国)有限公司 数据处理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102710A (zh) * 2014-07-15 2014-10-15 浪潮(北京)电子信息产业有限公司 一种海量数据查询方法
CN105095458A (zh) * 2015-07-29 2015-11-25 南威软件股份有限公司 一种基于时间特征支持复杂条件的大数据检索方法
CN105740410A (zh) * 2016-01-29 2016-07-06 浪潮电子信息产业股份有限公司 一种基于Hbase二级索引的数据统计方法
KR20160126148A (ko) * 2015-04-22 2016-11-02 한양대학교 에리카산학협력단 읽기 성능 개선을 위한 티-트리 인덱스를 이용한 데이터베이스 읽기 방법 및 그 장치
CN106326381A (zh) * 2016-08-16 2017-01-11 梁猛 基于MapDB构建的HBase数据检索方法
CN106682139A (zh) * 2016-12-19 2017-05-17 深圳盒子支付信息技术有限公司 一种基于Solr实现HBase多条件查询的方法及系统
CN106713332A (zh) * 2016-12-30 2017-05-24 山石网科通信技术有限公司 网络数据的处理方法、装置和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102710A (zh) * 2014-07-15 2014-10-15 浪潮(北京)电子信息产业有限公司 一种海量数据查询方法
KR20160126148A (ko) * 2015-04-22 2016-11-02 한양대학교 에리카산학협력단 읽기 성능 개선을 위한 티-트리 인덱스를 이용한 데이터베이스 읽기 방법 및 그 장치
CN105095458A (zh) * 2015-07-29 2015-11-25 南威软件股份有限公司 一种基于时间特征支持复杂条件的大数据检索方法
CN105740410A (zh) * 2016-01-29 2016-07-06 浪潮电子信息产业股份有限公司 一种基于Hbase二级索引的数据统计方法
CN106326381A (zh) * 2016-08-16 2017-01-11 梁猛 基于MapDB构建的HBase数据检索方法
CN106682139A (zh) * 2016-12-19 2017-05-17 深圳盒子支付信息技术有限公司 一种基于Solr实现HBase多条件查询的方法及系统
CN106713332A (zh) * 2016-12-30 2017-05-24 山石网科通信技术有限公司 网络数据的处理方法、装置和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王文贤等: "一种基于Solr的HBase海量数据二级索引方案", 《信息网络安全》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471856A (zh) * 2018-09-17 2019-03-15 中新网络信息安全股份有限公司 一种基于Hbase协处理器的大数据实时索引方法
CN113806307A (zh) * 2021-08-09 2021-12-17 阿里巴巴(中国)有限公司 数据处理方法及装置

Similar Documents

Publication Publication Date Title
US11714554B2 (en) Method for aggregation optimization of time series data
CN102521405B (zh) 支持高速加载的海量结构化数据存储、查询方法和系统
CN102521406B (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
CN103020204B (zh) 一种对分布式顺序表进行多维区间查询的方法及其系统
CN105159915B (zh) 可动态适应的lsm树合并方法及系统
CN104156380B (zh) 一种分布式存储器哈希索引方法及系统
US9323685B2 (en) Data storage space processing method and processing system, and data storage server
US7418544B2 (en) Method and system for log structured relational database objects
CN105320775A (zh) 数据的存取方法和装置
US11232073B2 (en) Method and apparatus for file compaction in key-value store system
CN105912687B (zh) 海量分布式数据库存储单元
CN106502587B (zh) 硬盘数据管理方法和硬盘控制装置
CN102541757B (zh) 写缓存方法、缓存同步方法和装置
CN101673192B (zh) 时序化的数据处理方法、装置及系统
CN110109886B (zh) 分布式文件系统的文件存储方法及分布式文件系统
JP6642650B2 (ja) Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSに複数の2MB以下の小さなファイルを書き込む方法
CN110309233A (zh) 数据存储的方法、装置、服务器和存储介质
CN104092670A (zh) 网络缓存服务器处理文件的方法及处理缓存文件的设备
KR101744892B1 (ko) 시계열 계층 인덱싱을 이용한 데이터 검색 시스템 및 데이터 검색 방법
CN109918448A (zh) 一种基于用户行为的云存储数据分级方法
CN103942301B (zh) 一种面向多数据类型访问应用的分布式文件系统
WO2023155849A1 (zh) 基于时间衰减的样本删除方法及其装置、存储介质
CN108153805A (zh) 一种高效清理Hbase时序数据的方法、系统
CN108595589A (zh) 一种海量科学数据图片高效存取方法
CN115935020A (zh) 一种图数据存储方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180612