CN103559229A - 基于MapFile的小文件管理服务SFMS系统及其使用方法 - Google Patents

基于MapFile的小文件管理服务SFMS系统及其使用方法 Download PDF

Info

Publication number
CN103559229A
CN103559229A CN201310499192.0A CN201310499192A CN103559229A CN 103559229 A CN103559229 A CN 103559229A CN 201310499192 A CN201310499192 A CN 201310499192A CN 103559229 A CN103559229 A CN 103559229A
Authority
CN
China
Prior art keywords
small documents
mapfile
sfms
key
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310499192.0A
Other languages
English (en)
Inventor
沈沛意
董洛兵
张亮
宋娟
孙庚泽
马汉炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201310499192.0A priority Critical patent/CN103559229A/zh
Publication of CN103559229A publication Critical patent/CN103559229A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于MapFile的小文件管理服务SFMS系统及其使用方法,采取了基于时间的小文件合并策略,同时在内存中保持多个index文件,进一步提高了小文件读取的效率,最终将海量小文件合并为有限个数的MapFile,并将整个过程封装成一个服务,并为客户端编写人员提供jar包,方便客户端编写人员使用本发明来对小文件进行存储、读取以及批量删除等操作。本发明的目的是解决在HDFS中存储海量小文件时,master节点内存占用率过高的问题。

Description

基于MapFile的小文件管理服务SFMS系统及其使用方法
技术领域
本发明涉及由Apache基金会开发的Hadoop中,基于MapFile的小文件管理服务SFMS系统及其使用方法。
背景技术
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统,简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。
Hadoop是被设计用来处理大文件的,它将到来的大文件存储在不同datanode的不同数据块上,并在namenode上记录大文件的元数据。当要对某个文件进行操作时,首先访问namenode,根据namenode的反馈信息定位到各个块置,找到这个文件,然后使用相应的命令对进行操作。需要说明是,这些操作都是按块进行的。而对于小文件,Hadoop便不再那么高效,甚至会因为文件数量的增多而崩溃。由于每个独立的小文件中所含有数据量是非常少,只能作为一块(远小于数据块的默认大)存储或操作,且海量文件就意味着元数据也是海量的。
Hadoop在处理海量小文件问题上的不足主要体现在HDFS和MapReduce两个方面:
在HDFS中,HDFS是针对大文件设计的,在存储大文件时能够体现性能上的优势,但没有很好的优化小文件的方法,这一点在我们使用HDFS存储大量小文件的过程中得到了体现。一个现象是文件的存储时间过长。原因在于系统需要为每一个小文件保存元数据信息,并且由于存在多个副本,需要为其分配多个存储节点。大部分的时间都花费在了系统开销上,真正用于传输文件内容的时间所占的比例非常小,导致小文件数目过多时存储速度变慢。另一个现象是集群内部节点内存占用率过高。原因在于不论是namenode服务器还是datanode服务器,都需要保存小文件的元数据信息。在HDFS的实现中,这部分信息是常驻内存的,因而当文件数目变得庞大时,所占用的内存也急剧增加。如果将这些文件元数据信息保存在磁盘中,那么可以预见,由于需要频繁地进行磁盘I/O访问,访问性能将急剧下降。
在MapReduce过程中,map任务通常是每次处理一个Block的数据,而且每一个map任务都会消耗一定量的bookkeeping资源。
发明内容
本发明的目的在于提供一种基于MapFile的小文件管理服务SFMS系统及其使用方法,以解决在Hadoop上的分布式文件系统HDFS上存储海量小文件时会占用master节点过多内存的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于MapFile的小文件管理服务SFMS系统,包括:
客户端:客户端使用jar包编写程序,向SFMS发送管理小文件的请求;客户端还用于接收SFMS反馈的操作结果;
SFMS:SFMS(Small File Management Service)为小文件管理服务器,其使用Hadoop中自带的MapFile机制,采用基于时间合并的小文件合并方法,将海量小文件合并成有限个数的大文件,并将客户端发送的请求转化为对Hadoop集群中的MapFile的操作;还将操作结果反馈给客户端;
Hadoop集群:Hadoop集群用于存储MapFile;
所述的MapFile为Map容器的持久化文件,将一个个Key-Value对存储到文件中;给定一个Key即可快速定位到一个Value;MapFile是先将Key-Value按Key的字典序升序依次存储到data文件中,然后再将Key抽样取出,与该Key-Value对在data文件中的偏移量组成新的Key-Value对,存储到另一个文件index中;当需要读取某个Key对应的Value时,先将index文件读取到内存中,然后二分查找,找到该Key对应的偏移量,从而快速定位到该Key-Value对在data文件中的位置;
所述SFMS采用了小文件合并方法;小文件合并方法:以MapFile中存储的是Key-Value对为小文件合并为大文件的基础;以小文件的全路径为Key,小文件的内容为Value来构建Key-Value对,然后将该Key-Value对存储到MapFile,从而实现了小文件的合并;
所述的基于时间合并是将一定时间内产生的小文件合并为一个MapFile;因为本发明的设计初衷是为了解决一个人脸识别系统中存储海量人脸图片的问题,而在该人脸识别系统中,一段时间之内的人脸图片被连续访问的概率很大,而从MapFile的读取原理中我们可以知道,从MapFile读取一个Key对应的Value过程中,最耗时的部分是将index文件从硬盘读取到内存中。因此如果我们读取的小文件都来自于同一个MapFile,就减少了将index文件读取到内存中的次数,提高了小文件读取的效率。但是将所有的小文件合并为一个MapFile也是不可行的,这样不利于对小文件的管理。经过推理以及实验之后,发现将一个月之内的小文件合并成一个MapFile是最合理的,因此本发明采用的合并策略就是将一个月内产生的小文件合并为一个MapFile。
作为本发明进一步的方案:所述的jar包由SFMS提供。
作为本发明进一步的方案:所述的客户端向SFMS发送管理文件的请求包括读取文件、写入文件或删除文件。
作为本发明进一步的方案:所述的SFMS在内存中同时保持多个index文件。为了提高小文件读取的效率,除了使用了上述的基于时间的合并策略之外,本发明还进行了进一步的优化,即同时在内存中保持多个index文件,进一步提高读取小文件时index文件的命中率,从而提高了小文件的读取效率。
所述基于MapFile的小文件管理服务SFMS系统的使用方法,步骤如下:
1)客户端使用jar包编写程序,向SFMS发送管理小文件的请求;
2)SFMS接收到客户端发出的请求之后,解析该请求;
3)SFMS使2)中解析得到的参数,对小文件进行管理,具体管理方法如下:
如果收到的是小文件存储的请求,则根据参数,遍历需要存储的小文件的路径,然后按照将每个月产生的小文件合并为一个大文件的原则,将这些小文件合并成一个MapFile,存储在HDFS中;
如果收到的是小文件读取的请求,则根据参数,从存储在HDFS中的MapFile中读取出客户需要的小文件内容;
如果收到是小文件批量删除的请求,则根据参数,将存储在HDFS中的对应的MapFile删除;
4)SFMS在将请求操作完毕之后,将操作请求的结果反馈给客户端。
与现有技术相比,本发明的有益效果是:
(1)将海量的小文件转换为有限个数的大文件,降低了Hadoop集群中master节点的内存占用率。
(2)采用了基于时间的合并策略,以及在内存中保持多个index文件的优化方法,提高了小文件读取的效率。
(3)将小文件管理功能封装为一个服务,降低了用户的使用难度。
附图说明
图1为基于MapFile的小文件管理服务SFMS系统的整体架构图。
图2为本发明的基础MapFile的文件结构图。
图3为本发明在小文件存储时采用的文件合并策略图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,从图中可以看出,服务端是由SFMS及Hadoop集群组成的,用户向SFMS发送管理文件的请求,如读取文件、写入文件或删除文件等,然后SFMS将这些请求转化为对Hadoop集群中的MapFile的操作,就这样实现了小文件的管理。
请参阅图2,从图中可以看出,data文件中存储的是Key-Value对,而index文件中则存储的是Key以及该Key-Value对所对应的偏移量。这样,MapFile就可以根据输入的Key,快速的定位到对应的Value。
请参阅图3,从图中可以看出,所述的基于时间合并是将一个月之内产生的小文件合并为一个MapFile。
本发明实施例中,一种基于MapFile的小文件管理服务SFMS系统,包括:
客户端:客户端使用jar包编写程序,向SFMS发送管理小文件的请求;客户端还用于接收SFMS反馈的操作结果;所述的jar包由SFMS提供;所述的客户端向SFMS发送管理文件的请求包括读取文件、写入文件或删除文件;
SFMS:SFMS(Small File Management Service)为小文件管理服务器,其使用Hadoop中自带的MapFile机制,采用基于时间合并的小文件合并方法,将海量小文件合并成有限个数的大文件,并将客户端发送的请求转化为对Hadoop集群中的MapFile的操作;还将操作结果反馈给客户端;
Hadoop集群:Hadoop集群用于存储MapFile;
所述的MapFile为Map容器的持久化文件,将一个个Key-Value对存储到文件中;给定一个Key即可快速定位到一个Value;MapFile是先将Key-Value按Key的字典序升序依次存储到data文件中,然后再将Key抽样取出,与该Key-Value对在data文件中的偏移量组成新的Key-Value对,存储到另一个文件index中;当需要读取某个Key对应的Value时,先将index文件读取到内存中,然后二分查找,找到该Key对应的偏移量,从而快速定位到该Key-Value对在data文件中的位置;
所述SFMS采用了小文件合并方法;小文件合并方法:以MapFile中存储的是Key-Value对为小文件合并为大文件的基础;以小文件的全路径为Key,小文件的内容为Value来构建Key-Value对,然后将该Key-Value对存储到MapFile,从而实现了小文件的合并;
所述的基于时间合并是将一个月内产生的小文件合并为一个MapFile;因为本发明的设计初衷是为了解决一个人脸识别系统中存储海量人脸图片的问题,而在该人脸识别系统中,一段时间之内的人脸图片被连续访问的概率很大,而从MapFile的读取原理中我们可以知道,从MapFile读取一个Key对应的Value过程中,最耗时的部分是将index文件从硬盘读取到内存中。因此如果我们读取的小文件都来自于同一个MapFile,就减少了将index文件读取到内存中的次数,提高了小文件读取的效率。但是将所有的小文件合并为一个MapFile也是不可行的,这样不利于对小文件的管理。经过推理以及实验之后,发现将一个月之内的小文件合并成一个MapFile是最合理的,因此本发明采用的合并策略就是将一个月内产生的小文件合并为一个MapFile。
所述的SFMS在内存中同时保持多个index文件。为了提高小文件读取的效率,除了使用了上述的基于时间的合并策略之外,本发明还进行了进一步的优化,即同时在内存中保持多个index文件,进一步提高读取小文件时index文件的命中率,从而提高了小文件的读取效率。
所述基于MapFile的小文件管理服务SFMS系统的使用方法,步骤如下:
1)客户端使用jar包编写程序,向SFMS发送管理小文件的请求;
2)SFMS接收到客户端发出的请求之后,解析该请求;
3)SFMS使2)中解析得到的参数,对小文件进行管理,具体管理方法如下:
如果收到的是小文件存储的请求,则根据参数,遍历需要存储的小文件的路径,然后按照将每个月产生的小文件合并为一个大文件的原则,将这些小文件合并成一个MapFile,存储在HDFS中;
如果收到的是小文件读取的请求,则根据参数,从存储在HDFS中的MapFile中读取出客户需要的小文件内容;
如果收到是小文件批量删除的请求,则根据参数,将存储在HDFS中的对应的MapFile删除;
4)SFMS在将请求操作完毕之后,将操作请求的结果反馈给客户端。
请参照表1,从表1可以看出,本发明在服务器上运行时,接收到客户端发来的小文件存储请求之后的执行输出,可以看到它在接收到客户端的请求之后,正是先解析请求,然后执行请求,最后再发回反馈的。
表1
Figure BDA0000399711300000071
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于MapFile的小文件管理服务SFMS系统,其特征在于,包括:
客户端:客户端使用jar包编写程序,向SFMS发送管理小文件的请求;客户端还用于接收SFMS反馈的操作结果;
SFMS:SFMS(Small File Management Service)为小文件管理服务器,其使用Hadoop中自带的MapFile机制,采用基于时间合并的小文件合并方法,将海量小文件合并成有限个数的大文件,并将客户端发送的请求转化为对Hadoop集群中的MapFile的操作;还将操作结果反馈给客户端;
Hadoop集群:Hadoop集群用于存储MapFile;
所述的MapFile为Map容器的持久化文件,将一个个Key-Value对存储到文件中;给定一个Key即可快速定位到一个Value;MapFile是先将Key-Value按Key的字典序升序依次存储到data文件中,然后再将Key抽样取出,与该Key-Value对在data文件中的偏移量组成新的Key-Value对,存储到另一个文件index中;当需要读取某个Key对应的Value时,先将index文件读取到内存中,然后二分查找,找到该Key对应的偏移量,从而快速定位到该Key-Value对在data文件中的位置;
所述SFMS采用了小文件合并方法;小文件合并方法:以MapFile中存储的是Key-Value对为小文件合并为大文件的基础;以小文件的全路径为Key,小文件的内容为Value来构建Key-Value对,然后将该Key-Value对存储到MapFile,从而实现了小文件的合并;
所述的基于时间合并是将一定时间内产生的小文件合并为一个MapFile。
2.根据权利要求1所述的基于MapFile的小文件管理服务SFMS系统,其特征在于,所述的基于时间合并是将1个月内产生的小文件合并为一个MapFile。
3.根据权利要求1所述的基于MapFile的小文件管理服务SFMS系统,其特征在于,所述的jar包由SFMS提供。
4.根据权利要求1所述的基于MapFile的小文件管理服务SFMS系统,其特征在于,所述的客户端向SFMS发送管理文件的请求包括读取文件、写入文件或删除文件。
5.根据权利要求1所述的基于MapFile的小文件管理服务SFMS系统,其特征在于,所述的SFMS在内存中同时保持多个index文件。
6.一种如权利要求1-5任一所述的基于MapFile的小文件管理服务SFMS系统的使用方法,其特征在于,步骤如下:
1)客户端使用jar包编写程序,向SFMS发送管理小文件的请求;
2)SFMS接收到客户端发出的请求之后,解析该请求;
3)SFMS使2)中解析得到的参数,对小文件进行管理,具体管理方法如下:
如果收到的是小文件存储的请求,则根据参数,遍历需要存储的小文件的路径,然后按照将每个月产生的小文件合并为一个大文件的原则,将这些小文件合并成一个MapFile,存储在HDFS中;
如果收到的是小文件读取的请求,则根据参数,从存储在HDFS中的MapFile中读取出客户需要的小文件内容;
如果收到是小文件批量删除的请求,则根据参数,将存储在HDFS中的对应的MapFile删除;
4)SFMS在将请求操作完毕之后,将操作请求的结果反馈给客户端。
CN201310499192.0A 2013-10-22 2013-10-22 基于MapFile的小文件管理服务SFMS系统及其使用方法 Pending CN103559229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310499192.0A CN103559229A (zh) 2013-10-22 2013-10-22 基于MapFile的小文件管理服务SFMS系统及其使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310499192.0A CN103559229A (zh) 2013-10-22 2013-10-22 基于MapFile的小文件管理服务SFMS系统及其使用方法

Publications (1)

Publication Number Publication Date
CN103559229A true CN103559229A (zh) 2014-02-05

Family

ID=50013476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310499192.0A Pending CN103559229A (zh) 2013-10-22 2013-10-22 基于MapFile的小文件管理服务SFMS系统及其使用方法

Country Status (1)

Country Link
CN (1) CN103559229A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123237A (zh) * 2014-06-24 2014-10-29 中电科华云信息技术有限公司 海量小文件分级存储方法及系统
CN104978330A (zh) * 2014-04-04 2015-10-14 西南大学 一种数据存储的方法及装置
CN105912675A (zh) * 2016-04-13 2016-08-31 中国科学院计算技术研究所 一种针对小文件合并的批量删除/查询方法与装置
CN106294374A (zh) * 2015-05-15 2017-01-04 北京国双科技有限公司 小文件合并的方法和数据查询系统
CN106528451A (zh) * 2016-11-14 2017-03-22 哈尔滨工业大学(威海) 针对小文件的二级缓存预取的云存储框架及构建方法
CN106776967A (zh) * 2016-12-05 2017-05-31 哈尔滨工业大学(威海) 基于时序聚合算法的海量小文件实时存储方法及装置
CN106843763A (zh) * 2017-01-19 2017-06-13 北京神州绿盟信息安全科技股份有限公司 一种基于hdfs系统的文件合并方法及装置
CN106855872A (zh) * 2015-12-08 2017-06-16 山东商务职业学院 基于Hadoop平台的海量图片的快速检索方法
CN107194238A (zh) * 2017-05-22 2017-09-22 郑州云海信息技术有限公司 一种管理访问权限的方法和装置及计算机可读存储介质
CN110515920A (zh) * 2019-08-30 2019-11-29 北京浪潮数据技术有限公司 一种基于Hadoop的海量小文件存取方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452465A (zh) * 2007-12-05 2009-06-10 高德软件有限公司 大批量文件数据存放和读取方法
CN102662992A (zh) * 2012-03-14 2012-09-12 北京搜狐新媒体信息技术有限公司 一种海量小文件的存储、访问方法及装置
US8504565B2 (en) * 2004-09-09 2013-08-06 William M. Pitts Full text search capabilities integrated into distributed file systems— incrementally indexing files

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504565B2 (en) * 2004-09-09 2013-08-06 William M. Pitts Full text search capabilities integrated into distributed file systems— incrementally indexing files
CN101452465A (zh) * 2007-12-05 2009-06-10 高德软件有限公司 大批量文件数据存放和读取方法
CN102662992A (zh) * 2012-03-14 2012-09-12 北京搜狐新媒体信息技术有限公司 一种海量小文件的存储、访问方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
洪旭升等: "基于MapFile的HDFS小文件存储效率问题", 《计算机系统应用》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978330A (zh) * 2014-04-04 2015-10-14 西南大学 一种数据存储的方法及装置
CN104123237A (zh) * 2014-06-24 2014-10-29 中电科华云信息技术有限公司 海量小文件分级存储方法及系统
CN106294374B (zh) * 2015-05-15 2019-06-04 北京国双科技有限公司 小文件合并的方法和数据查询系统
CN106294374A (zh) * 2015-05-15 2017-01-04 北京国双科技有限公司 小文件合并的方法和数据查询系统
CN106855872A (zh) * 2015-12-08 2017-06-16 山东商务职业学院 基于Hadoop平台的海量图片的快速检索方法
CN105912675A (zh) * 2016-04-13 2016-08-31 中国科学院计算技术研究所 一种针对小文件合并的批量删除/查询方法与装置
CN105912675B (zh) * 2016-04-13 2019-06-18 中国科学院计算技术研究所 一种针对小文件合并的批量删除/查询方法与装置
CN106528451A (zh) * 2016-11-14 2017-03-22 哈尔滨工业大学(威海) 针对小文件的二级缓存预取的云存储框架及构建方法
CN106528451B (zh) * 2016-11-14 2019-09-03 哈尔滨工业大学(威海) 针对小文件的二级缓存预取的云存储框架及构建方法
CN106776967A (zh) * 2016-12-05 2017-05-31 哈尔滨工业大学(威海) 基于时序聚合算法的海量小文件实时存储方法及装置
CN106776967B (zh) * 2016-12-05 2020-03-27 哈尔滨工业大学(威海) 基于时序聚合算法的海量小文件实时存储方法及装置
CN106843763A (zh) * 2017-01-19 2017-06-13 北京神州绿盟信息安全科技股份有限公司 一种基于hdfs系统的文件合并方法及装置
CN107194238A (zh) * 2017-05-22 2017-09-22 郑州云海信息技术有限公司 一种管理访问权限的方法和装置及计算机可读存储介质
CN107194238B (zh) * 2017-05-22 2020-01-10 苏州浪潮智能科技有限公司 一种管理访问权限的方法和装置及计算机可读存储介质
CN110515920A (zh) * 2019-08-30 2019-11-29 北京浪潮数据技术有限公司 一种基于Hadoop的海量小文件存取方法和系统

Similar Documents

Publication Publication Date Title
CN103559229A (zh) 基于MapFile的小文件管理服务SFMS系统及其使用方法
CN107169083B (zh) 公安卡口海量车辆数据存储与检索方法及装置、电子设备
Padhy et al. RDBMS to NoSQL: reviewing some next-generation non-relational database’s
Lakshman et al. Cassandra: a decentralized structured storage system
Khan et al. SQL support over MongoDB using metadata
CN103177027B (zh) 获取动态Feed索引的方法和系统
US10013440B1 (en) Incremental out-of-place updates for index structures
Jiang et al. THE optimization of HDFS based on small files
US10061834B1 (en) Incremental out-of-place updates for datasets in data stores
CN106570113B (zh) 一种海量矢量切片数据云存储方法及系统
CN103020315A (zh) 一种基于主从分布式文件系统的海量小文件存储方法
CN105144121A (zh) 高速缓存内容可寻址数据块以供存储虚拟化
CN109918450B (zh) 基于分析类场景下的分布式并行数据库及存储方法
CN110347651A (zh) 基于云存储的数据同步方法、装置、设备及存储介质
Li et al. Pyro: A {Spatial-Temporal}{Big-Data} Storage System
Gupta et al. In-memory database systems-a paradigm shift
CN104572505A (zh) 一种保证海量数据缓存最终一致性的系统及方法
Changtong An improved HDFS for small file
US9767107B1 (en) Parallel file system with metadata distributed across partitioned key-value store
Sawyer et al. Understanding query performance in Accumulo
CN103942301A (zh) 一种面向多数据类型访问应用的分布式文件系统
Zhang et al. A strategy to deal with mass small files in HDFS
Yan et al. Hmfs: efficient support of small files processing over HDFS
CN105631010A (zh) 一种基于hdfs小文件存储的优化方法
Chihoub et al. A scalability comparison study of data management approaches for smart metering systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140205