CN103856567B - 基于Hadoop分布式文件系统的小文件存储方法 - Google Patents

基于Hadoop分布式文件系统的小文件存储方法 Download PDF

Info

Publication number
CN103856567B
CN103856567B CN201410116155.1A CN201410116155A CN103856567B CN 103856567 B CN103856567 B CN 103856567B CN 201410116155 A CN201410116155 A CN 201410116155A CN 103856567 B CN103856567 B CN 103856567B
Authority
CN
China
Prior art keywords
file
small documents
request
small
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410116155.1A
Other languages
English (en)
Other versions
CN103856567A (zh
Inventor
樊凯
李慧莹
李晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201410116155.1A priority Critical patent/CN103856567B/zh
Publication of CN103856567A publication Critical patent/CN103856567A/zh
Application granted granted Critical
Publication of CN103856567B publication Critical patent/CN103856567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于Hadoop分布式文件系统的小文件存储方法,实现步骤为:(1)新增两台服务器;(2)判断文件是否是小文件;(3)判断大文件请求状态;(4)判断小文件请求状态;(5)预处理写请求;(6)处理写请求;(7)检测缓存区;(8)预处理读请求;(9)处理读请求;(10)小文件分离;(11)建立预取记录;(12)更新预取记录。本发明相比现有技术存储海量小文件的方法,在保证系统通用性的同时,还具有读写性能效率高、缓解NameNode内存负担的优点,解决了海量小文件时NameNode内存占用率高、存储访问效率低的问题。本发明可用于分布式文件系统对海量小文件的存储和管理。

Description

基于Hadoop分布式文件系统的小文件存储方法
技术领域
本发明属于计算机技术领域,更进一步涉及计算机分布式数据优化存储领域中的一种基于Hadoop分布式文件系统(Distributed File System DFS)的小文件存储方法。本发明应用独立于HDFS系统的小文件处理服务器对小文件进行合并、映射和预取等操作,可应用于高效率地存储访问海量小文件。
背景技术
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。目前,在以HDFS为代表的分布式文件存储技术领域中,广泛使用HDFS高效处理各类大文件,但是随着用户需求的改变,小文件数量日益增加,用户和Namenode的交互也越来越频繁。由于HDFS自身的主从式结构和元数据的存储方式导致其在处理海量小文件时NameNode内存占用率高、存储访问效率低、并发用户的访问时延长,这些问题已经成为制约HDFS整体性能的瓶颈。
浪潮电子信息产业股份有限公司申请的专利“一种HDFS针对小文件的改进方法”(专利申请号:201310494888.4,公布号CN 103530387A),公开了一种HDFS针对小文件的改进方法。该方法的思路是将NameNode的部分权限下方DataNode节点上,让DataNode缓存部分小文件元数据信息,让DataNode处理绝大多数的小文件读写请求,最大限度的减轻NameNode的负担。该方法有效解决了NameNode单点负载过重的问题,将小文件的压力分配到数据节点,但是仍然存在的不足是,该方法不适用于高效率地对小文件进行存储访问操作。
Dong B等人发表的论文“A novel approach to improving the efficiency ofstoring and accessing small files on Hadoop:a case study by PowerPoint files”(Proc.of the 7th Int.Conf.on Services Computing.Piscataway,NJ,USA:IEEE,2010:65-72.),提出了一种针对有效存储ppt、视频文件类型的小文件的解决方案。BlueSky存放的主要是PPT文件小文件和视频小文件,以HDFS作为其存放的载体。在用户存储文件时,系统相应的存储一些文件的快照,用户可以通过这些快照决定是否继续浏览文件。同时,当用户浏览PPT时,可能也会访问一些相关联的PPT和文件,因而文件的访问具有相关性和本地性。Dong等人针对Bluesky系统的特点,在论文中提出了如下观点:1)将属于同一课件的小文件合并成一个大文件,从而减轻NameNode的压力,提高小文件的存储效率;2)提出了一种two-level prefetching机制(索引文件预取和数据文件预取),当用户访问某个文件时,通过索引文件预取机制,把文件所在的Block对应的索引文件加载到内存中,这样,就省去了用户与NameNode交互步骤,提高了小文件的读取效率。同时,由于数据文件预取机制,将该文件所在课件中的所有文件也会被加载到内存中,从而提高用户访问其他文件的速度。BlueSky从系统层面解决了HDFS的小文件问题,虽满足了低时延访问的需求,但是仍然存在的不足是,该方法只适用于BlueSky系统特点下来解决小文件问题,并没有形成一个比较通用的技术方案。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种基于Hadoop分布式文件系统的小文件存储方法。该方法可以有效地克服HDFS在存储访问海量小文件时名字节点NameNode内存占用率高、存储访问效率低的缺点,并且保证了方法的通用性。
本发明实现的思路是在原HDFS架构之外增加了一个独立的小文件服务器,这个服务器通过建立相应的本地索引和小文件处理机制,来有效地完成小文件的合并、映射、预取,在写入或读取文件之前,先判断该文件是否是小文件,如果是,则先交给小文件服务器处理,否则直接交给原HDFS系统处理。达到减轻名字节点NameNode的负担、海量小文件存储访问效率高的目的,同时保证了系统的通用性。
本发明的具体步骤如下:
1.一种基于Hadoop分布式文件系统的小文件存储方法,包括如下步骤:
(1)新增两台服务器:
在Hadoop分布式文件系统HDFS之外,新增一台用于监听文件读写请求的网络服务器Webserver,新增一台用于处理小文件的小文件处理服务器。
(2)判断文件是否是小文件:
网络服务器Webserver判断监听到的请求文件是否是小于16M的文件,若小于16M则被视为小文件,执行步骤(4),否则,视为大文件,执行步骤(3)。
(3)判断大文件请求状态:
网络服务器Webserver判断监听到的大文件读写请求状态,若是大文件写入请求,执行步骤(6);若是大文件读取请求,执行步骤(9)。
(4)判断小文件请求状态:
网络服务器Webserver判断监听到的小文件读写请求状态,若是小文件写入请求,执行步骤(5),若是小文件读取请求,执行步骤(7)。
(5)预处理写请求:
小文件处理服务器,采用文件合并方法,合并请求写入的小文件,并在合并文件的首部为该小文件建立本地索引,得到合并文件,将合并文件送入Hadoop分布式文件系统HDFS的用户端。
(6)处理写请求:
Hadoop分布式文件系统HDFS的用户端,将请求写入的大文件或合并文件,写入Hadoop分布式文件系统HDFS,完成写入操作。
(7)检测缓存区:
(7a)小文件处理服务器检测缓存区中是否存在网络服务器Webserver监听到的读请求文件记录,若存在,小文件处理服务器将缓存区中的读请求文件取出返回给用户,完成读取操作,否则,执行步骤(7b);
(7b)小文件处理服务器检测缓存区中是否存在网络服务器Webserver监听到的读请求文件的元数据信息,若存在,小文件处理服务器直接与HDFS用户端交互,将小文件从HDFS中取出返回给用户,完成读取操作,否则,执行步骤(8)。
(8)预处理读请求:
根据小文件和合并文件的文件名,小文件处理服务器将收到的请求读取的小文件映射到小文件的合并文件中,并将合并文件送入Hadoop分布式文件系统HDFS的用户端。
(9)处理读请求:
Hadoop分布式文件系统HDFS的用户端,将接收到的请求读取的大文件或合并文件,从Hadoop分布式文件系统HDFS中读出,得到合并文件的元数据信息与本地索引信息,完成读取操作。
(10)分离小文件:
小文件处理服务器采用小文件分离方法,从Hadoop分布式文件系统HDFS中读出合并文件,将请求读取的小文件从合并文件中分离出来返回给用户,完成读取操作。
(11)建立预取记录:
(11a)小文件处理服务器从步骤(9)得到的合并文件的元数据信息与本地索引信息中,提取每个小文件的文件名、数据节点位置、数据块位置、偏移量offset和文件长度length,建立小文件的元数据预取记录;
(11b)小文件处理服务器从Hadoop分布式文件系统HDFS中读取与被请求文件同属一个块的小文件,建立该小文件的预取记录。
(12)更新预取记录:
小文件处理器采用更新预取记录的方法,更新已经预取的小文件的元数据记录和小文件的预取记录。
本发明与现有的技术相比具有以下优点:
1.本发明在HDFS体系结构的基础之上,增加了一个小文件处理服务器,克服了现有技术只适用于特殊场景的问题,使得本发明在解决HDFS小文件问题上具有通用性。
2.本发明结合了小文件特征,提出了合并小文件的方案,并把小文件的本地索引交给Datanode管理,克服了现有技术在解决小文件问题时NameNode硬件存储能力有限这个瓶颈问题,大大提高了Namenode的工作效率,减轻了其存储负担。
3.由于本发明的两级索引机制,实现了元数据的预取和小文件的预取,NameNode只管理合并文件的元数据信息,减少了用户端与Namenode的交互频率,克服了现有HDFS系统文件读取操作花费时间较长的缺点,读取相同数目的文件,本发明花费的时间更短,因此,效率更高,提高了提高了小文件检索速度,满足了低时延访问的需求。
附图说明
图1为本发明的流程图;
图2为本发明与两种现有方法对NameNode的内存使用趋势的比较图;
图3为本发明与现有方法的访问效率比较图。
具体实施方式
下面结合附图对本发明做进一步的描述。
参照图1,本发明的具体实施步骤如下:
步骤1,新增两台服务。
在Hadoop分布式文件系统HDFS之外,新增一台用于监听文件读写请求的网络服务器Webserver,新增一台用于处理小文件的小文件处理服务器:本发明系统架构由网络服务器Webserver、小文件处理服务器、原HDFS系统三部分构成,其中小文件处理服务器主要对小文件进行文件合并、文件映射、文件预取等操作。
步骤2,判断文件是否是小文件。
网络服务器Webserver判断监听到的请求文件是否是小于16M的文件,若小于16M则被视为小文件,执行步骤4,否则,视为大文件,执行步骤3。
步骤3,判断大文件请求状态。
网络服务器Webserver判断监听到的大文件读写请求状态,若是大文件写入请求,执行步骤6;若是大文件读取请求,执行步骤9。
步骤4,判断小文件请求状态。
网络服务器Webserver判断监听到的小文件读写请求状态,若是小文件写入请求,执行步骤5,若是小文件读取请求,执行步骤7。
步骤5,预处理写请求。
小文件处理服务器,采用文件合并方法,合并请求写入的小文件,并在合并文件的首部为该小文件建立本地索引,得到合并文件,将合并文件送入Hadoop分布式文件系统HDFS的用户端。
所述文件合并方法,按如下步骤进行:
第一步,在收到网络服务器Webserver发送来的小文件写入请求后,小文件处理服务器为小文件建立本地索引,并持续向本地索引中添加新增的小文件本地索引信息;
第二步,小文件处理服务器判断本地索引和小文件共占内存的大小,是否超过块block的大小:若不超过,则持续向该block中添加小文件及其本地索引,否则,新增添一个块block,继续向新的block中添加小文件及其本地索引;
第三步,将本地索引作为合并文件的头文件,本地索引中偏移量offset,文件长度length数据对的值指向小文件在合并文件中的位置,得到小文件的合并文件。
步骤6,处理写请求。
Hadoop分布式文件系统HDFS的用户端,将请求写入的大文件或合并文件,写入Hadoop分布式文件系统HDFS,完成写入操作。
步骤7,检测缓存区。
第一步,小文件处理服务器检测缓存区中是否存在网络服务器Webserver监听到的读请求文件记录,若存在,小文件处理服务器将缓存区中的读请求文件取出返回给用户,完成读取操作,否则,执行第二步;
第二步,小文件处理服务器检测缓存区中是否存在网络服务器Webserver监听到的读请求文件的元数据信息,若存在,小文件处理服务器直接与HDFS用户端交互,将小文件从HDFS中取出返回给用户,完成读取操作,否则,执行步骤8。
步骤8,预处理读请求。
根据小文件和合并文件的文件名,小文件处理服务器将收到的请求读取的小文件映射到小文件的合并文件中,并将合并文件送入Hadoop分布式文件系统HDFS的用户端。
步骤9,处理读请求。
Hadoop分布式文件系统HDFS的用户端,将接收到的请求读取的大文件或合并文件,从Hadoop分布式文件系统HDFS中读出,得到合并文件的元数据信息与本地索引信息,完成读取操作。
步骤10,分离小文件。
小文件处理服务器采用小文件分离方法,从Hadoop分布式文件系统HDFS中读出合并文件,将请求读取的小文件从合并文件中分离出来返回给用户,完成读取操作。
所述文件合并方法,按如下步骤进行:
第一步,小文件处理服务器通过合并文件的元数据信息得到请求读取文件的本地索引,本地索引中的偏移量offset,文件长度length数据对指向小文件在合并文件中的位置;
第二步,小文件处理服务器通过小文件在合并文件中的位置,将小文件从合并文件中分离出来。
步骤11,建立预取记录。
第一步,小文件处理服务器从步骤9得到的合并文件的元数据信息与本地索引信息中,提取每个小文件的文件名、数据节点位置、数据块位置、偏移量offset和文件长度length,建立小文件的元数据预取记录。
第二步,小文件处理服务器从Hadoop分布式文件系统HDFS中读取与被请求文件同属一个块的小文件,建立该小文件的预取记录。
步骤12,更新预取记录。
小文件处理器采用更新预取记录的方法,更新已经预取的小文件的元数据记录和小文件的预取记录。
所述更新预取记录的方法,按如下步骤进行:
第一步,在小文件的元数据预取记录和小文件的预取记录的首部,分别添加一个用于记录文件访问频率的32位的文件访问标识value;
第二步,将文件访问标识value的初始值设为1,以一分钟为计时单位,若有用户访问预取的本地索引文件记录和预取的小文件记录,文件访问标识value的值加1,否则,文件访问标识value的值减1;
第三步,当文件访问标识value的值为0时,将预取信息从小文件处理器的缓存中移除。
本发明的效果可以通过下述仿真实验得到验证:
1.仿真条件:
本发明的仿真是在主频2.5GHz intel(R)Core(TM)i5CPU的硬件环境以及MATLABR2009b,Window XP Professional的软件环境下进行的。
2.仿真内容与结果分析:
采用本发明的基于Hadoop分布式文件系统小文件存储方法与原Hadoop分布式文件系统HDFS和HAR归档方法相比,NameNode的内存使用趋势的比较如图2所示,访问效率的比较如图3所示。
图2是本发明与两种现有方法对NameNode的内存使用趋势的比较图,横坐标表示小文件的数量,纵坐标表示小文件元数据占用NameNode内存,物理单位为MB。本发明分别选取2000、4000、6000、8000、10000个小文件,分别使用原HDFS系统、HAR和本发明三种方法进行仿真,对三种方法下小文件元数据占用NameNode内存进行统计,最终得到NameNode的内存使用趋势的三根曲线。由图2可见,对于原HDFS系统和HAR方法,随着文件数目的逐步增多,其NameNode内存占用呈线性增长,采用HAR方法对缓解NameNode的存储压力有一定缓解。但是,通过同样多的小文件数量时,对三根曲线的纵坐标比较可知,本发明占用NameNode内存明显比现有两种方法小得多,在小文件的存储效率上大大高于原始HDFS和HAR方法,且随着小文件数目的增加,本发明方法曲线的线性增长越缓慢,说明优越性越突出。
图3为本发明与现有方法的访问效率比较图,横坐标表示三种解决方案,纵坐标表示三种解决方案下访问10000个小文件的平均访问时间,物理单位为ms。本发明选取10000个小文件,分别使用原HDFS系统、HAR和本发明三种方法进行仿真,对三种方法下访问10000个小文件耗费的总时间进行统计,计算出访问一个小文件的平均访问时间,最终得到访问效率比较图。由图3可见,通过对三种方法下对10000个小文件访问时间即纵坐标的比较可知,本发明方法和原始HDFS及HAR相比,其平均访问时间MPM大大减小,访问效率较高。
仿真结果表明:本发明由于采用了独立于原HDFS系统的小文件处理服务器来单独处理小文件的合并、映射、预取等,减轻了NameNode的负载,提高了HDFS对小文件的存储访问效率,同时保证了系统的通用性。

Claims (4)

1.一种基于Hadoop分布式文件系统的小文件存储方法,包括如下步骤:
(1)新增两台服务器:
在Hadoop分布式文件系统HDFS之外,新增一台用于监听文件读写请求的网络服务器Webserver,新增一台用于处理小文件的小文件处理服务器;
(2)判断文件是否是小文件:
网络服务器Webserver判断监听到的请求文件是否是小于16M的文件,若小于16M则被视为小文件,执行步骤(4),否则,视为大文件,执行步骤(3);
(3)判断大文件请求状态:
网络服务器Webserver判断监听到的大文件读写请求状态,若是大文件写入请求,执行步骤(6);若是大文件读取请求,执行步骤(9);
(4)判断小文件请求状态:
网络服务器Webserver判断监听到的小文件读写请求状态,若是小文件写入请求,执行步骤(5),若是小文件读取请求,执行步骤(7);
(5)预处理写请求:
小文件处理服务器,采用文件合并方法,合并请求写入的小文件,并在合并文件的首部为该小文件建立本地索引,得到合并文件,将合并文件送入Hadoop分布式文件系统HDFS的用户端;
(6)处理写请求:
Hadoop分布式文件系统HDFS的用户端,将请求写入的大文件或合并文件,写入Hadoop分布式文件系统HDFS,完成写入操作;
(7)检测缓存区:
(7a)小文件处理服务器检测缓存区中是否存在网络服务器Webserver监听到的读请求文件记录,若存在,小文件处理服务器将缓存区中的读请求文件取出返回给用户,完成读取操作,否则,执行步骤(7b);
(7b)小文件处理服务器检测缓存区中是否存在网络服务器Webserver监听到的读请求文件的元数据信息,若存在,小文件处理服务器直接与HDFS用户端交互,将小文件从HDFS中取出返回给用户,完成读取操作,否则,执行步骤(8);
(8)预处理读请求:
根据小文件和合并文件的文件名,小文件处理服务器将收到的请求读取的小文件映射到小文件的合并文件中,并将合并文件送入Hadoop分布式文件系统HDFS的用户端;
(9)处理读请求:
Hadoop分布式文件系统HDFS的用户端,将接收到的请求读取的大文件或合并文件,从Hadoop分布式文件系统HDFS中读出,得到合并文件的元数据信息与本地索引信息,完成读取操作;
(10)分离小文件:
小文件处理服务器采用小文件分离方法,从Hadoop分布式文件系统HDFS中读出合并文件,将请求读取的小文件从合并文件中分离出来返回给用户,完成读取操作;
(11)建立预取记录:
(11a)小文件处理服务器从步骤(9)得到的合并文件的元数据信息与本地索引信息中,提取每个小文件的文件名、数据节点位置、数据块位置、偏移量offset和文件长度length,建立小文件的元数据预取记录;
(11b)小文件处理服务器从Hadoop分布式文件系统HDFS中读取与被请求文件同属一个块的小文件,建立该小文件的预取记录;
(12)更新预取记录:
小文件处理器采用更新预取记录的方法,更新已经预取的小文件的元数据记录和小文件的预取记录。
2.根据权利要求1所述的基于Hadoop分布式文件系统的小文件存储方法,其特征在于,步骤(5)中所述文件合并方法,按如下步骤进行:
第一步,在收到网络服务器Webserver发送来的小文件写入请求后,小文件处理服务器为小文件建立本地索引,并持续向本地索引中添加新增的小文件本地索引信息;
第二步,小文件处理服务器判断本地索引和小文件共占内存的大小,是否超过块block的大小:若不超过,则持续向该block中添加小文件及其本地索引,否则,新增添一个块block,继续向新的block中添加小文件及其本地索引;
第三步,将本地索引作为合并文件的头文件,本地索引中偏移量offset,文件长度length数据对的值指向小文件在合并文件中的位置,得到小文件的合并文件。
3.根据权利要求1所述的基于Hadoop分布式文件系统的小文件存储方法,其特征在于,步骤(10)中所述小文件分离方法,按如下步骤进行:
第一步,小文件处理服务器通过合并文件的元数据信息,得到请求读取文件的本地索引,本地索引中的偏移量offset与文件长度length数据对,指向小文件在合并文件中的位置;
第二步,小文件处理服务器通过小文件在合并文件中的位置,将小文件从合并文件中分离出来。
4.根据权利要求1所述的基于Hadoop分布式文件系统的小文件存储方法,其特征在于,步骤(12)所述更新预取记录的方法,按如下步骤进行:
第一步,在小文件的元数据预取记录和小文件的预取记录的首部,分别添加一个用于记录文件访问频率的32位的文件访问标识value;
第二步,将文件访问标识value的初始值设为1,以一分钟为计时单位,若有用户访问预取的本地索引文件记录和预取的小文件记录时,将文件访问标识value的值加1,否则,将文件访问标识value的值减1;
第三步,当文件访问标识value的值为0时,将预取信息从小文件处理器的缓存中移除。
CN201410116155.1A 2014-03-26 2014-03-26 基于Hadoop分布式文件系统的小文件存储方法 Active CN103856567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410116155.1A CN103856567B (zh) 2014-03-26 2014-03-26 基于Hadoop分布式文件系统的小文件存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410116155.1A CN103856567B (zh) 2014-03-26 2014-03-26 基于Hadoop分布式文件系统的小文件存储方法

Publications (2)

Publication Number Publication Date
CN103856567A CN103856567A (zh) 2014-06-11
CN103856567B true CN103856567B (zh) 2017-05-17

Family

ID=50863771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410116155.1A Active CN103856567B (zh) 2014-03-26 2014-03-26 基于Hadoop分布式文件系统的小文件存储方法

Country Status (1)

Country Link
CN (1) CN103856567B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234594A (zh) * 2017-11-28 2018-06-29 北京市商汤科技开发有限公司 文件存储方法和装置、电子设备、程序和介质

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133882B (zh) * 2014-07-28 2017-06-23 四川大学 一种基于hdfs的小文件处理方法
CN104462563B (zh) * 2014-12-26 2019-04-30 浙江宇视科技有限公司 一种文件存储方法和系统
CN104679898A (zh) * 2015-03-18 2015-06-03 成都汇智远景科技有限公司 一种大数据访问方法
CN104778229A (zh) * 2015-03-31 2015-07-15 南京邮电大学 基于Hadoop的电信业务小文件存储系统及方法
CN104750937B (zh) * 2015-04-08 2017-10-24 西安电子科技大学 基于Hadoop的集成电路版图转换方法
CN104765876B (zh) * 2015-04-24 2017-11-10 中国人民解放军信息工程大学 海量gnss小文件云存储方法
CN106294374B (zh) * 2015-05-15 2019-06-04 北京国双科技有限公司 小文件合并的方法和数据查询系统
CN104933110B (zh) * 2015-06-03 2018-02-09 电子科技大学 一种基于MapReduce的数据预取方法
CN106294526B (zh) * 2015-06-26 2019-05-14 华中科技大学 一种分级存储系统中的海量小文件迁移方法
CN105025306B (zh) * 2015-06-30 2018-05-11 中国农业大学 基于虚拟管理分布式文件系统的视频存储方法及系统
CN105183839A (zh) * 2015-09-02 2015-12-23 华中科技大学 一种基于Hadoop的小文件分级索引的存储优化方法
CN105208126B (zh) * 2015-10-09 2018-08-24 北京航空航天大学 一种基于用户端存储的干扰管理方法
CN105302496A (zh) * 2015-11-23 2016-02-03 浪潮(北京)电子信息产业有限公司 一种集群存储系统的读写性能优化框架及方法
CN105631010A (zh) * 2015-12-29 2016-06-01 成都康赛信息技术有限公司 一种基于hdfs小文件存储的优化方法
CN107247714B (zh) * 2016-06-01 2018-02-27 国家电网公司 一种基于分布式存储技术的小文件存取系统的存取方法
CN106021585A (zh) * 2016-06-02 2016-10-12 同济大学 一种基于时空特性的交通事件视频存取方法及系统
CN107480150B (zh) * 2016-06-07 2020-12-08 阿里巴巴集团控股有限公司 一种文件加载方法和装置
CN107656697B (zh) * 2016-07-26 2021-03-02 阿里巴巴集团控股有限公司 一种在存储介质上操作数据的方法和装置
CN106230971B (zh) * 2016-08-29 2019-03-01 无锡华云数据技术服务有限公司 基于cdn的大文件分发方法
CN108614837B (zh) * 2016-12-13 2020-10-09 杭州海康威视数字技术股份有限公司 文件存储和检索的方法及装置
CN106933984A (zh) * 2017-02-20 2017-07-07 周长英 一种分布式文件系统的调度方法及系统
CN106909651A (zh) * 2017-02-23 2017-06-30 郑州云海信息技术有限公司 一种基于hdfs小文件写入和读取的方法
CN107391280A (zh) * 2017-07-31 2017-11-24 郑州云海信息技术有限公司 一种小文件的接收和存储方法及装置
CN107562806B (zh) * 2017-08-08 2020-07-28 上海交通大学 混合内存文件系统的自适应感知加速方法及系统
CN107436736A (zh) * 2017-08-08 2017-12-05 郑州云海信息技术有限公司 一种hdfs中文件的存储方法及装置
CN109600413B (zh) * 2018-04-23 2021-04-06 中国科学院高能物理研究所 一种基于高能物理事例的数据管理与传输方法
CN108806773B (zh) * 2018-05-21 2021-07-27 上海熙业信息科技有限公司 医学影像云存储平台设计方法
CN108932288B (zh) * 2018-05-22 2022-04-12 广东技术师范大学 一种基于Hadoop的海量小文件缓存方法
CN108932287B (zh) * 2018-05-22 2019-11-29 广东技术师范大学 一种基于Hadoop的海量小文件写入方法
CN110196841B (zh) * 2018-06-21 2023-12-05 腾讯科技(深圳)有限公司 文件的存储方法和装置、查询方法和装置及服务器
CN110457018A (zh) * 2019-08-16 2019-11-15 浪潮云信息技术有限公司 一种基于Hadoop的数据管理系统及其管理方法
CN110515920A (zh) * 2019-08-30 2019-11-29 北京浪潮数据技术有限公司 一种基于Hadoop的海量小文件存取方法和系统
CN113407620B (zh) * 2020-03-17 2023-04-21 北京信息科技大学 基于异构Hadoop集群环境的数据块放置方法及系统
CN112148681A (zh) * 2020-10-15 2020-12-29 南京邮电大学 一种基于分布式文件系统hdfs的小文件存取优化方法
CN113760190A (zh) * 2021-08-23 2021-12-07 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于Ceph存储的小文件合并系统及方法
CN115269524B (zh) * 2022-09-26 2023-03-24 创云融达信息技术(天津)股份有限公司 一种端到端小文件归集传输和存储的一体化系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332029A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种基于Hadoop的海量可归类小文件关联存储方法
CN102332027A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种基于Hadoop的海量非独立小文件关联存储方法
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332029A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种基于Hadoop的海量可归类小文件关联存储方法
CN102332027A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种基于Hadoop的海量非独立小文件关联存储方法
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hadoop小文件处理技术的研究和实现;陈光景;《中国优秀硕士学位论文全文数据库 信息科技辑》;中国学术期刊(光盘版)电子杂志社有限公司;20130615(第6期);第I137-51页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234594A (zh) * 2017-11-28 2018-06-29 北京市商汤科技开发有限公司 文件存储方法和装置、电子设备、程序和介质

Also Published As

Publication number Publication date
CN103856567A (zh) 2014-06-11

Similar Documents

Publication Publication Date Title
CN103856567B (zh) 基于Hadoop分布式文件系统的小文件存储方法
CN105205014B (zh) 一种数据存储方法和装置
US8463846B2 (en) File bundling for cache servers of content delivery networks
Lee et al. Smart layers and dumb result: IO characterization of an android-based smartphone
CN102843396B (zh) 一种分布式缓存系统中的数据写入及读取方法及装置
CN103885728A (zh) 一种基于固态盘的磁盘缓存系统
CN105183839A (zh) 一种基于Hadoop的小文件分级索引的存储优化方法
CN103530387A (zh) 一种hdfs针对小文件的改进方法
CN102023931A (zh) 一种自适应缓存预取方法
CN104320448B (zh) 一种基于大数据的计算设备的缓存与预取加速方法和装置
CN108710639A (zh) 一种基于Ceph的海量小文件存取优化方法
WO2023050712A1 (zh) 一种深度学习业务的任务调度方法及相关装置
WO2016115957A1 (zh) 一种面向用户与应用的计算机与智能设备加速方法和装置
CN102104494B (zh) 元数据服务器、带外网络文件系统及其处理方法
Lee et al. ActiveSort: Efficient external sorting using active SSDs in the MapReduce framework
CN112214420A (zh) 数据缓存方法、存储控制装置、及存储设备
WO2020231382A1 (en) Cache optimization via topics in web search engines
CN113835616A (zh) 应用的数据管理方法、系统和计算机设备
Negrão et al. An adaptive semantics-aware replacement algorithm for web caching
CN105915619A (zh) 顾及访问热度的网络空间信息服务高性能内存缓存方法
Cao et al. Is-hbase: An in-storage computing optimized hbase with i/o offloading and self-adaptive caching in compute-storage disaggregated infrastructure
CN103442000B (zh) Web缓存置换方法及装置、http代理服务器
CN107967306B (zh) 一种存储系统中关联块的快速挖掘方法
Doekemeijer et al. Key-Value Stores on Flash Storage Devices: A Survey
CN112748854B (zh) 对快速存储设备的优化访问

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant