CN104133882A - 一种基于hdfs的小文件处理方法 - Google Patents

一种基于hdfs的小文件处理方法 Download PDF

Info

Publication number
CN104133882A
CN104133882A CN201410362604.0A CN201410362604A CN104133882A CN 104133882 A CN104133882 A CN 104133882A CN 201410362604 A CN201410362604 A CN 201410362604A CN 104133882 A CN104133882 A CN 104133882A
Authority
CN
China
Prior art keywords
small documents
file
merged file
client
merged
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410362604.0A
Other languages
English (en)
Other versions
CN104133882B (zh
Inventor
刘晓洁
罗鹏
董雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201410362604.0A priority Critical patent/CN104133882B/zh
Publication of CN104133882A publication Critical patent/CN104133882A/zh
Application granted granted Critical
Publication of CN104133882B publication Critical patent/CN104133882B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于HDFS的小文件处理方法,属于网络存储领域。该方法是将小文件在客户端进行合并,然后将合并文件上传到HDFS,从而减少名称节点的内存损耗;在HDFS集群中新增了一台MetaData服务器,用于缓存小文件与合并文件之间的映射关系,从而减轻名称节点的访问压力;存储在数据节点的合并文件除了包含小文件的数据内容,还包括了小文件在合并文件内部的位置信息和原始路径,客户端则可以直接查询数据块的头部信息,获取小文件的元数据并下载小文件的数据内容,从而减少了访问名称节点的次数。本发明解决了HDFS小文件处理效率低的问题,应用前景广阔,主要适合应用在以文件上传和下载为主要业务的HDFS存储系统中。

Description

一种基于HDFS的小文件处理方法
技术领域
本发明涉及网络存储领域,尤其涉及的是一种基于HDFS的小文件处理方法。
背景技术
随着互联网技术的高速发展和社会信息化程度的不断提高,网络数据正以指数级别的速度增长。因此,如何为海量的数据提供高吞吐量、并且安全可靠的存储服务,成为人们最为关注的话题之一。目前比较成熟的方法是在存储集群上部署分布式文件系统对数据进行分布存储和管理。存储集群可以被部署到多个地区,从而有利于分散风险,防止毁灭性的的灾难。国内外有多款分布式文件系统,包括Google的GFS、HadoopDistributed File System(简称HDFS)、Lustre、FastDFS、MooseFS、MogileFS、NFS等。这些分布式文件系统特点各不相同,因此在应用场合上会有所差异。其中,HDFS是由Apache自由软件基金会发起的Hadoop项目中的重要组成部分,它作为一个开源的分布式文件系统,在近几年发展迅速,是国内外研究机构、企事业单位等团体或组织,以及个人研究和使用较多的分布式文件系统。
然而,HDFS在进行小文件处理时,名称节点需要耗费大量的内存来保存小文件的元数据信息,而且小文件上传和下载的效率很不理想。虽然,HDFS提供了HAR、SequenceFile、MapFile、CombineFileInputFormat方法用来处理小文件问题,但是HAR与CombineFileInputFormat方法不能提高小文件的上传效率,SequenceFile与MapFile方法虽然上传效率较高,但是它们的查询效率低,因此解决HDFS的小文件问题是非常有意义的。
中国专利公开号为103530387A的专利,通过将Namenode的部分权限下放到Datanode节点上,让Datanode缓存部分小文件元数据信息,让Datanode处理绝大多数的小文件读写请求。然而该方法在小文件上传时,每上传一个小文件都需要访问HDFS,因此该方法在小文件上传操作时,HDFS集群的负载压力依然比较大。中国专利公开号为103577123A的专利,通过小文件合并和存储预处理,文件目录结构优化,元数据分布式存储等思想对小文件处理进行了优化,但是该方法在小文件下载时没有充分利用文件访问的局部性原理,从而每次小文件下载操作都需要重新连接数据节点,根据小文件的位置信息从对应的数据块中获取小文件数据内容。南京师范大学硕士学位论文《HDFS中文件存储优化的相关技术研究》针对HDFS存储小文件的不足,提出了将小文件合并成若干大文件并将大文件和相关元数据一同存储到HDFS中,在读取某个小文件时,Client端缓存从Datanode返回的包含该小文件的整个大文件,从而在读取该小文件或者大文件中的其他小文件时,可以直接从Client端读取。该方法虽然减少了Client访问HDFS的次数,但是该方法将所有的元数据信息都缓存在Namenode中,没有很好的解决Namenode的内存损耗问题。
发明内容
本发明针对HDFS小文件处理效率低的问题,提供了一种基于HDFS的小文件处理方法。
本发明的技术方案如下:
一种基于HDFS的小文件处理方法,其包括以下三个方面:
(1)文件的合并与上传
该步骤在客户端完成,通过对文件进行过滤,筛选出符合条件的小文件;文件合并时,将小文件的元数据信息添加到合并文件的头部,小文件的数据内容追加到合并文件中,该合并文件的组织结构称为MERGE-FILE结构,包括小文件数量,小文件路径长度,小文件路径,小文件内容起始偏移量,小文件内容长度,小文件内容,其中头部包括前五个字段;小文件合并后,记录小文件与合并文件的映射信息,包括小文件原始路径,小文件长度,小文件偏移量,合并文件路径;合并文件的大小满足要求后,将合并文件以及对应的文件映射信息保存到缓冲队列,等待上传;其具体过程为:
a)客户端判断文件的大小是否小于阈值Tf,如果是,则该文件被视为小文件,否则该文件不需要进行合并;
b)针对步骤a)过滤后的小文件,客户端计算小文件的数据内容和元数据的总大小Sd_m,如果还没有创建合并文件,那么就直接创建合并文件,并将小文件元数据保存到合并文件头部,小文件内容追加到合并文件中;否则,客户端计算合并文件大小Smf与Sd_m的总大小是否超过Tb,如果是,则将当前合并文件缓存,并重新创建新的合并文件;否则,就将小文件的元数据和内容保存到合并文件中;客户端记录每个小文件与合并文件的映射信息,并将其与对应的合并文件进行缓存;
c)客户端缓存的一个合并文件对应HDFS的一个数据块副本,它们都遵循MERGE-FILE的结构;客户端从缓冲队列中取出合并文件和对应的文件映射信息,分别上传到HDFS和MetaData服务器;
(2)小文件与合并文件映射信息的存储
通过在HDFS存储集群中新增一台MetaData服务器,用于缓存小文件与合并文件的映射信息;将所有小文件的原始路径通过树状目录结构进行组织,内部结点对应了小文件原始路径中的一个目录对象,叶子结点对应了一个小文件对象,小文件对应的合并文件信息保存在该对象中;其具体过程为:
a)MetaData服务器接收到客户端发送的文件映射信息,根据小文件的原始路径,在缓存的树状目录结构中新增相应的结点,如果已经存在小文件原始路径中的结点,则直接跳过;
b)将小文件的偏移量、小文件的长度以及合并文件的路径保存到小文件对应的叶子结点中,并将合并文件的路径保存到小文件对应叶子结点的父结点中;
(3)小文件的解析与下载
通过解析MERGE-FILE结构的数据块,查询头部的小文件元数据信息,将符合下载要求的小文件从数据块的相应位置下载到客户端;其具体过程为:
a)客户端向MetaData服务器提交下载列表,MetaData服务器通过查询树状目录结构,向客户端返回所有对应的合并文件路径;
b)客户端通过合并文件路径找到对应的数据块,根据MERGE-FILE的结构对数据块进行解析,并将符合下载条件的小文件从数据块中下载到客户端。
所述的阈值Tf默认为16 MB。
所述的Tb默认为64 MB。
本发明针对HDFS处理小文件效率低的问题,提出了一种基于HDFS的小文件处理方法,通过将小文件在客户端进行合并以及修改数据块的组织结构,并通过MetaData服务器缓存小文件与合并文件的映射关系,优化了小文件的上传和下载过程,提高了HDFS处理小文件的效率。
本发明的有益效果:1)从客户端将合并文件存储到HDFS中,减少了名称节点的内存损耗,并且提高了小文件的上传效率。2)通过增加MetaData服务器,减轻了名称节点的访问压力。3)通过修改数据节点的数据块结构,客户端可以直接查询数据节点,然后下载小文件数据,从而减少了访问名称节点和连接数据节点的次数,并且提高了小文件的下载效率。
附图说明
图1是本发明的小文件上传工作原理图;
图2是本发明的小文件下载工作原理图;
图3是合并文件的结构图;
图4是客户端对小文件进行合并的过程;
图5是小文件与合并文件映射信息的存储结构图;
图6是客户端对合并文件进行上传的过程;
图7是客户端对小文件进行下载的过程。
具体实施方式
以下结合具体实施例,对本发明进行详细说明。
实施例
术语定义:
1)文件大小Tf,指的是小文件大小的最大阈值。
2)文件大小Tb,指的是合并文件的最大阈值。
3)Smf表示已经合并的文件大小。
4)Sm_d表示当前小文件与小文件元数据信息的总大小。
图1是本发明的小文件上传工作原理图。
图1的客户端主机是需要进行数据上传和下载操作的机器,该主机通过安装客户端程序,可以直接与MetaData服务器和HDFS进行通信。MetaData服务器负责缓存客户端向其发送的小文件与合并文件的映射信息,HDFS负责存储合并文件的数据。具体过程如下:
1)客户端对小文件进行合并,合并文件中包括了小文件的元数据信息以及小文件内容,其中小文件的元数据信息存储在合并文件的头部,包括小文件数量(FileCount)、小文件路径长度(OldFileNameLength)、小文件路径(OldFileName)、小文件起始偏移量(OldFileOffset)、小文件长度(OldFileLength),见附图3所示;
2)对于每一个合并文件,客户端将小文件与合并文件的映射信息(包括小文件路径、小文件长度、小文件起始偏移量以及合并文件路径)发送到MetaData服务器中进行缓存;
3)MetaData服务器缓存完成后,向客户端返回处理成功的ACK应答包;
4)客户端访问名称节点,名称节点根据客户端的请求更新元数据,记录需要上传的合并文件信息;
5)名称节点将用于存储合并文件数据块的数据节点列表返回给客户端;
6)客户端向对应的数据节点上传合并文件;
7)在数据节点列表中的所有节点都存储了合并文件的数据块副本后,数据节点向客户端返回上传成功的ACK应答包。
图2是小文件下载工作原理图。
与图1类似,图2中包括了负责上传和下载的客户端主机、负责缓存小文件与合并文件映射关系的MetaData服务器以及负责存储合并文件的HDFS集群。具体的过程如下:
1)客户端向MetaData服务器提交需要下载的文件/文件夹的原始路径;
2)MetaData服务器向客户端返回对应的所有合并文件的路径等信息;
3)客户端根据合并文件的路径访问名称节点,请求对应的数据块存储位置;
4)名称节点向客户端返回存储合并文件对应的数据节点和数据块位置;
5)客户端访问数据节点,并直接从数据块中查询元数据信息,找到需要下载的小文件;
6)客户端根据小文件在数据块中的偏移量和长度,从数据块的相应位置下载小文件数据。
图4是客户端对小文件进行合并的过程。
客户端对小文件进行合并的过程涉及到文件的合并与上传步骤。该过程需要对小文件进行判断,然后将小文件进行合并,并在合并文件达到一定的阈值后,将合并文件及其映射关系保存到缓冲队列中。具体过程如下:
1)对于文件夹路径,合并算法需要对该路径进行深度遍历,对于文件路径,则直接获取该文件对象;
2)客户端根据文件大小判断文件是否需要合并,对于小于Tf(默认16 MB)的文件,则视其为小文件,反之则不需要合并;
3)首先判断已合并文件大小Smf、当前小文件和元数据的大小Sd_m两者的总大小是否超过Tb,即是否超过HDFS中一个数据块的大小(默认64 MB),如果大于Tb,则将合并文件和相应的映射信息保存到缓存队列中,然后创建一个新的合并文件,写入小文件的元数据信息以及数据内容,并且记录该小文件与合并文件的映射关系;否则,直接向合并文件写入小文件的元数据信息以及数据内容,然后记录该小文件与合并文件的映射关系。
图5是小文件与合并文件映射信息的存储结构图。
本发明中该映射关系的组织方式是通过将小文件的原始路径用树状目录结构进行表示,其中,内部结点对应一个目录对象,叶子结点对应一个小文件对象,图5的INodeDirectory和INodeFile分别对应一个目录对象和小文件对象,INodeDirectory通过属性children可以存储儿子结点的信息,儿子结点可以是小文件对象或者目录对象,因此根据该结构的层次关系,所有小文件原始路径中结点的关系便通过INodeDirectory实例和INodeFile实例建立起来。
树状目录结构的每个叶子结点中保存了相应的合并文件路径,在图5中是通过combineFilePath属性进行保存。为了提高查询效率,每个内部结点包含了其下一层的所有叶子结点所对应的合并文件路径,在图5中是通过combineFileSet属性进行保存。MetaData服务器根据客户端提供的下载路径,搜索整个树状目录结构,便可以找到该路径所对应的结点,然后从该结点或者子结点中可以获取到对应的合并文件路径。
图6是客户端对合并文件进行上传的过程。
客户端对合并文件进行上传的过程涉及到文件的合并与上传步骤。具体的过程如下:
1)客户端首先判断映射信息的缓冲队列和合并文件的缓冲队列是否为空,如果缓冲队列为空并且发送线程不结束,那么发送线程就进入等待状态,直至被唤醒;如果不为空,客户端则从映射信息缓冲队列中读取数据,并发送到MetaData服务器;
2)客户端向MetaData服务器成功发送小文件与合并文件的映射信息后,从合并文件的缓冲队列中读取数据,并发送到HDFS中进行存储。由于一个合并文件对应HDFS的一个数据块,所以默认情况下每个合并文件在HDFS上保存了3个副本。
图7是客户端对小文件进行下载的过程。
客户端对小文件进行下载的过程涉及小文件的解析与下载步骤。由于一个合并文件对应数据节点的一个数据块副本,所以数据块包括两个部分:一个是数据块的头部,包含小文件的元数据信息;另一个部分是小文件的数据内容。该过程通过查询数据块中的元数据信息对符合下载路径的小文件进行下载。具体过程如下:
1)客户端向MetaData服务器提交下载路径的列表,MetaData服务器通过查询小文件与合并文件的映射信息,获取所有对应的合并文件路径,并返回到客户端。
2)客户端通过合并文件路径访问HDFS,HDFS返回对应的数据块位置。然后客户端对下载路径进行判断,如果是文件路径,那么可以直接从对应的数据块中获取并下载小文件数据内容;如果是文件夹路径,则需要查询数据块头部,通过匹配数据块头部的小文件原始路径字段和下载路径,如果该文件在下载路径下,那么通过头部的小文件长度和起始偏移量字段定位到小文件数据内容,最后将小文件下载到客户端,否则就跳过相应的数据。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (3)

1.一种基于HDFS的小文件处理方法,其特征在于,其包括以下三个方面:
(1)文件的合并与上传
该步骤在客户端完成,通过对文件进行过滤,筛选出符合条件的小文件;文件合并时,将小文件的元数据信息添加到合并文件的头部,小文件的数据内容追加到合并文件中,该合并文件的组织结构称为MERGE-FILE结构,包括小文件数量,小文件路径长度,小文件路径,小文件内容起始偏移量,小文件内容长度,小文件内容,其中头部包括前五个字段;小文件合并后,记录小文件与合并文件的映射信息,包括小文件原始路径,小文件长度,小文件偏移量,合并文件路径;合并文件的大小满足要求后,将合并文件以及对应的文件映射信息保存到缓冲队列,等待上传;其具体过程为:
a)客户端判断文件的大小是否小于阈值Tf,如果是,则该文件被视为小文件,否则该文件不需要进行合并;
b)针对步骤a)过滤后的小文件,客户端计算小文件的数据内容和元数据的总大小Sd_m,如果还没有创建合并文件,那么就直接创建合并文件,并将小文件元数据保存到合并文件头部,小文件内容追加到合并文件中;否则,客户端计算合并文件大小Smf与Sd_m的总大小是否超过Tb,如果是,则将当前合并文件缓存,并重新创建新的合并文件;否则,就将小文件的元数据和内容保存到合并文件中;客户端记录每个小文件与合并文件的映射信息,并将其与对应的合并文件进行缓存;
c)客户端缓存的一个合并文件对应HDFS的一个数据块副本,它们都遵循MERGE-FILE的结构;客户端从缓冲队列中取出合并文件和对应的文件映射信息,分别上传到HDFS和MetaData服务器;
(2)小文件与合并文件映射信息的存储
通过在HDFS存储集群中新增一台MetaData服务器,用于缓存小文件与合并文件的映射信息;将所有小文件的原始路径通过树状目录结构进行组织,内部结点对应了小文件原始路径中的一个目录对象,叶子结点对应了一个小文件对象,小文件对应的合并文件信息保存在该对象中;其具体过程为:
a)MetaData服务器接收到客户端发送的文件映射信息,根据小文件的原始路径,在缓存的树状目录结构中新增相应的结点,如果已经存在小文件原始路径中的结点,则直接跳过;
b)将小文件的偏移量、小文件的长度以及合并文件的路径保存到小文件对应的叶子结点中,并将合并文件的路径保存到小文件对应叶子结点的父结点中;
(3)小文件的解析与下载
通过解析MERGE-FILE结构的数据块,查询头部的小文件元数据信息,将符合下载要求的小文件从数据块的相应位置下载到客户端;其具体过程为:
a)客户端向MetaData服务器提交下载列表,MetaData服务器通过查询树状目录结构,向客户端返回所有对应的合并文件路径;
b)客户端通过合并文件路径找到对应的数据块,根据MERGE-FILE的结构对数据块进行解析,并将符合下载条件的小文件从数据块中下载到客户端。
2.根据权利要求1所述的小文件处理方法,其特征是,所述阈值Tf默认为16MB。
3.根据权利要求1所述的小文件处理方法,其特征是,所述Tb默认为64 MB。
CN201410362604.0A 2014-07-28 2014-07-28 一种基于hdfs的小文件处理方法 Expired - Fee Related CN104133882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410362604.0A CN104133882B (zh) 2014-07-28 2014-07-28 一种基于hdfs的小文件处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410362604.0A CN104133882B (zh) 2014-07-28 2014-07-28 一种基于hdfs的小文件处理方法

Publications (2)

Publication Number Publication Date
CN104133882A true CN104133882A (zh) 2014-11-05
CN104133882B CN104133882B (zh) 2017-06-23

Family

ID=51806560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410362604.0A Expired - Fee Related CN104133882B (zh) 2014-07-28 2014-07-28 一种基于hdfs的小文件处理方法

Country Status (1)

Country Link
CN (1) CN104133882B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731886A (zh) * 2015-03-12 2015-06-24 深圳市连用科技有限公司 一种海量小文件的处理方法及系统
CN104965845A (zh) * 2014-12-30 2015-10-07 浙江大华技术股份有限公司 一种小文件的定位方法及系统
CN105138571A (zh) * 2015-07-24 2015-12-09 四川长虹电器股份有限公司 分布式文件系统及其存储海量小文件的方法
CN105404652A (zh) * 2015-10-29 2016-03-16 河海大学 一种基于hdfs的海量小文件处理方法
CN105631010A (zh) * 2015-12-29 2016-06-01 成都康赛信息技术有限公司 一种基于hdfs小文件存储的优化方法
CN105653592A (zh) * 2016-01-28 2016-06-08 浪潮软件集团有限公司 一种基于hdfs的小文件合并工具和方法
CN105956183A (zh) * 2016-05-30 2016-09-21 广东电网有限责任公司电力调度控制中心 一种分布式数据库中海量小文件的多级优化存储方法及系统
CN106294805A (zh) * 2016-08-15 2017-01-04 成都九鼎瑞信科技股份有限公司 数据处理方法及装置
CN106326292A (zh) * 2015-06-29 2017-01-11 杭州海康威视数字技术股份有限公司 数据结构和文件聚合、读取方法及装置
CN106603729A (zh) * 2017-02-23 2017-04-26 郑州云海信息技术有限公司 一种分布式文件系统多客户端同步方法及系统
CN106686148A (zh) * 2017-03-20 2017-05-17 郑州云海信息技术有限公司 一种用于提高对象存储系统中对象上传速度的方法和系统
CN106843763A (zh) * 2017-01-19 2017-06-13 北京神州绿盟信息安全科技股份有限公司 一种基于hdfs系统的文件合并方法及装置
CN106897440A (zh) * 2017-02-28 2017-06-27 郑州云海信息技术有限公司 一种分布式文件系统文件读写处理方法
WO2017133216A1 (zh) * 2016-02-06 2017-08-10 华为技术有限公司 分布式存储方法和设备
CN107168651A (zh) * 2017-05-19 2017-09-15 郑州云海信息技术有限公司 一种小文件聚合存储处理方法
WO2017174013A1 (zh) * 2016-04-06 2017-10-12 中兴通讯股份有限公司 数据存储管理方法、装置及数据存储系统
CN107291915A (zh) * 2017-06-27 2017-10-24 北京奇艺世纪科技有限公司 一种小文件存储方法、小文件读取方法及系统
CN108345693A (zh) * 2018-03-16 2018-07-31 中国银行股份有限公司 一种文件处理方法及装置
CN108959660A (zh) * 2018-08-15 2018-12-07 东北大学 一种基于hdfs分布式文件系统的存储方法及使用方法
CN108958659A (zh) * 2018-06-29 2018-12-07 郑州云海信息技术有限公司 一种分布式存储系统的小文件聚合方法、装置及介质
CN109309696A (zh) * 2017-07-27 2019-02-05 腾讯科技(深圳)有限公司 文件夹发送方法、发送方、接收方以及存储介质
CN110321329A (zh) * 2019-06-18 2019-10-11 中盈优创资讯科技有限公司 基于大数据的数据处理方法及装置
CN110457265A (zh) * 2019-08-20 2019-11-15 上海商汤智能科技有限公司 数据处理方法、装置及存储介质
CN112231293A (zh) * 2020-09-14 2021-01-15 杭州数梦工场科技有限公司 文件读取方法、装置、电子设备和存储介质
CN112363872A (zh) * 2020-11-25 2021-02-12 深圳潮数软件科技有限公司 一种小文件切片传输高效备份方法
CN112416368A (zh) * 2020-11-25 2021-02-26 中国科学技术大学先进技术研究院 缓存部署与任务调度方法、终端和计算机可读存储介质
CN112597104A (zh) * 2021-01-11 2021-04-02 武汉飞骥永泰科技有限公司 小文件性能优化方法及系统
CN113157697A (zh) * 2021-04-19 2021-07-23 山东艺术学院 一种明清俗曲古代乐谱数据库系统
CN113407620A (zh) * 2020-03-17 2021-09-17 北京信息科技大学 基于异构Hadoop集群环境的数据块放置方法及系统
WO2021208402A1 (zh) * 2020-04-14 2021-10-21 上海爱数信息技术股份有限公司 现代应用的副本数据管理系统及方法
CN114116634A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 一种缓存方法、装置及可读存储介质
US11563798B2 (en) * 2019-09-19 2023-01-24 Samsung Electronics Co., Ltd. Electronic device for transmitting data set to server and control method therefor

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100162230A1 (en) * 2008-12-24 2010-06-24 Yahoo! Inc. Distributed computing system for large-scale data handling
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
CN103595797A (zh) * 2013-11-18 2014-02-19 上海爱数软件有限公司 一种分布式存储系统中的缓存方法
CN103856567A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于Hadoop分布式文件系统的小文件存储方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100162230A1 (en) * 2008-12-24 2010-06-24 Yahoo! Inc. Distributed computing system for large-scale data handling
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
CN103595797A (zh) * 2013-11-18 2014-02-19 上海爱数软件有限公司 一种分布式存储系统中的缓存方法
CN103856567A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于Hadoop分布式文件系统的小文件存储方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张丹: ""HDFS中文件存储优化的相关技术研究"", 《中国优秀硕士学位论文全文数据库•信息科技辑》 *
洪旭升 等: ""基于MapFile的HDFS小文件存储效率问题"", 《计算机系统应用》 *

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965845A (zh) * 2014-12-30 2015-10-07 浙江大华技术股份有限公司 一种小文件的定位方法及系统
CN104731886A (zh) * 2015-03-12 2015-06-24 深圳市连用科技有限公司 一种海量小文件的处理方法及系统
CN104731886B (zh) * 2015-03-12 2018-11-20 深圳市连用科技有限公司 一种海量小文件的处理方法及系统
CN106326292B (zh) * 2015-06-29 2020-05-19 杭州海康威视数字技术股份有限公司 数据结构和文件聚合、读取方法及装置
CN106326292A (zh) * 2015-06-29 2017-01-11 杭州海康威视数字技术股份有限公司 数据结构和文件聚合、读取方法及装置
CN105138571B (zh) * 2015-07-24 2019-12-24 四川长虹电器股份有限公司 分布式文件系统及其存储海量小文件的方法
CN105138571A (zh) * 2015-07-24 2015-12-09 四川长虹电器股份有限公司 分布式文件系统及其存储海量小文件的方法
CN105404652A (zh) * 2015-10-29 2016-03-16 河海大学 一种基于hdfs的海量小文件处理方法
CN105631010A (zh) * 2015-12-29 2016-06-01 成都康赛信息技术有限公司 一种基于hdfs小文件存储的优化方法
CN105653592A (zh) * 2016-01-28 2016-06-08 浪潮软件集团有限公司 一种基于hdfs的小文件合并工具和方法
WO2017133216A1 (zh) * 2016-02-06 2017-08-10 华为技术有限公司 分布式存储方法和设备
US11301154B2 (en) 2016-02-06 2022-04-12 Huawei Technologies Co., Ltd. Distributed storage method and device
US11809726B2 (en) 2016-02-06 2023-11-07 Huawei Technologies Co., Ltd. Distributed storage method and device
WO2017174013A1 (zh) * 2016-04-06 2017-10-12 中兴通讯股份有限公司 数据存储管理方法、装置及数据存储系统
CN105956183A (zh) * 2016-05-30 2016-09-21 广东电网有限责任公司电力调度控制中心 一种分布式数据库中海量小文件的多级优化存储方法及系统
CN105956183B (zh) * 2016-05-30 2019-04-30 广东电网有限责任公司电力调度控制中心 一种分布式数据库中海量小文件的多级优化存储方法及系统
CN106294805A (zh) * 2016-08-15 2017-01-04 成都九鼎瑞信科技股份有限公司 数据处理方法及装置
CN106843763A (zh) * 2017-01-19 2017-06-13 北京神州绿盟信息安全科技股份有限公司 一种基于hdfs系统的文件合并方法及装置
CN106603729A (zh) * 2017-02-23 2017-04-26 郑州云海信息技术有限公司 一种分布式文件系统多客户端同步方法及系统
CN106897440A (zh) * 2017-02-28 2017-06-27 郑州云海信息技术有限公司 一种分布式文件系统文件读写处理方法
CN106897440B (zh) * 2017-02-28 2020-06-26 郑州云海信息技术有限公司 一种分布式文件系统文件读写处理方法
CN106686148A (zh) * 2017-03-20 2017-05-17 郑州云海信息技术有限公司 一种用于提高对象存储系统中对象上传速度的方法和系统
CN107168651B (zh) * 2017-05-19 2020-09-25 苏州浪潮智能科技有限公司 一种小文件聚合存储处理方法
CN107168651A (zh) * 2017-05-19 2017-09-15 郑州云海信息技术有限公司 一种小文件聚合存储处理方法
CN107291915A (zh) * 2017-06-27 2017-10-24 北京奇艺世纪科技有限公司 一种小文件存储方法、小文件读取方法及系统
CN109309696A (zh) * 2017-07-27 2019-02-05 腾讯科技(深圳)有限公司 文件夹发送方法、发送方、接收方以及存储介质
CN109309696B (zh) * 2017-07-27 2021-09-17 腾讯科技(深圳)有限公司 文件夹发送方法、发送方、接收方以及存储介质
CN108345693B (zh) * 2018-03-16 2022-01-28 中国银行股份有限公司 一种文件处理方法及装置
CN108345693A (zh) * 2018-03-16 2018-07-31 中国银行股份有限公司 一种文件处理方法及装置
CN108958659A (zh) * 2018-06-29 2018-12-07 郑州云海信息技术有限公司 一种分布式存储系统的小文件聚合方法、装置及介质
CN108959660A (zh) * 2018-08-15 2018-12-07 东北大学 一种基于hdfs分布式文件系统的存储方法及使用方法
CN108959660B (zh) * 2018-08-15 2021-07-27 东北大学 一种基于hdfs分布式文件系统的存储方法及使用方法
CN110321329A (zh) * 2019-06-18 2019-10-11 中盈优创资讯科技有限公司 基于大数据的数据处理方法及装置
CN110457265A (zh) * 2019-08-20 2019-11-15 上海商汤智能科技有限公司 数据处理方法、装置及存储介质
US11563798B2 (en) * 2019-09-19 2023-01-24 Samsung Electronics Co., Ltd. Electronic device for transmitting data set to server and control method therefor
CN113407620A (zh) * 2020-03-17 2021-09-17 北京信息科技大学 基于异构Hadoop集群环境的数据块放置方法及系统
CN113407620B (zh) * 2020-03-17 2023-04-21 北京信息科技大学 基于异构Hadoop集群环境的数据块放置方法及系统
WO2021208402A1 (zh) * 2020-04-14 2021-10-21 上海爱数信息技术股份有限公司 现代应用的副本数据管理系统及方法
CN112231293A (zh) * 2020-09-14 2021-01-15 杭州数梦工场科技有限公司 文件读取方法、装置、电子设备和存储介质
CN112416368B (zh) * 2020-11-25 2024-01-16 中国科学技术大学先进技术研究院 缓存部署与任务调度方法、终端和计算机可读存储介质
CN112416368A (zh) * 2020-11-25 2021-02-26 中国科学技术大学先进技术研究院 缓存部署与任务调度方法、终端和计算机可读存储介质
CN112363872A (zh) * 2020-11-25 2021-02-12 深圳潮数软件科技有限公司 一种小文件切片传输高效备份方法
CN112597104A (zh) * 2021-01-11 2021-04-02 武汉飞骥永泰科技有限公司 小文件性能优化方法及系统
CN113157697A (zh) * 2021-04-19 2021-07-23 山东艺术学院 一种明清俗曲古代乐谱数据库系统
CN114116634B (zh) * 2022-01-26 2022-04-22 苏州浪潮智能科技有限公司 一种缓存方法、装置及可读存储介质
CN114116634A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 一种缓存方法、装置及可读存储介质

Also Published As

Publication number Publication date
CN104133882B (zh) 2017-06-23

Similar Documents

Publication Publication Date Title
CN104133882A (zh) 一种基于hdfs的小文件处理方法
US9710535B2 (en) Object storage system with local transaction logs, a distributed namespace, and optimized support for user directories
CN102855239B (zh) 一种分布式地理文件系统
US9396290B2 (en) Hybrid data management system and method for managing large, varying datasets
CN110447021A (zh) 用于在数据中心之间维持元数据和数据的一致性的方法、装置和系统
CN101866305B (zh) 支持数据查询和快速恢复的连续数据保护方法及系统
CN102708165B (zh) 分布式文件系统中的文件处理方法及装置
CN110162528A (zh) 海量大数据检索方法及系统
KR101672901B1 (ko) 분산 파일 시스템에서 소형 파일에 대한 접근성 향상을 위한 캐시 관리 시스템
CN107045422A (zh) 分布式存储方法和设备
CN103366016A (zh) 基于hdfs的电子文件集中存储及优化方法
CN103530387A (zh) 一种hdfs针对小文件的改进方法
CN104391930A (zh) 分布式文件存储装置和方法
CN103647797A (zh) 一种分布式文件系统及其数据访问方法
CN103139224A (zh) 一种网络文件系统及网络文件系统的访问方法
CN103279474A (zh) 一种视频文件索引方法及系统
CN106775446A (zh) 基于固态硬盘加速的分布式文件系统小文件访问方法
CN103605698A (zh) 一种用于分布异构数据资源整合的云数据库系统
CN102169507A (zh) 一种分布式实时搜索引擎
CN104778270A (zh) 一种用于多文件的存储方法
CN104679898A (zh) 一种大数据访问方法
CN103595797B (zh) 一种分布式存储系统中的缓存方法
CN109299056B (zh) 一种基于分布式文件系统的数据同步方法和装置
CN104820717A (zh) 一种海量小文件存储及管理方法和系统
CN103888499A (zh) 一种分布式对象处理的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170623

Termination date: 20180728

CF01 Termination of patent right due to non-payment of annual fee