CN105404652A

CN105404652A - 一种基于hdfs的海量小文件处理方法

Info

Publication number: CN105404652A
Application number: CN201510724658.1A
Authority: CN
Inventors: 陈洁; 王龙宝; 张雪洁; 孙泽群; 安纪存; 马鹏举
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2015-10-29
Filing date: 2015-10-29
Publication date: 2016-03-16

Abstract

本发明公开了一种基于HDFS的海量小文件处理方法，通过对小文件过滤、元数据读取、生成文件ID完成对文件的预处理，并开辟内存缓冲区，建立文件上传队列，对文件进行延时存储；在缓冲区将小文件合并为<key,value>结构的Mapfile文件进行存储；将文件元数据存储在分布式数据库Hbase，Hbase持久化在HDFS中；利用Status标志位表示文件状态，以完成缓冲区小文件快速读取，Mapfile碎片合并等操作，从而支持HDFS对小文件的即时增删改。本发明提高了HDFS对小文件的读取效率，使系统支持对小文件的即时更新操作，提升了系统的整体性能。

Description

一种基于HDFS的海量小文件处理方法

技术领域

本发明涉及一种基于HDFS的海量小文件处理方法，属于分布式数据优化存储领域。

背景技术

随着互联网web2.0的兴起，网络数据量呈指数级增长，在大数据时代，传统的数据存储技术已经不能满足技术发展的需求。HadoopDistributedFileSystem，简称HDFS，是一个分布式文件系统。目前，在以HDFS为代表的分布式文件存储技术领域中，广泛使用HDFS高效处理各类大文件。

HDFS对高数据吞吐量的应用场景进行了优化，换句话说是为访问大文件开发的，如果访问大量小文件，需要不断的从一个Datanode（HDFS的数据节点，为HDFS提供存储块）跳到另一个Datanode，严重影响性能。最后，处理大量小文件速度远远高于处理同等大小的大文件的速度。每一个小文件要占用一个Slot（HDFS的资源单位），而Job（HDFS的任务单位）启动将耗费大量时间甚至大部分时间都耗费在启动Job和释放Job上。所以，当存储海量小文件时，元数据在Namenode（HDFS的控制节点，在HDFS内部提供元数据服务），中所占用的内存大量增加，从而导致HDFS对海量小文件存储性能较差。

对于小文件问题，已有一些解决方法。Hadoop自身提供一种解决方案：HadoopArchive，其是Hadoop档案格式（以下简称HAR），通过HAR来读取一个文件，实际上会比直接从HDFS中读取文件效率低；苏州两江科技有限公司在其专利中采用SequenceFile（Hadoop的一种键值型文件格式）序列对文件进行打包处理，由于SequenceFile没有直接的索引，每次读取都需要检索整个文件效率较低；Mapfile（Hadoop的一种键值型格式）是带索引的SequenceFile，但需要花费额外的内存来保存索引文件Metadata（元数据）。

此外，Hadoop提供的几种合并文件解决方案均必须为一次性打包上传，这样，文件上传之后不能对文件进行删除和修改，也不能对文件进行追加。北京航空航天大学的专利中，改进了HDFS读取文件的接口，以MapReduce（Hadoop的编程模型）模型进行处理，但该方法不适用于在线进行即时存储修改的环境，无法做到高并发下的图片上传请求处理。这使得在许多应用领域HDFS的性能得不到真正的发挥。

发明内容

本发明所要解决的技术问题是提供一种基于HDFS的海量小文件处理方法，提高HDFS对小文件的读取效率，使系统支持对小文件的即时更新操作，提升了系统的整体性能，在提高效率的同时，实现用户对上传文件的增删改等维护功能。

本发明为解决上述技术问题采用以下技术方案：

本发明提供一种基于HDFS的海量小文件处理方法，具体步骤如下：

步骤1，根据设定的第一阈值，对服务器接收的上传文件进行筛选过滤；

步骤2，获取筛选过滤得到的小文件的文件名、文件长度及文件上传时间戳，通过安全散列算法SHA-1生成文件存储ID；

步骤3，利用Status标志位表示文件存储状态，其中，Status标志位共有0、1、2三种状态，分别表示缓冲区文件、HDFS中已同步文件和已删除文件；

步骤4，采用分布式无关系型数据库Hbase存储小文件的元数据，并将Hbase数据持久化在HDFS中；

步骤5，根据服务器内存大小，申请一定内存的缓冲区，建立上传队列，将文件缓存至缓冲区，若缓冲区中的文件大小已超过设定的第二阈值或将要上传的小文件大小超过剩余缓冲区，则将缓冲区中的小文件合并并且清空缓冲区；其中，小文件合并为：将缓冲区中的小文件合并成结构为<key,value>键值集合形式的Mapfile，即将每个小文件的文件名作为key值、文件内容字节流作为value值进行拼接；

步骤6，将步骤5中合并后的文件通过异步线程延时上传至HDFS。

作为本发明的进一步优化方案，步骤1中筛选过滤得到的大文件通过Namenode分配文件存储块并存入HDFS，所述大文件的大小大于设定的第一阈值。

作为本发明的进一步优化方案，步骤2中通过安全散列算法SHA-1生成文件存储ID，具体为：利用小文件文件名与上传时间戳进行字符串拼接，再对拼接得到的字符串使用安全散列算法SHA-1，从而生成小文件的存储ID。

作为本发明的进一步优化方案，步骤4中采用分布式无关系型数据库Hbase存储小文件的元数据，具体为：以文件存储ID作为行键，建立Attr与Var两个列族，其中，列族Attr包括文件名、文件长度、文件存储ID、文件存储块四个列；列族Var包括文件状态标志位、文件更新时间两个列。

作为本发明的进一步优化方案，步骤3中根据Status标志位的不同状态，对文件采用不同的读取方法，具体为：对标志位为0的文件直接进行本地IO，对标志位为1的文件通过Mapfile读取接口进行读取，对该标志位为2的文件不予以读取。

作为本发明的进一步优化方案，利用Status标志位，实现文件的即时增删改，具体为：增加文件时将该文件的标志位置为0；删除文件时将该文件的标志位置为2；更新文件时，将旧文件标志位置为2，并将新文件标志位置为0。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明提高HDFS对小文件的写入和读取效率，实现了对小文件即时更新的支持，提升系统的整体性能；通过对小文件筛选，元数据预读取，合并文件且延迟写入的方法解决了HDFS小文件存储效率低下问题；通过标志位处理，碎片合并的方法实现了高效的文件即时更新处理；同时通过异步线程处理方式使得系统对于用户而言响应速度快，整体性能提升。

附图说明

图1是本发明实施例的总体框架图。

图2是本发明实施例中的上传文件流程图。

图3是本发明实施例中的合并后文件结构示意图。

图4是本发明实施例中的读取文件流程图。

图5是本发明实施例中的删除文件流程图。

图6是本发明实施例中的更新文件流程图。

具体实施方式

下面结合附图以及实施例对本发明的技术方案作进一步阐述：

本发明一种基于HDFS的海量小文件处理方法如图1所示，具体内容这里不再赘述。

采用本发明一种基于HDFS的海量小文件处理方法的文件上传，如图2所示，其工作过程如下：

1）根据设定的第一阈值对服务器接收的上传文件进行筛选过滤，设定第一阈值为1M，若上传文件的大小大于1M则为大文件，该上传文件直接使用HDFS文件存储接口，即通过Namenode分配文件存储块（BlockID）并存入HDFS；否则为小文件，则转到2）；

2）获取小文件的文件名Name，文件长度Length，上传时间戳CreateTime后，利用小文件文件名Name与上传时间戳CreateTime进行字符串拼接，再对拼接得到的字符串使用SHA-1（安全散列算法），生成小文件的存储ID；

3）利用Status标志位表示小文件存储状态，Status标志位的含义如下表所示；将该小文件的Status标志位置为0；

表Status标志位含义表

Flag	Status
		0	Local Temp File（缓冲区文件）
1	HDFS Mapfile（HDFS中已同步文件）
		2	Deleted File（已删除文件）

4）用Hbase存储小文件的元数据：采用分布式无关系型数据库Hbase存储小文件的元数据，并将Hbase数据持久化在HDFS中；采用分布式无关系型数据库Hbase存储小文件的元数据，具体为：以文件存储ID作为行键，建立Attr与Var两个列族，其中，列族Attr包括文件名（Name）、文件长度（Length）、文件存储ID（MapfileID）、文件存储块（BlockID）四个列；列族Var包括文件状态标志位（Status）、文件更新时间（UpdateTime）两个列；

5）根据服务器内存大小，申请一定内存的缓冲区，建立上传队列，利用本地IO将小文件存入缓冲区上传队列；

6）若缓冲区中的文件大小已超过设定的第二阈值或将要上传的小文件大小超过剩余缓冲区，则将缓冲区中的小文件合并并且清空缓冲区。所述小文件合并为：将缓冲区中的小文件合并为结构为<key,value>键值集合形式的Mapfile，即，将每个小文件的文件名作为key值、文件内容字节流作为value值进行拼接，如图3所示；

7）将合并后的文件通过异步线程延时上传至HDFS。

本发明实施例中的读取文件，如图4所示，具体为：读取文件名，若为小文件，则查询Hbase获取该文件的元数据，并读取标志位Status值，若该标志位为0则可以直接进行本地IO，若该标志位为1的文件则通过Mapfile读取接口进行读取，若该标志位为2的文件不予以读取，返回文件不存在信息；若为大文件，则直接从Namenode读取。

本实施例中增加文件，具体为：将文件加入缓冲区上传队列，将Status标志位置0。

本发明实施例中的删除文件，如图5所示，具体为：读取文件名，若为小文件，则查询Hbase，将该文件Status标志位置2，表示Mapfile中的该区域文件失效成为碎片，并建立检查线程判断碎片个数，当碎片个数到达一定时启动异步维护线程对Mapfile进行延时维护，合并Mapfile以清除碎片，删除Hbase记录；若为大文件，则直接从Namenode删除。

其中，合并Mapfile以清除碎片，具体为：

6.1）建立新的Mapfile文件；

6.2）顺序读取旧Mapfile，读取当前Record的key值，查询Hbase得到其Status标志位；

6.6）若Status为2，则继续读取下一个Record；否则读取当前Record的value值，将<key,value>写入新的Mapfile，更新Hbase中该key对应记录的MapfileID列。

6.7）返回6.2），直至读至旧Mapfile末尾。

本发明实施例中的更新文件，如图6所示，具体为：读取文件名，若为小文件，则查询Hbase，将该文件Status置为2，启动异步维护线程进行延时维护，上传新文件至缓冲区；若为大文件，则从Namenode上传新文件直接覆盖旧文件。

根据以上实施例可知，针对HDFS分布式文件系统对海量小文件数据存储资源利用低，文件访问效率低且无法即时对文件进行更新的问题，本发明的方法，提高HDFS对小文件的写入和读取效率，实现了对小文件即时更新的支持，提升系统的整体性能。在此发明中，通过对小文件筛选，元数据预读取，合并文件且延迟写入的方法解决了HDFS小文件存储效率低下问题；通过标志位处理，碎片合并的方法实现了高效的文件即时更新处理；同时通过异步线程处理方式使得系统对于用户而言响应速度快，整体性能提升。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于HDFS的海量小文件处理方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的一种基于HDFS的海量小文件处理方法，其特征在于，步骤1中筛选过滤得到的大文件通过Namenode分配文件存储块并存入HDFS，所述大文件的大小大于设定的第一阈值。

3.根据权利要求1所述的一种基于HDFS的海量小文件处理方法，其特征在于，步骤2中通过安全散列算法SHA-1生成文件存储ID，具体为：利用小文件文件名与上传时间戳进行字符串拼接，再对拼接得到的字符串使用安全散列算法SHA-1，从而生成小文件的存储ID。

4.根据权利要求1所述的一种基于HDFS的海量小文件处理方法，其特征在于，步骤4中采用分布式无关系型数据库Hbase存储小文件的元数据，具体为：以文件存储ID作为行键，建立Attr与Var两个列族，其中，列族Attr包括文件名、文件长度、文件存储ID、文件存储块四个列；列族Var包括文件状态标志位、文件更新时间两个列。

5.根据权利要求1所述的一种基于HDFS的海量小文件处理方法，其特征在于，步骤3中根据Status标志位的不同状态，对文件采用不同的读取方法，具体为：对标志位为0的文件直接进行本地IO，对标志位为1的文件通过Mapfile读取接口进行读取，对该标志位为2的文件不予以读取。

6.根据权利要求1所述的一种基于HDFS的海量小文件处理方法，其特征在于，利用Status标志位，实现文件的即时增删改，具体为：增加文件时将该文件的标志位置为0；删除文件时将该文件的标志位置为2；更新文件时，将旧文件标志位置为2，并将新文件标志位置为0。