CN102332027A

CN102332027A - 一种基于Hadoop的海量非独立小文件关联存储方法

Info

Publication number: CN102332027A
Application number: CN201110312671A
Authority: CN
Inventors: 郑庆华; 董博; 刘均; 马瑞; 宋凯磊
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2011-10-15
Filing date: 2011-10-15
Publication date: 2012-01-25

Abstract

本发明公开了一种基于Hadoop的海量非独立小文件关联存储方法，主要解决海量的非独立小文件存取效率和读取效率较低的问题。针对某个大文件被分割成的许多小文件，即非独立小文件，本发明的特征在于：(1)将属于某个大文件的所有小文件归并为一个文件，称为merged file；(2)对每个merged file建立一个局部索引，并在上传时将局部索引文件与文件实体一同存放在Hadoop系统的DataNode上；(3)在读取非独立小文件时，采用元数据缓存、局部索引文件预取和关联文件预取提高文件的读取效率。通过以上方法，提高了现有Hadoop系统存储小文件的存储效率和读取效率。本发明适用于通用场景下海量的非独立小文件的存储和管理。

Description

一种基于Hadoop的海量非独立小文件关联存储方法

技术领域

本发明涉及海量非独立小文件在Hadoop(分布式文件系统)上的存储及读取优化方。Hadoop是当前主流的云存储平台，它由一个NameNode和多个DataNode组成，其中NameNode负责管理文件系统名称空间和控制外部客户端的访问，DataNode负责存储数据，本发明主要解决现有大规模非独立小文件存储及读取效率较低的问题。

背景技术

随着互联网的发展，需要存储的数据量日益庞大；而文件大小差异很大，从数千字节的小文件到数百兆字节的大文件。Hadoop分布式文件系统适合存储大文件，在存储小文件时其存储性能和读取性能严重下降。因此，如何有效地存储和管理大量的小文件，成为亟待解决的难题。针对如何有效地在分布式文件系统上存储海量的小文件、降低其读取延迟，申请人通过查新，得到3篇与本发明相关密切的专利，它们分别是：

1.一种集群存储中并行访问大量小文件的方法及系统(专利号：CN201010178387.1)。

2.一种机群文件系统中的小文件存储和访问方法(专利号：CN201010208495.9)。

3.大批量文件数据存放和读取方法(专利号：CN200710199002.8)。

专利1提出了一种集群存储中并行访问大量小文件的方法及系统，该方法包括：对写入的小文件进行缓冲；将缓冲的多个小文件合并为一个临时文件；将所述临时文件的元数据和数据对象存储至元数据服务器节点和数据服务器节点的后端存储中，从而可以有效地提高集群文件系统服务的响应时间和速度，提升数据整体的单位时间数据读写次数、吞吐量。

专利2提出了一种机群文件系统中的小文件存储和访问方法。该方法有三大步骤：(1)设置阈值，区分大小文件；(2)在元数据服务器上，存储小文件的数据；(3)在元数据服务器上，进行小文件创建、读写和删除。由于该发明把小文件的数据存储在元数据服务器上，这样对于小文件的IO访问操作，如创建、读写和删除等，发起IO访问的客户端只需要与元数据服务器交互，无需与数据服务器交互，减少了小文件访问的网络延迟，提高了小文件IO的性能，从而从整体上提高了机群文件系统的IO性能。

专利3提出了一种大批量文件数据存取方法，包括将所有小文件的数据合并成一个大文件；建立每个小文件的文件名及其文件编号的一一对应关系；建立每个所述文件编号与小文件的文件信息的对应关系，所述文件信息包括所述小文件在所述大文件中的位置。相应地，该发明还公开一种大批量文件数据读取方法，用于读取按照本发明的存放方法存放的文件数据，包括步骤：根据小文件的文件名来获得所述小文件的文件编号；根据所述文件编号获得所述小文件的文件信息；根据所述文件信息获得所述小文件在大文件中的位置；根据所述小文件在大文件中的位置，通过所述大文件的IO接口实现对所述小文件数据的读取。

上述现有解决小文件存储问题的专利技术方案存在以下问题：

1.已有小文件存储效率的研究主要集中在非云存储的文件系统上，而不是针对云存储环境下的分布式文件系统，即Hadoop分布式文件系统上的存储优化方法；

2.现有专利虽然提出了合并小文件的方法，但在合并时没有考虑文件之间的关联关系，并且合并后读取文件时所增加的索引查询会影响文件的读取效率。

发明内容

本发明的目的在于解决现有Hadoop分布式文件系统对大规模非独立小文件存储和读取效率低下的问题，提供一种Hadoop分布式文件系统上的存储优化方法。

为达到以上目的，本发明是采取如下技术方案予以实现的：

一种基于Hadoop的海量非独立小文件关联存储方法，包括DataNode(Hadoop分布式文件系统的数据存储节点，用来存储数据)端局部索引管理、文件归并和元数据缓存、局部索引文件预取和关联文件预取，所述非独立小文件是指某些大文件被分割成许多小的文件进行存储和读取，这些小文件是该大文件的一部分；具体步骤如下：

(1)将属于某个大文件的所有小文件归并为一个文件，称之为mergedfile，该文件归并步骤用于提高非独立小文件存储效率；(2)对每个mergedfile建立一个局部索引，并在上传时将局部索引文件与文件实体一同存放在Hadoop文件系统的DataNode上，该DataNode端局部索引管理步骤用于归并后小文件的管理；(3)在读取非独立小文件时，采用元数据缓存、局部索引文件预取和关联文件预取，该步骤用于提高非独立小文件的读取效率。

上述方法中，所述DataNode端局部索引管理包括：

为每一个merged file建立一个局部索引文件，记录属于该merged file的所有小文件的起始位置和长度，局部索引文件位于该merged file的每一个块的起始位置，并且只为该merged file服务；

(1)局部索引文件结构

局部索引文件采用静态查找表结构，由索引头部、序列索引和文件索引三部分构成；其中索引头部由占1字节的版本号、占4字节的索引项数和占4字节的局部索引文件长度组成；序列索引由占4字节的序列名称、占4字节的文件索引的起始编号和占4字节的文件索引项数构成；文件索引项由占16字节的文件名称、占4字节的文件长度和占4字节的文件偏移构成；

(2)读文件时对局部索引文件的操作

首先，根据merged file名从NameNode获取元数据；然后，由merged file的元数据，从Hadoop文件系统的相应DataNode读取指定的数据块，并根据数据块内索引文件长度项读取数据块的局部索引文件；最后根据小文件名称，查找局部索引文件，获得该小文件的起始位置和长度，从而完成对小文件的读操作；

当该merged file的小文件数目少于1000时，采用顺序查找方法；当小文件的数目超过1000时，顺序查找会影响读取性能，在文件索引上建立序列索引，避免查询的开销过大；

如果是一级索引格式，则从局部索引文件中第一个目录项开始，与请求小文件名称逐条对比，若文件索引项的小文件名称符合，则查找成功，返回该小文件索引记录；否则，继续查找直至最后一个记录项，若没有记录项符合，则返回小文件名查找失败；

如果是两级索引格式，则查找分为两个阶段：首先根据待查小文件的序列名称，在序列索引表中查找序列，如果索引表内没有记录项，则表明该序列不存在；否则根据序列指定的位置，开始顺序查找文件索引位置。

所述的文件归并操作在Hadoop文件系统的客户端上进行，将属于同一个大文件的所有小文件合并成一个文件；具体步骤如下：

(1)计算非独立小文件总数，根据文件的数目决定采用文件索引还是采用序列索引+文件索引，由于索引每项长度固定，计算得出局部索引文件的长度，用L_index表示，过程如下：

Step1，如果采用一级索引格式，用L_findex表示单个索引项的长度，Number表示小文件总数，L_head表示索引头部的长度，则

L_index＝L_findex×Number+L_head

Step2，如果采用两级索引结构，假设有N个序列，每一个序列的小文件数为Number₁，Number₂，…，Number_N，L_sindex表示序列索引长度，则

L_index＝N×L_sindex+(Number₁+Number₂+…+Number_N)×L_findex+L_head

(2)计算该merged file所有非独立小文件的长度和与局部索引文件长度的和L_merge，将L_merge与Hadoop文件系统的块大小作比较；

(3)如果L_merge小于Hadoop文件系统的块大小，则该merged file只占用一个数据块；所有文件按默认顺序存放：首先是局部索引文件，然后是小文件序列，小文件序列按照小文件的逻辑顺序依次排列；按照小文件顺序计算每个小文件的偏移和长度，建立局部索引文件；最后进行第(4)步；

如果L_merge超过Hadoop文件系统的块长，归并后文件会被分成多个数据块存储；当有小文件跨数据块时，采用边界填充算法写入一段空白文件将原来的数据块填充，然后在新申请的数据块中写入该文件；

所述的边界填充算法过程如下：

Step1：依次计算每个文件的偏移，在数据块的边界处，检查是否有文件会横跨两个数据块，如果没有，转向Step3，否则，转向Step2；

Step2：在这个横跨两个数据块的小文件前，建立额外的局部索引文件，此索引文件的偏移是下一个数据块的起始位置，横跨小文件的偏移是该局部索引文件的结束位置，设块长是L_block，局部索引文件的大小是L_index，新块的序列号是W，新索引文件偏移量是L_offset，新索引文件长度是L_length，横跨小文件的偏移量是L_foffset，则

L_offset＝(W-1)×L_block

L_length＝L_index

L_foffset＝L_offset+L_length

Step3：对下一个数据块，重复步骤Step1和Step2；

在完成边界填充后，能够确定每一个小文件在merged file内的顺序和偏移，因此可以建立局部索引文件；

(4)根据局部索引文件中每个文件的偏移对小文件进行归并，用空白文件填充两个文件之间的空白区域。

所述的元数据缓存、局部索引文件预取和关联文件预取包括：

(1)元数据缓存：当小文件被读取时，将小文件映射到merged file以获取merged file的元数据；NameNode将元数据返回给客户端后，客户端根据元数据信息与相应的DataNodes交互；然后客户端将该merged file的元数据缓存，则如果该merged file的其它小文件被请求时，能够直接从缓存中读取元数据从而减少与NameNode的交互；

(2)局部索引文件预取：根据merged file的元数据，客户端获知从哪些数据块中读取被请求文件；如果局部索引文件已经被预取，当属于该mergedfile的小文件被请求时，客户端根据被缓存的索引信息，直接从对应DataNode中读取；否则，局部索引文件预取操作被触发，将局部索引文件预取到客户端的缓存中；在缓存中，预取得到的局部索引文件和元数据被处理，为每一个小文件生成元数据索引信息，索引信息包括：原始小文件文件名(16字节)、DataNode ID(4字节)、块ID(4字节)、偏移(4字节)和长度(4字节)；

(3)关联文件预取：同一个merged file的非独立小文件有着直观的关联关系和明确的逻辑顺序，当被请求的小文件返回到客户端后，关联文件预取操作被触发，根据文件之间的逻辑顺序将该merged file下的相关小文件预取。

与现有技术相比，本发明方法的优点是，在考虑文件关联关系的基础上，通过非独立小文件的归并，并加入缓存和预取技术，同时提出了局部索引管理技术，为每一个归并后的文件建立一个局部索引文件，从而可降低元数据服务器的负载。其中，文件归并技术可提高非独立小文件的存储效率，DataNode端局部索引管理技术可解决归并后小文件的管理问题，元数据缓存、局部索引文件预取和关联文件预取技术用于提高非独立小文件的读取效率。

附图说明

图1是本发明非独立小文件关联存储方案图。

图2是本发明非独立小文件上传活动图。

图3是本发明非独立小文件下载活动图。

具体实施方式

以下结合附图及实施例对本发明作进一步的详细说明。

基于Hadoop的海量非独立小文件关联存储方法，首先将某些大文件分割成许多小的文件进行存储和读取，这些小文件是该大文件的一部分，称为非独立小文件，将属于某个大文件的所有非独立小文件归并为一个文件，称为merged file；然后对每个merged file建立一个局部索引，并在上传时将局部索引文件与文件实体一同存放在Hadoop文件系统的DataNode上；接着在读取非独立小文件时，采用元数据缓存、局部索引文件预取和关联文件预取提高文件的读取效率。

DataNode端局部索引管理技术是为每一个merged file建立一个局部索引文件，记录属于该merged file的所有小文件的起始位置和长度，局部索引文件位于该merged file的每一个块的起始位置，并且只为该merged file服务。

局部索引文件结构采用静态查找表结构，由索引头部、序列索引和文件索引三部分构成：(a)索引头部由版本号(1字节)、索引项数(4字节)和局部索引文件长度(4字节)组成；(b)序列索引由序列名称(4字节)、文件索引的起始编号(4字节)和文件索引项数(4字节)构成；(c)文件索引项由文件名称(16字节)、文件长度(4字节)和文件偏移(4字节)构成；

读文件时对局部索引文件的操作是：首先，根据merged file名从NameNode获取元数据；然后，由merged file的元数据，从Hadoop文件系统的相应DataNode读取指定的数据块，并根据数据块内索引文件长度项读取数据块的局部索引文件；最后根据小文件名称，查找局部索引文件，获得该小文件的起始位置和长度，从而完成对小文件的读操作。当该merged file的小文件数目少于1000时，采用顺序查找方法；当小文件的数目超过1000时，顺序查找会影响读取性能，在文件索引上建立序列索引。如果是一级索引格式，则从局部索引文件中第一个目录项开始，与请求小文件名称逐条对比，若文件索引项的小文件名称符合，则查找成功，返回该小文件索引记录；否则，继续查找直至最后一个记录项，若没有记录项符合，则返回小文件名查找失败。如果是两级索引格式，则查找分为两个阶段：首先根据待查小文件的序列名称，在序列索引表中查找序列，如果索引表内没有记录项，则表明该序列不存在；否则根据序列指定的位置，开始顺序查找文件索引位置。

文件归并技术是在Hadoop文件系统的客户端上进行，将属于同一个大文件的所有小文件合并成一个文件(以下有详述)。

元数据缓存、局部索引文件预取和关联文件预取包括：

如图1所示，非独立小文件存储方案主要由上传模块和下载模块组成。

A.上传模块

文件上传包括merged file建立和小文件上传。上传活动图如图2所示，描述了上传过程中客户端和Hadoop集群的交互。上传流程如下：

1.生成局部索引文件，归并小文件，并与局部索引文件合并。首先根据上传小文件的数量大小选择采用一级索引还是两级索引，然后根据小文件计算出局部索引文件长度，进而得到局部索引与所有小文件长度之和，如果存在小文件跨块，则在跨块小文件前使用边界填充算法填充空白文件，最后归并小文件并与局部索引文件合并。

(1)计算非独立小文件总数，根据文件的数目决定采用文件索引还是采用序列索引+文件索引，计算得出局部索引文件的长度，用L_index表示，过程如下：

L_index＝L_findex×Number+L_head

L_index＝N×L_sindex+(Number₁+Number₂+…+Number_N)×L_findex+L_head

(3)如果L_merge小于Hadoop文件系统的块大小，则merged file只占用一个数据块；所有文件按默认顺序存放：首先是局部索引文件，然后是小文件序列，小文件序列按照小文件的逻辑顺序依次排列；按照小文件顺序计算每个小文件的偏移和长度，建立局部索引文件；最后进行第(4)步；

如果L_merge超过Hadoop文件系统的块长，归并后文件会被分成多个数据块存储；当有小文件跨数据块时，采用边界填充算法写入一段空白文件将原来的数据块填充，然后在新申请的数据块中写入该文件；边界填充算法过程如下：

L_offset＝(W-1)×L_block

L_length＝L_index

L_foffset＝L_offset+L_length

Step3：对下一个数据块，重复步骤Step1和Step2；

(4)在内存中，根据局部索引文件中每个文件的偏移对小文件进行归并，用空白文件填充两个文件之间的空白区域。将局部索引文件和所有小文件依次合并成为merged file。

2.客户端向NameNode申请上传merged file，按照原有Hadoop文件系统的流程，NameNode为merged file分配数据块，建立元数据，将元数据返回给客户端。

3.客户端根据元数据与指定的DataNode建立连接。DataNode准备就绪后，客户端将数据写入DataNode，上传过程结束。

B.下载模块

下载模块包括根据merged file获取元数据、数据块的解析、文件的读取和预取。下载活动如图3所示，详细流程如下：

1)下载小文件时，首先查找客户端的缓存文件，如果缓存中存在此小文件，则直接从缓存读取，此次读请求结束。如果缓存中不存在所请求的小文件，则将小文件映射到merged file，查找该merged file的元数据和索引信息是否存在，如果存在则转向步骤4)和6)，否则转向步骤2)。

2)客户端向NameNode发送命令，请求该merged file的元数据信息。

3)NameNode将元数据返回给客户端，客户端缓存元数据。

4)根据元数据信息，客户端向指定的DataNode请求目标数据块，在DataNode端，目标数据块被加载到内存中。首先，提取局部索引文件，然后由请求的小文件名得到该文件的长度和偏移。

5)根据长度和偏移量，将小文件从目标数据块中读出，返回到客户端，同时将局部索引文件返回客户端，转向步骤7)。

6)根据该merged file的元数据，客户端向指定的DataNode请求目标数据块，然后根据索引信息中小文件的长度和偏移将小文件读出，返回到客户端。

7)在完成小文件读取以后，预取策略被激活。更多的关联小文件被读取并缓存在客户端。

Claims

1.一种基于Hadoop的海量非独立小文件关联存储方法，其特征在于，包括DataNode端局部索引管理、文件归并和元数据缓存、局部索引文件预取和关联文件预取，所述非独立小文件是指某些大文件被分割成许多小的文件进行存储和读取，这些小文件是该大文件的一部分；具体步骤如下：

2.如权利要求1所述的基于Hadoop的海量非独立小文件关联存储方法，其特征在于，所述DataNode端局部索引管理包括：

(1)局部索引文件结构

(2)读文件时对局部索引文件的操作

3.如权利要求1所述的基于Hadoop的海量非独立小文件关联存储方法，其特征在于，所述的文件归并操作在Hadoop文件系统的客户端上进行，将属于同一个大文件的所有小文件合并成一个文件；具体步骤如下：

L_index＝L_findex×Number+L_head

L_index＝N×L_sindex+(Number₁+Number₂+…+Number_N)×L_findex+L_head

4.如权利要求3所述的基于Hadoop的海量非独立小文件关联存储方法，其特征在于，所述的边界填充算法，过程如下：

L_offset＝(W-1)×L_block

L_length＝L_index

L_foffset＝L_offset+L_length

Step3：对下一个数据块，重复步骤Step1和Step2；

5.如权利要求1所述的基于Hadoop的海量非独立小文件关联存储方法，其特征在于，所述的元数据缓存、局部索引文件预取和关联文件预取包括：