CN103092927A

CN103092927A - 一种分布式环境下的文件快速读写方法

Info

Publication number: CN103092927A
Application number: CN2012105906155A
Authority: CN
Inventors: 郑然�; 金海�; 章勤; 姚传威; 冯晓文
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2012-12-29
Filing date: 2012-12-29
Publication date: 2013-05-08
Anticipated expiration: 2032-12-29
Also published as: CN103092927B

Abstract

本发明公开了一种分布式环境下的文件快速读方法，包括：客户节点向元数据节点发出读文件请求，客户节点判断其自身是否和分布式文件系统中该客户节点上一次读取文件所连接的数据节点保持着连接，若不是则元数据节点根据其索引区中的信息查询该文件是否存在于其数据区中，若不是则元数据节点根据其一级索引信息查询存有该文件的数据节点，客户节点与该数据节点建立连接，数据节点根据二级索引信息查找该文件所在的数据块，根据二级索引信息获取文件，并将该文件发送给客户节点，客户节点接收数据并保持与该数据节点的连接。本发明能够解决现有方法中存在的元数据节点占用内存大，以及大量文件写效率低下的问题。

Description

一种分布式环境下的文件快速读写方法

技术领域

本发明属于网络通信领域，更具体地，涉及一种分布式环境下的文件快速读写方法。

背景技术

随着科技和互联网的高速发展，存储系统需要存储海量的数据，应对高并发用户的访问，提供高可靠、高可用的服务，传统的单机系统已经不能满足这些需求，而分布式文件系统可以很好的满足这些需求。在实际的应用中（个人应用、web应用、科学计算等）会产生海量的文件信息，如何在分布式环境下高效的存储和访问海量的文件，至今任然是一个难题和挑战。

当前主流的分布式文件系统包括google GFS，HDFS，Lustre，Ceph等。这些分布式文件系统的架构和基本原理大致相同，主要由元数据节点，数据节点和客户节点组成。其中元数据节点保存分布式文件系统的元数据（文件系统的命名空间，文件名->数据块的映射，数据块->数据节点的映射）；数据节点存放实际的文件数据（一般以数据块的形式进行存储）；客户节点连接元数据节点进行文件信息查询，连接数据节点进行实际的文件传输，其在存取数据之前都要先和元数据节点进行通信。

分布式文件系统对于文件的读写性能比较低。其文件读写性能差有以下原因：分布式文件系统的元数据存于元数据节点的内存中，大量的文件会占用元数据节点很多内存（一个文件会占用一个索引项）；大量文件的频繁存取，会加重元数据节点的负担（客户节点不停的和元数据节点交互），造成数据节点磁盘频繁的寻道，降低系统的性能；客户节点在存取文件时和元数据节点交互的时间可能大于和数据节点的数据传输时间。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种分布式环境下的文件快速写方法，旨在解决现有方法中存在的元数据节点占用内存大，以及大量文件写效率低下的问题。

为实现上述目的，本发明提供了一种分布式环境下的文件快速写方法，包括以下步骤：

步骤S301：对分布式环境下元数据节点的数据区及索引信息进行初始化，其中索引信息包括元数据节点的索引区和一级索引区，以及数据节点的二级索引区；

步骤S302：客户节点向元数据节点发出写文件请求；

步骤S303：元数据节点根据写文件请求判断元数据节点的数据区的剩余空间是否大于或等于该文件大小，如果是，则转入步骤S304，否则转入步骤S308；

步骤S304：元数据节点接收客户节点的文件，并将该文件存储到元数据节点的数据区的剩余空间中；

步骤S305：元数据节点更新其索引区的信息：

步骤S306：元数据节点判断元数据节点的数据区中存储的数据是否大于一个阈值，如果是，则转入步骤S307，否则过程结束；

步骤S307：元数据节点将其数据区的数据作为一个普通文件存于分布式文件系统中，并清空其数据区及索引区中的数据，过程结束；

步骤S308：元数据节点将其数据区的数据作为一个普通文件存于分布式文件系统中，并清空其数据区及索引区中的数据；

步骤S309：元数据节点接收客户节点的文件数据，并将其存储到其数据区的剩余空间中；

步骤S310：元数据节点更新其索引区的信息。

文件的大小是介于0~1MB之间，普通文件的大小大于所述阈值。

步骤305和步骤S310具体为，元数据节点在其索引区中添加一条新的表项，包括有文件ID、文件在数据区中的偏移、以及文件的大小。

步骤S301包括以下子步骤：

步骤S401：判断是否已经对分布式环境下元数据节点的数据区及索引信息进行过初始化，如果是，则过程结束，否则转入步骤S402；

步骤S402：元数据节点在其内存中开辟一个大小为M的区域，用以保存临时的文件，其中M为大于上述阈值的正整数；

步骤S403：元数据节点设置索引区，用于存储每个文件在其数据区中的索引信息；

步骤S404：元数据节点设置一级索引区，用于保存文件到数据节点的映射关系；

步骤S405：数据节点设置二级索引区，其位于数据节点中，用于存储文件的二级索引信息。

二级索引信息包括：文件到数据块的映射、文件在数据块内的偏移、及文件的大小。

步骤S307和S308均包括以下子步骤：

步骤S501：元数据节点将其数据区的数据作为一个普通文件保存于分布式文件系统中；

步骤S502：元数据节点将该普通文件的索引信息发送到相应的数据节点的二级索引区中，数据节点将该索引信息添加到其二级索引区；

步骤S503：元数据节点根据文件的ID和数据节点ID更新其一级索引信息；

步骤S504：元数据节点清空其数据区中的数据；

步骤S505：元数据节点清空其索引区中的数据。

步骤S503具体为，元数据节点在其一级索引区中添加文件ID与数据节点ID的映射关系，以便进行文件的读取查询。

通过本发明所构思的以上技术方案，与现有技术相比，本方法具有以下的有益效果：

（1）节省元数据节点的内存，增加分布式文件系统所能存储的文件数目：由于采用了步骤S301、S307以及S308，通过在元数据节点中存储文件的一级索引信息,在数据节点中存储文件的二级索引信息，因而降低了元数据节点的内存使用,增加了分布式文件系统所能存储的文件数目,且提高了数据节点的内存利用率。

（2）提高写文件的性能：由于采用了步骤S301、S307以及S308，通过在元数据节点的数据区中将许多文件进行合并后存储到分布式文件系统中，因而减少了客户节点与数据节点的交互次数，也减少了写大量文件所花费的时间。

本发明的另一目的在于提供一种分布式环境下的文件快速读方法，旨在解决现有方法中存在的元数据节点负载过大，以及大量文件读效率低下的问题。

为实现上述目的，本发明提供了一种分布式环境下的文件快速读方法，包括以下步骤：

步骤S601：客户节点向元数据节点发出读文件请求；

步骤S602：客户节点判断其自身是否和分布式文件系统中该客户节点上一次读取文件所连接的数据节点保持着连接，若是，则转入步骤S603，否则转入步骤S606；

步骤S603：客户节点向该数据节点发送读文件请求；

步骤S604：数据节点根据其二级索引区中存储的二级索引信息进行查询，以判断其自身是否存储了读文件请求所对应的文件，若是则转入步骤S609，否则转入步骤S605；

步骤S605：客户节点断开与该数据节点的连接；

步骤S606：元数据节点根据其索引区中的信息查询该文件是否存在于其数据区中，若是则转入步骤S611，否则转入步骤S607；

步骤S607：元数据节点根据其一级索引信息查询存有该文件的数据节点；

步骤S608：客户节点与该数据节点建立连接；

步骤S609：数据节点根据二级索引信息查找该文件所在的数据块，根据二级索引信息获取文件，并将该文件发送给客户节点；

步骤S610：客户节点接收数据并保持与该数据节点的连接，然后过程结束；

步骤S611：元数据节点根据其索引区中的索引信息从其数据区获取文件，并将该文件发送给客户节点。

客户节点和数据节点之间的连接可以是TCP连接或UDP连接。

（1）降低元数据节点的负载：由于采用了步骤S602和S610，客户节点会保持与上一次读取的文件所在的数据节点的连接，这样如果下一次要读取的文件也在该数据节点中（对于文件的读取通常具有局部性，在同一个数据块内的文件有可能被连续的读取），则客户节点不用连接元数据节点，因而降低了元数据节点的负载，提高了系统的响应速度。

（2）提高读文件的性能：由于采用了步骤S611，如果要读取的文件位于元数据节点的数据区中，客户节点可以直接从元数据节点的数据区中读取数据（比从磁盘中读快），且不用和数据节点进行连接和文件读取，因而可以明显提升文件读取的效率。由于采用了步骤S602和S610，客户节点直接连接数据节点进行文件的读取，因而可以提高读文件的性能。

附图说明

图1为本发明分布式环境下的文件快速读写方法所应用到的分布式文件系统架构图。

图2为本发明元数据节点的框架图。

图3为本发明分布式环境下的文件快速写方法的流程图。

图4为本发明分布式环境下的文件快速写方法中步骤S301的细化流程图。

图5为本发明分布式环境下的文件快速写方法中步骤S307/S308的细化流程图。

图6为本发明分布式环境下的文件快速读方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

首先对本发明中的技术术语进行解释和定义：

元数据节点：保存分布式文件系统的元数据（文件系统的命名空间，文件名->数据块的映射，数据块->数据节点的映射）。

数据节点：存放实际的文件数据（一般以数据块的形式进行存储）。其通过心跳接受来自元数据节点的块操作命令。

客户节点：连接元数据节点进行文件信息查询，连接元数据节点和数据节点进行实际的文件传输。

下面结合附图对本发明进行详细说明。

如图1所示，本发明分布式环境下的文件快速读写方法所应用到的分布式文件系统架构包括以下部分：

元数据节点：对于文件，元数据节点在内存中开辟一个数据区、索引区和一级索引区，数据区用于保存临时的文件，将文件进行合并，索引区用于存储每个文件在数据区的索引信息，一级索引区保存文件到数据节点的映射。元数据节点的框架图如图2所示；

数据节点：在内存中开辟一个二级索引区，存储了文件的二级索引信息，包括以下信息：文件到数据块的映射；文件在数据块内的偏移及文件的大小；以及

如图2所示，本发明中元数据节点框架包括以下内容：

数据区：用以保存临时的文件，将文件进行合并；

索引区：其用于存储每个文件在数据区的索引信息，索引区的索引项是定长索引，每一个文件对应一个索引项，索引项包括fileID、offset和length，其中fileID代表文件名，offset代表文件在数据区的偏移，length代表文件的大小，数据区中每增加一个文件的数据，都要在索引区中增加一个相应的索引项；

一级索引区：其是一个全局索引，一级索引项包括fileID和数据节点ID的映射，数据节点ID标识某个特定的数据节点，对于合并成文件且存储到数据节点中的文件，将其存储信息添加到一级索引中，以便客户节点读取文件时能定位到存储文件的具体数据节点。

如图3所示，本发明分布式环境下的文件快速写方法包括以下步骤：

步骤S302：客户节点向元数据节点发出写文件请求；在本发明中，文件的大小是介于0~1MB之间；

步骤S305：元数据节点更新其索引区的信息：具体而言，元数据节点在其索引区中添加一条新的表项，包括有文件ID、文件在数据区中的偏移、以及文件的大小；

步骤S306：元数据节点判断元数据节点的数据区中存储的数据是否大于一个阈值，如果是，则转入步骤S307，否则过程结束；具体而言，阈值的取值范围是60至63Mb；

步骤S307：元数据节点将其数据区的数据作为一个普通文件存于分布式文件系统中，并清空其数据区及索引区中的数据，过程结束；具体而言，普通文件是指文件大小大于上述阈值的文件；

步骤S310：元数据节点更新其索引区的信息：具体而言，元数据节点在其索引区中添加一条新的表项，包括有文件ID、文件在数据区中的偏移、以及文件的大小；

如图4所示，本发明方法中的步骤S301包括以下子步骤：

步骤S402：元数据节点在其内存中开辟一个大小为M的区域，用以保存临时的文件，其中M为大于上述阈值的正整数，其取值范围为64-128Mb；

步骤S405：数据节点设置二级索引区，其位于数据节点中，用于存储文件的二级索引信息；具体而言，二级索引信息包括：文件到数据块的映射、文件在数据块内的偏移、及文件的大小。

如图5所示，本发明方法中的步骤S307和S308均包括以下子步骤：

步骤S503：元数据节点根据文件的ID和数据节点ID更新其一级索引信息；具体而言，元数据节点在其一级索引区中添加文件ID与数据节点ID的映射关系，以便进行文件的读取查询；

步骤S504：元数据节点清空其数据区中的数据；

步骤S505：元数据节点清空其索引区中的数据。

如图6所示，本发明分布式环境下的文件快速读方法包括以下步骤：

步骤S601：客户节点向元数据节点发出读文件请求；

步骤S602：客户节点判断其自身是否和分布式文件系统中该客户节点上一次读取文件所连接的数据节点保持着连接，若是，则转入步骤S603，否则转入步骤S606；具体而言，客户节点和数据节点之间的连接可以是TCP连接或UDP连接；

步骤S603：客户节点向该数据节点发送读文件请求；

步骤S604：数据节点根据其二级索引区中存储的二级索引信息进行查询，以判断其自身是否存储了读文件请求所对应的文件，若是则转入步骤S609，否则转入步骤S605；具体而言，二级索引信息包括：文件到数据块的映射、文件在数据块内的偏移、及文件的大小；

步骤S605：客户节点断开与该数据节点的连接；

步骤S607：元数据节点根据其一级索引信息（即文件ID到数据节点的映射关系）查询存有该文件的数据节点；

步骤S608：客户节点与该数据节点建立连接；

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式环境下的文件快速写方法，其特征在于，包括以下步骤：

步骤S302：客户节点向元数据节点发出写文件请求；

步骤S305：元数据节点更新其索引区的信息：

步骤S310：元数据节点更新其索引区的信息。

2.根据权利要求1所述的文件快速写方法，其特征在于，文件的大小是介于0~1MB之间，普通文件的大小大于所述阈值。

3.根据权利要求1所述的文件快速写方法，其特征在于，步骤305和步骤S310具体为，元数据节点在其索引区中添加一条新的表项，包括有文件ID、文件在数据区中的偏移、以及文件的大小。

4.根据权利要求1所述的文件快速写方法，其特征在于，步骤S301包括以下子步骤：

5.根据权利要求4所述的文件快速写方法，其特征在于，二级索引信息包括：文件到数据块的映射、文件在数据块内的偏移、及文件的大小。

6.根据权利要求1所述的文件快速写方法，其特征在于，步骤S307和S308均包括以下子步骤：

步骤S504：元数据节点清空其数据区中的数据；

步骤S505：元数据节点清空其索引区中的数据。

7.根据权利要求6所述的文件快速写方法，其特征在于，步骤S503具体为，元数据节点在其一级索引区中添加文件ID与数据节点ID的映射关系，以便进行文件的读取查询。

8.一种分布式环境下的文件快速读方法，其特征在于，包括以下步骤：

步骤S601：客户节点向元数据节点发出读文件请求；

步骤S603：客户节点向该数据节点发送读文件请求；

步骤S605：客户节点断开与该数据节点的连接；

步骤S608：客户节点与该数据节点建立连接；

9.根据权利要求8所述的文件快速读方法，其特征在于，客户节点和数据节点之间的连接可以是TCP连接或UDP连接。