CN103942301A

CN103942301A - 一种面向多数据类型访问应用的分布式文件系统

Info

Publication number: CN103942301A
Application number: CN201410151975.4A
Authority: CN
Inventors: 郑然�; 周庭哲; 金海�; 章勤
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2014-04-16
Filing date: 2014-04-16
Publication date: 2014-07-23
Anticipated expiration: 2034-04-16
Also published as: CN103942301B

Abstract

本发明公开了一种面向多数据类型访问应用的分布式文件系统，所述分布式文件系统的主结点中包含有多类元数据，其中：每类元数据包含有元数据哈希表和相应的元数据控制结构体，每类元数据对应相应的数据类型，所述数据类型是根据数据访问特性进行分类的；每类元数据控制结构体用于针对相应的数据类型进行分类管理；所述系统在接收到应用程序访问请求时，根据应用程序访问请求所需访问文件的类型确定相应类别的元数据控制结构体，将相应类别的元数据控制结构体的信息返回给应用程序，以使所述应用程序根据所述控制信息，在相应的数据存储结点中行相应的文件操作。本发明系统的数据检索速度成倍提高，系统负载能力显著提升，延展性好。

Description

一种面向多数据类型访问应用的分布式文件系统

技术领域

本发明属于计算机存储技术领域，更具体地，涉及一种面向多数据类型访问应用的分布式文件系统。

背景技术

随着信息科技的不断创新，信息化水平不断提高，人们对计算能力、存储能力的需求呈现出爆炸式增长。应用程序需要存储PB、TB级的数据，即使增加更多的计算节点，更多的磁盘和处理器，也不能提供足够快的计算，因为文件存取速度成为主要瓶颈。元数据是用来描述一个文件系统特征的数据，对数据操作起着至关重要的作用，因此元数据的设计就成为关键。

目前对于元数据的研究都集中于怎样组织元数据，使得对元数据定位速度快，最终实现数据的高效存取。其最大的特点在于：对数据的高效访问只适合于某一特定访问类型的数据（例如一次写多次读），一旦数据访问类型混杂，系统存取文件的效率和存储空间利用率都会大大降低。

现有的运用最广泛的分布式文件系统有GFS（Google File System，谷歌文件系统）、HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）等，大多文件系统的元数据设计与GFS类似。

元数据存储在主结点，负责对数据进行统一的管理。元数据保存文件和存储块的命名空间、文件名到存储块的映射关系、存储块到存储结点的映射关系,下图以google文件系统为例（如图1所示）。

应用程序访问文件时，首先向存储元数据的主结点Master发送文件名、文件偏移量。访问请求到达主结点后，先根据文件名和文件偏移量，查找文件到存储块的映射表——哈希表1（hash1）计算出数据所在的文件块的块编号，然后根据文件块号到子结点的映射表——哈希表2（hash2）查找到数据对应存储的某个子结点号的编号。最后主结点将得到的文件块编号和子结点编号发送到应用程序端，应用程序端与相应的子结点建立连接，在子结点中获取数据。

例如，当为一个动漫渲染应用设计底层分布式文件系统时，借鉴GFS文件系统中的元数据设计模型会导致整个系统性能下降。渲染的过程中，读取的文件主要为纹理图片文件，纹理图片一次性写入，永久储存。其他的文件包括深度图、点缓存（烘培）、光子图等信息，这类数据每帧约几百兆，动态生成，渲染完成后删除。对于纹理图片文件，原有的元数据设计模型恰好能满足应用需求，但由于应用中包含大量的动态生成文件，需要实时进行文件的添加、删除，故应用程序的性能不高。

发明内容

针对上述文件系统底层数据访问模式多样化，导致的传统元数据设计模式不能解决的问题，本发明引入面向多数据类型访问应用的分布式文件系统给予解决。

本发明提供了一种面向多数据类型访问应用的分布式文件系统，所述分布式文件系统的主结点中包含有多类元数据，其中：

每类元数据包含有元数据哈希表和相应的元数据控制结构体，每类元数据对应相应的数据类型，所述数据类型是根据数据访问特性进行分类的；每类元数据控制结构体用于针对相应的数据类型进行分类管理；

所述系统在接收到应用程序访问请求时，根据应用程序访问请求所需访问文件的类型确定相应类别的元数据控制结构体，将相应类别的元数据控制结构体的信息返回给应用程序，以使所述应用程序根据所述控制信息，在相应的数据存储结点中行相应的文件操作。

进一步地，所述数据类型包括静态数据、流式数据、动态生成数据、动态增长数据以及日志文件类数据，所述元数据控制结构体的成员变量至少包括元数据类别ID、数据块大小、存储方式、备份块数量以及预取策略。

进一步地，其特征在于，所述数据类型及相应的元数据控制结构体，具体为：

所述静态数据：其特性为一次写入，多次读；其对应元数据控制结构体中成员变量依次为：元数据类别ID为01；数据块大小范围为30M-60M；存储方式为连续存储；备份块数量为2-4个；预取策略为相邻数据预取；

所述流式数据：其特性为数据不断写入，处理完毕后流出系统；其对应元数据控制结构体中成员变量依次为：元数据类别ID为02；数据块大小为大于或等于60M；存储方式为连续存储；备份块数量为1个；预取策略为相邻数据预取；

所述动态生成数据：其特性为数据在系统运行中动态生成；其对应元数据控制结构体中成员变量依次为：元数据类别ID为03；数据块大小为：小于100M的按照自身大小分块，否则按100M分块；存储方式为本地存储；备份块数量为1个；预取策略为本地预取；

所述动态增长数据：其特性为在数据写入系统后，在数据的任何位置都有可能插入新的数据；其对应元数据控制结构体中成员变量依次为：元数据类别ID为04；数据块大小为10M-20M；存储方式为随机存储；备份块数量为1-2个；预取策略无；

所述日志文件类数据：其特性为数据定期动态生成并永久存储；其对应元数据控制结构体中成员变量依次为：元数据类别ID为05；数据块大小为3M-8M；存储方式为分散存储于不同结点；备份块数量为3-5个；预取策略无。

进一步地，所述数据类型根据下述两种方案之一判断：

为文件添加扩展名，根据文件扩展名识别数据类型；或者，

为文件名添加前缀，根据文件名前缀识别数据类型。

进一步地，当所述应用程序访问请求为查找时：主结点接收到访问请求，确定数据类别，然后根据应用程序访问请求所需访问文件的文件名和文件偏移量在元数据哈希表中查找子结点编号和文件块编号；并读取所述数据类别对应的元数据结构体中数据块的大小信息；将上述子结点编号和文件块编号，以及数据块的大小信息返回给应用程序，以使应用程序到相应的数据存储结点读取数据。

进一步地，当所述应用程序访问请求为存储时：主结点接收到访问请求，确定数据类别，然后根据相应类别的元数据控制结构体中的存储信息，给应用程序需访问的文件分配存储结点，以便应用程序到相应的数据存储结点进行存储与备份。

进一步地，当所述应用程序访问请求为删除时：主结点接收到访问请求，确定数据类别，然后在相应元数据控制结构体中，删除文件到存储块的映射表和文件块号到子结点的映射表两个哈希表中与应用程序需删除的文件相关的表项。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

(1)元数据查找时，由于首先对元数据进行分类，数据检索速度成倍提高；

(2)应用程序请求到达元数据管理结点时，由于元数据的分类而被分流，系统负载能力显著提升；

(3)数据按照访问类型分类，并由特定类别的元数据对其进行管理，使得系统的存储空间利用率和系统的吞吐量大大增加；

(4)系统有很好的延展性，当系统中需要增加或移除某一访问特性的数据时，将其对应元数据类别在元数据服务器中增加或删除即可。。

附图说明

图1是现有的GFS文件访问流程；

图2是本发明文件系统中的元数据控制结构体的示意图；

图3是本发明文件系统中文件访问过程示意图；

图4是本发明文件系统中文件存储过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

现有文件系统设计的元数据只能实现简单的索引功能，没有对元数据进行分类，整个系统的数据存储模式根据系统需求事先已经确定，不能适应于动态的变化。

对于系统中文件进行存储时，只需访问主结点，查找空闲块，将分块后的文件存储，并将信息插入元数据保存的两个映射表。其存储模式不需要元数据进行控制。

系统中存储块的大小通常为一个固定值，不能适应于多小文件的应用需求。存储块备份数量通常也为固定值，这样就导致一些临时数据生成时占用空间，并造成巨大的存储开销。该种元数据设计模式只适用于数据大多为静态数据的系统。

现有应用程序访问文件时，首先向存储元数据的主结点Master发送文件名、文件偏移量。访问请求到达主结点后，先根据文件名和文件偏移量，查找文件到存储块的映射表——哈希表1（hash1）计算出数据所在的文件块的块编号，然后根据文件块号到子结点的映射表——哈希表2（hash2）查找到数据对应存储的某个子结点号的编号。最后主结点将得到的文件块编号和子结点编号发送到应用程序端，应用程序端与相应的子结点建立连接，在子结点中获取数据。

与现有文件系统使用统一类别元数据管理模式不同，本技术方案通过对底层数据访问特性的分类，针对不同数据类别分别设计不同的元数据对其分别进行管理。克服了现有文件系统中数据访问多样性带来的数据存取速度慢，存储空间利用率低的问题。提高了文件系统的处理速度，并且增加了存储空间的利用率。

本发明文件系统的实现如下：

(1)分析系统数据，根据数据访问类型的不同，对数据进行划分。

(2)根据步骤(1)中得到的不同数据类型，设计出不同类别的元数据和对相应的元数据控制结构体进行初始化，并建立该类型数据到相应类别元数据之间的映射关系。

(3)当应用程序访问请求到达，对应用程序访问需求进行分析。

(4)根据应用程序所需访问文件的类型定位到相应类别的元数据。元数据服务器查找元数据控制结构体，获得数据存储控制信息，并将存储模式、备份模式等控制信息发送给数据存储结点进行文件存储。

(5)存储结点接收元数据服务器的控制命令，进行相应的文件的读取、存储和删除。

本发明提供了一种面向多数据类型访问应用的分布式文件系统，所述分布式文件系统的主结点中包含有多类元数据，其中：每类元数据包含有元数据哈希表和相应的元数据控制结构体，每类元数据对应相应的数据类型，所述数据类型是根据数据访问特性进行分类的；每类元数据控制结构体用于针对相应的数据类型进行分类管理；所述系统在接收到应用程序访问请求时，根据应用程序访问请求所需访问文件的类型确定相应类别的元数据控制结构体，将相应类别的元数据控制结构体的信息返回给应用程序；并根据应用程序访问请求所需访问文件的文件名和文件偏移量在元数据哈希表中查找子结点编号和文件块编号，将所述子结点编号和文件块编号返回给应用程序；以使所述应用程序根据所述控制信息，以及所述子结点编号和文件块编号在相应的数据存储结点中行相应的文件操作。

本发明系统根据底层数据的访问类别不同，将数据进行如下划分：静态数据（一次写入，多次读）、流式数据（数据不断写入，处理完毕后流出系统）、动态生成数据（系统运行中动态生成）、动态增长数据（数据写入系统后，数据的任何位置都有可能插入新的数据）、日志文件类数据（定期动态生成并永久存储）。

生成不同类别元数据时，在传统文件系统使用两个映射表管理所有数据的基础上，为每一个类别的元数据增加一个元数据控制结构体，用于区分不同类别的元数据，并对不同类别的数据实施不同存储方案。

添加无数据控制结构体后元数据的结构如图2所示，元数据控制结构体中至少包含如下数据项：元数据类别ID（用以区分不同元数据类型，MDid)、数据块大小（blockSize）、存储方式(isLocal)、备份块数量(numBackup)以及预取策略（isSequence，用于根据数据的重要性实施本地或非本地备份）等。元数据控制结构体设计如下：

(1)静态数据。设计目标：永久存储，各个计算节点高效访问这些静态数据，系统运行过程中这些静态数据无需更改。元数据控制结构体设计：数据存入系统时，分为固定大小的块进行连续存储，存储在低地址或高地址端，数据块大小范围为30M-60M。利用数据访问局部性的原理，静态数据可以被快速访问。在元数据控制信息设计中，数据块的备份数量，根据系统访问数据频率而定(访问频率高的可以设置3-4个备份，访问频率低的从系统健壮性考虑要设置2个备份）。

其对应元数据控制结构体中成员变量依次为：元数据类别ID为01；数据块大小范围为30M-60M；存储方式为连续存储；备份块数量为2-4个；预取策略为相邻数据预取。

例如数据块大小设置为60M，则对于10M数据块而言，其元数据信息量减少5倍。

(2)流式数据。设计目标：数据高效写入、删除。元数据控制结构体设计：数据备份数量设置为1-2个，以达到快速写入、删除的目的，额外的备份会增加写开销和存储容量开销。数据块的大小设置为大于或等于60M，因为流式数据大多为视频文件，增加数据块大小有利于数据的管理。数据块分散存储，有利于数据的并发写入和存储单元的分配、回收。

其对应元数据控制结构体中成员变量依次为：元数据类别ID为02；数据块大小为大于或等于60M；存储方式为连续存储；备份块数量为1个；预取策略为相邻数据预取。

(3)动态生成数据。设计目标：数据能快速读取。元数据控制结构体设计：因为动态生成的数据一般是计算过程中产生的中间文件（例如渲染应用），文件大且生成后只读。小于100M的按照自身大小分块，否则按100M分块；并且尽可能的在本地存储。由于文件块大，设置1-2个备份为宜，其备份文件应该存储在不同机架上。

具体地，其对应元数据控制结构体中成员变量依次为：元数据类别ID为03；数据块大小为：小于100M的按照自身大小分块，否则按100M分块；存储方式为本地存储；备份块数量为1-2个；预取策略为本地预取。

(4)动态增长数据。设计目标：既方便新数据的插入和追加，又能满足快速读写的需求。元数据控制结构体设计：由于文件需要不断的修改，数据块设置为10M-20M,减少每次写操作的开销。

备份块数量为1-2个，如果备份数量过多，写文件时，容易造成数据不一致。文件分散存储在空闲区域大的存储空间，因为动态增加的数据在物理上与原始数据相邻，根据数据访问局部性，访问效率会增加。

具体地，其对应元数据控制结构体中成员变量依次为：元数据类别ID为04；数据块大小为10M-20M；存储方式为随机存储；备份块数量为1-2个；预取策略无。

(5)日志文件类数据。设计目标：数据完整性、正确性、及时性写入。元数据控制结构体设计：日志文件是提高整个文件系统可靠性的核心。其备份策略同样采用多备份（3个-5个）且非本地备份策略。日志文件通常是在尾部追加记录，物理存储上，将日志文件存储在与静态数据存储位置相反的一端，以保证日志文件安全性。日志文件采用小块存储（3M-8M），避免未及时写入日志文件时，造成大量信息丢失。

如图3所示，下面分析在新型元数据控制结构体引入后，文件查找的过程：

（1）主结点接收到访问请求，进行数据类别判断，确定数据所属的元数据类别；

（2）根据应用程序访问请求所需访问文件的文件名和文件偏移量在元数据哈希表中查找子结点编号和文件块编号，

（3）读取所述数据类别对应的元数据结构体中数据块的大小信息，将上述子结点编号和文件块编号，以及数据块的大小信息返回给应用程序；

（4）应用程序根据得到的文件存储信息在指定子结点中查找相应的数据。

对于并发的大量数据的查找，查找速度具有显著的提升。

根据系统规模不同，数据类别判断可以使用下面两种决方案之一：

（1）为文件添加扩展名，根据文件扩展名识别数据类型。该方法简单、高效，适合于文件种类少的系统。系统要求不同文件访问类型，其文件扩展名也不相同。

（2）为文件名添加前缀，根据文件名前缀识别数据类型。当文件请求进入元数据服务器，服务器通过分析文件名前缀，能快速定位其所属元数据管理的类别。该方案适应于大型的、文件种类复杂的文件系统。

如图4所示，下面分析在新型元数据控制结构体引入后，文件存储的过程：

在普通文件系统中，应用程序向Master发出文件存储请求时，系统根据文件大小除以事先确定的块大小、文件备份数量在hash表中查找相应数目的空闲块，并分配空闲数据块。将空闲数据块ID和对应的子结点号发送给应用程序，应用程序与相应子结点进行数据连接，并存储文件。

新型元数据控制结构体中，应用程序向Master发出文件存储请求时：

（1）主结点接收到访问请求，进行数据类别判断，决定数据所属的元数据类别；

（2）获取相应类别的元数据控制结构体中的存储信息；

（3）利用文件长度除以数据块大小blockSize，以及文件备份数量numBackup,决定数据块个数。再根据预取策略isSequence等参数对文件存储模式和位置的控制，在hash表中查找分配相应的空闲块；

（5）将分配的空闲块ID和对应的子结点号发送给应用程序，应用程序与相应子结点进行数据连接；

（6）子结点根据应用程序发送的信息存储并备份文件。

本发明在解决问题的同时，系统部分性能与现有文件系统相比，有了很大的改善：应用程序请求在被分派到不同元数据类别中进行查找的同时被分流，系统的负载量被扩充，适应于大数据多应用程序时代的需求；元数据查找过程，只需要在相应元数据类别中进行，其查找加速比，远远高于现有技术通过优化元数据存储结构，而得到的查找性能的提高。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向多数据类型访问应用的分布式文件系统，其特征在于，所述分布式文件系统的主结点中包含有多类元数据，其中：

2.如权利要求1所述的系统，其特征在于，所述数据类型包括静态数据、流式数据、动态生成数据、动态增长数据以及日志文件类数据，所述元数据控制结构体的成员变量至少包括元数据类别ID、数据块大小、存储方式、备份块数量以及预取策略。

3.如权利要求2所述的系统，其特征在于，所述数据类型及相应的元数据控制结构体，具体为：

4.如权利要求1所述的系统，其特征在于，所述数据类型根据下述两种方案之一判断：

为文件添加扩展名，根据文件扩展名识别数据类型；或者，

为文件名添加前缀，根据文件名前缀识别数据类型。

5.如权利要求1至4任一项所述的系统，其特征在于，当所述应用程序访问请求为查找时：主结点接收到访问请求，确定数据类别，然后根据应用程序访问请求所需访问文件的文件名和文件偏移量在元数据哈希表中查找子结点编号和文件块编号；并读取所述数据类别对应的元数据结构体中数据块的大小信息；将上述子结点编号和文件块编号，以及数据块的大小信息返回给应用程序，以使应用程序到相应的数据存储结点读取数据。

6.如权利要求1至4任一项所述的系统，其特征在于，当所述应用程序访问请求为存储时：主结点接收到访问请求，确定数据类别，然后根据相应类别的元数据控制结构体中的存储信息，给应用程序需访问的文件分配存储结点，并且将元数据控制结构体中的块大小、存储方式、备份数量等信息返回，以便应用程序到相应的数据存储结点进行存储与备份。

7.如权利要求1至4任一项所述的系统，其特征在于，当所述应用程序访问请求为删除时：主结点接收到访问请求，确定数据类别，然后在相应元数据控制结构体中，删除文件到存储块的映射表和文件块号到子结点的映射表两个哈希表中与应用程序需删除的文件相关的表项。