CN103647797A

CN103647797A - 一种分布式文件系统及其数据访问方法

Info

Publication number: CN103647797A
Application number: CN201310574272.8A
Authority: CN
Inventors: 林昭文; 陈立南; 赵彬; 郑楠; 马严; 吴军; 黄小红; 赵钦
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2013-11-15
Filing date: 2013-11-15
Publication date: 2014-03-19

Abstract

本发明提出一种分布式文件系统及其数据访问方法。该系统包括核心控制节点和多个子集群，每个子集群包括子集群控制节点以及多个数据节点。核心控制节点，用于从客户端接收包含文件名的文件访问请求，解析文件名以判定文件所属的子集群，并将文件访问请求下发到该子集群中的子集群控制节点；子集群控制节点，用于调度其所属子集群中的数据节点的存储资源分配，建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系，并基于由核心控制节点下发的文件访问请求和对应关系确定与文件访问请求相关的数据节点，并通过核心控制节点的转发将所确定的数据节点标识告知客户端。

Description

一种分布式文件系统及其数据访问方法

技术领域

本发明属于分布式存储技术领域，特别是一种分布式文件系统及其数据访问方法。

背景技术

分布式文件系统（Distributed File System）是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。现有的分布式文件系统主要采用客户机/服务器模式，文件系统的管理者及所存储的数据分散在不同的节点上，通过网络互连。分布式文件系统可以为多个客户端提供服务，允许跨多个存储服务器共同使用一个全局命名空间，并实现了I/O和数据的智能分散以提高系统性能。目前应用较为广泛的分布式文件系统主要有GFS和Hadoop分布式文件系统（HDFS）。

GFS是由Google开发的可扩展的分布式文件系统，用于大型、分布式、对大量数据进行访问的应用，它运行于廉价的普通硬件之上，可以提供容错功能，可为大量的用户提供总体性能较高的服务。HDFS在系统架构上与GFS与类似，解决问题所采用的解决思路也基本一致。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。它能提供高吞吐量的数据访问，非常适合TB级以上的大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。

HDFS的设计概念首先就是面向大文件，最初是作为搜索引擎的底层文件系统来为搜索引擎服务的。因为目前的搜索引擎蜘蛛所抓取的网页数目已经达到亿级，所以HDFS的存储数据量达到了上百TB级，甚至是PB级的规模。由于HDFS是部署在廉价的计算机上的系统，因此硬件不够稳定；另外，由于存储的文件数据量和集群规模的不断加大，因此要求HDFS能够及时处理硬件的失效。为了保证系统的可靠性，HDFS为数据块创建多个副本，并放置在群的不同数据块服务器中，MapReduce就在数据副本存放的地方进行处理。

HDFS支持一次写入多次读取的I/O模式。在任何情况下，只允许有一个写入的客户端，数据写入之后不允许修改。但允许多个客户端并发地读取一个文件。这是由于HDFS面向的应用场景所决定的，在搜索引擎中客户端会经常读取文件但不会去修改这个文件。HDFS将大文件切割成多个大小为64M的块，块以普通文件的形式存储在各个节点上。默认情况下，每个块都会有3个副本。通过此种方式，来达到数据安全及高可靠性的目的。一台机器出现故障，系统能够通过检测，自动选择一个新的节点复制一份。

在HDFS中，有一个元数据服务器（NameNode）和多个数据块服务器（DataNode），可以为一个或多个客户端提供服务。简单来说，客户端对文件进行读写操作，只需与NameNode交互，获得到文件的元数据信息，然后再与DataNode通信，进行实际数据的读取或写入。HDFS提供了一个类似于树结构的文件系统，结构树存在于NameNode的内存中，有利于提高文件的操作效率。

在分布式文件系统中，虽然一个文件的元数据的大小相对于NameNode的磁盘容量来说，是非常小的，但整个分布式文件系统处理量的50%到80%都是对元数据的处理，整个分布式文件系统性能核心也在于元数据的服务性能，因此，元数据管理必须具有极高的稳定性和扩展性，为分布式文件系统提供高速可扩展的元数据组织和查询服务。

通过对HDFS的架构分析可以得知，在HDFS中为整个系统提供元数据服务的只有一个NameNode服务器，整个HDFS的性能、可靠性以及扩展性就取决于NameNode服务器。在HDFS的大多数应用场景中，轻量级的NameNode节点还足以满足文件系统的需要。但在大规模的应用中，随着数据量的不断增长，存储规模的扩大，系统不断增加数据块节点DataNode，元数据的量也就相应地增加，特别是在图片、视频、文档、语音等各种应用场景中，NameNode需管理着大量的小文件的元数据，NameNode节点将变得不堪重负，成为整个系统的瓶颈所在，主要表现为:

（1）单点性能瓶颈问题。HDFS虽然对NameNode的性能做了许多优化，尽可能使NameNode轻量级，只保存了文件系统少量的元数据信息，对于数据节点和数据块的映射都没有永久的保存在磁盘上。但不断增加的MapReduce任务和其它应用，也会加重NameNode节点的负担，成为制约HDFS整体性能的瓶颈所在。客户端的所有操作都要经过NameNode节点，假如同时有多个客户端向HDFS发出请求，则NameNode节点可能就不能在用户感知满意的时间内及时地反馈给客户端对应的元数据信息。在大规模应用中，可能会同时有成千上万个请求，处理所有这些请求必然花费很长的时间，势必造成NameNode非常重的负担。同时，单个NameNode的集群在任务请求数量很大时，无法及时响应负载均衡的请求，由于要进行任务分配等相关工作，也会影响分布式文件系统的性能。

（2）扩展性能问题。单一的NameNode结构势必造成HDFS系统扩展的瓶颈。因为元数据在HDFS启动时需要加载到内存中，以此来提供系统的访问效率，这样它的存储量取决于NameNode的内存，在NameNode内存不是足够大的情况下，内存的大小直接影响着HDFS存储的文件数量的大小以及所存储的数据规模的扩张。

发明内容

本发明实施方式提出一种分布式文件系统，以增强分布式文件系统的稳定性。

本发明实施方式提出一种分布式文件系统的访问方法，以增强分布式文件系统的稳定性。

本发明实施方式的技术方案如下：

一种分布式文件系统，该系统包括核心控制节点和多个子集群，每个子集群包括子集群控制节点以及多个数据节点，其中：

核心控制节点，用于从客户端接收包含文件名的文件访问请求，解析所述文件名以判定文件所属的子集群，并将所述文件访问请求下发到该子集群中的子集群控制节点；

子集群控制节点，用于调度其所属子集群中的数据节点的存储资源分配，建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系，并基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点，并通过核心控制节点的转发将所确定的数据节点标识告知客户端；

数据节点，用于存储文件，并根据客户端或者所属子集群的子集群控制节点的调度访问文件。

数据节点，还用于接收根据客户端所缓存的数据节点标识所确定的直接文件访问请求，并基于所述直接文件访问请求该向客户端提供直接文件访问。

所述文件访问请求包括：文件读取请求、文件删除请求或文件写入请求。

核心控制节点，用于根据美国信息交换标准码（ASCII）码表逐个将文件名中的单个字符转换成对应的数字，求和所有对应的数字，并将求和结果除以子集群总数，得到的取余结果为所述文件所属子集群的标识。

一种分布式文件系统的数据访问方法，该系统包括核心控制节点和多个子集群，每个子集群包括子集群控制节点以及多个数据节点；子集群控制节点调度其所属子集群中的数据节点的存储资源分配，并建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系；数据节点存储文件；

该方法包括：

核心控制节点从客户端接收包含文件名的文件访问请求，解析所述文件名以判定文件所属的子集群，并将所述文件访问请求下发到该子集群中的子集群控制节点；

子集群控制节点基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点，并通过核心控制节点的转发将所确定的数据节点标识告知客户端；

数据节点根据客户端或者所属子集群的子集群控制节点的调度访问文件。

所述解析所述文件名以判定文件所属的子集群包括：

根据美国信息交换标准码ASCII码表逐个将文件名中的单个字符转换成对应的数字，求和所有对应的数字，并将求和结果除以子集群总数，得到的取余结果为文件所属子集群的标识。

该方法进一步包括：

在客户端缓存所确定的数据节点标识与在所述文件访问请求中包含的文件名的对应关系；

当客户端后续再有针对该文件名所对应文件的文件访问请求时，直接连接对应于该数据节点标识的数据节点以访问所述文件。

该方法进一步包括：

在直接访问对应于该数据节点标识的数据节点以访问所述文件之后，根据验证码判断该文件数据是否有效，如果有效则确认访问有效，如果无效，则向该数据节点的子集群控制节点发出文件数据请求，由该子集群控制节点控制到备份数据节点中访问备份文件数据，并由所述备份数据节点提供的备份文件数据同步到所述数据节点。

本发明提出的系统包括核心控制节点和多个子集群，每个子集群包括子集群控制节点以及多个数据节点，其中：核心控制节点，用于从客户端接收包含文件名的文件访问请求，解析所述文件名以判定文件所属的子集群，并将所述文件访问请求下发到该子集群中的子集群控制节点；子集群控制节点，用于调度其所属子集群中的数据节点的存储资源分配，建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系，并基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点，并通过核心控制节点的转发将所确定的数据节点标识告知客户端；数据节点，用于存储文件，并根据客户端或者所属子集群的子集群控制节点的调度访问文件。由此可见，本发明针对HDFS中存在的上述问题进行优化，增强分布式文件系统的稳定性，并且使得系统性能得到了较大的提高，另外使得整个系统具有了更加良好的可扩展性，更加有利于分布式文件系统的部署和应用。

本发明的技术方案中，以HDFS作为基础进行改进，将原来单一的Master节点（NameNode节点）功能进行拆分，部分功能被上移至新的系统控制节点，部分功能被下发到从属的数据节点。对于那些要求低延时访问的应用程序，原来的HDFS是不适合的，因为HDFS的设计主要是为了用于大吞吐量数据，这是以一定的时延为代价的。HDFS单一Master的设计，所有的对文件的请求都要经过它，当请求多时，必然会产生较大的延时。在对HDFS进行本发明中的改进后，通过减轻各个功能节点的压力，加快访问文件的速度，从而有效地降低时延。

另外，由于控制节点的性能有限，使得整个分布式文件系统的规模受到限制，经过本发明中的改进后，各层次的控制节点（核心控制节点和子集群控制节点）压力变小，使得整个系统可以以子集群的方式进行扩展。而且扩展方式也十分简便，对于原系统部分影响并不大，只需要将新的子系统信息配置在核心控制节点中即可。

附图说明

图1为本发明分布式文件系统的结构图。

图2为根据本发明分布式文件系统的数据读取流程图。

图3为根据本发明分布式文件系统的数据写入流程图。

图4为根据本发明分布式文件系统的数据删除流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

本发明针对HDFS中存在的上述问题进行优化，增强分布式文件系统的稳定性，并且使得系统性能得到了较大的提高，另外使得整个系统具有了更加良好的可扩展性，更加有利于分布式文件系统的部署和应用。

图1为本发明分布式文件系统的结构图。

如图1所示，该系统包括核心控制节点和多个子集群，每个子集群包括子集群控制节点以及多个数据节点，其中：

子集群控制节点，用于调度其所属子集群中的数据节点的存储资源分配，建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系，并基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点，并通过核心控制节点的转发将所确定的数据节点标识告知客户端。

在一个实施方式中：

所述文件访问请求包括：文件读取请求、文件删除请求或文件写入请求，等等。

在一个实施方式中：

具体地，核心控制节点可以由一台具有海量数据处理能力的计算机或服务器组成，用于整个分布式文件系统的任务调度工作，负责判断请求文件所在的子集群，根据判断结果与其相连子集群控制节点进行信息交换，完成从客户端信息向具体子集群中控制节点的信息转发。

每个子集群中的子集群控制节点，可以由一台具有海量数据处理能力的计算机或服务器组成，负责调度其管理的所有数据节点的资源分配，并建立索引记录所存储文件名称与所在数据节点的对应关系。

每个子集群中的数据节点，可以由具有数据处理能力的计算机或者服务器组成，用于存储系统中具体的数据文件，它们根据客户端或者是所在集群的控制节点的调度存储和检索数据，并且定期向子集群控制节点发送它们所存储的块（block）的列表。

进一步，可以在客户端缓存所确定的数据节点标识与在所述文件访问请求中包含的文件名的对应关系；当客户端后续再有针对该文件名所对应文件的文件访问请求时，直接连接对应于该数据节点标识的数据节点以访问所述文件。

进一步地，在直接访问对应于该数据节点标识的数据节点以访问所述文件之后，根据验证码判断该文件数据是否有效，如果有效则确认访问有效，如果无效，则向该数据节点的子集群控制节点发出文件数据请求，由该子集群控制节点控制到备份数据节点中访问备份文件数据，并由所述备份数据节点提供的备份文件数据同步到所述数据节点。

可见，本发明主要采用了一种小集群的轻量级系统的解决方案。

本发明的出发点就是控制数据节点的不断增加，采用子集群的方式就不会造成控制节点的内存紧张及I/O的单点瓶颈问题。即将现有的HDFS结构视为本发明的一个子集群，在每一个子集群中存在唯一的子集群控制节点和与之相关联的所有数据节点。这样在整个系统中会存在许多子集群，而对于不同的子集群之间的协调控制，本发明引入一个更高层次的核心控制节点。

当客户端对分布式文件系统进行访问时，由核心控制节点负责任务的调度，通过对所访问文件名的分析处理，判断文件所在的子集群，然后将任务下发到该子集群中的控制节点上。当该子集群中数据节点完成该任务后，将通过子集群控制节点返回结果给核心控制节点，然后由核心控制节点对客户端进行反馈。

核心控制节点可以通过多种分析处理方式确定文件所在的子集群。比如，当客户端需要在分布式文件存储系统中写入一个新文件时，则向核心控制节点请求分配写入的子集群，核心控制节点先将文件名的字符串转换成数字，然后根据除留余数法选取特定的子集群，再向该特定的子集群的子集群控制节点请求创建新的数据块。

举例，假如期望写入的文件的完整名称是/home/admin/demo.c，则根据ASCII码表逐个将单个字符转换成对应的数字，即：47(/)+104(h)+111(o)+109(m)+101(e)+47(/)+97(a)+100(d)+109(m)+105(i)+110(n)+47(/)+100(d)+101(e)+109(m)+111(o)+46(.)+99(c)=1653

如果集群中总共有20个子集群，则取余的结果是1653/20=13，即文件存放的位置是13号子集群。

在确定文件存放的子集群之后，可以基于各种现有方式在子集群中确定具体存放数据的数据节点，对此本发明并不赘述。

当基于上述方式存入数据之后，可以基于上述类似方式取出数据。

通过上述分析可见，现有的分布式文件系统主要由Google的GFS和Hadoop的HDFS，二者在系统架构方面采用了类似的技术，而设计思路也基本相同。两者Master端都采用了单节点的方式，这样使得系统性能很大程度上由Master节点决定，在大多数的场景中单一控制节点的设计还是能够满足系统的需求的，但在大规模的应用中，随着数据量的不断增长，存储规模的扩大，系统不断增加数据块节点，元数据的量也就相应地增加，特别是在图片、视频、文档、语音等各种应用场景中，Master节点需管理着大量的小文件的元数据，使得它将变得不堪重负，成为整个系统的瓶颈所在。

本发明的设计中，以HDFS作为基础进行改进，将原来单一的Master节点（NameNode节点）功能进行拆分，部分功能被上移至新的系统控制节点，部分功能被下发到从属的数据节点。

对于那些要求低延时访问的应用程序，原来的HDFS是不适合的，因为HDFS的设计主要是为了用于大吞吐量数据，这是以一定的时延为代价的。HDFS具有单一Master的设计，所有对文件的请求都要经过该单一Master。当请求多时，必然会产生较大的延时。在对HDFS进行本发明中的改进后，通过减轻各个功能节点的压力，加快访问文件的速度，从而有效地降低时延。

基于上述详细分析，本发明还提出了一种分布式文件系统的数据访问方法。该系统包括核心控制节点和多个子集群，每个子集群包括子集群控制节点以及多个数据节点；子集群控制节点调度其所属子集群中的数据节点的存储资源分配，并建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系；数据节点存储文件；

该方法包括：

在一个实施方式中：

所述解析所述文件名以判定文件所属的子集群包括：

根据美国信息交换标准码（ASCII）码表逐个将文件名中的单个字符转换成对应的数字，求和所有对应的数字，并将求和结果除以子集群总数，得到的取余结果为文件所属子集群的标识。

在一个实施方式中，该方法进一步包括：

图2为根据本发明分布式文件系统的数据读取流程图。

当客户端读取文件时，首先向核心控制节点发出包含文件名的读文件请求，核心控制节点将文件名的字符串转换成相对应的数字，然后根据除留余数法定位到文件所在的子集群，并将子集群标识返回给客户端，客户端可以向该子集群标识所对应的子集群控制节点请求该文件。

然后，客户端建立与子集群控制节点服务器的连接，子集群控制节点服务器在磁盘中查找到对应的数据节点，并返回元数据信息给客户端。

接着，客户端向相应的数据节点服务器请求数据，文件被分为大小一致的分片，进程为客户端并发地返回文件的所有分片。与原HDFS操作一样，当读到一个块的结尾时，就会断开到数据节点的链接，然后继续选择下一个数据节点来获取下一个数据块。

或者，当客户端读取文件时，首先向核心控制节点发出包含文件名的读文件请求，核心控制节点将文件名的字符串转换成相对应的数字，然后根据除留余数法定位到文件所在的子集群，并由该子集群控制节点确定具体的数据节点，然后将数据节点标识返回给客户端。然后，客户端直接访问该数据节点标识所对应的数据节点，以访问具体文件。

假如客户端已经知道子集群标识(在链接或客户端缓存中)，则不必通过核心控制节点，可以直接到指定的集群中向控制节点服务器发出读文件请求，以减少一次I/O操作。

当客户端直接连接到数据节点中找到相应的块进行文件的读取时，首先会验证校验码，检测所读取的数据是否有效，如果有效则直接进行读取，如果无效，则需向子集群控制节点发出请求，到备份的数据节点服务器中读取数据，然后由备份数据节点将有效数据同步到主数据节点中。

图3为根据本发明分布式文件系统的数据写入流程图。

如图3所示，当客户端需要在分布式文件存储系统中写入一个文件时，则向核心控制节点请求分配写入的小集群，核心控制节点先将文件名的字符串转换成数字，然后根据除留余数法选取特定的子集群，并向子集群控制节点请求创建新的数据块；

然后，子集群控制节点完成一系列验证工作，确认允许客户端写文件后，向数据节点发出数据块创建指令，返回给客户端数据节点的块地址。

接着，客户端与数据节点建立连接，请求写入文件到子集群控制节点所分配的数据块中，数据节点分配块中实际可写入的物理地址，设置偏移ID，将文件分成大小一致的分片，并发上传到数据节点的上传缓冲中。

当完成上传后，客户端即可认为写入完成，即可断开与数据节点的连接，后续的操作将对客户端透明。

当数据节点接收到客户端的文件缓存后，在相对空闲的时候，将文件按顺序异步写入热备份数据节点的数据块中，数据节点与其热备份数据节点连接，以同样的方式写入备份数据节点中。主备数据节点写入均完成后，主数据节点通知子集群控制节点写入成功并更新元数据，数据节点删除该文件占据的上传缓存空间。

数据节点与索引服务器联系，将文件索引写入索引系统中。假如主数据节点或者备份数据节点中有一个从上传缓存空间中写入到磁盘中失败，主数据节点将会向子集群控制节点请求分配另一个数据块进行写入。

图4为根据本发明分布式文件系统的数据删除流程图。

如图4所示，当客户端请求删除分布式文件存储系统的一个文件时，会向核心控制节点发出请求，核心控制节点将文件名转换成数字并使用除留余数法确定文件所在的子集群，建立于集群控制节点的连接。之后的操作与原HDFS删除文件的步骤相同，这里就不再赘述。

综上所述，本发明提出的系统包括核心控制节点和多个子集群，每个子集群包括子集群控制节点以及多个数据节点，其中：核心控制节点，用于从客户端接收包含文件名的文件访问请求，解析所述文件名以判定文件所属的子集群，并将所述文件访问请求下发到该子集群中的子集群控制节点；子集群控制节点，用于调度其所属子集群中的数据节点的存储资源分配，建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系，并基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点，并通过核心控制节点的转发将所确定的数据节点标识告知客户端；数据节点，用于存储文件，并根据客户端或者所属子集群的子集群控制节点的调度访问文件。由此可见，本发明针对HDFS中存在的上述问题进行优化，增强分布式文件系统的稳定性，并且使得系统性能得到了较大的提高，另外使得整个系统具有了更加良好的可扩展性，更加有利于分布式文件系统的部署和应用。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式文件系统，其特征在于，该系统包括核心控制节点和多个子集群，每个子集群包括子集群控制节点以及多个数据节点，其中：

2.根据权利要求1所述的分布式文件系统，其特征在于，

3.根据权利要求1所述的分布式文件系统，其特征在于，所述文件访问请求包括：文件读取请求、文件删除请求或文件写入请求。

4.根据权利要求1所述的分布式文件系统，其特征在于，

核心控制节点，用于根据美国信息交换标准码ASCII码表逐个将文件名中的单个字符转换成对应的数字，求和所有对应的数字，并将求和结果除以子集群总数，得到的取余结果为所述文件所属子集群的标识。

5.一种分布式文件系统的数据访问方法，其特征在于，该系统包括核心控制节点和多个子集群，每个子集群包括子集群控制节点以及多个数据节点；子集群控制节点调度其所属子集群中的数据节点的存储资源分配，并建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系；数据节点存储文件；

该方法包括：

6.根据权利要求5所述的分布式文件系统的数据访问方法，其特征在于，所述解析所述文件名以判定文件所属的子集群包括：

7.根据权利要求5所述的分布式文件系统的数据访问方法，其特征在于，该方法进一步包括：

8.根据权利要求7所述的分布式文件系统的数据访问方法，其特征在于，该方法进一步包括：

9.根据权利要求5所述的分布式文件系统的数据访问方法，其特征在于，所述文件访问请求包括：文件读取请求、文件删除请求或文件写入请求。