CN104951475B

CN104951475B - 分布式文件系统和实现方法

Info

Publication number: CN104951475B
Application number: CN201410125659.XA
Authority: CN
Inventors: 黄海; 庞涛; 武娟; 钱锋
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2018-10-23
Anticipated expiration: 2034-03-31
Also published as: CN104951475A

Abstract

本发明公开了一种分布式文件系统及其实现方法，属于分布式计算技术领域。该方法中，通过名字节点和数据节点之间加入自组织特性，数据节点通过地址匹配自主选择名字节点，把匹配度高的作为自己的主名字节点和备用名字节点；名字节点可以根据自身负载情况接收或者拒绝数据节点的加入;主备节点之间可以互为备份，实时切换。通过本发明的自组织的分布式文件系统及其实现方法，提高了分布式文件系统的鲁棒性和伸缩性，解决系统瓶颈、单点故障以及规模扩展性的问题。

Description

分布式文件系统和实现方法

技术领域

本发明涉及分布式计算技术领域，特别涉及一种分布式文件系统和实现方法。

背景技术

随着云计算的兴起，分布式计算技术越来越受到重视；特别是海量数据的处理变成一种常态之后，对分布式文件系统和分布式计算模型的研究非常活跃。在海量数据处理的问题上，如何存储海量数据是最基本的问题；Google（谷歌）在2003年发表了《The GoogleFile System》论文，描述了Google文件系统（Google File System，GFS）如何成功的解决了海量数据的存储问题。基于《The Google File System》的思想，开源社区构建了一个Hadoop DFS（即HDFS）。利用HDFS，可以像Google文件系统一样存储海量数据，在这个数据爆炸性增长的时代，HDFS为各个企业特别是互联网企业提供了一个高可靠、高可用的分布式文件系统。

虽然HDFS具有优秀的伸缩性，但是在某些应用领域HDFS单名字节点的设计使其伸缩性受到一定的制约。每个文件在名字节点中都有一个一百字节左右的名字信息数据与之关联。名字节点通过管理这些名字信息数据来实现文件的管理。在存储文本、图片和音频等几十兆字节以下的小文件时，由于存储的文件数量巨大，这样名字节点需要大量的内存来处理文件的名字信息数据。例如存储1G（10亿）个文件，名字节点需要100B*1G=100GB的内存；目前很多互联网企业存储的文件数量都超过了10亿这个数量级，若要提供100亿个文件的存储量，名字节点至少需要1000GB的内存，目前几乎没有服务器能达到这个级别。可见在这些应用场景下，名字节点的内存配置直接影响了分布式文件系统的伸缩性。

目前提高分布式文件系统名字节点伸缩性的主要思路是用水平伸缩的方法把名字信息数据分配到多台服务器进行管理。具体方法有：

（1）把名字节点的名字信息数据交给一个分布式缓存系统进行存储，分布式缓存系统可以满足名字节点在各种应用下的内存需求。这种方案的缺点是名字节点依然是系统的单点，而且其负载能力制约了应该规模的增长。

（2）把名字信息数据从名字节点中剥离出来，交由名字信息服务器进行存储和管理，名字节点服务器只需做名字空间和权限的管理即可。与前一种方案相比，这种方案不单只提高了名字节点的伸缩性，还提高了系统的负载能力；但是，与前一方案一样，名字节点依然是系统的单点，系统的可用性受到影响。

发明内容

本发明的发明人发现上述现有技术中存在问题，并因此针对所述问题中的至少一个问题提出了一种新的技术方案。

本发明的一个目的是提供一种用于分布式文件系统的技术方案。

根据本发明的第一方面，提供了一种分布式文件系统，包括多个名字节点和数据节点；

名字节点，用于存储其他名字节点信息，负责数据节点的接入和数据节点的元数据的存储、访问；接收来自数据节点的加入请求，向数据节点返回接受或拒绝结果，存储加入的数据节点的元数据；

数字节点，用于基于自组织能力从多个名字节点中选择候选名字节点，向候选名字节点发送加入请求；接收来自候选名字节点的接受或者拒绝结果，从接受的候选名字节点中确定主名字节点和备用名字节点，主名字节点和备用名字节点具备相互切换的能力。

可选地，每个名字节点存储其他临近名字节点的信息。

可选地，系统还包括至少1个全局名字节点，全局名字节点存储所有名字节点的信息；每个名字节点至少存储1个全局名字节点信息。

可选地，名字节点用于接收文件读取请求，根据文件属性在本地存储的数据节点的元数据中进行检索，如果未能检索到文件，则向本地存储的名字节点泛洪文件读取请求。

可选地，数据节点通过地址匹配自主选择候选名字节点，向候选名字节点发送加入请求；候选名字节点接收来自数字节点的加入请求，基于自身负载情况向数字节点返回接受或拒绝结果。

可选地，加入请求中还包括拒绝次数；候选名字节点确定拒绝次数大于阈值，则接受数字节点的加入请求。

可选地，数据节点还用于将备用名字节点的地址信息发给主名字节点；

主名字节点和备用名字节点进行通信，并都把双方的地址信息和信任关系保存在本地，形成一个名字节点的拓扑表。

根据本发明的另一方面，提供一种分布式文件系统实现方法，系统包括多个名字节点和数据节点，其中，名字节点负责数据节点的接入和数据节点的元数据的存储、访问，并存储其他名字节点信息；

方法包括：

数字节点基于自组织能力从多个名字节点中选择候选名字节点，向候选名字节点发送加入请求；

候选名字节点接收来自数据节点的加入请求，向数据节点返回接受或拒绝结果，存储接受加入的数据节点的元数据；

数据节点接收来自候选名字节点的接受或者拒绝结果，从接受的候选名字节点中确定主名字节点和备用名字节点，主名字节点和备用名字节点具备相互切换的能力。

可选地，每个名字节点存储其他临近名字节点的信息。

可选地，每个名字节点至少存储1个全局名字节点信息，其中，全局名字节点存储所有名字节点的信息；。

可选地，该方法还包括：名字节点接收文件读取请求，根据文件属性在本地存储的数据节点的元数据中进行检索，如果检索到文件，则返回检索到的文件；如果未能检索到文件，则向本地存储的名字节点泛洪文件读取请求。

可选地，数字节点基于自组织能力从多个名字节点中选择候选名字节点包括：数据节点通过地址匹配选择匹配度高的名字节点为候选名字节点；候选名字节点接收来自数据节点的加入请求、向数据节点返回接受或拒绝结果包括：候选名字节点接收来自数字节点的加入请求，基于自身负载情况向数字节点返回接受或拒绝结果。

可选地，加入请求中还包括拒绝次数；方法还包括：候选名字节点确定拒绝次数大于阈值，则接受数字节点的加入请求。

可选地，该方法还包括：数据节点将备用名字节点的地址信息发给主名字节点；主名字节点和备用名字节点进行通信，并都把双方的地址信息和信任关系保存在本地，形成一个名字节点的拓扑表。

本发明的一个优点在于，分布式文件系统中包括多个名字节点，名字节点和数字节点间实现自组织机制实现组织和管理，提高了分布式文件系统的鲁棒性和伸缩性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1示出根据本发明的分布式文件系统的一个实施例的结构图；

图2示出根据本发明的分布式文件系统实现方法的一个实施例的流程图；

图3示出一个实施例中主名字节点故障后切换的示意图；

图4示出一个实施例中备用名字节点故障后切换的示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1示出根据本发明的分布式文件系统的一个实施例的结构图。如图1所示，该分布式文件系统中包括多个名字节点1～N和多个数据节点1～m。名字节点优选3个以上。名字节点负责数据节点的接入和数据节点的元数据的存储、访问和管理。名字节点和数字节点具有自组织和相互选择的能力，每个数据节点至少具有主备两个名字节点，如数字节点1、2、3至少具有主名字节点和备用名字1和2，数字节点5、t、m至少具有主名字节点和备用名字节点N1、N，主备节点具备相互切换的能力。名字节点存储其他名字节点信息，负责数据节点的接入和数据节点的元数据的存储、访问；数字节点基于自组织能力从多个名字节点中选择候选名字节点，向候选名字节点发送加入请求；候选名字节点接收来自数据节点的加入请求，向数据节点返回接受或拒绝结果，存储加入的数据节点的元数据；数字节点接收来自候选名字节点的接受或者拒绝结果，从接受的候选名字节点中确定主名字节点和备用名字节点，主名字节点和备用名字节点具备相互切换的能力。

名字节点存储其他节点的信息。在一个实施例，每个名字节点都存储临近名字节点的信息，甚至可存储全部名字节点的信息；在另一个实施例中，每个名字节点都存储至少1个全局名字节点的信息，该全局名字节点存储分布式文件系统中所有名字节点的信息。

根据实际应用规模的大小可灵活接入增加多台名字节点和数据节点。系统中名字节点和数据节点可以相互通信，相互选择作为对方的数据节点或名字节点，并保证在负载相对均衡的情况下，每个数据节点至少有主备两个名字节点。

下面说明本公开中分布式系统的自组织特性、节点的相互选择过程。

数据节点通过地址匹配自主选择匹配度高的名字节点作为自己的名字节点；地址例如采用MAC地址、IP地址等，地址匹配例如通过二进制地址异或的方式进行比较，或者其他方式进行比较。

名字节点可以根据自身负载情况接收或者拒绝数据节点的加入。数据节点在发送请求时还可以携带被拒绝的次数，每被拒绝一次+1，名字节点将根据地址匹配情况、被拒绝的次数进行排序，数据节点被名字节点拒绝的次数越多，下一次被接纳的机会就越大；当数据节点拒绝次数超过阈值后，被请求的名字节点必须接纳该数据节点，下一个被请求的节点N成为备份节点。

现有的分布式文件系统，其存储的文件数量将直接受限于单个名字节点服务器的能力，分布式文件系统的规模越大，对名字节点性能和稳定性要求就越高。上述实施例中的分布式文件系统，用于提高分布式文件系统的鲁棒性和伸缩性。通过名字节点和数据节点之间加入自组织特性，数据节点通过地址匹配自主选择名字节点，把匹配度高的作为自己的名字节点；名字节点可以根据自身负载情况接收或者拒绝数据节点的加入；数据节点在发送请求时附带被拒绝的次数，每被拒绝一次+1，名字节点将根据地址匹配情况、被拒绝的次数进行排序；拒绝次数当数据节点拒绝次数超过阈值后，被请求的名字节点必须接纳该数据节点，下一个被请求的节点N成为备份节点，主备节点之间可以互为备份，实时切换，从而解决系统瓶颈、单点故障以及规模扩展性的问题。

图2示出根据本发明的分布式文件系统实现方法的一个实施例的流程图。

如图2所示，步骤201，数字节点基于自组织能力从多个名字节点中选择候选名字节点，向候选名字节点发送加入请求。数据节点通过地址匹配自主选择名字节点，把地址匹配度高的名字节点作为自己候选名字节点。

步骤202，候选名字节点接收来自数据节点的加入请求，向数据节点返回接受或拒绝结果，存储接受加入的数据节点的元数据。名字节点可以根据自身负载情况接受或者拒绝数据节点的加入。

步骤203，数据节点接收来自所述候选名字节点的接受或者拒绝结果，从接受的候选名字节点中确定主名字节点和备用名字节点，主名字节点和所述备用名字节点具备相互切换的能力。

在一个实施例中，数据节点在发送请求时附带被拒绝的次数，每被拒绝一次+1，名字节点将根据地址匹配情况、被拒绝的次数进行排序；当数据节点拒绝次数超过阈值后，被请求的名字节点接纳该数据节点，下一个被数据节点请求的名字节点N成为数据节点的备用名字节点。

在一个实施例中，数据节点把备用名字节点的地址信息通知主名字节点，为了保证安全，主名字节点主动与备用节点进行通信，进行二次确认，并都把双方的地址信息和信任关系保存在本地，形成一个名字节点的拓扑表。

数据节点定时与主备名字节点进行通讯，如果在一定时间内与主名字节点失去联系，则启动主备名字节点切换，把第一备份名字节点作为主名字节点，同时寻找一个新的名字节点作为备份名字节点，并加入备份节点队列最后一位。

图3示出一个实施例中主名字节点故障后切换的示意图。如图3 所示，当主名字节点失效时，将备用节点切换为主名字节点（步骤301），数据节点寻找另一个名字节点作为备用名字节点（步骤302），将新找到的名字节点变成新的备用名字节点（步骤303）；数字节点触发信息复制步骤（步骤304）；新的主名字节点把名字节点的相关信息复制到新的备用节点（步骤305）。当失效的主名字节点恢复时，可选择重新恢复该节点的身份或者保持现状。

图4示出一个实施例中备用名字节点故障后切换的示意图。如图 4所示，当备用名字节点失效时，数据节点寻找另一个名字节点作为备用名字节点，新找到的名字节点成为新的备用节点（步骤401～402）；数字节点触发信息复制步骤（步骤403）；主名字节点把名字节点的相关信息复制到新的备用节点（步骤4 04）。当失效名字节点恢复时，可选择重新恢复该名字节点的身份或者保持现状。

上述实施例中，通过名字节点和数据节点之间加入自组织和自恢复特性，每个数据节点至少具有主备两个名字节点，主备节点具备相互切换的能力，从而解决分布式文件系统存在的系统瓶颈、主备备份/ 恢复以及鲁棒性、伸缩性的问题。

上述实施例中，主备节点之间可以互为备份，实时切换，从而解

决系统瓶颈、单点故障以及规模扩展性的问题。

下面详细介绍本文中的分布式文件系统中文件操作实现的示例。

（1）文件写入：

当一个文件需要写入该分布式文件系统时，从某一个名字节点接

入该文件系统；名字节点根据下属数据节点的负载情况，视保存的拷

贝数量（文件需要携带拷贝数量的属性），把文件存储到对应拷贝数

量的负载较轻的下属数据节点中（一个节点存储一份拷贝），并把文

件与数据节点的存储关系、如存储的数据节点地址、文件属性（文件

所有者、权限、文件名、文件大小、日期（创建日期、修改日期等）、

根据文件属性或文件属性组合为key通过哈希算法产生的哈希值、以

及文件内容存储的路径、文件拷贝的数量等作为元数据信息保存起来，并把该文件的元数据信息复制到备份节点中。

（2）文件读取

当需要从该分布式文件系统中读取某一文件时，知道文件系统中某一名字节点A的地址，并向该名字节点A发出请求；该名字节点根据文件属性及哈希值在本地的元数据及缓存中进行快速检索，如果本地没有该文件，则以泛洪（多播）的方式通知自己临近的名字节点 B；

如果下一个名字节点C在本地检索出文件的元数据，则通知上一个名字节点A，同时把文件的元数据缓存到在本地，以备下一次快速检索，否则将继续通知自己的临近节点；当名字节点A知道文件的元数据信息存储在名字节点C上，则把文件的读写请求重定向到名字节点C，通过名字节点C提供下属数据节点，并授权从负载较轻的并存储有文件内容的数据节点中读取文件信息；

(3)文件修改

当要修改文件名、路径等属性或者修改文件内容，数据节点的所属的主名字节点将对修改后的元数据信息进行存储，并复制到备份名字节点上；

文件修改时文件定位的原理与文件读写类似，每次修改都需要对每份文件拷贝的拷贝进行修改，首先修改第一个数据节点的文件内容，然后依次对其他文件内容的拷贝进行修改，并更新名字节点上的元数据信息。

当文件目录的列表、文件读写时，主名字节点发生故障，则元数据管理任务切换到备用名字节点上；如文件所在的数据节点发生故障，则文件的读取、修改任务通过工作中的主名字节点或备份名字节点重定向到另一个可用的对应数据节点上；为了避免出现同步问题，名字节点把故障的数据节点设置为不可用，当该节点恢复时，主名字节点启动数据同步，把其他数据节点上对应的数据更新到该数据节点上。

本公开的实施例旨在解决提高分布式文件系统不能自组织，难以自恢复，系统存在的鲁棒性、伸缩性的问题中的一个或者多个。

本公开提供一种自组织的分布式文件系统，和现有技术相比，具有如下的一个或者多个有点：

（1）系统的鲁棒性得到提升。通过把自组织特性引入分布式文件系统中，每个数据节点至少接入一主一备两个名字节点，也可以根据要求增加第二、第三备用甚至更多节点，主备节点互为了解对方的地址，从而形成一个名字服务器池，处理并发访问的名字节点由原来的单个变成多个，而且可以根据性能负载与数据节点进行双向的选择。

（2）除非出现非常特殊的情况，主名字节点和备用名字节点全部无法工作，本公开的分布式文件系统才会出现读写、修改和管理维护错误；在本公开中，一个主名字节点是可以有超过一个的备份节点的，如果主名字节点出现故障，数据节点会触发备份名字节点切换为主名字节点，同时数据节点将寻找一个新的名字节点，所以上述故障情况发生的概率非常低。

（3）解决系统的负载均衡的问题。在本公开中，每个数据节点都可以选择主备两个名字节点，而名字节点可以根据负载情况同意或者拒绝数据节点的加入；每个节点对所有数据节点来说可以是主节点，也可以是备用节点，成为主备节点的机会均等保证了系统负荷均匀分布。

（4）提高了系统的伸缩性。在本公开中，主备节点可以实现快速的动态切换、更新和恢复，而且节点从故障中恢复后可以选择保持现状或者数据转移切换，解决了节点间的互为备份和切换的问题，提高了系统的伸缩性。

至此，已经详细描述了根据本发明的分布式文件系统及其方法。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种分布式文件系统，其特征在于，包括多个名字节点和数据节点；

名字节点，用于存储其他名字节点信息，负责数据节点的接入和数据节点的元数据的存储、访问；接收来自数据节点的加入请求，向数据节点返回接受或拒绝结果，存储加入的数据节点的元数据；其中，主名字节点和备用名字节点进行通信，并都把双方的地址信息和信任关系保存在本地，形成一个名字节点的拓扑表；

数据节点，用于基于自组织能力从多个名字节点中选择候选名字节点，向所述候选名字节点发送加入请求；接收来自所述候选名字节点的接受或者拒绝结果，从所述接受的候选名字节点中确定主名字节点和备用名字节点，所述主名字节点和所述备用名字节点具备相互切换的能力；将所述备用名字节点的地址信息发给所述主名字节点。

2.根据权利要求1所述的系统，其特征在于，每个名字节点存储其他临近名字节点的信息；

或者，所述系统还包括至少1个全局名字节点，所述全局名字节点存储所有名字节点的信息；每个名字节点至少存储1个全局名字节点信息。

3.根据权利要求2所述的系统，其特征在于，名字节点用于接收文件读取请求，根据文件属性在本地存储的数据节点的元数据中进行检索，如果未能检索到文件，则向本地存储的名字节点泛洪所述文件读取请求。

4.根据权利要求1所述的系统，其特征在于，数据节点通过地址匹配自主选择所述候选名字节点，向所述候选名字节点发送加入请求；

所述候选名字节点接收来自数据节点的加入请求，基于自身负载情况向数据节点返回接受或拒绝结果。

5.根据权利要求4所述的系统，其特征在于，所述加入请求中还包括拒绝次数；

所述候选名字节点确定所述拒绝次数大于阈值，则接受数据节点的加入请求。

6.一种分布式文件系统实现方法，其特征在于，所述系统包括多个名字节点和数据节点，其中，名字节点负责数据节点的接入和数据节点的元数据的存储、访问，并存储其他名字节点信息；

所述方法包括：

数据节点基于自组织能力从多个名字节点中选择候选名字节点，向所述候选名字节点发送加入请求；

所述候选名字节点接收来自数据节点的加入请求，向数据节点返回接受或拒绝结果，存储接受加入的数据节点的元数据；

数据节点接收来自所述候选名字节点的接受或者拒绝结果，从所述接受的候选名字节点中确定主名字节点和备用名字节点，所述主名字节点和所述备用名字节点具备相互切换的能力；

数据节点将所述备用名字节点的地址信息发给所述主名字节点；

所述主名字节点和所述备用名字节点进行通信，并都把双方的地址信息和信任关系保存在本地，形成一个名字节点的拓扑表。

7.根据权利要求6所述的方法，其特征在于，每个名字节点存储其他临近名字节点的信息；

或者，每个名字节点至少存储1个全局名字节点信息，其中，所述全局名字节点存储所有名字节点的信息；每个名字节点至少存储1个全局名字节点信息。

8.根据权利要求7所述的方法，其特征在于，还包括：

名字节点接收文件读取请求，根据文件属性在本地存储的数据节点的元数据中进行检索，如果检索到文件，则返回检索到的文件；如果未能检索到文件，则向本地存储的名字节点泛洪所述文件读取请求。

9.根据权利要求6所述的方法，其特征在于，所述数据节点基于自组织能力从多个名字节点中选择候选名字节点包括：

数据节点通过地址匹配选择匹配度高的名字节点为所述候选名字节点；

所述候选名字节点接收来自数据节点的加入请求、向数据节点返回接受或拒绝结果包括：

10.根据权利要求9所述的方法，其特征在于，所述加入请求中还包括拒绝次数；

所述方法还包括：