CN102737130A

CN102737130A - 处理hdfs元数据的方法及系统

Info

Publication number: CN102737130A
Application number: CN2012102090785A
Authority: CN
Inventors: 武良军; 袁晓鹏
Original assignee: SNRISE Corp
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2012-06-21
Filing date: 2012-06-21
Publication date: 2012-10-17

Abstract

本发明公开了一种处理HDFS元数据的方法及系统，能够提高数据处理能力及数据安全性。该方法包括：建立基于Cassandra的内存集群；将HDFS元数据存储到Cassandra集群中的分布式数据库；对存储到Cassandra集群中的分布式数据库的HDFS元数据进行处理操作。本发明相应提供一种数据库系统，包括至少一个以上内存集群服务器节点；所述至少一个以上内存集群服务器节点建立基于Cassandra的内存集群；所述内存集群服务器节点对存储到Cassandra集群中的分布式数据库的HDFS元数据进行处理操作。

Description

处理HDFS元数据的方法及系统

技术领域

本发明涉及数据库技术领域，具体涉及一种处理HDFS元数据的方法及系统。

背景技术

HDFS（Hadoop Distributed File System）是指HADOOP分布式文件系统，其具有高容错性的特点，设计用来部署在低廉的硬件上，它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序，可以实现流的形式访问文件系统中的数据。

名称节点NameNode是HDFS组成架构当中的元数据存储构件。在当前的HDFS架构当中，名称节点NameNode是一个非常重要的组件，负责文件元数据的管理，诸如文件命名空间、文件块等信息。同时负责协调各个节点间的管理，如节点的有效性检查、文件块的冗余复制，文件的创建、删除等行为。不过HDFS目前架构中NameNode不支持集群部署，不提供先行扩展能力，基于单机有内存容量限制，HDFS管理的文件数量规模有上限的，这些大大限制了HDFS作为MapReduce（概念化简）数据载体的应用场景。

现有技术中，HDFS目前通过Secondary NameNode（辅助名称节点）来提供灾备方案，通过定时同步文件系统信息至Secondary NameNode来实现。NameNode将对文件系统的改动追加保存到本地文件系统上的一个日志文件（edits）。当一个NameNode启动时，它首先从一个映像文件（fsimage）中读取HDFS的状态，接着应用日志文件中的edits操作。然后它将新的HDFS状态写入（fsimage）中，并使用一个空的edits文件开始正常操作。因为NameNode只有在启动阶段才合并fsimage和edits，所以时间长后日志文件可能会变得非常庞大，特别是对大型的集群更是如此。日志文件太大的另一个副作用是下一次NameNode启动会花很长时间。另外Secondary NameNode定期合并fsimage和edits日志，将edits日志文件大小控制在一个限度下。因为内存需求和NameNode在一个数量级上，所以通常secondary NameNode和NameNode运行在不同的机器上。在HDFS架构当中Secondary NameNode在逻辑上并不是作为NameNode的备份来部署的，它是作为一个日志合并的进程来运行的，在实际的部署当中，Secondary NameNode通常又可以通过文件拷贝的方式实现灾备的能力，因此Secondary NameNode本身是一个非专业的灾备方案。

因此，本发明的发明人发现：现有技术NameNode不能实现对海量文件的支持，不支持集群，限制了支持文件数量规模的增长的能力，而SecondarNameNode的灾备方案并不是一个实时、有效的灾备方案，其对元数据的同步是采用异步模式，并且是基于文件拷贝的方式，因此存在数据丢失的潜在危险，数据安全性较低。

发明内容

本发明提供一种处理HDFS元数据的方法及系统，能够提高数据处理能力及数据安全性。

一种处理HDFS元数据的方法，其包括：

建立基于数据库Cassandra的内存集群；

将分布式文件系统HDFS元数据存储到Cassandra集群中的分布式数据库；

对存储到Cassandra集群中的分布式数据库的HDFS元数据进行处理操作。

所述将HDFS元数据存储到Cassandra集群中的分布式数据库包括：

将HDFS元数据通过冗余复制存储到Cassandra集群中的分布式数据库。

所述将HDFS元数据通过冗余复制存储到Cassandra集群中的分布式数据库包括：

将每份HDFS元数据在Cassandra集群的内存中的N个节点形成冗余，所述N大于1。

所述建立基于Cassandra的内存集群包括：

采用P2P分布式技术建立基于Cassandra的内存集群，结合一致性哈希算法将所述内存集群形成一个环状。

所述对存储到Cassandra集群中的分布式数据库的HDFS元数据进行处理操作包括：

对存储到Cassandra集群中的分布式数据库的HDFS元数据进行至少以下一项操作：查询、插入、删除。

所述删除包括：修改Cassandra在内存中的数据删除策略，在Cassandra的Tomb Mark的删除基础上增加内存记录的删除。

所述对存储到Cassandra集群中的分布式数据库的HDFS元数据进行处理操作还包括：改造Cassandra集群的归并操作，使得错开Cassandra集群的归并操作同HDFS元数据的读写操作。

一种数据库系统：

包括至少一个以上内存集群服务器节点；

所述至少一个以上内存集群服务器节点建立基于Cassandra的内存集群；

所述内存集群服务器节点对存储到Cassandra集群中的分布式数据库的HDFS元数据进行处理操作。

所述内存集群服务器节点包括请求协调器、集群协调器、元数据RID模块；

请求协调器，用于接收对HDFS元数据的操作请求；

集群协调器，采用P2P分布式技术建立基于Cassandra的内存集群，结合一致性哈希算法将所述内存集群形成一个环状；

元数据RID模块，根据请求协调器的请求，对存储到Cassandra集群中的分布式数据库的HDFS元数据进行处理操作，所述处理操作包括至少以下一项操作：查询、插入、删除。

所述内存集群服务器节点还包括受控归并模块，用于改造Cassandra集群的归并操作，使得错开Cassandra集群的归并操作同HDFS元数据的RID的读写操作。

上述技术方案可以看出，本发明技术方案采用改造后的Cassandra集群存储HDFS元数据，将元数据复制保存在Cassandra集群的内存当中，从而可以支持海量文件，支持文件数量规模的增长，也将HDFS元数据在极端情况下丢失数据的风险通过Cassandra的集群保存加以控制，从而提高了数据安全性。这种高可用的内存集群模式，也从根本上为日志文件的取消提供了基础，也避免了元数据的持久化，从而取消Secondary NameNode定时合并日志文件跟元数据文件的操作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明的处理HDFS元数据的方法的流程图；

图2是本发明处理方法中建立的环状集群示意图；

图3是本发明方法中添加查询服务器节点后的环状集群示意图；

图4是本发明方法的内存集群服务器的结构示意图；

图5是本发明方法的内存集群服务器的应用示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

现有技术中，通过Secondary NameNode来提供灾备方案，通过定时同步文件系统信息至Secondary NameNode来实现，因为这种同步是非实时的，所以存在着数据丢失的潜在危险。另外，现有技术基于单机的NameNode无法提供线性扩展的能力，基于垂直扩展机制原理，因受单机资源限制，对海量文件支撑有瓶颈，基于单机的NameNode在高并发的环境中面临服务质量下降的危险，基于单机的NameNode需要实时的进行磁盘读写来完成日志文件的持久化。

为解决现有技术上述问题，本发明技术方案通过将HDFS跟Cassandra（Cassandra是一个混合型的非关系的数据库）进行有效的整合，以Cassandra来存储NameNode中的文件信息，通过一致性哈希算法将HDFS元数据分布到多个节点，扩张HDFS对文件数量支撑能力的线性扩展，各个节点都提供处理HDFS客户端的请求，提升HDFS对高并发情况下的性能，此外HDFS元数据在Cassandra中进行冗余复制，降低乃至消除HDFS中有关NameNode的单点故障、数据丢失等危险。

本发明技术方案主要是采用P2P（Peer-to-Peer，点对点）技术、一致性哈希算法把HDFS元数据信息缓存存储到Cassandra分布式数据库，通过对Cassandra进行改造以适应NameNode对元数据进行内存缓存的需要。Cassandra集群具有高可伸缩性，提供了实时增加节点的功能，并且可以在负载较重的节点之前插入节点，减轻相应节点的负载，而在集群负载不足的情况下，可以实时减少部分节点，从而使得集群具备高度可伸缩性；通过改造Cassandra使其适应NameNode的数据存储和调度功能。

以下结合附图介绍本发明的技术方案。

图1是本发明的处理HDFS元数据的方法的流程图，包括步骤：

步骤11、建立基于Cassandra的内存集群；

该步骤的Cassandra的内存集群采用P2P分布式技术来构建实现，结合采用一致性哈希算法形成一个环状，让集群中的每一个节点负责部分键值范围的查询任务，并且通过一致性哈希算法最大限度地抑制了键的重新分布。

一致性哈希算法中，每个节点(对应P2P系统中的点Peer)都有随机分配的ID。在将内容映射到节点时，使用内容的关键字和节点的ID进行一致性哈希运算并获得键值。一致性哈希要求键值和节点ID处于同一值域。最简单的键值和ID可以是一维的，比如从0000到9999的整数集合。为了构建查询所需的路由，一致性哈希要求每个节点存储其上行节点(ID值大于自身的节点中最小的)和下行节点(ID值小于自身的节点中最大的)的位置信息(IP地址)。当节点需要查找内容时，就可以根据内容的键值决定向上行或下行节点发起查询请求。收到查询请求的节点如果发现自己拥有被请求的目标，可以直接向发起查询请求的节点返回确认；如果发现不属于自身的范围，可以转发请求到自己的上行/下行节点。

基于Cassandra的内存集群具有如下几个特点：采用一致性哈希算法提高集群的平衡性，使得集群中的各个节点能够均衡提供服务；采用可插入式哈希算法，同时提供了缺省的高效均衡的哈希算法，实现系统高可扩展性，可以实现灵活的路由策略。

具体的，采用P2P分布式技术组成Cassandra的内存集群，使得集群中的每个节点实时保存了集群所有节点的处理范围的信息，根据该信息每个节点能够快速的定位到相应的节点去操作HDFS的元数据，有效形成了负载均衡的能力。负载均衡的能力在于各个节点都可以响应客户端请求跟路由客户端请求，因为每个节点都可以根据一致性哈希计算出客户请求对应的处理节点。采用P2P分布式技术使得系统具备高可伸缩性，在负载不足的情况下，可以在不影响系统正常运行的情况下在线增加新的服务节点；结合一致性哈希算法对于临时性网络故障而暂时离开的节点，由其他的节点暂时提供服务，在该节点恢复后重新接管相应的查询服务。

本发明技术方案通过一致性哈希算法组成环状集群的过程如下：

如图2所示，是本发明处理方法中建立的环状集群示意图。

首先求出服务器集群中每个节点的哈希值（也可以在配置文件中指定哈希值），并将其配置到0~2¹²⁷的圆上。这个数值范围也是由一致性哈希算法来确定的，简单的说例如可以是由哈希函数可能产生的最大值。然后对于需要查询的键值采用相同的哈希算法求出哈希值，并映射到圆上，然后从数据映射到的位置开始顺时针查找，找到第一个服务器后，由该服务器向数据源发起查询请求，并保存查询结果到缓存中。

接着，从上图2的状态中添加一个查询服务器节点，采用一致性哈希算法只会影响该节点添加位置的节点的查询键值范围，而不会影响其他的节点，从而在增加节点的时候仍然能够利用大部分节点的缓存信息，从而不影响添加时刻的查询效率，如图3所示，是本发明方法中添加查询服务器节点后的环状集群示意图。同样删除一个节点或者节点故障，也只影响删除节点的下一个位置的节点的键值查询范围。

在分布式环境中，节点可能会出现临时性的网络故障而导致临时失效，一个失效的节点通常不会造成永久的故障。由于这个原因，需要采用一种外部机制来增加和删除节点，在查询服务器集群中，系统管理员采用外部命令连接到已有环中的任何一个节点来执行集群环中节点的增加和删除，该节点负责把成员信息的变化情况传播到集群中的其他的节点上，让每个节点维护完整的成员视图，该传播协议就是基于Gossip的P2P协议。Gossip是一个p2p协议的实现，该协议的原理是向周围的节点传递信息，直到所有节点都有同样的信息，通过这种方式，可以达到多点同步，并且可以不用关心具体节点量实现无限水平扩展的功能。

当节点增加到集群中，第一次启动的时候，它会选择一个哈希值（这个哈希值可以在配置文件中指定），并且把节点映射到环中，映射信息（包括哈希值）将会持久化到磁盘中，在加入到集群中后，会首先连接种子节点，获取环中其他节点的信息，最终确定该节点能够处理的关键字的哈希值范围，种子节点把最新的环成员信息，以及每个处理的键值范围通过P2P协议的传播出去，最终让环中的所有节点保存环的全局视图信息。

步骤12、将HDFS元数据存储到Cassandra集群中的分布式数据库；

该步骤通过调整Cassandra的内存使用策略，例如配置Cassandra的内存阀值，可以将HDFS元数据尽量存储在集群中节点内存当中，从而减少甚至消除HDFS元数据写磁盘的要求，从而避免触发Cassandra的写磁盘行为，大大提高HDFS元数据的读写性能。HDFS元数据不需要持久化的情况下，Secondary NameNode的主要工作：合并日志文件跟元数据文件就可以取消，有效减轻HDFS集群的性能消耗。

将HDFS元数据缓存存储到Cassandra集群中的分布式数据库，主要是采用冗余复制的策略。通过使用Cassandra的冗余复制策略，每份HDFS元数据会在集群N(默认为3)个节点上形成冗余，有效避免以往NameNode的单点故障的危险，真正做到数据库数据持久化的高安全性。所述N大于1。

步骤13、对存储到Cassandra集群中的分布式数据库的HDFS元数据进行处理操作。

HDFS元数据存储到Cassandra集群中后，则将HDFS的元数据通过Secondary NameNode来持久化的磁盘读写转换成高效的Cassandra内存集群的读写。

该步骤中对HDFS元数据进行处理操作包括：元数据的查询、插入、修改、删除等。

该步骤中，在Cassandra的Tomb Mark的删除基础上增加内存记录的删除，以有效释放内存。通过分析利用文件系统较多的文件删除的特性，修改Cassandra在内存中数据的删除策略，提高Cassandra的内存使用效率，从而大大提高Cassandra内存存储HDFS元数据的可能性，可以达到消除磁盘读写的目的。例如Cassandra在删除一条记录的时候，其本质是插入一条标志位为DELETED的记录，在本发明技术方案当中，只需要将该行为修订为实际删除一条记录，来减少内存资源的浪费。

在HDFS元数据不需要持久化的情况下，Secondary NameNode的主要工作：合并日志文件跟元数据文件就可以取消，这样可以有效减轻HDFS集群的性能消耗。

另外，该步骤还包括通过参数设置跟手工调度的方式来灵活管理Cassandra的归并操作，有效错开Cassandra的归并同元数据的RID的读写。

上述内容介绍了内存集群的构成方案，以下详细介绍每个内存集群服务器节点的实现方法。

如图4所示，是本发明方法的内存集群服务器的结构示意图。每个内存集群服务器节点主要包括四个主要的软件组件模块：请求协调器、集群协调器、元数据RID模块、受控归并模块。如图5所示，是本发明方法的内存集群服务器的应用示意图。

请求协调器，建立在事件驱动消息服务架构之上，所有的通讯采用异步IO通道技术，请求协调器获取客户端的请求后，根据关键字的哈希值和一致性哈希技术，在环状全局视图中确定服务查询节点并查询数据返回后，请求协调器把查询结果返回到客户端。请求协调器可以接收对HDFS元数据的操作请求。

集群协调器，利用基于Gossip的P2P分布式技术与集群中其他节点通讯，维护集群的环成员信息，每个节点从环中随机选取一些节点，把自己所存储的集群环信息与对方交互，使得双方保持一致，通过这种协议使得所有节点最终形成一致的环全局试图，而且集群协调器把该信息持久化到磁盘上，用来在节点重启的时候，立即获得全局视图信息，而无需重复前面的交互过程。集群协调器，采用P2P分布式技术构建Cassandra的内存集群，结合一致性哈希算法将所述内存集群形成一个环状，所述内存集群中的每一个节点负责部分键值范围的查询任务。

元数据RID模块，用来接受HDFS客户端发起的HDFS元数据的查询、插入、删除等，其中删除操作在Cassandra本身的Tomb Mark的基础增加内存记录的删除，以有效释放内存。

受控归并模块，允许通过参数设置跟手工调度的方式来灵活管理Cassandra的归并操作，有效错开Cassandra的归并同元数据的RID的读写，例如在HDFS繁忙的期间即元数据的RID操作高峰期，禁止Cassandra自身的归并操作，在HDFS空闲期间即元数据的RID低谷期发起Cassandra的归并操作，从而有效提高Cassandra集群的性能。

综上所述，本发明技术方案采用改造后的Cassandra存储HDFS元数据，可以支持海量文件，支持文件数量规模的增长，将元数据尽量通过冗余复制保存在Cassandra集群的内存当中，将HDFS元数据在极端情况下丢失数据的风险通过Cassandra的冗余复制策略加以控制，提高数据安全性。这种高可用的内存集群模式，从根本上为日志文件的取消提供了基础，也避免了元数据的持久化，从而取消Secondary NameNode定时合并日志文件跟元数据文件的操作。元数据通过Cassandra提供高可用和分区容错的能力，将HDFS的NameNode的单点故障通过Cassandra的分区容错能力加以避免，通过Cassandra的线性扩展能力，针对不同的集群规模，可以动态的调整Cassandra集群的规模，在规模较小的时候减少节点从而节约成本，在规模增大的时候增加节点从而保证服务质量。另外也解决HDFS中NameNode对文件规模的支持限制的问题。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁盘或光盘等。

以上对本发明实施例所提供的技术方案，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种处理HDFS元数据的方法，其特征在于，包括：

建立基于数据库Cassandra的内存集群；

2.根据权利要求1所述的方法，其特征在于：

所述将HDFS元数据存储到Cassandra集群中的分布式数据库包括：

3.根据权利要求2所述的方法，其特征在于：

4.根据权利要求1所述的方法，其特征在于：

所述建立基于Cassandra的内存集群包括：

采用点对点P2P分布式技术建立基于Cassandra的内存集群，结合一致性哈希算法将所述内存集群形成一个环状。

5.根据权利要求1所述的方法，其特征在于：

6.根据权利要求5所述的方法，其特征在于：

所述删除包括：修改Cassandra在内存中的数据删除策略，在Cassandra增加内存记录的删除。

7.根据权利要求5所述的方法，其特征在于：

8.一种数据库系统，其特征在于：

包括至少一个以上内存集群服务器节点；

9.根据权利要求8所述的系统，其特征在于：

请求协调器，用于接收对HDFS元数据的操作请求；

10.根据权利要求9所述的系统，其特征在于：