CN110019082A

CN110019082A - 文件数据的分布式多副本存储方法

Info

Publication number: CN110019082A
Application number: CN201710636934.8A
Authority: CN
Inventors: 刘哲; 胡伦良; 张海斌
Original assignee: Putian Information Technology Co Ltd
Current assignee: Potevio Information Technology Co Ltd; Putian Information Technology Co Ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2019-07-16

Abstract

本申请提出文件数据的分布式多副本存储方法。方法包括：预设多个文件访问频率级别以及每个文件访问频率级别对应的文件副本数，其中，文件访问频率级别越高对应的文件副本数越多；接收新上传的文件，设置文件的文件访问频率级别为最高级别；利用分布式文件系统客户端对文件进行分片，以及按照最高级别的文件访问频率对应的文件副本数，对文件的分片执行多副本存储处理；维护文件的文件访问频率；当发现文件的文件访问频率级别降低时，根据降低后的级别对应的文件副本数，确定文件需删除的副本数，根据该需删除的副本数，对文件的所有分片的副本进行与该需删除的副本数相符的删除处理。本申请降低了文件数据的分布式多副本存储成本。

Description

文件数据的分布式多副本存储方法

技术领域

本发明涉及分布式文件存储技术领域，尤其涉及文件数据的分布式多副本存储方法。

背景技术

Hadoop是一个并行处理海量数据的工具。HDFS(the Hadoop Distributed FileSystem，Hadoop分布式文件系统)主要用于大数据文件的分析。其特点是将一个超大文件分解成多个小文件，部署到多台低配置机器上进行存储和分析。

分布式多副本策略指的是，对于由超大文件分解成的多个小文件中的每个小文件，分别创建多个副本，该多个副本分别存储在不同的机器上。

分布式多副本策略的缺陷主要体现在：

一、HDFS整体存储成本较高。以常用的3副本策略为例，实际所需存储空间为存储数据容量的3倍，直接增加了存储硬件成本。

二、HDFS处理效率降低。多副本策略增加了文件索引的建立时间，并且增加了NameNode(文件记录节点)的内存消耗。其中，NameNode用于创建并存储每个副本的描述信息。

三、负载均衡能力不足。多副本策略对系统中的数据均维持相同数目的副本数量而不是区别对待，导致系统无法根据需求动态调整副本数目。

发明内容

本发明提供文件数据的分布式多副本存储方法，以降低文件数据的分布式多副本存储成本。

本发明的技术方案是这样实现的：

一种文件数据的分布式多副本存储方法，预先设置多个文件访问频率级别，设置每个文件访问频率级别对应的文件副本数，其中，文件访问频率级别越高对应的文件副本数越多，该方法包括：

接收到新上传的文件，设置所述文件的文件访问频率级别为最高级别；

利用分布式文件系统客户端对所述文件进行分片，以及按照最高级别的文件访问频率对应的文件副本数，对所述文件的分片执行多副本存储处理；

维护所述文件的文件访问频率；

当发现所述文件的文件访问频率级别降低时，根据降低后的级别对应的文件副本数，确定所述文件需删除的副本数，根据该需删除的副本数，对所述文件的所有分片的副本进行与该需删除的副本数相符的删除处理。

预先为每个级别设置一个文件描述队列；

所述设置所述文件的文件访问频率级别为最高级别进一步包括：

将所述文件的文件描述信息放入最高级别的文件访问频率对应的文件描述队列中，所述文件描述信息包括：文件名和文件的接收时间；

所述对所述文件的分片执行多副本存储处理包括：

为所述文件的每个分片分配存储该分片的每个副本的数据节点，将每个分片的每个副本分别存储到对应的数据节点上。

所述方法进一步包括：

接收到用户输入的读文件指令，该指令携带时间段，根据该时间段，在文件描述队列中查找对应的文件名；

利用分布式文件系统客户端查询到该文件的每个分片的每个副本所在的数据节点，并在确定的每个分片的所有副本所在的数据节点中选择一个数据节点，从所选择的数据节点上读取该分片的一个副本；

将分布式文件系统客户端读取到的该文件的所有分片的副本合并成一个完整的文件提供给用户。

所述根据该需删除的副本数，对所述文件的所有分片的副本进行与该需删除的副本数相符的删除处理包括：

根据所述文件的文件名，确定该文件的每个分片的每个副本所在的数据节点，在确定的每个分片的所有副本所在的数据节点中选择与需删除的副本数相符的数据节点，将所选择的数据节点上的副本删除。

所述确定所述文件需删除的副本数包括：

根据所述文件的文件名查找到所述文件的文件描述信息，将查找到的文件描述信息所在文件描述队列的访问频率级别作为所述文件的当前访问频率级别，计算所述文件的当前访问频率级别对应的副本数与降低后的级别对应的副本数的差值，该差值即为所述文件需删除的副本数。

预先设置访问频率维护周期，

所述维护所述文件的访问频率包括：

在每个访问频率维护周期开始时，将所有文件的访问次数及访问频率重置为0，当接收到针对一个文件的读文件指令时，将该文件的访问次数加1，在当前访问频率维护周期结束时，计算每个文件的访问频率＝当前访问频率维护周期内该文件的访问次数/访问频率维护周期的长度。

所述预先设置多个文件访问频率级别，设置每个文件访问频率级别对应的文件副本数为：文件管理器预先设置多个文件访问频率级别，并设置每个文件访问频率级别对应的文件副本数；

所述接收到新上传的文件，设置所述文件的文件访问频率级别为最高级别包括：

文件管理器接收到新上传的文件，设置所述文件的文件访问频率级别为最高级别，确定所述文件的副本数为最高级别的文件访问频率对应的文件副本数，将所述文件及所述文件的副本数发送给分布式文件系统客户端；

所述对所述文件进行分片为：分布式文件系统客户端对所述文件进行分片；

且所述按照最高级别的文件访问频率对应的文件副本数，对所述文件的分片执行多副本存储处理包括：

分布式文件系统客户端将所述文件的所有分片标识和副本数发送给文件记录节点，并按照文件记录节点返回的为每个分片分配的所有数据节点标识，将每个分片的每个副本分别存储到对应的数据节点上；

所述维护所述文件的访问频率为：文件管理器维护所述文件的访问频率；

所述发现所述文件的文件访问频率级别降低时，根据降低后的级别对应的文件副本数，确定所述文件需删除的副本数包括：

文件管理器发现所述文件的文件访问频率级别降低，根据降低后的级别对应的文件副本数，确定所述文件需删除的副本数，将所述文件的文件名和需删除的副本数发送给分布式文件系统客户端；

分布式文件系统客户端确定所述文件的所有分片标识，将所述文件的所有分片标识和需删除的副本数发送给文件记录节点，按照文件记录节点返回的为每个分片选择的需删除的副本所在的数据节点标识，删除对应数据节点上的副本。

所述分布式文件系统为Hadoop分布式文件系统HDFS。

本发明通过维护文件的访问频率，并根据文件的访问频率的动态变化，动态删除文件的副本，降低了文件数据的分布式多副本存储成本，提高了分布式文件系统的处理效率及负载均衡能力。

附图说明

图1为本申请实施例提供的文件数据的分布式多副本存储方法流程图；

图2为本申请实施例提供的文件数据的分布式多副本存储的写文件的方法流程图；

图3为本申请实施例提供的文件数据的分布式多副本存储的读文件的方法流程图；

图4为本申请实施例提供的文件数据的分布式多副本存储的动态维护副本的方法流程图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图1为本申请实施例提供的文件数据的分布式多副本存储方法流程图，其具体步骤如下：

步骤100：预先设置多个文件访问频率级别，设置每个文件访问频率级别对应的文件副本数，其中，级别越高对应的文件副本数越多。

例如：可以设置三个文件访问频率级别，分别称为：高频、中频和低频。

步骤101：接收到新上传的文件，设置该文件的文件访问频率级别为最高级别。

步骤102：利用分布式文件系统客户端对该文件进行分片，以及按照最高文件访问频率级别对应的文件副本数，对该文件的分片执行多副本存储处理。

步骤103：维护该文件的访问频率。

步骤104：当发现该文件的文件访问频率级别降低时，根据降低后的级别对应的文件副本数，确定该文件需删除的副本数，根据该需删除的文件副本数，对该文件的所有分片的副本进行与该需删除的文件副本数相符的删除处理。

图2为本申请实施例提供的文件数据的分布式多副本存储的写文件的方法流程图，其具体步骤如下：

步骤200：预先在文件管理器上设置多个级别的文件访问频率，并设置每个文件访问频率级别的文件访问频率的范围，并设置每个文件访问频率级别对应的文件副本数，且，预先在文件管理器上为每个文件访问频率级别分别创建一个文件描述队列。

例如：可以设置三个文件访问频率级别，分别称为高频、中频和低频，并设置文件访问频率级别分别为高、中、低频时对应的频率范围，设置文件访问频率级别分别为高、中、低频时对应的文件副本数。

显然，文件访问频率级别越高，其对应的访问频率越高，其对应的文件副本数越多。即文件访问频率越高，文件的副本数越多。

步骤201：文件管理器接收到新上传的文件，为该文件打上时间戳，确定该文件的访问频率级别为最高级别，将该文件的文件描述信息放入最高访问频率级别对应的文件描述队列。

这里的时间戳对应的是接收文件的时间。

这里的文件描述信息包括：文件名、时间戳等。

步骤202：文件管理器将该文件以及该文件对应的副本数(即最高级别的文件访问频率对应的副本数)发送给HDFS Client(客户端)。

步骤203：HDFS Client向NameNode发送文件记录创建指令，该指令携带该文件的文件名、时间戳等。

步骤204：NameNode接收该文件记录创建指令，根据该指令携带的文件名、时间戳等创建一条文件记录，并向HDFS Client返回指示创建成功的文件记录创建结果消息。

步骤205：HDFS Client接收该文件记录创建结果指令，将该文件分成多个分片，并将每个分片的描述信息以及该文件对应的副本数携带在DataNode(数据节点)分配指令中发送给NameNode。

每个分片的描述信息包括：分片标识、分片大小等。

步骤206：NameNode接收该DataNode分配指令，根据该指令携带的分片描述信息以及副本数，为每个分片分配存储该分片的每个副本的DataNode，将DataNode分配结果返回给HDFS Client，并保存该DataNode分配结果。

DataNode分配结果包含了：为每个分片的每个副本分配的DataNode信息，即包含了：每个分片的分片标识与为该分片的所有副本分配的DataNode标识之间的对应关系。

步骤207：HDFS Client接收该DataNode分配结果，根据该DataNode分配结果指示的为该文件的每个分片的每个副本分配的DataNode的标识，将每个分片的每个副本分别存储到对应的DataNode上。

步骤208：HDFS Client保存该文件的分片描述信息。

这里，文件的分片描述信息至少包括该文件的文件名以及该文件的所有分片的分片标识。

图3为本申请实施例提供的文件数据的分布式多副本存储的读文件的方法流程图，其具体步骤如下：

步骤301：文件管理器接收到用户输入的读文件指令，该指令携带时间段。

步骤302：文件管理器根据该读文件指令携带的时间段，在各文件描述队列中查找该时间段对应的文件描述信息。

步骤303：文件管理器根据查找到的文件描述信息中的文件名，向HDFSClient发送读文件指令，该指令携带该文件名。

步骤304：HDFS Client根据该文件名，在自身保存的各文件的分片描述信息中，查找该文件名对应的所有分片标识，向NameNode发送读副本获取消息，该消息携带该文件的所有分片标识。

步骤305：NameNode接收该读副本获取消息，对于该消息携带的每个分片标识，在自身保存的DataNode分配结果中查找该分片标识对应的所有DataNode标识，按照预设读副本选择原则，在该查找到的所有DataNode标识中选择一个DataNode标识；当为该消息携带的所有分片标识都选择了一个DataNode标识后，将为所有分片标识选择的DataNode标识携带在读副本获取响应消息中返回给HDFS Client。

由于文件的每个分片可能存在多个副本，而每个副本分别存储在一个DataNode上，因此，NameNode在查找到每个分片标识对应了多个DataNode标识后，需要在其中选择一个，选择原则(即上述的读副本选择原则)可以是最短路由，即：所选择的DataNode标识对应的DataNode与HDFS Client之间的路由最短，以方便HDFS Client在最短时间内读取到该副本，当然选择原则也可以是其它原则，预先定义即可。

步骤306：HDFS Client接收该读副本获取响应消息，根据该消息携带的为该文件的所有分片标识选择的DataNode标识，分别从对应的DataNode上读取每个分片的副本，读取完毕，将所有分片的副本合并成一个完整的文件返回给文件管理器。

步骤307：文件管理器将HDFS Client返回的文件提供给用户。

图4为本申请实施例提供的文件数据的分布式多副本存储的动态维护副本的方法流程图，其具体步骤如下：

步骤401：文件管理器预先设置访问频率维护周期，在每个访问频率维护周期开始时，将所有文件的访问次数及访问频率重置为0。

步骤402：当接收到针对一个文件的读文件指令时，文件管理器将该文件的访问次数加1。

步骤403：文件管理器在当前访问频率维护周期结束时，计算每个文件的访问频率＝当前访问频率维护周期内该文件的访问次数/访问频率维护周期的长度。

步骤404：对于任一文件，若文件管理器在当前访问频率维护周期结束时，根据计算出的该文件的文件访问频率所在的频率范围，确认该文件的访问频率级别降低，则计算该文件当前的访问频率级别对应的副本数与需降低到的访问频率级别对应的副本数之间的差值，将该差值作为该文件需删除的副本数。

可根据该文件的文件名查找到对应的文件描述队列，将该文件描述队列的访问频率级别作为该文件的当前访问频率级别。

步骤405：文件管理器向HDFS Client发出副本删除指令，该指令携带该文件的文件名以及需删除副本数。

步骤406：HDFS Client接收该副本删除指令，根据该指令携带的文件名，在自身保存的各文件的分片描述信息中，查找该文件对应的所有分片标识，向NameNode发送删除副本获取消息，该消息携带该文件对应的所有分片标识以及需删除副本数。

步骤407：NameNode接收该删除副本获取指令，对于该指令携带的每个分片标识，在自身保存的DataNode分配结果中，查找该分片标识对应的所有DataNode标识，根据预设的删除副本选择原则，在查找到的所有DataNode标识中，选择与需删除副本数相同数目的DataNode标识；当为所有分片标识都选择完DataNode标识后，将为所有分片标识选择的DataNode标识携带在删除副本获取响应消息中返回给HDFS Client，同时，更新自身保存的该文件的所有分片标识对应的DataNode分配结果。

即，若需删除副本数为m，则NameNode需要为每个分片标识选择m个DataNode标识，选择原则(即上述的删除副本选择原则)可以是：最长路由原则，即所选择的DataNode标识对应的DataNode节点与HDFS Client之间的路由最长，即若m>1，则NameNode按照最长路由原则，在分片标识对应的多个DataNode标识中，依次选择对应的DataNode节点与HDFSClient之间的路由最长的NodeNode标识，直到选择完m个DataNode节点为止。

步骤408：HDFS Client接收该删除副本获取指令，根据该指令携带的为所有分片标识选择的DataNode标识，分别向各DataNode发送删除副本指令。

步骤409：HDFS Client接收到所有DataNode发来的副本删除完成消息后，向文件管理器发送携带文件名的副本删除完成消息。

步骤410：文件管理器接收该副本删除完成消息，根据该文件的文件名在对应访问频率级别的文件描述队列中查找到该文件的文件描述信息，将该文件描述信息移动到该文件降低到的访问频率级别的文件描述队列中。

本申请的有益效果如下：

通过初始设置并维护文件的访问频率，并根据文件的访问频率的动态变化，动态删除文件的副本，降低了文件数据的分布式多副本存储成本，提高了分布式文件系统的处理效率及负载均衡能力。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文件数据的分布式多副本存储方法，其特征在于，预先设置多个文件访问频率级别，设置每个文件访问频率级别对应的文件副本数，其中，文件访问频率级别越高对应的文件副本数越多，该方法包括：

维护所述文件的文件访问频率；

2.根据权利要求1所述的方法，其特征在于，预先为每个级别设置一个文件描述队列；

所述对所述文件的分片执行多副本存储处理包括：

3.根据权利要求2所述的方法，其特征在于，所述方法进一步包括：

4.根据权利要求2所述的方法，其特征在于，所述根据该需删除的副本数，对所述文件的所有分片的副本进行与该需删除的副本数相符的删除处理包括：

5.根据权利要求2所述的方法，其特征在于，所述确定所述文件需删除的副本数包括：

6.根据权利要求1所述的方法，其特征在于，预先设置访问频率维护周期，

所述维护所述文件的访问频率包括：

7.根据权利要求1所述的方法，其特征在于，所述预先设置多个文件访问频率级别，设置每个文件访问频率级别对应的文件副本数为：文件管理器预先设置多个文件访问频率级别，并设置每个文件访问频率级别对应的文件副本数；

8.根据权利要求7所述的方法，其特征在于，所述分布式文件系统为Hadoop分布式文件系统HDFS。