CN104102558A

CN104102558A - 一种基于纠删码的文件追加方法

Info

Publication number: CN104102558A
Application number: CN201410331144.5A
Authority: CN
Inventors: 王意洁; 裴晓强; 许方亮; 符永铨; 孙伟东; 程力; 李小勇; 马行空; 王媛; 赵越; 林轩; 熊泽宇
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2014-07-13
Filing date: 2014-07-13
Publication date: 2014-10-15
Anticipated expiration: 2034-07-13
Also published as: CN104102558B

Abstract

本发明公开了一种基于纠删码的文件追加方法，目的是降低文件追加的编码计算开销和网络传输开销。技术方案是先构建一个由一个控制节点和N个存储节点构成的分布存储系统，控制节点安装有数据读写管理程序，存储节点上安装有数据读写程序；数据读写管理程序从最后一组原始数据块所在的存储节点读取原始数据块，将数据块AD追加到最后一组原始数据块，从最后一组原始数据块对应的冗余数据块所在的存储节点删除冗余数据块，利用存储的编码系数对数据文件的最后一组k个原始数据块重新进行编码计算，得到追加后的冗余数据块C₁～C_m；数据读写管理程序将新追加的数据块和C₁～C_m分别写入不同的存储节点。采用本发明可最大限度降低编码计算开销和网络传输开销，有效保证文件追加效率。

Description

一种基于纠删码的文件追加方法

技术领域

本发明涉及分布存储系统的数据容错技术，尤其是基于纠删码的文件追加方法。

背景技术

数据容错是海量数据分布存储的关键技术之一，数据容错对于提高系统的可用性和可靠性至关重要。目前，数据容错技术主要包括基于复制的容错技术和基于纠删码的容错技术。

基于复制的容错技术简单直观，易于实现和部署，需要为每个数据文件创建若干同样大小的副本，存储空间开销较大。基于纠删码的容错技术通过将数据文件分割为多个数据块，通过利用纠删码算法对原始的数据块进行编码得到冗余的数据块，把多个数据块的信息融合到较少的冗余信息中，有效节省存储空间。与基于复制的容错技术相比，基于纠删码的容错技术具有冗余度低、存储空间利用率高等优点，已经逐步成为大数据时代数据容错的主流技术。

在基于纠删码的容错技术中，对数据的读写操作需要进行编解码，产生一定的计算开销。基于纠删码的容错技术的基本思想是：(1)首先，将数据文件DO分割为K个原始数据块，并按照每组k(k<K)个原始数据块进行分组，若最后一组不足k个原始数据块，则用全零数据块补齐；(2)然后，对每组中的k个原始数据块进行编码计算得到m个冗余数据块；(3)对于每组的k个原始数据块及其m个冗余数据块，只需这k+m个数据块中的任意k个数据块，就可通过解码计算恢复得到原始的k个数据块。

对于每组数据块而言，每个冗余数据块C_j(j＝1,2,…,m)都是k个原始数据块D_i(i＝1,2,…,k)的线性组合，编码计算可表示为公式(1)，其中，G_ji(j＝1,2,…,m，i＝1,2,…,k)是数据块编码系数。也就是说，对于冗余数据块C_j(j＝1,2,…,m)而言，首先，编码系数G_ji(i＝1,2,…,k)与数据块D_i(i＝1,2,…,k)进行逐位相乘，得到k个新数据块T_ji＝G_ji×D_i(i＝1,2,…,k)；然后，k个新数据块T_ji(i＝1,2,…,k)进行逐位相加，得到冗余数据块

G_j1×D₁+…+G_ji×D_i+…+G_jk×D_k＝C_j (1)

每个原始数据块D_i(i＝1,2,…,k)都是其它任意k个可用数据块E_j(j＝1,2,…,k)(原始数据块或者冗余数据块)的线性组合，解码计算可表示为公式(2)，其中，H_ij(i＝1,2,…,k，j＝1,2,…,k)是数据块解码系数。也就是说，对于原始数据块D_i(i＝1,2,…,k)而言，首先，解码系数H_ij(j＝1,2,…,k)与可用数据块E_j(j＝1,2,…,k)进行逐位相乘，得到k个新数据块S_ij＝H_ij×E_j(j＝1,2,…,k)；然后，k个新数据块S_ij(j＝1,2,…,k)进行逐位相加，得到原始数据块

Hi_1×E₁+…+H_ij×E_j+…+H_ik×E_k＝D_i (2)

随着海量数据规模的不断增大，文件追加逐渐成为数据更新的主要方法之一。所谓文件追加是指不覆盖数据文件中原来的数据块，而是在数据文件末端追加新的数据块。在基于纠删码的容错技术中，现有的文件追加方法都是将追加后的文件作为新文件，将追加之前的老文件的冗余数据块全部删除，对整个新文件进行重新编码。文件追加的编码计算开销和网络传输开销取决于文件的数据块数目。随着数据文件的不断增大，文件的数据块数目呈现出逐渐增长的趋势，从而使得文件追加的编码计算开销和网络传输开销越来越大，对文件追加效率产生影响。

因此，如何针对文件追加的编码计算开销问题和网络传输开销问题，设计基于纠删码的文件追加方法，有效降低文件追加的编码计算开销和网络传输开销，有效保证文件追加效率，已经成为分布存储领域的热点研究问题。

发明内容

本发明要解决的技术问题是：针对文件追加的编码计算开销问题和网络传输开销问题，提出一种基于纠删码的文件追加方法，有效降低文件追加的编码计算开销和网络传输开销，有效保证文件追加效率。

本发明技术方案包括以下步骤：

第一步，构建一个分布存储系统，它由多个节点构成，每个节点都是一台可独立运行的计算机，各节点通过网络设备互连。

分布存储系统中的节点分为两类：控制节点和存储节点。控制节点和存储节点上均安装有操作系统、TCP/IP协议软件，配置了网络环境。

分布存储系统包括一个控制节点，负责与用户交互，控制节点上安装有数据读写管理程序。数据读写管理程序接收用户提交的向数据文件追加数据块的请求；根据数据文件的原始数据块分组情况，向最后一组原始数据块所在的存储节点发送原始数据块读取请求，将新数据块追加到最后一组原始数据块，向最后一组原始数据块对应的冗余数据块所在的存储节点发送冗余数据块删除请求；负责存储编码系数，对包括新追加的数据块在内的最后一组原始数据块重新进行编码计算，得到追加后的冗余数据块；向各存储节点分发数据块写入请求。

分布存储系统包括N个存储节点(N为正整数)，存储节点负责存储数据文件的原始数据块和冗余数据块。在分布存储系统中，每个数据块(指原始数据块和冗余数据块)拥有唯一的数据块编号。存储节点上安装有数据读写程序。数据读写程序负责接收来自控制节点的数据块读取、写入和删除请求，完成数据块读取、写入和删除任务。

第二步，控制节点执行数据读写管理程序，接收用户提交的向数据文件DO追加数据块AD的请求，根据数据文件DO的原始数据块分组情况，从最后一组原始数据块所在的存储节点读取原始数据块，将数据块AD追加到最后一组原始数据块，从最后一组原始数据块对应的冗余数据块所在的存储节点删除冗余数据块。具体步骤如下：

2.1控制节点的数据读写管理程序接收用户提交的向数据文件DO追加数据块AD的请求。

2.2控制节点的数据读写管理程序选取数据文件DO的最后一组k个原始数据块D₁～D_k，k个原始数据块中包括a(0<a≤k)个非零原始数据块D₁～D_a和b(0≤b<k)个全零数据块D_a+1～D_k(a+b＝k)。

2.3如果b>0，说明新追加的数据块AD将追加到最后一组原始数据块，转第2.4步；否则，说明最后一组原始数据块中不包括全零数据块，新追加的数据块AD将构建新的原始数据块组，转第2.5步。

2.4控制节点的数据读写管理程序将新追加的数据块AD追加到最后一组原始数据块，并删除原有的冗余数据块，具体步骤如下：

2.4.1控制节点的数据读写管理程序向a(0<a≤k)个非零原始数据块(用D₁～D_a表示)所在的存储节点获取原始数据块，ON[t]表示非零原始数据块D_t所在的存储节点，1≤t≤a，具体步骤如下：

2.4.1.1初始化信息，非零原始数据块序号t＝1。

2.4.1.2控制节点的数据读写管理程序向存储节点ON[t]发送非零原始数据块D_t的读取请求。

2.4.1.3存储节点ON[t]的数据读写程序接收来自控制节点的非零原始数据块D_t的读取请求，从本地磁盘读取D_t，并将D_t发送给控制节点。

2.4.1.4控制节点的数据读写管理程序接收ON[t]发送的D_t。

2.4.1.5更新非零原始数据块序号，t＝t+1。

2.4.1.6如果t>a，那么，控制节点已经获取a(0<a≤k)个非零原始数据块即D₁～D_a，转第2.4.2步；否则，转到第2.4.1.2步，继续获取非零原始数据块。

2.4.2控制节点的数据读写管理程序将最后一组原始数据块的第一个全零数据块替换为新追加的数据块AD，即，D_a+1＝AD。

2.4.3控制节点的数据读写管理程序向最后一组k个原始数据块D₁～D_k的m个冗余数据块C₁～C_m所在的存储节点发送冗余数据块删除请求，相关存储节点删除m个冗余数据块C₁～C_m，RN[s]表示冗余数据块C_s所在的存储节点，1≤s≤m，具体步骤如下：

2.4.3.1初始化信息，冗余数据块序号s＝1。

2.4.3.2控制节点的数据读写管理程序向存储节点RN[s]发送冗余数据块C_s的删除请求。

2.4.3.3存储节点RN[s]的数据读写程序接收来自控制节点的冗余数据块C_s的删除请求，从本地磁盘删除C_s。

2.4.3.4更新冗余数据块序号，s＝s+1。

2.4.3.5如果s>m，那么，存储节点已经删除m个冗余数据块C₁～C_m，转第三步；否则，转到第2.4.3.2步，继续删除冗余数据块。

2.5控制节点的数据读写管理程序将新追加的数据块AD和k-1个全零数据块构成新的原始数据块组，作为数据文件DO的最后一组k个原始数据块D₁～D_k，即，D₁＝AD，D₂～D_k均为全零数据块。

第三步，控制节点执行数据读写管理程序，利用存储的编码系数对数据文件DO的最后一组k个原始数据块D₁～D_k重新进行编码计算，得到追加后的m个冗余数据块C₁～C_m。具体步骤如下：

3.1初始化信息，具体包括：

3.1.1令冗余数据块C_j的序号j＝1。

3.1.2令原始数据块D_i的序号i＝1。

3.2控制节点的数据读写管理程序进行编码计算，将编码系数G_ji与原始数据块D_i进行逐位相乘，即，T_ji＝G_ji×D_i，得到新数据块T_ji。

3.3如果i＝1，那么，令C_j＝T_ji，转第3.4步；否则，将T_ji与C_j进行逐位相加，即，C_j＝C_j+T_ji，转第3.4步。

3.4更新原始数据块D_i的序号，i＝i+1。

3.5如果i>k，则令i＝1，j＝j+1。

3.6如果j>m，则说明编码计算生成冗余数据块结束，转第四步；否则，转第3.2步，继续编码计算生成冗余数据块。

第四步，控制节点执行数据读写管理程序，将新追加的数据块AD和编码计算得到的m个冗余数据块C₁～C_m分别写入不同的存储节点。具体步骤如下：

4.1初始化信息，具体包括：

4.1.1分布存储系统的N个存储节点构成集合SNSet。

4.1.2令冗余数据块C_y的序号y＝1。

4.2控制节点的数据读写管理程序从SNSet中任意选择一个存储节点ASN，控制节点的数据读写管理程序向存储节点ASN发送AD的写入请求，将存储节点ASN从SNSet中删除，即，SNSet＝SNSet-{ASN}。

4.3存储节点ASN的数据读写程序接收来自控制节点的AD写入请求，将AD写入本地磁盘。

4.4控制节点的数据读写管理程序从SNSet中任意选择一个存储节点SN，控制节点的数据读写管理程序向存储节点SN发送C_y的写入请求，将存储节点SN从SNSet中删除，即，SNSet＝SNSet-{SN}。

4.5存储节点SN的数据读写程序接收来自控制节点的C_y写入请求，将C_y写入本地磁盘。

4.6更新C_y的序号，y＝y+1。

4.7如果y>m，则说明m个冗余数据块已经分别写入不同的存储节点，转第五步；否则，转第4.4步，继续将冗余数据块写入存储节点。

第五步，控制节点执行数据读写管理程序，向用户发送数据追加成功信息。

与现有技术相比，本发明具有以下技术优点：

1.本发明2.4.1步控制节点从相关存储节点获取最后一组原始数据块中的非零原始数据块，最大限度降低了网络传输开销，有效保证文件追加效率。

2.现有的文件追加方法是将追加后的文件作为新文件，将追加之前的老文件的冗余数据块全部删除，对整个新文件进行重新编码。本发明第三步控制节点只对包括新追加的数据块AD在内的最后一组k个原始数据块D₁～D_k重新进行编码计算，最大限度降低了编码计算开销，有效保证文件追加效率。

3.现有的文件追加方法是将追加后的文件作为新文件，对整个新文件进行重新编码，并将新追加的数据块和编码得到的冗余数据块分别写入不同的存储节点。本发明第四步控制节点只将新追加的数据块AD和对包括新追加的数据块AD在内的最后一组k个原始数据块D₁～D_k重新进行编码计算得到的m个冗余数据块C₁～C_m分别写入不同的存储节点，最大限度降低了网络传输开销，有效保证文件追加效率。

附图说明

图1是本发明第一步构建的分布存储系统的物理结构图。

图2是本发明分布存储系统的软件部署图。

图3是本发明总流程图。

图4是本发明举例。

具体实施方式

图1是本发明第一步构建的分布存储系统的物理结构图。分布存储系统的节点由控制节点和存储节点组成。控制节点和存储节点均是包含处理器、存储器、磁盘和网络接口的计算机。控制节点和存储节点之间通过互连网络相连。

图2是本发明分布存储系统的软件部署图。控制节点上安装有操作系统、TCP/IP网络软件、数据读写管理程序。其中操作系统、TCP/IP网络软件是通用软件，从公开发行的软件包中获得；数据读写管理程序是本发明的专用软件。存储节点上安装有操作系统、TCP/IP网络软件、数据读写程序。其中操作系统、TCP/IP网络软件是通用软件，从公开发行的软件包中获得；数据读写程序是本发明的专用软件。

图3是本发明总流程图。具体流程如下：

第二步，控制节点执行数据读写管理程序，接收用户提交的向数据文件DO追加数据块AD的请求，根据数据文件DO的原始数据块分组情况，从最后一组原始数据块所在的存储节点读取原始数据块，将数据块AD追加到最后一组原始数据块，从最后一组原始数据块对应的冗余数据块所在的存储节点删除冗余数据块。

第三步，控制节点执行数据读写管理程序，利用存储的编码系数对数据文件DO的最后一组k个原始数据块D₁～D_k重新进行编码计算，得到追加后的m个冗余数据块C₁～C_m。

第四步，控制节点执行数据读写管理程序，将新追加的数据块AD和编码计算得到的m个冗余数据块C₁～C_m分别写入不同的存储节点。

图4是本发明举例。

图4(a)是不同类型数据块的图例说明。

假设数据文件DO分割为10个原始数据块，并按照每组4个原始数据块进行分组；最后一组只有2个原始数据块，则用2个全零数据块补齐(如图4(b))。对每组中的4个原始数据块进行编码计算得到2个冗余数据块(如图4(b))；对于每组的4个原始数据块及其2个冗余数据块，只需这6个数据块中的任意4个数据块，就可通过解码计算恢复得到原始的4个数据块。

向数据文件DO追加数据块AD，背景技术所述的文件追加方法是将追加后的文件作为新文件，新文件包括10个原来的非零原始数据块、1个新追加的数据块AD和1个全零数据块(如图4(c))，将追加之前的老文件的6个冗余数据块全部删除，对整个新文件进行重新编码计算得到6个新的冗余数据块(如图4(c))。本发明的基于纠删码的文件追加方法是将数据块AD追加到最后一组原始数据块，追加之后的最后一组原始数据块包括2个原来的非零原始数据块、1个新追加的数据块AD和1个全零数据块(如图4(d))，只删除追加之前的最后一组原始数据块的2个冗余数据块，并对包括新追加的数据块AD在内的最后一组4个原始数据块重新进行编码计算得到2个新的冗余数据块(如图4(d))。

Claims

1.一种基于纠删码的文件追加方法，其特征在于包括以下步骤：

第一步，构建一个分布存储系统，它由一个控制节点和N个存储节点构成，N为正整数，控制节点和存储节点都是一台可独立运行的计算机，各节点通过网络设备互连；控制节点和存储节点上均安装有操作系统、TCP/IP协议软件，配置了网络环境；控制节点负责与用户交互，安装有数据读写管理程序；存储节点负责存储数据文件的原始数据块和冗余数据块，存储节点上安装有数据读写程序；

第二步，控制节点执行数据读写管理程序，接收用户提交的向数据文件DO追加数据块AD的请求，根据数据文件DO的原始数据块分组情况，从最后一组原始数据块所在的存储节点读取原始数据块，将数据块AD追加到最后一组原始数据块，从最后一组原始数据块对应的冗余数据块所在的存储节点删除冗余数据块；

第三步，控制节点执行数据读写管理程序，利用存储的编码系数对数据文件DO的最后一组k个原始数据块D₁～D_k重新进行编码计算，得到追加后的m个冗余数据块C₁～C_m；

第四步，控制节点执行数据读写管理程序，将新追加的数据块AD和编码计算得到的m个冗余数据块C₁～C_m分别写入不同的存储节点；

2.如权利要求1所述的基于纠删码的文件追加方法，其特征在于所述第二步具体步骤如下：

2.1控制节点的数据读写管理程序接收用户提交的向数据文件DO追加数据块AD的请求；

2.2控制节点的数据读写管理程序选取数据文件DO的最后一组k个原始数据块D₁～D_k，k个原始数据块中包括a个非零原始数据块D₁～D_a和b个全零数据块D_a+1～D_k，0<a≤k，0≤b<k，a+b＝k；

2.3如果b>0，转第2.4步；否则，转第2.5步；

2.4.1控制节点的数据读写管理程序向a个非零原始数据块所在的存储节点获取原始数据块，a个非零原始数据块用D₁～D_a表示，1≤t≤a，具体步骤如下：

2.4.1.1初始化信息，非零原始数据块序号t＝1；

2.4.1.2控制节点的数据读写管理程序向ON[t]发送非零原始数据块D_t的读取请求，ON[t]表示非零原始数据块D_t所在的存储节点；

2.4.1.3存储节点ON[t]的数据读写程序接收来自控制节点的非零原始数据块D_t的读取请求，从本地磁盘读取D_t，并将D_t发送给控制节点；

2.4.1.4控制节点的数据读写管理程序接收ON[t]发送的D_t；

2.4.1.5更新非零原始数据块序号，t＝t+1；

2.4.1.6如果t>a，转第2.4.2步；否则，转到第2.4.1.2步；

2.4.2控制节点的数据读写管理程序将最后一组原始数据块的第一个全零数据块替换为新追加的数据块AD，即，D_a+1＝AD；

2.4.3.1初始化信息，冗余数据块序号s＝1；

2.4.3.2控制节点的数据读写管理程序向存储节点RN[s]发送冗余数据块C_s的删除请求；

2.4.3.3存储节点RN[s]的数据读写程序接收来自控制节点的冗余数据块C_s的删除请求，从本地磁盘删除C_s；

2.4.3.4更新冗余数据块序号，s＝s+1；

2.4.3.5如果s>m，转第三步；否则，转到第2.4.3.2步；

3.如权利要求1所述的基于纠删码的文件追加方法，其特征在于所述第三步具体步骤如下：

3.1初始化信息，具体包括：

3.1.1令冗余数据块C_j的序号j＝1；

3.1.2令原始数据块D_i的序号i＝1；

3.2控制节点的数据读写管理程序进行编码计算，将编码系数G_ji与原始数据块D_i进行逐位相乘，即，T_ji＝G_ji×D_i，得到新数据块T_ji；

3.3如果i＝1，那么，令C_j＝T_ji，转第3.4步；否则，将T_ji与C_j进行逐位相加，即，C_j＝C_j+T_ji，转第3.4步；

3.4更新原始数据块D_i的序号，i＝i+1；

3.5如果i>k，则令i＝1，j＝j+1；

3.6如果j>m，则得到追加后的m个冗余数据块C₁～C_m，编码计算生成冗余数据块结束；否则，转第3.2步。

4.如权利要求1所述的基于纠删码的文件追加方法，其特征在于所述第四步具体步骤如下：

4.1初始化信息，具体包括：

4.1.1分布存储系统的N个存储节点构成集合SNSet；

4.1.2令冗余数据块C_y的序号y＝1；

4.2控制节点的数据读写管理程序从SNSet中任意选择一个存储节点ASN，控制节点的数据读写管理程序向存储节点ASN发送AD的写入请求，将存储节点ASN从SNSet中删除，即，SNSet＝SNSet-{ASN}；

4.3存储节点ASN的数据读写程序接收来自控制节点的AD写入请求，将AD写入本地磁盘；

4.4控制节点的数据读写管理程序从SNSet中任意选择一个存储节点SN，控制节点的数据读写管理程序向存储节点SN发送C_y的写入请求，将存储节点SN从SNSet中删除，即，SNSet＝SNSet-{SN}；

4.5存储节点SN的数据读写程序接收来自控制节点的C_y写入请求，将C_y写入本地磁盘；

4.6更新C_y的序号，y＝y+1；

4.7如果y>m，说明已将新追加的数据块AD和编码计算得到的m个冗余数据块C₁～C_m分别写入了不同的存储节点，结束；否则，转第4.4步。