CN105955839B

CN105955839B - 一种基于有限域二进制加法移位的再生码容错方法

Info

Publication number: CN105955839B
Application number: CN201610301776.6A
Authority: CN
Inventors: 黄杰; 许金乐; 李凡; 倪广源; 卫锦; 朱仟; 曹山山; 闵溪青; 万弃寒; 张云龙
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2016-05-09
Filing date: 2016-05-09
Publication date: 2018-12-14
Anticipated expiration: 2036-05-09
Also published as: CN105955839A

Abstract

本发明公开了一种适用于分布式存储系统的基于有限域下二进制加法移位的再生码容错方法。该方法基于乘积矩阵框架，在二进制加法移位BASIC再生码的基础上引入有限域运算，克服了BASIC再生码方案在编码矩阵行列式不存在乘法逆元的情况下会造成无法恢复数据的问题，而且并没有引入额外的计算开销。

Description

一种基于有限域二进制加法移位的再生码容错方法

技术领域

本发明涉及分布式存储领域，特别是涉及针对分布式存储系统的一种再生码容错方法。

背景技术

大数据下的分布式存储系统是由大规模的服务器构成，在动态的网络环境下服务器宕机是频繁发生的，将再生码容错性技术引入到分布式存储系统的主要目的是保证分布式存储系统的可靠性。

现有的实现数据容错技术主要的途径就是通过增加分布式存储系统中的数据冗余来实现，但也增大了存储负担，所以需要提高其效率，用更小的数据冗余来保证更高的可靠性，最终降低系统成本。常见的分布式存储系统的容错技术主要有基于复制的容错技术、基于纠删码的容错技术和再生码的容错技术。

其中Rashmi等人提出了一种通用的乘积矩阵框架的再生码来实现精确的容错修复过程，简化再生过程，而2013年Hou等人在乘积矩阵再生码的基础上提出了BASIC(BinaryAddition and Shift Implementable Convolutional)再生码，通过使用移位操作来代替有限域内的运算，提升计算效率且更易于实现，但是BASIC再生码在编码矩阵的行列式不存在乘法逆元时，将出现无法恢复数据的问题，这将造成原始数据永久丢失。

在BASIC再生码的基础上，我们提出了G-BASIC(Galois field’s BinaryAddition and Shift Implementable Convolutional)再生码方案，解决无法恢复数据的问题，并不引入额外的计算开销。

发明内容

发明目的：本发明提供一种应用于分布式存储系统的再生码容错方法，该方法采用有限域下的二进制加法移位运算，可以快速实现数据的修复和重建，并且解决传统BASIC再生码方案可能出现无法恢复数据的问题，同时未引入额外的计算开销。

技术方案：为实现上述发明目的，本发明采用如下技术方案：

一种基于有限域二进制加法移位的再生码容错方法，该方法在二进制加法移位BASIC再生码的基础上引入有限域运算，编码过程的步骤如下：

(1)根据子数据包长度l，将长度为n的数据包分为n'个子数据包，每个子数据包对应一个子消息矩阵；

(2)将编码矩阵分别与这n'个子消息矩阵相乘积进行编码，生成n'个子存储矩阵；其中矩阵的乘积采用有限域下的二进制加法移位运算。

进一步地，上述方法中，根据子数据包长度l选取有限域GF(2^l)。

进一步地，上述方法中，所述有限域下的二进制加法移位运算方法根据如下公式实现二进制序列a(x)＝a₀+a₁x+a₂x²+...+a_l-1x^l-1和b(x)＝b₀+b₁x+b₂x²+...+b_l-1x^l-1的乘积：

其中，u为a(x)的系数{a_i}中为1的个数；这些为1的系数记为满足0≤v₀＜v₁＜...＜v_u-1≤l-1；为长度为l有限域的不可约多项式。

进一步地，根据如下公式计算：

其中，满足x^lmodm(x)＝n(x)。

进一步地，上述方法中，修复过程的步骤如下：

(1)失效节点f连接任意d个修复节点集合{h_j|j＝1,...,d}，修复节点h_j计算内部乘积值其中矩阵的乘积采用有限域下的二进制加法移位运算；为修复节点h_j对应的编码行向量，M为消息矩阵，为失效节点的编码列向量；

(2)替代节点从d个修复节点中获取d个内部乘积值组成乘积向量ξ；

(3)替代节点通过对乘积向量ξ左乘(det(Ψ_repair))^-1adj(Ψ_repair)，得到失效节点数据，其中Ψ_repair是d×d的可逆矩阵。

有益效果：本发明方法通过定义有限域中的相关运算，针对BASIC再生码方案在编码矩阵的行列式不存在乘法逆元时，出现无法完成数据重建的问题，G-BASIC再生码在引入有限域后，保证在任何情况下均可正确的实现数据重建。并且，BASIC再生码和G-BASIC再生码，进行1bit数据的异或运算的次数相同，本发明方法并不引入额外的计算开销。

附图说明

图1是BASIC再生码和G-BASIC再生码完成编码过程的时间曲线对比图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明实施例公开的一种基于有限域二进制加法移位的再生码容错方法，该方法在二进制加法移位BASIC再生码的基础上引入有限域运算，以快速实现编码和重建，客服BASIC再生码方案在编码矩阵行列式不存在乘法逆元的情况下会造成无法恢复数据的问题，而且并没有引入额外的计算开销。本发明方法在编码阶段的主要步骤如下：

(1)将长度为n的数据包拆分为n'个子数据包，子数据包长度为l，一般可取2的整数幂，其中：

对应的消息矩阵M，也可拆分为n'个子消息矩阵，即：

M＝{M₁,M₂,...,M_n'}

(2)G-BASIC的编码过程相当于对这n'个子消息矩阵分别做编码，即：

C_i＝ΨM_i

其中，Ψ为编码矩阵，C_i为子存储矩阵，产生的n'个子存储矩阵构成了存储矩阵C，即：

C＝{C₁,C₂,...,C_n'}

编码过程中，根据子数据长度l选取有限域GF(2^l)，并确定有限域对应长度为l的不可约多项式m(x)。如在l＝3时，m(x)可取1+x+x³。

具体编码过程的乘法移位运算如下所示：

本发明方法在修复阶段的主要步骤如下：

(1)失效节点连接任意d个修复节点集合，修复节点h_j计算内部乘积值ε_j。

(2)替代节点从d个修复节点中获取d个内部乘积值ε组成乘积向量ξ。

(3)替代节点通过对乘积向量ξ左乘(det(Ψ_repair))^-1adj(Ψ_repair)，得到失效节点数据。

具体的：令失效节点的编码列向量，表示的转置，那么存储在失效节点的存储向量c_f，满足：

失效节点f连接任意d个修复节点集合{h_j|j＝1,...,d}，修复节点h_j计算内部乘积值ε_j，满足：

其中为修复节点h_j对应的编码行向量。

替代节点从d个修复节点中获取d个内部乘积值ε组成乘积向量ξ，满足：

其中：

修复矩阵Ψ_repair是(d×d)的可逆矩阵，在构建时M是对称矩阵，满足：

替代节点通过对ξ左乘(det(Ψ_repair))^-1adj(Ψ_repair)，得到向量c'_f，即：

c'_f＝(det(Ψ_repair))^-1adj(Ψ_repair)ξ

最终，可以推导出：

这样就修复了失效节点的存储数据。

下面以n＝6,k＝3,d＝4的再生码为例，模拟BASIC再生码和G-BASIC再生码的编码过程。

首先对于BASIC再生码和G-BASIC再生码进行条件约定，对于BASIC再生码，需要根据测试数据包的长度选择适合的模2ⁿ运算。而对于G-BASIC再生码，因为计算机读取数据时以字节为单位，所以选择子数据包长为8比较方便，故G-BASIC再生码采用基于GF(2⁸)有限域的运算，对应的不可约多项式m(x)＝1+x⁸。

然后将数据分为9个数据包，构建消息矩阵M。

再确定编码矩阵，本次仿真设置编码矩阵Ψ满足：

为不失一般性，测试数据量的大小分别设置为0.1KB、1KB、10KB、100KB、1000KB、10^3.1KB、10^3.2KB、10^3.3KB、10^3.4KB、10^3.5KB、10^3.6KB、10^3.7KB、10^3.8KB、10^3.9KB、10MB。

最终获得在上述不同大小的数据量下，BASIC再生码和G-BASIC再生码完成编码过程的时间曲线，如图1所示。从图中可以看出，BASIC再生码和G-BASIC再生码在相同数据量的条件下编码耗时基本一致，这表明了在实际仿真测试中G-BASIC再生码在解决BASIC再生码存在的问题后没有引入过多的额外计算开销。

Claims

1.一种基于有限域二进制加法移位的再生码容错方法，其特征在于：该方法在二进制加法移位BASIC再生码的基础上引入有限域运算，编码过程的步骤如下：

(2)将编码矩阵分别与这n'个子消息矩阵相乘积进行编码，生成n'个子存储矩阵；其中矩阵的乘积采用有限域下的二进制加法移位运算；

根据子数据包长度l选取有限域GF(2^l)；

所述有限域下的二进制加法移位运算方法根据如下公式实现二进制序列a(x)＝a₀+a₁x+a₂x²+...+a_l-1x^l-1和b(x)＝b₀+b₁x+b₂x²+...+b_l-1x^l-1的乘积：

其中，u为a(x)的系数{a_i}中为1的个数；这些为1的系数记为满足0≤v₀＜v₁＜...＜v_u-1≤l-1；

为长度为l有限域的不可约多项式；

根据如下公式计算：

其中，满足x^lmod m(x)＝n(x)。

2.根据权利要求1所述的一种基于有限域二进制加法移位的再生码容错方法，其特征在于：修复过程的步骤如下：