CN111475330A

CN111475330A - 基于Harary图生成树的FRSH码的系统、构造及故障节点修复方法

Info

Publication number: CN111475330A
Application number: CN202010163247.0A
Authority: CN
Inventors: 王静; 张鑫楠; 沈克勤; 孙伟; 何亚锦
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-31
Anticipated expiration: 2040-03-10
Also published as: CN111475330B

Abstract

本发明公开了基于Harary图生成树的FRSH码的系统、构造及故障节点修复方法。通过根据不同构造参数Harary图构造出不同的重复码，且构造的FR码能够在很大范围内选择数据块的重复度。当某单节点或多个节点发生故障时，从a×ρ‑1个存活节点中采集编码块，并将采集到的编码块传送给新节点，完成节点故障的修复；可局部修复的部分重复码，参数选取范围很大，解决了目前部分重复码构造参数选取有限的问题，还能容多个节点故障，且每个故障节点有多种修复方案。进一步与RS码和SRC相比，本发明构造的FRSH码具有更低的修复局部性、修复复杂度与修复带宽开销，且修复效率高、修复时间短。

Description

基于Harary图生成树的FRSH码的系统、构造及故障节点修复方法

技术领域

本发明属于计算机领域，涉及一种基于Harary图生成树的FRSH码的系统、构造及故障节点修复方法，具体涉及一种基于Harary图的部分重复码的构造方法、系统及故障节点修复方法。

背景技术

目前，海量数据存储是将数据分布式地存储在系统中的不同节点上，允许用户随时随地访问数据，这种数据存储的方式已广泛应用于实际系统，如 Google文件系统、Hadoop分布式文件系统等。为了确保系统的可靠性和可用性，数据的存储方式通常使用复制或Reed-Solomon(RS)码之类的纠删码。复制产生的存储代价过高，RS码在存储空间方面更有优势，但是在修复单个故障节点过程中必须还原整个文件，带宽开销过大。2007年，Dimakis等人表明存储空间和修复带宽之间存在某种平衡，平衡曲线上的点可通过一类代码来实现，称为再生码。它基于网络编码概念，故障节点的修复通过连接指定数目的任何存活节点来恢复丢失数据，并且数据收集者能够从n个存储节点中的任何k个节点下载数据来重建原始文件。再生码的设计理念是最小化修复带宽，然而其修复过程在有限域内进行大量线性运算，运算复杂度高，而且需要读取的数据量通常远远大于发送给再生节点的数据量，因此磁盘 I/O开销较大，修复时间较长。

为了降低修复过程运算复杂度，El Rouayheb和Ramchandran在MBR 码的基础上提出了部分重复码的概念，部分重复码结合了再生码和复制策略的优点，并可以提供精确有效的无编码修复，大大提高了修复效率并缩短了修复时间，在硬件方面的作用体现在加快了计算机的运行速度。然而目前的部分重复码依然存在着设计参数选取有限，故障节点修复方案单一等局限性。

发明内容

针对现有技术中存在着设计参数选取有限，故障节点修复方案单一等局限性的问题，本发明的目的在于，提出基于Harary图的部分重复码的构造方法、系统及故障节点修复方法。

为了实现上述目的，本发明采用如下技术方案：

基于Harary图生成树的部分重复码的构造方法，包括以下步骤：

步骤1：将原始文件分成i个原始数据块，对i个原始数据块进行(n,i)MDS 编码，得到n个编码块C₁,C₂,…，C_n，其中，n、i为正整数且i<n，每个编码块包含原始数据块；

步骤2：建立包括m个顶点和节点度为k的Harary图H_k,m，用1，2，…， m沿顺时针方向依次对Harary图的m个顶点编号，其中，k和m均为正整数，且k为偶数，m与n的个数相等，每个顶点存储与其编号相同的编码块；

步骤3：以Harary图的1号顶点为起始顶点得出图H_k,m的第一个生成树 G，生成树G中的任一顶点为v，并将所述的第一个生成树G中的顶点按离心率分为a个组，所述的组中包含G中顶点的离心率相同，令1至a个组分别对应1至a个节点，每个节点存有按编号从小到大的顺序排列的顶点所存储的编码块，得到所述的第一生成树的a个节点，其中，1≤v≤m，a≥1；

步骤4：根据部分重复码的重复度ρ更换起始顶点，重复ρ-1次步骤3，最终获得ρ个生成树的a×ρ个节点，共存有ρ×m个编码块，完成部分重复码的构造，其中，ρ>1。

进一步的，步骤3中以Harary图的1号顶点为起始顶点得出图H_k,m的第一个生成树G的构建方法为：

步骤3.1：画出边(1,v+1)和(1,m-v+1)，其中，v表示生成树G中的顶点编号，

步骤3.2：画出边(m-p+1,m-p-j+1)和(m-p-j+1,m-p-2j+1)，…直到形成 m-p+1到1的路径，其中p和j为间隔参数，

步骤3.3，重复步骤3.2，画出边(m-q+1,m-q-j+1)和(m-q-j+1,m-q-2j+1)，… 当存在从m-q+1到1的路径时停止，否则转至步骤3.1，其中，q为间隔参数，q＝p+1。

基于Harary图生成树的部分重复码的系统，包括构造模块和读取模块；

所述的构造模块用于执行权本发明所述的基于Harary图生成树的部分重复码的构造方法；

所述的读取模块用于读取构造模块中的编码块。

故障节点修复方法，按照本发明所述的基于Harary图生成树的部分重复码的构造方法，将包含n个编码块的原始文件分别存储到分布式存储系统的a×ρ个节点中，共存有ρ×m个编码块，

当某单节点发生故障时，从a×ρ-1个存活节点中采集编码块，并将采集到的编码块传送给新节点，完成单节点故障的修复；

当多个节点发生故障时，从小于a×ρ-1个存活节点中采集编码块，并将采集到的编码块传送给多个新节点，完成任多个节点故障的修复。

与现有技术相比，本发明的有益效果是：

(1)相比现有的构造方式，基于Harary图生成树的部分重复码设计更加简洁直观。并且这种修复机制是未编码的,也就是一个存活节点参到修复过程只是简单地从内存中读取一个数据包,然后将其发送到新节点。新节点将直接存储接收到的数据包而不需要其它任何处理。

(2)由Harary图所得到的部分重复码的参数选取范围也很大，解决了目前部分重复码构造参数选取有限的问题，还能修复多个节点故障，且每个故障节点有多种修复方案,减少了故障节点的修复时间。

(3)相比直接使用Harary图构造FR码，将Harary图转化为生成树更加简洁直观，并且有利于之后为各顶点的离心率进行分组。

附图说明

图1实施例1中包括8个顶点和节点度为4时数据填充完毕的H_4,8；

图2是实施例1中H_4,8以顶点1为起始顶点得到的生成树；

图3是实施例1中H_4,8以顶点3为起始顶点得到的生成树；

图4实施例2中包括11个顶点和节点度为4时数据填充完毕的H_4,11；

图5是实施例2中H_4,11以顶点1为起始顶点得到的生成树；

图6是实施例2中H_4,11以顶点3为起始顶点得到的生成树；

图7是实施例2中H_4,11以顶点5为起始顶点得到的生成树；

图8是当单节点或两节点出现故障时，SRC、RS码与FRSH码的修复局部性性能比较；

图9是当单节点或两节点出现故障时，SRC、RS码与FRSH码的修复带宽开销对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明中，对于连通图G的一个顶点v，v的离心率e_v定义为G中v 到其它所有顶点的最远距离的取值。在G的所有顶点中，最小离心率定义为G的半径，最大离心率定义为G的直径，分别记为rad(G)和diam(G)。

实施例1：

本实施例公开了一种基于Harary图生成树的部分重复码的构造方法，包括以下步骤：

步骤1：将原始文件分成i个原始数据块，对i个原始数据块进行(n,i)MDS 编码，得到n个编码块C₁,C₂,…，C_n，其中，n、i为正整数且i<n；

具体的，步骤3中以Harary图的1号顶点为起始顶点得出图H_k,m的第一个生成树G的构建方法为：

优选的，步骤4包括获得生成树G的关联矩阵M，M＝(m_s,t)，并将关联矩阵M等价为部分重复码的关联矩阵，

其中，1≤s≤aρ,1≤t≤m，a表示生成树G的离心率个数，v_t代表生成树G中的任一顶点，e_s代表任一离心率取值，

关联矩阵的M的行向量对应部分重复码的存储节点，关联矩阵的M的列向量对应部分重复码的编码块，行向量的重表示表示节点存储容量d，列向量的重表示编码块重复度ρ，由此即可得到重复度为ρ的部分重复码。

本实施例还公开了基于Harary图生成树的部分重复码的系统，包括构造模块和读取模块；其中，构造模块用于执行本发明的基于Harary图生成树的部分重复码的构造方法；读取模块用于读取构造模块中的编码块。

本实施例还公开了一种故障节点修复方法，将包含n个编码块的原始文件分别存储到分布式存储系统的a×ρ个节点中，共存有ρ×m个编码块，

当多个节点发生故障时，从a×ρ-1个存活节点中采集编码块，并将采集到的编码块传送给多个新节点，完成任多个节点故障的修复。

实施例2

本实施例公开了一种基于Harary图生成树的部分重复码的构造方法，具体地，本实施例中，k＝4,m＝8。

步骤1：将大小为10M的文件存储于分布式存储系统中，首先对原文件进行(8,10)MDS编码，再将这8个编码块用1，2，3，…8表示；

步骤2：建立包括8个顶点和节点度为4的Harary图H_4,8，用1，2，…， 8沿顺时针方向依次对Harary图的8个顶点编号，其中，k和m均为正整数，且k为偶数，m与n的个数相等，每个顶点存储与其编号相同的编码块，即 1号顶点存储1号编码块，2号顶点存储2号编码块，依次类推；如图1所示；

步骤3：以Harary图的1号顶点为起始顶点得出图H_4,8的第一个生成树 G，生成树G中的任一顶点为v，1≤v≤8；并将第一个生成树G中的顶点按离心率分为a个组，所述的组中包含G中顶点的离心率相同，令1至a 个组分别对应1至a个节点，每个节点存有按编号从小到大的顺序排列的顶点所存储的编码块，得到第一生成树的a个节点；

更具体的，步骤3中以Harary图的1号顶点为起始顶点得出图H_4,8的第一个生成树G的构建方法为：

步骤3.1：画出边(1,v+1)和(1,m-v+1)，其中，v表示生成树G中的顶点编号，v＝1,2，m＝8；

步骤3.2：画出边(m-p+1,m-p-j+1)和(m-p-j+1,m-p-2j+1)，…直到形成 m-p+1到1的路径，其中p和j为间隔参数，p＝k/2+1＝3，j＝k/2＝2；

步骤3.3，重复步骤3.2，画出边(m-q+1,m-q-j+1)和(m-q-j+1,m-q-2j+1)，… 当存在从m-q+1到1的路径时停止，否则转至步骤3.1，其中，q为间隔参数，q＝p+1＝4。如图2所示；

步骤4包括获得生成树G的关联矩阵M，M＝(m_s,t)，并将关联矩阵M 等价为部分重复码的关联矩阵，以图2，H_4,8以顶点1为起始顶点得到的生成树为例，生成树顶点v_t的离心率e_s共有三个取值：e₁＝2、e₂＝3、e₃＝4。图2中v₁、v₂的离心率都为2，即v₁、v₂与e₁相关联，故有m_1,2＝m_1,3＝1。以此类推便可得到离心率分组矩阵m₁；

其中，1≤s≤aρ,1≤t≤m，a表示相同离心率的分组数，v_t代表生成树 G中的任一顶点，e_s代表任一离心率取值，

关联矩阵的M的行向量对应部分重复码的存储节点，关联矩阵的M的列向量对应部分重复码的编码块，行向量的重表示节点存储容量d，列向量的重表示编码块重复度ρ，由此即可得到重复度为ρ的部分重复码。把m₁矩阵的每个横坐标当作FR码每个存储节点N_s(1≤s≤6)。构造的FR码的重复度 ρ＝2，构成的部分重复码如下：

B₁＝{2,3},B₄＝{6,7},

B₂＝{1,4,5},B₅＝{1,5,8},

B₃＝{6,7,8},B₆＝{2,3,4}.

由上可见本实施例基于Harary图生成树构造的部分重复码是异构的，都包含ρ个平行类，且本实施例最多可以容忍ρ-1＝1个节点发生故障。

因此，本实施例还公开了故障节点修复方法，按照本发实施例基于 Harary图生成树的部分重复码的构造方法，将包含8个编码块的原始文件分别存储到分布式存储系统的6个节点中(B1、B2....B6)，共存有2×8＝16个编码块，

(1)当单个节点发生故障时，故障节点需连接1个或2个不同节点，分别下载一个或两个数据块即可完成修复。

(2)当故障节点包含不同数据块个数d≤2时仅需连接一个节点下载两个数据块即可修复，例如B1故障时，连接B6并下载2,3即可修复故障节点；

(3)当故障节点包含不同数据块个数d>2时，需连接两个节点分别下载1个或2个数据块进行修复。例如B2故障时，需连接B5、B6并下载1,5 和4即可修复故障节点。

此外，本实施例还公开了基于Harary图生成树的部分重复码的系统，包括构造模块和读取模块；构造模块用于执行权本发明所述的基于Harary 图生成树的部分重复码的构造方法；读取模块用于读取构造模块中的编码块。

实施例3

构造Harary图的步骤1和2如实施例2，不同的是本实施例中的顶点个数为11个，节点度为4，数据填充完毕的H_4,11如图4所示。

步骤3：以Harary图的1号顶点为起始顶点得出图H_4,11的第一个生成树G，生成树G中的任一顶点为v，1≤v≤11；并将第一个生成树G中的顶点按离心率分为a个组，所述的组中包含G中顶点的离心率相同，令1至a 个组分别对应1至a个节点，每个节点存有按编号从小到大的顺序排列的顶点所存储的编码块，得到第一生成树的a个节点；

更具体的，步骤3中以Harary图的1号顶点为起始顶点得出图H_4,11的第一个生成树G的构建方法为：

步骤3.1：画出边(1,v+1)和(1,m-v+1)，其中，v表示生成树G中的顶点编号，v＝1,2，m＝11；

步骤3.3，重复步骤3.2，画出边(m-q+1,m-q-j+1)和(m-q-j+1,m-q-2j+1)，… 当存在从m-q+1到1的路径时停止，否则转至步骤3.1，其中，q为间隔参数，q＝p+1＝4。如图5所示；

步骤4：根据部分重复码的重复度ρ(ρ＝3)更换起始顶点，重复ρ-1＝2，也就是重复2次步骤3，得到个另外2生成树，图6是以顶点3为起始顶点得到的生成树，图7是以顶点5为起始顶点得到的生成树。最终获得ρ个生成树的9个节点，共存有33个编码块，完成部分重复码的构造。

步骤4包括获得生成树G的关联矩阵M，M＝(m_s,t)，并将关联矩阵M 等价为部分重复码的关联矩阵，以图5中的H_4,11以顶点1为起始顶点得到的生成树为例，本例中所有生成树顶点的离心率e_s共有三个取值：e₁＝3、 e₂＝4、e₃＝5。图5中顶点2、3、4、5的离心率都为e₁＝3，即v₂、v₃、v₄、 v₅与e₁相关联，故有m_1,2＝m_1,3＝m_1,4＝m_1,5＝1，以此类推便可得到关联矩阵M。

关联矩阵的M的行向量对应部分重复码的存储节点，关联矩阵的M的列向量对应部分重复码的编码块，行向量的重表示节点存储容量d，列向量的重表示编码块重复度ρ，由此即可得到重复度为ρ的部分重复码。把m₁矩阵的每个横坐标当作FR码每个存储节点N_s(1≤s≤9)。构造的FR码的重复度 ρ＝3，构成的部分重复码如下：

B₁＝{2,3,4,5},B₄＝{4,5,6,7},B₇＝{6,7,8,9}

B₂＝{1,6,7},B₅＝{3,8,9},B₈＝{5,10,11}

B₃＝{8,9,10,11},B₆＝{1,2,10,11},B₉＝{1,2,3,4}；

由上可见，利用此参数的Harary图生成树构造的部分重复码依然是异构的，都包含ρ个平行类，且本实施例最多可容忍ρ-1＝1节点发生故障。

因此，本实施例还公开了故障节点修复方法，按照本发实施例基于 Harary图生成树的部分重复码的构造方法，将包含11个编码块的原始文件分别存储到分布式存储系统的9个节点中(B1、B2....B9)，共存有3×11＝33 个编码块，

(1)当单个节点发生故障时，新生节点从剩余平行类中下载对应数据块，即可完成修复。如节点B₁故障时，损坏的数据块2、3、4、5可从剩余两个平行类B₄、B₅、B₆或B₇、B₈、B₉中下载。这里选择连接存活节点B₄、 B₉并分别下载4、5、2、3，即可修复故障节点B₁。

(2)当多个节点发生故障时，由于仍至少存在一个平行类包含全部数据块，而本方法构造的FR码的一个平行类中包含的节点个数等于相同离心率分组数a，故至多连接a个节点即可完成修复。

具体地，当多个故障节点所包含的数据块个数d<α_min+α_max,这里α_min和 α_max分别表示FRSH码中节点存储的最小数据块个数和最大数据块个数时，仅需连接a-1个故障节点即可完成修复。

如当存储节点B₂和B₅故障时，故障节点B₂和B₅共包含d＝6个数据块，满足d<α_min+α_max。此时，修复故障节点B₂和B₅需要连接a-1＝2个存活节点。这里选择存活节点B₇和B₉，并分别从存活节点B₇和B₉下载数据块6、7、 8、9和1、3，实现故障节点B₂和B₅的修复。

(3)当多个节点发生故障，且多个故障节点所包含的数据块个数 d≥α_min+α_max时，需连接a-1或a个不同节点即可完成故障节点修复。同样先考虑节点B₄和B₅发生故障，此时故障节点B₄和B₅包含d＝7个数据块，满足d≥α_min+α_max。为修复故障节点B₄和B₅需要连接a-1＝2个存活节点，这里选择存活节点B₁和B₇，并分别从B₁和B₇下载数据块3、4、5和6、7、8、 9，即可修复故障节点B₄和B₅。另当B₂和B₇发生故障时，此时故障节点 B₂和B₇包含d＝7个数据块，同样满足d≥α_min+α_max。而此时修复B₂和B₇需连接a＝3个存活节点B₄、B₅和B₆，并分别下载6、7、8、9和1便可修复B₂和B₇。

对基于Harary图生成树的FRSH码的性能进行分析，主要考虑其修复局部性、修复复杂度以及修复带宽开销，并与最常见的里德所罗门码(RS) 以及简单再生码(SRC)进行性能比较。表1给出了SRC、RS码与FRSH 码的节点存储开销、修复带宽开销以及修复局部性。

表1几种编码方案的性能分析

修复局部性是指节点故障修复时的磁盘I/O开销，由修复故障节点时所需连接的存活节点数目决定。在分布式存储系统中，假设原文件大小为 M＝1000Mb，存储节点数n＝11，SRC子文件数f＝3，RS码和SRC的原文件重构度为k＝8，FRSH码外部采用(11,8)MDS编码。本实施例仅考虑单节点和两节点故障。

当单节点出现故障时，对于SRC，原文件分为f个子文件，每个子文件均采用RS码，则修复一个故障节点需要从2f个节点下载数据块，取f＝3，则SRC的修复局部性为6；对于(11,8)RS码，则需要连接k＝8个节点先恢复出原文件来修复出现故障的节点，所以修复局部性是8；基于Harary图生成树构造的FRSH码需要连接2个节点来修复故障节点，修复局部性为2。

当两节点发生故障时，SRC需要连接k＝8个存活节点来恢复原文件，从而进一步修复出现故障的节点，因此它的修复局部性是8；对于(11,8)RS码同样需要连接8个节点来修复出现故障的节点，所以它的修复局部性依然是 8；基于Harary图生成树构造的FRSH码的修复局部性最大为3，为了方便比较，在这里我们取最大值恒为3进行比较。由图8可见，无论是单节点故障还是两节点故障，基于Harary图生成树构造的FRSH码的修复局部性都优于SRC和RS码。

修复带宽开销指的是修复故障节点时所需下载的数据量的大小。

当单节点出现故障时，若采用SRC，其每个节点存储f+1个数据块，则当一个数据块失效时需要下载f个数据块来进行修复，且每一个数据块的大小为M/fk，故简单再生码SRC修复单节点故障的带宽开销为(f+1)M/k；(n,k) RS码在修复单节点故障时需下载整个原文件，则RS码修复单故障节点的带宽开销为M；对于基于Harary图生成树构造的FRSH码，其原始数据块数为k，单节点故障时需要连接2个存活节点，则FRSH码修复单节点故障的带宽开销为2M/k。

当两个节点发生故障时，RS码的修复带宽开销仍为M。而对于SRC，则依据两故障节点间的节点数分为两种情况：若两故障节点之间的节点数大于f-1，这两个故障节点则可以按照单节点故障的修复方式分别单独进行修复，修复带宽开销为2(f+1)M/k；否则，需要恢复原文件来修复故障节点，则修复带宽开销为M。对基于Harary图生成树构造的FRSH码，修复带宽开销为3M/k。

假设存储节点数n＝11，SRC子文件数f＝3，RS码和SRC的原文件重构度为k＝8。当单节点故障时，RS码的带宽开销为1000Mb，SRC的带宽开销为500Mb，FRSH码的带宽开销为250Mb；当两个节点故障时，(11,8)RS 码修复带宽开销为1000Mb，SRC的带宽开销同样为为1000Mb，为方便对比FRSH码的带宽开销取较大值3M/k＝375Mb。如图9所示，无论单节点还是两节点故障，FRSH码均具有较优的修复带宽开销。

对系统中故障节点进行修复时，RS码需要大量的有限域运算，修复复杂度较高，因此修复时间较长；SRC简单再生码需要简单的异或操作，也一定程度上增加了修复复杂度和修复时间；FRSH码的无编码修复过程仅涉及文件的读取，修复复杂度最低，从而大大降低了故障节点的修复时间。

Claims

1.基于Harary图生成树的部分重复码的构造方法，其特征在于，包括以下步骤：

步骤1：将原始文件分成i个原始数据块，对i个原始数据块进行(n,i)MDS编码，得到n个编码块C₁,C₂,…，C_n，其中，n、i为正整数且i<n；

步骤2：建立包括m个顶点和节点度为k的Harary图H_k,m，用1，2，…，m沿顺时针方向依次对Harary图的m个顶点编号，其中，k和m均为正整数，且k为偶数，m与n的个数相等，每个顶点存储与其编号相同的编码块；

步骤3：以Harary图的1号顶点为起始顶点得出图H_k,m的第一个生成树G，生成树G中的任一顶点为v，并将所述的第一个生成树G中的顶点按离心率分为a个组，所述的组中包含G中顶点的离心率相同，令1至a个组分别对应1至a个节点，每个节点s存有按编号从小到大的顺序排列的顶点所存储的编码块，得到所述的第一生成树的a个节点，其中，1≤v≤m，a≥1；

2.如权利要求1所述的基于Harary图生成树的部分重复码的构造方法，其特征在于，步骤3中以Harary图的1号顶点为起始顶点得出图H_k,m的第一个生成树G的构建方法为：

步骤3.2：画出边(m-p+1,m-p-j+1)和(m-p-j+1,m-p-2j+1)，…直到形成m-p+1到1的路径，其中p和j为间隔参数，

步骤3.3，重复步骤3.2，画出边(m-q+1,m-q-j+1)和(m-q-j+1,m-q-2j+1)，…当存在从m-q+1到1的路径时停止，否则转至步骤3.1，其中，q为间隔参数，q＝p+1。

3.基于Harary图生成树的部分重复码的系统，其特征在于，包括构造模块和读取模块；

所述的构造模块用于执行权利要求1～2任一所述的基于Harary图生成树的部分重复码的构造方法；

所述的读取模块用于读取构造模块中的编码块。

4.故障节点修复方法，其特征在于，按照权利要求1或2任一所述的基于Harary图生成树的部分重复码的构造方法，将包含n个编码块的原始文件分别存储到分布式存储系统的a×ρ个节点中，共存有ρ×m个编码块，