CN109522150A

CN109522150A - 基于超图的自适应可分解部分重复码构造及故障修复方法

Info

Publication number: CN109522150A
Application number: CN201811209226.7A
Authority: CN
Inventors: 王静; 王甜甜; 王淑霞; 张雪飞
Original assignee: Changan University
Current assignee: Hefei Minglong Electronic Technology Co ltd
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2019-03-26
Anticipated expiration: 2038-10-17
Also published as: CN109522150B

Abstract

本发明属于计算机领域，具体涉及一种基于超图的自适应可分解部分重复码构造方法，包括如下步骤：步骤1：通过超图染色的方法构造出染色的线性(d,ρ)‑超图，所述的染色的线性(d,ρ)‑超图包含顶点和染色链路；步骤2：确定染色的线性(d,ρ)‑超图中顶点和染色链路与FR码中节点和数据块之间的对应关系，得到FR码的编码结构。本方法使FR码能够灵活地适应动态分布式存储系统，有效降低FR码编码过程的计算复杂度。本发明还包括一种基于超图的FR码故障修复方法，通过有限的存活节点快速实现故障节点的数据重构，有效减少了修复过程中的修复时间。

Description

基于超图的自适应可分解部分重复码构造及故障修复方法

技术领域

本发明属于计算机领域，具体涉及一种基于超图的自适应可分解部分重复码构造及故障修复方法。

背景技术

随着海量数据的出现及信息数据的爆炸性增长，分布式存储系统因其廉价性和高扩展性等特点得到了广泛的应用。在分布式存储系统中，人们普遍追求数据存储的可靠性和可用性。

最初，采取三副本复制策略和纠删码提高系统可靠性，然而复制策略的存储代价过高，纠删码的修复带宽开销过大。随后，Dimakis等人提出了再生码，显著降低了故障节点的修复带宽开销。通过对修复带宽和存储开销进行分析，Dimakis等人于2010年又提出了最小存储再生(Minimum Storage Regeneration,MSR)码和最小带宽再生(MinimumBandwidth Regeneration,MBR)码。再生码(包括MSR码和MBR码)，在故障节点修复过程通常涉及大量有限域运算，计算复杂度较高。为了进一步降低故障节点修复过程中的计算复杂度和修复带宽开销，Rouayheb和Ramchandran于2010年提出了一种精确MBR码——FR码，能够容忍多故障节点的低复杂度无编码修复。传统的FR码主要针对静态存储系统，节点存储容量和编码块的重复度保持不变。在分布式存储系统中，节点故障必然导致数据丢失，因此系统时刻处于动态的变化中。FR码的主要缺点是其参数不能灵活地适应动态分布式存储系统。针对上述不足，朱兵提出了每节点具有自适应存储容量的FR码——自适应FR码。随后，OktayOlmez提出了基于组合设计构造FR码，将基于可分解设计构造的FR码称为可分解FR码。考虑到FR码中节点存储容量和编码块重复度能随分布式存储系统动态地改变，Yi-Sheng Su提出了自适应可分解FR码，并提出该码的两种构造方法，分别是基于循环置换矩阵(circulant permutation matrices,CPMs)与仿射置换矩阵(affine permutationmatrices,APMs)。当分布式存储系统规模较大时，基于CPMs和APMs构造自适应可分解FR码涉及大量的有限域运算，构造过程的计算复杂度较高，且自适应可分解FR码的存在受到条件限制。

发明内容

针对上述现有技术中存在的自适应可分解部分重复码涉及大量的有限域运算，构造过程的计算复杂度较高，且自适应可分解部分重复码的存在受到条件限制的问题，本发明提供一种基于超图的自适应可分解部分重复码构造方法，包括如下步骤：

步骤1：通过超图染色的方法构造出染色的线性(d,ρ)-超图，所述的染色的线性(d,ρ)-超图包含顶点和链路；

步骤2：确定步骤1得到的染色的线性(d,ρ)-超图中顶点和染色链路与自适应可分解部分重复码中节点和数据块之间的对应关系，即超图中顶点对应于自适应可分解部分重复码中数据块，超图中染色链路对应于自适应可分解部分重复码中节点，超图中染色链路所包含的顶点对应于自适应可分解部分重复码中节点所存储的数据块，得到自适应可分解部分重复码的编码结构。

进一步的，步骤1包括如下子步骤：

步骤1.1：构造线性(d,ρ)-超图G＝(V,E)的模型，包括顶点集V＝{v₁,v₂,…,v_θ}和链路集E＝{e₁,e₂,…,e_n}；

步骤1.2：将步骤1.1的顶点集和链路集分为多个顶点子集和多个链路子集；

步骤1.3：对步骤1.2中得到的每个链路子集中的链路分配顶点；

步骤1.4：对步骤1.3得到的每个链路子集分配颜色，得到染色链路；

步骤1.5：通过步骤1.4得到的分配过顶点且分配过颜色的染色链路即为染色的线性(d,ρ)-超图。

进一步的，步骤1.1包括如下子步骤：

线性(d,ρ)-超图G＝(V,E)由顶点集V＝{v₁,v₂,…,vθ}和链路集E＝{e₁,e₂,…,e_n}组成，每条链路均包含d个顶点，每个顶点均存在于ρ个链路中，任意两条链路最多包含超图中的同一顶点，其中n≡0modρ，θ≡0modd，n/ρ＝θ/d，d²≤θ，且n、ρ、θ、d均为正整数。

进一步的，步骤1.2包括如下子步骤：

将顶点集V＝{v₁,v₂,…,v_θ}按序列分为d个顶点子集，分别为V₁＝{v₁,…v_θ/d},…,V_d＝{v_{(θ-θ/(d+1))},…v_θ}，每个顶点子集包含θ/d个顶点；将链路集E＝{e₁,e₂,…,e_n}按序列分为ρ个链路子集，每个链路子集包含n/ρ个链路，分别为E₁＝{e_1,1,…,e_1,k,…e_1,n/ρ},…,E_m＝{e_1,1,…,e_m,j,…e_1,n/ρ},…,E_ρ＝{e_ρ,1,…,e_ρ,j,…e_ρ,n/ρ},其中1≤m≤ρ、1≤j≤n/ρ，m、j均为正整数，e_m,j表示第m个链路子集E_m中的第j个链路。

进一步的，步骤1.3包括如下子步骤：

步骤1.3.1：对第一个链路子集E₁＝{e_1,1,…,e_1,n/ρ}中的链路e_1,1,…,e_1,θ/d分配顶点，取链路序号1≤j≤n/ρ，取顶点序号1≤i≤θ，当i＝jmod(n/ρ)时，将顶点{v_i|i＝jmod(n/ρ),1≤i≤θ}分配到链路e_1,j中；

步骤1.3.2：对第t(2≤t≤ρ)个链路子集中的链路分配顶点，取链路序号1≤j≤n/ρ，需要根据链路e_1,1,…,e_1,n/ρ,…,e_t-1,1,…,e_t-1,n/ρ中分配的顶点，为当前链路子集中的链路e_t,1,…,e_t,θ/d分配顶点，且分配原则同时满足条件(1)、(2)和(3)：

条件(1)：链路e_t,1,…,e_t,θ/d中包含所有顶点且任意两条链路不相邻且局部不相关；

条件(2)：当前链路中的任一条链路e_t,j中有且仅有每个顶点子集V₁,…,V_d中的一个顶点；

条件(3)：顶点集V中任意两个顶点最多存在于链路e_1,1,…,e_1,n/ρ,…,e_t,1,…,e_t,n/ρ中的一个链路中。

进一步的，步骤1.4包括如下子步骤：

对步骤1.2得到的ρ个链路子集中的每个链路子集分配一种颜色，则超图中共有ρ种不同颜色的链路，即染色链路，顶点集V＝{v₁,v₂,…,v_θ}中每个顶点存在于ρ条不同颜色的链路中。

进一步的，步骤2包括如下子步骤：

所述的染色链路中，每种颜色的染色链路组对应一个自适应可分解部分重复码的平行类，每个平行类由一组节点组成，每个平行类中的节点存储所有数据块，且每个平行类内任意两个节点不存储重复的数据块。

本发明还提供一种基于超图的自适应可分解部分重复码故障修复方法，包括以下步骤：

步骤1：按照基于超图的自适应可分解部分重复码构造方法，将原文件按照自适应可分解部分重复码的编码结构存储到节点中；

步骤2：判断发生故障的节点数目，若单个节点发生故障，则执行步骤3，若多个节点发生故障，则执行步骤4；

步骤3：找到该故障节点对应的线性(d,ρ)-超图染色链路，根据超图中链路染色情况，替换节点连接任意一个完整链路集对应的存活节点，完成故障节点的修复；

步骤4：找到故障节点对应的超图中染色链路，当多故障节点对应的超图中染色链路最多存在ρ-1种颜色时，且超图中至少存在一个完整链路集，替换节点连接任意一个完整链路集对应的存活节点，完成故障节点的修复；当多故障节点对应的超图中染色链路存在ρ种颜色，且故障节点数不超过n-k时，替换节点连接任意k个存活节点重构原始文件，完成故障节点的修复。

与现有技术相比，本发明具有以下技术效果：

1、采用基于超图的自适应可分解部分重复码编码方法实现对原文件的存储，使该FR码能够灵活地适应动态分布式存储系统。对于大规模分布式存储系统，能够有效降低FR码编码过程的计算复杂度。

2、在分布式存储系统中，基于超图的自适应可分解部分重复码具有较优的修复带宽开销和修复局部性。

3、当分布式存储系统中存在单节点和多节点故障时，都只需要通过有限的存活节点快速实现故障节点的数据重构，即可快速恢复出故障节点数据，有效降低了修复过程中计算复杂度，获得较少的修复时间。

附图说明

图1是染色后的完整线性(d,ρ)-超图示意图；

图2(a)、2(b)、2(c)是每个线性(d,ρ)-超图中链路子集的顶点分配图；

图3是染色的线性(d,ρ)-超图的关联矩阵；

图4是基于超图染色的自适应可分解部分重复码结构图。

具体实施方式

本发明提供一种基于超图的自适应可分解部分重复码构造方法，包括以下步骤：

步骤1：通过超图染色的方法构造出染色的线性的一致正则超图，即染色的线性(d,ρ)-超图，所述的染色的线性(d,ρ)-超图包含顶点和染色链路；

具体的，还可以获得步骤1中染色的线性(d,ρ)-超图的关联矩阵，将染色的线性(d,ρ)-超图的关联矩阵对应自适应可分解部分重复码的关联矩阵，自适应可分解部分重复码的关联矩阵中，行向量对应于自适应可分解部分重复码中的数据块，列向量对应于自适应可分解部分重复码中的节点，当节点中包含某个数据块时，就对应位置为1，否则为0，获得自适应可分解部分重复码的编码结构，这是由染色的线性(d,ρ)-超图得到FR码的另一种方法。

采用基于超图的自适应可分解部分重复码构造方法实现对原文件的存储，使该FR码能够灵活地适应动态分布式存储系统。对于大规模分布式存储系统，能够有效降低FR码编码过程的计算复杂度。

具体的，步骤1包括如下子步骤：

具体的，步骤1.1包括如下子步骤：

线性(d,ρ)-超图G＝(V,E)由顶点集V＝{v₁,v₂,…,v_θ}和链路集E＝{e₁,e₂,…,e_n}组成，每条链路均包含d个顶点，每个顶点均存在于ρ个链路中，任意两条链路最多包含超图中的同一顶点，其中n≡0modρ，θ≡0modd，n/ρ＝θ/d，d²≤θ，且n、ρ、θ、d均为正整数。

具体的，步骤1.2包括如下子步骤：

具体的，步骤1.3包括如下子步骤：

步骤1.3.2：对第t(2≤t≤ρ)个链路子集中的链路分配顶点，取链路序号1≤j≤n/ρ，需要根据链路e_1,1,…,e_1,n/ρ,…,e_t-1,1,…,e_t-1,n/ρ(即所有已经分配过顶点的链路)中分配的顶点，为当前链路子集中的链路e_t,1,…,e_t,θ/d分配顶点，且分配原则同时满足条件(1)、(2)和(3)：

具体的，步骤1.4包括如下子步骤：

对步骤1.3得到的ρ个链路子集中的每个链路子集分配一种颜色，则超图中共有ρ种不同颜色的链路，即染色链路，顶点集V＝{v₁,v₂,…,v_θ}中每个顶点存在于ρ条不同颜色的链路中。

具体的，步骤2包括如下子步骤：

本发明提供一种基于超图的自适应可分解部分重复码故障修复方法，包括以下步骤：

所述的完整链路集不包括故障节点对应的链路，此时完成对单个故障节点进行的精确无编码修复；

步骤4：找到故障节点对应的超图中染色链路，当多故障节点对应的超图中染色链路最多存在ρ-1种颜色时，且超图中至少存在一个完整链路集，替换节点连接任意一个完整链路集对应的存活节点，完成故障节点的修复；当多故障节点对应的超图中染色链路存在ρ种颜色，且故障节点数不超过n-k时，替换节点连接任意k个存活节点重构原始文件，能实现对多个故障节点的快速修复。

当分布式存储系统中存在单节点和多节点故障时，都只需要通过有限的存活节点快速实现故障节点的数据重构，即可快速恢复出故障节点数据，有效降低了修复过程中计算复杂度获得了较少的修复时间。

以下给出本发明的具体实施方式，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例1：

本实施例具体说明了基于超图的自适应可分解部分重复码构造方法及故障修复方法。

步骤1：通过超图染色的方法构造出染色的线性的一致正则超图，即染色的线性(d,ρ)-超图；

步骤1.1：假定超图G＝(V,E)中，顶点集V＝{v₁,v₂,…,v₁₆}，链路集E＝{e₁,e₂,…,e₁₂}，每条链路包含4个顶点，每个顶点存在于3条链路中；

步骤1.2：如图1所示，将顶点集V按序列分为4个顶点子集，分别为V₁＝{v₁,v₂,v₃,v₄}，V₂＝{v₅,v₆,v₇,v₈}，V₃＝{v₉,v₁₀,v₁₁,v₁₂}，V₄＝{v₁₃,v₁₄,v₁₅,v₁₆}，将链路集E按序列分为3个链路子集E₁＝{e₁,e₂,e₃,e₄}，E₂＝{e₅,e₆,e₇,e₈}，E₃＝{e₉,e₁₀,e₁₁,e₁₂}；

步骤1.3：依据超图染色的启发式构造算法为步骤1.2中得到的链路子集中的链路分配顶点，链路e₁,e₂,e₃,e₄中包含的顶点分别为{v₁,v₅,v₉,v₁₃}，{v₂,v₆,v₁₀,v₁₄}，{v₃,v₇,v₁₁,v₁₅}，{v₄,v₈,v₁₂,v₁₆}；链路e₅,e₆,e₇,e₈中包含的顶点分别为{v₁,v₆,v₁₁,v₁₆}，{v₂,v₅,v₁₂,v₁₅}，{v₃,v₈,v₉,v₁₄}，{v₄,v₇,v₁₀,v₁₃}；链路e₉,e₁₀,e₁₁,e₁₂中包含的顶点分别为{v₁,v₇,v₁₂,v₁₄}，{v₂,v₈,v₁₁,v₁₃}，{v₃,v₅,v₁₀,v₁₆}，{v₄,v₆,v₉,v₁₅}。

步骤1.4：对步骤1.3得到的每个链路子集进行链路染色，为同一链路子集中的链路染同种颜色，共存在3种染色。

将超图的顶点对应关联矩阵的行向量，超图的链路对应关联矩阵的列向量，当顶点v_i属于链路e_j时，a_ij＝1；否则，a_ij＝0。由超图G＝(V,E)得到的关联矩阵A＝(a_ij)_n×m，如图2所示。将超图的关联矩阵等价为FR码的关联矩阵，关联矩阵的行向量表示FR码的编码块，列向量表示FR码的存储节点，则自适应可分解部分重复码数据块数θ＝16，节点数n＝12。行向量的重表示编码块重复度ρ＝3，列向量的重表示节点存储容量d＝4。基于超图染色的自适应可分解部分重复码结构如图3所示，N₁～N₁₂是12个存储节点，d₁～d₁₆是16个不同的数据块。

当节点N₁故障时，该故障节点对应于超图中链路集E₁＝{e₁,e₂,e₃,e₄}中链路e₁，替换节点连接链路集E₂＝{e₅,e₆,e₇,e₈}对应的存活节点{N₅,N₆,N₇,N₈}(或链路集E₃＝{e₉,e₁₀,e₁₁,e₁₂}对应的存活节点{N₉,N₁₀,N₁₁,N₁₂})，即可对故障节点进行精确无编码修复。

当{N₁,…,N₈}中多个节点故障时，故障节点对应于E₁＝{e₁,e₂,e₃,e₄}和E₂＝{e₅,e₆,e₇,e₈}两个链路集的链路，替换节点连接链路集E₃＝{e₉,e₁₀,e₁₁,e₁₂}对应的存活节点{N₅,N₆,N₇,N₈}，即可对多故障节点进行精确无编码修复；当{N₁,…,N₁₂}中多个节点故障且故障节点数不超过n-k时，假设k＝4，故障节点为{N₁,N₂,N₃,N₅,N₆,N₉,N₁₀}，替换节点连接任意k＝4个存活节点，如存活节点{N₄,N₇,N₈,N₁₂}，即可重构原始文件，实现对多个故障节点的快速修复。

Claims

1.基于超图的自适应可分解部分重复码构造方法，其特征在于，包括以下步骤：

步骤1：通过超图染色的方法构造出染色的线性(d,ρ)-超图，所述的染色的线性(d,ρ)-超图包含顶点和染色链路；

2.如权利要求1所述的基于超图的自适应可分解部分重复码构造方法，其特征在于，步骤1包括如下子步骤：

3.如权利要求2所述的基于超图的自适应可分解部分重复码构造方法，其特征在于，步骤1.1包括如下子步骤：

4.如权利要求2所述的基于超图的自适应可分解部分重复码构造方法，其特征在于，步骤1.2包括如下子步骤：

5.如权利要求2所述的基于超图的自适应可分解部分重复码构造方法，其特征在于，步骤1.3包括如下子步骤：

6.如权利要求3所述的基于超图的自适应可分解部分重复码构造方法，其特征在于，步骤1.4包括如下子步骤：

7.如权利要求1所述的基于超图的自适应可分解部分重复码构造方法，其特征在于，步骤2包括如下子步骤：

8.一种基于超图的自适应可分解部分重复码故障修复方法，包括以下步骤：

步骤1：按照权利要求1-7中任一项所述的基于超图的自适应可分解部分重复码构造方法，将原文件按照自适应可分解部分重复码的编码结构存储到节点中；