CN102624866B

CN102624866B - 一种存储数据的方法、装置及分布式网络存储系统

Info

Publication number: CN102624866B
Application number: CN201210011386.7A
Authority: CN
Inventors: 李挥; 黄显霞; 侯韩旭; 周泰; 朱兵; 陈畅民; 周敬邦
Original assignee: SHENZHEN GUANGXIN NETWORK MEDIA CO Ltd; Peking University Shenzhen Graduate School
Current assignee: SHENZHEN GUANGXIN NETWORK MEDIA CO Ltd; Peking University Shenzhen Graduate School
Priority date: 2012-01-13
Filing date: 2012-01-13
Publication date: 2014-08-20
Anticipated expiration: 2032-01-13
Also published as: US20140317222A1; WO2013104135A1; CN102624866A; US9961142B2

Abstract

本发明适用于存储技术领域，提供了一种存储数据的方法、装置及分布式网络存储系统，所述方法包括：将大小为M的文件分成k个模块，每个模块的大小为M/k；将所述k个模块分发给分布式网络存储系统中的k个不同节点；将所述k个模块通过线性编码构造成n-k个互不相关的模块，并且满足n个节点中任意k个模块能恢复出所述文件中的原始数据，所述线性编码是最大距离可分离码MDS，；将所述n-k个模块分发给分布式网络存储系统中剩余的n-k个不同节点。本发明，使分布式网络存储系统能够容忍n-k个节点同时失效而不丢失数据，并使系统的冗余度保持不变，保证了分布式网络存储系统的可靠性。

Description

一种存储数据的方法、装置及分布式网络存储系统

技术领域

本发明属于存储技术领域，尤其涉及一种存储数据的方法、装置及分布式网络存储系统。

背景技术

2000年诞生的网络编码(Network Coding，NC)是继C.E.Shannon发表《AMathematical Theory of Communication》解决信道容量极限问题后的一个全新突破，它解决了网络通信中单/多源对多接收点组/广播如何达到网络容量极限的问题。

传统网络通信节点上的路由交换机只完成存储转发功能。NC指出如果允许路由交换机对输入信息流进行编码再发送，将使得网络节点既实现路由功能又实现编码功能。在这种全新的体系结构下，网络性能可以达到最大流传输的理论极限。

伴随存储系统规模的发展，故障概率也显著提高，人们对存储系统也提出了更高的容错要求。现有技术主要是通过纠错码来实现分布式存储的可靠性。比之于RAID系统，常用的RAID-5产品只能提供单盘故障的修复，能够修复双盘故障的恢复的RAID-6逐渐也走入了实用。容单盘错的RAID-5系统原理来自于奇偶校验，而为达到各方面性能的优化，容双盘故障的RAID-6系统需要采用“特制”的纠错编码。

分布式系统中采用纠删码时限制因素有所减少，如可以用Galois域运算代替XOR运算，且由于通常情况下各个分布式节点所处地位相同，并不一定要求采用系统化编码。此外，分布式系统规模通常较大，也要求编码率不能随规模增大而过分减小。分布式系统中常用的纠删码是较为通用的Reed Solomon编码(MacWilliams and Sloane，1977)，根据需要它可以实现任意程度的冗余，编解码过程是在较大的Galois域上进行运算，运算代价相对异或运算明显偏大。Reed Solomon编码原理是建立在多项式理论之上，生成矩阵有多种形式，一种

广泛采用的编码方式是使用Vandermonde矩阵作为生成矩阵：

G = (I_{n} |\begin{matrix} 1 & 1 & 1 & . & . & . & 1 \\ 1 & 2 & 2^{2} & . & . & . & 2^{n - 1} \\ 1 & 3 & 3^{2} & . & . & . & 3^{n - 1} \\ . & . & . & . & . \\ . & . & . & . & . \\ . & . & . & . & . \\ 1 & n & n^{2} & . . . & n^{n} - 1 \end{matrix})

这里m和n可以根据需要选择，达到任意的编码率。

纠删码利用成熟的编码理论对数据进行分块编码，它将数据分成n块，另外生成m块冗余块，从这n+m块中得到任意n块即可恢复出原始数据，节点中有些存储的是原始模块，有些存储的是编码冗余块，地位和作用并不一致，而且分布式环境下的编码过程有时会需要中心节点的参与。

随后提出的分布式存储的随机线性编码方案，虽然也实现了分布式数据存储，并且将整个文件分成若干块，编码模块通过随机线性结合所有块。但要求存储每个编码模块的编码向量，文件丢失是通过收集编码向量和从其他节点获得编码模块来恢复。这增加了节点的存储量和数据处理负荷，以及节点失效修复过程的通信带宽。

综上所述，现有的数据存储方法，不能保证分布式网络存储系统的可靠性。

发明内容

本发明实施例提供了一种存储数据的方法、装置及分布式网络存储系统，旨在解决现有技术提供的存储数据的方法，不能保证分布式网络存储系统的可靠性的问题。

一方面，提供一种存储数据的方法，所述方法包括：

将大小为M的文件分成k个模块，每个模块的大小为M/k；

将所述k个模块分发给分布式网络存储系统中的k个不同节点；

将所述k个模块通过线性编码构造成n-k个互不相关的模块，并满足n个节点中任意k个模块能恢复出所述文件中的原始数据，所述线性编码是最大距离可分离码MDS；

将所述n-k个模块分发给分布式网络存储系统中剩余的n-k个不同节点；

其中，n、k均是大于0的整数，且n＞k，n为分布式网络存储系统中的总共节点数，k为恢复所述文件所需要的最少节点数。

另一方面，提供一种存储数据的装置，所述装置包括：

数据分块单元，用于将大小为M的文件分成k个模块，每个模块的大小为M/k；

第一模块分配单元，用于将所述k个模块分发给分布式网络存储系统中的k个不同节点；

编码单元，用于将所述k个模块通过线性编码构造成n-k个互不相关的模块，并满足n个节点中任意k个模块能恢复出所述文件中的原始数据，所述线性编码是最大距离可分离码MDS；

第二模块分配单元，用于将所述n-k个模块分发给分布式网络存储系统中剩余的n-k个不同节点；

又一方面，提供一种分布式网络存储系统，包括客户端，所述系统还包括与所述客户端连接的存储数据的装置，所述存储数据的装置是所述分布式网络存储系统中的节点和索引服务器。

在本发明实施例中，将数据均分成k个模块，存储于k个节点中，再将所述k个模块通过线性编码(最大距离可分离码MDS)，生成n-k个互不相关的编码块(满足n个节点中任意k个模块能恢复出所述文件中的原始数据，)，并将所述n-k个编码块分发到各节点上，使得系统能够容忍n-k个节点同时失效而不丢失数据，系统的冗余度保持不变，保证了分布式网络存储系统的可靠性。

附图说明

图1是本发明实施例提供的一种分布式网络存储系统的总体框架示意图；

图2是本发明实施例一提供的一种存储数据的方法的实现流程图；

图3是本发明实施例二提供的一种存储数据的方法的实现流程图；

图4a是本发明实施例提供的一种(4，2)MDS码示意图；

图4b是本发明实施例提供的一种MDS码节点失效修复示意图；

图4c是本发明实施例提供的另一种MDS码节点失效修复示意图；

图5是本发明实施例提供的一种不同修复模型和主要技术示意图；

图6是本发明实施例提供的一种(4，2)MDS码功能修复信息流程示意图；

图7是本发明实施例提供的一种节点存储α和修复带宽γ的最优折中曲线示意图；

图8是本发明实施例提供的一种精确修复(5，3)MBR码示意图；

图9是本发明实施例提供的一种精确修复(4，2)MSR码示意图；

图10是本发明实施例提供的一种精确修复(6，3)MSR码示意图；

图11是本发明实施例提供的一种系统部分精确修复示意图；

图12是本发明实施例三提供的一种存储数据的装置的结构框图；

图13是本发明实施例四提供的一种存储数据的装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

分布式存储系统是将数据分散存储在多台独立队设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。

分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

图1是分布式网络存储系统的一个总体框架示意图，该系统中有4个节点(SN1-SN4)，一个索引服务器IS和一个由PC表示的客户端，IS和SN构成了服务器端。IS中存储着各个节点的命名和路由信息、整个系统的目录结构和文件名到模块的映射以及各个文件块的存储位置等，IS的作用类似于传统文件系统中的文件分区表。当用户要上传或下载文件时，通过IS找到指定的若干SN，然后与SN进行交互。

本发明实施例，是在分布式网络存储系统中通过线性网络编码引入冗余来增加系统的可靠性。当使用编码时，会出现需要修复失效节点的问题：如果一个存储加密信息的节点失效，为了支持相同级别的系统可靠性，需要在一个新的节点中构造加密信息。这相当于一个部分恢复的编码，然而传统的纠错码集中于从一个编码模块的子集中来恢复信息，出于修复网络负载的考虑将引出新的设计挑战。最近，网络编码技术对于这些挑战已经有所帮助，相比于标准的纠错码，网络编码将以数量级单位减少带宽的使用。

实施例一

图2示出了本发明实施例一提供的存储数据的方法的实现流程，主要包括：

在步骤S201中，将大小为M的文件分成k个模块，每个模块的大小为M/k。

在本实施例中，将一个大小为M的文件要存储在分布式网络存储系统中，首先将该文件分成大小相同的k个模块，使得每个模块的大小相等，即每个模块的大小为M/k。

在步骤S202中，将所述k个模块分发给分布式网络存储系统中的k个不同节点。

在本实施例中，将大小相等的k个模块分发给分布式网络存储系统中的k个不同的节点，这些节点即为系统节点。

在步骤S203中，将所述k个模块通过线性编码构造成n-k个互不相关的模块，并满足n个节点中任意k个模块能恢复出所述文件中的原始数据，所述线性编码是最大距离可分离码MDS。

在本实施例中，先由分布式网络存储系统随机生成一个k*(n-k)满秩矩阵，再通过已知的k个模块和该满秩矩阵产生(n-k)个互不相关的模块，这些模块实为原文件信息块的线性叠加，并保证MDS码的属性，即通过n个节点中的任意k个模块就可恢复整个文件。其中，n、k均是大于0的整数，且n＞k，n为分布式网络存储系统中的总共节点数，k为恢复所述文件所需要的最少节点数。

在步骤S204中，将所述n-k个模块分发给分布式网络存储系统中剩余的n-k个不同节点。

在本实施例中，将编码的(n-k)个互不相关的模块分发给剩下的不同节点，这些节点即为非系统节点。

实施例二

图3示出了本发明实施例二提供的存储数据的方法的实现流程，主要包括：

在步骤S301中，将大小为M的文件分成k个模块，每个模块的大小为M/k。

在步骤S302中，将所述k个模块分发给分布式网络存储系统中的k个不同节点。

在步骤S303中，将所述k个模块通过线性编码构造成n-k个互不相关的模块，并满足n个节点中任意k个模块能恢复出所述文件中的原始数据，所述线性编码是最大距离可分离码MDS。

在步骤S304中，将所述n-k个模块分发给分布式网络存储系统中剩余的n-k个不同节点。

在步骤S305中，若分布式网络存储系统中有节点失效，且失效节点数不超过n-k，则通过现有不少于k个节点来恢复失效节点中所存储的数据。

在本实施例中，对于分布式网络存储系统中的节点进行控制，判断是否有节点出现故障(如硬盘损坏、网络断开、电源关闭等)以及统计同一时间内出现故障的节点数。

对于故障节点数超过(n-k)的情况下，根据MDS属性可知，恢复一个原文件至少需要k个节点的信息，而现有活动节点数低于k，从而可知文件内容不能恢复，系统丢失该文件。

对于故障节点数不超过(n-k)的情况下，由MDS码属性可知，可从现有不低于k个节点中获得相关信息，进行线性编码恢复失效节点存储的内容。经过对失效节点的修复，使得系统冗余度不变，仍是一个MDS码，从而保证了系统的可靠性。

实施例一和实施例二中主要应用到MDS码，MDS码是在冗余和可靠性方面最好的折中，因为k个模块包含恢复原始数据所需要的最低数量的信息。在一个分布式网络存储系统，存储n个加密数据包的不同节点(如磁盘、服务器或端点)遍布于一个网络，并且这个系统可以容忍(n-k)个节点失效而不丢失数据。

图4a是一个(4，2)MDS码的例子，其中总共存储大小为4个信息即A1、A2、B1、B2，将该文件分成2份，每份大小为2，其中前两个节点存储的是未编码模块，因而为系统节点，后两个节点存储的是原始信息A1、A2、B1、B2二进制线性组合，可以观察出，在这n＝4个节点中，任意k＝2个节点就可以恢复所有数据。

以下集中于分布式网络存储中一个节点失效后且失效节点数不超过n-k，如何通过现有不少于k个节点来恢复失效节点中所存储的数据的问题。

图4b描述当第一个节点失效后，新节点可以通过三个存在的节点恢复丢失的数据内容。很明显修复一个简单失效比重构所有数据简单，该例子中通过和三个现存节点交流B2、A2+B2、A1+A2+B2来修复故障，这可以用来恢复原始信息A1、A2。

图4c表示修复第四个节点的例子，这个可以只用三个模块来实现，但是一个主要的不同是：第二个节点需要计算一个存储数据包B1、B2的线性组合，这个实际交流模块为B1+B2。这表示网络编码的必要性，在修复过程中在中间节点构造线性组合。

如果网络带宽比磁盘访问是更重要的资源，则一个重要的考虑是找到最小需求的带宽和采用哪种编码可以实现最小需求的网络带宽。

由图4的两个修复例子中可看出，新节点需要精确构造故障节点丢失的模块，然而关于修复的定义只要求一个新的节点与现有节点结合仍能形成一个(n，k)MDS码，满足n中任意k个节点能够恢复所有原始信息。换言之，新节点可以形成新的、不同于丢失节点存储的模块，这个要求也更容易满足。

因而通过现有不少于k个节点来恢复失效节点中所存储的数据的方法可以考虑三种修复模型，如图5所示：精确修复，功能修复和混合修复(系统部分精确修复)。功能修复只要产生的模块支持MDS码属性即可，它可以在信息流图表的相应构造图表上降低成一个多播问题，因而应用的主要技术是网络编码NC；而精确修复必须精确恢复原始丢失模块，应用到的主要技术是网络编码NC和干扰队列；系统部分精确修复介于前两种修复之间的一个混合修复模型，要求系统节点存储的模块必须精确恢复，非系统节点存储的模块只需功能修复，可看成精确修复模型的一个放松，因而核心技术仍是网络编码NC和干扰队列。

其中，功能修复是指：通过线性网络编码使构造的新节点中所存储的模块中包含不同于失效节点中的数据且修复后的分布式网络存储系统支持MDS的属性。

其中，功能修复具体包括：

从任何d个有效节点下载β比特的编码信息，对所述编码信息进行线性网络编码来恢复失效节点中存储的数据；

其中，d≤n-1，n为分布式网络存储系统中的总共节点数。

对于功能修复的具体描述如下：

功能修复问题可以看成是在一个信息流图中的组播。信息流图代表信息流的进展，如节点加入和离开分布式网络存储系统。对于任意节点存储α≥α^*(n，k，d，γ)，点(n，k，d，α，γ)是切实可行的并且线性网络编码能够实现。

信息从理论上不可能实现点α＜α^*(n，k，d，γ)，这个函数α^*(n，k，d，γ)的阈值如下：

\begin{matrix} α^{*} (n, k, d, γ) = {\begin{matrix} \frac{M}{k}, γ &Element; [f (0), + \infty] \\ \frac{M - g (i) γ}{k - i}, γ &Element; [f (i), f (i - 1)) \end{matrix}, - - - (1) \\ (1) \end{matrix},

f (i) = \frac{2 Md}{(2 k - i - 1) i + 2 k (d - k + 1)}, - - - (2);

g (i) = \frac{(2 d - 2 k + i + 1)}{2 d}, - - - (3)

当d≤n-1，给定(n，k，d)，最小修复带宽

从上式可观察出，最小修复带宽γ＝dβ是关于参与修复的节点个数d的递减函数。当一个新节点与多个节点交互，每个交互包的大小β以很快速度降低来使dβ乘积减小。因此，最小修复带宽可以通过d＝n-1来实现。如我们所提到的，当且仅当信息流图满足最小割，修复编码才可以实现。这个条件推导出公式(1)到(4)的修复率的计算，当这些条件满足，随着编码领域的增大简单的线性组合将实现系统的高可靠性。

我们考虑两种编码，分别为最小存储再生编码(MSR)和最小带宽再生编码(MBR)。从公式(1)到(4)，可以证实最小存储点是「得出修复带宽γ_MSR＝dβ_MSR是一个关于参与修复过程的节点数量d的递减函数。因为MSR编码在每个节点存储M/k比特，同时确保MDS码的属性，因此它等同于MDS码。观察当d＝k，总共修复交流是M(原始文件的大小)。因此，如果一个新来者只允许和k节点联系，它必然要下载整个数据对象来修复一个新的故障，这是对于执行任何MDS码的无经验的修复方式。

然而当允许一个新来者和多于k个节点联系，MSR码可以降低修复带宽γ_MSR，当d＝n-1时我们在中分离出M/k因子，来描述MSR码中带宽比存储多了一个(n-1)/(n-k)因子。这代表MDS构造所必须的一个基本扩张，这是最佳的可靠性-冗余折中。例如，考虑一个(n，k)＝(14，7)码，这个例子里，当有一个节点失效，新节点只需要从d＝n-1＝13每个活动节点中下载仅M/49比特，使修复带宽等于(M/7)·(13/7)。注意我们只需要知道扩张因子13/7，而在无经验的修复方式中需要因子7。

另一个折中方法是MBR码，它拥有最小修复带宽。可以证实最小修复带宽点是注意在最小带宽再生码中，在整个修复过程中交流的总比特数中存储大小等于带宽。如果我们设置最优值d＝n-1，我们可以获得

注意MBR码根本不引发修复带宽扩张，如同一个复制系统，在修复过程下载存储信息的个数。然而，MBR码在存储信息量上要求一个扩张因子(2n-2)/(2n-k-1)，依据给定的冗余可靠性，这种方案将不再是最优性。图6给出一个信息流图(4，2)MDS码的例子。在图6中，每个节点通过一对节点Xⁱ _in，Xⁱ _out来表示，这对节点通过一个容量为该节点存储容量的边连接。有个虚拟的源节点s相当于原始的数据对象。假设最初我们在四个节点存储一个大小为M＝4模块的文件，每个节点存储α＝2模块，这个文件可以通过任意两个节点来重构造。虚拟的信宿节点叫做数据的收集者，连接任意k个节点子集并确保这个编码具有MDS属性。假设存储节点4失败，这个目标是创造一个新的节点X⁵ _in，传输最低数量的信息然后存储α＝2模块。节点X⁵ _in与三个活动的节点相连。假设β为与每个活动的节点交流的比特数，令人关注的是需求最小β值。最小割必须要大于M＝4模块来重产生数据。对于图6，最小割值是α+2β，意味着交流量β≥1模块，则总共修复一个失败节点的带宽为γ＝dβ＝3模块。

一个信息流图相当于在一定数量的失效/修复后，分布式网络存储系统的一个特需进化。我们称每个失效/修复为一个阶段：在每个阶段，一个节点失效，编码通过从任何d个幸存节点下载β比特来修复。因此，总共修复带宽为γ＝dβ。如图6所示例子，在初始化阶段，系统由节点1，2，3和4组成；在第二阶段，系统由节点2，3，4和5组成。

如我们所提到的，当且仅当信息流图满足最小割，编码修复才可以实现。当这些条件满足，随着编码领域大小的增长，简单的随机线性结合将达到高度可靠性。在图7中根据公式(1)至(4)，画出k＝5，n＝10以及k＝10，n＝15每个节点存储量α和修复一个节点所需要的带宽γ的最优折中曲线图，这里M＝1，d＝n-1。注意在k＝5，n＝10的最优折中曲线图中，传统的纠错码相当于点(α＝0.2，γ＝1)，而在k＝10，n＝15最优折中曲线图中，传统的纠错码相当于点(α＝0.1，γ＝1)。

在最优折中曲线上的两个极值点，分别相当于最优的存储效应和最小修复带宽。我们称达到这些点的编码分别为最小存储再生编码(MSR)和最小带宽再生编码(MBR)。

如我们所讨论的，功能修复的带宽-存储折中可以完全通过分析信息流图的割集来描述。然而在功能修复下，每当一个故障发生为了不断更新修复和译码规则将会引起重大的系统负担。此外，基于随机网络编码的功能修复解决方案需要一个巨大的有限域来支持一个动态的扩张图大小(取决于连续不断的修复)，这将提高加解密计算复杂性。而且，功能修复在面对窃听者的安全存储应用中是不受欢迎的。假设这样，信息的保密将取决于修复和解密规则，而这规则可能被窃听者观察出，从而导致信息泄露。这个缺点促使节点失效的精确修复的需要。

其中，精确修复具体是指：通过线性网络编码和干扰队列使构造的新节点中所存储的模块与失效节点中的模块相同。

其中，精确修复具体包括：

通过线性排列使得进入新节点的干扰量的维数降低；

其中，对于MBR码，d＝n-1，对于MSR码，d∈[2k-1，n-1]，k/n≤1/2，n为分布式网络存储系统中的总共节点数。

其中，对于精确修复的具体描述如下：

对于精确修复的MBR码，当d＝n-1，最小割集界限可以用一个决定性的方案来实现，它要求有限域字母大小不能超过(n-1)n/2。图8通过(n，k，d，α，γ)＝(5，3，4，4，4)一个例子来描述这种思想，其中能够存储的文件大小为M＝9(匹配割集界限)。每个节点存储四个模块的a^tv_i，v_i可以被理解为数据文件的一个一维子空间。我们只简单的写子空间向量来代表一个实际的存储模块。注意d等于修复的存储模块的大小，可利用的方程数匹配一个节点精确修复所需要的变量。因此，对于精确修复，在节点1和所有i≠1的节点i之间必须至少有一个相同的模块。

这个思想是使其他节点i(i≠1)分别存储节点1的每个模块：节点2，3，4和5在它们自己位置分别存储a^tv₁，a^tv₂，a^tv₃，a^tv₄。注意为了确保修复，在任意两个存储节点之间只能够拥有一个相同模块。因此，节点2可以在剩下的其他位置存储其他三个信息块a^tv₅，a^tv₆，a^tv₇。依据上面的过程，节点3，4和5在它们的空间分别复制三个块中的一个。我们重复这个过程直到总共10＝(4+3+2+1)块都被存储。这个构造可以保证任何节点失效的精确修复，因为在任意两个节点之间至少有一个模块是相同的，并且各相同模块间是不同的。

剩下的问题是设计这十个子空间向量v_i，i＝1，...，10。详细的构造来自于MDS码属性，即5个节点中任意3个就可以恢复原始信息文件。观察图8可得出9个不同的向量可以通过任意三个节点下载。因此，任意(10，9)MDS码可以构造这些v_i。在这个例子里，在GF(2)中使用偶校验定义，我们可以如下设计v_i：v_i＝e_i，和v₁₀＝[1，...，1]^t，并可以延伸至任意的(n，k)事件。这个构造可以被解释成一个最优的干扰避免技术。为了证明这点，观察图可以看出精确修复所需要的模块数等于可以下载的可用方程数。因此，精确修复将排除任何不需要的模块。

这个干扰避免技术虽然实现MBR码，但是节点存储量大，不能满足MSR码，因而需要为MSR码提供新的思想。这里采用干扰队列思想将多个干扰信号排成一个信号子空间，使得它的维数比干扰数量要小。图9描述干扰队列用于当节点1失效的精确修复，其中(n，k，d，α，γ)＝(4，2，3，2，2)，最大可存储文件大小M＝4。我们引用矩阵符号来描述。令a＝(a₁，a₂)^t和b＝(b₁，b₂)^t是2维单位信息向量。令A_i，B_i是对等节点i(i＝1，2)的2*2加密矩阵，分别包含线性组合(a₁，a₂)和(b₁，b₂)加密系数。如图9所示，节点3以a^tA₁+b^tB₁形式来存储模块。对于系统节点的加密矩阵没有明确定义，因为它们将分级推导。由于β＝1，我们定义二维投影向量v_αi(i＝1，2，3)。

通过图9所示例子对干扰队列思想进行解释。首先，每个存储节点根据投影向量v_αi将存储的两个模块投影成一个数，通过与其他三个节点的连接，我们得到v^t _α1b；(A₁v_α2)^ta+(B₁v_α2)^tb；(A₂v_α3)^ta+(B₂v_α3)^tb。这里的目标是在包含四个未知数的三个方程中解密出两个想要的未知数。为了实现这个目标需要下面两个条件即

rank ([\begin{matrix} {(A_{1} v_{α 2})}^{t} \\ {(A_{2} v_{α 3})}^{t} \end{matrix}]) = 2

和

rank ([\begin{matrix} {v^{t}}_{α 1} \\ {(B_{1} v_{α 2})}^{t} \\ {(B_{2} v_{α 3})}^{t} \end{matrix}]) = 1 .

第二个条件可以通过设置v_α2＝B₁ ^-1v_α1和v_α3＝B₂ ^-1v_α1来实现。这种选择使干扰空间缩小为一维线性子空间，因此可以实现干扰队列。另一方面，我们可以同样通过小心选择A_i，B_i来满足第一个条件。对于节点2的精确修复，我们可以应用相同思想。对于节点3和4我们可以将其经过重新映射转换为对等节点，然后应用上述相同技术恢复。

为了实现对任意的(k/n)≤(1/2)均能达到精确修复的最小割集界限，使用了同步干扰队列。图9通过(n，k，d，α，γ)＝(6，3，5，3，3)，M＝9的例子来描述这种干扰队列。令a＝(a₁，a₂，a₃)^t，b＝(b₁，b₂，b₃)^t，c＝(c₁，c₂，c₃)^t为一个三维信息单位向量。令A_i，B_i，C_i为对等节点i(i＝1，2，3)的一个3*3加密矩阵。我们定义三维投影向量v_αi(i＝1，...，5)。当节点1失效，新节点通过连接到现有5个节点，得到5个方程。为了成功恢复a向量所需要的信号组件，与a相连的矩阵需要是行为3，而和向量b和c相关的矩阵行数应分别为1。依据图9中(4，2)码的例子，如果设置v_α3＝B₁ ^-1v_α1，v_α4＝B₂ ^-1v_α2，v_α5＝B₃ ^-1v_α1，则它可以实现关于b的干扰队列。然而，这个选择也指定向量c的干扰空间。如果B_i、C_i没有合理设置，干扰队列将不会保证c。因此，如何在同一时间实现干扰队列是不明显的。

为了描述同步干扰队列的挑战，将引入一个共同特征向量观点。这个思想包含两部分：1)设计(A_i，B_i，C_i)使得v₁是B_i，C_i的共同特征向量但不是A_i的；2)通过统一的特征向量v₁将通过现存节点的数据投射到一个线性子空间。我们然后可以通过设置v_αi＝v₁，来实现b和c的同步干扰队列。只要[A₁v₁，A₂v₁，A₃v₁]是可逆的，我们可以确保a的可译码性。

现在的问题是设计一个加密矩阵来保证一个共同的特征向量的存在，同时也满足期望信号的译码。这个困难来源于(6，3，5)码例子中的事实，这些约束条件在所有六个可能的故障配置中都要被满足。矩阵元素的构造(产生于主要的矩阵和高斯矩阵)将会对这进行深入理解。为了理解，考虑一个3*3矩阵A为A＝uv^t+αI，u和v是三维向量。注意v的零空间维数为2，零向量v^t是A的一个特征向量，即Av^t＝αv^t，从而推导出

\begin{matrix} A_{1} = u_{1} {v_{1}}^{t} + α_{1} I, A_{2} = u_{2} {v_{1}}^{t} + β_{2} I, A_{3} = u_{3} {v_{1}}^{t} + α_{3} I \\ B_{1} = u_{1} {v_{2}}^{t} + β_{1} I, B_{2} = u_{2} {v_{2}}^{t} + β_{2} I, B_{3} = u_{3} {v_{2}}^{t} + β_{3} I \\ C_{1} = u_{1} {v_{3}}^{t} + γ_{1} I, C_{2} = u_{2} {v_{3}}^{t} + γ_{2} I, C_{3} = u_{3} {v_{3}}^{t} + γ_{3} I \end{matrix},

其中，v_i，u_i均是3维线性无关的向量，α_i，β_i，γ_i的值可以是任意的非零值。为了简单起见，我们考虑简单的情况，v_i是正规化的，尽管这不一定要正规化，只要线性无关。我们然后可以看到对于有α_iv₁+u_i、B_iv₁＝β_iv₁、C_iv₁＝γ_iv₁，其中v₁是B_i，C_i的共同特征向量，同时要确保向量A_iv₁是线性无关的。因此，对所有i设置v_αi＝v₁，它可以实现同步干扰队列，同时也可以保证期望信号的译码。另一方面，这个构造也保证b和c的精确修复。我们用v₂表示b精确修复，它是C_i，A_i的共同特征向量，同时确保[B₁v₂，B₂v₂，B₃v₂]可逆。同样，用v3表示c的精确修复。

对等节点可以通过描述与系统节点的二元关系来修复，这个过程包含两步。第一步是用a′，b′，c′分别重映射非系统节点，系统节点然后可以用基本符号重写，如a^t＝a′^tA′₁+b′^tB′₁+c′^tC′₁、b^t＝a′^tA′₂+b′^tB′₂+c′^tC′₂、ct＝a′tA′₃+b′^tB′₃+c′^tC′₃，其中新的映射加密矩阵(A′_i，B′_i，C′_i)可以定义成

[\begin{matrix} A_{1}^{'} & A_{2}^{'} & A_{3}^{'} \\ B_{1}^{'} & B_{2}^{'} & B_{3}^{'} \\ C_{1}^{'} & C_{2}^{'} & C_{3}^{'} \end{matrix}] : = {[\begin{matrix} A_{1} & A_{2} & A_{3} \\ B_{1} & B_{2} & B_{3} \\ C_{1} & C_{2} & C_{3} \end{matrix}]}^{- 1} .

第二步随着这个重映射，可以使系统节点和对等节点之间的关系二元化。特别地，如果所有A′_i，B′_i，C′_i是基本矩阵并且形成一个相似的编码构造，非系统节点的精确修复将是明显的。事实表明[v₁，v₂，v₃]和[u₁，u₂，u₃]之间的一种特需关系通过(α_i，β_i，γ_i)的正确选择，也可以保证二重构造。

其中，混合修复是指：若失效节点是分布式网络存储系统中的系统节点，则通过线性网络编码和干扰队列使构造的新节点中所存储的模块与失效节点中的模块相同；若失效节点是分布式网络存储系统中的非系统节点，则通过线性编码使构造的新节点中所存储的模块中包含不同于失效节点中的数据且修复后的分布式网络存储系统支持MDS的属性。

其中，混合修复的具体包括：

通过线性排列使得进入新节点的干扰量的维数降低；

其中，d＝k+1，k为恢复所述文件所需要的最少节点数，n为分布式网络存储系统中的总共节点数。

混合修复在实际中存在介于功能修复和精确修复之间的修复，即系统部分精确修复，该修复要求系统节点精确修复，非系统节点只需功能修复。从文献[Y.Wu.(2009，Aug.).A construction of systematic MDS codes with minimumrepair bandwidth.IEEE Trans.Inf.Theory]中可以得出对于n≥2k的(n，k)MDS码的一个构造，当与k+1个节点通信即可达到最小修复带宽。在图11中描述了该修复的构造计划，在图11中，x∈F^2k是一个由2k原始信息符号组成的向量。每个节点存储两个符号x^Tu_i和x^Tv_ix^Tv_i。向量{u_i}不会随着时间变化，但{v_i}会随着编码修复过程而变化。我们主张不变性，2n个长度为2k的向量{v_i，u_i}形成一个(2n，2k)MDS码，也就是{v_i，u_i}集合中任意2k向量都是满秩的。这当然意味着n个节点形成(n，k)MDS码。我们用F上的任意(2n，2k)系统MDS码来初始化编码。

现在我们考虑一个修复的情况。不失一般性，假设节点n失效，在图11中将通过访问节点1，...，k+1来修复，这个替代节点从{1，...，k+1}每个节点下载α_ix^Tu_i+β_ix^Tv_i。使用k+1下载符号，代替节点根据和两个方程计算两个符号x^Tu_n和x^Tv′_n。v′_n可允许与v_n不同，我们保持的属性是修复编码仍然是一个(2n，2k)MDS码。这里{α_i，β_i，ρ_i}和v′_n是我们可以控制的变量，可以通过控制这些变量分配使得修复编码仍然是一个(2n，2k)MDS码。

实施例三

图12示出了本发明实施例三提供的存储数据的装置的具体结构框图，为了便于说明，仅示出了与本发明实施例相关的部分，该装置能够实现上述实施例一的方法，该装置是分布式网络存储系统中的节点和索引服务器可以和客户端组成如图1所示的分布式网络存储系统。在本实施例中，该装置包括：数据分块单元121、第一模块分配单元122、编码单元123、第二模块分配单元124。

其中，数据分块单元121，用于将大小为M的文件分成k个模块，每个模块的大小为M/k；

第一模块分配单元122，用于将所述k个模块分发给分布式网络存储系统中的k个不同节点；

编码单元123，用于将所述k个模块通过线性编码构造成n-k个互不相关的模块，并满足n个节点中任意k个模块能恢复出所述文件中的原始数据，所述线性编码是最大距离可分离码MDS；

第二模块分配单元124，用于将所述n-k个模块分发给分布式网络存储系统中剩余的n-k个不同节点；

本实施例提供的存储数据的装置可以使用前述对应的方法实施例(第一实施例)中，具体可参照图2所示方法实施例，在此不再赘述。

实施例四

图13示出了本发明实施例四提供的存储数据的装置的具体结构框图，为了便于说明，仅示出了与本发明实施例相关的部分，该装置能够实现上述实施例二的方法，该装置是分布式网络存储系统中的节点和索引服务器，可以和客户端组成如图1所示的分布式网络存储系统。在本实施例中，该装置包括：数据分块单元131、第一模块分配单元132、编码单元133、第二模块分配单元134和节点恢复单元135。

其中，数据分块单元131，用于将大小为M的文件分成k个模块，每个模块的大小为M/k；

第一模块分配单元132，用于将所述k个模块分发给分布式网络存储系统中的k个不同节点；

编码单元133，用于将所述k个模块通过线性编码构造成n-k个互不相关的模块，并满足n个节点中任意k个模块能恢复出所述文件中的原始数据，所述线性编码是最大距离可分离码MDS；

第二模块分配单元134，用于将所述n-k个模块分发给分布式网络存储系统中剩余的n-k个不同节点；

其中，n、k均是大于0的整数，且n＞k，n为分布式网络存储系统中的总共节点数，k为恢复所述文件所需要的最少节点数；

节点恢复单元135，用于若分布式网络存储系统中有节点失效且失效节点数不超过n-k，则通过现有不少于k个节点来恢复失效节点中所存储的数据。

其中，所述节点恢复单元135包括：功能修复模块、精确修复模块和混合修复模块中的至少一个；

所述功能修复模块，用于通过线性网络编码使构造的新节点中所存储的模块中包含不同于失效节点中的数据且修复后的分布式网络存储系统支持MDS的属性；

所述精确修复模块，用于通过线性网络编码和干扰队列使构造的新节点中所存储的模块与失效节点中所存储的模块相同；

所述混合修复模块，用于若失效节点是分布式网络存储系统中的系统节点，则通过线性网络编码和干扰队列使构造的新节点中所存储的模块与失效节点中存储的模块相同；若失效节点是分布式网络存储系统中的非系统节点，则通过线性编码使构造的新节点中所存储的模块中包含不同于失效节点中的数据且修复后的分布式网络存储系统支持MDS的属性。

其中，所述功能修复模块包括：

第一编码子模块，用于从任何d个有效节点下载β比特的编码信息，对所述编码信息进行线性网络编码来恢复失效节点中存储的数据；

其中，d≤n-1，n为分布式网络存储系统中的总共节点数；

所述精确修复模块包括：

第二编码子模块，用于从任何d个有效节点下载β比特的编码信息，对所述编码信息进行线性网络编码来恢复失效节点中存储的数据，其中，对于MBR码，d＝n-1，对于MSR码，d∈[2k-1，n-1]，k/n≤1/2，n为分布式网络存储系统中的总共节点数；

第一干扰队列子模块，用于通过线性排列使得进入新节点的干扰量的维数降低；

所述混合修复模块包括：

第三编码子模块，用于从任何d个有效节点下载β比特的编码信息，对所述编码信息进行线性网络编码来恢复失效节点中存储的数据，其中，d＝k+1，k为恢复所述文件所需要的最少节点数；

第二干扰队列子模块，用于通过线性排列使得进入新节点的干扰量的维数降低。

本实施例提供的存储数据的装置可以使用前述对应的方法实施例(第二实施例)中，具体可参照图3所示方法实施例，在此不再赘述。

在本发明实施例中，将数据均分成k个模块，存储于k个节点中，再将所述k个模块通过线性编码(最大距离可分离码MDS)，生成n-k个互不相关的编码块(满足n个节点中任意k个模块能恢复出所述文件中的原始数据，)，并将所述n-k个编码块分发到各节点上，使得系统能够容忍n-k个节点同时失效而不丢失数据，系统的冗余度保持不变，保证了分布式网络存储系统的可靠性；另外，在节点失效时，修复过程中的三个版本都考虑到，从而降低了修复负载以及节点存储量。功能修复问题本质上是在一个无限图中，从一个信源到一个无限的接受者的组播问题，如我们所表述的，在存储和修复带宽之间有一个折中，并且这两个极点通过MBR和MSR码来实现，修复带宽通过最小割集界限描述。精确修复问题相当于要求信宿覆盖子集的网络编码问题，对于MBR码修复带宽在d＝n-1情况下，可以实现给定的割集界限，对于MSR码可在d∈[2k-1，n-1]，d≤n-1匹配割集界限。混合修复只是对于n≥2k的(n，k)MDS码的一个构造，当与d＝k+1个节点通信即可达到最小修复带宽。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种存储数据的方法，其特征在于，所述方法包括：

将大小为M的文件分成k个模块，每个模块的大小为M/k；

其中，n、k均是大于0的整数，且n>k，n为分布式网络存储系统中的总共节点数，k为恢复所述文件所需要的最少节点数。

2.如权利要求1所述的方法，其特征在于，在将所述n-k个模块分发给分布式网络存储系统中剩余的n-k个不同节点的步骤之后，所述方法还包括：

若分布式网络存储系统中有节点失效且失效节点数不超过n-k，则通过现有不少于k个节点来恢复失效节点中所存储的数据。

3.如权利要求2所述的方法，其特征在于，所述通过现有不少于k个节点来恢复失效节点中所存储的数据的方法包括：

功能修复、精确修复和混合修复；

所述功能修复是：通过线性网络编码使构造的新节点中所存储的模块中包含不同于失效节点中的数据且修复后的分布式网络存储系统支持MDS的属性；

所述精确修复是：通过线性网络编码和干扰队列使构造的新节点中所存储的模块与失效节点中所存储的模块相同；

所述混合修复是：若失效节点是分布式网络存储系统中的系统节点，则通过线性网络编码和干扰队列使构造的新节点中所存储的模块与失效节点中存储的模块相同；

若失效节点是分布式网络存储系统中的非系统节点，则通过线性编码使构造的新节点中所存储的模块中包含不同于失效节点中的数据且修复后的分布式网络存储系统支持MDS的属性。

4.如权利要求3所述的方法，其特征在于，所述功能修复具体包括：

其中，d≤n-1，n为分布式网络存储系统中的总共节点数；

所述精确修复具体包括：

通过线性排列使得进入新节点的干扰量的维数降低；

其中，对于最小带宽再生编码MBR，d＝n-1，对于最小存储再生编码MSR，d∈[2k-1,n-1]，k/n≤1/2，n为分布式网络存储系统中的总共节点数；

所述混合修复具体包括：

通过线性排列使得进入新节点的干扰量的维数降低；

5.一种存储数据的装置，其特征在于，所述装置包括：

6.如权利要求5所述的存储数据的装置，其特征在于，所述装置还包括：

节点恢复单元，用于若分布式网络存储系统中有节点失效且失效节点数不超过n-k，则通过现有不少于k个节点来恢复失效节点中所存储的数据。

7.如权利要求6所述的存储数据的装置，其特征在于，所述节点恢复单元包括：功能修复模块、精确修复模块和混合修复模块中的至少一个；

8.如权利要求7所述的存储数据的装置，其特征在于，所述功能修复模块包括：

其中，d≤n-1，n为分布式网络存储系统中的总共节点数；

所述精确修复模块包括：

第二编码子模块，用于从任何d个有效节点下载β比特的编码信息，对所述编码信息进行线性网络编码来恢复失效节点中存储的数据，其中，对于MBR码，d＝n-1，对于MSR码，d∈[2k-1,n-1]，k/n≤1/2，n为分布式网络存储系统中的总共节点数；

所述混合修复模块包括：

9.一种分布式网络存储系统，包括客户端，其特征在于，所述系统还包括如权利要求5至8任一项所述的存储数据的装置，所述存储数据的装置与所述客户端连接，所述存储数据的装置是所述分布式网络存储系统中的节点和索引服务器。