CN101692227B

CN101692227B - 大规模高可靠的归档存储系统构建方法

Info

Publication number: CN101692227B
Application number: CN200910044404XA
Authority: CN
Inventors: 杜凯; 王怀民; 杨树强
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2009-09-25
Filing date: 2009-09-25
Publication date: 2011-08-10
Anticipated expiration: 2029-09-25
Also published as: CN101692227A

Abstract

本发明公开了一种大规模高可靠的归档存储系统构建方法，要解决的技术问题是基于归档数据的特点，提供一种大规模归档存储系统构建方法，提高归档存储系统的可靠性。技术方案是采用文件多副本的分布式存储及并行恢复方法对大规模归档文件进行存储及恢复，设计连续时间的Markov模型来描述大规模归档存储系统的故障恢复过程，依据Markov模型获得大规模归档存储系统优化参数，最后依据获得的优化参数构建存储系统。采用本发明模型简单，使得构建高可靠归档存储系统的难度降低，提高了归档存储系统的可靠性，且构建的存储系统体系结构易扩展、性价比高。

Description

大规模高可靠的归档存储系统构建方法

技术领域

本发明涉及计算机应用技术领域存储系统的构建方法，具体地说是一种基于计算机集群系统的，大规模高可靠的归档数据存储系统的构建方法。

背景技术

大规模归档数据存储应用涉及网络安全管理、网络搜索、通信、金融、科学实验等诸多领域。例如，在网络安全应用中，对网络通信的报文头信息进行实时存储、查询和分析是常见的网络安全管理手段，该类数据具有典型的写一次读多次的归档特性，且由于其持续产生，生成速度快(一个普通的Gbit的网络连接产生的报文数可达每秒10万，其数据速度达几十MB每秒)，所以形成的系统规模较大。类似的应用还有：在网络搜索引擎，需要依据用户个人信息如以往搜索的习惯和关注点等，为其提供更符合其喜好的搜索结果；在电信行业中，日常电话通信过程会产生大量的通话详细信息，如通信双方的电话号码，通话开始时间和结束时间，通话双方的地点等。这类信息被广泛用于用户个人事后查询，运营商分析消费模式或发现盗打行为，以及公共安全部门侦查等用途。

出于以上原因，设计大规模归档存储系统成为本领域技术人员极为关注的问题。在大规模归档数据存储系统中，一方面由于规模庞大，导致存储节点数目大，从而系统故障率较高。例如，当单个磁盘的可用性是99.999％(年故障时间5分钟)时，由1000个、100个、10个该磁盘串联组成的系统的可用性分别为99％(年故障时间88小时)，99.9％(年故障时间8.8小时)，99.99％(年故障时间0.88小时)。另一方面由于磁盘容量和带宽增长速度的失配，导致数据恢复速度相对下降，所以数据可靠性成为设计该类系统的一个关键问题。

当前构建大规模归档存储系统的方法主要包括两种。一是采用基于冗余磁盘阵列RAID或存储区域网络SAN等昂贵的存储设备来保证可靠性，该方法一方面成本较高，另一方面当系统规模较大时，即使故障率较低，但一旦出现故障，恢复时间也较长，因此这种方法目前用得较少。二是采用存储节点集群，同时为每个文件存储多个副本，所有副本对等或随机分布存储于集群中。当采用对等存储时，降低了故障率，但不能降低故障恢复时间，因为文件只能串行对等恢复，其恢复时间可能较长；当采用随机存储时，可以有效提高故障恢复时间，但需要设计合理的系统参数，平衡故障率和恢复时间，以优化系统数据可靠性，当前对此类存储模式优化研究尚不充分。因此，如何在系统规模和文件副本数目一定的条件下，优化设计系统参数，提高系统可靠性，是采用存储节点集群构建大规模归档存储系统必须解决的重要问题。

发明内容

本发明要解决的技术问题是基于归档数据的特点，提供一种大规模归档存储系统构建方法，提高归档存储系统的可靠性。

本发明的技术方案是：

首先采用文件多副本的分布式存储及并行恢复方法对大规模归档文件进行存储及恢复，然后依据文件的故障恢复过程建立Markov可靠性模型，求解该模型后获得使系统可靠性优化的系统参数值，最后利用这些参数值构建存储系统。

具体技术方案是：

第一步，采用文件多副本的分布式存储及并行恢复方法对大规模归档文件进行存储及恢复：

步骤1)构建由多个存储节点组成的存储集群，每个存储节点是包含磁盘，处理器，内存和网络接口的计算机，存储节点之间通过以太网互联。存储节点依次编号为0，1，2，...，N-1，N为存储节点的总数目。待存储的文件数目为p个，每个文件有K个副本，p和K均为正整数。

步骤2)将p*K个副本随机均匀地分布于N个存储节点上，存储节点编号使用[1，N]上均匀分布的随机函数g＝random()，1≤g≤N，同时保证K个副本应分别存储在K个不同的存储节点上；

步骤3)当存储集群中多个存储节点出现故障时，多个存储节点按照故障恢复方法进行并发恢复。故障恢复方法是：当存储集群中某个存储节点出现故障时，针对该故障节点上的某个文件j，从存储集群中包含j的副本的除故障节点外的K-1个正常节点中选择一个作为源节点，选择除源节点和故障节点外的任意一个正常节点作为临时目标节点，将副本从源节点拷贝到临时目标节点上。采用这种方法可将该故障节点上的所有文件存储到一组临时目标节点上，从而保持这组文件的副本数目不变。

步骤4)替换节点：当故障节点修复或被新节点替换后，将临时目标节点上的副本拷贝到该修复或替换后的新节点上，之后删除临时目标节点上的副本。

第二步，设计连续时间的Markov模型来描述大规模归档存储系统的故障恢复过程：

影响系统可靠性的因素主要包括下列系统参数：存储系统中每个文件的副本数K，存储节点的磁盘的故障率λ，数据总存储量S，系统存储节点总数N，单个节点上存储的文件个数m，网络总带宽B，单个节点IO带宽b。其中前三个参数对可靠性的影响是独立且单调的，即K越大，或λ越小，或S越小，系统可靠性越高；而剩余四个参数却互斥地影响系统的脆弱性(多久出现故障)和可恢复性(多久恢复故障)，为获得这四个参数最优值需要设计精确的可靠性模型进行分析。

由于大规模归档存储系统具有以下特性，所以采用连续时间的Markov模型来描述故障恢复过程：1)由于磁盘故障和修复一般服从指数分布，因此故障发生和修复过程都服从指数分布；2)因为归档数据不再更新，因此归档数据的恢复开销仅包含物理文件的拷贝开销，不存在普通多副本数据的一致性维护开销；3)通过分割和合并文件，可以使得系统中存储的每个文件的大小相当。

描述数据的故障和恢复过程的Markov模型是一个状态机：

大规模归档存储系统中每个文件的状态定义为(h，i)，其中h是某文件保留在原始存储节点上的副本的数目，i表示临时恢复存储到临时目标节点上的副本的数目。大规模归档存储系统处于初始状态时，所有文件的副本都存储在其初始放置的存储节点上，用(K，0)来表示。系统处于终止状态时，系统中的某个文件到达(0，0)状态，此时表示该文件在系统中不存在一个副本，即系统中的数据丢失了，到达不可用状态，即终止状态。MTTDL_O定义为从初始状态(K，0)到终止状态(0，0)的平均时间。

按下述6种情况进行状态转移：

1)当h＝K且i＝0时为初始状态，只能转移到状态(K-1，0)，转移条件是系统中出现一个故障节点，该文件位于初始分布的节点的副本数目减少一个达到K-1，位于临时节点的副本数目仍然为0。状态(K，0)到状态(K-1，0)的转移速度是K*λ。

2)当h＝0且i＝0时为终止状态，到达该状态表明系统出现数据丢失，处于不可修复状态，故不能再转移到其它状态。

3)当1≤h≤K-1且i＝0时为边缘状态I，在该状态下，只能转移到下述两种状态：

状态(h-1，0)：当系统中出现新的故障节点时，该文件位于初始分布的节点的副本数目减少一个达到h-1，位于临时节点的副本数目保持不变为0。状态(h，0)到状态(h-1，0)的转移速度是h*λ。

状态(h，1)：当文件的副本恢复到临时目标节点时，该文件位于临时目标节点的副本数目增加一个达到1，位于初始分布节点的副本数目保持不变。状态(h，0)到状态(h，1)的转移速度是μ，μ是单个文件副本在一对节点中恢复的速度。

4)当1≤i≤K且h＝0时为边缘状态II，在该状态下，只能转移到下述两种状态：

状态(0，i+1)：当文件的副本恢复到临时目标节点时，该文件位于临时目标节点的副本数目增加一个达到i+1，位于初始分布节点的副本数目保持不变。状态(0，i)到状态(0，i+1)的转移速度是μ。

状态(0，i-1)：当存储文件副本的临时目标节点出现故障时，该文件位于临时目标节点的副本数目减少一个达到i-1，位于初始分布节点的副本数目保持不变。状态(0，i)到状态(0，i+1)的转移速度是i*λ。

5)当h+i＝K，且1≤h≤K-1，1≤i≤K-1，为边缘状态III，在该状态下，只能转移到下述两种状态：

状态(h+1，i-1)：当存储集群中故障节点被新节点替换成功时，该文件位于i个临时节点的i个副本中(每个副本分别位于一个节点)的一个转移到了新替换节点上，位于初始分布节点(副本最初分布的节点)的副本数增加一个达到h+1，位于i个临时节点上的副本数减少一个达到i-1。状态(h，i)到状态(h+1，i-1)的转移速度是i*v，v是单个文件拷贝转移的速度。

状态(h，i-1)：当存储文件副本的临时目标节点出现故障时，该文件位于临时目标节点的副本数目减少一个达到i-1，位于初始分布节点的副本数目保持不变。状态(h，i)到状态(h，i+1)的转移速度是i*λ。

6)当h+i＜K，且1≤h≤K-2，1≤i≤K-2，为内部状态，在该状态下，只能转移到下述三种状态：

状态(h-1，i)：当系统中出现新的故障节点时，该文件位于初始分布的节点的副本数目减少一个达到h-1，位于临时节点的副本数目保持不变。状态(h，i)到状态(h-1，i)的转移速度是h*λ。

状态(h，i+1)：当文件的副本恢复到临时目标节点时，该文件位于临时目标节点的副本数目增加一个达到i+1，位于初始分布节点的副本数目保持不变。状态(h，i)到状态(h，i+1)的转移速度是μ。

第三步，依据Markov模型获得大规模归档存储系统优化参数，这些参数包括系统存储节点总数N、网络总带宽B、单个节点上存储的文件个数m和单个节点IO带宽b，方法是：

3.1按照系统存储容量需求得到系统存储规模S，依据可靠性要求确定文件副本数K。

3.2选定基本存储设备(如磁盘)的型号后，获得存储设备或节点的故障率λ和节点的带宽b。

3.3依据Markov模型计算节点总数N、网络总带宽B、单个节点上存储文件的数目m的最优值：

3.3.1选取

，L为正整数。从IO性能角度考虑，N越大意味着IO性能越高，所以在很多情况下需要N大于

。但在性能许可的情况下，N取

是最优值。

3.3.2选取m≥B/b。对较大规模的系统而言，B/b可能是一个较小的值，在实际系统中可能被超出。一个替代的方案是将一组对象(文件)打包成一个组，每组看作一个大的对象按照均匀随机函数进行分布存储，然后通过保持组的数目接近B/b来达到可靠性最优。此时，不论多少对象都可以存储在系统中(组中的对象可以持续追加)。

3.4通过公式S×K/N确定单个存储节点的存储容量。

3.5通过B及b值，确定交换机和核心路由器的型号和数目。

第四步，依据获得的优化参数，构建存储系统：

依据获得的系统优化参数节点总数N、网络总带宽B、单个节点上存储文件的数目m和节点的带宽b，通过S×K/N来确定单个节点存储容量，通过b确定节点带宽，通过B和N确定交换机和核心路由器的型号和数目，通过m确定单个节点上存储文件的数目。依据上述方法确定的参数，将N个存储节点组成局域网，每个节点上的数目不超过m，从而构成海量归档存储系统。

与现有技术相比，采用本发明可达到以下技术效果：

1.数据的可靠性更高。本发明采用了数据随机分布存储，且并行分布恢复的方法，该方法较传统的对等物理恢复有显著改善。同时，由于通过设计和求解连续时间的Markov模型，获得了有利于数据可靠性的系统优化参数，使得存储系统中的数据可靠性更高。研究表明，其恢复性能最大可达到已有的对等恢复模式的n倍(n为参与恢复的节点的对数)，数据可靠性可提高一个数量级。

2.构建的存储系统体系结构具有易扩展、性价比高等特点。存储节点集群因其天然的松耦合特性，具有良好的可扩展性。同时由于该集群可以采用普通便宜的硬件存储设备，能降低整体成本，相对于RAID，SAN等需要专用设备的存储模式具有更高的性价比。

3.模型更简单，因为模型忽略了故障节点的替换对系统恢复性能影响。可以忽略的原因是对象副本的恢复是在故障节点替换之前完成的，所以故障节点替换的速度不会直接影响恢复速度，而仅仅影响文件副本从临时节点拷贝到替换节点的速度。

4.设计和构建高可靠归档存储系统的难度降低。这主要是可靠性模型设计良好，求解难度降低获得的。本模型的状态空间是O(K²)，而其它模型的往往是O(NK)或更大。因为N＞＞K，而在一个大规模的存储系统中N往往接近甚至大于1000，求解如此庞大的状态转换矩阵是十分复杂的。

附图说明

图1是本发明的总流程图。

图2是本发明第一步多副本(K＝3)的分布存储和并发恢复的示意图。

图3是本发明第二步文件故障和恢复过程的Markov模型图。

具体实施方式：

图1是本发明的总流程图。

1.采用文件多副本的分布式存储及并行恢复方法对大规模归档文件进行存储及恢复。

2.设计连续时间的Markov模型来描述大规模归档存储系统的故障恢复过程。

3.依据Markov模型获得存储系统优化参数。

4.依据存储系统优化参数构建大规模归档存储系统。

图2是本发明第一步包含三副本的文件随机分布于多个节点的示意图。图2中共有N(N＝9)个节点，组成一个存储集群。n(n＝9)个文件(编号0-8的方块，每个文件有K＝3个副本)随机均匀分布于N个节点中，节点之间互相独立。这种存储模式至少有如下两个优点。首先，由于这种集群结构中的节点是松耦合的，所以具有良好的扩展性，同时由于节点之间的连接不需要专用的通信设施，只需要通用的百兆或千兆网即可，所以具有较高的性价比。其次，当某个或某些节点出现故障时，数据恢复可以不受单个节点带宽的限制，实现并发恢复，从而最大化恢复速度。例如，当Node0出现故障进行恢复时，文件1，0，6分别由Node2-＞Node1，Node3-＞Node4，Node7-＞Node6三对节点并行恢复。参与恢复的并发节点对的数目是K＝3，恢复带宽最多可达单个节点带宽的K＝3倍。如果采用传统的串行恢复，最多只能达到单个节点带宽。当系统规模更大时，只要网络带宽允许，当节点数和每个节点上文件数目更多时，其并发恢复度(参与恢复的并发节点对的数目)在理想情况下可达到N/2，恢复带宽达到b*N/2。

图3是本发明第二步文件故障和恢复过程的Markov模型图，其中系统的文件副本数目是K，文件的初始状态是(K，0)，终止状态是(0，0)。中间状态的变迁过程分为下述6种情况：

1)当h＝K且i＝0时为初始状态，只能转移到状态(K-1，0)，转移条件是系统中出现一个故障节点，该文件位于初始分布的节点的副本数目减少一个达到K-1，位于临时节点的副本数目仍然为0。状态(K，0)到状态(K-1，0)的转移速度是K*λ，λ是存储节点的故障率。

状态(h-1，0)：当系统中出现新的故障节点时，该文件位于初始分布的节点的副本数目减少一个达到h-1，位于临时节点的副本数目保持不变为0。状态(h，0)到状态(h-1，0)的转移速度是h*λ，λ是存储节点的故障率。

状态(0，i+1)：当文件的副本恢复到临时目标节点时，该文件位于临时目标节点的副本数目增加一个达到i+1，位于初始分布节点的副本数目保持不变。状态(0，i)到状态(0，i+1)的转移速度是μ，μ是单个文件副本在一对节点中恢复的速度。

状态(0，i-1)：当存储文件副本的临时目标节点出现故障时，该文件位于临时目标节点的副本数目减少一个达到i-1，位于初始分布节点的副本数目保持不变。状态(0，i)到状态(0，i+1)的转移速度是i*λ，λ是存储节点的故障率。

状态(h，i-1)：当存储文件副本的临时目标节点出现故障时，该文件位于临时目标节点的副本数目减少一个达到i-1，位于初始分布节点的副本数目保持不变。状态(h，i)到状态(h，i+1)的转移速度是i*λ，λ是存储节点的故障率。

状态(h-1，i)：当系统中出现新的故障节点时，该文件位于初始分布的节点的副本数目减少一个达到h-1，位于临时节点的副本数目保持不变。状态(h，i)到状态(h-1，i)的转移速度是h*λ，λ是存储节点的故障率。

状态(h，i+1)：当文件的副本恢复到临时目标节点时，该文件位于临时目标节点的副本数目增加一个达到i+1，位于初始分布节点的副本数目保持不变。状态(h，i)到状态(h，i+1)的转移速度是μ，μ是单个文件副本在一对节点中恢复的速度。

Claims

1.一种大规模高可靠的归档存储系统构建方法，其特征在于包括以下步骤：

步骤1)构建由多个存储节点组成的存储集群，每个存储节点是包含磁盘，处理器，内存和网络接口的计算机，存储节点之间通过以太网互联；存储节点依次编号为0，1，2，...，N-1，N为存储节点的总数目，待存储的文件数目为p个，每个文件有K个副本，p和K均为正整数；

步骤2)将p*K个副本随机均匀地分布于N个存储节点上，存储节点编号使用[1，N]上均匀分布的随机函数g＝random()，1≤g≤N，同时保证K个副本分别存储在K个不同的存储节点上；

步骤3)当存储集群中多个存储节点出现故障时，多个存储节点按照故障恢复方法进行并发恢复：当存储集群中某个存储节点出现故障时，针对该故障节点上的某个文件j，从存储集群中包含j的副本的除故障节点外的K-1个正常节点中选择一个作为源节点，选择除源节点和故障节点外的任意一个正常节点作为临时目标节点，将副本从源节点拷贝到临时目标节点上；

步骤4)替换节点：当故障节点修复或被新节点替换后，将临时目标节点上的副本拷贝到该修复或替换后的新节点上，之后删除临时目标节点上的副本；

第二步，设计连续时间的Markov模型来描述大规模归档存储系统的故障恢复过程，Markov模型是一个状态机：大规模归档存储系统中每个文件的状态定义为(h，i)，其中h是某文件保留在原始存储节点上的副本的数目，i表示临时恢复存储到临时目标节点上的副本的数目；状态转移方法是：

1)当h＝K且i＝0时为初始状态，只能转移到状态(K-1，0)，转移条件是系统中出现一个故障节点，该文件位于初始分布的节点的副本数目减少一个达到K-1，位于临时节点的副本数目仍然为0，K是存储系统中每个文件的副本数，状态(K，0)到状态(K-1，0)的转移速度是K*λ，λ是存储节点的磁盘的故障率；

2)当h＝0且i＝0时为终止状态，到达该状态表明系统出现数据丢失，处于不可修复状态，不能再转移到其它状态；

状态(h-1，0)：当系统中出现新的故障节点时，该文件位于初始分布的节点的副本数目减少一个达到h-1，位于临时节点的副本数目保持不变为0；状态(h，0)到状态(h-1，0)的转移速度是h*λ；

状态(h，1)：当文件的副本恢复到临时目标节点时，该文件位于临时目标节点的副本数目增加一个达到1，位于初始分布节点的副本数目保持不变；状态(h，0)到状态(h，1)的转移速度是μ，μ是单个文件副本在一对节点中恢复的速度；

状态(0，i+1)：当文件的副本恢复到临时目标节点时，该文件位于临时目标节点的副本数目增加一个达到i+1，位于初始分布节点的副本数目保持不变，状态(0，i)到状态(0，i+1)的转移速度是μ；

状态(0，i-1)：当存储文件副本的临时目标节点出现故障时，该文件位于临时目标节点的副本数目减少一个达到i-1，位于初始分布节点的副本数目保持不变，状态(0，i)到状态(0，i+1)的转移速度是i*λ；

状态(h+1，i-1)：当存储集群中故障节点被新节点替换成功时，该文件位于i个临时节点的i个副本中的一个转移到了新替换节点上，位于副本最初分布的节点的副本数增加一个达到h+1，位于i个临时节点上的副本数减少一个达到i-1；状态(h，i)到状态(h+1，i-1)的转移速度是i*v，v是单个文件拷贝转移的速度；

状态(h，i-1)：当存储文件副本的临时目标节点出现故障时，该文件位于临时目标节点的副本数目减少一个达到i-1，位于初始分布节点的副本数目保持不变；状态(h，i)到状态(h，i+1)的转移速度是i*λ；

状态(h-1，i)：当系统中出现新的故障节点时，该文件位于初始分布的节点的副本数目减少一个达到h-1，位于临时节点的副本数目保持不变；状态(h，i)到状态(h-1，i)的转移速度是h*λ；

状态(h，i+1)：当文件的副本恢复到临时目标节点时，该文件位于临时目标节点的副本数目增加一个达到i+1，位于初始分布节点的副本数目保持不变；状态(h，i)到状态(h，i+1)的转移速度是μ；

3.1按照系统存储容量需求得到系统存储规模S，依据可靠性要求确定文件副本数K；

3.2选定基本存储设备的型号后，获得存储设备或节点的故障率λ和节点的带宽b；

3.3.1选取

L为正整数；

3.3.2选取m≥B/b；

3.4通过公式S×K/N确定单个存储节点的存储容量；

3.5通过B及b值，确定交换机和核心路由器的型号和数目；

第四步，依据第三步获得的优化参数构建存储系统：通过S×K/N来确定单个节点存储容量，通过b确定节点带宽，通过B和N确定交换机和核心路由器的型号和数目，通过m确定单个节点上存储文件的数目；依据上述方法确定的参数，将N个存储节点组成局域网，每个节点上的数目不超过m，从而构成海量归档存储系统。