CN101251812A - 一种应用于集群系统数据容错的方法 - Google Patents
一种应用于集群系统数据容错的方法 Download PDFInfo
- Publication number
- CN101251812A CN101251812A CNA2008100144017A CN200810014401A CN101251812A CN 101251812 A CN101251812 A CN 101251812A CN A2008100144017 A CNA2008100144017 A CN A2008100144017A CN 200810014401 A CN200810014401 A CN 200810014401A CN 101251812 A CN101251812 A CN 101251812A
- Authority
- CN
- China
- Prior art keywords
- data
- disk
- data block
- block
- obliterated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000008929 regeneration Effects 0.000 claims abstract description 12
- 238000011069 regeneration method Methods 0.000 claims abstract description 12
- 238000013500 data storage Methods 0.000 claims abstract description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 9
- 238000013459 approach Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
Images
Abstract
本发明是一种应用于集群系统的数据容错方法,是构建生成校验数据时,将数据块从存储在存储单元阵列中的磁盘驱动器上的数据传送到数据再生处理器,通过“异或”运算,产生校验数据并写出到相应的校验数据块上或数据块上数据和校验数据块上数据运算后写出到相应的数据块上。当由于磁盘物理损坏或其他原因导致数据丢失时,联接关系链上未损坏数据块上数据被读入数据再生管理器进行运算后生成丢失数据,这就将再现丢失数据写到相应的备份磁盘相应数据块或原有的数据存储数据块位置,以此来实现丢失数据的再生和重建。通过实施本发明,能对磁盘阵列中的损毁磁盘的数据进行及时恢复和重建,进而在磁盘阵列中再现或再生单个磁盘或多个磁盘的丢失数据。
Description
技术领域
本发明是一种关于磁盘阵列的容错方法,特别是关于一种应用集群系统中磁盘阵列或网络存储等技术的磁盘物理损坏或数据损坏的容灾方法。
背景技术
在高性能集群系统中,大量的计算节点对存储设备进行操作,用户通过终端对集群也频繁进行数据访问操作,频繁的读写,增加了磁盘物理性损坏或误操作而导致的数据丢失的概率,如何保障数据的安全性,就显得尤为重要,而当前的容错技术或多或少都存在一些I/O读写效率、时间效率、空间效率等方面不足的情况,甚至当磁盘同时物理损坏超过两块时就达到现有技术无能为力的境地。
目前拥有很多种方案来解决数据的安全性问题,例如:当数据丢失后,仍可以让其恢复或再生。RAID(独立冗余磁盘阵列)是由美国加州大学伯克利分校的D.A.Patterson教授在1988年提出的。RAID具有较高的性能,这是因为不同的磁盘上的数据可以同时读取,从而提高磁盘的带宽;所有磁盘可以并行地进行寻道工作,减少了寻道的时间,提高整体性能。在性能提高的同时,还可以保证一定程度的容错性。通过相应的冗余磁盘容错机制,可以保证不在丢失保存在失效磁盘上的数据的前提下允许磁盘的失效。令人欣慰的Gibson等人对磁盘驱动器失效的规律进行了研究,他广泛的收集了实验数据并分析了磁盘失效模型,认为负指数分布很好地表述了磁盘驱动器的失效规律。这种研究可以给我们提供一种思维方式,比如因为自然灾害(地震,火灾),战争等等情况下,多个磁盘驱动器同时发生故障,系统瘫痪,也能对机密资料进行快速恢复或修复,给把数据视为生命的机构和单位提供保障。
当前已提出了许多技术用于组织存储在存储设备例如盘驱动器中的数据。一个这种数据存储组织称为独立(或廉价)盘冗余阵列或(RAID)。在RAID组织中,两个或更多个盘驱动器配合使用,以改进容错或性能,或二者。有不同类型的RAID数据存储组织,并且这些不同的类型长称为RAID0级,1级,2级…。
对于大多数情况,在目前单点失效模式,磁盘阵列系统主要依靠RAID5容错来为用户数据提供可靠性。在bit错误提高很少的情况下,磁盘容量的持续增长把RAID5和RAID6系统可靠性削弱了到无法令人接受的境地。磁盘阵列所利用的不同技术,称为RAID级别,其每一个RAID级别都有自己的优点和缺点,RAID6与其他级别的RAID相比,增加了两个独立的错误校验区块(Parity Block),其使用不同的算法,数据的可靠性高,既使两个磁盘同时损毁,也不会影响数据的使用。但是需要分配给错误校验区块更大的磁盘空间,相对RAID5有更大的“写损失”,由于RAID6的写性能较差和实施复杂,使得RAID6很难实现。为了克服上述技术不足,必需有一种针对高性能集群系统的磁盘容错的方法,其可以使用简单的异或运算,快速解决磁盘物理损坏而丢失的数据的难题。
发明内容
本发明是一种应用集群系统的数据容错方法,包括构建数据损坏或磁盘物理性损坏的而导致丢失数据的再生。
在本发明的方法中,在集群系统设置包括共享高速存储队列和运算单元两部分组成数据再生处理器,当磁盘数据进行校验或恢复磁盘损坏丢失数据时,相应正常磁盘数据通过I/O总线被取到共享高速缓存队列,运算单元从高速缓存队列取得数据进行异或运算,并将运算结果写回共享高速缓存队列,再将数据回写至需要备份数据的磁盘或对应数据磁盘,当构建数据损坏或磁盘物理性损坏的而导致丢失数据时,同样通过构建磁盘阵列中数据块校验和重建操作的联接关系,构建生成特定的校验数据块,将该数据块从存储在存储单元阵列中的磁盘驱动器上的数据传送到数据再生处理器,通过“异或”运算,产生校验数据并写出到相应的校验数据块上,关系联接中的未损坏数据读入数据再生管理器进行运算后生成丢失数据,将再现丢失数据写到相应的备份磁盘相应数据块或原有的数据存储数据块位置,以此来实现丢失数据的再生和重建。
构建的数据再生处理器,将数据块的数据从存储数据块或校验数据块传送到数据再生处理器的动态变化的共享高速缓存队列中,通过“异或”运算,将校验数据或重建数据,通过共享高速缓存队列直接写到特定校验数据块中。
在构建的磁盘阵列的容错机制中,数据块的数据按联接关系进行校验并将校验值存放到关系特定的校验数据块中。
相关数据块之间的联接关系为数据块间的联接纽带,是一个完整的数据校验程式,并将校验结果写到了联接关系的特定校验数据块。
数据再生处理器包含有共享高速缓存队列,其进行动态划分,对外显现虚拟化特性。
特定的数据块的数据校验和数据丢失再现直接由数据再生处理器来完成。
磁盘数据块上的丢失数据再生重现在原有未损坏磁盘相应数据块上或备份磁盘相应数据块上。
本发明的优异效果是:构建生成校验数据时,将数据块从存储在存储单元阵列中的磁盘驱动器上的数据传送到数据再生处理器,通过“异或”运算,产生校验数据并写出到相应的校验数据块上。当由于磁盘物理损坏或其他原因导致数据丢失时,未损坏数据读入数据再生管理器进行运算后生成丢失数据,将再现丢失数据写到相应的备份磁盘相应数据块或原有的数据存储数据块位置,以此来实现丢失数据的再生和重建。通过线性关系,解多元一次方程等一系列数学理论论证,构建了一种容错机制,能更大限度的解决高容错度问题,为解决多块数据磁盘同时物理性损坏或同时数据丢失提供了一个很好方法。数据再生处理器的构建,简化了数据重建和校验的流程,使得数据重建和数据在线校验完全有存储处理器一级来完成,极大的减轻了集群系统中上层节点的负担。
附图说明
图1 RAID数据再生存储设备结构图;
图2数据再生处理器结构图;
图3集群系统磁盘阵列多节点访问结构拓扑图;
图4磁盘阵列容错方法构建结构图;
图5磁盘阵列容错构建方法v=1实例图;
图6两块磁盘同时物理损坏或同时磁盘数据丢失图;
图7丢失数据恢复示例图;
图8磁盘阵列数据再生复原图。
具体实施方式
下面结合附图来进一步说明本方法:
在科学计算集群系统中,大量运算数据在存储设备上频繁读写,这就给数据的安全性造成一定的风险,频繁的操作导致的安全风险的概率增大,必须有一套更好的保障机制来保证数据的安全,当发生人为的或非人为的数据灾难时,迅速而有效的恢复数据,就显得相当重要。
集群系统的存储结构框架结构如图3所示,计算机节点和管理节点等节点通过存储管理器和系统总线或I/O总线等对磁盘阵列数据进行读写操作。
在网络存储中,磁盘阵列的结构划分如图4所示,磁盘按条块进行划分,该图总共有N个磁盘组成了一个磁盘阵列,并将每个磁盘划分为R+V数据条块,上层R行数据条块用来存放保存数据,下层V行数据条块存放的数据是由于相关的数据关系链而联接R行数据块部分数据生成的校验数据。具体的数据联接规则如4、
图5所述。联接规则第一个磁盘的第一个数据条块联接到第二块磁盘的第m个数据条块上,第二个磁盘的第m个数据条块联接到第三个磁盘的2m-1个数据条块上,以此类推,条件是(2m<r),且当在第i块磁盘时,即当im-1>R时取模返回(i=1,2,……),一直到第N块磁盘的数据块,这个链条的数据异或生成校验数据存放到第i行数据校验行上。
具体生成校验数据或构建容错机制的数据学表达式如下:
当然该方程成立的前提一定在R(m×n)=t×(r+v)时,t代表同时损坏磁盘数,从这里可以获知该方程完全可以求解而且是唯一的解,所以在创建磁盘阵列数据块时,遵循该方法建立联接关系来创建数据块之间的纽带。以此来解决集群系统的存储容灾问题。由于从构建机制中获知,当磁盘物理性损坏1块或同时损坏两块磁盘时,该构建方程完全是线性无关的,可以得知有唯一的解,所以完全可以恢复数据的再生。这就为高度容错奠定了理论基础。当有超过两块磁盘同时物理性损坏时就可以根据同样的构建机制来建立相应的数据块校验生成联接关系。
列举一特例如图5所示,即V=1的,N=n+1情况,保存数据和校验数据如图所示。当随机有两块磁盘同时损坏如图6所示,根据自建的容错机制,可以完全再生两块磁盘物理损坏而丢失的数据。解决过程如示7所描述。在图7中,在水平方向由于有两个磁盘同一行行中有两个数据块都损坏,所以没有办法解决,倾斜方向数据块有两个数据块是可以解决的,即第一个磁盘的最后一数据块,第二磁盘的第第一个数据块,数据块1率先被恢复和重建。由于水平方向数据被恢复和重建,所以数据2数据也被恢复和重建,依次类推,两块物理性损坏磁盘的数据完全可以被恢复。恢复后的磁盘阵列数据块显示如8所示,从而完成了丢失数据的再生。
图1和图2清楚的说明了数据灾难数据重建的宏观过程,这一过程完全是由数据再生处理器来完成的,当磁盘数据为了保障安全,进行校验时更新或重建时都要通过数据再生处理器来完成。根据本发明的容错策略,在R行数据块中的是联接条上的数据要进行异或运算,并将结果写入到相关的校验数据块,具体操作如图1和图2所示,当数据块上数据通过再生处理器共享高速缓存读入并运算,以高速写出到相应的数据校验块。
Claims (7)
1、一种应用于集群系统的数据容错方法,其特征在于,在集群系统设置包括共享高速存储队列和运算单元两部分组成数据再生处理器,当磁盘数据进行校验或恢复磁盘损坏丢失数据时,相应正常磁盘数据通过I/O总线被取到共享高速缓存队列,运算单元从高速缓存队列取得数据进行异或运算,并将运算结果写回共享高速缓存队列,再将数据回写至需要备份数据的磁盘或对应数据磁盘,当构建数据损坏或磁盘物理性损坏的而导致丢失数据时,同样通过构建磁盘阵列中数据块校验和重建操作的联接关系,构建生成特定的校验数据块,将该数据块从存储在存储单元阵列中的磁盘驱动器上的数据传送到数据再生处理器,通过“异或”运算,产生校验数据并写出到相应的校验数据块上,关系联接中的未损坏数据读入数据再生管理器进行运算后生成丢失数据,将再现丢失数据写到相应的备份磁盘相应数据块或原有的数据存储数据块位置,以此来实现丢失数据的再生和重建。
2、根据权利1要求所述的容错方法,其特征在于构建的数据再生处理器,将数据块的数据从存储数据块或校验数据块传送到数据再生处理器的动态变化的共享高速缓存队列中,通过“异或”运算,将校验数据或重建数据,通过共享高速缓存队列直接写到特定校验数据块中。
3、根据权利2要求所述的容错方法,其特征在构建的磁盘阵列的容错机制,数据块的数据按联接关系进行校验并将校验值存放到关系特定的校验数据块中。
4、根据权利2要求所述容错方法,其特征在于相关数据块之间的联接关系为数据块间的联接纽带,是一个完整的数据校验程式,并将校验结果写到了联接关系的特定校验数据块。
5、根据权利2要求所述容错方法,其特征在于数据再生处理器包含有共享高速缓存队列,其进行动态划分,对外显现虚拟化特性。
6、根据权利2和权利3要求所述的容错方法,其特征在于特定的数据块的数据校验和数据丢失再现直接由数据再生处理器来完成。
7、根据权利2和权利3要求所述的容错方法,其特征在于磁盘数据块上的丢失数据再生重现在原有未损坏磁盘相应数据块上或备份磁盘相应数据块上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100144017A CN101251812A (zh) | 2008-02-28 | 2008-02-28 | 一种应用于集群系统数据容错的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100144017A CN101251812A (zh) | 2008-02-28 | 2008-02-28 | 一种应用于集群系统数据容错的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101251812A true CN101251812A (zh) | 2008-08-27 |
Family
ID=39955211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008100144017A Pending CN101251812A (zh) | 2008-02-28 | 2008-02-28 | 一种应用于集群系统数据容错的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101251812A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101625652B (zh) * | 2009-08-04 | 2011-06-08 | 成都市华为赛门铁克科技有限公司 | 多磁盘容错系统及生成校验块、恢复数据块的方法 |
CN102521076A (zh) * | 2011-12-01 | 2012-06-27 | 浪潮电子信息产业股份有限公司 | 一种智能实时文件备份方法 |
CN103034564A (zh) * | 2012-12-05 | 2013-04-10 | 华为技术有限公司 | 数据容灾演练方法、数据容灾演练装置及系统 |
WO2013107295A1 (zh) * | 2012-01-20 | 2013-07-25 | 腾讯科技(深圳)有限公司 | 硬盘数据恢复方法、服务器及分布式存储系统 |
CN103259856A (zh) * | 2013-04-27 | 2013-08-21 | 华为技术有限公司 | 数据处理的方法、装置与系统 |
CN105022586A (zh) * | 2014-04-17 | 2015-11-04 | 中国移动通信集团公司 | 一种数据处理方法、装置和系统 |
CN106776108A (zh) * | 2016-12-06 | 2017-05-31 | 郑州云海信息技术有限公司 | 一种解决存储磁盘容错的方法 |
US11372555B2 (en) | 2020-01-23 | 2022-06-28 | International Business Machines Corporation | Reconstructing data in a smart storage array |
-
2008
- 2008-02-28 CN CNA2008100144017A patent/CN101251812A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101625652B (zh) * | 2009-08-04 | 2011-06-08 | 成都市华为赛门铁克科技有限公司 | 多磁盘容错系统及生成校验块、恢复数据块的方法 |
US8489916B2 (en) | 2009-08-04 | 2013-07-16 | Chengdu Huawei Symantec Technologies Co., Ltd. | Multi-disk fault-tolerant system, method for generating a check block, and method for recovering a data block |
CN102521076A (zh) * | 2011-12-01 | 2012-06-27 | 浪潮电子信息产业股份有限公司 | 一种智能实时文件备份方法 |
WO2013107295A1 (zh) * | 2012-01-20 | 2013-07-25 | 腾讯科技(深圳)有限公司 | 硬盘数据恢复方法、服务器及分布式存储系统 |
CN103034564A (zh) * | 2012-12-05 | 2013-04-10 | 华为技术有限公司 | 数据容灾演练方法、数据容灾演练装置及系统 |
CN103034564B (zh) * | 2012-12-05 | 2016-06-15 | 华为技术有限公司 | 数据容灾演练方法、数据容灾演练装置及系统 |
CN103259856A (zh) * | 2013-04-27 | 2013-08-21 | 华为技术有限公司 | 数据处理的方法、装置与系统 |
CN105022586A (zh) * | 2014-04-17 | 2015-11-04 | 中国移动通信集团公司 | 一种数据处理方法、装置和系统 |
CN106776108A (zh) * | 2016-12-06 | 2017-05-31 | 郑州云海信息技术有限公司 | 一种解决存储磁盘容错的方法 |
US11372555B2 (en) | 2020-01-23 | 2022-06-28 | International Business Machines Corporation | Reconstructing data in a smart storage array |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10496481B2 (en) | Methods and systems for rebuilding data subsequent to the failure of a storage unit | |
CN101251812A (zh) | 一种应用于集群系统数据容错的方法 | |
US6970987B1 (en) | Method for storing data in a geographically-diverse data-storing system providing cross-site redundancy | |
JP3742494B2 (ja) | 大容量記憶装置 | |
US8327080B1 (en) | Write-back cache protection | |
US7934120B2 (en) | Storing data redundantly | |
CN101546249A (zh) | 磁盘阵列在线容量扩展方法 | |
US20080126700A1 (en) | System for optimizing the performance and reliability of a storage controller cache offload circuit | |
US20120179870A1 (en) | Data Storage Method with (D,K) Moore Graph-Based Network Storage Structure | |
CN103488432B (zh) | 一种混合磁盘阵列及其延迟写入校验方法和数据恢复方法 | |
CN103593260B (zh) | 一种元数据的保护方法和装置 | |
WO2011015134A1 (zh) | 多磁盘容错系统及生成校验块、恢复数据块的方法 | |
CN103019623B (zh) | 存储盘处理方法及装置 | |
CN102207895A (zh) | 一种独立磁盘冗余阵列数据重建方法和装置 | |
CN104516679B (zh) | 一种raid数据处理方法及装置 | |
CN102177496A (zh) | 用于针对当前数据和回放数据在不同raid数据存储类型之间转移数据的系统和方法 | |
CN104461373B (zh) | 一种raid数据处理方法及装置 | |
US8239625B2 (en) | Parity generator for redundant array of independent discs type memory | |
CN107885620A (zh) | 一种提高固态盘阵列性能和可靠性的方法及系统 | |
CN104281499B (zh) | 基于奇偶校验的raid条带镜像数据分布方法 | |
CN102385544B (zh) | 一种磁盘重建方法和装置 | |
CN106933707B (zh) | 基于raid技术的数据存储设备数据恢复方法及系统 | |
US6785788B1 (en) | System and method for implementing an enhanced raid disk storage system | |
CN108984113A (zh) | 一种独立介质的冗余阵列 | |
CN100492306C (zh) | 独立磁盘冗余阵列毁损时的数据恢复方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20080827 |