CN108153615A - 一种故障数据恢复方法 - Google Patents

一种故障数据恢复方法 Download PDF

Info

Publication number
CN108153615A
CN108153615A CN201611109698.6A CN201611109698A CN108153615A CN 108153615 A CN108153615 A CN 108153615A CN 201611109698 A CN201611109698 A CN 201611109698A CN 108153615 A CN108153615 A CN 108153615A
Authority
CN
China
Prior art keywords
node
data
storage
grouping
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611109698.6A
Other languages
English (en)
Other versions
CN108153615B (zh
Inventor
刘斌
吴方才
楚涌泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Space Star Technology (beijing) Co Ltd
Original Assignee
Space Star Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Space Star Technology (beijing) Co Ltd filed Critical Space Star Technology (beijing) Co Ltd
Priority to CN201611109698.6A priority Critical patent/CN108153615B/zh
Publication of CN108153615A publication Critical patent/CN108153615A/zh
Application granted granted Critical
Publication of CN108153615B publication Critical patent/CN108153615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1471Saving, restoring, recovering or retrying involving logging of persistent data for recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种故障数据恢复方法,选择节点组成分组,其中包括一个存储风险较高的节点和一个存储风险较低的节点,使得每个分组中的平均存储风险相对均衡,避免了冗余数据分布的若干节点均为故障频发的节点的情况,将冗余数据分布到这样存储风险均衡的分组中,方便了数据维护和降低了数据丢失风险。

Description

一种故障数据恢复方法
【技术领域】
本发明属于数据存储领域,尤其涉及故障数据恢复方法。
【背景技术】
一般情况下,一台机器对外提供的吞吐最高也只能达到200MBps,若采用通常的机器镜像即几台机器上的数据完全一致的方式,修复12TB的数据需要耗时20多个小时,考虑到正常的服务压力,修复的时间将达到几十个小时。
现有技术中提出了分布式存储方式,将数据切分为多个库,并复制几份冗余,同一库的不同冗余分布存储于不同机器的不同位置,提高了修复速度。但是现有技术中将冗余数据分布在不同机器上时,采用的是随机方式,对不同机器没有加以选择,造成了相同数据分布的机器都可能是故障频发机器,因此造成数据维护困难和提高了数据丢失风险。
基于上述问题,现在亟需一种新的故障数据恢复方法,将节点按照存储风险进行分组,使得每个分组的平均存储风险相对均衡,将冗余数据分布到每个分组中,方便了数据维护和降低了数据丢失风险。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种分布式系统中数据存储方法。
本发明采用的技术方案如下:
一种故障数据恢复方法,该方法包括如下步骤:
(1)将数据片段和对应的复制数据片段分别存储到从多个节点中选择的作为一个存储分组中的两个节点中,直到所有数据片段和复制数据片段都存储到相应的存储分组中;
(2)当存储分组中的一个节点发生故障时,根据上述存储分组中的另一个节点存储的数据片段或复制数据片段,对上述发生故障的节点进行修复;
(3)对每个节点设置一对一的端口,当节点发生故障时,上述节点对应的端口自动关闭,当发生故障的节点成功修复后,自动开启上述节点对应的端口。
本发明的有益效果包括:将多个节点进行分组,每个分组中包括一个存储风险较高的节点和一个存储风险较低的节点,使得每个分组中的平均存储风险值对均衡,避免了冗余数据分布的若干节点均为故障频发的节点的情况,将冗余数据分布到这样存储风险均衡的分组中,方便了数据维护和降低了数据丢失风险。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明系统的结构图。
图2是本发明系统中故障数据恢复方法的流程图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
参见附图1,是本发明所应用的系统,在一个实施例中为分布式系统,该系统包括多个计算节点。
参见附图2,一种故障数据恢复方法,该方法包括如下步骤:
(1)将系统中的m个节点i按照存储容量、运行负载和故障频率按照下述公式(a)计算确定每个节点的存储风险值Ri:
Ri=Si×Pi+1/Fi×Qi+Gi×Ti(a);
其中Si表示节点i的存储容量,Pi表示存储容量所对应的权重,Fi表示节点i的运行历史中的最高系统运行负载,Qi表示运行负载所对应的权重,Gi表示节点i的运行历史中的故障频率,Ti表示故障频率所对应的权重,且Pi,Qi,Gi>1;
其中,存储容量、运行负载和故障频率是分别影响一个节点存储风险值的不同因素,其中存储容量表示一个节点的存储能力,存储容量越大、则上述节点因为数据存储压力造成的故障风险越低,反之越高;一个节点的运行负载越大,则上述节点因为运行超负荷所造成的故障风险越大,反之越低;一个节点在运行历史周期内发生的故障频率越高,则表明上述节点在以后的周期内发生故障的可能性越高,反之越低。
在一个实施方式中,存储容量、运行负载和故障频率记录在一个表中,每个节点的存储容量可以指其计算机硬盘存储容量,将每个节点的存储容量记录在表中,监视每个节点在预定时间周期内的多次运行所占用的系统资源,并将运行所占用的最多系统资源作为最高系统运行负载记录在上述表中,监视每个节点在预定时间周期内的故障发生次数,作为故障频率记录在表中;
在计算节点的存储风险值Ri时,从表中读取上述节点所对应的存储容量、运行负载和故障频率按照上述公式(a)进行计算。
(2)按照存储风险值从低到高的顺序将m个节点排成一个有序排队,将有序队列中队首第一个节点和队尾最后一个节点取出构成第一存储分组,对于剩余节点构成的有序队列按照上述方式继续处理构成后续多个存储分组,直至有序队列中只有2个或3个节点,即对应于m为偶数和奇数的情形,则将上述2个或3个节点作为一个存储分组,最终m个节点分成k个存储分组;
(3)当系统接收到数据存储请求时,将数据切分成k个数据片段,对每个数据片段复制,获得k组数据片段分组,每组数据片段分组中包括一个数据片段和其对应的复制数据片段;
(4)将一个数据片段分组中的数据片段和对应的复制数据片段分别存储到一个存储分组中的两个节点中,直到k组数据片段分组中的数据片段和复制数据片段都存储到k个存储分组中;
由于每个分组中包括一个存储风险值较高的节点和一个存储风险值较低的节点,使得每个分组中的平均存储风险值相对均衡,避免了冗余数据分布的若干节点均为故障频发的节点的情况,将冗余数据分布到这样存储风险均衡的分组中,方便了数据维护和降低了数据丢失风险。
(5)当存储分组中的一个节点发生故障时,根据上述存储分组中的另一个节点存储的数据片段或复制数据片段,对上述发生故障的节点进行修复;
由此,将会大大提高修复数据的速度,缩短修复时间,当多个节点发生故障时,对多个节点进行并行修复,一个数据片段分组中的数据片段和对应的复制数据片段按照随机方式存储到一个存储分组中的两个节点中。在机器数量大于故障机器上的库的数量时,整个修复过程的耗时通常仅需几十分钟,解决了数据高效自动修复的问题。
(6)对每个节点设置一对一的端口,当节点发生故障时,上述节点对应的端口自动关闭,当发生故障的节点成功修复后,自动开启上述节点对应的端口。从而保障了数据的正确读取,而且避免了使用错误列表访问端口的问题。
通过上述方法,本发明将多个节点进行分组,每个分组中包括一个存储风险较高的节点和一个存储风险较低的节点,使得每个分组中的平均存储风险相对均衡,避免了冗余数据分布的若干节点均为故障频发的节点的情况,将冗余数据分布到这样存储风险均衡的分组中,方便了数据维护和降低了数据丢失风险。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

Claims (3)

1.一种故障数据恢复方法,其特征在于,该方法包括如下步骤:
(1)将数据片段和对应的复制数据片段分别存储到从多个节点中选择的作为一个存储分组中的两个节点中,直到所有数据片段和复制数据片段都存储到相应的存储分组中;
(2)当存储分组中的一个节点发生故障时,根据上述存储分组中的另一个节点存储的数据片段或复制数据片段,对上述发生故障的节点进行修复;
(3)对每个节点设置一对一的端口,当节点发生故障时,上述节点对应的端口自动关闭,当发生故障的节点成功修复后,自动开启上述节点对应的端口。
2.根据权利要求1所述的故障数据恢复方法,其特征在于,当多个节点发生故障时,对多个节点进行并行修复。
3.根据权利要求1所述的故障数据恢复方法,其特征在于,一个数据片段分组中的数据片段和对应的复制数据片段按照随机方式存储到一个存储分组中的两个节点中。
CN201611109698.6A 2016-12-02 2016-12-02 一种故障数据恢复方法 Active CN108153615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611109698.6A CN108153615B (zh) 2016-12-02 2016-12-02 一种故障数据恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611109698.6A CN108153615B (zh) 2016-12-02 2016-12-02 一种故障数据恢复方法

Publications (2)

Publication Number Publication Date
CN108153615A true CN108153615A (zh) 2018-06-12
CN108153615B CN108153615B (zh) 2019-07-23

Family

ID=62467869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611109698.6A Active CN108153615B (zh) 2016-12-02 2016-12-02 一种故障数据恢复方法

Country Status (1)

Country Link
CN (1) CN108153615B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117322A (zh) * 2018-08-28 2019-01-01 郑州云海信息技术有限公司 一种服务器主备冗余的控制方法、系统、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692227A (zh) * 2009-09-25 2010-04-07 中国人民解放军国防科学技术大学 大规模高可靠的归档存储系统构建方法
CN102143063A (zh) * 2010-12-29 2011-08-03 华为技术有限公司 集群系统中业务保护的方法和装置
CN102158513A (zh) * 2010-02-11 2011-08-17 联想(北京)有限公司 一种服务器集群节能的方法、装置和服务器集群
CN102629934A (zh) * 2012-02-28 2012-08-08 北京搜狐新媒体信息技术有限公司 基于分布式存储系统的数据存储方法及装置
CN102857554A (zh) * 2012-07-26 2013-01-02 福建网龙计算机网络信息技术有限公司 基于分布式存储系统进行数据冗余处理方法
CN103312825A (zh) * 2013-07-10 2013-09-18 中国人民解放军国防科学技术大学 一种数据分布存储方法和装置
CN103929454A (zh) * 2013-01-15 2014-07-16 中国移动通信集团四川有限公司 一种云计算平台中负载均衡存储的方法和系统
CN105357294A (zh) * 2015-10-31 2016-02-24 成都华为技术有限公司 一种存储数据的方法及集群管理节点
CN105550229A (zh) * 2015-12-07 2016-05-04 北京奇虎科技有限公司 分布式存储系统数据修复的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692227A (zh) * 2009-09-25 2010-04-07 中国人民解放军国防科学技术大学 大规模高可靠的归档存储系统构建方法
CN102158513A (zh) * 2010-02-11 2011-08-17 联想(北京)有限公司 一种服务器集群节能的方法、装置和服务器集群
CN102143063A (zh) * 2010-12-29 2011-08-03 华为技术有限公司 集群系统中业务保护的方法和装置
CN102629934A (zh) * 2012-02-28 2012-08-08 北京搜狐新媒体信息技术有限公司 基于分布式存储系统的数据存储方法及装置
CN102857554A (zh) * 2012-07-26 2013-01-02 福建网龙计算机网络信息技术有限公司 基于分布式存储系统进行数据冗余处理方法
CN103929454A (zh) * 2013-01-15 2014-07-16 中国移动通信集团四川有限公司 一种云计算平台中负载均衡存储的方法和系统
CN103312825A (zh) * 2013-07-10 2013-09-18 中国人民解放军国防科学技术大学 一种数据分布存储方法和装置
CN105357294A (zh) * 2015-10-31 2016-02-24 成都华为技术有限公司 一种存储数据的方法及集群管理节点
CN105550229A (zh) * 2015-12-07 2016-05-04 北京奇虎科技有限公司 分布式存储系统数据修复的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117322A (zh) * 2018-08-28 2019-01-01 郑州云海信息技术有限公司 一种服务器主备冗余的控制方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN108153615B (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN100392611C (zh) 存储控制装置和方法
CN1174318C (zh) 盘存储装置的数据更新方法和盘存储控制装置
CN110188084B (zh) 一种分布式文件存储系统及文件存储方法
CN108701090A (zh) 用以支持存储器错误校正的非易失性存储器模块架构
CN105892934A (zh) 用于存储设备管理的方法和装置
CN107357688A (zh) 分布式系统及其故障恢复方法和装置
WO2020000817A1 (zh) 一种归置组所属硬盘分配方法、系统、装置及存储介质
US20140089740A1 (en) Computerised storage system comprising replaceable units for managing testing of replacement units
CN104765652B (zh) 一种数据备份和数据恢复方法及装置
CN108153615B (zh) 一种故障数据恢复方法
CN110058960A (zh) 用于管理存储系统的方法、设备和计算机程序产品
CN106776952B (zh) 一种分布式系统中数据存储方法
CN107544874A (zh) 业务处理方法及装置
CN114048004A (zh) 虚拟机高可用批量调度方法、装置、设备及存储介质
CN102710438A (zh) 一种节点管理方法、装置及系统
CN106372160A (zh) 一种分布式数据库及管理方法
CN101719050A (zh) 一种数据存储方法及设备
CN108156189B (zh) 一种多节点系统中冗余数据处理方法
CN106708445B (zh) 链路选择方法及装置
US20160343455A1 (en) Remapping memory locations in a memory array
EP2645250A2 (en) Storage system, storage apparatus, and data restoration method
CN107122254B (zh) 一种计算机修复控制方法及系统、修复方法及系统
CN108334279B (zh) 基于负载均衡模式的数据读写方法
US8214605B2 (en) Method for reading out data from a storage medium
CN110298031A (zh) 一种词典服务系统及模型版本一致性配送方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 101399 No. 2 East Airport Road, Shunyi Airport Economic Core Area, Beijing (1st, 5th and 7th floors of Industrial Park 1A-4)

Applicant after: Zhongke Star Map Co., Ltd.

Address before: 101399 Building 1A-4, National Geographic Information Technology Industrial Park, Guomen Business District, Shunyi District, Beijing

Applicant before: Space Star Technology (Beijing) Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Chen Wei

Inventor after: Liu Bin

Inventor after: Wu Fangcai

Inventor after: Chu Yongquan

Inventor before: Liu Bin

Inventor before: Wu Fangcai

Inventor before: Chu Yongquan

CB03 Change of inventor or designer information