CN104461771A - 数据备份处理方法和装置 - Google Patents

数据备份处理方法和装置 Download PDF

Info

Publication number
CN104461771A
CN104461771A CN201410610701.7A CN201410610701A CN104461771A CN 104461771 A CN104461771 A CN 104461771A CN 201410610701 A CN201410610701 A CN 201410610701A CN 104461771 A CN104461771 A CN 104461771A
Authority
CN
China
Prior art keywords
data
hardware node
time
hardware
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410610701.7A
Other languages
English (en)
Inventor
杨文君
胡殿明
胡光
覃安
魏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410610701.7A priority Critical patent/CN104461771A/zh
Publication of CN104461771A publication Critical patent/CN104461771A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种数据备份处理方法和装置,该数据备份处理方法包括:为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中;预测第一时间,所述第一时间是所述硬件节点中第一硬件节点在未被处理时会发生故障的时间;在所述第一时间之前,对第一数据进行预修复处理,所述第一数据是所述第一硬件节点上的数据。该方法能够减少数据修复所耗的时间和资源,提升数据存储系统的整体修复性能。

Description

数据备份处理方法和装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据备份处理方法和装置。
背景技术
大数据时代对互联网公司的存储系统提出了更高的要求,无论是来自用户还是来自公司内部,每天都新增大量的数据需要进行备份归档。
传统的分布式存储系统为了保证数据可靠性,往往采用经典的三副本管理策略:对每一份数据都同时维护另外两个备份,任何一份发生故障时都可以从另外两份数据直接拷贝恢复。这种方式尽管简单有效,但存储空间利用率只有1/3,浪费了大量的存储采购、功耗成本。
为了提高资源有效利用率,降低单位容量的存储成本,人们提出了纠删码(ErasureCodes)方式管理:为每一份数据计算生成一定量的校验数据,原数据和校验数据中任何一部分发生故障时都可以用剩余的非故障数据通过计算恢复。纠删码策略生成的校验数据量有限,因此相比于三副本策略,在保证数据可靠性的同时有效提高了存储资源利用率。但纠删码计算十分耗时,计算时需要耗费大量的网络和磁盘带宽,因此当发生故障需要恢复数据时,系统的整体性能会受到较大的影响。如果在恢复过程中恰好有数据读取需求,读取速度将严重受限于数据修复速度,产生“降级读”问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种数据备份处理方法,该方法可以减少数据修复所耗的时间和资源,提升数据存储系统的整体修复性能。
本发明的另一个目的在于提出一种数据备份处理装置。
为达到上述目的,本发明实施例提出的数据备份处理方法,包括:为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中;预测第一时间,所述第一时间是所述硬件节点中第一硬件节点在未被处理时会发生故障的时间;在所述第一时间之前,对第一数据进行预修复处理,所述第一数据是所述第一硬件节点上的数据。
本发明实施例提出的数据备份处理方法,通过为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中,在到达预测的发生故障的第一时间之前对将要发生故障的第一硬件节点上的数据进行预修复处理,有效减少了硬件故障后数据修复所耗的时间和资源,在不影响数据可靠性的前提下提升了数据存储系统对硬件故障的整体修复性能。
为达到上述目的,本发明实施例提出的数据备份处理装置,包括:保存模块,用于为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中;预测模块,用于预测第一时间,所述第一时间是所述硬件节点中第一硬件节点在未被处理时会发生故障的时间;处理模块,用于在所述第一时间之前,对第一数据进行预修复处理,所述第一数据是所述第一硬件节点上的数据。
本发明实施例提出的数据备份处理装置,通过为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中,在到达预测的发生故障的第一时间之前对将要发生故障的第一硬件节点上的数据进行预修复处理,有效减少了硬件故障后数据修复所耗的时间和资源,在不影响数据可靠性的前提下提升了数据存储系统对硬件故障的整体修复性能。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例提出的数据备份处理方法的流程示意图;
图2是本发明实施例的分析器显示的硬盘2个关键参数的变化与最终故障发生在时间上的相关性的示意图;
图3是根据本发明另一实施例提出的数据备份处理方法的流程示意图;
图4是在纠删码策略下故障修复中应用本发明前后的原理的示意图;
图5是本发明另一实施例的数据备份处理装置的结构示意图;
图6是本发明另一实施例的数据备份处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
下面参考附图描述根据本发明实施例的数据备份处理方法和装置。
图1是本发明一实施例提出的数据备份处理方法的流程示意图,该方法包括:
S101:为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中。
其中,校验数据可以是根据当前数据存储系统中所使用的编码策略计算得到的。当原数据丢失或损坏时,可以通过预设的编码算法对校验数据计算来修复原数据。目前,分布式存储系统中主要使用的纠删码(Erasure Codes)有Reed-Solomon(RS)编码和LocalReconstruction Codes/Locally Repairable Codes(LRC)编码,具体的编码策略还可以有多种,在此不再一一列举。
S102:预测第一时间,所述第一时间是所述硬件节点中第一硬件节点在未被处理时会发生故障的时间。
其中,第一硬件节点是保存原数据和校验数据的至少一个硬件节点中的任一个会发生故障的硬件节点。
常规来讲,除供电、自然灾害等不可抗力因素以外,绝大部分硬件故障的发生都是渐变过程(主要是由于老化),一次故障的最终发生,事先会出现征兆,这些征兆体现在硬件运行参数上的变化等,因此可以将这些参数变化作为预测硬件故障的事实依据。例如图2所示即为分析器显示的硬盘2个关键参数的变化与最终故障发生在时间上的相关性。
具体地,可以对硬件运行过程中的状态参数进行大量的提取和分析,针对每个参数运用数学相关性分析,计算它们与预测目标在统计上的相关度,从而从众多监控数据中筛选出与预测目标关联性最强的一个或多个参数,构建特征空间,从而对发生故障的硬件节点和时间进行预测。
S103:在所述第一时间之前,对第一数据进行预修复处理,所述第一数据是所述第一硬件节点上的数据。
其中,第一数据包括所述第一硬件节点上的原数据和/或校验数据。
在本发明的具体实施例中,对第一数据进行预修复处理可以是将所述第一数据迁移到第二硬件节点上,从而在所述第一硬件节点发生故障后,可以从所述第二硬件节点上获取所述第一数据,以恢复所述第一数据。
其中,所述第二硬件节点是与所述第一硬件节点不同的硬件节点,且所述第二硬件节点是在所述第一时间时不会发生故障的硬件节点。第二硬件节点可以由用户个人根据预测的第一时间选定,也可以由系统默认。
本实施例通过为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中,在到达预测的发生故障的第一时间之前对将要发生故障的第一硬件节点上的数据进行预修复处理,有效减少了硬件故障后数据修复所耗的时间和资源,在不影响数据可靠性的前提下提升了数据存储系统对硬件故障的整体修复性能。
图3是根据本发明另一实施例提出的数据备份处理方法的流程示意图,该方法包括:
S201:为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中。
其中,校验数据可以是根据当前数据存储系统中所使用的编码策略计算得到的。当原数据丢失或损坏时,可以通过预设的编码算法对校验数据计算来修复原数据。目前,分布式存储系统中主要使用的纠删码有Reed-Solomon(RS)编码和Local ReconstructionCodes/Locally Repairable Codes(LRC)编码,具体的编码策略还可以有多种,在此不再一一列举。
S202:记录所述硬件节点的历史运行状态参数,以及记录所述硬件节点的历史故障情况。
其中,所述硬件节点的历史运行状态参数可以包括多种,例如硬件节点的使用时间、硬件的寿命年限、历史运行状态、稳定性参数等,所述硬件节点的历史故障情况可以包括故障时间、故障原因、修复方式、修复结果等多种,在此不再一一列举。
S203:对所述记录的所述历史运行状态参数和所述历史故障情况进行训练,得到监测值和预先确定的运行状态参数的参数值与故障时间的对应关系。
在具体的实施例中,尽管硬件故障状态相对于硬件正常运行状态而言是稀有事件,但可以将故障前的大量记录与故障记录本身统一到一起集中分析,同时借助大数据的总量优势,可以应用机器学习和/或数据挖掘等方法,找到故障发生前的共性。具体地,可以将记录的所述历史运行状态参数和所述历史故障情况输入到统计分类模型(例如向量机、逻辑回归等模型)中进行大规模训练,即可得到监测值和预先确定的运行状态参数的参数值与故障时间的对应关系,从而可以实现对硬件健康状况的实时感知以及对故障发生的提前预测。
其中,预先确定的运行状态参数可以有多种,可通过如下步骤进行基本的参数选择:
SELECT FEATURES(D,c,k)
1 V←EXTRACTVOCABULARY(D)
2 L←[]
3 for each t∈V
4 do A(t,c)←COMPUTEFEATUREUTILITY(D,t,c)
5 APPEND(L,〈A(t,c),t〉)
6 return FEATURESWITHLARGESTVALUES(L,k)
S204:监测所述硬件节点的运行状态参数,得到监测值。
具体地,可以对存储数据的每一个硬件节点的运行状态参数都进行实时监测,得到连续的监测值。
S205:根据所述监测值和预先确定的运行状态参数的参数值与故障时间的对应关系,预测第一时间。
其中,第一时间是所述硬件节点中第一硬件节点在未被处理时会发生故障的时间。
具体地,根据所述监测值和预先确定的运行状态参数的参数值与故障时间的对应关系,结合当前的监测值,可以预测每个硬件节点的可能发生故障的时间,并将预测最先发生故障的硬件节点确定为第一硬件节点,预测第一硬件节点发生故障的时间为第一时间。
S206:在所述第一时间之前,对第一数据进行预修复处理,所述第一数据是所述第一硬件节点上的数据。
其中,在所述第一时间之前可以是在所述第一时间的之前对所述硬件节点的监测值达到预设值时,也可以是在所述第一时间之前的距离所述第一时间达到预设时间差时。
进一步地,对第一数据进行预修复处理,可以是将所述第一数据迁移到第二硬件节点上,所述第二硬件节点是与所述第一硬件节点不同的硬件节点,且所述第二硬件节点是在所述第一时间时不会发生故障的硬件节点。从而在所述第一硬件节点发生故障后,从所述第二硬件节点上获取所述第一数据,以恢复所述第一数据。
具体而言,对于采用纠删码尤其是RS编码的分布式存储系统,在故障发生时,发生故障的硬件节点中的数据已不可访问,所以必须要读取其他数据,并根据校验算法重新计算来获取故障损失的数据,计算的过程耗时,读取其他数据的过程耗费带宽资源。如果应用本发明的数据备份处理技术,在故障发生前预留足够多的时间就报警,对第一数据进行预修复处理,则此时第一硬件节点还未发生故障,第一数据仍然可读(尽管可能处于不健康状态),可以仅仅通过将该份第一数据完整对等拷贝的方式,迁移到其他近期不会发生故障的硬件节点即第二硬件节点上,从而使得在最终第一硬件节点发生故障后完全不需要再读取其他节点的数据进行修复计算。
图4显示了在纠删码策略下故障修复中应用本发明之前和应用本发明之后的MTTR(mean time to restoration,平均恢复前时间)对比。如图4所示,在应用本发明之前,一个数据块X1损坏,需要通过网络读取多个数据块到本地进行解码计算才能恢复出原数据X1,在常用的(10,4)RS编码下,该过程需要常规状态下10倍的数据量。而应用本发明后,可以将临近故障的硬件节点中的数据直接复制到其他位置,仅需要常规状态下1倍的数据量。折合起来,可以降低77.5%的网络传输带宽和85%的计算资源。
在本发明的另一个实施例中,对第一数据进行预修复处理,还可以对所述第一硬件节点进行软件层检测和修复,使得所述第一硬件节点在所述第一时刻不会发生故障。具体而言,硬件故障的原因有很多,其中一部分故障是由于操作系统、驱动等软件层引起的,可以从软件层加以修复。因此在预测到硬件故障后,还可以对该硬件节点先进行软件层的检测和修复,如果故障问题解决,则甚至不需要迁移数据,直接能够保证数据可用性,进一步降低故障修复时的网络带宽和计算资源代价。对于不能修复的硬件本身原因导致的故障,可以通过前述的将第一数据迁移到第二硬件节点上的方案来处理。无论哪一种方案,都是对现有纠删码策略的优化提升。
另外,对第一数据进行预修复处理还可以是启动纠删码解码修复过程。具体而言,由于纠删码的缺点是计算数据十分耗时,计算时需要耗费大量的网络和磁盘带宽,因此当采用纠删码进行数据恢复时,数据存储系统的整体性能会受到较大的影响。如果在恢复过程中恰好有数据读取需求,读取速度将严重受限于数据修复速度,产生“降级读”问题。在本发明的实施例中,如果在预测到硬件故障后,通过尝试上述两种预修复处理,发现硬件故障已经严重到无法完整迁移所述第一数据,可以及早地启动纠删码解码修复过程,以减少潜在的降级读问题。
S207:在所述第一硬件节点发生故障后,从所述第二硬件节点上获取所述第一数据,以恢复所述第一数据。
具体地,可从所述第二硬件节点上获取所述第一数据,通过上述修复过程来修复故障损失的数据。
本实施例通过为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中,根据记录的所述历史运行状态参数和所述历史故障情况,得到监测值和预先确定的运行状态参数的参数值与故障时间的对应关系,从而根据各硬件节点的实时监测值对即将发生故障的第一硬件节点和第一时间进行预测,实现了对硬件健康状况的实时感知以及对故障的提前预测;另外,在到达预测的发生故障的第一时间之前对将要发生故障的第一硬件节点上的数据进行预修复处理,有效减少了硬件故障后数据修复所耗的时间和资源,不影响数据可靠性,提升了数据存储系统对硬件故障的整体修复性能。另外,对第一数据进行预修复处理的方式有多种,能够解决多种故障情形,适用范围广。
为了实现上述实施例,本发明还提出一种数据备份处理装置。
图5是本发明另一实施例的数据备份处理装置的结构示意图。如图5所示,该数据备份处理装置包括:保存模块100、预测模块200和处理模块300。
具体地,保存模块100用于为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中。其中,校验数据可以是根据当前数据存储系统中所使用的编码策略计算得到的。当原数据丢失或损坏时,可以通过预设的编码算法对校验数据计算来修复原数据。目前,分布式存储系统中主要使用的纠删码(Erasure Codes)有Reed-Solomon(RS)编码和Local Reconstruction Codes/Locally Repairable Codes(LRC)编码,具体的编码策略还可以有多种,在此不再一一列举。
预测模块200用于预测第一时间,所述第一时间是所述硬件节点中第一硬件节点在未被处理时会发生故障的时间。其中,第一硬件节点是保存原数据和校验数据的至少一个硬件节点中的任一个会发生故障的硬件节点。
常规来讲,除供电、自然灾害等不可抗力因素以外,绝大部分硬件故障的发生都是渐变过程(主要是由于老化),一次故障的最终发生,事先会出现征兆,这些征兆体现在硬件运行参数上的变化等,因此可以将这些参数变化作为预测硬件故障的事实依据。例如图2所示即为硬盘2个关键参数的变化与最终故障发生在时间上的相关性。更具体地,预测模块200可以对硬件运行过程中的状态参数进行大量的提取和分析,针对每个参数运用数学相关性分析,计算它们与预测目标在统计上的相关度,从而从众多监控数据中筛选出与预测目标关联性最强的一个或多个参数,构建特征空间,从而对发生故障的硬件节点和时间进行预测。
处理模块300用于在所述第一时间之前,对第一数据进行预修复处理,所述第一数据是所述第一硬件节点上的数据。其中,第一数据包括所述第一硬件节点上的原数据和/或校验数据。
在本发明的具体实施例中,处理模块300可以将所述第一数据迁移到第二硬件节点上,从而在所述第一硬件节点发生故障后,可以从所述第二硬件节点上获取所述第一数据,以恢复所述第一数据。
其中,所述第二硬件节点是与所述第一硬件节点不同的硬件节点,且所述第二硬件节点是在所述第一时间时不会发生故障的硬件节点。第二硬件节点可以由用户个人根据预测的第一时间选定,也可以由系统默认。
本实施例通过为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中,在到达预测的发生故障的第一时间之前对将要发生故障的第一硬件节点上的数据进行预修复处理,有效减少了硬件故障后数据修复所耗的时间和资源,在不影响数据可靠性的前提下提升了数据存储系统对硬件故障的整体修复性能。
图6是本发明另一实施例的数据备份处理装置的结构示意图。如图6所示,该数据备份处理装置包括:保存模块100、预测模块200、监测子模块210、预测子模块220、处理模块300、获取模块400、记录模块500和训练模块600。其中,预测模块200包括监测子模块210和预测子模块220。
具体地,记录模块500用于记录所述硬件节点的历史运行状态参数,以及记录所述硬件节点的历史故障情况。其中,所述硬件节点的历史运行状态参数可以包括多种,例如硬件节点的使用时间、硬件的寿命年限、历史运行状态、稳定性参数等,所述硬件节点的历史故障情况可以包括故障时间、故障原因、修复方式、修复结果等多种,在此不再一一列举。
训练模块600用于对所述记录的所述历史运行状态参数和所述历史故障情况进行训练,得到所述监测值和预先确定的运行状态参数的参数值与故障时间的对应关系。在具体的实施例中,尽管硬件故障状态相对于硬件正常运行状态而言是稀有事件,但可以将故障前的大量记录与故障记录本身统一到一起集中分析,同时借助大数据的总量优势,可以应用机器学习和/或数据挖掘等方法,找到故障发生前的共性。更具体地,可以将记录的所述历史运行状态参数和所述历史故障情况输入到统计分类模型(例如向量机、逻辑回归等模型)中进行大规模训练,即可得到监测值和预先确定的运行状态参数的参数值与故障时间的对应关系,从而可以实现对硬件健康状况的实时感知以及对故障发生的提前预测。
其中,预先确定的运行状态参数可以有多种,可通过如下步骤进行基本的参数选择:
SELECT FEATURES(D,c,k)
1 V←EXTRACTVOCABULARY(D)
2 L←[]
3 for each t∈V
4 do A(t,c)←COMPUTEFEATUREUTILITY(D,t,c)
5 APPEND(L,〈A(t,c),t〉)
6 return FEATURESWITHLARGESTVALUES(L,k)
监测子模块210用于监测所述硬件节点的运行状态参数,得到监测值。更具体地,监测子模块210可以对存储数据的每一个硬件节点的运行状态参数都进行实时监测,得到连续的监测值。
预测子模块220用于根据所述监测值和预先确定的运行状态参数的参数值与故障时间的对应关系,预测第一时间。其中,第一时间是所述硬件节点中第一硬件节点在未被处理时会发生故障的时间。更具体地,根据所述监测值和预先确定的运行状态参数的参数值与故障时间的对应关系,结合当前的监测值,预测子模块220可以预测每个硬件节点的可能发生故障的时间,并将预测最先发生故障的硬件节点确定为第一硬件节点,预测第一硬件节点发生故障的时间为第一时间。
获取模块400用于在所述第一硬件节点发生故障后,从所述第二硬件节点上获取所述第一数据,以恢复所述第一数据。
本实施例通过为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中,根据记录的所述历史运行状态参数和所述历史故障情况,得到监测值和预先确定的运行状态参数的参数值与故障时间的对应关系,从而根据各硬件节点的实时监测值对即将发生故障的第一硬件节点和第一时间进行预测,实现了对硬件健康状况的实时感知以及对故障的提前预测;另外,在到达预测的发生故障的第一时间之前对将要发生故障的第一硬件节点上的数据进行预修复处理,有效减少了硬件故障后数据修复所耗的时间和资源,不影响数据可靠性,提升了数据存储系统对硬件故障的整体修复性能。另外,对第一数据进行预修复处理的方式有多种,能够解决多种故障情形,适用范围广。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种数据备份处理方法,其特征在于,包括:
为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中;
预测第一时间,所述第一时间是所述硬件节点中第一硬件节点在未被处理时会发生故障的时间;
在所述第一时间之前,对第一数据进行预修复处理,所述第一数据是所述第一硬件节点上的数据。
2.根据权利要求1所述的方法,其特征在于,所述对第一数据进行预修复处理,包括:
将所述第一数据迁移到第二硬件节点上,所述第二硬件节点是与所述第一硬件节点不同的硬件节点,且所述第二硬件节点是在所述第一时间时不会发生故障的硬件节点。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一数据迁移到第二硬件节点上之后,所述方法还包括:
在所述第一硬件节点发生故障后,从所述第二硬件节点上获取所述第一数据,以恢复所述第一数据。
4.根据权利要求1所述的方法,其特征在于,所述对第一数据进行预修复处理,包括:
对所述第一硬件节点进行软件层检测和修复,使得所述第一硬件节点在所述第一时刻不会发生故障。
5.根据权利要求1所述的方法,其特征在于,所述对第一数据进行预修复处理,包括:
启动纠删码解码修复过程。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述预测第一时间,包括:
监测所述硬件节点的运行状态参数,得到监测值;
根据所述监测值和预先确定的运行状态参数的参数值与故障时间的对应关系,预测第一时间。
7.根据权利要求6所述的方法,其特征在于,所述监测所述硬件节点的运行状态参数之前,所述方法还包括:
记录所述硬件节点的历史运行状态参数,以及记录所述硬件节点的历史故障情况;
对所述记录的所述历史运行状态参数和所述历史故障情况进行训练,得到所述监测值和预先确定的运行状态参数的参数值与故障时间的对应关系。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述在所述第一时间之前,对第一数据进行预修复处理,包括:
在所述第一时间之前的对所述硬件节点的监测值达到预设值时,对第一数据进行预修复处理;或者,
在所述第一时间之前的距离所述第一时间达到预设时间差时,对第一数据进行预修复处理。
9.一种数据备份处理装置,其特征在于,包括:
保存模块,用于为原数据生成校验数据,并将所述原数据和所述校验数据保存在至少一个硬件节点中;
预测模块,用于预测第一时间,所述第一时间是所述硬件节点中第一硬件节点在未被处理时会发生故障的时间;
处理模块,用于在所述第一时间之前,对第一数据进行预修复处理,所述第一数据是所述第一硬件节点上的数据。
10.根据权利要求9所述的装置,其特征在于,所述处理模块还用于将所述第一数据迁移到第二硬件节点上,所述第二硬件节点是与所述第一硬件节点不同的硬件节点,且所述第二硬件节点是在所述第一时间时不会发生故障的硬件节点。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
获取模块,用于在所述第一硬件节点发生故障后,从所述第二硬件节点上获取所述第一数据,以恢复所述第一数据。
12.根据权利要求9所述的装置,其特征在于,所述处理模块还用于对所述第一硬件节点进行软件层检测和修复,使得所述第一硬件节点在所述第一时刻不会发生故障。
13.根据权利要求9所述的装置,其特征在于,所述处理模块还用于启动纠删码解码修复过程。
14.根据权利要求9-13任一项所述的装置,其特征在于,所述预测模块包括:
监测子模块,用于监测所述硬件节点的运行状态参数,得到监测值;
预测子模块,用于根据所述监测值和预先确定的运行状态参数的参数值与故障时间的对应关系,预测第一时间。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:
记录模块,用于记录所述硬件节点的历史运行状态参数,以及记录所述硬件节点的历史故障情况;
训练模块,用于对所述记录的所述历史运行状态参数和所述历史故障情况进行训练,得到所述监测值和预先确定的运行状态参数的参数值与故障时间的对应关系。
16.根据权利要求9-13任一项所述的装置,其特征在于,所述处理模块具体用于在所述第一时间之前的对所述硬件节点的监测值达到预设值时,对第一数据进行预修复处理;或者,在所述第一时间之前的距离所述第一时间达到预设时间差时,对第一数据进行预修复处理。
CN201410610701.7A 2014-11-03 2014-11-03 数据备份处理方法和装置 Pending CN104461771A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410610701.7A CN104461771A (zh) 2014-11-03 2014-11-03 数据备份处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410610701.7A CN104461771A (zh) 2014-11-03 2014-11-03 数据备份处理方法和装置

Publications (1)

Publication Number Publication Date
CN104461771A true CN104461771A (zh) 2015-03-25

Family

ID=52907867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410610701.7A Pending CN104461771A (zh) 2014-11-03 2014-11-03 数据备份处理方法和装置

Country Status (1)

Country Link
CN (1) CN104461771A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776111A (zh) * 2017-01-06 2017-05-31 东北大学 一种基于lrc纠删码的可恢复云存储系统
CN107943617A (zh) * 2017-11-17 2018-04-20 北京联想超融合科技有限公司 数据的修复方法、装置及服务器集群
CN108111625A (zh) * 2018-01-02 2018-06-01 广东欧珀移动通信有限公司 数据传输方法及相关产品
CN108572883A (zh) * 2017-04-19 2018-09-25 北京金山云网络技术有限公司 一种数据正确性校验方法及装置
CN108733503A (zh) * 2017-04-24 2018-11-02 慧与发展有限责任合伙企业 在分布式存储系统中存储数据
CN110163403A (zh) * 2018-04-24 2019-08-23 北京机电工程研究所 基于灰色理论的战术导弹故障预测方法
CN110231999A (zh) * 2019-05-29 2019-09-13 华中科技大学 提升基于局部修复编码的存储系统可靠性的方法及装置
CN110298201A (zh) * 2018-03-21 2019-10-01 恩智浦美国有限公司 运行时间安全保护系统和方法
WO2023169503A1 (en) * 2022-03-10 2023-09-14 International Business Machines Corporation Failure hinting for site preparation in multi-site data replication environment

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1947096A (zh) * 2004-05-08 2007-04-11 国际商业机器公司 虚拟机计算机程序的动态迁移
CN102129397A (zh) * 2010-12-29 2011-07-20 深圳市永达电子股份有限公司 一种自适应磁盘阵列故障预测方法及系统
US20120137066A1 (en) * 2010-11-30 2012-05-31 International Business Machines Corporation Dynamic use of raid levels responsive to workload requirements
CN102521058A (zh) * 2011-12-01 2012-06-27 北京威视数据系统有限公司 Raid组磁盘数据预迁移方法
CN103116531A (zh) * 2013-01-25 2013-05-22 浪潮(北京)电子信息产业有限公司 存储系统故障预测方法和装置
CN103488434A (zh) * 2013-09-23 2014-01-01 浪潮电子信息产业股份有限公司 一种加强磁盘阵列可靠性的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1947096A (zh) * 2004-05-08 2007-04-11 国际商业机器公司 虚拟机计算机程序的动态迁移
US20120137066A1 (en) * 2010-11-30 2012-05-31 International Business Machines Corporation Dynamic use of raid levels responsive to workload requirements
CN102129397A (zh) * 2010-12-29 2011-07-20 深圳市永达电子股份有限公司 一种自适应磁盘阵列故障预测方法及系统
CN102521058A (zh) * 2011-12-01 2012-06-27 北京威视数据系统有限公司 Raid组磁盘数据预迁移方法
CN103116531A (zh) * 2013-01-25 2013-05-22 浪潮(北京)电子信息产业有限公司 存储系统故障预测方法和装置
CN103488434A (zh) * 2013-09-23 2014-01-01 浪潮电子信息产业股份有限公司 一种加强磁盘阵列可靠性的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776111A (zh) * 2017-01-06 2017-05-31 东北大学 一种基于lrc纠删码的可恢复云存储系统
CN108572883A (zh) * 2017-04-19 2018-09-25 北京金山云网络技术有限公司 一种数据正确性校验方法及装置
CN108572883B (zh) * 2017-04-19 2021-06-18 北京金山云网络技术有限公司 一种数据正确性校验方法及装置
CN108733503A (zh) * 2017-04-24 2018-11-02 慧与发展有限责任合伙企业 在分布式存储系统中存储数据
CN108733503B (zh) * 2017-04-24 2021-10-01 慧与发展有限责任合伙企业 存储节点、分布式存储系统以及用于存储数据的方法
CN107943617A (zh) * 2017-11-17 2018-04-20 北京联想超融合科技有限公司 数据的修复方法、装置及服务器集群
CN107943617B (zh) * 2017-11-17 2021-06-29 北京联想超融合科技有限公司 数据的修复方法、装置及服务器集群
CN108111625A (zh) * 2018-01-02 2018-06-01 广东欧珀移动通信有限公司 数据传输方法及相关产品
CN110298201A (zh) * 2018-03-21 2019-10-01 恩智浦美国有限公司 运行时间安全保护系统和方法
CN110163403A (zh) * 2018-04-24 2019-08-23 北京机电工程研究所 基于灰色理论的战术导弹故障预测方法
CN110231999A (zh) * 2019-05-29 2019-09-13 华中科技大学 提升基于局部修复编码的存储系统可靠性的方法及装置
WO2023169503A1 (en) * 2022-03-10 2023-09-14 International Business Machines Corporation Failure hinting for site preparation in multi-site data replication environment

Similar Documents

Publication Publication Date Title
CN104461771A (zh) 数据备份处理方法和装置
Do et al. A proactive condition-based maintenance strategy with both perfect and imperfect maintenance actions
US9280416B1 (en) Selection of erasure code parameters for no data repair
US9846705B2 (en) Techniques for managing a data replication mode
CN107844268B (zh) 一种数据分发方法、数据存储方法、相关装置以及系统
US9514577B2 (en) Integrating economic considerations to develop a component replacement policy based on a cumulative wear-based indicator for a vehicular component
US10949314B2 (en) Method and apparatus for failure recovery of storage device
US11468359B2 (en) Storage device failure policies
CN105635252B (zh) 一种Hadoop分布式文件系统HDFS纠删码冗余备份方法
CN109117566B (zh) 一种基于产品寿命预测模型的混合维修规划方法
CN103544202A (zh) 用于安排数据处理的方法和系统
US20150186411A1 (en) Enhancing Reliability of a Storage System by Strategic Replica Placement and Migration
US11831534B2 (en) Predicting and resolving issues within a telecommunication network
US11526388B2 (en) Predicting and reducing hardware related outages
CN109086425B (zh) 用于数据库的数据处理方法和装置
Chen et al. Reliability analysis of a cold-standby system considering the development stages and accumulations of failure mechanisms
US20210240539A1 (en) Determining and implementing a feasilbe resource optimization plan for public cloud consumption
Levitin et al. Optimal multiple replacement and maintenance scheduling in two-unit systems
US10706024B2 (en) Techniques for managing a data replication mode
Samuelson et al. Stochastic model for maintenance in continuously deteriorating systems
WO2016048919A1 (en) Storage device management in computing systems
CN111475839B (zh) 一种用于不可信环境的冗余数据编码方法、存储介质
US10691552B2 (en) Data protection and recovery system
CN110909997A (zh) 备件需求预测方法、备件需求预测装置和电子设备
Fouladirad et al. Monitoring and condition-based maintenance with abrupt change in a system’s deterioration rate

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150325