CN115129507A - 实现快速raid阵列重组的方法、装置、设备、介质 - Google Patents

实现快速raid阵列重组的方法、装置、设备、介质 Download PDF

Info

Publication number
CN115129507A
CN115129507A CN202210752056.7A CN202210752056A CN115129507A CN 115129507 A CN115129507 A CN 115129507A CN 202210752056 A CN202210752056 A CN 202210752056A CN 115129507 A CN115129507 A CN 115129507A
Authority
CN
China
Prior art keywords
data
hard disk
reading
module
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210752056.7A
Other languages
English (en)
Inventor
王报龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210752056.7A priority Critical patent/CN115129507A/zh
Publication of CN115129507A publication Critical patent/CN115129507A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1092Rebuilding, e.g. when physically replacing a failing disk
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques

Abstract

本发明属于存储系统技术领域,具体提供一种实现快速RAID阵列重组的方法、装置、设备、介质,所述方法对硬盘健康状态参数进行监控;判定硬盘存在故障风险时,进行硬盘数据备份;从第一个条带读取待恢复数据;若在设定的次数范围内数据读取成功,通过host对读取的数据进行直接复制到热备盘中;若在设定的次数范围内数据未读取成功,则认定数据毁坏,通过控制器恢复数据的方法进行数据在热备盘的恢复;依次对所有条带内存在故障风险的硬盘数据进行恢复,完成阵列重组。当故障硬盘中丢失数据较为集中,分布在某几个条带上时,则大部分数据都通过直接复制的方式到拷贝到热备盘上,这将缩减极大缩减阵列重组时间和节省系统资源消耗。

Description

实现快速RAID阵列重组的方法、装置、设备、介质
技术领域
本发明涉及存储系统技术领域,具体涉及一种实现快速RAID阵列重组的方法、装置、设备、介质。
背景技术
随着云数据、云计算等信息领域的快速发展,每年存储数据量的增加达到ZB量级,存储数据总量巨大。保障数据的安全性、可靠性成为数据存储工作的重中之重,因而提前诊断硬盘健康状态,识别出存在潜在问题硬盘,并及时、快速进行预故障硬盘的备份,是保障数据安全的有力手段。
RAID(Redundant Arrays of Independent Disks)即独立磁盘冗余阵列,是服务器存储领域用来提供增强存储功能和可靠性的存储技术。通过类似数组方式将多块磁盘组合成为一个逻辑磁盘组来创建RAID,数据在磁盘组中被划分为不同stripe,并按照segment大小进行存储,进而保证数据存放在各个磁盘之上。当阵列中一块磁盘出现故障毁坏时,便可通过stripe上不同磁盘的segment数据及校验数据,重新计算出丢失数据,从而实现故障硬盘的数据恢复,达到数据安全性要求。目前最常用的RAID级别为RAID5和RAID6,其raidrebuild的过程涉及segment数据、奇偶校验数据读取,通过计算获得丢失数据后再重新写入到热备盘中。因此其rebuild过程较为复杂,并且要占用控制器资源。通常在重建GB量级的磁盘时都需要几个甚至十几个小时,目前随着磁盘容量的不断增大达到几十个TB量级,RAID阵列地重建可能需要花费几天甚至几周的时间。因此,提高RAID组重建效率缩减时间,是本领域技术人员亟待解决的技术难点。
控制器通过读取同一stripe上不同磁盘上的数据以及校验数据,然后通过奇偶校验计算获得丢失数据,并重新写入到热备盘中。然后,依次对阵列中所有stripe中的丢失数据进行恢复,进而实现对故障硬盘数据的备份恢复,完成RAID阵列的重建。但是,控制器通过读取磁盘中数据然后计算获得恢复数据后再重新写入到热备盘中,此过程较为复杂并且数据的再读取及再写入也增加了控制器的资源消耗,影响了系统的整体性能。并随着磁盘容量的不断增大,通过此种方式进行RIAD组重建的耗时也会越来越长,数据丢失的几率性及不安全性也急剧增加。
发明内容
针对控制器通过读取磁盘中数据然后计算获得恢复数据后再重新写入到热备盘中,此过程较为复杂并且数据的再读取及再写入也增加了控制器的资源消耗,影响了系统的整体性能。并随着磁盘容量的不断增大,通过此种方式进行RIAD组重建的耗时也会越来越长,数据丢失的几率性及不安全性也急剧增加的问题,本发明提供一种实现快速RAID阵列重组的方法、装置、设备、介质。
第一方面,本发明技术方案提供一种实现快速RAID阵列重组的方法,包括如下步骤:
对硬盘健康状态参数进行监控;
根据监控的状态参数判定硬盘存在故障风险时,进行硬盘数据备份;
从第一个条带读取待恢复数据;
若在设定的次数范围内数据读取成功,通过host对读取的数据进行直接复制到热备盘中;
若在设定的次数范围内数据未读取成功,则认定数据毁坏,通过控制器恢复数据的方法进行数据在热备盘的恢复;
依次对所有条带内存在故障风险的硬盘数据进行恢复,完成阵列重组。
通过提前诊断出存在故障风险的硬盘,进而及时进行硬盘的备份。针对需备份硬盘,通过硬盘自身的重读来判断所需恢复数据的完整性,对读取成功的完整数据采用直接复制到热备盘中的方式来加速RAID阵列重组,该方法相对于目前通过控制器读取阵列中所有硬盘条带中的数据,然后通过奇偶校验恢复丢失数据,最后再将恢复完全的数据写入到热备盘中的方式相比,特别是当故障硬盘中丢失数据较为集中,分布在某几个条带上时,则大部分数据都通过直接复制的方式到拷贝到热备盘上,这将缩减极大缩减阵列重组时间和节省系统资源消耗。
进一步的,从第一个条带读取待恢复数据的步骤包括:
从RAID配置信息中的stripe0对硬盘数据进行读取;
判断数据读取是否成功;
若是,执行步骤:通过host对读取的数据进行直接复制到热备盘中;
若否,重新读取硬盘数据;
判断重读次数是否小于重读阈值;若是,执行步骤:通过host对读取的数据进行直接复制到热备盘中;若否,执行步骤:通过控制器恢复数据的方法进行数据在热备盘的恢复。
通过健康巡检,定期轮训硬盘的健康状态,通过对抓取的SMART健康参数与设定的阈值进行判定,硬盘是否存在故障隐患。当硬盘健康参数达到阈值时,认为硬盘存在故障风险,便进行硬盘的备份。
进一步的,通过host对读取的数据进行直接复制到热备盘中的步骤之后还包括:
判断所有条带内存在故障风险的硬盘的数据是否恢复完全;
若是,阵列重组完成;
若否,从RAID配置信息中的stripe+1对硬盘数据进行读取。
依据条带顺序进行数据恢复,待所有stripe中数据重组完成,则完成了预故障硬盘的备份及磁盘阵列的重建工作。
通过SMART参数的轮训检查,判定硬盘健康状态,识别出预故障硬盘。对预故障硬盘提前进行数据备份,完成磁盘阵列重组。其中对故障硬盘进行数据备份恢复的过程,通过硬盘对数据进行读取,对读取成功的数据采用直接复制到热备盘中的方式来加速RAID阵列重组,而对于读取失败的数据则仍采用通过控制器校验的方式来进行数据恢复。
进一步的,对硬盘健康状态参数进行监控的步骤包括:
定期轮训硬盘的健康状态,抓取SMART健康参数;
对抓取的SMART健康参数与设定的阈值进行比较,判定硬盘是否存在故障风险。通过对硬盘健康状态参数监控,判定硬盘是否存在故障风险,决定是否进行硬盘数据备份。
第二方面,本发明技术方案提供一种实现快速RAID阵列重组的装置,包括状态监控模块、数据备份触发模块、数据读取模块、直备份执行模块、控制器恢复数据触发模块、结果判断模块;
状态监控模块,用于对硬盘健康状态参数进行监控;
数据备份触发模块,用于根据监控的状态参数判定硬盘存在故障风险时,进行硬盘数据备份;
数据读取模块,用于从第一个条带读取待恢复数据;
直备份执行模块,用于若在设定的次数范围内数据读取成功,通过host对读取的数据进行直接复制到热备盘中;
控制器恢复数据触发模块,用于若在设定的次数范围内数据未读取成功,则认定数据毁坏,通过控制器恢复数据的方法进行数据在热备盘的恢复;
结果判断模块,用于判断对所有条带内存在故障风险的硬盘数据进行恢复后,完成阵列重组。
通过提前诊断出存在故障风险的硬盘,进而及时进行硬盘的备份。针对需备份硬盘,通过硬盘自身的重读来判断所需恢复数据的完整性,对读取成功的完整数据采用直接复制到热备盘中的方式来加速RAID阵列重组,该方法相对于目前通过控制器读取阵列中所有硬盘条带中的数据,然后通过奇偶校验恢复丢失数据,最后再将恢复完全的数据写入到热备盘中的方式相比,特别是当故障硬盘中丢失数据较为集中,分布在某几个条带上时,则大部分数据都通过直接复制的方式到拷贝到热备盘上,这将缩减极大缩减阵列重组时间和节省系统资源消耗。
进一步的,数据读取模块包括读取单元、读取判断单元、次数判断单元;
读取单元,用于从RAID配置信息中的stripe0对硬盘数据进行读取;
读取判断单元,用于判断数据读取是否成功;若是,触发直备份执行模块;若否,触发读取单元重新读取硬盘数据;
次数判断单元,用于判断重读次数是否小于重读阈值;若是,触发直备份执行模块;若否,触发控制器恢复数据触发模块。
通过健康巡检,定期轮训硬盘的健康状态,通过对抓取的SMART健康参数与设定的阈值进行判定,硬盘是否存在故障隐患。当硬盘健康参数达到阈值时,认为硬盘存在故障风险,便进行硬盘的备份。
进一步的,结果判断模块,用于判断所有条带内存在故障风险的硬盘的数据是否恢复完全,若是,完成阵列重组,若否,触发数据读取模块从RAID配置信息中的stripe+1对硬盘数据进行读取。
进一步的,状态监控模块包括参数抓取单元、比较判断单元;
参数抓取单元,用于定期轮训硬盘的健康状态,抓取SMART健康参数;
比较判断单元,用于对抓取的SMART健康参数与设定的阈值进行比较,判定硬盘是否存在故障风险。通过对硬盘健康状态参数监控,判定硬盘是否存在故障风险,决定是否进行硬盘数据备份。
第三方面,本发明技术方案还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的实现快速RAID阵列重组的方法。
第四方面,本发明技术方案还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面所述的实现快速RAID阵列重组的方法。
从以上技术方案可以看出,本发明具有以下优点:通过需要被替换的存在潜在风险的问题磁盘依stripe为单位对磁盘上每个stripe所对应的segment的数据进行主动完整性判断,如果数据完好,则会直接复制到热备盘上,而不需通过控制器进行数据恢复,这将加快RAID阵列重建的速度缩减时间。
通过提前诊断出预故障硬盘,进而及时进行硬盘的备份。针对需备份硬盘,通过硬盘自身的重读来判断所需恢复数据的完整性,对读取成功的完整数据采用直接复制到热备盘中的方式来加速RAID阵列重组,该方法相对于目前通过控制器读取阵列中所有硬盘条带中的数据,然后通过奇偶校验恢复丢失数据,最后再将恢复完全的数据写入到热备盘中的方式相比,特别是当故障硬盘中丢失数据较为集中,分布在某几个条带上时,则大部分数据都通过直接复制的方式到拷贝到热备盘上,这将缩减极大缩减阵列重组时间和节省系统资源消耗。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明另一个实施例的方法的示意性流程图。
图3是本发明一个实施例的装置的示意性框图。
具体实施方式
控制器通过读取同一stripe上不同磁盘上的数据以及校验数据,然后通过奇偶校验计算获得丢失数据,并重新写入到热备盘中。然后,依次对阵列中所有stripe中的丢失数据进行恢复,进而实现对故障硬盘数据的备份恢复,完成RAID阵列的重建。但是,控制器通过读取磁盘中数据然后计算获得恢复数据后再重新写入到热备盘中,此过程较为复杂并且数据的再读取及再写入也增加了控制器的资源消耗,影响了系统的整体性能。并随着磁盘容量的不断增大,通过此种方式进行RIAD组重建的耗时也会越来越长,数据丢失的几率性及不安全性也急剧增加。本发明在依据传统RAID重建方法,根据磁盘阵列中stripe顺序进行数据重组。当确认并开始硬盘备份动作后,硬盘自身会从RAID配置信息中的stripe0对硬盘数据进行读取,如果首次即可读取成功,则会直接通过host对读取的数据进行直接复制到热备盘中;若首次读取存在数据丢失,读取失败,便会进行再次重读,如果对stripe0的重复读取次数超过了阈值,则判定此条带的数据存在丢失,便通过传统的控制器恢复数据的方法进行数据在热备盘的恢复。依据条带顺序进行数据恢复,待所有stripe中数据重组完成,则完成了预故障硬盘的备份及磁盘阵列的重建工作。为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本发明实施例提供一种实现快速RAID阵列重组的方法,包括如下步骤:
步骤1:对硬盘健康状态参数进行监控;
步骤2:根据监控的状态参数判定硬盘存在故障风险时,进行硬盘数据备份;
步骤3:从第一个条带读取待恢复数据;
步骤4:若在设定的次数范围内数据读取成功,通过host对读取的数据进行直接复制到热备盘中;
步骤5:若在设定的次数范围内数据未读取成功,则认定数据毁坏,通过控制器恢复数据的方法进行数据在热备盘的恢复;
步骤6:依次对所有条带内存在故障风险的硬盘数据进行恢复,完成阵列重组。
通过提前诊断出存在故障风险的硬盘,进而及时进行硬盘的备份。针对需备份硬盘,通过硬盘自身的重读来判断所需恢复数据的完整性,对读取成功的完整数据采用直接复制到热备盘中的方式来加速RAID阵列重组,该方法相对于目前通过控制器读取阵列中所有硬盘条带中的数据,然后通过奇偶校验恢复丢失数据,最后再将恢复完全的数据写入到热备盘中的方式相比,特别是当故障硬盘中丢失数据较为集中,分布在某几个条带上时,则大部分数据都通过直接复制的方式到拷贝到热备盘上,这将缩减极大缩减阵列重组时间和节省系统资源消耗。
利用硬盘读取需要重组的数据,如果在规定的重读次数内可以成功读取,则会采用直接将此块数据复制到热备盘中的方式完成数据恢复,而如果重读失败,则会采用传统的通过控制器读取数据进行奇偶校验恢复的方式进行恢复。
如图2所示,本发明实施例提供一种实现快速RAID阵列重组的方法,包括如下步骤:
S1:定期轮训硬盘的健康状态,抓取SMART健康参数;
S2:对抓取的SMART健康参数与设定的阈值进行比较,判定硬盘是否存在故障风险;
S3:判定硬盘存在故障风险时,进行硬盘数据备份;
S4:从RAID配置信息中的stripe0对硬盘数据进行读取;
S5:判断数据读取是否成功;
若是,执行步骤S6;
若否,执行步骤S8;
S6:通过host对读取的数据进行直接复制到热备盘中;
S7:判断所有条带内存在故障风险的硬盘的数据是否恢复完全;若是,执行步骤S11;若否,执行步骤S4:从RAID配置信息中的stripe+1对硬盘数据进行读取;
S8:重新读取硬盘数据;
S9:判断重读次数是否小于重读阈值;若是,执行步骤S6;若否,执行步骤S10;
S10:通过控制器恢复数据的方法进行数据在热备盘的恢复;执行步骤S7;
S11:阵列重组完成。
通过健康巡检,定期轮训硬盘的健康状态,通过对抓取的SMART健康参数与设定的阈值进行判定,硬盘是否存在故障隐患。当硬盘健康参数达到阈值时,认为硬盘存在故障风险,便进行硬盘的备份。
依据条带顺序进行数据恢复,待所有stripe中数据重组完成,则完成了预故障硬盘的备份及磁盘阵列的重建工作。
通过对硬盘健康状态参数监控,判定硬盘是否存在故障风险,决定是否进行硬盘数据备份。
通过健康巡检,定期轮训硬盘的健康状态,通过对抓取的SMART健康参数与设定的阈值进行判定,硬盘是否存在故障隐患。当硬盘健康参数达到阈值时,便进行硬盘的备份。
本发明在依据传统RAID重建方法,根据磁盘阵列中stripe顺序进行数据重组。当确认并开始硬盘备份动作后,硬盘自身会从RAID配置信息中的stripe0对硬盘数据进行读取,如果首次即可读取成功,则会直接通过host对读取的数据进行直接复制到热备盘中;若首次读取存在数据丢失,读取失败,便会进行再次重读,如果对stripe0的重复读取次数超过了阈值,则判定此条带的数据存在丢失,便通过传统的控制器恢复数据的方法进行数据在热备盘的恢复。依据条带顺序进行数据恢复,待所有stripe中数据重组完成,则完成了预故障硬盘的备份及磁盘阵列的重建工作。
如图3所示,本发明实施例还提供一种实现快速RAID阵列重组的装置,包括状态监控模块、数据备份触发模块、数据读取模块、直备份执行模块、控制器恢复数据触发模块、结果判断模块;
状态监控模块,用于对硬盘健康状态参数进行监控;
数据备份触发模块,用于判定硬盘存在故障风险时,进行硬盘数据备份;
数据读取模块,用于从第一个条带读取待恢复数据;
直备份执行模块,用于若在设定的次数范围内数据读取成功,通过host对读取的数据进行直接复制到热备盘中;
控制器恢复数据触发模块,用于若在设定的次数范围内数据未读取成功,则认定数据毁坏,通过控制器恢复数据的方法进行数据在热备盘的恢复;
结果判断模块,用于判断对所有条带内存在故障风险的硬盘数据进行恢复后,完成阵列重组。
通过提前诊断出存在故障风险的硬盘,进而及时进行硬盘的备份。针对需备份硬盘,通过硬盘自身的重读来判断所需恢复数据的完整性,对读取成功的完整数据采用直接复制到热备盘中的方式来加速RAID阵列重组,该方法相对于目前通过控制器读取阵列中所有硬盘条带中的数据,然后通过奇偶校验恢复丢失数据,最后再将恢复完全的数据写入到热备盘中的方式相比,特别是当故障硬盘中丢失数据较为集中,分布在某几个条带上时,则大部分数据都通过直接复制的方式到拷贝到热备盘上,这将缩减极大缩减阵列重组时间和节省系统资源消耗。
本发明实施例还提供一种实现快速RAID阵列重组的装置,包括状态监控模块、数据备份触发模块、数据读取模块、直备份执行模块、控制器恢复数据触发模块、结果判断模块;
状态监控模块,用于对硬盘健康状态参数进行监控;状态监控模块包括参数抓取单元、比较判断单元;
参数抓取单元,用于定期轮训硬盘的健康状态,抓取SMART健康参数;
比较判断单元,用于对抓取的SMART健康参数与设定的阈值进行比较,判定硬盘是否存在故障风险。通过对硬盘健康状态参数监控,判定硬盘是否存在故障风险,决定是否进行硬盘数据备份。
数据备份触发模块,用于判定硬盘存在故障风险时,进行硬盘数据备份;
数据读取模块,用于从第一个条带读取待恢复数据;数据读取模块包括读取单元、读取判断单元、次数判断单元;
读取单元,用于从RAID配置信息中的stripe0对硬盘数据进行读取;
读取判断单元,用于判断数据读取是否成功;若是,触发直备份执行模块;若否,触发读取单元重新读取硬盘数据;
次数判断单元,用于判断重读次数是否小于重读阈值;若是,触发直备份执行模块;若否,触发控制器恢复数据触发模块。
通过健康巡检,定期轮训硬盘的健康状态,通过对抓取的SMART健康参数与设定的阈值进行判定,硬盘是否存在故障隐患。当硬盘健康参数达到阈值时,认为硬盘存在故障风险,便进行硬盘的备份。
直备份执行模块,用于若在设定的次数范围内数据读取成功,通过host对读取的数据进行直接复制到热备盘中;
控制器恢复数据触发模块,用于若在设定的次数范围内数据未读取成功,则认定数据毁坏,通过控制器恢复数据的方法进行数据在热备盘的恢复;
结果判断模块,用于判断对所有条带内存在故障风险的硬盘数据进行恢复后,完成阵列重组。结果判断模块,用于判断所有条带内存在故障风险的硬盘的数据是否恢复完全,若是,完成阵列重组,若否,触发数据读取模块从RAID配置信息中的stripe+1对硬盘数据进行读取。
本发明实施例还提供一种电子设备,所述电子设备包括:处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信。总线可以用于电子设备与传感器之间的信息传输。处理器可以调用存储器中的逻辑指令,以执行如下方法:步骤1:对硬盘健康状态参数进行监控;步骤2:判定硬盘存在故障风险时,进行硬盘数据备份;步骤3:从第一个条带读取待恢复数据;步骤4:若在设定的次数范围内数据读取成功,通过host对读取的数据进行直接复制到热备盘中;步骤5:若在设定的次数范围内数据未读取成功,则认定数据毁坏,通过控制器恢复数据的方法进行数据在热备盘的恢复;步骤6:依次对所有条带内存在故障风险的硬盘数据进行恢复,完成阵列重组。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述方法实施例所提供的方法,例如包括:S1:定期轮训硬盘的健康状态,抓取SMART健康参数;S2:对抓取的SMART健康参数与设定的阈值进行比较,判定硬盘是否存在故障风险;S3:判定硬盘存在故障风险时,进行硬盘数据备份;S4:从RAID配置信息中的stripe0对硬盘数据进行读取;S5:判断数据读取是否成功;若是,执行步骤S6;若否,执行步骤S8;S6:通过host对读取的数据进行直接复制到热备盘中;S7:判断所有条带内存在故障风险的硬盘的数据是否恢复完全;若是,执行步骤S11;若否,执行步骤S4:从RAID配置信息中的stripe+1对硬盘数据进行读取;S8:重新读取硬盘数据;S9:判断重读次数是否小于重读阈值;若是,执行步骤S6;若否,执行步骤S10;S10:通过控制器恢复数据的方法进行数据在热备盘的恢复;执行步骤S7;S11:阵列重组完成。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种实现快速RAID阵列重组的方法,其特征在于,包括如下步骤:
对硬盘健康状态参数进行监控;
根据监控的状态参数判定硬盘存在故障风险时,进行硬盘数据备份;
从第一个条带读取待恢复数据;
若在设定的次数范围内数据读取成功,通过host对读取的数据进行直接复制到热备盘中;
若在设定的次数范围内数据未读取成功,则认定数据毁坏,通过控制器恢复数据的方法进行数据在热备盘的恢复;
依次对所有条带内存在故障风险的硬盘数据进行恢复,完成阵列重组。
2.根据权利要求1所述的实现快速RAID阵列重组的方法,其特征在于,从第一个条带读取待恢复数据的步骤包括:
从RAID配置信息中的stripe0对硬盘数据进行读取;
判断数据读取是否成功;
若是,执行步骤:通过host对读取的数据进行直接复制到热备盘中;
若否,重新读取硬盘数据;
判断重读次数是否小于重读阈值;若是,执行步骤:通过host对读取的数据进行直接复制到热备盘中;若否,执行步骤:通过控制器恢复数据的方法进行数据在热备盘的恢复。
3.根据权利要求1所述的实现快速RAID阵列重组的方法,其特征在于,通过host对读取的数据进行直接复制到热备盘中的步骤之后还包括:
判断所有条带内存在故障风险的硬盘的数据是否恢复完全;
若是,阵列重组完成;
若否,从RAID配置信息中的stripe+1对硬盘数据进行读取。
4.根据权利要求1所述的实现快速RAID阵列重组的方法,其特征在于,对硬盘健康状态参数进行监控的步骤包括:
定期轮训硬盘的健康状态,抓取SMART健康参数;
对抓取的SMART健康参数与设定的阈值进行比较,判定硬盘是否存在故障风险。
5.一种实现快速RAID阵列重组的装置,其特征在于,包括状态监控模块、数据备份触发模块、数据读取模块、直备份执行模块、控制器恢复数据触发模块、结果判断模块;
状态监控模块,用于对硬盘健康状态参数进行监控;
数据备份触发模块,用于根据监控的状态参数判定硬盘存在故障风险时,进行硬盘数据备份;
数据读取模块,用于从第一个条带读取待恢复数据;
直备份执行模块,用于若在设定的次数范围内数据读取成功,通过host对读取的数据进行直接复制到热备盘中;
控制器恢复数据触发模块,用于若在设定的次数范围内数据未读取成功,则认定数据毁坏,通过控制器恢复数据的方法进行数据在热备盘的恢复;
结果判断模块,用于判断对所有条带内存在故障风险的硬盘数据进行恢复后,完成阵列重组。
6.根据权利要求5所述的实现快速RAID阵列重组的装置,其特征在于,数据读取模块包括读取单元、读取判断单元、次数判断单元;
读取单元,用于从RAID配置信息中的stripe0对硬盘数据进行读取;
读取判断单元,用于判断数据读取是否成功;若是,触发直备份执行模块;若否,触发读取单元重新读取硬盘数据;
次数判断单元,用于判断重读次数是否小于重读阈值;若是,触发直备份执行模块;若否,触发控制器恢复数据触发模块。
7.根据权利要求6所述的实现快速RAID阵列重组的装置,其特征在于,结果判断模块,用于判断所有条带内存在故障风险的硬盘的数据是否恢复完全,若是,完成阵列重组,若否,触发数据读取模块从RAID配置信息中的stripe+1对硬盘数据进行读取。
8.根据权利要求7所述的实现快速RAID阵列重组的装置,其特征在于,状态监控模块包括参数抓取单元、比较判断单元;
参数抓取单元,用于定期轮训硬盘的健康状态,抓取SMART健康参数;
比较判断单元,用于对抓取的SMART健康参数与设定的阈值进行比较,判定硬盘是否存在故障风险。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项权利要求所述的实现快速RAID阵列重组的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至4任一项权利要求所述的实现快速RAID阵列重组的方法。
CN202210752056.7A 2022-06-29 2022-06-29 实现快速raid阵列重组的方法、装置、设备、介质 Pending CN115129507A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210752056.7A CN115129507A (zh) 2022-06-29 2022-06-29 实现快速raid阵列重组的方法、装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210752056.7A CN115129507A (zh) 2022-06-29 2022-06-29 实现快速raid阵列重组的方法、装置、设备、介质

Publications (1)

Publication Number Publication Date
CN115129507A true CN115129507A (zh) 2022-09-30

Family

ID=83379127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210752056.7A Pending CN115129507A (zh) 2022-06-29 2022-06-29 实现快速raid阵列重组的方法、装置、设备、介质

Country Status (1)

Country Link
CN (1) CN115129507A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115543692A (zh) * 2022-11-16 2022-12-30 苏州浪潮智能科技有限公司 Raid控制器恢复元数据的方法、装置、设备及介质
CN115657965A (zh) * 2022-11-16 2023-01-31 苏州浪潮智能科技有限公司 一种元数据的配置方法、装置及介质
CN116560916A (zh) * 2023-07-07 2023-08-08 苏州浪潮智能科技有限公司 一种磁盘切换方法、系统、装置、介质及分布式存储系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115543692A (zh) * 2022-11-16 2022-12-30 苏州浪潮智能科技有限公司 Raid控制器恢复元数据的方法、装置、设备及介质
CN115657965A (zh) * 2022-11-16 2023-01-31 苏州浪潮智能科技有限公司 一种元数据的配置方法、装置及介质
CN116560916A (zh) * 2023-07-07 2023-08-08 苏州浪潮智能科技有限公司 一种磁盘切换方法、系统、装置、介质及分布式存储系统

Similar Documents

Publication Publication Date Title
CN115129507A (zh) 实现快速raid阵列重组的方法、装置、设备、介质
CN108170555B (zh) 一种数据恢复方法及设备
CN104484251B (zh) 一种硬盘故障的处理方法及装置
US5826001A (en) Reconstructing data blocks in a raid array data storage system having storage device metadata and raid set metadata
US20140372838A1 (en) Bad disk block self-detection method and apparatus, and computer storage medium
US8930750B2 (en) Systems and methods for preventing data loss
US7853823B2 (en) System and method for reconstructing lost data in a storage system
US20120260125A1 (en) Multi-disk fault-tolerant system, method for generating a check block, and method for recovering a data block
Venkatesan et al. Effect of codeword placement on the reliability of erasure coded data storage systems
CN110399247A (zh) 一种数据恢复方法、装置、设备及计算机可读存储介质
CN108874312B (zh) 数据存储方法以及存储设备
CN105183583A (zh) 一种磁盘阵列的数据重建的方法及一种磁盘阵列系统
CN104375905A (zh) 一种基于数据块的增量备份的方法和系统
CN114968119A (zh) 一种数据保护方法、装置、设备及存储介质
Iliadis Reliability evaluation of erasure-coded storage systems with latent errors
CN105138280A (zh) 数据写入方法、装置及系统
CN112559395B (zh) 基于双Soc存储系统异常处理机制的继电保护装置及方法
CN110058961B (zh) 用于管理存储系统的方法和设备
CN117437967A (zh) 一种条带检测方法、装置、设备及可读存储介质
CN111752755B (zh) 一种继电保护关键数据冗余存储及可靠性恢复系统及方法
CN106294021A (zh) 一种磁盘数据增量备份的方法
CN115657965B (zh) 一种元数据的配置方法、装置及介质
CN109558086B (zh) 一种数据读取方法、系统及相关组件
CN104156276A (zh) 一种防两块磁盘损坏的raid方法
CN104407806A (zh) 独立磁盘冗余阵列组硬盘信息的修改方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination