CN114265728A - 存储系统故障恢复方法、装置、计算机设备及介质 - Google Patents

存储系统故障恢复方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN114265728A
CN114265728A CN202111621876.4A CN202111621876A CN114265728A CN 114265728 A CN114265728 A CN 114265728A CN 202111621876 A CN202111621876 A CN 202111621876A CN 114265728 A CN114265728 A CN 114265728A
Authority
CN
China
Prior art keywords
disk
storage system
failed
failed disk
state information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111621876.4A
Other languages
English (en)
Inventor
高志林
孙利杰
陈松政
刘文清
杨涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Qilin Xin'an Technology Co ltd
Original Assignee
Hunan Qilin Xin'an Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Qilin Xin'an Technology Co ltd filed Critical Hunan Qilin Xin'an Technology Co ltd
Priority to CN202111621876.4A priority Critical patent/CN114265728A/zh
Publication of CN114265728A publication Critical patent/CN114265728A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明实施例公开了存储系统故障恢复方法、装置、计算机设备及介质,存储系统故障恢复方法包括:获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常;若所述状态信息存在异常,扫描所述分布式存储系统中存在故障的节点;根据所述节点内磁盘的运行信息,确定发生故障的磁盘;将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘。当分布式存储系统存在故障节点时,快速确定发生故障的磁盘,并将发生故障的磁盘替换为对应的热备磁盘,以故障的存储系统快速恢复至正常运行状态。同时,替换发生故障的磁盘的过程不需要人工操作,提高了分布式存储系统的数据安全性。

Description

存储系统故障恢复方法、装置、计算机设备及介质
技术领域
本发明涉及数据存储领域,尤其涉及一种存储系统故障恢复方法、装置、计算机设备及介质。
背景技术
传统的网络存储系统将所有数据集中存放在一台存储服务器,无法适用于大规模存储数据的场景,且影响存储服务器的系统性能。分布式存储系统将数据分散存储至多台存储服务器的磁盘,并通过位置服务器定位不同的数据。相对于传统的网络存储系统,分布式存储系统具有高可靠性、高可用性、高存取效率及易于扩展的优点。
然而,分布式存储系统是一种通过网络与多个服务器通信的设备,对于技术人员的运维难度较高。具体地,当存储服务器中一个磁盘因无法读写导致存储服务器发生故障时,需要技术人员人工定位发生故障的磁盘。若技术人员无法及时将发生故障的分布式存储系统恢复至正常状态,会为分布式存储系统带来丢失数据的风险,并造成不可估量的损失。
发明内容
有鉴于现有技术存在的缺陷,本申请实施例目的在于提供一种存储系统故障恢复方法、装置、计算机设备及介质,以解决分布式存储系统发生故障时,无法快速恢复的问题。
第一方面,本申请的一个实施方式一种存储系统故障恢复方法,所述方法包括:
获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常;
若所述状态信息存在异常,扫描所述分布式存储系统中存在故障的节点;
根据所述节点内磁盘的运行信息,确定发生故障的磁盘;
将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘。
结合第一方面,在第一种可能的实现方式中,所述将所述发生故障的磁盘的数据写入所述热备磁盘,包括:
根据所述发生故障的磁盘所在的分布式卷类型,确定所述发生故障的磁盘的数据备份逻辑;
根据所述数据备份逻辑,将所述发生故障的磁盘的数据写入所述热备磁盘。
结合第一方面,在第二种可能的实现方式中,根据所述节点内磁盘的运行信息,确定发生故障的磁盘之后,所述将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘之前,还包括:
根据所述发生故障的磁盘的容量,查询与所述容量匹配的备用磁盘,并将其中一个备用磁盘设置为所述发生故障的磁盘的热备磁盘。
结合第一方面,在第三种可能的实现方式中,所述获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常之后,还包括:
若所述状态信息不存在异常,基于预设时间间隔重新执行所述获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常的步骤。
结合第一方面,在第四种可能的实现方式中,所述将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘之后,还包括:
删除所述分布式存储系统中发生故障的磁盘。
结合第一方面,在第五种可能的实现方式中,所述运行信息包括磁盘的读写速率、读写错误率及重映射扇区数,所述根据所述节点内磁盘的运行信息,确定发生故障的磁盘,包括:
若磁盘的读写速率小于预设的读写速率阈值,则确定所述磁盘发生故障;
若磁盘的读写速率大于预设的读写错误率阈值,则确定所述磁盘发生故障;
若磁盘的重映射扇区数大于预设的扇区数阈值,则确定所述磁盘发生故障。
第二方面,本申请的一个实施方式提供一种存储系统故障恢复装置,所述装置包括:
状态判断模块,用于获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常;
节点扫描模块,用于若所述状态信息存在异常,扫描所述分布式存储系统中存在故障的节点;
磁盘确定模块,用于根据所述节点内磁盘的运行信息,确定发生故障的磁盘;
磁盘替换模块,用于将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘。
结合第二方面,在第一种可能的实现方式中,所述磁盘替换模块,包括:
分布式卷确定子模块,用于根据所述发生故障的磁盘所在的分布式卷类型,确定所述发生故障的磁盘的数据备份逻辑;
数据写入子模块,用于根据所述数据备份逻辑,将所述发生故障的磁盘的数据写入所述热备磁盘。
第三方面,本申请的一个实施方式提供一种计算机设备,包括处理器及存储器,所述存储器上存储有程序或指令,所述程序或指令被所述处理器执行,以使所述计算机设备执行上述的存储系统故障恢复方法的步骤。
第四方面,本申请的一个实施方式提供一种计算机可读存储介质,所述计算机可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现上述的存储系统故障恢复方法的步骤。
本申请提供了一种存储系统故障恢复方法,包括:获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常;若所述状态信息存在异常,扫描所述分布式存储系统中存在故障的节点;根据所述节点内磁盘的运行信息,确定发生故障的磁盘;将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘。当分布式存储系统存在故障节点时,快速确定发生故障的磁盘,并将发生故障的磁盘替换为对应的热备磁盘,以故障的存储系统快速恢复至正常运行状态。同时,替换发生故障的磁盘的过程不需要人工操作,提高了分布式存储系统的数据安全性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本发明实施例提供的第一种存储系统故障恢复方法的流程图;
图2示出了本发明实施例提供的第二种存储系统故障恢复方法的流程图;
图3示出了本发明实施例提供的第三种存储系统故障恢复方法的流程图;
图4示出了本发明实施例提供的存储系统故障恢复装置的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
请参阅图1,图1示出了本发明实施例提供的第一种存储系统故障恢复方法的流程图。图1中的存储系统故障恢复方法包括以下步骤:
步骤110,获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常。
分布式存储系统启动并运行之后,根据分布式存储系统的IP(网际互连协议,Internet Protocol)地址等标识信息,确定需要检测的分布式存储系统。获取分布式存储系统反馈的状态信息,并判断分布式存储系统反馈的状态信息是否存在异常。具体地,当分布式存储系统的一个节点下挂载的服务器无法进行读写操作时,分布式存储系统反馈节点无法读写的状态信息,并确定状态信息存在异常。
作为一个示例,所述获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常之后,还包括:
若所述状态信息不存在异常,基于预设时间间隔重新执行所述获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常的步骤。
为便于理解本申请,本实施例中预设时间间隔为1秒。若确定状态信息不存在异常,则1秒后重新执行步骤110,以实时检测分布式存储系统是否发生故障。若确定状态信息存在异常,则执行步骤120,以使发生故障的分布式存储系统快速恢复至正常状态。
步骤120,若所述状态信息存在异常,扫描所述分布式存储系统中存在故障的节点。
具体地,当分布式存储系统反馈节点无法读写的状态信息时,根据节点的IP地址等标识信息,确定存在故障的节点。对存在故障的节点进行扫描,获取节点下挂载的所有磁盘的运行信息。
步骤130,根据所述节点内磁盘的运行信息,确定发生故障的磁盘。
需要理解的是,磁盘的运行信息包括但不限于磁盘的启动计数、停止计数、重映射扇区数、累计通电时长、主轴起旋重试次数、校准重试次数、通电次数、底层数据读取错误率、读写错误率、温度、奇偶校验错误率等,在此不做限定。根据节点下挂载的所有磁盘的运行信息,确定发生故障的磁盘,并根据磁盘的标识符快速定位发生故障的磁盘。
作为一个示例,所述运行信息包括磁盘的读写速率、读写错误率及重映射扇区数,所述根据所述节点内磁盘的运行信息,确定发生故障的磁盘,包括:
若磁盘的读写速率小于预设的读写速率阈值,则确定所述磁盘发生故障;
若磁盘的读写速率大于预设的读写错误率阈值,则确定所述磁盘发生故障;
若磁盘的重映射扇区数大于预设的扇区数阈值,则确定所述磁盘发生故障。
本实施例中,若磁盘的读写错误率大于1%,则确定磁盘的盘片、磁头等器件发生故障。若磁盘的读写速率低于磁盘读写速率的平均值的50%,则确定磁盘发生故障,无法进行有效的磁盘的读写操作。
扇区是磁盘进行读写的基本单元,磁盘上的每个磁道都被分为若干个弧段,划分出的弧段及磁盘的扇区。当磁盘的其中一个扇区发生故障时,磁盘的固件会将发生故障的扇区写入增长坏道表或永久缺陷表,并进行扇区计数更新磁盘的重映射扇区数。当重映射扇区数大于磁盘的重映射扇区数临界值时,则确认磁盘出现故障的扇区发生扩散的故障,且存在发生物理坏道的风险。
需要理解的是,还可以根据磁盘的主轴起旋重试次数、通电时长阈值及通电次数等磁盘的运行信息,判断磁盘是否发生故障,在此不做赘述,其中,主轴起旋重试次数是指磁盘的主轴电机重新启动的次数。
请参阅图2,图2示出了本发明实施例提供的第二种存储系统故障恢复方法的流程图。作为一个示例,根据所述节点内磁盘的运行信息,确定发生故障的磁盘之后,所述将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘之前,还包括:
步骤131,根据所述发生故障的磁盘的容量,查询与所述容量匹配的备用磁盘,并将其中一个备用磁盘设置为所述发生故障的磁盘的热备磁盘。
替换发生故障的磁盘,热备磁盘的容量必须大于或等于发生故障的磁盘的容量。根据发生故障的磁盘的容量,查询与容量匹配的备用磁盘,并将其中一个备用磁盘设置为发生故障的磁盘的热备磁盘,以保证将发生故障的磁盘的所有数据都写入热备磁盘。
步骤140,将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘。
热备磁盘是被指定用于替代RAID(Redundant Arrays of Independent Disks,磁盘阵列)组发生故障的磁盘的备用磁盘。将发生故障的磁盘替换为对应的热备磁盘,并将发生故障的磁盘的数据写入热备磁盘,以通过热备磁盘承载发生故障的磁盘的数据。当分布式存储系统存在故障节点时,将发生故障的磁盘替换为对应的热备磁盘,热备磁盘加入分布式存储系统中,以使存储系统恢复至正常运行状态,保证客户端的读/写请求的可用性。同时,替换发生故障的磁盘的过程不需要人工操作,提高了分布式存储系统的数据安全性。
作为一个示例,所述将所述发生故障的磁盘的数据写入所述热备磁盘,包括:
根据所述发生故障的磁盘所在的分布式卷类型,确定所述发生故障的磁盘的数据备份逻辑;
根据所述数据备份逻辑,将所述发生故障的磁盘的数据写入所述热备磁盘。
需要理解的是,分布式卷是指分布式存储系统中,用于提供给外部客户端使用的逻辑单元。分布式卷类型包括但不限于复制卷、EC(erasure code,纠删码)卷、条带卷及逻辑卷等,在此不做限定。
具体地,纠删码是通过算法将原始的数据进行编码得到冗余,并将数据和冗余一并存储,以实现容错的目的。若发生故障的磁盘所在的分布式卷类型为EC卷,数据备份逻辑为计算EC卷中正常运行的数据,并通过纠删码算法将数据写入热备磁盘,写入数据的过程中不影响EC卷的正常运行。若发生故障的磁盘所在的分布式卷类型为复制卷,每份数据都存在多个备份数据,则数据备份逻辑为将发生故障的磁盘的备份数据写入热备磁盘。
请参阅图3,图3示出了本发明实施例提供的第三种存储系统故障恢复方法的流程图,作为一个示例,所述将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘之后,还包括:
步骤150,删除所述分布式存储系统中发生故障的磁盘。
将发生故障的磁盘替换为对应的热备磁盘之后,删除分布式存储系统中发生故障的磁盘,避免发生故障的磁盘对分布式存储系统造成干扰。
本申请提供了一种存储系统故障恢复方法,包括:获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常;若所述状态信息存在异常,扫描所述分布式存储系统中存在故障的节点;根据所述节点内磁盘的运行信息,确定发生故障的磁盘;将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘。当分布式存储系统存在故障节点时,快速确定发生故障的磁盘,并将发生故障的磁盘替换为对应的热备磁盘,以故障的存储系统快速恢复至正常运行状态。同时,替换发生故障的磁盘的过程不需要人工操作,提高了分布式存储系统的数据安全性。
实施例2
请参阅图4,图4示出了本发明实施例提供的存储系统故障恢复装置的结构示意图。图4中的存储系统故障恢复装置200包括:
状态判断模块210,用于获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常;
节点扫描模块220,用于若所述状态信息存在异常,扫描所述分布式存储系统中存在故障的节点;
磁盘确定模块230,用于根据所述节点内磁盘的运行信息,确定发生故障的磁盘;
磁盘替换模块240,用于将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘。
作为一个示例,所述磁盘替换模块240,包括:
分布式卷确定子模块,用于根据所述发生故障的磁盘所在的分布式卷类型,确定所述发生故障的磁盘的数据备份逻辑;
数据写入子模块,用于根据所述数据备份逻辑,将所述发生故障的磁盘的数据写入所述热备磁盘。
作为一个示例,所述存储系统故障恢复装置200,还包括:
磁盘查询模块,用于根据所述发生故障的磁盘的容量,查询与所述容量匹配的备用磁盘,并将其中一个备用磁盘设置为所述发生故障的磁盘的热备磁盘。
作为一个示例,所述存储系统故障恢复装置200,还包括:
重新执行模块,用于若所述状态信息不存在异常,基于预设时间间隔重新执行所述获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常的步骤。
作为一个示例,所述存储系统故障恢复装置200,还包括:
磁盘删除模块,用于删除所述分布式存储系统中发生故障的磁盘。
作为一个示例,所述运行信息包括磁盘的读写速率、读写错误率及重映射扇区数,所述磁盘确定模块230,包括:
第一故障确定子模块,用于若磁盘的读写速率小于预设的读写速率阈值,则确定所述磁盘发生故障;
第二故障确定子模块,用于若磁盘的读写速率大于预设的读写错误率阈值,则确定所述磁盘发生故障;
第三故障确定子模块,用于若磁盘的重映射扇区数大于预设的扇区数阈值,则确定所述磁盘发生故障。
存储系统故障恢复装置200用于执行上述的存储系统故障恢复方法中的对应步骤,各个功能的具体实施,在此不再一一描述。此外,实施例1中可选示例也同样适用于实施例2的存储系统故障恢复装置200。
本申请实施例还提供一种计算机设备,包括处理器及存储器,所述存储器上存储有程序或指令,所述程序或指令被所述处理器执行,以使所述路由器执行上述的存储系统故障恢复方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现上述的存储系统故障恢复方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种存储系统故障恢复方法,其特征在于,所述方法包括:
获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常;
若所述状态信息存在异常,扫描所述分布式存储系统中存在故障的节点;
根据所述节点内磁盘的运行信息,确定发生故障的磁盘;
将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘。
2.根据权利要求1所述的存储系统故障恢复方法,其特征在于,所述将所述发生故障的磁盘的数据写入所述热备磁盘,包括:
根据所述发生故障的磁盘所在的分布式卷类型,确定所述发生故障的磁盘的数据备份逻辑;
根据所述数据备份逻辑,将所述发生故障的磁盘的数据写入所述热备磁盘。
3.根据权利要求1所述的存储系统故障恢复方法,其特征在于,根据所述节点内磁盘的运行信息,确定发生故障的磁盘之后,所述将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘之前,还包括:
根据所述发生故障的磁盘的容量,查询与所述容量匹配的备用磁盘,并将其中一个备用磁盘设置为所述发生故障的磁盘的热备磁盘。
4.根据权利要求1所述的存储系统故障恢复方法,其特征在于,所述获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常之后,还包括:
若所述状态信息不存在异常,基于预设时间间隔重新执行所述获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常的步骤。
5.根据权利要求1所述的存储系统故障恢复方法,其特征在于,所述将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘之后,还包括:
删除所述分布式存储系统中发生故障的磁盘。
6.根据权利要求1所述的存储系统故障恢复方法,其特征在于,所述运行信息包括磁盘的读写速率、读写错误率及重映射扇区数,所述根据所述节点内磁盘的运行信息,确定发生故障的磁盘,包括:
若磁盘的读写速率小于预设的读写速率阈值,则确定所述磁盘发生故障;
若磁盘的读写速率大于预设的读写错误率阈值,则确定所述磁盘发生故障;
若磁盘的重映射扇区数大于预设的扇区数阈值,则确定所述磁盘发生故障。
7.一种存储系统故障恢复装置,其特征在于,所述装置包括:
状态判断模块,用于获取分布式存储系统的状态信息,并判断所述状态信息是否存在异常;
节点扫描模块,用于若所述状态信息存在异常,扫描所述分布式存储系统中存在故障的节点;
磁盘确定模块,用于根据所述节点内磁盘的运行信息,确定发生故障的磁盘;
磁盘替换模块,用于将所述发生故障的磁盘替换为对应的热备磁盘,并将所述发生故障的磁盘的数据写入所述热备磁盘。
8.根据权利要求7所述的存储系统故障恢复装置,其特征在于,所述磁盘替换模块,包括:
分布式卷确定子模块,用于根据所述发生故障的磁盘所在的分布式卷类型,确定所述发生故障的磁盘的数据备份逻辑;
数据写入子模块,用于根据所述数据备份逻辑,将所述发生故障的磁盘的数据写入所述热备磁盘。
9.一种计算机设备,其特征在于,包括处理器及存储器,所述存储器上存储有程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的存储系统故障恢复方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的存储系统故障恢复方法的步骤。
CN202111621876.4A 2021-12-28 2021-12-28 存储系统故障恢复方法、装置、计算机设备及介质 Pending CN114265728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111621876.4A CN114265728A (zh) 2021-12-28 2021-12-28 存储系统故障恢复方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111621876.4A CN114265728A (zh) 2021-12-28 2021-12-28 存储系统故障恢复方法、装置、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN114265728A true CN114265728A (zh) 2022-04-01

Family

ID=80830711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111621876.4A Pending CN114265728A (zh) 2021-12-28 2021-12-28 存储系统故障恢复方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN114265728A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114844809A (zh) * 2022-04-18 2022-08-02 北京凝思软件股份有限公司 基于网络心跳和内核磁盘心跳的多因子仲裁方法、装置
CN115629906A (zh) * 2022-12-21 2023-01-20 北京铜牛信息科技股份有限公司 一种恢复云分布式存储数据故障的方法及系统
CN115826876A (zh) * 2023-01-09 2023-03-21 苏州浪潮智能科技有限公司 数据写入方法、系统、存储硬盘、电子设备及存储介质
CN116560916A (zh) * 2023-07-07 2023-08-08 苏州浪潮智能科技有限公司 一种磁盘切换方法、系统、装置、介质及分布式存储系统
CN116594571A (zh) * 2023-07-11 2023-08-15 苏州浪潮智能科技有限公司 一种存储故障修复方法、系统、设备及介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114844809A (zh) * 2022-04-18 2022-08-02 北京凝思软件股份有限公司 基于网络心跳和内核磁盘心跳的多因子仲裁方法、装置
CN114844809B (zh) * 2022-04-18 2024-05-07 北京凝思软件股份有限公司 基于网络心跳和内核磁盘心跳的多因子仲裁方法、装置
CN115629906A (zh) * 2022-12-21 2023-01-20 北京铜牛信息科技股份有限公司 一种恢复云分布式存储数据故障的方法及系统
CN115629906B (zh) * 2022-12-21 2023-03-21 北京铜牛信息科技股份有限公司 一种恢复云分布式存储数据故障的方法及系统
CN115826876A (zh) * 2023-01-09 2023-03-21 苏州浪潮智能科技有限公司 数据写入方法、系统、存储硬盘、电子设备及存储介质
CN115826876B (zh) * 2023-01-09 2023-05-16 苏州浪潮智能科技有限公司 数据写入方法、系统、存储硬盘、电子设备及存储介质
CN116560916A (zh) * 2023-07-07 2023-08-08 苏州浪潮智能科技有限公司 一种磁盘切换方法、系统、装置、介质及分布式存储系统
CN116594571A (zh) * 2023-07-11 2023-08-15 苏州浪潮智能科技有限公司 一种存储故障修复方法、系统、设备及介质
CN116594571B (zh) * 2023-07-11 2023-09-29 苏州浪潮智能科技有限公司 一种存储故障修复方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN114265728A (zh) 存储系统故障恢复方法、装置、计算机设备及介质
US7640452B2 (en) Method for reconstructing data in case of two disk drives of RAID failure and system therefor
US9009526B2 (en) Rebuilding drive data
US7143308B2 (en) Apparatus, system, and method for differential rebuilding of a reactivated offline RAID member disk
CN100530125C (zh) 一种数据的安全存储方法
US6944791B2 (en) Method of handling unreadable blocks during write of a RAID device
EP2857971B1 (en) Method and device for repairing error data
US7793168B2 (en) Detection and correction of dropped write errors in a data storage system
CN101960429B (zh) 视频媒体数据存储系统以及相关方法
CN101887351B (zh) 一种磁盘阵列容错方法及其系统
US7958432B2 (en) Verification of non volatile storage storing preserved unneeded data
US7793167B2 (en) Detection and correction of dropped write errors in a data storage system
CN109726036B (zh) 一种存储系统中的数据重构方法和装置
CN110795273A (zh) 一种raid的写洞保护方法、系统及存储介质
US20070168700A1 (en) Method, system and computer program product for recovery of formatting in repair of bad sectors in disk drives
CN108170375B (zh) 一种分布式存储系统中的超限保护方法和装置
CN105183590A (zh) 一种磁盘阵列的容错处理方法
CN106528342A (zh) 一种具有云服务器备份的磁盘阵列容错装置
JP3120753B2 (ja) ディスクアレイ装置の障害復旧装置
US10168935B2 (en) Maintaining access times in storage systems employing power saving techniques
JP4143040B2 (ja) ディスクアレイ制御装置、同装置に適用されるデータ欠損検出時の処理方法及びプログラム
CN111857573A (zh) 一种基于raid故障成员盘的智能更换方法及系统
JP2618078B2 (ja) アレイディスク制御装置
CN105183589A (zh) 一种磁盘阵列容错装置
CN112084097B (zh) 一种磁盘告警方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination