CN110515756A - 一种存储系统的故障预防方法、装置、设备和存储介质 - Google Patents

一种存储系统的故障预防方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110515756A
CN110515756A CN201910683149.7A CN201910683149A CN110515756A CN 110515756 A CN110515756 A CN 110515756A CN 201910683149 A CN201910683149 A CN 201910683149A CN 110515756 A CN110515756 A CN 110515756A
Authority
CN
China
Prior art keywords
storage system
trouble
disk
parameter
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910683149.7A
Other languages
English (en)
Inventor
刘硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Jinan data Technology Co ltd
Original Assignee
Inspur Jinan data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Jinan data Technology Co ltd filed Critical Inspur Jinan data Technology Co ltd
Priority to CN201910683149.7A priority Critical patent/CN110515756A/zh
Publication of CN110515756A publication Critical patent/CN110515756A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种存储系统的故障预防方法、装置、设备和存储介质,该方法包括获取存储系统故障预防指令,检测存储系统中的磁盘的参数;当所述参数超过预设阈值时发出告警,并暂停写入操作;将所述参数超过预设阈值的磁盘内的数据复制到冗余磁盘中并将二者调换。上述存储系统的故障预防方法、装置、设备和存储介质,能够在提前发现存储系统的异常情况,进行相关的预防处理,避免故障发生,保证系统正常运行,提高系统的可靠性和可用性。

Description

一种存储系统的故障预防方法、装置、设备和存储介质
技术领域
本发明属于数据存储技术领域,特别是涉及一种存储系统的故障预防方法、装置、设备和存储介质。
背景技术
在云计算时代,各种音频、视频和网站的静态资源都大量存储于对象存储设备当中,这些资源均采用三副本等存储策略存储于对象存储服务中,这种对象存储系统是基于对象的离散的文件存储系统,通过算法将数据块分散存储在各块硬盘上。用户对对象存储的可靠性以及速度有很高的要求,传统的存储系统的故障预防方法是利用简单的心跳机制,在故障发生后才能采取一系列的措施,无法做到提前发现和识别,或者通过设定固定监控项阈值,来触发告警,可见这种机制不灵活,可靠性不足。
发明内容
为解决上述问题,本发明提供了一种存储系统的故障预防方法、装置、设备和计算机可读存储介质,能够在提前发现存储系统的异常情况,进行相关的预防处理,避免故障发生,保证系统正常运行,提高系统的可靠性和可用性。
本发明提供的一种存储系统的故障预防方法,包括:
获取存储系统故障预防指令,检测存储系统中的磁盘的参数;
当所述参数超过预设阈值时发出告警,并暂停写入操作;
将所述参数超过预设阈值的磁盘内的数据复制到冗余磁盘中并将二者调换。
优选的,在上述存储系统的故障预防方法中,所述参数为写入速率和/或写入失败率。
优选的,在上述存储系统的故障预防方法中,所述参数超过预设阈值为:写入速率低于正常写入速率的50%和/或写入失败率超过正常写入失败率的50%。
优选的,在上述存储系统的故障预防方法中,所述检测存储系统中的磁盘的参数为:
将文件分成块并同时写入多块磁盘中,检测写入过程中的写入速率和/或写入失败率。
本发明提供的一种存储系统的故障预防装置,包括:
检测部件,用于获取存储系统故障预防指令,检测存储系统中的磁盘的参数;
告警部件,用于当所述参数超过预设阈值时发出告警,并暂停写入操作;
调换部件,用于将所述参数超过预设阈值的磁盘内的数据复制到冗余磁盘中并将二者调换。
优选的,在上述存储系统的故障预防装置中,所述参数为写入速率和/或写入失败率。
优选的,在上述存储系统的故障预防装置中,所述告警部件用于当写入速率低于正常写入速率的50%和/或写入失败率超过正常写入失败率的50%时发出告警。
优选的,在上述存储系统的故障预防装置中,所述检测部件用于将文件分成块并同时写入多块磁盘中,检测写入过程中的写入速率和/或写入失败率。
本发明提供的一种存储系统的故障预防设备,包括:
存储器,用于存储指令;其中,所述指令包括上面任一项方法中每个动作的指令;
处理器,用于执行所述存储器中的指令。
本发明提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上面任一项所述存储系统的故障预防方法的步骤。
通过上述描述可知,本发明提供的上述存储系统的故障预防方法、装置、设备和存储介质,由于该方法中是先获取存储系统故障预防指令,检测存储系统中的磁盘的参数,然后,当所述参数超过预设阈值时发出告警,并暂停写入操作,再将所述参数超过预设阈值的磁盘内的数据复制到冗余磁盘中并将二者调换,因此能够防患于未然,在存储系统未发生故障时,提前进行处理,避免故障发生,也就是说,能够在提前发现存储系统的异常情况,进行相关的预防处理,保证系统正常运行,提高系统的可靠性和可用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种存储系统的故障预防方法的示意图;
图2为本申请提供的一种存储系统的故障预防装置的示意图;
图3为本申请提供的一种存储系统的故障预防设备的示意图。
具体实施方式
本发明的重点是提供一种存储系统的故障预防方法、装置、设备和存储介质,可以针对对象存储系统或其他类似的存储系统,只要系统中包括大量的磁盘并存储了大量的数据,而且同一份文件在多块磁盘中存在副本即可,能够在提前发现存储系统的异常情况,进行相关的预防处理,避免故障发生,保证系统正常运行,提高系统的可靠性和可用性。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的一种存储系统的故障预防方法的实施例如图1所示,图1为本申请提供的一种存储系统的故障预防方法的示意图,该方法包括如下步骤:
S1:获取存储系统故障预防指令,检测存储系统中的磁盘的参数;
具体的,可以在系统启动时就启动监控程序,利用监控代理检测磁盘的参数,这里所说的监控代理相当于监控程序派出去的前哨站,用于收集磁盘参数信息。
S2:当参数超过预设阈值时发出告警,并暂停写入操作;
需要说明的是,此时要让管理员告知异常情况,并且不能再继续写出现异常情况的磁盘进行写入操作,但这里并不限制读取操作,毕竟读取操作并不会产生任何影响。
S3:将参数超过预设阈值的磁盘内的数据复制到冗余磁盘中并将二者调换。
也就是说,将出现异常的磁盘内的数据复制到冗余磁盘中,并将该冗余磁盘加入存储系统中,将出现异常的磁盘下线,在替换的过程中,并不会对数据读取造成影响,毕竟有其他的存储有同样数据的磁盘,因此数据的读取可以利用其他磁盘进行,当将冗余磁盘替换完成之后,就成功的避免了一次可能的存储系统故障的发生,从而更好的保证存储系统的正常运行。
通过上述描述可知,本申请提供的上述存储系统的故障预防方法,由于先获取存储系统故障预防指令,检测存储系统中的磁盘的参数,然后,当参数超过预设阈值时发出告警,并暂停写入操作,再将参数超过预设阈值的磁盘内的数据复制到冗余磁盘中并将二者调换,因此能够防患于未然,在存储系统未发生故障时,提前进行处理,避免故障发生,也就是说,能够在提前发现存储系统的异常情况,进行相关的预防处理,保证系统正常运行,提高系统的可靠性和可用性。
在一个具体的存储系统的故障预防方法的实施例中,上述参数可以优选为写入速率和/或写入失败率,也就是说可以单独的检测磁盘的写入速率,单独的检测磁盘的写入失败率,也可以同时检测磁盘的写入速率和写入失败率,当然同时检测的效果更好,因为这样更全面,毕竟只要任何一个参数出现了异常都可能会引起磁盘故障。
在更具体的一个实施例中,上述参数超过预设阈值可以为:写入速率低于正常写入速率的50%和/或写入失败率超过正常写入失败率的50%,也就是说,可以是当只有写入速率低于正常写入速率的50%时就发出告警,或者当只有写入失败率超过正常写入失败率的50%时就发出告警,或者当同时出现上述两种问题时发出告警,而且需要说明的是,由于在向磁盘执行写入操作时,会同时向多个磁盘同时写入数据,因此这里的正常写入速率和正常写入失败率是可以获取到的,毕竟不可能所有磁盘同时出现潜在故障,出现潜在故障的只是个别的磁盘,因此当监测到某个或某些磁盘的写入速率或写入失败率与其他磁盘出现明显的不同时,就证明这个或这些磁盘出现了潜在故障,这里采用的50%的阈值只是优选方案,还可以根据实际需要调高或调低该阈值,此处并不限制。
举个具体的例子来说,写入文件A,文件A将分成块,并同时写入到多块磁盘中,因为对象存储系统通常情况下存储盘的型号相同,节点配置相同,所以写入时的平均写入速率大概相同。那么写入文件A时,不同磁盘写入速率如果出现较大的差异,那么此项指标就可以预示潜在的问题,同样,写入错误率类似,如果某块磁盘的写入错误率远高于写入A文件的几块磁盘的平均水平,那么可以预示潜在的问题。
在又一个存储系统的故障预防方法的实施例中,上述检测存储系统中的磁盘的参数可以具体为:将文件分成块并同时写入多块磁盘中,检测写入过程中的写入速率和/或写入失败率,当然这只是一种优选方案,实际并不限定于此,在故障发生之前就完成磁盘的替换,就实现了存储服务的可靠性和可用性的大幅度提升。
本申请提供的一种存储系统的故障预防装置的实施例如图2所示,图2为本申请提供的一种存储系统的故障预防装置的示意图,该装置包括:
检测部件201,用于获取存储系统故障预防指令,检测存储系统中的磁盘的参数,具体的,可以在系统启动时就启动监控程序,利用监控代理检测磁盘的参数,这里所说的监控代理相当于监控程序派出去的前哨站,用于收集磁盘参数信息;
告警部件202,用于当参数超过预设阈值时发出告警,并暂停写入操作,需要说明的是,此时要让管理员告知异常情况,并且不能再继续写出现异常情况的磁盘进行写入操作,但这里并不限制读取操作,毕竟读取操作并不会产生任何影响;
调换部件203,用于将参数超过预设阈值的磁盘内的数据复制到冗余磁盘中并将二者调换,也就是说,将出现异常的磁盘内的数据复制到冗余磁盘中,并将该冗余磁盘加入存储系统中,将出现异常的磁盘下线,在替换的过程中,并不会对数据读取造成影响,毕竟有其他的存储有同样数据的磁盘,因此数据的读取可以利用其他磁盘进行,当将冗余磁盘替换完成之后,就成功的避免了一次可能的存储系统故障的发生,从而更好的保证存储系统的正常运行。
利用上述存储系统的故障预防装置,能够在提前发现存储系统的异常情况,进行相关的预防处理,保证系统正常运行,提高系统的可靠性和可用性。
在一个具体的存储系统的故障预防装置的实施例中,上述参数可以为写入速率和/或写入失败率,也就是说可以单独的检测磁盘的写入速率,单独的检测磁盘的写入失败率,也可以同时检测磁盘的写入速率和写入失败率,当然同时检测的效果更好,因为这样更全面,毕竟只要任何一个参数出现了异常都可能会引起磁盘故障。
在更具体的一个实施例中,告警部件202用于当写入速率低于正常写入速率的50%和/或写入失败率超过正常写入失败率的50%时发出告警,也就是说,可以是当只有写入速率低于正常写入速率的50%时就发出告警,或者当只有写入失败率超过正常写入失败率的50%时就发出告警,或者当同时出现上述两种问题时发出告警,而且需要说明的是,由于在向磁盘执行写入操作时,会同时向多个磁盘同时写入数据,因此这里的正常写入速率和正常写入失败率是可以获取到的,毕竟不可能所有磁盘同时出现潜在故障,出现潜在故障的只是个别的磁盘,因此当监测到某个或某些磁盘的写入速率或写入失败率与其他磁盘出现明显的不同时,就证明这个或这些磁盘出现了潜在故障,这里采用的50%的阈值只是优选方案,还可以根据实际需要调高或调低该阈值,此处并不限制。
在又一个存储系统的故障预防装置的实施例中,检测部件201具体用于将文件分成块并同时写入多块磁盘中,检测写入过程中的写入速率和/或写入失败率,当然这只是一种优选方案,实际并不限定于此,在故障发生之前就完成磁盘的替换,就实现了存储服务的可靠性和可用性的大幅度提升。
本申请提供的一种存储系统的故障预防设备的实施例如图3所示,图3为本申请提供的一种存储系统的故障预防设备的示意图,该设备包括:
存储器301,用于存储指令;其中,指令包括上面任一项存储系统的故障预防方法中每个动作的指令;
处理器302,用于执行存储器中的指令。
本申请提供的一种计算机可读存储介质的实施例中,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上面任一项存储系统的故障预防方法的步骤。
上述设备和计算机可读存储介质具有与上述方法和装置同样的优点,此处并不赘述。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种存储系统的故障预防方法,其特征在于,包括:
获取存储系统故障预防指令,检测存储系统中的磁盘的参数;
当所述参数超过预设阈值时发出告警,并暂停写入操作;
将所述参数超过预设阈值的磁盘内的数据复制到冗余磁盘中并将二者调换。
2.根据权利要求1所述的存储系统的故障预防方法,其特征在于,所述参数为写入速率和/或写入失败率。
3.根据权利要求2所述的存储系统的故障预防方法,其特征在于,所述参数超过预设阈值为:写入速率低于正常写入速率的50%和/或写入失败率超过正常写入失败率的50%。
4.根据权利要求1-3所述的存储系统的故障预防方法,其特征在于,所述检测存储系统中的磁盘的参数为:
将文件分成块并同时写入多块磁盘中,检测写入过程中的写入速率和/或写入失败率。
5.一种存储系统的故障预防装置,其特征在于,包括:
检测部件,用于获取存储系统故障预防指令,检测存储系统中的磁盘的参数;
告警部件,用于当所述参数超过预设阈值时发出告警,并暂停写入操作;
调换部件,用于将所述参数超过预设阈值的磁盘内的数据复制到冗余磁盘中并将二者调换。
6.根据权利要求5所述的存储系统的故障预防装置,其特征在于,所述参数为写入速率和/或写入失败率。
7.根据权利要求6所述的存储系统的故障预防装置,其特征在于,所述告警部件用于当写入速率低于正常写入速率的50%和/或写入失败率超过正常写入失败率的50%时发出告警。
8.根据权利要求5-7所述的存储系统的故障预防装置,其特征在于,所述检测部件用于将文件分成块并同时写入多块磁盘中,检测写入过程中的写入速率和/或写入失败率。
9.一种存储系统的故障预防设备,其特征在于,包括:
存储器,用于存储指令;其中,所述指令包括权利要求1-4任一项中每个动作的指令;
处理器,用于执行所述存储器中的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述存储系统的故障预防方法的步骤。
CN201910683149.7A 2019-07-26 2019-07-26 一种存储系统的故障预防方法、装置、设备和存储介质 Pending CN110515756A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910683149.7A CN110515756A (zh) 2019-07-26 2019-07-26 一种存储系统的故障预防方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910683149.7A CN110515756A (zh) 2019-07-26 2019-07-26 一种存储系统的故障预防方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN110515756A true CN110515756A (zh) 2019-11-29

Family

ID=68624096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910683149.7A Pending CN110515756A (zh) 2019-07-26 2019-07-26 一种存储系统的故障预防方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110515756A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113625957A (zh) * 2021-06-30 2021-11-09 济南浪潮数据技术有限公司 一种硬盘故障的检测方法、装置及设备
CN113741815A (zh) * 2021-08-25 2021-12-03 苏州浪潮智能科技有限公司 一种存储系统的管控方法、装置、设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844381A (zh) * 2016-09-21 2018-03-27 中国电信股份有限公司 存储系统的故障处理方法以及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844381A (zh) * 2016-09-21 2018-03-27 中国电信股份有限公司 存储系统的故障处理方法以及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113625957A (zh) * 2021-06-30 2021-11-09 济南浪潮数据技术有限公司 一种硬盘故障的检测方法、装置及设备
CN113625957B (zh) * 2021-06-30 2024-02-13 济南浪潮数据技术有限公司 一种硬盘故障的检测方法、装置及设备
CN113741815A (zh) * 2021-08-25 2021-12-03 苏州浪潮智能科技有限公司 一种存储系统的管控方法、装置、设备及可读存储介质
CN113741815B (zh) * 2021-08-25 2023-06-13 苏州浪潮智能科技有限公司 一种存储系统的管控方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN102880522B (zh) 面向硬件故障的系统关键文件故障纠正方法及装置
CN104484251B (zh) 一种硬盘故障的处理方法及装置
CN108984107B (zh) 提高存储系统的可用性
US9652326B1 (en) Instance migration for rapid recovery from correlated failures
US9081697B2 (en) Storage control apparatus and storage control method
CN101887351B (zh) 一种磁盘阵列容错方法及其系统
JP6190468B2 (ja) 管理システム、プラン生成方法、およびプラン生成プログラム
JP2005322399A (ja) 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法
CN111158955B (zh) 一种基于卷复制的高可用系统以及多服务器数据同步方法
CN108509156A (zh) 数据读取方法、装置、设备及系统
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN109710456B (zh) 一种数据恢复方法及装置
CN110750213A (zh) 一种硬盘管理方法及装置
WO2023226380A1 (zh) 一种磁盘处理方法、系统及电子设备
CN110187841A (zh) 一种存储系统管理磁盘的方法、装置及存储服务器
CN110515756A (zh) 一种存储系统的故障预防方法、装置、设备和存储介质
CN105138280B (zh) 数据写入方法、装置及系统
CN110597779A (zh) 一种分布式文件系统中的数据读写方法及相关装置
CN114064374A (zh) 一种基于分布式块存储的故障检测方法和系统
US20190163584A1 (en) Reducing recovery time of an application
CN103297264B (zh) 一种云平台故障恢复方法和系统
CN104636082B (zh) 磁盘阵列raid的控制方法及装置
CN108170375B (zh) 一种分布式存储系统中的超限保护方法和装置
CN112084097B (zh) 一种磁盘告警方法及装置
JP6828558B2 (ja) 管理装置、管理方法及び管理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129