CN104050071A - 存储设备失效预警方法及系统 - Google Patents

存储设备失效预警方法及系统 Download PDF

Info

Publication number
CN104050071A
CN104050071A CN201410307771.5A CN201410307771A CN104050071A CN 104050071 A CN104050071 A CN 104050071A CN 201410307771 A CN201410307771 A CN 201410307771A CN 104050071 A CN104050071 A CN 104050071A
Authority
CN
China
Prior art keywords
memory device
time
anticipation
early warning
distributed number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410307771.5A
Other languages
English (en)
Other versions
CN104050071B (zh
Inventor
周麒
陈卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Keda Technology Co Ltd
Original Assignee
Suzhou Keda Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Keda Technology Co Ltd filed Critical Suzhou Keda Technology Co Ltd
Priority to CN201410307771.5A priority Critical patent/CN104050071B/zh
Publication of CN104050071A publication Critical patent/CN104050071A/zh
Application granted granted Critical
Publication of CN104050071B publication Critical patent/CN104050071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种存储设备失效预警方法及系统,所述方法包含以下步骤:获取存储设备完成每个I/O操作的时间;统计I/O操作的完成时间位于各个时间点的I/O操作的数量;根据I/O操作的数量及其分布,预判存储设备是否将失效。本发明的存储设备失效预警方法及系统解决了现有技术的对磁盘健康状态的监控只是比较滞后地指出磁盘不健康的原因,无法对磁盘的健康状态进行预警,不能避免由于磁盘故障造成的数据丢失或损坏的技术问题。

Description

存储设备失效预警方法及系统
技术领域
本发明涉及存储设备技术领域,具体涉及一种存储设备失效预警方法及系统。
背景技术
随着信息技术的快速发展,大量的数据通过计算机系统来存储,形成了数据在IT环境中的高度集中存储。由于需要处理的数据量不断增加,导致对存储系统的容量和性能的巨大需求。单位面积下可以存储更多的文件、视频、影视、图片及声音等数据,在很大程度上提高了信息和数据管理的自动化,提高了效率、降低了成本,但同时数据安全的风险性也在不断增强。由于设备故障、操作失误、环境变化、病毒感染、人为破坏、自然灾难等所造成的数据丢失可能会导致巨大的损失。越来越多的企业认识到存储设备安全的重要性,因而也越来越重视存储设备安全以及数据保护。
目前采用得较多的存储设备是磁盘阵列,它能提升存储设备性能、扩充存储容量、提高存储可靠性。磁盘阵列采用冗余技术提高存储系统可靠性,当磁盘产生故障时,系统进入降级状态。传统的数据保护方法多是通过采用冗佘技术以及各种数据备份来保证数据的可用性及可靠性,是在系统故障已经发生时进行数据的重建或者数据的恢复,备用磁盘需要反复执行输入/输出存取动作,从而导致系统性能降低和I/O资源浪费,并且由于其故障维护窗口容量较小,极易造成二次数据流失,也可能造成数据业务的中断。根据实际应用经验,使用时间相当、同批次磁盘中某一个磁盘一旦出现故障,其他磁盘也可能即将出现故障,极有可能由于其他成员盘再次产生故障而导致重建失败、阵列数据损毁的事故。
如果能够事前根据存储设备的运行状态有效地预测系统的故障发生概率,在磁盘产生故障之前进行安全预警并采取相关的数据保护措施,不仅可以降低不必要的长期备份开销,缩小备份窗口,而且可以极大地减少数据丢失的风险。因此及时对磁盘阵列的运行情况进行预警,根据其运行、性能和健康状况,在系统即将产生故障之前进行数据保护、防患于未然是十分重要的。将安全预警技术引入存储系统中,能保证数据不丢失、系统尽快恢复运行。存储设备安全预警能够为数据存储提供最为基础的可用性保证,对提高存储系统可靠性和可维护性提供保障,最终保护存储系统数据安全。
SMART技术是安全预警技术的一个重要研究方向。SMART是英文Self-Monitoring Analysis and Reporting Technology(自动检测分析及报告技术)的简写,它能对磁盘的磁头单元、磁盘温度、盘片表面介质材料、马达及其驱动系统、磁盘内部电路等进行监测,及时分析并预报磁盘可能发生的问题。磁盘的每项SMART信息中都有一个临界值(阈值),不同磁盘的临界值是不同的,SMART针对各项的当前值、最差值和临界值的比较结果以及数据值进行分析后,提供磁盘当前的评估状态,也是直观判断磁盘健康状态的重要信息。然而,SMART信息只是比较滞后地指出磁盘不健康的原因,大多数的SMART信息无法对磁盘的健康状态进行预警,不能使存储系统对磁盘故障具有预判能力,从而不能避免由于磁盘故障造成的数据丢失或损坏。
发明内容
为此,本发明要解决的技术问题在于现有技术的对磁盘健康状态的监控只是比较滞后地指出磁盘不健康的原因,无法对磁盘的健康状态进行预警,不能避免由于磁盘故障造成的数据丢失或损坏,从而提出一种存储设备失效预警方法及系统来解决该问题。
为解决上述技术问题,本发明采用以下技术方案:
一种存储设备失效预警方法,包含以下步骤:获取存储设备完成每个I/O操作的时间;统计I/O操作的完成时间位于各个时间点的I/O操作的数量;根据I/O操作的数量及其分布,预判存储设备是否将失效。
作为本发明的存储设备失效预警方法的进一步改进,所述“根据I/O操作的数量及其分布,预判存储设备是否将失效”包括以下步骤:选取I/O操作的数量分布符合类正态分布特征的连续时间段,统计所述时间段内的I/O操作的数量占所有I/O操作的数量的比值;所述比值大于预设阈值时,预判该存储设备将失效。
作为本发明的存储设备失效预警方法的进一步改进,所述“根据I/O操作的数量及其分布,预判存储设备是否将失效”包括以下步骤:选取对应各个时间点的I/O操作的数量大于第一预设阈值的连续时间段,当该时间段内的I/O操作的数量占所有I/O操作的数量的比值达到第二预设阈值时,分析该时间段内的I/O操作的数量分布;所述时间段内的I/O操作的数量分布符合类正态分布特征时,预判该存储设备将失效。
作为本发明的存储设备失效预警方法的进一步改进,所述“I/O操作的数量分布符合类正态分布特征”为I/O操作的数量呈现中间高、两侧逐渐降低的趋势。
作为本发明的存储设备失效预警方法的进一步改进,所述完成每个I/O操作的时间为:从操作系统向所述存储设备发出开始写或者读I/O操作请求,到操作系统被返回结束写或者读I/O操作请求的时间。
作为本发明的存储设备失效预警方法的进一步改进,还可以设置若干时间区段,统计I/O操作的完成时间位于各个时间区段的I/O操作的数量。
作为本发明的存储设备失效预警方法的进一步改进,所述时间区段为以10ms为间隔在0ms-1000ms之间设置100个时间区段。
基于同一发明构思,本发明还提供一种存储设备失效预判系统,包含:I/O操作时间模块,用于获取存储设备完成每个I/O操作的时间;I/O操作数量模块,用于统计I/O操作的完成时间位于各个时间点的I/O操作的数量;预判模块,用于根据I/O操作的数量及其分布,预判存储设备是否将失效。
作为本发明的存储设备失效预判系统的进一步改进,所述预判模块包括:比值统计模块,用于选取I/O操作的数量分布符合类正态分布特征的连续时间段,统计所述时间段内的I/O操作的数量占所有I/O操作的数量的比值;阈值预判模块,用于在所述比值大于预设阈值时,预判该存储设备将失效。
作为本发明的存储设备失效预判系统的进一步改进,所述预判模块包括:数量分布分析模块,用于选取对应各个时间点的I/O操作的数量大于第一预设阈值的连续时间段,当该时间段内的I/O操作的数量占所有I/O操作的数量的比值达到第二预设阈值时,分析该时间段内的I/O操作的数量分布;分布预判模块,用于在所述时间段内的I/O操作的数量分布符合类正态分布特征时,预判该存储设备将失效。
本发明的存储设备失效预警方法及系统的有益效果为:
(1)本发明的存储设备失效预警方法及系统,由于所述方法包含以下步骤:获取存储设备完成每个I/O操作的时间;统计I/O操作的完成时间位于各个时间点的I/O操作的数量;根据I/O操作的数量及其分布,预判存储设备是否将失效。这样可以解决现有技术的对磁盘健康状态的监控只是比较滞后地指出磁盘不健康的原因,无法对磁盘的健康状态进行预警,不能避免由于磁盘故障造成的数据丢失或损坏的技术问题。
(2)本发明的存储设备失效预警方法及系统,选取I/O操作的数量分布符合类正态分布特征的连续时间段,统计所述时间段内的I/O操作的数量占所有I/O操作的数量的比值;所述比值大于预设阈值时,预判该存储设备将失效。通过以上步骤实现“根据I/O操作的数量及其分布,预判存储设备是否将失效”,易于实现,效率高。
(3)本发明的存储设备失效预警方法及系统,选取对应各个时间点的I/O操作的数量大于第一预设阈值的连续时间段,当该时间段内的I/O操作的数量占所有I/O操作的数量的比值达到第二预设阈值时,分析该时间段内的I/O操作的数量分布;所述时间段内的I/O操作的数量分布符合类正态分布特征时,预判该存储设备将失效。通过以上步骤实现“根据I/O操作的数量及其分布,预判存储设备是否将失效”,比较易于实现,效率较高。
(4)本发明的存储设备失效预警方法及系统,设置若干时间区段,统计I/O操作的完成时间位于各个时间区段的I/O操作的数量。进而统计I/O操作的完成时间位于各个时间段的I/O操作的数量;根据I/O操作的数量及其分布,预判存储设备是否将失效。这样可以提高效率,达到较好地实施本发明的存储设备失效预警方法的效果。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明实施例1的一种存储设备失效预警方法示意图。
图2是本发明的I/O操作的数量分布符合类正态分布特征的示意图。
图3是本发明实施例2的一种存储设备失效预警方法示意图。
具体实施方式
实施例1:
本实施例的一种存储设备失效预警方法,所述存储设备可以是磁盘阵列,也可以是磁盘,或者硬盘,或者是硬盘录像机中的硬盘。如图1所示,包含以下步骤:
S11:获取存储设备完成每个I/O操作的时间。I/O操作,即输入(input)/输出(output)操作,分为写I/O操作和读I/O操作。一般地,输入(input)操作即是对磁盘的写I/O操作,输出(output)操作即是对磁盘的读I/O操作。
所述完成每个I/O操作的时间为:从操作系统向所述存储设备发出开始写或者读I/O操作请求,到操作系统被返回结束写或者读I/O操作请求的时间。
为获取存储设备完成每个I/O操作的时间而采用的技术手段是本技术领域的公知常识,例如,可以通过定制操作系统(例如Kernel操作系统内核)监测I/O操作时间的相关程序,实施对存储设备完成每个I/O操作的时间的获取。
S12:统计I/O操作的完成时间位于各个时间点的I/O操作的数量。每个I/O操作的完成时间都有一个相应的时间点与其对应,统计各个所述时间点的I/O操作的数量。
S13:选取I/O操作的数量分布符合类正态分布特征的连续时间段,统计所述时间段内的I/O操作的数量占所有I/O操作的数量的比值。
图2给出了I/O操作的数量分布符合类正态分布特征的示意图,横坐标表示时间点,纵坐标表示各个时间点的I/O操作的数量。在时间点a与时间点b之间的连续时间区段,I/O操作的数量分布符合类正态分布特征。I/O操作的数量分布符合类正态分布特征是指I/O操作的数量呈现中间高、两侧逐渐降低的趋势。
在选取I/O操作的数量分布符合类正态分布特征的连续时间段时,统计出现I/O操作的数量最多的时间点,分析其左右两侧时间点的I/O操作的数量是否关于所述I/O操作的数量最多的时间点对称地逐渐降低,如果是,则可知所述I/O操作的数量最多的时间点及其左右两侧时间点组成的连续时间段内,I/O操作的数量分布符合类正态分布特征。
统计所述时间段内的I/O操作的数量,并计算所述时间段内的I/O操作的数量与所有I/O操作的数量的比值。
S14:所述比值大于预设阈值时,预判该存储设备将失效。
另外,作为一种优选实施方式,还可以设置若干时间区段,例如以10ms为间隔在0ms-1000ms之间设置100个时间区段,统计I/O操作的完成时间位于各个时间区段的I/O操作的数量。每个I/O操作的完成时间都有一个相应的时间区段与其对应,统计各个所述时间区段的I/O操作的数量。选取I/O操作的数量分布符合类正态分布特征的连续时间区段,统计所述连续时间区段内的I/O操作的数量占所有I/O操作的数量的比值。所述比值大于预设阈值时,则预判该存储设备将失效。
实施例2:
本实施例的一种存储设备失效预警方法,所述存储设备可以是磁盘阵列,也可以是磁盘,或者硬盘,或者是硬盘录像机中的硬盘。如图3所示,包含以下步骤:
S21:获取存储设备完成每个I/O操作的时间。I/O操作,即输入(input)/输出(output)操作,分为写I/O操作和读I/O操作。一般地,输入(input)操作即是对磁盘的写I/O操作,输出(output)操作即是对磁盘的读I/O操作。
所述完成每个I/O操作的时间为:从操作系统向所述存储设备发出开始写或者读I/O操作请求,到操作系统被返回结束写或者读I/O操作请求的时间。
为获取存储设备完成每个I/O操作的时间而采用的技术手段是本技术领域的公知常识,例如,可以通过定制操作系统(例如Kernel操作系统内核)监测I/O操作时间的相关程序,实施对存储设备完成每个I/O操作的时间的获取。
S22:统计I/O操作的完成时间位于各个时间点的I/O操作的数量。每个I/O操作的完成时间都有一个相应的时间点与其对应,统计各个所述时间点的I/O操作的数量。
S23:选取对应各个时间点的I/O操作的数量大于第一预设阈值的连续时间段,当该时间段内的I/O操作的数量占所有I/O操作的数量的比值达到第二预设阈值时,分析该时间段内的I/O操作的数量分布。
在选取对应各个时间点的I/O操作的数量大于第一预设阈值的连续时间段时,统计出现I/O操作的数量大于第一预设阈值的时间点,判断出现I/O操作的数量大于第一预设阈值的时间点是否形成连续时间段。统计该时间段内的I/O操作的数量,并计算该时间段内的I/O操作的数量占所有I/O操作的数量的比值,判断该比值是否达到第二预设阈值。当该比值达到第二预设阈值时,分析该时间段内的I/O操作的数量分布。
在分析该时间段内的I/O操作的数量分布时,统计该时间段内出现I/O操作的数量最多的时间点,分析其左右两侧时间点的I/O操作的数量是否关于所述I/O操作的数量最多的时间点对称地逐渐降低,如果是,则可知所述I/O操作的数量最多的时间点及其左右两侧时间点组成的连续时间段内,I/O操作的数量分布符合类正态分布特征。如果不是,则可知所述I/O操作的数量最多的时间点及其左右两侧时间点组成的连续时间段内,I/O操作的数量分布不符合类正态分布特征。
图2给出了I/O操作的数量分布符合类正态分布特征的示意图,横坐标表示时间点,纵坐标表示各个时间点的I/O操作的数量。在时间点a与时间点b之间的连续时间区段,I/O操作的数量分布符合类正态分布特征。I/O操作的数量分布符合类正态分布特征是指I/O操作的数量呈现中间高、两侧逐渐降低的趋势。
S24:所述时间段内的I/O操作的数量分布符合类正态分布特征时,预判该存储设备将失效。
另外,作为一种优选实施方式,还可以设置若干时间区段,例如以10ms为间隔在0ms-1000ms之间设置100个时间区段,统计I/O操作的完成时间位于各个时间区段的I/O操作的数量。每个I/O操作的完成时间都有一个相应的时间区段与其对应,统计各个所述时间区段的I/O操作的数量。
选取对应各个时间区段的I/O操作的数量大于第一预设阈值的连续时间区段,当该连续时间区段内的I/O操作的数量占所有I/O操作的数量的比值达到第二预设阈值时,分析该连续时间区段内的I/O操作的数量分布。该连续时间区段内的I/O操作的数量分布符合类正态分布特征时,预判该存储设备将失效。
实施例3:
本实施例的一种存储设备失效预判系统,所述存储设备可以是磁盘阵列,也可以是磁盘,或者硬盘,或者是硬盘录像机中的硬盘。包含I/O操作时间模块、I/O操作数量模块、比值统计模块和阈值预判模块。
所述I/O操作时间模块用于获取存储设备完成每个I/O操作的时间。I/O操作,即输入(input)/输出(output)操作,分为写I/O操作和读I/O操作。一般地,输入(input)操作即是对磁盘的写I/O操作,输出(output)操作即是对磁盘的读I/O操作。
所述完成每个I/O操作的时间为:从操作系统向所述存储设备发出开始写或者读I/O操作请求,到操作系统被返回结束写或者读I/O操作请求的时间。
为获取存储设备完成每个I/O操作的时间而采用的技术手段是本技术领域的公知常识,例如,可以通过定制操作系统(例如Kernel操作系统内核)监测I/O操作时间的相关程序,实施对存储设备完成每个I/O操作的时间的获取。
所述I/O操作数量模块用于统计I/O操作的完成时间位于各个时间点的I/O操作的数量。每个I/O操作的完成时间都有一个相应的时间点与其对应,统计各个所述时间点的I/O操作的数量。
所述比值统计模块用于选取I/O操作的数量分布符合类正态分布特征的连续时间段,统计所述时间段内的I/O操作的数量占所有I/O操作的数量的比值。
图2给出了I/O操作的数量分布符合类正态分布特征的示意图,横坐标表示时间点,纵坐标表示各个时间点的I/O操作的数量。在时间点a与时间点b之间的连续时间区段,I/O操作的数量分布符合类正态分布特征。I/O操作的数量分布符合类正态分布特征是指I/O操作的数量呈现中间高、两侧逐渐降低的趋势。
在选取I/O操作的数量分布符合类正态分布特征的连续时间段时,统计出现I/O操作的数量最多的时间点,分析其左右两侧时间点的I/O操作的数量是否关于所述I/O操作的数量最多的时间点对称地逐渐降低,如果是,则可知所述I/O操作的数量最多的时间点及其左右两侧时间点组成的连续时间段内,I/O操作的数量分布符合类正态分布特征。
统计所述时间段内的I/O操作的数量,并计算所述时间段内的I/O操作的数量与所有I/O操作的数量的比值。
所述阈值预判模块用于在所述比值大于预设阈值时,预判该存储设备将失效。
另外,作为一种优选实施方式,还可以设置若干时间区段,例如以10ms为间隔在0ms-1000ms之间设置100个时间区段,统计I/O操作的完成时间位于各个时间区段的I/O操作的数量。每个I/O操作的完成时间都有一个相应的时间区段与其对应,统计各个所述时间区段的I/O操作的数量。选取I/O操作的数量分布符合类正态分布特征的连续时间区段,统计所述连续时间区段内的I/O操作的数量占所有I/O操作的数量的比值。所述比值大于预设阈值时,则预判该存储设备将失效。
实施例4:
本实施例的一种存储设备失效预判系统,所述存储设备可以是磁盘阵列,也可以是磁盘,或者硬盘,或者是硬盘录像机中的硬盘。包含I/O操作时间模块、I/O操作数量模块、数量分布分析模块和分布预判模块。
所述I/O操作时间模块用于获取存储设备完成每个I/O操作的时间。I/O操作,即输入(input)/输出(output)操作,分为写I/O操作和读I/O操作。一般地,输入(input)操作即是对磁盘的写I/O操作,输出(output)操作即是对磁盘的读I/O操作。
所述完成每个I/O操作的时间为:从操作系统向所述存储设备发出开始写或者读I/O操作请求,到操作系统被返回结束写或者读I/O操作请求的时间。
为获取存储设备完成每个I/O操作的时间而采用的技术手段是本技术领域的公知常识,例如,可以通过定制操作系统(例如Kernel操作系统内核)监测I/O操作时间的相关程序,实施对存储设备完成每个I/O操作的时间的获取。
所述I/O操作数量模块用于统计I/O操作的完成时间位于各个时间点的I/O操作的数量。每个I/O操作的完成时间都有一个相应的时间点与其对应,统计各个所述时间点的I/O操作的数量。
所述数量分布分析模块用于选取对应各个时间点的I/O操作的数量大于第一预设阈值的连续时间段,当该时间段内的I/O操作的数量占所有I/O操作的数量的比值达到第二预设阈值时,分析该时间段内的I/O操作的数量分布。
在选取对应各个时间点的I/O操作的数量大于第一预设阈值的连续时间段时,统计出现I/O操作的数量大于第一预设阈值的时间点,判断出现I/O操作的数量大于第一预设阈值的时间点是否形成连续时间段。统计该时间段内的I/O操作的数量,并计算该时间段内的I/O操作的数量占所有I/O操作的数量的比值,判断该比值是否达到第二预设阈值。当该比值达到第二预设阈值时,分析该时间段内的I/O操作的数量分布。
在分析该时间段内的I/O操作的数量分布时,统计该时间段内出现I/O操作的数量最多的时间点,分析其左右两侧时间点的I/O操作的数量是否关于所述I/O操作的数量最多的时间点对称地逐渐降低,如果是,则可知所述I/O操作的数量最多的时间点及其左右两侧时间点组成的连续时间段内,I/O操作的数量分布符合类正态分布特征。如果不是,则可知所述I/O操作的数量最多的时间点及其左右两侧时间点组成的连续时间段内,I/O操作的数量分布不符合类正态分布特征。
图2给出了I/O操作的数量分布符合类正态分布特征的示意图,横坐标表示时间点,纵坐标表示各个时间点的I/O操作的数量。在时间点a与时间点b之间的连续时间区段,I/O操作的数量分布符合类正态分布特征。I/O操作的数量分布符合类正态分布特征是指I/O操作的数量呈现中间高、两侧逐渐降低的趋势。
所述分布预判模块用于在所述时间段内的I/O操作的数量分布符合类正态分布特征时,预判该存储设备将失效。
另外,作为一种优选实施方式,还可以设置若干时间区段,例如以10ms为间隔在0ms-1000ms之间设置100个时间区段,统计I/O操作的完成时间位于各个时间区段的I/O操作的数量。每个I/O操作的完成时间都有一个相应的时间区段与其对应,统计各个所述时间区段的I/O操作的数量。
选取对应各个时间区段的I/O操作的数量大于第一预设阈值的连续时间区段,当该连续时间区段内的I/O操作的数量占所有I/O操作的数量的比值达到第二预设阈值时,分析该连续时间区段内的I/O操作的数量分布。该连续时间区段内的I/O操作的数量分布符合类正态分布特征时,预判该存储设备将失效。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种存储设备失效预警方法,其特征在于,包含以下步骤:
获取存储设备完成每个I/O操作的时间;
统计I/O操作的完成时间位于各个时间点的I/O操作的数量;
根据I/O操作的数量及其分布,预判存储设备是否将失效。
2.根据权利要求1所述的存储设备失效预警方法,其特征在于,所述“根据I/O操作的数量及其分布,预判存储设备是否将失效”包括以下步骤:
选取I/O操作的数量分布符合类正态分布特征的连续时间段,统计所述时间段内的I/O操作的数量占所有I/O操作的数量的比值;
所述比值大于预设阈值时,预判该存储设备将失效。
3.根据权利要求1所述的存储设备失效预警方法,其特征在于,所述“根据I/O操作的数量及其分布,预判存储设备是否将失效”包括以下步骤:
选取对应各个时间点的I/O操作的数量大于第一预设阈值的连续时间段,当该时间段内的I/O操作的数量占所有I/O操作的数量的比值达到第二预设阈值时,分析该时间段内的I/O操作的数量分布;
所述时间段内的I/O操作的数量分布符合类正态分布特征时,预判该存储设备将失效。
4.根据权利要求1或2或3所述的存储设备失效预警方法,其特征在于,所述“I/O操作的数量分布符合类正态分布特征”为I/O操作的数量呈现中间高、两侧逐渐降低的趋势。
5.根据权利要求1所述的存储设备失效预警方法,其特征在于,所述完成每个I/O操作的时间为:从操作系统向所述存储设备发出开始写或者读I/O操作请求,到操作系统被返回结束写或者读I/O操作请求的时间。
6.根据权利要求1所述的存储设备失效预警方法,其特征在于,还可以设置若干时间区段,统计I/O操作的完成时间位于各个时间区段的I/O操作的数量。
7.根据权利要求6所述的存储设备失效预警方法,其特征在于,所述时间区段为以10ms为间隔在0ms-1000ms之间设置100个时间区段。
8.一种存储设备失效预判系统,其特征在于,包含:
I/O操作时间模块,用于获取存储设备完成每个I/O操作的时间;
I/O操作数量模块,用于统计I/O操作的完成时间位于各个时间点的I/O操作的数量;
预判模块,用于根据I/O操作的数量及其分布,预判存储设备是否将失效。
9.根据权利要求8所述的存储设备失效预判系统,其特征在于,所述预判模块包括:
比值统计模块,用于选取I/O操作的数量分布符合类正态分布特征的连续时间段,统计所述时间段内的I/O操作的数量占所有I/O操作的数量的比值;
阈值预判模块,用于在所述比值大于预设阈值时,预判该存储设备将失效。
10.根据权利要求8所述的存储设备失效预判系统,其特征在于,所述预判模块包括:
数量分布分析模块,用于选取对应各个时间点的I/O操作的数量大于第一预设阈值的连续时间段,当该时间段内的I/O操作的数量占所有I/O操作的数量的比值达到第二预设阈值时,分析该时间段内的I/O操作的数量分布;
分布预判模块,用于在所述时间段内的I/O操作的数量分布符合类正态分布特征时,预判该存储设备将失效。
CN201410307771.5A 2014-06-30 2014-06-30 存储设备失效预警方法及系统 Active CN104050071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410307771.5A CN104050071B (zh) 2014-06-30 2014-06-30 存储设备失效预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410307771.5A CN104050071B (zh) 2014-06-30 2014-06-30 存储设备失效预警方法及系统

Publications (2)

Publication Number Publication Date
CN104050071A true CN104050071A (zh) 2014-09-17
CN104050071B CN104050071B (zh) 2017-02-08

Family

ID=51502960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410307771.5A Active CN104050071B (zh) 2014-06-30 2014-06-30 存储设备失效预警方法及系统

Country Status (1)

Country Link
CN (1) CN104050071B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536868A (zh) * 2014-11-26 2015-04-22 北京广通信达科技有限公司 一种it系统运行指标动态阈值分析方法
WO2021052168A1 (zh) * 2019-09-19 2021-03-25 中兴通讯股份有限公司 磁盘故障预测方法、装置、计算机可读存储介质及服务器
WO2022057374A1 (zh) * 2020-09-18 2022-03-24 苏州浪潮智能科技有限公司 一种提高Raid数据备份效率的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7496796B2 (en) * 2006-01-23 2009-02-24 International Business Machines Corporation Apparatus, system, and method for predicting storage device failure
US8812770B2 (en) * 2009-07-13 2014-08-19 Microsoft Corporation Health reporting from non-volatile block storage device to processing device
CN102129397A (zh) * 2010-12-29 2011-07-20 深圳市永达电子股份有限公司 一种自适应磁盘阵列故障预测方法及系统
CN102945214B (zh) * 2012-10-19 2016-02-10 北京忆恒创源科技有限公司 基于io延迟时间分布优化中断处理任务的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536868A (zh) * 2014-11-26 2015-04-22 北京广通信达科技有限公司 一种it系统运行指标动态阈值分析方法
WO2021052168A1 (zh) * 2019-09-19 2021-03-25 中兴通讯股份有限公司 磁盘故障预测方法、装置、计算机可读存储介质及服务器
WO2022057374A1 (zh) * 2020-09-18 2022-03-24 苏州浪潮智能科技有限公司 一种提高Raid数据备份效率的方法及装置

Also Published As

Publication number Publication date
CN104050071B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN107179957B (zh) 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN102591591B (zh) 磁盘检测系统、磁盘检测方法以及网络存储系统
CN100504795C (zh) 一种计算机raid阵列预警系统及方法
CN105224888A (zh) 一种基于安全预警技术的磁盘阵列数据保护系统
CN106817243A (zh) 服务器资源的管理系统及其管理方法
CN105589795A (zh) 基于预测模型的磁盘故障预测方法及装置
CN103207820B (zh) 基于raid卡日志的硬盘的故障定位方法及装置
EP3167373A1 (en) Interface for orchestration and analysis of a computer environment
US20070101188A1 (en) Method for establishing stable storage mechanism
CN105786571A (zh) 一种移动终端的控制方法及移动终端
CN105912086A (zh) 电源模块故障诊断方法、电源模块及整机柜服务器
CN103870367A (zh) Sas扩展卡自动切换系统及方法
CN104462612A (zh) 一种监控数据库信息的方法和设备
CN104050071A (zh) 存储设备失效预警方法及系统
CN113903389A (zh) 一种慢盘检测方法、装置及计算机可读写存储介质
US10466924B1 (en) Systems and methods for generating memory images of computing devices
CN102510390A (zh) 利用硬盘温度自检测指导数据迁移的方法和装置
CN105119765B (zh) 一种智能处理故障体系架构
CN106899436A (zh) 一种云平台故障预测诊断系统
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
CN103235746B (zh) 服务器一体机自动恢复方法
CN103197981B (zh) 存储空间预警方法和系统
US9952773B2 (en) Determining a cause for low disk space with respect to a logical disk
CN104866385A (zh) 移动终端及其存储卡热插拔方法
US20230025081A1 (en) Model training method, failure determining method, electronic device, and program product

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant