CN110083470B - 磁盘分析方法、装置及计算机可读存储介质 - Google Patents

磁盘分析方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110083470B
CN110083470B CN201810081290.5A CN201810081290A CN110083470B CN 110083470 B CN110083470 B CN 110083470B CN 201810081290 A CN201810081290 A CN 201810081290A CN 110083470 B CN110083470 B CN 110083470B
Authority
CN
China
Prior art keywords
disk
value
read
write
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810081290.5A
Other languages
English (en)
Other versions
CN110083470A (zh
Inventor
熊小兰
丁强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Uniview Technologies Co Ltd
Original Assignee
Zhejiang Uniview Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Uniview Technologies Co Ltd filed Critical Zhejiang Uniview Technologies Co Ltd
Priority to CN201810081290.5A priority Critical patent/CN110083470B/zh
Publication of CN110083470A publication Critical patent/CN110083470A/zh
Application granted granted Critical
Publication of CN110083470B publication Critical patent/CN110083470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例提供一种磁盘分析方法、装置及计算机可读存储介质,涉及磁盘技术领域。所述磁盘分析方法包括:获得磁盘的多项异常分析信息;根据所述多项异常分析信息计算得到所述磁盘的修复指数;判断所述修复指数所属阈值区间,基于所述修复指数所属阈值区间分析得到所述磁盘运行情况和对应的处理操作。使用该磁盘分析方法、装置及计算机可读存储介质,能够对磁盘的运行情况进行综合分析并根据不同的分析结果执行对应的操作。

Description

磁盘分析方法、装置及计算机可读存储介质
技术领域
本发明涉及磁盘技术领域,具体而言,涉及一种磁盘分析方法、装置及计算机可读存储介质。
背景技术
磁盘正常运行是确保数据存储可靠性的重要条件,因而,对磁盘运行情况进行分析十分重要,经发明人研究发现,目前的磁盘运行情况分析手段较为单一,适用性有待提高。
发明内容
有鉴于此,本发明实施例的目的在于提供一种磁盘分析方法、装置及计算机可读存储介质。
第一方面,本发明实施例提供了一种磁盘分析方法,包括:
获得磁盘的多项异常分析信息;
根据所述多项异常分析信息计算得到所述磁盘的修复指数;
判断所述修复指数所属阈值区间,基于所述修复指数所属阈值区间分析得到所述磁盘运行情况和对应的处理操作。
可选地,所述磁盘的多项异常分析信息包括SMART指数、读写健康指数和读写错误指数,所述修复指数根据所述SMART指数、读写健康指数和读写错误指数计算得到。
可选地,获得所述SMART指数的步骤包括:
将所述磁盘的SMART相关信息对应的值与预设的故障参考阈值和故障确认阈值进行比对;
若所述SMART相关信息中存在对应的值大于所述故障确认阈值的信息,将所述SMART指数设定为第一数值;
若所述SMART相关信息中存在大于所述故障参考阈值并小于所述故障确认阈值的信息,且所述SMART相关信息中不存在对应的值大于所述故障确认阈值的信息,将所述SMART指数设定为第二数值;
若所述SMART相关信息中的各信息对应的值均小于所述故障参考阈值,将所述SMART指数设定为第三数值;
其中,所述第一数值大于所述第二数值,所述第二数值大于所述第三数值。
可选地,所述SMART相关信息包括磁盘读错误信息、磁盘重分配扇区信息和磁盘挂起扇区信息,所述SMART相关信息对应的值包括磁盘读错误率、磁盘重分配扇区比例和磁盘挂起扇区比例。
可选地,所述读写健康指数通过以下步骤获得:
获得所述磁盘读写超时的信息和读写超时次数;
根据以下公式计算得到所述读写健康指数,读写健康指数=t+n,其中,t用于标识是否出现读写超时,若出现读写超时,所述t的值为第四数值;n为读写超时次数;
在所述t的值为第四数值时,持续获得所述磁盘读写超时的信息,若再次得到所述磁盘读写超时的信息,将所述t的值保持为所述第四数值,并将n的值加1,若在预设时长内未得到所述磁盘读写超时的信息,将所述t的值修改为第五数值。
可选地,所述读写错误指数通过以下步骤获得:
检测所述磁盘的读写错误个数;
根据以下公式计算得到所述读写错误指数,读写错误指数=e+m,其中,e用于标识读写错误个数是否达到设定阈值,若达到所述设定阈值,所述e的值为第六数值,若未达到所述设定阈值,所述e的值为第七数值;m为所述读写错误个数达到所述设定阈值的次数;
在所述e的值为所述第六数值时,对读写错误进行修复,判断修复后的读写错误个数是否达到所述设定阈值,若达到所述设定阈值,将所述e的值保持为所述第六数值,并将m的值加1,若未达到所述设定阈值,将所述e的值修改为第七数值。
可选地,所述修复指数根据以下公式计算得到:
R=a*(SMART指数)+b*(读写健康指数)+c*(读写错误指数),其中a、b和c为常数。
可选地,所述判断所述修复指数所属阈值区间,基于所述修复指数所属阈值区间分析得到所述磁盘运行情况和对应的处理操作的步骤,包括:
在R=a*(第一数值)时,判定所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作;
在b*N>R>=b*(第四数值)时,将所述磁盘下电,将t的值重置为所述第五数值,在预设时间后将所述磁盘重新上电,重新获得所述磁盘读写超时的信息和读写超时次数,根据重新获得的所述磁盘读写超时的信息和读写超时次数计算得到所述读写健康指数,其中,N为设定的最大读写超时次数,N大于所述第四数值;
在R>=b*N时,判定所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作;
在c*M>R>=c*(第六数值)时,执行对所述磁盘进行读写错误修复的操作,其中,M为设定的所述读写错误个数达到所述设定阈值的最大次数,M大于第六数值;
在R>=c*M时,判定所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作;
在R=a*(第二数值)+c*(第六数值)时,判定所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作。
第二方面,本发明实施例提供了一种磁盘分析装置,包括:
信息获得模块,用于获得磁盘的多项异常分析信息;
信息计算模块,用于根据所述多项异常分析信息计算得到所述磁盘的修复指数;
信息分析模块,用于判断所述修复指数所属阈值区间,基于所述修复指数所属阈值区间分析得到所述磁盘运行情况和对应的处理操作。
第三方面,本发明实施例提供了一种电子设备,包括:
存储器;
处理器;以及
磁盘分析装置,所述磁盘分析装置包括:
信息获得模块,用于获得磁盘的多项异常分析信息;
信息计算模块,用于根据所述多项异常分析信息计算得到所述磁盘的修复指数;
信息分析模块,用于判断所述修复指数所属阈值区间,基于所述修复指数所属阈值区间分析得到所述磁盘运行情况和对应的处理操作。
第四方面,本发明实施例提供了一种计算机可读存储介质,包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在电子设备执行上述的磁盘分析方法。
本发明实施例提供的磁盘分析方法、装置及计算机可读存储介质,根据多项异常分析信息计算得到磁盘的修复指数,基于修复指数对磁盘的运行情况和对应的处理操作进行统一分析,从而能够针对磁盘的各异常情况进行灵活地分析处理,实现便捷,适用性较高,适合大规模推广应用。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明较佳实施例提供的一种电子设备10的方框示意图。
图2为本发明较佳实施例提供的一种磁盘分析方法的流程图。
图3为一实施方式中图1所示步骤S11包括的子步骤的示意图。
图4为本发明较佳实施例提供的一种磁盘分析装置20的模块框图。
图标:10-电子设备;11-存储器;12-处理器;13-网络模块;20-磁盘分析装置;21-信息获得模块;22-信息计算模块;23-信息分析模块。
具体实施方式
发明人在实现本发明实施例提供的技术方案过程中,发现磁盘发生异常的原因多种多样,现有技术中大都只是针对特定的故障进行单独的处理,对于故障磁盘通常的处理方式是直接踢除磁盘,又或者通过增加维护人力,由专人定时检查系统中的磁盘运行情况并进行维护,磁盘故障的诊断手段单一,针对故障磁盘的处理手段单一。这种单一的磁盘故障诊断方式和故障磁盘处理方式在很多场景下无法满足实际需求。
例如,在视频监控等领域,会大量反复且不间断的进行磁盘读写,从而在一定程度上增加了磁盘故障率的发生,同时由于业务需求又要求磁盘能提供可靠且及时的访问,一方面希望能通过全面的诊断手段提前预知故障磁盘,避免磁盘的故障影响了业务,另外一方面如果进行过于严格的磁盘诊断将导致磁盘故障率大幅提升,又可能需要人为的再次判断及干预,增加了维护成本,因而一套智能有效的磁盘故障诊断及修复方案有着重大的意义。
通过对磁盘运行过程的长期观察,发明人发现磁盘的故障表现形式多样,通常一个故障磁盘最终可能表现的异常为命令响应超时、大量的读写错误等,而不同程度的磁盘故障有可能是多种异常表现的综合。基于上述研究,本发明实施例提供了一种磁盘分析方案,针对磁盘各种异常的检测及处理,提供修复指数,通过修复指数反映对磁盘多种异常的综合评估,根据修复指数的不同值,采用不同的磁盘修复操作,对存储系统中所有阵列中的磁盘以修复指数进行检测,如果磁盘的修复指数位于相应的阈值区间,则得出磁盘对应的运行情况,并对磁盘进行相应的修复操作。
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
如图1所示,是本发明较佳实施例提供的电子设备10的方框示意图。本发明实施例中的电子设备10可以为具有信息获取和数据处理功能的服务器。如图1所示,电子设备10包括:存储器11、处理器12、网络模块13及磁盘分析装置20。
所述存储器11、处理器12以及网络模块13相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器11中存储有磁盘分析装置20,所述磁盘分析装置20包括至少一个可以软件或固件(firmware)的形式存储于所述存储器11中的软件功能模块,所述处理器12通过运行存储在存储器11内的软件程序以及模块,如本发明实施例中的磁盘分析装置20,从而执行各种功能应用以及数据处理,即实现本发明实施例中的磁盘分析方法。
其中,所述存储器11可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器11用于存储程序,所述处理器12在接收到执行指令后,执行所述程序。
所述处理器12可能是一种集成电路芯片,具有数据的处理能力。上述的处理器12可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
网络模块13用于通过网络建立电子设备10与外部通信终端之间的通信连接,实现网络信号及数据的收发操作。上述网络信号可包括无线信号或者有线信号。
可以理解,图1所示的结构仅为示意,电子设备10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
本发明实施例还提供一种计算机可读存储介质,包括计算机程序。所述计算机程序运行时控制所述可读存储介质所在电子设备10执行下面的磁盘分析方法。
请参阅图2,是本发明较佳实施例提供的一种磁盘分析方法的流程图。下面将对图2所示的具体流程进行详细阐述。
步骤S11,获得磁盘的多项异常分析信息。
其中,磁盘的多项异常分析信息可以包括SMART(Self Monitoring Analysis andReporting Technology,自动检测分析及报告技术)指数、读写健康指数、读写错误指数等。
获得磁盘各项异常分析信息的方式可以灵活选择,例如,磁盘的各项异常分析信息可以由监测设备监测得到,电子设备10直接从监测设备获得磁盘各项异常分析信息。又例如,磁盘的各项异常分析信息可以由电子设备10监测得到。
根据磁盘在长期应用中的表现来看,单一的通过预设安全值进行磁盘是否失效的判断往往过于粗暴,例如,有可能磁盘尚未达到安全值,但该磁盘已经不可用。又例如,已经达到安全值的磁盘尚能正常使用等。因而为了更好的反应磁盘的运行情况,本发明实施例中针对SMART相关信息,如磁盘读错误率、磁盘重分配扇区比例、磁盘挂起扇区比例等设置两个阈值,其中一个阈值为故障确认阈值,表示该磁盘已经处于故障运行状态,另一个阈值为故障参考阈值,当达到故障参考阈值时需要同时检测其它异常指数。
请结合参阅图3,在磁盘的异常分析信息包括SMART指数时,SMART指数可以通过步骤S111和步骤S112获得。
步骤S111,将磁盘的SMART相关信息对应的值与预设的故障参考阈值和故障确认阈值进行比对。
步骤S112,根据比对结果对SMART指数进行设定。
其中,可以通过以下方式对SMART指数进行设定:若所述SMART相关信息中存在对应的值大于所述故障确认阈值的信息,将所述SMART指数设定为第一数值。若所述SMART相关信息中存在大于所述故障参考阈值并小于所述故障确认阈值的信息,且所述SMART相关信息中不存在对应的值大于所述故障确认阈值的信息,将所述SMART指数设定为第二数值。若所述SMART相关信息中的各信息对应的值均小于所述故障参考阈值,将所述SMART指数设定为第三数值。其中,所述第一数值大于所述第二数值,所述第二数值大于所述第三数值。
第一数值、第二数值、第三数值可以灵活赋值,例如,第一数值可以为1、第二数值可以为0.5、第三数值可以为0。又例如,第一数值可以为2、第二数值可以为1、第三数值可以为0等。应当理解,第一数值、第二数值、第三数值的赋值包括但不限于此,只要能够反应出磁盘的SMART相关信息中是否存在异常情况,以及异常程度即可。
SMART相关信息可以包括磁盘读错误信息、磁盘重分配扇区信息、磁盘挂起扇区信息等,相应地,SMART相关信息对应的值包括磁盘读错误率、磁盘重分配扇区比例、磁盘挂起扇区比例等。本实施例中,若任意一个SMART相关信息对应的值大于故障确认阈值,则将SMART指数设定为第一数值。在所有SMART相关信息对应的值均小于故障确认阈值的情况下,若任意一个SMART相关信息对应的值大于故障参考阈值,则将SMART指数设定为第二数值。若所有SMART相关信息对应的值均小于故障参考阈值,将SMART指数设定为第三数值。
读写健康指数为用于监测磁盘命令响应超时的指数,在磁盘的异常分析信息包括读写健康指数时,读写健康指数可以通过以下步骤获得:获得所述磁盘读写超时的信息和读写超时次数。根据以下公式计算得到所述读写健康指数,读写健康指数=t+n,其中,t用于标识是否出现读写超时,若出现读写超时,所述t的值为第四数值,n为读写超时次数。在所述t的值为第四数值时,持续获得所述磁盘读写超时的信息,若再次得到所述磁盘读写超时的信息,将所述t的值保持为所述第四数值,并将n的值加1,若在预设时长内未得到所述磁盘读写超时的信息,将所述t的值修改为第五数值。可选地,n的最大值设定为N,若读写超时次数n达到N,则直接认定磁盘已经发生故障。
第四数值、第五数值、N的值可以灵活赋值,例如,第四数值可以为1、第五数值可以为0。又例如,第四数值可以为2、第五数值可以为1等。应当理解,第四数值和第五数值的赋值包括但不限于此,只要能够反应出磁盘的读写健康情况即可。N的值可以根据不同磁盘和用户对于磁盘读写超时允许程度进行灵活调整。
其中,可以通过小型计算机系统接口(Small Computer Systems Interface,SCSI)中间层监测磁盘读写超时情况,例如,中间层监测到磁盘响应超时,将t置为1,通过一定时间内的连续监测,如果再次出现超时,则将n加1,如果超出一定时间后未再次出现超时,则将t值置为0。
读写错误指数用于检测磁盘的读写错误情况,在磁盘的异常分析信息包括读写错误指数时,读写错误指数可以通过以下步骤获得:检测所述磁盘的读写错误个数。根据以下公式计算得到所述读写错误指数,读写错误指数=e+m,其中,e用于标识读写错误个数是否达到设定阈值,若达到所述设定阈值,所述e的值为第六数值,若未达到所述设定阈值,所述e的值为第七数值;m为所述读写错误个数达到所述设定阈值的次数。在所述e的值为所述第六数值时,对读写错误进行修复,判断修复后的读写错误个数是否达到所述设定阈值,若达到所述设定阈值,将所述e的值保持为所述第六数值,并将m的值加1,若未达到所述设定阈值,将所述e的值修改为第七数值。可选地,m的最大值设定为M,若读写错误个数达到设定阈值的次数m达到M,则直接认定磁盘已经发生故障。
其中,如果磁盘出现读错误,根据阵列条带的冗余性,可以通过校验算法读取其它磁盘后对读错误进行写修复。
第六数值、第七数值可以灵活赋值,例如,六数值可以为1、第七数值可以为0。又例如,第六数值可以为3、第七数值可以为2等。应当理解,第六数值和第七数值的赋值包括但不限于此,只要能够反应出磁盘的读写错误情况即可。
步骤S12,根据所述多项异常分析信息计算得到所述磁盘的修复指数。
修复指数根据多项异常分析信息综合计算得到,在多项异常分析信息包括SMART指数、读写健康指数和读写错误指数的情况下,修复指数根据以下公式计算得到:
R=a*(SMART指数)+b*(读写健康指数)+c*(读写错误指数),其中a、b和c为常数。
步骤S13,判断所述修复指数所属阈值区间,基于所述修复指数所属阈值区间分析得到所述磁盘运行情况和对应的处理操作。
修复指数属于不同阈值区间时分别对应的磁盘运行情况和处理操作可以灵活设定,例如,可以通过大数据收集或者试验结果预先将修复指数属于不同阈值区间时分别对应的磁盘运行情况和处理操作当作比对参考进行存储,将步骤S12计算得到的磁盘的修复指数与比对参考进行匹配,即可得到磁盘的运行情况和处理操作。
如果多项异常分析信息包括SMART指数、读写健康指数和读写错误指数,修复指数根据以下公式计算得到:R=a*(SMART指数)+b*(读写健康指数)+c*(读写错误指数),其中a、b和c为常数。那么,可以通过以下方式判断所述修复指数所属阈值区间,基于所述修复指数所属阈值区间分析得到所述磁盘运行情况和对应的处理操作。
在R=a*(第一数值)时,判定所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作。通过请求获得的新的磁盘顶替发生故障的磁盘。
在b*N>R>=b*(第四数值)时,将所述磁盘下电,将t的值重置为所述第五数值,在预设时间后将所述磁盘重新上电,重新获得所述磁盘读写超时的信息和读写超时次数,根据重新获得的所述磁盘读写超时的信息和读写超时次数计算得到所述读写健康指数,其中,N为设定的最大读写超时次数,N大于所述第四数值。预设时间可以灵活设置,如10秒、20秒等。在磁盘响应超时的情况下,通过对磁盘进行下电、上电处理,可以修复部分磁盘。
在R>=b*N时,判定所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作。通过请求获得的新的磁盘顶替发生故障的磁盘。
在c*M>R>=c*(第六数值)时,执行对所述磁盘进行读写错误修复的操作,其中,M为设定的所述读写错误个数达到所述设定阈值的最大次数,M大于第六数值。例如,可以通过写0修复,将e的值置为0,通过写0进行错误修复,可以修复部分读写错误。
在R>=c*M时,判定所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作。通过请求获得的新的磁盘顶替发生故障的磁盘。
在R=a*(第二数值)+c*(第六数值)时,判定所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作。通过请求获得的新的磁盘顶替发生故障的磁盘。
本发明实施例中,a、b和c的值可以灵活设置,例如,a、b和c的值可以相同也可以不同,可以为一固定值,也可以为能够调节的非固定值,本实施例对此不作限制。
修复指数属于不同阈值区间时分别对应的处理操作还可以有其他,例如,在R=a*(第一数值)时,在R>=b*N时,在R>=c*M时,在R=a*(第二数值)+c*(第六数值)时,对应的处理操作还可包括触发告警。将判定为故障的磁盘剔除并请求新的磁盘的操作在不影响磁盘正常存储业务的情况下执行。
在上述基础上,如图4所示,本发明实施例提供了一种磁盘分析装置20,所述磁盘分析装置20包括信息获得模块21、信息计算模块22和信息分析模块23。
信息获得模块21用于获得磁盘的多项异常分析信息。
由于信息获得模块21和图2中步骤S11的实现原理类似,因而在此不作更多说明。
信息计算模块22用于根据所述多项异常分析信息计算得到所述磁盘的修复指数。
由于信息计算模块22和图2中步骤S12的实现原理类似,因而在此不作更多说明。
信息分析模块23用于判断所述修复指数所属阈值区间,基于所述修复指数所属阈值区间分析得到所述磁盘运行情况和对应的处理操作。
由于信息分析模块23和图1中步骤S13的实现原理类似,因而在此不作更多说明。
本发明实施例中的磁盘分析方法、装置及计算机可读存储介质,针对磁盘的各种异常,如磁盘的读写错误、磁盘对读写命令响应超时、磁盘重分配扇区及挂起扇区达到阈值等异常,提供修复指数统一管理磁盘的多项异常诊断,根据磁盘的修复指数,给出磁盘对应的故障标准,并结合触发告警、修复读写错误、对磁盘上下电修复链路超时、直接踢除故障磁盘等操作对不同情景的故障磁盘实施不同修复处理,从而便捷、灵活地实现磁盘故障分析和处理,实现较为方便。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的可选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种磁盘分析方法,其特征在于,包括:
获得磁盘的多项异常分析信息,所述磁盘的多项异常分析信息包括SMART指数、读写健康指数和读写错误指数;
根据所述多项异常分析信息计算得到所述磁盘的修复指数,所述修复指数根据所述SMART指数、读写健康指数和读写错误指数计算得到;
判断所述修复指数所属阈值区间,基于所述修复指数所属阈值区间分析得到所述磁盘运行情况和对应的处理操作;
其中,所述读写健康指数通过以下步骤获得:
获得所述磁盘读写超时的信息和读写超时次数;
根据以下公式计算得到所述读写健康指数,读写健康指数=t+n,其中,t用于标识是否出现读写超时,若出现读写超时,所述t的值为第四数值;n为读写超时次数;
在所述t的值为第四数值时,持续获得所述磁盘读写超时的信息,若再次得到所述磁盘读写超时的信息,将所述t的值保持为所述第四数值,并将n的值加1,若在预设时长内未得到所述磁盘读写超时的信息,将所述t的值修改为第五数值。
2.根据权利要求1所述的磁盘分析方法,其特征在于,获得所述SMART指数的步骤包括:
将所述磁盘的SMART相关信息对应的值与预设的故障参考阈值和故障确认阈值进行比对;
若所述SMART相关信息中存在对应的值大于所述故障确认阈值的信息,将所述SMART指数设定为第一数值;
若所述SMART相关信息中存在大于所述故障参考阈值并小于所述故障确认阈值的信息,且所述SMART相关信息中不存在对应的值大于所述故障确认阈值的信息,将所述SMART指数设定为第二数值;
若所述SMART相关信息中的各信息对应的值均小于所述故障参考阈值,将所述SMART指数设定为第三数值;
其中,所述第一数值大于所述第二数值,所述第二数值大于所述第三数值。
3.根据权利要求2所述的磁盘分析方法,其特征在于,所述SMART相关信息包括磁盘读错误信息、磁盘重分配扇区信息和磁盘挂起扇区信息,所述SMART相关信息对应的值包括磁盘读错误率、磁盘重分配扇区比例和磁盘挂起扇区比例。
4.根据权利要求3所述的磁盘分析方法,其特征在于,所述读写错误指数通过以下步骤获得:
检测所述磁盘的读写错误个数;
根据以下公式计算得到所述读写错误指数,读写错误指数=e+m,其中,e用于标识读写错误个数是否达到设定阈值,若达到所述设定阈值,所述e的值为第六数值,若未达到所述设定阈值,所述e的值为第七数值;m为所述读写错误个数达到所述设定阈值的次数;
在所述e的值为所述第六数值时,对读写错误进行修复,判断修复后的读写错误个数是否达到所述设定阈值,若达到所述设定阈值,将所述e的值保持为所述第六数值,并将m的值加1,若未达到所述设定阈值,将所述e的值修改为第七数值。
5.根据权利要求4所述的磁盘分析方法,其特征在于,所述修复指数根据以下公式计算得到:
R=a*(SMART指数)+b*(读写健康指数)+c*(读写错误指数),其中a、b和c为常数。
6.根据权利要求5所述的磁盘分析方法,其特征在于,所述判断所述修复指数所属阈值区间,基于所述修复指数所属阈值区间分析得到所述磁盘运行情况和对应的处理操作的步骤,包括:
在R= a*(第一数值)时,判定所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作;
在b*N>R>=b*(第四数值)时,将所述磁盘下电,将t的值重置为所述第五数值,在预设时间后将所述磁盘重新上电,重新获得所述磁盘读写超时的信息和读写超时次数,根据重新获得的所述磁盘读写超时的信息和读写超时次数计算得到所述读写健康指数,其中,N为设定的最大读写超时次数,N大于所述第四数值;
在R>= b*N时,判定所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作;
在c*M>R>=c*(第六数值)时,执行对所述磁盘进行读写错误修复的操作,其中,M为设定的所述读写错误个数达到所述设定阈值的最大次数,M大于第六数值;
在R>=c*M时,判定所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作;
在R=a*(第二数值)+c*(第六数值)时,判定所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作。
7.一种磁盘分析装置,其特征在于,包括:
信息获得模块,用于获得磁盘的多项异常分析信息,所述磁盘的多项异常分析信息包括SMART指数、读写健康指数和读写错误指数;
信息计算模块,用于根据所述多项异常分析信息计算得到所述磁盘的修复指数,所述修复指数根据所述SMART指数、读写健康指数和读写错误指数计算得到;
信息分析模块,用于判断所述修复指数所属阈值区间,基于所述修复指数所属阈值区间分析得到所述磁盘运行情况和对应的处理操作;
其中,所述磁盘运行情况和对应的处理操作包括:所述磁盘发生故障,执行将所述磁盘剔除并请求新的磁盘的操作;所述磁盘响应超时,执行将所述磁盘下电,超时重置,在预设时间后将所述磁盘重新上电的操作;所述磁盘存在读写错误且读写错误个数未达到设定阈值的最大次数,执行对所述磁盘进行读写错误修复的操作。
8.一种计算机可读存储介质,其特征在于,包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在电子设备执行权利要求1~6任一项所述的磁盘分析方法。
CN201810081290.5A 2018-01-26 2018-01-26 磁盘分析方法、装置及计算机可读存储介质 Active CN110083470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810081290.5A CN110083470B (zh) 2018-01-26 2018-01-26 磁盘分析方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810081290.5A CN110083470B (zh) 2018-01-26 2018-01-26 磁盘分析方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110083470A CN110083470A (zh) 2019-08-02
CN110083470B true CN110083470B (zh) 2023-07-21

Family

ID=67412742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810081290.5A Active CN110083470B (zh) 2018-01-26 2018-01-26 磁盘分析方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110083470B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113764025A (zh) * 2020-06-30 2021-12-07 北京沃东天骏信息技术有限公司 一种故障磁盘的处理方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590801B1 (en) * 2004-02-12 2009-09-15 Netapp, Inc. Identifying suspect disks
CN205580922U (zh) * 2016-05-10 2016-09-14 长安大学 一种测试沥青混合料毛体积密度的装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100504795C (zh) * 2006-06-28 2009-06-24 联想(北京)有限公司 一种计算机raid阵列预警系统及方法
JP4542163B2 (ja) * 2008-02-27 2010-09-08 富士通株式会社 ディスクアレイ装置、ディスクアレイ制御方法及びディスクアレイ制御装置
CN101866271A (zh) * 2010-06-08 2010-10-20 华中科技大学 一种基于raid的安全预警系统和方法
US8464090B2 (en) * 2010-09-21 2013-06-11 International Business Machines Corporation Recovery of failed disks in an array of disks
CN102129397A (zh) * 2010-12-29 2011-07-20 深圳市永达电子股份有限公司 一种自适应磁盘阵列故障预测方法及系统
CN105468484B (zh) * 2014-09-30 2020-07-28 伊姆西Ip控股有限责任公司 用于在存储系统中确定故障位置的方法和装置
CN105893231B (zh) * 2016-05-06 2019-02-05 思创数码科技股份有限公司 一种基于smart的预测硬盘亚健康指标的方法及装置
CN106407033A (zh) * 2016-09-30 2017-02-15 郑州云海信息技术有限公司 一种磁盘故障处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590801B1 (en) * 2004-02-12 2009-09-15 Netapp, Inc. Identifying suspect disks
CN205580922U (zh) * 2016-05-10 2016-09-14 长安大学 一种测试沥青混合料毛体积密度的装置

Also Published As

Publication number Publication date
CN110083470A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
CN105468484B (zh) 用于在存储系统中确定故障位置的方法和装置
CN111104293A (zh) 用于支持盘故障预测的方法、设备和计算机程序产品
US11480948B2 (en) Monitoring target selecting device, monitoring target selecting method, and program
CN112732477B (zh) 一种带外自检故障隔离的方法
CN106909482A (zh) 一种固态硬盘寿命检测的方法及装置
JP6482743B1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
US20220358380A1 (en) Method for failure prediction and apparatus implementing the same method
CN110471816B (zh) 固态硬盘的数据管理方法及装置
US8601318B2 (en) Method, apparatus and computer program product for rule-based directed problem resolution for servers with scalable proactive monitoring
CN116775362A (zh) 独立冗余磁盘阵列的通路阻塞处理方法、系统
CN110083470B (zh) 磁盘分析方法、装置及计算机可读存储介质
US9158646B2 (en) Abnormal information output system for a computer system
US8949669B1 (en) Error detection, correction and triage of a storage array errors
CN111858244A (zh) 一种硬盘的监控方法、系统、设备以及介质
JPWO2019049521A1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
CN113625957B (zh) 一种硬盘故障的检测方法、装置及设备
CN113708986B (zh) 服务器监控装置、方法及计算机可读存储介质
CN111897701B (zh) 针对应用的告警处理方法、装置、计算机系统和介质
US20150149827A1 (en) Identifying a change to indicate a degradation within a computing device
CN111190781A (zh) 服务器系统的测试自检方法
CN114490829A (zh) 一种故障识别方法、装置、设备及存储介质
CN112199258A (zh) 一种磁盘监控的方法、装置、电子设备及介质
CN111581044A (zh) 集群优化方法、装置、服务器及介质
CN113986142B (zh) 磁盘故障监控方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant