CN103390429A - 一种硬盘的在线检测方法及服务器 - Google Patents

一种硬盘的在线检测方法及服务器 Download PDF

Info

Publication number
CN103390429A
CN103390429A CN2013103232025A CN201310323202A CN103390429A CN 103390429 A CN103390429 A CN 103390429A CN 2013103232025 A CN2013103232025 A CN 2013103232025A CN 201310323202 A CN201310323202 A CN 201310323202A CN 103390429 A CN103390429 A CN 103390429A
Authority
CN
China
Prior art keywords
hard disk
time point
server
flow
load flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103232025A
Other languages
English (en)
Other versions
CN103390429B (zh
Inventor
杜垠
陈权
曾中梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310323202.5A priority Critical patent/CN103390429B/zh
Publication of CN103390429A publication Critical patent/CN103390429A/zh
Application granted granted Critical
Publication of CN103390429B publication Critical patent/CN103390429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明适用于通信领域,提供了一种硬盘的在线检测方法及服务器,所述方法包括:在线统计出一个周期内负载流量最低的时间点,记录时间点;在下一个周期内,当所述时间点到时,对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障。本发明提供的技术方案具有在线提前检测硬盘是否故障的,并减少对业务的影响的优点。

Description

一种硬盘的在线检测方法及服务器
技术领域
本发明属于通信领域,尤其涉及一种硬盘的在线检测方法及服务器。
背景技术
在电信领域,硬盘用于存放数据或者系统,硬盘通常都是7X24小时的不间断工作,通常硬盘都具有使用寿命和失效率,尤其是机械硬盘,通常使用寿命为3-5年,在电信领域,通常硬盘故障是不能影响电信业务的运行。存放硬盘上面的数据通常又分为动态数据和静态数据,动态数据会定期的进行读写操作,而静态数据往往会保存在硬盘上,在很长的时间内不会进行读写操作。随着硬盘容量的不断增加,硬盘上面的数据存放越来越多,数据存放越多的硬盘的损坏对于数据的损失就越大,对于动态数据,通常可以在读写操作的时候进行发现并及时进行重传或者丢弃处理,但是静态数据往往就很难发现损坏,一旦使用静态数据的时候发现,往往会导致系统异常或者静态数据丢失,从而对运营商造成很大的损失。
为了提高硬盘的可靠性,通常一个主机系统都会配置两个硬盘,两个硬盘配置为RAID1关系,该RAID1关系具体可以为:配置为1+1,备份的RAID(英文全称:Redundant Array of Independent Disks,中文:独立磁盘冗余阵列),配置为RAID1关系是为了确保两个硬盘的数据保持一致,其中一个硬盘故障后对于应用数据不丢失,但是RAID1的通常做法都是同时写,就是两个硬盘都写成功时才确认写操作成功,如果其中有一个硬盘故障,那么故障的硬盘的写入的数据就会异常,从而导致整个系统异常。
所以要在7x24小时的硬盘工作环境中,找到一个合适的时间对硬盘进行深入的诊断和检测,在诊断和检测时不能够影响业务的运行,同时能够在业务数据到达时能够及时停止检测,从而达到在线精确地硬盘。现有技术利用厂家提供的Smart(英文全称:Self Monitoring Analysis and Reporting Technology,中文:自我监测、分析与报告技术)信息来判断硬盘是否故障与否。
现有技术都是故障发生时才能检测到故障,不能在线即不影响业务正常运行的情况下精确的提前预判硬盘是否故障。
发明内容
本发明的目的在于提供一种硬盘的在线检测方法,旨在解决现有技术无法在线精确的提前预判硬盘是否故障的问题。
第一方面,提供一种硬盘的在线检测方法,所述方法包括:
在线统计出一个周期内负载流量最低的时间点,记录时间点;
在下一个周期内,当所述时间点到时,对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障。
结合第一方面提供的一种硬盘的在线检测方法,在第一方面的第一种可选方案中,所述方法在对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障之后还包括:
检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止该硬盘的检测,并记录所述硬盘停止检测的诊断点。
结合第一方面的第一种可选方案,在第一方面的第二种可选方案中,所述方法在记录所述硬盘停止检测的诊断点之后,还包括:
如所述负载流量低于预先设定的流量阈值时,从所述诊断点开始重新进行硬盘检测,依据所述检测结果判断该硬盘是否故障。
第二方面,提供一种服务器,所述服务器包括:
统计单元,用于在线统计出一个周期内负载流量最低的时间点,记录时间点;
检测单元,用于在下一个周期内,当所述时间点到时,对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障。
结合第二方面提供的一种服务器,在第二方面的第一种可选方案中,所述服务器还包括:
停止单元,用于检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止该硬盘的检测,并记录所述硬盘停止检测的诊断点。
结合第二方面的第一种可选方案,在第二方面的第二种可选方案中,所述服务器还包括:
续检单元,用于如所述负载流量低于预先设定的流量阈值时,从所述诊断点开始重新进行硬盘检测,依据所述检测结果判断该硬盘是否故障。
在本发明的技术方案在统计负载流量最低的时间点,在下一周期的时间点到时,直接启动硬盘的检测,这样能够在线实现硬盘的检测,并且其检测的时间点为上一周期负载流量最低的时间点,这样能够减少对业务的影响。
附图说明
图1是本发明具体实施方式提供的一种硬盘的在线检测方法的流程图;
图2是本发明具体实施方式提供的一种服务器的结构框图;
图3是本发明具体实施方式提供的一种服务器的硬件结构图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明具体实施例提供一种硬盘的在线检测方法,该方法由计算机或电信服务器系统完成,该方法如图1所示,包括:
101、在线统计出一个周期内负载流量最低的时间点,记录时间点;
102、在下一个周期内,当该时间点到时,对该硬盘进行检测,依据该检测结果判断该硬盘是否故障。
可选的,上述对该硬盘进行检测,依据该检测结构判断该硬盘是否故障具体实现方式可以采用常用的方式,例如:检测硬盘的Glist(英文全称:growdefect list,中文:增长缺陷列表)增长率,判断硬盘的Smart信息作为硬盘故障的判断依据;启动硬盘的DST(中文:自我诊断)来检测硬盘是否故障;通过读硬盘的数据触发ECC(中文:可纠正错误)日志来判断硬盘是否故障;通过读写硬盘的固定区域数据来判断硬盘是否故障;判断RAID状态是否正常来启动硬盘检测。
可选的,上述方法在102之后,还可以包括:
检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止该硬盘的检测,并记录该硬盘停止检测的诊断点。
可选的,上述方法还可以包括:
如该负载流量低于预先设定的流量阈值时,从该诊断点开始重新进行硬盘检测,依据该检测结果判断该硬盘是否故障。
可选的,上述一个周期可以由用户自行设定,例如一个月,三个月等,上述时间点可以包括:天、小时、分钟和秒。
本发明提供的技术方案统计负载流量最低的时间点,在下一周期的时间点到时,直接启动硬盘的检测,这样能够在线实现硬盘的检测,并且其检测的时间点为上一周期负载流量最低的时间点,因为在此时间点,可能处理的业务量最少,所以在此时间点进行硬盘的检测,能最大可能的减少硬盘检测对业务的影响,所以这样能够减少对业务的影响。另外,本发明具体实施方式还提供断点诊断功能,即在硬盘检测时,实时检测硬盘的负载流量,当超过流量阈值时,停止检测并记录停止检测的诊断点,当负载流量低于流量阈值时,从该诊断点继续进行硬盘检测。
本发明具体实施方式还提供一种服务器,该服务器200如图2所示,包括:
统计单元201,用于在线统计出一个周期内负载流量最低的时间点,记录时间点;
检测单元202,用于在下一个周期内,当所述时间点到时,对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障。
可选的,服务器200还可以包括:
停止单元203,用于检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止该硬盘的检测,并记录所述硬盘停止检测的诊断点。
可选的,服务器200还可以包括:
续检单元204,用于如所述负载流量低于预先设定的流量阈值时,从所述诊断点开始重新进行硬盘检测,依据所述检测结果判断该硬盘是否故障。
本发明提供的服务器统计负载流量最低的时间点,在下一周期的时间点到时,直接启动硬盘的检测,这样能够在线实现硬盘的检测,并且其检测的时间点为上一周期负载流量最低的时间点,这样能够减少对业务的影响。另外,本发明具体实施方式还提供断点诊断功能,即在硬盘检测时,实时检测硬盘的负载流量,当超过流量阈值时,停止检测并记录停止检测的诊断点,当负载流量低于流量阈值时,从该诊断点继续进行硬盘检测。
本发明具体实施方式还提供一种服务器,该服务器如图3所示,包括:处理器301、硬盘302、通信接口303和总线304;所述硬盘302的数量可以为2个或多个。
处理器301、硬盘302、通信接口303通过总线304相互连接;总线304可以是工业标准架构体系(Industry Standard Architecture,ISA)总线或外围组件互联(英文:Peripheral Component Interconnect,简称:PCI)总线等。
上述的处理器301可以是通用处理器,包括中央处理器(英文:centralprocessing unit,简称CPU)、网络处理器(英文:network processor,简称NP)等。
硬盘302,用于存放程序和应用数据。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令,该程序用于指示处理器301发出计算机操作指令。
通信接口303,用于接收或发送报文。
处理器301在线统计出一个周期内负载流量最低的时间点,记录时间点在下一个周期内,当所述时间点到时,对硬盘302进行检测,依据所述检测结果判断硬盘302是否故障。
可选的,处理器301检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止硬盘302的检测,并记录硬盘302停止检测的诊断点。
可选的,如所述负载流量低于预先设定的流量阈值时,处理器301从所述诊断点开始重新进行硬盘302检测,依据所述检测结果判断硬盘302是否故障。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种硬盘的在线检测方法,其特征在于,所述方法包括:
在线统计出一个周期内负载流量最低的时间点,记录时间点;
在下一个周期内,当所述时间点到时,对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障。
2.根据权利要求1所述的方法,其特征在于,所述方法在对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障之后还包括:
检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止该硬盘的检测,并记录所述硬盘停止检测的诊断点。
3.根据权利要求2所述的方法,其特征在于,所述方法在记录所述硬盘停止检测的诊断点之后,还包括:
如所述负载流量低于预先设定的流量阈值时,从所述诊断点开始重新进行硬盘检测,依据所述检测结果判断该硬盘是否故障。
4.一种服务器,其特征在于,所述服务器包括:
统计单元,用于在线统计出一个周期内负载流量最低的时间点,记录时间点;
检测单元,用于在下一个周期内,当所述时间点到时,对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障。
5.根据权利要求4所述的服务器,其特征在于,所述服务器还包括:
停止单元,用于检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止该硬盘的检测,并记录所述硬盘停止检测的诊断点。
6.根据权利要求5所述的服务器,其特征在于,所述服务器还包括:
续检单元,用于如所述负载流量低于预先设定的流量阈值时,从所述诊断点开始重新进行硬盘检测,依据所述检测结果判断该硬盘是否故障。
CN201310323202.5A 2013-07-29 2013-07-29 一种硬盘的在线检测方法及服务器 Active CN103390429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310323202.5A CN103390429B (zh) 2013-07-29 2013-07-29 一种硬盘的在线检测方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310323202.5A CN103390429B (zh) 2013-07-29 2013-07-29 一种硬盘的在线检测方法及服务器

Publications (2)

Publication Number Publication Date
CN103390429A true CN103390429A (zh) 2013-11-13
CN103390429B CN103390429B (zh) 2016-07-27

Family

ID=49534669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310323202.5A Active CN103390429B (zh) 2013-07-29 2013-07-29 一种硬盘的在线检测方法及服务器

Country Status (1)

Country Link
CN (1) CN103390429B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656636A (zh) * 2017-02-22 2017-05-10 郑州云海信息技术有限公司 一种云平台故障探测方法及装置
WO2019128673A1 (zh) * 2017-12-29 2019-07-04 华为技术有限公司 硬盘闪断的处理方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10188451A (ja) * 1996-12-25 1998-07-21 Toshiba Corp ディスク装置及び同装置におけるデフェクトに基づく故障予測方法
JP2010072995A (ja) * 2008-09-19 2010-04-02 Nec Corp 情報処理装置の保守管理方法、その装置及びそのプログラム
CN102591591A (zh) * 2011-12-19 2012-07-18 杭州瑞网广通信息技术有限公司 磁盘检测系统、磁盘检测方法以及网络存储系统
CN102968361A (zh) * 2012-11-19 2013-03-13 浪潮电子信息产业股份有限公司 一种raid数据自修复的方法
CN102981930A (zh) * 2012-11-15 2013-03-20 浪潮电子信息产业股份有限公司 一种磁盘阵列多级数据自动修复的方法
CN102279775B (zh) * 2011-08-19 2013-04-17 西安交通大学 一种Linux系统下的硬盘故障处理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10188451A (ja) * 1996-12-25 1998-07-21 Toshiba Corp ディスク装置及び同装置におけるデフェクトに基づく故障予測方法
JP2010072995A (ja) * 2008-09-19 2010-04-02 Nec Corp 情報処理装置の保守管理方法、その装置及びそのプログラム
CN102279775B (zh) * 2011-08-19 2013-04-17 西安交通大学 一种Linux系统下的硬盘故障处理方法
CN102591591A (zh) * 2011-12-19 2012-07-18 杭州瑞网广通信息技术有限公司 磁盘检测系统、磁盘检测方法以及网络存储系统
CN102981930A (zh) * 2012-11-15 2013-03-20 浪潮电子信息产业股份有限公司 一种磁盘阵列多级数据自动修复的方法
CN102968361A (zh) * 2012-11-19 2013-03-13 浪潮电子信息产业股份有限公司 一种raid数据自修复的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656636A (zh) * 2017-02-22 2017-05-10 郑州云海信息技术有限公司 一种云平台故障探测方法及装置
WO2019128673A1 (zh) * 2017-12-29 2019-07-04 华为技术有限公司 硬盘闪断的处理方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN103390429B (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
US10198196B2 (en) Monitoring health condition of a hard disk
US10698605B2 (en) Multipath storage device based on multi-dimensional health diagnosis
CN105224888B (zh) 一种基于安全预警技术的磁盘阵列数据保护系统
CN102135925B (zh) 用于检测错误检查和纠正内存的方法和装置
CN109684141A (zh) 一种磁盘故障诊断方法、装置、终端及可读存储介质
CN104685474A (zh) 包括不可纠正的错误的地址范围的通知
CN110704287B (zh) Linux系统下RAID卡异常日志收集方法、系统及存储介质
US20200349003A1 (en) Method, device and program product for avoiding a fault event of a disk array
US10606490B2 (en) Storage control device and storage control method for detecting storage device in potential fault state
US20160110246A1 (en) Disk data management
CN111813585A (zh) 慢盘的预测和处理
CN109753378A (zh) 一种内存故障的隔离方法、装置、系统及可读存储介质
CN106155826B (zh) 用于在总线结构中检测及处理错误的方法和系统
CN103049345A (zh) 基于异步通信机制的磁盘状态变迁检测方法及装置
US10783042B2 (en) System and method of assessing and managing storage device degradation
CN103390429B (zh) 一种硬盘的在线检测方法及服务器
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
CN114003417A (zh) 实现raid卡故障自动转存的方法、装置及存储介质
CN107807862A (zh) 检测硬盘故障点的方法、装置及服务器
CN111124818B (zh) 一种扩展器Expander的监控方法、装置及设备
CN107643877A (zh) 磁盘故障检测方法以及装置
US8089712B2 (en) Abnormality determining apparatus
CN110618891B (zh) 一种固态硬盘故障在线处理方法及固态硬盘
CN108231134B (zh) Ram良率补救方法及装置
CN112162909A (zh) 一种硬盘故障处理方法、装置、设备及机器可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant