CN103390429B - 一种硬盘的在线检测方法及服务器 - Google Patents
一种硬盘的在线检测方法及服务器 Download PDFInfo
- Publication number
- CN103390429B CN103390429B CN201310323202.5A CN201310323202A CN103390429B CN 103390429 B CN103390429 B CN 103390429B CN 201310323202 A CN201310323202 A CN 201310323202A CN 103390429 B CN103390429 B CN 103390429B
- Authority
- CN
- China
- Prior art keywords
- hard disk
- time point
- detection
- server
- load flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明适用于通信领域,提供了一种硬盘的在线检测方法及服务器,所述方法包括:在线统计出一个周期内负载流量最低的时间点,记录时间点;在下一个周期内,当所述时间点到时,对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障。本发明提供的技术方案具有在线提前检测硬盘是否故障的,并减少对业务的影响的优点。
Description
技术领域
本发明属于通信领域,尤其涉及一种硬盘的在线检测方法及服务器。
背景技术
在电信领域,硬盘用于存放数据或者系统,硬盘通常都是7X24小时的不间断工作,通常硬盘都具有使用寿命和失效率,尤其是机械硬盘,通常使用寿命为3-5年,在电信领域,通常硬盘故障是不能影响电信业务的运行。存放硬盘上面的数据通常又分为动态数据和静态数据,动态数据会定期的进行读写操作,而静态数据往往会保存在硬盘上,在很长的时间内不会进行读写操作。随着硬盘容量的不断增加,硬盘上面的数据存放越来越多,数据存放越多的硬盘的损坏对于数据的损失就越大,对于动态数据,通常可以在读写操作的时候进行发现并及时进行重传或者丢弃处理,但是静态数据往往就很难发现损坏,一旦使用静态数据的时候发现,往往会导致系统异常或者静态数据丢失,从而对运营商造成很大的损失。
为了提高硬盘的可靠性,通常一个主机系统都会配置两个硬盘,两个硬盘配置为RAID1关系,该RAID1关系具体可以为:配置为1+1,备份的RAID(英文全称:RedundantArrayofIndependentDisks,中文:独立磁盘冗余阵列),配置为RAID1关系是为了确保两个硬盘的数据保持一致,其中一个硬盘故障后对于应用数据不丢失,但是RAID1的通常做法都是同时写,就是两个硬盘都写成功时才确认写操作成功,如果其中有一个硬盘故障,那么故障的硬盘的写入的数据就会异常,从而导致整个系统异常。
所以要在7x24小时的硬盘工作环境中,找到一个合适的时间对硬盘进行深入的诊断和检测,在诊断和检测时不能够影响业务的运行,同时能够在业务数据到达时能够及时停止检测,从而达到在线精确地硬盘。现有技术利用厂家提供的Smart(英文全称:SelfMonitoringAnalysisandReportingTechnology,中文:自我监测、分析与报告技术)信息来判断硬盘是否故障与否。
现有技术都是故障发生时才能检测到故障,不能在线即不影响业务正常运行的情况下精确的提前预判硬盘是否故障。
发明内容
本发明的目的在于提供一种硬盘的在线检测方法,旨在解决现有技术无法在线精确的提前预判硬盘是否故障的问题。
第一方面,提供一种硬盘的在线检测方法,所述方法包括:
在线统计出一个周期内负载流量最低的时间点,记录时间点;
在下一个周期内,当所述时间点到时,对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障。
结合第一方面提供的一种硬盘的在线检测方法,在第一方面的第一种可选方案中,所述方法在对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障之后还包括:
检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止该硬盘的检测,并记录所述硬盘停止检测的诊断点。
结合第一方面的第一种可选方案,在第一方面的第二种可选方案中,所述方法在记录所述硬盘停止检测的诊断点之后,还包括:
如所述负载流量低于预先设定的流量阈值时,从所述诊断点开始重新进行硬盘检测,依据所述检测结果判断该硬盘是否故障。
第二方面,提供一种服务器,所述服务器包括:
统计单元,用于在线统计出一个周期内负载流量最低的时间点,记录时间点;
检测单元,用于在下一个周期内,当所述时间点到时,对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障。
结合第二方面提供的一种服务器,在第二方面的第一种可选方案中,所述服务器还包括:
停止单元,用于检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止该硬盘的检测,并记录所述硬盘停止检测的诊断点。
结合第二方面的第一种可选方案,在第二方面的第二种可选方案中,所述服务器还包括:
续检单元,用于如所述负载流量低于预先设定的流量阈值时,从所述诊断点开始重新进行硬盘检测,依据所述检测结果判断该硬盘是否故障。
在本发明的技术方案在统计负载流量最低的时间点,在下一周期的时间点到时,直接启动硬盘的检测,这样能够在线实现硬盘的检测,并且其检测的时间点为上一周期负载流量最低的时间点,这样能够减少对业务的影响。
附图说明
图1是本发明具体实施方式提供的一种硬盘的在线检测方法的流程图;
图2是本发明具体实施方式提供的一种服务器的结构框图;
图3是本发明具体实施方式提供的一种服务器的硬件结构图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明具体实施例提供一种硬盘的在线检测方法,该方法由计算机或电信服务器系统完成,该方法如图1所示,包括:
101、在线统计出一个周期内负载流量最低的时间点,记录时间点;
102、在下一个周期内,当该时间点到时,对该硬盘进行检测,依据该检测结果判断该硬盘是否故障。
可选的,上述对该硬盘进行检测,依据该检测结构判断该硬盘是否故障具体实现方式可以采用常用的方式,例如:检测硬盘的Glist(英文全称:growdefectlist,中文:增长缺陷列表)增长率,判断硬盘的Smart信息作为硬盘故障的判断依据;启动硬盘的DST(中文:自我诊断)来检测硬盘是否故障;通过读硬盘的数据触发ECC(中文:可纠正错误)日志来判断硬盘是否故障;通过读写硬盘的固定区域数据来判断硬盘是否故障;判断RAID状态是否正常来启动硬盘检测。
可选的,上述方法在102之后,还可以包括:
检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止该硬盘的检测,并记录该硬盘停止检测的诊断点。
可选的,上述方法还可以包括:
如该负载流量低于预先设定的流量阈值时,从该诊断点开始重新进行硬盘检测,依据该检测结果判断该硬盘是否故障。
可选的,上述一个周期可以由用户自行设定,例如一个月,三个月等,上述时间点可以包括:天、小时、分钟和秒。
本发明提供的技术方案统计负载流量最低的时间点,在下一周期的时间点到时,直接启动硬盘的检测,这样能够在线实现硬盘的检测,并且其检测的时间点为上一周期负载流量最低的时间点,因为在此时间点,可能处理的业务量最少,所以在此时间点进行硬盘的检测,能最大可能的减少硬盘检测对业务的影响,所以这样能够减少对业务的影响。另外,本发明具体实施方式还提供断点诊断功能,即在硬盘检测时,实时检测硬盘的负载流量,当超过流量阈值时,停止检测并记录停止检测的诊断点,当负载流量低于流量阈值时,从该诊断点继续进行硬盘检测。
本发明具体实施方式还提供一种服务器,该服务器200如图2所示,包括:
统计单元201,用于在线统计出一个周期内负载流量最低的时间点,记录时间点;
检测单元202,用于在下一个周期内,当所述时间点到时,对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障。
可选的,服务器200还可以包括:
停止单元203,用于检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止该硬盘的检测,并记录所述硬盘停止检测的诊断点。
可选的,服务器200还可以包括:
续检单元204,用于如所述负载流量低于预先设定的流量阈值时,从所述诊断点开始重新进行硬盘检测,依据所述检测结果判断该硬盘是否故障。
本发明提供的服务器统计负载流量最低的时间点,在下一周期的时间点到时,直接启动硬盘的检测,这样能够在线实现硬盘的检测,并且其检测的时间点为上一周期负载流量最低的时间点,这样能够减少对业务的影响。另外,本发明具体实施方式还提供断点诊断功能,即在硬盘检测时,实时检测硬盘的负载流量,当超过流量阈值时,停止检测并记录停止检测的诊断点,当负载流量低于流量阈值时,从该诊断点继续进行硬盘检测。
本发明具体实施方式还提供一种服务器,该服务器如图3所示,包括:处理器301、硬盘302、通信接口303和总线304;所述硬盘302的数量可以为2个或多个。
处理器301、硬盘302、通信接口303通过总线304相互连接;总线304可以是工业标准架构体系(IndustryStandardArchitecture,ISA)总线或外围组件互联(英文:PeripheralComponentInterconnect,简称:PCI)总线等。
上述的处理器301可以是通用处理器,包括中央处理器(英文:centralprocessingunit,简称CPU)、网络处理器(英文:networkprocessor,简称NP)等。
硬盘302,用于存放程序和应用数据。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令,该程序用于指示处理器301发出计算机操作指令。
通信接口303,用于接收或发送报文。
处理器301在线统计出一个周期内负载流量最低的时间点,记录时间点在下一个周期内,当所述时间点到时,对硬盘302进行检测,依据所述检测结果判断硬盘302是否故障。
可选的,处理器301检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止硬盘302的检测,并记录硬盘302停止检测的诊断点。
可选的,如所述负载流量低于预先设定的流量阈值时,处理器301从所述诊断点开始重新进行硬盘302检测,依据所述检测结果判断硬盘302是否故障。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种硬盘的在线检测方法,其特征在于,所述方法包括:
在线统计出一个周期内负载流量最低的时间点,记录时间点;
在下一个周期内,当所述时间点到时,对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障。
2.根据权利要求1所述的方法,其特征在于,所述方法在对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障之后还包括:
检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止该硬盘的检测,并记录所述硬盘停止检测的诊断点。
3.根据权利要求2所述的方法,其特征在于,所述方法在记录所述硬盘停止检测的诊断点之后,还包括:
如所述负载流量低于预先设定的流量阈值时,从所述诊断点开始重新进行硬盘检测,依据所述检测结果判断该硬盘是否故障。
4.一种服务器,其特征在于,所述服务器包括:
统计单元,用于在线统计出一个周期内负载流量最低的时间点,记录时间点;
检测单元,用于在下一个周期内,当所述时间点到时,对硬盘进行检测,依据所述检测结果判断所述硬盘是否故障。
5.根据权利要求4所述的服务器,其特征在于,所述服务器还包括:
停止单元,用于检测当前的负载流量,如该负载流量高于预先设定的流量阈值时,停止该硬盘的检测,并记录所述硬盘停止检测的诊断点。
6.根据权利要求5所述的服务器,其特征在于,所述服务器还包括:
续检单元,用于如所述负载流量低于预先设定的流量阈值时,从所述诊断点开始重新进行硬盘检测,依据所述检测结果判断该硬盘是否故障。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310323202.5A CN103390429B (zh) | 2013-07-29 | 2013-07-29 | 一种硬盘的在线检测方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310323202.5A CN103390429B (zh) | 2013-07-29 | 2013-07-29 | 一种硬盘的在线检测方法及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103390429A CN103390429A (zh) | 2013-11-13 |
CN103390429B true CN103390429B (zh) | 2016-07-27 |
Family
ID=49534669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310323202.5A Active CN103390429B (zh) | 2013-07-29 | 2013-07-29 | 一种硬盘的在线检测方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103390429B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106656636A (zh) * | 2017-02-22 | 2017-05-10 | 郑州云海信息技术有限公司 | 一种云平台故障探测方法及装置 |
CN109992437B (zh) * | 2017-12-29 | 2020-08-14 | 华为技术有限公司 | 硬盘闪断的处理方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10188451A (ja) * | 1996-12-25 | 1998-07-21 | Toshiba Corp | ディスク装置及び同装置におけるデフェクトに基づく故障予測方法 |
CN102591591A (zh) * | 2011-12-19 | 2012-07-18 | 杭州瑞网广通信息技术有限公司 | 磁盘检测系统、磁盘检测方法以及网络存储系统 |
CN102968361A (zh) * | 2012-11-19 | 2013-03-13 | 浪潮电子信息产业股份有限公司 | 一种raid数据自修复的方法 |
CN102981930A (zh) * | 2012-11-15 | 2013-03-20 | 浪潮电子信息产业股份有限公司 | 一种磁盘阵列多级数据自动修复的方法 |
CN102279775B (zh) * | 2011-08-19 | 2013-04-17 | 西安交通大学 | 一种Linux系统下的硬盘故障处理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5327591B2 (ja) * | 2008-09-19 | 2013-10-30 | 日本電気株式会社 | 情報処理装置の保守管理方法、その装置及びそのプログラム |
-
2013
- 2013-07-29 CN CN201310323202.5A patent/CN103390429B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10188451A (ja) * | 1996-12-25 | 1998-07-21 | Toshiba Corp | ディスク装置及び同装置におけるデフェクトに基づく故障予測方法 |
CN102279775B (zh) * | 2011-08-19 | 2013-04-17 | 西安交通大学 | 一种Linux系统下的硬盘故障处理方法 |
CN102591591A (zh) * | 2011-12-19 | 2012-07-18 | 杭州瑞网广通信息技术有限公司 | 磁盘检测系统、磁盘检测方法以及网络存储系统 |
CN102981930A (zh) * | 2012-11-15 | 2013-03-20 | 浪潮电子信息产业股份有限公司 | 一种磁盘阵列多级数据自动修复的方法 |
CN102968361A (zh) * | 2012-11-19 | 2013-03-13 | 浪潮电子信息产业股份有限公司 | 一种raid数据自修复的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103390429A (zh) | 2013-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100395717C (zh) | 硬盘装置损坏监测方法及系统 | |
US7496796B2 (en) | Apparatus, system, and method for predicting storage device failure | |
CN102135925B (zh) | 用于检测错误检查和纠正内存的方法和装置 | |
CN109684141A (zh) | 一种磁盘故障诊断方法、装置、终端及可读存储介质 | |
CN105224888B (zh) | 一种基于安全预警技术的磁盘阵列数据保护系统 | |
CN106649071B (zh) | 进程内部日志上报的方法和装置 | |
US10606490B2 (en) | Storage control device and storage control method for detecting storage device in potential fault state | |
CN113595836A (zh) | 一种高可用集群的心跳检测方法、存储介质和计算节点 | |
CN102222033B (zh) | 一种保存小型计算机系统接口访问错误的方法及装置 | |
CN100501686C (zh) | 在差错处理程序执行期间处理差错的方法、处理器及系统 | |
CN103390429B (zh) | 一种硬盘的在线检测方法及服务器 | |
US10783042B2 (en) | System and method of assessing and managing storage device degradation | |
CN107807862A (zh) | 检测硬盘故障点的方法、装置及服务器 | |
CN113590405A (zh) | 硬盘错误的检测方法、装置、存储介质和电子装置 | |
WO2021027271A1 (zh) | 坏块信息保护方法、装置、计算机设备及存储介质 | |
US8089712B2 (en) | Abnormality determining apparatus | |
CN116627737A (zh) | 一种硬盘测试方法、装置、设备及介质 | |
US20230025081A1 (en) | Model training method, failure determining method, electronic device, and program product | |
CN110618891B (zh) | 一种固态硬盘故障在线处理方法及固态硬盘 | |
CN113485872A (zh) | 故障处理方法、装置及分布式存储系统 | |
CN112162909A (zh) | 一种硬盘故障处理方法、装置、设备及机器可读存储介质 | |
CN117076183B (zh) | 一种错误上报方法、片上系统、计算机设备及存储介质 | |
CN117076182B (zh) | 一种错误上报方法、片上系统、计算机设备及存储介质 | |
CN116991651B (zh) | 一种错误注入方法、片上系统、计算机设备及存储介质 | |
US11892920B2 (en) | Method, electronic device, and program product for failure handling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |