CN111124785B - 一种硬盘故障检查的方法、装置、设备及存储介质 - Google Patents

一种硬盘故障检查的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111124785B
CN111124785B CN201911332551.7A CN201911332551A CN111124785B CN 111124785 B CN111124785 B CN 111124785B CN 201911332551 A CN201911332551 A CN 201911332551A CN 111124785 B CN111124785 B CN 111124785B
Authority
CN
China
Prior art keywords
hard disk
determining
target
fault
disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911332551.7A
Other languages
English (en)
Other versions
CN111124785A (zh
Inventor
陈树成
张猛
王军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Inspur Smart Computing Technology Co Ltd
Original Assignee
Guangdong Inspur Big Data Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Inspur Big Data Research Co Ltd filed Critical Guangdong Inspur Big Data Research Co Ltd
Priority to CN201911332551.7A priority Critical patent/CN111124785B/zh
Publication of CN111124785A publication Critical patent/CN111124785A/zh
Application granted granted Critical
Publication of CN111124785B publication Critical patent/CN111124785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种硬盘故障检查的方法、装置、设备及存储介质,该方法包括:监控存储服务器上各个硬盘槽位的在位信号,在基于所述在位信号确定出当前存在任一硬盘插入相应硬盘槽位时,确定该任一硬盘为目的硬盘;由所述目的硬盘插入相应硬盘槽位的时刻起开始计时,如果计时所得的时长达到时长阈值,且所述目的硬盘无法实现与相应扩展器的正常连接,则确定所述目的硬盘为故障盘;将所述目的硬盘为故障盘的信息发送至对应的操作系统,同时点亮与所述目的硬盘插入的硬盘槽位相对应的故障灯。从而能够在硬盘发生故障无法连接到系统时,识别硬盘故障的状态,发生相应的告警,以提示用户对硬盘进行及时更换。

Description

一种硬盘故障检查的方法、装置、设备及存储介质
技术领域
本发明涉及存储设备技术领域,更具体地说,涉及一种硬盘故障检查的方法、装置、设备及存储介质。
背景技术
存储服务器是一种为用户提供存储空间服务的服务器产品,它前端一般以光纤等连接到用户设备,后端通过连接大量硬盘和硬盘扩展柜,提供海量的存储服务。
在系统的接口层面,存储服务器的CPU处理业务数据,通过SAS(Serial AttachedSCSI,串行连接的SCSI协议)控制器将CPU引出的PCIe总线转换成SAS总线协议,再通过SAS总线连接至硬盘。为了连接更多的硬盘,存储服务器上往往配备了SAS总线扩展器(SASexpander)将少量的SAS总线扩展成大量的SAS总线;其基本的硬件结构如图1所示。在存储服务器的使用过程中,SAS总线扩展器扫描与它连接的所有硬盘,并向SAS控制器发送广播,CPU上的操作系统通过SAS控制器确认这个设备有多少硬盘,对每个硬盘分配盘符进行统一管理。如果硬盘在一定时间内不能响应操作系统的指令,操作系统将判定该硬盘存在故障,产生告警。这种方法存在如下缺陷:如果硬盘存在严重问题,导致硬盘无法连接至系统,此时SAS总线扩展器无法识别硬盘,操作系统不能感知该硬盘存在,也就无法产生告警。
发明内容
本发明的目的是提供一种硬盘故障检查的方法、装置、设备及存储介质,能够在硬盘发生故障无法连接到系统时,识别硬盘故障的状态,发生相应的告警,以提示用户对硬盘进行及时更换。
为了实现上述目的,本发明提供如下技术方案:
一种硬盘故障检查的方法,包括:
监控存储服务器上各个硬盘槽位的在位信号,在基于所述在位信号确定出当前存在任一硬盘插入相应硬盘槽位时,确定该任一硬盘为目的硬盘;
由所述目的硬盘插入相应硬盘槽位的时刻起开始计时,如果计时所得的时长达到时长阈值,且所述目的硬盘无法实现与相应扩展器的正常连接,则确定所述目的硬盘为故障盘;
将所述目的硬盘为故障盘的信息发送至对应的操作系统,同时点亮与所述目的硬盘插入的硬盘槽位相对应的故障灯。
优选的,还包括:
如果计时所得的时长未达到所述预设时长,且所述目的硬盘能够实现与相应扩展器的正常连接,则定时获取所述目的硬盘对自身进行检测所得的自检信息;
提取所述自检信息包含的坏块比例,如果所述坏块比例达到比例阈值,则执行确定所述目的硬盘为故障盘的步骤,否则,则确定所述目的硬盘能够继续使用;所述坏块比例为所述目的硬盘包含的坏块占其包含的全部数据块的比例。
优选的,提取所述自检信息包含的坏块比例之后,还包括:
如果所述坏块比例不为零,则获取所述目的硬盘的优先级,如果所述目的硬盘的优先级达到优先级阈值,则执行确定所述目的硬盘为故障盘的步骤,如果所述目的硬盘的优先级未达到所述优先级阈值,则执行确定所述坏块比例是否达到所述比例阈值的步骤,如果所述坏块比例为零,则确定所述目的硬盘能够正常工作。
优选的,确定计时所得的时长达到时长阈值,且所述目的硬盘无法实现与相应扩展器的正常连接之后,还包括:
尝试控制所述目的硬盘实现与相应扩展器的正常连接,如果尝试成功,则确定所述目的硬盘能够实现与相应扩展器的正常连接,如果尝试失败,则执行确定所述目的硬盘为故障盘的步骤。
优选的,基于所述在位信号确定当前存在任一硬盘插入相应硬盘槽位,包括:
如果任一硬盘槽位的在位信号由高电平变为低电平,则确定该任一硬盘槽位被插入硬盘。
优选的,确定所述目的硬盘为故障盘之后,还包括:
将所述目的硬盘为故障盘的信息发送至预先设定的管理终端。
一种硬盘故障检查的装置,包括:
第一确定模块,用于:监控存储服务器上各个硬盘槽位的在位信号,在基于所述在位信号确定出当前存在任一硬盘插入相应硬盘槽位时,确定该任一硬盘为目的硬盘;
第二确定模块,用于:由所述目的硬盘插入相应硬盘槽位的时刻起开始计时,如果计时所得的时长达到时长阈值,且所述目的硬盘无法实现与相应扩展器的正常连接,则确定所述目的硬盘为故障盘;
故障报告模块,用于:将所述目的硬盘为故障盘的信息发送至对应的操作系统,同时点亮与所述目的硬盘插入的硬盘槽位相对应的故障灯。
优选的,还包括:
第三确定模块,用于:如果计时所得的时长未达到所述预设时长,且所述目的硬盘能够实现与相应扩展器的正常连接,则定时获取所述目的硬盘对自身进行检测所得的自检信息;提取所述自检信息包含的坏块比例,如果所述坏块比例达到比例阈值,则执行确定所述目的硬盘为故障盘的步骤,否则,则确定所述目的硬盘能够继续使用;所述坏块比例为所述目的硬盘包含的坏块占其包含的全部数据块的比例。
一种硬盘故障检查的设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述硬盘故障检查的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述硬盘故障检查的方法的步骤。
本发明提供了一种硬盘故障检查的方法、装置、设备及存储介质,该方法包括:监控存储服务器上各个硬盘槽位的在位信号,在基于所述在位信号确定出当前存在任一硬盘插入相应硬盘槽位时,确定该任一硬盘为目的硬盘;由所述目的硬盘插入相应硬盘槽位的时刻起开始计时,如果计时所得的时长达到时长阈值,且所述目的硬盘无法实现与相应扩展器的正常连接,则确定所述目的硬盘为故障盘;将所述目的硬盘为故障盘的信息发送至对应的操作系统,同时点亮与所述目的硬盘插入的硬盘槽位相对应的故障灯。本申请公开的技术方案中,通过监控存储服务器上各个硬盘槽位的在位信号,在存在任一硬盘插入至相应硬盘槽位时,由硬盘插入的时刻则开始计时,如果计时所得时长大于时长阈值且硬盘无法实现与相应扩展器的正常连接,则说明硬盘连接超时,通过将此信息发送至操作系统的方式提醒相应用户需要更换硬盘,同时通过点亮硬盘槽位对应故障灯的方式提示用户硬盘在机房中的位置,从而能够在硬盘发生故障无法连接到系统时,识别硬盘故障的状态,发生相应的告警,以提示用户对硬盘进行及时更换。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为现有技术中存储服务器的基本硬件链路的示意图;
图2为本发明实施例提供的一种硬盘故障检查的方法的流程图;
图3为本发明实施例提供的一种硬盘故障检查的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图2,其示出了本发明实施例提供的一种硬盘故障检查的方法的流程图,可以包括:
S11:监控存储服务器上各个硬盘槽位的在位信号,在基于在位信号确定出当前存在任一硬盘插入相应硬盘槽位时,确定该任一硬盘为目的硬盘。
本发明实施例提供的一种硬盘故障检查的方法的执行主体可以为对应的装置,而该装置可以设置于SAS总线控制器,因此该方法的执行主体也可以为SAS总线控制器,以下以该方法的执行主体为SAS总线控制器进行具体说明。其中,硬盘插入系统即为硬盘插入与SAS总线控制器连接的硬盘插槽上;另外,CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)是存储服务器上监测硬件信号的模块,硬盘插入系统后会将硬盘(由于硬盘是插入至硬盘槽位的,因此硬盘与插入的硬盘槽位相对应,而硬盘的在位信号也即为硬盘槽位对应的在位信号)所对应的在位信号拉低,CPLD以此判断硬盘槽位中的硬盘是否在位,并将判断出的在位状态(可以是在位信号的值)写入CPLD寄存器,SAS总线扩展器由CPLD寄存器中查询所有硬盘槽位中的硬盘的在位状态,如果发现某个硬盘上一秒为不在位的状态,这一秒为在位的状态,则说明硬盘刚刚被插入,SAS总线扩展器则可以记录下此刻的时间,作为判定硬盘是否故障的参考时间。
其中,SAS总线扩展器查询所有硬盘的在位状态可以是实时进行的,也可以是定时进行的,如每秒查询一次,或者每十秒查询一次等,具体可以根据实际需要进行设定;当然,也可以是CPLD寄存器实时或者定时的向SAS总线扩展器报告所有硬盘的在位状态,以供SAS总线扩展器基于CPLD寄存器报告的信息确定各个硬盘的在位状态。
S12:由目的硬盘插入相应硬盘槽位的时刻起开始计时,如果计时所得的时长达到时长阈值,且目的硬盘无法实现与相应扩展器的正常连接,则确定目的硬盘为故障盘。
需要说明的是,基于在位信号确定出当前存在任一硬盘插入相应硬盘槽位时,可以记录下硬盘插入至相应硬盘槽位的时间,以方便进行相应的计时。其中,扩展器即为SAS总线扩展器,插入硬盘槽位的目的即为插入相应的SAS总线扩展器,进而通过SAS总线扩展器实现与系统的连接;硬盘在插入系统后一般经过十几秒的时间就可以实现与相应扩展器的正常连接,进而实现正常的工作,包括正常响应上层的指令等,这种状态可称为硬盘连接;其中,硬盘插入系统至可以实现与相应扩展器的正常连接的过程,包括硬盘起转以及硬盘实现与SAS总线扩展器之间的信号连接等,进而通过SAS总线扩展器实现上层指令的接收及相应反馈等。在确定出目的硬盘后可以实时或者定时查询硬盘的连接状态,也即硬盘是否连接,并且判断目的硬盘插入系统的时刻开始计时所得的时长是否达到时长阈值,如果达到时长阈值但是还没实现硬盘连接(无法实现与相应SAS总线扩展器的正常连接),则认为目的硬盘连接超时,无法正常实现连接,因此此时确定目的硬盘为故障盘,如果目的硬盘在插入系统的时刻开始计时所得时长未达到时长阈值且可以实现硬盘连接,则说明目的硬盘是正常的。另外,时长阈值可以根据正常情况下硬盘连接所需时间来设定,具体来说,时长阈值可以设置成大于硬盘连接所需时间十秒以内的秒数的值,如正常情况下一般硬盘连接需要十五秒,则时长阈值可以设置成二十秒,从而能够保证时长阈值能够充分满足硬盘连接所需时间。
S13:将目的硬盘为故障盘的信息发送至对应的操作系统,同时点亮与目的硬盘插入的硬盘槽位相对应的故障灯。
由于硬盘并未成功实现连接时,操作系统不能识别未连接的硬盘,也就不能产生硬盘未成功连接的故障告警。因此本实施例中在通过上述方式确定硬盘连接超时,硬盘为故障盘后,可以向操作系统发送硬盘未故障盘的信息,从而使得用户可以由操作系统中获知该信息,指示硬盘无法成功实现连接,从而通过这种方式提醒用户更换故障盘。同时,SAS总线扩展器还可以通过CPLD点亮与硬盘槽位对应的故障灯,以提示用户可以确定故障盘在机房中的位置,方便用户进行相应的故障盘更换。
另外,确定出目的硬盘为故障盘后,还可以将硬盘标记为故障硬盘,具体可以是在SAS总线扩展器中相应位置对硬盘进行标记,也可以是对硬盘插入的硬盘槽进行标记,以方便获知硬盘的状态。
本申请公开的技术方案中,通过监控存储服务器上各个硬盘槽位的在位信号,在存在任一硬盘插入至相应硬盘槽位时,由硬盘插入的时刻则开始计时,如果计时所得时长大于时长阈值且硬盘无法实现与相应扩展器的正常连接,则说明硬盘连接超时,通过将此信息发送至操作系统的方式提醒相应用户需要更换硬盘,同时通过点亮硬盘槽位对应故障灯的方式提示用户硬盘在机房中的位置,从而能够在硬盘发生故障无法连接到系统时,识别硬盘故障的状态,发生相应的告警,以提示用户对硬盘进行及时更换。
本发明实施例提供的一种硬盘故障检查的方法,还可以包括:
如果计时所得的时长未达到预设时长,且目的硬盘能够实现与相应扩展器的正常连接,则定时获取目的硬盘对自身进行检测所得的自检信息;
提取自检信息包含的坏块比例,如果坏块比例达到比例阈值,则执行确定目的硬盘为故障盘的步骤,否则,则确定目的硬盘能够继续使用;坏块比例为目的硬盘包含的坏块占其包含的全部数据块的比例。
需要说明的是,硬盘可以定时对自身进行检测,检测所得结果包括硬盘是否存在坏块,硬盘中坏块占硬盘中全部数据块的比例(坏块比例)等,然后将检测所得结果作为自检信息进行存储。在合理时间(计时所得时长未达到预设时长)内如果硬盘成功实现连接,则可以定时或者实时获取连接的各个硬盘内的自检信息,如果自检信息中包含的坏块比例达到比例阈值,则说明硬盘损坏比较严重,因此可以执行确定硬盘为故障盘的步骤,否则则认为硬盘还可以继续使用,从而通过这种方式进一步实现对硬盘能否正常工作的有效监测。另外,比例阈值可以根据实际需要进行设定,如百分之五十等。
另外,如果计时所得的时长未达到预设时长,且目的硬盘能够实现与相应扩展器的正常连接,则SAS总线扩展器扫描包含目的硬盘在内的全部与SAS总线扩展器正常连接的硬盘,向SAS控制器发送广播,CPU上的操作系统通过SAS控制器确认这个设备有多少硬盘,对每个硬盘分配盘符进行统一管理,如果硬盘在一定时间内不能响应操作系统的指令,操作系统将判定该硬盘存在故障,产生告警。
本发明实施例提供的一种硬盘故障检查的方法,提取自检信息包含的坏块比例之后,还包括:
如果坏块比例不为零,则获取目的硬盘的优先级,如果目的硬盘的优先级达到优先级阈值,则执行确定目的硬盘为故障盘的步骤,如果目的硬盘的优先级未达到优先级阈值,则执行确定坏块比例是否达到比例阈值的步骤,如果坏块比例为零,则确定目的硬盘能够正常工作。
其中,优先级阈值可以根据实际需要进行设定,如可以为每个硬盘设置1至10的优先级,而优先级阈值则可以设置为7、8等。在坏块比例不为零时,则说明硬盘中存在坏块,此时可以查看硬盘的优先级,如果硬盘的优先级达到优先级阈值,则说明硬盘的优先级足够高,硬盘存储数据安全性及可靠性要求足够高,因此只要硬盘中存在坏块为了保证安全性及可靠性,避免由于坏块引起不良影响,可以直接执行确定硬盘为故障盘的步骤;如果硬盘的优先级未达到优先级阈值,则说明可以允许硬盘出现少量损坏,因此可以执行确定坏块比例是否达到比例阈值的步骤,当然,如果坏块比例为零,则说明硬盘中不存在坏块,也就是目的硬盘能够正常工作。从而通过这种方式进一步保证了硬盘状况满足当前对其的需求。
本发明实施例提供的一种硬盘故障检查的方法,确定计时所得的时长达到时长阈值,且目的硬盘无法实现与相应扩展器的正常连接之后,还可以包括:
尝试控制目的硬盘实现与相应扩展器的正常连接,如果尝试成功,则确定目的硬盘能够实现与相应扩展器的正常连接,如果尝试失败,则执行确定目的硬盘为故障盘的步骤。
在硬盘连接超时后,SAS总线控制器可以再次尝试与硬盘实现连接,如向硬盘发送信号以基于硬盘是否反馈,确定硬盘可否实现连接,从而通过这种尝试,进一步保证对磁盘是否为故障盘这一判断的准确性。
本发明实施例提供的一种硬盘故障检查的方法,基于在位信号确定当前存在任一硬盘插入相应硬盘槽位,可以包括:
如果任一硬盘槽位的在位信号由高电平变为低电平,则确定该任一硬盘槽位被插入硬盘。
SAS总线扩展器定时或者实时检查硬盘的在位状态,当硬盘在位状态的在位信号从不在位变为在位时可以确定硬盘插入系统;而为了方便这一信息的获知,本实施例中可以在硬盘插入相应硬盘槽位时使得对应的在位信号为高电平,而在插入硬盘后拉低在位信号,从而在在位信号由高电平变为低电平后确定硬盘插入,这种信息获取方式快速有效。
本发明实施例提供的一种硬盘故障检查的方法,确定目的硬盘为故障盘之后,还可以包括:
将目的硬盘为故障盘的信息发送至预先设定的管理终端。
另外,为了方便用户可以远程获知到硬盘为故障盘的信息,在将硬盘为故障盘的信息发送给操作系统并指示故障灯点亮的同时,还可以将硬盘为故障盘的信息发送给用户的终端,也即预先设定的管理终端,从而进一步保证了用户对硬盘的及时更换。
本申请SAS总线扩展器定期查询硬盘的在位状态和连接状态,从而排查出无法正常连接到系统的硬盘,进而通过相应的告警提示用户实现硬盘的更换,解决了操作系统在硬盘未连接的场景下无法排查故障硬盘的问题。
本发明实施例还提供了一种硬盘故障检查的装置,如图3所示,具体可以包括:
第一确定模块11,用于:监控存储服务器上各个硬盘槽位的在位信号,在基于在位信号确定出当前存在任一硬盘插入相应硬盘槽位时,确定该任一硬盘为目的硬盘;
第二确定模块12,用于:由目的硬盘插入相应硬盘槽位的时刻起开始计时,如果计时所得的时长达到时长阈值,且目的硬盘无法实现与相应扩展器的正常连接,则确定目的硬盘为故障盘;
故障报告模块13,用于:将目的硬盘为故障盘的信息发送至对应的操作系统,同时点亮与目的硬盘插入的硬盘槽位相对应的故障灯。
本发明实施例提供的一种硬盘故障检查的装置,还可以包括:
第三确定模块,用于:如果计时所得的时长未达到预设时长,且目的硬盘能够实现与相应扩展器的正常连接,则定时获取目的硬盘对自身进行检测所得的自检信息;提取自检信息包含的坏块比例,如果坏块比例达到比例阈值,则执行确定目的硬盘为故障盘的步骤,否则,则确定目的硬盘能够继续使用;坏块比例为目的硬盘包含的坏块占其包含的全部数据块的比例。
本发明实施例提供的一种硬盘故障检查的装置,还可以包括:
判断模块,用于:提取自检信息包含的坏块比例之后,如果坏块比例不为零,则获取目的硬盘的优先级,如果目的硬盘的优先级达到优先级阈值,则执行确定目的硬盘为故障盘的步骤,如果目的硬盘的优先级未达到优先级阈值,则执行确定坏块比例是否达到比例阈值的步骤,如果坏块比例为零,则确定目的硬盘能够正常工作。
本发明实施例提供的一种硬盘故障检查的装置,还可以包括:
尝试连接模块,用于:确定计时所得的时长达到时长阈值,且目的硬盘无法实现与相应扩展器的正常连接之后,尝试控制目的硬盘实现与相应扩展器的正常连接,如果尝试成功,则确定目的硬盘能够实现与相应扩展器的正常连接,如果尝试失败,则执行确定目的硬盘为故障盘的步骤。
本发明实施例提供的一种硬盘故障检查的装置,第一确定模块可以包括:
确定单元,用于:如果任一硬盘槽位的在位信号由高电平变为低电平,则确定该任一硬盘槽位被插入硬盘。
本发明实施例提供的一种硬盘故障检查的装置,还可以包括:
发送模块,用于:确定目的硬盘为故障盘之后,将目的硬盘为故障盘的信息发送至预先设定的管理终端。
本发明实施例还提供了一种硬盘故障检查的设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项硬盘故障检查的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项硬盘故障检查的方法的步骤。
需要说明的是,本发明实施例提供的一种硬盘故障检查的装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种硬盘故障检查的方法中对应部分的详细说明,在此不再赘述。另外,本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种硬盘故障检查的方法,其特征在于,包括:
监控存储服务器上各个硬盘槽位的在位信号,在基于所述在位信号确定出当前存在任一硬盘插入相应硬盘槽位时,确定该任一硬盘为目的硬盘;
由所述目的硬盘插入相应硬盘槽位的时刻起开始计时,如果计时所得的时长达到时长阈值,且所述目的硬盘无法实现与相应扩展器的正常连接,则确定所述目的硬盘为故障盘;
将所述目的硬盘为故障盘的信息发送至对应的操作系统,同时点亮与所述目的硬盘插入的硬盘槽位相对应的故障灯;
如果计时所得的时长未达到所述时长阈值,且所述目的硬盘能够实现与相应扩展器的正常连接,则定时获取所述目的硬盘对自身进行检测所得的自检信息;提取所述自检信息包含的坏块比例,如果所述坏块比例达到比例阈值,则执行确定所述目的硬盘为故障盘的步骤,否则,则确定所述目的硬盘能够继续使用;所述坏块比例为所述目的硬盘包含的坏块占其包含的全部数据块的比例;
提取所述自检信息包含的坏块比例之后,还包括:
如果所述坏块比例不为零,则获取所述目的硬盘的优先级,如果所述目的硬盘的优先级达到优先级阈值,则执行确定所述目的硬盘为故障盘的步骤,如果所述目的硬盘的优先级未达到所述优先级阈值,则执行确定所述坏块比例是否达到所述比例阈值的步骤,如果所述坏块比例为零,则确定所述目的硬盘能够正常工作。
2.根据权利要求1所述的方法,其特征在于,确定计时所得的时长达到时长阈值,且所述目的硬盘无法实现与相应扩展器的正常连接之后,还包括:
尝试控制所述目的硬盘实现与相应扩展器的正常连接,如果尝试成功,则确定所述目的硬盘能够实现与相应扩展器的正常连接,如果尝试失败,则执行确定所述目的硬盘为故障盘的步骤。
3.根据权利要求2所述的方法,其特征在于,基于所述在位信号确定当前存在任一硬盘插入相应硬盘槽位,包括:
如果任一硬盘槽位的在位信号由高电平变为低电平,则确定该任一硬盘槽位被插入硬盘。
4.根据权利要求3所述的方法,其特征在于,确定所述目的硬盘为故障盘之后,还包括:
将所述目的硬盘为故障盘的信息发送至预先设定的管理终端。
5.一种硬盘故障检查的装置,其特征在于,包括:
第一确定模块,用于:监控存储服务器上各个硬盘槽位的在位信号,在基于所述在位信号确定出当前存在任一硬盘插入相应硬盘槽位时,确定该任一硬盘为目的硬盘;
第二确定模块,用于:由所述目的硬盘插入相应硬盘槽位的时刻起开始计时,如果计时所得的时长达到时长阈值,且所述目的硬盘无法实现与相应扩展器的正常连接,则确定所述目的硬盘为故障盘;
故障报告模块,用于:将所述目的硬盘为故障盘的信息发送至对应的操作系统,同时点亮与所述目的硬盘插入的硬盘槽位相对应的故障灯;
第三确定模块,用于:如果计时所得的时长未达到所述时长阈值,且所述目的硬盘能够实现与相应扩展器的正常连接,则定时获取所述目的硬盘对自身进行检测所得的自检信息;提取所述自检信息包含的坏块比例,如果所述坏块比例达到比例阈值,则执行确定所述目的硬盘为故障盘的步骤,否则,则确定所述目的硬盘能够继续使用;所述坏块比例为所述目的硬盘包含的坏块占其包含的全部数据块的比例;
判断模块,用于:提取自检信息包含的坏块比例之后,如果所述坏块比例不为零,则获取所述目的硬盘的优先级,如果所述目的硬盘的优先级达到优先级阈值,则执行确定所述目的硬盘为故障盘的步骤,如果所述目的硬盘的优先级未达到所述优先级阈值,则执行确定所述坏块比例是否达到所述比例阈值的步骤,如果所述坏块比例为零,则确定所述目的硬盘能够正常工作。
6.一种硬盘故障检查的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述硬盘故障检查的方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述硬盘故障检查的方法的步骤。
CN201911332551.7A 2019-12-22 2019-12-22 一种硬盘故障检查的方法、装置、设备及存储介质 Active CN111124785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911332551.7A CN111124785B (zh) 2019-12-22 2019-12-22 一种硬盘故障检查的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911332551.7A CN111124785B (zh) 2019-12-22 2019-12-22 一种硬盘故障检查的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111124785A CN111124785A (zh) 2020-05-08
CN111124785B true CN111124785B (zh) 2024-02-09

Family

ID=70501364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911332551.7A Active CN111124785B (zh) 2019-12-22 2019-12-22 一种硬盘故障检查的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111124785B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112379832B (zh) * 2020-11-05 2023-04-25 杭州海康威视数字技术股份有限公司 存储介质检测方法和装置
CN113868009A (zh) * 2021-10-20 2021-12-31 南昌逸勤科技有限公司 一种sas扩展器的自动修复方法、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0747817A2 (en) * 1995-06-07 1996-12-11 Tandem Computers Incorporated Data communication method in a fail-fast, fail-functional, fault-tolerant multiprocessor system
CA2251455A1 (en) * 1997-12-24 1999-06-24 Barry E. Wood Computing system having fault containment
CN101149696A (zh) * 2006-09-22 2008-03-26 鸿富锦精密工业(深圳)有限公司 硬盘测试系统
CN101359309A (zh) * 2007-08-03 2009-02-04 中兴通讯股份有限公司 串行附接小型计算机系统接口硬盘状态指示装置及方法
JP4503173B2 (ja) * 1998-01-30 2010-07-14 オブジェクト テクノロジー ライセンシング コーポレイション コンピュータシステム内の拡張ボードの動作をモデル化する装置および方法
CN105279057A (zh) * 2015-11-10 2016-01-27 浪潮(北京)电子信息产业有限公司 一种磁盘坏道检测方法与系统
CN106990919A (zh) * 2017-03-04 2017-07-28 郑州云海信息技术有限公司 自动隔离故障磁盘的存储管理方法及装置
CN207020663U (zh) * 2017-07-17 2018-02-16 环达电脑(上海)有限公司 PCIe设备
CN109359016A (zh) * 2018-09-27 2019-02-19 郑州云海信息技术有限公司 一种硬盘告警方法与装置
CN109766249A (zh) * 2019-01-09 2019-05-17 郑州云海信息技术有限公司 一种阵列式硬盘的状态显示装置
CN109815074A (zh) * 2019-01-22 2019-05-28 郑州云海信息技术有限公司 一种在磁盘插拔测试过程中检查硬盘排序的方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003587A (ja) * 2007-06-20 2009-01-08 Fujitsu Ltd 試験装置、試験カード、試験システム
CN106649011A (zh) * 2016-12-02 2017-05-10 曙光信息产业(北京)有限公司 一种服务器设备的检测方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0747817A2 (en) * 1995-06-07 1996-12-11 Tandem Computers Incorporated Data communication method in a fail-fast, fail-functional, fault-tolerant multiprocessor system
CA2251455A1 (en) * 1997-12-24 1999-06-24 Barry E. Wood Computing system having fault containment
JP4503173B2 (ja) * 1998-01-30 2010-07-14 オブジェクト テクノロジー ライセンシング コーポレイション コンピュータシステム内の拡張ボードの動作をモデル化する装置および方法
CN101149696A (zh) * 2006-09-22 2008-03-26 鸿富锦精密工业(深圳)有限公司 硬盘测试系统
CN101359309A (zh) * 2007-08-03 2009-02-04 中兴通讯股份有限公司 串行附接小型计算机系统接口硬盘状态指示装置及方法
CN105279057A (zh) * 2015-11-10 2016-01-27 浪潮(北京)电子信息产业有限公司 一种磁盘坏道检测方法与系统
CN106990919A (zh) * 2017-03-04 2017-07-28 郑州云海信息技术有限公司 自动隔离故障磁盘的存储管理方法及装置
CN207020663U (zh) * 2017-07-17 2018-02-16 环达电脑(上海)有限公司 PCIe设备
CN109359016A (zh) * 2018-09-27 2019-02-19 郑州云海信息技术有限公司 一种硬盘告警方法与装置
CN109766249A (zh) * 2019-01-09 2019-05-17 郑州云海信息技术有限公司 一种阵列式硬盘的状态显示装置
CN109815074A (zh) * 2019-01-22 2019-05-28 郑州云海信息技术有限公司 一种在磁盘插拔测试过程中检查硬盘排序的方法及系统

Also Published As

Publication number Publication date
CN111124785A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111124785B (zh) 一种硬盘故障检查的方法、装置、设备及存储介质
US20230333621A1 (en) Server firmware self-recovery system and server
CN109144789B (zh) 一种重启osd的方法、装置及系统
CN107678909B (zh) 一种服务器中监控芯片配置状态的电路及方法
CN104734979A (zh) 一种路由器外接存储设备的控制方法
CN111048139A (zh) 一种存储介质检测方法、装置、设备及可读存储介质
CN111459719B (zh) 一种计算机用防宕机断电保护系统
CN116560889A (zh) 数据链路的管理方法、装置、计算机设备及存储介质
CN108243031B (zh) 一种双机热备的实现方法及装置
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN111048138A (zh) 一种硬盘的故障检测方法及相关装置
CN111880992B (zh) 一种存储设备中控制器状态的监测及维护方法
CN113868058A (zh) 一种外设组件高速互联设备故障检测方法、装置及服务器
CN106201801B (zh) 一种电子设备和报错方法
CN111930719A (zh) 一种数据库访问方法、装置及系统
CN112069032A (zh) 一种虚拟机的可用性检测方法、系统及相关装置
CN113992501A (zh) 一种故障定位系统、方法及计算装置
CN110908839A (zh) 一种逻辑模块的故障解除方法、装置及设备
CN101140540B (zh) 一种自动监控磁阵故障的方法和系统
CN116225804A (zh) 一种PCIe链路检测方法、系统、设备及存储介质
CN111913903A (zh) 一种支持NVMe磁盘热插拔的控制系统及方法
CN115098342A (zh) 系统日志收集方法、系统、终端及存储介质
CN113835971A (zh) 一种服务器背板异常点灯的监测方法及相关组件
CN117573455B (zh) 一种pcie设备检测系统、方法、装置及产品
CN111444032A (zh) 一种计算机系统故障修复方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant