CN206515814U - 一种硬盘状态监测装置 - Google Patents

一种硬盘状态监测装置 Download PDF

Info

Publication number
CN206515814U
CN206515814U CN201621050857.5U CN201621050857U CN206515814U CN 206515814 U CN206515814 U CN 206515814U CN 201621050857 U CN201621050857 U CN 201621050857U CN 206515814 U CN206515814 U CN 206515814U
Authority
CN
China
Prior art keywords
hard disk
disk
indicator lamp
hard
status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201621050857.5U
Other languages
English (en)
Inventor
梁晓冬
王丹
王天佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Haicheng Yuxin Information Technology Co., Ltd.
Original Assignee
Constant Technology (shanghai) Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Constant Technology (shanghai) Ltd By Share Ltd filed Critical Constant Technology (shanghai) Ltd By Share Ltd
Priority to CN201621050857.5U priority Critical patent/CN206515814U/zh
Application granted granted Critical
Publication of CN206515814U publication Critical patent/CN206515814U/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本实用新型公开了一种硬盘状态监测装置,其中,包括:硬盘、可编程逻辑控制器以及一指示灯;该硬盘具输出接口以及硬盘控制器;该输出接口连接该可编程逻辑控制器,该可编程逻辑控制器连接该指示灯。本实用新型硬盘状态指示灯控制装置通过硬盘控制器采集硬盘的运行状态,对不同的状态,输出不同电平的Active信号给可编程逻辑控制器,可编程逻辑控制器解析Active信号,分别控制硬盘状态指示灯和硬盘故障指示灯的指示状态。通过观察硬盘的指示灯,即可判断硬盘的健康状况。

Description

一种硬盘状态监测装置
技术领域
本实用新型涉及计算机硬盘技术领域,特别涉及一种硬盘状态监测装置。
背景技术
随着云计算和大数据技术的兴起,通过在普通商用机器上,构建大规模的计算和存储集群的场景越来越多,随着存储容量的增长,硬盘发生故障的情形也越来越多。
对硬盘状态的实时、直观的显示,可以有效地反映硬盘的工作状态,使得工作人员可以及时有效的发现故障硬盘,提高装置的稳定性以及问题硬盘的处理时效性,保证装置的正常运行。
已知对硬盘的监测方法大致有2种,一种是通过软件周期性地扫描硬盘的健康状态,这种方式需要占用一定的装置资源,且由于“盘符漂移”问题,软件无法准确定位故障硬盘的物理位置。第二种是通过专用的硬件设备,如SAFTE(SCSI Accessed Fault-TolerantEnclosure)技术,这种方法需要额外的硬件设备,增加装置成本。
实用新型内容
本实用新型的目的在于提供一种硬盘状态监测装置,用于解决现有硬盘无法直观指示硬盘故障的问题。
本实用新型的一种硬盘状态监测装置,其中,包括:硬盘、可编程逻辑控制器以及一指示灯;该硬盘具输出接口以及硬盘控制器;该输出接口连接该可编程逻辑控制器,该可编程逻辑控制器连接该指示灯。
根据本实用新型的硬盘状态监测装置的一实施例,其中,该可编程逻辑控制器为CPLD。
根据本实用新型的硬盘状态监测装置的一实施例,其中,该指示灯包括第一指示灯以及第二指示灯,该硬盘控制器输出的激发信号连接到该CPLD,并被分为两路,其中一路将信号反相后输出该第一指示灯,另一路经该CPLD处理, 并根据信号的电平变化次数输出控制信号给该第二指示灯。
根据本实用新型的硬盘状态监测装置的一实施例,其中,该指示灯为LED灯。
根据本实用新型的硬盘状态监测装置的一实施例,其中,还包括:处理控制模块,该处理控制模块内存有硬盘状态信息,该处理控制模块通过接收到硬盘状态信号,判断硬盘状态,并向该可编程逻辑控制器发送指令,控制LED指示灯动作以显示硬盘的状态类型。
综上,本实用新型通过硬盘控制器采集硬盘的运行状态,对不同的状态,输出不同电平的Active信号给CPLD,CPLD解析Active信号,分别控制硬盘状态指示灯和硬盘故障指示灯的指示状态。通过观察硬盘的指示灯,即可判断硬盘的健康状况。
附图说明
图1所示为本实用新型所述硬盘状态监测装置一实施示意图;
图2所示为本实用新型所述硬盘状态监测装置另一实施例示意图;
图3所示为本实用新型所述硬盘状态监测装置再一实施例示意图;
图4所示为硬盘状态监测装置的CPLD与CPU的交互原理图。
具体实施方式
下面结合附图对本实用新型提供的硬盘运行状态监测装置做详细说明。
图1所示为本实用新型所述硬盘状态监测装置一实施示意图,如图1所示,在本实施例中,硬盘状态监测装置10包括一硬盘(Hard Disk Drive,HDD)1、一可编程逻辑控制器2以及一指示灯4。
参考图1,硬盘1具有一组信号输出接口12以及硬盘控制器11。接口12连接可编程逻辑控制器2,可编程逻辑控制器2连接指示灯4。
对于一实施例,指示灯3为LED(light-emitting diode)指示灯。
参考图1,LED指示灯3为一组指示灯,包括用于指示硬盘上电/数据传输的指示灯和用于指示硬盘告警/故障的指示灯。通过LED灯的亮灯颜色和闪烁频率来指示硬盘11的运行状态为正常(Active)、数据传输状态(Data Transmission)、告警(Warning)状态或错误(Error)状态。可编程逻辑控制 器2根据硬盘1输出信号进行采样,根据信号的电平变化次数,控制LED指示灯3动作。
图2所示为本实用新型所述硬盘状态监测装置另一实施例示意图,参考图2,进一步的,可编程逻辑控制器2为CPLD(Complex Programmable Logic Device)。硬盘1的Active信号线连接到CPLD2并被分为两路,其中一路将信号做反后输出至LED灯32,CPLD2的LED指示灯控制模块21接到LED灯31。CPLD2的LED指示灯控制模块21对输入的Active信号进行采样,根据信号的电平变化次数,控制LED灯31。CPLD2还可以将具体硬盘1的状态信息进行传输,例如,传输给监控中心通知运维人员,以便于对相关的硬盘1进行下线或者重启所属装置的操作。
参考图2,对于一具体实施例,当硬盘1上电且加载成功时,LED灯31常亮,LED灯32不亮。当硬盘10有数据传输时,LED灯31闪烁,LED灯32不亮。当硬盘检测到告警情况时,LED灯31视是否存在数据传输而表现为常亮或闪烁,LED灯32闪烁。当硬盘检测到存在错误情况时,LED灯31视是否存在数据传输而表现为常亮或闪烁,LED灯32常亮。
参考图2,对于一具体实施例,将硬盘1中的P11接口接至CPLD2,其中一路将信号做反向后输出LED灯32。另外一路接LED指示灯控制模块21,LED指示灯控制模块21会对输入的active信号进行采样,并计数100ms内active信号电平变化次数,当100ms内探测该信号沿变化次数N在10<N<25时,认为硬盘1出现warning,驱动输出信号使红灯LED灯31闪烁;若25=<N,认为硬盘出现错误,此时驱动输出信号使红灯LED灯31长亮。
图3所示为本实用新型所述硬盘状态监测装置再一实施例示意图,图4所示为硬盘状态监测装置的CPLD与CPU的交互原理图,参考图3以及图4,可以为CPLD2增加一根引向CPU4的管线,这样可以通过I2C接口,通过写CPLD2的寄存器的方式,控制指示灯3的状态。具体来说,LED指示灯3既可以由硬盘控制器11输出的电平信号进行控制,也可以通过写寄存器的方式控制。CPLD2在实现的时候,由CPLD2的内部寄存器提供一个状态字段,其中一部分用于存储硬盘控制器的控制结果。
参考图3以及图4,CPU4收集各节点上硬盘1的SMART信息,形成SMART 信息的判断信息数据库,基于收集到的SMART信息,对硬盘1的健康级别进行判断(如健康、需注意、告警、严重错误等不同级别),监测硬盘1的可用情况。另一方面,CPU4可以将具体硬盘的状态信息进行传输,例如,传输给监控中心通知运维人员,以便于对相关的硬盘进行下线或者重启所属装置的操作。
参考图3以及图4,将CPLD2从硬盘1的接口12上得到的硬盘1的状态并保存,可以分别将卡在位,数据读写,警告,错误标记为二进制编码00、01、10、11;同时CPU4检测到的硬盘1的工作状态通过I2C接口写入CPLD2的寄存器中并解析出来与上述状态进行比较,可以按照数值大小做选择开关得出最终的硬盘1工作状态。从得出的硬盘1最终的状态再去发送给LED指示灯3。由于告警和错误时Active输出频率小于24Hz,人眼会认为绿灯LED灯32长亮。
参考图3以及图4,当硬盘控制器11检测到严重故障的同时,CPU4上的也可以通过SMART信息判断出该故障。两者可能会同时向CPLD2报告点LED灯31,即红灯(或红灯闪烁),这是正常情况,CPLD2可以对收到的请求进行仲裁,优先选择严重等级高的情况亮灯。
参考图3以及图4,简述本实用新型所述硬盘状态监测装置的基于收集到的SMART信息,CPU4对硬盘1的健康级别进行判断的检测原理。以hosts表存储目标监测主机的基本信息,如安装的操作装置及版本、体系结构(x86_64或者i686等)、IP地址、主机名等。disks表存储目标主机上的各个硬盘的信息,如硬盘名称(/dev/sda、/dev/sdb等)、硬盘大小、序列号、硬盘类型(SATA或者SSD)等,通过hostid和主机表关联起来。smart_info表存储了周期性获取到的监测信息,每个SMART属性占一列,不同的硬盘厂家,其硬盘支持的SMART属性不尽相同。这里只存储我们关心的项(见第3章节),如果特定硬盘不支持某个项,则设该列的值为-1,使用时会自动忽略该值。disk_status表存储了根据smart_info中的信息进行判断后的硬盘状态。
参考图3,从smart_info表获取最近的监测结果,如果某些项的值超过预定义的阈值,根据实际的超标情况,判断健康级别,将结果写入disk_status表。程序会根据disk_status的值,通知CPLD点LED灯31。
设置硬盘健康状态标志:0:健康1:报告2:警戒3:衰退4:灾难;
设置轮询周期:5分钟;
遍历主机中的硬盘:
获取最近的2个原始读取错误率(Raw_Read_Error_Rate)结果,设置为result1和result2;
如果(result2-result1)/result1*100%>50%,则:
如果该硬盘的健康状态=0,则设置该硬盘的健康状态为1;
否则,不修改健康状态。
获取最近的2个寻找错误率(Seek_Error_Rate),设置为result1和result2
如果(result2-result1)/result1*100%>50%,则:
如果该硬盘的健康状态=0,则设置该硬盘的健康状态为1;
否则,不修改健康状态。
获取最近的一个Reallocated_Sector_Ct,设置为result1;
如果result1>1000:
如果该硬盘的健康状态<3,则设置该硬盘的健康状态为3;
否则,不修改健康状态;
如果result1>0并且result1<1000;
如果该硬盘的健康状态<2,则设置该硬盘的健康状态为1;
否则,不修改健康状态。
获取最近的一个马达重试计数(Spin Retry Count),设置为result1;
如果result1>0:
如果该硬盘的健康状态<2,则设置该硬盘的健康状态为2;
否则,不修改健康状态。
获取最近的2个断电缩进次数(Power-Off_Retract_Count),设置为result1和result2;
如果result2–result1>0:
如果该硬盘的健康状态<1,则设置该硬盘的健康状态为1;
否则,不修改健康状态。
获取最近的一个全盘擦写计数(Wear_Leveling_Count),设置为result1;
如果result1<=1:
如果该硬盘的健康状态<3,则设置该硬盘的健康状态为3;
否则,不修改健康状态。
如果result1>1并且result1<15:
如果该硬盘的健康状态<2,则设置该硬盘的健康状态为2;
否则,不修改健康状态。
获取最近的一个运行时坏块计数(Runtime_Bad_Block),设置为result1;
如果result1>1:
如果该硬盘的健康状态<1,则设置该硬盘的健康状态为1;
否则,不修改健康状态。
获取最近的一个端对端错误(End-to-End_Error),设置为result1;
如果result1>0:
如果该硬盘的健康状态<1,则设置该硬盘的健康状态为1;
否则,不修改健康状态。
获取最近的一个命令超时(COMMAND_TIMEOUT),设置为result1;
如果result1>1000000:
如果该硬盘的健康状态<4,则设置该硬盘的健康状态为4;
否则,不修改健康状态。
如果result1>10并且result1<100000:
如果该硬盘的健康状态<3,则设置该硬盘的健康状态为3;
否则,不修改健康状态。
如果result1>0并且result1<10:
如果该硬盘的健康状态<2,则设置该硬盘健康状态为2;
否则,不修改健康状态。
获取最近的2个高飞写入(High_Fly_Writes),设置为result1和result2;
如果result1>1或result2–result1>0:
如果该硬盘的健康状态<1,则设置该硬盘健康状态为1;
否则,不修改健康状态。
获取最近的2个加速度错误率(G-sense Error Rate),设置为result1和result2;
如果result2–result1>0:
如果该硬盘的健康状态<1,则设置该硬盘的健康状态为1;
否则,不修改健康状态。
获取最近的一个摄氏温度(Temperature_Celsius),设置为result1;
如果result1>62:
如果该硬盘的健康状态<2,则设置该硬盘的健康状态为2;
否则,不修改健康状态;
如果result1>52并且result1<62:
如果该硬盘的健康状态<1,则设置该硬盘的健康状态为1;
否则,不修改健康状态。
获取最近的一个当前待映射扇区(Current_Pending_Sector),设置为result1;
如果result1>10:
如果该硬盘的健康状态<3,则设置该硬盘的健康状态为3;
否则,不修改健康状态;
如果result1>3并且result1<10:
如果该硬盘的健康状态<2,则设置该硬盘的健康状态为2;
否则,不修改健康状态;
如果result1>0并且result1<3:
如果该硬盘的健康状态<1,则设置该硬盘的健康状态为1;
否则,不修改健康状态。
获取最近的一个脱机无法校正(Offline_Uncorrectable),设置为result1
如果result1>3:
如果该硬盘的健康状态<1,则设置该硬盘的健康状态为1;
否则,不修改健康状态。
获取该硬盘的最终状态disk_status
如果disk_status<2,CPU4不通知CPLD点LED灯31;
如果disk_status=2,CPU4通知CPLD点LED灯31,设置为红色闪烁;
如果disk_status>2,CPU4通知CPLD点LED灯31,设置为红色常亮。
本实用新型硬盘状态监测装置根据上述判断定义对硬盘1的健康级别进行判断的监控状态如表1所示:
表1
综上,本实用新型硬盘状态监测装置,解决了现有的硬盘控制器只检测和 物理相关的故障,有些时候,我们会遇到硬盘物理上正常,但装置无法使用的情况(如磁盘变为只读,或读写出错,重启下装置又可以正常使用),如果应用程序检测到此类软错误,一方面可以通过设置硬盘指示灯的方式,物理地定位故障硬盘的位置,另一方面可以将此信息上报给硬盘监控中心,由监控中心通知运维人员,对相关的硬盘进行下线或者重启所属装置的操作。

Claims (3)

1.一种硬盘状态监测装置,其特征在于,包括:硬盘、可编程逻辑控制器以及一指示灯;
该硬盘具输出接口以及硬盘控制器;该输出接口连接该可编程逻辑控制器,该可编程逻辑控制器连接该指示灯;该可编程逻辑控制器为CPLD;该指示灯包括第一指示灯以及第二指示灯,该硬盘控制器输出的激发信号连接到该CPLD,并被分为两路,其中一路将信号反相后输出该第一指示灯,另一路经该CPLD处理,并根据信号的电平变化次数输出控制信号给该第二指示灯。
2.如权利要求1所述的硬盘状态监测装置,其特征在于,该指示灯为LED灯。
3.如权利要求1所述的硬盘状态监测装置,其特征在于,还包括:处理控制模块,该处理控制模块内存有硬盘状态信息,该处理控制模块通过接收到硬盘状态信号,判断硬盘状态,并向该可编程逻辑控制器发送指令,控制LED指示灯动作以显示硬盘的状态类型。
CN201621050857.5U 2016-09-12 2016-09-12 一种硬盘状态监测装置 Active CN206515814U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201621050857.5U CN206515814U (zh) 2016-09-12 2016-09-12 一种硬盘状态监测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201621050857.5U CN206515814U (zh) 2016-09-12 2016-09-12 一种硬盘状态监测装置

Publications (1)

Publication Number Publication Date
CN206515814U true CN206515814U (zh) 2017-09-22

Family

ID=59859997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201621050857.5U Active CN206515814U (zh) 2016-09-12 2016-09-12 一种硬盘状态监测装置

Country Status (1)

Country Link
CN (1) CN206515814U (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062773A (zh) * 2018-08-03 2018-12-21 联想(北京)有限公司 一种信息处理方法及电子设备
CN109408343A (zh) * 2018-11-07 2019-03-01 郑州云海信息技术有限公司 一种硬盘指示灯控制方法、装置及相关设备
TWI659302B (zh) * 2018-02-07 2019-05-11 神雲科技股份有限公司 硬碟監控系統
US10636453B1 (en) * 2019-02-25 2020-04-28 Shenzhen Fugui Precision Ind. Co., Ltd. Externally-viewable hard disk indicator board and electronic device using the same
CN111651335A (zh) * 2020-06-02 2020-09-11 深圳市同泰怡信息技术有限公司 一种硬盘盒
CN111679948A (zh) * 2019-03-11 2020-09-18 深圳富桂精密工业有限公司 硬盘状态监控系统及其方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI659302B (zh) * 2018-02-07 2019-05-11 神雲科技股份有限公司 硬碟監控系統
CN109062773A (zh) * 2018-08-03 2018-12-21 联想(北京)有限公司 一种信息处理方法及电子设备
CN109408343A (zh) * 2018-11-07 2019-03-01 郑州云海信息技术有限公司 一种硬盘指示灯控制方法、装置及相关设备
CN109408343B (zh) * 2018-11-07 2022-02-18 郑州云海信息技术有限公司 一种硬盘指示灯控制方法、装置及相关设备
US10636453B1 (en) * 2019-02-25 2020-04-28 Shenzhen Fugui Precision Ind. Co., Ltd. Externally-viewable hard disk indicator board and electronic device using the same
CN111679948A (zh) * 2019-03-11 2020-09-18 深圳富桂精密工业有限公司 硬盘状态监控系统及其方法
CN111679948B (zh) * 2019-03-11 2023-08-15 深圳富联富桂精密工业有限公司 硬盘状态监控系统及其方法
CN111651335A (zh) * 2020-06-02 2020-09-11 深圳市同泰怡信息技术有限公司 一种硬盘盒

Similar Documents

Publication Publication Date Title
CN206515814U (zh) 一种硬盘状态监测装置
CN106294084A (zh) 一种硬盘状态监测系统
CN104410535B (zh) 一种云资源智能监控告警方法
CN107977299B (zh) 利用可配置和容错的基板管理控制器安排的方法及系统
CN104516802A (zh) 一种指示不同类型硬盘的状态的方法及系统
US20150149822A1 (en) Event handling in storage area networks
US20180260123A1 (en) SEPARATION OF DATA STORAGE MANAGEMENT ON STORAGE devices FROM LOCAL CONNECTIONS OF STORAGE DEVICES
US9766965B2 (en) System and method for monitoring and detecting faulty storage devices
CN105468484A (zh) 用于在存储系统中确定故障位置的方法和装置
CN106980562A (zh) 一种硬盘监控方法及装置
US10467075B1 (en) Systems, devices and methods for predicting disk failure and minimizing data loss
CN104239187A (zh) 硬盘状态指示装置
CN109284207A (zh) 硬盘故障处理方法、装置、服务器和计算机可读介质
CN104951383A (zh) 用于监测硬盘的健康状况的方法和装置
CN108255620A (zh) 一种业务逻辑处理方法、装置、业务服务器及系统
US20150149684A1 (en) Handling two ses sidebands using one smbus controller on a backplane controller
CN104598341B (zh) 用于确定在互连/控制器之间的故障的位置的方法和系统
CN107590040A (zh) 一种硬盘背板及计算机装置、硬盘故障检测方法及存储器
WO2018059495A1 (zh) 一种固态硬盘ssd、存储装置及数据存储方法
CN105045336A (zh) Jbod
US8984333B2 (en) Automatic computer storage medium diagnostics
CN104750605A (zh) 将内核对象信息包括在用户转储中
US9916273B2 (en) Sideband serial channel for PCI express peripheral devices
CN104239174A (zh) Bmc远程调试系统及方法
CN103593275B (zh) 磁盘信息显示方法及装置

Legal Events

Date Code Title Description
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191108

Address after: No. 503, building 2, central Zhigu, No. 189, Section 2, East Renmin Road, Changsha Economic and Technological Development Zone, Hunan 410100

Patentee after: Hunan Haicheng Yuxin Information Technology Co., Ltd.

Address before: 201114 Leshan Road, Shanghai, room 33, No. 103, room

Patentee before: Hengwei Science and Technology (Shanghai) Co., Ltd.

TR01 Transfer of patent right