CN105183600A - 一种远程定位硬盘故障的装置和方法 - Google Patents

一种远程定位硬盘故障的装置和方法 Download PDF

Info

Publication number
CN105183600A
CN105183600A CN201510572038.0A CN201510572038A CN105183600A CN 105183600 A CN105183600 A CN 105183600A CN 201510572038 A CN201510572038 A CN 201510572038A CN 105183600 A CN105183600 A CN 105183600A
Authority
CN
China
Prior art keywords
hard disk
bmc
hard
bios
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510572038.0A
Other languages
English (en)
Inventor
徐艳东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201510572038.0A priority Critical patent/CN105183600A/zh
Publication of CN105183600A publication Critical patent/CN105183600A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种远程定位硬盘故障的装置和方法,涉及硬盘故障监测技术,该装置包括系统BIOS、硬盘、BMC和远程监控系统;在系统开机阶段BIOS通过硬盘接口收集所有硬盘的信息,并将硬盘信息提供给BMC;同时BMC检测硬盘的实际工作状态;当发现硬盘故障时,便将硬盘信息主动上报给远程监控系统,实现故障硬盘的远程定位。本发明可以快速准确定位到故障硬盘,方便操作人员更换硬盘,大大减小了排查定位故障硬盘的时间。

Description

一种远程定位硬盘故障的装置和方法
技术领域
本发明涉及硬盘故障监测技术,具体的说是一种远程定位硬盘故障的装置和方法。
背景技术
高性能计算技术的发展伴随着计算机技术的发展,同时也伴随着CPU处理能力提升,业务系统对存储容量要求的提高。硬盘容量的提升一方面表现为单个硬盘容量的提高,另一方面表现为硬盘个数的增加。伴随着硬盘个数的增加,增加了定位故障硬盘的难度。传统定位故障硬盘的方法,是在系统下使用测试工具进行硬盘测试,最终找到故障硬盘,这种方法难度和复杂度非常大。并且传统的方法,随着硬盘个数的增加,一旦出现硬盘故障,测试难度和复杂度也会越来越大。而另一方面,计算机硬盘数目的增加又是不可阻挡的趋势。
这种传统的定位故障硬盘的方法,在实际定位故障硬盘的操作中存在诸多局限,已经无法满足高性能计算技术的发展,因为此类方法适用于硬盘个数很少的计算机应用。然而,在日益增长的存储领域,对硬盘容量和硬盘个数都有了更高的要求。因此,提出一种远程定位故障硬盘的方法就很有必要了。
发明内容
本发明针对目前需求以及现有技术发展的不足之处,提供一种快速、准确远程定位故障硬盘的装置和方法。
本发明所述一种远程定位硬盘故障的装置和方法,解决上述技术问题采用的技术方案如下:所述远程定位硬盘故障的装置,主要包括系统BIOS、硬盘、BMC和远程监控系统;其中,系统BIOS通过硬盘接口与所有硬盘连接,并且BIOS与BMC信息交互;BIOS通过硬盘接口收集所有硬盘的信息,并将这些硬盘信息传递给BMC;同时,BMC与各个硬盘连接,适用于检测硬盘的实际工作状态,并且BMC与所述远程监控系统通信交互,若检测到故障硬盘,则将故障硬盘的信息发送到远程监控系统。
优选的,系统BIOS通过SATA或SAS硬盘接口收集所有硬盘信息。
优选的,系统BMC通过SGPIO接口检测硬盘的实际工作状态。
一种远程定位故障硬盘的方法,其主要步骤包括:(1)系统开机,(2)BIOS将硬盘型号、位置信息传递给BMC,(3)BMC查询检测硬盘状态信息,(4)BMC将故障硬盘的型号、位置信息以及状态信息发送到远程监控系统。
优选的,BIOS通过硬盘接口收集所有硬盘信息,将硬盘的型号、位置信息组织成IPMI命令,并发送给BMC;BMC收到BIOS发送的IPMI命令并解析,获得硬盘的位置、型号信息。
本发明所述一种远程定位硬盘故障的装置和方法与现有技术相比具有的有益效果是:该发明通过BIOS收集硬信息,然后BMC检测硬盘状态、反馈故障硬盘信息等方式,实现了故障硬盘的远程定位功能;极大地提高了故障硬盘定位的效率;基于硬盘数较多的计算机应用,可以在远程方便的定位故障硬盘位置、故障硬盘个数,为系统管理人员更换故障硬盘提供了便利,从而减少系统管理的复杂程度,大大减小了排查定位故障硬盘的时间,快速解决客户问题提供了有利保障。本发明弥补了传统定位故障硬盘方法的不足,使其更适用于复杂的高性能计算机应用领域,因而具有非常广阔的发展空间。
附图说明
附图1为所述远程定位硬盘故障的装置的示意框图;
附图2为所述远程定位硬盘故障的方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明所述一种远程定位硬盘故障的装置和方法进一步详细说明。
本发明所述一种远程定位硬盘故障的装置,其系统结构包括系统BIOS、硬盘、BMC和远程监控系统;在系统开机阶段BIOS通过硬盘接口收集所有硬盘的信息,并将硬盘信息提供给BMC;同时,BMC在系统运行过程中检测硬盘的实际工作状态;当发现硬盘故障时,便将硬盘信息主动上报给远程监控系统,实现故障硬盘的远程定位。该发明相比传统故障硬盘定位方法,更加高效快速、准确,且支持远程监控和故障主动上报等功能。
实施例:
本实施例所述一种远程定位硬盘故障的装置,其系统结构如附图1所示,主要包括系统BIOS、硬盘、BMC和远程监控系统;其中,系统BIOS通过硬盘接口与所有硬盘连接,并且BIOS与BMC信息交互;系统BIOS通过硬盘接口收集所有硬盘的信息,并将这些硬盘信息传递给BMC;同时,BMC与各个硬盘连接,适用于检测硬盘的实际工作状态,并且BMC与所述远程监控系统通信交互,若检测到故障硬盘,便将故障硬盘的信息发送到远程监控系统,实现故障硬盘的远程定位功能。
本实施例所述远程定位故障硬盘的装置中,系统BIOS通过SATA或SAS等硬盘接口收集所有硬盘信息,所述硬盘信息包括硬盘的型号、位置等信息。在系统运行过程中,系统BMC通过SGPIO接口检测硬盘的实际工作状态,并在发现硬盘故障时,将故障硬盘的型号、位置、工作状态等信息主动上报给远程监控系统。
通过本实施例所述远程定位故障硬盘的装置,提出一种远程定位故障硬盘的方法,其主要步骤包括:(1)系统开机,(2)BIOS将硬盘型号、位置信息传递给BMC,(3)BMC查询检测硬盘状态信息,(4)BMC将故障硬盘的型号及位置信息发送到远程监控系统。
附图2为所述远程定位故障硬盘的方法的流程图,如附图2所示,系统开机后,BIOS通过硬盘接口收集所有硬盘信息,将硬盘的型号、位置等信息组织成IPMI命令,并发送给BMC;BMC收到BIOS发送的IPMI命令并解析,获得硬盘的位置、型号等信息;同时BMC检测所有硬盘状态,如果检测到硬盘有故障,将故障硬盘信息传递到远程监控系统。通过本方法,在系统运行过程中就可以快速定位到故障硬盘。
本发明中,系统中BMC与BIOS、所有硬盘之间都有信息传输的接口(SGPIO接口、硬盘接口),BMC能够通过SGPIO接口检测硬盘的工作状态,但是无法获取硬盘的型号、位置等复杂信息,BMC可以通过SATA或SAS等硬盘接口获取这些复杂信息,并通过IPMI命令将这些信息传递给BMC。随后,若BMC检测到某块硬盘故障时,会将故障硬盘的型号、位置等复杂信息、工作状态反馈给远端的远程监控系统。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (5)

1.一种远程定位硬盘故障的装置,其特征在于,主要包括系统BIOS、硬盘、BMC和远程监控系统;其中,系统BIOS通过硬盘接口与所有硬盘连接,并且BIOS与BMC信息交互;BIOS通过硬盘接口收集所有硬盘的信息,并将这些硬盘信息传递给BMC;同时,BMC与各个硬盘连接,适用于检测硬盘的实际工作状态,并且BMC与所述远程监控系统通信交互,若检测到故障硬盘,则将故障硬盘的信息发送到远程监控系统。
2.根据权利要求1所述一种远程定位硬盘故障的装置,其特征在于,系统BIOS通过SATA或SAS硬盘接口收集所有硬盘信息。
3.根据权利要求2所述一种远程定位硬盘故障的装置,其特征在于,系统BMC通过SGPIO接口检测硬盘的实际工作状态。
4.一种远程定位硬盘故障的方法,其特征在于,其主要步骤包括:(1)系统开机,(2)BIOS将硬盘型号、位置信息传递给BMC,(3)BMC查询检测硬盘状态信息,(4)BMC将故障硬盘的型号、位置信息以及状态信息发送到远程监控系统。
5.根据权利要求4所述一种远程定位硬盘故障的方法,其特征在于,BIOS通过硬盘接口收集所有硬盘信息,将硬盘的型号、位置信息组织成IPMI命令,并发送给BMC;BMC收到BIOS发送的IPMI命令并解析,获得硬盘的位置、型号信息。
CN201510572038.0A 2015-09-09 2015-09-09 一种远程定位硬盘故障的装置和方法 Pending CN105183600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510572038.0A CN105183600A (zh) 2015-09-09 2015-09-09 一种远程定位硬盘故障的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510572038.0A CN105183600A (zh) 2015-09-09 2015-09-09 一种远程定位硬盘故障的装置和方法

Publications (1)

Publication Number Publication Date
CN105183600A true CN105183600A (zh) 2015-12-23

Family

ID=54905692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510572038.0A Pending CN105183600A (zh) 2015-09-09 2015-09-09 一种远程定位硬盘故障的装置和方法

Country Status (1)

Country Link
CN (1) CN105183600A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105634814A (zh) * 2016-01-05 2016-06-01 浪潮电子信息产业股份有限公司 一种服务器资产信息变更的监控方法
CN105808397A (zh) * 2016-03-07 2016-07-27 联想(北京)有限公司 一种信息处理方法及装置、电子设备
CN106776388A (zh) * 2016-11-24 2017-05-31 英业达科技有限公司 服务器系统与读取方法
WO2017125014A1 (zh) * 2016-01-18 2017-07-27 中兴通讯股份有限公司 硬盘监控方法及装置
CN107066361A (zh) * 2017-04-17 2017-08-18 南京百敖软件有限公司 一种利用bmc禁用坏损内存的方法和装置
CN107179974A (zh) * 2016-03-09 2017-09-19 佛山市顺德区顺达电脑厂有限公司 计算机硬件的监控方法
CN107203456A (zh) * 2016-03-17 2017-09-26 昆达电脑科技(昆山)有限公司 服务器故障的远程报警系统及方法
CN107391140A (zh) * 2017-07-25 2017-11-24 郑州云海信息技术有限公司 一种存储设备的图片显示的方法和系统
CN107402855A (zh) * 2017-06-30 2017-11-28 郑州云海信息技术有限公司 一种硬盘的检测方法、装置及服务器
CN107729169A (zh) * 2017-09-25 2018-02-23 郑州云海信息技术有限公司 一种四子星服务器节点对应盘位的远程定位方法与装置
CN107766184A (zh) * 2017-09-21 2018-03-06 曙光信息产业(北京)有限公司 检验硬盘设备的方法及装置
CN107766203A (zh) * 2017-10-10 2018-03-06 郑州云海信息技术有限公司 一种快速定位sds中硬盘故障的方法
CN109032867A (zh) * 2018-07-25 2018-12-18 郑州云海信息技术有限公司 一种故障诊断方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1797367A (zh) * 2004-12-30 2006-07-05 英业达股份有限公司 使用系统管理中断信号的监控系统及方法
US20070088988A1 (en) * 2005-10-14 2007-04-19 Dell Products L.P. System and method for logging recoverable errors
CN101795204A (zh) * 2009-02-02 2010-08-04 广达电脑股份有限公司 远距硬件检测系统及方法
CN102799506A (zh) * 2012-06-29 2012-11-28 浪潮电子信息产业股份有限公司 一种定位故障内存的方法
CN104008035A (zh) * 2014-06-10 2014-08-27 浪潮电子信息产业股份有限公司 一种实现硬盘背板状态远程监测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1797367A (zh) * 2004-12-30 2006-07-05 英业达股份有限公司 使用系统管理中断信号的监控系统及方法
US20070088988A1 (en) * 2005-10-14 2007-04-19 Dell Products L.P. System and method for logging recoverable errors
CN101795204A (zh) * 2009-02-02 2010-08-04 广达电脑股份有限公司 远距硬件检测系统及方法
CN102799506A (zh) * 2012-06-29 2012-11-28 浪潮电子信息产业股份有限公司 一种定位故障内存的方法
CN104008035A (zh) * 2014-06-10 2014-08-27 浪潮电子信息产业股份有限公司 一种实现硬盘背板状态远程监测方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105634814A (zh) * 2016-01-05 2016-06-01 浪潮电子信息产业股份有限公司 一种服务器资产信息变更的监控方法
WO2017125014A1 (zh) * 2016-01-18 2017-07-27 中兴通讯股份有限公司 硬盘监控方法及装置
CN105808397A (zh) * 2016-03-07 2016-07-27 联想(北京)有限公司 一种信息处理方法及装置、电子设备
CN107179974A (zh) * 2016-03-09 2017-09-19 佛山市顺德区顺达电脑厂有限公司 计算机硬件的监控方法
CN107203456A (zh) * 2016-03-17 2017-09-26 昆达电脑科技(昆山)有限公司 服务器故障的远程报警系统及方法
CN106776388A (zh) * 2016-11-24 2017-05-31 英业达科技有限公司 服务器系统与读取方法
CN107066361A (zh) * 2017-04-17 2017-08-18 南京百敖软件有限公司 一种利用bmc禁用坏损内存的方法和装置
CN107402855A (zh) * 2017-06-30 2017-11-28 郑州云海信息技术有限公司 一种硬盘的检测方法、装置及服务器
CN107391140A (zh) * 2017-07-25 2017-11-24 郑州云海信息技术有限公司 一种存储设备的图片显示的方法和系统
CN107391140B (zh) * 2017-07-25 2020-08-25 苏州浪潮智能科技有限公司 一种存储设备的图片显示的方法和系统
CN107766184A (zh) * 2017-09-21 2018-03-06 曙光信息产业(北京)有限公司 检验硬盘设备的方法及装置
CN107729169A (zh) * 2017-09-25 2018-02-23 郑州云海信息技术有限公司 一种四子星服务器节点对应盘位的远程定位方法与装置
CN107766203A (zh) * 2017-10-10 2018-03-06 郑州云海信息技术有限公司 一种快速定位sds中硬盘故障的方法
CN109032867A (zh) * 2018-07-25 2018-12-18 郑州云海信息技术有限公司 一种故障诊断方法、装置及设备

Similar Documents

Publication Publication Date Title
CN105183600A (zh) 一种远程定位硬盘故障的装置和方法
WO2021196521A1 (zh) 远程运维管理系统及方法
US9766965B2 (en) System and method for monitoring and detecting faulty storage devices
US20110072289A1 (en) Method and apparatus for discovery and detection of relationship between device and power distribution outlet
US9917641B2 (en) Optical power data processing method, device and computer storage medium
RU2013151607A (ru) Межоблачное управление и устранение неполадок
CN104899120A (zh) 一种基于bmc开关机功能的服务器稳定性测试方法
CN103605596B (zh) 用于atca刀片上的fpga芯片与bmc芯片协同电源管理系统和方法
CN104461809A (zh) 一种故障信息管理方法及系统
CN102135932A (zh) 一种监控系统及监控方法
CN103353893B (zh) 调度自动化系统分布式数据采集故障智能诊断方法
CN105243004A (zh) 一种故障资源检测方法及装置
CN109086192B (zh) 一种基于ipmi的板载sata硬盘点灯系统及方法
CN105278644A (zh) 一种bmc失效后服务器风扇全速转动的方法
CN105096991A (zh) 一种快速直观查看硬盘状态的指示灯设计
CN105068763B (zh) 一种针对存储故障的虚拟机容错系统和方法
CN103630822A (zh) 一种监测射频功率放大器状态的方法和装置
US10402254B2 (en) Storage drive monitoring
CN105425741A (zh) 基于无线通信模式的三相异步电机降温监控及保护装置
CN103092710A (zh) 云计算操作系统中一种高可用虚拟机运行方法
CN109446002B (zh) 一种用于服务器抓取sata硬盘的治具板、系统及方法
CN105652119A (zh) 故障信息的获取方法,装置及系统
CN100559761C (zh) 网络测试装置及方法
CN104484753A (zh) 一种服务器资产信息追溯方法
CN104767995A (zh) 一种记录电子产品测试数据的方法和记录模块

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151223