CN104536855B - 故障检测方法及装置 - Google Patents

故障检测方法及装置 Download PDF

Info

Publication number
CN104536855B
CN104536855B CN201410728441.3A CN201410728441A CN104536855B CN 104536855 B CN104536855 B CN 104536855B CN 201410728441 A CN201410728441 A CN 201410728441A CN 104536855 B CN104536855 B CN 104536855B
Authority
CN
China
Prior art keywords
hard disk
management controller
baseboard management
condition information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410728441.3A
Other languages
English (en)
Other versions
CN104536855A (zh
Inventor
田洪元
胡远明
李其责
夏嵩
王卫钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Shuguang (Hebei) Computing Technology Co.,Ltd.
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201410728441.3A priority Critical patent/CN104536855B/zh
Publication of CN104536855A publication Critical patent/CN104536855A/zh
Application granted granted Critical
Publication of CN104536855B publication Critical patent/CN104536855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障检测方法及装置,该故障检测方法包括:侦测各个硬盘的硬盘状况信息并将硬盘状况信息进行汇总;通过管理接口将汇总后的信息发送至基板管理控制器;基板管理控制器通过与各个硬盘一一对应的通用输入输出接口侦测各个硬盘的硬盘状况信息;基板管理控制器将通过通用输入输出接口侦测到的硬盘状况信息与汇总后的信息进行比较,判断各个硬盘是否发生故障。本发明的技术方案工作流程简单方便,并且完全智能化不需要人工干预,大大减轻了服务器管理员的工作,提高了系统的可用性。

Description

故障检测方法及装置
技术领域
本发明涉及计算机领域,具体来说,涉及一种故障检测方法及装置。
背景技术
随着大数据时代的到来,以及数据的爆炸式增长,作为信息存储的媒介,硬盘的部署量也呈现出爆炸式增长。随着硬盘的大量部署,硬盘的故障率也急剧上升,其中最严重的故障就是硬盘突然掉线,用户以及系统无法对硬盘进行访问。而根据大量的维护数据,80%出现突然掉线的硬盘经硬盘厂商进行专业检测后,并未发现硬盘不良。而对这些硬盘进行一次下电,上电过程后,硬盘即可正常工作。在服务器不中断服务的前提下,针对上述可恢复的硬盘进行故障恢复操作,是业内一个技术难点。
现有技术中,通常是当硬盘掉线后,先将硬盘从服务器上拔除,然后再插入,完成一次对硬盘的上/下电过程,让硬盘恢复正常工作。然而现代数据中心中可能部署数十万块硬盘,且服务器机房管理日益智能化,一个数据中心,只配备少量管理员,对于每次硬盘掉线,都由管理员对硬盘进行插拔动作,在反映速度以及操作上都是一个巨大的挑战。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种故障检测方法,能够自动检测出掉线的硬盘。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种故障检测方法。
该故障检测方法包括:
侦测各个硬盘的硬盘状况信息并将所述硬盘状况信息进行汇总;
通过管理接口将汇总后的信息发送至基板管理控制器;
所述基板管理控制器通过与所述各个硬盘一一对应的通用输入输出接口侦测所述各个硬盘的硬盘状况信息;
所述基板管理控制器将通过通用输入输出接口侦测到的硬盘状况信息与所述汇总后的信息进行比较,判断所述各个硬盘是否发生故障。
其中,当所述基板管理控制器通过通用输入输出接口侦测到的硬盘状况信息与所述汇总后的信息不一致时,所述基板管理控制器根据发生变化的硬盘状况信息确定发生故障的硬盘。
其中,所述基板管理控制器通过所述发生故障的硬盘对应的通用输入输出接口对所述发生故障的硬盘进行上电或下电操作。
其中,当所述基板管理控制器完成所述上电或下点操作后,将所述上电或下电的操作流程生成任务日志。
此外,每个硬盘都由属于自身对应的独立的供电装置对其供电。
根据本发明的另一方面还提供了一种故障检测装置,包括:
第一侦测模块,用于侦测各个硬盘的硬盘状况信息并将所述硬盘状况信息进行汇总;
发送模块,用于通过管理接口将汇总后的信息发送至基板管理控制器;
第二侦测模块,所述基板管理控制器通过与所述各个硬盘一一对应的通用输入输出接口侦测所述各个硬盘的硬盘状况信息;
判断模块,用于所述基板管理控制器将通过通用输入输出接口侦测到的硬盘状况信息与所述汇总后的信息进行比较,判断所述各个硬盘是否发生故障。
该装置还包括:确定模块,用于当所述基板管理控制器通过通用输入输出接口侦测到的硬盘状况信息与所述汇总后的信息不一致时,所述基板管理控制器根据发生变化的硬盘状况信息确定发生故障的硬盘。
该装置还包括:供电模块,用于所述基板管理控制器通过所述发生故障的硬盘对应的通用输入输出接口对所述发生故障的硬盘进行上电或下电操作。
该装置还包括:生成模块,用于当所述基板管理控制器完成所述上电或下点操作后,将所述上电或下电的操作流程生成任务日志。
该装置还包括:电源,每个硬盘都由属于自身对应的独立的电源对其供电。
本发明通过将收集到的硬盘状况信息进行汇总,并且基板管理控制器实时侦测各个硬盘的硬盘状况信息,并将其与汇总后的信息进行比较从而判断出发生掉线的硬盘,本发明的技术方案工作流程简单方便,并且完全智能化不需要人工干预,大大减轻了服务器管理员的工作,提高了系统的可用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的故障检测方法的流程图;
图2是根据本发明实施例的故障检测方法的示意图;
图3是根据本发明实施例的故障检测装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种故障检测方法,但是需要注意的是,在本发明中的故障并不是指硬盘的损坏,而是硬盘在工作工程中突然掉线无法提供工作的状态。
如图1所示,根据本发明实施例的故障检测方法包括:
步骤S101,侦测各个硬盘的硬盘状况信息并将硬盘状况信息进行汇总;
步骤S103,通过管理接口将汇总后的信息发送至基板管理控制器;
步骤S105,基板管理控制器通过与各个硬盘一一对应的通用输入输出接口侦测各个硬盘的硬盘状况信息;
步骤S107,基板管理控制器将通过通用输入输出接口侦测到的硬盘状况信息与汇总后的信息进行比较,判断各个硬盘是否发生故障。
其中,当基板管理控制器通过通用输入输出接口侦测到的硬盘状况信息与汇总后的信息不一致时,基板管理控制器根据发生变化的硬盘状况信息确定发生故障的硬盘。
其中,基板管理控制器通过发生故障的硬盘对应的通用输入输出接口对发生故障的硬盘进行上电或下电操作。
其中,当基板管理控制器完成上电或下点操作后,将上电或下电的操作流程生成任务日志。
此外,每个硬盘都由属于自身对应的独立的供电装置对其供电。
另外,本发明的基板管理控制器可以为BMC、单片机、DSP、FPGA等;通用输入输出接口可以为GPIO、I2C转GPIO或其他形式。智能管理平台接口可以为IPMI、I2C、LPC等。
在一个具体的实施例中,如图2所示,是通过如下步骤进行硬盘的掉线检测及恢复操作的:
1.每块硬盘有独立的供电系统,供电系统由BMC控制。
2.本发明通过在操作系统中部署一个脚本,获取系统侦测到的硬盘状况,汇总当前在线的硬盘状况信息。
3.部署在操作系统中的脚本,通过IPMI指令,将侦测到的硬盘状况信息发送到BMC。
4.BMC通过GPIO侦测硬盘的在位信号,判断当前物理硬盘是否插入到系统中。每颗硬盘对应一个专用的GPIO信号。
5.如果BMC的GPIO侦测到的硬盘在位信息与来自操作系统的硬盘状态信息一致,则表明当前硬盘没有掉线故障发生。
6.如果BMC的GPIO侦测到的硬盘在位信息与来自操作系统的硬盘状态信息不一致,则表明当前有硬盘出现掉线故障。
7.当BMC判断当前有硬盘掉线时,通过GPIO完成对硬盘供电系统的上/下电,进而排除硬盘掉线故障。
8.BMC在系统日志中记录关于硬盘上下电的故障恢复操作,方便管理员进行查询。
根据本发明的实施例,还提供了一种故障检测装置。
如图3所示,根据本发明实施例的故障检测装置包括:
第一侦测模块31,用于侦测各个硬盘的硬盘状况信息并将硬盘状况信息进行汇总;
发送模块32,用于通过管理接口将汇总后的信息发送至基板管理控制器;
第二侦测模块33,基板管理控制器通过与各个硬盘一一对应的通用输入输出接口侦测各个硬盘的硬盘状况信息;
判断模块34,用于基板管理控制器将通过通用输入输出接口侦测到的硬盘状况信息与汇总后的信息进行比较,判断各个硬盘是否发生故障。
该装置还包括:确定模块(未示出),用于当基板管理控制器通过通用输入输出接口侦测到的硬盘状况信息与汇总后的信息不一致时,基板管理控制器根据发生变化的硬盘状况信息确定发生故障的硬盘。
该装置还包括:供电模块(未示出),用于基板管理控制器通过发生故障的硬盘对应的通用输入输出接口对发生故障的硬盘进行上电或下电操作。
该装置还包括:生成模块(未示出),用于当基板管理控制器完成上电或下点操作后,将上电或下电的操作流程生成任务日志。
该装置还包括:电源(未示出),每个硬盘都由属于自身对应的独立的电源对其供电。
综上所述,本发明通过将收集到的硬盘状况信息进行汇总,并且基板管理控制器实时侦测各个硬盘的硬盘状况信息,并将其与汇总后的信息进行比较从而判断出发生掉线的硬盘,本发明的技术方案工作流程简单方便,并且完全智能化不需要人工干预,大大减轻了服务器管理员的工作,提高了系统的可用性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种故障检测方法,其特征在于,包括:
侦测各个硬盘的硬盘状况信息并将所述硬盘状况信息进行汇总;
通过管理接口将汇总后的信息发送至基板管理控制器;
所述基板管理控制器通过与所述各个硬盘一一对应的通用输入输出接口侦测所述各个硬盘的硬盘状况信息;
所述基板管理控制器将通过通用输入输出接口侦测到的硬盘状况信息与所述汇总后的信息进行比较,判断所述各个硬盘是否发生故障;
其中,当所述基板管理控制器通过通用输入输出接口侦测到的硬盘状况信息与所述汇总后的信息不一致时,所述基板管理控制器根据发生变化的硬盘状况信息确定发生故障的硬盘;
所述基板管理控制器通过所述发生故障的硬盘对应的通用输入输出接口对所述发生故障的硬盘进行上电或下电操作;
当所述基板管理控制器完成所述上电或下电操作后,将所述上电或下电的操作流程生成任务日志。
2.根据权利要求1所述的方法,其特征在于,每个硬盘由属于自身对应的独立的供电装置对其供电。
3.一种故障检测装置,其特征在于,包括:
第一侦测模块,用于侦测各个硬盘的硬盘状况信息并将所述硬盘状况信息进行汇总;
发送模块,用于通过管理接口将汇总后的信息发送至基板管理控制器;
第二侦测模块,所述基板管理控制器通过与所述各个硬盘一一对应的通用输入输出接口侦测所述各个硬盘的硬盘状况信息;
判断模块,用于所述基板管理控制器将通过通用输入输出接口侦测到的硬盘状况信息与所述汇总后的信息进行比较,判断所述各个硬盘是否发生故障;
其中,确定模块,用于当所述基板管理控制器通过通用输入输出接口侦测到的硬盘状况信息与所述汇总后的信息不一致时,所述基板管理控制器根据发生变化的硬盘状况信息确定发生故障的硬盘;
供电模块,用于所述基板管理控制器通过所述发生故障的硬盘对应的通用输入输出接口对所述发生故障的硬盘进行上电或下电操作;
生成模块,用于当所述基板管理控制器完成所述上电或下电操作后,将所述上电或下电的操作流程生成任务日志。
4.根据权利要求3所述的装置,其特征在于,包括:
电源,每个硬盘由属于自身对应的独立的电源对其供电。
CN201410728441.3A 2014-12-03 2014-12-03 故障检测方法及装置 Active CN104536855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410728441.3A CN104536855B (zh) 2014-12-03 2014-12-03 故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410728441.3A CN104536855B (zh) 2014-12-03 2014-12-03 故障检测方法及装置

Publications (2)

Publication Number Publication Date
CN104536855A CN104536855A (zh) 2015-04-22
CN104536855B true CN104536855B (zh) 2018-05-01

Family

ID=52852385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410728441.3A Active CN104536855B (zh) 2014-12-03 2014-12-03 故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN104536855B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224429A (zh) * 2015-08-03 2016-01-06 深圳市美贝壳科技有限公司 一种检测usb设备挂载信息方法及系统
CN105242998B (zh) * 2015-09-01 2019-05-14 福建新大陆软件工程有限公司 一种基于hdfs的磁盘故障检测方法及系统
CN106294065A (zh) * 2016-07-28 2017-01-04 联想(北京)有限公司 硬盘故障监测方法、装置及系统
CN106919490A (zh) * 2017-02-19 2017-07-04 郑州云海信息技术有限公司 服务器故障检测方法及装置
CN108306964A (zh) * 2018-01-31 2018-07-20 郑州云海信息技术有限公司 服务器节点信息集中显示方法、系统、设备及存储介质
CN108304290A (zh) * 2018-03-02 2018-07-20 郑州云海信息技术有限公司 服务器上电状态监测系统及方法、计算机存储器及设备
CN108650132A (zh) * 2018-05-11 2018-10-12 郑州云海信息技术有限公司 一种机柜电源稳定性检测方法、装置、设备及存储介质
CN109062738A (zh) * 2018-07-20 2018-12-21 郑州云海信息技术有限公司 一种移除受损硬盘的方法和装置
CN109116962A (zh) * 2018-08-15 2019-01-01 郑州云海信息技术有限公司 一种利用bmc通过i2c控制硬盘上下电的方法与系统
CN109284207A (zh) * 2018-08-30 2019-01-29 紫光华山信息技术有限公司 硬盘故障处理方法、装置、服务器和计算机可读介质
CN109213661A (zh) * 2018-09-17 2019-01-15 郑州云海信息技术有限公司 一种简便易行的实现硬盘上下电功能的系统及方法
CN109359016A (zh) * 2018-09-27 2019-02-19 郑州云海信息技术有限公司 一种硬盘告警方法与装置
CN109446002B (zh) * 2018-10-17 2022-02-18 郑州云海信息技术有限公司 一种用于服务器抓取sata硬盘的治具板、系统及方法
CN110688268A (zh) * 2019-09-09 2020-01-14 苏州浪潮智能科技有限公司 Nvme ssd的故障定位方法、装置、设备及介质
CN112213980A (zh) * 2020-10-21 2021-01-12 苏州浪潮智能科技有限公司 一种单片机故障诊断板卡及方法
CN114115728B (zh) * 2021-10-29 2023-08-25 苏州浪潮智能科技有限公司 一种硬盘定位的便捷方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889053A (zh) * 2005-06-29 2007-01-03 英业达股份有限公司 系统信息的自动诊断方法
CN101286086A (zh) * 2008-06-10 2008-10-15 杭州华三通信技术有限公司 硬盘掉电保护方法、装置以及硬盘和硬盘掉电保护系统
JP4450609B2 (ja) * 2003-11-28 2010-04-14 株式会社日立製作所 記憶装置
CN102360327A (zh) * 2011-10-13 2012-02-22 记忆科技(深圳)有限公司 硬盘状态信息收集方法与装置
CN103729279A (zh) * 2012-10-11 2014-04-16 鸿富锦精密工业(深圳)有限公司 硬盘温度侦测系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5634528B2 (ja) * 2010-12-13 2014-12-03 株式会社日立製作所 ストレージ装置及びストレージ装置の電源障害検出方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4450609B2 (ja) * 2003-11-28 2010-04-14 株式会社日立製作所 記憶装置
CN1889053A (zh) * 2005-06-29 2007-01-03 英业达股份有限公司 系统信息的自动诊断方法
CN101286086A (zh) * 2008-06-10 2008-10-15 杭州华三通信技术有限公司 硬盘掉电保护方法、装置以及硬盘和硬盘掉电保护系统
CN102360327A (zh) * 2011-10-13 2012-02-22 记忆科技(深圳)有限公司 硬盘状态信息收集方法与装置
CN103729279A (zh) * 2012-10-11 2014-04-16 鸿富锦精密工业(深圳)有限公司 硬盘温度侦测系统

Also Published As

Publication number Publication date
CN104536855A (zh) 2015-04-22

Similar Documents

Publication Publication Date Title
CN104536855B (zh) 故障检测方法及装置
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN102111310B (zh) Cdn设备状态监控方法
CN104268061B (zh) 一种适用于虚拟机的存储状态监控方法
CN100504795C (zh) 一种计算机raid阵列预警系统及方法
CN103455395B (zh) 一种硬盘故障的检测方法及装置
CN112732477B (zh) 一种带外自检故障隔离的方法
CN103901298A (zh) 变电站设备运行状态的检测方法与系统
CN106936616A (zh) 备份通信方法和装置
CN103378982A (zh) 互联网业务运行监测方法和系统
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和系统
CN105740110A (zh) 一种linux系统下硬盘smart信息的检测方法
CN104301690A (zh) 一种现场监测方法及系统
CN109143954A (zh) 一种实现控制器复位的系统及方法
CN109032863A (zh) 一种NVMe固态硬盘及其故障原因的确定方法、系统
CN103559124A (zh) 故障快速检测方法及装置
CN106708646A (zh) 硬盘异常自动复位方法及其装置
CN101820359A (zh) 一种网络设备的故障处理方法和设备
CN105372584A (zh) 一种微动开关测试方法、装置及系统
CN102662787A (zh) 一种保护系统盘raid的方法
CN101763294A (zh) 根据时间段查看和备份系统操作日志的方法
CN108519927A (zh) 一种基于icfs系统的osd故障定位方法及系统
CN107026759A (zh) 一种基于bmc的远程管理bbu模块的固件及其开发方法
CN114327968A (zh) 具有通用接口的服务器硬件故障电话预警实现方法及装置
CN103457771B (zh) 一种ha的虚拟机集群的管理方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220721

Address after: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee after: Dawning Information Industry (Beijing) Co.,Ltd.

Patentee after: DAWNING INFORMATION INDUSTRY Co.,Ltd.

Address before: 100193 No. 36 Building, No. 8 Hospital, Wangxi Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231026

Address after: Room 411, No. 1988 Yongxing West Road, High tech Zone, Hengshui City, Hebei Province, 053000

Patentee after: Zhongke Shuguang (Hebei) Computing Technology Co.,Ltd.

Address before: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

Patentee before: DAWNING INFORMATION INDUSTRY Co.,Ltd.