CN109271270A - 存储系统中底层硬件的故障排除方法、系统及相关装置 - Google Patents

存储系统中底层硬件的故障排除方法、系统及相关装置 Download PDF

Info

Publication number
CN109271270A
CN109271270A CN201811124197.4A CN201811124197A CN109271270A CN 109271270 A CN109271270 A CN 109271270A CN 201811124197 A CN201811124197 A CN 201811124197A CN 109271270 A CN109271270 A CN 109271270A
Authority
CN
China
Prior art keywords
failure
error code
event
hardware
troubleshooting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811124197.4A
Other languages
English (en)
Inventor
唐帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811124197.4A priority Critical patent/CN109271270A/zh
Publication of CN109271270A publication Critical patent/CN109271270A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation

Abstract

本申请所提供的一种存储系统中底层硬件的故障排除方法,包括:当所述底层硬件发生故障时,接收硬件传感器发送的故障事件信息;根据所述故障事件信息确定对应的错误代码;根据所述错误代码确定相应的故障解决方案,以便根据所述故障解决方案进行故障排除。利用硬件传感器对底层硬件进行实时监控,当发生故障时,即可根据故障事件信息确定相应的错误代码和故障解决方案,可以为用户提供故障解决方案和修复策略,快速有效的对存储系统中底层硬件的故障进行排除,提高产品的竞争力。本申请还提供一种存储系统中底层硬件的故障排除系统、一种计算机可读存储介质和一种存储服务器,具有上述有益效果。

Description

存储系统中底层硬件的故障排除方法、系统及相关装置
技术领域
本申请涉及存储设备领域,特别涉及一种存储系统中底层硬件的故障排除方法、系统、一种计算机可读存储介质和一种存储服务器。
背景技术
在传统的存储系统当中,对于底层设备的一些底层硬件FRU信息,当出现故障时,客户只能通过UI界面感知,但是对于其故障的排除没有明确和有效的方法,这时候基本上都要联系售后客服来对于此问题进行解决。而且,对于一些复杂的故障,售后人员可能也不太能快速定位并解决该问题,这样既浪费时间又浪费人力。这种产品在现在市场上不存在竞争力。
因此,如何对存储系统中底层硬件进行故障排除是本领域技术人员亟需解决的技术问题。
发明内容
本申请的目的是提供一种存储系统中底层硬件的故障排除方法、系统、一种计算机可读存储介质和一种存储服务器,解决现有的存储系统无法对于底层硬件进行故障明确有效排除的问题。
为解决上述技术问题,本申请提供一种存储系统中底层硬件的故障排除方法,具体技术方案如下:
当所述底层硬件发生故障时,接收硬件传感器发送的故障事件信息;
根据所述故障事件信息确定对应的错误代码;
根据所述错误代码确定相应的故障解决方案,以便根据所述故障解决方案进行故障排除。
其中,所述硬件传感器由所述存储系统中的BMC控制并对所述底层硬件进行监控。
其中,根据所述错误代码确定相应的故障解决方案包括:
根据所述错误代码确定对应的故障严重等级;
根据所述故障严重等级确定相应的故障解决方案。
其中,还包括:
当所述故障严重等级达到预设危险等级时,将发生故障的所述底层硬件所在的节点移出所述存储系统。
其中,还包括:
将所述错误代码、所述故障解决方案和所述底层硬件的地址发送至用户界面。
本申请还提供一种存储系统中底层硬件的故障排除系统,其特征在于,包括:
接收模块,用于当所述底层硬件发生故障时,接收硬件传感器发送的故障事件信息;
第一确定模块,用于根据所述故障事件信息确定对应的错误代码;
第二确定模块,用于根据所述错误代码确定相应的故障解决方案,以便根据所述故障解决方案进行故障排除。
其中,第二确定模块包括:
第一确定单元,用于根据所述错误代码确定对应的故障严重等级;
第二确定单元,用于根据所述故障严重等级确定相应的故障解决方案。
其中,还包括:
移除模块,用于当所述故障严重等级达到预设危险等级时,将发生故障的所述底层硬件所在的节点移出所述存储系统。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的故障排除方法的步骤。
本申请还提供一种存储服务器,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的故障排除方法的步骤。
本申请所提供的一种存储系统中底层硬件的故障排除方法,包括:当所述底层硬件发生故障时,接收硬件传感器发送的故障事件信息;根据所述故障事件信息确定对应的错误代码;根据所述错误代码确定相应的故障解决方案,以便根据所述故障解决方案进行故障排除。
本申请利用硬件传感器对底层硬件进行实时监控,当发生故障时,即可根据故障事件信息确定相应的错误代码和故障解决方案,可以为用户提供故障解决方案和修复策略,快速有效的对存储系统中底层硬件的故障进行排除,提高产品的竞争力。本申请还提供一种存储系统中底层硬件的故障排除系统、一种计算机可读存储介质和一种存储服务器,具有上述有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种存储系统中底层硬件的故障排除方法的流程图;
图2为本申请实施例所提供的一种存储系统中底层硬件的故障排除系统结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种存储系统中底层硬件的故障排除方法的流程图,该故障排除方法包括:
S101:当所述底层硬件发生故障时,接收硬件传感器发送的故障事件信息;
本步骤旨在接收硬件传感器发送的故障事件信息。需要说明的是,这里的底层硬件区别于存储系统中的上层硬件,通常指的是FCU(Field Replace Unit,现场可更换单元),例如PSU(Power Supply Unit,电源供电模块)、外接ETH卡、FC卡等。
显而易见的是,本步骤默认之前存在利用硬件传感器对底层硬件进行监控的步骤。在此对于硬件传感器的具体种类和功能以及监控过程利用的接口等不作限定,可以理解的是,硬件传感器应当根据各底层硬件选择相适应的种类和功能。例如对于PSU来说,需要监测其供电电压数值、供电频率、供电稳定性,以及工作温度等等,则根据监测内容选择相应的传感器。
进一步的,对于如何监控底层硬件在此亦不作限定。通常,可以采用轮询监控等监控方式。
特别需要说明的是,本实施例的实施主体可以为BMC,换句话说,硬件传感器监测到故障事件后,将故障事件信息上传至BMC,再由BMC执行后续步骤。当然,可以理解的是,还可以利用其他具有数据处理功能的上层设备(这里的“上层”指的是相对于“底层硬件”中的“底层”)等。下文以BMC为例对本实施例进行说明。
S102:根据所述故障事件信息确定对应的错误代码;
本步骤旨在说明BMC根据故障事件信息确定对应的错误代码。需要说明的是,故障事件信息和错误代码应当是预先设置并存于BMC中。也即是说,事先需要进行底层硬件的信息初始化。初始化的信息包括监控的硬件名称、以及该硬件可能出现个故障对应的EVENTID。
事先对于每一种故障定义了一种EVENT,而每一个EVENT都对应唯一的数值,即EVENT ID。在此对于EVENT ID的具体表现形式不作限定,例如可以采用唯一的十六进制数值,或者其他位数或进制的唯一值代表每一种故障。这样在底层硬件出现时故障时,硬件传感器会返回该故障对应的EVENT ID至BMC。譬如,对于典型的PSU这种FRU,可以定义它的fan/temp/pin/vin等为需要监控的硬件,并对每个硬件可能的故障分别定义相应的EVENTID。需要说明的,一个底层硬件可能对应多种故障。因此,一个底层硬件可以对应多个EVENT和EVENT ID。换句话说,接收到故障事件信息的实质就是确定EVENT和EVENT ID。
在确定EVENT ID的基础上,根据EVENT ID确定错误代码,即err code。对于每一种EVENT ID都需要定义一个对应的err code,其中EVENT ID跟err code应该是多对一的关系。err code其实对应一种在UI层面的解决故障的方法,所以,可能会有多种EVENT对应一种err code的情况。
一种错误代码可以对应相似的情况。例如不同的底层硬件温度过程属于不同的故障事件,但可以对应同一种错误代码。
可以理解的是,故障事件信息中还可以包括故障发生位置,好比发生火灾时需要报警说明火灾情况以及火灾发生未知一样。同样的,故障事件信息和对应的错误代码中均可以包括故障的底层硬件的地址,例如机箱ID、控制器ID等。但错误代码并非必须要包括故障的底层硬件的地址。
S103:根据所述错误代码确定相应的故障解决方案,以便根据所述故障解决方案进行故障排除。
本步骤旨在根据错误代码确定相应的故障解决方案。但这并不是说本步骤中不需要故障事件信息。若是错误代码中不包括故障的底层硬件的地址,则本步骤中还需要包括故障事件信息。因为最终的故障解决方案需要明确发生故障的硬件的地址。
进一步的,在设置EVENT ID的基础上,可以设置故障严重等级,则本步骤实际上可以分为两个小步骤:
根据错误代码确定对应的故障严重等级;根据故障严重等级确定相应的故障解决方案。
故障严重等级的存在是为了提高重大故障的响应效率,相比于正常过程,即确定故障事件信息——确定错误代码——确定故障解决方案——排除故障,直接根据错误代码确定对应的故障严重等级,当故障严重等级达到预设危险等级时,将发生故障的底层硬件所在的节点移出存储系统,有利于降低严重故障硬件对于整个存储系统的影响。举例而言,当PSU超过致命温度阈值时,确定故障严重等级为极严重。此时可以直接断开该PSU,或者启用备用电源供电模块,降低PSU故障对存储系统的影响。
在此对于如何划分故障严重等级不作限定,应由本领域技术人员根据故障对存储系统的影响程度作相应的设定。
当确定故障解决方案后,即可利用故障解决方案排除故障。进一步的,若是面向用户而言,可以将所述错误代码、所述故障解决方案和所述底层硬件的地址发送至用户界面(即UI界面),以便用户根据故障解决方案排除故障。当然,对于故障解决方案较简单的故障,BMC可以直接根据故障解决方案进行排除。
本申请实施例利用硬件传感器对底层硬件进行实时监控,当发生故障时,即可根据故障事件信息确定相应的错误代码和故障解决方案,可以为用户提供故障解决方案和修复策略,快速有效的对存储系统中底层硬件的故障进行排除,提高产品的竞争力。
下面对本申请实施例提供的一种存储系统中底层硬件的故障排除系统进行介绍,下文描述的故障排除系统与上文描述的故障排除方法可相互对应参照。
参见图2,图2为本申请实施例所提供的一种存储系统中底层硬件的故障排除系统结构示意图,本申请还提供一种存储系统中底层硬件的故障排除系统,其特征在于,包括:
接收模块100,用于当所述底层硬件发生故障时,接收硬件传感器发送的故障事件信息;
第一确定模块200,用于根据所述故障事件信息确定对应的错误代码;
第二确定模块300,用于根据所述错误代码确定相应的故障解决方案,以便根据所述故障解决方案进行故障排除。
其中,第二确定模块包括:
第一确定单元,用于根据所述错误代码确定对应的故障严重等级;
第二确定单元,用于根据所述故障严重等级确定相应的故障解决方案。
其中,还包括:
移除模块,用于当所述故障严重等级达到预设危险等级时,将发生故障的所述底层硬件所在的节点移出所述存储系统。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种存储服务器,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述存储服务器还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种存储系统中底层硬件的故障排除方法,其特征在于,包括:
当所述底层硬件发生故障时,接收硬件传感器发送的故障事件信息;
根据所述故障事件信息确定对应的错误代码;
根据所述错误代码确定相应的故障解决方案,以便根据所述故障解决方案进行故障排除。
2.根据权利要求1所述的故障排除方法,其特征在于,所述硬件传感器由所述存储系统中的BMC控制并对所述底层硬件进行监控。
3.根据权利要求1所述的故障排除方法,其特征在于,根据所述错误代码确定相应的故障解决方案包括:
根据所述错误代码确定对应的故障严重等级;
根据所述故障严重等级确定相应的故障解决方案。
4.根据权利要求3所述的故障排除方法,其特征在于,还包括:
当所述故障严重等级达到预设危险等级时,将发生故障的所述底层硬件所在的节点移出所述存储系统。
5.根据权利要求1所述的故障排除方法,其特征在于,还包括:
将所述错误代码、所述故障解决方案和所述底层硬件的地址发送至用户界面。
6.一种存储系统中底层硬件的故障排除系统,其特征在于,包括:
接收模块,用于当所述底层硬件发生故障时,接收硬件传感器发送的故障事件信息;
第一确定模块,用于根据所述故障事件信息确定对应的错误代码;
第二确定模块,用于根据所述错误代码确定相应的故障解决方案,以便根据所述故障解决方案进行故障排除。
7.根据权利要求6所述的故障排除系统,其特征在于,第二确定模块包括:
第一确定单元,用于根据所述错误代码确定对应的故障严重等级;
第二确定单元,用于根据所述故障严重等级确定相应的故障解决方案。
8.根据权利要求7所述的故障排除系统,其特征在于,还包括:
移除模块,用于当所述故障严重等级达到预设危险等级时,将发生故障的所述底层硬件所在的节点移出所述存储系统。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的故障排除方法的步骤。
10.一种存储服务器,其特征在于,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1-5任一项所述的故障排除方法的步骤。
CN201811124197.4A 2018-09-26 2018-09-26 存储系统中底层硬件的故障排除方法、系统及相关装置 Pending CN109271270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811124197.4A CN109271270A (zh) 2018-09-26 2018-09-26 存储系统中底层硬件的故障排除方法、系统及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811124197.4A CN109271270A (zh) 2018-09-26 2018-09-26 存储系统中底层硬件的故障排除方法、系统及相关装置

Publications (1)

Publication Number Publication Date
CN109271270A true CN109271270A (zh) 2019-01-25

Family

ID=65198184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811124197.4A Pending CN109271270A (zh) 2018-09-26 2018-09-26 存储系统中底层硬件的故障排除方法、系统及相关装置

Country Status (1)

Country Link
CN (1) CN109271270A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110611705A (zh) * 2019-09-02 2019-12-24 深圳市丰润达科技有限公司 设备修复方法、服务器和应用终端
CN111581058A (zh) * 2020-05-09 2020-08-25 西安易朴通讯技术有限公司 故障管理方法、装置、设备及计算机可读存储介质
CN112732477A (zh) * 2021-04-01 2021-04-30 四川华鲲振宇智能科技有限责任公司 一种带外自检故障隔离的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200022A (zh) * 2012-01-09 2013-07-10 华为终端有限公司 一种数据下载异常处理方法、设备及系统
CN104461843A (zh) * 2014-10-31 2015-03-25 北京思特奇信息技术股份有限公司 一种异常信息管理的方法及系统
CN107332722A (zh) * 2017-08-31 2017-11-07 郑州云海信息技术有限公司 一种故障信息的排除方法及系统
WO2018103185A1 (zh) * 2016-12-05 2018-06-14 华为技术有限公司 故障处理的方法、计算机系统、基板管理控制器和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200022A (zh) * 2012-01-09 2013-07-10 华为终端有限公司 一种数据下载异常处理方法、设备及系统
CN104461843A (zh) * 2014-10-31 2015-03-25 北京思特奇信息技术股份有限公司 一种异常信息管理的方法及系统
WO2018103185A1 (zh) * 2016-12-05 2018-06-14 华为技术有限公司 故障处理的方法、计算机系统、基板管理控制器和系统
CN107332722A (zh) * 2017-08-31 2017-11-07 郑州云海信息技术有限公司 一种故障信息的排除方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110611705A (zh) * 2019-09-02 2019-12-24 深圳市丰润达科技有限公司 设备修复方法、服务器和应用终端
CN111581058A (zh) * 2020-05-09 2020-08-25 西安易朴通讯技术有限公司 故障管理方法、装置、设备及计算机可读存储介质
CN111581058B (zh) * 2020-05-09 2024-03-19 西安易朴通讯技术有限公司 故障管理方法、装置、设备及计算机可读存储介质
CN112732477A (zh) * 2021-04-01 2021-04-30 四川华鲲振宇智能科技有限责任公司 一种带外自检故障隔离的方法

Similar Documents

Publication Publication Date Title
JP2022171958A (ja) モバイルデバイスサポートサービスを提供するためのシステム、方法、装置、および非一時的コンピュータ可読記憶媒体
US10462027B2 (en) Cloud network stability
US9049105B1 (en) Systems and methods for tracking and managing event records associated with network incidents
US8910172B2 (en) Application resource switchover systems and methods
US9239988B2 (en) Network event management
US8286034B2 (en) Accurate fault status tracking of variable access sensors
CN109271270A (zh) 存储系统中底层硬件的故障排除方法、系统及相关装置
CN111104283B (zh) 一种分布式存储系统的故障检测方法、装置、设备及介质
US10831587B2 (en) Determination of cause of error state of elements in a computing environment based on an element's number of impacted elements and the number in an error state
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN111858244A (zh) 一种硬盘的监控方法、系统、设备以及介质
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN105022663A (zh) 电力系统监测和控制系统
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
EP3852424B1 (en) Application resilience for applications deployed on a cloud platform
JP2013206105A (ja) 情報処理システム、保守方法及びプログラム
JP6070040B2 (ja) データベースシステム、データベース装置、データベースの障害回復方法およびプログラム
CN105335209A (zh) 一种虚拟机调度方法、电子设备及服务器
CN110287066B (zh) 一种服务器分区迁移方法及相关装置
Chan et al. Debugging incidents in Google's distributed systems
US20220342788A1 (en) Anomaly location estimating apparatus, method, and program
US20220334914A1 (en) Anomaly coping support apparatus, method, and program
WO2020100634A1 (ja) 復旧支援装置、復旧支援方法及びプログラム
US20140047102A1 (en) Network monitoring
JP6388335B2 (ja) 障害傾向判定装置、障害傾向判定方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190125

RJ01 Rejection of invention patent application after publication