CN107329875B - 一种存储设备告警处理方法 - Google Patents

一种存储设备告警处理方法 Download PDF

Info

Publication number
CN107329875B
CN107329875B CN201710507787.4A CN201710507787A CN107329875B CN 107329875 B CN107329875 B CN 107329875B CN 201710507787 A CN201710507787 A CN 201710507787A CN 107329875 B CN107329875 B CN 107329875B
Authority
CN
China
Prior art keywords
component
fault
alarm
root
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710507787.4A
Other languages
English (en)
Other versions
CN107329875A (zh
Inventor
赵鹏
高瑞胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201710507787.4A priority Critical patent/CN107329875B/zh
Publication of CN107329875A publication Critical patent/CN107329875A/zh
Application granted granted Critical
Publication of CN107329875B publication Critical patent/CN107329875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Abstract

本发明公开了一种存储设备告警处理方法,该方法包括:依据存储设备中各部件的关联关系建立设备部件树模型;在检测到部件发生故障时,判断所述部件是否被抑制上报告警,若否,遍历所述部件的关联根部件的状态,采用递归方式直至找到故障根源部件;将故障根源部件设置为故障状态,将故障根源部件进行告警上报。该方法实现便于定位故障根源。

Description

一种存储设备告警处理方法
技术领域
本发明涉及报警处理技术领域,特别是涉及一种存储设备告警处理方法。
背景技术
目前,在存储系统中,会针对存储系统的各个部件进行状态监控,在状态发生异常时,会进行告警通知。当存储系统中某个基础部件故障时,可能会引发一系列部件的状态异常及相应的软件应用故障。某个基础部件的故障会引发很多故障告警,有些误报告警,不便于用户排查出问题根源和进行根源故障的修复,不便于定位故障根源。另外,在对于存储系统的维护过程中,可能会存在对部件的拔插等操作,关联部件的状态也会发生异常,并上报告警,这样存在误报告警,对用户产生困扰。
发明内容
本发明的目的是提供一种存储设备告警处理方法,以实现便于定位故障根源。
为解决上述技术问题,本发明提供一种存储设备告警处理方法,该方法包括:
依据存储设备中各部件的关联关系建立设备部件树模型;
在检测到部件发生故障时,判断所述部件是否被抑制上报告警,若否,遍历所述部件的关联根部件的状态,采用递归方式直至找到故障根源部件;
将故障根源部件设置为故障状态,将故障根源部件进行告警上报。
优选的,所述将故障根源部件设置为故障状态,将故障根源部件进行告警上报之后,还包括:
遍历所述故障根源部件的子节点,抑制子节点关联故障的告警上报。
优选的,所述遍历所述故障根源部件的子节点,抑制子节点关联故障的告警上报之后,还包括:
启动新的后台检测任务,检测故障根源部件的故障状态恢复。
优选的,所述检测故障根源部件的故障状态恢复,包括:
检测故障根源部件的故障状态,判断故障是否恢复;
若是,遍历存储设备的子节点部件,取消各子节点部件故障告警的抑制上报。
优选的,所述方法还包括:
更换故障部件时,抑制故障部件的子部件的关联告警上报。
优选的,所述方法还包括:
完成故障部件更换后,取消抑制故障部件的子部件的关联告警上报。
优选的,所述依据存储设备中各部件的关联关系建立设备部件树模型,包括:
依据存储设备结构特点和存储设备物理部件之间的关联关系,建立设备部件树模型。
本发明所提供的一种存储设备告警处理方法,依据存储设备中各部件的关联关系建立设备部件树模型;在检测到部件发生故障时,判断所述部件是否被抑制上报告警,若否,遍历所述部件的关联根部件的状态,采用递归方式直至找到故障根源部件;将故障根源部件设置为故障状态,将故障根源部件进行告警上报。可见,通过存储设备部件的关联关系建立设备部件树模型,在设备部件发生故障时,通过遍历设备部件树,查找根源故障部件,只上报根源故障部件告警,抑制其子部件的关联告警上报,方便定位故障根源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明所提供的一种存储设备告警处理方法的流程图;
图2为设备部件树示意图;
图3为故障告警检测模块处理流程图;
图4为后台检测任务处理流程图;
图5为故障修复模块处理流程图。
具体实施方式
本发明的核心是提供一种存储设备告警处理方法,以实现便于定位故障根源。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的一种存储设备告警处理方法的流程图,该方法包括:
S11:依据存储设备中各部件的关联关系建立设备部件树模型;
S12:在检测到部件发生故障时,判断所述部件是否被抑制上报告警,若否,遍历所述部件的关联根部件的状态,采用递归方式直至找到故障根源部件;
S13:将故障根源部件设置为故障状态,将故障根源部件进行告警上报。
可见,通过存储设备部件的关联关系建立设备部件树模型,在设备部件发生故障时,通过遍历设备部件树,查找根源故障部件,只上报根源故障部件告警,抑制其子部件的关联告警上报,方便定位故障根源。
基于上述方法,进一步的,步骤S13之后,还包括:遍历所述故障根源部件的子节点,抑制子节点关联故障的告警上报。
其中,步骤S12和步骤S13的执行者为故障告警检测模块。
其中,遍历所述故障根源部件的子节点,抑制子节点关联故障的告警上报之后,还包括:启动新的后台检测任务,检测故障根源部件的故障状态恢复。
其中,检测故障根源部件的故障状态恢复的过程具体为:检测故障根源部件的故障状态,判断故障是否恢复;若是,遍历存储设备的子节点部件,取消各子节点部件故障告警的抑制上报。
进一步的,所述方法还包括:更换故障部件时,抑制故障部件的子部件的关联告警上报。此步骤的执行者为故障修复模块。
进一步的,所述方法还包括:完成故障部件更换后,取消抑制故障部件的子部件的关联告警上报。此步骤的执行者为故障修复模块。
进一步的,步骤S11的过程具体为:依据存储设备结构特点和存储设备物理部件之间的关联关系,建立设备部件树模型。
本方法通过存储设备部件的关联关系建立设备部件树模型,在设备部件发生故障时,通过遍历设备部件树,查找根源故障部件,只上报根源故障部件告警,抑制其子部件的关联告警上报。在更换故障部件时,抑制其子部件的关联告警上报,避免在更换故障部件时,衍生出其他关联告警。
本方法针对存储阵列的特点和设备物理部件间的关联关系,将各部件的告警,在部件状态发生异常上报告警时,检查可能引发该告警的关联根源告警是否已上报,如果已有根源告警上报,抑制该衍生告警的上报。在存储系统维护过程中,分析所操作的部件可能引发的告警,对于由于维护操作而引发的告警抑制上报,在维护过程完成后受影响部件的状态告警则自动恢复。
详细的,本方法针对设备结构特点和设备物理部件间的关联关系,建立设备部件树。故障告警检测模块检测到其中某个部件故障时,遍历部件树,检测故障部件所关联的根部件是否存在故障,如果存在故障,优先上报根部件故障告警,遍历根源故障部件的子节点部件,抑制子节点部件的故障告警上报。
在故障修复时,通过故障修复引导模块进行修复。故障修复模块,首先将当前部件设置为抑制告警上报,并将此部件的子节点部件设置抑制告警上报。在故障修复期间,关联节点被拔出等告警会被抑制上报。维护完成后,插入部件后,将当前部件设置为停止抑制告警上报,同时将此部件的子节点部件也设置为停止抑制告警上报。故障告警检测模块检查被抑制的告警是否已恢复,如果已恢复,清除告警;如果未能恢复,则再上报告警。
基于本方法,具体实施过程如下:
1、根据存储设备中各部件的关联关系建立设备部件树模型,如图2所示;
2、故障告警检测模块在检测到部件发生故障时,判断是否该部件是否被抑制上报告警,如果抑制上报则退出,否则遍历部件树,检测其关联根部件的状态。如果根部件存在故障,将根部件设置为故障状态,并进一步遍历其根部件,检测其根部件的状态。如此递归,直到找到故障根源部件,将其设置为故障状态,上报该部件故障告警。然后,遍历其子节点,设置子节点关联故障告警抑制上报。最后,启动新的后台检测任务检测故障部件的故障状态恢复。
其中,故障告警检测模块通过遍历设备部件树,查找根源故障部件,只上报根源故障部件告警,主要包括如下几个步骤,如图3所示:
(1)检测设备部件的状态;
(2)如果部件故障,判断当前节点是否抑制上报告警,如果抑制上报则退出。否则遍历其根节点,检查其根节部件状态;
(3)如果根部件状态正常,当前部件为根源故障部件,上报告警;如果根部件状态故障,继续遍历其根节点,检查其根节部件状态;
(4)如此递归,直到找到故障根源部件;
(5)将根源部件设置为故障状态,并上报该部件故障告警;
(6)遍历其子节点,抑制子节点关联故障告警上报;
(7)启动新的后台检测任务,检测故障部件的故障状态恢复。
3、新的后台检测任务中,检测故障部件的故障状态恢复后,通知将该部件的故障告警恢复;遍历其子节点,取消子节点关联告警抑制上报,如图4所示。
4、故障修复模块在修复开始时,设置将要更换部件抑制告警上报,遍历其子节点部件并设置抑制告警上报。在修复完成后,设置更换部件恢复告警上报,遍历其子节点部件,回复告警上报。
其中,故障修复模块在故障部件更换时,查找其子部件并抑制关联告警上报,主要包括如下几个步骤,如图5所示:
(1)开始更换故障部件;
(2)设置更换部件的告警抑制上报;
(3)遍历设备子节点部件;
(4)抑制各子部件的关联告警上报;
(5)完成故障部件更换;
(6)取消抑制更换部件的告警抑制上报;
(7)遍历设备子节点部件;
(8)取消抑制各子部件的关联告警上报。
本方法通过利用存储设备部件的关联关系建立设备部件树模型,在设备部件发生故障时,通过遍历设备部件树,查找根源故障部件,只上报根源故障部件告警,抑制其子部件的关联告警上报,便于定位设备故障。另外,在更换故障部件时,抑制其子部件的关联告警上报,避免在更换故障部件时,衍生出其他关联告警,引起用户困惑。
本方法在设备部件故障时,查找根源故障部件,只上报根源故障告警,方便定位故障根,在设备部件更换时,查找其子部件并抑制关联告警上报,避免误报告警。因此在存储设备部件故障时,方便定位故障根源,易于维护,并且在部件更换过程中,抑制关联告警上报,避免引起客户困惑。
以上对本发明所提供的一种存储设备告警处理方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (6)

1.一种存储设备告警处理方法,其特征在于,包括:
依据存储设备中各部件的关联关系建立设备部件树模型;
在检测到部件发生故障时,判断所述部件是否被抑制上报告警,若否,遍历所述部件的关联根部件的状态,采用递归方式直至找到故障根源部件;
将故障根源部件设置为故障状态,将故障根源部件进行告警上报;
所述将故障根源部件设置为故障状态,将故障根源部件进行告警上报之后,还包括:
遍历所述故障根源部件的子节点,抑制子节点关联故障的告警上报。
2.如权利要求1所述的方法,其特征在于,所述遍历所述故障根源部件的子节点,抑制子节点关联故障的告警上报之后,还包括:
启动新的后台检测任务,检测故障根源部件的故障状态恢复。
3.如权利要求2所述的方法,其特征在于,所述检测故障根源部件的故障状态恢复,包括:
检测故障根源部件的故障状态,判断故障是否恢复;
若是,遍历存储设备的子节点部件,取消各子节点部件故障告警的抑制上报。
4.如权利要求1所述的方法,其特征在于,还包括:
更换故障部件时,抑制故障部件的子部件的关联告警上报。
5.如权利要求4所述的方法,其特征在于,还包括:
完成故障部件更换后,取消抑制故障部件的子部件的关联告警上报。
6.如权利要求1至5中任意一项所述的方法,其特征在于,所述依据存储设备中各部件的关联关系建立设备部件树模型,包括:
依据存储设备结构特点和存储设备物理部件之间的关联关系,建立设备部件树模型。
CN201710507787.4A 2017-06-28 2017-06-28 一种存储设备告警处理方法 Active CN107329875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710507787.4A CN107329875B (zh) 2017-06-28 2017-06-28 一种存储设备告警处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710507787.4A CN107329875B (zh) 2017-06-28 2017-06-28 一种存储设备告警处理方法

Publications (2)

Publication Number Publication Date
CN107329875A CN107329875A (zh) 2017-11-07
CN107329875B true CN107329875B (zh) 2021-03-09

Family

ID=60197205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710507787.4A Active CN107329875B (zh) 2017-06-28 2017-06-28 一种存储设备告警处理方法

Country Status (1)

Country Link
CN (1) CN107329875B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101237661A (zh) * 2008-02-28 2008-08-06 中兴通讯股份有限公司 告警上报方法与装置
CN102006191A (zh) * 2010-11-26 2011-04-06 中兴通讯股份有限公司 一种实现告警的方法及装置
CN102843254A (zh) * 2011-06-23 2012-12-26 中兴通讯股份有限公司 一种板间告警优先级抑制的方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7444263B2 (en) * 2002-07-01 2008-10-28 Opnet Technologies, Inc. Performance metric collection and automated analysis
CN102404141B (zh) * 2011-11-04 2014-03-12 华为技术有限公司 一种告警抑制的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101237661A (zh) * 2008-02-28 2008-08-06 中兴通讯股份有限公司 告警上报方法与装置
CN102006191A (zh) * 2010-11-26 2011-04-06 中兴通讯股份有限公司 一种实现告警的方法及装置
CN102843254A (zh) * 2011-06-23 2012-12-26 中兴通讯股份有限公司 一种板间告警优先级抑制的方法及系统

Also Published As

Publication number Publication date
CN107329875A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
WO2017031922A1 (zh) 故障检测方法及装置
CN107404522B (zh) 一种跨节点的虚拟机集群高可用实现方法和装置
CN105117301A (zh) 一种内存预警的方法及装置
CN104104542B (zh) 一种基于rs485的实时智能排障方法
CN104849612B (zh) 配电网故障定位方法和装置
CN110489260B (zh) 故障识别方法、装置及bmc
CN105847092A (zh) 一种web网站即时监控方法及装置
CN114490565A (zh) 数据库故障处理方法和装置
CN117420380A (zh) 一种配电网故障预警、处置方法及系统
CN102541682A (zh) 嵌入式系统中程序异常快速自行恢复方法
CN104749467A (zh) 配电终端自诊断方法及系统
CN106201753B (zh) 一种基于linux中PCIE错误的处理方法及系统
CN107329875B (zh) 一种存储设备告警处理方法
CN103188113A (zh) 一种通信设备的故障处理方法
CN107688547A (zh) 一种控制器主备切换的方法及系统
CN103793292A (zh) 用于磁盘阵列的容灾恢复方法
CN112650624A (zh) 一种集群升级方法、装置、设备及计算机可读存储介质
CN103428265A (zh) Mes管控方法及系统
CN115766402B (zh) 服务器故障根因的过滤方法和装置、存储介质及电子装置
CN110908839A (zh) 一种逻辑模块的故障解除方法、装置及设备
CN114281611B (zh) 一种全面检测系统盘的方法、系统、设备和存储介质
CN107819508B (zh) 基于epon家庭网关的链路故障检测及恢复方法
JP4485344B2 (ja) サーバ装置、障害経路診断方法、および障害経路診断プログラム
CN111221680A (zh) 一种数据中心交换机系统自动管理方法及装置
US20220342788A1 (en) Anomaly location estimating apparatus, method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210203

Address after: Building 9, No.1, guanpu Road, Guoxiang street, Wuzhong Economic Development Zone, Wuzhong District, Suzhou City, Jiangsu Province

Applicant after: SUZHOU LANGCHAO INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: Room 1601, floor 16, 278 Xinyi Road, Zhengdong New District, Zhengzhou City, Henan Province

Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant