CN111880992A - 一种存储设备中控制器状态的监测及维护方法 - Google Patents

一种存储设备中控制器状态的监测及维护方法 Download PDF

Info

Publication number
CN111880992A
CN111880992A CN202010724189.4A CN202010724189A CN111880992A CN 111880992 A CN111880992 A CN 111880992A CN 202010724189 A CN202010724189 A CN 202010724189A CN 111880992 A CN111880992 A CN 111880992A
Authority
CN
China
Prior art keywords
state
controller
sas expander
alarm
cpld
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010724189.4A
Other languages
English (en)
Other versions
CN111880992B (zh
Inventor
宋以强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Inspur Data Technology Co Ltd
Original Assignee
Beijing Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Inspur Data Technology Co Ltd filed Critical Beijing Inspur Data Technology Co Ltd
Priority to CN202010724189.4A priority Critical patent/CN111880992B/zh
Publication of CN111880992A publication Critical patent/CN111880992A/zh
Application granted granted Critical
Publication of CN111880992B publication Critical patent/CN111880992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种存储设备中控制器状态的监测及维护方法,能够通过SAS Expander获取SES processor电路状态、SAS Expander状态、CPLD状态,并根据这三种状态生成控制器的最终状态,在后续维护过程中,上层仅仅需要根据控制器的最终状态这一状态值判断需要进行怎样的维护处理,针对不同的最终状态进行不同的维护处理,降低了上层处理逻辑的复杂度,提升了对控制器监测维护工作的可靠性。此外,本申请还提供了一种存储设备中控制器状态的监测及维护装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应。

Description

一种存储设备中控制器状态的监测及维护方法
技术领域
本申请涉及存储技术领域,特别涉及一种存储设备中控制器状态的监测及维护方法、装置、设备及可读存储介质。
背景技术
当前市场上的存储设备机箱内都包含一个或多个控制器,控制器的状态对整个存储系统至关重要,控制器的状态管理是存储设备机箱管理的重要一环。目前来看,控制器的状态业界没有统一的标准,不同厂商可能采用不同的策略来监测控制器的状态,且不同的策略在实现的过程中的难度和实际使用中的可靠性也各有差异。
可见,如何提供一种对存储设备中控制器的状态监管方案,在降低实现难度的同时保证可靠性,是亟待本领域技术人员解决的问题。
发明内容
本申请的目的是提供一种存储设备中控制器状态的监测及维护方法、装置、设备及可读存储介质,用以解决当前的控制器状态监管方案实现难度较大,且可靠性较低的问题。其具体方案如下:
第一方面,本申请提供了一种存储设备中控制器状态的监测及维护方法,应用于机箱管理业务层,包括:
通过SAS Expander获取SES processor电路状态、SAS Expander状态、CPLD状态;
根据所述SES processor电路状态、所述SAS Expander状态、所述CPLD状态,生成控制器的最终状态;
在所述最终状态为Online时,不做处理,其中Online表示控制器的工作状态正常;
在所述最终状态为Unknown时,重置SAS Expander,其中Unknown表示SESprocessor电路、SAS Expander和CPLD中存在状态未知的器件;
在所述最终状态为Degraded时,重置SAS Expander,其中Degraded表示SESprocessor电路、SAS Expander和CPLD中存在降级的器件;
在所述最终状态为Offline时,生成告警信息,并将所述告警信息发送至告警模块以实现告警。
优选的,所述通过SAS Expander获取SES processor电路状态、SAS Expander状态、CPLD状态,包括:
利用SAS Expander监测SES processor电路状态、SAS Expander状态、CPLD状态,并接收SAS Expander发送的广播信息;
在所述广播信息为预设广播信息时,通过SAS Expander获取SES processor电路状态、SAS Expander状态、CPLD状态,其中所述预设广播信息表示所述SES processor电路状态、所述SAS Expander状态和所述CPLD状态中任意一项发生变化。
优选的,所述根据所述SES processor电路状态、所述SAS Expander状态、所述CPLD状态,生成控制器的最终状态,包括:
在所述SES processor电路状态和所述SAS Expander状态中任意一项为Offline时,确定控制器的最终状态为Offline;
在所述SES processor电路状态和所述SAS Expander状态中任意一项为Unknown时,确定控制器的最终状态为Unknown;
在所述SES processor电路状态和所述SAS Expander状态中任意一项为Degraded时,确定控制器的最终状态为Degraded;
在所述SES processor电路状态和所述SAS Expander状态中任意一项为Online时,若所述CPLD状态为Online,则确定控制器的最终状态为Online;若所述CPLD状态不为Online,则确定控制器的最终状态为Unknown。
优选的,所述在所述最终状态为Degraded时,重置SAS Expander,包括:
在所述最终状态为Degraded时,判断当前是否满足日志收集条件;
若满足,则将定时器设置为预设阈值并启动所述定时器,在所述定时器限制的时间范围内收集SAS Expander的日志数据;
根据所述日志数据,判断当前是否满足SAS Expander重置条件;
若满足,则重置SAS Expander。
优选的,所述在所述最终状态为Unknown时,重置SAS Expander,包括:
在所述最终状态为Unknown时,将第一定时器设置为第一预设阈值并启动所述第一定时器,在所述第一定时器限制的时间结束后,重新生成所述控制器的最终状态,并判断所述控制器的最终状态是否为Online;
若不是,则将第二定时器设置为第二预设阈值并启动所述第二定时器,在所述第二定时器限制的时间范围内收集SAS Expander的日志数据;
根据所述日志数据,判断当前是否满足SAS Expander重置条件;
若满足,则重置SAS Expander。
优选的,所述在所述最终状态为Unknown时,重置SAS Expander之后,还包括:
将第三定时器设置为第三预设阈值并启动所述第三定时器,在所述第三定时器限制的时间结束后,重新生成所述控制器的最终状态,并判断所述控制器的最终状态是否为Online;
若不是,则生成告警信息,并将所述告警信息发送至告警模块以实现告警。
优选的,所述在所述最终状态为Offline时,生成告警信息,并将所述告警信息发送至告警模块以实现告警,包括:
在所述最终状态为Offline时,生成告警信息,并判断控制器的上下文中是否存在与所述告警信息相同的告警信息;
若存在,则不做处理;
若不存在,则将所述告警信息存储在控制器的上下文中,并将告警信息发送至告警模块以实现告警。
第二方面,本申请提供了一种存储设备中控制器状态的监测及维护装置,应用于机箱管理业务层,包括:
状态获取模块:用于通过SAS Expander获取SES processor电路状态、SASExpander状态、CPLD状态;
最终状态生成模块:用于根据所述SES processor电路状态、所述SAS Expander状态、所述CPLD状态,生成控制器的最终状态;
第一状态处理模块:用于在所述最终状态为Online时,不做处理,其中Online表示控制器的工作状态正常;
第二状态处理模块:用于在所述最终状态为Unknown时,重置SAS Expander,其中Unknown表示SES processor电路、SAS Expander和CPLD中存在状态未知的器件;
第三状态处理模块:用于在所述最终状态为Degraded时,重置SAS Expander,其中Degraded表示SES processor电路、SAS Expander和CPLD中存在降级的器件;
第四状态处理模块:用于在所述最终状态为Offline时,生成告警信息,并将所述告警信息发送至告警模块以实现告警。
第三方面,本申请提供了一种存储设备中控制器状态的监测及维护设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现如上所述的存储设备中控制器状态的监测及维护方法的步骤。
第四方面,本申请提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现如上所述的存储设备中控制器状态的监测及维护方法的步骤。
本申请所提供的一种存储设备中控制器状态的监测及维护方法,应用于机箱管理业务层,能够通过SAS Expander获取SES processor电路状态、SAS Expander状态、CPLD状态,并根据这三种状态生成控制器的最终状态,最终根据控制器的最终状态对控制器进行相应的维护处理,如上报告警或尝试自动修复。可见,在控制器主板的诸多器件中,该方法选择其中三种具备参考价值的器件状态,并根据这三种状态生成控制器的最终状态,在后续维护过程中,上层仅仅需要根据控制器的最终状态这一状态值判断需要进行怎样的维护处理,针对不同的最终状态进行不同的维护处理,降低了上层处理逻辑的复杂度,提升了对控制器监测维护工作的可靠性。
此外,本申请还提供了一种存储设备中控制器状态的监测及维护装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应,这里不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所提供的一种存储设备中控制器状态的监测及维护方法实施例一的实现流程图;
图2为本申请所提供的控制器状态聚合示意图;
图3为本申请所提供的一种存储设备中控制器状态的监测及维护方法实施例一中状态聚合过程的细化流程图;
图4为本申请所提供的一种存储设备中控制器状态的监测及维护方法实施例二的实现流程图;
图5为本申请所提供的一种存储设备中控制器状态的监测及维护方法实施例二中状态监测过程的实现过程示意图;
图6为本申请所提供的一种存储设备中控制器状态的监测及维护方法实施例二中S405的细化流程图;
图7为本申请所提供的一种存储设备中控制器状态的监测及维护方法实施例二中S406的细化流程图;
图8为本申请所提供的一种存储设备中控制器状态的监测及维护方法实施例二中告警过程的流程图;
图9为本申请所提供的一种存储设备中控制器状态的监测及维护装置实施例的功能框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的核心是提供一种存储设备中控制器状态的监测及维护方法、装置、设备及可读存储介质,能够根据控制器主板上三种具备参考价值的器件状态生成控制器的最终状态,在后续维护过程中,上层仅仅需要根据控制器的最终状态这一状态值判断需要进行怎样的维护处理,针对不同的最终状态进行不同的维护处理,降低了上层处理逻辑的复杂度,提升了对控制器监测维护工作的可靠性。
下面对本申请提供的一种存储设备中控制器状态的监测及维护方法实施例一进行介绍,参见图1,实施例一应用于机箱管理业务层(Enclosure Mangement,EN),包括:
S101、通过SAS Expander获取SES processor电路状态、SAS Expander状态、CPLD状态;
S102、根据所述SES processor电路状态、所述SAS Expander状态、所述CPLD状态,生成控制器的最终状态;
S103、在所述最终状态为Online时,不做处理,其中Online表示控制器的工作状态正常;
S104、在所述最终状态为Unknown时,重置SAS Expander,其中Unknown表示SESprocessor电路、SAS Expander和CPLD中存在状态未知的器件;
S105、在所述最终状态为Degraded时,重置SAS Expander,其中Degraded表示SESprocessor电路、SAS Expander和CPLD中存在降级的器件;
S106、在所述最终状态为Offline时,生成告警信息,并将所述告警信息发送至告警模块以实现告警。
在存储设备的控制器主板中诸多器件,在监测维护控制器的过程中,每个器件的状态都具备一定的参考意义。但是,如果在监测维护控制器状态的过程中参见控制器主板上每个器件的状态,那么该监测维护工作的逻辑度太高,实现难度较大。
针对该问题,本实施例从中选取了三个更具备参考意义的器件状态,如图2所示:SES processor电路状态、SAS Expander状态、CPLD状态,下面分别简要说明这三种器件:
SES processor:用于机箱管理的处理单元,位于SAS Expander上,可与CPLD交互。
SAS Expander:遵循SAS协议的扩展器,可以将主机端口扩展到各个盘的槽位上。
CPLD:Complex Programmable Logic Device,复杂可编程逻辑控制器件,用于实现电源状态机,同时帮助SES processer实现功能扩展。
以上三个状态实际上是经过控制器主板上各种电子元件的状态聚合后得到的状态,基本上可以代表整个控制器主板的综合状态。
但是,如果将这三个状态直接展示给上层,依然存在监测维护工作实现难度较大的问题,显得过于复杂,且用户也不能直观的确认节点当前的运行状态。因此,本实施例进一步对这三种状态进行聚合,最终生成控制器的最终状态(canister_status),如图2所示。也就是说,本实施例最终使用一种状态来表示控制器状态,后续维护过程中,上层可以根据单个状态值判断进行怎样的维护处理,从而达到简化维护逻辑的目的。
本实施例中,聚合得到的控制器的最终状态主要包括以下四种:online(控制器在线)、offline(表示控制器离线)、degraded(表示控制器降级)、unknown(表示控制器状态未知)。
其中,Online表示控制器正常运行,Offline、Unknown、Degraded表示控制器处于一个非正常运行状态。当控制器处于一个非正常运行状态时,还要根据故障的严重程度来选择是否立即上报告警通知用户,还是先发起修复流程,再根据结果来判断是否需上报告警通知用户(有些存储系统能够自我修复的告警不需要上报)。
四种状态中Offline是属于比较严重的告警,这种情况下说明SAS Expander已经失去联系,已无法向SAS Expander下发重置命令,无法进行尝试修复操作,这时需要立即上报告警,通知用户进行故障排查,此告警优先级最高。
再说Degraded和Unknown,相比与Offline就要低一个级别。Degraded状态表示SESProcesser、SAS Expander、CPLD中的某个器件没有在全力工作,处于一个降状态,但是并不影响存储系统的正常运行。Unknown状态表示SES Processer、SAS Expander、CPLD中的某个器件的状态SAS Expander未获取到,实际的状态可能是正常的也可能是异常的,这种情况下告警优先级低于Offline和Degraded,可以通过重置SAS Expander来方式来进行尝试性修复。
如图3所示,在实际应用中,具体的聚合规则可以如下,即上述S102可以包括以下步骤:
S301、在所述SES processor电路状态和所述SAS Expander状态中任意一项为Offline时,确定控制器的最终状态为Offline;
S302、在所述SES processor电路状态和所述SAS Expander状态中任意一项为Unknown时,确定控制器的最终状态为Unknown;
S303、在所述SES processor电路状态和所述SAS Expander状态中任意一项为Degraded时,确定控制器的最终状态为Degraded;
S304、在所述SES processor电路状态和所述SAS Expander状态中任意一项为Online时,若所述CPLD状态为Online,则确定控制器的最终状态为Online;若所述CPLD状态不为Online,则确定控制器的最终状态为Unknown。
可以理解的是,本实施例可以在UI界面显示控制器的最终状态,当控制器的最终状态不是online时,还可以进一步展示对应的告警信息。
本实施例所提供一种存储设备中控制器状态的监测及维护方法,采用SASExpander来监控存储设备控制器主板上的SES processor电路状态,SAS Expander状态,CPLD状态。SAS Expander将这三个状态拿到后,将状态数据经驱动层和协议层传到机箱管理业务层。在机箱管理业务层,这三个状态按照一定的规则进行聚合,将聚合后的状态作为控制器的最终状态。机箱管理业务层在得到最终状态后还要根据不同的状态做相应的处理措施,如上报告警或系统自己尝试修复。最终实现了上层只用一个状态实现对控制器的管理。
可见,本实施例能够让用户更直观的得知控制器状态;简化控制器状态管理逻辑,方便开发人员维护;还能够根据不同的最终状态执行不同的维护动作,保证存储系统稳定运行,提升存储系统的稳定性和可靠性。
下面开始详细介绍本申请提供的一种存储设备中控制器状态的监测及维护方法实施例二,实施例二基于前述实施例一实现,并在实施例一的基础上进行了一定程度上的拓展。
具体的,实施例二对控制器状态的监测过程做了进一步限定,具体利用SASExpander监测三个器件状态,并通过广播的形式告知机箱管理业务层是否存在状态变化。当且仅当存在状态变化时,机箱管理业务层才会执行后续的维护工作。
此外,本实施例还对每种状态对应的维护处理方式做了进一步限定,具体请参见下文描述。
参见图4,实施例二具体应用于机箱管理业务层,包括:
S401、利用SAS Expander监测SES processor电路状态、SAS Expander状态、CPLD状态,并接收SAS Expander发送的广播信息;
S402、在所述广播信息为预设广播信息时,通过SAS Expander获取SES processor电路状态、SAS Expander状态、CPLD状态,其中所述预设广播信息表示所述SES processor电路状态、所述SAS Expander状态和所述CPLD状态中任意一项发生变化;
S403、根据所述SES processor电路状态、所述SAS Expander状态、所述CPLD状态,生成控制器的最终状态;
S404、在所述最终状态为Online时,不做处理,其中Online表示控制器的工作状态正常;
S405、在所述最终状态为Unknown时,重置SAS Expander,其中Unknown表示SESprocessor电路、SAS Expander和CPLD中存在状态未知的器件;
S406、在所述最终状态为Degraded时,重置SAS Expander,其中Degraded表示SESprocessor电路、SAS Expander和CPLD中存在降级的器件;
S407、在所述最终状态为Offline时,生成告警信息,并将所述告警信息发送至告警模块以实现告警。
如图5所示,SAS Expander收集到SES processor电路、SAS Expander和主板CPLD状态。当这些状态发生变换的时候,SAS Expander要上报broadcast事件。机箱管理业务层收到broadcast后会发起Discovery,从而通过SAS Expander获取SES processor电路状态、SAS Expander状态、CPLD状态。机箱管理业务层在拿到SES processor电路状态、SASExpander状态、主板CPLD状态后,将三个状态聚合为一个状态,作为控制器最终状态。
值得一提的是,在含有冗余控制器的机箱中,即使其中的某一个控制器节点发生严重故障,导致机箱管理业务层与SAS Expander之间数据链路不通,机箱管理业务层也可通过机箱内的其它控制器来获取故障控制器的状态信息,因为同一机箱内的多个控制器可以通过PCIE NTB实现跨节点数据同步。
上述S405和S406涉及对SAS Expander的重置操作。需要说明的是,重置操作是一个相对较大的动作,因此在进行重置操作时需要注意如下几点:
第一点,重置操作之前机箱管理业务层要发起日志收集流程收取SAS Expander保存的日志,转储到硬盘上,这样就可以保证在后续故障排查时还原第一现场的情况;
第二点,日志收集和SAS Expander重置都设置了定时器,其中日志收集定时器是为了等待日志收集完成,SAS Expander重置定时器是为了等待SAS Expander重启完成,且重启完成之前机箱管理业务层不去向SAS Expander取数据;
第三点,SAS Expander重启完成之后,机箱管理业务层向SAS Expander获取最新的控制器状态信息,重新生成控制器的最终状态;
第四点,Unknown要比Degraded在收集日志之前多一个定时器,是为了进行防抖,等定时器时间到了,若依然是非Online状态,再进行日志收取和重置操作。如果通过重置SAS Expander控制器的状态,能够恢复Online状态,则不需要通知用户,若仍为非Online状态则需要上报告警给用户。
因此,上述S405的细化流程图如图6所示,包括:
在所述最终状态为Unknown时,将第一定时器设置为第一预设阈值并启动所述第一定时器,在所述第一定时器限制的时间结束后,重新生成所述控制器的最终状态,并判断所述控制器的最终状态是否为Online;若不是,则将第二定时器设置为第二预设阈值并启动所述第二定时器,在所述第二定时器限制的时间范围内收集SAS Expander的日志数据;根据所述日志数据,判断当前是否满足SAS Expander重置条件;若满足,则重置SASExpander。
同理,上述S406的细化流程图如图7所示,包括:
在所述最终状态为Degraded时,判断当前是否满足日志收集条件;若满足,则将定时器设置为预设阈值并启动所述定时器,在所述定时器限制的时间范围内收集SASExpander的日志数据;根据所述日志数据,判断当前是否满足SAS Expander重置条件;若满足,则重置SAS Expander。
上述S407涉及告警动作,在实际应用中,因为Offline、Unknown、Degraded均表示控制器处于一个非正常运行状态,因此S405和S406也可能涉及告警动作。
例如,在重置SAS Expander之后,还可以包括:将定时器设置为预设阈值并启动所述定时器,在所述定时器限制的时间结束后,重新生成所述控制器的最终状态,并判断所述控制器的最终状态是否为Online;若不是,则生成告警信息,并将所述告警信息发送至告警模块以实现告警。
需要说明的是,上报告警需要遵循一定的原则,首先需要知道的是机箱管理业务层需要在收到SAS Expander发布的广播或亲自尝试修复故障指挥,会重新向SAS Expander获取最新的器件状态,并根据新获取到的三个器件状态重新生成控制器的最终状态。因此,若故障一直存在,则会出现每次生成的控制器最终状态均存在异常,需要检测或有告警需要上报。为避免重复告警,需要遵循如下几个原则:
原则一,上报过的告警不需要重复上报和自我修复;
原则二,优先上报高优先级的告警;
原则三,控制器状态恢复正常时消除之前已经上报的告警;
针对如上原则,在告警过程中需要进行如下操作:
操作一,当控制器有已经有告警时,把告警存在控制器的上下文中。
操作二,每一次从SAS Expander拿到数据且控制器状态异常时,先不开始告警上报或修复流程,先检查控制器上下文有无对应状态告警,若已有对应告警则不需要进行后面的所有流程,直接退出即可,解决重复上报告警问题。
操作三,在拿到控制器的状态时,判断当前异常状态所对应的告警是否高于控制器上下文中已有的告警,只有在高于的情况下才进行后面的告警上报和修复操作。
操作四,控制器从非Online变为Online时,查看控制器上下文是否有控制器状态异常告警,若有已有告警,则要清除控制器上文中的告警。
因此,当控制器的最终状态为Offline、Unknown、Degraded时,具体的告警过程可以如图8所示:
S801、根据控制器的最终状态生成告警信息;
S802、判断控制器的上下文中是否存在与所述告警信息相同的告警;若存在,则不做处理;否则,进入S803;
S803、判断控制器的上下文中是否存在告警优先级高于所述告警信息的告警;若存在,则将所述告警信息存储在控制器的上下文中;否则进入S804;
S804、在需要且能够重置SAS Expander时,执行重置操作,并等待预设时间;在不需要重置SAS Expander时,直接等待预设时间;
S805、在预设时间过后,重新获取三个器件状态并生成控制器的最终状态,判断该最终状态是否为Online;若是,则清除存储在控制器的上下文中相应的告警信息;否则,进入S806;
S806、利用告警模块发出告警。
下面对本申请实施例提供的一种存储设备中控制器状态的监测及维护装置进行介绍,下文描述的一种存储设备中控制器状态的监测及维护装置与上文描述的一种存储设备中控制器状态的监测及维护方法可相互对应参照。
如图9所示,本实施例的存储设备中控制器状态的监测及维护装置,应用于机箱管理业务层,包括:
状态获取模块901:用于通过SAS Expander获取SES processor电路状态、SASExpander状态、CPLD状态;
最终状态生成模块902:用于根据所述SES processor电路状态、所述SASExpander状态、所述CPLD状态,生成控制器的最终状态;
第一状态处理模块903:用于在所述最终状态为Online时,不做处理,其中Online表示控制器的工作状态正常;
第二状态处理模块904:用于在所述最终状态为Unknown时,重置SAS Expander,其中Unknown表示SES processor电路、SAS Expander和CPLD中存在状态未知的器件;
第三状态处理模块905:用于在所述最终状态为Degraded时,重置SAS Expander,其中Degraded表示SES processor电路、SAS Expander和CPLD中存在降级的器件;
第四状态处理模块906:用于在所述最终状态为Offline时,生成告警信息,并将所述告警信息发送至告警模块以实现告警。
本实施例的存储设备中控制器状态的监测及维护装置用于实现前述的存储设备中控制器状态的监测及维护方法,因此该装置中的具体实施方式可见前文中的存储设备中控制器状态的监测及维护方法的实施例部分,例如,状态获取模块901、最终状态生成模块902、第一状态处理模块903、第二状态处理模块904、第三状态处理模块905、第四状态处理模块906,分别用于实现上述存储设备中控制器状态的监测及维护方法中步骤S101,S102,S103,S104,S105,S106。所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的存储设备中控制器状态的监测及维护装置用于实现前述的存储设备中控制器状态的监测及维护方法,因此其作用与上述方法的作用相对应,这里不再赘述。
此外,本申请还提供了一种存储设备中控制器状态的监测及维护设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现如上文所述的存储设备中控制器状态的监测及维护方法的步骤。
最后,本申请提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现如上文所述的存储设备中控制器状态的监测及维护方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种存储设备中控制器状态的监测及维护方法,其特征在于,应用于机箱管理业务层,包括:
通过SAS Expander获取SES processor电路状态、SAS Expander状态、CPLD状态;
根据所述SES processor电路状态、所述SAS Expander状态、所述CPLD状态,生成控制器的最终状态;
在所述最终状态为Online时,不做处理,其中Online表示控制器的工作状态正常;
在所述最终状态为Unknown时,重置SAS Expander,其中Unknown表示SES processor电路、SAS Expander和CPLD中存在状态未知的器件;
在所述最终状态为Degraded时,重置SAS Expander,其中Degraded表示SES processor电路、SAS Expander和CPLD中存在降级的器件;
在所述最终状态为Offline时,生成告警信息,并将所述告警信息发送至告警模块以实现告警。
2.如权利要求1所述的方法,其特征在于,所述通过SAS Expander获取SES processor电路状态、SAS Expander状态、CPLD状态,包括:
利用SAS Expander监测SES processor电路状态、SAS Expander状态、CPLD状态,并接收SAS Expander发送的广播信息;
在所述广播信息为预设广播信息时,通过SAS Expander获取SES processor电路状态、SAS Expander状态、CPLD状态,其中所述预设广播信息表示所述SES processor电路状态、所述SAS Expander状态和所述CPLD状态中任意一项发生变化。
3.如权利要求1所述的方法,其特征在于,所述根据所述SES processor电路状态、所述SAS Expander状态、所述CPLD状态,生成控制器的最终状态,包括:
在所述SES processor电路状态和所述SAS Expander状态中任意一项为Offline时,确定控制器的最终状态为Offline;
在所述SES processor电路状态和所述SAS Expander状态中任意一项为Unknown时,确定控制器的最终状态为Unknown;
在所述SES processor电路状态和所述SAS Expander状态中任意一项为Degraded时,确定控制器的最终状态为Degraded;
在所述SES processor电路状态和所述SAS Expander状态中任意一项为Online时,若所述CPLD状态为Online,则确定控制器的最终状态为Online;若所述CPLD状态不为Online,则确定控制器的最终状态为Unknown。
4.如权利要求1所述的方法,其特征在于,所述在所述最终状态为Degraded时,重置SASExpander,包括:
在所述最终状态为Degraded时,判断当前是否满足日志收集条件;
若满足,则将定时器设置为预设阈值并启动所述定时器,在所述定时器限制的时间范围内收集SAS Expander的日志数据;
根据所述日志数据,判断当前是否满足SAS Expander重置条件;
若满足,则重置SAS Expander。
5.如权利要求1所述的方法,其特征在于,所述在所述最终状态为Unknown时,重置SASExpander,包括:
在所述最终状态为Unknown时,将第一定时器设置为第一预设阈值并启动所述第一定时器,在所述第一定时器限制的时间结束后,重新生成所述控制器的最终状态,并判断所述控制器的最终状态是否为Online;
若不是,则将第二定时器设置为第二预设阈值并启动所述第二定时器,在所述第二定时器限制的时间范围内收集SAS Expander的日志数据;
根据所述日志数据,判断当前是否满足SAS Expander重置条件;
若满足,则重置SAS Expander。
6.如权利要求5所述的方法,其特征在于,所述在所述最终状态为Unknown时,重置SASExpander之后,还包括:
将第三定时器设置为第三预设阈值并启动所述第三定时器,在所述第三定时器限制的时间结束后,重新生成所述控制器的最终状态,并判断所述控制器的最终状态是否为Online;
若不是,则生成告警信息,并将所述告警信息发送至告警模块以实现告警。
7.如权利要求1-6任意一项所述的方法,其特征在于,所述在所述最终状态为Offline时,生成告警信息,并将所述告警信息发送至告警模块以实现告警,包括:
在所述最终状态为Offline时,生成告警信息,并判断控制器的上下文中是否存在与所述告警信息相同的告警信息;
若存在,则不做处理;
若不存在,则将所述告警信息存储在控制器的上下文中,并将告警信息发送至告警模块以实现告警。
8.一种存储设备中控制器状态的监测及维护装置,其特征在于,应用于机箱管理业务层,包括:
状态获取模块:用于通过SAS Expander获取SES processor电路状态、SAS Expander状态、CPLD状态;
最终状态生成模块:用于根据所述SES processor电路状态、所述SAS Expander状态、所述CPLD状态,生成控制器的最终状态;
第一状态处理模块:用于在所述最终状态为Online时,不做处理,其中Online表示控制器的工作状态正常;
第二状态处理模块:用于在所述最终状态为Unknown时,重置SAS Expander,其中Unknown表示SES processor电路、SAS Expander和CPLD中存在状态未知的器件;
第三状态处理模块:用于在所述最终状态为Degraded时,重置SAS Expander,其中Degraded表示SES processor电路、SAS Expander和CPLD中存在降级的器件;
第四状态处理模块:用于在所述最终状态为Offline时,生成告警信息,并将所述告警信息发送至告警模块以实现告警。
9.一种存储设备中控制器状态的监测及维护设备,其特征在于,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现如权利要求1-7任意一项所述的存储设备中控制器状态的监测及维护方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现如权利要求1-7任意一项所述的存储设备中控制器状态的监测及维护方法的步骤。
CN202010724189.4A 2020-07-24 2020-07-24 一种存储设备中控制器状态的监测及维护方法 Active CN111880992B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010724189.4A CN111880992B (zh) 2020-07-24 2020-07-24 一种存储设备中控制器状态的监测及维护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010724189.4A CN111880992B (zh) 2020-07-24 2020-07-24 一种存储设备中控制器状态的监测及维护方法

Publications (2)

Publication Number Publication Date
CN111880992A true CN111880992A (zh) 2020-11-03
CN111880992B CN111880992B (zh) 2022-06-10

Family

ID=73200640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010724189.4A Active CN111880992B (zh) 2020-07-24 2020-07-24 一种存储设备中控制器状态的监测及维护方法

Country Status (1)

Country Link
CN (1) CN111880992B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868009A (zh) * 2021-10-20 2021-12-31 南昌逸勤科技有限公司 一种sas扩展器的自动修复方法、设备及存储介质
CN115116209A (zh) * 2022-07-30 2022-09-27 苏州浪潮智能科技有限公司 一种机房网络报警方法、系统、装置及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016148712A1 (en) * 2015-03-18 2016-09-22 Hewlett Packard Enterprise Development Lp Sas expander
US20170092336A1 (en) * 2015-09-28 2017-03-30 Mitac Computing Technology Corporation Method for displaying status associated with a storage device, computer system and status-monitoring device thereof
CN106980562A (zh) * 2016-01-18 2017-07-25 中兴通讯股份有限公司 一种硬盘监控方法及装置
CN107967195A (zh) * 2017-12-07 2018-04-27 郑州云海信息技术有限公司 一种基于双控存储的故障修复方法及系统
CN111124818A (zh) * 2019-12-06 2020-05-08 苏州浪潮智能科技有限公司 一种扩展器Expander的监控方法、装置及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016148712A1 (en) * 2015-03-18 2016-09-22 Hewlett Packard Enterprise Development Lp Sas expander
US20170092336A1 (en) * 2015-09-28 2017-03-30 Mitac Computing Technology Corporation Method for displaying status associated with a storage device, computer system and status-monitoring device thereof
CN106980562A (zh) * 2016-01-18 2017-07-25 中兴通讯股份有限公司 一种硬盘监控方法及装置
WO2017125014A1 (zh) * 2016-01-18 2017-07-27 中兴通讯股份有限公司 硬盘监控方法及装置
CN107967195A (zh) * 2017-12-07 2018-04-27 郑州云海信息技术有限公司 一种基于双控存储的故障修复方法及系统
CN111124818A (zh) * 2019-12-06 2020-05-08 苏州浪潮智能科技有限公司 一种扩展器Expander的监控方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QUANLU ZHANG等: "UStore: A Low Cost Cold and Archival Data Storage System for Data Centers", 《2015 IEEE 35TH INTERNATIONAL CONFERENCE ON DISTRIBUTED COMPUTING SYSTEMS》 *
郎为民等: "现代数据中心直连式存储研究", 《电信快报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868009A (zh) * 2021-10-20 2021-12-31 南昌逸勤科技有限公司 一种sas扩展器的自动修复方法、设备及存储介质
CN115116209A (zh) * 2022-07-30 2022-09-27 苏州浪潮智能科技有限公司 一种机房网络报警方法、系统、装置及可读存储介质

Also Published As

Publication number Publication date
CN111880992B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN110535692B (zh) 故障处理方法、装置、计算机设备、存储介质及存储系统
CN111752776B (zh) 一种服务器的循环上下电测试方法和系统
CN109274544B (zh) 一种分布式存储系统的故障检测方法及装置
CN111880992B (zh) 一种存储设备中控制器状态的监测及维护方法
CN111796959B (zh) 宿主机容器自愈方法、装置及系统
CN111694710A (zh) 基板管理控制器故障监控方法、装置、设备及存储介质
CN108243031B (zh) 一种双机热备的实现方法及装置
CN113825164A (zh) 网络故障修复方法、装置、存储介质及电子设备
CN112068935A (zh) kubernetes程序部署监控方法、装置以及设备
US20090222687A1 (en) Method and system for telecommunication apparatus fast fault notification
CN113672415A (zh) 一种磁盘故障处理方法、装置、设备及存储介质
CN114168071B (zh) 一种分布式集群扩容方法、分布式集群扩容装置及介质
CN113076210B (zh) 服务器故障诊断结果通知方法、系统、终端及存储介质
CN114020509A (zh) 工作负载集群的修复方法、装置、设备及可读存储介质
CN111124785B (zh) 一种硬盘故障检查的方法、装置、设备及存储介质
CN109062718B (zh) 一种服务器及数据处理方法
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN110752972A (zh) 一种网卡状态监控方法、装置、设备及介质
CN111147542A (zh) 一种免密访问的设置方法、装置、设备及介质
CN106326042B (zh) 一种运行状态确定方法及装置
CN115080362A (zh) 一种pcie设备降速上报方法、系统、设备以及存储介质
CN114374627A (zh) 基板管理控制器重启的方法、装置、系统及服务器
CN112162887A (zh) 存储设备及其机框共享部件访问方法、装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant