CN109460311A

CN109460311A - 固件异常状态的管理方法和装置

Info

Publication number: CN109460311A
Application number: CN201811236174.2A
Authority: CN
Inventors: 刘成平; 郭锋
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-03-12

Abstract

本发明公开了一种固件异常状态的管理方法和装置。所述方法包括：记录服务器的固件在工作异常时的描述信息以及所述固件在工作异常时状态对应的管理策略；在所述服务器的固件工作发生异常时，获取所述固件在异常状态的第一描述信息，其中所述第一描述信息包括固件名称和异常发生的原因；根据所述第一描述信息，判断本地记录的工作异常状态对应的描述信息中是否包括所述第一描述信息，得到判断结果；如果所述判断结果为包括所述第一描述信息，从所述固件在工作异常时状态对应的管理策略中，获取所述第一描述信息对应的目标管理策略；利用所述目标管理策略对工作异常的固件进行管理。

Description

固件异常状态的管理方法和装置

技术领域

本发明涉及信息处理领域，尤指一种固件异常状态的管理方法和装置。

背景技术

当前的数据中心设备越来越多，计算任务也越来越繁重，这使得数据中心中服务器硬件设备的故障率持续增高，如何更加高效、快捷、智能的完成服务器硬件的监控及告警、预警，成了我们追求的目标。在当前的数据中心，在对服务器的硬件进行监控维护时，大多数情况只能在服务器发生故障时，才能够监控到故障，这种情况下往往需要服务器进行停机后的人工设备修复，对用户的业务有一定的影响。

如何在现有设备的情况下，利用已经积累的服务器硬件故障的解决经验，自动化的完成服务器发生的异常是亟待解决的问题。

发明内容

为了解决上述技术问题，本发明提供了一种固件异常状态的管理方法和装置，能够实现对服务器的智能监控。

为了达到本发明目的，本发明提供了1、一种固件异常状态的管理方法，其特征在于，包括：

记录服务器的固件在工作异常时的描述信息以及所述固件在工作异常时状态对应的管理策略；

在所述服务器的固件工作发生异常时，获取所述固件在异常状态的第一描述信息，其中所述第一描述信息包括固件名称和异常发生的原因；

根据所述第一描述信息，判断本地记录的工作异常状态对应的描述信息中是否包括所述第一描述信息，得到判断结果；

如果所述判断结果为包括所述第一描述信息，从所述固件在工作异常时状态对应的管理策略中，获取所述第一描述信息对应的目标管理策略；

利用所述目标管理策略对工作异常的固件进行管理。

在本发明提供的一个示例性实施例中，所述记录服务器的固件在工作异常时的描述信息以及所述固件在工作异常时状态对应的管理策略，包括：

以固件的标识信息为标引，记录固件发生的故障的原因和时间信息以及解决所述故障的处理策略；和/或，

以固件的标识信息为标引，记录固件发生告警的原因和时间信息以及所述固件自发生告警至所述固件发生故障所支撑的时长信息。

在本发明提供的一个示例性实施例中，所述从所述固件在工作异常时状态对应的管理策略中，获取所述第一描述信息对应的目标管理策略，包括：

在所述固件工作异常为固件发生故障无法工作时，在查找到符合所述第一描述信息的至少两个待定描述信息后，获取所述固件发生工作异常的时间；

根据所述固件发生工作异常的时间以及所述至少两个待定描述信息中记录的描述信息，对所述至少两个待定描述信息进行排序；

按照排序后的结果，依次获取所述至少两个待定描述信息对应的管理策略作为目标管理策略。

在本发明提供的一个示例性实施例中，所述利用所述目标管理策略对工作异常的固件进行管理，包括：

在所述固件工作异常为固件发生故障无法工作时，如果目标管理策略为自动处理策略，则获取所述固件的自动重启策略的启动对象；如果所述启动对象为所述固件，则启动所述固件；如果所述启动对象为所述服务器的操作系统，则向用户发送重启系统的提示信息，在接收到用户的确认操作后，再执行重启系统的操作；如果所述如果目标管理策略为手动处理策略，则按照预先设置的通知策略，发出故障处理通知信息。

在本发明提供的一个示例性实施例中，所述按照预先设置的通知策略，发出故障处理通知信息之后，包括：

在检测到启动对所述故障的处理后，记录所述故障处理的策略，并保存所述故障处理的策略。

在本发明提供的一个示例性实施例中，所述方法还包括：

如果所述判断结果为不包括所述第一描述信息，则执行任一操作处理所述异常发生的故障，包括：

重启所述固件；

则向用户发送重启系统的提示信息，在接收到用户的确认操作后，再执行重启系统的操作；

按照预先设置的通知策略，发出故障处理通知信息。

在所述固件工作异常为固件发生告警时，获取目标管理策略中固件自发生告警至所述固件发生故障所支撑的时长信息；

利用获取到的时长信息，计算所述固件能够支撑的时长信息，得到计算结果；

输出所述计算结果。

在本发明提供的一个示例性实施例中，通过如下计算表达式计算所述固件能够支持的时长信息，得到计算结果，包括：

T＝(Tmax+Tmin+Tavg*n)/(n+2)；

其中，T为所述固件能够支撑的时长信息，Tmax为本地记录的目标管理策略中固件支撑的时长的最大值，Tmin为本地记录的目标管理策略中固件支撑的时长的最小值，Tavg为本地记录的目标管理策略中固件支撑的时长的平均值，其中n为正整数。

在本发明提供的一个示例性实施例中，所述方法还包括：

如果所述判断结果为不包括所述第一描述信息，则获取所述固件从发生告警到终止工作的时长信息，并记录所述时长信息。

一种计算机可读存储介质，存储计算机程序，其中所述计算机程序通过处理器执行以实现如下操作：

利用所述目标管理策略对工作异常的固件进行管理。

在本发明提供的一个示例性实施例中，所述按照预先设置的通知策略，发出故障处理通知信息之后，所述计算机程序还被处理器执行以实现如下操作，包括：

在本发明提供的一个示例性实施例中，所述计算机程序还被处理器执行以实现如下操作，包括：

重启所述固件；

按照预先设置的通知策略，发出故障处理通知信息。

输出所述计算结果。

T＝(Tmax+Tmin+Tavg*n)/(n+2)；

本发明提供的实施例，通过记录服务器的固件在工作异常时的描述信息以及所述固件在工作异常时状态对应的管理策略，在所述服务器的固件工作发生异常时，获取所述固件在异常状态的第一描述信息，再根据所述第一描述信息，判断本地记录的工作异常状态对应的描述信息中是否包括所述第一描述信息，得到判断结果，如果所述判断结果为包括所述第一描述信息，从所述固件在工作异常时状态对应的管理策略中，获取所述第一描述信息对应的目标管理策略，利用所述目标管理策略对工作异常的固件进行管理，实现对服务器发生同类型告警时的系统预警，实现服务器的智能监控，智能运维，降低服务器运维中的运维成本，提高服务器的运维效率。利用已经积累的服务器硬件故障的解决经验，自动化的完成服务器故障的运维、告警处理，最大化的减少数据中心服务器的运维成本，提供数据中心服务器设备的运维效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明提供的固件异常状态的管理方法的流程图；

图2为本发明提供的基于AI自适应的故障预警架构实现过程示意图；

图3为本发明提供的故障信息的规格化处理方法的示意图；

图4为本发明提供的固件故障处理方法的示意图；

图5为本发明提供的告警处理的方法的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明提供的固件异常状态的管理方法的流程图。图1所示方法包括：

步骤101、记录服务器的固件在工作异常时的描述信息以及所述固件在工作异常时状态对应的管理策略；

在本发明提供的一个示例性实施例中，以固件的标识信息为标引，记录固件发生的故障的原因和时间信息以及解决所述故障的处理策略；和/或，以固件的标识信息为标引，记录固件发生告警的原因和时间信息以及所述固件自发生告警至所述固件发生故障所支撑的时长信息。

对服务器产生的故障信息、告警信息进行规格化处理，故障信息规格化处理规则为固件名称+故障信息+故障发生时间方式存储，所述固件包括CPU、内存、硬盘、电源、风扇、主板、网卡和RAID卡中的至少一个；告警信息规格化处理的规则为固件名称+告警信息+告警发生时间方式存储，支持的固件与故障信息规格化的固件可以保持一致，或者，与所述故障信息规格化的固件不同。

步骤102、在所述服务器的固件工作发生异常时，获取所述第一固件在异常状态的第一描述信息，其中所述第一描述信息包括固件名称和异常发生的原因；

步骤103、根据所述第一描述信息，判断本地记录的工作异常状态对应的描述信息中是否包括所述第一描述信息，得到判断结果；

以固件名称和异常发生的原因从本地记录的数据库中，查找匹配的工作异常信息，作为本次异常处理的参考数据；

步骤104、如果所述判断结果为包括所述第一描述信息，从所述固件在工作异常时状态对应的管理策略中，获取所述第一描述信息对应的目标管理策略；

步骤105、利用所述目标管理策略对工作异常的固件进行管理。

本发明提供的方法实施例，通过记录服务器的固件在工作异常时的描述信息以及所述固件在工作异常时状态对应的管理策略，在所述服务器的固件工作发生异常时，获取所述固件在异常状态的第一描述信息，再根据所述第一描述信息，判断本地记录的工作异常状态对应的描述信息中是否包括所述第一描述信息，得到判断结果，如果所述判断结果为包括所述第一描述信息，从所述固件在工作异常时状态对应的管理策略中，获取所述第一描述信息对应的目标管理策略，利用所述目标管理策略对工作异常的固件进行管理，实现对服务器发生同类型告警时的系统预警；实现服务器的智能监控，智能运维，降低服务器运维中的运维成本，提高服务器的运维效率。利用已经积累的服务器硬件故障的解决经验，自动化的完成服务器故障的运维、告警处理，最大化的减少数据中心服务器的运维成本，提供数据中心服务器设备的运维效率。

下面对本发明提供的方法作进一步说明：

在本发明提供的一个示例性实施例中，所述工作异常状态包括固件发生故障和/或发生告警。

在本示例性实施例中，在对发生故障的固件进行处理时，如果查找到至少两个待定描述信息，两个待定描述信息的故障发生时间距离该第一描述信息中指示的固件发生故障的时间越近，该待定信息的所发生故障的系统运行环境和第一描述信息中指示的固件发生故障的运行环境越相似，该待定信息的所发生故障的管理策略符合第一描述信息中指示的固件发生故障的管理策略。通过按照时间信息的排序，实现对待定描述信息的管理策略的优先级的排序，实现对管理策略的筛选，便于更快速的处理故障。

在本示例性实施例中，如果有同类型故障信息，执行故障处理策略，故障处理策略主要包括自动故障处理策略、手动故障处理策略，策略的执行标准依据该类型的故障以前处理方式。在自动故障处理策略模式下，需要对故障的影响程度进行评估，如果是部件/软件驱动故障，重启部件/软件驱动可解决问题，不影响用户业务，自动执行部件/软件驱动重启任务解决故障问题。如果是需要操作系统级别的重启、影响到用户业务情况，需要发通知跟用户确认；手动故障处理策略主要是针对硬件已损坏，通过驱动重启无法解决的故障，处理策略为通知服务器的客服团队，由客服人员上门进行硬件的更换、故障的排除。

在本示例性实施例中，当检测到启动对故障的处理后，记录所述故障处理的策略，并保存所述故障处理的策略，以固件名称、故障原因和故障发生时间记录故障信息，并与记录的故障对应的处理策略建立对应关系，实现故障信息积累。

在本发明提供的一个示例性实施例中，如果所述判断结果为不包括所述第一描述信息，则执行任一操作处理所述异常发生的故障，包括：

重启所述固件；

按照预先设置的通知策略，发出故障处理通知信息。

在本示例性实施例中，如果没有同类型故障信息，将本次故障信息存储到故障DB数据库，并尝试进行部件/软件驱动重启，以确定是否能够解决故障问题；如不能解决，则执行系统级重启，再重启系统前，需用户确认，在确定重启后，以确定是否可以解决问题；如需手动故障处理策略，通知服务器的客服团队，由客服人员上门进行硬件的更换、故障的排除。该类型的处理方式，方法需要记录故障DB，进行故障信息积累。

输出所述计算结果。

在本示例性实施例中，查找到符合发生故障的固件以及固件告警的原因的描述信息后，查找上述描述信息对应的自发生告警至所述固件发生故障所支撑的时长信息。根据上述时长信息计算本次告警操作对应的时长信息。

T＝(Tmax+Tmin+Tavg*n)/(n+2)；

在本示例性实施例中，如果有相同类型的告警信息，则通过三点估算法估算该告警情况下，发生告警的固件可以支撑运行的时间T，T＝(支撑最长时间+支撑最短时间+支撑平均时间*4)/6；该时间为发生告警的固件的最可能支撑时间，实现固件停止工作的预警；在本发明提供的一个示例性实施例中，如果所述判断结果为不包括所述第一描述信息，则获取所述固件从发生告警到终止工作的时长信息，并记录所述时长信息。

对当前数据中心服务器的故障信息、告警信息进行部件级的规格化处理，并进行信息存储。在设备发生故障时，实现基于故障规则库的自动处理，最大化减少人工干预，降低运维成本；在设备发生告警时，实现基于告警规则库的自动处理，通过三地估算的方法，给出告警部件的最可能支撑的时间，最大化的减免用户的告警担忧。

下面对本发明提供的方法作进一步说明：

本发明提供一种通用的、灵活的、基于AI自适应的故障预警架构，通过对数据中心中服务器故障的处理数据应用、以及服务器告警数据的应用分析，智能化的实现数据中心中服务器故障的自动处理，实现服务器设备从告警开始到彻底损坏的设备预警，在保障数据中心服务器能够安全运行的同时，最大化的减少人工的干预，降低数据中心的运维复杂度，节省运维的成本。

图2为本发明提供的基于AI自适应的故障预警架构实现过程示意图。图2所示示意图的具体实施过程如下：规格化步骤、故障AI处理步骤和告警AI处理步骤。

1、规格化步骤：

对服务器产生的故障信息、告警信息进行规格化处理，从复杂混乱的故障信息、告警信息中提取固件名称信息、故障内容/告警内容、时间信息；故障信息规格化处理规则为固件名称+故障信息+故障发生时间方式存储，支持的固件包括CPU、内存、硬盘、电源、风扇、主板、网卡、RAID卡；告警信息规格化处理的规则为固件名称+告警信息+告警发生时间方式存储，支持的固件跟故障信息规格化支持的固件保持一致。

图3为本发明提供的故障信息的规格化处理方法的示意图。图2所示服务器发生硬盘故障，通过提取故障信息进行规格化处理，固件名称DISK3、故障信息：I/O Error、时间信息：201708101523，组合为DISK3_I/O Error_201708101523存入故障DB数据库中；类似的风扇转速低的故障信息，通过提取故障信息进行规格化处理，组合为FAN1_Low_201705121012存入故障DB数据库中。

2、故障AI处理步骤：

基于规则库，对服务器发生的故障进行自动化的处理。首先将故障信息跟故障DB中故障数据进行对比，依据故障部件、故障原因、故障时间进行对比；

如果有同类型故障信息，执行故障处理策略，故障处理策略主要包括自动故障处理策略、手动故障处理策略，策略的执行标准依据该类型的故障以前处理方式。在自动故障处理策略模式下，需要对故障的影响程度进行评估，如果是部件/软件驱动故障，重启部件/软件驱动可解决问题，不影响用户业务，自动执行部件/软件驱动重启任务解决故障问题。如果是需要操作系统级别的重启、影响到用户业务情况，需要发通知跟用户确认；手动故障处理策略主要是针对硬件已损坏，通过驱动重启无法解决的故障，处理策略为通知服务器的客服团队，由客服人员上门进行硬件的更换、故障的排除；该类型的处理方式，方法需要记录故障DB，进行故障信息积累。

图4为本发明提供的固件故障处理方法的示意图。图4所示方法包括：

在发生硬盘故障时，首先进行数据的规格化处理，并将故障信息跟故障DB中故障数据进行对比，发现存在同类型的故障记录及故障处理方式为自动处理，通过自动处理策略可以解决硬盘I/O故障问题；自动处理的方式为系统重新启动，通过系统服务查看该服务器上的业务，如果无关键业务且资源闲置，则自动重启改服务器，如果有业务服务正在运行，需要通知用户进行确认。

在发生内存ECC故障时，在故障DB中检索到的同类型的故障，历史的处理方式为手动处理策略，所以通知服务器的客服人员，进行上门的硬件更换维修。

如果没有同类型故障信息，将本次故障信息存储到故障DB数据库，并尝试进行部件/软件驱动重启，以确定是否能够解决故障问题；如不能解决进行系统级重启(需用户确认)，以确定是否可以解决问题；如需手动故障处理策略，通知服务器的客服团队，由客服人员上门进行硬件的更换、故障的排除。该类型的处理方式，方法需要记录故障DB，进行故障信息积累。

图4所示在发生电源温度故障时，在故障DB中未检索到同类型的故障，自动进行电源驱动的重启，确认问题是否解决，如果问题得到解决，将解决的方式方法记录到故障DB，如果未解决则需要进行系统的重启，在系统重启完毕后，确认问题是否得到解决，如果问题得到解决，将解决的方式方法记录到故障DB，如果仍未解决，则需要通知服务器的客服人员，进行上门的硬件更换维修；

3、告警AI处理步骤：

基于规则库，对服务器发生的告警进行自动化的处理。首先将告警信息跟告警DB中告警数据进行对比，依据告警部件、告警原因、告警时间进行对比；如果有相同的告警信息，则通过三点估算法估算该告警情况下，发生告警的固件可以支撑运行的时间T，T＝(支撑最长时间+支撑最短时间+支撑平均时间*4)/6；该时间为发生告警的固件的最可能支撑时间，实现固件停止工作的预警。

如果无相同的告警信息，则记录该固件在告警无人解决的情况下，从告警开始到终止工作的时间，并将告警信息记录告警DB，进行告警信息积累。

图5为本发明提供的告警处理的方法的示意图。图5所示方法包括：

在CPU电压告警信息在进行规格化之后，进行数据检索出四条信息，有相同的告警信息，支撑时间分别为20天、16天、30天、24天；根据三点估算法，计算该服务器发生CPU电压告警时，该服务器可支撑的运行时间(单位天)T＝(30+16+4*((20+16+30+24)/4))/6＝22.67；

如果没有相同的告警信息，如MEM电压告警信息，则记录从告警开始，到MEM停止工作的支持时间T，为10天，将该告警及支持时间记录到告警DB中。

本发明利用积累的故障DB中的同类型的故障数据，系统自动的实现对服务器发生同类型故障时的故障应对处理；利用积累的告警DB中的同类型的告警数据，系统自动实现对服务器发生同类型告警时的系统预警；实现服务器的智能监控，智能运维，降低服务器运维中的运维成本，提高服务器的运维效率。利用已经积累的服务器硬件故障的解决经验，自动化的完成服务器故障的运维、告警处理，最大化的减少数据中心服务器的运维成本，提供数据中心服务器设备的运维效率。

本发明提供的一种计算机可读存储介质，存储计算机程序，其中所述计算机程序通过处理器执行以实现如下操作：

利用所述目标管理策略对工作异常的固件进行管理。

重启所述固件；

按照预先设置的通知策略，发出故障处理通知信息。

输出所述计算结果。

T＝(Tmax+Tmin+Tavg*n)/(n+2)；

本发明提供的装置实施例，通过记录服务器的固件在工作异常时的描述信息以及所述固件在工作异常时状态对应的管理策略，在所述服务器的固件工作发生异常时，获取所述固件在异常状态的第一描述信息，再根据所述第一描述信息，判断本地记录的工作异常状态对应的描述信息中是否包括所述第一描述信息，得到判断结果，如果所述判断结果为包括所述第一描述信息，从所述固件在工作异常时状态对应的管理策略中，获取所述第一描述信息对应的目标管理策略，利用所述目标管理策略对工作异常的固件进行管理，实现对服务器发生同类型告警时的系统预警；实现服务器的智能监控，智能运维，降低服务器运维中的运维成本，提高服务器的运维效率。利用已经积累的服务器硬件故障的解决经验，自动化的完成服务器故障的运维、告警处理，最大化的减少数据中心服务器的运维成本，提供数据中心服务器设备的运维效率。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机可读存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机可读存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种固件异常状态的管理方法，其特征在于，包括：

利用所述目标管理策略对工作异常的固件进行管理。

2.根据权利要求1所述的方法，其特征在于，所述记录服务器的固件在工作异常时的描述信息以及所述固件在工作异常时状态对应的管理策略，包括：

3.根据权利要求2所述的方法，其特征在于，所述从所述固件在工作异常时状态对应的管理策略中，获取所述第一描述信息对应的目标管理策略，包括：

4.根据权利要求1至3任一所述的方法，其特征在于，所述利用所述目标管理策略对工作异常的固件进行管理，包括：

5.根据权利要求4所述的方法，其特征在于，所述按照预先设置的通知策略，发出故障处理通知信息之后，包括：

6.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

重启所述固件；

按照预先设置的通知策略，发出故障处理通知信息。

7.根据权利要求1或2所述的方法，其特征在于，所述利用所述目标管理策略对工作异常的固件进行管理，包括：

输出所述计算结果。

8.根据权利要求6所述的方法，其特征在于，通过如下计算表达式计算所述固件能够支持的时长信息，得到计算结果，包括：

T＝(Tmax+Tmin+Tavg*n)/(n+2)；

9.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

10.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序通过处理器实现如权利要求1至9任一所述的方法。