CN111444031A - 服务器故障预警方法、装置、计算机设备及存储介质 - Google Patents

服务器故障预警方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111444031A
CN111444031A CN202010122319.7A CN202010122319A CN111444031A CN 111444031 A CN111444031 A CN 111444031A CN 202010122319 A CN202010122319 A CN 202010122319A CN 111444031 A CN111444031 A CN 111444031A
Authority
CN
China
Prior art keywords
early warning
fault
component
model
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010122319.7A
Other languages
English (en)
Inventor
张建浓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010122319.7A priority Critical patent/CN111444031A/zh
Publication of CN111444031A publication Critical patent/CN111444031A/zh
Priority to PCT/CN2020/117575 priority patent/WO2021169270A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection

Abstract

本发明公开了一种服务器故障预警方法、装置、计算机设备及存储介质,其中,该服务器故障预警方法包括:获取服务器故障预警请求,服务器故障预警请求包括定期任务和定时周期;通过IPMI命令对服务器硬件状态进行监测,获取硬件监测数据,将硬件监测数据添加到日志信息中;若系统当前时间满足定时周期,则获取定时周期对应的日志信息;获取机型预警等级或部件预警等级;若机型预警等级或部件预警等级达到预设报告等级,则提取周期故障原因;将故障原因排序表添加到预设周期故障分析模板中,形成周期故障分析报告。该方法及时采取维护或升级措施,降低批量机器共性问题产生的当前机型故障率或当前部件故障率。

Description

服务器故障预警方法、装置、计算机设备及存储介质
技术领域
本发明涉及服务器运维技术领域,尤其涉及一种服务器故障预警方法、装置、计算机设备及存储介质。
背景技术
服务器硬件故障监控是服务器运维重要的一部分。服务器硬件故障轻则影响机器性能,发出错误信息,重则导致机器宕机,严重影响业务运转和可用性。各家服务器厂商都提供了硬件监控和硬件日志服务。BMC(Baseboard Management Controller,基板管理控制器)实时对服务器的各个部件进行监控,当服务器出现出现硬件故障时,BMC将会监测到硬件故障部件,记录日志,并进行报警,通知用户。现有的服务器硬件故障监控可以监测到故障问题,在轻微故障的情况下,可以通过更换硬件或升级固件的方式修复硬件问题,避免因为硬件故障进一步恶化导致更严重的情况(例如宕机、数据丢失等)。在严重故障的情况下,也可以通过日志判断问题所在,从而解决问题。
目前的BMC均为对单一服务器的监控。在一个IDC(Internet Data Center,互联网数据中心)中心,可能存在着成千上万台服务器,同样的潜在故障缺陷可能出现在成千上万台服务器中。如何及时发现共性问题从而提高服务器的可用性,减少重大问题的发生成为了服务器运维中的难题。传统的服务器管理平台无法预警,不能发现共性问题,导致故障频繁影响可用性。故障一台维护一台的模式不仅效率底下,也让运维成本居高不下。如何快速准确地获取批量机器的共性问题提高机器可用性成为亟待解决的问题。
发明内容
本发明实施例提供一种服务器故障预警方法、装置、计算机设备及存储介质,以解决快速准确地获取批量机器的共性问题提高机器可用性的问题。
一种服务器故障预警方法,包括:
获取服务器故障预警请求,服务器故障预警请求包括定期任务和定时周期,其中,定期任务包括读取服务器系统事件日志库的日志信息;
通过IPMI命令对服务器硬件状态进行监测,获取硬件监测数据,将硬件监测数据添加到日志信息中;
若系统当前时间满足定时周期,则激活定期任务,获取定时周期对应的日志信息;
基于定时周期对应的日志信息,获取机型预警等级或部件预警等级;
若机型预警等级或部件预警等级达到预设报告等级,则基于机型维护记录表,提取每一在线机型在定时周期内的周期故障原因;
统计每一定时周期故障原因对应的故障发生次数,按降序排列所有故障发生次数,形成故障原因排序表;
将故障原因排序表添加到预设周期故障分析模板中,形成周期故障分析报告。
一种服务器故障预警装置,包括:
获取预警请求模块,用于获取服务器故障预警请求,服务器故障预警请求包括定期任务和定时周期,其中,定期任务包括读取服务器系统事件日志库的日志信息;
获取监测数据模块,用于通过IPMI命令对服务器硬件状态进行监测,获取硬件监测数据,将硬件监测数据添加到日志信息中;
激活定期任务模块,用于若系统当前时间满足定时周期,则激活定期任务,获取定时周期对应的日志信息;
获取预警等级模块,用于基于定时周期对应的日志信息,获取机型预警等级或部件预警等级;
提取故障原因模块,用于若机型预警等级或部件预警等级达到预设报告等级,则基于机型维护记录表,提取每一在线机型在定时周期内的周期故障原因;
形成原因排序表模块,用于统计每一定时周期故障原因对应的故障发生次数,按降序排列所有故障发生次数,形成故障原因排序表;
形成分析报告模块,用于将故障原因排序表添加到预设周期故障分析模板中,形成周期故障分析报告。
一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述服务器故障预警方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述服务器故障预警方法。
上述服务器故障预警方法、装置、计算机设备及存储介质,通过定时周期内获取当前机型故障率或当前部件故障率分别对应不同的机型预警等级,灵活地对影响安全应用的不同的部件问题进行响应,可保障机器的正常稳健运行;同时,服务器可基于预设报告等级获取周期故障分析报告,利于维护人员从该周期故障分析报告中获取机型或部件类型的共性问题,并及时采取维护或升级措施,降低批量机器共性问题产生的当前机型故障率或当前部件故障率,提高机器的适用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中服务器故障预警方法的应用环境示意图;
图2是本发明一实施例中服务器故障预警方法的流程图;
图3是本发明一实施例中服务器故障预警方法的另一流程图;
图4是本发明一实施例中服务器故障预警方法的另一流程图;
图5是本发明一实施例中服务器故障预警方法的另一流程图;
图6是本发明一实施例中服务器故障预警方法的另一流程图;
图7是本发明一实施例中服务器故障预警方法的另一流程图;
图8是本发明一实施例中服务器故障预警方法的另一流程图;
图9是本发明一实施例中服务器故障预警装置的示意图;
图10是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的服务器故障预警方法,可应用在如图1的应用环境中,该服务器故障预警方法应用在服务器故障预警系统中,该服务器故障预警系统包括客户端和服务器,其中,客户端通过网络与服务器进行通信。客户端又称为用户端,是指与服务器相对应,为客户端提供本地服务的程序。该客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等计算机设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种服务器故障预警方法,以该方法应用在图1中的服务器为例进行说明,具体包括如下步骤:
S10.获取服务器故障预警请求,服务器故障预警请求包括定期任务和定时周期,其中,定期任务包括读取服务器系统事件日志库的日志信息。
其中,服务器故障预警请求是客户端发送的请求对服务器的硬件故障进行预警的请求。定期任务是当系统当前时间满足预设的定时周期时,服务器自行执行的任务。定时周期时每次激活定期任务的周期。
日志信息是记录服务器运行信息的各种信息,比如软硬件运行信息等。
S20.通过IPMI命令对服务器硬件状态进行监测,获取硬件监测数据,将硬件监测数据添加到日志信息中。
其中,IPMI(Intelligent Platform Management Interface)即智能平台管理接口是使硬件管理具备“智能化”的新一代通用接口标准。用户可以利用IPMI监视服务器的物理特征,如温度、电压、电扇工作状态、电源供应以及机箱入侵等。Ipmi最大的优势在于它是独立于CPU BIOS和OS的,所以用户无论在开机还是关机的状态下,只要接通电源就可以实现对服务器的监控。Ipmi是一种规范的标准,其中最重要的物理部件就是BMC(BaseboardManagement Controller如图1),一种嵌入式管理微控制器,它相当于整个平台管理的“大脑”,通过它ipmi可以监控各个传感器的数据并记录各种事件的日志。
硬件监测数据是记录服务器中各个部件运行状态的数据,包括机器ID、部件ID以及运行时产生的故障等信息。
S30.若系统当前时间满足定时周期,则激活定期任务,获取定时周期对应的日志信息。
具体地,当系统当前时间满足定时周期时,服务器可自行激活定时任务,执行定时任务对应的任务,无需人工启动。
S40.基于定时周期对应的日志信息,获取机型预警等级或部件预警等级。
其中,机型预警等级是服务器预设的基于当前机型故障率划分的不同的安全性等级,用于基于不同的安全性等级启动不同的预警响应行为,每一预警响应行为即为等级预警响应,举例如下:
机型预警等级:一级预警等级、二级预警等级、三级预警等级。
等级预警响应:对于一级预警等级,即刻进行维护。
对于二级预警等级,可在预设二级周期响应时间每日晚8点进行维护。
对于三级预警等级,可在预设三级周期响应时间每周五晚8点进行维护。
部件预警等级是服务器预设的基于当前部件故障率分别划分的不同的安全性等级,用于基于不同的安全性等级启动不同的预警响应行为,每一预警响应行为即为等级预警响应,举例如下:
机型预警等级:一级预警等级、二级预警等级、三级预警等级。
等级预警响应:对于一级预警等级,即刻进行维护。
对于二级预警等级,可在预设二级周期响应时间每日晚8点进行维护。
对于三级预警等级,可在预设三级周期响应时间每周五晚8点进行维护。
S50.若机型预警等级或部件预警等级达到预设报告等级,则基于机型维护记录表,提取每一在线机型在定时周期内的周期故障原因。
其中,预设报告等级是服务器设定的满足需要形成周期故障分析报告的等级,比如,于本实施例,可将一级预警等级和二级预警等级设定为预设报告等级。
周期故障原因是基于定时周期形成的当前周期内同一机型或者同一部件类型出现的故障原因。进一步地,周期故障原因还可对故障原因按原因相似度进行排序,以便维护人员及时从周期故障原因中获取定时周期内相同机型或相同部件类型存在的共性问题。可以理解地,周期故障分析原因利于维护人员基于共性问题进行系统升级等维护和升级措施。
步骤S50中,当服务器检测到机型预警等级或部件预警等级满足预设报告等级时,应及时形成周期故障原因,以便维护人员从该周期故障原因中获取机型或者部件类型的共性问题。
S60.统计每一定时周期故障原因对应的故障发生次数,按降序排列所有故障发生次数,形成故障原因排序表。
具体地,服务器可将各类错误进行错误类型标记,并统计每一错误类型标记的出现次数,从而形成故障原因排序表(比如可按错误次数的降序排列)。
S70.将故障原因排序表添加到预设周期故障分析模板中,形成周期故障分析报告。
其中,预设周期故障分析模板即为根据实际应用场景设定的,适用于维护人员查看的添加错误信息的模板。服务器将前述获得的各种信息添加到预设周期故障分析模板即可形成周期故障分析报告。
本实施例提供的服务器故障预警方法中,服务器通过定时周期内获取当前机型故障率或当前部件故障率分别对应不同的机型预警等级,灵活地对影响安全应用的不同的部件问题进行响应,可保障机器的正常稳健运行。同时,服务器可基于预设报告等级获取周期故障分析报告,利于维护人员从该周期故障分析报告中获取机型或部件类型的共性问题,并及时采取维护或升级措施,降低批量机器共性问题产生的当前机型故障率或当前部件故障率,提高机器的适用性。
在一实施例中,如图3所示,在步骤S40中,即获取机型预警等级或部件预警等级中,具体包括如下步骤:
S41.获取每一在线机型在定时周期内对应的在线机型数量、问题机型数量和问题部件数量。
其中,在线机型数据表是记录定时周期内上线过的机器的状态记录表,比如,定时周期内机器A上线过,则可将在线机型数据表中机器A对应的上线状态更新为已登录状态。可以理解地,在每一定时周期结束时,服务器自动将在线机型数据表中每台机器对应的上线状态更新为未登录状态,以便服务器在新的定时周期内统计上线过的机器的数量,确定为在线机型数量,也即在线机型数量的定义就是在当前的定时周期内在线机型数据表中上线状态为已登录状态的机器的总数。
机型维护数据表是记录机器中的部件出现问题以及具体问题原因的记录表,具体登记内容还包括机器ID、机型、部件ID、部件类型和故障原因等,以便后续服务器基于继续维护数据表获取基于同一机型的问题机型数量,或基于同一部件类型的问题部件数量。比如,服务器可基于同一机型在机型维护数据表中进行筛选,统计当前的定时周期内该机型发生过故障的总数量作为问题机型数量。服务器可基于同一部件类型在机型维护数据表中进行筛选,统计当前的定时周期内该部件类型发生过故障的总数量作为问题部件数量。
步骤S41中,服务器可根据在线机型数据表和机型维护记录表及时获取在线机型数量、同一机型对应的问题机型数量和同一部件类型对应的问题部件数量,避免人工进行筛选计算,便捷准确。
S42.基于在线机型数量、问题机型数量和问题部件数量,获取定时周期内的当前机型故障率和当前部件故障率。
其中,当前机型故障率是问题机型数量占在线机型数量的百分比,当前部件故障率是问题部件数量占在线机型数量的百分比。
具体地,定时周期内的在线机型数量N,问题机型数量n,问题部件数量m:
每月该款机器的总体故障率和部件故障率为:
当前机型故障率=n/N*100%
当前部件故障率=m/N*100%
步骤S42中,服务器根据预设公式可快速获取当前机型故障率和当前部件故障率,为后续基于当前机型故障率和当前部件故障率判定机型预警等级准备数据基础。
S43.基于定时周期对应的在线机型数量和当前机型故障率,获取机型预警等级,基于机型预警等级进行等级预警响应。
步骤S43中,服务器设定基于不同的当前机型故障率对应不同的机型预警等级,以及不同的等级预警响应,可采取灵活的等级预警响应对机器进行维护,利于对于紧要的机器问题进行及时维护,对于次要的机器问题按预设时间进行集中维护,可有效保障机器的正常运行,减少因维护耽误运行时间。
S44.基于定时周期对应的在线机型数量和当前部件故障率,获取部件预警等级,基于部件预警等级进行等级预警响应。
其中,部件预警等级是服务器预设的基于当前部件故障率分别划分的不同的安全性等级,用于基于不同的安全性等级启动不同的预警响应行为,每一预警响应行为即为等级预警响应,举例如下:
机型预警等级:一级预警等级、二级预警等级、三级预警等级。
等级预警响应:对于一级预警等级,即刻进行维护。
对于二级预警等级,可在预设二级周期响应时间每日晚8点进行维护。
对于三级预警等级,可在预设三级周期响应时间每周五晚8点进行维护。
步骤S44中,服务器设定基于不同的当前部件故障率对应不同的机型预警等级,以及不同的等级预警响应,可采取灵活的等级预警响应对机器部件进行维护,利于对于紧要的机器部件问题进行及时维护,对于次要的机器部件问题按预设时间进行集中维护,可有效保障机器的正常运行,减少因维护耽误运行时间。
步骤S41至S44中,服务器可根据在线机型数据表和机型维护记录表及时获取在线机型数量、同一机型对应的问题机型数量和同一部件类型对应的问题部件数量,避免人工进行筛选计算,便捷准确。服务器根据预设公式可快速获取当前机型故障率和当前部件故障率,为后续基于当前机型故障率和当前部件故障率判定机型预警等级准备数据基础。服务器设定基于不同的当前机型故障率对应不同的机型预警等级,以及不同的等级预警响应,可采取灵活的等级预警响应对机器进行维护,利于对于紧要的机器问题进行及时维护,对于次要的机器问题按预设时间进行集中维护,可有效保障机器的正常运行,减少因维护耽误运行时间。服务器设定基于不同的当前部件故障率对应不同的机型预警等级,以及不同的等级预警响应,可采取灵活的等级预警响应对机器部件进行维护,利于对于紧要的机器部件问题进行及时维护,对于次要的机器部件问题按预设时间进行集中维护,可有效保障机器的正常运行,减少因维护耽误运行时间。
在一实施例中,如图4所示,在步骤S43中,即基于定时周期对应的在线机型数量和当前机型故障率,获取机型预警等级,基于机型预警等级进行等级预警响应,具体包括如下步骤:
S431.若定时周期内的在线机型数量大于预设对比数量,且当前机型故障率大于预设第一故障率,则获取一级机型预警,基于一级机型预警进行一级预警响应。
其中,预设对比数量是根据实际应用场景而预设的对比数量,此处不作具体限定,同理可得预设第一故障率。
一级机型预警是根据时间应用场景设定的预警紧急程度的提示,于本实施例,可将级数越大的预警设定为越紧急的事件。由此可得,一级预警响应是与一级机型预警对应的响应方式,具体可包括对应的各种响应措施等。
S432.若定时周期内的在线机型数量不大于预设对比数量,且当前机型故障率大于预设第一故障率,则获取前期机型故障率。
其中,前期机型故障率是指当前在线机型在前一个周期的机型故障率。
S433.若前期机型故障率大于预设第一故障率,则获取一级机型预警,基于一级机型预警进行一级预警响应。
S434.若前期机型故障率不大于预设第一故障率,则获取二级机型预警,基于二级机型预警进行二级预警响应。
其中,二级机型预警是对比一级机型预警更为紧急或不太紧急的预警。于本实施例,具体为比一级机型预警更为进行的预警,同理可得与二级机型预警对应的二级预警响应,也即二级预警响应的紧急程度应大于一级预警响应。
步骤S431至S434中,服务器设定基于不同的当前机型故障率对应不同的机型预警等级,以及不同的等级预警响应,可采取灵活的等级预警响应对机器进行维护,利于对于紧要的机器问题进行及时维护,对于次要的机器问题按预设时间进行集中维护,可有效保障机器的正常运行,减少因维护耽误运行时间。
在一实施例中,如图5所示,在步骤S44中,即基于定时周期对应的在线机型数量和当前部件故障率,获取部件预警等级,基于部件预警等级进行等级预警响应,具体包括如下步骤:
S441.若定时周期内的在线机型数量大于预设对比数量,且当前部件故障率大于预设第二故障率,则获取一级部件预警,基于一级部件预警进行一级预警响应。
其中,一级部件预警是根据时间应用场景设定的预警紧急程度的提示,于本实施例,可将级数越大的预警设定为越紧急的事件。由此可得,一级预警响应是与一级部件预警对应的响应方式,具体可包括对应的各种响应措施等。
S442.若定时周期内的机型数量不大于预设对比数量,且当前部件故障率大于预设第二故障率,则获取前期部件故障率。
其中,前期部件故障率是指当前当前部件在前一个周期的部件故障率。
S443.若前期部件故障率大于预设第二故障率,则获取一级部件预警,基于一级部件预警进行一级预警响应
S444.若前期部件故障率未大于预设第二故障率,则获取二级部件预警,基于二级部件预警进行二级预警响应。
步骤S441至S444中,服务器设定基于不同的当前部件故障率对应不同的机型预警等级,以及不同的等级预警响应,可采取灵活的等级预警响应对机器部件进行维护,利于对于紧要的机器部件问题进行及时维护,对于次要的机器部件问题按预设时间进行集中维护,可有效保障机器的正常运行,减少因维护耽误运行时间。
在一实施例中,如图6所示,在步骤S10之前,即在获取服务器故障预警请求之前,服务器故障预警方法还具体包括如下步骤:
S111.获取故障上报请求,故障上报请求包括故障上报日期和故障上报信息,故障上报信息包括机器ID、部件ID和故障原因。
其中,故障上报日期即为机器或部件发送故障并上报到服务器的日期。故障上报信息是具体故障原因等信息。机器ID和部件ID是服务器用于区分每一机器或部件的唯一标识。故障原因即为发生故障的具体原因等。
S112.获取机器ID对应的机型和部件ID对应的部件类型。
其中,每一机器ID都对应一个机型,同时每一部件ID也都对应一部件类型。获取机器ID对应的机型和部件ID对应的部件类型利于后续基于每一机型或部件类型对机型或部件出现的故障进行类别统计。
S113.关联保存故障上报日期、机器ID、机型、部件ID、部件类型和故障原因形成当前机型维护信息,将当前机型维护信息添加到机型维护记录表中。
其中,当前机型维护信息是包括与故障产生有关的所有信息,比如机器ID、机型、部件ID或部件类型等的各种信息。
机型维护记录表是用以记录并维护各个机型或部件的记录表,利于维护人员基于该表进行各种问题的查找和定位。
步骤S111至S113中,服务器可基于故障上报请求记录在线机型出现的问题机型、该问题机型对应的问题部件以及该问题部件对应的故障原因,便于后续服务器在定时周期内统计并当前周期的问题机型以及问题部件,获取周期故障分析报告,查找到共性问题。
在一实施例中,如图7所示,在步骤S10之前,在步骤S10之前,即在获取服务器故障预警请求之前,服务器故障预警方法还具体包括如下步骤:
S121.统计系统当前时间对应的定时周期内,在线机型数据表中的登录状态为已登录状态的每一在线机型对应的数量,确定为在线机型数量。
具体地,每一机型在定时周期内未必都在线,只有在定位周期内在线的机型才可记录到当前定时周期内的在线机型数据表中,并更新该在线机型对应的登录状态为已登录状态。
S122.统计系统当前时间对应的定时周期内,机型维护记录表中每一在线机型对应的问题机型对应的机器数量和,确定为问题机型数量,以及每一在线机型对应的问题部件类型对应的部件数量和,确定为问题部件数量。
步骤S121至S122中,服务器可基于在线机型数据表及时获取在线机型数量,基于机型维护记录表及时获取问题机型数量和问题部件数量,避免人工进行统计,提高计算自动化程度,准确高效。
在一实施例中,如图8所示,在步骤S50中,即若机型预警等级或部件预警等级达到预设报告等级,则对机型维护记录表中的在线机型进行周期故障分析,获取周期故障分析报告,具体包括如下步骤:
S51.若机型预警等级为预设报告等级,则基于机型维护记录表,获取在线机型对应的问题机型对应的机型故障原因。
其中,预设报告等级为需要对机型预警等级产生报告的等级。因每个机型或部件产生故障的紧急程度不同,无需对每一故障都产生报告等级。仅仅将属于预设报告等级内的机型应等级添加到机型维护记录表中,以便提起查表维护人员的注意。
或者,
S52.若部件预警等级为预设报告等级,则基于机型维护记录表,获取在线机型对应的问题部件类型对应的部件故障原因。
步骤S51至S52中,服务器可在周期故障原因中对故障原因按原因相似度进行排序,以便维护人员及时从周期故障分析报告中获取定时周期内相同机型或相同部件类型存在的共性问题,利于维护人员基于共性问题进行系统升级等维护和升级措施。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本实施例提供的服务器故障预警方法中,服务器通过定时周期内获取当前机型故障率或当前部件故障率分别对应不同的机型预警等级,灵活地对影响安全应用的不同的部件问题进行响应,可保障机器的正常稳健运行。同时,服务器可基于预设报告等级获取周期故障分析报告,利于维护人员从该周期故障分析报告中获取机型或部件类型的共性问题,并及时采取维护或升级措施,降低批量机器共性问题产生的当前机型故障率或当前部件故障率,提高机器的适用性。
进一步地,服务器设定基于不同的当前机型故障率对应不同的机型预警等级,以及不同的等级预警响应,可采取灵活的等级预警响应对机器进行维护,利于对于紧要的机器问题进行及时维护,对于次要的机器问题按预设时间进行集中维护,可有效保障机器的正常运行,减少因维护耽误运行时间。
进一步地,服务器设定基于不同的当前部件故障率对应不同的机型预警等级,以及不同的等级预警响应,可采取灵活的等级预警响应对机器部件进行维护,利于对于紧要的机器部件问题进行及时维护,对于次要的机器部件问题按预设时间进行集中维护,可有效保障机器的正常运行,减少因维护耽误运行时间。
进一步地,服务器可基于故障上报请求记录在线机型出现的问题机型、该问题机型对应的问题部件以及该问题部件对应的故障原因,便于后续服务器在定时周期内统计并当前周期的问题机型以及问题部件,获取周期故障分析报告,查找到共性问题。
进一步地,服务器可基于在线机型数据表及时获取在线机型数量,基于机型维护记录表及时获取问题机型数量和问题部件数量,避免人工进行统计,提高计算自动化程度,准确高效。
进一步地,服务器可在周期故障原因中对故障原因按原因相似度进行排序,以便维护人员及时从周期故障分析报告中获取定时周期内相同机型或相同部件类型存在的共性问题,利于维护人员基于共性问题进行系统升级等维护和升级措施。
在一实施例中,提供一种服务器故障预警装置,该服务器故障预警装置与上述实施例中服务器故障预警方法一一对应。如图9所示,该服务器故障预警装置包括获取预警请求模块10、获取监测数据模块20、激活定期任务模块30、获取预警等级模块40、提取故障原因模块50、形成原因排序表模块60和形成分析报告模块70。各功能模块详细说明如下:
获取预警请求模块10,用于获取服务器故障预警请求,服务器故障预警请求包括定期任务和定时周期,其中,定期任务包括读取服务器系统事件日志库的日志信息。
获取监测数据模块20,用于通过IPMI命令对服务器硬件状态进行监测,获取硬件监测数据,将硬件监测数据添加到日志信息中。
激活定期任务模块30,用于若系统当前时间满足定时周期,则激活定期任务,获取定时周期对应的日志信息。
获取预警等级模块40,用于基于定时周期对应的日志信息,获取机型预警等级或部件预警等级。
提取故障原因模块50,用于若机型预警等级或部件预警等级达到预设报告等级,则基于机型维护记录表,提取每一在线机型在定时周期内的周期故障原因。
形成原因排序表模块60,用于统计每一定时周期故障原因对应的故障发生次数,按降序排列所有故障发生次数,形成故障原因排序表。
形成分析报告模块70,用于将故障原因排序表添加到预设周期故障分析模板中,形成周期故障分析报告。
优选地,该获取预警等级模块40,包括:
统计记录表单元,用于定期对在线机型数据表和机型维护记录表进行统计,获取每一在线机型在定时周期内对应的在线机型数量、问题机型数量和问题部件数量。
获取部件故障率单元,用于基于在线机型数量、问题机型数量和问题部件数量,获取定时周期内的当前机型故障率和当前部件故障率。
获取机型等级单元,用于基于定时周期对应的在线机型数量和当前机型故障率,获取机型预警等级,基于机型预警等级进行等级预警响应。
获取部件等级单元,用于基于定时周期对应的在线机型数量和当前部件故障率,获取部件预警等级,基于部件预警等级进行等级预警响应。
优选地,该获取机型等级模块,包括:
获取一级预警单元,用于若定时周期内的在线机型数量大于预设对比数量,且当前机型故障率大于预设第一故障率,则获取一级机型预警,基于一级机型预警进行一级预警响应。
获取机型故障率单元,用于若定时周期内的在线机型数量不大于预设对比数量,且当前机型故障率大于预设第一故障率,则获取前期机型故障率。
进行一级响应单元,用于若前期机型故障率大于预设第一故障率,则获取一级机型预警,基于一级机型预警进行一级预警响应。
进行二级响应单元,用于若前期机型故障率不大于预设第一故障率,则获取二级机型预警,基于二级机型预警进行二级预警响应。
优选地,获取部件等级模块,包括:
获取部件预警单元,用于若定时周期内的在线机型数量大于预设对比数量,且当前部件故障率大于预设第二故障率,则获取一级部件预警,基于一级部件预警进行一级预警响应。
获取部件故障率单元,用于若定时周期内的机型数量不大于预设对比数量,且当前部件故障率大于预设第二故障率,则获取前期部件故障率。
进行预警响应单元,用于若前期部件故障率大于预设第二故障率,则获取一级部件预警,基于一级部件预警进行一级预警响应
进行二级响应单元,用于若前期部件故障率未大于预设第二故障率,则获取二级部件预警,基于二级部件预警进行二级预警响应。
优选地,该服务器故障预警装置还包括:
获取上报请求模块,用于获取故障上报请求,故障上报请求包括故障上报日期和故障上报信息,故障上报信息包括机器ID、部件ID和故障原因。
获取部件类型模块,用于获取机器ID对应的机型和部件ID对应的部件类型。
形成维护信息模块,用于关联保存故障上报日期、机器ID、机型、部件ID、部件类型和故障原因形成当前机型维护信息,将当前机型维护信息添加到机型维护记录表中。
优选地,该统计记录表模块包括:
确定机型数量单元,用于统计系统当前时间对应的定时周期内,在线机型数据表中的登录状态为已登录状态的每一在线机型对应的数量,确定为在线机型数量。
确定部件数量单元,用于统计系统当前时间对应的定时周期内,机型维护记录表中每一在线机型对应的问题机型对应的机器数量和,确定为问题机型数量,以及每一在线机型对应的问题部件类型对应的部件数量和,确定为问题部件数量。
优选地,该提取故障原因模块包括:
获取机型原因单元,用于若机型预警等级为预设报告等级,则基于机型维护记录表,获取在线机型对应的问题机型对应的机型故障原因。
或者,
获取部件原因单元,用于若部件预警等级为预设报告等级,则基于机型维护记录表,获取在线机型对应的问题部件类型对应的部件故障原因。
关于服务器故障预警装置的具体限定可以参见上文中对于服务器故障预警方法的限定,在此不再赘述。上述服务器故障预警装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于服务器故障预警方法相关的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种服务器故障预警方法。
在一实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例服务器故障预警方法,例如图2所示S10至步骤S70。或者,处理器执行计算机程序时实现上述实施例中服务器故障预警装置的各模块/单元的功能,例如图9所示模块10至模块70的功能。为避免重复,此处不再赘述。
在一实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例服务器故障预警方法,例如图2所示S10至步骤S70。或者,该计算机程序被处理器执行时实现上述装置实施例中服务器故障预警装置中各模块/单元的功能,例如图9所示模块10至模块70的功能。为避免重复,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种服务器故障预警方法,其特征在于,包括:
获取服务器故障预警请求,所述服务器故障预警请求包括定期任务和定时周期,其中,所述定期任务包括读取服务器系统事件日志库的日志信息;
通过IPMI命令对服务器硬件状态进行监测,获取硬件监测数据,将所述硬件监测数据添加到所述日志信息中;
若系统当前时间满足所述定时周期,则激活所述定期任务,获取所述定时周期对应的所述日志信息;
基于所述定时周期对应的所述日志信息,获取机型预警等级或部件预警等级;
若所述机型预警等级或所述部件预警等级达到预设报告等级,则基于机型维护记录表,提取每一所述在线机型在所述定时周期内的周期故障原因;
统计每一所述定时周期故障原因对应的故障发生次数,按降序排列所有所述故障发生次数,形成故障原因排序表;
将所述故障原因排序表添加到预设周期故障分析模板中,形成周期故障分析报告。
2.如权利要求1所述的服务器故障预警方法,其特征在于,所述获取机型预警等级或部件预警等级,包括:
获取每一在线机型在所述定时周期内对应的在线机型数量、问题机型数量和问题部件数量;
基于所述在线机型数量、所述问题机型数量和所述问题部件数量,获取所述定时周期内的当前机型故障率和当前部件故障率;
基于所述定时周期对应的所述在线机型数量和所述当前机型故障率,获取机型预警等级,基于所述机型预警等级进行等级预警响应;
基于所述定时周期对应的所述在线机型数量和所述当前部件故障率,获取部件预警等级,基于所述部件预警等级进行等级预警响应。
3.如权利要求2所述的服务器故障预警方法,其特征在于,所述基于所述定时周期对应的所述在线机型数量和所述当前机型故障率,获取机型预警等级,基于所述机型预警等级进行等级预警响应,包括:
若所述定时周期内的所述在线机型数量大于预设对比数量,且所述当前机型故障率大于预设第一故障率,则获取一级机型预警,基于所述一级机型预警进行一级预警响应;
若所述定时周期内的所述在线机型数量不大于所述预设对比数量,且所述当前机型故障率大于所述预设第一故障率,则获取前期机型故障率;
若所述前期机型故障率大于所述预设第一故障率,则获取一级机型预警,基于所述一级机型预警进行一级预警响应;
若所述前期机型故障率不大于所述预设第一故障率,则获取二级机型预警,基于所述二级机型预警进行二级预警响应。
4.如权利要求2所述的服务器故障预警方法,其特征在于,所述基于所述定时周期对应的所述在线机型数量和所述当前部件故障率,获取部件预警等级,基于所述部件预警等级进行等级预警响应,包括:
若所述定时周期内的所述在线机型数量大于所述预设对比数量,且所述当前部件故障率大于预设第二故障率,则获取一级部件预警,基于所述一级部件预警进行一级预警响应;
若所述定时周期内的所述机型数量不大于所述预设对比数量,且所述当前部件故障率大于所述预设第二故障率,则获取前期部件故障率;
若所述前期部件故障率大于所述预设第二故障率,则获取一级部件预警,基于所述一级部件预警进行一级预警响应
若所述前期部件故障率未大于所述预设第二故障率,则获取二级部件预警,基于所述二级部件预警进行二级预警响应。
5.如权利要求2所述的服务器故障预警方法,其特征在于,在所述获取服务器故障预警请求之前,所述服务器故障预警方法还包括:
获取故障上报请求,所述故障上报请求包括故障上报日期和故障上报信息,所述故障上报信息包括机器ID、部件ID和故障原因;
获取所述机器ID对应的机型和所述部件ID对应的部件类型;
关联保存所述故障上报日期、所述机器ID、所述机型、所述部件ID、所述部件类型和所述故障原因形成当前机型维护信息,将所述当前机型维护信息添加到中所述机型维护记录表中。
6.如权利要求1所述的服务器故障预警方法,其特征在于,在所述获取服务器故障预警请求之前,所述服务器故障预警方法还包括:
统计系统当前时间对应的所述定时周期内,所述在线机型数据表中的登录状态为已登录状态的每一所述在线机型对应的数量,确定为所述在线机型数量;
统计系统当前时间对应的定时周期内,所述机型维护记录表中每一所述在线机型对应的问题机型对应的机器数量和,确定为所述问题机型数量,以及每一所述在线机型对应的问题部件类型对应的部件数量和,确定为问题部件数量。
7.如权利要求1所述的服务器故障预警方法,其特征在于,所述基于所述机型维护记录表,提取每一所述在线机型在所述定时周期内的周期故障原因,包括:
若所述机型预警等级为预设报告等级,则基于所述机型维护记录表,获取所述在线机型对应的问题机型对应的机型故障原因;
或者,
若所述部件预警等级为预设报告等级,则基于所述机型维护记录表,获取所述在线机型对应的问题部件类型对应的部件故障原因。
8.一种服务器故障预警装置,其特征在于,包括:
获取预警请求模块,用于获取服务器故障预警请求,服务器故障预警请求包括定期任务和定时周期,其中,定期任务包括读取服务器系统事件日志库的日志信息;
获取监测数据模块,用于通过IPMI命令对服务器硬件状态进行监测,获取硬件监测数据,将硬件监测数据添加到日志信息中;
激活定期任务模块,用于若系统当前时间满足定时周期,则激活定期任务,获取定时周期对应的日志信息;
获取预警等级模块,用于基于定时周期对应的日志信息,获取机型预警等级或部件预警等级;
提取故障原因模块,用于若所述机型预警等级或所述部件预警等级达到预设报告等级,则基于所述机型维护记录表,提取每一所述在线机型在所述定时周期内的周期故障原因;
形成原因排序表模块,用于统计每一所述定时周期故障原因对应的故障发生次数,按降序排列所有所述故障发生次数,形成故障原因排序表;
形成分析报告模块,用于将所述故障原因排序表添加到预设周期故障分析模板中,形成周期故障分析报告。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述服务器故障预警方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述服务器故障预警方法。
CN202010122319.7A 2020-02-27 2020-02-27 服务器故障预警方法、装置、计算机设备及存储介质 Pending CN111444031A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010122319.7A CN111444031A (zh) 2020-02-27 2020-02-27 服务器故障预警方法、装置、计算机设备及存储介质
PCT/CN2020/117575 WO2021169270A1 (zh) 2020-02-27 2020-09-25 服务器故障预警方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010122319.7A CN111444031A (zh) 2020-02-27 2020-02-27 服务器故障预警方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111444031A true CN111444031A (zh) 2020-07-24

Family

ID=71627068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010122319.7A Pending CN111444031A (zh) 2020-02-27 2020-02-27 服务器故障预警方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN111444031A (zh)
WO (1) WO2021169270A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100456A (zh) * 2020-09-16 2020-12-18 广东电网有限责任公司电力科学研究院 一次设备共性缺陷或故障的判断方法、装置及终端设备
CN112504332A (zh) * 2020-10-16 2021-03-16 安徽中科中涣防务装备技术有限公司 一种复合型传感检测及智能控制方法、系统和装置
CN113127299A (zh) * 2021-03-30 2021-07-16 山东英信计算机技术有限公司 服务器运维方法、装置、系统及计算机可读存储介质
WO2021169270A1 (zh) * 2020-02-27 2021-09-02 平安科技(深圳)有限公司 服务器故障预警方法、装置、计算机设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114475731A (zh) * 2021-12-29 2022-05-13 卡斯柯信号有限公司 一种信号设备故障知识库系统及其实现方法
CN115277353B (zh) * 2022-07-21 2023-07-28 西安航天发动机有限公司 一种智能柜机远程故障主被动预警方法
CN115242611B (zh) * 2022-07-21 2023-10-03 北京天一恩华科技股份有限公司 一种网络故障报警级别管理方法、装置、设备和存储介质
CN115130702B (zh) * 2022-09-02 2022-12-02 山东汇泓纺织科技有限公司 一种基于大数据分析的纺织机故障预测系统
CN115860586A (zh) * 2023-03-01 2023-03-28 英迪格(天津)电气有限公司 一种铁路变配电故障的分析系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8312323B2 (en) * 2006-12-22 2012-11-13 Commvault Systems, Inc. Systems and methods for remote monitoring in a computer network and reporting a failed migration operation without accessing the data being moved
CN108023782B (zh) * 2017-12-29 2020-11-27 华东师范大学 一种基于维修记录的设备故障预警方法
CN108415789B (zh) * 2018-01-24 2020-05-22 西安交通大学 面向大规模混合异构存储系统的节点故障预测系统及方法
CN108376107A (zh) * 2018-03-01 2018-08-07 郑州云海信息技术有限公司 一种服务器故障检测的方法、装置、设备及存储介质
CN109189640A (zh) * 2018-08-24 2019-01-11 平安科技(深圳)有限公司 服务器的监控方法、装置、计算机设备及存储介质
CN111444031A (zh) * 2020-02-27 2020-07-24 平安科技(深圳)有限公司 服务器故障预警方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021169270A1 (zh) * 2020-02-27 2021-09-02 平安科技(深圳)有限公司 服务器故障预警方法、装置、计算机设备及存储介质
CN112100456A (zh) * 2020-09-16 2020-12-18 广东电网有限责任公司电力科学研究院 一次设备共性缺陷或故障的判断方法、装置及终端设备
CN112504332A (zh) * 2020-10-16 2021-03-16 安徽中科中涣防务装备技术有限公司 一种复合型传感检测及智能控制方法、系统和装置
CN113127299A (zh) * 2021-03-30 2021-07-16 山东英信计算机技术有限公司 服务器运维方法、装置、系统及计算机可读存储介质

Also Published As

Publication number Publication date
WO2021169270A1 (zh) 2021-09-02

Similar Documents

Publication Publication Date Title
CN111444031A (zh) 服务器故障预警方法、装置、计算机设备及存储介质
JP6828096B2 (ja) サーバハードウェア障害の分析及びリカバリ
US20200358826A1 (en) Methods and apparatus to assess compliance of a virtual computing environment
US11681595B2 (en) Techniques and system for optimization driven by dynamic resilience
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
CN108763038B (zh) 告警数据的管理方法、装置、计算机设备及存储介质
US20100318836A1 (en) Monitoring and healing a computing system
US9674031B2 (en) Automated management of a distributed computing system
US11329869B2 (en) Self-monitoring
US10635557B2 (en) System and method for automated detection of anomalies in the values of configuration item parameters
CN103324565B (zh) 日志监控方法
CN109901969B (zh) 一种集中监控管理平台的设计方法及装置
WO2018233170A1 (zh) 日志记录方法、装置、计算机设备及存储介质
US20220342740A1 (en) Method and Device for Detecting Memory Downgrade Error
CN112527605A (zh) 一种基于ipmi的服务器管理方法及装置
CN115658408A (zh) 传感器状态检测方法、装置及可读存储介质
US11657321B2 (en) Information processing device, non-transitory storage medium and information processing method
US7206975B1 (en) Internal product fault monitoring apparatus and method
Li et al. Going through the life cycle of faults in clouds: Guidelines on fault handling
US7487181B2 (en) Targeted rules and action based client support
TWI292091B (en) Computer performance evaluator and application method thereof
JP2020035297A (ja) 機器状態監視装置及びプログラム
CN115580522A (zh) 一种容器云平台运行状态的监控方法及装置
Lal et al. Error and failure analysis of a unix server
US11354207B2 (en) Live process migration in response to real-time performance-based metrics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination