CN114598588B - 服务器故障确定方法、装置及终端设备 - Google Patents

服务器故障确定方法、装置及终端设备 Download PDF

Info

Publication number
CN114598588B
CN114598588B CN202210249579.XA CN202210249579A CN114598588B CN 114598588 B CN114598588 B CN 114598588B CN 202210249579 A CN202210249579 A CN 202210249579A CN 114598588 B CN114598588 B CN 114598588B
Authority
CN
China
Prior art keywords
fault
downtime
type
determining
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210249579.XA
Other languages
English (en)
Other versions
CN114598588A (zh
Inventor
徐凡
李元鹏
刘炯宙
刘毅
李昕
陈润青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210249579.XA priority Critical patent/CN114598588B/zh
Publication of CN114598588A publication Critical patent/CN114598588A/zh
Application granted granted Critical
Publication of CN114598588B publication Critical patent/CN114598588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种服务器故障确定方法、装置及终端设备,该方法包括:确定第一故障设备集合、以及所述第一故障设备集合的宕机特征,所述第一故障设备集合中非主动关闭的故障设备符合第一预设条件;根据所述宕机特征,确定所述第一故障设备集合的宕机类型,所述宕机类型为预期宕机类型或非预期宕机类型;在所述第一故障设备集合的宕机类型为非预期类型时,获取所述第一故障设备集合对应的至少一个环境事件,所述环境事件为所述故障设备所处的网络环境在第一预设时长之前发生的事件;根据所述至少一个环境事件,确定所述第一故障设备集合的故障信息。提高故障处理效率。

Description

服务器故障确定方法、装置及终端设备
技术领域
本申请涉及云计算技术领域,尤其涉及一种服务器故障确定方法、装置及终端设备。
背景技术
批量宕机包括运维人员主动操作的预期批量宕机和故障引发的非预期批量宕机,而对非预期批量宕机的识别尤为重要。
目前,在获取批量宕机的设备之后,需要通过人工排查的方式,区分预期批量宕机的设备和非预期批量宕机的设备。例如,在多个服务器发生批量宕机事件时,运维人员可以查询批量宕机的服务器对应的多个信息,进而根据经验判断非预期批量宕机的服务器。但是,人工排查的效率较低,需要较长时间才能确定多个服务器宕机是否为非预期批量宕机,这样导致故障处理的效率较低。
发明内容
本申请提供一种服务器故障确定方法、装置及终端设备,用于解决现有技术中故障处理的效率较低的技术问题。
第一方面,本申请实施例提供一种服务器故障确定方法,该方法包括:
确定第一故障设备集合、以及所述第一故障设备集合的宕机特征,所述第一故障设备集合中非主动关闭的故障设备符合第一预设条件;
根据所述宕机特征,确定所述第一故障设备集合的宕机类型,所述宕机类型为预期宕机类型或非预期宕机类型;
在所述第一故障设备集合的宕机类型为非预期类型时,获取所述第一故障设备集合对应的至少一个环境事件,所述环境事件为所述故障设备所处的网络环境在第一预设时长之前发生的事件;
根据所述至少一个环境事件,确定所述第一故障设备集合的故障信息。
在一种可能的实施方式中,确定所述第一故障设备集合的宕机特征,包括:
获取所述第一故障设备集合对应的拓扑信息、故障设备信息和业务信息;
根据所述拓扑信息、所述故障设备信息和所述业务信息,确定所述宕机特征。
在一种可能的实施方式中,根据所述拓扑信息、所述故障设备信息和所述业务信息,确定所述宕机特征,包括:
通过预设算法对所述拓扑信息、所述故障设备信息和所述业务信息进行处理,得到所述第一故障设备集合对应的第一特征;
获取所述第一故障设备集合中的故障设备数量、以及每个故障设备的故障时间;
对所述故障设备数量、多个故障时间和所述第一特征进行拼接,得到所述宕机特征。
在一种可能的实施方式中,确定第一故障设备集合,包括:
获取多个故障设备,以及多个故障设备之间的相关性;
根据所述相关性,对所述多个故障设备进行处理,得到多个第二故障设备集合,所述第二故障设备集合中所述多个故障设备的相关性大于或等于第二阈值;
在所述多个第二故障设备集合中,确定所述第一故障设备集合。
在一种可能的实施方式中,针对于任意一个第二故障设备集合;在所述多个第二故障设备集合中,确定所述第一故障设备集合,包括:
获取所述第二故障集设备合中各故障设备在第二预设时长之前的运维信息;
根据所述运维信息,确定所述故障设备的故障类型,所述故障类型为主动关闭类型和非主动关闭类型;
若所述故障类型为非主动关闭类型的故障设备符合第一预设条件,则将所述第二故障设备集合确定为所述第一故障设备集合。
在一种可能的实施方式中,根据所述至少一个环境事件,确定所述第一故障设备集合的故障信息,包括:
获取第一预设关系,所述第一预设关系中包括至少一个事件和每个事件引起批量宕机的概率;
根据所述环境事件和所述第一预设关系,确定所述第一故障设备集合的故障信息。
在一种可能的实施方式中,根据所述宕机特征,确定所述第一故障设备集合的宕机类型,包括:
通过预设模型对所述宕机特征进行处理,得到所述第一故障设备集合的宕机类型;
其中,所述预设模型为对多组样本学习得到的,每组样本包括样本宕机特征和样本宕机类型。
第二方面,本申请实施例提供一种服务器故障确定装置,包括第一确定模块、第二确定模块、获取模块和第三确定模块,其中:
所述第一确定模块用于,确定第一故障设备集合、以及所述第一故障设备集合的宕机特征,所述第一故障设备集合中非主动关闭的故障设备符合第一预设条件;
所述第二确定模块用于,根据所述宕机特征,确定所述第一故障设备集合的宕机类型,所述宕机类型为预期宕机类型或非预期宕机类型;
所述获取模块用于,在所述第一故障设备集合的宕机类型为非预期类型时,获取所述第一故障设备集合对应的至少一个环境事件,所述环境事件为所述故障设备所处的网络环境在第一预设时长之前发生的事件;
所述第三确定模块用于,根据所述至少一个环境事件,确定所述第一故障设备集合的故障信息。
在一种可能的实施方式中,所述第一确定模块具体用于:
获取所述第一故障设备集合对应的拓扑信息、故障设备信息和业务信息;
根据所述拓扑信息、所述故障设备信息和所述业务信息,确定所述宕机特征。
在一种可能的实施方式中,所述第一确定模块具体用于:
通过预设算法对所述拓扑信息、所述故障设备信息和所述业务信息进行处理,得到所述第一故障设备集合对应的第一特征;
获取所述第一故障设备集合中的故障设备数量、以及每个故障设备的故障时间;
对所述故障设备数量、多个故障时间和所述第一特征进行拼接,得到所述宕机特征。
在一种可能的实施方式中,所述第一确定模块具体用于:
获取多个故障设备,以及多个故障设备之间的相关性;
根据所述相关性,对所述多个故障设备进行处理,得到多个第二故障设备集合,所述第二故障设备集合中所述多个故障设备的相关性大于或等于第二阈值;
在所述多个第二故障设备集合中,确定所述第一故障设备集合。
在一种可能的实施方式中,所述第一确定模块具体用于:
获取所述第二故障集设备合中各故障设备在第二预设时长之前的运维信息;
根据所述运维信息,确定所述故障设备的故障类型,所述故障类型为主动关闭类型和非主动关闭类型;
若所述故障类型为非主动关闭类型的故障设备符合第一预设条件,则将所述第二故障设备集合确定为所述第一故障设备集合。
在一种可能的实施方式中,所述第三确定模块具体用于:
获取第一预设关系,所述第一预设关系中包括至少一个事件和每个事件引起批量宕机的概率;
根据所述环境事件和所述第一预设关系,确定所述第一故障设备集合的故障信息。
在一种可能的实施方式中,所述第二确定模块具体用于:
通过预设模型对所述宕机特征进行处理,得到所述第一故障设备集合的宕机类型;
其中,所述预设模型为对多组样本学习得到的,每组样本包括样本宕机特征和样本宕机类型。
第三方面,本申请提供一种终端设备,包括:处理器、存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如第一方面所述的服务器故障确定方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现前述任一项所述的服务器故障确定方法。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前述任一项所述的服务器故障确定方法的步骤。
本申请提供一种服务器故障确定方法、装置及终端设备,确定第一故障设备集合、以及第一故障设备集合的宕机特征,其中,第一故障设备集合中非主动关闭的故障设备符合第一预设条件,根据宕机特征,确定第一故障设备集合的宕机类型,宕机类型为预期宕机类型或非预期宕机类型,在第一故障设备集合的宕机类型为非预期类型时,获取第一故障设备集合对应的至少一个环境事件,其中,环境事件为故障设备所处的网络环境在第一预设时长之前发生的事件,根据至少一个环境事件,确定第一故障设备集合的故障信息。在上述方法中,由于第一故障设备集合中非主动关闭的故障设备的占比较大,因此,通过第一故障设备集合的宕机特征,可以及时的确定第一故障设备集合中的故障设备是否为非预期宕机设备,并且可以根据环境事件,准确的确定故障信息,进而提高故障处理的效率。
附图说明
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的一种服务器故障确定方法的流程示意图;
图3为本申请实施例提供的一种确定第二故障设备集合的过程示意图;
图4为本申请实施例提供的一种确定第一故障设备集合的方法流程示意图;
图5为本申请实施例提供的一种服务器故障确定装置的结构示意图;
图6为本申请提供的终端设备的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在相关技术中,为了维护服务器的正常运转,运维人员需要准确的识别非预期批量宕机的设备。目前,在终端设备获取批量宕机的设备之后,可以通过人工排查的方式,识别非预期批量宕机的设备。例如,在服务器发生批量宕机事件时,运维人员可以查询批量宕机的服务器的信息,进而根据经验识别非预期批量宕机的服务器。但是,根据经验确定非预期批量宕机的设备的准确度较低,且人工排查的效率较低,需要较长时间才能确定多个服务器宕机是否为非预期批量宕机,这样导致故障处理的效率较低。
为了解决相关技术中故障处理的效率较低的技术问题,本申请实施例提供一种服务器故障确定方法,获取多个故障设备和多个故障设备之间的相关性,根据相关性,对多个故障设备进行处理,得到多个第二故障设备集合,其中,第二故障设备集合中多个故障设备的相关性大于或等于第二阈值,在多个第二故障设备集合中,确定第一故障设备集合,第一故障设备集合中非主动关闭的故障设备符合第一预设条件,确定第一故障设备集合的宕机特征,并根据宕机特征,确定第一故障设备集合的宕机类型,在第一故障设备集合的宕机类型为非预期类型时,获取第一故障设备集合对应的至少一个环境事件,并根据环境事件,确定第一故障设备集合的故障信息。这样,通过第一故障设备集合的宕机特征,可以及时的确定第一故障设备集合中的故障设备是否为非预期宕机设备,并且可以根据环境事件,准确的确定故障信息,进而提高故障处理的效率。
下面,结合图1,对本申请的应用场景进行说明。
图1为本申请实施例提供的一种应用场景示意图。请参见图1,包括:终端设备、批量宕机设备集合A、批量宕机设备集合B和批量宕机设备集合C。向终端设备输入批量宕机设备集合A、批量宕机设备集合B和批量宕机设备集合C,终端设备可以后去每个批量宕机设备集合的宕机特征,并根据宕机特征,确定批量宕机设备集合A为非预期批量宕机设备集合,并确定批量宕机设备集合A的故障原因为实时数据较大。这样,终端设备可以根据批量宕机设备集合对应的宕机特征,准确的确定非预期批量宕机的设备集合,并得到引起非预期批量宕机事件的原因,进而提高故障处理的效率。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的一种服务器故障确定方法的流程示意图。请参见图2,该方法可以包括:
S201、确定第一故障设备集合、以及所述第一故障设备集合的宕机特征。
本申请实施例的执行主体可以为终端设备,也可以为设置在终端设备中的服务器故障确定装置。其中,服务器故障确定装置可以通过软件实现,也可以通过软件和硬件的结合实现。
第一故障设备集合中非主动关闭的故障设备符合第一预设条件。可选的,第一故障设备集合中可以包括多个故障设备。例如,第一故障设备集合中可以包括多个发生宕机的服务器。可选的,第一预设条件可以包括如下至少一种:非主动关闭的故障设备在第一故障设备集合中的占比大于或等于第一阈值、非主动关闭的故障设备的数量大于或等于第二阈值。例如,故障设备集合中包括10个宕机服务器,其中,8个宕机服务器为非主动关闭,则该故障设备集合为第一故障设备集合。
可选的,可以根据如下可行的实现方式,确定第一故障设备集合:获取多个故障设备,以及多个故障设备之间的相关性。其中,故障设备可以为单台宕机服务器。例如,在服务器完全无响应时,服务器为单台宕机服务器。例如,根据不同的业务场景进行实时的单台宕机发现(如,业务无法执行、服务器无响应等),形成单台宕机事件,其中,单台宕机事件中可以包括宕机时间,宕机服务器的标识(如,序列号等)。
可选的,多个故障设备之间的相关性可以为多个维度的相关程度。例如,多个维度可以包括网络可用区、所属机房、业务产品线等维度。例如,通过卷积模型对单台宕机设备的信息(如,业务产品线、网络可用区等多个维度信息)进行处理,得到单台宕机设备的特征向量,进而确定多个特征向量之间的余弦相似度,通过余弦相似度确定多个故障设备之间的相关性。
根据相关性,对多个故障设备进行处理,得到多个第二故障设备集合。其中,第二故障设备集合中多个故障设备的相关性大于或等于第二阈值。例如,可以通过单一维度阈值法或者复杂多维度关联挖掘算法,对多个故障设备进行处理,得到多个第二故障设备集合。例如,若故障设备A的特征向量和故障设备B的特征向量之间的余弦相似度大于第二阈值,则将故障设备A和故障设备B划分至同一个第二故障设备集合中。
下面,结合图3,对确定第二故障设备集合的过程进行说明。
图3为本申请实施例提供的一种确定第二故障设备集合的过程示意图。请参见图3,包括故障设备A、故障设备B和故障设备C。确定故障设备A的特征为特征A,故障设备B的特征为特征B,故障设备C的特征为特征C。若特征A和特征B之间的余弦相似度大于第二阈值,则确定第二故障设备集合中包括故障设备A和故障设备B。
在多个第二故障设备集合中,确定第一故障设备集合。例如,可以通过第二故障设备集合中多个故障设备是否为主动关闭的故障设备,若主动关闭的故障设备数量较少,则将第二故障设备集合确定为第一故障设备集合。
可选的,宕机特征可以为第一故障设备集合中多个故障设备对应的融合特征。例如,第一故障设备集合中每个故障设备都有对应的特征向量,将多个子特征向量进行拼接,得到第一故障设备集合对应的宕机特征。
可选的,可以根据如下可行的实现方式,确定第一故障设备集合的宕机特征:获取第一故障设备集合对应的拓扑信息、故障设备信息和业务信息。其中,拓扑信息包括网络拓扑信息和物理拓扑信息。例如,网络拓扑信息可以包括网络可用区、上联网络设备等信息,物理拓扑信息可以包括故障设备所在的机房、包间、机柜等信息。可选的,可以根据第一故障设备集合中每个故障设备的拓扑信息,确定第一故障设备集合对应的拓扑信息。例如,第一故障设备集合中包括100个故障设备,若90个故障设备的网络可用区为区域1,剩余10个故障设备的网络可用区为区域2,则第一故障设备集合的网络可用区为区域1,若90个故障设备所在的机房为机房1,剩余10个故障设备所在的机房为机房2,则第一故障设备集合的机房为机房1。
故障设备信息为故障设备的设备信息。例如,故障设备信息可以包括故障设备的机型、故障设备零部件的版本等信息。可选的,可以根据第一故障设备集合中每个故障设备的故障设备信息,确定第一故障设备集合对应的故障设备信息。例如,第一故障设备集合中包括100个故障设备,若90个故障设备的机型为机型1,剩余10个故障设备的机型为机型2,则第一故障设备集合的机型为机型1
业务信息为故障设备服务的业务的信息。例如,业务信息可以包括服务器服务的业务产品线、业务应用名等信息。可选的,可以根据第一故障设备集合中每个故障设备的业务信息,确定第一故障设备集合对应的业务信息。例如,第一故障设备集合中包括100个故障设备,若90个故障设备的业务应用名为名称1,剩余10个故障设备的业务应用名为名称2,则第一故障设备集合的业务应用名为名称1。
根据拓扑信息、故障设备信息和业务信息,确定宕机特征。可选的,可以根据如下可行的实现方式,确定宕机特征:通过预设算法对拓扑信息、故障设备信息和业务信息进行处理,得到第一故障设备集合对应的第一特征。例如,预设算法可以为独热编码(One-Hot)、自然语言处理模型等算法,通过预设算法对上述拓扑信息、故障设备信息和业务信息进行处理,可以得到第一特征。例如,通过独热编码对拓扑信息进行处理,得到拓扑信息特征,通过独热编码对故障设备信息进行处理,得到故障设备信息特征,通过独热编码对业务信息进行处理,得到业务信息特征,将拓扑信息特征、故障设备信息特征和业务信息特征进行拼接处理,得到第一故障设备集合对应的第一特征。
获取第一故障设备集合中的故障设备数量、以及每个故障设备的故障时间,对故障设备数量、多个故障时间和第一特征进行拼接,得到宕机特征。其中,多个故障时间可以为多个故障设备的时间特征。例如,若第一故障设备集合中包括10个故障设备,每个故障设备对应1个故障时间,则可以将10个故障时间的特征进行拼接,得到10个故障设备对应的1个时间特征,进而将第一特征、时间特征和故障设备数量进行拼接,得到宕机特征。
S202、根据宕机特征,确定第一故障设备集合的宕机类型。
宕机类型为预期宕机类型或非预期宕机类型。其中,预期宕机类型用于指示第一故障设备集合中的多个故障设备为主动关闭,非预期宕机类型用于指示第一故障设备集合中的多个故障设备为非主动关闭。例如,若第一故障设备集合的宕机类型为预期宕机类型,则说明第一故障设备集合中的多个故障设备为预期批量宕机,若第一故障设备集合的宕机类型为非预期宕机类型,则说明第一故障设备集合中的多个故障设备为非预期批量宕机。
可以根据如下可行的实现方式,确定第一故障设备集合的宕机类型:通过预设模型对宕机特征进行处理,得到第一故障设备集合的宕机类型。其中,预设模型为对多组样本学习得到的,每组样本包括样本宕机特征和样本宕机类型。
多组样本可以为预先标记的样本。例如,对于样本宕机特征1,获取样本宕机特征1对应的样本宕机类型1,得到一组样本,该组样本包括样本宕机特征1、样本宕机类型1。采用该种方式,可以得到多组样本。例如,多组样本可以如表1所示:
表1
多组样本 样本宕机特征 样本宕机类型
第一组样本 样本宕机特征1 样本宕机类型1
第二组样本 样本宕机特征2 样本宕机类型2
第三组样本 样本宕机特征3 样本宕机类型3
…… …… ……
需要说明的是,表1只是以示例的形式示意多组样本,并非对多组样本的限定。
例如,若输入的第一故障设备集合对应的宕机特征为样本宕机特征1,则该第一故障设备集合对应的宕机类型为样本宕机类型1;若输入的第一故障设备集合对应的宕机特征为样本宕机特征2,则该第一故障设备集合对应的宕机类型为样本宕机类型2;若输入的第一故障设备集合对应的宕机特征为样本宕机特征3,则该第一故障设备集合对应的宕机类型为样本宕机类型3。
下面,对预设模型的训练过程进行说明。
获取多个批量宕机的设备集合,并获取每个设备集合对应的宕机特征,其中,多个批量宕机的设备集合中包括预期批量宕机设备集合和非预期批量宕机设备集合。将预期批量宕机设备集合对应的宕机特征标记为0,将非预期批量宕机设备集合对应的宕机特征标记为1,并输入至预设模型中(预设模型的模型类型不限,预设模型可以为树模型),直至预设模型收敛,模型训练结束。可选的,若预设模型输出为1,可以在预设模型中添加业务逻辑过滤,如某些维度(部分测试业务、部分测试机器等)无需验证则直接过滤,过滤后的结果标记为非预期宕机类型。
S203、在第一故障设备集合的宕机类型为非预期类型时,获取第一故障设备集合对应的至少一个环境事件。
环境事件为故障设备所处的网络环境在第一预设时长之前发生的事件。例如,环境事件包括网络、服务器、机房、业务等各个领域事件,获取第一故障设备集合中每个故障设备在发生故障之前1小时内发生的各个领域事件,并将其作为第一故障设备集合对应的环境事件。例如,第一故障设备集合中包括故障设备A和故障设备B,若故障设备A在发生故障之前存在事件A,故障设备B在发生故障之前存在事件B,则第一故障设备集合对应的环境事件包括事件A和事件B。
S204、根据至少一个环境事件,确定第一故障设备集合的故障信息。
可选的,根据至少一个环境事件,确定第一故障设备集合的故障信息,有如下两种可行的实现方式:
一种可行的实现方式:
获取第一预设关系。其中,第一预设关系中包括至少一个事件和每个事件引起批量宕机的概率。例如,第一预设关系可以入表2所示:
表2
事件 引起批量宕机的概率
事件1 概率1
事件2 概率2
事件3 概率3
…… ……
需要说明的是,表2只是以示例的形式示意第一预设关系,并非对第一预设关系的限定。
根据环境事件和第一预设关系,确定第一故障设备集合的故障信息。例如,若第一故障设备集合对应的环境事件为事件1,则故障信息为事件1的概率为概率1;若第一故障设备集合对应的环境事件为事件2,则故障信息为事件1的概率为概率2;若第一故障设备集合对应的环境事件为事件3,则故障信息为事件1的概率为概率3。
可选的,若第一故障设备集合对应多个环境事件,则根据第一预设关系,获取每个环境事件引起批量宕机的概率,进而根据引起批量宕机的概率,确定第一故障集合对应的故障信息。例如,第一故障设备集合包括环境事件A和环境事件B,若环境事件A引起批量宕机的概率大于环境事件B引起批量宕机的概率,则确定第一故障设备集合对应的故障信息为环境事件A。
另一种可行的实现方式:
获取第一故障设备集合对应的至少一个环境事件的融合特征,通过第一模型对融合特征进行处理,得到第一故障设备集合对应的故障信息。其中,融合特征的构造方法可以通过独热编码构造,也可以通过自然语言处理模型、树模型构造,本申请实施例对此不作限定。
可选的,环境事件的融合特征中包括每个环境事件的事件类型(如,硬件设备类型、数据类型等),以及发生该环境事件的故障设备,在第一设备故障集合中的占比。第一模型为对多组样本学习得到的,多组样本中包括样本融合特征和样本融合特征对应的故障信息。例如,若第一故障设备集合对应的环境事件的融合特征与第一模型训练使用的样本融合特征1相同,则第一故障设备集合对应的故障信息为样本融合特征1对应的样本故障信息1;若第一故障设备集合对应的环境事件的融合特征与第一模型训练使用的样本融合特征2相同,则第一故障设备集合对应的故障信息为样本融合特征2对应的样本故障信息2。
可选的,在通过第一模型得到引起非预期批量宕机的事件之后,还可以通过运维人员对该事件进行评估,以对第一模型进行反馈训练。例如,若运维人员确定第一模型输出的非预期批量宕机对应的故障信息有误,则可以反馈至第一模型,以提高第一模型的精度和故障信息确定的准确度。
本申请实施例提供一种服务器故障确定方法,确定第一故障设备集合,以及第一故障设备集合的宕机特征,并根据宕机特征,确定第一故障设备集合的宕机类型,在第一故障设备集合的宕机类型为非预期类型时,获取第一故障设备集合对应的至少一个环境事件,并根据环境事件,确定第一故障设备集合的故障信息。这样,通过第一故障设备集合的宕机特征,可以及时的确定第一故障设备集合中的故障设备是否为非预期宕机设备,并且可以根据环境事件,准确的确定故障信息,进而提高故障处理的效率。
在图2所示的实施例的基础上,下面,结合图4,对图2所示的服务器故障确定方法中的确定第一故障设备集合的方法进行说明。
图4为本申请实施例提供的一种确定第一故障设备集合的方法流程示意图。请参见图4,该方法流程包括:
S401、获取多个故障设备,以及多个故障设备之间的相关性。
需要说明的是,步骤S401的执行过程可以参照步骤S201的执行过程,本申请实施例对此不再进行赘述。
S402、根据相关性,对多个故障设备进行处理,得到多个第二故障设备集合。
第二故障设备集合中多个故障设备的相关性大于或等于第二阈值。可选的,可以通过归一化算法对多个故障设备进行聚类处理,得到多个第二故障设备集合。例如,若多个故障设备包括设备A、设备B、设备C和设备D,基于多个维度的相关性,若设备A与设备B的相关性大于第二阈值,设备C和设备D的相关性大于第二阈值,则通过聚类处理得到2个第二故障设备集合,其中一个第二故障设备集合中包括设备A和设备B,另一个第二故障设备集合中包括设备C和设备D。
S403、在多个第二故障设备集合中,确定第一故障设备集合。
可选的,针对于任意一个第二故障设备集合,可以通过如下可行的实现方式,确定第一故障设备集合:获取第二故障设备集合中各故障设备在第二预设时长之前的运维信息。其中,运维信息可以为运维人员的操作信息。例如,运维信息可以为运维人员主动关闭服务器。第二预设时长可以为任意设置的时长。例如,第二预设时长可以为5分钟、10分钟。例如,运维信息可以包括从各个运维系统、平台、日志收集明确的人工主动运维记录,如,人工开关机、重启机器等。可选的,运维信息包括运维时间和运维机器的标识。例如,通过运维信息可以准确的确定主动关机的设备,以及该设备主动关机的时间。
根据运维信息,确定故障设备的故障类型。其中,故障类型为主动关闭类型和非主动关闭类型。例如,若故障设备在10分钟前的运维信息指示故障设备为主动关闭的设备(如,运维信息包括运维人员按下关机键),则该故障设备的故障类型为主动关闭类型,若故障设备在10分钟前的运维信息指示故障设备为非主动关闭的设备(如,10分钟前的运维信息不包括任何人工操作信息),则该故障设备的故障类型为非主动关闭类型。
若故障类型为非主动关闭类型的故障设备符合第一预设条件,则将第二故障设备集合确定为第一故障设备集合。例如,若第二故障设备集合中主动关闭类型的故障设备的数量占比大于70%,则确定第二故障设备集合的宕机类型为预期类型,若第二故障设备集合中主动关闭类型的故障设备的数量占比为10%,非主动关闭类型的故障设备数量占比为90%,则可以将第二故障设备集合确定为第一故障设备集合,即,第一故障设备集合中的多个设备为非预期批量宕机设备。
本申请实施例提供一种确定第一故障设备集合的方法,获取多个故障设备,以及多个故障设备之间的相关性,根据相关性,对多个故障设备进行处理,得到多个第二故障设备集合,在多个第二故障设备集合中,确定第一故障设备集合。这样,可以预先对故障设备集合进行筛选,将明显为预期批量宕机集合的设备剔除,减少需要确定类型的批量宕机设备的数量,进而可以降低非预期批量宕机设备的确定时长,提高故障处理的效率。
图5为本申请实施例提供的一种服务器故障确定装置的结构示意图。请参见图5,该服务器故障确定装置10包括第一确定模块11、第二确定模块12、获取模块13和第三确定模块14,其中:
所述第一确定模块11用于,确定第一故障设备集合、以及所述第一故障设备集合的宕机特征,所述第一故障设备集合中非主动关闭的故障设备符合第一预设条件;
所述第二确定模块12用于,根据所述宕机特征,确定所述第一故障设备集合的宕机类型,所述宕机类型为预期宕机类型或非预期宕机类型;
所述获取模块13用于,在所述第一故障设备集合的宕机类型为非预期类型时,获取所述第一故障设备集合对应的至少一个环境事件,所述环境事件为所述故障设备所处的网络环境在第一预设时长之前发生的事件;
所述第三确定模块14用于,根据所述至少一个环境事件,确定所述第一故障设备集合的故障信息。
在一种可能的实施方式中,所述第一确定模块11具体用于:
获取所述第一故障设备集合对应的拓扑信息、故障设备信息和业务信息;
根据所述拓扑信息、所述故障设备信息和所述业务信息,确定所述宕机特征。
在一种可能的实施方式中,所述第一确定模块11具体用于:
通过预设算法对所述拓扑信息、所述故障设备信息和所述业务信息进行处理,得到所述第一故障设备集合对应的第一特征;
获取所述第一故障设备集合中的故障设备数量、以及每个故障设备的故障时间;
对所述故障设备数量、多个故障时间和所述第一特征进行拼接,得到所述宕机特征。
在一种可能的实施方式中,所述第一确定模块11具体用于:
获取多个故障设备,以及多个故障设备之间的相关性;
根据所述相关性,对所述多个故障设备进行处理,得到多个第二故障设备集合,所述第二故障设备集合中所述多个故障设备的相关性大于或等于第二阈值;
在所述多个第二故障设备集合中,确定所述第一故障设备集合。
在一种可能的实施方式中,所述第一确定模块11具体用于:
获取所述第二故障集设备合中各故障设备在第二预设时长之前的运维信息;
根据所述运维信息,确定所述故障设备的故障类型,所述故障类型为主动关闭类型和非主动关闭类型;
若所述故障类型为非主动关闭类型的故障设备符合第一预设条件,则将所述第二故障设备集合确定为所述第一故障设备集合。
在一种可能的实施方式中,所述第三确定模块13具体用于:
获取第一预设关系,所述第一预设关系中包括至少一个事件和每个事件引起批量宕机的概率;
根据所述环境事件和所述第一预设关系,确定所述第一故障设备集合的故障信息。
在一种可能的实施方式中,所述第二确定模块12具体用于:
通过预设模型对所述宕机特征进行处理,得到所述第一故障设备集合的宕机类型;
其中,所述预设模型为对多组样本学习得到的,每组样本包括样本宕机特征和样本宕机类型。
本申请实施例提供的服务器故障确定装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
图6为本申请提供的终端设备的硬件结构示意图。请参见图6,该终端设备20可以包括:处理器21和存储器22,其中,处理器21和存储器22可以通信;示例性的,处理器21和存储器22通过通信总线23通信,所述存储器22用于存储程序指令,所述处理器21用于调用存储器中的程序指令执行上述任意方法实施例所示的服务器故障确定方法。
可选的,终端设备20还可以包括通信接口,通信接口可以包括发送器和/或接收器。
可选的,上述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本申请实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序;所述计算机程序用于实现如上述任意实施例所述的服务器故障确定方法。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括指令,当所述指令被执行时,使得计算机执行上述服务器故障确定方法。
实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储器(存储介质)包括:只读存储器(英文:read-only memory,缩写:ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetic tape)、软盘(英文:floppydisk)、光盘(英文:optical disc)及其任意组合。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程终端设备的处理单元以产生一个机器,使得通过计算机或其他可编程终端设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程终端设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
在本申请中,术语“包括”及其变形可以指非限制性的包括;术语“或”及其变形可以指“和/或”。本申请中术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。本申请中,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

Claims (10)

1.一种服务器故障确定方法,其特征在于,包括:
确定第一故障设备集合、以及所述第一故障设备集合的宕机特征,所述第一故障设备集合中非主动关闭的故障设备符合第一预设条件;
根据所述宕机特征,确定所述第一故障设备集合的宕机类型,所述宕机类型为预期宕机类型或非预期宕机类型;
在所述第一故障设备集合的宕机类型为非预期类型时,获取所述第一故障设备集合对应的至少一个环境事件,所述环境事件为所述故障设备所处的网络环境在第一预设时长之前发生的事件;
根据所述至少一个环境事件,确定所述第一故障设备集合的故障信息。
2.根据权利要求1所述的方法,其特征在于,确定所述第一故障设备集合的宕机特征,包括:
获取所述第一故障设备集合对应的拓扑信息、故障设备信息和业务信息;
根据所述拓扑信息、所述故障设备信息和所述业务信息,确定所述宕机特征。
3.根据权利要求2所述的方法,其特征在于,根据所述拓扑信息、所述故障设备信息和所述业务信息,确定所述宕机特征,包括:
通过预设算法对所述拓扑信息、所述故障设备信息和所述业务信息进行处理,得到所述第一故障设备集合对应的第一特征;
获取所述第一故障设备集合中的故障设备数量、以及每个故障设备的故障时间;
对所述故障设备数量、多个故障时间和所述第一特征进行拼接,得到所述宕机特征。
4.根据权利要求1-3任一项所述的方法,其特征在于,确定第一故障设备集合,包括:
获取多个故障设备,以及多个故障设备之间的相关性;
根据所述相关性,对所述多个故障设备进行处理,得到多个第二故障设备集合,所述第二故障设备集合中所述多个故障设备的相关性大于或等于第二阈值;
在所述多个第二故障设备集合中,确定所述第一故障设备集合。
5.根据权利要求4所述的方法,其特征在于,针对于任意一个第二故障设备集合;在所述多个第二故障设备集合中,确定所述第一故障设备集合,包括:
获取所述第二故障设备集合中各故障设备在第二预设时长之前的运维信息;
根据所述运维信息,确定所述故障设备的故障类型,所述故障类型为主动关闭类型和非主动关闭类型;
若所述故障类型为非主动关闭类型的故障设备符合所述第一预设条件,则将所述第二故障设备集合确定为所述第一故障设备集合。
6.根据权利要求1-5任一项所述的方法,其特征在于,根据所述至少一个环境事件,确定所述第一故障设备集合的故障信息,包括:
获取第一预设关系,所述第一预设关系中包括至少一个事件和每个事件引起批量宕机的概率;
根据所述环境事件和所述第一预设关系,确定所述第一故障设备集合的故障信息。
7.根据权利要求1-6任一项所述的方法,其特征在于,根据所述宕机特征,确定所述第一故障设备集合的宕机类型,包括:
通过预设模型对所述宕机特征进行处理,得到所述第一故障设备集合的宕机类型;
其中,所述预设模型为对多组样本学习得到的,每组样本包括样本宕机特征和样本宕机类型。
8.一种故障处理装置,其特征在于,包括第一确定模块、第二确定模块、获取模块和第三确定模块,其中:
所述第一确定模块用于,确定第一故障设备集合、以及所述第一故障设备集合的宕机特征,所述第一故障设备集合中非主动关闭的故障设备符合第一预设条件;
所述第二确定模块用于,根据所述宕机特征,确定所述第一故障设备集合的宕机类型,所述宕机类型为预期宕机类型或非预期宕机类型;
所述获取模块用于,在所述第一故障设备集合的宕机类型为非预期类型时,获取所述第一故障设备集合对应的至少一个环境事件,所述环境事件为所述故障设备所处的网络环境在第一预设时长之前发生的事件;
所述第三确定模块用于,根据所述至少一个环境事件,确定所述第一故障设备集合的故障信息。
9.一种终端设备,其特征在于,包括:处理器、存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1-7任一项所述的服务器故障确定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的服务器故障确定方法。
CN202210249579.XA 2022-03-14 2022-03-14 服务器故障确定方法、装置及终端设备 Active CN114598588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210249579.XA CN114598588B (zh) 2022-03-14 2022-03-14 服务器故障确定方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210249579.XA CN114598588B (zh) 2022-03-14 2022-03-14 服务器故障确定方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN114598588A CN114598588A (zh) 2022-06-07
CN114598588B true CN114598588B (zh) 2023-07-25

Family

ID=81808544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210249579.XA Active CN114598588B (zh) 2022-03-14 2022-03-14 服务器故障确定方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN114598588B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9537720B1 (en) * 2015-12-10 2017-01-03 International Business Machines Corporation Topology discovery for fault finding in virtual computing environments
CN108319852A (zh) * 2018-02-08 2018-07-24 北京安信天行科技有限公司 一种事件判别策略创建方法及装置
CN109558272A (zh) * 2017-09-26 2019-04-02 北京国双科技有限公司 服务器的故障恢复方法和装置
CN110096406A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种故障事件发现方法和服务器
CN111147306A (zh) * 2019-12-30 2020-05-12 深圳猛犸电动科技有限公司 一种物联网设备的故障分析方法、装置以及物联网平台
CN113835962A (zh) * 2021-09-24 2021-12-24 超越科技股份有限公司 一种服务器故障检测方法、装置、计算机设备及存储介质
CN114006823A (zh) * 2020-07-14 2022-02-01 瞻博网络公司 用于网络事件的故障影响分析的方法、系统及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9678824B2 (en) * 2015-11-05 2017-06-13 International Business Machines Corporation Durability and availability evaluation for distributed storage systems
US10289478B2 (en) * 2016-04-26 2019-05-14 Nec Corporation System fault diagnosis via efficient temporal and dynamic historical fingerprint retrieval
CN113946461A (zh) * 2018-06-15 2022-01-18 华为技术有限公司 一种故障根因分析的方法及装置
US11610121B2 (en) * 2020-06-03 2023-03-21 Microsoft Technology Licensing, Llc Identifying patterns in event logs to predict and prevent cloud service outages

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9537720B1 (en) * 2015-12-10 2017-01-03 International Business Machines Corporation Topology discovery for fault finding in virtual computing environments
CN109558272A (zh) * 2017-09-26 2019-04-02 北京国双科技有限公司 服务器的故障恢复方法和装置
CN110096406A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种故障事件发现方法和服务器
CN108319852A (zh) * 2018-02-08 2018-07-24 北京安信天行科技有限公司 一种事件判别策略创建方法及装置
CN111147306A (zh) * 2019-12-30 2020-05-12 深圳猛犸电动科技有限公司 一种物联网设备的故障分析方法、装置以及物联网平台
CN114006823A (zh) * 2020-07-14 2022-02-01 瞻博网络公司 用于网络事件的故障影响分析的方法、系统及存储介质
CN113835962A (zh) * 2021-09-24 2021-12-24 超越科技股份有限公司 一种服务器故障检测方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN114598588A (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN107819627B (zh) 系统故障处理方法及服务器
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
CN113282461B (zh) 传输网的告警识别方法和装置
CN110928718A (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
CN112631913B (zh) 应用程序的运行故障监控方法、装置、设备和存储介质
CN107025224B (zh) 一种监控任务运行的方法和设备
CN110275992B (zh) 应急处理方法、装置、服务器及计算机可读存储介质
CN110427375B (zh) 字段类别的识别方法及装置
CN112532455B (zh) 一种异常根因定位方法及装置
CN114064208A (zh) 检测应用服务状态的方法、装置、电子设备及存储介质
CN112540887A (zh) 故障演练方法、装置、电子设备及存储介质
CN109408361A (zh) Monkey测试复原方法、装置、电子设备及计算机可读存储介质
CN116010220A (zh) 一种告警诊断方法、装置、设备及存储介质
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
CN112187914A (zh) 一种远程控制机器人管理方法及系统
CN111711540A (zh) 政企业务告警识别方法和装置
CN113656252B (zh) 故障定位方法、装置、电子设备以及存储介质
CN112966056B (zh) 一种信息处理方法、装置、设备、系统及可读存储介质
CN114598588B (zh) 服务器故障确定方法、装置及终端设备
CN110968518A (zh) 自动化测试日志文件的分析方法及装置
CN111813872B (zh) 一种故障排查模型的生成方法、装置、设备
CN111935279B (zh) 基于区块链和大数据的物联网络维护方法及计算节点
CN111835566A (zh) 一种系统故障管理方法、装置及系统
CN115545677B (zh) 基于自动化用例执行情况的上线流程规范检测方法和系统
WO2024065778A1 (en) Method, apparatus, device, and medium for building knowledge graph and executing workflow

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant