CN115865612A

CN115865612A - 网络故障处理方法及装置、存储介质及电子设备

Info

Publication number: CN115865612A
Application number: CN202211190499.8A
Authority: CN
Inventors: 彭洁; 刘谦; 刘畅; 屈大伟
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-03-28

Abstract

本发明提供了一种网络故障处理方法及装置、存储介质及电子设备，该方法包括：对每个节点服务器进行主机数据采集和交换机数据采集，获得每个节点服务器的主机数据信息和交换机数据信息；依据节点服务器的主机数据信息和交换机数据信息，判断其是否符合预设的故障隐患条件，将符合条件的节点服务器作为目标节点服务器；确定目标节点服务器对应的故障隐患信息、应用系统信息及网络拓扑信息，并基于上述信息确定目标节点服务器对应的目标故障处置策略；依据目标节点服务器对应的故障隐患信息和目标故障处置策略，生成告警通知；将告警通知发送给用户。应用本发明的方法，可通过自动识别故障隐患并确定处置策略，无需人工介入，可减少工作量。

Description

网络故障处理方法及装置、存储介质及电子设备

技术领域

本发明涉及运维技术领域，特别是涉及一种网络故障处理方法及装置、存储介质及电子设备。

背景技术

随着计算机技术的发展，计算机网络已经成为各企业机构必不可少的基础设施。各企业机构为保证网络服务质量，在日常运维工作中，在出现网络故障时，需及时定位网络故障并处置，保障网络高可用。

现有的网络故障处理，通常是在计算机网络出现异常时，人工对设备的相关数据进行排查，逐一进行分析，以定位网络故障，分析故障处置策略，并对其进行处理。

在实际的应用场景中，企业机构的计算机网络中一般都部署有大型的服务器集群，网络规模和拓扑结构十分复杂。基于现有网络故障处理方式，需人为定位故障、分析故障处置策略，耗时较长，难以保证业务的高连续性和应急处置的效率。其次，现有的网络故障处理仅在发生了显性的故障时触发，难以发现隐性故障，不利于保障网络服务质量。

发明内容

有鉴于此，本发明实施例提供了一种网络故障处理方法，以解决人工定位故障，分析处置策略，耗时长、效率低且难以发现隐性故障的问题。

本发明实施例还提供了一种网络故障处理装置，用以保证上述方法实际中的实现及应用。

为实现上述目的，本发明实施例提供如下技术方案：

一种网络故障处理方法，包括：

当到达预设检测周期对应的每个检测时间点时，对预设服务器集群中的每个节点服务器进行主机数据采集，获得当前每个所述节点服务器对应的主机数据信息；

对每个所述节点服务器进行交换机数据采集，获得当前每个所述节点服务器对应的交换机数据信息；

对于每个所述节点服务器，依据该节点服务器对应的主机数据信息和交换机数据信息，判断该节点服务器是否符合预设的故障隐患条件，若该节点服务器符合所述预设的故障隐患条件，则将该节点服务器作为目标节点服务器；

确定每个所述目标节点服务器对应的故障隐患信息；

确定每个所述目标节点服务器对应的应用系统信息及网络拓扑信息；

对于每个所述目标节点服务器，依据该目标节点服务器对应的故障隐患信息、应用系统信息及网络拓扑信息，在预设的多个故障处置策略中，确定该目标节点服务器对应的目标故障处置策略；

依据每个所述目标节点服务器对应的故障隐患信息和目标故障处置策略，生成每个所述目标节点服务器对应的告警通知；

将每个所述告警通知发送给预先指定的用户，完成当前检测时间点的网络故障处理过程。

上述的方法，可选的，所述对预设服务器集群中的每个节点服务器进行主机数据采集，获得当前每个所述节点服务器对应的主机数据信息，包括：

对于每个所述节点服务器，采集该节点服务器对应的主机整体数据，所述主机整体数据包括多个预设主机指标的指标值，所述多个预设主机指标包括第一端口状态、设备连接状态、第二端口状态、网卡当前速率、网卡支持的模式及速率以及网卡当前模式；

对于每个所述节点服务器，采集该节点服务器对应的主机网卡数据，所述主机网卡数据包括多个预设主机网卡指标的指标值，所述多个预设主机网卡指标包括网卡收/发包数、网卡收/发包数据大小、网卡收/发包错包数以及网卡收/发包丢包数；

对于每个所述节点服务器，采集该节点服务器对应的主机网口数据，所述主机网口数据包括多个预设主机网口指标的指标值，所述多个预设主机网口指标包括网口收/发包计数、网口收/发包数据大小、网口收/发包错误计数、网口收/发包丢包计数以及网口收包校验错误计数；

将每个所述节点服务器对应的主机整体数据、主机网卡数据以及主机网口数据，作为每个所述节点服务器对应的主机数据信息。

上述的方法，可选的，所述对每个所述节点服务器进行交换机数据采集，获得当前每个所述节点服务器对应的交换机数据信息，包括：

对于每个所述节点服务器，采集该节点服务器对应的交换机网口数据，所述交换机网口数据包括多个预设交换机网口指标的指标值，所述多个预设交换机网口指标包括发送和接收的帧数量、循环冗余校验错误的帧数量、预定类型帧的丢包数量、链路错误计数、错误帧计数、端口延时计数以及超时丢包数；

将每个所述节点服务器对应的交换机网口数据，作为每个所述节点服务器对应的交换机数据信息。

上述的方法，可选的，所述依据该节点服务器对应的主机数据信息和交换机数据信息，判断该节点服务器是否符合预设的故障隐患条件，包括：

依据该节点服务器对应的主机数据信息，确定该节点服务器对应的多个主机关键指标值；

确定每个所述主机关键指标值对应的指标预设值；

对于每个所述主机关键指标值，判断该主机关键指标值与其对应的指标预设值是否相同，若该主机关键指标值与其对应的指标预设值不同，则将该主机关键指标值作为异常指标值；

若各个所述主机关键指标值中，存在至少一个异常指标值，则确定该节点服务器符合所述预设的故障隐患条件。

上述的方法，可选的，还包括：

若各个所述主机关键指标值中不存在异常指标值，则依据该节点服务器对应的主机数据信息和交换机数据信息，确定该节点服务器对应的多个性能指标计数值；

确定每个所述性能指标计数值对应的指标阈值；

对于每个所述性能指标计数值，将该性能指标计数值与其对应的指标阈值进行比较，若该性能指标计数值大于或等于其对应的指标阈值，则将该性能指标计数值确定为异常计数值；

若各个所述性能指标计数值中存在异常计数值，则判断各个所述性能指标计数值中的各个异常计数值是否符合预设的异常匹配条件；

若各个所述异常计数值符合所述预设的异常匹配条件，则确定该节点服务器符合所述预设的故障隐患条件。

上述的方法，可选的，还包括：

若各个所述性能指标计数值中不存在异常计数值，则确定该节点服务器不符合所述预设的故障隐患条件。

上述的方法，可选的，还包括：

对于每个所述目标节点服务器对应的目标故障处置策略，判断该目标故障处置策略是否符合预设的自动执行条件，若该目标故障处置策略符合所述预设的自动执行条件，则将该目标节点服务器作为待处理节点服务器；

依据每个所述待处理节点服务器对应的目标故障处置策略，确定每个所述待处理节点服务器对应的处理操作；

执行每个所述待处理节点服务器对应的处理操作。

一种网络故障处理装置，包括：

第一采集单元，用于当到达预设检测周期对应的每个检测时间点时，对预设服务器集群中的每个节点服务器进行主机数据采集，获得当前每个所述节点服务器对应的主机数据信息；

第二采集单元，用于对每个所述节点服务器进行交换机数据采集，获得当前每个所述节点服务器对应的交换机数据信息；

判断单元，用于对于每个所述节点服务器，依据该节点服务器对应的主机数据信息和交换机数据信息，判断该节点服务器是否符合预设的故障隐患条件，若该节点服务器符合所述预设的故障隐患条件，则将该节点服务器作为目标节点服务器；

第一确定单元，用于确定每个所述目标节点服务器对应的故障隐患信息；

第二确定单元，用于确定每个所述目标节点服务器对应的应用系统信息及网络拓扑信息；

第三确定单元，用于对于每个所述目标节点服务器，依据该目标节点服务器对应的故障隐患信息、应用系统信息及网络拓扑信息，在预设的多个故障处置策略中，确定该目标节点服务器对应的目标故障处置策略；

生成单元，用于依据每个所述目标节点服务器对应的故障隐患信息和目标故障处置策略，生成每个所述目标节点服务器对应的告警通知；

告警单元，用于将每个所述告警通知发送给预先指定的用户，完成当前检测时间点的网络故障处理过程。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的网络故障处理方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的网络故障处理方法。

基于上述本发明实施例提供的一种网络故障处理方法，当到达预设检测周期对应的每个检测时间点时，对预设服务器集群中的每个节点服务器进行主机数据采集和交换机数据采集，获得当前每个节点服务器对应的主机数据信息和交换机数据信息；依据每个节点服务器对应的主机数据信息和交换机数据信息，判断每个节点服务器是否符合预设的故障隐患条件，将符合条件的节点服务器作为目标节点服务器；确定每个目标节点服务器对应的故障隐患信息；确定每个目标节点服务器对应的应用系统信息及网络拓扑信息；对于每个目标节点服务器，依据该目标节点服务器对应的故障隐患信息、应用系统信息及网络拓扑信息，在预设的多个故障处置策略中，确定该目标节点服务器对应的目标故障处置策略；依据每个目标节点服务器对应的故障隐患信息和目标故障处置策略，生成每个目标节点服务器对应的告警通知；将各个告警通知发送给预先指定的用户，完成当前检测时间点的网络故障处理过程。应用本发明实施例提供的方法，可定时自动采集服务器集群中各服务器的主机数据和交换机数据，通过条件匹配实现故障隐患判断与定位，且可进一步确定故障处置策略，及时通知运维人员进行维护，无需人工进行故障分析及策略制定，可减少工作量和故障处理耗时，有利于保证业务的高连续性，提高应急处置效率。其次，故障隐患条件可结合隐性故障进行设置，无需等到出现显性故障时才进行运维处理，有利于发现隐性故障，进行预防性运维处理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种网络故障处理方法的方法流程图；

图2为本发明实施例提供的一种网络故障处理方法的又一方法流程图；

图3为本发明实施例提供的一种网络故障处理过程的示例图；

图4为本发明实施例提供的一种网络故障处理装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供了一种网络故障处理方法，所述方法可应用于网络故障处理系统，其执行主体可以为系统的服务器，所述方法的方法流程图如图1所示，包括：

S101：当到达预设检测周期对应的每个检测时间点时，对预设服务器集群中的每个节点服务器进行主机数据采集，获得当前每个所述节点服务器对应的主机数据信息；

本发明实施例提供的方法中，信息化体系中的各个应用系统基于预设的服务器集群运行，预设服务器集群中包含多个节点服务器。可以根据各个应用系统的忙闲程度和实际的检测需求等因素，预先设置检测周期，将每个检测周期的起始时间点作为检测时间点。

当到达每个检测时间点时，可通过预先建立的通信接口及主机数据的采集脚本，对每个节点服务器进行主机数据采集，具体的，可以采集主机网卡和网口的各项预设指标的指标值，将采集到的数据作为节点服务器对应的主机数据信息。

需要说明的是，在具体实现的过程中，机构部署的各个节点服务器的检测周期可以不同，可以将检测周期相同的各个节点服务器划分为一个服务器集群，对于每个服务器集群分别基于本发明实施例提供的方法进行网络故障处理即可。

S102：对每个所述节点服务器进行交换机数据采集，获得当前每个所述节点服务器对应的交换机数据信息；

本发明实施例提供的方法中，通过预先建立的通信接口及交换机数据的采集脚本，对每个节点服务器对应的交换机进行数据采集，即进行交换机数据采集，具体的，亦可基于预设指标进行指标值的采集，将采集到的数据作为节点服务器对应的交换机数据信息。

S103：对于每个所述节点服务器，依据该节点服务器对应的主机数据信息和交换机数据信息，判断该节点服务器是否符合预设的故障隐患条件，若该节点服务器符合所述预设的故障隐患条件，则将该节点服务器作为目标节点服务器；

本发明实施例提供的方法中，可根据应用系统健康状态下的性能数据情况，预先设置故障隐患条件，故障隐患条件基于服务器性能的显性故障和隐性故障情况进行设置，该故障隐患条件用于指示服务器的性能存在故障或是性能下降存在故障趋势，当节点服务器符合预设的故障隐患条件时，说明节点服务器存在故障或是性能下降存在故障趋势。

本发明实施例提供的方法中，可基于每个节点服务器对应的主机数据信息和交换机数据信息，判断每个节点服务器是否符合预设的故障隐患条件，也就是判断节点服务器的实时性能数据中，是否存在与故障隐患条件中定义的异常数据相匹配的数据。将符合预设的故障隐患条件的每个节点服务器确定为目标节点服务器。

需要说明的是，在具体的实现过程中，在当前检测时间点，可能仅存在一个目标节点服务器，也可能存在多个目标节点服务器，还可能不存在目标节点服务器，具体的目标节点服务器的个数由实际的判断情况决定，当不存在目标节点服务器时，可以不进行后续流程，当前检测时间点没有需要处理的网络故障，结束当前检测时间点的处理过程即可。

S104：确定每个所述目标节点服务器对应的故障隐患信息；

本发明实施例提供的方法中，可根据目标节点服务器的主机数据信息和/或交换机数据信息，与故障隐患条件具体匹配的数据内容，确定目标节点服务器对应的故障隐患信息，即出现故障的具体对象信息或者是存在故障趋势的具体对象信息。

S105：确定每个所述目标节点服务器对应的应用系统信息及网络拓扑信息；

本发明实施例提供的方法中，可基于配置管理数据库(ConfigurationManagement database，CMDB)中的数据，预先设置各个应用系统的应用系统信息和网络拓扑信息。CMDB包含一个组织的IT服务使用的信息系统的组件的所有相关信息以及这些组件之间的关系(包括物理关系、实时通信关系、非实时通信关系和依赖关系)。应用系统信息可以包括应用系统名称、系统重要等级、服务器级别等级协议(SLA)、应用经理、应用经理联系方式等数据，网络拓扑信息可以包括应用系统的网络拓扑结构(交换机路由信息)等数据。

在预先设置的各个应用系统信息和网络拓扑信息中，确定每个目标节点服务器对应的应用系统信息和每个目标节点服务器对应的网络拓扑信息。

S106：对于每个所述目标节点服务器，依据该目标节点服务器对应的故障隐患信息、应用系统信息及网络拓扑信息，在预设的多个故障处置策略中，确定该目标节点服务器对应的目标故障处置策略；

本发明实施例提供的方法中，预先设置有多个故障处置策略，每个故障处置策略定义了其对应的故障/隐患、处置的操作、维护时长、在线维护或停机维护等信息。

本发明实施例提供的方法中，可以基于目标节点服务器对应的故障隐患信息，在各个故障处置策略中，初步筛选出针对目标节点服务器的故障隐患的各个故障处置策略，然后根据应用系统信息及网络拓扑信息，可得到故障处置涉及的系统重要等级和网络拓扑等数据，结合这些数据可对初步筛选得到的各个故障处置策略进一步进行筛选，得到最优的故障处置策略，将其作为目标故障处置策略，目标故障处置策略为有利于保障网络高可用的故障处置策略。

S107：依据每个所述目标节点服务器对应的故障隐患信息和目标故障处置策略，生成每个所述目标节点服务器对应的告警通知；

本发明实施例提供的方法中，对于每个目标节点服务器，生成其对应的故障隐患信息和目标故障处置策略所对应的告警通知，作为该目标节点服务器对应的告警通知。每个告警通知中包含其对应的故障隐患信息和目标故障处置策略。

S108：将每个所述告警通知发送给预先指定的用户，完成当前检测时间点的网络故障处理过程。

本发明实施例提供的方法中，可以预先设定每个应用系统对应的用户，也可以设定一个统一的用户，通常是应用经理或运维人员，具体可通过用户ID进行设置。通过短信或是客户端通知等方式，将各个告警通知发送给预先指定的用户，若是每个告警通知对应的用户不同，则将每个告警通知分别发送给其对应的用户即可。

基于本发明实施例提供的方法，当到达预设检测周期对应的每个检测时间点时，对预设服务器集群中的每个节点服务器进行主机数据采集和交换机数据采集，获得当前每个节点服务器对应的主机数据信息和交换机数据信息；依据每个节点服务器对应的主机数据信息和交换机数据信息，判断每个节点服务器是否符合预设的故障隐患条件，并将符合条件的节点服务器作为目标节点服务器；确定每个目标节点服务器对应的故障隐患信息、应用系统信息及网络拓扑信息；对于每个目标节点服务器，依据该目标节点服务器对应的故障隐患信息、应用系统信息及网络拓扑信息，在预设的多个故障处置策略中，确定该目标节点服务器对应的目标故障处置策略；依据每个目标节点服务器对应的故障隐患信息和目标故障处置策略，生成每个目标节点服务器对应的告警通知；将每个告警通知发送给预先指定的用户，完成当前检测时间点的网络故障处理过程。应用本发明实施例提供的方法，可定时自动采集服务器集群中各服务器的主机数据和交换机数据，通过条件匹配实现故障隐患判断与定位，且可进一步确定故障处置策略，及时通知运维人员进行维护，无需人工进行故障分析及策略制定，可减少工作量和故障处理耗时，有利于保证业务的高连续性，提高应急处置效率。其次，故障隐患条件可结合隐性故障进行设置，无需等到出现显性故障时才进行运维处理，有利于发现隐性故障，进行预防性运维处理。

在图1所示方法的基础上，本发明实施例提供的方法中，步骤S101中提及的对预设服务器集群中的每个节点服务器进行主机数据采集，获得当前每个所述节点服务器对应的主机数据信息的过程，包括：

本发明实施例提供的方法中，对于每个节点服务器，按照预先设置的多个预设主机指标，对节点服务器进行数据采集，采集当前时间点每个预设主机指标的指标值，将采集到的数据作为主体整体数据。各个预设主机指标为主机网卡及网口的性能指标，具体的，各个预设主机指标及部分指标正常状态下的指标值，可如表1所示：

表1

其中，第一端口状态指的是网卡端口的端口状态，第二端口状态指的是链路的端口状态。

本发明实施例提供的方法中，对于每个节点服务器，按照预先设置的多个预设主机网卡指标，对节点服务器进行主机网卡数据采集，采集当前时间点每个预设主机网卡指标的指标值，将采集到的数据作为主机网卡数据。各个预设主机网卡指标可如表2所示，其中各项指标指的是关于主机网卡的指标：

表2

指标	指标含义
		RX/TX packets	收/发包数
RX/TX bytes	收/发包数据大小
		RX/TX errors	收/发包错包数
RX/TX droped	收/发包丢包数(已经进入网卡buffer的包)
		RX/TX overruns	收/发包丢包数(未进入网卡buffer的包)

本发明实施例提供的方法中，网卡收/发包丢包数包括两类丢包数，分别是已经进入网卡buffer的包的收/发包丢包数，以及未进入网卡buffer的包的收/发包丢包数。

本发明实施例提供的方法中，对于每个节点服务器，按照预先设置的多个主机网口指标，对节点服务器进行主机网口数据采集，采集当前每个主机网口指标的指标值，将采集到的数据作为主机网口数据。各个预设主机网口指标可如表3所示，其中各项指标指的是关于主机网口的指标：

表3

指标	指标含义
		tx/rx_packets	收/发包计数
tx/rx_bytes	收/发包数据大小
		tx/rx_errors	收/发包错误计数
tx/rx_dropped	收/发包丢包计数
		rx_crc_errors	收包校验错误计数

本发明实施例提供的方法中，对于每个节点服务器，将其对应的主机整体数据、主机网卡数据和主机网口数据，组成该节点服务器对应的主机数据信息。

需要说明的是，本发明实施例中提及的具体指标，仅是为了更好地说明本发明的方法所提供的具体实施例，在具体实现过程中，预设主机指标、预设主机网卡指标、预设主机网口指标等指标内容，不限于表1、表2和表3中列举的指标，可根据实际需求设置，不影响本发明实施例提供的方法实现功能。

在图1所示方法的基础上，本发明实施例提供的方法中，步骤S102中提及的对每个所述节点服务器进行交换机数据采集，获得当前每个所述节点服务器对应的交换机数据信息的过程，包括：

本发明实施例提供的方法中，对于每个节点服务器，按照预先设置的各个预设交换机网口指标，对节点服务器进行交换机网口数据采集，采集当前时间点每个预设交换机网口指标的指标值，将采集到的数据作为交换机网口数据。各个预设交换机网口指标，可如表4所示：

表4

指标	指标含义
		Tx/Rx	发送和接收的帧数量
Crc_err	CRC校验错误的帧数量
		Disc_c3	class3类型FC帧丢包数量
Loss sync/Loss sig/Link-fail	链路错误计数
		ITWs	错误帧计数
IO_PERF_IMPACT	端口延时计数
		TimeoutDiscards	超时丢包数

本发明实施例提供的方法中，循环冗余校验(Cyclical Redundancy Check，CRC)指的是循环冗余检查，是一种根据网上数据包或计算机文件等数据产生简短固定位数校验码的一种散列函数，主要用来检测或校验数据传输或者保存后可能出现的错误。预设交换机网口指标：预定类型帧的丢包数量，其中的预定类型帧指的是class 3类型的FC帧。

本发明实施例提供的方法中，每个节点服务器对应的交换机网口数据即为其对应的交换机数据信息。

需要说明的是，本发明实施例中提及的具体指标，仅是为了更好地说明本发明的方法所提供的具体实施例，在具体实现过程中，预设交换机网口指标不限于表4中列举的指标，可根据实际需求设置，不影响本发明实施例提供的方法实现功能。

在图1所示方法的基础上，本发明实施例提供了又一种网络故障处理方法，参考图2所示流程图，本发明实施例提供的方法中，步骤S103中提及的依据该节点服务器对应的主机数据信息和交换机数据信息，判断该节点服务器是否符合预设的故障隐患条件的过程，包括：

S201：依据该节点服务器对应的主机数据信息，确定该节点服务器对应的多个主机关键指标值；

本发明实施例提供的方法中，主机数据信息中包含多个指标的指标值，可在主机数据信息中，确定多个主机关键指标值，即主机关键指标的指标值，主机关键指标指的是与主机网卡及网口性能相关联的指标，可预先设置，例如前文实施例中提及的预设主机指标，其指标值直接表征了相关性能的健康状态，主机关键指标可以是如表1所示的端口状态、设备连接状态等指标，例如指标up/down，当其指标值为UP时，表征状态正常，当指标值不为UP时，则表征状态异常。

S202：确定每个所述主机关键指标值对应的指标预设值；

本发明实施例提供的方法中，可预先设置各个主机关键指标的指标预设值，也就是表征相应性能状态是正常状态的值。可从预先设置的信息中，获取每个主机关键指标值对应的主机关键指标所对应的指标预设值，将该指标预设值作为对应主机关键指标值所对应的指标预设值。

S203：对于每个所述主机关键指标值，判断该主机关键指标值与其对应的指标预设值是否相同，若该主机关键指标值与其对应的指标预设值不同，则将该主机关键指标值作为异常指标值；

本发明实施例提供的方法中，将每个主机关键指标值与其对应的指标预设值进行比对，若两者不同，则将当前进行比对的主机关键指标值确定为异常指标值。若两者相同，则不对当前进行比对的主机关键指标值进行异常标记。

S204：若各个所述主机关键指标值中，存在至少一个异常指标值，则确定该节点服务器符合所述预设的故障隐患条件。

本发明实施例提供的方法中，判断各个主机关键指标值中，是否有主机关键指标值被确定为了异常指标值，若存在异常指标值，则确定节点服务器符合预设的故障隐患条件。

在上述实施例提供的方法的基础上，本发明实施例提供的方法中，还包括：

本发明实施例提供的方法中，若没有主机关键指标值被标记为异常指标值，则在主机数据信息和交换机数据信息中，获取多个性能指标的指标值，各个性能指标为计数类的指标，故将每个性能指标的指标值确定为节点服务器对应的性能指标计数值。各个性能指标可以预先设置，可以是如表2、表3以及表4中所示的指标，即前文实施例中提及的预设主机网卡指标、预设主机网口指标和预设交换机网口指标，

确定每个所述性能指标计数值对应的指标阈值；

本发明实施例提供的方法中，可预先设置各个性能指标的指标阈值，从预先设置的信息中，获取每个性能指标计数值对应的性能指标所对应的指标阈值，将该指标阈值作为相应性能指标计数值对应的指标阈值。

本发明实施例提供的方法中，将每个性能指标计数值与其对应的指标阈值进行比较，若当前进行比较的性能指标计数值大于或等于其对应的指标阈值，则将该性能指标计数值确定为异常计数值，若该性能指标计数值小于其对应的指标阈值，则不对该性能指标计数值进行异常标记。

本发明实施例提供的方法中，可根据实际需求设置异常匹配条件，例如以存在至少一个异常计数值作为异常匹配条件，又如以存在超过预定数量的异常计数值作为异常匹配条件，再如以指定性能指标的性能指标计数值被确定为异常计数值视为异常匹配条件等等，具体的条件内容可以根据故障调研情况或厂商官方标准自定义，不影响本发明实施例提供的方法实现功能。

若各个性能指标计数值中存在异常计数值，则判断各个异常计数值是否符合预设的异常匹配条件。例如异常匹配条件为存在超过预定数量的异常计数值，则确定性能指标计数值中存在的异常计数值的数量，判断该数量是否超过预定数量，若超过，则认为符合条件，未超过，则认为不符合条件。

本发明实施例提供的方法中，若经判断，各个异常计数值符合预设的异常匹配条件，则确定节点服务器符合预设的故障隐患条件。

本发明实施例提供的方法中，若各个异常计数值不符合所述预设的异常匹配条件，则确定该节点服务器不符合所述预设的故障隐患条件。

需要说明的是，在具体的实现过程中，本发明实施例提供的方法中提及关于性能指标计数值的处理流程，可以不限制于主机关键指标值中不存在异常指标值的情况下触发，可以与图2所示流程同步进行，当各个主机关键指标值中存在至少一个异常指标值，和/或，各个性能指标计数值中存在异常计数值，且各个异常计数值符合预设的异常匹配条件时，认为节点服务器符合预设的故障隐患条件。

本发明实施例提供的方法中，异常计数值可以表征性能下降的隐患，在各个主机关键指标值中不存在异常指标值的情况下，若各个性能指标计数值中亦不存在异常计数值，则说明节点服务器不存在显性故障，亦不存在隐性故障，故确定该节点服务器不符合预设的故障隐患条件。

在图1所示方法的基础上，本发明实施例提供的方法中，还包括：

本发明实施例提供的方法中，针对一些故障处置策略，预先设置有故障处置脚本，通过执行故障处置脚本可进行相应的排障操作，例如自动隔离问题端口等等。可判断每个目标节点服务器对应的目标故障处置策略是否符合预设的自动执行条件，也就是判断预先设置的故障处置脚本中，是否存在与该目标故障处置策略相关联的故障处置脚本，若存在，则认为符合预设的自动执行条件，若不存在，则认为不符合自动执行条件。

本发明实施例提供的方法中，当目标节点服务器对应的目标故障处置策略符合预设的自动执行条件时，将该目标节点服务器作为待处理节点服务器。

本发明实施例提供的方法中，对于每个待处理节点服务器，可在预设的各个故障处置脚本中，确定与其对应的目标故障处置策略相关联的故障处置脚本，基于该故障处置脚本确定该待处理节点服务器对应的处理操作。

执行每个所述待处理节点服务器对应的处理操作。

本发明实施例提供的方法中，通过执行相应的故障处置脚本，可执行每个待处理节点服务器对应的处理操作。

为了更好地说明本发明实施例提供的方法，结合实际的应用场景，本发明实施例提供了又一种网络故障处理方法。

参考图3所示示例图，本发明实施例提供的网络故障处理过程，包括：

通过CMDB系统获取设备网络拓扑、关联应用系统重要等级；

获取各节点服务器关联应用系统、网络拓扑、交换机路由等基本情况，作为后续故障维护策略制定的参考依据之一。可选的，获取信息主要包括：应用系统名称、系统重要等级、服务级别等级协议(SLA)、应用经理、应用经理联系方式、交换机路由信息(网络拓扑结构)等。

通过操作系统获取应用系统忙闲程度；

在操作系统层面获取节点服务器关联的应用系统及其本身的繁忙程度，作为后续故障维护策略制定的参考依据之一。可选的，采集的指标项如表5所示。

表5

指标项	指标项意义
		Cpu Util	CPU使用率
Sed Mem Perccent	内存使用率
		IOwait	CPU等待IO
NET_RATE	每秒钟总网卡流量
		Swap Used Percent	swap利用率
DISK Percent Busy	磁盘繁忙度
		DISK IO Rate	磁盘IO吞吐

根据业务特性，设定监控指标正常状态，设定脚本系统执行时间与周期；

根据前面采集的信息及预设规则设定程序执行的时间和周期(选择业务空闲时间段定时执行这个脚本，这个时间可以是静态的，也可以是动态的)，以及部分监控指标正常状态值。可选的，主机网卡及网口部分监控指标正常状态值可如前文实施例中提及的表1所示。

根据程序设定执行的时间和周期，采集主机网卡、交换机相关性能数据。

匹配监控指标关键字，与设定阈值做比较；

匹配各类性能指标，可选的，主机网卡预设指标如前文实施例中提及的表2所示，主机网口预设指标如表3所示，交换机网口预设指标如表4所示。

判断是否存在故障或性能下降；

根据上述匹配结果和计数结果，若某设备达到以下两个条件中的至少一个，则标记为目标部件：

主机网卡、网口匹配关键值与预设正常值不一致；

主机、交换机相关性能指标计数达到阈值。

故障维护策略匹配；

综合考虑故障设备/端口所属应用系统相关信息，以及网络拓扑的高可用性，结合预设的故障部件维护策略，系统自动制定最优处置策略，并发出目标部件故障相关信息及最优策略的告警通知，

网络故障处置；

应用经理和运维人员根据告警短信及时进行故障硬盘处理，或者系统根据预先设定的处置策略及网络高可用性，自动隔离问题端口或设备，避免问题端口或设备造成大范围网络慢速问题，影响用户体验。

可选地，当前程序执行时间和周期设定规则，可根据实际场景需求并参考故障率制定。

可选的，主机网卡及网口关键字预先设定的参考值，可根据实际场景下硬件配置进行设定。

可选的，主机网卡、网口，交换机等性能阈值，可根据不同应用场景下的网络特性，统计分析后再设定。

本发明实施例提供的方法，基于服务器部署集群所属应用系统业务特性，设置监控指标正常状态关键字、程序运行时间及周期；

运行程序系统，抓取集群各节点服务器网卡、交换机网络端口性能数据；

匹配预先设定各监控指标关键字、阈值，判断集群是否存在网络问题或网络性能下降，若是，则进入故障维护策略匹配及网络故障处置；若否，则等待下一次数据采集；

本发明实施例提供的方法，调用CMDB系统采集基本配置信息，问题设备网络拓扑架构，涉及应用的重要级别及忙闲时间段；

本发明实施例提供的方法，根据设定的故障处置策略，可自动执行简单处置操作，并给出最佳处置建议，通知运维人员及时进行故障处置。

基于本发明实施例提供的方法，能够自动采集各服务器网卡、交换机网络端口性能数据，接着通过匹配预先设定的监控指标对应关键字、阈值，判断网络是否存在故障或是否需要进行预防性更换问题部件，确定是，则结合CMDB系统信息及网络部件更换策略进行故障处置，从而实现在大规模服务器集群背景下，网络故障的及时排障处置工作。

本发明实施例提供的方法在大型服务器集群背景下，通过自动定位已经发生故障的设备以及性能下降的设备，并进行简单处置，不仅能确保运维人员及时对故障硬盘进行维护，还能保障大型服务器集群长时间稳定高效运行。

在大型服务器集群运维场景下，首先能够辅助判断是否存在网络相关的显性或隐性故障，接着能根据应用系统业务特性，快速制定最佳故障部件维护处置策略，及时通知运维人员进行维护，甚至还能自动进行故障端口、设备隔离处置，避免造成大范围网络慢速问题。整个运维过程，从故障定位到策略制定，再到故障预处理环节，无需人工介入，相较于传统的网络故障定位方法，不仅能及时发现隐性网络故障，而且增加了策略制定模块及自动处置模块，一方面将被动运维改进为主动运维，另一方面减少故障处理响应时间，保证业务高连续性。

当大型服务器集群中网络出现故障，本发明实施例提供的方法能及时定位到问题设备或端口，并迅速制定故障处理策略，确保运维人员及时对故障部件进行运维。

在大型服务器集群背景下，整个网络排障过程无需人工介入，节省了大量人力、时间资源，极大提高运维效率。

在本发明实施例提供的方法的基础上，结合丰富运维经验对自动处置策略进行设置，能自动进行故障的简单预处理，避免因故障部件造成更大的损失，极大保证了集群对外服务质量；

在本发明实施例提供的方法的基础上，结合丰富运维经验对预设信息略微调整，还能有效预测定位隐性故障，保障集群长久稳定运行。

与图1所示的一种网络故障处理方法相对应的，本发明实施例还提供了一种网络故障处理装置，用于对图1中所示方法的具体实现，其结构示意图如图4所示，包括：

第一采集单元301，用于当到达预设检测周期对应的每个检测时间点时，对预设服务器集群中的每个节点服务器进行主机数据采集，获得当前每个所述节点服务器对应的主机数据信息；

第二采集单元302，用于对每个所述节点服务器进行交换机数据采集，获得当前每个所述节点服务器对应的交换机数据信息；

判断单元303，用于对于每个所述节点服务器，依据该节点服务器对应的主机数据信息和交换机数据信息，判断该节点服务器是否符合预设的故障隐患条件，若该节点服务器符合所述预设的故障隐患条件，则将该节点服务器作为目标节点服务器；

第一确定单元304，用于确定每个所述目标节点服务器对应的故障隐患信息；

第二确定单元305，用于确定每个所述目标节点服务器对应的应用系统信息及网络拓扑信息；

第三确定单元306，用于对于每个所述目标节点服务器，依据该目标节点服务器对应的故障隐患信息、应用系统信息及网络拓扑信息，在预设的多个故障处置策略中，确定该目标节点服务器对应的目标故障处置策略；

生成单元307，用于依据每个所述目标节点服务器对应的故障隐患信息和目标故障处置策略，生成每个所述目标节点服务器对应的告警通知；

告警单元308，用于将每个所述告警通知发送给预先指定的用户，完成当前检测时间点的网络故障处理过程。

应用本发明实施例提供的装置，可定时自动采集服务器集群中各服务器的主机数据和交换机数据，通过条件匹配实现故障隐患判断与定位，且可进一步确定故障处置策略，及时通知运维人员进行维护，无需人工进行故障分析及策略制定，可减少工作量和故障处理耗时，有利于保证业务的高连续性，提高应急处置效率。其次，故障隐患条件可结合隐性故障进行设置，无需等到出现显性故障时才进行运维处理，有利于发现隐性故障，进行预防性运维处理。

在图4所示装置的基础上，本发明实施例提供的装置还可以进一步扩展出多个单元，各个单元的功能可参见前文对于网络故障处理方法所提供的各个实施例中的说明，在此不再进一步举例说明。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的网络故障处理方法。

本发明实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器401，以及一个或者一个以上的指令402，其中一个或者一个以上指令402存储于存储器401中，且经配置以由一个或者一个以上处理器403执行所述一个或者一个以上指令402进行以下操作：

确定每个所述目标节点服务器对应的故障隐患信息；

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种网络故障处理方法，其特征在于，包括：

确定每个所述目标节点服务器对应的故障隐患信息；

2.根据权利要求1所述的方法，其特征在于，所述对预设服务器集群中的每个节点服务器进行主机数据采集，获得当前每个所述节点服务器对应的主机数据信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述对每个所述节点服务器进行交换机数据采集，获得当前每个所述节点服务器对应的交换机数据信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述依据该节点服务器对应的主机数据信息和交换机数据信息，判断该节点服务器是否符合预设的故障隐患条件，包括：

确定每个所述主机关键指标值对应的指标预设值；

5.根据权利要求4所述的方法，其特征在于，还包括：

确定每个所述性能指标计数值对应的指标阈值；

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

执行每个所述待处理节点服务器对应的处理操作。

8.一种网络故障处理装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～7任意一项所述的网络故障处理方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1～7任意一项所述的网络故障处理方法。