CN110635954B

CN110635954B - 一种数据中心网络故障的处理方法及系统

Info

Publication number: CN110635954B
Application number: CN201911002517.3A
Authority: CN
Inventors: 朱聿津; 戴之光; 张维嘉; 王勇
Original assignee: China Travelsky Technology Co Ltd
Current assignee: China Travelsky Technology Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2022-10-21
Anticipated expiration: 2039-10-21
Also published as: CN110635954A

Abstract

本发明公开了一种数据中心网络故障的处理方法，获取数据中心网络发生异常时产生的告警信息，基于该告警信息，从预先存储的告警信息、故障设备和故障原因的对应关系中，查找到告警信息对应的故障设备和故障原因，并作为产生数据中心网络故障的故障信息，关闭与故障设备连接的所有的设备端口，将故障设备进行隔离，并启动故障设备的备用设备。相对于传统方案而言，本发明可以实现对数据中心网络故障的自动定位和故障处理，不仅大大节约了人力成本，提高了故障处理效率，而且还有效降低了由于人为操作引起的操作故障。

Description

一种数据中心网络故障的处理方法及系统

技术领域

本发明涉及网络数据处理技术领域，更具体的说，涉及一种数据中心网络故障的处理方法及系统。

背景技术

随着信息技术的突飞猛进，各种数据呈现爆炸式增长，数据中心的发展越来越迅速，网络结构也日益复杂。数据中心网络是应用于数据中心内的网络，因为数据中心网络内的流量呈现出典型的交换数据集集中、东西流量增多等特征，对数据中心网络提出了进一步的要求：高扩展性、高鲁棒性、灵活的拓扑和链路容量控制、绿色节能等。然而，数据集中就意味着风险集中、响应集中、复杂度集中等等。从而使得数据中心网络出现故障的情况不可避免，尤其是在应急情况下。

数据中心网络故障类型众多，主要为：数据中心网络的设备、链路或服务器发生故障，无法对外提供正常服务。由于网络设备的数量庞大，故障发生时，告警信息较多，很难定位故障，尤其在应急情况下，如果只靠经验人工手动定位故障并进行操作，容易造成操作事故且处理时间较长，需要耗费大量的人力。

发明内容

有鉴于此，本发明公开一种数据中心网络故障的处理方法及系统，以实现对数据中心网络故障的自动定位和故障处理，不仅大大节约人力成本，提高故障处理效率，而且还有效降低由于人为操作引起的操作故障。

一种数据中心网络故障的处理方法，包括：

获取数据中心网络发生异常时产生的告警信息；

基于所述告警信息，从预先存储的告警信息、故障设备和故障原因的对应关系中，查找到所述告警信息对应的故障设备和故障原因，并作为产生数据中心网络故障的故障信息；

查找与所述故障设备连接的所有的设备接口；

向通过所述设备接口与所述故障设备连接的目标设备发送设备接口关闭指令，使所述目标设备断开与所述故障设备之间的连接，同时启用所述故障设备的备用设备。

可选的，所述基于所述告警信息，从预先存储的告警信息、故障设备和故障原因的对应关系中，查找到所述告警信息对应的故障设备和故障原因，并作为产生数据中心网络故障的故障信息，具体包括：

将所述告警信息与预先建立的告警信息数据库中的每一个告警条目进行匹配；

当存在匹配度不低于预设匹配度的告警条目时，将匹配得到的告警条目对应的故障设备和故障原因作为产生数据中心网络故障的故障信息。

将所述告警信息与预先建立的告警信息吸收树形图中的各个子告警信息以及各个父告警信息进行吸收匹配；

将匹配得到的子告警信息和/或父告警信息对应的根源告警信息相对应的故障设备和故障原因，作为产生数据中心网络故障的故障信息。

可选的，所述将所述告警信息与预先建立的告警信息吸收树形图中的各个子告警信息以及各个父告警信息进行吸收匹配，具体包括：

判断所述告警信息的产生时间是否在设定关联告警信息时间段内；

如果是，则将所述告警信息与预先建立的告警信息吸收树形图中的各个子告警信息以及各个父告警信息进行吸收匹配；

其中，所述告警信息吸收树形图根据在所述设定关联告警信息时间段内获取的告警信息建立。

可选的，在所述向通过所述设备接口与所述故障设备连接的目标设备发送设备接口关闭指令，使所述目标设备断开与所述故障设备之间的连接，同时启用所述故障设备的备用设备，之后，还包括：

判断数据中心网络是否恢复正常，其中，所述数据中心网络恢复正常包括：所述故障设备被隔离，所述备用设备启用且网络恢复正常；

如果是，则将所述故障设备的配置以及故障原因以对应关系的形式进行存储。

一种数据中心网络故障的处理系统，包括：

获取单元，用于获取数据中心网络发生异常时产生的告警信息；

第一查找单元，用于基于所述告警信息，从预先存储的告警信息、故障设备和故障原因的对应关系中，查找到所述告警信息对应的故障设备和故障原因，并作为产生数据中心网络故障的故障信息；

第二查找单元，用于查找与所述故障设备连接的所有的设备接口；

故障处理单元，用于向通过所述设备接口与所述故障设备连接的目标设备发送设备接口关闭指令，使所述目标设备断开与所述故障设备之间的连接，同时启用所述故障设备的备用设备。

可选的，所述第一查找单元具体包括：

第一匹配子单元，用于将所述告警信息与预先建立的告警信息数据库中的每一个告警条目进行匹配；

第一故障选取子单元，用于当存在匹配度不低于预设匹配度的告警条目时，将匹配得到的告警条目对应的故障设备和故障原因确定为产生数据中心网络故障的故障信息。

可选的，所述第一查找单元具体包括：

第二匹配子单元，用于将所述告警信息与预先建立的告警信息吸收树形图中的各个子告警信息以及各个父告警信息进行吸收匹配；

将匹配得到的子告警信息和/或父告警信息对应的根源告警信息相对应的故障设备和故障原因，确定为产生数据中心网络故障的故障信息。

可选的，所述第二匹配子单元具体用于：

可选的，还包括：

判断单元，用于在所述故障处理单元向通过所述设备接口与所述故障设备连接的目标设备发送设备接口关闭指令，使所述目标设备断开与所述故障设备之间的连接，同时启用所述故障设备的备用设备，之后，，判断数据中心网络是否恢复正常，其中，所述数据中心网络恢复正常包括：所述故障设备被隔离，所述备用设备启用且网络恢复正常；

存储单元，用于在所述判断单元判断为是的情况下，将所述故障设备的配置以及故障原因以对应关系的形式进行存储。

从上述的技术方案可知，本发明公开了一种数据中心网络故障的处理方法，获取数据中心网络发生异常时产生的告警信息，基于该告警信息，从预先存储的告警信息、故障设备和故障原因的对应关系中，查找到告警信息对应的故障设备和故障原因，并作为产生数据中心网络故障的故障信息，关闭与故障设备连接的所有的设备端口，将故障设备进行隔离，并启动故障设备的备用设备。相对于传统方案而言，本发明可以实现对数据中心网络故障的自动定位和故障处理，不仅大大节约了人力成本，提高了故障处理效率，而且还有效降低了由于人为操作引起的操作故障。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种数据中心网络故障的处理方法流程图；

图2为本发明实施例公开的一种告警信息数据库的组成示意图；

图3为本发明实施例公开的一种告警信息吸收树形图；

图4为本发明实施例公开的另一种数据中心网络故障的处理方法流程图；

图5为本发明实施例公开的一种数据中心网络故障的处理系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种数据中心网络故障的处理方法及系统，获取数据中心网络发生异常时产生的告警信息，基于该告警信息，从预先存储的告警信息、故障设备和故障原因的对应关系中，查找到告警信息对应的故障设备和故障原因，并作为产生数据中心网络故障的故障信息，关闭与故障设备连接的所有的设备端口，将故障设备进行隔离，并启动故障设备的备用设备。相对于传统方案而言，本发明可以实现对数据中心网络故障的自动定位和故障处理，不仅大大节约了人力成本，提高了故障处理效率，而且还有效降低了由于人为操作引起的操作故障。

参见图1，本发明一实施例公开的一种数据中心网络故障的处理方法流程图，该方法包括步骤：

步骤S101、获取数据中心网络发生异常时产生的告警信息；

具体的，在实际应用中，可以通过运维监控平台检测网络发生异常时产生的告警信息，其中，网络发生异常包括：网络发生错误的情况。

本实施例中，告警信息表明可能发生数据中心网络故障，在实际生产环境中，通常某一故障会产生多条告警信息，

每一条告警信息包括：事件首次发生时间、事件最新发生时间、告警次数、事件名称、告警设备名称、告警设备IP、告警对象(具体端口或者主板等)、告警事件来源和脚本(例如ICM告警来源IP和设备可达性脚本)，告警事件详情(例如SNMP Trap的告警，或者设备厂商管理系统告警如H3C的IMC告警)等信息。

需要说明的是，在实际应用中，可以条目方式罗列出告警信息的内容，并可以根据告警信息的来源或者设备型号，对告警信息进行分类。

步骤S102、基于所述告警信息，从预先存储的告警信息、故障设备和故障原因的对应关系中，查找到所述告警信息对应的故障设备和故障原因，并作为产生数据中心网络故障的故障信息；

其中，步骤S102具体可以包括：

将获取的告警信息与预先建立的告警信息数据库中的每一个告警条目进行匹配；

本实施例中，匹配度为：获取的告警信息与该告警信息对应的故障原因下的所有的告警条目的重合百分比。

需要说明的是，告警信息数据库预先建立，所述告警信息数据库中包含：故障设备和故障原因，以及由故障设备引发的告警信息。

具体的，参见图2，本发明一实施例公开的一种告警信息数据库的组成示意图，告警信息数据库中的每一个条目为：故障设备和故障原因，以及由于故障设备而引发的告警条目，包括：告警条目1、告警条目2、告警条目3，……，告警条目n，n为正整数。

其中，预设匹配度的取值依据实际需要而定，比如，预设匹配度为80％，具体依据实际需要而定，本发明在此不做限定。

当告警信息数据库中不存在匹配度不低于预设匹配度的告警条目时，则更新告警信息数据库。

建立告警信息数据库的方法适用于已有较为完善数据库的数据中心，对于故障设备、故障原因和告警信息有比较充足的信息。

上述实施例中，步骤S102具体还可以包括：

将获取的告警信息与预先建立的告警信息吸收树形图中的各个子告警信息以及各个父告警信息进行吸收匹配；

其中，告警信息吸收树形图基于设备网络拓扑图和已知的告警信息因果关系建立。

参见图3，本发明一实施例公开的一种告警信息吸收树形图，一个根源告警信息包括：多个父告警信息，比如父告警信息1、父告警信息2；每一个父告警信息包括：多个子告警信息，比如，父告警信息1包括：子告警信息1和子告警信息2；父告警信息2包括：子告警信息3和子告警信息4。

当有新告警信息产生时，基于告警信息吸收树形图进行告警信息吸收关联分析，判断新告警信息能否被告警信息吸收树形图中的父告警信息或子告警信息吸收，如果新告警信息能够被吸收，则直接将新告警信息添加至告警信息吸收树形图，并作为吸收告警信息的一个子告警信息。当新告警信息不能被告警信息吸收树形图中的父告警信息或子告警信息吸收时，对新告警信息进行标记，并加入告警信息吸收树形图中，更新告警信息吸收树形图。该方法可以实时的生成和更新告警信息吸收树形图。

由于通过告警信息规则关联的告警信息信息通常在一段时间内产生，因此，在实际应用中，可以设定关联告警信息时间段，在判断新告警信息能否被吸收树形图中的父告警信息或子告警信息吸收时，先判断新告警信息的产生时间是否在设定关联告警信息时间段内，当新告警信息在设定关联告警信息时间段内时，再判断新告警信息能否被告警信息吸收树形图中的父告警信息或子告警信息吸收；反之，当新告警信息不在设定关联告警信息时间段内时时，则舍弃新告警信息。

为进一步优化上述实施例，将所述告警信息与预先建立的告警信息吸收树形图中的各个子告警信息以及各个父告警信息进行吸收匹配，具体包括：

判断获取的告警信息的产生时间是否在设定关联告警信息时间段内；

如果是，则将获取的告警信息与预先建立的告警信息吸收树形图中的各个子告警信息以及各个父告警信息进行吸收匹配；

将匹配得到的子告警信息和/或父告警信息对应的根源告警信息相对应的故障设备和故障原因，作为产生数据中心网络故障的故障信息；

如果否，则舍弃获取的告警信息。

需要说明的是，告警信息吸收树形图为根据在设定关联告警信息时间段内获取的告警信息建立。

步骤S103、查找与所述故障设备连接的所有的设备接口；

具体的，在实际应用中，根据设备拓扑结构和CMDB(Configuration ManagementDatabase，配置管理数据库)，查找与故障设备连接的所有的设备接口。

步骤S104、向通过所述设备接口与故障设备连接的目标设备发送设备接口关闭指令，使所述目标设备断开与所述故障设备之间的连接，同时启用所述故障设备的备用设备。

具体的，在实际应用中，可以向通过设备接口与故障设备连接的目标设备发送设备接口关闭指令，使故障设备与目标设备之间的连接断开，将故障设备从设备网络中隔离，实现故障隔离。

其中，故障设备的隔离方法有两种，如下：

方法一

在具备独立部署带外管理网的数据中心体系中确定故障设备，通过netconf接口以及cli方式通过管理网自动登陆故障设备，其中登陆ip及用户名密码存储于CMDB中，在CMDB中查询故障设备所有可用的设备端口，根据CMDB中的标签自动执行关闭故障设备的所有可用的设备端口的指令。

方法二

在不具备独立部署带外管理网的数据中心体系中，由于无法直接登陆故障设备对其进行操作，当产生设备故障时，根据设备网络拓扑结构，通过CMDB和LLDP(Link LayerDiscovery Protocol，链路层发现协议)查找出与故障设备上联或下联的所有设备端口，基于设备端口依次登陆所有上联或下联的目标设备，执行与故障设备相连的设备端口的设备接口关闭指令。需要说明的是，由于数据中心的架构和场景均为主备双活模式，而不是单点结构，因此在顺序问题方面不需要考虑登陆顺序。

综上可知，本发明公开了一种数据中心网络故障的处理方法，获取数据中心网络发生异常时产生的告警信息，基于该告警信息，从预先存储的告警信息、故障设备和故障原因的对应关系中，查找到告警信息对应的故障设备和故障原因，并作为产生数据中心网络故障的故障信息，关闭与故障设备连接的所有的设备端口，将故障设备进行隔离，并启动故障设备的备用设备。相对于传统方案而言，本发明可以实现对数据中心网络故障的自动定位和故障处理，不仅大大节约了人力成本，提高了故障处理效率，而且还有效降低了由于人为操作引起的操作故障。

本发明在完成对数据中心网络故障的处理后，还会对故障处理结果进行校验。

参见图4，本发明另一实施例公开的一种数据中心网络故障的处理方法流程图，在图1所示实施例的基础上，在步骤S104之后，还可以包括步骤：

步骤S105、判断数据中心网络是否恢复正常，如果是，则执行步骤S106；

其中，本实施例通过判断数据中心网络是否恢复正常来确定对数据中心网络故障是否处理完全。

数据中心网络是否恢复正常包括：故障设备是否隔离，故障设备的备用设备是否启用，以及网络是否恢复正常，当故障设备被隔离，备用设备启用且网络恢复正常后，才确定数据中心网络恢复正常；反之，则确定数据中心网络没有恢复正常，此时，则对未处理的故障继续处理，直至数据中心网络恢复正常。

比如，A机和B机互为主备，当A机出现故障经过故障处理后，无论A机是否在管理网中，都会通过netconf接口以及cli方式自动登陆B机，检查B机是否已经启用，网络是否可以畅通，通过NRRP(虚拟路由冗余协议)查看A机状态，若A机处于失联状态，证明A机被成功隔离。

步骤S106、将故障设备的配置以及故障原因以对应关系的形式进行存储。

本发明在确定设备发生故障后，会将故障设备的配置以及故障原因以对应关系的形式进行存储，以便为后续设备配置更改、故障抢修等提供参考，并可根据故障设备的原始配置实现配置的回溯。

综上可知，本发明公开了一种数据中心网络故障的处理方法，获取数据中心网络发生异常时产生的告警信息，基于该告警信息，从预先存储的告警信息、故障设备和故障原因的对应关系中，查找到告警信息对应的故障设备和故障原因，并作为产生数据中心网络故障的故障信息，关闭与故障设备连接的所有的设备端口，将故障设备进行隔离，并启动故障设备的备用设备。相对于传统方案而言，本发明可以实现对数据中心网络故障的自动定位和故障处理，不仅大大节约了人力成本，提高了故障处理效率，而且还有效降低了由于人为操作引起的操作故障。另外，为保证对数据中心网络故障处理完全，本发明还对数据中心网络是否恢复正常进行了校验，并在检验通过后，将故障设备的配置以及故障原因以对应关系的形式进行存储，以便为后续设备配置更改、故障抢修等提供参考，并可根据故障设备的原始配置实现配置的回溯。

与上述方法实施例相对应，本发明公开了一种数据中心网络故障的处理系统。

参见图5，本发明一实施例公开的一种数据中心网络故障的处理系统的结构示意图，该系统包括：

获取单元201，用于获取数据中心网络发生异常时产生的告警信息；

第一查找单元202，用于基于所述告警信息，从预先存储的告警信息、故障设备和故障原因的对应关系中，查找到所述告警信息对应的故障设备和故障原因，并作为产生数据中心网络故障的故障信息；

其中，第一查找单元202具体可以包括：

第一查找单元202具体还可以包括：

第二匹配子单元具体用于：

需要说明的是，当有新告警信息产生时，基于告警信息吸收树形图进行告警信息吸收关联分析，判断新告警信息能否被告警信息吸收树形图中的父告警信息或子告警信息吸收，如果新告警信息能够被吸收，则直接将新告警信息添加至告警信息吸收树形图，并作为吸收告警信息的一个子告警信息。当新告警信息不能被告警信息吸收树形图中的父告警信息或子告警信息吸收时，对新告警信息进行标记，并加入告警信息吸收树形图中，更新告警信息吸收树形图。该方法可以实时的生成和更新告警信息吸收树形图。

第二查找单元203，用于查找与所述故障设备连接的所有的设备接口；

故障处理单元204，用于向通过所述设备接口与所述故障设备连接的目标设备发送设备接口关闭指令，使所述目标设备断开与所述故障设备之间的连接，同时启用所述故障设备的备用设备。

其中，故障设备的隔离方法有两种，如下：

方法一

方法二

综上可知，本发明公开了一种数据中心网络故障的处理系统，获取数据中心网络发生异常时产生的告警信息，基于该告警信息，从预先存储的告警信息、故障设备和故障原因的对应关系中，查找到告警信息对应的故障设备和故障原因，并作为产生数据中心网络故障的故障信息，关闭与故障设备连接的所有的设备端口，将故障设备进行隔离，并启动故障设备的备用设备。相对于传统方案而言，本发明可以实现对数据中心网络故障的自动定位和故障处理，不仅大大节约了人力成本，提高了故障处理效率，而且还有效降低了由于人为操作引起的操作故障。

为进一步优化上述实施例，数据中心网络故障的处理系统还可以包括：

判断单元，用于在所述故障处理单元204向通过所述设备接口与所述故障设备连接的目标设备发送设备接口关闭指令，使所述目标设备断开与所述故障设备之间的连接，同时启用所述故障设备的备用设备，之后，，判断数据中心网络是否恢复正常，其中，所述数据中心网络恢复正常包括：所述故障设备被隔离，所述备用设备启用且网络恢复正常；

综上可知，本发明公开了一种数据中心网络故障的处理系统，获取数据中心网络发生异常时产生的告警信息，基于该告警信息，从预先存储的告警信息、故障设备和故障原因的对应关系中，查找到告警信息对应的故障设备和故障原因，并作为产生数据中心网络故障的故障信息，关闭与故障设备连接的所有的设备端口，将故障设备进行隔离，并启动故障设备的备用设备。相对于传统方案而言，本发明可以实现对数据中心网络故障的自动定位和故障处理，不仅大大节约了人力成本，提高了故障处理效率，而且还有效降低了由于人为操作引起的操作故障。另外，为保证对数据中心网络故障处理完全，本发明还对数据中心网络是否恢复正常进行了校验，并在检验通过后，将故障设备的配置以及故障原因以对应关系的形式进行存储，以便为后续设备配置更改、故障抢修等提供参考，并可根据故障设备的原始配置实现配置的回溯。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据中心网络故障的处理方法，其特征在于，包括：

获取数据中心网络发生异常时产生的告警信息；所述告警信息包括：事件首次发生时间、事件最新发生时间、告警次数、事件名称、告警设备名称、告警设备IP、告警对象、告警事件来源和脚本；

将所述告警信息与预先建立的告警信息数据库中的每一个告警条目进行匹配；所述告警信息库中包括多个条目，每一个条目包括：故障设备、故障原因及所述故障设备引发的N个告警条目，N为正整数；

当存在匹配度不低于预设匹配度的告警条目时，将匹配得到的告警条目对应的故障设备和故障原因作为产生数据中心网络故障的故障信息；

根据设备拓扑结构和配置管理数据库，查找与所述故障设备连接的所有的设备接口；

向通过所述设备接口与所述故障设备连接的目标设备发送设备接口关闭指令，使所述目标设备断开与所述故障设备之间的连接，同时启用所述故障设备的备用设备；

2.一种数据中心网络故障的处理系统，其特征在于，包括：

获取单元，用于获取数据中心网络发生异常时产生的告警信息；所述告警信息包括：时间首次发生时间、时间最新发生时间、告警次数、时间名称、告警设备名称、告警设备IP、告警对象、告警事件来源和脚本；

第二查找单元，用于根据设备拓扑结构和配置管理数据库，查找与所述故障设备连接的所有的设备接口；

故障处理单元，用于向通过所述设备接口与所述故障设备连接的目标设备发送设备接口关闭指令，使所述目标设备断开与所述故障设备之间的连接，同时启用所述故障设备的备用设备；

判断单元，用于判断数据中心网络是否恢复正常，其中，所述数据中心网络恢复正常包括：所述故障设备被隔离，所述备用设备启用且网络恢复正常；

存储单元，用于在所述判断单元判断为是的情况下，将所述故障设备的配置以及故障原因以对应关系的形式进行存储

其中，所述第一查找单元包括：