CN109768882A

CN109768882A - 一种基于网络设备的自动组网系统及其故障自排查方法

Info

Publication number: CN109768882A
Application number: CN201811573793.0A
Authority: CN
Inventors: 陈洪建; 王小龙
Original assignee: Hangzhou Technology Ltd By Share Ltd
Current assignee: Nanchang Channao Technology Co ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-05-17
Anticipated expiration: 2038-12-21
Also published as: CN109768882B

Abstract

一种基于网络设备的自动组网系统及其故障自排查方法，自动组网系统包括组网环境当中的网络设备，所述网络设备按照网络部署规划使用网线进行设备物理组网，各网络设备上电运行设备，组网中的下游网络开启网关DHCP server功能，下游交换机接收到网关侧的地址，下载到本机的默认路由地址，指向网络的网关，交换机检测设备接口状态，当设备接口是up状态时，给设备接口分配独立vlan，进行设备接口的逻辑隔离,并且根据获取下游设备信息进行设备接口状态的配置，上游设备接口状态为trunk类型，下游设备接口根据设备信息进行配置。本发明提高了故障解决的时效性，提高了服务的质量，增加了问题的解决的安全性，降低了对于运维成员素质的需求，降低了运维成本。

Description

一种基于网络设备的自动组网系统及其故障自排查方法

技术领域：

本发明涉及通信领域，特别涉及一种基于网络设备的自动组网系统及其故障自排查方法。

背景技术：

现有网络设备，只存在部分组网功能，如自动分配IP地址，接入接口虚拟局域网(Virtual Local Area Network，简称VLAN)划分，生成树，链路层发现协议(Link LayerDiscovery Protocol，简称LLDP)协议收集邻居设备信息等，但是设备缺少整体的组网功能，和组网后对整个网络的检测和网络设备巡检功能。现有网络设备发生故障采用手动故障检测和手动自愈功能，例如现在常用设备组网环路现象，现在采用的是通过手动开启设备的生成树功能，以此来避免环路网络。现有设备不存在设备整体组网环境巡检功能，容易遗漏整体组网环境当中隐藏性问题，为故障埋下伏笔。现有设备发生故障时只是进行一些简单的故障预警，比如led灯闪烁，故障定位不精确，并且故障预警不能够实时进行信息上报，降低了故障解决的时效性。设备自愈后存在安全隐患和不能够产生故障自愈说明书，缺少运维人员对于自愈功能流程的裁定，由于设备是傻瓜式自愈容易存在自愈后丢掉配置情况。

现有技术方案存在以下问题：

1.网络设备缺少整体组网整体组网功能和组网环境巡检功能，现有设备具有部分性组网方案。

现有网络设备仅支持支持IP地址的自动分配，LLSD功能，vlan划分等功能但是这些功能只是整体组网方案中的部分元素。网络设备缺少整体的组网功能。

2.网络设备进行故障检测时候，是采用人工检测，不存在单机网络设备自动巡检功能，耗时较大并且容易遗漏检测项。

网络设备在部署到局域网环境当中时候，设备不存在单机自巡检功能并且缺少整体组网环境自巡检功能。

3.网络设备发生故障不能够生成故障现象报告，运维人员不能够实时掌握设备状态

现有网络设备在发生故障的时候能够产生简单的预警功能，如LED等闪烁，故障现象定位不精确，，并且设备不能够生产故障现象报告，所以故障预警不能够实时传递给运维人员，运维人员不能实时掌握设备的运行状态，设备发生故障不能实时掌握到故障产生的原因。由此致使运维人员的工作效率比较低，造成服务质量较差。

4.网络设备不能够生成故障自愈方案

现有设备能够不能够自动生成故障自愈方案。设备产生的简单预警现象不能够给实时传递给运维人员并且不能够提供精准解决参考思路。致使运维人员效率低下。

5.网络设备不具备自愈功能，并且设备自愈后不会生成自愈故障说明书

现有设备采用的自愈方式依手动自愈为主，并且设备存在部分自愈方式是冷自愈功能，不存在热自愈并且不存整体环境协同自愈功能。冷自愈功能对于整个组网环境影响较大并且容易存在隐形问题。热自愈在设备不断电的情况下整体环境协同自愈，解决设备存在的问题。

发明内容：

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明其解决技术问题所采用的技术方案是：一种基于网络设备的自动组网系统，自动组网系统包括组网环境当中的网络设备，所述网络设备按照网络部署规划使用网线进行设备物理组网，各网络设备上电运行设备，组网中的下游网络开启网关动态主机配置协议(Dynamic Host Configuration Protocol，简称DHCP)server功能，下游交换机接收到网关侧的地址，下载到本机的默认路由地址，指向网络的网关，交换机检测设备接口状态，当设备接口是up状态时，给设备接口分配独立vlan，进行设备接口的逻辑隔离,并且根据获取下游设备信息进行设备接口状态的配置，上游设备接口状态为trunk类型，下游设备接口根据设备信息进行配置，开启上游交换机的DHCP server功能给下游设备分配ip地址，组网上游网络，各网络设备向上游交换机发出自组网协议报文，获取服务器域名，网关运行域名系统(Domain Name System，简称DNS)进行域名解析，解析出IP地址写入路由表，网关默认地址指向上游设备，设备组网完成自运行生成树(Spanning Tree Protocol，简称STP)协议。

作为优选，通过LLDP协议收集网络设备信息，将已收集信息绘图制表发送给服务器，服务器根据收集到的信息，生成网络设备环境拓扑图，服务器通过网络设备环境拓扑图来修改网络设备的配置，所述服务器接收到组网数据生成网络设备环境拓扑图，组网完成，形成组网完成报文。

系统中各网络设备启动故障巡检机制，故障巡检机制包括：

A、检测步骤：检测单机设备运行状态，运行整网环境巡检功能，自动巡检网络设备获取设备的实系统状态，巡检内容包括包括链路线缆检测、流量统计、进程监控、内存及CPU域值告警，设备温度；

B、故障说明书生成步骤：检测到故障时候自动生成故障说明书，故障说明书包含4类，分别是常规故障说明书，进程监控故障说明书，内存及CPU阈值告警故障说明书和流量监控故障说明书；

C、网络自愈步骤：网络设备自愈功能采用休眠的方式工作在网络设备中，当故障说明书生成时候，此时网络设备自愈机制被激活，网络设备依据故障现象自行查阅故障自愈字典，运行相应的故障自愈字典中解决方案；

D、上报步骤：网络设备根据故障现象生成多份故障自愈方案，故障自愈方案和故障说明书通过微信和/或邮件的方式上报，同时故障自愈方案和故障说明书上送服务器，并且故障自愈方案和故障说明书在网络设备环境拓扑图中体现，网络设备自愈后的故障自愈方案也上报服务器，在网络设备环境拓扑图中显示。

作为优选，检测步骤中链路检测：通过运行设备的链路健康功能，进行链路进行检测，检测物理链路是否正常，检测逻辑链路是否正常；

流量统计：统计接口的数据包；

进程检测：运行进程监控，运行进程监控功能，实时监控网络设备中各个进程的状态；

内存及CPU域值告警：运行网络设备中的可维可测功能，实时监控内存和CPU使用率，运行状态等；

设备温度检测：运行温度报警功能，实时监控设备温度。

作为优选，故障说明书生成步骤中，常规故障说明书内容包括：线缆检测和网络设备温度两部分，线缆检测内容包含网络设备故障现象，网络设备预估故障和网络设备解决方案，网络设备温度部分包含CPU温度值，内存温度值，造成网络设备温度因素以及解决设备温度方案；

进程监控故障说明书内容包含：网络设备正在运行的进程数量，进程消耗的CPU资源和内存资源，进程的消耗排序，以及解决故障的方案；

内存及CPU阈值告警故障说明书：包括网络设备启动内存大小，内存使用率，内存使用和内存剩余，CPU的使用率，CPU的频率，CPU中最活跃的线程；

流量监控故障说明书：包括当前的流量，丢弃流量和相应的配置信息。

作为优选，网络自愈步骤中网络设备运行自愈机制，故障自愈方案包括：

流量监控故障自愈方案：网络设备一个接口中的流量过大造成接口数据报文阻塞，网络设备自动运行采样机制，把报文进行优先级划分，业务报文打上高优先级标签，维护报文打上低优先级标签，然后过滤掉低优先级报文，由此降低接口的数据包降低接口流量；

内存和CPU阈值预警故障自愈方案：释放网络设备中的不活跃的内存占用内存比较大的进程，释放内存空间，CPU预警，让部分非活跃进程进入到休眠状态，降低CPU使用率；

进程监控故障自愈方案：关闭网络设备当中的僵尸进程，让不活跃进程进入休眠状态；

常规故障自愈方案：进行网络设备软件功能自愈，网络设备温度过高时，加大网络设备风扇的功率降低网络设备发热源温度，关闭部分致使网络设备温度升高的功能。

作为优选，上报步骤中还包括故障自愈说明书，故障自愈说明书包括网络设备自愈的步骤和自愈后设备的状态，故障自愈说明书通过邮件和/或微信的方式上报，同时上送服务器，并在网络设备环境拓扑图中体现。运维人员根据收到的故障现象说明书和故障自愈说明书，能够实时了解网络设备运行状态，通过查阅接受到的故障现象说明书，了解网络设备状态和故障现象，依据故障现象说明书参考故障自愈方案制定故障解决方案，运维人员可以参考故障解决方案，优化解决方案，运维人员可以查看故障自愈说明书进行对该故障解决的结果进行裁定，实现故障解决的双层保障，避免设备存在隐患，从而提高故障解决效率，提高服务质量，节省人力成本。

本发明的有益效果在于：

本发明通过网络设备的故障现象说明书，运维人员可以实时接收到设备故障信息，提高问题解决的时效性，网络设备产生故障解决方案，可以给运维人员提供解决思路，运维人员可以参考优化自己的解决方案，网络设备能够运行自愈机制，提高了故障解决失效性，设备产生自愈说明书，运维人员可以参看说明书进行最终结果的裁定，综上所述，本发明提高了故障解决的时效性，提高了服务的质量，增加了问题的解决的安全性，降低了对于运维成员素质的需求，降低了运维成本。

附图说明：

图1：故障巡检机制流程示意图。

具体实施方式：

实施例：一种基于网络设备的自动组网系统，自动组网系统包括组网环境当中的网络设备，所述网络设备按照网络部署规划使用网线进行设备物理组网，各网络设备上电运行设备，组网中的下游网络开启网关DHCP server功能，下游交换机接收到网关侧的地址，下载到本机的默认路由地址，指向网络的网关，交换机检测设备接口状态，当设备接口是up状态时，给设备接口分配独立vlan，进行设备接口的逻辑隔离,并且根据获取下游设备信息进行设备接口状态的配置，上游设备接口状态为trunk类型，下游设备接口根据设备信息进行配置，开启上游交换机的DHCP server功能给下游设备分配ip地址，组网上游网络，各网络设备向上游交换机发出自组网协议报文，获取服务器域名，网关运行DNS进行域名解析，解析出IP地址写入路由表，网关默认地址指向上游设备，设备组网完成自运行STP协议。

通过LLDP协议收集网络设备信息，将已收集信息绘图制表发送给服务器，服务器根据收集到的信息，生成网络设备环境拓扑图，服务器通过网络设备环境拓扑图来修改网络设备的配置，所述服务器接收到组网数据生成网络设备环境拓扑图，组网完成，形成组网完成报文。

系统中各网络设备启动故障巡检机制，所述故障巡检机制包括：

检测步骤中链路检测：通过运行设备的链路健康功能，进行链路进行检测，检测物理链路是否正常，检测逻辑链路是否正常；

流量统计：统计接口的数据包；

设备温度检测：运行温度报警功能，实时监控设备温度。

故障说明书生成步骤中，常规故障说明书内容包括：线缆检测和网络设备温度两部分，线缆检测内容包含网络设备故障现象，网络设备预估故障和网络设备解决方案，网络设备温度部分包含CPU温度值，内存温度值，造成网络设备温度因素以及解决设备温度方案；

网络自愈步骤中网络设备运行自愈机制，故障自愈方案包括：

上报步骤中还包括故障自愈说明书，故障自愈说明书包括网络设备自愈的步骤和自愈后设备的状态，故障自愈说明书通过邮件和/或微信的方式上报，同时上送服务器，并在网络设备环境拓扑图中体现。

以上所述仅为本发明的较佳实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

Claims

1.一种基于网络设备的自动组网系统，其特征在于：所述自动组网系统包括组网环境当中的网络设备，所述网络设备按照网络部署规划使用网线进行设备物理组网，各网络设备上电运行设备，组网中的下游网络开启网关DHCP server功能，下游交换机接收到网关侧的地址，下载到本机的默认路由地址，指向网络的网关，交换机检测设备接口状态，当设备接口是up状态时，给设备接口分配独立vlan，进行设备接口的逻辑隔离,并且根据获取下游设备信息进行设备接口状态的配置，上游设备接口状态为trunk类型，下游设备接口根据设备信息进行配置，开启上游交换机的DHCP server功能给下游设备分配ip地址，组网上游网络，各网络设备向上游交换机发出自组网协议报文，获取服务器域名，网关运行DNS进行域名解析，解析出IP地址写入路由表，网关默认地址指向上游设备，设备组网完成自运行STP协议。

2.根据权利要求1所述的系统，其特征在于：通过LLDP协议收集网络设备信息，将已收集信息绘图制表发送给服务器，服务器根据收集到的信息，生成网络设备环境拓扑图，服务器通过网络设备环境拓扑图来修改网络设备的配置，所述服务器接收到组网数据生成网络设备环境拓扑图，组网完成，形成组网完成报文。

3.一种应用于权利要求2所述的系统的故障自排查方法，其特征在于：所述系统中各网络设备启动故障巡检机制，所述故障巡检机制包括：

4.根据权利要求3所述的方法，其特征在于：所述检测步骤中链路检测：通过运行设备的链路健康功能，进行链路进行检测，检测物理链路是否正常，检测逻辑链路是否正常；

流量统计：统计接口的数据包；

设备温度检测：运行温度报警功能，实时监控设备温度。

5.根据权利要求3所述的方法，其特征在于：所述故障说明书生成步骤中，常规故障说明书内容包括：线缆检测和网络设备温度两部分，线缆检测内容包含网络设备故障现象，网络设备预估故障和网络设备解决方案，网络设备温度部分包含CPU温度值，内存温度值，造成网络设备温度因素以及解决设备温度方案；

6.根据权利要求3所述的方法，其特征在于：所述网络自愈步骤中网络设备运行自愈机制，故障自愈方案包括：

7.根据权利要求3所述的方法，其特征在于：所述上报步骤中还包括故障自愈说明书，故障自愈说明书包括网络设备自愈的步骤和自愈后设备的状态，故障自愈说明书通过邮件和/或微信的方式上报，同时上送服务器，并在网络设备环境拓扑图中体现。