CN106992877A - 基于sdn架构的网络故障检测与修复方法 - Google Patents

基于sdn架构的网络故障检测与修复方法 Download PDF

Info

Publication number
CN106992877A
CN106992877A CN201710135628.6A CN201710135628A CN106992877A CN 106992877 A CN106992877 A CN 106992877A CN 201710135628 A CN201710135628 A CN 201710135628A CN 106992877 A CN106992877 A CN 106992877A
Authority
CN
China
Prior art keywords
network
network state
fault
module
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710135628.6A
Other languages
English (en)
Other versions
CN106992877B (zh
Inventor
邓文平
王宝生
薛华威
苏金树
高先明
郦苏丹
王宏
陶静
彭伟
陈琳
唐竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710135628.6A priority Critical patent/CN106992877B/zh
Publication of CN106992877A publication Critical patent/CN106992877A/zh
Application granted granted Critical
Publication of CN106992877B publication Critical patent/CN106992877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • H04L43/103Active monitoring, e.g. heartbeat, ping or trace-route with adaptive polling, i.e. dynamically adapting the polling rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于SDN架构的网络故障检测与修复方法,技术方案是构建一个由网络设备、集中管理服务器、监控计算机构成的网络系统,网络设备上部署有Agent代理模块,集中管理服务器安装有业务层模块、网络状态参数获取和策略执行模块、故障检测推理模块、网络状态参数数据库和专家知识库;网络状态参数获取和策略执行模块接收到业务层发来的故障检测指令后,网络状态参数获取和策略执行模块并行地和路由器上的Agent代理模块建立通信,采用自适应轮询算法从Agent代理模块获取不同网络协议的网络状态信息,故障检测推理模块进行故障的检测与修复。采用本发明既能对已知故障进行准确定位,又能降低故障检测开销,还能确保故障自动化修复。

Description

基于SDN架构的网络故障检测与修复方法
技术领域
本发明涉及一种基于SDN(Software Define Network,软件定义网络)架构的网络故障检测与修复方法。
背景技术
随着互联网高速的飞速发展,互联网已经深入生活的方方面面,越来越多的业务采用“互联网+”模式,如常见的点餐服务美团,出行打车服务滴滴出行,以及支付服务微信、支付宝等。因此,网络系统的安全和稳定是现代生活的一个基本的保证,如果出现崩溃,将会造成日常生活的崩溃或者巨大损失。据统计,一个局域网在一年之内出现的故障次数高达二十多次,由此产生的网络中断服务时间在十几个小时,而那些大的运营商如电信、移动等公司,几个小时的中断可能造上亿美元的经济损失,因此,如何保证网络的安全运行,并在出现故障时候能够及时发现,并进行适当的修复是当前最为重要的问题之一。
目前,存在大量的网络故障诊断方法,这些方法大都基于贝叶斯网络、人工智能、神经网络等技术,通常具有自主学习的功能,但却是基于历史信息的一种推断,仅供网络管理人员进行网络管理的一种参考,并且不能对故障进行准确定位,因此,不适合网络故障检测和自动修复系统。
进行故障检测的前提是获取当前网络的状态信息,目前围绕如何降低状态获取时的系统开销,而又能保证故障检测的实时性进行了很多研究。分为三类:轮询,该种方式规定T时间周期进行定时获取网络状态信息,但存在时间大小如何设置问题;事件通知,该种方式采用异步通知机制,但是存在代理端崩溃无法发送事件通知;轮询和事件通知结合,该方式在一定程度上可以解决轮询开销和故障响应时间问题,但是却要求在代理端维持网络的状态信息,造成代理端的系统开销和维护开销。
目前进行网络故障检测系统,主要存在以下弊端与不足:
1.自动化程度较低。网络出现故障时候,系统不能及时对网络故障进行修复,达到网络快速恢复健康运行的目的。
2.故障检测准确性较低。即无法对已知故障进行准确定位。
3.在进行网络状态获取时候,无法在系统开销和故障响应时间之间取得均衡。
在日益复杂的网络环境下,这些故障检测方法既不能做到故障的自动化修复,也不能降低进行故障检测的开销。
发明内容
本发明要解决的技术问题是提供基于SDN架构的网络故障检测与修复方法,既能确保故障的自动化修复,也能降低进行故障检测的开销,且提高故障检测准确性,对已知故障进行准确定位。
本发明的技术方案是:
第一步,构建一个集中与分布相结合的网络系统,它由N个网络设备、一台集中管理服务器以及一台监控计算机构成,它们通过互联网相连。
网络设备主要是路由器,其上部署有Agent代理模块,N个网络设备均与集中管理服务器相连。Agent代理模块负责获取网络状态信息(主要指网络设备的状态信息,包括路由协议的网络状态信息。网络状态信息包括网络状态关键字和网络状态关键字的数值,网络状态关键字指网络设备运行的各种网络协议中描述网络状态的属性;网络状态关键字的数值指网络协议运行时网络状态关键字对应的数值),并对网络协议进行配置。Agent代理模块通过南向接口将网路状态信息送给集中管理服务器,常见南向接口有CLI(ClientLine Interface,命令行)、SNMP(Simple Network Manager Protocol,简单网络管理协议)、NETCONF(Network Configuration Protocol,网络配置协议)等。
集中管理服务器除安装业务层模块,还安装有对网络故障进行检测和修复的控制层模块。
控制层模块由网络状态参数获取和策略执行模块、故障检测推理模块、网络状态参数数据库和专家知识库组成。网络状态参数获取和策略执行模块设置一个故障标志位,初始化为0,当故障标志位为1,说明网络当前存在故障,否则不存在故障。网络状态参数获取和策略执行模块接收业务层模块发来的故障检测指令,根据故障检测指令对相应的网络协议进行检测和修复;网络状态参数获取和策略执行模块与N个网络设备的Agent代理模块相连、业务层模块、故障检测推理模块相连;网络状态参数获取和策略执行模块从Agent代理模块获取网络状态信息,将网络状态信息存储到网络状态参数数据库中;网络状态参数获取和策略执行模块从故障检测推理模块接收故障修复策略,执行故障修复策略进行修复,执行完故障修复策略后,将网络状态参数数据库中与该故障相对应的网络状态信息删除;网络故障检测推理模块与网络状态参数获取和策略执行模块、网络状态参数数据库、专家知识库以及监控计算机相连,根据专家知识库对当前的网络状态参数数据库中网络状态信息进行检测,如果某条网络状态信息满足专家知识库中故障条件,说明当前网络存在故障,则故障检测推理模块将专家知识库给出的故障修复策略发送给网络状态参数获取和策略执行模块,否则,说明存在未知故障需要监控计算机进一步确认,则故障检测推理模块将故障信息发送给监控计算机。
业务层模块向网络状态参数获取和策略执行模块发送故障检测指令,故障检测指令包括OSPF故障检测指令、BGP故障检测指令等各种路由协议检测指令,网络设备运行M种网络协议,则有M中故障检测指令,M为正整数。
网络状态参数数据库存储网络状态信息,在实际应用中采用MySQL数据库,有K个表项,表项内容为<网络状态关键字,网络状态关键字的数值>。K为N个网络设备上运行的所有网络协议的网络状态关键字的总数,网络状态关键字由网络管理员通过CLI向网络设备获取,网络状态关键字的数值则由网络状态参数获取和策略执行模块收集,若网络状态关键字的数值异常,表示网络出现故障。
专家知识库是存贮故障条件和故障修复策略的数据库,故障条件和故障修复策略以产生式规则的形式存贮,这些产生式以树型数据结构进行存储,专家知识库由监控计算机负责初始化以及更新和维护操作。产生式规则的前半部分是故障条件,多个故障条件之间采用逻辑运算符(包括AND即“且”、OR即“或”两种)进行连接,后半部分是对应该故障修复策略(即网络协议配置命令)。故障条件内容为<网络状态关键字,逻辑符号,临界数值>,其中故障条件中的网络状态关键字和网络状态参数数据库中的网络状态关键字相同,逻辑符号包括“>”(大于)、”==”(等于)、“<”(小于)三种,临界数值是判定网络是否故障的依据,当网络状态关键字的数值高于或者低于或者等于临界数值时,网络就可能出现故障。如故障条件为<SPF,>,1000>的含义是OSPF路由协议运行SPF算法次数大于1000,网络存在路由震荡故障。
监控计算机上安装有用户接口模块,用户接口模块与故障检测推理模块、专家知识库相连,负责将从故障检测推理模块接收的判定为未知的故障进行显示,供网络管理员在排除故障过程中进行参考;同时用户接口模块还提供专家知识录入接口供网络管理员录入故障条件和故障修复策略到专家知识库中。
第二步,网络状态参数获取和策略执行模块初始化网络状态参数数据库,将网络状态关键字置为网络设备中运行的各种网络协议描述网络状态的属性,所有网络状态关键字的数值置空,并将故障标志位置0。
第三步,监控计算机对专家知识库进行初始化,将故障条件和故障修复策略以产生式集合的形式进行组织,并将产生式集合(包括多条产生式,一条产生式包含一条故障条件以及对应的修复策略)转化为一个包含故障条件和故障修复策略的树型结构,方法是:
采用树的形式对产生式进行存储,当树节点是根节点时,树节点存储指向子节点的指针;当树节点是非叶子节点也非根节点时(所谓叶子节点是指该节点没有子节点)时,树节点由指针和故障条件组成;当树节点是叶子节点时,树节点由故障修复策略组成;父子(其中子节点不是叶子节点)节点间是“AND”关系,父节点和子节点中的故障条件在产生式规则中是“AND”关系;兄弟节点间是“OR”关系(兄弟节点中的故障条件在产生式规则中是”OR”关系)或者无逻辑关系(兄弟节点中的故障条件不属于同一条产生式规则);产生式集合有L条产生式规则,根节点就有L个子节点,从根节点到叶子节点的路径存储一条产生式规则。L为正整数,采用以上存储方法即可将产生式集合转化为一个包含故障条件和故障修复策略的树型结构。
第四步,业务层模块给网络状态参数获取和策略执行模块发送故障检测指令。
第五步,网络状态参数获取和策略执行模块接收到业务层发来的故障检测指令后,网络状态参数获取和策略执行模块并行地和N个路由器上的Agent代理模块建立通信,根据故障检测指令的不同,采用自适应轮询算法通过南向接口从N个网络设备的Agent代理模块获取不同网络协议的网络状态信息,故障检测推理模块基于网络状态信息进行故障的检测与修复,方法如下:
5.1设置DT=T1,DT是网络状态参数获取和策略执行模块实际采用轮询周期,T1和T2为监控计算机根据经验预先设置的轮询周期下限和上限数值,T1一般设为5分钟,T2一般设为30分钟。
5.2每隔DT时间,网络状态参数获取和策略执行模块将故障检测指令发送给Agent代理模块。
5.3Agent代理模块接收到故障检测命令后,判断是要检测何种协议的故障,通过CLI获取该协议所对应的网络状态信息中的网络状态关键字的数值,并将该协议所对应的网络状态信息中的网络状态关键字的数值发送给网络状态参数获取和策略执行模块。
5.4网络状态参数获取和策略执行模块接收到网络状态信息后,一方面将网络状态信息存储到网络状态参数数据库中,一方面将网络状态信息交给故障检测推理模块。
5.5故障检测推理模块运行故障匹配算法进行故障检测与修复,故障匹配算法采用树的深度优先遍历算法,从根节点开始遍历,方法如下:
5.5.1判断当前树节点是否为叶子节点,如果是,转5.5.3;否则,根据当前树节点中存储的故障条件中的网络状态关键字查找网络状态参数数据库,获得该网络状态关键字的数值,转5.5.2。
5.5.2将获取的网络状态关键字的数值与当前树节点的故障条件中的临界数值进行比较,判断获取的网络状态关键字的数值是否满足当前树节点的故障条件中的逻辑关系。如果满足,说明当前树节点的故障条件满足,则令当前树节点为当前树节点的子节点,转5.5.1,继续深度遍历;否则,说明该条产生式故障条件不满足,需进行其他产生式的故障条件判断,转5.5.6。
5.5.3此时当前树节点为叶子节点,说明网络存在故障,将故障标志位置1,同时故障检测推理模块从该叶子节点中获取修复策略,转5.5.4。
5.5.4故障检测推理模块判断修复策略是否为空,如果不为空,说明该故障是已知故障,故障检测推理模块将修复策略发送给网络状态参数获取和策略执行模块,网络状态参数获取和策略执行模块通过南向接口将故障修复策略发送给Agent代理模块,转5.5.5;否则说明故障为未知故障,则故障检测推理模块将该故障发送给监控计算机,将故障显示出来,以便监控计算机进行分析和录入该故障对应的故障条件和修复策略,转5.5.6。
5.5.5Agent代理模块接收到故障修复策略后,Agent代理模块执行故障修复策略(一系列的网络协议配置命令),完成对网络协议的配置,便可以消除故障,转5.5.6。
5.5.6判断当前树节点的父节点是否还存在未被遍历的子节点,如果存在,令当前树节点为该未被遍历的子节点,转5.5.1,对未被遍历的子节点进行遍历;如果不存在,判定当前树节点的父节点是否为根节点,如果不是,则令当前树节点的父节点为当前树节点的父节点的父节点转5.5.6;如果当前树节点的父节点为根节点,说明整个树遍历结束,转5.6。
5.6网络状态参数获取和策略执行模块判断故障标志位是否为1,如果为1,说明当前网络状态较差,需要经常获取网络状态信息进行检查,因此令DT=T1,同时将故障标志位置0,转5.2;否则,说明网络不存在故障(即当前网络状态良好),将DT加1分钟(下次获取网络状态信息时间间隔延长,因为网络状态良好,不需要经常进行获取网络状态信息进行检测,将DT变大,降低系统开销)转5.7。
5.7如果DT>T2(不能将下次获取网络状态信息的时间间隔无限,)则将DT=T1,转5.2。
与现有技术相比,本发明具有以下技术优点:
1、本发明第五步基于自适应轮询算法获取网络状态信息,减少了网络获取状态信息造成的系统开销,最大可减少50%。
2、本发明第五步基于产生式规则的故障匹配算法,可以实现故障的快速准确检测和自动修复。对已知故障检测的准确率为100%,实验中,对50个路由器组成的的网络规模进行故障恢复的最大时间为5分钟,且最大故障恢复时间随路由器的个数增加而有所增加。
附图说明
图1是本发明总体流程图。
图2是本发明第一步构建的集中与分布相结合的网络系统逻辑结构示意图。
图3是本发明集中与分布式相结合的网络系统上软件框架部署逻辑结构图。
图4是本发明第五步网络状态参数获取和策略执行模块获取网络状态信息及故障检测推理模块进行故障的检测与修复的流程图。
具体实施方法
图1为本发明的总体流程图;本发明包括以下几个步骤:
第一步,构建一个如图2所示的集中与分布相结合的网络系统,它由N个网络设备、一台集中管理服务器以及一台监控计算机构成,它们通过互联网相连。
如图3所示,网络设备主要是路由器,其上部署有Agent代理模块,N个网络设备均与集中管理服务器相连。Agent代理模块负责获取网络状态信息,并对网络协议进行配置。Agent代理模块通过南向接口将网路状态信息送给集中管理服务器。
集中管理服务器除安装业务层模块,还安装有对网络故障进行检测和修复的控制层模块。
控制层模块由网络状态参数获取和策略执行模块、故障检测推理模块、网络状态参数数据库和专家知识库组成。网络状态参数获取和策略执行模块设置一个故障标志位,初始化为0,当故障标志位为1,说明网络当前存在故障,否则不存在故障。网络状态参数获取和策略执行模块接收业务层模块发来的故障检测指令,根据故障检测指令对相应的网络协议进行检测和修复;网络状态参数获取和策略执行模块与N个网络设备的Agent代理模块相连、业务层模块、故障检测推理模块相连;网络状态参数获取和策略执行模块从Agent代理模块获取网络状态信息,将网络状态信息存储到网络状态参数数据库中;网络状态参数获取和策略执行模块从故障检测推理模块接收故障修复策略,执行故障修复策略进行修复,执行完故障修复策略后,将网络状态参数数据库中与该故障相对应的网络状态信息删除;网络故障检测推理模块与网络状态参数获取和策略执行模块、网络状态参数数据库、专家知识库以及监控计算机相连,根据专家知识库对当前的网络状态参数数据库中网络状态信息进行检测,如果某条网络状态信息满足专家知识库中故障条件,说明当前网络存在故障,则故障检测推理模块将专家知识库给出的故障修复策略发送给网络状态参数获取和策略执行模块,否则,说明存在未知故障需要监控计算机进一步确认,则故障检测推理模块将故障信息发送给监控计算机。
业务层模块向网络状态参数获取和策略执行模块发送故障检测指令,故障检测指令包括OSPF故障检测指令、BGP故障检测指令等各种路由协议检测指令,网络设备运行M种网络协议,则有M中故障检测指令,M为正整数。
网络状态参数数据库存储网络状态信息,在实际应用中采用MySQL数据库有K个表项,表项内容为<网络状态关键字,网络状态关键字的数值>。K为N个网络设备上运行的所有网络协议的网络状态关键字的总数,网络状态关键字由网络管理员通过CLI向网络设备获取,网络状态关键字的数值则由网络状态参数获取和策略执行模块收集,若网络状态关键字的数值异常,表示网络出现故障。。
专家知识库是存贮故障条件和故障修复策略的数据库,故障条件和故障修复策略以产生式规则的形式存贮,这些产生式以树型数据结构进行存储,专家知识库由监控计算机负责初始化以及更新和维护操作。产生式规则的前半部分是故障条件,多个故障条件之间采用逻辑运算符(包括AND即“且”、OR即“或”两种)进行连接,后半部分是对应该故障修复策略(即网络协议配置命令)。故障条件内容为<网络状态关键字,逻辑符号,临界数值>,其中故障条件中的网络关键字和网络状态参数数据库中的网络关键字相同,逻辑符号包括“>”(大于)、”==”(等于)、“<”(小于)三种,临界数值是判定网络是否故障的依据,当网络关键字的数值高于或者低于或者等于临界数值时,网络就可能出现故障。
监控计算机上安装有用户接口模块,用户接口模块与故障检测推理模块、专家知识库相连,负责将从故障检测推理模块接收的判定为未知的故障进行显示,供网络管理员在排除故障过程中进行参考;同时用户接口模块还提供专家知识录入接口供网络管理员录入故障条件和故障修复策略到专家知识库中。
第二步,网络状态参数获取和策略执行模块初始化网络状态参数数据库,将网络状态关键字置为网络设备中运行的各种网络协议描述网络状态的属性,所有网络状态关键字的数值置空,并将故障标志位置0。
第三步,监控计算机对专家知识库进行初始化,将故障条件和故障修复策略以产生式集合的形式进行组织,并将产生式集合以树型数据结构进行存储。
第四步,业务层模块给网络状态参数获取和策略执行模块发送故障检测指令。
第五步,网络状态参数获取和策略执行模块接收到业务层发来的故障检测指令后,网络状态参数获取和策略执行模块并行地和N个路由器上的Agent代理模块建立通信,根据故障检测指令的不同,采用自适应轮询算法通过南向接口从N个网络设备的Agent代理模块获取不同网络协议的网络状态信息,故障检测推理模块基于网络状态信息进行故障的检测与修复,方法如图4所示:
5.1设置DT=T1,DT是网络状态参数获取和策略执行模块实际采用轮询周期,T1和T2为监控计算机根据经验预先设置的轮询周期下限和上限数值,T1一般设为5分钟,T2一般设为30分钟。
5.2每隔DT时间,网络状态参数获取和策略执行模块将故障检测指令发送给Agent代理模块。
5.3Agent代理模块接收到故障检测命令后,判断是要检测何种协议的故障,通过CLI获取该协议所对应的网络状态信息中的网络状态关键字的数值,并将该协议所对应的网络状态信息中的网络状态关键字的数值发送给网络状态参数获取和策略执行模块。
5.4网络状态参数获取和策略执行模块接收到网络状态信息后,一方面将网络状态信息存储到网络状态参数数据库中,一方面将网络状态信息交给故障检测推理模块。
5.5故障检测推理模块运行故障匹配算法进行故障检测与修复,故障匹配算法采用树的深度优先遍历算法,从根节点开始遍历,方法如下:
5.5.1判断当前树节点是否为叶子节点,如果是,转5.5.3;否则,根据当前树节点中存储的故障条件中的网络状态关键字查找网络状态参数数据库,获得该网络状态关键字的数值,转5.5.2。
5.5.2将获取的网络状态关键字的数值与当前树节点的故障条件中的临界数值进行比较,判断获取的网络状态关键字的数值是否满足当前树节点的故障条件中的逻辑关系。如果满足,说明当前树节点的故障条件满足,则令当前树节点为当前树节点的子节点,转5.5.1,继续深度遍历;否则,说明该条产生式故障条件不满足,需进行其他产生式的故障条件判断,转5.5.6。
5.5.3此时当前树节点为叶子节点,说明网络存在故障,将故障标志位置1,同时故障检测推理模块从该叶子节点中获取修复策略,转5.5.4。
5.5.4故障检测推理模块判断修复策略是否为空,如果不为空,说明该故障是已知故障,故障检测推理模块将修复策略发送给网络状态参数获取和策略执行模块,网络状态参数获取和策略执行模块通过南向接口将故障修复策略发送给Agent代理模块,转5.5.5;否则说明故障为未知故障,则故障检测推理模块将该故障发送给监控计算机,将故障显示出来,以便监控计算机进行分析和录入该故障对应的故障条件和修复策略,转5.5.6。
5.5.5Agent代理模块接收到故障修复策略后,Agent代理模块执行故障修复策略(一系列的网络协议配置命令),完成对网络协议的配置,便可以消除故障,转5.5.6。
5.5.6判断当前树节点的父节点是否还存在未被遍历的子节点,如果存在,令当前树节点为该未被遍历的子节点,转5.5.1,对未被遍历的子节点进行遍历;如果不存在,判定当前树节点的父节点是否为根节点,如果不是,则令当前树节点的父节点为当前树节点的父节点的父节点转5.5.6;如果当前树节点的父节点为根节点,说明整个树遍历结束,转5.6。
5.6网络状态参数获取和策略执行模块判断故障标志位是否为1,如果为1,说明当前网络状态较差,需要经常获取网络状态信息进行检查,因此令DT=T1,同时将故障标志位置0,转5.2;否则,说明网络不存在故障(即当前网络状态良好),将DT加1分钟(下次获取网络状态信息时间间隔延长,因为网络状态良好,不需要经常进行获取网络状态信息进行检测,将DT变大,降低系统开销)转5.7。
5.7如果DT>T2(不能将下次获取网络状态信息的时间间隔无限,)则将DT=T1,转5.2。

Claims (6)

1.一种基于SDN架构的网络故障检测与修复方法,其特征在于包括以下步骤:
第一步,构建一个集中与分布相结合的网络系统,它由N个网络设备、一台集中管理服务器以及一台监控计算机构成,它们通过互联网相连;
网络设备上部署有Agent代理模块,N个网络设备均与集中管理服务器相连;Agent代理模块负责获取网络状态信息并对网络协议进行配置,Agent代理模块通过南向接口将网路状态信息送给集中管理服务器,网络状态信息指网络设备的状态信息,包括路由协议的网络状态信息,网络状态信息包括网络状态关键字和网络状态关键字的数值,网络状态关键字指网络设备运行的各种网络协议中描述网络状态的属性;网络状态关键字的数值指网络协议运行时网络状态关键字对应的数值;
集中管理服务器除安装业务层模块,还安装有对网络故障进行检测和修复的控制层模块;
控制层模块由网络状态参数获取和策略执行模块、故障检测推理模块、网络状态参数数据库和专家知识库组成;网络状态参数获取和策略执行模块设置一个故障标志位,初始化为0,当故障标志位为1,说明网络当前存在故障,否则不存在故障;网络状态参数获取和策略执行模块接收业务层模块发来的故障检测指令,根据故障检测指令对相应的网络协议进行检测和修复;网络状态参数获取和策略执行模块与N个网络设备的Agent代理模块相连、业务层模块、故障检测推理模块相连;网络状态参数获取和策略执行模块从Agent代理模块获取网络状态信息,将网络状态信息存储到网络状态参数数据库中;网络状态参数获取和策略执行模块从故障检测推理模块接收故障修复策略,执行故障修复策略进行修复,执行完故障修复策略后,将网络状态参数数据库中与该故障相对应的网络状态信息删除;网络故障检测推理模块与网络状态参数获取和策略执行模块、网络状态参数数据库、专家知识库以及监控计算机相连,根据专家知识库对当前的网络状态参数数据库中网络状态信息进行检测,如果某条网络状态信息满足专家知识库中故障条件,说明当前网络存在故障,则故障检测推理模块将专家知识库给出的故障修复策略发送给网络状态参数获取和策略执行模块,否则,说明存在未知故障需要监控计算机进一步确认,则故障检测推理模块将故障信息发送给监控计算机;
业务层模块向网络状态参数获取和策略执行模块发送故障检测指令;
网络状态参数数据库存储网络状态信息,有K个表项,表项内容为<网络状态关键字,网络状态关键字的数值>,K为N个网络设备上运行的所有网络协议的网络状态关键字的总数,网络状态关键字通过命令行CLI即Client Line Interface向网络设备获取,网络状态关键字的数值则由网络状态参数获取和策略执行模块收集,若网络状态关键字的数值异常,表示网络出现故障;
专家知识库是存贮故障条件和故障修复策略的数据库,故障条件和故障修复策略以产生式规则的形式存贮,这些产生式以树型数据结构进行存储,专家知识库由监控计算机负责初始化以及更新和维护操作;产生式规则的前半部分是故障条件,多个故障条件之间采用逻辑运算符进行连接,后半部分是对应该故障的修复策略即网络协议配置命令,逻辑运算符包括AND即“且”、OR即“或”两种;故障条件内容为<网络状态关键字,逻辑符号,临界数值>,逻辑符号包括“>”(大于)、”==”(等于)、“<”(小于)三种,临界数值是判定网络是否故障的依据,当网络状态关键字的数值高于或者低于或者等于临界数值时,网络就可能出现故障;
监控计算机上安装有用户接口模块,用户接口模块与故障检测推理模块、专家知识库相连,负责将从故障检测推理模块接收的判定为未知的故障进行显示,供网络管理员在排除故障过程中进行参考;同时用户接口模块还提供专家知识录入接口供网络管理员录入故障条件和故障修复策略到专家知识库中;
第二步,网络状态参数获取和策略执行模块初始化网络状态参数数据库,将网络状态关键字置为网络设备中运行的各种网络协议描述网络状态的属性,所有网络状态关键字的数值置空,并将故障标志位置0;
第三步,监控计算机对专家知识库进行初始化,将故障条件和故障修复策略以产生式集合的形式进行组织,并将产生式集合转化为一个包含故障条件和故障修复策略的树型结构;
第四步,业务层模块给网络状态参数获取和策略执行模块发送故障检测指令;
第五步,网络状态参数获取和策略执行模块接收到业务层发来的故障检测指令后,网络状态参数获取和策略执行模块并行地和N个路由器上的Agent代理模块建立通信,根据故障检测指令的不同,采用自适应轮询算法通过南向接口从N个网络设备的Agent代理模块获取不同网络协议的网络状态信息,故障检测推理模块基于网络状态信息进行故障的检测与修复,方法如下:
5.1设置DT=T1,DT是网络状态参数获取和策略执行模块实际采用轮询周期,T1和T2为监控计算机根据经验预先设置的轮询周期下限和上限数值;
5.2每隔DT时间,网络状态参数获取和策略执行模块将故障检测指令发送给Agent代理模块;
5.3Agent代理模块接收到故障检测命令后,判断是要检测何种协议的故障,通过CLI获取该协议所对应的网络状态信息中的网络状态关键字的数值,并将该协议所对应的网络状态信息中的网络状态关键字的数值发送给网络状态参数获取和策略执行模块;
5.4网络状态参数获取和策略执行模块接收到网络状态信息后,一方面将网络状态信息存储到网络状态参数数据库中,一方面将网络状态信息交给故障检测推理模块;
5.5故障检测推理模块运行故障匹配算法进行故障检测与修复,故障匹配算法采用树的深度优先遍历算法,从根节点开始遍历,方法如下:
5.5.1判断当前树节点是否为叶子节点,如果是,转5.5.3;否则,根据当前树节点中存储的故障条件中的网络状态关键字查找网络状态参数数据库,获得该网络状态关键字的数值,转5.5.2;
5.5.2将获取的网络状态关键字的数值与当前树节点的故障条件中的临界数值进行比较,判断获取的网络状态关键字的数值是否满足当前树节点的故障条件中的逻辑关系;如果满足,说明当前树节点的故障条件满足,则令当前树节点为当前树节点的子节点,转5.5.1,继续深度遍历;否则,说明该条产生式故障条件不满足,需进行其他产生式的故障条件判断,转5.5.6;
5.5.3此时当前树节点为叶子节点,说明网络存在故障,将故障标志位置1,同时故障检测推理模块从该叶子节点中获取修复策略,转5.5.4;
5.5.4故障检测推理模块判断修复策略是否为空,如果不为空,说明该故障是已知故障,故障检测推理模块将修复策略发送给网络状态参数获取和策略执行模块,网络状态参数获取和策略执行模块通过南向接口将故障修复策略发送给Agent代理模块,转5.5.5;否则说明故障为未知故障,则故障检测推理模块将该故障发送给监控计算机,将故障显示出来,转5.5.6;
5.5.5Agent代理模块接收到故障修复策略后,Agent代理模块执行故障修复策略,完成对网络协议的配置以消除故障,转5.5.6;
5.5.6判断当前树节点的父节点是否还存在未被遍历的子节点,如果存在,令当前树节点为该未被遍历的子节点,转5.5.1,对未被遍历的子节点进行遍历;如果不存在,判定当前树节点的父节点是否为根节点,如果不是,则令当前树节点的父节点为当前树节点的父节点的父节点转5.5.6;如果当前树节点的父节点为根节点,说明整个树遍历结束,转5.6;
5.6网络状态参数获取和策略执行模块判断故障标志位是否为1,如果为1,令DT=T1,同时将故障标志位置0,转5.2;否则,将DT加1分钟,转5.7;
5.7如果DT>T2,则将DT=T1,转5.2。
2.如权利要求1所述的基于SDN架构的网络故障检测与修复方法,其特征在于所述南向接口指命令行CLI、简单网络管理协议SNMP、网络配置协议NETCONF。
3.如权利要求1所述的基于SDN架构的网络故障检测与修复方法,其特征在于所述故障检测指令包括网络设备运行的所有网络协议的故障检测指令,网络设备运行M种网络协议,则有M中故障检测指令,M为正整数。
4.如权利要求1所述的基于SDN架构的网络故障检测与修复方法,其特征在于所述网络状态参数数据库采用MySQL数据库。
5.如权利要求1所述的基于SDN架构的网络故障检测与修复方法,其特征在于第三步所述将产生式集合转化为一个包含故障条件和故障修复策略的树型结构的方法是:当树节点是根节点时,树节点存储指向子节点的指针;当树节点是非叶子节点也非根节点时时,树节点由指针和故障条件组成;当树节点是叶子节点时,树节点由故障修复策略组成;当父子的子节点不是叶子节点时,父子节点间是“AND”关系,父节点和子节点中的故障条件在产生式规则中是“AND”关系;兄弟节点间是“OR”关系即兄弟节点中的故障条件在产生式规则中是”OR”关系,或者无逻辑关系即兄弟节点中的故障条件不属于同一条产生式规则;产生式集合有L条产生式规则,根节点就有L个子节点,从根节点到叶子节点的路径存储一条产生式规则,L为正整数。
6.如权利要求1所述的基于SDN架构的网络故障检测与修复方法,其特征在于第五步所述T1设为5分钟,T2设为30分钟。
CN201710135628.6A 2017-03-08 2017-03-08 基于sdn架构的网络故障检测与修复方法 Active CN106992877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710135628.6A CN106992877B (zh) 2017-03-08 2017-03-08 基于sdn架构的网络故障检测与修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710135628.6A CN106992877B (zh) 2017-03-08 2017-03-08 基于sdn架构的网络故障检测与修复方法

Publications (2)

Publication Number Publication Date
CN106992877A true CN106992877A (zh) 2017-07-28
CN106992877B CN106992877B (zh) 2019-07-09

Family

ID=59411566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710135628.6A Active CN106992877B (zh) 2017-03-08 2017-03-08 基于sdn架构的网络故障检测与修复方法

Country Status (1)

Country Link
CN (1) CN106992877B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108306791A (zh) * 2018-02-01 2018-07-20 上海鑫鼎信息科技有限公司 小型机维保云计算服务系统
CN108366068A (zh) * 2018-02-26 2018-08-03 浙江大学 一种软件定义网络下基于策略语言的云端网络资源管理控制系统
CN108710545A (zh) * 2018-03-23 2018-10-26 上海精鲲计算机科技有限公司 一种远程监控故障自愈系统
CN108983751A (zh) * 2018-07-25 2018-12-11 深圳市元征科技股份有限公司 诊断接头异常处理的方法以及服务器
CN109657373A (zh) * 2018-12-25 2019-04-19 佛山科学技术学院 一种多Agent的故障检测方法及装置
CN110708207A (zh) * 2018-12-24 2020-01-17 新华三技术有限公司 路由震荡定位方法、服务器及机器可读存储介质
CN110932878A (zh) * 2018-09-20 2020-03-27 中国移动通信有限公司研究院 一种分布式网络的管理方法、设备及系统
CN111147818A (zh) * 2019-12-29 2020-05-12 航天信息股份有限公司 一种粮库视频监控方法和系统
CN111835641A (zh) * 2019-04-16 2020-10-27 北京华为数字技术有限公司 故障检测方法、服务器以及采集设备
CN112231523A (zh) * 2020-10-20 2021-01-15 广州知图科技有限公司 一种基于有向无环图的网络故障定位排查方法及系统
CN113645085A (zh) * 2021-10-15 2021-11-12 苏州浪潮智能科技有限公司 智能网卡的异常检测方法、装置、电子设备及存储介质
CN113848843A (zh) * 2021-10-21 2021-12-28 万洲电气股份有限公司 一种基于智能优化节能系统的自诊断分析系统
CN114338368A (zh) * 2021-12-30 2022-04-12 南京中孚信息技术有限公司 基于单向导入设备的网络监管方法、设备及介质
CN114650211A (zh) * 2022-03-07 2022-06-21 惠州Tcl移动通信有限公司 故障修复方法、装置、电子设备和计算机可读存储介质
CN114928529A (zh) * 2022-07-22 2022-08-19 广州市盛望信息科技有限公司 一种信息系统及信息系统故障检测方法
CN115134212A (zh) * 2022-06-29 2022-09-30 中国工商银行股份有限公司 策略推送方法、装置、计算机设备和存储介质
CN115865791A (zh) * 2023-03-02 2023-03-28 北京天弛网络有限公司 骨干网络故障的路径切换方法、系统、介质及电子设备
CN116757679A (zh) * 2023-08-11 2023-09-15 南方电网调峰调频发电有限公司检修试验分公司 检修策略的确定方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101022366A (zh) * 2007-03-21 2007-08-22 Ut斯达康通讯有限公司 一种故障关联分析系统以及方法
CN101789899A (zh) * 2009-12-21 2010-07-28 中兴通讯股份有限公司 一种网络服务质量分析方法及系统
US20150188772A1 (en) * 2013-12-27 2015-07-02 Iosif Gasparakis Hybrid sdn controller
CN105634817A (zh) * 2016-01-08 2016-06-01 广州西麦科技股份有限公司 一种基于sdn的网络故障自动检测的系统及方法
CN105790980A (zh) * 2014-12-22 2016-07-20 中兴通讯股份有限公司 一种故障修复方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101022366A (zh) * 2007-03-21 2007-08-22 Ut斯达康通讯有限公司 一种故障关联分析系统以及方法
CN101789899A (zh) * 2009-12-21 2010-07-28 中兴通讯股份有限公司 一种网络服务质量分析方法及系统
US20150188772A1 (en) * 2013-12-27 2015-07-02 Iosif Gasparakis Hybrid sdn controller
CN105790980A (zh) * 2014-12-22 2016-07-20 中兴通讯股份有限公司 一种故障修复方法及装置
CN105634817A (zh) * 2016-01-08 2016-06-01 广州西麦科技股份有限公司 一种基于sdn的网络故障自动检测的系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨晨等: "《基于REST-API的SDN控制器故障恢复机制》", 《计算机工程》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108306791A (zh) * 2018-02-01 2018-07-20 上海鑫鼎信息科技有限公司 小型机维保云计算服务系统
CN108366068A (zh) * 2018-02-26 2018-08-03 浙江大学 一种软件定义网络下基于策略语言的云端网络资源管理控制系统
CN108366068B (zh) * 2018-02-26 2020-10-13 浙江大学 一种软件定义网络下基于策略语言的云端网络资源管理控制系统
CN108710545A (zh) * 2018-03-23 2018-10-26 上海精鲲计算机科技有限公司 一种远程监控故障自愈系统
CN108710545B (zh) * 2018-03-23 2021-04-02 上海精鲲计算机科技有限公司 一种远程监控故障自愈系统
CN108983751A (zh) * 2018-07-25 2018-12-11 深圳市元征科技股份有限公司 诊断接头异常处理的方法以及服务器
CN110932878A (zh) * 2018-09-20 2020-03-27 中国移动通信有限公司研究院 一种分布式网络的管理方法、设备及系统
WO2020135445A1 (zh) * 2018-12-24 2020-07-02 新华三技术有限公司 对路由震荡的定位
CN110708207A (zh) * 2018-12-24 2020-01-17 新华三技术有限公司 路由震荡定位方法、服务器及机器可读存储介质
CN110708207B (zh) * 2018-12-24 2021-10-29 新华三技术有限公司 路由震荡定位方法、服务器及机器可读存储介质
CN109657373B (zh) * 2018-12-25 2023-06-02 佛山科学技术学院 一种多Agent的故障检测方法及装置
CN109657373A (zh) * 2018-12-25 2019-04-19 佛山科学技术学院 一种多Agent的故障检测方法及装置
CN111835641A (zh) * 2019-04-16 2020-10-27 北京华为数字技术有限公司 故障检测方法、服务器以及采集设备
CN111147818A (zh) * 2019-12-29 2020-05-12 航天信息股份有限公司 一种粮库视频监控方法和系统
CN112231523A (zh) * 2020-10-20 2021-01-15 广州知图科技有限公司 一种基于有向无环图的网络故障定位排查方法及系统
CN112231523B (zh) * 2020-10-20 2024-01-16 广州知图科技有限公司 一种基于有向无环图的网络故障定位排查方法及系统
CN113645085A (zh) * 2021-10-15 2021-11-12 苏州浪潮智能科技有限公司 智能网卡的异常检测方法、装置、电子设备及存储介质
CN113848843A (zh) * 2021-10-21 2021-12-28 万洲电气股份有限公司 一种基于智能优化节能系统的自诊断分析系统
CN114338368A (zh) * 2021-12-30 2022-04-12 南京中孚信息技术有限公司 基于单向导入设备的网络监管方法、设备及介质
CN114650211A (zh) * 2022-03-07 2022-06-21 惠州Tcl移动通信有限公司 故障修复方法、装置、电子设备和计算机可读存储介质
CN114650211B (zh) * 2022-03-07 2024-04-09 惠州Tcl移动通信有限公司 故障修复方法、装置、电子设备和计算机可读存储介质
CN115134212A (zh) * 2022-06-29 2022-09-30 中国工商银行股份有限公司 策略推送方法、装置、计算机设备和存储介质
CN115134212B (zh) * 2022-06-29 2024-04-19 中国工商银行股份有限公司 策略推送方法、装置、计算机设备和存储介质
CN114928529A (zh) * 2022-07-22 2022-08-19 广州市盛望信息科技有限公司 一种信息系统及信息系统故障检测方法
CN115865791A (zh) * 2023-03-02 2023-03-28 北京天弛网络有限公司 骨干网络故障的路径切换方法、系统、介质及电子设备
CN116757679A (zh) * 2023-08-11 2023-09-15 南方电网调峰调频发电有限公司检修试验分公司 检修策略的确定方法、装置、电子设备及存储介质
CN116757679B (zh) * 2023-08-11 2024-02-06 南方电网调峰调频发电有限公司检修试验分公司 检修策略的确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN106992877B (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN106992877A (zh) 基于sdn架构的网络故障检测与修复方法
CN109787817B (zh) 网络故障诊断方法、装置和计算机可读存储介质
CN111047082B (zh) 设备的预警方法及装置、存储介质和电子装置
US7043661B2 (en) Topology-based reasoning apparatus for root-cause analysis of network faults
CN109501834A (zh) 一种道岔转辙机故障预测方法及装置
WO2020198256A1 (en) Systems and methods for detecting and predicting faults in an industrial process automation system
US11348023B2 (en) Identifying locations and causes of network faults
CN107346466A (zh) 一种电力调度系统的控制方法及装置
CN112564964B (zh) 一种基于软件定义网络的故障链路检测与恢复方法
CN107046481A (zh) 一种信息系统综合网管系统综合分析平台
CN101634851B (zh) 基于变量因果影响关系的流程工业故障诊断方法
CN112910089A (zh) 一种变电站二次设备故障逻辑可视化方法及系统
CN105740140A (zh) 软件系统故障诊断方法、服务器及系统
CN104657913A (zh) 一种基于全数据模型的智能告警系统
CN116345696B (zh) 一种基于全域监测的异常信息分析管理系统及方法
CN107210927A (zh) 协议处理中的异常检测
CN113762604B (zh) 一种工业互联网大数据服务系统
CN106506226B (zh) 一种故障检测的启动方法及装置
CN105187239A (zh) 基于数据挖掘的通信告警分析系统及其处理方法
CN113484693B (zh) 基于图神经网络的变电站二次回路故障定位方法及系统
CN104914328B (zh) 一种变电站在线监测装置故障自动诊断方法
CN110071843A (zh) 一种基于流路径分析的故障定位方法及装置
Rafique et al. TSDN-enabled network assurance: A cognitive fault detection architecture
CN108053113A (zh) 一种配电自动化故障智能识别与定位系统的设计方法
CN107896165A (zh) 定位网络故障的方法、装置和自动化测试设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant