CN116436770A - 基于混合带内网络遥测的灰色故障检测定位方法及系统 - Google Patents
基于混合带内网络遥测的灰色故障检测定位方法及系统 Download PDFInfo
- Publication number
- CN116436770A CN116436770A CN202310443248.4A CN202310443248A CN116436770A CN 116436770 A CN116436770 A CN 116436770A CN 202310443248 A CN202310443248 A CN 202310443248A CN 116436770 A CN116436770 A CN 116436770A
- Authority
- CN
- China
- Prior art keywords
- fault
- source
- detection
- path
- priority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 159
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000032683 aging Effects 0.000 claims description 22
- 230000004807 localization Effects 0.000 claims description 17
- 239000000523 sample Substances 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000007547 defect Effects 0.000 abstract description 4
- 238000005259 measurement Methods 0.000 description 37
- 230000007246 mechanism Effects 0.000 description 12
- 238000013461 design Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008713 feedback mechanism Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000033999 Device damage Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提出基于混合带内网络遥测的灰色故障检测定位方法及系统,涉及故障检测领域。包括:服务器收集被动INT探测包的逐跳遥测信息,对是否存在故障进行一次检测,向虚拟SDN网络的控制器发送存在故障路径的二次检测指令;控制器向服务器发送主动INT探测包,对一次检测中存在故障的路径进行二次检测;源服务器重新路由真正存在故障的路径信息的数据流量;控制器为所有真正存在故障的路径信息设置优先级,根据优先级进行路径之间的比较,得到故障位置;控制器将故障位置反馈给服务器,服务器查找所有与故障位置相关的路径并提前老化。本发明将主动带内网络遥测和被动带内网络遥测进行整合,弥补单一遥测方法的不足,提高网络遥测的效率和可靠性。
Description
技术领域
本发明属于网络故障检测技术领域,尤其涉及基于混合带内网络遥测的灰色故障检测定位方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
数据中心(DC)是5G、人工智能、云计算等新一代信息通信技术的重要载体。它应用在生产和生活的许多方面,具有很大的研究价值。通过不断的融合和改造,传统数据中心正逐步向超大规模数据中心转型。数据中心网络(DCN)是指专门设计的网络,用于互连数据中心内的大量计算和存储节点。数据中心网络为数据中心承载的多种服务提供支持,如Web服务、传播、高性能计算、数据分析和数据存储等,这就要求数据中心网络具有可扩展性、高效性和可靠性。然而,硬件、软件和人为错误导致的网络故障是不可避免的,需要持续监控和快速故障检测、定位和恢复。
网络故障通常是指由于硬件问题、软件漏洞、病毒入侵等原因导致网络无法提供正常服务或降低服务质量的状态。一般来说,网络故障可以分为两类。第一类网络故障是显式故障,是由架构网络的设备引起的,主要包括网卡、网线、路由器、交换机、调制解调器等。显式故障通常伴随着明显的表现,如硬件设备损坏、链路异常断开等。通过一些简单的方法,如PING命令和Tracert命令,专业人员可以很容易地在损害扩大之前发现并处理这种故障。显式故障破坏性大,但存在时间短,易于处理,能造成的损害非常有限。
然而,另一类称为灰色故障的故障更为复杂且危害更大。灰色故障被定义为微分可观察性的一种形式。更准确地说,当至少一个应用程序观察到系统不健康,但观察者观察到系统健康时,系统被定义为正在经历灰色故障。灰色故障一般不易察觉,可能长期存在。此外,人工检测和定位故障点难度大、耗时长,在故障处理期间可能对数据中心网络造成较大危害。因此,为了最大限度地减少灰色故障带来的不利影响,建立快速可靠的灰色故障检测和定位机制非常重要。
网络测量是实现网络感知和网络管控的关键性技术。全面、系统、高效的网络测量深刻影响了未来网络运行效率。传统的网络测量根据测量方式的不同可以分为主动测量、被动测量和混合测量。主动测量根据具体的测量需要向待测网络主动发送探测包,由于受到网络内部因素的影响,探测包会发生一系列的特性变化,通过对这些变化做出分析进而得到网络的状态信息和性能参数。被动测量在网络中的关键设备和节点处对数据包进行获取、记录和分析,从而得到网络状态和性能参数。相较于主动测量,由于被动测量没有向网络注入额外的探测数据包,所以对网络产生的影响较小,测量结果也更为精准。但是由于测量只在关键设备和节点处部署,被动测量只能获取网络局部的状态信息,无法感知网络全局。除此之外,实际应用效果还受到网络设备性能和网络带宽的限制,这可能会造成一定程度的测量精度损失。
混合测量通过将主动测量和被动测量进行科学整合,合理的灵活利用二者的优点进行更加高效、准确的网络测量。传统的网络测量方法由于部署简单,在网络管理领域得到了广泛的应用。但随着网络规模日益扩大,流量激增,传统网络测量技术呈现出测量算法精度低、测量语言通用性差和测量任务配置智能化程度低等多种问题,无法适应未来网络的要求。软件定义网络的出现和发展,使得对网络进行细粒度的网络测量和精细化的网络管理成为可能。作为一种新兴网络架构,SDN将控制功能和转发功能解耦,通过控制器对网络行为进行高效的统一管理,将网络底层逻辑透明化,简化网络测量逻辑复杂性,同时由交换机完成对网络测量数据的采集工作,从而实现高效可靠的测量。然而额外部署测量机制可能会占用网络中有限的资源,而且中心化的控制平面也存在着的性能瓶颈。
与传统的测量解决方案和软件定义的网络测量解决方案相比,网络遥测被认为是一种理想且有效的测量替代方案,它提供了更好的准确性、可扩展性和性能。带内网络遥测技术作为网络遥测的一个典型应用,受到学术界和工业界的广泛关注。带内网络遥测(INT)是由可编程数据平面(PDP)驱动的新兴网络遥测框架。INT将报文转发与网络测量相结合。数据包将包含遥测指令,这些指令将由可编程网络元件处理和执行。因此,网络元件不仅转发数据包,还参与网络测量任务。当携带遥测指令的数据包通过设备时,遥测指令向INT设备指示收集什么网络信息并将其插入数据包中。因此,INT是一种获取网络状态信息的有效方式,可以为网络运营、管理和维护(OAM)提供准确的实时数据。
发明人发现,目前,INT可分为主动和被动两大类。主动带内网络遥测通过构造INT探测数据包来承载逐跳遥测数据。因此,它的重点是设计高效的路径规划算法。被动带内网络遥测依赖业务流来携带逐跳遥测信息。因此,它的重点通常是设计高效的任务编排算法。主动带内网络遥测具有探测路径构建灵活但带宽开销大的特点。被动带内网络遥测具有带宽开销小的特点,但受业务流量潮汐分布的影响。
由于INT具有灵活的可编程性、实时监控、高信噪比和逐流网络感知等特点,使得它非常适合用于故障检测等工作中。然而,只有极少数的研究工作探讨了带内网络遥测在灰色故障检测定位方面的应用,由于大多采用的都是主动带内网络遥测的方法,这导致大量带宽资源被占用,而且都存在系统复杂、资源消耗大和检测不够及时等问题。
发明内容
为克服上述现有技术的不足,本发明提供了基于混合带内网络遥测的灰色故障检测定位方法及系统,将主动带内网络遥测和被动带内网络遥测进行有效整合并应用到灰色故障的检测和定位中,设计了一个高效、完整的基于混合带内网络遥测的灰色故障检测和定位方法,弥补单一遥测方法的不足,进一步提高网络遥测的效率和可靠性,能够快速检测设备和链路故障并做出响应。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
本发明第一方面提供了基于混合带内网络遥测的灰色故障检测定位方法。
基于混合带内网络遥测的灰色故障检测定位方法,包括以下步骤:
步骤一:服务器收集被动INT探测包携带的逐跳遥测信息,获取源和目标之间所有可行的路径信息,对路径信息中是否存在故障进行一次检测,若检测结果为存在故障,则向虚拟SDN网络的控制器发送存在故障路径的二次检测指令;
步骤二:控制器接收二次检测指令,向服务器发送主动INT探测包,服务器转发主动INT探测包,对一次检测中存在故障的路径进行二次检测,确认是否真正存在故障,并将真正存在故障的路径信息发送至控制器;
步骤三:控制器向真正存在故障的路径信息的源服务器发送真正存在故障的路径信息,由源服务器重新路由真正存在故障的路径信息的数据流量;
步骤四:分布式服务器中的所有服务器均执行上述步骤一至步骤三,将网络中所有真正存在故障的路径信息均上传到控制器;
步骤五:控制器为所有真正存在故障的路径信息设置优先级,根据优先级进行路径之间的比较,得到故障位置;
步骤六:控制器将故障位置反馈给服务器,服务器查找所有与故障位置相关的路径并提前老化。
优选的,服务器收集被动INT探测包携带的逐跳遥测信息,获取源和目标之间所有可行的路径信息,对路径信息中是否存在故障进行一次检测,具体为:
在服务器上设置一个本地路径信息表,路径信息表中记录每个路径条目的老化时间和二次检测时间;
服务器接收到遥测信息后,将从遥测信息中提取的路径信息添加到本地路径信息表中,或者更新具有相同路径的路径表项的老化时间;
当一条路径条目的老化时间为0时,从这条路径条目从路径信息表中删除;
当路径信息表中路径条目的二次检测时间为0时,判断出现故障。
优选的,所述遥测信息包括被动INT探测包和主动INT探测包所经过的交换机的标识、进入交换机的入口端口ID和离开交换机的出口端口ID。
优选的,老化时间和二次检测时间应遵循以下约束:
agetime≥stdtime+prtime.
其中,prtime是指在二次检测过程中,INT包从发送方传输到接收方所需的时间;agetime为老化时间;stdtime为二次检测时间。
优选的,服务器转发主动INT探测包,对一次检测中存在故障的路径进行二次检测,确认是否真正存在故障,具体为:
设定源A在路径P上发送一个主动INT探测包至目的B,对路径P进行二次检测,则:
如果目的B在老化时间为0之前收到源A发送的主动INT探测包,目的B会更新路径条目P的老化时间,表示路径P没有故障;
如果目标B在P的老化时间为0之前没有收到源A发送的主动INT探测包,表示路径P确实存在故障。
优选的,控制器为所有真正存在故障的路径信息设置优先级,根据优先级进行路径之间的比较,得到故障位置,具体为:
步骤一:控制器从每条路径表项中获取源和目的在数据中心网络中的位置,并为源和目的分别设置优先级属性,分别定义为Source(Pod,Tor,Server,Priority)和Destination(Pod,Tor,Server,Priority);
步骤二:当控制器接收到第一个故障路径信息No.1时,以No.1为基准,分别将No.1的源/目的位置与No.i的源/目的位置进行比较;
步骤三:根据优先级设置规则,为No.i设置相应的优先级;
步骤四:根据优先级进行路径条目之间的比较,优先级高的优先进行比较,得到故障位置。
优选的,优先级的设置规则为:
(1)、如果No.i的Source与No.1的Source相比具有不同的pod,则No.i的Source的优先级为1;
否则,如果No.i的Source与No.1的Source相比具有相同的pod,则No.i的Source的优先级基于以下情况进行设置:
1)、No.i的Source与No.1的Source相比具有相同的tor且相同的server,则No.i的Source的优先级为4;
2)、No.i的Source与No.1的Source相比具有相同的tor,但server不同,则No.i的Source的源优先级为3;
3)、No.i的Source与No.1的Source相比具有不同的tor,则No.i的Source的优先级为2;
(2)、如果No.i的Destination与No.1的Destination相比具有不同的pod,则No.i的Destination的优先级为1;
否则,如果No.i的Destination与No.1的Destination相比具有相同的pod,则No.i的Destination的优先级基于以下情况进行设置:
1)、No.i的Destination与No.1的Destination相比具有相同的tor且相同的server,则No.i的Destination的优先级为4;
2)、No.i的Destination与No.1的Destination相比具有相同的tor,但server不同,则No.i的Destination的源优先级为3;
3)、No.i的Destination与No.1的Destination相比具有不同的tor,则No.i的Destination的优先级为2;
最后,No.i的优先级=No.i的Source的优先级+No.i的Destination的优先级。
本发明第二方面提供了基于混合带内网络遥测的灰色故障检测定位系统。
基于混合带内网络遥测的灰色故障检测定位系统,包括:
一次检测模块,被配置为:服务器收集被动INT探测包携带的逐跳遥测信息,获取源和目标之间所有可行的路径信息,对路径信息中是否存在故障进行一次检测,若检测结果为存在故障,则向虚拟SDN网络的控制器发送存在故障路径的二次检测指令;
二次检测模块,被配置为:控制器接收二次检测指令,向服务器发送主动INT探测包,服务器转发主动INT探测包,对一次检测中存在故障的路径进行二次检测,确认是否真正存在故障,并将真正存在故障的路径信息发送至控制器;
重路由模块,被配置为:控制器向真正存在故障的路径信息的源服务器发送真正存在故障的路径信息,由源服务器重新路由真正存在故障的路径信息的数据流量;
获取模块,被配置为:分布式服务器中的所有服务器均执行上述一次检测模块至重路由模块,将网络中所有真正存在故障的路径信息均上传到控制器;
故障位置定位模块,被配置为:控制器为所有真正存在故障的路径信息设置优先级,根据优先级进行路径之间的比较,得到故障位置;
反馈模块,被配置为:控制器将故障位置反馈给服务器,服务器查找所有与故障位置相关的路径并提前老化。
本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于混合带内网络遥测的灰色故障检测定位方法中的步骤。
本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于混合带内网络遥测的灰色故障检测定位方法中的步骤。
以上一个或多个技术方案存在以下有益效果:
本发明为了弥补单一遥测方法的不足,进一步提高网络遥测的效率和可靠性,将主动带内网络遥测和被动带内网络遥测进行有效整合并应用到灰色故障的检测和定位中,改善了主动带内网络遥测在灰色故障检测中占用大量带宽的问题,提高了检测效率;同时,设计了高效的故障定位方法,避免了大量计算资源的浪费,提高了定位效率。
本发明提供了一个高效、完整的灰色故障检测和定位框架,可以实时监控设备和链路状态、快速检测设备和链路故障并做出响应,并在几秒钟内实现灰色故障检测和定位。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的方法流程图。
图2为第一个实施例混合INT工作流程图。
图3为第一个实施例基于源路由的数据流量重路由流程图。
图4为第二个实施例的系统结构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提出的总体思路:
本发明设计了一种轻量级的基于混合INT的快速灰色故障检测和定位方法,能够准确、快速地检测和定位灰色故障,并针对胖树数据中心网络提供了完整的灰色故障检测和定位框架。在兼顾资源和效率的前提下,可以实时、准确检测网络灰色故障并立即重新路由受影响的流量,同时在几秒钟内完成故障定位。
本发明的主要贡献总结如下:
提出了一种基于混合INT的DCN中快速检测网络灰色故障的机制。此外,这是对混合带内网络遥测应用场景的一次有价值的探索。具体来说,通过被动INT收集网络中的所有可行路径,并根据遥测信息检测网络故障。同时,为了提高检测精度,设计了一种基于主动INT的二次检测机制,通过主动发送简化探测包对可能的故障路径进行二次检测。
设计了一个遥控器来实现二次检测机制和集中故障定位。服务器应将超时路径表项上传给控制器,由控制器决定进行二次检测或集中故障定位。同时设计了一种快速定位方法,能够在规定的时间内快速、准确地完成定位,仅需要少量计算。
引入了远程集中控制器的反馈机制。具体地,当故障点被精确定位后,控制器会迅速将故障点位置反馈给服务器。然后,服务器会在路径信息表中标记所有与故障定位相关的路径,并提前老化。
实施例一
本实施例公开了基于混合带内网络遥测的灰色故障检测定位方法。
基于混合带内网络遥测的灰色故障检测定位方法,包括以下步骤:
步骤一:服务器收集被动INT探测包携带的逐跳遥测信息,获取源和目标之间所有可行的路径信息,对路径信息中是否存在故障进行一次检测,若检测结果为存在故障,则向虚拟SDN网络的控制器发送存在故障路径的二次检测指令;
步骤二:控制器接收二次检测指令,向服务器发送主动INT探测包,服务器转发主动INT探测包,对一次检测中存在故障的路径进行二次检测,确认是否真正存在故障,并将真正存在故障的路径信息发送至控制器;
步骤三:控制器向真正存在故障的路径信息的源服务器发送真正存在故障的路径信息,由源服务器重新路由真正存在故障的路径信息的数据流量;
步骤四:分布式服务器中的所有服务器均执行上述步骤一至步骤三,将网络中所有真正存在故障的路径信息均上传到控制器;
步骤五:控制器为所有真正存在故障的路径信息设置优先级,根据优先级进行路径之间的比较,得到故障位置;
步骤六:控制器将故障位置反馈给服务器,服务器查找所有与故障位置相关的路径并提前老化。
本发明是一种轻量级的基于混合INT的快速灰色故障检测和定位方法,它从遥测数据中推断出灰色故障。所提方法工作流程如图1所示,分为五个阶段,即混合带内网络遥测、网络故障检测、流量重新路由、网络故障定位和网络故障反馈。
首先,服务器不断收集数据包携带的逐跳遥测信息(蓝色箭头)。这里的包也称为被动INT包。数据中心网络中的大部分流都时常活跃状态,因此可以获得网络中所有可行的路径,这只需要很短的时间。收集到的遥测信息包括它们所经过的交换机的标识以及对应的入口和出口端口ID,这些构成了路径的基本结构。通过提取遥测信息,可以获得源和目标之间的路径信息。
然后,服务器上有一个路径信息表,记录了每个路径条目的老化时间agetime和二次检测时间sdtime。服务器接收到遥测信息后,会将提取的路径信息添加到本地路径信息表中,或者更新具有相同路径的路径表项的老化时间。当网络出现故障时,数据包将无法通过受影响的路径,导致路径信息表中相关条目P={A,…,B}的sdtime=0。在这里,遵循SDN设计范例,本发明引入了一个用于信息通知和故障定位的外部控制器。此时控制器会通知源A在路径P上发送一个INT探测包进行二次检测(灰色箭头)。这里的INT探测包也称为主动INT包。如果目的B在agetime=0之前收到源A发送的INT探测包,它会更新路径条目P的agetime,表示路径没有故障。否则,如果目标B在P的agetime=0之前还没有收到INT探测包,则确认失败。
一旦确认故障,后续流量将被重新路由到其他可行路径(绿色箭头)以防止丢包。同时Servers将故障路径上传给远程控制器,控制器通过差异比较的方式定位所有故障路径的故障点。
最后,控制器定位故障点后,会迅速将故障点反馈给服务器。服务器将本地路径信息表中与故障点相关的所有路径条目的agetime和stdtime预先设置为0。
具体的:
(一)混合带内网络遥测
仅通过被动INT获取网络中所有可行路径,并利用超时机制推断网络是否存在故障是可行的。但这并不严谨,因为考虑到一个极端的情况,某条路径上长时间没有数据包经过,触发了超时机制,从而会误认为该路径失效。根据观察,尽管数据中心网络中的大部分流量都是活跃的,但还是不能避免上述情况的发生。因此,本发明额外设计了一种基于主动INT的二次检测机制,试图解决故障误判问题。首先,为每个路径信息条目设置一个二次检测时间stdtime。当某条路径的stdtime=0时,会向该路径发送一个INT探测包进行二次检测。由于网络中绝大多数链路都是健康活跃的,这意味着触发二次检测机制的情况极少出现。因此二次检测机制只会占用少量带宽。总之,主动INT和被动INT组合形成的混合INT,将大大降低单一遥测方法故障检测的错误率,而且极大的降低了带宽占用,节约了网络资源。
此外,在最初的INT模型中,具有INT功能的设备有望公开足够的设备内部状态,包括交换机ID、入口/出口端口ID、队列深度和排队延迟。然而,在本发明中,因为只需要关心链接是up或down,所以为了使系统更加轻量级,不需要获取上面提到的所有内部状态。因此本发明简化了INT数据包的格式,只收集以下三种设备内部状态。请注意,当使用术语INT数据包时,并不是指主动INT数据包或被动INT数据包,而是两者。Switch_id(8位):交换机的标识。控制器为每个开关分配了一个唯一的ID。Ingress_port_id(8位):INT数据包进入交换机的入口端口ID。Egress_port_id(8位):INT数据包离开交换机的出口端口ID。
当业务数据包通过网络时,路径上的交换机会将INT信息插入到业务数据包的IP头后面,其中INT探针中收集的信息包括它们经过的交换机的ID以及相应的入口端口ID和出口端口ID,混合INT工作流程和探针格式如图2所示。
通过这种方式,服务器可以不断收集遥测信息以获得源和目的地之间的所有可行路径。其次,每个探针数据包收集器,也是一个服务器,将把这些可行的路径存储在一个路径信息表中,每个路径条目都设置一个老化时间。对于每个获取到的新路径信息,如果路径信息表中存在该路径,则更新其老化时间,否则就添加到表中。基于这种方法进行路径信息的收集不需要向网络额外注入大量的探针,对网络产生的影响较小。
至此,本发明中使用了两种类型的包:被动INT包和主动INT包。初次之外还有用于流量重路由的SR包。因此,本发明中存在三种类型的包。为了区分它们,设计了不同的ip协议号。这三种包类型的具体格式如表1所示。
表1包格式详情表
当探测报文经过网络时,沿途的交换机会根据ip协议号进行相应的处理。例如,如果一个数据包的ip协议号是ox700或ox702,则表示它是一个INT数据包。然后沿途的交换机会将INT信息插入到INT数据包的IP头后面。如果一个数据包的ip协议号是$ox701$,说明它是一个SR数据包。那么沿途的交换机就会完全按照SR转发规则来转发这个包。
(二)灰色故障检测
接收到INT报文后,这些INT报文所携带的INT信息将被解析并保存在接收端各服务器本地的路径信息表中。每个路径条目记录了从发送方到接收方的所有交换机以及相应的入口和出口端口。例如H0的路径信息表如表2所示,它说明了所有可以到达H0的服务器和所有可以走的路径。
表2H0的路径信息表
另外,在路径项中,有两个时间值,即stdtime和agetime。它们是故障检测的核心组件。具体来说,当一条路径项的stdtime=0时,应该对该路径进行二次检测。当一条路径表项的agetime=0时,则认为该路径表项失效,同时将该表项从路径信息表中删除。从上面的描述不难理解,设置合理的agetime和stdtime是非常重要的。实际上,agetime和stdtime的取值非常灵活,但应遵循以下约束:
agetime≥stdtime+prtime.
其中prtime是指在二次检测过程中,INT包从发送方传输到接收方所需的时间。
下面介绍故障检测流程。如图1所示,一条从H2到H9的路径pathi={H2,T1_3,T1_2,L1_4,L1_1,S2_1,S2_3,L5_1,L5_3,T4_2,T4_4,H9},由于S2_3,L5_1发生中断,导致一些携带INT信息的数据包被丢弃,无法到达目标服务器H9。因为sdtime<agetime,所以服务器H9的路径信息表中pathi对应的表项P的sdtime会先趋向于0。此时控制器会通知服务器H2在路径pathi上发送一个INT探测包进行二次检测。如果服务器H9在agetime=0之前收到服务器H2发送的INT探测包,则更新路径项P的agetime,表示路径pathi没有发生故障。否则,如果服务器H9在路径条目P的agetime=0之前仍然没有收到INT探测包,则确认故障发生。
(三)SR重路由机制
当目的服务器检测到故障时,会立即将故障路径信息上传给控制器。然后,控制器将故障路径信息通知给相应的源服务器。最后,源服务器会根据最新的路径信息表使用源路由技术及时重新路由受影响的数据流量。图3显示了基于源路由的数据流量重路由过程。
在计算机网络中,源路由允许数据包的发送者指定数据包通过网络的路由,通常是通过在数据包标头上标记路由。在图3中,使用UDP数据包来携带SR有效载荷。同时,为了告知数据包这是一个SR数据包,IP协议号设置为“0x701”。在IP和UDP标头之间,为SR标签堆栈保留512-bit。同时为每个SR标签分配8-bit来表示交换机输出端口ID,即每个交换机最多可以支持256输出端口。因此,SR堆栈包括指定路径上的所有交换机出口端口。当SR报文经过网络时,交换机会依次解析SR栈中的SR标签,并从指定端口转发出去。综上所述,将被故障检测确认为故障路径的路径条目禁用,后续流量将重新路由到其他可行路径,以防止丢包。
(四)灰色故障的定位机制
仅仅可以检测故障并重新路由可能受影响的流量,并不是一个完整的解决方案。可取的解决方案应该是准确定位故障定位,并采取有针对性的解决方法。
在数据中心网络中,即使是单点故障也会影响多条路径的,这一观察结果可用于精确的网络故障定位。但是,由于分布式服务器之间不共享全局网络视图,单个服务器中的故障路径条目不足以定位准确的网络故障点。因此,分布式服务器中的所有故障路径条目都应该上传到控制器并存储在故障路径信息表中。然后,控制器将通过识别表中所有故障路径条目之间的共性,逐渐将网络故障的范围缩小到两个设备之间的单个链路。例如,所有受L1和S2之间链路故障影响的路径,如表2所示,表项的顺序为控制器接收的次序。
表2控制器中的故障路径信息表
首先,进行第一轮比较,控制器会先比较No.1和No.2,找出它们之间的相似之处并得到第一轮比较的结果为:H2→T1_3→T1_2→L1_4→L1_1→S2_1→S2_3→L5_1→L5_3→T4_2。然后用第一轮的结果和No.3进行比较,得到他们之间的相同路径为S2_3→L5_1→L5_3→T4_2。第二轮比对完成后,仍未准确定位故障位置,应继续迭代操作。即将第二轮得到的结果与No.4进行比较,得到精确的故障定位为S2_3→L5_1。理论上,该方法可以达到准确定位网络故障的目的,这也是故障定位中通常采用的方法。
然而,数据中心网络通常规模较大,一个故障点可能会产生成百上千条故障路径。这种简单的比较方法不仅计算量大而且不灵活。例如,刚才的例子中,第一轮比较的结果不是很有效,因为还是包含了太多的设备和链路,精准定位的难度依然很大。而No.1与No.8进行比较时,可以直接找到精确的故障位置:S2_3→L5_1。相比之前需要三轮比较才能得到结果的方法,显然,这种比较更有意义、效率更高。所以对于No.1,为了获得更高的效率,应该选择一个类似于No.8这样的路径表项,让它先参与比较。所以本发明改进了上述方法。具体来说,控制器可以从每条路径表项中获取源和目的在fat-tree数据中心网络中的位置并为其设置Priority属性,分别定义为Source(Pod,Tor,Server,Priority)和Destination(Pod,Tor,Server,Priority)。当控制器接收到第一个故障路径信息No.1时,应立即开始定位过程,以尽量减少从故障发生到成功定位所需的时间。因此,应该以No.1为基准,分别将No.1的源/目的位置与No.i的源/目的位置进行比较,然后为No.i设置相应的优先级。
优先级的设置规则为:
(1)、如果No.i的Source与No.1的Source相比具有不同的pod,则No.i的Source的优先级为1;
否则,如果No.i的Source与No.1的Source相比具有相同的pod,则No.i的Source的优先级基于以下情况进行设置:
1)、No.i的Source与No.1的Source相比具有相同的tor且相同的server,则No.i的Source的优先级为4;
2)、No.i的Source与No.1的Source相比具有相同的tor,但server不同,则No.i的Source的源优先级为3;
3)、No.i的Source与No.1的Source相比具有不同的tor,则No.i的Source的优先级为2;
(2)、如果No.i的Destination与No.1的Destination相比具有不同的pod,则No.i的Destination的优先级为1;
否则,如果No.i的Destination与No.1的Destination相比具有相同的pod,则No.i的Destination的优先级基于以下情况进行设置:
1)、No.i的Destination与No.1的Destination相比具有相同的tor且相同的server,则No.i的Destination的优先级为4;
2)、No.i的Destination与No.1的Destination相比具有相同的tor,但server不同,则No.i的Destination的源优先级为3;
3)、No.i的Destination与No.1的Destination相比具有不同的tor,则No.i的Destination的优先级为2;
最后,No.i的优先级=No.i的Source的优先级+No.i的Destination的优先级。
最后根据优先级进行路径条目之间的比较,得到准确的故障位置,只需要1-2轮。该的方法只需要少量的计算,非常高效而且灵活。
(五)灰色故障的反馈机制
故障定位后,应充分利用精确的故障定位,提高系统效率和可靠性。具体地,在定位故障后,控制器迅速将准确的故障位置反馈给服务器。服务器会在路径信息表中查找所有与故障位置相关的路径并提前老化,并及时根据最新的路径信息表使用源路由对受影响的数据流量进行重路由。设置反馈机制有以下三个优点。(a)数据包可以在到达故障路径之前重新路由到非故障路径,以避免数据包丢失。(b)跳过了二次确认过程,降低了带宽成本,提高了系统效率。(c)避免重复故障检测和定位,减少因等待路径老化时间造成的检测延迟,节省系统计算资源,提高系统时效性。
实施例二
本实施例公开了基于混合带内网络遥测的灰色故障检测定位系统。
如图4所示,基于混合带内网络遥测的灰色故障检测定位系统,包括:
一次检测模块,被配置为:服务器收集被动INT探测包携带的逐跳遥测信息,获取源和目标之间所有可行的路径信息,对路径信息中是否存在故障进行一次检测,若检测结果为存在故障,则向虚拟SDN网络的控制器发送存在故障路径的二次检测指令;
二次检测模块,被配置为:控制器接收二次检测指令,向服务器发送主动INT探测包,服务器转发主动INT探测包,对一次检测中存在故障的路径进行二次检测,确认是否真正存在故障,并将真正存在故障的路径信息发送至控制器;
重路由模块,被配置为:控制器向真正存在故障的路径信息的源服务器发送真正存在故障的路径信息,由源服务器重新路由真正存在故障的路径信息的数据流量;
获取模块,被配置为:分布式服务器中的所有服务器均执行上述一次检测模块至重路由模块,将网络中所有真正存在故障的路径信息均上传到控制器;
故障位置定位模块,被配置为:控制器为所有真正存在故障的路径信息设置优先级,根据优先级进行路径之间的比较,得到故障位置;
反馈模块,被配置为:控制器将故障位置反馈给服务器,服务器查找所有与故障位置相关的路径并提前老化。
实施例三
本实施例的目的是提供计算机可读存储介质。
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例1所述的基于混合带内网络遥测的灰色故障检测定位方法中的步骤。
实施例四
本实施例的目的是提供电子设备。
电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的基于混合带内网络遥测的灰色故障检测定位方法中的步骤。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.基于混合带内网络遥测的灰色故障检测定位方法,其特征在于,包括以下步骤:
步骤一:服务器收集被动INT探测包携带的逐跳遥测信息,获取源和目标之间所有可行的路径信息,对路径信息中是否存在故障进行一次检测,若检测结果为存在故障,则向虚拟SDN网络的控制器发送存在故障路径的二次检测指令;
步骤二:控制器接收二次检测指令,向服务器发送主动INT探测包,服务器转发主动INT探测包,对一次检测中存在故障的路径进行二次检测,确认是否真正存在故障,并将真正存在故障的路径信息发送至控制器;
步骤三:控制器向真正存在故障的路径信息的源服务器发送真正存在故障的路径信息,由源服务器重新路由真正存在故障的路径信息的数据流量;
步骤四:分布式服务器中的所有服务器均执行上述步骤一至步骤三,将网络中所有真正存在故障的路径信息均上传到控制器;
步骤五:控制器为所有真正存在故障的路径信息设置优先级,根据优先级进行路径之间的比较,得到故障位置;
步骤六:控制器将故障位置反馈给服务器,服务器查找所有与故障位置相关的路径并提前老化。
2.如权利要求1所述的基于混合带内网络遥测的灰色故障检测定位方法,其特征在于,服务器收集被动INT探测包携带的逐跳遥测信息,获取源和目标之间所有可行的路径信息,对路径信息中是否存在故障进行一次检测,具体为:
在服务器上设置一个本地路径信息表,路径信息表中记录每个路径条目的老化时间和二次检测时间;
服务器接收到遥测信息后,将从遥测信息中提取的路径信息添加到本地路径信息表中,或者更新具有相同路径的路径表项的老化时间;
当一条路径条目的老化时间为0时,从这条路径条目从路径信息表中删除;
当路径信息表中路径条目的二次检测时间为0时,判断出现故障。
3.如权利要求1所述的基于混合带内网络遥测的灰色故障检测定位方法,其特征在于,所述遥测信息包括被动INT探测包和主动INT探测包所经过的交换机的标识、进入交换机的入口端口ID和离开交换机的出口端口ID。
4.如权利要求2所述的基于混合带内网络遥测的灰色故障检测定位方法,其特征在于,老化时间和二次检测时间应遵循以下约束:
agetime≥stdtime+prtime.
其中,prtime是指在二次检测过程中,INT包从发送方传输到接收方所需的时间;agetime为老化时间;stdtime为二次检测时间。
5.如权利要求1所述的基于混合带内网络遥测的灰色故障检测定位方法,其特征在于,服务器转发主动INT探测包,对一次检测中存在故障的路径进行二次检测,确认是否真正存在故障,具体为:
设定源A在路径P上发送一个主动INT探测包至目的B,对路径P进行二次检测,则:
如果目的B在老化时间为0之前收到源A发送的主动INT探测包,目的B会更新路径条目P的老化时间,表示路径P没有故障;
如果目标B在P的老化时间为0之前没有收到源A发送的主动INT探测包,表示路径P确实存在故障。
6.如权利要求2所述的基于混合带内网络遥测的灰色故障检测定位方法,其特征在于,控制器为所有真正存在故障的路径信息设置优先级,根据优先级进行路径之间的比较,得到故障位置,具体为:
步骤一:控制器从每条路径表项中获取源和目的在数据中心网络中的位置,并为源和目的分别设置优先级属性,分别定义为Source(Pod,Tor,Server,Priority)和Destination(Pod,Tor,Server,Priority);
步骤二:当控制器接收到第一个故障路径信息No.1时,以No.1为基准,分别将No.1的源/目的位置与No.i的源/目的位置进行比较;
步骤三:根据优先级设置规则,为No.i设置相应的优先级;
步骤四:根据优先级进行路径条目之间的比较,优先级高的优先进行比较,得到故障位置。
7.如权利要求6所述的基于混合带内网络遥测的灰色故障检测定位方法,其特征在于,优先级的设置规则为:
(1)、如果No.i的Source与No.1的Source相比具有不同的pod,则No.i的Source的优先级为1;
否则,如果No.i的Source与No.1的Source相比具有相同的pod,则No.i的Source的优先级基于以下情况进行设置:
1)、No.i的Source与No.1的Source相比具有相同的tor且相同的server,则No.i的Source的优先级为4;
2)、No.i的Source与No.1的Source相比具有相同的tor,但server不同,则No.i的Source的源优先级为3;
3)、No.i的Source与No.1的Source相比具有不同的tor,则No.i的Source的优先级为2;
(2)、如果No.i的Destination与No.1的Destination相比具有不同的pod,则No.i的Destination的优先级为1;
否则,如果No.i的Destination与No.1的Destination相比具有相同的pod,则No.i的Destination的优先级基于以下情况进行设置:
1)、No.i的Destination与No.1的Destination相比具有相同的tor且相同的server,则No.i的Destination的优先级为4;
2)、No.i的Destination与No.1的Destination相比具有相同的tor,但server不同,则No.i的Destination的源优先级为3;
3)、No.i的Destination与No.1的Destination相比具有不同的tor,则No.i的Destination的优先级为2;
最后,No.i的优先级=No.i的Source的优先级+No.i的Destination的优先级。
8.基于混合带内网络遥测的灰色故障检测定位系统,其特征在于:包括:
一次检测模块,被配置为:服务器收集被动INT探测包携带的逐跳遥测信息,获取源和目标之间所有可行的路径信息,对路径信息中是否存在故障进行一次检测,若检测结果为存在故障,则向虚拟SDN网络的控制器发送存在故障路径的二次检测指令;
二次检测模块,被配置为:控制器接收二次检测指令,向服务器发送主动INT探测包,服务器转发主动INT探测包,对一次检测中存在故障的路径进行二次检测,确认是否真正存在故障,并将真正存在故障的路径信息发送至控制器;
重路由模块,被配置为:控制器向真正存在故障的路径信息的源服务器发送真正存在故障的路径信息,由源服务器重新路由真正存在故障的路径信息的数据流量;
获取模块,被配置为:分布式服务器中的所有服务器均执行上述一次检测模块至重路由模块,将网络中所有真正存在故障的路径信息均上传到控制器;
故障位置定位模块,被配置为:控制器为所有真正存在故障的路径信息设置优先级,根据优先级进行路径之间的比较,得到故障位置;
反馈模块,被配置为:控制器将故障位置反馈给服务器,服务器查找所有与故障位置相关的路径并提前老化。
9.计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于混合带内网络遥测的灰色故障检测定位方法中的步骤。
10.电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于混合带内网络遥测的灰色故障检测定位方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310443248.4A CN116436770A (zh) | 2023-04-18 | 2023-04-18 | 基于混合带内网络遥测的灰色故障检测定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310443248.4A CN116436770A (zh) | 2023-04-18 | 2023-04-18 | 基于混合带内网络遥测的灰色故障检测定位方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116436770A true CN116436770A (zh) | 2023-07-14 |
Family
ID=87094244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310443248.4A Pending CN116436770A (zh) | 2023-04-18 | 2023-04-18 | 基于混合带内网络遥测的灰色故障检测定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116436770A (zh) |
-
2023
- 2023-04-18 CN CN202310443248.4A patent/CN116436770A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112787841B (zh) | 故障根因定位方法及装置、计算机存储介质 | |
CN112564964B (zh) | 一种基于软件定义网络的故障链路检测与恢复方法 | |
US7756046B2 (en) | Apparatus and method for locating trouble occurrence position in communication network | |
US8356093B2 (en) | Apparatus and system for estimating network configuration | |
CN109831318A (zh) | 一种获取网络拓扑的系统、方法和服务器 | |
WO2022083540A1 (zh) | 故障恢复预案确定方法、装置及系统、计算机存储介质 | |
Jia et al. | Rapid detection and localization of gray failures in data centers via in-band network telemetry | |
CN113938407B (zh) | 基于带内网络遥测系统的数据中心网络的故障检测方法及装置 | |
US20040103210A1 (en) | Network management apparatus | |
CN106797328A (zh) | 收集和分析所选择的网络流量 | |
CN112311580B (zh) | 报文传输路径确定方法、装置及系统、计算机存储介质 | |
CN108449210B (zh) | 一种网络路由故障监测系统 | |
US20190296988A1 (en) | Reactive mechanism for in-situ operation, administration, and maintenance traffic | |
Liu et al. | Self-diagnosis for detecting system failures in large-scale wireless sensor networks | |
CN102594613B (zh) | 一种实现mpls vpn故障诊断的方法和装置 | |
JP2005285040A (ja) | ネットワーク監視システム及びその方法、プログラム | |
RU2730390C1 (ru) | Способ и устройство для автоматического определения топологии межузловой связи в совместно используемом резервном кольце трансокеанской мультиплексной секции | |
CN110248156A (zh) | 视频分析方法、平台设备、智能相机和智能监控系统 | |
US10694487B2 (en) | Distributed network black box using crowd-based cooperation and attestation | |
CN102792636A (zh) | 提供恢复生存性的方法、设备和通信网络 | |
CN116436770A (zh) | 基于混合带内网络遥测的灰色故障检测定位方法及系统 | |
Guo et al. | FullSight: A deep learning based collaborated failure detection framework of service function chain | |
CN118413498B (zh) | 数据传输方法、装置、电子设备及存储介质 | |
JP2017034403A (ja) | サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法 | |
CN105704169A (zh) | 一种保持数据一致性的方法、装置及ptn传输设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |