CN115426294A - 一种云数据中心网络网内端到端路由异常分析方法 - Google Patents

一种云数据中心网络网内端到端路由异常分析方法 Download PDF

Info

Publication number
CN115426294A
CN115426294A CN202210200967.9A CN202210200967A CN115426294A CN 115426294 A CN115426294 A CN 115426294A CN 202210200967 A CN202210200967 A CN 202210200967A CN 115426294 A CN115426294 A CN 115426294A
Authority
CN
China
Prior art keywords
routing
physical
mac
data
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210200967.9A
Other languages
English (en)
Inventor
武迎春
黎宇
张仕勇
李宜明
徐海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Runstone Technology Inc
Original Assignee
Beijing Runstone Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Runstone Technology Inc filed Critical Beijing Runstone Technology Inc
Priority to CN202210200967.9A priority Critical patent/CN115426294A/zh
Publication of CN115426294A publication Critical patent/CN115426294A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/14Routing performance; Theoretical aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/74Address processing for routing
    • H04L45/745Address table lookup; Address filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种云数据中心网络网内端到端路由异常分析方法,包括:步骤1)网络拓扑数据采集步骤;步骤2)基于采集的网络拓扑数据,建立路由基线模型步骤;步骤3)路由数据采集步骤;步骤4)路由数据分析步骤。本发明采取了上述方案后,对任意两台虚拟机之间的数据包转发过程所涉及的路由/转发表项进行自动化采集监控,并自动判断是否出现异常,及时发现、定位由于路由问题导致的虚拟机之间的通信故障,能够有效提升网络运维效率及网络/业务的稳定性。

Description

一种云数据中心网络网内端到端路由异常分析方法
技术领域
本发明属于通信领域,属于一种云数据中心网络网内端到端路由异常分析方法。
背景技术
目前云数据中心网络环境广泛部署在各类关键IT系统及电信运营商网络系统中,支撑各类应用系统、业务系统的灵活、弹性部署。在云数据中心网络环境中,虚拟机/容器的迁移、部署、删除操作频繁,为了保证虚拟机/容器之间的互通,网络路由需要同步变更,因此与传统网络相比,这种频繁的变更,更容易引发路由类故障,同时由于云数据中心网络环境部署的路由技术种类复杂,既涉及到虚拟网络,又涉及到物理网络,因此路由故障的排查过程极为困难,经常严重影响上层应用的稳定运行。
如图2所示,基于host overlay的云数据中心网络,是一种典型的云数据中心网络结构。
其中,上述基于host overlay的云数据中心网络环境包括使用linux操作系统的物理服务器和采用spine-leaf架构的物理网络。
物理服务器中的虚拟网络组件包括包括Linux内核网桥qbrxx、OVS网桥BR-INT、OVS网桥BR-TUN、linux虚拟接口veth、OVS网桥虚拟接口patch、运行在物理服务器中虚拟机的虚拟网络接口tap。
物理网络包括spine交换机与leaf交换机。
应用系统在虚拟机(VM)内部运行,并使用虚拟机的网络协议栈实现虚拟机之间基于TCP/IP协议的通信。
当部署在两台不同的物理服务器中的虚拟机之间进行通信时,以图2中的虚拟机VM1a与虚拟机VM1b为例,数据报文路由转发过程需要依次经过经过下列虚拟或物理网络组件:虚拟机VM1a的网络协议栈、linux内核网桥qbr01a、OVS网桥br-int-a、OVS网桥br-tun-a、以太网接口eth0-a、以太网交换机leaf1、spine1或spine2、leaf2、以太网接口eth0-b、OVS网桥br-tun-b、OVS网桥br-iht-b、linux内核网桥qbr01b、到达虚拟机VM1b的网络协议栈。同时在这个过程涉及ARP、vxlan封装/解封装、以及各种虚拟/物理网络组件的路由转发表查询。
在一个数据中心网络中,通常包括2台或4台spine交换机、数百台leaf交换机,数千台物理服务器、数万个虚拟机。任何一个虚拟网络组件的路由/转发表项出现错误,均会导致数据包转发错误,造成虚拟机之间的通信异常并影响虚拟机承载的应用系统。
发明内容
本发明所要解决的技术问题是提出一种在host overlay云数据中心网络环境中,网内端到端路由异常分析方法,使用该方法,可以实现网内端到端路由的自动监控及自动故障定位。
本发明解决上述技术问题所采取的技术方案如下:
一种云数据中心网络网内端到端路由异常分析方法包括:
步骤1)网络拓扑数据采集步骤,包括:物理服务器拓扑数据采集与物理交换机(spine/leaf)拓扑数据采集,用于采集全网所有物理、逻辑网络组件的基本信息及邻居关系信息;
步骤2)基于采集的网络拓扑数据,建立路由基线模型步骤,具体包括:
建立全网所有虚拟和/或物理网络组件端到端拓扑,并关联关键组件的IP地址、MAC地址,用于在分析路由数据时,作为判断路由数据是否存在异常的根据;
步骤3)路由数据采集步骤,包括:
采集用于控制网内虚拟机之间数据包转发的路由和/或转发表数据,包括虚拟机和/或物理服务器ARP缓存数据、内核网桥转发表、OVS网桥流表、OVS网桥转发表、交换机转发表;
步骤4)路由数据分析步骤,包括:基于上述路由基线模型,对上述路由和/或转发表数据进行分析,判断是否与路由基线模型一致,并据此判断是否异常。
优选的是,步骤1)网络拓扑数据采集步骤中,
物理服务器数据采集使用代理程序实现;
当网络中存在其他网络管理平台时,则通过与其他网络管理平台提供的接口实现对物理服务器的数据采集;
物理交换机的数据采集使用SNMP协议;
当网络中存在其他网络管理平台时,则通过与其他网络管理平台提供的接口实现对物理服务器的数据采集。
优选的是,物理服务器采集的拓扑数据包括下列内容:
(1a)物理服务器中开通的每一个虚拟机(VM)的唯一标示UUID;
(1b)物理服务器中开通的每一个虚拟机(VM)的IP地址;
(1c)物理服务器中开通的每一个虚拟机(VM)的MAC地址;
(1d)物理服务器的主机名、网卡名称、IP地址、MAC地址;
(1e)物理服务器中配置的所有linux内核网桥名称及连接的接口;
(1f)物理服务器中配置的所有linux内核网桥的转发表,转发表项字段包括MAC地址及其指向的虚拟/物理接口;
(1g)物理服务器中配置的所有OVS网桥的名称及连接的接口;
(1h)物理服务器中所有veth接口配对关系;
(1j)OVS网桥patch接口配对关系;
(1k)VXLAN VTEP IP地址及对应的MAC地址。
优选的是,物理交换机采集的拓扑数据包括下列内容:
(1m)spine/leaf交换机的名称、管理IP地址;
(1n)spine/leaf交换机的名称/MAC地址、各接口名称/MAC地址;
(1p)leaf交换机转发表;
(1q)spine交换机lldp信息;
(1r)leaf交换机1ldp信息。
优选的是,步骤2)基于采集的网络拓扑数据,建立路由基线模型步骤,具体包括:
建立全网所有虚拟/物理网络组件端到端拓扑,包括:
物理服务器中虚拟机及虚拟网络组件之间的连接关系的虚拟拓扑,
与物理服务器、交换机之间的物理服务器与物理交换机之间的连接关系、物理交换机之间的连接关系的物理拓扑,并关联关键组件的IP地址、MAC地址;
在完整的全网虚拟/物理拓扑基础上,得到全网任意两台虚拟机之间的路由基线,包括:
任意两个虚拟机之间通信需要经过的所有虚拟、物理网络组件及这些组件在路径中的顺序、虚拟与物理网络组件的关键路由参数。
优选的是,步骤3)路由数据采集步骤,包括:
采集用于控制网内虚拟机之间数据包转发的路由/转发表数据。包括虚拟机/物理服务器ARP缓存数据、内核网桥转发表、OVS网桥流表、OVS网桥转发表、交换机转发表,具体如下:
(2a)物理服务器中开通的每一个虚拟机的arp缓存;
(2b)物理服务器的arp缓存;
(2c)物理服务器路由表;
(2d)OVS网桥bOint流表/转发表;
(2e)OVS网桥br-tun流表;
(2f)OVS网桥br-tun vxlan接口对端VTEPIP;
(2e)spine交换机转发表。
优选的是,步骤4)中,具体包括:
步骤4)路由数据分析步骤,包括:基于上述路由基线,对采集的与控制路由转发有关的数据进行分析;
通过与路由基线进行比对,判断任意两台虚拟机之间的路由是否正常,并在不正常的情况下找出所有出现异常的表项。
优选的是,路由分析的具体方法如下:
1)确定分析路径步骤,包括:
根据路由基线,获取虚拟机VM1a至VM1b方向的转发路径中所有的网络组件,其中虚拟机的ARP缓存、物理服务器路由表、ARP缓存及路径中的linux网桥qrb01a(物理服务器A)/qbr01b(物理服务器B)、OVS网桥br-int-a(物理服务器A)/br-int-b(物理服务器B)/br-tun-a(物理服务器A)/br-tun-b(物理服务器B)、物理交换机leaf1/spine1/spine2作为路由分析对象;
根据路由基线,获取虚拟机VM1a的IP地址为IP-1a,MAC地址为MAC-1a,虚拟机VM1b的IP地址为IP-1b,MAC地址为MAC-1b;物理服务器A的VTEPIP为IP-a,VETPIP对应的MAC地址为MAC-a,物理服务器B的VTEP IP为IP-b,VETPIP对应的MAC地址为MAC-b;
2)虚拟机ARP缓存分析步骤;
3)虚拟机MAC地址路由分析步骤;
4)VXLAN隧道路由分析步骤;
5)外层MAC地址路由分析步骤。
优选的是,2)虚拟机ARP缓存分析步骤,具体包括:
根据采集数据(2a),检查虚拟机VM1a的arp缓存中是否存在虚拟机VM1b的IP地址IP-b与MAC地址的对应关系,如果存在该对应关系,根据路由基线检查IP-b是否对应MAC地址MAC-1b。
优选的是,3)虚拟机MAC地址路由分析步骤,具体包括:
根据采集数据(1f)及路由基线,检查linux网桥qrb01a的转发表中是否存在MAC-1b的转发表项,该转表项是否指向虚拟接口veth10;
根据采集数据(2d)及路由基线,检查物理服务器A中的OVS网桥br-int-a的流表与转发表中是否存在MAC-b的转发表项,该转表项是否指向虚拟接口patch-0;
根据采集数据(2e)及路由基线,检查物理服务器A中的OVS网桥br-tun-a的流表与转发表中是否存在MAC-b的转发表项,该转表项是否指向某个封装为vlan类型的虚拟接口,在本例中,假设该接口为vxlan-a;
根据采集数据(2d)及路由基线,检查物理服务器B中的OVS网桥br-int-b的流表与转发表中是否存在MAC-b的转发表项,该转表项是否指向虚拟接口vethl 1:
根据采集数据(2e)路由基线,检查物理服务器B中的OVS网桥br-tun-b的流表与转发表中是否存在MAC-b的转发表项,该转表项是否指向虚拟接口patch-1。
优选的是,4)VXLAN隧道路由分析步骤,包括:
根据采集数据(1k)及路由基线,检查物理服务器A中的OVS网桥br-tun-a的流表与转发表中MAC-b的转发表项指向的vxlan接口的remote IP,是否为物理服务器B的OVS网桥br-tun-b对应的VETP IP,在本例中,该IP地址为IP-b;
根据采集数据(2c),检查物理服务器A的路由表,IP-b的表项是否为指向接口eth0-a的直连路由;
根据采集数据(2b),检查物理服务器A的arp缓存,是否存在IP-b与MAC地址的对应关系,如果存在该对应关系,检查IP-b是否对应MAC地址MAC-b。
优选的是,5)外层MAC地址路由分析步骤,包括:
根据采集数据(1p),检查物理交换机leafl的转发表中是否存在MAC-b表项,如果存在该表项,检查该表项是否指向物理接口eth11或eth12;
当MAC-b在1eaf1的转发表中指向eth11时,根据采集数据(2e),检查物理交换机spine1的转发表中是否存在MAC-b表项,如果存在该表项,检查该表项是否指向物理接口eth22;
当MAC-b在leaf1的转发表中指向eth12时,根据采集数据(2e),检查物理交换机spine2的转发表中是否存在MAC-b表项,如果存在该表项,检查该表项是否指向物理接口eth22;
根据采集数据(1p),检查物理交换机leaf2的转发表中是否存在MAC-b表项,如果存在该表项,检查该表项是否指向物理接口eth10。
本发明采取了上述方案后,对任意两台虚拟机之间的数据包转发过程所涉及的路由/转发表项进行自动化采集监控,并自动判断是否出现异常,及时发现、定位由于路由问题导致的虚拟机之间的通信故障,能够有效提升网络运维效率及网络/业务的稳定性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明云数据中心网内端到端路由异常分析方法的流程示意图;
图2是本发明云数据中心网内端到端路由异常分析方法的实施例的host overlay云数据中心网络结构示意图;
图3是本发明云数据中心网内端到端路由异常分析方法的实施例的网络拓扑模型的示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
具体来说,如图1所示,本发明云数据中心网内端到端路由异常分析方法包括:
步骤1)网络拓扑数据采集步骤,包括:物理服务器拓扑数据采集与物理交换机(spine/leaf)拓扑数据采集,用于采集全网所有物理、逻辑网络组件的基本信息及邻居关系信息;
步骤2)基于采集的网络拓扑数据,建立路由基线模型步骤,具体包括:
建立全网所有虚拟和/或物理网络组件端到端拓扑,并关联关键组件的IP地址、MAC地址,用于在分析路由数据时,作为判断路由数据是否存在异常的根据;
步骤3)路由数据采集步骤,包括:
采集用于控制网内虚拟机之间数据包转发的路由和/或转发表数据,包括虚拟机和/或物理服务器ARP缓存数据、内核网桥转发表、OVS网桥流表、OVS网桥转发表、交换机转发表;
步骤4)路由数据分析步骤,包括:基于上述路由基线模型,对上述路由和/或转发表数据进行分析,判断是否与路由基线模型一致,并据此判断是否异常。
具体来说,本方案主要包括四个环节:
1、网络拓扑数据采集步骤:综合使用多种手段,采集全网所有物理、逻辑网络组件的的基本信息及邻居关系信息,用于构建网络路由基线模型。
2、网络路由基线建模步骤:基于采集的网络拓扑数据,建立路由基线模型,包括建立全网所有虚拟/物理网络组件端到端拓扑,并关联关键组件的IP地址、MAC地址,用于在第4个环节分析路由数据时,作为判断路由数据是否存在异常的根据。
3、路由数据采集步骤:采集用于控制网内虚拟机之间数据包转发的路由/转发表数据,包括虚拟机/物理服务器ARP缓存数据、内核网桥转发表、OVS网桥流表、OVS网桥转发表、交换机转发表
4、路由数据分析步骤:基于步骤2中建立的路由基线模型,对步骤3中采集的路由/转发表数据进行分析,判断是否与路由基线模型一致。
具体来说,在一个实施例中,上述步骤分别描述如下:
2.1网络拓扑数据采集:
网络拓扑数据采集包括物理服务器拓扑数据采集与物理交换机(spine/leaf)拓扑数据采集。其中物理服务器数据采集使用代理程序实现,当网络中存在其他网络管理平台时,也可以通过与其他网络管理平台提供的接口实现对物理服务器的数据采集;物理交换机的数据采集使用SNMP协议,当网络中存在其他网络管理平台时,也可以通过与其他网络管理平台提供的接口实现对物理服务器的数据采集。
1)物理服务器采集的拓扑数据包括下列内容:
(1a)物理服务器中开通的每一个虚拟机(VM)的唯一标示UUID;
(1b)物理服务器中开通的每一个虚拟机(VM)的IP地址;
(1c)物理服务器中开通的每一个虚拟机(VM)的MAC地址;
(1d)物理服务器的主机名、网卡名称、IP地址、MAC地址;
(1e)物理服务器中配置的所有linux内核网桥名称及连接的接口:
(1f)物理服务器中配置的所有linux内核网桥的转发表,转发表项字段包括MAC地址及其指向的虚拟/物理接口;
(1g)物理服务器中配置的所有OVS网桥的名称及连接的接口;
(1h)物理服务器中所有veth接口配对关系;
(1j)OVS网桥patch接口配对关系;
(1k)VXLAN VTEP IP地址及对应的MAC地址。
2)物理交换机采集的拓扑数据包括下列内容:
(1m)spine/leaf交换机的名称、管理IP地址;
(1n)spine/leaf交换机的名称/MAC地址、各接口名称/MAC地址;
(1p)leaf交换机转发表;
(1q)spine交换机lldp信息;
(1r)leaf交换机lldp信息。
2.2网络路由基线建模:
使用2.1采集的数据,建立全网所有虚拟/物理网络组件端到端拓扑,包括物理服务器中的虚拟拓扑(即虚拟机及虚拟网络组件之间的连接关系)与物理服务器、交换机之间的物理拓扑(即物理服务器与物理交换机之间的连接关系、物理交换机之间的连接关系),并关联关键组件的IP地址、MAC地址。
在完整的全网虚拟/物理拓扑基础上,可以得到全网任意两台虚拟机之间的路由基线,包括任意两个虚拟机之间通信需要经过的所有虚拟、物理网络组件及这些组件在路径中的顺序、虚拟与物理网络组件的关键路由参数。
其中,以图3中的网络拓扑模型为例,下面详细说明该建立该模型的方法:
1)物理服务器中所有虚拟机及网桥信息:
以物理服务器A为例,使用采集的数据(1a)(1b)(1c)可以获取物理服务器A中存在三个虚拟机,分别是VM1a、VM1b和VM1c及对应的IP地址和MAC地址;使用采集的数据(1e),可以获取可以获取物理服务器A中存在三个linux内核网桥分别是qbr-01a、qbr-02a和qbr-03a;使用采集的数据(1g)可以获取可以获取物理服务器A中存在两个OVS网桥,分别是br-int-a与br-tun-a;
2)虚拟机与1inux内核网桥之间的拓扑:
以虚拟机VM1a为例。根据采集的数据(1a)(1b)(1c),可知该虚拟机的UUID、IP地址为IP-1a、MAC地址为MAC-1a。关联采集的数据(1f)linux内核网桥qbr01a转发表,其中MAC-1a的表项指向虚拟接口tap1a,可以得到虚拟机VM1a链接到linux内核网桥qbr01a的tap1a接口。使用这种方法,可以得到所有虚拟机与linux内核网桥之间连接关系;
3)Linux内核网桥与OVS网桥br-int之间的拓扑:
以Linux内核网桥qbro1a与OVS网桥br-int-a为例。根据采集数据(1e),qbr01a的接口包括虚拟接口veth10。根据采集数据(1g),br-int-a的接口包括虚拟接口veth11。根据采集数据(1h)veth接口配对关系,veth10与veht11为配对接口。因此可以得到Linux网桥qbro1a使用虚拟接口veth10连接到OVS网桥br-int-a的虚拟接口veth11。使用这种方法,可以得到所有linux内核网桥与OVS网桥br-int-a之间的连接关系;
4)OVS网桥br-int与OVS网桥br-tun之间的拓扑:
以OVS网桥br-int-a与OVS网桥br-tun-a为例。根据采集数据(1g)网桥br-int-a的接口包括虚拟接口patch-0,网桥br-tun-a的接口包括虚拟接口patch-1。根据采集数据(1j),虚拟接口patch-0与虚拟接口patch-1为配对接口。因此可以得出OVS网桥br-int-a使用虚拟接口patch-0连接到OVS网桥br-tun-a的虚拟接口patch-1。
5)物理服务器与leaf交换机之间的逻辑/物理拓扑:
以物理服务器A交换机leaf1为例。根据采集数据(1d)可以获取物理服务器A所有物理网卡的MAC地址。根据采集数据(1p)可以获取leaf1交换机转发表,在该转发表中,存在指向物理服务器A物理网卡eth0的MAC地址的表项,且该表项指向接口eth10,当eth10是连接服务器的接口时,可以得到物理服务器A的物理网卡eth0连接到物理交换机leaf1的接口eth10。
6)物理交换机之间的物理拓扑:
以交换机leaf1与spine1为例。根据采集数据(1q)与(1n),可以得到连接在spine1的eth21接口上的交换机为leaf1。根据采集数据(1r)与(1n),可以得到连接在leaf1的eth11接口上的交换机为spine1。
使用上述方法1)至方法6)完成所有数据的处理后,可以得到完整的全网物理、逻辑拓扑。根据完整的全网物理、逻辑拓扑,可以生成网络中任意两个虚拟机之间的路由基线。
以图3中的虚拟机VM1a与VM1b之间的通信为例,从虚拟机VM1a至虚拟机VM1b方向的路由基线为VM1a、tap1a、qbr01a、veth10(服务器A)、veth11(服务器A)、br-int-a、path-0(服务器A)、patch-1(服务器A)、br-tun-a、eth0-a、eth10(1eaf1)、leaf1、eth11(1eaf1)或eth12(1eaf1)、eth21(spine1)或eht21(spine2)、spine1或spine2、eth22(spine1)或eth22(spine2)、eth11(1eaf2)或eth12(1eaf2)、leaf2、eth10(1eaf2)、eth0-b、br-tun-b、patch-1(服务器B)、br-int-b、veth11(服务器B)、veth10(服务器A)、qbr01b、tap1b、VM1b。从虚拟机VM1b至虚拟机VM1a方向的路由基线经过与上述路径完全一致的网络组件,但顺序完全相反。
2.3路由数据采集:
路由数据采集是指采集用于控制网内虚拟机之间数据包转发的路由/转发表数据。包括虚拟机/物理服务器ARP缓存数据、内核网桥转发表、OVS网桥流表、OVS网桥转发表、交换机转发表。具体如下:
(2a)物理服务器中开通的每一个虚拟机的arp缓存;
(2b)物理服务器的arp缓存;
(2c)物理服务器路由表;
(2d)OVS网桥br-int流表/转发表;
(2e)OVS网桥br-tun流表;
(2f)OVS网桥br-tunvx1an接口对端VTEPIP;
(2e)spine交换机转发表。
2.4路由数据分析:
基于2.2建立的路由基线,对2.1/2.3采集的与控制路由转发有关的数据进行分析,通过与路由基线进行比对,判断任意两台虚拟机之间的路由是否正常,并在不正常的情况下找出所有出现异常的表项。以图3中虚拟机VM1a与VM1b之间的双向路由为例,首先分析虚拟机VM1a至VM1b方向的路由,路由分析的具体方法如下:
1)确定分析路径:
根据2.2建立的路由基线,获取虚拟机VM1a至VM1b方向的转发路径中所有的网络组件,其中虚拟机的ARP缓存、物理服务器路由表、ARP缓存及路径中的linux网桥qrb01a(物理服务器A)/qbr01b(物理服务器B)、OVS网桥br-int-a(物理服务器A)/br-int-b(物理服务器B)/br-tun-a(物理服务器A)/br-tun-b(物理服务器B)、物理交换机leaf1/spine1/spine2作为路由分析对象;
根据2.2建立的路由基线,获取虚拟机VM1a的IP地址为IP-1a,MAC地址为MAC-1a,虚拟机VM1b的IP地址为IP-1b,MAC地址为MAC-1b;物理服务器A的VTEPIP为IP-a,VETP IP对应的MAC地址为MAC-a,物理服务器B的VTEPIP为IP-b,VETP IP对应的MAC地址为MAC-b。
2)虚拟机ARP缓存分析:
根据采集数据(2a),检查虚拟机VM1a的arp缓存中是否存在虚拟机VM1b的IP地址IP-b与MAC地址的对应关系,如果存在该对应关系,根据路由基线检查IP-b是否对应MAC地址MAC-1b。
3)虚拟机MAC地址路由分析:
根据采集数据(1f)及2.2建立的路由基线,检查linux网桥qrb01a的转发表中是否存在MAC-1b的转发表项,该转表项是否指向虚拟接口veth10;
根据采集数据(2d)及2.2建立的路由基线,检查物理服务器A中的OVS网桥br-int-a的流表与转发表中是否存在MAC-b的转发表项,该转表项是否指向虚拟接口patch-0;
根据采集数据(2e)及2.2建立的路由基线,检查物理服务器A中的OVS网桥br-tun-a的流表与转发表中是否存在MAC-b的转发表项,该转表项是否指向某个封装为vlan类型的虚拟接口,在本例中,假设该接口为vxlan-a;
根据采集数据(2d)及2.2建立的路由基线,检查物理服务器B中的OVS网桥br-int-b的流表与转发表中是否存在MAC-b的转发表项,该转表项是否指向虚拟接口veth11;
根据采集数据(2e)及2.2建立的路由基线,检查物理服务器B中的OVS网桥br-tun-b的流表与转发表中是否存在MAC-b的转发表项,该转表项是否指向虚拟接口patch-1;
4)VXLAN隧道路由分析:
根据采集数据(1k)及2.2建立的路由基线,检查物理服务器A中的OVS网桥br-tun-a的流表与转发表中MAC-b的转发表项指向的vxlan接口的remote IP,是否为物理服务器B的OVS网桥br-tun-b对应的VETPIP,在本例中,该IP地址为IP-b;
根据采集数据(2c),检查物理服务器A的路由表,IP-b的表项是否为指向接口eth0-a的直连路由;
根据采集数据(2b),检查物理服务器A的arp缓存,是否存在IP-b与MAC地址的对应关系,如果存在该对应关系,检查IP-b是否对应MAC地址MAC-b;
5)外层MAC地址路由分析:
根据采集数据(1p),检查物理交换机leaf1的转发表中是否存在MAC-b表项,如果存在该表项,检查该表项是否指向物理接口eth11或eth12;
当MAC-b在leaf1的转发表中指向eth11时,根据采集数据(2e),检查物理交换机spine1的转发表中是否存在MAC-b表项,如果存在该表项,检查该表项是否指向物理接口eth22;
当MAC-b在leaf1的转发表中指向eth12时,根据采集数据(2e),检查物理交换机spine2的转发表中是否存在MAC-b表项,如果存在该表项,检查该表项是否指向物理接口eth22;
根据采集数据(1p),检查物理交换机leaf2的转发表中是否存在MAC-b表项,如果存在该表项,检查该表项是否指向物理接口eth10;
完成上述分析后,按照同样的方法,分析虚拟机VM1b至VM1a方向的路由,即可发现虚拟机VM1a与VM1b之间的双向路由所有异常点。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种云数据中心网络网内端到端路由异常分析方法,其特征在于,包括:
步骤1)网络拓扑数据采集步骤,包括:物理服务器拓扑数据采集与物理交换机(spine/leaf)拓扑数据采集,用于采集全网所有物理、逻辑网络组件的基本信息及邻居关系信息;
步骤2)基于采集的网络拓扑数据,建立路由基线模型步骤,具体包括:
建立全网所有虚拟和/或物理网络组件端到端拓扑,并关联关键组件的IP地址、MAC地址,用于在分析路由数据时,作为判断路由数据是否存在异常的根据;
步骤3)路由数据采集步骤,包括:
采集用于控制网内虚拟机之间数据包转发的路由和/或转发表数据,包括虚拟机和/或物理服务器ARP缓存数据、内核网桥转发表、OVS网桥流表、OVS网桥转发表、交换机转发表;
步骤4)路由数据分析步骤,包括:基于上述路由基线模型,对上述路由和/或转发表数据进行分析,判断是否与路由基线模型一致,并据此判断是否异常。
2.根据权利要求1所述的网内端到端路由异常分析方法,其特征在于,步骤1)网络拓扑数据采集步骤中,
物理服务器数据采集使用代理程序实现;
当网络中存在其他网络管理平台时,则通过与其他网络管理平台提供的接口实现对物理服务器的数据采集;
物理交换机的数据采集使用SNMP协议;
当网络中存在其他网络管理平台时,则通过与其他网络管理平台提供的接口实现对物理服务器的数据采集。
3.根据权利要求1或2所述的网内端到端路由异常分析方法,其特征在于,物理服务器采集的拓扑数据包括下列内容:
(1a)物理服务器中开通的每一个虚拟机(VM)的唯一标示UUID;
(1b)物理服务器中开通的每一个虚拟机(VM)的IP地址;
(1c)物理服务器中开通的每一个虚拟机(VM)的MAC地址;
(1d)物理服务器的主机名、网卡名称、IP地址、MAC地址;
(1e)物理服务器中配置的所有linux内核网桥名称及连接的接口;
(1f)物理服务器中配置的所有linux内核网桥的转发表,转发表项字段包括MAC地址及其指向的虚拟/物理接口;
(1g)物理服务器中配置的所有OVS网桥的名称及连接的接口;
(1h)物理服务器中所有veth接口配对关系;
(1j)OVS网桥patch接口配对关系;
(1k)VXLAN VTEP IP地址及对应的MAC地址。
4.根据权利要求1或2所述的网内端到端路由异常分析方法,其特征在于,物理交换机采集的拓扑数据包括下列内容:
(1m)spine/leaf交换机的名称、管理IP地址;
(1n)spine/leaf交换机的名称/MAC地址、各接口名称/MAC地址;
(1p)leaf交换机转发表;
(1q)spine交换机lldp信息;
(1r)leaf交换机lldp信息。
5.根据权利要求4所述的网内端到端路由异常分析方法,其特征在于,步骤2)基于采集的网络拓扑数据,建立路由基线模型步骤,具体包括:
建立全网所有虚拟/物理网络组件端到端拓扑,包括:
物理服务器中虚拟机及虚拟网络组件之间的连接关系的虚拟拓扑,
与物理服务器、交换机之间的物理服务器与物理交换机之间的连接关系、物理交换机之间的连接关系的物理拓扑,并关联关键组件的IP地址、MAC地址;
在完整的全网虚拟/物理拓扑基础上,得到全网任意两台虚拟机之间的路由基线,包括:
任意两个虚拟机之间通信需要经过的所有虚拟、物理网络组件及这些组件在路径中的顺序、虚拟与物理网络组件的关键路由参数。
6.根据权利要求5所述的网内端到端路由异常分析方法,其特征在于,步骤3)路由数据采集步骤,包括:
采集用于控制网内虚拟机之间数据包转发的路由/转发表数据。包括虚拟机/物理服务器ARP缓存数据、内核网桥转发表、OVS网桥流表、OVS网桥转发表、交换机转发表,具体如下:
(2a)物理服务器中开通的每一个虚拟机的arp缓存;
(2b)物理服务器的arp缓存;
(2c)物理服务器路由表;
(2d)OVS网桥br-int流表/转发表;
(2e)OVS网桥br-tun流表;
(2f)OVS网桥br-tunvxlan接口对端VTEP IP;
(2e)spine交换机转发表。
7.根据权利要求6所述的网内端到端路由异常分析方法,其特征在于,步骤4)中,具体包括:
步骤4)路由数据分析步骤,包括:基于上述路由基线,对采集的与控制路由转发有关的数据进行分析;
通过与路由基线进行比对,判断任意两台虚拟机之间的路由是否正常,并在不正常的情况下找出所有出现异常的表项。
8.根据权利要求7所述的网内端到端路由异常分析方法,其特征在于,路由分析的具体方法如下:
1)确定分析路径步骤,包括:
根据路由基线,获取虚拟机VM1a至VM1b方向的转发路径中所有的网络组件,其中虚拟机的ARP缓存、物理服务器路由表、ARP缓存及路径中的linux网桥qrb01a(物理服务器A)/qbr01b(物理服务器B)、OVS网桥br-int-a(物理服务器A)/br-int-b(物理服务器B)/br-tun-a(物理服务器A)/br-tun-b(物理服务器B)、物理交换机leaf1/spine1/spine2作为路由分析对象;
根据路由基线,获取虚拟机VM1a的IP地址为IP-1a,MAC地址为MAC-1a,虚拟机VM1b的IP地址为IP-1b,MAC地址为MAC-1b;物理服务器A的VTEP IP为IP-a,VETP IP对应的MAC地址为MAC-a,物理服务器B的VTEP IP为IP-b,VETP IP对应的MAC地址为MAC-b;
2)虚拟机ARP缓存分析步骤;
3)虚拟机MAC地址路由分析步骤;
4)VXLAN隧道路由分析步骤;
5)外层MAC地址路由分析步骤。
9.根据权利要求8所述的网内端到端路由异常分析方法,其特征在于,2)虚拟机ARP缓存分析步骤,具体包括:
根据采集数据(2a),检查虚拟机VM1a的arp缓存中是否存在虚拟机VM1b的IP地址IP-b与MAC地址的对应关系,如果存在该对应关系,根据路由基线检查IP-b是否对应MAC地址MAC-1b。
10.根据权利要求8所述的网内端到端路由异常分析方法,其特征在于,3)虚拟机MAC地址路由分析步骤,具体包括:
根据采集数据(1f)及路由基线,检查linux网桥qrb01a的转发表中是否存在MAC-1b的转发表项,该转表项是否指向虚拟接口veth10;
根据采集数据(2d)及路由基线,检查物理服务器A中的OVS网桥br-int-a的流表与转发表中是否存在MAC-b的转发表项,该转表项是否指向虚拟接口patch-0;
根据采集数据(2e)及路由基线,检查物理服务器A中的OVS网桥br-tun-a的流表与转发表中是否存在MAC-b的转发表项,该转表项是否指向某个封装为vlan类型的虚拟接口,在本例中,假设该接口为vxlan-a;
根据采集数据(2d)及路由基线,检查物理服务器B中的OVS网桥br-int-b的流表与转发表中是否存在MAC-b的转发表项,该转表项是否指向虚拟接口veth11;
根据采集数据(2e)路由基线,检查物理服务器B中的OVS网桥br-tun-b的流表与转发表中是否存在MAC-b的转发表项,该转表项是否指向虚拟接口patch-1。
11.根据权利要求8所述的网内端到端路由异常分析方法,其特征在于,4)VXLAN隧道路由分析步骤,包括:
根据采集数据(1k)及路由基线,检查物理服务器A中的OVS网桥br-tun-a的流表与转发表中MAC-b的转发表项指向的vxlan接口的remote IP,是否为物理服务器B的OVS网桥br-tun-b对应的VETP IP,在本例中,该IP地址为IP-b;
根据采集数据(2c),检查物理服务器A的路由表,IP-b的表项是否为指向接口eth0-a的直连路由;
根据采集数据(2b),检查物理服务器A的arp缓存,是否存在IP-b与MAC地址的对应关系,如果存在该对应关系,检查IP-b是否对应MAC地址MAC-b。
12.根据权利要求8所述的网内端到端路由异常分析方法,其特征在于,5)外层MAC地址路由分析步骤,包括:
根据采集数据(1p),检查物理交换机leaf1的转发表中是否存在MAC-b表项,如果存在该表项,检查该表项是否指向物理接口eth11或eth12;
当MAC-b在leaf1的转发表中指向eth11时,根据采集数据(2e),检查物理交换机spine1的转发表中是否存在MAC-b表项,如果存在该表项,检查该表项是否指向物理接口eth22;
当MAC-b在leaf1的转发表中指向eth12时,根据采集数据(2e),检查物理交换机spine2的转发表中是否存在MAC-b表项,如果存在该表项,检查该表项是否指向物理接口eth22;
根据采集数据(1p),检查物理交换机leaf2的转发表中是否存在MAC-b表项,如果存在该表项,检查该表项是否指向物理接口eth10。
CN202210200967.9A 2022-03-03 2022-03-03 一种云数据中心网络网内端到端路由异常分析方法 Pending CN115426294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210200967.9A CN115426294A (zh) 2022-03-03 2022-03-03 一种云数据中心网络网内端到端路由异常分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210200967.9A CN115426294A (zh) 2022-03-03 2022-03-03 一种云数据中心网络网内端到端路由异常分析方法

Publications (1)

Publication Number Publication Date
CN115426294A true CN115426294A (zh) 2022-12-02

Family

ID=84230552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210200967.9A Pending CN115426294A (zh) 2022-03-03 2022-03-03 一种云数据中心网络网内端到端路由异常分析方法

Country Status (1)

Country Link
CN (1) CN115426294A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107659423A (zh) * 2016-07-25 2018-02-02 南京中兴新软件有限责任公司 业务处理方法及装置
CN112822053A (zh) * 2021-01-13 2021-05-18 科大国创云网科技有限公司 一种基于snmp的链路层网络拓扑结构发现方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107659423A (zh) * 2016-07-25 2018-02-02 南京中兴新软件有限责任公司 业务处理方法及装置
CN112822053A (zh) * 2021-01-13 2021-05-18 科大国创云网科技有限公司 一种基于snmp的链路层网络拓扑结构发现方法及系统

Similar Documents

Publication Publication Date Title
AU2021200243B2 (en) Systems and methods for an interactive network analysis platform
CN107431642B (zh) 用于控制交换机以捕获和监视网络流量的系统和方法
EP3175579B1 (en) Systems and methods for network management
US9450779B2 (en) Edge link discovery
US9148367B2 (en) System and method for binding flows in a service cluster deployment in a network environment
JP4008432B2 (ja) ネットワーク機器のトポロジを探索する装置および方法
Wu et al. Virtual network diagnosis as a service
Tran et al. A network topology-aware selectively distributed firewall control in sdn
CN113630301B (zh) 基于智能决策的数据传输方法、装置、设备及存储介质
US20220124031A1 (en) Ghost routing
JP2013026928A (ja) 故障管理システムおよび故障管理方法
CN115426294A (zh) 一种云数据中心网络网内端到端路由异常分析方法
CN113190368A (zh) 实现表项检查的方法、装置及系统、计算机存储介质
WO2023069394A1 (en) Collection of segment routing ipv6 (srv6) network telemetry information
Han et al. Computer network failure and solution
CN114172789A (zh) 虚拟设备链路探测方法、装置、设备及存储介质
US20210226869A1 (en) Offline connectivity checks
US10911338B1 (en) Packet event tracking
CN114500225B (zh) 一种网络中获取设备转发信息库的方法、设备和系统
US8531953B2 (en) System and method for network traffic splitting
Shimatani et al. SRv6 Network Debugging Support System Assigning Identifiers to SRH
Zhang et al. An analytics approach to traffic analysis in network virtualization
CN118018458A (zh) 一种基于嵌入路由器的网络流量采集方法、装置及系统
CN118075097A (zh) 一种报文传输方法、装置、网元设备及存储介质
CN115278743A (zh) 一种5g传输设备spn连接故障检测方法、系统和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination