CN109787833A - 网络异常事件感知方法和系统 - Google Patents

网络异常事件感知方法和系统 Download PDF

Info

Publication number
CN109787833A
CN109787833A CN201910064519.9A CN201910064519A CN109787833A CN 109787833 A CN109787833 A CN 109787833A CN 201910064519 A CN201910064519 A CN 201910064519A CN 109787833 A CN109787833 A CN 109787833A
Authority
CN
China
Prior art keywords
message
int
event
subevent
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910064519.9A
Other languages
English (en)
Other versions
CN109787833B (zh
Inventor
毕军
缪睿
刘洪强
孙晨
周禹
曹捷
张铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910064519.9A priority Critical patent/CN109787833B/zh
Publication of CN109787833A publication Critical patent/CN109787833A/zh
Application granted granted Critical
Publication of CN109787833B publication Critical patent/CN109787833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种网络异常事件感知方法和系统。所述网络异常事件感知方法包括:为所有报文插入INT探测报头,对报文进行采样并标注采样报文的所述INT探测报头;对报文进行INT相关操作,所述INT相关操作包括为报文添加INT元数据,所述INT元数据记录交换机处理报文时的状态信息且被添加在所述INT探测报头之后;筛选包含至少一跳交换机的INT元数据的报文,复制并上传该报文;对上传的报文进行初步汇总,生成子事件;对生成的子事件进行进一步的汇总,得到事件的最终汇总。本发明的网络异常事件感知方法和系统获得了全量、准确、实时的网络事件,用于故障诊断、拓扑评估等方面。

Description

网络异常事件感知方法和系统
技术领域
本发明涉及互联网信息技术领域,具体地说,涉及一种能够全量、准确捕捉物理网络设备中的统计信息及发生的事件的网络异常事件感知方法和系统。
背景技术
数据中心网络承载了云计算、电商、新零售等诸多应用,其网络服务的性能极大地影响了业务投递的指标。但是,数据中心网络的服务存在着诸多的不确定性。例如,软件bug、硬件故障、运维的误操作等等,这些事件都会潜在地造成业务性能的严重影响。然而,传统的数据中心网络的管理,更加侧重于从上到下的网络管控,即使得网络行为符合上层定义的逻辑和策略。忽略了从下到上的、精细的网络服务质量的数据化的反馈、检测与评估。这导致难以全量、准确捕捉物理网络设备中的统计信息及发生的事件,进而影响及时的网络诊断和修复。
网络测量是网络管理的重要环节。传统网络测量粒度较粗,包含如下几类:
1)网络计数器(counter)。包括网络设备内的诸多计数器(如SNMP counter,dropcounter)用于记录一段时间内累计(aggregate)的事件个数。但是,这类计数器仅能判断网络存在问题,但无法给出对于每个事件的详细信息。问题定位仍需要额外的人工工作,无法支持高可用性需求。
2)端到端的测量。例如微软发表的Pingmesh论文,这类测量只有端到端的信息而没有网络的信息,但无法预知探测报文经历的是那一条等价路径,无法定位到具体问题。同时,测量流量无法完全还原真实流量的质量。
3)主被动探测结合。例如微软发表的Everflow论文,大致原理如下。如图1所示,网络运维人员通过交换机的Erspan功能,过滤、采集到特定的网络流量并上报给收集器。而后根据对特定流量的分析,从而检测网络异常事件的原因。但是,这类系统有如下几个缺陷。其一,流量的过滤和采集使用的是传统的头部空间解析(spatial filtering),而不是基于目标事件的采集(temporal filtering),如发生拥塞或延迟的报文,导致无法确保收集到全量网络事件。其二,空间解析带来大量无用报文的收集,使得该系统无法实时在线进行网络监控,只能做事后的推演和排查,从而大大降低了该系统的适用范围。经验表明,很多事件需要特定的多因素,或间歇性的触发,事后排查往往无法做到问题的尽快定位,某些情况甚至根本无法复现业务问题。
发明内容
本发明的目的在于提供一种网络异常事件感知方法和系统,以解决难以全量、准确捕捉物理网络设备中的统计信息及发生的事件的技术问题。
本发明第一方面提供了一种网络异常事件感知方法,所述网络异常事件感知方法包括:为所有报文插入INT探测报头,对报文进行采样并标注采样报文的所述INT探测报头;对报文进行INT相关操作,所述INT相关操作包括为报文添加INT元数据,所述INT元数据记录交换机处理报文时的状态信息且被添加在所述INT探测报头之后;筛选包含至少一跳交换机的INT元数据的报文,复制并上传该报文;对上传的报文进行初步汇总,生成子事件;对生成的子事件进行进一步的汇总,得到事件的最终汇总。
在本发明的一种改进实施方式中,所述对上传的报文进行初步汇总包括:将上传的报文分类为协议流量和可视化流量;将协议流量发送至交换机控制平面的BGP通报器以进行处理;对可视化流量进行预处理;对预处理的可视化流量进行负载均衡;对均衡后的报文进行排队;将经排队的报文中的可视化数据聚合为流级子事件,并上报子事件。
在本发明的一种改进实施方式中,所述对生成的子事件进行进一步的汇总包括:获取上报的子事件;根据事件类型,将获取的子事件分发到对应的功能子模块;对功能子模块收到的子事件进行进一步的汇总,得到汇总信息;根据汇总信息生成事件,并将事件写入数据库。
在本发明的一种改进实施方式中,在所述对报文进行INT相关操作中,当该报文在交换机中经历了网络异常事件时,或者,当该报文为标注的采样报文时,为该报文添加INT元数据。
在本发明的一种改进实施方式中,所述网络异常事件包括网络中发生的拥塞、丢包、报文路径变化和延时变化事件。
在本发明的一种改进实施方式中,所述状态信息包括入端口号、入队列号、出端口号、出队列号、报文进入交换机时间戳、报文离开交换机时间戳。
在本发明的一种改进实施方式中,在所述筛选包含至少一跳交换机的INT元数据的报文,复制并上传该报文之后,将所有报文的INT相关头部移除并发往给目的设备。
本发明第二方面提供了一种网络异常事件感知系统,所述网络异常事件感知系统包括:
数据采集部分,用于:
为所有报文插入INT探测报头,对报文进行采样并标注采样报文的所述INT探测报头,
对报文进行INT相关操作,所述INT相关操作包括为报文添加INT元数据,所述INT元数据记录交换机处理报文时的状态信息且被添加在所述INT探测报头之后,
筛选包含至少一跳交换机的INT元数据的报文,复制并上传该报文,
硬件事件分析部分,用于对数据采集部分上传的报文进行初步汇总,生成子事件;
软件事件分析部分,用于对硬件事件分析部分生成的子事件进行进一步的汇总,得到事件的最终汇总。
在本发明的一种改进实施方式中,所述硬件事件分析部分包括:分类器,用于将上传的报文分类为协议流量和可视化流量;BGP通报器,用于收集和发布协议流量;预处理器,用于对可视化流量进行预处理;负载均衡器,用于对预处理的可视化流量进行负载均衡;设备队列器,用于对均衡后的报文进行排队;事件提取模块,用于接收从所述设备队列器发送的报文并将报文中的可视化数据聚合为流级子事件,然后上报子事件。
在本发明的一种改进实施方式中,所述软件事件分析部分包括:获取模块,用于获取所述事件提取模块上报的子事件;分发器,用于根据事件类型,将获取模块获取的子事件分发到对应的功能子模块;功能子模块,用于进一步汇总从分发器收集到的子事件,并将汇总信息发送给数据库上报模块;数据库上报模块,用于根据从功能子模块发送的汇总信息生成事件,并将事件写入数据库。
本发明带来了以下有益效果:相较于现有技术,本发明提供的方案利用可视化带来的网络异常事件数据,快速实现网络自证清白,以及在遇到问题时快速定位问题根因并进行修复;利用网络可视化技术分析网络的实际使用情况,指导新的网络架构设计,以期达到缩减预算并提高网络利用率的目标;对于网络数据的精确、实时地分析,并且能够追踪业务的运行状态和理解业务间相互影响,对应用的部署提出指导;针对数据平面的实时监控,实现秒级的网络故障探测,实现业务对网络故障地自动绕行。因此,本发明的技术方案获得了全量、准确、实时的网络事件,用于故障诊断、拓扑评估等方面。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要的附图做简单的介绍:
图1是示出现有技术中的网络测量方法的示意图;
图2是示出本发明一实施例的网络异常事件感知方法的流程图;
图3是示出本发明一实施例的全量异常事件采集的流程图;
图4是示出本发明一实施例的P4硬件系统的逻辑设计图;
图5是示出本发明一实施例的DPDK server软件系统的逻辑设计图;
图6是示出本发明一实施例的网络异常事件感知系统的框图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
在对本发明的技术方案进行具体描述之前,首先对本发明中所提及的术语进行适当的解释。
本文中所提及的“INT”(“in-band networking telemetry”)是网络带内遥测技术,即,旨在允许通过数据平面收集和报告网络状态而无需干预或控制平面的工作的框架。
本文中所提及的“MoD”(“mirror-on-drop”)是上报交换机流水线丢包信息。
本文中所提及的“TCB”(“transient capture buffer”)是上报交换机队列丢包信息。
本文中所提及的“GPB”是指基于Protobuf协议,上传交换机吞吐、报文个数、丢包数、队列长度信息。
本文中所提及的“Erspan”是指基于报文复制的数据平面信息采集。
本文中所提及的“gRPC”是指一种高性能的RPC框架,基于Protobuf协议传输控制平面测量信息。
本文中所提及的“R5”是指博通商用产品交换机中的基于ARM的可编程芯片。
本文中所提及的“网络事件”是指在运行时,网络中发生的拥塞、丢包、报文路径变化、延时变化等情况。
为了使本发明的技术方案更加清楚、明白,下面将参照附图并结合具体实施例对本发明进行详细描述。
图2示出了根据本发明一实施例的网络异常事件感知方法的流程图。通常,常用数据中心网络拓扑为3层,分别为接入层、汇聚层、核心层。其中,接入层与服务器直接相连。在本实施例中,分别用Leaf,Agg,Core表示这三层。首先,在源服务器将报文发送到网络中后,在步骤S101,第一跳交换机为所有报文插入INT探测报头(INT probe header),对报文进行采样并标注采样报文的INT probe header。例如,如图3所示,与源服务器相连的第一跳Leaf交换机为所有报文插入INT probe header(S1)。INT probe header为一个标识,跟随在报文的传输层协议之后。同时,第一跳Leaf交换机对报文进行1:1000采样,并对采到的报文的INT probe header进行特殊标记(S2)。
接下来,在步骤S102,报文路径沿途的每一跳交换机对报文进行INT相关操作。例如,如图3所示,沿途每一跳交换机(包括第一跳Leaf交换机)对报文进行INT相关操作(S3至S5)。所述INT相关操作包括为报文添加INT元数据(INT metadata)。INT metadata为一个报文首部,跟随在INT probe header之后,各交换机对应的INT metadata顺次排列。INTmetadata记录了每一跳交换机处理报文时的状态,包括入端口号、入队列号、出端口号、出队列号、报文进入交换机时间戳、报文离开交换机时间戳。
一个交换机只会在两种情况下为报文添加INT metadata。一是报文在该交换机中经历了网络异常事件时,如拥塞或路径变化。此处,让每个交换机学习和记录流经交换机的所有流。当某交换机发现一条新流时,说明这条流很可能之前在另外一条路径上,刚刚变换过来。二是该报文为第一跳Leaf交换机标注的采样报文。对于此类报文,报文路径沿途所有交换机都会添加INT metadata,用于网络整体情况收集。
然后,在步骤S103,最后一跳交换机筛选包含至少一跳交换机的INT元数据的报文,将该报文复制并上传给目的设备。例如,如图3所示,最后一跳Leaf交换机会筛选包含至少一跳交换机的INT metadata的报文,将该报文复制并上报收集器(S6)。然后,将所有报文的INT相关头部移除,发往目的服务器(S7)。因此,目的服务器不会收到INT相关信息。
通过上述步骤采集到的数据类型包括如下:
(1)MOD:在pipeline发生丢包时,且符合支持的drop reason的情况下捕获丢包的首个packet前80字节截取后上传,并在芯片的table中形成一个动态学习的flow entry。之后的每个drop都由芯片完成统计和状态维护,直至一个超时周期无任何drop统计更新,通告drop stop。支持的丢包原因如下表1所示:
表1.丢包原因代号及其描述
(2)TCB:在MMU发生丢包的时候,对发生丢包的queue做丢包信息的捕获,并将丢包报文的前80字节截取后外送。TCB当前的硬件设计一次只能支持单次捕获一个queue的丢包。所以我们必须通过主动配置的方法来调整port+queue采集对象。同时由于TCB的buffer只有1000cell,所以无法100%的反馈queue当中所有丢掉的包。
(3)GPB:以秒级的颗粒度采集整设备所有端口所有queue的buffer信息,包括:deivce_ip/interface_name/queue_id/queue_packets(queue发送数据包的总数量)/cur_buffer_oocupancy/peak_buffer_occupancy/tail_drop_pkts/ingress_pkts/ingress_bytes/ingress_errs(非拥塞丢包数量,不同类型的err有分别的统计量)/egress_pkts/egress_bytes/egress_errs。
(4)INT:通过随数据包逐跳检测的方式,将每一跳的转发质量以具体数据的形式写入INT header(包含:switch ID,ingress/egress port ID,ingress/egress queue id,ingress/egress latency),作为网络转发质量数据化的关键输入。
上述步骤S101至S103对应于本实施例的网络异常事件感知方法的网络事件采集流程。通过该采集流程,采集到了量化的网络服务质量数据。这里的网络服务质量数据主要包括关于延时(latency)、丢包(drop)和/或路径(path)的数据。数字化采集的重点在于带内的数据生产和采集,数据化的过程随着流量转发完成,而非异步的检测或者探测。数据化的精度要做到flow级别(甚至到packet级别)。
接下来,对采集的网络服务质量数据进行进一步的分析。此分析包括硬件系统的分析和软件系统的分析。在步骤S104,通过硬件系统(例如,P4硬件系统),对上传的报文进行初步汇总,生成子事件。例如,如图4所示,交换机上传的原始可视化报文将首先送达P4硬件系统,P4硬件系统将原始MOD、INT数据进行初步汇总,生成子事件,同时处理协议相关流量。
首先,所有报文通过P4硬件的网口,进入分类器(Classifier)模块(S11)。该模块主要功能是区分BGP路由协议流量,和可视化流量。原因如下:P4硬件系统需要与之相连的交换机之间建立BGP peer,并对外发布P4硬件系统的路由,从而引导可视化流量进入P4硬件(S12)。BGP协议相关流量,由位于P4硬件系统控制平面的BGP通报器(Announcer)处理(S13),可视化流量由位于P4硬件数据平面进行处理。因此Classifier识别流量类型,并将之分发到对应平面进行处理。
第二,可视化流量进入预处理器(Preprocessor)。预处理器根据报文携带的可视化信息,计算具体网络状态,如各交换机的处理延时、路径整体延时求和,并对延时分为两级(Latency Grader),超过某一阈值的延时认为是高延时;低于阈值的延时认为是低延时。随后,预处理器对报文进行哈希,生成报文摘要,用于后续进行负载均衡(S14)。
第三,报文进入负载均衡器(Load Balancer)。根据报文中存储的事件类型和报文摘要,将报文等分成多份,每份由后续相同功能的多个事件提取模块各自进行处理。这样做可以充分利用整个P4硬件系统中的资源。
第四,报文进入mmu(P4设备队列系统)进行排队(S16),并发送到对应功能模块(Event Extractor)中(S15)。
第五,报文在离开队列后,进入对应的事件提取模块。事件提取模块将原始的可视化数据,即逐报文的可视化信息,初步聚合为流级子事件,包括拥塞(Congestion)、丢包(Loss)、路径或延时变化(Change)(S17)。这次,对于每个事件,我们总结事件类型、事件原因、涉及的流、每个流涉及到事件的报文个数。
最后,事件提取模块通过事件上报模块(S18),上报子事件至软件系统(S19)。至此,硬件系统处理流程终结。
此后,在步骤S105,通过软件系统(例如,DPDK server软件),对生成的子事件进行进一步的汇总,得到事件的最终汇总。例如,如图5所示,DPDK server承担事件汇总和数据库存储功能。软件分析模块从P4硬件模块获取经过初步处理的子事件(S21),由分发器根据事件类型分发到各功能子模块(S22),进一步汇总拥塞、丢包、路径变化与延时变化、统计信息等数据,最终通过kni驱动,将信息从用户空间送入内核中的数据库上报器(S23),将生成的事件写入数据库并进行可视化展示(S25)。此处需要调用内核空间协议栈,与远端数据库服务器进行通信(S24)。
综上所述,本实施例的网络异常事件感知方法产生如下有益技术效果:1)短期,利用可视化带来的网络异常事件数据,快速实现网络自证清白,以及在遇到问题时快速定位问题根因并进行修复;2)短期,利用网络可视化技术分析网络的实际使用情况,指导新的网络架构设计,以期达到缩减预算并提高网络利用率的目标;3)中期,对于网络数据的精确、实时地分析,并且能够追踪业务的运行状态和理解业务间相互影响,对应用的部署提出指导;4)长期,针对数据平面的实时监控,实现秒级的网络故障探测,实现业务对网络故障地自动绕行。因此,本发明的网络异常事件感知方法获得了全量、准确、实时的网络事件,用于故障诊断、拓扑评估等方面。
此外,本发明还提供一种用于实现上述方法的网络异常事件感知系统,所述网络异常事件感知系统1000包括数据采集部分1001、硬件事件分析部分1002和软件事件分析部分1003。
数据采集部分1001中的第一跳交换机为所有报文插入INT探测报头,对报文进行采样并标注采样报文的所述INT探测报头。数据采集部分1001中的报文路径沿途的交换机对报文进行INT相关操作。所述INT相关操作包括为报文添加INT metadata。INT metadata为一个报文首部,跟随在INT probe header之后,各交换机对应的INT metadata顺次排列。INT metadata记录了每一跳交换机处理报文时的状态,包括入端口号、入队列号、出端口号、出队列号、报文进入交换机时间戳、报文离开交换机时间戳。
一个交换机只会在两种情况下为报文添加INT metadata。一是报文在该交换机中经历了网络异常事件时,如拥塞或路径变化。此处,让每个交换机学习和记录流经交换机的所有流。当某交换机发现一条新流时,说明这条流很可能之前在另外一条路径上,刚刚变换过来。二是该报文为第一跳Leaf交换机标注的采样报文。对于此类报文,报文路径沿途所有交换机都会添加INT metadata,用于网络整体情况收集。
数据采集部分1001中的最后一跳交换机筛选包含至少一跳交换机的INT元数据的报文,将该报文复制并上传给目的设备。例如,如图3所示,最后一跳Leaf交换机会筛选包含至少一跳交换机的INT metadata的报文,将该报文复制并上报收集器。然后,将所有报文的INT相关头部移除,发往目的服务器。因此,目的服务器不会收到INT相关信息。
硬件事件分析部分1002对数据采集部分上传的报文进行初步汇总,生成子事件。硬件事件分析部分1002可以包括:分类器,用于将上传的报文分类为协议流量和可视化流量;预处理器,用于对可视化流量进行预处理;负载均衡器,用于对预处理的可视化流量进行负载均衡;设备队列器,用于对均衡后的报文进行排队;事件提取模块,用于接收从所述设备队列器发送的报文并将报文中的可视化数据聚合为流级子事件,然后上报子事件。
软件事件分析部分1003对硬件事件分析部分生成的子事件进行进一步的汇总,得到事件的最终汇总。软件事件分析部分1003可以包括:获取模块,用于获取所述事件提取模块上报的子事件;分发器,用于根据事件类型,将获取模块获取的子事件分发到对应的功能子模块;功能子模块,用于进一步汇总从分发器收集到的子事件,并将汇总信息发送给数据库上报模块;数据库上报模块,用于根据从功能子模块发送的汇总信息生成事件,并将事件写入数据库。
同样地,本实施例的网络异常事件感知系统可以产生如下有益技术效果:1)短期,利用可视化带来的网络异常事件数据,快速实现网络自证清白,以及在遇到问题时快速定位问题根因并进行修复;2)短期,利用网络可视化技术分析网络的实际使用情况,指导新的网络架构设计,以期达到缩减预算并提高网络利用率的目标;3)中期,对于网络数据的精确、实时地分析,并且能够追踪业务的运行状态和理解业务间相互影响,对应用的部署提出指导;4)长期,针对数据平面的实时监控,实现秒级的网络故障探测,实现业务对网络故障地自动绕行。因此,采用本发明的网络异常事件感知系统,可以获得了全量、准确、实时的网络事件,用于故障诊断、拓扑评估等方面。
由此可知,本发明提供了全量的网络异常事件汇报。能够为承载的业务提供所有丢包、延迟、路径变化等异常事件的及时汇报。在业务问题排查中,也能够做到网络问题的自证清白,加快故障定位和恢复的速度。此外,本发明还提供了软硬件一体化的事件处理系统。软件提供统一的控制和业务汇报功能,并且提供硬件异构性地接口支持。硬件提供特定网络处理的加速,并能支持大流量的实时在线处理。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种网络异常事件感知方法,其特征在于,所述网络异常事件感知方法包括:
为所有报文插入INT探测报头,对报文进行采样并标注采样报文的所述INT探测报头;
对报文进行INT相关操作,所述INT相关操作包括为报文添加INT元数据,所述INT元数据记录交换机处理报文时的状态信息且被添加在所述INT探测报头之后;
筛选包含至少一跳交换机的INT元数据的报文,复制并上传该报文;
对上传的报文进行初步汇总,生成子事件;
对生成的子事件进行进一步的汇总,得到事件的最终汇总。
2.根据权利要求1所述的网络异常事件感知方法,其特征在于,所述对上传的报文进行初步汇总包括:
将上传的报文分类为协议流量和可视化流量;
将协议流量上传到交换机控制平面的BGP通报器以进行处理;
对可视化流量进行预处理;
对预处理的可视化流量进行负载均衡;
对均衡后的报文进行排队;
将经排队的报文中的可视化数据聚合为流级子事件,并上报子事件。
3.根据权利要求2所述的网络异常事件感知方法,其特征在于,所述对生成的子事件进行进一步的汇总包括:
获取上报的子事件;
根据事件类型,将获取的子事件分发到对应的功能子模块;
对功能子模块收到的子事件进行进一步的汇总,得到汇总信息;
根据汇总信息生成事件,并将事件写入数据库。
4.根据权利要求3所述的网络异常事件感知方法,其特征在于,在所述对报文进行INT相关操作中,当该报文在交换机中经历了网络异常事件时,或者,当该报文为标注的采样报文时,为该报文添加INT元数据。
5.根据权利要求4所述的网络异常事件感知方法,其特征在于,所述网络异常事件包括网络中发生的拥塞、丢包、报文路径变化和延时变化事件。
6.根据权利要求1至5中任一项所述的网络异常事件感知方法,其特征在于,所述状态信息包括入端口号、入队列号、出端口号、出队列号、报文进入交换机时间戳、报文离开交换机时间戳。
7.根据权利要求6所述的网络异常事件感知方法,其特征在于,在所述筛选包含至少一跳交换机的INT元数据的报文,复制并上传该报文之后,将所有报文的INT相关头部移除并发往给目的设备。
8.一种网络异常事件感知系统,其特征在于,所述网络异常事件感知系统包括:
数据采集部分,用于:
为所有报文插入INT探测报头,对报文进行采样并标注采样报文的所述INT探测报头,
对报文进行INT相关操作,所述INT相关操作包括为报文添加INT元数据,所述INT元数据记录交换机处理报文时的状态信息且被添加在所述INT探测报头之后,
筛选包含至少一跳交换机的INT元数据的报文,复制并上传该报文;
硬件事件分析部分,用于对数据采集部分上传的报文进行初步汇总,生成子事件;
软件事件分析部分,用于对硬件事件分析部分生成的子事件进行进一步的汇总,得到事件的最终汇总。
9.根据权利要求8所述的网络异常事件感知系统,其特征在于,所述硬件事件分析部分包括:
分类器,用于将上传的报文分类为协议流量和可视化流量;
BGP通报器,用于收集和发布协议流量;
预处理器,用于对可视化流量进行预处理;
负载均衡器,用于对预处理的可视化流量进行负载均衡;
设备队列器,用于对均衡后的报文进行排队;
事件提取模块,用于接收从所述设备队列器发送的报文并将报文中的可视化数据聚合为流级子事件,然后上报子事件。
10.根据权利要求9所述的网络异常事件感知系统,其特征在于,所述软件事件分析部分包括:
获取模块,用于获取所述事件提取模块上报的子事件;
分发器,用于根据事件类型,将获取模块获取的子事件分发到对应的功能子模块;
功能子模块,用于进一步汇总从分发器收集到的子事件,并将汇总信息发送给数据库上报模块;
数据库上报模块,用于根据从功能子模块发送的汇总信息生成事件,并将事件写入数据库。
CN201910064519.9A 2019-01-23 2019-01-23 网络异常事件感知方法和系统 Active CN109787833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910064519.9A CN109787833B (zh) 2019-01-23 2019-01-23 网络异常事件感知方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910064519.9A CN109787833B (zh) 2019-01-23 2019-01-23 网络异常事件感知方法和系统

Publications (2)

Publication Number Publication Date
CN109787833A true CN109787833A (zh) 2019-05-21
CN109787833B CN109787833B (zh) 2020-05-08

Family

ID=66502290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910064519.9A Active CN109787833B (zh) 2019-01-23 2019-01-23 网络异常事件感知方法和系统

Country Status (1)

Country Link
CN (1) CN109787833B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111371754A (zh) * 2020-02-24 2020-07-03 盛科网络(苏州)有限公司 一种带有int数据段的业务报文及业务报文的处理方法
CN111769998A (zh) * 2019-08-13 2020-10-13 北京京东尚科信息技术有限公司 一种网络时延状态的探测方法及装置
CN112152876A (zh) * 2020-09-09 2020-12-29 锐捷网络股份有限公司 一种获取丢包信息的方法及装置
WO2021012291A1 (en) * 2019-07-25 2021-01-28 Huawei Technologies Co., Ltd. Device and method for exporting telemetry data
CN113162800A (zh) * 2021-03-12 2021-07-23 电子科技大学 一种基于强化学习的网络链路性能指标异常定位方法
CN113259143A (zh) * 2020-02-07 2021-08-13 阿里巴巴集团控股有限公司 信息处理方法、设备、系统及存储介质
CN113328956A (zh) * 2021-06-07 2021-08-31 新华三技术有限公司 一种报文处理方法及装置
CN113676345A (zh) * 2021-07-09 2021-11-19 苏州浪潮智能科技有限公司 一种交换机故障的定位方法、系统及装置
CN113747254A (zh) * 2021-09-08 2021-12-03 浙江大学 一种基于带内网络遥测的视频流调度方法和调度系统
CN113938407A (zh) * 2021-09-02 2022-01-14 北京邮电大学 基于带内网络遥测系统的数据中心网络的故障检测方法及装置
CN114006806A (zh) * 2021-10-26 2022-02-01 苏州浪潮智能科技有限公司 报文处理方法、装置、交换机设备和存储介质
CN114553757A (zh) * 2022-01-29 2022-05-27 阿里巴巴(中国)有限公司 基于可编程交换机的协议报文处理方法、装置和设备
CN115885503A (zh) * 2020-07-15 2023-03-31 华为技术有限公司 利用网络内int采样和聚合进行实时全网链路延迟监控

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120082057A1 (en) * 2009-06-09 2012-04-05 Telefonaktiebolaget Lm Ericsson Power-saving functions in communications networks
CN108011837A (zh) * 2017-11-21 2018-05-08 新华三技术有限公司 报文处理方法及装置
CN108111432A (zh) * 2017-12-27 2018-06-01 新华三技术有限公司 报文转发方法及装置
CN108199924A (zh) * 2018-01-26 2018-06-22 北京邮电大学 基于带内网络遥测的全网流量可视化方法及装置
CN108259344A (zh) * 2017-11-29 2018-07-06 新华三技术有限公司 遥测Telemetry方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120082057A1 (en) * 2009-06-09 2012-04-05 Telefonaktiebolaget Lm Ericsson Power-saving functions in communications networks
CN108011837A (zh) * 2017-11-21 2018-05-08 新华三技术有限公司 报文处理方法及装置
CN108259344A (zh) * 2017-11-29 2018-07-06 新华三技术有限公司 遥测Telemetry方法和装置
CN108111432A (zh) * 2017-12-27 2018-06-01 新华三技术有限公司 报文转发方法及装置
CN108199924A (zh) * 2018-01-26 2018-06-22 北京邮电大学 基于带内网络遥测的全网流量可视化方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘争争,毕军,周禹,王旸旸,林耘森箫: "基于P4的主动网络遥测机制", 《通信学报》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114175595A (zh) * 2019-07-25 2022-03-11 华为技术有限公司 导出遥测数据的设备和方法
WO2021012291A1 (en) * 2019-07-25 2021-01-28 Huawei Technologies Co., Ltd. Device and method for exporting telemetry data
CN111769998A (zh) * 2019-08-13 2020-10-13 北京京东尚科信息技术有限公司 一种网络时延状态的探测方法及装置
CN113259143A (zh) * 2020-02-07 2021-08-13 阿里巴巴集团控股有限公司 信息处理方法、设备、系统及存储介质
CN113259143B (zh) * 2020-02-07 2023-04-18 阿里巴巴集团控股有限公司 信息处理方法、设备、系统及存储介质
CN111371754A (zh) * 2020-02-24 2020-07-03 盛科网络(苏州)有限公司 一种带有int数据段的业务报文及业务报文的处理方法
CN115885503A (zh) * 2020-07-15 2023-03-31 华为技术有限公司 利用网络内int采样和聚合进行实时全网链路延迟监控
CN112152876A (zh) * 2020-09-09 2020-12-29 锐捷网络股份有限公司 一种获取丢包信息的方法及装置
CN112152876B (zh) * 2020-09-09 2022-01-11 锐捷网络股份有限公司 一种获取丢包信息的方法及装置
CN113162800A (zh) * 2021-03-12 2021-07-23 电子科技大学 一种基于强化学习的网络链路性能指标异常定位方法
CN113162800B (zh) * 2021-03-12 2022-06-14 电子科技大学 一种基于强化学习的网络链路性能指标异常定位方法
CN113328956B (zh) * 2021-06-07 2022-07-01 新华三技术有限公司 一种报文处理方法及装置
CN113328956A (zh) * 2021-06-07 2021-08-31 新华三技术有限公司 一种报文处理方法及装置
CN113676345A (zh) * 2021-07-09 2021-11-19 苏州浪潮智能科技有限公司 一种交换机故障的定位方法、系统及装置
CN113938407A (zh) * 2021-09-02 2022-01-14 北京邮电大学 基于带内网络遥测系统的数据中心网络的故障检测方法及装置
CN113938407B (zh) * 2021-09-02 2023-06-20 北京邮电大学 基于带内网络遥测系统的数据中心网络的故障检测方法及装置
CN113747254A (zh) * 2021-09-08 2021-12-03 浙江大学 一种基于带内网络遥测的视频流调度方法和调度系统
CN114006806A (zh) * 2021-10-26 2022-02-01 苏州浪潮智能科技有限公司 报文处理方法、装置、交换机设备和存储介质
CN114006806B (zh) * 2021-10-26 2023-08-15 苏州浪潮智能科技有限公司 报文处理方法、装置、交换机设备和存储介质
CN114553757A (zh) * 2022-01-29 2022-05-27 阿里巴巴(中国)有限公司 基于可编程交换机的协议报文处理方法、装置和设备

Also Published As

Publication number Publication date
CN109787833B (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN109787833A (zh) 网络异常事件感知方法和系统
US11750483B2 (en) In-line performance monitoring
Yu et al. Flowsense: Monitoring network utilization with zero measurement cost
US9577906B2 (en) Scalable performance monitoring using dynamic flow sampling
US10740027B2 (en) High speed logging system
CN105721184B (zh) 一种网络链路质量的监控方法及装置
USRE48645E1 (en) Exporting real time network traffic latency and buffer occupancy
US8612625B2 (en) Characterizing data flow in a network based on a footprint measurement and taking action to avoid packet loss including buffer scaling or traffic shaping by adapting the footprint measurement
US20030005145A1 (en) Network service assurance with comparison of flow activity captured outside of a service network with flow activity captured in or at an interface of a service network
CN107645542A (zh) 一种应用于云审计系统的数据采集装置
CN107872457B (zh) 一种基于网络流量预测进行网络操作的方法及系统
CN115776449B (zh) 列车以太网通信状态监测方法及系统
CN104320301B (zh) 一种内网专线流量监控方法及系统
CN108259364A (zh) 一种网络拥塞确定方法及装置
JP4523395B2 (ja) ユーザ体感品質監視装置および方法
CN116599904A (zh) 并行传输负载均衡装置及方法
CN110071843B (zh) 一种基于流路径分析的故障定位方法及装置
CN110113205A (zh) 一种基于软件定义网络技术的网络排障系统及其工作方法
CN111726410B (zh) 用于分散计算网络的可编程实时计算和网络负载感知方法
CN110838949A (zh) 一种网络流量日志记录方法及装置
CN111756642A (zh) 一种基于dpi和机器学习的网络流量调度系统及方法
Bezerra et al. Deploying per-packet telemetry in a long-haul network: the AmLight use case
CN108667680B (zh) 一种多链路实时数据流传输的监控系统及方法
CN114301640B (zh) 一种基于SRv6网络协议进行的攻防演练的方法及系统
Wu et al. A network business quality intelligent assessment and fault location method based on IFIT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant