CN116996392A

CN116996392A - 一种基于加权有向图算法的流量路径重构方法及系统

Info

Publication number: CN116996392A
Application number: CN202311254711.7A
Authority: CN
Inventors: 胡家睿; 李鑫; 杨淑棉; 周洋; 赵大伟; 徐丽娟; 仝丰华; 陈川
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-11-03
Anticipated expiration: 2043-09-27
Also published as: CN116996392B

Abstract

本发明公开了一种基于加权有向图算法的流量路径重构方法及系统，涉及计算机网络技术领域。该方法包括步骤：采集待发送的流量数据，并对流量数据进行格式转化；根据流量数据的报文头格式，对流量数据进行提取；根据每一条报文的采样数据据创建子路径，并对子路径进行去重和排序；确定目标流路径，将其余子路径并行生成并进行对比，生成旁路路径；创建单向加权有向图，对目标流路径和旁路路径分别赋值；根据每条路径的路径终点进行权值更新，根据更新后的路径权值重新构造加权有向图；将重新构造的加权有向图中权重最大的路径作为重构路径。本发明能够实现更精确、全面的流量路径重构,以助于网络监控、故障定位和性能优化。

Description

一种基于加权有向图算法的流量路径重构方法及系统

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种基于加权有向图算法的流量路径重构方法及系统。

背景技术

在当今互联网时代，网络流量统计和监控变得越来越重要。尤其是对于大型企业和组织来说，它们需要实时监控和管理网络流量，以确保网络的稳定性和安全性。然而，随着网络流量的增加和网络结构的复杂性增加，如何高效地进行网络管理和监控成为了一个挑战。

目前，已经有一些网络流量监控和管理技术，比如NetFlow、sFlow等。其中，sFlow是一种自适应、采样网络流量的技术，在网络设备上采集数据包头部信息，并周期性地将采集到的数据打包发送到指定的控制器上。

然而，采集到的sFlow数据中包含大量的信息，如何从中提取关键信息，并尽可能完整地利用流量信息进行路径重构，以便更好地进行网络管理和监控成为了一个问题。路径重构技术是指基于采集到的网络流量信息，利用算法重新构造数据包在网络中的传输路径。在网络管理中，对网络流量的监控和管理需要了解网络中的拓扑结构以及每个数据包的传输路径，以便针对瓶颈和故障进行分析和解决。因此，路径重构技术是网络管理和监控的关键技术之一。

随着网络规模和复杂度的增加,仅依靠传统的TTL回溯法进行流量路径重构面临诸多限制。TTL回溯法仅根据TTL值大小顺序推断路径,很难处理复杂拓扑中的多条备用路径。且该方法无法判断路径的优先级,无法识别主要流量路径。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种基于加权有向图算法的流量路径重构方法及系统，通过加权图算法构建表示网络拓扑的加权有向图,根据提取的关键数据计算路径权重,实现流量主路径的识别，从而实现更精确、全面的流量路径重构,以助于网络监控、故障定位和性能优化。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明第一方面提供了一种基于加权有向图算法的流量路径重构方法，包括以下步骤：

采集待发送的流量数据，并对流量数据进行格式转化；

根据流量数据的报文头格式，对流量数据进行提取；

根据每一条报文的采样数据据创建子路径，并对子路径进行去重和排序；

确定目标流路径，将其余子路径并行生成并进行对比，生成旁路路径；

创建单向加权有向图，对目标流路径和旁路路径分别赋值；

根据每条路径的路径终点进行权值更新，根据更新后的路径权值重新构造加权有向图；

将重新构造的加权有向图中权重最大的路径作为重构路径。

进一步的，所述提取的流量数据包括流数据的序号、TTL值、代理IP地址、下一跳地址、源IP地址、目的IP地址、TCP源端口号和TCP目的端口号。

更进一步的，对子路径进行去重和排序的具体步骤为：

对于所有子路径，利用五元组将同一流的数据划分到一起，并将基本信息相同的数据进行去重；

针对筛选出的同一流的数据，按照TTL值进行排序。

进一步的，将源IP地址设定为路径起点,目标IP地址设定为路径终点，从而得到目标流路径，代理IP地址和下一跳IP地址用于确定路由拓扑。

进一步的，根据时间戳划定时间窗口，在时间窗口内创建子路径。

更进一步的，创建单向加权有向图之前，对时间窗口内子集中每条流生成总路径。

进一步的，在子路径中确定目标流路径后，对目标流路径进行初始化，具体的，将目标流路径中TTL值最大的子路径作为初始路径。

进一步的，将其余子路径并行生成并进行对比，生成旁路路径的具体步骤为：

如果新节点的TTL值比当前节点TTL值小1,且下一跳地址与当前节点的下一跳一致,则将新节点加入当前路径,表示找到了前进一跳的路由信息；

如果新节点TTL值小于当前节点,但下一跳与当前跳不同,则继续遍历数据查找TTL更小且下一跳一致的新路径节点信息,以确定正确的下一跳地址；

如果下一跳地址为空或为非法地址,表示数据包已到达路径终点或者被防火墙拦截，无需加入路径。

进一步的，根据每条路径的路径终点进行权值更新的具体步骤为：

构建空的加权有向图表示所有可能路径;

对已构建路径中的每条边设定权重,权重值与该路径在数据集中的出现次数相关;

对数据集中每条路径,若路径终点为目标地址,则在加权有向图中创建路径节点和边,并更新边权重;

最终获得包含所有目标地址终点路径的加权有向图,边权重表示路径出现次数。

本发明第二方面提供了一种基于加权有向图算法的流量路径重构系统，包括：

数据采集模块，被配置为采集待发送的流量数据，并对流量数据进行格式转化；

数据提取模块，被配置为根据流量数据的报文头格式，对流量数据进行采样数据提取；根据每一条报文的采样数据据创建子路径，并对子路径进行去重和排序；

数据分析模块，被配置为确定目标流路径，将其余子路径并行生成并进行对比，生成旁路路径；创建单向加权有向图，对目标流路径和旁路路径分别赋值；根据每条路径的路径终点进行权值更新，根据更新后的路径权值重新构造加权有向图；将重新构造的加权有向图中权重最大的路径作为重构路径。

以上一个或多个技术方案存在以下有益效果：

本发明提出一种基于加权有向图算法的流量路径重构方法及系统，为解决现有TTL回溯法的不足,该方法通过构建带权重的网络路径图,综合各条路径的统计特征,能够识别网络中流量分布最集中的主要路径,即实际负载最高的路径，通过权重计算判断路径优先级,解决复杂拓扑中的路径选择困难。还能够补充中间节点信息,使重构路径更加完整准确，兵自动验证不同路径的一致性,避免产生错误路径。综上,该加权有向图算法可以有效解决简单TTL回溯法存在的困难,实现更精确、全面的流量路径重构,以助于网络监控、故障定位和性能优化。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中基于加权有向图算法的流量路径重构方法流程图；

图2为本发明实施例一中sFlow报文格式示意图；

图3为本发明实施例一中根据节点信息生成的加权示例图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合；

术语解释：

TTL：Time-to-Live，意思是字段在指定IP包被路由器丢弃之前允许通过的最大网段数量。

SFlow：sFlow是基于标准的最新网络导出协议（RFC 3176），能够解决当前网络管理人员面临的很多问题。通过将sFlow技术嵌入到网络路由器和交换机ASIC芯片中，sFlow已经成为一项线速运行的“一直在线”技术。与使用镜像端口、探针和旁路监测技术的传统网络监视解决方案相比，sFlow能够大大降低实施费用，采用它，一种面向每一个端口的全网络监视解决方案成为可能。

路径重构：路径重构是指基于采集到的网络流量相关数据，通过分析、处理和计算等技术，确定数据包在网络中的传输路径。在网络管理中，了解网络流量的传输路径可以帮助网络管理员更好地理解网络瓶颈、故障、热点、拥塞等信息，有助于改善网络性能和可靠性，并加强网络安全。在网络遭受攻击，DDOS攻击或者匿名攻击，也可利用重构的路径来定位真正的攻击者。

实施例一：

本发明实施例一提供了一种基于加权有向图算法的流量路径重构方法，以SFlow流为例，如图1所示，捕获SFlow流数据集，提取序号、TTL值、代理IP地址、下一跳地址、源IP地址、目标IP地址、TCP源端口号和TCP目的端口号等信息并进行保存，创建每一条报文的初始路径。根据五元组进行判断，将同一流的数据划分到一起，并且将基本信息相同的数据去重，按照TTL值进行排序。根据时间戳划分时间窗口，创建时间窗口内目标流与其他辅助路径判断流的子集。生成时间窗口内子集中每条流的总路径。将目标流路径TTL值最大的子路径作为初始路径，将TTL值向下遍历，不断更新路径，直到在数据中遍历到最小的TTL值或下一跳地址为无效数据。将窗口子集中的每条路径生成并进行对比，生成旁路路径。创建单向加权有向图，对目标流路径赋予初始权值，对于辅助的旁路路径赋予较低的权值。根据旁路路径是否与目标路径相同，进行路径的权值更新，根据更新后的路径重新构造加权有向图，以源IP为起点，目标IP为终点，在加权有向图中输出权值最大的路径为重构路径。

具体包括以下步骤：

步骤1，采集待发送的流量数据，并对流量数据进行格式转化。

步骤1.1，设置sFlow控制器代理及sFlow收集器：在关键的路由节点及边缘路由器设置sFlow控制器代理及sFlow收集器，以便采集数据sFlow数据。本实施例隔离源数据与收集器，采用自主分析的方式。

采用sFlow的网络大多选择sFlow代理和sFlow收集器进行流量监控。本发明中采用常规的sFlow代理及sFlow收集器，采用Flow采样，Flow采样的报文中字段很多，有截取的原数据报文，还有针对各种协议解析的报文，还有针对报文转发的字段等等，这些都表明Flow报文中含有丰富的信息。考虑到对于采集数据有留档和手动分析的要求，本发明隔离源数据与收集器，采用wireshark等流量分析工具在收集器的端口处进行sFlow数据包的捕获和格式转化。

步骤1.2，在sFlow收集器处采用抓包工具wireshark、tcpdump等捕获数据包，采用脚本将捕获的数据包转化为JSON格式以便送入本发明的分析装置进行解析。

步骤1.3，读取JSON文件：程序会在初始化阶段读取实时捕获或离线保存的sFlow的sFlow的JSON文件，并将文件中的元数据和内容信息保存到程序内存中，以供后续数据处理和分析使用。

步骤1.4，递归获取关键值：程序使用递归算法查找每个数据流中是否包含Expanded flow sample键。如果找到了该键，则程序会将其存储在一个列表中，以便后续的数据分析和提取。该键嵌套了详细的流数据内容。

步骤2，根据流量数据的报文头格式，对流量数据进行提取。程序会从遍历的每一个sFlow包中提取采样数据，然后从采样数据中提取所有需要的信息，包括流数据的序号、TTL值、代理IP地址、下一跳地址、源IP地址、目的IP地址、TCP源端口号、TCP目的端口号和单条流构成的路径信息等。所有这些数据都将被用于后续分类和排序操作。

本实施例针对json格式的sFlow数据包进行采样数据提取。sFlow报文共有4种报文头格式，分别为Flow sample、Expanded Flow sample、Counter sample、ExpandedCounter sample。其中Expanded Flow sample和Expanded Counter sample是sFlowversion5新增内容，是Flow sample和Counter sample的扩展，但不前向兼容。所有的Extended的采样内容必须使用Expanded采样报文头封装。sFlow的报文格式如图2所示。本发明的装置针对Expanded Flow sample进行提取，因为Expanded Flow sample中携带大量信息可以用于分析、构建路径。本发明的方法是一种通用模式，稍作修改便可提取任一报文数据。

步骤3，根据每一条报文的采样数据据创建子路径，并对子路径进行去重和排序。其中，先根据时间戳进行时间窗口的划分，然后对时间窗口内的数据进行去重和排序处理。

具体操作包括，判断是否输出所有行：程序会根据用户输入的源IP地址和目的IP地址，即攻击者IP或受害者IP，决定是否需要输出所有行或者只输出匹配条件的行。

写入数据到CSV文件：程序会打开一个CSV文件，将第一行作为表头写入文件。然后，程序会按照用户输入的条件逐行写入数据到CSV文件中。仅当源IP和目的IP符合用户输入时，才会将该行数据写入文件。选择写入csv的原因是方便后续手动分析或存档。

按源IP、目的IP、源端口、目的端口排序：程序会读取排序后的CSV文件，并按照TTL值进行排序。程序会对保存数据进行降重，并且根据时间戳划定时间窗口，以便后续进行路径重构工作。

步骤3.1，提取的源数据根据每一条报文据创建子路径加入到保存的信息中，即源IP地址到代理IP地址到下一跳IP地址到目的IP地址，组成的子路径。

步骤3.2，然后针对数据进行去重和排序处理。首先利用五元组将同一流的数据划分到一起，并且将基本信息相同的数据进行去重，以面对针对大型流量分析而存储空间受限的问题。针对筛选出的同一流数据，按照TTL值进行排序，来确定所记录的路由器与目的IP的远近关系，作为确定路径的依据。其中，五元组指源IP地址, 目的IP地址, 协议号, 源端口, 目的端口。通常，在一个时间窗口内具有相同源IP地址、源端口、目的IP地址、目的端口和传输协议的所有传输协议的所由传输的网路数据包都被聚合成一个流。

步骤4，确定目标流路径，将其余子路径并行生成并进行对比，生成旁路路径。

步骤4.1，将源IP地址设定为路径起点,目标IP地址设定为路径终点，从而得到目标流路径，代理IP地址和下一跳IP地址用于确定路由拓扑。

步骤4.1.1，根据时间戳划定时间窗口，在时间窗口内创建子路径。

步骤4.1.2，创建单向加权有向图之前，对时间窗口内子集中每条流生成总路径。具体的，对每条流,构建完整路径,包括从源地址到第一跳地址的段路径,以及从后续下一跳地址到目标地址的段路径。

步骤4.1.3，在子路径中确定目标流路径后，对目标流路径进行初始化，具体的，将目标流路径中TTL值最大的子路径作为初始路径。

首先,从第一条采样数据开始,构建初始路径包括源地址、代理地址、下一跳地址和目标地址。此初始路径对应的是TTL值最大的采样数据,即距离目标地址最远的路径信息。后续将在该初始路径的基础上插入中间节点,并构建加权有向图。

步骤4.2，将其余子路径并行生成并进行对比，生成旁路路径的具体步骤为：

步骤4.2.1，如果新节点的TTL值比当前节点TTL值小1,且下一跳地址与当前节点的下一跳一致,则将新节点加入当前路径,表示找到了前进一跳的路由信息；

步骤4.2.2，如果新节点TTL值小于当前节点,但下一跳与当前跳不同,则继续遍历数据查找TTL更小且下一跳一致的新路径节点信息,以确定正确的下一跳地址；

步骤4.2.3，如果下一跳地址为空或为非法地址,表示数据包已到达路径终点或者被防火墙拦截，无需加入路径。

步骤5，创建单向加权有向图，对目标流路径和旁路路径分别赋值。

其中，对目标流路径赋予初始权值，对于辅助的旁路路径赋予较低的权值。

本实施例中，设辅助路径的权值初始值设为1，之前步骤中进行了路径预构建，设定预创建的目标流中的每个子路径的初始权值大小不低于所有辅助路径的权值之和，目的是路径构建还是以采样数据构建的路径为主要依据，辅助路径用以验证所构建路径并进行节点补充。

步骤6，根据每条路径的路径终点进行权值更新，根据更新后的路径权值重新构造加权有向图。

对给定的数据集,每条数据包含一条路径信息(源地址、代理地址、下一跳地址、目标地址等)：

步骤6.1，构建空的加权有向图G表示所有可能路径。具体的，构建空的加权有向图G(V,E)。其中,定点集V表示网络中的所有设备(路由器、交换机等);边集E初始化为空集。

读取sFlow采样数据报文,按照源IP地址、目的IP地址、TTL值等字段提取关键信息。对于每条sFlow数据报文,可提取出一条对应的网络路径信息,即源设备、中继设备序列、目的设备。

步骤6.2，对已构建路径中的每条边设定权重,权重值与该路径在数据集中的出现次数相关。其中，在加权有向图G中创建节点和边:对路径中的每个设备创建定点添加到V中,对路径中相邻设备创建有向边添加到E中。例如路径(A,B,C,D),则在G中添加定点A,B,C,D和边(A,B)、(B,C)、(C,D)。

步骤6.3，对数据集中每条路径,若路径终点为目标地址,则在加权有向图G中创建路径节点和边,并更新边权重。

其中，每出现一条包含该边的路径,增加该边的权重。权重表示路径通过该边的次数。对所有sFlow数据报文依次执行上述步骤,最终获得最终的加权有向图G，如图3所示。

步骤6.4，最终获得包含所有目标地址终点路径的加权有向图G,边权重表示路径出现次数。其中，权重最大的路径即为最可能的实际网络流量路径。该路径包含的边表示网络中流量最集中的链路。输出权重最大路径作为重构后的网络流量路径结果。

步骤7，将重新构造的加权有向图中权重最大的路径作为重构路径。

为了更好的说明本发明方法的应用，本实施例给出以下利用流量路径重构技术分析网络故障的案例：

某公司网络管理部门在进行日常网络监控时,发现从办公网络访问公网时出现延迟和包丢失情况。网络流量经过核心交换机、出口路由器访问公网。为快速定位故障,网络管理员决定利用流量路径重构技术进行分析，具体包括以下步骤：

1.在核心交换机和出口路由器上部署该专利中的sFlow代理,配置抽样采集频率。

在流量监控服务器上部署该专利中的报文处理程序,提取sFlow数据中的源IP、目的IP、TTL等信息。

2.在流量分析服务器上部署该专利中的路径重构程序,加载网络拓扑信息,使用加权有向图算法分析路径。

3.从重构的流量路径发现,公网流量经由核心交换机到出口路由器的链路带宽利用率接近峰值,确定为流量瓶颈所在。

4.根据该链路过载情况,网络管理员将部分非关键业务流量重新路由,将带宽压力分散到其他链路。

通过快速定位瓶颈链路,使用该流量路径重构技术增强了网络故障分析的效率,避免了复杂的手工排查,节约了故障处理时间,提高了网络服务质量。该案例展示了本发明的实际应用效果。

值得注意的是，本发明提出的方法不止局限于提取某一类型的采样数据，包括但不仅限于提取提取Flowsample、Expanded Flow sample、Counter sample、ExpandedCounter sample等多种采样格式的数据。本发明在采集阶段采集并提取Expanded Flowsample格式的采样数据并分析包头数据进行路径重构。

本发明提出一种基于加权有向图算法的流量路径重构方法及系统，相较简单的TTL回溯法,加权有向图算法可以综合统计路径出现的次数,识别出最主要的流量路径。它利用了全局的统计信息,使得重构结果更准确可靠,能有效反映实际网络中的主要流量分布情况。还能实现流量路径的可视化和可追踪。传统的网络管理过程中，很难清晰地了解数据包的传输路径。而通过本发明可以实现对网络流量传输路径的可视化和可追溯性，帮助网络管理人员更好地识别瓶颈和故障。本发明实现了端到端的精确流量可视化,通过重构的路径清晰展示了数据包的实际传输路线,有助于快速定位网络故障点。

需要特别说明的是，本发明中系统的不同模块之间是解耦的，可以独立运作，独立的进行输入与输出。

本发明还提供了各链路和设备的实时流量监控数据,辅助进行瓶颈分析和网络调优,保证了服务质量。本发明基于流量采样技术降低了对网络性能的影响,较之镜像端口等方式更经济高效。

本发明应用路径重构和异常流量分析技术增强了对网络威胁的检测能力,提升了网络运行的安全性。通过加权图算法实现了对主要流量路径的精确识别,使监控和管理更加具有针对性。本发明的重构结果提供了宏观的网络流量分布视角,协助管理人员进行决策。具有较强的通用性,可扩展应用到账单分析、攻击溯源等场景。

综上,本发明的基于加权有向图算法的流量路径重构方法全面提升了网络监测与管理的效率、经济性和智能化水平,使之更适应大数据环境下的网络运维需求,具有重要的技术进步意义。

实施例二：

本发明实施例二提供了一种基于加权有向图算法的流量路径重构系统，包括：

数据采集模块，被配置为采集待发送的流量数据，并对流量数据进行格式转化；数据采集模块目的为在核心网络设备上设置sFlow代理,使用sFlow协议对网络流量进行抽样并发送采样报文。

数据提取模块，被配置为根据流量数据的报文头格式，对流量数据进行采样数据提取；根据每一条报文的采样数据据创建子路径，并对子路径进行去重和排序；数据提取模块目的为解析sFlow报文,提取源地址、目的地址、端口等关键数据,为路径重构提供基础信息。

本实施例中，数据提取模块和数据分析模块功能采用流量分析服务器实现。

还包括数据库服务器,用于存储重构路径并提供数据接口。

管理工作站,用于结果展示和网络管理。

以上实施例二中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于加权有向图算法的流量路径重构方法，其特征在于，包括以下步骤：

采集待发送的流量数据，并对流量数据进行格式转化；

根据流量数据的报文头格式，对流量数据进行提取；

创建单向加权有向图，对目标流路径和旁路路径分别赋值；

将重新构造的加权有向图中权重最大的路径作为重构路径。

2.如权利要求1所述的基于加权有向图算法的流量路径重构方法，其特征在于，所述提取的流量数据包括流数据的序号、TTL值、代理IP地址、下一跳地址、源IP地址、目的IP地址、TCP源端口号和TCP目的端口号。

3.如权利要求2所述的基于加权有向图算法的流量路径重构方法，其特征在于，对子路径进行去重和排序的具体步骤为：

针对筛选出的同一流的数据，按照TTL值进行排序。

4.如权利要求1所述的基于加权有向图算法的流量路径重构方法，其特征在于，将源IP地址设定为路径起点,目标IP地址设定为路径终点，从而得到目标流路径，代理IP地址和下一跳IP地址用于确定路由拓扑。

5.如权利要求1所述的基于加权有向图算法的流量路径重构方法，其特征在于，根据时间戳划定时间窗口，在时间窗口内创建子路径。

6.如权利要求5所述的基于加权有向图算法的流量路径重构方法，其特征在于，创建单向加权有向图之前，对时间窗口内子集中每条流生成总路径。

7.如权利要求1所述的基于加权有向图算法的流量路径重构方法，其特征在于，在子路径中确定目标流路径后，对目标流路径进行初始化，具体的，将目标流路径中TTL值最大的子路径作为初始路径。

8.如权利要求1所述的基于加权有向图算法的流量路径重构方法，其特征在于，将其余子路径并行生成并进行对比，生成旁路路径的具体步骤为：

9.如权利要求1所述的基于加权有向图算法的流量路径重构方法，其特征在于，根据每条路径的路径终点进行权值更新的具体步骤为：

构建空的加权有向图表示所有可能路径;

10.一种基于加权有向图算法的流量路径重构系统，其特征在于，包括：