CN113259263B

CN113259263B - 一种深度报文检测集群中的数据包调度方法

Info

Publication number: CN113259263B
Application number: CN202110475303.9A
Authority: CN
Inventors: 郑超; 姜萍; 卢文朋; 付明卫
Original assignee: Jizhi Hainan Information Technology Co ltd
Current assignee: Jizhi Hainan Information Technology Co ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-11-22
Anticipated expiration: 2041-04-29
Also published as: CN113259263A

Abstract

本发明提供一种深度报文检测集群中的数据包调度方法。所述深度报文检测集群中的数据包调度方法，包括以下步骤：S1、每个DPI节点的数据平面运行改进过的MV‑Sketch进行流量分布信息收集，并以30分钟为周期将sketch传递给中心服务器。本发明提供一种深度报文检测集群中的数据包调度方法，该方法利用上下行流量大小通常分布不均的特点，通过决策树对流量的分布进行学习和预测，将拥有同一流的字节数最多的DPI节点作为该流的最佳处理节点，把其他数据包转发到该节点上，对比基于哈希的聚类方法相比，所用方法造成的集群内带宽开销约降低了73.75％，使得带宽开销大大降低。

Description

一种深度报文检测集群中的数据包调度方法

技术领域

本发明涉及计算机网络领域，尤其涉及一种深度报文检测集群中的数据包调度方法。

背景技术

数据包是TCP/IP协议通信传输中的数据单位，TCP/IP协议是工作在OSI模型第三层、第四层上的，帧工作在第二层，上一层的内容由下一层的内容来传输，所以在局域网中，“包”是包含在“帧”里的，在包交换网络里，单个消息被划分为多个数据块。

目前能够将同一流的数据包转发到同一处理节点的数据包调度方法主要分为两类，第一类，通过负载均衡器在集群外部对网络流量进行集中式调度，通常将负载均衡器放置在DPI集群的前面，负载均衡器接收数据包，然后通过负载均衡算法将数据包分配给集群中的某个DPI节点；第二类，通过聚类在集群内部对网络流量进行点对点的调度，聚类能够实现将与特定流关联的所有数据包转发到同一DPI节点，确保每流一致性。

相关技术中，随着网络流量的不断增加，DPI设备集群的规模也随之不断增长，而现有的聚类方法存在以下问题，对于基于广播的聚类而言，广播包所消耗的带宽较大，节点每次收到未知流的数据包时都需要进行广播询问，在面临高带宽网络环境和大规模的DPI集群时，广播包的数量和所占用的带宽不可忽视；而对于基于哈希的聚类而言，相当于通过哈希算法每个流在DPI集群中随机选取了一个节点，则存在一种情况，该处理节点可能并不是该流的原始路由所经过的任何一个节点，这种情况下，一个流的所有数据包都需要额外带宽进行转发，因此，现有的两种聚类方法都需要消耗大量集群内的链路带宽和内存，并不能很好的满足人们的使用需求。

因此，有必要提供一种深度报文检测集群中的数据包调度方法解决上述技术问题。

发明内容

本发明提供一种深度报文检测集群中的数据包调度方法，解决了需要消耗大量集群内的链路带宽和内存的问题。

为解决上述技术问题，本发明提供的深度报文检测集群中的数据包调度方法，包括以下步骤：

S1、每个DPI节点的数据平面运行改进过的MV-Sketch进行流量分布信息收集，并以30分钟为周期将sketch传递给中心服务器；

S2、中心服务器收到每个DPI节点报告的sketches，将流量分布信息提取为（DPI节点ID，（源IP，目的IP），字节数）的格式，其中，流的源IP和目的IP作为属性，DPI节点ID作为分类标签，每个节点上所经过的字节数作为相应DPI节点类别的权重，为了限制最终生成的转发规则数量，设置决策树的最大叶子节点数量为10000，进行训练；

S3、将训练所得决策树叶子节点表示的决策规则转化为TCAM规则形式，作为转发规则传递给每一个DPI节点，安装到CFT中，后续到达的数据包根据该表的查找结果进行调度转发；

S4、中心服务器从决策规则中提取5000条合并规则传递给DPI节点，因为合并规则对准确率有更高的要求，因此在S3之后继续训练决策树至15000个叶子节点，得到15000个准确率更高的决策规则；

S5、使用迭代合并算法，设置规则准确率阈值Γ=0.65，将本周期所得决策规则中准确率大于Γ的决策规则作为合并规则，若准确率大于Γ的规则超过5000条，则按准确率对这些规则进行降序排序，仅保留前5000条作为合并规则，安装到各个DPI节点的CFT中，用于预测下一个周期中数据包的转发。

优选的，所述S1中为了更好地适应所应用场景的特性，对MV-Sketch算法和决策树算法进行了改进，其中，MV-Sketch算法进行以下两点改进，一是将原始MV-Sketch算法中的Vi，j和Ci，j重新进行定义并修改更新操作：令Vi，j表示桶B（i，j）中记录的候选大流Ki，j的字节数，Ci，j表示除了当前记录的候选大流Ki，j外，通过哈希算法映射到桶B（i，j）中的其他流的总字节数，对于候选大流的判断依据就改为了当Ci，j大于Vi，j时，桶B（i，j）记录的候选大流将被当前数据包所属的流所代替；二是利用EgressMirror方法将数据包镜像重新提交至入口处（ingress），进入新的pipeline，就可以再次进行读写操作，同时在MV-Sketch算法中引入新变量mirror_val=Vi，j-Ci，j，借助mirror_val，使Vi，j和Ci，j交换时只需要进行一次读写。

优选的，所述决策树算法的改进包括两个方面，一是节点划分，在决策树训练过程中会对IP空间不断进行划分，原始决策树算法每次计算信息增益（或基尼指数、不纯度等指标）最大的属性和划分点（属性值），并将待划分节点对应的样本集从该点进行划分得到两个子节点；二是提前停止，将叶子节点总数限制为θ，在训练过程中，当决策树的叶子节点数量达到阈值，决策树将提前停止生长。

优选的，所述S1中对于通过的每一个数据包分别进行以下操作：

（1）提取其源IP（src_IP）和目的IP（dst_IP）作为流的标识符，计算hash函数，映射到r个桶中；

（2）所述对于每个桶B（i，j）（1≤i≤r， j=hashi（src_IP，dst_IP）：如果B（i，j）中已有流的记录，则比较当前数据包的源IP和目的IP是否和Ki，j一致，若一致，将当前数据包的字节数累加到Vi，j上，否则累加到Ci，j上，然后执行（3）；若当前bucket为空，将该Ki，j设置为当前数据包的源IP和目的IP，Vi，j等于当前数据包字节数，然后回到（1），处理下一个数据包；

（3）比较Vi，j和Ci，j，如果Vi，j小于Ci，j，用当前数据包的源IP和目的IP替换Ki，j，然后执行（1）；否则，直接执行（1）处理下一个数据包。

优选的，所述S1中 MV-Sketch是一种高效紧凑的可逆sketch，可以使用较小的静态内存空间优先保留大流的记录，MV-Sketch主要利用MJRTY算法，每次更新都在sketch中保留大流作为候选流，从而能够提高对大流的最佳节点的预测准确率，有助于节约带宽开销，同时满足数据平面上有限的SRAM资源限制。

优选的，所述S1中收集的流量分布信息包括流量的标识符（如五元组）、所通过的节点ID以及在该节点上通过的字节数。

与相关技术相比较，本发明提供的深度报文检测集群中的数据包调度方法具有如下有益效果：

本发明提供一种深度报文检测集群中的数据包调度方法，（1）、该方法利用上下行流量大小通常分布不均的特点，通过决策树对流量的分布进行学习和预测，将拥有同一流的字节数最多的DPI节点作为该流的最佳处理节点，把其他数据包转发到该节点上，对比基于哈希的聚类方法相比，所用方法造成的集群内带宽开销约降低了73.75%，使得带宽开销大大降低；

（2）、同时在进行数据包调度的时候只需要在数据平面直接查表转发，理论上可以达到交换机的线速，相比于需要广播并等待响应的数据包调度方法，大大节约了所需时间，大大改善了延迟问题；

（3）、通过采用基于sketch的概率算法和迭代合并算法，实现了用较少且固定的内存空间存储较多的流量分布信息，若在资源及其有限的可编程交换机上实施，最多只需要2MB的SRAM资源和80KB的TCAM资源，就能达到约82%的最佳处理节点预测准确率，相较于传统方法，所需的内存空间较少且较为稳定。

附图说明

图1为本发明提供的深度报文检测集群中的数据包调度方法的框架图；

图2为MV-Sketch数据结构示意图；

图3为原始的MV-Sketch更新操作的伪代码示意图；

图4为本发明提供的改进的MV-Sketch更新操作的伪代码示意图；

图5为本发明提供的决策树节点的划分顺序示意图；

图6为本发明提供的迭代合并过程示意图；

图7为本发明提供的深度报文检测集群中的数据包调度方法的流程图。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

请结合参阅图1、图2、图3、图4、图5、图6和图7，其中，图1为本发明提供的深度报文检测集群中的数据包调度方法的流程图；图2为MV-Sketch数据结构示意图；图3为原始的MV-Sketch更新操作的伪代码示意图；图4为本发明提供的改进的MV-Sketch更新操作的伪代码示意图；图5为本发明提供的决策树节点的划分顺序示意图；图6为本发明提供的迭代合并过程示意图；图7为本发明提供的深度报文检测集群中的数据包调度方法的流程图。深度报文检测集群中的数据包调度方法，包括以下步骤：

在流量分布信息收集中，为了在高带宽网络环境中利用有限的内存资源记录尽可能多的流量分布信息，使用基于sketch的网络测量方法，如Elastic-Sketch、MV-Sketch等。

其中，sketch是一种概率数据结构，包含R个长度为W的哈希表，每个哈希表对应一个哈希函数，哈希表中的每个存储单元称为一个桶（bucket），该方法将网络流量建模为（key，value）的形式，其中key是流的标识符，可以是一个或多个数据包头中的字段，比如五元组；value是希望为流存储的信息，比如该流的数据包数量计数、总字节数计数等，当一个数据包到达，提取数据包的key，通过R个哈希函数将其映射到R个桶中，对每个桶中的value进行更新，其中，进行R次哈希运算可以有效避免不同key之间的哈希冲突；

假设路由规则不会频繁地改变，因此可以通过周期性地学习每个流的最佳处理节点，用于预测下一个周期中数据包的转发规则，最佳处理节点的学习和预测问题本质上是分类问题，将收集到的流量按DPI节点进行分类，特征是流量标识符，比如源IP和目的IP，分类依据是每个流应当分类给包含其字节数最多的一个DPI节点；在该部分首先选用一种分类算法，如Decision Tree、Adaboost、Random Forest等，以收集到的流量分布信息为样本进行训练，得到分类结果后，组织为（流量标识符，节点ID）的转发条目，分发给各个DPI节点即可指导下一周期DPI节点上的数据包调度；

而提高分类算法的准确率一个重要因素是充足的样本，因此需要在基于sketch的流量分布信息收集阶段，使用相同的内存空间存储尽可能多的流量信息，本发明设计了迭代合并算法，从每个周期的分类规则中提取合并规则应用于下一个周期的sketch，匹配到同一合并规则的流量可以合并记录在sketch的同一个桶中，但是基于机器学习的分类结果总是有误报的，为了避免误报导致的错误合并，使误报率在周期中不断叠加，该方法在迭代合并中设置了一个准确率阈值Γ，只有经验证准确率大于Γ的分类规则才能用作合并规则；

下面以上述数据包调度方法采用MV-Sketch算法和决策树算法，在基于P4的PISA上进行部署为例，对本发明DPI集群中的数据包调度方法的具体实施方式进行详细阐述；

为了更好地适应所应用场景的特性，本发明在该实施中对MV-Sketch算法和决策树算法进行了改进，下面首先对所述改进的算法进行详细阐述：

1、MV-Sketch是一种高效紧凑的可逆sketch，可以使用较小的静态内存空间优先保留大流的记录，MV-Sketch主要利用MJRTY算法，每次更新都在sketch中保留大流作为候选流，从而能够提高对大流的最佳节点的预测准确率，有助于节约带宽开销，同时满足数据平面上有限的SRAM资源限制；

MV-Sketch的数据结构如图2所示，由r行w列的二维数组构成，数据包到达时通过r个独立的哈希函数映射到每一行的一个桶中，每个桶将记录Vi，j，Ki，j和Ci，j三个字段，Vi，j是通过哈希算法映射到桶B（i，j）的所有流的字节数总和；Ki，j是桶内当前记录的候选大流的标识符；Ci，j 是当前桶中所记录的候选大流（Ki，j）的字节数，用于和Vi，j进行比较，判断是否继续在桶内保留Ki，j作为候选大流。

具体更新操作如图3的伪代码所示，当新的数据包到达时，提取数据包的标识符x并计算r个哈希函数，映射到r个桶B（i，j）（1≤i≤r， j=hashi（x）），对于每个桶B（i，j），将当前数据包的字节数vx累加到Vi，j上，然后比较当前数据包的标识符和Ki，j是否一致，一致就将vx累加到Ci，j上，否则将Ci，j减去vx；当Ci，j小于0时，桶内的候选大流会被当前数据包所属的流所代替；但是由于PISA对运算操作的限制，本发明在上述原始的MV-Sketch算法进行以下两点改进，改进后的更新操作伪代码如图4所示：

（1）、由于PISA不支持对负数进行处理，所以所述改进MV-Sketch将原始MV-Sketch算法中的Vi，j和Ci，j重新进行定义并修改更新操作：令Vi，j表示桶B（i，j）中记录的候选大流Ki，j的字节数，Ci，j表示除了当前记录的候选大流Ki，j外，通过哈希算法映射到桶B（i，j）中的其他流的总字节数；对于候选大流的判断依据就改为了当Ci，j大于Vi，j时，桶B（i，j）记录的候选大流将被当前数据包所属的流所代替。

（2）、由于PISA不支持在同一管道（pipeline）中对同一个变量进行多次读写操作，但是当桶内的候选大流需要进行替换操作时，需要交换变量Vi，j和Ci，j的值，就需要对这两个变量进行多次读写；为了解决该问题，本发明利用EgressMirror方法将数据包镜像重新提交至入口处（ingress），进入新的pipeline，就可以再次进行读写操作；同时本发明在MV-Sketch算法中引入新变量mirror_val=Vi，j-Ci，j（图3伪代码Algorithm 2第9行），借助mirror_val，使Vi，j和Ci，j交换时只需要进行一次读写（图3伪代码Algorithm 2第15～16行）；虽然EgressMirror的方法会增加数据平面中的流量负载，但是该操作仅在桶内的候选大流需要替换时才会被触发，实际上发生频率较低，因此不会造成太大的影响；中心服务器读取sketches时，将每个桶中的Vi,j作为该桶所记录的候选大流Ki，j的字节数估计值；逐行遍历sketch，把所有Ki，j=x的桶中最小的Vi，j为标识符为x的流的字节数估计值，最终得到格式为（节点ID，流标识符，字节数）的全局流量分布信息。

改进决策树算法相较于scikit-learn库中的原始决策树算法，主要在以下两个方面进行改进：

（1）、节点划分，在决策树训练过程中会对IP空间不断进行划分，原始决策树算法每次计算信息增益（或基尼指数、不纯度等指标）最大的属性和划分点（属性值），并将待划分节点对应的样本集从该点进行划分得到两个子节点，这种方式最终得到的决策规则是IP的数值区间（例如“[1.2.3.38，1.2.3.83]”），转化为路由规则中的最长前缀匹配模式时，会扩展为多条TCAM规则，占用数据平面中的大量TCAM资源；因此所述改进版决策树算法每次选择信息增益（或基尼指数等指标）最大的属性，然后将待划分节点对应的样本集从被选择的属性的中间值处均匀地划分为两部分；例如，待划分节点包含的样本集所对应的属性为源IP“1.2.3.0/24”和目的IP“1.2.4.0/25”，通过计算信息增益，对源IP“1.2.3.0/24”进行划分所得的信息增益最大，那么就将源IP空间平均划分为“1.2.3.0/26”和“1.2.3.64/26”；通过改进后的节点划分算法，能够保证最终的决策规则始终可以表示为一条最长前缀匹配规则，便于在交换机的TCAM中进行实现；并且经实验验证，该节点划分方法和原始的节点划分方法相比，在相同的TCAM转发规则数量限制下，能够将决策树准确率提高2%左右。

（2）、提前停止，由于最终我们需要将决策树生成的规则安装到数据平面，受到TCAM空间资源的限制，因此所述改进版决策树将叶子节点总数限制为θ，在训练过程中，当决策树的叶子节点数量达到阈值，决策树将提前停止生长；为了在有限的叶子节点数下使决策树的学习性能最优，所述改进版决策树采用的思想是：不分割信息增益过小的节点；具体来说，改进版决策树使用贪婪算法的思想进行节点划分，每进行一次划分得到新的节点，就根据信息增益对当前所有叶子节点进行实时排序；然后，选择信息增益最大的节点进行下一次划分，直到叶子节点的数量达到所设置的阈值θ，结束决策树的划分；例如，设置最大叶子节点数θ＝ 6，如图5所示，根据信息增益的大小排序，改进版决策树应该选择划分node1以获得node6和node7，然后计算新增节点的信息增益，对节点重新进行排序，得出下一步划分node7得到node8和node9，到这一步为止，已经有6个叶子节点，因此决策树停止生长，训练结束；

本发明DPI集群中的数据包调度方法的具体实施架构如图1所示，在每个DPI节点的数据平面(Data Plane)部署所述改进MV-Sketch进行流量分布信息的收集，各个DPI节点将自身sketch定期报告给中心服务器(Central Server)，中心服务器运行所述改进决策树算法，生成CFT中的转发规则和用于sketch的合并规则，传递给各个DPI节点。每个周期的具体步骤如下：

仅以目的IP空间为例进行说明，如图6所示，在第一个周期中，sketch收集了7个流样本（图6中的（a））；通过决策树的学习，7个样本被分为3类，得到三个决策规则“1.2.3.0/26”，“1.2.3.64/26”和“1.2.3.128/25”（图6中的（b））；下面设置决策规则准确率阈值为0.65，只有准确率大于阈值的决策规则才能作为合并规则，在所有样本中对以上三个决策规则进行验证，准确率分别为1.0，0.667和0.6（图6中的（c）），因此规则“1.2.3.0/26”和“1.2.3.64/26”可以作为合并规则应用于下一周期的sketch。

（1）、该方法利用上下行流量大小通常分布不均的特点，通过决策树对流量的分布进行学习和预测，将拥有同一流的字节数最多的DPI节点作为该流的最佳处理节点，把其他数据包转发到该节点上，对比基于哈希的聚类方法相比，所用方法造成的集群内带宽开销约降低了73.75%，使得带宽开销大大降低；

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种深度报文检测集群中的数据包调度方法，其特征在于，包括以下步骤：

S5、使用迭代合并算法，设置规则准确率阈值Γ=0.65，将本周期所得决策规则中准确率大于Γ的决策规则作为合并规则，若准确率大于Γ的规则超过5000条，则按准确率对这些规则进行降序排序，仅保留前5000条作为合并规则，安装到各个DPI节点的CFT中，用于预测下一个周期中数据包的转发；

所述S1中为了更好地适应所应用场景的特性，对MV-Sketch算法和决策树算法进行了改进，其中，MV-Sketch算法进行以下两点改进，一是将原始MV-Sketch算法中的Vi，j和Ci，j重新进行定义并修改更新操作：令Vi，j表示桶B（i，j）中记录的候选大流Ki，j的字节数，Ci，j表示除了当前记录的候选大流Ki，j外，通过哈希算法映射到桶B（i，j）中的其他流的总字节数，对于候选大流的判断依据就改为了当Ci，j大于Vi，j时，桶B（i，j）记录的候选大流将被当前数据包所属的流所代替；二是利用EgressMirror方法将数据包镜像重新提交至入口处，进入新的pipeline，就可以再次进行读写操作，同时在MV-Sketch算法中引入新变量mirror_val=Vi，j-Ci，j，借助mirror_val，使Vi，j和Ci，j交换时只需要进行一次读写，所述决策树算法的改进包括两个方面，一是节点划分，改进版决策树算法每次选择信息增益最大的属性，然后将待划分节点对应的样本集从被选择的属性的中间值处均匀地划分为两部分；二是提前停止，将叶子节点总数限制为θ，在训练过程中，当决策树的叶子节点数量达到阈值，决策树将提前停止生长。

2.根据权利要求1所述的深度报文检测集群中的数据包调度方法，其特征在于，所述S1中对于通过的每一个数据包分别进行以下操作：

（2）所述对于每个桶B（i，j），1≤i≤r， j=hashi（src_IP，dst_IP）：如果B（i，j）中已有流的记录，则比较当前数据包的源IP和目的IP是否和Ki，j一致，若一致，将当前数据包的字节数累加到Vi，j上，否则累加到Ci，j上，然后执行（3）；若当前bucket为空，将该Ki，j设置为当前数据包的源IP和目的IP，Vi，j等于当前数据包字节数，然后回到（1），处理下一个数据包；

（3）比较Vi，j和Ci，j，如果Vi，j小于Ci，j，用当前数据包的源IP和目的IP替换Ki，j，然后执行（1）；否则，直接执行（1），处理下一个数据包。

3.根据权利要求1所述的深度报文检测集群中的数据包调度方法，其特征在于，所述S1中MV-Sketch利用MJRTY算法，每次更新都在sketch中保留大流作为候选流。

4.根据权利要求1所述的深度报文检测集群中的数据包调度方法，其特征在于，所述S1中收集的流量分布信息包括流量的标识符、所通过的节点ID以及在该节点上通过的字节数。