CN115242724A

CN115242724A - 一种基于两阶段聚类的高速网络流量服务分类方法

Info

Publication number: CN115242724A
Application number: CN202210867993.7A
Authority: CN
Inventors: 吴桦; 隋玉平; 程光
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-10-25
Anticipated expiration: 2042-07-21
Also published as: CN115242724B

Abstract

本发明公开了一种基于两阶段聚类的高速网络流量服务分类方法，首先获取主干网的一段时间内的数据，对该数据进行抽样后，再根据数据包的大小分布进行特征提取，然后采用两阶段聚类方法对流量样本进行聚类，第一阶段使用凝聚聚类算法对全部的特征向量进行聚类，根据聚类结果构建类别分布矩阵选出需要第二次聚类的特征向量，第二阶段对类别分布矩阵选出的特征向量进行第二次凝聚聚类，然后合并全部的流量样本，确定每个簇的服务标签，构建具有服务标签的训练集，最后，利用机器学习算法对有服务标签的训练集进行训练，得到服务分类模型。本发明能够快速实现对高速网络流量的服务类型进行识别，可被网络管理者用于保证网络服务质量和进行带宽资源分配。

Description

一种基于两阶段聚类的高速网络流量服务分类方法

技术领域

本发明涉及一种基于两阶段聚类的高速网络流量服务分类方法，属于网络安全技术领域。

背景技术

网络流量的服务分类对于Internet服务提供商保证网络服务质量有着至关重要的作用。随着计算机和因特网技术的飞速发展，网络中涌现出很多新的服务。在网络交互过程中， Internet服务提供商需要推断网络流量的服务类型，并对不同类型的服务提供不同级别的服务质量。所以，网络流量的服务分类可以有效帮助Internet服务提供商进行现代网络管理和监控网络服务质量。

随着光纤通信技术和5G技术的发展，网络传输速度越来越快，高速网络上传输的数据量十分庞大。通过对数据链路上全部的数据包进行分析来确定网络流量的服务类型需要使用大量内存。因此，通过对网络流量全采集的方法不适用于高速网络流量，而通过抽样数据分析网络流量的方法在保证准确率的同时只占用少量的内存更适合应用在高速网络中。

此外，非对称路由的存在也对高速网络流量的服务分类带来严峻的挑战。在目前的网络环境下，由于网络结构的复杂性会出现上行流量和下行流量走不同路径的现象。具体来说，数据传输时出去的数据和回来的数据所走的路由不同，从而造成非对称路由问题。非对称路由问题会导致在某一路由器抓取数据时可能只获得单向的流量。而单向流和双向流呈现的特征会有所不同，导致同一个服务的分类出现误差。基于单向流的分类方法不需要使用双向的流量，在非对称路由中也可以保持高准确率。

目前，研究者们提出了基于统计学习的方法来实现网络流量的服务分类，其中基于监督学习和无监督学习的方法被广泛应用。但是，这些方法在应用到高速网络中存在一些问题，效果不是很理想。

(1)基于监督学习的服务分类方法

基于监督学习的分类方法利用流粒度特征或包头特征来构建特征空间。但是基于监督学习的统计学习方法只考虑包含在训练数据集中的服务，因此无法识别网络中出现的新服务。此外，这类方法依赖于大量的标记数据。标记数据需要足够的先验知识，因此难以进行人工标注或进行人工类别标注的成本太高。所以，基于SL的统计学习方法难以应用在现代高速网络的服务分类任务中。

(2)基于无监督学习的服务分类方法

无监督学习的统计学习方法不依赖于数据集的标签，可以避免数据标注的问题。无监督学习主要思想是聚类。聚类的目的在于把相似的东西聚在一起，而同一服务类型的数据往往具有高度的相似性。一个聚类算法通常只需要知道如何计算相似度就可以开始工作。所以在无监督学习中，可以通过设定有效的特征来体现不同服务类型的差异，从而实现对网络流量的聚类。但是，现有的无监督学习方法在应用时，特征向量在受到网络波动后会导致一定比例的同一类服务被归入不同的簇。这需要花费大量的时间在聚类后手工合并这样的簇，缺乏实用性。

发明内容

为解决上述问题，本发明公开了一种基于两阶段聚类的高速网络流量服务分类方法，该方法首先获取主干网的一段时间内的数据，对该数据进行抽样后，再根据数据包的大小分布进行特征提取，然后采用两阶段聚类方法对流量样本进行聚类，第一阶段使用凝聚聚类算法对全部的特征向量进行聚类，根据聚类结果构建类别分布矩阵选出需要第二次聚类的特征向量，第二阶段对类别分布矩阵选出的特征向量进行第二次凝聚聚类，然后合并全部的流量样本，确定每个簇的服务标签，进而构建具有服务标签的训练集。最后，利用机器学习算法对有服务标签的训练集进行训练，得到服务分类模型。模型应用阶段，需要对高速网络的流量进行抽样和特征提取，然后作为分类模型的输入，就能快速识别出单向流的服务类型。本发明能够快速实现对高速网络流量的服务类型进行识别，可被网络管理者用于保证网络服务质量和进行带宽资源分配。

为了实现本发明的目的，本方案具体技术步骤如下：

步骤(1)获取在主干网的一段时间内得到的流量数据；

步骤(2)设置抽样比为1/μ，对获取的数据集进行系统抽样；

步骤(3)统计抽样流量的数据包大小分布，得到流量的特征；

步骤(4)采用两阶段聚类方法对流量特征进行聚类，并根据其中混合的少量服务类型已知的流量确定各个簇的服务类型标签，进而得到具有完整标签的训练集；

步骤(5)使用有机器学习算法对步骤(4)得到的训练集进行监督学习训练，得到分类模型；

步骤(6)对需要服务识别的流量进行抽样和特征提取，并使用步骤(5)得到的分类模型对特征向量集合进行服务识别。

进一步的，所述步骤(1)中，获取主干网流量的方法如下：

(1.1)获取在主干网节点上持续采集一段时间的高速网络流量；

(1.2)向采集的流量中混合少量服务类型已知的流量，来确定步骤(4)聚类后各个簇的服务类型标签。

进一步的，所述步骤(2)中，系统抽样具体过程如下：

(2.1)设置抽样比为1/μ,数据包按照时间顺序排列，随机选取一个起点抽取数据包，后续每隔μ个包抽取一个数据包，得到抽样后的流量。

进一步的，所述步骤(3)中，统计数据包的大小分布的具体步骤如下：

(3.1)依次读取数据包，根据源IP、源端口和传输层协议组成单向流。

(3.2)基于不同服务类型的流量的特点，所选择的流量特征如下：总计17个特征，数据包大小等于0的数据包个数与总的数据包个数之比作为1个特征，将0～1500字节划分为 15个区间，这15个区间内的数据包个数与总的数据包个数之比作为15个特征，数据包大小大于等于1500字节的数据包个数与总的数据包个数之比作为1个特征。

(3.3)对于每个单向流，统计其在不同窗口内的长度分布，单向流的不同窗口定义如下：一个单向流的数据包数量累计达到n后，进入下一个窗口。根据一个单向流的多个窗口内的长度分布提取多个特征向量。

表1流量特征及含义

特征	含义
		L<sub>0</sub>	数据包大小为0的数量与总的数据包数之比
L<sub>1</sub>	数据包大小在1～100的数据包数与总的数据包数之比
		L<sub>2</sub>	数据包大小在101～200的数据包数与总的数据包数之比
L<sub>3</sub>	数据包大小在201～300的数据包个数与总的数据包数之比
		L<sub>4</sub>	数据包大小在301～400的数据包个数与总的数据包数之比
L<sub>5</sub>	数据包大小在401～500的数据包个数与总的数据包数之比
		L<sub>6</sub>	数据包大小在501～600的数据包个数与总的数据包数之比
L<sub>7</sub>	数据包大小在601～700的数据包个数与总的数据包数之比
		L<sub>8</sub>	数据包大小在701～800的数据包个数与总的数据包数之比
L<sub>9</sub>	数据包大小在801～900的数据包个数与总的数据包数之比
		L<sub>10</sub>	数据包大小在901～1000的数据包个数与总的数据包数之比
L<sub>11</sub>	数据包大小在1001～1100的数据包个数与总的数据包数之比
		L<sub>12</sub>	数据包大小在1101～1200的数据包个数与总的数据包数之比
L<sub>13</sub>	数据包大小在1201～1300的数据包个数与总的数据包数之比
		L<sub>14</sub>	数据包大小在1301～1400的数据包个数与总的数据包数之比
L<sub>15</sub>	数据包大小在1401～1500的数据包个数与总的数据包数之比
		L<sub>16</sub>	数据包大小大于1500的数据包个数与总的数据包数之比

进一步的，所述步骤(4)中，两阶段聚类方法具体包含以下子步骤：

(4.1)使用凝聚聚类算法对全部的特征向量进行聚类，凝聚聚类需要使用的距离阈值根据同类对象相似度较高，不同类对象相异度较大的聚类原理得到；

(4.2)根据第一次凝聚聚类的聚类结果构建类别分布矩阵(CDM[][])。构建类别分布矩阵的方法如下：如果第一次聚类后，有N个类，初始化类别分布矩阵为CDM[N][N]，然后遍历每一个特征向量。如果在相同的三元组中，同时存在类别i和类别j，则CDM[i][j]++、CDM[j][i]++。

(4.3)根据类别分布矩阵选择出进行第二次凝聚聚类的特征向量。将需要第二次凝聚聚类的特征向量添加到集合V中，方法如下:

①生成一个空集合S。

②遍历类别分布矩阵CDM[][]，找到CDM[][]中的最大值CDM[X][Y]，如果 CDM[X][Y]＞S_cdm，则将属于类别X的特征向量和属于类别Y的特征向量添加到集合S，并将CDM[X][Y]的值置为0，其中S_cdm是设定的阈值。如果没有找到则进入(4.4)。

③将属于类别X的特征向量和属于类别Y的特征向量添加到集合S后，考虑是否还存在其它类的特征向量能添加到集合S_i。遍历类别分布矩阵的每个类，如果CDM[X][K]＞S_cdm、 CDM[K][Y]＞S_cdm,则将属于类别K的特征向量添加到集合S，并将CDM[X][K]和 CDM[K][Y]的值置为0。

④计算集合S中不同类别的平均特征向量之间的最大欧氏距离d，然后将集合S中的特征向量添加到集合V中(该集合存放需要进行第二次凝聚聚类的特征向量)，清空集合S，执行②。

(4.4)对集合V中的特征向量进行第二次凝聚聚类，最小的d作为这次聚类的距离阈值。

(4.5)将全部的特征向量合并，并根据数据集中混合的少量已知服务类型的特征向量来标记聚类后的簇，确定每个簇的服务标签。如果某个簇中不存在已知服务类型的特征向量，就需要进一步的手工验证。

进一步的，所述步骤(6)中，具体包含以下子步骤：

(6.1)对需要进行服务识别的流量进行系统抽样，得到抽样流量。

(6.2)根据数据包的大小分布构建抽样流量的特征向量集合；

(6.3)使用步骤(5)得到的分类模型对(6.2)得到的特征向量集合进行服务类别的识别。

与现有技术相比，本发明的技术方案具有以下优点：

(1)本发明提出了一种基于两阶段聚类的高速网络流量服务分类方法，该方法可以只分析单向的流量数据来确定其服务类型，在应用到非对称路由场景时，仍会保持高准确率。

(2)本发明使用数据包的长度分布来构建特征空间，可以通过分析抽样数据来提取流量的特征向量。相比需要对流量进行全采集的方法，本发明只需要进行少量的数据储存就能实现流量的实时服务分类，可以应用在数据量庞大的高速网络中。

(3)本发明基于无监督学习方法，不依赖于数据集的标签，节省了人工标注的成本。

(4)本发明提出了一种包括两次凝聚聚类的两阶段聚类算法，该算法使用两次凝聚聚类。第一次聚类是对全部的特征向量进行聚类，第二次聚类根据类别分类矩阵选择出部分特征向量，并对这部分特征向量进行聚类，从而将属于同一服务的簇自动合并，使得本发明更加具有实用性。

附图说明

图1为本发明的总体架构图；

图2为不同服务类型的长度分布的数据分析图；

图3为本发明中统计单向流的长度分布的示意图；

图4为本发明中两阶段聚类方法的具体流程图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例：本发明提供的一种基于两阶段聚类的高速网络流量服务分类方法，其总体架构如图1所示，包括如下步骤：

步骤(1)获取在主干网的一段时间内得到的流量数据；

步骤(2)设置抽样比为1/μ，对获取的数据集进行系统抽样；

步骤(3)统计抽样流量的数据包大小分布，得到流量的特征；

本发明的一个实施例中，步骤(1)中，获取WIDE项目的MAWI工作组在2020年6月3日14：00：00到14：15：00抓取的900s的流量数据集，设为数据A。该数据集在10Gbps 互联网交换链路中捕获。由于该数据集中没有服务类型的标签，我们向其中混合了少量已知服务类型的流量，以来通过聚类方法获得该数据集的服务标签。

本发明的一个实施例中，步骤(2)中，设置抽样比为1/64,对获取的数据集进行系统抽样。

本发明的一个实施例中，步骤(3)中，统计抽样流量的数据包大小分布的具体步骤如下：

(3.1)基于不同服务类型的流量的特点，所选择的流量特征如下：总计17个特征，数据包大小等于0的数据包个数与总的数据包个数之比作为1个特征，将0～1500字节划分为 15个区间，这15个区间内的数据包个数与总的数据包个数之比作为15个特征，数据包大小大于等于1500字节的数据包个数与总的数据包个数之比作为1个特征。

表1流量特征及含义

(3.2)根据所选择的特征，对于每个单向流，统计其在不同窗口内的数据包大小分布。如果当前流统计的数据包达到2000个数据包，就保存当前的数据包大小分布作为当前单向流的一个特征向量，然后重新开始统计当前流的数据包大小分布。该单向流每统计2000个数据包，都会保存一个数据包大小分布并生成一个特征向量。一个单向流会根据多个窗口内的数据包大小分布生成多个特征向量。

本发明的一个实施例中，步骤(4)中，具体包括如下过程：

①生成一个空集合S。

②遍历类别分布矩阵CDM[][]，找到CDM[][]中的最大值CDM[X][Y]，如果 CDM[X][Y]＞S_cdm，则将属于类别X的特征向量和属于类别Y的特征向量添加到集合S，并将CDM[X][Y]的值置为0，其中S_cdm设定为5。如果没有找到则进入(4.4)。

③将属于类别X的特征向量和属于类别Y的特征向量添加到集合S后，考虑是否还存在其它类的特征向量能添加到集合S_i。遍历类别分布矩阵的每个类，如果CDM[X][K]＞S_cdm、CDM[K][Y]＞S_cdm,则将属于类别K的特征向量添加到集合S，并将CDM[X][K]和 CDM[K][Y]的值置为0。

本发明的一个实施例中，步骤(5)中，根据步骤(4)构造好的已经拥有服务标签的训练数据集，使用决策树算法进行机器学习，得到服务分类模型，来用于高速网络的服务类识别。

本发明的一个实施例中，步骤(6)中，具体包括如下过程：

(1)获取一段在10Gbps主干网上的流量数据。

(2)设置抽样比，对获取的流量进行系统抽样；

(3)根据数据包大小分布对抽样后的流量提取特征向量，构建特征向量集合；

(4)将提取的特征向量输入到步骤(5)得到的服务分类模型中进行服务识别，得到服务标签。

本发明的一个实施例中，通过实验分析在高速网络流量中识别流量的服务类型所需要的时间，以证明本发明具有较强的实用性。将本发明应用到高速网络得到流量的服务类型所需要的时间包括抽样数据报的特征提取的时间和模型分类的时间。对于本实例中使用的数据A，抽样数据包的特征提取时间为171362毫秒.对于本实例中使用的数据B，其在通过随机森林算法训练得到的模型上进行识别所花费的时间为5.6s。综上，使用本方法对10Gbps的高速网络中抓取的900s数据进行服务分类时，需要消耗176.9s。这个实例证明本发明具有较强的实用性，可以用于高速网络流量的实时服务分类。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

1.一种基于两阶段聚类的高速网络流量服务分类方法，其特征在于，该方法包括以下步骤：

步骤(1)获取在主干网的一段时间内的流量数据；

步骤(2)设置抽样比为1/μ，对获取的数据进行系统抽样；

步骤(3)统计抽样流量的数据包大小分布，得到流量的特征；

2.根据权利要求1所述的一种基于两阶段聚类的高速网络流量服务分类方法，其特征在于，所述步骤(1)中，获取主干网的公开流量数据具体过程如下：

(1.2)向数据集中混合少量服务类型已知的流量，来确定步骤(4)聚类后各个簇的服务类型标签。

3.根据权利要求1所述的一种基于两阶段聚类的高速网络流量服务分类方法，其特征在于，所述步骤(2)中，系统抽样具体过程如下：设置抽样比为1/μ，随机选取一个起点抽取数据包，后续每间隔μ个包抽取一个数据包，抽样后得到的所有数据包组成抽样后的流量。

4.根据权利要求1所述的一种基于两阶段聚类的高速网络流量服务分类方法，其特征在于，所述步骤(3)中，统计数据包的大小分布的具体步骤如下：

(3.1)依次读取数据包，根据源IP、源端口和传输层协议组成单向流；

(3.2)基于不同服务类型的流量的特点，所选择的流量特征如下：总计17个特征，数据包大小等于0的数据包个数与总的数据包个数之比作为1个特征，将0～1500字节划分为15个区间，这15个区间内的数据包个数与总的数据包个数之比作为15个特征，数据包大小大于等于1500字节的数据包个数与总的数据包个数之比作为1个特征；

(3.3)对于每个单向流，统计其在不同窗口内的特征，单向流的不同窗口定义如下：一个单向流的数据包数量累计达到n后，进入下一个窗口。

5.根据权利要求1所述的一种基于两阶段聚类的高速网络流量服务分类方法，其特征在于，所述步骤(4)中，两阶段聚类方法具体包含以下子步骤：

(4.2)根据第一次凝聚聚类的聚类结果构建类别分布矩阵(CDM[][])，构建类别分布矩阵的方法如下：如果第一次聚类后，有N个类，初始化类别分布矩阵为CDM[N][N]，然后遍历每一个特征向量，如果在相同的三元组中，同时存在类别i和类别j，则CDM[i][j]++、CDM[j][i]++；

(4.3)根据类别分布矩阵选择出进行第二次凝聚聚类的特征向量，将需要第二次凝聚聚类的特征向量添加到集合V中，方法如下：

①生成一个空集合S，

②遍历类别分布矩阵CDM[][]，找到CDM[][]中的最大值CDM[X][Y]，如果CDM[X][Y]＞S_cdm，则将属于类别X的特征向量和属于类别Y的特征向量添加到集合S，并将CDM[X][Y]的值置为0，其中S_cdm是设定的阈值，如果没有找到则进入(4.4)；

③将属于类别X的特征向量和属于类别Y的特征向量添加到集合S后，考虑是否还存在其它类的特征向量能添加到集合S_i，遍历类别分布矩阵的每个类，如果CDM[X][K]＞S_cdm、CDM[K][Y]＞S_cdm,则将属于类别K的特征向量添加到集合S，并将CDM[X][K]和CDM[K][Y]的值置为0；

④计算集合S中不同类别的平均特征向量之间的最大欧氏距离d，然后将集合S中的特征向量添加到集合V中(该集合存放需要进行第二次凝聚聚类的特征向量)，清空集合S，执行②；

(4.4)对集合V中的特征向量进行第二次凝聚聚类，最小的d作为这次聚类的距离阈值；

(4.5)将全部的特征向量合并，并根据数据集中混合的少量已知服务类型的特征向量来标记聚类后的簇，确定每个簇的服务标签，如果某个簇中不存在已知服务类型的特征向量，就需要进一步的手工验证。

6.根据权利要求1所述的一种基于两阶段聚类的高速网络流量服务分类方法，其特征在于，所述步骤(6)中，具体包含以下子步骤：

(6.1)对主干网到达的实时流量进行系统抽样得到抽样流量；

(6.2)根据步骤(4)特征提取的方法构建抽样流量的特征向量集合；

(6.3)使用步骤(5)得到的分类模型对(6.2)得到的特征向量集合进行服务类型识别。