CN115242724A - 一种基于两阶段聚类的高速网络流量服务分类方法 - Google Patents
一种基于两阶段聚类的高速网络流量服务分类方法 Download PDFInfo
- Publication number
- CN115242724A CN115242724A CN202210867993.7A CN202210867993A CN115242724A CN 115242724 A CN115242724 A CN 115242724A CN 202210867993 A CN202210867993 A CN 202210867993A CN 115242724 A CN115242724 A CN 115242724A
- Authority
- CN
- China
- Prior art keywords
- clustering
- cdm
- flow
- service
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 73
- 238000009826 distribution Methods 0.000 claims abstract description 42
- 238000005070 sampling Methods 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 238000005054 agglomeration Methods 0.000 claims abstract description 13
- 230000002776 aggregation Effects 0.000 claims abstract description 13
- 238000013145 classification model Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000010801 machine learning Methods 0.000 claims abstract description 6
- 238000012795 verification Methods 0.000 claims description 3
- 238000013468 resource allocation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/022—Capturing of monitoring data by sampling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
Abstract
本发明公开了一种基于两阶段聚类的高速网络流量服务分类方法,首先获取主干网的一段时间内的数据,对该数据进行抽样后,再根据数据包的大小分布进行特征提取,然后采用两阶段聚类方法对流量样本进行聚类,第一阶段使用凝聚聚类算法对全部的特征向量进行聚类,根据聚类结果构建类别分布矩阵选出需要第二次聚类的特征向量,第二阶段对类别分布矩阵选出的特征向量进行第二次凝聚聚类,然后合并全部的流量样本,确定每个簇的服务标签,构建具有服务标签的训练集,最后,利用机器学习算法对有服务标签的训练集进行训练,得到服务分类模型。本发明能够快速实现对高速网络流量的服务类型进行识别,可被网络管理者用于保证网络服务质量和进行带宽资源分配。
Description
技术领域
本发明涉及一种基于两阶段聚类的高速网络流量服务分类方法,属于网络安全技术领域。
背景技术
网络流量的服务分类对于Internet服务提供商保证网络服务质量有着至关重要的作用。随着计算机和因特网技术的飞速发展,网络中涌现出很多新的服务。在网络交互过程中, Internet服务提供商需要推断网络流量的服务类型,并对不同类型的服务提供不同级别的服务质量。所以,网络流量的服务分类可以有效帮助Internet服务提供商进行现代网络管理和监控网络服务质量。
随着光纤通信技术和5G技术的发展,网络传输速度越来越快,高速网络上传输的数据量十分庞大。通过对数据链路上全部的数据包进行分析来确定网络流量的服务类型需要使用大量内存。因此,通过对网络流量全采集的方法不适用于高速网络流量,而通过抽样数据分析网络流量的方法在保证准确率的同时只占用少量的内存更适合应用在高速网络中。
此外,非对称路由的存在也对高速网络流量的服务分类带来严峻的挑战。在目前的网络环境下,由于网络结构的复杂性会出现上行流量和下行流量走不同路径的现象。具体来说,数据传输时出去的数据和回来的数据所走的路由不同,从而造成非对称路由问题。非对称路由问题会导致在某一路由器抓取数据时可能只获得单向的流量。而单向流和双向流呈现的特征会有所不同,导致同一个服务的分类出现误差。基于单向流的分类方法不需要使用双向的流量,在非对称路由中也可以保持高准确率。
目前,研究者们提出了基于统计学习的方法来实现网络流量的服务分类,其中基于监督学习和无监督学习的方法被广泛应用。但是,这些方法在应用到高速网络中存在一些问题,效果不是很理想。
(1)基于监督学习的服务分类方法
基于监督学习的分类方法利用流粒度特征或包头特征来构建特征空间。但是基于监督学习的统计学习方法只考虑包含在训练数据集中的服务,因此无法识别网络中出现的新服务。此外,这类方法依赖于大量的标记数据。标记数据需要足够的先验知识,因此难以进行人工标注或进行人工类别标注的成本太高。所以,基于SL的统计学习方法难以应用在现代高速网络的服务分类任务中。
(2)基于无监督学习的服务分类方法
无监督学习的统计学习方法不依赖于数据集的标签,可以避免数据标注的问题。无监督学习主要思想是聚类。聚类的目的在于把相似的东西聚在一起,而同一服务类型的数据往往具有高度的相似性。一个聚类算法通常只需要知道如何计算相似度就可以开始工作。所以在无监督学习中,可以通过设定有效的特征来体现不同服务类型的差异,从而实现对网络流量的聚类。但是,现有的无监督学习方法在应用时,特征向量在受到网络波动后会导致一定比例的同一类服务被归入不同的簇。这需要花费大量的时间在聚类后手工合并这样的簇,缺乏实用性。
发明内容
为解决上述问题,本发明公开了一种基于两阶段聚类的高速网络流量服务分类方法,该方法首先获取主干网的一段时间内的数据,对该数据进行抽样后,再根据数据包的大小分布进行特征提取,然后采用两阶段聚类方法对流量样本进行聚类,第一阶段使用凝聚聚类算法对全部的特征向量进行聚类,根据聚类结果构建类别分布矩阵选出需要第二次聚类的特征向量,第二阶段对类别分布矩阵选出的特征向量进行第二次凝聚聚类,然后合并全部的流量样本,确定每个簇的服务标签,进而构建具有服务标签的训练集。最后,利用机器学习算法对有服务标签的训练集进行训练,得到服务分类模型。模型应用阶段,需要对高速网络的流量进行抽样和特征提取,然后作为分类模型的输入,就能快速识别出单向流的服务类型。本发明能够快速实现对高速网络流量的服务类型进行识别,可被网络管理者用于保证网络服务质量和进行带宽资源分配。
为了实现本发明的目的,本方案具体技术步骤如下:
步骤(1)获取在主干网的一段时间内得到的流量数据;
步骤(2)设置抽样比为1/μ,对获取的数据集进行系统抽样;
步骤(3)统计抽样流量的数据包大小分布,得到流量的特征;
步骤(4)采用两阶段聚类方法对流量特征进行聚类,并根据其中混合的少量服务类型已知的流量确定各个簇的服务类型标签,进而得到具有完整标签的训练集;
步骤(5)使用有机器学习算法对步骤(4)得到的训练集进行监督学习训练,得到分类模型;
步骤(6)对需要服务识别的流量进行抽样和特征提取,并使用步骤(5)得到的分类模型对特征向量集合进行服务识别。
进一步的,所述步骤(1)中,获取主干网流量的方法如下:
(1.1)获取在主干网节点上持续采集一段时间的高速网络流量;
(1.2)向采集的流量中混合少量服务类型已知的流量,来确定步骤(4)聚类后各个簇的服务类型标签。
进一步的,所述步骤(2)中,系统抽样具体过程如下:
(2.1)设置抽样比为1/μ,数据包按照时间顺序排列,随机选取一个起点抽取数据包,后续每隔μ个包抽取一个数据包,得到抽样后的流量。
进一步的,所述步骤(3)中,统计数据包的大小分布的具体步骤如下:
(3.1)依次读取数据包,根据源IP、源端口和传输层协议组成单向流。
(3.2)基于不同服务类型的流量的特点,所选择的流量特征如下:总计17个特征,数据包大小等于0的数据包个数与总的数据包个数之比作为1个特征,将0~1500字节划分为 15个区间,这15个区间内的数据包个数与总的数据包个数之比作为15个特征,数据包大小大于等于1500字节的数据包个数与总的数据包个数之比作为1个特征。
(3.3)对于每个单向流,统计其在不同窗口内的长度分布,单向流的不同窗口定义如下:一个单向流的数据包数量累计达到n后,进入下一个窗口。根据一个单向流的多个窗口内的长度分布提取多个特征向量。
表1流量特征及含义
特征 | 含义 |
L<sub>0</sub> | 数据包大小为0的数量与总的数据包数之比 |
L<sub>1</sub> | 数据包大小在1~100的数据包数与总的数据包数之比 |
L<sub>2</sub> | 数据包大小在101~200的数据包数与总的数据包数之比 |
L<sub>3</sub> | 数据包大小在201~300的数据包个数与总的数据包数之比 |
L<sub>4</sub> | 数据包大小在301~400的数据包个数与总的数据包数之比 |
L<sub>5</sub> | 数据包大小在401~500的数据包个数与总的数据包数之比 |
L<sub>6</sub> | 数据包大小在501~600的数据包个数与总的数据包数之比 |
L<sub>7</sub> | 数据包大小在601~700的数据包个数与总的数据包数之比 |
L<sub>8</sub> | 数据包大小在701~800的数据包个数与总的数据包数之比 |
L<sub>9</sub> | 数据包大小在801~900的数据包个数与总的数据包数之比 |
L<sub>10</sub> | 数据包大小在901~1000的数据包个数与总的数据包数之比 |
L<sub>11</sub> | 数据包大小在1001~1100的数据包个数与总的数据包数之比 |
L<sub>12</sub> | 数据包大小在1101~1200的数据包个数与总的数据包数之比 |
L<sub>13</sub> | 数据包大小在1201~1300的数据包个数与总的数据包数之比 |
L<sub>14</sub> | 数据包大小在1301~1400的数据包个数与总的数据包数之比 |
L<sub>15</sub> | 数据包大小在1401~1500的数据包个数与总的数据包数之比 |
L<sub>16</sub> | 数据包大小大于1500的数据包个数与总的数据包数之比 |
进一步的,所述步骤(4)中,两阶段聚类方法具体包含以下子步骤:
(4.1)使用凝聚聚类算法对全部的特征向量进行聚类,凝聚聚类需要使用的距离阈值根据同类对象相似度较高,不同类对象相异度较大的聚类原理得到;
(4.2)根据第一次凝聚聚类的聚类结果构建类别分布矩阵(CDM[][])。构建类别分布矩阵的方法如下:如果第一次聚类后,有N个类,初始化类别分布矩阵为CDM[N][N],然后遍历每一个特征向量。如果在相同的三元组中,同时存在类别i和类别j,则CDM[i][j]++、CDM[j][i]++。
(4.3)根据类别分布矩阵选择出进行第二次凝聚聚类的特征向量。将需要第二次凝聚聚类的特征向量添加到集合V中,方法如下:
①生成一个空集合S。
②遍历类别分布矩阵CDM[][],找到CDM[][]中的最大值CDM[X][Y],如果 CDM[X][Y]>Scdm,则将属于类别X的特征向量和属于类别Y的特征向量添加到集合S,并将CDM[X][Y]的值置为0,其中Scdm是设定的阈值。如果没有找到则进入(4.4)。
③将属于类别X的特征向量和属于类别Y的特征向量添加到集合S后,考虑是否还存在其它类的特征向量能添加到集合Si。遍历类别分布矩阵的每个类,如果CDM[X][K]>Scdm、 CDM[K][Y]>Scdm,则将属于类别K的特征向量添加到集合S,并将CDM[X][K]和 CDM[K][Y]的值置为0。
④计算集合S中不同类别的平均特征向量之间的最大欧氏距离d,然后将集合S中的特征向量添加到集合V中(该集合存放需要进行第二次凝聚聚类的特征向量),清空集合S,执行②。
(4.4)对集合V中的特征向量进行第二次凝聚聚类,最小的d作为这次聚类的距离阈值。
(4.5)将全部的特征向量合并,并根据数据集中混合的少量已知服务类型的特征向量来标记聚类后的簇,确定每个簇的服务标签。如果某个簇中不存在已知服务类型的特征向量,就需要进一步的手工验证。
进一步的,所述步骤(6)中,具体包含以下子步骤:
(6.1)对需要进行服务识别的流量进行系统抽样,得到抽样流量。
(6.2)根据数据包的大小分布构建抽样流量的特征向量集合;
(6.3)使用步骤(5)得到的分类模型对(6.2)得到的特征向量集合进行服务类别的识别。
与现有技术相比,本发明的技术方案具有以下优点:
(1)本发明提出了一种基于两阶段聚类的高速网络流量服务分类方法,该方法可以只分析单向的流量数据来确定其服务类型,在应用到非对称路由场景时,仍会保持高准确率。
(2)本发明使用数据包的长度分布来构建特征空间,可以通过分析抽样数据来提取流量的特征向量。相比需要对流量进行全采集的方法,本发明只需要进行少量的数据储存就能实现流量的实时服务分类,可以应用在数据量庞大的高速网络中。
(3)本发明基于无监督学习方法,不依赖于数据集的标签,节省了人工标注的成本。
(4)本发明提出了一种包括两次凝聚聚类的两阶段聚类算法,该算法使用两次凝聚聚类。第一次聚类是对全部的特征向量进行聚类,第二次聚类根据类别分类矩阵选择出部分特征向量,并对这部分特征向量进行聚类,从而将属于同一服务的簇自动合并,使得本发明更加具有实用性。
附图说明
图1为本发明的总体架构图;
图2为不同服务类型的长度分布的数据分析图;
图3为本发明中统计单向流的长度分布的示意图;
图4为本发明中两阶段聚类方法的具体流程图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例:本发明提供的一种基于两阶段聚类的高速网络流量服务分类方法,其总体架构如图1所示,包括如下步骤:
步骤(1)获取在主干网的一段时间内得到的流量数据;
步骤(2)设置抽样比为1/μ,对获取的数据集进行系统抽样;
步骤(3)统计抽样流量的数据包大小分布,得到流量的特征;
步骤(4)采用两阶段聚类方法对流量特征进行聚类,并根据其中混合的少量服务类型已知的流量确定各个簇的服务类型标签,进而得到具有完整标签的训练集;
步骤(5)使用有机器学习算法对步骤(4)得到的训练集进行监督学习训练,得到分类模型;
步骤(6)对需要服务识别的流量进行抽样和特征提取,并使用步骤(5)得到的分类模型对特征向量集合进行服务识别。
本发明的一个实施例中,步骤(1)中,获取WIDE项目的MAWI工作组在2020年6月3日14:00:00到14:15:00抓取的900s的流量数据集,设为数据A。该数据集在10Gbps 互联网交换链路中捕获。由于该数据集中没有服务类型的标签,我们向其中混合了少量已知服务类型的流量,以来通过聚类方法获得该数据集的服务标签。
本发明的一个实施例中,步骤(2)中,设置抽样比为1/64,对获取的数据集进行系统抽样。
本发明的一个实施例中,步骤(3)中,统计抽样流量的数据包大小分布的具体步骤如下:
(3.1)基于不同服务类型的流量的特点,所选择的流量特征如下:总计17个特征,数据包大小等于0的数据包个数与总的数据包个数之比作为1个特征,将0~1500字节划分为 15个区间,这15个区间内的数据包个数与总的数据包个数之比作为15个特征,数据包大小大于等于1500字节的数据包个数与总的数据包个数之比作为1个特征。
表1流量特征及含义
特征 | 含义 |
L<sub>0</sub> | 数据包大小为0的数量与总的数据包数之比 |
L<sub>1</sub> | 数据包大小在1~100的数据包数与总的数据包数之比 |
L<sub>2</sub> | 数据包大小在101~200的数据包数与总的数据包数之比 |
L<sub>3</sub> | 数据包大小在201~300的数据包个数与总的数据包数之比 |
L<sub>4</sub> | 数据包大小在301~400的数据包个数与总的数据包数之比 |
L<sub>5</sub> | 数据包大小在401~500的数据包个数与总的数据包数之比 |
L<sub>6</sub> | 数据包大小在501~600的数据包个数与总的数据包数之比 |
L<sub>7</sub> | 数据包大小在601~700的数据包个数与总的数据包数之比 |
L<sub>8</sub> | 数据包大小在701~800的数据包个数与总的数据包数之比 |
L<sub>9</sub> | 数据包大小在801~900的数据包个数与总的数据包数之比 |
L<sub>10</sub> | 数据包大小在901~1000的数据包个数与总的数据包数之比 |
L<sub>11</sub> | 数据包大小在1001~1100的数据包个数与总的数据包数之比 |
L<sub>12</sub> | 数据包大小在1101~1200的数据包个数与总的数据包数之比 |
L<sub>13</sub> | 数据包大小在1201~1300的数据包个数与总的数据包数之比 |
L<sub>14</sub> | 数据包大小在1301~1400的数据包个数与总的数据包数之比 |
L<sub>15</sub> | 数据包大小在1401~1500的数据包个数与总的数据包数之比 |
L<sub>16</sub> | 数据包大小大于1500的数据包个数与总的数据包数之比 |
(3.2)根据所选择的特征,对于每个单向流,统计其在不同窗口内的数据包大小分布。如果当前流统计的数据包达到2000个数据包,就保存当前的数据包大小分布作为当前单向流的一个特征向量,然后重新开始统计当前流的数据包大小分布。该单向流每统计2000个数据包,都会保存一个数据包大小分布并生成一个特征向量。一个单向流会根据多个窗口内的数据包大小分布生成多个特征向量。
本发明的一个实施例中,步骤(4)中,具体包括如下过程:
(4.1)使用凝聚聚类算法对全部的特征向量进行聚类,凝聚聚类需要使用的距离阈值根据同类对象相似度较高,不同类对象相异度较大的聚类原理得到;
(4.2)根据第一次凝聚聚类的聚类结果构建类别分布矩阵(CDM[][])。构建类别分布矩阵的方法如下:如果第一次聚类后,有N个类,初始化类别分布矩阵为CDM[N][N],然后遍历每一个特征向量。如果在相同的三元组中,同时存在类别i和类别j,则CDM[i][j]++、CDM[j][i]++。
(4.3)根据类别分布矩阵选择出进行第二次凝聚聚类的特征向量。将需要第二次凝聚聚类的特征向量添加到集合V中,方法如下:
①生成一个空集合S。
②遍历类别分布矩阵CDM[][],找到CDM[][]中的最大值CDM[X][Y],如果 CDM[X][Y]>Scdm,则将属于类别X的特征向量和属于类别Y的特征向量添加到集合S,并将CDM[X][Y]的值置为0,其中Scdm设定为5。如果没有找到则进入(4.4)。
③将属于类别X的特征向量和属于类别Y的特征向量添加到集合S后,考虑是否还存在其它类的特征向量能添加到集合Si。遍历类别分布矩阵的每个类,如果CDM[X][K]>Scdm、CDM[K][Y]>Scdm,则将属于类别K的特征向量添加到集合S,并将CDM[X][K]和 CDM[K][Y]的值置为0。
④计算集合S中不同类别的平均特征向量之间的最大欧氏距离d,然后将集合S中的特征向量添加到集合V中(该集合存放需要进行第二次凝聚聚类的特征向量),清空集合S,执行②。
(4.4)对集合V中的特征向量进行第二次凝聚聚类,最小的d作为这次聚类的距离阈值。
(4.5)将全部的特征向量合并,并根据数据集中混合的少量已知服务类型的特征向量来标记聚类后的簇,确定每个簇的服务标签。如果某个簇中不存在已知服务类型的特征向量,就需要进一步的手工验证。
本发明的一个实施例中,步骤(5)中,根据步骤(4)构造好的已经拥有服务标签的训练数据集,使用决策树算法进行机器学习,得到服务分类模型,来用于高速网络的服务类识别。
本发明的一个实施例中,步骤(6)中,具体包括如下过程:
(1)获取一段在10Gbps主干网上的流量数据。
(2)设置抽样比,对获取的流量进行系统抽样;
(3)根据数据包大小分布对抽样后的流量提取特征向量,构建特征向量集合;
(4)将提取的特征向量输入到步骤(5)得到的服务分类模型中进行服务识别,得到服务标签。
本发明的一个实施例中,通过实验分析在高速网络流量中识别流量的服务类型所需要的时间,以证明本发明具有较强的实用性。将本发明应用到高速网络得到流量的服务类型所需要的时间包括抽样数据报的特征提取的时间和模型分类的时间。对于本实例中使用的数据A,抽样数据包的特征提取时间为171362毫秒.对于本实例中使用的数据B,其在通过随机森林算法训练得到的模型上进行识别所花费的时间为5.6s。综上,使用本方法对10Gbps的高速网络中抓取的900s数据进行服务分类时,需要消耗176.9s。这个实例证明本发明具有较强的实用性,可以用于高速网络流量的实时服务分类。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。
Claims (6)
1.一种基于两阶段聚类的高速网络流量服务分类方法,其特征在于,该方法包括以下步骤:
步骤(1)获取在主干网的一段时间内的流量数据;
步骤(2)设置抽样比为1/μ,对获取的数据进行系统抽样;
步骤(3)统计抽样流量的数据包大小分布,得到流量的特征;
步骤(4)采用两阶段聚类方法对流量特征进行聚类,并根据其中混合的少量服务类型已知的流量确定各个簇的服务类型标签,进而得到具有完整标签的训练集;
步骤(5)使用有机器学习算法对步骤(4)得到的训练集进行监督学习训练,得到分类模型;
步骤(6)对需要服务识别的流量进行抽样和特征提取,并使用步骤(5)得到的分类模型对特征向量集合进行服务识别。
2.根据权利要求1所述的一种基于两阶段聚类的高速网络流量服务分类方法,其特征在于,所述步骤(1)中,获取主干网的公开流量数据具体过程如下:
(1.1)获取在主干网节点上持续采集一段时间的高速网络流量;
(1.2)向数据集中混合少量服务类型已知的流量,来确定步骤(4)聚类后各个簇的服务类型标签。
3.根据权利要求1所述的一种基于两阶段聚类的高速网络流量服务分类方法,其特征在于,所述步骤(2)中,系统抽样具体过程如下:设置抽样比为1/μ,随机选取一个起点抽取数据包,后续每间隔μ个包抽取一个数据包,抽样后得到的所有数据包组成抽样后的流量。
4.根据权利要求1所述的一种基于两阶段聚类的高速网络流量服务分类方法,其特征在于,所述步骤(3)中,统计数据包的大小分布的具体步骤如下:
(3.1)依次读取数据包,根据源IP、源端口和传输层协议组成单向流;
(3.2)基于不同服务类型的流量的特点,所选择的流量特征如下:总计17个特征,数据包大小等于0的数据包个数与总的数据包个数之比作为1个特征,将0~1500字节划分为15个区间,这15个区间内的数据包个数与总的数据包个数之比作为15个特征,数据包大小大于等于1500字节的数据包个数与总的数据包个数之比作为1个特征;
(3.3)对于每个单向流,统计其在不同窗口内的特征,单向流的不同窗口定义如下:一个单向流的数据包数量累计达到n后,进入下一个窗口。
5.根据权利要求1所述的一种基于两阶段聚类的高速网络流量服务分类方法,其特征在于,所述步骤(4)中,两阶段聚类方法具体包含以下子步骤:
(4.1)使用凝聚聚类算法对全部的特征向量进行聚类,凝聚聚类需要使用的距离阈值根据同类对象相似度较高,不同类对象相异度较大的聚类原理得到;
(4.2)根据第一次凝聚聚类的聚类结果构建类别分布矩阵(CDM[][]),构建类别分布矩阵的方法如下:如果第一次聚类后,有N个类,初始化类别分布矩阵为CDM[N][N],然后遍历每一个特征向量,如果在相同的三元组中,同时存在类别i和类别j,则CDM[i][j]++、CDM[j][i]++;
(4.3)根据类别分布矩阵选择出进行第二次凝聚聚类的特征向量,将需要第二次凝聚聚类的特征向量添加到集合V中,方法如下:
①生成一个空集合S,
②遍历类别分布矩阵CDM[][],找到CDM[][]中的最大值CDM[X][Y],如果CDM[X][Y]>Scdm,则将属于类别X的特征向量和属于类别Y的特征向量添加到集合S,并将CDM[X][Y]的值置为0,其中Scdm是设定的阈值,如果没有找到则进入(4.4);
③将属于类别X的特征向量和属于类别Y的特征向量添加到集合S后,考虑是否还存在其它类的特征向量能添加到集合Si,遍历类别分布矩阵的每个类,如果CDM[X][K]>Scdm、CDM[K][Y]>Scdm,则将属于类别K的特征向量添加到集合S,并将CDM[X][K]和CDM[K][Y]的值置为0;
④计算集合S中不同类别的平均特征向量之间的最大欧氏距离d,然后将集合S中的特征向量添加到集合V中(该集合存放需要进行第二次凝聚聚类的特征向量),清空集合S,执行②;
(4.4)对集合V中的特征向量进行第二次凝聚聚类,最小的d作为这次聚类的距离阈值;
(4.5)将全部的特征向量合并,并根据数据集中混合的少量已知服务类型的特征向量来标记聚类后的簇,确定每个簇的服务标签,如果某个簇中不存在已知服务类型的特征向量,就需要进一步的手工验证。
6.根据权利要求1所述的一种基于两阶段聚类的高速网络流量服务分类方法,其特征在于,所述步骤(6)中,具体包含以下子步骤:
(6.1)对主干网到达的实时流量进行系统抽样得到抽样流量;
(6.2)根据步骤(4)特征提取的方法构建抽样流量的特征向量集合;
(6.3)使用步骤(5)得到的分类模型对(6.2)得到的特征向量集合进行服务类型识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210867993.7A CN115242724A (zh) | 2022-07-21 | 2022-07-21 | 一种基于两阶段聚类的高速网络流量服务分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210867993.7A CN115242724A (zh) | 2022-07-21 | 2022-07-21 | 一种基于两阶段聚类的高速网络流量服务分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115242724A true CN115242724A (zh) | 2022-10-25 |
Family
ID=83674478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210867993.7A Pending CN115242724A (zh) | 2022-07-21 | 2022-07-21 | 一种基于两阶段聚类的高速网络流量服务分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115242724A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116582452A (zh) * | 2023-07-12 | 2023-08-11 | 腾讯科技(深圳)有限公司 | 流量分类方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460427A (zh) * | 2018-03-29 | 2018-08-28 | 国信优易数据有限公司 | 一种分类模型训练方法、装置以及分类方法及装置 |
US20200151748A1 (en) * | 2018-11-14 | 2020-05-14 | Walmart Apollo, Llc | Feature-based item similarity and forecasting system |
US20200336397A1 (en) * | 2019-04-19 | 2020-10-22 | Cisco Technology, Inc. | Learning stable representations of devices for clustering-based device classification systems |
CN111953669A (zh) * | 2020-07-30 | 2020-11-17 | 江苏大学 | 适用于SDN的Tor流量溯源与应用类型识别方法和系统 |
CN112069310A (zh) * | 2020-06-18 | 2020-12-11 | 中国科学院计算技术研究所 | 基于主动学习策略的文本分类方法及系统 |
CN112819023A (zh) * | 2020-06-11 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 样本集的获取方法、装置、计算机设备和存储介质 |
CN113794653A (zh) * | 2021-04-17 | 2021-12-14 | 东南大学 | 一种基于抽样数据流的高速网络流量分类方法 |
CN114462524A (zh) * | 2022-01-19 | 2022-05-10 | 北京工业大学 | 一种面向数据中心批处理作业的聚类方法 |
CN114513473A (zh) * | 2022-03-24 | 2022-05-17 | 新华三人工智能科技有限公司 | 一种流量类别检测方法、装置及设备 |
-
2022
- 2022-07-21 CN CN202210867993.7A patent/CN115242724A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460427A (zh) * | 2018-03-29 | 2018-08-28 | 国信优易数据有限公司 | 一种分类模型训练方法、装置以及分类方法及装置 |
US20200151748A1 (en) * | 2018-11-14 | 2020-05-14 | Walmart Apollo, Llc | Feature-based item similarity and forecasting system |
US20200336397A1 (en) * | 2019-04-19 | 2020-10-22 | Cisco Technology, Inc. | Learning stable representations of devices for clustering-based device classification systems |
CN112819023A (zh) * | 2020-06-11 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 样本集的获取方法、装置、计算机设备和存储介质 |
CN112069310A (zh) * | 2020-06-18 | 2020-12-11 | 中国科学院计算技术研究所 | 基于主动学习策略的文本分类方法及系统 |
CN111953669A (zh) * | 2020-07-30 | 2020-11-17 | 江苏大学 | 适用于SDN的Tor流量溯源与应用类型识别方法和系统 |
CN113794653A (zh) * | 2021-04-17 | 2021-12-14 | 东南大学 | 一种基于抽样数据流的高速网络流量分类方法 |
CN114462524A (zh) * | 2022-01-19 | 2022-05-10 | 北京工业大学 | 一种面向数据中心批处理作业的聚类方法 |
CN114513473A (zh) * | 2022-03-24 | 2022-05-17 | 新华三人工智能科技有限公司 | 一种流量类别检测方法、装置及设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116582452A (zh) * | 2023-07-12 | 2023-08-11 | 腾讯科技(深圳)有限公司 | 流量分类方法、装置、设备及介质 |
CN116582452B (zh) * | 2023-07-12 | 2023-09-08 | 腾讯科技(深圳)有限公司 | 流量分类方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7782793B2 (en) | Statistical trace-based methods for real-time traffic classification | |
CN110290022B (zh) | 一种基于自适应聚类的未知应用层协议识别方法 | |
WO2011050545A1 (zh) | 一种未知应用层协议自动分析方法 | |
CN111953552B (zh) | 数据流的分类方法和报文转发设备 | |
US8694630B1 (en) | Self-learning classifier for internet traffic | |
CN114866485B (zh) | 一种基于聚合熵的网络流量分类方法及分类系统 | |
CN115242724A (zh) | 一种基于两阶段聚类的高速网络流量服务分类方法 | |
CN111294342A (zh) | 一种软件定义网络中DDos攻击的检测方法及系统 | |
Perona et al. | Service-independent payload analysis to improve intrusion detection in network traffic | |
CN112235254B (zh) | 一种高速主干网中Tor网桥的快速识别方法 | |
CN113992544A (zh) | 端口流量分配的优化方法、装置 | |
CN101459695B (zh) | P2p业务识别方法和装置 | |
CN113794653B (zh) | 一种基于抽样数据流的高速网络流量分类方法 | |
Wu et al. | Bcac: Batch classifier based on agglomerative clustering for traffic classification in a backbone network | |
CN115174961A (zh) | 一种面向高速网络的多平台视频流量早期识别方法 | |
CN114666273B (zh) | 一种面向应用层未知网络协议的流量分类方法 | |
CN113037551B (zh) | 一种基于流量切片的涉敏业务快速识别定位方法 | |
Hsieh et al. | On the classification of mobile broadband applications | |
Carela-Espanol et al. | Traffic classification with sampled netflow | |
JP7435744B2 (ja) | 識別方法、識別装置及び識別プログラム | |
CN113037628B (zh) | 一种服务路径自动发现方法、系统及介质 | |
CN114979017B (zh) | 基于工控系统原始流量的深度学习协议识别方法及系统 | |
Zander et al. | Internet archeology: estimating individual application trends in incomplete historic traffic traces | |
CN110674010B (zh) | 基于会话长度概率分布的智能设备应用程序识别方法 | |
CN114143301B (zh) | 一种移动流量应用识别特征提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |