CN111144459A

CN111144459A - 一种类不平衡的网络流量分类方法、装置及计算机设备

Info

Publication number: CN111144459A
Application number: CN201911291144.6A
Authority: CN
Inventors: 唐宏; 刘丹; 姚立霜; 王云锋; 裴作飞
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-12
Anticipated expiration: 2039-12-16
Also published as: CN111144459B

Abstract

本发明涉及网络流量分类技术领域，涉及一种类不平衡的网络流量分类方法、装置及计算机设备；所述方法包括获取待分类的网络流量数据，并提取出网络流量的特征；采用特征选择算法删除不相关特征以及冗余特征，并对剩余的特征降维，从而选择出最优特征子集；将所述最优特征子集输入至基于权重的多分类器中，采用增量学习的方式，进行网络流量分类训练，优化分类器性能后，对网络流量进行分类。本发明针对网络流量样本分布不平衡问题，删除了不相关特征以及冗余特征，在保证整体分类准确度的前提下，有效提高小类别的识别率；引入增量学习思想，提高模型更新训练的灵活性，降低模型更新的周期；利用基于权重的多分类器，减小了概念漂移带来的影响。

Description

一种类不平衡的网络流量分类方法、装置及计算机设备

技术领域

本发明涉及网络流量分类技术领域，更具体地说，涉及一种类不平衡的网络流量分类方法、装置及计算机设备。

背景技术

根据产生网络流量的应用对流量进行分类对于保证网络QoS(Quality ofService)值、维护网络安全具有重要意义。借助网络流量分类，网络管理者可以实时将网络中所有流量按不同应用类型进行划分与分析，为部署服务质量控制(QoS)机制提供依据，并针对不同类型的应用提供不同的服务质量等级，从而减轻网络拥塞，确保关键业务服务质量，维持网络高效通畅运行。同时，依靠流量分类，网络服务提供商可以预测网络业务的发展趋势，合理的规划网络基础体系结构，使用户得到更好的上网体验。另外，在网络安全方面，流量分类是入侵检测系统(intrusion detection system，IDS)的核心部分。

传统基于端口号的流量分类技术通过检查分组的传输层端口号，然后根据IANA定制的知名端口号与注册端口号列表将分组与应用对应起来，而流行的P2P与被动FTP等新型网络应用普遍利用随机端口进行数据传输，进而导致基于端口的流量分类方法已不再适用。基于特征字段的流量分类技术根据网络应用在传输过程中所具有的特征来区分不同的应用，它需要解析数据包并获得特征字段，准确性较高，但随着应用负载加密和新型应用的不断涌现，该方法的有效性逐步下降。基于传输层主机行为的流量分类技术，不依赖于端口号和报文载荷，但传输层主机行为对网络环境异常敏感，分类效果不够稳定。而基于机器学习的网络流量分类技术是近年来的一个研究热点。

例如中国专利CN104767692A提出了一种网络流量分类方法，该方法通过对聚类算法加以改进，在聚类过程中加入了标注过的样本点，可以检测聚类中心是否选取得当，修正误差和错误；降低不符合实际情况的样本中心点，使得复杂度降低，提高了分类准确率。

还比如中国专利CN109063777A提出了一种网络流量分类方法、装置及实现装置，该申请对待分类的数据流进行标准化处理后，根据预先建立的流量分类模型，对该标准数据流进行分类，该方式提升了网络流量识别分类的效果，提高了效率。

但上述技术中的分类模型大多数都难以实现频繁、及时的更新，并且忽略了概念漂移现象，且没有充分考虑网络流量数据样本的分布状况，普遍追求大类的学习效果，容易忽略小类的学习性能；由于忽略了小类特征的重要性，容易将小类别错分大类别，导致网络流量分类效果参差不齐，效率较低；甚至造成网络系统的崩溃。

发明内容

基于上述技术存在的问题，本发明为了更好的获取网络流量数据特征，采用了特征选择算法对特征进行降维，从一组给定的特征集合中挑选出部分特征作为最优特征子集。为了解决数据样本类不平衡的情况，采用增量学习的方式，利用多分类器的集成，对网络流量数据进行分类；基于此，本发明提供一种类不平衡的网络流量分类方法、装置及计算机设备。

本发明采用的技术方案包括：

一种类不平衡的网络流量分类方法，所述方法包括：

获取待分类的网络流量数据，并提取出网络流量的特征；

采用特征选择算法删除不相关特征以及冗余特征，并对剩余的特征降维，从而选择出最优特征子集；

将所述最优特征子集输入至基于权重的多分类器中，采用增量学习的方式，进行网络流量分类训练，优化分类器性能后，对网络流量进行分类。

基于与本发明相同的构思，本发明提出了一种类不平衡的网络流量分类装置，包括：

数据流采集模块，用于采集待分类的网络数据流量；

特征选择模块，用于删除网络数据流量中不相关特征和冗余特征，并对选择出的剩余特征降维；

基于权重的多分类器，用于根据输入的最优特征子集，对网络流量分类训练，优化分类器性能后，对网络流量进行分类。

另外，本发明还提供了一种计算机设备，包括存储器，处理器以及存储在处理器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明提供的网络流量分类方法。

本发明的有益效果：

本发明提供的基于增量学习的类不平衡网络流量集成分类模型，针对网络流量样本分布不平衡问题，本发明引入了基于加权对称不确定性(Weighted SymmetricUncertainty，简称WSU)和近似马尔科夫毯(Approximate Markov Blanket,简称AMB)的特征选择算法删除了不相关特征以及冗余特征；为了克服传统网络流量分类模型难以实现频繁、及时更新的问题，引入增量学习思想，即每次只需要利用少量的新样本进行训练，提高模型更新训练的灵活性，降低模型更新的周期；为了尽量减少概念漂移现象带来的影响，利用基于权重的多分类器集成方法，在保证整体分类准确度的前提下，有效提高小类别的识别率。

附图说明

图1为本发明实施例提供的一种类不平衡的网络流量分类方法的总体框架图；

图2为本发明实施例提供的一种类不平衡的网络流量分类方法中特征选择的框架示意图；

图3为本发明实施例提供的采用特征选择阶段的流程示意图；

图4为本发明实施例提供的采用特征降维阶段的流程示意图；

图5为本发明实施例提供的多分类器的框架示意图；

图6为本发明实施例提供的一种类不平衡的网络流量分类装置结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明主要采用如图1所示的框架实现，包括进行网络流量数据采集，统计出网络流量特征，对特征进行选择，训练分类器模型，并获得实时的网络流量数据分类。

在一个实施例中，获取待分类的网络流量数据包括：

对网络流量样本数据进行统计得到统计结果，每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及多个属性特征的取值。

在一个实施例中，流量样本数据为Moore公开数据集中的数据。具体的，可以从网络中下载Moore公开数据集，在所有数据流中随机选取其中70％为训练集，剩余30％为测试集。数据集中各个应用类别及其数据流数量如下面的表1所示：

表1

在一个实施例中，提取出网络流量的特征。Moore数据集的每一条样本包含249个特征，最后一个特征为样本所属的应用类别，其他的248个特征包括：流持续的时间、源/目的端口、分组到达时间的间隔(最大/最小值、平均值)、分组长度(最大/最小值、平均值)等属性特征。

可选的，所述提取出网络流量的统计特征包括从TCP协议头提取，采集该网络流量所属类别信息和属性特征信息。

在一个实施例中，如图2所示，采用的特征选择算法选择出最优特征子集主要包括两个阶段，第一阶段是为了删除不相关特征和冗余特征，第二阶段是为了进一步降低特征维度。

在第一阶段中，主要包括两个过程，一是计算加权对称不确定性，二是采用近似马尔科夫毯方法确定出候选特征集合。

在第二阶段中，主要包括两个过程，一是计算相关度函数，二是采用序列搜索算法选择最优特征子集。

在第一阶段中，所述候选特征集合的获取方式包括将网络流量中的各个特征初始化；利用加权对称不确定性公式计算出网络流量类别与每一属性特征之间的相关度，判断相关度值是否小于相关度门限阈值，若小于，则删除该属性特征；否则利用马尔科夫毯条件的判定公式，删除具有近似马尔科夫毯的冗余特征；直至输出候选特征集合；

加权对称不确定性公式的形成过程包括，首先计算属于各类别的权重值：

其中，w_i表示属于类别c_i的权重值；n_i表示属于类别c_i的样本数，N表示样本总量。从式中可以看出，识别小类别的特征度量的权值较高，这有益于特征度量偏向于小类别，使得与小类别具有强相关性的特征更容易被选择出来。

属性特征F的加权熵表示为：

其中，p(c_i,f_j)表示网络流量类别C与属性特征F的联合概率，p(f_j)表示特征F的先验概率。

类别C的加权熵表示为：

其中，p(c_i)表示类别C的先验概率。

在特征F发生的前提下，类别X的加权条件熵表示为：

其中，p(c_i|y_j)表示特征F发生的条件下X的后验概率。

加权互信息如下：

IG_w(C|F)＝H_w(C)-H_w(C|F) 5)

因此，加权对称不确定性WSU的定义如下所示：

利用以下公式进行近似马尔科夫毯条件的判定，删除冗余特征。特征f_i是特征f_j的近似马尔科夫毯(i≠j)，需要满足以下条件：

当满足该判定公式，则将属性特征f_j作为冗余特征删除；其中，WSU(f_i,C)表示网络流量类别C与属性特征f_i的相关度；WSU(f_j,C)表示网络流量类别C与属性特征f_j的相关度；WSU(f_i,f_j)表示属性特征f_i与属性特征f_j的相关度。

通过上述计算公式，如图3所示，第一阶段所运行的过程主要包括：

步骤101：对网络流量样本中的特征和类别初始化S←(f₁,…,f_D)。

步骤201：根据公式(6)计算每个特征f_i与类别C之间的加权对称不确定WSU(f_i,C)，其中f_i∈F。

步骤301：判断WSU(f_i,C)是否大于相关度门限阈值δ，如是，转至步骤501，否则，转至步骤401。

步骤401：删除特征f_i。

步骤501：计算选出特征间的WSU(f_i,f_j)，根据公式(7)删除具有近似马尔科夫毯的特征。

步骤601：输出候选特征集合BS。

在第二阶段中，特征评估函数值的计算公式的推导过程包括：

两个变量之间的Pearson相关系数定义为两个变量之间的协方差和标准差的商：

则特征评估函数值可以定义为：

利用特征评估函数值计算相关性函数值；其中，n表示特征子集s中的特征个数，

表示特征子集s中各个特征与类别相关度的平均值，

表示特征子集s中各特征之间相关度的平均值，r为Pearson相关系数。

具体的，如图4所示，第二阶段所运行的过程主要包括：

步骤111：计算候选特征集合BS(f₁,f₂,…,f_n)中每一个属性特征f_d的特征评估函数值J(f_d)；

步骤211：若J(f_a)＝max{J(f_d)}，则把f_a加入F_o，并将其从候选特征集合中删除；

步骤311：将候选特征集合中未入选的属性特征分别与集合F_o中的属性特征进行匹配，得到匹配后组合特征集的评估函数值；

步骤411：将最大组合特征评估函数值对应的属性特征加入集合F_o，并将该属性特征从集合候选特征集合中删除；

步骤511：判断集合F_o中属性特征的数量是否达到预设数量阈值L，如达到，转至步骤611，否则，转至步骤411；

步骤611：输出最终的最优特征子集F_o。

对于步骤411，比如，对于第一次组合特征的评估函数值计算，应当将其余未入选的n-1个特征依次与已入选特征f_a匹配，得到匹配后的组合特征的准则函数值J的大小按照升序排序，如果：

J(F_o∪{S₁})>J(F_o∪{S₂})>…>J(F_o∪{S_n-1})；

则将能使J值最大的特征加入到目标特征子集F_o中，即F_o←F_o∪S₁。

在一个实施例中，如图5所示，本发明采用基于权重的多分类器中，增量学习思想，通过增量学习的方式，每次只需要利用少量的新样本进行训练，提高模型更新训练的灵活性，降低模型更新的周期，使得模型能更好的适应多变的网络环境。初始时只有一个基分类器，该基分类器从事先准备的数据集上训练所得；随着未知网络流的到达以及系统不断给出的预测，这些网络流及其预测将构成新的数据集；当新的数据集与前一阶段数据集相比，发生了概念漂移并达到一定程度时，就基于新的数据集训练新的分类器，将其加入多分类器系统，参与预测分类。

可选的，漂移检测方法可以利用以下公式实现：

假设某类别被错误划分的比率为p_i，那么它的标准方差为：

当数据分布最终稳定在一个恒定值的情况下，p_i的减小是由于样本数的增长。如果测量误差率(即S_i和p_i的距离)出现明显的增加时，这表明此时数据的分布己经不稳定，那么之前构建的模型就不再可以用于匹配此时的数据分布情况。

当p_i+2S_i达到最大值，p_i记为P_max，S_i记为S_max。

其中，α表示漂移告警阈值。只要大于α，就会发出警告。

其中，β表示漂移检测阈值。只要大于β，就表示出现了概念漂移现象。

具体地，可选的，一旦检测到分类错误达到30次时，即认定存在概念漂移，此处设定为30个分类错误的原因是因为该方法通过估算两个连续误差距离的分布，并将该分布与未来的网络流量分布进行比较，从而得以找到网络流量分布的差异。这里P_max+2S_max表示分布的95％，所以根据一般地，α＝0.95，β＝0.90。在该方法中当达到了漂移告警阈值时，则从当前开始存储数据。一旦检测出漂移，则存储的数据将用来建立新的分类器。

可选的，多个基分类器的集成可以将每个基分类器通过其对应的权值采用加权求和的方式；即可以利用以下公式：

其中，分类器Z_i权值的计算方法如下：

假定某数据块T_n由(x,c)形式组成，x为实例，实例所属标签为c。分类器Z_i的均方误差为：

其中|T_n|表示数据块中所包含的样例数的数目，

为分类器Z_i将实例x划分为类c的概率，则Z_i对样例(x,c)的分类错误率是

假设一个随机猜想，x被分类为c类的概率等同于c在整个空间所有类上的概率分布p(x)，则该分类器的随机预测均方误差为：

MSE_r＝∑_cp(c)(1-p(c))² 16)

另外，本发明还提供了一种类不平衡的网络流量分类装置，如图6所示，包括：

数据流采集模块，用于采集待分类的网络数据流量；

在一个优选实施例中，所述特征选择模块包括加权不确定性计算单元、近似马尔科夫毯判定单元、移除单元、特征评估函数计算单元以及序列搜索单元；所述加权不确定性计算利用计算出的加权不确定性相关度值确定出网络流量中相关性较小的属性特征；所述近似马尔科夫毯判定单元用于根据加权不确定性单元计算出的相关度值，确定出具有马尔科夫毯关系的属性特征；所述移除单元用于移除加权不确定性计算单元和近似马尔科夫毯判定单元所确定的属性特征；所述特征评估函数计算单元用于计算每个属性特征的特征评估函数值以及匹配后组合特征集的评估函数值；所述序列搜索单元用于根据组合特征的准则函数值进行排序，输出降维后的特征。

在一个优选实施例中，所述基于权重的多分类器包括多个基分类器，每个基分类器被赋予一个权重值，且对应一个特征子集。

本发明还提供了一种计算机设备，包括存储器，处理器以及存储在处理器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明所提供的网络流量分类方法。

可以理解的是，本发明中的类不平衡的网络流量分类方法、装置以及计算机设备属于同一发明构思，其部分特征可以相互引用，本发明为了不再赘述，则不再一一说明。

需要说明的是，在本发明中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种类不平衡的网络流量分类方法，其特征在于，所述方法包括：

获取待分类的网络流量数据，并提取出网络流量的特征；

2.根据权利要求1所述的一种类不平衡的网络流量分类方法，其特征在于，所述提取出网络流量的统计特征包括从TCP协议头提取，采集该网络流量所属类别信息和属性特征信息。

3.根据权利要求1所述的一种类不平衡的网络流量分类方法，其特征在于，最优特征子集的获取方式包括依次利用加权不确定性删除网络流量中的不相关特征；利用近似马尔科夫毯删除冗余特征；获得候选特征集合；基于相关性度量的特征评估函数以及序列搜索算法降低候选特征集合的维数；从而确定出最优特征子集。

4.根据权利要求3所述的一种类不平衡的网络流量分类方法，其特征在于，所述候选特征集合的获取方式包括将网络流量中的各个特征初始化；利用加权对称不确定性公式计算出网络流量类别与每一属性特征之间的相关度，将相关度值与相关度门限阈值进行比较，若小于相关度门限阈值，则删除该属性特征；否则利用马尔科夫毯条件的判定公式，删除具有近似马尔科夫毯的冗余特征；直至输出候选特征集合；

加权对称不确定性公式包括：

WSU(F,C)表示网络流量类别C与属性特征F的相关度；H_w(C)表示网络流量类别C的加权熵；H_w(F)表示属性特征F的加权熵；IG_w(C|F)表示网络流量类别C与属性特征F加权互信息；

马尔科夫毯条件的判定公式包括：

当满足该判定公式，则将属性特征f_j作为冗余特征删除；

其中，WSU(f_i,C)表示网络流量类别C与属性特征f_i的相关度；WSU(f_j,C)表示网络流量类别C与属性特征f_j的相关度；WSU(f_i,f_j)表示属性特征f_i与属性特征f_j的相关度。

5.根据权利要求3所述的一种类不平衡的网络流量分类方法，其特征在于，所述降低候选特征集合的维度的方式包括：

步骤1：计算候选特征集合BS(f₁,f₂,…,f_n)中每一个属性特征f_d的特征评估函数值J(f_d)；

步骤2：若J(f_a)＝max{J(f_d)}，则把属性特征f_a加入集合F_o，并将属性特征f_a从候选特征集合中删除；

步骤3：将候选特征集合中未入选的属性特征分别与集合F_o中的属性特征进行匹配，得到匹配后组合特征集的评估函数值；

步骤4：将最大组合特征评估函数值对应的属性特征加入集合F_o，并将该属性特征从集合候选特征集合中删除；

步骤5：判断集合F_o中属性特征的数量是否达到预设数量阈值L，如达到，转至步骤6，否则，转至步骤4；

步骤6：输出最终的集合F_o作为最优特征子集。

6.根据权利要求1所述的一种类不平衡的网络流量分类方法，其特征在于，所述基于权重的多分类器中包括从预先获取的特征子集上训练所得一个基分类器；通过增量学习的方式，将新增的网络流量及其通过基分类器所得的分类结果作为新的特征子集；若新的特征子集与前一阶段特征子集相比，发生了概念漂移并达到一定程度时，则新增基分类器，采用新的特征子集训练新增的基分类器，参与预测下一阶段的网络流量的分类结果。

7.一种类不平衡的网络流量分类装置，其特征在于，包括：

数据流采集模块，用于采集待分类的网络数据流量；

8.根据权利要求7所述的一种类不平衡的网络流量分类装置，其特征在于，所述特征选择模块包括加权不确定性计算单元、近似马尔科夫毯判定单元、移除单元、特征评估函数计算单元以及序列搜索单元；所述加权不确定性计算利用计算出的加权不确定性相关度值确定出网络流量中相关性较大的属性特征；所述近似马尔科夫毯判定单元用于根据加权不确定性单元计算出的相关度值，确定出具有马尔科夫毯关系的属性特征；所述移除单元用于移除加权不确定性计算单元和近似马尔科夫毯判定单元所确定的属性特征；所述特征评估函数计算单元用于计算每个属性特征的特征评估函数值以及匹配后组合特征集的评估函数值；所述序列搜索单元用于根据组合特征的准则函数值进行排序，输出降维后的特征。

9.根据权利要求7所述的一种类不平衡的网络流量分类装置，其特征在于，所述基于权重的多分类器包括多个基分类器，每个基分类器被赋予一个权重值，通过加权求和的方式，获取待测的网络流量的分类结果。

10.一种计算机设备，其特征在于，包括存储器，处理器以及存储在处理器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1～6任一所述的方法。