CN107819698A

CN107819698A - 一种基于半监督学习的网络流量分类方法、计算机设备

Info

Publication number: CN107819698A
Application number: CN201711103392.4A
Authority: CN
Inventors: 冉静; 孔晓晨; 刘元安; 胡鹤飞; 袁东明
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2018-03-20

Abstract

本发明涉及一种基于半监督学习的网络流量分类方法及系统，该方法包括：获取已标记和未标记类型的网络流，提取每条网络流中的流特征，得到网络流特征向量；利用已标记数据计算出每个流特征的信息增益，并进行特征加权；将已标记和未标记类型的网络流进行混合聚类；获取每个聚簇中已标记网络流的数目，并确定每个聚簇中每个类型的占比值；当聚簇中已标记网络流总数目相加小于预设网络流阈值时，则判定为未知协议簇，否则判定为已标记网络流中比例最大的类型；直到都判定出流量类型的流量簇，并利用其训练出一个线上的实时分类器。还涉及一种计算机设备，该设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序。

Description

一种基于半监督学习的网络流量分类方法、计算机设备

技术领域

本发明属于网络流量管理领域，尤其涉及一种基于半监督学习的网络流量分类方法、计算机设备。

背景技术

传统的基于网络流的方法大多结合监督的或无监督的机器学习算法来实现网络流量分类。在有监督的流量分类中，学习引擎接受一组已标记的流样本，根据预定义的协议类别进行训练，然后返回一个训练好的分类模型，该分类模型可以预测未来网络流的协议类型。然而，随着网络的迅速扩展，互联网上部署了许多新的应用程序，这些应用对应的未知流是基于监督学习的分类方法无法处理的。在这种情况下，未知流将被错误地划分到某个预定义的流量类别中去，并影响分类器的整体精度。基于无监督学习的分类方法可以自动聚类未标记的训练样本，应用聚类结果构建流量分类器。但是聚类簇的数目必须被设置得足够大，以得到高纯度的流量簇，而且很难在没有监督信息的情况下将大量的流量簇映射到少量的流量类别中。

因此，传统的流量分类方法在标记信息不足，且网络中存在未知流量的现实情况下表现不佳。为了解决这个问题，Erman等人首先提出了将半监督学习方法应用到流量分类中，利用有标记流和未标记流的混合输入，训练出一个可以将已知协议分类的同时提取出未知协议的分类器。张等人扩展了Erman的工作，提出了一种改进的半监督流量分类方法，该方法在复杂的网络环境下表现良好。然而，这些方法仍然存在以下问题：

第一，没有充分的利用已标记数据，即标记流。在经典的半监督分类方法和后来改进的方法中，标记流均只用于聚类的识别，没有对其进行充分的利用。

第二，在实际场景中，利用标记流识别聚簇结果时，往往没有考虑未知协议簇中，如果存在少量被误分到该簇的已标记数据，则该簇就会被错误的划分到某已知协议类别中去，利用这样的聚簇结果训练出的线上分类器，会严重影响该类协议的分类准确率，以及对未知协议提取的准确率，导致线上分类器的准确率下降。

针对现有技术中的上述问题，目前尚未有有效的解决方案。

发明内容

本发明所要解决的技术问题是：没有充分的利用已标记数据，即标记流。在经典的半监督分类方法和后来改进的方法中，标记流均只用于聚类的识别，没有对其进行充分的利用。

为解决上面的技术问题，本发明提供了一种基于半监督学习的网络流量分类方法，该网络流量分类方法包括：

S1，获取已标记类型和未标记类型的网络流，按照预设固定量来提取每条网络流中的流特征，得到网络流特征向量；

S2，根据已标记类型的网络流，计算出所述预设固定量中每个流特征的信息增益，并根据所述信息增益对每个流特征进行特征加权；

S3，将已标记类型和未标记类型的网络流进行混合，并利用k-means算法对混合后的网络流进行聚类，得到k个聚簇；

S4，获取所述k个聚簇中的每个聚簇中已标记网络流特征向量的数目，并确定每个聚簇中每个类型的占比值；其中所述占比值是等于每个类型的已标记网络流特征向量的数目占簇中总的已标记网络流特征向量的数目的比例；

S5，当每个聚簇中已标记网络流特征向量的总数目相加小于预设网络流阈值时，则将相应的聚簇判定为未知协议簇，否则将相应的聚簇判定为已标记网络流特征向量中比例最大的类型；

S6，重复步骤S4-S5，直到k个聚簇都判定出流量类型的流量簇；

S7，将所述判定出流量类型的流量簇作为训练数据，训练出线上的流量分类器。

本发明的有益效果：通过本发明的方法，提取固定数量的流特征，再利用已标记的网络流计算出每个流特征的信息增益，再根据信息增益对每个流特征进行特征加权，这样是网络流的特征选取系统也不需要进行重置，而且区分度更高，另外也充分利用了标记数据改进了线下k-means聚类得到的聚簇的类别判定方法，从而使得有些被错误划分到某已知协议类别中的簇也可以识别出来，利用这样的聚簇结果训练出的线上分类器，可以大大提高线上分类器的准确率，同时实现线上未知协议的提取。

进一步地，所述步骤S1中已标记网络流占总的网络流数量的比例为预设值r_l，且每种类型的已标记网络流的数量相同。

进一步地，所述预设网络流阈值时是指每个聚簇中所有网络流的数目乘以所述预设值r_l的一半。

进一步地，所述步骤S2中包括：根据所述已标记类型的网络流，计算出所述预设固定量中每个流特征的信息增益，其具体公式为：

IG(F_i)＝H(C)-E(F_i)；

其中，C表示已标记的网络流集合，H(C)为这些已标记网络流总体的熵，F_i表示网络流的第i个特征，E(F_i)为当网络流根据特征F_i的值划分为子集时的熵。

进一步地，，所述步骤S2中根据所述信息增益对每个流特征进行特征加权，计算网络流特征F_i的权值w_i的具体公式为：

其中，IG(F_i)为网络流特征F_i的信息增益，为所有网络流特征的信息增益的总和。

进一步地，所述S4中包括：

获取每个聚簇C_i中已标记网络流特征向量的数目n_i；

当n_i的取值大于0时，计算最大后验概率，其中所述后验概率P为每个聚簇中每个类型的已标记网络流特征向量的数目占簇中总的网络流特征向量的数目的比例，其中后验概率P(L＝l_j|C_i)＝n_ij/n_i。

进一步地，所述步骤S5中当每个聚簇中已标记网络流特征向量的总数目相加小于所述预设网络流阈值时，其具体计算公式为：

其中，n_ij表示簇i中类别为j的网络流数目，为簇i中已标记网络流特征向量的总数目，r_l表示已标记网络流占总的网络流数量的比例，表示被聚类到簇i中所有网络流的数目。

本发明还涉及一种计算机设备，该计算机设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述任一项所述方法的步骤。

本发明的有益效果：通过本发明的计算机设备，提取固定数量的流特征，再根据已标记流计算出每个流特征的信息增益，再根据信息增益对每个流特征进行特征加权，这样是网络流的特征选取系统也不需要进行重置，而且区分度更高，另外也充分利用了标记数据改进了线下k-means聚类得到的聚簇的类别判定方法，从而使得有些被错误划分到某已知协议类别中去的簇也可以识别出来，利用这样的聚簇结果训练出的线上分类器，可以大大提高了分类识别的精度线上分类器的准确率，同时实现线上未知协议的提取。

附图说明

图1为本发明实施例1的一种基于半监督学习的网络流量分类方法的流程图；

图2为基于半监督学习的网络流量分类系统的框架示意图；

图3为本发明实施例10的一种计算机设备的结构示意图；

图4是分类器的整体准确率对比的示意图；

图5是针对每种协议的分类的准确率对比的示意图；

图6是更进一步分析已标记网络流的比例对分类器准确率的影响的示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，本发明实施例1提供的是本发明提供了一种基于半监督学习的网络流量分类方法，该网络流量分类方法包括：

S4，获取所述k个聚簇中的每个聚簇中已标记网络流特征向量的数目，并确定每个聚簇中每个类型的占比值；其中所述占比值是等于每个类型的标记网络流特征向量的数目占簇中总的已标记网络流特征向量的数目的比例；

需要说明的是，如图2所示，在本实施例1中采用的是基于半监督学习的网络流量分类系统的框架，该系统能够实现实时的流量分类，在提高常见类型流量的分类准确度的同时，还具有检测和提取出未知应用程序产生的未知流的能力。该系统由两阶段组成：离线学习和在线识别。少量的标记流量和大量未标记的网络流作为系统的线下训练数据输入。在利用已标记流计算出网络流特征的信息增益和初始聚类中心后，将标记流与未标记流混合后进行k-means聚类。然后，在标记流的帮助下，将k-means输出的聚簇映射到某一应用类型流量。聚簇结果作为训练数据，可用于训练线上的实时网络流量分类器，如NCC分类器。在线上分类时，该分类器可将网络流量划分为若干已知流量类型的同时，检测并提取出未知流量。为了实现更细粒度分类，我们还加入了系统更新模块，进一步分析了未知流量的类型，可用于构建新的流量类别，更新系统的知识量。

通过本实施例1方法，提取固定数量的流特征，再利用已标记的网络流计算出每个流特征的信息增益，并根据信息增益对每个流特征进行特征加权，这样是网络流的特征选取系统也不需要进行重置，而且区分度更高，另外也充分利用了标记数据改进了线下k-means聚类得到的聚簇的类别判定方法，从而使得有些被错误划分到某已知协议类别中去的簇也可以识别出来，利用这样的聚簇结果训练出的线上分类器，可以大大提高了分类识别的精度线上分类器的准确率，同时实现线上未知协议的提取。

进一步地，在另一实施例2中所述网络流特征向量的权值是用于在k-means算法中计算加权欧式距离的。

需要说明的是，本实施例2是在上述实施例1的基础上进行的进一步说明。

可选地，在另一实施例3中所述步骤S1中已标记网络流占总的网络流数量的比例为预设值r_l，且每种类型的已标记网络流的数量相同。

需要说明的是，本实施例3是在上述实施例2的基础上进行的进一步说明。

可选地，在另一实施例4中所述预设网络流阈值时是指每个聚簇中所有网络流的数目乘以所述预设值r_l的一半。

需要说明的是，本实施例4是在上述实施例1、实施例2或者实施例3的基础上进行的进一步说明。

可选地，在另一实施例5中所述步骤S2中包括：根据所述已标记类型的网络流，计算出所述预设固定量中每个流特征的信息增益，其具体公式为：

IG(F_i)＝H(C)-E(F_i)：

需要说明的是，本实施例5实在上述实施例1、实施例2或者实施例3的基础上进行的进一步说明，在本实施例5中假设已标记流集用A＝{a₁，a₂，a₃，...a_N}表示，每个流用一个M维的特征向量表示。这样我们可以得到一个特征集F＝{F₁，F₂，F₃，...，F_M}。根据不同的协议类别，可以将网络流划分为k组C＝{C₁，C₂，C₃，...，C_k}，每种特征的信息增益值可以计算如下：

IG(F_i)＝H(C)-E(F_i)

其中H(C)表示这些网络流总体的熵

E(F_i)表示当网络流被某一特征F_i划分为子集时的熵，假设F_i有v个值，则网络流特征集A可以被划分为v个子集，每个子集中有x_j个网络流特征向量。则

其中a_ij是子集A_j中属于C_i的向量个数，P_ij＝a_ij/x_j表示类别属于Ci的网络流在A_j中出现的概率。

可选地，在另一实施例6中所述步骤S2中根据所述信息增益对每个流特征进行特征加权，计算网络流特征F_i的权值w_i的具体公式为：

需要说明的是，在本实施例6中这个过程借助于标记流得到了各特征的权重值，因此该系统可以用固定数量的特征的来适应不同的输入协议。

可选地，在另一实施例7中所述S4中包括：

获取每个聚簇C_i中已标记网络流特征向量的数目n_i；

当n_i的取值大于0时，计算最大后验概率，其中所述后验概率P为每个聚簇中每个类型的已标记网络流特征向量的数目占簇中总的已标记网络流特征向量的数目的比例，其中后验概率P(L＝l_j|C_i)＝n_ij/n_i。

可选地，在另一实施例8中所述步骤S5中当每个聚簇中已标记网络流特征向量的总数目相加小于所述预设网络流阈值时，其具体计算公式为：

其中，n_ij表示簇i中类别为j的网络流数目，为簇i中已标记网络流特征向量的总数目，r_l表示已标记网络流占总的网络流数量的比例，表示被聚类到簇i中所有网络流的数目

可选地，所述步骤S7中，根据聚簇结果，训练出一个NCC分类器，假设流量类别用Ω＝{ω₁，...，ω_l}表示，对于每一类别ω_i，它可以由一组有代表性的中心点来描述，其具体计算公式为：M_i＝{m_j：C_j∈ω_i}。

可选地，对于线上的每一条测试流来说，分类规则为将其判别为聚其最近的点的类别，其具体计算公式为：

如图3所示，本发明实施例10中还提供一种计算机设备，该计算机设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述实施例1-实施例9中任一实施例所述方法的步骤。

需要说明的是，在本实施例10中通过本发明的计算机设备，提取固定数量的流特征，再计算出每个流特征的信息增益，再根据信息增益对每个流特征进行特征加权，这样是网络流的特征选取系统也不需要进行重置，而且区分度更高，另外也充分利用了标记数据，从而大大使得有些被错误划分到某已知协议类别中去簇也可以识别出来，提高了分类识别的精度。

另外需要说明的是，对于上述实施例1-10本发明采用的改进的聚簇识别算法，该算法的具体步骤如下：

输入：半监督k-means得到的k个聚簇结果C＝{C₁，…，C_k}，所有网络流中已标记的数据的比例r_l；

i初始取值为1

输出：k个类别已知的簇

Step1：对聚簇C_i，取得簇中标记网络流特征向量的数目n_i

Step2：当n_i的取值为0时，将聚簇C_i标记为未知协议簇

Step3：当n_i的取值大于0时，计算最大后验概率P(L＝l_j|C_i)＝n_ij/n_i，即计算簇中每个类型的标记网络流特征向量的数目占簇中总的网络流特征向量的数目的比例。

Step4：当时，即簇中所有类型的标记网络流特征向量的总数目相加，仍然小于该簇中所有网络流的数目乘以r_l的1/2时，(认为该簇在这种情况下，根据簇中已标记的网络流的类型进行簇的类型判定时的数据不充足，)仍将该簇暂时判定为未知协议簇。

Step5：当时，根据最大后验概率值，将该簇判定为簇中已标记数据最多的网络流量类型。

Step6：将i值重置为i+1，当i值小于等于k时，重复进行step1～step6。

Step7：得到k个已判定流量类型的流量簇，并输出。

考虑到已标记数据是随机选取的，对于非未知协议类来说，他们对应的聚类簇中应该存在数目大于的网络流。因此，考虑到聚类结果的偶然性，我们认为簇中的已标记流的数目小于时，认为其不具有代表性，将这些簇暂时的划分为未知协议簇，在系统更新模块中在对其进行进一步的研究，这样，可以保证未知类型的流量可以更好地被提取出来。

如图4、图5、图6所示，是对于本发明实施例1-实施例10中的一些实验数据的说明，为了展现本发明的优越性，将本发明得到的分类器与其他两种半监督分类器，以及本发明去掉已标记数据充分利用部分得到的分类器进行对比。

图4中的表格中的数据分别对应着柱状图从左到右的四个图形，依次为本发明得到的分类器，本发明去掉已标记数据充分利用部分得到的分类器，以及其他两种半监督分类器，分类器整体的准确率分别为95.80％，92.67％，91.13％，86.67％。

图5列举了几种不同协议通过上述分类器进行分类后的f值对比，f值一般用于评价多协议分类器对每种协议的不同分类性能，它是正确率和召回率的加权调和平均。针对HTTP，SMTP，FTP，DNS和一类未知协议，通过本发明的方法训练出的分类器均得到了很好的效果。

图6更进一步分析已标记网络流的比例对各种分类器准确率的影响，随着已标记网络流比例的增加，本发明训练出的分类器的准确率不断提高，但是其他方法得到的分类器不仅没有明显提高，甚至有所下降，说明了本发明在簇的类别映射方面的改进方法的先进性。

在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于半监督学习的网络流量分类方法，其特征在于,该网络流量分类方法包括：

2.根据权利要求1所述的网络流量分类方法，其特征在于,所述网络流特征向量的权值是用于在k-means算法中计算加权欧式距离的。

3.根据权利要求2所述的网络流量分类方法，其特征在于，所述步骤S1中已标记网络流占总的网络流数量的比例为预设值r_l，且每种类型的已标记网络流的数量相同。

4.根据权利要求1-3任一所述的网络流量分类方法，其特征在于，所述预设网络流阈值时是指每个聚簇中所有网络流的数目乘以所述预设值r_l的一半。

5.根据权利要求1-3任一所述的网络流量分类方法，其特征在于，所述步骤S2中包括：根据所述已标记类型的网络流，计算出所述预设固定量中每个流特征的信息增益，其具体公式为：

IG(F_i)＝H(C)-E(F_i)；

6.根据权利要求5所述的网络流量分类方法，其特征在于，所述步骤S2中根据所述信息增益对每个流特征进行特征加权，计算网络流特征F_i的权值w_i的具体公式为：

7.根据权利要求1-3任一所述的网络流量分类方法，其特征在于，所述S4中包括：

获取每个聚簇C_i中已标记网络流特征向量的数目n_i；

8.根据权利要求4所述的网络流量分类方法，其特征在于，所述步骤S5中当每个聚簇中已标记网络流特征向量的总数目相加小于所述预设网络流阈值时，其具体计算公式为：

9.一种计算机设备，其特征在于，该计算机设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一项所述方法的步骤。