CN104102700A

CN104102700A - 一种面向因特网不平衡应用流的分类方法

Info

Publication number: CN104102700A
Application number: CN201410318598.9A
Authority: CN
Inventors: 刘琼; 刘珍
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2014-07-04
Filing date: 2014-07-04
Publication date: 2014-10-15

Abstract

本发明公开一种面向因特网不平衡应用流的分类方法，在对所收集的流量数据报文已完成组流、流统计特征值计算和类别标记，获得流样本以及流量数据集的基础上，通过聚簇算法划分数据集，形成多个密集且不相交的子集；针对子集流样本特征值，利用插值法扩充小类流样本；根据当前子集流样本间的近邻关系和流样本字节数制定大类流样本的欠采样规则；基于显式考虑集成多样性的boosting-style集成学习算法逐个训练集成分类模型；判断测试集流样本与各训练子集聚簇中心的距离，选择距离最近的聚簇中心所对应的集成分类模型分类流样本，并输出其所属的应用类别。本发明促成分类模型在不降低大类分类准确率的情况下，提高小类分类准确率和总体字节分类准确率。

Description

一种面向因特网不平衡应用流的分类方法

技术领域

本发明属于因特网流量测量的流量分类技术领域，尤其涉及面向因特网不平衡应用流的分类方法。

背景技术

近年来，因特网接入技术和接入设备的不断发展促进了因特网用户规模的迅速扩张。因特网网络应用的快速增加使因特网流量迅猛增长。自1999年以来，随着P2P(Peer-to-Peer)架构的出现，P2P文件共享、流媒体等应用获得广泛使用。据第32次《中国互联网络发展状况统计报告》，截至2013年6月，网络视频应用的半年增长率为4.5％，达到3.89亿人，使用率为65.8％。因特网流量因重型应用(heavy hitters)的发展而急剧增长，造成网络带宽资源的过度消耗，引起网络拥塞甚至引发丢包，直接影响网络应用的服务质量(Quality of Service，QoS)和用户体验。因特网服务提供商(Internet service providers，ISP)可采取一系列措施对网络流量(例如P2P)实施控管，以提高网络应用的QoS。此外，基础设施的部署和管理成本在大幅度增加，但是ISP的收益并没有成比例增长；ISP希望高效利用有限的带宽资源，实行经济效益和社会效益都较优的网络计费等。对因特网流量的管理、控制、计费和分析等都建立在因特网流量所属应用类别的识别和分类基础之上。

因特网流量分类属于流量测量范畴，是识别网络IP报文所属应用类别(WEB、MAIL或P2P)的过程。目前，已有大量的因特网流量分类方法被提出。端口号映射法直接根据熟知端口号与网络应用的对应关系进行分类，例如80识别WWW，25端口识别SMTP。但是，随着新型网络应用(P2P、被动FTP等)采用动态端口号、端口伪装技术等，此方法逐渐失效。随后，深度报文载荷检测方法被提出，该方法提取每种网络应用独特的载荷特征字段，并通过特征字段匹配操作实现报文分类，例如L7-filter。但是，该方法是对报文载荷部分进行操作，不仅计算开销较大，而且涉及隐私纠纷等问题；随着报文载荷加密技术的广泛应用，该方法的可用性逐渐下降。目前，基于统计特征的机器学习方法成为因特网流量分类的研究热点之一。统计特征可以不依赖于端口号、报文载荷，而且对模糊化(obfuscation)技术更鲁棒。

因特网流量数据具有显著不平衡性，即一种大类的应用流的数目远远大于小类应用流。例如，在Moore等人(A.W.Moore,D.Zuev.Internet trafficclassification using bayesian analysis techniques.Proceedings of the ACMSIGMETRICS,2005)共享的流量数据集中，WEB流数目占据大概70％，部分小类应用类别的流数目却占据不到2％。而大多机器学习算法假设各类别样本数服从均匀分布，且以高总体分类准确率为优化目标，导致分类器往往偏向于正确分类对总体分类准确率贡献较大的大类流量而忽略小类流量的分类性能。例如，Moore等人采用朴素贝叶斯算法分类因特网流量，获得96％以上的总体分类准确率，但是某些小类P2P/ATTACK仅获得36.45/13.46的召回率；Li等人(W.Li,M.Canini,A.W.Moore,et al.Efficient application identification and thetemporal and spatial stability of classification schema.Computer Networks,2009)分析C4.5决策树分类方法在流量分类中的时空鲁棒性，他们的实验结果取得高达99％的总体分类准确率，但是小类ATTACK和GAMES的召回率却仅有8.57％和40％；最近Zhang等人(张宏莉,鲁刚.分类不平衡协议流的机器学习算法评估与比较.软件学报,2012)比较分析多种分类算法在分类不平衡协议流的分类性能，实验结果表明，采用集成学习Bagging算法，总体分类准确率达到95％以上，但XUNLEI/SMTP等小类应用的召回率却几乎为0％。

此外，当拥有少量应用流的小类拥有大量字节数的时候，流量分类器往往获得高的总体流分类准确率而较低的总体字节分类准确率。Erman等人(J.Erman,A.Mahanti,M.Arlitt.Byte me:A case for byte accuracy in trafficclassification.Proceedings of the 3rd annual ACM workshop on Mining networkdata.2007)也特别强调了字节分类准确率的重要性。以卡尔加里大学采集的流量数据为例，除前0.1％的大流之外的所有应用流均能被正确分类时，分类器能获得99.9％的流分类准确率，但是字节错误率却高达46％。最近，Jin等人(Y.Jin,N.Duffield,J.Erman,et al.Amodular machine learning system for flow-leveltraffic classification in large networks.ACM Transactions on Knowledge Discoveryfrom Data,2012)在某大型ISP网络采集的流量数据集上，采用AdaBoost分类算法，字节分类准确率比流分类准确率低17.96％；字节错误率在用户主机的分布情况表明，字节错误率主要集中于少量的终端节点；如果这种分类结果用于流量管制，用户可能受到不公平的惩罚。

上述研究结果表明，基于机器学习的流量分类方法尽管能获得95％以上的总体流分类准确率，但是小类应用的分类准确率极低(通常小于20％)，总体字节分类准确率也不理想。高的总体流分类准确率造成高流量分类性能的“假象”。基于机器学习的流量分类方法仍面临复杂的多类不平衡问题。于此，大多采取随机欠采样方法取得数据的平衡，即从每种流量记录中随机选择相同数目的流样本构成均匀分布的训练集，从而提高各种类别的分类准确率。Zhong等人(W.C.Zhong,B.Raahemi,J.Liu.Learning on class imbalanced data to classifyPeer-to-Peer applications in IP traffic using resampling techniques.Proceedings ofthe IEEE International Joint Conference On Neural Networks.2009)对P2P流量分类中的两类不平衡(two-class imbalance)问题进行了研究，对三种典型的重采样方法进行了比较分析，即：随机过采样，随机欠采样和SMOTE(synthetic minorityover-sampling)；实验结果表明，随机过采样和SMOTE方法的性能优于随机欠采样。Erman等人提出加权重采样，即训练集构建为50％的流样本的字节数低于字节的95％分位数，50％的流样本的字节数高于字节的95％分位数；实验结果表明在略微降低流分类准确率的情况下提高了字节分类准确率，但是在某些流量数据集上的提高程度仍然有限。He等人(H.T.He,X.N.Luo,F.T.Ma,etal.Network traffic classification based on ensemble learning and co-training.Information Science in China Series F,2009)结合了集成学习和代价敏感学习，代价敏感学习采用基于字节比率的代价矩阵，即高字节数的类别分配较高错分代价。但是该方法可能损失拥有少量流/字节数的类别的流/字节分类性能(例如，即时通信应用)。

上述工作都仅停留在关注流数目的不平衡，没有根据因特网流量数据所具有的不平衡特性，提出有针对性的重采样策略。机器学习领域的研究表明，类不平衡问题不仅关联于流数目的不平衡，还与其它多种因素相关，例如类间重叠、多子概念等。Jo等人(T.Jo,N.Japkowicz.Class imbalances versus smalldisjuncts.SIGKDD Explorations Newsletter,2004)的工作表明，同时处理类不平衡和多子概念问题的方法比单独处理一种类不平衡问题的方法更优。

现有的因特网流量分类还面临其它多类不平衡的问题，如小类的分类准确率较低，总体字节分类准确率也不够理想等。

发明内容

本发明实施例的目的在于提供一种面向因特网不平衡应用流的分类方法，旨在解决现有的因特网流量分类所面临的小类的分类准确率较低，总体字节分类准确率低的问题。

一种面向因特网不平衡应用流的分类方法，在对所收集的流量数据报文已完成五元组{源IP、目标IP、源端口号、目标端口号、传输层协议}组流、流特征值计算和类别标记，且已获得由特征向量描述的流样本及流量数据集的基础上；其特征在于包括如下步骤：

步骤一，利用k-means算法将数据集划分为多个密集且不相交的子集，每个子集包含一个聚簇中心；

步骤二，针对步骤一所得子集，按过采样比例扩充小类流样本；

步骤三，针对步骤二获得的子集，制定启发式规则欠采样大类流样本；

步骤四，步骤三获得的子集作为训练集，离线训练k个集成分类模型；

步骤五，联合k个集成分类模型对测试流样本进行分类。

进一步，所述一种面向因特网不平衡应用流的分类方法，其特征在于步骤一利用k-means聚簇算法将数据集划分为k个密集且不相交的子集包括：选定聚簇个数k，利用k-means算法进行流样本聚簇。

进一步，所述一种面向因特网不平衡应用流的分类方法，其特征在于预先选定聚簇个数k指：采用误差平方和(sum of squared error，SSE)搜索k值，SSE表征当数据集划分为k个聚簇时各簇簇内散度之和；当以k为自变量，SSE为因变量时，k与SSE之间基本呈现非线性单调减函数关系；当k按正整数从2起递增时，若SSE降低程度不再明显，则选取当即k值作为聚簇个数；所述SSE降低程度不再明显指相邻两个k值对应的SSE的比值接近于1。

进一步，所述一种面向因特网不平衡应用流的分类方法，其特征在于步骤二按过采样比例扩充小类流样本包括过采样比例和扩充小类流样本的流程；所述“过采样比例”指在过采样子集中，最大类的流样本数与一个小类的流样本数的比值，由人为设定；所述过采样子集是由当前子集扩充小类流样本后获得的流样本数据集；所述当前子集包含多个类别的样本，分三部份：1个最大类的样本、1个或多个小类的样本、1个或多个其它类的样本；所述最大类指在当前子集中样本数最多的类别；所述小类指在当前子集中至少扩充一个样本即满足小类流样本数与最大类流样本数的比值等于过采样比例的类别；所述其它类别指在当前子集中由样本数判断既不属于最大类也不属于小类的类别。

进一步，所述一种面向因特网不平衡应用流的分类方法，其特征在于扩充小类流样本的流程包括：小类流样本扩充数、扩充数的分配方法和扩充小类流样本的方法；所述小类流样本的扩充数为最大类流样本数乘以“过采样比例”再减去当前小类应用流的样本数；所述扩充数的分配方法指在当前子集中，当前小类应用流的样本扩充数除以该小类应用流的样本数，即每个当前小类应用流的样本所需扩充的样本数；所述扩充小类流样本的方法指采用SMOTE方法扩充小类流样本，即利用KD-Tree算法搜索当前样本的q(q>1)个同类别最近邻，随机选取其中一个最近邻，对其特征向量的逐个特征值进行插值计算，生成新特征向量所表达的小类流样本。

进一步，所述一种面向因特网不平衡应用流的分类方法，其特征在于步骤三制定启发式规则欠采样大类流样本指建立移出大类流样本的方法，包括利用KD-Tree算法在当前子集中逐个针对小类流样本搜索m(m>1)个最近邻，在所有小类的最近邻集合中搜索字节数少于10KB的大类流样本作为移除候选样本，所述候选样本可能同时属于多个小类流样本的最近邻，为每个候选样本计算与各对应小类流样本的距离的平均值，按距离平均值的升序规律移除候选样本，直至欠采样子集中的大类样本数达到阈值为止。

进一步，所述一种面向因特网不平衡应用流的分类方法，其特征在于所述阈值指欠采样子集中的最小类流样本数除以欠采样比例得到的样本数；所述欠采样指移除大类样本的采样方法；所述“欠采样比例”指在欠采样子集中，最小类流样本数与一个大类流样本数的比值，由人为设定；所述欠采样子集是由当前子集移除部分大类流样本后获得的流样本数据集；所述当前子集含多个类别的样本，分三部份：1个最小类的样本、1个或多个大类的样本、1个或多个其它类的样本；所述最小类指在当前子集中样本数最少的类别；所述大类指在当前子集中至少移除一个样本即符合最小类流样本数与大类流样本数的比值等于欠采样比例的类别；所述其它类别指在当前子集中由样本数判断既不属于最小类也不属于大类的类别。

进一步，所述一种面向因特网不平衡应用流的分类方法，其特征在于步骤四离线训练k个集成分类模型包括：选择C4.5决策树算法作为基分类算法，采用显式考虑集成多样性的boosting-style集成学习算法分别在步骤三得到的k个子集上训练获取k个集成分类模型。

进一步，所述一种面向因特网不平衡应用流的分类方法，其特征在于所述显式考虑集成多样性的boosting-style集成学习算法指一种按预定策略进行迭代学习获取集成分类模型的学习算法；所述集成分类模型包含一个以上的成员分类器；所述集成多样性指集成分类模型中的各成员分类器的识别各流样本的能力存在差别；所述迭代学习指反复学习，且逐次对当前成员分类器进行训练误差计算、流样本权重计算及其重采样、成员分类器的分类权重计算，当且仅当预先设定的迭代次数已达到或训练误差为0时迭代学习终止；所述训练误差指当前成员分类器分类原训练集时，被错误分类的流样本数除以总体流样本数的结果；所述流样本权重计算及其重采样指迭代过程中训练集样本的权重之和始终为1，样本总数恒定；所述分类权值指成员分类器分类时对分类结果的表决权力；所述预定策略指迭代学习过程中，由当前成员分类器的训练误差和流样本的惩罚因子统筹决定流样本的更新权重，对错误分类且具有较低预测多样性的流样本被赋予最大的权重增量，对正确分类且具有较高预测多样性的流样本赋予最大的权重负增量，对一致性错误分类的流样本和/或一致正确分类的流样本赋予适当权重增量；所述惩罚因子是一种敏感于预测多样性的计算因子。

进一步，所述的一种面向因特网不平衡应用流的分类方法，其特征在于步骤五联合k个集成分类模型对测试集流样本进行分类：逐一针对测试集流样本计算当前流样本与各训练子集聚簇中心的距离，选择距离最近的聚簇中心所对应的集成分类模型分类当前测试样本，输出其所属的应用类别。

本发明所提供的面向因特网不平衡应用流的分类方法，针对因特网应用流固有的类不平衡特性，提出一种分层的解决方案；通过数据预处理建立趋于平衡的流样本数据集，具体以多策略协同处理多个类不平衡因素，步骤一划分子集的目的在于降低应用流数据集的类内散度，步骤二扩充小类流样本的目的在于降低不平衡程度，步骤三基于启发式规则删除大类流样本的目的在于降低类间重叠；而采用显式考虑集成多样性的boosting-style集成学习算法训练集成分类模型的目的在于改善分类模型的泛化能力；方法的整体目的在于促成流量分类模型在不降低大类分类准确率的情况下，尽量提高小类分类准确率，同时兼顾改善总体字节分类准确率。

附图说明

图1是本发明实施例提供的面向因特网不平衡应用流的分类方法流程图；

图2是本发明实施例提供的聚簇个数k与簇内散度SSE之间的关系的实施例示意图；

图3是本发明实施例提供的过采样方法中插值生成新的流样本的实施例示意图；

图4是本发明实施例提供的启发式欠采样过程的实施例示意图；

图5是本发明实施例提供的集成分类模型迭代次数与分类性能的关系的实施例示意图；

图6是本发明实施例提供的多个分类模型结构的实施例示意图；

图7是本发明实施例提供的因特网不平衡应用流分类方法和C4.5决策树分类方法的总体分类性能的对比实施例示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例对本发明的应用原理作进行描述。

执行本发明之前需完成流量数据集准备：

对数据报文组成的流量记录(.pcap格式)进行组流：在起止时间范围内，具有相同五元组{源IP、目标IP、源端口号、目标端口号、传输层协议}的报文构成一条网络流；所述起止时间范围指：对基于TCP传输层协议的网络流，以SYN报文作为当前网络流的起始标志，FIN报文作为结束标志；对基于UDP传输层协议的网络流，以当即采集到第一个报文作为当前网络流的起始标志，以采集时间超时作为结束标志，所述超时时间由人工配置；

所述流统计特征值计算指逐一针对网络流计算报文数、持续时间、报文到达时间间隔等各种特征值，并构成特征向量描述当前网络流，以形成由不同特征向量描述的流样本数据集；所述类别标记指针对流样本所含报文载荷的头部特征字段，利用L7-filter软件工具生成识别网络应用类别的正则表达式，逐个为流样本匹配所属应用类别，并为其添加预定义的类别标签，所述预定义的类别标签诸如WEB、MAIL、P2P等。

图1所示为本发明实施例1

本发明一种面向因特网不平衡应用流的分类方法包括5个步骤，分为三个部分：流量数据预处理，如S101、S102和S103；流量分类模型的离线训练，如S104；流量分类S105。

S101，利用k-means算法将数据集划分为多个密集且不相交的子集，每个子集包含一个聚簇中心；

S102：针对S101所得子集，按过采样比例扩充小类流样本；

S103：针对S102所得子集，制定启发式规则欠采样大类流样本；

S104：以S103获得的子集作为训练集，离线训练k个集成分类模型；

S105：联合k个集成分类模型对测试流样本进行分类。

图2所示为本发明实施例2

S101，采用k-means聚簇算法，将流量数据集划分为多个密集且不相交的数据子集，聚簇个数k的确定方式为：采用误差平方和(sum of squared error，SSE)搜索k值，SSE表征当数据集划分为k个聚簇时各簇簇内散度之和，各聚簇的SSE的总和的计算如式(1)，其中，x_i表示第i个流样本，μ_j表示第j个聚簇中心，n_j表示第j个聚簇的流样本个数；

SSE = Σ_{j = 1}^{k} Σ_{i = 1}^{n_{j}} {(x_{i} - μ_{j})}^{2} - - - (1)

设SSE_r表示第r个聚簇个数情况下计算的SSE，最终聚簇个数的确定如式(2)，若式(2)返回为空，那么k设置为默认值，即k＝3。

k = \max_{r = 1, . . ., 9} {r | {SSE}_{r - 1} / {SSE}_{r} &GreaterEqual; 3} - - - (2)

在选定k之后，随机选择k个流样本作为聚簇中心，并采用k均值对流样本进行聚簇，得到k个密集且不相交的流量数据子集；

图2表达了面向因特网不平衡应用流的分类方法中聚簇个数与簇内散度之间的关系：当以k为自变量，SSE为因变量时，k与SSE之间基本呈现非线性单调减函数关系；当k按正整数从2起递增时，若SSE降低程度不再明显，即选取当即k值作为聚簇个数；所述SSE降低程度不再明显指相邻两个k值对应的SSE的比值接近于1；即随着聚簇个数的增加，簇内散度也随着降低，在聚簇个数等于3之后，SSE降低程度趋于平稳。

图3所示为本发明实施例3

S102，所述一种面向因特网不平衡应用流的分类方法，其特征在于按过采样比例扩充小类流样本包括过采样比例和扩充小类流样本的流程；所述“过采样比例”指在过采样子集中，最大类的流样本数与一个小类的流样本数的比值，由人为设定；所述过采样子集是由当前子集扩充小类流样本后获得的流样本数据集；所述当前子集包含多个类别的样本，分三部份：1个最大类的样本、1个或多个小类的样本、1个或多个其它类的样本；所述最大类指在当前子集中样本数最多的类别；所述小类指在当前子集中至少扩充一个样本即满足“该小类流样本数与最大类流样本数的比值等于过采样比例的类别；所述其它类别指在当前子集中由样本数判断既不属于最大类也不属于小类的类别。

所述扩充小类流样本的流程包括：小类流样本扩充数、扩充数的分配方法和扩充小类流样本的方法；所述小类流样本的扩充数为最大类流样本数乘以“过采样比例”再减去当前小类应用流的样本数；所述扩充数的分配方法指在当前子集中，当前小类应用流的样本扩充数除以该小类应用流的样本数，即每个当前小类应用流的样本所需扩充的样本数；所述扩充小类流样本的方法指采用SMOTE方法扩充小类流样本，即利用KD-Tree算法搜索当前样本的q(q>1)个同类别最近邻，随机选取其中一个最近邻，对其特征向量的逐个特征值进行插值计算，生成新特征向量所表达的小类流样本。

具体实现计算：当给定小类流样本数与大类流样本数的过采样比例设为1:r时，所述小类C_j的流样本的扩充数为O_j，计算公式如式(3)；当前小类每个流样本的附近的扩充数为O_ji，计算公式如式(4)；

O_j＝(n_max/r)-n_j (3)

Q_ji＝O_j/n_j (4)

其中n_max表示最大类的流样本数，n_j表示小类C_j的流样本数，如，针对一个小类流样本x_i计算5个近邻{x_i1,x_i2,x_i3,x_i4,x_i5}，随机选择一个近邻样本x_ij，按式(5)式以随机插值方式扩充新样本，如图3所示；

r_j＝x_i+rand(0,1)×(x_ij-x_i) (5)

其中rand(0,1)是0～1之间的随机数，迭代执行随机插值步骤，直至到达到目标流样本数O_j为止，扩充的小类流样本是在两个小类流样本之间通过随机插值得到，因而新的小类流样本在原小类流样本附近，以保证类内散度更小。

图4所示为本发明实施例4

S103，所述一种面向因特网不平衡应用流的分类方法，其特征在于制定启发式规则欠采样大类流样本指建立移出大类流样本的方法，包括利用KD-Tree算法在当前子集中逐个针对小类流样本搜索m(m>1)个最近邻，在所有小类的最近邻集合中搜索字节数少于10KB的大类流样本作为移除候选样本，所述候选样本可能同时属于多个小类流样本的最近邻，为每个候选样本计算与各对应小类流样本的距离的平均值，按距离平均值的升序规律移除候选样本，直至欠采样子集中的大类样本数达到阈值为止。

所述阈值指欠采样子集中的最小类流样本数除以欠采样比例得到的样本数；所述欠采样指移除大类样本的采样方法；所述“欠采样比例”指在欠采样子集中，最小类流样本数与一个大类流样本数的比值，由人为设定；所述欠采样子集是由当前子集移除部分大类流样本后获得的流样本数据集；所述当前子集含多个类别的样本，分三部份：1个最小类的样本、1个或多个大类的样本、1个或多个其它类的样本；所述最小类指在当前子集中样本数最少的类别；所述大类指在当前子集中至少移除一个样本即符合最小类流样本数与该大类流样本数的比值等于欠采样比例的类别；所述其它类别指当前子集中由样本数判断既不属于最小类也不属于大类的类别。

采用启发式欠采样方法删除大类流样本包括两个步骤：(a)逐个针对当前子集中的小类流样本x_i，搜索其M个最近邻，判断M个最近邻中的每个大类流样本的字节数是否小于10KB；(b)根据采样阈值删除部分大类流样本；采样阈值即为欠采样后的大类流样本数，由当前子集最小类流样本数除以欠采样比例。

启发式欠采样的具体实现如图4所示：对当前流量数据子集的每个小类流样本x_i执行S401；S401采用KD-Tree(k-dimensionaltree)为x_i搜索M个最近邻；S402将这些最近邻存放于S_M(x_i)；在S_M(x_i)中与x_i同类和异类的流样本分别放入S_s(x_i)和S_d(x_i)集合；如果S_s(x_i)和S_d(x_i)都不为空，判断S_d(x_i)中的每个大类流样本的字节数是否小于10KB，若满足，则将该流样本放入S_R集合并记录该大类流样本与x_i之间的距离(一个大类样本可能同时属于多个小类流样本的最近邻)；S403计算S_R中的大类流样本与一个或多个小类流样本的距离平均值作为这个大类流样本的标签，按照标签记录的距离平均值对S_R中的大类流样本进行升序排序和删除大类流样本，直到达到欠采样阈值(T表示)为止；此外，若一个大类C_j的流样本数n_j(n_j-|S_R|)>T，则从原子集中删除S_R的所有流样本。

因特网流量数据的类不平衡通常包括类间流数目不平衡、类间重叠、多子概念等，多子概念是由于类内的流样本分散在多个子概念区域，利用聚簇将原数据集划分为多个密集的子集，每个子集单独作为训练集，能达到减少子概念个数的目的，如执行S101；类间流数目不平衡表现为小类与大类的流样本数之间存在多个数量级的差别，增加小类流样本或者减少大类流样本可减小类不平衡，如执行S102和S103；类间重叠是由于不同类别的某些流样本在特征空间十分靠近，共享某些特征取值，并且重叠区域内小类流样本远少于大类流样本，当分类面靠近小类流样本区域，小类流样本更容易被错分，启发式欠采样方法有利于移除重叠区域的大类流样本，缓解类间重叠程度，如执行S103；

图5所示为本发明实施例5

S104，所述一种面向因特网不平衡应用流的分类方法，其特征在于离线训练k个集成分类模型：选择C4.5决策树算法作为基分类算法，采用显式考虑集成多样性的boosting-style集成学习算法分别在步骤三得到的k个子集上训练获取k个集成分类模型。

所述显式考虑集成多样性的boosting-style集成学习算法指一种按预定策略进行迭代学习获取集成分类模型的学习算法；所述集成分类模型包含一个以上的成员分类器；所述集成多样性指集成分类模型中的各成员分类器的识别各流样本的能力存在差别；所述迭代学习指反复学习，且逐次对当前成员分类器进行训练误差计算、流样本权重计算及其重采样、成员分类器的分类权重计算，当且仅当预先设定的迭代次数已达到或训练误差为0时迭代学习终止；所述训练误差指当前成员分类器分类原训练集时，被错误分类的流样本数除以总体流样本数的结果；所述流样本权重计算及其重采样指迭代过程中训练集样本的权重之和始终为1，样本总数恒定；所述分类权值指成员分类器分类时对分类结果的表决权力；所述预定策略指迭代学习过程中，由当前成员分类器的训练误差和流样本的惩罚因子统筹决定流样本的更新权重，对错误分类且具有较低预测多样性的流样本被赋予最大的权重增量，对正确分类且具有较高预测多样性的流样本赋予最大的权重负增量，对一致性错误分类的流样本和/或一致正确分类的流样本赋予适当权重增量；所述惩罚因子是敏感于预测多样性的计算因子。

具体实现流程为：S104以当前子集作为训练集，采用C4.5决策树作为基分类算法，采用显式考虑集成多样性的boosting-style集成学习算法，训练集成分类模型：为训练集中的每个流样本设置相同的初始权重W_t(x_i)＝1/n，其中，n为样本个数；获取迭代初始训练集，训练获得当前集成分类模型；利用当前成员分类器分类原训练集中的流样本，统筹训练误差E_t和惩罚因子p_t(x_i)更新当前训练集中的流样本x_i的权重W_t(x_i)，W_t(x_i)的计算如式(6)：

W_{t + 1} (x_{i}) = \frac{p_{t} (x_{i}) W_{t} (x_{i})}{Z_{t}} \times \{\begin{matrix} e^{α_{t}} & h_{t} (x_{i}) &NotEqual; y_{i} \\ e^{- α_{t}} & h_{t} (x_{i}) = y_{i} \end{matrix} - - - (6)

其中，

α_{t} = \frac{1}{2} \ln (\frac{1 - E_{t}}{E_{t}})

根据预测结果计算流样本x_i的惩罚因子p_t(x_i)，p_t(x_i)与集成多样性相关，计算如式(7)所示：

p_{t} (x_{i}) = 1 - \frac{1}{t} | Σ_{k} ([H (x_{i}) = y_{i}] - [h_{k} (x_{i}) = y_{i}]) | - - - (7)

其中，H(x_i)表示集成分类模型，h_k(x_i)表示第l(l>1)个成员分类器，如果h_k(x_i)分类正确，[h_k(x_i)＝y_i]返回1，否则返回0。

分类器训练误差E_t的计算，如式(8)所示：

E_{t} = \frac{Σ_{i} W_{t} (x_{i}) p_{t} (x_{i}) (1 - [h_{t} (x_{i}) = y_{i}])}{Σ_{i} W_{t} (x_{i}) p_{t} (x_{i})} - - - (8)

迭代进行基于流样本权重分布的重采样、集成分类模型训练、成员分类器的权重计算和流样本权重更新，直到达到结束条件(达到迭代次数或者训练误差为0)为止；所述基于流样本权重分布的重采样指根据样本权重采样流样本，采样后的流样本总数与原来一样，权重较大的样本被采样概率更高。

每个样本一个权重，所述样本权重采样方法指根据样本权重采样流样本，采样后的流样本总数与原来一样，权重较大的样本被采样概率更高。

集成分类模型训练过程中，有意增加错分流样本和高预测一致性流样本的权重，使这些流样本能以较高概率选入迭代训练集中，达到加强学习错分流样本并提高集成多样性的目的。

实施例图5表达了迭代次数与分类性能的关系，因选择C4.5决策树为基分类算法，单个成员分类器能获得较高的流分类性能，所以流g-mean和总体流分类准确率几乎不受迭代次数的影响。但随着迭代次数的增加，总体字节分类准确率获得提高，占据最多字节数的HTTP和eDonkey应用的字节召回率都得到提高；当迭代次数大于15时，总体字节分类准确率基本稳定。

经过S101～S103的数据预处理，流样本的分布已发生变化，C4.5决策树的结构将随数据分布的变化而发生较大变化，选择C4.5决策树作为基分类算法，有利于提高集成分类模型的分类稳定性；在分类模型训练过程中，显式考虑集成多样性，适时强调成员分类器的差异，有利于改善分类模型的分类性能。

图6所示为本发明实施例6

S105，所述的一种面向因特网不平衡应用流的分类方法，其特征在于联合k个集成分类模型对测试集流样本进行分类：逐一针对测试集流样本计算当前流样本与各训练子集聚簇中心的距离，选择距离最近的聚簇中心所对应的集成分类模型分类当前测试样本，输出其所属的应用类别。

具体实现为：对因特网采集的IP报文进行组流和流统计特征计算，建立由特征向量描述的流样本及流量数据集(测试集)，逐个计算测试集流样本与S101获得的k个聚簇中心的距离，选择距离最近的聚簇中心所对应的集成分类模型分类流样本，并输出对应的应用类别，即：

H(x)＝h_j(x)，j＝argmin_i(Dis(x,centrod_i))，i＝1,…,k；

其中Dis(x,centrod_i)表示流样本x到第i个聚簇中心的距离；

图6为本发明的k个分类模型分类应用流的结构示意图；

图7所示为本发明实施例7

本发明的分类方法在当前流量数据子集上训练的集成分类模型(表示为BPSCAda)、在流量数据集上训练的C4.5决策树分类模型(表示为Origin)的总体流分类准确率、总体字节分类准确率、流g-mean和字节g-mean的比较，如图7所示；总体流/字节分类准确率、流/字节g-mean的计算方式分别如式(9)和(10)；

OA = \frac{Σ_{i = 1}^{q} {TP}_{i}}{Σ_{i = 1}^{q} {TP}_{i} + {FN}_{i}} - - - (9)

G = {(Π_{i = 1}^{q} R_{i})}^{\frac{1}{q}} - - - (10)

其中TP_i表示类别C_i中被正确分类为类别C_i的流数/字节数；FN_i表示类别C_i中被错误分类的流/字节数；R_i表示类别C_i中被正确分类的流/字节比率；q表示类别个数。

该实施例表明，利用本发明得出的集成分类模型BPSCAda，所述各项分类性能指标均优于C4.5决策树分类模型。

本发明实施方式并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种面向因特网不平衡应用流的分类方法，在对所收集的流量数据报文已完成五元组{源IP、目标IP、源端口号、目标端口号、传输层协议}组流、流特征值计算和类别标记，且已获得由特征向量描述的流样本及流量数据集的基础上；其特征在于包括如下步骤：

步骤五，联合k个集成分类模型对测试流样本进行分类。

2.如权利要求1所述一种面向因特网不平衡应用流的分类方法，其特征在于步骤一利用k-means聚簇算法将数据集划分为k个密集且不相交的子集包括：选定聚簇个数k，利用k-means算法进行流样本聚簇。

3.如权利要求1和2所述一种面向因特网不平衡应用流的分类方法，其特征在于预先选定聚簇个数k指：采用误差平方和(sum of squared error，SSE)搜索k值，SSE表征当数据集划分为k个聚簇时各簇簇内散度之和；当以k为自变量，SSE为因变量时，k与SSE之间基本呈现非线性单调减函数关系；当k按正整数从2起递增时，若SSE降低程度不再明显，则选取当即k值作为聚簇个数；所述SSE降低程度不再明显指相邻两个k值对应的SSE的比值接近于1。

4.如权利要求1所述一种面向因特网不平衡应用流的分类方法，其特征在于步骤二按过采样比例扩充小类流样本包括过采样比例和扩充小类流样本的流程；所述“过采样比例”指在过采样子集中，最大类的流样本数与一个小类的流样本数的比值，由人为设定；所述过采样子集是由当前子集扩充小类流样本后获得的流样本数据集；所述当前子集包含多个类别的样本，分三部份：1个最大类的样本、1个或多个小类的样本、1个或多个其它类的样本；所述最大类指在当前子集中样本数最多的类别；所述小类指在当前子集中至少扩充一个样本即满足小类流样本数与最大类流样本数的比值等于过采样比例的类别；所述其它类别指在当前子集中由样本数判断既不属于最大类也不属于小类的类别。

5.如权利要求1和4所述一种面向因特网不平衡应用流的分类方法，其特征在于扩充小类流样本的流程包括：小类流样本扩充数、扩充数的分配方法和扩充小类流样本的方法；所述小类流样本的扩充数为最大类流样本数乘以“过采样比例”再减去当前小类应用流的样本数；所述扩充数的分配方法指在当前子集中，当前小类应用流的样本扩充数除以该小类应用流的样本数，即每个当前小类应用流的样本所需扩充的样本数；所述扩充小类流样本的方法指采用SMOTE方法扩充小类流样本，即利用KD-Tree算法搜索当前样本的q(q>1)个同类别最近邻，随机选取其中一个最近邻，对其特征向量的逐个特征值进行插值计算，生成新特征向量所表达的小类流样本。

6.如权利要求1所述一种面向因特网不平衡应用流的分类方法，其特征在于步骤三制定启发式规则欠采样大类流样本指建立移出大类流样本的方法，包括利用KD-Tree算法在当前子集中逐个针对小类流样本搜索m(m>1)个最近邻，在所有小类的最近邻集合中搜索字节数少于10KB的大类流样本作为移除候选样本，所述候选样本可能同时属于多个小类流样本的最近邻，为每个候选样本计算与各对应小类流样本的距离的平均值，按距离平均值的升序规律移除候选样本，直至欠采样子集中的大类样本数达到阈值为止。

7.如权利要求1和6所述一种面向因特网不平衡应用流的分类方法，其特征在于所述阈值指欠采样子集中的最小类流样本数除以欠采样比例得到的样本数；所述欠采样指移除大类样本的采样方法；所述“欠采样比例”指在欠采样子集中，最小类流样本数与一个大类流样本数的比值，由人为设定；所述欠采样子集是由当前子集移除部分大类流样本后获得的流样本数据集；所述当前子集含多个类别的样本，分三部份：1个最小类的样本、1个或多个大类的样本、1个或多个其它类的样本；所述最小类指在当前子集中样本数最少的类别；所述大类指在当前子集中至少移除一个样本即符合最小类流样本数与大类流样本数的比值等于欠采样比例的类别；所述其它类别指在当前子集中由样本数判断既不属于最小类也不属于大类的类别。

8.如权利要求1所述一种面向因特网不平衡应用流的分类方法，其特征在于步骤四离线训练k个集成分类模型包括：选择C4.5决策树算法作为基分类算法，采用显式考虑集成多样性的boosting-style集成学习算法分别在步骤三得到的k个子集上训练获取k个集成分类模型。

9.如权利要求1和8所述一种面向因特网不平衡应用流的分类方法，其特征在于所述显式考虑集成多样性的boosting-style集成学习算法指一种按预定策略进行迭代学习获取集成分类模型的学习算法；所述集成分类模型包含一个以上的成员分类器；所述集成多样性指集成分类模型中的各成员分类器的识别各流样本的能力存在差别；所述迭代学习指反复学习，且逐次对当前成员分类器进行训练误差计算、流样本权重计算及其重采样、成员分类器的分类权重计算，当且仅当预先设定的迭代次数已达到或训练误差为0时迭代学习终止；所述训练误差指当前成员分类器分类原训练集时，被错误分类的流样本数除以总体流样本数的结果；所述流样本权重计算及其重采样指迭代过程中训练集样本的权重之和始终为1，样本总数恒定；所述分类权值指成员分类器分类时对分类结果的表决权力；所述预定策略指迭代学习过程中，由当前成员分类器的训练误差和流样本惩罚因子统筹决定流样本的更新权重，对错误分类且具有较低预测多样性的流样本被赋予最大的权重增量，对正确分类且具有较高预测多样性的流样本赋予最大的权重负增量，对一致性错误分类的流样本和/或一致正确分类的流样本赋予适当权重增量；所述惩罚因子是敏感于预测多样性的计算因子。

10.如权利要求1所述的一种面向因特网不平衡应用流的分类方法，其特征在于步骤五联合k个集成分类模型对测试集流样本进行分类：逐一针对测试集流样本计算当前流样本与各训练子集聚簇中心的距离，选择距离最近的聚簇中心所对应的集成分类模型分类当前测试样本，输出其所属的应用类别。