CN105809190B

CN105809190B - 一种基于特征选取的svm级联分类器方法

Info

Publication number: CN105809190B
Application number: CN201610121109.XA
Authority: CN
Inventors: 董育宁; 赵小祥
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2016-03-03
Filing date: 2016-03-03
Publication date: 2019-11-19
Anticipated expiration: 2036-03-03
Also published as: CN105809190A

Abstract

本发明公开了一种基于特征选取的SVM级联分类器方法，包括在开放的网络环境中获取网络游戏与网络视频业务数据，并对该数据流进行基本的流量统计特征计算。然后基于特征选取的SVM级联分类器方法，确定每一级SVM分类器需要识别出的数据类型，以及能有效区分出该类型数据与其他类型数据的最佳特征组合。最后根据设计出的SVM级联分类器对原始的网络数据流进行分类实验，并通过多次实验得到最后的分类结果。本方法在进行特征选取的过程中综合考虑了信息增益率和皮尔森相关系数指标，从而能更为准确地选取最佳特征组合，以提高分类性能。而且本方法采用了为每一类型的数据单独选取最佳特征组合的思想，配合有效的特征选取方法，能有效地提高分类正确率。

Description

一种基于特征选取的SVM级联分类器方法

技术领域

本发明涉及模式识别与分类技术领域，特别涉及一种基于特征选取的SVM级联分类器方法。

背景技术

作为网络应用中最早出现的类型，娱乐类应用经过多年的发展，用户规模和使用率已经逐渐稳定。而在众多的娱乐类应用当中，网络游戏与网络视频业务扮演着不可缺少的重要角色。随着中国网络游戏产业的蓬勃发展，游戏用户规模增长迅速，不同游戏服务商之间的竞争也越来越激烈。为了吸引和维持数量众多的游戏玩家，游戏服务商更加致力于网络游戏的多元化发展。相对于发展迅猛的网络游戏产业，中国网络视频产业的用户规模同样保持着持续稳定的增长趋势。不同类型的网络游戏和网络视频对不同的网络因素有着不同的要求，在这种情况下，如何能准确高效地识别出不同类型的网络游戏和网络视频业务，对于提高用户体验和服务质量等具有十分重要的现实意义。

传统的流量分类方法主要有基于端口的方法，基于深度包检测的方法和基于流统计特征的方法。基于端口的方法会在TCP和UDP包头中检查每个数据包的端口号，将检查出的端口号与国际互联网代理成员管理局(IANA)制定的应用程序端口号列表匹配，确定为何种应用程序。随着大量新兴网络应用的出现，很多应用程序使用相同的端口号或者随机端口号，使得该方法的分类效率和准确率日渐降低，分类效果变差。基于深度包检测的方法主要是对应用层的内容进行分析，通过识别技术对数据流中的特定数据进行检测，从而识别出不同的应用。但由于新型应用的不断涌现以及数据加密的频繁使用，该方法的适用性正逐步下降。目前最为广泛采用的流量分类方法是基于流统计特征的方法，该方法通过提取数据流的某些属性(如平均包速率，平均包到达时间间隔等)的统计信息对数据流进行分类，具有较高的准确性和稳定性。随着近年来机器学习算法在流量分类领域的研究发展，目前更多使用的是基于机器学习的识别方法，该方法可以获得相对更高的分类正确率，且具有较快的分类速度。

国内学者陈振祥等人利用信息增益率进行特征选取，以特征与类属性的信息增益率取值表示特征与类属性的相关程度，根据相关程度的强弱去除不相关特征与冗余特征，取得了良好的分类效果。另外，戴雷等人也提出了一种利用卡方检验值、遗传算法和C4.5决策树算法相结合的特征选取方法，在特征选取过程中，以特征与类属性的卡方检验值表示两者的相关程度，结合遗传算法挑选最佳特征组合，同样取得了良好的分类效果。上述的工作均采用了特征选取的方法来去除不相关的特征或者冗余的特征，以达到提高分类准确度的目的。然而这样的方法均会导致一个可能的问题，即，仅仅以某一指标表示特征与类属性整体的相关性。因此可能存在这样的情况，某些特征在区分某一类数据时性能较好，在区分其他类数据时性能较差，此时该特征与类属性的整体相关性较差，往往不会被挑选出来作为最佳特征组合。而实际上，若以这些特征来区分该类型数据，往往可以取得更好的分类效果。

发明内容

本发明要解决的技术问题是针对上述仅仅以某一指标表示特征与类属性整体的相关性来区分数据流量时存在的只对特定数据类型性能较好，对其他数据类型性能较差的问题。

本发明解决其技术问题所采取的技术方案是提供一种基于特征选取的SVM级联分类器方法，具体包括以下步骤：

步骤1：在开放的网络环境中获取所需的网络游戏与网络视频业务数据，并对该数据流进行基本的流量统计特征计算；

步骤2：基于特征选取的SVM级联分类器方法，确定每一级SVM分类器需要识别出的数据类型，以及能有效区分出该类型数据与其他类型数据的最佳特征组合；

步骤3：根据设计出的SVM级联分类器对原始的网络数据流进行分类实验，通过多次实验得到最后的分类结果。

进一步，步骤1具体包括以下步骤：

i.在开放的网络环境中，通过网络分析工具抓取所需的网络游戏与网络视频数据流，然后将抓取的原始数据流保存成包含包到达时间、源IP地址、目的IP地址、协议、包尺寸的五列数据的标准文本格式；

ii.对原始的网络数据流进行基本的流量统计特征计算，这些特征包括：包间隔信息熵、包大小信息熵、字节速率、分组速率、包大小的均值与方差、包间隔的均值与方差等。

进一步，步骤2中包括：利用基于特征选取的SVM级联分类器方法，确定每一级SVM分类器需要识别出的数据类型，以及能有效区分出该类型数据与其他类型数据的最佳特征组合，具体步骤为：

i.对于样本空间P，由k种不同类型的数据组成，用矩阵S表示，共需设计出k-1级SVM分类器，首先设计第一级SVM分类器；

ii.对矩阵S进行无量纲化处理，由于实际环境中，大部分流统计特征的量级不同，首先对矩阵S中的元素进行无量纲化处理；

iii.随机选取训练集和测试集，从矩阵S的每种类型数据中随机选取出一定比例构成训练集S₁，剩余的数据构成测试集S₂；

iv.选取待识别类，修改类属性，选取矩阵S中的第一类数据作为待识别类，将训练集S₁和测试集S₂中对应待识别类的类属性改为1，其他类数据的类属性改为-1；

v.离散化处理，以基于信息熵的连续型数据离散化方法，对训练集S₁中的数据进行离散化处理；

vi.皮尔森相关系数和信息增益率的计算，计算离散后的训练集S₁中特征与类之间以及特征内部之间的皮尔森相关系数和信息增益率；

vii.去除不相关特征，根据特征与类之间的信息增益率，对特征进行降序排列，去除信息增益率取值小于0-0.5范围的特征；

viii.去除冗余特征，去除不相关特征后，依次对剩余特征进行两两比较，对于任意两个特征，若两者显著相关，则去除排序靠后者。显著相关的判断方法为：若这两个特征均符合皮尔森相关系数的适用条件，即这两者之间存在线性关系且均符合或近似符合正态分布，则采用皮尔森相关系数表示两者的相关程度；若不符合，则采用信息增益率表示，若相关程度的指标值大于等于0.7，则认为这两个特征显著相关；

ix.选取每次实验的最佳特征组合，去除冗余特征后，选取前两名特征作为本次实验待识别类的最佳特征组合，记录下每次实验的最佳特征组合；

x.分类实验，以训练集S₁和最佳特征组合作为输入，训练出能够区分该待识别类和其他类数据的SVM分类器。训练完成后，以测试集S₂作为输入验证SVM分类器的正确性，同时记录下每次实验的正确率；

xi.分类正确率与最佳特征组合的选取，为了正确反映SVM分类器区分待识别类与其他类数据的正确率，重复N次步骤iii-x中的实验，这N次实验中，每次实验均选取同一种数据为待识别类，计算N次实验的平均分类正确率作为区分该待识别类对应的分类正确率指标，从N次实验记录下的最佳特征组合中选择出现次数最多的两个特征，作为该待识别类最终的最佳特征组合；

xii.重新选取待识别类，依次选取其他类型的数据作为待识别类，重复步骤iii-xi，记录下每个待识别类对应的分类正确率指标和最佳特征组合；

xiii.选取出第一级SVM分类器需要识别出的数据，根据每个待识别类对应的分类正确率指标，选取出分类正确率最高的待识别类作为第一级SVM分类器需要识别出的数据类型，同时记录下该类型数据对应的最佳特征组合；

xiv.依次设计下一级SVM分类器，去除矩阵S中第一级SVM分类器需要识别出的数据类型，以步骤iii-xiii的方法设计第二级SVM分类器，以类似方法依次设计下一级SVM分类器。

作为优选，步骤iii所述的一定比例选定为50％。

作为优选，步骤vii中去除信息增益率的取值选定为0.4。

作为优选，上述步骤xi中的N为10。

进一步，步骤3中包括：根据设计出的SVM级联分类器对原始的网络数据流进行分类实验，通过多次实验得到最后的分类结果，具体步骤为：

i.随机选取训练集和测试集，从矩阵S的每种类型数据中随机选取出50％构成训练集S₁，另外50％的数据构成测试集S₂；

ii.训练每一级的SVM分类器，根据已经设计出的SVM级联分类器中，每一级需要识别出的数据类型及其对应的最佳特征组合，训练该级的SVM二分类器；

iii.测试分类正确率，以测试集S₂作为输入，测试设计出的SVM级联分类器的分类正确率；

iiii.计算平均正确率，重复步骤i-iii的实验N次，计算N次实验的平均分类正确率作为SVM级联分类器的分类正确率。

作为优选，上述步骤iiii中的N为50。

有益效果：

1、本发明方法在进行特征选取的过程中综合考虑了信息增益率和皮尔森相关系数指标，从而能更为准确地选取最佳特征组合，以提高分类性能。

2、本发明方法采用了为每一类型的数据单独选取最佳特征组合的思想，配合有效的特征选取方法，能有效地提高分类正确率。

附图说明

图1是本发明SVM级联分类器的整体流程图。

图2是本发明每一级SVM分类器特征有效性验证图。

图3是本发明与现有技术F-measure性能上的对比效果图，现有技术采用基于信息增益率的特征选取方法。

具体实施方式

以下结合附图对本发明的实施作进一步详细的说明。

如图1所示，本发明提出了一种基于特征选取的SVM级联分类器方法，该方法包括：流量的获取及统计特征的计算、每一级SVM分类器的设计、多次分类实验结果统计等。主要具体步骤为：

步骤1，流量的获取及统计特征的计算：通过网络分析工具，如WireShark，在开放的网络环境中获取待分析的网络游戏与视频数据，其中包括即时战略类游戏(以DOTA2为例)、第一人称射击类游戏(以逆战为例)、在线标清视频(以优酷和爱奇艺为例)、在线高清视频(以优酷和爱奇艺为例)、在线直播视频(以Sopcast和CBox为例)和视频下载(以迅雷视频下载为例)六类网络游戏与视频应用。将获取的网络游戏与视频流数据保存成TXT文档格式，其中包含5列，从左至右依次是包到达时间、源IP地址、目的IP地址、协议、分组大小。流是指同种业务在30分钟时间内所抓取的数据包序列，在此称其为一条流，每种业务都抓取60条流来分析问题。然后，将原始的数据流输入到本实验的网络数据流处理平台，进行统计特征计算，最后得到一系列流统计特征。

步骤2，每一级SVM分类器的设计：在每一级SVM分类器中，通过综合考虑信息增益率与皮尔森相关系数的方法进行特征选取，为某一类型的数据选取出能有效区分该类型数据与其他类型数据的最佳特征组合，并以选取出的最佳特征组合准确识别出该类型数据。

在实验中我们设计出了5级的SVM级联分类器模型，以该模型可以在每一级的SVM分类器中准确识别出某一类型的数据。第一级的SVM分类器需要识别出的DOTA2类与其他类数据，最佳特征组合为下行包大小信息熵和下上行最小包大小，具体区分效果如图2中(a)所示。从图中可以看出，DOTA2类数据在下行包大小信息熵特征上与其他类数据有明显差距，以下行包大小信息熵和下上行最小包大小作为最佳特征组合可以有效区分出DOTA2类与其他类数据。

第二级SVM分类器需要识别出视频下载类与其他类数据，最佳特征组合为上行包大小信息熵和下行BPS，具体区分效果如图2中(b)所示。从图中可以看出，以上行包大小信息熵和下上行包大小均值作为最佳特征组合可以有效区分出视频下载类与其他类数据。

第三级SVM分类器需要识别出逆战类与其他类数据，最佳特征组合为下行包大小信息熵和下上行包间隔均值，具体区分效果如图2中(c)所示。从图中可以看出，以下行包大小信息熵和下上行包间隔均值作为最佳特征组合可以有效区分出逆战类与其他类数据。

第四级SVM分类器需要识别出在线直播视频类与其他类数据，最佳特征组合为下行PPS和下上行包间隔信息熵之比，具体区分效果如图2中(d)所示。从图中可以看出，以下行PPS和下上行包间隔信息熵之比作为最佳特征组合可以有效区分出在线直播视频类与其他类数据。

第五级SVM分类器需要识别出在线高清视频类，最佳特征组合为下行BPS和下行PPS，第五级识别为-1类的数据即为剩余的在线标清视频类。具体区分效果如图2中(e)所示。从图中可以看出，在线高清视频类在下行BPS和下行PPS上整体高于在线标清视频类，这与直观认识相符。除个别奇异点外，以下行BPS和下行PPS作为最佳特征组合可以有效区分在线高清视频类与在线标清视频类。

步骤3，多次分类实验结果统计，其实现方法为：采用上述设计出的SVM级联分类器，对原始数据流进行多次分类实验，统计实验结果。

本发明的实验结果：

为了进一步验证本发明方法对分类正确率的提升效果，我们利用本发明中提出的SVM级联分类器方法对六种网络游戏与视频流数据进行分类实验，主要从衡量网络流分类性能的综合指标F测度(F-measure)进行对比验证。

在图3中展示了两种方法对于六种网络游戏与视频业务的F-测度值。其中Original是采用基于信息增益率的特征选取方法进行网络流量分类的分类结果，Improved是采用本发明提出的基于特征选取的SVM级联分类器方法的分类结果。从整体上观察，对于F-measure值来说，本发明方法对六种网络游戏与视频流的识别结果都有较明显的改善。

总之，通过综合考虑信息增益率和皮尔森相关系数的方法进行特征选取，在每一级的SVM分类器中，为某一类型的数据选取出能有效区分该类型数据与其他类型数据的最佳特征组合，并以选取出的最佳特征组合准确识别出该类型数据。将该方法用于分析DOTA2、逆战、在线标清视频、在线高清视频、在线直播视频和视频下载六种主流的网络游戏与视频流应用。实验结果也表明，与现有同类方法相比，本方法可以取得更高的分类正确率。

以上所述仅为本发明的一个具体实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于特征选取的SVM级联分类器方法，其特征在于包括以下步骤：

步骤2：利用基于特征选取的SVM级联分类器方法，确定每一级SVM分类器需要识别出的数据类型，以及能有效区分出该类型数据与其他类型数据的最佳特征组合，具体步骤为：

步骤3-1)对于样本空间P，由k种不同类型的数据组成，用矩阵S表示，共需设计出k-1级SVM分类器，首先设计第一级SVM分类器；

步骤3-2)对矩阵S进行无量纲化处理，由于实际环境中，大部分流统计特征的量级不同，首先对矩阵S中的元素进行无量纲化处理；

步骤3-3)随机选取训练集和测试集，从矩阵S的每种类型数据中随机选取出一定比例构成训练集S₁，剩余的数据构成测试集S₂；

步骤3-4)选取待识别类，修改类属性，选取矩阵S中的第一类数据作为待识别类，将训练集S₁和测试集S₂中对应待识别类的类属性改为1，其他类数据的类属性改为-1；

步骤3-5)离散化处理，以基于信息熵的连续型数据离散化方法，对训练集S₁中的数据进行离散化处理；

步骤3-6)皮尔森相关系数和信息增益率的计算，计算离散后的训练集S₁中特征与类之间以及特征内部之间的皮尔森相关系数和信息增益率；

步骤3-7)去除不相关特征，根据特征与类之间的信息增益率，对特征进行降序排列，去除信息增益率取值为0-0.5范围的特征；

步骤3-8)去除冗余特征，去除不相关特征后，依次对剩余特征进行两两比较，对于任意两个特征，若两者显著相关，则去除排序靠后者，显著相关的判断方法为：若这两个特征均符合皮尔森相关系数的适用条件，即这两者之间存在线性关系且均符合或近似符合正态分布，则采用皮尔森相关系数表示两者的相关程度；若不符合，则采用信息增益率表示，若相关程度的指标值大于等于0.7，则认为这两个特征显著相关；

步骤3-9)选取每次实验的最佳特征组合，去除冗余特征后，选取前两名特征作为本次实验待识别类的最佳特征组合，记录下每次实验的最佳特征组合；

步骤3-10)分类实验，以训练集S₁和最佳特征组合作为输入，训练出能够区分该待识别类和其他类数据的SVM分类器，训练完成后，以测试集S₂作为输入验证SVM分类器的正确性，同时记录下每次实验的正确率；

步骤3-11)分类正确率与最佳特征组合的选取，为了正确反映SVM分类器区分待识别类与其他类数据的正确率，重复M次步骤3-3至3-10中的实验，这M次实验中，每次实验均选取同一种数据为待识别类，计算M次实验的平均分类正确率作为区分该待识别类对应的分类正确率指标，从M次实验记录下的最佳特征组合中选择出现次数最多的两个特征，作为该待识别类最终的最佳特征组合；

步骤3-12)重新选取待识别类，依次选取其他类型的数据作为待识别类，重复步骤3-3至3-11，记录下每个待识别类对应的分类正确率指标和最佳特征组合；

步骤3-13)选取出第一级SVM分类器需要识别出的数据，根据每个待识别类对应的分类正确率指标，选取出分类正确率最高的待识别类作为第一级SVM分类器需要识别出的数据类型，同时记录下该类型数据对应的最佳特征组合；

步骤3-14)依次设计下一级SVM分类器，去除矩阵S中第一级SVM分类器需要识别出的数据类型，以步骤3-3至3-13的方法设计第二级SVM分类器，以类似方法依次设计下一级SVM分类器；

2.根据权利要求1所述的基于特征选取的SVM级联分类器方法，其特征在于步骤1具体包括以下步骤：

步骤2-1)在开放的网络环境中，通过网络分析工具抓取所需的网络游戏与网络视频数据流，然后将抓取的原始数据流保存成包含包到达时间、源IP地址、目的IP地址、协议、包尺寸的五列数据的标准文本格式；

步骤2-2)对原始的网络数据流进行基本的流量统计特征计算，这些特征包括：包间隔信息熵、包大小信息熵、字节速率、分组速率、包大小的均值与方差、包间隔的均值与方差。

3.根据权利要求1所述的基于特征选取的SVM级联分类器方法，其特征在于步骤3-3所述的一定比例优选为50％。

4.根据权利要求3所述的基于特征选取的SVM级联分类器方法，其特征在于步骤3-7中去除信息增益率的取值优选为0.4。

5.根据权利要求3所述的基于特征选取的SVM级联分类器方法，其特征在于步骤3-11中的M优选为10。

6.根据权利要求1所述的基于特征选取的SVM级联分类器方法，其特征在于步骤3中包括：根据设计出的SVM级联分类器对原始的网络数据流进行分类实验，通过多次实验得到最后的分类结果，具体步骤为：

步骤6-1：随机选取训练集和测试集，从矩阵S的每种类型数据中随机选取出50％构成训练集S₁，另外50％的数据构成测试集S₂；

步骤6-2：训练每一级的SVM分类器，根据已经设计出的SVM级联分类器中，每一级需要识别出的数据类型及其对应的最佳特征组合，训练该级的SVM二分类器；

步骤6-3：测试分类正确率，以测试集S₂作为输入，测试设计出的SVM级联分类器的分类正确率；

步骤6-4：计算平均正确率，重复步骤6-1至6-3的实验N次，计算N次实验的平均分类正确率作为SVM级联分类器的分类正确率。

7.根据权利要求6所述的基于特征选取的SVM级联分类器方法，其特征在于步骤6-4中的N优选为50。