CN110008983A

CN110008983A - 一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法

Info

Publication number: CN110008983A
Application number: CN201910045096.6A
Authority: CN
Inventors: 曲桦; 赵季红; 蒋杰; 殷振宇; 冯强; 朱佳荣
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-07-12

Abstract

本发明公开了一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法，通过一种改进的K‑means算法获取各聚类中心，再结合模糊隶属函数对各个训练样本设定隶属度，使得“噪音”样本、离群样本和特征值缺失的样本有较低的隶属度，从而降低这些样本数据对分类的影响。同时，根据SVM分类重要性质：最终模型仅与支持向量有关，引入分布式集群思想，将训练数据集分散在集群中并行计算，并应用遗传算法自适应的获取最优参数和各个支持向量，从而实现了网络流量分类的鲁棒性和时效性。

Description

一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法

技术领域

本发明涉及大规模数据背景下，基于分布式模糊支持向量机的自适应模型的网络流量分类方法。

背景技术

网络流量分类的实现是运行和优化各种网络资源的重要基础，在网络资源管理、入侵检测等方面发挥重要作用。在网络流量识别研究中分类技术主要经历了三个阶段：基于固定端口号的流量分类阶段、基于深度包流量检测 (Deep Packet Inspection,DPI)分类阶段和基于机器学习的流量分类阶段。随着动态端口技术和伪装端口技术的出现，给基于固定端口的流量分类系统带来了严峻挑战。为解决基于端口的流量分类技术存在的不足，Yang等人使用 DPI流量分类技术，即以透视的形式深度检查数据包是否携带目标流量类型的特征码，从而实现对网络流量的分类识别。然而基于DPI的流量分类是以分组数据信息可见性及荷载目标特征已知为前提的，因此不适用于加密流量和未知特征码的网络流量。基于固定端口、DPI的流量分类技术本质上可以理解专家系统，即通过人为的制定规则来实现对网络流量的匹配和识别,不具备智能识别、分类能力。近年来，随着人工智能的兴起，机器学习作为人工智能的主要实现方式，越来越多的机器学习技术被应用到网络流量分类当中。

基于机器学习的网络流量分类技术是对各网络流量统计信息进行计算，利用相关算法对数据包进行识别，进而对相应的网络流量进行分类。机器学习方法主要分为有监督学习和无监督学习。无监督学习是指根据样本间的相似特性对训练集中的样本进行聚类来设计分类器，例如K均值聚类，最大期望算法等。然而在无监督网络流量分类中，利用聚类结果构造未知类别的流量是困难的。有监督学习是指在已知网络流量类别的基础上来构造分类器，其主要算法有SVM,贝叶斯网络(Bayesian Networks),K-近邻(K-Nearest Neighbor,KNN)等。以上典型的监督学习算法中，Bayesian、KNN等容易陷入局部最优解，而SVM基于结构风险最小化原则可以将原问题转化为凸二次规划问题，进而求得全局最优解，并且核函数的引入，SVM将现有维度线性不可分问题转化为高维度线性可分问题，从而实现对非线性数据的分类。 Wang等人将Lasso特征选择算法应用到网络流异常检测中，以降低特征维度的方式加快模型的训练和网络流量的分类。萧平等人提出一种基于遗忘因子 T的SVM增量学习算法。

在二分类问题中，假设训练样本集为(x_i,y_i)，i＝1,2,..,N, y_i∈{-1,1}，分类目标是根据训练样本构造最优分离超平面，使得训练集可以被该超平面分离且离超平面最近的向量，即支持向量，到超平面的距离最大。分类决策函数形式如(1)所示,得到线性可分支持向量机。

f(x)＝sign(w^*·x+b) (1)

为最大化几何间隔且引入松弛变量ξ＞0，化简后可得到形如(2)所示的软间隔支持向量机，在约束条件下求解最小w，进而得到相应最优决策函数。

其中，C为惩罚参数，C越大表示对误分类的惩罚越大。

通过拉格朗日乘子法和Wolfe对偶定义，原始问题的对偶问题是极大极小问题，即把在约束条件下求解最小w的原问题转化为求解最大α_i的对偶问题，对偶问题如式(3)所示。

其中，α_i是Lagrange乘子。

当训练样本线性不可分时，引入核函数K(x_i,x_j)，将当前线性不可分样本映射到某高维空间，使其成为线性可分样本。则上式可转化为式(4)

引入模糊隶属函数得到.模糊SVM(Fuzzy SVM，FSVM)，则(4)式可以被重写为

其中，C是惩罚常数，用来平衡模型结构复杂度和模型误差。s_i为样本的隶属度。

上述对偶问题的最优解集合α＝[α₁，α₂，...,α_N]，使得所有样本x_i满足 KKT(6)条件

SVM中，当α_i＝0的训练集数据分布在分离间隔之外；当0＜α_i＜C训练集数据正好在分离间隔上；当α_i＝C的训练集数据分布在分离间隔之内。

但是，现存SVM算法对网络流量考虑的分类侧重基于完整网络流量数据，未考虑特征数据缺失等情况，除此之外，传统SVM训练时间长、内存占用大、响应时间长、实时性差、成本高等问题，严重影响对网络流量的管理和对异常入侵的检测，特别是大数据背景下，传统SVM算法越发捉襟见肘。

发明内容

本发明的目的在于一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法，以克服现有技术的缺陷，本发明将训练数据集分散在集群中并行计算，并应用遗传算法自适应的获取最优参数和各个支持向量，从而实现了网络流量分类的鲁棒性和时效性。

为达到上述目的，本发明采用如下技术方案：

一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法，包括以下步骤：

1)对初始训练集按照特征维度分别进行归一化得到初始特征集FT1，再对初始特征集FT1采用FCBF和PCA算法进行特征选择和提取，删除冗余和不相关特征得到优化特征集FT2。

2)将优化特征集FT2存储在分布式文件系统中。

3)由五台电脑构建分布式集群。

4)模型训练阶段，获取存储在分布式系统的优化特征集FT2,首先对FT2 进行改进的K-means算法获得各类别的聚类中心，再以此结合模糊隶属函数获得样本隶属度。

5)根据优化特征集及其隶属度进行遗传算法获得最优参数和支持向量。

6)分类预测阶段。获取各集群中的支持向量，并以此作为训练集合进行分类预测。

进一步地，所述步骤1)中，按特征维度进行归一化是对数据集中每一维特征分别进行线性变换，使每一维特征值在保持原有数据意义下映射到 [0,1]之间，消除各维度特征值量纲差别带来的影响，从而得到归一化后的特征集，表示为其中包含n个样本，每个样本有d个维度。

进一步地，所述步骤1)中，FCBF算法实现步骤如下：

1.1)计算每个特征F_i与目标O之间的相关性。

1.2)然后将相关性SU(F_i,O)大于预先设置好的阈值δ的特征选出并从大到小排列。

1.3)依次遍历降序排列中小于SU(F_i,O)的所有特征F_j并计算SU(F_i,F_j)。

1.4)如果SU(F_i,F_j)大于等于SU(F_j,O)，则删除特征F_j，否则保留特征F_j。

1.5)遍历所有特征F_i，最后得到无重复特征的特征子集FT2，该特征子集的特征维度远远小于原特征维度。

进一步地，所述步骤1.1)中，目标O依次取特征集的所属类别，则特征 F_i与目标O之间的相关性其中IG(X,Y)＝E(X)-E(X|Y)，IG(X,Y)表示信息增益， E(X)，E(Y)表示信息熵，E(X|Y)表示当随机变量Y单独发生时，随机变量X 发生的条件概率，P(x_i)表示特征x取值为i时的概率，可以由大数定理以样本出现的频率代替，z为类别数。

进一步地，所述步骤1.2)中，阈值δ取0.02时为最优。

进一步地，所述步骤3)中，本发明的分布式集群由五台电脑组成，其中一台电脑作为主控节点，负责资源和任务的分配，三台用于训练阶段分布式计算，一台作为分类预测阶段使用。

进一步地，所述步骤4)中，改进的K-means算法获取聚类中心，基于启发式思想，将K-mean的聚类数与类别数一一对应，且以确定的类别标签初始化算法，三次执行该算法获取聚类中心，然后取三次执行结果的平均值作为最后聚类中心。

进一步地，所述步骤4)中，模糊隶属函数定义如式(7)所示，其中ε₁,ε为常数项，由模型训练最终得出，为训练样本到类簇中心的最大半径，为衡量隶属度的数学表达，f为交叉实验次数， l为K-means聚类数，x_i为第i个训练样本，为第l个类簇交叉实验获得的聚类中心的平均值，x_lf为第f次交叉实验类簇l的聚类中心。

进一步地，所述步骤5)中，分别应用遗传算法得到最优参数ε₁,ε₂，执行改进的K-means算法和模糊隶属函数得到s_i，训练模型FSVM得到C和支持向量。

进一步地，所述步骤6)中，以各个集群获得支持向量作为训练集，再次进行改进K-means算法，遗传算法来训练模型，从而实现对网络流量分类的鲁棒性和时效性。

与现有技术相比，本发明具有以下有益的技术效果：

1)在SVM算法分类领域，数据特征容易受到量钢的影响，甚至会直接影响SVM分类效果和泛化能力，因此本发明采用最大-最小归一化方法对特征集的每个维度进行规范化，降低特征数据量纲对本发明分类的影响。然后对归一化处理后的特征数据进行FCBF算法，删除冗余和不相关的特征，降低特征维度并集中表达特征数据所包含信息，很大程度上提高网络流量实时分类的效率。

2)在现实网络流量中，存在“噪音”数据、数据特征缺失等的现象。本文基于模糊隶属度的概念，实现鲁棒的网络流量分类。

3)应用分布式思想，在大数据规模下很大程度上减少模型训练的时间，加快模型的收敛，从而实现对网络流量分类的时效性，符合大数据时代的需求。

4)本发明使用遗传算法去寻找最优参数，避免陷入局部最优解。

附图说明

图1为本发明的整体架构图；

图2为遗传算法执行流程图；

图3为各分类算法在不同程度缺失数据条件下分类准确性对比图；

图4为各分类算法时间消耗对比图；

图5为在5％信息缺失条件下各分类算法的准确率图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述：

本发明针对网络流量分类鲁棒性和时效性提出改进，通过一种改进的 K-means算法获取各聚类中心，再结合模糊隶属函数对各个训练样本设定隶属度，使得“噪音”样本、离群样本和特征值缺失的样本有较低的隶属度，从而降低这些样本数据对分类的影响。同时，根据SVM分类重要性质：最终模型仅与支持向量有关，引入分布式集群思想，将训练数据集分散在集群中并行计算，并应用遗传算法自适应的获取最优参数和各个支持向量，从而实现了网络流量分类的鲁棒性和时效性。

网络流量特征具有明显的自相似性、自依赖性和高维性。因此本发明利用基于对称不确定性的FCBF算法删除高维训练集的冗余特征和不相关特征，然后通过一种改进的K-means算法获取各聚类中心，再结合模糊隶属函数对各个训练样本设定隶属度，使得“噪音”样本、离群样本和特征值缺失的样本有较低的隶属度，从而降低这些样本数据对分类的影响。同时，根据SVM 分类重要性质：最终模型仅与支持向量有关，引入分布式集群思想，将训练数据集分散在集群中并行计算，并应用遗传算法自适应的获取最优参数和各个支持向量，从而实现了网络流量分类的鲁棒性和时效性。

(一)发明模型总体架构

本发明模型有两个部分构成：模型训练部分和分类预测部分。在模型训练阶段，我们将经过预处理的数据存储在分布式文件存储系统(Hadoop Distributed File System,HDFS),然后在分布式集群中分别执行改进的K-means 算法和遗传算法，得到各个支持向量集。在分类预测阶段，汇总各个集群的支持向量集，并以此作为训练集合进行分类预测。本发明模型架构如图1所示。

(二)快速过滤特征选择(FCBF)

在高维数据中，一般会存在大量不相关特性或冗余特征，这些不相关特征会降低算法性能，而冗余会造成资源的浪费并降低算法的学习效率。因此使用数据归一化和FCBF算法作为数据预处理的手段FCBF算法是一种快速过滤的特征选择算法，其主要是基于对称不确定性的思想，采用后向顺序搜索策略快速有效地选择一个显著特征并删除它的所有冗余特征，从而确定最优特征子集。算法步骤如下：

1)计算每个特征F_i与目标O之间的相关性，计算公式如(8)所示。

2)然后将相关性SU(F_i,O)大于预先设置好的阈值δ的特征选出并将 SU(F_i,O)降序排列。3)依次遍历降序排列中小于SU(F_i,O)的所有特征F_j并计算SU(F_i,F_j)。

4)如果SU(F_i,F_j)大于等于SU(F_j,O)，则删除特征F_j，否则保留特征F_j。

5)遍历所有特征F_i，最后得到最优特征子集。

其中IG(X,Y)＝E(X)-E(X|Y)， IG(X,Y)表示信息增益，E(X)，E(Y)表示信息熵，E(X|Y)表示当随机变量Y单独发生时，随机变量X发生的条件概率，P(x_i) 表示特征x取值为i时的概率，z为类别数。

FCBF算法的优势在快速过滤冗余特征(F_i,F_j)，保留与目标O相关性更大的特征F_i，删除相关性更小的特征F_j，同时利用相关度更高的特征F_i去筛选其他特征，进而达到了特征选择效果。

(三)一种改进的K-means算法

为了避免陷入局部最优解，引入随机森林的思想对原有的k均值聚类模型进行改进。同时，启发式算法选择每一组识别出的训练样本作为初始点，从而达到最优的聚类效果。平均值定义如其中f是交叉实验次数。

(四)模糊隶属函数

定义则隶属度衡量标准如(9)所示，其中m为聚类数。则模糊隶属函数如式(10)所示，

(五)遗传算法

遗传算法是通过模拟自然选择和遗传机制的生物进化过程来寻找最优解的一种方法。遗传算法根据适者生存和进化的原理，将潜在解作为原始种群，然后利用适应度函数和遗传因子，结合基因的交叉和突变，得到越来越多的近似最优解。迭代直到近似最优解满足要求，从而实现自适应选择的最优参数。遗传算法的处理流程如图2所示：

(六)模型训练

支持向量机是基于特征集样本在样本空间中找到一个划分超平面将不同类别的样本分开且样本到该划分超平面的距离最大。SVM基于结构风险最小化原则可以将原问题转化为凸二次规划问题，进而求得全局最优解，并且核函数的引入，SVM将现有维度线性不可分问题转化为高维度线性可分问题，从而实现对数数据的分类。

本发明中使用集群计算得出的支持向量的并集作为训练特征集，以此本别进行本发明中改进的K-means算法和遗传算法，从而实现了网络流量分类的鲁棒性和时效性。

(七)实验仿真

1)实验环境和数据集

本发明使用PyCharm作为仿真实验平台，Python为实现语言，调用Skearn 包下svm、decomposition、feature_selection等方法和GAFT框架进行SVM 训练。硬件配置：Dell笔记本，8G内存，酷睿i5处理器。实验采用Moore 数据集，该数据集由10个数据子集组成，即Data_set＝{entroy01,…,entroy10}，合计12种Label分类，377526条网络流量样本数据，其中每个样本数据由 248维特征和1个Label标签构成。为方便统计，将样本中12种Label标签分别映射为数字1到12。

2)仿真实验

我们使用相同的样本集对SVM、FSVM和RA-FSVM进行了仿真。对于每个样本集,我们对样本集进行归一化和FCBF预处理，并且确保独立的训练集和测试集之间。以缺失值MissRate来模拟缺失的特征值来验证算法的鲁棒性,分别选择测试集0％,1％,3％,5％,7％,10％,and15％的缺失率来进行实验。表1显示了本次实验的结果，随着失误率的下降，SVM和FSVM的准确率迅速下降。通过检验算法的准确性，我们发现当失误率大于3％时，RA-FSVM 在测试集中的表现优于SVM和FSVM。图3更加直观的显示了各算法的准确率下降的趋势。

表1各算法在测试集不同程度缺失时的准确率及相关参数

同时，对每种算法的精度和收敛时间进行了实验。在这个仿真实验中，分别选择5000、10000、20000、30000和50000个样本集对SVM、FSVM和 RA-FSVM模型进行训练，其中测试集的MissRate为5％。每个实验进行了三次，取平均的成本时间和准确性。实验结果如表2所示，图4更加直观的显示了各分类算法时间消耗对比，图5更加直观的显示了在5％信息缺失条件下各分类算法的准确率。

表2不同算法的精度和收敛时间实验结果

Claims

1.一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法，其特征在于，包括以下步骤：

1)对初始训练集按照特征维度分别进行归一化得到初始特征集FT1，再对初始特征集FT1采用FCBF算法进行特征选择和提取，删除冗余和不相关特征得到优化特征集FT2；

2)将优化特征集FT2存储在分布式文件系统中；

3)通过若干台电脑构建分布式集群，所述分布式集群用于并行计算优化特征集FT2，使得获取支持向量的时间最大程度减少；

4)模型训练：获取存储在分布式文件系统的优化特征集FT2，首先对优化特征集FT2进行改进的K-means算法获得各类别的聚类中心，再以此结合模糊隶属函数获得样本隶属度；

5)根据优化特征集FT2及其隶属度进行遗传算法并获得其最优参数和支持向量；

6)分类预测：获取各集群中的支持向量，并以此作为训练集合进行分类预测。

2.根据权利要求1所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法，其特征在于，步骤1)中按特征维度进行归一化是对初始训练集中每一维特征分别进行线性变换，使每一维特征值在保持原有数据意义下映射到[0,1]之间，消除各维度特征值量纲差别带来的影响，从而得到归一化后的特征集，表示为其中包含n个样本，每个样本有d个维度。

3.根据权利要求1所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法，其特征在于，步骤1)中FCBF算法实现步骤如下：

1.1)计算每个特征F_i与目标O之间的相关性；

1.2)将相关性SU(F_i,O)大于预先设置好的阈值δ的特征选出并从大到小排列；

1.3)依次遍历降序排列中小于SU(F_i,O)的所有特征F_j并计算SU(F_i,F_j)；如果SU(F_i,F_j)大于等于SU(F_j,O)，则删除特征F_j；如果SU(F_i,F_j)小于SU(F_j,O)，则保留特征F_j；最后得到无重复特征的特征子集FT2。

4.根据权利要求3所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法，其特征在于，步骤1.1)中，目标O依次取特征集的所属类别，则特征F_i与目标O之间的相关性其中IG(X,Y)＝E(X)-E(X|Y)，IG(X,Y)表示信息增益，E(X)、E(Y)表示信息熵，E(X|Y)表示当随机变量Y单独发生时，随机变量X发生的条件概率，P(x_i)表示特征x取值为i时的概率，z为类别数。

5.根据权利要求3所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法，其特征在于，步骤1.2)中阈值δ取值为0.02。

6.根据权利要求1所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法，其特征在于，步骤3)中由五台电脑组成分布式集群，其中一台电脑作为主控节点，负责资源和任务的分配，三台用于训练阶段分布式计算，一台作为分类预测阶段使用。

7.根据权利要求1所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法，其特征在于，步骤4)中改进的K-means算法获取聚类中心具体为：根据K-means算法特性和应用场景，启发式的将K-mean的聚类数l设定为类别数，且以各类别的样本数据初始化算法，三次执行该算法取平均值作为最后聚类中心结果。

8.根据权利要求1所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法，其特征在于，步骤4)中，模糊隶属函数定义如式(1)所示：

其中，ε_1,ε₂为常数项，为训练样本到类簇中心的最大半径，为衡量隶属度的数学表达，f为交叉实验次数，l为K-means聚类数，x_i为第i个训练样本，为第l个类簇交叉实验获得的聚类中心的平均值，x_lf为第f次交叉实验类簇l的聚类中心。

9.根据权利要求1所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法，其特征在于，步骤5)中遗传算法根据适者生存和进化的原理，将潜在解作为原始种群，然后利用适应度函数和遗传因子，结合基因的交叉和突变，得到越来越多的近似最优解，迭代直到近似最优解满足要求，从而实现自适应选择的最优参数。