CN109871872A - 一种基于壳向量式svm增量学习模型的流量实时分类方法 - Google Patents

一种基于壳向量式svm增量学习模型的流量实时分类方法 Download PDF

Info

Publication number
CN109871872A
CN109871872A CN201910045138.6A CN201910045138A CN109871872A CN 109871872 A CN109871872 A CN 109871872A CN 201910045138 A CN201910045138 A CN 201910045138A CN 109871872 A CN109871872 A CN 109871872A
Authority
CN
China
Prior art keywords
feature
incremental learning
real
vector
shell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910045138.6A
Other languages
English (en)
Inventor
曲桦
赵季红
蒋杰
张艳鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910045138.6A priority Critical patent/CN109871872A/zh
Publication of CN109871872A publication Critical patent/CN109871872A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于壳向量式SVM增量学习模型的流量实时分类方法,该方法利用对称不确定性的FCBF算法删除高维训练集的冗余特征和不相关特征,然后线性叠加PCA算法进行降维处理得到新的训练集,再以此训练SVM模型,进而实现网络流量分类;实现增量学习过程中,对实时网络流量采用相同数据预处理,再将违反KKT条件的新样本数据和壳向量的并集作为新训练集重新训练SVM模型,从而实现SVM的增量学习。

Description

一种基于壳向量式SVM增量学习模型的流量实时分类方法
技术领域
本发明涉及大规模数据背景下,基于SVM的网络流量实时在线分类的 增量学习算法。
背景技术
网络流量分类的实现是运行和优化各种网络资源的重要基础,在网络资 源管理、入侵检测等方面发挥重要作用。在网络流量识别研究中分类技术主 要经历了三个阶段:基于固定端口号的流量分类阶段、基于深度包流量检测 (Deep Packet Inspection,DPI)分类阶段和基于机器学习的流量分类阶段。随着 动态端口技术和伪装端口技术的出现,给基于固定端口的流量分类系统带来 了严峻挑战。为解决基于端口的流量分类技术存在的不足,Yang等人使用 DPI流量分类技术,即以透视的形式深度检查数据包是否携带目标流量类型 的特征码,从而实现对网络流量的分类识别。然而基于DPI的流量分类是以 分组数据信息可见性及荷载目标特征已知为前提的,因此不适用于加密流量 和未知特征码的网络流量。基于固定端口、DPI的流量分类技术本质上可以 理解专家系统,即通过人为的制定规则来实现对网络流量的匹配和识别,不具 备智能识别、分类能力。近年来,随着人工智能的兴起,机器学习作为人工 智能的主要实现方式,越来越多的机器学习技术被应用到网络流量分类当中。
基于机器学习的网络流量分类技术是对各网络流量统计信息进行计算, 利用相关算法对数据包进行识别,进而对相应的网络流量进行分类。机器学 习方法主要分为有监督学习和无监督学习。无监督学习是指根据样本间的相 似特性对训练集中的样本进行聚类来设计分类器,例如K均值聚类,最大期 望算法等。然而在无监督网络流量分类中,利用聚类结果构造未知类别的流 量是困难的。有监督学习是指在已知网络流量类别的基础上来构造分类器, 其主要算法有SVM,贝叶斯网络(Bayesian Networks),K-近邻(K-NearestNeighbor,KNN)等。以上典型的监督学习算法中,Bayesian、KNN等容易陷 入局部最优解,而SVM基于结构风险最小化原则可以将原问题转化为凸二 次规划问题,进而求得全局最优解,并且核函数的引入,SVM将现有维度线 性不可分问题转化为高维度线性可分问题,从而实现对非线性数据的分类。 Wang等人将Lasso特征选择算法应用到网络流异常检测中,以降低特征维度 的方式加快模型的训练和网络流量的分类。萧平等人提出一种基于遗忘因子 T的SVM增量学习算法。
在二分类问题中,假设训练样本集为(xi,yi),i=1,2,..,N, yi∈{-1,1},分类目标是根据训练样本构造最优分离超平面,使得训练集可以 被该超平面分离且离超平面最近的向量,即支持向量,到超平面的距离最大。 分类决策函数形式如(1)所示,得到线性可分支持向量机。
f(x)=sign(w*·x+b) (1)
为最大化几何间隔且引入松弛变量ξ>0,化简后可得到形如(2)所示的软 间隔支持向量机,在约束条件下求解最小w,进而得到相应最优决策函数。
其中,C为惩罚参数,C越大表示对误分类的惩罚越大。
通过拉格朗日乘子法和Wolfe对偶定义,原始问题的对偶问题是极大极 小问题,即把在约束条件下求解最小w的原问题转化为求解最大αi的对偶问 题,对偶问题如式(3)所示。
其中,αi是Lagrange乘子。
当训练样本线性不可分时,引入核函数K(xi,xj),将当前线性不可分样本 映射到某高维空间,使其成为线性可分样本。则上式可转化为式(4)
上述对偶问题的最优解集合α=[α1,α2,...,αN],使得所有样本xi满足 KKT(5)条件
SVM中,当αi=0的训练集数据分布在分离间隔之外;当0<αi<C训练集 数据正好在分离间隔上;当αi=C的训练集数据分布在分离间隔之内。
但是,SVM算法训练数据样本时存在训练时间长、内存占用大、响应时 间长、实时性差、增量学习效率低、成本高等问题,严重影响对网络流量的 管理和对异常入侵的检测,特别是大数据背景下,传统SVM算法越发捉襟 见肘。
发明内容
本发明的目的在于一种基于壳向量式SVM增量学习模型的流量实时分 类方法,以克服现有技术的缺陷,本发明增量学习的训练时间大幅减少,准 确率逐步提高并趋于稳定,符合增量学习特点,满足大数据背景下网络流量 的实时在线分类功能的需求。
为达到上述目的,本发明采用如下技术方案:
一种基于壳向量式SVM增量学习模型的流量实时分类方法,包括以下 步骤:
1)对初始训练数据按特征维度分别进行归一化得到特征集;
2)对初始特征集FT1进行FCBF特征选取,删除大量冗余、不相关特 征得到优化特征集FT2;
3)对特征集FT2进行PCA处理,实现特征提取操作得到特征集FT3, 将主要信息集中在少数维度,为后续低维空间求解壳向量做准备;
4)以经过预处理的特征集FT3训练SVM模型,得到模型。使用初始模 型对网络流量分类并得到含有样本几何信息的壳向量集合;
5)增量学习更新模型,根据新网络流量的信息和壳向量来更新模型;
6)使用模型进行网络流量实时在线分类。
进一步地,所述步骤1)中,按特征维度进行归一化是对数据集中每一 维特征分别进行线性变换,使每一维特征值在保持原有数据意义下映射到 [0,1]之间,消除各维度特征值量纲差别带来的影响,从而得到归一化后的特 征集,表示为其中包含n个样本,每个样本有d个维度。
进一步地,所述步骤2)中,FCBF算法实现步骤如下:
2.1)计算每个特征Fi与目标O之间的相关性。
2.2)然后将相关性SU(Fi,O)大于预先设置好的阈值δ的特征选出并从大到 小排列。
2.3)依次遍历降序排列中小于SU(Fi,O)的所有特征Fj并计算SU(Fi,Fj)。
2.4)如果SU(Fi,Fj)大于等于SU(Fj,O),则删除特征Fj,否则保留特征Fj
2.5)遍历所有特征Fi,最后得到无重复特征的特征子集FT2,该特征子 集的特征维度远远小于原特征维度。
进一步地,所述步骤2.1)中,目标O依次取特征集的所属类别,则特征 Fi与目标O之间的相关性其中IG(X,Y)=E(X)-E(X|Y), IG(X,Y)表示信息增益, E(X),E(Y)表示信息熵,E(X|Y)表示当随机变量Y单独发生时,随机变量X 发生的条件概率,P(xi)表示特征x取值为i时的概率,可以由大数定理以样本 出现的频率代替,z为类别数。
进一步地,所述步骤2.2)中,阈值δ取0.02时为最优。
进一步地,所述步骤3)中,通过坐标轴的旋转实现将特征集的主要信 息集中在少数维度,即对特征集使用PCA操作来用较少维度数据表示较多维 度数据,得到新的特征集FT3,该特征集的维度比FCBF算法得到的特征集 维度更少。
进一步地,所述步骤4)中,壳向量是特征集几何意义上最边缘的数据, 即特征集最外层数据,以基于最小超球概念求解。
进一步地,基于最小超球概念来对壳向量集合求解,具体为:
4.1)假设X={x1,x2,...,xN}是给定的训练集,Hv表示特征空间的凸壳,V是凸 壳上的凸顶点,Vp是凸壳上可能存在的极点,V是Vp的子集,ψ(x,V)用来判断 x是否在V的内部,若V中任意一个非线性映射可以由V的凸组合表达, 则是V的内点,记ψ(x,V)=1,ψ(x,V)=0表示x不在V的内部。
4.2)ψ(x,V)优化后:
其中,βi表示集合V的样本点的个数,βi是加权系数。
4.3)首先求出给定点的最小超球,最小超球定义:其中, R是最小超球半径,ξi是松弛变量,C为惩罚函数值,控制惩罚程度。然后 以最小超球的球面上点作为初始壳向量;然后迭代求出Vp,再从Vp中依次删 除非极点后得到凸壳上的凸顶点V,最后以凸顶点V作为当前壳向量。
进一步地,所述步骤5)中,当实时网络流量xi到达时,对xi进行上述数 据预处理后判断其是否满足KKT条件,若xi不违反KKT条件,则xi所含的 特征信息已包括在历史支持向量中,则保持原模型;否则,xi可能与原壳向 量集合中所含的隐含信息一同构成新的分类,即上次训练的非支持向量有可 能转化为支持向量,则取xi与历史壳向量集合S的并集,即Sk+1=Sk∪{xi},作为 新特征集,进而重新训练得到模型Mi,再以模型Mi作为最新的预测模型,从 而实现SVM的增量学习。
进一步地,所述步骤6)中,对实时网络流量进行归一化、FCBF算法处 理、PCA算法处理得到实时流量特征集,然后拿这个特征集作为上述模型的 输入,经过模型的计算得到一个输出,根据输出的结果来实现对实时网络流 量的分类。
与现有技术相比,本发明具有以下有益的技术效果:
在SVM算法分类领域,数据特征容易受到量钢的影响,甚至会直接影响 SVM分类效果和泛化能力,因此本发明采用最大-最小归一化方法对特征集的 每个维度进行规范化,降低特征数据量纲对本发明分类的影响。然后对归一 化处理后的特征数据分别进行FCBF特征选择和PCA特征提取,删除冗余和不 相关的特征,降低特征维度并集中表达特征数据所包含信息,很大程度上提 高网络流量实时分类的效率。同时较低维度且集中的特征集能减少训练的时 间和方便本发明后续壳向量的计算。然后在增量学习过程中,取含有原训练数据几何意义信息的壳向量和违反KKT条件的新网络流量的并集作为新训练 数据集,避免重复训练原训练集,从而在保证原有训练数据集几何信息且保 证分类准确性和和时效性的基础上,实现了网络流量的增量学习,符合大数 据意义上网络流量实时在线分类的需求。
附图说明
图1为网络流量特征集的数据预处理图;
图2为基于壳向量式SVM增量学习模型流程图;
图3为验证FCBF_PCA算法特征选取效果图;
图4为三种SVM增量学习准确率对比效果图;
图5为三种SVM增量学习时间消耗对比效果图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述:
网络流量特征具有明显的自相似性、自依赖性和高维性。因此本发明利 用基于对称不确定性的FCBF算法删除高维训练集的冗余特征和不相关特征, 然后线性叠加PCA算法进行降维处理得到新训练集,再以此训练SVM模型, 进而实现网络流量分类。实现增量学习时,对实时网络流量采用相同数据预 处理,再将违反KKT条件的新样本数据和壳向量的并集作为新训练集重新 训练SVM模型,从而实现SVM的增量学习。
本发明是一种基于壳向量式SVM增量学习模型的流量实时分类方法, SVM的增量学习主要分为两种形式:历史训练集结合新样本训练模型和支持 向量结合新样本训练模型。历史训练集结合新样本训练模型是原训练集结合 在线新样本作为新的训练集来训练模型,进而使模型适用于新的样本,由于 训练时间长,实时性差等原因,不符合在线分类的需求。支持向量结合新样 本训练模型是历史模型得到的支持向量结合新样本作为新的训练集,然后在 此基础上训练得到新的模型,从而实现SVM的增量学习,此种方式虽然一 定程度上加快了训练的速度,提高了实时性,但是该方法选取历史支持向量 作为增量数据的原型时,并不能完全包含新增样本集的分类信息,即为得到 历史训练集的最优解可能舍弃部分对新样本分类有效的非支持向量,从而导 致对新样本的分类效果的降低;同时,未考虑新增样本与历史样本可能存在 重叠,从而存在大量重复训练造成训练时间增加。
因此,本发明根据是否违反KKT条件,即新增样本是否可由历史支 持向量分类,来决定该新增样本是否加入具有原训练集几何特性的原壳向量 集合,再以此集合作为新的训练集来训练模型,减少模型的训练时间和提高 分类准确性,从而实现对网络流量实时在线分类的增量学习。本发明实现流 程如图2所示:
(一)快速过滤特征选择(FCBF)
在高维数据中,一般会存在大量不相关特性或冗余特征,这些不相关 特征会降低算法性能,而冗余会造成资源的浪费并降低算法的学习效率。 FCBF算法是一种快速过滤的特征选择算法,其主要是基于对称不确定性的 思想,采用后向顺序搜索策略快速有效地选择一个显著特征并删除它的所有 冗余特征,从而确定最优特征子集。算法步骤如下:
1)计算每个特征Fi与目标O之间的相关性,计算公式如(6)所示。
2)然后将相关性SU(Fi,O)大于预先设置好的阈值δ的特征选出并将 SU(Fi,O)降序排列。3)依次遍历降序排列中小于SU(Fi,O)的所有特征Fj并计 算SU(Fi,Fj)。
4)如果SU(Fi,Fj)大于等于SU(Fj,O),则删除特征Fj,否则保留特征Fj
5)遍历所有特征Fi,最后得到最优特征子集。
其中IG(X,Y)=E(X)-E(X|Y), IG(X,Y)表示信息增益,E(X),E(Y)表示信息 熵,E(X|Y)表示当随机变量Y单独发生时,随机变量X发生的条件概率,P(xi) 表示特征x取值为i时的概率,z为类别数。
FCBF算法的优势在快速过滤冗余特征(Fi,Fj),保留与目标O相关性更大 的特征Fi,删除相关性更小的特征Fj,同时利用相关度更高的特征Fi去筛选 其他特征,进而达到了特征选择效果。
(二)主成分分析(PCA)
主成分分析的目标是通过坐标轴的旋转实现削弱相关性或者将主要信息 集中在少数维度。算法步骤如下:
1)设有且均值为0,在xi想v轴做投影,得到投影向量为 (7)式。
2)若向量v是单位向量,则(2)式可以改写成有式(8),则所有xi在归一化 方向v上的投影是vTx1,vTx2,...,vTxN
3)目标函数是最大化投影方差,从而得到主成分向量,如(9)式所示。
其中,θ为xi与v的夹角,为协方差矩阵。
PCA技术可以对数据进行降维,同时也最大程度保存原有数据集本身的 信息,原有且各个主成分之间正交,皆宜消除原始数据成分之间的相互影响。
经过FCBF_PCA对数据集处理后,将大大减少了特征集的维数,减少 SVM模型的训练时间和提高分类准确率。
(三)SVM模型训练
支持向量机是基于特征集样本在样本空间中找到一个划分超平面将不 同类别的样本分开且样本到该划分超平面的距离最大。SVM基于结构风险最 小化原则可以将原问题转化为凸二次规划问题,进而求得全局最优解,并且 核函数的引入,SVM将现有维度线性不可分问题转化为高维度线性可分问题, 从而实现对数数据的分类。
本发明中使用经过FCBF_PCA算法处理后的网络流量特征作为SVM 模型训练的输入,通过模型的计算,根据拥有不同特征值找到不同的划分超 平面,实现对网络流量的分类。
(四)壳向量与支持向量
SVM向量的核心是找支持向量,进而形成一个最优分离间隔。对SVM 分类来说,每一类训练集几何意义上最边缘的样本可以代表本训练集的几何 信息,而支持向量一定是每一类训练集的几何意义上最边缘的点,而不是几 何内部的点,即支持向量一定是训练集凸顶点集合的子集。因此,每次增量 学习时,可将训练集凸顶点集合作为新的训练集,舍弃其余凸壳内部样本, 进而大幅减少训练样本数量,加快增量学习效率。
假设X={x1,x2,...,xN}是给定的训练集,Hv表示特征空间的凸壳,V是凸 壳上的凸顶点,Vp是凸壳上可能存在的极点,ψ(x,V)用来判断x是否在V的内 部,ψ(x,V)=1表示,x在V的内部,ψ(x,V)=0表示x不在V的内部,如式(10) 所示。
其中,βi表示集合V的样本点的个数,βi是加权系数。
可由V中点的凸组合是否可以表达任意一个非线性映射来判断其是 否是V的内点。
基于最小超球思想求解壳向量V,首先求出给定点的最小超球,以最小 超球的球面点作为初始壳向量,然后迭代求出Vp,再从Vp中依次删除非极点 后得到V。
求解壳向量基本步骤如下:
1)根据已知样本信息,寻找最小超球,o为最小超球的中心,半径为R, 使得最小超球包含所有样本点xi,即满足式(11)。
其中,ξi是松弛变量,C为惩罚函数值,控制惩罚程度。
引入Lagrange乘子和核函数概念,得其对偶形式(12):
特征空间中任意一点(其中是非线性映射),到球中心o的距离可以 通过(13)求出,将特征空间中所有点到o的距离降序排列,其下标记为Lxl
2)令Vp初始化为球面上的所有点,V初始为空集,Lv为可能为极点集合 的下标,Lo为极点集合,从Lxl中删除可能极点的下标记为L*,则L*=Lxl-Lv
3)从L*中遍历得出所有可能的极点集合Vp。如果不是Vp的内点,即 ψ(xi,Vp)=0.则将下标i加入Lv,即Lv=Lv∪{i},重复直到遍历L*中所有点。
4)从所有可能极点集合Vp的下标Lv中删除一些多余的内点下标,所得即 为壳向量。取j∈Lv,如果ψ(xj,(Vp-xj))=0,则xj不是j得内点,将j加入Lo, 即Lo=Lo∪{j},重复直至遍历Lv中所有点,则Lo为最终所求的壳向量的下标 集合。从Lo从中得到相应集合的壳向量。
(五)增量学习
增量学习是指一个学习系统能不断地从新样本中学习新的知识,并能保 存大部分以前已经学习到的知识,其可以渐进的进行知识更新,且能修正和 加强以前的知识,使得更新后的知识能适应新到达的数据,而不必重新对全 部数据进行学习。增量学习降低了对时间和空间的需求,更能满足实际要求。
本发明基于上述思想设计基于SVM的增量学习,当实时网络流量xi到达 时,对xi进行FCBF_PCA算法处理,得到新的特征集,然后判断该特征集是 否满足KKT条件,若该特征集不违反KKT条件,则该特征集所含的特征信 息已包括在历史支持向量中,不需要更新历史模型,则保持原模型不变。否 则,该特征集可能与原壳向量集合中所含的隐含信息一同构成新的分类,即 上次训练的非支持向量由可能转化为支持向量,则取该特征集与历史壳向量 集合S的并集,即S=S∪{xi},作为新特征值,进而重新训练得到模型Mi,再 以模型Mi作为最新的预测模型,从而实现SVM的增量学习。
(六)实时流量的分类
当实时网络流量xi到达时,对xi进行上述数据预处理后判断其是否满足 KKT条件,若xi不违反KKT条件,则xi所含的特征信息已包括在历史支持 向量中,则保持原模型;否则,xi可能与原壳向量集合中所含的隐含信息一 同构成新的分类,即上次训练的非支持向量有可能转化为支持向量,则取xi与 历史壳向量集合S的并集,即Sk+1=Sk∪{xi},作为新特征集,进而重新训练得 到模型Mi,再以模型Mi作为最新的预测模型,从而实现SVM的增量学习。
(七)仿真实验
1)实验环境和数据集
本发明使用PyCharm作为仿真实验平台,Python为实现语言,调用Skearn 包下svm、decomposition、feature_selection等方法进行SVM训练,调用Scipy 包下ConvexHull等方法求壳向量。硬件配置:Dell笔记本,8G内存,酷睿 i5处理器。
实验采用Moore数据集,该数据集由10个数据子集组成,即 Data_set={entroy01,…,entroy10},合计12种Label分类,377526条网络流量 样本数据,其中每个样本数据由248维特征和1个Label标签构成。为方便 统计,将样本中12种Label标签分别映射为数字1到12。
2)实验结果及分析
为了验证本文特征选择和提取的实用性,对三种不同特征选取方法并 以本文改进后SVM模型进行对比:其中方法一是选择全部特征,方法二是 以Filter特征选取方法选择特征值进行实验,方法三是以本文所述特征选择 和提取方法进行实验。特征样本是分别从数据集中随机抽取5000条样本(S1)、 10000条样本(S2)、30000条样本数据(S3)。实验结果如表1所示:
表1特征选择和提取对比表
上述实验结果数据和图3对比效果图表明:FCBF_PCA特征选择和提取 算法较之全部特征和Filter特征提取方法优势如下:a.保证SVM分类较高的 准确率且算法稳定性较好;b.训练时间大幅减少;c.用较低维度特征表现整体 样本信息。
为了验证本发明算法效率和实用性设计对比实验,使用FCBC_PCA特征 选择和提取后的特征集对三种不同算法进行仿真:其中算法一(M1)采用标准 SVM增量方法,即每次使用全部样本作为训练集来实现增量学习,算法二 (M2)采用取原支持向量与新增向量的并集作为训练集合来实现增量学习,算 法三(M3)采用本文所述方法来实现增量学习。进行三次增量学习,分别在初 始训练集基础上增量23801条样本数据、66865条样本数据和261997条样本 数据,即依次增量{entroy02},{entroy03,entroy04,entroy05},{entroy06,…,entroy10}。采用10折交叉验证法进行实验,每轮实验结果取均 值。实验结果如下表2所示:
表2 SVM算法效率对比表
表2显示:在时间上,初次训练模型时,M3因为需要计算壳向量导致 训练时间大于M1、M2,随着增量学习样本数的增加,M3方法在训练时间上 的明显优于M1、M2。三种SVM增量学习准确率对比如图4所示,三种SVM 增量学习时间消耗对比如图5所示,在第三次增量学习过程中,当增量样本 约为初始训练集的1053%时,M3增量学习时间约为初始训练时间的15.7%, M1的增量训练时间约为初始训练时间的1527%,M2的增量训练时间约为初 始训练时间的1007%。在算法准确率上,M1方法准确率最高,M2方法准确 率最低,M3方法的准确率略低于M1但高于M2,且随着增量学习的继续, M1方法准确率趋于稳定,M2算法的准确率大幅降低,M3方法的准确率不 断提高。因此,本发明方法较之于传统SVM增量方法,其增量学习的训练 时间大幅减少,准确率逐步提高并趋于稳定,符合增量学习特点,满足大数 据背景下网络流量的实时在线分类功能的需求。

Claims (10)

1.一种基于壳向量式SVM增量学习模型的流量实时分类方法,其特征在于,包括以下步骤:
1)对初始训练数据按特征维度分别进行归一化得到初始特征集FT1;
2)对初始特征集FT1采用FCBF算法进行特征选取,删除冗余特征和不相关特征得到优化特征集FT2:
3)对优化特征集FT2采用PCA算法进行处理,实现特征提取操作得到特征集FT3,将主要信息集中在少数维度;
4)以特征集FT3训练SVM模型,得到初始模型,使用初始模型对网络流量分类并得到含有样本几何信息的壳向量集合;
5)在实现增量学习过程中,根据新网络流量的信息和壳向量来更新模型;
6)使用更新后的模型进行网络流量实时在线分类。
2.根据权利要求1所述的一种基于壳向量式SVM增量学习模型的流量实时分类方法,其特征在于,所述步骤1)中,按特征维度进行归一化是对初始训练数据中每一维特征分别进行线性变换,使每一维特征值在保持原有数据意义下映射到[0,1]之间,消除各维度特征值量纲差别带来的影响,从而得到归一化后的特征集,表示为其中包含n个样本,每个样本有d个维度。
3.根据权利要求1所述的一种基于壳向量式SVM增量学习模型的流量实时分类方法,其特征在于,所述步骤2)中,FCBF算法实现步骤如下:
2.1)计算每个特征Fi与目标O之间的相关性;
2.2)将相关性SU(Fi,O)大于预先设置好的阈值δ的特征选出并从大到小排列;
2.3)依次遍历降序排列中小于SU(Fi,O)的所有特征Fj并计算SU(Fi,Fj);如果SU(Fi,Fj)大于等于SU(Fj,O),则删除特征Fj;;如果SU(Fi,Fj)小于SU(Fj,O),则保留特征Fj;最后得到无重复特征的特征子集FT2。
4.根据权利要求3所述的一种基于壳向量式SVM增量学习模型的流量实时分类方法,其特征在于,步骤2.1)中,目标O依次取特征集的所属类别,则特征Fi与目标O之间的相关性其中IG(X,Y)=E(X)-E(X|Y),IG(X,Y)表示信息增益,E(X)、E(Y)表示信息熵,E(X|Y)表示当随机变量Y单独发生时,随机变量X发生的条件概率,P(xi)表示特征x取值为i时的概率,z为类别数。
5.根据权利要求3所述的一种基于壳向量式SVM增量学习模型的流量实时分类方法,其特征在于,步骤2.2)中阈值δ取值为0.02。
6.根据权利要求1所述的一种基于壳向量式SVM增量学习模型的流量实时分类方法,其特征在于,步骤3)中通过坐标轴的旋转实现将特征集的主要信息集中在少数维度。
7.根据权利要求1所述的一种基于壳向量式SVM增量学习模型的流量实时分类方法,其特征在于,步骤4)中壳向量集合是特征集几何意义上最边缘的数据,即特征集最外层数据,以基于最小超球概念求解。
8.根据权利要求7所述的一种基于壳向量式SVM增量学习模型的流量实时分类方法,其特征在于,基于最小超球概念对壳向量集合求解,具体为:
4.1)假设X={x1,x2,...,xN}是给定的训练集,Hv表示特征空间的凸壳,V是凸壳上的凸顶点,Vp是凸壳上的极点,V是Vp的子集,ψ(x,V)用来判断x是否在V的内部,若V中任意一个非线性映射由V的凸组合表达,则是V的内点,记ψ(x,V)=1,若ψ(x,V)=0表示x不在V的内部;
4.2)ψ(x,V)优化后:
其中,βi表示集合V的样本点的个数,βi是加权系数;
4.3)首先求出给定点的最小超球,最小超球定义:其中,R是最小超球半径,ξi是松弛变量,C为惩罚函数值,用于控制惩罚程度;然后以最小超球的球面上点作为初始壳向量,然后迭代求出Vp,再从Vp中依次删除非极点后得到凸壳上的凸顶点V,最后以凸顶点V作为当前壳向量。
9.根据权利要求1所述的一种基于壳向量式SVM增量学习模型的流量实时分类方法,其特征在于,步骤5)具体为:当实时网络流量xi到达时,对xi进行归一化、FCBF及PCA预处理后,判断其是否满足KKT条件,若xi不违反KKT条件,则xi所含的特征信息已包括在历史支持向量中,则保持原模型;否则,xi与原壳向量集合中所含的隐含信息一同构成新的分类,即上次训练的非支持向量能够转化为支持向量,则取xi与历史壳向量集合S的并集,即Sk+1=Sk∪{xi},作为新特征集,进而重新训练得到模型Mi,再以模型Mi作为更新后的预测模型,从而实现SVM的增量学习。
10.根据权利要求1所述的一种基于壳向量式SVM增量学习模型的流量实时分类方法,其特征在于,步骤6)具体为:对实时网络流量进行归一化、FCBF算法处理、PCA算法处理得到实时流量特征集,然后实时流量特征集作为更新后模型的输入,经过模型的计算得到输出结果,根据输出结果实现对实时网络流量的分类。
CN201910045138.6A 2019-01-17 2019-01-17 一种基于壳向量式svm增量学习模型的流量实时分类方法 Pending CN109871872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910045138.6A CN109871872A (zh) 2019-01-17 2019-01-17 一种基于壳向量式svm增量学习模型的流量实时分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910045138.6A CN109871872A (zh) 2019-01-17 2019-01-17 一种基于壳向量式svm增量学习模型的流量实时分类方法

Publications (1)

Publication Number Publication Date
CN109871872A true CN109871872A (zh) 2019-06-11

Family

ID=66917788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910045138.6A Pending CN109871872A (zh) 2019-01-17 2019-01-17 一种基于壳向量式svm增量学习模型的流量实时分类方法

Country Status (1)

Country Link
CN (1) CN109871872A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602120A (zh) * 2019-09-19 2019-12-20 国网江苏省电力有限公司信息通信分公司 一种面向网络的入侵数据检测方法
CN111144459A (zh) * 2019-12-16 2020-05-12 重庆邮电大学 一种类不平衡的网络流量分类方法、装置及计算机设备
CN111625398A (zh) * 2020-05-15 2020-09-04 苏州浪潮智能科技有限公司 一种异常分析方法、装置、设备以及计算机可读存储介质
WO2021000958A1 (zh) * 2019-07-04 2021-01-07 华为技术有限公司 用于实现模型训练的方法及装置、计算机存储介质
CN112336310A (zh) * 2020-11-04 2021-02-09 吾征智能技术(北京)有限公司 一种基于fcbf和svm融合的心脏疾病诊断系统
CN113132291A (zh) * 2019-12-30 2021-07-16 中国科学院沈阳自动化研究所 一种边缘侧基于网络流量的异构终端特征生成及识别方法
CN113364703A (zh) * 2021-06-03 2021-09-07 中国电信股份有限公司 网络应用流量的处理方法、装置、电子设备和可读介质
CN115051955A (zh) * 2022-06-22 2022-09-13 东北大学 一种基于三重特征选择和增量学习的在线流分类方法
CN116881828A (zh) * 2023-07-19 2023-10-13 西华师范大学 一种基于子空间相似度的knn算法的异常检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101557327A (zh) * 2009-03-20 2009-10-14 扬州永信计算机有限公司 基于支持向量机的入侵检测方法
CN103886340A (zh) * 2014-02-27 2014-06-25 浙江大学 一种用于在线学习的样本集训练方法
CN104573740A (zh) * 2014-12-22 2015-04-29 山东鲁能软件技术有限公司 一种基于svm分类模型的设备故障诊断方法
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN109218223A (zh) * 2018-08-08 2019-01-15 西安交通大学 一种基于主动学习的鲁棒性网络流量分类方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101557327A (zh) * 2009-03-20 2009-10-14 扬州永信计算机有限公司 基于支持向量机的入侵检测方法
CN103886340A (zh) * 2014-02-27 2014-06-25 浙江大学 一种用于在线学习的样本集训练方法
CN104573740A (zh) * 2014-12-22 2015-04-29 山东鲁能软件技术有限公司 一种基于svm分类模型的设备故障诊断方法
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN109218223A (zh) * 2018-08-08 2019-01-15 西安交通大学 一种基于主动学习的鲁棒性网络流量分类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
徐鹏 等: "基于支持向量机的Internet流量分类研究", 《计算机研究与发展》 *
文波 等: "基于KKT条件与壳向量的增量学习算法研究", 《计算机科学》 *
段宏湘 等: "基于归一化互信息的FCBF特征选择算法", 《华中科技大学学报(自然科学版)》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021000958A1 (zh) * 2019-07-04 2021-01-07 华为技术有限公司 用于实现模型训练的方法及装置、计算机存储介质
CN110602120B (zh) * 2019-09-19 2022-04-05 国网江苏省电力有限公司信息通信分公司 一种面向网络的入侵数据检测方法
CN110602120A (zh) * 2019-09-19 2019-12-20 国网江苏省电力有限公司信息通信分公司 一种面向网络的入侵数据检测方法
CN111144459A (zh) * 2019-12-16 2020-05-12 重庆邮电大学 一种类不平衡的网络流量分类方法、装置及计算机设备
CN113132291A (zh) * 2019-12-30 2021-07-16 中国科学院沈阳自动化研究所 一种边缘侧基于网络流量的异构终端特征生成及识别方法
CN113132291B (zh) * 2019-12-30 2022-02-18 中国科学院沈阳自动化研究所 一种边缘侧基于网络流量的异构终端特征生成及识别方法
CN111625398A (zh) * 2020-05-15 2020-09-04 苏州浪潮智能科技有限公司 一种异常分析方法、装置、设备以及计算机可读存储介质
CN111625398B (zh) * 2020-05-15 2023-05-12 苏州浪潮智能科技有限公司 一种异常分析方法、装置、设备以及计算机可读存储介质
CN112336310A (zh) * 2020-11-04 2021-02-09 吾征智能技术(北京)有限公司 一种基于fcbf和svm融合的心脏疾病诊断系统
CN112336310B (zh) * 2020-11-04 2024-03-08 吾征智能技术(北京)有限公司 一种基于fcbf和svm融合的心脏疾病诊断系统
CN113364703A (zh) * 2021-06-03 2021-09-07 中国电信股份有限公司 网络应用流量的处理方法、装置、电子设备和可读介质
CN113364703B (zh) * 2021-06-03 2023-08-08 天翼云科技有限公司 网络应用流量的处理方法、装置、电子设备和可读介质
CN115051955A (zh) * 2022-06-22 2022-09-13 东北大学 一种基于三重特征选择和增量学习的在线流分类方法
CN115051955B (zh) * 2022-06-22 2023-12-19 东北大学 一种基于三重特征选择和增量学习的在线流分类方法
CN116881828A (zh) * 2023-07-19 2023-10-13 西华师范大学 一种基于子空间相似度的knn算法的异常检测方法
CN116881828B (zh) * 2023-07-19 2024-05-17 西华师范大学 一种基于子空间相似度的knn算法的异常检测方法

Similar Documents

Publication Publication Date Title
CN109871872A (zh) 一种基于壳向量式svm增量学习模型的流量实时分类方法
CN110689086B (zh) 基于生成式对抗网络的半监督高分遥感图像场景分类方法
Isa et al. Using the self organizing map for clustering of text documents
CN110008983A (zh) 一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法
CN111211994B (zh) 一种基于SOM与K-means融合算法的网络流量分类方法
CN101968853B (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
Chen et al. Progressive EM for latent tree models and hierarchical topic detection
CN104091038A (zh) 基于大间隔分类准则的多示例学习特征加权方法
CN115801374A (zh) 网络入侵数据分类方法、装置、电子设备及存储介质
Zhuang et al. A handwritten Chinese character recognition based on convolutional neural network and median filtering
CN106203508A (zh) 一种基于Hadoop平台的图像分类方法
Lin et al. A new automatic recognition system of gender, age and ethnicity
Xueli et al. An improved KNN algorithm based on kernel methods and attribute reduction
Meng et al. Vigilance adaptation in adaptive resonance theory
García-García et al. Music genre classification using the temporal structure of songs
KR20080078292A (ko) 영역 밀도 표현에 기반한 점진적 패턴 분류 방법
CN116051924A (zh) 一种图像对抗样本的分治防御方法
Mao et al. Naive Bayesian algorithm classification model with local attribute weighted based on KNN
Chouaib et al. Fast feature selection for handwritten digit recognition
CN113609480A (zh) 基于大规模网络流的多路学习入侵检测方法
CN108446740B (zh) 一种用于脑影像病历特征提取的多层一致协同方法
Li et al. Strangeness based feature selection for part based recognition
Tseng et al. A self-growing probabilistic decision-based neural network with automatic data clustering
CN115841110B (zh) 一种获取科学知识发现的方法及系统
Akhbardeh et al. Towards the experimental evaluation of novel supervised fuzzy adaptive resonance theory for pattern classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190611