CN104751200A - 一种svm网络业务分类的方法 - Google Patents
一种svm网络业务分类的方法 Download PDFInfo
- Publication number
- CN104751200A CN104751200A CN201510167001.XA CN201510167001A CN104751200A CN 104751200 A CN104751200 A CN 104751200A CN 201510167001 A CN201510167001 A CN 201510167001A CN 104751200 A CN104751200 A CN 104751200A
- Authority
- CN
- China
- Prior art keywords
- support vector
- network
- sample set
- vector collection
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种SVM网络业务分类的方法,所述方法包括:(1)利用串行分割反馈方法对网络业务的初始SVM分类器进行初始训练,得到分类超平面;(2)利用有效边界淘汰方法,淘汰分类超平面构建无用的样本点,得到最优分类超平面。本发明提供了一种相对高效的方法来对机器学习算法进行改进,在保证分类精度基本不变的前提下,有效降低机器学习分类器的训练时间,伎网络流量数据的分类成本得以降低。
Description
技术领域
本发明涉及一种网络业务分类方法,具体涉及一种SVM网络业务分类的方法。
背景技术
web2.0时代给互联网经历了全新的飞速发展,网络应用种类与数量极大丰富,网民的数量急剧增加,网络流量成倍增长,如此的发展速度无论是对主干网、局域网还是交换设备都会带来巨大挑战,而如何能够在网络资源有限的前提下给用户提供更好的用户体验成为新的研究热点。诸多网络分析软件如sniffer、Wireshark相继问世,凸显网络业务的分类越来越重要。
传统的网络分类方法面对如今的复杂多变的网络环境已经捉襟见肘,传统的端口分析法由于现在动态端口技术的广泛采用而准确率大大下降,深度包检测DPI方法由于现在的加密算法以及P2P业务的大量私有协议的使用而变得举步维艰。近年来兴起的机器学习方法尚不能提出很好的解决方案,在分类器的训练上、分类器的拟合上都存着各种各样的问题。建立在机器学习的VC维理论和结构风险最小化原理上的SVM算法,体现了追求学习能力与模型复杂性的初衷,但是因为其分类器训练时间复杂度高、并且是针对二维分类而设计的,其在网络分类中的应用始终乏力。
发明内容
为了克服上述现有技术的不足,本发明提供一种SVM网络业务分类的方法。本发明提供了一种相对高效的方法来对机器学习算法进行改进,在保证分类精度基本不变的前提下,有效降低机器学习分类器的训练时间,使网络流量数据的分类成本得以降低。
为了实现上述发明目的,本发明采取如下技术方案:
一种SVM网络业务分类的方法,其特征在于,所述方法包括步骤如下:
(1)利用串行分割反馈方法对网络业务的初始SVM分类器进行初始训练,得到分类超平面;
(2)利用有效边界淘汰方法,淘汰分类超平面构建无用的样本点,得到最优分类超平面。
本发明提供的优选技术方案中,所述步骤(1)中串行分割反馈方法包括步骤如下:
A.将网络数据作为用于训练的网络数据样本集;
B.将样本集划分为若干不超过一定大小的子集;
C.对划分得到的每个子集利用SMO算法进行求解,得到其支持向量集;
D.随机选取两支持向量集混合,组成新的训练样本集;
E.将新的样本集同样用SMO算法进行训练后得到新的支持向量集,比较前后两次的支持向量集的相似度是否在90%以上,若是,则将新的样本集再混合,否则,重新随机划分样本集;
F.对新的样本集用SMO算法求解,求出其支持向量集;
G.得到最终的支持向量集。
本发明提供的第二优选技术方案中,所述步骤(2)中有效边界淘汰方法包括如下步骤:
A.利用当前的支持向量集计算出当前的分类超平面;
B.新增学习样本集,计算新增学习样本集中每个样本到分类超平面的欧式距离;
C.将增量学习样本集中的样本按照到超平面的距离从小到大排序;
D.保留步骤C排序后的样本点中的前20%;
E.将原支持向量集与削减后的增量学习样本集混合;
F.将混合后的数据集利用SMO算法进行求解;
G.得到新的支持向量集,从而得出新的最优分类超平面。
本发明提供的第三优选技术方案中,所述一定大小为网络流量数据条目为1000条。
与最接近的现有技术比,本发明的有益效果在于:
本发明提供了一种相对高效的方法来对机器学习算法进行改进,在保证分类精度基本不变的前提下,有效降低机器学习分类器的训练时间,使网络流量数据的分类成本得以降低。
本发明采用串行分割反馈算法极大地提升SVM分类器的训练效率,减少了训练所需要的总时间,使用界限淘汰算法能够有效降低增量学习过程中的样本规模。
附图说明
图1是串行分割反馈SVM方法流程图
图2是分界距离淘汰方法用于网络流量分类的方法流程图
具体实施方式
下面结合附图对本发明作进一步详细说明。
在局域网的网关附近部署的网络监测设备,需要对网络的数据进行分类,先行的初始化分类过程由初始的已知数据集进行训练,为了减少训练所需要的总时间,首先采用串行分割反馈算法,在保证分类器分类精度的前提下构建最优初始分类器,然后在之后实用的一段阶段内每隔一段时间根据实际情况对分类器进行调整,以获得能够长时间有效的网络流量数据分类器。这里我们的理论依据是SVM分类器训练求解的时间复杂度为O(n3),即使采用业内公认的最好求解算法SMO,其时间复杂度依然维持在高于O(n2)的水平上,在短期内难以找到更加优化的直接求解算法的情况下,使用串行分割反馈能够极大地提升SVM分类器的训练效率,使用分界淘汰算法能够有效降低增量学习过程中的样本规模。而将两种方法结合使用并且将其引入到网络流量数据的分类则是本发明的最创新之处。
一种SVM网络业务分类的方法,该方法具体步骤如下:
(1)利用串行分割反馈方法对网络业务的初始SVM分类器进行初始训练,得到分类超平面;
(2)利用有效边界淘汰方法,淘汰分类超平面构建无用的样本点,得到最优分类超平面。
如图1所示,串行分割反馈SVM方法的具体流程如下:
步骤101:将用于训练分类器的样本集分为若干不超过一定大小的子集(例如,本图中4个)
步骤102:对划分得到的每个子集利用SMO算法进行求解,得到其支持向量集
步骤103:随机选取两支持向量集混合,组成新的训练样本集
步骤104:将新的样本集同样用SMO算法进行训练后得到新的支持向量集,比较前后两次的支持向量集的相似度是否在90%以上,如果是,则将新的样本集再混合,如果不是,重新随机划分样本集,重新进行学习
步骤105:对新的样本集用SMO算法求解,求出其支持向量集
步骤106:得到最终的支持向量集。
如图2所示,有效边界淘汰方法具体流程如下:
步骤201:利用当前的支持向量集计算出当前的分类超平面
步骤202:计算增量学习样本集中每个样本到分类超平面的欧氏距离
步骤203:将增量学习样本集中的样本按照到超平面的距离从小到大排序
步骤204:保留步骤203排序后的样本点中的前20%
步骤205:将原支持向量集与削减后的增量学习样本集混合
步骤206:将混合后的数据集利用SMO算法进行求解
步骤207:得到新的支持向量集。
将样本集规模很大的网络流量数据进行分割,分别进行训练,非线性降低每个训练集的训练时间,降低原整个样本集的训练时间。
将长时间处于工作状态的网络流量分类设备定期进行更新,根据过去一段时间的网络流量对分类器的分类超平面参数进行调整。
对网络流量分类器的增量学习时采用淘汰算法,去除对最优分类超平面的调整没有意义的点,减少总体计算量。
将关于样本集分割反馈算法与训练时的无用样本点淘汰算法结合引入到网络流量的分类问题中。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种SVM网络业务的分类方法,其特征在于,所述方法包括步骤如下:
(1)用串行分割反馈方法初始训练网络业务初始SVM分类器,得到分类超平面;
(2)用有效边界淘汰方法,淘汰分类超平面构建无用的样本点,得到最优分类超平面。
2.根据权利要求1所述网络业务的分类方法,其特征在于,所述步骤(1)中串行分割反馈方法包括步骤如下:
A.将网络数据作为用于训练的网络数据样本集;
B.将样本集划分为若干不超过一定大小的子集;
C.用SMO算法求解B步得到的每个子集的支持向量集;
D.随机选取两支持向量集混合,组成新的训练样本集;
E.将新的样本集同样用SMO算法进行训练后得到新的支持向量集,比较前后两次的支持向量集的相似度是否在90%以上,若是,则将新的样本集再混合,否则,重新随机划分样本集;
F.对新的样本集用SMO算法求解,求出其支持向量集;
G.得到最终的支持向量集。
3.根据权利要求1所述网络业务分类的方法,其特征在于,所述步骤(2)中有效边界淘汰方法包括如下步骤:
A.用当前的支持向量集得出当前的分类超平面;
B.新增学习样本集,计算新增学习样本集中每个样本到分类超平面的欧式距离;
C.按到超平面的距离对增量学习样本集中的样本从小到大排序;
D.保留步骤C排序后的样本点中的前20%;
E.将原支持向量集与削减后的增量学习样本集混合;
F.用SMO算法对混合后的数据集求解;
G.得到新的支持向量集,从而得出新的最优分类超平面。
4.根据权利要求2所述网络业务分类的方法,其特征在于,所述一定大小为网络流量数据条目为1000条。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510167001.XA CN104751200B (zh) | 2015-04-10 | 2015-04-10 | 一种svm网络业务分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510167001.XA CN104751200B (zh) | 2015-04-10 | 2015-04-10 | 一种svm网络业务分类的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104751200A true CN104751200A (zh) | 2015-07-01 |
CN104751200B CN104751200B (zh) | 2019-05-21 |
Family
ID=53590851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510167001.XA Active CN104751200B (zh) | 2015-04-10 | 2015-04-10 | 一种svm网络业务分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104751200B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184316A (zh) * | 2015-08-28 | 2015-12-23 | 国网智能电网研究院 | 一种基于特征权学习的支持向量机电网业务分类方法 |
CN106959967A (zh) * | 2016-01-12 | 2017-07-18 | 中国科学院声学研究所 | 一种链路预测模型的训练及链路预测方法 |
CN107729952A (zh) * | 2017-11-29 | 2018-02-23 | 新华三信息安全技术有限公司 | 一种业务流分类方法及装置 |
CN109190719A (zh) * | 2018-11-30 | 2019-01-11 | 长沙理工大学 | 支持向量机学习方法、装置、设备及计算机可读存储介质 |
CN110728289A (zh) * | 2018-07-16 | 2020-01-24 | 中移信息技术有限公司 | 一种家庭宽带用户的挖掘方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7552098B1 (en) * | 2005-12-30 | 2009-06-23 | At&T Corporation | Methods to distribute multi-class classification learning on several processors |
CN101944122A (zh) * | 2010-09-17 | 2011-01-12 | 浙江工商大学 | 一种融合增量学习的支持向量机多类分类方法 |
CN102176701A (zh) * | 2011-02-18 | 2011-09-07 | 哈尔滨工业大学 | 一种基于主动学习的网络数据异常检测方法 |
-
2015
- 2015-04-10 CN CN201510167001.XA patent/CN104751200B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7552098B1 (en) * | 2005-12-30 | 2009-06-23 | At&T Corporation | Methods to distribute multi-class classification learning on several processors |
CN101944122A (zh) * | 2010-09-17 | 2011-01-12 | 浙江工商大学 | 一种融合增量学习的支持向量机多类分类方法 |
CN102176701A (zh) * | 2011-02-18 | 2011-09-07 | 哈尔滨工业大学 | 一种基于主动学习的网络数据异常检测方法 |
Non-Patent Citations (1)
Title |
---|
裴杨等: "基于SVM的并行网络流量分类方法", 《计算机工程与设计》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184316A (zh) * | 2015-08-28 | 2015-12-23 | 国网智能电网研究院 | 一种基于特征权学习的支持向量机电网业务分类方法 |
CN105184316B (zh) * | 2015-08-28 | 2019-05-14 | 国网智能电网研究院 | 一种基于特征权学习的支持向量机电网业务分类方法 |
CN106959967A (zh) * | 2016-01-12 | 2017-07-18 | 中国科学院声学研究所 | 一种链路预测模型的训练及链路预测方法 |
CN107729952A (zh) * | 2017-11-29 | 2018-02-23 | 新华三信息安全技术有限公司 | 一种业务流分类方法及装置 |
CN107729952B (zh) * | 2017-11-29 | 2021-04-30 | 新华三信息安全技术有限公司 | 一种业务流分类方法及装置 |
CN110728289A (zh) * | 2018-07-16 | 2020-01-24 | 中移信息技术有限公司 | 一种家庭宽带用户的挖掘方法及设备 |
CN110728289B (zh) * | 2018-07-16 | 2022-06-03 | 中移动信息技术有限公司 | 一种家庭宽带用户的挖掘方法及设备 |
CN109190719A (zh) * | 2018-11-30 | 2019-01-11 | 长沙理工大学 | 支持向量机学习方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104751200B (zh) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104751200A (zh) | 一种svm网络业务分类的方法 | |
CN101252541B (zh) | 一种网络流量分类模型的建立方法及相应系统 | |
CN104063876B (zh) | 一种交互式图像分割方法 | |
CN103208123B (zh) | 图像分割方法与系统 | |
WO2022057268A1 (zh) | 基站节能策略确定方法、装置以及存储介质 | |
CN107451994A (zh) | 基于生成对抗网络的物体检测方法及装置 | |
CN111598175B (zh) | 一种基于在线难例挖掘方式的检测器训练优化方法 | |
CN105141455B (zh) | 一种基于统计特征的有噪网络流量分类建模方法 | |
CN103425984B (zh) | 一种检测票据中正多边形印章的方法和装置 | |
CN101251896B (zh) | 一种基于多分类器的物体检测系统及方法 | |
CN103973589A (zh) | 网络流量分类方法及装置 | |
CN105574540A (zh) | 一种基于非监督学习技术的害虫图像特征学习与自动分类方法 | |
CN104200233A (zh) | 一种基于韦伯局部描述符的服装分类识别方法 | |
CN105608694A (zh) | 视网膜细胞显微图像分割与计数方法 | |
CN103020645A (zh) | 一种垃圾图片识别方法和系统 | |
CN108764322A (zh) | 一种基于概念漂移的流数据集成分类方法和装置 | |
CN108241662A (zh) | 数据标注的优化方法及装置 | |
CN104850577A (zh) | 一种基于有序复合树结构的数据流最大频繁项集挖掘方法 | |
CN105184486A (zh) | 一种基于有向无环图支持向量机的电网业务分类方法 | |
CN103198489B (zh) | 基于显著性密度与边缘响应的显著物体自动检测方法 | |
Xiao et al. | A traffic classification method with spectral clustering in SDN | |
CN103903009A (zh) | 一种基于机器视觉的工业品检测方法 | |
CN106897282A (zh) | 一种用户群的分类方法和设备 | |
CN106572486A (zh) | 一种基于机器学习的手持终端流量识别方法和系统 | |
CN111797935B (zh) | 基于群体智能的半监督深度网络图片分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |