CN102176701A - 一种基于主动学习的网络数据异常检测方法 - Google Patents

一种基于主动学习的网络数据异常检测方法 Download PDF

Info

Publication number
CN102176701A
CN102176701A CN2011100406721A CN201110040672A CN102176701A CN 102176701 A CN102176701 A CN 102176701A CN 2011100406721 A CN2011100406721 A CN 2011100406721A CN 201110040672 A CN201110040672 A CN 201110040672A CN 102176701 A CN102176701 A CN 102176701A
Authority
CN
China
Prior art keywords
sample
sample set
training
candidate
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100406721A
Other languages
English (en)
Inventor
张钧萍
何淼
陈雨时
张晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN2011100406721A priority Critical patent/CN102176701A/zh
Publication of CN102176701A publication Critical patent/CN102176701A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于主动学习的网络数据异常检测方法,它涉及基于支持向量机的检测方法。它解决了现有在网络数据的异常检测方法中支持向量机中所存在的训练样本多、复杂度高、难以有良好分类特性的问题。步骤如下:一、在未标注样本中选择C个点作为候选聚类中心,将候选未标注样本集A进行迭代优化聚类运算,选取叠代聚类结果中的代表性样本构建训练样本集B;二、支持向量机在训练样本集B上训练得到训练超平面;三、根据样本选择准则从候选未标注样本集A中选择最能提升分类性能的样本,标注类别后加入训练样本集B中;四、支持向量机在更新后的训练样本集B上重新训练;五、若检测精度达到设定值,则结束,否返回三。将该算法应用于异常检测研究中可以有效降低复杂度。

Description

一种基于主动学习的网络数据异常检测方法
技术领域
本发明涉及基于支持向量机的检测方法。
背景技术
计算机互联网的快速发展给人类社会带来了巨大的变化。但由于网络的开放性、复杂性、信息共享、以及网络协议设计中存在的安全缺陷等原因,计算机网络的发展面临着严峻的安全威胁。网络安全体系的构建不论从理论上还是从应用上,都成为了计算机网络领域的研究重点。入侵检测技术是针对计算机和网络信息资源的恶意行为的识别和响应,它不仅可以检测自外部的入侵行为,同时也能够指出内部合法用户的未授权的活动。入侵检测技术是实现网络安全中主动防御环节的主要技术手段。当检测出入侵行为后,入侵检测系统会通过响应模块改变系统的防护措施,提高系统的防火能力,从而达到主动防御的目标。入侵检测技术主要可以分为异常检测和误用检测两类,其中,异常检测方法由于能够检测出未知的攻击,因此成为目前入侵家侧系统研究的热点。
支持向量机(Support Vector Machine,SVM)是Vapnik等人在统计学习理论的基础上发展出的一种新的模式识别方法,是一种能在训练样本数很少的情况下达到较好分类推广能力的学习算法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势,同时具有很好的分类精度和泛化能力。目前支持向量机技术在网络数据的异常检测应用中有了很大的进步,但仍然存在一些因素制约着SVM的广泛应用,比如大规模样本集的训练导致系统资源占用过多(计算复杂度和空间复杂度高)。近年来人们根据支持向量机本身的特点,如解得稀疏性、优化问题的凸性等,设计了许多方法来解决对偶寻优问题,比如SMO方法,分快法等。但是这些方法都不能直接减少参与训练的样本总数,因而实际使用中训练算法的复杂度仍然很高,对于大样本情况下仍然难有较好的表现。另外,在实际的网络异常检测应用中,足够的训练数据能够使入侵检测系统获得更好的检测性能,但搜索网络攻击数据并对其进行类别标注用于构建训练集,是一件困难且人力和物力耗费相当大的工作,需要安全技术领域专家的参与。因此,对基于支持向量机的入侵检测系统而言,如何保证在具有良好分类特性的同时,有效的减少所需的训练样本数,并为一个研究的重点问题。
发明内容
本发明为了解决现有在网络数据的异常检测方法中支持向量机方法中所存在的训练样本多、复杂度高、难以有良好分类特性的问题,而提出了一种基于主动学习的网络数据异常检测方法。
本发明的一种基于主动学习的网络数据异常检测方法的步骤如下:
步骤一:在候选未标注样本集A的未标注样本中选择C个点作为候选聚类中心,将候选未标注样本集A进行迭代优化聚类运算,选取叠代聚类结果中的代表性样本构建训练样本集B;
步骤二:支持向量机在上述构建的训练样本集B上训练得到训练超平面;
步骤三:根据样本选择准则从候选未标注样本集A中选择最能提升分类性能的样本,标注类别后加入训练样本集B中;
步骤四:支持向量机在更新后的训练样本集B上重新训练;
步骤五:若检测精度达到设定值,则结束,否则返回步骤三。
通过对传统SVM基础理论的分析,可知SVM训练得到的分类器,只和分类超平面上支持向量(SV)所对应的训练样本有关,支持向量包含了分类器所需的信息,与其他样本无关,也就是说离分类超平面越近的样本最能影响分类器(分类超平面),而离分类超平面距离越远的样本对分类器的影响不是很大。因此,采取主动学习思想的询问机制为:每次只需要把距离分类超平面最近的未标记的样本,加入到训练样本集中,进行训练。采用这种策略,每次选择进行学习的样本部是不确定性最大的样本,它对分类器的影响也是最大。
将基于支持向量机的主动学习算法应用于异常检测研究中,能够有效地降低学习样本的复杂度。针对支持向量机的主动学习算法中存在的随机构造的初始训练样本质量不高和容易陷入次优等问题,本文提出了一种结合迭代优化聚类(ISODATA)的初始训练集构建方法,同时,在距离准则的基础上,提出了相应的主动学习算法的系统构架。该算法所需的学习样本更少,该系统构架提供了完备的主动学习模型。
附图说明
图1是本发明的流程示意图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,在主动学习方式下,训练样本是根据学习进程主动选择的,其学习过程为:初始化阶段和循环学习阶段,具体步骤如下:
候选未标注样本集A,训练样本集B,初始训练集样本数N,当前训练样本数n。
步骤一:在候选未标注样本集A的未标注样本中选择C个点作为候选聚类中心,将候选未标注样本集A进行迭代优化聚类运算,选取叠代聚类结果中的代表性样本构建训练样本集B;
支持向量机的分类函数面为核空间的一个超平面H,设在初始训练集上训练得到的超平面为Hs,实际最优的超平面为Hr,则SVM主动学习过程就是H从Hs向Hr优化调整的过程。
如果Hs与Hr之间差异较小,则可以减少后即学习过程中所需的样本数。在初始训练样本集规模相同情况下,如果初始样本在核空间分布的比较紧密,则学习得到Hs一般只能反映出该局部区域的分类信息,难以较高的概率保证Hs和Hr的全局近似性。相反,如果初始样本在核空间分布比较分散并具有一定的代表性,则学习所得Hs就综合了较多的分类信息,使得Hs与Hr的相近性有了进一步的提高。于是本步骤中采用迭代优化聚类运算构建初始训练样本集,步骤如下:
步骤1:将候选未标注样本集A进行初始化,在多维空间中选择C个点作为候选聚类中心,将这些点记为i=1,2, ...,C;
步骤2:在聚类的未标注的样本中,检验每一个未标注样本的位置x,指定未标注样本到最近的候选类中,这种指定方式是根据欧式距离度量进行;
步骤3:根据上一步骤得到的分组,计算得到一组新的均值,记作:mi,i=1,2,...,C;
步骤4:如果对于全部i有
Figure BDA0000047174800000032
则迭代处理停止,否则,利用当前的mi值来更新
Figure BDA0000047174800000033
值,返回步骤2。
步骤二:支持向量机在上述构建的训练样本集B上训练得到训练超平面;
步骤三:根据样本选择准则从候选未标注样本集A中选择最能提升分类性能的样本,标注类别后加入训练样本集B中;
支持向量机主动学习机采取样本选择准则是从候选未标注样本集A中选择应该标注的样本;本步骤中采用的样本选择准则是每次选择离分类面最近的一个或者几个样本作为新样本进行训练;采用这个准则,每次选择进行学习的样本部是不确定性最大的样本,它对分类器的影响也最大,对分类器的影响也是最大的;
步骤四:支持向量机在更新后的训练样本集B上重新训练;
步骤五:若检测精度达到设定值,则结束,否则返回步骤三。所述的检测精度是指正确分类的样本总数除以总的样本数的比率,在本实施方式中,检测率设定为85%。

Claims (3)

1.一种基于主动学习的网络数据异常检测方法,其特征在于它步骤如下:
步骤一:在候选未标注样本集A的未标注样本中选择C个点作为候选聚类中心,将候选未标注样本集A进行迭代优化聚类运算,选取叠代聚类结果中的代表性样本构建训练样本集B;
步骤二:支持向量机在上述构建的训练样本集B上训练得到训练超平面;
步骤三:根据样本选择准则从候选未标注样本集A中选择最能提升分类性能的样本,标注类别后加入训练样本集B中;
步骤四:支持向量机在更新后的训练样本集B上重新训练;
步骤五:若检测精度达到设定值,则结束,否则返回步骤三。
2.根据权利要求1所述的一种基于主动学习的网络数据异常检测方法,其特征在于步骤一中采用迭代优化聚类运算构建训练样本集B的步骤如下:
步骤1:将候选未标注样本集A进行初始化,在多维空间中选择C个点作为候选聚类中心,将这些点记为
Figure FDA0000047174790000011
i=1,2,...,C;
步骤2:在聚类的未标注的样本中,检验每一个未标注样本的位置x,指定未标注样本到最近的候选类中,这种指定方式是根据欧式距离度量进行;
步骤3:根据上一步骤得到的分组,计算得到一组新的均值,记作:mi,i=1,2,...,C;
步骤4:如果对于全部i有
Figure FDA0000047174790000012
则迭代处理停止,否则,利用当前的mi值来更新
Figure FDA0000047174790000013
值,返回步骤2。
3.根据权利要求1所述的一种基于主动学习的网络数据异常检测方法,其特征在于步骤三中采用的样本选择准则是每次选择离分类面最近的一个或者几个样本作为新样本进行训练。
CN2011100406721A 2011-02-18 2011-02-18 一种基于主动学习的网络数据异常检测方法 Pending CN102176701A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100406721A CN102176701A (zh) 2011-02-18 2011-02-18 一种基于主动学习的网络数据异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100406721A CN102176701A (zh) 2011-02-18 2011-02-18 一种基于主动学习的网络数据异常检测方法

Publications (1)

Publication Number Publication Date
CN102176701A true CN102176701A (zh) 2011-09-07

Family

ID=44519806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100406721A Pending CN102176701A (zh) 2011-02-18 2011-02-18 一种基于主动学习的网络数据异常检测方法

Country Status (1)

Country Link
CN (1) CN102176701A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103002438A (zh) * 2011-09-15 2013-03-27 中国人民解放军总参谋部第六十一研究所 一种基于支持向量机和信任控制的网络行为监测方法
CN103297427A (zh) * 2013-05-21 2013-09-11 中国科学院信息工程研究所 一种未知网络协议识别方法及系统
CN103617429A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习分类方法和系统
CN103617435A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习图像分类方法和系统
CN104657744A (zh) * 2015-01-29 2015-05-27 中国科学院信息工程研究所 一种基于非确定主动学习的多分类器训练方法及分类方法
CN104751200A (zh) * 2015-04-10 2015-07-01 中国电力科学研究院 一种svm网络业务分类的方法
CN106778904A (zh) * 2017-01-10 2017-05-31 上海鲲云信息科技有限公司 一种数据异常检测方法、系统及具有该系统的服务器
CN108470699A (zh) * 2018-03-29 2018-08-31 深圳市创艺工业技术有限公司 一种半导体制造设备和工艺的智能控制系统
CN108573275A (zh) * 2018-03-07 2018-09-25 浙江大学 一种在线分类微服务的构建方法
CN108710894A (zh) * 2018-04-17 2018-10-26 中国科学院软件研究所 一种基于聚类代表点的主动学习标注方法和装置
CN108920863A (zh) * 2018-07-20 2018-11-30 湖南大学 一种机器人伺服系统能耗估计模型的建立方法
CN109583904A (zh) * 2018-11-30 2019-04-05 深圳市腾讯计算机系统有限公司 异常操作检测模型的训练方法、异常操作检测方法及装置
CN109754020A (zh) * 2019-01-10 2019-05-14 东华理工大学 融合多层级渐进策略和非监督学习的地面点云提取方法
CN109784044A (zh) * 2017-11-10 2019-05-21 北京安码科技有限公司 一种基于增量学习的改进SVM的Android恶意软件识别方法
CN109934354A (zh) * 2019-03-12 2019-06-25 北京信息科技大学 基于主动学习的异常数据检测方法
CN110447038A (zh) * 2017-03-21 2019-11-12 日本电气株式会社 图像处理装置、图像处理方法和记录介质
CN110912917A (zh) * 2019-11-29 2020-03-24 深圳市任子行科技开发有限公司 恶意url检测方法及系统
CN113378955A (zh) * 2021-06-23 2021-09-10 贵州电网有限责任公司 一种基于主动学习的入侵检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孔锐等: "基于核的K-均值聚类", 《计算机工程》 *
黄双福等: "基于改进SVM主动学习算法的入侵检测", 《微电子学与计算机》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103002438A (zh) * 2011-09-15 2013-03-27 中国人民解放军总参谋部第六十一研究所 一种基于支持向量机和信任控制的网络行为监测方法
CN103297427B (zh) * 2013-05-21 2016-01-06 中国科学院信息工程研究所 一种未知网络协议识别方法及系统
CN103297427A (zh) * 2013-05-21 2013-09-11 中国科学院信息工程研究所 一种未知网络协议识别方法及系统
CN103617429A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习分类方法和系统
CN103617435A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习图像分类方法和系统
CN103617435B (zh) * 2013-12-16 2017-01-25 苏州大学 一种主动学习图像分类方法和系统
CN104657744A (zh) * 2015-01-29 2015-05-27 中国科学院信息工程研究所 一种基于非确定主动学习的多分类器训练方法及分类方法
CN104657744B (zh) * 2015-01-29 2017-10-24 中国科学院信息工程研究所 一种基于非确定主动学习的多分类器训练方法及分类方法
CN104751200A (zh) * 2015-04-10 2015-07-01 中国电力科学研究院 一种svm网络业务分类的方法
CN104751200B (zh) * 2015-04-10 2019-05-21 中国电力科学研究院 一种svm网络业务分类的方法
CN106778904A (zh) * 2017-01-10 2017-05-31 上海鲲云信息科技有限公司 一种数据异常检测方法、系统及具有该系统的服务器
CN106778904B (zh) * 2017-01-10 2019-10-18 上海鲲云信息科技有限公司 一种数据异常检测方法、系统及具有该系统的服务器
CN110447038A (zh) * 2017-03-21 2019-11-12 日本电气株式会社 图像处理装置、图像处理方法和记录介质
CN109784044A (zh) * 2017-11-10 2019-05-21 北京安码科技有限公司 一种基于增量学习的改进SVM的Android恶意软件识别方法
CN108573275A (zh) * 2018-03-07 2018-09-25 浙江大学 一种在线分类微服务的构建方法
CN108573275B (zh) * 2018-03-07 2020-08-25 浙江大学 一种在线分类微服务的构建方法
CN108470699A (zh) * 2018-03-29 2018-08-31 深圳市创艺工业技术有限公司 一种半导体制造设备和工艺的智能控制系统
CN108710894A (zh) * 2018-04-17 2018-10-26 中国科学院软件研究所 一种基于聚类代表点的主动学习标注方法和装置
CN108710894B (zh) * 2018-04-17 2022-06-28 中国科学院软件研究所 一种基于聚类代表点的主动学习标注方法和装置
CN108920863A (zh) * 2018-07-20 2018-11-30 湖南大学 一种机器人伺服系统能耗估计模型的建立方法
CN108920863B (zh) * 2018-07-20 2021-02-09 湖南大学 一种机器人伺服系统能耗估计模型的建立方法
CN109583904A (zh) * 2018-11-30 2019-04-05 深圳市腾讯计算机系统有限公司 异常操作检测模型的训练方法、异常操作检测方法及装置
CN109583904B (zh) * 2018-11-30 2023-04-07 深圳市腾讯计算机系统有限公司 异常操作检测模型的训练方法、异常操作检测方法及装置
CN109754020A (zh) * 2019-01-10 2019-05-14 东华理工大学 融合多层级渐进策略和非监督学习的地面点云提取方法
CN109934354A (zh) * 2019-03-12 2019-06-25 北京信息科技大学 基于主动学习的异常数据检测方法
CN110912917A (zh) * 2019-11-29 2020-03-24 深圳市任子行科技开发有限公司 恶意url检测方法及系统
CN113378955A (zh) * 2021-06-23 2021-09-10 贵州电网有限责任公司 一种基于主动学习的入侵检测方法

Similar Documents

Publication Publication Date Title
CN102176701A (zh) 一种基于主动学习的网络数据异常检测方法
He et al. Mining transition rules of cellular automata for simulating urban expansion by using the deep learning techniques
CN111428231B (zh) 基于用户行为的安全处理方法、装置及设备
CN104598813B (zh) 一种基于集成学习和半监督svm的计算机入侵检测方法
CN109325418A (zh) 基于改进YOLOv3的道路交通环境下行人识别方法
CN109766992A (zh) 基于深度学习的工控异常检测及攻击分类方法
CN109977118A (zh) 一种基于词嵌入技术和lstm的异常域名检测方法
CN103942749A (zh) 一种基于修正聚类假设和半监督极速学习机的高光谱地物分类方法
Wang et al. Abnormal detection technology of industrial control system based on transfer learning
Sanida et al. Tomato leaf disease identification via two–stage transfer learning approach
Kong et al. FCSCNN: Feature centralized Siamese CNN-based android malware identification
Chen et al. Applying convolutional neural network for malware detection
CN113901448A (zh) 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
Li et al. Feature selection‐based android malware adversarial sample generation and detection method
Lu et al. Shape-based vessel trajectory similarity computing and clustering: A brief review
CN109376790A (zh) 一种基于渗流分析的二元分类方法
CN104268574A (zh) 一种基于遗传核模糊聚类的sar图像变化检测方法
Liu et al. Network log anomaly detection based on gru and svdd
Carmichael et al. Unfooling perturbation-based post hoc explainers
Zhu et al. Application of data mining technology in detecting network intrusion and security maintenance
Li et al. Gadet: A geometry-aware x-ray prohibited items detector
Liu et al. Improve interpretability of neural networks via sparse contrastive coding
Wang et al. SCFL: Mitigating backdoor attacks in federated learning based on SVD and clustering
Hu et al. Multi-level trajectory learning for traffic behavior detection and analysis
Mathankar et al. Phishing Website Detection using Machine Learning Techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110907