CN106973057B - 一种适用于入侵检测的分类方法 - Google Patents

一种适用于入侵检测的分类方法 Download PDF

Info

Publication number
CN106973057B
CN106973057B CN201710207086.9A CN201710207086A CN106973057B CN 106973057 B CN106973057 B CN 106973057B CN 201710207086 A CN201710207086 A CN 201710207086A CN 106973057 B CN106973057 B CN 106973057B
Authority
CN
China
Prior art keywords
sample
class
minority class
sampling
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710207086.9A
Other languages
English (en)
Other versions
CN106973057A (zh
Inventor
张石
沈海斌
佘斌
孙世春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710207086.9A priority Critical patent/CN106973057B/zh
Publication of CN106973057A publication Critical patent/CN106973057A/zh
Application granted granted Critical
Publication of CN106973057B publication Critical patent/CN106973057B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种适用于入侵检测的分类方法,根据SVM分类算法对类别不均衡数据集较为敏感及其在核空间进行分类的特点,通过对训练用样本集中的少数类样本集采取基于核SMOTE的过采样,同时对多数类样本集采取基于核的模糊C均值聚类欠抽样的混合采样方式,实现不均衡训练数据集的均衡化预处理,然后在新得到的训练样本集上采用Bagging集成学习方法训练出基于SVM的集成分类器。该方法训练出来的模型不仅可以有效改善传统SVM入侵检测模型针对入侵数据识别效果不理想及对正常数据误判率较高的缺点,并且采用的Bagging集成算法适合大规模并行计算。

Description

一种适用于入侵检测的分类方法
技术领域
本发明属于网络安全技术领域,涉及入侵检测数据均衡化预处理的混合采样技术及支持向量机集成学习方法,公开了一种适用于入侵检测的分类方法。
背景技术
在网络安全领域,入侵检测作为一种主动防御技术,通过收集并分析系统、用户及网络数据包的信息,监测用户和系统的活动。为了使检测系统能够从收集到的信息中自动检测到异常,机器学习技术被引入到入侵检测系统。
支持向量机作为机器学习领域的一个重要研究分支,因为自身完善的数学理论和良好的实际应用效果,因此在入侵检测领域获得了应用。但是在传统的入侵检测标准训练集中,训练样本分布是极端不均衡的,单个支持向量机对类别不平衡的样本集较为敏感。因此将支持向量机应用到入侵检测中,训练出来的检测模型存在对入侵数据的检测率较低及对正常数据的误判率较高等难以让人满意的缺点。
本发明针对SVM应用在入侵检测中的上述缺陷,提出了在训练样本集上首先采用基于核空间混合采样技术的样本均衡化预处理方法,在分类算法上采用支持向量机集成的学习方法,该方案可以改善支持向量机检测模型对入侵数据的检测率较低及误判率较高的缺点,并且适合大规模并行计算。
发明内容
本发明的目的是针对现有的SVM方案用于入侵检测的不足,提供了一种适用于入侵检测的分类方法,提高SVM在入侵检测中应对入侵数据的检测率及降低对正常数据的误判率,并且使算法适合大规模并行计算。
本发明为解决上述技术问题所采用的技术方案如下:
1)数据集规范化预处理:针对入侵检测标准数据集进行样本特征参数归一化处理,实现所有文本属性信息数值化转换,并使所有的特征属性得到规格化处理,统一属性的度量。
2)对训练数据集在核空间混合采样改善类别均衡度:针对SVM在核空间进行训练的特点,将训练样本集映射到特征空间,对少数类样本集采取K-SMOTE算法进行过采样得到新的少数类样本集,同时对多数类样本集采用基于核聚类的欠采样方法得到新的多数类样本集,然后将得到的少数类样本集与多数类样本集合并产生新的训练用均衡样本集。
3)分类器训练:在分类器训练阶段,基于上述步骤2)产生的新样本集中采用Bagging方法构建多个训练集,并分别对每个训练集用SVM基分类器进行学习,得到集成分类器。
4)分类器识别:在识别阶段,通过由步骤3)产生的基分类器来加权投票决定分类结果。
本发明根据SVM算法在核空间进行分类的特点,通过对少数类采用核SMOTE的过采样与对多数类采用基于核聚类的欠抽样的混合采样方式对不均衡训练数据集进行均衡化预处理,然后在得到的新训练集上采用Bagging集成学习方法得到基于SVM的集成分类器。该方法不仅可以有效改善SVM针对入侵检测中的入侵数据识别效果不理想及对正常数据的误判率较高的缺点,并且采用的Bagging集成算法适合大规模并行计算。
附图说明
图1是工作流程示意图;
图2是算法流程图。
具体实施方式
下面结合附图详细说明下本发明的实现过程,如图1所示,本发明方法的工作流程主要分为4个部分:
1)数据预处理:针对入侵检测标准数据集KDD CUP99进行样本特征参数归一化处理,实现所有文本属性信息数值化转换,并使所有的特征属性得到规格化处理,统一属性的度量。
2)对不均衡训练数据集在核空间混合采样改善类别均衡度,如下为混合采样新样本集的生成过程,如图2描述所示,分为两个部分:
步骤2.1:对少数类样本在核空间进行SMOTE过采样。
设待处理的少数类样本集为:F={x1,x2,...xn},xi∈Rh,i=1,2,···,n,核函数K(·)和非线性映射相关,其中H是特征向量空间,Rh是原始输入空间。映射是将集合F中的样本映射到特征向量空间H中。
步骤2.1.1:首先根据训练样本集中的多数类样本与少数类样本的样本差值,确定需要生成的人工样本的数目D。
步骤2.1.2:在特征向量空间中生成人工少数类样本:
步骤2.1.3:按照排列的序号顺序从中选取一个少数类样本xi∈Rh,i=1,2,···,n,求出该样本在特征向量空间中的k个少数类最近邻,最近邻求法如下:
对少数类样本按照di的值从小到大进行排列,选择排列前k个少数类样本,这k个样本就是xi的k个最近邻
步骤2.1.4:随机在这k个少数类最近邻中选择一个样本xj,并且生成一个数值范围在(0,1)内的随机数λi
步骤2.1.5:在特征向量空间中利用距离法生成新的样本fi
步骤2.1.6:如果生成的人工少数样本数目不足,则重复步骤
2.1.3到步骤2.1.5的过程,直到人工少数类样本的数目满足要求,至此少数类样本在核空间的过抽样算法结束。
步骤2.2:对多数类样本在核空间进行基于模糊C均值聚类的欠采样。
设待处理的多数类样本集为:M={y1,y2,...ym},yi∈Rm×l,m为多数类样本数目,l为样本维数。
步骤2.2.1:采用与步骤2.1中相同的核函数,计算多数类样本同少数类样本的相似矩阵Wm×p,其中m为多数类样本数目,p为少数类样本数目。
步骤2.2.2:计算每一个多数类样本与所有少数类的平均相似度向量Lm×1
步骤2.2.3:根据平均相似度向量Lm×1的从大到小排序得到M′。
步骤2.2.4:取M′中的前α×m个多数类样本G∈Rα×m×l作为待聚类样本进行聚类分析,其中α为边界样本的选取比例。
步骤2.2.5:通过对G={g1,g2,...gα×m}矩阵中的gi利用核模糊C均值聚类算法进行聚类形成C1,C2,…,Cq,其中q为聚类的个数。然后对每一个聚类,根据所确定的样本数,结合各个聚类的大小按照其占q个聚类总和大小的权值,从各个聚类中随机选取相应数量的样本,得到多数类欠抽样样本集。
将上述步骤2.1与步骤2.2生成的样本集合并生成新的训练用均衡样本集S。
3)采用bagging算法进行集成分类器训练,步骤如下:
输入:训练样本集S,含有S={(x1,y1),(x2,y2),...(xN,yN)},采样次数为K;
步骤3.1:通过Bootstrap重采样,从S中得到训练样本集Sk
步骤3.2:在数据集Sk上利用SVM算法进行训练,获得基分类器Hk
重复以上步骤K次,建立K个分类器;
4)分类器识别:在识别阶段,通过由步骤(3)产生的K个基分类器对测试集进行分类,最终预测结果采取等权值投票得出;
输出:
该算法不仅可以改善传统SVM模型在入侵检测应用中对入侵数据检测率不高及对正常数据误判率较高的缺点,而且采用的Bagging集成算法适合大规模并行计算。
以上所述仅为本发明的具体实施方式,并不用以限制本发明,任何本发明所属领域内的技术人员,在本发明揭露的技术范围内,所作的修改或替换,都应涵盖在本发明的保护范围之内。

Claims (2)

1.一种适用于入侵检测的分类方法,其特征在于包括如下步骤:
1)对入侵检测标准数据集进行样本特征参数归一化处理;
2)在核空间对不均衡样本集混合采样改善类别均衡度;采用核SMOTE算法对少数类样本进行过采样处理,得到过采样样本集;对多数类样本集采用基于核的模糊C均值聚类算法进行欠采样得到欠采样样本集;将上述得到的过采样样本集与欠采样样本集合并得到新的训练用均衡样本集;
所述的步骤2)中采用核SMOTE算法对少数类样本进行过采样处理,具体为:
设待处理的少数类样本集为:F={x1,x2,...xn},xi∈Rh,i=1,2,…,n,核函数K(·)和非线性映射相关,其中H是特征向量空间,Rh是原始输入空间,映射是将集合F中的样本映射到特征向量空间H中;
步骤2.1.1:首先根据训练样本集中的多数类样本与少数类样本的样本差值,确定需要生成的人工样本的数目D;
步骤2.1.2:在特征向量空间中生成人工少数类样本:
步骤2.1.3:按照排列的序号顺序从中选取一个少数类样本xi∈Rh,i=1,2,…,n,求出该样本在特征向量空间中的k个少数类最近邻,最近邻求法如下:
对少数类样本按照di的值从小到大进行排列,选择排列前k个少数类样本,这k个样本就是xi的k个最近邻;
步骤2.1.4:随机在这k个少数类最近邻中选择一个样本xj,并且生成一个数值范围在(0,1)内的随机数λi
步骤2.1.5:在特征向量空间中利用距离法生成新的样本fi
步骤2.1.6:如果生成的人工少数样本数目不足,则重复步骤2.1.3到步骤2.1.5的过程,直到人工少数类样本的数目满足要求,至此少数类样本在核空间的过抽样算法结束;
3)在上述得到的训练用均衡样本集上,采用Bagging方法构建多个训练子集,并分别对每个训练子集用SVM基分类器进行学习,得到集成分类器;
4)分类器识别:在识别阶段,通过由步骤3)产生的基分类器来对测试集进行分类,最终预测结果采取加权投票得出。
2.根据权利要求1所述的适用于入侵检测的分类方法,其特征在于所述的对多数类样本集采用基于核的模糊C均值聚类算法进行欠采样,具体为:
设待处理的多数类样本集为:M={y1,y2,...ym},yi∈Rm×l,m为多数类样本数目,l为样本维数;
步骤2.2.1:采用与步骤2)中相同的核函数,计算多数类样本同少数类样本的相似矩阵Wm×p,其中m为多数类样本数目,p为少数类样本数目;
步骤2.2.2:计算每一个多数类样本与所有少数类的平均相似度向量Lm×1
步骤2.2.3:根据平均相似度向量Lm×1的从大到小排序得到M′;
步骤2.2.4:取M′中的前α×m个多数类样本G∈Rα×m×l作为待聚类样本进行聚类分析,其中α为边界样本的选取比例;
步骤2.2.5:通过对G={g1,g2,...gα×m}矩阵中的gi利用核模糊C均值聚类算法进行聚类形成C1,C2,…,Cq,其中q为聚类的个数;然后对每一个聚类,根据所确定的样本数,结合各个聚类的大小按照其占q个聚类总和大小的权值,从各个聚类中随机选取相应数量的样本,得到多数类欠抽样样本集。
CN201710207086.9A 2017-03-31 2017-03-31 一种适用于入侵检测的分类方法 Expired - Fee Related CN106973057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710207086.9A CN106973057B (zh) 2017-03-31 2017-03-31 一种适用于入侵检测的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710207086.9A CN106973057B (zh) 2017-03-31 2017-03-31 一种适用于入侵检测的分类方法

Publications (2)

Publication Number Publication Date
CN106973057A CN106973057A (zh) 2017-07-21
CN106973057B true CN106973057B (zh) 2018-12-14

Family

ID=59335573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710207086.9A Expired - Fee Related CN106973057B (zh) 2017-03-31 2017-03-31 一种适用于入侵检测的分类方法

Country Status (1)

Country Link
CN (1) CN106973057B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009249B (zh) * 2017-12-01 2020-08-18 北京中视广信科技有限公司 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法
CN108491474A (zh) * 2018-03-08 2018-09-04 平安科技(深圳)有限公司 一种数据分类方法、装置、设备及计算机可读存储介质
CN108875365B (zh) * 2018-04-22 2023-04-07 湖南省金盾信息安全等级保护评估中心有限公司 一种入侵检测方法及入侵检测检测装置
CN108810910A (zh) * 2018-05-23 2018-11-13 浙江工业大学 一种基于信道状态信息构建可视图网络的入侵检测方法
CN109543547B (zh) * 2018-10-26 2024-08-27 平安科技(深圳)有限公司 人脸图像识别方法、装置、设备及存储介质
CN109753742A (zh) * 2019-01-11 2019-05-14 哈尔滨工业大学(威海) 一种基于不均衡样本的航空发动机故障诊断方法、系统
CN111598116B (zh) * 2019-02-21 2024-01-23 杭州海康威视数字技术股份有限公司 数据分类方法、装置、电子设备及可读存储介质
CN110213222B (zh) * 2019-03-08 2021-12-10 东华大学 基于机器学习的网络入侵检测方法
CN109981624B (zh) * 2019-03-18 2021-07-16 中国科学院计算机网络信息中心 入侵检测方法、装置及存储介质
CN110191085B (zh) * 2019-04-09 2021-09-10 中国科学院计算机网络信息中心 基于多分类的入侵检测方法、装置及存储介质
CN110336789A (zh) * 2019-05-28 2019-10-15 北京邮电大学 基于混合学习的Domain-flux僵尸网络检测方法
CN110572382B (zh) * 2019-09-02 2021-05-18 西安电子科技大学 基于smote算法和集成学习的恶意流量检测方法
CN111242188B (zh) * 2020-01-06 2023-07-25 中国科学院计算机网络信息中心 入侵检测方法、装置及存储介质
CN111556016B (zh) * 2020-03-25 2021-02-26 中国科学院信息工程研究所 一种基于自动编码器的网络流量异常行为识别方法
CN111683048B (zh) * 2020-05-06 2021-05-07 浙江大学 一种基于多周期模型stacking的入侵检测系统
CN113191433B (zh) * 2021-05-06 2024-05-28 大路网络科技有限公司 一种数据分类方法、装置及设备
CN113450779B (zh) * 2021-06-23 2022-11-11 海信视像科技股份有限公司 语音模型训练数据集构建方法及装置
CN114118234A (zh) * 2021-11-09 2022-03-01 四川轻化工大学 多重特征选择和混合采样的CatBoost入侵检测方法
CN114661701A (zh) * 2022-03-16 2022-06-24 平安科技(深圳)有限公司 一种数据均衡化方法、装置、电子设备及存储介质
CN115022038A (zh) * 2022-05-31 2022-09-06 广东电网有限责任公司 一种电网网络异常检测方法、装置、设备及存储介质
CN115545111B (zh) * 2022-10-13 2023-05-30 重庆工商大学 一种基于聚类自适应混合采样的网络入侵检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156029A (zh) * 2015-03-24 2016-11-23 中国人民解放军国防科学技术大学 基于集成学习的多标签不平衡虚拟资产数据分类方法
CN106548196A (zh) * 2016-10-20 2017-03-29 中国科学院深圳先进技术研究院 一种针对非平衡数据的随机森林抽样方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101405718A (zh) * 2006-03-30 2009-04-08 卡尔斯特里姆保健公司 具有局部线性嵌入的smote算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156029A (zh) * 2015-03-24 2016-11-23 中国人民解放军国防科学技术大学 基于集成学习的多标签不平衡虚拟资产数据分类方法
CN106548196A (zh) * 2016-10-20 2017-03-29 中国科学院深圳先进技术研究院 一种针对非平衡数据的随机森林抽样方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于核空间预处理不均衡SVM算法及应用研究;郝思媛;《中国优秀硕士学位论文全文数据库信息科技辑》;20140415;第3章 *
基于过欠重抽样的类别非平衡SVM财务困境预测研究;吴凤娟;《中国优秀硕士学位论文全文数据库信息科技辑》;20170215;摘要及第3章至第4章 *

Also Published As

Publication number Publication date
CN106973057A (zh) 2017-07-21

Similar Documents

Publication Publication Date Title
CN106973057B (zh) 一种适用于入侵检测的分类方法
More et al. Review of random forest classification techniques to resolve data imbalance
WO2022126810A1 (zh) 文本聚类方法
CN103034691B (zh) 一种基于支持向量机的专家系统知识获取方法
CN114492768B (zh) 一种基于小样本学习的孪生胶囊网络入侵检测方法
CN105184316A (zh) 一种基于特征权学习的支持向量机电网业务分类方法
CN104657718A (zh) 一种基于人脸图像特征极限学习机的人脸识别方法
CN103632168A (zh) 一种机器学习中的分类器集成方法
CN106599913A (zh) 一种基于聚类的多标签不平衡生物医学数据分类方法
CN105574547B (zh) 适应动态调整基分类器权重的集成学习方法及装置
CN103678512A (zh) 一种动态数据环境下的数据流混合分类方法
CN108647707B (zh) 概率神经网络创建方法、故障诊断方法及装置、存储介质
CN101876987A (zh) 一种面向类间交叠的两类文本分类方法
CN102156871A (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN107145778B (zh) 一种入侵检测方法及装置
CN104182621A (zh) 基于深度信念网络的adhd判别分析方法
CN110134719A (zh) 一种结构化数据敏感属性的识别与分类分级方法
CN110377605A (zh) 一种结构化数据的敏感属性识别与分类分级方法
CN110458189A (zh) 压缩感知和深度卷积神经网络电能质量扰动分类方法
Cheng et al. Effort-aware cross-project just-in-time defect prediction framework for mobile apps
Wozniak et al. Designing combining classifier with trained fuser—Analytical and experimental evaluation
CN103902706A (zh) 一种基于svm的大数据分类预测方法
CN109471941A (zh) 一种应对类别不平衡的罪名分类方法
CN110516741A (zh) 基于动态分类器选择的类别重叠不平衡数据分类方法
Salawu et al. A chi-square-SVM based pedagogical rule extraction method for microarray data analysis

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zhang Shi

Inventor after: Shen Haibin

Inventor after: She Bin

Inventor after: Sun Shichun

Inventor before: Shen Haibin

Inventor before: She Bin

Inventor before: Sun Shichun

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181214

Termination date: 20190331

CF01 Termination of patent right due to non-payment of annual fee