CN112749739A - 一种网络入侵检测方法 - Google Patents

一种网络入侵检测方法 Download PDF

Info

Publication number
CN112749739A
CN112749739A CN202011619536.3A CN202011619536A CN112749739A CN 112749739 A CN112749739 A CN 112749739A CN 202011619536 A CN202011619536 A CN 202011619536A CN 112749739 A CN112749739 A CN 112749739A
Authority
CN
China
Prior art keywords
data
training
selecting
calculating
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011619536.3A
Other languages
English (en)
Inventor
邓海刚
王正
徐本锡
章森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianbo Electronic Information Technology Co ltd
Original Assignee
Tianbo Electronic Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianbo Electronic Information Technology Co ltd filed Critical Tianbo Electronic Information Technology Co ltd
Priority to CN202011619536.3A priority Critical patent/CN112749739A/zh
Publication of CN112749739A publication Critical patent/CN112749739A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络入侵检测方法,对KDD cup99数据集中的数据实施数值化处理,并进行数值标准化;划分数据集为训练集和测试集;选取测试集数据,计算其与训练集中各数据的欧式距离;选取距离最小的K条训练集数据,统计所述K条训练数据集数据所在的类别出现的频率;将出现频率最高的类别作为被选取测试集数据的预测分类;采用ROC曲线计算正确分类与错误分类的比例,选取准确度最高的K值。本发明基于KDD Cup 99数据集训练得到正常数据和入侵数据的模型,不仅可以根据模型检测识别已知类型的网络攻击,还可以通过实时数据流与训练模型的差异,对可能存在的未知的网络攻击加以区分,有助于及时发现并采取相应的防护措施。

Description

一种网络入侵检测方法
技术领域
本发明属于网络安全技术领域,具体地说,是涉及一种网络攻击检测方法。
背景技术
近年来,随着网络入侵检测技术的发展,以及得益于人工智能的快速发展,基于新型机器学习算法的入侵检测也逐渐成为人们研究的热点。
KDD Cup 99数据集自从诞生以来,就被当做评估各种入侵检测算法在性能和漏检误检率方面优劣的标准。
然而,目前对于KDD Cup 99数据集的应用与研究,由于数据集中每条网络连接的41个特征属性的一部分存在提取难度较大的问题,使得研究还仅限于对分类器效能的评估与离线入侵检测,对于在实际网络环境中的应用还没有具体方法。
发明内容
本发明的目的在于提供一种网络攻击检测方法,解决实际网络环境中特征提取困难的问题,为在真实网络环境中运用KDD Cup 99数据集实现在线入侵检测奠定基础。
本发明采用以下技术方案予以实现:
提出一种网络入侵检测方法,包括:对KDD cup 99数据集中的数据实施数值化处理,并进行数值标准化;划分数据集为训练集和测试集;选取测试集数据,计算其与训练集中各数据的欧式距离;选取距离最小的K条训练集数据,统计所述K条训练数据集数据所在的类别出现的频率;将出现频率最高的类别作为被选取测试集数据的预测分类;采用ROC曲线计算正确分类与错误分类的比例,选取准确度最高的K值。
进一步的,对KDD Cup 99数据集中的样本实施数值化处理包括:将字符特征转换为数值;以数据为行,特征数值为列建立数据矩阵。
进一步的,进行数值标准化,包括:采用
Figure BDA0002875783920000021
计算各特征的平均值;其中,xik表示第i条数据的第k个特征;采用
Figure BDA0002875783920000022
计算各特征的平均绝对误差;采用
Figure BDA0002875783920000023
对每条数据的每个特征进行标准化度量;采用
Figure BDA0002875783920000024
将标准化后的每个数据归一化到[0,1]区间,其中,max为数据特征的最大值,min为数据特征的最小值。
与现有技术相比,本发明的优点和积极效果是:本发明提出的网络入侵检测方法,基于KDD Cup 99数据集训练得到正常数据和入侵数据的模型,不仅可以根据模型检测识别已知类型的网络攻击,还可以通过实时数据流与训练模型的差异,对可能存在的未知的网络攻击加以区分,有助于及时发现并采取相应的防护措施,并且可以将使用场景中的网络历史数据作为训练集,对模型进行迭代训练,以便更好的适应当前场景。
结合附图阅读本发明实施方式的详细描述后,本发明的其他特点和优点将变得更加清楚。
附图说明
图1为本发明提出的网络入侵检测方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步详细的说明。
如图1所示,本发明提出的网络入侵检测方法,包括:
步骤S11:对KDD cup 99数据集中的数据实施数值化处理,并进行数值标准化。
1、将KDD Cup 99数据集中,协议类型、网络服务类型、网络连接状态、供给类型等特征的字符串格式转换为数值类型。
2、以数据为行,特征数值为列建立数据矩阵。
以数据的行数为n,建立一个n行41列的矩阵,将数据文件中的数据读取到矩阵中。
3、采用
Figure BDA0002875783920000031
计算各特征的平均值;其中,xik表示第i条数据的第k个特征。
4、采用
Figure BDA0002875783920000032
计算各特征的平均绝对误差。
5、采用
Figure BDA0002875783920000033
对每条数据的每个特征进行标准化度量;
6、采用
Figure BDA0002875783920000034
将标准化后的每个数据归一化到[0,1]区间,其中,max为数据特征的最大值,min为数据特征的最小值。
将数据转换为均值为0,方差为1的正态分布。
步骤S12:划分数据集为训练集和测试集。
将数据按照“60%用于训练,40%用于测试”为比例分成两个集合。
步骤S13:选取测试集数据,计算其与训练集中各数据的欧式距离。
针对测试集中每个数据i,均计算其与训练集中各数据j的欧式距离Dij
步骤S14:选取距离最小的K条训练集数据。
针对每个测试集中的数据i,将与训练集中各数据的欧式距离按照递增次序排序,选取距离最小的前K条训练集数据。
步骤S15:统计K条训练数据集数据所在的类别出现的频率。
每条数据中的每个特征均具备攻击类别,本步骤中统计K条临近的训练数据所在的类别出现的概率,例如类别1出现概率为10%,类别2出现概率为20%,类别3出现概率为70%等。
步骤S16:将出现频率最高的类别作为被选取测试集数据的预测分类。
按照上述的实施例,将类别3作为被选取测试数据的预测分类。
步骤S17:采用ROC曲线评估,选取准确度最高的K值。
采用ROC(Receiver Operating Characteristic,受试者工作特征曲线)计算正确分类与错误分类的比例,调整训练参数K,用以改进模型。
通过上述手段建立的模型,不仅可以根据模型检测识别已知类型的网络攻击,还可以通过实时数据流与模型的差异,对可能存在的未知的网络攻击加以区分,有助于及时发现并采取相应的防护措施,并且可以将使用场景中的网络历史数据作为训练集,对模型进行迭代训练,以便更好的适应当前场景。
应该指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (3)

1.一种网络入侵检测方法,其特征在于,包括:
对KDD cup 99数据集中的数据实施数值化处理,并进行数值标准化;
划分数据集为训练集和测试集;
选取测试集数据,计算其与训练集中各数据的欧式距离;
选取距离最小的K条训练集数据,统计所述K条训练数据集数据所在的类别出现的频率;
将出现频率最高的类别作为被选取测试集数据的预测分类;
采用ROC曲线计算正确分类与错误分类的比例,选取准确度最高的K值。
2.根据权利要求1所述的网络入侵检测方法,其特征在于,对KDD Cup 99数据集中的样本实施数值化处理包括:
将字符特征转换为数值;
以数据为行,特征数值为列建立数据矩阵。
3.根据权利要求2所述的网络入侵检测方法,其特征在于,进行数值标准化,包括:
采用
Figure FDA0002875783910000011
计算各特征的平均值;其中,xik表示第i条数据的第k个特征;
采用
Figure FDA0002875783910000012
计算各特征的平均绝对误差;
采用
Figure FDA0002875783910000013
对每条数据的每个特征进行标准化度量;
采用
Figure FDA0002875783910000014
将标准化后的每个数据归一化到[0,1]区间,其中,max为数据特征的最大值,min为数据特征的最小值。
CN202011619536.3A 2020-12-31 2020-12-31 一种网络入侵检测方法 Pending CN112749739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011619536.3A CN112749739A (zh) 2020-12-31 2020-12-31 一种网络入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011619536.3A CN112749739A (zh) 2020-12-31 2020-12-31 一种网络入侵检测方法

Publications (1)

Publication Number Publication Date
CN112749739A true CN112749739A (zh) 2021-05-04

Family

ID=75650189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011619536.3A Pending CN112749739A (zh) 2020-12-31 2020-12-31 一种网络入侵检测方法

Country Status (1)

Country Link
CN (1) CN112749739A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106973038A (zh) * 2017-02-27 2017-07-21 同济大学 基于遗传算法过采样支持向量机的网络入侵检测方法
CN107895171A (zh) * 2017-10-31 2018-04-10 天津大学 一种基于k均值与深度置信网络的入侵检测方法
CN108600246A (zh) * 2018-05-04 2018-09-28 浙江工业大学 一种基于knn算法的网络入侵检测并行化加速方法
CN109784966A (zh) * 2018-11-29 2019-05-21 昆明理工大学 一种音乐网站客户流失预测方法
CN110070141A (zh) * 2019-04-28 2019-07-30 上海海事大学 一种网络入侵检测方法
CN110719279A (zh) * 2019-10-09 2020-01-21 东北大学 基于神经网络的网络异常检测系统及检测方法
CN112104602A (zh) * 2020-08-04 2020-12-18 广东工业大学 一种基于cnn迁移学习的网络入侵检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106973038A (zh) * 2017-02-27 2017-07-21 同济大学 基于遗传算法过采样支持向量机的网络入侵检测方法
CN107895171A (zh) * 2017-10-31 2018-04-10 天津大学 一种基于k均值与深度置信网络的入侵检测方法
CN108600246A (zh) * 2018-05-04 2018-09-28 浙江工业大学 一种基于knn算法的网络入侵检测并行化加速方法
CN109784966A (zh) * 2018-11-29 2019-05-21 昆明理工大学 一种音乐网站客户流失预测方法
CN110070141A (zh) * 2019-04-28 2019-07-30 上海海事大学 一种网络入侵检测方法
CN110719279A (zh) * 2019-10-09 2020-01-21 东北大学 基于神经网络的网络异常检测系统及检测方法
CN112104602A (zh) * 2020-08-04 2020-12-18 广东工业大学 一种基于cnn迁移学习的网络入侵检测方法

Similar Documents

Publication Publication Date Title
CN109729090B (zh) 一种基于wedms聚类的慢速拒绝服务攻击检测方法
WO2017143932A1 (zh) 基于样本聚类的欺诈交易检测方法
CN107579846B (zh) 一种云计算故障数据检测方法及系统
CN111800430B (zh) 一种攻击团伙识别方法、装置、设备及介质
CN113542241B (zh) 一种基于CNN-BiGRU混合模型的入侵检测方法及装置
CN112732748B (zh) 一种基于自适应特征选择的非侵入式家电负荷识别方法
CN111191720A (zh) 一种业务场景的识别方法、装置及电子设备
CN116434250B (zh) 一种手写字符图像相似度确定模型训练方法
CN115858794B (zh) 用于网络运行安全监测的异常日志数据识别方法
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN111833175A (zh) 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN113762377A (zh) 网络流量识别方法、装置、设备及存储介质
CN115952067A (zh) 一种数据库操作异常行为检测方法及可读存储介质
CN112288561A (zh) 基于dbscan算法的互联网金融欺诈行为检测方法
CN116170208A (zh) 一种基于半监督isodata算法的网络入侵实时检测方法
CN112422546A (zh) 一种基于变邻域算法和模糊聚类的网络异常检测方法
CN113033345A (zh) 基于公共特征子空间的v2v视频人脸识别方法
CN109508350B (zh) 一种对数据进行采样的方法和装置
CN117014193A (zh) 一种基于行为基线的未知Web攻击检测方法
CN112749739A (zh) 一种网络入侵检测方法
CN115310565B (zh) 一种基于人工智能的网络安全监控方法
CN115659323A (zh) 一种基于信息熵理论结合卷积神经网络的入侵检测方法
CN115883182A (zh) 一种提高网络安全态势要素识别效率的方法及系统
CN114124437B (zh) 基于原型卷积网络的加密流量识别方法
CN112014821B (zh) 一种基于雷达宽带特征的未知车辆目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210504