CN112749739A - 一种网络入侵检测方法 - Google Patents
一种网络入侵检测方法 Download PDFInfo
- Publication number
- CN112749739A CN112749739A CN202011619536.3A CN202011619536A CN112749739A CN 112749739 A CN112749739 A CN 112749739A CN 202011619536 A CN202011619536 A CN 202011619536A CN 112749739 A CN112749739 A CN 112749739A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- selecting
- calculating
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000001681 protective effect Effects 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种网络入侵检测方法,对KDD cup99数据集中的数据实施数值化处理,并进行数值标准化;划分数据集为训练集和测试集;选取测试集数据,计算其与训练集中各数据的欧式距离;选取距离最小的K条训练集数据,统计所述K条训练数据集数据所在的类别出现的频率;将出现频率最高的类别作为被选取测试集数据的预测分类;采用ROC曲线计算正确分类与错误分类的比例,选取准确度最高的K值。本发明基于KDD Cup 99数据集训练得到正常数据和入侵数据的模型,不仅可以根据模型检测识别已知类型的网络攻击,还可以通过实时数据流与训练模型的差异,对可能存在的未知的网络攻击加以区分,有助于及时发现并采取相应的防护措施。
Description
技术领域
本发明属于网络安全技术领域,具体地说,是涉及一种网络攻击检测方法。
背景技术
近年来,随着网络入侵检测技术的发展,以及得益于人工智能的快速发展,基于新型机器学习算法的入侵检测也逐渐成为人们研究的热点。
KDD Cup 99数据集自从诞生以来,就被当做评估各种入侵检测算法在性能和漏检误检率方面优劣的标准。
然而,目前对于KDD Cup 99数据集的应用与研究,由于数据集中每条网络连接的41个特征属性的一部分存在提取难度较大的问题,使得研究还仅限于对分类器效能的评估与离线入侵检测,对于在实际网络环境中的应用还没有具体方法。
发明内容
本发明的目的在于提供一种网络攻击检测方法,解决实际网络环境中特征提取困难的问题,为在真实网络环境中运用KDD Cup 99数据集实现在线入侵检测奠定基础。
本发明采用以下技术方案予以实现:
提出一种网络入侵检测方法,包括:对KDD cup 99数据集中的数据实施数值化处理,并进行数值标准化;划分数据集为训练集和测试集;选取测试集数据,计算其与训练集中各数据的欧式距离;选取距离最小的K条训练集数据,统计所述K条训练数据集数据所在的类别出现的频率;将出现频率最高的类别作为被选取测试集数据的预测分类;采用ROC曲线计算正确分类与错误分类的比例,选取准确度最高的K值。
进一步的,对KDD Cup 99数据集中的样本实施数值化处理包括:将字符特征转换为数值;以数据为行,特征数值为列建立数据矩阵。
进一步的,进行数值标准化,包括:采用计算各特征的平均值;其中,xik表示第i条数据的第k个特征;采用计算各特征的平均绝对误差;采用对每条数据的每个特征进行标准化度量;采用将标准化后的每个数据归一化到[0,1]区间,其中,max为数据特征的最大值,min为数据特征的最小值。
与现有技术相比,本发明的优点和积极效果是:本发明提出的网络入侵检测方法,基于KDD Cup 99数据集训练得到正常数据和入侵数据的模型,不仅可以根据模型检测识别已知类型的网络攻击,还可以通过实时数据流与训练模型的差异,对可能存在的未知的网络攻击加以区分,有助于及时发现并采取相应的防护措施,并且可以将使用场景中的网络历史数据作为训练集,对模型进行迭代训练,以便更好的适应当前场景。
结合附图阅读本发明实施方式的详细描述后,本发明的其他特点和优点将变得更加清楚。
附图说明
图1为本发明提出的网络入侵检测方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步详细的说明。
如图1所示,本发明提出的网络入侵检测方法,包括:
步骤S11:对KDD cup 99数据集中的数据实施数值化处理,并进行数值标准化。
1、将KDD Cup 99数据集中,协议类型、网络服务类型、网络连接状态、供给类型等特征的字符串格式转换为数值类型。
2、以数据为行,特征数值为列建立数据矩阵。
以数据的行数为n,建立一个n行41列的矩阵,将数据文件中的数据读取到矩阵中。
将数据转换为均值为0,方差为1的正态分布。
步骤S12:划分数据集为训练集和测试集。
将数据按照“60%用于训练,40%用于测试”为比例分成两个集合。
步骤S13:选取测试集数据,计算其与训练集中各数据的欧式距离。
针对测试集中每个数据i,均计算其与训练集中各数据j的欧式距离Dij。
步骤S14:选取距离最小的K条训练集数据。
针对每个测试集中的数据i,将与训练集中各数据的欧式距离按照递增次序排序,选取距离最小的前K条训练集数据。
步骤S15:统计K条训练数据集数据所在的类别出现的频率。
每条数据中的每个特征均具备攻击类别,本步骤中统计K条临近的训练数据所在的类别出现的概率,例如类别1出现概率为10%,类别2出现概率为20%,类别3出现概率为70%等。
步骤S16:将出现频率最高的类别作为被选取测试集数据的预测分类。
按照上述的实施例,将类别3作为被选取测试数据的预测分类。
步骤S17:采用ROC曲线评估,选取准确度最高的K值。
采用ROC(Receiver Operating Characteristic,受试者工作特征曲线)计算正确分类与错误分类的比例,调整训练参数K,用以改进模型。
通过上述手段建立的模型,不仅可以根据模型检测识别已知类型的网络攻击,还可以通过实时数据流与模型的差异,对可能存在的未知的网络攻击加以区分,有助于及时发现并采取相应的防护措施,并且可以将使用场景中的网络历史数据作为训练集,对模型进行迭代训练,以便更好的适应当前场景。
应该指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (3)
1.一种网络入侵检测方法,其特征在于,包括:
对KDD cup 99数据集中的数据实施数值化处理,并进行数值标准化;
划分数据集为训练集和测试集;
选取测试集数据,计算其与训练集中各数据的欧式距离;
选取距离最小的K条训练集数据,统计所述K条训练数据集数据所在的类别出现的频率;
将出现频率最高的类别作为被选取测试集数据的预测分类;
采用ROC曲线计算正确分类与错误分类的比例,选取准确度最高的K值。
2.根据权利要求1所述的网络入侵检测方法,其特征在于,对KDD Cup 99数据集中的样本实施数值化处理包括:
将字符特征转换为数值;
以数据为行,特征数值为列建立数据矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011619536.3A CN112749739A (zh) | 2020-12-31 | 2020-12-31 | 一种网络入侵检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011619536.3A CN112749739A (zh) | 2020-12-31 | 2020-12-31 | 一种网络入侵检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112749739A true CN112749739A (zh) | 2021-05-04 |
Family
ID=75650189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011619536.3A Pending CN112749739A (zh) | 2020-12-31 | 2020-12-31 | 一种网络入侵检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749739A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106973038A (zh) * | 2017-02-27 | 2017-07-21 | 同济大学 | 基于遗传算法过采样支持向量机的网络入侵检测方法 |
CN107895171A (zh) * | 2017-10-31 | 2018-04-10 | 天津大学 | 一种基于k均值与深度置信网络的入侵检测方法 |
CN108600246A (zh) * | 2018-05-04 | 2018-09-28 | 浙江工业大学 | 一种基于knn算法的网络入侵检测并行化加速方法 |
CN109784966A (zh) * | 2018-11-29 | 2019-05-21 | 昆明理工大学 | 一种音乐网站客户流失预测方法 |
CN110070141A (zh) * | 2019-04-28 | 2019-07-30 | 上海海事大学 | 一种网络入侵检测方法 |
CN110719279A (zh) * | 2019-10-09 | 2020-01-21 | 东北大学 | 基于神经网络的网络异常检测系统及检测方法 |
CN112104602A (zh) * | 2020-08-04 | 2020-12-18 | 广东工业大学 | 一种基于cnn迁移学习的网络入侵检测方法 |
-
2020
- 2020-12-31 CN CN202011619536.3A patent/CN112749739A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106973038A (zh) * | 2017-02-27 | 2017-07-21 | 同济大学 | 基于遗传算法过采样支持向量机的网络入侵检测方法 |
CN107895171A (zh) * | 2017-10-31 | 2018-04-10 | 天津大学 | 一种基于k均值与深度置信网络的入侵检测方法 |
CN108600246A (zh) * | 2018-05-04 | 2018-09-28 | 浙江工业大学 | 一种基于knn算法的网络入侵检测并行化加速方法 |
CN109784966A (zh) * | 2018-11-29 | 2019-05-21 | 昆明理工大学 | 一种音乐网站客户流失预测方法 |
CN110070141A (zh) * | 2019-04-28 | 2019-07-30 | 上海海事大学 | 一种网络入侵检测方法 |
CN110719279A (zh) * | 2019-10-09 | 2020-01-21 | 东北大学 | 基于神经网络的网络异常检测系统及检测方法 |
CN112104602A (zh) * | 2020-08-04 | 2020-12-18 | 广东工业大学 | 一种基于cnn迁移学习的网络入侵检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729090B (zh) | 一种基于wedms聚类的慢速拒绝服务攻击检测方法 | |
WO2017143932A1 (zh) | 基于样本聚类的欺诈交易检测方法 | |
CN107579846B (zh) | 一种云计算故障数据检测方法及系统 | |
CN111800430B (zh) | 一种攻击团伙识别方法、装置、设备及介质 | |
CN113542241B (zh) | 一种基于CNN-BiGRU混合模型的入侵检测方法及装置 | |
CN112732748B (zh) | 一种基于自适应特征选择的非侵入式家电负荷识别方法 | |
CN111191720A (zh) | 一种业务场景的识别方法、装置及电子设备 | |
CN116434250B (zh) | 一种手写字符图像相似度确定模型训练方法 | |
CN115858794B (zh) | 用于网络运行安全监测的异常日志数据识别方法 | |
CN117478390A (zh) | 一种基于改进密度峰值聚类算法的网络入侵检测方法 | |
CN111833175A (zh) | 基于knn算法的互联网金融平台申请欺诈行为检测方法 | |
CN113762377A (zh) | 网络流量识别方法、装置、设备及存储介质 | |
CN115952067A (zh) | 一种数据库操作异常行为检测方法及可读存储介质 | |
CN112288561A (zh) | 基于dbscan算法的互联网金融欺诈行为检测方法 | |
CN116170208A (zh) | 一种基于半监督isodata算法的网络入侵实时检测方法 | |
CN112422546A (zh) | 一种基于变邻域算法和模糊聚类的网络异常检测方法 | |
CN113033345A (zh) | 基于公共特征子空间的v2v视频人脸识别方法 | |
CN109508350B (zh) | 一种对数据进行采样的方法和装置 | |
CN117014193A (zh) | 一种基于行为基线的未知Web攻击检测方法 | |
CN112749739A (zh) | 一种网络入侵检测方法 | |
CN115310565B (zh) | 一种基于人工智能的网络安全监控方法 | |
CN115659323A (zh) | 一种基于信息熵理论结合卷积神经网络的入侵检测方法 | |
CN115883182A (zh) | 一种提高网络安全态势要素识别效率的方法及系统 | |
CN114124437B (zh) | 基于原型卷积网络的加密流量识别方法 | |
CN112014821B (zh) | 一种基于雷达宽带特征的未知车辆目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210504 |