CN112749739A

CN112749739A - 一种网络入侵检测方法

Info

Publication number: CN112749739A
Application number: CN202011619536.3A
Authority: CN
Inventors: 邓海刚; 王正; 徐本锡; 章森
Original assignee: Tianbo Electronic Information Technology Co ltd
Current assignee: Tianbo Electronic Information Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-04

Abstract

本发明公开了一种网络入侵检测方法，对KDD cup99数据集中的数据实施数值化处理，并进行数值标准化；划分数据集为训练集和测试集；选取测试集数据，计算其与训练集中各数据的欧式距离；选取距离最小的K条训练集数据，统计所述K条训练数据集数据所在的类别出现的频率；将出现频率最高的类别作为被选取测试集数据的预测分类；采用ROC曲线计算正确分类与错误分类的比例，选取准确度最高的K值。本发明基于KDD Cup 99数据集训练得到正常数据和入侵数据的模型，不仅可以根据模型检测识别已知类型的网络攻击，还可以通过实时数据流与训练模型的差异，对可能存在的未知的网络攻击加以区分，有助于及时发现并采取相应的防护措施。

Description

一种网络入侵检测方法

技术领域

本发明属于网络安全技术领域，具体地说，是涉及一种网络攻击检测方法。

背景技术

近年来，随着网络入侵检测技术的发展，以及得益于人工智能的快速发展，基于新型机器学习算法的入侵检测也逐渐成为人们研究的热点。

KDD Cup 99数据集自从诞生以来，就被当做评估各种入侵检测算法在性能和漏检误检率方面优劣的标准。

然而，目前对于KDD Cup 99数据集的应用与研究，由于数据集中每条网络连接的41个特征属性的一部分存在提取难度较大的问题，使得研究还仅限于对分类器效能的评估与离线入侵检测，对于在实际网络环境中的应用还没有具体方法。

发明内容

本发明的目的在于提供一种网络攻击检测方法，解决实际网络环境中特征提取困难的问题，为在真实网络环境中运用KDD Cup 99数据集实现在线入侵检测奠定基础。

本发明采用以下技术方案予以实现：

提出一种网络入侵检测方法，包括：对KDD cup 99数据集中的数据实施数值化处理，并进行数值标准化；划分数据集为训练集和测试集；选取测试集数据，计算其与训练集中各数据的欧式距离；选取距离最小的K条训练集数据，统计所述K条训练数据集数据所在的类别出现的频率；将出现频率最高的类别作为被选取测试集数据的预测分类；采用ROC曲线计算正确分类与错误分类的比例，选取准确度最高的K值。

进一步的，对KDD Cup 99数据集中的样本实施数值化处理包括：将字符特征转换为数值；以数据为行，特征数值为列建立数据矩阵。

进一步的，进行数值标准化，包括：采用

计算各特征的平均值；其中，x_ik表示第i条数据的第k个特征；采用

计算各特征的平均绝对误差；采用

对每条数据的每个特征进行标准化度量；采用

将标准化后的每个数据归一化到[0，1]区间，其中，max为数据特征的最大值，min为数据特征的最小值。

与现有技术相比，本发明的优点和积极效果是：本发明提出的网络入侵检测方法，基于KDD Cup 99数据集训练得到正常数据和入侵数据的模型，不仅可以根据模型检测识别已知类型的网络攻击，还可以通过实时数据流与训练模型的差异，对可能存在的未知的网络攻击加以区分，有助于及时发现并采取相应的防护措施，并且可以将使用场景中的网络历史数据作为训练集，对模型进行迭代训练，以便更好的适应当前场景。

结合附图阅读本发明实施方式的详细描述后，本发明的其他特点和优点将变得更加清楚。

附图说明

图1为本发明提出的网络入侵检测方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步详细的说明。

如图1所示，本发明提出的网络入侵检测方法，包括：

步骤S11：对KDD cup 99数据集中的数据实施数值化处理，并进行数值标准化。

1、将KDD Cup 99数据集中，协议类型、网络服务类型、网络连接状态、供给类型等特征的字符串格式转换为数值类型。

2、以数据为行，特征数值为列建立数据矩阵。

以数据的行数为n，建立一个n行41列的矩阵，将数据文件中的数据读取到矩阵中。

3、采用

计算各特征的平均值；其中，x_ik表示第i条数据的第k个特征。

4、采用

计算各特征的平均绝对误差。

5、采用

对每条数据的每个特征进行标准化度量；

6、采用

将数据转换为均值为0，方差为1的正态分布。

步骤S12：划分数据集为训练集和测试集。

将数据按照“60％用于训练，40％用于测试”为比例分成两个集合。

步骤S13：选取测试集数据，计算其与训练集中各数据的欧式距离。

针对测试集中每个数据i，均计算其与训练集中各数据j的欧式距离D_ij。

步骤S14：选取距离最小的K条训练集数据。

针对每个测试集中的数据i，将与训练集中各数据的欧式距离按照递增次序排序，选取距离最小的前K条训练集数据。

步骤S15：统计K条训练数据集数据所在的类别出现的频率。

每条数据中的每个特征均具备攻击类别，本步骤中统计K条临近的训练数据所在的类别出现的概率，例如类别1出现概率为10％，类别2出现概率为20％，类别3出现概率为70％等。

步骤S16：将出现频率最高的类别作为被选取测试集数据的预测分类。

按照上述的实施例，将类别3作为被选取测试数据的预测分类。

步骤S17：采用ROC曲线评估，选取准确度最高的K值。

采用ROC(Receiver Operating Characteristic，受试者工作特征曲线)计算正确分类与错误分类的比例，调整训练参数K,用以改进模型。

通过上述手段建立的模型，不仅可以根据模型检测识别已知类型的网络攻击，还可以通过实时数据流与模型的差异，对可能存在的未知的网络攻击加以区分，有助于及时发现并采取相应的防护措施，并且可以将使用场景中的网络历史数据作为训练集，对模型进行迭代训练，以便更好的适应当前场景。

应该指出的是，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种网络入侵检测方法，其特征在于，包括：

对KDD cup 99数据集中的数据实施数值化处理，并进行数值标准化；

划分数据集为训练集和测试集；

选取测试集数据，计算其与训练集中各数据的欧式距离；

选取距离最小的K条训练集数据，统计所述K条训练数据集数据所在的类别出现的频率；

将出现频率最高的类别作为被选取测试集数据的预测分类；

采用ROC曲线计算正确分类与错误分类的比例，选取准确度最高的K值。

2.根据权利要求1所述的网络入侵检测方法，其特征在于，对KDD Cup 99数据集中的样本实施数值化处理包括：

将字符特征转换为数值；

以数据为行，特征数值为列建立数据矩阵。

3.根据权利要求2所述的网络入侵检测方法，其特征在于，进行数值标准化，包括：

采用

计算各特征的平均值；其中，x_ik表示第i条数据的第k个特征；

采用

计算各特征的平均绝对误差；

采用

对每条数据的每个特征进行标准化度量；

采用

将标准化后的每个数据归一化到[0,1]区间，其中，max为数据特征的最大值，min为数据特征的最小值。