CN115021997A

CN115021997A - 一种基于机器学习的网络入侵检测系统

Info

Publication number: CN115021997A
Application number: CN202210590554.6A
Authority: CN
Inventors: 黄文科
Original assignee: Guangzhou Zhongnan Network Technology Co ltd
Current assignee: Guangzhou Zhongnan Network Technology Co ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-09-06
Anticipated expiration: 2042-05-26
Also published as: CN115021997B

Abstract

本发明公开了一种基于机器学习的网络入侵检测系统，属于入侵检测技术领域，包括初始样本数据模块、数据获取模块、数据预处理模块、数据存储模块、机器学习模块、入侵检测模块、反馈告警模块和安全管理模块；本发明借助卷积神经网络在图像识别上有较出色的能力，通过将入侵检测问题转换为图像检测问题，从而有利于提高网络入侵行为检测的准确率和检出率，同时降低误报率，能够更加直观的将拦截信息以及网络入侵行为比例反馈给工作人员，提高工作人员分析效率，同时自行对恶意IP地址启动数据拦截，大幅提高计算机运行稳定性。

Description

一种基于机器学习的网络入侵检测系统

技术领域

本发明涉及入侵检测技术领域，尤其涉及一种基于机器学习的网络入侵检测系统。

背景技术

随着互联网的快速发展，通信网络和信息系统成为一个脆弱的容易受到多种网络类型攻击的对象，网络安全变得越来越受关注，网络安全的威胁日益增加；现如今，虽然靠着防火墙与防毒病毒可控管大部分意图入侵计算机系统者的恶意入侵，但部分黑客仍可突破防火墙入侵计算机系统；网络入侵检测系统(Intrusion Detection System，IDS)技术遂发展成为保护计算机系统免于被窃取数据或恶意破坏计算机的重要技术，由入侵检测系统搭配防火墙可有效防止来自于外部网络或内部网络的恶意入侵动作；入侵检测系统主要是通过监视与分析计算机系统的网络活动，由分析接收的所有网络封包，发现系统中未授权或异常的网络封包活动，并于遭受入侵活动时，实时对异常的存取行为发出警报，并将统计分析的结果记录于报表；目前，入侵检测系统虽然有广泛的应用，但是仍然存在一定的问题，其误报率和漏报率都较高；机器学习，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，随着机器学习技术的不断发展，如何将其应用到网络入侵检测以降低误报率和漏报率成为当下研究重点；因此，发明出一种基于机器学习的网络入侵检测系统变得尤为重要；

经检索，中国专利号CN110162968A公开了一种基于机器学习的网络入侵检测系统，该发明通过聚类算法是对入侵数据进行有效的聚类检测，该发明虽然具有一定的可行性，但基于聚类算法的入侵检测技术误报率和漏报率都较高，并且准确率较低，因而不适用大规模入侵检测，易导致系统响应时间较慢，此外，现有的基于机器学习的网络入侵检测系统无法直观的将拦截信息反馈给工作人员，降低工作人员分析效率；为此，我们提出一种基于机器学习的网络入侵检测系统。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷，而提出的一种基于机器学习的网络入侵检测系统。

为了实现上述目的，本发明采用了如下技术方案：

一种基于机器学习的网络入侵检测系统，包括初始样本数据模块、数据获取模块、数据预处理模块、数据存储模块、机器学习模块、入侵检测模块、反馈告警模块和安全管理模块；

初始样本数据模块用于获取NSL-KDD数据集，所述NSL-KDD数据集包括41类特征，即符号类特征、二进制特征和数值型特征；

数据获取模块用于提取实时获取网络通信状态下的网络流量数据包；

数据预处理模块用于对所述NSL-KDD数据集进行符值转换、归一化处理和特征降维，将特征变为0到1区间内；

数据存储模块用于存储经过数据预处理后的所述NSL-KDD数据集；

机器学习模块用于根据所述NSL-KDD数据集进行学习训练，生成网络入侵检测模型；

入侵检测模块用于利用所述网络入侵检测模型对数据获取模块获取到的网络流量数据包进行入侵检测，识别网络入侵行为；

反馈告警模块用于获取网络入侵行为并根据其进行反馈告警，形成反馈告警信息；

安全管理模块用于系统管理人员根据所述反馈告警信息进行计算机安全管理，保障用户计算机安全。

进一步地，所述符值转换采用独立编码器将所述NSL-KDD数据集中非二进制的数据转换为二进制；所述归一化处理用于通过Min-Max归一化方法将所述NSL-KDD数据集转换至0到1区间内，所述Min-Max归一化方法的转换函数如下：

式中：x_new表示归一化后的数据；x表示NSL-KDD数据集的特征数据；x_max表示特征数据的最大值；x_min特征数据的最小值。

进一步地，所述特征降维通过方差系数实现，其具体函数公式如下：

式中：σ表示特征数据的标准差；μ表示特征数据的均值；CV表示特征数据的方差系数，若方差系数越大，则表示越重要，反之，则表示不重要，予以剔除。

进一步地，所述机器学习模块的具体处理过程如下：

S1：首先，将所述NSL-KDD数据集的特征数据转换为21*21图像格式的特征，形成样本特征图；

S2：然后，对所述样本特征图进行人工标记，并将其划分为训练集和测试集；

S3：接着，构建卷积神经网络，并将所述训练集通过输入、卷积、池化、全连接和输出进行学习训练，得到网络入侵检测模型；

S4：之后，利用所述测试集对网络入侵检测模型进行测试，若测试准确率满足期望值，则停止训练，反之继续上述步骤；

S5：最后，对满足期望值的网络入侵检测模型进行性能评估，即进行准确率、检出率和误报率评估。

进一步地，所述网络入侵检测模型采用焦点损失函数进行损失计算，其具体公式如下：

FL(p_i)＝-α(1-p_i)^γlog(p_i) (3)

式中：p_i表示预测值；α表示权重因子；γ表示聚焦参数。

进一步的，所述入侵检测模块入侵检测具体步骤如下：

步骤(1)：网络入侵检测模型接收数据获取模块发送的网络流量数据包，同时与入侵共享数据库进行通信连接；

步骤(2)：对各组网络流量数据包进行数据解析，同时网络入侵检测模型对解析出的数据进行行为分析，同时依据分析结果与入侵共享数据库进行检索对比；

步骤(3)：若存在对比结果一致的数据，则将相对应的网络流量数据包进行拦截，若不存在，则允许接收该网络流量数据包；

步骤(4)：网络入侵检测模型对剩余各组网络流量数据包的特征代码进行提取，同时将其与病毒共享数据库中各网络病毒特征代码进行对比；

步骤(5)：若存在某一部分特征代码相同，则通过文件自动查杀技术对该该网络流量数据包中的网络病毒数据进行阻隔查杀处理，同时对其进行二次检测，若不存在相同的特征代码，网络入侵检测模型与云端虚拟机通信连接；

步骤(6)：云端虚拟机对各网络流量数据包进行传染模拟，并根据网络病毒定义而确立的传染标准进行病毒分析，并对存在病毒的网络流量数据包进行阻隔查杀；

步骤(7)：自行记录各组被阻隔的网络流量数据包，同时对存在病毒的各网络流量数据包发送地IP地址进行收集，并将其反馈给工作人员进行查看。

进一步地，所述网络入侵行为包括DOS攻击、probe攻击、R2L攻击和U2R攻击，所述网络病毒包括木马病毒、蠕虫病毒、引导型病毒、漏洞型病毒以及邮件型病毒。

进一步地，所述卷积神经网络学习训练具体步骤如下：

步骤一：该卷积神经网络构建一组测试模型，并从测试集中选取一个测试数据作为验证数据，并通过重复多次使用该验证数据来验证该测试模型的精度；

步骤二：对于每一组数据，选取任意一个子集作为测试集，再取剩余子集作为训练集，并统计均方根误差，同时对每组数据都进行一次预测，并将预测结果最好的数据作为最优参数输出；

步骤三：依据最优参数对训练集进行标准化处理，最后将训练样本输送到卷积神经网络中，并采用长期迭代法对该神经网络进行实时优化。

进一步地，所述反馈告警具体步骤如下：

第一步：反馈告警模块收集网络入侵检测模型检测出的各组网络入侵行为，同时构建反馈记录表以将各组网络入侵行为以及相对应的各组网络流量数据包进行记录；

第二步：对存在网络入侵行为的各组网络流量数据包进行IP地址锁定，并将各组IP地址录入反馈记录表中，网络入侵检测模型依据反馈记录表对其记录的各组IP地址进行自动拦截；

第三步：依据反馈记录表绘制各入侵行为的所占比例的饼图，同时将反馈记录表反馈给相关工作人员进行查看。

相比于现有技术，本发明的有益效果在于：

1、本申请提出的一种基于机器学习的网络入侵检测系统，其采用NSL-KDD数据集作为训练样本，通过将向量格式的NSL-KDD数据集转换为卷积神经网络擅长处理的图像格式数据，并基于卷积神经网络进行学习训练，生成网络入侵检测模型，其相较于现有的网络入侵检测系统而言，本发明借助卷积神经网络在图像识别上有较出色的能力，通过将入侵检测问题转换为图像检测问题，从而有利于提高网络入侵行为检测的准确率和检出率，同时降低误报率；此外，本发明利用数据预处理方法针对NSL-KDD数据集进行归一化处理和特征降维，提高了本发明的网络入侵检测模型的检测性能，从而保障了用户计算机安全。

2、本申请提出的一种基于机器学习的网络入侵检测系统，其通过网络入侵检测模型检测各组网络入侵行为，同时反馈告警模块构建反馈记录表，并将检测出的各组网络入侵行为以及相对应的各组网络流量数据包进行记录，对存在网络入侵行为的各组网络流量数据包进行IP地址锁定，并将各组IP地址录入反馈记录表中，网络入侵检测模型依据反馈记录表对其记录的各组IP地址进行自动拦截，依据反馈记录表绘制各入侵行为的所占比例的饼图，同时将反馈记录表反馈给相关工作人员进行查看，能够更加直观的将拦截信息以及网络入侵行为比例反馈给工作人员，提高工作人员分析效率，同时自行对恶意IP地址启动数据拦截，大幅提高计算机运行稳定性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提出的一种基于机器学习的网络入侵检测系统的整体结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

参照图1，本实施例公开了一种基于机器学习的网络入侵检测系统，包括初始样本数据模块、数据获取模块、数据预处理模块、数据存储模块、机器学习模块、入侵检测模块、反馈告警模块和安全管理模块；

初始样本数据模块用于获取NSL-KDD数据集，NSL-KDD数据集包括41类特征，即符号类特征、二进制特征和数值型特征；

具体的，该NSL-KDD数据集是KDD99数据集的改进：NSL-KDD训练集中消除了冗余的记录，所以在分类的过程中，分类器一般不会偏向更频繁的记录；NSL-KDD测试集中也不存在重复的记录，这也将使检测率更为准确；NSL-KDD中每个难度级别组中选择的记录数量与原始KDD数据集中记录的百分比成反比；训练数据集和测试数据集中设置的记录数量是合理的，无需随机选择一小部分数据，从而使实验成本低廉。

数据预处理模块用于对NSL-KDD数据集进行符值转换、归一化处理和特征降维，将特征变为0到1区间内，通过对NSL-KDD数据集进行归一化处理和特征降维，提高了本发明的网络入侵检测模型的检测性能，从而保障了用户计算机安全；

具体的，该符值转换采用独立编码器将NSL-KDD数据集中非二进制的数据转换为二进制，该独热编码器，又称一位有效编码器，利用n位状态寄存器来对n个状态进行编码，每个状态都有其独立的寄存器位，并且在任意时刻，只有其中一位有效；该归一化处理用于通过Min-Max归一化方法将NSL-KDD数据集转换至0到1区间内，Min-Max归一化方法的转换函数如下：

式中：x_new表示归一化后的数据；x表示NSL-KDD数据集的特征数据；x_max表示特征数据的最大值；x_min特征数据的最小值；该特征降维通过方差系数实现，其具体函数公式如下：

数据存储模块用于存储经过数据预处理后的NSL-KDD数据集；

机器学习模块用于根据NSL-KDD数据集进行学习训练，生成网络入侵检测模型，该模型采用NSL-KDD数据集作为训练样本，通过将向量格式的NSL-KDD数据集转换为卷积神经网络擅长处理的图像格式数据，并基于卷积神经网络进行学习训练，生成网络入侵检测模型，其相较于现有的网络入侵检测系统而言，本发明借助卷积神经网络在图像识别上有较出色的能力，通过将入侵检测问题转换为图像检测问题，从而有利于提高网络入侵行为检测的准确率和检出率，同时降低误报率；

具体的，该网络入侵检测模型采用焦点损失函数进行损失计算，其具体公式如下：FL(p_i)＝-α(1-p_i)^γlog(p_i)，式中：p_i表示预测值；α表示权重因子；γ表示聚焦参数。

入侵检测模块用于利用网络入侵检测模型对数据获取模块获取到的网络流量数据包进行入侵检测，识别网络入侵行为；

具体的，网络入侵检测模型接收数据获取模块发送的网络流量数据包，同时与入侵共享数据库进行通信连接，对各组网络流量数据包进行数据解析，同时网络入侵检测模型对解析出的数据进行行为分析，同时依据分析结果与入侵共享数据库进行检索对比，若存在对比结果一致的数据，则将相对应的网络流量数据包进行拦截，若不存在，则允许接收该网络流量数据包，网络入侵检测模型对剩余各组网络流量数据包的特征代码进行提取，同时将其与病毒共享数据库中各网络病毒特征代码进行对比，若存在某一部分特征代码相同，则通过文件自动查杀技术对该该网络流量数据包中的网络病毒数据进行阻隔查杀处理，同时对其进行二次检测，若不存在相同的特征代码，网络入侵检测模型与云端虚拟机通信连接，同时云端虚拟机对各网络流量数据包进行传染模拟，并根据网络病毒定义而确立的传染标准进行病毒分析，并对存在病毒的网络流量数据包进行阻隔查杀，之后自行记录各组被阻隔的网络流量数据包，同时对存在病毒的各网络流量数据包发送地IP地址进行收集，并将其反馈给工作人员进行查看。

具体的，该网络入侵行为包括DOS攻击、probe攻击、R2L攻击和U2R攻击，该网络病毒包括木马病毒、蠕虫病毒、引导型病毒、漏洞型病毒以及邮件型病毒。

需要进一步说明的是，该卷积神经网络构建一组测试模型，并从测试集中选取一个测试数据作为验证数据，并通过重复多次使用该验证数据来验证该测试模型的精度；，对于每一组数据，选取任意一个子集作为测试集，再取剩余子集作为训练集，并统计均方根误差，同时对每组数据都进行一次预测，并将预测结果最好的数据作为最优参数输出，依据最优参数对训练集进行标准化处理，最后将训练样本输送到卷积神经网络中，并采用长期迭代法对该神经网络进行实时优化。

具体的，反馈告警模块收集网络入侵检测模型检测出的各组网络入侵行为，同时构建反馈记录表以将各组网络入侵行为以及相对应的各组网络流量数据包进行记录，对存在网络入侵行为的各组网络流量数据包进行IP地址锁定，并将各组IP地址录入反馈记录表中，网络入侵检测模型依据反馈记录表对其记录的各组IP地址进行自动拦截，依据反馈记录表绘制各入侵行为的所占比例的饼图，同时将反馈记录表反馈给相关工作人员进行查看。

安全管理模块用于系统管理人员根据反馈告警信息进行计算机安全管理，保障用户计算机安全。

参照图1，本实施例公开了一种基于机器学习的网络入侵检测系统，其特征在于，包括初始样本数据模块、数据获取模块、数据预处理模块、数据存储模块、机器学习模块、入侵检测模块、反馈告警模块和安全管理模块；

除与上述实施例相同结构外，本实施例将具体介绍机器学习模块；

具体的，该机器学习模块的具体处理过程如下：首先，将NSL-KDD数据集的特征数据转换为21*21图像格式的特征，形成样本特征图；然后，对样本特征图进行人工标记，并将其划分为训练集和测试集；接着，构建卷积神经网络，并将训练集通过输入、卷积、池化、全连接和输出进行学习训练，得到网络入侵检测模型；之后，利用测试集对网络入侵检测模型进行测试，若测试准确率满足期望值，则停止训练，反之继续上述步骤；最后，对满足期望值的网络入侵检测模型进行性能评估，即进行准确率、检出率和误报率评估；

具体的，该准确率的检测公式如下：

该检出率的检测公式如下：

该误报率的检测公式如下：

式中：TP(True Positive)表示分类为攻击类的攻击样本数量；FP(False Positive)表示分类为攻击类的正常样本数量；FN(False Negative)表示分类为正常类的攻击样本数量；TN(True Negative)表示分类为正常类的正常样本数量；对于以上三个参数，若AC和DR越大，FAR越小，则模型的性能越好。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于机器学习的网络入侵检测系统，其特征在于，包括初始样本数据模块、数据获取模块、数据预处理模块、数据存储模块、机器学习模块、入侵检测模块、反馈告警模块和安全管理模块；

2.根据权利要求1所述的一种基于机器学习的网络入侵检测系统，其特征在于，所述符值转换采用独立编码器将所述NSL-KDD数据集中非二进制的数据转换为二进制；所述归一化处理用于通过Min-Max归一化方法将所述NSL-KDD数据集转换至0到1区间内，所述Min-Max归一化方法的转换函数如下：

3.根据权利要求1所述的一种基于机器学习的网络入侵检测系统，其特征在于，所述特征降维通过方差系数实现，其具体函数公式如下：

4.根据权利要求1所述的一种基于机器学习的网络入侵检测系统，其特征在于，所述机器学习模块的具体处理过程如下：

5.根据权利要求4所述的一种基于机器学习的网络入侵检测系统，其特征在于，所述网络入侵检测模型采用焦点损失函数进行损失计算，其具体公式如下：

FL(p_i)＝-α(1-p_i)^γlog(p_i) (3)

式中：p_i表示预测值；α表示权重因子；γ表示聚焦参数。

6.根据权利要求4所述的一种基于机器学习的网络入侵检测系统，其特征在于，所述入侵检测模块入侵检测具体步骤如下：

7.根据权利要求6所述的一种基于机器学习的网络入侵检测系统，其特征在于，所述网络入侵行为包括DOS攻击、probe攻击、R2L攻击和U2R攻击，所述网络病毒包括木马病毒、蠕虫病毒、引导型病毒、漏洞型病毒以及邮件型病毒。

8.根据权利要求4所述的一种基于机器学习的网络入侵检测系统，其特征在于，所述卷积神经网络学习训练具体步骤如下：

9.根据权利要求1所述的一种基于机器学习的网络入侵检测系统，其特征在于，所述反馈告警具体步骤如下：