CN115296851B

CN115296851B - 一种基于互信息与灰狼提升算法的网络入侵检测方法

Info

Publication number: CN115296851B
Application number: CN202210799416.9A
Authority: CN
Inventors: 狄婷; 谷良; 安毅; 禹宁; 周鑫; 赵嘉; 吴瑶; 李伟博; 孙海川
Original assignee: Information and Telecommunication Branch of State Grid Shanxi Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Shanxi Electric Power Co Ltd
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2024-07-26
Anticipated expiration: 2042-07-06
Also published as: CN115296851A

Abstract

本发明涉及一种基于互信息与灰狼提升算法的网络入侵检测方法，属于网络安全领域。本方法提供的训练阶段通过互信息理论提取训练集中关键特征，并通过互信息大小对提取的特征进行排序。然后将这些特征作为输入加载到LSSVM模型中来训练，并采用GWB算法优化整个模型的权重参数。GWB‑LSSVM模型通过对关键特征的学习，获取最优的核函数宽度和正则化参数C。测试阶段提取测试数据的特征输入到训练好的LSSVM分类模型中，根据模型输出的类别概率分布判断分类结果正确与否，进而进行模型评估。本方法能够在模型训练阶段大大缩短模型训练时间，降低模型训练消耗和时间成本，而且本方法能够更好的实现网络流量前相关特征的选择，提升网络入侵行为检测的精度和模型收敛的速度。

Description

一种基于互信息与灰狼提升算法的网络入侵检测方法

技术领域

本发明涉及一种基于互信息与灰狼提升算法的网络入侵检测方法，属于网络安全领域。

背景技术

目前人、物间相互连接示范出的便利性促生了不断膨化的互联网、物联网连接需求，这导致网络设施中尚未完备或难以根治的系统漏洞等面临严重的网络入侵和攻击风险。传统的根据攻击构建的入侵检测规则越来越难以应对日益复杂和不断变种的网络攻击，尤其是难以防范和检测未知攻击。近年来随着机器学习等技术的发展，基于异常检测的网络攻击检测虽然取得一定程度的进展，但仍然面临攻击特征提取人工依赖性强，未知攻击检测困难、检测模型复杂度高和网络攻击检测精度低等困难，这严重制约了网络入侵检测系统的发展和应用。

发明内容

本发明为解决上述现有技术中存在的问题，提供了一种基于互信息与灰狼提升算法的网络入侵检测方法，本方法能够在模型训练阶段大大缩短模型训练的时间，降低模型训练消耗和时间成本，而且本方法能够更好的实现网络流量前相关特征的选择，提升网络入侵行为检测的精度和模型收敛的速度。

为实现上述目的，本发明提供的技术方案为：一种基于互信息与灰狼提升算法的网络入侵检测方法，按以下步骤进行处理：

1)构建原始流量数据集D_ys：通过数据采集器采集目标网络的流量数据，并根据流量数据构建网络原始流量数据集D_ys；

2)构建可分析数据集D_parse：根据TCP/IP协议簇的标准对原始流量数据集D_ys进行解码，从原始流量数据集D_ys中提取并构成可分析数据集D_parse；

3)构建网络流量特征数据集D_f：通过流量统计计算获取可分析数据集D_parse中的特征集，构建用于网络入侵检测模型使用的网络流量特征数据集D_f；

4)构建标注数据集D_fl：参照现有的黑名单和白名单特征库对D_f中的正常流量和攻击流量进行类别标注，构成可供网络入侵检测模型训练使用的标注数据集D_fl；

5)对标注数据集D_fl中数据进行预处理：首先对标注数据集D_fl中的缺失值进行删除，对标注数据集D_fl中的重复值进行剔除，以保证数据唯一性，保证模型识别准确性；通过使用二值转换完成字符型数据到数值型数据的转换，使用归一化进行数据处理，将标注数据集D_fl进一步形成标准化数据集D_s；

6)提取最优特征子集：计算标准化数据集D_s中的每一列特征X_i与标注标签集合Y之间的互信息值，将得到的特征X_i按照互信息值大小进行降序排序，剔除标准化数据集D_s中互信息值<0.2的特征维，保留标准化数据集D_s中互信息值≥0.2的特征维构建最优特征子集D_s’，然后从D_s’随机提取80％的样本作为用于训练入侵检测模型的训练集D’_s-Tr，将剩余20％的样本作为测试入侵检测模型的测试集D’_s-Ts；

7)构建入侵检测模型：构造最小二乘支持向量机网络入侵检测模型，通过将训练集D’_s-Tr输入至最小二乘支持向量机网络入侵检测模型中进行训练，并通过灰狼提升算法优化最小二乘支持向量机网络入侵检测模型的参数，提升模型检测率；

在步骤7)中检测模型构建的步骤包括：构建学习模型，采用高斯径向基核函数替换原始最小二乘支持向量机中的核函数，高斯径向基核函数的计算如式(6)所示：

式中：δ为核宽度参数；X_l为第l个样本，X_i为当前样本输入点；即：高斯径向基核函数主要计算所有样本与每一个输入点的距离；

最小二乘支持向量机模型为式(7)：

式中：w为权重向量；b是偏移量；C为正则参数；e_i表示输出的实际值和预测值之间的回归误差；y_i表示实际标签值；

利用拉格朗日乘子法将式(7)可以转换成无约束的拉格朗日目标函数L(w,b,e；a),表示为式(8)；

式中：J(w,e)见式(7)；N表示样本数量，即参与模型训练的样本数；a_i表示拉格朗日乘数；

令L(w,b,e；a)分别对w，b，e_i,a_i求导等于0，对(8)进行求解得到公式(9)，K为核矩阵；

式中：E表示单位向量；K为原始核矩阵，C为正则参数；b是偏移量；a表示拉格朗日乘数；y表示实际标签值；

采用高斯径向基核函数(6)替代(9)中的核函数K，对其求解之后可以得到最小二乘支持向量机分类表达式；

在步骤7)中通过灰狼提升算法GWB对LSSVM的参数进行优化，构建基于灰狼提升算法优化的最小二乘支持向量机模型，即GWB-LSSVM模型，灰狼提升算法通过以下步骤进行设置：

(1)设置各项初始参数，设置GWB-LSSVM模型，即灰狼提升算法正则化参数C的范围和核函数参数δ的搜索范围为0.1-300，GWB算法的种群规模为12，最大迭代次数为100；种群可以表示成式(10)：

式中：X_ij表示第i个样本的第j个特征；

(2)初始化种群，通过选取对网络流量检测的准确率为优化算法的自适应度，计算种群个体自适应度值，并按照大小确定值最高的三个个体为狼王a，左护法b和右护法c；初始化种群的公式见(11)；

式中：X_ij ^u为第i个样本的第j个特征的上界；X_ij ^l为第i个样本的第j个特征的下界；

(3)利用式(12)确定种群前进的步长和方向，利用公式(13)和公式(14)更新父代种群位置；

A＝rand(-a,a) (12)

式中：A为取值范围为-a到a的均匀随机数，a为常数，初始值为2，并随着迭代次数由2线性降至0；C为正则参数，一般用2r₁进行计算，r₁＝rand(0,1)；X_a(t)、X_b(t)、X_c(t)分别表示第t次迭代后狼群中狼王、左右护法的位置，X_di(t)表示第t次迭代后猎物的位置；

(4)利用差分机制进行变异、交叉产生新子代个体，变异、交叉具体计算见式(15)，(16)，式(16)通过每个个体与其变异个体进行交叉操作，生成试验个体；

v_i(g)＝X_a(g)+F×(X_b(g)-X_c(g)) (15)

式中：X_a(g)表示当前群体第a个个体；X_b(g)，表示当前群体第b个个体；X_c(g)表示当前群体第c个个体；v_i(g)为第i个个体对应的变异个体；F为缩放因子；

式中：CR表示交叉概率因子；X_t ^*为初始种群，计算方式见式(11)；v_i(g)为第i个个体对应的变异个体,计算方式见式(15)；u_t(g)表示试验个体；

(5)利用差分机制的选择步骤更新父代种群；选择步骤的计算方式见式(17)；

式中：f(u_t(g))表示试验个体的适应度值；f(X_t ^*)表示初始个体的适应度值；

(6)计算新种群所有个体的自适应度值，更新狼王和左右护法的位置；

(7)判断迭代次数是否满足终止条件，满足输出最小二乘支持向量机网络入侵检测模型的最优参数核函数宽度δ和正则参数C；

8)评估模型检测性能：将步骤7)中的模型训练得到的最优参数进行保存，训练完成后，设置最优参数，结合训练好的模型，将测试集D’_s-Ts输入保存好的入侵检测模型框架，对模型检测性能进行评估验证；

9)检测结果可视化呈现：实时的网络流量采集、预处理和特征提取后，将提取的特征输入至训练好的入侵检测模型框架，输出结果作为对实时网络攻击检测识别与分类的结果，以文本和图形事件图库形式展示给用户，展示结果支持分类事件收藏和查询。

步骤5)中数据预处理的步骤包括：二值转换，即利用字典的键值对实现字符型特征到数值型特征的转换；和归一化，即采用min-max方式实现归一化处理，保证所有数据范围为[0,1]，并在规范化过程中进行空值与无穷大值的样本剔除处理，以达到解决数据样本的量纲不统一的问题，min-max归一化方法如公式(1)所示：

式中：X_i为标准化数据集D_s第i列特征归一化后的数值；x_i为采集的标注数据集D_fl第i列特征原始数值；x_{i_max}为标注数据集D_fl第i列特征所有样本中的最大值，x_{i_min}为标注数据集D_fl第i列特征所有样本中的最小值。

步骤6)中提取最优特征子集时，按照以下步骤计算每列特征与标志的互信息值：

(1)利用式(2)、(3)分别计算特征X_i、标注标签集合Y的互信息熵；

式(2)中：X_i为归一化后的第i列特征；X为第i列特征所有的样本构成的集合；p(X_i)表示第i列特征X_i的边缘分布；

式(3)中：Y为所有标注标签值构成的集合；y表示标注标签；p(y)表示标注标签y的边缘分布；

(2)利用式(4)计算各列特征X_i与标注标签集合Y之间的交叉熵；

式(4)中：p(X_i,y)表示特征X_i和标注标签y之间的联合分布；

(3)在特征、标注标签集合的互信息熵和各列特征与标签之间的交叉熵的基础上利用式(5)计算特征X_i与标注标签集合Y的互信息值；

式中：H(X_i|Y)表示特征X_i与标注标签集合Y之间的条件熵。

步骤8)中对模型评估与优化包括以下步骤：

(1)性能测试：设置最优参数核函数宽度δ和正则参数C，测试集D’_s-Ts输入到LSSVM模型中进行预测；

(2)性能评估：统计预测结果和真实结果构成的混淆矩阵，利用式18、公式19和公式20计算准确率、精度和检测率指标；

式中：ACC为准确度，precision为精度，recall为检测率；TP表示真阳率，FN表示假阴率，FP表示假阳率，TN表示真阴率。

根据上述技术方案可知，本方法提供的基于互信息与灰狼提升算法的网络入侵检测方法在训练阶段通过互信息理论选取训练集中关键特征，并通过互信息大小对选取的特征进行降序排序。然后将这些特征作为输入加载到GWB-LSSVM模型中来训练，并采用GWB算法优化整个模型的权重参数。GWB-LSSVM模型通过对关键特征的学习，获取最优的核函数宽度和正则化参数C。测试阶段提取测试数据的特征输入到训练好的GWB-LSSVM分类模型中，根据模型输出的类别概率分布判断分类结果正确与否，进而进行模型评估。本方法相对于现有的技术方案具有以下优点：

1)因为本发明采用基于互信息理论的特征提取模型，根据互信息值的大小对所采集的数据集进行提取，所以本方法相对于传统模型的特征降维方法大大缩短了模型训练的时间，降低了模型训练消耗和时间成本，同时针对网络流量强相关特征提取方面具有更好的优势，从模型训练阶段结果可以看出相同条件下该方法提取的特征集具有更好的分类精度。

2)本发明利用差分算法对灰狼算法进行改进以获取更快的寻优速度，在此基础上，以改进后的灰狼提升算法针对最小二乘支持向量机入侵检测模型的正则参数和核函数宽度进行优化，所以使得该入侵检测模型获得了更好的针对网络流量的分类精度和更快的收敛速度。

3)本发明采用图形可视化的形式展示分类结果，可以更好地以时间序列的形式线性的展示网络流量随时间变化状况和定位网络入侵与攻击流量发现、检测、变化和处置的过程，能够帮助用户更好的理解和处置网络攻击，并为模型的迭代维护提供快速反馈。

附图说明

图1本发明提供的检测识别模型结构示意图；

图2灰狼提升算法(GWB)的流程图；

图3特征集；

图4各列特征与标签的互信息值。

具体实施方式

下面结合附图和具体实施例对本发明作详细具体的说明，但本发明的保护范围不限于下述的实施例。

在本发明所提供的技术方案中的基于互信息与灰狼提升算法的网络入侵检测方法，如图1所示，按以下步骤进行处理：

4)构建标注数据集D_fl：参照现有的黑名单和白名单特征库对D_f中的正常流量和攻击流量进行类别标注，如图3所示，构成可供网络入侵检测模型训练使用的标注数据集D_fl；

在步骤5)中数据预处理的步骤包括：二值转换，即利用字典的键值对实现字符型特征到数值型特征的转换；在本实施例中，将“Protocol”的tcp、udp、icmp分别转换成0、1、2；将“Service”的aol、auth、bgp、...、Z39-50的70种类型转换成0、1、2、...、69；将Label的normal类型转换成0，将数据集的其它类型转换成1，具体如表1所示。

表1

由于数据样本的量纲不统一，采用归一化对数据样本量纲进行处理，即采用min-max方式实现归一化处理，保证所有数据范围为[0,1]，并在规范化过程中进行空值与无穷大值的样本剔除处理，以达到解决数据样本的量纲不统一的问题，min-max归一化方法如公式(1)所示：

式中：X_i为标准化数据集D_s第i列特征归一化后的数值；x_i为采集的标注数据集D_fl第i列特征原始数值；x_{i_max}为标注数据集D_fl第i列特征所有样本中的最大值，x_{i_min}为标注数据集D_fl第i列特征所有样本中的最小值；

6)提取最优特征子集：计算标准化数据集D_s中的每一列特征X_i与标注标签Y之间的互信息值，如图4所示，将得到的特征X_i按照互信息值大小降序排序，剔除标准化数据集D_s中互信息值<0.2的特征维，保留标准化数据集D_s中互信息值≥0.2的特征维构建最优特征子集D_s’，然后从D_s’随机提取80％的样本作为用于训练入侵检测模型的训练集D’_s-Tr，将剩余20％的样本作为测试入侵检测模型的测试集D’_s-Ts；

在本实施例中，步骤6)中提取最优特征子集时，按照以下步骤计算每列特征与标志的互信息值：

(1)利用式(2)、(3)分别计算特征X_i、标注标签y的互信息熵；

式(2)中：X_i为归一化后的第i列特征；X为第i列特征所有的样本构成的集合；p(X_i)表示第i列特征X_i的边缘分布。

式(3)中：Y为所有标注标签值构成的集合；y表示标注标签；p(y)表示标注标签y的边缘分布。

(2)利用式(4)计算各列特征X_i与标注标签集合Y之间的交叉熵；

式(4)中：p(X_i,y)表示特征X_i和标注标签y之间的联合分布。

(3)在特征、标签的信息熵和各列特征与标签之间的交叉熵的基础上利用式(5)计算特征X_i与标注标签集合Y的互信息值；

式中：H(X_i|Y)表示特征X_i与标签Y之间的条件熵。

(4)将步骤(3)中互信息值计算结果按照互信息值降序排列，剔除其中互信息值<0.2的特征维，保留互信息值≥0.2的特征维作为下一步网络入侵检测模型训练的输入数据集。

7)构建入侵检测模型：如图2所示，构造最小二乘支持向量机网络入侵检测模型(简称LSSVM)，通过将训练集D’_s-Tr输入至最小二乘支持向量机网络入侵检测模型中进行训练，并通过灰狼提升算法优化最小二乘支持向量机网络入侵检测模型的参数，提升模型检测率；

在本实施例中，步骤7)中检测模型构建的步骤包括：构建学习模型，采用高斯径向基核函数替换原始最小二乘支持向量机中的核函数，高斯径向基核函数的计算如式(6)所示：构建最小二乘支持向量机模型的关键在于核宽度参数δ和正则参数C。

式中：δ为核宽度参数；X_l为第l个样本，X_i为当前样本输入点；即：高斯径向基核函数主要计算所有样本与每一个输入点的距离。

最小二乘支持向量机模型为式(7)：

式中：w为权重向量；b是偏移量；C为正则参数；e_i表示输出的实际值和预测值之间的回归误差；y_i表示实际标签值。

利用拉格朗日乘子法将式(7)可以转换成无约束的拉格朗日目标函数L(w,b,e；a),表示为式(8)。

式中：J(w,e)见式(7)；N表示样本数量，即参与模型训练的样本数；a_i表示拉格朗日乘数。

令L(w,b,e；a)分别对w，b，e_i,a_i求导等于0，对(8)进行求解得到公式(9)，K为核矩阵。

式中：E表示单位向量；K为原始核矩阵，本发明利用式(6)替换此处的K；C为正则参数；b是偏移量；a表示拉格朗日乘数；y表示实际标签值。

采用高斯径向基核函数(6)替代(9)中的核函数K，对其求解之后可以得到最小二乘支持向量机分类表达式。显然K和C严重影响到最终的分类结果。

同时在本实施例中，步骤7)中通过灰狼提升算法GWB对LSSVM的参数进行优化，构建基于灰狼提升算法优化的最小二乘支持向量机模型，即简称为GWB-LSSVM模型，灰狼提升算法通过以下步骤进行设置：

设置各项初始参数，即设置GWB-LSSVM模型正则化参数C的范围和核函数参数δ的搜索范围为0.1-300，GWB算法的种群规模为12，最大迭代次数为100；种群可以表示成式(10)。

式中：X_ij表示第i个样本的第j个特征。

初始化种群，通过选取对网络流量检测的准确率为优化算法的自适应度，计算种群个体自适应度值，并按照大小确定值最高的三个个体为狼王a，左护法b和右护法c；初始化种群的公式见(11)；

式中：X_ij ^u为第i个样本的第j个特征的上界；X_ij ^l为第i个样本的第j个特征的下界。

利用式(12)确定种群前进的步长和方向，利用公式(13)和公式(14)更新父代种群位置；

A＝rand(-a,a) (12)

式中：A为取值范围为-a到a的均匀随机数，a为常数，初始值为2，并随着迭代次数由2线性降至0；C为正则参数，一般用2r₁进行计算，r₁＝rand(0,1)；X_a(t)、X_b(t)、X_c(t)分别表示第t次迭代后狼群中狼王、左右护法的位置，X_di(t)表示第t次迭代后猎物的位置。

利用差分机制进行变异、交叉产生新子代个体，变异、交叉具体计算见式(15)，(16)，式(16)通过每个个体与其变异个体进行交叉操作，生成试验个体；

v_i(g)＝X_a(g)+F×(X_b(g)-X_c(g)) (15)

式中：CR表示交叉概率因子；X_t ^*为初始种群，计算方式见式(11)；v_i(g)为第i个个体对应的变异个体,计算方式见式(15)；u_t(g)表示试验个体。

利用差分机制的选择步骤更新父代种群；选择步骤的计算方式见式(17)。

式中：f(u_t(g))表示试验个体的适应度值；f(X_t ^*)表示初始个体的适应度值。

计算新种群所有个体的自适应度值，更新狼王和左右护法的位置。

判断迭代次数是否满足终止条件，满足输出最小二乘支持向量机网络入侵检测模型的最优参数核函数宽度δ和正则参数C。

在本实施例中的步骤8)中对模型评估与优化包括以下步骤：

(1)性能测试：设置最优参数核函数宽度δ和正则参数C，测试集D’_s-Ts输入到LSSVM模型中进行预测。

Claims

1.一种基于互信息与灰狼提升算法的网络入侵检测方法，其特征在于按以下步骤进行处理：

6)提取最优特征子集：计算标准化数据集D_s中的每一列特征X_i与标注标签集合Y之间的互信息值，将得到的特征X_i按照互信息值大小进行降序排序，剔除标准化数据集D_s中互信息值<0.2的特征维，保留标准化数据集D_s中互信息值≥0.2的特征维构建最优特征子集D_s’，然后从D_s’随机提取80％的样本作为用于训练入侵检测模型的训练集D_s’_-Tr，将剩余20％的样本作为测试入侵检测模型的测试集D_s’_-Ts；

7)构建入侵检测模型：构造最小二乘支持向量机网络入侵检测模型，通过将训练集D_s’_-Tr输入至最小二乘支持向量机网络入侵检测模型中进行训练，并通过灰狼提升算法优化最小二乘支持向量机网络入侵检测模型的参数，提升模型检测率；

式中：δ为核宽度参数；X_l为第l个样本，Xi为标准化数据集Ds第i列特征归一化后的数值；即：高斯径向基核函数主要计算所有样本与每一个输入点的距离；

最小二乘支持向量机模型为式(7)：

式中：X_ij表示第i个样本的第j个特征；

X_i ^*＝{X_ij ^*}＝X_ij ^l+rand(0,1)×(X_ij ^u-X_ij ^l) (11)

A＝rand(-a,a) (12)

v_i(g)＝X_a(g)+F×(X_b(g)-X_c(g)) (15)

8)评估模型检测性能：将步骤7)中的模型训练得到的最优参数进行保存，训练完成后，设置最优参数，结合训练好的模型，将测试集D_s’_-Ts输入保存好的入侵检测模型框架，对模型检测性能进行评估验证；

2.根据权利要求1所述的基于互信息与灰狼提升算法的网络入侵检测方法，其特征在于：步骤5)中数据预处理的步骤包括：二值转换，即利用字典的键值对实现字符型特征到数值型特征的转换；和归一化，即采用min-max方式实现归一化处理，保证所有数据范围为[0,1]，并在规范化过程中进行空值与无穷大值的样本剔除处理，以达到解决数据样本的量纲不统一的问题，min-max归一化方法如公式(1)所示：

3.根据权利要求1所述的基于互信息与灰狼提升算法的网络入侵检测方法，其特征在于：步骤6)中提取最优特征子集时，按照以下步骤计算每列特征与标志的互信息值：

式(2)中：X_i为标准化数据集Ds第i列特征归一化后的数值；X为第i列特征所有的样本构成的集合；p(X_i)表示第i列特征X_i的边缘分布；

(2)利用式(4)计算各列特征X_i与标注标签集合Y之间的交叉熵；

式(4)中：p(X_i,y)表示特征X_i和标注标签y之间的联合分布；

式中：H(X_i|Y)表示特征X_i与标注标签集合Y之间的条件熵。

4.根据权利要求1所述的基于互信息与灰狼提升算法的网络入侵检测方法，其特征在于：步骤8)中对模型评估与优化包括以下步骤：

式中：ACC为准确度，precision为精度，recall为检测率；TP表示真阳率，FN表示假阴率，FP表示假阳率，TN表示真阴率，DR为检测率。