CN115277151A

CN115277151A - 一种基于鲸鱼提升算法的网络入侵检测方法

Info

Publication number: CN115277151A
Application number: CN202210865641.8A
Authority: CN
Inventors: 禹宁; 周鑫; 赵嘉; 安毅; 谷良; 狄婷; 黄达成; 杨婷
Original assignee: Information and Telecommunication Branch of State Grid Shanxi Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Shanxi Electric Power Co Ltd
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-11-01

Abstract

本发明涉及一种基于鲸鱼提升算法的网络入侵检测方法，属于网络安全领域。本发明提供的基于基于鲸鱼提升算法的网络入侵检测方法，通过采集目标网络的数据信息，鲸鱼提升算法的网络入侵检测方法通过互信息理论、改进鲸鱼优化算法和最小二乘支持向量机，本发明能够缩短了模型训练的时间，降低了模型训练消耗和时间成本，针对网络流量的分类具有更好的精度和更快的收敛速度。

Description

一种基于鲸鱼提升算法的网络入侵检测方法

技术领域

本发明涉及一种基于鲸鱼提升算法的网络入侵检测方法，属于网络安全领域。

背景技术

目前人、物间相互连接示范出的便利性促生了不断膨化的互联网、物联网连接需求，这导致网络设施中尚未完备或难以根治的系统漏洞等面临严重的网络入侵和攻击风险。传统的根据攻击构建的入侵检测规则越来越难以应对日益复杂和不断变种的网络攻击，尤其是难以防范和检测未知攻击。近年来随着机器学习等技术的发展，基于异常检测的网络攻击检测虽然取得一定程度的进展，但仍然面临攻击特征提取人工依赖性强，未知攻击检测困难、检测模型复杂度高和网络攻击检测精度低等困难，这严重制约了网络入侵检测系统的发展和应用。

发明内容

本发明为解决上述现有技术中存在的问题，提供了一种基于鲸鱼提升算法的网络入侵检测方法，本发明能够缩短了模型训练的时间，降低了模型训练消耗和时间成本，针对网络流量的分类具有更好的精度和更快的收敛速度。

为实现上述目的，本发明提供的技术方案为：一种基于鲸鱼提升算法的网络入侵检测方法，按照以下步骤进行操作：

步骤(1)构成可分析数据集D：通过将流量采集器部署到目标网络，采集目标网络的实时网络数据，构成初始网络流量数据集D_ys；并对始网络流量数据集D_ys进行数据清洗，即删除其中存在的空值和重复值，得到可分析数据集D；

步骤(2)获取去噪数据集D_d：针对数据采集、网络故障等行为带来的数据噪声问题，借助小波方法对数据集D构建K层小波分解，对于分解出的第1-i(i≤K)层高频分解向量予以剔除，剩余低频和高频数据重新组装为去噪数据集D_d；

步骤(3)构建样本特征数据集D_f：利用CICFlowMeter工具，通过统计计算从网络流量中选取具体特征构成样本特征数据集D_f；为样本特征数据集D_f创建“Label”列，根据网络入侵检测结果将数据划分为正常数据和异常数据，正常数据行Label列标注为“0”，带有攻击的数据行Label列标注为“1”；

步骤(4)构造最优特征数据集：利用互信息值大小和Pearson系数标识了特征集X与标签集Y的相关性，因此利用互信息理论和Pearson系数计算D_f中各特征x与Label列的相关度，并将特征集X重新按照特征互信息值和Pearson值进行降序排列，取互信息值≥M的前m列特征列作为识别网络攻击行为贡献度较大的特征形成最优特征子集D_fs1，M和m为常数，选择互Pearson值≥N的前n列特征列作为识别网络攻击行为贡献度较大的特征形成最优特征子集D_fs2，N和n为常数，其余特征予以剔除；

步骤(5)构建入侵检测模型：将最优特征子集D_fs1和最优特征子集D_fs2中的数据进行随机分组，抽取其中70％作为训练数据集D_tr1和D_ts2，剩余30％作为测试数据集D_t1和D_t2；构造网络入侵检测模型，模型基于鲸鱼提升算法，即WBA算法，对混合最小二乘支持向量机，即LSSVM框架进行优化，通过训练数据集D_tr1和D_ts2训练该模型；并输出LSSVM模型的核函数宽度δ和正则参数C；

步骤(6)模型评估与优化：保存步骤(5)得到的最优参数核函数宽度δ和正则参数C；使用测试数据集D_t1和D_t2作为输入测试LSSVM框架，测试完成后得到最终的检测模型，并选择更优的特征提取方法作为基准模型的特征提取模块，至此完成网络攻击检测的基准模型的构建；

步骤(7)检测结果可视化呈现：实时的网络流量采集、预处理和特征提取后，将提取的特征输入至训练好的LSSVM框架，输出结果作为对实时网络攻击检测识别与分类的结果，以文本和图形事件图库形式展示给用户，展示结果支持分类事件收藏和查询。

在步骤(4)中，构造最优特征数据集D_fs1和D_fs2按如下步骤进行操作：

1)计算互信息值：计算特征集Z中每列特征与标签列Y的互信息值，此处的特征集Z等同于样本特征数据集D_f，为方便表述下面公式此处使用Z代替D_f；

(1)利用公式1和公式2计算特征集Z和标签列Y的互信息熵；

式中：z为Z中的某一列特征集，Z为所有特征z的集合，p(z)为特征z的边缘分布概率；

式中：y表示标注标签；Y为所有标注标签值构成的集合；p(y)表示标注标签y的边缘分布；

(2)利用公式3计算各列特征集Z与标签集Y之间的交叉熵；

式中：p(z，y)为特征z和标注标签y的联合分布；

(3)在特征集Z和标签集Y的信息熵和各列特征集Z与标签集Y之间的交叉熵的基础上利用公式4计算各列特征集Z与标签集Y的互信息值；

式中：I(Z；Y)为特征集Z与标签集Y的互信息值，H(Z)表示特征集Z的互信息熵，H(Y)为标签集Y的互信息熵，H(Z|Y)表示特征集Z和标签集Y的条件熵，H(Z，Y)为特征集Z与标签集Y之间的交叉熵；此处Z，Y，z，y含义同公式1和公式2；

2)计算Pearson系数值：利用公式5计算每列特征与标签的Pearson系数值；

式中：r为每列特征集Z与标签的Pearson系数值；z_j为特征集Z的第j个特征列；y为特征集Z对应的标签值；

为特征集Z的第j个特征列的所有数据的平均值；

为标签集Y的所有数据平均值；此处Z，Y，z，y含义同公式1和公式2；

3)逆序排列互信息值：按照互信息值的大小合理选择对应的特征列，选择互信息值≥M的特征列形成最优特征子集D_fs1；

4)逆序排列Pearson系数值：按照Pearson值的大小合理选择对应的特征列，选择互Pearson值≥N的特征列形成最优特征子集D_fs2。

在步骤(5)中按如下步骤构建构造基于鲸鱼提升算法优化的混合最小二乘支持向量机网络入侵检测模型：

1)配置LSSVM模型，LSSVM模型核采用高斯径向基核函数和多项式核函数构成的混合核函数，高斯径向基核函数的计算如公式6、公式7和公式8所示：

K(x,x_j)＝λK_PKF(x,x_j)+(1-λ)K_RBF(x,x_j) 公式6

式中：λ为混合核函数的权重系数，λ∈[0,1]，K_PKF(x,x_j)为多项式核函数，K_RBF(x,x_j)为高斯核函数；x为当前特征集X的一列特征，此处X指经互信息或pearson选择后的最优特征子集D_fs1或D_fs2，x_j为特征集X的第j列特征，0<j<N，N为特征维度；

K_PKF(x,x_j)＝(γx^Tx_j+r)^d,γ＞0 公式7

式中：γ表示多项式核函数参数，取值为0.5，r是一个常数项，r＝0，d表示核函数的阶数；x^T为输入数据集中当前特征集X的特征向量的转置；此处x，x_j，X同公式6；

式中：δ为核宽度参数；此处x，x_j，X同公式6，0<j<N,N为特征维度；即：高斯径向基核函数主要计算每一个样本与其它所有样本的距离；

其中公式6中的LSSVM模型为公式8；

式中：w为权重向量；b是偏移量；C为正则参数；e_j表示输出的实际值和预测值之间的回归误差；y为特征集X对应的标签值；此处x_j同公式6；

利用拉格朗日乘子法将公式8可以转换成无约束的拉格朗日目标函数L(w,b,e；a),表示为公式9；

式中：e_j为误差项；a为拉格朗日乘数；此处x_j同公式6；

令L(w,b,e；a)分别对w，b，e_j,a_j求导等于0，对公式8进行求解得到公式10，K为核矩阵；

式中：E表示单位向量；K为原始核矩阵，C为正则参数；b是偏移量；a表示拉格朗日乘数；y表示整个标签标注值的全体；y^T为标注标签值特征向量的转置；

采用混合核函数公式5替代公式10中的核函数K对公式9求解后可得到LSSVM最终分类表达式；

2)模型训练：将训练集D_tr1和D_ts2输入至LSSVM模型进行训练；LSSVM模型如公式10所示；

3)参数优化：采用WBA算法优化LSSVM模型的参数；WBA算法的步骤包括：

(1)设置各项初始参数；设置如公式10所示的LSSVM模型正则化参数C的范围和核函数参数δ的搜索范围为0.1-300，WBA算法的种群规模为10，最大迭代次数为100；种群可以表示成公式11；

式中：X_ij表示D_fs特征集中第i个样本的第j个特征；

(2)初始化种群；计算种群个体自适应度值，即通过选取对网络流量检测的准确率作为优化算法的自适应度；

(3)引入非线性递减因子：假设当前最优候选解是“目标猎物”，利用公式12和公式13计算最优搜索代理位置更新的系数A、C，最终按照后续步骤实现最优搜索代理的位置更新；WBA采用非线性递减因子来加快搜索速率，主要表现在公式14中的d采用基于非线性的sin函数进行改进；

A＝2d·k-d 公式12

C'＝2k 公式13

式中：A，C'是系数向量；d表示递减因子；t表示当前迭代次数，t_max表示最大迭代次数，μ表示单位时间内变化的相角弧度值，

表示初始相位，k为[0,1]之间的随机向量；

(4)引入自适应权重：WBA算法假设有50％的概率在收缩包围机制和螺旋更新包围机制中进行选择实现更新，可用数学模型表示为公式15，其中p为[0,1]之间的随机数；通过判断p的大小，选择合适的更新机制；若p<0.5，选择包围机制；若p≥0.5，选择螺旋更新包围机制；WBA引入自适应权重w(t)在开始迭代时权重较小，变化速率快，其值随着迭代次数逐渐增加，变化速度减小，进而实现跳出局部最优的效果，引入自适应权重后的更新机制见公式16和公式17，自适应权重的表达见公式18，通过公式19计算鲸鱼与猎物之间的距离；

X(t+1)＝w(t)X^*(t)-A·D 公式16

X(t+1)＝D·e^ql·cos(2πl)+w(t)X^*(t) 公式17

D＝|C'X^*(t)-X(t)| 公式19

式中：q为常数，l是[-1,1]之间的随机数，X(t)表示当前解的位置向量，X*(t)表示最优解的位置向量；p为[0,1]之间的随机数；其中D是表示鲸鱼与猎物之间的距离，l是[-1,1]之间的随机数；w(t)为自适应权重；

(5)WBA还通过随机搜索猎物进行全局搜索，具体可以用公式20和公式21描述；X_rand(t)是种群中随机选择的搜索代理向量，通过判断系数A的大小，选择局部搜索或全局搜索；当|A|>1时选择随机搜索代理，|A|<1时选择最优解更新搜索代理位置；

D＝|CX_rand(t)-X(t)| 公式20

X(t+1)＝X_rand(t)-A·D 公式21

式中：X_rand(t)是种群中随机选择的搜索代理向量；

(6)判断迭代次数是否满足终止条件，如果满足终止条件，则输出LSSVM模型的核函数宽度δ和正则参数C。

在步骤(6)中，通过以下步骤对模型进行评估：

1)性能测试：设置最优参数核函数宽度δ和正则参数C，测试集Dt输入到LSSVM模型中进行预测；

2)性能评估：统计预测结果和真实结果构成的混淆矩阵，利用公式22、公式23和公式24计算准确率、检测率和误报率等指标；

式中：ACC为准确度，recall为检测率；TP表示真阳率，FN表示假阴率，FP表示假阳率，TN表示真阴率，FPR为误报率；sensitivity为敏感度，DR为检测率。

在检测模型定型后每间隔规定时间T则通过新采集的数据通过重复步骤(1)至步骤(7)对模型重新进行训练，并通过评价指标对新训练后的模型进行评估，如果评估指标优于原模型指标则以新训练获取的核函数宽度δ和正则参数C替换原模型中的参数，否则保持原参数不变。

本技术方案包括一种专用于基于鲸鱼提升算法与最小二乘支持向量机的网络入侵检测方法的装置，至少包括：CPU和分别通过PCIe总线与CPU进行通信连接的协处理器单元、接口外设单元和存储阵列，协处理器单元中至少包括GPU和FPGA模块，接口外设单元内至少包括DDR缓存、RJ45以太网接口和SFP光口，其中RJ45以太网接口和SFP光口均通过PCIe总线与FPGA模块通信连接，FPGA模块通过PCIe总线经DDR缓存实现交互，所述存储阵列为用于存储CPU通过PCIe总线传输数据的外置存储设备。

更进一步的，当设备接收数据时，首先由CPU向FPGA模块发送控制指令，通过FPGA模块控制的RJ45以太网接口或SFP光口对目标网络进行数据采集，采集的数据缓存至DDR缓存中，由CPU将通过PCIe总线将DDR缓存中数据传输至存储阵列进行存储；

当设备向外发送数据时，首先由CPU向FPGA模块发送控制指令，将所需发送的数据传输至FPGA模块中，所发送数据由FPGA模块产生，或由CPU对存储阵列和DDR缓存发送控制指令，将发送数据通过PCIe总线传输至FPGA模块，再由FPGA模块控制RJ45或SFP光口发送数据。

更进一步的，CPU通过向GPU发送控制指令，GPU通过PCIe总线从将数据取至DDR缓存，再由DDR缓存取数据进行计算，计算结果返回至CPU，最后由CPU通过PCIe总线将计算结果传输至接口外设单元中。

根据上述技术方案可知，本发明提供的基于基于鲸鱼提升算法的网络入侵检测方法，通过采集目标网络的数据信息，鲸鱼提升算法的网络入侵检测方法通过互信息理论、改进鲸鱼优化算法和最小二乘支持向量机，本发明相对于现有技术相比具有以下优点：

(1)因为本发明所采用的技术方案对比基于互信息理论的特征提取模块和基于Pearson系数的特征提取模块，在模型训练阶段选择检测性能更优的模块参与模型构建，所以本发明能够大大缩短了模型训练的时间，降低了模型训练消耗和时间成本，同时由于基于互信息理论的特征提取模型较传统的特征降维方法如主成分分析在针对网络流量强相关特征提取方面具有更好的优势，所以从模型训练阶段结果可以看出相同条件下该方法提取的特征集具有更好的分类精度。

(2)因为本发明所采用的技术方案利用非线性递减因子和自适应权重对原始鲸鱼算法进行改进为鲸鱼提升算法以获取更快的寻优速度，在此基础上以鲸鱼提升算法对LSSVM入侵检测模型的正则参数和核函数宽度进行优化，所以本发明能够使得该入侵检测模型获得了更好的针对网络攻击流量的检测精度和更快的收敛速度。

(3)因为本发明针对网络流量数据在采集过程中受网络设备故障、误操作等原因带来的噪声数据，借助小波算法对数据集进行了降噪处理，所以本发明能够有效提升方法针对网络攻击的检测精度。

附图说明

图1网络攻击检测模型流程示意图；

图2鲸鱼提升算法流程图；

图3装置结构图；

图4 FPGA模块结构图。

具体实施方式

下面结合附图和具体实施例对本发明作详细具体的说明，但本发明的保护范围不限于下述的实施例。

在本发明所提供的技术方案中的一种基于鲸鱼提升算法的网络入侵检测方法，如图1所示，按照以下步骤进行操作：

在本实施例中，CICFlowMeter工具从网络流量中选取TCP连接基本特征、一次连接中包含的内容特征、基于时间的网络流量特征和基于主机的网络流量特征四个角度统计网络流量具体特征，在此四个方向构成样本特征数据集D_f；

(1)利用公式1和公式2计算特征集Z和标签列Y的互信息熵；

(4)利用公式3计算各列特征集Z与标签集Y之间的交叉熵；

式中：p(z，y)为特征z和标注标签y的联合分布；

(5)在特征集Z和标签集Y的信息熵和各列特征集Z与标签集Y之间的交叉熵的基础上利用公式4计算各列特征集Z与标签集Y的互信息值；

为特征集Z的第j个特征列的所有数据的平均值；

3)逆序排列互信息值：按照互信息值的大小合理选择对应的特征列，选择互信息值≥M的特征列形成最优特征子集D_fs1，在本实施例中，M的值为0.2；

4)逆序排列Pearson系数值：按照Pearson值的大小合理选择对应的特征列，选择互Pearson值≥N的特征列形成最优特征子集D_fs2，在本实施例中，N的值为0.2。

K(x,x_j)＝λK_PKF(x,x_j)+(1-λ)K_RBF(x,x_j) 公式6

K_PKF(x,x_j)＝(γx^Tx_j+r)^d,γ＞0 公式7

其中公式6中的LSSVM模型为公式8；

式中：e_j为误差项；a为拉格朗日乘数；此处x_j同公式6；

3)参数优化：采用WBA算法优化LSSVM模型的参数；如图2所示，WBA算法的步骤包括：

式中：X_ij表示D_fs特征集中第i个样本的第j个特征；

A＝2d·k-d 公式12

C'＝2k 公式13

表示初始相位，k为[0,1]之间的随机向量；

X(t+1)＝w(t)X^*(t)-A·D 公式16

X(t+1)＝D·e^ql·cos(2πl)+w(t)X^*(t) 公式17

D＝|C'X^*(t)-X(t)| 公式19

D＝|CX_rand(t)-X(t)| 公式20

X(t+1)＝X_rand(t)-A·D 公式21

式中：X_rand(t)是种群中随机选择的搜索代理向量；

在步骤(6)中，通过以下步骤对模型进行评估：

本技术方案包括一种专用于基于鲸鱼提升算法与最小二乘支持向量机的网络入侵检测方法的装置，如图3所示，至少包括：CPU和分别通过PCIe总线与CPU进行通信连接的协处理器单元、接口外设单元和存储阵列，协处理器单元中至少包括GPU和FPGA模块，接口外设单元内至少包括DDR缓存、RJ45以太网接口和SFP光口，接口外设单元中还设有用于显示所接受数据的显示屏和用于对装置输入指令的输入外设，其中RJ45以太网接口和SFP光口均通过PCIe总线与FPGA模块通信连接，FPGA模块通过PCIe总线经DDR缓存实现交互，所述存储阵列为用于存储CPU通过PCIe总线传输数据的外置存储设备。

当设备接收数据时，首先由CPU向FPGA模块发送控制指令，通过FPGA模块控制的RJ45以太网接口或SFP光口对目标网络进行数据采集，采集的数据缓存至DDR缓存中，由CPU将通过PCIe总线将DDR缓存中数据传输至存储阵列进行存储；

CPU通过向GPU发送控制指令，GPU通过PCIe总线从将数据取至DDR缓存，再由DDR缓存取数据进行计算，计算结果返回至CPU，最后由CPU通过PCIe总线将计算结果传输至接口外设单元中。

在本实施例中，如图4所示，FPGA模块中包括8个FPGA执行8路网络设备的数据采集，当执行数据采集指令时，通过上位机程序以人机交互的方式根据监测网络设备的数量选择FPGA0-FPGA7当中的某一个FPGA执行数据采集或同时由最多8个FPGA执行8路网络设备的数据采集，网络设备的接口可以是RJ4网络接口也可以是SFP光网络接口。

Claims

1.一种基于鲸鱼提升算法的网络入侵检测方法，其特征在于按照以下步骤进行操作：

2.根据权利要求1所述的基于鲸鱼提升算法的网络入侵检测方法，其特征在于：在步骤(4)中，构造最优特征数据集D_fs1和D_fs2按如下步骤进行操作：

(1)利用公式1和公式2计算特征集Z和标签列Y的互信息熵；

(2)利用公式3计算各列特征集Z与标签集Y之间的交叉熵；

式中：p(z，y)为特征z和标注标签y的联合分布；

为特征集Z的第j个特征列的所有数据的平均值；

3.根据权利要求1所述的基于鲸鱼提升算法的网络入侵检测方法，其特征在于：在步骤(5)中按如下步骤构建构造基于鲸鱼提升算法优化的混合最小二乘支持向量机网络入侵检测模型：

K(x,x_j)＝λK_PKF(x,x_j)+(1-λ)K_RBF(x,x_j) 公式6

K_PKF(x,x_j)＝(γx^Tx_j+r)^d,γ＞0 公式7

其中公式6中的LSSVM模型为公式8；

式中：e_j为误差项；a为拉格朗日乘数；此处x_j同公式6；

式中：X_ij表示D_fs特征集中第i个样本的第j个特征；

A＝2d·k-d 公式12

C'＝2k 公式13

表示初始相位，k为[0,1]之间的随机向量；

X(t+1)＝w(t)X^*(t)-A·D 公式16

X(t+1)＝D·e^ql·cos(2πl)+w(t)X^*(t) 公式17

D＝|C'X^*(t)-X(t)| 公式19

D＝|CX_rand(t)-X(t)| 公式20

X(t+1)＝X_rand(t)-A·D 公式21

式中：X_rand(t)是种群中随机选择的搜索代理向量；

4.根据权利要求1所述的基于鲸鱼提升算法的网络入侵检测方法，其特征在于：在步骤(6)中，通过以下步骤对模型进行评估：

5.根据权利要求1所述的基于鲸鱼提升算法的网络入侵检测方法，其特征在于：在检测模型定型后每间隔规定时间T则通过新采集的数据通过重复步骤(1)至步骤(7)对模型重新进行训练，并通过评价指标对新训练后的模型进行评估，如果评估指标优于原模型指标则以新训练获取的核函数宽度δ和正则参数C替换原模型中的参数，否则保持原参数不变。

6.一种专用于基于鲸鱼提升算法与最小二乘支持向量机的网络入侵检测方法的装置，至少包括：CPU和分别通过PCIe总线与CPU进行通信连接的协处理器单元、接口外设单元和存储阵列，协处理器单元中至少包括GPU和FPGA模块，接口外设单元内至少包括DDR缓存、RJ45以太网接口和SFP光口，其中RJ45以太网接口和SFP光口均通过PCIe总线与FPGA模块通信连接，FPGA模块通过PCIe总线经DDR缓存实现交互，所述存储阵列为用于存储CPU通过PCIe总线传输数据的外置存储设备。

7.根据权利要求6所述的专用于基于鲸鱼提升算法与最小二乘支持向量机的网络入侵检测方法的装置，其特征在于：当设备接收数据时，首先由CPU向FPGA模块发送控制指令，通过FPGA模块控制的RJ45以太网接口或SFP光口对目标网络进行数据采集，采集的数据缓存至DDR缓存中，由CPU将通过PCIe总线将DDR缓存中数据传输至存储阵列进行存储；

8.根据权利要求6所述的专用于基于鲸鱼提升算法与最小二乘支持向量机的网络入侵检测方法的装置，其特征在于：CPU通过向GPU发送控制指令，GPU通过PCIe总线从将数据取至DDR缓存，再由DDR缓存取数据进行计算，计算结果返回至CPU，最后由CPU通过PCIe总线将计算结果传输至接口外设单元中。