CN115174268A

CN115174268A - 基于结构化正则项的入侵检测方法

Info

Publication number: CN115174268A
Application number: CN202211075930.4A
Authority: CN
Inventors: 胡永亮; 杨润峰; 曲武
Original assignee: Jinjing Yunhua Shenyang Technology Co ltd; Beijing Jinjingyunhua Technology Co ltd
Current assignee: Jinjing Yunhua Shenyang Technology Co ltd; Beijing Jinjingyunhua Technology Co ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-10-11
Anticipated expiration: 2042-09-05
Also published as: CN115174268B

Abstract

本发明属于入侵检测技术领域，具体涉及一种基于结构化正则项的入侵检测方法，包括如下步骤：数据采集：通过数据包采集工具，从数据集中采集数据；数据预处理，即建立似坐标下降优化算法；特征系数选择；模型分类训练：根据选出的具有被选择的系数的特征，来进行模型分类训练；利用训练的模型进行入侵检测。通过本方法来选择重要特征，同时识别网络数据分类问题中高度相关的特征，从而建立模型来进行入侵检测。

Description

基于结构化正则项的入侵检测方法

技术领域

本发明属于入侵检测技术领域，具体涉及一种基于结构化正则项的入侵检测方法。

背景技术

随着信息科技的迅速发展，人们对互联网的依赖程度与日俱增。与此同时，各种网络攻击事件层出不穷，并且入侵手段愈来愈复杂，网络攻击的影响范围逐渐扩大。防火墙、用户认证和数据加密等传统的安全防御措施保护着计算机网络系统的安全。入侵检测作为一种主动性的动态安全防御手段，是传统安全技术的有力补充。

在网络入侵检测中，网络数据特征维数高、数据量大。这些大量的特征增加了IDS的负荷，从而影响了系统实时检测的性能。此外，特征集合中一些不相关的或者冗余的特征还会导致检测精度下降。如何有效降低入侵检测的计算消耗，提高检测性能，并选取对入侵检测最重要的特征子集来提高检测的精度和效率就成了入侵检测技术所要面对的最直接的问题。

发明内容

为了解决上述技术问题，本发明提供一种基于结构化正则项的入侵检测方法，通过本方法来选择重要特征，同时识别网络数据分类问题中高度相关的特征，从而建立模型来进行入侵检测。

本发明是这样实现的，提供一种基于结构化正则项的入侵检测方法，包括如下步骤：

1）数据采集：通过数据包采集工具，从数据集中采集数据；

2）数据预处理；

3）建立似坐标下降优化算法：

301）建立基于结构化正则项的目标函数；

302）建立似坐标下降优化算法；

4）特征系数选择；

5）模型分类训练：根据步骤4）中选出的具有被选择的系数的特征，来进行模型分类训练；

6）利用步骤5）训练的模型进行入侵检测。

优选的，所述步骤1）中，数据包采集工具为Linux下的tcpdump，或Windows下的libdump，或软件snort捕捉数据包，数据集为KDD Cup 1999 数据集。

进一步优选，所述步骤2）中，数据预处理具体包括：

201）数据清理：对所述步骤1）中采集的数据进行数据清理，数据清理包括填补空缺的数据值、消除噪音数据和纠正不一致数据；

202）对数据进行标准化处理，即对数据的符号属性进行编码，把符号属性转化为数值属性。

进一步优选，所述步骤301）中，建立基于结构化正则化的目标函数包括如下步骤：

3011）设输入的数据集D有n个样本，即

，其中

是第

个输入样本，p是

的特征的数量，

是对应的分类标签，取值为0或1，逻辑回归函数用于定义类后验概率P，如下所示：

其中

是通过优化目标函数（1）来估计的特征系数，

是截距：

（1）

3012）当目标函数（1）包含正则化项时，得到的带有正则化模型的逻辑回归表示为：

（2）

其中，

是一个正则化项；

3013）本方法采用成对结构化的惩罚正则化方法对数据进行特征选择，对正则化项

进行如下修改：

其中，

表示L1正则化项，

表示成对结构化惩罚正则化项，

表示自适应项，

是变量

和变量

之间的权重，

表示X的第i列，

表示X的第

列，即表示X的第i个和第

个特征，

、

、

表示

的相关系数函数，

和

表示特征前的系数，如果一个特征与响应有很强的相关性，那么相应的

就会很小，并且

对这个特征应用更少的收缩；如果一个特征与响应的相关性很弱，它将受到严重的惩罚；

3014）因此，基于结构化惩罚逻辑回归的目标函数具有以下完整形式：

（3）。

进一步优选，所述步骤302）中，建立似坐标下降优化算法包括如下步骤：

3021）结构化惩罚线性回归模型定义为：

（4）

将等式（4）重写为：

（5）

其中，

表示第k个特征当前的系数，

表示

中第k个向量；

3022）在等式（5）中，最小化参数

的目标函数，同时保持其他参数

不变，当

时，基于结构化惩罚逻辑回归的目标函数（3）对

的导数计算如下：

（6）

当

时：

其中，

是与

相关的部分残差；

因此，使用以表达式（7）更新

：

（7）

（8）

其中，

是单变量软阈值算子，

为

，

为

；

为了优化结构化的惩罚线性回归模型，在算法中重复应用以表达式（7）；由于坐标下降方法不能直接优化基于结构化正则化的目标函数（3），对基于结构化惩罚逻辑回归的目标函数（3）的对数似然函数；求解重新加权的最小二乘模型，具体的，使用基于当前估计量

的目标函数（3）的二次近似，如下所示：

（9）

其中

是

的梯度，

是

的Hessian矩阵，Q是包含元素的对角矩阵：

其中，

在当前参数值下计算，

是对角阵，因此，

近似如下：

（10）

其中

是基于当前参数估计的伪响应，因此，可以通过结构化的惩罚正则化获得以下重新加权的最小二乘损失函数：

（11）

将拟合当前

的部分残差重新定义为

，直接将坐标下降应用于重新加权最小二乘损失函数（11）惩罚基于结构化惩罚逻辑回归的目标函数（3）。

进一步优选，所述步骤4）参数选择中：

结构化惩罚正则化包括一个必须选择的调整参数，即自适应项

，参数

控制学习模型的稀疏性，

作为起点，让

，然后根据

计算

和

之间的一组

值，

表示迭代次数。

与现有技术相比，本发明的优点在于：

本发明采用基于结构化正则项的入侵检测方法，在网络入侵检测中，为了降低数据维度，选择与响应更密切相关的特征，并减少相关特征的数量，识别数据中的重要结构，从而降低分类算法的计算复杂度，提高学习性能，提高入侵检测的效率。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

本发明提供一种基于结构化正则项的入侵检测方法，包括如下步骤：

1）数据采集：通过数据包采集工具，从数据集中采集数据；

数据包采集工具为Linux下的tcpdump，或Windows下的libdump，或软件snort捕捉数据包，数据集为KDD Cup 1999 数据集。

KDD Cup 1999 数据集为入侵检测领域广泛使用的经典数据集，分成具有标识的训练数据和未加标识的测试数据，总共约有500万条记录，其中攻击数据约占80%。数据集中共有41个特征属性，可分为基本特征、流量特征和内容特征。该数据集中的数据可分为5大类别，其中攻击类别有4类。

2）数据预处理，具体包括：

201）数据清理：由于采集的数据一般都是不完整的和不一致的，因此对所述步骤1）中采集的数据进行数据清理，数据清理包括填补空缺的数据值、消除噪音数据和纠正不一致数据；

3）建立似坐标下降优化算法：

301）建立基于结构化正则项的目标函数，包括如下步骤：

3011）设输入的数据集D有n个样本，即

，其中

是第

个输入样本，p是

的特征的数量，

其中

是通过优化目标函数（1）来估计的特征系数，

是截距，估计量

作为以下对数似然函数的最小值获得：

（1）

3012）在高维环境中，直接优化目标函数(1) 是不合适的，本方法在网络数据中选择少量的信息特征，适用选择正则化方法。当目标函数（1）包含正则化项时，得到的带有正则化模型的逻辑回归表示为：

（2）

其中，

是一个正则化项，可以用不同的形式指定；

进行如下修改：

其中，

表示L1正则化项，

表示成对结构化惩罚正则化项，

表示自适应项，

是变量

和变量

之间的权重，用于衡量每对变量的相似度，

表示X的第i列，

表示X的第

列，即表示X的第i个和第

个特征，

、

、

表示

的相关系数函数，

和

表示特征前的系数，相似性权重允许正则化项根据数据中的结构信息来惩罚系数，如果一个特征与响应有很强的相关性，那么相应的

就会很小，并且

（3）。

302）建立似坐标下降优化算法；

包括如下步骤：

3021）在本发明中，开发了一种似坐标下降算法来优化目标函数（3）。坐标下降算法是一种简单而有效的方法，它每次求解一个参数，同时保持其他参数不变。首先在线性回归设置中引入结构化惩罚模型的坐标下降算法，然后扩展该算法以解决惩罚逻辑回归问题。

结构化惩罚线性回归模型定义为：

（4）

将等式（4）重写为：

（5）

其中，

表示第k个特征当前的系数，

表示

中第k个向量；

3022）在等式（5）中，最小化参数

的目标函数，同时保持其他参数

不变，当

时，基于结构化惩罚逻辑回归的目标函数（3）对

的导数计算如下：

（6）

当

时：

其中，

是与

Claims

1.基于结构化正则项的入侵检测方法，其特征在于，包括如下步骤：

1）数据采集：通过数据包采集工具，从数据集中采集数据；

2）数据预处理；

3）建立似坐标下降优化算法：

301）建立基于结构化正则项的目标函数；

302）建立似坐标下降优化算法；

4）特征系数选择；

6）利用步骤5）训练的模型进行入侵检测。

2.根据权利要求1所述的基于结构化正则项的入侵检测方法，其特征在于，所述步骤1）中，数据包采集工具为Linux下的tcpdump，或Windows下的libdump，或软件snort捕捉数据包，数据集为KDD Cup 1999 数据集。

3.根据权利要求1所述的基于结构化正则项的入侵检测方法，其特征在于，所述步骤2）中，数据预处理具体包括：

4.根据权利要求1所述的基于结构化正则项的入侵检测方法，其特征在于，所述步骤301）中，建立基于结构化正则化的目标函数包括如下步骤：

3011）设输入的数据集D有n个样本，即

，其中

是第

个输入样本，p是

的特征的数量，

其中

是通过优化目标函数（1）来估计的特征系数，

是截距：

（1）

（2）

其中，

是一个正则化项；

进行如下修改：

其中，

表示L1正则化项，

表示成对结构化惩罚正则化项，

表示自适应项，

是变量

和变量

之间的权重，

表示X的第i列，

表示X的第

列，

、

、

表示

的相关系数函数，

和

就会很小，并且

（3）。

5.根据权利要求4所述的基于结构化正则项的入侵检测方法，其特征在于，所述步骤302）中，建立似坐标下降优化算法包括如下步骤：

3021）结构化惩罚线性回归模型定义为：

（4）

将等式（4）重写为：

（5）

其中，

表示第k个特征当前的系数，

表示

中第k个向量；

3022）在等式（5）中，最小化参数

的目标函数，同时保持其他参数

不变，当

时，基于结构化惩罚逻辑回归的目标函数（3）对

的导数计算如下：

（6）

当

时：

其中，

是与