CN115545111A

CN115545111A - 一种基于聚类自适应混合采样的网络入侵检测方法及系统

Info

Publication number: CN115545111A
Application number: CN202211252753.2A
Authority: CN
Inventors: 张会均; 张宇樊; 熊炫睿
Original assignee: Chongqing Technology and Business University
Current assignee: Chongqing Technology and Business University
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2022-12-30
Anticipated expiration: 2042-10-13
Also published as: CN115545111B

Abstract

本发明属于网络入侵检测技术领域，涉及一种基于聚类自适应混合采样的网络入侵检测方法及系统；包括将网络入侵数据集的字符型特征编码为数字特征并归一化；对网络入侵数据集聚类得到M个集群，将其划分为少数类簇和非少数类簇；计算少数类簇的采样权重并进行过采样；计算非少数类簇的采样权重并进行自适应欠采样；合并以上数据训练CNN神经网络分类器；将实时的网络入侵数据输入训练好的CNN神经网络分类器输出类别；本发明能有效避免生成噪声样本并且保证采样后各个样本簇内的数量达到均衡以及去除稠密簇中样本间相似度大的冗余样本，相比传统的基于SMOTE过采样的入侵检测技术，该方法对少数类样本以及数据集整体样本有更好的分类性能。

Description

一种基于聚类自适应混合采样的网络入侵检测方法及系统

技术领域

本发明属于网络入侵检测技术领域，涉及一种基于聚类自适应混合采样的网络入侵检测方法及系统。

背景技术

在网络运营中由于各种类型的网络攻击发生的频次不同，收集到的网络入侵记录中各类别样本的数量差异很大，这使得网络入侵检测领域的相关数据集都存在类别不平衡的问题。在不平衡的数据集中训练模型会使分类器在训练时很难学习到少数类样本的普遍特征，分类时容易将少数类样本误判成多数类，使少数类样本的召回率较低。

传统的处理不平衡数据集的方法是对少数类样本进行过采样以及多数类样本欠采样的方法。常见的过采样算法一般是围绕着SMOTE(Synthetic Minority OversamplingTechnique)算法的各种改进。然而SMOTE只是简单的插值取样方法，容易生成冗余样本和噪声样本，影响分类性能。因此从原始的待增强的样本集中有选择的进行插值合成新样本是必要的，研究者Haibo He等人在SMOTE采样方法的基础上提出了自适应综合采样方法ADASYN(Adaptive Synthetic)。它的主旨思想是基于少数类数据样本的分布自适应地生成少数类数据样本，具体方法是在少数类中离群分布的样本点之间用SMOTE方法合成较多的样本，而在少数类中集群分布的样本点之间用SMOTE方法合成较少的样本。因为集群分布的少数类样本点的数据相似度较高，而且密度较大，说明这种样态都少数类样本的数量是充足的，因此分类模型对这些的样本的学习已经分类一般是比较容易的，不需要再过多的合成该分布样态的样本。而离群的少数类样本点分布是较为稀疏的，样本点之间相似度也不高，由于该分布样态的样本数据的缺乏，分类模型对这些样本的学习是比较困难的，所以需要合成较多的样本来增强该样态的分布。ADASYN方法不仅可以减少原始不平衡数据分布带来的学习偏差，还可以自适应地将决策边界转移到难以学习的样本上。

常见的欠采样方法一般是随机欠采样以及根据各种聚类算法进行地改进。随机欠采样的盲目性太大，可能会丢失掉过多的有代表性的样本点。因此现在的欠采样方法大都结合各种种聚类方法进行有选择的采样，具体做法是对数据集中的多数类样本进行聚类成簇后均匀地从每个簇抽取出样本代表点，与簇的代表点相似度大的那些样本就被留在簇中了，间接达到了去除冗余样本的目的。常见的聚类方法有K-Means算法、SpectralClustering评估器、Agglomerative模型，DBSCAN密度聚类等。前三种方法都需要在建立模型前预先设置簇的个数，然而在复杂的数据中，单凭简单的数据分析去正确评估簇数据是很困难的。因此选用DBSCAN方法来对多数类样本做聚类欠采样，能在没有设置固定簇的数量的情况下分配出符合实际情况的簇，从各个簇中提取出样本代表点组成的多数类样本集能更加具有代表性。

通过DBSCAN对少数类样本聚类后，由于每个少数类集群的密集程度都是不同的，因此在每个集群合成相同数量的新样本显然是不合理的。因为分类算法在数量多的集群中能够学习到更多的分类信息从而建立分类规则，相反在样本稀少的集群中无法进行有效的学习，尽管用这种方式进行平衡采样后数据集中多数类与少数类有着相同的样本数量并可以提高分类器性能，但是少数类样本的类内不平衡问题没有得到有效的解决。因为在密集区域的集群中数据的密集程度会加重，而稀疏区域的状况并没有得到改善，从而导致强分类器无法对稀疏的小规模集群进行有效的学习。那么最优的解决方案应该是在密集的簇中生成较少数量的新样本，而在稀疏集群生成较多的新样本来解决类内不平衡问题。相对的，对多数类样本用DBSCAN方法进行聚类欠采样则需要在密集的簇中抽取较多的样本，在稀疏集群抽取较少的样本。

对各类别样本数量不平衡的网络入侵检测数据集进行不同的采样方法的处理，来扩充少数类样本的数量并减少多数类样本的数量能得到一个平衡的数据集。相较于原始的不平衡训练集，用该平衡数据集对分类模型进行训练，能显著提升分类模型对少数类样本以及测试集整体样本的分类检测性能。因此设计一种基于聚类自适应混合采样的网络入侵检测方法对提升入侵检测系统的性能具有重要意义。

发明内容

针对现有的基于机器学习的网络入侵检测技术，在处理极度不平衡的入侵数据时，对多数类的入侵样本的分类效果较好，但是对少数类的入侵样本分类效果却较差的问题，本发明提出一种基于聚类自适应混合采样的网络入侵检测方法及系统。

在第一方面，本发明提出的一种基于聚类自适应混合采样的网络入侵检测方法具体包括以下步骤：

S1.将网络入侵数据集中的数据的字符型特征编码为数字特征；

S2.将网络入侵数据集归一化至区间[0,1]；

S3.设置平衡采样数，并将网络入侵数据集中的数据划分为多数类样本和少数类样本；

S4.采用DBSCAN聚类算法处理网络入侵数据集得到M个集群，将M个集群划分为X个少数类簇和Y个非少数类簇；

S5.计算每个少数类簇的的采样权重，通过采样权重得到对应采样数量，再利用SMOTE方法对每个少数类簇进行过采样，使每个少数类簇的少数类样本的数量增加至平衡采样数；

S6.计算每个非少数类簇的采样权重，通过采样权重得到对应的采样数量，再对每个非少数类簇进行欠采样，使每个非少数类簇的多数类样本的数量降低至平衡采样数；

S7.合并S5与S6得到的数据训练CNN神经网络分类器；

S8.将实时的网络入侵数据输入训练好的CNN神经网络分类器，CNN神经网络分类器输出该实时的网络入侵数据的类别。

进一步的，划分网络入侵数据集的过程为：在样本总数量为N，样本总类别为C的网络入侵数据集中，设定平衡采样数S＝N/C，将样本数量大于平衡采样数S的类别划分为多数类样本，否则为少数类样本。

进一步的，采用DBSCAN聚类算法对网络入侵数据集进行聚类，得到X个少数集群后，分别计算每个集群中少数类样本的占比，当该集群中少数类样本的占比大于4/5时，将其划分为少数类簇，否则划分为非少数类簇。

进一步的，计算每个少数类簇的采样数量的过程为：

S11.筛选出少数类簇c_x中的所有少数类样本，计算少数类样本间的欧式距离，得到少数类簇c_x的少数类样本欧氏距离矩阵，表示为：

其中，1≤x≤X，X为少数类簇的数量，d_ij表示少数类簇中的少数类样本s_i到少数类样本s_j的欧氏距离，n表示少数类簇中的少数类样本总数；

S12.将少数类样本欧氏距离矩阵中所有非对角元素相加，采用相加结果除以少数类簇c_x的少数类样本总数，得到平均距离，表示为：

S13.通过平均距离计算少数类簇c_x的密度值，表示为：

S14.将密度值翻转得到少数类簇的稀疏度，表示为：

S15.根据步骤S11-S14计算每个少数类簇的稀疏度，将所有少数类簇的稀疏度相加获得稀疏度总和，根据每个少数类簇的稀疏度计算其自身的采样权重，表示为：

S15.通过平衡采样数S与采样权重获取少数类簇的采样数量，表示为：

Samples(c_x)＝S×samplingWeight(c_x)。

进一步的，计算每个非少数类簇的采样数量的过程与少数类簇相同，但是非少数类簇是进行欠采样，所以采样权重计算公式不同，其表示为：

其中，f_y表示第y个非少数类簇，1≤y≤Y，Y表示非少数类簇的数量。

在第二方面，基于第一方面提出的方法，提供了一种基于聚类自适应混合采样的网络入侵检测系统，包括历史数据存储模块、属性转换模块、归一化模块、采样模块、机器学习分类器训练模块、实时预测模块，其中：

历史数据存储模块，用于存储已经进行了分类的网络入侵数据；

属性转换模块，用于将网络入侵数据中的字符型特征编码为数字特征；

归一化模块，用于对经过属性转换后的网络入侵数据归一化到区间；

采样模块，用于对网络历史数据进行采样，保证训练数据的数据量平衡；

采样模块包括数据分类单元、DBSCAN聚集单元、少数类采样单元、多数类采样单元；

数据分类单元，用于设定平衡采样数S，将网络历史数据集中样本数量大于平衡采样数S的类别划分为多数类样本，否则为少数类样本；

DBSCAN聚集单元，采用DBSCAN聚类算法处理网络历史数据集得到M个集群，将M个集群划分为X个少数类簇和Y个非少数类簇；

少数类采样单元，计算每个少数类簇的采样权重，通过采样权重得到对应的采样数量，再利用SMOTE方法对每个少数类簇进行过采样，使每个少数类簇的少数类样本的数量增加至平衡采样数；

多数类采样单元，计算每个非少数类簇的采样权重，通过采样权重得到对应的采样数量，再对每个非少数类簇进行欠采样，使每个非少数类簇的多数类样本的数量降低至平衡采样数；

机器学习分类器训练模块，用于根据训练数据进行训练，获得机器学习分类器；

实时预测模块，用于将实时的网络入侵数据输入机器学习分类器，获得该网络入侵的类型。

本发明的有益效果：

对网络入侵检测数据集中的训练集样本先聚类成簇，并根据簇中少数类样本的数量占比划分出少数类簇和非少数类簇，再从少数类簇中筛选出少数类样本进行自适应过采样，能有效避免生成噪声样本并且能保证采样后各个样本簇内的少数类样本的数量达到均衡。

对网络入侵检测数据集中非少数类簇内的多数类样本进行自适应欠采样，能有效去其稠密簇中样本间相似度大的冗余样本，并且保留稀疏簇中样本间相似度小的全部样本。

用以上聚类混合自适应采样方法得到的平衡数据集来训练CNN神经网络分类器，能有效提升分类器在少数类样本以及数据集整体样本上的分类表现，实现高性能网络入侵检测的效果。

附图说明

图1为本发明的基于聚类自适应混合采样的网络入侵检测方法流程图；

图2为本发明的基于聚类自适应混合采样的网络入侵检测系统功能模块示意图；

图3为本发明的基于聚类自适应混合采样的网络入侵检测系统采样单元功能模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于聚类自适应混合采样的网络入侵检测方法，如图1所示，包括：

S1.获取原始数据集，即网络入侵数据集，对网络入侵数据集进行预处理，将预处理后的数据划分为训练集和测试集；

具体地，预处理方式为：

S11.将网络入侵数据集中的数据的字符型特征编码为数字特征；

S12.将网络入侵数据集归一化至区间[0,1]。

S2.设置平衡采样数，并将训练集中的数据划分为多数类样本和少数类样本两个类别，得到多数类样本集和少数类样本集；

S3.采用DBSCAN聚类算法处理训练集得到M个集群，将M个集群划分为X个少数类簇和Y个非少数类簇；

S4.计算每个少数类簇的采样权重，通过采样权重得到对应的采样数量，再利用SMOTE方法对每个少数类簇进行过采样，使每个少数类簇的少数类样本的数量增加至平衡采样数；

S5.计算每个非少数类簇的采样权重，通过采样权重得到对应的采样数量，再对每个非少数类簇进行欠采样，使每个非少数类簇的多数类样本的数量降低至平衡采样数；

S6.合并S4与S5得到的数据训练CNN神经网络分类器；并采用测试集进行测试；

S7.将实时的网络入侵数据输入训练好的CNN神经网络分类器，CNN神经网络分类器输出该实时的网络入侵数据的类别。

在一实施例中，使用网络入侵检测应用中的公告数据集KDD99，包括5种类别：Normal和四种攻击：Dos、Probe、U2R和R2L，数据集的样本数量和最大不平衡度如表1所示，最大不平衡度定义为样本数量最多的类别与样本数量最少的类别的样本数量比值，代表了数据集的不平衡程度，KDD99数据集中样本数量最多的类别是Dos，样本数量最少的类别是U2R，这个数据集的最大不平衡度非常大，属于极度不平衡的数据集。

表1

具体地，利用聚类自适应混合采样算法对KDD99数据集进行采样以及训练CNN神经网络分类器的过程包括：

S21.在样本总数量为N，样本总类别数为C的网络入侵检测训练集中，设定平衡采样数S＝N/C，即取样本总数量在各类别上分布的平均值作为样本数量达到平衡的标准；然后将样本数量大于平衡采样数S的类别划分为多数类样本，否则为少数类样本。

S22.采用DBSCAN算法对训练集进行聚类得到M个集群；分别计算每个集群中少数类样本的占比，当该集群中少数类样本的占比大于4/5时，将其划分为少数类簇，否则划分为非少数类簇。

本发明采用SMOTE方法对少数类样本过采样，从而合成新的少数类样本。由于SMOTE是插值取样的方法，如果一个集群中的少数类样本占比不充分，那么从该集群中合成的新样本会既带有少数类样本属性，又带有多数类样本属性；这种新样本对于原始的少数类样本来说特征属性差异太大，加入到少数样本数据集后会对少数类样本造成干扰。故把少数类样本在整个集群中的占比小于4/5的集群划分为少数类簇，并不会从非少数类簇中合成新的少数类样本。

S23.对少数类簇中的少数类样本采用SMOTE方法进行自适应采样。自适应是指在样本密度大的簇中合成较少的新样本，而在样本密度稀疏的簇中合成较多的新样本。具体的合成新样本的过程为：从少数类样本中随机选择一个样本点x，根据向上采样倍率，从同类别的k(k一般为奇数，如k＝5)个近邻样本中随机选择一个样本

作为合成新样本x_new的辅助样本，重复n次；然后在样本x与每个辅助样本间通过下面的公式进行线性插值，最终生成n个新样本。

具体地，在自适应采样的过程中，每个少数类簇中的少数类样本的采样数量的计算过程为：

S201.筛选出少数类簇c_x中的所有少数类样本，计算少数类样本间的欧式距离，得到得到少数类簇c_x的少数类样本欧氏距离矩阵，表示为：

其中，1≤x≤X，X为训练集中少数类簇的数量，d_ij表示少数类簇中的少数类样本s_i到少数类样本s_j的欧氏距离，n表示少数类簇中的少数类样本总数；

S202.将少数类样本欧氏距离矩阵中所有非对角元素相加，采用相加结果除以少数类簇中的少数类样本总数，得到平均距离，表示为：

S203.通过平均距离计算少数类簇c_t的密度值，表示为：

S204.将密度值翻转得到少数类簇的稀疏度，表示为：

S205.根据步骤S201-S204计算每个少数类簇的稀疏度，将所有少数类簇的稀疏度相加获得稀疏度总和，然后用每个少数类簇的稀疏度除以稀疏度总和得到其对应的稀疏度占比，即得到在少数类簇c_x上对其中的少数类样本的采样权重，表示为：

S206.通过平衡采样数S与采样权重获取少数类簇c_t的采样数量，表示为：

Samples(c_x)＝S×samplingWeight(c_x)。

S24.对非少类簇中的多数类样本计算采样数量，并采样均匀抽取簇类样本代表点的方法进行自适应欠采样；自适应的效果是在样本密度大的集群中抽取较小比例的样本代表点以此来去除该集群中大量的冗余样本，在样本密度稀疏的集群中抽取较大比例的样本代表点此来保留该集群中大量的稀缺样本，最终使多数类样本的数量降低至平衡采样数S。

具体地，在自适应欠采样过程中，计算每个非少数类簇中的多数类样本的采样数量的过程与少数类簇相同，但是因为对多数类样本实行的是欠采样，故采样权重为稀疏度占比的倒数，其表示为：

S25.合并以上聚类混合采样方法得到的数据样本，组成一个各类别样本数量平衡的新数据集，用该新数据集作为训练集来训练CNN神经网络分类器，能提升分类器对少数类样本的分类效果以及对整体样本的分类性能。

具体地，将平衡数据集中的数据预处理成一维向量送入CNN的多个一维卷积层进行降维提取，最终由一个Softmax层输出预测的分类结果。

Softmax公式如下：

其中，yⁱ表示样本预测为类别i的输出值，C表示数据集总的类别数量，通过Softmax函数可以将多分类的输出值转换为范围在[0,1]且总和为1的概率分布。在模型训练阶段，将模型Softmax层预测的数据结果与真实的数据标签进行对照，将预测误差损失值实时记录并反馈给模型，通过多轮次的数据迭代训练，不断优化更新网络节点的权值与偏置，使最终分类结果更加接近真实标签，得到一个分类性能较好的网络入侵检测分类器。

在模型测试阶段，将测试集中的网络入侵数据输入到训练好的CNN神经网络分类器中，分类器输出该网络入侵数据的类别。将输出的预测结果与测试集样本真实的类别标签进行对比，可以得到多分类结果的混淆矩阵，根据混淆矩阵计算出各类别样本以及整体样本分类的查准率，召回率，F1值等评价指标来评估模型的入侵检测性能。

在一实施例中，通过上述方法，提供一种基于聚类自适应混合采样的网络入侵检测系统，如图2所示，包括历史数据存储模块、属性转换模块、归一化模块、采样模块、机器学习分类器训练模块、实时预测模块，其中：

如图3所示，采样模块包括数据分类单元、DBSCAN聚集单元、少数类采样单元、多数类采样单元；

数据分类单元，用于在样本总数量为N，样本总类别为C的网络入侵数据集中，设定平衡采样数S，将网络入侵数据集中样本数量大于平衡采样数S的类别划分为多数类样本，否则为少数类样本；

DBSCAN聚集单元，采用DBSCAN聚类算法处理网络入侵数据集得到M个集群，将M个集群划分为X个少数类簇和Y个非少数类簇，如图3所示；

具体地，得到M个集群后，分别计算每个集群中少数类样本的占比，当该集群中少数类样本的占比大于4/5时，将其划分为少数类簇，否则划分为非少数类簇；

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于聚类自适应混合采样的网络入侵检测方法，其特征在于，包括：

S2.将网络入侵数据集归一化至区间[0,1]；

S5.计算每个少数类簇的采样权重，通过采样权重得到对应的采样数量，再利用SMOTE方法对每个少数类簇进行过采样，使每个少数类簇的少数类样本的数量增加至平衡采样数；

S7.合并S5与S6得到的数据训练CNN神经网络分类器；

2.根据权利要求1所述的一种基于聚类自适应混合采样的网络入侵检测方法，其特征在于，划分网络入侵数据集的过程为：在样本总数量为N，样本总类别为C的网络入侵数据集中，设定平衡采样数S＝N/C，将样本数量大于平衡采样数S的类别划分为多数类样本，否则为少数类样本。

3.根据权利要求1所述的一种基于聚类自适应混合采样的网络入侵检测方法，其特征在于，采用DBSCAN聚类算法对网络入侵数据集进行聚类，得到M个集群后，分别计算每个集群中少数类样本的占比，当该集群中少数类样本的占比大于4/5时，将其划分为少数类簇，否则划分为非少数类簇。

4.根据权利要求1或3所述的一种基于聚类自适应混合采样的网络入侵检测方法，其特征在于，计算每个少数类簇的采样数量的过程为：

S13.通过平均距离计算少数类簇c_x的密度值，表示为：

S14.将密度值翻转得到少数类簇的稀疏度，表示为：

S16.通过平衡采样数S与采样权重获取少数类簇的采样数量，表示为：

Samples(c_x)＝S×samplingWeight(c_x)。

5.根据权利要求4所述的一种基于聚类自适应混合采样的网络入侵检测方法，其特征在于，计算每个非少数类簇的采样数量的过程与少数类簇相同，但是非少数类簇是进行欠采样，所以采样权重计算公式不同，其表示为：

6.一种基于聚类自适应混合采样的网络入侵检测系统，其特征在于，包括历史数据存储模块、属性转换模块、归一化模块、采样模块、机器学习分类器训练模块、实时预测模块，其中：