CN114844677A

CN114844677A - 一种集成式的smote算法

Info

Publication number: CN114844677A
Application number: CN202210346804.1A
Authority: CN
Inventors: 郭红波; 张兴兰
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-08-02
Anticipated expiration: 2042-03-31
Also published as: CN114844677B

Abstract

本发明公开了一种集成式的SMOTE算法，该技术方法包括以下步骤，预训练分类器，对于攻击类型中的每个样本的x_i计算的p_t值。将该样本加入p_t样本集合中。计算p_t样本集合中每一个样本x_i与K近邻样本距离。计算p_t样本集合中样本x_i的密度系数。将p_t集合中密度系数高于r_i安全值min_r的样本加入新集合Q；计算需要合成的样本总数；计算集合Q中的样本x_i需要合成的新样本数量，记为g_i。本发明把这两种不同关注点整合起来，使得在合成新样本的时候能够同时从两个不同的角度去关注攻击类型的样本，能够有效地应对入侵检测的类别不平衡问题。

Description

一种集成式的SMOTE算法

技术领域

本发明涉及入侵检测领域，尤其涉及在恶意攻击样本与正常流量样本数量差距较大的情况下，深度神经网络模型非常容易将几乎所有的样本识别成正常流量样本。为了解决用于训练的数据集类别不平等的问题，本发明提出了一种集成的 SMOTE算法来合成攻击样本。

背景技术

随着网络技术的高速发展，人类社会逐渐高度互联。依托于云技术、大数据和人工智能等技术设计的产品及提供的服务方便着人类的生产和生活，人类可以网络购物、在线办公、云数据的存储等等。当今社会，互联网技术不仅对个人，对于企业乃至国家和世界已经成为不可缺少的一部分。

众多事件表明，网络安全问题迫在眉睫，足以引起人们的重视，设计了防火墙和入侵检测系统进行防御。

目前，入侵检测方法除去传统的方法外，在机器学习技术和深度学习技术中都有在入侵检测领域应用。然而，机器学习的技术在特征提取过程中需要专家来指定，对于高维和海量的数据不具有优势，有着较高的误报率。深度学习可在数据中自动提取特征，深层的非线性网络结构对于特征有着强有力的拟合能力，对复杂的入侵行为预测能力更强，因此逐渐成为近年的研究热点。但是深度学习模型易受到训练数据集的样本数量及样本中类别比例的干扰，同时在训练过程中存在训练时间长、收敛速度慢等问题。本发明的目的在于为实现更好的检测效果，针对数据不平衡的问题采用过采样的方法扩充原始数据集，保证训练样本的类别比例适合。同时优化深度学习模型中的损失函数，使其主要关注那些少且难以区分的样本，加快模型的收敛。通过对非平衡数据的扩充，深度学习模型的优化使得在入侵检测系统中性能的提升，在网络安全技术发展的方向具有重要意义。

发明内容

为解决入侵检测数据集中正常流量样本与攻击样本数量差别过大的问题，本发明从数据方面着手，采用合成新的攻击样本方式增加其数量，最终使得两种不同的类别在数量上能够趋于平衡。

为了合成新样本，前人提出过不少的方法。例如，ADASYN算法引入了自适应的思想，根据一个少数类样本的K近邻中多数类样本的多少来决定合成样本的数量。受这一思想启发，本发明提出了一种集成的SMOTE算法来合成攻击样本。它主要能够从两个角度去合成新样本。一是从攻击类型样本的p_t值的角度合成新样本，二是基于攻击样本的所处空间的密度值去合成新样本。在普通的交叉熵损失函数中，会得到一个损失值p。p_t的计算公式如下：

对于一个具体的样本来说，p_t值越大则表示一个样本越是难分。那么在合成新样本的时候要关注到那些难分的样本。同样地如果一个攻击样本所处的空间位置缺少其他攻击类型的样本，那么分类模型也很难学习到它的特征。为了能够学习到这些样本的特征，在合成新的攻击样本时应当着重以这些样本为核心去合成新样本。

本发明采用的技术方案为一种基于SMOTE的入侵检测数据集样本合成方法，

1)预训练分类器，对于攻击类型中的每个样本的x_i计算的p_t值，记为p_ti。

2)对于攻击类型中p_ti高于p_t安全值min_p的样本,将该样本加入p_t样本集合中。

3)对于p_t样本集合中每一个样本x_i计算在p_t样本集合中的K个最近邻样本。

4)计算p_t样本集合中每一个样本x_i与K近邻样本距离，记为d_ij。

5)对于p_t样本集合中每一个样本x_i，计算其与K近邻样本距离之和为d_i,公式如下：

6)计算p_t样本集合中样本x_i的密度系数，记为r_i，公式为：

当r_i越大时，该样本所处的位置攻击类样本的密度越低；当r_i越大时，该位置的密度越高。其中m_s表示当前所处p_t集合样本的数量。

7)将p_t集合中密度系数高于r_i安全值min_r的样本加入新集合Q

8)对于集合Q中的每一个样本x_i，归一化其p_t值与密度系数r_i。公式如下：

其中，r_min，r_max分别是集合Q中样本的密度系数最小值与最大值。p_{t_max}与 p_{t_min}分别表示集合Q中样本的p_t的最小值与最大值。

9)对于集合Q中的每个x_i，根据两个参数r'_i和p'_ti计算合成系数，记为rp_i，公式如下：

公式里的α是[0,1]区间的有理数，它作为一个超参数用来调整基于密度和基于p_t的关注程度。m_Q表示的是集合Q的样本数量。

10)计算需要合成的样本总数，公式如下：

G＝(m_l-m_s)×β

其中m_l为原数据集中多数类样本数量。β是[0,1]区间的有理数。在合成新样本的过程中，β作为超参数来调整合成样本的数量。

11)计算集合Q中的样本x_i需要合成的新样本数量，记为g_i。公式如下：

g_i＝g×rp_i

对于集合Q中每一个样本x_i，根据g_i值来合成新的少数类样本。

与现有技术相比较，本发明将把这两种不同关注点整合起来，使得在合成新样本的时候能够同时从两个不同的角度去关注攻击类型的样本，这能够更加有效地应对入侵检测的类别不平衡问题。在设计集成式的SMOTE算法时，设置超参数α来控制两种不同的角度在合成新样本中的权重占比，使得合成的新样本具有一定的偏向性。

附图说明

图1为本发明所提供的整体流程示意图。

图2为采用本方法的分类模型示意图。

具体实施方式

本发明将把这两种不同关注点整合起来，使得在合成新样本的时候能够同时从两个不同的角度去关注攻击类型的样本，这能够更加有效地应对入侵检测的类别不平衡问题。在设计集成式的SMOTE算法时，设置超参数α来控制两种不同的角度在合成新样本中的权重占比，使得合成的新样本具有一定的偏向性。以下是集成式SMOTE算法详细描述：

预训练分类器，对于攻击类型中的每个样本的x_i计算的p_t值，记为p_ti。

对于攻击类型中p_ti高于p_t安全值min_p的样本,将该样本加入p_t样本集合中。

对于p_t样本集合中每一个样本x_i计算在p_t样本集合中的K个最近邻样本。

计算p_t样本集合中每一个样本x_i与K近邻样本距离，记为d_ij。

对于p_t样本集合中每一个样本x_i，计算其与K近邻样本距离之和为d_i,公式如下：

计算p_t样本集合中样本x_i的密度系数，记为r_i，公式为：

当r_i越大时，该样本所处的位置攻击类样本的密度越低；当r_i越大时，该位置的密度越高。其中m_s表示当前所处p_t集合样本的数量。将p_t集合中密度系数高于r_i安全值min_r的样本加入新集合Q；对于集合Q中的每一个样本x_i，归一化其p_t值与密度系数r_i。公式如下：

其中，r_min，r_max分别是集合Q中样本的密度系数最小值与最大值。p_{t_max}与 p_{t_min}分别表示集合Q中样本的p_t的最小值与最大值。对于集合Q中的每个x_i，根据两个参数r'_i和p'_ti计算合成系数，记为rp_i，公式如下：

计算需要合成的样本总数，公式如下：

G＝(m_l-m_s)×β

计算集合Q中的样本x_i需要合成的新样本数量，记为g_i。公式如下：

g_i＝g×rp_i

在样本合成算法方面，采用以下较为简单的方式：

1)对于集合Q的一个样本xi，选取K近邻中的任意两个个样本x_j，x_k；利用这两个样本合成一个临时样本x_tem，公式如下

x_tem＝x_i+rand(0,1)*(x_j-x_k)

其中rand(0,1)并不只是在指区间(0，1)的一个随机数，而是一个随机向量，其维度与与数据集中样本的特征维度一致，如[0.1,0.05,0.2,0.3……]。这样不再是两个样本的简单特征的合成。

2)使用x_tem与x_i合成新样本x_new，公式如下：

x_new＝x_tem+e^(rand(0,1)-^1)*5*(x_tem-x_i)

采用新的成全方式，避免新生成的样本呈现现出在x_tem与x_i均匀分布的现象，而是具有向x_i的倾向性，并且x_new也不是x_tem与x_i这个两个样本的简单特征的合成的向量组合。这样的方法使得合成的x_new更具真实性，更加具备攻击类型样本的特征。示意图如图2所示，对于攻击样本来说，在第二步中去除了高于p_t安全值min_p的样本，在第四步中去除了密度系数高于r_i安全值min_r的样本，最终得到了集合Q。这样用来合成新样本的集合Q都从样本的p_t值和密度两个角度排除了一部分噪音样本，可以在一定程度上减少噪音的合成，有利于分类模型的训练。