CN115208645B

CN115208645B - 基于改进gan的入侵检测数据重构方法

Info

Publication number: CN115208645B
Application number: CN202210769786.8A
Authority: CN
Inventors: 李兴华; 朱孟垚
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2023-10-03
Anticipated expiration: 2042-07-01
Also published as: CN115208645A

Abstract

本发明涉及一种基于改进GAN的入侵检测数据重构方法，包括：获取入侵检测数据集，入侵检测数据集包括若干入侵检测数据样本及其对应标签，按照入侵检测数据样本的标签对入侵检测数据集进行分类，得到不同类型的入侵检测数据子集；将不同类型的入侵检测数据子集，输入对应的改进GAN模型中进行训练和处理，生成对应类型的网络流量数据样本，所有类型的网络流量数据样本组合构成入侵检测重构数据集。本发明的入侵检测数据重构方法，使用注意力机制，改进的损失函数以及带毒样本清洗机制解决了离散数据学习较差与带毒样本毒性扩散的问题，能够通过生成指定类型的流量来对数据集进行配平，有效提升数据集的质量。

Description

基于改进GAN的入侵检测数据重构方法

技术领域

本发明属于网络空间安全技术领域，具体涉及一种基于改进GAN的入侵检测数据重构方法。

背景技术

近年来随着互联网的普及，人们对于网络的应用更加频繁，随着网络与信息技术日新月异的发展，网络安全问题已经成为一个备受关注的重大问题。入侵检测(IntrusionDetection)技术是一种高效的，积极主动的网络防护技术，通过分析网络通信过程数据交换过程中流量或系统审计记录，提供对内部、外部攻击和误操作的实时保护，当发现可疑通信异常行为流量时发出告警或采取拦截和阻止措施以保护系统安全。

随着网络安全的重要性不断提升，基于机器学习的入侵检测研究吸引了大量研究者的注意，高质量的数据集作为机器学习的“燃料”，对于基于机器学习的入侵检测方法是十分重要的。现有的IDS数据集由于其自身性质的原因，不可避免地存在各类别数据规模差距较大的问题，而在入侵检测领域，数据集往往因为攻击者主动的掺入带毒数据或防御者在收集用于训练的数据集时的失误，会难以避免地带有一定量的带毒对抗样本，这些问题会导致机器学习的学习效果变差，不能很好的实现系统安全的防护，而且制约了基于机器学习的入侵检测领域研究的发展。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于改进GAN的入侵检测数据重构方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供了一种基于改进GAN的入侵检测数据重构方法，包括：

步骤1：获取入侵检测数据集，所述入侵检测数据集包括若干入侵检测数据样本及其对应标签，按照所述入侵检测数据样本的标签对所述入侵检测数据集进行分类，得到不同类型的入侵检测数据子集；

步骤2：将不同类型的所述入侵检测数据子集，输入对应的改进GAN模型中进行训练和处理，生成对应类型的网络流量数据样本，所有类型的所述网络流量数据样本组合构成入侵检测重构数据集；

其中，所述改进GAN模型利用带有注意力机制的LSTM模块提取所述入侵检测数据子集的数据分布特征信息，并根据损失函数对所述改进GAN模型进行训练，学习所述入侵检测数据子集的数据分布，直至所述改进GAN模型的梯度收敛，同时利用信息增益判别机制对可疑带毒样本进行剔除，生成对应类型的网络流量数据样本。

在本发明的一个实施例中，所述改进GAN模型包括生成器和检测器，其中，

所述生成器包括带有注意力机制的LSTM模块和流量样本生成模块，其中，所述带有注意力机制的LSTM模块用于提取所述入侵检测数据子集的数据分布特征信息，所述流量样本生成模块用于根据所述数据分布特征信息利用蒙特卡洛算法，生成网络流量数据样本；

所述检测器用于对所述网络流量数据样本和所述改进GAN模型的输入样本进行检测区分，并根据检测区分结果利用所述损失函数对所述生成器的参数进行调整，直至所述改进GAN模型的梯度收敛。

在本发明的一个实施例中，所述改进GAN模型利用带有注意力机制的LSTM模块提取所述入侵检测数据子集的数据分布特征信息，包括：

S1：对所述改进GAN模型的输入样本按照以下方式进行线性变化：

Q＝xw^Q；

K＝xw^K；

V＝xw^V；

式中，x表示输入样本，Q表示查询队列，K表示键，V表示键对应的键值，w^Q表示Q参数矩阵，w^K表示K参数矩阵，w^V表示V参数矩阵；

S2：根据线性变化结果，按照下式对所述输入样本的注意力值的分布进行计算：

a_i＝soft max(S(K_i,Q_i))；

式中，a_i表示第i个输入样本的注意力值的分布，K_i表示第i个输入样本的键，Q_i表示第i个输入样本的查询队列，d表示放缩常数；

S3：根据所述注意力值的分布，计算输入所述改进GAN模型的所述入侵检测数据子集的加权平均，得到所述数据分布特征信息。

在本发明的一个实施例中，所述S1之前还包括：

S0：对所述入侵检测数据子集中的入侵检测数据样本进行数字化处理和归一化处理，得到所述改进GAN模型的输入样本。

在本发明的一个实施例中，所述损失函数为：

式中，i表示第i个输入样本，L表示GAN网络的原始损失函数，表示惩罚函数，w表示权重矩阵，该权重矩阵包括Q参数矩阵，K参数矩阵和V参数矩阵，δ表示惩罚因子，χ表示阈值，p表示惩罚函数系数。

在本发明的一个实施例中，利用信息增益判别机制对可疑带毒样本进行剔除，包括：

步骤a：计算所述改进GAN模型输入当前输入样本之前的第一信息分布和输入当前输入样本之后的第二信息分布；

步骤b：根据所述第一信息分布和所述第二信息分布计算得到当前输入样本对应的信息增益；

步骤c：根据所述当前输入样本对应的信息增益以及预设的信息增益阈值，判断该输入样本是否为可疑带毒样本，若是则删除该输入样本，否则保留该输入样本。

在本发明的一个实施例中，所述信息增益的计算公式如下：

式中，x_i表示当前输入样本，i表示当前输入样本为第i个输入样本，p₁表示第一信息分布，p₂表示第二信息分布。

在本发明的一个实施例中，在所述步骤c中，若所述当前输入样本对应的信息增益超过所述预设的信息增益阈值，则该输入样本是可疑带毒样本，否则该输入样本不是可疑带毒样本。

与现有技术相比，本发明的有益效果在于：

1.本发明的基于改进GAN的入侵检测数据重构方法，针对现有各类型入侵检测数据集质量较差的情形使用注意力机制，改进的损失函数以及带毒样本清洗机制解决了离散数据学习较差与带毒样本毒性扩散的问题。该入侵检测数据重构方法效率高，特别针对该领域常见的数据集中各类型数据规模差距较大的问题，能够通过生成指定类型的流量来对数据集进行配平，有效提升数据集的质量，从而解决因为数据集质量差导致的机器学习的学习效果变差的问题。

2.本发明的基于改进GAN的入侵检测数据重构方法，可以高效地获得均衡且干净的入侵检测数据集，从而更方便地进行训练或设计基于机器学习的入侵检测方案。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明实施例提供的一种基于改进GAN的入侵检测数据重构方法的示意图；

图2是本发明实施例提供的一种基于改进GAN的入侵检测数据重构方法的流程结构图；

图3是本发明实施例提供的一种改进GAN模型的训练过程示意图；

图4是本发明实施例提供的一种注意力机制的示意图；

图5是本发明实施例提供的一种GAN模型的生成器的分布学习过程示意图；

图6是本发明实施例提供的一种带毒样本对训练过程影响的示意图；

图7a-7c是本发明实施例提供的仿真实验1的多种IDS在公开数据集上的性能对比图；

图8a-8c是本发明实施例提供的仿真实验2的多种IDS在公开数据集上的性能对比图。

具体实施方式

为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及具体实施方式，对依据本发明提出的一种基于改进GAN的入侵检测数据重构方法进行详细说明。

有关本发明的前述及其他技术内容、特点及功效，在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明，可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解，然而所附附图仅是提供参考与说明之用，并非用来对本发明的技术方案加以限制。

实施例一

请参见图1，图1是本发明实施例提供的一种基于改进GAN的入侵检测数据重构方法的示意图，如图所示，本实施例的一种基于改进GAN的入侵检测数据重构方法，包括：

步骤1：获取入侵检测数据集，入侵检测数据集包括若干入侵检测数据样本及其对应标签，按照入侵检测数据样本的标签对入侵检测数据集进行分类，得到不同类型的入侵检测数据子集；

在本实施例中，入侵检测数据样本为流量数据。

步骤2：将不同类型的入侵检测数据子集，输入对应的改进GAN模型中进行训练和处理，生成对应类型的网络流量数据样本，所有类型的网络流量数据样本组合构成入侵检测重构数据集；

其中，改进GAN模型利用带有注意力机制的LSTM模块提取入侵检测数据子集的数据分布特征信息，并根据损失函数对改进GAN模型进行训练，学习入侵检测数据子集的数据分布，直至改进GAN模型的梯度收敛，同时利用信息增益判别机制对可疑带毒样本进行剔除，生成对应类型的网络流量数据样本。

具体地，请结合参见图2，图2是本发明实施例提供的一种基于改进GAN的入侵检测数据重构方法的流程结构图，如图所示，本实施例的入侵检测数据重构方法，首先，需要将待处理的入侵检测数据样本及按照其标签进行分类，得到若干不同类型的入侵检测数据子集。然后，将不同类型的入侵检测数据样本分别交由对应的改进GAN模型进行训练与处理。在这一过程中，改进GAN模型会自动清洗掉其中潜在的由于主动或被动原因存在的带毒数据样本，然后通过训练该改进GAN模型来提取此类型入侵检测数据(流量数据)的数据分布特征信息。接下来各个改进GAN模型可以根据所提取的数据分布特征信息，按照需求生成定量的对应类型的网络流量生成数据样本。最后将这些数据汇总便得到了处理后的干净且均衡的数据集。

在本实施例中，改进GAN模型中引入带有注意力机制的LSTM模块，能够很好地理解呈现离散序列特性的流量数据并从中提取更多的数据分布特征，从根源上解决现有GAN提取信息能力差的问题。损失函数根据改进的惩罚函数构建得到，可以鼓励模型更好地利用所提取的数据分布特征信息生成更具多样性的样本。在改进GAN模型训练过程中，通过引入信息增益判别机制，借助不断计算模型每次训练前后的分布差异，寻找可疑带毒样本并将其剔除，提高模型对带毒样本的鲁棒性并获得干净的数据集。

进一步地，对本实施例的方案进行具体说明，请参见图3，图3是本发明实施例提供的一种改进GAN模型的训练过程示意图，在本实施例中，改进GAN模型包括生成器和检测器，与现有的GAN模型相比，本实施例的改进GAN模型的生成器包括引入带有注意力机制的LSTM模块和流量样本生成模块。

具体地，带有注意力机制的LSTM模块用于提取入侵检测数据子集的数据分布特征信息，流量样本生成模块用于根据数据分布特征信息利用蒙特卡洛算法，生成网络流量数据样本，以利用该网络流量数据样本迷惑检测器。检测器用于对网络流量数据样本和改进GAN模型的输入样本进行检测区分，并根据检测区分结果利用损失函数对生成器的参数进行调整，以不断调整其分布与生成器生成的网络流量数据样本，最终二者达到纳什均衡，也就是直至改进GAN模型的梯度收敛，此时，生成器所生成的网络流量数据样本足以迷惑检测器，可以认为此时，改进GAN模型已经学习到了该类型入侵检测数据的数据分布特征信息，生成器可以根据该数据分布特征信息可以生成任意数目的该类型网络流量数据样本。

进一步地，请结合参见图4所示的注意力机制的示意图，在本实施例中，改进GAN模型利用带有注意力机制的LSTM模块提取入侵检测数据子集的数据分布特征信息，具体地包括：

S0：对入侵检测数据子集中的入侵检测数据样本进行数字化处理和归一化处理，得到改进GAN模型的输入样本；

需要说明的是，流量数据包括数字特征和符合特征为了训练的方便，需要将符号特征转化为数字特征，具体地，按照特征字段对流量数据进行切割，然后根据协议对其的定义构建语料库，将其符号特征转化为数字特征。由于，数据集中不同特征字段所对应的数值差异较大，这会严重影响模型的正常工作，此外，由于所设计的改进GAN模型具备注意力机制，可以自行学习不同类型流量数据中不同特征字段的重要性并分配不同的注意力程度。因此，这就要求原始数据中每个特征字段对应的数值应当有统一的取值区间，为此需要对所有入侵检测数据样本进行归一化处理。

S1：对改进GAN模型的输入样本按照以下方式进行线性变化：

Q＝xw^Q (1)；

K＝xw^K (2)；

V＝xw^V (3)；

S2：根据线性变化结果，按照下式对输入样本的注意力值的分布进行计算：

a_i＝soft max(S(K_i,Q_i)) (4)；

S3：根据注意力值的分布，计算输入改进GAN模型的入侵检测数据子集的加权平均，得到数据分布特征信息。

具体地，数据分布特征信息为a₁*V₁+a₂*V₂+……+a_i*V_i。

需要说明的是，因为流量数据是离散的序列状态数据，而这正是RNN较为擅长的数据形式，然而现有循环神经网络大量的应用场景是语音，文本等，而相比于这些场景，流量样本长度更长，这就导致长程依赖的问题。“长程依赖”是指在训练过程中，前期所学习的信息随着神经网络不断迭代接受新的知识而遗忘，而该问题会严重影响生成器对流量数据样本中特征信息的提取，进而影响整个模型的表现。

在本实施例中，通过引入注意力机制，可以实现更加精细化的赋权。相比于原有的模型中的赋权仅依赖于权重矩阵w，而这里的三个可训练的参数矩阵w^Q，w^K和w^V可以对输入进行线性变换得到Q，K和V，显著增强模型信息拟合能力与信息提取能力，模型一方面可以根据任务的不同来对查询队列Q进行训练，另一方面，还可以根据元素的K键或者元素自身的予以对其赋予不同的键值V。这就使得模型需要考虑多方面的因素对特征的重要性进行评估并分配不同的注意力，根据注意力的多少模型将决定其信息在神经网络中传递的时间长短。

对于入侵检测场景中数据分布特征信息提取与数据生成这一任务来说，本实施例的改进GAN模型通过训练，可以完全避免手动的特征筛选。即改进GAN模型对于不同的流量数据样本，具备动态自适应的特征字段重要性排序能力。而这就会对模型两方面能力带来提升，首先，模型可以更好地注意到流量数据样本中比较重要的特征并进行排序；其次，针对不同类型的流量数据样本，模型可以知晓其不同的特征字段的重要性序列。通过对这些重要的特征施加更多的注意力，其中所蕴含的信息就可以更好地被保留下来。因此，改进GAN模型可以有效避免因为对早期信息遗忘所导致的信息丢失，从而很好地解决了模型的长程依赖问题。

进一步地，需要说明的是，传统的GAN模型需要一次性生成整个样本，这就需要对生成样本整体进行评估并根据评估的结果进行反向传播，以指导模型修正生成新的样本。然而作为离散序列的入侵检测数据样本，对其进行整体评估极易出现反向传播失效的问题，这主要是因为入侵检测数据的特殊性导致的，流量数据样本中每个特征字段对应的内容是同时受限制于协议语义的要求和前后其他特征字段的要求。然而，传统的GAN模型中的反向传播所传导的梯度是连续的。这就导致模型在接受该梯度后所修正的样本是没有意义的。

举例来说，假设一个流量数据样本的可以用向量表示为[-1,2,3]，在梯度传播后变为[-1.1,1.9,2.9]，然而对于流量数据每个特征字段所承载的语义来说，这种样本是没有意义的，这就会导致模型无法正常工作。

为了让改进GAN模型适应入侵检测数据样本的离散序列特性，并更加充分地利用所学到信息高效地生成网络流量数据样本，可以通过引入强化学习中的蒙特卡洛算法，逐步逐次对每个特征字段所对应的备选内容继续评估，然后选择其中最优的内容填充到该特征字段。

但是，现有的方案所采用的惩罚函数是对于生成正确的样本给予奖励，生成错误的样本给予惩罚，这是符合常识的。但是，这却鼓励模型尽量生成正确但是重复的样本，以避免被检测器发现后得到大量的惩罚。然而这就与GAN的初衷相违背，模型不愿意去生成多样性的样本，从而导致GAN无法有效学习到目标类型入侵检测数据的整个分布。

请结合参见图5，图5是本发明实施例提供的一种GAN模型的生成器的分布学习过程示意图，如图所示，P_G(x)为GAN生成器所学习到的数据分布特征，而P_data(x)为目标类型入侵检测数据的分布。现有的惩罚函数会鼓励模型生成重复且安全的样本，从而导致P_G(x)局限于一个很小的超空间内，不愿意通过探索周围的超空间从而改变自身分布。然而GAN是通过不断地改变P_G(x)已逼近P_data(x)从而对其进行学习的。

为了克服上述问题，本实施了提出了一种改进的惩罚函数，并利用该改进的惩罚函数构建得到改进GAN模型的损失函数。具体地，该损失函数为：

在本实施例中，惩罚因子的设置值与样本数字化和归一化处理后的范围相关。

在本实施例中，改进的惩罚函数不对正确样本的生成进行奖励，只对错误样本的出现进行惩罚，这样生成器倾向于生成多样性更高的样本，以更好地逼近目标类型数据的分布。

进一步地，通过调研发现，IDS领域的带毒样本主要分为两类，第一类是由于数据处理时人为的失误所导致的，这种失误会导致样本被打上错误的标签。而第二类是来自攻击者的恶意投毒，然而，IDS数据不同于其他领域，每个特征所对应能内容含有其实际的语义，这就使得攻击者构造符合实际语义且能误导IDS，还能实际可用的网络流量样本是困难的。因此，在这种制约条件下现有的投毒攻击主要是标签反转攻击。

带毒样本对于传统的GAN来说威胁较大，因为攻击者所制作带毒样本其本质上致力于通过干扰数据的分布来影响模型对于目标数据分布的学习，进而影响模型的训练质量与生成样本的质量。而且，经过GAN重构的带毒数据集，其数据毒性会“扩散”到整个数据集中，进而导致在此基础上训练和部署的基于机器学习的IDS方案性能严重下降。

然而，正是由于带毒样本并不服从目标数据集原有的分布，模型学习带毒样本前后必然导致模型出现剧烈的信息增益，如图6所示的一种带毒样本对训练过程影响的示意图。基于此，本实施例提出了在改进GAN模型训练过程中，利用信息增益判别机制对可疑带毒样本进行剔除，具体地，包括：

步骤a：计算改进GAN模型输入当前输入样本之前的第一信息分布和输入当前输入样本之后的第二信息分布；

步骤b：根据第一信息分布和第二信息分布计算得到当前输入样本对应的信息增益；

在本实施例中，信息增益的计算公式如下：

式中，x_i表示当前输入样本，i表示当前输入样本为第i个输入样本，p₁表示第一信息分布，p₁＝(x₁,x₂,…,x_i-1)，p₂表示第二信息分布p₂＝(x₁,x₂,…,x_i)。

需要说明的是，随着训练周期的推进，在训练过程中靠后出现的样本更难影响模型，因此，引入参数i来修正这种误差。

步骤c：根据当前输入样本对应的信息增益以及预设的信息增益阈值，判断该输入样本是否为可疑带毒样本，若是则删除该输入样本，否则保留该输入样本。

具体地，若当前输入样本对应的信息增益超过预设的信息增益阈值，则该输入样本是可疑带毒样本，否则该输入样本不是可疑带毒样本。

需要特别强调的是，在本实施例中，即使某个输入样本不是投毒攻击引入的带毒样本，只要它干扰了模型的训练与目标分布的学习，那么，该输入样本实质上也等同于带毒样本或至少也是异常值，所以应该处理掉。同样地，即使某个带毒样本存在，但是只要其没有干扰分布学习，那么，就认为它不是带毒数据，因此，不必要对其进行清理。

本实施例的基于改进GAN的入侵检测数据重构方法，针对现有各类型入侵检测数据集质量较差的情形使用注意力机制，改进的损失函数以及带毒样本清洗机制解决了离散数据学习较差与带毒样本毒性扩散的问题。该入侵检测数据重构方法效率高，特别针对该领域常见的数据集中各类型数据规模差距较大的问题，能够通过生成指定类型的流量来对数据集进行配平，有效提升数据集的质量，从而解决因为数据集质量差导致的机器学习的学习效果变差的问题。而且，本实施例的入侵检测数据重构方法，可以高效地获得均衡且干净的入侵检测数据集，从而更方便地进行训练或设计基于机器学习的入侵检测方案。

实施例二

本实施例通过使用目前主流的公开数据集NSL-KDD与自采集流量数据集进行实验验证，以对实施例一的基于改进GAN的入侵检测数据重构方法的效果进行说明。

(1)实验环境

实验设备：i7-4900mq,16g RAM，系统win10/ubuntu18虚拟机；

模型训练设备：E5-1230，RTX2080Ti，ubuntu16.04；

路由器：Asus RT-N66U with Asuswrt Merlin；

(2)实验数据集介绍

1)NSL-KDD数据集介绍

NSL-KDD作为目前入侵检测领域最主流的数据集，其是对于KDD-99数据集的继承与改进。KDD-99数据集最早于1998年美国林肯实验所构建，该实验室构建了一个模拟的美国空军的局域网。实验室对该局域网九周内的网络连接数据进行收集汇总。在KDD-99数据集中，网络流量样本被定义成一段时间的TCP数据包序列，即在相应的协议下原始IP地址到最终目的IP地址的传递。而这也对后来的入侵检测数据集相关研究奠定了主要的基础与规范。随着时代的发展，KDD-99已经无法满足目前研究的需要，因此Tavallaee等人提出了NSL-KDD数据集。相比于KDD-99，该数据集主要去除了其中大量的冗余记录于重复的样本，适当缩小了每一类数据的规模并均衡了不同难度级别的数据。

2)数据集合特征描述

通过表1中展示的三条随机从NSL-KDD数据集中抽取的样本，可以发现，该数据集中的流量样本数据包括一共存在41维的特征与标签。具体可以分为TCP连接基本特征9个，TCP连接的内容特征13个，基于时间的网络流量统计特征9个，基于主机的网络流量统计特征10个。数据集也分为测试集与训练集，训练集包括Normal样本67343个、Dos样本45927个、Probe样本11656个、R2L样本995个和u2r样本52个。而测试集包括Normal样本9711个、Dos样本7636个、Probe样本2423个、R2L样本2573个和u2r样本200个。

表1.典型的NSL-KDD样本特征标签

3)自采集数据介绍

为了丰富测试数据的种类，验证所提方案的泛用性，本实施例还通过Tcpdump工具在实验室网络收集网络数据，这期间部署实验设备对网络进行模拟攻击。将得到的网络数据按照如上格式进行整理。经过众包的方式打标签并进行筛选，最终得到共得到样本1000个，其中Normal样本400个、Dos样本300个、Probe样本150个、R2L样本75个和u2r样本75个。

(3)数据预处理

1)数字化处理

在所构建的数据集中每个样本均包含41个特征字段，其中38个特征为数字特征，而3个为符号特征，为了训练的方便，需要将符号特征转化为数字特征。这里以表1所展示的样本为例进行处理，具体处理结果如表2下：

表2.数字化处理后的样本特征

2)归一化处理

通过观察样本可以发现，数据集中不同特征字段所对应的数值差异较大，这会严重影响模型的正常工作。此外，由于所设计的改进GAN模型具备注意力机制，可以自行学习不同类型流量中不同特征字段的重要性并分配不同的注意力程度。因此，这就要求原始数据中每个特征字段对应的数值应当有统一的取值区间，为此，对所有样本数据进行归一化处理，具体方法如下：

式中，x为原始数值，x′为处理后的数值，x_min为所有样本中该特征对应的最小数值，x_max为所有样本中该特征对应的最大数值。

仿真实验1

在公开数据集NSL-KDD上进行实验，实验分别进行三次，每次含有的带毒样本的比例分别为0％，5％和10％。进行试验所使用的基于机器学的入侵检测方案A到E为近年来高水平期刊会议所提出的方案，为了便于设置统一的基准线成绩来展示所提方案相较于现有同类型方案所在重构数据集的时可以更好地应对类别不均衡性和带毒样本问题，在实验复现时仅包含A到E各个方案中充分描述与贡献集中的主体部分。

请参见图7a-图7c，图7a-7c是本发明实施例提供的仿真实验1的多种IDS在公开数据集上的性能对比图。其中，图7a展示了A到E五种入侵检测方案在三种经过不同方案处理的未经投毒攻击的数据集上的性能对比。经过观察可以发现，在都不引入带毒样本的情况下，本发明所提方案与Seq-GAN处理过的数据集相较于未经处理的原始数据集质量更高。直接反应为五种IDS方案均获得更高的检测精度，其中，本发明所提方案相较于Seq-GAN提高2-3％，且二者均大幅优于未经处理的数据。由此可以认为，数据集经过GAN重构后可以大幅降低不均衡性，且本发明所引入的注意力机制和改进的惩罚函数有效地提升了该方案对于入侵检测数据分布的学习能力和网络流量数据样本生成能力。

图7b展示了当原始数据集中含有5％带毒样本时的情况。可以发现本发明所提方案性能并未大幅下降，而作为参照Seq-GAN虽然在不带毒时可以获得接近本发明方案的性能，但是当引入带毒样本后，Seq-GAN方案处理后的数据集会导致各种IDS方案均发生明显的性能下降。由此可以认为本发明的带毒样本清洗机制是有效的。

图7c展示了当原始数据集中含有10％带毒样本时的情况。可以发现五种入侵检测系统仍可以在本发明所提方案处理后的数据集上获得较为理想的性能。然而，此时Seq-GAN处理后的数据集质量已经出现严重下滑，各种基于此训练的入侵检测方案性能与未经处理的原生数据训练得到的性能相似，可以看出本发明的入侵检测数据重构方法改进的有效性。

仿真实验2

为了进一步验证本发明方案的有效性，引入自采集数据集进行实验，相比于NSL-KDD数据集，自采集数据集的规模较小，但是在实际部署中会更接近研究者的真实网络环境，因此，对其进行实验验证是有必要的。实验仍通过训练A到E五种基于机器学习的入侵检测模型并检测其性能，来衡量本发明方案在自采集数据集上的有效性。在实验过程中分别不引入带毒样本，引入5％带毒样本和引入10％带毒样本。

请参见图8a-8c，图8a-8c是本发明实施例提供的仿真实验2的多种IDS在公开数据集上的性能对比图。其中，图8a展示了未经投毒攻击的数据集的性能对比。图8b展示了当原始数据集中含有5％带毒样本时的情况。图8c展示了当原始数据集中含有10％带毒样本时的情况。从图中可以看到，在自采集数据集下，本发明所提方案处理后的数据集相较于Seq-GAN与原始数据集获得了较大的质量提升。在不含有带毒数据的情况下，使用Seq-GAN处理后的数据集所训练的模型与使用本发明所提方案处理的数据集所训练的模型性能相似，均大幅优于未处理数据集。随着带毒数据样本的引入，Seq-GAN方案处理的数据集质量发生大幅下滑，当带毒样本比例达到10％时其质量已经与未处理数据集相似。

通过比较自采集数据集上的实验与公开数据集上的实验，可以发现本发明的基于改进GAN的入侵检测数据重构方法在自采集数据集上，随着带毒样本比例的增加，方案处理后的数据集质量发生了一定的下滑，导致A到E五种基于机器学习的入侵检测方案均出现不同幅度的下降。经过分析可以发现，数据集质量下降的主要原因在于方案用来学习入侵检测数据分布的改进GAN模型中引入了过于严格的清洗策略，该策略导致了在清理带毒样本时，将同训练周期的部分正常样本同时删除。这一行为在数据量较大的NSL-KDD情况下对于模型的影响不大。但是由于自采集数据集中数据量规模较少，过于严格的清洗策略会破坏某些类别的入侵检测数据的分布，从而降低模型的性能。但是总体上，本发明所提方案相较于其他方案处理后的数据集与未经处理的数据集，仍可以大幅改进平衡性和鲁棒性。

本发明的基于改进GAN的入侵检测数据集重构方法，通过引入带有注意力机制的LSTM、设计全新的惩罚函数，以及基于信息增益的带毒样本清洗机制，解决了现有同类型方案中存在的对于入侵检测数据分布学习不充分，生成网络流量数据种类与质量单一以及带毒样本降低模型性能的问题。根据在公开数据集与自采集数据集上的含有不同比例带毒样本的实验可以发现，本发明方案可以相较于已有最佳方案Seq-GAN与原始数据集，明显地提升了模型性能与对于投毒攻击的鲁棒性，进而显著改善入侵检测数据集中广泛存在的类别不均衡问题与样本数据带毒问题。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于改进GAN的入侵检测数据重构方法，其特征在于，包括：

其中，所述改进GAN模型利用带有注意力机制的LSTM模块提取所述入侵检测数据子集的数据分布特征信息，并根据损失函数对所述改进GAN模型进行训练，学习所述入侵检测数据子集的数据分布，直至所述改进GAN模型的梯度收敛，同时利用信息增益判别机制对可疑带毒样本进行剔除，生成对应类型的网络流量数据样本；

所述损失函数为：

式中，i表示第i个输入样本，L表示GAN网络的原始损失函数，表示惩罚函数，w表示权重矩阵，该权重矩阵包括Q参数矩阵，K参数矩阵和V参数矩阵，δ表示惩罚因子，χ表示阈值，p表示惩罚函数系数；

利用信息增益判别机制对可疑带毒样本进行剔除，包括：

步骤b：根据所述第一信息分布和所述第二信息分布计算得到当前输入样本对应的信息增益；所述信息增益的计算公式如下：

式中，x_i表示当前输入样本，i表示当前输入样本为第i个输入样本，p₁表示第一信息分布，p₂表示第二信息分布；

2.根据权利要求1所述的基于改进GAN的入侵检测数据重构方法，其特征在于，所述改进GAN模型包括生成器和检测器，其中，

3.根据权利要求1所述的基于改进GAN的入侵检测数据重构方法，其特征在于，所述改进GAN模型利用带有注意力机制的LSTM模块提取所述入侵检测数据子集的数据分布特征信息，包括：

Q＝xw^Q；

K＝xw^K；

V＝xw^V；

a_i＝softmax(S(K_i,Q_i))；

4.根据权利要求3所述的基于改进GAN的入侵检测数据重构方法，其特征在于，所述S1之前还包括：

5.根据权利要求1所述的基于改进GAN的入侵检测数据重构方法，其特征在于，在所述步骤c中，若所述当前输入样本对应的信息增益超过所述预设的信息增益阈值，则该输入样本是可疑带毒样本，否则该输入样本不是可疑带毒样本。