CN117118718A

CN117118718A - 一种基于多生成器gan数据增强的入侵检测方法及系统

Info

Publication number: CN117118718A
Application number: CN202311119742.1A
Authority: CN
Inventors: 崔晓晖; 丁红卫; 黄娜娜
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-11-24

Abstract

本发明提供一种基于多生成器GAN数据增强的入侵检测方法及系统，包括：S1，采集网络流量中的正常样本和少量的模拟攻击样本；S2，对采集到的数据进行数据预处理；S3，将预处理完成的数据划分为训练样本集和测试样本集；S4，构建TMG‑GAN模型；使用训练数据训练TMG‑GAN模型，并使用训练好的TMG‑GAN模型来平衡采集的非平衡数据集；S5，构建CNN检测模型，使用平衡的训练数据训练CNN检测模型；S6，输入测试数据，对训练完成的CNN检测模型进行性能测试。本发明解决了传统的数据增强方法无法从全局拟合样本分布，从而生成的数据特征多样性有限的缺陷，通过设计的多生成器和余弦相似度损失，不仅可以生成多样性较强的样本，还能有效减少类重叠区域的模糊度。

Description

一种基于多生成器GAN数据增强的入侵检测方法及系统

技术领域

本发明涉及计算机应用技术领域，更具体地，特别涉及一种基于多生成器GAN数据增强的入侵检测方法及系统。

背景技术

目前，随着大数据、云计算和5G通信技术的快速发展，物联网(IoT)得到了广泛的应用，使得人类生活进入了万物互联的新时代。IoT不仅拓展了通信维度，推动了“物与物、物与人、人与人”之间广泛而又智能的连接，且极大提升了现代社会的管理服务效能和人们的生活质量。借助大数据、人工智能和云计算等技术的发展，IoT被广泛扩展到智慧农业、智慧城市、智慧医疗和工业互联网等多种应用场景。但是，IoT是通过先进的信息通信技术将虚拟网络与物理环境相连，在促进人类智慧化发展的同时，也不可避免的将虚拟网络中存在的安全风险和漏洞引入物理环境中。因此，如何保障物联网设备的安全，减少企业和个人受到来自网络攻击的威胁，已经成为业内人员和网络安全技术人员密切关注的问题。

入侵检测作为一种能有效保护网络安全性的主动防御技术，受到了广泛的研究。近年来，许多富有创新性的入侵检测技术被提出。通常，研究者们将入侵检测问题归类为二分类或者多分类问题。基于此，许多传统的机器学习分类方法被用到了入侵检测领域，如决策树、支持向量机、多层感知机和随机森林等。但是传统的机器学习方法因其固有的特性，无法有效处理海量、高维和复杂的网络数据。深度学习方法能够有效学习数据的内部表示特征，对于处理高维、复杂和存在噪声的数据具有优异效果。因此，将深度学习技术应用于网络入侵检测领域受到了广泛的研究。在入侵检测中应用较为广泛的深度学习技术包括卷积神经网络、循环神经网络和自编码网络等。

然而，尽管目前相关学者已提出许多先进的入侵检测方法，但仍存在以下缺陷。首先，从互联网中收集有效的攻击样本非常困难，并且需要耗费极大的人力和物力。这就使得在实验中攻击样本的数量会远少于正常样本，从而引起数据集中的类间不平衡问题。例如，数据集中的正常流量样本有100000条，而攻击样本仅有1000条。将多数类样本和少数类样本的比值称为不平衡率(IR)，则正常和攻击样本的不平衡率为100。当使用有监督的分类算法进行非平衡数据的分类时，会极大的增加少数类样本的分类难度，从而导致对攻击类型数据的检测率极低。其次，面对极少量样本时，依靠传统的非平衡数据处理方法和深度学习方法很难实现有效的分类。极少量样本代表多数类和少数类样本的不平衡率达到了极高的值。例如，当攻击样本仅有50条时，正常样本和攻击样本的IR达到了2000，这属于极度不平衡数据。面对极少量样本时，有监督分类器通常会倾向于将所有的攻击样本识别为正常样本。而传统的数据采样方法面对这种极度不平衡数据时，也极难处理此类问题。

发明内容

为了解决现有的技术问题，本发明提出了一种基于多生成器GAN数据增强的入侵检测方法，即TMG-GAN模型，以克服现有数据增强技术难以有效拟合数据的整体分布、容易引入噪声数据和容易造成分类边界模糊的问题，并且本发明提出的TMG-GAN模型是经过改进后的GAN模型。改进后的模型设计了多生成器结构、添加了分类器结构和引入了新的生成器附加损失，以提高数据生成质量和增强分类边界清晰度，同时设计了一种基于分类器的生成数据评估方法，可以有效的过滤生成数据中的噪声数据。

根据本发明的第一方面，提供了一种安全的主动式入侵检测方法，包括以下步骤：

步骤S1，对非平衡数据进行采集，包括采集网络流量中的正常样本和少量的模拟攻击样本；

步骤S2，对采集到的数据进行数据预处理，预处理包括数值化和特征归一化；

步骤S3，将预处理完成的数据划分为训练样本集和测试样本集，其中，训练样本集用于TMG-GAN模型和CNN检测模型的训练，测试样本集用于CNN检测模型的测试；

步骤S4，构建TMG-GAN模型；使用训练数据训练TMG-GAN模型，使用训练完成的TMG-GAN模型生成各类攻击样本，使各类攻击样本的数量和正常样本一致，得到平衡的训练样本集；

步骤S5，构建CNN检测模型，使用平衡的训练数据训练CNN检测模型；

步骤S6，输入测试数据，对训练完成的CNN检测模型进行性能测试。

在上述技术方案的基础上，本发明还可以作出如下改进。

可选的，在步骤S1中，采集的非平衡数据类别包括：正常流量、以及DDoS、DoS、Brute Force、Spoofing、Web Attack和Bot常见网络攻击流量，并且采集的非平衡数据中正常流量远大于其它攻击流量。

可选的，在步骤S2中，所述数值化采用one-hot编码将字符型数据特征转换为数值型特征，所述归一化采用最大-最小方法将数据归一化到[0,1]区间，其公式如下：

其中，x^*为归一化后的数据，x为当前原始数据，x_min为当前属性中的最小的数据值，x_max为当前属性中的最大数据值。

可选的，所述TMG-GAN模型包含了多个生成器、一个判别器和一个分类器；在步骤S4中，所述构建TMG-GAN模型；使用训练数据训练TMG-GAN模型，使用训练完成的TMG-GAN模型生成各类攻击样本，使各类攻击样本的数量和正常样本一致，得到平衡的训练样本集包括：

多组生成器生成和原始数据分布相似的伪样本，判别器判定输入样本是来自于真实样本或是生成器生成的样本；通过生成器和判别器的对抗训练，最终生成器生成以假乱真的伪样本数据，即TMG-GAN训练完成；当TMG-GAN训练完成后，使用生成器生成各类攻击样本，以扩增原始攻击样本，使得原始数据集中的攻击样本和正常样本达到平衡状态。

可选的，所述TMG-GAN模型中的每一个生成器负责一类样本的训练和生成；在训练判别器时，分类器的分类损失用于更新判别器的附加损失。

可选的，所述TMG-GAN的目标函数表示如下：

式中，S＝N+1为数据的总类别数，D(x_k)表示对真实样本的判别概率，表示对生成样本的判别概率，E[·]表示期望值，C(x_k)表示用于更新判别器的分类损失，/>表示用于更新生成器G_k的分类损失。O_k表示生成样本/>和其它样本计算余弦相似度的结果。

可选的，所述生成器附加损失表达式如下：设由生成器生成的样本为对应的原始样本为x_k，经过特征提取器F得到两种样本的高维特征为/>和F(x_k)；则生成样本与原始样本间的余弦相似度由如下公式得出：

可选的，在步骤S4中，使用TMG-GAN进行数据生成时，还包括基于生成器的噪声样本过滤，保留使分类器正确分类的生成样本，过滤掉难分类的伪样本。

可选的，所述基于生成器的噪声样本进行过滤中，过滤算法如下：假设生成器G_1～N生成的各类攻击样本数据为对应的标签为/>将生成的样本数据/>输入到分类器C中，如果/>并且/>则/>属于易分类样本；如果/>并且/>则/>属于难分类样本。

根据本发明的第二方面，提供一种安全的主动式入侵检测系统，包括：

数据采集模块，用于对非平衡数据进行采集，包括采集网络流量中的正常样本和少量的模拟攻击样本；对采集到的数据进行数据预处理，预处理包括数值化和特征归一化；

数据处理模块，用于将预处理完成的数据划分为训练样本集和测试样本集，其中，训练样本集用于TMG-GAN模型和CNN检测模型的训练，测试样本集用于CNN检测模型的测试；

第一生成模块，用于构建TMG-GAN模型；使用训练数据训练TMG-GAN模型，使用训练完成的TMG-GAN模型生成各类攻击样本，使各类攻击样本的数量和正常样本一致，得到平衡的训练样本集；

第二生成模块，用于构建CNN检测模型，使用平衡的训练数据训练CNN检测模型；输入测试数据，对训练完成的CNN检测模型进行性能测试。

本发明的技术效果和优点：

1.本发明提出使用一种基于TMG-GAN数据增强的入侵检测方法，不仅可以有效检测已知的网络攻击类型，对未知攻击也具有较好的泛化性能。

2.本发明使用的TMG-GAN模型能够从全局拟合原始数据的分布，解决了传统过采样方法只能从局部生成数据的缺陷，并且通过将高维特征间的余弦相似度作为生成器的训练损失，可以更好的分离各类生成数据的分布，从而增强分类边界的清晰度。

3.本发明提出的TMG-GAN模型中设计了分类器模块，可以用于生成数据中噪声数据的过滤，从而保证了生成数据的质量，从而解决了传统GAN模型的数据增强方案会引入噪声数据的问题。

附图说明

图1为本发明实施例提供的一种基于多生成器GAN数据增强的入侵检测方法流程图；

图2为本发明实施例提供的TMG-GAN模型结构图；

图3为本发明实施例提供的余弦相似度算法示意图；

图4为本发明实施例提供的潜在应用场景示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

可以理解的是，基于背景技术中的缺陷，本发明实施例提出了一种基于多生成器GAN数据增强的入侵检测方法，参照图1所示，该方法包括如下步骤：

步骤S1，非平衡数据采集，包括采集网络流量中的正常样本和少量的模拟攻击样本；

进一步的，步骤S1中采集的非平衡数据类别包括：正常流量，以及DDoS、DoS、BruteForce、Spoofing、Web Attack和Bot等常见网络攻击。通过模拟物联网环境中的攻击来采集非平衡数据，并且这些数据中正常流量会远大于其它攻击流量。

步骤S2，对采集到的数据进行数据预处理，其中数据预处理包括数值化和特征归一化；

进一步的，步骤S2的数值化采用one-hot编码将字符型数据特征转换为数值型特征；归一化采用最大-最小方法将数据归一化到[0,1]区间，其公式如下所示：

步骤S3，将预处理完成的数据划分为训练样本集和测试样本集，训练样本集用于TMG-GAN模型和CNN检测模型的训练，测试样本集用于CNN检测模型的测试；

需要进行说明的是，训练样本集用于TMG-GAN模型和包括但不限于CNN检测模型的训练，测试样本集包括但不限于最终CNN检测模型的测试；还可以用于MLP分类模型的训练或测试。后续测试模型的选取可依据实际需求自行选取，在本示例中，以CNN检测模型为例进行示例性地说明。

需要进行说明的是，TMG-GAN模型是一种生成式模型，可以通过收集到的攻击样本和正常样本进行训练，训练完成的模型可以用于生成新的攻击样本。本发明设计的TMG-GAN模型结构如图2所示。TMG-GAN模型中包含了多个生成器{G₀,G₁,…,G_N}、一个判别器D、一个分类器C和一个特征提取器F。生成器{G₀,G₁,…,G_N}的数量是由攻击样本的类别数量决定的，即生成器数量为攻击样本类别数加一类正常样本。TMG-GAN的每组生成器的输入都是从高斯分布中采样的随机噪声，输出是正常流量伪样本和各类攻击伪样本。判别器的输入是采集到的正常流量样本和各类攻击样本，以及生成器生成的正常和各类攻击伪样本，输出是判定所输入的样本是否为真的概率。分类器C和判别器D共享分类层之前的参数，输出为各类样本的分类结果。特征提取F的作用是获取分类器C最后一层隐藏层提取到的特征。该特征用于计算余弦相似度损失，用于作为生成器的附加损失，以改进生成器的生成效果。基于此，TMG-GAN的整体训练思路描述如下。首先，训练判别器D和分类器C：从高斯分布中随机采样一组高斯噪声作为生成{G₀,G₁,…,G_N}的输入，输出是生成的伪样本数据。然后将采集到真实流量样本和生成的伪样本作为判别器D的输入，判别器的输出为判别器概率，即输入的数据是真实样本或生成样本的概率。由于分类器C和判别器共享隐藏层参数，因此，分类器C和判别器D被设计为共用同样的隐藏层，区别在于判别器D的最后一层分类层是二分类，用于判别输出数据的真假(真为1，假为0)，分类器C的最后一层分类层为多分类，用于判别输出数据所属的类别。因此，判别器D和分类器C的参数的更新由判别器D的判别损失和分类器C的分类损失共同决定。当判别器训练完成后，则开始训练生成器：从高斯高斯分布中随机采样一组高斯噪声作为生成{G₀,G₁,…,G_N}的输入，然后将生成数据作为判别器D和分类器C的输入，设置生成数据对应的标签为1，因此可以得到判别损失和分类损失用更新生成器{G₀,G₁,…,G_N}的参数。训练生成器时判别器D(分类器C)的参数保持不变。此外，在训练生成器时，我们基于分类器最后一层隐藏层提取的高维特征设计了余弦相似度损失作为生成的附加损失，以使得生成器可以生成更高质量的数据。综上两个过程：判别器的训练过程是提高对数据真假能力的判断；生成器的训练过程是提高样本的生成质量，使生成数据更接近于真实数据。基于此，判别器D和生成器G不断的对抗训练，直到判别器对输入数据的判断为0.5，即无法判断输入数据是真或假时，则表明生成G可以生成与真实样本相似的伪样本。最终，使用训练完成的生成器G，以随机噪声为输入，就可以生成更多的攻击样本，以平衡原始数据集。特别的是，在最后的数据生成时，我们设计了一个基于分类器C的噪声过滤器。因为在TMG-GAN训练完成后，分类器C可以很好判断样本的类别，因此使用生成器{G₀,G₁,…,G_N}生成样本时，会先输入到C进行分类，分类错误的样本会被认为噪声样本，从而过滤掉此类样本。

基于此，步骤S4具体包括：多组生成器用于生成和原始数据分布相似的伪样本，判别器用于判定输入样本是来自于真实样本或是生成器生成的样本。通过生成器和判别器的对抗训练，最终生成器生成以假乱真的伪样本数据，即TMG-GAN训练完成。当TMG-GAN训练完成后，使用生成器生成各类攻击样本，以扩增原始攻击样本，从而使得原始数据集中的攻击样本和正常样本达到平衡状态。

需要进行说明的是，数据集中的正常流量样本有100000条，而攻击样本仅有1000条。将多数类样本和少数类样本的比值称为不平衡率(IR)，则正常和攻击样本的不平衡率为100。当使用有监督的分类算法进行非平衡数据的分类时，会极大的增加少数类样本的分类难度，从而导致对攻击类型数据的检测率极低。其次，面对极少量样本时，有监督分类器通常会倾向于将所有的攻击样本识别为正常样本。

本实施例所设计的TMG-GAN具有多生成器结构，TMG-GAN模型中的每一个生成器负责一类样本的训练和生成；可以用于同时生成不同类型的攻击样本数据。同时增加了分类器结构，基于分类损失可以更有效的优化生成器和判别器。具体结合图2中的TMG-GAN模型结构图，在TMG-GAN模型设计中，使用一组生成器{G₀,G₁,…,G_N}共同构建映射函数，从而将随机噪声z映射到数据空间X。多生成器GAN中的随机噪声z遵循高斯分布p_z(z)，从生成器G_k中可以得到生成分布原始数据遵循的分布为p_r(x_k)。多生成器GAN作为一种GAN的改进模型，仍然遵循G和D的极小极大博弈游戏，即生成器{G₀,G₁,…,G_N}朝着极小化优化，而判别器D朝着极大化优化。与原始的GAN模型性相比，多生成器GAN中的每个生成器都被鼓励只关注某一类样本的生成。当训练生成器时，分类器C用于识别G_k生成的样本/>是否属于类别k，并将分类损失Loss_C(G)用于更新生成{G₀,G₁,…,G_N}，以指导每个生成器生成不同分布的样本。此外，在为了减小模型的复杂度，将判别器D和生成器C的参数进行了绑定，即D和C的全连接层共享参数。在训练判别器时，分类器的分类损失Loss_C(D)同样用于更新判别器的附加损失。基于这种GAN的改进形式，GAN中的每个生成器都可以充分的学习一类样本的分布，对于类间非平衡数据的扩充起到有效的作用。

另外，步骤S4还设计一种新的生成器附加损失，即余弦相似度损失，用于在训练生成器时作为生成器的损失之一。结合图3所示的余弦相似度算法示意图来看，设由生成器生成的样本为对应的原始样本为x_k。经过F得到两种样本的高维特征为/>和F(x_k)。则生成样本与原始样本间的余弦相似度可以由如下公式得出：

同样，生成样本与其余类型的生成样本之间的余弦相似度可以用如下公式得出：

因为希望生成样本的分布更加靠近于原始样本x_k，因此余弦相似度/>F(x_k))越大越好。相反的，希望生成样本/>的分布尽量避免与其它类型的生成样本/>的分布重合，因此余弦相似度/>越小越好。基于此，最终用于更新生成器G_k的余弦相似度损失的表示如下：

进一步的，TMG-GAN的目标函数可以表示如下：

式中，S＝N+1为数据的总类别数，D(x_k)表示对真实样本的判别概率，表示对生成样本的判别概率，E[·]表示期望值，C(x_k)表示用于更新判别器的分类损失，/>表示用于更显生成器G_k的分类损失。O_k表示生成样本/>和其它样本计算余弦相似度的结果。TMG-GAN中的分类器C采用交叉熵损失作为目标函数，其等式如下：

其中y_ik和p_ik分别表示第i个样本属于第k类的真实标签和预测概率。

此外，在使用TMG-GAN进行数据生成时，还设计了一种基于生成器C的噪声样本过滤算法。噪声过滤是模型训练完成之后，使用生成器生成数据时添加的一步操作。其中，过滤算法公式如下：假设生成器G_1～N生成的各类攻击样本数据为对应的标签为/>将生成的样本数据/>输入到C中，如果/>并且/>则/>属于易分类样本；如果/>并且/>则/>属于难分类样本。基于此，本发明中选择保留可以使分类器C正确分类的生成样本，过滤掉难分类的伪样本。

基于此，训练完成的分类器还可以作为噪声过滤器，以过滤生成的噪声样本。我们通过计算生成样本和原始样本及其它类型生成样本之间的余弦相似度，作为生成器损失，可以进一步提高生成样本质量和减少各类生成样本分布间的类重叠区域。

步骤S5，构建CNN检测模型，使用上述得到的平衡训练数据训练CNN检测模型；

进一步的，在步骤S5中使用构建完成的CNN模型，基于步骤S4中获得的平衡数据集进行训练，进而可以增强模型的鲁棒性，以提升最终的入侵检测效果。

最后，我们提出的基于多生成器GAN数据增强的入侵检测方法可以应用于实际场景中的入侵检测中。如图4所示，给出的是本发明所述的方法在入侵检测场景下的潜在应用。使用本发明提出的TMG-GAN模型生成的攻击样本可以生成更多的攻击样本，从而可以得到平衡的训练样本集。将在平衡数据集下训练完成的深度学习模型(CNN模型或其它检测模型)应用于真实的网络环境，可以更好的抵御网络攻击。通过在检测器中设置预定的阈值，可以对网络流量进行判别，正常流量可以通过入侵检测系统，而异常流量则会被拦截。

另外，本发明实施例还提供了一种基于多生成器GAN数据增强的入侵检测系统，包括：

可以理解的是，本发明提供的一种基于多生成器GAN数据增强的入侵检测系统与前述各实施例提供的一种基于多生成器GAN数据增强的入侵检测方法相对应，一种基于多生成器GAN数据增强的入侵检测系统的相关技术特征可参考一种基于多生成器GAN数据增强的入侵检测方法的相关技术特征，在此不再赘述。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多生成器GAN数据增强的入侵检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于多生成器GAN数据增强的入侵检测方法，其特征在于，在步骤S1中，采集的非平衡数据类别包括：正常流量、以及DDoS、DoS、Brute Force、Spoofing、Web Attack和Bot常见网络攻击流量，并且采集的非平衡数据中正常流量远大于其它攻击流量。

3.根据权利要求1所述的一种基于多生成器GAN数据增强的入侵检测方法，其特征在于，在步骤S2中，所述数值化采用one-hot编码将字符型数据特征转换为数值型特征，所述归一化采用最大-最小方法将数据归一化到[0,1]区间，其公式如下：

4.根据权利要求1所述的一种基于多生成器GAN数据增强的入侵检测方法，其特征在于，所述TMG-GAN模型包含了多个生成器、一个判别器和一个分类器；在步骤S4中，所述构建TMG-GAN模型：使用训练数据训练TMG-GAN模型，使用训练完成的TMG-GAN模型生成各类攻击样本，使各类攻击样本的数量和正常样本一致，得到平衡的训练样本集包括：

5.根据权利要求4所述的一种基于多生成器GAN数据增强的入侵检测方法，其特征在于，所述TMG-GAN模型中的每一个生成器负责一类样本的训练和生成；在训练判别器时，分类器的分类损失用于更新判别器的附加损失。

6.根据权利要求1所述的一种基于多生成器GAN数据增强的入侵检测方法，其特征在于，所述TMG-GAN的目标函数表示如下：

7.根据权利要求5所述的一种基于多生成器GAN数据增强的入侵检测方法，其特征在于，所述判别器附加损失表达式如下：设由生成器生成的样本为对应的原始样本为x_k，经过特征提取器F得到两种样本的高维特征为/>和F(x_k)；则生成样本与原始样本间的余弦相似度由如下公式得出：

8.根据权利要求1所述的一种基于多生成器GAN数据增强的入侵检测方法，其特征在于，在步骤S4中，在使用TMG-GAN进行数据生成时，还包括：基于生成器的噪声样本进行过滤，保留使分类器正确分类的生成样本，过滤掉难分类的伪样本。

9.根据权利要求8所述的一种基于多生成器GAN数据增强的入侵检测方法，其特征在于，所述基于生成器的噪声样本进行过滤中，过滤算法如下：假设生成器G_1～N生成的各类攻击样本数据为对应的标签为/>将生成的样本数据/>输入到分类器C中，如果/>并且/>则/>属于易分类样本；如果/>并且/>则/>属于难分类样本。

10.一种基于多生成器GAN数据增强的入侵检测系统，其特征在于，包括：

第二生成模块，用于构建CNN检测模型，使用平衡的训练数据训练CNN检测模型；

输入测试数据，对训练完成的CNN检测模型进行性能测试。