CN115277189A

CN115277189A - 基于生成式对抗网络的无监督式入侵流量检测识别方法

Info

Publication number: CN115277189A
Application number: CN202210889434.6A
Authority: CN
Inventors: 唐玺博; 张立民; 钟兆根; 谢存祥; 金堃
Original assignee: Naval Aeronautical University
Current assignee: Naval Aeronautical University
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-11-01
Anticipated expiration: 2042-07-27
Also published as: CN115277189B

Abstract

本发明涉及基于生成式对抗网络的无监督式入侵流量检测识别方法，属于计算机网络应用领域。方法包括：获取入侵流量数据集；对入侵流量数据集进行预处理，得到训练数据集与测试数据集；将训练数据集和随机噪声输入到WGAN‑div网络，得到扩充数据；将扩充数据和训练数据集合并，得到合并数据集；利用合并数据集、潜向量和不可压缩噪声对Info GAN网络进行训练，得到训练好的Info GAN网络；利用训练好的Info GAN网络中的分类网络对测试数据集进行判别分类，得到分类结果。本发明的方法提高了对入侵流量数据的识别效率低以及分类性能。

Description

基于生成式对抗网络的无监督式入侵流量检测识别方法

技术领域

本发明涉及计算机网络应用领域，特别是涉及基于生成式对抗网络的无监督式入侵流量检测识别方法。

背景技术

入侵检测是指在计算机及数据网络正常开放运行的同时，对其进行的一种安全监测和保障。网络入侵的方式可分为以下几种：一是系统内部的非管理员用户访问无权限的文件或数据；二是系统外部攻击者非法访问或破坏系统数据；三是系统内部用户权限管理混乱。入侵检测的目标则是针对上述入侵方式进行实时检测与识别。当前互联网技术的发展迅速，出现终端形式多样化、协议端口动态化、用户数量剧烈增长化等现象，这导致互联网处理的信息量呈爆炸式增长。网络信息量及用户数量快速增长的同时，也出现了恶意攻击、网络病毒、流量入侵等安全问题，对用户的信息安全产生了很大威胁，因此网络入侵检测技术对于保护信息安全的重要性日益凸显。目前，与防火墙等传统网络防御技术相比，网络入侵检测系统(NIDS)能够更好地对网络异常流量进行检测识别，从而防止网络受到可能的入侵，以确保其机密性、完整性和可用性。

早期的入侵流量检测依赖于基于规则和专家经验的检测方法，即通过先验知识对入侵规则进行提前设定，然后对网络环境的相应状态参数进行捕获，与设定规则进行比对以实现入侵检测的目的。基于规则和专家系统的方法能够实现对规则约束内的入侵流量类型的检测识别，但对于既定规则外的未知入侵流量无法做到有效识别。专家知识库的建立需要大量的先验知识和时间，在互联网信息流量巨大的现代条件下显然无法适用。

为了有效满足入侵检测技术的需求，人们广泛尝试采用深度学习技术对网络流量进行处理。深度学习通过对非线性模块的组合应用，能够学习高维数据中的复杂结构，因此具备处理原始数据集的能力，无需采用其他算法构建特征处理器。在2019年InternationalJournal ofComputer Network and Information Security期刊上的“Deep LearningApproach on Network Intrusion Detection Systemusing NSL-KDD Dataset”一文中，Gurung S等提出一种带逻辑回归的稀疏自动编码器，通过堆叠自动编码器创建深度网络，在NSL-KDD数据集二分类准确率达到84.6％。在2019年IEEE Access期刊上的“Deeplearning approach forintelligent intrusion detection system”一文中，Vinayakumar R等提出使用深度神经网络DNN来开发入侵流量检测系统，算法在NSL-KDD、CICIDS2017、UNSW-NB15数据集上的多分类准确率分别达到78.5％，96.2％和66％。

基于深度学习的入侵流量检测方法在一定程度上解决了人工建立规则和专家库的弊端，但绝大多数的入侵流量检测模型属于有监督学习模型，算法的训练依赖于大量的有标签样本。在实际的网络环境中，攻击流量样本属于小样本，数量远少于正常流量样本数量。因此，寻找足量的样本、并进行标签标注需要耗费大量的时间精力，通常情况下攻击流量只有少量的标签数据可用，这将导致监督学习算法的分类性能不理想。并且，大部分研究对于数据都未进行合理的预处理，尤其对于攻击流量呈现出的数量少、分布不平衡的特点，没有进行深入的研究，而是直接采用归一化处理，这将导致神经网络忽略对小样本的特征学习，进而导致小样本的识别率低下，特征选择出现偏差，模型泛化性不强。

发明内容

本发明的目的是提供基于生成式对抗网络的无监督式入侵流量检测识别方法，以解决现有技术中入侵流量检测识别方法的识别效率低、分类性能不理想的问题。

为实现上述目的，本发明提供了如下方案：

基于生成式对抗网络的无监督式入侵流量检测识别方法，包括：

获取入侵流量数据集；

对所述入侵流量数据集进行预处理，得到预处理后的入侵流量数据集；所述预处理后的入侵流量数据集包括训练数据集和测试数据集；

将所述训练数据集和随机噪声输入到WGAN-div网络，得到扩充数据；所述WGAN-div网络包括WGAN-div判别器和WGAN-div生成器；

将所述扩充数据和所述训练数据集合并，得到合并数据集；

利用所述合并数据集、潜向量和不可压缩噪声对Info GAN网络进行训练，得到训练好的Info GAN网络；所述Info GAN网络包括Info GAN判别器、Info GAN生成器和分类网络；

利用所述训练好的Info GAN网络中的分类网络对所述测试数据集进行判别分类，得到分类结果。

可选地，所述对所述入侵流量数据集进行预处理，得到预处理后的入侵流量数据集，具体包括：

移除所述入侵流量数据集中的冗余特征、全零特征和无关特征，得到移除后的数据集；

将所述移除后的数据集分为数据特征和非数据特征；

对所述数据特征进行归一化处理，得到归一化数据特征；

对所述非数据特征进行编码处理，得到编码后的非数据特征；

将所述归一化数据特征和所述编码后的非数据特征合并，得到合并数据特征；

对所述合并特征的维度进行扩充，得到扩充后的数据；

将所述扩充后的数据进行随机重排，并转化为二维向量，得到预处理后的入侵流量数据集。

可选地，所述将所述训练数据集和随机噪声输入到WGAN-div网络，得到扩充数据，具体包括：

将所述随机噪声输入到所述WGAN-div生成器中，生成第一伪数据；

将所述训练数据集设置标签为1，作为第一标签；将所述第一伪数据设置标签为0，作为第二标签；

利用所述训练数据集、所述第一伪数据、所述第一标签和所述第二标签对所述WGAN-div网络进行训练，得到训练好的WGAN-div网络；所述训练好的WGAN-div网络包括训练好的WGAN-div判别器和训练好的WGAN-div生成器；

将所述随机噪声输入到所述训练好的WGAN-div生成器，生成第二伪数据作为扩充数据。

可选地，所述利用所述合并数据集、潜向量和不可压缩噪声对Info GAN网络进行训练，得到训练好的Info GAN网络，具体包括：

将所述潜向量和所述不可压缩噪声输入到所述Info GAN生成器中，生成第三伪数据；

将所述合并数据集设置标签为1，作为第三标签；将所述第三伪数据设置标签为0，作为第四标签；

利用所述合并数据集、所述第三伪数据、所述第三标签和所述第四标签对所述Info GAN网络进行训练，得到训练好的Info GAN网络；所述训练好的网络包括训练好的Info GAN判别器、训练好的Info GAN生成器和训练好的分类网络。

基于生成式对抗网络的无监督式入侵流量检测识别系统，包括：

数据获取模块，用于获取入侵流量数据集；

预处理模块，用于对所述入侵流量数据集进行预处理，得到预处理后的入侵流量数据集；所述预处理后的入侵流量数据集包括训练数据集和测试数据集；

数据扩充模块，用于将所述训练数据集和随机噪声输入到WGAN-div网络，得到扩充数据；所述WGAN-div网络包括WGAN-div判别器和WGAN-div生成器；

数据合并模块，用于将所述扩充数据和所述训练数据集合并，得到合并数据集；

训练模块，用于利用所述合并数据集、潜向量和不可压缩噪声对Info GAN网络进行训练，得到训练好的Info GAN网络；所述Info GAN网络包括Info GAN判别器、Info GAN生成器和分类网络；

分类模块，用于利用所述训练好的Info GAN网络中的分类网络对所述测试数据集进行判别分类，得到分类结果。

可选地，所述预处理模块，包括：

移除单元，用于移除所述入侵流量数据集中的冗余特征、全零特征和无关特征，得到移除后的数据集；

数据分类单元，用于将所述移除后的数据集分为数据特征和非数据特征；

归一化单元，用于对所述数据特征进行归一化处理，得到归一化数据特征；

编码单元，用于对所述非数据特征进行编码处理，得到编码后的非数据特征；

数据合并单元，用于将所述归一化数据特征和所述编码后的非数据特征合并，得到合并数据特征；

维度扩充单元，用于对所述合并特征的维度进行扩充，得到扩充后的数据；

转化单元，用于将所述扩充后的数据进行随机重排，并转化为二维向量，得到预处理后的入侵流量数据集。

可选地，所述数据扩充模块，包括：

第一位数据生成单元，用于将所述随机噪声输入到所述WGAN-div生成器中，生成第一伪数据；

第一标签设置单元，用于将所述训练数据集设置标签为1，作为第一标签；将所述第一伪数据设置标签为0，作为第二标签；

WGAN-div网络训练单元，用于利用所述训练数据集、所述第一伪数据、所述第一标签和所述第二标签对所述WGAN-div网络进行训练，得到训练好的WGAN-div网络；所述训练好的WGAN-div网络包括训练好的WGAN-div判别器和训练好的WGAN-div生成器；

扩充数据生成单元，用于将所述随机噪声输入到所述训练好的WGAN-div生成器，生成第二伪数据作为扩充数据。

可选地，所述训练模块，包括：

第三伪数据生成单元，用于将所述潜向量和所述不可压缩噪声输入到所述InfoGAN生成器中，生成第三伪数据；

第二标签设置单元，用于将所述合并数据集设置标签为1，作为第三标签；将所述第三伪数据设置标签为0，作为第四标签；

Info GAN网络训练单元，用于利用所述合并数据集、所述第三伪数据、所述第三标签和所述第四标签对所述Info GAN网络进行训练，得到训练好的Info GAN网络；所述训练好的网络包括训练好的Info GAN判别器、训练好的Info GAN生成器和训练好的分类网络。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明通过对入侵流量数据集进行预处理，得到训练数据集，通过采用WGAN-div网络学习并合成入侵流量样本，从而优化不平衡入侵流量数据集的分布，提升攻击流量样本的占比，改善小样本特征提取效果，然后利用Info GAN网络对不含标签的合并数据集进行无监督学习，当网络达到收敛时，利用分类网络对入侵流量数据测试集进行分类，提高了对小样本数据的识别分类性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于生成式对抗网络的无监督式入侵流量检测识别方法的流程图；

图2为本发明提供的基于生成式对抗网络的无监督式入侵流量检测识别方法的整体流程图；

图3是本发明的实施例在多分类情况下的识别性能测试结果图；

图4是本发明的实施例在二分类情况下的识别性能测试结果图；

图5是本发明的实施例在二分类情况下模型测试集ROC曲线图；

图6为本发明提供的基于生成式对抗网络的无监督式入侵流量检测识别系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的入侵流量检测识别方法出现的问题，可以采用生成对抗网络的方式对小样本进行数据扩充，改善入侵流量数据集样本分布不平衡的特点，达到改善入侵检测分类模型对小样本特征的提取性能；可以采用无监督学习的生成对抗网络，有效避免标注样本标签的工作量，增加可用样本数据量，并对入侵检测模型的性能进行改善。

本发明属于计算机网络应用领域中的流量检测识别技术，具体是利用生成式对抗网络的改进型网络模型通过无监督学习的方式处理入侵流量数据集，实现对入侵流量的识别、分类任务。

针对现有技术的不足，提出了基于生成式对抗网络的无监督式入侵流量检测识别方法，通过采用生成对抗网络(Generative Adversarial Networks，GAN)的变种网络WGAN-div(Wasserstein divergencefor GANs)网络学习并合成入侵流量样本，从而优化不平衡入侵流量数据集的分布，提升攻击流量样本的占比，改善小样本特征提取效果；然后利用Info GAN(Information Maximizing Generative Adversarial Networks)网络对不含标签的入侵流量数据训练集进行无监督学习。当网络达到收敛时，利用分类网络(Classification Network)对入侵流量数据测试集进行分类，从而完成入侵流量的检测分类任务。

不平衡入侵流量数据集指各个类别数据的样本数目相差巨大的数据集。以二分类问题为例，假设数据集为S，S1和S2为数据子集，且S1∪S2＝Q、

此时可通过样本比例IBR＝S1/S2的取值来界定数据集的不平衡程度。IBR的取值越接近1则不平衡程度越小；IBR的取值越接近0和∞则不平衡程度越大。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的基于生成式对抗网络的无监督式入侵流量检测识别方法的流程图，图2为本发明提供的基于生成式对抗网络的无监督式入侵流量检测识别方法的整体流程图，如图1和图2所示，方法包括：

步骤101：获取入侵流量数据集。在实际应用中，入侵流量数据集是指NSL-KDD、CICIDS2017、UNSW-NB15共三种入侵流量数据集。NSL-KDD数据集由正常流量及4种攻击流量组成，攻击流量类型分别为：DoS，Probing，R2L，U2R；CICIDS2017数据集由正常流量及6种攻击流量组成，攻击流量类型分别为：Botnet，Brute Force，DoS，Infiltration，PortScan，Web Attack；UNSW-NB15数据集由正常流量及9种攻击流量组成，攻击流量类型分别为：Fuzzers，Analysis，Backdoors，Reconnaissance，DoS，Exploit，Generic，Shellcode，Worms。每种攻击流量类型下又细分有若干小类别的攻击流量，为了统计识别便利，均采用数据集给出的大类作为分类识别的基准。

步骤102：对所述入侵流量数据集进行预处理，得到预处理后的入侵流量数据集；所述预处理后的入侵流量数据集包括训练数据集和测试数据集。在实际应用中，对入侵流量数据集的特征进行处理，将其转化为可用于样本扩充与分类的格式。

对数据集进行预处理，将入侵流量数据集划分为训练数据集和测试数据集，NSL-KDD与UNSW-NB15数据集按照公开数据集的划分方法进行划分；CICIDS2017数据集由于未提供公开的数据集划分方法，采用数据集抽样后按照训练数据集：测试数据集＝1:9的方式进行划分。

NSL-KDD数据集中，原训练数据集Normal，DoS，Probing，R2L，U2R类型流量数量依次为67343、45927、11656、995、52，测试数据集数量依次为9711、5741、1106、2199、37；CICIDS2017数据集中，原训练数据集Normal，Botnet，Brute Force，DoS，Infiltration，PortScan，WebAttack类型流量数量依次为5848、203、1388、3745、3、2436、199，测试数据集数量依次为52446、1763、12447、34334、33、21403、1981；UNSW-NB15数据集中，原训练数据集Normal，Fuzzers，Analysis，Backdoors，Reconnaissance，DoS，Exploit，Generic，Shellcode，Worms类型流量数量依次为51646、14434、392、403、2475、18411、3904、6206、1082、116，测试数据集数量依次为34037、4325、58、57、1167、7042、3637、2429、377、43。优化器采用Adam，学习率lr＝0.0002，超参数β₁＝0.5。

对数据进行冗余、全零、无关特征的移除，对剩余的特征按类别进行处理：数据特征进行归一化，非数据特征进行编码处理。两者处理完毕后进行合并，统一补零将特征维度扩充至121维，对样本进行顺序随机重排，并且将尺寸转化为11×11的二维向量。

进一步地，所述步骤102，具体包括：

步骤1021：移除所述入侵流量数据集中的冗余特征、全零特征和无关特征，得到移除后的数据集。

在实际应用中，NSL-KDD数据集中每个样本均有42维特征和一个标签class组成，其中accuracy特征表示21种机器学习模型中能成功识别该样本的个数，对于模型的训练无实际意义，因此舍去。在剩余的41维特征中有三类非数据类型的特征，分别是protocol_type、service、flag。针对非数据类型的特征，应当按照每种特征的类型数设置One-hot编码，将非数据特征转换为数据特征。CICIDS2017数据集共有85维特征，其中有10维特征在所有样本上取值均为0，6维特征属于无关网络流特征，需要进行移除。部分特征的取值存在NAN与Infinity，无法用于特征提取，需要分别采用该维度特征值的平均值和最大值进行替换。UNSW-NB15数据集中存在数据特征重复、标签一致的重复冗余数据，以及数据特征重复、标签不一致的冲突冗余数据。对于前者类型，数据只需保留一条，后者则将数据全部删除。另外，还有在训练数据集和测试数据集中均出现的数据，该类数据也对其进行全部剔除。UNSW-NB15数据集包括三种非数据特征，分别是protocol、service和state，三种特征分别包括133、13、11种取值。对protocol特征采用encoder编码，即使用数字1～133来标记特征的不同取值，然后对所有数据的该维特征除以数据在该维特征上取到的最大值以实现数据归一化；对service和state特征采用One-hot编码。

步骤1022：将所述移除后的数据集分为数据特征和非数据特征。

步骤1023：对所述数据特征进行归一化处理，得到归一化数据特征。

在实际应用中，对移除特征完毕的数据集进行归一化处理，以减少不同维度特征的数据差异，本发明采用min-max归一化，公式如式(1)：

其中x_min为每一维数据中的最小值，x_max为每一维数据中的最大值，x和x*分别表示当前数据取值及归一化后当前数据取值。

步骤1024：对所述非数据特征进行编码处理，得到编码后的非数据特征。

步骤1025：将所述归一化数据特征和所述编码后的非数据特征合并，得到合并数据特征。在实际应用中，归一化处理完毕后，将数据特征与非数据特征的编码进行合并。

步骤1026：对所述合并特征的维度进行扩充，得到扩充后的数据。在实际应用中，为了统一输入数据集特征维度同时不影响特征提取，设定输入特征维度为121维，特征不足的样本使用0进行维数补充。

步骤1027：将所述扩充后的数据进行随机重排，并转化为二维向量，得到预处理后的入侵流量数据集。在实际应用中，为了更好发挥卷积层的运算效果，将扩充后的数据转换成尺寸为11×11的二维特征向量(二维向量)，将二维特征向量作为训练数据集。

步骤103：将所述训练数据集和随机噪声输入到WGAN-div网络，得到扩充数据。所述WGAN-div网络包括WGAN-div判别器和WGAN-div生成器。

按照训练数据集中数据量最大的样本数量为基准，对其他类型的样本进行数据扩充，扩充数量即为基准量与该样本当前数量的差值。

在实际应用中，为了解决原始GAN在存在的训练不稳定、模式崩溃等问题，WGAN采用Wasserstein距离(EM距离)来衡量分布间的距离，表示为：

其中Π(P_data,P_G)表示分布P_data与P_G组合起来所有可能的联合分布的集合，γ表示某种可能的联合分布，从中对其采样得到样本x和y，式中E表示均值运算，(x-y)～γ表示(x-y)服从联合分布γ。||x-y||表示样本x与y之间的距离。Wasserstein距离表示的是将分布P_data转化为分布P_G所需要的代价下界，是一种最优运输计划的成本计算。Wasserstein距离的优势在于两分布即使不存在重叠部分，依旧可以正常进行距离度量，进而解决了梯度消失、训练不稳定、模式崩溃等问题。WGAN-div通过引入Wasserstein散度(简称W散度)，证明了Lipschitz约束的可去除性。W散度表示如下：

其中，

是在紧支撑集Ω上所有一阶可微函数的函数空间，k，p为超参数且k＞0,p＞0，P_u为一个Radon概率测度，E表示随机变量在不同分布下的均值运算，x～P_data表示随机变量x服从真实数据的概率分布函数P_data，x～P_G表示x服从生成数据的概率分布函数P_G，x～P_u表示x服从Radon概率测度分布，f(x)表示随机变量x的判别函数，

表示判别函数的梯度。W_k,p属于对称散度。利用判别器D参数化

G表示生成器，可将最大最小问题表示为：

其中，对f(x)进行参数化得到D(x)，

表示判别器函数的梯度。至此，使用EM距离和W散度代替了原始GAN中使用的KL散度。WGAN-div网络的输入包括训练集数据和随机噪声z₁，可通过目标函数V_div(G,D)来训练WGAN-div生成器合成数据的能力，当算法达到收敛时，WGAN-div生成器生成的数据可作为小样本的扩充数据参与入侵分类算法的训练，从而改善数据集的不平衡分布，提升算法的检测分类性能。

进一步地，所述步骤103，具体包括：

步骤1031：将所述随机噪声输入到所述WGAN-div生成器中，生成第一伪数据。

步骤1032：将所述训练数据集设置标签为1，作为第一标签；将所述第一伪数据设置标签为0，作为第二标签。

在实际应用中，分别向WGAN-div网络中送入训练集数据和随机噪声z₁，训练集数据设置标签为1。随机噪声z₁经WGAN-div生成器后生成伪数据(第一伪数据)，设置标签为0。

步骤1033：利用所述训练数据集、所述第一伪数据、所述第一标签和所述第二标签对所述WGAN-div网络进行训练，得到训练好的WGAN-div网络。所述训练好的WGAN-div网络包括训练好的WGAN-div判别器和训练好的WGAN-div生成器。

将训练集数据和伪数据(第一伪数据)及标签(第一标签和第二标签)送入WGAN-div判别器进行判别，输出判别结果，对比标签进行损失函数的计算，分别得到WGAN-div生成器和WGAN-div判别器的损失函数G_loss，D_loss，利用损失函数来调整WGAN-div判别器和WGAN-div生成器的网络参数分布。

步骤1034：将所述随机噪声输入到所述训练好的WGAN-div生成器，生成第二伪数据作为扩充数据。重复步骤1031-1033进行迭代训练，直至网络达到收敛。此时将WGAN-div生成器生成的伪数据输出，统一设置标签，输出为扩充数据。对每一类攻击流量均需要重复步骤1031-1034。

步骤104：将所述扩充数据和所述训练数据集合并，得到合并数据集。在实际应用中，当对所有样本均扩充完毕后，将扩充数据和训练集数据进行合并。此时的数据集已经解决了不平衡分布的问题，各类型入侵流量样本数量占比基本一致。

步骤105：利用所述合并数据集、潜向量和不可压缩噪声对Info GAN网络进行训练，得到训练好的Info GAN网络。所述Info GAN网络包括Info GAN判别器、Info GAN生成器和分类网络。

在实际应用中，Info GAN网络由Info GAN生成器、Info GAN判别器和分类网络组成。训练Info GAN判别器的参数，为分类网络提供有效的网络参数。网络输入有三部分，分别是由训练集数据和WGAN-div网络的扩充数据合并而成的无标签输入数据(Input data)、潜向量(LatentVector)c以及不可压缩噪声z₂。c＝{c₁,c₂,...,c_L}表示输入的潜向量集合，L表示潜向量的个数，潜向量的概率分布独立，取值c∈[0,m-1],c∈Z，m表示数据分类的类别数，c的取值为等概分布，

z₂的取值服从标准正态分布。I(X；Y)可描述为在已知Y的条件下，X的不确定度，当X与Y相互独立时，I(X；Y)＝0；当X与Y由一个确定性的可逆函数相关联时，此时I(X；Y)取值达到最大。Info GAN网络使用潜向量来改进原始GAN输入噪声与生成数据语义无法对应、可解释性差的问题，因此潜向量c与生成数据G(z₂,c)应当具备高度相关性。因此优化目标函数可表示为：

I(c；G(z₂,c))为潜向量c与生成数据G(z₂,c)的互信息量，但该值通常难以直接最大化，

表示原最大-最小目标函数，λ表示超参数，取值可为1，实践中，引入辅助分布q(c'|x)计算I(c；G(z₂,c))，表示为：

H(c)表示潜向量的信息熵，p(c|x)是后验概率分布，表示在接收结果为x的条件下，潜向量c的概率分布。

表示在随机变量x服从生成器函数G(z₂,c)的概率分布，且c'服从后验概率分布p(c|x)的条件下，分别计算log p(c'|x)中相应随机变量的均值，q(c'|x)表示构造的已知辅助分布函数。然后构造log p(c'|x)的KL散度进行代换：

其中，q(c'|x)和q(c|x)表示后验概率分布，由于辅助分布函数已知，因此两者均是可计算的。D_KL表示计算分布函数p(c|x)和分布函数q(c|x)之间的KL散度。因此，互信息量I(c；G(z₂,c))可表示为：

换言之，可以使用L₁(G,Q)最大化来逼近互信息量I(c；G(z₂,c))的最大值，当两者的差距足够小时，可以使用前者代替后者进行计算。因此目标函数表示为：

在目标函数中引入了辅助分布函数q(c'|x)，因此在网络中使用神经网络对分类网络Q进行参数化，Info GAN中，Q依托于Info GAN判别器，除了最后一层Dense的输出数量不同，其余层参数均与Info GAN判别器保持一致。因此Info GAN网络的作用在于训练网络使分类网络的网络参数达到收敛。Info GAN生成器的作用包括将不可压缩噪声z₂与潜向量c合成伪数据，并在Info GAN判别器的指导下保证生成数据与真实数据分布一致；Info GAN判别器的作用是拒绝Info GAN生成器生成的伪数据，指导Info GAN生成器生成更逼真的数据，防止Info GAN生成器为了使分类网络能更容易提取潜向量c而生成失真数据。

进一步地，所述步骤105，具体包括：

步骤1051：将所述潜向量和所述不可压缩噪声输入到所述Info GAN生成器中，生成第三伪数据。

步骤1052：将所述合并数据集设置标签为1，作为第三标签；将所述第三伪数据设置标签为0，作为第四标签。

在实际应用中，将合并完成的数据输入到Info GAN网络中。按照数据集中流量类型数目确定潜向量c的取值范围[0,m-1]。对合并数据设置标签label＝1，将潜向量c和不可压缩噪声z₂送入Info-GAN生成器合成伪数据(第三伪数据)，设置标签label＝0。

步骤1053：利用所述合并数据集、所述第三伪数据、所述第三标签和所述第四标签对所述Info GAN网络进行训练，得到训练好的Info GAN网络；所述训练好的网络包括训练好的Info GAN判别器、训练好的Info GAN生成器和训练好的分类网络。

在实际应用中，将输入数据(合并数据集)和伪数据(第三伪数据)及标签(第三标签和第四标签)全部送入Info-GAN判别器进行类型判别，输出判别结果，进行损失函数的计算，分别得到Info-GAN生成器和Info-GAN判别器的损失函数G_loss，D_loss，利用损失函数来调整Info-GAN判别器和Info-GAN生成器的网络参数分布。与此同时，将合成的伪数据送入分类网络中，由分类网络判断伪数据中的潜向量取值并进行分类输出，潜向量的不同取值对应不同的分类结果。将潜向量的输出结果与输入的潜向量c进行对比，计算分类网络的损失函数Q_loss。重复步骤1051-1053的操作进行迭代训练，直至网络达到收敛条件。

步骤106：利用所述训练好的Info GAN网络中的分类网络对测试数据集进行判别分类，得到分类结果。将测试数据集输入到分类网络，令分类网络判别并分类其中的潜向量种类，并输出潜向量的判别结果，实现完成入侵流量数据集分类的目的。

在实际应用中，分类网络的网络参数依赖于Info GAN判别器。在训练时，分类网络的输入为伪数据，作用是将Info GAN生成器合成数据中的潜向量进行提取和分类，并与输入潜向量对比计算损失函数。当网络收敛后，分类网络输入为测试集数据，根据提取的潜向量将测试集数据进行分类，从而实现入侵流量检测分类的目的。

本发明分别在多分类和二分类的情况下对模型检测、分类入侵流量的性能进行评估。多分类情况即对正常流量和入侵流量的标签依次记为Normal、DoS、Probing、R2L、U2R，适用于需要知晓入侵流量具体类型以采取针对性防护措施的情形；二分类情况即对正常流量和入侵流量的标签分别记为Normal、Attack，适用于入侵流量的监测和预警。本发明在多分类和二分类的情况下采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、调和平均值(F1-score)各算法的性能进行评价：

式中各参数的定义为：TP表示被正确分类的正例数量，FN表示被错分为负例的正例数量，TN表示被正确分类的负例数量，FP表示被错分为正例的负例数量。其中准确率值越高，算法的总体性能就越好；精确率和召回率值高，算法的误报率越低。在二分类情况下，ROC曲线及其下面积AUC值可以用作衡量分类器的分类效率及平衡性，因为AUC值不受先验概率及阈值的影响，AUC取值为[0,1]，取值越大，算法的预测准确率越高；ROC曲线的变化不受正负样本数据分布的影响，能够客观反映出模型的分类性能。因此在二分类时还使用AUC值及ROC曲线作为评价指标。

图3是本发明的实施例在多分类情况下的识别性能测试结果图；表示多分类情况下，本发明提出的入侵流量检测识别方法及不使用数据扩充方法、使用SMOTE过采样方法、使用ADASYN过采样方法的Info GAN入侵流量分类算法对NSL-KDD、CICIDS2017、UNSW-NB15数据集的检测分类性能评估，其中，图3(a)为对NSL-KDD数据集的检测分类性能评估结果图；图3(b)为对CICIDS2017数据集的检测分类性能评估结果图；图3(c)为对UNSW-NB15数据集的检测分类性能评估结果图。从图3可以看出，本发明提出的入侵流量检测识别方法在使用WGAN-div作为数据扩充算法时Info-GAN模型的分类准确率、精确率、召回率、调和平均值指标高于使用原数据集或其他过采样方法的模型，并保持在较高水平，这说明本发明在多分类情况下可以有效提高入侵流量分类的准确率。在使用了WGAN-div扩充数据后，训练集的不平衡情况得到改善，提升了小样本的分类准确率。对于三种数据集，Info-GAN模型均能保持较高的多分类准确率，这说明了本发明提出的入侵流量检测识别方法的有效性。

图4是本发明的实施例在二分类情况下的识别性能测试结果图，表示二分类情况下，本发明提出的入侵流量检测识别方法及不使用数据扩充方法、使用SMOTE过采样方法、使用ADASYN过采样方法的Info GAN入侵流量分类算法对NSL-KDD、CICIDS2017、UNSW-NB15数据集的检测分类性能评估，其中，图4(a)为对NSL-KDD数据集的检测分类性能评估结果图；图4(b)为对CICIDS2017数据集的检测分类性能评估结果图；图4(c)为对UNSW-NB15数据集的检测分类性能评估结果图。从图4可以看出，本发明提出的入侵流量检测识别方法在使用WGAN-div作为数据扩充算法时Info-GAN模型的分类准确率、精确率、召回率、调和平均值指标高于使用原数据集或其他过采样方法的模型，并保持在较高水平。这说明WGAN-div算法能够有效合成小样本数据，改善训练集中分布情况不平衡的问题。对于三种数据集，Info-GAN模型均能保持较高的二分类准确率，这说明了本发明提出的入侵流量检测识别方法的有效性。

图5是本发明的实施例在二分类情况下模型测试集ROC曲线图，表示二分类情况下，本发明提出的入侵流量检测识别方法及不使用数据扩充方法的Info GAN入侵流量分类算法对NSL-KDD、CICIDS2017、UNSW-NB15数据集检测的ROC曲线，其中，图5(a)和图5(b)分别为对NSL-KDD的原始数据集和经过WGAN-div过采样的数据集检测的ROC曲线图；图5(c)和图5(d)分别为对CICIDS2017的原始数据集和经过WGAN-div过采样的数据集检测的ROC曲线图；图5(e)和图5(f)分别为对UNSW-NB15的原始数据集和经过WGAN-div过采样的数据集检测的ROC曲线图。从图5可以看出，通过计算ROC曲线下方面积AUC值可知，在经过WGAN-div网络采样的训练集中得到的模型AUC值均大于不使用过采样的模型，而ROC曲线理论上基本不受测试集数据不平衡的影响，这说明经过WGAN-div过采样后，网络对于入侵流量的分类能力获得提升。在对三种数据集分类的ROC曲线中，入侵流量分类算法的AUC值始终保持在较高水平，ROC曲线饱满，这说明发明在二分类情况下可以有效进行入侵流量检测，具备较高的检测准确率。

本发明的入侵流量数据检测识别方法，首先对入侵流量数据集进行特征处理，然后将数据训练集输入到WGAN-div网络中，当网络收敛时，实现小样本入侵流量数据的扩充。将各训练集数据输入到Info GAN网络中，训练并调整生成器、判别器和分类器的参数。当网络收敛时，使用测试集的入侵流量数据对分类网络的分类性能进行验证，计算各类性能指标。经过多轮训练和测试使分类网络性能达到较高水平，进而具备对入侵流量进行识别、分类的能力。

图6为本发明提供的基于生成式对抗网络的无监督式入侵流量检测识别系统的结构图，如图6所示，基于生成式对抗网络的无监督式入侵流量检测识别系统包括：

数据获取模块601，用于获取入侵流量数据集。

预处理模块602，用于对所述入侵流量数据集进行预处理，得到预处理后的入侵流量数据集；所述预处理后的入侵流量数据集包括训练数据集和测试数据集。

数据扩充模块603，用于将所述训练数据集和随机噪声输入到WGAN-div网络，得到扩充数据。所述WGAN-div网络包括WGAN-div判别器和WGAN-div生成器。

数据合并模块604，用于将所述扩充数据和所述训练数据集合并，得到合并数据集。

训练模块605，用于利用所述合并数据集、潜向量和不可压缩噪声对Info GAN网络进行训练，得到训练好的Info GAN网络。所述Info GAN网络包括Info GAN判别器、Info GAN生成器和分类网络。

分类模块606，用于利用所述训练好的Info GAN网络中的分类网络对所述测试数据集进行判别分类，得到分类结果。

在一个具体实施方式中，所述预处理模块602，包括：

移除单元，用于移除所述入侵流量数据集中的冗余特征、全零特征和无关特征，得到移除后的数据集。

数据分类单元，用于将所述移除后的数据集分为数据特征和非数据特征。

归一化单元，用于对所述数据特征进行归一化处理，得到归一化数据特征。

编码单元，用于对所述非数据特征进行编码处理，得到编码后的非数据特征。

数据合并单元，用于将所述归一化数据特征和所述编码后的非数据特征合并，得到合并数据特征。

维度扩充单元，用于对所述合并特征的维度进行扩充，得到扩充后的数据。

转化单元，用于将所述扩充后的数据转化为二维向量，得到预处理后的入侵流量数据集。

在一个具体实施方式中，所述数据扩充模块603，包括：

第一位数据生成单元，用于将所述随机噪声输入到所述WGAN-div生成器中，生成第一伪数据。

第一标签设置单元，用于将所述训练数据集设置标签为1，作为第一标签；将所述第一伪数据设置标签为0，作为第二标签。

WGAN-div网络训练单元，用于利用所述训练数据集、所述第一伪数据、所述第一标签和所述第二标签对所述WGAN-div网络进行训练，得到训练好的WGAN-div网络。所述训练好的WGAN-div网络包括训练好的WGAN-div判别器和训练好的WGAN-div生成器。

在一个具体实施方式中，所述训练模块605，包括：

第三伪数据生成单元，用于将所述潜向量和所述不可压缩噪声输入到所述InfoGAN生成器中，生成第三伪数据。

第二标签设置单元，用于将所述合并数据集设置标签为1，作为第三标签；将所述第三伪数据设置标签为0，作为第四标签。

与现有技术相比，本发明的有益效果是：

(1)对入侵流量数据集进行改善，通过数据预处理剔除无用特征，量化非数据特征，将每条数据的尺寸更改为11×11的二维向量形式。使用WGAN-div网络对训练集小样本进行数据扩充，改善了原数据集的不平衡性，提高了对小样本数据的识别分类性能。

(2)有效完成在多分类和二分类情况下对入侵流量的识别、分类任务，且识别准确率等性能指标均达到较高水平，在整体上尤其小样本的识别上获得更好的识别性能。

(3)采用无监督学习的训练方法，避免了数据标签标注的工作量，可用于训练的数据量提升。训练完毕的网络具备更好的泛化性和稳定性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.基于生成式对抗网络的无监督式入侵流量检测识别方法，其特征在于，包括：

获取入侵流量数据集；

将所述扩充数据和所述训练数据集合并，得到合并数据集；

2.根据权利要求1所述的基于生成式对抗网络的无监督式入侵流量检测识别方法，其特征在于，所述对所述入侵流量数据集进行预处理，得到预处理后的入侵流量数据集，具体包括：

将所述移除后的数据集分为数据特征和非数据特征；

对所述数据特征进行归一化处理，得到归一化数据特征；

对所述合并特征的维度进行扩充，得到扩充后的数据；

3.根据权利要求1所述的基于生成式对抗网络的无监督式入侵流量检测识别方法，其特征在于，所述将所述训练数据集和随机噪声输入到WGAN-div网络，得到扩充数据，具体包括：

4.根据权利要求1所述的基于生成式对抗网络的无监督式入侵流量检测识别方法，其特征在于，所述利用所述合并数据集、潜向量和不可压缩噪声对Info GAN网络进行训练，得到训练好的Info GAN网络，具体包括：

利用所述合并数据集、所述第三伪数据、所述第三标签和所述第四标签对所述InfoGAN网络进行训练，得到训练好的Info GAN网络；所述训练好的网络包括训练好的Info GAN判别器、训练好的Info GAN生成器和训练好的分类网络。

5.基于生成式对抗网络的无监督式入侵流量检测识别系统，其特征在于，包括：

数据获取模块，用于获取入侵流量数据集；

6.根据权利要求5所述的基于生成式对抗网络的无监督式入侵流量检测识别系统，其特征在于，所述预处理模块，包括：

7.根据权利要求5所述的基于生成式对抗网络的无监督式入侵流量检测识别系统，其特征在于，所述数据扩充模块，包括：

8.根据权利要求5所述的基于生成式对抗网络的无监督式入侵流量检测识别系统，其特征在于，所述训练模块，包括：

第三伪数据生成单元，用于将所述潜向量和所述不可压缩噪声输入到所述Info GAN生成器中，生成第三伪数据；