CN111553424A

CN111553424A - 一种基于cgan的图像数据平衡和分类方法

Info

Publication number: CN111553424A
Application number: CN202010356177.0A
Authority: CN
Inventors: 王攀; 李书航; 王梓炫; 黄琛; 刘芃
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-18

Abstract

本发明公开了一种基于CGAN的图像数据平衡和分类方法，主要包括两个阶段，第一阶段为生成模型训练，包括生成器G和判别器D的训练。第二阶段为分类器训练阶段，其步骤包括：加载第一阶段训练过程中判别器D训练好的模型，在判别器D的神经网络基础上，新增一个输出层对输入进行分类。本发明利用生成对抗网络在数据增强上的优势，在训练过程中引入数据类别标签作为条件变量，控制生成器生成小类别样本数据，减少样本不平衡问题对流量分类问题的影响。同时对传统CGAN进行改进，使其在样本平衡的同时可以对样本进行分类实现。

Description

一种基于CGAN的图像数据平衡和分类方法

技术领域

本发明涉及一种基于CGAN的数据平衡和分类方法：Packet CGAN，属于流量识别在深度学习领域的应用。

背景技术

机器学习和深度学习作为时下最为热门的研究内容，在语音识别、自然语言处理、计算机视觉、图像与视频分析等诸多领域的应用取得了巨大成功。在传统流量分类手段失效后，也有学者开始尝试将机器学习算法结合流统计特征或时序特征来进行流量识别和分类，并取得一定进展。

然而无论是机器学习还是深度学习，都离不开大量数据进行特征学习。在流量数据集采集过程中，一些冷门应用往往很难采集到大量流量，这就导致在制作数据集时经常会出现样本不平衡问题，即热门应用样本数量远大于非热门应用。在使用不平衡数据训练分类模型时，小样本数据受限于数据量，模型较难准确学习到小样本类别的特征，从而造成小样本分类性能下降。因此对不平衡数据集的解决方法进行研究对机器学习、深度学习等具有重要意义。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于CGAN的数据平衡和分类方法：Packet CGAN，该方法基于条件生成对抗网络CGAN提出了Packet CGAN网络，通过小类别流量图像样本生成的方式来平衡数据集，并借助CNN卷积神经网络对输入流量数据进行分类。该网络的训练主要包括两个阶段，第一阶段为生成模型训练，其步骤包括：从数据集中读取真实数据X和标签y，将标签及随机噪声z送入生成器G，将G的输出结果和X送入判别器D，交替训练G和D直到网络达到纳什平衡状态。其中生成器G的主要作用为生成流量图像样本，判别器D的主要作用为判断输入样本是否为真实数据。第二阶段为分类器训练阶段，其步骤包括：加载第一阶段训练过程中判别器D训练好的模型，在D的神经网络基础上，新增一个输出层对输入进行分类，以试图解决不平衡数据集对深度学习和机器学习带来的影响。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于CGAN的数据平衡和分类方法：Packet CGAN主要分为两个阶段，第一阶段包括以下步骤：

步骤一、加载流量图像数据集，读取真实数据及对应标签，分别用(b,28,28)和One-Hot Encoding编码的(b，10)矩阵表示，其中b为一次迭代过程中读取图像的数量。

步骤二、对随机噪声(b，100)和样本标签进行矩阵拼接，将得到的结果送入生成器，生成器包含一个输入输出层、一个全连接层和两个反卷积层，最终经过激活函数后，得到b个生成图像数据，其大小为28*28。

步骤三、将真实图像数据和步骤二中得到的生成图像数据分别送入判别器，判别器包含一个输入输出层、一个全连接层、两个卷积层和一个池化层。卷积层负责对输入数据进行特征提取，池化层通过对输入数据的采样减少模型参数。最后的输出结果为输入样本来自真实数据集的概率分布。

步骤四、生成器根据判别器的输出结果调整网络参数，改进生成器网络模型，使输出结果尽可能与真实数据一致。并重复上述步骤直到整个生成模型达到纳什平衡状态，即判别器无法判断出输入图像是来自真实数据集还是生成器。

Packet CGAN模型的训练第二阶段包括以下步骤：

步骤一、构建一个CNN分类模型，加载第一阶段过程中判别器模型，读取其全连接层、卷积层和池化层的相关参数，新加一个全连接层用作流量图像分类。

步骤二、加载流量图像数据集，读取真实图像数据及对应标签。将图像送入CNN分类模型，图像经过特征提取、池化等操作后，由输出层输出分类结果

进一步地，作为本发明的一种优选技术方案：与传统CGAN方法不同，Packet CGAN模型在生成样本的同时能实现对输入流量图像的分类。

进一步地，作为本发明的一种优选技术方案：Packet CGAN模型的生成器中包含两个反卷积层和一个全连接层，反卷积层的步长为2，而传统CGAN生成器中只有一个隐藏层。

进一步地，作为本发明的一种优选技术方案：Packet CGAN模型的判别器中包含一个全连接层、两个卷积层和一个池化层。卷积层的卷积核个数为4个，步长为2。池化层采用最大池化方法。而传统CGAN判别器中只有一个隐藏层。

进一步地，作为本发明的一种优选技术方案：所述第一阶段步骤二中生成的样本图像大小，可由数据集中的图像大小决定或人为定义。

进一步地，作为本发明的一种优选技术方案：分类模型CNN中，两个卷积层、池化层和一个全连接层的各参数来自第一阶段训练过程中判别器的网络模型。

本发明采用上述技术方案，能产生如下技术效果：

本发明提供一种基于CGAN的数据平衡和分类方法：Packet CGAN，利用生成对抗网络在数据增强上的优势，在训练过程中引入流量图像类别标签作为条件变量，控制生成器生成小类别流量的流量图像。将生成的流量图像与真实流量图像混合形成新的平衡数据集，从而减少样本不平衡问题对流量分类问题的影响。对传统CGAN进行改进，将判别器和生成器的隐藏层改为卷积神经网络。在CGAN达到纳什平衡后，将判别器与分类模型相连，训练一个基于CNN的流量分类模型，实习对输入流量图像的分类。

本发明方法创新性的提出一种基于CGAN的数据平衡和分类方法：Packet CGAN，该方法通过新样本生成的方式，为小类别样本带来更多数据，形成新的平衡数据集，从而减少样本不平衡问题对流量分类问题的影响。同时还实现了基于CNN的流量分类模型，对输入流量图像进行分类。

附图说明

图1为本发明流程示意图。

图2为本发明中Packet CGAN网络结构设计。

图3为本发明中流量图像样本生成的效果示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于CGAN的数据平衡和分类方法，如图1、2所示，Packet CGAN主要分为两个阶段，第一阶段包括以下步骤：

Packet CGAN模型的训练第二阶段包括以下步骤：

步骤二、加载流量图像数据集，读取真实图像数据及对应标签。将图像送入CNN分类模型，图像经过特征提取、池化等操作后，由输出层输出分类结果。

Packet CGAN网络结构如图2所示，其中b为Mini_batch的大小，n为流量图像类别数量。

Packet CGAN由生成模型和分类模型构成。生成模型包含一个生成器和一个判别器。判别器D由输入输出层、两个卷积层、池化层和全连接层构成。其输入为b张28*28的流量图像和流量图像标签。卷积层负责对输入数据进行特征提取，卷积核大小为4*4，步长为2，激活函数为Leaky ReLU。输出层的输出结果为流量图像样本为真实样本的概率分布。生成器G包括输入输出从层、全连接层和两个反卷积层，输入层负责将随机噪声z和类别标签y按照矩阵拼接的方式结合。输出层的输出结果为生成的流量图像样本。反卷积层对输入数据进行反卷积后，经过激活函数得到输出28*28的流量图像。第一个反卷积层采用ReLU函数作为激活函数，第二个反卷积层的激活函数为Sigmoid函数。

分类模型是基于CNN的流量图像分类模型，由输入输出层、两个卷积层、池化层和两个全连接层构成，其中卷积层、池化层和第一个全连接层来自已经训练好的生成模型中的判别器D。输入为真实样本数据，输出结果为各应用的分类结果。

图3展示了本发明使用数据集训练的生成器所生成的流量图像样本效果示意图。每种示例图中，左边为真实样本数据，右边为Packet CGAN生成数据。从图中可以看出Packet CGAN生成模型生成的流量样本图像与“MIRAGE”数据集的真实流量图像在整体轮廓及像素点的颜色分布上具有一定的相似性。判别器已经分辨不出下列图像是否来自真实数据集，说明这些图片具备了真实流量图像的数据特征分布。

表1

如表1所示，展示了Packet CGAN对训练数据集中流量图像的分类结果。

综上，本发明创新性的提出一种基于Pcap数据包的深度学习数据集建立方法，通过新样本生成的方式，为小类别样本带来更多数据，形成新的平衡数据集，从而减少样本不平衡问题对流量分类问题的影响。同时还实现了基于CNN的流量分类模型，对输入流量图像进行分类。本发明利用生成对抗网络在数据增强上的优势，在训练过程中引入数据类别标签作为条件变量，控制生成器生成小类别样本数据，减少样本不平衡问题对流量分类问题的影响。同时对传统CGAN进行改进，使其在样本平衡的同时可以对样本进行分类实现。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于CGAN的图像数据平衡和分类方法，其特征在于，包括以下步骤：

步骤一、加载流量图像数据集，读取真实数据及对应标签，分别用(b,28,28)和One-HotEncoding编码的(b，10)矩阵表示，其中，b为一次迭代过程中读取图像的数量；

步骤二、对随机噪声(b，100)和样本标签进行矩阵拼接，将得到的结果送入生成器，生成器包含一个输入输出层、一个全连接层和两个反卷积层，最终经过激活函数后，得到b个生成图像数据，其大小为28*28；

步骤三、将真实图像数据和步骤二中得到的生成图像数据分别送入判别器，判别器包含一个输入输出层、一个全连接层、两个卷积层和一个池化层，卷积层负责对输入数据进行特征提取，池化层通过对输入数据的采样减少模型参数；最后的输出结果为输入样本来自真实数据集的概率分布；

步骤四、生成器根据判别器的输出结果调整网络参数，改进生成器网络模型，使输出结果尽可能与真实数据一致；

步骤五、重复步骤三、步骤四直到整个生成模型达到纳什平衡状态，即判别器无法判断出输入图像是来自真实数据集还是生成器；

步骤六、构建一个CNN分类模型，加载步骤三中判别器，读取其全连接层、卷积层和池化层的相关参数，新加一个全连接层用作流量图像分类；

步骤七、加载流量图像数据集，读取真实图像数据及对应标签；将图像送入CNN分类模型，图像经过特征提取、池化操作后，由输出层输出分类结果；

步骤八、根据分类结果计算本轮迭代过程中的损失函数，前向传播更新权值和偏置。

2.根据权利要求1所述基于CGAN的图像数据平衡和分类方法，其特征在于：步骤六中CNN分类模型在生成样本的同时对输入流量图像进行分类。

3.根据权利要求1所述基于CGAN的图像数据平衡和分类方法，其特征在于：步骤六中CNN分类模型的生成器中包含两个反卷积层和一个全连接层，反卷积层的步长为2。

4.根据权利要求1所述基于CGAN的图像数据平衡和分类方法，其特征在于：步骤六中CGAN分类模型的判别器中包含一个全连接层、两个卷积层和一个池化层，卷积层的卷积核个数为4个，步长为2，池化层采用最大池化方法。