CN112906019B

CN112906019B - 基于改进dcgan模型的流量数据生成方法、装置及系统

Info

Publication number: CN112906019B
Application number: CN202110153774.8A
Authority: CN
Inventors: 赵莎莎; 肖毅; 张登银; 周晓宇; 严涵
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2022-11-11
Anticipated expiration: 2041-02-04
Also published as: CN112906019A

Abstract

本发明公开了一种基于改进DCGAN模型的流量数据生成方法、装置及系统，所述方法包括采集带标签的网络流量数据，形成网络流量数据集，所述标签的内容为网络数据所述的类别；基于所述网络流量数据集中的时间序列特征构建伪图像矩阵，并将所述伪图像矩阵为灰度图像；将获取到的服从均匀分布的随机噪声和所述灰度图像作为改进DCGAN模型的输入，基于预设的优化算法对所述改进DCGAN模型的损失函数进行优化；当所述改进DCGAN模型收敛后，输出训练后的图像，并根据训练后的图像的像素值将图像转换为相应的数值矩阵，完成流量数据的生成。本发明能够减少人工标注流量数据类别的成本，提高无标签数据的利用率。

Description

基于改进DCGAN模型的流量数据生成方法、装置及系统

技术领域

本发明涉及网络流量生成和采集及神经网络等领域，具体涉及一种基于改进DCGAN模型的流量数据生成方法、装置及系统。

背景技术

随着互联网的快速发展和应用，使得保护网络数据安全和用户隐私的需求迅速增加。而网络流量分析是互联网流量配置、故障检测、流量部署以及安全性保护的首要研究工作。长期以来，网络流量分析始终是信息安全领域的重要探索课题。随着网络用户的安全意识和个人隐私保护意识的增强，且如今大多数移动应用程序采用加密协议进行数据加密，破解加密的网络流量数据具有高昂的代价，能通过加密流量获取的信息十分有限，因此传统的通过DPI工具获取流量并分析的方式不再高效。加密环境下，网络流量数据分析面临的挑战如下：

(1)加密协议种类繁多。常见的加密协议有：IPsec(Internet ProtocolSecurity)，TLS(Transport Layer Security)，SSH(Secure Shell Protocol)等。不同的加密协议具有不同的协议格式和连接建立过程，而原本种类繁多的移动应用加以不同的加密协议，使得移动流量类型更加复杂难辨。因此，移动流量分析算法的可扩展性、通用性以及泛化性尤为重要。

(2)流量特征难于提取。对于移动应用识别而言，数据内容无疑是移动流量中最具辨识力的信息。但移动应用采用加密协议进行加密，无法获取数据包的明文信息，损失了最有力的一类移动流量识别信息。而几乎所有的加密协议都具备一个公共特性，即将不定长的明文数据通过加密算法映射成定长的密文数据，这一特征又进一步的掩饰了不同类型流量之间的差异。因此，挖掘加密流除数据内容外的其他特征，捕捉不同类型加密流的通信模式是目前面临的重要挑战。

(3)流量数据难以获取。移动流量中噪声大，数据样本不均衡。传统流量分析算法都面临数据的样本不均衡问题，如流量中某些类别的数据流样本较少，算法无法准确地捕捉该类别样本的特征，因而导致模型对该类流量的识别准确率较差；而对于数据流样本过多的流量类别，则出现最终模型对该类数据流样本的过拟合，加剧了样本较少的流量类型的欠拟合问题。

深度卷积生成对抗网络(Deep Convolutional Generative AdversarialNetworks，DCGAN)被提出后，该模型以其无监督学习和监督学习联合的特征被广泛地应用于图像生成和图像识别等科学领域，为生成网络流量数据提供了一种新的思路。DCGAN是基于GAN基础上进行改进的一种神经网络架构，保留了优秀的数据生成能力的同时，融合了卷积神经网络(CNN)强大的特征提取能力，使得它在数据生成方面的能力得到进一步的提升。

发明内容

为了解决加密流量数据获取带来的困难，减少人工标注流量数据类别的成本，本发明提出一种基于改进DCGAN模型的流量数据生成方法、装置及系统，是一种基于无监督学习与监督学习联合的流量数据生成方法。

为了实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

第一方面，本发明提供了一种基于改进DCGAN模型的流量数据生成方法，包括：

采集带标签的网络流量数据，形成网络流量数据集，所述标签的内容为网络数据所述的类别；

基于所述网络流量数据集中的时间序列特征构建伪图像矩阵，并将所述伪图像矩阵为灰度图像；

将获取到的服从均匀分布的随机噪声和所述灰度图像作为改进DCGAN模型的输入，基于预设的优化算法对所述改进DCGAN模型的损失函数进行优化；

当所述改进DCGAN模型收敛后，输出训练后的图像，并根据训练后的图像的像素值将图像转换为相应的数值矩阵，完成流量数据的生成。

可选地，所述改进DCGAN模型包括生成器和判别器；

所述生成器的第一层为Reshape层，输入为随机噪声，输出为三维矩阵，其第二层、第三层和第四层均为转置卷积层；

所述判别器的第一层和第二层均为转置卷积层，第三层为Reshape层，第四层为LSTM层，第五层为全局平均池化层。

可选地，所述生成器的第二层共有8个(5,5)卷积核，步幅为1，padding方式为SAME，激活函数为PReLU，采用BatchNormalization归一化；

所述生成器的第三层共有4个(5,5)卷积核，步幅为1，padding方式为SAME，激活函数为PReLU，采用BatchNormalization归一化；

所述生成器的第四层共有1个(5,5)卷积核，步幅为1，padding方式为SAME，激活函数为Tanh。

可选地，所述判别器的第一层共有32个(5,5)卷积核，步幅为1，padding方式为SAME，激活函数为PReLU，采用BatchNormalization归一化；

所述判别器的第二层共有64个(2,2)卷积核，步幅为1，padding方式为SAME，激活函数为Tanh，采用BatchNormalization归一化；

所述判别器的第三层将三维矩阵输入重塑为一维特征向量；

所述判别器的第四层的输入为一维特征向量，激活函数为PReLU；

所述判别器的第五层的激活函数为softmax。

可选地，所述伪图像矩阵的表达式为：

PIM＝[P₁，P₂，P₃，...P_j]^T

P_j＝(x_j1，x_j2，x_j3)

其中，P_j表示第j个数据包的特征向量，x_j1为第j个数据包的长度，x_j2为第j个数据包的到达时间，x_j3为第j个数据包的方向。

可选地，定义所述灰度图像中的数据为真实数据，所述生成器的目标函数为：

其中f(x)表示判别器转置卷积层的激活函数，

表示真实数据的概率分布，

表示生成器生成的数据的概率分布，G(z)表示生成器生成的数据。

可选地，所述改进DCGAN模型的损失函数包括：监督学习部分的损失函数和非监督学习部分的损失函数；

所述监督学习部分的损失函数具体为：

所述非监督学习部分的损失函数具体为：

其中，K+1表示生成器生成的数据的类别，因此用y＜K+1表示x属于真实数据的类别，用y＝K+1表示x属于生成器生成的数据的类别；则p_model(y＝K+1|x)表示x为生成器生成数据的概率，

表示真实数据的概率分布函数，

表示生成器生成数据的概率分布函数。

可选地，所述预设的优化算法为AMSGrad优化算法。

第二方面，本发明提供了一种基于改进DCGAN模型的流量数据生成装置，包括：

采集单元，用于采集带标签的网络流量数据，形成网络流量数据集，所述标签的内容为网络数据所述的类别；

构建单元，用于基于所述网络流量数据集中的时间序列特征构建伪图像矩阵，并将所述伪图像矩阵为灰度图像；

优化单元，用于将获取到的服从均匀分布的随机噪声和所述灰度图像作为改进DCGAN模型的输入，基于预设的优化算法对所述改进DCGAN模型的损失函数进行优化；

生成单元，用于当所述改进DCGAN模型收敛后，输出训练后的图像，并根据训练后的图像的像素值将图像转换为相应的数值矩阵，完成流量数据的生成。

第三方面，本发明提供了一种基于改进DCGAN模型的流量数据生成系统，其特征在于包括存储介质和处理器；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述方法的步骤。

与现有技术相比，本发明的有益效果：

1.本发明为基于无监督学习与监督学习联合的流量数据生成方法，解决了当今加密流量数据的信息难以获取的问题。

2.在改进的DCGAN模型中，用卷积层代替了生成器和判别器中的池化层，加快了DCGAN模型训练的速度，并能更好地学习数据的特征。

3.在改进的DCGAN模型中，在判别器和生成器中新增了LSTM层，将CNN与LSTM相结合可以实现通过卷积层提取输入每个时刻的空间关联，再由LSTM单元动态决定是否丢弃或保留当前时刻产生的信息。利用LSTM算法的自适应选择性记忆和遗忘特性，能更好的获取数据的时序特征对模型进行训练。

4.根据连续数据之间呈现的类似于相邻像素的行为特征，选取数据的时序特征构成伪图像矩阵并作为DCGAN模型的输入。

5.采用AMSGrad算法作为模型训练的优化算法，可以避免越过模型收敛的最优解。

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1为本发明一种实施例的基于改进DCGAN的加密流量数据生成方法的流程图。

图2为本发明一种实施例的DCGAN模型的生成器网络结构图。

图3为本发明一种实施例的卷积神经网络多层结构图。

图4为本发明一种实施例的LSTM内部结构图。

图5为本发明一种实施例的DCGAN模型的判别器网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明的保护范围。

下面结合附图对本发明的应用原理作详细的描述。

实施例1

本发明实施例中提供了一种基于改进DCGAN模型的流量数据生成方法，如图1所示，具体包括以下步骤：

步骤(1)采集带标签的网络流量数据，形成网络流量数据集，所述标签的内容为网络数据所述的类别；

在本发明实施例的一种具体实施例中，所述网络流量数据集的形成步骤具体包括：

使用Wireshark捕获网络中的数据包，形成网络流量数据集，其中，所述数据包可以来自当今热门的应用程序类型，如微信、淘宝、邮箱、视频网站等。

步骤(2)基于所述网络流量数据集中的时间序列特征构建伪图像矩阵，并将所述伪图像矩阵为灰度图像；

在本发明实施例的一种具体实施方式中，所述步骤(2)具体为：

(2.1)基于捕获到的数据包的长度、数据包的到达时间和数据包的方向，构建特征向量，如下所示：

P_j＝(x_j1,x_j2,x_j3) (1)

其中，P_j表示第j个数据包的特征向量，x_j1为第j个数据包的长度，x_j2为第j个数据包的到达时间，x_j3为第j个数据包的方向，0指示数据包为前向，1指示数据包为后向；

(2.2)将所有多个数据包的特征向量组成到一起，构成伪图像矩阵(PIM)；所述伪图像矩阵(PIM)的表达式为：

PIM＝[P₁,P₂,P₃,…P_j]^T (2)

(2.3)为了减少采用整个数据集对模型训练和内存带来的压力，可以对捕获到的数据包通过采样的方式选取其中的50个数据包构成最终的伪图像矩阵；步骤(2.3)为优选步骤，在实际过程中，可以根据实际需求决定用或者不用；数据包的个数也不限于50个，在实际过程中，使用人可以根据实际需要进行设置；

(2.4)将所述最终的伪图像矩阵为灰度图像。

步骤(3)将获取到的服从均匀分布的随机噪声和所述灰度图像组成训练集作为改进DCGAN模型的输入，基于预设的优化算法对所述改进DCGAN模型的损失函数进行优化；

在本发明实施例的一种具体实施方式中，所述改进DCGAN模型包括生成器和判别器；

如图2所示，所述生成器接收一个100维服从均匀分布的随机噪声作为输入。第一层为Reshape层，将输入重塑为(8，8，256)的三维矩阵。第二层为转置卷积层，该层设置有8个5*5的卷积核，卷积核的步长设置为1，选用SAME的padding方式来保证卷积前后的维度大小不变，采用PReLU作为第三层的激活函数，并采用BatchNormalization对该层输出进行归一化处理，能够确保每层的输入都是均值为0，方差为1。在该层卷积后，最终会输出8个不同的特征映射。生成器的第三层同样为转置卷积层，共有4个5*5的卷积核，卷积核的步长，padding方式，以及激活函数等参数的设置同第二层相同，最终输出4个不同的特征映射。第四层也是转置卷积层，卷积步长为1，包含一个5*5的卷积核，并选用tanh函数作为该层的激活函数。生成器的整体思路是不断通过反卷积，即上采样的方式将一个1*100的噪声向量扩展成(50，50，3)的图像矩阵。

如图3所示，传统的卷积神经网络(CNN)由卷积、激活和池化三种结构组成。CNN输出的结果是每幅图像的特定特征空间，当处理图像分类任务时，我们会把CNN输出的特征空间作为全连接层(FC Layer)的输入，用全连接层来完成从输入图像到标签集的映射就完成了分类。我们假设单一通道输入图像的空间坐标为(x,y)，卷积核大小是p*q，卷积核权重为w，图像亮度值是v，卷积过程就是卷积核所有权重与其在输入图像上对应元素亮度之和，可以表示为公式(3)：

卷积之后，通常会加入偏置(bias),并引入非线性激活函数，这里定义偏置项为b，激活函数是h(x)，则经过激活函数后得到的结果如公式(4)所示：

常见的激活函数有ReLU系列，Sigmod函数，tanh函数等。池化是一种降采样操作，主要目的就是降低特征映射的特征空间，因为特征映射的参数过多时，不利于图像高层特征的提取。CNN在输出的前一层通常为全连接层，目的是为了学习特征映射的非线性组合，通过使用softmax作为激活函数将输出转换为一个概率值，起到分类器的作用。

长短期记忆(LSTM)是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。如图4所示，LSTM内部主要有三个阶段：忘记阶段，主要对上一个节点传进来的输入进行选择性忘记，通过计算得到的z^f来作为忘记门控，来控制上一个状态的c^t-1哪些需要忘记；

选择记忆阶段，将这个阶段的输入有选择性地进行记忆，主要是对输入x^t进行选择记忆，当前的输入内容由前面计算得到的z表示，而门控信号则是由zⁱ来进行控制，将上述两步的结果相加，即可得到传输给下一个状态的c^t，如公式(5)所示：

c^t＝z^f⊙c^t-1+zⁱ⊙z (5)

输出阶段，决定哪些将会作为当前状态的输出，主要是通过z⁰来进行控制，并且对上一个阶段得到的c⁰通过tanh激活函数进行放缩，最终的输出y^t也是通过h^t变化得到，如以下公式所示：

h^t＝z^o⊙tanh(c^t) (6)

y^t＝σ(W′h^t) (7)

为此，本发明中提出将CNN与LSTM相结合，用以实现通过卷积层提取输入每个时刻的空间关联，再由LSTM单元动态决定是否丢弃或保留当前时刻产生的信息。利用LSTM算法的自适应选择性记忆和遗忘特性，能更好的获取数据的时序特征对模型进行训练。如图3所示，本发明实施例中的判别器的第一层是一个二维的转置卷积层，该卷积层共设置有32个5*5的卷积核来学习灰度图像的特征，卷积核的步长设置为1，选用SAME的padding方式，激活函数为LeakyReLU，并采用BatchNormalization对该层输出归一化，通过对输入伪图像矩阵的特征的学习，与每个卷积核进行卷积计算得到一个特征映射，每个卷积层输出的特征映射的数量与卷积核的数量相同，最终会得到32个不同的特征映射。判别器的第二层同样是一个二维的转置卷积层，该卷积层共有64个2*2的卷积核学习上一层输出的8个特征映射，选用tanh作为该层的激活函数。此外，第二层卷积核步长，padding方式和归一化方式等与第一层的设置一致，最终输出为64个不同的特征映射。判别器的第三层为Reshape层,由于LSTM层要求输入为多个相同形状的张量，因此将卷积层输出的每个特征映射重塑为1维的特征映射向量，降低了维度从而加快神经网络的学习速度。判别器的第四层为LSTM层，将上一层输出的64个特征映射向量作为该层输入，采用PReLU函数作为该层的激活函数。判别器网络的最后一层用全局平均池化层代替了传统的全连接层，大量减少了模型训练所需的参数，提升了模型训练速度，同时减少了过拟合情况发生的概率。该层采用softmax作为激活函数，将输出映射到(0，1)区间，为了将输出转换成sigmoid类型的logit值，将其传入LogSumExp函数中，然后再传入sigmoid函数，最终输出结果为针对二分类的概率值，具体参见图5。

所述将获取到的随机噪声和所述灰度图像作为改进DCGAN模型的输入，基于预设的优化算法对所述改进DCGAN模型的损失函数进行优化，具体包括以下步骤：

由于生成器的损失主要由特征匹配部分所带来，为了避免生成器训练后发生过拟合现象，通常会为生成器指定一个新的目标。指定新目标不是为了直接使判别器的输出最大化，而是使生成器生成与真实数据(即所述灰度图像中的数据)的统计信息相匹配的数据。

所述生成器的目标函数为：

其中，f(x)表示判别器转置卷积层的激活函数，

表示真实数据的概率分布，

判别器的损失由监督学习部分和非监督学习带来的损失共同组成。训练的最终目标是使观察到的标签和分类器预测的概率分布之间的交叉熵最小，在训练过程中通过将生成器生成的样本添加到训练数据集中，会使得原始数据的N个类别扩充到N+M个类别，M表示新增的类别数目，从而使模型从不含标签的数据中学习，最终能生成以假乱真的样本。监督学习带来的损失主要来自于将数据判别为真实样本类别的概率，如公式(9)所示：

非监督学习的损失主要由分类器预测概率和N个类别之间的交叉熵组成，如公式(10)所示：

表示真实数据的概率分布函数，

表示生成器生成数据的概率分布函数。

由于Adam算法因其独特的自适应学习率而被广受欢迎，但由于其可能存在模型不收敛，以及错过全局最优解的情况，改进的DCGAN模型中采用AMSGrad优化算法代替Adam，AMSGrad算法在训练所使用的小数据集中表现的更好。AMSGrad算法的更新过程如公式(11)～(15)所示：

m_t＝β_1tm_t-1+(1-β_1t)g_t (12)

其中f_t(x)指代损失函数，g_t代表下降的梯度，m_t指代梯度更新的指数移动均值，v_t表示更新的平方梯度，β_1t和β₂分别用于控制移动均值和平方梯度的衰减率，

表示算法训练过程的学习率。

(4)当所述改进DCGAN模型收敛后，输出训练后的图像，并根据训练后的图像的像素值转换为相应的数值矩阵，完成流量数据的生成。

在本发明实施例的一种具体实施方式中，所述改进DCGAN模型的训练过程具体为：

A设置生成器和判别器的参数，如输入数据的维度，卷积核的大小和个数等；

B将随机噪声输入生成器生成n个样本点，并从采集到的真实数据中选取n个样本，混合得到2n个样本并输入判别器；所述真实数据即灰度图像，所述灰度图像的获取过程为：采集带标签的网络流量数据，形成网络流量数据集；基于所述网络流量数据集中的时间序列特征构建伪图像矩阵，并将所述伪图像矩阵为灰度图像；

C先固定生成器的参数不变，计算出判别器的误差(即监督学习部分和非监督学习带来的损失)；

D使用反向传播算法，根据网络的权重计算误差的梯度，通过AMSGrad优化算法更新判别器所有卷积核的权重和参数的值，使判别器误差最小化；

E对判别器的更新次数达到所设定数值或误差小于指定阈值时，再对生成器的参数进行更新，然后训练生成器使其生成与真实样本足够相似的数据，并将该数据交由判别器进行判别，反馈判别结果；

F然后不断重复(C)-(E)，直至判别器和生成器达到动态平衡，最终的判别概率平均为0.5左右。

实施例2

基于与实施例1相同的发明构思，本发明实施例中提供了一种基于改进DCGAN模型的流量数据生成装置，包括：

采集单元，用于采集带标签的网络流量数据，形成网络流量数据集；

优化单元，用于将获取到的随机噪声和所述灰度图像作为改进DCGAN模型的输入，基于预设的优化算法对所述改进DCGAN模型的损失函数进行优化；

其余部分均与实施例1相同。

所述存储介质用于存储指令；

其余部分均与实施例1相同。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。