CN109120652A

CN109120652A - 基于差分wgan网络安全态势预测

Info

Publication number: CN109120652A
Application number: CN201811329721.1A
Authority: CN
Inventors: 王永; 王婷婷; 朱江
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-01-01

Abstract

本发明提出了一种基于差分WGAN的网络安全态势预测方法。该发明利用生成对抗网络(Generative adversarial network，GAN)来模拟态势的发展过程，从时间维度实现态势预测。为了解决GAN所具有的网络难以训练、collapse mode及梯度不稳定问题，提出了利用Wasserstein距离作为GAN的损失函数，并在损失函数中添加差分项的方法来提高态势值的分类精度。同时还证明了差分WGAN网络的稳定度。实验结果和分析表明，该机制相比其它机制而言在收敛性、预测精度和复杂度方面具有优势。

Description

基于差分WGAN网络安全态势预测

技术领域

本发明涉及网络安全态势预测机器学习技术领域，特别涉及基于差分WGAN网络安全态势预测。

背景技术

现如今，全球的网络空间遭遇了巨大的安全挑战，国家型黑客攻击事件频发、针对关键基础设施与物联网的攻击不断、勒索软件盛行、数据泄露严重等等。未来的网络安全将会如何发展，如何能准确预测网络安全态势是未来将着重研究的对象。网络安全态势预测是网络安全态势感知(Network Security Situation Awareness,NSSA)的最终目的。

在网络安全领域，态势预测已成为热点。网络安全态势预测就是根据一段时间内的网络安全数据即态势评估得到的态势值，运用专家知识及数据挖掘等理论方法分析预测未来时间的网络态势可能的发展趋势，使安全管理员能够在可能的安全攻击前做好准备。随着机器学习算法的不断发展，网络安全态势预测主要基于D-S证据理论、支持向量机(Support Vector Machine，SVM)、深度信念网络(Deep Belief Network，DBN)等理论的预测方法。虽然这些方法也取得了一定得效果，但仍需要不断地完善。随着的不断进步和人工智能的不断发展。许多专家尝试着在新的领域预测网络安全态势，机器学习在近几年是大家研究的重点对象，在图像分类、可视化等方面效果卓著。在网络安全方面还需要不断的探索和创新。

基于对机器学习的不断深入，生成对抗网络(Generative adversarial network，GAN)是基于可微生成网络的另一种生成式，训练GAN需要达到纳什均衡，训练GAN模型是不稳定的。在此基础上也做了很多改进，比如DCGAN依靠的是对判别器和生成器的架构进行实验枚举，最终找到一组较好的网络架构设置。但实际上这种方法没有彻底解决问题。而Wasserstein-GAN(WGAN)却得到了很好的效果。本文将WGAN运用到网络安全中，并在损失函数中添加差分项提出了一种基于差分WGAN态势预测方法。充分考虑了不同态势要素的依赖关系，利用态势要素时间维度上的关联性对未来的网络安全态势要素进行预测，更客观地反应历史网络安全态势对未来态势的影响。

发明内容

本发明提出了一种基于差分WGAN的网络安全态势预测方法，对于实际网络环境建立循环神经网络模型，提取网络安全态势要素训练模型并对未来网络安全变化趋势进行预测。采用某公司7月到9月中95天的防火墙、IDS等历史日志信息作为原始数据集进行实验，研究结果表明该方法具有可行性以及较高的准确度。利用生成对抗网络(Generativeadversarial network，GAN)来模拟态势的发展过程，从时间维度实现态势预测。为了解决GAN所具有的网络难以训练、collapse mode及梯度不稳定问题，提出了利用Wasserstein距离作为GAN的损失函数，并在损失函数中添加差分项的方法来提高态势值的分类精度。同时还证明了差分WGAN网络的稳定度。主要分为三个步骤：

步骤101：构建网络安全态势预测框架；

步骤102：采用基于差分WGAN的网络安全态势预测，解决目标问题；

步骤103：基于差分WGAN的网络安全态势预测，具体由两个主要步骤组成：WGAN核心原理描述、差分WGAN算法描述。

优选地，所述步骤101网络安全态势预测框架包括：

在网络安全领域，态势预测已成为热点。网络安全态势预测就是根据一段时间内的网络安全数据即态势评估得到的态势值，运用专家知识及数据挖掘等理论方法分析预测未来时间的网络态势可能的发展趋势，使安全管理员能够在可能的安全攻击前做好准备。随着机器学习算法的不断发展，网络安全态势预测主要基于D-S证据理论、支持向量机(Support Vector Machine，SVM)、深度信念网络(Deep Belief Network，DBN)等理论的预测方法。虽然这些方法也取得了一定得效果，但仍需要不断地完善。随着不断进步和人工智能的不断发展。许多专家尝试着在新的领域预测网络安全态势，机器学习在近几年是大家研究的重点对象，在图像分类、可视化等方面效果卓著。在网络安全方面还需要不断的探索和创新。

优选地，所述步骤102采用基于差分WGAN的网络安全态势预测，解决目标问题包括：

生成式可以通过真实数据的本质特征，刻画出样本的数据分布特征，生成与训练样本相似的新数据。GAN是由Goodfellow等在2014年提出的一种生成模型，不同于传统的生成模型，其在网络结构上除了生成网络，还包含了一个判别网络。生成网络与判别网络之间是一种对抗的关系。对抗源自于博弈论的思想,博弈双方在平等的对局中各自利用对方的策略变换自己的对抗策略，以此达到某个最优的状态。将这种博弈的方式引用到生成对抗网络中的生成器和判别器中，将其视为博弈双方。生成器拟合数据的产生过程生成模型样本，使生成器估测到数据样本的分布。

差分WGAN是由两个模型构成生成模型G和判别模型D，随机噪声Z通过G生成尽量服从真实数据分布的样本G(z)，判别模型D通过损失函数，即添加了差分项的损失函数。可以判断出输入样本是真实数据x还是生成数据G(z)。G和D都可以是非线性的映射函数，比如多层感知器。

优选地，所述步骤103基于差分WGAN的网络安全态势预测，具体由两个主要步骤组成：WGAN核心原理描述、差分WGAN算法描述。

(1)WGAN核心原理描述

在生成器给定的情况下，需要优化判别器。训练判别器是实现最小化交叉熵的过程。E(·)为期望值的计算,x采样于真实数据分布p_data(x)，z采样于先验分布p_z(z)。生成器为了学习数据x的分布，由先验噪声分布p_z(z)构建了一个映射空间g(Z；θG)，所对应的判别器映射函数为D(x；θd)，输出一个标量表示x为真实数据的概率为：

可将公式(1)拆分为两个部分理解：一是其中x表示真实样本,D(x)表示x通过判别网络判断其为真实样本的概率；二是z表示输入生成样本的噪声，G(z)表示生成网络由噪声z生成的样本，而D(G(z))表示生成样本通过判别网络后，判断其为真实样本的概率。生成网络是要让生成样本越接近真实样本越好，即D(G(z))越接近1越好,这时V(D,G)会变小；而判别网络的目的是要让D(x)接近1，而D(G(z))接近0，此时V(D,G))会增大。

首先从以上公式可以得到，在生成器G固定参数时计算判别器D的最优状态。对于一个具体的样本x，它可能来自真实分布也可能来自生成分布，它对损失函数的贡献是：

-P_r(x)[logD(x)]-P_g(x)[log(1-D(x)]

令其关于D(x)的导数为0，得

化简得最优判别器为：

这个结果从直观上很容易理解，就是看一个样本x来自真实分布和生成分布的可能性的相对比例。如果P_r(x)＝0且P_g(x)≠0，最优判别器就应该非常自信地给出概率0；如果P_r(x)＝P_g(x)，说明该样本是真是假的可能性刚好一半，此时最优判别器也应该给出概率0.5。

代入公式，再进行简单的变换可以得到：

变换成这个样子是为了引入Kullback Leibler divergence(KL散度)和JensenShannon divergence(JS散度)这两个重要的相似度衡量指标：

于是损失函数可以写成：

2JS(P₁||P₂)-2log2

在(近似)最优判别器下，最小化生成器的loss等价于最小化P_r(x)与P_g(x)之间的JS散度，而由于P_r(x)与P_g(x)几乎不可能有不可忽略的重叠，所以无论它们相距多远,JS散度都是常数log2，最终导致生成器的梯度(近似)为0，梯度消失。在KL散度条件下，导致梯度不平衡以及惩罚不平衡导致mode collapse等问题。

针对GAN的梯度消失、梯度不平衡以及惩罚不平衡导致mode collapse等问题。在GAN中引入了差分Wasserstein距离作为损失函数，由于它相对KL散度与JS散度具有优越的平滑特性，理论上可以解决梯度消失问题。接着通过数学变换将Wasserstein距离写成可求解的形式，利用一个参数数值范围受限的判别器神经网络来最大化这个形式，就可以近似Wasserstein距离，能有效拉近生成分布与真实分布。

(2)差分WGAN算法描述

WGAN最大的贡献在于利用Wasserstein距离代替GAN中的JS散度或KL散度，极大缓解GAN难以训练的问题，Wasserstein距离又叫Earth-Mover(EM)距离，定义如下：

Π(P_r,P_g)为P_r和P_g组合起来的所有可能的联合分布的集合，反过来说Π(P_r,P_g)，中每一个分布的边缘分布都是P_r和P_g。对于每一个可能的联合分布γ而言，可以从中采样(x,y)～γ得到一个真实样本x和一个生成样本y，并算出这对样本的距离||x-y||，所以可以计算该联合分布γ下样本对距离的期望值Ε_(x,yγ)[||x-y||]。在所有可能的联合分布中能够对这个期望值取到的下界就定义为Wasserstein距离。

因为Wasserstein距离定义中的没法直接求解，可以用一个已有的定理把它变换为如下形式：

这个过程已被证明。首先需要介绍一个概念—Lipschitz连续。它其实就是在一个连续函数f上面额外施加了一个限制，要求存在一个常数K≥0使得定义域内的任意两个元素x₁和x₂都满足：

|f(x₁)-f(x₂)|≤Kx₁-x₂|

此时称函数f的Lipschitz常数为K。

简单理解，比如说f的定义域是实数集合，那上面的要求就等价于f的导函数绝对值不超过K。再比如说log(x)就不是Lipschitz连续，因为它的导函数没有上界。Lipschitz连续条件限制了一个连续函数的最大局部变动幅度。特别地，可以用一组参数w来定义一系列可能的函数f_w，此时求解如下形式：

构造了一个含参数w、最后一层不是非线性激活层的判别器网络f_w，在限制w不超过某个范围的条件下，使得判别器的损失函数为：

Lipschitz限制是要求判别器的梯度不超过K(K＝1)，可以在公式末尾添加一个差分项，损失函数为：

也就是说，我们仍然是在分布上随机采样，但是一次采两个，然后要求它们的连线斜率要接近1。以此来限制真假样本之间的距离。

差分WGAN成功地解决了GAN所遇到的以下问题：解决GAN训练不稳定的问题，不再需要小心平衡生成器和判别器的训练程度；基本解决了collapse mode的问题，确保了生成样本的多样性；

WGAN的问题在于，判别器是一个多层网络。在处理Lipschitz限制条件时直接采用了weight clipping，然而这种方法会让参数限制在clip的范围内。从而针对性地给出了改进要点，在损失函数候后面加一个可以进行限制的差分项，来限制参数的范围。

具体算法如下：

附图说明

图1本发明所使用差分WGAN流程图；

图2本发明所提梯度值比较变化曲线；

图3本发明所提深度卷积对抗生成网络示意图；

图4本发明所提差分WGAN预测流程图；

图5本发明所提网络安全态势评估量化示意图；

图6本发明所提极值化后网络安全态势值变化曲线；

图7本发明所提误差随迭代次数的变化曲线；

图8本发明所提不同预测方法的态势值对比变化曲线；

具体实施方式

为使本发明的目的、技术方案和优点表达得更加清楚明白，下面结合附图及具体实施案例对本发明做进一步详细说明。

图1本发明所使用差分WGAN流程图，具体包括：

差分WGAN是由两个模型构成,生成模型G和判别模型D，随机噪声Z通过G生成尽量服从真实数据分布的样本G(z)，判别模型D通过损失函数，即添加了差分项的损失函数。可以判断出输入样本是真实数据x还是生成数据G(z)。G和D都可以是非线性的映射函数，比如多层感知器。

图2本发明所提梯度值比较变化曲线，包括以下步骤：

定理1：在WGAN损失函数中，使用Lipschitz连续，在末尾添加差分方程作为新的损失函数，在分布上随机采样，存在一个常数K＝1使得定义域内的任意两个元素x₁和x₂都满足Lipschitz连续函数，可以有效地稳定梯度的变化。

分析：判别器都是想尽可能得拉大真实样本与生成样本之间的距离，不加差分限制项，通常也是要加个weight clipping进行限制，但其是对样本空间全局生效，难免就会导致梯度消失或者梯度爆炸；而差分只对真假样本集中区域，而且把梯度限制在1附近，可控性非常强。

证明：已知并假设ε～Uniform[0,1]在x_r，x_g中间随机插值，即

x＝εx_r+(1-ε)x_g

此时x满足的分布记为在上随机取样，在其中选取两个不一样的值，例如x₁～p_x,x₂～p_x，这两个值都是真实样本和生成样本的集中区域选取的，控制他们之间的距离，对其进行限制，可以防止距离过大或者距离过小，为判别器分辨带来了很好的效果。将weight clipping和差分做了个简单的对比，明显看到了差分的优势。

图2可以看出用了差分项之后，梯度值变化甚微，这会给判别器对真实样本和生成样本的区分带来意想不到的效果。

证毕。

图3本发明所提深度卷积对抗生成网络示意图，包括以下步骤：

差分WGAN预测模型中，生成器G和判别器D本文中用的卷积神经网络(Convolutionneural network，CNN)，也是一种深度卷积对抗生成网络，具体模型如图3。

差分WGAN的网络预测模型中CNN有一些改变，分别为以下几点：

(1)取消所有pooling层。G网络中使用转置卷积进行上采样，D网络中用加入步长的卷积代替pooling；

(2)去掉FC层，使网络变为全卷积网络；

(3)G网络中使用ReLU作为激活函数，最后一层使用tanh；

(4)D网络中使用LeakyReLU作为激活函数；

图4本发明所提差分WGAN预测流程图，具体包括：

实验中将前xx天的数据作为生成器的输入，生成一种分布，后xx天的数据当作真实数据输入判别器中，判别器中会判别前xx天的数据分布与后xx天的数据进行区分，不断地更新网络来达到概率近似为1的状态。也就是预测前xx天的态势是不是会发展成后xx天的态势。这样也就达到了预测的效果，可以知道未来xx天内的发展态势。

图5本发明所提网络安全态势评估量化示意图，具体包括：

分析安全数据的攻击特点，具有不确定性和连续性，本文选用某公司7月到9月中95天的防火墙、IDS等历史日志信息作为原始数据集。对每天的日志信息进行一次采样。通过网络安全态势评估方法从服务、主机、网络系统三个层次对攻击威胁和服务节点权重进行量化计算，从而得到网络安全态势值。

图6本发明所提极值化后网络安全态势值变化曲线，具体包括：

由于安全态势值是随机的，量纲差异大，为提升模型的训练速度，对态势值进行极值标准化处理，处理公式如下：

上式中X_min、X_max为样本中最小和最大的态势值。X、分别为处理前后的态势值。

图7本发明所提误差随迭代次数的变化曲线，具体包括：

将数据重构后规范在tanh的[-1,1]。Mini-batch训练中batch size是128。所有的参数初始化由(0 0.02)的正态分布中随机得到LeakyReLU的斜率是0.2。

将加了差分项的损失函数，与不加差分项的损失函数进行比较，可以从图7看出，加了差分项的误差更小。

图8本发明所提不同预测方法的态势值对比变化曲线，具体包括：

将差分WGAN的预测方法和常见的GAN改进方法进行比较，比如WGAN、DCGAN以及LSGAN等方法，结果如图8。

由图8可以看出差分WGAN的预测方法的效果很好。这是因为加了差分项的损失函数可控性强，且损失函数的Wasserstein距离解决了GAN中梯度消失、梯度不稳定以及collapse mode等问题。

Claims

1.一种基于差分WGAN网络安全态势预测，其特征在于，包括以下步骤：

步骤101：构建网络安全态势预测框架；

2.根据权利要求1所述的基于差分WGAN网络安全态势预测，其特征在于，

所述步骤101构建网络安全态势预测框架包括：

现如今，全球的网络空间遭遇了巨大的安全挑战，国家型黑客攻击事件频发、针对关键基础设施与物联网的攻击不断、勒索软件盛行、数据泄露严重等等；未来的网络安全将会如何发展，如何能准确预测网络安全态势是未来将着重研究的对象；网络安全态势预测是网络安全态势感知(Network Security Situation Awareness,NSSA)的最终目的；

在网络安全领域，态势预测已成为热点；网络安全态势预测就是根据一段时间内的网络安全数据即态势评估得到的态势值，运用专家知识及数据挖掘等理论方法分析预测未来时间的网络态势可能的发展趋势，使安全管理员能够在可能的安全攻击前做好准备；随着机器学习算法的不断发展，网络安全态势预测主要基于D-S证据理论、支持向量机(SupportVector Machine，SVM)、深度信念网络(Deep Belief Network，DBN)等理论的预测方法；虽然这些方法也取得了一定的效果，但仍需要不断地完善；随着的不断进步和人工智能的不断发展；许多专家尝试着在新的领域预测网络安全态势，机器学习在近几年是大家研究的重点对象，在图像分类、可视化等方面效果卓著；在网络安全方面还需要不断的探索和创新；

基于对机器学习的不断深入，生成对抗网络(Generative adversarial network，GAN)是基于可微生成网络的另一种生成式，训练GAN需要达到纳什均衡，训练GAN模型是不稳定的；在此基础上也做了很多改进，比如DCGAN依靠的是对判别器和生成器的架构进行实验枚举，最终找到一组较好的网络架构设置；但实际上这种方法没有彻底解决问题；而Wasserstein-GAN(WGAN)却得到了很好的效果；本文将WGAN运用到网络安全中，并在损失函数中添加差分项提出了一种基于差分WGAN态势预测方法；充分考虑了不同态势要素的依赖关系，利用态势要素时间维度上的关联性对未来的网络安全态势要素进行预测，更客观地反应历史网络安全态势对未来态势的影响。

3.根据权利要求1所述的基于差分WGAN网络安全态势预测，其特征在于，所述步骤102采用基于差分WGAN的网络安全态势预测，解决目标问题包括：

生成式可以通过真实数据的本质特征，刻画出样本的数据分布特征，生成与训练样本相似的新数据；GAN是由Goodfellow等在2014年提出的一种生成模型，不同于传统的生成模型，其在网络结构上除了生成网络，还包含了一个判别网络；生成网络与判别网络之间是一种对抗的关系；对抗源自于博弈论的思想,博弈双方在平等的对局中各自利用对方的策略变换自己的对抗策略，以此达到某个最优的状态；将这种博弈的方式引用到生成对抗网络中的生成器和判别器中，将其视为博弈双方；生成器拟合数据的产生过程生成模型样本，使生成器估测到数据样本的分布；

差分WGAN是由两个模型构成生成模型G和判别模型D，随机噪声Z通过G生成尽量服从真实数据分布的样本G(z)，判别模型D通过损失函数，即添加了差分项的损失函数；可以判断出输入样本是真实数据x还是生成数据G(z)；G和D都可以是非线性的映射函数，比如多层感知器。

4.根据权利要求1所述的基于差分WGAN网络安全态势预测，其特征在于，

所述步骤103基于差分WGAN的网络安全态势预测，具体由两个主要步骤组成包括：WGAN核心原理描述、差分WGAN算法描述；

(1)WGAN核心原理描述

在生成器给定的情况下，需要优化判别器；训练判别器是实现最小化交叉熵的过程；E(·)为期望值的计算,x采样于真实数据分布p_data(x)，z采样于先验分布p_z(z)；生成器为了学习数据x的分布，由先验噪声分布p_z(z)构建了一个映射空间g(Z；θG)，所对应的判别器映射函数为D(x；θd)，输出一个标量表示x为真实数据的概率为：

可将公式拆分为两个部分理解：一是其中x表示真实样本,D(x)表示x通过判别网络判断其为真实样本的概率；二是z表示输入生成样本的噪声，G(z)表示生成网络由噪声z生成的样本，而D(G(z))表示生成样本通过判别网络后，判断其为真实样本的概率；生成网络是要让生成样本越接近真实样本越好，即D(G(z))越接近1越好,这时V(D,G)会变小；而判别网络的目的是要让D(x)接近1，而D(G(z))接近0，此时V(D,G))会增大；

首先从以上公式可以得到，在生成器G固定参数时计算判别器D的最优状态；对于一个具体的样本x，它可能来自真实分布也可能来自生成分布，它对损失函数的贡献是：

-P_r(x)[logD(x)]-P_g(x)[log(1-D(x)]

令其关于D(x)的导数为0，得

化简得最优判别器为：

这个结果从直观上很容易理解，就是看一个样本x来自真实分布和生成分布的可能性的相对比例；如果Px(x)＝0且P_g(x)≠0，最优判别器就应该非常自信地给出概率0；如果P_r(x)＝P_g(x)，说明该样本是真是假的可能性刚好一半，此时最优判别器也应该给出概率0.5；

代入公式，再进行简单的变换可以得到：

于是损失函数可以写成：

2JS(P₁||P₂)-2log2

在(近似)最优判别器下，最小化生成器的loss等价于最小化P_r(x)与P_g(x)之间的JS散度，而由于P_r(x)与P_g(x)几乎不可能有不可忽略的重叠，所以无论它们相距多远,JS散度都是常数log2，最终导致生成器的梯度(近似)为0，梯度消失；在KL散度条件下，导致梯度不平衡以及惩罚不平衡导致mode collapse等问题；

针对GAN的梯度消失、梯度不平衡以及惩罚不平衡导致mode collapse等问题；在GAN中引入了差分Wasserstein距离作为损失函数，由于它相对KL散度与JS散度具有优越的平滑特性，理论上可以解决梯度消失问题；接着通过数学变换将Wasserstein距离写成可求解的形式，利用一个参数数值范围受限的判别器神经网络来最大化这个形式，就可以近似Wasserstein距离，能有效拉近生成分布与真实分布；

(2)差分WGAN算法描述

П(P_r,P_g)为P_r和P_g组合起来的所有可能的联合分布的集合，反过来说П(P_r,P_g)，中每一个分布的边缘分布都是P_r和P_g；对于每一个可能的联合分布γ而言，可以从中采样(x,y)～γ得到一个真实样本x和一个生成样本y，并算出这对样本的距离||x-y||，所以可以计算该联合分布γ下样本对距离的期望值Ε_(x,yγ)[||x-y||]；在所有可能的联合分布中能够对这个期望值取到的下界就定义为Wasserstein距离；

|f(x₁)-f(x₂)|≤K|x₁-x₂|

此时称函数f的Lipschitz常数为K；

简单理解，比如说f的定义域是实数集合，那上面的要求就等价于f的导函数绝对值不超过K；再比如说log(x)就不是Lipschitz连续，因为它的导函数没有上界；Lipschitz连续条件限制了一个连续函数的最大局部变动幅度；特别地，可以用一组参数w来定义一系列可能的函数f_w，此时求解如下形式：

也就是说，我们仍然是在分布上随机采样，但是一次采两个，然后要求它们的连线斜率要接近1；以此来限制真假样本之间的距离；

差分WGAN成功地解决了GAN所遇到的以下问题：解决GAN训练不稳定的问题，不再需要小心平衡生成器和判别器的训练程度；基本解决了collapsemode的问题，确保了生成样本的多样性；

具体算法如下：

WGAN的问题在于，判别器是一个多层网络；在处理Lipschitz限制条件时直接采用了weight clipping，然而这种方法会让参数限制在clip的范围内；从而针对性地给出了改进要点，在损失函数候后面加一个可以进行限制的差分项，来限制参数的范围。