CN114301667A - 基于wgan动态惩罚的网络安全不平衡数据集分析方法 - Google Patents

基于wgan动态惩罚的网络安全不平衡数据集分析方法 Download PDF

Info

Publication number
CN114301667A
CN114301667A CN202111617202.7A CN202111617202A CN114301667A CN 114301667 A CN114301667 A CN 114301667A CN 202111617202 A CN202111617202 A CN 202111617202A CN 114301667 A CN114301667 A CN 114301667A
Authority
CN
China
Prior art keywords
data
wgan
distribution
network security
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111617202.7A
Other languages
English (en)
Other versions
CN114301667B (zh
Inventor
许艳萍
裘振亮
仇建
叶挺聪
张桦
吴以凡
张灵均
陈政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111617202.7A priority Critical patent/CN114301667B/zh
Publication of CN114301667A publication Critical patent/CN114301667A/zh
Application granted granted Critical
Publication of CN114301667B publication Critical patent/CN114301667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了基于WGAN动态惩罚的网络安全不平衡数据集分析方法,针对不平衡数据集中的少类样本构建WGAN模型。在判别器损失函数中添加一项惩罚项,约束损失函数的梯度范数,惩罚项在真实数据分布上叠加一个随机分布作为过渡分布,惩罚项的系数为真实分布与生成分布之间的均方距离。在模型训练过程中,两个数据分布之间的均方距离不断变化,即对判别器损失函数的惩罚是动态更新的,有助于提高模型训练的稳定性和效率。本发明提出的基于WGAN动态惩罚的网络安全不平衡数据集分析方法,通过生成大量少类样本,与原始样本融合,实现数据集的平衡。在基于浅层机器学习算法对数据分类时,实现对原始少类数据的高效正确检测。

Description

基于WGAN动态惩罚的网络安全不平衡数据集分析方法
技术领域
本发明属于数据分析处理领域,涉及网络安全大数据分析和建模,具体涉及基于WGAN动态惩罚的网络安全不平衡数据集分析方法。
背景技术
在网络空间中,通过多种途径获取的数据集通常是不平衡的,即数据集中包含的各个类别的样本数目不同,如网络入侵检测中,大部分情况下都是正常访问流量,异常流量出现的情况较少;应用软件中,良性应用的数目要远远多于恶意应用的数目,但是占比较低的恶意应用一旦因为应用不当而广泛传播,将会给用户带来无法估计的损失。样本数量不平衡的数据集很常见,在使用数据挖掘算法和机器学习算法对其进行分析时,通常会产生很多问题,如少类样本数量较少,不利于分类器的学习和训练,以至于模型对训练集中的少类样本分类精度较差;在分类边界上分布较少的少类样本,造成分类面向少类样本偏离,使得少类样本的误分概率较大;当少类样本数量极少,又被分类器划分到更多子空间时,容易被当作噪声数据抛弃,进而形成数据碎片。随着深度学习、人工智能计算的不断发展,以及深度学习技术在计算机视觉、自然语言处理等方面的成功应用,将深度学习技术应用于处理网络安全不平衡数据集,实现网络安全数据分类,可以提高网络数据中占少类的威胁检测。
对抗生成网络GAN是一个典型的深度生成式模型,其设计灵感来自于博弈论,一般由生成器和判别器两个神经网络构成,生成器用于尽量生成与真实数据相近的新数据去欺骗判别器,判别器的目标是尽量辨别出真实数据和由生成器生成的假数据。通过对抗方式进行多次训练,最后得到一个性能优异的生成器。但是,GAN存在训练不稳定、梯度消失、模式崩溃的问题,为了解决这些问题,WGAN被提了出来,成功地对GAN进行了改进,表现为四点:(1)判别器的最后一层网络模型去掉Sigmoid;(2)生成器和判别器的损失函数不取对数;(3)判别器参数更新的过程中对损失函数值做截断;(4)不使用基于动量的优化算法。但是,不管是GAN还是WGAN,都没有考虑的一点是对抗式生成网络存在训练不平衡的问题,如果判别器训练得太好,生成器就无法得到足够的梯度继续优化,而如果判别器训练得太弱,指示作用不显著,同样不能让生成器进行有效的学习。这样一来,判别器的训练次数就非常难把控。
发明内容
针对现有技术的不足,本发明提出了基于WGAN动态惩罚的网络安全不平衡数据集分析方法,针对网络安全不平衡数据集,利用生成器生成与原始的少类样本相似的新样本后,与原样本进行融合形成新的数据集,再输入浅层机器学习算法中进行分类,改善因样本不平衡导致的分类错误,通过对WGAN增加动态惩罚项,改善WGAN训练不稳定的缺陷。
基于WGAN训练收敛的不平衡数据集分析方法,具体包括以下步骤:
步骤一、数据采集与预处理
采集网络安全数据,按照类别标签将网络安全数据分割成多类数据子集和少类数据子集,并计算两个子集间的不平衡度与过采样率。
步骤二、构建WGAN模型
构建包含生成器和判别器的WGAN模型,将噪声数据以及步骤一中的少类数据子集输入到WGAN模型中,按照过采样率确定需要生成的新的少类数据的数量。
步骤三、训练WGAN模型
针对GAN模型中潜在的训练不稳定的问题,在判别器损失函数中添加一项惩罚项,用于约束损失函数的梯度范数。对WGAN模型中的生成器与判别器进行多次交叉迭代训练,在一次迭代中首先固定判别器,训练生成器,然后再固定生成器,训练判别器。经过多轮迭代,得到稳定的WGAN训练模型,生成与真实数据相近的少类新样本。
所述惩罚项采用在真实数据分布上叠加一个随机分布作为过渡分布的形式,惩罚项的系数为真实数据分布与生成数据分布之间的均方距离。随着模型训练的迭代,真实数据分布和生成数据分布之间的均方距离不断变化,因此该惩罚项对判别器损失函数的惩罚是动态更新的。可以加快生成数据的分布向真实数据分布逼近,从而有效提高训练的稳定性和效率。
步骤四、数据融合
使用步骤三训练后的WGAN模型,输出符合要求数量的新的少类数据,将其与步骤一中的少类数据子集融合后再与多类数据子集融合,形成带标签的网络安全数据集。
步骤五、数据分类
将步骤四得到的网络安全数据集输入浅层机器学习模型中,对浅层机器学习模型模型进行训练。然后再收集无标签的网络安全数据,输入训练后的浅层机器学习模型,输出对应的预测标签,完成网络安全数据的分类。
作为优选,所述浅层机器学习模型为支持向量机、决策树或朴素贝叶斯模型。
本发明具有以下有益效果:
1、针对GAN模型中潜在的训练不稳定的问题,在判别器损失函数中添加一项惩罚项,约束损失函数的梯度范数,惩罚项采用在真实数据分布上叠加一个随机分布作为过渡分布的形式,惩罚项的系数为真实分布与生成分布之间的均方距离。这样可以加快生成数据的分布向真实数据分布逼近,从而有效提高训练的稳定性和效率。
2、使用训练后的WGAN模型生成更多的少类数据后与原数据集融合,平衡数据集中不同的样本数量,再对浅层机器学习模型进行训练,有效降低由于数据不平衡带来的分类误差。
附图说明
图1为一种基于WGAN训练平衡的不平衡数据集分析方法。
具体实施方式
以下结合附图对本发明作进一步的解释说明;
如图1所示,基于WGAN训练收敛的不平衡数据集分析方法,具体包括以下步骤:
步骤一、数据采集与预处理
对原始的网络安全数据进行One-hot编码,构建尺寸为N*D的网络安全数据集X,按照类别标签将网络安全数据分割成多类数据子集和少类数据子集,其中多类数据Xd的数量为N+
Figure BDA0003436929920000031
少类数据Xs的数量为N-
Figure BDA0003436929920000032
定义不同类别数据间的不平衡度IR和过采样率R分别为:
Figure BDA0003436929920000033
Figure BDA0003436929920000034
其中,
Figure BDA0003436929920000035
表示对数据向下取整。
为了实现不同类别的样本达到数目上的平衡,需要生成的少类数据的数量为原有少类数据数量的(IR-1)倍。
步骤二、构建WGAN模型
构建包含生成器G和判别器D的WGAN模型,生成器G和判别器D的网络结构由全连接层构成。将噪声数据XNosie以及步骤一中的少类数据子集Xs输入到WGAN模型中,使用生成器G生成新的少类数据集Xf,大小为R*N-
步骤三、训练WGAN模型
对WGAN模型中的生成器G与判别器D进行多次交叉迭代训练,训练过程即为减小生成器Loss和判别器Loss的过程。本实施例选择Wasserstein距离作为WGAN模型的损失函数:
Figure BDA0003436929920000041
其中,PD是判别器D的数据分布,PG是生成器G的数据分布,W(PD,PG)是PD和PG组成的所有可能联合分布的集合。对于联合分布γ来说,数据子集Xs和数据集Xf符合分布(Xs,Xf)~γ,||Xs-Xf||表示两个数据集的样本之间的距离,在联合分布下样本距离的期望值为
Figure BDA0003436929920000042
取下界定义为Wasserstein距离。
为求解公式(3),引入K-Lipschitz限制条件:
|fw(Xs)-fw(Xf)|≤K*|Xs-Xf| (4)
其中,fw(·)表示神经网络模型函数,K为Lipschitz常数。
求解公式(4)的近似解:
Figure BDA0003436929920000043
Figure BDA00034369299200000412
表示新生成的样本。Lipschitz常数K将梯度的值放大K倍,但不影响梯度的方向。公式(5)可以表示一个含参数w、并且删去最后一层非线性激活层的判别器网络。公式(5)表示对所有满足1-Lipschitz限制的函数fw(·)取上界,即Lipschitz限制规定了一个连续函数的最大局部变动幅度。在限制w不超过某个范围的条件下,Wasserstein距离转化为
Figure BDA0003436929920000044
在训练过程中,如果生成器G要近似地最小化Wasserstein距离,需要最小化
Figure BDA0003436929920000045
考虑到
Figure BDA0003436929920000046
的第一项与生成器无关,因此可以将
Figure BDA0003436929920000047
拆分为
Figure BDA0003436929920000048
Figure BDA0003436929920000049
分别表示判别器D的损失和生成器G的损失:
Figure BDA00034369299200000410
Figure BDA00034369299200000411
公式(7)与公式(6)互反,可以指示训练进程,其数值越小,表示真实分布与生成分布的Wasserstein距离越小,GAN训练得越好。
在生成器和判别器交替训练过程中,判别器用来分辨生成器生产的数据和真实数据。如果生产的数据与真实数据差异较大,则判别器的损失函数值就较大,对后续的训练收敛和样本生成质量都有较大影响。
为了加快生成器和判别器的迭代过程,提高WGAN的训练稳定性,我们在判别器损失函数
Figure BDA0003436929920000051
中添加一项惩罚项,约束损失函数的梯度范数。惩罚项采用在真实数据分布上叠加一个随机分布作为过渡分布的方式,惩罚项的系数为真实数据分布与生成数据分布之间的均方距离。添加惩罚项后判别器D的损失函数
Figure BDA0003436929920000052
表示为:
Figure BDA0003436929920000053
η=MSE(Xf,Xs) (10)
MSE(·)表示均方误差函数。即判别器D的损失函数不仅与真实数据分布、生成数据分布有关,也与生成数据的分布与真实数据分布差异相关。WGAN模型训练早期,生成数据的分布与真实数据分布差异较大,它们的均方误差也较大,即惩罚系数较大,会导致惩罚项较大,进而对判别器的损失减小产生较大影响。在WGAN模型训练后期,生成数据的分布会越来越接近真实数据分布,它们之间的均方误差也会减小,有助于判别器的损失函数尽快收敛,从而有效提高模型训练的稳定性。
步骤四、数据融合
使用步骤三训练后的WGAN模型,输出符合要求数量的新的少类数据集Xf,将其与步骤一中的少类数据子集融合后得到新的少类数据子集Xf+Xs,再与多类数据子集融合Xd,形成新的网络安全数据集Xf+Xs+Xd
步骤五、数据分类
将步骤四得到的新的网络安全数据集Xf+Xs+Xd输入浅层机器学习模型中进行训练。然后再将无标签的网络安全数据输入训练后的浅层机器学习模型中,输出对应的预测标签,完成网络安全数据的分类。

Claims (5)

1.一种基于WGAN动态惩罚的网络安全不平衡数据集分析方法,其特征在于:该方法具体包括以下步骤:
步骤一、数据采集与预处理
采集网络安全数据,按照类别标签将网络安全数据分割成多类数据子集和少类数据子集,并计算两个子集间的不平衡度与过采样率;
步骤二、构建WGAN模型
构建包含生成器G和判别器D的WGAN模型,将噪声数据以及步骤一中的少类数据子集输入到WGAN模型中,按照过采样率确定需要生成的新的少类数据的数量;
步骤三、训练WGAN模型
在判别器D的损失函数中添加一项惩罚项,用于约束损失函数的梯度范数;对WGAN模型中的生成器与判别器进行多次交叉迭代训练,降低判别器D和生成器G的损失函数值;所述惩罚项采用在真实数据分布上叠加一个随机分布作为过渡分布的形式,惩罚项的系数为真实数据分布与生成数据分布之间的均方距离;
步骤四、数据融合
使用步骤三训练后的WGAN模型,输出符合要求数量的新的少类数据,将其与步骤一中的少类数据子集融合后再与多类数据子集融合,形成带标签的网络安全数据集;
步骤五、数据分类
将步骤四得到的网络安全数据集输入浅层机器学习模型中,对浅层机器学习模型模型进行训练;然后再收集无标签的网络安全数据,输入训练后的浅层机器学习模型,输出对应的预测标签,完成网络安全数据的分类。
2.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法,其特征在于:定义不同类别数据间的不平衡度IR和过采样率R分别为:
Figure FDA0003436929910000011
Figure FDA0003436929910000012
其中,N+和N-分别为采集的网络安全数据中,多类数据和少类数据的数量,
Figure FDA0003436929910000013
表示对数据向下取整;为了实现不同类别的样本达到数目上的平衡,需要生成的少类数据的数量为原有少类数据数量的(IR-1)倍。
3.如权利要求1所述一种基于WGAN动态惩罚的网络安全不平衡数据集分析方法,其特征在于:生成器G和判别器D的网络结构由全连接层构成。
4.如权利要求4所述一种基于WGAN动态惩罚的网络安全不平衡数据集分析方法,其特征在于:添加惩罚项后判别器D的损失函数
Figure FDA0003436929910000021
为:
Figure FDA0003436929910000022
η=MSE(Xf,Xs) (4)
其中,PD是判别器D的数据分布,fw(·)表示神经网络模型函数,Xs为步骤一中收集的少类数据子集,Xf为步骤二中生成的新的少类数据集;
Figure FDA0003436929910000023
表示Xf中的样本,MSE(·)表示均方误差函数,
Figure FDA0003436929910000024
为在联合分布下两个数据集的样本间距离的期望值。
5.如权利要求1所述一种基于WGAN动态惩罚的网络安全不平衡数据集分析方法,其特征在于:所述浅层机器学习模型为支持向量机、决策树或朴素贝叶斯模型。
CN202111617202.7A 2021-12-27 2021-12-27 基于wgan动态惩罚的网络安全不平衡数据集分析方法 Active CN114301667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111617202.7A CN114301667B (zh) 2021-12-27 2021-12-27 基于wgan动态惩罚的网络安全不平衡数据集分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111617202.7A CN114301667B (zh) 2021-12-27 2021-12-27 基于wgan动态惩罚的网络安全不平衡数据集分析方法

Publications (2)

Publication Number Publication Date
CN114301667A true CN114301667A (zh) 2022-04-08
CN114301667B CN114301667B (zh) 2024-01-30

Family

ID=80970166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111617202.7A Active CN114301667B (zh) 2021-12-27 2021-12-27 基于wgan动态惩罚的网络安全不平衡数据集分析方法

Country Status (1)

Country Link
CN (1) CN114301667B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598806A (zh) * 2019-07-29 2019-12-20 合肥工业大学 一种基于参数优化生成对抗网络的手写数字生成方法
CN111881935A (zh) * 2020-06-19 2020-11-03 北京邮电大学 一种基于内容感知gan的对抗样本生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598806A (zh) * 2019-07-29 2019-12-20 合肥工业大学 一种基于参数优化生成对抗网络的手写数字生成方法
CN111881935A (zh) * 2020-06-19 2020-11-03 北京邮电大学 一种基于内容感知gan的对抗样本生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴梦婷;李伟红;龚卫国;: "双框架卷积神经网络用于运动模糊图像盲复原", 计算机辅助设计与图形学学报, no. 12 *

Also Published As

Publication number Publication date
CN114301667B (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN110213222A (zh) 基于机器学习的网络入侵检测方法
CN110266672B (zh) 基于信息熵和置信度下采样的网络入侵检测方法
Labroche New incremental fuzzy c medoids clustering algorithms
CN112001788B (zh) 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
CN115277189B (zh) 基于生成式对抗网络的无监督式入侵流量检测识别方法
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN108062363A (zh) 一种面向有源配电网的数据过滤方法及系统
CN113537313B (zh) 一种基于wgan训练收敛的不平衡数据集分析方法
Kleiner et al. Applying property testing to an image partitioning problem
CN105337842B (zh) 一种与内容无关的垃圾邮件过滤方法
CN116545764B (zh) 一种工业互联网的异常数据检测方法、系统和设备
Dong Application of Big Data Mining Technology in Blockchain Computing
CN114301667B (zh) 基于wgan动态惩罚的网络安全不平衡数据集分析方法
Xu et al. Oversampling imbalanced data based on convergent WGAN for network threat detection
CN110533080B (zh) 一种基于模糊规则集的乳腺癌细胞图像分类方法
ZHANG et al. Integrated intrusion detection model based on artificial immune
Zhang et al. Wasserstein generative recurrent adversarial networks for image generating
CN112766336A (zh) 一种最大化随机平滑下提高模型可验证防御性能的方法
Alkafagi Build Network Intrusion Detection System based on combination of Fractal Density Peak Clustering and Artificial Neural Network
CN117118689B (zh) 一种不平衡数据物联网入侵检测方法及装置
Saavedra-Nieves et al. Directional density-based clustering
CN116701962B (zh) 边缘数据处理方法、装置、计算设备及存储介质
CN116629388B (zh) 差分隐私联邦学习训练方法、装置和计算机可读存储介质
CN113595987B (zh) 一种基于基线行为刻画的通联异常发现方法、装置、存储介质及电子装置
CN114821206B (zh) 基于对抗互补特征的多模态图像融合分类方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant