CN113537313A - 一种基于wgan训练收敛的不平衡数据集分析方法 - Google Patents
一种基于wgan训练收敛的不平衡数据集分析方法 Download PDFInfo
- Publication number
- CN113537313A CN113537313A CN202110736686.0A CN202110736686A CN113537313A CN 113537313 A CN113537313 A CN 113537313A CN 202110736686 A CN202110736686 A CN 202110736686A CN 113537313 A CN113537313 A CN 113537313A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- wgan
- generator
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 73
- 238000004458 analytical method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims abstract description 17
- 238000010801 machine learning Methods 0.000 claims abstract description 12
- 238000009826 distribution Methods 0.000 claims description 13
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 239000000470 constituent Substances 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 231100000279 safety data Toxicity 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于WGAN训练收敛的不平衡数据集分析方法,针对不平衡数据集中的少类样本构建包含生成器和判别器的WGAN模型。生成器生成数据,再利用判别器对生成的新数据和原始数据进行判断,进而将判别结果以代价的形式反馈给生成器,使生成器生成与原始数据更相近的新数据。在WGAN模型训练过程中,生成器和判别器交替训练,每一轮以判别器的代价函数收敛作为生成器和判别器训练平衡的纳什均衡点,指导生成器和判别器的训练更替。本发明提出的基于WGAN训练收敛的不平衡数据集分析方法,可以通过生成大量少类样本,与原始样本融合,实现数据集的平衡,当基于浅层机器学习算法对数据分类时,实现对原始少类数据的高效正确检测。
Description
技术领域
本发明属于数据分析处理领域,涉及网络安全大数据分析和建模,具体涉及一种基于WGAN训练收敛的不平衡数据集分析方法。
背景技术
在网络空间中,通过多种途径获取的数据集通常是不平衡的,即数据集中包含的各个类别的样本数目不同,如网络入侵检测中,大部分情况下都是正常访问流量,异常流量出现的情况较少;应用软件中,良性应用的数目要远远多于恶意应用的数目,而恶意应用一旦因为应用不当而广泛传播,将会给用户带来无法估计的损失。不平衡的数据集很常见,在使用数据挖掘算法和机器学习算法进行分析时,通常会产生很多问题,如少类样本数量较少,不利于分类器的学习和训练,以至于对训练集中的少类样本分类精度较差;在分类边界上分布较少的少类样本,造成分类面向少类样本偏离,使得少类样本的误分概率较大;当少类样本数量极少,又被分类器划分到更多子空间时,容易被当作噪声数据抛弃,进而形成数据碎片。随着深度学习、人工智能计算的不断发展,以及深度学习技术在计算机视觉、自然语言处理等方面的成功应用,我们将深度学习技术应用于处理网络安全不平衡数据集,实现网络安全数据分类,提高网络数据中占少类的威胁检测。
对抗生成网络GAN是一个典型的深度生成式模型,其设计灵感来自于博弈论,一般由生成器和判别器两个神经网络构成,生成器用于尽量生成与真实数据相近的新数据去欺骗判别器,判别器的目标是尽量辨别出生成器生成的假数据和真实数据。通过对抗方式进行多次训练,最后得到一个性能优异的生成器。但是,GAN存在训练不稳定、梯度消失、模式崩溃的问题,为了解决这些问题,WGAN被提了出来,成功地对GAN进行了改进,表现为四点:(1)判别器的最后一层网络模型去掉Sigmoid;(2)生成器和判别器的损失函数不取对数;(3)判别器参数更新的过程中对损失函数值做截断;(4)不使用基于动量的优化算法。但是,不管是GAN,还是WGAN都没有考虑的一点是在训练过程中,对抗式生成网络存在训练不平衡的问题,如果判别器训练得太好,生成器就无法得到足够的梯度继续优化,而如果判别器训练得太弱,指示作用不显著,同样不能让生成器进行有效的学习。这样一来,判别器的训练次数就非常难把控。
发明内容
针对现有技术的不足,本发明提出了一种基于WGAN训练收敛的不平衡数据集分析方法,使用WGAN模型,利用生成器生成与原始的少类样本相似的新样本后,与原样本进行融合形成新的数据集,再输入浅层机器学习算法中进行分类,改善因样本不平衡导致的分类错误。在WGAN模型的训练过程中对生成器与判别器进行交替迭代训练,平衡判别器的指示作用与生成器的有效学习。
一种基于WGAN训练收敛的不平衡数据集分析方法,具体包括以下步骤:
步骤一、数据采集与预处理
采集网络安全数据,按照类别标签将网络安全数据分割成多类数据子集和少类数据子集,并计算两个子集间的不平衡度与过采样率,根据过采样率确定生成少类数据的数量。
步骤二、构建WGAN模型
构建包含生成器和判别器的WGAN模型,将噪声数据以及步骤一中的少类数据子集输入到WGAN模型中,生成符合要求数量的新的少类数据。
步骤三、训练WGAN模型
对WGAN模型中的生成器与判别器进行多次交叉迭代训练,在一次迭代中首先固定判别器,训练生成器,然后再固定生成器,训练判别器。每一轮迭代训练时,生成器的训练次数是固定的,判别器的训练次数根据代价函数的收敛情况动态变化。判别器训练次数为前两轮迭代中判别器收敛时的最小代价的比值向下取整。
步骤四、数据融合
使用步骤三训练后的WGAN模型,输出符合要求数量的新的少类数据,将其与步骤一中的少类数据子集融合后再与多类数据子集融合,形成新的网络安全数据集。
步骤五、数据分类
将步骤四得到的新的网络安全数据集输入浅层机器学习模型中,对浅层机器学习模型模型进行训练。然后再将无标签的网络安全数据输入训练后的浅层机器学习模型,输出对应的预测标签,完成网络安全数据的分类。
作为优选,所述浅层机器学习模型为支持向量机、决策树或朴素贝叶斯模型。
本发明具有以下有益效果:
1、在WGAN模型的训练过程中对生成器与判别器进行交替迭代训练,并且在每一轮的训练过程中以前两轮判别器的代价函数收敛变化情况,确定判别器的训练次数,避免因判别器过优导致的生成器梯度优化不足,或判别器的指示作用不显著导致的生成器无法进行有效的学习。
2、使用训练后的WGAN模型生成更多的少类数据后与原数据集融合,平衡数据集中不同的样本数量,再对浅层机器学习模型进行训练,有效降低由于数据不平衡带来的分类误差。
附图说明
图1为一种基于WGAN训练平衡的不平衡数据集分析方法。
具体实施方式
以下结合附图对本发明作进一步的解释说明;
如图1所示,一种基于WGAN训练收敛的不平衡数据集分析方法,具体包括以下步骤:
步骤一、数据采集与预处理
对原始的网络安全数据进行One-hot编码,构建尺寸为N*D的网络安全数据集X,按照类别标签将网络安全数据分割成多类数据子集和少类数据子集,其中多类数据Xd的数量为N+,少类数据Xs的数量为N-,定义不同类别数据间的不平衡度IR和过采样率R分别为:
为了实现不同类别的样本达到数目上的平衡,需要合成(IR-1)倍的新的少类数据。
步骤二、构建WGAN模型
构建包含生成器G和判别器D的WGAN模型,生成器G和判别器D的网络结构由全连接层构成。将噪声数据XNosie以及步骤一中的少类数据子集Xs输入到WGAN模型中,使用生成器G新的少类数据集Xf,大小为R*N-。
步骤三、训练WGAN模型
对WGAN模型中的生成器与判别器进行多次交叉迭代训练,训练过程即为减小生成器Loss和判别器Loss的过程。本实施例选择Wasserstein距离作为WGAN模型的损失函数:
其中,PD是判别器数据,PG是生成器数据,W(PD,PG)是PD和PG组成的所有可能联合分布的集合。对于联合分布γ来说,数据子集Xs和数据集Xf符合分布(Xs,Xf)~γ,||Xs-Xf||表示样本之间的距离,在联合分布下样本距离的期望值为取下界定义为Wasserstein距离。
为求解公式(3),引入K-Lipschitz限制条件:
|fw(Xs)-fw(Xf)|≤K*|Xs-Xf| (4)
其中,fw(·)表示神经网络模型函数,K为Lipschitz常数。
求解公式(4)的近似解:
Lipschitz常数K将梯度的值放大K倍,但不影响梯度的方向。公式(5)可以表示成一个含参数w、最后一层不是非线性激活层的判别器网络。公式(5)表示对所有满足1-Lipschitz限制的函数fw(·)取上界,即Lipschitz限制规定了一个连续函数的最大局部变动幅度。在限制w不超过某个范围的条件下,Wasserstein距离转化为
公式(7)与公式(6)互反,可以指示训练进程,其数值越小,表示真实分布与生成分布的Wasserstein距离越小,GAN训练得越好。
在一次迭代中首先固定判别器,训练生成器,然后再固定生成器,训练判别器。每一轮迭代训练时,判别器的训练次数是不固定的,根据代价函数的收敛情况动态变化。假设生成数据的分布和真实数据的分布近似,在一轮训练迭代中,判别器的识别能力不断增强,最终会收敛,并能够正确将生成数据和真实数据分类。在判别器收敛时,比较上一轮和本轮收敛代价的变化倍数,确定下一轮迭代的次数,用变化倍数作为平衡前后两轮收敛的指标。
(1)代价函数的收敛性证明
假设WGAN模型训练S轮,每一轮,生成器训练1次,判别器训练T次。在第s轮的第ts次,如果判别器的代价函数是凸的,并且是K-Lipschitzness的,则迭代方式为其中,x∈[Xf,Xs],为步长,s=0,1,…S,ts=0,1,…Ts。假设x*为代价函数的最优解,在第ts轮迭代时取得最优解为x*,为的最优值,也表示成K为Lipschitzness常数,取值为1,则
第一个不等式满足了函数的凸性,第二个不等式基于Lipschitzness连续条件,对上式做累加,得到
同时乘以K2,得到
根据右边有界,得到
在本发明中,数据是高维数据,我们用Wasserstein距离衡量生成数据和真实数据之间的距离,令Wk表示第k轮判别器训练收敛时生成数据和真实数据之间的Wasserstein距离,上式转换为:
(2)判别器训练次数计算
即每一轮判别器训练次数取决于前两轮判别器训练收敛时的最小代价的比值向下取整,如果比值向下取整为0,则判别器训练次数为1。
步骤四、数据融合
使用步骤三训练后的WGAN模型,输出符合要求数量的新的少类数据集Xf,将其与步骤一中的少类数据子集融合后得到新的少类数据子集Xf+Xs,再与多类数据子集融合Xd,形成新的网络安全数据集Xf+Xs+Xd。
步骤五、数据分类
将步骤四得到的新的网络安全数据集Xf+Xs+Xd输入支持向量机模型中进行训练。然后再将无标签的网络安全数据输入训练后的支持向量机模型中,输出对应的预测标签,完成网络安全数据的分类。
Claims (8)
1.一种基于WGAN训练收敛的不平衡数据集分析方法,其特征在于:该方法具体包括以下步骤:
步骤一、数据采集与预处理
采集网络安全数据,按照类别标签将网络安全数据分割成多类数据子集和少类数据子集,并计算两个子集间的不平衡度与过采样率,根据过采样率确定生成少类数据的数量;
步骤二、构建WGAN模型
构建包含生成器G和判别器D的WGAN模型,将噪声数据以及步骤一中的少类数据子集输入到WGAN模型中,生成符合要求数量的新的少类数据;
步骤三、训练WGAN模型
对WGAN模型中的生成器与判别器进行多次交叉迭代训练,在一次迭代中首先固定判别器,训练生成器,然后再固定生成器,训练判别器;每一轮迭代训练时,生成器的训练次数是固定的,判别器的训练次数根据代价函数的收敛情况动态变化;
步骤四、数据融合
使用步骤三训练后的WGAN模型,输出符合要求数量的新的少类数据,将其与步骤一中的少类数据子集融合后再与多类数据子集融合,形成新的网络安全数据集;
步骤五、数据分类
将步骤四得到的新的网络安全数据集输入浅层机器学习模型中,对浅层机器学习模型模型进行训练;然后再将无标签的网络安全数据输入训练后的浅层机器学习模型,输出对应的预测标签,完成网络安全数据的分类。
3.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法,其特征在于:生成器G和判别器D的网络结构由全连接层构成。
4.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法,其特征在于:判别器训练次数为前两轮迭代中判别器收敛时的最小代价的比值向下取整。
5.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法,其特征在于:所述浅层机器学习模型为支持向量机、决策树或朴素贝叶斯模型。
6.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法,其特征在于:在WGAN模型的训练过程中,选择Wasserstein距离作为损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110736686.0A CN113537313B (zh) | 2021-06-30 | 2021-06-30 | 一种基于wgan训练收敛的不平衡数据集分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110736686.0A CN113537313B (zh) | 2021-06-30 | 2021-06-30 | 一种基于wgan训练收敛的不平衡数据集分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537313A true CN113537313A (zh) | 2021-10-22 |
CN113537313B CN113537313B (zh) | 2024-02-27 |
Family
ID=78097370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110736686.0A Active CN113537313B (zh) | 2021-06-30 | 2021-06-30 | 一种基于wgan训练收敛的不平衡数据集分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537313B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114301637A (zh) * | 2021-12-11 | 2022-04-08 | 河南大学 | 一种用于医疗物联网的入侵检测方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711452A (zh) * | 2018-12-20 | 2019-05-03 | 四川新网银行股份有限公司 | 一种基于wgan-gp模型对用户行为的不平衡分类方法 |
CN109816044A (zh) * | 2019-02-11 | 2019-05-28 | 中南大学 | 一种基于wgan-gp和过采样的不平衡学习方法 |
US20200372297A1 (en) * | 2019-05-23 | 2020-11-26 | Robert Bosch Gmbh | Method for training a generative adversarial network (gan), generative adversarial network, computer program, machine-readable memory medium, and device |
-
2021
- 2021-06-30 CN CN202110736686.0A patent/CN113537313B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711452A (zh) * | 2018-12-20 | 2019-05-03 | 四川新网银行股份有限公司 | 一种基于wgan-gp模型对用户行为的不平衡分类方法 |
CN109816044A (zh) * | 2019-02-11 | 2019-05-28 | 中南大学 | 一种基于wgan-gp和过采样的不平衡学习方法 |
US20200372297A1 (en) * | 2019-05-23 | 2020-11-26 | Robert Bosch Gmbh | Method for training a generative adversarial network (gan), generative adversarial network, computer program, machine-readable memory medium, and device |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114301637A (zh) * | 2021-12-11 | 2022-04-08 | 河南大学 | 一种用于医疗物联网的入侵检测方法和系统 |
CN114301637B (zh) * | 2021-12-11 | 2022-09-02 | 河南大学 | 一种用于医疗物联网的入侵检测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113537313B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109447099B (zh) | 一种基于pca降维的多分类器融合方法 | |
CN110266672B (zh) | 基于信息熵和置信度下采样的网络入侵检测方法 | |
CN106973057A (zh) | 一种适用于入侵检测的分类方法 | |
CN111834010B (zh) | 一种基于属性约简和XGBoost的病毒检测假阴性识别方法 | |
CN109902740B (zh) | 一种基于多算法融合并行的再学习工业控制入侵检测方法 | |
CN113922985B (zh) | 一种基于集成学习的网络入侵检测方法及系统 | |
CN112437053B (zh) | 入侵检测方法及装置 | |
CN110135167A (zh) | 一种随机森林的边缘计算终端安全等级评估方法 | |
CN113553624A (zh) | 基于改进pate的wgan-gp隐私保护系统和方法 | |
CN112085086A (zh) | 一种基于图卷积神经网络的多源迁移学习方法 | |
CN115277189B (zh) | 基于生成式对抗网络的无监督式入侵流量检测识别方法 | |
CN115577357A (zh) | 一种基于堆叠集成技术的Android恶意软件检测方法 | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
CN110177112B (zh) | 基于双重子空间采样和置信偏移的网络入侵检测方法 | |
CN113537313B (zh) | 一种基于wgan训练收敛的不平衡数据集分析方法 | |
Wang et al. | Hardness-aware dictionary learning: Boosting dictionary for recognition | |
CN114301667B (zh) | 基于wgan动态惩罚的网络安全不平衡数据集分析方法 | |
Tun et al. | Federated learning with intermediate representation regularization | |
Wang et al. | Safe screening rules for multi-view support vector machines | |
CN115174170B (zh) | 一种基于集成学习的vpn加密流量识别方法 | |
CN100380395C (zh) | 一种遥感影像的人工免疫监督分类方法 | |
CN110533080B (zh) | 一种基于模糊规则集的乳腺癌细胞图像分类方法 | |
CN114124437A (zh) | 基于原型卷积网络的加密流量识别方法 | |
Gaber et al. | Optimisation of ensemble classifiers using genetic algorithm | |
Alshawabkeh et al. | Feature weighting and selection using hypothesis margin of boosting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |