CN114760128A - 一种基于重采样的网络异常流量检测方法 - Google Patents
一种基于重采样的网络异常流量检测方法 Download PDFInfo
- Publication number
- CN114760128A CN114760128A CN202210372804.9A CN202210372804A CN114760128A CN 114760128 A CN114760128 A CN 114760128A CN 202210372804 A CN202210372804 A CN 202210372804A CN 114760128 A CN114760128 A CN 114760128A
- Authority
- CN
- China
- Prior art keywords
- network
- encoder
- data
- resampling
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000012952 Resampling Methods 0.000 title claims abstract description 20
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 abstract description 31
- 238000000034 method Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/022—Capturing of monitoring data by sampling
- H04L43/024—Capturing of monitoring data by sampling by adaptive sampling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种基于重采样的网络异常流量检测方法。首先,结合条件生成对抗网络和基于Wasserstein距离的生成对抗网络,搭建基于Wasserstein距离的条件生成对抗网络模型,使用训练完成的生成器进行少数类别重采样;然后,搭建堆叠去噪自编码器,训练自编码器模型使得重构误差最小化以重构数据;最后,通过自编码器的编码器网络结合Softmax网络对网络流量数据进行异常检测;本发明解决了网络流量数据类别不平衡问题,使得少数类别的识别率得到了显著提升,同时整体识别率也得到了提升。
Description
技术领域
本发明涉及网络信息领域,具体涉及网络安全技术。
背景技术
近些年来,计算机网络被攻击的次数日益增多,网络安全也在中国互联网发展体系中占据了至关重要的位置。网络攻击通常包括拒绝服务攻击、僵尸网络、蠕虫等,这些攻击手段对计算机系统或网络产生了恶劣的影响,破坏了计算机系统或网络的可用性、完整性或机密性。异常网络流量便是由各种网络攻击引起,它可以影响网络的性能。因此,随着网络流量趋于海量、复杂化,监测和分析网络流量已经成为网络安全领域重要的挑战和研究。由于网络流量数据类别不平衡的特点,导致了异常检测过程中少数异常类别检出率低。专利“基于联合特征选择的网络流量异常检测方法,2021,CN 113505826 A”公开了一种异常流量检测方法,该方法通过对网络流量数据进行特征选择,并进行特征集成,然后使用随机森林分类模型进行异常检测。该专利所述的方法仅提高了网络流量数据的整体检测率,并未解决原始数据集类别不平衡问题,少数类别依然存在检测率低的问题。
发明内容
为了克服现有的网络流量异常检测方法对少数异常类别检测率低的不足,本发明提出了一种基于重采样的网络异常流量检测方法,该方法基于生成对抗网络模型进行少数类别重采样、基于自编码器网络进行数据重构以及基于自编码器的编码器网络结合Softmax网络进行网络流量数据异常检测。
本发明解决其技术问题所采用的技术方案:一种基于重采样的网络异常流量检测方法,其特点是包括下述步骤:
(a)网络流量数据预处理。
原始网络流量数据中包含字符类型的特征和数值类型的特征。首先,采用独热化编码将字符类型特征转化为数值类型特征,即离散型的特征转化为连续型的特征;然后,删除或替换数值类型的特征中的非法数值;最后,将处理后的数值类型的特征进行标准化、归一化。
(b)数据重采样。
首先,构建基于Wasserstein的条件生成对抗网络模型WBCGAN,生成器G模型为三层隐层的神经网络结构,判别器D模型同样为三层隐层的神经网络结构,生成器G的输入根据不同网络流量数据的特征进行变化,生成器G的输出根据不同网络流量数据的攻击类型进行变化。
提出的基于Wasserstein的条件生成对抗网络模型的目标函数为:
式中,z是输入的噪声变量,pz(z)是输入噪声变量的先验分布,pr(x)是生成器G在真实数据x上的分布,pd(x)是生成器G生成样本的分布,G(z)为生成器G生成的伪数据,||||2代表2范数,随机插值采样得到计算公式为ε在[0,1]上服从均匀分布。
然后,输入随机噪声向量和类别标签作为生成器G的输入,训练生成器G以输出伪造样本;固定生成器,输入伪造样本和真实样本作为判别器D的输入,训练判别器D以输出样本分类概率;通过生成器G和判别器D之间依次训练,使得生成器G的目标函数最小化、判别器D的目标函数最大化;使用训练完成的生成器G生成特定类别标签的少数类别样本,并将生成的少数类别样本加入原始数据的训练集中,组成新的训练集。
(c)数据重构以及异常检测
首先,构建堆叠去噪自编码器网络模型SDAE,使用经过数据重采样后得到的新训练集,对堆叠去噪自编码器进行训练,使得输入数据与输出数据之间的重构误差最小化,其中堆叠去噪自编码器的目标函数为:
然后,将编码器网络结构与Softmax网络进行结合形成分类器,分类器的输出为每个类别预测的概率值。将重构的数据输入至分类器,以端对端的形式对分类器进行训练,使得对数损失函数最小化;输入测试数据,使用训练完成的分类器,得到预测结果。
本发明的有益效果是:通过生成对抗网络模型进行少数类别重采样、通过自编码器网络的数据重构以及通过自编码器的编码器网络结合Softmax网络的网络流量数据异常检测,既解决了网络流量数据的类别不平衡问题,又通过堆叠去噪自编码器获得了网络流量数据的潜在表示。在网络流量异常检测中,降低了误报率,提高了少数异常类别的检测率和整体检测率。
图1是本发明提出方法的整体流程图,图2是使用本发明进行重采样的流程图,图3是使用本发明进行网络异常流量检测的流程图。图4是使用本发明提出的重采样方法与其他重采样方法的结果对比图,从图中可见,提出的基于Wasserstein距离的条件生成对抗网络模型在处理类别不平衡数据时,比原有的SMOTE等算法具有更好的效果。图5是使用本发明提出的堆叠去噪自编码器模型与其他异常检测模型的结果对比图,从图中可见,提出的堆叠去噪自编码器模型在F1值上明显高于其他异常检测模型。
附图说明
图1是本发明提出的一种基于重采样的网络异常流量检测的整体流程图。
图2是本发明提出的基于生成对抗网络模型的数据重采样流程图。
图3是本发明提出的基于堆叠去噪自编码器模型的异常检测流程图。
图4是本发明提出的基于Wasserstein距离的条件生成对抗网络模型WBCGAN与其他重采样算法的结果对比图。
图5是本发明提出的基于堆叠去噪自编码器SDAE模型与其他异常检测模型的结果对比图。
下面结合具体实施方式对本发明作详细说明。
具体实施方式
1、网络流量数据预处理。
本发明在NSL-KDD、CICIDS2017网络入侵检测数据集上验证了本发明的性能。其中,NSL-KDD和CICIDS2017数据集分别包含了4种和14种不同类型的网络攻击。
首先,针对NSL-KDD数据集,该数据集中一共包含了41个特征,首先使用独热化编码将其中三个离散型特征转化为连续性特征,然后,对其进行独热编码形成122维特征向量;针对CICIDS2017数据集,该数据集中特征维度为78维,这些特征中不存在离散型特征,只需要对15个类别标签进行编码。
然后,筛选并删除数据集中的空数据和坏数据。
最后,将NSL-KDD数据集和CICIDS2017数据上的数值类型特征进行归一化;将不同范围的数值类型特征都归一化至0-1范围内。
2、数据重采样。
首先,构建基于Wasserstein距离的条件生成对抗网络模型WBCGAN,生成器G模型为三层隐层的神经网络结构,判别器D模型同样为三层隐层的神经网络结构,生成器G的输入根据不同网络流量数据的特征进行变化,生成器G的输出根据不同网络流量数据的攻击类型进行变化。
提出的基于Wasserstein的条件生成对抗网络模型的目标函数为:
式中,z是输入的噪声变量,pz(z)是输入噪声变量的先验分布,pr(x)是生成器G在真实数据x上的分布,pd(x)是生成器G生成样本的分布,G(z)为生成器G生成的伪数据,∥∥2代表2范数,随机插值采样得到计算公式为ε在[0,1]上服从均匀分布。
基于Wasserstein的条件生成对抗网络模型训练过程如下:
(1)随机噪声向量z和类别标签y为生成器G的输入,输出少数类伪造样本G(z)。此时少数类伪造样本之间的相似度很低,而且真实样本非常少;
(2)固定生成器G,训练判别器D。判别器D的输入为生成的伪造样本结合真实训练数据x。判别器D的输出是属于真实样本x和伪样本G(z)的样本分类概率值。然后将概率值转换为标签,并使得判别器D的目标函数最大化;
(3)通过判别器D和生成器G之间的对抗,迭代的训练生成器G。经过步骤(2)的训练,识别器D的识别能力得到了提高。此时,训练生成器G以生成仿真度较高的少数类伪造样本,并使得生成器G的目标函数最小化;
(4)循环执行步骤(2)和步骤(3)。判别器D和生成器G交替训练,使生成的伪造样本更接近真实样本。同时利用Adam算法对梯度更新过程进行优化,不断优化生成对抗网络的目标函数。
然后,使用训练完成得到的生成器G,根据输入的少数类别标签,分别生成不同数量的少数类别样本,并且在训练集中加入生成的少数类别样本,得到新的训练集:
(1)原始数据集划分为训练集和测试集,分别将训练集、类别标签以及随机噪声输入至生成对抗网络的生成器G中;
(2)根据输入的类别标签,训练好的生成器G输出具有相同类别标签的数据;
(3)将生成的少数类别样本加入训练集中,组成新的训练集。
3、数据重构以及异常检测。
首先,使用引入噪声来重建原始输入信号的方法来训练自编码器,得到去噪编码器DAE,然后,将多个去噪自编码器DAE级联起来,采用逐层贪婪训练的方法进行训练,从而学习到更高阶的特征。本发明中使用自编码器的损失函数定义如下:
堆叠去噪自编码器SDAE训练步骤如下:
(1)输入经过数据重采样后得到的新训练集;
(2)使用逐层贪婪训练的方法训练多个去噪自编码器,即每次单独训练一个自编码器,将上一个去噪自编码器的编码器输出作为下一个去噪自编码器的输入,使得自编码器的损失函数最小化;
(3)将分别训练完成的去噪自编码器级联起来,得到堆叠去噪自编码器;
最后,将训练完成的堆叠去噪自编码器的编码器结构与Softmax结构组成分类器,进行网络流量数据异常检测,其步骤如下:
(1)获取堆叠去噪自编码器的编码器网络,在最后一个隐藏层后面加上Softmax层,得到了基于堆叠去噪自编码器的分类器;
(2)输入重构后的训练数据,以端对端的形式对分类器进行参数微调,并得到训练完成的分类器;
(3)输入测试集,进行异常检测,得到结果进行分析。
Claims (4)
1.一种基于重采样的网络异常流量检测方法,其特征在于:基于生成对抗网络模型的少数类别重采样、基于自编码器网络的数据重构以及基于自编码器的编码器网络结合Softmax网络的网络流量数据异常检测。
2.根据权利要求1所述的基于生成对抗网络模型的少数类别重采样,其特征在于使用基于Wasserstein的条件生成对抗网络对网络流量数据中的少数攻击类别进行重采样。
3.根据权利要求1所述的基于自编码器网络的数据重构,其特征在于使用堆叠去噪自编码器网络对重采样后的网络流量数据进行数据重构。
4.根据权利要求1所述的基于自编码器的编码器网络结合Softmax网络的网络流量数据异常检测,其特征在于使用训练后得到的自编码器的编码器网络结合Softmax网络形成分类器,然后对网络流量数据进行异常检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210372804.9A CN114760128A (zh) | 2022-04-11 | 2022-04-11 | 一种基于重采样的网络异常流量检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210372804.9A CN114760128A (zh) | 2022-04-11 | 2022-04-11 | 一种基于重采样的网络异常流量检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114760128A true CN114760128A (zh) | 2022-07-15 |
Family
ID=82328360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210372804.9A Pending CN114760128A (zh) | 2022-04-11 | 2022-04-11 | 一种基于重采样的网络异常流量检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114760128A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108371A (zh) * | 2023-04-13 | 2023-05-12 | 西华大学 | 基于级联异常生成网络的云服务异常诊断方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967502A (zh) * | 2020-07-23 | 2020-11-20 | 电子科技大学 | 一种基于条件变分自编码器的网络入侵检测方法 |
CN112613599A (zh) * | 2020-12-15 | 2021-04-06 | 江西师范大学 | 一种基于生成对抗网络过采样的网络入侵检测方法 |
CN112688928A (zh) * | 2020-12-18 | 2021-04-20 | 中国科学院信息工程研究所 | 结合自编码器和wgan的网络攻击流量数据增强方法及系统 |
US20210287071A1 (en) * | 2020-03-12 | 2021-09-16 | Morgan State University | Method and Apparatus for Augmented Data Anomaly Detection |
CN114004333A (zh) * | 2021-10-26 | 2022-02-01 | 桂林理工大学 | 一种基于多假类生成对抗网络的过采样方法 |
-
2022
- 2022-04-11 CN CN202210372804.9A patent/CN114760128A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210287071A1 (en) * | 2020-03-12 | 2021-09-16 | Morgan State University | Method and Apparatus for Augmented Data Anomaly Detection |
CN111967502A (zh) * | 2020-07-23 | 2020-11-20 | 电子科技大学 | 一种基于条件变分自编码器的网络入侵检测方法 |
CN112613599A (zh) * | 2020-12-15 | 2021-04-06 | 江西师范大学 | 一种基于生成对抗网络过采样的网络入侵检测方法 |
CN112688928A (zh) * | 2020-12-18 | 2021-04-20 | 中国科学院信息工程研究所 | 结合自编码器和wgan的网络攻击流量数据增强方法及系统 |
CN114004333A (zh) * | 2021-10-26 | 2022-02-01 | 桂林理工大学 | 一种基于多假类生成对抗网络的过采样方法 |
Non-Patent Citations (2)
Title |
---|
TAO ZHANG; ZHONGNIAN LI; QI ZHU; DAOQIANG ZHANG: "Improved Procedures for Training Primal Wasserstein GANs", 《 2019 IEEE SMARTWORLD, UBIQUITOUS INTELLIGENCE & COMPUTING, ADVANCED & TRUSTED COMPUTING, SCALABLE COMPUTING & COMMUNICATIONS, CLOUD & BIG DATA COMPUTING, INTERNET OF PEOPLE AND SMART CITY INNOVATION (SMARTWORLD/SCALCOM/UIC/ATC/CBDCOM/IOP/SCI)》 * |
赵维;: "基于生成对抗网络的异常行为模拟算法研究", 长春理工大学学报(自然科学版), no. 06 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108371A (zh) * | 2023-04-13 | 2023-05-12 | 西华大学 | 基于级联异常生成网络的云服务异常诊断方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110213222B (zh) | 基于机器学习的网络入侵检测方法 | |
CN110287983B (zh) | 基于最大相关熵深度神经网络单分类器异常检测方法 | |
CN111428789A (zh) | 一种基于深度学习的网络流量异常检测方法 | |
CN111783442A (zh) | 入侵检测方法、设备和服务器、存储介质 | |
CN109446804B (zh) | 一种基于多尺度特征连接卷积神经网络的入侵检测方法 | |
CN112019497B (zh) | 一种基于词嵌入的多阶段网络攻击检测方法 | |
CN110968845B (zh) | 基于卷积神经网络生成的针对lsb隐写的检测方法 | |
CN109813542A (zh) | 基于生成式对抗网络的空气处理机组的故障诊断方法 | |
CN112039903A (zh) | 基于深度自编码神经网络模型的网络安全态势评估方法 | |
CN113194094B (zh) | 一种基于神经网络的异常流量检测方法 | |
CN111950868A (zh) | 一种基于生成对抗网络的综合能源系统负荷场景生成方法 | |
Ding et al. | Efficient BiSRU combined with feature dimensionality reduction for abnormal traffic detection | |
CN114760128A (zh) | 一种基于重采样的网络异常流量检测方法 | |
CN111726350A (zh) | 基于vae和bpnn的内部威胁检测方法 | |
CN114037001A (zh) | 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法 | |
Rajapaksha et al. | Supervised machine learning algorithm selection for condition monitoring of induction motors | |
CN115356599B (zh) | 一种多模态城市电网故障诊断方法及系统 | |
CN115733673B (zh) | 一种基于多尺度残差分类器的数据异常检测方法 | |
CN111428772A (zh) | 基于k-近邻自适应投票的光伏系统深度异常检测方法 | |
CN115174178B (zh) | 基于生成对抗网络的半监督网络流量异常检测方法 | |
CN116541771A (zh) | 一种基于多尺度特征融合的非平衡样本轴承故障诊断方法 | |
CN113852612B (zh) | 一种基于随机森林的网络入侵检测方法 | |
CN115913764A (zh) | 基于生成对抗网络的恶意域名训练数据生成方法 | |
CN114826718A (zh) | 一种基于多维度信息的内部网络异常检测方法及系统 | |
CN115600134A (zh) | 基于域动态对抗自适应的轴承迁移学习故障诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220715 |