CN113328987A - 基于深度学习的增量学习流量异常检测方法 - Google Patents
基于深度学习的增量学习流量异常检测方法 Download PDFInfo
- Publication number
- CN113328987A CN113328987A CN202110380396.7A CN202110380396A CN113328987A CN 113328987 A CN113328987 A CN 113328987A CN 202110380396 A CN202110380396 A CN 202110380396A CN 113328987 A CN113328987 A CN 113328987A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- training
- flow
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012706 support-vector machine Methods 0.000 claims abstract description 13
- 230000002159 abnormal effect Effects 0.000 claims abstract description 10
- 238000003066 decision tree Methods 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims abstract description 5
- 238000002790 cross-validation Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 4
- 239000006185 dispersion Substances 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Hardware Design (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请实施例提出了基于深度学习的增量学习流量异常检测方法,包括收集网络流量数据,并对网络流量数据进行预处理,得到处理后的网络流量数据;利用LSTM模型对处理后的网络流量数据进行特征预提取;建立决策树改进支持向量机模型,通过折交叉验证算法选取最优化参数,构建最优化模型;训练得到改进后的向量机模型,用于对提取到的网络流量数据特征进行分类,对分类效果进行评估。提出了用决策树和SVM结合的方法,针对网络流量数据特点,采用LSTM提取流量信息特征,在利用模型进行异常流量的分类检测。基于改进的模型成功的进行了分类检测,并且相较于传统的流量异常检测方法,取得了更优的分类效果。
Description
技术领域
本申请涉及流量异常检测方向,尤其涉及基于深度学习的增量学习流量异常检测方法。
背景技术
随着云计算、移动互联网、物联网等现代信息技术的迅速发展和推广应用,大数据逐渐参与到经济、社会、科技等方方面面。大数据具有海量、高增长率和多样化的特点,无法在有限时间范围内用一般的软件工具进行挖掘、分析和处理。处理大数据时采用了新的模式,使得大数据能够支持超强的决策力、洞察力和处理能力,给社会和生活等方面带来各种应用便利服务,但是新的风险和挑战也随即而来。如何在利用大数据带来的便利的同时,还能有效避免风险和挑战,从而维护信息网络领域的安全,成为一个新的信息技术领域命题。
在互联网飞速发展的同时,也给网络安全分析工作带来了更大的困扰与压力。首先是网络安全分析工作所面临的处理数据的工作强度呈指数型上升,并且数据的规模是海量的,类型也是多种多样的,所以需要通过多个维度的分析才能够得到有效结果。同时面对着海量的、多种结构的数据在分析处理上的空间复杂度与时间复杂度也越来越大,处理时间越来越长,存储成本越来越高,传输质量越来越低,甚至丢失数据。为了解决上述诸多麻烦,将大数据分析技术融入网络安全分析。现有的网络安全平台已经基本完成了基本数据的采集,例如网络流量,日志数据的收集,但基于历史数据的智能入侵检测、溯源分析、攻击反制以及主动防御的应用和研究仍在探索阶段。
为提升信息安全和异常流量的快速检测和分析能力,国内外很多研究者利用大数据技术,挖掘其中蕴含的有效信息,帮助相关工作者快速准确的解决问题,作出了很多努力。曹磊等人提出了一种基于双层注意力神经网络的入侵检测方法,直接提取原始网络流量的有效载荷数据作为样本,在长短期记忆网络网络的基础上,引入双层注意力机制,提取关键字节信息和数据包信息;罗军等人提出了一种基于支持向量机的CAN-FD网络异常入侵检测模型,利用支持向量机算法的二分类特性,实现对入侵报文数据的识别;Rabeb等人提出了一种基于递归神经网络和深度神经网络的入侵检测方法,所提出的三层LSTM确实会有较高的性能,但模型变得复杂耗时。Yang A等人基于物联网的本质出发,提出了一种LM-BP入侵检测算法,实现了对物联网入侵检测系统的性能优化,该算法在一定程度上提高了检测率并且降低了误报率,但作者是基于KDD999数据集进行的验证,所得结果具有一定的局限性。Hassan等人提出了一种卷积神经网络和权值下降的混合深度学习模型,经作者实验,该模型具有较短耗时,从结果来看也具有较高精确率,但误报率也较高。
发明内容
为了提高系统中网络流量中的异常流量检测能力,本申请提出基于深度学习的增量学习流量异常检测方法。
本申请提出的基于深度学习的增量学习流量异常检测方法,包括:
收集网络流量数据,并对网络流量数据进行预处理,得到处理后的网络流量数据;
利用LSTM模型对处理后的网络流量数据进行特征预提取;
建立决策树改进支持向量机模型,通过k折交叉验证算法选取最优化参数,构建最优化模型;
训练得到改进后的向量机模型,用于对提取到的网络流量数据特征进行分类,对分类效果进行评估。
可选的,所述预处理包括:
步骤101,提取网络流量数据的包头信息作为输入特征;
步骤102,由于不同的参数基本单位相差较大,对数据进行标准化处理,采用如公式一所述的离差标准化的方式进行线性变换缩小到[0,1]区间;
其中xmin为样本最小值,xmax为样本最大值,x为样本值,x*为标准化后的样本值;
步骤104,在正常流量的基础上随机生成异常流量。
步骤104,将样本数据集划分为训练集和测试集。
可选的,所述利用LSTM模型对处理后的网络流量数据进行特征预提取包括:
步骤201,向LSTM模型中输入训练样本,进行训练;
步骤202,在LSTM模型中加入BN层和全连接层,将修改后的LSTM模型作为特征提取器。
可选的,所述建立决策树改进支持向量机模型包括:
步骤301,首先将网络数据集分为k个集合,每个集合都会轮流作为测试集,剩余集合则作为训练集;
步骤302,计算并比较k次训练的平均交叉验证正确率,选取交叉验证正确率最高的一组参数,参数(C,g)作为k折交叉验证的最优值应用到支持向量机回归预测中,其中惩罚参数C控制了模型结构风险与经验风险的相对比重;
预测模型选取g为高斯核函数,如公式二所示,
步骤303,将参数应用到模型中,对网络流量进行异常检测。
可选的,所述训练得到改进后的向量机模型,用于对提取到的网络流量数据特征进行分类,对分类效果进行评估,包括:
步骤401,采用分类准确率作为评价指标;
步骤402,进行多组实验取平均值。
有益效果:
基于改进的模型成功的进行了分类检测,并且相较于传统的流量异常检测方法,取得了更优的分类效果。
附图说明
图1是基于深度学习的增量学习流量异常检测方法的流程图。
具体实施方式
本申请提出一种基于决策树改进的支持向量机模型,利用LSTM网络进行特征提取,在对样本不是很大的情况下,对异常流量进行较高准确率的判断。
下面结合附图对本申请做进一步说明,
参照图1,基于深度学习的增量学习流量异常检测方法,包括以下步骤:
11、收集网络流量数据,并对网络流量数据进行预处理,得到处理后的网络流量数据;
12、利用LSTM模型对处理后的网络流量数据进行特征预提取;
13、建立决策树改进支持向量机模型,通过k折交叉验证算法选取最优化参数,构建最优化模型;
14、训练得到改进后的向量机模型,用于对提取到的网络流量数据特征进行分类,对分类效果进行评估。
在实施中,本申请的技术构思是,提出了用决策树和SVM结合的方法,针对网络流量数据特点,采用LSTM提取流量信息特征,在利用模型进行异常流量的分类检测。
进一步,所述预处理包括:
步骤101,提取网络流量数据的包头信息作为输入特征;
步骤102,由于不同的参数基本单位相差较大,对数据进行标准化处理,采用如公式一所述的离差标准化的方式进行线性变换缩小到[0,1]区间;
其中xmin为样本最小值,xmax为样本最大值,x为样本值,x*为标准化后的样本值;
步骤104,在正常流量的基础上随机生成异常流量。
步骤104,将样本数据集划分为训练集和测试集。
再进一步,所述利用LSTM模型对处理后的网络流量数据进行特征预提取包括:
步骤201,向LSTM模型中输入训练样本,进行训练;
步骤202,在LSTM模型中加入BN层和全连接层,将修改后的LSTM模型作为特征提取器。
可选的,所述建立决策树改进支持向量机模型包括:
步骤301,首先将网络数据集分为k个集合,每个集合都会轮流作为测试集,剩余集合则作为训练集;
步骤302,计算并比较k次训练的平均交叉验证正确率,选取交叉验证正确率最高的一组参数,参数(C,g)作为k折交叉验证的最优值应用到支持向量机回归预测中,其中惩罚参数C控制了模型结构风险与经验风险的相对比重;
预测模型选取g为高斯核函数,如公式二所示,
步骤303,将参数应用到模型中,对网络流量进行异常检测。
可选的,所述训练得到改进后的向量机模型,用于对提取到的网络流量数据特征进行分类,对分类效果进行评估,包括:
步骤401,采用分类准确率作为评价指标;
步骤402,进行多组实验取平均值。
以上所述仅为本申请的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (5)
1.基于深度学习的增量学习流量异常检测方法,其特征在于,所述方法包括以下步骤:
收集网络流量数据,并对网络流量数据进行预处理,得到处理后的网络流量数据;
利用LSTM模型对处理后的网络流量数据进行特征预提取;
建立决策树改进支持向量机模型,通过k折交叉验证算法选取最优化参数,构建最优化模型;
训练得到改进后的向量机模型,用于对提取到的网络流量数据特征进行分类,对分类效果进行评估。
3.如权利要求1所述的基于深度学习的增量学习流量异常检测方法,其特征在于,所述利用LSTM模型对处理后的网络流量数据进行特征预提取包括:
步骤201,向LSTM模型中输入训练样本,进行训练;
步骤202,在LSTM模型中加入BN层和全连接层,将修改后的LSTM模型作为特征提取器。
5.如权利要求1所述的基于深度学习的增量学习流量异常检测方法,其特征在于,所述训练得到改进后的向量机模型,用于对提取到的网络流量数据特征进行分类,对分类效果进行评估,包括:
步骤401,采用分类准确率作为评价指标;
步骤402,进行多组实验取平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380396.7A CN113328987A (zh) | 2021-04-09 | 2021-04-09 | 基于深度学习的增量学习流量异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380396.7A CN113328987A (zh) | 2021-04-09 | 2021-04-09 | 基于深度学习的增量学习流量异常检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113328987A true CN113328987A (zh) | 2021-08-31 |
Family
ID=77414631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110380396.7A Pending CN113328987A (zh) | 2021-04-09 | 2021-04-09 | 基于深度学习的增量学习流量异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113328987A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139636A (zh) * | 2021-12-03 | 2022-03-04 | 中国建设银行股份有限公司 | 异常作业处理方法及装置 |
CN114826675A (zh) * | 2022-03-28 | 2022-07-29 | 杭州趣链科技有限公司 | 基于数据块集成分类的网络流量异常检测方法、设备及存储介质 |
CN116074092A (zh) * | 2023-02-07 | 2023-05-05 | 电子科技大学 | 一种基于异构图注意力网络的攻击场景重构系统 |
CN118694803A (zh) * | 2024-08-22 | 2024-09-24 | 紫金诚征信有限公司 | 云平台系统流量动态平衡处理方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902740A (zh) * | 2019-02-27 | 2019-06-18 | 浙江理工大学 | 一种基于多算法融合并行的再学习工业控制入侵检测方法 |
CN111224998A (zh) * | 2020-01-21 | 2020-06-02 | 福州大学 | 一种基于极限学习机的僵尸网络识别方法 |
CN111553381A (zh) * | 2020-03-23 | 2020-08-18 | 北京邮电大学 | 基于多网络模型的网络入侵检测方法、装置及电子设备 |
CN111756719A (zh) * | 2020-06-17 | 2020-10-09 | 哈尔滨工业大学 | SDN网络架构下一种结合SVM和优化LSTM模型的DDoS攻击检测方法 |
US20200366712A1 (en) * | 2019-05-14 | 2020-11-19 | International Business Machines Corporation | Detection of Phishing Campaigns Based on Deep Learning Network Detection of Phishing Exfiltration Communications |
CN112165464A (zh) * | 2020-09-15 | 2021-01-01 | 江南大学 | 一种基于深度学习的工控混合入侵检测方法 |
-
2021
- 2021-04-09 CN CN202110380396.7A patent/CN113328987A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902740A (zh) * | 2019-02-27 | 2019-06-18 | 浙江理工大学 | 一种基于多算法融合并行的再学习工业控制入侵检测方法 |
US20200366712A1 (en) * | 2019-05-14 | 2020-11-19 | International Business Machines Corporation | Detection of Phishing Campaigns Based on Deep Learning Network Detection of Phishing Exfiltration Communications |
CN111224998A (zh) * | 2020-01-21 | 2020-06-02 | 福州大学 | 一种基于极限学习机的僵尸网络识别方法 |
CN111553381A (zh) * | 2020-03-23 | 2020-08-18 | 北京邮电大学 | 基于多网络模型的网络入侵检测方法、装置及电子设备 |
CN111756719A (zh) * | 2020-06-17 | 2020-10-09 | 哈尔滨工业大学 | SDN网络架构下一种结合SVM和优化LSTM模型的DDoS攻击检测方法 |
CN112165464A (zh) * | 2020-09-15 | 2021-01-01 | 江南大学 | 一种基于深度学习的工控混合入侵检测方法 |
Non-Patent Citations (4)
Title |
---|
刘从军等: "基于决策SVM的入侵检测技术研究", 《江苏科技大学学报(自然科学版)》 * |
於帮兵等: "基于长短时记忆网络的工业控制系统入侵检测", 《信息与控制》 * |
王伟: "基于深度学习的网络流量分类及异常检测方法研究", 《中国优秀博士学位论文全文数据库(电子期刊)信息科技辑》 * |
蹇诗婕等: "网络入侵检测技术综述", 《信息安全学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139636A (zh) * | 2021-12-03 | 2022-03-04 | 中国建设银行股份有限公司 | 异常作业处理方法及装置 |
CN114139636B (zh) * | 2021-12-03 | 2024-04-30 | 中国建设银行股份有限公司 | 异常作业处理方法及装置 |
CN114826675A (zh) * | 2022-03-28 | 2022-07-29 | 杭州趣链科技有限公司 | 基于数据块集成分类的网络流量异常检测方法、设备及存储介质 |
CN114826675B (zh) * | 2022-03-28 | 2024-05-28 | 杭州趣链科技有限公司 | 基于数据块集成分类的网络流量异常检测方法、设备及存储介质 |
CN116074092A (zh) * | 2023-02-07 | 2023-05-05 | 电子科技大学 | 一种基于异构图注意力网络的攻击场景重构系统 |
CN116074092B (zh) * | 2023-02-07 | 2024-02-20 | 电子科技大学 | 一种基于异构图注意力网络的攻击场景重构系统 |
CN118694803A (zh) * | 2024-08-22 | 2024-09-24 | 紫金诚征信有限公司 | 云平台系统流量动态平衡处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113328987A (zh) | 基于深度学习的增量学习流量异常检测方法 | |
CN110324316B (zh) | 一种基于多种机器学习算法的工控异常行为检测方法 | |
CN105704103B (zh) | 基于OCSVM双轮廓模型的Modbus TCP通信行为异常检测方法 | |
CN107040517B (zh) | 一种面向云计算环境的认知入侵检测方法 | |
CN111598179B (zh) | 电力监控系统用户异常行为分析方法、存储介质和设备 | |
CN111641634B (zh) | 一种基于蜜网的工业控制网络主动防御系统及其方法 | |
CN112822189A (zh) | 一种流量识别方法及装置 | |
Raza et al. | Novel class probability features for optimizing network attack detection with machine learning | |
CN112887325B (zh) | 一种基于网络流量的电信网络诈骗犯罪欺诈识别方法 | |
CN117113262B (zh) | 网络流量识别方法及其系统 | |
CN114785563B (zh) | 一种软投票策略的加密恶意流量检测方法 | |
CN113420294A (zh) | 基于多尺度卷积神经网络的恶意代码检测方法 | |
CN115277189B (zh) | 基于生成式对抗网络的无监督式入侵流量检测识别方法 | |
CN111726351B (zh) | 基于Bagging改进的GRU并行网络流量异常检测方法 | |
CN117220920A (zh) | 基于人工智能的防火墙策略管理方法 | |
Yao et al. | A two-layer soft-voting ensemble learning model for network intrusion detection | |
Thanh et al. | An approach to reduce data dimension in building effective network intrusion detection systems | |
Mopuru et al. | Advancing IoT Security: Integrative Machine Learning Models for Enhanced Intrusion Detection in Wireless Sensor Networks | |
Ananthi et al. | Ensemble based Intrusion Detection System for IoT Device | |
Dong et al. | Mutual Information-based Intrusion Detection Model for Industrial Internet. | |
CN113542222B (zh) | 一种基于双域vae的零日多步威胁识别方法 | |
CN112804247B (zh) | 基于三元概念分析的工业控制系统网络入侵检测方法及系统 | |
Wu et al. | Intrusion Detection System Using a Distributed Ensemble Design Based Convolutional Neural Network in Fog Computing | |
Tan et al. | Using hidden markov models to evaluate the real-time risks of network | |
ZHANG et al. | Integrated intrusion detection model based on artificial immune |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210831 |
|
RJ01 | Rejection of invention patent application after publication |