CN111970305B - 基于半监督降维和Tri-LightGBM的异常流量检测方法 - Google Patents
基于半监督降维和Tri-LightGBM的异常流量检测方法 Download PDFInfo
- Publication number
- CN111970305B CN111970305B CN202010892200.8A CN202010892200A CN111970305B CN 111970305 B CN111970305 B CN 111970305B CN 202010892200 A CN202010892200 A CN 202010892200A CN 111970305 B CN111970305 B CN 111970305B
- Authority
- CN
- China
- Prior art keywords
- data
- lightgbm
- feature
- sample
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于半监督降维和Tri‑LightGBM的异常流量检测方法,包括以下步骤:步骤S1:对网络流量数据进行采集,并对采集到的数据进行粒度细化、特征提取与标记,并分为标记数据和无标记数据;步骤S2:对数据进行预处理,得到标记样本和无标记样本;步骤S3:采用Fisher Score和信息增益对标记样本进行多策略的特征组合,并结合无标记样本,采用PCA将多特征转化为综合特征;步骤S4:构建三个基本分类器LightGBM,并初始化;步骤S5:根据初始化后的三个基本分类器LightGBM,生成未标记数据的伪标记,并基于伪标记数据和标记样本数据用于迭代更新基本分类器;步骤S6:基于投票方法,将三个基本分类器融合为一个强分类器。本发明有效提高了对不平衡数据样本的预测准确率。
Description
技术领域
本发明涉及入侵检测和机器学习,具体涉及一种基于半监督降维和Tri-LightGBM的异常流量检测方法。
背景技术
如今,网络已成为日常生活中非常重要的一部分,恶意攻击无处不在,网络攻击主要通过侵入主机来达到恶意破坏的目的,分析网络节点的流量数据来判断是否存在入侵现象,成为识别网络安全事件的关键步骤。基于监督学习的异常流量检测算法获取大量有标签数据需要耗费大量的人力物力,而无监督学习准确率不高。
发明内容
有鉴于此,本发明的目的在于提供一种基于半监督降维和Tri-LightGBM的异常流量检测方法,省去了大量样本标记工作量,且具有与降维前性能相当的检测率和误报率,并有效提高检测效果。
为实现上述目的,本发明采用如下技术方案:
一种基于半监督降维和Tri-LightGBM的异常流量检测方法,包括以下步骤:
步骤S1:对网络流量数据进行采集,并对采集到的数据进行粒度细化、特征提取与标记,并分为标记数据和无标记数据;
步骤S2:对数据进行预处理,得到标记样本和无标记样本;
步骤S3:采用FisherScore和信息增益对标记样本进行多策略的特征组合,并结合无标记样本,采用PCA将多特征转化为综合特征;
步骤S4:构建三个基本分类器LightGBM,并基于标记样本进行初始化;
步骤S5:根据初始化后的三个基本分类器LightGBM,生成未标记数据的伪标记,并基于伪标记数据和标记样本数据用于迭代更新基本分类器;
步骤S6:基于投票方法,将三个基本分类器融合为一个强分类器,用于对异常流量检测。
进一步的,所述预处理包括字符数据映射和归一化处理。
进一步的,所述步骤S3具体为:
步骤S31:根据下式计算FisherScore,然后根据分值对特征重要性进行降序排序;
式中:给定特征集{f1,f2,…,fm},ui表示样本中第i个特征fi的均值,表示样本中第i个特征fi在第k类中的均值,表示第i个特征fi在第k类样本的方差,nk表示第k类样本的数目,F(fi)表示第i个特征的Fisher分值;
步骤S32:根据下式计算信息增益,并根据分值对特征重要性进行降序排序
式中:给定数据集{x1,x2,…,xm},p(xi)是选择某种分类方式的概率,S是样本集合,Sv是S中特征A上的值等于v的样本集合,Entropy(S)是信息期望值,特征A的信息增益定义为原信息需求与新信息需求之差,以Gain(A)表示;
步骤S33:将Fisher Score和信息增益这两种策略结合,组合特征选择新特征子集S,作为综合特征。
进一步的,所述步骤S34具体为:给定包含M个特征的数据集,FS={F11,F12,…,F1M}是按FisherScore排序的的特征序列,FI={F21,F22,…,F2M}是按信息增益分数排序的特征序列,合并末尾N项特征,并从原始特征集F中过滤掉它们;
组合特征选择后的新特征子集S定义如下式:
S=F-{{F1(M+N-1),...,F1M}∪{F2(M+N-1),...,F2M}}。
进一步的,所述步骤S4具体为:对原始标记数据集A进行Bootstrap采样来获得三个带标签的训练集,并用其训练生成三个基本分类器LightGBM1,LightGBM2,LightGBM3。
进一步的,所述步骤S5具体为:
步骤S51:选定基本分类器LightGBM1,将另外两个分类器LightGBM2和LightGBM3作为辅助分类器,分别在未标记数据集B上预测得到标记结果B2和B3,并将B2与B3中具有相同标记结果的样本与标记组成集合B1;
步骤S52:按照类别之间的样本比率分别进行抽取,对集合B1采用基于标记类别的分层抽样得到B1new,降低同一类别的样本被抽到的概率,在数据集(A+B1new)上重新训练分类器LightGBM1;
步骤S53:重复步骤S51与步骤S52直到满足终止条件;
步骤S54:同样的分别选定基本分类器LightGBM2和LightGBM3,根据步骤S51-S53,进行重新训练基本分类器LightGBM2和LightGBM3。
本发明与现有技术相比具有以下有益效果:
本发明省去了大量样本标记工作量,且具有与降维前性能相当的检测率和误报率,并有效提高检测效果。
附图说明
图1是本发明实施例的方法流程示意图。
图2是本发明实施例的半监督降维流程图。
图3是本发明实施例基于标记类别的分层抽样算法示意图。
图4是本发明实施例的特征过滤的参数分析。
图5是本发明实施例的半监督降维结果分析。
图6是本发明实施例的监督学习与半监督学习的结果分析。
图7是本发明实施例降维前后训练时间和检测时间对比结果。
图8是本发明实施例对数据不平衡的多分类结果分析。
图9是本发明实施例基本分类器的对比分析。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于半监督降维和Tri-LightGBM的异常流量检测方法,包括以下步骤:
步骤S1:对网络流量数据进行采集,并对采集到的数据进行粒度细化、特征提取与标记,并分为标记数据和无标记数据;
步骤S2:对数据进行预处理,得到标记样本和无标记样本;
在本实施例中,优选的采用5%的标记数据和95%的未标记数据进行半监督降维处理,数据预处理包括以下步骤:
步骤S21:将原始数据中的离散型字符都映射为整数值;
步骤S22:把所有数据映射到0-1之间。
步骤S3:采用Fisher Score和信息增益对标记样本进行多策略的特征组合,并结合无标记样本,采用PCA将多特征转化为综合特征;在本实施例中,采用Fisher Score和信息增益对标记样本进行多策略的特征组合,过滤低分特征,再结合无标记样本,采用PCA将多特征转化为少数若干个综合特征,对整体样本进行降维处理,如图2所示;
优选的,在本实施例中,采用Fisher Score和信息增益对标记样本进行多策略的特征组合主要包括以下步骤:
步骤S31:计算Fisher Score,计算公式如下式,然后根据分值对特征重要性进行降序排序;
式中:给定特征集{f1,f2,…,fm},定义ui表示样本中第i个特征fi的均值,表示样本中第i个特征fi在第k类中的均值,表示第i个特征fi在第k类样本的方差,nk表示第k类样本的数目,F(fi)表示第i个特征的Fisher分值。
步骤S32:计算信息增益,计算公式如下式,然后根据分值对特征重要性进行降序排序
式中:给定数据集{x1,x2,…,xm},p(xi)是选择某种分类方式的概率,S是样本集合,Sv是S中特征A上的值等于v的样本集合,Entropy(S)是信息期望值,特征A的信息增益定义为原信息需求与新信息需求之差,以Gain(A)表示。
步骤S33:将Fisher Score和信息增益这两种策略结合起来。由于Fisher Score独立评价特征,忽视特征与类标签的相关性,而基于信息增益的方法中,将选择和类标签相关性大的特征,故可以将这两种策略结合起来,以过滤不相关和噪声特征。给定包含M个特征的数据集,FS={F11,F12,…,F1M}是按Fisher Score排序的的特征序列,FI={F21,F22,…,F2M}是按信息增益分数排序的特征序列,为了过滤两个特征序列中都存在的低分特征,合并末尾N项特征,并从原始特征集F中过滤掉它们。组合特征选择后的新特征子集S定义如下式:
S=F-{{F1(M+N-1),...,F1M}∪{F2(M+N-1),...,F2M}}。
步骤S4:对原始标记数据集A进行Bootstrap采样来获得三个带标签的训练集,并用其训练生成三个基本分类器LightGBM1,LightGBM2,LightGBM3;
步骤S5:根据初始化后的三个基本分类器LightGBM,生成未标记数据的伪标记,并基于伪标记数据和标记样本数据用于迭代更新基本分类器;
在本实施例中,所述步骤S5具体为:
步骤S51:选定基本分类器LightGBM1,将另外两个分类器LightGBM2和LightGBM3作为辅助分类器,分别在未标记数据集B上预测得到标记结果B2和B3,并将B2与B3中具有相同标记结果的样本与标记组成集合B1;
步骤S52:按照类别之间的样本比率分别进行抽取,对集合B1采用基于标记类别的分层抽样得到B1new,降低同一类别的样本被抽到的概率,具体算法如图3所示,然后在数据集(A+B1new)上重新训练分类器LightGBM1;
步骤S53:重复步骤S51与步骤S52直到满足终止条件;
步骤S54:同样的分别选定基本分类器LightGBM2和LightGBM3,根据步骤S51-S53,进行重新训练基本分类器LightGBM2和LightGBM3。
步骤S6:基于投票方法,将三个基本分类器融合为一个强分类器,用于对异常流量检测。
优选的,本实施例进行仿真实验过程中,训练集由70%的样本组成,其余30%用于构建测试集。图4是特征过滤的参数分析,可以发现当过滤特征项个数N为3时,保持合理的准确率。图5是半监督降维结果分析,当未对标记数据进行特征选择时,只采取PCA降维时,检测性能不佳,而仅采取一种特征选择策略时,效果也不如两种策略结合的特征选择。图6是监督学习与半监督学习的结果分析,随着标记比例的增加,准确率和召回率均显示出明显的上升趋势,误报率均持续下降。此外,半监督Tri-LightGBM具有更高的准确率和召回率,以及更低的误报率。虽然随着标记数据比例的增加,半监督学习的优越性慢慢退化,甚至和监督学习持平,但是在标记样本比例少的情况下,本方法表现出的良好检测性能表明如果有足够多的未标记样本,则性能会提升更多。图7是降维前后训练时间和检测时间对比结果,标记比例为5%,降维后模型训练时间和测试时间降低,有效地提升半监督模型的实时性。图8是对数据不平衡分类的结果分析,可以发现少数类的检测率有很大的提升,尤其是Worms类攻击。图9是基本分类器的对比分析,可以看出,LightGBM准确率和误报率都是最佳的。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (5)
1.一种基于半监督降维和Tri-LightGBM的异常流量检测方法,其特征在于,包括以下步骤:
步骤S1:对网络流量数据进行采集,并对采集到的数据进行粒度细化、特征提取与标记,并分为标记数据和无标记数据;
步骤S2:对数据进行预处理,得到标记样本和无标记样本;
步骤S3:采用Fisher Score和信息增益对标记样本进行多策略的特征组合,并结合无标记样本,采用PCA将多特征转化为综合特征;
所述步骤S3具体为:
步骤S31:根据下式计算Fisher Score,然后根据分值对特征重要性进行降序排序;
式中:给定特征集{f1,f2,…,fm},ui表示样本中第i个特征fi的均值,表示样本中第i个特征fi在第k类中的均值,表示第i个特征fi在第k类样本的方差,nk表示第k类样本的数目,F(fi)表示第i个特征的Fisher分值;
步骤S32:根据下式计算信息增益,并根据分值对特征重要性进行降序排序
式中:给定数据集{x1,x2,…,xm},p(xi)是选择某种分类方式的概率,S是样本集合,Sv是S中特征A上的值等于v的样本集合,Entropy(S)是信息期望值,特征A的信息增益定义为原信息需求与新信息需求之差,以Gain(A)表示;
步骤S33:将Fisher Score和信息增益这两种策略结合,组合特征选择新特征子集S,作为综合特征;
步骤S4:构建三个基本分类器LightGBM,并基于标记样本进行初始化;
步骤S5:根据初始化后的三个基本分类器LightGBM,生成未标记数据的伪标记,并基于伪标记数据和标记样本数据用于迭代更新基本分类器;
步骤S6:基于投票方法,将三个基本分类器融合为一个强分类器,用于对异常流量检测。
2.根据权利要求1所述的基于半监督降维和Tri-LightGBM的异常流量检测方法,其特征在于:所述预处理包括字符数据映射和归一化处理。
3.根据权利要求1所述的基于半监督降维和Tri-LightGBM的异常流量检测方法,其特征在于,所述步骤S33具体为:给定包含M个特征的数据集,FS={F11,F12,…,F1M}是按FisherScore排序的特征序列,FI={F21,F22,…,F2M}是按信息增益分数排序的特征序列,合并末尾N项特征,并从原始特征集F中过滤掉它们;
组合特征选择后的新特征子集S定义如下式:
S=F-{{F1(M+N-1),...,F1M}∪{F2(M+N-1),...,F2M}}。
4.根据权利要求1所述的基于半监督降维和Tri-LightGBM的异常流量检测方法,其特征在于,所述步骤S4具体为:对原始标记数据集A进行Bootstrap采样来获得三个带标签的训练集,并用其训练生成三个基本分类器LightGBM1,LightGBM2,LightGBM3。
5.根据权利要求4所述的基于半监督降维和Tri-LightGBM的异常流量检测方法,其特征在于,所述步骤S5具体为:
步骤S51:选定基本分类器LightGBM1,将另外两个分类器LightGBM2和LightGBM3作为辅助分类器,分别在未标记数据集B上预测得到标记结果B2和B3,并将B2与B3中具有相同标记结果的样本与标记组成集合B1;
步骤S52:按照类别之间的样本比率分别进行抽取,对集合B1采用基于标记类别的分层抽样得到B1new,降低同一类别的样本被抽到的概率,在数据集(A+B1new)上重新训练分类器LightGBM1;
步骤S53:重复步骤S51与步骤S52直到满足终止条件;
步骤S54:同样的分别选定基本分类器LightGBM2和LightGBM3,根据步骤S51-S53,进行重新训练基本分类器LightGBM2和LightGBM3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010892200.8A CN111970305B (zh) | 2020-08-31 | 2020-08-31 | 基于半监督降维和Tri-LightGBM的异常流量检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010892200.8A CN111970305B (zh) | 2020-08-31 | 2020-08-31 | 基于半监督降维和Tri-LightGBM的异常流量检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111970305A CN111970305A (zh) | 2020-11-20 |
CN111970305B true CN111970305B (zh) | 2022-08-12 |
Family
ID=73399415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010892200.8A Active CN111970305B (zh) | 2020-08-31 | 2020-08-31 | 基于半监督降维和Tri-LightGBM的异常流量检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111970305B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641990A (zh) * | 2021-06-21 | 2021-11-12 | 上海电力大学 | 一种基于多新息扩展卡尔曼滤波的入侵检测方法 |
CN115021981A (zh) * | 2022-05-18 | 2022-09-06 | 桂林电子科技大学 | 一种工业控制系统入侵检测及溯源的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598813A (zh) * | 2014-12-09 | 2015-05-06 | 西安电子科技大学 | 一种基于集成学习和半监督svm的计算机入侵检测方法 |
CN107979602A (zh) * | 2017-12-01 | 2018-05-01 | 西安交通大学 | 一种蜂窝网络中基于半监督统计的异常检测方法 |
CN110225055A (zh) * | 2019-06-22 | 2019-09-10 | 福州大学 | 一种基于knn半监督学习模型的网络流量异常检测方法与系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9729350B1 (en) * | 2010-05-07 | 2017-08-08 | Amazon Technologies, Inc. | Maintaining packet order in network flows over an autonomous network |
US20130097103A1 (en) * | 2011-10-14 | 2013-04-18 | International Business Machines Corporation | Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set |
US10846308B2 (en) * | 2016-07-27 | 2020-11-24 | Anomalee Inc. | Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces |
US10848508B2 (en) * | 2016-09-07 | 2020-11-24 | Patternex, Inc. | Method and system for generating synthetic feature vectors from real, labelled feature vectors in artificial intelligence training of a big data machine to defend |
CN109309630B (zh) * | 2018-09-25 | 2021-09-21 | 深圳先进技术研究院 | 一种网络流量分类方法、系统及电子设备 |
-
2020
- 2020-08-31 CN CN202010892200.8A patent/CN111970305B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598813A (zh) * | 2014-12-09 | 2015-05-06 | 西安电子科技大学 | 一种基于集成学习和半监督svm的计算机入侵检测方法 |
CN107979602A (zh) * | 2017-12-01 | 2018-05-01 | 西安交通大学 | 一种蜂窝网络中基于半监督统计的异常检测方法 |
CN110225055A (zh) * | 2019-06-22 | 2019-09-10 | 福州大学 | 一种基于knn半监督学习模型的网络流量异常检测方法与系统 |
Non-Patent Citations (2)
Title |
---|
一种采用SmoteTomek和LightGBM算法的Web异常检测模型;魏志强,张浩,陈龙;《小型微型计算机系统》;20200331;全文 * |
半监督模糊Fisher降维分析;杨昔阳等;《厦门大学学报(自然科学版)》;20151103;摘要,第1-2节 * |
Also Published As
Publication number | Publication date |
---|---|
CN111970305A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109194612B (zh) | 一种基于深度置信网络和svm的网络攻击检测方法 | |
CN107294993B (zh) | 一种基于集成学习的web异常流量监测方法 | |
Veenman | Statistical disk cluster classification for file carving | |
CN112381121A (zh) | 一种基于孪生网络的未知类别网络流量的检测与识别方法 | |
CN109218223B (zh) | 一种基于主动学习的鲁棒性网络流量分类方法及系统 | |
CN111970305B (zh) | 基于半监督降维和Tri-LightGBM的异常流量检测方法 | |
CN113518063A (zh) | 基于数据增强和BiLSTM的网络入侵检测方法及系统 | |
CN111556016B (zh) | 一种基于自动编码器的网络流量异常行为识别方法 | |
CN113489685B (zh) | 一种基于核主成分分析的二次特征提取及恶意攻击识别方法 | |
CN114124482B (zh) | 基于lof和孤立森林的访问流量异常检测方法及设备 | |
US11658989B1 (en) | Method and device for identifying unknown traffic data based dynamic network environment | |
CN104850859A (zh) | 一种基于多尺度分析的图像特征包构建方法 | |
CN110912917A (zh) | 恶意url检测方法及系统 | |
CN114579397A (zh) | 一种基于数据挖掘的异常检测方法及系统 | |
CN116506181A (zh) | 一种基于异构图注意力网络的车联网入侵检测方法 | |
CN110097120B (zh) | 网络流量数据分类方法、设备及计算机存储介质 | |
Wani | Introducing subspace grids to recognise patterns in multidimensinal data | |
CN109376531B (zh) | 基于语义重编码与特征空间分离的Web入侵检测方法 | |
CN111601314A (zh) | 预训练模型加短信地址双重判定不良短信的方法和装置 | |
CN115842645A (zh) | 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质 | |
CN112163217B (zh) | 恶意软件变种识别方法、装置、设备及计算机存储介质 | |
Gao et al. | Semi supervised image spam hunter: A regularized discriminant em approach | |
Hou et al. | New framework for unsupervised universal steganalysis via SRISP-aided outlier detection | |
CN114006745B (zh) | 一种基于改进自编码器的网络入侵流量分类方法 | |
CN116405330B (zh) | 基于迁移学习的网络异常流量识别方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |