CN111970305B

CN111970305B - 基于半监督降维和Tri-LightGBM的异常流量检测方法

Info

Publication number: CN111970305B
Application number: CN202010892200.8A
Authority: CN
Inventors: 张�浩; 李杰铃
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-08-12
Anticipated expiration: 2040-08-31
Also published as: CN111970305A

Abstract

本发明涉及一种基于半监督降维和Tri‑LightGBM的异常流量检测方法，包括以下步骤：步骤S1:对网络流量数据进行采集,并对采集到的数据进行粒度细化、特征提取与标记，并分为标记数据和无标记数据；步骤S2:对数据进行预处理，得到标记样本和无标记样本；步骤S3:采用Fisher Score和信息增益对标记样本进行多策略的特征组合，并结合无标记样本，采用PCA将多特征转化为综合特征；步骤S4:构建三个基本分类器LightGBM，并初始化；步骤S5:根据初始化后的三个基本分类器LightGBM，生成未标记数据的伪标记，并基于伪标记数据和标记样本数据用于迭代更新基本分类器；步骤S6:基于投票方法，将三个基本分类器融合为一个强分类器。本发明有效提高了对不平衡数据样本的预测准确率。

Description

基于半监督降维和Tri-LightGBM的异常流量检测方法

技术领域

本发明涉及入侵检测和机器学习，具体涉及一种基于半监督降维和Tri-LightGBM的异常流量检测方法。

背景技术

如今，网络已成为日常生活中非常重要的一部分，恶意攻击无处不在，网络攻击主要通过侵入主机来达到恶意破坏的目的，分析网络节点的流量数据来判断是否存在入侵现象，成为识别网络安全事件的关键步骤。基于监督学习的异常流量检测算法获取大量有标签数据需要耗费大量的人力物力，而无监督学习准确率不高。

发明内容

有鉴于此，本发明的目的在于提供一种基于半监督降维和Tri-LightGBM的异常流量检测方法，省去了大量样本标记工作量，且具有与降维前性能相当的检测率和误报率，并有效提高检测效果。

为实现上述目的，本发明采用如下技术方案：

一种基于半监督降维和Tri-LightGBM的异常流量检测方法，包括以下步骤：

步骤S1:对网络流量数据进行采集,并对采集到的数据进行粒度细化、特征提取与标记，并分为标记数据和无标记数据；

步骤S2:对数据进行预处理，得到标记样本和无标记样本；

步骤S3:采用FisherScore和信息增益对标记样本进行多策略的特征组合，并结合无标记样本，采用PCA将多特征转化为综合特征；

步骤S4:构建三个基本分类器LightGBM，并基于标记样本进行初始化；

步骤S5:根据初始化后的三个基本分类器LightGBM，生成未标记数据的伪标记，并基于伪标记数据和标记样本数据用于迭代更新基本分类器；

步骤S6:基于投票方法，将三个基本分类器融合为一个强分类器，用于对异常流量检测。

进一步的,所述预处理包括字符数据映射和归一化处理。

进一步的,所述步骤S3具体为：

步骤S31:根据下式计算FisherScore，然后根据分值对特征重要性进行降序排序；

式中：给定特征集{f₁,f₂,…,f_m}，u_i表示样本中第i个特征f_i的均值，

表示样本中第i个特征f_i在第k类中的均值，

表示第i个特征f_i在第k类样本的方差，n_k表示第k类样本的数目，F(f_i)表示第i个特征的Fisher分值；

步骤S32:根据下式计算信息增益，并根据分值对特征重要性进行降序排序

式中：给定数据集{x₁,x₂,…,x_m}，p(x_i)是选择某种分类方式的概率，S是样本集合，S_v是S中特征A上的值等于v的样本集合，Entropy(S)是信息期望值，特征A的信息增益定义为原信息需求与新信息需求之差，以Gain(A)表示；

步骤S33:将Fisher Score和信息增益这两种策略结合，组合特征选择新特征子集S，作为综合特征。

进一步的,所述步骤S34具体为：给定包含M个特征的数据集，FS＝{F₁₁,F₁₂,…,F_1M}是按FisherScore排序的的特征序列，FI＝{F₂₁,F₂₂,…,F_2M}是按信息增益分数排序的特征序列，合并末尾N项特征，并从原始特征集F中过滤掉它们；

组合特征选择后的新特征子集S定义如下式：

S＝F-{{F_1(M+N-1),...,F_1M}∪{F_2(M+N-1),...,F_2M}}。

进一步的,所述步骤S4具体为：对原始标记数据集A进行Bootstrap采样来获得三个带标签的训练集，并用其训练生成三个基本分类器LightGBM1，LightGBM2，LightGBM3。

进一步的,所述步骤S5具体为：

步骤S51：选定基本分类器LightGBM1，将另外两个分类器LightGBM2和LightGBM3作为辅助分类器，分别在未标记数据集B上预测得到标记结果B2和B3，并将B2与B3中具有相同标记结果的样本与标记组成集合B1；

步骤S52:按照类别之间的样本比率分别进行抽取，对集合B1采用基于标记类别的分层抽样得到B1_new，降低同一类别的样本被抽到的概率，在数据集(A+B1_new)上重新训练分类器LightGBM1；

步骤S53:重复步骤S51与步骤S52直到满足终止条件；

步骤S54:同样的分别选定基本分类器LightGBM2和LightGBM3，根据步骤S51-S53，进行重新训练基本分类器LightGBM2和LightGBM3。

本发明与现有技术相比具有以下有益效果：

本发明省去了大量样本标记工作量，且具有与降维前性能相当的检测率和误报率，并有效提高检测效果。

附图说明

图1是本发明实施例的方法流程示意图。

图2是本发明实施例的半监督降维流程图。

图3是本发明实施例基于标记类别的分层抽样算法示意图。

图4是本发明实施例的特征过滤的参数分析。

图5是本发明实施例的半监督降维结果分析。

图6是本发明实施例的监督学习与半监督学习的结果分析。

图7是本发明实施例降维前后训练时间和检测时间对比结果。

图8是本发明实施例对数据不平衡的多分类结果分析。

图9是本发明实施例基本分类器的对比分析。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于半监督降维和Tri-LightGBM的异常流量检测方法，包括以下步骤：

步骤S2:对数据进行预处理，得到标记样本和无标记样本；

在本实施例中，优选的采用5％的标记数据和95％的未标记数据进行半监督降维处理，数据预处理包括以下步骤：

步骤S21:将原始数据中的离散型字符都映射为整数值；

步骤S22:把所有数据映射到0-1之间。

步骤S3:采用Fisher Score和信息增益对标记样本进行多策略的特征组合，并结合无标记样本，采用PCA将多特征转化为综合特征；在本实施例中，采用Fisher Score和信息增益对标记样本进行多策略的特征组合，过滤低分特征，再结合无标记样本，采用PCA将多特征转化为少数若干个综合特征，对整体样本进行降维处理，如图2所示；

优选的，在本实施例中，采用Fisher Score和信息增益对标记样本进行多策略的特征组合主要包括以下步骤：

步骤S31:计算Fisher Score,计算公式如下式，然后根据分值对特征重要性进行降序排序；

式中：给定特征集{f₁,f₂,…,f_m}，定义u_i表示样本中第i个特征f_i的均值，

表示样本中第i个特征f_i在第k类中的均值，

表示第i个特征f_i在第k类样本的方差，n_k表示第k类样本的数目，F(f_i)表示第i个特征的Fisher分值。

步骤S32:计算信息增益，计算公式如下式，然后根据分值对特征重要性进行降序排序

式中：给定数据集{x₁,x₂,…,x_m}，p(x_i)是选择某种分类方式的概率，S是样本集合，S_v是S中特征A上的值等于v的样本集合，Entropy(S)是信息期望值，特征A的信息增益定义为原信息需求与新信息需求之差，以Gain(A)表示。

步骤S33:将Fisher Score和信息增益这两种策略结合起来。由于Fisher Score独立评价特征，忽视特征与类标签的相关性，而基于信息增益的方法中，将选择和类标签相关性大的特征，故可以将这两种策略结合起来，以过滤不相关和噪声特征。给定包含M个特征的数据集，FS＝{F₁₁,F₁₂,…,F_1M}是按Fisher Score排序的的特征序列，FI＝{F₂₁,F₂₂,…,F_2M}是按信息增益分数排序的特征序列，为了过滤两个特征序列中都存在的低分特征，合并末尾N项特征，并从原始特征集F中过滤掉它们。组合特征选择后的新特征子集S定义如下式：

S＝F-{{F_1(M+N-1),...,F_1M}∪{F_2(M+N-1),...,F_2M}}。

步骤S4:对原始标记数据集A进行Bootstrap采样来获得三个带标签的训练集，并用其训练生成三个基本分类器LightGBM1，LightGBM2，LightGBM3；

在本实施例中，所述步骤S5具体为：

步骤S52:按照类别之间的样本比率分别进行抽取，对集合B1采用基于标记类别的分层抽样得到B1_new，降低同一类别的样本被抽到的概率，具体算法如图3所示，然后在数据集(A+B1_new)上重新训练分类器LightGBM1；

步骤S53:重复步骤S51与步骤S52直到满足终止条件；

优选的，本实施例进行仿真实验过程中，训练集由70％的样本组成，其余30％用于构建测试集。图4是特征过滤的参数分析，可以发现当过滤特征项个数N为3时，保持合理的准确率。图5是半监督降维结果分析，当未对标记数据进行特征选择时，只采取PCA降维时，检测性能不佳，而仅采取一种特征选择策略时，效果也不如两种策略结合的特征选择。图6是监督学习与半监督学习的结果分析，随着标记比例的增加，准确率和召回率均显示出明显的上升趋势，误报率均持续下降。此外，半监督Tri-LightGBM具有更高的准确率和召回率，以及更低的误报率。虽然随着标记数据比例的增加，半监督学习的优越性慢慢退化，甚至和监督学习持平，但是在标记样本比例少的情况下，本方法表现出的良好检测性能表明如果有足够多的未标记样本，则性能会提升更多。图7是降维前后训练时间和检测时间对比结果，标记比例为5％，降维后模型训练时间和测试时间降低，有效地提升半监督模型的实时性。图8是对数据不平衡分类的结果分析，可以发现少数类的检测率有很大的提升，尤其是Worms类攻击。图9是基本分类器的对比分析，可以看出，LightGBM准确率和误报率都是最佳的。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于半监督降维和Tri-LightGBM的异常流量检测方法，其特征在于，包括以下步骤：

步骤S2:对数据进行预处理，得到标记样本和无标记样本；

步骤S3:采用Fisher Score和信息增益对标记样本进行多策略的特征组合，并结合无标记样本，采用PCA将多特征转化为综合特征；

所述步骤S3具体为：

步骤S31:根据下式计算Fisher Score，然后根据分值对特征重要性进行降序排序；

表示样本中第i个特征f_i在第k类中的均值，

步骤S33:将Fisher Score和信息增益这两种策略结合，组合特征选择新特征子集S，作为综合特征；

2.根据权利要求1所述的基于半监督降维和Tri-LightGBM的异常流量检测方法，其特征在于：所述预处理包括字符数据映射和归一化处理。

3.根据权利要求1所述的基于半监督降维和Tri-LightGBM的异常流量检测方法，其特征在于,所述步骤S33具体为：给定包含M个特征的数据集，FS＝{F₁₁,F₁₂,…,F_1M}是按FisherScore排序的特征序列，FI＝{F₂₁,F₂₂,…,F_2M}是按信息增益分数排序的特征序列，合并末尾N项特征，并从原始特征集F中过滤掉它们；

组合特征选择后的新特征子集S定义如下式：

S＝F-{{F_1(M+N-1),...,F_1M}∪{F_2(M+N-1),...,F_2M}}。

4.根据权利要求1所述的基于半监督降维和Tri-LightGBM的异常流量检测方法，其特征在于,所述步骤S4具体为：对原始标记数据集A进行Bootstrap采样来获得三个带标签的训练集，并用其训练生成三个基本分类器LightGBM1，LightGBM2，LightGBM3。

5.根据权利要求4所述的基于半监督降维和Tri-LightGBM的异常流量检测方法，其特征在于,所述步骤S5具体为：

步骤S53:重复步骤S51与步骤S52直到满足终止条件；