CN112272147A

CN112272147A - 一种基于代价敏感和梯度提升算法的不均衡网络流量分类方法和装置

Info

Publication number: CN112272147A
Application number: CN202011148604.2A
Authority: CN
Inventors: 熊刚; 李镇; 郭煜; 石俊峥; 苟高鹏
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-26

Abstract

本发明涉及一种基于代价敏感和梯度提升算法的不均衡网络流量分类方法和装置。该方法包括：采集当前任务场景下的网络流量，对其进行特征提取和标注，并划分训练集和验证集；设置参数池和目标指标；将训练集和验证集作为输入，根据设置的目标指标，采用梯度提升算法并通过交叉验证，对参数池中的参数进行自动化调优；将最佳参数组合代入分类器的相应位置，将训练集作为输入训练分类器，每一轮迭代产生的分类器采用验证集进行效果验证；采集不均衡网络流量数据，利用训练完成的不均衡网络流量分类器得到分类结果。本发明可以自适应调节参数，找到适合该场景的最佳参数，并训练能达到最佳目标指标的分类器，而无需了解数据分布的先验知识。

Description

一种基于代价敏感和梯度提升算法的不均衡网络流量分类方法和装置

技术领域

本发明涉及一种基于代价敏感和梯度提升算法的不均衡网络流量分类方法和装置，属于计算机软件技术领域。

背景技术

随着互联网应用的爆炸式增长，网络流量分类已经成为网络管理和网络安全的基本组成部分。近些年来，由于人工智能的复兴和发展，机器学习成为应用于网络流量分类的最主流、最有效的技术。然而，真实应用场景中，网络流量天然地呈现不均衡特性，这给基于机器学习的网络流量分类方案带来了巨大的挑战。因为一般来说，机器学习算法以获得最高的总精度为最终目标，它默认了训练集中类别规模的相对均衡，而没有考虑类别不均衡可能带来的影响。所以，真实场景中的不均衡流量数据会导致已有的网络流量分类器性能降级，即分类器在数量样本少的类别上表现很差，预测向样本数多的类别偏移。

类别不均衡是机器学习领域中一个具有挑战性的研究点。类别不均衡指的是在一个分类任务中，训练集中某些类的样本数量和其他类的样本数量差距很大。样本数量很多的类称为多数类，反之则称为少数类。在广泛应用机器学习的领域，如欺诈检测、计算机视觉、医疗诊断等，类别不均衡问题被高度重视并广泛研究。然而在网络流量分类领域，大多数已有研究忽略了真实网络环境中流量数据的不均衡特性，提出的方法多基于预处理后相对均衡的流量数据集。在某些场景下，类别不均衡造成的分类器性能降级是灾难性的。例如一些恶意检测场景中，恶意流量只占很小的比例，即为少数类。在恶意机器人检测任务中，恶意机器人的精度低下会导致将正常用户误分类为恶意机器人，损害用户的体验。在执行入侵检测任务时，对异常攻击的低检测率(召回率)将导致严重的系统安全事故。因此，未来的网络流量分类研究必须重视类别不均衡问题。

目前通用的类别不均衡解决方案根据原理不同可以分为三类：数据级别，算法级别和代价敏感。数据级别的方法(包括过采样，欠采样和混合采样)对数据集进行重新采样以缓解不均衡程度。其中，过采样通过复制或合成少数类样本，重新平衡类别分布，而过采样则减少多数类的样本。混合采样将两种采样技术结合使用。算法级方法实际上是一种结合了数据级方法和集成算法的混合模型，它使用重采样来缓解数据不平衡，并使用集成学习算法来提高分类器的性能。代价敏感方法会针对不同的类别考虑不同的错分代价，作用于学习过程中，以提高分类器对少数类的敏感度。代价敏感是一种很有潜力的方法，精心设计的代价可能会达到很好的效果。

目前有少量研究提出了一些针对不均衡网络流量分类的解决方案。最常见的解决方案是利用通用采样技术对训练集进行重新采样。另外，有的研究简单考虑了错分代价或类别权重的设计。然而，这些解决方案存在一些问题。首先，基于重采样的方法可能会丢失流量数据中潜在的有用信息，或者增加过拟合的风险以及时间消耗。其次，大多数解决方案直接使用针对类别不均衡提出的通用技术，而没有考虑网络流量特性，导致效果不稳定和泛化能力差。

发明内容

本发明旨在提供一种用于有效解决不均衡网络流量分类的方法。本发明无需对网络流量数据进行预处理，是一种端到端的解决方案，避免了因采样预处理带来的信息损失、过拟合、时间消耗增加等弊端。

本发明提出一种代价敏感和梯度提升算法相结合的不均衡流量分类方法，深度分析和结合了流量数据的特点，高度契合流量分类任务。在面对具有不同不均衡程度的流量分类场景时，本发明中的方法可以自适应调节参数，找到适合该场景的最佳参数，并训练能达到最佳目标指标的分类器，而无需了解数据分布的先验知识。本发明还具有高度不均衡场景或多分类场景下，低时间消耗的优势。

本发明采用的技术方案如下：

一种基于代价敏感和梯度提升算法的不均衡网络流量分类器训练方法，包括以下步骤：

采集当前任务场景下的网络流量，对其进行特征提取和标注，并划分训练集和验证集；

设置参数池和目标指标，所述参数池中包含代价敏感参数；

将训练集和验证集作为输入，根据设置的目标指标，采用梯度提升算法并通过交叉验证，对参数池中的参数进行自动化调优，选取能使目标指标达到最高的最佳参数组合；

将最佳参数组合代入分类器的相应位置，将训练集作为输入训练分类器，每一轮迭代产生的分类器采用验证集进行效果验证。

进一步地，所述目标指标为下列中的一种：损失不再下降，准确率达到设定的值，召回率达到设定的值，F1分数达到设定的值；或者根据任务需要自行设定目标指标。

进一步地，所述梯度提升算法采用LightGBM算法，将LightGBM算法中的损失函数替换为物体检测领域的代价敏感函数。

进一步地，所述代价敏感函数为Focal loss函数，并将Focal loss从支持二分类扩展为同时支持多分类任务。

进一步地，所述采用验证集进行效果验证，如果目标指标值达到预期要求或者连续若干次迭代都不再有提升，则停止训练并保存分类器。

一种基于代价敏感和梯度提升算法的不均衡网络流量分类方法，包括以下步骤：

采集不均衡网络流量数据，并对其进行特征提取；

将提取的特征输入采用上述方法训练完成的不均衡网络流量分类器中，得到分类结果。

一种基于代价敏感和梯度提升算法的不均衡网络流量分类器训练装置，其包括：

数据准备模块，用于采集当前任务场景下的网络流量，对其进行特征提取和标注，并划分训练集和验证集；

自适应调参模块，用于设置参数池和目标指标，所述参数池中包含代价敏感参数；将训练集和验证集作为输入，根据设置的目标指标，采用梯度提升算法并通过交叉验证，对参数池中的参数进行自动化调优，选取能使目标指标达到最高的最佳参数组合；

分类器生成模块，用于将最佳参数组合代入分类器的相应位置，将训练集作为输入训练分类器，每一轮迭代产生的分类器采用验证集进行效果验证。

一种基于代价敏感和梯度提升算法的不均衡网络流量分类装置，其包括：

流量采集模块，用于采集不均衡网络流量数据；

特征提取模块，用于对采集的不均衡网络流量数据进行特征提取；

流量分类模块，用于将提取的特征输入采用本发明方法训练完成的不均衡网络流量分类器中，得到分类结果。

本发明的关键点在于：

1、针对真实网络流量中存在的类别不均衡问题，提出了有效的不均衡流量分类解决方案。该方法是一种端到端模型，可以直接应用于网络流量分类任务中，无需对原始不均衡流量做重采样处理，避免了因采样预处理带来的信息损失、过拟合、时间消耗增加等弊端。

2、对网络流量的特征进行深度分析，提出了基于代价敏感和梯度提升算法的架构。经过分析发现，不均衡流量分类任务和物体检测任务具有一定的相似性，因此在框架中引入物体检测领域中提出的损失函数Focal loss，在学习过程中提高分类器对少数类的敏感度，从而变相均衡数据分布。

3、无需数据分布先验知识，该方法能自动适应不同网络场景下的具有不同不均衡程度的数据集。只需给出目标指标，该方法就可以针对当前场景找出最佳参数，训练得到能达到目标指标的最佳分类器，用于有效地网络流量分类。

本发明对网络流量分类中不均衡问题的解决有如下特点和有益效果：

1、是一个端到端的解决方案。具有原始分布的流量数据直接作为输入，无需对数据进行重采样预处理。

2、结合流量数据特征，引入适用于流量分类的代价函数。和梯度提升算法相结合，不仅缓解了网络流量的不均衡问题，还最大程度上提高了分类器的表现。

3、可以自动寻找当前场景下的最佳参数，不需要了解流量数据分布的先验知识。因此可以对不同场景下的网络流量分类任务进行自适应适配。

附图说明

图1本发明方法的基本框架图。其中最右侧的虚线箭头表示分类阶段。其他部分均为训练阶段。浅灰色文本框部分为本发明的最关键技术所在。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明方法的基本框架如图1所示，该方案包括训练阶段和分类阶段，具体包括以下技术步骤：

1.训练阶段：

(1)数据准备

采集当前任务场景下的网络流量，在对其进行特征提取和标注后，按照一定的比例划分训练集和验证集，比如训练集:验证集＝5:1。训练集的作用是在(3)中训练目标分类器，而验证集的作用是辅助观察分类器的训练程度是否达到预期要求，以判断何时停止训练。因此验证集的规模不宜过小，以免因拟合偏差导致目标分类器的泛化能力弱。

(2)自适应调参

将(1)中的数据全部输入该阶段，用于寻找该场景下对应的最佳模型参数。

本发明的核心技术是代价敏感和梯度提升算法结合作为不均衡流量分类的解决方案。经过对真实世界中不均衡流量的分析，发现流量分类场景和物体检测任务具有一定的相似性，因此引入物体检测领域的Focal loss(可以称为“焦点损失)作为代价函数，以在学习过程中提高分类器对少数类的敏感度，从而变相均衡数据分布。梯度提升算法采用LightGBM算法，具有性能优秀、速度快的特点。将LightGBM中的损失函数替换为Focalloss，并作适当的扩展。

梯度提升算法是一种以负梯度为目标进行分类器模型迭代训练的方法，最主要的代表算法就是以CART决策树作为弱学习器的梯度提升决策树(GBDT)算法。梯度提升算法在分类任务中具有良好的表现，GBDT的扩展——LightGBM更是具有性能优秀、速度快的特点，而且支持自定义损失函数。因此本发明采用LightGBM作为机器学习分类算法，用于分类器模型的训练和测试。将LightGBM的损失函数替换为Focal loss，并将Focal loss从支持二分类扩展为同时支持多分类任务。

Focal loss的公式如下：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，p_t是分类器将当前样本预测为其真实所属类的概率，α_t为其相应的平衡因子，γ为权重因子。

其中，p为分类器将当前样本预测为标签1的概率，α为标签1对应的平衡因子。

以上Focal loss的公式仅适用于二分类，将Focal loss适配于LightGBM并将其扩展为适配多分类任务，其公式如下：

FL(pred,y)＝-(αy+(1-α)(1-y))·(1-(y·s(pred)+(1-y)·(1-s(pred))))^γ·(ylog(s(pred))+(1-y)log(1-s(pred)))

其中，y为当前样本的one-hot标签，pred为LightGBM的预测输出，s(pred)表示预测概率，s(pred)＝sigmoid(pred)。

自适应调参的过程包括以下步骤：

1)设置参数池。该框架中包含了一些重要参数，最主要的是来自于Focal loss的代价敏感参数α和γ。其中α是平衡因子，用于调整不同类之间的损失比例；γ是权重因子，直接影响不同样本的损失权重。根据现有研究将α设置为(0,1)，γ设置为(0.5,5)，α和γ的范围设定也可以自行调整，这里只是给出了经验值。另外还有一些分类算法(LightGBM)涉及的参数，也可以根据需要进行设定。一般采用默认值即可。

2)设定目标指标。对于当前的网络流量分类任务，会有其预期要达到的指标，比如损失(图1中的loss)不再下降，或准确率达到90％，或召回率(图1中的recall)达到90％，或者是F1分数达到90％等。将目标指标设置好，作为下面寻找最佳参数的标准。

3)交叉验证自动调参。将(1)中的全部数据作为输入，并根据2)中选择的目标指标，通过交叉验证，对参数池中的参数进行自动化调优。选取能使目标指标达到最高的参数组合，也就是最适配当前场景流量不均衡程度的模型参数。

(3)分类器生成

将(2)中得到的最佳参数代入到分类器模型的相应位置，将(1)中的训练集作为输入，训练分类器。每一轮迭代更新的分类器，都用(1)中的验证集进行效果验证，看当前版本的分类器在验证集上的目标指标是否达到预期要求。如目标指标值达到预期要求或者连续20次迭代都不再有提升，停止训练，保存当前分类器，即得到了可用于该场景下不均衡流量分类的分类器。

2.分类阶段：

将该场景下的网络流量进行特征提取后，输入训练阶段(3)中生成的最终分类器，即可得到分类结果。

3.本发明的实例：

实例1对恶意流量检测场景下的不同不均衡程度的流量进行二分类

2018年7月，在某互联网公司用于托管线上交易业务的服务器上连续采集了14天的原始流量，对其进行样本提取和标注，得到类别不均衡的恶意云机器人流量样本和正常用户流量样本。由于其不均衡程度随着时间变化而不同，选取25w个正常用户流量样本，以及5000,2500,1250,500,250个恶意云机器人流量样本，其中五分之四作为训练集，五分之一作为验证集。也就是说，多数类和少数类之间的比值为50,100,200,500和1000。再按照相同比例取一定数量的流量样本作为测试数据。根据本发明的技术步骤训练得到分类器，在测试数据上进行测试，发现相比于直接使用普通分类器进行分类，本发明提出的技术方案能将分类效果大大提升，尤其是在少数类上的分类效果，F1分数值的提升达20％以上。

实例2对入侵检测场景下的不均衡网络流量进行多分类

KDD99数据集是网络入侵和数据挖掘研究中经常用到的公开网络流量数据集。该数据集包含五类，各类规模之间呈现极大的不均衡性。取其中的正常流量类、Probe类、U2R类和R2L类这四类进行实验，其训练集样本数量分别是97278,4107,52和104。在使用本发明的技术步骤训练得到分类器后，在提供的测试集上进行测试，结果相较于直接使用普通分类器进行训练和测试，正常流量类和Probe类效果基本保持不变，而样本数量极少的U2R类和R2L类准确率和召回率都有极大提升，对U2R类的准确率提升达57.31％，召回率提升达12.82％。

4.本发明的其他实施例

基于同一发明构思，本发明的另一个实施例一种基于代价敏感和梯度提升算法的不均衡网络流量分类器训练装置，其包括：

基于同一发明构思，本发明的另一个实施例一种基于代价敏感和梯度提升算法的不均衡网络流量分类装置，其包括：

流量采集模块，用于采集不均衡网络流量数据；

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于代价敏感和梯度提升算法的不均衡网络流量分类器训练方法，其特征在于，包括以下步骤：

设置参数池和目标指标，所述参数池中包含代价敏感参数；

2.根据权利要求1所述的方法，其特征在于，所述目标指标为下列中的一种：损失不再下降，准确率达到设定的值，召回率达到设定的值，F1分数达到设定的值；或者根据任务需要自行设定目标指标。

3.根据权利要求1所述的方法，其特征在于，所述梯度提升算法采用LightGBM算法，将LightGBM算法中的损失函数替换为物体检测领域的代价敏感函数。

4.根据权利要求3所述的方法，其特征在于，所述代价敏感函数为Focal loss函数，并将Focal loss从支持二分类扩展为同时支持多分类任务，其公式如下：

FL(pred，y)＝-(αy+(1-α)(1-y))·(1-(y·s(pred)+(1-y)·(1-s(pred))))^γ·(ylog(s(pred))+(1-y)log(1-s(pred)))

其中，FL(pred，y)是扩展后的Focal loss，α是平衡因子，γ是权重因子，y为当前样本的one-hot标签，pred为LightGBM的预测输出，s(pred)表示预测概率，s(pred)＝sigmoid(pred)。

5.根据权利要求1所述的方法，其特征在于，所述采用验证集进行效果验证，如果目标指标值达到预期要求或者连续若干次迭代都不再有提升，则停止训练并保存分类器。

6.一种基于代价敏感和梯度提升算法的不均衡网络流量分类方法，其特征在于，包括以下步骤：

采集不均衡网络流量数据，并对其进行特征提取；

将提取的特征输入采用权利要求1～5中任一权利要求所述方法训练完成的不均衡网络流量分类器中，得到分类结果。

7.一种采用权利要求1～5中任一权利要求所述方法的基于代价敏感和梯度提升算法的不均衡网络流量分类器训练装置，其特征在于，包括：

8.一种基于代价敏感和梯度提升算法的不均衡网络流量分类装置，其特征在于，包括：

流量采集模块，用于采集不均衡网络流量数据；

流量分类模块，用于将提取的特征输入采用权利要求1～5中任一权利要求所述方法训练完成的不均衡网络流量分类器中，得到分类结果。

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～6中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～6中任一权利要求所述的方法。