CN116668327A

CN116668327A - 基于动态再训练的小样本恶意流量分类增量学习方法及系统

Info

Publication number: CN116668327A
Application number: CN202310606089.5A
Authority: CN
Inventors: 费金龙; 王若男; 芦斌; 郭茂华; 吴魏
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-08-29

Abstract

本发明涉及大数据网络流量检测技术领域，特别涉及一种基于动态再训练的小样本恶意流量分类增量学习方法及系统，基于端到端的全卷积神经网络构建恶意流量分类模型；利用已收集数据集对恶意流量分类模型进行训练，得到初始网络；冻结初始网络中提取低级输入特征的预设浅层网络参数，利用已知标签的小样本恶意流量数据集对初始网络中其他网络参数进行微调，得到基础网络；依据样本相似度计算所需神经元数量并筛选出冗余网络结构，对冗余网络结构进行训练调整，得到恶意流量分类增量网络。本发明能够减少模型训练中对旧类灾难性遗忘，缓解小样本数据训练庞大参数的压力，提升模型分类性能，在保持分类器性能同时可最大限度降低计算资源消耗。

Description

基于动态再训练的小样本恶意流量分类增量学习方法及系统

技术领域

本发明涉及大数据网络流量检测技术领域，特别涉及一种基于动态再训练的小样本恶意流量分类增量学习方法及系统。

背景技术

大数据时代的到来伴随着网络流量井喷式增长，恶意程序产生的恶意流量也层出不穷。网络流量分类能够将流量与其生成程序相关联，在网络安全领域，流量分类是网络恶意资源检测任务的第一步。因此网络流量的准确分类问题一直是领域研究热点。近年来，深度学习在流量分类领域取得巨大成功。然而深度学习依赖大型有标记数据集的监督训练，恶意流量由于隐蔽性高，攻击行为不断变化等特点，导致能够捕获并准确标记的恶意流量数据量少，难以提供能够驱动深度学习训练的数据量。另外，当前恶意流量分类模型仅关注离线情况下的模型效果，对于在线设备上的模型性能关注较少，当深度学习模型部署在在线设备上时，不断更新和变化的恶意流量类别需要分类模型具备能够新增分类任务的能力。在基于深度学习的分类模型中，分类器常由一组数据进行监督学习，如果想对分类器新增分类任务，就必须使用大量的旧类数据和新类数据对分类器进行联合重训练。若旧类数据不能重新启用，仅使用新类数据会带来分类器灾难性遗忘的问题，即分类器对于旧类的分类性能大幅下降。然而，在线设备常常不具备支持模型联合重训练的存储和计算资源。因此，如何在稀缺计算资源下解决小样本恶意流量分类模型扩展性问题成为恶意流量分类领域值得探索的问题之一。

允许模型进行新增分类任务的扩展，并在不忘记旧类的同时从新类的数据中学习，这种能力被称为增量学习能力。近年来，研究者们提出了许多增量学习的方法。包括基于旧数据回放的方式，其通过旧数据和新数据联合指导分类器的方式，减轻了灾难性遗忘的问题。然而该方法要求存储旧数据，且旧数据应具有代表性，并和新数据数量相当，否则将影响分类器对旧类的分类性能。因此回放的方法对存储资源要求较高，且容易产生类别不平衡问题，造成分类器对旧类或新类过度拟合导致整体分类性能不高。基于正则化的方法使用知识蒸馏项作为正则化项来约束模型，惩罚模型在拟合新数据时对旧类的遗忘，此过程需要存储旧模型的权重，以获取知识蒸馏的来源。然而知识蒸馏与增量学习之间存在一种对抗关系，若对模型约束过强，则模型将严重拟合当前数据，导致鲁棒性差，若对模型约束较弱，则不能有效缓解灾难性遗忘问题，因此当前对于正则化方法的研究，还应在设计更好的蒸馏的方法上做出努力。基于模型扩张的方法旨在通过增加新的模型结构来适应新增数据，对于旧类保持旧模型权重不变，从而避免遗忘。然而模型结构的增加必然造成计算资源和运算负担的加剧，当新增任务逐渐增多，模型将不堪重负。综上，小样本恶意流量分类增量学习问题目前面临如下挑战性阻碍：1、新增任务带来旧任务灾难性遗忘。由于在线设备包含的计算资源和存储资源有限，当新任务到来时，新旧类间常面临性能权衡问题，新任务的适应必然带来旧任务准确率下降，如何提升模型整体的性能是增量学习必须解决的首要挑战。2、小样本数据难以驱动神经网络训练。恶意流量因其隐蔽多变的特点，在真实世界中常面临可捕获的数据量与神经网络庞大参数量矛盾的情况。如何保证小样本分类模型性能问题成为重点研究对象。3、现存增量学习方法对计算资源要求过高。当前主流的增量学习方法基于回放的方法，基于正则化的方法和基于模型扩张的方法都对计算资源要求过高，因此如何在保持分类器性能的同时最大限度的降低计算资源的消耗成为需要解决的挑战之一。

发明内容

为此，本发明提供一种基于动态再训练的小样本恶意流量分类增量学习方法及系统，能够减少模型训练中对旧类灾难性遗忘，缓解小样本数据训练庞大参数的压力，提升模型分类性能，在保持分类器性能同时可最大限度降低计算资源消耗，便于在硬件设备上的线上部署应用。

按照本发明所提供的设计方案，提供一种基于动态再训练的小样本恶意流量分类增量学习方法，包含：

基于端到端的全卷积神经网络构建恶意流量分类模型，并在全卷积神经网络的每一卷积层之后均添加一层BN层；利用已收集数据集对恶意流量分类模型进行训练，得到小样本恶意流量分类增量学习的初始网络；

冻结初始网络中提取低级输入特征的预设浅层网络参数，利用已知标签的小样本恶意流量数据集对初始网络中其他网络参数进行微调，得到恶意流量分类基础网络；

针对新增标签分类任务对应的新增数据集，依据该新增数据集和已知标签的小样本恶意流量数据集两者样本相似度来计算当前新增标签分类任务所需神经元数量并筛选出恶意流量分类基础网络中新增任务训练的冗余网络结构；

利用新增数据集对冗余网络结构进行训练调整，得到恶意流量分类增量网络，以利用该恶意流量分类增量网络识别并输出流量数据的分类标签。

作为本发明基于动态再训练的小样本恶意流量分类增量学习方法，进一步地，基于端到端的全卷积神经网络构建恶意流量分类模型，包含：基于一维CNN作为恶意流量分类模型的网络结构，在该网络结构由多个一维卷积层和多个最大池化层组成，每一BN层添加RELU函数。

作为本发明基于动态再训练的小样本恶意流量分类增量学习方法，进一步地，利用已收集数据集对恶意流量分类模型进行训练，包含：利用从真实网络环境中收集的恶意软件流量公共数据集作为已收集数据集，以对恶意流量分类模型进行训练。

作为本发明基于动态再训练的小样本恶意流量分类增量学习方法，进一步地，利用已知标签的小样本恶意流量数据集对初始网络中其他网络参数进行微调，包含：针对恶意流量公共数据集，选取其中N类恶意流量数据作为小样本恶意流量数据集，以利用该小样本恶意流量数据集对初始网络参数进行微调，其中，N大于1的整数。

作为本发明基于动态再训练的小样本恶意流量分类增量学习方法，进一步地，依据该新增数据集和已知标签的小样本恶意流量数据集两者样本相似度来计算当前新增标签分类任务所需神经元数量并筛选出恶意流量分类基础网络中新增任务训练的冗余网络结构，包含：

首先，基于核嵌入度量新增数据集和已知标签的小样本恶意流量数据集两者在再生核希尔伯特空间分布之间的距离，并依据距离计算样本数据集相似度；

接着，使用BN层的缩放因子作为判定神经元重要程度的指标来对神经元进行排序，将分类器准确率下降且小于预设阈值的神经元认定为不参与反向传播的冗余神经元，利用样本数据集相似度及冗余神经元个数来调整新增任务训练所分配神经元数量；

然后，保持基础网络中其他神经元权重不变，使用新增数据集对新增任务训练所分配冗余网络神经元进行重训练。

作为本发明基于动态再训练的小样本恶意流量分类增量学习方法，进一步地，依据距离计算样本数据集相似度的计算公式表示为：其中，φ(x)为将每个实例x映射到与核k(x_i,x_j)＝φ(x_i)^Tφ(x_j)相关的希尔伯特空间/>的过程表示，X_s、Y_E分别为小样本恶意流量数据集、新增数据集的域样本，n_s和n_e分别为小样本恶意流量数据集和新增数据集的样本大小，

)分别为来自域样本X_s和Y_E中的第i个样本。

作为本发明基于动态再训练的小样本恶意流量分类增量学习方法，进一步地，利用样本数据集相似度及冗余神经元个数来调整新增任务训练所分配神经元数量，调整公式表示为：R_E＝R*[1-W(X_S,Y_E)]，其中，R为认定的不参与反向传播的冗余神经元数，W(X_S,Y_E)为新增数据集和已知标签的小样本恶意流量数据集两者域样本X_s、Y_E的相似度。

进一步地，本发明还提供一种基于动态再训练的小样本恶意流量分类增量学习系统，包含：初始训练模块、预训练模块和增量学习模块，其中，

初始训练模块，用于基于端到端的全卷积神经网络构建恶意流量分类模型，并在全卷积神经网络的每一卷积层之后均添加一层BN层；利用已收集数据集对恶意流量分类模型进行训练，得到小样本恶意流量分类增量学习的初始网络；

预训练模块，用于通过冻结初始网络中提取低级输入特征的预设浅层网络参数，利用已知标签的小样本恶意流量数据集对初始网络中其他网络参数进行微调，得到恶意流量分类基础网络；

增量学习模块，用于针对新增标签分类任务对应的新增数据集，依据该新增数据集和已知标签的小样本恶意流量数据集两者样本相似度来计算当前新增标签分类任务所需神经元数量并筛选出恶意流量分类基础网络中新增任务训练的冗余网络结构；利用新增数据集对冗余网络结构进行训练调整，得到恶意流量分类增量网络，以利用该恶意流量分类增量网络识别并输出流量数据的分类标签。

进一步地，本发明还提供一种小样本恶意流量分类方法，具体包含：

利用上述方法得到恶意流量分类增量网络；

将待分类识别的目标流量输入恶意流量分类增量网络中，以利用恶意流量分类增量网络来获取目标流量的标签分类信息。

本发明的有益效果：

本发明应用剪枝方法寻找冗余网络结构，并根据新增类的困难程度动态分配冗余神经元进行训练，使得网络能够在不额外消耗存储资源的情况下进行增量学习，合理的分配提升新增类分类准确率；同时，通过知识迁移的方式减少模型对旧类的灾难性遗忘，缓解小样本数据训练庞大参数的压力，解决了小样本新增任务与模型待调整的大参数量之间的矛盾，提升了模型分类性能；通过动态重训练冗余神经元策略，能够在轻量化模型结构的同时，有效的运用冗余神经元学习新增类，节省计算资源。并进一步通过试验数据验证，本案方案在多个数据集和设置上的分类准确率优于建立好的基线，且在内存消耗上节省了约50％，能够使小样本类增量任务准确率达到90％以上，具有较好的应用前景。

附图说明：

图1为实施例中基于动态再训练的小样本恶意流量分类增量学习流程示意；

图2为实施例中神经网络类比大脑静默突触示意；

图3为实施例中小样本单任务类增量学习流程示意；

图4为实施例中小样本恶意流量分类增量学习算法原理示意；

图5为实施例中流量预处理过程示意；

图6为实施例中类增量任务数据可视化示意；

图7为实施例中不同方法域内小样本类增量分类任务比较示意；

图8为实施例中域间小样本类增量任务分类表现示意；

图9为实施例中不同增量学习方法分类任务ROC曲线示意；

图10为实施例中不同增量学习方法PR曲线示意；

图11为实施例中类增量任务神经元分配策略示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

深度学习由于具有良好的特征表征能力，近年来在流量分类领域取得了良好的分类效果。然而现有的流量分类技术无法适应在线场景中对任务增量学习的要求，同时，由于恶意流量隐蔽性高，更新速度快等特点导致能够捕获的有标记样本数量匮乏，小样本无法驱动神经网络训练导致模型性能不佳。为此，本发明实施例中，参见图1所示，提供一种基于动态再训练的小样本恶意流量分类增量学习方法，包含：

S101、基于端到端的全卷积神经网络构建恶意流量分类模型，并在全卷积神经网络的每一卷积层之后均添加一层BN层；利用已收集数据集对恶意流量分类模型进行训练，得到小样本恶意流量分类增量学习的初始网络。

S102、冻结初始网络中提取低级输入特征的预设浅层网络参数，利用已知标签的小样本恶意流量数据集对初始网络中其他网络参数进行微调，得到恶意流量分类基础网络。

S103、针对新增标签分类任务对应的新增数据集，依据该新增数据集和已知标签的小样本恶意流量数据集两者样本相似度来计算当前新增标签分类任务所需神经元数量并筛选出恶意流量分类基础网络中新增任务训练的冗余网络结构。

S104、利用新增数据集对冗余网络结构进行训练调整，得到恶意流量分类增量网络，以利用该恶意流量分类增量网络识别并输出流量数据的分类标签。

相较于神经网络，人类在学习的过程中，面对不断增加的新任务，常常能够保持旧任务的记忆能力。由于成年人的大脑中包含大量的“静默突触”，这些神经元之间的连接在未形成新的记忆之前保持着不活跃的状态，因此在形成新记忆时不会忘记旧的记忆。受人类大脑中“静默突触”的启发，如图2所示，本案实施例中，对训练好的神经网络进行剪枝，使其在减轻网络冗余结构的同时，能够为新任务形成“静默神经元”，在新任务到来时，根据新旧任务之间的相似度，为其动态分配“静默神经元”，重训练这些神经元，并更新分类器，使得网络能够适应新任务。同时神经网络还存在一些不活跃的“静默神经元”，等待下一个新任务的到来。对于小样本增量任务，通过运用迁移学习的思想，冻结新旧任务特征提取时公共特征的网络层数，减少网络需要调整的参数，使其适应小样本数据量。

增量学习分为多任务增量学习和单任务增量学习，两类的不同点在于每类任务被分配的分类器不同，多任务学习每类任务单独分给不同的分类器，而单任务学习采用统一的分类器，将整个增量学习过程视为一个任务。本案实施例中，旨在计算资源不充足的小样本条件下研究增量学习，关注重点为单任务学习。同时，将小样本单任务增量学习问题定义如下。假设有一个有标记小样本目标数据集新增小样本任务数据为/>L^t是第t个训练集的类集合，其中/>模型首先在/>上训练和测试，在模型能够拟合目标分类任务后，/>作为新增任务到来，此时模型的测试集为/>分类器需要识别j+k类任务，同时，此时/>数据集不被允许用以联合训练。任务需要解决的挑战为：避免新增任务带来旧任务灾难性遗忘，解决小样本任务分类性能问题，减少完成任务所需的计算资源，单任务小样本增量学习问题如图3和4所示。

可利用从真实网络环境中收集的恶意软件流量公共数据集作为已收集数据集，以对恶意流量分类模型进行训练。针对恶意流量公共数据集，可选取其中N类恶意流量数据作为小样本恶意流量数据集，以利用该小样本恶意流量数据集对初始网络参数进行微调，其中，N大于1的整数。

作为优选实施例，进一步地，依据该新增数据集和已知标签的小样本恶意流量数据集两者样本相似度来计算当前新增标签分类任务所需神经元数量并筛选出恶意流量分类基础网络中新增任务训练的冗余网络结构，具体可设计为包含如下内容：

利用全卷积网络作为源网络，为了使源网络保持良好的特征提取能力，可使用大型数据集训练它，并将其学到的知识通过迁移学习的方式转移给目标数据集和新增任务，以减少小样本数据需要微调的参数量。此时网络对于小样本分类任务存在大量冗余神经元，因此，可对网络进行剪枝操作，并将被剪枝的神经元作为新增任务的储备网络结构。在执行新增任务时，根据新增任务与旧任务的类别相似性进行动态分配，使用被剪枝的神经元用于新任务的训练。

源模型训练阶段，基于1D-CNN的端到端的全卷积恶意流量分类网络作为初始网络，该网络由十层一维卷积层，七层最大池化层组成，采用全卷积网络的目的首先是由于全卷积网络舍去了传统的全连接层，以卷积层代替，这节省了大量的网络所需参数，其次由于全连接层间结构难以改变，这对之后最大限度的剪枝操作并不友好，卷积层间权重共享，连接稀疏，为后续剪枝以及类增量提供了方便。在每一层卷积层后可添加一层BN层，BN层的作用除了传统的防止过拟合，加速模型收敛，其中的缩放因子还被用来评估后续剪枝的滤波器贡献。可设置卷积层的神经元个数设为300，在BN层后添加RELU函数，且每层全连接层后均采取0.05的dropout rate以防止过拟合。网络结构设置的详细超参数如表一所示。使用大型数据集训练初始网络，以训练其良好的特征提取能力，得到良好的起始参数集对于后续对网络进行迁移和剪枝是至关重要的。对初始网络设置30个epoch的训练，学习率为0.01。网络详细参数可如表1所示：

表1网络详细结构及超参数

迁移学习阶段，为了解决恶意流量的小样本问题，在训练针对目标数据集的分类网络时，由于小样本数据集不足以训练大型神经网络，在训练好的初始网络的基础上，可冻结网络的前四层参数，微调其余参数，由于模型的浅层网络提取的常为低级特征，因此此操作并不会影响微调后的分类器性能，然而这能够大大减少数据需要调整的参数量，提升分类网络性能。当面临新增任务时，希望模型能够保持对旧任务的分类能力的同时，训练新增任务，因此在训练时，保持所有旧任务的网络权重，使用其针对旧任务的特征提取能力，与分配给新任务的神经元一起参与重训练，在这个过程中，旧数据集不参与训练，而是转移了其获得的知识。同时，被剪枝的冗余参数权重并未设置为0，而是保持其原本参数，这一做法保证了新增小样本数据在训练分配到的冗余参数时，需要调整的幅度较小，使得小样本数据量能更好的拟合网络参数。

剪枝阶段中，剪枝的目的不仅仅是传统意义上的轻量化网络，而是为了筛选出可以被新增任务训练使用的冗余网络结构。因此，希望在不影响当前任务分类精度的情况下尽可能多的剔除冗余神经元。本案实施例中，仅进行一次网络修剪，这大大节省了修剪开销。使用BN层的缩放因子作为判定神经元重要程度的指标排序神经元，可将分类器准确率下降小于1％作为不影响分类器分类性能的标准，将这部分神经元表示为R，根据经验，将有超过百分之80的神经元被认定为冗余神经元，对这部分神经元根据权重大小排序，以便后续为新增任务分配。此时，使R神经元不参与反向传播，使用小样本数据集对剩余神经元重训练，这是由于剪枝操作对网络结构的改变，需要重新在神经元间建立连接。剪枝完成后，网络将被部署在线上网络设备上，此时旧数据将无法重新调用。

类增量阶段中，针对类增量任务，有通过每次选择当前任务50％或75％的冗余参数作为新增的任务训练，由于冗余参数不断被占用，先到达的参数能够被分配到更多的神经元进行训练，因此这一方法仅当新增任务困难程度由难道易时才有效，然而现实世界中，任务不会有序出现。本案实施例中，按照任务的困难程度动态的匹配任务所需的参数量。为了评估新增任务的困难程度，引入MMD距离，MMD是一种非参数度量，用于在再生核希尔伯特空间中基于核嵌入来度量分布之间的距离，设φ(x)是将每个实例映射到与核k(x_i,x_j)＝φ(x_i)^Tφ(x_j)相关的希尔伯特空间n_s和n_e分别是小样本数据集和新增数据集的样本大小，)为来自域X_s和Y_E中的任意样本，则两个分布的域样本X_s和Y_E，其MMD距离可定义如下：

通过引入MMD距离，可以得到，两个数据集在希尔伯特空间的位置以及距离。可认为，两域距离越近，代表相似度越高。因此，将X_s中代表样本到中心位置的距离，与两数据集相距距离之比作为相似性，为了缓解偏差样本对相似性的影响，选取X_s中与中心位置相距最近和最远的中值作为代表样本的距离。相似性度量方法定义可表示如下：

得到网络的相似性后，根据相似性为当前新增任务分配其所需的神经元数量，表示为：

R_E＝R*[1-W(X_S,Y_E)]

当网络增加了新任务，最后一层卷积层的神经元将重新调整为新的分类数量，同时，新增任务对于分配到的参数需要进行训练，因此，可使用新增数据对网络进行重训练。对于旧任务的神经元，保持其权重不变，此时只有少量的神经元参与训练，将epoch设置为10，学习率为0.01。

随后，每当网络具有新增任务需求时，动态分配及重训练的操作便重新进行一次以适应新增任务，至此网络将在不影响旧任务的前提下，能够动态的分配和调整网络神经元，以完成分类新任务的目标来适应不断变化的现实世界。由于网络较源网络并没有增加结构，且旧数据不必存储，因此，计算资源消耗量小。

进一步地，基于上述的方法，本发明实施例还提供一种基于动态再训练的小样本恶意流量分类增量学习系统，包含：初始训练模块、预训练模块和增量学习模块，其中，

进一步地，基于上述的方法，本发明实施例还提供一种小样本恶意流量分类方法，具体包含：

利用上述方法得到恶意流量分类增量网络；

为验证本案方案有效性，下面结合试验数据做进一步解释说明：

使用四个数据集训练和测试模型，分别为公共数据集USTC-TFC、ISCX VPN-nonVPN、MCFP和自制数据集Self-Made Dataset。

USTC-TFC：数据集包括从真实的网络环境中收集到的恶意软件流量的pcap包。将其作为源数据集训练源网络，以获得良好特征提取能力。

ISCX VPN-nonVPN：该数据集由捕获的不同应用程序产生的流量组成，捕获的数据包被分成不同的pcap文件，选取部分类别的数据。与其他三个数据集不同，该数据集的流量都为普通流量而非恶意流量，因此该数据集被作为来自不同域的小样本增量任务测试方法在域间小样本任务上的表现。

MCFP：MCFP是某大学抓捕的恶意流量数据集，其中包括网络文件、日志、DNS请求等，其形式为pcap格式。选用其中十类恶意流量数据作为小样本恶意流量分类目标和增量任务。

Self-made数据集：自制数据集通过模拟15种木马程序的攻击行为，使用wireshark获取过程中的流量数据包生成，其类型为pcap格式。

为了接近现实条件下小样本数据集规模，三种小样本数据集中的每类数据仅使用100个pcap包作为训练和测试使用。表二呈现所使用的数据集的详细信息和规模。

表2数据集详细信息

预处理过程实现对网络数据的过滤和统一格式，包括流量过滤、流量清理、数据统一，预处理过程如图5所示。首先进行流量过滤，删除捕获的流量中，不包含有效负载的数据包，包括一些TCP段，其中SYN、ACK或FIN标志被设置为1，这些标志代表其为三次握手过程中产生的流量片段，其包含的信息不足以分辨关于生成他们的程序的信息，这些片段将成为混淆分类器的无效样本，因此将其丢弃。流量清理操作整理样本中对于分类无效的信息，包括删除流量数据中的含有的物理链路的信息以太网报头，并以统一替换的方式屏蔽IP地址，防止分类器尝试通过使用IP地址来对数据包进行分类，这种过度拟合对于模型能力的训练并无益处。由于神经网络要求使用固定大小的输入，因此预处理阶段对数据包统一大小，过程包括通过在UDP段头的末尾注入零并使其与TCP头的长度相等，为小于1500的字节向量填充零。为了获得更好的性能，最后通过归一化操作将数据包字节都除以255，即一个字节的最大值，因此所有的输入值都在0到1的范围内来规范化字节向量。

1、灾难性遗忘分析

为了直观的展现本案方案对于拟合新增任务时对旧任务灾难性遗忘的改善，引入T-sne方法将数据在特征空间的分布进行可视化。使用self-made数据集的8类数据作为基类训练模型，训练完成时，8类数据在特征空间的分布如图6中的(a)所示。随后对训练好的模型进行类增量任务，图中星星为类增量任务分布，首先在模型上直接使用新增类样本进行训练，在训练1个epoch和20个epoch时样本在特征空间的分布如(b)所示。使用本案方案对新增类进行神经元分配并重新训练，训练1个epoch和20个epoch后的数据分布在(c)中显示。

通过图6可以看出，最初，基类样本能够很好的被分类，分类准确率达到93.54％。随后，由于旧数据未被储存，直接对新增类进行训练，此时模型将拟合新任务数据作为目标，因此模型无法保持基类样本的特征空间拓扑，可通过图中的(b)可以看到，在1个epoch时，基类样本在特征空间中的分布与新增类发生混淆，然而仍有少量基类能保持其空间拓扑，此时模型准确率下降至22.33％。当模型训练了20个epoch后，基类发生灾难性遗忘，且由于新增类为小样本数据，模型无法完成拟合新类的任务，此时模型准确率低至11.33％。使用本案方案训练新增类任务时，由于分配了额外的神经元训练新增任务，并不会影响训练好的基类的权重。因此，在1个epoch时，基类样本在特征空间中的拓扑能够被维持，基类分类准确率几乎没有下降，模型整体准确率为85.43％，在训练了20个epoch后，模型准确率为91.21％，较基类准确率93.54％仅下降2.33％，有效缓解了灾难性遗忘问题，良好的完成了类增量的任务。实验证明，本案方案能够有效地缓解类增量时灾难性遗忘的问题。

2、小样本增量任务分类表现分析

基于PackNet方法开展，展现本案方案与PackNet方法在相同设置和模型下，在不同数据集上的表现，同时，为了展示灾难性遗忘对于分类准确率的影响，使用新增任务直接训练模型进行对比。对于三类设置，首先使用源数据集预训练模型，并使用模型迁移的方式拟合目标小样本数据集，此时目标小样本数据集为不同数据集的基类数据，随后，对于逐一到来的新增量任务，使用三种不同方法的增量学习设置进行训练，使用相同的训练轮次以及学习率。对于PackNet方法，为了尽可能的提升其准确率，选择50％的迭代剪枝率进行新增任务的训练，训练完毕后测试模型对于基类和新增类的分类性能。

将增量任务与基类任务同属于一个数据集视为同域类增量任务，分别使用预处理后的ISCX VPN-nonVPN数据集、MCFP数据集以及Self-Made数据集随机5类数据作为基类任务，分别并逐一向模型增添增量任务。图7展示本案方案与PackNet方法以及直接训练类增量方法在类增量任务与基类任务同属于一个域时的表现。由图中的折线图可以看出，随着新增任务的增加，直接训练的方式由于无法保持模型对于旧任务的知识，因此，仅新增一类时便出现了严重的灾难性遗忘，准确率仅有11.33％，在之后的新增任务中，灾难性遗忘更加严重，准确率不断下降。PackNet方法由于通过迭代剪枝的方式分配冗余参数，这使得能够分配的参数量不断减少，因此在新增至9类后，模型准确率出现下降，而本案方案在分配神经元时，通过相似度计算动态分配神经元，这与任务到来的先后顺序没有关系，只与任务困难程度有关，因此，准确率始终保持在90％以上。值得注意的是，图中的(a)和(c)中，当类别数量为6时，出现了准确率下降的情况，可认为这是因为小样本数据量无法驱动当前被分配的参数量导致的，而本案方案针对小样本增量任务，进行了两次知识迁移，分别为大型数据集对目标数据集的转移以及目标数据集对于新增任务的知识转移，缓解了小样本数据集对于微调参数量的压力，这进一步证明了本案方案的合理性。

在现实世界中，新增的任务与基类任务并不总是来自相同域，将恶意流量和正常流量作为不同域，测试本案方案与其他两种方法在面临来自不同域的增量任务时的分类准确率表现。使用正常流量ISCX VPN-nonVPN数据集作为基类，将恶意流量MCFP数据集和Self-made数据集中的类分别作为增量任务，测试三种方法在新增五类和新增十类时的分类准确率。图8展示三种方法的准确率以及下降趋势线，当未使用增量学习方式时，模型准确率呈现大幅下降趋势。使用了增量方法后，可以看出当新增五类时，PackNet方法具有一定的竞争力。而当新增十类时，PackNet方法准确率下降明显，使用本案方案对于域间的增量任务准确率下降较缓。这是因为PackNet方法固定的分配神经元数量，当增量任务困难且多时，不合理的分配方式使得分配的神经元难以训练新增任务。本案方案针对不相似的任务能够动态的分配更多的神经元来拟合增量样本，在困难任务上更具有竞争优势。

由以上数据可以表明，本案方案在恶意流量小样本分类基类数据上能够达到93％以上的准确率。在域内小样本增量任务上，新增的五类数据时，平均准确率能达到90％以上。对于域间小样本增量任务，新增五类平均准确率能够达到80％以上，新增十类平均准确率达70％以上，优于建立好的基线。

3、与其他增量方法比较分析

使用self-made小样本数据集的作为基类数据，测试经典的增量方法Icarl方法、EWC方法、PackNet方法以及本案方法在新增五类任务和新增十类增量任务的表现，对于新增类别，采取顺序递增的方式，以观察任务到来的先后顺序对于方法的影响，新增类都为小样本任务。针对Icarl方法，重放基类数据，将其与新增类样本共同训练。对于EWC方法，遵循损失函数增加的正则化项，改写损失函数，将其用于新增类的训练。对于PackNet方法，为使其尽量多的新增任务，选择75％的剪枝率来匹配增量任务。表3和表4展示本案方案与其他类增量方法的性能比较。

表格3新增五类任务时不同方法性能

通过表3可以看出，在少量新增任务到来时，三种方法中，本案方案由于合理的对冗余网络结构进行分配，且经过模型迁移后，小样本数据集需要调整的参数幅度变小，因此准确率达到最高为91.15％。EWC方法仅依靠对参数的校正达到对旧任务不忘的目的，准确率稍显不足，然而EWC方法由于不需要存储旧数据，且仅需对新增任务训练一次，在计算资源的消耗上占有优势。Icarl虽展示出了良好的分类准确率，由于新增任务样本数量较少，使得其分类准确率未能达到最优，同时，由于需要存储旧数据，对计算资源消耗巨大，其内存占用是本案方案的四倍。PackNet因为其在每次新增任务时都需要重新对参数排序剪枝和再训练，计算次数开销较大。本案方案在线上部署之前就进行了排序及剪枝操作，这一做法不进节省了内存占用，因为不需要多次进行参数排序，相较PackNet方法，计算资源也有所节省。

表格4新增十类任务时不同方法性能

表4展示出了随着模型在线时间增长，当更多的类增量任务(新增十类任务)到来时，各个方法的表现。Icarl方法由于需要存储当前分类任务所需的所有数据，因此内存占用和计算资源都急剧增加。然而，该方法的分类准确率为四种方法中最优，达到88.96％。这是由于在任务量逐渐增多后，无论是正则化方法还是基于模型的方法，当前的模型权重都无法兼顾更多量的分类，此时，基于内存的方法占据一定的优势。在类增量任务逐渐变多后，EWC方法由于正则化项无法校正模型参数满足众多新增任务，准确率下降至71.28％。PackNet方法中，由于任务分配的参数逐渐变少，分类准确率开始下降，其当前准确率为79.94％。本案方案在增加十类新增任务时，模型冗余参数基于合理分配策略，能够保持准确率达到87.79％，然而，随着任务不断增多，模型结构变的庞大，计算次数和内存占用逐步增加。

因此，由以上数据可知，在新增五类任务和新增十类任务时，本案方案在保持准确率良好的同时内存占用最低，计算次数也具有一定优势。

为了直观展示四种方法在新增五类任务时的分类表现，为不同方法在基类和新增类任务的分类表现都绘制了ROC曲线并计算了AUC值，同时也绘制了平均ROC曲线来评判方法整体分类性能，如图9所示。ROC曲线的x轴代表假正例率(FPR)，y轴代表真正例率(TPR)，因此曲线越靠近左上角代表当前任务分类器分类性能优越。观察图9可以明显看到，本案方案的ROC曲线更靠近左上角。同时，采取顺序递增类增量任务的方式测试任务到来顺序对于方法分类准确率的影响，可以看到，对于新增类别9，本案方案分类性能优于其他方法，这得益于任务困难度度量策略，使得任务顺序对于本案方案影响较小。同时可发现，PackNet方法分类准确率受任务顺序影响较大，新增任务的准确率随着任务到来时间的增长逐步下降。

另外，当测试样本正负分布不均时，PR曲线比ROC曲线能更有效地反应分类器的好坏，为了全面评价模型，对四种方法对于新增十类的分类任务评估了PR指标。PR曲线中的P代表的是查准率(precision)，R代表的是查全率(recall)，PR图能直观地显示出学习器在样本总体上的查全率、查准率，当查准率和查全率都较高时模型性能较好，因此曲线被期待靠近右上角。同时若一个方法的PR曲线被另一个方法的曲线完全“包住”，则可以断言后者的性能优于前者，若两个方法的的PR曲线发生交叉，则难以一般性地断言两者孰优孰劣。分别对四种方法在模型新增十类时的表现绘制了PR曲线，并计算了均值平均精度mAP如图10。从图10中可以看出，四种方法中，Icarl方法与本案方案在新增十类任务上表现持平，但明显优于EWC和PackNet方法。

4、类增量任务分配策略分析

如图11所示，使用本案方案在进行类增量时，对于不同相似度的任务的分配策略图。纵坐标表示当前层数对不同任务分配的神经元数量，横坐标代表网络的不同层数。由图可以看到，本案方案针对新增类与基类不同相似度时，神经元分配情况。图中，紫色部分为基类任务所需神经元数，当不断有类增量任务到来时，根据类增量任务与基类任务的相似度度量方法，判断该任务所需的神经元数量，在保持旧任务神经元数量及其权重的情况下，分配冗余神经元。因此在这个过程中，网络每层的神经元数量是逐步增加的，这也意味着，新任务的训练不会影响旧任务的分类准确率。如类增量任务5，其与基类相似度不足50％，可认为当前网络结构提取的特征无法有效的分类该任务，因此，在当前网络提取的特征之上，为该任务分配足够的神经元进行训练。而类增量任务3与当前的基类域相似度高，因此为其分配了较少的神经元数量。其中，由于使用卷积层代替全连接层作为分类层，因此第十层即为网络的分类层，可将基类任务定为5分类，随着任务增加，分类层数量逐一增加，这层神经元数代表了当前网络的分类任务数。

综上所述，由于对计算资源的节省，以及对数据隐私性的保护，本案方案基于模型迁移方法能够解决恶意流量小样本问题，其次针对小样本任务的冗余神经元进行剪枝，仿照人脑的“静默突触”结构，将剪枝下来的神经元作为可以为新增类别的训练随时调用的网络结构，在训练新增类时固定旧类权重，能够缓解旧类的灾难性遗忘，解决数据隐私的问题，也没有增加计算资源；摒弃传统方法中按比例分配的策略，根据任务难度动态的分配冗余神经元既使得分配变得合理，也能够保证对于新增任务模型的分类表现不会随着任务到来的顺序或者任务难度产生较大差异。对于类增量任务解决在准确率上无论是相似度较高的域内小样本恶意流量增量任务还是难度较大的域间小样本恶意流量增量任务，相较于传统的类增量方法，本案方案都表现出较好的分类准确率，且在内存占用和计算次数的比较上，均具有一定优势，便于实际应用场景中的部署实施。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于动态再训练的小样本恶意流量分类增量学习方法，其特征在于，包含：

2.根据权利要求1所述的基于动态再训练的小样本恶意流量分类增量学习方法，其特征在于，基于端到端的全卷积神经网络构建恶意流量分类模型，包含：基于一维CNN作为恶意流量分类模型的网络结构，在该网络结构由多个一维卷积层和多个最大池化层组成，每一BN层添加RELU函数。

3.根据权利要求1或2所述的基于动态再训练的小样本恶意流量分类增量学习方法，其特征在于，利用已收集数据集对恶意流量分类模型进行训练，包含：利用从真实网络环境中收集的恶意软件流量公共数据集作为已收集数据集，以对恶意流量分类模型进行训练。

4.根据权利要求1所述的基于动态再训练的小样本恶意流量分类增量学习方法，其特征在于，利用已知标签的小样本恶意流量数据集对初始网络中其他网络参数进行微调，包含：针对恶意流量公共数据集，选取其中N类恶意流量数据作为小样本恶意流量数据集，以利用该小样本恶意流量数据集对初始网络参数进行微调，其中，N大于1的整数。

5.根据权利要求1所述的基于动态再训练的小样本恶意流量分类增量学习方法，其特征在于，依据该新增数据集和已知标签的小样本恶意流量数据集两者样本相似度来计算当前新增标签分类任务所需神经元数量并筛选出恶意流量分类基础网络中新增任务训练的冗余网络结构，包含：

6.根据权利要求5所述的基于动态再训练的小样本恶意流量分类增量学习方法，其特征在于，依据距离计算样本数据集相似度的计算公式表示为：

其中，φ(x)为将每个实例x映射到与核k(x_i,x_j)＝φ(x_i)^Tφ(x_j)相关的希尔伯特空间/>的过程表示，X_s、Y_E分别为小样本恶意流量数据集、新增数据集的域样本，n_s和n_e分别为小样本恶意流量数据集和新增数据集的样本大小，/> )分别为来自域样本X_s和Y_E中的第i个样本。

7.根据权利要求5或6所述的基于动态再训练的小样本恶意流量分类增量学习方法，其特征在于，利用样本数据集相似度及冗余神经元个数来调整新增任务训练所分配神经元数量，调整公式表示为：R_E＝R*[1-W(X_S,Y_E)]，其中，R为认定的不参与反向传播的冗余神经元数，W(X_S,Y_E)为新增数据集和已知标签的小样本恶意流量数据集两者域样本X_s、Y_E的相似度。

8.一种基于动态再训练的小样本恶意流量分类增量学习系统，其特征在于，包含：初始训练模块、预训练模块和增量学习模块，其中，

9.一种小样本恶意流量分类方法，其特征在于，包含如下内容：

利用权利要求1所述的方法得到恶意流量分类增量网络；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1～7任一项所述的方法步骤。