CN112422590B

CN112422590B - 基于主动学习的网络流量分类方法及装置

Info

Publication number: CN112422590B
Application number: CN202110093806.XA
Authority: CN
Inventors: 刘蔚柯; 朱承; 刘青宝; 丁兆云
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-04-27
Anticipated expiration: 2041-01-25
Also published as: CN112422590A

Abstract

本发明公开了一种基于主动学习的网络流量分类方法及装置，包括：离线训练过程：在历史积累的网络流量数据集上对初始化训练得到的网络流量分类模型进行多轮次的主动学习和性能评估，直至达到预设评估要求，输出达到预设评估要求的网络流量分类模型，并结束离线训练过程；在线预测过程：利用离线训练过程获得的网络流量分类模型对实时网络流量数据进行在线预测，同时对网络流量分类模型自身进行在线主动学习。本发明基于主动学习的网络流量分类方法，在降低人力物力开销的同时，能够保证网络流量分类模型很好的分类性能，且基于主动学习训练获得的网络流量分类模型特别适用于不平衡网络流量数据的分类预测。

Description

基于主动学习的网络流量分类方法及装置

技术领域

本发明属于网络流量管理领域，具体是涉及到一种基于主动学习的网络流量分类方法及装置。

背景技术

随着互联网行业的快速发展和应用创新的突飞猛进，网络流量的类型多样性、演变性和复杂性都随着新型网络应用及网络协议的不断涌现而日益增长，同时网络运营服务商和网络监管部门对了解网络流量构成、实施网络差异化服务，以及净化网络环境等诉求也愈来愈多。因此，如何对源源不断的未知网络流量进行准确分类，支持快速再分配网络资源，从而提高网络资源的利用率和客户个性化服务的满意度是当前网络流量管理领域面临的一大挑战，迫切需要提出新的高效网络流量分类方法，以满足网络运营服务商和网络监管部门对网络服务与管理的新需求。

现有基于传统机器学习的网络流量分类方法，分类性能很大程度上依赖于基于包特征或者基于流特征的设计。这些传统方法一方面需要大量带有真实标签的训练样本来训练分类器，但获取大量真实标签需要耗费大量人力及物力，且一旦发生类型演变，往往会导致原先训练得到的分类器性能急剧降低。另一方面，随着新型网络应用层出不穷，流量类型不断出新，各种类型的流量占比总在动态演化，而传统方法往往偏向于不平衡流量中的大类数据，易于忽略新型网络应用在初期阶段所产生的小类流量数据，更难以识别伪装善变的恶意流量数据，这种恶意流量数据虽然占比小但危害大，是网络监管的重点目标。

发明内容

本发明的目的是克服现有技术存在的上述问题，提供一种基于主动学习的网络流量分类方法及装置。

基于上述目的，第一方面，本发明提供一种基于主动学习的网络流量分类方法，包括基于主动学习的网络流量分类模型离线训练过程和基于主动学习的网络流量分类模型在线预测过程，

所述基于主动学习的网络流量分类模型离线训练过程，包括：

获取初始化训练样本集，通过预设的有监督学习算法对初始化训练样本集进行有监督学习，得到初始网络流量分类模型；

根据获取的历史网络流量数据集，对所述初始网络流量分类模型进行预设总标签请求比例下的主动学习；

获取主动学习过程中随机标签请求策略得到的性能评估样本集，并根据所述性能评估样本集进行模型分类预测性能评估，以得到离线评估结果；

检测离线评估结果是否达到预设评估要求；

在所述离线评估结果达到预设评估要求时，获得达到所述预设评估要求的网络流量分类模型，并结束所述基于主动学习的网络流量分类模型离线训练过程；

所述基于主动学习的网络流量分类模型在线预测过程，包括：

获取离线训练得到的所述网络流量分类模型，并获取实时网络流量数据；

通过所述网络流量分类模型对所述实时网络流量数据进行在线分类预测，获得分类预测结果；同时对所述网络流量分类模型进行所述预设总标签请求比例下的主动学习；

获取主动学习过程中所述随机标签请求策略得到的所述性能评估样本集，并在预设时间周期内进行模型分类预测性能评估，以得到周期性评估结果；

根据所述周期性评估结果和所述预设评估要求判断是否按照所述预设时间周期输出所述网络流量分类模型。

优选地，所述基于主动学习的网络流量分类模型离线训练过程，还包括：

在所述离线评估结果未达到预设评估要求时，对未达到所述预设评估要求的所述网络流量分类模型进行下一轮的主动学习，直至检测到所述离线评估结果达到所述预设评估要求，获得达到所述预设评估要求的网络流量分类模型，并结束所述基于主动学习的网络流量分类模型离线训练过程。

优选地，所述通过预设的学习算法对初始化训练得到的网络流量分类模型进行预设总标签请求比例下的主动学习，包括：

通过所述网络流量分类模型，对不包含流量类型标签的网络流量数据进行分类预测，得到预测结果数据；所述预测结果数据为包含预测类型标签的网络流量数据；

判断所述预测结果数据是否被混合标签请求策略选中；所述混合标签请求策略为由随机标签请求策略、不确定性标签请求策略和选择性标签请求策略组合的标签请求策略；

若所述预测结果数据被混合标签请求策略选中，则请求人工标注类型，以获得同时包含预测类型标签和真实类型标签的训练样本；若判断到是被混合标签请求策略中的所述随机标签请求策略选中，则将获得的训练样本复制为性能评估样本插入至预设缓存滑窗中；否则，将预设占位符插入至预设缓存滑窗中；

若所述预测结果数据未被混合标签请求策略选中，则将预设占位符插入至预设缓存滑窗中；

基于所述预设缓存滑窗计算所述网络流量数据的各种流量类型的不平衡率，并获得不平衡率向量；

根据所述不平衡率向量和所述训练样本的预测难度获得所述训练样本的训练权重，并获得赋权后的训练样本；

根据赋权后的所述训练样本对所述网络流量分类模型进行训练学习，以更新所述网络流量分类模型。

优选地，所述基于所述预设缓存滑窗计算所述网络流量数据的各种流量类型的不平衡率，并获得不平衡率向量，包括：

获得所述预设缓存滑窗中的所述性能评估样本的数量；

通过计算所述预设缓存滑窗中的各种真实类型的标签数量与所述性能评估样本的数量的商值，得到各种所述真实类型的占比值；

通过计算各种所述真实类型的占比值与流量类型总数之间的乘积值，得到各种所述真实类型的不平衡率，并组合得到不平衡率向量。

优选地，所述根据所述不平衡率向量和所述训练样本的预测难度获得所述训练样本的训练权重，并获得赋权后的训练样本，包括：

对t时刻的所述训练样本进行数学描述，训练样本为

，其中

为所述网络流量数据

的预测类型，

为所述网络流量数据

的真实类型；

获取所述网络流量分类模型对所述网络流量数据

进行预测时，在所述预测类型

上的预测概率

，以及在所述真实类型

上的预测概率

，计算

与

之间的差值

；

根据所述差值

计算所述训练样本

的预测难度

，所述预测难度

的计算公式为：

；

根据所述训练样本

的真实类型

，在所述不平衡率向量中获得真实类型

的不平衡率

；

根据所述训练样本

的真实类型的不平衡率

和所述预测难度

，计算所述训练样本

的训练权重

，所述训练权重

的计算公式为：

。

优选地，所述判断所述预测结果数据是否被混合标签请求策略选中，包括：

判断所述预测结果数据是否被所述随机标签请求策略选中；

若所述预测结果数据未被所述随机标签请求策略选中，则判断所述预测结果数据是否被所述不确定性标签请求策略选中；

若所述预测结果数据未被所述不确定性标签请求策略选中，则判断实际标签请求比例是否达到所述预设总标签请求比例；

若实际标签请求比例未达到所述预设总标签请求比例，则判断所述预测结果数据是否被所述选择性标签请求策略选中；

若所述预测结果数据未被所述选择性标签请求策略中选中，则确定所述预测结果数据未被所述混合标签请求策略中的任意一种标签请求策略选中。

优选地，所述判断所述预测结果数据是否被所述随机标签请求策略选中，包括：

产生第一随机数；

检测所述第一随机数是否小于所述随机标签请求策略中的预设随机标签请求比例；

若所述第一随机数小于预设随机标签请求比例，则确定所述预测结果数据被所述随机标签请求策略选中；

若所述第一随机数大于或等于预设随机标签请求比例，则确定所述预测结果数据未被所述随机标签请求策略选中。

优选地，所述判断所述预测结果数据是否被所述不确定性标签请求策略选中，包括：

获取所述网络流量分类模型对所述网络流量数据进行预测时，在所述预测类型上的预测概率，并从所述不确定性标签请求策略中的不确定性阈值向量中获取所述预测类型对应的不确定性阈值；

判断在所述预测类型上的预测概率是否小于对应的不确定性阈值；

若在所述预测类型上的预测概率小于对应的不确定性阈值，则确定所述预测结果数据被所述不确定性标签请求策略选中；同时对所述预测类型对应的不确定性阈值按照预设收缩因子进行缩减调整；

若在所述预测类型上的预测概率大于或等于对应的不确定性阈值，则所述预测结果数据未被所述不确定性标签请求策略选中。

优选地，所述对所述预测类型对应的不确定性阈值按照预设收缩因子进行缩减调整，采用的调整公式为：

，

其中，

为所述预测类型

对应的不确定性阈值；

为所述预设收缩因子，且

；

为与所述预测类型

相关的参数。

优选地，所述判断所述预测结果数据是否被所述选择性标签请求策略选中，包括：

计算选择阈值；

产生第二随机数，检测所述第二随机数是否小于所述选择阈值；

若所述第二随机数小于所述选择阈值，则确定所述预测结果数据被所述选择性标签请求策略选中；

若所述第二随机数大于或等于所述选择阈值，则确定所述预测结果数据未被所述选择性标签请求策略选中。

优选地，所述计算选择阈值，包括：

通过计算已请求标签的实际次数与总的预测次数之间的商值，得到实际标签请求比例；

通过计算预设总标签请求比例与实际标签请求比例之间的差值，得到标签请求比例余量；

通过计算在所述预测类型上的预测概率与对应的不确定性阈值之间的差值，得到选择因子；

根据所述标签请求比例余量和所述选择因子计算选择阈值，所述选择阈值的计算公式为：

，

其中，

为所述选择阈值，

为所述标签请求比例余量，

为所述选择因子。

第二方面，本发明提供一种基于主动学习的网络流量分类装置，包括离线训练模块和在线预测模块，

离线训练模块包括：

初始化训练单元，用于获取初始化训练样本集，通过预设的有监督学习算法对初始化训练样本集进行有监督学习，得到初始网络流量分类模型；

离线学习单元，用于根据获取的历史网络流量数据集，对所述初始网络流量分类模型进行预设总标签请求比例下的主动学习；

离线评估单元，用于获取主动学习过程中随机标签请求策略得到的性能评估样本集，并根据所述性能评估样本集进行模型分类预测性能评估，以得到离线评估结果；

评估检测单元，用于检测离线评估结果是否达到预设评估要求；

模型输出单元，用于在所述离线评估结果达到预设评估要求时，获得达到所述预设评估要求的网络流量分类模型，并结束所述基于主动学习的网络流量分类模型离线训练过程；

在线预测模块包括：

模型获取单元，用于获取离线训练得到的所述网络流量分类模型，并获取实时网络流量数据；

在线学习单元，用于通过所述网络流量分类模型对所述实时网络流量数据进行在线分类预测，获得分类预测结果；同时对所述网络流量分类模型进行所述预设总标签请求比例下的主动学习；

周期性评估单元，用于获取主动学习过程中所述随机标签请求策略得到的所述性能评估样本集，并在预设时间周期内进行模型分类预测性能评估，以得到周期性评估结果；

周期性输出单元，用于根据所述周期性评估结果和所述预设评估要求判断是否按照所述预设时间周期输出所述网络流量分类模型。

综上所述，本发明提供的基于主动学习的网络流量分类方法及装置，针对不平衡流量数据，在离线训练过程中，在历史积累的网络流量数据集上对初始化训练得到的网络流量分类模型在预设总标签请求比例下进行多轮次的主动学习和性能评估，直至检测到分类预测结果达到预设评估要求，输出达到预设评估要求的网络流量分类模型，并结束离线训练过程。在线预测过程，通过学习得到的网络流量分类模型对实时获得的网络流量数据进行在线预测的同时，对网络流量分类模型自身进行在线主动学习。本发明提供的基于主动学习的网络流量分类方法，相较于现有的基于传统机器学习技术的网络流量预测性能分类方法，在降低人力物力开销的同时，能够保证网络流量分类模型很好的分类性能；此外，基于主动学习训练获得的在网络流量分类模型，特别适用于不平衡网络流量的分类预测，能够准确地识别新型网络应用所产生的小类流量数据，能够有效地应对网络流量类型的演变问题以及识别伪装善变的恶意流量数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中提供的基于主动学习的网络流量分类方法的流程图一；

图2为本发明一实施例中提供的基于主动学习的网络流量分类方法的流程图二；

图3为本发明一实施例中提供的基于主动学习的网络流量分类方法的流程图三；

图4为本发明一实施例中提供的基于主动学习的网络流量分类方法的流程图四；

图5为本发明一实施例中提供的基于主动学习的网络流量分类方法的流程图五；

图6为本发明一实施例中提供的基于主动学习的网络流量分类方法的流程图六；

图7为本发明一实施例中提供的基于主动学习的网络流量分类装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明实施例提供了一种基于主动学习的网络流量分类方法，该方法包括主动学习的网络流量分类模型离线训练过程和基于主动学习的网络流量分类模型在线预测过程；

基于主动学习的网络流量分类模型离线训练过程，具体包括：

步骤S101，获取初始化训练样本集，通过预设的有监督学习算法对初始化训练样本集进行有监督学习，得到初始网络流量分类模型。

在本实施例中，初始化训练样本集包含预设数量的历史网络流量数据及其对应的真实类型标签，其中预设数量可以根据需求进行设置，例如500个。网络流量分类模型训练学习所采用的算法为自适应随机森林算法（Adaptive Random Forest，ARF），该算法是一种集成学习算法，其采用的基学习器为ARF霍夫丁树（ARF Hoeffding Tree）。在另一实施例中，网络流量分类模型集成学习所采用的算法是采用霍夫丁树（Hoeffding Tree）为基学习器的LB (Leveraging Bagging)算法。

具体的，首先获取原先积累下来的历史网络流量数据集，并从历史网络流量数据集中随机选取预设数量的历史网络流量数据，然后分别对每一个随机选取得到的历史网络流量数据进行流量类型人工标注，以获得每一个随机选取得到的历史网络流量数据的真实标签类型，进而生成初始化训练样本集，最后通过预设的自适应随机森林算法ARF对初始化训练样本集进行有监督学习，得到初始网络流量分类模型。

步骤S102，根据获取的历史网络流量数据集，对初始网络流量分类模型进行预设总标签请求比例

下的主动学习。

在本实施例中，可以将网络流量数据集建模为数据流的形式，也即将网络流量数据集建模为由大量的包含时间戳的数据按照时间有序组成的序列，网络流量数据集可以表示为

，其中

为t时刻的网络流量数据，且可以将不包含流量类型标签的网络流量数据表示为

，将包含真实类型标签的网络流量数据表示为

，将包含预测类型标签的网络流量数据表示为

，将同时包含真实类型标签和预测类型标签的网络流量数据表示为

。

作为优选，步骤S102中对初始网络流量分类模型进行预设总标签请求比例

下的主动学习的过程具体包括：

步骤一，通过初始网络流量分类模型，对不包含流量类型标签的网络流量数据

进行分类预测，得到预测结果数据；预测结果数据为包含预测类型标签的网络流量数据

。

步骤二，判断预测结果数据

是否被混合标签请求策略选中；混合标签请求策略为由随机标签请求策略、不确定性标签请求策略和选择性标签请求策略组合的标签请求策略。

步骤三，若预测结果数据

被混合标签请求策略选中，则请求人工标注类型，以获得同时包含预测类型标签和真实类型标签的训练样本

；若进一步判断到是被混合标签请求策略中的随机标签请求策略选中，则将获得的训练样本

复制为性能评估样本

插入至预设缓存滑窗中；否则，将预设占位符插入至预设缓存滑窗中

步骤四，若预测结果数据

未被混合标签请求策略选中，则将预设占位符插入至预设缓存滑窗中。

步骤五，基于预设缓存滑窗计算网络流量数据的各种流量类型的不平衡率，并获得不平衡率向量

。其中，

为流量类型总数，

为第

个流量类型

的不平衡率

，且

。

步骤六，根据不平衡率向量

和训练样本

的预测难度

获得训练样本

的训练权重

，并获得赋权后的训练样本

。

步骤七，根据赋权后的训练样本

对初始网络流量分类模型进行训练学习，得到更新的网络流量分类模型。

在本实施例中，对初始网络流量分类模型进行预设总标签请求比例

下的主动学习的过程可以参考步骤S301至步骤S307。

步骤S103，获取主动学习过程中随机标签请求策略得到的性能评估样本集，并根据性能评估样本集进行模型分类预测性能评估，以得到离线评估结果。

在本实施中，预设总标签请求比例根据人力和/或物力约束条件进行设置，且预设总标签请求比例

大于随机标签请求策略中的预设随机标签请求比例

。其中，随机标签请求策略为混合标签请求策略中的一种标签请求策略。例如，预设总标签请求比例

设置为10%，随机标签请求策略中的预设随机标签请求比例

设置为5%。

具体的，利用主动学习过程中随机标签请求策略得到的性能评估样本集，对主动学习获得的网络流量分类模型的分类预测性能进行评估，并获得离线评估结果。性能评估样本集中包含的每一个网络流量数据均具有预测类型标签和真实类型标签。

步骤S104，检测离线评估结果是否达到预设评估要求。

步骤S105，在离线评估结果达到预设评估要求时，获得达到预设评估要求的网络流量分类模型，并结束基于主动学习的网络流量分类模型离线训练过程。而在离线评估结果未达到预设评估要求时，对未达到预设评估要求的网络流量分类模型进行下一轮的主动学习，直至检测到离线评估结果达到预设评估要求，获得达到预设评估要求的网络流量分类模型，并结束基于主动学习的网络流量分类模型离线训练过程。

在本实施例中，离线评估结果包含两个或两个以上的分类预测性能评估指标，相应地，预设评估要求包含两个或两个以上的预设评估指标阈值，分类预测性能评估指标包括但不限于准确率和召回率。

具体的，检测离线评估结果是否达到预设评估要求，也即检测离线评估结果中的各个分类预测性能评估指标是否达到对应的预设评估指标阈值，若离线评估结果中的各个分类预测性能评估指标达到对应的预设评估指标阈值，则确定离线评估结果达到预设评估要求，则输出达到预设评估要求的网络流量分类模型，并结束离线训练过程；而若离线评估结果中存在任意一个分类预测性能评估指标未达到对应的预设评估指标阈值，则确定离线评估结果达到预设评估要求，则进行下一轮的主动学习——离线评估——达标检测。

基于主动学习的网络流量分类模型在线预测过程，具体包括：

步骤S201，获取离线训练得到的网络流量分类模型，并获取实时网络流量数据。

也即，获取基于主动学习的网络流量分类模型离线训练过程输出的网络流量分类模型，同时在线实时采集网络中的网络流量数据。

步骤S202，通过网络流量分类模型对实时网络流量数据进行分类预测，获得分类预测结果；同时对网络流量分类模型进行预设总标签请求比例

下的主动学习。

在本实施例中，分类预测结果为包含预测类型标签的网络流量数据。通过对网络流量分类模型进行预设总标签请求比例

下的主动学习的过程如步骤S301至步骤S307。

步骤S203，获取主动学习过程中随机标签请求策略得到的性能评估样本集，并在预设时间周期内进行模型分类预测性能评估，以得到周期性评估结果。

具体的，周期性地利用主动学习过程中随机标签请求策略得到的性能评估样本集，对网络流量分类模型的分类预测性能进行评估，将分类预测性能评估指标作为周期性评估结果输出。在本实施例中，预设时间周期可以根据需求进行设置，例如预设时间周期设置为24小时（1天）。

步骤S204，根据周期性评估结果和预设评估要求判断是否按照预设时间周期输出网络流量分类模型。

具体的，检测周期性评估结果是否达到预设评估要求，也即检测周期性评估结果中的各个分类预测性能评估指标是否达到对应的预设评估指标阈值，若周期性评估结果中的各个分类预测性能评估指标均达到对应的预设评估指标阈值，则确定周期性评估结果达到预设评估要求，按照预设时间周期输出网络流量分类模型；而若周期性评估结果中的任意一个分类预测性能评估指标未达到对应的预设评估指标阈值，则确定周期性评估结果未达到预设评估要求，加大主动学习过程中的预设总标签请求比例，从而增加网络流量分类模型的在线学习机会。其中，每次加大主动学习过程中的预设总标签请求比例

的增幅为1%。作为优选，主动学习过程中得到的网络流量分类模型（也即达到预设评估要求的网络流量分类模型）特别适用于对不平衡网络流量数据进行分类预测。

在一实施例中，如图2所示，步骤S202中对网络流量分类模型进行预设总标签请求比例

下的主动学习，具体包括：

步骤S301，通过网络流量分类模型，对不包含流量类型标签的网络流量数据

进行分类预测，得到预测结果数据。其中，预测结果数据为包含预测类型标签的网络流量数据

。

步骤S302，判断预测结果数据

是否被混合标签请求策略选中。其中，混合标签请求策略为由随机标签请求策略、不确定性标签请求策略和选择性标签请求策略组合的标签请求策略。

步骤S303，若预测结果数据

；若判断到是被混合标签请求策略中的随机标签请求策略选中，则将获得的训练样本

复制为性能评估样本

插入至预设缓存滑窗中；否则，将预设占位符插入至预设缓存滑窗中。

步骤S304，若预测结果数据

具体的，若判断到预测结果数据

被混合标签请求策略中的任意一种标签请求策略选中，则需要请求网络流量数据标注专家对预测结果数据

进行人工标注类型，并获取网络流量数据标注专家返回的同时包含预测类型标签和真实类型标签的训练样本

。而若判断到预测结果数据

未被混合标签请求策略中的任意一种标签请求策略选中，则将预设占位符插入到预设缓存滑窗中。可选地，预设占位符为空的占位符。

进一步的，若确定预测结果数据

被混合标签请求策略中的随机标签请求策略选中，则将根据随机标签请求策略选中获得的训练样本

复制为性能评估样本

插入到预设缓存滑窗中；若确定预测结果数据

不是被混合标签请求策略中的随机标签请求策略选中，也即被混合标签请求策略中的不确定性标签请求策略或选择性标签请求策略选中，则将预设占位符插入到预设缓存滑窗中。

在本实施例中，预设缓存滑窗用于存储性能评估样本

，且预设缓存滑窗的大小可以根据空闲存储空间大小和实际需求进行设置。

步骤S305，基于预设缓存滑窗，计算网络流量数据的各种流量类型的不平衡率，并获得不平衡率向量

。其中，

为流量类型总数，

为第

个真实类型

的不平衡率

，且

。

作为优选，步骤S305具体包括：

步骤一，获得预设缓存滑窗中的性能评估样本

的数量

。

步骤二，通过计算预设缓存滑窗中的各种真实类型的标签数量与性能评估样本

的数量

的商值，得到各种真实类型的占比值

。

步骤三，通过计算各种真实类型的占比值

与流量类型总数

之间的乘积值，得到各种真实类型

的不平衡率

，也即

，得到不平衡率向量

，其中

。也即，根据所有真实类型

的不平衡率

，可以组合得到不平衡率向量

。

可理解的，根据流量类型

的不平衡率

可以判断流量类型的属性，其中，流量类型的属性包括平均类、大类以及小类。可理解的，若流量类型

的不平衡率为

=1，则判定流量类型

是平均类；若

>1，则判定流量类型

是大类；若

<1，则判定流量类型

是小类。

步骤S306，根据不平衡率向量

和训练样本的预测难度

获得训练样本

的训练权重

，并获得赋权后的训练样本

。

作为优选，步骤S306具体包括：

步骤一，对t时刻的训练样本进行数学描述，训练样本具体表示为

，其中

为网络流量数据

的预测类型，

为网络流量数据

的真实类型。

步骤二，获取网络流量分类模型对网络流量数据

进行预测时，在预测类型

上的预测概率

，以及在真实类型

上的预测概率

，计算

与

之间的差值

。其中，差值

具体表示为：

=

-

。

步骤三，根据差值

计算训练样本

的预测难度

。其中，预测难度

的计算公式具体表示为：

。

步骤四，根据训练样本

的真实类型

，在不平衡率向量

中获得真实类型

的不平衡率

。

步骤五，根据训练样本

的真实类型的不平衡率

和预测难度

，计算训练样本

的训练权重

。其中，训练权重

的计算公式具体表示为：

。

步骤S307，根据赋权后的训练样本

对网络流量分类模型进行训练学习，以更新网络流量分类模型。

在本实施例中，针对不平衡网络流量数据，首先通过网络流量分类模型对不平衡网络流量数据进行分类预测，得到预测结果数据

，然后基于混合标签请求策略获得训练样本

，并基于训练样本

的真实类型的不平衡率

和预测难度

计算训练权重

，最后根据赋权后的训练样本

训练网络流量分类模型，得到更新的网络流量分类模型。本实施例中的主动学习训练得到的网络流量分类模型，特别适用于不平衡网络流量数据的分类预测，能够准确地识别新型网络应用中所产生的小类流量数据，能够有效地应对流量类型的概念漂移问题以及识别伪装善变的恶意流量类型。

在一可选实施例中，如图3所示，步骤S302，也即判断预测结果数据

是否被混合标签请求策略选中，具体包括以下：

步骤S401，判断预测结果数据

是否被随机标签请求策略选中。

步骤S402，若预测结果数据

未被随机标签请求策略选中，则判断预测结果数据

是否被不确定性标签请求策略选中。

步骤S403，若预测结果数据

未被不确定性标签请求策略选中，则判断标签请求比例是否达到预设总标签请求比例。

步骤S404，若标签请求比例未达到预设总标签请求比例，则判断预测结果数据

是否被选择性标签请求策略选中。

步骤S405，若预测结果数据

未被选择性标签请求策略中的选中，则确定预测结果数据未被混合标签请求策略中的任意一种标签请求策略选中。

可理解的，若预测结果数据

被随机标签请求策略、不确定性标签请求策略和选择性标签请求策略中的任意一种标签请求策略选中，则确定预测结果数据

被混合标签请求策略选中，此时需要请求人工标注类型，以获得同时包含预测类型标签和真实类型标签的训练样本

。而若预测结果数据

未被混合标签请求策略选中，此时无需请求人工标注类型。

在一可选实施例中，如图4所示，步骤S401，也即判断预测结果数据

是否被随机标签请求策略选中，具体包括：

步骤S4011，产生第一随机数

。

步骤S4012，检测第一随机数

是否小于随机标签请求策略中的预设随机标签请求比例

。其中，随机标签请求策略中的预设随机标签请求比例

小于预设总标签请求比例

。

步骤S4013，若第一随机数

小于预设随机标签请求比例

，则判定预测结果数据

被随机标签请求策略选中。

步骤S4014，若第一随机数

大于或等于预设随机标签请求比例

，则确定预测结果数据

未被随机标签请求策略选中。

也即，判断不等式

<

是否成立，若不等式

<

成立，则确定预测结果数据

被随机标签请求策略选中，若不等式

<

成立，也即

，则确定预测结果数据

未被随机标签请求策略选中。

在一可选实施例中，如图5所示，步骤S402中判断预测结果数据

是否被不确定性标签请求策略选中，具体包括：

步骤S4021，获取网络流量分类模型对网络流量数据

进行预测时，在预测类型

上的预测概率

，并从不确定性标签请求策略中的不确定性阈值向量

中获取预测类型

对应的不确定性阈值为

，也即有

。

步骤S4022，判断在预测类型

上的预测概率

是否小于对应的不确定性阈值

。

步骤S4023，若在预测类型

上的预测概率

小于对应的不确定性阈值

，则确定预测结果数据

被不确定性标签请求策略选中；同时对预测类型

对应的不确定性阈值

按照预设收缩因子

进行缩减调整。

步骤S4024，若在预测类型

上的预测概率

大于或等于对应的不确定性阈值

，则预测结果数据

未被不确定性标签请求策略选中。

步骤S4023中，对预测类型

对应的不确定性阈值

按照预设收缩因子

进行缩减调整。可选地，采用的调整公式为：

，

其中，

为不确定性阈值

的收缩因子，

为与预测类型

Claims

1.一种基于主动学习的网络流量分类方法，其特征在于，包括基于主动学习的网络流量分类模型离线训练过程和基于主动学习的网络流量分类模型在线预测过程，

检测离线评估结果是否达到预设评估要求；

根据所述周期性评估结果和所述预设评估要求判断是否按照所述预设时间周期输出所述网络流量分类模型；

其中，所述对所述网络流量分类模型进行所述预设总标签请求比例下的主动学习，包括：

根据赋权后的所述训练样本对所述网络流量分类模型进行训练学习，以更新所述网络流量分类模型；

其中，所述根据所述不平衡率向量和所述训练样本的预测难度获得所述训练样本的训练权重，并获得赋权后的训练样本，包括：

对t时刻的所述训练样本进行数学描述，训练样本为

，其中

为所述网络流量数据

的预测类型，

为所述网络流量数据

的真实类型；

获取所述网络流量分类模型对所述网络流量数据

进行预测时，在所述预测类型

上的预测概率

，以及在所述真实类型

上的预测概率

，计算

与

之间的差值

；

根据所述差值

计算所述训练样本

的预测难度

，所述预测难度

的计算公式为：

；

根据所述训练样本

的真实类型

，在所述不平衡率向量中获得真实类型

的不平衡率

；

根据所述训练样本

的真实类型的不平衡率

和所述预测难度

，计算所述训练样本

的训练权重

，所述训练权重

的计算公式为：

。

2.根据权利要求1所述的基于主动学习的网络流量分类方法，其特征在于，所述基于主动学习的网络流量分类模型离线训练过程，还包括：

3.根据权利要求1所述的基于主动学习的网络流量分类方法，其特征在于，所述基于所述预设缓存滑窗计算所述网络流量数据的各种流量类型的不平衡率，并获得不平衡率向量，包括：

获得所述预设缓存滑窗中的所述性能评估样本的数量；

4.根据权利要求1所述的基于主动学习的网络流量分类方法，其特征在于，所述判断所述预测结果数据是否被混合标签请求策略选中，包括：

判断所述预测结果数据是否被所述随机标签请求策略选中；

5.根据权利要求4所述的基于主动学习的网络流量分类方法，其特征在于，所述判断所述预测结果数据是否被所述随机标签请求策略选中，包括：

产生第一随机数；

6.根据权利要求4所述的基于主动学习的网络流量分类方法，其特征在于，所述判断所述预测结果数据是否被所述不确定性标签请求策略选中，包括：

7.根据权利要求6所述的基于主动学习的网络流量分类方法，其特征在于，所述对所述预测类型对应的不确定性阈值按照预设收缩因子进行缩减调整，采用的调整公式为：

，

其中，

为所述预测类型

对应的不确定性阈值；

为所述预设收缩因子，且

；

为与所述预测类型