CN114418118A

CN114418118A - 决策能力约束下多源网络流数据预测方法和装置

Info

Publication number: CN114418118A
Application number: CN202210073214.6A
Authority: CN
Inventors: 丁兆云; 张航; 曹得琪; 刘蔚柯; 周鋆; 刘斌; 刘毅; 朱先强; 朱承; 黄松平
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-04-29
Anticipated expiration: 2042-01-21
Also published as: CN114418118B

Abstract

本申请涉及一种决策能力约束下多源网络流数据预测方法和装置。所述方法包括：在网络流数据源部署预训练分类器池，每一个数据源，将预测结果置信度小于阈值的网络流数据作为样本和模型预测结果传输至多源主动学习模型，若当前时刻多源主动学习模型接收到两个以上的网络数据流的样本，通过预构建的多臂老虎机的多源主动学习模型，选择一个样本进行标注，构建评估分类器，利用评估分类器对多源主动学习模型标注的网络数据流样本进行评估，当评估指标大于阈值时，采用样本和真实标签训练在线分类器。采用本方法能够实现专家资源的合理分配。

Description

决策能力约束下多源网络流数据预测方法和装置

技术领域

本申请涉及网络流量分析技术领域，特别是涉及一种决策能力约束下多源网络流数据预测方法和装置。

背景技术

在线主动学习方法都是通过多个学习模型进行查询并进行选择，当模型都采用同一个数据源进行集成学习时，这种选择方法可以通过规模化的决策缩小随机误差,并且有可能达成共识，但是在多源流数据问题中，不同的数据源上部署的模型所报告的样本必然是不同的，并且在网络流量分析问题的背景下，数据源所捕获的信息的重要程度也会有所不同，理想情况下当然是在所有数据源都可以分析所有模型报告的样本，但是专家决策能力是有限的，导致传统主动学习方法无法对多源流数据进行主动学习。

发明内容

基于此，有必要针对上述技术问题，提供一种能够实现多源流数据进行主动学习的决策能力约束下多源网络流数据预测方法和装置。

一种决策能力约束下多源网络流数据预测方法，所述方法包括：

在网络流数据源部署预训练分类器池；其中所述分类器池包括多个训练好的在线分类器，每个网络流数据源中部署一个训练好的在线分类器；

对于每一个数据源，接收当前时刻的多源网络流数据，通过所述在线分类器对所述多源网络流数据进行预测，并且将预测结果置信度小于阈值的网络流数据作为样本和模型预测结果传输至多源主动学习模型；

若当前时刻多源主动学习模型没有接收到网络数据流的样本，则进行到下一时刻，若当前时刻多源主动学习模型接收到一个网络数据流的样本，则对该网络数据流的样本进行标注，若当前时刻多源主动学习模型接收到两个以上的网络数据流的样本，通过预构建的多臂老虎机的多源主动学习模型，选择一个样本进行标注；

构建评估分类器，利用评估分类器对多源主动学习模型标注的网络数据流样本进行评估，当所述评估指标大于阈值时，采用样本和真实标签训练在线分类器。

在其中一个实施例中，还包括：采用增量更新方式训练分类器池，将训练好的所述分类器池中的分类器部署在每个网络流数据源以接收骨干网或者路由器流向的网络数据，并且对所述网络数据进行分类。

在其中一个实施例中，还包括：若当前时刻多源主动学习模型接收到两个以上的网络数据流的样本，通过预构建的多臂老虎机的多源主动学习模型确定主动选择样本的最优化策略问题；

根据UCB1策略求解所述最优化策略问题，得到当前时刻的样本选择策略；

根据所述样本选择策略，选择一个样本进行标注。

在其中一个实施例中，还包括：

通过多源主动学习模型确定单个分类器的最优决策边界为：

其中，h_l ^*表示最优决策边界，h_l表示分类器的决策边界，D表示决策边界的假设空间，(x_t,y_t)表示分类器的输入和输出，loss表示损失；

根据所述最优决策边界，确定单个分类器的误差值为：

其中，

表示实际模型与最优模型之间的误差值；

根据所述误差值，确定多源主动学习模型中所有分类器的误差值为：

根据所有分类器的误差值，确定多源主动学习模型在进行主动学习时的选定策略，根据所述选择策略，构建最优化策略问题的目标函数为：

其中，

表示奖励差值，

表示最优策略的奖励值，

表示待求解策略的奖励值；

根据所述目标函数，得到最优化策略问题为：

其中，Ψ_k为多源部署的第k个分类器，h_k为分类器的决策边界，q_k为单个分类器推荐的网络数据流的样本，o(q_k)为推荐样本的真实标签，MAB为多臂老虎机算法。

在其中一个实施例中，还包括：

根据UCB1策略，构建最小遗憾界为：

其中，b为最小遗憾界，l表示分类器池{1,…,L}中的分类器，r_k表示第k次选择策略；

根据所述最小遗憾界，得到当前时刻的样本选择策略。

在其中一个实施例中，还包括：构建评估分类器，将多源主动学习模型输出的标注和多源网络流数据作为样本输入至所述评估分类器以对所述评估分类器进行训练，得到当前步预测性能；

根据当前步预测性能和上一步预测性能，确定模型奖励值；

当所述模型奖励值大于性能阈值时，输出所述样本和所述标注，根据所述样本和所述标注训练所述分类器池的在线分类器。

一种决策能力约束下多源网络流数据预测装置，所述装置包括：

分类器设置模块，用于在网络流数据源部署预训练分类器池；其中所述分类器池包括多个训练好的在线分类器，每个网络流数据源中部署一个训练好的在线分类器；

流量预测模块，用于对于每一个数据源，接收当前时刻的多源网络流数据，通过所述在线分类器对所述多源网络流数据进行预测，并且将预测结果置信度小于阈值的网络流数据作为样本和模型预测结果传输至多源主动学习模型；

样本标注模块，用于若当前时刻多源主动学习模型没有接收到网络数据流的样本，则进行到下一时刻，若当前时刻多源主动学习模型接收到一个网络数据流的样本，则对该网络数据流的样本进行标注，若当前时刻多源主动学习模型接收到两个以上的网络数据流的样本，通过预构建的多臂老虎机的多源主动学习模型，选择一个样本进行标注；

更新模块，用于构建评估分类器，利用评估分类器对多源主动学习模型标注的网络数据流样本进行评估，当所述评估指标大于阈值时，采用样本和真实标签训练在线分类器。

在其中一个实施例中，所述分类器设置模块还用于采用增量更新方式训练分类器池，将训练好的所述分类器池中的分类器部署在每个网络流数据源以接收骨干网或者路由器流向的网络数据，并且对所述网络数据进行分类。

在其中一个实施例中，所述样本标注模块还用于若当前时刻多源主动学习模型接收到两个以上的网络数据流的样本，通过预构建的多臂老虎机的多源主动学习模型确定主动选择样本的最优化策略问题；根据UCB1策略求解所述最优化策略问题，得到当前时刻的样本选择策略；根据所述样本选择策略，选择一个样本进行标注。

在其中一个实施例中，所述样本标注模块还用于通过多源主动学习模型确定单个分类器的最优决策边界为：

根据所述最优决策边界，确定单个分类器的误差值为：

其中，

表示实际模型与最优模型之间的误差值；

其中，

表示奖励差值，

表示最优策略的奖励值，

表示待求解策略的奖励值；

根据所述目标函数，得到最优化策略问题为：

其中，Ψk为多源部署的第k个分类器，h_k为分类器的决策边界，q_k为单个分类器推荐的网络数据流的样本，o(q_k)为推荐样本的真实标签，MAB为多臂老虎机算法。

上述决策能力约束下多源网络流数据预测方法和装置，每个数据源的网络流量数据实时到达且数据量庞大，将所有数据源的数据聚集处理需要消耗大量的数据传输和存储成本，因此，在每个数据源均部署一个主动学习模型，从而基于多臂老虎机的方式，极大的降低了样本标注的成本，并且同时保证了分类器进行在线分类的准确性。

附图说明

图1为一个实施例中决策能力约束下多源网络流数据预测方法的流程示意图；

图2为一个实施例中决策能力约束下多源网络流数据预测装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种决策能力约束下多源网络流数据预测方法，包括以下步骤：

步骤102，在网络流数据源部署预训练分类器池。

分类器池包括多个训练好的在线分类器，每个网络流数据源中部署一个训练好的在线分类器。

分类器用于对网络流量数据进行分类，由于每个分类器所接收到的网络流数据不同，随着时间的推移，部分分类器可能无法进行准确的网络流数据标签分类，因此需要请求专家知识进行网络流数据的标注，然后利用标注的网络流数据对分类器进行训练，从而实现分类器对网络流数据的实时准确预测。

然而专家知识资源有限，无法实现每个分类器的进行标签标注，因此，需要对专家知识资源进行合理分配。

步骤104，对于每一个数据源，接收当前时刻的多源网络流数据，通过在线分类器对多源网络流数据进行预测，并且将预测结果置信度小于阈值的网络流数据作为样本和模型预测结果传输至多源主动学习模型。

本步骤中，每个数据源，接收当前时刻的多源网络流数据，通过在线分类器对多源网络流数据进行预测，并且将预测结果置信度小于阈值的网络流数据作为样本和模型预测结果传输至多源主动学习模型，从而构建了一种监测机制，保证了分类器结果的准确性。

步骤106，若当前时刻多源主动学习模型没有接收到网络数据流的样本，则进行到下一时刻，若当前时刻多源主动学习模型接收到一个网络数据流的样本，则对该网络数据流的样本进行标注，若当前时刻多源主动学习模型接收到两个以上的网络数据流的样本，通过预构建的多臂老虎机的多源主动学习模型，选择一个样本进行标注。

本步骤中，在只存在一个网络数据流的样本时，可以通过专家知识对该网络数据流的样本进行标注，但是存在两个以上的网络数据流的样本时，无法对每个样本均采用专家知识进行标注，因此，通过预构建的多臂老虎机的多源主动学习模型，选择一个样本进行标注可以减小开销。

多臂老虎机的目标是通过观察在给定机器上玩游戏的结果而最大化累积奖励。当然，与多臂老虎机相关的问题是选择合适的游戏策略。这可以看作是遗憾函数R的最小化，可以表述为使用选定策略s获得的回报之和与使用假设的最优策略获得的回报之和之间的差异。

步骤108，构建评估分类器，利用评估分类器对多源主动学习模型标注的网络数据流样本进行评估，当评估指标大于阈值时，采用样本和真实标签训练在线分类器。

上述决策能力约束下多源网络流数据预测方法中，每个数据源的网络流量数据实时到达且数据量庞大，将所有数据源的数据聚集处理需要消耗大量的数据传输和存储成本，因此，在每个数据源均部署一个主动学习模型，从而基于多臂老虎机的方式，极大的降低了样本标注的成本，并且同时保证了分类器进行在线分类的准确性。

分类模型初始化时，使用已有的含标签网络流量数据，初始化训练分类模。将已有的含标签网络流量数据划分为初始化训练集和初始化测试集V。首先创建L个分类器分别对应于L个数据源，Π＝{Ψ₁,…,Ψ_L}，其中，分类器Ψ使用的学习模型定义为A,这里的分类器使用可以进行增量更新的在线学习模型，既可以使用单分类器模型如霍夫丁树(霍夫丁树)，朴素贝叶斯(Naive Bayes)等，也可使用集成分类器模型如在线Bagging(OnlineBagging)，自适应随机森林(Adaptive Random Forest)等。对于其中每一个分类器Ψ_l，从初始化训练集中随机选取部分数据，训练分类器Ψ_l，之后使用初始化测试集测试模型性能，如果达到了预设的评估性能标准，则分类器Ψ_l会部署至数据源l。如果未达到预设标准，将会继续总初始化训练集中不重复的再随机选取部分数据，继续训练分类器Ψ_l，直到模型达到预设的评估性能标准。重复此过程直到L个分类器初始化完毕。

首先创建多源主动学习评估分类器Ψ_E，分类器池包含多个单分类器，通过提高规模减轻随机误差的，通常比单分类器有更好的预测性能，主动学习评估分类器Ψ_E使用可以进行增量更新的在线学习集成分类器，如在线Bagging(Online Bagging)，自适应随机森林(Adaptive Random Forest)等。使用初始化测试集训练多源主动学习评估分类器Ψ_E。

因此，在一个实施例中，采用增量更新方式训练分类器池，将训练好的分类器池中的分类器部署在每个网络流数据源以接收骨干网或者路由器流向的网络数据，并且对所述网络数据进行分类。

模型部署阶段，初始化训练好的L个分类器Π＝{Ψ₁,…,Ψ_L}分别部署于L个数据源。每一个网络流量数据源

可以定义为一个随时间持续产生网络流量数据的数据流

其中的数据不含有标签信息。以数据源l为例，定义t时刻的模型Ψ_l的决策边界为

此时到达一个新的无标签网络流量数据样本

首先使用部署于该数据源的分类器Ψ_l对该样本进行预测，得到样本属于每个类别的可能性的预测概率

其中x的类别取值空间为C∈{c₁,c₂,…,c_K}，如果最大的类别预测概率大于等于主动学习阈值AL_threshold：

说明模型对于该样本的预测确定程度较高，不需要进一步获取该样本的标签进行主动学习，模型将会继续处理下一个样本。如果样本的最大的类别预测概率小于主动学习阈值AL_threshold，则认为该样本需要进行主动学习，并将该样本和分类器Ψ_l对该样本进行预测的结果

传输到多源主动学习模型。将主动学习策略定义为：

当多源网络流量分类模型运行过程中，多源主动学习模型会不断收到来自不同数据源的需要进行主动学习样本，t时刻,多源主动学习模型收到的来自不同数据源的需要进行主动学习的无标签样本定义为：

其中，l≥0且l≤L

无标签的样本需要进行专家标注，获取样本的真实标签，将标注后的样本用来重新训练模型，这一过程叫做主动学习。主动学习需要消耗专家标注资源和时间，为了节省专家标注资源同时提高模型效率，多源主动学习在每时刻只选择一个样本进行标注，选择其中一个样本并进行专家标注获得其真实标签

后，将该标注后样本

更新多源主动学习评估分类器Ψ_E，并在初始化测试集V上评估更新后的Ψ_E的模型性能。

当在t时刻，Usample(t)中包含的无标签样本的数量u＝0时，则不需要进行专家标注：

若u＝1，则直接对该样本进行标注并评估模型性能。

若u>1，则需要在此时刻进行主动学习标注样本的选择。

在其中一个实施例中，若当前时刻多源主动学习模型接收到两个以上的网络数据流的样本，通过预构建的多臂老虎机的多源主动学习模型确定主动选择样本的最优化策略问题；根据UCB1策略求解所述最优化策略问题，得到当前时刻的样本选择策略；根据样本选择策略，选择一个样本进行标注。

具体的，通过多源主动学习模型确定单个分类器的最优决策边界为：

其中，h_l ^*表示最优决策边界，h_l表示分类器的决策边界，D表示决策边界的假设空间，(x_t,y_t)表示分类器的输入和输出，loss表示损失。

根据最优决策边界，确定单个分类器的误差值为：

其中，

表示实际模型与最优模型之间的误差值；

根据误差值，确定多源主动学习模型中所有分类器的误差值为：

其中，

表示奖励差值，

表示最优策略的奖励值，

表示待求解策略的奖励值。

根据所述目标函数，得到最优化策略问题为：

另外，改进最经典的Upper Confidence Bound(UCB1)策略，UCB1策略可以求解当每个Bandit(分类器中)方差恒定时，接近Ω(logT)的最小遗憾界：

虽然UCB1在解决各种MAB问题上得到了广泛的应用，但它对于集成主动学习是不可行的。假设每个bandit(即分类器)的方差相同对于任何多源流数据模型学习来说都是不现实的。因此，须假定多源流数据分类器池中的分类器具有不同的方差。

因此，在一个实施例中，根据UCB1策略，构建最小遗憾界为：

其中，b为最小遗憾界，l表示分类器池{1,…,L}中的分类器，r_k表示第k次选择策略；根据最小遗憾界，得到当前时刻的样本选择策略。

在其中一个实施例中，构建评估分类器，将多源主动学习模型输出的标注和多源网络流数据作为样本输入至评估分类器以对所述评估分类器进行训练，得到当前步预测性能；根据当前步预测性能和上一步预测性能，确定模型奖励值；当模型奖励值大于性能阈值时，输出样本和标注，根据样本和所述标注训练分类器池的在线分类器。

模型在第k次选择过后，得到的以评估指标m为度量的奖励

定义如下：

其中，m为模型泛化能力的评估指标，可以选用常见的流数据分类评估指标，如精确度，召回率，误警率等。

代表k次选择之后的多源主动学习的评估分类器，

为其模型的决策边界。

则是以评估指标m为度量模型在测试数据集V上的预测性能。因此，模型在k次选择过程中，在不同的臂l(在本发明中为选择不同的多源部署分类器推荐的无标签样本)上的累积奖励定义为：

根据公式

计算选择l带来的模型奖励。

该次的模型奖励

其中

为提前预设的模型性能阈值，将样本

传输至多源部署的在线学习分类器，更新所有多源部署分类器。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种决策能力约束下多源网络流数据预测装置，包括：分类器设置模块202、流量预测模块204、样本标注模块206和更新模块208，其中：

分类器设置模块202，用于在网络流数据源部署预训练分类器池；其中所述分类器池包括多个训练好的在线分类器，每个网络流数据源中部署一个训练好的在线分类器；

流量预测模块204，用于对于每一个数据源，接收当前时刻的多源网络流数据，通过所述在线分类器对所述多源网络流数据进行预测，并且将预测结果置信度小于阈值的网络流数据作为样本和模型预测结果传输至多源主动学习模型；

样本标注模块206，用于若当前时刻多源主动学习模型没有接收到网络数据流的样本，则进行到下一时刻，若当前时刻多源主动学习模型接收到一个网络数据流的样本，则对该网络数据流的样本进行标注，若当前时刻多源主动学习模型接收到两个以上的网络数据流的样本，通过预构建的多臂老虎机的多源主动学习模型，选择一个样本进行标注；

更新模块208，用于构建评估分类器，利用评估分类器对多源主动学习模型标注的网络数据流样本进行评估，当所述评估指标大于阈值时，采用样本和真实标签训练在线分类器。

在其中一个实施例中，样本标注模块206还用于若当前时刻多源主动学习模型接收到两个以上的网络数据流的样本，通过预构建的多臂老虎机的多源主动学习模型确定主动选择样本的最优化策略问题；根据UCB1策略求解所述最优化策略问题，得到当前时刻的样本选择策略；根据所述样本选择策略，选择一个样本进行标注。

在其中一个实施例中，样本标注模块206还用于通过多源主动学习模型确定单个分类器的最优决策边界为：

根据所述最优决策边界，确定单个分类器的误差值为：

其中，

表示实际模型与最优模型之间的误差值；

其中，

表示奖励差值，

表示最优策略的奖励值，

表示待求解策略的奖励值；

根据所述目标函数，得到最优化策略问题为：

在其中一个实施例中，样本标注模块206还用于根据UCB1策略，构建最小遗憾界为：

根据所述最小遗憾界，得到当前时刻的样本选择策略。

在其中一个实施例中，更新模块208还用于构建评估分类器，将多源主动学习模型输出的标注和多源网络流数据作为样本输入至所述评估分类器以对所述评估分类器进行训练，得到当前步预测性能；

根据当前步预测性能和上一步预测性能，确定模型奖励值；

关于决策能力约束下多源网络流数据预测装置的具体限定可以参见上文中对于决策能力约束下多源网络流数据预测方法的限定，在此不再赘述。上述决策能力约束下多源网络流数据预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种决策能力约束下多源网络流数据预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种决策能力约束下多源网络流数据预测方法，其特征在于，所述方法包括：

若当前时刻多源主动学习模型没有接收到网络数据流的样本，则进行到下一时刻，若当前时刻多源主动学习模型接收到一个网络数据流的样本，则对该网络数据流的样本进行标注，获得样本的真实标签，若当前时刻多源主动学习模型接收到两个以上的网络数据流的样本，通过预构建的多臂老虎机的多源主动学习模型，选择一个样本进行标注；

2.根据权利要求1所述的方法，其特征在于，所述在网络流数据源部署预训练分类器池，包括：

采用增量更新方式训练分类器池，将训练好的所述分类器池中的分类器部署在每个网络流数据源，接收流经路由器或终端的网络数据，并且对所述网络数据进行分类。

3.根据权利要求1所述的方法，其特征在于，若当前时刻多源主动学习模型接收到两个以上的网络数据的样本，通过预构建的多臂老虎机的多源主动学习模型，选择一个样本进行标注，包括：

若当前时刻多源主动学习模型接收到两个以上的网络数据流的样本，通过预构建的多臂老虎机的多源主动学习模型确定主动选择样本的最优化策略问题；

根据所述样本选择策略，选择一个样本进行标注。

4.根据权利要求3所述的方法，其特征在于，所述通过预构建的多臂老虎机的多源主动学习模型确定主动选择样本的最优化策略问题，包括：

通过多源主动学习模型确定单个分类器的最优决策边界为：

根据所述最优决策边界，确定单个分类器的误差值为：

其中，

表示实际模型与最优模型之间的误差值；

其中，

表示奖励差值，

表示最优策略的奖励值，

表示待求解策略的奖励值；

根据所述目标函数，得到最优化策略问题为：

其中，Ψ_k为多源部署的第k个分类器，h_k为分类器的决策边界，q_k为单个分类器推荐的网络数据流的样本，o(q_k)为推荐样本的真实标签，MAB为多臂老虎机算法策略。

5.根据权利要求4所述的方法，其特征在于，所述根据UCB1策略求解所述多臂老虎机优化问题，得到当前时刻的样本选择策略，包括：

根据UCB1策略，构建最小遗憾界为：

根据所述最小遗憾界，得到当前时刻的样本选择策略。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述构建评估分类器，利用评估分类器对多源主动学习模型标注的网络数据流样本进行评估，当所述评估指标大于阈值时，采用样本和真实标签训练在线分类器，包括：

构建评估分类器，将多源主动学习模型输出的标注和多源网络流数据作为样本输入至所述评估分类器以对所述评估分类器进行训练，得到当前步预测性能；

根据当前步预测性能和上一步预测性能，确定模型奖励值；

7.一种决策能力约束下多源网络流数据预测装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述分类器设置模块还用于采用增量更新方式训练分类器池，将训练好的所述分类器池中的分类器部署在每个网络流数据源以接收骨干网或者路由器流向的网络数据，并且对所述网络数据进行分类。

9.根据权利要求7所述的装置，其特征在于，所述样本标注模块还用于若当前时刻多源主动学习模型接收到两个以上的网络数据流的样本，通过预构建的多臂老虎机的多源主动学习模型确定主动选择样本的最优化策略问题；根据UCB1策略求解所述最优化策略问题，得到当前时刻的样本选择策略；根据所述样本选择策略，选择一个样本进行标注。

10.根据权利要求9所述的装置，其特征在于，所述样本标注模块还用于通过多源主动学习模型确定单个分类器的最优决策边界为：