CN111652268A

CN111652268A - 一种基于重采样机制的不平衡流数据分类方法

Info

Publication number: CN111652268A
Application number: CN202010323458.6A
Authority: CN
Inventors: 彭浩宇; 王勋; 任思琪; 张颖
Original assignee: Zhejiang Huying Technology Co ltd; Zhejiang Gongshang University
Current assignee: Zhejiang Huying Technology Co ltd; Zhejiang Gongshang University
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-09-11

Abstract

本发明公开了一种基于重采样机制的不平衡流数据分类方法，本发明通过周期性更新机制可以同时处理多种类型的概念漂移；在先前模型的更新过程中始终强调易错分类的样本和小样本；在重采样过程中同时考虑了概念漂移和复杂数据分布的影响；为了限制模型的时间和空间花销，集成框架中只保留最新若干基础分类器，在最终对测试样本的标签进行分类时，综合考虑了所有基础分类器和候选分类器的预测结果，并进行加权。每个先前基础分类器的权重取决于其分类性能，而候选分类器的权重只取决于当前的类别分布，有效地避免使用交叉验证机制，可以保证方法的实时性，还可以提高模型对突变型概念漂移处理的效率。

Description

一种基于重采样机制的不平衡流数据分类方法

技术领域

本发明属于动态流数据分类技术领域，尤其涉及一种基于重采样机制的不平衡流数据分类方法。

背景技术

在传统的数据挖掘领域，需要对所有的数据进行存储。同时，传统的数据挖掘模型需要多次访问每个数据项。因此，通过批处理的方式可以获得较为精确的数据挖掘模型。然而，在流数据挖掘领域，数据是连续不断地产生并且到达的速度很快。基于流数据建立的分类模型已经被广泛用于机器学习、数据挖掘和模型识别等领域中。在每个时间步，数据流中有限的信息可以拿来训练流数据分类模型，不能有效地使用先前时刻的样本。因此，数据流分类模型只能得到近似的预测结果。

传统的数据挖掘模型旨在提取稳定数据分布中样本的信息。然而，数据流模型中的数据分布是动态变化的，其中的数据项是实时产生的，这种现象被称为概念漂移。动态数据流挖掘已经被用于信用卡欺诈以及网络入侵检测等领域中。数据流分类模型需要不断地使用最新的样本进行模型更新甚至重建，以适应新的数据流环境。潜在的数据分布变化可以被分为突变型、渐变型、增量型和重现型的概念漂移。现实的数据流应用中往往会同时含有多种类型的概念漂移，然而，大部分已经存在的数据流分类方法往往只用于解决某一特定类型的概念漂移。因此，设计一种可以同时处理多类型概念漂移的流数据分类算法是十分必要的。

除了概念漂移和实时性，类别不平衡问题也是数据流挖掘领域中一个十分重要的问题。对于二元分类问题，类别不平衡学习问题意味着某一类别样本的数量少于另一类别样本的数量，其中数据量较多的样本被称为大样本，另一类别的样本被称为小样本。传统的分类方法不具有任何类别不平衡处理机制，其往往对大样本具有较高的分类性能，而对小样本具有较低的识别率。不平衡分类算法被分为三大类：数据层次的方法、算法层次的方法和代价敏感性方法。除了不平衡率，分类模型的降低还取决于数据复杂因素，例如子概念、离群点和类别重叠问题。然而，许多不平衡分类研究忽略了复杂数据分布对于模型训练的影响。数据流中的小样本被分为安全样本、边界样本、离群点样本以及稀有样本四大类。后三类小样本被统称为不安全小样本，模型很难对其进行学习，需要在模型训练时重点分析。

发明内容

为了弥补现有的不平衡流数据分类方法的不足，本发明旨在提供一种基于重采样机制的不平衡流数据分类方法，该方法可以快速、有效地处理类别不平衡和概念漂移的联合问题。

本发明的目的是通过以下技术方案实现的：一种基于重采样机制的不平衡流数据分类方法，包括：

(1)构建流数据二元分类的集成模型，集成模型包括候选分类器和若干基础分类器；

(2)将数据流基于时间戳划分成若干等大小的数据块，数据块中两个类别的样本数量差值较大，即每个数据块中样本的类别分布是不平衡的；

(3)将数据块中的样本分为训练集和测试集两部分，训练集用于训练候选分类器，测试集用于评估模型的预侧能力，即分类性能；

(4)在当前的训练数据块中，使用过采样机制平衡当前的类别分布，获取类别分布平衡的训练数据块，进而训练得到候选分类器；其中，用于过采样的小样本来自于先前的训练数据块；

(5)使用最新样本周期性地更新已保留的先前基础分类器；由于最新样本的数据分布最为接近未来不久的数据分布，因此该周期性更新机制可以使得集成模型较快地适应最新的动态环境，可以同时应对多类型的概念漂移；

(6)使用分段加权机制赋予每个已保留的基础分类器一个权值，权重取决于其对最新训练数据块所有样本的分类性能；对于候选分类器，直接赋予其最高权重；

(7)使用基于性能的剪枝技术去除若干权重最小即性能最差的基础分类器；因为只保留性能最好的若干基础分类器，去除集成框架中权重最小的一定量的基础分类器，可以提高集成模型的运行和存储效率，可以使得集成模型较快地适应新的数据流环境；

(8)对剪枝后的所有基础分类器和候选分类器进行加权，实现对测试样本的类别预测。

进一步地，在数据块中样本的类别分布是不平衡的，某一类别样本的数量少于另一类别样本的数量，该类别的样本为小样本，另一类别的样本为大样本，二元分类即判定一个测试样本属于小类还是大类。

进一步地，所述步骤(4)中，使用先前数据块中保留的小样本过采样当前的小类集；只保留最新若干数据块中的小样本用于过采样过程，同时考虑概念漂移和复杂数据分布对过采样机制的影响，优先选择与当前数据分布一致且安全的小样本用于平衡当前数据块的类别分布。

进一步地，所述步骤(5)中，周期性更新机制赋予当前训练数据块中的所有样本一个更新权重，即该样本用于更新先前基础分类器的概率，赋予易分错的样本较高的更新权重，更新周期取决于数据块的大小。

进一步地，所述步骤(5)中，样本更新权重的计算如下：

w(x_i)＝w_c(x_i)*w_l(x_i)

其中，w(x_i)是样本x_i的更新权重，w_c(x_i)是样本x_i的代价权重，w_l(x_i)是样本x_i的类别权重；更新权重取决于样本x_i的错分类代价和先前基础分类器对其的分类性能；

为大样本x_i的初始化代价权重，若x_i是小样本，则其初始化代价权重为

其中Z₀为代价权重的归一化参数，IR_t为候选训练数据块的不平衡率；样本x_i的代价权重不断地更新，更新规则采用boosting算法中样本的权重更新机制；w_l(x_i)的值取决于样本x_i的类别和当前的类别分布，如果x_i为小样本，则w_l(x_i)＝1/Z_w，否则w_l(x_i)＝IR_t/Z_w，其中，Z_w为类别权重的归一化参数。

进一步地，所述步骤(6)中，对于先前的基础分类器，其权重计算如下：

其中，

为第j个非候选分类器的权重，MSE_j为第j个非候选分类器对当前训练数据的分类错误率；

为随机预测的均方误差，取决于当前的类别分布；y_m是样本的类别标签，p(y_m)是y_m的类别分布；

对于候选分类器，其权重

进一步地，所述步骤(7)中，当集成成员的数量超过预定义阈值时，从集成模型中去除一个性能最差的基础分类器，从而降低时间和空间花销，提高集成模型对突变漂移的处理能力。

本申请还提出了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述不平衡流数据分类方法。

本申请还提出了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述不平衡流数据分类方法。

本发明产生的有益效果是：目前已存在的相关研究的不足主要有两方面。一方面，他们往往只能处理某一特定类型的概念漂移。本发明提出的方法通过周期性更新机制可以同时处理多种类型的概念漂移。同时，在先前模型的更新过程中始终强调易错分类的样本和小样本。另一方面，大部分相关的研究忽略了复杂数据分布对分类任务的影响。本发明提出的方法在重采样过程中同时考虑了概念漂移和复杂数据分布的影响。首先，需要评估过去小样本与当前小类集的相似度，从而避免在当前数据块中引入概念漂移。然后，样本的选择权重还考虑了样本的安全系数，复杂类型的样本具有较低的概率用于平衡当前的类别分布。为了限制模型的时间和空间花销，集成框架中只保留了一定数量的基础分类器，在最终对测试样本的标签进行分类时，综合考虑了所有基础分类器的预测结果，并进行加权。每个先前基础分类器的权重取决于其分类性能，而候选分类器的权重只取决于当前的类别分布，有效地避免使用交叉验证机制，可以保证方法的实时性，还可以提高模型对突变型概念漂移处理的效率。

附图说明

图1为本发明实施例的基于重采样机制的不平衡流数据分类方法流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

尽管概念漂移和类别不平衡问题都已经被广泛地研究，但是处理二者联合问题的方法还很少，但该研究已经同时引起了学术界和工业界的广泛关注。如果数据流的类别分布不平衡，则概念漂移问题会更加复杂化。同时，大部分相关的研究忽略了复杂数据分布对于类别不平衡数据流学习的影响。为了解决这些问题，本发明提出了一个集成分类模型用于学习不平衡动态流数据，其结合了重采样技术和周期性更新技术。在基于数据块的框架下，使用一个基于选择的重采样机制，同时考虑了概念漂移样本和复杂类型的样本，从而可以平衡当前数据块的类别分布。然后，使用最新的样本周期性地更新先前的集成成员，且每个样本被赋予一个更新权重，易错分的小样本被强调。周期性更新机制使得集成模型可以同时处理多类型的概念漂移。

本发明提出的基于重采样机制的不平衡流数据分类方法，具体过程可以分为4个阶段：

在第一个阶段，数据流基于时间戳被划分成等大小的数据块。为了降低模型的内存花销，只保留最近若干数据块中的小样本用于过采样机制。然后，使用选择性重采样机制从过去已保留的小类集中选取一部分合适的子集用以平衡最新的类别分布，即重采样当前的小类集合，获得扩展候选数据块。从而，在扩展候选数据块上建立候选分类器。

在第二个阶段，评估计算每个基础分类器的权重，为了限制时间和空间的花销，当集成框架中的基础分类器个数超过一个预定义的阈值时，则使用基于性能的剪枝技术去除集成框架中性能最差的基础分类器。

在第三个阶段，使用最新的样本周期性地更新先前的集成成员。因此，集成模型可以应对多种类型的概念漂移。最新的样本被赋予更新权重，其中错分类小样本的更新权重较高，用以更新先前集成成员的概率较高。

在第四个阶段，使用加权集成的方式，综合使用每个已保留的基础分类器的预测结果，对测试样本的标签进行预测。

以下对本发明提出的基于重采样机制的不平衡流数据分类方法的实现过程进行进一步详细说明，如图1所示，本发明包括以下步骤：

1)在本发明中，提出一个流数据二元分类模型(即集成分类模型，包括候选分类器和若干基础分类器)。数据流基于时间戳被划分成一系列的等大小的数据块。在当前数据块中，某一类别样本的数量少于另一类别样本的数量，该类别的样本被称为小样本。即每个数据块中样本的类别分布是不平衡的。

2)每个划分得到的数据块被分为训练集和测试集两部分，其中训练集用于训练候选分类器和评估已保留基础分类器的权重。测试集用来评估模型的分类性能。

3)候选分类器是由最新的训练数据块训练得到的。为了提高候选分类器对小样本的分类性能，本发明提出了一种选择性重采样技术。即使用先前数据块中保留的小样本过采样当前的小类集(即最新的训练数据块中的小样本集合)。通常假定最新的样本是当前和未来不久数据分布的最好代表，为了降低空间和时间花销，只保留最近一定量数据块中的小样本用于过采样过程。同时，需要同时考虑概念漂移和复杂数据分布对过采样机制的影响，赋予每个已保留的过去小样本一个选择权重。选择权重越高，意味着该小样本用以过采样的概率越大。

4)基于过采样机制，可以获取类别分布平衡的扩展的候选训练数据块。因此，基于扩展的候选训练数据块，可以获得候选分类器。因此，可以增强候选分类器对小样本的分类性能，同时不会显著降低其对大样本的识别率。

5)现实的数据流应用往往同时包含多种类型的概念漂移，本发明提出一种周期性更新机制，即使用最新的样本周期性地更新集成分类模型中已保留的先前基础分类器。通过这种方式，集成分类模型可以较快地适应新的数据流环境。为了提高模型对易分错样本的识别能力，赋予易分错的样本较高的更新权重，则具有较高的概率用于更新过去的基础分类器。

6)使用分段加权机制赋予每个已保留的基础分类器一个权值。对于先前的基础分类器，权重取决于其对最新训练数据块所有样本的分类性能。对于候选分类器，直接赋予其最高的权重，而不考虑其分类性能，从而可以有效地避免交叉验证的过程。

7)为了降低集成分类模型的时间和空间代价，使用基于性能的剪枝技术去除若干性能最差的基础分类器。由于及时去除了性能较差的基础分类器，可以提高模型对突变型漂移处理的速度。

8)在评估得到每个已保留基础分类器的权重之后，可以实现对测试样本的类别预测。预测结果综合考虑了所有集成成员的预测值，并对他们进行了加权，从而可以保证集成分类器的泛化能力。

进一步地，步骤1)中，划分好的数据块中样本的类别分布是不平衡的。

进一步地，步骤2)中，每个数据块中的样本被划分成两个集合，即训练集和测试集。

进一步地，步骤3)中，为了限制集成分类模型的内存花销，只保留最新若干数据块中的小样本。同时，并不是所有的小样本都能提高候选分类器的性能。一般地，复杂类型的小样本以及漂移样本会复杂化模型训练的难度。一方面，需要评估先前某个小样本与当前小类集的距离(可以采用马氏距离)，相似度越大则距离越小，被选中用以过采样的概率越大。另一方面，基于先前小样本的安全系数，赋予复杂样本较低的选择权重。基于过采样机制可以获得类别分布平衡的扩展数据块，基于扩展数据块训练得到的候选分类器对小样本的分类性能得到一定的提升，并且不会显著减低其对大样本的分类能力。

进一步地，步骤4)中，使用扩展训练数据块训练得到一个候选分类器。

进一步地，步骤5)中，赋予每个当前训练数据块中的所有样本一个更新权重，即用于更新先前基础分类器的概率。基于先前的基础分类器(非候选分类器)对当前样本的分类性能(分类性能即分类器的准确度)，其中易分错的样本被赋予较高的更新权重(即样本被分错的次数越多，则更新权重越大)。周期性更新机制一方面可以使得集成模型可以同时处理多类型的概念漂移，另一方面可以使得模型的性能不依赖于数据块的大小。更新周期取决于数据块的大小。

样本的更新权重描述着该样本用以更新先前基础分类器的概率，计算如下：

w(x_i)＝w_c(x_i)*w_l(x_i)

其中，w(x_i)是样本x_i的更新权重，w_c(x_i)是样本x_i的代价权重，w_l(x_i)是样本x_i的类别权重。更新权重取决于样本x_i的错分类代价和先前基础分类器对其的分类性能。

其中Z₀为代价权重的归一化参数，IR_t为候选训练数据块的不平衡率。然后，样本x_i的代价权重不断地更新，更新规则采用了boosting算法中样本的权重更新机制。w_l(x_i)的值取决于样本x_i的类别和当前的类别分布，如果x_i为小样本，则w_l(x_i)＝1/Z_w，否则w_l(x_i)＝IR_t/Z_w，其中，Z_w为类别权重的归一化参数。

进一步地，步骤6)中，由于数据流的实时性要求，为了提高模型的分类效率，使用一个分段函数机制评估基础分类器的权重。通常假定最新数据块中的数据分布最为接近未来不久的数据分布，因此用该数据块训练得到的候选分类器的性能往往是最好的。因此，候选分类器可以直接被赋予一个最高的权重，而不考虑其分类性能，而先前已保留的基础分类器的权重取决于其对当前环境的预测能力。通过这种分段加权机制，可以有效地避免使用交叉验证机制。一方面，可以提高模型的效率，保证模型的实时性；另一方面，可以较快地处理突变型的概念漂移。

对于先前的基础分类器，其权重计算如下：

其中，

为第j个非候选分类器的权重，MSE_j为第j个非候选分类器对当前训练数据的分类错误率。

为随机预测的均方误差，取决于当前的类别分布。y_m是样本的类别标签，p(y_m)是y_m的类别分布。

对于候选分类器，其权重

计算如下：

进一步地，步骤7)中，去除集成分类模型中权重最小的若干基础分类器，当集成成员的数量超过一个预定义的阈值时，则需要从集成分类模型中去除一个性能最差的基础分类器。基于性能的集成剪枝技术在一定程度上降低了时间和空间花销。同时，由于去除了已经过时的成员，还可以提高模型对突变漂移的处理能力。

进一步地，步骤8)中，集成分类模型对于测试样本标签的预测取决于所有已保留的基础分类器的预测结果，通过综合这些分类结果并加权，可以对测试样本的标签进行分类，保证了集成分类模型具有较高的泛化能力。

本发明提出的不平衡流数据分类方法可以应用于多个领域，以下以网络入侵领域为例进行说明，但不限于此：网络中的数据可以看作是连续不断到达的流数据，由空间分布的许多自动装置来监控某些指标，从而组成庞大的计算机网络系统。在网络入侵检测领域，入侵类的样本往往远远少于正常类的样本，因此网络入侵检测问题可以转变为流数据的不平衡二元分类问题。其中，入侵类属于小类，另一类属于大类。最终分类器的预测结果即判定一个样本是否属于网络入侵类。

本发明提出的基于重采样机制的不平衡流数据分类方法，该方法可以同时处理概念漂移和类别不平衡问题。首先，通过使用先前数据块重采样当前的小类集，可以训练得到性能较好的候选分类器。在选择性过采样过程中，需要考虑数据复杂因素和概念漂移因素。通过评估先前小样本与当前小类集的相似度，可以避免在候选数据块中引入概念漂移样本。然后，基于数据复杂因素赋予每个过去小样本一个更新权重，权重越高被选中用以过采样的概率越大。其次，通过动态调节基础分类器的权重，可以适应缓慢变化的概念漂移。为了避免使用交叉验证机制以保证方法的实时性，赋予候选分类器较高的权重，而不考虑其分类性能，可以较好地适应突变型概念漂移。大部分已经存在的数据流分类算法只能应对某一特定类型的概念漂移，然而现实的数据流应用中往往同时含有多种类型的概念漂移。本发明提出的流数据分类方法通过周期性地更新先前的基础分类器，可以较快地适应新的数据流环境。由于最新数据块中的数据分布是默认最为接近未来的数据分布的，因此周期性更新机制使得模型可以较快地处理各种类型的概念漂移。同时，每个新样本被赋予一个更新权重，取决于模型对其的分类性能，更新权重较高的样本用以更新先前基础分类器的概率越高。本发明提出的不平衡流数据分类方法综合了基于数据块的集成分类器和在线集成分类器的机制。由于先前的数据块在周期性更新过程中被不断地扩充，该方法的分类性能将不依赖于预定义的数据块大小。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于重采样机制的不平衡流数据分类方法，其特征在于，包括：

(2)将数据流基于时间戳划分成若干等大小的数据块；

(3)将数据块中的样本分为训练集和测试集。

(4)在当前的训练数据块中，使用过采样机制平衡当前的类别分布，获取类别分布平衡的训练数据块，进而训练得到候选分类器；用于过采样的小样本来自于先前的训练数据块；

(5)使用最新样本周期性地更新已保留的先前基础分类器。

(6)使用分段加权机制赋予每个已保留的基础分类器一个权值，权重取决于其对最新训练数据块所有样本的分类性能；对于候选分类器，直接赋予其最高权重。

(7)使用基于性能的剪枝技术去除若干权重最小的基础分类器。

2.根据权利要求1所述的一种基于重采样机制的不平衡流数据分类方法，其特征在于，数据块中样本的类别分布是不平衡的，某一类别样本的数量少于另一类别样本的数量，该类别的样本为小样本，另一类别的样本为大样本，二元分类即判定一个样本属于小类还是大类。

3.根据权利要求1所述的一种基于重采样机制的不平衡流数据分类方法，其特征在于，所述步骤(4)中，使用先前数据块中保留的小样本过采样当前的小类集；只保留最新若干数据块中的小样本用于过采样过程，同时考虑概念漂移和复杂数据分布对过采样机制的影响，优先选择与当前数据分布一致且安全的小样本用于平衡当前数据块的类别分布。

4.根据权利要求1所述的一种基于重采样机制的不平衡流数据分类方法，其特征在于，所述步骤(5)中，周期性更新机制赋予当前训练数据块中的所有样本一个更新权重，即该样本用于更新先前基础分类器的概率，赋予易分错的样本较高的更新权重，更新周期取决于数据块的大小。

5.根据权利要求4所述的一种基于重采样机制的不平衡流数据分类方法，其特征在于，所述步骤(5)中，样本更新权重的计算如下：

w(x_i)＝w_c(x_i)*w_l(x_i)

6.根据权利要求1所述的一种基于重采样机制的不平衡流数据分类方法，其特征在于，所述步骤(6)中，对于先前的基础分类器，其权重计算如下：

其中，

对于候选分类器，其权重

7.根据权利要求1所述的一种基于重采样机制的不平衡流数据分类方法，其特征在于，所述步骤(7)中，当集成成员的数量超过预定义阈值时，从集成模型中去除一个性能最差的基础分类器，从而降低时间和空间花销，提高集成模型对突变漂移的处理能力。

8.一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的不平衡流数据分类方法。

9.一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的不平衡流数据分类方法。