CN108764322A

CN108764322A - 一种基于概念漂移的流数据集成分类方法和装置

Info

Publication number: CN108764322A
Application number: CN201810495123.5A
Authority: CN
Inventors: 耿玉水; 张建国; 鲁芹; 孙涛; 刘嵩; 王新刚; 赵晶
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2018-11-06

Abstract

本发明公开了一种基于概念漂移的流数据集成分类方法和装置，包括以下步骤：获取多个包括有类标和无类标样本数据的数据块；根据类标对多个所述数据块中的每个类别训练单类基分类器；根据多个所述数据块对应的单类基分类器，构建集成分类矩阵；当新的数据块到达时，对集成分类矩阵进行更新，并对无类标样本计算类标。本发明能较大程度在可接受的时间复杂度内，解决数据流频繁且动态式的概念漂移，保证分类精准度的同时，应对数据流实时分类处理的问题。

Description

一种基于概念漂移的流数据集成分类方法和装置

技术领域

本发明属于海量序列数据分类领域，尤其涉及一种基于概念漂移的流数据集成分类方法和装置。

背景技术

流数据是一种海量且快速到达的序列数据，关于流数据的数据挖掘近年来得到很大的应用，关于流数据的分类方法也有很大的研究，传统的单分类器在处理静态的无隐含的概念漂移的情况下，有一定的处理效率，但是面对动态变化的数据流分类精准度不高。采用组合的方式集成多个个体分类器能有效监测数据流随着时间变化而产生的概念漂移，常用的集成分类方法有水平方式的集成和垂直方式的集成，分别具备高分类精准度和概念漂移的处理能力，二者优缺点互补，无法兼顾。SEA算法把数据流分块处理，分别在数据块上训练数据，采用加权投票的方式决定分类标号，这种方法应对概念漂移现象有一定的优势，缺点是当概念漂移现象产生的时候，需要重复率较高地重新训练块内的数据，耗费大量的时间。实例加权方法算法(EWAMDS)，通过动态调整基础分类器的权重，提高基础分类器的分类适应性。该算法时间复杂度过高，不适合实时处理数据流。CVFDT算法利用滑动窗口机制来提高算法精度，可是窗口过大或者过小都会对分类精准度造成很大影响，且处理概念漂移的能力不足。

如何有效解决概念漂移，并且保证分类精度和效率，是本领域技术人员目前迫切解决的技术问题。

发明内容

为克服上述现有技术的不足，本发明提供了一种使用单类基分类器设计模式的，且能有效应对概念漂移现象的集成分类方法，该方法将流数据分块训练，数据中的每个类别分别训练基分类器，根据一种优化策略实时更新数据块以便处理概念漂移的情况。在基础分类器的集成方法上，通过更新每个基础分类器的权重来判断失效的基分类器，从而更新集成分类器。本发明能较大程度在可接受的时间复杂度内，解决数据流频繁且动态式的概念漂移，保证分类精准度的同时，应对数据流实时分类处理的问题。

为实现上述目的，本发明采用如下技术方案：

一种基于概念漂移的流数据集成分类方法，包括以下步骤：

获取多个包括有类标和无类标样本数据的数据块；

根据类标对多个所述数据块中的每个类别训练单类基分类器；

根据多个所述数据块对应的单类基分类器，构建集成分类矩阵；

当新的数据块到达时，对集成分类矩阵进行更新，并对无类标样本计算类标。

进一步地，在数据块的每个类别中，通过特征向量之间的近邻密度来判断发生概念漂移的样本。

进一步地，根据单类基分类器的精度和在集成分类器中停留的时间计算权重。

进一步地，单类基分类器：

其中，表示的是第t个数据块类别1对应的基分类器的分类正确率，z表示该基分类器在分类器矩阵中停留的时间。

进一步地，所述集成分类矩阵建立的具体步骤是：

基于设定数目数据块的基分类器建立初始的集成分类矩阵；

计算所述集成分类矩阵中每个基分类器的权重，并得到权重均值；

若所述集成分类器中存在权重小于权重均值的基分类器，则淘汰该分类器，并引入新的数据块训练基分类器，得到新的集成分类器，更新每个基分类器的权重和权重均值，再次执行判断。

进一步地，对没有类标的新样本通过加权投票方法计算类标号。

进一步地，加权投票方法公式如下：

其中，c_l是对应的类标号。

进一步地，所述方法还包括：根据分类结果更新基分类器权重。

根据本发明的第二目的，本发明还提供了一种基于概念漂移的流数据集成分类装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的分类方法。

根据本发明的第三目的，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的分类方法。

本发明的有益效果

本发明针对流数据的分类处理提出了一种具有概念漂移监测机制的、基于单类基分类器的集成分类方法。集成分类器随着新数据块的到来，将旧的单类基分类器采用新训练的进行更新，从而保证了分类精度；每个单类基分类器训练过程中，均对发生概念漂移的样本剔除，从而解决了数据流频繁且动态式的概念漂移；因而本发明是一种能兼顾正确率和差异性的自适应集成方法，理论分析和实验结果均表明此算法在包含突变式和混合式的概念漂移的数据集上具有明显优势，能在兼顾分类准确率的同时，很好地应对概念漂移现象。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明的集成分类方法实现流程图；

图2为本发明集成分类方法流程框架图；

图3为本发明在数据集上验证出的分类精准度和其他的几种分类算法的精准度对比；

图4为本发明在几种数据集上的应用效果和几种经典的方法对比图；

图5为本发明在处理流数据集上检测出的分类时间代价对比图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于概念漂移的流数据集成分类方法，如图1所述，包括以下步骤：

实施例采用四个数据集：SEA数据集、Convertype数据集、HyperPlane数据集、Electricity数据集。实施例均采用了大规模数据在线分析平台MOA。使用数据流生成器模拟数据流，且将数据流分块处理。给数据块设定阈值，在阈值范围之内，到达的数据样本填充到当前的数据块中，拆分成有类标号和无类标号的样本，有类标号的再分配到每个类别中用于训练基分类器。

数据流可形式化为x₁,x₂,…x_t-1,x_t,x_t+1，(x_t＝(S₁,S₂,…S_d,Y)),t为时间戳，d为样本属性的数量，s是样本的特征向量。Y是类标号，且Y＝(y_l:l＝1…K)，K表示样本的总共类别数量。集成分类器的分类流程如图1所示。一般情况下，集成分类算法可描述为以下公式：

对数据流的分类处理以块为单位，D_t表示第t个数据块，且(Sample Set)，D_t中又包括PD_t表示的有类标号的样本和ND_t表示的没有类标号的样本。在PD_t中，将各个类别的样本分配给对应的类进行训练，用表示属于l类的样本(l＝1,…,K)。

(1)单类基分类器设计：

在数据块的每个类别中，通过特征向量之间的近邻密度来判断发生概念漂移的样本，将发生概念漂移的样本剔除，从而有空间接收新样本。方法是首先随机选取一个样本∝，根据特征向量判断距离最近的样本∝′，计算其距离d₁。同理，再判断∝′最近的样本∝^*，计算距离d₂，若d₁>d₂，则优先淘汰样本∝，随即在数据流中更新数据块。

所述更新数据块的操作采用一种临近算法，可具体描述为：

1)从数据块中随机选取一个样本x_i，选取距离x_i最近的样本标记为x′_i，计算样本之间的距离，标记为d₁。

2)选取x′_i最近的样本计算与x′_i之间的距离。如果样本数量大于1个，则计算平均距离，距离标记为d₂。

3)如果d₁>d₂，则从中移除样本

4)当数据块的样本数据量小于给定阈值(实施例设置为1000个样本)，将数据流的新数据块装填入数据块中。

(2)集成分类器设计：

集成分类器的设计目标是将各个基分类器按照一定的策略组成分类器矩阵，在前述算法中，一个数据块里将产生K个单类基分类器，设定集成分类器阈值γ，也就是保留前γ个数据块的基分类器，这样就产生了一个k×γ的集成分类器矩阵。

在集成分类器中，表示的是t时间段的数据块里类标是l的样本训练出来的基分类器。当新的数据块到达时，对分类器矩阵进行更新。对矩阵的各个基分类器赋予权重，标记为根据WAE算法，计算权重时，考虑其分类精准度和在集成分类器中停留的时间。公式为：

其中，表示的是基分类器的分类正确率，z表示该基分类器在分类器矩阵中停留的时间。

集成分类模型通过不断更新旧的基分类器来强化集成分类器模型，同时适应概念漂移情况的发生。每个基分类器的权重越高，代表其分类精准度越高，在每轮更新中，若其权重值大于所有基分类器权重平均值，则保留该分类器。

集成分类器建立的具体步骤是：

1)集成分类器中的基础分类器设定为10个，也就是保留前10个数据块的基础分类器，此发明采用一种单类分类器作为基分类器，而实施例里的4中数据集样本类别数量不确定，这里为了方便描述，标记为C，这样的话，分类器矩阵规模为10×C。

2)如果分类器矩阵小于给定的阈值，则将数据块新训练出来的基础分类器放入矩阵中。

3)分别计算分类器矩阵中的基础分类器权重，计算矩阵内的权重平均值，标记为

4)对于矩阵中的所有基分类器，判断其权重是否小于

5)如果矩阵规模刚好等于阈值，且某个基分类器权重小于平均值，则淘汰此分类器，引入新的数据块训练新的基分类器。

6)随着数据流不断到达，训练出集成分类器，且根据计算出的权重不断更新分类器以适应概念漂移的情况。

对没有类标号的新样本便可以通过加权投票方式计算出最终的类标号。公式如下：

其中，c_l是对应的类标号。

7)当新的样本数据到达时，将数据运用到集成分类器里的所有基分类器上，根据以上公式，做出样本预测，根据更新基分类器权重，循环往复。

实施例二

本实施例的目的是提供一种计算装置。

一种基于概念漂移的流数据集成分类装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现：

获取多个包括有类标和无类标样本数据的数据块；

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行：

获取多个包括有类标和无类标样本数据的数据块；

以上实施例二和三中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本发明的有益效果

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于概念漂移的流数据集成分类方法，其特征在于，包括以下步骤：

获取多个包括有类标和无类标样本数据的数据块；

2.如权利要求1所述的一种基于概念漂移的流数据集成分类方法，其特征在于，在数据块的每个类别中，通过特征向量之间的近邻密度来判断发生概念漂移的样本。

3.如权利要求1所述的一种基于概念漂移的流数据集成分类方法，其特征在于，根据单类基分类器的精度和在集成分类器中停留的时间计算权重。

4.如权利要求3所述的一种基于概念漂移的流数据集成分类方法，其特征在于，单类基分类器：

5.如权利要求1所述的一种基于概念漂移的流数据集成分类方法，其特征在于，所述集成分类矩阵建立的具体步骤是：

基于设定数目数据块的基分类器建立初始的集成分类矩阵；

6.如权利要求1所述的一种基于概念漂移的流数据集成分类方法，其特征在于，对没有类标的新样本通过加权投票方法计算类标号。

7.如权利要求1所述的一种基于概念漂移的流数据集成分类方法，其特征在于，加权投票方法公式如下：

其中，c_l是对应的类标号。

8.如权利要求1所述的一种基于概念漂移的流数据集成分类方法，其特征在于，所述方法还包括：根据分类结果更新基分类器权重。

9.一种基于概念漂移的流数据集成分类装置，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-8任一项所述的分类方法。

10.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-8任一项所述的分类方法。