CN110109969A

CN110109969A - 一种用于类不均衡应用的集成数据流挖掘方法和系统

Info

Publication number: CN110109969A
Application number: CN201910305885.9A
Authority: CN
Inventors: 吴禹非; 杨明; 胡玲玲; 蔡玉鑫; 赵博
Original assignee: Third Research Institute of the Ministry of Public Security
Current assignee: Third Research Institute of the Ministry of Public Security
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-08-09

Abstract

本发明公开了一种用于类不均衡应用的集成数据流挖掘方法和系统，本方案不直接使用每次达到的新数据块，而是通过设置样本库和滑动窗口每次获取用于在线学习的训练数据块。本方案与传统的数据流挖掘算法相比，在警用机器人数据流采集类不均衡应用中实现了更好的性能，从而可有效解决现有的警用机器人集成数据流挖掘算法对于类不均衡的应用会导致低精度，无法满足警用机器人对海量数据类不均衡应用需求的问题。

Description

一种用于类不均衡应用的集成数据流挖掘方法和系统

技术领域

本发明涉及机器学习和深度学习技术，具体涉及基于类不均衡应用的集成数据流挖掘方案。

背景技术

数据流挖掘是一种在线挖掘算法，即随着训练数据的不断涌现，在原始学习结果的基础上不断学习新的训练数据的一种学习系统。同时，该算法也需要实时性能和可预测性。一个好的数据流挖掘系统不仅需要实时处理输入数据，还要适应不断变化的概念。

在机器人课题中存在严重的类不平衡问题。也就是说，每个到达的数据块中可能存在一些类别的样本太少甚至没有，并且一些类别具有很高比例的样本。例如，网络入侵检测和机器故障预测都有这样的一些问题。在绝大情况下，系统或者机器都在正常的运作中，只有极少的情况下，会出现一些故障，这些故障和正常情况下的数据相比，就是类不平衡问题。传统的集合数据流挖掘算法没有考虑类不平衡分布的现象。这样的问题导致分类准确性低，甚至无法学习。尽管MAE算法中的“记忆和遗忘”机制可以减轻类不平衡的影响，但是对于严重的类不平衡问题，仍然存在学习数据块困难和预测精度低的问题。

MAE算法将“记忆和遗忘”机制引入基础分类器的学习过程。算法模型预先假定两个分类器库：用于存储所有当前有用的基础分类器的存储器组MS；召回存储器ES用于存储当前被召回的分类器，ES是MS的子集。MAE将通过学习获得的每个分类器与学习系统获得的知识进行比较。当形成新的数据块DB时，使用DB学习新的分类器并将其放置在MS中。同时，与MS中当前数据块具有最强相关性的d个基础分类器被复制到ES中，其中d表示ES的最大容量，这是MAE中的“存储器”机制。在“存储器”完成之后，根据在该过程中获得的结果重新评估存储在MS中的基础分类器，并更新MS中基础分类器的存储器权重。对于当前数据块，如果调用基础分类器，则此次增强该分类器的存储器强度。如果不是，记忆力将被削弱。当在数据流中对新生成的样本进行分类时，ES中的所有基础分类器直接用于分类预测。

MAE的“记忆和遗忘”机制一方面可以让之前有用的基础分类器在“存储库”中更加稳定，从而避免一个数据块概念的大变化，从而导致有用的基础分类器被意外删除。另一方面，选择最有效的基础分类器，通过存储器机制从MS预测当前数据块并将其用于集合预测，这充分利用了数据流的时间局部效应。提高预测准确性。与其他传统的集成学习方法相比，MAE可以获得更好，更稳定的预测性能，但仍然无法解决应用程序中数据不平衡和数据块中类缺失样本的问题。

发明内容

针对现有MAE算法在处理类不平衡问题中存在的不足，需要一种新的集成数据流挖掘方案。

为此，本发明的目的在于提供一种用于类不均衡应用的集成数据流挖掘方法，同时还提供一种用于类不均衡应用的集成数据流挖掘系统；针对类不均衡的应用具有较高精度，可无法满足现有对海量数据类不均衡应用的需求。

为了达到上述目的，本发明提供的用于类不均衡应用的集成数据流挖掘方法，不直接使用每次达到的新数据块，而是通过设置样本库和滑动窗口每次获取用于在线学习的训练数据块。

进一步的，所述集成数据流挖掘方法包括：

预先设置样本数据库，并且在样本数据库中针对数据流中的每个类别设置对应的滑动窗口；

在每次到达新数据块时，不直接使用新到达的数据块进行在线学习，而是根据在数据块样本中的类别分别输入到样本数据库中相应的滑动窗口中；

基于每个类别滑动窗口中的样本，构建用于在线学习的训练数据块。

进一步的，所述样本数据库的大小与数据块的大小相同，样本数据库中每个滑动窗口的大小为|DB|/k，其中|DB|表示数据块的大小，k表示滑动窗口的数量。

进一步的，当滑动窗口已满时，每次与此窗口关联的新样本到达时，根据时间序列，消除此窗口中最早的传入样本以更新滑动窗口和样本数据库。

进一步的，对于具有少量样本的类别，滑动窗口缓慢更新，并且对于具有大量样本的类别快速更新。

进一步的，所述集成数据流挖掘方法中使用选择性集成算法从库MS中选择召回的基本分类器，并通过函数(1)计算每个基本分类器c的遗忘因子：

其中β是遗忘因子的初始值，ν_c表示分类器c被召回的总次数；

c的记忆强度计算如下：

其中τ_c是最后一次选择分类器c的时间，t是当前时间。

为了达到上述目的，本发明提供的用于类不均衡应用的集成数据流挖掘系统，所述集成数据流挖掘系统包括处理器，以及存储有计算机程序的计算机可读介质，所述计算机程序被处理器执行时，不直接使用每次达到的新数据块，而是通过设置样本库和滑动窗口每次获取用于在线学习的训练数据块。

进一步的，所述集成数据流挖掘系统包括：

样本数据库单元，所述样本数据库单元中针对数据流中的每个类别分别维护对应的滑动窗口，预先设置样本数据库，并针对样本数据库单元中数据流的每一个类别单独设置对应的滑动窗口，从而获取在线学习的训练数据块，将获取到的训练数据块送往分类器集成单元中，供多个知识学习模块去训练和学习；

分类器集成单元，所述分类器集成单元用于对样本数据库单元发送的训练数据块进行知识学习，并将学习产生的模型送入分类器管理单元中，进行评估和调优；

分类器管理单元，所述分类器管理单元根据分类器集合单元中的知识库和分类器集成单元中的学习知识，进行分类器的评估，并根据分类器集成单元中的知识学习算法，进行分类器的选择；

分类器集合单元，所述分类器集合单元包含用于分类器的评估过程的知识库。

进一步的，所述分类器集成单元中包括决策树模块、神经网络模块以及支持向量机模块，所述决策树模块用于对数据进行分类；神经网络模块用于对训练数据块进行深度学习；所述支持向量机模块进行线性分类器计算。

进一步的，所述分类器管理单元包括分类器选择模块和分类器评估模块，所述分类器选择模块根据样本库中的数据块，使用机器学习算法对数据进行学习，在分类器管理单元中对产生的知识进行回忆；分类器评估模块根据知识库已有的规则和数据，结合回忆的过程进行知识遗忘。

本发明提供基于MAE的类不均衡的数据学习算法(CIMAE)方案，其不直接使用每个输入的数据，而是通过设置样本库和滑动窗口每次获取用于在线训练的数据块，可有效解决类不平衡问题，提高算法从类不平衡问题中学习的能力。

再者，本方案相对于传统的数据流挖掘方案，在警用机器人数据流采集类不均衡应用中实现了更好的性能，有效满足警用机器人对海量数据类不均衡应用的需求。

附图说明

以下结合附图和具体实施方式来进一步说明本发明。

图1为传统集成数据流的训练集生成模型示意图；

图2为本实例中基于样本库和类别滑动窗口的训练集生成示意图；

图3为本实例中集成数据流挖掘模型框图；

图4为本实例中多个数据流挖掘方案性能比较示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

针对MAE算法在处理类不平衡问题中存在的不足，本实例给出了一种用于类不均衡应用的集成数据流挖掘方法(简称CIMAE算法)，该方案改进每次训练基础分类器所用数据集的获取方法，相对于传统集成数据流的训练集生成模型直接使用每次达到的新数据块进行训练学习(参见图1)，本方案不直接使用每次达到的新数据块(如每个输入数据)，而是通过设置样本库和滑动窗口每次获取用于在线学习的训练数据块。

参见图2，本方案首先，预先设置样本数据库(以下简称样本库)，这些数据经过处理后会送往分类器集成单位中，供多个知识学习模块去训练和学习，并且在样本数据库中针对数据流中的每个类别单独设置对应的滑动窗口，滑动窗口将样本分割成训练数据块，以解决类不均衡的问题。

这样，在每次到达新数据块时，不直接使用新到达的数据块进行在线学习，而是根据在数据块样本中的类别分别输入到样本数据库中相应的滑动窗口中。

在具体实现时，本方案中设置的样本库包含与数据流中的类别总数相同数量的滑动窗口；同时，样本库的大小与数据块DB的大小相同并使用|DB|代表，并且使用k表示滑动窗口的数量，由此可以确定，每个滑动窗口的大小为|DB|/k。

在本实例方案中，在设置样本数据库和滑动窗口时，首先设置样本数据库，并针对样本数据库单元中数据流的每一个类别单独设置对应的滑动窗口，从而获取在线学习的不同样本类的训练数据块。这些数据块会集合起来一起送往分类器集成单位中，供多个知识学习模块去训练和学习。

参见图2，基于上述预设的样本库和滑动窗口，当形成当前DB时(即到达新数据块时)，不直接使用新到达的DB进行在线学习，而是使得DB中的样本根据它们自己的类别进入到样本库中相应的滑动窗口。

对于每个滑动窗口，当该滑动窗口已满时，每次与此窗口关联的新样本到达时，根据时间序列，消除此窗口中最早的传入样本以更新滑动窗口和样本数据库。

最后，通过使用当前样本数据库来学习新的基本分类器。在具体实施时，可使用决策树，支持向量机和神经网络算法来对样本数据库进行学习分类。集成的分类器算法将产生的模型送入分类器管理单位中，对整个算法进行评估和调优

基于上述方案，本实例实现在样本库中的每个类别的样本中，始终在CIMAE模型中进行平衡，对于具有少量样本的类别，滑动窗口缓慢更新，并且对于具有大量样本的类别快速更新。不同的更新速度使得每个类的样本数在参与基本类别分类时基本相等。这样本方法实现将类别不平衡数据分类转换为类别平衡数据分类，提高了算法从类不平衡问题中学习的能力和分类器的预测效果。

在上述方案的基础上，本方案进一步使用选择性集成算法实现从库MS中选择召回的基本分类器。

具体，通过函数(1)计算每个基本分类器c的遗忘因子：

其中β是遗忘因子的初始值，ν_c表示分类器c被召回的总次数。

c的记忆强度计算如下：

其中τ_c是最后一次选择分类器c的时间，t是当前时间。

针对上述的用于类不均衡应用的集成数据流挖掘方法，本实例进一步提供一种能够实施该集成数据流挖掘方法的集成数据流挖掘系统。

该集成数据流挖掘系统以计算机程序的形式存在于相应的计算机可读介质中，并可以由相应的处理器调取并执行，以实现对类不均衡应用的集成数据流挖掘。

本集成数据流挖掘系统优选以集成数据流挖掘模型形式呈现，其在运行时，不直接使用每次达到的新数据块，而是通过设置样本库和滑动窗口每次获取用于在线学习的训练数据块。

参见图3，其所示为本实例中给出的一种集成数据流挖掘模型的构成示例。

由图可知，该集成数据流挖掘模型100主要由样本数据库单元110、分类器集成单元120、分类器管理单元130以及分类器集合单元140相互配合构成。

其中，样本数据库单元100，针对数据流中的每个类别分别维护对应的滑动窗口，从而获取每一个类别的训练数据块。这些数据块根据类别组合起来会送往分类器集成单元中，供多个知识学习子模块去训练和学习。

分类器集成单元120，使用机器学习和深度学习算法来对训练数据块进行知识学习。该单元中集成有包括决策树，支持向量机和神经网络算法。集成的分类器算法将学习产生的模型送入分类器管理单元中，对整个算法模型进行评估和调优。

分类器管理单元130，引入了基础分类器的学习过程，将“记忆与遗忘”机制引入至算法中，包括分类器的评估和选择过程。根据分类器集合单元中的知识库和分类器集成单元中的学习知识，进行一个分类器的评估过程，根据分类器集成单元中的知识学习算法，进行一个分类器的选择过程，即知识回忆。

分类器集合单元140，为专家系统设计所应用的类不均衡分类规则集合，包含规则所联系的事实及数据组成的整体，统称知识库，即分类器集合；该规则联系的事实和数据用于分类器的评估过程。

作为举例，在具体实现时，本模块中的样本数据库单元110，样本数据库单元中数据流的每一个类别，会单独设置一一对应的滑动窗口，获取在线学习的训练数据块，这些数据块根据类别组合起来会送往分类器集成单位中，供多个知识学习子模块去训练和学习。

本模块中的分类器集成单元120，其包括决策树模块121、神经网络模块122以及支持向量机123。

其中，决策树模块121基于类算法，通过一系列规则对数据进行分类；神经网络模块122采用监督学习算法，具有大规模并行处理、分布式信息存储、良好的自组织自适应自学习能力；支持向量机模块采用稳定的线性分类器算法。

如此的决策树模块121、神经网络模块122以及支持向量机123之间相互配合，作为知识学习的集成方法，先后对样本库中的数据库进行处理，对后续分类器管理中的分类器选择做知识回忆的功能，配合分类器集合对整个算法实现“回忆和遗忘机制”的功能。

本模块中的分类器管理单元130，其包括分类器选择模块131和分类器评估模块132。

分类器选择模块131和分类器评估模块132对应CIMAE算法的“回忆与遗忘机制”，即知识回忆和知识遗忘的过程。分类器选择模块131根据样本库中的数据块，使用机器学习算法对数据进行学习，在分类器管理模块对产生的知识进行回忆；分类器评估模块132根据知识库已有的规则和数据，结合回忆的过程进行知识遗忘，从而实现算法的预测应用和评估优化的功能。

本模块中的分类器集合单元140，为本系统所应用的规则集合包含规则所联系的事实及数据组成的整体，这样的全体构成的知识库作为分类器集合单元。

另外，为了进一步说明本实例给出的集成数据流挖掘模型的性能，本实例还将集成数据流挖掘模型(即CIMAE模型)与SAE算法模型、AWE算法模型、ACE算法模型、MAE算法模型进行性能试验比较。

试验时，当新的预测任务到达时，它由ES中的分类器预测，并且多数投票方法用于获得新样本的类别。

同时，试验时的平均训练时间和平均预测时间分别见表1和表2：

表1.平均训练时间[10-3s]

算法	SEA	AWE	ACE	MAE	CIMAE
						运行时间	16.13	12.86	24.78	20.52	22.93

表2.平均预测时间[10-6s]

算法	SEA	AWE	ACE	MAE	CIMAE
						运行时间	18.39	18.71	29.35	19.66	19.97

参见图4，其所示最终的试验结果。由图可知，与其他算法相比，本CIMAE模型在召回率和F值上具有显著提高。召回率越高，错误和故障的可预测性越多。F值越高，预测准确度和召回的平衡效果越好。较高的召回率和F值证明CIMAE算法模型在故障预测期间可以正确地预测更多的故障。

由此可见，本实例给出的集成数据流挖掘模型(即CIMAE模型)对于使用类不平衡样本进行故障预测，CIMAE模型比其他集成数据流挖掘算法模型更加实用。

最后需要说明的，上述本发明的方法，或特定系统单元、或其部份单元，为纯软件架构，可以透过程序代码布设于实体媒体，如硬盘、光盘片、或是任何电子装置(如智能型手机、计算机可读取的储存媒体)，当机器加载程序代码且执行(如智能型手机加载且执行)，机器成为用以实行本发明的装置。上述本发明的方法与装置亦可以程序代码型态透过一些传送媒体，如电缆、光纤、或是任何传输型态进行传送，当程序代码被机器(如智能型手机)接收、加载且执行，机器成为用以实行本发明的装置。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.用于类不均衡应用的集成数据流挖掘方法，其特征在于，不直接使用每次达到的新数据块，而是通过设置样本库和滑动窗口每次获取用于在线学习的训练数据块。

2.根据权利要求1所述的集成数据流挖掘方法，其特征在于，所述集成数据流挖掘方法包括：

3.根据权利要求1所述的集成数据流挖掘方法，其特征在于，所述样本数据库的大小与数据块的大小相同，样本数据库中每个滑动窗口的大小为|DB|/k，其中|DB|表示数据块的大小，k表示滑动窗口的数量。

4.根据权利要求1所述的集成数据流挖掘方法，其特征在于，当滑动窗口已满时，每次与此窗口关联的新样本到达时，根据时间序列，消除此窗口中最早的传入样本以更新滑动窗口和样本数据库。

5.根据权利要求4所述的集成数据流挖掘方法，其特征在于，对于具有少量样本的类别，滑动窗口缓慢更新，并且对于具有大量样本的类别快速更新。

6.根据权利要求1所述的集成数据流挖掘方法，其特征在于，所述集成数据流挖掘方法中使用选择性集成算法从库MS中选择召回的基本分类器，并通过函数(1)计算每个基本分类器c的遗忘因子：

c的记忆强度计算如下：

其中τ_c是最后一次选择分类器c的时间，t是当前时间。

7.用于类不均衡应用的集成数据流挖掘系统，所述集成数据流挖掘系统包括处理器，以及存储有计算机程序的计算机可读介质，其特征在于，所述计算机程序被处理器执行时，不直接使用每次达到的新数据块，而是通过设置样本库和滑动窗口每次获取用于在线学习的训练数据块。

8.根据权利要求7所述的集成数据流挖掘系统，其特征在于，所述集成数据流挖掘系统包括：

9.根据权利要求8所述的集成数据流挖掘系统，其特征在于，所述分类器集成单元中包括决策树模块、神经网络模块以及支持向量机模块，所述决策树模块用于对数据进行分类；神经网络模块用于对训练数据块进行深度学习；所述支持向量机模块进行线性分类器计算。

10.根据权利要求8所述的集成数据流挖掘系统，其特征在于，所述分类器管理单元包括分类器选择模块和分类器评估模块，所述分类器选择模块根据样本库中的数据块，使用机器学习算法对数据进行学习，在分类器管理单元中对产生的知识进行回忆；分类器评估模块根据知识库已有的规则和数据，结合回忆的过程进行知识遗忘。