CN110647671A

CN110647671A - 一种基于AAE-DWMIL-LearnNSE的数据流分类算法

Info

Publication number: CN110647671A
Application number: CN201910929480.2A
Authority: CN
Inventors: 赵兴昊; 王松; 胡燕祝
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-03

Abstract

本发明涉及基于AAE‑DWMIL‑LearnNSE的数据流分类算法，是一种对数据流进行分类的方法，属于数据挖掘与机器学习领域，其特征在于采用如下步骤：(1)更新每个分类器权重；(2)加权处理基分类器；(3)加权合成集成分类器；(4)计算新数据集上分类错误率；(5)综合预测模型；(6)数据流分类函数确定及分类。本发明克服了由于缺乏对训练样本进行有选择的选取，导致分类精度受影响程度大的问题，去掉了对旧的数据样本的保存环节，为新数据节省了大部分存储空间，同时充分利用了旧的分类模型，取得了较高的分类准确率。有效解决了度量源领域中有标签的训练样本和目标领域中无标签测试样本之间相似度问题。

Description

一种基于AAE-DWMIL-LearnNSE的数据流分类算法

技术领域

本发明涉及数据挖掘与机器学习领域，主要是一种对数据流进行识别分类的方法。

背景技术

目前，针对数据流分类问题，主要是利用数据挖掘中的一些传统算法或者其改进算法。一般的处理流程需要大量的标注样本用于训练分类模型。再者，由于数据流存在一些固有特性，容易导致传统的数据流分类方法样本标注难、概念漂移频发等现象。传统的增量式和集成式的数据流分类方法能在一些领域达到比较好的效果，但是也存在随数据量增加分类效果逐渐降低及基分类器量急剧增加导致的参数爆炸的缺点。另外数据流存在数据流多变、连续无限、快速到达的特性，往往导致建立的分类模型不够高效和不能实时的检测数据流变化成为数据流。增量式的分类方法中如果旧分类器模型对新的数据分类错误，则会眼中影响新分类器的效果，集成式的分类方法需要组合多个弱分类器才能获得一个具有较好效果的组合分类器，且需要组合多个分类器的结果才能做出最终的决策。

关于数据流分类的应用，在很多领域的发展都相对成熟。关于数据流分类的应用，在很多领域的发展都相对成熟。例如，利用决策树、C4.5以及各种神经网络算法在天气预报、金融预测、电子商务、实时监控系统等方面都实现了较好的数据流分类。随着数据量增加速度的提升，概念更新的加快。对数据流份分类精度和速度的要求均不断的提高。IS3RS、IDS-ELM等算法缺乏有选择的对训练样本进行选取，导致分类精度会在很大程度上受到影响。SEA、CELM等算法比使用单个模型预测出来的结果要精确的多，但是存在如何对基分类器进行选择、更新、分配等问题。因此，要实时准确地实现数据流分类，达到数据流分类的要求，必须要建立一种高效、准确的数据流方法，有效的减少识别时间，提高分类准确率，为数据分析、数据挖掘技术的众多应用领域提供实时、准确的数据流分类。

发明内容

针对上述现有技术中存在的问题，本发明要解决的技术问题是提供一种基于AAE-DWMIL-LearnNSE的数据流分类算法，其具体流程如图1所示。

技术方案实施步骤如下：

(1)更新每个分类器

权重

首先对于每个基分类器的分类错误率ε进行计算，根据分类错误率对每个基分类器的权重ω进行初始值的设置，如下公式所示：

式中，j＝1,...,m+1，m表示分类器的数据，t表示时间轴，

表示在当前的数据流中第j个分类器的分类错误率，其中

通过F1或者G-mean方式进行计算。

(2)加权处理基分类器

使用sigmoid对基分类器加权处理，减少分类器错误率引起的波动，跟新基分类器的权重，如下公式所示：

式中，a,b为设置sigmoid形态的数值，根据a,b值调整调整基分类器错误率分类性能的大小。

(3)加权合成集成分类器H^t(x^t(i))：

对各个基分类器进行加权合成一个集成分类器，用于对整个数据流进行分类预测，产生一个初始分类结果，如下公式所示：

式中，

表示每个基分类器权重，为减小错误率波动，使用sigmoid函数对每个基分类器所在环境进行加权平均处理。

重复以上步骤，并在训练数据上进行训练，得到初始分类预测模型，整个算法流程图如图2所示。

(4)计算新数据集上分类错误率

添加新数据，对分类模型进行预测，并计算相应的错误率的加权，从而对分类器的分类效果进行判断，如下公式所示：

式中，t表示第几次处理的训练集，x^t(i)表示所使用的实例，i表示个共m^t个，

表示实例权重，

表示惩罚权重，表示基分类器，当分类错误率大于0.5时表明该基分类器无效，需要重新学习。

(5)综合预测模型sign(·)：

式中，x表示数据流中的输入数据，即一个分类器的整合向量和权值w^t的结合。

(6)数据流分类函数确定及分类p(c_m|h₁,h₂,…,h_f)：

式中，M表示分类器数量，c_m表示类数目，p(c_m)表示带有特征f实例的后验概率，N表示目前使用的数据流中存储的实例数目，表示第i个数据实例，I(·)表示判别函数，n_j表示第j个特征的概率值，i表示训练实例的索引。

本发明比现有技术具有的优点：

(1)本发明克服了由于缺乏对训练样本进行有选择的选取，导致分类精度受影响程度大的问题，分类特征更准确，可以有效地提高数据流分类准确率。

(2)本发明去掉了对旧的数据样本的保存环节，为新数据节省了大部分存储空间，同时充分利用了旧的分类模型，显著的减少了模型构建的时间。

(3)本发明有效解决了度量源领域中有标签的训练样本和目标领域中无标签测试样本之间相似度问题。

附图说明

为了更好地理解本发明，下面结合附图作进一步的说明。

图1是建立于AAE-DWMIL-LearnNSE的数据流分类算法的步骤流程图；

图2是建立于AAE-DWMIL-LearnNSE的数据流分类算法流程图；

图3是利用本发明对四组数据流进行分类的结果。

具体实施方案

下面通过实施案例对本发明作进一步详细说明。

本实施案例选用的数据集一共有6组样本，其中，移动高斯、海洋、超平面、棋盘、电力和天气数据各50000组，采用随机抽样的方法从6组数据中各抽取40000样本作为训练集，剩余的10000作为测试集。

本发明所提供的数据流分类算法整体流程如图1所示，具体步骤如下：

(1)更新每个分类器权重

式中，j＝1,...,m+1，m表示分类器的数据，此处m＝40000，t表示时间轴，

表示在当前的数据流中第j个分类器的分类错误率，此处计算得

其中

通过F1或者G-mean方式进行计算。

(2)加权处理基分类器

式中，a,b为设置sigmoid形态的数值，根据a,b值调整调整基分类器错误率分类性能的大小，此处a＝0.5,b＝20。

(3)加权合成集成分类器H^t(x^t(i))：

式中，

表示每个基分类器权重，此处有计算可得为减小错误率波动，使用sigmoid函数对每个基分类器所在环境进行加权平均处理。

(4)计算新数据集上分类错误率

式中，t表示第几次处理的训练集，x^t(i)表示所使用的实例，i表示个共m^t个，此处m＝40000，

表示实例权重，此处由计算得

表示惩罚权重，

表示基分类器，取正确分类则为1，错误分类则为0，当分类错误率大于0.5时表明该基分类器无效，需要重新学习。

(5)综合预测模型sign(·)：

式中，x表示数据流中的输入数据，此处为6组不同领域的数据，即一个分类器的整合向量和权值w^t的结合。

(6)数据流分类函数确定及分类p(c_m|h₁,h₂,…,h_f)：

式中，M表示分类器数量，此处得到M＝998，c_m表示类数目，此处c_m＝6，p(c_m)表示带有特征f实例的后验概率，此处由计算得

N表示目前使用的数据流中存储的实例数目，此处N＝10000，

表示第i个数据实例，I(·)表示判别函数，即为0或者1的分类指示器，n_j表示第j个特征的概率值，i表示训练实例的索引。

为了验证本发明对数据流分类的准确性，对本发明进行了二组数据流分类实验，实验结果如图3所示。由图3可知，本发明所建立的基于AAE-DWMIL-LearnNSE的数据流分类方法对数据流进行分类的准确率均保持在95％以上，能够在保证稳定性的基础上达到较高的准确率，分类效果良好。这表明本发明建立的基于AAE-DWMIL-LearnNSE的数据流分类方法是有效的，为建立精确的数据流分类模型提供了更好的方法，具有一定的实用性。