CN110647671A - 一种基于AAE-DWMIL-LearnNSE的数据流分类算法 - Google Patents

一种基于AAE-DWMIL-LearnNSE的数据流分类算法 Download PDF

Info

Publication number
CN110647671A
CN110647671A CN201910929480.2A CN201910929480A CN110647671A CN 110647671 A CN110647671 A CN 110647671A CN 201910929480 A CN201910929480 A CN 201910929480A CN 110647671 A CN110647671 A CN 110647671A
Authority
CN
China
Prior art keywords
classifier
classification
data
error rate
denotes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910929480.2A
Other languages
English (en)
Inventor
赵兴昊
王松
胡燕祝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910929480.2A priority Critical patent/CN110647671A/zh
Publication of CN110647671A publication Critical patent/CN110647671A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于AAE‑DWMIL‑LearnNSE的数据流分类算法,是一种对数据流进行分类的方法,属于数据挖掘与机器学习领域,其特征在于采用如下步骤:(1)更新每个分类器权重;(2)加权处理基分类器;(3)加权合成集成分类器;(4)计算新数据集上分类错误率;(5)综合预测模型;(6)数据流分类函数确定及分类。本发明克服了由于缺乏对训练样本进行有选择的选取,导致分类精度受影响程度大的问题,去掉了对旧的数据样本的保存环节,为新数据节省了大部分存储空间,同时充分利用了旧的分类模型,取得了较高的分类准确率。有效解决了度量源领域中有标签的训练样本和目标领域中无标签测试样本之间相似度问题。

Description

一种基于AAE-DWMIL-LearnNSE的数据流分类算法
技术领域
本发明涉及数据挖掘与机器学习领域,主要是一种对数据流进行识别分类的方法。
背景技术
目前,针对数据流分类问题,主要是利用数据挖掘中的一些传统算法或者其改进算法。一般的处理流程需要大量的标注样本用于训练分类模型。再者,由于数据流存在一些固有特性,容易导致传统的数据流分类方法样本标注难、概念漂移频发等现象。传统的增量式和集成式的数据流分类方法能在一些领域达到比较好的效果,但是也存在随数据量增加分类效果逐渐降低及基分类器量急剧增加导致的参数爆炸的缺点。另外数据流存在数据流多变、连续无限、快速到达的特性,往往导致建立的分类模型不够高效和不能实时的检测数据流变化成为数据流。增量式的分类方法中如果旧分类器模型对新的数据分类错误,则会眼中影响新分类器的效果,集成式的分类方法需要组合多个弱分类器才能获得一个具有较好效果的组合分类器,且需要组合多个分类器的结果才能做出最终的决策。
关于数据流分类的应用,在很多领域的发展都相对成熟。关于数据流分类的应用,在很多领域的发展都相对成熟。例如,利用决策树、C4.5以及各种神经网络算法在天气预报、金融预测、电子商务、实时监控系统等方面都实现了较好的数据流分类。随着数据量增加速度的提升,概念更新的加快。对数据流份分类精度和速度的要求均不断的提高。IS3RS、IDS-ELM等算法缺乏有选择的对训练样本进行选取,导致分类精度会在很大程度上受到影响。SEA、CELM等算法比使用单个模型预测出来的结果要精确的多,但是存在如何对基分类器进行选择、更新、分配等问题。因此,要实时准确地实现数据流分类,达到数据流分类的要求,必须要建立一种高效、准确的数据流方法,有效的减少识别时间,提高分类准确率,为数据分析、数据挖掘技术的众多应用领域提供实时、准确的数据流分类。
发明内容
针对上述现有技术中存在的问题,本发明要解决的技术问题是提供一种基于AAE-DWMIL-LearnNSE的数据流分类算法,其具体流程如图1所示。
技术方案实施步骤如下:
(1)更新每个分类器
Figure BDA0002219859780000011
权重
Figure BDA0002219859780000012
首先对于每个基分类器的分类错误率ε进行计算,根据分类错误率对每个基分类器的权重ω进行初始值的设置,如下公式所示:
Figure BDA0002219859780000021
式中,j=1,...,m+1,m表示分类器的数据,t表示时间轴,
Figure BDA0002219859780000022
表示在当前的数据流中第j个分类器的分类错误率,其中
Figure BDA0002219859780000023
通过F1或者G-mean方式进行计算。
(2)加权处理基分类器
Figure BDA0002219859780000024
使用sigmoid对基分类器加权处理,减少分类器错误率引起的波动,跟新基分类器的权重,如下公式所示:
Figure BDA0002219859780000025
Figure BDA0002219859780000026
式中,a,b为设置sigmoid形态的数值,根据a,b值调整调整基分类器错误率分类性能的大小。
(3)加权合成集成分类器Ht(xt(i)):
对各个基分类器进行加权合成一个集成分类器,用于对整个数据流进行分类预测,产生一个初始分类结果,如下公式所示:
Figure BDA0002219859780000027
Figure BDA0002219859780000028
式中,
Figure BDA0002219859780000029
表示每个基分类器权重,为减小错误率波动,使用sigmoid函数对每个基分类器所在环境进行加权平均处理。
重复以上步骤,并在训练数据上进行训练,得到初始分类预测模型,整个算法流程图如图2所示。
(4)计算新数据集上分类错误率
添加新数据,对分类模型进行预测,并计算相应的错误率的加权,从而对分类器的分类效果进行判断,如下公式所示:
Figure BDA00022198597800000211
式中,t表示第几次处理的训练集,xt(i)表示所使用的实例,i表示个共mt个,
Figure BDA0002219859780000032
表示实例权重,
Figure BDA0002219859780000033
表示惩罚权重,表示基分类器,当分类错误率大于0.5时表明该基分类器无效,需要重新学习。
(5)综合预测模型sign(·):
Figure BDA0002219859780000035
式中,x表示数据流中的输入数据,即一个分类器的整合向量和权值wt的结合。
(6)数据流分类函数确定及分类p(cm|h1,h2,…,hf):
Figure BDA0002219859780000037
Figure BDA0002219859780000039
式中,M表示分类器数量,cm表示类数目,p(cm)表示带有特征f实例的后验概率,N表示目前使用的数据流中存储的实例数目,表示第i个数据实例,I(·)表示判别函数,nj表示第j个特征的概率值,i表示训练实例的索引。
本发明比现有技术具有的优点:
(1)本发明克服了由于缺乏对训练样本进行有选择的选取,导致分类精度受影响程度大的问题,分类特征更准确,可以有效地提高数据流分类准确率。
(2)本发明去掉了对旧的数据样本的保存环节,为新数据节省了大部分存储空间,同时充分利用了旧的分类模型,显著的减少了模型构建的时间。
(3)本发明有效解决了度量源领域中有标签的训练样本和目标领域中无标签测试样本之间相似度问题。
附图说明
为了更好地理解本发明,下面结合附图作进一步的说明。
图1是建立于AAE-DWMIL-LearnNSE的数据流分类算法的步骤流程图;
图2是建立于AAE-DWMIL-LearnNSE的数据流分类算法流程图;
图3是利用本发明对四组数据流进行分类的结果。
具体实施方案
下面通过实施案例对本发明作进一步详细说明。
本实施案例选用的数据集一共有6组样本,其中,移动高斯、海洋、超平面、棋盘、电力和天气数据各50000组,采用随机抽样的方法从6组数据中各抽取40000样本作为训练集,剩余的10000作为测试集。
本发明所提供的数据流分类算法整体流程如图1所示,具体步骤如下:
(1)更新每个分类器权重
Figure BDA0002219859780000042
首先对于每个基分类器的分类错误率ε进行计算,根据分类错误率对每个基分类器的权重ω进行初始值的设置,如下公式所示:
Figure BDA0002219859780000043
式中,j=1,...,m+1,m表示分类器的数据,此处m=40000,t表示时间轴,
Figure BDA0002219859780000044
表示在当前的数据流中第j个分类器的分类错误率,此处计算得
Figure BDA0002219859780000045
其中
Figure BDA0002219859780000046
通过F1或者G-mean方式进行计算。
(2)加权处理基分类器
Figure BDA0002219859780000047
使用sigmoid对基分类器加权处理,减少分类器错误率引起的波动,跟新基分类器的权重,如下公式所示:
Figure BDA0002219859780000048
Figure BDA0002219859780000051
式中,a,b为设置sigmoid形态的数值,根据a,b值调整调整基分类器错误率分类性能的大小,此处a=0.5,b=20。
(3)加权合成集成分类器Ht(xt(i)):
对各个基分类器进行加权合成一个集成分类器,用于对整个数据流进行分类预测,产生一个初始分类结果,如下公式所示:
Figure BDA0002219859780000052
式中,
Figure BDA0002219859780000054
表示每个基分类器权重,此处有计算可得为减小错误率波动,使用sigmoid函数对每个基分类器所在环境进行加权平均处理。
重复以上步骤,并在训练数据上进行训练,得到初始分类预测模型,整个算法流程图如图2所示。
(4)计算新数据集上分类错误率
Figure BDA0002219859780000056
添加新数据,对分类模型进行预测,并计算相应的错误率的加权,从而对分类器的分类效果进行判断,如下公式所示:
Figure BDA0002219859780000057
式中,t表示第几次处理的训练集,xt(i)表示所使用的实例,i表示个共mt个,此处m=40000,
Figure BDA0002219859780000059
表示实例权重,此处由计算得
Figure BDA00022198597800000510
Figure BDA00022198597800000511
表示惩罚权重,
Figure BDA00022198597800000512
表示基分类器,取正确分类则为1,错误分类则为0,当分类错误率大于0.5时表明该基分类器无效,需要重新学习。
(5)综合预测模型sign(·):
Figure BDA0002219859780000061
式中,x表示数据流中的输入数据,此处为6组不同领域的数据,即一个分类器的整合向量和权值wt的结合。
(6)数据流分类函数确定及分类p(cm|h1,h2,…,hf):
Figure BDA0002219859780000063
Figure BDA0002219859780000065
式中,M表示分类器数量,此处得到M=998,cm表示类数目,此处cm=6,p(cm)表示带有特征f实例的后验概率,此处由计算得
Figure BDA0002219859780000066
N表示目前使用的数据流中存储的实例数目,此处N=10000,
Figure BDA0002219859780000067
表示第i个数据实例,I(·)表示判别函数,即为0或者1的分类指示器,nj表示第j个特征的概率值,i表示训练实例的索引。
为了验证本发明对数据流分类的准确性,对本发明进行了二组数据流分类实验,实验结果如图3所示。由图3可知,本发明所建立的基于AAE-DWMIL-LearnNSE的数据流分类方法对数据流进行分类的准确率均保持在95%以上,能够在保证稳定性的基础上达到较高的准确率,分类效果良好。这表明本发明建立的基于AAE-DWMIL-LearnNSE的数据流分类方法是有效的,为建立精确的数据流分类模型提供了更好的方法,具有一定的实用性。

Claims (1)

1.本发明一种基于AAE-DWMIL-LearnNSE的数据流分类算法,其特征在于:(1)更新每个分类器权重;(2)加权处理基分类器;(3)加权合成集成分类器;(4)计算新数据集上分类错误率;(5)综合预测模型;(6)数据流分类函数确定及分类;具体包括以下七个步骤:
步骤一:更新每个分类器权重
Figure FDA0002219859770000012
首先对于每个基分类器的分类错误率ε进行计算,根据分类错误率对每个基分类器的权重ω进行初始值的设置,如下公式所示:
Figure FDA0002219859770000013
式中,j=1,...,m+1,m表示分类器的数据,t表示时间轴,
Figure FDA0002219859770000014
表示在当前的数据流中第j个分类器的分类错误率,其中
Figure FDA0002219859770000015
通过F1或者G-mean方式进行计算;
步骤二:加权处理基分类器
Figure FDA0002219859770000016
使用sigmoid对基分类器加权处理,减少分类器错误率引起的波动,跟新基分类器的权重,如下公式所示:
Figure FDA0002219859770000017
Figure FDA0002219859770000018
式中,a,b为设置sigmoid形态的数值,根据a,b值调整调整基分类器错误率分类性能的大小;
步骤三:加权合成集成分类器Ht(xt(i)):
对各个基分类器进行加权合成一个集成分类器,用于对整个数据流进行分类预测,产生一个初始分类结果,如下公式所示:
Figure FDA0002219859770000019
Figure FDA00022198597700000110
式中,
Figure FDA00022198597700000111
表示每个基分类器权重,为减小错误率波动,使用sigmoid函数对每个基分类器所在环境进行加权平均处理;
重复以上步骤,并在训练数据上进行训练,得到初始分类预测模型,整个算法流程图如图2所示;
步骤四:计算新数据集上分类错误率
Figure FDA00022198597700000112
添加新数据,对分类模型进行预测,并计算相应的错误率的加权,从而对分类器的分类效果进行判断,如下公式所示:
Figure FDA0002219859770000021
式中,t表示第几次处理的训练集,xt(i)表示所使用的实例,i表示个共mt个,
Figure FDA0002219859770000023
表示实例权重,
Figure FDA0002219859770000024
表示惩罚权重,表示基分类器,当分类错误率大于0.5时表明该基分类器无效,需要重新学习;
步骤五:综合预测模型sign(·):
Figure FDA0002219859770000026
式中,x表示数据流中的输入数据,即一个分类器
Figure FDA0002219859770000027
的整合向量和权值wt的结合;
步骤六:数据流分类函数确定及分类p(cm|h1,h2,…,hf):
Figure FDA0002219859770000028
Figure FDA0002219859770000029
式中,M表示分类器数量,cm表示类数目,p(cm)表示带有特征f实例的后验概率,N表示目前使用的数据流中存储的实例数目,
Figure FDA00022198597700000211
表示第i个数据实例,I(·)表示判别函数,nj表示第j个特征的概率值,i表示训练实例的索引。
CN201910929480.2A 2019-09-29 2019-09-29 一种基于AAE-DWMIL-LearnNSE的数据流分类算法 Pending CN110647671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910929480.2A CN110647671A (zh) 2019-09-29 2019-09-29 一种基于AAE-DWMIL-LearnNSE的数据流分类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910929480.2A CN110647671A (zh) 2019-09-29 2019-09-29 一种基于AAE-DWMIL-LearnNSE的数据流分类算法

Publications (1)

Publication Number Publication Date
CN110647671A true CN110647671A (zh) 2020-01-03

Family

ID=69011794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910929480.2A Pending CN110647671A (zh) 2019-09-29 2019-09-29 一种基于AAE-DWMIL-LearnNSE的数据流分类算法

Country Status (1)

Country Link
CN (1) CN110647671A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340148A (zh) * 2020-05-22 2020-06-26 支付宝(杭州)信息技术有限公司 一种业务分类模型的训练方法、业务分类方法以及终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340148A (zh) * 2020-05-22 2020-06-26 支付宝(杭州)信息技术有限公司 一种业务分类模型的训练方法、业务分类方法以及终端
CN111340148B (zh) * 2020-05-22 2020-09-22 支付宝(杭州)信息技术有限公司 一种业务分类模型的训练方法、业务分类方法以及终端

Similar Documents

Publication Publication Date Title
CN110728411B (zh) 一种基于卷积神经网络的高低空区域联合降雨预测方法
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN108304316B (zh) 一种基于协同迁移的软件缺陷预测方法
CN110718910B (zh) 贝叶斯优化LightGBM的暂态稳定评估方法
CN110349597B (zh) 一种语音检测方法及装置
CN112069310A (zh) 基于主动学习策略的文本分类方法及系统
CN110503245A (zh) 一种机场航班大面积延误风险的预测方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN105760888A (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN111027629A (zh) 基于改进随机森林的配电网故障停电率预测方法及系统
CN105095494A (zh) 一种对分类数据集进行测试的方法
CN108009571A (zh) 一种新的直推式半监督数据分类方法及系统
Ragib et al. Pakhichini: Automatic bird species identification using deep learning
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN105913078A (zh) 改进自适应仿射传播聚类的多模型软测量方法
CN109299263A (zh) 文本分类方法、电子设备及计算机程序产品
CN110659682A (zh) 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法
CN115600088A (zh) 一种基于振动信号的配电变压器故障诊断方法
Zhang et al. A meta-learning framework for few-shot classification of remote sensing scene
CN111191033A (zh) 一种基于分类效用的开集分类方法
CN108830405B (zh) 基于多指标动态匹配的实时电力负荷预测系统及其方法
CN110647671A (zh) 一种基于AAE-DWMIL-LearnNSE的数据流分类算法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
CN110163437B (zh) 基于DPK-means的日前光伏发电功率预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200103

WD01 Invention patent application deemed withdrawn after publication