CN110647671A - 一种基于AAE-DWMIL-LearnNSE的数据流分类算法 - Google Patents
一种基于AAE-DWMIL-LearnNSE的数据流分类算法 Download PDFInfo
- Publication number
- CN110647671A CN110647671A CN201910929480.2A CN201910929480A CN110647671A CN 110647671 A CN110647671 A CN 110647671A CN 201910929480 A CN201910929480 A CN 201910929480A CN 110647671 A CN110647671 A CN 110647671A
- Authority
- CN
- China
- Prior art keywords
- classifier
- classification
- data
- error rate
- denotes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于AAE‑DWMIL‑LearnNSE的数据流分类算法,是一种对数据流进行分类的方法,属于数据挖掘与机器学习领域,其特征在于采用如下步骤:(1)更新每个分类器权重;(2)加权处理基分类器;(3)加权合成集成分类器;(4)计算新数据集上分类错误率;(5)综合预测模型;(6)数据流分类函数确定及分类。本发明克服了由于缺乏对训练样本进行有选择的选取,导致分类精度受影响程度大的问题,去掉了对旧的数据样本的保存环节,为新数据节省了大部分存储空间,同时充分利用了旧的分类模型,取得了较高的分类准确率。有效解决了度量源领域中有标签的训练样本和目标领域中无标签测试样本之间相似度问题。
Description
技术领域
本发明涉及数据挖掘与机器学习领域,主要是一种对数据流进行识别分类的方法。
背景技术
目前,针对数据流分类问题,主要是利用数据挖掘中的一些传统算法或者其改进算法。一般的处理流程需要大量的标注样本用于训练分类模型。再者,由于数据流存在一些固有特性,容易导致传统的数据流分类方法样本标注难、概念漂移频发等现象。传统的增量式和集成式的数据流分类方法能在一些领域达到比较好的效果,但是也存在随数据量增加分类效果逐渐降低及基分类器量急剧增加导致的参数爆炸的缺点。另外数据流存在数据流多变、连续无限、快速到达的特性,往往导致建立的分类模型不够高效和不能实时的检测数据流变化成为数据流。增量式的分类方法中如果旧分类器模型对新的数据分类错误,则会眼中影响新分类器的效果,集成式的分类方法需要组合多个弱分类器才能获得一个具有较好效果的组合分类器,且需要组合多个分类器的结果才能做出最终的决策。
关于数据流分类的应用,在很多领域的发展都相对成熟。关于数据流分类的应用,在很多领域的发展都相对成熟。例如,利用决策树、C4.5以及各种神经网络算法在天气预报、金融预测、电子商务、实时监控系统等方面都实现了较好的数据流分类。随着数据量增加速度的提升,概念更新的加快。对数据流份分类精度和速度的要求均不断的提高。IS3RS、IDS-ELM等算法缺乏有选择的对训练样本进行选取,导致分类精度会在很大程度上受到影响。SEA、CELM等算法比使用单个模型预测出来的结果要精确的多,但是存在如何对基分类器进行选择、更新、分配等问题。因此,要实时准确地实现数据流分类,达到数据流分类的要求,必须要建立一种高效、准确的数据流方法,有效的减少识别时间,提高分类准确率,为数据分析、数据挖掘技术的众多应用领域提供实时、准确的数据流分类。
发明内容
针对上述现有技术中存在的问题,本发明要解决的技术问题是提供一种基于AAE-DWMIL-LearnNSE的数据流分类算法,其具体流程如图1所示。
技术方案实施步骤如下:
首先对于每个基分类器的分类错误率ε进行计算,根据分类错误率对每个基分类器的权重ω进行初始值的设置,如下公式所示:
使用sigmoid对基分类器加权处理,减少分类器错误率引起的波动,跟新基分类器的权重,如下公式所示:
式中,a,b为设置sigmoid形态的数值,根据a,b值调整调整基分类器错误率分类性能的大小。
(3)加权合成集成分类器Ht(xt(i)):
对各个基分类器进行加权合成一个集成分类器,用于对整个数据流进行分类预测,产生一个初始分类结果,如下公式所示:
重复以上步骤,并在训练数据上进行训练,得到初始分类预测模型,整个算法流程图如图2所示。
(4)计算新数据集上分类错误率
添加新数据,对分类模型进行预测,并计算相应的错误率的加权,从而对分类器的分类效果进行判断,如下公式所示:
(5)综合预测模型sign(·):
式中,x表示数据流中的输入数据,即一个分类器的整合向量和权值wt的结合。
(6)数据流分类函数确定及分类p(cm|h1,h2,…,hf):
式中,M表示分类器数量,cm表示类数目,p(cm)表示带有特征f实例的后验概率,N表示目前使用的数据流中存储的实例数目,表示第i个数据实例,I(·)表示判别函数,nj表示第j个特征的概率值,i表示训练实例的索引。
本发明比现有技术具有的优点:
(1)本发明克服了由于缺乏对训练样本进行有选择的选取,导致分类精度受影响程度大的问题,分类特征更准确,可以有效地提高数据流分类准确率。
(2)本发明去掉了对旧的数据样本的保存环节,为新数据节省了大部分存储空间,同时充分利用了旧的分类模型,显著的减少了模型构建的时间。
(3)本发明有效解决了度量源领域中有标签的训练样本和目标领域中无标签测试样本之间相似度问题。
附图说明
为了更好地理解本发明,下面结合附图作进一步的说明。
图1是建立于AAE-DWMIL-LearnNSE的数据流分类算法的步骤流程图;
图2是建立于AAE-DWMIL-LearnNSE的数据流分类算法流程图;
图3是利用本发明对四组数据流进行分类的结果。
具体实施方案
下面通过实施案例对本发明作进一步详细说明。
本实施案例选用的数据集一共有6组样本,其中,移动高斯、海洋、超平面、棋盘、电力和天气数据各50000组,采用随机抽样的方法从6组数据中各抽取40000样本作为训练集,剩余的10000作为测试集。
本发明所提供的数据流分类算法整体流程如图1所示,具体步骤如下:
首先对于每个基分类器的分类错误率ε进行计算,根据分类错误率对每个基分类器的权重ω进行初始值的设置,如下公式所示:
使用sigmoid对基分类器加权处理,减少分类器错误率引起的波动,跟新基分类器的权重,如下公式所示:
式中,a,b为设置sigmoid形态的数值,根据a,b值调整调整基分类器错误率分类性能的大小,此处a=0.5,b=20。
(3)加权合成集成分类器Ht(xt(i)):
对各个基分类器进行加权合成一个集成分类器,用于对整个数据流进行分类预测,产生一个初始分类结果,如下公式所示:
重复以上步骤,并在训练数据上进行训练,得到初始分类预测模型,整个算法流程图如图2所示。
添加新数据,对分类模型进行预测,并计算相应的错误率的加权,从而对分类器的分类效果进行判断,如下公式所示:
式中,t表示第几次处理的训练集,xt(i)表示所使用的实例,i表示个共mt个,此处m=40000,表示实例权重,此处由计算得 表示惩罚权重,表示基分类器,取正确分类则为1,错误分类则为0,当分类错误率大于0.5时表明该基分类器无效,需要重新学习。
(5)综合预测模型sign(·):
式中,x表示数据流中的输入数据,此处为6组不同领域的数据,即一个分类器的整合向量和权值wt的结合。
(6)数据流分类函数确定及分类p(cm|h1,h2,…,hf):
式中,M表示分类器数量,此处得到M=998,cm表示类数目,此处cm=6,p(cm)表示带有特征f实例的后验概率,此处由计算得N表示目前使用的数据流中存储的实例数目,此处N=10000,表示第i个数据实例,I(·)表示判别函数,即为0或者1的分类指示器,nj表示第j个特征的概率值,i表示训练实例的索引。
为了验证本发明对数据流分类的准确性,对本发明进行了二组数据流分类实验,实验结果如图3所示。由图3可知,本发明所建立的基于AAE-DWMIL-LearnNSE的数据流分类方法对数据流进行分类的准确率均保持在95%以上,能够在保证稳定性的基础上达到较高的准确率,分类效果良好。这表明本发明建立的基于AAE-DWMIL-LearnNSE的数据流分类方法是有效的,为建立精确的数据流分类模型提供了更好的方法,具有一定的实用性。
Claims (1)
1.本发明一种基于AAE-DWMIL-LearnNSE的数据流分类算法,其特征在于:(1)更新每个分类器权重;(2)加权处理基分类器;(3)加权合成集成分类器;(4)计算新数据集上分类错误率;(5)综合预测模型;(6)数据流分类函数确定及分类;具体包括以下七个步骤:
首先对于每个基分类器的分类错误率ε进行计算,根据分类错误率对每个基分类器的权重ω进行初始值的设置,如下公式所示:
使用sigmoid对基分类器加权处理,减少分类器错误率引起的波动,跟新基分类器的权重,如下公式所示:
式中,a,b为设置sigmoid形态的数值,根据a,b值调整调整基分类器错误率分类性能的大小;
步骤三:加权合成集成分类器Ht(xt(i)):
对各个基分类器进行加权合成一个集成分类器,用于对整个数据流进行分类预测,产生一个初始分类结果,如下公式所示:
重复以上步骤,并在训练数据上进行训练,得到初始分类预测模型,整个算法流程图如图2所示;
添加新数据,对分类模型进行预测,并计算相应的错误率的加权,从而对分类器的分类效果进行判断,如下公式所示:
步骤五:综合预测模型sign(·):
步骤六:数据流分类函数确定及分类p(cm|h1,h2,…,hf):
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910929480.2A CN110647671A (zh) | 2019-09-29 | 2019-09-29 | 一种基于AAE-DWMIL-LearnNSE的数据流分类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910929480.2A CN110647671A (zh) | 2019-09-29 | 2019-09-29 | 一种基于AAE-DWMIL-LearnNSE的数据流分类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110647671A true CN110647671A (zh) | 2020-01-03 |
Family
ID=69011794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910929480.2A Pending CN110647671A (zh) | 2019-09-29 | 2019-09-29 | 一种基于AAE-DWMIL-LearnNSE的数据流分类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110647671A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340148A (zh) * | 2020-05-22 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种业务分类模型的训练方法、业务分类方法以及终端 |
-
2019
- 2019-09-29 CN CN201910929480.2A patent/CN110647671A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340148A (zh) * | 2020-05-22 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种业务分类模型的训练方法、业务分类方法以及终端 |
CN111340148B (zh) * | 2020-05-22 | 2020-09-22 | 支付宝(杭州)信息技术有限公司 | 一种业务分类模型的训练方法、业务分类方法以及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728411B (zh) | 一种基于卷积神经网络的高低空区域联合降雨预测方法 | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN108304316B (zh) | 一种基于协同迁移的软件缺陷预测方法 | |
CN110718910B (zh) | 贝叶斯优化LightGBM的暂态稳定评估方法 | |
CN110349597B (zh) | 一种语音检测方法及装置 | |
CN112069310A (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN110503245A (zh) | 一种机场航班大面积延误风险的预测方法 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN113887643B (zh) | 一种基于伪标签自训练和源域再训练的新对话意图识别方法 | |
CN105760888A (zh) | 一种基于属性聚类的邻域粗糙集集成学习方法 | |
CN111027629A (zh) | 基于改进随机森林的配电网故障停电率预测方法及系统 | |
CN105095494A (zh) | 一种对分类数据集进行测试的方法 | |
CN108009571A (zh) | 一种新的直推式半监督数据分类方法及系统 | |
Ragib et al. | Pakhichini: Automatic bird species identification using deep learning | |
CN110738232A (zh) | 一种基于数据挖掘技术的电网电压越限成因诊断方法 | |
CN105913078A (zh) | 改进自适应仿射传播聚类的多模型软测量方法 | |
CN109299263A (zh) | 文本分类方法、电子设备及计算机程序产品 | |
CN110659682A (zh) | 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法 | |
CN115600088A (zh) | 一种基于振动信号的配电变压器故障诊断方法 | |
Zhang et al. | A meta-learning framework for few-shot classification of remote sensing scene | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
CN108830405B (zh) | 基于多指标动态匹配的实时电力负荷预测系统及其方法 | |
CN110647671A (zh) | 一种基于AAE-DWMIL-LearnNSE的数据流分类算法 | |
CN105006231A (zh) | 基于模糊聚类决策树的分布式大型人口语者识别方法 | |
CN110163437B (zh) | 基于DPK-means的日前光伏发电功率预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200103 |
|
WD01 | Invention patent application deemed withdrawn after publication |