CN101251851B - 基于增量朴素贝叶斯网多分类器集成方法 - Google Patents

基于增量朴素贝叶斯网多分类器集成方法 Download PDF

Info

Publication number
CN101251851B
CN101251851B CN2008100504258A CN200810050425A CN101251851B CN 101251851 B CN101251851 B CN 101251851B CN 2008100504258 A CN2008100504258 A CN 2008100504258A CN 200810050425 A CN200810050425 A CN 200810050425A CN 101251851 B CN101251851 B CN 101251851B
Authority
CN
China
Prior art keywords
classifier
individual segregation
individual
increment
new data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008100504258A
Other languages
English (en)
Other versions
CN101251851A (zh
Inventor
刘大有
关菁华
黄晶
齐红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN2008100504258A priority Critical patent/CN101251851B/zh
Publication of CN101251851A publication Critical patent/CN101251851A/zh
Application granted granted Critical
Publication of CN101251851B publication Critical patent/CN101251851B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于增量朴素贝叶斯网多分类器集成方法,包括初始化集成分类器及各主要参数;如果没有新数据,结束;使用当前集成分类器预测新数据项的类别;动态更新所有个体分类器的参数值;更新所有个体分类器的权重;如果当前集成分类器对新数据的类别预测不发生错误,则使用新数据项训练集成分类器中的所有个体分类器;根据KL剪枝策略删除冗余个体分类器;增加一个新个体分类器;使用新数据项训练所有个体分类器。本发明能有效改善发生概念漂移时的分类预测结果。此方法特别适合于处理概念漂移问题。

Description

基于增量朴素贝叶斯网多分类器集成方法
技术领域
本发明属于数据挖掘与机器学习领域,涉及一种用于概念漂移数据建模的基于增量朴素贝叶斯网多分类器集成方法。
背景技术
众多应用领域数据不断增加,其包含的模式会随时间和应用环境而变化,被称为“概念漂移”。目前国内外在处理概念漂移方面已进行了大量研究,提出了多种模式学习方法。它们可归结成两类:基于实例选择的方法,如Widmer和Kubat等人提出的FLORA系列算法、Lazarescu等人提出的自适应调整窗口大小的算法和Salganicoff的TMF(Time-Windowed Forgetting)算法等。基于实例选择的方法由于使用一个全局分类器,遗忘了所有的历史信息,所以不能很好的处理概念漂移问题。
基于集成的方法通过保留过去学习到的概念,既避免了灾难性遗忘又避免了因保存大量实例所需占用的计算资源。为了处理概念漂移问题,这类方法需根据原有概念与当前数据的一致性动态删除一些旧的分类器,生成新的分类器。这类方法主要包括Littlestone等人提出的Weighted Majority(WM)算法、Freund等人提出的Hedge算法、Street和Kim提出的算法、Kolter等人提出的AddExp(Additiveexpert)集成算法、KBS和Wang H.等人提出的用于处理概念漂移数据流的集成算法等。已有的基于集成的方法不能及时丢弃无用分类器,造成错误概念的干扰,影响分类预测结果。
发明内容
本发明的目的是提供一种用于处理概念漂移问题的集成方法,该方法一方面通过动态改变(Kolter等人提出的)AddExp算法中的参数来提高算法的分类性能,另一方面利用基于KL距离的剪枝策略删除集成中冗余的个体分类器,从而及时丢弃无用分类器。
为达到上述目的,本发明提供一种基于增量朴素贝叶斯网多分类器集成方法,其特征在于包括下列步骤:
初始化集成分类器及各主要参数;
如果没有新数据,结束;
使用当前集成分类器预测新数据项的类别;
动态更新所有个体分类器的参数值;
更新所有个体分类器的权重;
如果当前集成分类器对新数据的类别预测不发生错误;则使用新数据项训练集成分类器中的所有个体分类器;
根据KL剪枝策略删除冗余个体分类器;
增加一个新个体分类器;
使用新数据项训练所有个体分类器。
采用增量式朴素贝叶斯网算法完成给个体分类器的建模任务。
为每个分类器分配一个β值,βi表示第i个分类器的β值,βi能度量分类器i在发生预测错误时,其权重变化的幅度。βi随分类器i连续未发生预测错误的实例个数而变化,用于动态改变个体分类器权重。
采用基于KL距离的剪枝方法删除冗余个体分类器。
采用加权投票的方法融合多个分类器。
本发明方法保留不同时间段产生的多个个体分类器,从而保留住必要的历史信息,避免了灾难性遗忘。本发明还能及时丢弃无用分类器,有效改善发生概念漂移时的分类预测结果。
附图说明
图1是本发明实施方式的流程图;
图2是在STAGGER数据集上的预测准确性比较。
具体实施方式
下面将对本发明进行详细说明。
本发明的基本思想是为每个分类器分配一个权重,分类器都使用相同的训练和预测算法,但被创建的时间步不同。分类结果融合采用加权投票的方法。当一个分类器发生预测错误时,其权重乘以常数β。为每个分类器都分配一个β值,βi表示分类器i的β值,其能度量分类器i在发生预测错误时,其权重变化的幅度。βi随对应分类器连续没发生预测错误的实例个数变化而变化。当集成算法发生预测错误时,使用KL剪枝策略删除冗余个体分类器,增加一个新分类器。
参照图1,该实施方式流程开始于步骤101;然后,在步骤102初始化集成分类器及各主要参数N1←1,w1,1←1,β1←βMax(Nt表示t时间步,集成分类器中个体分类器的个数;wt,i表示t时间步,分类器i的权重;βi表示分类器i的β值,其能度量分类器i在发生预测错误时,其权重变化的幅度);
在步骤103,判断是否有新数据;
如果步骤103的结果为“否”,则流程进入步骤111;否则进入步骤104;
在步骤104,先使用当前集成分类器中的个体分类器对新数据项的类别进行预测,然后采用加权投票的方法融合多个分类器;
在步骤105,更新所有个体分类器的β,具体过程如下:
如果(βi≤βOpt)(i=1,...,Nt)
β i ← ( βOpt - βstep × 2 notChangeNu m i )
如果(βi<βMin)则βi←βMin
否则βi←(βi-0.1)
其中notChangNumi为第i个分类器连续没发生预测错误的次数;
βstep,βOpt,βMax,βMin,γ均为(0,1)的实数;
在步骤106,根据个体分类器的β,以及个体分类器对新数据的分类准确性更新个体分类器的权重,公式如下:
w t + 1 , i ← w t , i β i Sgn ( c t ≠ ξ t , i ) ( i = 1 , . . . , N t )
其中函数Sgn定义为: Sgn ( x = y ) = 1 if x = y 0 if x ≠ y
ct表示数据项xt(t时间步新加入的数据项)实际类别,ξt,it,i∈C)表示在时间步t,分类器i对数据项xt类别的预测结果;
在步骤107,判断当前集成分类器对新数据的类别预测是否发生错误;
如果步骤107的结果为否,则流程进入步骤110;否则进入步骤108。
在步骤108,使用KL剪枝策略删除冗余个体分类器;
基于KL距离剪枝算法的主要思想是,当一个新分类器被加入时,找到KL距离小于某个预设阈值λ的个体分类器对,将权重较小的个体分类器的权重补加给被保留的个体分类器,同时删除权重较小的个体分类器,从而及时丢弃无用的专家,错误概念的干扰,使算法具有自适应能力。
两个概率分布p和q的KL距离(Kullback-Leibler divergence)也称为相对熵,其表示两个概率分布之间的相似程度,KL距离越小,说明两个概率分布越相似。KL距离可由公式(1)计算
KL ( p | | q ) = Σ x p ( x ) log p ( x ) q ( x ) - - - ( 1 )
假设θ和θ′分别表示两个朴素贝叶斯分类器描述的联合概率分布,并且两个联合概率的KL距离可以根据网络结构进行分解,得到公式(2)
KL ( θ | | θ ′ ) = Σ i KL ( P θ ( X i | π i ) | | P θ ′ ( X i | π i ) ) - - - ( 2 )
其中πi表示节点Xi的父亲节点集。
条件KL距离可由公式(3)计算
KL ( P θ ( X i | π i ) | | P θ ′ ( X i | π i ) ) = Σ π P ( π ) KL ( P θ ( X i | π ) | | P θ ′ ( X i | π ) - - - ( 3 )
对于朴素贝叶斯来说,每个属性节点只有分类节点一个父亲节点,所以公式(3)可变换成公式(4):
KL ( P θ ( X i | C ) | | P θ ′ ( X i | C ) ) = Σ c ∈ C P ( c ) KL ( P θ ( X i | c ) | | P θ ′ ( X i | c ) - - - ( 4 )
将公式(3)和(4)代入公式(2),得到公式(5)
KL ( θ | | θ ′ ) = Σ c ∈ C KL ( P θ ( c ) | | P θ ′ ( c ) ) + Σ i Σ c ∈ C P ( c ) KL ( P θ ( X i | c ) | | P θ ′ ( X i | c ) - - - ( 5 )
通过上式可以计算出两个朴素贝叶斯网分类器之间的KL距离。
在步骤109,将一个新个体分类器加入经过步骤108剪枝操作获得的集成分类器,Nt+1←Nt+1; w t + 1 , N t + 1 ← γΣ i = 1 N t w t , i ; β N t + 1 ← βMax ;
在步骤110,使用新数据项训练集成分类器中的所有个体分类器,采用了增量式朴素贝叶斯分类器学习算法作为本发明的个体分类器学习算法;
步骤110之后,返回步骤103进行判断;
流程结束于步骤111。
实验例
本发明采用概念漂移问题经典数据集STAGGER对DynamicAddExp(基于增量朴素贝叶斯网多分类器集成方法)进行了性能分析。STAGGER数据集的实例空间由三个属性描述:size={small,medium,large},color={red,green,blue},和shape={square,circular,triangular}。类别标签class∈{-1,+1}。三个目标概念如下定义:(1)size=small并且color=red;(2)color=green或shape=circular;(3)size=(medium或large)。随机产生120个训练实例,根据当前的概念给每个实例分配一个类别。每40个训练实例同属于一个概念,概念序列为:(1)-(2)-(3)。每个时间步,分类器从一个实例学习知识,并且对包含100个实例的测试集进行预测准确性测试。测试实例也是根据当前概念随机产生。所有实验均取50次实验结果的平均值作为各算法的预测准确率。
根据经验,本发明选择βOpt=0.7,βMax=0.8,βMin=0.1,βstep=0.01,γ=0.1,λ=0.1作为输入参数。对基于增量朴素贝叶斯网多分类器集成方法(DynamicAddExp)与AddExp、单一朴素贝叶斯分类器(Naive Bayes)和单一概念使用单一朴素贝叶斯分类器(NaiveBayes on each concept)三种方法进行分类性能比较。
由图2可以看出,处于第一个概念时,所有的方法性能相差无几。当目标概念发生改变时,即发生概念漂移时,Naive Bayes(朴素贝叶斯)不能快速调整到新的概念,而AddExp和DynamicAddExp(基于增量朴素贝叶斯网多分类器集成方法)都能较快速地收敛到单一概念使用 单一朴素贝叶斯分类方法达到的性能,并且DynamicAddExp(基于增量朴素贝叶斯网多分类器集成方法)比AddExp收敛速度更快。

Claims (4)

1.一种基于增量朴素贝叶斯网多分类器集成方法,其特征在于包括下列步骤:
初始化集成分类器及各主要参数;
判断是否有新数据,如果没有新数据,结束整个多分类器集成方法;
如果有新数据,则使用当前集成分类器预测新数据的类别;
动态更新所有个体分类器的参数值;
更新所有个体分类器的权重;
判断当前集成分类器对新数据的类别预测是否发生错误,如果预测不发生错误,则使用新数据训练集成分类器中的所有个体分类器;
如果预测发生错误,则根据基于相对熵的剪枝方法删除冗余个体分类器;增加一个新的个体分类器;使用新数据训练所有个体分类器。
2.根据权利要求1所述的基于增量朴素贝叶斯网多分类器集成方法,其特征在于:采用增量式朴素贝叶斯网算法完成给个体分类器的建模任务。
3.根据权利要求1所述的基于增量朴素贝叶斯网多分类器集成方法,其特征在于:为每个个体分类器分配一个β值,βi表示第i个个体分类器的β值,βi能度量个体分类器i在发生预测错误时,其权重变化的幅度,βi随个体分类器i连续未发生预测错误的实例个数而变化,用于动态改变个体分类器权重。
4.根据权利要求1所述的基于增量朴素贝叶斯网多分类器集成方法,其特征在于:采用加权投票的方法融合多个个体分类器。
CN2008100504258A 2008-02-29 2008-02-29 基于增量朴素贝叶斯网多分类器集成方法 Expired - Fee Related CN101251851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100504258A CN101251851B (zh) 2008-02-29 2008-02-29 基于增量朴素贝叶斯网多分类器集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100504258A CN101251851B (zh) 2008-02-29 2008-02-29 基于增量朴素贝叶斯网多分类器集成方法

Publications (2)

Publication Number Publication Date
CN101251851A CN101251851A (zh) 2008-08-27
CN101251851B true CN101251851B (zh) 2010-08-25

Family

ID=39955242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100504258A Expired - Fee Related CN101251851B (zh) 2008-02-29 2008-02-29 基于增量朴素贝叶斯网多分类器集成方法

Country Status (1)

Country Link
CN (1) CN101251851B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901345B (zh) * 2009-05-27 2013-02-27 复旦大学 一种差异蛋白质组学的分类方法
CN102750286B (zh) * 2011-04-21 2016-01-20 常州蓝城信息科技有限公司 一种处理缺失数据的新型决策树分类器方法
CN102682050A (zh) * 2011-11-14 2012-09-19 吉林大学 复杂网络多元结构模式表征与发现方法
CN103761433A (zh) * 2014-01-14 2014-04-30 河南科技大学 一种网络服务资源分类方法
CN105373800A (zh) * 2014-08-28 2016-03-02 百度在线网络技术(北京)有限公司 分类方法及装置
CN104391860B (zh) * 2014-10-22 2018-03-02 安一恒通(北京)科技有限公司 内容类别检测方法及装置
CN104809477B (zh) * 2015-05-12 2018-08-28 河海大学 一种基于几何语义的遗传规划分类方法
CN105574544A (zh) * 2015-12-16 2016-05-11 平安科技(深圳)有限公司 一种数据处理方法和装置
CN105740914A (zh) * 2016-02-26 2016-07-06 江苏科海智能系统有限公司 一种基于近邻多分类器集成的车牌识别方法及系统
CN106066936A (zh) * 2016-05-30 2016-11-02 北京千安哲信息技术有限公司 一种提高药物不良反应预测精度的方法及系统
CN108596255A (zh) * 2018-04-25 2018-09-28 苏州大学 兼顾公平性的上下文感知学习的结果预测分类器
CN109343952B (zh) * 2018-08-22 2020-11-27 东软集团股份有限公司 贝叶斯网络确定方法、装置、存储介质和电子设备
US20200364503A1 (en) * 2019-05-15 2020-11-19 International Business Machines Corporation Accurate ensemble by mutating neural network parameters
CN110568286B (zh) * 2019-09-12 2021-08-24 齐鲁工业大学 基于加权的双隐朴素贝叶斯的变压器故障诊断方法及系统
CN113569017B (zh) * 2021-01-28 2024-05-10 腾讯科技(深圳)有限公司 一种模型处理方法、装置、电子设备及存储介质
CN115577287B (zh) * 2022-09-30 2023-05-30 湖南工程学院 数据处理方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN101251851A (zh) 2008-08-27

Similar Documents

Publication Publication Date Title
CN101251851B (zh) 基于增量朴素贝叶斯网多分类器集成方法
Shao et al. Traffic flow prediction with long short-term memory networks (LSTMs)
CN112382082B (zh) 一种拥堵区域交通运行状态预测方法及系统
Ren et al. Knowledge-maximized ensemble algorithm for different types of concept drift
Liu et al. An improved naive Bayesian classifier technique coupled with a novel input solution method [rainfall prediction]
Davis et al. Grids versus graphs: Partitioning space for improved taxi demand-supply forecasts
Hassan et al. A hybrid of multiobjective Evolutionary Algorithm and HMM-Fuzzy model for time series prediction
Abraham et al. Rainfall forecasting using soft computing models and multivariate adaptive regression splines
CN107292097B (zh) 基于特征组的中医主症选择方法
CN114780739B (zh) 基于时间图卷积网络的时序知识图谱补全方法及系统
CN116468186A (zh) 一种航班链延误时间预测方法、电子设备及存储介质
Verma Study and Evaluation of classification algorithms in data mining
CN110020435A (zh) 一种采用并行二进制蝙蝠算法优化文本特征选择的方法
CN107274086A (zh) 一种基于隐马尔可夫模型的网格化社会治理信息方法
Denham et al. HDSM: A distributed data mining approach to classifying vertically distributed data streams
Bureva et al. Hierarchical generalized net model of the process of selecting a method for clustering
Kaur et al. Comparative analysis of fuzzy decision tree and logistic regression methods for pavement treatment prediction
Abdullatif et al. Tracking time evolving data streams for short-term traffic forecasting
Mal-Sarkar et al. Spatio-temporal pattern discovery in sensor data: a multivalued decision systems approach
CN114444763A (zh) 基于afsa-gnn的风电功率预测方法
Chan et al. Duality between feature selection and data clustering
Bushara Weather forecasting using soft computing models: A comparative study
Göçken et al. Integrating metaheuristics and ANFIS for daily mean temperature forecasting
Lima et al. An automatic method for construction of ensembles to time series prediction
Furze et al. Implementing stochastic distribution within the utopia plane of primary producers using a hybrid genetic algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100825

Termination date: 20170229