CN101251851B

CN101251851B - 基于增量朴素贝叶斯网多分类器集成方法

Info

Publication number: CN101251851B
Application number: CN2008100504258A
Authority: CN
Inventors: 刘大有; 关菁华; 黄晶; 齐红
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2008-02-29
Filing date: 2008-02-29
Publication date: 2010-08-25
Anticipated expiration: 2028-02-29
Also published as: CN101251851A

Abstract

一种基于增量朴素贝叶斯网多分类器集成方法，包括初始化集成分类器及各主要参数；如果没有新数据，结束；使用当前集成分类器预测新数据项的类别；动态更新所有个体分类器的参数值；更新所有个体分类器的权重；如果当前集成分类器对新数据的类别预测不发生错误，则使用新数据项训练集成分类器中的所有个体分类器；根据KL剪枝策略删除冗余个体分类器；增加一个新个体分类器；使用新数据项训练所有个体分类器。本发明能有效改善发生概念漂移时的分类预测结果。此方法特别适合于处理概念漂移问题。

Description

基于增量朴素贝叶斯网多分类器集成方法

技术领域

本发明属于数据挖掘与机器学习领域，涉及一种用于概念漂移数据建模的基于增量朴素贝叶斯网多分类器集成方法。

背景技术

众多应用领域数据不断增加，其包含的模式会随时间和应用环境而变化，被称为“概念漂移”。目前国内外在处理概念漂移方面已进行了大量研究，提出了多种模式学习方法。它们可归结成两类：基于实例选择的方法，如Widmer和Kubat等人提出的FLORA系列算法、Lazarescu等人提出的自适应调整窗口大小的算法和Salganicoff的TMF(Time-Windowed Forgetting)算法等。基于实例选择的方法由于使用一个全局分类器，遗忘了所有的历史信息，所以不能很好的处理概念漂移问题。

基于集成的方法通过保留过去学习到的概念，既避免了灾难性遗忘又避免了因保存大量实例所需占用的计算资源。为了处理概念漂移问题，这类方法需根据原有概念与当前数据的一致性动态删除一些旧的分类器，生成新的分类器。这类方法主要包括Littlestone等人提出的Weighted Majority(WM)算法、Freund等人提出的Hedge算法、Street和Kim提出的算法、Kolter等人提出的AddExp(Additiveexpert)集成算法、KBS和Wang H.等人提出的用于处理概念漂移数据流的集成算法等。已有的基于集成的方法不能及时丢弃无用分类器，造成错误概念的干扰，影响分类预测结果。

发明内容

本发明的目的是提供一种用于处理概念漂移问题的集成方法，该方法一方面通过动态改变(Kolter等人提出的)AddExp算法中的参数来提高算法的分类性能，另一方面利用基于KL距离的剪枝策略删除集成中冗余的个体分类器，从而及时丢弃无用分类器。

为达到上述目的，本发明提供一种基于增量朴素贝叶斯网多分类器集成方法，其特征在于包括下列步骤：

初始化集成分类器及各主要参数；

如果没有新数据，结束；

使用当前集成分类器预测新数据项的类别；

动态更新所有个体分类器的参数值；

更新所有个体分类器的权重；

如果当前集成分类器对新数据的类别预测不发生错误；则使用新数据项训练集成分类器中的所有个体分类器；

根据KL剪枝策略删除冗余个体分类器；

增加一个新个体分类器；

使用新数据项训练所有个体分类器。

采用增量式朴素贝叶斯网算法完成给个体分类器的建模任务。

为每个分类器分配一个β值，β_i表示第i个分类器的β值，β_i能度量分类器i在发生预测错误时，其权重变化的幅度。β_i随分类器i连续未发生预测错误的实例个数而变化，用于动态改变个体分类器权重。

采用基于KL距离的剪枝方法删除冗余个体分类器。

采用加权投票的方法融合多个分类器。

本发明方法保留不同时间段产生的多个个体分类器，从而保留住必要的历史信息，避免了灾难性遗忘。本发明还能及时丢弃无用分类器，有效改善发生概念漂移时的分类预测结果。

附图说明

图1是本发明实施方式的流程图；

图2是在STAGGER数据集上的预测准确性比较。

具体实施方式

下面将对本发明进行详细说明。

本发明的基本思想是为每个分类器分配一个权重，分类器都使用相同的训练和预测算法，但被创建的时间步不同。分类结果融合采用加权投票的方法。当一个分类器发生预测错误时，其权重乘以常数β。为每个分类器都分配一个β值，β_i表示分类器i的β值，其能度量分类器i在发生预测错误时，其权重变化的幅度。β_i随对应分类器连续没发生预测错误的实例个数变化而变化。当集成算法发生预测错误时，使用KL剪枝策略删除冗余个体分类器，增加一个新分类器。

参照图1，该实施方式流程开始于步骤101；然后，在步骤102初始化集成分类器及各主要参数N₁←1，w_1，1←1，β₁←βMax(N_t表示t时间步，集成分类器中个体分类器的个数；w_t，i表示t时间步，分类器i的权重；β_i表示分类器i的β值，其能度量分类器i在发生预测错误时，其权重变化的幅度)；

在步骤103，判断是否有新数据；

如果步骤103的结果为“否”，则流程进入步骤111；否则进入步骤104；

在步骤104，先使用当前集成分类器中的个体分类器对新数据项的类别进行预测，然后采用加权投票的方法融合多个分类器；

在步骤105，更新所有个体分类器的β，具体过程如下：

如果(β_i≤βOpt)(i＝1，...，N_t)

则

β_{i} &LeftArrow; (βOpt - βstep {\times 2}^{notChangeNu m_{i}})

如果(β_i＜βMin)则β_i←βMin

否则β_i←(β_i-0.1)

其中notChangNum_i为第i个分类器连续没发生预测错误的次数；

βstep，βOpt，βMax，βMin，γ均为(0，1)的实数；

在步骤106，根据个体分类器的β，以及个体分类器对新数据的分类准确性更新个体分类器的权重，公式如下：

w_{t + 1, i} {&LeftArrow; w}_{t, i} β_{i}^{Sgn (c_{t} &NotEqual; ξ_{t, i})} (i = 1, . . ., N_{t})

其中函数Sgn定义为：

Sgn (x = y) = \{\begin{matrix} 1 & if & x = y \\ 0 & if & x &NotEqual; y \end{matrix}

c_t表示数据项x_t(t时间步新加入的数据项)实际类别，ξ_t，i(ξ_t，i∈C)表示在时间步t，分类器i对数据项x_t类别的预测结果；

在步骤107，判断当前集成分类器对新数据的类别预测是否发生错误；

如果步骤107的结果为否，则流程进入步骤110；否则进入步骤108。

在步骤108，使用KL剪枝策略删除冗余个体分类器；

基于KL距离剪枝算法的主要思想是，当一个新分类器被加入时，找到KL距离小于某个预设阈值λ的个体分类器对，将权重较小的个体分类器的权重补加给被保留的个体分类器，同时删除权重较小的个体分类器，从而及时丢弃无用的专家，错误概念的干扰，使算法具有自适应能力。

两个概率分布p和q的KL距离(Kullback-Leibler divergence)也称为相对熵，其表示两个概率分布之间的相似程度，KL距离越小，说明两个概率分布越相似。KL距离可由公式(1)计算

KL (p | | q) = \underset{x}{Σ} p (x) \log \frac{p (x)}{q (x)} - - - (1)

假设θ和θ′分别表示两个朴素贝叶斯分类器描述的联合概率分布，并且两个联合概率的KL距离可以根据网络结构进行分解，得到公式(2)

KL (θ | | θ^{'}) = \underset{i}{Σ} KL (P_{θ} (X_{i} | π_{i}) | | P_{θ^{'}} (X_{i} | π_{i})) - - - (2)

其中π_i表示节点X_i的父亲节点集。

条件KL距离可由公式(3)计算

KL (P_{θ} (X_{i} | π_{i}) | | P_{θ^{'}} (X_{i} | π_{i})) = \underset{π}{Σ} P (π) KL (P_{θ} (X_{i} | π) | | P_{θ^{'}} (X_{i} | π) - - - (3)

对于朴素贝叶斯来说，每个属性节点只有分类节点一个父亲节点，所以公式(3)可变换成公式(4)：

KL (P_{θ} (X_{i} | C) | | P_{θ^{'}} (X_{i} | C)) = \underset{c &Element; C}{Σ} P (c) KL (P_{θ} (X_{i} | c) | | P_{θ^{'}} (X_{i} | c) - - - (4)

将公式(3)和(4)代入公式(2)，得到公式(5)

KL (θ | | θ^{'}) = \underset{c &Element; C}{Σ} KL (P_{θ} (c) | | P_{θ^{'}} (c)) + \underset{i}{Σ} \underset{c &Element; C}{Σ} P (c) KL (P_{θ} (X_{i} | c) | | P_{θ^{'}} (X_{i} | c) - - - (5)

通过上式可以计算出两个朴素贝叶斯网分类器之间的KL距离。

在步骤109，将一个新个体分类器加入经过步骤108剪枝操作获得的集成分类器，N_t+1←N_t+1；

w_{t + 1, N_{t + 1}} {&LeftArrow; γΣ}_{i = 1}^{N_{t}} w_{t, i};

β_{N_{t + 1}} &LeftArrow; βMax;

在步骤110，使用新数据项训练集成分类器中的所有个体分类器，采用了增量式朴素贝叶斯分类器学习算法作为本发明的个体分类器学习算法；

步骤110之后，返回步骤103进行判断；

流程结束于步骤111。

实验例

本发明采用概念漂移问题经典数据集STAGGER对DynamicAddExp(基于增量朴素贝叶斯网多分类器集成方法)进行了性能分析。STAGGER数据集的实例空间由三个属性描述：size＝{small，medium，large}，color＝{red，green，blue}，和shape＝{square，circular，triangular}。类别标签class∈{-1，+1}。三个目标概念如下定义：(1)size＝small并且color＝red；(2)color＝green或shape＝circular；(3)size＝(medium或large)。随机产生120个训练实例，根据当前的概念给每个实例分配一个类别。每40个训练实例同属于一个概念，概念序列为：(1)-(2)-(3)。每个时间步，分类器从一个实例学习知识，并且对包含100个实例的测试集进行预测准确性测试。测试实例也是根据当前概念随机产生。所有实验均取50次实验结果的平均值作为各算法的预测准确率。

根据经验，本发明选择βOpt＝0.7，βMax＝0.8，βMin＝0.1，βstep＝0.01，γ＝0.1，λ＝0.1作为输入参数。对基于增量朴素贝叶斯网多分类器集成方法(DynamicAddExp)与AddExp、单一朴素贝叶斯分类器(Naive Bayes)和单一概念使用单一朴素贝叶斯分类器(NaiveBayes on each concept)三种方法进行分类性能比较。

由图2可以看出，处于第一个概念时，所有的方法性能相差无几。当目标概念发生改变时，即发生概念漂移时，Naive Bayes(朴素贝叶斯)不能快速调整到新的概念，而AddExp和DynamicAddExp(基于增量朴素贝叶斯网多分类器集成方法)都能较快速地收敛到单一概念使用单一朴素贝叶斯分类方法达到的性能，并且DynamicAddExp(基于增量朴素贝叶斯网多分类器集成方法)比AddExp收敛速度更快。

Claims

1.一种基于增量朴素贝叶斯网多分类器集成方法，其特征在于包括下列步骤：

初始化集成分类器及各主要参数；

判断是否有新数据，如果没有新数据，结束整个多分类器集成方法；

如果有新数据，则使用当前集成分类器预测新数据的类别；

动态更新所有个体分类器的参数值；

更新所有个体分类器的权重；

判断当前集成分类器对新数据的类别预测是否发生错误，如果预测不发生错误，则使用新数据训练集成分类器中的所有个体分类器；

如果预测发生错误，则根据基于相对熵的剪枝方法删除冗余个体分类器；增加一个新的个体分类器；使用新数据训练所有个体分类器。

2.根据权利要求1所述的基于增量朴素贝叶斯网多分类器集成方法，其特征在于：采用增量式朴素贝叶斯网算法完成给个体分类器的建模任务。

3.根据权利要求1所述的基于增量朴素贝叶斯网多分类器集成方法，其特征在于：为每个个体分类器分配一个β值，β_i表示第i个个体分类器的β值，β_i能度量个体分类器i在发生预测错误时，其权重变化的幅度，β_i随个体分类器i连续未发生预测错误的实例个数而变化，用于动态改变个体分类器权重。

4.根据权利要求1所述的基于增量朴素贝叶斯网多分类器集成方法，其特征在于：采用加权投票的方法融合多个个体分类器。