CN102184422A

CN102184422A - 一种平均错分代价最小化的分类器集成方法

Info

Publication number: CN102184422A
Application number: CN2011101262309A
Authority: CN
Inventors: 付忠良; 赵向辉; 姚宇; 李昕
Original assignee: Chengdu Information Technology Co Ltd of CAS
Current assignee: Chengdu Information Technology Co Ltd of CAS
Priority date: 2011-05-15
Filing date: 2011-05-15
Publication date: 2011-09-14
Anticipated expiration: 2031-05-15
Also published as: CN102184422B

Abstract

本发明公开了一种平均错分代价最小化的分类器集成方法，该方法包括如下步骤：S1、获取训练样本集；S2、初始化样本权值并赋初值，S3、迭代T次后，训练得到T个最佳弱分类器，包括如下步骤：S31、基于有权值的训练样本集S训练弱分类器；S32、根据步骤S31的结果来调整样本权值，S33、判断t是否小于T，若是，则令t＝t+1，返回步骤S31，若否，则进入步骤S4；S4、组合T个最佳弱分类器得到最佳组合分类器，本发明相对于现有技术，可真正实现分类结果向错分代价小的类集中，并在不直接要求各个分类器相互独立的条件下，确保训练错误率随着训练的分类器的个数增加而降低，解决了目前已有的代价敏感学习方法只能向错分代价总和最小的类集中的问题。

Description

一种平均错分代价最小化的分类器集成方法

技术领域

本发明涉及机器学习和模式识别方法，特别涉及一种平均错分代价最小化的分类器集成方法，具体涉及到多分类代价敏感学习的分类器集成方法和多标签分类问题的分类器集成方法。

背景技术

目前的分类方法一般都追求分类准确率，即分类错误率最小，其基于所有类被错分的代价相等。当不同类被错分的代价不等时，便引出了代价敏感分类问题，此时要求设计的分类器满足错分代价最小而非分类错误率最小。目前已有不少代价敏感学习方法，如Domingos等人于1999年在文章《MetaCost：A general method for making classifiers cost-sensitive》中采用元代价处理方法把一般的分类模型转换成代价敏感分类模型的方法，Elkan和Bruka等人在文章《The foundations of cost-sensitive learning》和《A support for decision making：Cost-sensitive learning system》中也指出用错分代价调整样本初始分布来解决代价敏感分类的集成学习方法，以及Ling等人于2006年在文章《Test strategies for cost-sensitive decision trees》中提出的一些最小代价决策分类法等。Ling等人于2007年在文章《A comparative study of cost-sensitive classifiers》，叶志飞等人于2009年在文章《不平衡分类问题研究综述》中都对目前已有的众多代价敏感学习算法进行了比较。在众多代价敏感学习方法中，基于AdaBoost引入错分代价的代价敏感学习方法，因AdaBoost算法自身具有的显著性能，在代价敏感学习方法中受到了更多的重视和关注。

目前的代价敏感学习方法主要针对二分类问题，已有的多分类问题的代价敏感学习方法只能区分错分代价总和而无法区分错分成不同类代价的差异。郝红卫等人在专利CN101154266A中提出了一种分类器动态选择与循环集成方法，高常鑫等人在专利CN100587708C中阐述了一种分类器集成方法，Zhu和Fu等人于2009年分别在文章《Multi-class AdaBoost》和《Effictive property and best combination of classifiers linear combination》中考虑了直接用于多分类问题的集成学习方法，但都没有引入代价。

对多分类的代价敏感分类，目前通常做法是把问题转换成多级二分类问题来处理，为此必须进行错分代价的合并，但只能考虑每一类被错分的代价总和而无法区分被错分成不同类的代价。合并错分代价完全掩盖了不同错分代价的差异，无法获得真正的错分代价最小化分类器。

多标签分类问题是一种比较复杂的分类问题，它不同于两类分类问题，它允许问题中存在多个类别(或称为标签)；不同于多类分类问题，它允许样本同时属于多个类别；它不同于单标签分类问题(包括两类问题和多类问题)，在单标签分类问题中，标签(类别)与标签之间都是相互排斥的，每个样本只能属于唯一的一个类别，而在多标签分类问题中，标签与标签之间是相瓦关联的，允许问题中的部分样本同时属于多个标签。由于多标签分类问题的复杂性和广泛的应用价值，引起了越来越多国内外研究者的关注，并取得了一定的成果。

目前，对于多标签分类问题在许多文献资料中都有相关的研究，已形成多种解决多标签分类问题的方法，根据总体设计思路不同，一般分为两种：一种是基于数据分解的多标签分类方法；一种是基于单个优化问题的多标签分类方法。其中，基于数据分解的多标签分类方法实质上是将多标签分类问题分解为多个单标签分类子问题，然后使用现有的单标签分类方法处理这些子问题，再将所有子问题的解集成，最终得到总的多标签分类问题的解。再者是基于单个优化问题的多标签分类方法，它通过对一般的分类方法进行改造，只建立一个最优化问题直接处理数据集中的所有样本，从而完成能够直接处理多标签分类问题的任务。在多标签数据集中的样本拥有多个标签，怎样建立和求解这样的最优化问题是要解决的重要问题，它没有改变数据集的结构，没有破坏类别之间的关联关系，反映了多标签分类的特殊性质，但该方法的实现有一定的难度。总的来说，构造多标签分类问题的集成学习方法是很难的。

发明内容

针对现有技术存在的问题，本发明的主要目的在于提供一种平均错分代价最小化的分类器集成方法，该方法能够真正实现分类结果偏向错分代价较小的类，并在不直接要求各个分类器相互独立的条件下，确保训练错误率随着训练的分类器的个数增加而降低。

为实现上述目的，本发明的技术方案构思原理如下：

本发明采取把用符号函数表示的错分代价的极值问题转换成用指数函数表示的极值问题，并基于递推思想，得到了一种平均错分代价最小化的分类器集成方法。

对训练样本集S＝{(x₁，y₁)，...，(x_m，y_m)}，考虑K分类问题，y_i∈{1，2，...，K}。弱分类器h_t(x)输出标签l的置信度为h_t(x，l)，l＝1，...，K.(x，y)∈S简记为x∈S。

集成学习方法通常指通过某种方式得到T个弱分类器h_t(x)，t＝1，...，T，然后进行组合得到分类性能更好的组合分类器。线性组合最常用，令

即

l＝1，...，K，组合分类器

即输出累积置信度最大对应标签。C＝c(i，j)_K×K为代价矩阵，c(i，j)表示i类被错分成j类的代价，c(i，j)≥0，c(i，i)＝0。集成学习方法就是训练h_t(x)使平均错分代价最小，即希望式(1)取到最小值。

ϵ_{cs} = Σ_{i = 1}^{m} (ω_{i} Σ_{l = 1}^{K} c (y_{i}, l) [[H (x_{i}) = l]]) - - - (1)

其中ω_i＝1/m，条件π满足时

为1否则为0。

由于式(1)的取值不仅取决于具体的弱分类器h_t(x)，而且还取决于参与组合的弱分类器的个数T，当T值一定，如何训练T个弱分类器h_t(x)(t＝1，...，T)使式(1)取到最小值是一个在全分类器空间的寻优问题，这是一个非常困难的问题。既然最终目的是使平均错分代价ε_cs尽量小，如果能通过增加弱分类器个数来减小ε_cs，并且随着T趋于无穷而ε_cs趋于零，则对每增加单个h_t(x)能否使得式(1)取到最小值就显得不重要了。下面的方法正是采取先对式(1)放大，对放大后的表达式在分类器空间寻优如果有好的方法，如果其仍然能随T增加而ε_cs减小，并满足lim_T→∞ε_cs＝0，该方法就是一种可行的集成学习方法。

为f(x)输出置信度平均值，有如果H(x_i)＝k，则

此时

于是有由于

因此

ϵ_{cs} = Σ_{i = 1}^{m} (ω_{i} Σ_{l = 1}^{K} c (y_{i}, l) [[H (x_{i}) = l]]) \leq Σ_{i = 1}^{m} (ω_{i} Σ_{l = 1}^{K} c (y_{i}, l) \exp (f (x_{i}, l) - \overset{&OverBar;}{f} (x_{i}))) = Z_{0} Σ_{i = 1}^{m} Σ_{l = 1}^{K} (ω_{i, l}^{1} Π_{t = 1}^{T} \exp (h_{t} (x_{i}, l) - \overset{&OverBar;}{h_{t}} (x_{i}))) - - - (2)

其中

Z₀为

的归一化因子。根据前面的分析，如何训练h_t(x)使式(1)尽量小可转为训练h_t(x)使式(2)尽量小，而式(2)的最小值点可逐个训练h_t(x)来实现。

先训练h_t(x)，式(2)变一种形式

Z_{0} Σ_{i = 1}^{m} Σ_{l = 1}^{K} (ω_{i, l}^{1} \exp (h_{1} (x_{i}, l) - \overset{&OverBar;}{h_{1}} (x_{i})) Π_{t = 2}^{T} \exp (h_{t} (x_{i}, l) - \overset{&OverBar;}{h_{t}} (x_{i}))) - - - (3)

记

i＝1，...，m，l＝1，...，K，其正是除h_t(x)外其余T-1个弱分类器构成的组合分类器

针对x_i输出标签l的累积置信度与平均累积置信度之差的指数函数值。如果该分类器能正确分类x_i，temp(i，y_i)将最大，即temp(i，y_i)≥temp(i，l)。因此，在无其它先验信息条件下，除temp(i，y_i)可能取到最大值外，其它temp(i，l)(l≠y_i)可假设近似相等，但

于是式(3)极小值点可用式(4)极小值点近似代替。

Σ_{i = 1}^{m} Σ_{l = 1}^{K} (ω_{i, l}^{1} \exp (h_{1} (x_{i}, l) - \overset{&OverBar;}{h_{1}} (x_{i}))) - - - (4)

下面来求式(4)的极小值点。

每个弱分类器h_t(x)的实质是对目标空间的一个划分，对位于同一划分段内的目标输出相同的置信度。该划分对样本集也有一个划分

i≠j时，

当

h_t(x_i)输出l类标签的置信度为h_t(x_i，l)，由于h_t(x_i，l)与x_i所位于的划分段有关，即与

有关，当

h_t(x_i)输出l类标签的置信度记为l＝1，...，K，j＝1，...，n_t。记l＝1，...，K，j＝1，...，n₁，i＝1，...，m。于是有

Σ_{i = 1}^{m} Σ_{l = 1}^{K} (ω_{i, l}^{1} \exp (h_{1} (x_{i}, l) - \overset{&OverBar;}{h_{1}} (x_{i}))) = Σ_{j = 1}^{n_{t}} Σ_{l = 1}^{K} (p_{1}^{j, l} \exp (α_{1}^{j, l} - \frac{1}{K} Σ_{k = 1}^{K} α_{1}^{j, k})) &GreaterEqual; K Σ_{j = 1}^{n_{1}} {(Π_{k = 1}^{K} p_{1}^{j, k})}^{1 / K} - - - (5)

由算术平均大于等于几何平均且各项相等时取到极小值，可得式(4)的极小值点为

α_{1}^{j, l} = - \ln (p_{1}^{j, l}),

l＝1，...，K，j＝1，...，n₁ (6)

因此，训练h₁(x)使式(4)极小转变成了寻找使

取得最小值时样本集的一个划分需要说明的是，对β＞0，

都是式(4)的极小值点。对

而言，所有标签的置信度加减同一常数不影响结果，因此取作为式(2)的近似极小值点，此时极小值为Z₀Z₁。

训练得到h₁(x)后，令

ω_{i, l}^{2} = \frac{ω_{i, l}^{1}}{Z_{1}} \exp (h_{1} (x_{i}, l) - \frac{1}{K} Σ_{k = 1}^{K} h_{1} (x_{i}, k)) - - - (7)

其中，Z₁是

归一化因子。

再训练h₂(x)，此时式(2)为

Z_{0} Z_{1} Σ_{i = 1}^{m} Σ_{l = 1}^{K} (ω_{i, l}^{2} \exp (h_{2} (x_{i}, l) - \overset{&OverBar;}{h_{2}} (x_{i})) Π_{t = 3}^{T} \exp (h_{t} (x_{i}, l) - \overset{&OverBar;}{h_{t}} (x_{i}))) - - - (8)

同样，记i＝1，...，m，l＝1，...，K，其正是除h₁(x)和h₂(x)外其余T-2个弱分类器构成的组合分类器的输出置信度函数。类似前面的分析，在无其它先验信息条件下，除temp(i，y_i)可能取到最大值外，其它temp(i，l)(l≠y_i)可假设近似相等，但

于是式(8)极小值点近似为式(9)极小值点。

Σ_{i = 1}^{m} Σ_{l = 1}^{K} (ω_{i, l}^{2} \exp (h_{2} (x_{i}, l) - \overset{&OverBar;}{h_{2}} (x_{i}))) - - - (9)

式(9)类似式(4)，类似分析得式(9)极小值点

α_{2}^{j, l} = - \ln (p_{2}^{j, l}),

l＝1，...，K，j＝1，...，n₂ (10)

其中

l＝1，...，K，j＝1，...，n₂，i＝1，...，m。此时式(2)的近似极小值为Z₀Z₁Z₂，其中

训练h₂(x)转变成了寻找使Z₂取得最小值时样本集的一个划分

类似地逐个训练各个弱分类器，于是得到一种多分类代价敏感学习的分类器集成方法，该方法包括如下步骤：

S1、获取训练样本集；

S2、初始化样本权值并赋初值；

S3、迭代T次后，训练得到T个最佳弱分类器；

S4、组合T个最佳弱分类器得到最佳组合分类器，

所述步骤S2给训练样本赋初值的方法为：

其中，i＝1，...，m，l＝1，...，K，y_i∈{1，2，...，K}，Z₀为

的归一化因子，c(y_i，l)表示y_i类被错分成l类的代价，m为训练样本数；

所述步骤S3具体包括如下步骤：

S31、基于有权值

的训练样本集S训练弱分类器，t＝1，...，T，通过如下步骤实现：

S311、对应样本集S的划分，

计算

其中j＝1，...，n_t，l表示多分类问题中的类，x_i表示第i个样本，表示

划分段内l标签子集不包含x_i的概率；

S312、定义弱分类器h_t(x)，当时，有

其中，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度；

S313、选取弱分类器h_t(x)，使

最小，其中，Z_t代表样本权值调整后的归一化因子；

S32、根据步骤S31的结果来调整样本权值，

S33、判断t是否小于T，若是，则令t＝t+1，返回步骤S31，若否，则进入步骤S4。

更进一步地，组合T个最佳弱分类器得到最佳组合分类器的方法为：

其中

上述多分类代价敏感学习的分类器集成方法中，令c(i，i)＝0，c(i，j)＝1(i≠j)，即代价相等且K＞2时，该方法简化为一种新的多分类的连续AdaBoost集成学习方法，通过如下步骤实现：

S1、获取训练样本集；

S2、初始化样本权值并赋初值；

S3、迭代T次后，训练得到T个最佳弱分类器；

S4、组合T个最佳弱分类器得到最佳组合分类器，

所述步骤S2给训练样本赋初值的方法为：

i＝1，...，m，l＝1，...，K，Z₀是归一化因子，其中c(i，i)＝0，当i≠j时c(i，j)＝1；

所述步骤S3具体包括如下步骤：

S31、基于有权值

S311、对应样本集S的划分，

计算其中j＝1，...，n_t，l表示多分类问题中的类，x_i表示第i个样本，

相当于

划分段内l标签子集不包含x_i的概率；

S312、定义弱分类器h_t(x)，当

时，有

其中，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度；

S313、选取弱分类器h_t(x)，使

最小，其中，Z_t代表样本权值调整后的归一化因子；

S32、根据步骤S31的结果来调整样本权值，

更进一步地，组合T个最佳弱分类器得到最佳组合分类器的方法为：其中

在多标签分类问题中，此时样本集为S＝{(x₁，Y₁），...，(x_m，Y_m)}，其中，L＝{1，2，...，K}。Y_i＝L和

是两种特例。用|Y_i|表示集合Y_i内元素个数，|Y_i|＝1便是单标签分类，|Y_i|＞1就是多标签分类，此时h_t(x)输出一个标签集，为了区别，记为{h_t(x_i)}。组合分类器可定义为：

即累积置信度比平均累积置信度大对应的标签作为H(x)的输出标签集。对r标签集分类问题，H(x)可定义为累积置信度最大的前r个对应标签。

显然，构造分类器的目的仍然是希望分类错误率最小，但不同的分类错误定义可得不同的方法。{h_t(x_i)}≠Y_i就可认为分类错误，但同样是{h_t(x_i)}≠Y_i，

和

具有本质区别。

表示分类预测出部分正确标签，而

表明分类预测完全错误，这种现象在单标签分类问题中不存在，因为单标签分类属于二值判断问题。对{h_t(x_i)}≠Y_i的各种情况，最需要关注的有

和

为此定义θ_i＝|{h_t(x_i)}-Y_i|，γ_i＝|Y_i-{h_t(x_i)}|，β_i＝coverθ_i+c_defγ_i，其中c_over+c_def＝1，c_over和c_def为两个常数，分别代表分类预测标签多于实际标签的单个标签代价和分类预测标签少于实际标签的单个标签代价。对应上述三种分类错误度量，度量分类器的好坏也有三种，仍然称之为分类错误率。分别是

其中ω_i＝1/(mK)，于是0≤ε_θ≤1，0≤ε_γ≤1，0≤ε_β≤1。根据分类错误率含义，称ε_θ最小化的方法为“过预测标签最少化方法”。

令

即当l∈Y_i，C_θ(i，l)＝0，其余C_θ(i，l)＝1，i＝1，...，m，l＝1，...，K。于是

ϵ_{θ} = Σ_{i = 1}^{m} (ω_{i} Σ_{l = 1}^{K} C_{θ} (i, l) [[f (x_{i}, l) &GreaterEqual; \overset{&OverBar;}{f} (x_{i})]]) \leq Σ_{i = 1}^{m} (ω_{i} Σ_{l = 1}^{K} C_{θ} (i, l) \exp (f (x_{i}, l) - \overset{&OverBar;}{f} (x_{i})))

= Z_{0} Σ_{i = 1}^{m} Σ_{l = 1}^{K} (ω_{i, l}^{1} Π_{t = 1}^{T} \exp (h_{t} (x_{i}, l) - \overset{&OverBar;}{h_{t}} (x_{i}))) - - - (11)

其中

Z₀为

的归一化因子。式(11)与式(2)类似，按照前面类似的推导，可得式(11)取到近似极小值的集成学习方法，即一种过预测标签最少化Adaboost集成学习方法。

最小化的方法称为“欠预测标签最少化方法”。令

即当l∈Y_i，C_γ(i，l)＝1，其余C_γ(i，l)＝0，i＝1，...，m，l＝1，...，K。于是

ϵ_{γ} = Σ_{i = 1}^{m} (ω_{i} Σ_{l = 1}^{K} C_{γ} (i, l) [[f (x_{i}, l) < \overset{&OverBar;}{f} (x_{i})]]) \leq Σ_{i = 1}^{m} (ω_{i} Σ_{l = 1}^{K} C_{γ} (i, l) \exp (- f (x_{i}, l) + \overset{&OverBar;}{f} (x_{i})))

= Z_{0} Σ_{i = 1}^{m} Σ_{l = 1}^{K} (ω_{i, l}^{1} Π_{t = 1}^{T} \exp ({- h}_{t} (x_{i}, l) + \overset{&OverBar;}{h_{t}} (x_{i}))) - - - (12)

其中

Z₀为

的归一化因子。当把-h_t(x)当成h_t(x)时，式(12)与式(2)类似，按照前面类似的推导，可得式(12)取到近似极小值的集成学习方法，即一种欠预测标签最少化AdaBoost集成学习方法。

由ε_β＝c_overε_θ+c_defε_γ，C_γ(i，l)+C_θ(i，l)≡1，于是

ϵ_{β} = Σ_{i = 1}^{m} (ω_{i} (c_{over} θ_{i} + c_{def} γ_{i})) = Σ_{i = 1}^{m} (ω_{i} c_{over} | {h_{t} (x_{i})} - Y_{i} | + ω_{i} c_{def} | Y_{i} - {h_{t} (x_{i})} |)

= Σ_{i = 1}^{m} (ω_{i} c_{over} Σ_{l = 1}^{K} C_{θ} (i, l) [[f (x_{i}, l) &GreaterEqual; \overset{&OverBar;}{f} (x_{i})]] + ω_{i} c_{def} Σ_{l = 1}^{K} C_{γ} (i, l) [[f (x_{i}, l) < \overset{&OverBar;}{f} (x_{i})]]) \leq Σ_{i = 1}^{m} (ω_{i} c_{over} Σ_{l = 1}^{K} C_{θ} (i, l) \exp (f (x_{i}, l) - \overset{&OverBar;}{f} (x_{i})))

+ Σ_{i = 1}^{m} (ω_{i} c_{def} Σ_{l = 1}^{K} C_{γ} (i, l) \exp (- f (x_{i}, l) + \overset{&OverBar;}{f} (x_{i})))

想采用前面类似分析方法得到该式的极值点很困难。因为ε_β＝c_overε_θ+c_defε_γ，一种简单做法是用ε_θ和ε_γ的极值点的加权平均作为ε_β的极值点，即

弱分类器的选取仍然采取把代入ε_β后最小化式策略，于是可得到一种多标签分类问题AdaBoost集成学习方法。

根据以上分析，本发明方法提供的一种过预测标签最少化Adaboost集成学习方法，通过如下步骤实现：

S1、获取训练样本集；

S2a、初始化样本权值并赋初值；

S3a、迭代T次后，训练得到T个最佳弱分类器；

S4a、组合T个最佳弱分类器得到最佳组合分类器，

所述步骤S2a给训练样本赋初值的方法为：

其中，i＝1，...，m，l＝1，...，K，Z₀是

的归一化因子，C_θ(i，l)表示过预测标签最少化时，i类被错分成l类的代价矩阵；

所述步骤S3a具体包括如下步骤：

S31a、基于有权值

S311a、对应样本集S的划分，

计算

其中j＝1，...，n_t，l表示多分类问题中的类，x_i表示第i个样本，

表示划分段

内并标签集包含除标签l外的标签的样本的概率；

S312a、定义弱分类器h_t(x)，当

时，有

其中，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度；

S313a、选取弱分类器h_t(x)，使

最小，其中，Z_t代表样本权值调整后的归一化因子；

S32a、根据步骤S31a的结果来调整样本权值，

ω_{i, l}^{t + 1} = (ω_{i, l}^{t} / Z_{t}) \exp (h_{t} (x_{i}, l) - (1 / K) Σ_{k = 1}^{K} h_{t} (x_{i}, k));

S33a、判断t是否小于T，若是，则令t＝t+1，返回步骤S31a，若否，则进入步骤S4a。

其中

本发明方法提供的一种欠预测标签最少化AdaBoost集成学习方法，通过如下步骤实现：

S1、获取训练样本集；

S2b、初始化样本权值并赋初值；

S3b、迭代T次后，训练得到T个最佳弱分类器；

S4b、组合T个最佳弱分类器得到最佳组合分类器，

所述步骤S2b给训练样本赋初值的方法为：

其中，i＝1，...，m，l＝1，...，K，Z₀是归一化因子，C_γ(i，l)表示欠预测标签最少化时，i类被错分成l类的代价矩阵；

所述步骤S3b具体包括如下步骤：

S31b、基于有权值

S311b、对应样本集S的划分

计算

其中，j＝1，...，n_t，l表示多分类问题中的类，x_i表示第i个样本，

表示划分段

内并标签集包含标签l的样本的概率；

S312b、定义弱分类器h_t(x)，当

时，

其中，j＝1，...，n_t，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度；

S313b、选取弱分类器h_t(x)，使

最小化；

S32b、根据步骤S31b的结果来调整样本权值，

ω_{i, l}^{t + 1} = (ω_{i, l}^{t} / Z_{t}) \exp ({- h}_{t} (x_{i}, l) + (1 / K) Σ_{k = 1}^{K} h_{t} (x_{i}, k));

S33b、判断t是否小于T，若是，则令t＝t+1，返回步骤S31b，若否，则进入步骤S4b。

其中

本发明方法提供的一种多标签分类问题AdaBoost集成学习方法，通过如下步骤实现：

S1、获取训练样本集；

S2c、初始化样本权值并赋初值；

S3c、迭代T次后，训练得到T个最佳弱分类器；

S4c、组合T个最佳弱分类器得到最佳组合分类器，

所述步骤S2c给训练样本赋初值的方法为：

i＝1，...，m，l＝1，...，K，Z₀是

归一化因子；

所述步骤S3c具体包括如下步骤：

S31c、基于有权值

S311c、对应样本集S的划分

计算

表示划分段

内并标签集包含除标签l外的标签的样本的概率，

表示划分段

内并标签集包含标签l的样本的概率；

S312c、定义弱分类器h_t(x)，当

时，其中，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度，c_over和c_def为两个常数，c_over代表分类预测标签多于实际标签的单个标签代价，c_def代表分类预测标签少于实际标签的单个标签代价，且c_over+c_def＝1；

S313c、选取弱分类器h_t(x)，使最小化，其中，

S32c、根据步骤S31c的结果来调整样本权值，

ω_{i, l}^{1, t + 1} = (ω_{i, l}^{1, t} / Z_{t}) \exp (h_{t} (x_{i}, l) - (1 / K) Σ_{k = 1}^{K} h_{t} (x_{i}, k)),

ω_{i, l}^{2, t + 1} = (ω_{i, l}^{2, t} / Z_{t}) \exp ({- h}_{t} (x_{i}, l) + (1 / K) Σ_{k = 1}^{K} h_{t} (x_{i}, k));

S33c、判断t是否小于T，若是，则令t＝t+1，返回步骤S31c，若否，则进入步骤S4c。

本发明相对于现有技术，具有以下有益效果：1、构造出了一种可直接用于多分类问题的代价敏感分类集成学习方法，该方法可真正确保分类结果向错分代价小的类集中，解决了目前已有的代价敏感学习方法只能向错分代价总和最小的类集中这一问题。2、当上述方法中代价相等时得到了一种新的多分类的连续AdaBoost集成学习方法，其与基于Bayes统计推断得到的多分类的连续AdaBoost算法解决问题的角度不同，该方法可确保训练错误率随着训练的分类器个数增加而降低，而且并不直接要求各个分类器相互独立。3、基于构造平均错分代价最小化的分类器集成方法的思路，得到一套比较难构造的多标签分类集成学习方法，即本发明提到的一种过预测标签最少化Adaboost集成学习方法、一种欠预测标签最少化AdaBoost集成学习方法和一种多标签分类问题AdaBoost集成学习方法，不仅考虑了组合分类器分类错误率最小化，而且能区分组合分类器输出标签多于实际标签和少于实际标签，通过调整c_over和c_def的值可选择学习方法的侧重点。4、本发明方法易于实现，可提高多分类器系统的效率，具有更好的分类效果。

附图说明

图1为本发明实施例一的一种多分类代价敏感学习的分类器集成方法流程图

图2为本发明实施例四的一种过预测标签最少化Adaboost集成学习方法流程图

图3为本发明实施例五的一种欠预测标签最少化AdaBoost集成学习方法流程图

图4本发明实施例六一种多标签分类问题AdaBoost集成学习方法流程图

具体实施方式

下面结合附图，详细说明本发明的具体实施方式。

实施例一

下面结合图1说明本发明提供的一种多分类代价敏感学习的分类器集成方法具体流程步骤，该方法包括如下步骤：

S1、获取训练样本集S；

S2、初始化样本权值并赋初值，其中，i＝1，...，m，l＝1，...，K，y_i∈{1，2，...，K}，Z₀为

S3、迭代T次，训练得到T个最佳弱分类器，通过步骤S31～S33来实现：

S31、基于有权值

的训练样本集S训练弱分类器，t＝1，...，T，通过步骤S311～S313来实现：S311、对应样本集S的划分，计算

表示划分段内l标签子集不包含x_i的概率；S312、定义弱分类器h_t(x)，当

时，有

其中，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度；S313、选取弱分类器h_t(x)，使

最小，其中，Z_t代表样本权值调整后的归一化因子；

S32、根据步骤S31的结果来调整样本权值，

S33、判断t是否小于T，若是，则令t＝t+1，返回步骤S31，若否，则进入步骤S4；

S4、组合T个最佳弱分类器得到最佳组合分类器，方法为：

其中

上述方法的平均错分代价为

因为

是归一化的，即所以

Z_{t} = K Σ_{j = 1}^{n_{t}} {(Π_{k = 1}^{K} p_{t}^{j, k})}^{1 / K} \leq Σ_{j = 1}^{n_{t}} Σ_{k = 1}^{K} p_{t}^{j, k} = 1

当且仅当

k，l∈{1，...，K}，上式的等号成立。而对每个j∈{1，...，n_t}都满足该条件的几率很小，除非每个划分段内各类样本分布完全平衡一样，即便如此，都还可以调整划分来破坏该平衡.因此通常都有Z_t＜1，于是，即使对弱分类器不作特殊要求，使用本方法得到的组合分类器的平均错分代价随着弱分类器的个数增加而逐渐减小。

针对多分类代价敏感学习的分类器集成方法，如果训练每个弱分类器都考虑代价，则只需修改该方法中的权值调整公式为

其中Z′_t是

的归一化因子。

本发明方法一的算法时间复杂度与弱分类器的构造方法有关，并且其时间复杂度和空间复杂度与已有的AdaBoost算法一样。当基于样本单属性构造分类器，时间复杂度就为0(mdT)，其中m为训练样本数，d为样本属性个数，T为弱分类器个数。因此本发明是一个比较快的方法。

实施例二

利用本发明的多分类代价敏感学习的分类器集成方法可以实现一种多分类连续AdaBoost集成学习方法，其与实施例一相同之处不再重复，其不同之处在于：

步骤S2给训练样本赋初值时的方法为：

i＝1，...，m，l＝1，...，K，Z₀是归一化因子，其中c(i，i)＝0，当i≠j时c(i，j)＝1。此时平均错分代价简化为训练错误率，实施例一所述的多分类代价敏感学习的分类器集成方法简化为一种新的多分类的连续AdaBoost集成学习方法。

本发明方法对每个样本引入了K个权值，考虑目标能否被正确分类时，关注的是其对立面。

相当于

划分段内l标签子集不包含x_i的概率。取

相当于后验概率仍采用乘积方式。本发明方法输出“在标签类中不出现x_i的后验概率”最小对应的标签。也就是说，本发明方法从“某标签类中不出现目标”的概率最小化来处理问题，而现有技术中基于Bayes统计推断的多分类的连续AdaBoost集成学习方法是从“某标签类中出现目标”的概率最大化来处理问题，二者解决问题的角度不同。

基于Bayes统计推断的多分类连续AdaBoost集成学习方法对弱分类器是有条件要求的，不仅要求相互独立条件，而且还要求各个弱分类器输出正确标签的概率大于1/K，输出其它标签的概率小于1/K，而本发明方法并不要求各个弱分类器相互独立，因此，本发明方法受到的限制更少。

实施例三

下面将本发明提出的一种多分类代价敏感学习的分类器集成方法和一种多分类连续AdaBoost集成学习方法用于实际运用中，并与现有的基于Bayes统计推断的多分类的连续AdaBoost集成学习方法进行比较。

数据选取了UCI数据集上的wine数据集和随机数据集(Random data)，wine数据有3类标签，随机数据集随机生成。实验用随机数据采用MATLAB中的随机矩阵生成函数rand(n)生成n×n矩阵，截取前d列可得到含d个属性的n个样本，再把样本分成3类便得到了一个随机的3分类数据集。随机数据集的类之间无明显差异和各类的内部无明显规律特性决定了其代表性。具体数据集见表1。

表1

数据集	样本数	样本属性数	1类样本数	2类样本数	3类样本数	训练集∶测试集
							Random data	178	24	59	71	48	6∶4
Wine	178	14	59	71	48	6∶4

弱分类器基于单个属性来构造，对属性值进行5段划分，4个分段阈值获取方式为：统计三类样本的中心，和两两相邻中心的平均值(2个)，基于这5个值计算其两两相邻值之平均值，得到4个分段阈值。需要指出的是，基于Bayes统计推断的多分类的连续AdaBoost集成学习方法的每个样本就一个权值，可直接计算类加权中心。而本发明提出的一种多分类代价敏感学习的分类器集成方法和一种多分类连续AdaBoost集成学习方法的每个样本有3个权值，计算类中心时采用了3个权值之和的倒数为加权系数。如前面的分析，本发明方法考虑的是正确标签的对立面，所以采用权值倒数。

随机同比例从试验数据集中抽取训练数据集用于训练分类器，测试剩余的数据集(测试数据集)。为了验证各方法的稳定性，采取多次试验后计算平均代价和代价方差，方差可反映各方法的稳定性。实验中训练30个弱分类器组合，重复20次统计均值和方差。当然，也可训练更多弱分类器或重复更多次，实验结论类似，但弱分类器太少将难以发挥分类器的组合效果。

为了模拟本发明方法对不同错分代价的反应，采取调整代价矩阵C＝c(i，j)_3×3来实现。具体变化情况和对应的实验结果见表2至表9。其中Cost-MCPBoost指本发明提出的多分类代价敏感学习的分类器集成方法，而Cost-UBoost指现有技术的基于Bayes统计推断的多分类的连续AdaBoost集成学习方法。

表2

表3

表4

表5

表6

表7

表8

表9

下面对以上数据结果进行分析：

表2-表6是在随机数据集上的实验，为更直观比较，比较其最后一行代价矩阵：

\begin{matrix} [\begin{matrix} 0 & 11 & 1 \\ 11 & 0 & 1 \\ 1 & 11 & 0 \end{matrix}] \\ (a) \end{matrix} \begin{matrix} [\begin{matrix} 0 & 1 & 11 \\ 11 & 0 & 1 \\ 1 & 11 & 0 \end{matrix}] \\ (b) \end{matrix} \begin{matrix} [\begin{matrix} 0 & 11 & 1 \\ 1 & 0 & 1 \\ 1 & 11 & 0 \end{matrix}] \\ (c) \end{matrix} \begin{matrix} [\begin{matrix} 0 & 1 & 11 \\ 1 & 0 & 1 \\ 1 & 11 & 0 \end{matrix}] \\ (d) \end{matrix} \begin{matrix} [\begin{matrix} 0 & 1 & 11 \\ 1 & 0 & 1 \\ 11 & 1 & 0 \end{matrix}] \\ (e) \end{matrix}

代价矩阵(a)-(e)分别对应表2-表6对应的代价，其c(i，j)＝1处不变，c(i，j)＝11处由1递增到11，用以验证代价变化时各方法结果的变化。

先分析表2，表的每一行，每个类被错分的代价和是一样的，即c(i，1)+c(i，2)+c(i，3)相等，Cost-UBoost因为只能考虑错分代价和，例如对1类，只能考虑1类被错分的代价，而无法区分被错分成2类和3类的代价的不同，因此，将把它作为无错分代价的分类问题来处理。Cost-MCPBoost，则可以区分错分成不同类的代价差异。表2数据表明，随着被错分成其他两类的代价差异越来越大(表的纵向来体现)，Cost-MCPBoost的平均错分代价几乎不变，而Cost-UBoost的平均错分代价则成倍的增加。表2最后一行数据表明，当被错分成其他两类的代价相差10倍时，Cost-MCPBoost得到的平均错分代价比Cost-UBoost低近5倍。并且，比较纵向数据还发现，Cost-MCPBoost似乎对错分代价的增加并不敏感，这似乎难以理解。但详细分析发现，这一现象正好进一步说明了Cost-MCPBoost的科学性。表2的代价矩阵形如(a)，按照这种代价矩阵，1类如果被错分，好的方法应该尽量让其错分到3类，因为始终有c(1，3)＝1。同样，2类被错分也尽量错分到3类，因为c(2，3)＝1，而错分到3类的代价始终没变，因此，错分代价也应该不变，表2数据表明Cost-MCPBoost可以做到这一点。而5倍的效果差异正是平均错分代价的差异，因为，尽管错分的两类的代价相差11倍(表的最后一行)，但错分的平均代价则为(1+11)/(1+1)＝6倍，相差5倍。

再来分析表3，其代价矩阵形如(b)，按照上述分析，由于每一列的代价总和是一样的，因此要把错分类偏向于某个错分代价小的类就做不到了，向1类、2类或3类偏向，错分代价都会增加。表3数据表明，此时，Cost-MCPBoost与Cost-UBoost效果一样，组合分类器的错分代价随着各类错分代价增加而同步增加。

在表4-表6中，c(2，1)+c(2，2)+c(2，3)＝2，即2类被错分的代价始终不变，而1类和3类的错分代价逐渐增加，其代价矩阵形如(c)-(e)。无论何种情况，实验数据表明，Cost-MCPBoost的效果与表2实验效果一样，能够把目标错分到代价小的类上。当代价变化时，Cost-UBoost则有不同结果。

对于表4，只有错分成2类的代价增加，即对应代价矩阵(c)只有第2列累积和增加。因此，Cost-UBoost通过错分代价来调整样本权值，可促使其集中在1类和3类的错分上(2类错分代价不变)，于是可在1类和3类之间相互错分，但不错分为2类，这样，Cost-UBoost与Cost-MCPBoost的效果一样。对于表5，就做不到在1类和3类之间相互错分了，于是Cost-UBoost的错分代价将随着各类的错分代价增加而增加，但比表2对应的代价少一倍。对于表6，分类结果完全无法在1类和3类之间平衡，而2类错分代价小，1类和3类的错分代价大，于是Cost-UBoost得到的效果与表2实验结果一样，效果很差。

可见，在随机数据集上的实验表明，除了错分代价矩阵纵向代价和相等这种平衡错分代价情况，本发明方法均能得到很好的效果。在随机生产的3分类数据集上的实验还表明，当被错分成一类的代价是被错分成另一类的代价的n倍时，Cost-MCPBoost得到的平均错分代价是目前常用的Cost-UBoost方法的2/(n+1)倍，当n较大时，本发明提出的多分类代价敏感学习的分类器集成方法的优势特别明显。比较表2-表6多次实验后得到的错分代价的方差，数据表明Cost-MCPBoost比Cost-UBoost更稳定。

表7-表9是在Wine数据集上的实验，数据表明，当目标被错分，Cost-MCPBoost能够促使目标错分到代价小的类上。当代价都相等，即各表的第一行对应的实验，数据充分表明了本发明提出的一种多分类的连续AdaBoost集成学习方法是有效的。更进一步，即使代价矩阵纵向代价和一样，此时表7的数据也表明，Cost-MCPBoost比Cost-UBoost有本质的改进。

实施例四

下面结合图2说明本发明提供的一种过预测标签最少化Adaboost集成学习方法具体流程步骤，该方法包括如下步骤：

S1、获取训练样本集；

S2a、初始化样本权值并赋初值，

其中，i＝1，...，m，l＝1，...，K，Z₀是归一化因子，C_θ(i，l)表示过预测标签最少化时，i类被错分成l类的代价矩阵；

S3a、迭代T次后，训练得到T个最佳弱分类器，通过步骤S31a～S33a来实现：

S31a、基于有权值

的训练样本集S训练弱分类器，t＝1，...，T，通过步骤S311a～S313a来实现：

S311a、对应样本集S的划分，计算

其中j＝1，...，n_t，l表示多分类问题中的类，x_i表示第i个样本，表示划分段

内并标签集包含除标签l外的标签的样本的概率；S312a、定义弱分类器h_t(x)，当时，有

其中，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度；S313a、选取弱分类器h_t(x)，使

最小，其中，Z_t代表样本权值调整后的归一化因子；

S32a、根据步骤S31a的结果来调整样本权值，

ω_{i, l}^{t + 1} = (ω_{i, l}^{t} / Z_{t}) \exp (h_{t} (x_{i}, l) - (1 / K) Σ_{k = 1}^{K} h_{t} (x_{i}, k));

S33a、判断t是否小于T，若是，则令t＝t+1，返回步骤S31a，若否，则进入步骤S4a；

S4a、组合T个最佳弱分类器得到最佳组合分类器，

其中

f (x, l) = Σ_{t = 1}^{T} h_{t} (x, l),

\overset{&OverBar;}{f} (x) = (1 / K) Σ_{l = 1}^{K} f (x, l) .

实施例五

下面结合图3说明本发明提供的一种欠预测标签最少化AdaBoost集成学习方法具体流程步骤，该方法包括如下步骤：

S1、获取训练样本集；

S2b、初始化样本权值并赋初值，

S3b、迭代T次后，训练得到T个最佳弱分类器，通过步骤S31b～S33b来实现：

S31b、基于有权值

的训练样本集S训练弱分类器，t＝1，...，T，通过步骤S311b～S313b来实现：S311b、对应样本集S的划分

计算

表示划分段

内并标签集包含标签l的样本的概率；S312b、定义弱分类器h_t(x)，当

时，

其中，j＝1，...，n_t，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度；S313b、选取弱分类器h_t(x)，使

最小化；

S32b、根据步骤S31b的结果来调整样本权值，

ω_{i, l}^{t + 1} = (ω_{i, l}^{t} / Z_{t}) \exp (- h_{t} (x_{i}, l) + (1 / K) Σ_{k = 1}^{K} h_{t} (x_{i}, k));

S33b、判断t是否小于T，若是，则令t＝t+1，返回步骤S31b，若否，则进入步骤S4b；

S4b、组合T个最佳弱分类器得到最佳组合分类器，

其中

f (x, l) = Σ_{t = 1}^{T} h_{t} (x, l),

\overset{&OverBar;}{f} (x) = (1 / K) Σ_{l = 1}^{K} f (x, l) .

实施例六

下面结合图4说明本发明提供的一种多标签分类问题AdaBoost集成学习方法具体流程步骤，该方法包括如下步骤：

S1、获取训练样本集；

S2c、初始化样本权值并赋初值，

i＝1，...，m，l＝1，...，K，Z₀是

归一化因子；

S3c、迭代T次后，训练得到T个最佳弱分类器，通过步骤S31c～S33c来实现：

S31c、基于有权值

的训练样本集S训练弱分类器，t＝1，...，T，通过步骤S311c～S313c来实现：S311c、对应样本集S的划分

计算

表示划分段

内并标签集包含除标签l外的标签的样本的概率，

表示划分段

内并标签集包含标签l的样本的概率；S312c、定义弱分类器h_t(x)，当

时，

其中，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度，c_over和c_def为两个常数，c_over代表分类预测标签多于实际标签的单个标签代价，c_def代表分类预测标签少于实际标签的单个标签代价，且c_over+c_def＝1；S313c、选取弱分类器h_t(x)，使

最小化，其中，

S32c、根据步骤S31c的结果来调整样本权值，

其中，

表示第t+1轮循环时，x_i的标签集不含l的概率，表示第t+1轮循环时，x_i的标签集含l的概率；

S33c、判断t是否小于T，若是，则令t＝t+1，返回步骤S31c，若否，则进入步骤S4c；

S4c、组合T个最佳弱分类器得到最佳组合分类器，

其中

f (x, l) = Σ_{t = 1}^{T} h_{t} (x, l),

\overset{&OverBar;}{f} (x) = (1 / K) Σ_{l = 1}^{K} f (x, l) .

本发明方法不仅考虑了组合分类器分类错误率最小化，而且能区分组合分类器输出标签多于实际标签和少于实际标签，通过调整c_over和c_def的值可选择学习方法的侧重点。当c_over＝1，c_def＝0，本发明方法简化为ε_θ极小化的集成学习方法，即过预测标签最少化Adaboos t集成学习方法；当c_over＝0，c_def＝1，该方法简化为ε_γ极小化的集成学习方法，即欠预测标签最少化AdaBoost集成学习方法。

以上介绍了一种多分类代价敏感学习的分类器集成方法，以及利用该方法实现的一种多分类连续AdaBoost集成学习方法、一种过预测标签最少化Adaboost集成学习方法、一种欠预测标签最少化AdaBoost集成学习方法和一种多标签分类问题AdaBoost集成学习方法。本发明并不限定于以上实施例，任何未脱离本发明技术方案，即仅仅对其进行本领域普通技术人员所知悉的改进或变更，均属于本发明的保护范围之内。

Claims

1.一种多分类代价敏感学习的分类器集成方法，包括以下步骤：

S1、获取训练样本集；

S2、初始化样本权值并赋初值；

S3、迭代T次后，训练得到T个最佳弱分类器；

S4、组合T个最佳弱分类器得到最佳组合分类器，

其特征在于：

所述步骤S2给训练样本赋初值的方法为：

其中，i＝1，...，m，l＝1，...，K，y_i∈{1，2，...，K}，Z₀为

所述步骤S3具体包括如下步骤：

S31、基于有权值

S311、对应样本集S的划分，

计算

其中j＝1，...，n_t，l表示多分类问题中的类，x_i表示第i个样本，表示划分段内l标签子集不包含x_i的概率；

S312、定义弱分类器h_t(x)，当时，有

其中，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度；

S313、选取弱分类器h_t(x)，使最小，其中，Z_t代表样本权值调整后的归一化因子；

S32、根据步骤S31的结果来调整样本权值，

2.根据权利要求1所述的方法，其特征在于：所述步骤S4得到最佳组合分类器的方法为：

其中

3.一种利用权利要求1所述的方法实现的多分类连续AdaBoost集成学习方法，包括以下步骤：

S1、获取训练样本集；

S2、初始化样本权值并赋初值；

S3、迭代T次后，训练得到T个最佳弱分类器；

S4、组合T个最佳弱分类器得到最佳组合分类器，

其特征在于：

所述步骤S2给训练样本赋初值的方法为：

所述步骤S3具体包括如下步骤：

S31、基于有权值的训练样本集S训练弱分类器，t＝1，...，T，通过如下步骤实现：

S311、对应样本集S的划分，

计算其中j＝1，...，n_t，l表示多分类问题中的类，x_i表示第i个样本，相当于

划分段内l标签子集不包含x_i的概率；

S312、定义弱分类器h_t(x)，当时，有

其中，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度；

S313、选取弱分类器h_t(x)，使

最小，其中，Z_t代表样本权值调整后的归一化因子；

S32、根据步骤S31的结果来调整样本权值，

4.根据权利要求3所述的方法，其特征在于：所述步骤S4得到最佳组合分类器的方法为：

其中

5.一种利用权利要求1所述的方法实现的过预测标签最少化Adaboost集成学习方法，包括以下步骤：

S1、获取训练样本集；

S2a、初始化样本权值并赋初值；

S3a、迭代T次后，训练得到T个最佳弱分类器；

S4a、组合T个最佳弱分类器得到最佳组合分类器，

其特征在于：

所述步骤S2a给训练样本赋初值的方法为：

所述步骤S3a具体包括如下步骤：

S31a、基于有权值

S311a、对应样本集S的划分，

计算

表示划分段

内并标签集包含除标签l外的标签的样本的概率；

S312a、定义弱分类器h_t(x)，当

时，有

其中，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度；

S313a、选取弱分类器h_t(x)，使

最小，其中，Z_t代表样本权值调整后的归一化因子；

S32a、根据步骤S31a的结果来调整样本权值，

6.根据权利要求5所述的方法，其特征在于：所述步骤S4a得到最佳组合分类器的方法为：

其中

7.一种利用权利要求1所述的方法实现的欠预测标签最少化AdaBoost集成学习方法，包括以下步骤：

S1、获取训练样本集；

S2b、初始化样本权值并赋初值；

S3b、迭代T次后，训练得到T个最佳弱分类器；

S4b、组合T个最佳弱分类器得到最佳组合分类器，

其特征在于：

所述步骤S2b给训练样本赋初值的方法为：

其中i＝1，...，m l＝1，...，K，Z₀是归一化因子，C_γ(i，l)表示欠预测标签最少化时，i类被错分成l类的代价矩阵；

所述步骤S3b具体包括如下步骤：

S31b、基于有权值

S311b、对应样本集S的划分

计算其中，j＝1，...，n_t，l表示多分类问题中的类，x_i表示第i个样本，

表示划分段

内并标签集包含标签l的样本的概率；

S312b、定义弱分类器h_t(x)，当

时，

S313b、选取弱分类器h_t(x)，使

最小化；

S32b、根据步骤S31b的结果来调整样本权值，

8.根据权利要求7所述的方法，其特征在于：所述步骤S4b得到最佳组合分类器的方法为：

其中

9.一种利用权利要求1所述的方法实现的多标签分类问题AdaBoost集成学习方法，包括以下步骤：

S1、获取训练样本集；

S2c、初始化样本权值并赋初值；

S3c、迭代T次后，训练得到T个最佳弱分类器；

S4c、组合T个最佳弱分类器得到最佳组合分类器，

其特征在于：

所述步骤S2c给训练样本赋初值的方法为：

i＝1，...，m，l＝1，...，K，Z₀是

归一化因子；

所述步骤S3c具体包括如下步骤：

S31c、基于有权值

S311c、对应样本集S的划分

计算

表示划分段内并标签集包含除标签l外的标签的样本的概率，

表示划分段

内并标签集包含标签l的样本的概率；

S312c、定义弱分类器h_t(x)，当

时，

其中，h_t(x，l)为弱分类器h_t(x)输出标签l的置信度，c_over和c_def为两个常数，c_over代表分类预测标签多于实际标签的单个标签代价，c_def代表分类预测标签少于实际标签的单个标签代价，且c_over+c_def＝1；

S313c、选取弱分类器h_t(x)，使

最小化，其中，

U_{j} = {(Π_{l = 1}^{K} p_{t}^{j, l})}^{c_{over} / K} {(Π_{l = 1}^{K} q_{t}^{j, l})}^{- c_{def} / K};

S32c、根据步骤S31c的结果来调整样本权值，

ω_{i, l}^{2, t + 1} = (ω_{i, l}^{2, t} / Z_{t}) \exp ({- h}_{t} (x_{i}, l) + (1 / K) Σ_{k = 1}^{K} h_{t} (x_{i}, k));

10.根据权利要求9所述的方法，其特征在于：所述步骤S4c得到最佳组合分类器的方法为：

其中