CN104573012A

CN104573012A - 可收缩步长的多类别集成学习分类方法

Info

Publication number: CN104573012A
Application number: CN201510010781.7A
Authority: CN
Inventors: 吴悦; 严超
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2015-01-09
Filing date: 2015-01-09
Publication date: 2015-04-29

Abstract

本发明涉及可收缩步长的多类别集成学习分类方法，该方法首先将原始数据进行预处理，转换成分类方法可以处理的数据格式，获得训练数据集和待分类数据集；然后初始化训练数据集样本权重；然后依据训练数据集样本权重以及训练步长，训练M个基分类器，其中根据需要收缩步长；然后集成所有基分类器，得到最终判别分类器，对待分类数据集进行分类；最后将分类结果保存到文件中，提供分类预测的参考。本发明解决了因使用固定步长导致的最终分类界面没有最优化，分类预测精度欠佳的问题，同时省去了使用线搜索估计带来的时间开销。

Description

可收缩步长的多类别集成学习分类方法

技术领域

本发明涉及一种可收缩步长的多类别集成学习分类方法。

背景技术

集成学习已经成为机器学习中的一个重要研究方向。因为集成学习有一定的理论基础，并且实现简单，同时较其他分类方法有更高预测准确度和抵御“过学习”的能力，所以得到广泛的认可和应用。随着技术的进步使得数据收集变得越来越容易，使用集成学习去分类多类别的数据也变得越来越常见。

使用集成学习分类是使用一系列基分类器进行学习，并使用某种规则把这些基分类器的结果进行整合，从而获得比这些基分类器拥有更好学习效果和泛化能力的集成分类器。当类别数已知，但数据集中的数据类别未知时，我们常常借助训练数据集来构造集成学习模型。

在多类别情况下，特别是训练步长固定时，由于基分类器在每次模型训练时的“过学习”程度不同等因素的影响，固定的步长往往不能得到优化的分类界面，最终无法获得理想预测精度，提供理想的分类预测参考。为了解决这个问题，有学者把集成学习转化成最优化问题，在每次迭代中对训练步长做线搜索，即每次迭代计算并估计最优步长。但是，即使是使用线搜索，也只是获得步长的估计最优值，而不是精确最优值。另外，在每次迭代使用线搜索计算而产生的时间代价较大。

发明内容

本发明的目的在于解决现有技术存在的问题，提供一种可收缩步长的多类别集成学习分类方法。

为达到上述目的，本发明采用的如下技术方案：

一种可收缩步长的多类别集成学习分类方法，其特征在于该方法具体步骤如下：

A. 将原始数据进行预处理，转换成分类方法可以处理的数据格式，同时获得训练数据集和待分类数据集；

B. 初始化训练数据集样本权重；

C. 从m=1到M迭代，依据训练数据集样本权重以及训练步长，训练M个基分类器；

D. 集成步骤C中的所有基分类器，得到最终判别分类器，对待分类数据集进行分类；

E. 将分类结果保存到文件中，提供分类预测的参考。

上述步骤A的操作步骤如下：

A1. 训练数据集的预处理：每条数据必须有固定的f个属性值，在最后还要添加一个类别属性，表示这条数据的类别已知，总共为f+1个属性值；

A2. 待分类数据集的预处理：待分类数据集的每条数据形式必须与训练数据集的前f个属性形式一致，并且无类别属性值字段，总共为f个属性值。

上述步骤B中初始化训练数据集样本权重的操作步骤是：令每个样本的权重 = 1/n , i=1, 2, 3…n，其中n为样本个数。

上述步骤C的操作步骤如下：

C1. 依据训练数据集，以权重训练得到基分类器()；

C2). 计算基分类器()错误率：

C3. 计算基分类器()可信度：

其中变量r为基分类器当前训练步长

C4. 从i=1到n，更新训练数据集样本权重：

；

C5. 重新规范化，使其总和为1；

C6. 计算本次迭代后的判别分类器:

C7. 判断是否需要收缩训练步长，如需，则收缩步长并重新计算步骤C3），C4），C5），C6）,保存本次迭代后的最终判别分类器。

C8）若M次迭代结束，则退出迭代，否则跳转到C1）继续迭代。

上述步骤C7中判断是否需要收缩训练步长的依据是：如果Margin()>Margin()并且Accuracy()<Accuracy()，则收缩步长使得r=（）并重新计算步骤C3），C4），C5），C6）；否则，不做更改，最后，保存本次迭代后的最终判别分类器，其中Margin计算训练模型的空白边界，Accuracy计算训练模型的训练准确率，迭代次数m →，算法趋于收敛。

上述步骤D的操作步骤如下：

D1. 集成并计算判别分类器，输出M个基分类器集成后的判别分类器，采用的计算公式为：

其中即为集成学习所输出的判别分类器。累加所有基分类器的判别概率，取K类中最大的即为判别结果。其中包含的权重含有基分类器权重，是经过步长调整后的权重；

D2. 使用步骤D1中计算的判别分类器，为待分类数据集中的所有样本进行分类。

本发明是一种可收缩步长的多类别集成学习分类方法，与已有技术相比较具有如下显而易见的突出特点和显著优点：

(1)本发明在多类别的集成学习分类过程中引入可收缩步长，解决了因使用固定步长导致的最终分类界面没有最优化，分类预测精度欠佳的问题。

(2)本发明与传统的多类别集成学习算法相比，因引入可收缩步长，虽然降低了算法的处理效率，但与固定步长比较，却能提高总体的分类预测精度，提高了模型的泛化能力。

(3)本发明不同于在每次迭代中使用线搜索估计收缩步长，仅仅判断在“过学习”的情况下才收缩步长，节省了时间开销。

附图说明

图1是本发明一种可收缩步长的多类别集成学习分类方法的流程图；

图2是本发明中的将原始数据进行预处理同时获得训练数据集和待分类数据集的流程图；

图3是本发明中从m=1到M次迭代，依据训练数据集样本权重以及训练步长训练M个基分类器的流程图；

图4是本发明中的集成所有基分类器，得到最终判别分类器，对待分类数据集进行分类的流程图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步详细的说明。

参照图1，本发明是一种可收缩步长的多类别集成学习分类方法，以高斯生成法生成的随机数据集为例，其具体步骤如下：

(1)将原始数据进行预处理，转换成分类方法可以处理的数据格式，如图2所示，其具体步骤如下：

a) 训练数据集的预处理。训练数据集的预处理是这样的，每条数据必须有固定的f个属性值，在最后还要添加一个类别属性，表示这条数据的类别已知。因此，总共为f+1个属性值。

b) 待分类数据集的预处理。待分类数据集的每条数据形式必须与训练数据集的前f个属性形式一致，并且无类别属性值字段。因此，总共为f个属性值。

(2)初始化训练数据集样本权重。

其具体操作步骤是，令每个样本的权重 = 1/n, i=1, 2, 3…n，其中n为样本个数；

(3)从m=1到M迭代，依据训练数据集样本权重以及训练步长训练M个基分类器。

其中M为迭代次数，m代表本次迭代为第几次迭代。如图3所示，其具体步骤如下：

a) 依据训练数据集，以权重训练得到基分类器()；

b) 计算基分类器()错误率：

其中即为当前迭代的分类器的错误率。

c) 计算基分类器()的可信度：

其中的变量r即为基分类器当前训练步长。

d) 从i=1到n，更新训练数据集样本权重：

；

e) 重新规范化，使其总和为1；

f) 计算本次迭代后的判别分类器:

g) 判断是否需要收缩训练步长，如需，则收缩步长并重新计算步骤c），d），e），f）。保存本次迭代后的最终判别分类器。

其中判断是否需要收缩训练步长的依据是：如果Margin()>Margin()并且Accuracy()<Accuracy()，则收缩步长使得r=（）并重新计算步骤C3），C4），C5），C6），否则，不做更改，无需重新计算步骤C3），C4），C5），C6）。最后保存本次迭代后的最终判别分类器。其中Margin计算训练模型的空白边界，Accuracy计算训练模型的训练准确率。

h) 若M次迭代结束，则退出迭代转到步骤（4），否则跳转到a）继续迭代；

(4)对步骤（3）得到的所有基分类器，集成并且计算得到最终判别分类器，对待分类数据集进行分类。

其中对待分类数据集进行分类，输入为待分类的数据集，输出为判别分类器的判别结果，即样本的类别标签。如图4所示，其具体步骤如下：

a) 集成并计算判别分类器，输出M个基分类器集成后的判别分类器，判别分类器的计算公式为：

其中即为集成学习所输出的判别分类器。累加所有基分类器的判别概率，取K类中最大的即为判别结果。其中包含的权重含有基分类器权重，是经过步长调整后的权重。

b) 使用a）中计算的判别分类器，为待分类数据集中的所有样本进行分类。

(5)将分类结果保存到文件中，提供分类预测的参考。

其中分类结果是指对于待分类数据集中的每个样本，在类别标签未知的情况下，预测该样本类别标签。

实验结果表明，本发明把可收缩步长结合到集成学习的分类方法中，有效的解决了因使用固定步长导致的最终分类界面没有最优化，分类预测精度欠佳的问题。同时，省去了因使用线搜索估计带来的时间开销。

以上对本发明的一种可收缩步长的多类别集成学习分类方法进行了详细的介绍，只是用于帮助理解本发明的方法和核心思想；同时，对于本领域的一般技术人员，依据本发明的方法和思想，在具体实施方式和应用范围上均会有所改变，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种可收缩步长的多类别集成学习分类方法，其特征在于该方法具体步骤如下：

B. 初始化训练数据集样本权重；

E. 将分类结果保存到文件中，提供分类预测的参考。

2.根据权利要求1所述的可收缩步长的多类别集成学习分类方法，其特征在于所述步骤A的操作步骤如下：

3.根据权利要求1所述的可收缩步长的多类别集成学习分类方法，其特征在于，上述步骤B中初始化训练数据集样本权重的操作步骤是：令每个样本的权重 = 1/n , i=1, 2, 3…n，其中n为样本个数。

4.根据权利要求1所述的可收缩步长的多类别集成学习分类方法，其特征在于所述步骤C的操作步骤如下：

C-1. 依据训练数据集，以权重训练得到基分类器()；

C-2. 计算基分类器()错误率：

C-3. 计算基分类器()可信度：

其中变量r为基分类器当前训练步长

C-4. 从i=1到n，更新训练数据集样本权重：

；

C-5. 重新规范化，使其总和为1；

C-6. 计算本次迭代后的判别分类器:

C-7. 判断是否需要收缩训练步长，如需，则收缩步长并重新计算步骤C3），C4），C5），C6）,保存本次迭代后的最终判别分类器，

C-8若M次迭代结束，则退出迭代，否则跳转到C1）继续迭代。

5.根据权利要求4所述的可收缩步长的多类别集成学习分类方法，其特征在于所述步骤C7中判断是否需要收缩训练步长的依据是：如果Margin()>Margin()并且Accuracy()<Accuracy()，则收缩步长使得r=（）并重新计算步骤C3），C4），C5），C6）；否则，不做更改，最后，保存本次迭代后的最终判别分类器，其中Margin计算训练模型的空白边界，Accuracy计算训练模型的训练准确率，迭代次数m →，算法趋于收敛。

6.根据权利要求1所述的可收缩步长的多类别集成学习分类方法，其特征在于所述步骤D的操作步骤如下：

其中即为集成学习所输出的判别分类器，

累加所有基分类器的判别概率，取K类中最大的即为判别结果，

其中包含的权重含有基分类器权重，是经过步长调整后的权重；