CN103632168B

CN103632168B - 一种机器学习中的分类器集成方法

Info

Publication number: CN103632168B
Application number: CN201310655891.XA
Authority: CN
Inventors: 陈科; 朱波
Original assignee: Tianjin Polytechnic University
Current assignee: Tianjin Polytechnic University
Priority date: 2013-12-09
Filing date: 2013-12-09
Publication date: 2017-01-18
Anticipated expiration: 2033-12-09
Also published as: CN103632168A

Abstract

本发明提供了一种机器学习中的分类器集成方法，它使用RandomForest算法产生的基分类器作为新的算法的基分类器。使用L1_Magic算法对这些原始分类器的权值进行优化，充分利用了各个基分类器之间的差异性，使得集合分类器对训练集中的每一个样本分类正确的可能性一致。使用新的集成分类器采用带权值的投票方式对测试集进行分类，进而提高了分类的正确率。与RandomForest算法相比，该发明的最大的优点在于充分利用了各个基分类器之间的差异性，使得集合分类器对样本数据的分类正确率有了提高。同时也完善了对人工智能领域中如何使用多样性/差异性提高集成分类器效果。

Description

一种机器学习中的分类器集成方法

技术领域

本发明属于人工智能与模式识别技术领域，是一种新的应用在机器学习中的分类器集成方法。

背景技术

分类在人工智能与模式识别领域中是一项非常重要的任务，分类的目的是学会一种分类函数或分类模型（也常常称作分类器），该模型能把数据库中的数据项映射到给定类别中的某一个类别。分类具有广泛的应用，例如医疗诊断、欺诈检测、信用卡系统的信用分级、图像模式识别等。以信用卡系统的信用分级为例来说明分类的应用，当银行需要根据用户的特征信息（比如年龄、职业、收入、教育背景等）来预测用户的信用等级时，可以通过对已知信用等级的用户特征信息数据集的分析和学习来建立用户信用等级分类的模型。当有新的用户需要进行信用等级的预测时，可以采用分类的方法将新用户划分到与其具有相似特征信息的用户一类中去，从而预测出该用户的信用等级。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。现有的机器学习分类器构造方法有很多种，而其中最重要的一种方法是集成分类器学习方法，如Bagging算法、RandomForest算法、Boosting算法等。

大量的研究者通过实验和分析证明集成分类器中的单个分类器的正确率和基分类器与基分类器之间的差异性是决定集成分类器优劣的两个重要指标。现有的衡量分类器之间的差异性的指标有很多种，如Q statistics，Kohavi-Wolpert variance，entropymeasure E等，但是被广泛采用的标准还没有统一。并且如何使用分类器之间的多样性这一衡量指标去引导设计更好的多分类器集成算法的问题还没有解决。

发明内容

本发明公开的机器学习中的分类器集成方法，主要用在字符识别、人脸识别、图像分析等方面。该发明与现有的单分类器的差别在于整合了一组不同的分类器，获得了比单分类器更好的学习效果，与现有的集成分类器方法的差别主要在于创造了一种将一组分类器整合在一起且充分的利用分类器间的差异性的策略，从而使得新的集合分类器对样本的分类正确率有了提高。本发明重点是解决机器学习领域中如何使用分类器的差异性从而设计出性能更好的分类器集成算法这一问题。

本发明的目的在于解决上述现有方法中存在的难题，提供一种新的分类器集成方法，提高对数据分类的正确率。

为实现上述目的，本发明公开了如下的技术内容：

一种机器学习中的分类器集成方法，所述分类器集成方法包括基分类器的产生、给予基分类器优化后的权重、采用带权值的投票方法对数据进行分类；利用RandomForest算法生成的不同的多棵决策树分类器作为新的算法的基分类器，采用L1_Magic算法对基分类器的权重进行优化，充分利用基分类器之间的差异性，使得集成分类器。

其中所述方案包括以下步骤：

（1）第一步：对给定的数据样本集进行分割；将给定的含有N个样本的数据集按9:1分割比例随机的划分成两份，分别作为训练集和测试集,其样本数目分别标记为和；

（2）第二步：在训练集上进行模型的学习，得到不同的分类器；使用RandomForest算法在训练集上进行分类模型的学习，从而可以生成M个基分类器；

（3）第三步：给予第二步学习得到的分类器相应的权重系数。分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类，其分类结果标记为（其中,）,如果分类正确，则,否则，从而可以得到阶矩阵A；分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类，可以得到每一个分类器在训练集上分类的正确率（其中）组成的集合，记为向量;假设n个具有特定正确率a的分类器相互独立，则它们组成的集合对训练数据进行分类正确的结果x服从于二项分布，即，那么这n个分类器组成的集合对样本分类正确的概率,从而可以求得与正确率为a的分类器等价的正确率为b的分类器的个数，以M个分类器中在训练集上分类的正确率最大的分类器为基准，从而可以求得每一个与之等价的分类器的数目（其中）组成的集合，记为向量；将中的每一项进行标准化得到新的向量，标准化的过程为；M个分类器的权重系数（其中）组成的集合记为向量；为了使得这M个分类器组成的集合具有多样性，进而提高集成分类器的正确率，可以对权重系数进行优化，即求得最优的使得值最小，其中需要满足的条件是且；采用L1_Magic算法可以求得近似最优的；

（4）第四步：集成第二步得到的分类器，对测试集进行分类；将给定数据样本的类标号的数目记为L；依次使用第二步中得到的M个分类器对第一步中得到的测试集中的个样本进行分类，可以得到对每一个样本都有M个分类结果，采用带权值的投票方法决定最终的分类结果，即将得票权值最高的分类结果（其中）作为这M个分类器组成的集成分类器对该样本分类的最终结果。

本发明更加详细的方法如下：

第一步：对给定的数据样本集进行分割。将给定的含有N个样本的数据集按9:1分割比例随机的划分成两份，分别作为训练集和测试集,其样本数目分别标记为和。

第二步：在训练集上进行模型的学习，得到不同的分类器。使用RandomForest算法（算法见图1）在训练集上进行分类模型的学习，从而可以生成M个基分类器。

第三步：给予第二步学习得到的分类器相应的权重系数。

（1）分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类，其分类结果标记为（其中,）,如果分类正确，则,否则，从而可以得到阶矩阵A。

（2）分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类，可以得到每一个分类器在训练集上分类的正确率（其中）组成的集合，记为向量。

（3）假设n个具有特定正确率a的分类器相互独立，则它们组成的集合对训练数据进行分类正确的结果x服从于二项分布，即，那么这n个分类器组成的集合对样本分类正确的概率,从而可以求得与正确率为a的分类器等价的正确率为b的分类器的个数。以M个分类器中在训练集上分类的正确率最大的分类器为基准，从而可以求得每一个与之等价的分类器的数目（其中）组成的集合，记为向量。

（4）将中的每一项进行标准化得到新的向量，标准化的过程为。

(5)M个分类器的权重系数（其中）组成的集合记为向量。

(6)为了使得这M个分类器组成的集合具有多样性，进而提高集成分类器的正确率，可以对权重系数进行优化，即求得最优的使得值最小，其中需要满足的条件是且。采用L1_Magic算法可以求得近似最优的。

第四步：集成第二步得到的分类器，对测试集进行分类。将给定数据样本的类标号的数目记为L；依次使用第二步中得到的M个分类器对第一步中得到的测试集中的个样本进行分类，可以得到对每一个样本都有M个分类结果，采用带权值的投票方法决定最终的分类结果，即将得票权值最高的分类结果（其中）作为这M个分类器组成的集成分类器对该样本分类的最终结果。

本发明提供的应用在机器学习中的分类器集成方法，它是基于RandomForest算法提出的，使用RandomForest算法产生的基分类器作为新的算法的基分类器。使用L1_Magic算法对这些原始分类器的权值进行优化，充分利用了各个基分类器之间的差异性，使得集合分类器对训练集中的每一个样本分类正确的可能性一致。使用新的集成分类器采用带权值的投票方式对测试集进行分类，进而提高了分类的正确率。与RandomForest算法相比，该发明的最大的优点在于充分利用了各个基分类器之间的差异性，使得集合分类器对样本数据的分类正确率有了提高。同时，该发明也是对人工智能领域中如何使用多样性/差异性提高集成分类器的效果这一问题的回答。

附图说明

图1是RandomForest算法示意图；

图2 是本发明分类器集成方法示意图。

具体实施方式

为了简单和清楚的目的，下文恰当的省略了公知技术的描述，以免那些不必要的细节影响对本技术方案的描述。以下结合较佳实施例，对本发明做进一步的描述。

实施例1

一种机器学习中的分类器集成方法，所述分类器集成方法包括基分类器的产生、给予基分类器优化后的权重、采用带权值的投票方法对数据进行分类；利用RandomForest算法生成的不同的多棵决策树分类器作为新的算法的基分类器，采用L1_Magic算法对基分类器的权重进行优化，充分利用基分类器之间的差异性，使得集成分类器的性能更好。包括以下步骤：

实施例2

该发明是一种新的应用在机器学习中的分类器集成方法，下面是它的一个应用案例。

从DNA序列去预测基因是生物学中的一个重要课题。基因是一些DNA片段，然而基因之间通常还有一些冗余的DNA片段存在。预测基因片段相当于预测基因与非基因的边界。在基因后面连接一个非基因片段，这样的边界用EI表示；而在非基因后面连接一个基因，这样的边界用IE表示；其余的非边界DNA碱基用N表示。这样对于一个信息未知的DNA序列，我们可以采用本文提出的集成分类方法预测哪些是基因与非基因的边界，从而可以推断哪些DNA片段可能是基因。

本文提出的集成方法与传统的投票方法在一个包含3190个DNA序列上进行测试。本文提出的集成方法相对于RandomForest（也称为随机森林）方法在预测基因边界时错误率降低了0.9-1.1%。这说明本文提出的集成方法是一种相对投票方法更准确的预测方法。

结论：

（1）该发明与现有的单分类器相比，由于整合了一组不同的分类器，从而获得了比单分类器更好的学习效果；

（2）该发明与现有的集成分类器方法相比，创造了一种将一组分类器整合在一起且充分的利用分类器间的差异性的策略，从而使得新的集合分类器对样本的分类正确率有了提高；

（3）该发明解决机器学习领域中如何使用分类器的差异性从而设计出性能更好的分类器集成算法这一问题。

Claims

1.一种机器学习中的分类器集成方法，所述分类器集成方法包括基分类器的产生、给予基分类器优化后的权重、采用带权值的投票方法对数据进行分类；利用RandomForest算法生成的不同的多棵决策树分类器作为新的算法的基分类器，采用L1_Magic算法对基分类器的权重进行优化，充分利用基分类器之间的差异性，使得集成分类器达到更优的性能，其特征在于所述方法包括以下步骤：

（1）第一步：对给定的数据样本集进行分割；将给定的含有N个样本的数据集按9:1分割比例随机的划分成两份，分别作为训练集和测试集,其样本数目分别标记为

（3）第三步：给予第二步学习得到的分类器相应的权重系数，分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类，其分类结果标记为其中如果分类正确，从而可以得阶矩阵A；分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类，可以得到每一个分类器在训练集上分类的正确率其中

组成的集合，记为向量个具有特定正确率的分类器相互独立，则它们组成的集合对训练数据进行分类正确的结果x服从于二项分布，那么这n个分类器组成的集合对样本分类正确的概率从而可以求得与正确率为a的分类器等价的正确率为b的分类器的个数，以M个分类器中在训练集上分类的正确率最大的分类器为基准，从而可以求得每一个与之等价的分类器的数目其中组成的集合，记为向量中的每一项进行标准化得到新的向量标准化的过程为个分类器的权重系数其中组成的集合记为向量为了使得这M个分类器组成的集合具有多样性，进而提高集成分类器的正确率，可以对权重系数进行优化，即求得最优的值最小，其中需要满足的条件是采用L1_Magic算法可以求得近似最优的

第四步：集成第二步得到的分类器，对测试集进行分类；

将给定数据样本的类标号的数目记为L；依次使用第二步中得到的M个分类器对第一步中得到的测试集中的个样本进行分类，可以得到对每一个样本都有M个分类结果，采用带权值的投票方法决定最终的分类结果，即将得票权值最高的分类结果其中

作为这M个分类器组成的集成分类器对该样本分类的最终结果。