CN103632168B - 一种机器学习中的分类器集成方法 - Google Patents
一种机器学习中的分类器集成方法 Download PDFInfo
- Publication number
- CN103632168B CN103632168B CN201310655891.XA CN201310655891A CN103632168B CN 103632168 B CN103632168 B CN 103632168B CN 201310655891 A CN201310655891 A CN 201310655891A CN 103632168 B CN103632168 B CN 103632168B
- Authority
- CN
- China
- Prior art keywords
- grader
- sample
- classified
- classification
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种机器学习中的分类器集成方法,它使用RandomForest算法产生的基分类器作为新的算法的基分类器。使用L1_Magic算法对这些原始分类器的权值进行优化,充分利用了各个基分类器之间的差异性,使得集合分类器对训练集中的每一个样本分类正确的可能性一致。使用新的集成分类器采用带权值的投票方式对测试集进行分类,进而提高了分类的正确率。与RandomForest算法相比,该发明的最大的优点在于充分利用了各个基分类器之间的差异性,使得集合分类器对样本数据的分类正确率有了提高。同时也完善了对人工智能领域中如何使用多样性/差异性提高集成分类器效果。
Description
技术领域
本发明属于人工智能与模式识别技术领域,是一种新的应用在机器学习中的分类器集成方法。
背景技术
分类在人工智能与模式识别领域中是一项非常重要的任务,分类的目的是学会一种分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类别。分类具有广泛的应用,例如医疗诊断、欺诈检测、信用卡系统的信用分级、图像模式识别等。以信用卡系统的信用分级为例来说明分类的应用,当银行需要根据用户的特征信息(比如年龄、职业、收入、教育背景等)来预测用户的信用等级时,可以通过对已知信用等级的用户特征信息数据集的分析和学习来建立用户信用等级分类的模型。当有新的用户需要进行信用等级的预测时,可以采用分类的方法将新用户划分到与其具有相似特征信息的用户一类中去,从而预测出该用户的信用等级。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。现有的机器学习分类器构造方法有很多种,而其中最重要的一种方法是集成分类器学习方法,如Bagging算法、RandomForest算法、Boosting算法等。
大量的研究者通过实验和分析证明集成分类器中的单个分类器的正确率和基分类器与基分类器之间的差异性是决定集成分类器优劣的两个重要指标。现有的衡量分类器之间的差异性的指标有很多种,如Q statistics,Kohavi-Wolpert variance,entropymeasure E等,但是被广泛采用的标准还没有统一。并且如何使用分类器之间的多样性这一衡量指标去引导设计更好的多分类器集成算法的问题还没有解决。
发明内容
本发明公开的机器学习中的分类器集成方法,主要用在字符识别、人脸识别、图像分析等方面。该发明与现有的单分类器的差别在于整合了一组不同的分类器,获得了比单分类器更好的学习效果,与现有的集成分类器方法的差别主要在于创造了一种将一组分类器整合在一起且充分的利用分类器间的差异性的策略,从而使得新的集合分类器对样本的分类正确率有了提高。本发明重点是解决机器学习领域中如何使用分类器的差异性从而设计出性能更好的分类器集成算法这一问题。
本发明的目的在于解决上述现有方法中存在的难题,提供一种新的分类器集成方法,提高对数据分类的正确率。
为实现上述目的,本发明公开了如下的技术内容:
一种机器学习中的分类器集成方法,所述分类器集成方法包括基分类器的产生、给予基分类器优化后的权重、采用带权值的投票方法对数据进行分类;利用RandomForest算法生成的不同的多棵决策树分类器作为新的算法的基分类器,采用L1_Magic算法对基分类器的权重进行优化,充分利用基分类器之间的差异性,使得集成分类器。
其中所述方案包括以下步骤:
(1)第一步:对给定的数据样本集进行分割;将给定的含有N个样本的数据集按9:1分割比例随机的划分成两份,分别作为训练集和测试集,其样本数目分别标记为和;
(2)第二步:在训练集上进行模型的学习,得到不同的分类器;使用RandomForest算法在训练集上进行分类模型的学习,从而可以生成M个基分类器;
(3)第三步:给予第二步学习得到的分类器相应的权重系数。分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类,其分类结果标记为(其中,),如果分类正确,则,否则,从而可以得到阶矩阵A;分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类,可以得到每一个分类器在训练集上分类的正确率(其中)组成的集合,记为向量;假设n个具有特定正确率a的分类器相互独立,则它们组成的集合对训练数据进行分类正确的结果x服从于二项分布,即,那么这n个分类器组成的集合对样本分类正确的概率,从而可以求得与正确率为a的分类器等价的正确率为b的分类器的个数,以M个分类器中在训练集上分类的正确率最大的分类器为基准,从而可以求得每一个与之等价的分类器的数目(其中)组成的集合,记为向量;将中的每一项进行标准化得到新的向量,标准化的过程为;M个分类器的权重系数(其中)组成的集合记为向量;为了使得这M个分类器组成的集合具有多样性,进而提高集成分类器的正确率,可以对权重系数进行优化,即求得最优的使得值最小,其中需要满足的条件是且;采用L1_Magic算法可以求得近似最优的;
(4)第四步:集成第二步得到的分类器,对测试集进行分类;将给定数据样本的类标号的数目记为L;依次使用第二步中得到的M个分类器对第一步中得到的测试集中的个样本进行分类,可以得到对每一个样本都有M个分类结果,采用带权值的投票方法决定最终的分类结果,即将得票权值最高的分类结果(其中)作为这M个分类器组成的集成分类器对该样本分类的最终结果。
本发明更加详细的方法如下:
第一步:对给定的数据样本集进行分割。将给定的含有N个样本的数据集按9:1分割比例随机的划分成两份,分别作为训练集和测试集,其样本数目分别标记为和。
第二步:在训练集上进行模型的学习,得到不同的分类器。使用RandomForest算法(算法见图1)在训练集上进行分类模型的学习,从而可以生成M个基分类器。
第三步:给予第二步学习得到的分类器相应的权重系数。
(1)分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类,其分类结果标记为(其中,),如果分类正确,则,否则,从而可以得到阶矩阵A。
(2)分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类,可以得到每一个分类器在训练集上分类的正确率(其中)组成的集合,记为向量。
(3)假设n个具有特定正确率a的分类器相互独立,则它们组成的集合对训练数据进行分类正确的结果x服从于二项分布,即,那么这n个分类器组成的集合对样本分类正确的概率,从而可以求得与正确率为a的分类器等价的正确率为b的分类器的个数。以M个分类器中在训练集上分类的正确率最大的分类器为基准,从而可以求得每一个与之等价的分类器的数目(其中)组成的集合,记为向量。
(4)将中的每一项进行标准化得到新的向量,标准化的过程为。
(5)M个分类器的权重系数(其中)组成的集合记为向量。
(6)为了使得这M个分类器组成的集合具有多样性,进而提高集成分类器的正确率,可以对权重系数进行优化,即求得最优的使得值最小,其中需要满足的条件是且。采用L1_Magic算法可以求得近似最优的。
第四步:集成第二步得到的分类器,对测试集进行分类。将给定数据样本的类标号的数目记为L;依次使用第二步中得到的M个分类器对第一步中得到的测试集中的个样本进行分类,可以得到对每一个样本都有M个分类结果,采用带权值的投票方法决定最终的分类结果,即将得票权值最高的分类结果(其中)作为这M个分类器组成的集成分类器对该样本分类的最终结果。
本发明提供的应用在机器学习中的分类器集成方法,它是基于RandomForest算法提出的,使用RandomForest算法产生的基分类器作为新的算法的基分类器。使用L1_Magic算法对这些原始分类器的权值进行优化,充分利用了各个基分类器之间的差异性,使得集合分类器对训练集中的每一个样本分类正确的可能性一致。使用新的集成分类器采用带权值的投票方式对测试集进行分类,进而提高了分类的正确率。与RandomForest算法相比,该发明的最大的优点在于充分利用了各个基分类器之间的差异性,使得集合分类器对样本数据的分类正确率有了提高。同时,该发明也是对人工智能领域中如何使用多样性/差异性提高集成分类器的效果这一问题的回答。
附图说明
图1是RandomForest算法示意图;
图2 是本发明分类器集成方法示意图。
具体实施方式
为了简单和清楚的目的,下文恰当的省略了公知技术的描述,以免那些不必要的细节影响对本技术方案的描述。以下结合较佳实施例,对本发明做进一步的描述。
实施例1
一种机器学习中的分类器集成方法,所述分类器集成方法包括基分类器的产生、给予基分类器优化后的权重、采用带权值的投票方法对数据进行分类;利用RandomForest算法生成的不同的多棵决策树分类器作为新的算法的基分类器,采用L1_Magic算法对基分类器的权重进行优化,充分利用基分类器之间的差异性,使得集成分类器的性能更好。包括以下步骤:
(1)第一步:对给定的数据样本集进行分割;将给定的含有N个样本的数据集按9:1分割比例随机的划分成两份,分别作为训练集和测试集,其样本数目分别标记为和;
(2)第二步:在训练集上进行模型的学习,得到不同的分类器;使用RandomForest算法在训练集上进行分类模型的学习,从而可以生成M个基分类器;
(3)第三步:给予第二步学习得到的分类器相应的权重系数。分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类,其分类结果标记为(其中,),如果分类正确,则,否则,从而可以得到阶矩阵A;分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类,可以得到每一个分类器在训练集上分类的正确率(其中)组成的集合,记为向量;假设n个具有特定正确率a的分类器相互独立,则它们组成的集合对训练数据进行分类正确的结果x服从于二项分布,即,那么这n个分类器组成的集合对样本分类正确的概率,从而可以求得与正确率为a的分类器等价的正确率为b的分类器的个数,以M个分类器中在训练集上分类的正确率最大的分类器为基准,从而可以求得每一个与之等价的分类器的数目(其中)组成的集合,记为向量;将中的每一项进行标准化得到新的向量,标准化的过程为;M个分类器的权重系数(其中)组成的集合记为向量;为了使得这M个分类器组成的集合具有多样性,进而提高集成分类器的正确率,可以对权重系数进行优化,即求得最优的使得值最小,其中需要满足的条件是且;采用L1_Magic算法可以求得近似最优的;
(4)第四步:集成第二步得到的分类器,对测试集进行分类;将给定数据样本的类标号的数目记为L;依次使用第二步中得到的M个分类器对第一步中得到的测试集中的个样本进行分类,可以得到对每一个样本都有M个分类结果,采用带权值的投票方法决定最终的分类结果,即将得票权值最高的分类结果(其中)作为这M个分类器组成的集成分类器对该样本分类的最终结果。
实施例2
该发明是一种新的应用在机器学习中的分类器集成方法,下面是它的一个应用案例。
从DNA序列去预测基因是生物学中的一个重要课题。基因是一些DNA片段,然而基因之间通常还有一些冗余的DNA片段存在。预测基因片段相当于预测基因与非基因的边界。在基因后面连接一个非基因片段,这样的边界用EI表示;而在非基因后面连接一个基因,这样的边界用IE表示;其余的非边界DNA碱基用N表示。这样对于一个信息未知的DNA序列,我们可以采用本文提出的集成分类方法预测哪些是基因与非基因的边界,从而可以推断哪些DNA片段可能是基因。
本文提出的集成方法与传统的投票方法在一个包含3190个DNA序列上进行测试。本文提出的集成方法相对于RandomForest(也称为随机森林)方法在预测基因边界时错误率降低了0.9-1.1%。这说明本文提出的集成方法是一种相对投票方法更准确的预测方法。
结论:
(1)该发明与现有的单分类器相比,由于整合了一组不同的分类器,从而获得了比单分类器更好的学习效果;
(2)该发明与现有的集成分类器方法相比,创造了一种将一组分类器整合在一起且充分的利用分类器间的差异性的策略,从而使得新的集合分类器对样本的分类正确率有了提高;
(3)该发明解决机器学习领域中如何使用分类器的差异性从而设计出性能更好的分类器集成算法这一问题。
Claims (1)
1.一种机器学习中的分类器集成方法,所述分类器集成方法包括基分类器的产生、给予基分类器优化后的权重、采用带权值的投票方法对数据进行分类;利用RandomForest算法生成的不同的多棵决策树分类器作为新的算法的基分类器,采用L1_Magic算法对基分类器的权重进行优化,充分利用基分类器之间的差异性,使得集成分类器达到更优的性能,其特征在于所述方法包括以下步骤:
(1)第一步:对给定的数据样本集进行分割;将给定的含有N个样本的数据集按9:1分割比例随机的划分成两份,分别作为训练集和测试集,其样本数目分别标记为
(2)第二步:在训练集上进行模型的学习,得到不同的分类器;使用RandomForest算法在训练集上进行分类模型的学习,从而可以生成M个基分类器;
(3)第三步:给予第二步学习得到的分类器相应的权重系数,分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类,其分类结果标记为其中如果分类正确,从而可以得阶矩阵A;分别使用第二步中得到的M个分类器对第一步中得到的训练集中的个样本进行分类,可以得到每一个分类器在训练集上分类的正确率其中
组成的集合,记为向量个具有特定正确率的分类器相互独立,则它们组成的集合对训练数据进行分类正确的结果x服从于二项分布,那么这n个分类器组成的集合对样本分类正确的概率 从而可以求得与正确率为a的分类器等价的正确率为b的分类器的个数,以M个分类器中在训练集上分类的正确率最大的分类器为基准,从而可以求得每一个与之等价的分类器的数目其中组成的集合,记为向量中的每一项进行标准化得到新的向量标准化的过程为 个分类器的权重系数其中组成的集合记为向量为了使得这M个分类器组成的集合具有多样性,进而提高集成分类器的正确率,可以对权重系数进行优化,即求得最优的值最小,其中需要满足的条件是采用L1_Magic算法可以求得近似最优的
第四步:集成第二步得到的分类器,对测试集进行分类;
将给定数据样本的类标号的数目记为L;依次使用第二步中得到的M个分类器对第一步中得到的测试集中的个样本进行分类,可以得到对每一个样本都有M个分类结果,采用带权值的投票方法决定最终的分类结果,即将得票权值最高的分类结果其中
作为这M个分类器组成的集成分类器对该样本分类的最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310655891.XA CN103632168B (zh) | 2013-12-09 | 2013-12-09 | 一种机器学习中的分类器集成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310655891.XA CN103632168B (zh) | 2013-12-09 | 2013-12-09 | 一种机器学习中的分类器集成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103632168A CN103632168A (zh) | 2014-03-12 |
CN103632168B true CN103632168B (zh) | 2017-01-18 |
Family
ID=50213195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310655891.XA Expired - Fee Related CN103632168B (zh) | 2013-12-09 | 2013-12-09 | 一种机器学习中的分类器集成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103632168B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260746B (zh) * | 2015-10-09 | 2019-02-22 | 济南大学 | 一种可扩展的多层集成多标记学习系统 |
CN105550715A (zh) * | 2016-01-22 | 2016-05-04 | 大连理工大学 | 一种基于近邻传播聚类的集成分类器构建方法 |
CN105844300A (zh) * | 2016-03-24 | 2016-08-10 | 河南师范大学 | 一种基于随机森林算法的优化分类方法及装置 |
US10528889B2 (en) | 2016-03-25 | 2020-01-07 | Futurewei Technologies, Inc. | Stereoscopic learning for classification |
CN106056059B (zh) * | 2016-05-20 | 2019-02-12 | 合肥工业大学 | 多方向slgs特征描述及性能云加权融合的人脸识别方法 |
CN106295506A (zh) * | 2016-07-25 | 2017-01-04 | 华南理工大学 | 一种基于集成卷积神经网络的年龄识别方法 |
CN107229614B (zh) * | 2017-06-29 | 2020-11-10 | 百度在线网络技术(北京)有限公司 | 用于分类数据的方法和装置 |
CN107833603B (zh) * | 2017-11-13 | 2021-03-23 | 医渡云(北京)技术有限公司 | 电子病历文档分类方法、装置、电子设备及存储介质 |
CN108134784B (zh) * | 2017-12-19 | 2021-08-31 | 东软集团股份有限公司 | 网页分类方法及装置、存储介质及电子设备 |
CN108108762B (zh) * | 2017-12-22 | 2021-03-16 | 北京工业大学 | 一种用于冠心病数据的核极限学习机及随机森林分类方法 |
CN108090216B (zh) * | 2017-12-29 | 2021-02-05 | 咪咕文化科技有限公司 | 一种标签预测方法、装置及存储介质 |
CN108805178B (zh) * | 2018-05-22 | 2020-12-15 | 合肥工业大学 | 跨粒度智能化疾病筛查系统 |
CN108898476A (zh) * | 2018-06-14 | 2018-11-27 | 中国银行股份有限公司 | 一种贷款客户信用评分方法和装置 |
CN117216573A (zh) * | 2018-06-29 | 2023-12-12 | 中兴通讯股份有限公司 | 一种检测干扰的方法及装置 |
CN108985365B (zh) * | 2018-07-05 | 2021-10-01 | 重庆大学 | 基于深度子空间切换集成学习的多源异构数据融合方法 |
CN109948680B (zh) * | 2019-03-11 | 2021-06-11 | 合肥工业大学 | 病历数据的分类方法及系统 |
CN110321950A (zh) * | 2019-06-30 | 2019-10-11 | 哈尔滨理工大学 | 一种信用卡欺诈识别方法 |
CN112508889B (zh) * | 2020-11-26 | 2022-09-13 | 郑州大学 | 一种染色体核型分析系统 |
CN112612897B (zh) * | 2020-12-30 | 2023-06-20 | 湖北大学 | 一种维基百科概念依赖关系识别方法 |
CN112990479B (zh) * | 2021-02-26 | 2022-02-11 | 普赛微科技(杭州)有限公司 | 利用机器学习分类器提高半导体芯片良品率的方法 |
CN113011503B (zh) * | 2021-03-17 | 2021-11-23 | 彭黎文 | 一种电子设备的数据取证方法、存储介质及终端 |
CN113191399B (zh) * | 2021-04-12 | 2022-05-27 | 普赛微科技(杭州)有限公司 | 一种基于机器学习分类器提高半导体芯片良品率的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663264A (zh) * | 2012-04-28 | 2012-09-12 | 北京工商大学 | 桥梁结构健康监测静态参数的半监督协同评估方法 |
CN103164710A (zh) * | 2013-02-19 | 2013-06-19 | 华南农业大学 | 一种基于压缩感知的选择集成人脸识别方法 |
-
2013
- 2013-12-09 CN CN201310655891.XA patent/CN103632168B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663264A (zh) * | 2012-04-28 | 2012-09-12 | 北京工商大学 | 桥梁结构健康监测静态参数的半监督协同评估方法 |
CN103164710A (zh) * | 2013-02-19 | 2013-06-19 | 华南农业大学 | 一种基于压缩感知的选择集成人脸识别方法 |
Non-Patent Citations (1)
Title |
---|
基于稀疏表示和集成学习的若干分类问题研究;宋相法;《中国博士学位论文全文数据库(信息科技辑)》;20131031(第10期);40-41 * |
Also Published As
Publication number | Publication date |
---|---|
CN103632168A (zh) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
CN106897738B (zh) | 一种基于半监督学习的行人检测方法 | |
CN103489005B (zh) | 一种基于多分类器融合的高分辨率遥感影像分类方法 | |
CN107766883A (zh) | 一种基于加权决策树的优化随机森林分类方法及系统 | |
CN105389480B (zh) | 多类不平衡基因组学数据迭代集成特征选择方法及系统 | |
CN104484681B (zh) | 基于空间信息和集成学习的高光谱遥感影像分类方法 | |
CN102509123B (zh) | 一种基于复杂网络的脑功能磁共振图像分类方法 | |
CN101604322B (zh) | 一种决策级文本自动分类融合方法 | |
CN106651057A (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN110309868A (zh) | 结合无监督学习的高光谱图像分类方法 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN107506793A (zh) | 基于弱标注图像的服装识别方法及系统 | |
CN111046787A (zh) | 一种基于改进YOLO v3模型的行人检测方法 | |
CN105760888A (zh) | 一种基于属性聚类的邻域粗糙集集成学习方法 | |
CN108388929A (zh) | 基于代价敏感和半监督分类的客户分类方法及装置 | |
CN106250913B (zh) | 一种基于局部典型相关分析的分类器集成车牌识别方法 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN103839078A (zh) | 一种基于主动学习的高光谱图像分类方法 | |
CN107885849A (zh) | 一种基于文本分类的情绪指数分析系统 | |
CN103310235B (zh) | 一种基于参数识别与估计的隐写分析方法 | |
CN104778482A (zh) | 基于张量半监督标度切维数约减的高光谱图像分类方法 | |
CN105975611A (zh) | 自适应组合降采样增强学习机 | |
CN108197636A (zh) | 一种基于深度多视点特征的稻谷检测和分类方法 | |
CN107943830A (zh) | 一种适用于高维大数据集的数据分类方法 | |
CN104978569A (zh) | 一种基于稀疏表示的增量人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170118 Termination date: 20191209 |
|
CF01 | Termination of patent right due to non-payment of annual fee |