CN104573012A - 可收缩步长的多类别集成学习分类方法 - Google Patents
可收缩步长的多类别集成学习分类方法 Download PDFInfo
- Publication number
- CN104573012A CN104573012A CN201510010781.7A CN201510010781A CN104573012A CN 104573012 A CN104573012 A CN 104573012A CN 201510010781 A CN201510010781 A CN 201510010781A CN 104573012 A CN104573012 A CN 104573012A
- Authority
- CN
- China
- Prior art keywords
- training
- classification
- data set
- base
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及可收缩步长的多类别集成学习分类方法,该方法首先将原始数据进行预处理,转换成分类方法可以处理的数据格式,获得训练数据集和待分类数据集;然后初始化训练数据集样本权重;然后依据训练数据集样本权重以及训练步长,训练M个基分类器,其中根据需要收缩步长;然后集成所有基分类器,得到最终判别分类器,对待分类数据集进行分类;最后将分类结果保存到文件中,提供分类预测的参考。本发明解决了因使用固定步长导致的最终分类界面没有最优化,分类预测精度欠佳的问题,同时省去了使用线搜索估计带来的时间开销。
Description
技术领域
本发明涉及一种可收缩步长的多类别集成学习分类方法。
背景技术
集成学习已经成为机器学习中的一个重要研究方向。因为集成学习有一定的理论基础,并且实现简单,同时较其他分类方法有更高预测准确度和抵御“过学习”的能力,所以得到广泛的认可和应用。随着技术的进步使得数据收集变得越来越容易,使用集成学习去分类多类别的数据也变得越来越常见。
使用集成学习分类是使用一系列基分类器进行学习,并使用某种规则把这些基分类器的结果进行整合,从而获得比这些基分类器拥有更好学习效果和泛化能力的集成分类器。当类别数已知,但数据集中的数据类别未知时,我们常常借助训练数据集来构造集成学习模型。
在多类别情况下,特别是训练步长固定时,由于基分类器在每次模型训练时的“过学习”程度不同等因素的影响,固定的步长往往不能得到优化的分类界面,最终无法获得理想预测精度,提供理想的分类预测参考。为了解决这个问题,有学者把集成学习转化成最优化问题,在每次迭代中对训练步长做线搜索,即每次迭代计算并估计最优步长。但是,即使是使用线搜索,也只是获得步长的估计最优值,而不是精确最优值。另外,在每次迭代使用线搜索计算而产生的时间代价较大。
发明内容
本发明的目的在于解决现有技术存在的问题,提供一种可收缩步长的多类别集成学习分类方法。
为达到上述目的,本发明采用的如下技术方案:
一种可收缩步长的多类别集成学习分类方法,其特征在于该方法具体步骤如下:
A. 将原始数据进行预处理,转换成分类方法可以处理的数据格式,同时获得训练数据集和待分类数据集;
B. 初始化训练数据集样本权重;
C. 从m=1到M迭代,依据训练数据集样本权重以及训练步长,训练M个基分类器;
D. 集成步骤C中的所有基分类器,得到最终判别分类器,对待分类数据集进行分类;
E. 将分类结果保存到文件中,提供分类预测的参考。
上述步骤A的操作步骤如下:
A1. 训练数据集的预处理:每条数据必须有固定的f个属性值,在最后还要添加一个类别属性,表示这条数据的类别已知,总共为f+1个属性值;
A2. 待分类数据集的预处理:待分类数据集的每条数据形式必须与训练数据集的前f个属性形式一致,并且无类别属性值字段,总共为f个属性值。
上述步骤B中初始化训练数据集样本权重的操作步骤是:令每个样本的权重 = 1/n , i=1, 2, 3…n,其中n为样本个数。
上述步骤C的操作步骤如下:
C1. 依据训练数据集,以权重训练得到基分类器();
C2). 计算基分类器()错误率:
C3. 计算基分类器()可信度:
其中变量r为基分类器当前训练步长
C4. 从i=1到n,更新训练数据集样本权重:
;
C5. 重新规范化,使其总和为1;
C6. 计算本次迭代后的判别分类器:
C7. 判断是否需要收缩训练步长,如需,则收缩步长并重新计算步骤C3),C4),C5),C6),保存本次迭代后的最终判别分类器。
C8)若M次迭代结束,则退出迭代,否则跳转到C1)继续迭代。
上述步骤C7中判断是否需要收缩训练步长的依据是:如果Margin()>Margin()并且Accuracy()<Accuracy(),则收缩步长使得r=()并重新计算步骤C3),C4),C5),C6);否则,不做更改, 最后,保存本次迭代后的最终判别分类器,其中Margin计算训练模型的空白边界,Accuracy计算训练模型的训练准确率,迭代次数m →,算法趋于收敛。
上述步骤D的操作步骤如下:
D1. 集成并计算判别分类器,输出M个基分类器集成后的判别分类器,采用的计算公式为:
其中即为集成学习所输出的判别分类器。累加所有基分类器的判别概率,取K类中最大的即为判别结果。其中包含的权重含有基分类器权重,是经过步长调整后的权重;
D2. 使用步骤D1中计算的判别分类器,为待分类数据集中的所有样本进行分类。
本发明是一种可收缩步长的多类别集成学习分类方法,与已有技术相比较具有如下显而易见的突出特点和显著优点:
(1)本发明在多类别的集成学习分类过程中引入可收缩步长,解决了因使用固定步长导致的最终分类界面没有最优化,分类预测精度欠佳的问题。
(2)本发明与传统的多类别集成学习算法相比,因引入可收缩步长,虽然降低了算法的处理效率,但与固定步长比较,却能提高总体的分类预测精度,提高了模型的泛化能力。
(3)本发明不同于在每次迭代中使用线搜索估计收缩步长,仅仅判断在“过学习”的情况下才收缩步长,节省了时间开销。
附图说明
图1是本发明一种可收缩步长的多类别集成学习分类方法的流程图;
图2是本发明中的将原始数据进行预处理同时获得训练数据集和待分类数据集的流程图;
图3是本发明中 从m=1到M次迭代,依据训练数据集样本权重以及训练步长训练M个基分类器的流程图;
图4是本发明中的集成所有基分类器,得到最终判别分类器,对待分类数据集进行分类的流程图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步详细的说明。
参照图1,本发明是一种可收缩步长的多类别集成学习分类方法,以高斯生成法生成的随机数据集为例,其具体步骤如下:
(1)将原始数据进行预处理,转换成分类方法可以处理的数据格式,如图2所示,其具体步骤如下:
a) 训练数据集的预处理。训练数据集的预处理是这样的,每条数据必须有固定的f个属性值,在最后还要添加一个类别属性,表示这条数据的类别已知。因此,总共为f+1个属性值。
b) 待分类数据集的预处理。待分类数据集的每条数据形式必须与训练数据集的前f个属性形式一致,并且无类别属性值字段。因此,总共为f个属性值。
(2)初始化训练数据集样本权重。
其具体操作步骤是,令每个样本的权重 = 1/n, i=1, 2, 3…n,其中n为样本个数;
(3)从m=1到M迭代,依据训练数据集样本权重以及训练步长训练M个基分类器。
其中M为迭代次数,m代表本次迭代为第几次迭代。如图3所示,其具体步骤如下:
a) 依据训练数据集,以权重训练得到基分类器();
b) 计算基分类器()错误率:
其中即为当前迭代的分类器的错误率。
c) 计算基分类器()的可信度:
其中的变量r即为基分类器当前训练步长。
d) 从i=1到n,更新训练数据集样本权重:
;
e) 重新规范化,使其总和为1;
f) 计算本次迭代后的判别分类器:
g) 判断是否需要收缩训练步长,如需,则收缩步长并重新计算步骤c),d),e),f)。保存本次迭代后的最终判别分类器。
其中判断是否需要收缩训练步长的依据是:如果Margin()>Margin()并且Accuracy()<Accuracy(),则收缩步长使得r=()并重新计算步骤C3),C4),C5),C6),否则,不做更改,无需重新计算步骤C3),C4),C5),C6)。 最后保存本次迭代后的最终判别分类器。其中Margin计算训练模型的空白边界,Accuracy计算训练模型的训练准确率。
h) 若M次迭代结束,则退出迭代转到步骤(4),否则跳转到a)继续迭代;
(4)对步骤(3)得到的所有基分类器,集成并且计算得到最终判别分类器,对待分类数据集进行分类。
其中对待分类数据集进行分类,输入为待分类的数据集,输出为判别分类器的判别结果,即样本的类别标签。如图4所示,其具体步骤如下:
a) 集成并计算判别分类器,输出M个基分类器集成后的判别分类器,判别分类器的计算公式为:
其中即为集成学习所输出的判别分类器。累加所有基分类器的判别概率,取K类中最大的即为判别结果。其中包含的权重含有基分类器权重,是经过步长调整后的权重。
b) 使用a)中计算的判别分类器,为待分类数据集中的所有样本进行分类。
(5)将分类结果保存到文件中,提供分类预测的参考。
其中分类结果是指对于待分类数据集中的每个样本,在类别标签未知的情况下,预测该样本类别标签。
实验结果表明,本发明把可收缩步长结合到集成学习的分类方法中,有效的解决了因使用固定步长导致的最终分类界面没有最优化,分类预测精度欠佳的问题。同时,省去了因使用线搜索估计带来的时间开销。
以上对本发明的一种可收缩步长的多类别集成学习分类方法进行了详细的介绍,只是用于帮助理解本发明的方法和核心思想;同时,对于本领域的一般技术人员,依据本发明的方法和思想,在具体实施方式和应用范围上均会有所改变,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种可收缩步长的多类别集成学习分类方法,其特征在于该方法具体步骤如下:
A. 将原始数据进行预处理,转换成分类方法可以处理的数据格式,同时获得训练数据集和待分类数据集;
B. 初始化训练数据集样本权重;
C. 从m=1到M迭代,依据训练数据集样本权重以及训练步长,训练M个基分类器;
D. 集成步骤C中的所有基分类器,得到最终判别分类器,对待分类数据集进行分类;
E. 将分类结果保存到文件中,提供分类预测的参考。
2.根据权利要求1所述的可收缩步长的多类别集成学习分类方法,其特征在于所述步骤A的操作步骤如下:
A1. 训练数据集的预处理:每条数据必须有固定的f个属性值,在最后还要添加一个类别属性,表示这条数据的类别已知,总共为f+1个属性值;
A2. 待分类数据集的预处理:待分类数据集的每条数据形式必须与训练数据集的前f个属性形式一致,并且无类别属性值字段,总共为f个属性值。
3.根据权利要求1所述的可收缩步长的多类别集成学习分类方法,其特征在于,上述步骤B中初始化训练数据集样本权重的操作步骤是:令每个样本的权重 = 1/n , i=1, 2, 3…n,其中n为样本个数。
4.根据权利要求1所述的可收缩步长的多类别集成学习分类方法,其特征在于所述步骤C的操作步骤如下:
C-1. 依据训练数据集,以权重训练得到基分类器();
C-2. 计算基分类器()错误率:
C-3. 计算基分类器()可信度:
其中变量r为基分类器当前训练步长
C-4. 从i=1到n,更新训练数据集样本权重:
;
C-5. 重新规范化,使其总和为1;
C-6. 计算本次迭代后的判别分类器:
C-7. 判断是否需要收缩训练步长,如需,则收缩步长并重新计算步骤C3),C4),C5),C6),保存本次迭代后的最终判别分类器,
C-8若M次迭代结束,则退出迭代,否则跳转到C1)继续迭代。
5.根据权利要求4所述的可收缩步长的多类别集成学习分类方法,其特征在于所述步骤C7中判断是否需要收缩训练步长的依据是:如果Margin()>Margin()并且Accuracy()<Accuracy(),则收缩步长使得r=()并重新计算步骤C3),C4),C5),C6);否则,不做更改, 最后,保存本次迭代后的最终判别分类器,其中Margin计算训练模型的空白边界,Accuracy计算训练模型的训练准确率,迭代次数m →,算法趋于收敛。
6.根据权利要求1所述的可收缩步长的多类别集成学习分类方法,其特征在于所述步骤D的操作步骤如下:
D1. 集成并计算判别分类器,输出M个基分类器集成后的判别分类器,采用的计算公式为:
其中即为集成学习所输出的判别分类器,
累加所有基分类器的判别概率,取K类中最大的即为判别结果,
其中包含的权重含有基分类器权重,是经过步长调整后的权重;
D2. 使用步骤D1中计算的判别分类器,为待分类数据集中的所有样本进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510010781.7A CN104573012A (zh) | 2015-01-09 | 2015-01-09 | 可收缩步长的多类别集成学习分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510010781.7A CN104573012A (zh) | 2015-01-09 | 2015-01-09 | 可收缩步长的多类别集成学习分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104573012A true CN104573012A (zh) | 2015-04-29 |
Family
ID=53089074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510010781.7A Pending CN104573012A (zh) | 2015-01-09 | 2015-01-09 | 可收缩步长的多类别集成学习分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104573012A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205127A (zh) * | 2015-09-14 | 2015-12-30 | 北京航空航天大学 | 一种液体质量/体积特性数据库的自适应步长建库方法和系统 |
CN112790775A (zh) * | 2021-01-22 | 2021-05-14 | 中国地质大学(武汉) | 基于集成分类的高频振荡节律检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010072779A (ja) * | 2008-09-17 | 2010-04-02 | Mitsubishi Electric Corp | データ分類装置及びコンピュータプログラム及びデータ分類方法 |
CN102263790A (zh) * | 2011-07-18 | 2011-11-30 | 华北电力大学 | 一种基于集成学习的入侵检测方法 |
CN103716204A (zh) * | 2013-12-20 | 2014-04-09 | 中国科学院信息工程研究所 | 一种基于维纳过程的异常入侵检测集成学习方法及装置 |
-
2015
- 2015-01-09 CN CN201510010781.7A patent/CN104573012A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010072779A (ja) * | 2008-09-17 | 2010-04-02 | Mitsubishi Electric Corp | データ分類装置及びコンピュータプログラム及びデータ分類方法 |
CN102263790A (zh) * | 2011-07-18 | 2011-11-30 | 华北电力大学 | 一种基于集成学习的入侵检测方法 |
CN103716204A (zh) * | 2013-12-20 | 2014-04-09 | 中国科学院信息工程研究所 | 一种基于维纳过程的异常入侵检测集成学习方法及装置 |
Non-Patent Citations (1)
Title |
---|
夏俊士: "基于集成学习的高光谱遥感影像分类", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205127A (zh) * | 2015-09-14 | 2015-12-30 | 北京航空航天大学 | 一种液体质量/体积特性数据库的自适应步长建库方法和系统 |
CN105205127B (zh) * | 2015-09-14 | 2019-06-04 | 北京航空航天大学 | 一种液体质量/体积特性数据库的自适应步长建库方法和系统 |
CN112790775A (zh) * | 2021-01-22 | 2021-05-14 | 中国地质大学(武汉) | 基于集成分类的高频振荡节律检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104573013A (zh) | 结合类别权重的集成学习分类方法 | |
CN107644057B (zh) | 一种基于迁移学习的绝对不平衡文本分类方法 | |
CN103136504B (zh) | 人脸识别方法及装置 | |
CN102289522B (zh) | 一种对于文本智能分类的方法 | |
CN103761311B (zh) | 基于多源领域实例迁移的情感分类方法 | |
CN107944480A (zh) | 一种企业行业分类方法 | |
CN110443281A (zh) | 基于hdbscan聚类的自适应过采样方法 | |
CN109815492A (zh) | 一种基于识别模型的意图识别方法、识别设备及介质 | |
CN101604322B (zh) | 一种决策级文本自动分类融合方法 | |
CN107122352A (zh) | 一种基于k‑means、word2vec的抽取关键词的方法 | |
CN110717554B (zh) | 图像识别方法、电子设备及存储介质 | |
CN105389379A (zh) | 一种基于文本分布式特征表示的垃圾稿件分类方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN103632168A (zh) | 一种机器学习中的分类器集成方法 | |
CN107301858B (zh) | 基于音频特征空间分层描述的音频分类方法 | |
WO2018134248A1 (en) | Classifying data | |
CN104680144A (zh) | 基于投影极速学习机的唇语识别方法和装置 | |
CN108460421A (zh) | 不平衡数据的分类方法 | |
CN103605990A (zh) | 基于图聚类标签传播的集成多分类器融合分类方法和系统 | |
CN106649250B (zh) | 一种情感新词的识别方法及装置 | |
KR20150054258A (ko) | 인식기 학습 방법 및 장치, 데이터 인식 방법 및 장치 | |
CN105045913B (zh) | 基于WordNet以及潜在语义分析的文本分类方法 | |
CN104820703A (zh) | 一种文本精细分类方法 | |
CN104091038A (zh) | 基于大间隔分类准则的多示例学习特征加权方法 | |
CN107977670A (zh) | 决策树和贝叶斯算法的突发事件分类分级方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150429 |