CN102819548A - 基于聚类的循环集成动态选择方法 - Google Patents
基于聚类的循环集成动态选择方法 Download PDFInfo
- Publication number
- CN102819548A CN102819548A CN 201210095264 CN201210095264A CN102819548A CN 102819548 A CN102819548 A CN 102819548A CN 201210095264 CN201210095264 CN 201210095264 CN 201210095264 A CN201210095264 A CN 201210095264A CN 102819548 A CN102819548 A CN 102819548A
- Authority
- CN
- China
- Prior art keywords
- sorter
- cluster
- integrated
- basic
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于聚类的循环集成动态选择方法,其特征在于以下步骤:对全部的基分类器进行独立训练,然后系统通过聚类算法进行筛选,将筛选得到的基分类器通过基于循环集成框架下的静态选择策略进行选择性集成,系统在进入循环集成之前设置精度阈值和控制精度变化的步长。在循环集成框架下,系统根据特定的静态选择策略不断地向基分类器组合序列中放入基分类器。系统为了避免集成过多的分类器,为循环集成框架设置了分类器数量的阈值,当分类器数量超过阈值之后,就对序列进行修剪操作,以上的操作是根据差异性是整体集成精度提高的关键要素之一。系统通过聚类修剪,设置阈值控制循环集成等操作来减小系统的冗余度,最终实现提高性能的目的。
Description
技术领域
基于聚类的循环集成动态选择方法属于数据挖掘的选择性集成学习算法领域。
背景技术
作为人工智能的分支领域,机器学习主要参与设计和开发能够使得计算机独立进行“学习”的算法和技术。目前分类器集成是机器学习和模式识别中比较活跃的领域。集成学习系统尤其是Boosting和Bagging决策树,表现出比基学习系统更加强大的预测能力。目前集成分类器已在多个领域得到应用,包括生物信息学、软件重构、人脸识别以及疾病诊断等.但是,大量的冗余基学习器会降低集成学习器的泛化性,同时,随着基学习器数量的增多,集成学习器预测的速度下降,存储空间增多。正是考虑到集成学习中存在的种种问题,周志华等人首先提出了“选择性集成”的概念。选择性集成学习,首先通过独立的训练多个基学习器,然后通过一定的选择策略,从多个候选学习器中,选取一些对当前数据预测较好且各个学习器之间差异性较大的基学习器构建集成学习器,得到更好的预测结果。
现有的选择性集成学习算法主要分为4个方面。
基于聚类的方法。Lazarevic和Obradovic通过基学习器得到的结果,基于欧式距离应用K-均值聚类将基学习器进行分组。Giacinto和Roli定义两个基学习器之间的距离,通过层次凝聚的聚类算法来找到具有相似预测结果的基学习器子集。
基于排序的方法。Bryll等人根据分类准确性对特征子集进行排序,选取秩数较高的一些子集所训练的基学习器构建集成学习器。目前对基学习器排序的主要指标包括к统计量、互补性等。
基于选择的方法。这种方法可以根据如何对检验集进行预测分为静态选择法和动态选择法。静态选择法根据一定指标获得基学习器的子集进行集成,然后对所有的检验集进行预测;动态选择法则是根据检验集中每个样本的情况选择不同的基学习器子集进行集成,然后进行预测。
基于优化的方法。这类方法中最具代表性的成果就是在2002年,周志华等提出的基于实值编码遗传算法的选择性集成学习方法,首次从理论上证明了选择性集成学习方法的有效性。
发明内容
提出一种基于聚类算法并结合循环集成的静态选择方法,解决基于聚类选择策略不稳定性和静态选择策略含有冗余分类器过多,导致耗时过大,分类精度下降的问题。
本发明的特征在于,它依次含有以下步骤:
步骤(2.): 为了避免在循环集成框架下,选入太多的冗余分类器,导致系统的整体冗余度过高,时间复杂度过大,进而影响系统的整体性能的发挥,我们在循环集成进行之前,先进行一轮基于KMeans聚类算法的选择策略,筛选出差异性较大的基分类器,形成候选分类器。系统的聚类选择策略按照以下步骤进行:
步骤(2.3.):选择最近的聚类中心,并加入到该聚类中心所在的聚类;
步骤(2.4.):根据新产生的聚类,计算该聚类新的聚类中心;
步骤(2.5.):重复以上操作,直到每个聚类不再发生变化为止;
步骤(5.): 利用新产生的组合序列对验证集进行集成分类,判断集成分类得到的精度是否达到了精度阈值,如果达到,则返回组合序列,否则就采用评优标准,记录下局部最优的组合序列,需要说明的是本文所采用的评优标准和差异性度量方式都为相互一致性度量。度量按照以下步骤进行计算:
按照上述实施方式,我们利用UCI数据集对本文中的方法进行验证。我们将本方法应用于两种静态选择策略——集成前序选择(EFSS)和集成后序选择(EBSS)并将所得结果同原先的选择策略和单纯基于KMeans的选择策略的性能进行比较。
从表1中可以看出,经过改进的选择策略所耗费的时间都小于原选择策略的时间,这主要是由于经过K-Means聚类之后将部分冗余的基分类器筛选出候选子集,留下差异性相对较大的k个基分类器,通过聚类修剪获取k个基分类器的时间消耗比起选择策略自身小得多,因此基于聚类算法修剪的静态选择策略在运行时间上得到了不小提升。
从表2中我们可以看出,EBSS初始化时将全部的候选分类器加入选择队列中,并通过不断的判定删除某个分类器的前后候选子集的集成性能,最终确定集成子集,由于初始子集中含有许多冗余分类器,导致初始子集性能较差,如果不能适当地删除冗余分类器,那么可能导致耗时过大或者性能不如基分类器等问题。通过K-Means预先进行一轮子集修剪,然后通过循环框架进行集成,EBSS和EFSS的性能明显得到提升,主要因为K-Means提取出相互之间差异较大的分类器子集,使EBSS的初始分类器子集得到了优化,分类器数量变少,并结合改进循环集成框架循环修剪候选子集,使得EBSS和EFSS在性能上得到进一步提升。
综上所述,将聚类和基于循环集成的静态选择策略相结合,该方法提高了聚类算法的精度同时使得集成后序选择等静态选择策略耗时下降。在标准的UCI数据集与当前的其他方法进行了比较,均取得了更好的运行速度以及良好的分类器效果,证明了本方法的有效性。
附图说明
图1. 本发明的整体流程图。
附表说明
表1. 改进策略同原选择策略单轮耗时比较;
表2. 聚类与静态选择相结合的策略与原策略在精确度上的比较。
具体实施方式
目前没有选择策略可以完全优于其他策略,因为它们各自都存在些许不足,比如聚类算法的不稳定性影响了其自身性能的发挥,排序算法和选择算法大多基于全部的基分类器进行操作需要耗费大量的时间,各种优化算法需要花费很长的时间查找最优解,并且缺少灵活性。根据各种方法所存在的优点,设计一种结合聚类和基于循环集成的静态选择策略减小系统的冗余度,降低时间复杂度,实现提高整体性能的目的,是本发明的主要贡献。
该方法的基本思想:对全部的基分类器进行独立训练获得全部基分类器的分类效果,然后系统通过聚类算法对基分类器进行第一轮筛选,将筛选得到的基分类器通过基于循环集成框架下的静态选择策略进行第二轮筛选,系统在进入循环集成之前设置精度阈值和控制精度变化的步长。在循环集成框架下,系统根据特定的静态选择策略不断地向基分类器组合序列中放入基分类器,为了降低直接判断集成精度的时间复杂度,我们首先判断基分类器进入前后整体差异性变化情况,如果差异性增长,再进一步判断集成精度。系统为了进一步避免组合序列中含有过多的冗余基分类器,还为循环集成框架设置了分类器数量的阈值,并且记录下具有最大差异性的组合序列,当分类器数量超过阈值之后,就对序列进行修剪操作,退回到差异性最大的组合序列,以上的操作是根据差异性是整体集成精度提高的关键要素之一。
本发明的整体流程见图1;
Claims (1)
1.基于聚类的循环集成动态选择,其特征在于,该方法依次含有以下步骤:
为了避免在循环集成框架下,选入太多的冗余分类器,导致系统的整体冗余度过高,时间复杂度过大,进而影响系统的整体性能的发挥,我们在循环集成进行之前,先进行一轮基于KMeans聚类算法的选择策略,筛选出差异性较大的基分类器,形成候选分类器;
系统的聚类选择策略按照以下步骤进行:
选择最近的聚类中心,并加入到该聚类中心所在的聚类;
根据新产生的聚类,计算该聚类新的聚类中心;
重复以上操作,直到每个聚类不再发生变化为止;
利用新产生的组合序列对验证集进行集成分类,判断集成分类得到的精度是否达到了精度阈值,如果达到,则返回组合序列,否则就采用评优标准,记录下局部最优的组合序列,需要说明的是本文所采用的评优标准和差异性度量方式都为相互一致性度量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210095264 CN102819548A (zh) | 2012-03-31 | 2012-03-31 | 基于聚类的循环集成动态选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210095264 CN102819548A (zh) | 2012-03-31 | 2012-03-31 | 基于聚类的循环集成动态选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102819548A true CN102819548A (zh) | 2012-12-12 |
Family
ID=47303661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201210095264 Pending CN102819548A (zh) | 2012-03-31 | 2012-03-31 | 基于聚类的循环集成动态选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102819548A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593182A (zh) * | 2013-10-27 | 2014-02-19 | 沈阳建筑大学 | 一种采用聚类方式进行软件重构的方法 |
CN103605990A (zh) * | 2013-10-23 | 2014-02-26 | 江苏大学 | 基于图聚类标签传播的集成多分类器融合分类方法和系统 |
CN107992880A (zh) * | 2017-11-13 | 2018-05-04 | 山东斯博科特电气技术有限公司 | 一种电力变压器最优集总分类故障诊断方法 |
CN108537343A (zh) * | 2018-03-07 | 2018-09-14 | 中国科学院计算技术研究所 | 一种基于集成学习的差错控制方法和系统 |
CN114826690A (zh) * | 2022-04-02 | 2022-07-29 | 广州杰赛科技股份有限公司 | 一种基于边缘云环境的入侵检测方法和装置 |
CN115130619A (zh) * | 2022-08-04 | 2022-09-30 | 中建电子商务有限责任公司 | 一种基于聚类选择集成的风险控制方法 |
-
2012
- 2012-03-31 CN CN 201210095264 patent/CN102819548A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605990A (zh) * | 2013-10-23 | 2014-02-26 | 江苏大学 | 基于图聚类标签传播的集成多分类器融合分类方法和系统 |
CN103605990B (zh) * | 2013-10-23 | 2017-02-08 | 江苏大学 | 基于图聚类标签传播的集成多分类器融合分类方法和系统 |
CN103593182A (zh) * | 2013-10-27 | 2014-02-19 | 沈阳建筑大学 | 一种采用聚类方式进行软件重构的方法 |
CN107992880A (zh) * | 2017-11-13 | 2018-05-04 | 山东斯博科特电气技术有限公司 | 一种电力变压器最优集总分类故障诊断方法 |
CN108537343A (zh) * | 2018-03-07 | 2018-09-14 | 中国科学院计算技术研究所 | 一种基于集成学习的差错控制方法和系统 |
CN114826690A (zh) * | 2022-04-02 | 2022-07-29 | 广州杰赛科技股份有限公司 | 一种基于边缘云环境的入侵检测方法和装置 |
CN114826690B (zh) * | 2022-04-02 | 2023-11-17 | 中电科普天科技股份有限公司 | 一种基于边缘云环境的入侵检测方法和装置 |
CN115130619A (zh) * | 2022-08-04 | 2022-09-30 | 中建电子商务有限责任公司 | 一种基于聚类选择集成的风险控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102819548A (zh) | 基于聚类的循环集成动态选择方法 | |
Liu et al. | Extraction of fuzzy rules from fuzzy decision trees: An axiomatic fuzzy sets (AFS) approach | |
CN102214213B (zh) | 一种采用决策树的数据分类方法和系统 | |
Qiu | A novel multi-swarm particle swarm optimization for feature selection | |
CN107992887A (zh) | 分类器生成方法、分类方法、装置、电子设备及存储介质 | |
CN107507016A (zh) | 一种消息推送方法和系统 | |
CN110245252A (zh) | 基于遗传算法的机器学习模型自动生成方法 | |
CN103699771B (zh) | 一种冷负荷预测的情景-聚类方法 | |
CN104951987B (zh) | 基于决策树的作物育种评价方法 | |
Yu et al. | Autonomous knowledge-oriented clustering using decision-theoretic rough set theory | |
CN109409426A (zh) | 一种极值梯度提升逻辑回归分类预测方法 | |
CN108573274A (zh) | 一种基于数据稳定性的选择性聚类集成方法 | |
CN106991442A (zh) | 混合蛙跳算法的自适应核k‑means方法与系统 | |
CN105184486A (zh) | 一种基于有向无环图支持向量机的电网业务分类方法 | |
CN112800115B (zh) | 数据处理方法及数据处理装置 | |
Martínez-Ballesteros et al. | Improving a multi-objective evolutionary algorithm to discover quantitative association rules | |
US20110072016A1 (en) | Density-based data clustering method | |
CN106126973B (zh) | 基于r-svm和tpr规则的基因功能预测方法 | |
CN114549897A (zh) | 一种分类模型的训练方法、装置及存储介质 | |
CN109829498A (zh) | 基于聚类分析的粗分类方法、装置、终端设备和存储介质 | |
Last et al. | A feature-based serial approach to classifier combination | |
CN104732522A (zh) | 一种基于多态蚁群算法的图像分割方法 | |
Lucca et al. | A proposal for tuning the alpha parameter in a copula function applied in fuzzy rule-based classification systems | |
CN107704872A (zh) | 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 | |
Karakoyun et al. | Data clustering with shuffled leaping frog algorithm (SFLA) for classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121212 |