CN111832646A - 基于cmcsa的分类器集成权重分配及自适应调整方法 - Google Patents

基于cmcsa的分类器集成权重分配及自适应调整方法 Download PDF

Info

Publication number
CN111832646A
CN111832646A CN202010657502.7A CN202010657502A CN111832646A CN 111832646 A CN111832646 A CN 111832646A CN 202010657502 A CN202010657502 A CN 202010657502A CN 111832646 A CN111832646 A CN 111832646A
Authority
CN
China
Prior art keywords
classifier
weight
cmcsa
integration
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010657502.7A
Other languages
English (en)
Inventor
郭雅蓉
霍林
王宏伟
覃志健
冯锦豪
黄俊杰
程子昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Original Assignee
Guangxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University filed Critical Guangxi University
Priority to CN202010657502.7A priority Critical patent/CN111832646A/zh
Publication of CN111832646A publication Critical patent/CN111832646A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于CMCSA的分类器集成权重分配及自适应调整方法,主要包括以下步骤:1)获取样本特征集;2)将样本特征集划分为训练集和测试集;3)选取基分类器;4)初始分配各基分类器的集成权重;5)使用CMCSA算法进行集成权重的迭代调整更新,得到新的权重组合,用所得权重组合集成多个分类器;6)用集成分类器进行分类器训练,达到终止条件时输出最优解。本发明的自适应权重调整方法,可以改善加权投票集成策略中设置权重难的不足,根据集成分类器的预测性能,为每个分类器和每个输出类分配适当的权重值,在智能运算权重的同时有效避免人工设定权重值的误差缺陷;从而调整出各基分类器的最优权重组合,增强了集成分类器的稳健性和准确性。

Description

基于CMCSA的分类器集成权重分配及自适应调整方法
技术领域
本发明涉及分类器加权集成领域,尤其涉及一种基于改进的乌鸦算法——具有自适应步长的柯西变异乌鸦搜索算法(Cauchy mutation crow search algorithm,简称为“CMCSA”)的分类器集成权重分配及调整方法。
背景技术
分类在人们日常生活中扮演着举足轻重的角色。随着信息时代的发展,信息与数据的数字化成为了时代的大趋势,数字化的数据使人工处理工作变得困难且效率低。利用机器学习技术解决数字化的实际问题得到了众多学者的广泛关注与研究,与实际问题结合使用的计算机辅助系统也得到了快速发展。
对于分类问题,由于群体决策通常比个体的决策较好,当单个分类器不能提供100%正确的决策时,多个分类器可能获得更高的准确率。因此,可以将从个体分类器获得的决策结果集合起来,并从统计的角度得出最佳的最终决策。不同方法或特征的分类器可以相互补充、相互协作,从而减少错误,获得更高的性能。在分类器的集成中,多数投票是集成学习中最简单、最有效的组合方法之一。一些对基于多数投票的集成方案的研究表明,使用加权投票方案可以增强分类器集成的稳健性和准确性。而在不同的条件下,每个基分类器的性能是不同的,要根据具体情况对基分类器的性能进行评估,确定基分类器的权值或优先级。
加权投票方案中的权值分配问题本质上可以被建模为一个组合优化问题,其最优解可以通过建立良好的元启发式算法来寻求。基于群智能算法的多分类器集成分类技术,可以根据分类算法的预测性能,为每个分类器和每个输出类分配适当的权重值,在智能运算权重的同时有效避免人工设定权重值的误差缺陷。
发明内容
本发明的目的在于针对现有分类器集成技术中存在的不足,提供了一种基于柯西变异乌鸦搜索算法(CMCSA)的分类器集成权重分配及自适应调整方法。该方法能够有效为参与集成的基分类器根据其对该类数据的分类性能,自适应的分配及调整该基分类器的集成权重,得到最优的权重分配组合,从而得到最优集成分类器,以提高分类的效率和分类精度。
为了实现上述目的,本发明采用了以下技术方案:
一种基于CMCSA的分类器集成权重分配及自适应调整方法,包括下列步骤:
1)获取待分类数据样本的特征集;
2)基于k折交叉验证方法,将样本特征集分成k份,取其中一份为测试集,其余k-1份为训练集;
3)选择合适的基分类器;
4)初始分配各基分类器权重;
5)使用改进后的柯西变异乌鸦搜索算法(CMCSA)进行基分类器中的权重调整分配,得出新的权重组合,使用所得权重组合进行分类器加权集成,得到试验集成分类器,利用试验集成分类器进行数据分类,采用适应度函数fitness进行算法性能评估;
6)根据分类结果,得到最优集成分类器。
本发明进一步说明,所述步骤1)中样本的特征集是将某种原始信息中所具有的特征信息进行提取,包含数据的特征信息及所属类别信息,得到D+1元组 (D为所提取的特征种数)表示的特征集:样本i=(特征1,特征2,特征3,…,特征D,所属类别标签)。
本发明进一步说明,所述步骤2)的k折交叉验证方法中k是任意大于1的常数,通常取5或10。
本发明进一步说明,所述步骤3)选择合适的基分类器,通常采用差异性度量方法。差异性度量也称多样性度量,度量方法分为成对差异性度量和非成对差异性度量。成对差异性度量方法是先计算两两分类器间的差异性,后取平均值得到集成差异度,包括:Q测试(Q Test)、内部协议k(Interater agreement k)、不一致度量(Disagreement measure)、双错误法(Double Fault measure)、相关系数 (Correlation Coefficient)。非成对差异性度量方法是直接计算整个组合的差异性,包括:熵度量(Entropy)、内部协议k(Interateragreement k)、Kohavi-Wolpert 方差、难度度量(The Measure of difficulty)、相关系数(Correlation Coefficient)、广义分集(Generalized Diversity)等。
本发明进一步说明,所述步骤4)的初始分配权重通常为随机分配,每一个个体代表一个权重组合。
本发明进一步说明,所述步骤5)的CMCSA权重调整算法具体为:
5a)初始化:初始化CMCSA算法的种群规模,即种群大小为N,空间维度 D(D为特征集中的特征个数),边界范围xmax、xmin,设置算法搜索的最大迭代次数为itermax;
5b)对种群中每一个个体所表示的权重组合,分别进行多分类器集成得到试验集成分类器,并用测试集测试分类效果,得到正确分类数量true_num、错误分类的数量false_num,并使用fitness计算个体的适应度值,将适应度值最优的个体标记为gbest;
Figure BDA0002577276160000031
其中,true_num表示所有样本中被分类正确的样本数,num表示样本所包含的总数量;
5c)判断是否达到最大迭代次数,若是,输出最优权重组合和最优适应度值,若否,执行5b)~5e);
5d)采用公式(2)~公式(3)更新种群中各个个体的位置:
Figure BDA0002577276160000032
Figure BDA0002577276160000033
其中,ri2为0~1间均匀分布的随机数,N(0,1)是标准正态分布,即服从均值为0,方差为1的高斯分布函数,ri1、ri2、rj是服从[0,1]均匀分布的随机数,ri1控制乌鸦i在情况1下位置移动的方向,ri2控制乌鸦i在情况2下的位置选择情况,
Figure BDA0002577276160000034
为乌鸦j的记忆值,
Figure BDA0002577276160000035
为为乌鸦j的感知概率,
Figure BDA0002577276160000036
为当前飞行长度。
5e)计算位置更新后各个个体的适应度值,更新个体记忆矩阵
Figure BDA0002577276160000037
Figure BDA0002577276160000038
其中,
Figure BDA0002577276160000039
为第t次迭代时第i个个体的位置,
Figure BDA00025772761600000310
为第i个个体进行位置更新后得到的下一次迭代的位置,
Figure BDA00025772761600000311
为第i个个体的记忆。
本发明进一步说明,所述步骤6)的最优集成分类器为,采用使所得分类准确率最高的权重组合进行分类器加权集成时的集成分类器。
本发明的技术创新相关说明:
分类器加权集成作为机器学习分类技术中的重要环节,通过采用某种组合方法,利用加权集成策略将独立分类器结合起来,构建出有效的集成模型,得到最佳的分类效果。
考虑将权重组合作为寻优问题与智能算法的寻优搜索相结合,提出了基于智能算法的权重优化技术。通过算法自适应的调节基分类器所占的权重系数,提高集成分类器的分类效果。为了提高算法的收敛速度,在寻优过程中必须在开发和勘探之间找到一个良好的平衡点。
因此本发明中的技术思路是改进标准乌鸦算法中的一些不足,以平衡种群的多样性和集约性,提高算法的寻优能力。提出新的自适应步长,将标准乌鸦算法的固定步长改进为随目标乌鸦和跟随者的位置距离远近而自适应调整。提出新的位置更新策略,在寻优过程中利用柯西变异对种群进行多样性提升。将改进算法应用于分类器集成中的权重自适应调整,通过不断迭代,寻找最佳系数组合作为基分类器的权重,构建高准确率的多分类器集成模型。
本发明与现有技术相比具有如下优点:
1.本发明从位置更新策略方面提高了乌鸦算法的寻优多样性,能够避免算法陷入局部最优,避免“早熟”现象,从而准确找到最优权重组合。
2.本发明从寻优步长方面提高了乌鸦算法的寻优能力,能够高效快速地在实数范围的解空间中寻找到最优权重组合。
3.本发明能够根据适应度函数的结果自适应调整基分类器的权重系数,有效避免了分类决策集成结构中,以专家经验生成的基分类器主观权重存在的一些人为误差。
附图说明
图1为本发明一实施例中基于柯西变异乌鸦搜索算法(CMCSA)的多分类器权重分配调整的实现流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
实施例:
基于柯西乌鸦算法的分类器权重分配及自适应调整方法,包括下列步骤:
步骤一:获取待分类数据样本的特征集,样本i=(特征1,特征2,特征3,…,特征D,所属类别标签),D为特征个数;
步骤二:使用k折交叉验证法将样本特征集划分为训练集和测试集,k是任意大于1的常数;k取值为5或10;
步骤三:选择合适的基分类器,通过对待选分类器进行差异性度量,从而选择出差异性较大的基分类器组合(KNN、DA、DT、SVM、RF)进行下一步的集成;
步骤四:随机分配各基分类器初始权重(ω1,…,ω5);
步骤五:使用柯西变异乌鸦搜索算法(CMCSA)进行基分类器权重分配及自适应调整,得出新的权重组合,使用所得权重组合进行分类器加权集成,得到试验集成分类器,利用试验集成分类器进行数据分类,采用适应度函数fitness 进行算法性能评估。具体为:
5a)初始化:初始化CMCSA算法的种群规模,即种群大小为N,空间维度D (D为特征集中的特征个数),边界范围xmax、xmin,设置算法搜索的最大迭代次数为itermax;
5b)对种群中每一个个体所表示的权重组合,分别进行多分类器集成得到试验集成分类器,并用测试集测试分类效果,得到正确分类数量true_num、错误分类的数量false_num,并使用fitness计算个体的适应度值,将适应度值最优的个体标记为gbest;
Figure BDA0002577276160000051
其中,true_num表示所有样本中被分类正确的样本数,num表示样本所包含的总数量。
5c)判断是否达到最大迭代次数,若是,输出最优权重组合和最优适应度值,若否,执行5b)~5e);
5d)采用公式(2)~公式(3)更新种群中各个个体的位置:
Figure BDA0002577276160000052
Figure BDA0002577276160000061
其中,ri2为0~1间均匀分布的随机数,N(0,1)是标准正态分布,即服从均值为0,方差为1的高斯分布函数。ri1、ri2、rj是服从[0,1]均匀分布的随机数,ri1控制乌鸦i在情况1下位置移动的方向,ri2控制乌鸦i在情况2下的位置选择情况,
Figure BDA0002577276160000062
为乌鸦j的记忆值,
Figure BDA0002577276160000063
为为乌鸦j的感知概率,
Figure BDA0002577276160000064
为当前飞行长度。
5e)计算位置更新后各个个体的适应度值,更新个体记忆矩阵
Figure BDA0002577276160000065
Figure BDA0002577276160000066
其中,
Figure BDA0002577276160000067
为第t次迭代时第i个个体的位置,
Figure BDA0002577276160000068
为第i个个体进行位置更新后得到的下一次迭代的位置,
Figure BDA0002577276160000069
为第i个个体的记忆。
步骤六:根据分类结果,采用使所得分类准确率最高的权重组合进行分类器加权集成,得到最优集成分类器。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制。显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (8)

1.一种基于CMCSA的分类器集成权重分配及自适应调整方法,其特征在于,包括下列步骤:
1)获取待分类数据样本的特征集;
2)基于k折交叉验证方法,将样本特征集分成k份,取其中一份为测试集,其余k-1份为训练集;
3)选择合适的基分类器;
4)初始分配各基分类器权重;
5)使用改进后的柯西变异乌鸦搜索算法进行基分类器中的权重调整分配,得出新的权重组合,使用所得权重组合进行分类器加权集成,得到试验集成分类器,利用试验集成分类器进行数据分类,采用适应度函数fitness进行算法性能评估;
6)根据分类结果,得到最优集成分类器。
2.根据权利要求1所述的基于CMCSA的分类器集成权重分配及自适应调整方法,其特征在于,所述步骤1)中样本的特征集是将某种原始信息中所具有的特征信息进行提取,得到D+1元组特征集:样本i=(特征1,特征2,特征3,…,特征D,所属类别标签);D为所提取的特征种数。
3.根据权利要求1所述的基于CMCSA的分类器集成权重分配及自适应调整方法,其特征在于,所述步骤2)的k折交叉验证方法中k是任意大于1的常数。
4.根据权利要求1或3所述的基于CMCSA的分类器集成权重分配及自适应调整方法,其特征在于,常数k取值为5或10。
5.根据权利要求1所述的基于CMCSA的分类器集成权重分配及自适应调整方法,其特征在于,所述步骤3)选择合适的基分类器,采用差异性度量方法。
6.根据权利要求1所述的基于CMCSA的分类器集成权重分配及自适应调整方法,其特征在于,所述步骤4)的初始分配各基分类器权重的方式为随机分配。
7.根据权利要求1所述的基于CMCSA的分类器集成权重分配及自适应调整方法,其特征在于,所述步骤5)具体为:
5a)初始化:初始化柯西变异乌鸦搜索算法的种群规模,即种群大小为N,空间维度D,边界范围xmax、xmin,设置算法搜索的最大迭代次数为itermax,初始化算法相关参数;
5b)对种群中每一个个体所表示的权重组合,分别进行多分类器集成得到试验集成分类器,并用测试集测试分类效果,得到正确分类数量true_num、错误分类的数量false_num,并使用fitness计算个体的适应度值,将适应度值最优的个体标记为gbest;
Figure FDA0002577276150000021
其中,true_num表示所有样本中被分类正确的样本数,num表示样本所包含的总数量;
5c)判断是否达到最大迭代次数,若是,输出最优权重组合和最优适应度值,若否,执行5b)~5e);
5d)采用公式(2)~公式(3)更新种群中各个个体的位置:
Figure FDA0002577276150000022
Figure FDA0002577276150000023
其中,ri2为0~1间均匀分布的随机数,N(0,1)是标准正态分布,即服从均值为0,方差为1的高斯分布函数,ri1、ri2、rj是服从[0,1]均匀分布的随机数,ri1控制乌鸦i在情况1下位置移动的方向,ri2控制乌鸦i在情况2下的位置选择情况,
Figure FDA0002577276150000024
为乌鸦j的记忆值,
Figure FDA0002577276150000025
为乌鸦j的感知概率,
Figure FDA0002577276150000026
为当前飞行长度;
5e)计算位置更新后各个个体的适应度值,更新个体记忆矩阵
Figure FDA0002577276150000027
Figure FDA0002577276150000028
其中,
Figure FDA0002577276150000029
为第t次迭代时第i个个体的位置,,
Figure FDA00025772761500000210
为第i个个体进行位置更新后得到的下一次迭代的位置,
Figure FDA00025772761500000211
为第i个个体的记忆。
8.根据权利要求1所述的基于CMCSA的分类器集成权重分配及自适应调整方法,其特征在于,所述步骤6)的最优集成分类器为,采用使所得分类准确率最高的权重组合进行分类器加权集成时的集成分类器。
CN202010657502.7A 2020-07-09 2020-07-09 基于cmcsa的分类器集成权重分配及自适应调整方法 Pending CN111832646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010657502.7A CN111832646A (zh) 2020-07-09 2020-07-09 基于cmcsa的分类器集成权重分配及自适应调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010657502.7A CN111832646A (zh) 2020-07-09 2020-07-09 基于cmcsa的分类器集成权重分配及自适应调整方法

Publications (1)

Publication Number Publication Date
CN111832646A true CN111832646A (zh) 2020-10-27

Family

ID=72900793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010657502.7A Pending CN111832646A (zh) 2020-07-09 2020-07-09 基于cmcsa的分类器集成权重分配及自适应调整方法

Country Status (1)

Country Link
CN (1) CN111832646A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779579A (zh) * 2021-09-14 2021-12-10 西安电子科技大学 面向安卓应用的多模型联合检测系统和方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779579A (zh) * 2021-09-14 2021-12-10 西安电子科技大学 面向安卓应用的多模型联合检测系统和方法
CN113779579B (zh) * 2021-09-14 2024-04-09 西安电子科技大学 面向安卓应用的多模型联合检测系统和方法

Similar Documents

Publication Publication Date Title
CN103559504B (zh) 图像目标类别识别方法及装置
CN109086799A (zh) 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法
CN109460793A (zh) 一种节点分类的方法、模型训练的方法及装置
CN108921604B (zh) 一种基于代价敏感分类器集成的广告点击率预测方法
CN108491864B (zh) 基于自动确定卷积核大小卷积神经网络的高光谱图像分类
CN107103332A (zh) 一种面向大规模数据集的相关向量机分类方法
CN108197643B (zh) 一种基于无监督聚类和度量学习的迁移学习方法
CN109960808B (zh) 一种文本识别方法、装置、设备及计算机可读存储介质
CN111553127A (zh) 一种多标记的文本类数据特征选择方法及装置
CN108877947B (zh) 基于迭代均值聚类的深度样本学习方法
CN110880369A (zh) 基于径向基函数神经网络的气体标志物检测方法及应用
CN111834010A (zh) 一种基于属性约简和XGBoost的COVID-19检测假阴性识别方法
CN112116952B (zh) 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法
CN110991518A (zh) 一种基于进化多任务的两阶段特征选择方法及系统
CN112801140A (zh) 一种基于飞蛾扑火优化算法的XGBoost乳腺癌快速诊断方法
CN111160461A (zh) 基于模糊聚类的加权在线极限学习机大数据分类方法
CN110674940A (zh) 一种基于神经网络的多指标异常检测方法
CN111832646A (zh) 基于cmcsa的分类器集成权重分配及自适应调整方法
CN111737110A (zh) 一种面向深度学习模型的测试输入选择方法
CN114663770A (zh) 一种基于集成聚类波段选择的高光谱图像分类方法及系统
CN114417095A (zh) 一种数据集划分方法及装置
CN111601358B (zh) 一种多阶段分层分簇空间相关性温度感知数据去冗余方法
CN105678798A (zh) 一种结合局部空间信息的多目标模糊聚类图像分割方法
CN111832645A (zh) 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法
Holz et al. Relative feature importance: A classifier-independent approach to feature selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201027