CN111832646A

CN111832646A - 基于cmcsa的分类器集成权重分配及自适应调整方法

Info

Publication number: CN111832646A
Application number: CN202010657502.7A
Authority: CN
Inventors: 郭雅蓉; 霍林; 王宏伟; 覃志健; 冯锦豪; 黄俊杰; 程子昂
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-27

Abstract

本发明公开一种基于CMCSA的分类器集成权重分配及自适应调整方法，主要包括以下步骤：1）获取样本特征集；2）将样本特征集划分为训练集和测试集；3）选取基分类器；4）初始分配各基分类器的集成权重；5）使用CMCSA算法进行集成权重的迭代调整更新，得到新的权重组合，用所得权重组合集成多个分类器；6）用集成分类器进行分类器训练，达到终止条件时输出最优解。本发明的自适应权重调整方法，可以改善加权投票集成策略中设置权重难的不足，根据集成分类器的预测性能，为每个分类器和每个输出类分配适当的权重值，在智能运算权重的同时有效避免人工设定权重值的误差缺陷；从而调整出各基分类器的最优权重组合，增强了集成分类器的稳健性和准确性。

Description

基于CMCSA的分类器集成权重分配及自适应调整方法

技术领域

本发明涉及分类器加权集成领域，尤其涉及一种基于改进的乌鸦算法——具有自适应步长的柯西变异乌鸦搜索算法(Cauchy mutation crow search algorithm，简称为“CMCSA”)的分类器集成权重分配及调整方法。

背景技术

分类在人们日常生活中扮演着举足轻重的角色。随着信息时代的发展，信息与数据的数字化成为了时代的大趋势，数字化的数据使人工处理工作变得困难且效率低。利用机器学习技术解决数字化的实际问题得到了众多学者的广泛关注与研究，与实际问题结合使用的计算机辅助系统也得到了快速发展。

对于分类问题，由于群体决策通常比个体的决策较好，当单个分类器不能提供100％正确的决策时，多个分类器可能获得更高的准确率。因此，可以将从个体分类器获得的决策结果集合起来，并从统计的角度得出最佳的最终决策。不同方法或特征的分类器可以相互补充、相互协作，从而减少错误，获得更高的性能。在分类器的集成中，多数投票是集成学习中最简单、最有效的组合方法之一。一些对基于多数投票的集成方案的研究表明，使用加权投票方案可以增强分类器集成的稳健性和准确性。而在不同的条件下，每个基分类器的性能是不同的，要根据具体情况对基分类器的性能进行评估，确定基分类器的权值或优先级。

加权投票方案中的权值分配问题本质上可以被建模为一个组合优化问题，其最优解可以通过建立良好的元启发式算法来寻求。基于群智能算法的多分类器集成分类技术，可以根据分类算法的预测性能，为每个分类器和每个输出类分配适当的权重值，在智能运算权重的同时有效避免人工设定权重值的误差缺陷。

发明内容

本发明的目的在于针对现有分类器集成技术中存在的不足，提供了一种基于柯西变异乌鸦搜索算法(CMCSA)的分类器集成权重分配及自适应调整方法。该方法能够有效为参与集成的基分类器根据其对该类数据的分类性能，自适应的分配及调整该基分类器的集成权重，得到最优的权重分配组合，从而得到最优集成分类器，以提高分类的效率和分类精度。

为了实现上述目的，本发明采用了以下技术方案：

一种基于CMCSA的分类器集成权重分配及自适应调整方法，包括下列步骤：

1)获取待分类数据样本的特征集；

2)基于k折交叉验证方法，将样本特征集分成k份，取其中一份为测试集，其余k-1份为训练集；

3)选择合适的基分类器；

4)初始分配各基分类器权重；

5)使用改进后的柯西变异乌鸦搜索算法(CMCSA)进行基分类器中的权重调整分配，得出新的权重组合，使用所得权重组合进行分类器加权集成，得到试验集成分类器，利用试验集成分类器进行数据分类，采用适应度函数fitness进行算法性能评估；

6)根据分类结果，得到最优集成分类器。

本发明进一步说明，所述步骤1)中样本的特征集是将某种原始信息中所具有的特征信息进行提取，包含数据的特征信息及所属类别信息，得到D+1元组 (D为所提取的特征种数)表示的特征集：样本i＝(特征1，特征2，特征3，…，特征D，所属类别标签)。

本发明进一步说明，所述步骤2)的k折交叉验证方法中k是任意大于1的常数，通常取5或10。

本发明进一步说明，所述步骤3)选择合适的基分类器，通常采用差异性度量方法。差异性度量也称多样性度量，度量方法分为成对差异性度量和非成对差异性度量。成对差异性度量方法是先计算两两分类器间的差异性，后取平均值得到集成差异度，包括：Q测试(Q Test)、内部协议k(Interater agreement k)、不一致度量(Disagreement measure)、双错误法(Double Fault measure)、相关系数 (Correlation Coefficient)。非成对差异性度量方法是直接计算整个组合的差异性，包括：熵度量(Entropy)、内部协议k(Interateragreement k)、Kohavi-Wolpert 方差、难度度量(The Measure of difficulty)、相关系数(Correlation Coefficient)、广义分集(Generalized Diversity)等。

本发明进一步说明，所述步骤4)的初始分配权重通常为随机分配，每一个个体代表一个权重组合。

本发明进一步说明，所述步骤5)的CMCSA权重调整算法具体为：

5a)初始化：初始化CMCSA算法的种群规模，即种群大小为N，空间维度 D(D为特征集中的特征个数)，边界范围x_max、x_min，设置算法搜索的最大迭代次数为itermax；

5b)对种群中每一个个体所表示的权重组合，分别进行多分类器集成得到试验集成分类器，并用测试集测试分类效果，得到正确分类数量true_num、错误分类的数量false_num，并使用fitness计算个体的适应度值，将适应度值最优的个体标记为gbest；

其中，true_num表示所有样本中被分类正确的样本数，num表示样本所包含的总数量；

5c)判断是否达到最大迭代次数，若是，输出最优权重组合和最优适应度值，若否，执行5b)～5e)；

5d)采用公式(2)～公式(3)更新种群中各个个体的位置：

其中，r_i2为0～1间均匀分布的随机数，N(0，1)是标准正态分布，即服从均值为0，方差为1的高斯分布函数，r_i1、r_i2、r_j是服从[0,1]均匀分布的随机数，r_i1控制乌鸦i在情况1下位置移动的方向，r_i2控制乌鸦i在情况2下的位置选择情况，

为乌鸦j的记忆值，

为为乌鸦j的感知概率，

为当前飞行长度。

5e)计算位置更新后各个个体的适应度值，更新个体记忆矩阵

其中，

为第t次迭代时第i个个体的位置，

为第i个个体进行位置更新后得到的下一次迭代的位置，

为第i个个体的记忆。

本发明进一步说明，所述步骤6)的最优集成分类器为，采用使所得分类准确率最高的权重组合进行分类器加权集成时的集成分类器。

本发明的技术创新相关说明：

分类器加权集成作为机器学习分类技术中的重要环节，通过采用某种组合方法，利用加权集成策略将独立分类器结合起来，构建出有效的集成模型，得到最佳的分类效果。

考虑将权重组合作为寻优问题与智能算法的寻优搜索相结合，提出了基于智能算法的权重优化技术。通过算法自适应的调节基分类器所占的权重系数，提高集成分类器的分类效果。为了提高算法的收敛速度，在寻优过程中必须在开发和勘探之间找到一个良好的平衡点。

因此本发明中的技术思路是改进标准乌鸦算法中的一些不足，以平衡种群的多样性和集约性，提高算法的寻优能力。提出新的自适应步长，将标准乌鸦算法的固定步长改进为随目标乌鸦和跟随者的位置距离远近而自适应调整。提出新的位置更新策略，在寻优过程中利用柯西变异对种群进行多样性提升。将改进算法应用于分类器集成中的权重自适应调整，通过不断迭代，寻找最佳系数组合作为基分类器的权重，构建高准确率的多分类器集成模型。

本发明与现有技术相比具有如下优点：

1.本发明从位置更新策略方面提高了乌鸦算法的寻优多样性，能够避免算法陷入局部最优，避免“早熟”现象，从而准确找到最优权重组合。

2.本发明从寻优步长方面提高了乌鸦算法的寻优能力，能够高效快速地在实数范围的解空间中寻找到最优权重组合。

3.本发明能够根据适应度函数的结果自适应调整基分类器的权重系数，有效避免了分类决策集成结构中，以专家经验生成的基分类器主观权重存在的一些人为误差。

附图说明

图1为本发明一实施例中基于柯西变异乌鸦搜索算法(CMCSA)的多分类器权重分配调整的实现流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例：

基于柯西乌鸦算法的分类器权重分配及自适应调整方法，包括下列步骤：

步骤一：获取待分类数据样本的特征集，样本i＝(特征1，特征2，特征3，…，特征D，所属类别标签)，D为特征个数；

步骤二：使用k折交叉验证法将样本特征集划分为训练集和测试集，k是任意大于1的常数；k取值为5或10；

步骤三：选择合适的基分类器，通过对待选分类器进行差异性度量，从而选择出差异性较大的基分类器组合(KNN、DA、DT、SVM、RF)进行下一步的集成；

步骤四：随机分配各基分类器初始权重(ω₁,…,ω₅)；

步骤五：使用柯西变异乌鸦搜索算法(CMCSA)进行基分类器权重分配及自适应调整，得出新的权重组合，使用所得权重组合进行分类器加权集成，得到试验集成分类器，利用试验集成分类器进行数据分类，采用适应度函数fitness 进行算法性能评估。具体为：

5a)初始化：初始化CMCSA算法的种群规模，即种群大小为N，空间维度D (D为特征集中的特征个数)，边界范围x_max、x_min，设置算法搜索的最大迭代次数为itermax；

其中，true_num表示所有样本中被分类正确的样本数，num表示样本所包含的总数量。

5d)采用公式(2)～公式(3)更新种群中各个个体的位置：

其中，r_i2为0～1间均匀分布的随机数，N(0，1)是标准正态分布，即服从均值为0，方差为1的高斯分布函数。r_i1、r_i2、r_j是服从[0,1]均匀分布的随机数，r_i1控制乌鸦i在情况1下位置移动的方向，r_i2控制乌鸦i在情况2下的位置选择情况，

为乌鸦j的记忆值，

为为乌鸦j的感知概率，

为当前飞行长度。

5e)计算位置更新后各个个体的适应度值，更新个体记忆矩阵

其中，

为第t次迭代时第i个个体的位置，

为第i个个体进行位置更新后得到的下一次迭代的位置，

为第i个个体的记忆。

步骤六：根据分类结果，采用使所得分类准确率最高的权重组合进行分类器加权集成，得到最优集成分类器。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于CMCSA的分类器集成权重分配及自适应调整方法，其特征在于，包括下列步骤：

1)获取待分类数据样本的特征集；

3)选择合适的基分类器；

4)初始分配各基分类器权重；

5)使用改进后的柯西变异乌鸦搜索算法进行基分类器中的权重调整分配，得出新的权重组合，使用所得权重组合进行分类器加权集成，得到试验集成分类器，利用试验集成分类器进行数据分类，采用适应度函数fitness进行算法性能评估；

6)根据分类结果，得到最优集成分类器。

2.根据权利要求1所述的基于CMCSA的分类器集成权重分配及自适应调整方法，其特征在于，所述步骤1)中样本的特征集是将某种原始信息中所具有的特征信息进行提取，得到D+1元组特征集：样本i＝(特征1，特征2，特征3，…，特征D，所属类别标签)；D为所提取的特征种数。

3.根据权利要求1所述的基于CMCSA的分类器集成权重分配及自适应调整方法，其特征在于，所述步骤2)的k折交叉验证方法中k是任意大于1的常数。

4.根据权利要求1或3所述的基于CMCSA的分类器集成权重分配及自适应调整方法，其特征在于，常数k取值为5或10。

5.根据权利要求1所述的基于CMCSA的分类器集成权重分配及自适应调整方法，其特征在于，所述步骤3)选择合适的基分类器，采用差异性度量方法。

6.根据权利要求1所述的基于CMCSA的分类器集成权重分配及自适应调整方法，其特征在于，所述步骤4)的初始分配各基分类器权重的方式为随机分配。

7.根据权利要求1所述的基于CMCSA的分类器集成权重分配及自适应调整方法，其特征在于，所述步骤5)具体为：

5a)初始化：初始化柯西变异乌鸦搜索算法的种群规模，即种群大小为N，空间维度D，边界范围x_max、x_min，设置算法搜索的最大迭代次数为itermax，初始化算法相关参数；

5d)采用公式(2)～公式(3)更新种群中各个个体的位置：

为乌鸦j的记忆值，

为乌鸦j的感知概率，

为当前飞行长度；

5e)计算位置更新后各个个体的适应度值，更新个体记忆矩阵

其中，

为第t次迭代时第i个个体的位置，，

为第i个个体进行位置更新后得到的下一次迭代的位置，

为第i个个体的记忆。

8.根据权利要求1所述的基于CMCSA的分类器集成权重分配及自适应调整方法，其特征在于，所述步骤6)的最优集成分类器为，采用使所得分类准确率最高的权重组合进行分类器加权集成时的集成分类器。