CN107358253A

CN107358253A - 一种基于差分演化的自适应集成学习方法及系统

Info

Publication number: CN107358253A
Application number: CN201710439645.9A
Authority: CN
Inventors: 郭海湘; 顾明贇; 李诒靖; 黄媛玥
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2017-06-12
Filing date: 2017-06-12
Publication date: 2017-11-17

Abstract

本发明公开一种基于差分演化的自适应集成学习方法及系统，该自适应集成学习方法及系统利用DE算法将从备选算法池里搜索最优的算法组合进行训练，以生成DE‑AMCS模型，本发明采用DE算法来找出不同数据在每个组成部分的最优算法从而完成最优组合使得针对不同的不均衡数据，系统能够选择最优的集成学习模型来完成分类任务。

Description

一种基于差分演化的自适应集成学习方法及系统

技术领域

本发明涉及不均衡数据分类技术领域，更具体地说，涉及一种基于差分演化的自适应集成学习方法及系统。

背景技术

不均衡数据问题在我们日常生活中随处可见，例如疾病诊断，矿藏资源识别等等，这些不均衡问题在生活工作中具有不可忽视的影响。不均衡问题由于其数据的分布不均衡，如有些数据量较少，数据分散等，形成了各式各样的数据分布特点，这就形成了不同类型的不均衡数据。在对不均衡数据问题进行分析处理时，少数类一旦错分，可能造成十分巨大的影响。迄今为止，不均衡数据的学习已经被广泛研究，目前人们具有常用的解决不均衡数据的方法是在采样方法、代价敏感算法、单分类器等上进行改进。

在现阶段对于不均衡数据的研究，主要集中在对于数据层面和算法层面的研究。针对于数据层面的研究，其主旨思想在于通过对数据的处理，使得样本数据的分布达到相对均衡，以期降低对不均衡数据的分类难度。现如今，对于数据的处理而言，最广泛被采用的是过采样和欠采样两种方法。针对于算法层面的研究而言，其主要思想在于提高分类器对于小类样本的识别能力，代价敏感学习是当前比较常用也行之有效的方法，代价敏感学习通过增加小类样本的错分代价来增强分类器的学习能力。在近些年对不均衡数据的研究之中，将各种方法结合在一起形成的集成算法逐渐被提出来，构建集成学习模型的主要思想是利用多个分类器进行训练。

但是就目前而言，虽然各种各样的多分类器系统已经被提出，其中大多数专注于设计一个统一的模型来解决所有不均衡数据，忽略了不同不均衡数据自身的特征。事实上，一个集成模型的任一组成部分都对学习的质量有影响，如采样方法的选择、基分类器的选择和基分类器的集成规则等，使用一个特定的集成学习模型来解决各种类型的不均衡数据是低效率的。

为较好理解本发明的差分演化算法，现将现有技术中差分演化算法做如下介绍。如图1所示，其为现有技术中差分演化算法的流程图。如图所示，该算法包含如下步骤：

(1)初始化。DE(differential evolution，差分演化算法)利用NP个维数为D的实数值参数向量作为每一代的种群，每个个体表示为：

X_i，G(i＝1，2，……，NP)

式中：i为体在种群中的序列；G为进化代数；NP为种群规模。本领域人员应当理解的是种群中的任一序列均为正整数。

为了建立优化搜索的初始点，种群必须被初始化。通常寻找初始种群的一个方法是从给定边界约束内的值中随机选择。在DE研究中，一般假定对所有随机初始化种群均符合均匀概率分布。设参数变量的界限为则：

式中：rand[0，1]——在[0，1]之间产生的均匀随机数。

如果预先可以得到问题的初步解，初始种群也可以通过对初步解加入正态分布随机偏差来产生，这样可以提高重建效果。应当可以理解的是，也可以采用其他方法初始化种群，本发明对此不作限定。

(2)变异。对于每个目标向量X_i，G(i＝1，2，……，NP)，基本DE算法的变异向量如下产生：v_i,G+1＝X_r1,G+F·(x_r2,G-x_r3,G)

其中，随机选择的序号r1，r2和r3互不相同，且r1，r2和r3与目标向量序号i也应不同。变异算子F是一个实常数因数，控制偏差变量的放大作用。

(3)交叉。为了增加干扰参数向量的多样性，引入交叉操作。则试验向量变为：

u_i,G+1＝(u_1i,G+1,u_2i,G+1,...,u_Di,G+1) (4)

(i＝1，2，……，NP；j＝1，3，……，D) (5)

式中：randb(j)—产生[0，1]之间随机数发生器的第j个估计值；rnbr(i)∈1，2，…，D—一选择的序列，用它来确保u_i,G+1至少从u_i,G+1获得一个参数；CR—交叉算子，取值范围为[0，1]。

(4)选择。为决定试验向量u_i,G+1，是否会成为下一代中的成员，DE按照贪婪准则将试验向量与当前种群中的目标向量进行比较。如果目标函数要被最小化，那么具有较小目标函数值的向量将在下一代种群中赢得一席地位。下一代中的所有个体都比当前种群的对应个体更佳或者至少一样好。注意在DE选择程序中试验向量只与一个个体相比较，而不是与现有种群中的所有个体相比较。

(5)新一代的种群中的最优个体是否满足最大进化代数或者满足误差要求，若是则停止演化并输出最优个体，否则转入变异步骤，进行下一次的演化。

发明内容

本发明要解决的技术问题在于，针对上述的现有对不均衡数据问题进行处理时，采用一个特定的集成学习模型来解决各种类型的不均衡数据所造成的低效率的技术缺陷，提供了一种基于差分演化的自适应集成学习方法及系统。

根据本发明的其中一方面，本发明为解决其技术问题，提供了一种基于差分演化的自适应集成学习方法，该方法包含下述步骤：

S1、初始化种群，将AMCS算法中的集成框架、特征选择算法、基分类器以及集成规分别用二进制编码表示；

S2、对初始化后的种群中的每一个目标向量X_i,G采用DE/rand/1变异模式进行变异，变异后的结果V_i,G＝round((X_i,G+F*(x_j,G-x_k,G))/2)，其中，X表示种群，i,j,k为体在种群中的序列,i≠j≠k，j和k均为随机生成，G为进化代数,F为缩放因子，F∈[0，1]；

S3、计算得到交叉后的结果，该结果通过下述公计算得到：

其中，n和L为随机生成的两个整数，且n,L∈[1,D]，n为交叉位置，L为交叉长度，D为种群中个体的维度，X表示种群,j为体在种群中的序列,G为进化代数；

S4、利用AMCS算法中每条路径计算后的AUCarea值作为比较的因子，对种群中下一代的成员进行选择，选择的公式表示为：

式中f()表示对应向量的AUCarea值；

S5、将选择后的结果作为AMCS算法待处理的数据输入至AMCS算法中，得到分类结果。

进一步的，在本发明的基于差分演化的自适应集成学习方法中，该步骤S4中的AUCarea值通过下述步骤获取：

S41、利用特征选择算法从AMCS的不均衡训练集中提取出最优特征集；

S42、对提取出最优特征集后的AMCS的不均衡训练集进行采样处理，将提取出最优特征集后的AMCS的不均衡训练集拆分成K个子训练集；

S43、利用每个子训练集分别对每一个基分类器进行训练；

S44、根据每个基分类器在不均衡训练集上的性能计算它的AUCarea值。

进一步的，在本发明的基于差分演化的自适应集成学习方法中，该步骤S5包含步骤：

根据AMCS算法的集成规则获取该选择后的结果中每个类得到每个分类器的概率,并使用加权集成规则来得到基分类器的输出以得到每个类的分类结果。

进一步的，在本发明的基于差分演化的自适应集成学习方法中，

该AMCS算法具有三种集成框架，分别为Adaboost.M1框架、基于欠采样的集成分类器框架和基于过采样的集成分类器框架；

该AMCS算法具有五种集成规则，分别为Max、Min、Product、Majority Vote以及Sum；

该AMCS算法具有五种基分类器，分别为C4.5基分类器、SVM基分类器、RBF神经网络基分类器、DGC基分类器以及KNN基分类器；

该AMCS算法具有两种特征选择算法。

进一步的，在本发明的基于差分演化的自适应集成学习方法中，当集成框架为Adaboos.M1时，集成规则就只有Majority Vote一种。

根据本发明的另一方面，本发明为解决其技术问题，还提供了一种基于差分演化的自适应集成学习系统，该学习系统包含：

初始化单元，用于初始化种群，将AMCS算法中的集成框架、特征选择算法、基分类器以及集成规分别用二进制编码表示；

变异单元，用于对初始化后的种群中的每一个目标向量X_i,G采用DE/rand/1变异模式进行变异，变异后的结果V_i,G＝round((X_i,G+F*(x_j,G-x_k,G))/2)，其中，X表示种群，i,j,k为体在种群中的序列,i≠j≠k，j和k均为随机生成，G为进化代数,F为缩放因子，F∈[0，1]；

交叉单元，用于计算得到交叉后的结果，该结果通过下述公计算得到：

模型构建单元，用于利用AMCS算法中每条路径计算后的AUCarea值作为比较的因子，对种群中下一代的成员进行选择，选择的公式表示为：

式中f()表示对应向量的AUCarea值；

模型构建单元，用于将选择后的结果作为AMCS算法待处理的数据输入至AMCS算法中，得到分类结果。

进一步的，在本发明的基于差分演化的自适应集成学习系统中，该模型构建单元包括用于获取AUCarea值的下述子模块：

特征选择子模块，用于利用特征选择算法从AMCS的不均衡训练集中提取出最优特征集；

采样拆分子模块，用于对提取出最优特征集后的AMCS的不均衡训练集进行采样处理，将提取出最优特征集后的AMCS的不均衡训练集拆分成K个子训练集；

基分类器训练子模块，用于利用每个子训练集分别对每一个基分类器进行训练；

计算子模块，用于根据每个基分类器在不均衡训练集上的性能计算它的AUCarea值。

进一步的，在本发明的基于差分演化的自适应集成学习系统中，模型构建单元包括用于获取AUCarea值的下述子模块：

处理子模块，用于根据AMCS算法的集成规则获取该选择后的结果中每个类得到每个分类器的概率,并使用加权集成规则来得到基分类器的输出以得到每个类的分类结果。

进一步的，在本发明的基于差分演化的自适应集成学习系统中，该AMCS算法具有三种集成框架，分别为Adaboost.M1框架、基于欠采样的集成分类器框架和基于过采样的集成分类器框架；

该AMCS算法具有两种特征选择算法。

进一步的，在本发明的基于差分演化的自适应集成学习系统中，当集成框架为Adaboos.M1时，集成规则就只有Majority Vote一种。

本发明的基于差分演化的自适应集成学习方法及系统，每个多分类器系统(MCS)由特征选择，集成框架，集成规则和基分类器组成，每个组成部分由不同的算法组成侯选池，本发明采用DE算法来找出不同数据在每个组成部分的最优算法从而完成最优组合使得针对不同的不均衡数据，系统能够选择最优的集成学习模型来完成分类任务。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是现有技术中差分演化算法的流程图；

图2是本发明的基于差分演化的自适应集成学习系统的总体结构框图；

图3是本发明的基于差分演化的自适应集成学习方法的流程图；

图4是本发明的基于差分演化的自适应集成学习方法的路径的结构图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

如图2所示，其为本发明的基于差分演化的自适应集成学习系统的总体结构框图。集成框架选择池具有三种集成框架，分别为Adaboost.M1框架、基于欠采样的集成分类器(Under-Sampling Balanced Ensemble,USBE)框架和基于过采样的集成分类器Over-Sampling Balanced Ensemble,OSBE)框架。集成规则选择池具有五种集成规则，分别为Max、Min、Product、Majority Vote以及Sum。对于五个不同的集成规则(Max,Min,Product,Majority Vote,Sum)以及后面两种框架是可根据需要任意选择的，当集成框架选择的是Adaboos.M1的时候，集成规则就只有投票法(Majority Vote)一种。基分类器选择池具有五种基分类器，分别为C4.5基分类器、SVM基分类器、RBF神经网络基分类器、DGC基分类器以及KNN基分类器。总体来说，在AMCS(Adaptive Multiple Classifier System，自适应集成分类学习)中三种集成框架、五种集成规则、五种基分类器和两种特征选择算法组成了备选算法池，对给定的数据，DE将自动从备选算法池里搜索最优的算法组合进行训练，以生成最终的DE-AMCS(基于差分演化的自适应集成学习)模型。

(1)Adaboost.M1框架

Boosting被广泛认为是集成学习中最常见，最有效的方法。第一个被使用的boosting算法是Schapire和Freund提出的Adaboost算法。基本的Adaboost算法是针对二分类问题的，在分布D中，每一个训练样本的权重被设置为1/m，而m由训练样本在训练集中的排序决定。Adaboost通过对弱分类不断地训练来加权训练数据集(由分布D生成)，并采取多数投票的集成规则合并所有弱假设。在每次迭代中，样本分布D是根据在每一次迭代中产生的假设来更新。未能被分配到正确的类获得更高的权重，以便在下次迭代分类时将更加集中学习那些未能被正确分类的样本。为了解决不同类型的分类问题，作为对基本的Adaboost算法的扩展，有用于解决多类单标签问题的AdaBoost.M1，AdaBoost.M2，和用于解决多类多标签的AdaBoost.MR，AdaBoost.MH。由于本文针对多类单标签数据，所以Adaboost.M1算法作为第一个集成模型。

(2)Under-Sampling Balanced Ensemble(USBE)

USBE模式的主要思想是使用欠采样方法来为多个基分类器构建大致平衡训练集。最常见的而且比较简单的欠采样技术是随机欠采样(Randomly Under-Sampling,RUS)。与更复杂的数据采样算法相比，RUS不作任何线索搜索，直接从训练空间随机地选择样本。换言之，RUS只需从多数类样本随机去除样本数据直到分布均衡。在本发明中，将采用RUS的欠采样方法。需要特别注意的是，本发明所面临的多类数据集，RUS的方法适用于所有类并且包含稀有类样品数量超过1.5倍的类，通过这种方法，保证RUS后训练集的不平衡率小于1.5，使得训练样本类别间样本数保持大致平衡而且不放弃大多数类别的太多信息。

(3)Over-Sampling Balanced Ensemble(OSBE)

与USBE类似，通过使用过采样的方法来建立平衡的训练集。最广泛使用的过采样方法是由Chawla提出的SMOTE算法。SMOTE算法是在两个少数类样本的连线上插值来生成合成样本的，因此少数类的邻居是随机选择的，而添加的样本的数目取决于所要求的过采样量。由于SMOTE产生额外的样本时，对原始数据的概率分布没有假设，所以构造的分类器可能是公正的。因此，对于第三种集成框架，本发明可采用SMOTE作为采样技术。与RUS类似，SMOTE被使用在所有的稀有类和产生的新的类中，直到训练集的不平衡率小于1.5。

上述五种集成规则的具体含义参见下表。

DE算法由于其优良性被广泛应用到实数编码中，而本文主要是采用二进制编码的方式对初始化种群编码，相比起遗传算法(GA)来说，DE在二进制编码上的表现可能不那么突出，但就本文而言，DE比起GA来说又具有其优势，首先，DE涉及的参数少，这就减少了DE对最终结果的影响，其次，在收敛速度上，DE具有较快的收敛速度，最后，DE较GA而言编码更加容易。因为本文研究的是自适应集成算法在不均衡数据分类问题上的表现，因此需要对AMCS中的每条路径进行比较，在AMCS中，本文用AUCarea值来代表每条路径的好坏，把它引入到DE算法的选择操作中，就可以方便快捷的求解最佳路径。

参考图3，本发明的基于差分演化的自适应集成学习方法的流程图。具体的，本发明的基于差分演化的自适应集成学习方法包含如下步骤：

(1)初始化种群，将AMCS算法中的集成框架、特征选择算法、基分类器以及集成规分别用二进制编码表示。比起实数编码来说，二进制编码的种群初始化更为简单，可直接调用函数S＝round(rand(NP,N))来生成，其中NP表示初始化种群数量，N表示种群个体的大小，即维度。就本发明而言，研究的AMCS包含了三种集成框架、两种特征选择、五种基分类器和五种集成规则，将三种集成框架可以用两位二进制数来表示，两种特征选择用一位二进制数表示，五种基分类器和五种集成规则分别用三位二进制数表示。每个特定的算法用特定位数的二进制数表示，如集成框架中00表示Adaboost.M1，特征选择中0表示BPSO，基分类器中000表示C4.5和集成规则中000表示Max。此处，将三种集成框架、两种特征选择、五种基分类器和五种集成规则采用二进制编码表示，方便DE算法的处理，在使用DE算法寻找到最优策略之后再进行解码操作。

(2)此步骤中将初始化后的种群中的个体进行变异，沿用了传统DE算法的变异思想，采用DE/rand/1的变异模式，但是传统DE算法主要是解决实数编码问题的，所以它的变异操作也主要针对实数，而对于二进制编码问题的变异操作就显得有些不适用，如果直接使用传统DE算法进行变异操作，就会改变二进制数，使编码出现混乱。例如，操作V＝[1,0,1,0,1,]+0.6*([0,1,1,0,0]-[1,0,1,1,0])＝[0.4,0.6,1,-0.6,1]，这就改变了二进制编码的本质，而我们的变异则是在此基础上对变异的结果进行取整运算，为了防止超界，我们事先进行除以2的操作：即变异后的结果V_i,G＝round((X_i,G+F*(x_j,G-x_k,G))/2)。式中：X表示种群，i,j,k为体在种群中的序列,i≠j≠k，j和k均为随机生成，G为进化代数,F为缩放因子，F∈[0，1]。经过这样的处理后，[0.4,0.6,1,-0.6,1]就变成了[0,0,1,0,1]，这样既实现了变异操作，又保证了变异后还是二进制数。

(3)交叉

交叉操作增加了种群的多样性，本发明采用指数交叉的模式，即随机生成两个整数n,L∈[1,D]，n为交叉位置，L为交叉长度，D为种群中个体的维度，交叉后的结果表示为：

式中：X表示种群,j为体在种群中的序列,G为进化代数。

例如，变异后的个体为V＝[0,1,1,1,0,0,1,1,0]，父代个体为X＝[1,0,1,0,1,0,0,0,1]，随机生成的整数位n＝3,L＝2，那么交叉后的结果就为u＝[0,1,1,0,0,0,1,1,0]。

(4)选择

利用AMCS中每条路径计算后的AUCarea值作为比较的因子，对种群中下一代的成员进行选择，选择的公式表示为：

式中f()表示对应向量的AUCarea值。

AUCarea值由AMCS算法计算完成，通过下述步骤获取：

S41、利用特征选择算法从AMCS的不均衡训练集中提取出最优特征集。本实施例中，AMCS算法具有两种特征选择算法，因此本步骤需要采用两种特征选择算法分别进行提取。

S42、对提取出最优特征集后的AMCS的不均衡训练集进行采样处理，将提取出最优特征集后的AMCS的不均衡训练集拆分成K个子训练集。采样处理分别采用Adaboost.M1框架、基于欠采样的集成分类器框架和基于过采样的集成分类器框架。

S43、利用每个子训练集分别对每一个基分类器进行训练。基分类器为C4.5基分类器、SVM基分类器、RBF神经网络基分类器、DGC基分类器以及KNN基分类器中任意一种，本实施例中，每个子训练集训练5个基分类器。

(5)构建DE-AMCS模型

再次参考图3，本发明所构建的DE-AMCS模型是在AMCS模型的基础上构建的，本发明中将上述选择后的结果作为AMCS算法待处理的数据输入至AMCS算法中，得到分类结果，此时DE-AMCS模型构建完成。其中，对于选择后的结果X中的每个类，AMCS算法得到每个分类器的概率P(c|X)(该概率通过集成规则得到),并使用加权集成规则来得到基分类器的输出。对于不同类型的不均衡数据，与之相对应的AMCS可以通过如图4所示的图中的一条路径得以实现。图4中的每一条路径表示集合框架的选择、特征选择方法的选择、基分类器的选择和集成规则的选择。

具体的，经过AMCS的训练，每个基分类器都会得到一个新的样本和几个独立的假设。因此，集成规则就需要组合这些假设，即五种集成规则用于组合不同的分类器的多个分类结果。假设一个数据集S，有D个特征，N个样本和M个类。S＝{s₁,s₂,.....s_n}，其中，S_i＝{x_i1,x_i2,.....x_iD}，类标签C＝{C₁,C₂,.....C_m}。假设AMCS有K个基分类器，对于第i个分类器，其分类是C_j的概率是p_ij。经过集成规则选择后，把最终概率R_cj分配给类C_j，具体的可参见上述的表格。

本算法考虑组合不同的集成框架、集成规则、基分类器以及特征选择算法，自适应的对不同类型的不均衡数据进行分类。本文在所有的集成框架中都将采用特征选择算法对数据进行预处理，在对数据进行过滤时，本文选取了基于相关性快速关联过滤算法(a FastCorrelation-Based Filter,FCBF)，对数据进行封装时，本文选用的是二进制粒子群算法(Binary Partical Swarm Optimization,BPSO)。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于差分演化的自适应集成学习方法，其特征在于，包含下述步骤：

S3、计算得到交叉后的结果，该结果通过下述公计算得到：

式中f()表示对应向量的AUCarea值；

2.根据权利要求1所述的自适应集成学习方法，其特征在于，所述步骤S4中的AUCarea值通过下述步骤获取：

S43、利用每个子训练集分别对每一个基分类器进行训练；

3.根据权利要求1所述的自适应集成学习方法，其特征在于，所述步骤S5包含步骤：

根据AMCS算法的集成规则获取所述选择后的结果中每个类得到每个分类器的概率,并使用加权集成规则来得到基分类器的输出以得到每个类的分类结果。

4.根据权利要求1所述的自适应集成学习方法，其特征在于，

所述AMCS算法具有三种集成框架，分别为Adaboost.M1框架、基于欠采样的集成分类器框架和基于过采样的集成分类器框架；

所述AMCS算法具有五种集成规则，分别为Max、Min、Product、MajorityVote以及Sum；

所述AMCS算法具有五种基分类器，分别为C4.5基分类器、SVM基分类器、RBF神经网络基分类器、DGC基分类器以及KNN基分类器；

所述AMCS算法具有两种特征选择算法。

5.根据权利要求4所述的自适应集成学习方法，其特征在于，当集成框架为Adaboos.M1时，集成规则只有Majority Vote一种。

6.一种基于差分演化的自适应集成学习系统，其特征在于，包含：

式中f()表示对应向量的AUCarea值；

7.根据权利要求6所述的自适应集成学习系统，其特征在于，所述模型构建单元包括用于获取AUCarea值的下述子模块：

8.根据权利要求6所述的自适应集成学习系统，其特征在于，所述模型构建单元包含：

处理子模块，用于根据AMCS算法的集成规则获取所述选择后的结果中每个类得到每个分类器的概率,并使用加权集成规则来得到基分类器的输出以得到每个类的分类结果。

9.根据权利要求1所述的自适应集成学习系统，其特征在于，

所述AMCS算法具有两种特征选择算法。

10.根据权利要求9所述的自适应集成学习系统，其特征在于，当集成框架为Adaboos.M1时，集成规则只有Majority Vote一种。