CN109242021A - 一种基于多阶段混合模型的分类预测方法 - Google Patents
一种基于多阶段混合模型的分类预测方法 Download PDFInfo
- Publication number
- CN109242021A CN109242021A CN201811045045.5A CN201811045045A CN109242021A CN 109242021 A CN109242021 A CN 109242021A CN 201811045045 A CN201811045045 A CN 201811045045A CN 109242021 A CN109242021 A CN 109242021A
- Authority
- CN
- China
- Prior art keywords
- population
- classifier
- feature
- carries out
- current population
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Physiology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多阶段混合模型的分类预测方法,采用多种群小生境遗传算法,在特征选择和分类器选择过程中,分别结合了多种过滤法和分类器预测先验知识,从而求出最优特征子集和最优分类器子集。然后,采用分类器集成方法集成上述带有最优特征子集的最优分类器子集到整体模型中进行最终的预测。最后,将该混合模型应用于信用评估领域以验证其在二分类问题上的预测性能。实验结果表明,该混合模型所运用的多阶段方法在提高模型预测性能方面均发挥了正向作用,且该模型的最终预测性能优于其它对比模型。
Description
技术领域
本发明属于分类预测技术领域,尤其涉及一种基于多阶段混合模型的分类预测方法。
背景技术
近年来,人工智能和机器学习技术的研究及应用取得了显著的进展。为了提高二分类的预测性能,人们从多个方面入手,建立了多种新型模型。其中,信用评估模型就是人工智能和机器学习技术在二分类预测中的一个典型应用。信用评估因其在信用风险管理中的重要作用而受到金融行业的广泛关注。信用评估模型中一个细微的改进便可以给金融机构带来巨大的收益。为此,人们已经将人工智能和机器学习模型应用于信用评估中以验证其在二分类问题上的预测性能。
近年来,人们普遍认识到集成模型可以提高分类模型的性能,于是人们将许多集成模型应用于机器学习中,如:基于决策树(DT)的同质集成模型、随机森林(RF;Friedman,2001)、梯度推进决策树(GBDT;Friedman,2001)和极限梯度提升算法(XGBoost;Chen和Guestrin,2016)等。同时,组合多个基分类器的异质集成模型也受到了人们广泛的关注(Ala’Raj和Abbod,2016a;2016b;Xia等人,2018)。Lessmann等人(2015)通过实验证明了异质集成的性能往往优于单一分类器。然而,如何为不同的数据集选择一个最有效的集成模型,这一问题一直以来没有得到有效地研究和探索。此外,由于在原始数据中进行分类器选择的计算复杂度通常很高,所需计算时间很长,因此需要探索一种更有效的分类器选择方法来获得合适的集成模型,从而将复杂度控制在可接受的范围之内。
发明内容
本发明的目的是提出一种基于多阶段混合模型的分类预测方法,以提高模型预测性能。
为了实现上述目的,本发明技术方案如下:
一种基于多阶段混合模型的分类预测方法,所述基于多阶段混合模型的分类预测方法,包括:
基于多种群小生境遗传算法获取候选分类器对应的最优特征子集;
基于多种群小生境遗传算法获取最优分类器子集;
将最优分类器子集中的分类器作为集成模型的基分类器和堆叠分类器,并通过堆叠法来构建分类器集成模型。
进一步地,所述基于多种群小生境遗传算法获取候选分类器对应的最优特征子集,包括:
步骤2.1、采用混合过滤法计算各特征的综合特征重要性,筛选出综合特征重要性不小于设定阈值的特征,根据综合特征重要性计算筛选出的特征被选择的概率,生成预设数量的多个初始种群,以初始种群为当前种群;
步骤2.2、对每个当前种群按照候选分类器对应的适应度函数评价种群;
步骤2.3、判断是否满足迭代终止条件,如果满足则结束迭代并输出最优个体,否则进入下一步;
步骤2.4、对当前种群进行选择操作;
步骤2.5、对当前种群进行交叉操作;
步骤2.6、对当前种群进行变异操作;
步骤2.7、对当前种群进行小生境操作;
步骤2.8、对当前种群进行群间迁移操作,并返回步骤2.2。
进一步地,所述根据综合特征重要性计算筛选出的特征被选择的概率,计算公式如下:
其中,Ratei表示第i个特征被选择的概率,Ri表示第i个特征综合特征重要性,α是基准参数,β为计算系数。
进一步地,所述对当前种群进行选择操作、交叉操作、变异操作时,每个种群的选择、交叉和变异的算子均设置为不相同。
进一步地,所述对当前种群进行变异操作时,变异的概率随迭代次数动态变化,且动态变异率在初始变异率的1-3倍范围内变化,动态变化公式如下:
其中,p表示第p个种群,q表示第q次迭代,MutationRatepq指第p个种群在第q次迭代时的变异算子,n表示迭代的总次数。
进一步地,所述对每个当前种群按照候选分类器对应的适应度函数评价种群,所述适应度函数为:适应度值等于候选分类器对训练数据进行十折交叉验证后得到的Accuracy和AUC的平均值。
进一步地,本发明所述基于多种群小生境遗传算法获取最优分类器子集,包括:
步骤3.1、基于候选分类器的预测先验知识来得到各候选分类器被选中的概率,生成预设数量的多个初始种群,以初始种群为当前种群;
步骤3.2、对每个当前种群采用对应的适应度函数评价种群;
步骤3.3、判断是否满足迭代终止条件,如果满足则结束迭代并输出最优个体,否则进入下一步;
步骤3.4、对当前种群进行选择操作;
步骤3.5、对当前种群进行交叉操作;
步骤3.6、对当前种群进行变异操作;
步骤3.7、对当前种群进行小生境操作;
步骤3.8、对当前种群进行群间迁移操作,并返回步骤3.2。
进一步地,所述对每个当前种群采用对应的适应度函数评价种群,所述适应度函数为:
适应度值等于集成模型对训练数据进行十折交叉验证后得到的Accuracy和AUC的平均值。
进一步地,所述初始种群个体上增加了一个额外的特征用于表示堆叠信息,从候选分类器中选取一个分类器作为堆叠分类器。
本发明提出的一种基于多阶段混合模型的分类预测方法,采用多种群小生境遗传算法,在特征选择和分类器选择过程中,分别结合了多种过滤法和分类器预测先验知识,从而求出最优特征子集和最优分类器子集。然后,采用分类器集成方法集成上述带有最优特征子集的最优分类器子集到整体模型中进行最终的预测。最后,将该混合模型应用于信用评估领域以验证其在二分类问题上的预测性能。实验结果表明,该混合模型所运用的多阶段方法在提高模型预测性能方面均发挥了正向作用,且该模型的最终预测性能优于其它对比模型。
附图说明
图1为本发明基于多阶段混合模型的分类预测方法流程图;
图2为本发明多种群小生境遗传算法流程图;
图3为多种群小生境遗传算法迁移操作示意图;
图4为分类器选择和集成模型示意图。
具体实施方式
下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。
本发明技术方案包括特征选择、分类器选择和分类器集成三个阶段。在特征选择阶段,将经过预处理后的数据作为输入数据,并结合多种过滤法用以确定全部特征的综合特征重要性;基于综合特征重要性,对原始特征进行了重新排序,并根据其综合特征重要性提前删除部分特征,然后再利用多种群小生境遗传算法获取不同分类器所对应的最优特征子集。在分类器选择阶段,首先构建一个包含各种常用分类器的候选分类器集合(CCR),根据候选分类器在训练集中得到的交叉验证预测性能,对候选分类器进行排序并生成初始种群,经过迭代优化,采用多种群小生境遗传算法从CCR中获得最优的分类器子集。在分类器集成阶段,把最优分类器子集中的分类器作为集成模型的基分类器和堆叠分类器,并通过堆叠法来构建集成模型,用于获取最终的预测结果。
如图1所示出的一种基于多阶段混合模型的分类预测方法,包括:
步骤S1、基于多种群小生境遗传算法获取候选分类器对应的最优特征子集。
本实施例采用多种群小生境遗传算法来获取最优个体(即最优特征子集),以下通过实施例来进行说明。
实施例1、普通多种群小生境遗传算法,就是在多种群遗传算法上加入小生境操作,具体步骤如下:
步骤S1.1、初始化,生成预设数量的初始种群,将生成的初始种群作为当前种群;
步骤S1.2、对每个当前种群按照候选分类器对应的适应度函数评价种群;
步骤S1.3、判断是否满足迭代终止条件,如果满足则结束迭代并输出最优个体,否则进入下一步;
步骤S1.4、对当前种群进行选择操作;
步骤S1.5、对当前种群进行交叉操作;
步骤S1.6、对当前种群进行变异操作;
步骤S1.7、对当前种群进行小生境操作。
步骤S1.8、对当前种群进行群间迁移操作,并返回步骤S1.2。
本实施例多种群小生境遗传算法中,初始种群的生成、种群的评价、选择、交叉、变异、小生境、迁移等操作,在遗传算法中已经是比较成熟的技术,这里不再赘述。所不同的是,本实施例将多种群遗传算法与小生境操作相结合,进一步提高了算法的效率。
实施例2、改进的多种群小生境遗传算法,本实施例结合多种过滤法用以确定全部特征的综合特征重要性,基于综合特征重要性,对原始特征进行了重新排序,并根据其综合特征重要性提前删除部分特征,然后再利用多种群小生境遗传算法获取不同分类器所对应的最优特征子集。具体流程如图2所示,包括如下步骤:
步骤S2.1、采用混合过滤法计算各特征的综合特征重要性,筛选出综合特征重要性不小于设定阈值的特征,根据综合特征重要性计算筛选出的特征被选择的概率,生成预设数量的多个初始种群,以初始种群为当前种群。
遗传算法每个个体实际上是染色体(chromosome)带有特征的实体,染色体作为遗传物质的主要载体,即多个基因的集合,其内部表现(即基因型)是某种基因组合,它决定了个体的形状的外部表现。每一个由多个基因组成的染色体(或称为个体)代表了一个解决方案,染色体长度由样本的基因数量决定。本实施例使用一个二进制向量对其进行编码,如X=(x1,x2,x3,...,xn),n代表基因数量,xi表示二进制向量中的一个元素,xi=1代表选中第i个基因,否则,xi=0。通常,在遗传算法中也将个体看作特征组合,采用二进制向量表示,0表示不选择对应的特征,1表示选择对应的特征。
在遗传算法中,通常在初始化的时候,设定一些基本的参数,例如最大迭代次数、初始种群的数量、初始种群中的个体数量等,然后随机产生初始种群。随机产生的初始种群中个体的二进制向量,是随机产生的,个体的差异可能比较大,初始化质量差。
为此,本实施例先通过混合过滤法计算各特征的综合特征重要性,筛选出综合特征重要性不小于设定阈值的特征。
本实施例混合过滤法结合了过滤法和包装法的优点,使用三种不同的过滤法计算得到各特征的特征重要性。其中,三种过滤法分别为:方差分析法、卡方检验法和互信息法。方差分析法,又称F检验,由Fisher于1921年提出,该方法常用于评估两个随机变量之间的线性相关性。卡方检验法是一种应用广泛的基于χ2分布的假设检验方法,该方法可用于计算自变量与因变量之间的相关性。互信息法用于评估一个事件对另一个事件的贡献,互信息系数可以很好地度量各种相关性,但计算过程相对复杂。
本实施例使用如下公式所示的加权方法对三种过滤法得到的特征重要性进行加权,形成综合特征重要性:
其中,FImpi表示第i个特征的综合重要性,m表示过滤法的个数,wj表示第j个过滤法的权重,Iij表示第j个过滤法中第i个特征的特征重要性,min(Ij)表示通过第j个过滤法得到的最小特征重要性,max(Ij)表示其对应的最大特征重要性。
需要说明的是,本发明不限于混合过滤法所采用的具体过滤法的数量和种类,例如也可以仅采用方差分析法和卡方检验法,或卡方检验法和互信息法,也可以再加入另外一个过滤法等等。本发明不限于综合特征重要性的计算方式,也不限于混合过滤法中各参数的设置。
计算出综合特征重要性后,综合特征重要性小于设定阈值的特征会被淘汰,从而筛选出综合特征重要性不小于设定阈值的特征,降低后续问题的计算复杂性。
然后本实施例根据综合特征重要性计算筛选出的特征被选中的概率,生成预设数量的多个初始种群,种群中每个个体用二进制编码表示。
例如,原来有10个特征,通过混合过滤后,假设有6个特征的综合特征重要性不小于设定阈值,则生成初始种群时,个体的长度等于筛选出的特征的数量6。
在生成初始种群时,个体在选择特征时,选择某一个特征的概率是根据该特征的综合特征重要性来决定,本实施例特征对应的二进制编码xi为1的概率(即该特征被选择的概率)与该特征的综合特征重要性的关系如下:
其中,Ratei表示第i个特征被选择的概率,Ri表示第i个特征综合特征重要性,α是基准参数,例如为0.5,β为计算系数,例如为0.45。α和β的具体数值根据实验效果选取,本发明不做限制,使得综合特征重要性越大,该特征所对应的基因初始化为1的概率越大。
此外,本发明技术方案不限于特征被选择的概率的计算方式,例如还可以根据如下公式计算:
特征被选择的概率=α+综合特征重要性/综合特征重要性最大值*β。
需要说明的是,本实施例多种群小生境遗传方法,在生成初始种群时,生成多个初始种群,本发明不限于具体的初始种群数量和初始种群中个体的数量,可以根据实际的实验效果来进行选择。此外,实施例一和实施例二方案中的选择、交叉、变异、小生境、迁移等步骤,在现有技术中还有很多优化的实施例,这里不再赘述,本发明不限于上述操作的具体方式。
步骤S2.2、对每个当前种群按照候选分类器对应的适应度函数评价种群。
适应度函数用于计算每条染色体所对应解决方案的适应度值。本申请不限于适应度函数的具体形式。适应度函数的选取直接影响到遗传算法的收敛速度以及能否找到最优解,因为遗传算法在进化搜索中基本不利用外部信息,仅以适应度函数为依据,利用种群每个个体的适应度来进行搜索。因为适应度函数的复杂度是遗传算法复杂度的主要组成部分,所以适应度函数的设计应尽可能简单,使计算的时间复杂度最小。
本实施例按照预设的适应度函数评价种群,即计算每条染色体所对应解决方案的适应度值,对种群进行评价是比较成熟的技术,这里不再赘述。
本发明技术方案具有多个初始种群,每个种群自身独立进行选择、交叉、变异、小生境等操作,并且在多个种群之间进行迁移操作。在当前种群是初始种群时,针对初始种群进行操作,在迁移操作后,对迁移操作后形成的当前种群进行操作。
需要说明的是,本实施例对每个当前种群按照预设的适应度函数评价种群时,所采用的适应度函数与预测阶段所采用分类器对应,预测阶段中所使用的分类器同时被用于获得多种群小生境遗传算法的适应度值,即如果预测过程中使用的分类器为LR,则用于适应度函数中的分类器也为LR;同理,如果预测过程中使用的分类器为XGBoost,那么用于适应度函数中的分类器也为XGBoost。
本实施例以分类器对训练数据进行十折交叉验证后得到的Accuracy和AUC的平均值作为该分类器的适应度值,计算公式如下:
其中,X表示用二进制向量表示的特征子集,Accuracy10-fold CV(X)和AUC10-fold CV(X)表示通过分类器在训练数据中进行十折交叉验证所得到的Accuracy和AUC。
步骤S2.3、判断是否满足迭代终止条件,如果满足则结束迭代并输出最优个体,否则进入下一步。
本实施例迭代终止条件可以是在当前迭代次数大于预设的最大迭代次数时,终止迭代。也可以是在个体的最大适应度值和平均适应度值变化不大、趋于稳定时,终止迭代。本发明对于迭代终止条件不做限制。
在满足迭代终止条件时,则根据上一步骤的种群评价结果得到的每个个体的适应度值,输出适应度值最好的个体作为最优个体。否则继续进行下一步迭代。
步骤S2.4、对当前种群进行选择操作。
由于大多数染色体的适应度差异较小(一般在几个百分点以内),在选择过程中必须保留更多的优秀染色体。本实施例采用了锦标赛选择方法来选择和保留优秀的个体,而不是传统的轮盘赌选择方法。
步骤S2.5、对当前种群进行交叉操作。
标准的二进制遗传算法存在交叉不够灵活的弊端,只能通过不同染色体进行单点交叉生成新的子代。而在本实施例中,采用两点交叉的方法增强了灵活性,提高了寻找到最优个体的可能性。
步骤S2.6、对当前种群进行变异操作。
在每次迭代中,标准二进制遗传算法的变异概率都是固定的,本实施例采用固定的变异概率也同样可以适用。然而随着迭代次数的增加,陷入局部最优的可能性逐渐增大,因此本实施例需要提高变异率来减少陷入局部最优情况的发生。
在本实施例中,设计了一个随着迭代次数动态变化的变异算子,且动态变异率在初始变异率的1-3倍范围内变化,其动态变化公式如下所示:
其中,p表示第p个种群,q表示第q次迭代,MutationRatepq指第p个种群在第q次迭代时的变异算子,n表示迭代的总次数。
步骤S2.7、对当前种群进行小生境操作。
为了保持种群的多样性,避免种群陷入局部最优,本实施例在每个种群中进行了小生境操作。为了确保每个群体中的个体之间存在一定的差距,本实施例计算了种群中任意两个个体之间的海明距离(即两个染色体对应基因位上编码不同的位数)。当两个个体之间的海明距离小于阈值时,适应度值较小的个体将被施加惩罚系数(即γ)以进一步降低该个体的适应度,使其在随后的迭代过程中更容易被淘汰。
如图3所示,种群P1中两个个体和之间的海明距离小于阈值,惩罚系数γ就会被应用在适用度较小的个体上以进一步降低其适应度,从而降低其被保留的概率。
需要说明的是,本实施例中选择、交叉、变异、小生境等操作,在遗传算法中已经是比较成熟的技术,这里不再赘述。
步骤S2.8、对当前种群进行群间迁移操作,并返回步骤S2.2。
本实施例通过使用迁移算子来引入其它种群中的精英个体来促进种群间的迁移。该操作的主要目的是:(a)增加种群的多样性;(b)引导精英个体的选择方向从而提高种群整体的搜索效率。如图3所示,为了优化其演化方向,本实施例让精英个体从种群P1中迁徙到种群Pm中。
此外,为了保证每个种群自身的独特性,每个种群的选择、交叉和变异的算子均设置为不相同。
本发明技术方案,首先采用混合过滤法计算特征的综合特征重要性,筛选出综合特征重要性不小于设定阈值的特征,并在生成初始种群时,个体在选择特征时,选择某一个特征的概率是根据该特征的综合特征重要性来决定,从而保证了种群中染色体的初始化质量,还避免了由于随机初始化而引起的初始点波动。
以下通过实验验证数据来本实施例改进的多种群小生境遗传算法技术带来的有益效果,将改进的多种群小生境遗传算法与普通多种群小生境遗传算法、GA、粒子群优化(PSO)、递归特征消除(RFE)、主成分分析(PCA)方法进行了比较。
实验设置如下:
在本发明技术方案中,将混合过滤法中每个过滤法的权重被设置为1/3、1/3、1/3,且将Flmp的阈值设置为0.01。迭代次数被设置为100次,每个种群中有20个个体,共5个种群。在一定的取值空间内随机选取各个种群的交叉率和变异率。交叉率的范围设为0.6到0.8之间,变异率的范围设为0.05到0.15之间,每个种群内的海明距离设为2。
将GA的个体数量设置为100,与多种群的个体数一致;交叉率和变异率设置为本发明技术方案交叉率与变异率的平均值,即交叉率为0.7,变异率为0.1,其余设置均相同。在PSO中,个体数量也设置为100,其余设置均相同。在PCA中,选择代表性之和超过99%的特征个数形成新的特征。
实验结果表明,本实施例改进的多种群小生境遗传算法优于普通多种群小生境遗传算法,普通多种群小生境遗传算法优于二进制GA和二进制PSO,且其优化速率和优化结果均优于其它对比算法,说明本发明技术方案采用混合过滤法进行特征选择是合理有效的。
步骤S2、基于多种群小生境遗传算法获取最优分类器子集。
本实施例首先构建出所需的候选分类器集合(CCR),该候选分类器集合中包含多种常见的分类器,例如LDA、LR、RF、GBDT、XGBoost、SVM、DT、MLP等。
本步骤利用CCR中具有相应最优特征子集的候选分类器在训练集中进行十折交叉验证;十折交叉验证得到的预测结果被设置为这些基分类器的预测先验知识。
本步骤采用多种群小生境遗传算法来获取最优分类器子集,关于多种群小生境遗传算法,前面已经有过描述,这里不再赘述。然而,在生成初始种群时,会基于候选分类器的预测先验知识来得到各候选分类器被选中的概率,计算公式如下:
其中,CIPi表示第i个候选分类器的初始概率,AUCi表示第i个候选分类器在训练集中十折交叉验证得到的AUC值(即分类器预测先验知识)。AUCmax表示CCR中所有候选分类器获得的AUC最大值,w用于调整初始权值的范围,p表示与分类器预测先验知识相对应的权值,q表示初始种群的基准权重。
从而根据每个分类器初始概率(即初始化种群时,被选中的概率),生成初始种群,基于多种群小生境遗传算法获取最优分类器子集。本步骤所采用的多种群小生境遗传算法与实施例一所不同的是,在初始化种群时,各分类器的初始化概率不是随机的,而是基于分类器的预测先验知识来得到各分类器被选中的概率。
本步骤采用多种群小生境遗传算法,目的是得到最优分类器子集,用来构建分类器集成模型,因此在迭代过程中进行种群评价时,是以分类器集成模型对训练数据进行十折交叉验证后得到的Accuracy和AUC的平均值作为适应度值来进行评价的。
实施例3、在分类器选择阶段,所采用的多种群小生境遗传算法,包括如下步骤:
步骤3.1、基于候选分类器的预测先验知识来得到各候选分类器被选中的概率,生成预设数量的多个初始种群,以初始种群为当前种群;
步骤3.2、对每个当前种群采用对应的适应度函数评价种群;
步骤3.3、判断是否满足迭代终止条件,如果满足则结束迭代并输出最优个体,否则进入下一步;
步骤3.4、对当前种群进行选择操作;
步骤3.5、对当前种群进行交叉操作;
步骤3.6、对当前种群进行变异操作;
步骤3.7、对当前种群进行小生境操作;
步骤3.8、对当前种群进行群间迁移操作,并返回步骤3.2。
本步骤获取的最优分类器子集,由于后续构建分类器集成模型,分类器集成模型包括基分类器和堆叠分类器。本实施例在遗传算法中,初始种群的个体上增加了一个额外的特征用于表示堆叠信息,该特征采用十进制数字来表示,从而在候选分类器中随机选择的一个分类器作为堆叠分类器,例如候选分类器的数量为N,则该特征的取值范围为1-N,初始种群中每个个体随机选择一个分类器。从而在最后输出的最优分类器子集中包括一个堆叠分类器。
需要说明的是,本发明也可以直接随机从候选分类器中选取一个分类器作为堆叠分类器,但是在初始种群个体上增加了一个额外的特征用于表示堆叠信息,会选取出更加适合当前数据集的堆叠分类器,例如LR在上述五个数据集中均有更高的概率被选为堆叠分类器。
在步骤3.2中,对种群进行评价时,以被评价的个体对应的集成模型对训练数据进行十折交叉验证后得到的Accuracy和AUC的平均值作为适应度值,其计算公式类似与实施例2中适应度值的计算公式,这里不再赘述。需要说明的是,分类器的评价指标很多,本发明并不限于适应度函数的具体形式,例如还可以考虑H值(H measure)和Brier评分等,或仅采用Accuracy、AUC、H值(H measure)和Brier中的一个指标。
步骤S3、将最优分类器子集中的分类器作为集成模型的基分类器和堆叠分类器,并通过堆叠法来构建分类器集成模型。
通过步骤S2,可以选出带有各自最优特征子集的最优分类器子集,本实施例将最优分类器子集中的分类器作为基分类器和堆叠分类器,通过堆叠法来构建分类器集成模型。步骤S2中输出的最优个体包含二进制编码和一个十进制编码,二进制编码对应基分类器,十进制编码对应堆叠分类器。
用堆叠法进行分类器集成可以提高模型的预测性能(Wang等人,2011;Xia等人,2018),因此本实施例使用堆叠法作为混合模型的集成方法,具体的框架如图4所示。在第一层中,每个基分类器执行十折交叉验证,以clf1为例,交叉验证过程中T表示用于训练的数据,P表示用于预测的数据,clf1表示该基分类器。每一折迭代都会产生一部分原训练集样本对应的预测结果和全部测试集样本对应的预测结果。经过十折交叉验证后,产生所有训练集样本对应的预测结果(例如P1),以及测试集样本对应的平均预测结果(例如PT1)。第一层基分类器的训练集和测试集的预测结果将作为第二层的输入特征。在最优分类器子集中,以前k-1个分类器(即clf1-clfk-1)作为基分类器,并根据上述描述步骤获得训练集和测试集的预测结果。训练集的预测结果(P1-Pk-1)将作为训练第二层的堆叠分类器(clfk)的输入特征;测试集的预测结果(PT1-PTk-1)将作为堆叠分类器的输入特征进行预测,并将得到的预测结果作为该模型的最终预测结果。
在构建分类器集成模型后,即可对输入数据进行分类预测,这里不再赘述。
以下通过实验数据说明本发明一种基于多阶段混合模型的分类预测方法的有益效果。在实验中,使用5个真实的信用数据集来验证所提出的分类器集成模型的预测性能,其中3个信用数据集来自UCI机器学习储存库(Asuncion和Newman,2007),它们分别是:澳大利亚数据集(Australian)、德国数据集(German)、日本数据集(Japanese);另一个是拍拍贷(PPDai)数据集,来源于中国互联网金融企业—拍拍贷的部分公开贷款数据;此外,还有一个数据集为著名的数据竞赛平台(Kaggle)发布的GMSC数据集。
上述数据集都包括一定数量的样本,每个样本包含一定数量的特征,例如澳大利亚数据集包含690个样本,其中正样本307个和负样本383个,每个样本包含14个特征(8个数值型特征和6个类别型特征),这里不一一赘述。
在特征选择阶段,已经用实验结果验证了本发明技术方案提出的特征选择方法要优于传统的算法。
在分类器选择阶段,因为分类器选择的候选项比特征选择的候选项少,本实验适当减少了多种群小生境遗传算法的迭代次数和个体数量,分别减少至60和10。此外,在分类器初始概率的计算公式中,w设置为0.8,p设置为0.7,q设置为0.3。
实验结果表明,在澳大利亚数据集中,LDA、LR、RF、GBDT和XGBoost更有可能被选为基分类器;在德国数据集中,LR、RF、GBDT和XGBoost更有可能被选为基分类器;在日本数据集中,RF和XGBoost更有可能被选为基分类器;在拍拍贷数据集中,LR、RF、GBDT和XGBoost更有可能被选为基分类器;在GMSC数据集中,MLP、RF、GBDT和XGBoost更有可能被选基分类器。此外,LR在五个数据集中均有更高的概率被选为堆叠分类器。
对本发明构建的分类器集成模型,采用上述5个数据集进行预测,最终的预测结果如下表所示:
表1
将本申请集成模型的预测能力与单个分类器的预测能力相比,实验结果表面,本申请集成模型得到了较明显的提升。例如,在澳大利亚数据集中,与最优基准分类器(LR)相比,该模型的Accuracy提高了1.38%,AUC提高了1.15%,H值提高了3.67%,Brier评分提高了0.86%;在德国数据集中,与最优的SVM相比,其Accuracy提高了1.98%,AUC提高了2.76%,H值提高了5.84%,Brier评分提高了1.26%;在日本数据集中,与LR进行对比,Accuracy提高了2.13%,AUC提高了1.25%,H值提高了3.75%,Brier评分提高了1.09%;在拍拍贷数据集中,与LR进行对比,Accuracy提高0.15%,AUC提高了6.39%,H值提高了6.17%,Brier评分提高了0.36%。最后,在GMSC数据集中,与MLP相比,该模型的Accuracy提高了0.13%,AUC提高了3.59%,H值提高了4.89%,Brier评分提高了0.17%。
总体来说,本申请所提出的分类器选择和分类器集成都是合理且有效的,本申请提出的分类器集成模型要优于其它对比模型(分类器)。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (9)
1.一种基于多阶段混合模型的分类预测方法,其特征在于,所述基于多阶段混合模型的分类预测方法,包括:
基于多种群小生境遗传算法获取候选分类器对应的最优特征子集;
基于多种群小生境遗传算法获取最优分类器子集;
将最优分类器子集中的分类器作为集成模型的基分类器和堆叠分类器,并通过堆叠法来构建分类器集成模型。
2.根据权利要求1所述的基于多阶段混合模型的分类预测方法,其特征在于,所述基于多种群小生境遗传算法获取候选分类器对应的最优特征子集,包括:
步骤2.1、采用混合过滤法计算各特征的综合特征重要性,筛选出综合特征重要性不小于设定阈值的特征,根据综合特征重要性计算筛选出的特征被选择的概率,生成预设数量的多个初始种群,以初始种群为当前种群;
步骤2.2、对每个当前种群按照候选分类器对应的适应度函数评价种群;
步骤2.3、判断是否满足迭代终止条件,如果满足则结束迭代并输出最优个体,否则进入下一步;
步骤2.4、对当前种群进行选择操作;
步骤2.5、对当前种群进行交叉操作;
步骤2.6、对当前种群进行变异操作;
步骤2.7、对当前种群进行小生境操作;
步骤2.8、对当前种群进行群间迁移操作,并返回步骤2.2。
3.根据权利要求2所述的基于多阶段混合模型的分类预测方法,其特征在于,所述根据综合特征重要性计算筛选出的特征被选择的概率,计算公式如下:
其中,Ratei表示第i个特征被选择的概率,Ri表示第i个特征综合特征重要性,α是基准参数,β为计算系数。
4.根据权利要求2所述的基于多阶段混合模型的分类预测方法,其特征在于,所述对当前种群进行选择操作、交叉操作、变异操作时,每个种群的选择、交叉和变异的算子均设置为不相同。
5.根据权利要求2所述的基于多阶段混合模型的分类预测方法,其特征在于,所述对当前种群进行变异操作时,变异的概率随迭代次数动态变化,且动态变异率在初始变异率的1-3倍范围内变化,动态变化公式如下:
其中,p表示第p个种群,q表示第q次迭代,MutationRatepq指第p个种群在第q次迭代时的变异算子,n表示迭代的总次数。
6.根据权利要求2所述的基于多阶段混合模型的分类预测方法,其特征在于,所述对每个当前种群按照候选分类器对应的适应度函数评价种群,所述适应度函数为:适应度值等于候选分类器对训练数据进行十折交叉验证后得到的Accuracy和AUC的平均值。
7.根据权利要求1所述的基于多阶段混合模型的分类预测方法,其特征在于,所述基于多种群小生境遗传算法获取最优分类器子集,包括:
步骤3.1、基于候选分类器的预测先验知识来得到各候选分类器被选中的概率,生成预设数量的多个初始种群,以初始种群为当前种群;
步骤3.2、对每个当前种群采用对应的适应度函数评价种群;
步骤3.3、判断是否满足迭代终止条件,如果满足则结束迭代并输出最优个体,否则进入下一步;
步骤3.4、对当前种群进行选择操作;
步骤3.5、对当前种群进行交叉操作;
步骤3.6、对当前种群进行变异操作;
步骤3.7、对当前种群进行小生境操作;
步骤3.8、对当前种群进行群间迁移操作,并返回步骤3.2。
8.根据权利要求7所述的基于多阶段混合模型的分类预测方法,其特征在于,所述对每个当前种群采用对应的适应度函数评价种群,所述适应度函数为:
适应度值等于集成模型对训练数据进行十折交叉验证后得到的Accuracy和AUC的平均值。
9.根据权利要求7所述的基于多阶段混合模型的分类预测方法,其特征在于,所述初始种群个体上增加了一个额外的特征用于表示堆叠信息,从候选分类器中选取一个分类器作为堆叠分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811045045.5A CN109242021A (zh) | 2018-09-07 | 2018-09-07 | 一种基于多阶段混合模型的分类预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811045045.5A CN109242021A (zh) | 2018-09-07 | 2018-09-07 | 一种基于多阶段混合模型的分类预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109242021A true CN109242021A (zh) | 2019-01-18 |
Family
ID=65067323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811045045.5A Pending CN109242021A (zh) | 2018-09-07 | 2018-09-07 | 一种基于多阶段混合模型的分类预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109242021A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291792A (zh) * | 2020-01-19 | 2020-06-16 | 深圳大学 | 基于双进化的流量数据类型集成分类方法及装置 |
CN112884079A (zh) * | 2021-03-30 | 2021-06-01 | 河南大学 | 一种基于Stacking集成模型的近地面二氧化氮浓度估算方法 |
CN113034310A (zh) * | 2021-04-16 | 2021-06-25 | 国网黑龙江省电力有限公司电力科学研究院 | 基于优化的bp神经网络的光伏发电输出功率预测方法 |
US11062792B2 (en) | 2017-07-18 | 2021-07-13 | Analytics For Life Inc. | Discovering genomes to use in machine learning techniques |
US11139048B2 (en) | 2017-07-18 | 2021-10-05 | Analytics For Life Inc. | Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions |
CN113591322A (zh) * | 2021-08-11 | 2021-11-02 | 广西大学 | 一种基于极端梯度提升决策树的低压台区线损率预测方法 |
JP2022508333A (ja) * | 2019-07-12 | 2022-01-19 | 之江実験室 | マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステム |
-
2018
- 2018-09-07 CN CN201811045045.5A patent/CN109242021A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11062792B2 (en) | 2017-07-18 | 2021-07-13 | Analytics For Life Inc. | Discovering genomes to use in machine learning techniques |
US11139048B2 (en) | 2017-07-18 | 2021-10-05 | Analytics For Life Inc. | Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions |
JP2022508333A (ja) * | 2019-07-12 | 2022-01-19 | 之江実験室 | マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステム |
JP7064681B2 (ja) | 2019-07-12 | 2022-05-11 | 之江実験室 | マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステム |
CN111291792A (zh) * | 2020-01-19 | 2020-06-16 | 深圳大学 | 基于双进化的流量数据类型集成分类方法及装置 |
CN111291792B (zh) * | 2020-01-19 | 2023-10-27 | 深圳大学 | 基于双进化的流量数据类型集成分类方法及装置 |
CN112884079A (zh) * | 2021-03-30 | 2021-06-01 | 河南大学 | 一种基于Stacking集成模型的近地面二氧化氮浓度估算方法 |
CN113034310A (zh) * | 2021-04-16 | 2021-06-25 | 国网黑龙江省电力有限公司电力科学研究院 | 基于优化的bp神经网络的光伏发电输出功率预测方法 |
CN113591322A (zh) * | 2021-08-11 | 2021-11-02 | 广西大学 | 一种基于极端梯度提升决策树的低压台区线损率预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109242021A (zh) | 一种基于多阶段混合模型的分类预测方法 | |
Zhang et al. | Binary differential evolution with self-learning for multi-objective feature selection | |
CN108334949B (zh) | 一种基于优化深度卷积神经网络结构快速进化的图像分类器构建方法 | |
Ishibuchi et al. | Analysis of interpretability-accuracy tradeoff of fuzzy systems by multiobjective fuzzy genetics-based machine learning | |
Qasem et al. | Multi-objective hybrid evolutionary algorithms for radial basis function neural network design | |
Zhou et al. | Ranking vectors by means of the dominance degree matrix | |
CN111898689A (zh) | 一种基于神经网络架构搜索的图像分类方法 | |
CN106778826A (zh) | 基于自适应元胞遗传与优选模糊c‑均值的混合聚类算法 | |
CN110070116A (zh) | 基于深度树状训练策略的分段式选择集成图像分类方法 | |
CN108830292A (zh) | 数据分类模型优化方法及分类方法 | |
Sun | A study of solving traveling salesman problem with genetic algorithm | |
Wu et al. | A training-free genetic neural architecture search | |
Gong et al. | A length-adaptive non-dominated sorting genetic algorithm for Bi-objective high-dimensional feature selection | |
CN110298506A (zh) | 一种城市建设水平预测系统 | |
CN112256209A (zh) | 一种云存储系统的参数配置优化方法及优化系统 | |
CN113780334B (zh) | 基于两阶段混合特征选择的高维数据分类方法 | |
CN108664763A (zh) | 一种参数最优的肺癌癌细胞检测仪 | |
CN115908909A (zh) | 基于贝叶斯卷积神经网络的进化神经架构搜索方法及系统 | |
Hu et al. | Apenas: An asynchronous parallel evolution based multi-objective neural architecture search | |
Oh et al. | A new approach to the development of genetically optimized multilayer fuzzy polynomial neural networks | |
CN113408602A (zh) | 一种树突神经网络初始化方法 | |
CN113011091A (zh) | 一种自动分组的多尺度轻量型深度卷积神经网络优化方法 | |
Fukumi et al. | A new rule extraction method from neural networks | |
Li et al. | Parameters optimization of back propagation neural network based on memetic algorithm coupled with genetic algorithm | |
CN112070200A (zh) | 一种谐波群优化方法及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190118 |