CN115795361A

CN115795361A - 一种基于特征选择和模型组合优化的分类方法

Info

Publication number: CN115795361A
Application number: CN202211459197.6A
Authority: CN
Inventors: 刘博�; 李金梦; 季新婵; 朱念
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-03-14

Abstract

一种基于特征选择和模型组合优化的分类方法属于基于机器学习的分类预测领域。本文从两个方面提升预测的准确率：(1)使用了集成特征选择的方法，筛选了在多数模型的都具有稳健分类能力的“公认”特征集，提升了特征集的质量，从而优化了模型的预测性能；(2)使用优化的遗传算法筛选了最优的子模型组合，进一步提升了最终集成模型的分类性能。

Description

一种基于特征选择和模型组合优化的分类方法

技术领域：

本发明涉及一种基于特征选择和模型组合优化的分类方法，属于基于机器学习的分类预测领域。具体包括集成的递归特征选择方法和基于改进遗传算法的模型组合优化方法。

背景技术：

近年来，机器学习的优势已在各个领域得到了验证，很多研究也尝试使用机器学习方法进行分类问题的预测，但是预测准确率有待提高。若要提升分类预测模型的精度，首先需要提升特征集的质量，特征集的质量决定了算法模型的上限。目前的特征筛选方法主要可以归纳为三类，分别是过滤法、模型嵌入法和基于搜索的包裹法。过滤法简单高效，主要就是通过计算特征和目标变量的相关程度过滤掉没有用的特征，但是不能保证筛选出来的特征对于模型是有用的。模型嵌入法就是将特征嵌入到模型，通过模型训练对低能特征惩罚从而进行特征选择，比如LASSO算法的L1惩罚项。包裹法是将模型分数作为评价标准的特征搜索方式，比如向前向后搜索、递归特征消除方法(RFE)等等，这种方式针对性强，对模型结果的提升有显著影响,但是这种方法非常依赖于其中使用的模型，导致筛选出来的特征集在原模型中表现较好，但不一定适用于其他模型。

另一种提升分类预测精度的方法就是从模型上进行改良。目前，已有多种机器学习方法被广泛应用，如逻辑回归、支持向量机、KNN等等。由于不同模型的关注点和训练过程的不同，不同模型对于同一数据的预测结果可能是不同的，所以综合多个模型能力的集成模型，一般都比单一模型预测效果更加稳健。但是选用哪些模型的组合是一个待优化的问题，预测精度最好的几个子模型的组合并不一定有助于提升最终集成模型的效果，所以模型集成时，最佳子模型的组合是一个需要解决的问题。

发明内容

本发明提供了基于特征选择和模型组合优化的分类方法。具体包括：(1)基于集成特征选择的方法，解决递归特征消除方法筛选的特征集在其他模型中缺乏优势的问题；(2)一种基于改良遗传算法的模型组合方法，优化集成学习中子模型的组合问题，从而提升分类预测的精度。

本发明的具体方案如下：

步骤1、收集各个维度的数据，进行整合和预处理，得到特征矩阵。并为样本分配类别标签。

步骤2、使用过滤法对特征进行初步筛选，根据阈值过滤掉与类别标签最不相关的特征。

步骤3、使用逻辑回归、线性支持向量机、随机森林和XGBoost进行集成特征选择，进一步筛选与模型更契合的特征集合。

步骤4、使用筛选的特征集在逻辑回归、线性支持向量机(LSVM)、非线性支持向量机(NLSVM)、随机森林(RF)、XGBoost、Boosting、K近邻分类器(KNN)、朴素贝叶斯分类器(Bayes)、ID3决策树(ID3)、C4.5决策树(C4.5)、CART决策树(CART)、Bagging、加性模型(Additive model)、自适应提升算法(AdaBoost)、梯度提升算法(GBDT)、LightGBM、CatBoost等多种分类算法中进行子模型训练。

步骤5、使用优化的遗传算法进行子模型的组合优化，筛选最优的子模型组合。

步骤6、将最优模型组合中的子模型进行集成，使用加权均值法预测分类的概率。

作为优选，步骤1的具体实施步骤为：

步骤1.1、收集各个维度特征后。首先进行缺失值处理。对于缺失值超过30％的特征进行剔除，剩余缺失值使用所在类别的特征均值或众数进行填充。

步骤1.2、标准化处理。为了消除纲量的影响，对数值特征进行线性归一化处理。线性归一化的公式为：

其中，i表示第i个特征，k表示第k个样本，通过第i维特征的最大值F_i ^max和最小值F_i ^min将结果映射到0和1之间。对于类别特征，为了保证每个类别的公平性，使用OneHot编码进行特征数值化。

作为优选，步骤2的具体实施步骤为：

步骤2.1、删除趋近单一状态的特征。计算连续特征的方差，公式如下：

其中，n指样本的数量，x为特征j的平均数，x_i为特征j在样本i中的测量值。删除s_j ²为0的特征，这种特征的测量值在所有样本都一样，没有分类的能力。同样，对于离散数据，删除只存在单一类别或接近单一类别的特征。

步骤2.2、删除与标签(因变量)不相关的特征。对于连续特征，进行特征和标签的方差分析。对于离散特征，进行特征和标签的卡方检验。对于这两种假设检验方法，显著度p值是衡量特征和标签之间的差异大小的指标，当p<0.05时认为两者存在显著差异，故删除p≥0.05的特征，保留存在显著差异的特征。

作为优选，步骤3，集成特征选择方法具体实施步骤为：

步骤3.1、分别使用逻辑回归、线性支持向量机、随机森林和XGBoost作为基分类器进行递归特征消除，每轮删除一个权重或者重要性最低的特征，然后使用剩余的特征集重新进行训练，再不断地进行特征删除和重新训练，直到特征集中没有特征为止，最终获得特征排名，越早删除的特征排名越靠后，越晚删除的特征排名越靠前。

步骤3.2、为选择最佳特征的数量，根据步骤3.1中四个基分类器对应的特征排名，从前往后不断地选择不同数量的特征子集，并放入对应的基分类器中进行训练，选择交叉验证分数最高的特征子集作为此分类器的最优特征子集。最终获得了四个基分类器最优的四个特征子集分别为F_SVC、F_LR、F_RF、F_XGB。

步骤3.3、将3.1中四个特征子集融合，最终的特征集F为：

F＝(F_SVC)∪(F_LR)∪(F_RF)∪(F_XGB)

使用投票的方法筛选更加稳健的特征，即某基分类器Model认为特征f为有效特征(即f∈F_Model)，则为特征f投一票。若特征f获得k票(k>2)，则说明这个特征在大多数模型中都具有良好都分类能力，则把这个特征放入“公认”特征集S。

作为优选，步骤4，线性支持向量机、逻辑回归、随机森林、XGBoost选择其专属特征子集进行训练，其他分类器使用“公认”特征集S进行训练。

作为优选，步骤5，基于优化的遗传算法对筛选最优的模型组合的具体流程为：

步骤5.1、基因编码。将问题的解定义为一组{0,1}二进制串，每个位置表示一个模型，1表示选择此模型，0表示不选择此模型。二进制编码串的长度为模型的数量。

步骤5.2、种群初始化。设置种群数量N，交叉概率以及变异概率。随机生成N个个体，即N个二进制编码串，作为种群。

步骤5.3、计算个体的适应度。首先对二进制编码串进行解码，生成对应的模型子集。计算每个模型子集的适应度，由于我们的目标是使最终集成模型的效果最优，所以使用集成模型在测试集中的准确率作为本问题的适应度函数，适应度函数为：

其中，Fitness表示适应度，Accuracy表示集成模型的准确率，TP表示真实正样本被预测正确的数量，TN表示真实正样本被预测错误的数量，FN为真实负样本错分为正样本的数量，TN为真实负样本被正确预测为负样本的数量。集成模型的集成方式为，将模型子集中的子模型进行组合，以加权平均法集成各个子模型的预测结果做出最终的决策，权重的大小与子模型在训练集中的准确率有关。

步骤5.4、选择算子。使用轮盘赌选择法和精英保留法进行新父类的选择。首先，为了确保最优的个体不被淘汰，就使用精英保留法，把适应度最高的2个个体直接保留到下一代。为了保证种群数量N的稳定，使用轮盘赌选择法从剩余的N-2个个体中进行选择，具体为，为了将个体根据适应度映射到轮盘中，根据适应度计算每个个体被选择的概率，公式为：

其中，P(i)为第i个个体被选择的概率，Fitness(i)为第i个个体的适应度函数，n为进行选择个体的总数量。然后计算个体的累计概率，具体公式为：

其中，S(i)表示第i个个体的累计概率，P(j)表示第j个个体被选择的概率。然后随机生成一个0到1的随机数，若第k个个体的累计概率大于这个随机数，第k-1个个体小于这个随机数，表明转盘指针刚好在第k个个体的区域，第k个个体可以生成子孙。重复以上操作N-2次，选择N-2个可以生成子孙的父类。

步骤5.4、交叉操作。将上一步中选出的父类两两配对，并为每一对父类随机产生一个0到1的随机数，若随机数小于交叉概率，就进行交叉操作产生两个新的子个体，否则就将这一对父类直接复制为两个子个体。其中交叉操作具体为，对比两个父类，将同为1的基因位定义为优势基因位，直接遗传到下一代。对于其他基因位，选择中点作为交叉点，两个父类以交叉点进行分割，并交换后半部分，从而得到两个交叉后的子代。

步骤5.5、变异操作。为了增加算法寻找最优解的能力，为每个子类的每一个基因位生成一个随机概率，将随机概率小于变异概率的基因位置进行0、1翻转，完成变异操作。

步骤5.6、结束条件判定。若当前的迭代数没有达到初始设置的迭代数，回到步骤5.3，进入下一次遗传过程，直到达到迭代数为止。最后，输出最优适应度的个体，进行解码，即为最优的模型组合。

本发明实现了一种基于特征选择和模型组合优化的分类预测方法，与以往技术不同的是本文从两个方面提升预测的准确率：(1)使用了集成特征选择的方法，筛选了在多数模型的都具有稳健分类能力的“公认”特征集，提升了特征集的质量，从而优化了模型的预测性能；(2)使用优化的遗传算法筛选了最优的子模型组合，进一步提升了最终集成模型的分类性能。

附图说明：

图1：基于特征选择和模型组合优化的分类预测方法总流程图

图2：集成特征选择方法示意图

图3：基于优化的遗传算法筛选最优的子模型组合的流

具体实施方式：

下面结合具体实例和附图对本发明的具体实施方式进行进一步的描述。

以互联网医院APP产品的医生用户流失预测为例，本发明的具体步骤如下：

步骤1、收集医生的特征，并进行整合和预处理，得到特征矩阵。对用户流失的指标进行定义，为样本分配类别标签。

步骤1.1、收集医生的画像特征，包括性别、年龄、医生等级、是否名医、是否为兼职医生、擅长科室、擅长疾病类型等。收集医生的行为特征，包括最近一次登陆时间、登陆频率、使用的平均时长、发科普文章的数量、文章的点赞率等。收集用户的接诊特征，包括好评率、接诊率、接诊相应时长、单日接诊量、月接诊量、抢单次数、问诊类型等。对数据进行整理，然后进行缺失值处理。对于缺失值超过30％的特征进行剔除，剩余缺失值使用所在类别的特征均值或众数进行填充。

步骤1.3、定义类别标签。为了对流失用户进行定义，计算1到90天的用户流存率，留存率定义为：

并绘制1到90天的流存率折线图，找到折线图中的拐点，将拐点对应的天数作为分割点，样本集中超过此天数未使用产品的样本定义为流失用户，反之为未流失用户。发现N＝28时留存率折线变缓，留存率趋于稳定，故将样本中超过28天未使用产品的样本定义为流失用户，其他为未流失用户。

其中，n指样本的数量，x为特征j的平均数，x_i为特征j在样本i中的测量值。删除s_j ²为0的特征，这种特征的测量值在所有样本中没有变化，没有分类的能力。同样，对于离散数据，删除只存在单一类别或接近单一类别的特征。

步骤3.3、将3.1中四个特征子集融合，最终的特征集F为：

F＝(F_SVC)∪(F_LR)∪(F_RF)∪(F_XGB)

使用投票的方法筛选更加稳健的特征，即某基分类器Model认为特征f为有效特征(即f∈F_Model)，则为特征f投一票。若特征f获得3票，则说明这个特征在大多数模型中都具有良好都分类能力，则把这个特征放入“公认”特征集S。

步骤4、使用筛选的特征集在逻辑回归、线性支持向量机(LSVM)、非线性支持向量机(NLSVM)、随机森林(RF)、XGBoost、Boosting、K近邻分类器(KNN)、朴素贝叶斯分类器(Bayes)、ID3决策树(ID3)、C4.5决策树(C4.5)、CART决策树(CART)、Bagging、加性模型(Additive model)、自适应提升算法(AdaBoost)、梯度提升算法(GBDT)、LightGBM、CatBoost算法中进行子模型训练。其中线性支持向量机、逻辑回归、随机森林、XGBoost选择其专属特征子集进行训练，其他分类器使用“公认”特征集S进行训练。

步骤5.2、种群初始化。随机生成100个个体，即100个二进制编码串，作为种群。设置迭代次数100次，交叉概率为0.5，变异概率为0.001。

步骤5.4、选择算子。使用轮盘赌选择法和精英保留法进行新父类的选择。首先，为了确保最优的个体不被淘汰，使用精英保留法把适应度最高的两个个体直接保留到下一代。然后使用轮盘赌选择法从剩余的个体中进行选择，具体为，为了将个体根据适应度映射到轮盘中，根据适应度计算每个个体被选择的概率，公式为：

其中，P(i)为第i个个体被选择的概率，Fitness(i)为第i个个体的适应度函数，N为个体的数量。然后计算个体的累计概率，具体公式为：

其中，S(i)表示第i个个体的累计概率，P(j)表示第j个个体被选择的概率。然后随机生成一个0到1的随机数，若第k个个体的累计概率大于这个随机数，第k-1个个体小于这个随机数，表明转盘指针刚好在第k个个体的区域，第k个个体可以生成子孙。为了保证种群数量的稳定，重复随机选择操作88次，选择88个可以生成子孙的个体。

步骤5.4、交叉操作。将上一步中选出的父类两两配对，并为每一对父类随机产生一个0到1的随机数，若随机数小于交叉概率0.6，就进行交叉操作产生两个新的子个体，否则就将这一对父类直接复制为两个子个体。其中交叉操作具体为，对比两个父类，将同为1的基因位定义为优势基因位，直接遗传到下一代。对于其他基因位，选择中点作为交叉点，两个父类以交叉点进行分割，并交换后半部分，从而得到两个交叉后的子代。

步骤5.5、变异操作。为了增加算法寻找最优解的能力，为每个子类的每一个基因位生成一个随机概率，将随机概率小于变异概率0.001的基因位置进行0、1翻转，完成变异操作。

步骤5.6、结束条件判定。若当前的迭代数没有达到初始设置的迭代数100，回到步骤5.3，迭代数加一，进入下一次遗传过程，直到达到迭代数为止。最后，输出最优适应度的个体，进行解码，即为最优的模型组合。

步骤6、将最优模型组合中的子模型进行集成，使用加权均值法预测医生用户流失的概率。

Claims

1.一种基于特征选择和模型组合优化的分类方法，其特征在于包括以下步骤：

步骤1、收集各个维度的数据，进行整合和预处理，得到特征矩阵；并为样本分配类别标签；

步骤2、使用过滤法对特征进行初步筛选，根据阈值过滤掉与类别标签最不相关的特征；

步骤3、使用逻辑回归、线性支持向量机、随机森林和XGBoost进行集成特征选择，进一步筛选与模型更契合的特征集合；

步骤4、使用筛选的特征集在分类算法中进行子模型训练；

步骤5、使用优化的遗传算法进行子模型的组合优化，筛选最优的子模型组合；

步骤6、将最优模型组合中的子模型进行集成，使用加权均值法预测分类的概率；

步骤1的具体实施步骤为：

步骤1.1、收集各个维度特征后；首先进行缺失值处理；对于缺失值超过30％的特征进行剔除，剩余缺失值使用所在类别的特征均值或众数进行填充；

步骤1.2、标准化处理；为了消除纲量的影响，对数值特征进行线性归一化处理；线性归一化的公式为：

其中，i表示第i个特征，k表示第k个样本，通过第i维特征的最大值F_i ^max和最小值F_i ^min将结果映射到0和1之间；对于类别特征，为了保证每个类别的公平性，使用OneHot编码进行特征数值化；

步骤2的具体实施步骤为：

步骤2.1、删除趋近单一状态的特征；计算连续特征的方差，公式如下：

其中，n指样本的数量，x为特征j的平均数，x_i为特征j在样本i中的测量值；删除s_j ²为0的特征，这种特征的测量值在所有样本都一样，没有分类的能力；同样，对于离散数据，删除只存在单一类别或接近单一类别的特征；

步骤2.2、删除与标签即因变量不相关的特征；对于连续特征，进行特征和标签的方差分析；对于离散特征，进行特征和标签的卡方检验；对于这两种假设检验方法，显著度p值是衡量特征和标签之间的差异大小的指标，当p<0.05时认为两者存在显著差异，故删除p≥0.05的特征，保留存在显著差异的特征；

步骤3，集成特征选择方法具体实施步骤为：

步骤3.1、分别使用逻辑回归、线性支持向量机、随机森林和XGBoost作为基分类器进行递归特征消除，每轮删除一个权重或者重要性最低的特征，然后使用剩余的特征集重新进行训练，再不断地进行特征删除和重新训练，直到特征集中没有特征为止，最终获得特征排名，越早删除的特征排名越靠后，越晚删除的特征排名越靠前；

步骤3.2、为选择最佳特征的数量，根据步骤3.1中四个基分类器对应的特征排名，从前往后不断地选择不同数量的特征子集，并放入对应的基分类器中进行训练，选择交叉验证分数最高的特征子集作为此分类器的最优特征子集；最终获得了四个基分类器最优的四个特征子集分别为F_SVC、F_LR、F_RF、F_XGB；

步骤3.3、将3.1中四个特征子集融合，最终的特征集F为：

F＝(F_SVC)∪(F_LR)∪(F_RF)∪(F_XGB)

使用投票的方法筛选更加稳健的特征，即某基分类器Model认为特征f为有效特征即f∈F_Model，则为特征f投一票；若特征f获得k票，k>2，则说明这个特征在大多数模型中都具有良好都分类能力，则把这个特征放入“公认”特征集S。

2.根据权利要求1所述的方法，其特征在于：步骤5，基于优化的遗传算法对筛选最优的模型组合的具体流程为：

步骤5.1、基因编码；将问题的解定义为一组{0,1}二进制串，每个位置表示一个模型，1表示选择此模型，0表示不选择此模型；二进制编码串的长度为模型的数量；

步骤5.2、种群初始化；设置种群数量N，交叉概率以及变异概率；随机生成N个个体，即N个二进制编码串，作为种群；

步骤5.3、计算个体的适应度；首先对二进制编码串进行解码，生成对应的模型子集；计算每个模型子集的适应度，由于我们的目标是使最终集成模型的效果最优，所以使用集成模型在测试集中的准确率作为本问题的适应度函数，适应度函数为：

其中，Fitness表示适应度，Accuracy表示集成模型的准确率，TP表示真实正样本被预测正确的数量，TN表示真实正样本被预测错误的数量，FN为真实负样本错分为正样本的数量，TN为真实负样本被正确预测为负样本的数量；集成模型的集成方式为，将模型子集中的子模型进行组合，以加权平均法集成各个子模型的预测结果做出最终的决策；

步骤5.4、选择算子；使用轮盘赌选择法和精英保留法进行新父类的选择；首先，为了确保最优的个体不被淘汰，就使用精英保留法，把适应度最高的2个个体直接保留到下一代；为了保证种群数量N的稳定，使用轮盘赌选择法从剩余的N-2个个体中进行选择，具体为，为了将个体根据适应度映射到轮盘中，根据适应度计算每个个体被选择的概率，公式为：

其中，P(i)为第i个个体被选择的概率，Fitness(i)为第i个个体的适应度函数，n为进行选择个体的总数量；然后计算个体的累计概率，具体公式为：

其中，S(i)表示第i个个体的累计概率，P(j)表示第j个个体被选择的概率；然后随机生成一个0到1的随机数，若第k个个体的累计概率大于这个随机数，第k-1个个体小于这个随机数，表明转盘指针刚好在第k个个体的区域，第k个个体可以生成子孙；重复以上操作N-2次，选择N-2个可以生成子孙的父类；

步骤5.4、交叉操作；将上一步中选出的父类两两配对，并为每一对父类随机产生一个0到1的随机数，若随机数小于交叉概率，就进行交叉操作产生两个新的子个体，否则就将这一对父类直接复制为两个子个体；其中交叉操作具体为，对比两个父类，将同为1的基因位定义为优势基因位，直接遗传到下一代；对于其他基因位，选择中点作为交叉点，两个父类以交叉点进行分割，并交换后半部分，从而得到两个交叉后的子代；

步骤5.5、变异操作；为了增加算法寻找最优解的能力，为每个子类的每一个基因位生成一个随机概率，将随机概率小于变异概率的基因位置进行0、1翻转，完成变异操作；

步骤5.6、结束条件判定；若当前的迭代数没有达到初始设置的迭代数，回到步骤5.3，进入下一次遗传过程，直到达到迭代数为止；最后，输出最优适应度的个体，进行解码，即为最优的模型组合。