CN113535694A

CN113535694A - 一种基于Stacking框架的特征选择方法

Info

Publication number: CN113535694A
Application number: CN202110679793.4A
Authority: CN
Inventors: 王海荣; 薛伟伟
Original assignee: North Minzu University
Current assignee: North Minzu University
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-10-22

Abstract

本发明公开了一种基于Stacking框架的特征选择方法，使用K‑Fold交叉验证方式训练并保存DNN、SVM基学习器，基学习器预测结果作为元学习器输入，训练并保存逻辑回归学习模型；综合分析全连接神经网络权重矩阵、支持向量机相关系数，根据元学习器模型学习结果为各基学习器赋予不同权重，计算各特征影响因子并调用序列后向搜索算法(SBS)生成最优特征子集。实验结果表明本发明公开的方法能够减少模型训练时间，提升模型的召回率、F1值。

Description

一种基于Stacking框架的特征选择方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于Stacking框架的特征选择方法。

背景技术

特征选择是通过计算源数据中每个特征对最终模型输出结果的影响因子来进行选择与过滤，其主要用于数据高维特征空间的降维处理，来解决“维度灾难”问题。由于在众多研究领域的模型训练中，均能通过特征选择来降低源数据高维信息的语义矩阵维度，从而减少模型复杂度，达到缩短模型训练时间、降低训练成本的目的，因此，特征选择算法在学术界和行业得到广泛关注。例如在疾病诊断应用上，通常使用特征选择方法生成原始数据特征空间最优的特征子集，然后使用最优特征子集来判断一位就诊人员是否有患心脏病的风险。心脏病诊断的准确性和效率由所选择的特征子集和分类器决定。如果模型特征过多、复杂度高，诊断的准确率和效率就会降低。

传统的特征选择方法主要包括主成分分析法(PCA)、TF-IDF、互信息等。丁雪梅等使用调整的余弦相似度来度量特征间的相关性，提出一种基于Relief的无监督特征选择方法。高宝林等对传统CHI进行改进，引入类内和类间分布因子来降低特征词在类间均匀分布时对分类带来的负贡献并将其应用微博情感分析。周传华等特征相关性和分类能力两个方面对特征进行综合度量，调用序列前向选择来删除冗余特征并用实验证明其有效性。胡峰等动态地将原始特征集划分为若干个特征子空间，提出了一种基于特征聚类的封装式特征选择算法并证明该算法可提升分类器性能。陈谌等提出一种基于随机森林Gini指标和卡方检验的最优特征子集的特征选择方法并应用于支持向量机算法模型中，解决了传统机器学习分类算法在非平衡数据集上准确率降低的问题。雷海锐等提出一种基于filter-wrapper模型的混合式特征选择方法并通过实验证明了该方法选择的特征子集具有更好的分类能力。Chen等针对高维数据提出一种SFR特征选择方法，该方法首先进行子空间特征聚类来判别每个特征对每个类别重要性，然后使用分层特征加权方法对特征排序。Kewen Li等针对正负样本不均衡数据集提出一种加权互信息的WMI特征选择方法，该方法使用模糊C均值聚类为样本分配不同权重，根据权重计算互信息，最后用NASA四个不均衡数据来验证WMI方法有效性。

综上，现有特征选择算法通过分析单个特征信息增益(IG)、平均下降Gini指数等指标来衡量该特征与学习目标相关性，根据相关性大小来过滤冗余特征，没有考虑模型训练时源数据高维语义矩阵线性变换和非线性变换过程中不同维度间相互影响的关系。

发明内容

针对上述存在的问题，本发明提供一种基于Stacking框架的特征选择方法，结合Stacking学习模型能够融合多个机器学习模型的优势，利用序列后向搜索的特征选择算法通过综合分析多个学习模型训练过程中生成的学习参数并做加权处理，能够更细粒度地提取和分析源数据特征空间中每个特征影响因子大小。

实现本发明目的的技术解决方案为：

一种基于Stacking框架的特征选择方法，其特征在于，包括以下步骤：

步骤1：对输入的疾病数据进行清洗，分析各特征维度数据缺失情况并进行填充，并对数据进行标准化处理，得到更加规范的用于机器学习的数据集；

步骤2：使用K-Fold交叉验证方式训练Stacking集成学习模型，并将步骤1得到的数据集输入到所述Stacking集成学习模型中进行训练，得到特征因子影响矩阵；

步骤3：利用特征选择算法对所述特征因子影响矩阵进行选择，不断迭代删除冗余特征，最终输出分类器全局最高精确率和所对应的最优特征子集；

步骤4：根据步骤3得到的最优特征子集构建基于Stacking框架的疾病诊断模型。

进一步地，步骤2中所述的Stacking集成学习模型分为两层架构：第一层组合不同的基学习器，包括全连接神经网络和支持向量机；第二层为元学习器，其采用逻辑回归LR，且元学习器以第一层的预测结果作为元学习器的输入，并对最终的结果进行预测，模型构建过程中，为了减少过拟合，利用K-Fold方法交叉训练基学习器。

进一步地，步骤3的具体操作步骤包括：

步骤31：利用基学习器中的全连接神经网络模型对特征集中的特征进行分析得到权重矩阵；

步骤32：利用基学习器中的支持向量机模型对特征集中的特征进行分析得到特征系数；

步骤33：利用元学习器LR模型分析回归系数，得到回归系数矩阵，根据回归系数矩阵为各基学习器影响因子赋予权重，对基学习器各特征影响因子加权求和，得到特征因子影响矩阵；

步骤34：采用序列后向搜索算法进行特征选择，最终输出最大精确率以及与其相对应的最优特征子集。

本方法与现有技术相比，具有以下有益效果：

本发明提出了一种新型的基于Stacking框架的和序列后向搜索的特征选择方法，使用K-Fold交叉验证方法构建Stacking集成学习模型，通过加权求和得到各特征影响因子，再调用序列后向搜索算法，通过迭代计算依次删除影响因子最小的一个特征并生成最优特征子集。实验结果表明基于本发明提出的Stacking特征选择方法构建的疾病诊断模型的性能明显优于各基学习器独立训练的性能，本发明所提出的特征选择方法能够提升模型召回率、F1值，利用本发明方法构建出的疾病诊断模型能够有效提高诊断的准确率和效率。

附图说明

图1为特征选择流程；

图2为Stacking框架；

图3为本发明提出的Stacking-SBS方法框架图；

图4为本发明中的特征选择模块的框架图；

图5为实施例中得到的各特征维度影响因子；

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

特征选择是指将高维空间的样本通过映射或者是变换的方式转换到低维空间，以避免“维度灾难”问题。首先从特征全集开始按搜索策略产生一个特征子集，运用评价函数对该特征子集进行评估，将评价结果与停止准则进行比较，如果满足则输出最优特征子集，否则产生下一组特征子集继续进行特征选择，特征选择的流程如附图1所示。

本发明提出的基于Stacking框架的特征选择方法，通过构建并综合分析Stacking框架学习参数对原数据特征空间各维度进行重要性度量，采用序列后向搜索(SBS)策略生成最优特征子集，参考附图3可知本发明的方法包括如下步骤：

步骤2：使用K-Fold交叉验证方式构建Stacking集成学习模型，并将步骤1得到的数据集输入到所述模型中进行训练，得到特征因子影响矩阵；

步骤3：利用特征选择算法对特征因子影响矩阵进行选择，不断迭代删除冗余特征，最终输出分类器全局最高精确率和所对应的最优特征子集；

步骤4：以得到的最优特征子集构建基于Stacking框架的疾病诊断模型。进一步地，步骤2中所述的Stacking集成学习模型，Stacking是一种分层模型集成框架，由基学习器(base-learner)和元学习器(meta-learner)组成，其框架如附图2所示。具体地，其两层架构为：

第一层组合不同的基学习器，包括全连接神经网络和支持向量机；第二层为元学习器，其采用逻辑回归LR，且元学习器以第一层的预测结果作为元学习器的输入，并对最终的结果进行预测，模型构建过程中，为了减少过拟合，利用K-Fold方法交叉训练基学习器；

进一步地，所述K-Fold交叉验证(k-fold cross validation)是机器学习划分数据集和验证集的一种方法，其主要思想为：将全部数据集分成k个不相交的子集，即K折。假设S中的训练样例个数为m，那么每一个子集有m/k个训练样例，相应的子集称作{s1，s2，...，sk}；每次从分好的子集中取一个作为测试集，其它k-1个作为训练集；取k次模型在测试集上精确率的平均值作为该模型k折交叉验证的精确率；

本发明使用K-Fold交叉验证方式构建Stacking集成学习模型的算法如算法2所示。

进一步地，本发明先构建Stacking集成学习模型，然后分别加载各学习器并分析训练参数进行特征重要性度量，通过分析计算DNN训练过程中的权值矩阵得到DNN中各特征影响因子({α₁，α₂，...，α_n，})，根据SVM特征相关系数计算得到SVM中各特征影响因子({β₁，β₂，...，β_n})，使用元学习器LR模型分析回归系数，得到回归系数({μ₁，μ₂，...，μ_n})，通过如下公式计算得到各特征影响因子(w_i)：

W_i＝μ₁*ax+μ₂*β₂+...+μ_n*β_n

对基学习器各特征影响因子加权求和，得到特征因子影响矩阵，采用序列后向搜索算法(SBS)生成最优特征子集，特征选择框架如附图4所示，其具体操作步骤为：

步骤34：采用序列后向搜索算法SBS生成最优特征子集。

进一步地，所述序列后向搜索是一种启发式的特征子空间搜索算法，从特征全集(未进行特征选择前Stacking模型学习参数得到的全部特征)开始，每次从特征集删除一个特征，重复该过程使得删除特征后评价函数值达到最优，本发明中的评价函数使用分类器精确度。其具体过程如算法1所示(N为原数据特征空间中属性个数)：

算法1序列后向搜索算法

由上可以看出，本发明中的序列后向搜索算法输入为特征空间全集和最大准确率。在迭代过程中，如果将其中一个特征删除后，评价函数值优于删除前，则删除该冗余特征，算法输出为最大精确率和与之对应的最优子集。

实施例

本发明通过构建Stacking学习模型并综合分析训练过程中保存的学习参数得到特征空间中各维度影响因子，调用序列后向搜索方法生成最优特征子集，用最优特征子集重新构建Stacking模型并进行特征选择前后性能对比分析。

1、实验环境

在Windows环境下应用Python、pycharm等语言工具构建基于Stacking框架疾病诊断模型并调用特征选择算法进行对比分析。

2、实验数据

采用网上某镇居民心脏病研究公开数据集，原始数据特征空间包含患者年龄、教育程度、血糖值、心率、BMI等15种特征属性，分类目标是预测患者未来10年内是否有患冠心病(CHD)风险。为便于实验分析，本实验调用sklearn和pandas相关库对数据进行清洗，分析各特征维度数据缺失情况并进行填充，然后对数据进行标准化并存储为numpy文件。

3、评价方法

为了充分验证本发明提出的特征选择方法，采用精确率(precision，见公式1)、召回率(recall，见公式2)、F1值(见公式3)3个指标来评估诊断本方法的性能。

(1)精确率

其中，TP、FP分别表示真正例和假正例。

(2)召回率

其中，FN为真反例。

(3)F1值

本发明采用心脏病研究公开数据集构建基于Stacking框架的疾病诊断模型，Stacking模型基学习器采用全连接神经网络(DNN)、支持向量机(SVM)，元学习器采用逻辑回归(LR)，K-Fold交叉验证过程K设置为5。DNN和SVM在测试集上性能评估结果如表1所示，Stacking框架学习模型与基学习器性能对比如表2所列(基学习器5次性能评估结果均值作为该学习器最终性能评估结果)。

表1 Stacking框架基学习器5折交叉验证过程性能

表2 Stacking框架与基学习器疾病诊断模型性能对比

对比分析表1和表2可知，与各基学习器独立训练结果相比，基于Stacking框架的疾病诊断模型precision提升了7％左右，recall最多提升了3％，F1值最多提升了5％左右，进而说明Stacking学习框架能够显著提升疾病诊断模型性能。

当Stacking模型构建完成后，再调用pickle库加载K-Fold交叉验证过程中生成的各基学习器模型，综合分析各基学习器训练过程中生成的学习参数并将其归一化，基学习器各特征影响因子加权求和得到该特征最终特征影响因子，各特征影响因子如附图5所示，其中横坐标代表特征序号，纵坐标代表该特征影响因子。在得到特征空间中各维度特征影响因子后，调用序列后向搜索(SBS)算法依次删除影响因子最低的一个特征并生成最优特征子集，本实验最终特征选择情况如表3所列，特征选择前后Stacking模型诊断性能对比如表4所列。

表3特征选择结果

表4特征选择前后Stacking模型诊断性能

分析表4可知，使用最优特征子集构建的疾病诊断模型recall和F1指标均有提升，其中recall提升了4％，F1值提升了3％。此外，特征选择后训练Stacking模型时间约减少了16％，这说明本发明提出的特征选择算法不仅能够提升模型性能，也能够减少模型运行时间成本。

为了进一步验证本文方法的有效性，基于Kaggle网站上心脏病研究公开数集，分别调用IG、Chi、CFS、Stacking-SBS四种特征选择方法删除冗余特征，使用最优特征子集重新构建特征空间并训练Stacking学习模型，4种特征选择方法在心脏病数集上实验对比如表5所列。

表5不同种特征选择方法诊断模型的性能

从表5可以看出，与其他三种特征选择方法相比，本发明所提出的Stacking-SBS特征方法模型诊断性能明显提升，其中precision较IG低于2％，较Chi和CFS提升了6％，recall提升了3％～6％，F1值提升了5％～6％，这说明本方法较其他三种特征方法在特征选择性能提升方面更优。

最后采用Kaggle网站上心血管研究公开数据集来验证本文方法的泛化能力，实验结果如表6所列。

表6心血管数据集上特征选择前后模型诊断性能

从表6可以看出，本文方法在心血管数据集上也有着很好的表现，删除冗余特征后模型recall提升了6％，F1值提升了3％，这说明Stacking-SBS特征选择方法有较好的泛化能力。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管参照前述实施例对本发明专利进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Stacking框架的特征选择方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于Stacking框架的特征选择方法，其特征在于，步骤2中所述的Stacking集成学习模型分为两层架构：第一层组合不同的基学习器，包括全连接神经网络和支持向量机；第二层为元学习器，其采用逻辑回归LR，且元学习器以第一层的预测结果作为元学习器的输入，并对最终的结果进行预测，模型构建过程中，为了减少过拟合，利用K-Fold方法交叉训练基学习器。

3.根据权利要求1所述的一种基于Stacking框架的特征选择方法，其特征在于，步骤3的具体操作步骤包括：