CN113610636A

CN113610636A - 一种迭代特征筛选方法及系统

Info

Publication number: CN113610636A
Application number: CN202110924607.9A
Authority: CN
Inventors: 陈昶汝; 王珍; 杨丽娟
Original assignee: Bairong Yunchuang Technology Co ltd
Current assignee: Bairong Yunchuang Technology Co ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-05

Abstract

本发明公开了一种迭代特征筛选方法及系统，所述方法包括：构建特征数据集；基于降维法和逐步回归法构建迭代特征筛选模型；将所述特征数据集输入所述迭代特征筛选模型，获得所述迭代特征筛选模型的输出结果，所述输出结果为筛选后的特征。解决了现有技术中存在大量信贷特征筛选与过滤问题较为散乱，在特征选择的过程中会出现准确性不够稳定、效率低的技术问题，达到了通过提供一个快速且高效的特征选择框架进行系统性特征筛选，增加特征选择准确性系数、提高特征过滤效率的技术效果。

Description

一种迭代特征筛选方法及系统

技术领域

本发明涉及机器学习相关领域，尤其涉及一种迭代特征筛选方法及系统。

背景技术

特征选择是机器学习领域中一个重要的数据预处理过程，特征选择主要有两个功能，降维，使得模型泛化能力更强，以及减少过拟合，目前常用的特征选择方法有基于单变量的特征选择方法，如皮尔逊相关系数，距离相关系数等；以及机器学习模型的特征选择方法，例如回归模型，SVM，决策树，随机森林等。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中存在大量信贷特征筛选与过滤问题较为散乱，在特征选择的过程中会出现准确性不够稳定，效率低的技术问题。

发明内容

本申请实施例通过提供一种迭代特征筛选方法及系统，解决了现有技术中存在大量信贷特征筛选与过滤问题较为散乱，在特征选择的过程中会出现准确性不够稳定、效率低的技术问题，达到了通过提供一个快速且高效的特征选择框架进行系统性特征筛选，增加特征选择准确性系数、提高特征过滤效率的技术效果。

鉴于上述问题，提出了本申请实施例提供一种迭代特征筛选方法及系统。

第一方面，本申请实施例提供了一种迭代特征筛选方法，所述方法包括：构建特征数据集；基于降维法和逐步回归法构建迭代特征筛选模型；将所述特征数据集输入所述迭代特征筛选模型，获得所述迭代特征筛选模型的输出结果，所述输出结果为筛选后的特征。

另一方面，本申请还提供了一种迭代特征筛选系统，所述系统包括：第一构建单元，所述第一构建单元用于构建特征数据集；第二构建单元，所述第二构建单元用于基于降维法和逐步回归法构建迭代特征筛选模型；第一获得单元，所述第一获得单元用于将所述特征数据集输入所述迭代特征筛选模型，获得所述迭代特征筛选模型的输出结果，所述输出结果为筛选后的特征。

第三方面，本发明提供了一种迭代特征筛选系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了通过构建特征数据集进行基础指标的封装，再通过经验修改相关指标阈值获得预筛选的特征，基于降维法和逐步回归法构建迭代特征筛选模型，根据所述迭代特征筛选模型获得筛选后的特征的方式，达到了通过提供一个快速且高效的特征选择框架进行系统性特征筛选，增加特征选择准确性系数、提高特征过滤效率的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例一种迭代特征筛选方法的流程示意图；

图2为本申请实施例一种迭代特征筛选方法的数据集构建流程示意图；

图3为本申请实施例一种迭代特征筛选方法的特征筛选流程示意图；

图4为本申请实施例一种迭代特征筛选系统的结构示意图；

图5为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一构建单元11，第二构建单元12，第一获得单元13，存储器91，处理器92，输入输出接口93。

具体实施方式

本申请实施例通过提供一种迭代特征筛选方法及系统，解决了现有技术中存在大量信贷特征筛选与过滤问题较为散乱，在特征选择的过程中会出现准确性不够稳定、效率低的技术问题，达到了通过提供一个快速且高效的特征选择框架进行系统性特征筛选，增加特征选择准确性系数、提高特征过滤效率的技术效果。下面，将参考附图详细的描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

特征选择是机器学习领域中一个重要的数据预处理过程，特征选择主要有两个功能，降维，使得模型泛化能力更强，以及减少过拟合，目前常用的特征选择方法有基于单变量的特征选择方法，如皮尔逊相关系数，距离相关系数等；以及机器学习模型的特征选择方法，例如回归模型，SVM，决策树，随机森林等。但现有技术中存在大量信贷特征筛选与过滤问题较为散乱，在特征选择的过程中会出现准确性不够稳定、效率低的技术问题。

针对上述技术问题，本申请提供的技术方案总体思路如下：

本申请实施例提供了一种迭代特征筛选方法，所述方法包括：构建特征数据集；基于降维法和逐步回归法构建迭代特征筛选模型；将所述特征数据集输入所述迭代特征筛选模型，获得所述迭代特征筛选模型的输出结果，所述输出结果为筛选后的特征。

在介绍了本申请基本原理后，下面结合附图，对本申请的实施例进行描述。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题同样适用。

实施例一

如图1所示，本申请实施例提供了一种迭代特征筛选方法，所述方法包括：

步骤S100：构建特征数据集；

具体而言，所述特征数据集是通过对信贷进行风险管控的特征指标，能够灵敏高效地反映风险变化特征，需要具备有效性和可靠性，包括空值率、同值率、单变量IV、单变量KS、跨时间分布单变量PSI、相关性等指标，进一步的，所述特征数据集的构建需要考虑指标体系的完整性以及中电兴，对反映信贷活动主要过程的风险预警指标进行筛选给予更大的权重，因此先关用户需要根据经验修改相关指标的阈值即可。

步骤S200：基于降维法和逐步回归法构建迭代特征筛选模型；

具体而言，由于能够反映信贷风险的指标有很多，有的比较重要，但计算该指标所需要的数据无法通过可靠途径获得，或者需要耗费大量的人力、物力，并且对于不同的信贷风险分析过程中需要对不同的指标进行筛选，并且指标的选择能够反映面临的风险程度，需要具备一定的预测性和超前性，因此，通过降维法和逐步回归法构建迭代特征筛选模型，所述特征迭代筛选模型用于筛选特征指标来构建预警指标体系框架，从而使得构建的系统化框架更加准确。

步骤S300：将所述特征数据集输入所述迭代特征筛选模型，获得所述迭代特征筛选模型的输出结果，所述输出结果为筛选后的特征；

具体而言，将所述特征数据集输入所述迭代特征筛选模型的过程是根据基础指标筛选后得到的特征，再结合PCA、LASSO等机器学习降维方法构建的模型进行特征的降维，由于在构建所述特征数据集的维度中包含有冗余信息以及噪音信息，所述迭代特征筛选模型能够减少冗余信息所造成的误差，提高识别的精度。其中，主成分分析算法(PrincipalComponent Analysis，PCA)能够使得在降维后最接近所述特征数据集中的原始数据信息，信息丢失量较小；LASSO回归模型是一种压缩估计，能够对所述特征数据集中的基础指标进行系数压缩，同时设定一些系数为零，从而保留了子集收缩的优点。从而使得所述迭代特征筛选模型输出的筛选特征更加准确，完成系统性的特征筛选，提升特征筛选效率

进一步而言，如图2所示，其中，所述构建特征数据集，本申请实施例步骤S100还包括：

步骤S110：获得预定基础指标；

步骤S120：对所述预定基础指标进行阈值调整，构建所述特征数据集。

进一步而言，其中，所述预定基础指标包括空值率、同值率、单变量IV、单变量KS、跨时间分布单变量PSI、相关性。

具体而言，通过获得预定的基础指标并进行封装，其中，封装了包括空值率、同值率、单变量IV、单变量KS、跨时间分布单变量PSI、相关性等指标，其中，空值率是对于某一特征，如果出现空值的样本较少，则删除在此特征商为空值的样本；如果去空值的样本数量较多，则选择删除该特征，可以根据实际需要选择空缺值处理方式，如删除、替换；同值率是删除数据中取值唯一的特征，只取一个值的特征对我们的模型训练没有意义；相关性可以通过观察数据特征，对数据进行简单的清理，主要清理与业务相关性不大的内容，此处的相关性大小凭业务知识进行粗略判断如申请人的id，公司名等。举例而言，基于目前的信贷数据预处理，阈值调整为空值率<95％、同值率<95％、单变量IV>0.02、单变量KS>0.02、跨时间分布单变量PSI<0.01、相关性<0.6等指标，通过对初始数据进行数据清理和调整，进而提高之后特征选择的效率。

进一步而言，其中，所述降维法包括：主成分分析法、LASSO回归法中的一种。

具体而言，主成分分析算法(Principal Component Analysis，PCA)能够利用降维的思想，把多指标转化为少数几个综合指标(即主成分)，其中每个主成分都能够反映原始变量的大部分信息，且所含信息互不重复，使得在降维后最接近所述特征数据集中的原始数据信息，信息丢失量较小；LASSO回归模型是选择的把变量放入模型从而得到更好的性能参数，一种压缩估计，能够对所述特征数据集中的基础指标进行系数压缩，同时设定一些系数为零，从而保留了子集收缩的优点，避免过度拟合，选取最终模型，因此，通过实际情况完成降维方法的一种，进一步的，当采取一种方法进行准确率分析后，该准确率不满足预设准确率时可以返回上一方法选择过程进行循环选择，进而提高了降维法的实施质量。

进一步而言，如图3所示，其中，所述将所述特征数据集输入所述迭代特征筛选模型，获得所述迭代特征筛选模型的输出结果，所述输出结果为筛选后的特征，本申请实施例步骤S300还包括：

步骤S310：将所述特征数据集输入所述迭代特征筛选模型的降维层进行降维，获得第一输出结果；

步骤S320：将所述第一输出结果输入所述迭代特征筛选模型的特征筛选层，获得第二输出结果，所述第二输出结果为所述迭代特征筛选模型的输出结果。

具体而言，所述迭代特征筛选模型为双层操作模型，包括降维层和筛选层，所述降维层用于根据选择的降维方法对数据清理后的所述特征数据集进行降维处理，所述第一输出结果为通过降维方法获得的最新组合变量，所述第一输出结果输出的指标具有重要性，并且在降维处理后输出的变量还能够将对应的重要性进行数据化标识；所述筛选层为特征筛选层，基于所述第一输出结果输出的最新组合变量进行特征二次选择，从而获得所述第二输出结果得到最终入模特征，基于对所述迭代特征筛选模型的双层筛选层级，能够完整的反应信贷风险，进而提高框架模型构建的准确性。

进一步而言，所述将所述第一输出结果输入所述迭代特征筛选模型的特征筛选层，获得第二输出结果，所述第二输出结果为所述迭代特征筛选模型的输出结果，本申请实施例S320还包括：

步骤S321：获得预定特征筛选指标；

步骤S322：通过优化后的所述逐步回归法，基于所述预定特征筛选指标对所述第一输出结果进行特征筛选，获得所述第二输出结果。

进一步而言，所述预定特征筛选指标包括AIC、BIC、KS、AUC、机器学习算法特征重要性。

具体而言，由于所述第一输出信息为新的变量组合，并且选择不同的变量组合可以得到不同的模型，因此需要通过选择模型来很好地刻画数据。AIC为赤池信息准则，是衡量统计模型拟合优良性的一种标准，建立在熵的概念基础上，使模型参数尽可能少，有助于降低过拟合的可能性，一般而言，AIC越小，模型越好，通常选择AIC最小的模型。BIC为贝叶斯信息准则，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高，KS统计量是信用评分和其他很多学科中常见的统计量，在金融风控领域中，常用于衡量模型对正负样本的区分度，AUC反映的是正样本的预测结果大于负样本预测结果的概率。

进一步的，通过确定预定特征筛选指标的数据，基于所述AIC、BIC、KS、AUC、对模型的分类回归准确率进行分析确定优化后的回归法，选择最优模型对输出信息进行筛选，得到最终输入模型的特征，构建系统化框架，达到了通过提供一个快速且高效的特征选择框架进行系统性特征筛选，增加特征选择准确性系数、提高特征过滤效率的技术效果。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘，移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备执行本申请各个实施例所述的方法。

综上所述，本申请实施例所提供的一种迭代特征筛选方法及系统具有如下技术效果：

1、由于采用了通过构建特征数据集进行基础指标的封装，再通过经验修改相关指标阈值获得预筛选的特征，基于降维法和逐步回归法构建迭代特征筛选模型，根据所述迭代特征筛选模型获得筛选后的特征的方式，达到了通过提供一个快速且高效的特征选择框架进行系统性特征筛选，增加特征选择准确性系数、提高特征过滤效率的技术效果。

2、由于采用了对所述迭代特征筛选模型的双层筛选层级，能够完整的反应信贷风险，进而提高框架模型构建的准确性的方式，提高输出特征信息准确性系数。

3、由于采用了通过对所述预定基础指标进行阈值调整再构建所述特征数据集得方式，达到了对初始数据进行数据清理和调整，进而提高特征筛选效率。

实施例二

基于与前述实施例中一种迭代特征筛选方法同样发明构思，本发明还提供了一种迭代特征筛选系统，如图4所示，所述系统包括：

第一构建单元11，所述第一构建单元11用于构建特征数据集；

第二构建单元12，所述第二构建单元12用于基于降维法和逐步回归法构建迭代特征筛选模型；

第一获得单元13，所述第一获得单元13用于将所述特征数据集输入所述迭代特征筛选模型，获得所述迭代特征筛选模型的输出结果，所述输出结果为筛选后的特征。

进一步的，所述系统还包括：

第二获得单元，所述第二获得单元用于获得预定基础指标；

第三构建单元，所述第三构建单元用于对所述预定基础指标进行阈值调整，构建所述特征数据集。

进一步的，所述系统还包括：

第三获得单元，所述第三获得单元用于将所述特征数据集输入所述迭代特征筛选模型的降维层进行降维，获得第一输出结果；

第四获得单元，所述第四获得单元用于将所述第一输出结果输入所述迭代特征筛选模型的特征筛选层，获得第二输出结果，所述第二输出结果为所述迭代特征筛选模型的输出结果。

进一步的，所述系统还包括：

第五获得单元，所述第五获得单元用于获得预定特征筛选指标；

第六获得单元，所述第六获得单元用于通过优化后的所述逐步回归法，基于所述预定特征筛选指标对所述第一输出结果进行特征筛选，获得所述第二输出结果。

本申请实施例可以根据上述方法示例对网络设备和终端设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个接收模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。通过前述对一种迭代特征筛选方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种迭代特征筛选系统的实施方法，所以为了说明书的简洁，在此不再详述。

示例性电子设备

图5是本申请的计算设备的示意图。图5所示的计算设备90可以包括:存储器91、处理器92、输入/输出接口93。其中，存储器91、处理器92和输入/输出接口93通过内部连接通路相连，该存储器33用于存储指令，该处理器92用于执行该存储器91存储的指令，以控制输入/输出接口93接收输入的数据和信息，输出操作结果等数据。

图5是本申请另一实施例的计算设备的示意图。图5所示的计算设备90可以包括:存储器91、处理器92、输入/输出接口93。其中，存储器91、处理器92和输入/输出接口93通过内部连接通路相连，该存储器91用于存储指令，该处理器92用于执行该存储器92存储的指令，以控制输入/输出接口93接收输入的数据和信息，输出操作结果等数据。

在实现过程中，上述方法的各步骤可以通过处理器92中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的异常消息的识别方法和/或异常消息识别模型的训练方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器﹑寄存器等本领域成熟的存储介质中。该存储介质位于存储器91，处理器92读取存储器91中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应理解，本申请实施例中，该处理器可以为中央处理单元(centralprocessingunit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，DSP)，专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programm able gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

应理解，本申请实施例中，该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。处理器的一部分还可以包括非易失性随机存取存储器。例如，处理器还可以存储设备类型的信息。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机，服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外，无线，微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够读取的任何可用介质或者是包含一个或多个可用介质集成的服务器，数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(Digital Video Disc，DVD))或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种迭代特征筛选方法，其中，所述方法包括：

构建特征数据集；

基于降维法和逐步回归法构建迭代特征筛选模型；

将所述特征数据集输入所述迭代特征筛选模型，获得所述迭代特征筛选模型的输出结果，所述输出结果为筛选后的特征。

2.如权利要求1所述的方法，其中，所述构建特征数据集，包括：

获得预定基础指标；

对所述预定基础指标进行阈值调整，构建所述特征数据集。

3.如权利要求1所述的方法，其中，所述预定基础指标包括空值率、同值率、单变量IV、单变量KS、跨时间分布单变量PSI、相关性。

4.如权利要求1所述的方法，其中，所述降维法包括：主成分分析法、LASSO回归法中的一种。

5.如权利要求1所述的方法，其中，所述将所述特征数据集输入所述迭代特征筛选模型，获得所述迭代特征筛选模型的输出结果，所述输出结果为筛选后的特征，包括：

将所述特征数据集输入所述迭代特征筛选模型的降维层进行降维，获得第一输出结果；

将所述第一输出结果输入所述迭代特征筛选模型的特征筛选层，获得第二输出结果，所述第二输出结果为所述迭代特征筛选模型的输出结果。

6.如权利要求5所述的方法，其中，所述将所述第一输出结果输入所述迭代特征筛选模型的特征筛选层，获得第二输出结果，所述第二输出结果为所述迭代特征筛选模型的输出结果，包括：

获得预定特征筛选指标；

通过优化后的所述逐步回归法，基于所述预定特征筛选指标对所述第一输出结果进行特征筛选，获得所述第二输出结果。

7.如权利要求6所述的方法，其中，所述预定特征筛选指标包括AIC、BIC、KS、AUC、机器学习算法特征重要性。

8.一种迭代特征筛选系统，其中，所述系统包括：

第一构建单元，所述第一构建单元用于构建特征数据集；

第二构建单元，所述第二构建单元用于基于降维法和逐步回归法构建迭代特征筛选模型；

第一获得单元，所述第一获得单元用于将所述特征数据集输入所述迭代特征筛选模型，获得所述迭代特征筛选模型的输出结果，所述输出结果为筛选后的特征。

9.一种迭代特征筛选系统，包括至少一个处理器和存储器，所述至少一个处理器与所述存储器耦合，用于读取并执行所述存储器中的指令，以执行如权利要求1-7中任一项所述的方法。