CN112364012A

CN112364012A - 数据特征确定方法、装置及电子设备

Info

Publication number: CN112364012A
Application number: CN202110045213.6A
Authority: CN
Inventors: 顾凌云; 谢旻旗; 段湾; 张涛; 潘峻; 陈尚伟
Original assignee: Shanghai IceKredit Inc
Current assignee: Shanghai IceKredit Inc
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-02-12
Anticipated expiration: 2041-01-14
Also published as: CN112364012B; US20220222595A1

Abstract

本发明所提供的数据特征确定方法、装置及电子设备，允许在初始阶段设定已选特征集合和必不选特征集合，对特征选择添加了先验特征，减少了不必要特征筛选的计算量。对特征使用了方差膨胀因子指标进行筛选，减少了特征之间存在多重共线性的可能性，有效降低了特征冗余的现象，提高了模型应用于信贷业务的性能。预设了最小提升阈值，对已经达到性能要求的模型提前停止，降低了模型后续无意义的计算，减少了计算量。根据最终数据特征所训练的模型，相较原有模型在信贷业务场景中有着更好的性能，提取特征所需的计算量相对较小且提取出来的特征鲜有相关性，再达到相同性能前提下所需的特征数量更少，也在一定程度上降低了数据存储所需的空间。

Description

数据特征确定方法、装置及电子设备

技术领域

本发明涉及数据特征处理技术领域，具体而言，涉及一种数据特征确定方法、装置及电子设备。

背景技术

现有的业务场景（例如信贷场景）中用户数据的特征非常多，对这些特征进行特征筛选既有利于过滤冗余和无效特征，也有利于提升模型预测的效果。对用户数据进行特征选择的方法主要有两类：一类是基于业务的人工特征选择，一般是技术人员结合信贷业务的相关知识、经验，人工剔除一些可能表现不好的特征；另一类是基于LogisticRegression（逻辑回归）的前向特征选择或后向特征选择。

第一类方法对技术人员的业务要求较高，需要进行人工特征选择，所以效率较低，而且效果不稳定，经常存在误判的现象，即将某个表现良好的特征删除、或是将某个表现不佳的特征保留。

第二类方法就基于Logistic Regression的前向特征选择而言，由于每轮都要将剩余的所有特征逐一与已选特征结合来训练模型，所以计算的时间复杂度较高。此外，之后加入的特征有可能与已选特征中的某些特征相关，形成多重共线性，致使特征出现冗余。后向特征选择的缺点与前向的基本相同。

发明内容

为了改善上述问题，本发明提供了一种数据特征确定方法、装置及电子设备。

第一方面，提供一种数据特征确定方法，应用于电子设备，所述方法包括以下步骤：

获取待处理数据集；

设定初始的已选特征集合和必不选特征集合；根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合，确定候选特征集合；

设定最大入模变量数，方差膨胀因子阈值，以及模型AUC指标的最小提升阈值；

遍历所述候选特征集合，得到当前轮遍历结果；

从所述当前轮遍历结果中确定出AUC最大值，判断所述当前轮遍历结果的AUC最大值与上一轮遍历结果的AUC最大值的差值是否大于所述最小提升阈值；

若是，则将所述当前轮遍历结果的AUC最大值对应的目标特征添加到所述已选特征集合中并将所述目标特征从所述候选特征集合中移除，并返回执行遍历所述候选特征集合，得到当前轮遍历结果，直至所述已选特征集合中的特征数量达到所述最大入模变量数，然后将所述已选特征集合中的特征作为最终数据特征；

若否，将所述已选特征集合中的特征作为最终数据特征。

可选地，所述方法还包括：采用所述最终数据特征对目标模型进行训练和预测。

可选地，根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合，确定候选特征集合，包括：

从所述初始数据特征集合中剔除所述已选特征集合和所述必不选特征集合以得到所述候选特征集合。

可选地，遍历所述候选特征集合，得到当前轮遍历结果，包括：

每次从所述候选特征集合挑选出一个待处理特征，并将所述待处理特征与所述已选特征集合进行组合，然后构建逻辑回归模型；

将所述逻辑回归模型在所述初始数据特征集合上进行五折的交叉验证，记录所述待处理特征对应所述构建逻辑回归模型的五次交叉验证AUC指标的平均值以及五次交叉验证的方差膨胀因子的最大值；

若所述待处理特征对应的方差膨胀因子的最大值大于所述方差膨胀因子阈值，将所述待处理特征从所述候选特征集合中删除；

若所述待处理特征对应的方差膨胀因子的最大值小于等于所述方差膨胀因子阈值，则保留所述待处理特征。

第二方面，提供一种数据特征确定装置，应用于电子设备，所述装置包括以下模块：

数据获取模块，用于获取待处理数据集；

特征确定模块，用于设定初始的已选特征集合和必不选特征集合；根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合，确定候选特征集合；

变量设定模块，用于设定最大入模变量数，方差膨胀因子阈值，以及模型AUC指标的最小提升阈值；

特征遍历模块，用于遍历所述候选特征集合，得到当前轮遍历结果；

特征筛选模块，用于从所述当前轮遍历结果中确定出AUC最大值，判断所述当前轮遍历结果的AUC最大值与上一轮遍历结果的AUC最大值的差值是否大于所述最小提升阈值；

若否，将所述已选特征集合中的特征作为最终数据特征。

可选地，所述装置还包括：模型训练模块，用于采用所述最终数据特征对目标模型进行训练和预测。

可选地，所述特征确定模块根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合，确定候选特征集合具体包括：

可选地，所述特征遍历模块遍历所述候选特征集合，得到当前轮遍历结果具体包括：

第三方面，提供一种电子设备，包括互相之间通信的处理器和存储器，所述处理器用于从所述存储器中调取计算机程序，并通过运行所述计算机程序实现第一方面所述的方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在运行时实现第一方面所述的方法。

本发明实施例所提供的数据特征确定方法、装置及电子设备，基于逻辑回归进行改进，首先，允许在初始阶段设定已选特征集合和必不选特征集合，相当于给模型的特征选择添加了先验特征，减少了不必要特征筛选的计算量，其次，对特征使用了衡量特征与特征之间相关关系的方差膨胀因子指标进行筛选，减少了特征之间存在多重共线性的可能性，有效降低了特征冗余的现象，提高了模型应用于信贷业务的性能。最后，预设了最小提升阈值，对已经达到性能要求的模型提前停止，降低了模型后续无意义的计算，减少了计算量。根据最终数据特征所训练的模型，相较原有模型在信贷业务场景中有着更好的性能，同时本方法提取特征所需的计算量相对较小，由于提取出来的特征鲜有相关性，达到相同性能前提下所需的特征数量更少，因而也在一定程度上降低了数据存储所需的空间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种数据特征确定方法的流程图。

图2为本发明实施例所提供的一种数据特征确定装置的模块框图。

图3为本发明实施例所提供的一种电子设备的硬件结构图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

发明人经研究和分析发现，前向特征选择的一般步骤如下：

①电子设备从文档或数据库中读取相关的用户数据集；

②初始化空集作为已选特征集合，并将数据集中所有特征的集合作为候选特征集合；

③遍历候选特征集合，从候选特征里逐个选择特征与已选特征集合组合，训练模型并评估模型效果，记录下该特征对应的模型评估指标；

④从候选特征中选择一个使得模型性能表现最好的特征加入已选特征集合，并将该特征从候选特征集合中删除；

⑤重复③和④，直到已选特征集合中特征的数量达到了预设的最大特征个数则迭代停止，并将已选特征集合中的所有特征作为模型最终筛选出来的特征。

基于Logistic Regression的后向特征选择与前向特征选择类似，其一般步骤如下：

①电子设备从文档或数据库中读取相关的用户数据集；

②初始化空集作为已剔除的特征集合，并将数据集中所有特征的集合作为待剔除特征集合；

③遍历待剔除特征集合，从该集合里逐个选择特征，用待剔除集合中除了该特征以外所有特征训练模型并评估模型效果，记录下该特征对应的模型评估指标；

④从待剔除特征集合中选择一个使得模型性能表现最好的特征剔除；

⑤重复③和④，直到待剔除特征集合中特征的数量达到了预设的最大特征个数则迭代停止，并将待剔除特征集合中的所有特征作为模型最终筛选出来的特征。

然而，就基于Logistic Regression的前向特征选择而言，由于每轮都要将剩余的所有特征逐一与已选特征结合来训练模型，所以计算的时间复杂度较高。此外，之后加入的特征有可能与已选特征中的某些特征相关，形成多重共线性，致使特征出现冗余。后向特征选择的缺点与前向的基本相同。

为此，本发明对基于Logistic Regression的前向特征选择进行改进，设定了初始的已选特征集合和必不选的特征集合，并通过衡量某特征的方差与其他特征之间相关关系的方差膨胀因子vif指标对模型的特征进行筛选，降低了特征相关的可能性。

请参阅图1，示出了一种数据特征确定方法，应用于电子设备，所述方法包括以下步骤S110-步骤S170所描述的内容。

步骤S110，获取待处理数据集。

步骤S120，设定初始的已选特征集合和必不选特征集合；根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合，确定候选特征集合。

在本实施例中，已选特征集合和必不选特征集合是相对的，已选特征集合可以根据实际的业务情况进行选择，同样地，必不选特征集合也可以根据根据实际的业务情况进行排除。进一步地，已选特征集合和必不选特征集合可以理解为已确定的特征集合。在本实施例中，已选特征集合和必不选特征集合可以是针对信贷业务领域而言的数据特征集合例如身份特征、借贷行为特征等，在此不作限定。

步骤S130，设定最大入模变量数，方差膨胀因子阈值，以及模型AUC指标的最小提升阈值。

步骤S140，遍历所述候选特征集合，得到当前轮遍历结果。

步骤S150，从所述当前轮遍历结果中确定出AUC最大值，判断所述当前轮遍历结果的AUC最大值与上一轮遍历结果的AUC最大值的差值是否大于所述最小提升阈值。

步骤S160，若是，则将所述当前轮遍历结果的AUC最大值对应的目标特征添加到所述已选特征集合中并将所述目标特征从所述候选特征集合中移除，并返回执行遍历所述候选特征集合，得到当前轮遍历结果，直至所述已选特征集合中的特征数量达到所述最大入模变量数，然后将所述已选特征集合中的特征作为最终数据特征。

步骤S170，若否，将所述已选特征集合中的特征作为最终数据特征。

为便于理解，下面以一具体示例进行说明。

步骤1，电子设备从文本或数据库中获取带有二分类标签的数据集，二分类标签分为正例和反例，比如借贷数据中用标签1指代审核没通过不予放款，即正例，标签0指代审核通过可放款，即反例；

步骤2，设定初始的已选特征集合S和必不选的特征集合O,根据数据集所有特征组成的集合A，按C=A-S-O的方式计算出候选特征集合C；

步骤3，设定最大入模变量数n_features、vif指标的阈值vif_threshold和模型AUC指标的最小提升阈值min_increase；

步骤4，遍历候选特征集合C，每次从中挑一个特征F与已选特征集合S组合，以此构建Logistic Regression模型，并将模型在数据集上进行5折的交叉验证，记录该特征F所对应模型5次交叉验证AUC指标的平均值avg_auc和5次交叉验证vif的最大值max_vif，若该特征F的max_vif大于预先设定的阈值vif_threshold，则认为该特征与已选特征集合S中的某些特征存在多重共线性，若将该特征添加至已选特征集合S中会带来特征冗余，因此将该特征从候选特征集合中删除，不参与后续的迭代；

步骤5，从该轮遍历所有候选特征的avg_auc中找到最大值并记为max_auc，若该轮max_auc与上轮max_auc的差值大于最小提升阈值min_increase，则将该轮max_auc对应的特征加入已选特征集合S，并将该特征从候选特征C中移除；若该轮max_auc与上轮max_auc的差值小于min_increase，则提前停止迭代，跳过步骤6直接执行步骤7，并将已选特征集合S中的特征作为模型最终筛选出来的特征；

步骤6，重复步骤4和步骤5，直到已选特征集合S中特征的数量达到了预设的n_features，则停止迭代，并将已选特征集合S中的特征作为模型最终筛选出来的特征；

步骤7，将筛选出来的特征输入信贷业务的其他模型进行训练和预测。

可以理解，基于上述内容，允许在初始阶段设定已选特征集合和必不选特征集合，相当于给模型的特征选择添加了先验特征，减少了不必要特征筛选的计算量，其次，对特征使用了衡量特征与特征之间相关关系的方差膨胀因子指标进行筛选，减少了特征之间存在多重共线性的可能性，有效降低了特征冗余的现象，提高了模型应用于信贷业务的性能。最后，预设了最小提升阈值，对已经达到性能要求的模型提前停止，降低了模型后续无意义的计算，减少了计算量。根据最终数据特征所训练的模型，相较原有模型在信贷业务场景中有着更好的性能，同时本方法提取特征所需的计算量相对较小，由于提取出来的特征鲜有相关性，达到相同性能前提下所需的特征数量更少，因而也在一定程度上降低了数据存储所需的空间。

可选地，根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合，确定候选特征集合，包括：从所述初始数据特征集合中剔除所述已选特征集合和所述必不选特征集合以得到所述候选特征集合。

可选地，遍历所述候选特征集合，得到当前轮遍历结果，包括：每次从所述候选特征集合挑选出一个待处理特征，并将所述待处理特征与所述已选特征集合进行组合，然后构建逻辑回归模型；将所述逻辑回归模型在所述初始数据特征集合上进行五折的交叉验证，记录所述待处理特征对应所述构建逻辑回归模型的五次交叉验证AUC指标的平均值以及五次交叉验证的方差膨胀因子的最大值；若所述待处理特征对应的方差膨胀因子的最大值大于所述方差膨胀因子阈值，将所述待处理特征从所述候选特征集合中删除；若所述待处理特征对应的方差膨胀因子的最大值小于等于所述方差膨胀因子阈值，则保留所述待处理特征。

基于上述同样的发明构思，请结合参阅图2，示出了一种数据特征确定装置200，应用于电子设备，所述装置包括以下模块：

数据获取模块210，用于获取待处理数据集；

特征确定模块220，用于设定初始的已选特征集合和必不选特征集合；根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合，确定候选特征集合；

变量设定模块230，用于设定最大入模变量数，方差膨胀因子阈值，以及模型AUC指标的最小提升阈值；

特征遍历模块240，用于遍历所述候选特征集合，得到当前轮遍历结果；

特征筛选模块250，用于从所述当前轮遍历结果中确定出AUC最大值，判断所述当前轮遍历结果的AUC最大值与上一轮遍历结果的AUC最大值的差值是否大于所述最小提升阈值；

若否，将所述已选特征集合中的特征作为最终数据特征。

可选地，所述装置还包括：模型训练模块260，用于采用所述最终数据特征对目标模型进行训练和预测。

可选地，所述特征确定模块220根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合，确定候选特征集合具体包括：从所述初始数据特征集合中剔除所述已选特征集合和所述必不选特征集合以得到所述候选特征集合。

可选地，所述特征遍历模块240遍历所述候选特征集合，得到当前轮遍历结果具体包括：每次从所述候选特征集合挑选出一个待处理特征，并将所述待处理特征与所述已选特征集合进行组合，然后构建逻辑回归模型；将所述逻辑回归模型在所述初始数据特征集合上进行五折的交叉验证，记录所述待处理特征对应所述构建逻辑回归模型的五次交叉验证AUC指标的平均值以及五次交叉验证的方差膨胀因子的最大值；若所述待处理特征对应的方差膨胀因子的最大值大于所述方差膨胀因子阈值，将所述待处理特征从所述候选特征集合中删除；若所述待处理特征对应的方差膨胀因子的最大值小于等于所述方差膨胀因子阈值，则保留所述待处理特征。

在上述基础上，如图3所示，提供了一种电子设备100，包括互相之间通信的处理器110和存储器120，所述处理器110用于从所述存储器120中调取计算机程序，并通过运行所述计算机程序实现上述的方法。

在上述基础上，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在运行时实现上述的方法。

综上，本发明实施例所提供的数据特征确定方法、装置及电子设备，基于逻辑回归进行改进，首先，允许在初始阶段设定已选特征集合和必不选特征集合，相当于给模型的特征选择添加了先验特征，减少了不必要特征筛选的计算量，其次，对特征使用了衡量特征与特征之间相关关系的方差膨胀因子指标进行筛选，减少了特征之间存在多重共线性的可能性，有效降低了特征冗余的现象，提高了模型应用于信贷业务的性能。最后，预设了最小提升阈值，对已经达到性能要求的模型提前停止，降低了模型后续无意义的计算，减少了计算量。根据最终数据特征所训练的模型，相较原有模型在信贷业务场景中有着更好的性能，同时本方法提取特征所需的计算量相对较小，由于提取出来的特征鲜有相关性，达到相同性能前提下所需的特征数量更少，因而也在一定程度上降低了数据存储所需的空间。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据特征确定方法，其特征在于，应用于电子设备，所述方法包括以下步骤：

获取待处理数据集；

遍历所述候选特征集合，得到当前轮遍历结果；

若否，将所述已选特征集合中的特征作为最终数据特征。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：采用所述最终数据特征对目标模型进行训练和预测。

3.根据权利要求1所述的方法，其特征在于，根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合，确定候选特征集合，包括：

4.根据权利要求1所述的方法，其特征在于，遍历所述候选特征集合，得到当前轮遍历结果，包括：

5.一种数据特征确定装置，其特征在于，应用于电子设备，所述装置包括以下模块：

数据获取模块，用于获取待处理数据集；

若否，将所述已选特征集合中的特征作为最终数据特征。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：模型训练模块，用于采用所述最终数据特征对目标模型进行训练和预测。

7.根据权利要求5所述的装置，其特征在于，所述特征确定模块根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合，确定候选特征集合具体包括：

8.根据权利要求5所述的装置，其特征在于，所述特征遍历模块遍历所述候选特征集合，得到当前轮遍历结果具体包括：

9.一种电子设备，其特征在于，包括互相之间通信的处理器和存储器，所述处理器用于从所述存储器中调取计算机程序，并通过运行所述计算机程序实现权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序在运行时实现权利要求1-4任一项所述的方法。