CN113610629A

CN113610629A - 一种从大规模特征集中筛选客户数据特征的方法及装置

Info

Publication number: CN113610629A
Application number: CN202110872047.7A
Authority: CN
Inventors: 白鹤来; 韩士渊; 白婧怡; 刘佳乐
Original assignee: Bairong Yunchuang Technology Co ltd
Current assignee: Bairong Yunchuang Technology Co ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-11-05

Abstract

本发明公开了一种从大规模特征集中筛选客户数据特征的方法及装置，涉及客户数据特征筛选技术领域，能够更加准确地剔除掉大量的不完整或者不显著的特征，得到更加显著、完备、稳定的特征，同时也优化数据特征筛选环节的运行速度，本发明的主要技术方案为：提供对变量的基于信息值、缺失率、单一值率、特征间相关度、时序稳定性的筛选指标；在客户数据特征筛选过程中引入“预分箱”操作以提高筛选指标(信息值、时序稳定性)准确性、稳定性，通过预设循环模式降低特征相关性筛选操作算法复杂度，当客户数据特征集维度较多(如大于1000维)时，避免运算时长过长(如大于30分钟)，提高运行速度，得到对预测目标标签更有显著性的客户数据特征。

Description

一种从大规模特征集中筛选客户数据特征的方法及装置

技术领域

本发明涉及客户数据特征筛选技术领域，尤其涉及一种从大规模特征集中筛选客户数据特征的方法及装置。

背景技术

在信贷风控环节中，利用数据建模处理大量客群数据(如风控模型)是一种常规处理方法，由于这些大量客群数据来源可以为多家机构(如：银行、金融投资机构等等)，且客群数据涉及金融行为也是丰富的、多样的，比如涉及银行借贷、消费金融、网络小贷、汽车金融等等，使得搭建客群模型时，潜在待选的特征维度可以是达到数千维至数万维的。

例如，若一个客户涉及借贷行为，那么该客户涉及信息包括：本次申请提交信息、法院相关或公立机构失信信息、消费类数据信息、金融机构内历史借贷表现数据、汽车金融数据等等，不同信息都可以涉及进一步交叉衍生，直至达到较高层抽象的数据维度，最后得到的这些数据维度实际上都应作为潜在的待选客户数据特征参与后续的数据模型建立流程。以上，根据客户涉及实际具体金融业务行为的不同种类和数目，该客户对应的特征数量也会是巨大的。

基于模型性能和模型表现的考虑，在建模过程中，需要通过对目标客群数据特征集的预筛选，剔除掉大量的不完整或者不显著的特征，继而使得最终构建的模型能够更加高效地、准确地适用于信贷风控业务。

例如，在网络小额现金贷款场景下，应该使用跟实际业务相关的公立机构发布的失信信息和各金融机构的现金贷款历史申请信息的特征，这些客户数据特征是显著特征，而消费类数据特征，是不显著特征。再例如，在银行借贷场景下，若目标客群是新进入社会的群体，如大学毕业生等，即基本没有信贷场景的历史行为信息，那么其的信贷数据相对匮乏，很多数据特征都是基本空白的，然而这些数据特征在其步入社会后很快就会丰富起来，因此这些维度在当前的场景下是不完备的，从而也就应该剔除掉这些空白的客户数据特征，以避免之后一段时间内其数据特征快速变化后，对模型效果的干扰。

目前，在筛选待选的建模数据特征过程中，当前业内主要采用的执行筛选操作的工具：例如Python语言及R语言中的Scorecard包和toad包。其中，Scorecard包中提供了一个简单的变量筛选的函数“var_filter”，其提供对变量的基于信息值、缺失率和单一值率的筛选；Toad包中提供的变量筛选函数为“toad.Selection.select”，其支持的指标为信息值、缺失率、相关度。

但是，Scorecard包和toad包在算法设计与工程实现上的不足，导致以现有筛选指标仍然会得到大量不显著、不完备和不稳定的特征，不利于最终构建的模型的稳定性和效果，也存在运行效率较低的问题，尤其是在日常工作中，处理百万级数据条数、合并数千维特征的数据集，使用现有工具耗时过长，这是难以接受的。

发明内容

有鉴于此，本发明提供一种从大规模特征集中筛选客户数据特征的方法及装置，主要目的在于提供对变量的基于信息值、缺失率、单一值率、特征间相关度、时序稳定性的筛选指标，从而能够更加准确地剔除掉大量的不完整或者不显著的特征，得到更加显著、完备、稳定的特征，这有助于后续去构建用于得到更加准确风控评价结果的模型，同时也优化数据特征筛选环节的运行速度。

为了达到上述目的，本发明主要提供如下技术方案：

本申请第一方面提供了一种从大规模特征集中筛选客户数据特征的方法，该方法包括：

从多源渠道中获取客户数据特征，构成预设客户数据特征列表；

计算所述客户数据特征的缺失率和单一值率；

根据所述缺失率和单一值率，按照第一预设阈值对所述客户数据特征执行第一次筛选；

按照预设分箱数目和预设分箱逻辑，对连续型的所述客户数据特征进行预分箱操作，得到分箱结果；

根据所述分箱结果，对所述客户数据特征计算对应的信息值；

通过将所述信息值和第二预设阈值进行比较，对所述客户数据特征执行第二次筛选；

通过对数值型的所述客户数据特征计算皮尔森相关系数以及预设循环筛选模式，执行筛选满足预设条件的特征的第三次筛选操作并将所述满足预设条件的特征存储在预设客户保留特征列表中；

通过提供对变量的基于时序稳定性的筛选指标，对所述预设客户保留特征列表执行第四次筛选操作，得到目标客户数据特征。

在本申请第一方面的一些变更实施方式中，通过提供对变量的基于时序稳定性的筛选指标，对所述预设客户保留特征列表执行第四次筛选操作，包括：

从所述预设客户保留特征列表中获取具有时序关系的客户数据特征，组成第一特征集；

通过将时间跨度的二等分时间节点作为划分边界，将所述第一特征集划分为具有时序先后关系的两个样本集；

在所述两个样本集之间计算各特征基于时序的PSI稳定性；

删除PSI稳定性数值大于第四预设阈值的客户数据特征。

在本申请第一方面的一些变更实施方式中，所述通过对数值型的所述客户数据特征计算皮尔森相关系数以及预设循环筛选模式，执行筛选满足预设条件的特征的第三次筛选操作并存储在预设客户保留特征列表中，包括：

从客户数据特征中提取数值型特征，组成第二特征集；

从所述第二特征集中选择信息值最低的特征，作为基特征；

依次计算所述基特征与所述第二特征集中其他特征的皮尔森相关系数并构成系数集；

通过逐个将所述系数集中所述皮尔森相关系数与第三预设阈值进行比较，若所有所述系数集中所述皮尔森相关系数均不大于所述第三预设阈值，则将所述基特征作为保留特征并存储至预设客户保留特征列表中；

若存在所述系数集中所述皮尔森相关系数大于所述第三预设阈值，则将所述基特征从所述第二特征集中删除；

重复执行获取保留特征操作直至所述第二特征集中特征数目为1，将所述第二特征集中的剩余最后一个特征加入所述预设客户保留特征列表中。

在本申请第一方面的一些变更实施方式中，所述根据所述分箱结果，对所述客户数据特征计算对应的信息值，采用指标计算公式：

其中，y_i为第i箱响应样本的数量，y_s为所有响应样本的数量，n_i为第i箱样本的数量，n_s为所有样本的数量。

在本申请第一方面的一些变更实施方式中，所述计算所述基特征与所述第二特征集中其他特征的皮尔森相关系数，采用指标计算公式：

其中，X、Y为数据集中独立的两个变量，X_i、Y_j为每个数据维度中的各分箱的值；

在本申请第一方面的一些变更实施方式中，所述在所述样本集内计算所述客户数据特征各维基于时序的PSI稳定性，采用指标公式：

PSI＝∑_i(A_i-E_i)*ln(A_i/E_i)

其中，A_i为该维特征中第i个分箱内样本数量实际上占全部样本数量的比例，E_i为该维特征中第i个分箱内样本数量预期中占全部样本数量的比例。

本申请第二方面提供一种从大规模特征集中筛选客户数据特征的装置，该装置包括：

获取单元，用于从多源渠道中获取客户数据特征，构成预设客户数据特征列表；

第一计算单元，用于计算所述获取单元获取到的客户数据特征的缺失率和单一值率；

第一筛选单元，用于根据所述第一计算单元得到的缺失率和单一值率，按照第一预设阈值对所述客户数据特征执行第一次筛选；

分箱操作单元，用于按照预设分箱数目和预设分箱逻辑，对连续型的所述客户数据特征进行预分箱操作，得到分箱结果；

第二计算单元，用于根据所述分箱操作单元得到的分箱结果，对所述客户数据特征计算对应的信息值；

第二筛选单元，用于通过将所述第二计算单元计算得到的信息值和第二预设阈值进行比较，对所述客户数据特征执行第二次筛选；

第三筛选单元，用于通过对数值型的所述客户数据特征计算皮尔森相关系数以及预设循环筛选模式，执行筛选满足预设条件的特征的第三次筛选操作并将所述满足预设条件的特征存储在预设客户保留特征列表中；

第四筛选单元，用于通过提供对变量的基于时序稳定性的筛选指标，对所述预设客户保留特征列表执行第四次筛选操作，得到目标客户数据特征。

在本申请第二方面的一些变更实施方式中，所述第四筛选单元包括：

组成模块，用于从所述预设客户保留特征列表中获取具有时序关系的客户数据特征，组成第一特征集；

划分模块，用于通过将时间跨度的二等分时间节点作为划分边界，将所述组成模块得到的第一特征集划分为具有时序先后关系的两个样本集；

计算模块，用于在所述划分模块得到的两个样本集之间计算各特征基于时序的PSI稳定性；

删除模块，用于删除PSI稳定性数值大于第四预设阈值的客户数据特征。

在本申请第二方面的一些变更实施方式中，所述第三筛选单元包括：

提取模块，用于从客户数据特征中提取数值型特征，组成第二特征集；

选择模块，用于从所述提取模块提取得到的第二特征集中选择信息值最低的特征，作为基特征；

计算模块，用于依次计算所述选择模块选择的基特征与所述第二特征集中其他特征的皮尔森相关系数并构成系数集；

比较模块，用于通过逐个将所述系数集中所述皮尔森相关系数与第三预设阈值进行比较；

存储模块，用于若所有所述系数集中所述皮尔森相关系数均不大于所述第三预设阈值，则将所述基特征作为保留特征并存储至预设客户保留特征列表中；

删除模块，用于若存在所述系数集中所述皮尔森相关系数大于所述第三预设阈值，则将所述基特征从所述第二特征集中删除；

执行模块，用于重复执行获取保留特征操作直至所述第二特征集中特征数目为1；

所述存储模块，还用于将所述第二特征集中的剩余最后一个特征加入所述预设客户保留特征列表中。

在本申请第二方面的一些变更实施方式中，所述根据所述分箱结果，对所述客户数据特征计算对应的信息值，采用指标计算公式：

在本申请第二方面的一些变更实施方式中，所述计算所述基特征与所述第二特征集中其他特征的皮尔森相关系数，采用指标计算公式：

在本申请第二方面的一些变更实施方式中，所述在所述样本集内计算所述客户数据特征各维基于时序的PSI稳定性，采用指标公式：

PSI＝∑_i(A_i-E_i)*ln(A_i/E_i)

本申请第三方面提供一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如上述的从大规模特征集中筛选客户数据特征的方法。

本申请第四方面提供一种电子设备，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；

其中，所述处理器、所述存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行如上述的从大规模特征集中筛选客户数据特征的方法。

借由上述技术方案，本发明提供的技术方案至少具有下列优点：

本发明提供一种从大规模特征集中筛选客户数据特征的方法及装置，本发明是提供对变量的基于信息值、缺失率、单一值率、特征间相关度、时序稳定性的筛选指标，在客户数据特征筛选的过程中引入“预分箱”操作以提高筛选指标(信息值、时序稳定性)的准确性、稳定性，通过预设循环模式将特征相关性筛选操作算法复杂度降低，从而当客户数据特征集较多时，避免运算时长过长，提高运行速度。相较于现有技术，解决采用现有工具Scorecard包和toad包执行特征筛选操作不够准确、效率低的问题，本发明能够结合四个筛选指标执行筛选操作，从而能够更加准确地剔除掉大量的不完整或者不显著的特征，得到更加显著、完备、稳定的特征，这有助于后续去构建用于得到更加准确风控评价结果的模型，同时也优化数据特征筛选环节的运行速度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的一种从大规模特征集中筛选客户数据特征的方法流程图；

图2为本发明实施例提供的一种从大规模特征集中筛选客户数据特征的装置的组成框图；

图3为本发明实施例提供的另一种从大规模特征集中筛选客户数据特征的装置的组成框图；

图4为本发明实施例提供的从大规模特征集中筛选客户数据特征的电子设备。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种从大规模特征集中筛选客户数据特征的方法，如图1所示，该方法是提供对变量的基于信息值、缺失率、单一值率、特征间相关度、时序稳定性的筛选指标，并且在客户数据特征筛选过程中，还对高度线性相关的特征进行去重，以及降低流程算法复杂度，这都大大提升特征筛选的运行速度，对此本发明实施例提供以下具体步骤：

101、从多源渠道中获取客户数据特征，构成预设客户保留特征列表。

在本发明实施例中，每个客户数据特征对应一个数据维度，例如：若一个客户涉及借贷行为，那么该客户涉及信息包括：本次申请提交信息、法院相关或公立机构失信信息、消费类数据信息、金融机构内历史借贷表现数据、汽车金融数据等等，不同信息都可以涉及进一步交叉衍生，直至达到较高层抽象的数据维度，最后得到的这些数据维度实际上都应作为潜在的待选客户数据特征参与后续的数据模型建立流程。以上，根据客户涉及实际具体金融业务行为的不同种类和数目，该客户对应的特征数量也会是巨大的。

需要说明的是，对于本发明实施例，这些客户数据特征可以是从大量不同金融机构中收集到的，以便于利用汇总的大量客户数据特征，从中筛选一些完整的、显著的特征，去完成风控建模，继而利用该模型实现对客户风控评价。

102、计算客户数据特征的缺失率和单一值率。

在本发明实施例中，提供了对变量的基于缺失率、单一值率的筛选指标，其中，缺失率筛选指标是指：一个特征维度中缺失值(即因为数据收集方式的限制造成的数据缺失，通常可认为是空值)的数量与建模样本数量的比例；单一值率筛选指标是指：一个特征维度中单一的数值出现的次数与建模样本数量的比例的最大值；

103、根据缺失率和单一值率，按照第一预设阈值对客户数据特征执行第一次筛选。

在本发明实施例中，第一预设阈值是根据实际筛选需求而预先设定的，需要说明的是，本发明实施例中的词语“第一预设阈值”中的“第一”、“第二预设阈值”中的“第二”、“第三预设阈值”中的“第三”仅是用于区别指代不同筛选操作所需的不同预设阈值而已，作为标识应用而已，不存在排序等其他特殊含义。

对于本发明实施例，首先第一筛选操作为：根据缺失率、单一值率与预设阈值比较而执行的筛选操作，也就是，基于缺失率、单一值率这两个筛选指标去执行的筛选操作，它的作用是：较高的缺失率会导致特征中有效数据较少，从而使得数据收集过程中的噪音和数据建模过程中的随机性对数据显著性的影响过大，并干扰最终模型的稳定性；而单一值率高通常意味着建模样本在该特征维度中没有区分度，即特征不显著。而缺失率和单一值率的计算简单快速，因此通过缺失率和单一值率对特征进行筛选是效率高且期望效果良好的。

104、按照预设分箱数目和预设分箱逻辑，对连续型的客户数据特征进行预分箱操作，得到分箱结果。

其中，预设分箱数目为根据实际分箱需求而预先设定的，预分箱操作依据的预设分箱逻辑为等频分箱。

需要说明的是，通常在计算一个客户数据特征的信息值(即提供的变量基于信息值的筛选指标)时，连续型变量需要先进行分箱操作(按数值划分至多个连续的区间)，再进行计算。但是在现有技术采用Scorecard包或toad包进行筛选客户数据特征过程中当计算信息值时，未进行“预分箱”，导致对于连续型变量的计算结果偏大，甚至出现无穷大的情况，数值不合理，参考性差，本发明实施例引用“预分箱”操作，以避免上述不良情况出现。

105、根据分箱结果，对客户数据特征计算对应的信息值。

在本发明实施例中，提供对变量的基于信息值的筛选指标，采用指标计算公式，如下公式(1)：

106、通过将信息值和第二预设阈值进行比较，对客户数据特征执行第二次筛选。

其中，第二预设阈值是为辅助基于信息值的筛选指标对应的第二次筛选操作而预先设定的，词语“第二”仅是作为标识以区分其他筛选操作的预设阈值。

在本发明实施例中，本次筛选操作的作用是：信息值是反应特征显著性的重要指标，高信息值代表特征具有高显著性，本次筛选中剔除具有较低信息值的特征，可以筛选掉大量不显著的特征。

107、通过对数值型的客户数据特征计算皮尔森相关系数以及预设循环筛选模式，执行筛选满足预设条件的特征的第三次筛选操作并存储在预设客户保留特征列表中。

其中，预设循环筛选模式可以为根据贪心逻辑降低算法复杂度的筛选模式。

在本发明实施例中，在筛选客户数据特征的过程中，需要对高度线性相关的特征进行合并去重，具体的，通过对数值型的客户数据特征计算皮尔森相关系数以及利用该相关系数之间比较去完成的，以及还进一步的，依据贪心逻辑将特征相关性筛选操作的算法复杂度降低至O(n²)，对此本步骤细化陈述为如下：

首先，从客户数据特征中提取数值型特征，组成一个特征集，标识为第二特征集，从该特征集中选择信息值最低的特征，作为基特征，依次计算这个基特征与第二特征集中其他特征的皮尔森相关系数并构成系数集，具体采用指标计算公式，如下公式(2)：

其中，X、Y为数据集中独立的两个变量，X_i、Y_j为每个数据维度中的各分箱的值。

其次，通过逐个将该系数集中多个皮尔森相关系数与第三预设阈值进行比较，若这些个皮尔森相关系数均不大于第三预设阈值，则将基特征作为保留特征从第二特征集中删除，并存储至预设客户保留特征列表中。

需要说明的是，该第三预设阈值是根据实际去比较皮尔森相关系数的需求而预先设定的，词语“第三”仅是作为标识，去指代该预设阈值是区别于上文“第一预设阈值”和“第二预设阈值”的。

但是，若上述多个皮尔森相关系数中存在大于第三预设阈值的值，则将基特征从第二特征集中删除，而不是保留在预设客户保留特征列表中。重复执行以上获取保留特征操作，具体包括：在特征集内重新选择基特征，利用该基特征去计算与其他特征的皮尔森相关系数，利用预设阈值去逐个比较每个皮尔森相关系数，并判断是否保留基特征作为保留特征。

循环重复上述获取保留特征操作，直至第二特征集中特征数目为1。将第二特征集中的剩余最后一个特征加入预设客户保留特征列表中。上述所得预设客户保留特征列表即为本次筛选操作所得到的目标保留特征列表。

示例性的，本发明实施例给出基于贪心逻辑的皮尔森相关系数筛选特征的伪代码(即：Greedy_Pearson_Filtter)如下：其中，对于该筛选器，特征集feature_set,特征集IV字典iv_dict,相关系数阈值threshold。

结合以上伪代码分析，本发明实施例根据贪心逻辑降低算法复杂度，具体为：第一点，选取一个基特征，依次计算该基特征与其他特征的皮尔森相关系数，即应用一轮1对多的计算操作，而不是需要多轮的任两个特征或多个特征之间计算；第二点，对于得到的多个皮尔森相关系数组成的系数集，利用这些多个系数与一个阈值比较，若这些系数均不大于该阈值，则得到经筛选的特征，而不是多系数之间比较或者再借助一个阈值去辅助比较。据此，以上两点，降低整个算法复杂度。

另外，本发明实施例还给出了基于贪心逻辑的皮尔森相关系数筛选算法的时间复杂度证明，具体陈述如下：

1、设n特征集中特征的数量，基于信息值对特征进行排序，时间复杂度为O(n logn)；

2、对于每个基特征F_i，需要计算(n-i)次皮尔森相关系数，因此总共需要计算

次皮尔森相关系数，时间复杂度为O(n²)。

因此，总的时间复杂度为O(n log n)+O(n²)＝O(n²)。

108、通过提供对变量的基于时序稳定性的筛选指标，对预设客户保留特征列表执行第四次筛选操作，得到目标客户数据特征。

需要说明的是，在现有技术采用Scorecard包或toad包进行筛选客户数据特征过程中，缺少对变量的时序稳定性的验证。一些特征即便具有较高的特征显著性，但其随时间变化波动很大，一旦将这类时序稳定性极差的特征纳入最终模型，将极大的影响最终模型的稳定性，并导致模型随时间衰退更加严重。

在本发明实施例中，本步骤可以细化陈述如下：

首先，从预设客户保留特征列表中获取具有时序关系的客户数据特征，组成特征集，标识为第一特征集；其次，通过将时间跨度的二等分时间节点作为划分边界，将第一特征集划分为具有时序先后关系的两个样本集；再者，在两个样本集之间计算特征基于时序的PSI稳定性，其中PSI稳定性为群体稳定性指数(PopulationStability Index，PSI)，采用指标公式，如下公式(3)；最后，删除PSI稳定性数值大于第三预设阈值的客户数据特征。

PSI＝∑_i(A_i-E_i)*ln(A_i/E_i)

需要说明的是，本发明实施例执行“预分箱”操作以提高信息值的合理性、稳定性之外，以及还应用去提高时序PSI的合理性与稳定性，具体解释说明如下：

如见公式(1)和公式(3)，信息值和PSI的计算过程中，涉及到分箱操作。在现有的两个工具(Scorecard包或toad包)中，没有进行分箱操作，因此，对于连续型变量和类别较多的类别型变量，存在很多分母为0的情况，进而导致算出来的数值为无穷大。因此，在计算这两个指标之前，进行分箱操作是必要的。

示例1，结合以上步骤101-108，本发明实施例例举了评分卡建模流程，具体陈述如下：

在评分卡建模流程中，对于全量数据集，样例数据集包含30万条样本和4800维特征。导入数据集后，使用本函数包所提供的变量筛选函数(variable_filter)进行变量粗筛工作，筛选后保留约1000维特征。具体操作如下：

(1)导入函数包from selector import variable_filter；

(2)读取建模数据的特征和对应的y标签；

(3)调用函数包中的变量筛选函数，并指定每个指标的通过阈值

variable_filter(data,iv_threshold＝0.05,

missing_threshold＝0.9,

identical_threshold＝0.9,

if_pre_binning＝True,timing_sequence_psi_threshold＝0.1)；

(4)函数返回经过筛选的特征集；

(5)继续建模的后续步骤。

示例2，本发明实施例可以预先利用程序编辑一个“特征粗筛函数包”的处理工具，执行如上步骤101-108的从大规模特征集中筛选客户数据特征的具体实施方法，特征预筛选环节的运行速度大幅提升，其提升效率经过对照实验可知，相较于scorecard包提升12.27倍，相较于toad包提升3.02倍。实验在二个工具上的变量粗筛测试使用相同的数据集，重复执行五次以计算单次运行的平均时间，具体实验参数为如表1(与Scorecard包运行效率实验参数设置)和表2(与Toad包运行效率实验参数设置)所示。

表一：与Scorecard包运行效率实验参数设置

表二：与Toad包运行效率实验参数设置

经分析表1和表2，通过对变量进行预分箱，提高计算出的筛选指标的合理性与稳定性，并显著提升运行速度。通过对同一数据集计算其每个特征的IV值和Pearson相关系数并据此筛选，重复执行五次以计算单次运行的平均时间，可以得到10.7倍的提升。

在根据变量间相关系数筛选时，相同参数下(相关系数阈值0.7)，本方法通过贪心策略筛选出的变量，与toad包中原算法筛选出的变量重合率在93％以上，运行时长相对原来的算法降低1,273倍(300,000条样本1,458维特征)。

综上所述，本发明实施例提供一种从大规模特征集中筛选客户数据特征的方法，本发明实施例是提供对变量的基于信息值、缺失率、单一值率、特征间相关度、时序稳定性的筛选指标，在客户数据特征筛选的过程中引入“预分箱”操作以提高筛选指标(信息值、时序稳定性)的准确性、稳定性，通过预设循环模式将特征相关性筛选操作算法复杂度降低，从而当客户数据特征集较多时，避免运算时长过长，提高运行速度。相较于现有技术，解决采用现有工具Scorecard包和toad包执行特征筛选操作不够准确、效率低的问题，本发明实施例能够结合四个筛选指标执行筛选操作，从而能够更加准确地剔除掉大量的不完整或者不显著的特征，得到更加显著、完备、稳定的特征，这有助于后续去构建用于得到更加准确风控评价结果的模型，同时也优化数据特征筛选环节的运行速度。

进一步的，作为对上述图1所示方法的实现，本发明实施例提供了一种从大规模特征集中筛选客户数据特征的装置。该装置实施例与前述方法实施例对应，为便于阅读，本系统实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的系统能够对应实现前述方法实施例中的全部内容。该装置应用于完成对客户数据特征的筛选，具体如图2所示，该装置包括：

获取单元21，用于从多源渠道中获取客户数据特征，构成预设客户数据特征列表；

第一计算单元22，用于计算所述获取单元21获取到的客户数据特征的缺失率和单一值率；

第一筛选单元23，用于根据所述第一计算单元22得到的缺失率和单一值率，按照第一预设阈值对所述客户数据特征执行第一次筛选；

分箱操作单元24，用于按照预设分箱数目和预设分箱逻辑，对连续型的所述客户数据特征进行预分箱操作，得到分箱结果；

第二计算单元25，用于根据所述分箱操作单元24得到的分箱结果，对所述客户数据特征计算对应的信息值；

第二筛选单元26，用于通过将所述第二计算单元25计算得到的信息值和第二预设阈值进行比较，对所述客户数据特征执行第二次筛选；

第三筛选单元27，用于通过对数值型的所述客户数据特征计算皮尔森相关系数以及预设循环筛选模式，执行筛选满足预设条件的特征的第三次筛选操作并将所述满足预设条件的特征存储在预设客户保留特征列表中；

第四筛选单元28，用于通过提供对变量的基于时序稳定性的筛选指标，对所述预设客户保留特征列表执行第四次筛选操作，得到目标客户数据特征。

进一步的，如图2所示，所述第四筛选单元28包括：

组成模块281，用于从所述预设客户保留特征列表中获取具有时序关系的客户数据特征，组成第一特征集；

划分模块282，用于通过将时间跨度的二等分时间节点作为划分边界，将所述组成模块281得到的第一特征集划分为具有时序先后关系的两个样本集；

计算模块283，用于在所述划分模块282得到的两个样本集之间计算各特征基于时序的PSI稳定性；

删除模块284，用于删除PSI稳定性数值大于第四预设阈值的客户数据特征。

进一步的，如图2所示，所述第三筛选单元27包括：

提取模块271，用于从客户数据特征中提取数值型特征，组成第二特征集；

选择模块272，用于从所述提取模块271得到的第二特征集中选择信息值最低的特征，作为基特征；

计算模块273，用于依次计算所述选择模块272选择的基特征与所述第二特征集中其他特征的皮尔森相关系数并构成系数集；

比较模块274，用于通过逐个将所述系数集中所述皮尔森相关系数与第三预设阈值进行比较；

存储模块275，用于若所有所述系数集中所述皮尔森相关系数均不大于所述第三预设阈值，则将所述基特征作为保留特征并存储至预设客户保留特征列表中；

删除模块276，用于若存在所述系数集中所述皮尔森相关系数大于所述第三预设阈值，则将所述基特征从所述第二特征集中删除；

执行模块277，用于重复执行获取保留特征操作直至所述第二特征集中特征数目为1；

所述存储模块275，还用于将所述第二特征集中的剩余最后一个特征加入所述预设客户保留特征列表中。

综上所述，本发明实施例提供一种从大规模特征集中筛选客户数据特征的方法及装置，本发明实施例是提供对变量的基于信息值、缺失率、单一值率、特征间相关度、时序稳定性的筛选指标，在客户数据特征筛选的过程中引入“预分箱”操作以提高筛选指标(信息值、时序稳定性)的准确性、稳定性，通过预设循环模式将特征相关性筛选操作算法复杂度降低，从而当客户数据特征集较多时，避免运算时长过长，提高运行速度。相较于现有技术，解决采用现有工具Scorecard包和toad包执行特征筛选操作不够准确、效率低的问题，本发明实施例能够结合四个筛选指标执行筛选操作，从而能够更加准确地剔除掉大量的不完整或者不显著的特征，得到更加显著、完备、稳定的特征，这有助于后续去构建用于得到更加准确风控评价结果的模型，同时也优化数据特征筛选环节的运行速度。

所述从大规模特征集中筛选客户数据特征的装置包括处理器和存储器，上述获取单元、第一计算单元、第一筛选单元、分箱操作单元、第二计算单元、第二筛选单元、第三筛选单元和第四筛选单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提供对变量的基于信息值、缺失率、单一值率、特征间相关度、时序稳定性的筛选指标，从而能够更加准确地剔除掉大量的不完整或者不显著的特征，得到更加显著、完备、稳定的特征，这有助于后续去构建用于得到更加准确风控评价结果的模型，同时也优化数据特征筛选环节的运行速度。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述从大规模特征集中筛选客户数据特征的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述从大规模特征集中筛选客户数据特征的方法。

本发明实施例提供了一种电子设备40，如图4所示，设备包括至少一个处理器401、以及与处理器401连接的至少一个存储器402、总线403；其中，处理器401、存储器402通过总线403完成相互间的通信；处理器401用于调用存储器402中的程序指令，以执行上述的从大规模特征集中筛选客户数据特征的方法。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种从大规模特征集中筛选客户数据特征的方法，其特征在于，所述方法包括：

计算所述客户数据特征的缺失率和单一值率；

2.根据权利要求1所述的方法，其特征在于，通过提供对变量的基于时序稳定性的筛选指标，对所述预设客户保留特征列表执行第四次筛选操作，包括：

在所述两个样本集之间计算各特征基于时序的PSI稳定性；

删除PSI稳定性数值大于第四预设阈值的客户数据特征。

3.根据权利要求1所述的方法，其特征在于，所述通过对数值型的所述客户数据特征计算皮尔森相关系数以及预设循环筛选模式，执行筛选满足预设条件的特征的第三次筛选操作并存储在预设客户保留特征列表中，包括：

从客户数据特征中提取数值型特征，组成第二特征集；

从所述第二特征集中选择信息值最低的特征，作为基特征；

4.根据权利要求1所述的方法，其特征在于，所述根据所述分箱结果，对所述客户数据特征计算对应的信息值，采用指标计算公式：

5.根据权利要求3所述的方法，其特征在于，所述计算所述基特征与所述第二特征集中其他特征的皮尔森相关系数，采用指标计算公式：

6.根据权利要求2所述的方法，其特征在于，所述在所述样本集内计算所述客户数据特征各维基于时序的PSI稳定性，采用指标公式：

PSI＝∑_i(A_i-E_i)*ln(A_i/E_i)

7.一种从大规模特征集中筛选客户数据特征的装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述第四筛选单元包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-6中任一项所述的从大规模特征集中筛选客户数据特征的方法。

10.一种电子设备，其特征在于，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；

所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1-6中任一项所述的从大规模特征集中筛选客户数据特征的方法。