CN111815209A

CN111815209A - 应用于风控模型的数据降维方法及装置

Info

Publication number: CN111815209A
Application number: CN202010945721.5A
Authority: CN
Inventors: 顾凌云; 谢旻旗; 段湾; 周轩; 李醒民; 钟宜伟
Original assignee: Shanghai IceKredit Inc
Current assignee: Shanghai IceKredit Inc
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2020-10-23

Abstract

本发明实施例所提供的应用于风控模型的数据降维方法及装置，首先将样本数据划分为训练样本和测试样本，其次确定第一特征变量集，然后基于训练样本和第一特征变量集筛选得到第二特征变量集，进而将第二特征变量集划分为多个特征变量子集并基于多个特征变量子集对基础模型进行训练得到多个子模型，根据每个子模型的第二AUC和第二特征维度数量确定第三特征变量集，基于特征相关系数从第三特征变量集中确定出第四特征变量集，最后基于训练样本和第四特征变量集构造树模型得到目标模型，采用测试样本对目标模型进行测试获得的测试结果满足预设条件时，确定第四特征变量集为样本数据的目标特征变量。如此，能够确保特征维度和模型表现之间的平衡。

Description

应用于风控模型的数据降维方法及装置

技术领域

本发明涉及风控数据处理技术领域，具体而言，涉及一种应用于风控模型的数据降维方法及装置。

背景技术

当前，数字经济的发展越来越成熟，融合机器学习的业务数据分析和风控运营已成为主流。金融机构正广泛采用机器学习方法构建风控模型。在金融风控领域，为了有效区分“好坏”客户，金融机构主要采用机器学习中的决策树或基于决策树的集成算法进行建模。相较于传统的逻辑回归模型，此类模型能利用大量弱特征变量的信息，提升模型性能，增强对客户群体的识别能力，帮助金融机构有效区分“好坏”客户。

随着数据经济中的业务数据的特征维度的逐渐增加，在特征维度较高的情况下，金融机构往往采用按照特征变量重要性排序结合专家经验的方法，对风控模型进行简单降维，以求在特征维度和模型表现两个方面取得平衡，但是这样难以确保特征维度和模型表现的平衡。

发明内容

为了改善上述问题，本发明提供了一种应用于风控模型的数据降维方法及装置。

基于本发明实施例的第一方面，提供一种应用于风控模型的数据降维方法，应用于计算机设备，所述方法包括：

获取样本数据，并将所述样本数据划分为训练样本和测试样本；

确定所述训练样本的原始特征变量，根据所述原始特征变量的特征变量重要性生成第一排序序列，根据所述第一排序序列确定第一特征变量集；

基于所述训练样本和所述第一特征变量集构造树模型，得到基础模型以及所述基础模型对应的第一AUC、第一特征维度数量以及特征变量重要性的第二排序序列；根据所述第二排序序列对所述第一特征变量集进行筛选，得到第二特征变量集；

将所述第二特征变量集划分为多个特征变量子集，基于所述多个特征变量子集对所述基础模型进行训练得到多个子模型，计算每个子模型的第二AUC和第二特征维度数量；

根据每个子模型的第二AUC和第二特征维度数量计算每个子模型的综合指标值，将最大综合指标值对应的目标子模型的特征变量确定为第三特征变量集；

确定所述第三特征变量集对应的特征相关系数并基于所述特征相关系数从所述第三特征变量集中确定出第四特征变量集；

基于所述训练样本和所述第四特征变量集构造树模型，得到目标模型，采用所述测试样本对所述目标模型进行测试获得测试结果，在所述测试结果满足预设条件时，确定所述第四特征变量集为所述样本数据的目标特征变量。

可选地，所述测试结果是否满足所述预设条件，通过以下方式判定：

获取所述测试结果中包括的所述目标模型对所述测试样本的测试准确率、所述目标模型对应的特征存储空间的占用量以及所述目标模型对应的特征运算量；

在所述测试准确率达到设定准确率、所述占用量不超过设定占用量且所述特征运算量不超过设定运算量时，判定所述测试结果满足所述预设条件。

可选地，确定所述训练样本的原始特征变量，根据所述原始特征变量的特征变量重要性生成第一排序序列，根据所述第一排序序列确定第一特征变量集，包括：

采用随机森林算法对所述训练样本进行建模，得到所述训练样本的原始特征变量以及所述原始特征变量的特征变量重要性；

根据所述特征变量重要性的由大到小的顺序对所述原始特征变量进行排序，将排序靠前的设定数量个原始特征变量确定为所述第一特征变量集。

可选地，根据所述第二排序序列对所述第一特征变量集进行筛选，得到第二特征变量集，包括：

将所述第二排序序列中特征变量重要性为零的特征变量删除，得到所述第二特征变量集。

可选地，每个子模型的综合指标值具体通过以下公式进行计算：C=a*AUC-b*D；

其中，C为所述综合指标值，a和b为预设值，a的取值范围为1~2，b的取值范围为0~1，D为第二特征维度数量。

可选地，确定所述第三特征变量集对应的特征相关系数并基于所述特征相关系数从所述第三特征变量集中确定出第四特征变量集，包括：

将所述第三特征变量集划分为子集M和子集N；其中，所述子集M的初始特征变量为所述第三特征变量集中的第一个特征变量，所述子集N的初始特征变量为所述第三特征变量集中除所述子集M中的特征变量之外的其他特征变量；

按照所述子集N的顺序将所述子集N中的每个待处理特征变量移动到所述子集M中，并在所述训练样本的基础上对所述子集M进行相关性检验，得到所述待处理特征变量与所述子集M中的初始特征变量质检的当前特征相关系数；

在当前特征相关系数小于设定值时，将当前特征相关系数对应的待处理特征变量保留在所述子集M中；在当前特征相关系数大于等于所述设定值时，将当前特征相关系数对应的待处理特征变量从所述子集M中删除，直至所述子集N为空集；将最后得到的子集M确定为所述第四特征变量集。

基于本发明实施例的第二方面，提供一种应用于风控模型的数据降维装置，应用于计算机设备，所述装置包括：

数据划分模块，用于获取样本数据，并将所述样本数据划分为训练样本和测试样本；

第一降维模块，用于确定所述训练样本的原始特征变量，根据所述原始特征变量的特征变量重要性生成第一排序序列，根据所述第一排序序列确定第一特征变量集；

第二降维模块，用于基于所述训练样本和所述第一特征变量集构造树模型，得到基础模型以及所述基础模型对应的第一AUC、第一特征维度数量以及特征变量重要性的第二排序序列；根据所述第二排序序列对所述第一特征变量集进行筛选，得到第二特征变量集；

模型训练模块，用于将所述第二特征变量集划分为多个特征变量子集，基于所述多个特征变量子集对所述基础模型进行训练得到多个子模型，计算每个子模型的第二AUC和第二特征维度数量；

第三降维模块，用于根据每个子模型的第二AUC和第二特征维度数量计算每个子模型的综合指标值，将最大综合指标值对应的目标子模型的特征变量确定为第三特征变量集；

第四降维模块，用于确定所述第三特征变量集对应的特征相关系数并基于所述特征相关系数从所述第三特征变量集中确定出第四特征变量集；

特征确定模块，用于基于所述训练样本和所述第四特征变量集构造树模型，得到目标模型，采用所述测试样本对所述目标模型进行测试获得测试结果，在所述测试结果满足预设条件时，确定所述第四特征变量集为所述样本数据的目标特征变量。

可选地，所述特征确定模块，具体用于：

可选地，所述第一降维模块，用于：

可选地，所述第四降维模块，用于：

本发明实施例所提供的应用于风控模型的数据降维方法及装置，首先将获取到的样本数据划分为训练样本和测试样本，其次确定训练样本的原始特征变量并根据原始特征变量的特征变量重要性确定第一特征变量集，然后基于训练样本和第一特征变量集构造树模型并对第一特征变量集进行筛选得到第二特征变量集，进而将第二特征变量集划分为多个特征变量子集并基于多个特征变量子集对基础模型进行训练得到多个子模型，计算每个子模型的第二AUC和第二特征维度数量，根据每个子模型的第二AUC和第二特征维度数量计算每个子模型的综合指标值，将最大综合指标值对应的目标子模型的特征变量确定为第三特征变量集，进一步地确定第三特征变量集对应的特征相关系数并基于特征相关系数从第三特征变量集中确定出第四特征变量集，最后基于训练样本和第四特征变量集构造树模型得到目标模型，采用测试样本对目标模型进行测试获得测试结果，在测试结果满足预设条件时，确定第四特征变量集为所述样本数据的目标特征变量。

如此，通过上述技术对业务数据进行特征降维时，能够确保特征维度和模型表现之间的平衡。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种应用于风控模型的数据降维方法的流程图。

图2为本发明实施例所提供的一种应用于风控模型的数据降维装置的功能模块框图。

图3为本发明实施例所提供的一种计算机设备的硬件结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

为便于对后续内容进行说明，首先进行如下名词解释。

（1）客户标签：客户标签的取值一般为0与1，0代表“好”客户，即在一定时期内没有发生超过既定时间的逾期，具体由金融机构自行定义；反之则是“坏”客户，用1代表。

（2）决策树相关算法：指决策树或者基于决策树的集成算法，包括决策树、随机森林、GDBT（梯度提升迭代决策树）、XGBOOST（极端梯度提升决策树）、LightGBM（微软提供的GDBT改进算法）等树模型算法。

（3）树模型：采用决策树相关算法构建的机器学习模型。

（4）特征变量重要性：在使用决策树相关算法构建的树模型中，算法使用变量次数总计Z次，模型中的某个特征变量的重要性等于模型算法使用该特征变量的次数除以Z。以此类推，得出模型中所有特征变量的重要性。

（5）特征维度数量：模型中特征变量的数量。

（6）AUC（Area Under Curve，曲线下的面积）：此处AUC为ROC（Receiver OperatingCharacteristics，接受者操作曲线）曲线下的面积。AUC是一种二分类模型性能优劣的评估指标，用于表示模型对好坏客户的排序能力，其值越大，模型性能越好，值越小，模型性能越差，其计算逻辑为：定义TPR（True Positive Rate，真阳性率）为所有真实客户标签为1的样本中，预测客户标签为1的比例；定义FPR（False Positive Rate，假阳性率）为所有真实客户标签为0的样本中，预测客户标签为1的比例。树模型对每一个样本都有取值在0与1之间的预测值，在0、1间取不同数值作为阈值，定义预测值大于该阈值的样本的预测客户标签为1，小于等于阈值的样本的预测客户标签为0，计算此时的TPR与FPR。如此每个阈值都对应一组TPR、FPR，分别以FPR、TPR分别为x、y轴，将所有阈值点对应的TPR、FPR坐标及(0,0)与(1,1)连接起来，即可得到ROC曲线。

（7）交叉验证：交叉验证的基本思想是将样本数据进行分组，一部分作为训练集，另一部分作为验证集，首先用训练集对模型进行训练，再利用验证集来测试训练得到的模型，以此作为评价模型的性能指标。

（8）网格搜索方法：训练模型时的一种参数调优方法，是对指定参数值的一种穷举搜索方法，通过交叉验证的方法验证每种参数值组合下的模型表现，选取表现最好的一组参数值。

（9）相关性，相关系数：相关性指两个特征变量之间的关联程度，相关系数用于衡量相关性。本发明中，相关系数指的是皮尔逊相关系数（Pearson correlationcoefficient），取值在-1到1之间，其绝对值越大，特征变量之间的相关性越强。

发明人经调查和研究发现，由于特征维度往往较大，简单地按照特征变量重要性结合专家经验对模型进行降维的方法难以确定特征维度与模型表现的真正平衡点。此外，这种降维方法没考虑到特征变量之间的相关性影响，导致最终入模的特征变量往往包含大量冗余信息，其特征维度相对传统的逻辑回归模型也大得多。这样一来，模型部署所需要的特征存储空间和特征运算量就比较大，使得模型部署的难度增大，增加存储与运算成本。

为改善上述问题，本发明实施例提供了一种应用于风控模型的数据降维方法及装置。首先请参阅图1，为本发明实施例提供的一种应用于风控模型的数据降维方法的流程示意图，所述方法可以应用于计算机设备，具体可以包括以下步骤S110-步骤S170所描述的内容。

步骤S110，获取样本数据，并将所述样本数据划分为训练样本和测试样本。

计算机设备获取带标签的建模样本，建模样本通常为金融机构的自有业务数据。将建模样本随机划分为训练样本和测试样本，测试样本占20%-30%，训练样本占70%-80%。

步骤S120，确定所述训练样本的原始特征变量，根据所述原始特征变量的特征变量重要性生成第一排序序列，根据所述第一排序序列确定第一特征变量集。

步骤S130，基于所述训练样本和所述第一特征变量集构造树模型，得到基础模型以及所述基础模型对应的第一AUC、第一特征维度数量以及特征变量重要性的第二排序序列；根据所述第二排序序列对所述第一特征变量集进行筛选，得到第二特征变量集。

步骤S140，将所述第二特征变量集划分为多个特征变量子集，基于所述多个特征变量子集对所述基础模型进行训练得到多个子模型，计算每个子模型的第二AUC和第二特征维度数量。

计算机设备将所述第二特征变量集划分成T个特征变量子集（T的取值范围一般为5-100，预设值为20）。第1、2、…、T个特征变量子集分别为第二特征变量集的前1/T、2/T、…、T/T的变量。基于T个特征变量子集，计算机设备利用决策树相关算法并结合网格搜索方法，分别对所述训练样本进行模型训练，建立T个子模型并计算对应的AUC，特征维度数D。

步骤S150，根据每个子模型的第二AUC和第二特征维度数量计算每个子模型的综合指标值，将最大综合指标值对应的目标子模型的特征变量确定为第三特征变量集。

步骤S160，确定所述第三特征变量集对应的特征相关系数并基于所述特征相关系数从所述第三特征变量集中确定出第四特征变量集。

步骤S170，基于所述训练样本和所述第四特征变量集构造树模型，得到目标模型，采用所述测试样本对所述目标模型进行测试获得测试结果，在所述测试结果满足预设条件时，确定所述第四特征变量集为所述样本数据的目标特征变量。

可以理解，基于上述步骤S110-步骤S170，首先将获取到的样本数据划分为训练样本和测试样本，其次确定训练样本的原始特征变量并根据原始特征变量的特征变量重要性确定第一特征变量集，然后基于训练样本和第一特征变量集构造树模型并对第一特征变量集进行筛选得到第二特征变量集，进而将第二特征变量集划分为多个特征变量子集并基于多个特征变量子集对基础模型进行训练得到多个子模型，计算每个子模型的第二AUC和第二特征维度数量，根据每个子模型的第二AUC和第二特征维度数量计算每个子模型的综合指标值，将最大综合指标值对应的目标子模型的特征变量确定为第三特征变量集，进一步地确定第三特征变量集对应的特征相关系数并基于特征相关系数从第三特征变量集中确定出第四特征变量集，最后基于训练样本和第四特征变量集构造树模型得到目标模型，采用测试样本对目标模型进行测试获得测试结果，在测试结果满足预设条件时，确定第四特征变量集为所述样本数据的目标特征变量。如此，通过上述技术对业务数据进行特征降维时，能够确保特征维度和模型表现之间的平衡。

在一种可替换的实施方式中，在步骤S170中，所述测试结果是否满足所述预设条件，通过以下方式判定：获取所述测试结果中包括的所述目标模型对所述测试样本的测试准确率、所述目标模型对应的特征存储空间的占用量以及所述目标模型对应的特征运算量；在所述测试准确率达到设定准确率、所述占用量不超过设定占用量且所述特征运算量不超过设定运算量时，判定所述测试结果满足所述预设条件。

在一个可能的实施方式中，步骤S120所描述的确定所述训练样本的原始特征变量，根据所述原始特征变量的特征变量重要性生成第一排序序列，根据所述第一排序序列确定第一特征变量集，包括以下步骤S121和步骤S122所描述的内容。

步骤S121，采用随机森林算法对所述训练样本进行建模，得到所述训练样本的原始特征变量以及所述原始特征变量的特征变量重要性。

步骤S122，根据所述特征变量重要性的由大到小的顺序对所述原始特征变量进行排序，将排序靠前的设定数量个原始特征变量确定为所述第一特征变量集。

其中，设定数量可以以阈值百分比来确定。详细地，计算机设备使用随机森林算法对所述训练样本的所有特征变量进行模型训练，得到随机森林模型的特征变量重要性并按降序排序，给定阈值s，s的取值在70%到100%之间，默认为95%,保留该特征变量重要性前s的特征变量作为第一特征变量集。选择随机森林算法主要是因为随机森林算法在模型训练环节对特征变量的选择具有随机性，能最大限度考虑所有特征变量的信息。

在一个具体的实施例中，步骤S130所描述的根据所述第二排序序列对所述第一特征变量集进行筛选，得到第二特征变量集，包括：将所述第二排序序列中特征变量重要性为零的特征变量删除，得到所述第二特征变量集。

详细地，在步骤S130中，计算机设备利用决策树相关算法，结合网格搜索方法对模型参数进行遍历调优，基于所述第一特征变量集对所述训练样本进行模型训练，得到一个树模型，称为基础模型B，计算出基础模型B的AUC、特征维度数D和特征变量重要性，特征变量按照特征变量重要性降序排序。保留基础模型B的特征重要性大于0的特征变量作为第二特征变量集。

在步骤S150中，每个子模型的综合指标值具体通过以下公式进行计算：C=a*AUC-b*D；其中，C为所述综合指标值，a和b为预设值，a的取值范围为1~2，b的取值范围为0~1，D为第二特征维度数量。

在上述基础上，步骤S160所描述的确定所述第三特征变量集对应的特征相关系数并基于所述特征相关系数从所述第三特征变量集中确定出第四特征变量集，具体包括以下步骤S161-步骤S163所描述的内容。

步骤S161，将所述第三特征变量集划分为子集M和子集N。

其中，所述子集M的初始特征变量为所述第三特征变量集中的第一个特征变量，所述子集N的初始特征变量为所述第三特征变量集中除所述子集M中的特征变量之外的其他特征变量。

步骤S162，按照所述子集N的顺序将所述子集N中的每个待处理特征变量移动到所述子集M中，并在所述训练样本的基础上对所述子集M进行相关性检验，得到所述待处理特征变量与所述子集M中的初始特征变量质检的当前特征相关系数。

步骤S163，在当前特征相关系数小于设定值时，将当前特征相关系数对应的待处理特征变量保留在所述子集M中；在当前特征相关系数大于等于所述设定值时，将当前特征相关系数对应的待处理特征变量从所述子集M中删除，直至所述子集N为空集；将最后得到的子集M确定为所述第四特征变量集。

其中，设定值的取值范围可以为0.7~1。

基于上述步骤S140-步骤S150，得到的前T-1个子模型中均包含了特征变量重要性最高的一部分特征变量，其AUC与第T个子模型的AUC相差不大，而特征维度数D却有明显下降。在通过综合指标(a*AUC-b*D)的比较之后，能较好地降低特征维度数，并有效地在特征维度与模型表现之间取得平衡。

基于上述步骤S160，删除相关性较高且特征变量重要性较低的一些特征，能够进一步降低模型的特征维度，最大限度保留对构建模型有用的特征变量信息，也实现了特征维度与模型表现的平衡。

基于上述步骤是140-步骤S170，选出的特征变量数量相对原始的特征变量数会有明显下降，一般降幅在50%-90%，而使用选出的特征变量训练出来的模型与使用原始的特征变量训练出的模型在性能上变动不大，AUC差值在-1%到5%间波动。另外，最终模型部署所需要的特征存储空间和特征运算量都会减少，相应地，模型部署的难度会降低，部署所需的存储与运算成本也会下降。

基于上述同样的发明构思，请结合参阅图2，提供了应用于风控模型的数据降维装置200，应用于计算机设备，所述装置包括：

数据划分模块210，用于获取样本数据，并将所述样本数据划分为训练样本和测试样本；

第一降维模块220，用于确定所述训练样本的原始特征变量，根据所述原始特征变量的特征变量重要性生成第一排序序列，根据所述第一排序序列确定第一特征变量集；

第二降维模块230，用于基于所述训练样本和所述第一特征变量集构造树模型，得到基础模型以及所述基础模型对应的第一AUC、第一特征维度数量以及特征变量重要性的第二排序序列；根据所述第二排序序列对所述第一特征变量集进行筛选，得到第二特征变量集；

模型训练模块240，用于将所述第二特征变量集划分为多个特征变量子集，基于所述多个特征变量子集对所述基础模型进行训练得到多个子模型，计算每个子模型的第二AUC和第二特征维度数量；

第三降维模块250，用于根据每个子模型的第二AUC和第二特征维度数量计算每个子模型的综合指标值，将最大综合指标值对应的目标子模型的特征变量确定为第三特征变量集；

第四降维模块260，用于确定所述第三特征变量集对应的特征相关系数并基于所述特征相关系数从所述第三特征变量集中确定出第四特征变量集；

特征确定模块270，用于基于所述训练样本和所述第四特征变量集构造树模型，得到目标模型，采用所述测试样本对所述目标模型进行测试获得测试结果，在所述测试结果满足预设条件时，确定所述第四特征变量集为所述样本数据的目标特征变量。

可选地，所述特征确定模块270，具体用于：

可选地，所述第一降维模块220，用于：

可选地，所述第四降维模块260，用于：

在当前特征相关系数小于设定值时，将当前特征相关系数对应的待处理特征变量保留在所述子集M中；在当前特征相关系数大于等于所述设定值时，将当前特征相关系数对应的待处理特征变量从所述子集M中删除，直至所述子集N为空集；将最后得到的子集M确定为所述第四特征变量集.

关于上述功能模块的描述请参阅对图1所示的方法的描述在此不作更多说明。

在上述内容的基础上，请结合参阅图3，提供了一种计算机设备300的硬件结构图，所述计算机设备300可以包括互相之间通信的处理器310和存储器320，所述处理器310在运行从所述存储器320中调取的计算机程序时实现如图1所示的方法。

在上述内容的基础上，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在运行时实现如图1所示的方法。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种应用于风控模型的数据降维方法，其特征在于，应用于计算机设备，所述方法包括：

2.如权利要求1所述的数据降维方法，其特征在于，所述测试结果是否满足所述预设条件，通过以下方式判定：

3.如权利要求1所述的数据降维方法，其特征在于，确定所述训练样本的原始特征变量，根据所述原始特征变量的特征变量重要性生成第一排序序列，根据所述第一排序序列确定第一特征变量集，包括：

4.如权利要求1所述的数据降维方法，其特征在于，根据所述第二排序序列对所述第一特征变量集进行筛选，得到第二特征变量集，包括：

5.如权利要求1所述的数据降维方法，其特征在于，每个子模型的综合指标值具体通过以下公式进行计算：C=a*AUC-b*D；

6.如权利要求1所述的数据降维方法，其特征在于，确定所述第三特征变量集对应的特征相关系数并基于所述特征相关系数从所述第三特征变量集中确定出第四特征变量集，包括：

7.一种应用于风控模型的数据降维装置，其特征在于，应用于计算机设备，所述装置包括：

8.如权利要求7所述的数据降维装置，其特征在于，所述特征确定模块，具体用于：

9.如权利要求7所述的数据降维装置，其特征在于，所述第一降维模块，用于：

10.如权利要求7所述的数据降维装置，其特征在于，所述第四降维模块，用于：