CN113837865A

CN113837865A - 多维度风险特征策略的提取方法

Info

Publication number: CN113837865A
Application number: CN202111154465.9A
Authority: CN
Inventors: 钟月
Original assignee: Chongqing Fumin Bank Co Ltd
Current assignee: Chongqing Fumin Bank Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-24

Abstract

本发明涉及数据处理技术领域，具体涉及一种多维度风险特征策略的提取方法，包括内容：采集源数据，源数据预处理，生成风险特征数据，采用LightGbm决策树算法进行模型训练，生成若干个树结构，提取每颗树结构中的分支节点和切分阈值；基于每棵树的分支节点和切分阈值，对客户集群进行分箱，计算每个分箱的样本客户总量和风险样本客户总量，将各个分箱的风险样本客户占比与设置的风险阈值进行比较；若存在风险样本客户占比大于等于风险阈值的分箱，则该棵树的分支节点和切分阈值有效，存储该分支节点和切分阈值作为多维度风险特征策略组合特征。该方法可灵活自动化且批量的进行特征的有效组合，形成量化分析结果，实现组合策略提取。

Description

多维度风险特征策略的提取方法

技术领域

本发明涉及数据处理技术领域，具体为一种多维度风险特征策略的提取方法。

背景技术

在各行各业，风险管控都是十分必要且重要的，尤其是在金融领域，风险管控主要包括贷前、贷中和贷后的风险管控，在三个不同阶段的风险策略制定上，除了传统的专家经验外，还有量化分析方法。现有的量化分析方法通常为单维度风险特征策略法。从各方法的优劣上，传统的专家经验方法简单易落地，但需要基于足够的风控经历和常年的积累，可意会难以言传，对于人员要求高，成本高，同时因为缺乏量化数据的佐证，难有说服力；而单维度风险特征策略，是指定中常用的方式方法，但未充分挖掘数据源和特征的有效性，在数据源成本和数据源的效能上未实现效益最大化。

发明内容

本发明意在提供一种可灵活自动化且批量的进行特征的有效组合的多维度风险特征策略的提取方法。

多维度风险特征策略的提取方法，包括以下内容，

采集源数据，数据预处理，对源数据进行预处理生成风险特征数据；

基于风险特征数据和客户集群，采用LightGbm模型进行训练，生成若干个树结构，提取每颗树结构中的分支节点和切分阈值；

基于每棵树的分支节点和切分阈值，对客户集群进行分箱，计算每个分箱的样本客户总量和风险样本客户总量，将各个分箱的风险样本客户占比与设置的风险阈值进行比较；若存在风险样本客户占比大于等于风险阈值的分箱，则该棵树的分支节点和切分阈值有效，则存储该分支节点和切分阈值作为多维度风险特征策略组合特征。

本发明的有益效果：本发明首先对源数据进行预处理，以剔除一些不适合用于模型训练的数据，从而使生成的风险特征数据更专业、准确、全面和可靠；

本发明基于风险特征数据和客户集群，采用LightGbm模型进行训练，生成若干个树结构，即应用LightGbm算法实现多维度风险特征策略的提取，通过该方法可以灵活自动化且批量的进行风险特征的组合；

本发明为了进一步验证多维度风险特征策略提取出的风险特征组合的有效性和可靠性，基于每棵树的分支节点和切分阈值，对客户集群进行分箱，计算每个分箱的样本客户总量和风险样本客户总量，将各个分箱的风险样本客户占比与设置的风险阈值进行比较，也即采用量化分析结果，若存在风险样本客户占比大于等于风险阈值的分箱，则该棵树的分支节点和切分阈值有效，并且存储该分支节点和切分阈值作为多维度风险特征策略组合特征，最终达到充分挖掘数据源特征和数据源效益最大化的目的。

进一步，为了对源数据进行规范，以便于模型的训练，所述的预处理包括基于某一类数据的缺失率，剔除掉缺失率大的一类数据，基于数据单元素取值占比，剔除掉单元素取值大的数据，基于数据的相关性，剔除掉相关性高的数据，基于数据的IV，剔除掉IV低的数据。本发明所述的IV，主要是指对于模型训练是否有用。

进一步，为了比较全面的计算每个分箱的样本客户总量和风险样本客户总量，所述的计算每个分箱的样本客户总量和风险样本客户总量包括计算每个分箱的样本量、坏样本量、坏占比、风险倍数以及lift风险指标。

进一步，为了进一步计算分箱的坏样本量、坏占比以及风险倍数以及lift风险指标，需要对客户的属性进行定义，本发明所述的客户属性定义，是指根据业务要求对客户属性进行定义，所述的坏样本量、坏占比、风险倍数以及lift风险指标均基于客户属性定义进行计算得出。

进一步，将各个分箱按照风险倍数或lift风险指标从高到低进行排序，并将各个分箱的风险倍数或lift风险指标与设置的阈值进行比较。各个分箱按照风险倍数或lift风险指标从高到低进行排序，有利于直观的统计各个分箱的风险倍数或者lift风险指标，以及将各个分箱的风险倍数或lift风险指标与设置的阈值进行比较。

进一步，为了采用更加全面的风险特征数据，而源数据中又缺失一些需要用到的数据的，可以衍生出一些数据，因此在所述数据预处理中，还包括根据源数据生成衍生数据。衍生数据如可以根据收入和负债生成收入负债比，根据信用卡使用金额和授信金额生成信用额使用额度等。

进一步，树结构的叶子节点为4，树深度为2或者树深度为3。树深度为2，则最终的数结构为2个特征的组合特征。设置树深度为3，则最终的树结构可生成3个特征的组合特征。

进一步，所述的样本量大于等于100，坏样本量大于等于30。样本量如果过少，则说服力较低，因此选择样本量大于等于100，坏样本量大于等于30。

附图说明

图1为本发明多维度风险特征策略的提取方法实施例的流程示意图。

具体实施方式

下面通过具体实施方式进一步详细说明：

如附图1所示，本实施例多维度风险特征策略的提取方法，包括以下内容，

数据预处理，采集源数据，对源数据进行预处理生成风险特征数据，本实施例所述的数据预处理包括数据描述性统计分析、数据清洗、风险特征字段衍生、风险特征字段筛选等步骤，本实施例中，所述的预处理包括基于某一类数据的缺失率，剔除掉缺失率大的一类数据，比如某一类源数据普遍缺失年龄数据，缺失率大，如达到了80％，那么该类数据是不可取的，因此需要剔除掉，基于数据单元素取值占比，剔除掉单元素取值大的数据，比如某些源数据，在性别比例方面，男女占比明显不符合常规的，需要剔除掉此类数据，基于数据的相关性，剔除掉相关性高的数据，基于数据的IV，剔除掉IV低的数据，本实施例所述的IV是指衡量数据的有用性，因此剔除掉一些用处低的数据。另外，在数据预处理中，还需要统计数据的极值和异常值，予以剔除，以及统计变量的取值数，如男女分别赋值多少，以及数据的分位数，数据的分位数是数值型变量，比如平均年龄分布。

在所述数据预处理中，还包括根据源数据生成衍生数据。如可以根据收入和负债生成收入负债比，根据信用卡使用金额和授信金额生成信用额使用额度等。

本实施例中，源数据还包括客户集群以及客户集群数据，数据预处理还包括客户属性定义，根据业务要求对客户属性进行定义，比如客户属性定义分好客户和坏客户，衡量标准是如果客户的信贷还款逾期超过30天，则为坏客户，小于30天，则为好客户。当然，也可以根据具体的业务要求，对客户进行其他的属性定义。

基于风险特征数据和客户集群，采用LightGbm模型进行训练，生成若干个树结构，在本实施例中，可设置叶子结点为4，树深度为2，则最终的数结构为2个特征的组合特征。设置树深度为3，则最终的树结构可生成3个特征的组合特征。

本实施例中采用LightGbm模型，为现有技术，本实施例提及的LightGbm是一种集成学习决策树方法。所谓集成学习就是组合多棵弱决策树模型采用投票或加权等方式得到一个预测结果，以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。集成学习法是分布式的，高效的，有以下优势：1)更快的训练效率；2)低内存使用；3)更高的准确率；4)支持并行化学习；5)可以处理大规模数据。

集成学习包含Bagging和Boosting。Bagging：Bagging从训练集中随机采样得到新的训练集，重复N次得到N个新的训练集，使用所有特征，针对平均每一棵树的预测值或采用少数服从多数得到分类结果N个不同的训练集分别训练一棵树。随机森林是bagging中的一种，从训练集中随机采样、随机选择特征，重复N次得到最终结果，由于样本和特征的选取都随机，不用前期做特征选择，同时泛化能力更强。Boosting：Boosting会根据前一次分类效果(残差)调整数据权重，如果上一次分错了，则这一次会给它更大的权重，重复N次，最终得到一个分类器，它的基函数可以采用各种分类器、预测器。Bagging的树“并行”生成，Boosting的树“串行”生成。Boosting算法又包含GBDT、XGBoost、LightGbm等。

LightGbm：xgboost算法的一个瓶颈是针对每个特征，它都需要对每一个可能的分裂点扫描全部的样本来计算基尼系数，这样大大增加了计算量，降低了算法效率。为了解决这种在大样本高纬度数据的环境下耗时的问题，LightGbm算法使用直方图方法在牺牲一定精度的条件下，换取计算速度的提升和内存的消耗，同时大大的降低的处理样本的时间复杂度。但在精度上，通过大量的实验证明，在某些数据集上使用LightGbm并不损失精度，甚至有时还会提升精度。

提取每颗树结构中的分支节点和切分阈值，以客户年龄和学历为例，分支节点就是客户年龄和学历，切分阈值就是指年龄是否大于20岁，以及学历是否是专科及以上。

基于每棵树的分支节点和切分阈值，对客户集群进行分箱，计算每个分箱的样本客户总量和风险样本客户总量，计算每个分箱的样本客户总量和风险样本客户总量包括计算每个分箱的样本量、坏样本量、坏占比、风险倍数以及lift风险指标，所述的坏样本量、坏占比、风险倍数以及lift风险指标均基于客户属性定义进行计算得出，比如某个分箱的样本量100，信贷逾期还款超过30天的客户有40个，那么坏样本量就是40，坏占比就是40％，假定总的分箱样本量是600，总的坏样本量120，总坏占比是20％，风险倍数是指分箱的坏占比与总坏占比的比值，在该例子中，风险倍数就是2。

将各个分箱的风险样本客户占比与设置的风险阈值进行比较，若存在风险样本客户占比大于等于风险阈值的分箱，则该棵树的分支节点和切分阈值有效，同时该对应的分支节点和切分阈值同实际业务理解相同，存储该分支节点和切分阈值作为多维度风险特征策略组合特征；具体的，本实施例中，将各个分箱按照风险倍数或lift风险指标从高到低进行排序，并将各个分箱的风险倍数或lift风险指标与设置的阈值进行比较，比如设置的阈值是2，而本实施例中的举例所述的风险倍数恰好是2，那么符合要求，则该棵树的分支节点和切分阈值是有效的，比如如上述举例的分支节点是客户年龄和学历，切分阈值是指年龄是否大于20岁，以及学历是否是专科及以上，如果以这个例子来对客户集群进行分箱，并且存在分箱的样本数据满足阈值要求的，则将分支节点是客户年龄和学历，切分阈值是指年龄是否大于20岁，以及学历是否是专科及以上作为多维度风险特征策略组合特征进行存储。

在其他实施例中，设置的阈值也可为多头数据大于5次且风险分数大于70分，对应的风险倍数在4倍以上，同时对应分箱样本数量大于等于100，坏样本数量大于等于30，以上这些均满足阈值要求，才认定该棵树的分支节点和切分阈值有效，存储该分支节点和切分阈值作为多维度风险特征策略组合特征。这里所述的多头数据是指一些客户触碰较多的数据，比如客户的银行卡数据，这种数据通常客户每月的触碰量都相对稳定，应用价值更高。

通过本实施例提取的多维度风险特征策略组合特征，可应用于风险预测，比如应用至授信进件客户，将客户分为规则选中客群A和未选中客群B，对比客群A和客群B的样本量、坏占比等风险指标，测算规则应用前后的通过率、坏账率等。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.多维度风险特征策略的提取方法，其特征在于：包括以下内容，

2.根据权利要求1所述的多维度风险特征策略的提取方法，其特征在于：所述的预处理包括基于某一类数据的缺失率，剔除掉缺失率大的一类数据，基于数据单元素取值占比，剔除掉单元素取值大的数据，基于数据的相关性，剔除掉相关性高的数据，基于数据的IV，剔除掉IV低的数据。

3.根据权利要求1所述的多维度风险特征策略的提取方法，其特征在于：所述的计算每个分箱的样本客户总量和风险样本客户总量包括计算每个分箱的样本量、坏样本量、坏占比、风险倍数以及lift风险指标。

4.根据权利要求3所述的多维度风险特征策略的提取方法，其特征在于：客户属性定义，根据业务要求对客户属性进行定义，所述的坏样本量、坏占比、风险倍数以及lift风险指标均基于客户属性定义进行计算得出。

5.根据权利要求3所述的多维度风险特征策略的提取方法，其特征在于：将各个分箱按照风险倍数或lift风险指标从高到低进行排序，并将各个分箱的风险倍数或lift风险指标与设置的阈值进行比较。

6.根据权利要求1所述的多维度风险特征策略的提取方法，其特征在于：在所述数据预处理中，还包括根据源数据生成衍生数据。

7.根据权利要求1所述的多维度风险特征策略的提取方法，其特征在于：当树结构的叶子节点为4，树深度为2或者树深度为3，得到的为两维度的组合特征。

8.根据权利要求3或5所述的多维度风险特征策略的提取方法，其特征在于：基于大数定律，设定分箱的样本量大于等于100，坏样本量大于等于30。