CN113822755A

CN113822755A - 一种特征离散化技术对个人用户信用风险的识别方法

Info

Publication number: CN113822755A
Application number: CN202111134069.XA
Authority: CN
Inventors: 李诗宇; 田羽; 兰翔; 陈刚; 陈如校
Original assignee: Wuhan Zhongbang Bank Co Ltd
Current assignee: Wuhan Zhongbang Bank Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-12-21
Anticipated expiration: 2041-09-27
Also published as: CN113822755B

Abstract

本发明公开了一种特征离散化技术对个人用户信用风险的识别方法，属于建模特征处理技术及风控技术领域，解决了传统的逻辑回归应用在个人信用风险模型时，由于数据不均匀分布导致模型缺陷的问题。本发明包括：提取历史客户征信数据作为建模样本；建模特征离散化；识别黏连指标并进行特征分解；使用特征分解后的指标族训练逻辑回归模型；将模型用于线上客户违约概率预测。

Description

一种特征离散化技术对个人用户信用风险的识别方法

技术领域

一种特征离散化技术对个人用户信用风险的识别方法，用于个人用户信用风险的识别，属于模型特征优化技术及风控技术领域。

背景技术

逻辑回归核心思想是用Logit函数对概率进行转换，Logit函数公式：

Logit(x)＝ln(x/(1-x))

假设逻辑回归模型自变量为Y，因变量为A、B.在常规的指标离散化环节，我们会对变量A、B进行WOE变换，转换函数WOE_A、WOE_B具体公式如下：

WOE_A(x)＝Logit(P(Y＝1))-Logit(P(Y＝1:x∈x_A))

WOE_B(x)＝Logit(P(Y＝1))-Logit(P(Y＝1:x∈x_B))

均匀样本下指标WOE_A(x)和WOE_B(x)会呈现较低的相关性.而加入边缘样本破坏了样本分布IIA性质(independent irrelevant),我们希望用正交拆解的方法构造一组相关性较低的指标代替原有指标。

假设指标A边缘聚点所在箱为

指标B边缘聚点所在箱为

我们将WOE_A(x)拆解为

定义如下：

通过计算可以验证

所以

构成WOE_A(x)的正交分解.

关于聚点有关信息保存于

之中,而

分量不含任何聚点信息。

同样地我们可以把WOE_B(x)分解为

是剔除聚点信息后的分量所以满足

令

那么

三个变量两两不存在相关性，

用

替换原有变量WOE_A和WOE_B，即可消除掉聚点相关性对指标分布造成的影响。

在线上消费贷款、信用卡授信等场景下，需要对客户进行信用风险评估，对高风险客户拒绝授信。商业银行采用的模式一般是调取客户征信数据，基于这些数据进行逻辑回归建模。个人征信数据一般包括信用卡数、贷款笔数、支用次数等。因为业务原因，指标分布呈现不均匀，在0点处往往会存在聚点。这类聚点使得样本分布背离了逻辑回归模型IIA分布条件，进而影响到模型稳定性、削弱模型最终效果。

针对上述技术问题，现有技术采用的方法有：

1.客群分类方法：基于经验和业务逻辑对客户进行分类，对不同客群分别开发模型。例如对于新老客户分别开发模型；对于信用卡客户和非信用卡客户分别开发模型。

这种方法的问题在于区分客群使得单个模型训练样本更少，对于在不同客群上分别训练逻辑回归系数等价于增加了模型的自由度，这些因素都使得模型泛化能力变弱，影响模型稳定性，也会影响模型对识别风险精确性。

2.对干扰指标剔除方法：

(1)依据时间对样本进行划分，检验指标在不同样本下分布和趋势的一致性。剔除不一致指标。

(2)计算指标VIF值剔除VIF值>阈值的指标,VIF阈值一般取5或10.

(3)计算指标spearman相关性和指标IV值，对于相关性大于阈值的指标对，删除两个指标中IV值较小的指标。

一般性指标筛选流程是对指标总体上的分布进行检验，对于边缘的局部不均匀分布无法有效识别。另外，剔除指标也意味着舍弃了该指标有效信息部分，同样影响到模型对识别风险精确性。

综上所述，采用传统的逻辑回归应用于信用风险模型存在如下技术问题：

1.信用风险模型使用的个人征信数据分布上存在聚点，如果使用传统WOE分箱-逻辑回归训练流程进行建模，会造成模型不稳定，对于聚点部分样本预测有偏差。

2.业务上针对不均匀分布样本使用的分离客群或者剔除指标的方法使得模型泛化能力变弱，也牺牲了指标和样本所蕴含的信息量，使得模型效果减弱。

发明内容

针对上述问题，本发明提供了一种特征离散化技术对个人用户信用风险的识别方法，解决现有信用风险模型使用的个人征信数据分布上存在聚点，如果使用传统WOE分箱-逻辑回归训练流程进行建模，会造成模型不稳定，对于聚点部分样本预测有偏差。

为了达到上述目的，本发明采用如下技术方案：

一种特征离散化技术对个人用户信用风险的识别方法，包括：

步骤1、提取历史客户征信数据并进行标签标记，其中，标签包括正常还款客户和违约客户，历史客户征信数据包括借贷行和基础信息，借贷行为包括信用卡数指标和贷款笔数指标，基础信息包括年龄指标；

步骤2、基于历史客户征信数据中的各指标结合标签标记计算各指标的IV值，再基于业务经验和IV值筛选出IV值较高且符合业务逻辑的指标构成入模指标池，并对入模指标池中的指标进行区间划分以及WOE转换，得到各指标相应的WOE_A特征，其中，A表示A指标；

步骤3、基于各指标的WOE_A特征获取黏连指标、孤立指标和黏连类，对于黏连指标，获取每个指标的

特征作为有效特征，对于孤立指标，获取WOE_A特征作为有效特征，对于黏连类，获取对应黏连类的黏连边缘特征

作为有效特征，其中，

表示第k个黏连类Sk的黏连边缘特征；

步骤4、将有效特征作为入模变量，使用Logistic方法进行建模，得到最终的违约概率预测模型；

步骤5、提取待预测线上客户的征信数据，将征信数据输入违约概率预测模型对待预测的线上客户进行违约概率预测。

进一步，步骤1的具体步骤为：

获取xml格式的历史客户征信数据，其中，历史客户征信数据包括的指标数为2000个以上；

将xml格式的历史客户征信数据结构化；

将结构化后的历史客户征信数据以数据库或文件的形式进行存储；

基于存储的结构化后的历史客户征信数据所对应的各历史客户在商业银行中的违约记录，对结构化后的历史客户征信数据进行正常还款客户和违约客户标签标记。

进一步，步骤3的具体步骤为：

步骤3.1、基于WOE分解算法将各指标的WOE_A特征拆解为

和

两个特征；

步骤3.2、计算各指标的

特征的pearson相关系数矩阵

并基于pearson 相关系数矩阵

将指标划分为孤立指标和黏连指标；

步骤3.3、基于pearson相关系数矩阵

构造黏连指标之间的距离函数，并依据距离函数使用层次聚类算法对黏连指标进行聚类，聚类后得到多个黏连类，再基于各黏连类得到与黏连类相对应的黏连边缘特征

步骤3.4、对于黏连指标，取每个指标的

特征作为有效特征，对于孤立指标，取WOE_A特征作为有效特征，对于黏连类，取黏连类相对应的黏连边缘特征

作为有效特征。

进一步，步骤3.1的具体为：

基于WOE分解算法将各指标的WOE_A特征拆解为

和

两个特征的计算公式如下：

其中，Logit表示逻辑回归函数，x表示指标A的取值，x_A表示x经过区间划分后所在的区间，

表示x分箱后的边缘箱，分箱即指区间划分，P(Y＝1|C)表示在条件C下的违约概率，

为边缘分量，包含边缘信息；

为非边缘分量，包含非边缘信息。

进一步，步骤3.2的具体步骤为：

步骤3.21、取各个指标的

特征，计算两两指标之间的pearson相关系数，得到pearson相关系数矩阵

步骤3.22、基于pearson相关系数矩阵

找出所有pearson相关系数大于

的指标对，对于pearson相关系数大于

的指标对，定义两个指标之间存在黏连关系，并将两个指标都划分为黏连指标，反之，划分为孤立指标，其中，

为给定的相关性阈值，取值为0.5-0.8，阈值越大判定越严格。

进一步，步骤3.3的具体步骤为：

步骤3.31、基于pearson相关系数矩阵

构造黏连指标之间的距离函数，即：对于任意两个黏连指标A和B，定义A和B之间的距离为：

步骤3.32、基于黏连指标之间的距离D得到度量矩阵，并基于度量矩阵以及给定的聚类距离阈值

使用层次聚类方法进行聚类，即将两两间的距离小于

的黏连指标被划定为同一类，聚类后得到多个黏连类，将所有黏连类构成的类族记为

其中，

为给定的距离阈值，取值为0.2-0.4，阈值越小判定越严格，

包括黏连类S1，S2， Sk...Sm，Sm表示第m个黏连类,k为变量，取值范围为1-m，黏连类S1的指标总数为ns1，S_1,i表示黏连类S1的第i个黏连指标；

步骤3.33、取黏连类S1的所有指标S1₁,S1₂...,S1_ns1，对各指标的

特征进行求和:

再对

中余下的黏连类S2，Sk...Sm进行以上操作，得到各黏连类对应的黏连边缘特征

进一步，步骤4的建模过程中使用Cross-Validation或者设置L1和L2惩罚项对模型参数进行限制得到最终违约概率预测模型。

本发明同现有技术相比，其有益效果表现在：

1.本发明中的WOE拆解算法能够去除聚点造成的逻辑回归模型应用上的缺陷，修复了模型在预测聚点部分数据产生偏差从而造成模型不稳定的问题；

2.本发明与传统修复非均匀样本方法相比，属于一种对于模型系数做的局部修复，不影响数据完整性，保留的有效数据信息更多，最终得到的模型具有更强的预测能力以及泛化能力。

具体实施方式

具体步骤为：

将xml格式的历史客户征信数据结构化；

提取历史客户征信数据并进行标签标记如下表所示，包括信用卡数、贷款笔数和年龄指标，是否违约为违约标签。

用户	信用卡数	贷款数	年龄	是否违约
					00001	0	0	25	0
00002	3	3	25	0
					00003	1	0	30	1
00004	2	1	35	0
					00005	0	0	35	0
00006	1	0	30	1
					...	...	...	...	...

步骤2、基于历史客户征信数据中的各指标结合标签标记计算各指标的IV值，再基于业务经验和IV值筛选出IV值较高且符合业务逻辑(如某个指标-负债总额，从业务逻辑角度期望负债总额越高的客户违约率越高即符合业务逻辑，但是如果从历史客户征信数据上发现负债总额约高违约率越低即不符合业务逻辑)的指标构成入模指标池，并对入模指标池中的指标进行区间划分以及WOE转换，得到各指标相应的WOE_A特征，其中，A表示A指标；

基于业务经验和IV值筛选出入模指标池，如信用卡数、贷款笔数和年龄进入入模指标池，再对入模指标池中的指标进行分箱，即指区间划分，如下表所示：

用户	箱体信用卡数	箱体贷款数	箱体年龄
				00001	(-inf,0]	(-inf,0]	(20,25]
00002	(1,3]	(1,3]	(20,25]
				...	...	...	...

对于每个指标的每个箱体计算WOE特征特征，具体如下表：

作为有效特征，其中，

表示第k个黏连类Sk的黏连边缘特征；

具体步骤为：

步骤3.1、基于WOE分解算法将各指标的WOE_A特征拆解为

和

两个特征；具体为：

基于WOE分解算法将各指标的WOE_A特征拆解为

和

两个特征的计算公式如下：

为边缘分量，包含边缘信息；

为非边缘分量，包含非边缘信息。具体如下表所示，其中，WOE¹信用卡数指

WOE¹年龄指

WOE²信用卡数指

WOE²贷款数指

WOE²年龄指

如下表：

步骤3.2、计算各指标的

特征的pearson相关系数矩阵

并基于pearson 相关系数矩阵

将指标划分为孤立指标和黏连指标；

具体步骤为：

步骤3.21、取各个指标的

步骤3.22、基于pearson相关系数矩阵

找出所有pearson相关系数大于

的指标对，对于pearson相关系数大于

为给定的相关性阈值，取值为0.5-0.8，阈值越大判定越严格。具体如下表所示：

设为0.8，由于WOE¹信用卡数与WOE¹贷款数的pearson相关系数取值为0.95大于0.8，所以定义WOE¹信用卡数与WOE¹贷款数对应的信用卡数和贷款数这两个指标存在黏连，被划定为黏连指标。年龄与其他指标相关系数均小于0.8,故不存在与之黏连的指标，被划定为孤立指标。

步骤3.3、基于pearson相关系数矩阵

具体步骤为：

步骤3.31、基于pearson相关系数矩阵

使用层次聚类方法进行聚类，即将两两间的距离小于

其中，

为给定的距离阈值，取值为0.2-0.4，阈值越小判定越严格，

基于pearson相关系数矩阵

和距离函数得到黏连指标的度量矩阵，如下表:

设为0.4，由于WOE¹信用卡数(即指

)与WOE¹贷款数(即指

)距离小于0.4，所以WOE1信用卡数与WOE¹贷款数对应的信用卡数和贷款数两个指标被划为同一类，将该类记为S1，同理，得到其它类。

特征进行求和:

再对

S1中两个指标为信用卡数和贷款数，计算S1对应的黏连边缘特征为

根据信用卡数和贷款数的

特征如下表所示：

进行列向量求和得到如下表：

步骤3.4、对于黏连指标“信用卡数和贷款数”取每个指标的

特征作为有效特征，对于孤立指标“年龄”，取WOE_A特征作为有效特征，对于黏连类，取黏连边缘特征

作为有效特征。

步骤4、将有效特征作为入模变量，使用Logistic方法进行建模，得到最终的违约概率预测模型；建模过程中使用Cross-Validation或者设置L1和L2惩罚项对模型参数进行限制得到最终违约概率预测模型。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种特征离散化技术对个人用户信用风险的识别方法，其特征在于，包括：

作为有效特征，其中，

表示第k个黏连类Sk的黏连边缘特征；

2.根据权利要求1所述的一种特征离散化技术对个人用户信用风险的识别方法，其特征在于，步骤1的具体步骤为：

将xml格式的历史客户征信数据结构化；

3.根据权利要求1所述的一种特征离散化技术对个人用户信用风险的识别方法，其特征在于，步骤3的具体步骤为：

步骤3.1、基于WOE分解算法将各指标的WOE_A特征拆解为

和

两个特征；

步骤3.2、计算各指标的

特征的pearson相关系数矩阵

并基于pearson相关系数矩阵

将指标划分为孤立指标和黏连指标；

步骤3.3、基于pearson相关系数矩阵

步骤3.4、对于黏连指标，取每个指标的

作为有效特征。

4.根据权利要求3所述的一种特征离散化技术对个人用户信用风险的识别方法，其特征在于，步骤3.1的具体为：

基于WOE分解算法将各指标的WOE_A特征拆解为

和

两个特征的计算公式如下：

为边缘分量，包含边缘信息；

为非边缘分量，包含非边缘信息。

5.根据权利要求4所述的一种特征离散化技术对个人用户信用风险的识别方法，其特征在于，步骤3.2的具体步骤为：

步骤3.21、取各个指标的

步骤3.22、基于pearson相关系数矩阵

找出所有pearson相关系数大于

的指标对，对于pearson相关系数大于

为给定的相关性阈值，取值为0.5-0.8，阈值越大判定越严格。

6.根据权利要求5所述的一种特征离散化技术对个人用户信用风险的识别方法，其特征在于，步骤3.3的具体步骤为：

步骤3.31、基于pearson相关系数矩阵

使用层次聚类方法进行聚类，即将两两间的距离小于

其中，

为给定的距离阈值，取值为0.2-0.4，阈值越小判定越严格，

包括黏连类S1，S2，Sk...Sm，Sm表示第m个黏连类，k为变量，取值范围为1-m，黏连类S1的指标总数为ns1，S_1，i表示黏连类S1的第i个黏连指标；

步骤3.33、取黏连类S1的所有指标S1_x，S1₂...，S1_ns1，对各指标的

特征进行求和：

再对

7.据权利要求1所述的一种特征离散化技术对个人用户信用风险的识别方法，其特征在于，步骤4的建模过程中使用Cross-Validation或者设置L1和L2惩罚项对模型参数进行限制得到最终违约概率预测模型。