CN113822755A - 一种特征离散化技术对个人用户信用风险的识别方法 - Google Patents

一种特征离散化技术对个人用户信用风险的识别方法 Download PDF

Info

Publication number
CN113822755A
CN113822755A CN202111134069.XA CN202111134069A CN113822755A CN 113822755 A CN113822755 A CN 113822755A CN 202111134069 A CN202111134069 A CN 202111134069A CN 113822755 A CN113822755 A CN 113822755A
Authority
CN
China
Prior art keywords
index
indexes
adhesion
sticky
woe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111134069.XA
Other languages
English (en)
Other versions
CN113822755B (zh
Inventor
李诗宇
田羽
兰翔
陈刚
陈如校
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Zhongbang Bank Co Ltd
Original Assignee
Wuhan Zhongbang Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Zhongbang Bank Co Ltd filed Critical Wuhan Zhongbang Bank Co Ltd
Priority to CN202111134069.XA priority Critical patent/CN113822755B/zh
Publication of CN113822755A publication Critical patent/CN113822755A/zh
Application granted granted Critical
Publication of CN113822755B publication Critical patent/CN113822755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Mathematical Optimization (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Mathematics (AREA)
  • Educational Administration (AREA)
  • Mathematical Analysis (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Pure & Applied Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种特征离散化技术对个人用户信用风险的识别方法,属于建模特征处理技术及风控技术领域,解决了传统的逻辑回归应用在个人信用风险模型时,由于数据不均匀分布导致模型缺陷的问题。本发明包括:提取历史客户征信数据作为建模样本;建模特征离散化;识别黏连指标并进行特征分解;使用特征分解后的指标族训练逻辑回归模型;将模型用于线上客户违约概率预测。

Description

一种特征离散化技术对个人用户信用风险的识别方法
技术领域
一种特征离散化技术对个人用户信用风险的识别方法,用于个人用户信用风险的识别,属于模型特征优化技术及风控技术领域。
背景技术
逻辑回归核心思想是用Logit函数对概率进行转换,Logit函数公式:
Logit(x)=ln(x/(1-x))
假设逻辑回归模型自变量为Y,因变量为A、B.在常规的指标离散化环节,我们会对变量A、B进行WOE变换,转换函数WOEA、WOEB具体公式如下:
WOEA(x)=Logit(P(Y=1))-Logit(P(Y=1:x∈xA))
WOEB(x)=Logit(P(Y=1))-Logit(P(Y=1:x∈xB))
均匀样本下指标WOEA(x)和WOEB(x)会呈现较低的相关性.而加入边缘样本破坏了样本分布IIA性质(independent irrelevant),我们希望用正交拆解的方法构造一组相关性较低的指标代替原有指标。
假设指标A边缘聚点所在箱为
Figure RE-GDA0003346111350000011
指标B边缘聚点所在箱为
Figure RE-GDA0003346111350000012
我们将WOEA(x)拆解为
Figure RE-GDA0003346111350000013
定义如下:
Figure RE-GDA0003346111350000014
Figure RE-GDA0003346111350000015
通过计算可以验证
Figure RE-GDA0003346111350000016
所以
Figure RE-GDA0003346111350000017
Figure RE-GDA0003346111350000018
构成WOEA(x)的正交分解.
关于聚点有关信息保存于
Figure RE-GDA0003346111350000019
之中,而
Figure RE-GDA00033461113500000110
分量不含任何聚点信息。
同样地我们可以把WOEB(x)分解为
Figure RE-GDA00033461113500000111
Figure RE-GDA00033461113500000112
是剔除聚点信息后的分量所以满足
Figure RE-GDA00033461113500000113
Figure RE-GDA00033461113500000114
那么
Figure RE-GDA0003346111350000021
三个变量两两不存在相关性,
Figure RE-GDA0003346111350000022
替换原有变量WOEA和WOEB,即可消除掉聚点相关性对指标分布造成的影响。
在线上消费贷款、信用卡授信等场景下,需要对客户进行信用风险评估,对高风险客户拒绝授信。商业银行采用的模式一般是调取客户征信数据,基于这些数据进行逻辑回归建模。个人征信数据一般包括信用卡数、贷款笔数、支用次数等。因为业务原因,指标分布呈现不均匀,在0点处往往会存在聚点。这类聚点使得样本分布背离了逻辑回归模型IIA分布条件,进而影响到模型稳定性、削弱模型最终效果。
针对上述技术问题,现有技术采用的方法有:
1.客群分类方法:基于经验和业务逻辑对客户进行分类,对不同客群分别开发模型。例如对于新老客户分别开发模型;对于信用卡客户和非信用卡客户分别开发模型。
这种方法的问题在于区分客群使得单个模型训练样本更少,对于在不同客群上分别训练逻辑回归系数等价于增加了模型的自由度,这些因素都使得模型泛化能力变弱,影响模型稳定性,也会影响模型对识别风险精确性。
2.对干扰指标剔除方法:
(1)依据时间对样本进行划分,检验指标在不同样本下分布和趋势的一致性。剔除不一致指标。
(2)计算指标VIF值剔除VIF值>阈值的指标,VIF阈值一般取5或10.
(3)计算指标spearman相关性和指标IV值,对于相关性大于阈值的指标对,删除两个指标中IV值较小的指标。
一般性指标筛选流程是对指标总体上的分布进行检验,对于边缘的局部不均匀分布无法有效识别。另外,剔除指标也意味着舍弃了该指标有效信息部分,同样影响到模型对识别风险精确性。
综上所述,采用传统的逻辑回归应用于信用风险模型存在如下技术问题:
1.信用风险模型使用的个人征信数据分布上存在聚点,如果使用传统WOE分箱-逻辑回归训练流程进行建模,会造成模型不稳定,对于聚点部分样本预测有偏差。
2.业务上针对不均匀分布样本使用的分离客群或者剔除指标的方法使得模型泛化能力变弱,也牺牲了指标和样本所蕴含的信息量,使得模型效果减弱。
发明内容
针对上述问题,本发明提供了一种特征离散化技术对个人用户信用风险的识别方法,解决现有信用风险模型使用的个人征信数据分布上存在聚点,如果使用传统WOE分箱-逻辑回归训练流程进行建模,会造成模型不稳定,对于聚点部分样本预测有偏差。
为了达到上述目的,本发明采用如下技术方案:
一种特征离散化技术对个人用户信用风险的识别方法,包括:
步骤1、提取历史客户征信数据并进行标签标记,其中,标签包括正常还款客户和违约客户,历史客户征信数据包括借贷行和基础信息,借贷行为包括信用卡数指标和贷款笔数指标,基础信息包括年龄指标;
步骤2、基于历史客户征信数据中的各指标结合标签标记计算各指标的IV值,再基于业务经验和IV值筛选出IV值较高且符合业务逻辑的指标构成入模指标池,并对入模指标池中的指标进行区间划分以及WOE转换,得到各指标相应的WOEA特征,其中,A表示A指标;
步骤3、基于各指标的WOEA特征获取黏连指标、孤立指标和黏连类,对于黏连指标,获取每个指标的
Figure RE-GDA0003346111350000031
特征作为有效特征,对于孤立指标,获取WOEA特征作为有效特征,对于黏连类,获取对应黏连类的黏连边缘特征
Figure RE-GDA0003346111350000032
作为有效特征,其中,
Figure RE-GDA0003346111350000033
表示第k个黏连类Sk的黏连边缘特征;
步骤4、将有效特征作为入模变量,使用Logistic方法进行建模,得到最终的违约概率预测模型;
步骤5、提取待预测线上客户的征信数据,将征信数据输入违约概率预测模型对待预测的线上客户进行违约概率预测。
进一步,步骤1的具体步骤为:
获取xml格式的历史客户征信数据,其中,历史客户征信数据包括的指标数为2000个以上;
将xml格式的历史客户征信数据结构化;
将结构化后的历史客户征信数据以数据库或文件的形式进行存储;
基于存储的结构化后的历史客户征信数据所对应的各历史客户在商业银行中的违约记录,对结构化后的历史客户征信数据进行正常还款客户和违约客户标签标记。
进一步,步骤3的具体步骤为:
步骤3.1、基于WOE分解算法将各指标的WOEA特征拆解为
Figure RE-GDA0003346111350000034
Figure RE-GDA0003346111350000035
两个特征;
步骤3.2、计算各指标的
Figure RE-GDA0003346111350000041
特征的pearson相关系数矩阵
Figure RE-GDA0003346111350000042
并基于pearson 相关系数矩阵
Figure RE-GDA0003346111350000043
将指标划分为孤立指标和黏连指标;
步骤3.3、基于pearson相关系数矩阵
Figure RE-GDA0003346111350000044
构造黏连指标之间的距离函数,并依据距离函数使用层次聚类算法对黏连指标进行聚类,聚类后得到多个黏连类,再基于各黏连类得到与黏连类相对应的黏连边缘特征
Figure RE-GDA0003346111350000045
步骤3.4、对于黏连指标,取每个指标的
Figure RE-GDA0003346111350000046
特征作为有效特征,对于孤立指标,取WOEA特征作为有效特征,对于黏连类,取黏连类相对应的黏连边缘特征
Figure RE-GDA0003346111350000047
作为有效特征。
进一步,步骤3.1的具体为:
基于WOE分解算法将各指标的WOEA特征拆解为
Figure RE-GDA0003346111350000048
Figure RE-GDA0003346111350000049
两个特征的计算公式如下:
Figure RE-GDA00033461113500000410
Figure RE-GDA00033461113500000411
Figure RE-GDA00033461113500000412
其中,Logit表示逻辑回归函数,x表示指标A的取值,xA表示x经过区间划分后所在的区间,
Figure RE-GDA00033461113500000413
表示x分箱后的边缘箱,分箱即指区间划分,P(Y=1|C)表示在条件C下的违约概率,
Figure RE-GDA00033461113500000414
为边缘分量,包含边缘信息;
Figure RE-GDA00033461113500000415
为非边缘分量,包含非边缘信息。
进一步,步骤3.2的具体步骤为:
步骤3.21、取各个指标的
Figure RE-GDA00033461113500000416
特征,计算两两指标之间的pearson相关系数,得到pearson相关系数矩阵
Figure RE-GDA00033461113500000417
步骤3.22、基于pearson相关系数矩阵
Figure RE-GDA00033461113500000418
找出所有pearson相关系数大于
Figure RE-GDA00033461113500000419
的指标对,对于pearson相关系数大于
Figure RE-GDA00033461113500000420
的指标对,定义两个指标之间存在黏连关系,并将两个指标都划分为黏连指标,反之,划分为孤立指标,其中,
Figure RE-GDA00033461113500000421
为给定的相关性阈值,取值为0.5-0.8,阈值越大判定越严格。
进一步,步骤3.3的具体步骤为:
步骤3.31、基于pearson相关系数矩阵
Figure RE-GDA0003346111350000051
构造黏连指标之间的距离函数,即:对于任意两个黏连指标A和B,定义A和B之间的距离为:
Figure RE-GDA0003346111350000052
步骤3.32、基于黏连指标之间的距离D得到度量矩阵,并基于度量矩阵以及给定的聚类距离阈值
Figure RE-GDA0003346111350000053
使用层次聚类方法进行聚类,即将两两间的距离小于
Figure RE-GDA0003346111350000054
的黏连指标被划定为同一类,聚类后得到多个黏连类,将所有黏连类构成的类族记为
Figure RE-GDA0003346111350000055
其中,
Figure RE-GDA0003346111350000056
为给定的距离阈值,取值为0.2-0.4,阈值越小判定越严格,
Figure RE-GDA0003346111350000057
包括黏连类S1,S2, Sk...Sm,Sm表示第m个黏连类,k为变量,取值范围为1-m,黏连类S1的指标总数为ns1,S1,i表示黏连类S1的第i个黏连指标;
步骤3.33、取黏连类S1的所有指标S11,S12...,S1ns1,对各指标的
Figure RE-GDA0003346111350000058
特征进行求和:
Figure RE-GDA0003346111350000059
再对
Figure RE-GDA00033461113500000510
中余下的黏连类S2,Sk...Sm进行以上操作,得到各黏连类对应的黏连边缘特征
Figure RE-GDA00033461113500000511
进一步,步骤4的建模过程中使用Cross-Validation或者设置L1和L2惩罚项对模型参数进行限制得到最终违约概率预测模型。
本发明同现有技术相比,其有益效果表现在:
1.本发明中的WOE拆解算法能够去除聚点造成的逻辑回归模型应用上的缺陷,修复了模型在预测聚点部分数据产生偏差从而造成模型不稳定的问题;
2.本发明与传统修复非均匀样本方法相比,属于一种对于模型系数做的局部修复,不影响数据完整性,保留的有效数据信息更多,最终得到的模型具有更强的预测能力以及泛化能力。
具体实施方式
一种特征离散化技术对个人用户信用风险的识别方法,包括:
步骤1、提取历史客户征信数据并进行标签标记,其中,标签包括正常还款客户和违约客户,历史客户征信数据包括借贷行和基础信息,借贷行为包括信用卡数指标和贷款笔数指标,基础信息包括年龄指标;
具体步骤为:
获取xml格式的历史客户征信数据,其中,历史客户征信数据包括的指标数为2000个以上;
将xml格式的历史客户征信数据结构化;
将结构化后的历史客户征信数据以数据库或文件的形式进行存储;
基于存储的结构化后的历史客户征信数据所对应的各历史客户在商业银行中的违约记录,对结构化后的历史客户征信数据进行正常还款客户和违约客户标签标记。
提取历史客户征信数据并进行标签标记如下表所示,包括信用卡数、贷款笔数和年龄指标,是否违约为违约标签。
用户 信用卡数 贷款数 年龄 是否违约
00001 0 0 25 0
00002 3 3 25 0
00003 1 0 30 1
00004 2 1 35 0
00005 0 0 35 0
00006 1 0 30 1
... ... ... ... ...
步骤2、基于历史客户征信数据中的各指标结合标签标记计算各指标的IV值,再基于业务经验和IV值筛选出IV值较高且符合业务逻辑(如某个指标-负债总额,从业务逻辑角度期望负债总额越高的客户违约率越高即符合业务逻辑,但是如果从历史客户征信数据上发现负债总额约高违约率越低即不符合业务逻辑)的指标构成入模指标池,并对入模指标池中的指标进行区间划分以及WOE转换,得到各指标相应的WOEA特征,其中,A表示A指标;
基于业务经验和IV值筛选出入模指标池,如信用卡数、贷款笔数和年龄进入入模指标池,再对入模指标池中的指标进行分箱,即指区间划分,如下表所示:
用户 箱体信用卡数 箱体贷款数 箱体年龄
00001 (-inf,0] (-inf,0] (20,25]
00002 (1,3] (1,3] (20,25]
... ... ... ...
对于每个指标的每个箱体计算WOE特征特征,具体如下表:
Figure RE-GDA0003346111350000061
Figure RE-GDA0003346111350000071
步骤3、基于各指标的WOEA特征获取黏连指标、孤立指标和黏连类,对于黏连指标,获取每个指标的
Figure RE-GDA0003346111350000072
特征作为有效特征,对于孤立指标,获取WOEA特征作为有效特征,对于黏连类,获取对应黏连类的黏连边缘特征
Figure RE-GDA0003346111350000073
作为有效特征,其中,
Figure RE-GDA0003346111350000074
表示第k个黏连类Sk的黏连边缘特征;
具体步骤为:
步骤3.1、基于WOE分解算法将各指标的WOEA特征拆解为
Figure RE-GDA0003346111350000075
Figure RE-GDA0003346111350000076
两个特征;具体为:
基于WOE分解算法将各指标的WOEA特征拆解为
Figure RE-GDA0003346111350000077
Figure RE-GDA0003346111350000078
两个特征的计算公式如下:
Figure RE-GDA0003346111350000079
Figure RE-GDA00033461113500000710
Figure RE-GDA00033461113500000711
其中,Logit表示逻辑回归函数,x表示指标A的取值,xA表示x经过区间划分后所在的区间,
Figure RE-GDA00033461113500000712
表示x分箱后的边缘箱,分箱即指区间划分,P(Y=1|C)表示在条件C下的违约概率,
Figure RE-GDA00033461113500000713
为边缘分量,包含边缘信息;
Figure RE-GDA00033461113500000714
为非边缘分量,包含非边缘信息。具体如下表所示,其中,WOE1信用卡数指
Figure RE-GDA00033461113500000715
WOE1年龄指
Figure RE-GDA00033461113500000716
WOE2信用卡数指
Figure RE-GDA00033461113500000717
WOE2贷款数指
Figure RE-GDA00033461113500000718
WOE2年龄指
Figure RE-GDA00033461113500000719
如下表:
Figure RE-GDA00033461113500000720
Figure RE-GDA0003346111350000081
步骤3.2、计算各指标的
Figure RE-GDA0003346111350000082
特征的pearson相关系数矩阵
Figure RE-GDA0003346111350000083
并基于pearson 相关系数矩阵
Figure RE-GDA0003346111350000084
将指标划分为孤立指标和黏连指标;
具体步骤为:
步骤3.21、取各个指标的
Figure RE-GDA0003346111350000085
特征,计算两两指标之间的pearson相关系数,得到pearson相关系数矩阵
Figure RE-GDA0003346111350000086
步骤3.22、基于pearson相关系数矩阵
Figure RE-GDA0003346111350000087
找出所有pearson相关系数大于
Figure RE-GDA0003346111350000088
的指标对,对于pearson相关系数大于
Figure RE-GDA0003346111350000089
的指标对,定义两个指标之间存在黏连关系,并将两个指标都划分为黏连指标,反之,划分为孤立指标,其中,
Figure RE-GDA00033461113500000810
为给定的相关性阈值,取值为0.5-0.8,阈值越大判定越严格。具体如下表所示:
Figure RE-GDA00033461113500000811
Figure RE-GDA00033461113500000812
设为0.8,由于WOE1信用卡数与WOE1贷款数的pearson相关系数取值为0.95大于0.8,所以定义WOE1信用卡数与WOE1贷款数对应的信用卡数和贷款数这两个指标存在黏连,被划定为黏连指标。年龄与其他指标相关系数均小于0.8,故不存在与之黏连的指标,被划定为孤立指标。
步骤3.3、基于pearson相关系数矩阵
Figure RE-GDA00033461113500000813
构造黏连指标之间的距离函数,并依据距离函数使用层次聚类算法对黏连指标进行聚类,聚类后得到多个黏连类,再基于各黏连类得到与黏连类相对应的黏连边缘特征
Figure RE-GDA00033461113500000814
具体步骤为:
步骤3.31、基于pearson相关系数矩阵
Figure RE-GDA0003346111350000091
构造黏连指标之间的距离函数,即:对于任意两个黏连指标A和B,定义A和B之间的距离为:
Figure RE-GDA0003346111350000092
步骤3.32、基于黏连指标之间的距离D得到度量矩阵,并基于度量矩阵以及给定的聚类距离阈值
Figure RE-GDA0003346111350000093
使用层次聚类方法进行聚类,即将两两间的距离小于
Figure RE-GDA0003346111350000094
的黏连指标被划定为同一类,聚类后得到多个黏连类,将所有黏连类构成的类族记为
Figure RE-GDA0003346111350000095
其中,
Figure RE-GDA0003346111350000096
为给定的距离阈值,取值为0.2-0.4,阈值越小判定越严格,
Figure RE-GDA0003346111350000097
包括黏连类S1,S2, Sk...Sm,Sm表示第m个黏连类,k为变量,取值范围为1-m,黏连类S1的指标总数为ns1,S1,i表示黏连类S1的第i个黏连指标;
基于pearson相关系数矩阵
Figure RE-GDA0003346111350000098
和距离函数得到黏连指标的度量矩阵,如下表:
Figure RE-GDA0003346111350000099
Figure RE-GDA00033461113500000910
设为0.4,由于WOE1信用卡数(即指
Figure RE-GDA00033461113500000911
)与WOE1贷款数(即指
Figure RE-GDA00033461113500000912
)距离小于0.4,所以WOE1信用卡数与WOE1贷款数对应的信用卡数和贷款数两个指标被划为同一类,将该类记为S1,同理,得到其它类。
步骤3.33、取黏连类S1的所有指标S11,S12...,S1ns1,对各指标的
Figure RE-GDA00033461113500000913
特征进行求和:
Figure RE-GDA00033461113500000914
再对
Figure RE-GDA00033461113500000915
中余下的黏连类S2,Sk...Sm进行以上操作,得到各黏连类对应的黏连边缘特征
Figure RE-GDA00033461113500000916
S1中两个指标为信用卡数和贷款数,计算S1对应的黏连边缘特征为
Figure RE-GDA00033461113500000917
根据信用卡数和贷款数的
Figure RE-GDA00033461113500000918
特征如下表所示:
Figure RE-GDA00033461113500000919
Figure RE-GDA0003346111350000101
进行列向量求和得到如下表:
Figure RE-GDA0003346111350000102
步骤3.4、对于黏连指标“信用卡数和贷款数”取每个指标的
Figure RE-GDA0003346111350000103
特征作为有效特征,对于孤立指标“年龄”,取WOEA特征作为有效特征,对于黏连类,取黏连边缘特征
Figure RE-GDA0003346111350000104
作为有效特征。
步骤4、将有效特征作为入模变量,使用Logistic方法进行建模,得到最终的违约概率预测模型;建模过程中使用Cross-Validation或者设置L1和L2惩罚项对模型参数进行限制得到最终违约概率预测模型。
步骤5、提取待预测线上客户的征信数据,将征信数据输入违约概率预测模型对待预测的线上客户进行违约概率预测。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (7)

1.一种特征离散化技术对个人用户信用风险的识别方法,其特征在于,包括:
步骤1、提取历史客户征信数据并进行标签标记,其中,标签包括正常还款客户和违约客户,历史客户征信数据包括借贷行和基础信息,借贷行为包括信用卡数指标和贷款笔数指标,基础信息包括年龄指标;
步骤2、基于历史客户征信数据中的各指标结合标签标记计算各指标的IV值,再基于业务经验和IV值筛选出IV值较高且符合业务逻辑的指标构成入模指标池,并对入模指标池中的指标进行区间划分以及WOE转换,得到各指标相应的WOEA特征,其中,A表示A指标;
步骤3、基于各指标的WOEA特征获取黏连指标、孤立指标和黏连类,对于黏连指标,获取每个指标的
Figure FDA0003281291700000011
特征作为有效特征,对于孤立指标,获取WOEA特征作为有效特征,对于黏连类,获取对应黏连类的黏连边缘特征
Figure FDA0003281291700000012
作为有效特征,其中,
Figure FDA0003281291700000013
表示第k个黏连类Sk的黏连边缘特征;
步骤4、将有效特征作为入模变量,使用Logistic方法进行建模,得到最终的违约概率预测模型;
步骤5、提取待预测线上客户的征信数据,将征信数据输入违约概率预测模型对待预测的线上客户进行违约概率预测。
2.根据权利要求1所述的一种特征离散化技术对个人用户信用风险的识别方法,其特征在于,步骤1的具体步骤为:
获取xml格式的历史客户征信数据,其中,历史客户征信数据包括的指标数为2000个以上;
将xml格式的历史客户征信数据结构化;
将结构化后的历史客户征信数据以数据库或文件的形式进行存储;
基于存储的结构化后的历史客户征信数据所对应的各历史客户在商业银行中的违约记录,对结构化后的历史客户征信数据进行正常还款客户和违约客户标签标记。
3.根据权利要求1所述的一种特征离散化技术对个人用户信用风险的识别方法,其特征在于,步骤3的具体步骤为:
步骤3.1、基于WOE分解算法将各指标的WOEA特征拆解为
Figure FDA0003281291700000014
Figure FDA0003281291700000015
两个特征;
步骤3.2、计算各指标的
Figure FDA0003281291700000016
特征的pearson相关系数矩阵
Figure FDA0003281291700000017
并基于pearson相关系数矩阵
Figure FDA0003281291700000018
将指标划分为孤立指标和黏连指标;
步骤3.3、基于pearson相关系数矩阵
Figure FDA0003281291700000021
构造黏连指标之间的距离函数,并依据距离函数使用层次聚类算法对黏连指标进行聚类,聚类后得到多个黏连类,再基于各黏连类得到与黏连类相对应的黏连边缘特征
Figure FDA0003281291700000022
步骤3.4、对于黏连指标,取每个指标的
Figure FDA0003281291700000023
特征作为有效特征,对于孤立指标,取WOEA特征作为有效特征,对于黏连类,取黏连类相对应的黏连边缘特征
Figure FDA0003281291700000024
作为有效特征。
4.根据权利要求3所述的一种特征离散化技术对个人用户信用风险的识别方法,其特征在于,步骤3.1的具体为:
基于WOE分解算法将各指标的WOEA特征拆解为
Figure FDA0003281291700000025
Figure FDA0003281291700000026
两个特征的计算公式如下:
Figure FDA0003281291700000027
Figure FDA0003281291700000028
Figure FDA0003281291700000029
其中,Logit表示逻辑回归函数,x表示指标A的取值,xA表示x经过区间划分后所在的区间,
Figure FDA00032812917000000210
表示x分箱后的边缘箱,分箱即指区间划分,P(Y=1|C)表示在条件C下的违约概率,
Figure FDA00032812917000000211
为边缘分量,包含边缘信息;
Figure FDA00032812917000000212
为非边缘分量,包含非边缘信息。
5.根据权利要求4所述的一种特征离散化技术对个人用户信用风险的识别方法,其特征在于,步骤3.2的具体步骤为:
步骤3.21、取各个指标的
Figure FDA00032812917000000213
特征,计算两两指标之间的pearson相关系数,得到pearson相关系数矩阵
Figure FDA00032812917000000214
步骤3.22、基于pearson相关系数矩阵
Figure FDA00032812917000000215
找出所有pearson相关系数大于
Figure FDA00032812917000000216
的指标对,对于pearson相关系数大于
Figure FDA00032812917000000217
的指标对,定义两个指标之间存在黏连关系,并将两个指标都划分为黏连指标,反之,划分为孤立指标,其中,
Figure FDA00032812917000000218
为给定的相关性阈值,取值为0.5-0.8,阈值越大判定越严格。
6.根据权利要求5所述的一种特征离散化技术对个人用户信用风险的识别方法,其特征在于,步骤3.3的具体步骤为:
步骤3.31、基于pearson相关系数矩阵
Figure FDA0003281291700000031
构造黏连指标之间的距离函数,即:对于任意两个黏连指标A和B,定义A和B之间的距离为:
Figure FDA0003281291700000032
步骤3.32、基于黏连指标之间的距离D得到度量矩阵,并基于度量矩阵以及给定的聚类距离阈值
Figure FDA0003281291700000033
使用层次聚类方法进行聚类,即将两两间的距离小于
Figure FDA0003281291700000034
的黏连指标被划定为同一类,聚类后得到多个黏连类,将所有黏连类构成的类族记为
Figure FDA0003281291700000035
其中,
Figure FDA0003281291700000036
为给定的距离阈值,取值为0.2-0.4,阈值越小判定越严格,
Figure FDA0003281291700000037
包括黏连类S1,S2,Sk...Sm,Sm表示第m个黏连类,k为变量,取值范围为1-m,黏连类S1的指标总数为ns1,S1,i表示黏连类S1的第i个黏连指标;
步骤3.33、取黏连类S1的所有指标S1x,S12...,S1ns1,对各指标的
Figure FDA0003281291700000038
特征进行求和:
Figure FDA0003281291700000039
再对
Figure FDA00032812917000000310
中余下的黏连类S2,Sk...Sm进行以上操作,得到各黏连类对应的黏连边缘特征
Figure FDA00032812917000000311
7.据权利要求1所述的一种特征离散化技术对个人用户信用风险的识别方法,其特征在于,步骤4的建模过程中使用Cross-Validation或者设置L1和L2惩罚项对模型参数进行限制得到最终违约概率预测模型。
CN202111134069.XA 2021-09-27 2021-09-27 一种特征离散化技术对个人用户信用风险的识别方法 Active CN113822755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111134069.XA CN113822755B (zh) 2021-09-27 2021-09-27 一种特征离散化技术对个人用户信用风险的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111134069.XA CN113822755B (zh) 2021-09-27 2021-09-27 一种特征离散化技术对个人用户信用风险的识别方法

Publications (2)

Publication Number Publication Date
CN113822755A true CN113822755A (zh) 2021-12-21
CN113822755B CN113822755B (zh) 2023-09-05

Family

ID=78915629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111134069.XA Active CN113822755B (zh) 2021-09-27 2021-09-27 一种特征离散化技术对个人用户信用风险的识别方法

Country Status (1)

Country Link
CN (1) CN113822755B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256691A (zh) * 2018-02-08 2018-07-06 成都智宝大数据科技有限公司 还款概率预测模型构建方法及装置
CN109360084A (zh) * 2018-09-27 2019-02-19 平安科技(深圳)有限公司 征信违约风险的评估方法及装置、存储介质、计算机设备
WO2019194696A1 (ru) * 2018-04-04 2019-10-10 Публичное Акционерное Общество "Сбербанк России" Автоматизированная система разработки и управления моделями скоринга
CN110909963A (zh) * 2018-09-14 2020-03-24 中国软件与技术服务股份有限公司 一种信用评分卡模型训练方法及纳税人非正常风险评估方法
CN111080397A (zh) * 2019-11-18 2020-04-28 支付宝(杭州)信息技术有限公司 信用评估方法、装置及电子设备
US20200250185A1 (en) * 2003-08-12 2020-08-06 Russell Wayne Anderson System and method for deriving merchant and product demographics from a transaction database
CN112116184A (zh) * 2019-06-21 2020-12-22 因斯派克托里奥股份有限公司 使用历史检验数据的工厂风险估计
CN112330048A (zh) * 2020-11-18 2021-02-05 中国光大银行股份有限公司 评分卡模型训练方法、装置、存储介质及电子装置
CN113177839A (zh) * 2021-05-20 2021-07-27 中国建设银行股份有限公司 一种信用风险评估方法、装置、存储介质和设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200250185A1 (en) * 2003-08-12 2020-08-06 Russell Wayne Anderson System and method for deriving merchant and product demographics from a transaction database
CN108256691A (zh) * 2018-02-08 2018-07-06 成都智宝大数据科技有限公司 还款概率预测模型构建方法及装置
WO2019194696A1 (ru) * 2018-04-04 2019-10-10 Публичное Акционерное Общество "Сбербанк России" Автоматизированная система разработки и управления моделями скоринга
CN110909963A (zh) * 2018-09-14 2020-03-24 中国软件与技术服务股份有限公司 一种信用评分卡模型训练方法及纳税人非正常风险评估方法
CN109360084A (zh) * 2018-09-27 2019-02-19 平安科技(深圳)有限公司 征信违约风险的评估方法及装置、存储介质、计算机设备
CN112116184A (zh) * 2019-06-21 2020-12-22 因斯派克托里奥股份有限公司 使用历史检验数据的工厂风险估计
WO2020257782A1 (en) * 2019-06-21 2020-12-24 Inspectorio Inc. Factory risk estimation using historical inspection data
CN111080397A (zh) * 2019-11-18 2020-04-28 支付宝(杭州)信息技术有限公司 信用评估方法、装置及电子设备
CN112330048A (zh) * 2020-11-18 2021-02-05 中国光大银行股份有限公司 评分卡模型训练方法、装置、存储介质及电子装置
CN113177839A (zh) * 2021-05-20 2021-07-27 中国建设银行股份有限公司 一种信用风险评估方法、装置、存储介质和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
井浩杰;彭江艳;: "P2P网贷平台借款人信用风险评估", 厦门理工学院学报, no. 06 *
龙辉辉: "基于机器学习的信贷风控预警方法研究与原型实现", 《中国优秀硕士学位论文全文数据库.信息科技辑》 *

Also Published As

Publication number Publication date
CN113822755B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN109657947B (zh) 一种面向企业行业分类的异常检测方法
Pal et al. Development of a hybrid methodology for dimensionality reduction in Mahalanobis–Taguchi system using Mahalanobis distance and binary particle swarm optimization
CN106469560B (zh) 一种基于无监督域适应的语音情感识别方法
CN109409677A (zh) 企业信用风险评估方法、装置、设备及存储介质
CN109739844B (zh) 基于衰减权重的数据分类方法
CN110415111A (zh) 基于用户数据与专家特征合并逻辑回归信贷审批的方法
CN106447490A (zh) 一种基于用户画像的征信应用方法
CN113420145B (zh) 一种基于半监督学习的招标文本分类方法与系统
CN107633030A (zh) 基于数据模型的信用评估方法及装置
CN112990386B (zh) 用户价值聚类方法、装置、计算机设备和存储介质
US20200090058A1 (en) Model variable candidate generation device and method
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN110782349A (zh) 一种模型训练方法和系统
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN111951093A (zh) 一种个人信用分评分方法
Wu et al. TEDM-PU: A tax evasion detection method based on positive and unlabeled learning
CN111738870A (zh) 基于特征工程的工程履约保证保险风险识别方法与平台
CN111507528A (zh) 一种基于cnn-lstm的股票长期趋势预测方法
CN113822755A (zh) 一种特征离散化技术对个人用户信用风险的识别方法
CN114266394A (zh) 面向科技服务平台的企业画像与科技服务个性化需求预测方法
CN115034762A (zh) 一种岗位推荐方法、装置、存储介质、电子设备及产品
CN113627997A (zh) 数据处理方法、装置、电子设备及存储介质
CN113344185A (zh) 一种基于主动学习和神经网络的样本分类方法
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质
Pan Fraudulent firm classification using monotonic classification techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant