CN113870013A - 基于不平衡数据的信贷违约预测方法 - Google Patents

基于不平衡数据的信贷违约预测方法 Download PDF

Info

Publication number
CN113870013A
CN113870013A CN202111200196.5A CN202111200196A CN113870013A CN 113870013 A CN113870013 A CN 113870013A CN 202111200196 A CN202111200196 A CN 202111200196A CN 113870013 A CN113870013 A CN 113870013A
Authority
CN
China
Prior art keywords
credit
data
customer
client
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111200196.5A
Other languages
English (en)
Other versions
CN113870013B (zh
Inventor
唐科伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Fulin Technology Co ltd
Original Assignee
Zhejiang Fulin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Fulin Technology Co ltd filed Critical Zhejiang Fulin Technology Co ltd
Priority to CN202111200196.5A priority Critical patent/CN113870013B/zh
Publication of CN113870013A publication Critical patent/CN113870013A/zh
Application granted granted Critical
Publication of CN113870013B publication Critical patent/CN113870013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Algebra (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

基于不平衡数据的信贷违约预测方法,属于数据处理系统或方法技术领域,包括以下步骤:步骤S1,建立信贷违约预测系统;步骤S2,分类模型模块从客户信用资料库获取样本组成训练资料集,提取特征数值,得到最佳特征集合,然后将是否发生逾期视为二元分类问题,使用分类算法建立分类模型,并对非平衡数据的训练资料集重新取样,提升逾期样本数据在整个资料集中的比重。本方案,对非平衡数据的训练资料集重新取样,提升逾期样本数据在整个资料集中的比重,来提升分类预测系统的分类效能。

Description

基于不平衡数据的信贷违约预测方法
技术领域
本发明属于数据处理系统或方法技术领域,特别涉及基于不平衡数据的信贷违约预测方法。
背景技术
专利号为201810997190.7的中国专利公开了一种基于多视角不完整数据的信贷违约预测方法。其包括:S1、对收集的信贷信息样本中缺失的属性数据进行填充,获得完整的输入矩阵;S2、基于完整的输入矩阵构建多视角融合的目标函数,并最小化目标函数,获得最优的属性视角隶属度矩阵;S3、构建预测过程中的第二目标函数,并最小化第二目标函数,获得最优的视角权重向量;S4、输入待预测的用户信贷信息,并基于最优的属性视角隶属度矩阵和视角权重向量,对用户信贷违约概率进行预测。
上述方案中,信贷信息样本包括信贷用户填写的个人信息。相关个人信息均需要提供证明文件,再由放贷人员以电话或者面洽的方式来查证,过程相当耗时。且由于申请人提供的证明文件存在造假的风险,从而影响放贷人员的授信判断。
另外,其所采用的特征数量多,一来增加了计算的复杂度,二来将有些不重要的特征也考虑在内,而这些特征是没有必要存在的。
其次,建立模型的训练特征存在不平衡数据。银行从业者在发放贷款的过程中需要判断贷款的客户是否会违约。通常真正会违约的客户会明显少于不会违约的客户。所以,假如使用传统的预测模型,其只需要将所有客户均判定为不会违约,就能达到较高的预测准确性。但是,其难以满足银行从业者的初衷,即真正想要找出的是会违约的客户。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供基于不平衡数据的信贷违约预测方法。
为了达到上述目的,本发明采取了以下的技术方案。
基于不平衡数据的信贷违约预测方法,包括以下步骤:
步骤S1,建立信贷违约预测系统;信贷违约预测系统包括:征信中心、后端存储模块、客户信用资料库、分类模型模块、等级评定模块、人工审核模块;
所述后端存储模块和征信中心通信连接;所述后端存储模块向征信中心查询并获取客户信用资料,并将客户信用资料发送至客户信用资料库存储;
所述分类模型模块与客户信用资料库连接;所述分类模型模块从客户信用资料库获得个人信用资料,并以是否发送逾期作为资料分类的类别依据,对训练特征集进行训练,并建立分类模型;然后利用分类模型对查询自征信中心的客户资料进行预测;
所述等级评定模块连接有分类模型模块、人工审核模块;所述等级评定模块接收分类模型模块的预测结果,并将预测结果转换为信用等级后传输至人工审核模块,供审核人员参考使用;
所述客户信用资料库连接有人工审核模块;所述客户信用资料库将客户信用资料输送至人工审核模块,供审核人员参考使用;
步骤S2,分类模型模块从客户信用资料库获取样本组成训练特征集,提取特征数值,得到最佳特征集合,并对非平衡数据的训练特征集重新取样,提升逾期样本数据在整个资料集中的比重;然后将是否发生逾期视为二元分类问题,使用分类算法建立分类模型;
步骤S3,建立模型之后,后端存储模块向征信中心查询并获取客户信用资料,并将客户信用资料发送至客户信用资料库存储;客户信用资料库同时将该客户信用资料发送至分类模型模块和等级评定模块;分类模型模块给出二元预测结果;等级评定模块将从分类模型模块获取的二元预测结果转换为四元预测结果的映射;人工审核模块从客户信用资料库获得客户信用资料,并从等级评定模块获得四元预测结果。
进一步,步骤S2中,授信之后是否发生逾期,是一个二元分类问题;发生逾期的案例为坏客户案例,以A+表示,其类别标记为+1;没有发生逾期的案例为好客户案例,以A-表示,其类别标记为-1;
其中,提取特征得到最佳特征集合的过程如下:
步骤S201,首先对每个特征赋予一个特征数值;
步骤S202,然后,采用统计法来评估每个特征对于其类别的影响;特征的影响因子Y计算如下:
Y=
Figure 698056DEST_PATH_IMAGE001
其中,
Figure 502326DEST_PATH_IMAGE002
为第j个特征在坏客户案例样本中特征数值的平均值;
Figure 249702DEST_PATH_IMAGE003
为第j个特征在好客户案例样本中特征数值的平均值;
Figure 132207DEST_PATH_IMAGE004
为第j个特征在坏客户案例样本中特征数值的标准差;
Figure 219112DEST_PATH_IMAGE005
为第j个特征在好客户案例样本中特征数值的标准差;
特征的影响因子Y越大,表示此特征对于坏客户案例和好客户案例的鉴别能力越好;选取影响因子Y高于经验值的特征组成特征集合。
进一步,步骤S2中,对非平衡数据的训练特征集重新取样,其过程如下:
步骤S211,从训练特征集中选取含有一个固定特征的案例作为样本并计算R(A+)值和R(A-)值;
坏客户案例样本需要增加的总个数R(A+)为:R(A+)= nY(C)-nY(A+);
好客户案例样本需要减少的总个数R(A-)为:R(A-)= nY(A-)-nY(C);
其中,Y为影响因子; nY(C)为影响因子为Y的样本个数中间值;nY(A+)为影响因子为Y的坏客户案例A+样本个数;nY(A-)为影响因子为Y的好客户案例(A-)样本个数;
步骤S212,将坏客户案例样本个数nY(A+)个分成k1个区间,并将好客户案例样本nY(A-)个分成k2个区间;
区间数k1计算式为:k1=1.87(nY(A+)-1)2/5
区间数k2计算式为:k2=1.87(nY(A-)-1)2/5
步骤S213,计算出各个区间所夹的概率;
样本
Figure 958398DEST_PATH_IMAGE006
的标准常态分配的转换公式为:
Figure 130753DEST_PATH_IMAGE007
其中,
Figure 348108DEST_PATH_IMAGE008
表示第j个影响因子为Y的样本;
Figure 820678DEST_PATH_IMAGE009
表示影响因子为Y的样本平均值;
Figure 668548DEST_PATH_IMAGE010
表示影响因子为Y的样本标准差;
计算区间的概率为:
Figure 390516DEST_PATH_IMAGE011
其中,P为区间的概率;
Figure 349245DEST_PATH_IMAGE012
为区间中的最小值;
Figure 207480DEST_PATH_IMAGE013
为区间中的最大值;
步骤S214,计算各区间所需要增加坏客户案例样本个数S1以及减少好客户案例样本个数S2;
各区间所需要增加坏客户案例样本个数S1的公式为:S1=P×R(A+);
各区间所需要减少好客户案例样本个数S2的公式为:S2=P×R(A-)。
步骤S215,产生数值并加入坏客户案例样本;
此时,步骤S214中的增加S1个样本的公式为:
Figure 491830DEST_PATH_IMAGE014
并直接从好客户案例样本内随机减少步骤S214所计算出来的S2个样本;
其中,r(0~1) 为随机数0~1;
步骤S216,检查训练特征集中内各特征的样本是否已经为平衡状态,如果训练特征集处于不平衡状态,则重新平衡资料集,回到步骤S211;如果训练特征集处于已经平衡,则得到平衡数据集。
进一步,步骤S2中,将是否发生逾期视为二元分类问题,使用分类算法建立分类模型,其过程如下:
采用支撑矢量法对于分类问题提供最佳化的处理方案,建立分类模型;
步骤S221,给予一个训练特征集
Figure 638778DEST_PATH_IMAGE015
,其中,xi表示每组中的第i个特征点,一共有n组特征点Rn,因此,xi∈Rn,yi=(-1,+1)表示xi特征点对应的类别标记,m为每组中特征点的总个数,因此,整个训练特征集代表在n维空间中,m个带有类别标记的特征点;将这些特征点用m×n的矩阵A来存储,其中,第i列即代表xi;另外定义一个对角矩阵D,对角矩阵D中每一对角元素Dii代表yi
步骤S222,训练特征集为线性可分割,因此存在一个分割平面xtw+b=0,用以正确地区分两类特征点,其中,w为分割平面的法矢量,b为分割平面和原点的距离;特征点与界限平面的关系如下公式:
Figure 463515DEST_PATH_IMAGE016
该公式表述为两条平行实线;其中,xt表示每组中的第t个特征点;A+表示坏客户案例的集合,A-表示好客户案例的集合;该公式表示的两条平行实线所在界限平面的间距,为
Figure 379518DEST_PATH_IMAGE017
步骤S223,二元分类问题的目的在于搜寻最大间距的分割平面,即在训练特征集为线性可分割的限制条件下,求解
Figure 569191DEST_PATH_IMAGE018
的最小解,二元分类问题用目标函数表示如下:
Figure 265751DEST_PATH_IMAGE019
其中,
Figure 566283DEST_PATH_IMAGE020
;目标函数为二次凸面函数,存在一最佳解(w*,b*);在界面平面xtw*+b*=±1上的特征点称为支撑矢量;取得支撑矢量即可建立分类模型。
进一步,步骤S3中,分类模型模块给出二元预测结果,其过程如下: 根据分类模型模确立的特征集合,从客户信用资料中选取特征并赋予其特征数值;然后通过分类模型对客户信用资料进行评分,即将特征数值xt依次代入xtw*+b*=D,并取D的最大值作为评分结果,评分结果以0为分界线,大于0表示预测其可能发生逾期放款,反之则表示可能为正常客户。
进一步,步骤S3中,等级评定模块将从分类模型模块获取的二元预测结果转换为四元预测结果的映射,其过程如下:将原本输出的分类问题的二元预测结果扩展为四元预测结果,四元预测结果分别为:极可能发生逾期、可能发生逾期、可能为正常客户、极可能为正常客户,用门槛值对四元预测结果进行区分,
极可能发生逾期的门槛值:D≥5.2;
可能发生逾期的门槛值:5.2>D≥0;
可能为正常客户的门槛值:0>D>-3.8;
极可能为正常客户的门槛值:D≤-3.8。
本发明,具有以下优点:
1.本方案,对非平衡数据的训练特征集重新取样,提升逾期样本数据在整个资料集中的比重,来提升分类预测系统的分类效能,可以合理的提升分类预测系统的预测正确性并减少训练分类系统的时间。
2.本方案,只采用了征信中心提供的个人信用报告作为特征资料,避免了因为核实申请书中相关个人信息的查证过程,可以较低廉的成本来分析、运用征信中心的个人历史信用资料,并且统一审核的标准、降低人员审核差异外,还可以提升核贷的品质。
3.本方案,希望以较少的特征数量来获得更高的系统准确率,其中,最高可以减少34.38%的特征数量,从而提升分类预测系统的分类效能。
附图说明
图1是本发明的结构示意图;
图2是统计法来评估每个特征的影响因子Y示意图;
图3为区间所需增加S1个示意图;
图4为区间所需减少S2个示意图;
图5为线性可分割资料的空间图。
具体实施方式
下面结合附图,对本发明作进一步详细说明。
实务上,在做个人信用评估时,可以从两个地方获取所需的资料:
1,申请书中填写的相关个人信息。相关个人信息均需要提供证明文件,再由放贷人员以电话或者面洽的方式来查证,过程相当耗时。且由于申请人提供的证明文件存在造假的风险,从而影响放贷人员的授信判断。
2,征信中心提供的个人信用报告。
目前,很多大型银行均已经导入电子核贷系统来辅助放贷人员办理授信业务。电子核贷系统除了统一审核的标准、降低人员审核差异外,还可以提升核贷的品质。一般电子核贷系统采用的核心技术不外乎使用决策树、类神经网络等算法。
征信中心的个人历史信用资料在银行授信的信用评级上扮演相当重要的角色。
本方案采用支撑矢量法(Support Vector Machines,SVM)对于分类问题提供最佳化的处理方案,建立分类模型,在不使用申请人提供的个人信息下,构建一套信用评价模型,将个人信用资料量化成个人的信用特征,并产生一个信用等级,以提供银行核贷的依据,降低授信的风险,提高经营的绩效。
基于不平衡数据的信贷违约预测方法,包括以下步骤:
步骤S1,建立信贷违约预测系统。
图1是本发明的结构示意图,如图1所示,信贷违约预测系统包括:征信中心、后端存储模块、客户信用资料库、分类模型模块、等级评定模块、人工审核模块。
所述后端存储模块和征信中心通信连接;所述后端存储模块向征信中心查询并获取客户信用资料,并将客户信用资料发送至客户信用资料库存储。
所述分类模型模块与客户信用资料库连接;所述分类模型模块从客户信用资料库获得个人信用资料,并以是否发送逾期作为资料分类的类别依据,对训练特征集进行训练,并建立分类模型;然后利用分类模型对查询自征信中心的客户资料进行预测。
所述等级评定模块连接有分类模型模块、人工审核模块;所述等级评定模块接收分类模型模块的预测结果,并将预测结果转换为信用等级后传输至人工审核模块,供审核人员参考使用。
所述客户信用资料库连接有人工审核模块;所述客户信用资料库将客户信用资料输送至人工审核模块,供审核人员参考使用。
步骤S2,分类模型模块从客户信用资料库获取样本组成训练特征集,提取特征数值,得到最佳特征集合,并对非平衡数据的训练特征集重新取样,提升逾期样本数据在整个资料集中的比重;然后将是否发生逾期视为二元分类问题,使用分类算法建立分类模型。
授信之后是否发生逾期,是一个二元分类问题。发生逾期的案例为坏客户案例,以A+表示,其类别标记为+1;没有发生逾期的案例为好客户案例,以A-表示,其类别标记为-1。
其中,提取特征数值,得到最佳特征集合,其过程如下:
步骤S201,首先对每个特征赋予一个特征数值。例如,赋予特征“教育程度”6个可选择的特征数值:
1,初中以下为0;
2,高中为1;
3,专科为2;
4,本科为3;
5,硕士为4;
6,博士为5。
步骤S202,然后,采用统计法来评估每个特征对于其分类(发生逾期或没有发生逾期)的影响;特征的影响因子Y计算如下:
Y=
Figure 163224DEST_PATH_IMAGE001
其中,
Figure 258219DEST_PATH_IMAGE002
为第j个特征在坏客户案例样本中特征数值的平均值;
Figure 645338DEST_PATH_IMAGE003
为第j个特征在好客户案例样本中特征数值的平均值;
Figure 811877DEST_PATH_IMAGE004
为第j个特征在坏客户案例样本中特征数值的标准差;
Figure 436893DEST_PATH_IMAGE005
为第j个特征在好客户案例样本中特征数值的标准差。
因此,当平均值的差越大或者标准差的和越小,则特征的影响因子Y越大,表示此特征对于坏客户案例和好客户案例的鉴别能力越好。选取影响因子Y高于经验值的特征组成特征集合。
举一个实例:图2是统计法来评估每个特征的影响因子Y示意图,如图2所示,假设有一个资料集,具有三个特征数值f1、f2、f3,以及两个类别好客户、坏客户。图2中,特征f2中,坏客户案例样本和好客户案例样本的平均值
Figure 30686DEST_PATH_IMAGE021
Figure 373942DEST_PATH_IMAGE022
的差
Figure 547435DEST_PATH_IMAGE023
比特征f1平均值的差
Figure 354854DEST_PATH_IMAGE024
来的大,且特征2的两个类别(+,-)的标准差
Figure 57231DEST_PATH_IMAGE025
Figure 950100DEST_PATH_IMAGE026
,看起来都比特征1和特征3的小。图2下半部可见,特征f2两个类别的交集的面积较少,若以此特征来分类应该可以获得不错的分类效果。因此,采用特征的影响因子Y,对特征进行排序,选取得分高的特征组成特征集合,将获得较好的分类效果。
对非平衡数据的训练特征集重新取样,其过程如下:
步骤S211,从训练特征集中选取含有一个固定特征的案例作为样本并计算R(A+)值和R(A-)值;
坏客户案例样本需要增加的总个数R(A+)为:R(A+)= nY(C)-nY(A+);
好客户案例样本需要减少的总个数R(A-)为:R(A-)= nY(A-)-nY(C)。
其中,Y为影响因子; nY(C)为影响因子为Y的样本个数中间值;nY(A+)为影响因子为Y的坏客户案例A+样本个数;nY(A-)为影响因子为Y的好客户案例(A-)样本个数。
步骤S212,将坏客户案例样本个数nY(A+)个分成k1个区间,并将好客户案例样本nY(A-)个分成k2个区间;
区间数k1计算式为:k1=1.87(nY(A+)-1)2/5
区间数k2计算式为:k2=1.87(nY(A-)-1)2/5
步骤S213,计算出各个区间所夹的概率;
样本
Figure 396125DEST_PATH_IMAGE006
的标准常态分配的转换公式为:
Figure 261313DEST_PATH_IMAGE007
其中,
Figure 196908DEST_PATH_IMAGE008
表示第j个影响因子为Y的样本;
Figure 514757DEST_PATH_IMAGE009
表示影响因子为Y的样本平均值;
Figure 561210DEST_PATH_IMAGE010
表示影响因子为Y的样本标准差;
计算区间的概率为:
Figure 546484DEST_PATH_IMAGE011
其中,P为区间的概率;
Figure 590663DEST_PATH_IMAGE012
为区间中的最小值;
Figure 458125DEST_PATH_IMAGE013
为区间中的最大值。
步骤S214,计算各区间所需要增加坏客户案例样本个数S1以及减少好客户案例样本个数S2;
各区间所需要增加坏客户案例样本个数S1的公式为:S1=P×R(A+);
各区间所需要减少好客户案例样本个数S2的公式为:S2=P×R(A-)。
步骤S215,产生数值并加入坏客户案例样本;
此时,如图3所示,步骤S214中的增加S1个样本的公式为:
Figure 245952DEST_PATH_IMAGE014
并直接从好客户案例样本内随机减少步骤S214所计算出来的S2个样本,如图4所示;
其中,r(0~1) 为随机数0~1。
步骤S216,检查训练特征集中内各特征的样本是否已经为平衡状态,如果训练特征集处于不平衡状态,则重新平衡资料集,回到步骤S211;如果训练特征集处于已经平衡,则得到平衡数据集。
采用不平衡率(Imbalance Rate,IR)衡量一个数据集的不平衡程度,它是指数据集中少数类样本数量与多数类样本数量的比值。不平衡率为经验值,例如,当少数类样本数量:多数类样本数量≤1/10时,可以认为是处于不平衡状态。
将是否发生逾期视为二元分类问题,使用分类算法建立分类模型,其过程如下:
采用支撑矢量法(Support Vector Machines,SVM)对于分类问题提供最佳化的处理方案,建立分类模型。
步骤S221,给予一个训练特征集
Figure 85732DEST_PATH_IMAGE015
,其中,xi表示每组中的第i个特征点,一共有n组特征点Rn,因此,xi∈Rn,yi=(-1,+1)表示xi特征点对应的类别标记,m为每组中特征点的总个数,因此,整个训练特征集代表在n维空间中,m个带有类别标记的特征点;将这些特征点用m×n的矩阵A来存储,其中,第i列(表示为Ai)即代表xi;另外定义一个对角矩阵D,对角矩阵D中每一对角元素Dii代表yi
步骤S222,训练特征集为线性可分割,因此存在一个分割平面(如图5中虚线所示)xtw+b=0,用以正确地区分两类特征点,其中,w为分割平面的法矢量,b为分割平面和原点的距离;特征点与界限平面的关系如下公式:
Figure 864595DEST_PATH_IMAGE016
该公式即为图中的两条平行实线;其中,xt表示每组中的第t个特征点;A+表示坏客户案例的集合,A-表示好客户案例的集合;Margin为该公式表示的两条平行实线所在界限平面的间距,即
Figure 891457DEST_PATH_IMAGE017
步骤S223,二元分类问题的目的在于搜寻最大的Margin的分割平面,即在训练特征集为线性可分割的限制条件下,求解
Figure 545292DEST_PATH_IMAGE018
的最小解,二元分类问题用目标函数表示如下:
Figure 239578DEST_PATH_IMAGE019
其中,
Figure 625560DEST_PATH_IMAGE020
;目标函数为二次凸面函数,存在一最佳解(w*,b*);在界面平面xtw*+b*=±1上的特征点称为支撑矢量。
如果从训练特征集中移除非支撑矢量的特征点,重新学习的结果并不会因此改变,因此,一旦获得训练结果,只要保留支撑矢量即可维持完整的分类结果。故,取得支撑矢量即可建立分类模型。
步骤S3,建立模型之后,后端存储模块向征信中心查询并获取客户信用资料,并将客户信用资料发送至客户信用资料库存储;客户信用资料库同时将该客户信用资料发送至分类模型模块和等级评定模块;分类模型模块给出二元预测结果;等级评定模块将从分类模型模块获取的二元预测结果转换为四元预测结果的映射;人工审核模块从客户信用资料库获得客户信用资料,并从等级评定模块获得四元预测结果。
分类模型模块给出二元预测结果,其过程如下: 根据分类模型模确立的特征集合,从客户信用资料中选取特征并赋予其特征数值;然后通过分类模型对客户信用资料进行评分,即将特征数值xt依次代入xtw*+b*=D,并取D的最大值作为评分结果,评分结果以0为分界线,大于0表示预测其可能发生逾期放款,反之则表示可能为正常客户。
等级评定模块将从分类模型模块获取的二元预测结果转换为四元预测结果的映射,其过程如下:将原本输出的分类问题的二元预测结果扩展为四元预测结果,四元预测结果分别为:极可能发生逾期、可能发生逾期、可能为正常客户、极可能为正常客户,用门槛值对四元预测结果进行区分,
极可能发生逾期的门槛值:D≥5.2;
可能发生逾期的门槛值:5.2>D≥0;
可能为正常客户的门槛值:0>D>-3.8;
极可能为正常客户的门槛值:D≤-3.8。
表1为四元预测结果的区分表。
Figure 467614DEST_PATH_IMAGE027
本方案,将资料集分为训练特征集和验证资料集,使用SVM建立分类模型,对预先设定的特征数值进行特征选取,挑选出最具有鉴别力的特征并提高模型预测的能力。再对于不平衡数据进行处理,提升对于可能发生逾期的客户的鉴别能力,增加对于特定类别的分类正确性。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (6)

1.基于不平衡数据的信贷违约预测方法,其特征在于,包括以下步骤:
步骤S1,建立信贷违约预测系统;信贷违约预测系统包括:征信中心、后端存储模块、客户信用资料库、分类模型模块、等级评定模块、人工审核模块;
所述后端存储模块和征信中心通信连接;所述后端存储模块向征信中心查询并获取客户信用资料,并将客户信用资料发送至客户信用资料库存储;
所述分类模型模块与客户信用资料库连接;所述分类模型模块从客户信用资料库获得个人信用资料,并以是否发送逾期作为资料分类的类别依据,对训练特征集进行训练,并建立分类模型;然后利用分类模型对查询自征信中心的客户资料进行预测;
所述等级评定模块连接有分类模型模块、人工审核模块;所述等级评定模块接收分类模型模块的预测结果,并将预测结果转换为信用等级后传输至人工审核模块,供审核人员参考使用;
所述客户信用资料库连接有人工审核模块;所述客户信用资料库将客户信用资料输送至人工审核模块,供审核人员参考使用;
步骤S2,分类模型模块从客户信用资料库获取样本组成训练特征集,提取特征数值,得到最佳特征集合,并对非平衡数据的训练特征集重新取样,提升逾期样本数据在整个资料集中的比重;然后将是否发生逾期视为二元分类问题,使用分类算法建立分类模型;
步骤S3,建立模型之后,后端存储模块向征信中心查询并获取客户信用资料,并将客户信用资料发送至客户信用资料库存储;客户信用资料库同时将该客户信用资料发送至分类模型模块和等级评定模块;分类模型模块给出二元预测结果;等级评定模块将从分类模型模块获取的二元预测结果转换为四元预测结果的映射;人工审核模块从客户信用资料库获得客户信用资料,并从等级评定模块获得四元预测结果。
2.根据权利要求1所述的基于不平衡数据的信贷违约预测方法,其特征在于,步骤S2中,授信之后是否发生逾期,是一个二元分类问题;发生逾期的案例为坏客户案例,以A+表示,其类别标记为+1;没有发生逾期的案例为好客户案例,以A-表示,其类别标记为-1;
其中,提取特征得到最佳特征集合的过程如下:
步骤S201,首先对每个特征赋予一个特征数值;
步骤S202,然后,采用统计法来评估每个特征对于其类别的影响;特征的影响因子Y计算如下:
Y=
Figure 450222DEST_PATH_IMAGE001
其中,
Figure 101783DEST_PATH_IMAGE002
为第j个特征在坏客户案例样本中特征数值的平均值;
Figure 179723DEST_PATH_IMAGE003
为第j个特征在好客户案例样本中特征数值的平均值;
Figure 309353DEST_PATH_IMAGE004
为第j个特征在坏客户案例样本中特征数值的标准差;
Figure 920463DEST_PATH_IMAGE005
为第j个特征在好客户案例样本中特征数值的标准差;
特征的影响因子Y越大,表示此特征对于坏客户案例和好客户案例的鉴别能力越好;选取影响因子Y高于经验值的特征组成特征集合。
3.根据权利要求2所述的基于不平衡数据的信贷违约预测方法,其特征在于,步骤S2中,对非平衡数据的训练特征集重新取样,其过程如下:
步骤S211,从训练特征集中选取含有一个固定特征的案例作为样本并计算R(A+)值和R(A-)值;
坏客户案例样本需要增加的总个数R(A+)为:R(A+)= nY(C)-nY(A+);
好客户案例样本需要减少的总个数R(A-)为:R(A-)= nY(A-)-nY(C);
其中,Y为影响因子; nY(C)为影响因子为Y的样本个数中间值;nY(A+)为影响因子为Y的坏客户案例A+样本个数;nY(A-)为影响因子为Y的好客户案例(A-)样本个数;
步骤S212,将坏客户案例样本个数nY(A+)个分成k1个区间,并将好客户案例样本nY(A-)个分成k2个区间;
区间数k1计算式为:k1=1.87(nY(A+)-1)2/5
区间数k2计算式为:k2=1.87(nY(A-)-1)2/5
步骤S213,计算出各个区间所夹的概率;
样本
Figure 742926DEST_PATH_IMAGE006
的标准常态分配的转换公式为:
Figure 744380DEST_PATH_IMAGE007
其中,
Figure 740017DEST_PATH_IMAGE008
表示第j个影响因子为Y的样本;
Figure 143317DEST_PATH_IMAGE009
表示影响因子为Y的样本平均值;
Figure 933418DEST_PATH_IMAGE010
表示影响因子为Y的样本标准差;
计算区间的概率为:
Figure 687748DEST_PATH_IMAGE011
其中,P为区间的概率;
Figure 159180DEST_PATH_IMAGE012
为区间中的最小值;
Figure 479303DEST_PATH_IMAGE013
为区间中的最大值;
步骤S214,计算各区间所需要增加坏客户案例样本个数S1以及减少好客户案例样本个数S2;
各区间所需要增加坏客户案例样本个数S1的公式为:S1=P×R(A+);
各区间所需要减少好客户案例样本个数S2的公式为:S2=P×R(A-);
步骤S215,产生数值并加入坏客户案例样本;
此时,步骤S214中的增加S1个样本的公式为:
Figure 643568DEST_PATH_IMAGE014
并直接从好客户案例样本内随机减少步骤S214所计算出来的S2个样本;
其中,r(0~1) 为随机数0~1;
步骤S216,检查训练特征集中内各特征的样本是否已经为平衡状态,如果训练特征集处于不平衡状态,则重新平衡资料集,回到步骤S211;如果训练特征集处于已经平衡,则得到平衡数据集。
4.根据权利要求3所述的基于不平衡数据的信贷违约预测方法,其特征在于,步骤S2中,将是否发生逾期视为二元分类问题,使用分类算法建立分类模型,其过程如下:
采用支撑矢量法对于分类问题提供最佳化的处理方案,建立分类模型;
步骤S221,给予一个训练特征集
Figure 885194DEST_PATH_IMAGE015
,其中,xi表示每组中的第i个特征点,一共有n组特征点Rn,因此,xi∈Rn,yi=(-1,+1)表示xi特征点对应的类别标记,m为每组中特征点的总个数,因此,整个训练特征集代表在n维空间中,m个带有类别标记的特征点;将这些特征点用m×n的矩阵A来存储,其中,第i列即代表xi;另外定义一个对角矩阵D,对角矩阵D中每一对角元素Dii代表yi
步骤S222,训练特征集为线性可分割,因此存在一个分割平面xtw+b=0,用以正确地区分两类特征点,其中,w为分割平面的法矢量,b为分割平面和原点的距离;特征点与界限平面的关系如下公式:
Figure 957055DEST_PATH_IMAGE016
该公式表述为两条平行实线;其中,xt表示每组中的第t个特征点;A+表示坏客户案例的集合,A-表示好客户案例的集合;该公式表示的两条平行实线所在界限平面的间距,为
Figure 334947DEST_PATH_IMAGE017
步骤S223,二元分类问题的目的在于搜寻最大间距的分割平面,即在训练特征集为线性可分割的限制条件下,求解
Figure 466851DEST_PATH_IMAGE018
的最小解,二元分类问题用目标函数表示如下:
Figure 930193DEST_PATH_IMAGE019
其中,
Figure 9008DEST_PATH_IMAGE020
;目标函数为二次凸面函数,存在一最佳解(w*,b*);在界面平面xtw*+b*=±1上的特征点称为支撑矢量;取得支撑矢量即可建立分类模型。
5.根据权利要求4所述的基于不平衡数据的信贷违约预测方法,其特征在于,步骤S3中,分类模型模块给出二元预测结果,其过程如下:根据分类模型模确立的特征集合,从客户信用资料中选取特征并赋予其特征数值;然后通过分类模型对客户信用资料进行评分,即将特征数值xt依次代入xtw*+b*=D,并取D的最大值作为评分结果,评分结果以0为分界线,大于0表示预测其可能发生逾期放款,反之则表示可能为正常客户。
6.根据权利要求5所述的基于不平衡数据的信贷违约预测方法,其特征在于,步骤S3中,等级评定模块将从分类模型模块获取的二元预测结果转换为四元预测结果的映射,其过程如下:将原本输出的分类问题的二元预测结果扩展为四元预测结果,四元预测结果分别为:极可能发生逾期、可能发生逾期、可能为正常客户、极可能为正常客户,用门槛值对四元预测结果进行区分,
极可能发生逾期的门槛值:D≥5.2;
可能发生逾期的门槛值:5.2>D≥0;
可能为正常客户的门槛值:0>D>-3.8;
极可能为正常客户的门槛值:D≤-3.8。
CN202111200196.5A 2021-10-14 2021-10-14 基于不平衡数据的信贷违约预测方法 Active CN113870013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111200196.5A CN113870013B (zh) 2021-10-14 2021-10-14 基于不平衡数据的信贷违约预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111200196.5A CN113870013B (zh) 2021-10-14 2021-10-14 基于不平衡数据的信贷违约预测方法

Publications (2)

Publication Number Publication Date
CN113870013A true CN113870013A (zh) 2021-12-31
CN113870013B CN113870013B (zh) 2022-06-07

Family

ID=78999486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111200196.5A Active CN113870013B (zh) 2021-10-14 2021-10-14 基于不平衡数据的信贷违约预测方法

Country Status (1)

Country Link
CN (1) CN113870013B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909981A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 模型训练、样本平衡方法及装置以及个人信用评分系统
CN108550077A (zh) * 2018-04-27 2018-09-18 信雅达系统工程股份有限公司 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统
CN112634022A (zh) * 2020-12-25 2021-04-09 北京工业大学 基于不平衡数据处理的信贷风险评估方法与系统
CN112785086A (zh) * 2021-02-10 2021-05-11 中国工商银行股份有限公司 信贷逾期风险预测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909981A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 模型训练、样本平衡方法及装置以及个人信用评分系统
CN108550077A (zh) * 2018-04-27 2018-09-18 信雅达系统工程股份有限公司 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统
CN112634022A (zh) * 2020-12-25 2021-04-09 北京工业大学 基于不平衡数据处理的信贷风险评估方法与系统
CN112785086A (zh) * 2021-02-10 2021-05-11 中国工商银行股份有限公司 信贷逾期风险预测方法及装置

Also Published As

Publication number Publication date
CN113870013B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN109739844B (zh) 基于衰减权重的数据分类方法
WO2007106786A2 (en) Methods and systems for multi-credit reporting agency data modeling
CN112102073A (zh) 信贷风险控制方法及系统、电子设备及可读存储介质
CN112364937B (zh) 用户类别确定方法及装置、推荐内容确定方法、电子设备
CN111062806B (zh) 个人金融信用风险评价方法、系统和存储介质
CN111325248A (zh) 降低贷前业务风险的方法及系统
CN110222733B (zh) 一种高精度的多阶神经网络分类方法及系统
CN110046264A (zh) 一种面向手机文档的自动分类方法
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN109960719A (zh) 一种文件处理方法和相关装置
CN112364197A (zh) 一种基于文本描述的行人图像检索方法
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
CN111415167A (zh) 网络欺诈交易检测方法及装置、计算机存储介质和终端
CN113688906A (zh) 基于量子K-means算法的客户细分方法和系统
CN114169439A (zh) 异常通信号码的识别方法、装置、电子设备和可读介质
CN113870013B (zh) 基于不平衡数据的信贷违约预测方法
CN112836750A (zh) 一种系统资源分配方法、装置及设备
CN115619517A (zh) 一种应用于信贷领域的机构评估方法及系统
CN115640378A (zh) 工单检索方法、服务器、介质及产品
CN114036923A (zh) 一种基于文本相似度的资料虚假识别系统及方法
CN115310589A (zh) 一种基于深度图自监督学习的群体识别方法及系统
CN114764913A (zh) 融入标签信息的案情要素识别方法
Li et al. Research on listed companies’ credit ratings, considering classification performance and interpretability
WO1992017853A2 (en) Direct data base analysis, forecasting and diagnosis method
Setnes et al. Fuzzy target selection in direct marketing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Credit Default Forecasting Method Based on Unbalanced Data

Effective date of registration: 20221211

Granted publication date: 20220607

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: Zhejiang Fulin Technology Co.,Ltd.

Registration number: Y2022330003639

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20231120

Granted publication date: 20220607

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: Zhejiang Fulin Technology Co.,Ltd.

Registration number: Y2022330003639

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Credit default prediction method based on imbalanced data

Granted publication date: 20220607

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: Zhejiang Fulin Technology Co.,Ltd.

Registration number: Y2024330000206