CN116012131A - 一种用于评估用户信贷风险的方法、系统、装置以及介质 - Google Patents
一种用于评估用户信贷风险的方法、系统、装置以及介质 Download PDFInfo
- Publication number
- CN116012131A CN116012131A CN202211284536.1A CN202211284536A CN116012131A CN 116012131 A CN116012131 A CN 116012131A CN 202211284536 A CN202211284536 A CN 202211284536A CN 116012131 A CN116012131 A CN 116012131A
- Authority
- CN
- China
- Prior art keywords
- data
- credit risk
- user
- features
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012502 risk assessment Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000012360 testing method Methods 0.000 claims abstract description 30
- 238000012216 screening Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000007477 logistic regression Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000004880 explosion Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000007547 defect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供了一种用于评估用户信贷风险的方法、可以避免现有方法中出现的维度爆炸及标签泄露的问题,可以更好地评估用户信贷风险,方法包括从信贷数据库获取用户相关的特征数据,为特征数据添加标签,将样本集合划分训练集和数据集;对特征数据进行数据预处理;分别基于特征数据的区分度、稳定性及相关性对特征数据进行筛选;对于筛选后保留下来的类别型特征进行编码,将类别型特征转换为数值型特征;训练的信贷风险评估模型;通过测试集对训练好的信贷风险评估模型进行测试,通过评价指标AUC对预测模型进行评估,调整模型参数,获得最佳信贷风险评估模型;通过最佳信贷风险评估模型判断用户是否具有高逾期风险。
Description
技术领域
本发明涉及大数据和金融风控技术领域,尤其涉及一种用于评估用户信贷风险的方法、系统、计算机装置以及计算机可读存储介质。
背景技术
风险控制能力是金融业必备的核心竞争力,是银行业务健康可持续发展的关键。随着金融业务的线上化发展,金融的欺诈等行为也呈现出专业化、产业化、隐蔽化、跨区域且进化快的新特点,对传统的风控手段形成极大的挑战。如何将机器学习、深度学习等前沿人工智能技术赋能于金融风控领域,打造金融科技,已经成为大家关注的焦点。
当前,二分类模型已经被应用于进行信贷风控评估,二分类模型是在工业生产中运用最广泛的一类机器学习模型,训练好的模型可以用于预测用户的信贷风险。在信贷风控的二分类模型开发场景中,通常需要对变量进行预处理,例如逻辑回归、随机森林、XGBboost等模型开发。其中,对特征数据中类别特征中的类别进行编码是及其重要的一环,关系到整理模型的最终识别能力。目前,类别特征的编码方式,通常分为两种,一种是基于onehot独热码进行编码的方法,这种方法会将单个类别特征进行拆分,变成多个数值为0和1的特征变量,实现了类别特征对数值特征的转化,但当类别特征中类别较多时,例如对全国所有城市进行编码,会造成维度爆炸,一来会造成计算机内存资源的消耗,二来会增加模型的计算复杂度,增加模型训练时间消耗。第二种是基于目标标签的统计编码,例如在金融风控领域中通常使用的基于单个类别分箱中标签的正负样本比对此类别进行替换,或者进一步的,使用WOE值对其进行编码,该方法避免了方法一中的维度爆炸的缺点,但其编码值中包含了需要预测的标签信息,造成了标签泄露的现象,使得模型在训练集中模型区分度较好,但在测试集上模型区分度降低。
发明内容
针对上述问题,本发明提供了一种用于评估用户信贷风险的方法、系统、计算机装置以及计算机可读存储介质,其通过改进了特征数据的编码方式,可以避免现有方法中出现的维度爆炸及标签泄露的问题,从而可以提高模型对于用户信贷风险的区分度,可以更好地评估用户信贷风险。
其技术方案是这样的:一种用于评估用户信贷风险的方法,包括以下步骤:从信贷数据库获取用户相关的特征数据,所述特征数据包括类别型特征和数值型特征,为特征数据添加标签,将样本集合划分训练集和数据集;
对特征数据进行数据预处理;
分别基于特征数据的区分度、稳定性及相关性对特征数据进行筛选;
对于筛选后保留下来的类别型特征进行编码,将类别型特征的数据及标签进行随机打乱,依据每个类别型特征在该类类别型特征中的位置以及标签值对类别型特征对类别数据进行赋值,将类别型特征转换为数值型特征;
基于逻辑回归模型构建信贷风险评估模型,通过训练集中由类别型特征转化得到数值型特征和原有的数值型特征训练信贷风险评估模型,得到训练好的信贷风险评估模型;
通过测试集对训练好的信贷风险评估模型进行测试,通过评价指标AUC对预测模型进行评估,调整模型参数,获得最佳信贷风险评估模型;
通过最佳信贷风险评估模型判断用户是否具有高逾期风险。
进一步的,以信贷业务中的正常用户为白样本,逾期用户为黑样本,进行用户打标,获得样本数据;
在划分训练集和数据集时,如果特征数据中含有时间戳,按照时间跨度对整体样本进行训练集和测试集拆分;如果特征数据中不含时间戳,对特征数据进行随机打乱,按照设定比例划分训练集及测试集。
进一步的,在对数据进行预处理时,对数值型特征,利用均值填充法对缺失值进行填充。
进一步的,对所有特征数据进行IV值的计算,通过IV值对特征数据进行区分度的筛选;
如果特征数据包含时间戳,按照不同的时间窗口对所有特征数据计算PSI稳定性,剔除不稳定的特征数据;
对所有特征数据进行相关度计算,剔除相关性较低的特征数据。
进一步的,基于特征数据的区分度进行筛选,包括以下步骤:
对类别特征及数值特征进行等频分箱,对于类别型特征,若类别总数低于设定值,则采用类别数作为分箱数;若类别总数大于设定值N,取前n-1个类别单独作为一箱,剩余所有类别合并为最后一个分箱;
计算特征变量的IV值,剔除IV值小于设定阈值的特征数据;
基于特征数据的稳定性进行筛选:包括以下步骤:
根据时间月份对特征数据进行二等分,随后,根据区分度计算时得到的分箱,对比不同时间区间样本中,同一分箱的样本分布稳定性通过如下公式计算:
其中,i表示当前分箱,Ai,Ei表示同一特征在不同数据集上的数据分布;
所有分箱的结果进行累加作为整个特征的变量稳定性PSI指标,公式如下:
其中n表示累计分箱数;
基于特征数据的相关性进行筛选:包括以下步骤:特征数据的相关性通过特征间相关系数ρ指标计算,公式如下:
Cov(X,Y)=E[(X-μX)(Y-μY)]
其中,Cov(X,Y)表示特征X,Y的协方差,σXσY表示特征X,Y的标准差的乘积,μX,μY表示两组特征各自的均值,E表示期望值。
进一步的,对类别特征σ下的值及其对应标签进行随机打乱,表示为:
σ=(σ1,σ2,r3,σ4……σn)
对于第i个样本x,其类别为k,其类别特征编码如下:
进一步的,利用网格搜索及交叉验证在信贷风险评估模型上依据AUC值寻找最优参数,将获得的最优参数代入信贷风险评估模型,获得最终的分类模型。
一种用于评估用户信贷风险的系统,其特征在于,包括:
样本获取模块,从信贷数据库获取用户相关的特征数据,所述特征数据包括类别型特征和数值型特征,为特征数据添加标签,将样本集合划分训练集和数据集;
预处理模块,用于对特征数据进行数据预处理;
数据筛选模块,用于分别基于特征数据的区分度、稳定性及相关性对特征数据进行筛选;
特征转换模块,用于对筛选后保留下来的类别型特征进行编码,将类别型特征的数据及标签进行随机打乱,依据每个类别型特征在该类类别型特征中的位置以及标签值对类别型特征对类别数据进行赋值,将类别型特征转换为数值型特征;
模型构建模块,用于基于逻辑回归模型构建信贷风险评估模型,通过训练集中由类别型特征转化得到数值型特征和原有的数值型特征训练信贷风险评估模型,得到训练好的信贷风险评估模型;
测试优化模块,用于通过测试集对训练好的信贷风险评估模型进行测试,通过评价指标AUC对预测模型进行评估,调整模型参数,获得最佳信贷风险评估模型;
风险评估模块,用于通过最佳信贷风险评估模型判断用户是否具有高逾期风险。
一种计算机装置,其特征在于,其包括:包括处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行上述的用于评估用户信贷风险的方法。
一种计算机可读存储介质,其特征在于:所述计算机可读存储介质用于存储程序,所述程序用于执行上述的用于评估用户信贷风险的方法。
与现有技术相比,本发明可以避免传统类别特征编码过程中出现的维度爆炸及标签泄露的问题,弥补了独热码及WOE编码的缺点,从而可以提高模型对于用户信贷风险的区分度,可以更好地评估用户信贷风险。
本发明吸取了WOE编码的优点,利用样本信息对类别特征进行编码,同时避免了当前样本的编码过程中包含当前样本标签信息的问题,最后本发明中的标签编码方式使用了全部的训练集进行编码,避免了样本信息的浪费。
最后,本发明采用逻辑回归模型进行训练,逻辑回归模型因其极少的参数量,极快的训练速度及其与评分卡之间的完美衔接赋予了其极强的业务解释性,因此在当前被广泛应用。通过对数据进行预处理,可以直接通过逻辑回归模型进行快速训练,实现一种快捷,高效,可直接部署上线的信贷风险评估模型,可以更好地评估用户信贷风险。
附图说明
图1为本发明的一个实施例中用于评估用户信贷风险的方法的步骤示意图;
图2为类别型特征转换的示意图;
图3为实施例中的一种用于评估用户信贷风险的系统的模块框图;
图4为一个实施例中计算机装置的内部结构图。
具体实施方式
见图1,本发明的一种用于评估用户信贷风险的方法,包括以下步骤:
步骤1:从信贷数据库获取用户相关的特征数据,特征数据包括类别型特征和数值型特征,为特征数据添加标签,将样本集合划分训练集和数据集;
步骤2:对特征数据进行数据预处理;
步骤3:分别基于特征数据的区分度、稳定性及相关性对特征数据进行筛选;
步骤4:对于筛选后保留下来的类别型特征进行编码,将类别型特征的数据及标签进行随机打乱,依据每个类别型特征在该类类别型特征中的位置以及标签值对类别型特征对类别数据进行赋值,将类别型特征转换为数值型特征;
步骤5:基于逻辑回归模型构建信贷风险评估模型,通过训练集中由类别型特征转化得到数值型特征和原有的数值型特征训练信贷风险评估模型,得到训练好的信贷风险评估模型;
步骤6:通过测试集对训练好的信贷风险评估模型进行测试,通过评价指标AUC对预测模型进行评估,调整模型参数,获得最佳信贷风险评估模型;
步骤7:通过最佳信贷风险评估模型判断用户是否具有高逾期风险。
本发明的中提供的方法,能够避免传统类别型特征编码过程中出现的维度爆炸和标签泄露的问题,编码后得到的数值型特征通过逻辑回归模型进行拟合训练,实现二分类场景下高效,高准确率,高解释性的方案优势。
具体在本发明的一个实施例中,方法在步骤1中,具体包括:
步骤101:从信贷数据库获取用户相关的特征数据,特征数据包括类别型特征和数值型特征,为特征数据添加标签,标签的添加可以是:以信贷业务中的正常用户为白样本,逾期用户为黑样本,进行用户打标,获得样本数据;具体在一个实施例中,例如在信贷业务的反欺诈场景,通常选取首期即逾期超过30天的作为黑样本,三期内未有逾期超过30天的作为白样本;
步骤102:对获取用户相关的特征数据进行训练集及测试集划分,按照7:3的比例进行随机划分,既70%的样本作为训练集,30%的样本作为测试集。如果是带有时间戳的样本,可按照不同时间段进行划分,保持比例相同,如果特征数据中不含时间戳,对特征数据进行随机打乱,按照设定比例划分训练集及测试集。
在步骤2中,会对特征数据进行数据预处理,具体为:对数值型特征,需要对其进行缺失值进行均值填充,利用该特征有值部分的平均值对缺失部分进行填充,确保所有数值型特征均不包含缺失值。对于类别型特征,因后续步骤中对其进行类别编码的过程中,包含了对缺失值的处理,因此无需在数据预处理阶段对其进行处理。
在步骤3中,对特征数据进行的筛选会分别从特征数据的区分度、稳定性及相关性三个角度进行筛选。
步骤301:基于特征数据的区分度进行筛选:
对类别特征及数值特征进行等频分箱,一般的,可将特征分为10箱,如果类别特征中类别总数低于10,则采用类别数作为分箱数,既每个类别作为一箱;如果类别特征类别数大于10,则按照类别中样本量对每个类别进行排序,取前九个类别单独作为一箱,剩余所有类别合并为第十箱;
特征变量的IV值(Information Value,信息价值,或者信息量)通过如下公式计算:
其中Badi是第i组中坏客户数量,BadT是整体坏客户数量,同理,Goodi就是第i组中好客户数量,GoodT是整体好客户数量,WOEi表示第i组分箱的WOE值,IVi在特征变量在第i组分箱中的IV值,IV表示特征变量的IV值,
本实施例中,通过剔除IV<0.03的特征数据实现对所有特征进行区分度维度上的筛选。需要注意的是,特征变量中缺失值也作为一个单独分箱参与变量IV值的计算。
步骤302:基于特征数据的稳定性进行筛选,特征稳定性通过PSI计算,具体如下:
首先,将待分析特征进行拆分,分为Ai和Ei,拆分方式一般根据时间月份进行二等分,如选取的训练样本为1-4月,则可将1-2月、3-4月作为数据划分标准。随后,根据IV计算方法中的分箱,对比不同时间区间样本中,同一分箱的样本分布稳定性最后将所有分箱的结果进行累加作为整个特征的变量稳定性PSI指标,公式如下:
其中,i表示当前分箱,n表示累计分箱数,Ai,Ei表示同一特征在不同数据集上的数据分布,剔除掉PSI值较低的特征,保留PSI值高的特征。
步骤303:基于特征数据的相关性进行筛选,特征数据的相关性通过特征间相关系数ρ指标计算,公式如下:
Cov(X,Y)=E[(X-μX)(Y-μY)]
其中,Co(X,Y)表示特征X,Y的协方差,σXσY表示特征X,Y的标准差的乘积,μX,μY表示两组特征各自的均值,E表示期望值。
本实施例中,取阈值为0.7,对于特征间相关系数>=0.7的变量,剔除掉相关系数较低的特征,保留相关系数高的特征。
在步骤4中,本实施例中对于步骤3中保留的所有类别特征进行编码,计算训练集中整体标签的负样本占比P,设定先验值α=10/p,并且向上取整。
对类别特征σ,对该特征下的值及其对应标签进行随机打乱,表示为
σ=(σ1,σ2,σ3,σ4……σn)
对于第i个样本x,其类别为k,其类别特征编码如下:
其中,表示当前样本类别k中,样本x之前的所有样本,Yσj表示该样本的标签值,α,p为先验值,由于该编码方式使用的是当前样本之前的所有样本作为当前样本的编码来源,所有当当前样本为起始样本时,之前的样本量会因为过少导致当前样本编码值波动性大且不准确。因此需加入先验值提升初始样本编码的泛化能力。此处p为整体样本的负样本占,α表示前置添加的样本量,α=10/p。
对于测试集,可通过随机采样的方式从训练集的编码值中进行采样,作为测试集的类别编码值。特别的,特征中缺失值一样作为单个类别进行编码值的采样。
本实施例在步骤5中,基于LightGBM模型(Light Gradient Boosting Machine)构建信贷风险评估模型,通过训练集中由类别型特征转化得到数值型特征和原有的数值型特征训练信贷风险评估模型,得到训练好的信贷风险评估模型,在其他实施例中,也可以采用其他的逻辑回归模型,譬如XGB模型。
本实施例在步骤6中,对训练好的模型在测试集上进行测试,通过评价指标AUC(曲线下面积)进行模型评估,其数学表达如下:
其中,其中TPrate为真阳率,表示所有真实类别为1的样本中,预测类别为1的比例;FPrate为伪阳率,表示所有真实类别为0的样本中,预测类别为1的比例;TP表示预测为1,且预测正确,实际为1;P表示预测为1,预测错误,实际为0;FN表示预测为0,预测错误,实际为1;TN表示预测为0,预测正确,实际为0。AUC的取值范围为0-1,其中越接近0或者1表示模型区分能力越强,越接近0.5表示模型区分能力越弱。
本发明中,设定阈值0.7,利用网格搜索及交叉验证在信贷风险评估模型上依据AUC值寻找最优参数,通过不断在测试集上调整参数,使得模型在测试集上AUC值越大,最终获得最佳信贷风险评估模型。
最后在步骤7中,通过最佳信贷风险评估模型判断用户是否具有高逾期风险。
在本实施例中,作为一种较优的实施方式,步骤中选取的LightGBM模型、特征区分度IV值、特征稳定性PSI值、特征间相关系数阈值大小,在其他实施例中,也可以根据实际应用需求,采用其他模型或阈值大小。
与现有技术相比,本发明可以避免传统类别特征编码过程中出现的维度爆炸及标签泄露的问题,弥补了独热码及WOE编码的缺点,从而可以提高模型对于用户信贷风险的区分度,可以更好地评估用户信贷风险。
对于独热码而言,当类别变量中类别数量较多的情况下,对单个类别衍生为单个特征的方法会造成编码后的特征数量急速扩大,不仅占用大量的内存空间,也影响了模型的计算速度。
对于WOE编码,这种方式虽然好,但是会造成训练集中标签信息的泄露,因为对于某个样本来说,其数值编码计算过程中已经把这个样本的标签值纳入了计算过程中。为了让模型正确地评估特征的真实有效性和重要程度,我们可以拿出一部分数据来计算这个特征编码,用另外一部分数据来训练。但是这样会造成可用数据的减少。
本发明吸取了WOE编码的优点,利用样本信息对类别特征进行编码,同时避免了当前样本的编码过程中包含当前样本标签信息的问题,最后本发明中的标签编码方式使用了全部的训练集进行编码,避免了样本信息的浪费。
最后,本发明采用逻辑回归模型进行训练,逻辑回归模型因其极少的参数量,极快的训练速度及其与评分卡之间的完美衔接赋予了其极强的业务解释性,因此在当前被广泛应用。通过对数据进行预处理,可以直接通过逻辑回归模型进行快速训练,实现一种快捷,高效,可直接部署上线的信贷风险评估模型,可以更好地评估用户信贷风险。
本发明主要使用基于顺序目标统计方法对信贷风控建模过程中类别特征进行编码,提升信贷风险评估模型的识别精度,其具有以下优点:
通过顺序目标统计方法对于类别特征进行编码,本发明的编码方式分为两个阶段,一阶段是对整个样本进行随机打乱,目的是增强编码方式的稳定性,避免因样本采样时的聚集性影响编码效果,第二阶段是基于打乱后的样本自上而下的进行基于目标的统计编码,这个阶段是编码创新的核心,对所有样本进行随机打乱后,基于当前样本之前的所有样本对当前样本进行目标编码,将类别型变量转变为数值型变量,使其能够直接被模型学习拟合,同时,避免了传统的独热码编码方式出现的维度爆炸的缺陷和基于目标标签的统计编码方式出现的标签泄露的缺陷,通过这样一种良好的,高效的,可解释性强的类别编码方式,改善模型的识别能力;
对于类别特征中出现的低频类别,通过加入先验值避免了其出现的编码值的波动不稳定,在传统编码方式中,为了消除该不稳定因素,均通过将低频类别不断的合并,直到达到设定的阈值,从而使低频变为高频,但该编码方式丢失了各个低频类别的区分度信息,影响了模型效果。本发明中保留了所有低频类别,并对其进行顺序目标统计编码,能够进一步保留样本中的有效信息,提升模型的区分能力。
在相同模拟数据集下,通过本发明的类别特征编码,其效果对比传统编码,实验对比如下:使用UCI数据集,采用的特征维度为15,使用XGB模型进行信贷风险评估模型的构建,通过AUC评价指标进行信贷风险评估模型的评估结果如表1所示。
表1
CatBoostEncoder为采用本发明的方法,Onehot_Encoder、WOE_Encoder、Target_Encoder分别是采用的现有的编码方法,对比AUC评价指标,可见采用本发明的方法构建得到的信贷风险评估模型具有更好的风险区分能力。
在本发明的实施例中,还提供了一种用于评估用户信贷风险的系统,包括:
样本获取模块100,从信贷数据库获取用户相关的特征数据,所述特征数据包括类别型特征和数值型特征,为特征数据添加标签,将样本集合划分训练集和数据集;
预处理模块200,用于对特征数据进行数据预处理;
数据筛选模块300,用于分别基于特征数据的区分度、稳定性及相关性对特征数据进行筛选;
特征转换模块400,用于对筛选后保留下来的类别型特征进行编码,将类别型特征的数据及标签进行随机打乱,依据每个类别型特征在该类类别型特征中的位置以及标签值对类别型特征对类别数据进行赋值,将类别型特征转换为数值型特征;
模型构建模块500,用于基于逻辑回归模型构建信贷风险评估模型,通过训练集中由类别型特征转化得到数值型特征和原有的数值型特征训练信贷风险评估模型,得到训练好的信贷风险评估模型;
测试优化模块600,用于通过测试集对训练好的信贷风险评估模型进行测试,通过评价指标AUC对预测模型进行评估,调整模型参数,获得最佳信贷风险评估模型;
风险评估模块700,用于通过最佳信贷风险评估模型判断用户是否具有高逾期风险。
在本发明的实施例中,还提供了一种计算机装置,其包括:包括处理器、存储器以及程序;
程序存储在存储器中,处理器调用存储器存储的程序,以执行上述的在用于评估用户信贷风险的方法。
该计算机装置可以是终端,其内部结构图可以如图4所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现用于评估用户信贷风险的方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机装置的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机装置外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机装置的限定,具体的计算机装置可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序,程序用于执行上述的用于评估用户信贷风险的方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
以上对本发明所提供的用于评估用户信贷风险的方法、系统、计算机装置、计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种用于评估用户信贷风险的方法,其特征在于,包括以下步骤:从信贷数据库获取用户相关的特征数据,所述特征数据包括类别型特征和数值型特征,为特征数据添加标签,将样本集合划分训练集和数据集;
对特征数据进行数据预处理;
分别基于特征数据的区分度、稳定性及相关性对特征数据进行筛选;
对于筛选后保留下来的类别型特征进行编码,将类别型特征的数据及标签进行随机打乱,依据每个类别型特征在该类类别型特征中的位置以及标签值对类别型特征对类别数据进行赋值,将类别型特征转换为数值型特征;
基于逻辑回归模型构建信贷风险评估模型,通过训练集中由类别型特征转化得到数值型特征和原有的数值型特征训练信贷风险评估模型,得到训练好的信贷风险评估模型;
通过测试集对训练好的信贷风险评估模型进行测试,通过评价指标AUC对预测模型进行评估,调整模型参数,获得最佳信贷风险评估模型;
通过最佳信贷风险评估模型判断用户是否具有高逾期风险。
2.根据权利要求1所述的一种用于评估用户信贷风险的方法,其特征在于:以信贷业务中的正常用户为白样本,逾期用户为黑样本,进行用户打标,获得样本数据;
在划分训练集和数据集时,如果特征数据中含有时间戳,按照时间跨度对整体样本进行训练集和测试集拆分;如果特征数据中不含时间戳,对特征数据进行随机打乱,按照设定比例划分训练集及测试集。
3.根据权利要求1所述的一种用于评估用户信贷风险的方法,其特征在于:在对数据进行预处理时,对数值型特征,利用均值填充法对缺失值进行填充。
4.根据权利要求1所述的一种用于评估用户信贷风险的方法,其特征在于:对所有特征数据进行IV值的计算,通过IV值对特征数据进行区分度的筛选;
如果特征数据包含时间戳,按照不同的时间窗口对所有特征数据计算PSI稳定性,剔除不稳定的特征数据;
对所有特征数据进行相关度计算,剔除相关性较低的特征数据。
5.根据权利要求4所述的一种用于评估用户信贷风险的方法,其特征在于:基于特征数据的区分度进行筛选,包括以下步骤:
对类别特征及数值特征进行等频分箱,对于类别型特征,若类别总数低于设定值,则采用类别数作为分箱数;若类别总数大于设定值N,取前n-1个类别单独作为一箱,剩余所有类别合并为最后一个分箱;
计算特征变量的IV值,剔除IV值小于设定阈值的特征数据;
基于特征数据的稳定性进行筛选:包括以下步骤:
根据时间月份对特征数据进行二等分,随后,根据区分度计算时得到的分箱,对比不同时间区间样本中,同一分箱的样本分布稳定性通过如下公式计算:
其中,i表示当前分箱,Ai,Ei表示同一特征在不同数据集上的数据分布;
所有分箱的结果进行累加作为整个特征的变量稳定性PSI指标,公式如下:
其中n表示累计分箱数;
基于特征数据的相关性进行筛选:包括以下步骤:特征数据的相关性通过特征间相关系数ρ指标计算,公式如下:
Cov(X,Y)=E[(X-μX)(Y-μY)]
其中,Cov(X,Y)表示特征X,Y的协方差,σXσY表示特征X,Y的标准差的乘积,μX,μY表示两组特征各自的均值,E表示期望值。
7.根据权利要求6所述的一种用于评估用户信贷风险的方法,其特征在于:利用网格搜索及交叉验证在信贷风险评估模型上依据AUC值寻找最优参数,将获得的最优参数代入信贷风险评估模型,获得最终的分类模型。
8.一种用于评估用户信贷风险的系统,其特征在于,包括:
样本获取模块,从信贷数据库获取用户相关的特征数据,所述特征数据包括类别型特征和数值型特征,为特征数据添加标签,将样本集合划分训练集和数据集;
预处理模块,用于对特征数据进行数据预处理;
数据筛选模块,用于分别基于特征数据的区分度、稳定性及相关性对特征数据进行筛选;
特征转换模块,用于对筛选后保留下来的类别型特征进行编码,将类别型特征的数据及标签进行随机打乱,依据每个类别型特征在该类类别型特征中的位置以及标签值对类别型特征对类别数据进行赋值,将类别型特征转换为数值型特征;
模型构建模块,用于基于逻辑回归模型构建信贷风险评估模型,通过训练集中由类别型特征转化得到数值型特征和原有的数值型特征训练信贷风险评估模型,得到训练好的信贷风险评估模型;
测试优化模块,用于通过测试集对训练好的信贷风险评估模型进行测试,通过评价指标AUC对预测模型进行评估,调整模型参数,获得最佳信贷风险评估模型;
风险评估模块,用于通过最佳信贷风险评估模型判断用户是否具有高逾期风险。
9.一种计算机装置,其特征在于,其包括:包括处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行权利要求1所述的用于评估用户信贷风险的方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质用于存储程序,所述程序用于执行权利要求1所述的用于评估用户信贷风险的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211284536.1A CN116012131A (zh) | 2022-10-17 | 2022-10-17 | 一种用于评估用户信贷风险的方法、系统、装置以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211284536.1A CN116012131A (zh) | 2022-10-17 | 2022-10-17 | 一种用于评估用户信贷风险的方法、系统、装置以及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116012131A true CN116012131A (zh) | 2023-04-25 |
Family
ID=86023623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211284536.1A Withdrawn CN116012131A (zh) | 2022-10-17 | 2022-10-17 | 一种用于评估用户信贷风险的方法、系统、装置以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116012131A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258579A (zh) * | 2023-04-28 | 2023-06-13 | 成都新希望金融信息有限公司 | 用户信用评分模型的训练方法及用户信用评分方法 |
CN116739742A (zh) * | 2023-06-02 | 2023-09-12 | 北京百度网讯科技有限公司 | 信贷风控模型的监控方法、装置、设备及存储介质 |
-
2022
- 2022-10-17 CN CN202211284536.1A patent/CN116012131A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258579A (zh) * | 2023-04-28 | 2023-06-13 | 成都新希望金融信息有限公司 | 用户信用评分模型的训练方法及用户信用评分方法 |
CN116739742A (zh) * | 2023-06-02 | 2023-09-12 | 北京百度网讯科技有限公司 | 信贷风控模型的监控方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569322A (zh) | 地址信息解析方法、装置、系统及数据获取方法 | |
CN116012131A (zh) | 一种用于评估用户信贷风险的方法、系统、装置以及介质 | |
CN108376151A (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
CN111597348B (zh) | 用户画像方法、装置、计算机设备和存储介质 | |
CN106651057A (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN111400499A (zh) | 文档分类模型的训练方法、文档分类方法、装置及设备 | |
CN108959474B (zh) | 实体关系提取方法 | |
CN110750978A (zh) | 情感倾向分析方法、装置、电子设备及存储介质 | |
CN114048468A (zh) | 入侵检测的方法、入侵检测模型训练的方法、装置及介质 | |
CN109766911A (zh) | 一种行为预测方法 | |
CN113516417A (zh) | 基于智能建模的业务评估方法、装置、电子设备及介质 | |
CN111582315A (zh) | 样本数据处理方法、装置及电子设备 | |
CN114639152A (zh) | 基于人脸识别的多模态语音交互方法、装置、设备及介质 | |
CN114519508A (zh) | 基于时序深度学习和法律文书信息的信用风险评估方法 | |
CN111611781B (zh) | 数据标注方法、问答方法、装置及电子设备 | |
CN115545790B (zh) | 价格数据预测方法、装置、电子设备及存储介质 | |
CN113298184B (zh) | 用于小样本图像识别的样本抽取、扩充方法及存储介质 | |
CN110413782B (zh) | 一种表自动主题分类方法、装置、计算机设备及存储介质 | |
CN112734205A (zh) | 模型置信度分析方法、装置、电子设备及计算机存储介质 | |
CN111813593A (zh) | 一种数据处理方法、设备、服务器及存储介质 | |
CN113408263A (zh) | 刑期预测方法、装置、存储介质及电子设备 | |
CN117370495A (zh) | 文本的情绪识别方法、装置、计算机存储介质及电子设备 | |
CN115640335A (zh) | 基于企业画像的企业分析方法、系统及云平台 | |
CN117952022A (zh) | 良率多维度互动系统、方法、计算机设备和存储介质 | |
CN118071482A (zh) | 构建零售信用风险预测模型的方法和消费信贷业务Scorebetad模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230425 |