CN112434886A - 一种预测客户抵押贷款违约概率的方法 - Google Patents
一种预测客户抵押贷款违约概率的方法 Download PDFInfo
- Publication number
- CN112434886A CN112434886A CN202011490581.3A CN202011490581A CN112434886A CN 112434886 A CN112434886 A CN 112434886A CN 202011490581 A CN202011490581 A CN 202011490581A CN 112434886 A CN112434886 A CN 112434886A
- Authority
- CN
- China
- Prior art keywords
- variable
- default
- good
- persons
- bad
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及抵押贷款领域评估客户违约概率,具体为一种预测客户抵押贷款违约概率的方法,针对客户在使用房屋进行抵押贷款时,由于客户自身原因(还贷能力,欠债情况,借款用途)、房屋原因、市场原因等,会造成不同情况的违约,最终会进入较长的催收或资产处置周期,产生各种时间成本、资金成本的情况,现提出如下方案,其包括以下步骤:S1:收集包含客户属性、房产属性、合同属性的历史数据;S2:进行探索分析及变量筛选;S3:将所有特征变量转化为独热编码,对列重新排序;S4:筛选并处理完特征变量后,进行数据建模,得到对应预测的结果集;通过以上方法,能更准确的评估客户信用等级,是否能办理抵押贷款及预期违约概率。
Description
技术领域
本发明涉及抵押贷款领域评估客户违约概率,尤其涉及一种预测客户抵押贷款违约概率的方法。
背景技术
本发明是为预测客户抵押贷款违约概率所提出,源数据为本司数据库中数据,使用tableau查看数据异常值缺失值等情况,结合python进行数据处理、建模得出违约预测模型。客户在使用房屋进行抵押贷款时,由于客户自身原因(还贷能力,欠债情况,借款用途)、房屋原因、市场原因等,会造成不同情况的违约,最终会进入较长的催收或资产处置周期,产生各种时间成本、资金成本,因此在客户申请业务时,可根据历史数据建立的预测模型,对客户进行评分,识别潜在违约客户,降低放贷风险。
因此,我们提出了一种预测客户抵押贷款违约概率的方法用于解决上述问题。
发明内容
基于背景技术存在的技术问题,本发明提出了一种预测客户抵押贷款违约概率的方法。
本发明提出的一种预测客户抵押贷款违约概率的方法,利用统计学、计量经济学、机器学习等技术进行建模分析,具体包括以下步骤:
S1:收集包含客户属性、房产属性、合同属性的历史数据;
S2:进行探索分析及变量筛选;
S3:将所有特征变量转化为独热编码,对列重新排序;
S4:筛选并处理完特征变量后,进行数据建模,得到对应预测的结果集;
S5:绘制ROC曲线;对变量进行特征离散化,并做WOE转换;
S6:采用卡方分箱监督方法,看客户是否违约;
S7:分箱后进行WOE转换;
S8:计算出IV值。
优选的,所述S1中,收集包含客户属性、房产属性、合同属性的历史数据作为特征变量X,以本金逾期天数超过60天或发生债转作为违约标准定义目标变量Y。
优选的,所述S2中,观察收集到的数据,进行探索分析及变量筛选,包含:样本不均衡分析、异常值分析、缺失值分析、多分类值分析、多零值变量分析、相关性分析。
优选的,所述S3中,将所有特征变量转化为独热编码,对列重新排序,将多分类变量转化二分类变量,离散的特征值进行数字化处理。
优选的,所述S4中,筛选并处理完特征变量后,进行数据建模,方案中使用逻辑回归模型,它更适用于解决二分类问题。首先选择变量,之后将数据集按照8:2切分成训练集和测试集,之后用python代码建立模型并进行训练;建立好模型后,代入测试集数据,得到对应预测的结果集。
优选的,所述S5中,得到预测结果集后,根据混淆矩阵查看模型准确率,发现准确率较低;绘制ROC曲线后,发现其与y=x这条直线拟合程度过高,说明模型效果不好,需进一步进行参数寻优,提高模型准确率。ROC曲线反映违约客户被预测为未违约与违约客户被正常预测出来两者之间的关系,线越往左上角偏,代表更多的违约客户被预测正确
优选的,所述S6中,由于模型最终展示的结果为是否违约,无法获知究竟有多大的概率会违约,风险是否在可承担范围内,所以对实际业务参考意义有欠缺,因此,可以让变量具有单独的权重,得出一个客户评分,才能能够更好的把控客户的风险。这就需要对变量进行特征离散化,并做WOE转换,最后进行打分,供相关人员参考其风险程度。由于我们建模过程中的目的是想知道客户是否会违约,并且是在已有违约和未违约特征数据的基础之上进行模型训练,所以我们这是一个有监督的训练,因此需采用的是有监督式分箱方法中的卡方分箱:
·X2:卡方值,实际值与理论值之间的差异程度
·n:变量的分组数量
·i:分组变量中的第i组
·j:变量最终对应的类别(好坏、或者是违约和未违约)
·Aij:第i组好人或者坏人的数量
·Eij:Aij的期望频率,=第i组的样本数量*第j类的样本数量/总样本数。
优选的,所述S7中,分箱后进行WOE转换,查看当前该组中违约的客户和未违约客户的比值和所有样本中违约的客户和未违约客户的比值的差异。这个差异是用这两个比值的比值,再取对数来表示的。WOE越大,这种差异越大,该分组里的样本违约的可能性就越大,WOE越小,差异越小,这个分组里的样本违约的可能性就越小。
·i:该变量第i个分箱
·T:总客户人数
·Pbad、bad%:当前分组中坏人数占所有坏人总数的比例
·Pgood、good%:当前分组中好人数占所有好人总数的比例
·#badi:该变量第i个分箱的坏人数
·#badT:总坏人数
·#goodj:该变量第i个分箱的好人数
·#goodT:总好人数
WOE=In(该变量第i个分箱的坏人数/总坏人)-In(该变量第i个分箱的好人数/总好人)。
优选的,所述S8中,计算IV值,查看变量的重要程度。
例如,IV<0.02:对预测几乎无帮助;0.02<=IV<0.1:有一定帮助;0.1<=IV<0.3:对预测有较大帮助;IV>0.3:对预测有很大帮助;IV>0.5:慎重考虑x对y预测的有效性;IV>1:不能使用。
本发明的有益效果是:本方案相比较于传统的信用贷款,更加全面的覆盖客户信用评分考核点,即从客户的基本信息、企业经营、家庭情况、资产评估等多个方面加入到风控模型中,同时利用统计学和机器学习配合计量建模,能更准确的评估客户信用等级。相比较与其他一些利用Stata、Eviews、Matlab等工具进行建模分析,本专利主要使用Python工具,因此,更具有灵活性、通用性和可移植性,本发明可直接从已授权的数据库中提取数据,进行数据清洗、特征工程和模型训练。
通过以上方法,能更准确的评估客户信用等级,是否能办理抵押贷款及预期违约概率。
附图说明
图1为本发明提出的一种预测客户抵押贷款违约概率的方法的第一次训练模型图;
图2为本发明提出的一种预测客户抵押贷款违约概率的方法的第二次训练模型图。
具体实施方式
下面结合具体实施例对本发明作进一步解说。
实施例
参照图1-2;本发明提出了一种预测客户抵押贷款违约概率的方法领域,利用统计学、计量经济学、机器学习等技术进行建模分析,具体包括以下步骤:
S1:收集包含客户属性、房产属性、合同属性的历史数据;
S2:进行探索分析及变量筛选;
S3:将所有特征变量转化为独热编码,对列重新排序;
S4:筛选并处理完特征变量后,进行数据建模,得到对应果集;
S5:绘制ROC曲线;对变量进行特征离散化,并做WOE转换;
S6:采用卡方分箱监督方法,看客户是否违约;
S7:分箱后进行WOE转换;
S8:计算出IV值。
本实施例中,所述S1中,收集包含客户属性、房产属性、合同属性的历史数据作为特征变量X,以本金逾期天数超过60天或发生债转作为违约标准定义目标变量Y。
本实施例中,所述S2中,观察收集到的数据,进行探索分析及变量筛选,包含:样本不均衡分析、异常值分析、缺失值分析、多分类值分析、多零值变量分析、相关性分析。
a.样本不均衡分析:样本数据共3995条,其中,正常客户占比91%,样本分布极度不均衡,模型预测结果会将所有新客户都预测为正常客户,于实际情况无意义,因此需在处理完样本的缺失值异常值等之后对其进行不均衡处理,拟采用过采样和欠采样方式。
b.异常值分析:在目标变量Y中,筛选出与业务逻辑不相通数据,例:逾期天数超过(统计日与业务到期日)的差值,不符合实际情况等,将其手动更正;特征变量X中,有由于前端输入未受限制,录入标准不统一的数据,选择剔除,有初始计算规则与现有计算规则不一致的数据,则根据新规则还原等,将异常值进行处理。
c.缺失值分析:计算出特征变量X的缺失率及每个变量的缺失个数,制作缺失相关性热图,衡量变量之间的相关性,缺失值超过50%的变量剔除,右偏分布变量采用中位数填充。
d.多分类值分析:对每个特征变量X的分类进行计数,发现有5个变量的种类过多,调研发现是由于在数据采集时,前端提供的是文本框输入,未统一标准,因此可能存在大小写,阿拉伯数字与汉字(例一户和1户,含义一致,表达不同),描述口语化不同(例:两室一厅,两居室)等的差别,文字描述过多,处理困难,剔除。
e.多零值变量分析:计算每个变量值为0的个数,筛选出6个特征变量含0值较多,经与业务人员沟通,确认符合逻辑,对变量保留。
f.相关性分析:查看相关性较强的特征变量,高度相关变量剔除。
g.样本不均衡终处理:利用python的SMOTE算法对样本进行处理,它通过线性插值的方法在两个少数类样本间合成新的样本,从而有效缓解了由随机过采样引起的过拟合问题。
本实施例中,所述S3中,将所有特征变量转化为独热编码,对列重新排序,将多分类变量转化二分类变量,离散的特征值进行数字化处理。
本实施例中,所述S4中,筛选并处理完特征变量后,进行数据建模,方案中使用逻辑回归模型,它更适用于解决二分类问题。首先选择变量,之后将数据集按照8:2切分成训练集和测试集,之后用python代码建立模型并进行训练;建立好模型后,代入测试集数据,得到对应预测的结果集。
本实施例中,所述S5中,得到预测结果集后,根据混淆矩阵查看模型准确率,发现准确率较低;绘制ROC曲线后,发现其与y=x这条直线拟合程度过高,说明模型效果不好,需进一步进行参数寻优,提高模型准确率。ROC曲线反映违约客户被预测为未违约与违约客户被正常预测出来两者之间的关系,线越往左上角偏,代表更多的违约客户被预测正确。
本实施例中,所述S6中,由于模型最终展示的结果为是否违约,无法获知究竟有多大的概率会违约,风险是否在可承担范围内,所以对实际业务参考意义有欠缺,因此,可以让变量具有单独的权重,得出一个客户评分,才能能够更好的把控客户的风险。这就需要对变量进行特征离散化,并做WOE转换,最后进行打分,供相关人员参考其风险程度,并且是在已有违约和未违约特征数据的基础之上进行模型训练,所以我们这是一个有监督的训练,因此需采用的是有监督式分箱方法中的卡方分箱:
·X2:卡方值,实际值与理论值之间的差异程度
·n:变量的分组数量
·i:分组变量中的第i组
·j:变量最终对应的类别(好坏、或者是违约和未违约)
·Aij:第i组好人或者坏人的数量
·Eij:Aij的期望频率,=第i组的样本数量*第j类的样本数量/总样本数。
本实施例中,所述S7中,分箱后进行WOE转换,目的是查看当前该组中违约的客户和未违约客户的比值和所有样本中违约的客户和未违约客户的比值的差异。这个差异是用这两个比值的比值,再取对数来表示的。WOE越大,这种差异越大,该分组里的样本违约的可能性就越大,WOE越小,差异越小,这个分组里的样本违约的可能性就越小。
·i:该变量第i个分箱
·T:总客户人数
·Pbad、bad%:当前分组中坏人数占所有坏人总数的比例
·Pgood、good%:当前分组中好人数占所有好人总数的比例
·#badi:该变量第i个分箱的坏人数
·#badT:总坏人数
·#goodi:该变量第i个分箱的好人数
·#goodT:总好人数
WOE=In(该变量第i个分箱的坏人数/总坏人)-In(该变量第i个分箱的好人数/总好人)。
本实施例中,所述S8中,计算IV值,查看变量的重要程度,IV<0.02:对预测几乎无帮助;0.02<=IV<0.1:有一定帮助;0.1<=IV<0.3:对预测有较大帮助;IV>0.3:对预测有很大帮助;IV>0.5:慎重考虑x对y预测的有效性;IV>1:不能使用。
重新训练模型,查看准确率,ROC曲线,KS曲线,此次模型准确率85.75%,性能得到显著提升。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种预测客户抵押贷款违约概率的方法,其特征在于利用统计学、计量经济学、机器学习等技术进行建模分析,具体包括以下步骤:
S1:收集包含客户属性、房产属性、合同属性的历史数据;
S2:进行探索分析及变量筛选;
S3:将所有特征变量转化为独热编码,对列重新排序;
S4:筛选并处理完特征变量后,进行数据建模,得到对应预测的结果集;
S5:得到预测结果集后,绘制ROC曲线;
S6:采用卡方分箱监督方法,看客户是否违约;
S7:分箱后进行WOE转换;
S8:计算出IV值。
2.根据权利要求1所述的一种预测客户抵押贷款违约概率的方法,其特征在于,所述S1中,收集包含客户属性、房产属性、合同属性的历史数据作为特征变量X,以本金逾期天数超过60天或发生债转作为违约标准定义目标变量Y。
3.根据权利要求1所述的一种预测客户抵押贷款违约概率的方法,其特征在于,所述S2中,观察收集到的数据,进行探索分析及变量筛选,包含:样本不均衡分析、异常值分析、缺失值分析、多分类值分析、多零值变量分析、相关性分析。
4.根据权利要求1所述的一种预测客户抵押贷款违约概率的方法,其特征在于,所述S3中,将所有特征变量转化为独热编码,对列重新排序,将多分类变量转化二分类变量,离散的特征值进行数字化处理。
5.根据权利要求1所述的一种预测客户抵押贷款违约概率的方法,其特征在于,所述S4中,筛选并处理完特征变量后,进行数据建模,选择变量,之后将数据集按照8∶2切分成训练集和测试集,之后用python代码建立模型并进行训练;建立好模型后,代入测试集数据,得到对应预测的结果集。
6.根据权利要求1所述的一种预测客户抵押贷款违约概率的方法,其特征在于,所述S5中,得到预测结果集后,绘制ROC曲线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011490581.3A CN112434886A (zh) | 2020-12-17 | 2020-12-17 | 一种预测客户抵押贷款违约概率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011490581.3A CN112434886A (zh) | 2020-12-17 | 2020-12-17 | 一种预测客户抵押贷款违约概率的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434886A true CN112434886A (zh) | 2021-03-02 |
Family
ID=74692595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011490581.3A Pending CN112434886A (zh) | 2020-12-17 | 2020-12-17 | 一种预测客户抵押贷款违约概率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434886A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724061A (zh) * | 2021-08-18 | 2021-11-30 | 杭州信雅达泛泰科技有限公司 | 基于客户分群的消费金融产品信用评分方法及装置 |
CN116091206A (zh) * | 2023-01-31 | 2023-05-09 | 金电联行(北京)信息技术有限公司 | 信用评价方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192140A (zh) * | 2020-01-02 | 2020-05-22 | 北京明略软件系统有限公司 | 客户违约概率预测的方法及装置 |
CN111311128A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于第三方数据的消费金融信用评分卡开发方法 |
-
2020
- 2020-12-17 CN CN202011490581.3A patent/CN112434886A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192140A (zh) * | 2020-01-02 | 2020-05-22 | 北京明略软件系统有限公司 | 客户违约概率预测的方法及装置 |
CN111311128A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于第三方数据的消费金融信用评分卡开发方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724061A (zh) * | 2021-08-18 | 2021-11-30 | 杭州信雅达泛泰科技有限公司 | 基于客户分群的消费金融产品信用评分方法及装置 |
CN116091206A (zh) * | 2023-01-31 | 2023-05-09 | 金电联行(北京)信息技术有限公司 | 信用评价方法、装置、电子设备及存储介质 |
CN116091206B (zh) * | 2023-01-31 | 2023-10-20 | 金电联行(北京)信息技术有限公司 | 信用评价方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634080B (zh) | 异常用电检测方法、装置、设备及计算机可读存储介质 | |
CN109739844B (zh) | 基于衰减权重的数据分类方法 | |
CN111523996A (zh) | 一种审批方法及系统 | |
CN112700325A (zh) | 一种基于Stacking集成学习的网贷回头客预测的方法 | |
CN106874658A (zh) | 一种基于主成分分析算法的医保欺诈识别方法 | |
CN112700319A (zh) | 基于政务数据的企业授信额度确定方法及装置 | |
CN111160401A (zh) | 一种基于均值漂移和XGBoost的异常用电判别方法 | |
CN112434886A (zh) | 一种预测客户抵押贷款违约概率的方法 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN111738843B (zh) | 一种使用流水数据的量化风险评价系统和方法 | |
CN112966962A (zh) | 一种电商企业评优方法 | |
CN115660262B (zh) | 一种基于数据库应用的工程智慧质检方法、系统及介质 | |
CN114140013A (zh) | 一种基于xgboost的评分卡生成方法、装置及设备 | |
CN115617784A (zh) | 一种信息化配电的数据处理系统及其处理方法 | |
CN111931992A (zh) | 一种电力负荷预测指标选取方法及装置 | |
CN111401784A (zh) | 一种消防安全等级评估方法 | |
CN117114105B (zh) | 基于科研大数据信息的目标对象推荐方法和系统 | |
CN117172381A (zh) | 基于大数据的风险预测方法 | |
CN116109364A (zh) | 一种价格评估方法和装置 | |
CN113393169B (zh) | 基于大数据技术的金融行业交易系统性能指标分析方法 | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
CN114399407A (zh) | 一种基于动静态选择集成的电力调度监控数据异常检测方法 | |
CN115409226A (zh) | 一种数据处理方法和数据处理系统 | |
CN113421154A (zh) | 基于控制图的信贷风险评估方法及系统 | |
CN111460052A (zh) | 一种基于监察数据关联分析的低保资金监督方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210302 |