CN114240633A - 信贷风险评估方法、系统、终端设备及存储介质 - Google Patents
信贷风险评估方法、系统、终端设备及存储介质 Download PDFInfo
- Publication number
- CN114240633A CN114240633A CN202111576404.1A CN202111576404A CN114240633A CN 114240633 A CN114240633 A CN 114240633A CN 202111576404 A CN202111576404 A CN 202111576404A CN 114240633 A CN114240633 A CN 114240633A
- Authority
- CN
- China
- Prior art keywords
- model
- credit risk
- sample
- training
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种信贷风险评估方法、系统、终端设备及存储介质。该方法包括:获取待预测样本;将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。本发明解决了现有风险检测方法不能很好地预测具体时间点客户发生违约的可能性的问题,提高预测的准确性。
Description
技术领域
本发明涉及风险分析技术领域,尤其涉及一种信贷风险评估方法、系统、终端设备及存储介质。
背景技术
在目前的信贷风险模型中,应用最为广泛的是信用评分卡模型。信用评分卡模型首先根据客户一段给定时间内的违约情况,确定正负样本;然后,通过分类模型的方式,得出在这段时间内的违约概率。
但是,信用评分卡模型只能获得客户在一段时间内的违约概率大小,并不能很好地预测具体时间点客户发生违约的可能性,无法对客户的风险识别起到及时预警作用。
因此,有必要提出一种信贷风险评估方法预测具体时间点客户发生违约的可能性。
发明内容
本发明实施例的主要目的在于提供一种信贷风险评估方法、系统、终端设备及存储介质,旨在解决现有风险检测方法不能很好地预测具体时间点客户发生违约的可能性的问题,提高预测的准确性。
为实现上述目的,本发明实施例提供一种信贷风险评估方法,所述信贷风险评估方法包括:
获取待预测样本;
将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。
可选地,所述将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息的步骤之前包括:
基于所述集成学习算法、半参数回归模型训练得到所述信贷风险模型。
可选地,所述集成学习算法包括:梯度提升生存树GBST、随机生存森林RSF,所述半参数回归模型包括:COX风险比例模型,所述基于所述集成学习算法、半参数回归模型训练得到所述信贷风险模型的步骤包括:
获取训练样本,并基于所述训练样本构建特征库;
基于所述GBST、RSF对所述特征库的训练样本进行训练,得到集成学习生存树模型;
对所述集成学习生存树模型进行筛选,得到第一子树;
通过所述COX风险比例模型对所述第一子树进行训练,得到所述信贷风险模型。
可选地,所述通过所述COX风险比例模型对所述第一子树进行训练,得到所述信贷风险模型的步骤包括:
通过所述COX风险比例模型对所述第一子树进行训练,得到子树模型;
通过评估指标对所述子树模型进行评估,得到第一评估分数;
基于所述第一评估分数对所述子树模型进行筛选,得到所述信贷风险模型。
可选地,所述对所述集成学习生存树模型进行筛选,得到第一子树的步骤之前包括:
通过所述评估指标对所述集成学习生存树模型的子树进行评估,得到第二评估分数;
基于所述第二评估分数对所述集成学习生存树模型输出的子树进行筛选,得到所述第一子树。
可选地,所述获取训练样本,并基于所述训练样本构建特征库的步骤包括:
获取所述训练样本;
设置目标时间、样本特征;
基于所述目标时间、样本特征对所述训练样本进行筛选,得到所述特征库。
可选地,所述通过所述COX风险比例模型对所述第一子树进行训练,得到所述信贷风险模型的步骤中包括:
通过所述COX风险比例模型对所述第一子树进行训练,得到生存函数,存储于所述信贷风险模型。
此外,为实现上述目的,本发明还提供一种信贷风险评估系统,所述系统包括:
样本获取模块,用于获取待预测样本;
样本评估模块,用于将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率分布输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。
此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信贷风险评估方法,所述信贷风险评估程序被所述处理器执行时实现如上所述的信贷风险评估方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信贷风险评估程序,所述信贷风险评估程序被处理器执行时实现如上所述的信贷风险评估方法的步骤。
本发明实施例提出的信贷风险评估方法、系统、终端设备及存储介质,通过获取待预测样本;将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。通过信贷风险模型对待预测样本进行预测,可以得到待预测样本具体时间点的违约概率,进而根据违约概率适时的输出预警信息。将GBST、RSF算法与COX风险比例模型相结合,既有集成学习预测精度高,可以处理非线性异构数据的优点,又有线性模型复杂度低,解释性强的优势,仅用少量的子树便达到集成学习的效果,在实际应用场景中更容易部署和实施。
附图说明
图1为本发明信贷风险评估装置所属终端设备的功能模块示意图;
图2为本发明信贷风险评估方法第一实施例的流程示意图;
图3为本发明信贷风险评估方法第二实施例的流程示意图;
图4为本发明信贷风险评估方法第三实施例的流程示意图;
图5为本发明信贷风险评估系统的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取待预测样本;将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。
本发明实施例涉及的技术术语:
信用风险:信用风险是指交易对方不履行到期债务的风险。信用风险又称违约风险,是指借款人、证券发行人或交易对方因种种原因,不愿或无力履行合同条件而构成违约,致使银行、投资者或交易对方遭受损失的可能性。
失效事件:常被简称为事件,研究者规定的终点结局,医学研究中一般是患者死亡,信用风险中常指违约或不良。
生存时间:从规定的起始事件开始到失效事件出现所持续的时间。
删失/截尾:由于某些原因并没有观测到失效事件而不知道确切的生存时间,此部分数据即删失数据。可能由于观察期未逾期或观察期确认为欺诈等。删失数据的生存时间为起始事件到截尾点所经历的时间。
RSF:(Random Survival Forest,随机生存森林),是一种将随机森林(RandomForest)法和传统生存分析相结合,构建了随机生存森林模型,可克服传统生存分析方法的弱点,有着更广的应用范围。该模型本质上与随机森林法相似,均使用Bootstrap法,以有放回的形式随机抽取样本并形成多个二元决策树,进而组成随机生存森林。
GBST:以生存分析模型为基础,结合boosting的集成学习算法框架的梯度提升生存树(GBST)算法,以预测用户在不同时间段的风险概率分布。
COX风险比例模型:(cox proportional-hazards model),是英国统计学家D.R.COX提出的一种半参数回归模型。分析一个或多个前定变量对患者生存时间的影响。COX回归把生存分析方法拓展到同时评估几种风险因素对生存时间的影响,因此有更广泛的运用。
C-Index:(concordance index,一致性指数),用来评价模型的预测能力,用来估计预测结果与实际观察到的结果相一致的概率。
AUC:(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
ROC:(Receiver Operating Characteristic),其主要分析工具是一个画在二维平面上的曲线。平面的横坐标是false positive rate(FPR),纵坐标是true positiverate(TPR),是对于分类器效果的分析工具。
DeepSurv:基于神经网络的生存分析模型。
MySQL:MySQL是一个关系型数据库管理系统。关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。
XGBoost:(eXtreme Gradient Boosting),它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植,XGBoost是大规模并行boosting tree的工具。
LightGBM:(Light Gradient Boosting Machine),是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。
为了预测客户的违约概率,在目前的零售贷款违约模型中,应用最为广泛的是信用评分卡模型。信用评分卡模型根据客户一段给定时间内的违约情况,确定正负样本,采用分类模型的方式,得出在这段时间内的违约概率。但是,信用评分卡模型只能获得一段时间内违约概率的大小,对于具体在哪个时间点发生违约的可能性最大的问题,并不能很好的预测。
另一方面,以传统的生存分析为基础,结合梯度提升树、随机森林等集成算法思想,改进以生存树为基本元素的生存分析理论,构建了GBST、RSF的生存分析算法。
由此,可以通过GBST、RSF的生存分析算法对客户的违约概率进行预测;并且,该算法相较传统的信用评分卡模型来说,拥有时间的维度,可以获得客户违约时间的概率分布,可以对借款人风险识别起到预警作用。但是GBST、RSF的生存分析算法采用多个生存树结合的形式,在子树过多的情况下,复杂度高,部署难度高。
其中,生存分析常用于金融(保险精算)、医疗(生物医学)领域,目前是信用风险统计领域的热点模型。
与传统的回归问题不同,生存分析的研究目标为某个事件在特定时间点发生的概率,进而估计用户随时间变化的生存曲线,而不仅仅是预测一个目标变量。传统的生存分析方法一般对用户个体的风险函数做出某种假设,并设置模型参数与个体协变量为线性关系,其模型的预测性能与假设的准确性关联很大,一旦假设不准,模型的预测能力将大大降低。
因此,本发明提供一种解决方案,解决现有风险检测方法不能很好地预测具体时间点客户发生违约的可能性的问题,提高预测的准确性。
具体地,参照图1,图1为本发明信贷风险评估装置所属终端设备的功能模块示意图。该信贷风险评估装置可以为独立于终端设备的、能够进行图片处理、网络模型训练的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
在本实施例中,该信贷风险评估装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作方法以及信贷风险评估程序;输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的信贷风险评估程序被处理器执行时实现以下步骤:
获取待预测样本;
将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。
进一步地,存储器130中的信贷风险评估程序被处理器执行时还实现以下步骤:
基于所述集成学习算法、半参数回归模型训练得到所述信贷风险模型。
进一步地,存储器130中的信贷风险评估程序被处理器执行时还实现以下步骤:
获取训练样本,并基于所述训练样本构建特征库;
基于所述GBST、RSF对所述特征库的训练样本进行训练,得到集成学习生存树模型;
对所述集成学习生存树模型进行筛选,得到第一子树;
通过所述COX风险比例模型对所述第一子树进行训练,得到所述信贷风险模型。
进一步地,存储器130中的信贷风险评估程序被处理器执行时还实现以下步骤:
通过所述COX风险比例模型对所述第一子树进行训练,得到子树模型;
通过评估指标对所述子树模型进行评估,得到第一评估分数;
基于所述第一评估分数对所述子树模型进行筛选,得到所述信贷风险模型。
进一步地,存储器130中的信贷风险评估程序被处理器执行时还实现以下步骤:
通过所述评估指标对所述集成学习生存树模型的子树进行评估,得到第二评估分数;
基于所述第二评估分数对所述集成学习生存树模型输出的子树进行筛选,得到所述第一子树。
进一步地,存储器130中的信贷风险评估程序被处理器执行时还实现以下步骤:
获取所述训练样本;
设置目标时间、样本特征;
基于所述目标时间、样本特征对所述训练样本进行筛选,得到所述特征库。
进一步地,存储器130中的信贷风险评估程序被处理器执行时还实现以下步骤:
通过所述COX风险比例模型对所述第一子树进行训练,得到生存函数,存储于所述信贷风险模型。
本实施例通过上述方案,具体通过获取待预测样本;将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。通过上述方式,本发明解决了现有风险检测方法不能很好地预测具体时间点客户发生违约的可能性的问题,提高预测的准确性。
基于上述终端设备架构但不限于上述架构,提出本发明方法实施例。
参照图2,图2为本发明信贷风险评估方法第一实施例的流程示意图。所述信贷风险评估方法包括:
步骤S101,获取待预测样本。
步骤S102,将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。
本实施例方法的执行主体可以是一种信贷风险评估装置,也可以是一种信贷风险评估终端设备或服务器,本实施例以信贷风险评估装置进行举例,该信贷风险评估装置可以集成在具有数据处理功能的智能手机、平板电脑等终端设备上。
本实施例基于集成学习算法、半参数回归模型训练,得到信贷风险模型;其中,集成学习算法包括:GBST、RSF,半参数回归模型包括:COX风险比例模型。
GBST、RSF拥有时间的维度,可以预测具体时间点客户发生违约的可能性,进而通过GBST、RSF可训练信贷风险模型,使信贷风险模型可根据客户违约概率的时间分布输出预警信息。
作为一种实施方式,在本实施例中,基于GBST、RSF与COX风险比例模型,生成信贷风险模型。
信贷风险模型具有集成学习预测精度高的特点,可以大大降低每个时间段预测概率的误差;并且信贷风险模型利用客户多维度信息的优点,可以处理非线性异构数据。
信贷风险模型还具有线性模型(COX风险比例模型)复杂度低,解释性强的优势,仅用少量的子树便可以达到集成学习的效果,在实际应用场景中更容易部署和实施。
本实施例通过上述方案,具体通过获取待预测样本;将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。通过上述方式,本发明解决了现有风险检测方法不能很好地预测具体时间点客户发生违约的可能性的问题,基于生存分析构建信贷风险模型,从而提高信贷风险模型预测的准确性。
参照图3,图3为本发明本发明信贷风险评估方法第二实施例的流程示意图。基于上述图2所示的实施例,在本实施例中,步骤S102:将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息之前包括:
步骤103,获取训练样本,并基于所述训练样本构建特征库。
作为一种实施方式,在本实施例中,首先,获取训练样本数据并确定关键定义和目标;然后,基于确定的关键定义和目标对训练样本实施特征工程,得到特征库,并完成变量初步筛选。
具体的,获取训练样本数据并确定关键定义和目标的方案包括:
获取训练样本数据,将训练样本存储于数据库中,并设定信贷风险模型目标为首借后不良的时间,观察期为2年,不良即逾期60天以上为事件发生,首借开始至不良为生存时间,观察期满未逾期或发生欺诈等行为定义为样本删失。
其中,训练样本包括客户借款信息,数据库包括MYsql等数据库。
需要说明的是,在其他信贷建模场景下或其他场景下,将训练样本及标签(关键定义和目标)替换成其他的预测目标同样适用,比如开通首逾、资产回收等,本实施例对此不作具体的限定。
基于确定的关键定义和目标对训练样本实施特征工程,得到特征库,并完成变量初步筛选的方案包括:
将训练样本的用户可获取到的基本信息、历史贷信息、交易信息等作为输入,通过数据预处理、特征提取、变量衍生等特征工程完成特征库构建、变量初步筛选。
需要说明的是,特征库以及筛选后的变量(训练样本)可以与训练样本存储于相同的数据库,也可存储于不同的数据库,本实施例对此不作具体的限定。
由此,通过确定关键定义和目标、对训练样本实施特征工程,对训练样本进行筛选,提高信贷风险模型的质量。
步骤104,基于所述GBST、RSF对所述特征库的训练样本进行训练,得到集成学习生存树模型。
作为一种实施方式,在本实施例中,采用RSF、GBST的方法,调整相应参数,分别训练集成学习生存树模型。
作为另一种实施方式,在本实施例中,采用深度生存分析模型DeepSurv对特征库的训练样本训练输出中间隐藏层。
作为再一种实施方式,在本实施例中,通过XGBoost、lightGBM的方法,调整相应参数,分别训练集成学习生存树模型。
由于GBST、RSF拥有时间的维度,可以预测具体时间点客户发生违约的可能性,进而通过GBST、RSF可训练信贷风险模型,使信贷风险模型可根据客户违约概率的时间分布输出预警信息。
步骤105,对所述集成学习生存树模型进行筛选,得到第一子树。
作为一种实施方式,在本实施例中,首先,对集成学习生存树模型进行评估,得到第二评估分数;然后,根据第二评估分数筛选集成学习生存树模型,得到部分集成学习生存树模型,作为所述第一子树。
具体的,首先,采用评估指标分别评估集成学习生存树模型的有效性,得到评估分数,其中,集成学习生存树模型包括RSF、GBST子树。
更为具体的,采用C-index,动态AUC等评估指标分别评估每个RSF、GBST子树的有效性。
然后,根据评估分数筛选集成学习生存树模型输出的子树,得到部分集成学习生存树模型的子树,作为所述第一子树,其中,评估分数衡量了子树的有效性。
更为具体的,根据每颗子树的效果及解释性等特征筛选RSF、GBST子树作为Cox风险比例模型的输入。
其中,解释性为训练样本对其所涉及的业务产生的影响等。
由此,通过对集成学习生存树模型进行筛选,可以提高信贷风险模型的准确性,使信贷风险模型可根据客户违约概率的时间分布输出更准确的预警信息。
步骤106,通过所述COX风险比例模型对所述第一子树进行训练,得到所述信贷风险模型。
作为一种实施方式,在本实施例中,首先,通过COX风险比例模型对筛选得到的子树进行训练,得到子树模型;然后,对子树模型进行评估,并根据第一评估分数对不同参数下的子树模型进行筛选,得到信贷风险模型。
具体的,首先,将筛选完的子树作为输入,构造Cox风险比例模型,经过Cox风险比例模型调优,得到子树模型、生存函数,其中,生存函数存储于子树模型中。
然后,采用C-index,动态AUC等评估指标评估子树模型,得到第一评估分数,并根据第一评估分数对不同参数下的子树模型进行筛选,得到信贷风险模型。
作为另一种实施方式,在本实施例中,获取深度生存分析模型(DeepSurv)输出的中间隐藏层,再结合COX风险比例模型进行训练,得到子树模型、生存函数,其中,生存函数存储于子树模型中。
然后,采用C-index,动态AUC等评估指标评估子树模型,得到第一评估分数,并根据第一评估分数对不同参数下的子树模型进行筛选,得到信贷风险模型。
由此,基于GBST、RSF与COX风险比例模型,生成信贷风险模型,使信贷风险模型具有集成学习预测精度高的特点,可以大大降低每个时间段预测概率的误差;并且信贷风险模型利用客户多维度信息的优点,可以处理非线性异构数据。
信贷风险模型还具有线性模型(COX风险比例模型)复杂度低,解释性强的优势,仅用少量的子树便可以达到集成学习的效果,在实际应用场景中更容易部署和实施。
本实施例通过上述方案,具体通过获取待预测样本;将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。通过上述方式,本发明解决了现有风险检测方法不能很好地预测具体时间点客户发生违约的可能性的问题,基于生存分析构建信贷风险模型,该模型可以输出每个时间点客户的违约风险,获得客户违约时间的概率分布,并且可以根据概率分布对借款人风险识别起到预警作用。
参照图4,本实施例信贷风险评估方法的流程包括:
步骤1、确定关键定义和目标。
作为一种实施方式,在本实施例中,获取训练样本数据并确定关键定义和目标。
具体的,获取训练样本数据,将训练样本存储于数据库中,并设定信贷风险模型目标为首借后不良的时间,观察期为2年,不良即逾期60天以上为事件发生,首借开始至不良为生存时间,观察期满未逾期或发生欺诈等行为定义为样本删失。
其中,训练样本包括客户借款信息,数据库包括MYsql等数据库。
需要说明的是,在其他信贷建模场景下或其他场景下,将训练样本及标签(关键定义和目标)替换成其他的预测目标同样适用,比如开通首逾、资产回收等,本实施例对此不作具体的限定。
步骤2、特征过程。
作为一种实施方式,在本实施例中,基于确定的关键定义和目标对训练样本实施特征工程,得到特征库,并完成变量初步筛选。
具体的,将训练样本的用户可获取到的基本信息、历史贷信息、交易信息等作为输入,通过数据预处理、特征提取、变量衍生等特征工程完成特征库构建、变量初步筛选。
需要说明的是,特征库以及筛选后的变量(训练样本)可以与训练样本存储于相同的数据库,也可存储于不同的数据库,本实施例对此不作具体的限定。
由此,通过确定关键定义和目标、对训练样本实施特征工程,对训练样本进行筛选,提高信贷风险模型的质量。
步骤3、RST/GBST生成子树。
作为一种实施方式,在本实施例中,采用RST(RSF)、GBST的方法,调整相应参数,对训练样本进行训练,得到RSF、GBST子树。
作为另一种实施方式,在本实施例中,采用深度生存分析模型(DeepSurv)对特征库的训练样本训练输出中间隐藏层。
作为再一种实施方式,在本实施例中,通过XGBoost、lightGBM的方法,调整相应参数,对训练样本进行训练,得到子树。
由于GBST、RSF拥有时间的维度,可以预测具体时间点客户发生违约的可能性,进而通过GBST、RSF可训练信贷风险模型,使信贷风险模型可根据客户违约概率的时间分布输出预警信息。
步骤4、子树效果评估。
步骤5、筛选子树。
作为一种实施方式,在本实施例中,采用评估指标分别评估RSF、GBST子树的有效性,得到第二评估分数。
具体的,采用C-index,动态AUC等评估指标分别评估每个RSF、GBST子树的有效性。
进一步地,根据第二评估分数筛选每个RSF、GBST子树,得到部分每个RSF、GBST子树,其中,第二评估分数衡量了子树的有效性。
更为具体的,根据每颗子树的效果及解释性等特征筛选RSF、GBST子树作为Cox风险比例模型的输入。
其中,解释性为训练样本对其所涉及的业务产生的影响等。
由此,通过对集成学习生存树模型进行筛选,可以提高信贷风险模型的准确性,使信贷风险模型可根据客户违约概率的时间分布输出更准确的预警信息。
步骤6、COX比例风险模型。
作为一种实施方式,首先,通过COX风险比例模型对筛选得到的RSF、GBST子树进行训练,得到子树模型;然后,对子树模型进行评估,并根据第一评估分数进行筛选,得到信贷风险模型。
具体的,首先,将筛选完的子树作为输入,构造Cox风险比例模型,经过Cox风险比例模型调优,得到子树模型、生存函数,其中,生存函数存储于子树模型中。
步骤7、模型评估。
在本实施例中,采用C-index,动态AUC等评估指标评估不同参数下的子树模型,得到第一评估分数,并根据第一评估分数对子树模型进行筛选,得到信贷风险模型。
由此,基于GBST、RSF与COX风险比例模型,生成信贷风险模型,使信贷风险模型具有集成学习预测精度高的特点,可以大大降低每个时间段预测概率的误差;并且信贷风险模型利用客户多维度信息的优点,可以处理非线性异构数据。
步骤8、模型预测。
在本实施例中,获取新的预测样本,并将新的预测样本输入训练好的模型,得到预测样本各时点的生存概率。
具体的,获取新的预测样本,并将新的预测样本输入训练好的信贷风险模型,通过信贷风险模型的生存函数对预测样本进行计算,得到预测样本各时点的生存概率。
进一步的,根据预测样本各时点的生存概率选择预测样本违约风险最高的时间点,在该时间点之前输出预警信息或实施相应的措施。
其中,相应的措施包括但不限于降低借款额度,提高借款利率等措施。
需要说明的是,由于获得了预测样本各时点的生存概率(违约概率),可在指定的生存概率实施指定的措施,本实施例对此不作具体地限定。
本实施例通过上述方案,具体通过获取待预测样本;将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。通过上述方式,本发明解决了现有风险检测方法不能很好地预测具体时间点客户发生违约的可能性的问题,提高预测的准确性。
参照图5,图5为本发明信贷风险评估系统的功能模块示意图。信贷风险评估系统包括:
样本获取模块10,用于获取待预测样本;
样本评估模块20,用于将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率分布输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。
本实施例实现信贷风险评估的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信贷风险评估程序,所述信贷风险评估程序被所述处理器执行时实现如上所述的信贷风险评估方法的步骤。
由于本信贷风险评估程序被处理器执行时,通过了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有信贷风险评估程序,所述信贷风险评估程序被处理器执行时实现如上所述的信贷风险评估方法的步骤。
由于本信贷风险评估程序被处理器执行时,通过了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本发明提供的一种信贷风险评估方法、系统、终端设备及存储介质,通过获取待预测样本;将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。本发明解决了现有风险检测方法,对于发生违约的可能性最大的具体时间点不能很好地预测的问题,提高了预测的准确性。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种信贷风险评估方法,其特征在于,所述方法包括如下步骤:
获取待预测样本;
将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。
2.根据权利要求1所述的信贷风险评估方法,其特征在于,所述将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率输出预警信息的步骤之前包括:
基于所述集成学习算法、半参数回归模型训练得到所述信贷风险模型。
3.根据权利要求2所述的信贷风险评估方法,其特征在于,所述集成学习算法包括:梯度提升生存树GBST、随机生存森林RSF,所述半参数回归模型包括:COX风险比例模型,所述基于所述集成学习算法、半参数回归模型训练得到所述信贷风险模型的步骤包括:
获取训练样本,并基于所述训练样本构建特征库;
基于所述GBST、RSF对所述特征库的训练样本进行训练,得到集成学习生存树模型;
对所述集成学习生存树模型进行筛选,得到第一子树;
通过所述COX风险比例模型对所述第一子树进行训练,得到所述信贷风险模型。
4.根据权利要求3所述的信贷风险评估方法,其特征在于,所述通过所述COX风险比例模型对所述第一子树进行训练,得到所述信贷风险模型的步骤包括:
通过所述COX风险比例模型对所述第一子树进行训练,得到子树模型;
通过评估指标对所述子树模型进行评估,得到第一评估分数;
基于所述第一评估分数对所述子树模型进行筛选,得到所述信贷风险模型。
5.根据权利要求3所述的信贷风险评估方法,其特征在于,所述对所述集成学习生存树模型进行筛选,得到第一子树的步骤之前包括:
通过所述评估指标对所述集成学习生存树模型的子树进行评估,得到第二评估分数;
所述对所述集成学习生存树模型进行筛选,得到第一子树的步骤包括:
基于所述第二评估分数对所述集成学习生存树模型输出的子树进行筛选,得到所述第一子树。
6.根据权利要求3所述的信贷风险评估方法,其特征在于,所述获取训练样本,并基于所述训练样本构建特征库的步骤包括:
获取所述训练样本;
设置目标时间、样本特征;
基于所述目标时间、样本特征对所述训练样本进行筛选,得到所述特征库。
7.根据权利要求3所述的信贷风险评估方法,其特征在于,所述通过所述COX风险比例模型对所述第一子树进行训练,得到所述信贷风险模型的步骤中包括:
通过所述COX风险比例模型对所述第一子树进行训练,得到生存函数,存储于所述信贷风险模型。
8.一种信贷风险评估系统,其特征在于,包括:
样本获取模块,用于获取待预测样本;
样本评估模块,用于将所述待预测样本输入预先创建的信贷风险模型,得到所述待预测样本各时点的违约概率,并根据所述违约概率分布输出预警信息,其中,所述信贷风险模型基于集成学习算法、半参数回归模型训练得到。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信贷风险评估方法,所述信贷风险评估程序被所述处理器执行时实现如权利要求1-7中任一项所述的信贷风险评估方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信贷风险评估程序,所述信贷风险评估程序被处理器执行时实现如权利要求1-7中任一项所述的信贷风险评估方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111576404.1A CN114240633A (zh) | 2021-12-21 | 2021-12-21 | 信贷风险评估方法、系统、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111576404.1A CN114240633A (zh) | 2021-12-21 | 2021-12-21 | 信贷风险评估方法、系统、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114240633A true CN114240633A (zh) | 2022-03-25 |
Family
ID=80760887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111576404.1A Pending CN114240633A (zh) | 2021-12-21 | 2021-12-21 | 信贷风险评估方法、系统、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114240633A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051296A (zh) * | 2022-12-28 | 2023-05-02 | 中国银行保险信息技术管理有限公司 | 基于标准化保险数据的客户评价分析方法及系统 |
-
2021
- 2021-12-21 CN CN202111576404.1A patent/CN114240633A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051296A (zh) * | 2022-12-28 | 2023-05-02 | 中国银行保险信息技术管理有限公司 | 基于标准化保险数据的客户评价分析方法及系统 |
CN116051296B (zh) * | 2022-12-28 | 2023-09-29 | 中国银行保险信息技术管理有限公司 | 基于标准化保险数据的客户评价分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108876600A (zh) | 预警信息推送方法、装置、计算机设备和介质 | |
Han et al. | Orthogonal support vector machine for credit scoring | |
CN111160473A (zh) | 一种分类标签的特征挖掘方法及装置 | |
CN109344998A (zh) | 一种基于医疗美容场景的客户违约概率预测方法 | |
CN112381154A (zh) | 预测用户概率的方法、装置和计算机设备 | |
KR20200075120A (ko) | 기업 부도 예측 시스템 및 이의 동작 방법 | |
CN114612251A (zh) | 风险评估方法、装置、设备及存储介质 | |
CN110728301A (zh) | 一种个人用户的信用评分方法、装置、终端及存储介质 | |
CN111861729A (zh) | 基于lstm的行为评分系统及方法 | |
CN116401379A (zh) | 金融产品数据推送方法、装置、设备及存储介质 | |
CN114240633A (zh) | 信贷风险评估方法、系统、终端设备及存储介质 | |
Yang | Research on Financial Credit Evaluation and Early Warning System of Internet of Things Driven by Computer-Aided Technology | |
Zeng | [Retracted] Credit Risk Evaluation in Enterprise Financial Management by Using Convolutional Neural Network under the Construction of Smart City | |
CN117035983A (zh) | 信贷风险等级的确定方法、装置、存储介质及电子设备 | |
CN110399818A (zh) | 一种风险预测的方法和设备 | |
CN112927719B (zh) | 风险信息评估方法、装置、设备及存储介质 | |
Ho et al. | A machine learning approach for predicting bank customer behavior in the banking industry | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
CN114036923A (zh) | 一种基于文本相似度的资料虚假识别系统及方法 | |
Alshammari et al. | Credit-card Fraud Detection System using Big Data Analytics | |
Basu et al. | A machine-learning-based early warning system boosted by topological data analysis | |
Yang et al. | Automatic feature engineering-based optimization method for car loan fraud detection | |
CN112529699A (zh) | 企业授信模型的构建方法、装置、设备及可读存储介质 | |
Zeng | A comparison study on the era of internet finance China construction of credit scoring system model | |
Kumar et al. | Data Mining in Credit Scoring and Future Application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |