CN113450208A - 贷款风险变动预警、模型训练方法和装置 - Google Patents
贷款风险变动预警、模型训练方法和装置 Download PDFInfo
- Publication number
- CN113450208A CN113450208A CN202110739470.XA CN202110739470A CN113450208A CN 113450208 A CN113450208 A CN 113450208A CN 202110739470 A CN202110739470 A CN 202110739470A CN 113450208 A CN113450208 A CN 113450208A
- Authority
- CN
- China
- Prior art keywords
- loan
- index
- data
- processing
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008859 change Effects 0.000 title claims abstract description 127
- 238000012549 training Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 259
- 238000011156 evaluation Methods 0.000 claims abstract description 57
- 238000013210 evaluation model Methods 0.000 claims abstract description 39
- 238000007619 statistical method Methods 0.000 claims description 32
- 238000011835 investigation Methods 0.000 claims description 23
- 238000012795 verification Methods 0.000 claims description 18
- 238000013145 classification model Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 239000000463 material Substances 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种贷款风险变动预警、模型训练方法和装置,涉及人工智能技术领域。其中,贷款风险变动预警方法包括:获取待预测的目标贷款的指标数据;根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务;根据所述指标加工任务对所述目标贷款的指标数据进行加工,以得到第一结果数据;根据贷款风险变动评估模型对所述第一结果数据进行处理,以得到所述目标贷款是否发生风险变动的评估结果。通过以上步骤,能够提高贷款风险变动预警结果的准确性和时效性,降低贷款风险变动预警所需的人力物力成本。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种贷款风险变动预警、模型训练方法和装置。
背景技术
商业银行需要定期对其发放的贷款质量进行风险分类。例如,对贷款采用五级风险分类方式,具体为将贷款划分为正常、关注、次级、可疑、损失五大类。其中,正常类贷款的贷款质量好,贷款损失概率为0;关注类贷款存在一定的贷款损失概率,因此需要对这类贷款进行重点关注,一旦其变成了不良贷款,贷款损失的概率将会大幅增加,导致商业银行的资产质量变差,将会在一定程度上影响商业银行的正常运营;后三种统称为不良贷款,这种贷款的贷款损失概率非常高,贷款人很可能无法正常还付本息。
目前,对于贷款风险分类的变化情况缺乏有效的预测方法,大多情况是在还款人已经出现了贷款逾期之后才能得知贷款风险分类的变化。也就是说,在现有技术中,只有出现了贷款变成不良贷款的既成事实之后,才能得知这种变化。此时商业银行很可能已经错过了追回贷款的最佳时机,很可能导致商业银行的贷款损失。
鉴于此,有些银行业务人员可能会提前对关注类贷款进行分析,以判断其是否会变成不良贷款。但相关分析操作是基于业务人员自身业务经验进行的主观判断,不同个体之间得到的贷款风险变化判断结果差异较大,不具备可推广性,而且人工得到的贷款风险变化判断结果的准确性较低。
发明内容
有鉴于此,本发明提供了一种贷款风险预警、模型训练方法和装置,能够提高贷款风险变动预警结果的准确性和时效性,降低贷款风险变动预警所需的人力物力成本。
为实现上述目的,根据本发明的第一个方面,提供了一种贷款风险变动预警方法。
本发明的贷款风险变动预警方法包括:获取待预测的目标贷款的指标数据;根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务;根据所述指标加工任务对所述目标贷款的指标数据进行加工,以得到第一结果数据;根据贷款风险变动评估模型对所述第一结果数据进行处理,以得到所述目标贷款是否发生风险变动的评估结果。
可选地,所述获取待预测的目标贷款的指标数据包括:从银行内部系统采集目标贷款的基础指标数据;从银行外部系统采集所述目标贷款对应的贷款用户的征信指标数据;根据所述目标贷款的基础指标数据、以及该目标贷款对应的贷款用户的征信指标数据构建目标贷款的指标数据。
可选地,所述根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务包括:对于评估贷款风险变动所需的指标,从预先配置的第一数据表中选取与之对应的指标加工规则、以及指标来源信息;根据所述指标加工规则和所述指标来源信息动态生成指标加工所用的代码语句;根据预先配置的指标加工频率和所述指标加工所用的代码语句生成指标加工任务。
可选地,所述根据所述指标加工任务对所述目标贷款的指标数据进行加工,以得到第一结果数据包括:确定启用的线程数量;根据启用的多个线程并行执行指标加工任务,以得到第一结果数据。
可选地,所述方法还包括:对所述第一结果数据进行统计分析,以得到指标的描述性统计分析结果;对所述指标的描述性统计分析结果,和/或,所述目标贷款数据是否发生风险变动的评估结果进行可视化展示。
可选地,所述方法还包括:在所述获取待预测的目标贷款的指标数据之后,对所述目标贷款的指标数据进行以下至少一种校验:数据日期校验、数据重复性校验、以及数据项完整性校验。
为实现上述目的,根据本发明的第二个方面,提供了一种贷款风险变动评估模型训练方法。
本发明的贷款风险变动评估模型训练方法包括:获取携带贷款风险变动标签的历史贷款的指标数据;根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务;根据所述指标加工任务对所述历史贷款的指标数据进行加工,以得到第二结果数据;根据第二结果数据和预先配置的模型参数训练二分类模型,以得到贷款风险变动评估模型。
可选地,所述获取携带贷款风险变动标签的历史贷款的指标数据包括:从银行内部系统采集历史贷款的基础指标数据以及所述历史贷款的实际风险变动的标签数据;从银行外部系统采集所述历史贷款对应的贷款用户的征信指标数据;根据所述历史贷款的基础指标数据、该历史贷款的实际风险变动的标签数据、以及该历史贷款对应的贷款用户的征信指标数据构建携带贷款风险变动标签的历史贷款的指标数据。
可选地,所述根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务包括:对于评估贷款风险变动所需的指标,从预先配置的第一数据表中选取与之对应的指标加工规则、以及指标来源信息;根据所述指标加工规则和所述指标来源信息动态生成指标加工所用的代码语句;根据预先配置的指标加工频率和所述指标加工所用的代码语句生成指标加工任务。
可选地,所述根据第二结果数据和预先配置的模型参数训练二分类模型,以得到贷款风险变动评估模型包括:按照预设比例将第二结果数据切分成训练样本和测试样本;根据所述训练样本和预先配置的模型参数对多个二分类模型进行训练,根据测试样本对训练后的所述多个二分类模型的预测效果进行评价,将最优评价结果对应的模型作为贷款风险变动评估模型。
可选地,所述多个二分类模型包括以下至少一个:XGboost模型、LightGBM模型、CatBoost模型。
为实现上述目的,根据本发明的第三个方面,提供了一种贷款风险变动预警装置。
本发明的贷款风险变动预警装置包括:获取模块,用于获取待预测的目标贷款的指标数据;数据处理模块,用于根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务;还用于根据所述指标加工任务对所述目标贷款的指标数据进行加工,以得到第一结果数据;评估模块,用于根据贷款风险变动评估模型对所述第一结果数据进行处理,以得到所述目标贷款是否发生风险变动的评估结果。
为实现上述目的,根据本发明的第四个方面,提供了一种贷款风险变动评估模型训练装置。
本发明的贷款风险变动评估模型训练装置包括:获取模块,用于获取携带贷款风险变动标签的历史贷款的指标数据;数据处理模块,用于根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务;还用于根据所述指标加工任务对所述历史贷款的指标数据进行加工,以得到第二结果数据;训练模块,用于根据第二结果数据和预先配置的模型参数训练二分类模型,以得到贷款风险变动评估模型。
为实现上述目的,根据本发明的第五个方面,提供了一种电子设备。
本发明的电子设备,包括:一个或多个处理器;以及,存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明的贷款风险变动预警方法或贷款风险变动评估模型训练方法。
为实现上述目的,根据本发明的第六个方面,提供了一种计算机可读介质。
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明的贷款风险变动预警方法或贷款风险变动评估模型训练方法。
上述发明中的一个实施例具有如下优点或有益效果:在本发明中,通过电子设备执行获取待预测的目标贷款的指标数据,根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务,根据所述指标加工任务对所述目标贷款的指标数据进行加工,以得到第一结果数据,根据贷款风险变动评估模型对所述第一结果数据进行处理这些步骤,能够精准、快速地得到所述目标贷款是否发生风险变动的评估结果。与现有技术通过人工方式对目标贷款是否发生风险变动进行分析相比,本发明通过采用人工智能技术对目标贷款是否发生风险变动进行评估,能够显著提高贷款风险变动评估的准确性和时效性,降低贷款风险变动评估所需的人力物力成本。进一步,基于贷款风险变动评估结果引导相关业务人员快速科学地做出决策,减少商业银行可能的贷款损失,全面提升商业银行的贷款资产质量。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例可以应用于其中的示例性系统架构图;
图2是根据本发明第一实施例的贷款风险变动预警方法的主要流程示意图;
图3是根据本发明第二实施例的贷款风险变动评估模型的训练方法的主要流程示意图;
图4是根据本发明第三实施例的贷款风险变动预警装置的主要模块示意图;
图5是根据本发明第四实施例的贷款风险变动评估模型的训练装置的主要模块示意图;
图6是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不影响本发明实施的情况下,本发明中的各个实施例以及实施例中的技术特征可以相互组合。
图1示出了可以应用本发明实施例的贷款风险变动预警方法或贷款风险变动评估模型的训练方法或贷款风险变动预警装置或贷款风险变动评估模型的训练装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户(比如商业银行的工作人员)可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如资产风控管理类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的资产风控管理类应用提供支持的后台管理服务器。例如,后台管理服务器可以对终端设备通过网络发送的目标贷款数据预测请求等进行处理,并将处理结果(比如目标贷款数据的风险变动预测结果)反馈给终端设备。
需要说明的是,本发明实施例所提供的贷款风险变动预警方法或贷款风险变动评估模型的训练方法一般由服务器105执行,相应地,贷款风险变动预警装置或贷款风险变动评估模型的训练装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
第一实施例
图2是根据本发明第一实施例的贷款风险变动预警方法的主要流程示意图。如图2所示,本发明实施例的贷款风险变动预警方法包括:
步骤S201:获取待预测的目标贷款的指标数据。
在一个可选示例中,步骤S201包括:从银行内部系统采集目标贷款的基础指标数据,并将其作为目标贷款的指标数据。银行贷款数据主要由存、贷款核心系统和信贷流程管理系统产生,对应系统在日终将会卸载相关数据到数据仓库。因此,在步骤S201中,可从数据仓库统一自动接收贷款的基础指标数据,例如贷款客户信息、贷款合同信息、贷款账户信息、存款余额信息,贷款发放流水信息、贷款还款流水信息等指标数据。
在另一个可选示例中,步骤S201包括:从银行内部系统采集目标贷款的基础指标数据;从银行外部系统采集所述目标贷款对应的贷款用户的征信指标数据;根据所述目标贷款的基础指标数据、以及该目标贷款对应的贷款用户的征信指标数据构建目标贷款的指标数据。示例性地,所述目标贷款的基础指标数据可包括:贷款客户信息、贷款合同信息、贷款账户信息、存款余额信息,贷款发放流水信息、贷款还款流水信息等指标数据;所述贷款用户的征信指标数据可包括征信信息、工商信息、司法信息等外部数据。在该可选示例中,通过从多种渠道采集目标贷款的相关指标数据,获得了更加全面的目标贷款风险变动的影响因素,进而有助于提高目标贷款风险变动预测的准确性。
在再一个可选示例中,步骤S201包括:自动从银行内部系统、外部系统采集贷款的指标数据,以及,接收用户以批量方式导入或单条输入方式自主添加的贷款的指标数据。
可选地,在获取到待预测的目标贷款的指标数据之后,本发明实施例的方法还可包括以下步骤:对目标贷款的指标数据进行以下至少一种校验:数据日期校验、数据重复性校验、以及数据项完整性校验。具体来说,在该步骤中,可校验指标数据的日期是否为指定日期(比如当天产生的增量数据或者昨天产生的增量数据),并从采集到的数据中选取出指定日期的数据项,过滤掉非指定日期的数据项;进行数据重复性校验,并对重复的数据项进行合并处理;进行数据完整性校验,比如校验数据项是否为空值,数据项是否可关联匹配等,并过滤掉不完整的数据项。通过对贷款指标数据进行如上校验,能够有效去除无效数据、合并重复数据,进而减少了后续处理的数据量,有助于提高贷款风险变动评估的处理效率。
步骤S202:根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务。
示例性地,步骤S202具体包括:步骤a1至步骤a3。
步骤a1:对于评估贷款风险变动所需的指标,从预先配置的第一数据表中选取与之对应的指标加工规则、以及指标来源信息。
在步骤a1中,可根据评估贷款风险变动所需的指标查询第一数据库,以得到与该指标对应的指标加工规则、指标来源信息等信息。其中,所述指标来源信息包括指标的来源表以及关联关系。
示例性地,所述评估贷款风险变动所需的指标包括:客户基本信息、客户纳税变化情况、企业征信、高管信用情况、授信额度变化情况、财务报表数据、代发工资情况、信贷合同信息、信贷金融特征、贷款利率调整信息、存贷款交易流水等相关指标。
作为一个示例,表1示出了第一数据表中的部分数据记录。如表1所示,第一数据表除了包括指标的加工规则、指标来源表、关联关系之外,还包括指标的粒度、指标编码、指标中文名、指标的加工频率等信息。其中,指标的粒度包括客户粒度和资产粒度。在一个可选示例中,对于属于客户粒度的指标,将指标加工处理得到的结果数据存储至客户粒度对应的中间数据表中;对于属于资产粒度的指标,将指标加工处理得到的结果数据存储至资产粒度对应的中间数据表中,之后,通过这两张中间数据表可得到最终的结果数据表。
表1
步骤a2:根据所述指标加工规则和所述指标来源信息动态生成指标加工所用的代码语句。
示例性地,在步骤a2中,可根据如下方式动态生成指标加工所用的代码语句:根据指标编码生成INSERT子句(插入子句),根据加工规则生成SELECT子句(查询子句),根据指标来源表生成FROM子句(来源表子句),根据关联条件生成WHERE子句(过滤条件子句),对INSERT子句、SELECT子句、FROM子句、以及WHERE子句进行拼接以得到指标加工所用的代码语句。具体实施时,可按照如下生成规则生成指标加工所用的代码语句:INSERT指标编码SELECT加工规则FROM指标来源表WHERE关联条件。可选地,在生成指标加工所用的代码语句之后,本发明实施例的方法还可包括以下步骤:对生成的代码进行编译,如果编译出错,将打印输出提示配置错误的信息;响应于修改配置的操作,再次触发步骤S202。
步骤a3:根据预先配置的指标加工频率和所述指标加工所用的代码语句生成指标加工任务。
在该步骤中,将预先配置的指标加工频率和指标加工所用的代码语句相结合从而得到指标加工任务。比如,指标加工频率为日终跑批,则生成在每天结束时段(比如每天24点)执行的指标加工任务。
在本发明实施例中,通过实现评估贷款风险变动所需的指标的可配置化以及指标加工规则的可配置化,并基于此动态生成指标加工任务,不仅有助于提高贷款风险变动评估的处理效率,而且有助于提高贷款风险变动评估的灵活性。
步骤S203:根据所述指标加工任务对所述目标贷款的指标数据进行加工,以得到第一结果数据。
其中,第一结果数据包含评估目标贷款风险变动所需的各个指标的指标值。
在一个可选示例中,通过单线程执行所述指标加工任务,以得到第一结果数据。在另一个可选示例中,确定启用的线程数量;根据启用的多个线程并行执行指标加工任务,以得到第一结果数据。例如,可根据待加工的指标数量确定启用的线程数量。通过采用多线程并行执行指标加工任务,能够进一步提高贷款风险变动评估的处理效率。
可选地,本发明实施例的方法还包括以下步骤:对所述第一结果数据进行统计分析,以得到指标的描述性统计分析结果;对所述指标的描述性统计分析结果进行可视化展示。
示例性地,对第一结果数据进行统计分析具体包括:对于数值型指标,主要分析指标的计数、平均值、最大值、最小值、中位数、空值等情况;对于文本型指标,主要分析指标类别的个数、每个类别的占比情况、空值情况等。在得到指标的描述性统计分析结果之后,对指标的描述性统计分析结果进行可视化展示。通过进行数据描述性统计分析并对分析结果进行可视化展示,为业务开展模型验证和业务可解释性提供强有力的支持。
步骤S204:根据贷款风险变动评估模型对所述第一结果数据进行处理,以得到所述目标贷款是否发生风险变动的评估结果。
其中,所述贷款风险变动评估模型可由二分类模型训练得到。示例性地,所述贷款风险变动评估模型由XGBoost模型、LightGBM模型、或者CatBoost模型等二分类模型训练得到。XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。它在GradientBoosting框架下实现机器学习算法。XGBoost提供并行树提升,可以快速准确地解决许多数据科学问题。LightGBM是一个基于决策树算法的分布式梯度提升算法。CatBoost是一种开源梯度增强算法,它是一种机器学习算法,允许用户快速处理大数据集的分类特征。
其中,所述目标贷款是否发生风险变动的评估结果为是(即发生风险变动)或者否(即不发生风险变动)。在一个可选示例中,贷款的风险等级划分为正常、关注、次级、可疑、损失五大类。其中,后三种统称为不良贷款,这种贷款的贷款损失概率非常高,贷款人很可能无法正常还付本息。在该可选示例中,考虑到关注类贷款是否会变成不良类贷款的预测工作对银行尤为重要,因此,在图2所示流程中针对关注类贷款是否变成不良类贷款进行预测,进而,所述目标贷款是否发生风险变动的评估结果具体包括:关注类贷款变成不良贷款,或者,关注类贷款不会变成不良贷款。
在得到所述目标贷款是否发生风险变动的评估结果之后,本发明实施例的方法还可包括以下步骤:对所述目标贷款是否发生风险变动的评估结果进行可视化展示。例如,当评估结果为关注类贷款会变成不良贷款时,用红色显示评估结果;当评估结果为关注类贷款不会变成不良贷款时,用绿色显示评估结果。
在本发明实施例中,通过以上步骤实现了贷款风险变动的自动预测。与现有技术通过人工方式对目标贷款是否发生风险变动进行分析相比,本发明实施例通过采用人工智能技术对目标贷款是否发生风险变动进行评估,能够显著提高贷款风险变动评估的准确性和时效性,降低贷款风险变动评估所需的人力物力成本。进一步,基于贷款风险变动评估结果引导相关业务人员快速科学地做出决策,减少商业银行可能的贷款损失,全面提升商业银行的贷款资产质量。
第二实施例
图3是根据本发明第二实施例的贷款风险变动评估模型的训练方法的主要流程示意图。本发明实施例的方法可由电子设备执行。如图3所示,本发明实施例的贷款风险变动评估模型的训练方法包括:
步骤S301:获取携带贷款方风险变动标签的历史贷款的指标数据。
在一个可选示例中,步骤S301包括:从银行内部系统采集历史贷款的基础指标数据以及所述历史贷款的实际风险变动的标签数据,并将其作为所述历史贷款的指标数据。银行贷款数据主要由存、贷款核心系统和信贷流程管理系统产生,对应系统在日终将会卸载相关数据到数据仓库。因此,在步骤S301中,可从数据仓库统一自动接收历史贷款的基础指标数据,例如贷款客户信息、贷款合同信息、贷款账户信息、存款余额信息,贷款发放流水信息、贷款还款流水信息等指标数据,以及历史贷款的实际风险变动的标签数据。
在另一个可选示例中,步骤S301包括:从银行内部系统采集历史贷款的基础指标数据以及所述历史贷款的实际风险变动的标签数据;从银行外部系统采集所述历史贷款对应的贷款用户的征信指标数据;根据所述历史贷款的基础指标数据、该历史贷款的实际风险变动的标签数据、以及该历史贷款对应的贷款用户的征信指标数据构建携带贷款风险变动标签的历史贷款的指标数据。在该可选示例中,通过从多种渠道采集历史贷款的相关指标数据,获得了更加全面的影响历史贷款风险变动的因素,进而有助于提高贷款风险变动评估模型的训练效果。
在再一个可选示例中,步骤S301包括:自动从银行内部系统、外部系统采集历史贷款的指标数据以及历史贷款的实际风险变动的标签数据,以及,接收用户以批量方式导入或单条输入方式自主添加的历史贷款的指标数据以及历史贷款的实际风险变动的标签数据。
可选地,在步骤S301之后,本发明实施例的方法还可包括以下步骤:对历史贷款的指标数据进行以下至少一种校验:数据日期校验、数据重复性校验、以及数据项完整性校验。具体来说,在该步骤中,可校验指标数据的日期是否为指定日期(比如当天产生的增量数据或者昨天产生的增量数据),并从采集到的数据中选取出指定日期的数据项,过滤掉非指定日期的数据项;进行数据重复性校验,并对重复的数据项进行合并处理;进行数据完整性校验,比如校验数据项是否为空值,数据项是否可关联匹配等,并过滤掉不完整的数据项。通过对贷款指标数据进行如上校验,能够有效去除无效数据、合并重复数据,进而减少了后续处理的数据量,有助于提高贷款风险变动评估模型训练过程的处理效率。
步骤S302:根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务。
示例性地,步骤S302具体包括:对于评估贷款风险变动所需的指标,从预先配置的第一数据表中选取与之对应的指标加工规则、以及指标来源信息;根据所述指标加工规则和所述指标来源信息动态生成指标加工所用的代码语句;根据预先配置的指标加工频率和所述指标加工所用的代码语句生成指标加工任务。
示例性地,所述评估贷款风险变动所需的指标包括:客户基本信息、客户纳税变化情况、企业征信、高管信用情况、授信额度变化情况、财务报表数据、代发工资情况、信贷合同信息、信贷金融特征、贷款利率调整信息、存贷款交易流水等相关指标。
示例性地,第一数据表除了包括指标的加工规则、指标来源表、关联关系之外,还包括指标的粒度、指标编码、指标中文名、指标的加工频率等信息。其中,指标的粒度包括客户粒度和资产粒度。在一个可选示例中,对于属于客户粒度的指标,将指标加工处理得到的结果数据存储至客户粒度对应的中间数据表中;对于属于资产粒度的指标,将指标加工处理得到的结果数据存储至资产粒度对应的中间数据表中,之后,通过这两张中间数据表可得到最终的结果数据表。
示例性地,可根据如下方式动态生成指标加工所用的代码语句:根据指标编码生成INSERT子句(插入子句),根据加工规则生成SELECT子句(查询子句),根据指标来源表生成FROM子句(来源表子句),根据关联条件生成WHERE子句(过滤条件子句),对INSERT子句、SELECT子句、FROM子句、以及WHERE子句进行拼接以得到指标加工所用的代码语句。具体实施时,可按照如下生成规则生成指标加工所用的代码语句:INSERT指标编码SELECT加工规则FROM指标来源表WHERE关联条件。
可选地,在生成指标加工所用的代码语句之后,本发明实施例的方法还可包括以下步骤:对生成的代码进行编译,如果编译出错,将打印输出提示配置错误的信息;响应于修改配置的操作,再次触发步骤S302。
在本发明实施例中,通过实现评估贷款风险变动所需的指标的可配置化以及指标加工规则的可配置化,并基于此动态生成指标加工任务,不仅有助于提高贷款风险变动评估模型训练过程的处理效率,而且有助于提高贷款风险变动评估模型训练过程的灵活性。
步骤S303:根据所述指标加工任务对所述历史贷款的指标数据进行加工,以得到第二结果数据。
其中,第二结果数据包含评估贷款风险变动所需的各个指标的指标值、以及历史贷款的实际风险变动的标签值。在一个可选示例中,通过单线程执行所述指标加工任务,以得到第二结果数据。在另一个可选示例中,确定启用的线程数量;根据启用的多个线程并行执行指标加工任务,以得到第二结果数据。例如,可根据待加工的指标数量确定启用的线程数量。通过采用多线程并行执行指标加工任务,能够进一步提高贷款风险变动评估的处理效率。
可选地,本发明实施例的方法还包括以下步骤:对所述第二结果数据进行统计分析,以得到指标的描述性统计分析结果;对所述指标的描述性统计分析结果进行可视化展示。
示例性地,对第二结果数据进行统计分析具体包括:对于数值型指标,主要分析指标的计数、平均值、最大值、最小值、中位数、空值等情况;对于文本型指标,主要分析指标类别的个数、每个类别的占比情况、空值情况等。在得到指标的描述性统计分析结果之后,对指标的描述性统计分析结果进行可视化展示。通过进行数据描述性统计分析并对分析结果进行可视化展示,为业务开展模型验证和业务可解释性提供强有力的支持。
步骤S304:根据第二结果数据和预先配置的模型参数训练二分类模型,以得到贷款风险变动评估模型。
在一个可选示例中,贷款的风险等级划分为正常、关注、次级、可疑、损失五大类。其中,后三种统称为不良贷款,这种贷款的贷款损失概率非常高,贷款人很可能无法正常还付本息。在该可选示例中,考虑到关注类贷款是否会变成不良类贷款的预测工作对银行尤为重要,因此,在图3所示流程中针对关注类贷款是否会变成不良贷款的评估模型进行训练。也就是说,在该可选示例中,贷款风险变动评估模型主要对关注类贷款是否会变成不良贷款进行评估。
示例性地,步骤S304包括:步骤b1至步骤b3。
步骤b1:按照预设比例将第二结果数据切分成训练样本和测试样本。例如,可按照7:3的比例将第二结果数据切分成训练样本和测试样本。通过按照上述比例切分训练集和测试集,能够确保机器学习算法的正确运行和检验效果。
步骤b2:根据所述训练样本和预先配置的模型参数对多个二分类模型进行训练。
其中,所述多个二分类模型可包括以下至少一个:XGboost模型、LightGBM模型、CatBoost模型。XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。它在Gradient Boosting框架下实现机器学习算法。XGBoost提供并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。LightGBM是一个基于决策树算法的分布式梯度提升算法。CatBoost是一种开源梯度增强算法,它是一种机器学习算法,允许用户快速处理大数据集的分类特征。
在一个可选示例中,所述多个二分类模型由XGboost模型、LightGBM模型、CatBoost模型构成。在该可选示例中,通过训练样本和预先配置的模型参数分别对XGboost模型、LightGBM模型、CatBoost模型这三个二分类模型进行训练。具体实施时,可通过sklearn接口进行模型训练。
进一步,在该可选示例中,预先为XGboost模型、LightGBM模型、CatBoost模型这三个模型配置的模型参数如表2所示。
表2
将表2所示模型参数作为XGboost模型、LightGBM模型、CatBoost模型这三个模型的初始模型参数,将训练样本输入这三个模型进行训练。在进行模型训练时,轮询调整参数值,比如将参数值调整为初始值的1倍、2倍、3倍等。具体实施时,可采用sklearn的GridSearchCV接口,进行自动搜索最优的参数设置。通过采用表2所示模型参数设置,有助于自动快速地找到最优的训练模型,提高模型训练的效率。此外,在一个可选示例中,考虑到模型训练总体计算量较大,对内存的需求较多,因此服务器配置不低于8C32G。
在本发明实施例中,通过对多个二分类模型进行训练,并从中选出最优的二分类模型,有助于提高最终得到的贷款风险变动评估模型的预测效果。
步骤b3:根据测试样本对训练后的所述多个二分类模型的预测效果进行评价,将最优评价结果对应的模型作为贷款风险变动评估模型。
示例性地,在该步骤中,基于测试样本对XGboost模型、LightGBM模型、CatBoost模型的预测效果进行评价。评价结果包括模型的预测准确率、AUC(ROC曲线下的面积)这两个评价指标的取值。通过比较训练后的XGboost模型、LightGBM模型、CatBoost模型这三个模型的评价结果,选出评价结果最优的模型,并将其作为最终的贷款风险变动评估模型。在得到贷款风险变动评估模型之后,自动生成模型文件,并将该模型文件存放到模型调度的路径下;并且,生成出模型的调用接口,以供后续的待预测数据调用模型使用。
进一步,在步骤b1之前,本发明实施例的方法还可包括以下步骤:对第二结果数据进行预处理。示例性地,所述对第二结果数据进行预处理包括:标识出第二结果数据中的哪些指标是自变量、哪些指标是因变量,并创建索引。例如,当贷款风险变动评估模型主要对关注类贷款是否会变成不良贷款进行评估时,因变量指标为第二结果数据中每笔关注类贷款是否变成不良类贷款的标签值,其余的指标为自变量指标。进一步,所述对第二结果数据进行预处理还包括:对文本型指标进行独热编码,对部分数值型指标进行平滑处理,比如,对于取值区间跨度较大的金额数据进行取自然对数、或者归一化处理等。
在本发明实施例中,通过以上步骤能够自动、快速地训练得到贷款风险变动评估模型。进而,后续可直接调用该模型对某笔关注类贷款是否会变成不良类贷款进行预测。与现有技术通过人工方式对目标贷款是否发生风险变动进行分析相比,通过采用人工智能技术对目标贷款是否发生风险变动进行评估,能够显著提高贷款风险变动评估的准确性和时效性,降低贷款风险变动评估所需的人力物力成本。进一步,基于贷款风险变动评估结果引导相关业务人员快速科学地做出决策,减少商业银行可能的贷款损失,全面提升商业银行的贷款资产质量。
第三实施例
图4是根据本发明第三实施例的贷款风险变动预警装置的主要模块示意图。如图4所示,本发明实施例的贷款风险变动预警装置400包括:获取模块401、数据处理模块402、评估模块403。
获取模块401,用于获取待预测的目标贷款的指标数据。
在一个可选示例中,获取模块401获取待预测的目标贷款的指标数据包括:获取模块401从银行内部系统采集目标贷款的基础指标数据,并将其作为目标贷款的指标数据。银行贷款数据主要由存、贷款核心系统和信贷流程管理系统产生,对应系统在日终将会卸载相关数据到数据仓库。因此,获取模块401可从数据仓库统一自动接收贷款的基础指标数据,例如贷款客户信息、贷款合同信息、贷款账户信息、存款余额信息,贷款发放流水信息、贷款还款流水信息等指标数据。
在另一个可选示例中,获取模块401获取待预测的目标贷款的指标数据包括:获取模块401从银行内部系统采集目标贷款的基础指标数据;获取模块401从银行外部系统采集所述目标贷款对应的贷款用户的征信指标数据;获取模块401根据所述目标贷款的基础指标数据、以及该目标贷款对应的贷款用户的征信指标数据构建目标贷款的指标数据。示例性地,所述目标贷款的基础指标数据可包括:贷款客户信息、贷款合同信息、贷款账户信息、存款余额信息,贷款发放流水信息、贷款还款流水信息等指标数据;所述贷款用户的征信指标数据可包括征信信息、工商信息、司法信息等外部数据。在该可选示例中,通过从多种渠道采集目标贷款的相关指标数据,获得了更加全面的目标贷款风险变动的影响因素,进而有助于提高目标贷款风险变动预测的准确性。
在再一个可选示例中,获取模块401获取待预测的目标贷款的指标数据包括:获取模块401自动从银行内部系统、外部系统采集贷款的指标数据,以及,获取模块401接收用户以批量方式导入或单条输入方式自主添加的贷款的指标数据。
数据处理模块402,用于根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务。
示例性地,数据处理模块402根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务包括:对于评估贷款风险变动所需的指标,数据处理模块402从预先配置的第一数据表中选取与之对应的指标加工规则、以及指标来源信息;数据处理模块402根据所述指标加工规则和所述指标来源信息动态生成指标加工所用的代码语句;数据处理模块402根据预先配置的指标加工频率和所述指标加工所用的代码语句生成指标加工任务。
在该示例中,数据处理模块402可根据评估贷款风险变动所需的指标查询第一数据库,以得到与该指标对应的指标加工规则、指标来源信息等信息。其中,所述指标来源信息包括指标的来源表以及关联关系。此外,第一数据表除了包括指标的加工规则、指标来源表、关联关系之外,还包括指标的粒度、指标编码、指标中文名、指标的加工频率等信息。其中,指标的粒度包括客户粒度和资产粒度。在一个可选示例中,对于属于客户粒度的指标,将指标加工处理得到的结果数据存储至客户粒度对应的中间数据表中;对于属于资产粒度的指标,将指标加工处理得到的结果数据存储至资产粒度对应的中间数据表中,之后,通过这两张中间数据表可得到最终的结果数据表。
在该示例中,数据处理模块402可根据如下方式动态生成指标加工所用的代码语句:数据处理模块402根据指标编码生成INSERT子句(插入子句),根据加工规则生成SELECT子句(查询子句),根据指标来源表生成FROM子句(来源表子句),根据关联条件生成WHERE子句(过滤条件子句),对INSERT子句、SELECT子句、FROM子句、以及WHERE子句进行拼接以得到指标加工所用的代码语句。具体实施时,数据处理模块402可按照如下生成规则生成指标加工所用的代码语句:INSERT指标编码SELECT加工规则FROM指标来源表WHERE关联条件。
在本发明实施例中,通过实现评估贷款风险变动所需的指标的可配置化以及指标加工规则的可配置化,并基于此动态生成指标加工任务,不仅有助于提高贷款风险变动评估的处理效率,而且有助于提高贷款风险变动评估的灵活性。
数据处理模块402,还用于根据所述指标加工任务对所述目标贷款的指标数据进行加工,以得到第一结果数据。其中,第一结果数据包含评估目标贷款风险变动所需的各个指标的指标值。
在一个可选示例中,数据处理模块402通过单线程执行所述指标加工任务,以得到第一结果数据。在另一个可选示例中,数据处理模块402确定启用的线程数量;根据启用的多个线程并行执行指标加工任务,以得到第一结果数据。例如,可根据待加工的指标数量确定启用的线程数量。通过采用多线程并行执行指标加工任务,能够进一步提高贷款风险变动评估的处理效率。
可选地,数据处理模块402还用于对所述第一结果数据进行统计分析,以得到指标的描述性统计分析结果。
示例性地,数据处理模块402对第一结果数据进行统计分析具体包括:对于数值型指标,主要分析指标的计数、平均值、最大值、最小值、中位数、空值等情况;对于文本型指标,主要分析指标类别的个数、每个类别的占比情况、空值情况等。在得到指标的描述性统计分析结果之后,可通过展示模块对指标的描述性统计分析结果进行可视化展示。通过进行数据描述性统计分析并对分析结果进行可视化展示,为业务开展模型验证和业务可解释性提供强有力的支持。
评估模块403,用于根据贷款风险变动评估模型对所述第一结果数据进行处理,以得到所述目标贷款是否发生风险变动的评估结果。
其中,所述贷款风险变动评估模型可由二分类模型训练得到。示例性地,所述贷款风险变动评估模型由XGBoost模型、LightGBM模型、或者CatBoost模型等二分类模型训练得到。
其中,所述目标贷款是否发生风险变动的评估结果为是(即发生风险变动)或者否(即不发生风险变动)。在一个可选示例中,贷款的风险等级划分为正常、关注、次级、可疑、损失五大类。其中,后三种统称为不良贷款,这种贷款的贷款损失概率非常高,贷款人很可能无法正常还付本息。在该可选示例中,考虑到关注类贷款是否会变成不良类贷款的预测工作对银行尤为重要,因此,主要针对关注类贷款是否变成不良类贷款进行预测,进而,所述目标贷款是否发生风险变动的评估结果具体包括:关注类贷款变成不良贷款,或者,关注类贷款不会变成不良贷款。
可选地,本发明实施例的装置还包括:展示模块,用于对所述目标贷款是否发生风险变动的评估结果进行可视化展示。例如,当评估结果为关注类贷款会变成不良贷款时,用红色显示评估结果;当评估结果为关注类贷款不会变成不良贷款时,用绿色显示评估结果。
在本发明实施例中,通过以上装置实现了贷款风险变动的自动预测。与现有技术通过人工方式对目标贷款是否发生风险变动进行分析相比,本发明实施例通过采用人工智能技术对目标贷款是否发生风险变动进行评估,能够显著提高贷款风险变动评估的准确性和时效性,降低贷款风险变动评估所需的人力物力成本。进一步,基于贷款风险变动评估结果引导相关业务人员快速科学地做出决策,减少商业银行可能的贷款损失,全面提升商业银行的贷款资产质量。
第四实施例
图5是根据本发明第四实施例的贷款风险变动评估模型的训练装置的主要模块示意图。如图5所示,本发明实施例的贷款风险变动评估模型训练装置500包括:获取模块501、数据处理模块502、训练模块503。
获取模块501,用于获取携带贷款方风险变动标签的历史贷款的指标数据。
在一个可选示例中,获取模块501获取携带贷款方风险变动标签的历史贷款的指标数据包括:获取模块501从银行内部系统采集历史贷款的基础指标数据以及所述历史贷款的实际风险变动的标签数据,并将其作为所述历史贷款的指标数据。银行贷款数据主要由存、贷款核心系统和信贷流程管理系统产生,对应系统在日终将会卸载相关数据到数据仓库。因此,获取模块501可从数据仓库统一自动接收历史贷款的基础指标数据,例如贷款客户信息、贷款合同信息、贷款账户信息、存款余额信息,贷款发放流水信息、贷款还款流水信息等指标数据,以及历史贷款的实际风险变动的标签数据。
在另一个可选示例中,获取模块501获取携带贷款方风险变动标签的历史贷款的指标数据包括:获取模块501从银行内部系统采集历史贷款的基础指标数据以及所述历史贷款的实际风险变动的标签数据;获取模块501从银行外部系统采集所述历史贷款对应的贷款用户的征信指标数据;获取模块501根据所述历史贷款的基础指标数据、该历史贷款的实际风险变动的标签数据、以及该历史贷款对应的贷款用户的征信指标数据构建携带贷款风险变动标签的历史贷款的指标数据。在该可选示例中,通过从多种渠道采集历史贷款的相关指标数据,获得了更加全面的影响历史贷款风险变动的因素,进而有助于提高贷款风险变动评估模型的训练效果。
在再一个可选示例中,获取模块501获取携带贷款方风险变动标签的历史贷款的指标数据包括:获取模块501自动从银行内部系统、外部系统采集历史贷款的指标数据以及历史贷款的实际风险变动的标签数据,以及,获取模块501接收用户以批量方式导入或单条输入方式自主添加的历史贷款的指标数据以及历史贷款的实际风险变动的标签数据。
数据处理模块502,用于根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务。
示例性地,数据处理模块502根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务包括:对于评估贷款风险变动所需的指标,数据处理模块502从预先配置的第一数据表中选取与之对应的指标加工规则、以及指标来源信息;数据处理模块502根据所述指标加工规则和所述指标来源信息动态生成指标加工所用的代码语句;数据处理模块502根据预先配置的指标加工频率和所述指标加工所用的代码语句生成指标加工任务。
示例性地,所述评估贷款风险变动所需的指标包括:客户基本信息、客户纳税变化情况、企业征信、高管信用情况、授信额度变化情况、财务报表数据、代发工资情况、信贷合同信息、信贷金融特征、贷款利率调整信息、存贷款交易流水等相关指标。
示例性地,第一数据表除了包括指标的加工规则、指标来源表、关联关系之外,还包括指标的粒度、指标编码、指标中文名、指标的加工频率等信息。其中,指标的粒度包括客户粒度和资产粒度。在一个可选示例中,对于属于客户粒度的指标,数据处理模块502将指标加工处理得到的结果数据存储至客户粒度对应的中间数据表中;对于属于资产粒度的指标,数据处理模块502将指标加工处理得到的结果数据存储至资产粒度对应的中间数据表中,之后,数据处理模块502通过这两张中间数据表可得到最终的结果数据表。
示例性地,数据处理模块502可根据如下方式动态生成指标加工所用的代码语句:根据指标编码生成INSERT子句(插入子句),根据加工规则生成SELECT子句(查询子句),根据指标来源表生成FROM子句(来源表子句),根据关联条件生成WHERE子句(过滤条件子句),对INSERT子句、SELECT子句、FROM子句、以及WHERE子句进行拼接以得到指标加工所用的代码语句。具体实施时,数据处理模块502可按照如下生成规则生成指标加工所用的代码语句:INSERT指标编码SELECT加工规则FROM指标来源表WHERE关联条件。
在本发明实施例中,通过实现评估贷款风险变动所需的指标的可配置化以及指标加工规则的可配置化,并基于此动态生成指标加工任务,不仅有助于提高贷款风险变动评估模型训练过程的处理效率,而且有助于提高贷款风险变动评估模型训练过程的灵活性。
数据处理模块502,还用于根据所述指标加工任务对所述历史贷款的指标数据进行加工,以得到第二结果数据。
其中,第二结果数据包含评估贷款风险变动所需的各个指标的指标值、以及历史贷款的实际风险变动的标签值。在一个可选示例中,数据处理模块502通过单线程执行所述指标加工任务,以得到第二结果数据。在另一个可选示例中,数据处理模块502确定启用的线程数量;数据处理模块502根据启用的多个线程并行执行指标加工任务,以得到第二结果数据。例如,数据处理模块502可根据待加工的指标数量确定启用的线程数量。通过采用多线程并行执行指标加工任务,能够进一步提高贷款风险变动评估的处理效率。
可选地,数据处理模块502,还用于对所述第二结果数据进行统计分析,以得到指标的描述性统计分析结果。
示例性地,数据处理模块502对第二结果数据进行统计分析具体包括:对于数值型指标,主要分析指标的计数、平均值、最大值、最小值、中位数、空值等情况;对于文本型指标,主要分析指标类别的个数、每个类别的占比情况、空值情况等。在得到指标的描述性统计分析结果之后,对指标的描述性统计分析结果进行可视化展示。通过进行数据描述性统计分析并对分析结果进行可视化展示,为业务开展模型验证和业务可解释性提供强有力的支持。
训练模块503,用于根据第二结果数据和预先配置的模型参数训练二分类模型,以得到贷款风险变动评估模型。
在一个可选示例中,贷款的风险等级划分为正常、关注、次级、可疑、损失五大类。其中,后三种统称为不良贷款,这种贷款的贷款损失概率非常高,贷款人很可能无法正常还付本息。在该可选示例中,考虑到关注类贷款是否会变成不良类贷款的预测工作对银行尤为重要,因此,贷款风险变动评估模型具体为针对关注类贷款是否会变成不良贷款的评估模型。也就是说,贷款风险变动评估模型主要对关注类贷款是否会变成不良贷款进行评估。
示例性地,训练模块503根据第二结果数据和预先配置的模型参数训练二分类模型包括:训练模块503按照预设比例将第二结果数据切分成训练样本和测试样本;训练模块503根据所述训练样本和预先配置的模型参数对多个二分类模型进行训练;训练模块503根据测试样本对训练后的所述多个二分类模型的预测效果进行评价,将最优评价结果对应的模型作为贷款风险变动评估模型。在本发明实施例中,通过对多个二分类模型进行训练,并从中选出最优的二分类模型,有助于提高最终得到的贷款风险变动评估模型的预测效果。
其中,所述多个二分类模型可包括以下至少一个:XGboost模型、LightGBM模型、CatBoost模型。在一个可选示例中,所述多个二分类模型由XGboost模型、LightGBM模型、CatBoost模型构成。在该可选示例中,训练模块503通过训练样本和预先配置的模型参数分别对XGboost模型、LightGBM模型、CatBoost模型这三个二分类模型进行训练。具体实施时,可通过sklearn接口进行模型训练。
进一步,在该可选示例中,预先为XGboost模型、LightGBM模型、CatBoost模型这三个模型配置的模型参数如表2所示。将表2所示模型参数作为XGboost模型、LightGBM模型、CatBoost模型这三个模型的初始模型参数,将训练样本输入这三个模型进行训练。在进行模型训练时,轮询调整参数值,比如将参数值调整为初始值的1倍、2倍、3倍等。具体实施时,可采用sklearn的GridSearchCV接口,进行自动搜索最优的参数设置。通过采用表2所示模型参数设置,有助于自动快速地找到最优的训练模型,提高模型训练的效率。此外,在一个可选示例中,考虑到模型训练总体计算量较大,对内存的需求较多,因此服务器配置不低于8C32G。
在本发明实施例中,通过以上装置能够自动、快速地训练得到贷款风险变动评估模型。进而,后续可直接调用该模型对某笔关注类贷款是否会变成不良类贷款进行预测。与现有技术通过人工方式对目标贷款是否发生风险变动进行分析相比,通过采用人工智能技术对目标贷款是否发生风险变动进行评估,能够显著提高贷款风险变动评估的准确性和时效性,降低贷款风险变动评估所需的人力物力成本。进一步,基于贷款风险变动评估结果引导相关业务人员快速科学地做出决策,减少商业银行可能的贷款损失,全面提升商业银行的贷款资产质量。
下面参考图6,其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的计算机系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、数据处理模块和评估模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取目标贷款的指标数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行以下贷款风险变动预警流程:获取待预测的目标贷款的指标数据;根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务;根据所述指标加工任务对所述目标贷款的指标数据进行加工,以得到第一结果数据;根据贷款风险变动评估模型对所述第一结果数据进行处理,以得到所述目标贷款是否发生风险变动的评估结果。
作为再一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行以下贷款风险变动评估模型训练流程:获取携带贷款风险变动标签的历史贷款的指标数据;根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务;根据所述指标加工任务对所述历史贷款的指标数据进行加工,以得到第二结果数据;根据第二结果数据和预先配置的模型参数训练二分类模型,以得到贷款风险变动评估模型。
根据本发明实施例的技术方案,能够提高贷款风险变动预警结果的准确性和时效性,降低贷款风险变动预警所需的人力物力成本。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (15)
1.一种贷款风险变动预警方法,其特征在于,所述方法包括:
获取待预测的目标贷款的指标数据;
根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务;
根据所述指标加工任务对所述目标贷款的指标数据进行加工,以得到第一结果数据;
根据贷款风险变动评估模型对所述第一结果数据进行处理,以得到所述目标贷款是否发生风险变动的评估结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待预测的目标贷款的指标数据包括:
从银行内部系统采集目标贷款的基础指标数据;从银行外部系统采集所述目标贷款对应的贷款用户的征信指标数据;根据所述目标贷款的基础指标数据、以及该目标贷款对应的贷款用户的征信指标数据构建目标贷款的指标数据。
3.根据权利要求1所述的方法,其特征在于,所述根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务包括:
对于评估贷款风险变动所需的指标,从预先配置的第一数据表中选取与之对应的指标加工规则、以及指标来源信息;根据所述指标加工规则和所述指标来源信息动态生成指标加工所用的代码语句;根据预先配置的指标加工频率和所述指标加工所用的代码语句生成指标加工任务。
4.根据权利要求1所述的方法,其特征在于,所述根据所述指标加工任务对所述目标贷款的指标数据进行加工,以得到第一结果数据包括:
确定启用的线程数量;根据启用的多个线程并行执行指标加工任务,以得到第一结果数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述第一结果数据进行统计分析,以得到指标的描述性统计分析结果;对所述指标的描述性统计分析结果,和/或,所述目标贷款数据是否发生风险变动的评估结果进行可视化展示。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述获取待预测的目标贷款的指标数据之后,对所述目标贷款的指标数据进行以下至少一种校验:数据日期校验、数据重复性校验、以及数据项完整性校验。
7.一种贷款风险变动评估模型训练方法,其特征在于,所述方法包括:
获取携带贷款风险变动标签的历史贷款的指标数据;
根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务;
根据所述指标加工任务对所述历史贷款的指标数据进行加工,以得到第二结果数据;
根据第二结果数据和预先配置的模型参数训练二分类模型,以得到贷款风险变动评估模型。
8.根据权利要求7所述的方法,其特征在于,所述获取携带贷款风险变动标签的历史贷款的指标数据包括:
从银行内部系统采集历史贷款的基础指标数据以及所述历史贷款的实际风险变动的标签数据;从银行外部系统采集所述历史贷款对应的贷款用户的征信指标数据;根据所述历史贷款的基础指标数据、该历史贷款的实际风险变动的标签数据、以及该历史贷款对应的贷款用户的征信指标数据构建携带贷款风险变动标签的历史贷款的指标数据。
9.根据权利要求7所述的方法,其特征在于,所述根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务包括:
对于评估贷款风险变动所需的指标,从预先配置的第一数据表中选取与之对应的指标加工规则、以及指标来源信息;根据所述指标加工规则和所述指标来源信息动态生成指标加工所用的代码语句;根据预先配置的指标加工频率和所述指标加工所用的代码语句生成指标加工任务。
10.根据权利要求7所述的方法,其特征在于,所述根据第二结果数据和预先配置的模型参数训练二分类模型,以得到贷款风险变动评估模型包括:
按照预设比例将第二结果数据切分成训练样本和测试样本;根据所述训练样本和预先配置的模型参数对多个二分类模型进行训练,根据测试样本对训练后的所述多个二分类模型的预测效果进行评价,将最优评价结果对应的模型作为所述贷款风险变动评估模型。
11.根据权利要求7所述的方法,其特征在于,所述多个二分类模型包括以下至少一个:XGboost模型、LightGBM模型、CatBoost模型。
12.一种贷款风险变动预警装置,其特征在于,所述装置包括:
获取模块,用于获取待预测的目标贷款的指标数据;
数据处理模块,用于根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务;还用于根据所述指标加工任务对所述目标贷款的指标数据进行加工,以得到第一结果数据;
评估模块,用于根据贷款风险变动评估模型对所述第一结果数据进行处理,以得到所述目标贷款是否发生风险变动的评估结果。
13.一种贷款风险变动评估模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取携带贷款风险变动标签的历史贷款的指标数据;
数据处理模块,用于根据预先配置的评估贷款风险变动所需的指标和指标加工规则动态生成指标加工任务;还用于根据所述指标加工任务对所述历史贷款的指标数据进行加工,以得到第二结果数据;
训练模块,用于根据第二结果数据和预先配置的模型参数训练二分类模型,以得到贷款风险变动评估模型。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6,7-11中任一所述的方法。
15.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6,7-11中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110739470.XA CN113450208A (zh) | 2021-06-30 | 2021-06-30 | 贷款风险变动预警、模型训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110739470.XA CN113450208A (zh) | 2021-06-30 | 2021-06-30 | 贷款风险变动预警、模型训练方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113450208A true CN113450208A (zh) | 2021-09-28 |
Family
ID=77814487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110739470.XA Pending CN113450208A (zh) | 2021-06-30 | 2021-06-30 | 贷款风险变动预警、模型训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113450208A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545882A (zh) * | 2022-09-02 | 2022-12-30 | 睿智合创(北京)科技有限公司 | 一种基于新增信贷不良率的信贷风险预测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921689A (zh) * | 2018-06-29 | 2018-11-30 | 重庆富民银行股份有限公司 | 贷款风险监控系统及方法 |
CN110111202A (zh) * | 2019-05-09 | 2019-08-09 | 深圳美美网络科技有限公司 | 一种贷后风险监控的方法和系统 |
CN110246029A (zh) * | 2019-06-21 | 2019-09-17 | 深圳前海微众银行股份有限公司 | 贷后风险管理方法、终端、装置及可读存储介质 |
CN110246030A (zh) * | 2019-06-21 | 2019-09-17 | 深圳前海微众银行股份有限公司 | 多方联动的贷后风险管理方法、终端、装置及存储介质 |
CN110738564A (zh) * | 2019-10-16 | 2020-01-31 | 信雅达系统工程股份有限公司 | 贷后风险评估方法及装置、存储介质 |
CN111383101A (zh) * | 2020-03-25 | 2020-07-07 | 深圳前海微众银行股份有限公司 | 贷后风险监控方法、装置、设备及计算机可读存储介质 |
CN112819607A (zh) * | 2021-02-02 | 2021-05-18 | 中国工商银行股份有限公司 | 股票抵押物贷款回收风险自动预警方法和装置 |
-
2021
- 2021-06-30 CN CN202110739470.XA patent/CN113450208A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921689A (zh) * | 2018-06-29 | 2018-11-30 | 重庆富民银行股份有限公司 | 贷款风险监控系统及方法 |
CN110111202A (zh) * | 2019-05-09 | 2019-08-09 | 深圳美美网络科技有限公司 | 一种贷后风险监控的方法和系统 |
CN110246029A (zh) * | 2019-06-21 | 2019-09-17 | 深圳前海微众银行股份有限公司 | 贷后风险管理方法、终端、装置及可读存储介质 |
CN110246030A (zh) * | 2019-06-21 | 2019-09-17 | 深圳前海微众银行股份有限公司 | 多方联动的贷后风险管理方法、终端、装置及存储介质 |
CN110738564A (zh) * | 2019-10-16 | 2020-01-31 | 信雅达系统工程股份有限公司 | 贷后风险评估方法及装置、存储介质 |
CN111383101A (zh) * | 2020-03-25 | 2020-07-07 | 深圳前海微众银行股份有限公司 | 贷后风险监控方法、装置、设备及计算机可读存储介质 |
CN112819607A (zh) * | 2021-02-02 | 2021-05-18 | 中国工商银行股份有限公司 | 股票抵押物贷款回收风险自动预警方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545882A (zh) * | 2022-09-02 | 2022-12-30 | 睿智合创(北京)科技有限公司 | 一种基于新增信贷不良率的信贷风险预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179051A (zh) | 金融目标客户确定方法、装置及电子设备 | |
CN112990281A (zh) | 异常投标识别模型训练方法、异常投标识别方法及装置 | |
CN113722433A (zh) | 一种信息推送方法、装置、电子设备及计算机可读介质 | |
CN116128627A (zh) | 风险预测方法、装置、电子设备及存储介质 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN115936895A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
CN114997975A (zh) | 一种异常企业识别方法、装置、设备、介质及产品 | |
CN111724185A (zh) | 用户维护方法和装置 | |
CN113450208A (zh) | 贷款风险变动预警、模型训练方法和装置 | |
CN113379124A (zh) | 基于预测模型的人员稳定性预测方法及装置 | |
CN112712369A (zh) | 一种反洗钱可疑交易监测方法和装置 | |
CN111159355A (zh) | 客户投诉单处理方法及装置 | |
CN110795638A (zh) | 用于输出信息的方法和装置 | |
CN110930238A (zh) | 提高审核任务效率的方法、装置、设备和计算机可读介质 | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
CN115760010A (zh) | 报关单的审核方法、报关方法、装置、设备及存储介质 | |
CN111429257B (zh) | 一种交易监控方法和装置 | |
CN115795345A (zh) | 信息处理方法、装置、设备及存储介质 | |
KR20230103025A (ko) | 기업 신용 분석 및 평가 정보 제공 방법, 장치 및 시스템 | |
CN114493851A (zh) | 一种风险处理方法及装置 | |
CN113870007A (zh) | 一种产品推荐方法、装置、设备及介质 | |
CN114880369A (zh) | 一种基于弱数据技术的风险授信方法和系统 | |
CN112907362A (zh) | 贷款业务的处理方法、装置、电子设备和存储介质 | |
CN112990311A (zh) | 一种准入客户的识别方法和装置 | |
CN112734352A (zh) | 一种基于数据维度的单据审核方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |