CN117252677A - 信贷额度确定方法和装置、电子设备及存储介质 - Google Patents

信贷额度确定方法和装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117252677A
CN117252677A CN202210647454.2A CN202210647454A CN117252677A CN 117252677 A CN117252677 A CN 117252677A CN 202210647454 A CN202210647454 A CN 202210647454A CN 117252677 A CN117252677 A CN 117252677A
Authority
CN
China
Prior art keywords
credit
scoring
sequence
applicant
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210647454.2A
Other languages
English (en)
Inventor
白鹤来
杨雅涵
徐爽
王绍康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bairong Yunchuang Technology Co ltd
Original Assignee
Bairong Yunchuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bairong Yunchuang Technology Co ltd filed Critical Bairong Yunchuang Technology Co ltd
Priority to CN202210647454.2A priority Critical patent/CN117252677A/zh
Publication of CN117252677A publication Critical patent/CN117252677A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请公开一种基于数据评分模型的信贷额度确定方法,包括如下步骤:形成历史数据样本点序列;从历史数据样本点序列提取好样本点序列、坏样本点序列;训练生成数据评分模型;确定申请人的信贷相关数据和申请人所申请的信贷产品的额度区间;生成申请人的月还款额序列;将申请人的当前月总负债依次与月还款额序列相加,生成月总负债序列;形成申请人样本序列,将申请人样本序列输入到数据评分模型中,获取风险评分序列;生成额度‑风险评分曲线;根据额度‑风险评分曲线获取申请人的信贷额度。本申请将额度信息与风险因素关联起来进行额度确定,结果更加精确,更加符合实际情况。本申请还提供了对应的装置、电子设备和计算机可读存储介质。

Description

信贷额度确定方法和装置、电子设备及存储介质
技术领域
本申请涉及计算机网络的技术领域,具体地涉及金融科技,更具体地涉及一种基于数据评分模型的信贷额度确定方法。另外,本申请还涉及相关的装置、电子设备和计算机可读存储介质。
背景技术
随着数字金融技术的发展,一些决策事项逐渐由人工依据经验进行决策转变成由计算机进行决策或者由计算机辅助进行决策。在现有的额度策略模型中,通常将授信额度的计算划分为两个部分:“收入推算”和“风险测算”,基于申请人的月收入推算出最大额度,在基于申请人信息获取风险因子,基于最大额度和风险因子,获取最终额度,其计算逻辑可表达为:最终额度=月(年)收入(可支配收入)*风险因子*PMT系数。
当前,各个模型之间采用相互独立的计算方式,并没有考虑相互之间的响应因素,造成额度计算结果存在偏差,结果不精确的问题,因此需要一种考量因素之间相关性的额度计算方法。
本背景技术描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认。
发明内容
因此,本发明实施例意图提供一种基于数据评分模型的信贷额度确定方法,可根据申请人的信贷相关信息生成额度-风险评分曲线,基于预设的风险评分阈值,获取与申请人相关的信贷额度,将额度信息与风险因素关联起来进行额度确定,结果更加精确,更加符合实际情况。具体地,本发明实施例提供了一种基于数据评分模型的信贷额度确定方法,包括如下步骤:
获取历史客户每期还款时点的信贷相关数据,形成历史数据样本点序列,其中,所述信贷相关数据包括当前月总负债;
根据历史客户的还款逾期情况将所述历史数据样本点序列,提取好样本点序列、坏样本点序列;
基于所述好样本点序列和所述坏样本点序列,训练生成数据评分模型,其中,所述数据评分模型的输入为所述好样本点序列和所述坏样本点序列中样本点的特征,所述数据评分模型的输出为风险评分,其中所述风险评分与样本点属于坏样本点的概率负相关;
确定申请人的信贷相关数据和申请人所申请的信贷产品的额度区间,将所述额度区间等分生成额度序列;
依据所述额度序列中的每个额度值,生成申请人的月还款额序列;
将所述申请人的当前月总负债依次与月还款额序列相加,生成月总负债序列;
依据月总负债序列,形成申请人样本序列,将所述申请人样本序列输入到所述数据评分模型中,获取风险评分序列;
依据风险评分序列与额度序列的对应关系,生成额度-风险评分曲线;
根据额度-风险评分曲线获取申请人的信贷额度。
在本发明的一些实施例中,所述根据历史客户的还款逾期情况,从所述历史数据样本点,提取为好样本点、坏样本点,包括:
响应于当前历史客户基于还款计划,还款时间逾期天数超过第一阈值天数,将所述当前还款时点作为第一时点,将当前逾期款作为目标逾期款,将针对目标逾期款完全归还的还款时点作为第二时点,则将当前历史客户的与第一时点、第一时点至第二时点之间的还款时点对应的历史数据样本点划分为坏样本点;
响应于当前历史客户基于还款计划,还款时间逾期天数在第二阈值天数内,且针对目标逾期款已完全归还或不存在目标逾期款,则将当前历史客户的与当前还款时点对应的历史数据样本点划分为好样本点,其中,第二阈值天数小于所述第一阈值天数。
在本发明的一些实施例中,所述数据评分模型的类型包括梯度提升树模型、决策树模型中的一种或多种。
在本发明的一些实施例中,所述根据额度-风险评分曲线获取用户的信贷额度,包括:
获取所述信贷产品预设的风险评分阈值;
根据所述风险评分阈值,从所述额度-风险评分曲线上获取对应的额度作为所述用户的信贷额度。
在本发明的一些实施例中,所述获取所述信贷产品预设的风险评分阈值,包括:
将所述历史数据样本点序列的特征输入到所述数据评分模型,获取历史数据风险评分序列;
依据历史数据样本点的风险评分,对所述历史数据样本点序列进行升序排列,并将升序排列后的历史数据样本点序列等频划分入N个评分区间;
根据每个评分区间内的历史数据样本点信息,获取每个评分区间对应的整体金额逾期率和坏账率;
根据预先设定的整体金额逾期率和/或坏账率,获取对应的目标评分区间;
根据目标评分区间,获取风险评分阈值。
在本发明的一些实施例中,所述根据每个评分区间内的历史数据样本点信息,获取每个评分区间对应的整体金额逾期率和坏账率,包括:
获取当前评分区间内所有坏样本点对应的贷款余额之和以及当前评分区间内所有历史数据样本点对应的放款金额之和;
将当前评分区间内所有坏样本点对应的贷款余额之和除以当前评分区间内所有历史数据样本点对应的放款金额之和,获取当前评分区间的初步整体金额逾期率;
获取当前评分区间内坏样本点的数量以及当前评分区间内的历史数据样本点数量;
将当前评分区间内坏样本点的数量除以当前评分区间内的历史数据样本点数量,获取当前评分区间的初步坏账率;
根据当前评分区间的初步整体金额逾期率和初步坏账率,获取每个评分区间对应的整体金额逾期率和坏账率。
在本发明的一些实施例中,根据当前评分区间的初步整体金额逾期率和初步坏账率,获取每个评分区间对应的整体金额逾期率和坏账率,包括:
获取每个评分区间的初步整体金额逾期率和初步坏账率;
利用平滑拟合算法对每个评分区间的初步整体金额逾期率和初步坏账率进行拟合,形成评分区间-整体金额逾期率曲线和评分区间-初步坏账率曲线,其中,所述评分区间-整体金额逾期率曲线和评分区间-初步坏账率曲线为依据评分区间的值单调递减的曲线;
依据评分区间,从评分区间-整体金额逾期率曲线上取值,获取每个评分区间对应的整体金额逾期率;
依据评分区间,从评分区间-初步坏账率曲线上取值,获取每个评分区间对应的坏账率。
在本发明的一些实施例中,所述根据额度-风险评分曲线获取用户的信贷额度,包括:
获取审核人员输入的额度信息,根据所述额度-风险评分曲线返回风险评分值,以使审核人员确定所述用户的信贷额度。
在本发明的一些实施例中,所述根据额度-风险评分曲线获取用户的信贷额度,包括:
根据申请人的当前月收入信息,获取最大信贷额度;
依据最大信贷额度,从所述额度-风险评分曲线上获取风险评分;
根据风险评分获取风险因子,并根据风险因子与最大信贷额度,获取用户的信贷额度。
在本发明的一些实施例中,还包括:
利用SHAP值评估工具,获取各维度信息对用户的信贷额度的贡献度;
展示各维度信息对用户的信贷额度的贡献度。
本发明实施例中,还提供了一种信贷审批方法,包括:
响应于申请人的信贷申请请求,获取申请人的信贷相关数据;
依据所述信贷相关数据对所述申请人进行欺诈属性划分;
若所述申请人为欺诈用户,拒绝所述申请人的信贷申请请求;
若所述申请人为非欺诈用户,利用上述的信贷额度方法确定所述申请人的信贷额度。
本发明实施例中,还提供了一种基于数据评分模型的信贷额度确定装置,包括:
获取模块,被配置为获取历史客户每期还款时点的信贷相关数据,形成历史数据样本点序列,其中,所述信贷相关数据包括当前月总负债;
标签划分模块,被配置为根据历史客户的还款逾期情况将所述历史数据样本点序列,划分为好样本点序列、坏样本点序列;
模型训练模块,被配置为基于所述好样本点序列和坏样本点序列,训练生成数据评分模型,其中,所述数据评分模型的输入为所述好样本点序列和所述坏样本点序列中样本点的特征,所述数据评分模型的输出为风险评分,其中所述风险评分越低与样本点属于坏样本点的概率负相关;
额度序列确定模块,被配置为确定申请人的信贷相关数据和申请人所申请的信贷产品的额度区间,将所述额度区间等分生成额度序列;
月还款额生成模块,被配置为依据所述额度序列中的每个额度值,生成申请人的月还款额序列;
月总负债序列生成模块,被配置为将所述申请人的当前月总负债与月还款额序列相加,生成月总负债序列;
风险评分序列生成模块,被配置为依据月总负债序列,形成申请人样本序列,将所述申请人样本序列输入到所述数据评分模型中,获取风险评分序列;
额度-风险评分曲线生成模块,被配置为依据风险评分序列与额度序列的对应关系,生成额度-风险评分曲线;
信贷额度生成模块,被配置为根据额度-风险评分曲线获取申请人的信贷额度。
本发明实施例提出了基于更优的额度模型来获取信贷额度的方法,采用端到端的方式,不再区分“基础额度*风险因子”两个模型,而是进行整体建模优化,为信审员提供更多样化的额度-风险评估指标,为客户提供更清晰的额度评估。相比之前的额度确定方案,结果更加精确,更加符合客观实际情况,且通过单一模型的结果计算,相对以往的双模型计算,计算效率更快,给申请人更好的用户体验。
本发明实施例的其他可选特征和技术效果一部分在下文描述,一部分可通过阅读本文而明白。
附图说明
以下,结合附图来详细说明本发明的实施例,所示出的元件不受附图所显示的比例限制,附图中相同或相似的附图标记表示相同或类似的元件,其中:
图1示出了根据本发明实施例的基于数据评分模型的信贷额度确定方法的示例性流程图;
图2示出了根据本发明实施例的另一些基于数据评分模型的信贷额度确定方法的示例性流程图;
图3示出了根据本发明实施例的基于数据评分模型的信贷额度确定方法中样本点提取步骤的流程示意图;
图4示出了根据本发明实施例的基于数据评分模型的信贷额度确定方法生成的额度-风险评分曲线的示例图;
图5示出了根据本发明实施例的基于数据评分模型的信贷额度确定方法中根据额度-风险评分曲线获取信贷额度的示例性流程图;
图6示出了根据本发明实施例的基于数据评分模型的信贷额度确定方法中获取风险评分阈值的示例性流程图;
图7示出了根据本发明实施例的基于数据评分模型的信贷额度确定方法中获取整体金额逾期率和坏账率的示例性流程图;
图8示出了根据本发明实施例的基于数据评分模型的信贷额度确定方法中获取每个评分区间对应的整体金额逾期率和坏账率的示例性流程图;
图9示出了根据本发明实施例的基于数据评分模型的信贷额度确定方法中拟合形成的评分区间-整体金额逾期率曲线示例图;
图10示出了根据本发明实施例的基于数据评分模型的信贷额度确定方法中拟合形成的评分区间-坏账率曲线示例图;
图11示出了根据本发明实施例的基于数据评分模型的信贷额度确定方法中基于拟合形成的评分区间-整体金额逾期率曲线获取目标评分区间的示例图;
图12示出了根据本发明实施例的基于数据评分模型的信贷额度确定方法中基于拟合形成的评分区间-坏账率曲线获取目标评分区间的示例图;
图13示出了根据本发明实施例的基于数据评分模型的信贷额度确定方法中根据额度-风险评分曲线获取信贷额度的另一些示例性流程图;
图14示出了根据本发明另一些实施例的基于数据评分模型的信贷额度确定方法的示例性流程图;
图15示出了根据本发明实施例的信贷审批方法的示例性流程图;
图16示出了根据本发明实施例的基于数据评分模型的信贷额度确定装置的示例性结构示意图;
图17示出了根据本发明另一些实施例的基于数据评分模型的信贷额度确定装置的示例性结构示意图;
图18示出了能实施根据本发明实施例的方法的电子设备的示例性结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合具体实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在本发明实施例中,“数据评分模型”指一种数据装置,其输入一个样本与其各特征维度数据,依据某预先设定的算法进行计算,并以某分数作为输出,该分数具有相应的业务属性,是对某业务指标的量化评估。例如在个人零售信贷风控业务中,对于某个申请人,“数据评分模型”将该申请人的特征数据(如年龄、资产规模等)作为输入,使用预先设定的算法(如决策树)进行计算,输出一个评分,该评分越高,代表申请人资质越好。“统计评分模型”指一种数据装置,其为一种特别的“数据评分模型”,该类模型以概率论为基础,采用数学统计方法(而非规则策略)建立。“申请人”指使用数据模型评估的对象样本。“特征”是指可定位样本实体的某维度信息,如某自然人的年龄、学历、收入状况等。“额度策略”/“额度模型”为针对申请人提供的信贷请求,通过分析申请人的特征,对其信贷额度进行推算与决策的策略或者模型,其结果通常为在信贷产品额度区间内的一个具体的数值。“PMT公式”(Returns the periodic payment for an annuity)是指基于固定利率及等额分期付款方式,计算贷款、租金、年金的每期付款额的公式。其计算公式为:
其中p为产品期数,r为每期利率。
□“提升树模型”为一类基于提升树的机器学习算法,属于“统计评分模型”的一种,当前行业内常用的有XGBoost算法和LightGBM算法。
□“SHAP值”(SHapley Additive exPlanations)为一种衡量模型中各个特征的重要性与贡献度的指标,其基于由Lloyd Shapley于1951年提出的Shapley值对模型进行解释。该指标属于一种对模型进行事后解释的方法,其通过计算某特征对模型最终输出分数的边际贡献,再从全局和局部两个层面对“黑盒模型”进行解释。具体而言,其构建了一个加性的解释模型,所有的特征都视为“贡献者”。对于每个预测样本,模型都产生一个预测值,SHAP值就是该样本中每个特征所分配到的数值。
发明人在研究额度确定模型的过程中,发现在一些额度策略模型(方案A)中,通常将授信额度的计算划分为两个部分:“收入推算”和“风险测算”,其基于的逻辑为:先计算申请人每月净收入所能承受的最大额度(即当前信贷产品利率与期数下,月净收入全部用于还款的情况,所对应的额度),再计算申请人的风险因子(即其不还钱的风险评分),使用该风险因子乘以最大额度,获得一个(通常来说)小于最大额度的最终授信额度。其中,“收入推算”通常需要查询申请人的征信信息,例如中央银行记录的征信信息,根据其收入、支出与负债信息,推算其月净收入,然后基于当前信贷产品的利率与期数,使用PMT公式计算其基础额度。“风险测算”依据历史申请人样本的信贷表现(逾期情况)构建风险统计评分模型,然后对当前申请人所具有的特征进行风险核算,输出一个风险分数。即:
最终额度=月(年)收入(可支配收入)*风险因子*PMT系数。
此外,更为复杂的一些额度确定模型(方案B),基于整体业务收益的考量进行额度核算。通过“动支模型”与“逾期模型”两个子模型进行额度测算,前者考虑授信后客户用信比例,而后者考虑客户逾期比例。其额度计算逻辑如下:
授信额度=基础额度+动支基础额度*动支因子+逾期基础额度*逾期因子。
方案A中,每个申请人样本经核算后,通常仅获得一个授信额度,而缺少其他可供参考的选择。这是由于第一部分收入推算为固定逻辑,其产生的单一推算收入,第二部分风险测算产生唯一风险评分,以对推算收入进行调整,二者组合之后获得唯一授信额度。然而,实际上,申请人的信贷风险应当与其信贷额度成正相关(信贷额度为自变量,信贷风险为因变量),信贷额度(每月应还)越高,其风险越高,方案A并未对这种正相关关系进行评估。
方案A中,针对额度策略的解释通常分为两个部分,第一部分为收入推算,其根据固定的规则策略进行解释,第二部分为风险测算,其通常使用特征重要性进行解释。
(1)由于模型由两部分独立的模型构成,而且收入推算为固定规则策略而风险测算为统计模型,因此并不能使用统计模型对其整体进行(端到端的)优化,或者说,其风险测算模型的统计学习策略,并不能针对全流程进行优化。
(2)由于模型由两部分独立的模型构成,实际上并不能对每维特征进行全局的解释,更无法直观地向申请人展示出其所具有的每维特征对最终额度的不同贡献。此外,在风险测算部分,不同的模型构建算法具有不同的重要性计算逻辑,缺乏一种泛用的解释方法。
(3)一般来说,由于个人收入的多样化来源,简单地基于中央银行征信信息进行月净收入推算并不准确,推算逻辑也多种多样,难以衡量好坏,同时风险测算模型也具有误差。最终对二者取乘积的逻辑,导致对样本的评估误差指数级累积,容易造成策略失效。
在方案A中,进行建模样本采集与样本好坏标签划定时,将每个申请人看作一个样本,划定一个好坏标签,样本的特征维度为申请人进行额度申请时间节点时的特征。例如,以申请人历史最大逾期天数大于等于60天判定申请人是否为坏样本,否则为好样本,样本特征为申请人进行额度申请时点的特征。这种方法有以下几个问题:
(1)当相关业务为新近开展或者业务量不大时,如果以申请人作为样本,由于表现期的限制和业务规模的量级,通常很难积累到大量的符合条件的建模样本,甚至不足以用来构建统计评分模型。
(2)实际生活中,申请人的偿还能力是随时间变化的一个动态状态,在其在贷期间的任何一个时刻出现的还款承受能力下降都可能导致其变为坏样本。然而,在某期还款时失去偿还能力并不代表其在之前数期中的偿还能力不足,也即,某申请人在某期为坏样本,但其之前数个正常还款的还款周期内并不能被认为是坏样本。方案A未对这个问题进行区分。
(3)在风险测算模型中,混合了申请人所具有的欺诈风险与偿还能力风险,而仅用偿还能力风险的样本好坏标签定义方法。这两种风险具备非常不同的特性:欺诈风险关注申请人申请贷款本来就不打算还款的情况,申请人为不诚实的坏人;而偿还能力风险关注申请人具有的借款超出其还款能力的情况(申请人愿意还款而无能为力),申请人为诚实的好人。针对这两种情况,具有强烈欺诈风险的申请人应当在申请的时候直接被拒绝,而无关乎额度大小;具有较高偿还能力风险的申请人,应当仔细测算其还款能力(或者说所能承受的额度),降低其负担超过自身还款能力的可能性。“欺诈风险”模型好坏标签定义着重于申请人的欺诈表现和首期还款即逾期的表现,而“偿还能力风险”模型好坏标签定义着重于部分金额逾期的表现(如前述历史最大逾期60天)。额度策略模型应当针对“偿还能力风险”进行评估,而非“欺诈风险”。对于申请人欺诈风险的排查应当于额度核算环节之前完成。将这两个风险混合测算会导致模型风险区分能力的显著下降。
针对发明人发现的方案A和方案B存在的技术问题,发明人提出了一种基于数据评分模型的信贷额度确定方法,即本发明的实施例提供了一种基于数据评分模型的信贷额度确定方法,不同于以往的两段式的核算方法,本发明的实施例直接从申请人所具有的特征测算其在不同授信额度下的风险表现,绘制“额度-风险”曲线,之后进行人工决策或者根据预先设定的风险阈值自动化决策,产生最终的授信额度。
在整体的信贷额度确定流程中,本发明实施例中的方法设置在发欺诈环节之后,即本发明实施例中的方法针对的是申请人的偿还能力风险,并非申请人的欺诈风险,本发明实施例中的方法在实际业务流程中的应用,应当在反欺诈环节之后。即整体额度确定流程为:申请人进行额度申请->反欺诈环节筛选->基于偿还能力评估的额度模型(本方案)->授信。
如图1所示,本发明实施例中的基于数据评分模型的信贷额度确定方法,
S110、数据采集
在数据采集阶段,对在贷客户每期还款时点采集客户的相关信息,包括但不限于申请人信贷行为数据、客户消费行为数据以及客户社会行为数据等。此外,基于申请人的中央银行征信信息提取其当前月收入与月负债;基于申请人该时间节点的借据中每月应还款、之前计算的月负债,汇总为月总负债。将申请人月收入和月总负债纳入作为样本点的特征。将每位申请人在用信阶段内(具有信贷行为期间)每期还款时点的特征构成一个单独的样本点。本发明实施例中,所述申请人信贷行为数据包括信贷产品信息、信贷还款信息、逾期信息等,所述客户消费行为数据包括每月消费额、大额消费占比、消费时间等,所述客户社会行为数据包括涉诉信息、行政处罚信息、刑事处罚信息等。
S120、标签划定
为进行后续的数据评分模型训练,需要对样本集依据每个样本的表现划分好、坏标签。将每位申请人逾期7天内的样本划分为好样本(考虑到客户可能忘记还款的情况),逾期60天及以上的样本点与划分为坏样本,在该申请人最早一个坏样本所在时间节点后的样本均视为坏样本,其余样本为灰样本。
S130、数据评分模型构建与训练
本发明实施例中的数据评分模型,可以采用梯度提升树模型。将梯度提升树模型作为主要学习器,输入的样本特征维度为前述数据采集步骤中的特征,样本标签为前述标签划定步骤中的标签,建模样本为前述好样本和坏样本构成的样本集进行采样得到,采样后的样本集为2万至10万(以实际业务要求为准,受建模环境的性能限制,即电脑计算资源),坏样本浓度约为15%(可微调,建议区间为10%-25%),进行模型训练与调优工作。
在本发明实施例的本步骤结束后,获得一个训练好的数据评分模型,其输入为一个样本所具有的特征,输出为一个分数,例如,该模型输出分数为0-100分,分数越低,样本为坏样本的可能性越大。需要注意的是,这里的评分并非概率,且通常不能说分数高低与坏样本可能性间具有线性关系,其二者仅为相关关系。
S140、获取风险评分阈值
由于上述提升树模型所计算的评分并非真正的风险概率,因此,本发明实施例结合历史样本数据,对不同风险评分的分数段,与风险特征关联。具体而言,需要计算每个分数段的整体金额逾期率与坏账率。具体方法如下:
(1)将提升树模型所输出的历史建模样本的分数升序排列,并等频划分为N个区间,例如N为100或者80,本发明实施例中的等频划分是将一组有序数组,划分为元素数量均等的多个子数组。
(2)统计每个分数区间内的样本的整体金额逾期率与坏账率,计算方式如下:
①整体金额逾期率:该组样本逾期金额(坏样本中贷款余额)之和/该组样本放款金额之和的比率,其中,逾期金额指逾期时点的那一笔应还款项的逾期部分,与该时点之后的全部待还金额(无论后续是否还上);所述方框金额是指当期的所有待还金额(即该笔贷款的全部放款金额,减去该时间节点之前全部已还金额)。
②坏账率:该组样本中坏样本的数量占该组样本的整体数量的比例。
(3)对于前一步统计得到的整体金额逾期率数组与坏账率数组,使用平滑拟合函数进行拟合,例如采用active-set有效集中的quadprog算法(一种求解二次规划问题的算法),使用5阶多项式进行最小二乘法拟合,并约束其导数恒小于0,将其平滑为单调递减的数组。
(4)从拟合出的曲线中,取得每个风险评分区间所对应的相应整体金额逾期率与坏账率。
(5)当自动化进行授信额度计算时,依据事先确定的最高整体业务金额逾期率或者整体业务坏账率,选择与之相应的风险评分作为风险评分阈值,例如,某银行期望金额逾期率在2%以下,则以金额逾期率最接近并小于2%的那一个评分区间的区间下限作为所述风险评分阈值。
S150、额度决策
(1)将步骤S130获得的数据评分模型视为自变量为额度的函数(通常一个信贷产品具有固定的总期数与利率,因此可看作常量),在相关信贷产品额度区间内,均匀选取50个额度值,或者以1000元为间隔在额度区间内选取相应的一组额度值。将选取出的一组额度值,使用PMT公式计算每月应还款,将其与申请人当前月负债加总,形成新的当前月总负债,依次输入到前述构建的概率模型中,并保持申请人的其他信息不变,(即构成一组仅授信额度不同的与模型训练样本具有相同信息维度的待评估样本),由此可获得一组风险评分值。
(2)基于前一步获得的各个额度值与其相应的风险评分绘制“额度-风险评分”曲线,根据“额度-风险评分”曲线获取最终的授信额度,具体步骤参照如下:
①在审核人员审核额度申请时,依据人工判断,使用“额度-风险评分”曲线确定最终授信额度,本发明实施例中可以依据每个信审员进行主观判断获取信贷额度,信审员会同时参考许多其他信息进行综合考量,并最终决定授信额度。信审员依然可以基于前述“风险模型评估”中所得到的每个金额逾期率与坏账率(相当于为申请样本分配一个风险等级),进行最终的决策。
②或者,当进行自动化授信额度计算时,依据前一步中划定的风险评分阈值,赋予申请人该风险评分阈值所对应的信贷额度,具体地,根据风险评分阈值,从所述“额度-风险评分”曲线上取得相应的额度作为最终额度。
(3)使用SHAP值评估工具,可视化地向申请人或人工审核员(信审员)展示其申请材料(其个人特征)中,在前述风险模型里各维度信息对其额度的贡献度。
本发明实施例提出一种端到端的全局额度策略模型构建方案。不同于以往的两段式的额度核算方法,本方案直接从申请人所具有的特征测算其在不同授信额度下的风险表现,绘制“额度-风险”曲线,之后进行人工决策或者根据预先设定的风险阈值自动化决策,产生最终的授信额度。通过对同一样本的不同额度进行风险测算,绘制“额度-风险”曲线,对申请人的信贷风险与其信贷额度成正相关这一内涵关系进行建模。使用SHAP值对额度策略模型进行解释,为申请人与信审员提供更为直观准确的模型可解释性。本发明实施例通过按每笔借据的每期还款的表现情况作为独立的样本点,大大丰富了模型构建可使用的建模样本集,同时区分了申请人不同时点下的特征对其当前时点还款能力的影响,为模型产出更准确的风险评分提供更具区分度的临界样本。本发明实施例通过将反欺诈环节前置,仅针对偿还能力风险进行建模,大大提升了模型的最终效果。
如图2所示,本发明实施例提供了一种基于数据评分模型的信贷额度确定方法,包括如下步骤:
S210:采集历史客户每期还款时点的信贷相关数据,形成历史数据样本点序列;其中,所述信贷相关数据包括当前月总负债。本发明实施例中的信贷相关数据还可包括客户信贷行为数据、客户消费行为数据、客户社会行为数据、客户当前月收入等,本发明实施例中的信贷相关数据可以根据客户自身填报的数据,还可以基于客户的征信信息,对信贷数据进行补充,例如,从征信信息中获取客户当前月收入,客户的负债情况,将所有的负债(包括当前信贷产品的负债)相加获取客户当前月总负债。
本发明实施例中,所述申请人信贷行为数据包括信贷产品信息、信贷还款信息、逾期信息等,所述客户消费行为数据包括每月消费额、大额消费占比、消费时间等,所述客户社会行为数据包括涉诉信息、行政处罚信息、刑事处罚信息等。
S220:根据历史客户的还款逾期情况将所述历史数据样本点序列,提取好样本点序列、坏样本点序列;在本发明的实施例中还提取出灰样本点序列;本发明实施例根据客户还款的逾期天数划分客户对应的历史数据样本点的标签。在一些实施例中,如图3所示,采用如下方式进行提取:
S221:响应于当前历史客户基于还款计划,还款时间逾期天数超过第一阈值天数,将所述当前还款时点作为第一时点,将当前逾期款作为目标逾期款,将针对目标逾期款完全归还的还款时点作为第二时点,则将当前历史客户的与第一时点、第一时点至第二时点之间的还款时点对应的历史数据样本点划分为坏样本点;
S222:响应于当前历史客户基于还款计划,还款时间逾期天数在第二阈值天数内,且针对目标逾期款已完全归还或不存在目标逾期款,则将当前历史客户的与当前还款时点对应的历史数据样本点划分为好样本点,其中,第二阈值天数小于所述第一阈值天数;
S223:将剩余历史数据样本点划分为灰样本点。
本发明实施例采用逾期情况进行好样本点和坏样本点划分,关注客户的偿还能力风险,保证有效提升模型识别风险的能力。
在本发明的一些实施例中,在提取好样本点和坏样本点时,还可先进行欺诈属性识别,如果某个客户的数据带有明显欺诈属性,可以将数据进行排查,使得训练出的模型识别更加准确。
在本发明的实施例中,所述第一阈值天数可以根据需要取为60天或者70天,所述第二阈值天数可以根据需要取为7天或者10天。
本发明实施例中,第一阈值天数为60天,第二阈值天数为7天,如下表1所示,记录了客户1、客户2、客户3,十二个月的逾期情况,根据还款计划,每月1号归还每期款项,针对第一个月的还款计划,都未逾期,三个客户对应的样本点为好样本点,针对第二个月的还款计划,客户1逾期62天,超过了60天,记录为第一时点,对应的应还款项设定为目标逾期款,针对此目标逾期款,客户1在第五个月还清,第五个月为第二时点,第一时点至第二时点之间包括第二个月、第三个月和第四个月,这三个月对应的历史数据样本点划分为坏样本点;客户2逾期8天,超过7天但为未超过60天,则对应的样本点为灰样本点,客户3的逾期天数小于7天,对应的样本点为好样本点;针对第三个月的还款计划,客户2逾期天数小于7天,对应的样本点为好样本点,客户3逾期天数超过7天,但未超过60天,则对应的样本点为灰样本点;针对第四个月的还款计划,客户2逾期天数小于7天,对应的样本点为好样本点,客户3逾期天数超过7天,但未超过60天,对应的样本点为灰样本点;针对第五个月的还款计划,客户3逾期天数超过60天,则对应的样本点为坏样本点,之后的第六个月、第七个月对应的是环样本点,客户2、客户3在第十二个月的还款计划逾期天数也超过60天,则对应的样本点也为坏样本点。客户4在第一个月的还款计划逾期未超过7天,对应为好样本点,在第二个月逾期61天,对应的应还款在第四个月后还清,所以第二个月、第三个月、第四个月对应的样本点为坏样本点,针对第五个月的还款计划,之前的逾期款已还清,且逾期天数在7天内,所以为好样本点。
表1历史客户逾期情况示例
S230:基于所述好样本点序列和所述坏样本点序列,训练生成数据评分模型,其中,所述数据评分模型的输入为所述好样本点序列和所述坏样本点序列中样本点的特征,所述数据评分模型的输出为风险评分,所述风险评分与样本点属于坏样本点的概率负相关,换言之,所述风险评分越低,样本点属于坏样本点的概率越大;本发明实施例中的数据评分模型的类型包括梯度提升树模型、决策树模型中的一种或多种,通过训练所述数据评分模型,能够基于样本点特征自动形成分数。
上述样本点数据中,只采用好坏样本点进行训练,利于模型输出的结果具有较高的识别度。样本点数据在输入到模型之前,还可以将样本点数据进行特征化,采用特定的字符代表行为数据,便于计算机处理。
在一些实施例中可以采用梯度提升树模型作为所述数据评分模型,将梯度提升树模型作为主要学习器,好坏样本点的数据量在2万至10万之间坏样本浓度可设置为10~25%,进行模型训练与调优工作,直至损失函数收敛,训练生成模型。
所述风险评分的分值范围可设置在0~100分之间,分值越高,样本点属于坏样本点的概率越小。
S240:确定申请人的信贷相关数据和申请人所申请的信贷产品的额度区间,将所述额度区间等分生成额度序列;例如,某个信贷产品的额度在5万~10万元之间,按照2000元为间隔,形成的额度序列为(50000,52000,54000,56000,...98000,100000)。在本发明的一些实施例中,所述申请人的信贷相关数据,从客户提交信贷审批请求中获取,也可以先依据申请人提交的数据进行欺诈属性划分,依据将非欺诈用户的数据作为所述申请人的信贷相关数据。对于欺诈属性用户,可以直接决绝其信贷审批申请。
S250:依据所述额度序列中的每个额度值,生成申请人的月还款额序列;在一些实施例中通过PMT公式,根据每个额度值,生成月还款额度,最终形成月还款额序列,例如,信贷产品按照12个月归还,利率为4.9%,则对应上述额度序列,生成的月还款额序列为(4728.08,4449.21,4620.33,4791.45,……8385.04,8556.17)。
S260:将所述申请人的当前月总负债依次与月还款额序列相加,生成月总负债序列;在申请人申请信贷产品时,将会填写相关个人信息,依据个人信息在申请人同意的情况下,从中央银行获取其征信信息,从而获取客户的当前月总负债,例如申请人的当前月总负债为5000元,则与月还款额序列相加,生成月总负债序列为(9728.08,9449.21,9620.33,9791.45,……13385.04,13556.17)。
S270:依据月总负债序列,形成申请人样本序列,将所述申请人样本序列输入到所述数据评分模型中,获取风险评分序列;设置申请人的其他信息不便,依据月总负债序列,生成申请人样本序列,输入到上述训练生成的数据评分模型中,获取风险评分序列。例如,根据上述的月总负债序列,形成的风险评分序列(99.01,95.02,92.03,90.32,……84.32,83.53)。
S280:依据风险评分序列与额度序列的对应关系,生成额度-风险评分曲线;根据额度序列(50000,52000,54000,56000,...98000,100000)与风险评分序列(99.01,95.02,92.03,90.32,……84.32,83.53),生成额度-风险评分曲线,例如以额度为x轴,风险评分为Y轴,则生成的额度-风险评分曲线如图4所示。
S290:根据额度-风险评分曲线获取申请人的信贷额度。本发明实施例中,可以根据额度-风险曲线自动进行额度决策,例如,如图4所示,设定上述信贷产品的风险评分不能低于90分,则从曲线中获知,对应的额度为72050元,则可授予申请人额度为72000元或者70000元。
在本发明的一些实施例中,如图5所示,所述根据额度-风险评分曲线获取申请人的信贷额度,包括:
S291:获取所述信贷产品预设的风险评分阈值;
S292:根据所述风险评分阈值,从所述额度-风险评分曲线上获取对应的额度作为所述用户的信贷额度。如上所述,例如,风险评分阈值为需要超过90分,对应地,从曲线中获取额度为72000元或者70000元。
本发明实施例中,所述风险评分阈值可以通过长期的人工经验设定,也可以基于风险评分与其他评估因素关联来设定,例如,发明人发现风险评分与金额逾期率、坏账率相互关联,风险评分越高,逾期率越小,坏账率越小。通过直观的逾期率阈值和坏账率阈值,可以反推风险评分阈值。具体地,如图6所示,所述获取所述信贷产品预设的风险评分阈值,包括:
S2911:将上述历史数据样本点序列(也可以是上述历史数据样本点序列中的部分样本点或者其他样本点序列)的特征输入到所述数据评分模型,获取历史数据风险评分序列;
S2912:依据历史数据样本点的风险评分,对所述历史数据样本点序列进行升序排列,并将升序排列后的历史数据样本点序列等频划分入N个评分区间;例如,对应总分为100分的风险评分序列,设定100个评分区间,每个评分区间内对应的样本点数量相等,例如,评分区间为(1~7,7~13,13~18,18~23,23~26……,96~97,97~98,98~99)。
S2913:根据每个评分区间内的历史数据样本点信息,获取每个评分区间对应的整体金额逾期率和坏账率;在本发明的一些实施例中,如图7所示,通过如下方式获取整体金额逾期率和坏账率:
S29131:获取当前评分区间内所有坏样本点对应的贷款余额之和以及当前评分区间内所有历史数据样本点对应的放款金额之和;
S29132:将当前评分区间内所有坏样本点对应的贷款余额之和除以当前评分区间内所有历史数据样本点对应的放款金额之和,获取当前评分区间的初步整体金额逾期率;
S29133:获取当前评分区间内坏样本点的数量以及当前评分区间内的历史数据样本点数量;
S29134:将当前评分区间内坏样本点的数量除以当前评分区间内的历史数据样本点数量,获取当前评分区间的初步坏账率;
S29135:根据当前评分区间的初步整体金额逾期率和初步坏账率,获取每个评分区间对应的整体金额逾期率和坏账率。
在本发明的一些实施例中,可以直接采用初步整体金额逾期率和初步坏账率作为所述每个评分区间对应的整体金额逾期率和坏账率。也可以从一致性角度考虑,基于每个评分区间的初步整体金额逾期率和初步坏账率进行拟合形成以评分区间的值为x轴,整体金额逾期率或者坏账率的值为y轴的单调递减的曲线。评分区间的值越高,对应的整体金额逾期率和坏账率的值越小。具体地,如图8所示,根据当前评分区间的初步整体金额逾期率和初步坏账率,获取每个评分区间对应的整体金额逾期率和坏账率,包括:
S291351:获取每个评分区间的初步整体金额逾期率和初步坏账率;
S291352:利用平滑拟合算法对每个评分区间的初步整体金额逾期率和初步坏账率进行拟合,形成评分区间-整体金额逾期率曲线和评分区间-初步坏账率曲线,其中,所述评分区间-整体金额逾期率曲线和评分区间-初步坏账率曲线为依据评分区间的值单调递减的曲线;本发明的一些实施例中,可以采用active-set有效集中的quadprog算法(一种求解二次规划问题的算法),使用5阶多项式进行最小二乘法拟合,并约束其导数恒小于0,将其平滑为单调递减的曲线,如图9、如图10所示,以每个评分区间的中点代表评分区间进行拟合,获得评分区间-整体金额逾期率曲线和评分区间-初步坏账率曲线。
S291353:依据评分区间,从评分区间-整体金额逾期率曲线上取值,获取每个评分区间对应的整体金额逾期率;根据每个评分区间的中间值,从曲线中进行取值,获取整体金额逾期率。
S291354:依据评分区间,从评分区间-初步坏账率曲线上取值,获取每个评分区间对应的坏账率。根据每个评分区间的中间值,从曲线中进行取值,获取坏账率。
S2914:根据预先设定的整体金额逾期率和/或坏账率,获取对应的目标评分区间;在本发明的一些实施例中,将小于并最接近根据预先设定的整体金额逾期率和/或坏账率的评分区间的作为目标评分区间。例如,如图11所示,预先设定的整体金额逾期率为2%,对应的目标评分区间为90.5~91.5;如图12所示,预先设定的坏账率为5%,对应的目标评分区间为88.9~90.5,在本发明的实施例中,目标评分区间可只采用90.5~91.5或者88.9~90.5,也可综合考虑采用风险评分较高的区间90.5~91.5。
S2915:根据目标评分区间,获取风险评分阈值。本发明实施例中,风险评分阈值可以根据目标评分区间的中间值进行设定,也可设置目标评分区间的下限值作为所述风险评分阈值,例如设置风险评分阈值为88.9或者90.5。
在本发明的一些实施例中,还可采用人工审核的方式,获取审核人员输入的额度信息,根据所述额度-风险评分曲线返回风险评分值,以使审核人员综合确定所述用户的信贷额度。在一些实施例中,由审核人员综合考虑申请人的各方面信息,在基于额度-风险曲线给出的额度的基础之上,依据不同风险因子进行加额和减额操作。
在本发明的一些实施例中,还可结合基础额度*风险因子的方式获取信贷额度。具体地,如图13所示,所述根据额度-风险评分曲线获取申请人的信贷额度,包括:
S291b:根据申请人的当前月收入信息,获取最大信贷额度;
S292b:依据最大信贷额度,从所述额度-风险评分曲线上获取风险评分;
S293b:根据风险评分获取风险因子,并根据风险因子与最大信贷额度,获取用户的信贷额度。风险评分与风险因子的关系可以根据历史数据获取,将根据历史数据计算获取的风险评分和风险因子,拟合二者的对应关系,在实际运用中,根据风险评分获取对应的风险因子,最终获取信贷额度。在一些实施例中,可以通过将风险因子与最大信贷额度相乘获取信贷额度,在一些实施例中,还可根据风险因子高低,调低或者调高所述最大信贷额度,最终获取信贷额度。
如图14所示,本发明的一些实施例还包括:
S201:利用SHAP值评估工具,获取各维度信息对用户的信贷额度的贡献度;
S202:展示各维度信息对用户的信贷额度的贡献度。
让用户或者申请人能够直观看到各个因素对信贷额度的贡献度。
本发明实施例中的额度确定方法可以依据历史数据进行验证,例如,某大额助贷险产品额度在5万-30万之间,基于历史已结案的借据样本(2019年-2020年),分别使用本发明实施例中的方法与现有方案(收入推算与风险测算二段式模型)进行额度赋予,对赋予的额度与样本表现进行对比,在上述产品历史样本中,实现整体收益率5.6%的提升,金额逾期率下降4%,坏账率下降1.1%。
本发明实施例提出一种端到端的全局额度策略模型构建方案。不同于以往的两段式的核算方法,本方案直接从申请人所具有的特征测算其在不同授信额度下的风险表现,绘制“额度-风险”曲线,之后进行人工决策或者根据预先设定的风险阈值自动化决策,产生最终的授信额度。通过对同一样本的不同额度进行风险测算,绘制“额度-风险”曲线,对申请人的信贷风险与其信贷额度成正相关这一内涵关系进行建模。使用SHAP值对额度策略模型进行解释,为申请人与信审员提供更为直观准确的模型可解释性。本发明实施例通过按每笔借据的每期还款的表现情况作为独立的样本点,大大丰富了模型构建可使用的建模样本集,同时区分了申请人不同时点下的特征对其当前时点还款能力的影响,为模型产出更准确的风险评分提供更具区分度的临界样本。本发明实施例通过将反欺诈环节前置,仅针对偿还能力风险进行建模,大大提升了模型的最终效果。
本发明实施例中,如图15所示,还提供了一种信贷审批方法,包括:
S310:响应于申请人的信贷申请请求,获取申请人的信贷相关数据;本发明实施例中所述信贷相关数据包括月总负债额,还可包括客户信贷行为数据、客户消费行为数据、客户社会行为数据、客户当前月收入等,本发明实施例中的信贷相关数据可以根据客户自身填报的数据,还可以基于客户的征信信息,对信贷数据进行补充,例如,从征信信息中获取客户当前月收入,客户的负债情况,将所有的负债(包括当前信贷产品的负债)相加获取客户当前月总负债。
本发明实施例中,所述申请人信贷行为数据包括信贷产品信息、信贷还款信息、逾期信息等,所述客户消费行为数据包括每月消费额、大额消费占比、消费时间等,所述客户社会行为数据包括涉诉信息、行政处罚信息、刑事处罚信息等。
S320:依据所述信贷相关数据对所述申请人进行欺诈属性划分;本发明实施例中先进行欺诈属性划分,便于后续额度模型计算更加精确,本发明实施例中可以采用传统信用审核的方式进行欺诈属性划分,还可以采用大数据建模的方式进行欺诈属性划分,通过关注欺诈表现和首期还款即逾期的表现,建立反欺诈模型对申请人进行划分,反欺诈模型从原理上分为:监督学习模型和半监督学习模型,其中,监督学习常用的算法包括DecisionTree、Random Forest、AdaBoost、SVM等,能够更加精确划分欺诈属性。
S330:若所述申请人为欺诈用户,拒绝所述申请人的信贷申请请求;反馈信审员或者申请人结果,在一些实施例中,还可生成报警提示信息。
S340:若所述申请人为非欺诈用户,利用上述基于数据评分模型的信贷额度确定方法来确定所述申请人的信贷额度。将申请人的信贷相关数据带入到上述的额度确定方法中,生成额度-风险评分曲线,从而确定信贷额度。
本发明实施例中,将具有欺诈属性的申请人直接进行拒绝,保证了额度计算准确。在风险测算过程中,一般混合了申请人所具有的欺诈风险与偿还能力风险,这两种风险具备非常不同的特性:欺诈风险关注申请人申请贷款本来就不打算还款的情况,申请人为不诚实的坏人;而偿还能力风险关注申请人具有的借款超出其还款能力的情况(申请人愿意还款而无能为力),申请人为诚实的好人。针对这两种情况,具有强烈欺诈风险的申请人应当在申请的时候直接被拒绝,而无关乎额度大小;具有较高偿还能力风险的申请人,应当仔细测算其还款能力(或者说所能承受的额度),降低其负担超过自身还款能力的可能性。“欺诈风险”模型好坏标签定义着重于申请人的欺诈表现和首期还款即逾期的表现,而“偿还能力风险”模型好坏标签定义着重于部分金额逾期的表现(如前述历史最大逾期60天)。额度策略模型应当针对“偿还能力风险”进行评估,而非“欺诈风险”。对于申请人欺诈风险的排查应当于额度核算环节之前完成。将这两个风险混合测算会导致模型风险区分能力的显著下降。
在本发明实施例中,如图16所示,示出一种基于数据评分模型的信贷额度确定装置400,包括:
采集模块410,被配置为采集历史客户每期还款时点的信贷相关数据,形成历史数据样本点序列,其中,所述信贷相关数据包括客户信贷行为数据、客户消费行为数据、客户社会行为数据、客户当前月收入、客户当前月总负债;
标签划分模块420,被配置为根据历史客户的还款逾期情况将所述历史数据样本点序列,划分为好样本点序列、坏样本点序列和灰样本点序列;
模型训练模块430,被配置为基于所述好样本点序列和坏样本点序列,训练生成数据评分模型,其中,所述数据评分模型的输入为样本点特征,所述数据评分模型的输出为风险评分,风险评分越低,样本点属于坏样本点的概率越大;
额度序列生成模块440,被配置为获取申请人的信贷相关数据和申请人所申请的信贷产品的额度区间,将所述额度区间等分生成额度序列;
月还款额生成模块450,被配置为依据所述额度序列中的每个额度值,生成申请人的月还款额序列;
月总负债序列生成模块460,被配置为将所述申请人的当前月总负债与月还款额序列相加,生成月总负债序列;
风险评分序列生成模块470,被配置为依据月总负债序列,形成申请人样本序列,将所述申请人样本序列输入到所述数据评分模型中,获取风险评分序列;
额度-风险评分曲线生成模块480,被配置为依据风险评分序列与额度序列的对应关系,生成额度-风险评分曲线;
信贷额度生成模块490,被配置为根据额度-风险评分曲线获取用户的信贷额度。
所述根据历史客户的还款逾期情况将所述历史数据样本点,划分为好样本点和坏样本点,包括:
响应于当前历史客户基于还款计划,还款时间逾期天数超过第一阈值天数,将所述当前还款时点作为第一时点,将当前逾期款作为目标逾期款,将针对目标逾期款完全归还的还款时点作为第二时点,则将当前历史客户的与第一时点、第一时点至第二时点之间的还款时点对应的历史数据样本点划分为坏样本点;
响应于当前历史客户基于还款计划,还款时间逾期天数在第二阈值天数内,且针对目标逾期款已完全归还或不存在目标逾期款,则将当前历史客户的与当前还款时点对应的历史数据样本点划分为好样本点,其中,第二阈值天数小于所述第一阈值天数。
在本发明一些实施例,所述数据评分模型的类型包括梯度提升树模型、决策树模型中的一种或多种。
在本发明一些实施例,所述信贷额度生成模块490具体被配置为:
获取所述信贷产品预设的风险评分阈值;
根据所述风险评分阈值,从所述额度-风险评分曲线上获取对应的额度作为所述用户的信贷额度。
在本发明一些实施例,所述信贷额度生成模块490具体还被配置为:
将所述历史数据样本点序列的特征输入到所述数据评分模型,获取历史数据风险评分序列;
依据历史数据样本点的风险评分,对所述历史数据样本点序列进行升序排列,并将升序排列后的历史数据样本点序列等频划分入N个评分区间;
根据每个评分区间内的历史数据样本点信息,获取每个评分区间对应的整体金额逾期率和坏账率;
根据预先设定的整体金额逾期率和/或坏账率,获取对应的目标评分区间;
根据目标评分区间,获取风险评分阈值。
在本发明一些实施例,所述信贷额度生成模块490具体还被配置为:
获取当前评分区间内所有坏样本点对应的贷款余额之和以及当前评分区间内所有历史数据样本点对应的放款金额之和;
将当前评分区间内所有坏样本点对应的贷款余额之和除以当前评分区间内所有历史数据样本点对应的放款金额之和,获取当前评分区间的初步整体金额逾期率;
获取当前评分区间内坏样本点的数量以及当前评分区间内的历史数据样本点数量;
将当前评分区间内坏样本点的数量除以当前评分区间内的历史数据样本点数量,获取当前评分区间的初步坏账率;
根据当前评分区间的初步整体金额逾期率和初步坏账率,获取每个评分区间对应的整体金额逾期率和坏账率。
在本发明一些实施例,所述信贷额度生成模块490具体还被配置为:
获取每个评分区间的初步整体金额逾期率和初步坏账率;
利用平滑拟合算法对每个评分区间的初步整体金额逾期率和初步坏账率进行拟合,形成评分区间-整体金额逾期率曲线和评分区间-初步坏账率曲线,其中,所述评分区间-整体金额逾期率曲线和评分区间-初步坏账率曲线为依据评分区间的值单调递减的曲线;
依据评分区间,从评分区间-整体金额逾期率曲线上取值,获取每个评分区间对应的整体金额逾期率;
依据评分区间,从评分区间-初步坏账率曲线上取值,获取每个评分区间对应的坏账率。
在本发明一些实施例,所述信贷额度生成模块490具体还被配置为:
获取审核人员输入的额度信息,根据所述额度-风险评分曲线返回风险评分值,以使审核人员确定所述用户的信贷额度。
在本发明一些实施例,所述信贷额度生成模块490具体还被配置为:
根据申请人的当前月收入信息,获取最大信贷额度;
依据最大信贷额度,从所述额度-风险评分曲线上获取风险评分;
根据风险评分获取风险因子,并根据风险因子与最大信贷额度,获取用户的信贷额度。
在本发明一些实施例,如图17所示,还包括贡献度生成模块401,具体被配置为:
利用SHAP值评估工具,获取各维度信息对用户的信贷额度的贡献度;
展示各维度信息对用户的信贷额度的贡献度。
在一些实施例中,所述基于数据评分模型的信贷额度确定装置可以结合任一实施例的基于数据评分模型的信贷额度确定方法和系统的特征,反之亦然,在此不赘述。
在本发明实施例中,提供一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行任一本发明实施例的基于数据评分模型的信贷额度确定方法。
图18示出了一种可以实施本发明实施例的方法或实现本发明实施例的电子设备1800的示意图,在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中,可以利用单个或多个电子设备实施。在一些实施例中,可以利用云端或分布式的电子设备实施。
如图18所示,电子设备1800包括处理器1801,其可以根据存储在只读存储器(ROM)1802中的程序和/或数据或者从存储部分1808加载到随机访问存储器(RAM)1803中的程序和/或数据而执行各种适当的操作和处理。处理器1801可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器1801可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等等。在RAM 1803中,还存储有电子设备1800操作所需的各种程序和数据。处理器1801、ROM1802以及RAM 1803通过总线1804彼此相连。输入/输出(I/O)接口1805也连接至总线1804。
上述处理器与存储器共同用于执行存储在存储器中的程序,所述程序被计算机执行时能够实现上述各实施例描述的基于数据评分模型的信贷额度确定方法的步骤或功能。
以下部件连接至I/O接口1805:包括键盘、鼠标、触摸屏等的输入部分1806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1807;包括硬盘等的存储部分1808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1809。通信部分1809经由诸如因特网的网络执行通信处理。驱动器1810也根据需要连接至I/O接口1805。可拆卸介质1811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1810上,以便于从其上读出的计算机程序根据需要被安装入存储部分1808。图18中仅示意性示出部分组件,并不意味着计算机系统1800只包括图18所示组件。
在一些实施例中所述电子设备1800指代的是移动终端,包括手机,车载终端,智能电视等,以手机为例,所述电子设备1800中还包括带触摸功能的显示屏,外放音响,陀螺仪,摄像头,4G/5G天线等装置模块。
上述实施例阐明的系统、装置、模块或单元,可以由计算机或其关联部件实现。计算机例如可以为移动终端、智能电话、个人计算机、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网系统、智能家居、工业计算机、服务器或者其组合。
尽管未示出,在本发明实施例中,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序配置成被运行时执行任一本发明实施例的任务调度监控的方法。
在本发明的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
在本发明的实施例的方法、程序、系统、装置等,可以在单个或多个连网的计算机中执行或实现,也可以在分布式计算环境中实践。在本说明书实施例中,在这些分布式计算环境中,可以由通过通信网络而被连接的远程处理设备来执行任务。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本领域技术人员可想到,上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现,可以用软件、硬件和软/硬件结合的方式实现。
除非明确指出,根据本发明实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本文中,针对本发明的多个实施例进行了描述,但为简明起见,各实施例的描述并不是详尽的,各个实施例之间相同或相似的特征或部分可能会被省略。在本文中,“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中,而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
已参考上述实施例具体示出并描述了本发明的示例性系统及方法,其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。

Claims (14)

1.一种基于数据评分模型的信贷额度确定方法,其特征在于,包括如下步骤:
获取历史客户每期还款时点的信贷相关数据,形成历史数据样本点序列,其中,所述信贷相关数据包括当前月总负债;
根据历史客户的还款逾期情况,从所述历史数据样本点序列提取好样本点序列、坏样本点序列;
基于所述好样本点序列和所述坏样本点序列,训练生成数据评分模型,其中,所述数据评分模型的输入为所述好样本点序列和所述坏样本点序列中样本点的特征,所述数据评分模型的输出为风险评分,其中所述风险评分与样本点属于坏样本点的概率负相关;
确定申请人的信贷相关数据和申请人所申请的信贷产品的额度区间,将所述额度区间等分生成额度序列;
依据所述额度序列中的每个额度值,生成申请人的月还款额序列;
将所述申请人的当前月总负债依次与月还款额序列相加,生成月总负债序列;
依据月总负债序列,形成申请人样本序列,将所述申请人样本序列输入到所述数据评分模型中,获取风险评分序列;
依据风险评分序列与额度序列的对应关系,生成额度-风险评分曲线;
根据额度-风险评分曲线获取申请人的信贷额度。
2.根据权利要求1所述的方法,其特征在于,所述根据历史客户的还款逾期情况,从所述历史数据样本点,提取划分为好样本点、坏样本点,包括:
响应于当前历史客户基于还款计划,还款时间逾期天数超过第一阈值天数,将所述当前还款时点作为第一时点,将当前逾期款作为目标逾期款,将针对目标逾期款完全归还的还款时点作为第二时点,则将当前历史客户的与第一时点、第一时点至第二时点之间的还款时点对应的历史数据样本点划分为坏样本点;
响应于当前历史客户基于还款计划,还款时间逾期天数在第二阈值天数内,且针对目标逾期款已完全归还或不存在目标逾期款,则将当前历史客户的与当前还款时点对应的历史数据样本点划分为好样本点,其中,第二阈值天数小于所述第一阈值天数。
3.根据权利要求1所述的方法,其特征在于,所述数据评分模型的类型包括梯度提升树模型、决策树模型中的一种或多种。
4.根据权利要求1所述的方法,其特征在于,所述根据额度-风险评分曲线获取用户的信贷额度,包括:
获取所述信贷产品预设的风险评分阈值;
根据所述风险评分阈值,从所述额度-风险评分曲线上获取对应的额度作为所述用户的信贷额度。
5.根据权利要求4所述的方法,其特征在于,所述获取所述信贷产品预设的风险评分阈值,包括:
将历史数据样本点序列的特征输入到所述数据评分模型,获取历史数据风险评分序列;
依据历史数据样本点的风险评分,对所述历史数据样本点序列进行升序排列,并将升序排列后的历史数据样本点序列等频划分入N个评分区间;
根据每个评分区间内的历史数据样本点信息,获取每个评分区间对应的整体金额逾期率和坏账率;
根据预先设定的整体金额逾期率和/或坏账率,获取对应的目标评分区间;
根据目标评分区间,获取风险评分阈值。
6.根据权利要求5所述的方法,其特征在于,所述根据每个评分区间内的历史数据样本点信息,获取每个评分区间对应的整体金额逾期率和坏账率,包括:
获取当前评分区间内所有坏样本点对应的贷款余额之和以及当前评分区间内所有历史数据样本点对应的放款金额之和;
将当前评分区间内所有坏样本点对应的贷款余额之和除以当前评分区间内所有历史数据样本点对应的放款金额之和,获取当前评分区间的初步整体金额逾期率;
获取当前评分区间内坏样本点的数量以及当前评分区间内的历史数据样本点数量;
将当前评分区间内坏样本点的数量除以当前评分区间内的历史数据样本点数量,获取当前评分区间的初步坏账率;
根据当前评分区间的初步整体金额逾期率和初步坏账率,获取每个评分区间对应的整体金额逾期率和坏账率。
7.根据权利要求6所述的方法,其特征在于,根据当前评分区间的初步整体金额逾期率和初步坏账率,获取每个评分区间对应的整体金额逾期率和坏账率,包括:
获取每个评分区间的初步整体金额逾期率和初步坏账率;
利用平滑拟合算法对每个评分区间的初步整体金额逾期率和初步坏账率进行拟合,形成评分区间-整体金额逾期率曲线和评分区间-初步坏账率曲线,其中,所述评分区间-整体金额逾期率曲线和评分区间-初步坏账率曲线为依据评分区间的值单调递减的曲线;
依据评分区间,从评分区间-整体金额逾期率曲线上取值,获取每个评分区间对应的整体金额逾期率;
依据评分区间,从评分区间-初步坏账率曲线上取值,获取每个评分区间对应的坏账率。
8.根据权利要求1所述的方法,其特征在于,所述根据额度-风险评分曲线获取用户的信贷额度,包括:
获取审核人员输入的额度信息,根据所述额度-风险评分曲线返回风险评分值,以使审核人员确定所述用户的信贷额度。
9.根据权利要求1所述的方法,其特征在于,所述根据额度-风险评分曲线获取用户的信贷额度,包括:
根据申请人的当前月收入信息,获取最大信贷额度;
依据最大信贷额度,从所述额度-风险评分曲线上获取风险评分;
根据风险评分获取风险因子,并根据风险因子与最大信贷额度,获取用户的信贷额度。
10.根据权利要求1所述的方法,其特征在于,还包括:
利用SHAP值评估工具,获取各维度信息对用户的信贷额度的贡献度;
展示各维度信息对用户的信贷额度的贡献度。
11.一种信贷审批方法,其特征在于,包括:
响应于申请人的信贷申请请求,获取申请人的信贷相关数据;
依据所述信贷相关数据对所述申请人进行欺诈属性划分;
若所述申请人为欺诈用户,拒绝所述申请人的信贷申请请求;
若所述申请人为非欺诈用户,利用权利要求1至10中任一项所述的方法确定所述申请人的信贷额度。
12.一种基于数据评分模型的信贷额度确定装置,其特征在于,包括:
获取模块,被配置为获取历史客户每期还款时点的信贷相关数据,形成历史数据样本点序列,其中,所述信贷相关数据包括当前月总负债;
标签划分模块,被配置为根据历史客户的还款逾期情况将所述历史数据样本点序列,提取好样本点序列、坏样本点序列;
模型训练模块,被配置为基于所述好样本点序列和坏样本点序列,训练生成数据评分模型,其中,所述数据评分模型的输入为所述好样本点序列和所述坏样本点序列中样本点的特征,所述数据评分模型的输出为风险评分,所述风险评分越低与样本点属于坏样本点的概率负相关;
额度序列确定模块,被配置为确定申请人的信贷相关数据和申请人所申请的信贷产品的额度区间,将所述额度区间等分生成额度序列;
月还款额生成模块,被配置为依据所述额度序列中的每个额度值,生成申请人的月还款额序列;
月总负债序列生成模块,被配置为将所述申请人的当前月总负债与月还款额序列相加,生成月总负债序列;
风险评分序列生成模块,被配置为依据月总负债序列,形成申请人样本序列,将所述申请人样本序列输入到所述数据评分模型中,获取风险评分序列;
额度-风险评分曲线生成模块,被配置为依据风险评分序列与额度序列的对应关系,生成额度-风险评分曲线;
信贷额度生成模块,被配置为根据额度-风险评分曲线获取申请人的信贷额度。
13.一种电子设备,其特征在于,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行权利要求1至11中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1至11中任一所述的方法。
CN202210647454.2A 2022-06-08 2022-06-08 信贷额度确定方法和装置、电子设备及存储介质 Pending CN117252677A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210647454.2A CN117252677A (zh) 2022-06-08 2022-06-08 信贷额度确定方法和装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210647454.2A CN117252677A (zh) 2022-06-08 2022-06-08 信贷额度确定方法和装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117252677A true CN117252677A (zh) 2023-12-19

Family

ID=89135547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210647454.2A Pending CN117252677A (zh) 2022-06-08 2022-06-08 信贷额度确定方法和装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117252677A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808577A (zh) * 2024-03-01 2024-04-02 杭银消费金融股份有限公司 一种基于多因子动态调节的授信处理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808577A (zh) * 2024-03-01 2024-04-02 杭银消费金融股份有限公司 一种基于多因子动态调节的授信处理方法

Similar Documents

Publication Publication Date Title
US11922435B2 (en) Detecting and reducing bias (including discrimination) in an automated decision making process
US8577791B2 (en) System and computer program for modeling and pricing loan products
KR102009309B1 (ko) 금융상품 관리자동화 시스템 및 관리자동화 방법
MXPA01008620A (es) Modelos de prediccion de valoracion en situaciones con entradas perdidas.
MXPA01008622A (es) Evaluacion rapida de portafolios de activos tales como instrumentos financieros.
MXPA01008619A (es) Metodos y sistemas para optimizar el valor de devolucion y el presente.
WO2009065134A1 (en) Method for deal-based pricing and estimation of deal winning probability using multiple prospective models
CN107622444A (zh) 业务准入方法及装置、电子设备
CN112598500A (zh) 一种无额度客户的授信处理方法及系统
CN112541817A (zh) 一种个人消费贷款潜在客户的营销响应处理方法及系统
CN117252677A (zh) 信贷额度确定方法和装置、电子设备及存储介质
CN116091200A (zh) 基于机器学习的场景授信系统、方法、电子设备及介质
CN115860924A (zh) 供应链金融信用风险预警方法及相关设备
CN115829722A (zh) 信用风险评分模型的训练方法及信用风险评分方法
CN113421154B (zh) 基于控制图的信贷风险评估方法及系统
CN115099933A (zh) 一种业务预算方法、装置及设备
CN114943582A (zh) 一种信息推荐方法、系统及推荐服务器
US20210049687A1 (en) Systems and methods of generating resource allocation insights based on datasets
CN114693428A (zh) 数据确定方法、装置、计算机可读存储介质及电子设备
CN113807943A (zh) 一种不良资产的多因子估值方法及系统、介质、设备
CN112884301A (zh) 企业风险分析的方法、设备及计算机存储介质
CN111461863A (zh) 数据处理方法、装置、计算机设备及存储介质
KR102334923B1 (ko) 인공지능을 이용한 대출 확대 가설 검정 시스템 및 이를 이용한 방법
CN117522433A (zh) 一种不良资产估值方法、系统、设备及介质
CN117994017A (zh) 构建零售信用风险预测模型的方法和线上信贷业务Scoredelta模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination