CN117035983A - 信贷风险等级的确定方法、装置、存储介质及电子设备 - Google Patents

信贷风险等级的确定方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117035983A
CN117035983A CN202310834368.7A CN202310834368A CN117035983A CN 117035983 A CN117035983 A CN 117035983A CN 202310834368 A CN202310834368 A CN 202310834368A CN 117035983 A CN117035983 A CN 117035983A
Authority
CN
China
Prior art keywords
target
decision tree
decision trees
decision
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310834368.7A
Other languages
English (en)
Inventor
吕彩艳
路钰莹
廖勤
胡涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202310834368.7A priority Critical patent/CN117035983A/zh
Publication of CN117035983A publication Critical patent/CN117035983A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请公开了一种信贷风险等级的确定方法、装置、存储介质及电子设备。涉及金融科技技术领域,其中,该方法包括:获取目标对象对应的信贷数据;将信贷数据输入至目标模型中,得到目标模型输出的目标对象对应的信贷风险等级,其中,信贷风险等级用于表征目标对象存在信贷风险的程度,目标模型为将历史信贷数据作为训练样本训练得到的随机森林模型,目标模型由目标决策树集合中的目标决策树组成,目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,平均关联度用于表征L棵目标决策树之间的关联程度,L为正整数。本申请解决了相关技术在对客户进行信贷风险等级评估时,存在评估准确率较低的技术问题。

Description

信贷风险等级的确定方法、装置、存储介质及电子设备
技术领域
本申请涉及金融科技技术领域,具体而言,涉及一种信贷风险等级的确定方法、装置、存储介质及电子设备。
背景技术
在金融行业,在用户向金融机构申请贷款时,银行等金融机构通常会对用户的征信信息、经济状况等信贷数据进行审核来确定是否通过用户的贷款申请请求。
现有技术通常通过随机森林算法来评估用户的风险状况,以确定是否通过用户的贷款申请请求。其中,随机森林算法是一种基于决策树的集成分类算法,其克服了决策树过拟合问题,对不平衡样本、噪声和异常值有较好的容忍性,预测准确率较高,被广泛应用在金融决策、负载预测、生物信息、图像分类、信息检索和市场销售等领域。但是,由于随机森林算法的性能取决于每个决策树的分类精准度和决策树之间的多样性,为了提高信贷数据的评估性能,现有技术通过装袋法(Bagging)学习分类器来提高个体分类精度,但是该方法容易造成分类器集群的多样性较低,从而导致信贷风险评估的准确率较低。为了增加分类器集群的多样性,现有技术通过在随机森林构建算法中引入随机子空间方法来增加决策树之间的多样性,但是该方法容易造成单个分类器的准确性较低的问题,从而导致信贷风险评估的准确率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种信贷风险等级的确定方法、装置、存储介质及电子设备,以至少解决相关技术在对客户进行信贷风险等级评估时,存在评估准确率较低的技术问题。
根据本申请的一个方面,提供了一种信贷风险等级的确定方法,包括:获取目标对象对应的信贷数据;将所述信贷数据输入至目标模型中,得到所述目标模型输出的目标对象对应的信贷风险等级,其中,所述信贷风险等级用于表征所述目标对象存在信贷风险的程度,所述目标模型为将历史信贷数据作为训练样本训练得到的随机森林模型,所述目标模型由目标决策树集合中的目标决策树组成,所述目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,所述平均关联度用于表征所述L棵目标决策树之间的关联程度,L为正整数。
进一步地,所述目标模型通过如下过程得到:获取样本数据集合,其中,所述样本数据集合中包括M个对象中的每个对象在历史时间段内的历史信贷数据以及所述每个对象在所述历史时间段内的信贷风险等级,M为正整数;将所述样本数据集合划分为训练数据集和测试数据集;基于所述训练数据集中的数据对初始随机森林模型进行模型训练,得到目标随机森林模型,其中,所述初始随机森林模型由N棵决策树组成,N为正整数;将所述测试数据集中的数据输入至所述目标随机森林模型中,得到所述目标随机森林模型输出的N棵决策树中的每棵决策树所对应的分类结果,其中,所述每棵决策树所对应的分类结果用于表征该棵决策树对所述测试数据集中的每个对象的信贷风险等级的预测结果;基于所述每棵决策树所对应的分类结果对所述N棵决策树进行筛选,得到所述目标决策树集合;基于所述目标决策树集合构建所述目标模型。
进一步地,在基于所述训练数据集中的数据对初始随机森林模型进行模型训练,得到目标随机森林模型之前,所述方法还包括:基于所述训练数据集中的历史信贷数据生成所述N棵决策树;基于所述N棵决策树构建所述初始随机森林模型。
进一步地,基于所述每棵决策树所对应的分类结果对所述N棵决策树进行筛选,得到所述目标决策树集合,包括:基于所述每棵决策树所对应的分类结果确定所述每棵决策树的AUC值,其中,所述每棵决策树的AUC值用于表征该棵决策树对所述历史信贷数据进行分类的分类精确度;基于所述每棵决策树的AUC值对所述N棵决策树进行所述筛选,得到所述L棵目标决策树,其中,每棵目标决策树的AUC值高于其他决策树的AUC值,所述其他决策树为所述N棵决策树中除所述L棵目标决策树之外的决策树,L小于N;获取所述L棵目标决策树之间的平均关联度;基于所述L棵目标决策树之间的平均关联度确定所述目标决策树集合。
进一步地,基于所述每棵决策树的AUC值对所述N棵决策树进行所述筛选,得到L棵目标决策树,包括:依据所述每棵决策树的AUC值对所述N棵决策树进行从大到小的排序,得到排序结果;依据所述排序结果确定排名前L的决策树为所述L棵目标决策树。
进一步地,基于所述L棵目标决策树之间的平均关联度确定所述目标决策树集合,包括:基于所述L棵目标决策树随机生成K个决策树集合,其中,每个决策树集合中包括至少一个目标决策树,K为正整数;基于预设适应度函数以及所述L棵目标决策树之间的平均关联度计算每个决策树集合的适应度值,其中,所述适应度值用于表征所述决策树集合中的决策树之间的关联程度,所述适应度值与所述决策树之间的关联程度呈负相关;基于所述每个决策树集合的适应度值从所述K个决策树集合中确定所述目标决策树集合,其中,所述目标决策树集合为所述K个决策树集合中的适应度值最大的决策树集合。
进一步地,在将所述信贷数据输入至目标模型中,得到所述目标模型输出的目标对象对应的信贷风险等级之后,所述方法还包括:检测所述目标对象对应的信贷风险等级是否大于预设等级;在所述信贷风险等级大于所述预设等级的情况下,禁止通过所述目标对象对应的贷款申请请求;在所述信贷风险等级小于或等于所述预设等级的情况下,通过所述目标对象对应的贷款申请请求。
根据本申请的另一方面,还提供了一种信贷风险等级的确定装置,包括:获取模块,用于获取目标对象对应的信贷数据;确定模块,用于将所述信贷数据输入至目标模型中,得到所述目标模型输出的目标对象对应的信贷风险等级,其中,所述信贷风险等级用于表征所述目标对象存在信贷风险的程度,所述目标模型为将历史信贷数据作为训练样本训练得到的随机森林模型,所述目标模型由目标决策树集合中的目标决策树组成,所述目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,所述平均关联度用于表征所述L棵目标决策树之间的关联程度,L为正整数。
根据本申请的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的信贷风险等级的确定方法。
根据本申请的另一方面,还提供了一种电子设备,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的信贷风险等级的确定方法。
在本申请中,首先获取目标对象对应的信贷数据;然后将所述信贷数据输入至目标模型中,得到所述目标模型输出的目标对象对应的信贷风险等级,其中,所述信贷风险等级用于表征所述目标对象存在信贷风险的程度,所述目标模型为将历史信贷数据作为训练样本训练得到的随机森林模型,所述目标模型由目标决策树集合中的目标决策树组成,所述目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,所述平均关联度用于表征所述L棵目标决策树之间的关联程度,L为正整数。
在上述过程中,通过将历史信贷数据作为训练样本训练得到的随机森林模型(即目标模型)对目标对象对应的信贷数据进行处理,得到目标对象对应的信贷风险等级。其中,由于目标模型由目标决策树集合中的目标决策树组成,目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,能够基于L棵目标决策树之间的平均关联度筛选出关联程度较低的目标决策树,降低了目标模型中的决策树之间的相似度,增加了目标模型中的决策树的多样性,提高了目标模型的评估准确率,从而实现了提高信贷风险等级评估的准确率的技术效果,进而解决了相关技术在对客户进行信贷风险等级评估时,存在评估准确率较低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的信贷风险等级的确定方法的流程图;
图2是根据本申请实施例的一种可选的目标模型的训练过程的流程图;
图3是根据本申请实施例的一种可选的信贷风险等级的确定装置的示意图;
图4是根据本申请实施例的一种可选的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本申请的信贷风险等级的确定方法、装置、存储介质及电子设备可用于金融科技领域,也可用于除金融科技领域之外的其他领域,本申请的信贷风险等级的确定方法、装置、存储介质及电子设备的应用领域不做限定。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
实施例1
根据本申请实施例,提供了一种可选的信贷风险等级的确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
其中,为了方便理解本申请的技术方案,以下为对本申请中的一些关键术语的具体定义:
差分进化算法:差分进化算法(Differential Evolution Algorithm,简称DE)是一种高效的全局优化算法。它也是基于群体的启发式搜索算法,群中的每个个体对应一个解向量。差分进化算法的进化流程则与遗传算法非常类似,都包括变异、杂交和选择操作,但这些操作的具体定义与遗传算法有所不同。
熵:泛指某些物质系统状态的一种量度,某些物质系统状态可能出现的程度。
信息增益:在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。
决策树:是一种十分常用的分类方法。它是一种监督学习,所谓监督学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。
随机森林模型:在机器学习中,随机森林模型是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
AUC值:定义为ROC曲线下与坐标轴围成的面积,AUC的取值范围在0.5和1之间,使用AUC值作为模型的评价标准,对应AUC更大的分类器效果更好。
图1是根据本申请实施例的一种可选的信贷风险等级的确定方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取目标对象对应的信贷数据。
在一种可选的实施例中,一种信贷风险等级的确定系统可作为本申请实施例中的信贷风险等级的确定方法的执行主体。为了方便描述,以下将信贷风险等级的确定系统简称为系统。
在步骤S101中,目标对象可以为金融机构的客户,目标对象对应的信贷数据包括但不限于客户个人信息(例如贷款人的姓名、性别、年龄、身份证号码等基本信息)、贷款信息(例如贷款金额、贷款用途、贷款期限、贷款利率等相关信息)、还款信息(例如还款记录、还款金额、还款日期等还款相关信息)、信用信息(例如信用记录、信用评级、逾期记录等)、个人征信报告以及收入和资产信息。
步骤S102,将信贷数据输入至目标模型中,得到目标模型输出的目标对象对应的信贷风险等级。
在步骤S102中,信贷风险等级用于表征目标对象存在信贷风险的程度,目标模型为将历史信贷数据作为训练样本训练得到的随机森林模型,目标模型由目标决策树集合中的目标决策树组成,目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,平均关联度用于表征L棵目标决策树之间的关联程度,L为正整数。
可选地,在本实施例中,由于上述目标模型由目标决策树集合中的目标决策树组成,目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,系统能够根据L棵目标决策树之间的平均关联度筛选出关联程度较低的目标决策树来组成目标模型,实现通过降低目标模型中的决策树之间的相似度,来增加了目标模型中的决策树的多样性,从而提高了目标模型的评估准确率;进而通过目标模型对目标对象的信贷数据进行处理,能够得到准确率较高的信贷风险等级,提高了信贷风险等级评估的准确率。
基于上述步骤S101至步骤S102所限定的方案,可以获知,在本申请中,首先获取目标对象对应的信贷数据;然后将信贷数据输入至目标模型中,得到目标模型输出的目标对象对应的信贷风险等级,其中,信贷风险等级用于表征目标对象存在信贷风险的程度,目标模型为将历史信贷数据作为训练样本训练得到的随机森林模型,目标模型由目标决策树集合中的目标决策树组成,目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,平均关联度用于表征L棵目标决策树之间的关联程度,L为正整数。
需要说明的是,在上述过程中,通过将历史信贷数据作为训练样本训练得到的随机森林模型(即目标模型)对目标对象对应的信贷数据进行处理,得到目标对象对应的信贷风险等级。其中,由于目标模型由目标决策树集合中的目标决策树组成,目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,能够基于L棵目标决策树之间的平均关联度筛选出关联程度较低的目标决策树,降低了目标模型中的决策树之间的相似度,增加了目标模型中的决策树的多样性,提高了目标模型的评估准确率,从而实现了提高信贷风险等级评估的准确率的技术效果,进而解决了相关技术在对客户进行信贷风险等级评估时,存在评估准确率较低的技术问题。
可选地,图2是根据本申请实施例的一种可选的目标模型的训练过程的流程图,如图2所示,该训练过程具体如下:
步骤S201,获取样本数据集合。
在步骤S201中,样本数据集合中包括M个对象中的每个对象在历史时间段内的历史信贷数据以及每个对象在历史时间段内的信贷风险等级,M为正整数。
步骤S202,将样本数据集合划分为训练数据集和测试数据集。
步骤S203,基于训练数据集中的数据对初始随机森林模型进行模型训练,得到目标随机森林模型。
在步骤S203中,初始随机森林模型由N棵决策树组成,N为正整数。
步骤S204,将测试数据集中的数据输入至目标随机森林模型中,得到目标随机森林模型输出的N棵决策树中的每棵决策树所对应的分类结果。
在步骤S204中,每棵决策树所对应的分类结果用于表征该棵决策树对测试数据集中的每个对象的信贷风险等级的预测结果。
步骤S205,基于每棵决策树所对应的分类结果对N棵决策树进行筛选,得到目标决策树集合。
步骤S206,基于目标决策树集合构建目标模型。
可选地,在上述过程中,系统可通过训练数据集中的数据对初始随机森林模型进行模型训练,得到目标随机森林模型;然后通过将测试数据集中的数据输入至目标随机森林模型中,得到目标随机森林模型输出的N棵决策树中的每棵决策树所对应的分类结果;然后系统可基于每棵决策树所对应的分类结果对N棵决策树进行筛选,得到目标决策树集合;最后基于目标决策树集合构建目标模型,实现了通过历史信贷数据作为训练样本训练得到目标模型,为后续通过目标模型评估信贷风险等级提供准备。
可选地,在本申请实施例提供的信贷风险等级的确定方法中,在基于训练数据集中的数据对初始随机森林模型进行模型训练,得到目标随机森林模型之前,还包括:基于训练数据集中的历史信贷数据生成N棵决策树;基于N棵决策树构建初始随机森林模型。
在本实施例中,系统可将CART分类回归树(即Classification and RegressionTree,分类与回归树)算法作为决策树生成算法,然后通过CART分类回归树算法基于训练数据集中的历史信贷数据生成N棵决策树,并基于N棵决策树构建初始随机森林模型。其中,CART分类回归树算法的随机子空间的大小取F=int(log2M+1);其中,M表示总的输入特征个数,int()表示取小于或等于log2M+1的最大整数。CART分类回归树算法使用基尼指数(Gini index)最小化准则进行特征选择,最小基尼指数值设为0.01,决策树在生长过程中不进行剪枝以保持结果不受剪枝方法的影响。在构建原始随机森林时,设定树的个数为Q,树的最大深度设为e。
需要说明的是,通过基于训练数据集中的历史信贷数据生成N棵决策树,并基于N棵决策树构建初始随机森林模型,实现为后续将历史信贷数据作为训练样本对初始随机森林模型进行模型训练得到目标随机森林模型提供模型准备。
可选地,在本申请实施例提供的信贷风险等级的确定方法中,基于每棵决策树所对应的分类结果对N棵决策树进行筛选,得到目标决策树集合,包括:基于每棵决策树所对应的分类结果确定每棵决策树的AUC值,其中,每棵决策树的AUC值用于表征该棵决策树对历史信贷数据进行分类的分类精确度;基于每棵决策树的AUC值对N棵决策树进行筛选,得到L棵目标决策树,其中,每棵目标决策树的AUC值高于其他决策树的AUC值,其他决策树为N棵决策树中除L棵目标决策树之外的决策树,L小于N;获取L棵目标决策树之间的平均关联度;基于L棵目标决策树之间的平均关联度确定目标决策树集合。
在本实施例中,系统通过基于每棵决策树所对应的分类结果确定每棵决策树的AUC值,来确定每棵决策树对历史信贷数据进行分类的分类精确度;然后系统可基于每棵决策树的AUC值对N棵决策树进行筛选,得到L棵精度最高的目标决策树;最后基于L棵目标决策树之间的平均关联度确定目标决策树集合。
需要说明的是,通过基于分类结果确定每棵决策树的AUC值,并基于每棵决策树的AUC值对N棵决策树进行筛选,得到L棵精度最高的目标决策树,基于L棵目标决策树之间的平均关联度确定目标决策树集合,并通过L棵精度最高的目标决策树之间的平均关联度确定目标决策树集合,实现了在通过AUC值筛选出精度最高的决策树,增加了目标模型中的决策树的多样性,从而提高了目标模型的评估准确率。
可选地,在本申请实施例提供的信贷风险等级的确定方法中,基于每棵决策树的AUC值对N棵决策树进行筛选,得到L棵目标决策树,包括:依据每棵决策树的AUC值对N棵决策树进行从大到小的排序,得到排序结果;依据排序结果确定排名前L的决策树为L棵目标决策树。
例如,系统可通过依据每棵决策树的AUC值对100棵决策树进行从大到小的排序,得到排序结果,并依据排序结果确定排名前10的决策树为L棵目标决策树。
需要说明的是,通过依据排序结果确定排名前L的决策树为L棵目标决策树,实现了通过AUC值筛选出精度最高的决策树,通过精度最高的决策树构建目标模型,能够提高目标模型的评估精确度,实现了为后续构建评估准确率较高的目标模型提供数据准备。
可选地,在本申请实施例提供的信贷风险等级的确定方法中,基于L棵目标决策树之间的平均关联度确定目标决策树集合,包括:基于L棵目标决策树随机生成K个决策树集合,其中,每个决策树集合中包括至少一个目标决策树,K为正整数;基于预设适应度函数以及L棵目标决策树之间的平均关联度计算每个决策树集合的适应度值,其中,适应度值用于表征决策树集合中的决策树之间的关联程度,适应度值与决策树之间的关联程度呈负相关;基于每个决策树集合的适应度值从K个决策树集合中确定目标决策树集合,其中,目标决策树集合为K个决策树集合中的适应度值最大的决策树集合。
在本实施例中,系统可基于差分进化算法确定目标决策树集合。具体地,系统可通过确定差分进化算法控制参数,来确定预设适应度函数,其中,预设适应度函数的具体公式如下:
其中,s表示有k棵决策树的子集,f(s)是差分进化算法的预设适应度函数,用来描述s的分类性能。rcf表示决策树和分类结果的平均关联度,rff’表示s中的决策树和其他决策树的平均关联程度。其中,当决策树之间的关联度越大时,适合度函数值越小,即两个具有强关联的决策树不会被同时筛选出来,保证决策树的多样性,提高模型的泛化能力。而当决策树与分类结果关联度越大时,其适应度函数值越大,从而保证该棵树更加靠近目标结果值。其中,平均关联度可通过信息增益来衡量,信息增益是度量熵的改变量,平均关联的具体公式如下:
gain(x,y)=H(y)-H(y|x)=H(x)-H(x|y) (3)
H(y)=-∑y∈YP(y)log2 P(y) (4)
其中,式(4)和式(5)分别计算在使用X之前和之后Y的熵。使用式(3)的信息增益gain(x,y)来表示x和y之间的关联程度,如果gain(x,y)越大,说明x和y之间的关联程度越高。S’表示不属于子集S的其他属性组成的集合;n是样本属性总数目,k指样本的目标属性。
进一步地,系统可基于L棵目标决策树随机生成K个决策树集合(即初始种群),其中,每个决策树集合中包括至少一个目标决策树;然后系统对初始种群进行评价,通过基于预设适应度函数以及L棵目标决策树之间的平均关联度计算每个决策树集合的适应度值。然后判断是否达到终止条件或进化代数达到最大。若是,则终止进化,将得到最佳个体作为最优解输出;若否,继续;进行变异和交叉操作,得到中间种群;在原种群和中间种群中选择个体,得到新一代种群,直至迭代结束,基于每个决策树集合的适应度值从K个决策树集合中确定目标决策树集合。
需要说明的是,通过基于差分进化算法确定目标决策树集合,能够依据L棵目标决策树之间的平均关联度得到的决策树集合,实现了基于L棵目标决策树之间的平均关联度筛选出关联程度较低的目标决策树,从而保证决策树的多样性,而更多样更丰富的决策树组成的随机森林的分类效果则会更优,提高模型筛选的泛化能力,为后续构建评估准确率较高的目标模型提供数据准备。
可选地,在本申请实施例提供的信贷风险等级的确定方法中,在将信贷数据输入至目标模型中,得到目标模型输出的目标对象对应的信贷风险等级之后,还包括:检测目标对象对应的信贷风险等级是否大于预设等级;在信贷风险等级大于预设等级的情况下,禁止通过目标对象对应的贷款申请请求;在信贷风险等级小于或等于预设等级的情况下,通过目标对象对应的贷款申请请求。
在本实施例中,系统可通过检测目标对象对应的信贷风险等级是否大于预设等级来确定是否通过目标对象对应的贷款申请请求。具体地,在信贷风险等级大于预设等级的情况下,系统可禁止通过目标对象对应的贷款申请请求;在信贷风险等级小于或等于预设等级的情况下,系统可通过目标对象对应的贷款申请请求。
需要说明的是,系统通过检测目标对象对应的信贷风险等级是否大于预设等级来确定是否通过目标对象对应的贷款申请请求,能够避免由于客户信用风险较高、还款能力较弱、无法及时还款导致金融机构出现资金损失的问题。
由此可见,通过本申请提出的基于差分进化的改进随机森林算法对客户信贷风险等级做评估,可有效提高个人信用评估的精准度,有效降低金融风险。相交于传统随机森林算法,该方案通过计算单个决策树的AUC值可提高精准度,并利用差分进化算法提高决策树之间的多样性,提高模型泛化能力,且利用差分进化算法可有效提高算法性能,差分进化算法具有较好的可靠性、高效性和鲁棒性,并且在在同样精度要求下,差分进化算法具有更快的收敛速度。
实施例2
根据本申请实施例,提供了一种信贷风险等级的确定装置的实施例,其中,图3是根据本申请实施例的一种可选的信贷风险等级的确定装置的示意图,如图3所示,该装置包括:
获取模块301,用于获取目标对象对应的信贷数据;
确定模块302,用于将信贷数据输入至目标模型中,得到目标模型输出的目标对象对应的信贷风险等级,其中,信贷风险等级用于表征目标对象存在信贷风险的程度,目标模型为将历史信贷数据作为训练样本训练得到的随机森林模型,目标模型由目标决策树集合中的目标决策树组成,目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,平均关联度用于表征L棵目标决策树之间的关联程度,L为正整数。
需要说明的是,上述获取模块301以及确定模块302对应于上述实施例1中的步骤S101至步骤S102,两个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选地,信贷风险等级的确定装置还包括:第一获取模块,用于获取样本数据集合,其中,样本数据集合中包括M个对象中的每个对象在历史时间段内的历史信贷数据以及每个对象在历史时间段内的信贷风险等级,M为正整数;划分模块,用于将样本数据集合划分为训练数据集和测试数据集;训练模块,用于基于训练数据集中的数据对初始随机森林模型进行模型训练,得到目标随机森林模型,其中,初始随机森林模型由N棵决策树组成,N为正整数;第一确定模块,用于将测试数据集中的数据输入至目标随机森林模型中,得到目标随机森林模型输出的N棵决策树中的每棵决策树所对应的分类结果,其中,每棵决策树所对应的分类结果用于表征该棵决策树对测试数据集中的每个对象的信贷风险等级的预测结果;筛选模块,用于基于每棵决策树所对应的分类结果对N棵决策树进行筛选,得到目标决策树集合;第一构建模块,用于基于目标决策树集合构建目标模型。
可选地,信贷风险等级的确定装置还包括:生成模块,用于在基于训练数据集中的数据对初始随机森林模型进行模型训练,得到目标随机森林模型之前,基于训练数据集中的历史信贷数据生成N棵决策树;第二构建模块,用于基于N棵决策树构建初始随机森林模型。
可选地,筛选模块包括:第一确定单元,用于基于每棵决策树所对应的分类结果确定每棵决策树的AUC值,其中,每棵决策树的AUC值用于表征该棵决策树对历史信贷数据进行分类的分类精确度;第一筛选单元,用于基于每棵决策树的AUC值对N棵决策树进行筛选,得到L棵目标决策树,其中,每棵目标决策树的AUC值高于其他决策树的AUC值,其他决策树为N棵决策树中除L棵目标决策树之外的决策树,L小于N;第一获取单元,用于获取L棵目标决策树之间的平均关联度;第二确定单元,用于基于L棵目标决策树之间的平均关联度确定目标决策树集合。
可选地,第一筛选单元包括:排序单元,用于依据每棵决策树的AUC值对N棵决策树进行从大到小的排序,得到排序结果;第三确定单元,用于依据排序结果确定排名前L的决策树为L棵目标决策树。
可选地,第二确定单元包括:生成单元,用于基于L棵目标决策树随机生成K个决策树集合,其中,每个决策树集合中包括至少一个目标决策树,K为正整数;计算单元,用于基于预设适应度函数以及L棵目标决策树之间的平均关联度计算每个决策树集合的适应度值,其中,适应度值用于表征决策树集合中的决策树之间的关联程度,适应度值与决策树之间的关联程度呈负相关;第四确定单元,用于基于每个决策树集合的适应度值从K个决策树集合中确定目标决策树集合,其中,目标决策树集合为K个决策树集合中的适应度值最大的决策树集合。
可选地,信贷风险等级的确定装置还包括:检测模块,用于在将信贷数据输入至目标模型中,得到目标模型输出的目标对象对应的信贷风险等级之后,检测目标对象对应的信贷风险等级是否大于预设等级;禁止模块,用于在信贷风险等级大于预设等级的情况下,禁止通过目标对象对应的贷款申请请求;通过模块,用于在信贷风险等级小于或等于预设等级的情况下,通过目标对象对应的贷款申请请求。
实施例3
根据本申请实施例的另一方面,还提供了计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的信贷风险等级的确定方法。
实施例4
根据本申请实施例的另一方面,还提供了一种电子设备,其中,图4是根据本申请实施例的一种可选的电子设备的示意图,如图4所示,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的信贷风险等级的确定方法。
如图4所示,本申请实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取目标对象对应的信贷数据;将信贷数据输入至目标模型中,得到目标模型输出的目标对象对应的信贷风险等级,其中,信贷风险等级用于表征目标对象存在信贷风险的程度,目标模型为将历史信贷数据作为训练样本训练得到的随机森林模型,目标模型由目标决策树集合中的目标决策树组成,目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,平均关联度用于表征L棵目标决策树之间的关联程度,L为正整数。
可选地,目标模型通过如下过程得到:获取样本数据集合,其中,样本数据集合中包括M个对象中的每个对象在历史时间段内的历史信贷数据以及每个对象在历史时间段内的信贷风险等级,M为正整数;将样本数据集合划分为训练数据集和测试数据集;基于训练数据集中的数据对初始随机森林模型进行模型训练,得到目标随机森林模型,其中,初始随机森林模型由N棵决策树组成,N为正整数;将测试数据集中的数据输入至目标随机森林模型中,得到目标随机森林模型输出的N棵决策树中的每棵决策树所对应的分类结果,其中,每棵决策树所对应的分类结果用于表征该棵决策树对测试数据集中的每个对象的信贷风险等级的预测结果;基于每棵决策树所对应的分类结果对N棵决策树进行筛选,得到目标决策树集合;基于目标决策树集合构建目标模型。
可选地,处理器执行程序时还实现以下步骤:在基于训练数据集中的数据对初始随机森林模型进行模型训练,得到目标随机森林模型之前,基于训练数据集中的历史信贷数据生成N棵决策树;基于N棵决策树构建初始随机森林模型。
可选地,处理器执行程序时还实现以下步骤:基于每棵决策树所对应的分类结果确定每棵决策树的AUC值,其中,每棵决策树的AUC值用于表征该棵决策树对历史信贷数据进行分类的分类精确度;基于每棵决策树的AUC值对N棵决策树进行筛选,得到L棵目标决策树,其中,每棵目标决策树的AUC值高于其他决策树的AUC值,其他决策树为N棵决策树中除L棵目标决策树之外的决策树,L小于N;获取L棵目标决策树之间的平均关联度;基于L棵目标决策树之间的平均关联度确定目标决策树集合。
可选地,处理器执行程序时还实现以下步骤:依据每棵决策树的AUC值对N棵决策树进行从大到小的排序,得到排序结果;依据排序结果确定排名前L的决策树为L棵目标决策树。
可选地,处理器执行程序时还实现以下步骤:基于L棵目标决策树随机生成K个决策树集合,其中,每个决策树集合中包括至少一个目标决策树,K为正整数;基于预设适应度函数以及L棵目标决策树之间的平均关联度计算每个决策树集合的适应度值,其中,适应度值用于表征决策树集合中的决策树之间的关联程度,适应度值与决策树之间的关联程度呈负相关;基于每个决策树集合的适应度值从K个决策树集合中确定目标决策树集合,其中,目标决策树集合为K个决策树集合中的适应度值最大的决策树集合。
可选地,处理器执行程序时还实现以下步骤:在将信贷数据输入至目标模型中,得到目标模型输出的目标对象对应的信贷风险等级之后,检测目标对象对应的信贷风险等级是否大于预设等级;在信贷风险等级大于预设等级的情况下,禁止通过目标对象对应的贷款申请请求;在信贷风险等级小于或等于预设等级的情况下,通过目标对象对应的贷款申请请求。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种信贷风险等级的确定方法,其特征在于,包括:
获取目标对象对应的信贷数据;
将所述信贷数据输入至目标模型中,得到所述目标模型输出的目标对象对应的信贷风险等级,其中,所述信贷风险等级用于表征所述目标对象存在信贷风险的程度,所述目标模型为将历史信贷数据作为训练样本训练得到的随机森林模型,所述目标模型由目标决策树集合中的目标决策树组成,所述目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,所述平均关联度用于表征所述L棵目标决策树之间的关联程度,L为正整数。
2.根据权利要求1所述的方法,其特征在于,所述目标模型通过如下过程得到:
获取样本数据集合,其中,所述样本数据集合中包括M个对象中的每个对象在历史时间段内的历史信贷数据以及所述每个对象在所述历史时间段内的信贷风险等级,M为正整数;
将所述样本数据集合划分为训练数据集和测试数据集;
基于所述训练数据集中的数据对初始随机森林模型进行模型训练,得到目标随机森林模型,其中,所述初始随机森林模型由N棵决策树组成,N为正整数;
将所述测试数据集中的数据输入至所述目标随机森林模型中,得到所述目标随机森林模型输出的N棵决策树中的每棵决策树所对应的分类结果,其中,所述每棵决策树所对应的分类结果用于表征该棵决策树对所述测试数据集中的每个对象的信贷风险等级的预测结果;
基于所述每棵决策树所对应的分类结果对所述N棵决策树进行筛选,得到所述目标决策树集合;
基于所述目标决策树集合构建所述目标模型。
3.根据权利要求2所述的方法,其特征在于,在基于所述训练数据集中的数据对初始随机森林模型进行模型训练,得到目标随机森林模型之前,所述方法还包括:
基于所述训练数据集中的历史信贷数据生成所述N棵决策树;
基于所述N棵决策树构建所述初始随机森林模型。
4.根据权利要求2所述的方法,其特征在于,基于所述每棵决策树所对应的分类结果对所述N棵决策树进行筛选,得到所述目标决策树集合,包括:
基于所述每棵决策树所对应的分类结果确定所述每棵决策树的AUC值,其中,所述每棵决策树的AUC值用于表征该棵决策树对所述历史信贷数据进行分类的分类精确度;
基于所述每棵决策树的AUC值对所述N棵决策树进行所述筛选,得到所述L棵目标决策树,其中,每棵目标决策树的AUC值高于其他决策树的AUC值,所述其他决策树为所述N棵决策树中除所述L棵目标决策树之外的决策树,L小于N;
获取所述L棵目标决策树之间的平均关联度;
基于所述L棵目标决策树之间的平均关联度确定所述目标决策树集合。
5.根据权利要求4所述的方法,其特征在于,基于所述每棵决策树的AUC值对所述N棵决策树进行所述筛选,得到所述L棵目标决策树,包括:
依据所述每棵决策树的AUC值对所述N棵决策树进行从大到小的排序,得到排序结果;
依据所述排序结果确定排名前L的决策树为所述L棵目标决策树。
6.根据权利要求4所述的方法,其特征在于,基于所述L棵目标决策树之间的平均关联度确定所述目标决策树集合,包括:
基于所述L棵目标决策树随机生成K个决策树集合,其中,每个决策树集合中包括至少一个目标决策树,K为正整数;
基于预设适应度函数以及所述L棵目标决策树之间的平均关联度计算每个决策树集合的适应度值,其中,所述适应度值用于表征所述决策树集合中的决策树之间的关联程度,所述适应度值与所述决策树之间的关联程度呈负相关;
基于所述每个决策树集合的适应度值从所述K个决策树集合中确定所述目标决策树集合,其中,所述目标决策树集合为所述K个决策树集合中的适应度值最大的决策树集合。
7.根据权利要求1所述的方法,其特征在于,在将所述信贷数据输入至目标模型中,得到所述目标模型输出的目标对象对应的信贷风险等级之后,所述方法还包括:
检测所述目标对象对应的信贷风险等级是否大于预设等级;
在所述信贷风险等级大于所述预设等级的情况下,禁止通过所述目标对象对应的贷款申请请求;
在所述信贷风险等级小于或等于所述预设等级的情况下,通过所述目标对象对应的贷款申请请求。
8.一种信贷风险等级的确定装置,其特征在于,包括:
获取模块,用于获取目标对象对应的信贷数据;
确定模块,用于将所述信贷数据输入至目标模型中,得到所述目标模型输出的目标对象对应的信贷风险等级,其中,所述信贷风险等级用于表征所述目标对象存在信贷风险的程度,所述目标模型为将历史信贷数据作为训练样本训练得到的随机森林模型,所述目标模型由目标决策树集合中的目标决策树组成,所述目标决策树集合是依据L棵目标决策树之间的平均关联度得到的决策树集合,所述平均关联度用于表征所述L棵目标决策树之间的关联程度,L为正整数。
9.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的信贷风险等级的确定方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的信贷风险等级的确定方法。
CN202310834368.7A 2023-07-07 2023-07-07 信贷风险等级的确定方法、装置、存储介质及电子设备 Pending CN117035983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310834368.7A CN117035983A (zh) 2023-07-07 2023-07-07 信贷风险等级的确定方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310834368.7A CN117035983A (zh) 2023-07-07 2023-07-07 信贷风险等级的确定方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN117035983A true CN117035983A (zh) 2023-11-10

Family

ID=88628813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310834368.7A Pending CN117035983A (zh) 2023-07-07 2023-07-07 信贷风险等级的确定方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117035983A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874654A (zh) * 2024-03-13 2024-04-12 杭州小策科技有限公司 基于随机森林算法的风险监控方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874654A (zh) * 2024-03-13 2024-04-12 杭州小策科技有限公司 基于随机森林算法的风险监控方法及系统
CN117874654B (zh) * 2024-03-13 2024-05-24 杭州小策科技有限公司 基于随机森林算法的风险监控方法及系统

Similar Documents

Publication Publication Date Title
CN112001788B (zh) 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
CN112437053B (zh) 入侵检测方法及装置
Zhou et al. A robust clustering algorithm based on the identification of core points and KNN kernel density estimation
US11971892B2 (en) Methods for stratified sampling-based query execution
CN112381154A (zh) 预测用户概率的方法、装置和计算机设备
Chen et al. Research on credit card default prediction based on k-means SMOTE and BP neural network
US20030182082A1 (en) Method for determining a quality for a data clustering and data processing system
JP2020524346A (ja) 短期利益を予測する方法、装置、コンピューターデバイス、プログラムおよび記憶媒体
CN117035983A (zh) 信贷风险等级的确定方法、装置、存储介质及电子设备
Zhou et al. Personal credit default prediction model based on convolution neural network
Yu et al. Loan Approval Prediction Improved by XGBoost Model Based on Four-Vector Optimization Algorithm
CN113688906A (zh) 基于量子K-means算法的客户细分方法和系统
CN112949954B (zh) 基于识别学习建立财务欺诈识别模型的方法
Liu et al. A Big Data-Based Anti-Fraud Model for Internet Finance.
CN115936773A (zh) 一种互联网金融黑产识别方法与系统
Wang et al. A cross-entropy based feature selection method for binary valued data classification
Himani et al. A comparative study on machine learning based prediction of citations of articles
CN111461420A (zh) 模型预测结果的解释方法和装置
CN116993485A (zh) 信贷风险等级的预测方法、装置、存储介质及电子设备
CN114281994B (zh) 一种基于三层加权模型的文本聚类集成方法及系统
Holm Machine learning and spending patterns: A study on the possibility of identifying riskily spending behaviour
CN118378180B (zh) 一种金融大数据分析方法及系统
CN113159957B (zh) 一种交易处理方法及装置
CN117094817B (zh) 一种信用风险控制智能预测方法及系统
Evjen Analysis of the probability of default in peer-to-peer lending. Application of different classification techniques.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination