CN114648406A - 基于随机森林的用户信用积分预测方法和装置 - Google Patents
基于随机森林的用户信用积分预测方法和装置 Download PDFInfo
- Publication number
- CN114648406A CN114648406A CN202210382917.7A CN202210382917A CN114648406A CN 114648406 A CN114648406 A CN 114648406A CN 202210382917 A CN202210382917 A CN 202210382917A CN 114648406 A CN114648406 A CN 114648406A
- Authority
- CN
- China
- Prior art keywords
- random forest
- super
- forest regressor
- features
- regressor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种基于随机森林的用户信用积分预测方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。采用本方法能够实现对待预测用户的信用积分的高效预测。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种基于随机森林的用户信用积分预测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
信贷服务是商业银行最重要的业务以及收入来源,尤其是对于企业客户的信贷服务更是如此。但是随着国家经济的发展,每一天诞生的中小企业如同雨后春笋,这对商业银行进行贷款对象的选择增加了不少难度。什么样的企业值得重点关注并有希望成为商业银行的客户以及什么样的客户应该规避,这是银行进行信贷时面临的一个关键问题。
随着机器学习以及深度学习的蓬勃发展,许多银行开始构建属于自己的数据以及模型,并将其应用于客户挖掘、风险防控等方面。并且在算法与模型的选择上往往采用深层神经网络的方法进行应用,这不免产生一些问题,许多分行乃至支行其实并没有数量极大的企业客户,使用深层神经网络的方式会使模型的训练时间以及成本增长许多,且随着数据的增长训练时长增长更快。而且深层神经网络通常并不能告知结果从何而来,也并不告知哪一特征是对企业信用影响最大的特征。在此种情况下,随机森林模型显然会较深层神经网络具有更好的通用性,且其非常善于处理高维度数据,通常来说,随机森林会给到一个并不容易过拟合而且符合期待的结果。
目前存在的随机森林模型往往是需要调节如基学习器数量、森林最大层数、基学习器最大特征选择数等超参数,常用的方法是使用学习曲线和网格搜索的方式进行超参数的调优。但是这两种方法都有一定的优缺点,通常来说学习曲线会得到一个更加优秀的参数组合,但是由于其验证的参数范围会更加细致导致参数选择时时间花费更多。而网格搜索的方式通常会得到一个比绘制学习曲线差一点的参数组合,且其不需要人工调节、选择参数的时长也会短很多的优点,也广泛被研究者所采用。但是,现有的用户信用积分预测方法存在着不能够兼顾训练时长和预测准确率的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现对于待预测用户的信用积分的高效预测的基于随机森林的用户信用积分预测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种基于随机森林的用户信用积分预测方法。所述方法包括:
获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
在其中一个实施例中,所述超参数调优后的随机森林回归器通过以下方法获取:
获取样本用户的客户信息,对样本用户的客户信息进行预处理,删除其中缺失值数量超过预设阈值的客户信息以及缺少信用积分的用户信息;
对预处理后的样本用户的客户信息中的离散值字段进行哑变量编码处理,对预处理后的样本用户的客户信息中的定量特征进行二值化处理,获取处理完成后的样本用户的客户信息作为样本数据;
根据所述样本数据获取预设数量的特征以及所述预设数量的特征对应的标签,基于所述预设数量的特征以及预设数量的特征对应的标签构建随机森林回归器;
基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器。
在其中一个实施例中,所述根据所述样本数据获取预设数量的特征包括:
获取所述样本数据中特征的数量,判断所述样本数据中特征的数量是否达到预设的特征数量阈值;
若所述样本数据中特征的数量小于或等于预设的特征数量阈值,不进行特征选择;
若所述样本数据中特征的数量大于预设的特征数量阈值,基于卡方假设进行特征选择,获取选择后的预设数量的特征。
在其中一个实施例中,所述基于改进的网格搜索对所述随机森林回归器进行超参数调优处理包括:
获取所述随机森林回归器中需要进行调优处理的超参数数量作为进行网格搜索的次数;
分别设置超参数调整范围和搜索步长,基于袋外得分对此时的误差进行评估,当袋外得分最高时结束本轮搜索;
根据上轮搜索确定下轮搜索范围,重复搜索过程,直至步长为1,袋外得分取到最高值时结束搜索。
在其中一个实施例中,所述基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器之后还包括:
基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估;若评估不通过,重新对所述随机森林回归器进行超参数调优处理直至评估通过。
在其中一个实施例中,所述基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估包括:
若所述超参数调优后的随机森林回归器的对称平均百分比误差超过预设的对称平均百分比误差阈值和/或所述超参数调优后的随机森林回归器的袋外得分超过预设的袋外得分阈值,则对所述超参数调优后的随机森林回归器的评估为不通过;否则,对所述超参数调优后的随机森林回归器的评估为通过。
第二方面,本申请还提供了一种基于随机森林的用户信用积分预测装置。
所述装置包括:
获取模块,用于获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
预测模块,用于基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
上述基于随机森林的用户信用积分预测方法、装置、计算机设备、存储介质和计算机程序产品,获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;其中,超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测,实现了对于待预测用户的信用积分的高效预测。
附图说明
图1为一个实施例中基于随机森林的用户信用积分预测方法的应用环境图;
图2为一个实施例中基于随机森林的用户信用积分预测方法的流程示意图;
图3为一个实施例中基于随机森林模型对用户信用积分预测步骤的流程示意图;
图4为一个实施例中随机森林模型网格搜索进行的流程示意图;
图5为一个实施例中基于随机森林的用户信用积分预测装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的基于随机森林的用户信用积分预测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于随机森林的用户信用积分预测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
步骤204,基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
具体地,待预测用户的客户信息是用于预测待预测用户的信用积分的信息,从待预测用户的客户信息中获取对应的特征,具体包括:对待预测用户的客户信息进行预处理,筛除不符合要求的数据,获取用于进行信用积分预测的测试数据。测试数据是用于预测待预测用户的信用积分的数据,其中的特征类型和样本数据中的特征类型相同,但需要根据测试数据中的特征对待预测用户的信用积分进行预测。对待预测用户的信用积分进行预测的方法是将从测试数据中提取的特征输入至超参数调优后的随机森林回归器中,获取的输出结果即为待预测用户的的预测信用积分。对待预测用户的信用积分预测完成以后,根据预测出的信用积分按照银行既存客户信用评级系统对待预测用户进行信用评级,并将相关结果本地化保存。
上述基于随机森林的用户信用积分预测方法中,获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;其中,超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测,实现了对于待预测用户的信用积分的高效预测。
在一个实施例中,所述超参数调优后的随机森林回归器通过以下方法获取:
获取样本用户的客户信息,对样本用户的客户信息进行预处理,删除其中缺失值数量超过预设阈值的客户信息以及缺少信用积分的用户信息;
对预处理后的样本用户的客户信息中的离散值字段进行哑变量编码处理,对预处理后的样本用户的客户信息中的定量特征进行二值化处理,获取处理完成后的样本用户的客户信息作为样本数据;
根据所述样本数据获取预设数量的特征以及所述预设数量的特征对应的标签,基于所述预设数量的特征以及预设数量的特征对应的标签构建随机森林回归器;
基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器。
具体地,获取样本用户在预设时间范围内的客户信息作为样本数据,例如获取待预测用户在一年内的前十个月的统计数据作为样本数据,根据样本数据获取预设数量的特征,特征用户训练随机森林回归器,样本数据中除了特征以外还包括对应的标签,即待预测用户的信用积分值。在获取样本用户在预设时间范围内的客户信息时,根据具体需要还可对统计数据进行预处理,包括删除缺失值数量超过预设阈值的统计数据以及缺少信用积分的统计数据,对少量缺失特征使用众数填充,对预处理后的统计数据中的离散值字段进行哑变量编码处理,对预处理后的统计数据中的定量特征进行二值化处理,获取处理完成后的统计数据作为样本数据。还可设置日期基值,并将数据集日期与该基值进行减法运算,以方便之后时间的运算以及后续可视化,该基值理应在数据集所有日期之前。
构建随机森林回归器时,随机森林回归器是由多个二叉决策树作为基学习器组成的集成算法,其用数学表达式可以表达为:
{h(x,Θk),k=1,2,3...}
其中,Θk为相互独立且同分布的随机变量,它决定着自助训练集的随机抽取和候选分裂属性的随机选择,即是决定着决策树的生成。其具体构造过程可以被描述为从大小为N的训练数据集L中有放回地抽取N个训练样本,得到一个自助采样的训练集Lk,以Lk为训练集,创建决策树Tk,从M个特征属性中选择m个作为候选分裂属性,根据MSE方法评估并从m个特征中选择一个进行分裂,重复上述过程,获取随机森林回归器。基于改进的网格搜索对随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器。
图3为一个实施例中基于随机森林模型对用户信用积分预测步骤的流程示意图,如图3所示,首先从已有客户信息数据库中读取客户基本信息且包含目前信用积分的数据,对读入数据进行数据预处理,之后对数据特征做递归消除以剔除对结果影响很小或者完全没有影响的特征,然后确定随机森林回归器的参数并开始训练,输出结果为接下来两个月内企业客户信用积分预测值。
本实施例中,通过获取样本用户在预设时间范围内的客户信息,对统计数据进行预处理,删除缺失值数量超过预设阈值的统计数据以及缺少信用积分的统计数据,并对统计数据中的离散值字段进行哑变量编码处理,对统计数据中的定量特征进行二值化处理,获取处理完成后的统计数据作为样本数据,实现了对于统计数据的预处理,提高了获取的样本数据的准确率,并能进一步提高对信用积分预测的准确率。
在一个实施例中,所述根据所述样本数据获取预设数量的特征包括:
获取所述样本数据中特征的数量,判断所述样本数据中特征的数量是否达到预设的特征数量阈值;
若所述样本数据中特征的数量小于或等于预设的特征数量阈值,不进行特征选择;
若所述样本数据中特征的数量大于预设的特征数量阈值,基于卡方假设进行特征选择,获取选择后的预设数量的特征。
具体地,获取样本数据中特征的数量,判断样本数据中特征的数量是否满足达到预设的特征数量阈值,低于该特征数量阈值时不需要做特征选择,高于此特征数量阈值时需要进行特征工程环节。若样本数据中特征的数量小于或等于预设的特征数量阈值,不进行特征选择。若样本数据中特征的数量大于预设的特征数量阈值,基于卡方假设进行特征选择,获取选择后的预设数量的特征,基于卡方假设进行特征选择时,通过计算各个特征的卡方分数来进行特征的选择,卡方假设计算公式如下:
其中,A为真实值,E为期望值。卡方越高,两个变量的相关性就越高,所以应设计函数选择卡方值较大的特征,特征数量值达到之前设置的特征数量阈值为止。
本实施例中,获取样本数据中特征的数量,判断样本数据中特征的数量是否满足达到预设的特征数量阈值,当样本数据中特征的数量小于或等于预设的特征数量阈值时,不进行特征选择。当样本数据中特征的数量大于预设的特征数量阈值时,基于卡方假设进行特征选择,获取选择后的预设数量的特征,实现了对于特征的选择,能够对特征的选择,提高了模型训练的效率和精度。
在一个实施例中,所述基于改进的网格搜索对所述随机森林回归器进行超参数调优处理包括:
获取所述随机森林回归器中需要进行调优处理的超参数数量作为进行网格搜索的次数;
分别设置超参数调整范围和搜索步长,基于袋外得分对此时的误差进行评估,当袋外得分最高时结束本轮搜索;
根据上轮搜索确定下轮搜索范围,重复搜索过程,直至步长为1,袋外得分取到最高值时结束搜索。
具体地,获取随机森林回归器中需要进行调优处理的超参数数量作为进行网格搜索的次数,例如随机森林模型涉及的超参数仅为随机森林基学习器个数、基学习器最大深度和基学习器选择最大数据特征数时,本模型需要调整3个超参数,则此时的网格搜索的次数n为3;分别设置超参数调整范围和搜索步长,基于袋外得分对此时的误差进行评估,当袋外得分最高时结束本轮搜索;分别设置超参数调整范围以及搜索步长,以调整基学习器数量为例,假设基学习器的调整范围设置为(100,500),那么步长则应该是该范围中基学习器的数量降低一个数量级,此时应为10,应注意,调整某个超参数时其他超参数应保持不变。利用袋外得分对此时误差进行评估,当袋外得分最高时时结束本轮搜索。根据上轮搜索确定下轮搜索范围,重复搜索过程,直至步长为1,袋外得分取到最优值时结束搜索,即根据上轮搜索确定下轮搜索范围,其范围应为(上轮返回值-上轮步长,上轮返回值+上轮步长),重复上述过程,直至步长为1,取到最优值结束搜索。
图4为一个实施例中随机森林模型网格搜索进行的流程示意图,如图4所示,通过事先设定超参数阈值范围,并在此范围内通过n层网格搜索进行参数的选择,n为程序运行过程中根据数据集特征数量所得出,根据需要确定的超参数个数确定需要重复进行网格搜索的次数,直至所有超参数都得到确定。
本实施例中,获取随机森林回归器中需要进行调优处理的超参数数量作为进行网格搜索的次数,分别设置超参数调整范围和搜索步长,基于袋外得分对此时的误差进行评估,当袋外得分最高时结束本轮搜索,根据上轮搜索确定下轮搜索范围,重复搜索过程,直至步长为1,袋外得分取到最优值时结束搜索,实现了基于改进的网格搜索对随机森林回归器进行超参数调优处理,提高了随机森林回归器的预测准确率和预测效率。
在一个实施例中,所述基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器之后还包括:
基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估;若评估不通过,重新对所述随机森林回归器进行超参数调优处理直至评估通过。
具体地,基于对称平均百分比误差与袋外得分对超参数调优后的随机森林回归器模型效果进行评估;袋外得分是构造随机森林时总会有部分数据不被选入的样本的预测准确率,对称平均百分比误差的计算公式如下:
其中,SMAPE是对称平均百分比误差,表示预测值,yi表示真实值。选用SMAPE作为评估指标是因为其能够对MAPE做出修正,避免因为真实值太小而导致误差率变大的情况。若评估不通过,重新对随机森林回归器进行超参数调优处理直至评估通过。
本实施例中,基于对称平均百分比误差与袋外得分对超参数调优后的随机森林回归器模型效果进行评估;当评估不通过时,重新对随机森林回归器进行超参数调优处理直至评估通过。实现了对超参数调优后的随机森林回归器模型的效果评估,提高了模型的预测精确率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的基于随机森林的用户信用积分预测方法的基于随机森林的用户信用积分预测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于随机森林的用户信用积分预测装置实施例中的具体限定可以参见上文中对于基于随机森林的用户信用积分预测方法的限定,在此不再赘述。
在一个实施例中,所述基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估包括:
若所述超参数调优后的随机森林回归器的对称平均百分比误差超过预设的对称平均百分比误差阈值和/或所述超参数调优后的随机森林回归器的袋外得分超过预设的袋外得分阈值,则对所述超参数调优后的随机森林回归器的评估为不通过;否则,对所述超参数调优后的随机森林回归器的评估为通过。
具体地,基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估具体包括三种情形,分别包括:当超参数调优后的随机森林回归器的对称平均百分比误差超过预设的对称平均百分比误差阈值时,超参数调优后的随机森林回归器的评估为不通过;或当超参数调优后的随机森林回归器的袋外得分超过预设的袋外得分阈值时,超参数调优后的随机森林回归器的评估为不通过;或当超参数调优后的随机森林回归器的对称平均百分比误差超过预设的对称平均百分比误差阈值且超参数调优后的随机森林回归器的袋外得分超过预设的袋外得分阈值时,超参数调优后的随机森林回归器的评估为不通过。
本实施例中,通过判断超参数调优后的随机森林回归器的对称平均百分比误差是否超过预设的对称平均百分比误差阈值和/或判断超参数调优后的随机森林回归器的袋外得分是否超过预设的袋外得分阈值,实现了对超参数调优后的随机森林回归器的评估,提高了超参数调优后的随机森林回归器的模型精度。
在一个实施例中,如图5所示,提供了一种基于随机森林的用户信用积分预测装置,包括:预测模块501和预测模块502,其中:
获取模块501,用于获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
预测模块502,用于基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
在一个实施例中,所述获取模块501还用于:获取样本用户的客户信息,对样本用户的客户信息进行预处理,删除其中缺失值数量超过预设阈值的客户信息以及缺少信用积分的用户信息;对预处理后的样本用户的客户信息中的离散值字段进行哑变量编码处理,对预处理后的样本用户的客户信息中的定量特征进行二值化处理,获取处理完成后的样本用户的客户信息作为样本数据;根据所述样本数据获取预设数量的特征以及所述预设数量的特征对应的标签,基于所述预设数量的特征以及预设数量的特征对应的标签构建随机森林回归器;基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器。
在一个实施例中,所述获取模块501还用于:获取所述样本数据中特征的数量,判断所述样本数据中特征的数量是否达到预设的特征数量阈值;若所述样本数据中特征的数量小于或等于预设的特征数量阈值,不进行特征选择;若所述样本数据中特征的数量大于预设的特征数量阈值,基于卡方假设进行特征选择,获取选择后的预设数量的特征。
在一个实施例中,所述获取模块501还用于:获取所述随机森林回归器中需要进行调优处理的超参数数量作为进行网格搜索的次数;分别设置超参数调整范围和搜索步长,基于袋外得分对此时的误差进行评估,当袋外得分最高时结束本轮搜索;根据上轮搜索确定下轮搜索范围,重复搜索过程,直至步长为1,袋外得分取到最高值时结束搜索。
在一个实施例中,所述获取模块501还用于:基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估;若评估不通过,重新对所述随机森林回归器进行超参数调优处理直至评估通过。
在一个实施例中,所述获取模块501还用于:若所述超参数调优后的随机森林回归器的对称平均百分比误差超过预设的对称平均百分比误差阈值和/或所述超参数调优后的随机森林回归器的袋外得分超过预设的袋外得分阈值,则对所述超参数调优后的随机森林回归器的评估为不通过;否则,对所述超参数调优后的随机森林回归器的评估为通过。
上述基于随机森林的用户信用积分预测装置,获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;其中,超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测,实现了对于待预测用户的信用积分的高效预测。
上述基于随机森林的用户信用积分预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于随机森林的用户信用积分预测方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取样本用户的客户信息,对样本用户的客户信息进行预处理,删除其中缺失值数量超过预设阈值的客户信息以及缺少信用积分的用户信息;对预处理后的样本用户的客户信息中的离散值字段进行哑变量编码处理,对预处理后的样本用户的客户信息中的定量特征进行二值化处理,获取处理完成后的样本用户的客户信息作为样本数据;根据所述样本数据获取预设数量的特征以及所述预设数量的特征对应的标签,基于所述预设数量的特征以及预设数量的特征对应的标签构建随机森林回归器;基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取所述样本数据中特征的数量,判断所述样本数据中特征的数量是否达到预设的特征数量阈值;若所述样本数据中特征的数量小于或等于预设的特征数量阈值,不进行特征选择;若所述样本数据中特征的数量大于预设的特征数量阈值,基于卡方假设进行特征选择,获取选择后的预设数量的特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取所述随机森林回归器中需要进行调优处理的超参数数量作为进行网格搜索的次数;分别设置超参数调整范围和搜索步长,基于袋外得分对此时的误差进行评估,当袋外得分最高时结束本轮搜索;根据上轮搜索确定下轮搜索范围,重复搜索过程,直至步长为1,袋外得分取到最高值时结束搜索。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估;若评估不通过,重新对所述随机森林回归器进行超参数调优处理直至评估通过。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若所述超参数调优后的随机森林回归器的对称平均百分比误差超过预设的对称平均百分比误差阈值和/或所述超参数调优后的随机森林回归器的袋外得分超过预设的袋外得分阈值,则对所述超参数调优后的随机森林回归器的评估为不通过;否则,对所述超参数调优后的随机森林回归器的评估为通过。
上述计算机设备,获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;其中,超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测,实现了对于待预测用户的信用积分的高效预测。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取样本用户的客户信息,对样本用户的客户信息进行预处理,删除其中缺失值数量超过预设阈值的客户信息以及缺少信用积分的用户信息;对预处理后的样本用户的客户信息中的离散值字段进行哑变量编码处理,对预处理后的样本用户的客户信息中的定量特征进行二值化处理,获取处理完成后的样本用户的客户信息作为样本数据;根据所述样本数据获取预设数量的特征以及所述预设数量的特征对应的标签,基于所述预设数量的特征以及预设数量的特征对应的标签构建随机森林回归器;基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取所述样本数据中特征的数量,判断所述样本数据中特征的数量是否达到预设的特征数量阈值;若所述样本数据中特征的数量小于或等于预设的特征数量阈值,不进行特征选择;若所述样本数据中特征的数量大于预设的特征数量阈值,基于卡方假设进行特征选择,获取选择后的预设数量的特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取所述随机森林回归器中需要进行调优处理的超参数数量作为进行网格搜索的次数;分别设置超参数调整范围和搜索步长,基于袋外得分对此时的误差进行评估,当袋外得分最高时结束本轮搜索;根据上轮搜索确定下轮搜索范围,重复搜索过程,直至步长为1,袋外得分取到最高值时结束搜索。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估;若评估不通过,重新对所述随机森林回归器进行超参数调优处理直至评估通过。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若所述超参数调优后的随机森林回归器的对称平均百分比误差超过预设的对称平均百分比误差阈值和/或所述超参数调优后的随机森林回归器的袋外得分超过预设的袋外得分阈值,则对所述超参数调优后的随机森林回归器的评估为不通过;否则,对所述超参数调优后的随机森林回归器的评估为通过。
上述存储介质,获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;其中,超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测,实现了对于待预测用户的信用积分的高效预测。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取样本用户的客户信息,对样本用户的客户信息进行预处理,删除其中缺失值数量超过预设阈值的客户信息以及缺少信用积分的用户信息;对预处理后的样本用户的客户信息中的离散值字段进行哑变量编码处理,对预处理后的样本用户的客户信息中的定量特征进行二值化处理,获取处理完成后的样本用户的客户信息作为样本数据;根据所述样本数据获取预设数量的特征以及所述预设数量的特征对应的标签,基于所述预设数量的特征以及预设数量的特征对应的标签构建随机森林回归器;基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取所述样本数据中特征的数量,判断所述样本数据中特征的数量是否达到预设的特征数量阈值;若所述样本数据中特征的数量小于或等于预设的特征数量阈值,不进行特征选择;若所述样本数据中特征的数量大于预设的特征数量阈值,基于卡方假设进行特征选择,获取选择后的预设数量的特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取所述随机森林回归器中需要进行调优处理的超参数数量作为进行网格搜索的次数;分别设置超参数调整范围和搜索步长,基于袋外得分对此时的误差进行评估,当袋外得分最高时结束本轮搜索;根据上轮搜索确定下轮搜索范围,重复搜索过程,直至步长为1,袋外得分取到最高值时结束搜索。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估;若评估不通过,重新对所述随机森林回归器进行超参数调优处理直至评估通过。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若所述超参数调优后的随机森林回归器的对称平均百分比误差超过预设的对称平均百分比误差阈值和/或所述超参数调优后的随机森林回归器的袋外得分超过预设的袋外得分阈值,则对所述超参数调优后的随机森林回归器的评估为不通过;否则,对所述超参数调优后的随机森林回归器的评估为通过。
上述计算机程序产品,获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;其中,超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测,实现了对于待预测用户的信用积分的高效预测。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于随机森林的用户信用积分预测方法,其特征在于,所述方法包括:
获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
2.根据权利要求1所述的方法,其特征在于,所述超参数调优后的随机森林回归器通过以下方法获取:
获取样本用户的客户信息,对样本用户的客户信息进行预处理,删除其中缺失值数量超过预设阈值的客户信息以及缺少信用积分的用户信息;
对预处理后的样本用户的客户信息中的离散值字段进行哑变量编码处理,对预处理后的样本用户的客户信息中的定量特征进行二值化处理,获取处理完成后的样本用户的客户信息作为样本数据;
根据所述样本数据获取预设数量的特征以及所述预设数量的特征对应的标签,基于所述预设数量的特征以及预设数量的特征对应的标签构建随机森林回归器;
基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器。
3.根据权利要求2所述的方法,其特征在于,所述根据所述样本数据获取预设数量的特征包括:
获取所述样本数据中特征的数量,判断所述样本数据中特征的数量是否达到预设的特征数量阈值;
若所述样本数据中特征的数量小于或等于预设的特征数量阈值,不进行特征选择;
若所述样本数据中特征的数量大于预设的特征数量阈值,基于卡方假设进行特征选择,获取选择后的预设数量的特征。
4.根据权利要求2所述的方法,其特征在于,所述基于改进的网格搜索对所述随机森林回归器进行超参数调优处理包括:
获取所述随机森林回归器中需要进行调优处理的超参数数量作为进行网格搜索的次数;
分别设置超参数调整范围和搜索步长,基于袋外得分对此时的误差进行评估,当袋外得分最高时结束本轮搜索;
根据上轮搜索确定下轮搜索范围,重复搜索过程,直至步长为1,袋外得分取到最高值时结束搜索。
5.根据权利要求1所述的方法,其特征在于,所述基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器之后还包括:
基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估;若评估不通过,重新对所述随机森林回归器进行超参数调优处理直至评估通过。
6.根据权利要求5所述的方法,其特征在于,所述基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估包括:
若所述超参数调优后的随机森林回归器的对称平均百分比误差超过预设的对称平均百分比误差阈值和/或所述超参数调优后的随机森林回归器的袋外得分超过预设的袋外得分阈值,则对所述超参数调优后的随机森林回归器的评估为不通过;否则,对所述超参数调优后的随机森林回归器的评估为通过。
7.一种基于随机森林的用户信用积分预测装置,其特征在于,所述装置包括:
获取模块,用于获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
预测模块,用于基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210382917.7A CN114648406A (zh) | 2022-04-13 | 2022-04-13 | 基于随机森林的用户信用积分预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210382917.7A CN114648406A (zh) | 2022-04-13 | 2022-04-13 | 基于随机森林的用户信用积分预测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114648406A true CN114648406A (zh) | 2022-06-21 |
Family
ID=81997281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210382917.7A Pending CN114648406A (zh) | 2022-04-13 | 2022-04-13 | 基于随机森林的用户信用积分预测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114648406A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116957657A (zh) * | 2023-06-26 | 2023-10-27 | 北京信大融金教育科技有限公司 | 基于运营模型的银行积分处理方法、装置、设备及介质 |
-
2022
- 2022-04-13 CN CN202210382917.7A patent/CN114648406A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116957657A (zh) * | 2023-06-26 | 2023-10-27 | 北京信大融金教育科技有限公司 | 基于运营模型的银行积分处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108475393A (zh) | 通过合成特征和梯度提升决策树进行预测的系统和方法 | |
Shukla et al. | Comparative analysis of ml algorithms & stream lit web application | |
CN112232833A (zh) | 流失会员客群数据预测方法、模型训练方法及装置 | |
CN114463036A (zh) | 一种信息处理方法及装置、存储介质 | |
Nalić et al. | Importance of data pre-processing in credit scoring models based on data mining approaches | |
CN112529319A (zh) | 基于多维特征的评分方法、装置、计算机设备及存储介质 | |
CN115630221A (zh) | 终端应用界面展示数据处理方法、装置及计算机设备 | |
CN114648406A (zh) | 基于随机森林的用户信用积分预测方法和装置 | |
CN113744042A (zh) | 基于优化Boruta和XGBoost的信贷违约预测方法及系统 | |
CN117408736A (zh) | 基于改进的Stacking融合算法的企业资金需求挖掘方法和介质 | |
CN115511562A (zh) | 虚拟产品推荐方法、装置、计算机设备和存储介质 | |
CN114529399A (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN114998001A (zh) | 业务类别识别方法、装置、设备、存储介质和程序产品 | |
CN115204984A (zh) | 业务产品推送方法、装置、计算机设备和存储介质 | |
CN114219184A (zh) | 产品交易数据预测方法、装置、设备、介质和程序产品 | |
CN114495137A (zh) | 票据异常检测模型生成方法与票据异常检测方法 | |
CN114596118A (zh) | 预测模型训练方法、装置、计算机设备和存储介质 | |
CN112884028A (zh) | 一种系统资源调整方法、装置及设备 | |
KR101982636B1 (ko) | 기업실적 예측모델 생성 방법 및 장치 | |
Lai et al. | Attribute‐Associated Neuron Modeling and Missing Value Imputation for Incomplete Data | |
Liu et al. | A comparison of machine learning algorithms for prediction of past due service in commercial credit | |
CN114676167B (zh) | 用户存留模型的训练方法、用户存留预测方法和装置 | |
CN107451662A (zh) | 优化样本向量的方法及装置、计算机设备 | |
CN115375454A (zh) | 用户数据处理方法、装置、计算机设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |