CN109496322A

CN109496322A - 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置

Info

Publication number: CN109496322A
Application number: CN201780039489.5A
Authority: CN
Inventors: 赵敏; 林磊
Original assignee: Shenzhen Lexin Software Technology Co Ltd
Current assignee: Shenzhen Lexin Software Technology Co Ltd
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2019-03-19
Anticipated expiration: 2037-09-28
Also published as: WO2019061187A1; CN109496322B

Abstract

信用评价方法和装置以及梯度渐进决策树参数调整方法和装置，该信用评价方法可以包括：将第一样本数据分别输入至少两个梯度渐进决策树GBDT模型中，得到第一信用逾期概率集，所述第一样本数据为第一用户集的信用数据；将第二样本数据分别输入所述至少两个GBDT模型中，得到第二信用逾期概率集，所述第二样本数据为第二用户集的信用数据；所述至少两个GBDT模型的GBDT参数不同；根据所述第一信用逾期概率集和所述第二信用逾期概率集进行KS值计算，根据计算结果，从所述至少两个GBDT模型中确定目标GBDT模型；以及根据所述目标GBDT模型对用户进行信用评价。

Description

信用评价方法和装置以及梯度渐进决策树参数调整方法和装置

技术领域

本公开涉及信息处理技术领域，例如涉及一种信用评价方法和装置以及梯度渐进决策树参数调整方法和装置。

背景技术

梯度渐进决策树(Gradient Boost Decision Tree，GBDT)是一种解决分类问题和回归问题中常用的算法，优点是具备很强的拟合能力和分类能力，但是过强的拟合能力可能会在测试集上出现过拟合现象。

相关技术中，采用GBDT模型对用户进行信用评价时，通常需要手动对GBDT模型中的多个参数逐一进行调整，以使GBDT模型输出的信用逾期概率接近用户真实的信用逾期概率，但是，在GBDT参数调整过程中，往往基于人为确定的参数值对参数进行调整的，参数的精度不高，逐个参数调优的方式得到的模型不稳定，参数调整效率较低，对用户进行信用评价的准确性较低。

发明内容

本公开提供了一种信用评价方法和装置以及梯度渐进决策树参数调整方法和装置，可以实现提高GBDT模型的参数调整效率，提高GBDT模型的稳定性保证对用户进行信用评价的准确性。

一实施例提供了一种信用评价方法，可以包括：

将第一样本数据分别输入至少两个梯度渐进决策树GBDT模型中，得到第一信用逾期概率集，所述第一样本数据为第一用户集的信用数据；

将第二样本数据分别输入所述至少两个GBDT模型中，得到第二信用逾期概率集，所述第二样本数据为第二用户集的信用数据；所述至少两个GBDT模型的GBDT参数不同；

根据所述第一信用逾期概率集和所述第二信用逾期概率集进行KS值计算，根据计算结果，从所述至少两个GBDT模型中确定目标GBDT模型；以及根据所述目标GBDT模型对用户进行信用评价。

一实施例提供了一种信用评价装置，可以包括：

第一信用逾期概率获取模块，设置为将第一样本数据分别输入至少两个梯度渐进决策树GBDT模型中，得到第一信用逾期概率集，所述第一样本数据为第一用户集的信用数据；

第二信用逾期概率获取模块，设置为将第二样本数据分别输入所述至少两个GBDT模型中，得到第二信用逾期概率集，所述第二样本数据为第二用户集的信用数据；所述至少两个GBDT模型的GBDT参数不同；

模型确定模块，设置为根据所述第一信用逾期概率集和所述第二信用逾期概率集进行KS值计算，根据计算结果，从所述至少两个GBDT模型中确定目标GBDT模型；以及评价模块，设置为根据所述目标GBDT模型对用户进行信用评价。

一实施例提供了一种梯度渐进决策树参数调整方法，可以包括：

依据梯度渐进决策树中调节参数的数目以及每个参数对应的取值范围确定粒子群优化算法的定义域维度以及定义域范围；

设定所述粒子群优化算法的初始参数，根据所述粒子群优化算法、所述定义域维度以及所述定义域范围得到粒子群中每个粒子的轨迹最优点；依据所述轨迹最优点确定梯度渐进决策树的参数值。

一实施例提供了一种梯度渐进决策树参数调整装置，包括：

映射模块，设置为依据梯度渐进决策树中调节参数的数目以及每个参数对应的取值范围确定粒子群优化算法的定义域维度以及定义域范围；

轨迹最优点确定模块，设置为设定所述粒子群优化算法的初始参数，根据所述粒子群优化算法、所述定义域维度以及所述定义域范围得到粒子群中每个粒子的轨迹最优点；

参数确定模块，设置为依据所述轨迹最优点确定梯度渐进决策树的参数值。

一实施例提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任意一种方法。

一实施例还提供一种数据处理设备，该数据处理设备包括一个或多个处理器、存储器以及一个或多个程序，所述一个或多个程序存储在存储器中，当被一个或多个处理器执行时，执行上述任意一种方法。

一实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任意一种方法。

本公开可以实现提高梯度渐进决策树的参数调整效率，避免调整过程中陷入单一区域的局部最优搜索，对参数空间的搜索范围更广。

附图说明

图1a是一实施例提供的一种信用评价方法的流程示意图；

图1b是一实施例提供的一种信用评价方法的子流程示意图；

图1c是一实施例提供的一种信用评价方法的另一子流程示意图；

图2a是一实施例提供的一种信用评价的流程示意图；

图2b是一实施例提供的一种信用评价的子流程示意图；

图3是一实施例提供的一种信用评价装置的结构示意图；

图4是一实施例提供的一种梯度渐进决策树参数调整方法的流程示意图；

图5是一实施例提供的另一种梯度渐进决策树参数调整方法的流程示意图；

图6是一实施例提供的另一种梯度渐进决策树参数调整方法的流程示意图；

图7是一实施例提供的一种梯度渐进决策树参数调整装置的结构示意图；

图8是一实施例提供的数据处理设备的硬件结构示意图。

具体实施方式

图1a是一实施例提供的一种信用评价方法的流程示意图，该方法可以应用与数据处理设备中，例如计算设备，如图1a所示，该方法可以包括步骤110-步骤140。

在步骤110中，将第一样本数据分别输入至少两个梯度渐进决策树GBDT模型中，得到第一信用逾期概率集，所述第一样本数据为第一用户集的信用数据。

在步骤120中，将第二样本数据分别输入所述至少两个GBDT模型中，得到第二信用逾期概率集，所述第二样本数据为第二用户集的信用数据；所述至少两个GBDT模型的GBDT参数不同。

例如，用户的信用数据可以包括用户的履约能力、多头数据、信用时长、欠款总额及行为偏好等信息，将样本数据输入到GBDT模型后，可以得到用户的信用逾期概率。

其中，履约能力可以包括用户历史逾期记录，例如历史最大逾期天数和90天或180天内逾期次数等信息；多头数据可以包括用户在过往30天、60天、90天、120天和180天的时间内，在金融平台和非金融平台借款次数等信息；信用时长可以包括用户开户的时间长度、第一笔交易开始时间以及手机在网时长等信息；欠款总额可以包括，个人用户当前的在袋总额或者机构内部在贷总额及机构外部在贷总额；行为偏好可以包括用户网上注册时是否在多类网页浏览或者购买消费品、用户进行取现、虚拟交易或电商实物类交易的金额比例等信息。

本实施例中，第一样本数据和第二样本数据中均包括多个用户的信用数据，将第一样本数据中每一个用户的所有信用数据输入到每一个GBDT模型中，得到第一样本数据中的多个用户的信用预期概率，构成上述第一信用逾期概率集，同理，得到上述第二信用逾期概率集。

在步骤130中，根据所述第一信用逾期概率集和所述第二信用逾期概率集进行KS值计算，根据计算结果，从所述至少两个GBDT模型中确定目标GBDT模型。

可选地，如图1b所示，上述步骤130可以包括步骤1310-步骤1330。

在步骤1310中，根据所述第一信用逾期概率集以及所述第一用户集对应的第一实际信用逾期概率集进行KS值计算，得到第一KS集。

在步骤1320中，根据所述第二信用逾期概率集以及所述第二用户集对应的第二实际信用逾期概率集进行KS值计算，得到第二KS集。

例如，可以根据上述第一信用逾期概率集和所述第二信用逾期概率集，选取相应的概率阈值，根据K-S曲线的计算原理，得到第一样本数据输入每一个个GBDT模型对应的KS值，构成上述第一KS集，同理得到上述第二KS集。

在步骤1330中，对所述第一KS集和所述第二KS集进行比较计算，根据计算结果，从所述至少两个GBDT模型中确定所述目标GBDT模型。

例如，可以将第一样本确定为训练样本，将第二样本确定为测试样本，则第一KS集中的KS值可以表示为KS_train，第二KS集中的KS值可以表示为KS_test。

可选地，如图1c所示，上述步骤1330可以包括步骤1332-步骤1336。

在步骤1322中，将根据相同GBDT模型得到的所述第一KS集中的KS值与所述第二KS集中的KS值进行取最小值计算，得到第三KS集。

例如，可以通过函数min(KS_train,KS_test)，将根据同一GBDT模型计算得到的第一KS集中的KS值与第二KS集中的KS值进行取最小值计算，得到多个最小值，构成第三KS集。

在步骤1334中，对所述第三KS集中包含的KS值进行取最大值计算，得到目标KS值。

例如，将第三KS集中的多个KS值依据函数max(min(KS_train,KS_test))进行计算，得到目标的KS值，即计算出第三KS集中的KS最大值，即为目标KS值。

在步骤1336中，将所述至少两个GBDT模型中与所述目标KS值对应的GBDT模型确定为所述目标GBDT模型。

在步骤140中，根据所述目标GBDT模型对用户进行信用评价。

例如，将新输入的用户信用数据输入目标GBDT模型，得到该用户的信用逾期概率，根据该用户的信用逾期概率可以评价用户的信用情况是否良好。

可选地，如图2a所示，在上述步骤110之前，还包括步骤100。

在步骤100中，根据粒子群优化PSO算法，确定所述至少两个GBDT模型的GBDT参数。

可选地，如图2b所示，步骤100可以包括：步骤1010-步骤1050。

在步骤1010中，将GBDT模型中的参数个数映射为PSO算法的定义域维度。

在步骤1020中，将GBDT模型中每个所述参数的取值范围映射为PSO算法的定义域范围。

在步骤1030中，从所述定义域维度对应的定义域范围内抽取至少两组维度值数据，作为至少两个粒子。

在步骤1040中，通过PSO算法计算所述至少两个粒子的轨迹最优点。

其中，所述轨迹最优点是指粒子走过的轨迹中使目标函数达到最大值的点，所述目标函数为对所述第一KS集中的KS值与所述第二KS集中的KS值取最小值的函数以及

在步骤1050中，将所述至少两个粒子的轨迹最优点对应的维度值数据映射回GBDT模型中，得到至少两组GBDT参数。

其中，PSO算法属于粒子群理论，该算法中定义N维空间中的粒子xi＝(x1,x2,……，xN)，粒子在空间的飞行速度为vi＝(v1,v2,……，vN)，每个粒子都有一个目标函数决定的适应值(fitness value)，并且每个粒子都追随整个粒子群中最优粒子在空间中进行搜索，经过多次迭代找到整个空间中的最好位置。

可选地，根据所述目标GBDT模型对用户进行信用评价，包括：

将所述用户的信用数据输入所述目标GBDT模型，得到所述用户的信用逾期概率；以及将所述用户的信用逾期概率与预设信用逾期概率阈值进行比较，得到所述用户的信用评价结果。

例如，可以设定相应的信用逾期概率阈值，例如，当用户的信用逾期概率大于等于80％，确定用户信用较差；当用户的信用逾期概率小于80％，大于等于50％，确定用户信用一般；当用户的信用逾期概率小于50％，大于等于10％，确定用户信用良好，当用户的信用逾期概率小于10％，确定用户信用优秀。

图3是一实施例提供的一种信用评价装置的结构示意图，该装置可执行上述实施例提供的信用评价方法，本实施例中的模块的功能可以参考上述实施例提供的方法步骤，如图3所示，该装置可以包括：

第一信用逾期概率获取模块310，设置为将第一样本数据分别输入至少两个梯度渐进决策树GBDT模型中，得到第一信用逾期概率集，所述第一样本数据为第一用户集的信用数据；

第二信用逾期概率获取模块320，设置为将第二样本数据分别输入所述至少两个GBDT模型中，得到第二信用逾期概率集，所述第二样本数据为第二用户集的信用数据；所述至少两个GBDT模型的GBDT参数不同；

模型确定模块330，设置为根据所述第一信用逾期概率集和所述第二信用逾期概率集进行KS值计算，根据计算结果，从所述至少两个GBDT模型中确定目标GBDT模型；以及

评价模块340，设置为根据所述目标GBDT模型对用户进行信用评价。

可选地，该装置还可以包括参数确定模块300，设置为在将第一样本数据分别输入至少两个梯度渐进决策树GBDT模型中之前，根据粒子群优化PSO算法，确定所述至少两个GBDT模型的GBDT参数。

图4是一实施例提供的一种梯度渐进决策树参数调整方法的流程图，该方法可适用于在采用梯度渐进决策树进行建模或机器学习等计算时，对梯度渐进决策树中的参数调整的情况，该方法可以由计算设备如计算机来执行，也可以由梯度渐进决策树参数调整装置来执行，该梯度渐进决策树参数调整装置可采用软件和硬件中的至少一种方式实现，如图4所示，该方法可以包括步骤410-步骤430。

在步骤410中，依据梯度渐进决策树中调节参数的数目以及每个参数对应的取值范围确定粒子群优化算法的定义域维度以及定义域范围。

例如，梯度渐进决策树中的调节参数共有8个，分别为n_estimators、learning_rate、subsample、max_features、max_depth、min_samples_split、min_samples_leaf和random_state，相应的，粒子群优化算法的定义域维度为8维。

其中，n_estimators指弱学习器的最大迭代次数，n_estimators值若太小则容易欠拟合，n_estimators值太大又容易过拟合，对n_estimators值的大小进行调节选择一个适中的值，n_estimators的取值范围可定义为[1,1000]。learning_rate指每个弱学习器的权重缩减系数，也称作步长，对于同样的训练集拟合效果，较小的步长表示需要更多的弱学习器的迭代次数，learning_rate的取值范围可定义为(0,1)。subsample指子采样，取值范围为(0,1)。max_features指最大特征数比例，取值范围可设定为(0,1)。max_depth指决策树的最大深度，其取值范围可以是(0,10)中的任一整数。min_samples_split指内部节点划分所需最小样本数，该值限制了子树继续划分的条件，如果某一节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分，min_samples_split的取值范围可设定为[1,1000]。min_samples_leaf指叶子节点的最少样本数，如果叶子节点数目小于上述最少样本数，则叶子节点会和兄弟节点一起被剪枝，当样本量不大时，该值起到的作用较小，当样本量数量级非常大，则适应性的调高该值。random_state参数用于随机划分训练样本(即建模样本)和测试样本，取值范围可定义为[1,1000]。

将上述参数以及对应的取值范围映射到粒子群算法的定义域中，得到粒子群优化算法的定义域维度以及定义域范围。其中，粒子群优化算法(Particle SwarmOptimization，PSO)为一种基于种群的随机优化算法，该算法可以模仿昆虫、兽群、鸟群和鱼群等的群集行为，这些群体按照一种合作的方式寻找食物，群体中的每个成员通过学习自身的经验和其他成员的经验来不断改变其搜索模式。本实施例中选择粒子群优化算法进行决策树参数的调整为例进行说明，还可以使用其它随机优化算法进行决策树参数的调整。

在步骤420中，设定所述粒子群优化算法的初始参数，根据所述粒子群优化算法、所述定义域维度以及所述定义域范围，得到粒子群中每个粒子的轨迹最优点。

其中，粒子群优化算法的初始参数可以设置为(ω，φ₁，φ₂)，其中，ω为冲量项，取值在(0,1)之间(可定义为0.5)，φ₁大小可自定义，如定义为0.5，φ₂大小为PSO的设定参数，可定义为0.5，指定粒子种群的数量(popsize)为100，对此100个粒子的速度和位置进行随机赋值，通过粒子的当前位置以及当前速度进行粒子位置的更新，根据目标函数的值更新粒子的速度。例如，PSO算法根据每个粒子曾经走过的轨迹最优点以及100个粒子中全局轨道最优点结合当前粒子的速度来对粒子的下一速度和下一的位置进行更新，公式如下：

x_i+1＝x_i+ν_i+1

其中，ν_i+1表示粒子的下一速度，ν_i代表粒子的当前速度，ω为冲量项，U(0,φ₁)为均匀分布在(0,φ₁)之间的随机数，U(0,φ₂)为均匀分布在(0,φ₂)之间的随机数，为该粒子的轨迹最优点，代表粒子曾经走过的使目标函数达到最大值的点，为全局最优点，即所有粒子走过的点中使目标函数达到最大值的点，x_i表示粒子的当前位置，x_i+1表示粒子的下一位置。

可选地，将通过PSO算法计算得到的100个粒子中每个粒子的轨迹最优点进行记录。

在步骤430中，依据所述轨迹最优点确定梯度渐进决策树的参数值。

依据记录的粒子的轨迹最优点来确定得到最终梯度渐进决策树的参数值。其中，目标函数为训练样本的KS值和测试样本的KS值的最小值函数，即min(KS_train，KS_test)，粒子的轨迹最优点依据粒子群优化算法最大化目标函数得到，即根据max(min(KS_test，KS_train))函数得到。

其中，依据所述轨迹最优点以及对应的目标函数的值的大小确定梯度渐进决策树的参数值，所述目标函数为训练样本KS值和测试样本的KS值的最小值函数。其中，KS值是在模型中用于区分预测正负样本分隔程度的评价指标，KS值的取值范围是[0,1]，表示模型的分隔能力。

本实施例中的GBDT模型可以作为信用评分模型，样本数据可以为用户的信用信息，如用户的履约能力、多头数据、信用时长、欠款总额及行为偏好等信息，将样本数据输入到GBDT模型后，可以得到用户的信用逾期概率。本实施例中调整梯度渐进决策树参数的过程可以包括步骤11-步骤18：

在步骤11中，根据GBDT中的参数个数及每个参数的取值范围，映射到PSO算法的定义域中，得到PSO算法的定义域维度以及定义域范围。

在步骤12中，可以在PSO算法的定义域维度以及定义域范围随机抽取100组数据，即上述100个粒子。

在步骤13中，可以根据上述抽取的100个粒子的轨迹最优点，及全局轨迹最优点，依据上述公式(1)进行计算，并更新每个粒子下一步的位置，直至根据每个粒子的适应值(fitness value)比较确定出每个粒子的轨迹最优点。

例如，上述粒子可以为:

[n_estimators,learning_rate,subsample,max_features,max_depth,min_samples_s plit,min_samples_leaf,random_state]，更新粒子的位置可以理解为，上一步该粒子的位置为：[50，0.1，0.8，0.7，5，900，500，70]，根据PSO的公式可以将该粒子的位置更新到另一个位置为：[52，0.096，0.73，0.65，4，903，495，69]。

在步骤14中，根据上述100个粒子的轨迹最优点对应的维度值，映射回GBDT中，得到对应的100组GBDT参数取值。

在S15中，将上述得到的100组GBDT参数，逐组带入用于进行信用卡评分的GBDT模型中，并分别代入训练样本数据和测试样本数据，得到相应用户的信用逾期概率值。

在步骤16中，根据用户的真实信用逾期概率和根据GBDT模型得到的信用逾期概率，对每组用户的信用逾期概率值进行KS值计算，得到训练样本数据的100个KS值(即KS-test)和测试样本数据的100个KS值(即KS-train)。

在步骤17中，根据max(min(KS-train，KS-test)),得到目标KS-test值。

其中，KS-train是根据训练样本数据计算得到的KS值，KS-test为根据测试样本数据计算得到的KS值，对于一组GBDT的参数，对应一个KS-train值和一个KS-test值，本实施例在PSO算法中设置了100组粒子，因而就有100组GBDT参数，对应100个KS-train和100个KS-test值，将每组GBDT参数对应的KS-train和KS-test，根据max(min(KS-train，KS-test))进行比较计算，从而得到目标KS-test值。

例如，对100组GBDT参数对应的KS-train和KS-test，根据min(KS-train，KS-test)进行比较，得到100个较小的KS值，从100个较小的KS值中选择最大的KS值，从而得到目标KS-test值。

在步骤18中，采用目标KS-test值对应的目标GBDT模型对用户进行信用评价。

例如，将目标KS-test对应的GBDT参数值作为GBDT模型的参数值，得到目标GBDT模型，将新用户的信用信息输入到目标GBDT模型中，得到该新用户的信用逾期概率，可以设定逾期概率阈值，当用户的信用逾期概率达到该概率阈值时，则该用户的信用较低。也可以设定多个信用逾期概率范围及对应的信用等级。

在本实施例中，选取目标函数值为最大的值时的轨迹最优点对应的参数值作为决策树的参数值，由此可以最大化训练样本的KS值和测试样本的KS值。选择的目标函数是最大化min(KS_train，KS_test)可以有效防止测试样本KS高于训练样本KS，而且可以很好地使训练和测试样本的KS值接近，由此得到泛化能力较强的模型。

可选地，对原始数据集进行分类，划分为训练样本和测试样本，其中，原始数据集可以为预测信用逾期概率的建模样本数据。

定义PSO算法中的popsize＝100，generation＝100，＝0.5，＝0.5，＝0.5，运算得到轨迹最优点集合中目标函数值(fitness value)最大的轨迹最优点对应的参数值如下(其中fitness value为0.44368566870386)：

n_estimators＝89.9755412363669，learning_rate＝0.255267311338214，Subsample＝0.861905071771738，max_features＝0.786393083477439，max_depth＝5.51493470652752，min_samples_split＝788.538534238246，min_samples_leaf＝318.682482373024，random_state＝678.303928724576。

将轨迹最优点对应的上述参数映射回决策树参数时，对需要取整的参数进行自动取整，如参数n_estimators取值必须为整数，则相应的，对参数值进行向下取整，得到结果为89。

相关技术在进行决策树的参数调整时无法进行进行全局搜索，所调整参数的精度不高，而手动调参需要不断的人工设定梯度决策树的参数值，再根据结果逐个进行多次调整。本实施例提供了一种梯度渐进决策树参数调整方法，能够避免陷入单一区域的局部最优搜索，无需人工确定参数的取值及进行参数的逐一测试，通过本实施例提供的GBDT的参数值调整方法比手动调参在测试样本上的KS值更高，得到的模型更加稳定。

图5是一实施例提供的另一种梯度渐进决策树参数调整方法的流程图，如图5所示，本实施例提供的方法可以包括步骤510-步骤530。

在步骤510中，依据梯度渐进决策树中调节参数的数目以及每个参数对应的取值范围确定粒子群优化算法的定义域维度以及定义域范围。

在步骤520中，设定所述粒子群优化算法的初始参数，根据所述粒子群优化算法、所述定义域维度以及所述定义域范围得到粒子群中每个粒子的轨迹最优点。

在步骤530中，依据所述轨迹最优点确定对应的周边点，依据所述周边点对应的目标函数的值的大小确定梯度渐进决策树的参数值。

其中，轨迹最优点的周边点以所述轨迹最优点为起始点依据爬山(HillClimbing)算法得到，所述目标函数为训练样本和测试样本的KS值的最小值函数，例如，轨迹最优点的周边点由爬山算法最大化目标函数(即max(min(KS_test，KS_train)))得到，使得确定出的梯度渐进决策树的参数更优。爬山算法是一种局部择优的方法，采用启发式方法，是对深度优先搜索的一种改进，该算法利用反馈信息生成解的决策。由于本实施例中轨迹最优点的周边点中可能存在更优的轨迹点，故采用爬山算法进行运算以找到比轨迹最优点更优的周边点。

例如，定义爬山算法中8个参数的步长，可以是如下所示的步长：

n_estimators步长为1，learning_rate步长为0.01，Subsample步长为0.01，max_features步长为0.01，max_depth步长为1，min_samples_split步长为20，min_samples_leaf步长为20，random_state步长为1。

根据上述定义的步长，逐个测试轨迹最优点的周边点，测试过程中，找到目标函数值上升最大点的为下一步的起始点，如果不存在目标函数值增长的点则停止运算，停止运算时对应的周边点则为轨迹最优点。

本实施例提供了一种梯度渐进决策树参数调整方法，依据轨迹最优点确定对应的周边点，依据周边点对应的目标函数的值的大小确定梯度渐进决策树的参数值，改善了参数调节的结果。

例如，对同一GBDT模型，手动调参得到的KS_train值为58.19％，KS_test值为41.57％，使用PSO算法调参确定的KS_train值为45.19％，KS_test值为44.12％，使用PSO算法加爬山算法得到的KS_train值为50.37％，KS_test值为45.22％，由此可知，使用PSO算法加爬山算法确定的KS值高于采用PSO算法得到的KS值，同时采用PSO算法及采用PSO和爬山算法两种方式得到的训练样本的KS值与测试样本的KS值的差值均小于手动调参得到的训练样本的KS值与测试样本的KS值的差值。

例如，还可根据PSO算法得到的全局最优点进行爬山算法的进一步优化，对应得到的KS_train值为45.54％，KS_test值为44.46％，效果介于仅用PSO算法以及使用PSO算法结合爬山算法之间。

图6是一实施例提供的另一种梯度渐进决策树参数调整方法的流程图，如图6所示，本实施例提供的方法可以包括步骤610-步骤630。

在步骤610中，依据梯度渐进决策树中调节参数的数目以及每个参数对应的取值范围确定粒子群优化算法的定义域维度以及定义域范围。

在步骤620中，设定所述粒子群优化算法的初始参数，根据所述粒子群优化算法、所述定义域维度以及所述定义域范围得到粒子群中每个粒子的轨迹最优点。

在步骤630中，依据所述轨迹最优点确定对应的周边点，对所述周边点对应的目标函数的值的大小进行排序，选择最大的目标函数的值对应的周边点对应的参数值作为梯度渐进决策树的参数值。

可选地，对轨迹最优点的周边点对应的目标函数的值的大小进行排序，选择最大的目标函数的值对应的周边点对应的参数值作为梯度渐进决策树的参数值。通过自动排序选取排序结果中目标函数值最大的周边点对应的参数值，例如，目标函数值最大的周边点对应的参数值如下(其中fitness value为0.456814121199906)：

n_estimators＝89.944668235715，learning_rate＝0.253604654375516，subsample＝0.84938040034035，max_features＝0.791557099759923，max_depth＝5.52083587628895，min_samples_split＝785.648574406732，min_samples_leaf＝323.345684890637，random_state＝683.655366674717。

还可以仅选取轨迹最优点中目标函数值最大的点进行爬山算法得到周边点，将周边点对应的各个维度的值确定为梯度渐进决策树的参数值。

本实施例提供的梯度渐进决策树参数调整方法，可以提高了梯度渐进决策树的参数调整效率，避免了调整过程中陷入单一区域的局部最优搜索，对参数空间的搜索范围更广。

大部分银行信用卡评分模型开发框架是基于数理统计理论的，变量(即参数)要在模型中产生发挥作用，则变量与输出变量是统计显著，对数据量和变量信息强度要求很高。

相较于相关技术中的统计学方法，梯度渐进决策树在解决分类问题和回归问题时，具备更强的拟合能力和分类能力，能够更有效地利用样本数据中的弱变量信息，但是过强的拟合能力可能会在测试集上出现过拟合现象。为了克服过拟合现象，算法参数选择非常重要。目前实践中大量依赖于人工选择参数，本实例提供了自动化选择参数的方案。

图7是一实施例提供的一种梯度渐进决策树参数调整装置的结构示意图，该装置可执行上述实施例提供的梯度渐进决策树参数调整方法，具备执行方法相应的功能模块和有益效果。如图7所示，该装置可以包括：映射模块701、轨迹最优点确定模块702和参数确定模块703。

其中，映射模块701设置为依据梯度渐进决策树中调节参数的数目以及每个参数对应的取值范围确定粒子群优化算法的定义域维度以及定义域范围；

轨迹最优点确定模块702设置为设定所述粒子群优化算法的初始参数，根据所述粒子群优化算法、所述定义域维度以及所述定义域范围得到粒子群中每个粒子的轨迹最优点；

参数确定模块703设置为依据所述轨迹最优点确定梯度渐进决策树的参数值。

在本实施例中，依据梯度渐进决策树中调节参数的数目以及每个参数对应的取值范围确定粒子群优化算法的定义域维度以及定义域范围，设定所述粒子群优化算法的初始参数，根据所述粒子群优化算法、所述定义域维度以及所述定义域范围得到粒子群中每个粒子的轨迹最优点，依据所述轨迹最优点确定梯度渐进决策树的参数值，提高了梯度渐进决策树的参数调整效率，避免了调整过程中陷入单一区域的局部最优搜索，对参数空间的搜索范围更广。

可选的，所述参数确定模块703设置为：

依据所述轨迹最优点以及对应的目标函数的值的大小确定梯度渐进决策树的参数值，所述目标函数为训练样本和测试样本的KS值的最小值函数。

可选的，所述参数确定模块703设置为：

依据所述轨迹最优点确定对应的周边点，所述轨迹最优点的周边点以所述轨迹最优点为起始点依据爬山算法得到；

依据所述周边点对应的目标函数的值的大小确定梯度渐进决策树的参数值，所述目标函数为训练样本和测试样本的KS值的最小值函数。

可选的，所述参数确定模块703设置为：

对所述周边点对应的目标函数的值的大小进行排序，选择最大的目标函数的值对应的周边点对应的参数值作为梯度渐进决策树的参数值。

可选的，所述梯度渐进决策树的调节参数的数目为8，所述定义域范围为每个调节参数的最小值到最大值的区间。

一实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任意一种信用评价方法。

一实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时可以执行上述实施例提供的任意一种梯度渐进决策树参数调整方法。

上述存储介质可以是不同类型的存储器设备或存储设备。可以包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。存储介质还可以包括驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如计算机程序)。

一实施例提供一种数据处理设备，该数据处理设备可以为填补器，如图8所示，是一实施例提供的一种数据处理设备的硬件结构示意图，该数据处理设备可以包括：处理器(processor)810和存储器(memory)820；还可以包括通信接口(CommunicationsInterface)830和总线840。

其中，处理器810、存储器820和通信接口830可以通过总线840完成相互间的通信。通信接口830可以用于信息传输。处理器810可以调用存储器820中的逻辑指令，以执行上述实施例的任意一种方法。

存储器820可以包括存储程序区和存储数据区，存储程序区可以存储操作系统和至少一个功能所需的应用程序。存储数据区可以存储根据数据处理设备的使用所创建的数据等。此外，存储器可以包括，例如，随机存取存储器的易失性存储器，还可以包括非易失性存储器。例如至少一个磁盘存储器件、闪存器件或者其他非暂态固态存储器件。

此外，在上述存储器820中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，该逻辑指令可以存储在一个计算机可读取存储介质中。本公开的技术方案可以以计算机软件产品的形式体现出来，该计算机软件产品可以存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本实施例所述方法的全部或部分步骤。

上述实施例方法中的全部或部分流程，是可以通过计算机程序来指示相关的硬件完成的，该程序可存储于一个非暂态计算机可读存储介质中，该程序被执行时，可包括如上述方法的实施例的流程。

Claims

1.一种信用评价方法，包括：

根据所述第一信用逾期概率集和所述第二信用逾期概率集进行KS值计算，根据计算结果，从所述至少两个GBDT模型中确定目标GBDT模型；以及

根据所述目标GBDT模型对用户进行信用评价。

2.根据权利要求1所述的方法，其中，根据所述第一信用逾期概率集和第二信用逾期概率集进行KS值计算，根据计算结果，从所述至少两个GBDT模型中确定目标GBDT模型，包括：

根据所述第一信用逾期概率集以及所述第一用户集对应的第一实际信用逾期概率集进行KS值计算，得到第一KS集；

根据所述第二信用逾期概率集以及所述第二用户集对应的第二实际信用逾期概率集进行KS值计算，得到第二KS集；以及

对所述第一KS集和所述第二KS集进行比较计算，根据计算结果，从所述至少两个GBDT模型中确定所述目标GBDT模型。

3.根据权利要求2所述的方法，其中，对所述第一KS集和所述第二KS集进行比较计算，根据计算结果，从所述至少两个GBDT模型中确定所述目标GBDT模型，包括：

将根据相同GBDT模型得到的所述第一KS集中的KS值与所述第二KS集中的KS值进行取最小值计算，得到第三KS集；

对所述第三KS集中包含的KS值进行取最大值计算，得到目标KS值；以及

将所述至少两个GBDT模型中与所述目标KS值对应的GBDT模型确定为所述目标GBDT模型。

4.根据权利要求2所述的方法，其中，将第一样本数据分别输入至少两个梯度渐进决策树GBDT模型中之前，还包括：

根据粒子群优化PSO算法，确定所述至少两个GBDT模型的GBDT参数。

5.根据权利要求4所述的方法，其中，根据粒子群优化算法PSO算法，确定所述至少两个GBDT模型的GBDT参数，包括：

将GBDT模型中的参数个数映射为PSO算法的定义域维度；

将GBDT模型中每个所述参数的取值范围映射为PSO算法的定义域范围；

从所述定义域维度对应的定义域范围内抽取至少两组维度值数据，作为至少两个粒子；

通过PSO算法计算所述至少两个粒子的轨迹最优点；其中，所述轨迹最优点是指粒子走过的轨迹中使目标函数达到最大值的点，所述目标函数为对所述第一KS集中的KS值与所述第二KS集中的KS值取最小值的函数以及

将所述至少两个粒子的轨迹最优点对应的维度值数据映射回GBDT模型中，得到至少两组GBDT参数。

6.根据权利要求1所述的方法，其中，根据所述目标GBDT模型对用户进行信用评价，包括：

将所述用户的信用数据输入所述目标GBDT模型，得到所述用户的信用逾期概率；以及

将所述用户的信用逾期概率与预设信用逾期概率阈值进行比较，得到所述用户的信用评价结果。

7.一种信用评价装置，包括：

模型确定模块，设置为根据所述第一信用逾期概率集和所述第二信用逾期概率集进行KS值计算，根据计算结果，从所述至少两个GBDT模型中确定目标GBDT模型；以及

评价模块，设置为根据所述目标GBDT模型对用户进行信用评价。

8.一种梯度渐进决策树参数调整方法，包括：

设定所述粒子群优化算法的初始参数，根据所述粒子群优化算法、所述定义域维度以及所述定义域范围得到粒子群中每个粒子的轨迹最优点；以及

依据所述轨迹最优点确定梯度渐进决策树的参数值。

9.根据权利要求8所述的方法，其中，依据所述轨迹最优点确定梯度渐进决策树的参数值，包括：

依据所述轨迹最优点以及对应的目标函数的值的大小确定梯度渐进决策树的参数值，所述目标函数为训练样本和测试样本的柯尔莫哥洛夫-斯米尔诺夫KS值的最小值函数。

10.根据权利要求8所述的方法，其中，依据所述轨迹最优点确定梯度渐进决策树的参数值，包括：

依据所述轨迹最优点确定对应的周边点，所述轨迹最优点的周边点以所述轨迹最优点为起始点依据爬山算法得到；以及

11.根据权利要求10所述的方法，其中，依据所述周边点对应的目标函数的值的大小确定梯度渐进决策树的参数值，包括：

对所述周边点对应的目标函数的值的大小进行排序，选择目标函数的值取最大值时对应的周边点对应的参数值作为梯度渐进决策树的参数值。

12.根据权利要求8-11中任一项所述的方法，其中，所述梯度渐进决策树的调节参数的数目为8，所述定义域范围为每个调节参数的最小值到最大值的区间。

13.一种梯度渐进决策树参数调整装置，包括：

轨迹最优点确定模块，设置为设定所述粒子群优化算法的初始参数，根据所述粒子群优化算法、所述定义域维度以及所述定义域范围得到粒子群中每个粒子的轨迹最优点；以及

14.根据权利要求13所述的装置，其中，所述参数确定模块是设置为：

15.根据权利要求13所述的装置，其中，所述参数确定模块是设置为：

依据所述周边点对应的目标函数的值的大小确定梯度渐进决策树的参数，所述目标函数为训练样本和测试样本的KS值的最小值函数。

16.根据权利要求15所述的装置，其中，所述参数确定模块是设置为：

17.根据权利要求13-16中任一项所述的装置，其中，所述梯度渐进决策树的调节参数的数目为8，所述定义域范围为每个调节参数的最小值到最大值的区间。

18.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-6和权利要求8-12中任一项所述的方法。