CN116228398A

CN116228398A - 基于可解释提升机ebm的还款违约率预测算法

Info

Publication number: CN116228398A
Application number: CN202310176500.XA
Authority: CN
Inventors: 王宇轩
Original assignee: Individual
Current assignee: Individual
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-06-06

Abstract

本发明提供了一种基于可解释提升机EBM的还款违约率预测算法，包括：S1：获取对用户还款违约进行评估的评估指标与评估指标的指标输出；S2：将评估指标以及指标输出作为梯度提升树模型的自变量以及因变量，同时，根据因变量的变量属性确定基分类器；S3：将基分类器在梯度提升树模型中进行构建生成可解释提升机，并基于可解释提升机对用户还款违约率进行评估。通过构建可解释提升机可以准确实现对还款违约率进行评估的可解释性以及决策的透明性，同时，由于基于可解释提升机，从而使得每个变量有独立的打分函数，因此在进行推理过程中可以完全并行化，从而实现对还款违约率进行准确有效的评估。

Description

基于可解释提升机EBM的还款违约率预测算法

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于可解释提升机EBM的还款违约率预测算法。

背景技术

目前，梯度提升树模型(Gradient Boosting Decision Tree，GBDT)及其变体，如XGBoost和LightGBM，其有效性在零售金融领域已经在实践中被证明。金融行业是一个受到强监管的行业，任何生产上使用的模型必须具有可解释性(Explainable)。例如，对于拒绝的信用卡申请，模型需要给出原因码(Reason Code)来指导申请人如何提高申请通过概率，比如减少使用小额贷款产品的频率。GBDT类模型本身属于黑盒模型(Blackbox Model)，不具备可解释性。因此，常规方法采用模型解释算法，如ALE，SHAP，和LIME，或采用可解释的代理模型(Proxy Model)对黑盒模型进行拟合(Approximation)，以此解释黑盒模型。

虽然已有的模型解释算法在一定程度上可以缓解不可解释模型的问题，但是用于推理(Inference)的生产模型本身仍然是不可解释的，仍有可能产生非平滑预测(Non-smooth Prediction)，即，在模型输入变量缓慢小幅度变化时，模型的预测结果突然产生较大变化。例如，收入小于一千元时拒绝信用卡申请但一千零一元时突然通过申请。使用传统GBDT方法无法完全避免该情况的发生，因为我们无法得知准确的输入-输出变化关系，因此，本发明提供了一种基于可解释提升机EBM的还款违约率预测算法。

发明内容

本发明提供一种基于可解释提升机EBM的还款违约率预测算法，用以通过构建可解释提升机可以准确实现对还款违约率进行评估的可解释性以及决策的透明性，同时，由于基于可解释提升机，从而使得每个变量有独立的打分函数，因此在进行推理过程中可以完全并行化，从而实现对还款违约率进行准确有效的评估。

一种基于可解释提升机的还款违约率预测算法，包括：

S1：获取对用户还款违约进行评估的评估指标与评估指标的指标输出；

S2：将评估指标以及指标输出作为梯度提升树模型的自变量以及因变量，同时，根据因变量的变量属性确定基分类器；

S3：将基分类器在梯度提升树模型中进行构建生成可解释提升机，并基于可解释提升机对用户还款违约率进行评估。

优选的，一种基于可解释提升机的还款违约率预测算法，S1中，评估指标包括：逾期评估、逾期时间评估、欠款金额评估，指标输出包括：评估指标对应的指标输出预测值。

优选的，一种基于可解释提升机的还款违约率预测算法，S2中，将评估指标以及指标输出作为梯度提升树模型的自变量以及因变量，包括：

对评估指标进行读取，确定评估指标的指标特征，同时，根据评估指标的指标特征生成数据爬取因子；

基于数据爬取因子在物联网中爬取与评估指标一致的第一样本数据，并对第一样本数据进行过滤，生成第二样本数据，同时，设定数据追踪因子，并基于数据追踪因子对第二样本数据进行追踪，确定第二样本数据所对应的目标输出数据；

将第二样本数据作为梯度提升树模型的自变量且将目标输出数据作为梯度提升树模型的因变量。

优选的，一种基于可解释提升机的还款违约率预测算法，对第一样本数据进行过滤，包括：

对第一样本数据进行读取，确定第一样本数据的数据变化规律，同时，确定第一样本数据的数据类型；

将第一样本数据的数据变化规律作为第一过滤因子，并基于第一样本数据的数据类型作为第二过滤因子；

根据第一过滤因子对第一样本数据进行第一过滤，并基于第二过滤因子对第一样本数据进行第二过滤；

基于第一过滤与第二过滤确定第二样本数据。

优选的，一种基于可解释提升机的还款违约率预测算法，S2中，根据因变量的变量属性确定基分类器；

对指标输出进行读取，确定指标输出的输出表达，同时，将指标输出的输出表达进行数据编码；

基于编码结果确定因变量的输出原因码；

根据输出原因码确定基分类器。

优选的，一种基于可解释提升机的还款违约率预测算法，S3中，将基分类器在梯度提升树模型中进行构建生成可解释提升机，包括：

对基分类器进行读取，确定基分类器的特征信息，同时，根据基分类器的特征信息确定在梯度提升树模型的目标限制条件；

将目标限制条件在梯度提升树模型中进行构建，并根据构建结果生成可解释提升机。

优选的，一种基于可解释提升机的还款违约率预测算法，S3中，构建生成可解释提升机之后，还包括：

对可解释提升机进行读取，确定可解释提升机的结构特征，同时，基于可解释提升机的结构特征，确定可解释提升机的工作逻辑，并基于工作逻辑设定数据验证集，并确定数据验证集中每个目标数据对应的第一计算结果；

将数据验证集中每个目标数据分别输入至可解释提升机中进行计算，并在可解释提升机中输出第二计算结果；

基于第一计算结果与第二计算结果确定对可解释提升机进行学习的学习因子，并基于学习因子对可解释提升机进行学习，获得目标可解释提升机。

优选的，一种基于可解释提升机的还款违约率预测算法，基于第一计算结果与第二计算结果确定对可解释提升机的学习因子，包括：

设定数据显示窗口，并基于数据显示窗口分别对数据验证集、第一计算结果以及第二计算结果进行数据绘制，生成第一描述曲线、第二描述曲线以及第三描述曲线；

获取第一描述曲线与第二描述曲线的曲线关联特征，同时，获取第二描述曲线与第三描述曲线的波动差值；

基于曲线关联特征并结合第二描述曲线与第三描述曲线的波动差值确定对第三描述曲线进行校准的目标平衡线；

获取目标平衡线对应的平衡数据，并将平衡数据作为对可解释提升机进行学习的学习因子。

优选的，一种基于可解释提升机的还款违约率预测算法，基于学习因子对可解释提升机进行学习，获得目标可解释提升机，包括；

以学习因子为基准对可解释提升机的模型参数进行动态调整，并在每次动态调整后将数据验证集再次输入至可解释提升机中进行计算，并动态记录第三计算结果；

实时将第三计算结果与学习因子进行比较，并当第三计算结果与学习因子拟合时，完成对可解释提升机的学习。

优选的，一种基于可解释提升机的还款违约率预测算法，S3中，基于可解释提升机对用户还款违约率进行评估，包括：

获取目标用户的资金流水信息，并在目标用户的资金流水信息中摘取目标用户的多个借贷数据；

将目标用户的多个借贷数据输入至可解释提升机中对目标用户的违约状况进行计算，并在可解释提升机中的基分类器中输出每个借贷数据对应的计算结果；

将多个结果进行综合评估，并根据综合评估结果输出对应的原因码。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于可解释提升机EBM的还款违约率预测算法的流程图；

图2为本发明实施例中一种基于可解释提升机EBM的还款违约率预测算法中S2的流程图；

图3为本发明实施例中一种基于可解释提升机EBM的还款违约率预测算法中S3的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

本实施例提供了一种基于可解释提升机的还款违约率预测算法，如图1所示，包括：

该实施例中，评估指标可以是用于在评估用户还款违约时的依据，具体可以是逾期次数、逾期时间、欠款金额。

该实施例中，梯度提升树模型即Gradient Boosting Decision Tree，GBDT，其有效性在零售金融领域已经在实践中被证明，然而GBDT类模型本身属于黑盒模型(BlackboxModel)，不具备可解释性。

该实施例中，可解释提升机(Explainable Boosting Machine，EBM)是在可解释性层面上对GBDT算法的一种改进。其核心在于对GBDT算法构建基分类器(Base Classifier)，即决策树(Decision Tree)的过程添加限制。其限制为，每一个基分类器仅可使用最多两个变量。因此，自变量与因变量之间的关系函数完全由涉及该因变量的基分类器决定，而不受其他变量的影响。因此，决策过程是完全透明的。对于每一个输入自变量，模型将学习一个形状函数(Shape Function)，或打分函数。最终预测值为所有打分函数的输出的相加。

该实施例中，评估指标的指标输出可以是评估指标对应的指标输出预测值。

该实施例中，基分类器是用于在梯度提升树模型中添加的限制条件。

该实施例中，因变量的变量属性可以是对应于评估指标的指标类型所确定的，比如对欠款金额评估，则因变量的变量属性即为输出的金额值。

上述技术方案的有益效果是：通过构建可解释提升机可以准确实现对还款违约率进行评估的可解释性以及决策的透明性，同时，由于基于可解释提升机，从而使得每个变量有独立的打分函数，因此在进行推理过程中可以完全并行化，从而实现对还款违约率进行准确有效的评估。

实施例2：

在实施例1的基础上，本实施例提供了一种基于可解释提升机的还款违约率预测算法，如图2所示，S2中，将评估指标以及指标输出作为梯度提升树模型的自变量以及因变量，包括：

S201：对评估指标进行读取，确定评估指标的指标特征，同时，根据评估指标的指标特征生成数据爬取因子；

S202：基于数据爬取因子在物联网中爬取与评估指标一致的第一样本数据，并对第一样本数据进行过滤，生成第二样本数据，同时，设定数据追踪因子，并基于数据追踪因子对第二样本数据进行追踪，确定第二样本数据所对应的目标输出数据；

S203：将第二样本数据作为梯度提升树模型的自变量且将目标输出数据作为梯度提升树模型的因变量。

该实施例中，指标特征可以是评估指标对应的具体取值情况以及评估指标对应的种类等。

该实施例中，数据爬取因子可以是在网络中检索与评估指标一致的样本数据的依据，目的是为了提高在网络中检索的效率。

该实施例中，第一样本数据可以是在物联网中获取的与评估指标一致的数据。

该实施例中，第二样本数据可以是对第一样本数据进行过滤后得到的数据，是第一样本数据中的一部分。

该实施例中，数据追踪因子可以是对第二样本数据进行跟踪的条件或是依据。

该实施例中，目标输出数据可以是对第二样本数据进行跟踪后，得到第二样本数据最终的运行结果。

上述技术方案的有益效果是：通过对评估指标进行分析，便于根据评估指标的类型从物联网中获取与评估指标相一致的样本数据，并对样本数据进行处理和跟踪，实现对梯度提升树模型的自变量和因变量进行准确有效的确认，从而便于提高了对用户还款违约率预测的准确性。

实施例3：

在实施例2的基础上，本实施例提供了一种基于可解释提升机的还款违约率预测算法，对第一样本数据进行过滤，包括：

基于第一过滤与第二过滤确定第二样本数据。

该实施例中，数据变化规律指的是第一样本数据的取值变化情况以及第一样本数据之间的相互作用关系的变化情况。

该实施例中，第一过滤因子可以是对第一样本数据进行一次过滤的标准以及依据。

该实施例中，第二过滤因子可以是对第一样本数据进行二次过滤的标准以及依据。

上述技术方案的有益效果是：通过确定第一样本数据的数据变化规律，实现对第一样本数据进行第一过滤和第二过滤，从而实现通过第一样本数据对第二样本数据进行准确有效的获取，保障了对梯度提升树模型构建的准确性以及有效性。

实施例4：

在实施例1的基础上，本实施例提供了一种基于可解释提升机的还款违约率预测算法，S2中，根据因变量的变量属性确定基分类器；

基于编码结果确定因变量的输出原因码；

根据输出原因码确定基分类器。

该实施例中，输出表达可以是各评估指标对逾期贷款进行分析处理后得到的与各评估指标相对应的评估结果

该实施例中，数据编码可以是评估结果对应的编码形式。

该实施例中，输出原因码可以是基于编码结果确定的，有利于实现对还款违约率进行评估的可解释性。

上述技术方案的有益效果是：通过对评估指标进行读取，实现对评估指标的输出表达式进行准确有效的确定，其次，对评估指标的输出表达式进行分析，确定评估指标的输出原因码，从而实现对基分类器进行有效的构建以及评估结果的可解释性，从而保障了对用户的还款违约率进行有效评估，保障了对还款违约率评估有效性以及评估准确性。

实施例5：

在实施例1的基础上，本实施例提供了一种基于可解释提升机的还款违约率预测算法，如图3所示，S3中，将基分类器在梯度提升树模型中进行构建生成可解释提升机，包括：

S301：对基分类器进行读取，确定基分类器的特征信息，同时，根据基分类器的特征信息确定在梯度提升树模型的目标限制条件；

S302：将目标限制条件在梯度提升树模型中进行构建，并根据构建结果生成可解释提升机。

该实施例中，特征信息可以是基分类器对应的结构参数以及基分类器的工作性能等。

该实施例中，目标限制条件可以是通过梯度提升书模型对用户的贷款行为进行打分时，对评估规则或是打分规则添加的限定条件。

上述技术方案的有益效果是：通过确定基分类器的特征信息，并根据基分类器的特征信息确定对梯度提升树模型的目标限制条件，从而保障了通过梯度提升树模型对可解释提升机进行准确有效的构建，保障了可解释提升机构建的准确率、可解释性以及决策的透明性，实现对还款违约率进行准确有效的评估。

实施例6：

在实施例1的基础上，本实施例提供了一种基于可解释提升机的还款违约率预测算法，S3中，构建生成可解释提升机之后，还包括：

该实施例中，结构特征可以是可解释提升机的组成特点，具体是可解释提升机中各部件之间的关联关系。

该实施例中，工作逻辑可以是可解释提升机在工作过程中的工作流程，具体可以是各部件之间的工作先后顺序。

该实施例中，数据验证集是提前设定好的，用于对可解释提升机的工作性能进行检验，从而便于确保可解释提升机的工作效果。

该实施例中，目标数据可以是数据验证集中包含的不同的数据。

该实施例中，第一计算结果可以是数据验证集中包含的目标数据对应的理论结果，是提前已知的。

该实施例中，第二计算结果可以是通过数据验证集中的每个目标数据对可解释提升机进行验证后得到的验证结果。

该实施例中，学习因子可以是需要对可解释提升机进行训练和学习的标准或是依据等。

该实施例中，目标可解释提升机可以是通过第一计算结果和第二计算结果对可解释提升机进行训练后得到最终的可解释提升机。

上述技术方案的有益效果是：通过对可解释提升机进行分析，实现对可解释提升机的结构特征进行准确有效的构建，从而实现根据结构特征对可解释提升机的工作逻辑进行获取，最终实现根据工作逻辑设定对应数据验证集，从而实现对可解释提升机进行学习和训练，保障了最终得到的可解释提升机的准确可靠，为实现对还款违约率预测提供了可靠保障。

实施例7：

在实施例6的基础上，本实施例提供了一种基于可解释提升机的还款违约率预测算法，基于第一计算结果与第二计算结果确定对可解释提升机的学习因子，包括：

该实施例中，数据显示窗口是提前设定好的，用于对数据验证集、第一计算结果以及第二计算结果进行显示和处理。

该实施例中，第一描述曲线、第二描述曲线以及第三描述曲线可以分别是数据验证集、第一计算结果以及第二计算结果对应的曲线。

该实施例中，曲线关联特征可以是第一描述曲线与第二描述曲线之间的关联关系。

该实施例中，波动差值可以是第二描述曲线与第三描述曲线之间的数据差值情况。

该实施例中，目标平衡线可以是用于对第三描述曲线进行校准的标准曲线，用于表征平均取值，从而实现对第三描述曲线进行准确有效的校准。

该实施例中，平衡数据可以是目标平衡线对应的具体数据。

上述技术方案的有益效果是：通过对数据验证集、第一计算结果和第二计算结果进行曲线绘制，实现对数据验证集、第一计算结果、第二计算结果之间的相对关系进行分析，从而实现通过数据验证集与第一计算结果对第二计算结果进行准确有效的校准，从而保障了对可解释提升机的学习因子进行有效获取，保障了对可解释提升机的学习效果，提升了对还款违约率预算的准确性。

实施例8：

在实施例6的基础上，本实施例提供了一种基于可解释提升机的还款违约率预算方法，基于学习因子对可解释提升机进行学习，获得目标可解释提升机，包括；

该实施例中，动态调整可以是通过学习因子对可解释提升机得参数进行调整，从而保障通过可及时提升机对用户得还款违约率进行准确有效的预测。

该实施例中，第三计算结果可以是在对可解释提升机进行动态调整后，将数据验证集重新输入可解释提升机后得到的结果。

上述技术方案的有益效果是：通过学习因子对可解释提升机的模型参数进行动弹调整，从而保障了可解释提升机的可靠性，保障了对还款违约率的预测准确性。

实施例9：

在实施例1的基础上，本实施例提供了一种基于可解释提升机的还款违约率预算方法，S3中，基于可解释提升机对用户还款违约率进行评估，包括：

该实施例中，资金流水信息可以是用户在一定时间段内银行账户上的资金变化情况，包括收入和支出数额等。

该实施例中，借贷数据可以是在资金流水信息中包含用户贷款的数额，贷款的时间以及贷款的期限等。

该实施例中，原因码例如可以是对用户进行贷款后还款违约率进行综合评估的综合评估结果在违约程度中所占的比例，例如，违约评估满分为100，当综合评估结果的评估分值为15时，则证明用户的违约程度低；当综合评估结果的评估分值为90时，则证明用户的违约程度高。

上述技术方案的有益效果是：通过确定目标用户的资金流水信息，并通过资金流水信息确定用户的借贷情况，从而实现通过可解释提升机对目标用户的借贷数据进行分析，实现对目标用户的还款违约率进行准确有效的分析，保障了对目标用户还款违约率的计算准确率以及计算可靠率。

实施例10：

在实施例1的基础上，本实施例还包括：

获取用户的贷款次数，并记录用户每笔贷款的贷款特征值，同时，根据用户每次贷款的贷款特征值确定对用户贷款逾期的预测函数，并基于对用户贷款逾期的预测函数对用户的贷款逾期状况进行评估，并获得逾期评估分值，具体过程为；

读取用户的贷款次数，并确定每次贷款的贷款特征值，同时，根据用户的贷款次数以及每次贷款的贷款特征值，在可解释提升机中构建每个决策树对用户贷款逾期的预测函数；

其中，f(x_g)表示对用户贷款逾期的预测函数；x_g表示第g次贷款的贷款时长；

表示决策树在可解释提升机中所占的权重；h(x_g)表示决策树对第g次贷款逾期还款预测的预测值；g表示用户当前次贷款；k表示用户的贷款总次数；

且

基于用户贷款逾期的预测函数对用户的贷款逾期状况进行评估，并获得逾期评估分值；

获取逾期评估分值对用户还款违约进行评估的目标影响权重，并基于目标影响权重将逾期评估分值在可解释提升机对用户还款违约率进行评估的结果中进行叠加。

该实施例中，基于用户贷款逾期的预测函数对用户的贷款逾期状况进行评估，

该实施例中，目标影响权重可以是逾期率对用户还款违约进行评估所占的影响比重。

该实施例中，逾期评估分值可以是基于用户贷款逾期的预测函数确定对用户贷款逾期的逾期状况进行评估的分值，反应用户贷款的逾期程度，其中评估分值越大，用户贷款的逾期程度越高。

上述技术方案的有益效果是：通过获取用户的贷款次数，并记录用户每笔贷款的贷款特征值，从而有利于确定对用户贷款逾期的预测函数，进而根据预测函数评估用户的逾期评估分值，提高了对用户还款违约率进行评估全面性、准确性以及客观性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于可解释提升机的还款违约率预测算法，其特征在于，包括：

2.根据权利要求1所述的一种基于可解释提升机的还款违约率预测算法，其特征在于，S1中，评估指标包括：逾期评估、逾期时间评估、欠款金额评估，指标输出包括：评估指标对应的指标输出预测值。

3.根据权利要求1所述的一种基于可解释提升机的还款违约率预测算法，其特征在于，S2中，将评估指标以及指标输出作为梯度提升树模型的自变量以及因变量，包括：

4.根据权利要求3所述的一种基于可解释提升机的还款违约率预测算法，其特征在于，对第一样本数据进行过滤，包括：

基于第一过滤与第二过滤确定第二样本数据。

5.根据权利要求1所述的一种基于可解释提升机的还款违约率预测算法，其特征在于，S2中，根据因变量的变量属性确定基分类器，包括：

基于编码结果确定因变量的输出原因码；

根据输出原因码确定基分类器。

6.根据权利要求1所述的一种基于可解释提升机的还款违约率预测算法，其特征在于，S3中，将基分类器在梯度提升树模型中进行构建生成可解释提升机，包括：

7.根据权利要求1所述的一种基于可解释提升机的还款违约率预测算法，其特征在于，S3中，构建生成可解释提升机之后，还包括：

8.根据权利要求7所述的一种基于可解释提升机的还款违约率预测算法，其特征在于，基于第一计算结果与第二计算结果确定对可解释提升机的学习因子，包括：

9.根据权利要求7所述的一种基于可解释提升机的还款违约率预算方法，其特征在于，基于学习因子对可解释提升机进行学习，获得目标可解释提升机，包括；

10.根据权利要求1所述的一种基于可解释提升机的还款违约率预算方法，其特征在于，S3中，基于可解释提升机对用户还款违约率进行评估，包括：