CN117391844A

CN117391844A - 逾期预测结果的确定方法、装置、存储介质及电子装置

Info

Publication number: CN117391844A
Application number: CN202311446666.5A
Authority: CN
Inventors: 张奕; 郭玉章
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-01-12

Abstract

本发明实施例提供了一种逾期预测结果的确定方法、装置、存储介质及电子装置，其中，该方法包括：获取目标对象的目标用户信息以及目标账户信息；对目标用户信息以及目标账户信息进行预处理，得到目标特征信息；将目标特征信息输入至目标分布式梯度提升树模型中，得到目标对象的逾期预测结果；其中，目标分布式梯度提升树模型是通过如下方式训练得到的：获取与目标对象相同类型的对象的用户信息以及账户信息，对用户信息以及账户信息进行预处理，得到第一特征信息，基于第一特征信息训练初始分布式梯度提升树模型，得到目标超参数组合，将确定了目标超参数组合的初始分布式梯度提升树模型确定为目标分布式梯度提升树模型。

Description

逾期预测结果的确定方法、装置、存储介质及电子装置

技术领域

本发明实施例涉及通信领域，具体而言，涉及一种逾期预测结果的确定方法、装置、存储介质及电子装置。

背景技术

在相关技术中，在对用户的逾期结果进行预测时，通常基于线性模型进行违约预测。适用于样本量小的场景，对于样本量过大的场景，采用相关技术进行违约预测时容易过拟合，造成准确率过低；在逾期和非逾期客户数量差异较大，样本不均衡场景，训练模型容易产生较大偏差，导致模型失效。

由此可知，相关技术中存在逾期预测不准确的问题。

针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种逾期预测结果的确定方法、装置、存储介质及电子装置，以至少解决相关技术中存在的逾期预测不准确的问题。

根据本发明的一个实施例，提供了一种逾期预测结果的确定方法，包括：获取目标对象的目标用户信息以及目标账户信息；对所述目标用户信息以及所述目标账户信息进行预处理，得到目标特征信息；将所述目标特征信息输入至目标分布式梯度提升树模型中，得到所述目标对象的逾期预测结果；其中，所述目标分布式梯度提升树模型是通过如下方式训练得到的：获取与所述目标对象相同类型的对象的用户信息以及账户信息，对所述用户信息以及所述账户信息进行预处理，得到第一特征信息，基于所述第一特征信息训练初始分布式梯度提升树模型，得到目标超参数组合，将确定了所述目标超参数组合的初始分布式梯度提升树模型确定为所述目标分布式梯度提升树模型。

根据本发明的另一个实施例，提供了一种逾期预测结果的确定装置，包括：获取模块，用于获取目标对象的目标用户信息以及目标账户信息；预处理模块，用于对所述目标用户信息以及所述目标账户信息进行预处理，得到目标特征信息；预测模块，用于将所述目标特征信息输入至目标分布式梯度提升树模型中，得到所述目标对象的逾期预测结果；其中，所述目标分布式梯度提升树模型是通过如下方式训练得到的：获取与所述目标对象相同类型的对象的用户信息以及账户信息，对所述用户信息以及所述账户信息进行预处理，得到第一特征信息，基于所述第一特征信息训练初始分布式梯度提升树模型，得到目标超参数组合，将确定了所述目标超参数组合的初始分布式梯度提升树模型确定为所述目标分布式梯度提升树模型。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取目标对象的目标用户信息以及目标账户信息；对目标用户信息以及目标账户信息进行预处理，得到目标特征信息；将目标特征信息输入至目标分布式梯度提升树模型中，得到目标对象的逾期预测结果；其中，目标分布式梯度提升树模型是通过如下方式训练得到的：获取与目标对象相同类型的对象的用户信息以及账户信息，对用户信息以及账户信息进行预处理，得到第一特征信息，基于第一特征信息训练初始分布式梯度提升树模型，得到目标超参数组合，将确定了目标超参数组合的初始分布式梯度提升树模型确定为目标分布式梯度提升树模型。由于采用了目标分布式梯度提升树模型对目标对象的目标特征信息进行处理，得到逾期预测结果。在训练初始分布式梯度提升树模型时，可以通过对用户信息以及账户信息进行预处理得到的第一特征信息确定模型的目标超参数组合，得到目标分布式梯度提升树模型。通过目标分布式梯度提升树模型预测逾期结果，可以适应样本量大，且对于非线性的特征具有较好的预测效果。因此，可以解决相关技术中存在的逾期预测不准确的问题，达到提高逾期预测准确率的效果。

附图说明

图1是本发明实施例的一种逾期预测结果的确定方法的移动终端的硬件结构框图；

图2是根据本发明实施例的逾期预测结果的确定方法的流程图；

图3是根据本发明具体实施例的逾期预测结果的确定方法流程图；

图4是根据本发明具体实施例的逾期预测结果的确定装置结构图；

图5是根据本发明实施例的逾期预测结果的确定装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种逾期预测结果的确定方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器，其中，上述移动终端还可以包括用于通信功能的传输设备以及输入输出设备。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的逾期预测结果的确定方法对应的计算机程序，处理器通过运行存储在存储器内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种逾期预测结果的确定方法，图2是根据本发明实施例的逾期预测结果的确定方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取目标对象的目标用户信息以及目标账户信息；

步骤S204，对所述目标用户信息以及所述目标账户信息进行预处理，得到目标特征信息；

步骤S206，将所述目标特征信息输入至目标分布式梯度提升树模型中，得到所述目标对象的逾期预测结果；其中，所述目标分布式梯度提升树模型是通过如下方式训练得到的：获取与所述目标对象相同类型的对象的用户信息以及账户信息，对所述用户信息以及所述账户信息进行预处理，得到第一特征信息，基于所述第一特征信息训练初始分布式梯度提升树模型，得到目标超参数组合，将确定了所述目标超参数组合的初始分布式梯度提升树模型确定为所述目标分布式梯度提升树模型。

在上述实施例中，逾期预测结果的确定方法可应用在个人快贷产品系统中，个人快贷产品系统可以是全流程线上自助贷款服务产品。该产品无需客户在银行网点或其他借贷机构办理相关手续和等待审批，通过线上申请即可获得贷款“秒审”结果，并且会在线完成贷款的全部流程，解决客户的燃眉之急，为其带来全新的贷款体验，在互联网金融创新探索路上迈出了坚实一步。因此，可以在自助贷款服务产品中应用逾期预测结果的确定方法，当用户需要借贷时，即可以根据用户输入的信息确定逾期预测结果。线上自助贷款服务通过银行存有客户的多维度特征与是否逾期的线性或非线性关系，通过构建合理的算法模型来预测客户的信用风险，从而科学地对客户进行区分，最大限度地防范贷款逾期风险，保障客户的个人财产安全。

在上述实施例中，目标对象可以是代发工资客群中的对象，还可以是其他客户群体中的对象。在目标对象通过个人快贷产品系统输入借贷需求后，可以获取目标对象的目标用户信息以及目标账户信息。目标用户信息可以包括目标对象的基本信息，如姓名、性别、年龄、居住地址、户口所在地、职业、工作单位等。目标账户信息可以是目标对象在该借贷结构的开户信息，包括借记卡使用信息，如流水信息、储蓄值等。

在上述实施例中，可对目标用户信息以及目标账户信息进行预处理，如对目标用户信息以及目标账户信息进行数据类型转换，转换为目标分布式梯度提升树模型所能识别的类型。其中，梯度提升决策树(Gradient Boosting Decision Tree，GBDT)使一种基于Boosting集成学习思想的加法模型，训练时采用前向分布算法进行贪婪学习，第t次迭代都学习一棵CART树来拟合之前t-1棵树的预测结果与训练样本真实值的残差。其可解释性强，在数据挖掘、推荐系统等领域得到了广泛的应用。分布式梯度提升树可以对损失函数进行二阶泰勒展开，一方面增加了精度，另一方面可以自定义损失函数，因为二阶泰勒展开可以近似大量损失函数。

在上述实施例中，可以分别获取用户信息及借记卡使用信息；对不同类型的数据进行针对性预处理；并通过特征聚合，特征融合以及特征筛选技术构建有效样本集；使用超参数集合采用网格搜索交叉验证技术用训练集训练模型并获得模型的最优超参数组合；基于最优模型进行个人快贷代发工资客群的逾期预测，并计算特征重要性，给出特征重要性解释。

可选地，上述步骤的执行主体可以是后台处理器，或者其他的具备类似处理能力的设备，还可以是至少集成有数据处理设备的机器，其中，数据处理设备可以包括计算机、手机等终端，但不限于此。

在一个示例性实施例中，对所述用户信息以及所述账户信息进行预处理，得到第一特征信息包括：对所述用户信息以及所述账户信息进行脱敏处理，得到脱敏用户信息以及脱敏账户信息；将所述脱敏用户信息中包括的日期类数据转换为相对于目标日期的第一天数，将所述脱敏用户信息中包括的文本类数据转换为第一数值向量，将所述脱敏用户信息中包括的类别类数据与逾期结果的相关性转换为第一数值数据，将所述脱敏用户信息中包括的数值类型数据进行归一化处理，得到第一数值特征，将所述第一天数、所述第一数值向量、所述第一数值数据以及所述第一数值特征确定为第二特征信息；将所述脱敏账户信息中包括的日期类数据转换为相对于目标日期的第二天数，将所述脱敏账户信息中包括的文本类数据转换为第二数值向量，将所述脱敏账户信息中包括的类别类数据与逾期结果的相关性转换为第二数值数据，将所述脱敏账户信息中包括的数值类型数据进行归一化处理，得到第二数值特征，将所述第二天数、所述第二数值向量、所述第二数值数据以及所述第二数值特征确定为第三特征信息；将所述第二特征信息以及所述第三特征信息进行融合，得到融合特征信息；基于所述融合特征信息确定所述第一特征信息。在本实施例中，可以与借贷结构的客户信息表对接，获取客户的基本信息，即用户信息，并做数据脱敏处理，保护客户的此类信息，得到脱敏用户信息。

在上述实施例中，脱敏用户信息可以包括日期类数据、文本类数据、类别类数据以及数值类型数据。其中，文本类数据可以包括客户的工商信息、地址、卡号等文本类数据。类别类数据可以包括如性别，婚姻情况(已婚/未婚)等类别类数据。数值类型数据可以包括如出账金额、入账金额、工资、储蓄值等数值类数据。可以通过以下技术处理脱敏用户信息：

日期类数据：对于日期类型的数据，分布式梯度提升树无法用其进行训练，需将其转化为数值类型。可以采用的是将日期类型的数据转化为1900-01-01该日的相对天数，为数值类型；其中，1900-01-01即为目标日期，1900-01-01仅是一种示例性说明，本发明对此不做限制。

普通文本类数据：对于文本类型的数据，分布式梯度提升树无法用其进行训练，需将其转化为数值类型。可以通过遍历文本类特征的集合，采用独热编码技术，将文本类型的特征转化为对应的one-hot数值向量；

类别类数据：对于类别类数据，分布式梯度提升树无法用其进行训练，需将其转化为数值类型。可以通过遍历类别类特征的集合，按照类别与违约的相关性升序将其转化为数值类型；

普通数值类型：可以做z-score归一化处理，平衡样本特征的分布。

在上述实施例中，可以与借贷结构的客户借记卡流水表对接，获取客户的借记卡流水信息，并做数据脱敏处理，保护客户的个人信息。脱敏账户信息可以包括日期类数据、文本类数据、类别类数据以及数值类型数据。其中，文本类数据可以包括客户的工商信息、地址、卡号等文本类数据。类别类数据可以包括如性别，婚姻情况(已婚/未婚)等类别类数据。数值类型数据可以包括如出账金额、入账金额、工资、储蓄值等数值类数据。可以通过以下技术处理脱敏账户信息：

日期类数据：对于日期类型的数据，分布式梯度提升树无法用其进行训练，需将其转化为数值类型。可以采用的是将日期类型的数据转化为1900-01-01该日的相对天数，为数值类型；

普通数值类型：做z-score归一化处理，平衡样本特征的分布。

在上述实施例中，在对脱敏用户信息以及脱敏账户信息进行处理后，可以将处理后得到的第二特征信息以及第三特征信息进行融合，得到融合特征信息；基于融合特征信息确定第一特征信息。

在一个示例性实施例中，将所述第二特征信息以及所述第三特征信息进行融合，得到融合特征信息包括：在所述第三特征信息中包括一个流水信息的情况下，将所述第二特征信息左连接到所述第三特征信息中，得到所述融合特征信息；在所述第三特征信息中包括多个流水信息的情况下，确定多个流水信息的统计信息，将所述统计信息以及所述第三特征信息确定为第四特征信息，将所述第二特征信息左连接到所述第四特征信息中，得到所述融合特征信息。在本实施例中，在第三特征信息中包括一个流水信息的情况下，可以采用左连接的方式将第二特征信息与第三特征信息进行融合，得到融合特征信息。当第三特征信息中包括多个流水信息时，可以多对个流水信息进行聚合，得到第四特征信息，然后采用左连接的方式将第二特征信息与第四特征信息进行融合，得到融合特征信息。

在上述实施例中，对于流水类数据，同一个客户可能有多笔流水，故可以采用聚合函数将多条流水数据汇总成一个有效特征，可以利用sum求和，min求最小值，max求最大值，mean求均值，std求标准差来确定统计信息，将统计信息聚合同一客户的流水数据。

在一个示例性实施例中，基于所述融合特征信息确定所述第一特征信息包括：确定所述融合特征信息中包括的非数值大于第一阈值的第一特征列，以及确定所述融合特征信息中包括的除所述第一特征列之外的其他特征列；在所述融合特征信息中删除所述第一特征列，并将所述第二特征列的非数值设置成第二阈值，得到所述第一特征信息。在本实施例中，可以遍历合并后的数据特征，将NaN值大于50％的特征列删除，其余特征列的NAN值置为999，形成有效样本集。其中，第一阈值可以为50％，第二阈值可以是999，需要说明的是，第一阈值为50％仅是一种示例性说明，第一阈值还可以为40％、60％等，第二阈值可以是99、9999等，本发明对此不做限制。

在一个示例性实施例中，基于所述第一特征信息训练初始分布式梯度提升树模型，得到目标超参数组合包括：确定所述初始分布式梯度提升树模型的初始超参数集合；基于所述第一特征信息中包括的训练集对所述初始超参数集合进行网格搜索交叉验证，得到所述目标超参数组合，其中，所述训练集是通过如下方式确定的：将所述第一特征信息按照预定比例划分为所述训练集以及测试集。在本实施例中，可以将第一特征信息按预定比例，如8：2分成训练集和测试集；基于XGBoost分布式梯度提升树模型，选择学习率learning_rate、迭代次数epoch、最大深度max_depth、子模型数量n_estimators、损失函数objective、L1正则权重reg_alpha、L2正则权重reg_lambda作为初始超参数集合。使用训练集，对超参数集合采用网格搜索交叉验证(GridSearchCV)选取模型的最优超参数组合。具体而言，网格搜索(GridSearch)针对超参数集合的每一个排列组合，实例化给定的XGBoost模型，做CV次交叉验证，并将平均得分最高的超参数组合作为最佳选择，返回模型对象。其中，CV可以是大于1的任意值，如2、3、4、5等，本发明对此不作限制。

在一个示例性实施例中，将确定了所述目标超参数组合的初始分布式梯度提升树模型确定为所述目标分布式梯度提升树模型包括：将所述第一特征信息中包括的测试集输入至所述目标分布式梯度提升树模型中，得到测试结果；基于所述测试结果以及所述测试集的标签信息确定AUC值；在所述AUC值满足预定条件的情况下，将确定了所述目标超参数组合的初始分布式梯度提升树模型确定为所述目标分布式梯度提升树模型。在本实施例中，可以将测试集样本输入通过网格搜索交叉验证得到的最优模型中，得到预测结果，并基于测试标签计算AUC值，得到训练模型在测试集下的表现效果。当AUC值满足预定条件的情况下，认为目标分布式梯度提升树模型满足预定精度，因此，可以将目标分布式梯度提升树模型作为最终的使用模型。使用AUC这一综合评价指标评价模型的预测精确度，最终结果高达0.923。

在一个示例性实施例中，在将所述目标特征信息输入至目标分布式梯度提升树模型中，得到所述目标对象的逾期预测结果之后，所述方法还包括：确定所述目标特征信息中包括的各个子特征在所述目标分布式梯度提升树模型的子树分裂时作为划分属性的目标次数；确定所述目标特征信息中包括的目标子特征，其中，所述目标子特征对应的所述目标次数大于所述目标特征信息中包括的除所述目标子特征之外的其他子特征对应的次数；将所述目标子特征确定为所述逾期预测结果的可解释特征。在本实施例中，从算法原理上，XGBoost会根据结构分数的增益情况来选择以哪个特征作为分割点，即在XGBoost模型构建中，一个特征被用来构建决策树的次数越多，它的非重要性就越高。故XGBoost的特征重要性就是指它在所有树中出现的次数之和。可以基于此原理增强模型的可解释性。具体而言，可以通过计算各特征在子树分裂时作为划分属性的次数，并据此从大到小输出特征的重要性排序(重要性由高到低)，为客户和银行业务人员提供预测结果的特征重要性分析结果，便于业务人员为客户提供后续建议。

下面结合具体实施方式对逾期预测结果的确定方法进行说明：

图3是根据本发明具体实施例的逾期预测结果的确定方法流程图，图4是根据本发明具体实施例的逾期预测结果的确定装置结构图，如图3-4所示，该流程包括：

(1)装置分别通过第一数据获取模块和第二数据获取模块获取用户信息(对应于上述目标用户信息)及借记卡使用信息(对应于上述目标账号信息)；

(2)分别通过第一特征预处理模块和第二特征预处理模块对不同类型的数据进行针对性预处理；

(3)通过特征聚合，特征融合以及特征筛选技术构建有效样本集(对应于上述第一特征信息)；

(4)使用超参数集合采用网格搜索交叉验证技术用训练集训练模型并获得模型的最优超参数组合(对应于上述目标超参数组合)；

(5)基于最优模型进行个人快贷代发工资客群的逾期预测，并计算特征重要性，给出特征重要性解释。

当逾期预测结果的确定方法应用在银行中时，如图4所示，逾期预测装置100主要包括第一数据获取模块101，第一特征预处理模块102，第二数据获取模块103，第二特征预处理模块104，特征融合模块105，模型训练模块106，模型评价模块107，模型解释模块108。

(1)第一数据获取模块101：

第一数据获取模块101主要与行内客户信息表对接，获取客户的基本信息，并做数据脱敏处理，保护客户的此类信息。

(2)第一特征预处理模块102

第一特征预处理模块102主要通过以下技术处理第一数据获取模块获得的客户基本信息数据：

日期类数据：对于日期类型的数据，本发明使用的分布式梯度提升树无法用其进行训练，需将其转化为数值类型。本发明采用的是将日期类型的数据转化为1900-01-01该日的相对天数，为数值类型；

普通文本类数据：对于文本类型的数据，本发明使用的分布式梯度提升树无法用其进行训练，需将其转化为数值类型。本发明通过遍历文本类特征的集合，采用独热编码技术，将文本类型的特征转化为对应的one-hot数值向量；

类别类数据：对于类别类数据，本发明使用的分布式梯度提升树无法用其进行训练，需将其转化为数值类型。本发明通过遍历类别类特征的集合，按照类别与违约的相关性升序将其转化为数值类型；

普通数值类型：做z-score归一化处理，平衡样本特征的分布；

(3)第二数据获取模块103

第二数据获取模块103主要与行内客户借记卡流水表对接，获取客户的借记卡流水信息，并做数据脱敏处理，保护客户的个人信息。

(4)第二特征预处理模块104

第二特征预处理模块104主要通过以下技术处理第一数据获取模块获得的客户基本信息数据：

普通数值类型：做z-score归一化处理，平衡样本特征的分布；

(5)特征融合模块105

特征融合模块105主要通过以下技术融合第一特征预处理模块102和第二特征预处理模块104处理后的数据，形成样本集。

特征聚合：对于流水类数据，同一个客户可能有多笔流水，故采用聚合函数将多条流水数据汇总成一个有效特征，本发明采用了如sum求和，min求最小值，max求最大值，mean求均值，std求标准差来聚合同一客户的流水数据。

特征融合：本发明采用左连接的方式将第一特征预处理模块102和第二特征预处理模块104处理后的数据融合，具体而言，本发明采用第一特征预处理模块102输出数据leftjoin第二特征预处理模块104输出数据据on客户ID的方式合并两类数据源。

特征筛选：本发明遍历合并后的数据特征，将NaN值大于50％的特征列删除，其余特征列的NAN值置为999，形成有效样本集。

(1)模型训练模块106

模型训练模块106主要通过以下步骤训练模型：

(6.1)将特征融合模块105输出的有效样本集按8：2分成训练集和测试集；

(6.2)基于XGBoost分布式梯度提升树模型，选择学习率learning_rate、迭代次数epoch、最大深度max_depth、子模型数量n_estimators、损失函数objective、L1正则权重reg_alpha、L2正则权重reg_lambda作为超参数集合。

(6.3)使用训练集，对超参数集合采用网格搜索交叉验证(GridSearchCV)选取模型的最优超参数组合。具体而言，网格搜索(GridSearch)针对超参数集合的每一个排列组合，实例化给定的XGBoost模型，做CV次交叉验证，并将平均得分最高的超参数组合作为最佳选择，返回模型对象。

(2)模型评价模块107

将测试集样本输入通过网格搜索交叉验证得到的最优模型中，得到预测结果，并基于测试标签计算AUC值，得到训练模型在测试集下的表现效果。本模块使用AUC这一综合评价指标评价模型的预测精确度，最终结果高达0.923。

(8)模型解释模块108

从算法原理上，XGBoost会根据结构分数的增益情况来选择以哪个特征作为分割点，即在XGBoost模型构建中，一个特征被用来构建决策树的次数越多，它的非重要性就越高。故XGBoost的特征重要性就是指它在所有树中出现的次数之和。本发明基于此原理增强模型的可解释性。具体而言，本发明通过计算各特征在子树分裂时作为划分属性的次数，并据此从大到小输出特征的重要性排序(重要性由高到低)，为客户和银行业务人员提供预测结果的特征重要性分析结果，便于业务人员为客户提供后续建议。

在前述实施例中，综合客户基本信息和借记卡流水信息，完成了基于分布式梯度提升树的混合变量逾期预测模型的构建，其中重点包括数据采集、数据处理、模型训练、模型评价、可解释性分析五个核心流程。面向银行最新的个人快贷业务，针对海量客户信息和借记卡交易数据，提出一种从数据采集、数据处理、模型训练、模型评价、可解释性分析的整体技术方案路线。相比传统的线性模型和深度学习模型，采用了分布式梯度提升树模型，给出了模型超参数的集合，提供了科学的参数扫描交叉验证方法获得最优模型，使模型预测准确率高，模型评价指标AUC值高达0.923；针对个人快贷代发工资客群场景的不同数据源，能够针对性的处理、融合和筛选不同数据源的数据特征，构建出合理的机器学习样本集。通过计算各特征在子树分裂时作为划分属性的次数，并据此从大到小输出特征的重要性排序(重要性由高到低)，为客户和银行业务人员提供预测结果的特征重要性分析结果，便于业务人员为客户提供后续建议。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种逾期预测结果的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的逾期预测结果的确定装置的结构框图，如图5所示，该装置包括：

获取模块52，用于获取目标对象的目标用户信息以及目标账户信息；

预处理模块54，用于对所述目标用户信息以及所述目标账户信息进行预处理，得到目标特征信息；

预测模块56，用于将所述目标特征信息输入至目标分布式梯度提升树模型中，得到所述目标对象的逾期预测结果；

其中，所述目标分布式梯度提升树模型是通过如下方式训练得到的：获取与所述目标对象相同类型的对象的用户信息以及账户信息，对所述用户信息以及所述账户信息进行预处理，得到第一特征信息，基于所述第一特征信息训练初始分布式梯度提升树模型，得到目标超参数组合，将确定了所述目标超参数组合的初始分布式梯度提升树模型确定为所述目标分布式梯度提升树模型。

在一个示例性实施例中，所述装置可以通过如下方式实现对所述用户信息以及所述账户信息进行预处理，得到第一特征信息：对所述用户信息以及所述账户信息进行脱敏处理，得到脱敏用户信息以及脱敏账户信息；将所述脱敏用户信息中包括的日期类数据转换为相对于目标日期的第一天数，将所述脱敏用户信息中包括的文本类数据转换为第一数值向量，将所述脱敏用户信息中包括的类别类数据与逾期结果的相关性转换为第一数值数据，将所述脱敏用户信息中包括的数值类型数据进行归一化处理，得到第一数值特征，将所述第一天数、所述第一数值向量、所述第一数值数据以及所述第一数值特征确定为第二特征信息；将所述脱敏账户信息中包括的日期类数据转换为相对于目标日期的第二天数，将所述脱敏账户信息中包括的文本类数据转换为第二数值向量，将所述脱敏账户信息中包括的类别类数据与逾期结果的相关性转换为第二数值数据，将所述脱敏账户信息中包括的数值类型数据进行归一化处理，得到第二数值特征，将所述第二天数、所述第二数值向量、所述第二数值数据以及所述第二数值特征确定为第三特征信息；将所述第二特征信息以及所述第三特征信息进行融合，得到融合特征信息；基于所述融合特征信息确定所述第一特征信息。

在一个示例性实施例中，所述装置可以通过如下方式实现将所述第二特征信息以及所述第三特征信息进行融合，得到融合特征信息：在所述第三特征信息中包括一个流水信息的情况下，将所述第二特征信息左连接到所述第三特征信息中，得到所述融合特征信息；在所述第三特征信息中包括多个流水信息的情况下，确定多个流水信息的统计信息，将所述统计信息以及所述第三特征信息确定为第四特征信息，将所述第二特征信息左连接到所述第四特征信息中，得到所述融合特征信息。

在一个示例性实施例中，所述装置可以通过如下方式实现基于所述融合特征信息确定所述第一特征信息：确定所述融合特征信息中包括的非数值大于第一阈值的第一特征列，以及确定所述融合特征信息中包括的除所述第一特征列之外的其他特征列；在所述融合特征信息中删除所述第一特征列，并将所述第二特征列的非数值设置成第二阈值，得到所述第一特征信息。

在一个示例性实施例中，所述装置可以通过如下方式实现基于所述第一特征信息训练初始分布式梯度提升树模型，得到目标超参数组合：确定所述初始分布式梯度提升树模型的初始超参数集合；基于所述第一特征信息中包括的训练集对所述初始超参数集合进行网格搜索交叉验证，得到所述目标超参数组合，其中，所述训练集是通过如下方式确定的：将所述第一特征信息按照预定比例划分为所述训练集以及测试集。

在一个示例性实施例中，所述装置可以通过如下方式实现将确定了所述目标超参数组合的初始分布式梯度提升树模型确定为所述目标分布式梯度提升树模型：将所述第一特征信息中包括的测试集输入至所述目标分布式梯度提升树模型中，得到测试结果；基于所述测试结果以及所述测试集的标签信息确定AUC值；在所述AUC值满足预定条件的情况下，将确定了所述目标超参数组合的初始分布式梯度提升树模型确定为所述目标分布式梯度提升树模型。

在一个示例性实施例中，所述装置可以用于在将所述目标特征信息输入至目标分布式梯度提升树模型中，得到所述目标对象的逾期预测结果之后：确定所述目标特征信息中包括的各个子特征在所述目标分布式梯度提升树模型的子树分裂时作为划分属性的目标次数；确定所述目标特征信息中包括的目标子特征，其中，所述目标子特征对应的所述目标次数大于所述目标特征信息中包括的除所述目标子特征之外的其他子特征对应的次数；将所述目标子特征确定为所述逾期预测结果的可解释特征。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种逾期预测结果的确定方法，其特征在于，包括：

获取目标对象的目标用户信息以及目标账户信息；

对所述目标用户信息以及所述目标账户信息进行预处理，得到目标特征信息；

将所述目标特征信息输入至目标分布式梯度提升树模型中，得到所述目标对象的逾期预测结果；

2.根据权利要求1所述的方法，其特征在于，对所述用户信息以及所述账户信息进行预处理，得到第一特征信息包括：

对所述用户信息以及所述账户信息进行脱敏处理，得到脱敏用户信息以及脱敏账户信息；

将所述脱敏用户信息中包括的日期类数据转换为相对于目标日期的第一天数，将所述脱敏用户信息中包括的文本类数据转换为第一数值向量，将所述脱敏用户信息中包括的类别类数据与逾期结果的相关性转换为第一数值数据，将所述脱敏用户信息中包括的数值类型数据进行归一化处理，得到第一数值特征，将所述第一天数、所述第一数值向量、所述第一数值数据以及所述第一数值特征确定为第二特征信息；

将所述脱敏账户信息中包括的日期类数据转换为相对于目标日期的第二天数，将所述脱敏账户信息中包括的文本类数据转换为第二数值向量，将所述脱敏账户信息中包括的类别类数据与逾期结果的相关性转换为第二数值数据，将所述脱敏账户信息中包括的数值类型数据进行归一化处理，得到第二数值特征，将所述第二天数、所述第二数值向量、所述第二数值数据以及所述第二数值特征确定为第三特征信息；

将所述第二特征信息以及所述第三特征信息进行融合，得到融合特征信息；

基于所述融合特征信息确定所述第一特征信息。

3.根据权利要求2所述的方法，其特征在于，将所述第二特征信息以及所述第三特征信息进行融合，得到融合特征信息包括：

在所述第三特征信息中包括一个流水信息的情况下，将所述第二特征信息左连接到所述第三特征信息中，得到所述融合特征信息；

在所述第三特征信息中包括多个流水信息的情况下，确定多个流水信息的统计信息，将所述统计信息以及所述第三特征信息确定为第四特征信息，将所述第二特征信息左连接到所述第四特征信息中，得到所述融合特征信息。

4.根据权利要求2所述的方法，其特征在于，基于所述融合特征信息确定所述第一特征信息包括：

确定所述融合特征信息中包括的非数值大于第一阈值的第一特征列，以及确定所述融合特征信息中包括的除所述第一特征列之外的其他特征列；

在所述融合特征信息中删除所述第一特征列，并将所述第二特征列的非数值设置成第二阈值，得到所述第一特征信息。

5.根据权利要求1所述的方法，其特征在于，基于所述第一特征信息训练初始分布式梯度提升树模型，得到目标超参数组合包括：

确定所述初始分布式梯度提升树模型的初始超参数集合；

基于所述第一特征信息中包括的训练集对所述初始超参数集合进行网格搜索交叉验证，得到所述目标超参数组合，其中，所述训练集是通过如下方式确定的：将所述第一特征信息按照预定比例划分为所述训练集以及测试集。

6.根据权利要求1所述的方法，其特征在于，将确定了所述目标超参数组合的初始分布式梯度提升树模型确定为所述目标分布式梯度提升树模型包括：

将所述第一特征信息中包括的测试集输入至所述目标分布式梯度提升树模型中，得到测试结果；

基于所述测试结果以及所述测试集的标签信息确定AUC值；

在所述AUC值满足预定条件的情况下，将确定了所述目标超参数组合的初始分布式梯度提升树模型确定为所述目标分布式梯度提升树模型。

7.根据权利要求1所述的方法，其特征在于，在将所述目标特征信息输入至目标分布式梯度提升树模型中，得到所述目标对象的逾期预测结果之后，所述方法还包括：

确定所述目标特征信息中包括的各个子特征在所述目标分布式梯度提升树模型的子树分裂时作为划分属性的目标次数；

确定所述目标特征信息中包括的目标子特征，其中，所述目标子特征对应的所述目标次数大于所述目标特征信息中包括的除所述目标子特征之外的其他子特征对应的次数；

将所述目标子特征确定为所述逾期预测结果的可解释特征。

8.一种逾期预测结果的确定装置，其特征在于，包括：

获取模块，用于获取目标对象的目标用户信息以及目标账户信息；

预处理模块，用于对所述目标用户信息以及所述目标账户信息进行预处理，得到目标特征信息；

预测模块，用于将所述目标特征信息输入至目标分布式梯度提升树模型中，得到所述目标对象的逾期预测结果；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。