CN117094814A

CN117094814A - 客户还款的风险预警方法、系统及电子设备

Info

Publication number: CN117094814A
Application number: CN202311077971.1A
Authority: CN
Inventors: 张明; 贺欧文; 史真子
Original assignee: Sany Heavy Machinery Ltd
Current assignee: Sany Heavy Machinery Ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-11-21

Abstract

本发明提供一种客户还款的风险预警方法、系统及电子设备，涉及数据处理技术领域，方法包括：获取当前客户信息并确定客户是否有逾期；若客户有逾期，则将客户信息输入训练后的机器学习模型，得到客户未来逾期的第一概率；若客户无逾期，则将客户信息输入训练后的机器学习‑决策树模型，得到客户未来逾期的第二概率，机器学习‑决策树模型包括机器学习模型、决策树模型和权重优化模型，权重优化模型用于确定机器学习模型和决策树模型的权重；若第一概率大于第一概率阈值或者第二概率大于第二概率阈值，则对客户的还款进行预警。本发明能够在保证模型的可解释性前提下，提高对客户还款风险预测的准确性。

Description

客户还款的风险预警方法、系统及电子设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种客户还款的风险预警方法、系统及电子设备。

背景技术

在现有实际的工程机械行业回款应用中，风险预警结果大部分是通过对客户设备的某些指标计算阈值，例如工时等数据，对于大于某些指标阈值的客户发出预警，再结合人工经验进行判断，准确率和及时性无法得到保证。

另外，使用机器学习算法进行风险预警也多是使用传统的机器学习模型，如逻辑回归模型(Logistic Regression，简称LR模型)、分类决策树(Classification AndRegression Tree，简称CART模型)等，这些方法将数据进行清洗加工并根据分析目标按比例抽取正样本与负样本，选取与客户相关的指标并依据该指标衍生形成建模样本；对建模样本的特征进行预处理后得到衍生变量数据，对衍生变量数据进行标准化处理后通过相关性分析等方法过滤掉部分特征，得到建模样本，该类方法的可解释性较好，但是由于模型本身的性能同样存在预测的准确率较差的问题；如果使用机器学习算法里面的深度学习方法，在有充足的样本量情况下该方法的性能较好，但是该方法对于模型的可解释性方面存在不足。

发明内容

本发明提供一种客户还款的风险预警方法、系统及电子设备，用以解决现有技术中模型的可解释性与准确率不能兼得缺陷，在保证模型的可解释性前提下，提高对客户还款风险预测的准确性。

本发明提供一种客户还款的风险预警方法，包括：

获取当前客户信息并确定客户是否有逾期；

若客户有逾期，则将所述客户信息输入训练后的机器学习模型，得到客户未来逾期的第一概率；

若客户无逾期，则将所述客户信息输入训练后的机器学习-决策树模型，得到客户未来逾期的第二概率，所述机器学习-决策树模型包括机器学习模型、决策树模型和权重优化模型，所述权重优化模型用于确定所述机器学习模型和决策树模型的权重；

若所述第一概率大于第一概率阈值或者所述第二概率大于第二概率阈值，则对客户的还款进行预警。

可选地，获取当前客户信息并确定客户是否有逾期之前，还包括：

根据历史客户信息构建样本数据集，所述历史客户信息包括客户基本资料、客户订单详情和客户设备工况；

根据所述样本数据集分别对机器学习模型和机器学习-决策树模型进行训练，得到所述训练后的机器学习模型和所述训练后的机器学习-决策树模型。

可选地，根据所述样本数据集对机器学习-决策树模型进行训练，包括：

采用过采样算法对所述样本数据集进行抽样，得到抽样数据集；

根据所述抽样数据集对机器学习-决策树模型进行训练，得到所述训练后的机器学习-决策树模型。

可选地，根据历史客户信息构建样本数据集之后，根据所述样本数据集分别对机器学习模型和机器学习-决策树模型进行训练之前，还包括：

对所述样本数据集进行预处理，所述预处理包括清洗所述样本数据集中的缺失值和异常值。

可选地，根据所述样本数据集分别对机器学习模型和机器学习-决策树模型进行训练，包括：

根据所述样本数据集采用k折交叉方法分别对机器学习模型和机器学习-决策树模型进行训练。

可选地，所述第一概率阈值小于所述第二概率阈值。

本发明还提供一种客户还款的风险预警系统，包括：

信息获取模块，用于获取当前客户信息并确定客户是否有逾期；

第一概率确定模块，用于若客户有逾期，则将所述客户信息输入训练后的机器学习模型，得到客户未来逾期的第一概率；

第二概率确定模块，用于若客户无逾期，则将所述客户信息输入训练后的机器学习-决策树模型，得到客户未来逾期的第二概率，所述机器学习-决策树模型包括机器学习模型、决策树模型和权重优化模型，所述权重优化模型用于确定所述机器学习模型和决策树模型的权重；

预警模块，用于若所述第一概率大于第一概率阈值或者所述第二概率大于第二概率阈值，则对客户的还款进行预警。

可选地，信息获取模块之前，还包括：

样本数据集构建模块，用于根据历史客户信息构建样本数据集，所述历史客户信息包括客户基本资料、客户订单详情和客户设备工况；

模型训练模块，用于根据所述样本数据集分别对机器学习模型和机器学习-决策树模型进行训练，得到所述训练后的机器学习模型和所述训练后的机器学习-决策树模型。

可选地，模型训练模块，还用于：

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的客户还款的风险预警方法。

本发明提供的客户还款的风险预警方法、系统及电子设备，通过获取当前客户信息并确定客户是否有逾期；若客户有逾期，则将所述客户信息输入训练后的机器学习模型，得到客户未来逾期的第一概率；若客户无逾期，则将所述客户信息输入训练后的机器学习-决策树模型，得到客户未来逾期的第二概率，所述机器学习-决策树模型包括机器学习模型、决策树模型和权重优化模型，所述权重优化模型用于确定所述机器学习模型和决策树模型的权重；若所述第一概率大于第一概率阈值或者所述第二概率大于第二概率阈值，则对客户的还款进行预警。即本发明中对于不同客户采用不同模型进行预测，尤其是对于无逾期的客户，基于重新构建的机器学习-决策树模型，能够在保证模型的可解释性前提下，提高对客户还款风险预测的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的客户还款的风险预警方法流程图；

图2是本发明提供的基于有逾期的客户信息验证机器学习模型的结果示意图；

图3是本发明提供的基于无逾期的客户信息验证机器学习-决策树模型的结果示意图；

图4是本发明提供的客户还款的风险预警系统模块图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图5描述本发明的客户还款的风险预警方法、系统及电子设备。

图1是本发明提供的客户还款的风险预警方法流程图，如图1所示，一种客户还款的风险预警方法，包括：

步骤101：获取当前客户信息并确定客户是否有逾期。

在一个具体的实施例中，当前客户信息包括客户基本资料、客户订单详情和客户设备工况。

其中，客户基本资料主要是客户的年龄、性别以及户籍等基本信息。

客户订单详情包括客户购买工程设备的类型、首付比率、分期数、订单金额和历史还款记录等数据。具体的，历史还款记录包括：已完成还款的订单信息和未完成还款的订单详情等数据。

设备工况主要包括设备开工时长、设备开工率、维修记录和残值等数据。其中，设备开工时长和设备开工率可由设备传感器回传的设备工况数据计算得来，设备开工时长为设备开率为/>其中，n为设备总数量，t_i为设备当日开工时长(单位：小时)，且t_i≥1。设备开工时长和设备开工率直接反应了某一区域的市场情况，设备开工时长长，设备开工率高说明该区域工程情况较好，客户的收入相对较好，还款能力也较好，所以基于这些数据进行还款风险预测能够保证预测的准确性。

在一个具体的实施例中，确定客户是否有逾期是根据贷款客户名单进行筛选，贷款客户名单中记录同一表现期内发生逾期的客户名单和未发生逾期的客户名单。需要说明的是，贷款客户名单中在对客户进行是否有逾期的分类时，是取一个时间点为观察点，将观察点之前的一段时期设定为观察期，将观察点之后的一段时期设定为表现期；在表现期内贷后还款数据中历史逾期天数大于预定天数的客户定为有逾期的客户。

在一个具体的实施例中，步骤101之前，还包括：

该步骤是为了对机器学习模型和机器学习-决策树模型进行训练，通过训练过程，当模型达到精度要求后，便于后续应用训练后的模型进行客户还款的风险预警。

在一个具体的实施例中，历史客户信息与当前客户信息的数据类型相同。

在一个具体的实施例中，根据历史客户信息构建样本数据集之后，根据所述样本数据集分别对机器学习模型和机器学习-决策树模型进行训练之前，还包括：

具体的预处理过程包括：

对样本数据集中每个客户对应设置一个ID(Industrial Design，身份标识)，在每个ID下确定客户信息，并生成特征宽表如下所示：

需要说明的是，上述表格只是举例，可以根据客户情况或者实际需求调整特征宽表中的特征及其对应的特征值。

客户基本信息：对客户的年龄进行分箱，性别进行one-hot处理等。

客户订单详情：统计客户的订单详情中的购买工程设备的类型、首付比率、分期数、订单金额、历史还款数据等指标；对于发生过多笔订单的客户，按照客户的历史订单与在贷的订单数据分别进行统计，计算历史订单与在贷订单的平均首付比率、平均期数、最大期数、最小期数等统计指标。

客户设备工况：根据设备传感器回传的秒级数据，统计客户名下所有的设备的开工情况，主要有设备开工时长、设备开工率和油耗等。

在一个具体的实施例中，生成特征宽表后，还包括：对客户订单详情中的历史还款数据进行清洗，按照客户ID、还款月份升序的方式，对每个客户ID，计算上个还款日期是否正常还款，基于此，打上该条记录是否逾期的标签。然后关联上述特征宽表，规整形成以客户ID、还款月份为主键的数据宽表。

在一个具体的实施例中，在数据清洗的过程中，需要对于数据中的缺失值以及异常值进行处理。具体的是：根据业务逻辑对于缺失值以0值替换，对于异常值是剔除之后再按照插值法进行填充。

在一个具体的实施例中，根据所述样本数据集对机器学习-决策树模型进行训练，包括：

采用过采样算法(例如Smote技术抽样)对所述样本数据集进行抽样，得到抽样数据集；

具体的，Smote抽样过程如下：

1.对于少数类中的每一个样本X，以欧式距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻；

2.根据样本不平衡比例设置一个采样比例，以确定每一个少数类样本X，从其K近邻中随机选择若干个样本；

3.对于每一个随机选出的近邻Xn，分别与原样本按照0～1直接的随机数构建新的样本。

其中，由于历史客户信息中无逾期客户的客户信息数据严重非均衡的基本分布，所以采用过采样算法(例如smote技术抽样)来解决数据非均衡的问题，提高预测的准确率。

在一个具体的实施例中，根据所述样本数据集分别对机器学习模型和机器学习-决策树模型进行训练，包括：

具体地，k折交叉方法过程：

1.将数据集分为两部分，分别是训练集和测试集；

2.将要调整的超参给定一个值，比如说n_iter＝100；

3.将训练集随机平均的分为k份，依次选择其中的一份作为验证集，剩余的仍然作为训练集，或称为某一折。因为可以有k份不同的验证集，所以总共有k折；

4.在某一折上，通过训练集算出参数，然后在验证集上算出准确率；

5.在不同的折上，重复3、4步，得到k个准确率，将这些准确率的平均数作为最终的结果。

其中，采用k折交叉方法分别对机器学习模型和机器学习-决策树模型进行训练能够保证模型的稳定性。

在一个具体的实施例中，将样本数据集按照7:2:1的比例分为训练集、验证集和测试集，基于训练集分别对机器学习模型和机器学习-决策树模型进行训练。

在一个具体的实施例中，基于样本数据集的数据训练结果分别对机器学习模型和机器学习-决策树模型进行精度验证，结果如图2和图3所示，可知有逾期的客户准确率达到0.80，无逾期的客户准确率达到0.72。

在一个具体的实施例中，机器学习模型为LightGBM模型，机器学习-决策树模型为LightGBM-Cart模型。

在一个具体的实施例中，机器学习模型还可以选取XGBoost模型或者Catboost模型。

在一个具体的实施例中，决策树模型还可以选取DT模型。

在一个具体的实施例中，LightGBM模型的训练学习率设置为[0.03，0.05，0.1，0.15，0.2]。

在一个具体的实施例中，LightGBM-Cart模型包括并行的LightGBM模型和Cart模型，还包括权重优化模型；所以在LightGBM-Cart模型训练的过程中，LightGBM模型和Cart模型是并行、分别训练的。其中，Cart模型的训练过程包括：树生成和树剪枝。树生成是基于训练集生成决策树；树剪枝是基于基尼系数最小化的剪枝，在测试集对树进行剪枝，从而确定决策树的参数。

具体的，LightGBM-Cart模型的具体原理是将输入数据分别输入并行的LightGBM模型和Cart模型，得到第一输出结果和第二输出结果，然后将第一输出结果和第二输出结果输入权重优化模型，分别优化一输出结果和第二输出结果的权重占比，最终输出第三输出结果，即第二概率。

在一个具体的实施例中，权重优化模型为gridsearch模型。

步骤102：若客户有逾期，则将所述客户信息输入训练后的机器学习模型，得到客户未来逾期的第一概率。

步骤103：若客户无逾期，则将所述客户信息输入训练后的机器学习-决策树模型，得到客户未来逾期的第二概率，所述机器学习-决策树模型包括机器学习模型、决策树模型和权重优化模型，所述权重优化模型用于确定所述机器学习模型和决策树模型的权重。

在一个具体的实施例中，权重优化模型能够自动优化机器学习模型和决策树模型的结果，使二者的组合达到最优。

步骤104：若所述第一概率大于第一概率阈值或者所述第二概率大于第二概率阈值，则对客户的还款进行预警。

在一个具体的实施例中，所述第一概率阈值小于所述第二概率阈值。这样设置的原理是：由于第一概率阈值对应客户有逾期，所以在客户有逾期的情况下，其风险阈值需要设置的低一些，比如，对于没有逾期的客户，第二概率阈值可以设置为10％，但对于已经有逾期的客户，由于他再次逾期的概率比较大，所以可以将第一概率阈值设为5％，如果超过5％，就可以认为他再次逾期的风险比较高，这样可以保证预警的准确性和及时性。

需要说明的是，第一概率阈值和第二概率阈值的取值可以根据实际需要设定，上述内容只是举例，不做具体限制。

下面对本发明提供的客户还款的风险预警系统进行描述，下文描述的客户还款的风险预警系统与上文描述的客户还款的风险预警方法可相互对应参照。

图4为本发明提供的客户还款的风险预警系统，如图4所示，包括：

信息获取模块401，用于获取当前客户信息并确定客户是否有逾期。

第一概率确定模块402，用于若客户有逾期，则将所述客户信息输入训练后的机器学习模型，得到客户未来逾期的第一概率。

第二概率确定模块403，用于若客户无逾期，则将所述客户信息输入训练后的机器学习-决策树模型，得到客户未来逾期的第二概率，所述机器学习-决策树模型包括机器学习模型、决策树模型和权重优化模型，所述权重优化模型用于确定所述机器学习模型和决策树模型的权重。

预警模块404，用于若所述第一概率大于第一概率阈值或者所述第二概率大于第二概率阈值，则对客户的还款进行预警。

在一个具体的实施例中，信息获取模块401之前，还包括：

在一个具体的实施例中，模型训练模块，还用于：

在一个具体的实施例中，样本数据集构建模块之后，模型训练模块之前，还包括：

预处理模块，用于对所述样本数据集进行预处理，所述预处理包括清洗所述样本数据集中的缺失值和异常值。

在一个具体的实施例中，模型训练模块具体用于：

在一个具体的实施例中，所述第一概率阈值小于所述第二概率阈值。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行客户还款的风险预警方法，该方法包括：

获取当前客户信息并确定客户是否有逾期。

若客户有逾期，则将所述客户信息输入训练后的机器学习模型，得到客户未来逾期的第一概率。

若客户无逾期，则将所述客户信息输入训练后的机器学习-决策树模型，得到客户未来逾期的第二概率，所述机器学习-决策树模型包括机器学习模型、决策树模型和权重优化模型，所述权重优化模型用于确定所述机器学习模型和决策树模型的权重。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行客户还款的风险预警方法，该方法包括：

获取当前客户信息并确定客户是否有逾期。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行客户还款的风险预警方法，该方法包括：

获取当前客户信息并确定客户是否有逾期。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种客户还款的风险预警方法，其特征在于，包括：

获取当前客户信息并确定客户是否有逾期；

2.根据权利要求1所述的客户还款的风险预警方法，其特征在于，获取当前客户信息并确定客户是否有逾期之前，还包括：

3.根据权利要求2所述的客户还款的风险预警方法，其特征在于，根据所述样本数据集对机器学习-决策树模型进行训练，包括：

4.根据权利要求2所述的客户还款的风险预警方法，其特征在于，根据历史客户信息构建样本数据集之后，根据所述样本数据集分别对机器学习模型和机器学习-决策树模型进行训练之前，还包括：

5.根据权利要求2所述的客户还款的风险预警方法，其特征在于，根据所述样本数据集分别对机器学习模型和机器学习-决策树模型进行训练，包括：

6.根据权利要求1-5任一项所述的客户还款的风险预警方法，其特征在于，所述第一概率阈值小于所述第二概率阈值。

7.一种客户还款的风险预警系统，其特征在于，包括：

8.根据权利要求7所述的客户还款的风险预警系统，其特征在于，信息获取模块之前，还包括：

9.根据权利要求8所述的客户还款的风险预警系统，其特征在于，模型训练模块，还用于：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的客户还款的风险预警方法。