CN114742144A

CN114742144A - 对象流失概率的确定方法、装置、计算机设备和存储介质

Info

Publication number: CN114742144A
Application number: CN202210343265.6A
Authority: CN
Inventors: 李腾
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-07-12

Abstract

本申请涉及一种对象流失概率的确定方法、装置、计算机设备、存储介质和计算机程序产品，涉及互联网金融技术领域。方法包括：获取目标对象的各业务标识；确定各业务标识分别对应的目标业务是否均在额定期限内到期；若各目标业务均在额定期限内到期，将目标对象的对象信息输入至预先训练出的第一预测模型中，利用第一预测模型确定目标对象的第一流失概率；若各目标业务中存在额定期限内未到期的业务，将目标对象的对象信息输入至预先训练出的第二预测模型中，利用第二预测模型确定目标对象的第二流失概率。采用本方法能够提高确定对象流失概率的准确度，避免造成对对象流失情况的误判，提高对象维护的有效性。

Description

对象流失概率的确定方法、装置、计算机设备和存储介质

技术领域

本申请涉及互联网金融技术领域，特别是涉及一种对象流失概率的确定方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

目前，小微企业由于其经营历史短、抵押资产少等特性，通常以短期信贷作为主要债务融资来源。与中长期抵押贷款的客户不同，小微信贷客户一般需要每年调整自己的短期负债以适应其经营状况，因此其进行短期信贷的流动性强。在小微信贷客户的一笔短期信贷到期后，一般可以选择在原金融机构(信贷供给方)签约新的短期信贷或前往其它机构签约新的短期信贷。因此，对于银行等信贷供给方而言，小微信贷客户是需要持续维护的重要客户群体。

传统的技术方案中，预先利用样本对象的样本对象信息训练出预测模型，再在获取目标对象的对象信息后，将对象信息输入至预测模型中，利用预测模型预测目标对象的流失概率，以便根据流失概率来制定维护策略，提前进行对象维护，防止对象流失。但是，在实际操作中，针对不同对象，均直接利用预测模型确定出流失概率并不准确，因此将造成对对象流失情况的误判，影响对象维护的有效性。

因此，如何提高确定对象流失概率的准确度，避免造成对对象流失情况的误判，提高对象维护的有效性，是本领域技术人员目前需要解决的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高确定对象流失概率的准确度，避免造成对对象流失情况的误判，提高对象维护的有效性的对象流失概率的确定方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请还提供了一种对象流失概率的确定方法。所述方法包括：

获取目标对象的各业务标识；

确定各所述业务标识分别对应的目标业务是否均在额定期限内到期；

若各所述目标业务均在所述额定期限内到期，将所述目标对象的对象信息输入至预先训练出的第一预测模型中，利用所述第一预测模型确定所述目标对象的第一流失概率；所述第一预测模型为利用样本业务均在所述额定期限内到期的样本对象的第一样本对象信息训练得出的模型；

若各所述目标业务中存在额定期限内未到期的业务，将所述目标对象的对象信息输入至预先训练出的第二预测模型中，利用所述第二预测模型确定所述目标对象的第二流失概率；所述第二预测模型为利用存在所述样本业务未在所述额定期限内到期的样本对象的第二样本对象信息训练得出的模型。

在其中一个实施例中，获取所述第一预测模型的过程，包括：

获取所述第一训练样本；所述第一训练样本包括所述样本业务均在所述额定期限内到期的所述样本对象的所述第一样本对象信息以及与所述第一样本对象信息对应的标签信息；

将所述第一训练样本输入至初始神经网络中进行学习训练，得到所述第一预测模型。

在其中一个实施例中，所述第一样本对象信息包括：所述样本对象办理所述样本业务前信息对应的第一样本特征信息，以及所述样本对象办理所述样本业务后信息对应的第二样本特征信息。

在其中一个实施例中，所述初始神经网络包括第一初始神经网络和第二初始神经网络；所述将所述第一训练样本输入至初始神经网络中进行学习训练，得到所述第一预测模型，包括：

利用所述第一样本特征信息和对应的标签信息，对所述第一初始神经网络进行训练，获得对应的第一子模型；

利用所述第二样本特征信息和对应的标签信息，对所述第二初始神经网络进行训练，获得对应的第二子模型；

根据所述第一子模型和所述第二子模型，得到所述第一预测模型。

在其中一个实施例中，所述第一样本对象信息包括所述样本对象的基本信息和与所述样本对象对应的关联信息。

在其中一个实施例中，获取所述第一样本对象信息的过程，包括：

对获取到的所述原始数据信息进行透传、交叉比对或统计聚合操作，确定出所述第一样本对象信息。

在其中一个实施例中，在所述确定各所述业务标识分别对应的目标业务是否均在额定期限内到期之前，所述方法还包括：

确定所述目标对象是否符合硬性流失条件；

若所述目标对象符合所述硬性流失条件，确定所述目标对象为到期流失对象；

否则，返回所述确定各所述业务标识分别对应的目标业务是否均在额定期限内到期的步骤。

第二方面，本申请还提供了一种对象流失概率的确定装置。所述装置包括：

获取模块，用于获取目标对象的各业务标识；

确定模块，用于确定各所述业务标识分别对应的目标业务是否均在额定期限内到期；

第一执行模块，用于若各所述目标业务均在所述额定期限内到期，将所述目标对象的对象信息输入至预先训练出的第一预测模型中，利用所述第一预测模型确定所述目标对象的第一流失概率；所述第一预测模型为利用样本业务均在所述额定期限内到期的样本对象的第一样本对象信息训练得出的模型；

第二执行模块，用于若各所述目标业务中存在额定期限内未到期的业务，将所述目标对象的对象信息输入至预先训练出的第二预测模型中，利用所述第二预测模型确定所述目标对象的第二流失概率；所述第二预测模型为利用存在所述样本业务未在所述额定期限内到期的样本对象的第二样本对象信息训练得出的模型。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取目标对象的各业务标识；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取目标对象的各业务标识；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取目标对象的各业务标识；

上述对象流失概率的确定方法、装置、计算机设备、存储介质和计算机程序产品，本方案在获取目标对象的各业务标识，并确定各业务标识分别对应的目标业务是否均在额定期限内到期后，若各目标业务均在额定期限内到期，将目标对象的对象信息输入至预先训练出的第一预测模型中，利用第一预测模型确定目标对象的第一流失概率；若各目标业务中存在额定期限内未到期的业务，将目标对象的对象信息输入至预先训练出的第二预测模型中，利用第二预测模型确定目标对象的第二流失概率；本方法针对目标对象的目标业务的不同情况，即全部业务到期或者部分业务到期的情况，分别利用预先训练出的第一预测模型或第二预测模型，确定出对应的第一流失概率或者第二流失概率；由于本方案中是利用样本业务均在额定期限内到期的样本对象的第一样本对象信息训练得出第一预测模型，利用存在样本业务未在额定期限内到期的样本对象的第二样本对象信息训练得出第二预测模型，因此第一预测模型和第二预测模型分别与全部业务到期的目标业务或者部分业务到期的目标业务相对应，因此针对目标对象的目标业务是否均在额定期限内到期以及存在额定期限内未到期的业务的不同情况，利用对应的第一预测模型或者第二预测模型确定出目标对象的第一流失概率或第二流失概率将更为精准，能够提高确定出的目标对象的流失概率的准确度，避免造成对对象流失情况的误判，提高对象维护的有效性。

附图说明

图1为一个实施例中对象流失概率的确定方法的流程示意图；

图2为一个实施例中确定第一预测模型和第二预测模型的过程示意图；

图3为一个实施例中确定第一预测模型的过程示意图；

图4为另一个实施例中对象流失概率的确定方法的流程示意图；

图5为一个实施例中对象流失概率的确定装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的对象流失概率的确定方法，可以应用于终端或者服务器上，或者应用于包括终端和服务器的系统中。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑以及物联网设备等，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图1所示，提供了一种对象流失概率的确定方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤102，获取目标对象的各业务标识。

具体的，目标对象指的是办理了目标业务的对象，目标对象可以是企业，也可以是个人用户，本实施例对目标对象的具体类型不做限定。其中，业务标识指的是与目标业务对应的标识信息，一般来说，能够根据业务标识确定唯一对应的业务。具体的，业务标识可以是业务的名称、标识码等信息，本实施例对业务标识的具体类型也不做限定。

在实际操作中，首先获取目标对象的对象标识，然后根据预先设置的对象标识与业务标识的对应关系，确定出与目标对象的对象标识相对应的业务标识，即确定出目标对象的各业务标识。

步骤104，确定各业务标识分别对应的目标业务是否均在额定期限内到期。

具体的，根据各业务标识，确定出与各业务标识分别对应的目标业务；再根据目标业务的业务信息分别判断各对应的目标业务是否在额定期限内到期。目标业务在额定期限内到期指的是目标业务对应的时间期限的截止日期与当前时间的差值在额定期限内；例如，假设某个目标业务的时间期限为2年(2020年4月至2022年4月)，即目标业务的时间期限的截止日期为2022年4月，即目标业务将在2022年4月到期，若当前时间为2022年3月，则截止日期与当前时间的差值为1个月，假设额定期限为90天，则表示该目标业务将在额定期限90天内到期。

在对各目标业务分别进行判断，确定各目标业务是否将在额定期限内到期后，进一步确定各目标业务是否均在额定期限内到期。也就是说，只有在所有的目标业务全都在额定期限内到期时，才表示目标业务均在额定期限内到期；若有任意一个目标业务未在额定期限内到期，则表示各目标业务中存在额定期限内未到期的业务。

步骤106，若各目标业务均在额定期限内到期，将目标对象的对象信息输入至预先训练出的第一预测模型中，利用第一预测模型确定目标对象的第一流失概率；第一预测模型为利用样本业务均在额定期限内到期的样本对象的第一样本对象信息训练得出的模型。

具体的，本步骤中，预先利用第一样本对象信息进行学习训练，得到对应的第一预测模型；第一样本对象信息为样本业务均在额定期限内到期的样本对象对应的对象信息。若各目标业务均在额定期限内到期，则将目标对象的对象信息输入至预先训练出的第一预测模型中，利用第一预测模型根据目标对象的对象信息输出对应的第一流失概率，从而得出目标对象的第一流失概率。

步骤108，若各目标业务中存在额定期限内未到期的业务，将目标对象的对象信息输入至预先训练出的第二预测模型中，利用第二预测模型确定目标对象的第二流失概率；第二预测模型为利用存在样本业务未在额定期限内到期的样本对象的第二样本对象信息训练得出的模型。

具体的，本步骤中，预先利用第二样本对象信息进行学习训练，得到对应的第二预测模型；第二样本对象信息为存在样本业务不在额定期限内到期的样本对象对应的对象信息。若各目标业务中存在额定期限内未到期的业务，则将目标对象的对象信息输入至预先训练出的第二预测模型中，利用第二预测模型根据目标对象的对象信息输出对应的第二流失概率，从而得出目标对象的第二流失概率。

本实施例提供的对象流失概率的确定方法，本方案在获取目标对象的各业务标识，并确定各业务标识分别对应的目标业务是否均在额定期限内到期后，若各目标业务均在额定期限内到期，将目标对象的对象信息输入至预先训练出的第一预测模型中，利用第一预测模型确定目标对象的第一流失概率；若各目标业务中存在额定期限内未到期的业务，将目标对象的对象信息输入至预先训练出的第二预测模型中，利用第二预测模型确定目标对象的第二流失概率；本方法针对目标对象的目标业务的不同情况，即全部业务到期或者部分业务到期的情况，分别利用预先训练出的第一预测模型或第二预测模型，确定出对应的第一流失概率或者第二流失概率；由于本方案中是利用样本业务均在额定期限内到期的样本对象的第一样本对象信息训练得出第一预测模型，利用存在样本业务未在额定期限内到期的样本对象的第二样本对象信息训练得出第二预测模型，因此第一预测模型和第二预测模型分别与全部业务到期的目标业务或者部分业务到期的目标业务相对应，因此针对目标对象的目标业务是否均在额定期限内到期以及存在额定期限内未到期的业务的不同情况，利用对应的第一预测模型或者第二预测模型确定出目标对象的第一流失概率或第二流失概率将更为精准，能够提高确定出的目标对象的流失概率的准确度，避免造成对对象流失情况的误判，提高对象维护的有效性。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，获取第一预测模型的过程，包括：

获取第一训练样本；第一训练样本包括样本业务均在额定期限内到期的样本对象的第一样本对象信息以及与第一样本对象信息对应的标签信息；

将第一训练样本输入至初始神经网络中进行学习训练，得到第一预测模型。

其中，第一训练样本指的是用于训练得出第一预测模型的样本，第一训练样本包括第一样本对象信息以及与第一样本对象信息对应的标签信息；第一样本对象信息指的是样本业务均在额定期限内到期的样本对象对应的对象信息；标签信息指的是表征与第一样本对象信息对应的样本对象的实际流失概率。

具体的，在本实施例中，是预先确定初始神经网络，初始神经网络可以是卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent NeuralNetworks，RNN)、长短时记忆神经网络(Long Short-term Memory Networks，LSTM)、前向反馈神经网络(Feed-forward Neural Networks，FNNs)以及LightGBM评分模型等，本实施例对初始神经网络的具体类型不做限定。

在实际操作中，将第一训练样本输入至初始神经网络中进行学习训练，在训练的神经网络达到预期精度时，将训练出的神经网络确定为第一预测模型。并且，第一训练样本中的第一样本对象信息可以是样本对象的特征信息，也可以是将样本对象的特征信息进行归一化处理等操作后得到的信息。

需要说明的是，训练第二预测模型的过程与训练第一预测模型的过程类似，区别在于用于训练的样本不同；即将第二训练样本输入至初始神经网络中进行学习训练，得到第二预测模型；第二训练样本包括存在样本业务不在额定期限内到期的样本对象的第二样本对象信息以及与第二样本对象信息对应的标签信息；训练第二预测模型的过程可参考上述训练第一预测模型的过程，此处不做赘述。

按照本实施例的方式训练得出第一预测模型或第二预测模型，操作过程便捷易行。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，第一样本对象信息包括：样本对象办理样本业务前信息对应的第一样本特征信息，以及样本对象办理样本业务后信息对应的第二样本特征信息。

本实施例中，以样本业务均在额定期限内到期的样本对象办理样本业务作为时间节点，获取在该时间节点之前的样本对象的样本特征信息，即获取对应的第一样本特征信息；以及获取在该时间节点之后的样本对象的样本特征信息，即获取对应的第二样本特征信息。

需要说明的是，第一样本特征信息和第二样本特征信息可以是不同的数据维度，即在办理样本业务的时间节点后有新增的数据维度，获取该新增的数据维度对应的数据信息；第一样本特征信息和第二样本特征信息可以是相同的数据维度，该数据维度对应的数据信息在办理样本业务的时间节点前后发生变化。

例如，假设样本业务为贷款业务，则样本对象办理样本业务前信息对应的第一样本特征信息包括办理贷款业务之前企业对应的企业税务、企业征信、企业资金往来信息、企业贷款、企业主信用卡、企业主个人征信、企业主资金往来、企业主个人贷款八个数据维度分别对应的数据信息；第二样本特征信息包括办理贷款业务之后企业对应的企业税务、企业征信、企业资金往来信息、企业贷款、企业主信用卡、企业主个人征信、企业主资金往来、企业主个人贷款八个数据维度分别对应的数据信息。

本实施例中，利用样本对象办理样本业务前信息对应的第一样本特征信息，以及样本对象办理样本业务后信息对应的第二样本特征信息，训练得出第一预测模型或者第二预测模型，使得训练出的第一预测模型能够利用更前面的信息确定目标对象的流失概率。

需要说明的是，第二样本对象信息包括：样本对象办理样本业务前信息对应的第三样本特征信息，以及样本对象办理样本业务后信息对应的第四样本特征信息。具体的，以存在额定期限内未到期的业务的样本对象办理样本业务作为时间节点，获取在该时间节点之前的样本对象的样本特征信息，即获取对应的第三样本特征信息；以及获取在该时间节点之后的样本对象的样本特征信息，即获取对应的第四样本特征信息。此处对第三样本特征信息和第四样本特征信息的具体数据维度类型不做限定，具体可参考上述对第一样本特征信息和第二样本特征信息的解释，此处不做赘述。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，初始神经网络包括第一初始神经网络和第二初始神经网络；将第一训练样本输入至初始神经网络中进行学习训练，得到第一预测模型，包括：

利用第一样本特征信息和对应的标签信息，对第一初始神经网络进行训练，获得对应的第一子模型；

利用第二样本特征信息和对应的标签信息，对第二初始神经网络进行训练，获得对应的第二子模型；

根据第一子模型和第二子模型，得到第一预测模型。

在本实施例中，利用第一样本特征信息和第二样本特征信息分别训练出对应的第一子模型和第二子模型。具体的，利用第一样本特征信息和对应的标签信息，对第一初始神经网络进行训练，获得对应的第一子模型；利用第二样本特征信息和对应的标签信息，对第二初始神经网络进行训练，获得对应的第二子模型。

其中，第一初始神经网络和第二初始神经网络可以是相同的神经网络，如卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent NeuralNetworks，RNN)、长短时记忆神经网络(Long Short-term Memory Networks，LSTM)、前向反馈神经网络(Feed-forward Neural Networks，FNNs)以及LightGBM评分模型等。

在确定出第一子模型和第二子模型后，根据第一子模型和第二子模型，得到第一预测模型。具体的，利用第一子模型的输出结果和第二子模型的输出结果进行综合计算，将综合计算的结果作为目标对象的流失概率。

更具体的，在一种实际操作中，分别对第一样本特征信息和第二样本特征信息进行编码，并基于LightGBM评分模型，利用编码得出的数据信息进行学习训练，得到对应的第一子模型和第二子模型；将第一子模型和第二子模型分别对应的输出结果进行编码，并输入至预先设置的融合概率模型中，得到对应的第一流失概率。其中，建立融合概率模型如下：

y＝σ(ω₀+ω₁X₁+ω₂X₂)；

其中，X₁表示对第一子模型的输出结果进行编码后的值，X₂表示对第二子模型的输出结果进行编码后的值；ω₀表示对模型系数进行编码后的值；ω₁和ω₂分别表示对第一子模型和第二子模型的模型系数进行编码后的值。

可见，按照本实施例的方法，利用第一子模型和第二子模型确定出第一预测模型，能够使得第一预测模型能更全面准确地确定出目标对象的第一流失概率。

可以理解的是，也可以按照相似的处理步骤确定出第二预测模型，区别在于用于训练第二预测模型的第二样本对象信息包括第三样本特征信息和第四样本特征信息；利用第三样本特征信息和对应的标签信息，对第三初始神经网络进行训练，获得对应的第三子模型；利用第四样本特征信息和对应的标签信息，对第四初始神经网络进行训练，获得对应的第四子模型；根据第三子模型和第四子模型，得到第二预测模型；本实施例对确定第二预测模型的具体过程不做赘述。

按照本实施例的方法，利用第三子模型和第四子模型确定出第二预测模型，能够使得第二预测模型能更全面准确地确定出目标对象的第二流失概率。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，第一样本对象信息包括样本对象的基本信息和与样本对象对应的关联信息。

其中，基本信息指的是与样本对象自身的特性相关的特征；例如，假设样本对象为企业，则其对应的基本信息包括企业自身的经营状况、信用历史的数据；与企业对应的关联信息包括企业实际控制人(企业主)的个人信息、信用行为等数据。再例如，样本对象为个人，则其对应的基本信息指的是样本对象对应的个人信息、信用行为等数据，与个人的关联信息包括与该样本对象存在近亲属关系的个人信息、信用行为等数据。

本实施例中，第一样本对象信息包括样本对象的基本信息和与样本对象对应的关联信息，因此训练得出的第一预测模型能够利用更加全面的信息确定目标对象的第一流失概率。

需要说明的是，第二样本对象信息同样包括样本对象的基本信息和与样本对象对应的关联信息，对第二样本对象信息的具体解释可参考上述对第一样本信息的解释，此处不再赘述。因此训练得出的第二预测模型能够利用更加全面的信息确定目标对象的第二流失概率。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，获取第一样本对象信息的过程，包括：

对获取到的原始数据信息进行透传、交叉比对或统计聚合操作，确定出第一样本对象信息。

其中，原始数据包括样本业务均在额定期限内到期的样本对象对应的对象信息以及存在样本业务不在额定期限内到期的样本对象的对象信息；通过对原始数据进行透传、交叉比对或统计聚合操作，得到可以作为训练样本的对象信息；根据处理后的对象信息以及对应的标签信息确定出第一样本对象信息和第二样本对象信息。

其中，透传是一种直接利用数据的加工方法，当每一个样本对象只有一条数据记录时，可以直接采用数据或者进行简单的数据加工生成标签。对于数值类型的数据项，可直接采用该数据作为标签。例如：企业主的“人行征信解读分数”特征，数据来源是“个人征信报告-评分信息单元-征信解读分数数据项”，该数据项表示个人信用评分分值，直接采用该分数作为标签，作为衡量报告主体总体信用水平的指标。对于类别型的数据项，通常会根据各类别具体含义，根据需要对含义相似的类别进行合并后生成标签，例如：企业主的“学历”特征，数据来源是“个人征信报告-身份信息单元-学历代码数据项”。按照码值映射，得到未知、初中及以下、中专职高技校、高中、大专、本科、研究生共七个类别，依据教育水平将中专职高技校和高中合并为一类，大专和本科合并为一类，生成最终的学历标签。

其中，交叉对比类特征用于描述不同数据源信息的关联性和一致性。例如，企业的“企业主配偶是否为股东”特征，制作过程如下：第一步提取企业主“个人征信报告-个人基本信息大类-婚姻信息单元-配偶证件号码”数据项，然后将该数据项与企业“企业征信报告-企业基本信息大类-注册资本及主要出资人信息单元-出资人证件号码数据项”进行比对，判断该企业是否存在实控人配偶持股的情况。

其中，统计聚合类特征是通过统计聚合函数对数据项信息进行处理整合而生成的标签。对于一个报告主体随时间产生多条记录的数据项，适合应用统计聚合的方法提取关键信息制作标签。对于这类特征，通常会划分不同的时间窗口并计算各窗口内的统计变量。对于数值型数据项可计算求和、均值、最小值、最大值等统计量。例如：“个人征信报告-信贷交易信息明细分类-借贷账户信息单元-借贷账户余额数据项”记录了客户所有借贷账户余额情况，基于该数据项对客户所有信贷余额进行求和可得“企业主信贷总余额”特征；对于分类型变量计算主要类型的出现次数，出现类型的种类等。如：“个人征信报告-信息概要-查询记录概要数据块-查询记录概要信息单元”中记录了人行查询原因代码，码值有“02-信贷审批”，“03-信用卡审批”，“08-担保资格审查”等，对查询原因进行加工可获得“企业主信贷审批近1月内的查询次数”特征。

可见，按照本实施例的方法，通过透传、交叉比对或统计聚合操作，确定出第一样本对象信息，原始数据广泛，操作过程便捷易行。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，在确定各业务标识分别对应的目标业务是否均在额定期限内到期之前，方法还包括：

确定目标对象是否符合硬性流失条件；

若目标对象符合硬性流失条件，确定目标对象为到期流失对象；

否则，返回确定各业务标识分别对应的目标业务是否均在额定期限内到期的步骤。

具体的，目标对象的符合硬性流失条件指的是目标对象本身的信息存在异常的情况，该异常情况导致目标对象的目标业务到期后，无法再继续办理其他的业务，因此可以直接确定目标对象为到期流失对象。其中，硬性流失条件包括目标对象为黑名单中的对象、目标对象已注销登记、目标对象历史办理的业务中存在逾期的情况、目标对象为企业经营异常名录中的对象以及目标对象的征信存在不良记录等情况。

在实际操作中，当存在多种硬性流失条件时，可以是在目标对象符合任意一个硬性流失条件时，则确定目标对象为到期流失对象，即流失概率为100％；或者，在当目标对象符合的硬性流失条件的数量达到预设数量阈值时，才确定目标对象为到期流失对象，即流失概率为100％。

按照本实施例的方法，可以在利用第一预测模型或者第二预测模型确定目标对象的流失概率之前，预先针对目标对象是否符合硬性流失条件进行判断，可以快速直接地确定出到期流失对象。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面结合实际应用场景对本申请实施例中的技术方案进行详细说明。在本申请实施例中，以目标业务为贷款业务为例进行说明，具体步骤包括模型训练环境和模型生产环境两部分：

第一部分，模型训练环境。

如图2所示，为本实施例中确定第一预测模型和第二预测模型的过程示意图。根据各家银行或金融机构所拥有的底层基础数据库表(数据源)，筛选样本业务均在额定期限内到期的样本对象和存在样本业务不在额定期限内到期的样本对象。具体的，在一定时间范围内选取有贷款业务到期结清的小微企业客户作为样本对象。若小微企业客户在这段时间内有多笔贷款业务到期结清，则根据贷款笔数视为多个不同的样本对象；根据样本对象是否还有90天内未到期的贷款业务，将样本对象分为样本业务均在额定期限内到期的存在样本业务不在额定期限内到期的样本对象。其中，底层基础数据库表一般含有但不限于以下全部或部分内容数据：企业基本信息、企业主基本信息、工商数据、征信信息(企业征信和个人征信)、交易流水、企业在本机构借贷、资产信息、企业主在本机构的借贷、资产信息、企业在本机构代理服务的信息(代缴税、代发工资等)。选取贷款业务到期日作为观察时点，以90天为样本表现期；如果样本对象在样本表现期没有在本机构签约任何新信贷产品，则视为坏样本(流失客户)，有至少一笔签约即为好样本(未流失客户)。

根据数据与办理目标业务的时间关系，将特征分为办理样本业务前信息对应的第一样本特征信息(贷前特征)与办理样本业务后信息对应的第二样本特征信息(贷中特征)两大类；其中，贷前特征是目标对象在办理贷款业务时的数据特征，观察时点就是办理签约时点，对于目标对象而言，这部分特征不会随未来调用模型的时点不同而改变；贷中特征是目标对象在办理贷款业务后的数据特征，观察时点即为模型调用时点，其特征数值是变化的，需要每日计算最新的数值以供模型使用。

在获取贷前特征和贷中特征后，基于各数据源原始数据，通过以下透传、交叉比对和统计聚合三种特征加工方法，形成特征层数据表。具体的，企业特征信息可以包括工商信息、信贷信息、资金流水以及纳税信息等；其中，信贷信息包括账户信息、使用情况、还款情况以及逾期情况等。具体的，个人特征信息包括信用卡信息、信贷信息以及代缴信息等；其中，信用卡信息包括使用情况、还款情况以及逾期情况等，信贷信息包括房贷、车贷以及抵押信贷等。

针对两类样本对象，即样本业务均在额定期限内到期的样本对象和存在样本业务不在额定期限内到期的样本对象分别建模，建模架构是相同的，得到第一预测模型和第二预测模型。

以样本业务均在额定期限内到期的样本对象为例，如图3所示，为确定第一预测模型的过程示意图。从企业税务、企业征信、企业资金往来信息、企业贷款、企业主信用卡、企业主个人征信、企业主资金往来、企业主个人贷款八个数据维度中，分别选取办理样本业务前信息对应的第一样本特征信息(贷前特征)与办理样本业务后信息对应的第二样本特征信息(贷中特征)；分别对第一样本特征信息和第二样本特征信息进行WOE(Weight ofEvidence，证据权重)编码，并基于LightGBM评分模型，利用编码得出的数据信息进行学习训练，得到对应的第一子模型和第二子模型；将第一子模型和第二子模型分别对应的输出结果进行编码，并输入至预先设置的融合概率模型中，得到对应的第一流失概率。其中，建立融合概率模型如下：

y＝σ(ω₀+ω₁X₁+ω₂X₂)；

对存在样本业务不在额定期限内到期的样本对象，采用同样的方式确定第二预测模型。

第二部分，模型生产环境。

当存在贷款业务将于90天内到期的目标对象(小微信贷客户)时，开始每日调用第一预测模型或者第二预测模型，确定目标对象的流失概率。

结合图4所示的一种对象流失概率的确定方法的流程示意图，首先确定目标对象是否符合硬性流失条件，硬性流失条件包括目标对象为黑名单对象、目标对象存在已注销的情况、目标对象被列入企业经营异常名录、目标对象有过逾期情况以及目标对象存在不良征信记录等情况。

若目标对象符合硬性流失条件，确定目标对象为到期流失对象；即流失概率为100％；否则，确定目标对象的各目标业务是否均在额定期限内到期；若各目标业务均在额定期限内到期，将目标对象的对象信息输入至预先训练出的第一预测模型中，利用第一预测模型确定目标对象的第一流失概率；若各目标业务中存在额定期限内未到期的业务，将目标对象的对象信息输入至预先训练出的第二预测模型中，利用第二预测模型确定目标对象的第二流失概率。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的对象流失概率的确定方法的对象流失概率的确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个对象流失概率的确定装置实施例中的具体限定可以参见上文中对于对象流失概率的确定方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种对象流失概率的确定装置，包括：获取模块502、确定模块504、第一执行模块506和第二执行模块508，其中：

获取模块502，用于获取目标对象的各业务标识；

确定模块504，用于确定各业务标识分别对应的目标业务是否均在额定期限内到期；

第一执行模块506，用于若各目标业务均在额定期限内到期，将目标对象的对象信息输入至预先训练出的第一预测模型中，利用第一预测模型确定目标对象的第一流失概率；第一预测模型为利用样本业务均在额定期限内到期的样本对象的第一样本对象信息训练得出的模型；

第二执行模块508，用于若各目标业务中存在额定期限内未到期的业务，将目标对象的对象信息输入至预先训练出的第二预测模型中，利用第二预测模型确定目标对象的第二流失概率；第二预测模型为利用存在样本业务未在额定期限内到期的样本对象的第二样本对象信息训练得出的模型。本申请实施例提供的一种对象流失概率的确定装置，具有与上述一种对象流失概率的确定方法相同的有益效果。

在其中一个实施例中，第一执行模块包括：

获取子模块，用于获取第一训练样本；第一训练样本包括样本业务均在额定期限内到期的样本对象的第一样本对象信息以及与第一样本对象信息对应的标签信息；

输入子模块，用于将第一训练样本输入至初始神经网络中进行学习训练，得到第一预测模型。

在其中一个实施例中，初始神经网络包括第一初始神经网络和第二初始神经网络；输入子模块包括：

第一训练单元，用于利用第一样本特征信息和对应的标签信息，对第一初始神经网络进行训练，获得对应的第一子模型；

第二训练单元，用于利用第二样本特征信息和对应的标签信息，对第二初始神经网络进行训练，获得对应的第二子模型；

确定单元，用于根据第一子模型和第二子模型，得到第一预测模型。

在其中一个实施例中，第一训练单元包括：

获取子单元，用于对获取到的原始数据信息进行透传、交叉比对或统计聚合操作，确定出第一样本对象信息。

在其中一个实施例中，装置还包括：

条件确定模块，用于确定目标对象是否符合硬性流失条件；

条件执行模块，用于若目标对象符合硬性流失条件，确定目标对象为到期流失对象；否则，返回确定模块。

上述对象流失概率的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种对象流失概率的确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取目标对象的各业务标识；

确定各业务标识分别对应的目标业务是否均在额定期限内到期；

若各目标业务均在额定期限内到期，将目标对象的对象信息输入至预先训练出的第一预测模型中，利用第一预测模型确定目标对象的第一流失概率；第一预测模型为利用样本业务均在额定期限内到期的样本对象的第一样本对象信息训练得出的模型；

若各目标业务中存在额定期限内未到期的业务，将目标对象的对象信息输入至预先训练出的第二预测模型中，利用第二预测模型确定目标对象的第二流失概率；第二预测模型为利用存在样本业务未在额定期限内到期的样本对象的第二样本对象信息训练得出的模型。

本申请实施例提供的一种计算机设备，具有与上述一种对象流失概率的确定方法相同的有益效果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取目标对象的各业务标识；

本申请实施例提供的一种计算机可读存储介质，具有与上述一种对象流失概率的确定方法相同的有益效果。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取目标对象的各业务标识；

本申请实施例提供的一种计算机程序产品，具有与上述一种对象流失概率的确定方法相同的有益效果。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种对象流失概率的确定方法，其特征在于，所述方法包括：

获取目标对象的各业务标识；

2.根据权利要求1所述的方法，其特征在于，获取所述第一预测模型的过程，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一样本对象信息包括：所述样本对象办理所述样本业务前信息对应的第一样本特征信息，以及所述样本对象办理所述样本业务后信息对应的第二样本特征信息。

4.根据权利要求3所述的方法，其特征在于，所述初始神经网络包括第一初始神经网络和第二初始神经网络；所述将所述第一训练样本输入至初始神经网络中进行学习训练，得到所述第一预测模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一样本对象信息包括所述样本对象的基本信息和与所述样本对象对应的关联信息。

6.根据权利要求4所述的方法，其特征在于，获取所述第一样本对象信息的过程，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，在所述确定各所述业务标识分别对应的目标业务是否均在额定期限内到期之前，所述方法还包括：

确定所述目标对象是否符合硬性流失条件；

8.一种对象流失概率的确定装置，其特征在于，所述装置包括：

获取模块，用于获取目标对象的各业务标识；

9.根据权利要求8所述的装置，其特征在于，所述第一执行模块包括：

获取子模块，用于获取所述第一训练样本；所述第一训练样本包括所述样本业务均在所述额定期限内到期的所述样本对象的所述第一样本对象信息以及与所述第一样本对象信息对应的标签信息；

输入子模块，用于将所述第一训练样本输入至初始神经网络中进行学习训练，得到所述第一预测模型。

10.根据权利要求9所述的装置，其特征在于，所述初始神经网络包括第一初始神经网络和第二初始神经网络；所述输入子模块包括：

第一训练单元，用于利用所述第一样本特征信息和对应的标签信息，对所述第一初始神经网络进行训练，获得对应的第一子模型；

第二训练单元，用于利用所述第二样本特征信息和对应的标签信息，对所述第二初始神经网络进行训练，获得对应的第二子模型；

确定单元，用于根据所述第一子模型和所述第二子模型，得到所述第一预测模型。

11.根据权利要求10所述的装置，其特征在于，所述第一训练单元包括：

12.根据权利要求8至11任一项所述的装置，其特征在于，还包括：

条件确定模块，用于确定所述目标对象是否符合硬性流失条件；

条件执行模块，用于若所述目标对象符合所述硬性流失条件，确定所述目标对象为到期流失对象；否则，返回所述确定模块。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。