CN115115157A

CN115115157A - 逾期风险预测方法、装置、计算机设备和存储介质

Info

Publication number: CN115115157A
Application number: CN202110307172.3A
Authority: CN
Inventors: 廖奇; 谢欢; 陈浩林; 陈娟; 胡珊; 彭善衡; 罗晓衡; 易晨希; 聂蕊楠; 唐勇; 张鹏; 周聪聪; 聂思琪; 韩坤华
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-09-27

Abstract

本申请涉及一种逾期风险预测方法、装置、计算机设备和存储介质。所述方法包括：获取待预测对象的分群相关数据，根据分群相关数据确定待预测对象所属的分群类别；根据待预测对象所属的分群类别，获取分群类别对应的风险参考数据，风险参考数据包括目标特征变量对应的风险数据；根据风险参考数据以及待预测对象的目标特征数据，获得待预测对象的逾期风险预测结果，目标特征数据表示与目标特征变量对应的特征数据。采用本方法能够对未来逾期情况进行针对性预测，提高预测结果的精准性。

Description

逾期风险预测方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种逾期风险预测方法、装置、计算机设备和存储介质。

背景技术

随着物流业务量的高速增长，一些企业采取约定时间的方式向物流公司支付物流费用，例如月结方式，可以在每个月的月末支付当月的物流费用。月结企业可能存在逾期风险，物流公司需要加强月结企业逾期风险的预警能力，以降低经营风险，提升资金风险管控能力。

目前，通常使用一个通用模型来监控全量客户的准入阶段，无法判断合作中企业的状态和未来的逾期倾向，缺乏精准的事中监控。

发明内容

基于此，有必要针对上述技术问题，提供一种能够对未来逾期情况进行预测的逾期风险预测方法、装置、计算机设备和存储介质。

一种逾期风险预测方法，所述方法包括：

获取待预测对象的分群相关数据，根据所述分群相关数据确定所述待预测对象所属的分群类别；

根据所述待预测对象所属的分群类别，获取所述分群类别对应的风险参考数据，所述风险参考数据包括目标特征变量对应的风险数据；

根据所述风险参考数据以及所述待预测对象的目标特征数据，获得所述待预测对象的逾期风险预测结果，所述目标特征数据表示与所述目标特征变量对应的特征数据。

一种逾期风险预测装置，所述装置包括：

分群模块，用于获取待预测对象的分群相关数据，根据所述分群相关数据确定所述待预测对象所属的分群类别；

确定模块，用于根据所述待预测对象所属的分群类别，获取所述分群类别对应的风险参考数据，所述风险参考数据包括目标特征变量对应的风险数据；

预测模块，用于根据所述风险参考数据以及所述待预测对象的目标特征数据，获得所述待预测对象的逾期风险预测结果，所述目标特征数据表示与所述目标特征变量对应的特征数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述逾期风险预测方法、装置、计算机设备和存储介质，获取待预测对象的分群相关数据，根据分群相关数据确定待预测对象所属的分群类别；根据待预测对象所属的分群类别，获取分群类别对应的风险参考数据，风险参考数据包括目标特征变量对应的风险数据；根据风险参考数据以及待预测对象的目标特征数据，获得待预测对象的逾期风险预测结果，目标特征数据表示与目标特征变量对应的特征数据。据此，先确定待预测对象所属的分群类别，然后基于分群类别对应的风险参考数据以及待预测对象的目标特征数据来预测待预测对象的未来逾期情况，使得逾期风险预测更有针对性，有助于提高预测结果的精准性，实现事中监控。

附图说明

图1为一个实施例中逾期风险预测方法的流程示意图；

图2为一个实施例中任一分群类别对应的风险参考数据的生成方法的流程示意图；

图3为一个实施例中根据风险参考数据以及待预测对象的目标特征数据，获得待预测对象的逾期风险预测结果步骤的流程示意图；

图4为一个实施例中任一分群类别对应的预测模型的确定方法的流程示意图；

图5为一个实施例中逾期风险预测装置的结构框图；

图6为一个实施例中计算机设备的内部结构图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种逾期风险预测方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤S102至步骤S106。

S102，获取待预测对象的分群相关数据，根据分群相关数据确定待预测对象所属的分群类别。

待预测对象表示与物流方(例如物流公司)合作中的企业，物流方为企业提供物流服务，企业向物流方定期支付费用，例如采用月结方式支付费用。为提升资金风险管控，物流方可以定期对企业未来逾期支付的可能性进行预测，以降低经营风险。

分群相关数据是指与分群类别相关的数据，用于确定待预测对象所属的分群类别。分群类别可以基于多种规则进行划分，例如可以按照业务类型对企业进行分群，还可以按照一段时间内的物流交易数额对企业进行分群。

S104，根据待预测对象所属的分群类别，获取分群类别对应的风险参考数据，风险参考数据包括目标特征变量对应的风险数据。

可以预先建立分群类别与风险参考数据之间的映射关系，每一分群类别对应一风险参考数据。确定待预测对象的分群类别之后，可以根据待预测对象所属的分群类别、以及预先建立的映射关系，获得待预测对象所属的分群类别所对应的风险参考数据。

每一分群类别对应的风险参考数据，可以根据大量属于该分群类别的企业的历史逾期表现数据确定，用于预测属于该分群类别的待预测对象的未来逾期倾向。目标特征变量可以理解为逾期风险预测能力较强的特征变量，风险数据用于衡量逾期风险，举例来说，风险数据可以是得分形式，得分越高，表示风险越小。每个目标特征变量可以包括多个分箱特征，以目标特征变量为“行业类别”为例，其分箱特征可以包括“制造业”、“科学研究和技术服务业”、“批发和零售业”和“其他”，目标特征变量对应的风险数据包括该目标特征变量下的各分箱特征的风险数据。

S106，根据风险参考数据以及待预测对象的目标特征数据，获得待预测对象的逾期风险预测结果，目标特征数据表示与目标特征变量对应的特征数据。

从风险参考数据中可以得知预测所需的目标特征变量，基于所需的目标特征变量，获取待预测对象的目标特征数据，即获取与目标特征变量对应的特征数据，特征数据可以理解为目标特征变量的具体参数值。以目标特征变量为“行业类别”为例，与该目标特征变量对应的特征数据可以是“制造业”、“科学研究和技术服务业”、“批发和零售业”和“其他”中的任意一个。

上述逾期风险预测方法中，获取待预测对象的分群相关数据，根据分群相关数据确定待预测对象所属的分群类别；根据待预测对象所属的分群类别，获取分群类别对应的风险参考数据，风险参考数据包括目标特征变量对应的风险数据；根据风险参考数据以及待预测对象的目标特征数据，获得待预测对象的逾期风险预测结果，目标特征数据表示与目标特征变量对应的特征数据。据此，先确定待预测对象所属的分群类别，然后基于分群类别对应的风险参考数据以及待预测对象的目标特征数据来预测待预测对象的未来逾期情况，使得逾期风险预测更有针对性，有助于提高预测结果的精准性，实现事中监控。

在一个实施例中，分群相关数据包括：业务类型和物流交易数额，分群类别包括：第一分群类别和第二分群类别。分群类别可以基于多种规则进行划分，按照业务类型对企业进行分群时对应第一分群类别，按照物流交易数额对企业进行分群时对应第二分群类别。其中，物流交易数额可以是最近N个月内的月均物流交易数额，N为正整数。

具体而言，第一分群类别可以包括：电商对象、专业市场对象和特色经济对象，举例来说，网购平台的商家属于电商对象，产品为油画、古玩的商家属于专业市场对象，产品为大闸蟹的商家属于特色经济对象。需要说明的是，对于属于同一第一分群类别的企业客户，其具有更为相似的逾期表现数据，因此第一分群类别对应的风险参考数据有助于更为精准地预测第一分群类别下的企业客户的未来逾期风险。

第二分群类别可以包括：重要对象和一般对象，具体可以根据物流交易数额与预设数额节点的大小关系来进行划分，举例来说，预设数额节点设为10000元，物流交易数额大于或等于10000元的企业客户属于重要对象，物流交易数额小于10000元的企业客户属于一般对象。需要说明的是，预设数额节点的数量不限于一个，可以是多个，相应地第二分群类别的划分也不限于上述划分。在另一示例中，第二分群类别可以包括：非常重要对象、重要对象和一般对象，预设数额节点包括50000元和10000元，物流交易数额大于或等于50000元的企业客户属于非常重要对象，物流交易数额小于50000元且大于或等于10000元的企业客户属于重要对象，物流交易数额小于10000元的企业客户属于一般对象。

可以理解的是，上述实施例中，第一分群类别可能无法涵盖所有企业客户，即有些企业客户的业务类型不在第一分群类别的范围内，从而无法划分到第一分群类别中，此外一个企业客户可能同时属于多个第一分群类别，例如同时属于电商对象和专业市场对象。第二分群类别可以涵盖所有企业客户，即所有企业客户都可以划分到第二分群类别中。

在一个实施例中，当基于业务类型确定待预测对象属于第一分群类别时，根据待预测对象所属的第一分群类别，确定待预测对象所属的分群类别。

若待预测对象只属于第一分群类别中的任意一种，则将待预测对象所属的第一分群类别作为待预测对象所属的分群类别。若待预测对象所属的第一分群类别数量大于一个，则按照电商对象、专业市场对象和特色经济对象的优先级排序，确定待预测对象所属的分群类别。举例来说，若待预测对象同时属于电商对象和专业市场对象，则确定待预测对象所属的分群类别为电商对象。

在一个实施例中，当基于业务类型确定待预测对象不属于第一分群类别时，根据物流交易数额确定待预测对象所属的第二分群类别，将待预测对象所属的第二分群类别确定为待预测对象所属的分群类别。

若待预测对象的业务类型不在第一分群类别的范围内，则确定待预测对象不属于第一分群类别，再根据物流交易数额确定待预测对象所属的第二分群类别，并将待预测对象所属的第二分群类别确定为待预测对象所属的分群类别。

上述实施例中，对待预测对象优先基于业务类型进行分群，当基于业务类型确定属于第一分群类别时，根据第一分群类别来确定待预测对象所属的分群类别，当基于业务类型确定不属于第一分群类别时，再对待预测对象基于物流交易数额进行分群获得第二分群类别，将第二分群类别确定为待预测对象所属的分群类别。据此对待预测对象所属的分群类别进行确定后，根据所属的分群类别对应的风险参考数据来预测待预测对象的未来逾期情况，使得逾期风险预测更有针对性，有助于提高预测结果的精准性。

在一个实施例中，目标特征变量对应的风险数据包括：目标特征变量的各分箱特征的风险值。每个目标特征变量可以包括多个分箱特征，例如，目标特征变量为“行业类别”，其分箱特征可以包括“制造业”、“科学研究和技术服务业”、“批发和零售业”和“其他”；目标特征变量为“地理区域”，其分箱特征可以包括“华北”、“华东”、“华南”和“其他”；目标特征变量为“企业类型”，其分箱特征可以包括“上市公司”、“国有企业”、“外资企业”、“合伙制公司”、“个人企业”、“股份公司”、“有限公司”和“其他”；目标特征变量为“是否有抵押信息”，其分箱特征可以包括“是”和“否”；目标特征变量为“诉讼次数”，其分箱特征可以包括“0次”、“1次”和“大于1次”。每一分箱特征对应有一风险值，用于衡量逾期风险，在一个实施例中，风险值为得分形式，得分越高，表示风险越小。

如图2所示，对于任一分群类别，其对应的风险参考数据的生成方法，可以包括以下步骤S202至步骤S204。

S202，通过分群类别对应的预测模型获得各目标特征变量的权重。

每一分群类别对应一个预测模型，每一分群类别对应的预测模型可以利用属于该分群类别的企业的历史逾期表现数据作为样本数据训练获得。在构建模型的过程中，将目标特征变量作为入模变量，以训练结束后模型输出的各入模变量的系数作为各目标特征变量的权重。目标特征变量的权重可以理解为该目标特征变量对于逾期的影响程度，权重越高，表示目标特征变量用于预测逾期风险的能力越强。

S204，对于每一目标特征变量，根据目标特征变量的权重、及其各分箱特征的证据权重，得到目标特征变量的各分箱特征的风险值。

分箱特征的证据权重用于表征该分箱特征响应逾期的可能性，分箱特征的证据权重越大，该分箱特征响应逾期的可能性越小，分箱特征的证据权重越小，该分箱特征响应逾期的可能性越大。各分箱特征的证据权重可以根据样本对象的相关数据计算获得，样本对象为已知在预测时间点之后的预设时间段内是否发生了逾期的企业客户，包括正样本和负样本，正样本为发生了逾期的企业客户，负样本为没有发生逾期的企业客户。

对于任一目标特征变量，该目标特征变量的任一分箱特征的证据权重(用woe表示)可以通过以下公式计算：

其中，i表示目标特征变量的第i个分箱特征，woe_i表示第i个分箱特征的证据权重，#y_i表示第i个分箱特征对应的正样本数量，#n_i表示第i个分箱特征对应的负样本数量，#y_T表示所有正样本的数量，#n_T表示所有负样本的数量，py_i表示i个分箱特征对应的正样本与所有正样本的数量比例，pn_i表示i个分箱特征对应的负样本与所有负样本的数量比例。对于任一分箱特征来说，其对应的正样本为具有该分箱特征的样本中发生了逾期的样本，也即所有正样本中具有该分箱特征的正样本，其对应的负样本为具有该分箱特征的样本中未发生逾期的样本，也即所有负样本中具有该分箱特征的负样本。

在一个实施例中，根据目标特征变量的权重、及其各分箱特征的证据权重，得到目标特征变量的各分箱特征的风险值，具体可以是将目标特征变量的权重分别与各分箱特征的证据权重进行相乘，从而得到各分箱特征的风险值。

在一个实施例中，目标特征数据包括：各目标特征变量的参数值。如图3所示，根据风险参考数据以及待预测对象的目标特征数据，获得待预测对象的逾期风险预测结果的步骤，具体可以包括以下步骤S302至步骤S304。

S302，根据各目标特征变量的参数值，在风险参考数据中匹配对应的分箱特征，基于匹配到的各分箱特征的风险值，确定各参数值的风险值。

可以基于目标特征变量的参数值直接获得其对应的分箱特征，还可以基于目标特征变量的参数值进行分析获得其对应的分箱特征。例如，对于目标特征变量“是否有抵押信息”，其分箱特征包括“是”和“否”，获取的参数值为“是”，即可直接获得其对应的分箱特征为“是”。对于目标特征变量“诉讼次数”，其分箱特征可以包括“0次”、“1次”和“大于1次”，获取的参数值为“2次”，通过数据对比分析可确定其对应的分箱特征为“大于1次”。

对于每一目标特征变量的参数值，该参数值匹配到对应的分箱特征后，将匹配到的分箱特征的风险值，作为该参数值的风险值。

S304，根据各参数值的风险值，获得待预测对象的逾期风险预测结果。

具体而言，可以将所有参数值的风险值进行相加，将得到的风险值总和作为待预测对象的逾期风险预测结果。

在一个实施例中，如图4所示，对于任一分群类别，其对应的预测模型的确定方法，可以包括以下步骤S402至步骤S408。

S402，获取属于分群类别的样本对象的样本特征数据和样本标签，样本标签用于表示样本对象是否发生逾期。

样本对象为已知在预测时间点之后的预设时间段内是否发生了逾期的企业客户，样本标签用于表示样本对象在预测时间点之后的预设时间段内是否发生了逾期。样本特征数据可以包括但不限于涉及地理区域、行业类别、企业类型、信息变更(例如企业名称、地址等信息变更)、抵押信息、行政处罚、法律诉讼、物流账单金额、付款金额、付款天数、逾期天数、逾期金额的数据。此外，还可以通过数据统计对上述数据进行变换，以获得更多的特征变量，例如对历史时段(如12个月)内的物流账单金额进行求和、求平均值、求标准差、求最大值等，或者获取各个不同历史时段内的数据，例如最近半年、一年和两年的数据。

S404，对样本特征数据进行筛选，获得目标特征数据。

获得样本特征数据之后，可以先对样本特征数据进行清洗，以提高数据质量，例如对缺失值进行剔除或填充、对异常值进行剔除、过滤掉无效数据等。然后可以基于样本特征数据中各特征变量对于模型预测的重要程度，对样本特征数据进行筛选，获得目标特征数据。目标特征数据包括目标特征变量对应的特征数据，用于构建和训练模型。

在一个实施例中，对样本特征数据进行筛选，获得目标特征数据的步骤，具体可以包括：根据样本特征数据中各样本特征变量的信息量、以及样本特征变量之间的共线性和相关性，对样本特征数据进行筛选，得到第一特征数据；利用随机森林模型和Lasso回归模型对第一特征数据进行筛选，得到目标特征数据。

信息量(Information Value,IV)表示特征变量所蕴含的信息价值，用于衡量特征变量与发生逾期之间的重要性程度。通过对每个特征变量分箱后进行证据权重(WOE)编码，可以得到每个特征变量的信息量。基于信息量进行筛选，具体可以是将信息量在预设区间外的特征变量剔除，保留信息量在预设区间外的特征变量用于后续筛选。在一个实施例中，预设区间为[0.1,0.5]，若特征变量的信息量小于该区间，则认为该特征变量所蕴含的信息价值不足，若特征变量的信息量大于该区间，则认为该特征变量具有欺骗性，因此将这两种情况下的特征变量剔除。

共线性是指变量之间的线性关联关系，可以通过逐步回归法，依次对变池中的变量进行筛选，仅保留不存在共线性的变量。

相关性是指变量之间的关联程度，当两个变量的相关性较高，说明这两个变量有着相似的变化趋势，可以通过构建变量间的相关性矩阵，仅保留相关性小于一定阈值的变量，使变量池更简洁。

随机森林模型是一种典型的树形模型，适用于变量池中变量数目较多的场景，同时该模型具有一个重要的特性，即能够计算单个特征变量的重要性，因此具有很好的可解释性，可应用于特征筛选。随机森林计算特征重要性的核心逻辑如下：若给某个特征变量随机加入噪声之后，袋外(OOB)的准确率大幅度降低，则说明该特征变量对于样本的分类结果影响很大，即该特征变量的重要程度比较高。通过随机森林模型，可以得到全部变量的重要性得分，并降序排序，取前一定数量的变量，从而对特征变量进行筛选。

Lasso回归属于正则化方法的一种，通过在线性回归模型的代价函数后面加上L1范数的约束项的方法，将特征的系数进行压缩并使某些回归系数变为0，进而达到特征变量选择的目的。

上述实施例中，基于信息量可以筛选出对正负样本区分能力较强的变量，进一步通过共线性和相关性检验可以使得模型更加稳定，再进一步结合随机森林模型与Lasso回归模型可以筛选出预测能力更强、解释效力更好的特征变量，从而提升模型的预测能力和解释效力。

S406，通过待训练预测模型基于目标特征数据进行映射，获得样本对象的逾期预测结果。

以目标特征变量作为入模变量，将目标特征数据输入待训练预测模型，模型输出样本对象的逾期预测结果，该逾期预测结果用于表示样本对象在预测时间点之后的预设时间段内是否将会发生逾期。

S408，基于样本对象的逾期预测结果和样本标签，调整待训练预测模型的参数，直至满足模型训练结束条件，获得训练好的预测模型。

可以根据逾期预测结果和样本标签的差异建立损失函数，训练结束条件可以是损失函数的值小于设定阈值，也可以是迭代次数达到预设次数。

预测模型训练好之后，根据训练好的预测模型的入模变量系数，获得目标特征变量的权重，用于逾期风险预测。在一个实施例中，还可以基于各目标特征变量的权重对目标特征变量进行进一步筛选，筛选出与逾期概率显著相关的特征变量，用于逾期风险预测。

在一个实施例中，利用统计学指标来衡量模型效果，指标可以包括但不限于AUC、KS和PSI。

AUC(Area Under Curve)被定义为ROC曲线下的面积，用于衡量分类器效果，通过计算随机抽取一个正样本和负样本，模型对正样本的预测值高于负样本预测值的概率多少，即可以得到该指标。AUC的取值范围在[0,1]之间，数值越高，说明模型的分类更优秀。

KS(Kolmogorov Smirnov)用于评估模型的风险区分能力，通过计算好坏样本累计分部之间的差值获得该指标。KS的取值区间落在[0,1]之间，好坏样本累计差异越大，KS指标越大，说明模型的风险区分能力越强。

PSI(Population Stability Index)用于衡量测试样本及模型开发样本评分的分布差异，为最常见的模型稳定度评估指针。该指标表示的是按分数分档后，针对不同样本、或者不同时间的样本，总体分布是否有变化，通过各个分数区间内人数占总人数的占比是否有显著变化获得该指标。PSI的取值区间落在[0,1]之间，PSI越低，模型越稳定，PSI取值在0.1以下可认为模型是稳定的。

在一个实施例中，预测模型采用逻辑回归模型，逻辑回归模型是一种典型的线性模型，适用于二分类问题，运算资源占用小，有着较好的可解释性，特别适用于逾期风险预测的场景。通过逻辑回归算法，可以从特征变量的权重清晰的看到不同特征变量对最后结果的影响。

在一个实施例中，以评分卡的形式输出模型结果，直观且方便进行后续预测。具体而言，结合逻辑回归模型输出的目标特征变量的权重、以及目标特征变量对应的WOE编码，进而得到每个目标特征变量下的各分箱特征的具体得分，以评分卡的形式保存，从而在应用时，根据待预测对象的目标变量特征的参数值，在评分卡中匹配对应的分箱特征的得分，即可得到待预测对象的逾期风险得分，预测效率高。

在一个实施例中，获得待预测对象的逾期风险得分之后，根据逾期风险得分获得对应的风险等级。可以预先建立逾期风险得分与风险等级之间的映射关系，例如将风险等级由高到低划分为S、A、B、C和D五个等级，每个等级对应一个得分区间。从而根据待预测对象的逾期风险得分，获得其所在的得分区间，继而根据上述映射关系获得对应的风险等级。

在一个实施例中，获得待预测对象的风险等级之后，可以根据该风险等级调整待预测对象的授信额度、最大账期等，以加强风险管控。

上述实施例中，通过对不同分群类别的企业客户进行针对性预测，提升了逾期风险预测能力，从而可以精准地对企业客户进行事中风险监控，提高了额度适应率，实现对额度总风险敞口的控制。

应该理解的是，虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种逾期风险预测装置500，包括：分群模块510、获取模块520和预测模块530，其中：

分群模块510，用于获取待预测对象的分群相关数据，根据分群相关数据确定待预测对象所属的分群类别。

获取模块520，用于根据待预测对象所属的分群类别，获取分群类别对应的风险参考数据，风险参考数据包括目标特征变量对应的风险数据。

预测模块530，用于根据风险参考数据以及待预测对象的目标特征数据，获得待预测对象的逾期风险预测结果，目标特征数据表示与目标特征变量对应的特征数据。

在一个实施例中，分群相关数据包括：业务类型和物流交易数额，分群类别包括：第一分群类别和第二分群类别。分群模块510在根据分群相关数据确定待预测对象所属的分群类别时，具体用于：当基于业务类型确定待预测对象属于第一分群类别时，根据待预测对象所属的第一分群类别，确定待预测对象所属的分群类别；当基于业务类型确定待预测对象不属于第一分群类别时，根据物流交易数额确定待预测对象所属的第二分群类别，将待预测对象所属的第二分群类别确定为待预测对象所属的分群类别。

在一个实施例中，第一分群类别包括：电商对象、专业市场对象和特色经济对象。分群模块510在根据待预测对象所属的第一分群类别，确定待预测对象所属的分群类别时，具体用于：若待预测对象所属的第一分群类别数量大于一个，则按照电商对象、专业市场对象和特色经济对象的优先级排序，确定待预测对象所属的分群类别。

在一个实施例中，目标特征变量对应的风险数据包括：目标特征变量的各分箱特征的风险值。该装置还包括生成模块，用于生成各分群类别对应的风险参考数据。生成模块具体用于：对于任一分群类别，通过分群类别对应的预测模型获得各目标特征变量的权重；对于每一目标特征变量，根据目标特征变量的权重、及其各分箱特征的证据权重，得到目标特征变量的各分箱特征的风险值。

在一个实施例中，目标特征数据包括：各目标特征变量的参数值。预测模块530在根据风险参考数据以及待预测对象的目标特征数据，获得待预测对象的逾期风险预测结果时，具体用于：根据各目标特征变量的参数值，在风险参考数据中匹配对应的分箱特征，基于匹配到的各分箱特征的风险值，确定各参数值的风险值；根据各参数值的风险值，获得待预测对象的逾期风险预测结果。

在一个实施例中，该装置还包括模型确定模块，用于获得各分群类别对应的预测模型。模型确定模块具体用于：对于每一分群类别，获取属于分群类别的样本对象的样本特征数据和样本标签，样本标签用于表示样本对象是否发生逾期；对样本特征数据进行筛选，获得目标特征数据；通过待训练预测模型基于目标特征数据进行映射，获得样本对象的逾期预测结果；基于样本对象的逾期预测结果和样本标签，调整待训练预测模型的参数，直至满足模型训练结束条件，获得训练好的预测模型。

在一个实施例中，模型确定模块在对样本特征数据进行筛选，获得目标特征数据时，具体用于：根据样本特征数据中各样本特征变量的信息量、以及样本特征变量之间的共线性和相关性，对样本特征数据进行筛选，得到第一特征数据；利用随机森林模型和Lasso回归模型对第一特征数据进行筛选，得到目标特征数据。

关于逾期风险预测装置的具体限定可以参见上文中对于逾期风险预测方法的限定，在此不再赘述。上述逾期风险预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种逾期风险预测方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种逾期风险预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6或图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各个方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个方法实施例中的步骤。

需要理解的是，上述实施例中的术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种逾期风险预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述分群相关数据包括：业务类型和物流交易数额，所述分群类别包括：第一分群类别和第二分群类别；

根据所述分群相关数据确定所述待预测对象所属的分群类别，包括：

当基于所述业务类型确定所述待预测对象属于所述第一分群类别时，根据所述待预测对象所属的第一分群类别，确定所述待预测对象所属的分群类别；

当基于所述业务类型确定所述待预测对象不属于所述第一分群类别时，根据所述物流交易数额确定所述待预测对象所属的第二分群类别，将所述待预测对象所属的第二分群类别确定为所述待预测对象所属的分群类别。

3.根据权利要求2所述的方法，其特征在于，所述第一分群类别包括：电商对象、专业市场对象和特色经济对象；根据所述待预测对象所属的第一分群类别，确定所述待预测对象所属的分群类别，包括：

若所述待预测对象所属的第一分群类别数量大于一个，则按照电商对象、专业市场对象和特色经济对象的优先级排序，确定所述待预测对象所属的分群类别。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述目标特征变量对应的风险数据包括：所述目标特征变量的各分箱特征的风险值；对于任一分群类别，其对应的风险参考数据的生成方法包括：

通过所述分群类别对应的预测模型获得各目标特征变量的权重；

对于每一所述目标特征变量，根据所述目标特征变量的权重、及其各分箱特征的证据权重，得到所述目标特征变量的各分箱特征的风险值。

5.根据权利要求4所述的方法，其特征在于，所述目标特征数据包括：各所述目标特征变量的参数值；根据所述风险参考数据以及所述待预测对象的目标特征数据，获得所述待预测对象的逾期风险预测结果，包括：

根据各所述目标特征变量的参数值，在所述风险参考数据中匹配对应的分箱特征，基于匹配到的各分箱特征的风险值，确定各所述参数值的风险值；

根据各所述参数值的风险值，获得待预测对象的逾期风险预测结果。

6.根据权利要求5所述的方法，其特征在于，所述分群类别对应的预测模型的确定方法包括：

获取属于所述分群类别的样本对象的样本特征数据和样本标签，所述样本标签用于表示所述样本对象是否发生逾期；

对所述样本特征数据进行筛选，获得目标特征数据；

通过待训练预测模型基于所述目标特征数据进行映射，获得所述样本对象的逾期预测结果；

基于所述样本对象的逾期预测结果和样本标签，调整所述待训练预测模型的参数，直至满足模型训练结束条件，获得训练好的预测模型。

7.根据权利要求6所述的方法，其特征在于，对所述样本特征数据进行筛选，获得目标特征数据，包括：

根据所述样本特征数据中各样本特征变量的信息量、以及样本特征变量之间的共线性和相关性，对所述样本特征数据进行筛选，得到第一特征数据；

利用随机森林模型和Lasso回归模型对所述第一特征数据进行筛选，得到目标特征数据。

8.一种逾期风险预测装置，其特征在于，所述装置包括：

获取模块，用于根据所述待预测对象所属的分群类别，获取所述分群类别对应的风险参考数据，所述风险参考数据包括目标特征变量对应的风险数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。