CN117788139A

CN117788139A - 信息输出模型的训练方法、装置、计算机设备、存储介质

Info

Publication number: CN117788139A
Application number: CN202311702379.6A
Authority: CN
Inventors: 黄湧城; 崔旻抒; 穆林
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-03-29

Abstract

本申请涉及一种信息输出模型的训练方法、装置、计算机设备、存储介质和计算机程序产品，涉及人工智能技术领域。所述方法包括：获取目标账户集群的账户样本数据；根据第一账户集群的账户样本数据构建初始概率信息输出模型；以逾期概率信息为样本权重，对第二账户集群的账户样本数据进行加权，并将加权后的样本数据与第一账户集群的账户样本数据进行合并，得到目标样本数据；根据目标样本数据对初始概率信息输出模型进行训练，得到目标概率信息输出模型。采用本方法能够提升资源申请方账户资源转移额度的评估准确度。

Description

信息输出模型的训练方法、装置、计算机设备、存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种信息输出模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

在人工智能技术领域中，在资源申请方需要向资源提供方申请资源转移时，资源提供方为了能降低转移资源的风险，不直接转移资源给资源申请方，而是首先根据资源申请方的资质进行评估，来确定是否对资源申请端进行资源转移额度的授予，以完成资源转移。

在实际评估过程中，由于当前针对资源申请方的账户信息评估手段的单一性，导致大量资源申请方的账户被拒绝授予资源转移额度，从而导致资源提供方的转移出的资源体量的减少，同时也使得资源申请方账户不能享受资源转移服务。

可知，当前针对资源申请方账户的资源转移额度的评估准确度较低，缺乏针对已被拒绝授予资源转移额度账户的精细化评估的手段。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升资源申请方账户资源转移额度的评估准确度的信息输出模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种信息输出模型的训练方法。所述方法包括：

获取目标账户集群的账户样本数据；所述目标账户集群包括第一账户集群和第二账户集群，所述第一账户集群包括在资源调用额度评估过程中被授予资源调用额度的账户；所述第二账户集群包括在资源调用额度评估过程中被拒绝授予资源调用额度的账户；

根据所述第一账户集群的账户样本数据构建初始概率信息输出模型；所述初始概率信息输出模型用于输出所述第二账户集群对应的逾期概率信息；所述逾期概率信息表征所述第二账户集群的账户未在设定时间内返回已调用资源的概率；

以所述逾期概率信息为样本权重，对所述第二账户集群的账户样本数据进行加权，并将加权后的样本数据与所述第一账户集群的账户样本数据进行合并，得到目标样本数据；

根据所述目标样本数据对所述初始概率信息输出模型进行训练，得到目标概率信息输出模型。

在其中一个实施例中，所述以所述逾期概率信息为样本权重，对所述第二账户集群的账户样本数据进行加权，并将加权后的样本数据与所述第一账户集群的账户样本数据进行合并，得到目标样本数据，包括：

根据所述逾期概率信息确定如期概率信息；所述如期概率信息表征所述第二账户集群的账户在设定时间内返回已调用资源的概率；

以所述逾期概率信息的概率值作为样本系数，对所述第二账户集群的账户样本数据进行加权，得到第一样本数据；

以所述如期概率信息的概率值作为样本系数，对所述第二账户集群的账户样本数据进行加权，得到第二样本数据；

合并所述第一样本数据、所述第二样本数据和所述第一账户集群的账户样本数据，得到所述目标样本数据。

在其中一个实施例中，所述获取目标账户集群的账户样本数据，包括：

获取所述目标账户集群的账户特征数据；所述账户特征数据包括至少一种维度的特征变量；

对所述账户特征数据进行特征工程处理，得到完成变量扩充后的批量样本数据；

基于变量筛选指标对所述批量样本数据进行筛选，得到目标变量；

将包含所述目标变量的所述批量样本数据，作为所述账户样本数据。

在其中一个实施例中，所述变量筛选指标包括初筛指标和模型评估指标，所述基于变量筛选指标对所述批量样本数据进行筛选，得到目标变量，包括：

基于所述初筛指标对所述批量样本数据中的各变量进行评估，得到所述初筛指标的第一评估值；

将所述第一评估值满足第一预设指标要求的变量对应的所述批量样本数据，作为初筛后样本数据；

基于所述模型评估指标对所述初筛后样本数据中的各变量进行评估，得到所述模型评估指标的第二评估值；

将所述第二评估值满足第二预设指标要求的变量，作为所述目标变量。

在其中一个实施例中，所述基于所述模型评估指标对所述初筛后样本数据中的各变量进行评估，得到所述模型评估指标的第二评估值，包括：

根据所述第一账户集群的所述初筛后样本数据构建得到变量筛选模型；

基于所述模型评估指标，对所述变量筛选模型的输出结果进行评估，得到所述第二评估值。

在其中一个实施例中，所述根据所述目标样本数据对所述初始概率信息输出模型进行训练，得到目标概率信息输出模型，包括：

在所述初始概率信息输出模型的模型参数的更新率小于预设的模型收敛阈值的情况下，确定所述模型参数为目标参数；

将所述目标参数对应的所述初始概率信息输出模型，作为所述目标概率信息输出模型。

在其中一个实施例中，所述方法还包括：

在所述目标概率信息输出模型输出的所述逾期概率信息满足于预设概率阈值的情况下，生成针对所述第二账户集群的资源调用额度授予指示信息，以指示资源提供方向所述第二账户集群提供资源转移服务。

第二方面，本申请还提供了一种信息输出模型的训练装置。所述装置包括：

账户样本数据获取模块，用于获取目标账户集群的账户样本数据；所述目标账户集群包括第一账户集群和第二账户集群，所述第一账户集群包括在资源调用额度评估过程中被授予资源调用额度的账户；所述第二账户集群包括在资源调用额度评估过程中被拒绝授予资源调用额度的账户；

初始概率信息输出模型构建模块，用于根据所述第一账户集群的账户样本数据构建初始概率信息输出模型；所述初始概率信息输出模型用于输出所述第二账户集群对应的逾期概率信息；所述逾期概率信息表征所述第二账户集群的账户未在设定时间内返回已调用资源的概率；

目标样本数据合并模块，用于以所述逾期概率信息为样本权重，对所述第二账户集群的账户样本数据进行加权，并将加权后的样本数据与所述第一账户集群的账户样本数据进行合并，得到目标样本数据；

模型训练模块，用于根据所述目标样本数据对所述初始概率信息输出模型进行训练，得到目标概率信息输出模型。

在其中一个实施例中，所述目标样本数据合并模块，包括：

如期概率信息确定模块，用于根据所述逾期概率信息确定如期概率信息；所述如期概率信息表征所述第二账户集群的账户在设定时间内返回已调用资源的概率；

第一加权模块，用于以所述逾期概率信息的概率值作为样本系数，对所述第二账户集群的账户样本数据进行加权，得到第一样本数据；

第二加权模块，用于以所述如期概率信息的概率值作为样本系数，对所述第二账户集群的账户样本数据进行加权，得到第二样本数据；

目标样本数据合并子模块，用于合并所述第一样本数据、所述第二样本数据和所述第一账户集群的账户样本数据，得到所述目标样本数据。

在其中一个实施例中，所述账户样本数据获取模块，包括：

账户特征数据获取模块，用于获取所述目标账户集群的账户特征数据；所述账户特征数据包括至少一种维度的特征变量；

特征工程模块，用于对所述账户特征数据进行特征工程处理，得到完成变量扩充后的批量样本数据；

变量筛选模块，用于基于变量筛选指标对所述批量样本数据进行筛选，得到目标变量；

账户样本数据确定模块，用于将包含所述目标变量的所述批量样本数据，作为所述账户样本数据。

在其中一个实施例中，所述变量筛选指标包括初筛指标和模型评估指标，所述变量筛选模块，包括：

第一评估模块，用于基于所述初筛指标对所述批量样本数据中的各变量进行评估，得到所述初筛指标的第一评估值；

第一筛选子模块，用于将所述第一评估值满足第一预设指标要求的变量对应的所述批量样本数据，作为初筛后样本数据；

第二评估模块，用于基于所述模型评估指标对所述初筛后样本数据中的各变量进行评估，得到所述模型评估指标的第二评估值；

目标变量确定模块，用于将所述第二评估值满足第二预设指标要求的变量，作为所述目标变量。

在其中一个实施例中，所述第二评估模块，包括：

筛选模型构建模块，用于根据所述第一账户集群的所述初筛后样本数据构建得到变量筛选模型；

第二评估值确定模块，用于基于所述模型评估指标，对所述变量筛选模型的输出结果进行评估，得到所述第二评估值。

在其中一个实施例中，所述模型训练模块，包括：

目标参数确定模块，用于在所述初始概率信息输出模型的模型参数的更新率小于预设的模型收敛阈值的情况下，确定所述模型参数为目标参数；

目标概率信息输出模型确定模块，用于将所述目标参数对应的所述初始概率信息输出模型，作为所述目标概率信息输出模型。

在其中一个实施例中，所述装置还包括：

资源调用额度授予指示信息生成模块，用于在所述目标概率信息输出模型输出的所述逾期概率信息满足于预设概率阈值的情况下，生成针对所述第二账户集群的资源调用额度授予指示信息，以指示资源提供方向所述第二账户集群提供资源转移服务。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述信息输出模型的训练方法、装置、计算机设备、存储介质和计算机程序产品，首先获取目标账户集群的账户样本数据，然后根据第一账户集群的账户样本数据构建初始概率信息输出模型，进而以逾期概率信息为样本权重，对第二账户集群的账户样本数据进行加权，并将加权后的样本数据与第一账户集群的账户样本数据进行合并，得到目标样本数据，最后根据目标样本数据对初始概率信息输出模型进行训练，得到目标概率信息输出模型，克服了当前针对资源申请方的账户信息评估手段的单一性问题，避免了大量资源申请方的账户被拒绝授予资源转移额度的情况，从而避免了资源提供方的转移出的资源体量的减少，使得资源申请方账户能普遍享受资源转移服务，获得了提升针对资源申请方账户的资源转移额度的评估准确度的有益效果。

附图说明

图1为一个实施例中信息输出模型的训练方法的应用环境图；

图2为一个实施例中信息输出模型的训练方法的流程示意图；

图3为另一个实施例中信息输出模型的训练方法的流程示意图；

图4为一个实施例中信息输出模型的训练方法的业务流程示意图；

图5为一个实施例中信息输出模型的训练方法的模型训练流程示意图；

图6为一个实施例中信息输出模型的训练装置的结构框图；

图7为一个实施例中计算机设备的内部结构图；

图8为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，本申请公开的信息输出模型的训练方法、装置、计算机设备、存储介质和计算机程序产品可应用于金融科技领域，也可用于除金融科技领域之外的任意领域。

本申请实施例提供的信息输出模型的训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种信息输出模型的训练方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

S201，获取目标账户集群的账户样本数据。

其中，目标账户集群包括第一账户集群和第二账户集群，第一账户集群包括在资源调用额度评估过程中被授予资源调用额度的账户，第二账户集群包括在资源调用额度评估过程中被拒绝授予资源调用额度的账户。

具体地，目标账户集群为资源申请方的用户账户的集群，与资源申请方对应的有资源提供方，资源申请方可以向资源提供方申请进行资源转移。其中，资源申请方包括但不限于个人或企业，比如个体工商户；资源提供方包括但不限于银行等金融机构；相应地，目标账户集群可以为个体工商户在银行中所使用的用于进行业务办理的账户的集群；申请进行转移的资源包括但不限于金融资源；第一账户集群又称为有额度客户的集群，第二账户集群又称为无额度客户的集群。

S202，根据第一账户集群的账户样本数据构建初始概率信息输出模型。

其中，初始概率信息输出模型为神经网络模型中的一种，初始概率信息输出模型用于输出第二账户集群对应的逾期概率信息，逾期概率信息表征第二账户集群的账户未在设定时间内返回已调用资源的概率。

示例性地，利用神经网络算法对过去已获得额度，有贷款表现客户进行建模，获得基础准入模型，利用基础准入模型对无额度客户进行好坏预测。其中，基础准入模型即为初始概率信息输出模型。

示例性地，对行内有还款表现的客户利用神经网络算法进行建模，使用构建好的模型，对申请被拒绝的无额度客户进行可能的还款表现预测，其中，构建好的模型即为初始概率信息输出模型。

S203，以逾期概率信息为样本权重，对第二账户集群的账户样本数据进行加权，并将加权后的样本数据与第一账户集群的账户样本数据进行合并，得到目标样本数据。

示例性地，利用基础准入模型对无额度客户进行好坏预测，将一个无额度客户样本拆分为好坏两个样本，权重为模型好坏预测概率，然后将带有好坏标签和权重的无额度客户与有额度客户相结合，形成目标样本数据。

S204，根据目标样本数据对初始概率信息输出模型进行训练，得到目标概率信息输出模型。

其中，目标概率信息输出模型为经过目标样本数据再次进行训练的初始概率信息输出模型。

上述信息输出模型的训练方法中，首先获取目标账户集群的账户样本数据，然后根据第一账户集群的账户样本数据构建初始概率信息输出模型，进而以逾期概率信息为样本权重，对第二账户集群的账户样本数据进行加权，并将加权后的样本数据与第一账户集群的账户样本数据进行合并，得到目标样本数据，最后根据目标样本数据对初始概率信息输出模型进行训练，得到目标概率信息输出模型，克服了当前针对资源申请方的账户信息评估手段的单一性问题，避免了大量资源申请方的账户被拒绝授予资源转移额度的情况，从而避免了资源提供方的转移出的资源体量的减少，使得资源申请方账户能普遍享受资源转移服务，获得了提升针对资源申请方账户的资源转移额度的评估准确度的有益效果。

在一个实施例中，以逾期概率信息为样本权重，对第二账户集群的账户样本数据进行加权，并将加权后的样本数据与第一账户集群的账户样本数据进行合并，得到目标样本数据，包括：根据逾期概率信息确定如期概率信息；以逾期概率信息的概率值作为样本系数，对第二账户集群的账户样本数据进行加权，得到第一样本数据；以如期概率信息的概率值作为样本系数，对第二账户集群的账户样本数据进行加权，得到第二样本数据；合并第一样本数据、第二样本数据和第一账户集群的账户样本数据，得到目标样本数据。

其中，如期概率信息表征第二账户集群的账户在设定时间内返回已调用资源的概率。具体地，逾期概率信息包括逾期概率，如期概率信息包括不逾期概率。样本系数又称为权重，比如，p为逾期概率，则1-p为不逾期概率。

示例性地，根据现有模型对无额度客户进行第一次预测，同时，对无额度客户进行2倍裂变，即将n1个客户裂变为2*n1个客户，其还款表现概率作权重，假设对无额度客户a的逾期预测分别为p和1-p，这个客户将裂变为a1（赋予权重p）和a2（权重1-p），然后，将原有模型样本n个客户和新加入的2n1个无额度客户形成新的建模样本，原有的客户各自权重为1，新加入的2n1个客户权重之和为n1，得到目标样本数据。

本实施例中，首先根据逾期概率信息确定如期概率信息，然后以逾期概率信息的概率值作为样本系数，对第二账户集群的账户样本数据进行加权，得到第一样本数据，进而以如期概率信息的概率值作为样本系数，对第二账户集群的账户样本数据进行加权，得到第二样本数据，最后合并第一样本数据、第二样本数据和第一账户集群的账户样本数据，得到目标样本数据，将拒绝样本与接受样本共同用于模型构建，有效整合了无额度客户申请样本的信息，从而减少模型对无额度客户预测的数据偏差，获得了提升模型预测准确性的有益效果。

在一个实施例中，获取目标账户集群的账户样本数据，包括：获取目标账户集群的账户特征数据；对账户特征数据进行特征工程处理，得到完成变量扩充后的批量样本数据；基于变量筛选指标对批量样本数据进行筛选，得到目标变量；将包含目标变量的批量样本数据，作为账户样本数据。

其中，账户特征数据包括至少一种维度的特征变量；账户特征数据可以为客户相关的企业数据，比如企业基本信息、企业征信数据、企业代发工资数据、公积金缴交情况数据及企业流水数据、企业主基本信息、客户等级数据、个人征信数据、贷款合约数据等。

示例性地，利用机器学习工具批量生成变量后，通过单变量分析、结合数据覆盖率、重要性、群体稳定度等，对变量进行初步筛选，对行内有还款表现的客户利用神经网络算法进行建模，选出重要性高的变量，以确定用户模型训练的账户样本数据。

本实施例中，首先获取目标账户集群的账户特征数据，然后对账户特征数据进行特征工程处理，得到完成变量扩充后的批量样本数据，进而基于变量筛选指标对批量样本数据进行筛选，得到目标变量，最后将包含目标变量的批量样本数据，作为账户样本数据，通过针对样本数据的扩充和筛选，同时实现了对样本数据中变量维度的数量和质量的提升，进而获得了提升模型训练效率和准确率的有益效果。

在一个实施例中，变量筛选指标包括初筛指标和模型评估指标，基于变量筛选指标对批量样本数据进行筛选，得到目标变量，包括：基于初筛指标对批量样本数据中的各变量进行评估，得到初筛指标的第一评估值；将第一评估值满足第一预设指标要求的变量对应的批量样本数据，作为初筛后样本数据；基于模型评估指标对初筛后样本数据中的各变量进行评估，得到模型评估指标的第二评估值；将第二评估值满足第二预设指标要求的变量，作为目标变量。

其中，初筛指标包括但不限于单变量分析、结合数据覆盖率、重要性、群体稳定度；模型评估指标包括但不限于单变量分析、数据覆盖率、变量重要性、群体稳定度等指标。两种指标分别用于前后两次筛选过程，初步筛选和模型建立所用的指标有一些重叠，但其具体应用和重要性在两个阶段存在差异。

示例性地，通过单变量分析、结合数据覆盖率、重要性、群体稳定度等，对变量进行初步筛选，对行内有还款表现的客户利用神经网络算法进行建模，选出重要性高的变量，以确定用户模型训练的账户样本数据。

本实施例中，首先基于初筛指标对批量样本数据中的各变量进行评估，得到初筛指标的第一评估值，然后将第一评估值满足第一预设指标要求的变量对应的批量样本数据，作为初筛后样本数据，进而基于模型评估指标对初筛后样本数据中的各变量进行评估，得到模型评估指标的第二评估值，最后将第二评估值满足第二预设指标要求的变量，作为目标变量，通过在不同的筛选过程采用不同的指标要求，获得了提升变量筛选效率和质量的有益效果。

在一个实施例中，基于模型评估指标对初筛后样本数据中的各变量进行评估，得到模型评估指标的第二评估值，包括：根据第一账户集群的初筛后样本数据构建得到变量筛选模型；基于模型评估指标，对变量筛选模型的输出结果进行评估，得到第二评估值。

其中，变量筛选模型为用于进行筛选的模型，可采用任意神经网络模型进行构建得到，比如预测类别的模型。

另外，需要说明的是，步骤S202构建的初始概率信息输出模型，可以采用在步骤S201的账户样本数据的获取过程中构建好的变量筛选模型，即初始概率信息输出模型和变量筛选模型可以为同一模型，该模型既可以用作逾期概率的预测，也可以用作样本数据中变量的筛选，其变量指标的评估本质上是针对模型预测结果的评估。

本实施例中，首先根据第一账户集群的初筛后样本数据构建得到变量筛选模型，然后基于模型评估指标，对变量筛选模型的输出结果进行评估，得到第二评估值，通过构建变量筛选模型的方式，对其输出结果进行评估，提升了第二评估值的评估效率，获得了提升样本数据中变量筛选效率的有益效果。

在一个实施例中，根据目标样本数据对初始概率信息输出模型进行训练，得到目标概率信息输出模型，包括：在初始概率信息输出模型的模型参数的更新率小于预设的模型收敛阈值的情况下，确定模型参数为目标参数；将目标参数对应的初始概率信息输出模型，作为目标概率信息输出模型。

示例性地，利用基础准入模型对无额度客户进行好坏预测，将一个无额度客户样本拆分为好坏两个样本，权重为模型好坏预测概率；将带有好坏标签和权重的无额度客户与有额度客户相结合，混合建模，得到迭代后的模型；重复样本拆分增加权重和混合建模的过程，直到模型评估效果收敛，使模型趋于稳定，得到目标概率信息输出模型。

本实施例中，首先在初始概率信息输出模型的模型参数的更新率小于预设的模型收敛阈值的情况下，确定模型参数为目标参数，然后将目标参数对应的初始概率信息输出模型，作为目标概率信息输出模型，通过目标参数的确定来判断模型训练好的条件，获得了提升模型训练效率的有益效果。

在一个实施例中，方法还包括：在目标概率信息输出模型输出的逾期概率信息满足于预设概率阈值的情况下，生成针对第二账户集群的资源调用额度授予指示信息，以指示资源提供方向第二账户集群提供资源转移服务。

其中，额度授予指示信息指示资源提供方向第二账户集群提供资源转移服务，具体地，资源提供方包括但不限于银行等金融机构。

本实施例中，在目标概率信息输出模型输出的逾期概率信息满足于预设概率阈值的情况下，生成针对第二账户集群的资源调用额度授予指示信息，以指示资源提供方向第二账户集群提供资源转移服务，获得了利用目标概率信息输出模型指导资源转移过程的有益效果。

在另一个实施例中，如图3所示，提供了一种信息输出模型的训练方法，包括以下步骤：

S301，获取目标账户集群的账户特征数据；账户特征数据包括至少一种维度的特征变量。

S302，对账户特征数据进行特征工程处理，得到完成变量扩充后的批量样本数据。

S303，基于初筛指标对批量样本数据中的各变量进行评估，得到初筛指标的第一评估值。

S304，将第一评估值满足第一预设指标要求的变量对应的批量样本数据，作为初筛后样本数据。

S305，根据第一账户集群的初筛后样本数据构建得到变量筛选模型。

S306，基于模型评估指标，对变量筛选模型的输出结果进行评估，得到第二评估值。

S307，将第二评估值满足第二预设指标要求的变量，作为目标变量。

S308，将包含目标变量的批量样本数据，作为账户样本数据。

需要说明的是，上述步骤的具体限定可以参见上文对一种信息输出模型的训练方法的具体限定，在此不再赘述。

为了便于本领域技术人员的理解，图4提供了一种信息输出模型的训练方法的业务流程示意图；图5提供了一种信息输出模型的训练方法的模型训练流程示意图。

随着金融领域的发展，信用贷款是个体工商户获得发展所需资金的重要手段之一，然而，由于传统的信用评估模型过于单一，依靠单一维度的数据对个体户信用资质进行量化，许多个体户单维度数据不突出，单一维度的数据不能全面反映个体户的信用状态，在当前的针对个体户的准入授信评估方式下，很大比例的个体户的信用额度为零，其资金需求一直得不到满足，个体工商户信用贷款通常会直接拒绝无额度客户。

在一个实施例中，本申请的信息输出模型的训练方法提供一种基于运用评分卡的拒绝样本的放款实验，具体包括：从拒绝样本中选取一部分样本进行放款，以获得这些样本的真实标签，并带入评分卡模型进行监督学习。为了获取更多丰富的拒绝样本标签，从当前模型打分低于通过阈值的客户群中，按照预测分值排序后划分为多个区间，然后分别从这些区间中抽取部分拒绝样本进行放款实验。

在上述实施例中，放款实验的方法有效性较高且实施难度较低，但是其缺点也很明显，比如，需要考虑一定的时间周期才能得出可靠的结果，由于验证样本需要用于后续模型建模，因此需要提前规划，考虑整个贷款周期和逾期观察周期；再比如，拒绝样本中的负样本比例通常高于通过样本，这可能会对贷款平台的收益造成影响。因此，在考虑短期收益和长期风险控制之间需要找到平衡点。

因此，当前个体工商户的信用贷款授信评估方式，基于客户单一维度的数据进行准入授信，无法全面地评价客户的信用资质，这些无额度客户中不乏由于模型规则过严或者模型偏差而被拒绝的优质客户，直接拒绝会造成业务大量损失。为了对无额度客户进行再准入授信，需要重新学习无额度客户的数据分布，重新拟合准入授信模型，但数据缺少无额度客户贷款的逾期表现，即缺少模型的目标变量。为获得模型的目标变量，本申请对无额度被拒绝客户进行放款实验，获取客户的贷款表现的方法，但是缺点是成本高，周期长，无法适用于日常的项目开发过程中。

基于此，本申请提供了一种信息输出模型的训练方法，针对现有信用贷款授信模型被拒绝的个体户客户，利用神经网络算法和拒绝推断方法，使用多维度数据，重新训练信用快贷准入模型，对优质的无额度客户捞回再授信，加大对优质无额度个体户的放贷规模，挖掘出有资金需求和还款能力的个体户，进行再授信，从而提升针对个体户的授信评估的精确度。

本申请提供的信息输出模型的训练方法，采用无额度客户多维度数据，多方面量化客户的资质，同时使用神经网络算法，有效利用高维的特征，模型效果优秀，另外，使用拒绝推断方法，从数据中推断无额度客户的好坏标签，将无额度客户数据一起参与建模，从而提高准入模型的准确性和判别能力。

其中，授信指的是银行依据用户的财务信用状况及周转需要，授予用户相应期限和额度的资金支持。

下面参考图4和图5，以一个具体的实施例详细描述信息输出模型的训练方法。值得理解的是，下述描述仅是示例性说明，而不是对申请的具体限制。

本申请提供的信息输出模型的训练方法，提出一种基于神经网络算法和拒绝推断方法对个体工商户无额度客户的再准入模型，工作原理为：

步骤401：使用多维度数据，企业征信、行内代缴税、企业行内负债信息、个人征信、AUM数据（AUM，Assets Under Management，银行管理的个人客户资产的总值）、信用卡、对私流水等开发衍生特征，多方面评价客户的经营资质和信用资质。

步骤402：利用神经网络算法对过去已获得额度，有贷款表现客户进行建模，获得基础准入模型。

步骤403：利用基础准入模型对无额度客户进行好坏预测，将一个无额度客户样本拆分为好坏两个样本，权重为模型好坏预测概率。

步骤404：将带有好坏标签和权重的无额度客户与有额度客户相结合，混合建模，得到迭代后的模型。

步骤405：重复步骤403和步骤404，直到模型评估效果收敛，得到无额度客户准入模型。

本申请提供的信息输出模型的训练方法的技术基础主要为：神经网络算法和拒绝推断方法。神经网络算法是一种模仿生物神经系统的结构和功能的计算模型，可以处理非线性和高维的特征、模型性能和泛化能力优秀，具有很强的鲁棒性和容错性，可以用来进行模式识别、分类、回归、生成等任务。拒绝推断方法是一种用来处理信贷风控建模中样本偏差问题的技术，通过推断出被拒绝申请者的好坏状态，加入建模样本中，从而提高模型的准确性和判别能力。

需要说明的是，本申请采用的神经网络算法是一种模仿人脑神经网络结构和功能的机器学习算法。神经网络的基本单位是神经元，它们被连接在一起并传递信息。一般神经网络由输入层、隐藏层和输出层组成，每一层都由多个神经元组成，层与层之间的神经元通过权重连接。通过反向传播等学习算法，神经网络可以不断调整连接权重，从而学习和提取数据的特征，实现分类、预测等任务。

本申请提供的信息输出模型的训练方法，提供了一种对信用贷款申请无额度的个体工商户企业进行重新准入判断的方法，本方法可应用于银行审批个体工商户信用贷款的流程中，如图4所示，图4的全过程是针对个体工商户被银行拒绝贷款申请后，再次进行入账评估；作为信贷申请流程的一部分，无额度客户的准入流程并未增加额外的步骤或等待时间，从而保持客户体验无缝并避免负面影响；在执行原始信贷申请并计算信贷额度之后，启动无额度客户的准入程序，对客户进行筛选和识别；如果客户符合无额度准入的模型标准，再次为他们提供信贷，这样既能提升客户满意度，又能增加客户粘性。

如图5所示，本申请提供的信息输出模型的训练方法，主要分为以下步骤：

步骤501：获取客户相关的企业数据，包括但不限于企业基本信息、企业征信数据、工商数据、行内税务数据、国税数据、企业代发工资数据、公积金缴交情况数据及企业流水数据、企业主基本信息、行内客户评分数据、客户等级数据、个人征信数据、贷款合约数据、贷款账户数据、贷款账户交易流水数据、贷款放款流水数据、贷记卡合约数据、贷记卡账户数据、贷记卡账户流水数据、AUM数据等。

步骤502：对于上述数据，利用机器学习工具批量生成变量后，通过单变量分析、结合数据覆盖率、重要性、群体稳定度等，对变量进行初步筛选。

其中，步骤二通过对多维度的丰富用户数据进行特征工程，从原始数据中自动抽取、计算、衍生出大量的新变量，这些新变量可能是原始数据的组合、转换、统计特征、时间序列特征等，旨在更好地反映数据的特征和规律。

步骤503：对于前一步筛选后保留的变量，对行内有还款表现的客户利用神经网络算法进行建模，选出重要性高的变量。

建模更侧重于整个建模过程，包括数据预处理、特征工程、模型选择、模型评估等，使用样本数据进行建模可能包括更广泛的工作，以尝试让模型学习数据的特征和规律，来实现更好的预测或分类等目标。

需要说明的是，初步筛选阶段，主要使用单变量分析、数据覆盖率、变量重要性、群体稳定度等指标来对变量进行筛选。这些指标主要是为了评估变量对模型预测结果的贡献程度和稳定性，以便从原始变量中筛选出对模型预测结果影响较大的变量。

而在模型建立阶段，除了上述指标之外，还会使用一些其他的指标，如模型拟合度、预测准确性、误差分析等来评估模型的表现。这些指标主要是为了评估模型的预测能力和可靠性，以便确定最终的建模变量，并对模型进行优化。

因此，虽然初步筛选和模型建立所用的指标有一些重叠，但其具体应用和重要性在两个阶段可能会有所不同。

步骤504：使用上述模型，对申请被拒绝的无额度客户进行可能的还款表现预测。

步骤505：将一个无额度客户样本拆分好坏两个样本，第四步预测的不逾期概率p和不逾期概率1-p作为无额度客户的样本权重，将有额度客户和无额度客户形成新的样本，使用神经网络算法再次进行模型训练。

其中，拒绝推断方式的实现细节包括：根据现有模型对无额度客户进行第一次预测，同时，对无额度客户进行2倍裂变，即将n1个客户裂变为2*n1个客户，其还款表现概率作为权重，假设对无额度客户a的逾期预测分别为p（逾期概率）和1-p（不逾期概率），这个客户将裂变为a1（赋予权重p）和a2（权重1-p）。然后，将原有模型样本n个客户和新加入的2n1个无额度客户形成新的建模样本，原有的客户各自权重为1，新加入的2n1个客户权重之和为n1，使用神经网络算法再次进行模型评估，得出预测结果。

步骤506：重复步骤504和步骤505，直到模型结果稳定。

步骤507：输出最终模型，用于无额度客户还款表现预测。

本申请提供的信息输出模型的训练方法的优势包括以下内容：

在引入拒绝样本方面，本申请通过将拒绝样本与接受样本共同用于模型构建，有效整合了无额度客户申请样本的信息，从而减少模型对无额度客户预测的数据偏差。

在模型迭代优化方面，本申请利用模型预测拒绝样本的好坏状况，并以此与接受样本共同构建模型。通过多次迭代，直至模型参数稳定，能有效减少拒绝样本与总申请样本违约分布间的偏差。

在应用神经网络算法方面，本申请引入了神经网络算法作为核心模型；由于其具备高效的数据处理能力、强大的学习和拟合能力，以及良好的模型泛化效果，其在预测和分类任务中展现了卓越的性能；运用此算法可以提升系统处理速度，进一步优化用户体验。

在数据源广泛方面，本申请的数据来源涵盖个体工商户企业及企业主的信息，包括金融资产、贷款、信用卡、行内流水、个人征信等信息。通过丰富的数据进行风险评估，有力地控制了企业贷款违约风险。

在样本数据集方面，本申请针对在现行准入授信模型中无法获得贷款的企业，在控制风险的前提下，尽可能满足有贷款需求和还款能力的企业，为其提供资金支持，从而提升总贷款额度。

在风险建模中，传统模型通常仅用已发放贷款的样本进行建模，用申请通过的样本替代整体申请样本，这可能引发样本偏差问题，从而使模型参数估计不准确，影响对实际风险的评估。本申请提供的信息输出模型的训练方法针对这种问题，将拒绝推断的正负样本并入到建模样本中，以增强建模样本的多样性，进一步缩小训练样本与总体样本之间的差距。

本申请提供的信息输出模型的训练方法，采用神经网络算法，该算法能在相对短的时间内针对大型数据源产生可行且效果优良的结果。并且，在处理具有多种属性的大数据集上能够构建精确的模型，与其他机器学习算法相比，该模型架构能良好地扩展到大型数据库中。

本申请提供的信息输出模型的训练方法，从多种数据源获取数据，基于大数据进行建模。相比于在小规模数据上进行风控模型建立，它可以更准确地评估个体工商户企业无额度客户的信用风险。

在传统的授信流程中，如果在授信阶段客户额度为0，将直接导致贷款被拒绝。针对在当前准入授信模型中无法获得贷款的个体工商户企业的贷款需求，本申请提供的信息输出模型的训练方法，对无额度客户重新进行模型评估，可以更精确地评估无额度客户的风险重新准入，回收优质的无额度客户，在降低风险的同时，最大程度地满足有贷款需求和还款能力的个体工商户企业。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的信息输出模型的训练方法的信息输出模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个信息输出模型的训练装置实施例中的具体限定可以参见上文中对于信息输出模型的训练方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种信息输出模型的训练装置，包括：账户样本数据获取模块601、初始概率信息输出模型构建模块602、目标样本数据合并模块603、模型训练模块604，其中：

账户样本数据获取模块601，用于获取目标账户集群的账户样本数据；目标账户集群包括第一账户集群和第二账户集群，第一账户集群包括在资源调用额度评估过程中被授予资源调用额度的账户；第二账户集群包括在资源调用额度评估过程中被拒绝授予资源调用额度的账户；

初始概率信息输出模型构建模块602，用于根据第一账户集群的账户样本数据构建初始概率信息输出模型；初始概率信息输出模型用于输出第二账户集群对应的逾期概率信息；逾期概率信息表征第二账户集群的账户未在设定时间内返回已调用资源的概率；

目标样本数据合并模块603，用于以逾期概率信息为样本权重，对第二账户集群的账户样本数据进行加权，并将加权后的样本数据与第一账户集群的账户样本数据进行合并，得到目标样本数据；

模型训练模块604，用于根据目标样本数据对初始概率信息输出模型进行训练，得到目标概率信息输出模型。

在其中一个实施例中，目标样本数据合并模块，包括：如期概率信息确定模块，用于根据逾期概率信息确定如期概率信息；如期概率信息表征第二账户集群的账户在设定时间内返回已调用资源的概率；第一加权模块，用于以逾期概率信息的概率值作为样本系数，对第二账户集群的账户样本数据进行加权，得到第一样本数据；第二加权模块，用于以如期概率信息的概率值作为样本系数，对第二账户集群的账户样本数据进行加权，得到第二样本数据；目标样本数据合并子模块，用于合并第一样本数据、第二样本数据和第一账户集群的账户样本数据，得到目标样本数据。

在其中一个实施例中，账户样本数据获取模块，包括：账户特征数据获取模块，用于获取目标账户集群的账户特征数据；账户特征数据包括至少一种维度的特征变量；特征工程模块，用于对账户特征数据进行特征工程处理，得到完成变量扩充后的批量样本数据；变量筛选模块，用于基于变量筛选指标对批量样本数据进行筛选，得到目标变量；账户样本数据确定模块，用于将包含目标变量的批量样本数据，作为账户样本数据。

在其中一个实施例中，变量筛选指标包括初筛指标和模型评估指标，变量筛选模块，包括：第一评估模块，用于基于初筛指标对批量样本数据中的各变量进行评估，得到初筛指标的第一评估值；第一筛选子模块，用于将第一评估值满足第一预设指标要求的变量对应的批量样本数据，作为初筛后样本数据；第二评估模块，用于基于模型评估指标对初筛后样本数据中的各变量进行评估，得到模型评估指标的第二评估值；目标变量确定模块，用于将第二评估值满足第二预设指标要求的变量，作为目标变量。

在其中一个实施例中，第二评估模块，包括：筛选模型构建模块，用于根据第一账户集群的初筛后样本数据构建得到变量筛选模型；第二评估值确定模块，用于基于模型评估指标，对变量筛选模型的输出结果进行评估，得到第二评估值。

在其中一个实施例中，模型训练模块，包括：目标参数确定模块，用于在初始概率信息输出模型的模型参数的更新率小于预设的模型收敛阈值的情况下，确定模型参数为目标参数；目标概率信息输出模型确定模块，用于将目标参数对应的初始概率信息输出模型，作为目标概率信息输出模型。

在其中一个实施例中，装置还包括：资源调用额度授予指示信息生成模块，用于在目标概率信息输出模型输出的逾期概率信息满足于预设概率阈值的情况下，生成针对第二账户集群的资源调用额度授予指示信息，以指示资源提供方向第二账户集群提供资源转移服务。

上述信息输出模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息输出模型的训练方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种信息输出模型的训练方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7和图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种信息输出模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述以所述逾期概率信息为样本权重，对所述第二账户集群的账户样本数据进行加权，并将加权后的样本数据与所述第一账户集群的账户样本数据进行合并，得到目标样本数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取目标账户集群的账户样本数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述变量筛选指标包括初筛指标和模型评估指标，所述基于变量筛选指标对所述批量样本数据进行筛选，得到目标变量，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述模型评估指标对所述初筛后样本数据中的各变量进行评估，得到所述模型评估指标的第二评估值，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标样本数据对所述初始概率信息输出模型进行训练，得到目标概率信息输出模型，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种信息输出模型的训练装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述目标样本数据合并模块，包括：

10.根据权利要求8所述的装置，其特征在于，所述账户样本数据获取模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述变量筛选指标包括初筛指标和模型评估指标，所述变量筛选模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述第二评估模块，包括：

13.根据权利要求8所述的装置，其特征在于，所述模型训练模块，包括：

14.根据权利要求8所述的装置，其特征在于，所述装置还包括：

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

17.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。