CN107945003A

CN107945003A - 信用评估方法及装置

Info

Publication number: CN107945003A
Application number: CN201611265759.8A
Authority: CN
Inventors: 陈尧; 朱敏亭; 赵之砚
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-04-20

Abstract

本发明公开了一种信用评估方法及装置，该方法包括：当接收到对用户的信用评估请求时，调用预先建立的第二模型对该用户进行信用评估；其中，所述第二模型为先根据预设数量的客户样本数据建立第一模型，再针对由该第一模型确定出的各个样本数据的缺失变量进行每次填补后生成的中间训练集进行训练得到；获取该用户的信用评估结果。本发明提高用户信用状况评估的准确性。

Description

信用评估方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种信用评估方法及装置。

背景技术

目前，在金融、保险等领域，客户在办理某项业务时，业务机构(例如，银行、保险机构)通常会通过一种信用状况评价系统，可以基于用户的特定信息对客户个人综合信用状况进行评价。然后，目前业内采用的信用状况评价系统无法对用户做到全面的评估，大多集中于某些特定单一的维度变量，且变量缺失程度很高，评估方法较为单一，导致客户信用状况评估准确性较低，实际的应用价值有限。

发明内容

本发明的主要目的在于提供一种信用评估方法及装置，旨在提高客户信用状况评估的准确性。

为实现上述目的，本发明提供的一种信用评估方法，所述方法包括以下步骤：

当接收到对用户的信用评估请求时，调用预先建立的第二模型对该用户进行信用评估；其中，所述第二模型为先根据预设数量的客户样本数据建立第一模型，再针对由该第一模型确定出的各个样本数据的缺失变量进行每次填补后生成的中间训练集进行训练得到；

获取该用户的信用评估结果。

优选地，所述第二模型的训练方式包括：

对预设数量的无标签客户样本数据应用预先确定的分析算法进行分析，根据属性信息熵生成描述样本属性相关性的无向图；

将所述无向图根据预先确定的信息准则转为最优的第一模型，在所述第一模型中，每个无标签客户数据样本对应设置有一个标签形成标签数据；

从通过所述第一模型确定的标签数据中划分出第一比例的训练集，在所述训练集上，使用所述第一模型确定出各个标签数据的缺失变量，抽取出预设数量的缺失变量进行填补，针对每一个缺失变量的每次填补生成一个中间训练集；

利用每一个中间训练集中的标签数据训练第二模型，以得到多个训练好的第二模型。

优选地，所述当接收到对用户的信用评估请求时，调用预先建立的第二模型对该用户进行信用评估的步骤之前还包括：

对所有训练好的第二模型按照预设的加权规则进行加权平均，以得到复核第二模型；

从通过所述第一模型确定的标签数据中划分出第二比例的验证集，利用所述验证集验证所述复核第二模型的准确率，若准确率大于或者等于预设阈值，则训练结束，或者，若准确率小于预设阈值，则增加无标签客户样本数据的数量来进行训练直至所述复核第二模型的准确率达到预设阈值。

优选地，该方法还包括：

从通过所述第一模型确定的标签数据中划分出第三比例的测试集，所述第一比例、第二比例及第三比例的和为100％；

对训练好的复核第二模型使用所述测试集进行测试，并生成测试报告。

优选地，所述第一模型为贝叶斯网络模型，所述第二模型为逻辑回归模型。

此外，为实现上述目的，本发明还提供一种信用评估装置，所述信用评估装置包括：

评估模块，用于当接收到对用户的信用评估请求时，调用预先建立的第二模型对该用户进行信用评估；其中，所述第二模型为先根据预设数量的客户样本数据建立第一模型，再针对由该第一模型确定出的各个样本数据的缺失变量进行每次填补后生成的中间训练集进行训练得到；

获取模块，用于获取该用户的信用评估结果。

优选地，所述第二模型的训练方式包括：

优选地，所述第二模型的训练方式还包括：

从通过所述第一模型确定的标签数据中划分出第三比例的测试集，所述第一比例、第二比例及第三比例的和为100％；对训练好的复核第二模型使用所述测试集进行测试，并生成测试报告。

本发明提出的信用评估方法及装置，通过预先建立的第二模型来对用户进行信用评估。由于所述第二模型为针对预设数量的各个客户样本数据的缺失变量进行每次填补后生成的一个中间训练集而训练得到，因此，通过所述第二模型来对用户进行信用评估不仅能考虑用户提供的信息，还能针对用户提供信息中缺失的变量进行信用的全面评估，从而提高用户信用状况评估的准确性。

附图说明

图1为本发明信用评估方法第一实施例的流程示意图；

图2为本发明信用评估方法第二实施例的流程示意图；

图3为本发明信用评估方法第三实施例的流程示意图；

图4为本发明信用评估装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种信用评估方法。

参照图1，图1为本发明信用评估方法第一实施例的流程示意图。

在第一实施例中，该信用评估方法包括：

步骤S10，当接收到对用户的信用评估请求时，调用预先建立的第二模型对该用户进行信用评估；其中，所述第二模型为先根据预设数量的客户样本数据建立第一模型，再针对由该第一模型确定出的各个样本数据的缺失变量进行每次填补后生成的中间训练集进行训练得到；

本实施例中，接收用户发出的信用评估请求，例如，接收用户在手机、平板电脑、自助终端设备等终端上输入相关信息(例如，个人身份信息、个人收入信息等)后发送的信用评估请求，如接收用户在手机、平板电脑、自助终端设备等终端中预先安装的信用评估应用程序上输入相关信息后发送来的信用评估请求，或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上输入相关信息后发送来的信用评估请求。

在接收到对用户的信用评估请求后，调用预先建立的第二模型对该用户进行信用评估。该第二模型的建立过程如下：先根据预设数量的无标签客户样本数据建立第一模型，由该第一模型确定出各个样本数据的缺失变量，针对确定出的每一样本数据的缺失变量进行每一次填补后均会形成一个由该填补后的样本数据加上剩余样本数据所生成的一个中间训练集，对所有样本数据的缺失变量进行填补后会生成多个中间训练集，针对该中间训练集进行不断地学习、训练和优化，从而得到第二模型。例如，在一种具体的实施方式中，所述第一模型可以为贝叶斯网络模型，所述第二模型可以为逻辑回归模型；当然，也不限定所述第一模型、所述第二模型为其他模型。

在一种实施方式中，在根据预设数量的无标签客户样本数据建立第一模型后，可由该第一模型为每一无标签客户样本数据设置相应的标签，以形成带标签的样本数据。该标签可以是对应客户样本数据的信用评估评级等，这样，在后续针对每一带标签的样本数据进行填补形成中间训练集并针对该中间训练集进行训练后，即可在请求信用评估的用户输入的相关信息出现变量缺失的情况时，仍然能根据训练出的第二模型针对其缺失变量找到符合该用户特征的标签也即对应该用户的信用评估评级。

步骤S20，获取该用户的信用评估结果。

根据预先建立的第二模型对该用户进行信用评估的结果，获取最终对该用户的信用评估结果，并反馈至发送信用评估请求的终端或预先确定的终端，如手机、平板电脑、自助终端设备等。

本实施例通过预先建立的第二模型来对用户进行信用评估。由于所述第二模型为针对预设数量的各个无标签客户样本数据的缺失变量进行每次填补后生成的一个中间训练集而训练得到，因此，通过所述第二模型来对用户进行信用评估不仅能考虑用户提供的信息，还能针对用户提供信息中缺失的变量进行信用的全面评估，从而提高用户信用状况评估的准确性。

如图2所示，本发明第二实施例提出一种信用评估方法，在上述实施例的基础上，所述第二模型的训练方式包括：

步骤S30，对预设数量的无标签客户样本数据应用预先确定的分析算法(例如，Chordalysis算法)进行分析，根据属性信息熵生成描述样本属性相关性的无向图。

步骤S40，将生成的无向图根据预先确定的信息准则(例如，贝叶斯信息准则，Bayesian Information Criterion)转为最优的第一模型(例如，贝叶斯网络模型)，在所述第一模型中，每个无标签客户数据样本对应有一个标签形成标签数据。例如，该标签可以是针对每个无标签客户数据样本所对应的确定无误或最合理的信用评估等级，通过所述第一模型为每个无标签客户数据样本设置一确定无误或最合理的信用评估等级作为标签，以形成每个无标签客户数据样本对应的具有标签的样本数据。

步骤S50，将通过所述第一模型确定的标签数据分为第一比例(例如，50％)的训练集；在所述训练集上，使用所述第一模型确定出各个标签数据的缺失变量，抽取出预设数量的缺失变量进行填补(例如，一个用户的投保数据缺失性别变量数据)，针对每一个缺失变量的每次填补生成一个中间训练集。例如，训练集中包括N个标签数据，若针对一个标签数据的性别缺失变量填充的是“男性”，则由填充了“男性”变量数据的该标签数据与其他N-1个标签数据组成一个中间训练集；若针对另一个标签数据的性别缺失变量填充的是“女性”，则由填充了“女性”变量数据的该标签数据与其他N-1个标签数据又组成一个中间训练集。

步骤S60，利用每一个中间训练集中的标签数据训练第二模型(例如，逻辑回归模型)，以得到多个训练好的第二模型。

本实施例中，对预设数量的无标签客户样本数据的属性信息进行分析获取第一模型如贝叶斯网络模型，通过该贝叶斯网络模型为每个无标签客户数据样本对应设置对应的信用评估等级的标签，并通过该贝叶斯网络模型确定出的标签数据的缺失变量进行填补，针对每一个缺失变量的每次填补生成一个中间训练集，基于形成的多个中间训练集进行训练得到第二模型如逻辑回归模型，即可在请求信用评估的用户输入的相关信息出现变量缺失的情况时，仍然能根据训练出的第二模型针对其缺失变量找到符合该用户特征的标签也即对应该用户的信用评估评级，从而实现对用户信用的全面评估，提高用户信用状况评估的准确性及实际应用价值。

如图3所示，本发明第三实施例提出一种信用评估方法，在上述实施例的基础上，在上述步骤S60之后还包括：

步骤S70，对所有训练好的第二模型按照预设的加权规则进行加权平均，以得到复核第二模型；

步骤S80，从通过所述第一模型确定的标签数据中划分出第二比例(例如，25％)的验证集，利用所述验证集验证所述复核第二模型的准确率，若准确率大于或者等于预设阈值，则训练结束，或者，若准确率小于预设阈值，则增加无标签客户样本数据的数量来进行训练直至所述复核第二模型的准确率达到预设阈值。

本实施例中，在利用每一个中间训练集中的标签数据训练得到多个训练好的第二模型之后，还对所有训练好的第二模型按照预设的加权规则进行加权平均，以得到复核第二模型，如可将各个标签数据中缺失变量最频繁的一类变量所对应训练出的第二模型的权重加重，将各个标签数据中缺失变量的数量最少的标签数据所对应的训练集训练出的第二模型的权重加重，将各个标签数据中缺失变量的数量最多的标签数据所对应的训练集训练出的第二模型的权重减小，等等，以得到最合理、最准确的复核第二模型。进一步地，还利用验证集来验证所述复核第二模型的准确率，若验证所述复核第二模型的准确率大于或者等于预设阈值，则训练结束，以所述复核第二模型来进行用户的信用评估。若验证所述复核第二模型的准确率小于预设阈值，则继续增加无标签客户样本数据的数量并重新执行上述各步骤来进行训练，直至所述复核第二模型的准确率达到预设阈值，从而保证对用户进行信用评估的高准确率。

进一步地，在其他实施例中，该方法还包括：

从通过所述第一模型确定的标签数据中划分出第三比例(例如，25％)的测试集，所述第一比例、第二比例及第三比例的和为100％；对训练好的复核第二模型使用所述测试集进行测试，并生成测试报告。例如，所述测试报告中可包括测试准确率，以在后续利用该复核第二模型来进行用户信用评估时供参考。

本发明进一步提供一种信用评估装置。

参照图4，图4为本发明信用评估装置一实施例的功能模块示意图。

在一实施例中，该信用评估装置包括：

评估模块01，用于当接收到对用户的信用评估请求时，调用预先建立的第二模型对该用户进行信用评估；其中，所述第二模型为先根据预设数量的客户样本数据建立第一模型，再针对由该第一模型确定出的各个样本数据的缺失变量进行每次填补后生成的中间训练集进行训练得到；

获取模块02，用于获取该用户的信用评估结果。

进一步地，在上述实施例的基础上，所述第二模型的训练方式包括：

对预设数量的无标签客户样本数据应用预先确定的分析算法(例如，Chordalysis算法)进行分析，根据属性信息熵生成描述样本属性相关性的无向图。

将生成的无向图根据预先确定的信息准则(例如，贝叶斯信息准则，BayesianInformation Criterion)转为最优的第一模型(例如，贝叶斯网络模型)，在所述第一模型中，每个无标签客户数据样本对应有一个标签形成标签数据。例如，该标签可以是针对每个无标签客户数据样本所对应的确定无误或最合理的信用评估等级，通过所述第一模型为每个无标签客户数据样本设置一确定无误或最合理的信用评估等级作为标签，以形成每个无标签客户数据样本对应的具有标签的样本数据。

将通过所述第一模型确定的标签数据分为第一比例(例如，50％)的训练集；在所述训练集上，使用所述第一模型确定出各个标签数据的缺失变量，抽取出预设数量的缺失变量进行填补(例如，一个用户的投保数据缺失性别变量数据)，针对每一个缺失变量的每次填补生成一个中间训练集。例如，训练集中包括N个标签数据，若针对一个标签数据的性别缺失变量填充的是“男性”，则由填充了“男性”变量数据的该标签数据与其他N-1个标签数据组成一个中间训练集；若针对另一个标签数据的性别缺失变量填充的是“女性”，则由填充了“女性”变量数据的该标签数据与其他N-1个标签数据又组成一个中间训练集。

利用每一个中间训练集中的标签数据训练第二模型(例如，逻辑回归模型)，以得到多个训练好的第二模型。

进一步地，在上述实施例的基础上，所述第二模型的训练方式还包括：

从通过所述第一模型确定的标签数据中划分出第二比例(例如，25％)的验证集，利用所述验证集验证所述复核第二模型的准确率，若准确率大于或者等于预设阈值，则训练结束，或者，若准确率小于预设阈值，则增加无标签客户样本数据的数量来进行训练直至所述复核第二模型的准确率达到预设阈值。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种信用评估方法，其特征在于，所述方法包括以下步骤：

获取该用户的信用评估结果。

2.如权利要求1所述的信用评估方法，其特征在于，所述第二模型的训练方式包括：

3.如权利要求2所述的信用评估方法，其特征在于，所述当接收到对用户的信用评估请求时，调用预先建立的第二模型对该用户进行信用评估的步骤之前还包括：

4.如权利要求3所述的信用评估方法，其特征在于，该方法还包括：

5.如权利要求1至4中任意一项所述的信用评估方法，其特征在于，所述第一模型为贝叶斯网络模型，所述第二模型为逻辑回归模型。

6.一种信用评估装置，其特征在于，所述信用评估装置包括：

获取模块，用于获取该用户的信用评估结果。

7.如权利要求6所述的信用评估装置，其特征在于，所述第二模型的训练方式包括：

8.如权利要求7所述的信用评估装置，其特征在于，所述第二模型的训练方式还包括：

9.如权利要求8所述的信用评估装置，其特征在于，所述第二模型的训练方式还包括：

10.如权利要求6至9中任意一项所述的信用评估装置，其特征在于，所述第一模型为贝叶斯网络模型，所述第二模型为逻辑回归模型。