CN113743678A

CN113743678A - 一种用户信用评分预测方法及相关设备

Info

Publication number: CN113743678A
Application number: CN202111098105.1A
Authority: CN
Inventors: 徐梓丞; 黄康; 杨晓明
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2021-12-03
Anticipated expiration: 2041-09-18

Abstract

本公开提供的一种用户信用评分预测方法及相关设备，可应用于人工智能领域以及金融领域。该用户信用评分预测方法可以利用预设领域自适应算法对源域用户初始数据和目标域用户数据进行特征融合，获得待训练源域数据集，待训练源域数据集包括与源域用户初始数据对应的源域用户目标数据；利用源域用户目标数据和目标域用户数据，获得目标用户信用评分预测模型；通过目标用户信用评分预测模型，获得与目标用户数据对应的用户信用评分预测结果。本公开通过预设领域自适应算法对源域和目标域的数据进行特征融合，实现了不同领域数据之间的知识迁移，使得训练出的目标用户信用评分预测模型对目标用户数据的信用评分预测更加准确。

Description

一种用户信用评分预测方法及相关设备

技术领域

本公开涉及数据处理领域，尤其涉及一种用户信用评分预测方法及相关设备。

背景技术

随着互联网技术在金融行业的蓬勃发展，互联网金融业务得到了广泛地应用。对于互联网金融业务而言，客户的信用评分是银行等金融机构顺利开展业务的重要前提。

然而，虽然银行拥有的历史用户数据的数量多，但是由于银行当前的金融业务发展较快、类型较多，可供直接用来构建信用评分模型的训练数据较少，无论是直接使用历史用户数据或是使用少量的新业务数据进行信用评分预测模型的构建，构建出来的模型进行信用评分预测的准确率都不高。

发明内容

鉴于上述问题，本公开提供一种克服上述问题或者至少部分地解决上述问题的一种用户信用评分预测方法及相关设备，技术方案如下：

一种用户信用评分预测方法，包括：

获得初始源域数据集和目标域数据集，其中，所述初始源域数据集包括至少一个源域用户初始数据，所述目标域数据集包括至少一个目标域用户数据，所述源域用户初始数据和所述目标域用户数据分别携带有对应的信用评分标签；

利用预设领域自适应算法对所述初始源域数据集中的所述源域用户初始数据和所述目标域数据集中的所述目标域用户数据进行特征融合，获得待训练源域数据集，其中，所述待训练源域数据集包括与所述源域用户初始数据对应的源域用户目标数据；

利用所述源域用户目标数据和所述目标域用户数据，获得目标用户信用评分预测模型；

将目标用户数据输入至所述目标用户信用评分预测模型中，获得所述目标用户信用评分预测模型输出的与所述目标用户数据对应的用户信用评分预测结果。

可选的，所述获得初始源域数据集和目标域数据集，包括：

获得原始用户数据集；

按照预设领域划分条件，将所述原始用户数据集中的用户数据划分为初始源域数据集和目标域数据集。

可选的，所述按照预设领域划分条件，将所述原始用户数据集中的用户数据划分为初始源域数据集和目标域数据集，包括：

将所述原始用户数据集中的用户数据按照预设数据生成时间节点，将在所述预设数据生成时间节点之前生成的所述用户数据划分至所述初始源域数据集，将在所述预设数据生成时间节点以后生成的所述用户数据划分至所述目标域数据集。

可选的，所述利用所述源域用户目标数据和所述目标域用户数据，获得目标用户信用评分预测模型，包括：

将所述待训练源域数据集中的所述源域用户目标数据输入至预先构建的卷积神经网络中进行机器学习，获得初始用户信用评分预测模型；

将所述目标域数据集中的所述目标域用户数据输入至所述初始用户信用评分预测模型中，对所述初始用户信用评分预测模型中的目标结构层进行模型微调，获得目标用户信用评分预测模型。

可选的，所述目标结构层包括所述初始用户信用评分预测模型的全连接层。

可选的，所述预设领域自适应算法包括重新加权算法、迭代算法以及搜索公共表示空间算法中的任一种算法。

可选的，在所述获得目标用户信用评分预测模型之后，所述方法还包括：

按照预设模型评估指标对所述目标用户信用评分预测模型进行评估，获得模型评估结果。

一种用户信用评分预测装置，包括：领域数据集获得单元、领域划分单元、待训练源域数据集获得单元、目标用户信用评分预测模型获得单元以及用户信用评分预测结果获得单元，

所述领域数据集获得单元，用于获得初始源域数据集和目标域数据集，其中，所述初始源域数据集包括至少一个源域用户初始数据，所述目标域数据集包括至少一个目标域用户数据，所述源域用户初始数据和所述目标域用户数据分别携带有对应的信用评分标签；

所述待训练源域数据集获得单元，用于利用预设领域自适应算法对所述初始源域数据集中的所述源域用户初始数据和所述目标域数据集中的所述目标域用户数据进行特征融合，获得待训练源域数据集，其中，所述待训练源域数据集包括与所述源域用户初始数据对应的源域用户目标数据；

所述目标用户信用评分预测模型获得单元，用于利用所述源域用户目标数据和所述目标域用户数据，获得目标用户信用评分预测模型；

所述用户信用评分预测结果获得单元，用于将目标用户数据输入至所述目标用户信用评分预测模型中，获得所述目标用户信用评分预测模型输出的与所述目标用户数据对应的用户信用评分预测结果。

一种计算机可读存储介质，其上存储有程序，所述程序被处理器执行时实现如上述任一项所述的用户信用评分预测方法。

一种电子设备，所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如上述任一项所述的用户信用评分预测方法。

借由上述技术方案，本公开提供的一种用户信用评分预测方法及相关设备，可以利用预设领域自适应算法对源域用户初始数据和目标域用户数据进行特征融合，获得待训练源域数据集，待训练源域数据集包括与源域用户初始数据对应的源域用户目标数据；利用源域用户目标数据和目标域用户数据，获得目标用户信用评分预测模型；通过目标用户信用评分预测模型，获得与目标用户数据对应的用户信用评分预测结果。本公开通过预设领域自适应算法对源域和目标域的数据进行特征融合，实现了不同领域数据之间的知识迁移，使得训练出的目标用户信用评分预测模型对目标用户数据的信用评分预测更加准确。

上述说明仅是本公开技术方案的概述，为了能够更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂，以下特举本公开的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本公开的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本公开实施例提供的用户信用评分预测方法的一种实施方式的流程示意图；

图2示出了本公开实施例提供的用户信用评分预测方法的另一种实施方式的流程示意图；

图3示出了本公开实施例提供的用户信用评分预测方法的另一种实施方式的流程示意图；

图4示出了本公开实施例提供的用户信用评分预测方法的另一种实施方式的流程示意图；

图5示出了本公开实施例提供的用户信用评分预测方法的另一种实施方式的流程示意图；

图6示出了本公开实施例提供的用户信用评分预测装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本公开实施例提供的用户信用评分预测方法的一种实施方式的流程示意图，该用户信用评分预测方法包括：

S100、获得初始源域数据集和目标域数据集，其中，初始源域数据集包括至少一个源域用户初始数据，目标域数据集包括至少一个目标域用户数据，源域用户初始数据和目标域用户数据分别携带有对应的信用评分标签。

其中，源域(source domain)表示与测试样本不同的领域，但是有丰富的监督信息，目标域(target domain)表示测试样本所在的领域，无标签或者只有少量标签。源域和目标域往往属于同一类任务，但是分布不同。可以理解的是，本公开实施例提供的目标用户数据所在的领域与测试样本所在的领域相同。

可选的，本公开实施例可以采集数量多但质量低的银行用户数据作为源域用户初始数据，从而获得初始源域数据集。本公开实施例可以采集数量少但质量高的银行用户数据作为目标域用户数据，从而获得目标域数据集。

本公开实施例可以为源域用户初始数据和目标域用户数据预先设置好相应的信用评分标签。可以理解的是，本公开实施例可以根据实际需要对信用评分标签进行设置。例如：信用评分标签可以包括0和1，若用户的信用好，则该用户对应的银行用户数据携带的信用评分标签设置为1。若用户的信用不好，则该用户对应的银行用户数据携带的信用评分标签设置为0。

在实际应用中，本公开实施例可以先统一采集银行用户数据，再对统一采集的银行用户数据进行筛选划分，划分为初始源域数据集和目标域数据集。

可选的，基于图1所示的方法，如图2所示，本公开实施例提供的用户信用评分预测方法的另一种实施方式的流程示意图，步骤S100可以包括：

S110、获得原始用户数据集。

S120、按照预设领域划分条件，将原始用户数据集中的用户数据划分为初始源域数据集和目标域数据集。

可选的，预设领域划分条件可以为根据目标业务成立前后，将在目标业务成立前采集到的银行用户数据确定为源域用户初始数据，将在目标业务成立后采集到的银行用户数据确定为目标域用户数据。

可选的，预设领域划分条件可以为根据业务种类，将采集到的第一类型业务的银行用户数据确定为源域用户初始数据，将采集到的第二类型业务的英航用户数据确定为目标域用户数据。例如：第一类型业务可以是银行存款业务，第二类型业务可以是信用卡办理业务。

可选的，基于图2所示的方法，如图3所示，本公开实施例提供的用户信用评分预测方法的另一种实施方式的流程示意图，步骤S120可以包括：

S121、将原始用户数据集中的用户数据按照预设数据生成时间节点，将在预设数据生成时间节点之前生成的用户数据划分至初始源域数据集。

S122、将在预设数据生成时间节点以后生成的用户数据划分至目标域数据集。

由于金融相关规定的实施具有明确的时间节点，因此本公开实施例可以将预设数据生成时间节点设置为具体年月。将该年月之前生成的银行用户数据确定为源域用户初始数据，将该年月之后生成的银行用户数据确定为目标域用户数据。

本公开实施例通过结合满足实际需求的领域划分条件划分源域和目标域，能够利用在源域数据上学到的知识来帮助完成新环境下目标域数据的学习任务，更好地实现领域间的迁移学习。

S200、利用预设领域自适应算法对初始源域数据集中的源域用户初始数据和目标域数据集中的目标域用户数据进行特征融合，获得待训练源域数据集，其中，待训练源域数据集包括与源域用户初始数据对应的源域用户目标数据。

可选的，预设领域自适应算法包括重新加权算法、迭代算法以及搜索公共表示空间算法中的任一种算法。

在通常情况下，源域用户初始数据和目标域用户数据在维度上相比，大多数的数据特征是并不相同，因此通过预设领域自适应算法将这些不同的数据特征进行处理和变换，实现特征融合，拉近源域和目标域的数据分布距离，可以使得源域和目标域的数据分布趋于相同。

S300、利用源域用户目标数据和目标域用户数据，获得目标用户信用评分预测模型。

可选的，基于图1所示的方法，如图4所示，本公开实施例提供的用户信用评分预测方法的另一种实施方式的流程示意图，步骤S300可以包括：

S310、将待训练源域数据集中的源域用户目标数据输入至预先构建的卷积神经网络中进行机器学习，获得初始用户信用评分预测模型。

S320、将目标域数据集中的目标域用户数据输入至初始用户信用评分预测模型中，对初始用户信用评分预测模型中的目标结构层进行模型微调，获得目标用户信用评分预测模型。

可选的，目标结构层包括初始用户信用评分预测模型的全连接层。

具体的，本公开实施例可以利用源域用户目标数据进行建模和训练，获得收敛效果较好的初始用户信用评分预测模型，再将该初始用户信用评分预测模型嵌入(Embedding)至目标域的数据中，对该初始用户信用评分预测模型中的倒数一至两层结构层的参数进行模型微调(finetune)，从而获得目标用户信用评分预测模型。

本公开实施例通过源域用户目标数据和目标域用户数据进行建模，在收敛好的预模型的基础上进行模型的训练，从而解决了目标域用户数据的训练样本数量少的劣势，且训练耗时少，建模效率高，实现了不同领域上的用户数据之间的知识迁移，相较于直接使用目标域数据进行建模，在信用评分预测上的预测准确率更高。

可选的，基于图1所示的方法，如图5所示，本公开实施例提供的用户信用评分预测方法的另一种实施方式的流程示意图，在步骤S300之后，该用户信用评分预测方法还可以包括：

S01、按照预设模型评估指标对目标用户信用评分预测模型进行评估，获得模型评估结果。

可选的，预设模型评估指标至少包括总体分类精度(Accuracy)和特异性。

本公开实施例可以通过预设模型评估指标对训练好的目标文本分类模型进行评估，可以确定信用评分预测效果更加准确的模型。

S400、将目标用户数据输入至目标用户信用评分预测模型中，获得目标用户信用评分预测模型输出的与目标用户数据对应的用户信用评分预测结果。

本公开提供的一种用户信用评分预测方法，可以利用预设领域自适应算法对源域用户初始数据和目标域用户数据进行特征融合，获得待训练源域数据集，待训练源域数据集包括与源域用户初始数据对应的源域用户目标数据；利用源域用户目标数据和目标域用户数据，获得目标用户信用评分预测模型；通过目标用户信用评分预测模型，获得与目标用户数据对应的用户信用评分预测结果。本公开通过预设领域自适应算法对源域和目标域的数据进行特征融合，实现了不同领域数据之间的知识迁移，使得训练出的目标用户信用评分预测模型对目标用户数据的信用评分预测更加准确。

虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

与上述方法实施例相对应，本公开实施例提供的一种用户信用评分预测装置，其结构如图6所示，可以包括：领域数据集获得单元100、领域划分单元200、待训练源域数据集获得单元300、目标用户信用评分预测模型获得单元400以及用户信用评分预测结果获得单元500。

领域数据集获得单元100，用于获得初始源域数据集和目标域数据集，其中，初始源域数据集包括至少一个源域用户初始数据，目标域数据集包括至少一个目标域用户数据，源域用户初始数据和目标域用户数据分别携带有对应的信用评分标签。

可选的，领域数据集获得单元100包括：原始用户数据集获得子单元和领域划分子单元。

原始用户数据集获得子单元，用于获得原始用户数据集。

领域划分子单元，用于按照预设领域划分条件，将原始用户数据集中的用户数据划分为初始源域数据集和目标域数据集。

可选的，领域划分子单元，具体用于将原始用户数据集中的用户数据按照预设数据生成时间节点，将在预设数据生成时间节点之前生成的用户数据划分至初始源域数据集，将在预设数据生成时间节点以后生成的用户数据划分至目标域数据集。

待训练源域数据集获得单元300，用于利用预设领域自适应算法对初始源域数据集中的源域用户初始数据和目标域数据集中的目标域用户数据进行特征融合，获得待训练源域数据集，其中，待训练源域数据集包括与源域用户初始数据对应的源域用户目标数据。

目标用户信用评分预测模型获得单元400，用于利用源域用户目标数据和目标域用户数据，获得目标用户信用评分预测模型。

可选的，目标用户信用评分预测模型获得单元400，具体用于将待训练源域数据集中的源域用户目标数据输入至预先构建的卷积神经网络中进行机器学习，获得初始用户信用评分预测模型。将目标域数据集中的目标域用户数据输入至初始用户信用评分预测模型中，对初始用户信用评分预测模型中的目标结构层进行模型微调，获得目标用户信用评分预测模型。

可选的，该用户信用评分预测装置还可以包括：模型评估单元。

模型评估单元，用于目标用户信用评分预测模型获得单元400获得目标用户信用评分预测模型之后，按照预设模型评估指标对目标用户信用评分预测模型进行评估，获得模型评估结果。

用户信用评分预测结果获得单元500，用于将目标用户数据输入至目标用户信用评分预测模型中，获得目标用户信用评分预测模型输出的与目标用户数据对应的用户信用评分预测结果。

本公开提供的一种用户信用评分预测装置，可以利用预设领域自适应算法对源域用户初始数据和目标域用户数据进行特征融合，获得待训练源域数据集，待训练源域数据集包括与源域用户初始数据对应的源域用户目标数据；利用源域用户目标数据和目标域用户数据，获得目标用户信用评分预测模型；通过目标用户信用评分预测模型，获得与目标用户数据对应的用户信用评分预测结果。本公开通过预设领域自适应算法对源域和目标域的数据进行特征融合，实现了不同领域数据之间的知识迁移，使得训练出的目标用户信用评分预测模型对目标用户数据的信用评分预测更加准确。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

所述用户信用评分预测装置包括处理器和存储器，上述领域数据集获得单元100、领域划分单元200、待训练源域数据集获得单元300、目标用户信用评分预测模型获得单元400以及用户信用评分预测结果获得单元500等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来通过预设领域自适应算法对源域和目标域的数据进行特征融合，实现了不同领域数据之间的知识迁移，使得训练出的目标用户信用评分预测模型对目标用户数据的信用评分预测更加准确。

本公开实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现所述用户信用评分预测方法。

本公开实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述用户信用评分预测方法。

本公开实施例提供了一种电子设备，电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行上述的用户信用评分预测方法。本文中的电子设备可以是服务器、PC、PAD、手机等。

本公开还提供了一种计算机程序产品，当在电子设备上执行时，适于执行初始化有用户信用评分预测方法步骤的程序。

需要说明的是，本公开提供的一种用户信用评分预测方法及相关设备可用于人工智能领域以及金融领域。上述仅为示例，并不对本公开提供的一种用户信用评分预测方法及相关设备的应用领域进行限定。

本公开是参照根据本公开实施例的方法、装置、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器，使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，电子设备包括一个或多个处理器(CPU)、存储器和总线。电子设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在本公开的描述中，需要理解的是，如若涉及术语“上”、“下”、“前”、“后”、“左”和“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的位置或元件必须具有特定方位、以特定的方位构成和操作，因此不能理解为本公开的限制。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本公开的实施例可提供为方法、系统或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本公开的实施例而已，并不用于限制本公开。对于本领域技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的权利要求范围之内。

Claims

1.一种用户信用评分预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获得初始源域数据集和目标域数据集，包括：

获得原始用户数据集；

3.根据权利要求2所述的方法，其特征在于，所述按照预设领域划分条件，将所述原始用户数据集中的用户数据划分为初始源域数据集和目标域数据集，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述源域用户目标数据和所述目标域用户数据，获得目标用户信用评分预测模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述目标结构层包括所述初始用户信用评分预测模型的全连接层。

6.根据权利要求1所述的方法，其特征在于，所述预设领域自适应算法包括重新加权算法、迭代算法以及搜索公共表示空间算法中的任一种算法。

7.根据权利要求1所述的方法，其特征在于，在所述获得目标用户信用评分预测模型之后，所述方法还包括：

8.一种用户信用评分预测装置，其特征在于，包括：领域数据集获得单元、领域划分单元、待训练源域数据集获得单元、目标用户信用评分预测模型获得单元以及用户信用评分预测结果获得单元，

9.一种计算机可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的用户信用评分预测方法。

10.一种电子设备，所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1至7中任一项所述的用户信用评分预测方法。