CN111882140A

CN111882140A - 风险评测方法、模型训练方法、装置、设备及存储介质

Info

Publication number: CN111882140A
Application number: CN201911302264.1A
Authority: CN
Inventors: 徐侃; 李谦; 江小俊
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd; Mashang Consumer Finance Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-11-03

Abstract

本发明公开了一种风险评测方法、模型训练方法、装置、设备及存储介质，涉及数据处理技术领域，以解决对用户的风险评测结果不准确的问题。该方法包括：获取第一训练样本集和第二训练样本集；其中，所述第一训练样本集中的样本为通过预审核的用户的信息，所述第二训练样本集中的样本为未通过预审核的用户的信息；从所述第二训练样本集中选择目标训练样本集；利用所述第一训练样本集和所述目标训练样本集进行模型训练，得到风险评测模型。本发明实施例可得到较为准确的风险评测结果。

Description

风险评测方法、模型训练方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种风险评测方法、模型训练方法、装置、设备及存储介质。

背景技术

风控能力是金融公司的核心。面对大量的贷款申请用户，优质用户会按时还款，为公司带来利润；而劣质用户恶意欠款，将会为公司造成巨大经济损失。拥有良好的风控能力，才能准确区分优质用户和劣质用户，为公司带来经济效益。

随着贷款申请用户数量的不断增大，传统人工审批授信的形式由于效率低、成本高，逐步被以评分卡模型为代表的风险模型所取代。通过构建贷前风险模型，将审批环节自动化，能有效提升审批效率，降低坏账率。但是，在构建目前的贷前风险模型的过程中，仅将通过预审核的用户作为考虑因素，因此，使得利用该风险模型得到的评测结果不准确。

发明内容

本发明实施例提供一种风险评测方法、模型训练方法、装置、设备及存储介质，以解决对用户的风险评测结果不准确的问题。

第一方面，本发明实施例提供了一种风险评测模型训练方法，包括：

获取第一训练样本集和第二训练样本集；其中，所述第一训练样本集中的样本为通过预审核的用户的信息，所述第二训练样本集中的样本为未通过预审核的用户的信息；

从所述第二训练样本集中选择目标训练样本集；

利用所述第一训练样本集和所述目标训练样本集进行模型训练，得到风险评测模型。

第二方面，本发明实施例还提供一种风险评测方法，包括：

获取待评测用户的信息；

将所述待评测用户的信息作为风险评测模型的输入，得到所述待评测用户的风险评测结果；

其中，所述风险评测模型是按照前述的风险评测模型训练方法获得的。

第三方面，本发明实施例还提供了一种风险评测模型训练装置，包括：

第一获取模块，用于获取第一训练样本集和第二训练样本集；其中，所述第一训练样本集中的样本为通过预审核的用户的信息，所述第二训练样本集中的样本为未通过预审核的用户的信息；

选择模块，用于从所述第二训练样本集中选择目标训练样本集；

训练模块，用于利用所述第一训练样本集和所述目标训练样本集进行模型训练，得到风险评测模型。

第四方面，本发明实施例还提供了一种风险评测装置，包括：

获取模块，用于获取待评测用户的信息；

处理模块，用于将所述待评测用户的信息作为风险评测模型的输入，得到所述待评测用户的风险评测结果；

其中，所述风险评测模型是按照前述风险评测模型训练方法获得的。

第五方面，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如上所述的第一方面或者第二方面方法中的步骤。

第六方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的第一方面或者第二方面方法中的步骤。

在本发明实施例中，利用第一训练样本集和第二训练样本集中的目标训练样本集训练风险评测模型，其中，所述第一训练样本集中的样本为通过预审核的用户的信息，所述第二训练样本集中的样本为未通过预审核的用户的信息，所述目标训练样本集是从第二训练样本集中进行选择得到的。由于在训练模型中考虑了通过预审核的用户的信息和未通过预审核的用户的信息都作为训练样本，且在未通过预审核的用户的信息的训练样本中进行了进一步的筛选，使得训练样本包括的范围更大，且更有代表性，使得训练得到的风险评测模型泛化性更强，因此，利用本发明实施例的方案可获得较为准确的风险评测模型，从而得到较为准确的风险评测结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的风险评测模型训练方法的流程图之一；

图2是本发明实施例提供的风险评测模型训练方法的流程图之二；

图3是本发明实施例提供的风险评测方法的流程图；

图4是本发明实施例提供的风险评测模型训练装置的结构图；

图5是本发明实施例提供的风险评测装置的结构图；

图6是本发明实施例提供的电子设备的结构图之一；

图7是本发明实施例提供的电子设备的结构图之二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的风险评测模型训练方法的流程图，如图1所示，包括以下步骤：

步骤101、获取第一训练样本集和第二训练样本集。

其中，所述第一训练样本集中的样本为通过预审核的用户的信息，所述第二训练样本集中的样本为未通过预审核的用户的信息。

其中，所述预审核可以是贷款审核。在实际应用中，可按照现有的贷款审核方式，对不同的用户进行审核，从而确定通过审核的用户和未通过审核的用户。在此，利用通过审核的用户的信息组成第一训练样本集，利用未通过审核的用户的信息组成第二训练样本集。所述用户的信息例如可以是用户的姓名，年龄，贷款记录，还款信息等等。

进一步地，所述第一训练样本为添加了标签的第一训练样本；其中，所述标签包括第一标签和第二标签，所述第一标签用于表示还款表现符合预设要求，所述第二标签用于表示还款表现不符合所述预设要求。例如，所述第一标签表示用户还款及时，第二标签表示用户有逾期还款的现象。

步骤102、从所述第二训练样本集中选择目标训练样本集。

在本发明实施例中，为了获得更为准确的风险评测模型，还可从第二训练样本集中选择目标训练样本集。在从第二训练样本集中选择目标训练样本集时，可考虑各样本的资质等因素。资质分值是用于表示用户还款是否及时的参数，资质分值越高，则说明该用户及时还款的可能性越高，否则越低。在本发明实施例中，目标训练样本集中的各训练样本的资质分值均小于或等于预设分值。其中，该预设分值可任意设置。例如，该预设分值可设置为0。那么，在此，目标训练样本集中各训练样本的资质分值都为0。

具体的，在从所述第二训练样本集中选择目标训练样本集时，获取所述第二训练样本集中各训练样本的资质分值，之后，从所述第二训练样本集中选择资质分值小于或等于预设分值的训练样本组成所述目标训练样本集。在实际应用中，将所述第二训练样本集输入资质筛选模型，得到所述第二训练样本集中各训练样本的资质分值。具体的，可利用现有的资质筛选模型，获取所述第二训练样本集中各训练样本的资质分值。或者，在本发明实施例中，还可根据历史数据或者样本训练资质筛选模型，用于获取所述第二训练样本集中各训练样本的资质分值。

在训练资质筛选模型时，可获取第三待训练样本集。其中，第三待训练样本集中的各样本可以是利用从历史用户中任意选的用户信息组成的。根据这些历史用户的信息，可获得其还款表现等信息。那么，即根据所述第三待训练样本集中各样本的还款表现，获取所述第三待训练样本集中的各样本的资质分值。具体的，可根据还款表现和资质分值的对应关系，确定每个样本的资质分值。例如，对于没有逾期还款记录的用户，其资质分值可设置为10分；对于有逾期还款记录的用户，逾期还款记录为1次的，其资质分值可设置为9分等。最后，基于所述第三待训练样本集和所述第三待训练样本集中的各样本的资质分值，利用XGBoost(Extreme Gradient Boosting，极端梯度提升)进行模型训练，得到所述资质筛选模型。

步骤103、利用所述第一训练样本集和所述目标训练样本集进行模型训练，得到所述风险评测模型。

具体的，在进行模型训练时，所述将所述第一训练样本集和所述目标训练样本集输入XGBoost进行模型训练，得到风险评测模型。使用XGBoost模型进行训练，不需要进行变量筛选，能利用全部的变量信息，从而避免了特征信息的损失，可进一步提高得到的模型的准确性。

在本发明实施例中，利用第一训练样本集和第二训练样本集中的目标训练样本集训练风险评测模型，其中，所述第一训练样本集中的样本为通过预审核的用户的信息，所述第二训练样本集中的样本为未通过预审核的用户的信息，所述目标训练样本集是通过在第二训练样本集中进一步筛选得到的。由于在训练模型中考虑了通过预审核的用户的信息和未通过预审核的用户的信息都作为训练样本，且在未通过预审核的用户的信息的训练样本中进行了进一步的筛选，使得训练样本包括的范围更大，且更有代表性，因此，利用本发明实施例的方案可获得较为准确的风险评测模型，从而得到较为准确的风险评测结果。

进一步地，目标训练样本集是通过在第二训练样本集中根据资质分值达到预设分值的情况下进行筛选的，对第二训练样本集的进一步筛选是为了筛选掉信用相对较好的一部分用户对应的样本数据，将信用相对较差的这部分用户对应的样本数据进行风险评测模型的训练，使得在训练所述风险评测模型时，其学习到的优质用户与劣质用户的信息更加准确，不会轻易将一些信用较好的用户识别为坏用户。因此，同样地，利用本发明实施例的方案可获得较为准确的风险评测模型，从而得到较为准确的风险评测结果。

参见图2，图2是本发明实施例提供的风险评测模型训练方法的流程图，如图2所示，包括以下步骤：

步骤201、获取第一训练样本集和第二训练样本集。

根据对用户的审批结果，将申请的用户划分为申请通过用户群和拒绝申请用户群。其中，申请通过用户群中用户的信息构成第一训练样本集，拒绝申请用户群中用户的信息构成第二训练样本集。

步骤202、为第一训练样本集中的样本添加标签。

对于申请通过用户群的用户，按照还款表现，为用户增加还款标签信息，用于后续模型训练。其中，在本发明实施例中不对如何增加标签以及标签的具体表现形式进行限定，只要能区分出不同还款表现的用户即可。

步骤203、对第二训练样本集进行筛选，得到目标训练样本集。

为增加获得的模型效果的稳定性，在本发明实施例中，对第二训练样本集进行筛选，使得打标更合理。具体的，利用历史样本和数据构造资质筛选模型。对第二训练样本集的每一个样本，都可用该模型获得其资质分值，该资质分值大于或等0，且小于或等于1。资质分值越接近1，则表示用户资质越好，越接近0，则表示用户资质越差。

在此，将资质分值为0的样本或者将资质分值最低的样本作为目标训练样本，也即将资质最差的样本作为“坏样本”。这部分样本虽然没有实际的还款表现，但如果有借款，也很大可能发生逾期，因此，为其增加“坏样本”的标签并用于后续的模型训练，可使得获得的模型更为准确。

在本发明实施例中，使用模型筛选的方式，从审核不通过的用户群中筛选出资质最差的用户群，增加“坏样本”标签后加入到后续模型训练。通过在训练样本中增加资质最差的用户群对应的“坏样本”后，可丰富样本范围，增加模型的泛化能力。同时由于只增加了资质最差的用户群，使得该风险评测模型学习到的用户信息更加准确，因此可尽量避免对拒绝样本误判的情况，使得模型预测更加准确。

其中，步骤202和步骤203之间无严格的先后关系。

步骤204、基于添加了标签的第一训练样本集和目标训练样本集，使用Xgboost集成树模型进行训练，得到风险评测模型。

其中，该风险评测模型可用于贷前风险评测。

由上可以看出，在本发明实施例的模型训练中，增加了资质较差的拒绝申请用户群的信息，丰富了建模样本，使得训练样本的分布能接近真实申请用户群的分布，从而使模型具有更好的泛化能力，可提升模型的预测能力。经比较，利用36万的测试样本时，以AUC(Area Under Curve，曲线下面积)和KS(Kolmogorov-Smirnov)作为评价指标，相比传统方法所建立的模型，利用本发明实施例训练的风险评测模型的AUC指标可提升5％，KS指标可提升8％。

参见图3，图3是本发明实施例提供的风险评测方法的流程图，如图3所示，包括以下步骤：

步骤301、获取待评测用户的信息。

其中，所述待评测用户的信息可包括姓名，年龄，还款记录等等。

步骤302、将所述待评测用户的信息作为风险评测模型的输入，得到所述待评测用户的风险评测结果。

在本发明实施例中，利用添加了标签的第一训练样本集和第二训练样本集训练风险评测模型，其中，所述第一训练样本集中的样本为通过预审核的用户的信息，所述第二训练样本集中的样本为未通过预审核的用户的信息。由于在训练模型中将通过预审核的用户的信息和未通过预审核的用户的信息都作为训练样本，因此，利用本发明实施例的方案可获得较为准确的风险评测模型，从而得到较为准确的风险评测结果。

本发明实施例还提供了一种风险评测模型训练装置。参见图4，图4是本发明实施例提供的风险评测模型训练装置的结构图。由于风险评测模型训练装置解决问题的原理与本发明实施例中风险评测模型训练方法相似，因此该风险评测模型训练装置的实施可以参见方法的实施，重复之处不再赘述。

如图4所示，风险评测模型训练装置400包括：第一获取模块401，用于获取第一训练样本集和第二训练样本集；其中，所述第一训练样本集中的样本为通过预审核的用户的信息，所述第二训练样本集中的样本为未通过预审核的用户的信息；选择模块402，用于从所述第二训练样本集中选择目标训练样本集；训练模块403，用于利用所述第一训练样本集和所述目标训练样本集进行模型训练，得到风险评测模型。

可选的，所述选择模块402包括：获取子模块，用于获取所述第二训练样本集中各训练样本的资质分值；选择子模块，用于从所述第二训练样本集中选择资质分值小于或等于预设分值的训练样本组成所述目标训练样本集。

可选的，所述获取子模块，用于利将所述第二训练样本集输入资质筛选模型，得到所述第二训练样本集中各训练样本的资质分值。

可选的，所述训练模块403还可用于训练所述资质筛选模型。此时，所述训练模块403可包括：

第一获取子模块，用于获取第三待训练样本集；第二获取子模块，用于确定所述第三待训练样本集中的各样本的资质分值；训练子单元，用于将所述第三待训练样本集和所述第三待训练样本集中的各样本的资质分值，输入极端梯度提升XGBoost进行模型训练，得到所述资质筛选模型。

可选的，所述训练模块403具体用于，将所述第一训练样本集和所述目标训练样本集输入XGBoost进行模型训练，得到风险评测模型。

本发明实施例提供的装置，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本发明实施例还提供了一种风险评测装置。参见图5，图5是本发明实施例提供的风险评测装置的结构图。由于风险评测装置解决问题的原理与本发明实施例中风险评测方法相似，因此该风险评测装置的实施可以参见方法的实施，重复之处不再赘述。

如图5所示，风险评测装置500包括：

获取模块501，用于获取待评测用户的信息；处理模块502，用于将所述待评测用户的信息作为风险评测模型的输入，得到所述待评测用户的风险评测结果；其中，所述风险评测模型是按照前述风险评测模型训练方法获得的。

如图6所示，本发明实施例的电子设备，包括：处理器600，用于读取存储器620中的程序，执行下列过程：

从所述第二训练样本集中选择目标训练样本集；

收发机610，用于在处理器600的控制下接收和发送数据。

其中，在图6中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器600代表的一个或多个处理器和存储器620代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机610可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器600负责管理总线架构和通常的处理，存储器620可以存储处理器600在执行操作时所使用的数据。

处理器600负责管理总线架构和通常的处理，存储器620可以存储处理器600在执行操作时所使用的数据。

处理器600还用于读取所述程序，执行如下步骤：

获取所述第二训练样本集中各训练样本的资质分值；

从所述第二训练样本集中选择资质分值小于或等于预设分值的训练样本作为所述目标训练样本集。

处理器600还用于读取所述程序，执行如下步骤：

将所述第二训练样本集输入资质筛选模型，得到所述第二训练样本集中各训练样本的资质分值。

处理器600还用于读取所述程序，执行如下步骤：

训练所述资质筛选模型，包括：

获取第三待训练样本集；

确定所述第三待训练样本集中的各样本的资质分值；

将所述第三待训练样本集和所述第三待训练样本集中的各样本的资质分值，输入极端梯度提升XGBoost进行模型训练，得到所述资质筛选模型。

处理器600还用于读取所述程序，执行如下步骤：

将所述第一训练样本集和所述目标训练样本集输入XGBoost进行模型训练，得到风险评测模型。

如图7所示，本发明实施例的电子设备，包括：处理器700，用于读取存储器720中的程序，执行下列过程：

获取待评测用户的信息；

收发机710，用于在处理器700的控制下接收和发送数据。

其中，在图7中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器700代表的一个或多个处理器和存储器720代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机710可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器700负责管理总线架构和通常的处理，存储器720可以存储处理器700在执行操作时所使用的数据。

处理器700负责管理总线架构和通常的处理，存储器720可以存储处理器700在执行操作时所使用的数据。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述风险评测模型训练方法或者风险评测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。根据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种风险评测模型训练方法，其特征在于，包括：

从所述第二训练样本集中选择目标训练样本集；

2.根据权利要求1所述的方法，其特征在于，所述从所述第二训练样本集中选择目标训练样本集，包括：

获取所述第二训练样本集中各训练样本的资质分值；

3.根据权利要求2所述的方法，其特征在于，所述获取所述第二训练样本集中各训练样本的资质分值，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：训练所述资质筛选模型，具体包括：

获取第三待训练样本集；

确定所述第三待训练样本集中的各样本的资质分值；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述利用所述第一训练样本集和所述目标训练样本集进行模型训练，得到所述风险评测模型，包括：

6.一种风险评测方法，其特征在于，包括：

获取待评测用户的信息；

其中，所述风险评测模型是按照权利要求1-5任意一项的风险评测模型训练方法获得的。

7.一种风险评测模型训练装置，其特征在于，包括：

8.一种风险评测装置，其特征在于，包括：

获取模块，用于获取待评测用户的信息；

9.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器，用于读取存储器中的程序实现如权利要求1至5中任一项所述的方法中的步骤；或者实现如权利要求6所述的方法中的步骤。

10.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法中的步骤；或者实现如权利要求6所述的方法中的步骤。