CN112884569A

CN112884569A - 一种信用评估模型的训练方法、装置及设备

Info

Publication number: CN112884569A
Application number: CN202110205072.XA
Authority: CN
Inventors: 王娜; 陈李龙; 强锋; 倪灵
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-06-01

Abstract

本说明书实施例提供一种信用评估模型的训练方法、装置及设备，可用于人工智能领域。所述方法包括获取影响客户信用的样本数据集；获取第K次训练的分类器；利用第K次训练的分类器对样本数据集中负样本进行预测，获得对应的预测值；根据负样本对应的预测值和标签值，确定分类难度值；基于分类难度值，对样本数据集中负样本进行采样；将采样结果和样本数据集中正样本合并，生成数据集；利用数据集对预设分类模型进行训练，获得第K次训练的基分类器；根据已获得的所有基分类器，确定第K+1次训练的分类器；判断是否达到预设训练次数，确定达到时，将第K+1次训练的分类器作为信用评估模型。利用本说明书实施例可以准确的获得信用评估结果。

Description

一种信用评估模型的训练方法、装置及设备

技术领域

本申请涉及人工智能技术领域，特别涉及一种信用评估模型的训练方法、装置及设备。

背景技术

随着科技的快速发展，推进国际收支客户的挖潜和拓展工作变得越来越重要。现有技术中主要通过信用评分模型对国际收支客户进行信用评分，然后根据评分结果挖掘潜在客户，从而逐户落实营销实现拓户。

然而，目前训练信用评分模型时，主要是假设各个类别之间的样本数量分布大致相同，这样就会导致在训练过程中忽略包含着重要信息的少数类样本，从而在面临样本严重不平衡的情况时，无法准确的获得信用评估结果。

因此，业内亟需一种可以解决上述技术问题的技术方案。

发明内容

本说明书实施例提供了一种信用评估模型的训练方法、装置及设备，在面临样本严重不平衡的情况时，也可以准确的获得信用评估结果。

本说明书提供的一种信用评估模型的训练方法、装置及设备是包括以下方式实现的。

一种信用评估模型的训练方法，包括：获取影响客户信用的样本数据集；其中，样本数据集中的每条样本数据对应有标签值，所述标签值用于区分正负样本，所述样本数据集中负样本数量大于正样本数量；获取第K次训练对应的分类器，K>0；利用所述第K次训练对应的分类器对所述样本数据集中的负样本进行预测，获得每条负样本对应的预测值；根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值；基于所述分类难度值，对所述样本数据集中的负样本进行采样，获得第一负样本；将所述第一负样本和所述样本数据集中的正样本合并，生成第一数据集；利用所述第一数据集对预设分类模型进行训练，获得第K次训练确定的基分类器；根据第K+1次训练前获得的所有基分类器，确定第K+1次训练对应的分类器；判断是否达到预设训练次数，确定达到时，将所述第K+1次训练对应的分类器作为信用评估模型。

一种信用评估模型的训练装置，包括：数据集获取模块，用于获取影响客户信用的样本数据集；其中，样本数据集中的每条样本数据对应有标签值，所述标签值用于区分正负样本，所述样本数据集中负样本数量大于正样本数量；分类器获取模块，用于获取第K次训练对应的分类器，K>0；预测值获得模块，用于利用所述第K次训练对应的分类器对所述样本数据集中的负样本进行预测，获得每条负样本对应的预测值；分类难度值确定模块，用于根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值；采样模块，用于基于所述分类难度值，对所述样本数据集中的负样本进行采样，获得第一负样本；数据集生成模块，用于将所述第一负样本和所述样本数据集中的正样本合并，生成第一数据集；训练模块，用于利用所述第一数据集对预设分类模型进行训练，获得第K次训练确定的基分类器；分类器确定模块，用于根据第K+1次训练前获得的所有基分类器，确定第K+1次训练对应的分类器；判断模块，用于判断是否达到预设训练次数，确定达到时，将所述第K+1次训练对应的分类器作为信用评估模型。

一种信用评估模型的训练设备，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现本说明书实施例中任意一个方法实施例方法的步骤。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现本说明书实施例中任意一个方法实施例的步骤。

本说明书提供的一种信用评估模型的训练方法、装置及设备。一些实施例中可以获取影响客户信用的样本数据集，为模型训练提供保证，其中，样本数据集中的每条样本数据对应有标签值，标签值用于区分正负样本，样本数据集中负样本数量大于正样本数量。进一步，可以获取第K次训练对应的分类器；利用第K次训练对应的分类器对样本数据集中的负样本进行预测，获得每条负样本对应的预测值；根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值；基于分类难度值，对样本数据集中的负样本进行采样，获得第一负样本；将第一负样本和样本数据集中的正样本合并，生成第一数据集；利用第一数据集对预设分类模型进行训练，获得第K次训练确定的基分类器；根据第K+1次训练前获得的所有基分类器，确定第K+1次训练对应的分类器。还可以判断是否达到预设训练次数，确定达到时，将第K+1次训练对应的分类器作为信用评估模型。采用本说明书提供的实施方案，不仅可以充分学习少数类样本的信息，使每轮基分类器获得不同的区分能力，而且可以有效提升最终获得的信用评估模型的分类能力，使其在面临样本严重不平衡的情况时，可以准确获得信用评估结果。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，并不构成对本说明书的限定。在附图中：

图1是本说明书提供的一种信用评估模型的训练方法的一个实施例的流程示意图；

图2是本说明书提供的一种信用评估模型的训练方法的一个具体实施例的流程示意图；

图3是本说明书提供的一种信用评估模型的训练装置的一个实施例的模块结构示意图；

图4是本说明书提供的一种信用评估模型的训练服务器的一个实施例的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书中的一部分实施例，而不是全部的实施例。基于本说明书中的一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书实施例保护的范围。

下面以一个具体的应用场景为例对本说明书实施方案进行说明。具体的，图1是本说明书提供的一种信用评估模型的训练方法的一个实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。

本说明书提供的一种实施方案可以应用到客户端、服务器等中。所述客户端可以包括终端设备，如智能手机、平板电脑等。所述服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式系统的服务器结构等。

需要说明的是，下述实施例描述并不对基于本说明书的其他可扩展到的应用场景中的技术方案构成限制。具体的一种实施例如图1所示，本说明书提供的一种信用评估模型的训练方法的一种实施例中，所述方法可以包括以下步骤。

S0：获取影响客户信用的样本数据集；其中，样本数据集中的每条样本数据对应有标签值，所述标签值用于区分正负样本，所述样本数据集中负样本数量大于正样本数量。

一些实施例中，获取影响客户信用的样本数据集前，可以从预设数据库或者存储器中获取影响客户信用的数据。其中，影响客户信用的数据可以包括客户国际收支交易明细信息、客户所有类型交易明细信息、客户所在企业基本信息、根据交易明细衍生的信息等。其中，根据交易明细衍生的信息可以包括交易频次、金额、交易对手公司类别、数量等。预设数据库可以是Oracle数据库、MySQL数据库等。

一些实施例中，在获取影响客户信用的数据后，可以根据信贷记录和征信数据给客户分配标签值。例如一些实施场景中，可以为好客户分配标签值0，为坏客户分配标签值1。其中，区分好客户与坏客户的方式可以根据实际场景确定，例如一些实施场景中，可以定义逾期1个月以上的客户为坏客户，另一些实施场景中，可以定义逾期2个月以上的客户为坏客户。需要说明的是，本说明书实施例中，将好客户记为负样本，坏客户记为正样本。标签值可以用于区分正负样本。当然，上述只是进行示例性说明，为客户分配的标签值不限于上述举例，所属领域技术人员在本申请技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本申请相同或相似，均应涵盖于本申请保护范围内。需要说明的是，本说明书实施例中以标签值为0和1进行示例性说明，其它实施场景类似，对此不作赘述。

一些实施例中，在为客户分配标签值后，可以进一步对影响客户信用的数据进行预处理，从而为后续模型训练提供准确的数据源。其中，预处理可以包括删除缺失率过高的样本、删除缺失率过高的指标等。当然，上述只是进行示例性说明，预处理的方式不限于上述举例，例如还可以包括缺失值补全、异常值处理等，所属领域技术人员在本申请技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本申请相同或相似，均应涵盖于本申请保护范围内。

一些实施例中，在对影响客户信用的数据进行预处理后，可以将获得数据划分为测试数据和训练数据。其中，训练数据可以用于后续训练信用评估模型，测试数据可以用于对训练获得的模型进行验证评估。

本说明书实施例中，上述样本数据集可以理解为是将获得的影响客户信用的数据划分后的训练数据组成的集合。其中，样本数据集中的每条样本数据对应有标签值，标签值用于区分正负样本，样本数据集中负样本数量大于正样本数量。样本数据至少可以包括下述之一：客户国际收支交易明细信息、客户所有类型交易明细信息、客户所在企业基本信息、根据交易明细衍生的信息。需要说明的是，通常，一些实施场景中，样本数据集中正负样本的数量严重不平衡，会出现负样本数量远大于正样本数量。

S2：获取第K次训练对应的分类器，K>0。

一些实施例中，在获取影响客户信用的样本数据集后，可以利用样本数据集中的样本数据进行模型训练。

一些实施例中，利用样本数据集中的样本数据进行模型训练时，可以先获取训练对应的分类器。其中，训练对应的分类器可以根据已经训练获得的基分类器组合确定。一个基分类器可以理解为是一次训练获得模型。训练对应的分类器可以由一个或多个基分类器组合获得。需要说明的是，一些实施场景中，通常需要进行多次迭代训练才能获得最终模型。

一些实施例中，获取第K次训练对应的分类器，可以包括：获取第一次训练对应的分类器；或者，获取第K次训练对应的分类器，K>1。

一些实施例中，所述获取第一次训练对应的分类器，可以包括：对所述样本数据集中的负样本进行随机欠采样，获得第二负样本；将所述第二负样本和所述样本数据集中的正样本合并，生成第二数据集；利用所述第二数据集对所述预设分类模型进行训练，获得初始基分类器；将所述初始基分类器作为所述第一次训练对应的分类器。其中，预设分类模型可以是任何标准的二分类模型，如GBDT(Gradient Boosting Decision Tree，梯度提升决策树)，LR(Logistic Regression，逻辑回归)等。

例如一些实施场景中，样本数据集中的负样本(多数样本，好客户)数量为n，正样本数量为m，此时，可以对负样本进行随机欠采样得到m个负样本，然后将欠采样得到的负样本和正样本构成数据集D₀。进一步，可以利用数据集D₀对预设分类模型进行训练，得到模型f₀(x)，然后将f₀(x)作为第一次训练对应的分类器F(x)。其中，模型f₀(x)可以表示初始基分类器，F(x)可以表示训练对应的分类器。

一些实施例中，所述获取第K次训练对应的分类器，K>1，可以包括：获取第K次训练前获得的所有基分类器；将第K次训练前获得的所有基分类器的均值作为所述第K次训练对应的分类器，K>1。例如，第二次训练对应的分类器可以表示为

其中，f₀(x)表示初始基分类器，f₁(x)表示第一次训练确定的基分类器，F(x)可以表示训练对应的分类器。

一些实施例中，基分类器的输出结果为样本数据对应的标签值中的一个，如0或1。由于K＝1时，第一次训练对应的基分类器是初始基分类器；K>1时，第K次训练对应的分类器是第K次训练前获得的所有基分类器的均值，所以，第K次(K＝1)训练对应的分类器的输出结果为标签值中的任意一个(如0或1)，第K次(K>1)训练对应的分类器的输出结果是对一系列标签值的加和平均，如标签值为0、1，则输出结果是一系列0和1的加和平均，最终是[0，1]上的实数。综上，第K次训练对应的分类器的输出结果为[0，1]的实数。

S4：利用所述第K次训练对应的分类器对所述样本数据集中的负样本进行预测，获得每条负样本对应的预测值。

一些实施例中，在获取第K次训练对应的分类器后，可以利用第K次训练对应的分类器对样本数据集中的负样本进行预测，获得每条负样本对应的预测值。其中，如标签值为0、1，则预测值为[0，1]上的实数。

一些实施例中，可以根据样本数据对应的标签值从样本数据集中获取包括的负样本，然后将获得的负样本输入到训练对应的分类器中进行评估，从而获得每条负样本对应的预测值。

S6：根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值。

一些实施例中，在获得每条负样本对应的预测值后，可以根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值。

一些实施例中，所述根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值，可以包括：计算每条负样本对应的预测值和标签值的差值；将所述差值的绝对值作为每条负样本的分类难度值。当然，上述只是进行示例性说明，计算负样本的分类难度值的方式不限于上述举例，例如还可以将预测值和标签值的平均值作为负样本的分类难度值，所属领域技术人员在本申请技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本申请相同或相似，均应涵盖于本申请保护范围内。

S8：基于所述分类难度值，对所述样本数据集中的负样本进行采样，获得第一负样本。

一些实施例中，在确定每条负样本的分类难度值后，可以基于分类难度值，对样本数据集中的负样本进行采样。

一些实施例中，所述基于所述分类难度值，对所述样本数据集中的负样本进行采样，获得第一负样本，可以包括：根据所述分类难度值，将所述样本数据集中的负样本划分到不同区间；根据每个区间包括的负样本的分类难度值，计算每个区间的平均分类难度值；根据每个区间的平均分类难度值，确定每个区间的采样比例；根据每个区间的采样比例对每个区间包括的负样本进行采样，获得第一负样本。

一些实施场景中，可以将分类难度值所对应的数值区间划分为k(k>1)个区间，然后按照分类难度值将负样本划分到对应区间。例如，分类难度值所对应的数值区间为[0，1]，则可以将该区间划分为k个区间，分别为[0，1/k)，[1/k，2/k)，...，[(k-1)/k，1]，然后根据分类难度值所属区间，将负样本划分到对应区间内。

一些实施场景中，在将负样本划分到不同区间后，可以统计每个区间内负样本的数量，获取每个区间中负样本的分类难度值，然后计算平均值获得每个区间的平均分类难度值。其中，第i个区间的平均分类难度值可以表示为

其中，i_n表示第i个区间内负样本的个数，h_j表示第i个区间内第j个负样本的分类难度值，

表示第i个区间的平均分类难度值，j表示序号。

一些实施场景中，在获得每个区间的平均分类难度值后，可以根据每个区间的平均分类难度值，按照下述公式确定每个区间的采样比例：

其中，p_i表示第i个区间的采样比例，

表示第i个区间的平均分类难度值，α表示采样权重调控因子，k表示区间总数量，i表示序号。一些实施场景中，

分类器总数可以为迭代次数。

一些实施场景中，在确定每个区间的采样比例后，可以根据下述公式确定在每个区间的采样个数：

其中，p_i表示第i个区间的采样比例，m表示正样本数量，p_s表示第s个区间的采样比例，s表示序号，k表示区间总数量，

表示所有区间对应的采样比例之和。

一些实施场景中，在确定在每个区间的采样个数后，可以对每个区间包括的负样本进行采样，从而获得第一负样本。第一负样本为每个区间采样结果的汇总。

S10：将所述第一负样本和所述样本数据集中的正样本合并，生成第一数据集。

一些实施例中，在获得第一负样本后，可以将第一负样本和样本数据集中的正样本合并，生成第一数据集。此时，第一数据集中的正负样本数量平衡，这样，基于该数据集训练模型，可以有效提升样本不平衡时的模型分类能力。

S12：利用所述第一数据集对预设分类模型进行训练，获得第K次训练确定的基分类器。

一些实施例中，在生成第一数据集后，可以利用第一数据集对预设分类模型进行训练，获得第K次训练确定的基分类器。其中，预设分类模型可以是任何标准的二分类模型，如GBDT(Gradient Boosting Decision Tree，梯度提升决策树)，LR(LogisticRegression，逻辑回归)等。

S14：根据第K+1次训练前获得的所有基分类器，确定第K+1次训练对应的分类器。

一些实施例中，在获得第K次训练确定的基分类器后，可以根据第K+1次训练前获得的所有基分类器，确定第K+1次训练对应的分类器。

一些实施场景中，第K+1次训练对应的分类器可以为第K+1次训练前获得的所有基分类器的均值。

S16：判断是否达到预设训练次数，确定达到时，将所述第K+1次训练对应的分类器作为信用评估模型。

一些实施例中，在确定第K+1次训练对应的分类器后，可以判断是否达到预设训练次数，从而确定是否停止训练。其中，预设训练次数可以根据实际场景进行设定，本说明书对此不作限定，例如，可以是50次、100次等。

一些实施例中，确定达到预设训练次数时，可以将第K+1次训练对应的分类器作为信用评估模型。其中，信用评估模型为训练停止时获得的所有基分类器的均值。信用评估模型可以用于对客户的信用进行评估。评估结果可以包括好客户(负样本)、坏客户(正样本)。

一些实施例中，确定未达到预设训练次数时，可以利用所述第K+1次训练对应的分类器对所述样本数据集中的负样本进行预测，获得每条负样本对应的预测值；根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值；基于所述分类难度值，对所述样本数据集中的负样本进行采样，获得第三负样本；将所述第三负样本和所述样本数据集中的正样本合并，生成第三数据集；利用所述第三数据集对预设分类模型进行训练，获得第K+1次训练确定的基分类器；根据第K+2次训练前获得的所有基分类器，确定第K+2次训练对应的分类器；判断是否达到预设训练次数，确定达到时，将所述第K+2次训练对应的分类器作为信用评估模型。

本说明书实施例，通过多轮训练，每轮训练都对负样本进行欠采样调控，可以使每轮训练对应的分类器获得不同的区分能力，从可以有效提升最终获得的信用评估模型的区分度，对普惠金融国际业务的小微企业挖潜有一定参考意义。

一些实施例中，在利用样本数据集训练获得信用评估模型后，可以利用对影响客户信用的数据划分获得的测试数据对信用评估模型进行验证评估。

一些实施例中，在利用样本数据集训练获得信用评估模型后，还可以获取目标客户的交易信息；所述交易信息表示影响目标客户信用的信息；将所述交易信息输入所述信用评估模型进行评估，基于评估结果确定所述目标客户的信用风险程度。

本说明书实施例，通过利用基于多轮欠采样获得的信用评估模型对国际收支客户进行信用评分，可以有效提升样本不平衡场景下模型的区分能力。

本说明书实施例，通过调控每轮欠采样获得的样本，可以在正负样本严重不平衡时，充分学习少数类样本的信息，使每轮确定的基分类器获得不同区分能力。通过对多轮欠采样得到的基分类器进行组合，获得信用评估模型，可以在面临样本严重不平衡的情况时，更准确的获得信用评估结果。

本说明书实施例采用的欠采样方法考虑了当前模型对样本的区分能力，在模型能力较弱时主要学习相对容易学习的样本，随着模型能力增强逐步学习难以区分的样本，从而可以有效提升模型的区分度，对普惠金融国际业务的小微企业挖潜有一定参考意义。

当然，上述只是进行示例性说明，本说明书实施例不限于上述举例，所属领域技术人员在本申请技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本申请相同或相似，均应涵盖于本申请保护范围内。

下面结合一个具体实施例对上述方法进行说明，然而，值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。如图2所示，图2是本说明书提供的一种信用评估模型的训练方法的一个具体实施例的流程示意图。在本具体实施例中，可以包括以下步骤。

S201：获取影响客户信用的数据。

本实施例中，影响客户信用的数据可以包括客户国际收支交易明细信息、客户所有类型交易明细信息、客户所在企业基本信息、根据交易明细衍生的信息等。

本实施例中，获取影响客户信用的数据后，可以根据信贷记录和征信数据为好客户(负样本)分配标签值0，为坏客户(正样本)分配标签值1。标签值可以用于区分正负样本。负样本数量远远大于正样本数量。

S202：将影响客户信用的数据划分为训练集和测试集。

其中，训练集可以理解为上述实施例中样本数据集，用于训练模型，测试集可以用于对训练获得的模型进行评估。在训练模型过程中，测试集不参与，待模型训练完毕之后，可以使用测试集对模型进行评估。

本实施例中，在将影响客户信用的数据划分为训练集和测试集前，可以去除缺失率过高的数据和缺失率过高的指标，从而为提高后续模型训练准确度提供保证。

S203：获取第K次训练对应的分类器，K>0。

本实施例中，获取第K(K>0)次训练对应的分类器前，可以对训练集中负样本进行随机欠采样，将欠采样获得的负样本和正样本合并，生成第一数据集，利用第一数据集对预设分类模型进行训练，获得初始基分类器。本实施例中，可以将初始基分类器记为f₀(x)。基分类器可以理解为每次训练确定的模型。

本实施例中，第K(K>0)次训练对应的分类器可以根据已经获得的所有基分类器的均值确定。例如，第一次训练对应的分类器为F(x)＝f₀(x)，第二次训练对应的分类器为

其中，f₁(x)为第一次训练确定的基分类器。

S204：利用第K次训练对应的分类器对训练集中的负样本进行预测，根据预测结果确定每条负样本的分类难度值。

本实施例中，可以利用第K次训练对应的分类器对训练集中的负样本进行预测，获得每条负样本对应的预测值，然后根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值。

S205：根据分类难度值将负样本分桶。

本实施例中，可以将负样本分为k桶，k>1。分桶可以理解为划分区间。

S206：根据每个桶包括的负样本的分类难度值，计算各桶的平均分类难度值。

S207：根据各桶的平均分类难度值确定各桶的采样比例，根据采样比例对各桶包括的负样本进行采样。

S208：将采样得到的负样本和训练集中的正样本合并，生成新的数据集。

S209：利用新的数据集对预设分类模型进行训练，获得第K次训练确定的基分类器。

本实施例中，可以将第K次训练确定的基分类器记为f_K(x)。

S210：根据已经获得的所有基分类器，确定第K+1次训练对应的分类器。

S211：判断是否达到预设训练次数，确定达到时，将确定的第K+1次训练对应的分类器作为信用评估模型。

本实施例中，确定达到时，可以停止训练，将确定的第K+1次训练对应的分类器作为信用评估模型。确定未达到时，令K＝K+1，重复执行步骤S204-步骤S211，直至达到预设训练次数，停止训练，获得信用评估模型。

本实施例中，最终获得信用评估模型可以表示为：

其中，N表示基分类器的个数，f_N-1(x)表示第N-1次训练确定的基分类器。

S212：利用测试集对信用评估模型进行评估，输出评估结果。

本说明书实施例，基于多轮欠采样训练获得信用评估模型，不仅可以有效解决分类过程中面临的正负样本不平衡问题，而且可以解决标准机器学习算法在训练过程中忽略少数类样本，极大地损害分类器对少数类的分类性能问题。

从以上的描述中，可以看出，本申请实施例可以获取影响客户信用的样本数据集，为模型训练提供保证，其中，样本数据集中的每条样本数据对应有标签值，标签值用于区分正负样本，样本数据集中负样本数量大于正样本数量。进一步，可以获取第K次训练对应的分类器；利用第K次训练对应的分类器对样本数据集中的负样本进行预测，获得每条负样本对应的预测值；根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值；基于分类难度值，对样本数据集中的负样本进行采样，获得第一负样本；将第一负样本和样本数据集中的正样本合并，生成第一数据集；利用第一数据集对预设分类模型进行训练，获得第K次训练确定的基分类器；根据第K+1次训练前获得的所有基分类器，确定第K+1次训练对应的分类器。还可以判断是否达到预设训练次数，确定达到时，将第K+1次训练对应的分类器作为信用评估模型。相比现有技术由于在模型训练过程中忽略包含着重要信息的少数类样本，损害了分类器对少数类的分类性能，从而在面临样本严重不平衡的情况时，无法准确的获得信用评估结果，本说明书实施例基于多轮欠采样调控每轮训练模型的样本，不仅可以充分学习少数类样本的信息，使每轮基分类器获得不同的区分能力，而且可以有效提升最终获得的信用评估模型的分类能力，使其在面临样本严重不平衡的情况时，可以准确获得信用评估结果。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参加即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

基于上述所述一种信用评估模型的训练方法，本说明书一个或多个实施例还提供一种信用评估模型的训练装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

具体地，图3是本说明书提供的一种信用评估模型的训练装置的一个实施例的模块结构示意图，如图3所示，本说明书提供的一种信用评估模型的训练装置可以包括：数据集获取模块120，分类器获取模块122，预测值获得模块124，分类难度值确定模块126，采样模块128，数据集生成模块130，训练模块132，分类器确定模块134，判断模块136。

数据集获取模块120，可以用于获取影响客户信用的样本数据集；其中，样本数据集中的每条样本数据对应有标签值，所述标签值用于区分正负样本，所述样本数据集中负样本数量大于正样本数量；

分类器获取模块122，可以用于获取第K次训练对应的分类器，K>0；

预测值获得模块124，可以用于利用所述第K次训练对应的分类器对所述样本数据集中的负样本进行预测，获得每条负样本对应的预测值；

分类难度值确定模块126，可以用于根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值；

采样模块128，可以用于基于所述分类难度值，对所述样本数据集中的负样本进行采样，获得第一负样本；

数据集生成模块130，可以用于将所述第一负样本和所述样本数据集中的正样本合并，生成第一数据集；

训练模块132，可以用于利用所述第一数据集对预设分类模型进行训练，获得第K次训练确定的基分类器；

分类器确定模块134，可以用于根据第K+1次训练前获得的所有基分类器，确定第K+1次训练对应的分类器；

判断模块136，可以用于判断是否达到预设训练次数，确定达到时，将所述第K+1次训练对应的分类器作为信用评估模型。

需要说明的，上述所述的装置根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书还提供一种信用评估模型的训练设备的实施例，包括处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括以下步骤：获取影响客户信用的样本数据集；其中，样本数据集中的每条样本数据对应有标签值，所述标签值用于区分正负样本，所述样本数据集中负样本数量大于正样本数量；获取第K次训练对应的分类器，K>0；利用所述第K次训练对应的分类器对所述样本数据集中的负样本进行预测，获得每条负样本对应的预测值；根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值；基于所述分类难度值，对所述样本数据集中的负样本进行采样，获得第一负样本；将所述第一负样本和所述样本数据集中的正样本合并，生成第一数据集；利用所述第一数据集对预设分类模型进行训练，获得第K次训练确定的基分类器；根据第K+1次训练前获得的所有基分类器，确定第K+1次训练对应的分类器；判断是否达到预设训练次数，确定达到时，将所述第K+1次训练对应的分类器作为信用评估模型。

需要说明的，上述所述的设备根据方法或装置实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图4是本说明书提供的一种信用评估模型的训练服务器的一个实施例的硬件结构框图，该服务器可以是上述实施例中的信用评估模型的训练装置或信用评估模型的训练设备。如图4所示，服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器200、以及用于通信功能的传输模块300。本领域普通技术人员可以理解，图4所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器10还可包括比图4中所示更多或者更少的组件，例如还可以包括其他的处理硬件，如数据库或多级缓存、GPU，或者具有与图4所示不同的配置。

存储器200可用于存储应用软件的软件程序以及模块，如本说明书实施例中的信用评估模型的训练方法对应的程序指令/模块，处理器100通过运行存储在存储器200内的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器200可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器200可进一步包括相对于处理器100远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输模块300包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块300可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上，所述的存储介质可以计算机读取并执行，实现本说明书实施例所描述方案的效果。所述存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

本说明书提供的上述信用评估模型的训练方法或装置实施例可以在计算机中由处理器执行相应的程序指令来实现，如使用windows操作系统的c++语言在PC端实现、linux系统实现，或其他例如使用android、iOS系统程序设计语言在智能终端实现，以及基于量子计算机的处理逻辑实现等。

需要说明的是说明书上述所述的装置、设备、系统根据相关方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照对应方法实施例的描述，在此不作一一赘述。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把部分模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。

本发明是参照根据本发明实施例的方法、装置、设备、系统的流程图和/或方框图来描述的。应理解可由计算机程序指令实现，可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。

以上所述仅为本说明书一个或多个实施例的实施例而已，并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

Claims

1.一种信用评估模型的训练方法，其特征在于，包括：

获取影响客户信用的样本数据集；其中，样本数据集中的每条样本数据对应有标签值，所述标签值用于区分正负样本，所述样本数据集中负样本数量大于正样本数量；

获取第K次训练对应的分类器，K>0；

利用所述第K次训练对应的分类器对所述样本数据集中的负样本进行预测，获得每条负样本对应的预测值；

根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值；

基于所述分类难度值，对所述样本数据集中的负样本进行采样，获得第一负样本；

将所述第一负样本和所述样本数据集中的正样本合并，生成第一数据集；

利用所述第一数据集对预设分类模型进行训练，获得第K次训练确定的基分类器；

根据第K+1次训练前获得的所有基分类器，确定第K+1次训练对应的分类器；

判断是否达到预设训练次数，确定达到时，将所述第K+1次训练对应的分类器作为信用评估模型。

2.根据权利要求1所述的方法，其特征在于，所述样本数据至少包括下述之一：客户国际收支交易明细信息、客户所有类型交易明细信息、客户所在企业基本信息、根据交易明细衍生的信息。

3.根据权利要求1所述的方法，其特征在于，所述获取第K次训练对应的分类器，包括：

获取第一次训练对应的分类器；或者，

获取第K次训练对应的分类器，K>1。

4.根据权利要求3所述的方法，其特征在于，所述获取第一次训练对应的分类器，包括：

对所述样本数据集中的负样本进行随机欠采样，获得第二负样本；

将所述第二负样本和所述样本数据集中的正样本合并，生成第二数据集；

利用所述第二数据集对所述预设分类模型进行训练，获得初始基分类器；

将所述初始基分类器作为所述第一次训练对应的分类器。

5.根据权利要求3所述的方法，其特征在于，所述获取第K次训练对应的分类器，K>1，包括：

获取第K次训练前获得的所有基分类器；

将第K次训练前获得的所有基分类器的均值作为所述第K次训练对应的分类器，K>1。

6.根据权利要求1所述的方法，其特征在于，所述根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值，包括：

计算每条负样本对应的预测值和标签值的差值；

将所述差值的绝对值作为每条负样本的分类难度值。

7.根据权利要求1所述的方法，其特征在于，所述基于所述分类难度值，对所述样本数据集中的负样本进行采样，获得第一负样本，包括：

根据所述分类难度值，将所述样本数据集中的负样本划分到不同区间；

根据每个区间包括的负样本的分类难度值，计算每个区间的平均分类难度值；

根据每个区间的平均分类难度值，确定每个区间的采样比例；

根据每个区间的采样比例对每个区间包括的负样本进行采样，获得第一负样本。

8.根据权利要求7所述的方法，其特征在于，根据每个区间的平均分类难度值，按照下述公式确定每个区间的采样比例：

其中，p_i表示第i个区间的采样比例，

表示第i个区间的平均分类难度值，α表示采样权重调控因子，k表示区间数量，i表示序号。

9.根据权利要求1所述的方法，其特征在于，还包括：

确定未达到预设训练次数时，利用所述第K+1次训练对应的分类器对所述样本数据集中的负样本进行预测，获得每条负样本对应的预测值；

基于所述分类难度值，对所述样本数据集中的负样本进行采样，获得第三负样本；

将所述第三负样本和所述样本数据集中的正样本合并，生成第三数据集；

利用所述第三数据集对预设分类模型进行训练，获得第K+1次训练确定的基分类器；

根据第K+2次训练前获得的所有基分类器，确定第K+2次训练对应的分类器；

判断是否达到预设训练次数，确定达到时，将所述第K+2次训练对应的分类器作为信用评估模型。

10.根据权利要求1所述的方法，其特征在于，还包括：

获取目标客户的交易信息；所述交易信息表示影响目标客户信用的信息；

将所述交易信息输入所述信用评估模型进行评估，基于评估结果确定所述目标客户的信用风险程度。

11.一种信用评估模型的训练装置，其特征在于，包括：

数据集获取模块，用于获取影响客户信用的样本数据集；其中，样本数据集中的每条样本数据对应有标签值，所述标签值用于区分正负样本，所述样本数据集中负样本数量大于正样本数量；

分类器获取模块，用于获取第K次训练对应的分类器，K>0；

预测值获得模块，用于利用所述第K次训练对应的分类器对所述样本数据集中的负样本进行预测，获得每条负样本对应的预测值；

分类难度值确定模块，用于根据每条负样本对应的预测值和标签值，确定每条负样本的分类难度值；

采样模块，用于基于所述分类难度值，对所述样本数据集中的负样本进行采样，获得第一负样本；

数据集生成模块，用于将所述第一负样本和所述样本数据集中的正样本合并，生成第一数据集；

训练模块，用于利用所述第一数据集对预设分类模型进行训练，获得第K次训练确定的基分类器；

分类器确定模块，用于根据第K+1次训练前获得的所有基分类器，确定第K+1次训练对应的分类器；

判断模块，用于判断是否达到预设训练次数，确定达到时，将所述第K+1次训练对应的分类器作为信用评估模型。

12.一种信用评估模型的训练设备，其特征在于，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至10中任意一项所述方法的步骤。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至10中任一项所述方法的步骤。