CN117726434A

CN117726434A - 一种信用评分卡模型训练方法、应用方法及相关产品

Info

Publication number: CN117726434A
Application number: CN202410089940.6A
Authority: CN
Inventors: 赵晓航; 王磊; 苏罡; 李继业; 史春奇; 杨青; 张辰亮; 孙乔; 涂晨希; 李�杰; 方心; 张馨月
Original assignee: Pacific Insurance Technology Co Ltd
Current assignee: Pacific Insurance Technology Co Ltd
Priority date: 2024-01-22
Filing date: 2024-01-22
Publication date: 2024-03-19

Abstract

本申请提供了一种信用评分卡模型训练方法、应用方法及相关产品。所述信用评分卡模型包括第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型，在执行所述方法时，首先通过将整体样本集利用第一信用评分卡子模型划分为高风险样本和低风险样本，并对每个类别的样本分别进行训练，使得不同的信用评分卡子模型分类预测不同样本的特征，然后为不同的信用评分卡子模型设置权重，通过评分卡嵌套和分别设置权重的方式使得信用评分卡模型针对不同的预测准确度需求进行调整，达到了准确预测高风险客户的违约概率效果。如此，可以提高头部精确率，以帮助金融机构更好地管理风险。

Description

一种信用评分卡模型训练方法、应用方法及相关产品

技术领域

本申请涉及金融技术领域，尤其涉及一种信用评分卡模型训练方法、应用方法及相关产品。

背景技术

在金融风险管理领域，评分卡模型被广泛应用于评估信用风险。该模型基于大量的历史数据，利用统计和机器学习算法，将各种特征转化为信用评分，从而预测客户未来的违约概率。评分卡模型的优点在于其简单、易于解释和实施，并且能够在大规模数据处理和快速决策方面提供优势。

然而，传统的评分卡模型在实践中存在一些局限性。例如，评分卡模型在预测违约概率时，通常只关注整体样本，而忽略了对不同类别风险客户的识别。这意味着，尽管模型可能总体上预测了违约概率，但它可能错过了最具有风险的客户，这可能导致金融机构在风险管理上的错误决策。

因此，如何提供一种信用评分卡模型实现更准确地预测高风险客户的违约概率，提高头部精确率，以帮助金融机构更好地管理风险是目前亟待解决的问题。

发明内容

有鉴于此，本申请提供了信用评分卡模型训练方法、应用方法及相关产品，旨在更准确地预测高风险客户的违约概率，提高头部精确率，以帮助金融机构更好地管理风险。

第一方面，本申请提供了一种信用评分卡模型训练方法，所述信用评分卡模型包括第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型，所述信用评分卡模型训练方法包括：

获取训练样本集；所述训练样本集包括多个信用主体的特征数据和信用评分标签；

将所述训练样本集输入所述第一信用评分卡子模型得到第一信用评分结果；

基于所述第一信用评分结果将所述训练样本集划分为第一子训练样本集和第二子训练样本集；所述第一子训练样本集为高风险样本；所述第二子训练样本集为低风险样本；

基于所述第一子训练样本集训练第二信用评分卡子模型，基于所述第二子训练样本集训练第三信用评分卡子模型；

为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到目标信用评分卡模型。

可选地，所述将所述训练样本集输入所述第一信用评分卡子模型得到第一信用评分结果，包括：

获取所述训练样本集中的特征变量；

针对所述特征变量进行分箱，并对每个分箱中的变量进行WOE转换得到每个分箱对应的WOE值；

根据所述WOE值，使用逻辑回归方法训练第一信用评分卡子模型，并得到第一信用评分结果。

可选地，所述基于所述第一信用评分结果将所述训练样本集划分为第一子训练样本集和第二子训练样本集，包括：

根据不同预设的比率基于所述第一信用评分结果将所述训练样本集划分为多个训练样本组；所述每个训练样本组包括第一子训练样本集和第二子训练样本集。

可选地，所述方法还包括：

获取验证样本集、测试样本集和实际样本集；

将所述验证样本集、测试样本集和实际样本集输入所述信用评分卡模型分别得到验证信用评分结果、测试信用评分结果和实际信用评分结果；

基于所述验证信用评分结果、测试信用评分结果和实际信用评分结果利用预测稳定性指数检验所述目标信用评分卡模型得到稳定性验证结果。

可选地，所述为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到目标信用评分卡模型，包括：

获取验证样本集；

将所述验证样本集输入所述信用评分卡模型得到验证信用评分结果；

基于所述验证信用评分结果利用预测准确性指数检验所述信用评分卡模型得到准确性验证结果；

基于所述准确性验证结果为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到目标信用评分卡模型。

获取验证样本集；

基于所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型生成随机权重矩阵；

利用所述验证样本集循环验证所述随机权重矩阵，直至所述信用评分卡模型满足预设循环结束条件，得到目标信用评分卡模型。

可选地，所述获取训练样本集包括：

获取多个信用主体的原始特征数据和信用评分标签；

对所述多个信用主体的原始特征数据进行变量衍生处理，以生成候选衍生变量；

对所述原始特征数据和候选衍生变量分别进行筛选得到原始特征和衍生特征；

基于所述原始特征、衍生特征和所述信用评分标签得到训练样本集。

第二方面，本申请提供了一种信用评分方法，其特征在于，所述信用评分方法包括：

获取目标信用主体的历史行为数据；

基于信用评分卡模型对所述目标信用主体的历史行为数据进行处理，获得所述目标信用主体的信用评分卡结果；所述信用评分卡模型包括第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型；在训练过程中，所述第一信用评分卡子模型用于根据训练样本集得到第一信用评分结果，基于所述第一信用评分结果将所述训练样本集划分为第一子训练样本集和第二子训练样本集；所述第二信用评分卡子模型基于所述第一子训练样本集训练，所述第三信用评分卡子模型基于所述第二子训练样本集训练，为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到信用评分卡模型。

第三方面，本申请提供了一种信用评分卡模型训练装置，所述信用评分卡模型包括第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型，所述信用评分卡模型训练装置包括：

第一获取模块，用于获取训练样本集；所述训练样本集包括多个信用主体的特征数据和信用评分标签；

第一信用评分模块，用于将所述训练样本集输入所述第一信用评分卡子模型得到第一信用评分结果；

划分模块，用于基于所述第一信用评分结果将所述训练样本集划分为第一子训练样本集和第二子训练样本集；

训练模块，用于基于所述第一子训练样本集训练第二信用评分卡子模型，基于所述第二子训练样本集训练第三信用评分卡子模型；

设置模块，用于为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到信用评分卡模型。

第四方面，本申请提供了一种信用评分装置，所述信用评分装置包括：

第二获取模块，用于获取目标信用主体的历史行为数据；

信用评分模块，用于基于信用评分卡模型对所述目标信用主体的历史行为数据进行处理，获得所述目标信用主体的信用评分卡结果；所述信用评分卡模型包括第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型；在训练过程中，所述第一信用评分卡子模型用于根据训练样本集得到第一信用评分结果，基于所述第一信用评分结果将所述训练样本集划分为第一子训练样本集和第二子训练样本集；所述第二信用评分卡子模型基于所述第一子训练样本集训练，所述第三信用评分卡子模型基于所述第二子训练样本集训练，为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到信用评分卡模型。

第五方面，本申请提供了一种设备，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行前述第一方面所述的信用评分卡模型训练方法，或者，前述第二方面所述的信用评分方法。

第六方面，本申请提供了一种计算机存储介质，所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现前述第一方面所述的信用评分卡模型训练方法，或者，前述第二方面所述的信用评分方法。

本申请提供了一种信用评分卡模型训练方法。所述信用评分卡模型包括第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型，在执行所述方法时，先获取训练样本集；所述训练样本集包括多个信用主体的特征数据和信用评分标签，后基于所述第一信用评分结果将所述训练样本集划分为第一子训练样本集和第二子训练样本集，所述第一子训练样本集为高风险样本；所述第二子训练样本集为低风险样本，然后基于所述第一子训练样本集训练第二信用评分卡子模型，基于所述第二子训练样本集训练第三信用评分卡子模型，最后为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到目标信用评分卡模型。这样，通过将整体样本集划分为高风险样本和低风险样本，并对每个类别的样本进行训练，使得不同的信用评分卡子模型分类预测不同样本的特征，并且为不同的信用评分卡子模型设置权重，通过评分卡嵌套和分别设置权重的方式使得信用评分卡模型针对不同的预测准确度需求进行调整，达到了准确预测高风险客户的违约概率效果。如此，可以提高头部精确率，以帮助金融机构更好地管理风险。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种信用评分卡模型训练方法的方法流程图；

图2为本申请实施例提供的一种实现步骤S102可选的方法流程图；

图3为本申请实施例提供的一种获取训练样本集的方法流程图；

图4为本申请实施提供的一种稳定性验证的方法流程图；

图5为本申请实施例提供的一种信用评分方法的流程图；

图6为本申请实施例提供的一种信用评分卡模型训练装置的结构示意图；

图7为本申请实施例提供的一种信用评分装置的结构示意图。

具体实施方式

正如前文所述，评分卡模型被广泛应用于评估信用风险。该模型基于大量的历史数据，利用统计和机器学习算法，将各种特征转化为信用评分，从而预测客户未来的违约概率。评分卡模型的优点在于其简单、易于解释和实施，并且能够在大规模数据处理和快速决策方面提供优势。然而，传统的评分卡模型在实践中存在一些局限性。例如，评分卡模型在预测违约概率时，通常只关注整体样本，而忽略了对不同类别风险客户的识别。这意味着，尽管模型可能总体上预测了违约概率，但它可能错过了最具有风险的客户，这可能导致金融机构在风险管理上的错误决策。

有鉴于此，本申请提供了一种信用评分卡模型训练方法。所述信用评分卡模型包括第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型，在执行所述方法时，先获取训练样本集；所述训练样本集包括多个信用主体的特征数据和信用评分标签，后基于所述第一信用评分结果将所述训练样本集划分为第一子训练样本集和第二子训练样本集，所述第一子训练样本集为高风险样本；所述第二子训练样本集为低风险样本，然后基于所述第一子训练样本集训练第二信用评分卡子模型，基于所述第二子训练样本集训练第三信用评分卡子模型，最后为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到目标信用评分卡模型。

这样，通过将整体样本集划分为高风险样本和低风险样本，并对每个类别的样本进行训练，使得不同的信用评分卡子模型分类预测不同样本的特征，并且为不同的信用评分卡子模型设置权重，通过评分卡嵌套和分别设置权重的方式使得信用评分卡模型针对不同的预测准确度需求进行调整，达到了准确预测高风险客户的违约概率效果。如此，可以提高头部精确率，以帮助金融机构更好地管理风险。

需要说明的是，本申请实施例不限定信用评分卡模型训练方法、应用方法的执行主体，例如，本申请实施例的信用评分卡模型训练方法、应用方法方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assistant，PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。

本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开实施例的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

除非另有说明，术语“多个”表示两个或两个以上。

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请中相关数据收集处理在实例应用时应该严格根据国家法律、行政法规和强制性国家标准等相关要求，获取个人信息的主体(下述简称主体)的知情同意或单独同意，并在法律法规及主体的授权范围内方可开展后续数据使用及处理行为。

参见图1，图1为本申请实施例提供的一种信用评分卡模型训练方法的方法流程图。所述信用评分卡模型包括第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型，结合图1所示，所述信用评分卡模型训练方法可以包括：

S101：获取训练样本集。

在本实施例中，训练样本集可以包括多个信用主体的特征数据和信用评分标签。其中，信用主体是指信用关系的当事人，是信用关系的承载者和信用活动的行为者。在信用评分的场景中，特征数据指的是描述每个信用主体的各种属性或变量，例如信用主体的年龄、收入、负债、教育程度、职业、信用历史、贷款期限、贷款金额和抵押品价值等。信用评分标签用于指示每个信用主体的风险类别，可以使用二进制标签表示好坏客户或违约与否。标签可以根据实际情况进行定义，例如：好坏客户标签：1表示坏客户或违约，0表示好客户或非违约。违约标签：1表示违约，0表示非违约。

S102：将训练样本集输入所述第一信用评分卡子模型得到第一信用评分结果。

在本实施例中，将构建好的训练样本集输入第一信用评分卡子模型进行训练和预测，可以得到第一信用评分的结果。第一信用评分卡子模型是基于训练样本集学习得到的模型，它可以根据输入的特征值预测相应的信用评分。通过对训练样本集的学习，模型能够学习特征与信用评分之间的关系，并根据输入的特征值给出预测的信用评分结果。这个结果可以用来评估个体的信用状况，进行风险评估和决策支持。需要说明的是，第一信用评分结果是训练样本集中多个信用主体的违约概率，示例性的，多个信用主体的违约概率表示为百分比。例如，信用主体A有80％的概率违约，信用主体A有30％的概率违约。

图2为本申请实施例提供的一种实现步骤S102可选的方法流程图。结合图2所示，所述将所述训练样本集输入所述第一信用评分卡子模型得到第一信用评分结果，包括：

S201：获取训练样本集中的特征变量。

在本实施例中，在获取训练样本集之后，首选确定训练样本集的数据结构，然后读取训练样本集的数据源，再根据数据结构，查看特征变量所在的列名或字段名，以便提取相应的特征变量。根据确定的列名或字段名，从训练样本集中提取相应的特征变量数据。最后将提取的特征变量数据整理成适合进行模型训练的形式，例如将特征变量存储为一个矩阵或数据框。

S202：针对特征变量进行分箱，并对每个分箱中的变量进行WOE转换得到每个分箱对应的WOE值。

在本实施例中，在得到特征变量之后，首先对每个特征变量进行分箱，将连续型变量分为若干个区间，将离散型变量按照不同取值进行分组。分箱的目的是将连续的数据离散化，减少异常值的影响并提高模型的稳定性。然后对每个分箱中的变量计算WOE(Weightof Evidence)值，用于衡量该分箱中的变量对目标变量的影响。WOE值的计算公式为ln(好样本占比/坏样本占比)。好样本指目标变量为好的样本，坏样本指目标变量为坏的样本。最后，将每个分箱中的变量的取值转换为对应的WOE值，即将原始特征变量替换为其所属分箱的WOE值。这样可以将原始变量转化为与目标变量之间的线性关系，便于模型的建模和解释。

在一个可选的实施例中，对特征变量进行分箱操作，可以使用自动分箱或者手动精调分箱的方法。分箱将原始变量的取值范围划分为多个区间，目的是将样本划分为具有相似特征的组。

在本实施例中，为了达到更好的分组效果，确保每个分组内的目标变量的分布均衡，通过先自动分箱再手动精调分箱的方法。

其中，自动分箱是指针对每个特征，使用自动分箱的方法来将其划分为多个分组。自动分箱的目标是根据特征的取值范围和分布，将样本划分为具有相似特征的组。

手动精调分箱是指在自动分箱的基础上，根据每个分组中目标变量(Y＝1)的比例进行手动精调分箱调整。具体步骤如下：a.计算每个分组中目标变量(Y＝1)的数量和总样本数量，以得到目标变量的比例。b.根据目标变量的比例，对分组进行评估和调整。为了提高模型的预测准确性，每个分组中目标变量的比例相对均匀。c.如果某个分组中目标变量的比例显著偏离其他分组，可以考虑将其与相邻的分组进行合并或拆分，以调整分箱边界。d.重复步骤b和c，直到每个分组中目标变量的比例相对均匀或满足预设的调整标准。

根据分箱结果，将自变量[X₁,X₂,……,X_n]_i转化为[woe₁,woe₂,……,woe_n]_i,(i＝1,2,……,m)。表1为本申请实施例提供的一种WOE值转换示意表。

表1

结合表1所示，G表示Y＝0的总人数，B表示Y＝1的总人数。示例性的，Y＝0可以表示较可能违约，Y＝1可以表示较不可能违约。

在本实施例中，使用WOE值替代原始变量的好处是，它可以将变量转化为具有单调性的形式，更好地刻画特征与目标变量之间的关系。同时，WOE值可以减少变量之间的共线性问题，提高模型的稳定性和解释性。

S203：根据WOE值，使用逻辑回归方法训练第一信用评分卡子模型，并得到第一信用评分结果。

在本实施例中，将原始变量的取值替换为对应的WOE值。这样就创建了一个新的数据集，其中的特征变量是原始变量的WOE值。使用新的数据集，即使用WOE值替代原始变量的数据集，建立逻辑回归模型。使用逻辑回归方法，将WOE值作为输入特征，目标变量作为输出，训练第一信用评分卡子模型。其中，用woe的值代替原始变量来进行逻辑回归可以表示为：

其中，p为Y＝1的比例，β₁、β₂和β_n为系数。逻辑回归模型的目标是根据WOE值来预测目标变量。使用训练好的第一信用评分卡子模型，对训练样本集进行预测，得到第一信用评分结果。预测结果可以是一个连续的分数或是一个分类的概率。

在本实施例中，可以得到第一信用评分卡子模型的输出结果，该结果是通过将特征变量进行分箱和WOE转换后，使用逻辑回归方法训练得到的。这个模型可以用于能够更加准确的进行结果预测。

S103：基于第一信用评分结果将训练样本集划分为第一子训练样本集和第二子训练样本集。

在本实施例中，根据步骤S102得到的第一信用评分结果，可以将训练集划分为两段：高风险样本和低风险样本。具体的，将训练样本集划分为第一子训练样本集和第二子训练样本集。其中，第一子训练样本集为高风险样本，第二子训练样本集为低风险样本。

具体而言，高风险样本包括较可能违约段数据，低风险样本包括较不可能违约段数据。其中，较可能违约段数据：[X₁,X₂,……,X_n，Y]_i ¹,(i＝1，2，……,[m*ratio])，较不可能违约段数据：[X₁,X₂,……,X_n，Y]_i ⁰，(i＝1,2,……,[m*(1-ratio)])，ratio∈(0，1)。Ratio是指第一信用评分结果的比率。例如，多个信用主体的违约概率表示为小数，介于0-1之间。将Ratio定为0.7，则违约概率0.7包括及以上的训练样本集划分为较可能违约段数据，违约概率0.7以下的训练样本集划分为较不可能违约段数据。

在一个可选的实施例中，为了确定使得模型预测性能最好的比率，得到最终的信用评分卡模型，可以预先设置不同的比率，将训练样本集根据不同的预设比率划分成多个训练样本组，每个训练样本组均包括第一子训练样本集和第二子训练样本集。例如，将比率设置为0.5、0.7和0.9，当预设的比率为0.5时，将违约概率0.5包括及以上的训练样本集划分为较可能违约段数据构成第一子训练样本集，违约概率0.5以下的训练样本集划分为较不可能违约段数据构成第二子训练样本集，得到一个比率为0.5的训练样本组。同理，当预设的比率为0.7时，将违约概率0.7包括及以上的训练样本集划分为较可能违约段数据构成第一子训练样本集，违约概率0.7以下的训练样本集划分为较不可能违约段数据构成第二子训练样本集，得到一个比率为0.7的训练样本组。当预设的比率为0.9时，将违约概率0.9包括及以上的训练样本集划分为较可能违约段数据构成第一子训练样本集，违约概率0.9以下的训练样本集划分为较不可能违约段数据构成第二子训练样本集，得到一个比率为0.9的训练样本组。

需要说明的是，在为本申请实施例中为了进行说明，只是示例性的给出了根据第一信用评分结果划分训练样本集为第一子训练样本集和第二子训练样本集，在实际的应用过程中，根据用户需求，还可以将训练样本集基于第一信用评分结果划分为两个以上的子训练样本集。

S104：基于第一子训练样本集训练第二信用评分卡子模型，基于第二子训练样本集训练第三信用评分卡子模型。

在本实施例中，在步骤S103得到第一子训练样本集和第二子训练样本集的基础上，分别用第一子训练样本集训练第二信用评分卡子模型，用第二子训练样本集训练第三信用评分卡子模型。由于所述第一子训练样本集为高风险样本，因此，通过第二信用评分卡子模型可以得到高风险样本评分卡；所述第二子训练样本集为低风险样本，因此，通过第三信用评分卡子模型可以得到低风险样本评分卡。对于模型的训练过程具体参照图2中所述的第一信用评分卡子模型的训练方法，在此不做赘述。

在本实施例中，通过第一信用评分卡子模型的方法，将整体样本集分成不同类别，并对每个类别的样本进行训练，得到多张评分卡。这样可以更充分地利用样本信息，改善传统评分卡模型在整体样本集上训练时可能无法充分捕捉到不同类别样本的特征和模式的缺点。通过预训练分类后，评分卡可以更加精细地进行训练，从而提高预测准确率。

S105：为第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到目标信用评分卡模型。

在本实施例中，可以根据需要和实际情况，为每个信用评分卡子模型设置权重。这些权重可以根据模型的准确性、稳定性和重要性等因素进行调整和分配。例如，如果第一信用评分卡子模型在预测准确性方面表现较好，则可以给予较高的权重；而如果第二信用评分卡子模型在预测稳定性方面表现较好，则可以给予较高的权重。将每个信用评分卡子模型的预测结果与对应的权重进行加权求和，得到目标信用评分卡模型的最终预测结果。

具体而言，权重的确定可以根据实际需求和专家判断进行综合考量。可以通过以下几种方法中的一种或者多种来确定权重：

a.基于经验法：根据专家的经验和判断，为每个评分卡分配一个权重。这种方法基于专家对各个评分卡的理解和信任程度。或者通过层次分析法，通过经验拟合处不同权重。

b.基于模型预测准确性：使用验证集或者交叉验证的方法，对每个评分卡进行评估，计算其预测准确性。根据准确性的结果，为每个评分卡分配一个权重。

c.基于业务需求：根据具体的业务需求和风险偏好，为每个评分卡分配一个权重。例如，如果对主体信息更为关注，可以给予预训练评分卡更高的权重；如果对地区信息更为关注，可以给予分段评分卡更高的权重。

d.生成随机权重矩阵，进行多次尝试，寻找使得最终预测的头部准确率达到最高的权重参数。

在一个可选的实施例中，所述为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到目标信用评分卡模型，包括：获取验证样本集；将验证样本集输入所述信用评分卡模型得到验证信用评分结果；基于验证信用评分结果利用预测准确性指数检验所述信用评分卡模型得到准确性验证结果；基于准确性验证结果为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到目标信用评分卡模型。

具体地，获取一个独立的验证样本集，该样本集应该包含与训练样本集类似的特征变量，并且每个样本都有对应的真实信用评分结果。将验证样本集输入之前构建的目标信用评分卡模型，得到验证信用评分的预测结果。将验证信用评分结果与验证样本集中的真实信用评分进行比较，计算预测准确性指标，如准确率、召回率、F1值等，以评估信用评分模型的预测能力。根据准确性验证结果，使用如交叉验证、ROC曲线等对信用评分卡模型进行检验，判断其在预测准确性方面的优劣。根据准确性验证结果，为第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重。将每个信用评分卡子模型的预测结果根据权重进行加权求和，得到目标信用评分卡模型的最终预测结果。

在又一个可选的实施例中，所述为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到目标信用评分卡模型，包括：获取验证样本集；基于第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型生成随机权重矩阵；利用验证样本集循环验证随机权重矩阵，直至信用评分卡模型满足预设循环结束条件，得到目标信用评分卡模型。

同理，首先获取一个独立的验证样本集，该样本集应该包含与训练样本集类似的特征变量，并且每个样本都有对应的真实信用评分结果。然后为第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型生成随机权重矩阵。这些随机权重可以通过随机数生成方法来获取，确保权重矩阵的每个元素都在合理的范围内。表2为本申请实施例提供的一种随机权重矩阵示意表。

权重1	权重2	权重3
			α₁₁	α₂₁	α₃₁
α₁₂	α₂₂	α₃₂
			……	……	……

其中，权重1表示第一信用评分卡子模型的权重，权重2表示第二信用评分卡子模型的权重，权重3表示第三信用评分卡子模型的权重。

使用验证样本集，循环验证随机权重矩阵，直到信用评分卡模型满足预设的循环结束条件。在每次循环中，将验证样本集输入到信用评分卡模型中，并根据随机权重矩阵进行预测，得到预测结果。根据预测结果和验证样本集中的真实信用评分，评估目标信用评分卡模型的准确性和稳定性。可以使用各种评估指标(如准确率、召回率、F1值等)来评估模型的性能。根据预设的循环结束条件来判断是否满足退出循环的条件。例如，预测准确性达到一定阈值、预测结果的波动小于一定范围等。

当信用评分卡模型满足预设的循环结束条件时，即可得到目标信用评分卡模型。该模型将会使用最佳的权重矩阵，结合所有子模型的预测结果，生成最终的信用评分。

由于循环验证随机权重矩阵的过程可能是计算密集型和耗时的。可以根据实际情况和计算资源的限制，可以结合专家经验和业务需求，整理随机权重矩阵，剔除随机权重矩阵中的不符合要求的数据，选择合适的循环次数和结束条件，以提高计算效率和获得准确的目标信用评分卡模型。

在本实施例中，为了满足不同的应用场景，可以根据不同样本的特征，寻找使得头部精确率最大的权重组合。通过这种方式，可以针对不同样本的特点进行权重调整，并且可以综合考虑多个子模型的预测能力，通过嵌套多个子模型训练得到目标信用评分卡模型，使得该目标信用评分卡模型可以更准确和可靠的信用评分预测，进一步提升模型的预测能力。

在本申请实施例中，上述图1所述的步骤S101存在多种可能的实现方式，下面分别进行介绍。需要说明的是，下文介绍中给出的实现方式仅作为示例性的说明，并不代表本申请实施例的全部实现方式。

参见图3，该图为本申请实施例提供的一种获取训练样本集的方法流程图。结合图3所示，所述获取训练样本集可以包括：

S301：获取多个信用主体的原始特征数据和信用评分标签。

在本实施例中，原始特征数据是指描述信用主体的各种特征的原始信息，例如个人信息：如年龄、性别、婚姻状况等。财务信息：如收入、负债、资产等。借款历史：如过去的还款记录、信用额度等。就业情况：如职业、工作稳定性等。以及其他相关信息：如教育背景、居住稳定性等。在本实施例中，信用标签具体还可以为每个主体的信用等级或违约概率。例如，信用等级，一个介于0和100之间的数字，代表信用主体的信用风险等级；或者违约概率，信用主体可能违约的概率，通常表示为百分比或小数形式。

S302：对多个信用主体的原始特征数据进行变量衍生处理，以生成候选衍生变量。

在本实施例中，利用数学运算、组合特征、交互作用、多项式特征和离散化特征等变量衍生处理方法对原始特征数据进行变量衍生处理。

其中，数学运算可以包括对特征进行加减乘除、求平方根、求对数等。例如:原始特征数据中有一个特征是信用主体的收入，可以对收入进行对数变换，得到一个衍生变量“对数收入”。组合特征就是将多个特征进行组合，生成新的特征。例如，有两个特征分别是信用主体的负债和资产，可以将负债和资产相减，生成一个衍生变量“净资产负债差”。

交互作用是捕捉特征之间的非线性关系。例如有两个原始特征为信用主体的年龄和收入，将年龄和收入相乘，生成一个衍生变量“年龄收入乘积”。多项式特征是将特征进行多项式扩展，引入高阶项以捕捉非线性关系。例如，原始特征为信用主体的年龄，将年龄进行平方，生成一个衍生变量“年龄平方”。离散化特征是指将连续特征离散化为多个区间，引入虚拟变量。例如，原始特征为信用主体的收入，将收入分为多个区间，然后创建多个虚拟变量，表示不同的收入区间。

利用上述示例性给出的变量衍生处理，可以生成多个候选衍生变量。通过变量衍生处理，能够捕捉原始特征数据之间的非线性关系，提高模型解释能力和预测准确性。通过引入更多的变量，变量衍生可以提供更多的信息，增加对目标变量(如风险类别)的解释力度。此外，变量衍生还可以改善模型的泛化能力，减少模型过拟合的可能性。通过变量衍生，可以利用现有特征生成更多的特征组合，提供更多的选择空间，从而选择更具有预测能力的特征子集。

S303：对原始特征数据和候选衍生变量分别进行筛选得到原始特征和衍生特征。

为了进一步提高模型的解释能力、预测准确性和计算效率。根据方差、IV值、缺失值比例、基尼系数等基础信息筛选原始特征及衍生特征。

可选的，在上述通过上述方式进行特征筛选的基础上，还可以综合以下三种方式进行特征数据的筛选，以便得到最为有效的特征数据。一、可以利用机器学习进行输出重要特征，例如，使用树模型(如决策树、随机森林、梯度提升树等)进行训练，得到特征重要性评估，然后根据特征重要性排序，选择排名靠前的特征作为候选特征。二、阅读相关领域的研报、论文、行业报告等，了解学术界和业界对于重要指标的研究和认知。根据研报/论文中的观点，筛选出被普遍认为重要的指标作为候选特征。三、与业务专家沟通，了解他们在实践中常用的指标以及对特征的理解和经验。根据业务专家的经验判断，选择他们认为重要的指标作为候选特征。

需要说明的是，在本实施例中，可以根据不同的应用场景，选择合适的特征数据进行建模。具体的，为了提高信用评分卡模型对头部预测的准确性，也就是高风险信用主体，可以选择更能代表头部预测准确性的需求的特征数据。

S304：基于原始特征、衍生特征和所述信用评分标签得到训练样本集。

在上述步骤S303中已经对特征数据进行了筛选，然后将选取的特征与信用评分标签数据进行整合，构建训练样本集。确保特征和标签之间的对应关系正确。

在本实施例中，通过衍生变量和数据筛选，提升模型的预测能力。

为了验证信用评分模型的稳定性，图4为本申请实施提供的一种稳定性验证的方法流程图。结合图4所示，所述信用评分卡模型训练方法还包括：

S401：获取验证样本集、测试样本集和实际样本集。

验证样本集是用来验证信用评分模型在未见过的数据上的预测准确性的数据集。它是从整个数据集中独立选择的一部分样本，并且与训练样本集没有重叠。验证样本集通常用于调整模型参数、选择特征、评估模型性能等。

测试样本集是用来评估信用评分模型在实际应用中的性能和效果的数据集。它是从整个数据集中独立选择的一部分样本，并且与训练样本集和验证样本集没有重叠。测试样本集通常用于模型的最终评估和验证，以确保模型在未知数据上的泛化能力。

实际样本集是用于应用信用评分模型进行实际预测的数据集。它包含了真实的特征变量，但没有对应的信用评分结果。实际样本集通常是从生产环境中获取的数据，用于实际应用和预测。

S402：将验证样本集、测试样本集和实际样本集输入信用评分卡模型分别得到验证信用评分结果、测试信用评分结果和实际信用评分结果。

在本实施例中，将验证样本集的特征变量输入到信用评分卡模型中进行预测，得到验证信用评分结果。这些结果将是模型在未见过的数据上的预测值。将测试样本集的特征变量输入到信用评分卡模型中进行预测，得到测试信用评分结果。这些结果将用于评估模型在实际应用中的性能和效果。将实际样本集的特征变量输入到信用评分卡模型中进行预测，得到实际信用评分结果。这些结果将用于实际应用和预测。通过将样本集输入信用评分卡模型，您可以获得模型对于不同数据集的预测结果。

S403：基于验证信用评分结果、测试信用评分结果和实际信用评分结果利用预测稳定性指数检验所述目标信用评分卡模型得到稳定性验证结果。

在本实施例中，预测稳定性指数(Population Stability Index，PSI)是一种用于评估模型预设结果稳定的指标。用于比较不同时间段或者不同数据的预测结果质检的分布差异。

在本实施例中，通过对比测试集、验证集和实际上线后样本分数的分布是否相同。检验建模样本和验证样本以及最新样本之间的样本变化，如果样本变化太大，可能导致评分卡失效。

具体地，将建模样本按照分数大小排序，并根据样本数均分为20组。计算每一组中样本的比例；若建模样本的20组，计算验证样本和最新样本的每一组中的样本比例；依照下述公式，计算PSI的值：

通常，当PSI<0.2，认为样本稳定。当PSI>0.4，认为样本不稳定,需要进行特征分析。当PSI位于0.2和0.4之间，将组别减少为10个，重新计算PSI。

在一个可选的实施例中，为了提高模型的准确率，还可以将模型部署到实际业务环境中，并实时监测模型在实际环境中的表现和效果。收集模型在真实业务场景中的预测结果，并与实际结果进行比较，评估模型的准确性和效果，对模型做出及时的调整。

基于上述信用评分卡模型训练方法的相关内容，本申请实施例还可以提供一种信用评分方法，下面分别结合实施例和附图对该文档转换方法进行说明。

图5为本申请实施例提供的一种信用评分方法的流程图。结合图5所示，本申请实施例提供的信用评分方法，可以包括：

S501：获取目标信用主体的历史行为数据。

例如，目标信用主体的年龄、性别、婚姻状况、收入、负债、资产、过去的还款记录和信用额度等。

S502：基于信用评分卡模型对所述目标信用主体的历史行为数据进行处理，获得所述目标信用主体的信用评分卡结果。

其中，信用评分卡模型可以基于上述信用评分卡模型训练方法的任一实施方式得到。所述信用评分卡模型包括第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型；在训练过程中，所述第一信用评分卡子模型用于根据训练样本集得到第一信用评分结果，基于所述第一信用评分结果将所述训练样本集划分为第一子训练样本集和第二子训练样本集；所述第二信用评分卡子模型基于所述第一子训练样本集训练，所述第三信用评分卡子模型基于所述第二子训练样本集训练，为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到信用评分卡模型。

基于以上S501-S502的相关内容可知，在本申请实施例中，获取目标信用主体的历史行为数据之后，即可利用信用评分卡模型对该目标信用主体的历史行为数据进行处理，而获得目标信用主体的信用评分卡结果，由于该信用评分卡模型是根据不同样本的特征，并且通过寻找使得头部精确率最大的权重组合之后训练得到的，综合考虑了多个子模型的预测能力，从而可以得到更准确和可靠的信用评分预测，以帮助金融机构更好地管理风险。

基于上述实施例提供的信用评分卡模型训练方法，本申请实施例还提供了一种信用评分卡模型训练装置。下面分别结合实施例和附图，对该信用评分卡模型训练装置进行描述。

图6为本申请实施例提供的一种信用评分卡模型训练装置的结构示意图。结合图6所示，本申请实施例提供的信用评分卡模型训练装置600，可以包括：

第一获取模块601，用于获取训练样本集；所述训练样本集包括多个信用主体的特征数据和信用评分标签；

第一信用评分模块602，用于将所述训练样本集输入所述第一信用评分卡子模型得到第一信用评分结果；

划分模块603，用于基于所述第一信用评分结果将所述训练样本集划分为第一子训练样本集和第二子训练样本集；

训练模块604，用于基于所述第一子训练样本集训练第二信用评分卡子模型，基于所述第二子训练样本集训练第三信用评分卡子模型；

设置模块605，用于为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到信用评分卡模型。

在一种可能的实施方式中，第一信用评分模块602，具体可以包括：

特征变量获取单元，用于获取所述训练样本集中的特征变量；

分箱单元，用于针对所述特征变量进行分箱，并对每个分箱中的变量进行WOE转换得到每个分箱对应的WOE值；

第一信用评分结果单元，用于根据所述WOE值，使用逻辑回归方法训练第一信用评分卡子模型，并得到第一信用评分结果。

在一种可能的实施方式中，划分模块603，具体可以包括：

划分单元，用于根据不同预设的比率基于所述第一信用评分结果将所述训练样本集划分为多个训练样本组；所述每个训练样本组包括第一子训练样本集和第二子训练样本集。

在一种可能的实施方式中，设置模块605，具体可以包括：

第一获取单元，用于获取验证样本集；

验证信用评分结果确定单元，用于将所述验证样本集输入所述信用评分卡模型得到验证信用评分结果；

准确性验证单元，用于基于所述验证信用评分结果利用预测准确性指数检验所述信用评分卡模型得到准确性验证结果；

第一设置单元，用于基于所述准确性验证结果为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到目标信用评分卡模型。

在一种可能的实施方式中，设置模块605，具体可以包括：

第二获取单元，用于获取验证样本集；

随机权重设置单元，用于基于所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型生成随机权重矩阵；

验证单元，用于利用所述验证样本集循环验证所述随机权重矩阵，直至所述信用评分卡模型满足预设循环结束条件，得到目标信用评分卡模型。

在一种可能的实施方式中，获取模块601，具体可以包括：

特征获取单元，用于获取多个信用主体的原始特征数据和信用评分标签；

变量衍生处理单元，用于对所述多个信用主体的原始特征数据进行变量衍生处理，以生成候选衍生变量；

筛选单元，用于对所述原始特征数据和候选衍生变量分别进行筛选得到原始特征和衍生特征；

训练样本集确定单元，用于基于所述原始特征、衍生特征和所述信用评分标签得到训练样本集。

基于上述实施例提供的信用评分方法，本申请实施例还提供了一种信用评分装置。下面分别结合实施例和附图，对该信用评分装置进行描述。

图7为本申请实施例提供的一种信用评分装置的结构示意图。结合图7所示，本申请实施例提供的信用评分装置700，可以包括：

第二获取模块701，用于获取目标信用主体的历史行为数据；

信用评分模块702，用于基于信用评分卡模型对所述目标信用主体的历史行为数据进行处理，获得所述目标信用主体的信用评分卡结果；所述信用评分卡模型包括第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型；在训练过程中，所述第一信用评分卡子模型用于根据训练样本集得到第一信用评分结果，基于所述第一信用评分结果将所述训练样本集划分为第一子训练样本集和第二子训练样本集；所述第二信用评分卡子模型基于所述第一子训练样本集训练，所述第三信用评分卡子模型基于所述第二子训练样本集训练，为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到信用评分卡模型。

本申请实施例还提供了对应的设备以及计算机存储介质，用于实现本申请实施例提供的方案。

其中，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行本申请任一实施例所述的信用评分卡模型训练方法，或者，所述的信用评分方法。

所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现本申请任一实施例所述的信用评分卡模型训练方法，或者，所述的信用评分方法。

本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识，并不代表顺序上的第一、第二。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，ROM)/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请示例性的实施方式，并非用于限定本申请的保护范围。

Claims

1.一种信用评分卡模型训练方法，其特征在于，所述信用评分卡模型包括第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型，所述信用评分卡模型训练方法包括：

2.根据权利要求1所述的信用评分卡模型训练方法，其特征在于，所述将所述训练样本集输入所述第一信用评分卡子模型得到第一信用评分结果，包括：

获取所述训练样本集中的特征变量；

3.根据权利要求1所述的信用评分卡模型训练方法，其特征在于，所述基于所述第一信用评分结果将所述训练样本集划分为第一子训练样本集和第二子训练样本集，包括：

4.根据权利要求1所述的信用评分卡模型训练方法，其特征在于，所述方法还包括：

获取验证样本集、测试样本集和实际样本集；

5.根据权利要求1所述的信用评分卡模型训练方法，其特征在于，所述为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到目标信用评分卡模型，包括：

获取验证样本集；

6.根据权利要求1所述的信用评分卡模型训练方法，其特征在于，所述为所述第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型分别设置权重得到目标信用评分卡模型，包括：

获取验证样本集；

7.根据权利要求1所述的信用评分卡模型训练方法，其特征在于，所述获取训练样本集包括：

获取多个信用主体的原始特征数据和信用评分标签；

8.一种信用评分方法，其特征在于，所述信用评分方法包括：

获取目标信用主体的历史行为数据；

9.一种信用评分卡模型训练装置，其特征在于，所述信用评分卡模型包括第一信用评分卡子模型、第二信用评分卡子模型和第三信用评分卡子模型，所述信用评分卡模型训练装置包括：

10.一种信用评分装置，其特征在于，所述信用评分装置包括：

第二获取模块，用于获取目标信用主体的历史行为数据；