CN112330048A

CN112330048A - 评分卡模型训练方法、装置、存储介质及电子装置

Info

Publication number: CN112330048A
Application number: CN202011296435.7A
Authority: CN
Inventors: 胡振禹; 史晨阳; 王青林; 王磊; 卜广庆; 王瑜; 韩海英; 郭皓; 邹华; 程一鸣; 詹俊杰; 田江; 李琨; 额日和
Original assignee: Everbright Technology Co ltd; China Everbright Bank Co Ltd
Current assignee: Everbright Technology Co ltd; China Everbright Bank Co Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-05

Abstract

本发明实施例提供了一种评分卡模型训练方法、装置、存储介质及电子装置，该方法包括：将数据宽表中的连续变量进行分箱得到离散的变量；将该变量输入带约束的逻辑回归模型中，将该逻辑回归模型转换为评分卡模型，并计算该评分卡模型的补偿和刻度，其中，该逻辑回归模型的约束条件是限制该变量系数的下界为非负。通过本发明，由于限制逻辑回归模型中变量系数的下界为非负，解决了相关技术中评分卡模型在使用逻辑回归算法训练模型时自变量间存在多重共线的关系而导致个别变量系数为负，进而导致模型失去原有的解释力的问题，进而达到了避免多次模型迭代、减少模型训练的时间成本和训练开销的效果。

Description

评分卡模型训练方法、装置、存储介质及电子装置

技术领域

本发明实施例涉及信息交互技术领域，具体而言，涉及一种评分卡模型训练方法、装置、存储介质及电子装置。

背景技术

评分卡模型是在具体场景中以分数衡量风险几率的一种方法，通常在信用贷款的风控业务中广泛使用，建模原理为将模型自变量通过证据权重(Weight Of Evidence，WOE)编码方式离散化之后，运用逻辑回归算法对二分类问题进行建模，拟合出变量对应的系数。

联邦机器学习是一种新兴的人工智能基础技术，能有效帮助多个机构在满足用户隐私保护、数据安全及合规的要求下，进行数据使用和机器学习建模。

传统逻辑回归模型系数的值可正可负，当值为负数时，该变量的趋势与单变量分析时的趋势相反，模型为线性模型，当得到模型的系数后，将逻辑回归模型预测的概率根据设定的分值刻度转化为分数。在传统逻辑回归模型下，系数出现负值时，一般认为模型不具有可解释性，需要重现选择变量并建模，直到模型具有可解释性为止。

相关的评分卡模型在用逻辑回归算法训练模型时，并不能保证拟合出的系数均为非负，由于自变量间存在多重共线的关系，很可能导致个别变量系数为负，导致模型失去了原有的解释性。

针对相关技术中评分卡模型在使用逻辑回归算法训练模型时自变量间存在多重共线的关系而导致个别变量系数为负，进而导致模型失去原有的解释力的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种评分卡模型训练方法、装置、存储介质及电子装置，以至少解决相关技术中评分卡模型在使用逻辑回归算法训练模型时自变量间存在多重共线的关系而导致个别变量系数为负，进而导致模型失去原有的解释力的问题。

根据本发明的一个实施例，提供了一种评分卡模型训练方法，包括：将数据宽表中的连续变量进行分箱得到离散的变量；将所述变量输入带约束的逻辑回归模型中，将所述逻辑回归模型转换为评分卡模型，并计算所述评分卡模型的补偿和刻度，其中，所述逻辑回归模型的约束条件是限制所述变量系数的下界为非负。

在一个示例性实施例中，将所述变量输入带约束的逻辑回归模型中，将所述逻辑回归模型转换为评分卡模型，并计算所述评分卡模型的补偿和刻度，可以包括：第一数据机构和第二数据机构进行信息交互，根据带约束的所述逻辑回归模型确定第一数据宽表中变量的第一模型权值和第二数据宽表中变量的第二模型权值，其中，所述逻辑回归模型的约束条件是限制所述变量系数的下界为非负；所述第一数据机构和所述第二数据机构分别将根据所述第一模型权值计算出的第一梯度值、所述第二模型权值计算出的第二梯度值和损失发送至第三方机构；所述第三方机构根据所述第一梯度值、第二梯度值和损失更新所述第一模型权值和所述第二模型权值，并将经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值分别发送至所述第一数据机构和所述第二数据机构；所述第一数据机构和所述第二数据机构分别根据经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值计算得出第一评分卡模型的补偿和刻度以及第二评分卡模型的补偿和刻度。

在一个示例性实施例中，在第一数据机构和第二数据机构进行信息交互之前，还可以包括：所述第一数据机构和所述第二数据机构接收所述第三方机构发送的公钥。

在一个示例性实施例中，所述第一数据机构和第二数据机构进行信息交互，根据带约束的所述逻辑回归模型确定第一数据宽表中变量的第一模型权值和第二数据宽表中变量的第二模型权值，可以包括：所述第一数据机构将带约束的所述逻辑回归模型中的损失函数的变量系数设定为非负，并根据所述逻辑回归模型中的所述损失函数得出第一数据的模型系数，并将所述第一数据的模型系数经过公钥加密后发送至所述第二数据机构；所述第二数据机构接收所述第一数据的模型系数，并根据所述第一数据的模型系数计算得出加密的中间值和加密的损失，并将所述加密的中间值返回至所述第一数据机构；所述第一数据机构和所述第二数据机构分别根据所述加密的中间值计算得出所述第一数据宽表中所述变量的加密的所述第一模型权值和所述第二数据宽表中所述变量的加密的所述第二模型权值。

在一个示例性实施例中，所述第一数据机构和所述第二数据机构分别将根据所述第一模型权值计算出的第一梯度值、所述第二模型权值计算出的第二梯度值和损失发送至第三方机构，可以包括：所述第一数据机构将根据加密的所述第一模型权值计算出的加密的第一梯度值发送至所述第三方机构；所述第二数据机构将根据加密的所述第二模型权值计算出的加密的第二梯度值和所述加密的损失发送至所述第三方机构。

在一个示例性实施例中，所述第三方机构根据所述第一梯度值、第二梯度值和损失更新所述第一模型权值和所述第二模型权值，并将经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值分别发送至所述第一数据机构和所述第二数据机构，可以包括：所述第三方机构接收加密的所述第一梯度值、加密的所述第二梯度值和所述加密的损失并通过所述公钥进行解密，获得所述第一梯度值、所述第二梯度值和损失；所述第三方机构根据所述第一梯度值、所述第二梯度值和所述损失进行迭代更新，判断所述第一梯度值、所述第二梯度值、所述损失或迭代次数的条件是否满足所述停止条件，并得出经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值；所述第三方机构将经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值分别发送至所述第一数据机构和所述第二数据机构。

在一个示例性实施例中，判断所述第一梯度值、所述第二梯度值、所述损失或迭代次数的条件是否满足所述停止条件，可以包括：当所述损失满足预设条件时，所述迭代更新满足停止条件；当所述第一梯度值或所述第二梯度值满足预设条件时，所述迭代更新满足停止条件；当所述损失、第一梯度值或所述第二梯度值均未满足预设条件，且所述迭代更新的所述迭代次数已达到最大循环次数时，所述迭代更新满足停止条件。

根据本发明的另一个实施例，提供了一种评分卡模型训练装置，包括：分箱模块，用于将数据宽表中的连续变量进行分箱得到离散的变量；输入返回模块，用于将所述变量输入带约束的逻辑回归模型中，将所述逻辑回归模型转换为评分卡模型，并计算所述评分卡模型的补偿和刻度，其中，所述逻辑回归模型的约束条件是限制所述变量系数的下界为非负。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明的上述实施例，由于限制逻辑回归模型中变量系数的下界为非负，因此，可以解决相关技术中评分卡模型在使用逻辑回归算法训练模型时自变量间存在多重共线的关系而导致个别变量系数为负，进而导致模型失去原有的解释力的问题，达到避免多次模型迭代、减少模型训练的时间成本和训练开销的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种评分卡模型训练方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的评分卡模型训练方法的流程图；

图3是根据本发明实施例的联邦学习下的评分卡模型训练方法的流程图；

图4是根据本发明实施例的评分卡模型训练装置的结构框图；

图5是相关技术中的评分卡建模方法的流程图；

图6是根据本发明可选实施例具有可解释性的评分卡快速建模方法的流程图；

图7是根据本发明可选实施例的联邦学习下的评分卡快速建模方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了更好的理解本发明实施例以及可选实施例的技术方案，以下对本发明实施例以及可选实施例中可能出现的应用场景进行说明，但不用于限定以下场景的应用。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是根据本发明实施例的一种评分卡模型训练方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，在一个示例性实施例中，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的评分卡模型训练方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的有线或无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过宽带网络与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(RadioFrequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述计算机终端的评分卡模型训练方法，图2是根据本发明实施例的评分卡模型训练方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，将数据宽表中的连续变量进行分箱得到离散的变量。

具体而言，在本实施例的步骤S201之后，还可以包括：针对离散的所述变量进行变量筛选，其中，所述变量筛选考虑的因素至少可以包括以下之一：所述变量的预测能力、所述变量之间的相关性、所述变量的可解释性。

步骤S202，将所述变量输入带约束的逻辑回归模型中，将所述逻辑回归模型转换为评分卡模型，并计算所述评分卡模型的补偿和刻度，其中，所述逻辑回归模型的约束条件是限制所述变量系数的下界为非负。

通过上述步骤，由于限制逻辑回归模型中变量系数的下界为非负，解决了相关技术中评分卡模型在使用逻辑回归算法训练模型时自变量间存在多重共线的关系而导致个别变量系数为负，进而导致模型失去原有的解释力的问题，达到了避免多次模型迭代、减少模型训练的时间成本和训练开销的效果。

图3是根据本发明实施例的联邦学习下的评分卡模型训练方法的流程图，如图3所示，该流程包括如下步骤：

步骤S301，将数据宽表中的连续变量进行分箱得到离散的变量。

步骤S302，第一数据机构和第二数据机构进行信息交互，根据带约束的所述逻辑回归模型确定第一数据宽表中变量的第一模型权值和第二数据宽表中变量的第二模型权值，其中，所述逻辑回归模型的约束条件是限制所述变量系数的下界为非负。

步骤S303，所述第一数据机构和所述第二数据机构分别将根据所述第一模型权值计算出的第一梯度值、所述第二模型权值计算出的第二梯度值和损失发送至第三方机构。

步骤S304，所述第三方机构根据所述第一梯度值、第二梯度值和损失更新所述第一模型权值和所述第二模型权值，并将经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值分别发送至所述第一数据机构和所述第二数据机构。

步骤S305，所述第一数据机构和所述第二数据机构分别根据经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值计算得出第一评分卡模型的补偿和刻度以及第二评分卡模型的补偿和刻度。

在本实施例的步骤S302之前，还可以包括：所述第一数据机构和所述第二数据机构接收所述第三方机构发送的公钥。

在本实施例中，步骤S302可以包括：所述第一数据机构将带约束的所述逻辑回归模型中的损失函数的变量系数设定为非负，并根据所述逻辑回归模型中的所述损失函数得出第一数据的模型系数，并将所述第一数据的模型系数经过公钥加密后发送至所述第二数据机构；所述第二数据机构接收所述第一数据的模型系数，并根据所述第一数据的模型系数计算得出加密的中间值和加密的损失，并将所述加密的中间值返回至所述第一数据机构；所述第一数据机构和所述第二数据机构分别根据所述加密的中间值计算得出所述第一数据宽表中所述变量的加密的所述第一模型权值和所述第二数据宽表中所述变量的加密的所述第二模型权值。

在本实施例中，步骤S303可以包括：所述第一数据机构将根据加密的所述第一模型权值计算出的加密的第一梯度值发送至所述第三方机构；所述第二数据机构将根据加密的所述第二模型权值计算出的加密的第二梯度值和所述加密的损失发送至所述第三方机构。

在本实施例中，步骤S304可以包括：所述第三方机构接收加密的所述第一梯度值、加密的所述第二梯度值和所述加密的损失并通过所述公钥进行解密，获得所述第一梯度值、所述第二梯度值和损失；所述第三方机构根据所述第一梯度值、所述第二梯度值和所述损失进行迭代更新，判断所述第一梯度值、所述第二梯度值、所述损失或迭代次数的条件是否满足所述停止条件，并得出经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值；所述第三方机构将经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值分别发送至所述第一数据机构和所述第二数据机构。

在本实施例中，判断所述第一梯度值、所述第二梯度值、所述损失或迭代次数的条件是否满足所述停止条件，可以包括：当所述损失满足预设条件时，所述迭代更新满足停止条件；当所述第一梯度值或所述第二梯度值满足预设条件时，所述迭代更新满足停止条件；当所述损失、第一梯度值或所述第二梯度值均未满足预设条件，且所述迭代更新的所述迭代次数已达到最大循环次数时，所述迭代更新满足停止条件。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种评分卡模型训练装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的评分卡模型训练装置的结构框图，如图4所示，该装置包括分箱模块10和输入模块20。

所述分箱模块10，用于将数据宽表中的连续变量进行分箱得到离散的变量；

所述输入模块20，用于将所述变量输入带约束的逻辑回归模型中，将所述逻辑回归模型转换为评分卡模型，并计算所述评分卡模型的补偿和刻度，其中，所述逻辑回归模型的约束条件是限制所述变量系数的下界为非负。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

为了便于对本发明所提供的技术方案的理解，下面将结合具体场景的实施例进行详细阐述。

本实施例对传统评分卡模型算法进行了改进，修改建模中的优化问题，加入了保证系数非负的特定约束条件，变为求解带约束的优化问题。在数值求解的过程中，使用约束优化问题的标准数值算法，使得改进后的算法节省了模型训练开销，加速了训练过程，同时保证了可解释性。特别该算法对基于联邦学习框架下跨机构联合建模应用价值巨大。

相关的评分卡模型在用逻辑回归算法训练模型时，并不能保证拟合出的系数均为非负，由于自变量间存在多重共线的关系，很可能导致个别变量系数为负，导致模型失去了原有的解释性。一般建模中通过计算变量之间的方差膨胀因子(VIF)或相关矩阵来评估变量之间的相关程度，方差膨胀因子(VIF)解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比。VIF越大，显示共线性越严重。经验判断方法表明：当0<VIF<10，不存在多重共线性；当10≤VIF<100，存在较强的多重共线性；当VIF≥100，存在严重多重共线性。相关矩阵也叫相关系数矩阵，其是由矩阵各列间的相关系数构成的。即相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数也可以看成协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差,它消除了两个变量变化幅度的影响，而只是单纯反应两个变量每单位变化时的相似程度。

图5是相关技术中的评分卡建模方法的流程图，如图5所示，建模人员在进行一次模型训练时，通过查看模型训练结果中各变量的系数是否为非负值，判断当前模型是否满足可解释性的要求，如果不满足条件，查看系数为负数的变量与其他变量的共线情况，进行变量筛选之后重新训练模型，直到训练结果满足条件。该流程包括如下步骤：

步骤S501，分箱及WOE转换。

步骤S502，变量筛选。

步骤S503，逻辑回归模型训练。

步骤S504，判断模型系数是否均为非负。

步骤S505，当所述模型系数存在负数时，查看变量VIF或相关矩阵，找到多重共线严重的变量，返回步骤S502，进行重新筛选。

步骤S506，当所述模型系数均为非负时，完成模型训练。

综上所述，相关技术中，建模人员在进行一次模型训练时，如果系数为非负时，即无法满足可解释性要求，需要通过数据分析等方法排除可能存在共线的变量，重新进行训练，由于无法保证当去掉相关性强的变量时系数一定为非负，故该修正过程可能需要多次模型迭代，将大大增加模型训练的时间成本和计算开销，尤其当不同机构在联邦学习的框架下联合建模，每次训练时需要对数据加解密及更新模型参数，训练开销更加巨大。

本实施例对评分卡模型算法进行了改进，图6是根据本发明可选实施例具有可解释性的评分卡快速建模方法的流程图，如图6所示，改进后的评分卡建模流程包括如下步骤：

步骤S601，分箱及WOE转换，即先进性变量分箱，之后进行WOE转换。

步骤S602，变量筛选。

步骤S603，带约束的逻辑回归模型训练。

步骤S604，模型训练完成，即将模型转为评分卡分数。

本实施例修改了建模中的优化问题，加入了保证系数为非负的特定约束条件，变为求解带约束的优化问题。改进后的算法节省了模型训练开销，加速了训练过程，同时保证了可解释性。此外该算法可应用于联邦学习框架下的跨机构联合建模，当多机构合作建模时，需要数据加密解密等交互，使用本实施例可减少模型训练迭代的次数，大大减少训练时间。以下将按照各步骤依次说明本发明的实现方法。

在本实施例的步骤S601中，建模过程中数据为已经清洗好的数据宽表，数据宽表包括自变量和因变量字段。建立分类模型时，需要对变量分箱，即把连续变量离散化，特征离散化后模型会更加稳定，降低了模型过拟合风险。分箱中本发明采用了有监督的分箱技术，使用决策树算法寻找分箱边界。决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。本实施例具体做法可以是使用CART决策树，CART决策树是一个二叉树，它只能将一个父节点分为两个子节点，树结点用GINI指数决定如何分裂，GINI指数用来度量节点纯度，它反映了从数据集中随机抽取两个样本，其类别标记不一致的概率，因此GINI指数越小，则数据集的纯度越高。对于每个节点，算法会遍历所有的可能切割点，最终选择GINI指数最小的节点作为划分点，即找到能够使纯度达到最大的数据集进行切割。在本实施例的分箱算法中，可以限制决策数的最大深度为10层来提高在大数据样本中的计算速度，同时避免过拟合问题。

分箱后可得到每个变量最优的划分边界，根据边界值可计算每一个分箱的证据权重。证据权重反映的是在自变量每个分组下响应用户对未响应用户占比和总体中响应用户对未响应用户占比之间的差异，可以认为是自变量取值对于目标变量的影响，定义如以下所示：

证据权重越大，该分组中的样本响应的可能性就越大，证据权重越小，该分组中的样本响应的可能性就越小，建模时需把自变量的值映射为对应的证据权重，用证据权重对分类自变量进行编码能够更直观地理解自变量对目标变量的作用效果及方向。证据权重的值也将影响该变量在评分卡中分数的大小。评分卡的分数与证据权重的线性相关，定义如以下所示：

score＝A-B*(β₀+β₁·woe_x1+β₂·woe_x2+…β_n·woe_xn)

其中，A为补偿，B为刻度，β为模型拟合的系数，woe_xn为各变量证据权重转化后的值，从该计算式也可看出，当模型拟合的系数为负数时，评分卡中变量的趋势将会与单变量的趋势相反。

在本实施例的步骤S602中，分箱及WOE转换后的自变量可能有成百上千个，经常需要对自变量进行筛选，挑选合适的变量进行模型训练的过程要考虑的因素较多，如变量的预测能力、变量之间的相关性，变量的可解释性等，IV值可以衡量自变量的预测能力，定义如以下所示：

其中，IV值可以理解为每一个WOE分组中响应客群比例与未响应客群比例的差与该组WOE的乘积，再把每组的IV值相加即为该变量的IV值。当IV值小于等于0.02时，该变量没有预测能力，当IV值在0.02至0.1之间，变量的预测能力较弱，当IV值在0.1至0.3之间，变量的预测能力较强，当IV值在0.3至0.5之间，变量的预测能力非常强，而当IV值大于0.5时，变量的预测能力特别强，但这可能由于信息泄漏导致，需要检测变量是否有此类问题，如有需舍弃该变量。

变量之间的相关性通过计算变量的方差膨胀因子(VIF)或相关系数进行筛选。方差膨胀因子(VIF)解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比。VIF越大，显示共线性越严重。经验判断方法表明：当0<VIF<10，不存在多重共线性；当10≤VIF<100，存在较强的多重共线性；当VIF≥100，存在严重多重共线性。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数也可以看成协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差，它消除了两个变量变化幅度的影响，而只是单纯反应两个变量每单位变化时的相似程度。对于相关性较强的两个变量，可以比较其IV值，留下IV值高的变量，即预测能力较强的变量。

变量的可解释性通过观察变量的WOE变化趋势进行筛选。它是一种单变量分析方法，通过WOE图，可以发现自变量与因变量之间关系，评估数据中变量表现出来的趋势是否与业务直觉相匹配，或者说变量变化趋势是否单调递增或递减，可以看出变量的每个分箱对应客群表现出来的响应是越大还是越小。

在本实施例的步骤S603中，在逻辑回归模型优化时进行了改进，加入了保证系数非负正的特定约束条件，变为求解带约束的优化问题。

假设损失函数为f(x)，加入了约束条件，约束条件为l≤x≤μ，l和μ分别代表了变量系数x的下界和上界。

s.t.l≤x≤μ

这样可以使得目标函数的梯度在x＝l时，梯度大于等于0，在x＝μ时，梯度小于等于0，在l<x<μ时，梯度等于0。

这里定义映射P_[l.u](x)如下所示：

当损失函数f(x)连续可微时，当x^*是局部最小值时，则：

这里

为损失函数在该点的梯度，经过映射后，这里变成了求解约束条件的优化问题。有很多算法可以用来解决此类问题，本实施例使用L-BFGS-B算法来求解该问题，L-BFGS-B具有收敛速度快、内存开销少等优点，适用于大规模机器学习计算，对于评分卡场景，约束条件设为l_i＝0，μ_i＝∞。通常在机器学习问题中，使用梯度下降法或随机梯度下降法进行权值更新，在联邦学习框架下，使用随机梯度下降法或随机拟牛顿法进行更新。

本实施例在联邦学习框架下的实现与机器学习框架下相似。在纵向联邦学习问题中，假设数据来源于两个机构A(即前述的第一数据机构)和B(即前述的第二数据机构)，A和B是不同的数据所有者，A仅提供特征数据，B提供特征数据和标签数据，合作时需要通过RSA和Hash机制进行用户匹配，找出两个机构的交集用户，且保证了两家机构用户的差集不会泄露给对方。建模数据交互中，采用同态加密技术，保证了任何底层的特征数据和标签数据都不向对方泄露，机构各自通过公钥进行加密，而第三方机构有私钥可以用来解密。同态加密技术可以实现对两个数字加密，加密后两个数字的密文可以进行数学运算，比如加法运算，其运算结果依然是密文，对密文解密后得到的结果和它们明文的加法结果是一样的。当计算损失和梯度时，加密的损失和梯度通过计算出的

从A机构传给B机构，

为同态加密后的μ_A，μ_A＝{μ_A[i]＝(ω^A)^Tx_i ^A}，μ_A ²＝{μ_A ²[i]＝((ω^A)^Tx_i ^A)²}，B机构把计算出的

传给A机构，d＝{d_i＝0.25(μ_A[i]+μ_B[i])-0.5y_i},每步计算如下：

图7是根据本发明可选实施例的联邦学习下的评分卡快速建模方法的流程图，如图7所示，该流程包括如下步骤：

步骤S701，初始化，把ω₀ ^A，ω₀ ^B映射到相应的参数空间。

步骤S702，循环以下过程，判断损失或系数的条件及最大循环次数的条件是否达到预定条件。

步骤S7021，在两个机构用户交集中随机选择一少部分样本。

步骤S7022，机构A和B均计算

步骤S7023，第三方机构计算各自的梯度和损失，判断是否满足停止条件。

步骤S7024，机构A和B更新各自的模型权值。

步骤S703，返回最终的权值ω^A，ω^B。

在本实施例中，输入ω₀ ^A，ω₀ ^B，根据参数η输出ω^A，ω^B，完成评分卡的快速建模。

在本实施例中，机构A和B使用以下公式更新各自的模型权值：

ω^A←P_[0，+∞)(ω^A-ηg^A)

ω^B←P_[0，+∞)(ω^B-ηg^B)

基于以上的改进方法，返回后的ω^A,ω^B均满足值为非负，可以避免机构间因为模型不满足可解释性而反复迭代的问题，大大减少了建模开发的周期，提高了开发的效率，同时在联邦学习的框架下，丰富了数据特征，使模型更加稳定和健壮。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，将数据宽表中的连续变量进行分箱得到离散的变量；

S2，将所述变量输入带约束的逻辑回归模型中，将所述逻辑回归模型转换为评分卡模型，并计算所述评分卡模型的补偿和刻度，其中，所述逻辑回归模型的约束条件是限制所述变量系数的下界为非负。

在一个示例性实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

在一个示例性实施例中，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，将数据宽表中的连续变量进行分箱得到离散的变量；

在一个示例性实施例中，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，在一个示例性实施例中，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种评分卡模型训练方法，其特征在于，包括：

将数据宽表中的连续变量进行分箱得到离散的变量；

将所述变量输入带约束的逻辑回归模型中，将所述逻辑回归模型转换为评分卡模型，并计算所述评分卡模型的补偿和刻度，其中，所述逻辑回归模型的约束条件是限制所述变量系数的下界为非负。

2.根据权利要求1所述的方法，其特征在于，将所述变量输入带约束的逻辑回归模型中，将所述逻辑回归模型转换为评分卡模型，并计算所述评分卡模型的补偿和刻度，包括：

第一数据机构和第二数据机构进行信息交互，根据带约束的所述逻辑回归模型确定第一数据宽表中变量的第一模型权值和第二数据宽表中变量的第二模型权值，其中，所述逻辑回归模型的约束条件是限制所述变量系数的下界为非负；

所述第一数据机构和所述第二数据机构分别将根据所述第一模型权值计算出的第一梯度值、所述第二模型权值计算出的第二梯度值和损失发送至第三方机构；

所述第三方机构根据所述第一梯度值、第二梯度值和损失更新所述第一模型权值和所述第二模型权值，并将经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值分别发送至所述第一数据机构和所述第二数据机构；

所述第一数据机构和所述第二数据机构分别根据经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值计算得出第一评分卡模型的补偿和刻度以及第二评分卡模型的补偿和刻度。

3.根据权利要求2所述的方法，其特征在于，在第一数据机构和第二数据机构进行信息交互之前，还包括：

所述第一数据机构和所述第二数据机构接收所述第三方机构发送的公钥。

4.根据权利要求3所述的方法，其特征在于，所述第一数据机构和第二数据机构进行信息交互，根据带约束的所述逻辑回归模型确定第一数据宽表中变量的第一模型权值和第二数据宽表中变量的第二模型权值，包括：

所述第一数据机构将带约束的所述逻辑回归模型中的损失函数的变量系数设定为非负，并根据所述逻辑回归模型中的所述损失函数得出第一数据的模型系数，并将所述第一数据的模型系数经过公钥加密后发送至所述第二数据机构；

所述第二数据机构接收所述第一数据的模型系数，并根据所述第一数据的模型系数计算得出加密的中间值和加密的损失，并将所述加密的中间值返回至所述第一数据机构；

所述第一数据机构和所述第二数据机构分别根据所述加密的中间值计算得出所述第一数据宽表中所述变量的加密的所述第一模型权值和所述第二数据宽表中所述变量的加密的所述第二模型权值。

5.根据权利要求4所述的方法，其特征在于，所述第一数据机构和所述第二数据机构分别将根据所述第一模型权值计算出的第一梯度值、所述第二模型权值计算出的第二梯度值和损失发送至第三方机构，包括：

所述第一数据机构将根据加密的所述第一模型权值计算出的加密的第一梯度值发送至所述第三方机构；

所述第二数据机构将根据加密的所述第二模型权值计算出的加密的第二梯度值和所述加密的损失发送至所述第三方机构。

6.根据权利要求5所述的方法，其特征在于，所述第三方机构根据所述第一梯度值、第二梯度值和损失更新所述第一模型权值和所述第二模型权值，并将经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值分别发送至所述第一数据机构和所述第二数据机构，包括：

所述第三方机构接收加密的所述第一梯度值、加密的所述第二梯度值和所述加密的损失并通过所述公钥进行解密，获得所述第一梯度值、所述第二梯度值和损失；

所述第三方机构根据所述第一梯度值、所述第二梯度值和所述损失进行迭代更新，判断所述第一梯度值、所述第二梯度值、所述损失或迭代次数的条件是否满足所述停止条件，并得出经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值；

所述第三方机构将经过更新后满足停止条件的所述第一模型权值和经过更新后满足停止条件的所述第二模型权值分别发送至所述第一数据机构和所述第二数据机构。

7.根据权利要求6所述的方法，其特征在于，判断所述第一梯度值、所述第二梯度值、所述损失或迭代次数的条件是否满足所述停止条件，包括：

当所述损失满足预设条件时，所述迭代更新满足停止条件；

当所述第一梯度值或所述第二梯度值满足预设条件时，所述迭代更新满足停止条件；

当所述损失、第一梯度值或所述第二梯度值均未满足预设条件，且所述迭代更新的所述迭代次数已达到最大循环次数时，所述迭代更新满足停止条件。

8.一种评分卡模型训练装置，其特征在于，包括：

分箱模块，用于将数据宽表中的连续变量进行分箱得到离散的变量；

输入返回模块，用于将所述变量输入带约束的逻辑回归模型中，将所述逻辑回归模型转换为评分卡模型，并计算所述评分卡模型的补偿和刻度，其中，所述逻辑回归模型的约束条件是限制所述变量系数的下界为非负。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。