CN114139450A

CN114139450A - 一种基于隐私保护的评分卡建模方法及装置

Info

Publication number: CN114139450A
Application number: CN202111435950.3A
Authority: CN
Inventors: 李雪峰; 梁亮
Original assignee: Baibao Shanghai Technology Co ltd
Current assignee: Baibao Shanghai Technology Co ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-04

Abstract

本发明公开了一种基于隐私保护的评分卡建模方法及装置，方法包括：业务方与各个服务方分别进行用户样本对齐，确定用于建模的目标数据，所述业务方和各个所述服务方根据标签数据以及各自拥有的目标数据的分箱结果计算得到各自基于差分隐私的WOE值，所述标签数据为所述业务方拥有，所述业务方以及各个所述服务方将各自计算得到的WOE值作为分类模型的输入进行联邦建模，获取各自的目标模型，通过采用基于差分隐私的联邦WOE计算方式，可以保证即使分箱中标签仅有一种取值的情况下，服务方也不会猜测出标签信息，避免标签信息泄露。

Description

一种基于隐私保护的评分卡建模方法及装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种基于隐私保护的评分卡建模方法及装置。

背景技术

随着金融行业对风控业务要求的提高，高准确率的风控准入模型可有效降低逾期率。然而，信息化时代用户的行为数据通常会分散在各个企业(如运营商、互联网、金融机构等)中。单一企业中所涵盖的用户金融行为特征有限。虽然可以通过联合多个企业的数据共同构建模型来提高模型的准确率，然而，各企业的用户数据可能涉及到大量个人敏感和隐私数据，国家法律法规对个人隐私保护的条例也越来越严格，因此传统的将数据集中起来建模的方式不再可行。在此背景下，联邦学习的方式，为在保护数据隐私的前提下、安全共建模型提供了新的解决思路。

联邦学习的应用场景很多，联邦风控评分卡建模就是常见的一种。常用的评分卡建模方式有：逻辑回归(Logistic Regression，以下简称LR)、XGBoost(以下简称XGB)。在评分卡场景中，为了进行特征筛选和保证模型的稳定性，引入了WOE值的概念。即，建模数据在进入评分卡建模之前，需要进行WOE值的转换，这是也是评分卡模型中常用的技术手段。然而，现有的联邦评分卡建模方式，在计算WOE时存在当分箱中只有正样本或者负样本时，服务方可以通过WOE值获取一部分标签信息，导致业务方拥有的标签泄露等问题。

因此，亟需提出一种新的评分卡建模方法，以解决上述问题。

发明内容

为了解决现有技术的问题，本发明提供了一种基于隐私保护的评分卡建模方法及装置，采用基于差分隐私的联邦WOE计算方式，以保证即使分箱中标签仅有一种取值的情况下，服务方也不会猜测出标签信息。

为解决上述一个或多个技术问题，本申请采用的技术方案是：

第一方面，提供了一种基于隐私保护的评分卡建模方法，所述方法包括：

业务方与各个服务方分别进行用户样本对齐，确定用于建模的目标数据；

所述业务方和各个所述服务方根据标签数据以及各自拥有的目标数据的分箱结果计算得到各自基于差分隐私的WOE值，所述标签数据为所述业务方拥有；

所述业务方以及各个所述服务方将各自计算得到的WOE值作为分类模型的输入进行联邦建模，获取各自的目标模型。

进一步的，所述业务方与各个服务方分别进行用户样本对齐，确定用于建模的目标数据包括：

业务方向各个服务方发送联邦建模请求，所述联邦建模请求中包括预设维度；

所述业务方与各个所述服务方分别根据所述预设维度进行用户样本对齐，确定用于建模的目标数据。

进一步的，所述目标数据包括所述业务方拥有的第一特征数据，所述业务方和各个所述服务方根据标签数据以及各自拥有的目标数据的分箱结果计算得到各自基于差分隐私的WOE值包括：

所述业务方根据标签数据以及自己拥有的第一特征数据的分箱结果计算得到所有第一特征对应的WOE值。

进一步的，所述目标数据包括所述服务方拥有的第二特征数据，所述业务方和各个所述服务方根据标签数据以及各自拥有的目标数据的分箱结果计算得到各自基于差分隐私的WOE值包括：

所述业务方对所述标签数据进行加密处理，生成标签密文，并将所述标签密文发送给每一所述服务方；

每一所述服务方在所述标签密文的密文空间上统计各自拥有的第二特征数据的分箱结果中正样本以及负样本的数量，并将统计结果密文发送至所述业务方；

所述业务方根据所述统计结果密文计算得到所有第二特征对应的WOE值；

所述业务方对所述所有第二特征对应的WOE值进行噪声混淆，并将噪声混淆后第二特征对应的WOE值发给对应的服务方。

进一步的，所述业务方对所述标签数据进行加密处理，生成标签密文，并将所述标签密文发送给每一所述服务方包括：

所述业务方生成一对同态公、私钥，并利用所述公钥对所述标签数据进行同态加密生成标签密文，将所述标签密文发送给每一所述服务方。

进一步的，所述业务方根据所述统计结果密文计算得到所有第二特征对应的WOE值包括：

所述业务方利用所述私钥对所述统计结果密文进行解密，获取统计结果，并根据所述统计结果计算得到所有第二特征对应的WOE值。

进一步的，所述业务方对所述所有第二特征对应的WOE值进行噪声混淆所使用的噪声包括基于差分隐私中的服从Laplace分布的噪声。

第二方面，还提供了一种基于隐私保护的评分卡建模装置，所述装置包括：

数据对齐模块，用于业务方与各个服务方分别进行用户样本对齐，确定用于建模的目标数据；

WOE值计算模块，用于所述业务方和各个所述服务方根据标签数据以及各自拥有的目标数据的分箱结果计算得到各自基于差分隐私的WOE值，所述标签数据为所述业务方拥有；

联邦建模模块，用于所述业务方以及各个所述服务方将各自计算得到的WOE值作为分类模型的输入进行联邦建模，获取各自的目标模型。

第三方面，还提供了一种计算机设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，实现所述基于隐私保护的评分卡建模方法。

第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被执行时，实现所述基于隐私保护的评分卡建模方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的基于隐私保护的评分卡建模方法及装置，业务方与各个服务方分别进行用户样本对齐，确定用于建模的目标数据，所述业务方和各个所述服务方根据标签数据以及各自拥有的目标数据的分箱结果计算得到各自基于差分隐私的WOE值，所述标签数据为所述业务方拥有，所述业务方以及各个所述服务方将各自计算得到的WOE值作为分类模型的输入进行联邦建模，获取各自的目标模型，通过采用基于差分隐私的联邦WOE计算方式，可以保证即使分箱中标签仅有一种取值的情况下，服务方也不会猜测出标签信息，避免标签信息泄露；

进一步的，本发明提供的基于隐私保护的评分卡建模方法及装置，将差分隐私的联邦WOE计算结果作为联邦评分卡建模的输入，其建模结果和传统的将数据集中起来的建模结果对比，不仅无损，在KS指标上还有一些提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的联邦评分卡的架构图；

图2是本发明一个实施例提供的基于隐私保护的评分卡建模方法的流程图；

图3是本发明一个实施例提供的基于隐私保护的评分卡建模装置的结构示意图；

图4是本发明一个实施例提供的计算机设备的架构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如背景技术所述，现有的联邦评分卡建模，在计算WOE时，业务方可以根据标签直接计算WOE，而服务方计算WOE时需要业务方采用同态加密将标签传输给服务方，服务方在密文空间上进行WOE计算后，将计算结果传输给业务方进行解密，业务方将解密后的WOE值同步给host。当分箱中只有正样本或者负样本时，服务方可以通过WOE值获取一部分标签信息，导致业务方所拥有的标签信息泄露。

为解决上述问题，本申请实施例中创造性的提出了一种新的基于隐私保护的评分卡建模方法，通过采用基于差分隐私的联邦WOE计算方式，可以保证即使分箱中标签仅有一种取值的情况下，服务方也不会猜测出标签信息，解决了联邦评分卡建模中，可能存在的标签泄露问题。

下面将结合附图和各个实施例，对本申请的方案进行详细介绍。

实施例一

图1是本发明一个实施例提供的联邦评分卡的架构图，参照图1所示，本发明提出的基于隐私保护的评分卡建模方法，支持多个参与方之间进行安全的风控评分卡建模。假设有多个企业需要进行联邦风控评分卡建模，其中多个企业称为联邦的参与方。参与方可以分为业务方和服务方两种类型。其中，业务方拥有本次建模的标签指定权，提供本次建模所需的用户样本数据，包括样本ID、样本特征(可以提供样本特征，也可不提供)以及标签。服务方为业务方提供本次建模所需的用户样本数据，包括样本ID、样本特征。对于一次联邦任务来说，可以有多个服务方，但是有且只有一个业务方。

参照图1所示，本发明实施例提供的基于隐私保护的评分卡建模方法包括如下步骤：

步骤一、业务方和各服务方，通过安全PSI协议，进行用户样本对齐。

具体的，进一步参照图1所示，本实施例中，服务方有K个，其中，K为大于1的正整数。具体实施时，所有支持多方对齐的协议均可作为本实施例中的安全PSI的协议使用，包括但不限于OPPRF协议等。

步骤二、各参与方计算本方特征的WOE值。

具体的，本申请实施例中，参与方包括业务方与服务方，业务方与服务方计算WOE的方式不同，其中：

业务方根据标签以及自己拥有数据的分箱结果直接计算特征的WOE值计算公式如下：

其中，WOE_i，j表示特征i的每个分箱j的WOE值，p_G(j)和p_B(j)分别表示第i个特征的第j个分箱中好、坏样本在分箱中的比例；

服务方根据业务方提供的密文标签，对于任意一个特征，服务方得到该特征每个分箱的WOE值。

具体的，每个服务方计算每个特征分箱WOE值的流程包括：

Step1：业务方生成一对同态公私钥，假设为(pk，sk)，并将标签Y进行同态加密生成标签密文E_pk(Y)，然后将密文发送给服务方；

Step2：服务方在密文空间上统计分箱中正、负样本数，并将密文[n_G]和[n_B]发送给业务方；

Step3：业务方用私钥sk解密接收到的密文[n_G]和[n_B]，得到对应的每个分箱的统计信息D_sk([n_p])和D_sk([nn])，然后根据统计信息计算每个分箱的WOE值；

Step4：业务方对相同的WOE值，添加相同噪声扰动，并得到新的WOE＝WOE+n，其中n为基于差分隐私中的服从Laplace分布的噪声，然后业务方将更新后的WOE发给服务方；

Step5：服务方接收相应的WOE值。

这里需要说明的是，本申请实施例中，分箱方法可采用等频、等距、DT、或者卡方分箱中的任意一种方式。

步骤三、业务方、服务方将各自的WOE值作为分类模型的输入，进行联邦建模。

具体的，本申请实施例中，联邦建模方式包括但不限于联邦LR、联邦XGB等方式。

步骤四、模型收敛后，各参与方分别发布此次建模得到的模型，并提供预测服务。

以两个参与方(各有一个业务方、服务方)为例，差分隐私的Laplace噪声相关参数Sencitivity设定为每个特征WOE的均值，这样做的目的是为了保证扰动与原始数据在一个量级。对不同的Epsilon的取值，进行了实验，实验结果如下表1所示：

表1实验结果对比

实施例二

对应于上述实施例一，本发明还提供了一种基于隐私保护的评分卡建模方法，其中，本实施例中，与上述实施例一相同或相似的内容，可以参考上文介绍，后续不再赘述。参照图2示，该方法包括如下步骤：

S1：业务方与各个服务方分别进行用户样本对齐，确定用于建模的目标数据；

S2：所述业务方和各个所述服务方根据标签数据以及各自拥有的目标数据的分箱结果计算得到各自基于差分隐私的WOE值，所述标签数据为所述业务方拥有；

S3：所述业务方以及各个所述服务方将各自计算得到的WOE值作为分类模型的输入进行联邦建模，获取各自的目标模型。

具体的，采用基于差分隐私的联邦WOE计算方式，可以保证即使分箱中标签仅有一种取值的情况下，服务方也不会猜测出标签信息，解决了联邦评分卡建模中，可能存在的标签泄露问题。

具体的，将差分隐私的联邦WOE计算结果作为联邦评分卡建模的输入，其建模结果和传统的将数据集中起来的建模结果对比，在耗时几乎不变的情况下，由于差分隐私的噪声机制增加了模型的泛化能力，其建模精度不仅无损，在KS指标上还有一些提高。

作为一种较优的实施方式，本发明实施例中，所述业务方与各个服务方分别进行用户样本对齐，确定用于建模的目标数据包括：

具体的，预设维度包括但不限于用户ID。建模前，先进行用户样本对齐，一方面可以保证用于建模的数据的有效性，提高模型的精度，另一方面，可以减少无效数据的计算量，提高效率。

作为一种较优的实施方式，本发明实施例中，所述目标数据包括所述业务方拥有的第一特征数据，所述业务方和各个所述服务方根据标签数据以及各自拥有的目标数据的分箱结果计算得到各自基于差分隐私的WOE值包括：

具体的，分箱方法包括但不限于等频、等距、DT以及卡方分箱等。

作为一种较优的实施方式，本发明实施例中，所述目标数据包括所述服务方拥有的第二特征数据，所述业务方和各个所述服务方根据标签数据以及各自拥有的目标数据的分箱结果计算得到各自基于差分隐私的WOE值包括：

具体的，业务方将计算得到WOE值做噪声扰动的处理，其本质是对数据分布进行了差分隐私的保护，并且经差分隐私处理之后的统计结果将会进入到后续的模型训练中，因此不仅是在数据分布上有一定的泛化能力，这种泛化能力可以进一步传递到模型训练中，可以在实施例中观察到采用本专利的方案后，在相同数据集上，KS、AUC指标比未采用效果有提升。

作为一种较优的实施方式，本发明实施例中，所述业务方对所述标签数据进行加密处理，生成标签密文，并将所述标签密文发送给每一所述服务方包括：

作为一种较优的实施方式，本发明实施例中，所述业务方根据所述统计结果密文计算得到所有第二特征对应的WOE值包括：

作为一种较优的实施方式，本发明实施例中，所述业务方对所述所有第二特征对应的WOE值进行噪声混淆所使用的噪声包括基于差分隐私中的服从Laplace分布的噪声。

实施例三

对应于上述实施例一和二，本发明还提供了一种基于隐私保护的评分卡建模装置，其中，本实施例中，与上述实施例一或二相同或相似的内容，可以参考上文介绍，后续不再赘述。参照图3示，该装置包括：

作为一种较优的实施方式，本发明实施例中，所述数据对齐模块具体用于：

作为一种较优的实施方式，本发明实施例中，所述WOE值计算模块具体用于：

作为一种较优的实施方式，本发明实施例中，所述WOE值计算模块还用于：

所述业务方利用所述私钥对所述统计结果密文进行解密，获取统计结果，并根据所述统计结果计算得到所有第二特征对应的WOE值

实施例四

对应上述实施例一至三，本发明还提供了一种计算机设备，包括：处理器和存储器，存储器上存储有可在处理器上运行的计算机程序，当计算机程序被处理器执行时，执行上述任意一个实施例提供的基于隐私保护的评分卡建模方法。

其中，图4示例性的展示出了计算机设备，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory，只读存储器)、RAM(RandomAccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制电子设备运行的操作系统1521，用于控制电子设备的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器1523，数据存储管理系统1524，以及设备标识信息处理系统1525等等。上述设备标识信息处理系统1525就可以是本发明实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本发明所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。

输入/输出接口1513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线包括一通路，在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520)之间传输信息。

另外，该电子设备还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本发明方案所必需的组件，而不必包含图中所示的全部组件。

实施例五

对应于上述实施例一至四，本发明实施例还提供了一种计算机可读存储介质，其中，本实施例中，与上述实施例一至四相同或相似的内容，可以参考上文介绍，后续不再赘述。

所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如下步骤：

在一些实施方式中，本申请实施例中，所述计算机程序被处理器执行时，还可以实现与实施例一所述方法对应的步骤，可以参考实施例一中的详细描述，此处不作赘述。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明所提供的技术方案，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于隐私保护的评分卡建模方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于隐私保护的评分卡建模方法，其特征在于所述业务方与各个服务方分别进行用户样本对齐，确定用于建模的目标数据包括：

3.根据权利要求1或2所述的基于隐私保护的评分卡建模方法，其特征在于，所述目标数据包括所述业务方拥有的第一特征数据，所述业务方和各个所述服务方根据标签数据以及各自拥有的目标数据的分箱结果计算得到各自基于差分隐私的WOE值包括：

4.根据权利要求1或2所述的基于隐私保护的评分卡建模方法，其特征在于，所述目标数据包括所述服务方拥有的第二特征数据，所述业务方和各个所述服务方根据标签数据以及各自拥有的目标数据的分箱结果计算得到各自基于差分隐私的WOE值包括：

5.根据权利要求4所述的基于隐私保护的评分卡建模方法，其特征在于，所述业务方对所述标签数据进行加密处理，生成标签密文，并将所述标签密文发送给每一所述服务方包括：

6.根据权利要求5所述的基于隐私保护的评分卡建模方法，其特征在于，所述业务方根据所述统计结果密文计算得到所有第二特征对应的WOE值包括：

7.根据权利要求4所述的基于隐私保护的评分卡建模方法，其特征在于，所述业务方对所述所有第二特征对应的WOE值进行噪声混淆所使用的噪声包括基于差分隐私中的服从Laplace分布的噪声。

8.一种基于隐私保护的评分卡建模装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1～7中任一项所述的基于隐私保护的评分卡建模方法。

10.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，其特征在于，所述计算机程序被执行时，实现权利要求1～7中任一项所述的基于隐私保护的评分卡建模方法。