CN117273901A

CN117273901A - 一种基于差分隐私的纵向联邦学习用户信用评分方法

Info

Publication number: CN117273901A
Application number: CN202311049153.0A
Authority: CN
Inventors: 盖珂珂; 王烁; 孙品; 徐蕾; 祝烈煌
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-12-22

Abstract

本发明涉及一种基于差分隐私的纵向联邦学习用户信用评分方法，属于隐私计算技术领域。不暴露参与方本地数据，将参与方所持有的数据进行匹配，实现各参与方的数据样本对齐。各参与方使用本地数据和底层模型进行本地模型前向训练。服务器将满足差分隐私的噪声的本地中间结果进行拼接得到具有隐私保护的中间结果。服务器将经过差分隐私保护的中间结果作为输入，采用随机梯度下降算法训练顶层模型，将反向传播中间结果注入噪声并分发给各个参与方。参与方将子反向中间结果作为输入，使用梯度下降法计算底层模型梯度，更新底层模型参数。最后利用参与方协同训练获得的全局信用评分模型完成用户信用评分。本发明提高了用户信用评分效率和数据安全性。

Description

一种基于差分隐私的纵向联邦学习用户信用评分方法

技术领域

本发明涉及一种基于差分隐私的纵向联邦学习用户信用评分方法，属于隐私计算技术领域。

背景技术

随着信息技术的发展，各种终端设备产生了大量的数据。从大量的数据中获取有价值的内容，是当前研究的重点。由于用户数据分散在不同的设备中，数据共享是实现数据价值化的一个必要需求。

在现实场景中，数据往往分布在多个银行单位(数据持有方)中。为了训练得到较优的全局模型的效果，技术人员希望数据持有方能够协同实现数据分析和建模。然而，各个数据持有者担心将自己的数据暴露给其他方或者第三方，从而导致隐私泄露和商业机密被窃取。目前，传统的机器学习方法是将所有的数据聚集到同一个服务器中，然后进行全局模型的训练。传统的机器学习方法容易导致数据泄露和隐私侵犯的问题，因此，需要一种新的数据协作方式来保证数据安全。

作为数据不出域各方联合训练的新方法，纵向联邦学习通过共享模型而不是共享数据来实现各方的协同训练，在一定程度上保护了原始数据的安全。然而，传统的联邦学习方法也存在一些问题，如攻击者通过模型推断出参与方的原始数据和身份，存在中间人攻击和数据泄露的风险等。

针对这种情况，一般可通过如下几个方案实现隐私保护：

1.基于同态加密的解决方法。将同态加密应用于纵向联邦学习中可以实现在保护数据隐私的同时，允许不同参与方之间共享模型参数和中间结果。具体地，可以使用同态加密来加密参与方的输入数据和底层模型参数，并在加密的状态下执行前向传播、反向传播和梯度更新等计算操作。在这个过程中，加密数据保持不可读，只有在最后的解密步骤中才能得到明文结果。这个过程中数据隐私得到了很好的保护，参与方的原始数据和中间结果在加密状态下得到了保护，没有泄漏风险。参与方之间可以共享加密的模型参数和中间结果，而无需将明文数据暴露给其他方。可以适用于各种计算任务，包括前向传播、反向传播和梯度更新等。

但是，该方法存在如下技术缺点：

针对纵向联邦学习在用户信用评分中应用存在的计算效率较低，需要大量的计算资源和时间，成本较高。此外，在加密状态下执行计算操作可能会导致信息损失，可能会影响模型的性能和准确性。

2.基于安全多方计算的解决方法。每个参与者在本地执行其底层模型的前向传播，并使用安全多方计算将中间结果的加密值共享给其他参与者。然后，每个参与者使用共享的加密值来计算顶层模型的梯度，并在SMPC的帮助下将梯度聚合到一起，计算顶层模型的参数更新。最后，通过加密传输结果来保护隐私，确保每个参与者只知道自己的输入和输出，不知道其他参与者的输入和计算过程。与方案1相比，方案2提供了更强的隐私保护，每个参与者只知道自己的输入和输出，不知道其他参与者的输入和计算过程，确保了数据隐私。更加灵活，安全多方计算可以适用于各种数据类型和计算任务，因此适用性更广泛。

但是，该方法存在如下技术缺点：

(1)计算效率较低：安全多方计算需要多次通信和计算，因此效率较低，尤其是在处理大规模数据时。

(2)需要可信第三方：安全多方计算需要一个可信第三方来协调计算和共享数据，否则可能会出现非法参与者，从而影响计算结果的正确性和隐私保护的有效性。

3.基于秘密共享的解决方法。将底层模型的梯度分成多份，分别分发给不同的参与者，并对每份梯度进行加密，使得每个参与者只能获得自己手中的梯度信息，需要多个参与者合作才能还原出完整的梯度信息。这样就可以保护底层模型的梯度隐私，同时不会带来过多的精度损失。方案1、方案2需要添加噪声来保护隐私，但这会带来精度损失。而秘密共享可以在不添加噪声的情况下实现隐私保护。且具有更高的计算效率。

但是，该方法存在如下技术缺点：分发和合并梯度需要一定的计算和通信开销，可能会影响训练的效率；参与者之间需要密切合作才能完成计算过程，可能会存在协作难度和安全性问题；如果某个参与者的计算能力较弱或者非法篡改数据，会影响整个计算的结果。

发明内容

本发明的目的是为了有效解决纵向联邦学习技术在用户信用评分中，参与方的数据安全和数据共享之间存在矛盾，计算开销大、安全性低等技术问题，创造性地提出一种基于差分隐私的纵向联邦学习用户信用评分方法。

为了达到上述目的，本发明采取如下技术方法。

首先，对相关定义进行说明：

定义1：划分网络

指将深度神经网络拆分成几个部分网络，分别由不同的参与方持有和运行某一部分网络，所有的参与方协同实现整个深度神经网络的训练。

定义2：纵向联邦学习

指不同参与方拥有不同特征的数据集进行联合建模的过程。

例如，医院A和医院B拥有不同的病人数据，其中医院A的数据包含病人的身高、体重等生理指标，医院B的数据包含病人的病历、用药记录等病史信息。这两个数据集的特征不同，但它们都可以用于训练一个模型，用于诊断疾病或者预测疾病风险等。

定义3：差分隐私

指在处理数据时，通过添加一定程度的噪声来保护个人隐私。差分隐私的基本思想是将个人数据的隐私保护起来，使得在数据处理的过程中不会泄露个人敏感信息。

在差分隐私中，噪声的添加是一个核心的步骤。具体而言，为了使得噪声的添加不会对数据处理的结果造成过大的影响，差分隐私要求噪声必须是随机的、不可预测的，而且需要在一定程度上保证数据处理的准确性。一般来说，差分隐私可以通过添加拉普拉斯噪声或高斯噪声来实现。

定义4：私有集

指一组数据，这些数据只能被特定的授权用户访问，对其他人来说是不可见的。私有集通常用于隐私保护，例如在差分隐私中，为了防止敏感信息被泄露，可以将数据转换为私有集。私有集可以使用密码学技术进行加密，确保只有授权用户才能访问数据。

本发明采用以下技术方案实现。

一种基于差分隐私的纵向联邦学习用户信用评分方法，包括以下步骤：

步骤1：初始化。

首先，服务器根据任务需求初始化全局模型。

然后，将全局模型在水平方向划分为顶层模型和底层模型。

最后，将顶层模型分发给服务器，将子底层模型分发给各个参与方。

步骤2：对各参与方的私有集求交集。

在不暴露参与方本地数据的情况下，将参与方所持有的数据进行匹配，以此实现各参与方的数据样本对齐。

步骤2.1：对于每个参与方，计算其私有集的哈希值，并将其发送给所有其他参与方。

步骤2.2：每个参与方使用哈希值来检查其他参与方是否有相同的哈希值。如果存在相同的哈希值，则将其标记为候选集。否则，舍弃相应数据。

步骤2.3：参与方将候选集发送给其他参与方以进行验证，每个参与方将验证候选集中的元素是否存在于其自己的私有集中。

步骤2.4：如果元素在所有参与方的私有集中都存在，则将其添加到交集中。否则，舍弃相应数据。

步骤3：各个参与方使用本地数据和底层模型进行本地模型前向训练。

首先，各个参与方本地数据特征作为底层模型的输入。经过底层模型的线性变换和激活函数后，输出本地中间结果。

然后，在本地中间结果中注入若干满足差分隐私的噪声来保护本地数据安全。

最后，将具有噪声的本地中间结果发送给服务器。

步骤4：服务器将满足差分隐私的噪声的本地中间结果进行拼接，得到具有隐私保护的中间结果。

首先，服务器接收到所有参与方发送的本地中间结果。

然后，服务器将所有的参与方的本地中间结果按照列向量拼接成中间结果。

步骤5：服务器使用经过差分隐私保护的中间结果作为输入，训练顶层模型。其中，所采用的优化算法是随机梯度下降算法，将顶层模型的梯度反向传播到中间结果，得到经过差分隐私保护的中间结果的梯度。

步骤5.1：将中间结果作为顶层模型的输入，训练顶层模型得到预测结果Θ。

步骤5.2：将预测结果Θ与真实标签y进行比较，计算损失值l＝L(Θ,y)，L()表示损失函数，例如交叉熵损失等。

步骤5.3：在反向传播过程中，损失函数相对于顶层模型输出的梯度计算为其中L表示损失函数，Θ表示预测结果，/>表示偏导。

步骤5.4:使用随机梯度下降法实现顶层模型反向更新梯度，并得到反向传播中间结果。

步骤6：将反向传播中间结果注入噪声，并分发给各个参与方。

步骤6.1：服务器在反向传播中间结果注入满足差分隐私的高斯噪声，保护服务器中的标签安全。

步骤6.2：服务器将具有隐私保护的反向传播中间结果拆分为反向传播子中间结果。

步骤6.3：服务器将反向传播子中间结果分发给各个参与方。

步骤7：参与方将子反向中间结果作为输入使用梯度下降法来计算底层模型的梯度，更新底层模型的参数。

步骤7.1：各个参与方得到子反向中间结果；

步骤7.2：使用子反向中间结果和梯度下降法来实现本地模型更新。

步骤8：重复进行步骤3-5，直到训练模型精度至90％以上后，停止训练。

步骤9：使用参与方协同训练获得的全局信用评分模型，完成用户信用评分。

有益效果

本发明方法，与现有技术相比，具有以下优点：

1.本发明提高了基于纵向联邦学习的用户信用评分模型的训练效率。本发明采用划分网络技术将整个模型拆分为顶层模型和底层模型，参与方训练底层模型，服务器训练顶层模型，从而减少了各个参与方之间的通信，提高了纵向联邦学习的训练效率。

2.本发明具有良好的隐私保护能力。本发明在基于划分网络的联邦学习的训练中间参数中注入满足差分隐私的噪声，从而保护参与方的原始数据和服务器的标签安全。

附图说明

图1为本发明方法的示意图。

具体实施方式

下面将结合附图和实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例

具体地，本实施例详细阐述了为了在银行和电商之间建立一种用户信用评估体系，帮助银行识别可信的客户，并防止欺诈行为，使用纵向联邦学习训练数据，基于差分隐私和划分网络，对参与方的本地数据进行隐私保护。

具体地，银行可以提供客户的信用评级、贷款记录、收入状况等敏感数据，而电商则提供客户的购买记录、评价等信息。这些数据可以通过纵向联邦学习的方式进行合并和处理，从而得到客户的信用评估结果。该评估结果可以作为电商进行商品推荐、信用额度授予等业务决策的参考。基于差分隐私的纵向联邦学习可以保护银行和电商的数据，同时通过数据共享和联合建模提高信用评估的准确性。

如图1所示，一种基于差分隐私的纵向联邦学习用户信用评分方法，包括如下过程：

步骤1：系统初始化。

步骤1.1:全局模型初始化。服务器根据用户评分任务需求初始化全局模型w。

步骤1.2：全局模型划分。将全局模型w在水平方向分为顶层模型Top(w₁)和底层模型Bottom(w₂)。

步骤1.3：模型分发。将顶层模型w₁分发给服务器，将底层模型w₂分发给参与方。这里的参与方指银行1和电商1。

步骤2：对各参与方的私有集求交集。

银行1和电商1分别是两个参与者，也即数据持有者P₁、P₂。

步骤2.1：设参与方Pi的输入为Xi表示私有数据；对于所有的i∈[1,2]表示参与方，k∈[m]表示数据特征的数量。{0,1}*表示一个序列中的元素均是0或者1。

生成秘密分享使/>其中i、j表示两个参与方Pi和Pj，/>表示针对第k个特征参与方i和j之间的共享密钥。

步骤2.2：在每一对参与者Pi和Pj两两之间运行OPPRF协议。令Pi为发送者，Pj为接收者。Pj从Pi获取对应自己持有的样本的秘密分享。如果Pi也持有该样本，接收者Pj将得到/>否则得到一个随机值。

步骤2.3：接收者Pj将获得的所有分享值异或得到自己的分享值，即如果每个参与方都持有元素x，则/>

步骤2.4：接收者Pj对于自己的每一个样本，都和全部参与方执行OPPRF协议。发送方Pi如果有这个样本，就发送真实的秘密分享的值如果没有，就发送随机值。

步骤2.5：把所有值异或，如结果为0则证明是所有参与方共有。最后得到的全部异或为0的元素的集合，即为最终的PSI(隐私保护集合交集，Privacy-preserving SetIntersection)结果。

步骤3：将参与者P₁和参与者P₂的底层模型前向传播。P₁和P₂在本地训练子模型M1和M2，获得本地中间输出结果E1和E2。

下面以参与者P₁为例来说明P₁的底层模型前向传播过程，具体步骤包括：

步骤3.1：P₁本地数据特征作为底层模型bottom的输入。

步骤3.2:经过底层的线性变换和激活函数后输出本地中间结果E₁，E₁＝Bottom(w₁,{X₁})。

步骤3.3：在本地中间结果中注入若干满足差分隐私的噪声来保护本地数据安全。即：其中σ是高斯噪声的标准差，可以根据所需的隐私保护能力进行调整。/>表示具有隐私保护的本地中间结果，E₁表示本地中间结果，N表示正态分布。

步骤3.4：参与者P₁和参与者P₂将具有噪声的本地中间结果和/>发送给服务器。

步骤4：服务器将满足差分隐私的噪声的本地中间结果和/>进行拼接，得到具有隐私保护的中间结果/>

步骤4.1：服务器接收到参与者P₁和参与者P₂发送的本地中间结果和/>

步骤4.1：服务器将参与者P₁和参与者P₂的本地中间结果和/>按照列向量拼接成中间结果/>

步骤5：服务器使用经过差分隐私保护的中间结果作为输入来顶层神经网络Top的输入，采用随机梯度下降来训练顶层模型。将顶层模型的梯度反向传播到中间结果，得到经过差分隐私保护的中间结果的梯度。

步骤5.2：将预测Θ与真实标签y进行比较，计算损失函数l(Θ,y)。

步骤5.3：在反向传播的过程中，损失函数相对于顶部模型输出的梯度计算如下：其中L表示损失函数，Θ表示预测结果。

步骤5.4:使用随机梯度下降法来实现顶层模型反向更新梯度，并得到反向传播中间结果F。

步骤6：将反向传播中间结果F注入噪声并分发给P₁和P₂。

步骤6.1：服务器在反向传播中间结果F注入满足差分隐私的高斯噪声N(0,σ²)，即保护服务器中的标签安全。σ表示高斯噪声的方差。/>表示具有隐私保护的反向传播中间结果。

步骤6.2：服务器将拆分为反向传播子中间结果/>和/>即/>

步骤6.3：服务器将反向传播子中间结果和/>分发给P₁和P₂。

步骤7：P₁和P₂将子反向中间结果和/>作为输入使用梯度下降法来计算底层模型的梯度，更新底层模型的参数。

步骤7.1：P₁和P₂得到子反向中间结果和/>

步骤7.2：使用子反向中间结果和/>和梯度下降法来实现本地模型w₁和w₂更新。

步骤9：利用参与方协同训练获得的全局信用评分模型，完成用户信用评分。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于差分隐私的纵向联邦学习用户信用评分方法，其特征在于，包括以下步骤：

步骤1：初始化；

首先，服务器根据任务需求初始化全局模型；

然后，将全局模型在水平方向划分为顶层模型和底层模型；

最后，将顶层模型分发给服务器，将子底层模型分发给各个参与方；

步骤2：对各参与方的私有集求交集；

在不暴露参与方本地数据的情况下，将参与方所持有的数据进行匹配，以此实现各参与方的数据样本对齐；

步骤2.1：对于每个参与方，计算其私有集的哈希值，并将其发送给所有其他参与方；

步骤2.2：每个参与方使用哈希值来检查其他参与方是否有相同的哈希值；如果存在相同的哈希值，则将其标记为候选集；否则，舍弃相应数据；

步骤2.3：参与方将候选集发送给其他参与方以进行验证，每个参与方将验证候选集中的元素是否存在于其自己的私有集中；

步骤2.4：如果元素在所有参与方的私有集中都存在，则将其添加到交集中；否则，舍弃相应数据；

步骤3：各个参与方使用本地数据和底层模型进行本地模型前向训练；

首先，各个参与方本地数据特征作为底层模型的输入；经过底层模型的线性变换和激活函数后，输出本地中间结果；

然后，在本地中间结果中注入若干满足差分隐私的噪声来保护本地数据安全；

最后，将具有噪声的本地中间结果发送给服务器；

步骤4：服务器将满足差分隐私的噪声的本地中间结果进行拼接，得到具有隐私保护的中间结果；

首先，服务器接收到所有参与方发送的本地中间结果；

然后，服务器将所有的参与方的本地中间结果按照列向量拼接成中间结果；

步骤5：服务器使用经过差分隐私保护的中间结果作为输入，训练顶层模型；其中，所采用的优化算法是随机梯度下降算法，将顶层模型的梯度反向传播到中间结果，得到经过差分隐私保护的中间结果的梯度；

步骤5.1：将中间结果作为顶层模型的输入，训练顶层模型得到预测结果Θ；

步骤5.2：将预测结果Θ与真实标签y进行比较，计算损失值l＝L(Θ,y)，L()表示损失函数，例如交叉熵损失等；

步骤5.3：在反向传播过程中，损失函数相对于顶层模型输出的梯度计算为其中L表示损失函数，Θ表示预测结果，/>表示偏导；

步骤5.4：使用随机梯度下降法实现顶层模型反向更新梯度，并得到反向传播中间结果；

步骤6：将反向传播中间结果注入噪声，并分发给各个参与方；

步骤6.1：服务器在反向传播中间结果注入满足差分隐私的高斯噪声，保护服务器中的标签安全；

步骤6.2：服务器将具有隐私保护的反向传播中间结果拆分为反向传播子中间结果；

步骤6.3：服务器将反向传播子中间结果分发给各个参与方；

步骤7：参与方将子反向中间结果作为输入使用梯度下降法来计算底层模型的梯度，更新底层模型的参数；

步骤7.1：各个参与方得到子反向中间结果；

步骤7.2：使用子反向中间结果和梯度下降法来实现本地模型更新

步骤8：重复进行步骤3-5，直到训练模型精度至90％以上后，停止训练；

2.如权利要求1所述的一种基于差分隐私的纵向联邦学习用户信用评分方法，其特征在于，步骤2中：

步骤2.1：设参与方Pi的输入为Xi表示私有数据；k∈[m]表示数据特征的数量；{0,1}^*表示一个序列中的元素均是0或1；

生成秘密分享使/>i、j表示两个参与方Pi和Pj，/>表示针对第k个特征参与方i和j之间的共享密钥；

步骤2.2：在每一对参与方Pi和Pj两两之间运行OPPRF协议；令Pi为发送者，Pj为接收者；Pj从Pi获取对应自己持有的样本的秘密分享；如果Pi也持有该样本，则接收者Pj将得到/>否则得到一个随机值；

步骤2.4：接收者Pj对于自己的每一个样本，都和全部参与方执行OPPRF协议；发送者Pi如果有这个样本，就发送真实的秘密分享的值如果没有，就发送随机值；

步骤2.5：把所有值异或，如结果为0则证明是所有参与方共有；最后得到的全部异或为0的元素的集合，即为最终的隐私保护集合交集结果。

3.如权利要求1所述的一种基于差分隐私的纵向联邦学习用户信用评分方法，其特征在于，步骤3中，参与者底层模型前向传播过程步骤包括：

步骤3.1：参与者P₁的本地数据特征作为底层模型bottom的输入；

步骤3.2:经过底层的线性变换和激活函数后输出本地中间结果E₁，E₁＝Bottom(w₁,{X₁})；

步骤3.3：在本地中间结果中注入若干满足差分隐私的噪声来保护本地数据安全；即：其中σ是高斯噪声的标准差，根据所需的隐私保护能力进行调整；表示具有隐私保护的本地中间结果，E₁表示本地中间结果，N表示正态分布；