CN115329369B

CN115329369B - 基于多方纵向隐私保护和逻辑回归的模型联合构建方法

Info

Publication number: CN115329369B
Application number: CN202210900706.8A
Authority: CN
Inventors: 夏家骏; 谭博予; 张珣; 夏长达; 张子扬; 张佳辰
Original assignee: Shanghai Light Tree Technology Co ltd
Current assignee: Shanghai Light Tree Technology Co ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2023-04-14
Anticipated expiration: 2042-07-28
Also published as: CN115329369A

Abstract

本发明公开了一种基于多方纵向隐私保护和逻辑回归的模型联合构建方法，属于数据隐私保护技术领域。本发明本发明只在服务端生成一次公私钥，相比较现有的基于Paillier同态加密的多方纵向隐私保护逻辑回归算法在每个客户端生成公私钥，并利用所有客户端的公私钥进行加密运算，在Pailier密钥长度均为512时，每轮联合逻辑回归建模的速度快了接近一倍，使得多方联合建模不再局限于两方。对联邦模型的梯度作了保护，每个客户端仅发送本地计算的部分模型梯度给服务端，使得服务端不仅不知晓每个客户端的所有数据，同时也不能准确判断模型每次更新时的梯度，保护了各客户端的原始数据不泄露。

Description

基于多方纵向隐私保护和逻辑回归的模型联合构建方法

技术领域

本发明涉及数据秘密保护技术领域，具体涉及一种基于纵向隐私保护和逻辑回归的模型联合构建方法。

背景技术

现有的多方纵向隐私保护的逻辑回归算法主要基于同态加密或基于秘密共享实现，其中基于Paillier同态加密的多方纵向隐私保护逻辑回归算法更受欢迎。基于Paillier同态加密的多方纵向隐私保护逻辑回归算法的原理为：

每一方需要各自拥有一套Paillier公私钥，各种计算操作会在每套公钥加密后的密文上执行一次。举例而言，两方情形下，数据需要用己方的公钥和对方的公钥各加密一次，由于计算分别由两个计算方执行，因此额外增加的运算时间可忽略不计。但当拓展到N方时，各方的私有数据需要用其他N-1方的公钥进行加密运算，运算量将增加N-1倍，当N数值较大时，运算时间将大幅增加，会严重影响联邦学习的效率。因此，基于Paillier同态加密的多方纵向隐私保护逻辑回归算法通常只对两方有效，难以拓展到多方。

发明内容

本发明以支持多方联合建模而不再局限于两方，并提高联邦学习效率为目的，提供了一种基于多方纵向隐私保护和逻辑回归的模型联合构建方法。

为达此目的，本发明采用以下技术方案：

提供一种基于多方纵向隐私保护和逻辑回归的模型联合构建方法，步骤包括：

S1，联邦学习框架下的服务端生成公钥pk和私钥sk并存储，并将所述公钥pk发送给参与联邦学习的各客户端；

S2，所述服务端对每个所述客户端发送的在本地计算的部分模型梯度beta_i进行聚合，得到聚合梯度beta_agg，然后利用所述公钥pk对beta_agg进行加密，并将加密后的[[beta_agg]]_pk发送给每个所述客户端；

S3,每个所述客户端计算[[beta_agg]]_pk下的梯度[[grad_i]]_pk，并加上随机掩码mask_i后将加密结果[[grad_i+mask_i]]_pk发送给所述服务端，并在本地存储所述随机掩码mask_i；

S4，所述服务端使用所述私钥sk解密[[grad_i+mask_i]]_pk，并将解密结果[grad_i+mask_i]发送给对应的所述客户端；

S5，每个所述客户端使用本地存储的所述随机掩码mask_i对所述解密结果[grad_i+ mask_i]作mask_i匹配，过滤掉mask_i后得到明文梯度grad_i以更新本地模型。

作为优选，所述服务端基于Paillier同态加密算法生成所述公钥pk和所述私钥sk。

作为优选，作为联邦学习任务发起方的所述客户端发送给所述服务端作梯度聚合的所述部分模型梯度beta_i通过以下表达式(1)表达：

表达式(1)中，y_i表示作为所述任务发起方的客户端A在本地训练逻辑回归模型的样本X_Ai的真实值；

u_Ai表示所述客户端A训练的所述逻辑回归模型作线性回归的假设函数，u_Ai的计算通过以下表达式(2)表达：

表达式(2)中，表示θ_A的转置，θ_A为所述客户端A本地训练的所述逻辑回归模型的参数；

X_Ai表示所述客户端A进行本地模型训练的第i个样本。

作为优选，作为联邦学习任务接受方的所述客户端发送给所述服务端作梯度聚合的所述部分模型梯度beta_i通过以下表达式(3)表达：

表达式(3)中，u_Mi表示作为所述任务接收方的客户端M本地训练的逻辑回归模型作线性回归的假设函数，u_Mi通过以下表达式(4)表达：

表达式(4)中，表示θ_M的转置，θ_M为所述客户端M本地训练的所述逻辑回归模型的参数；

X_Mi表示所述客户端A进行本地模型训练的第i个样本。

本发明具有以下有益效果：

1、本发明只在服务端生成一次公私钥，相比较现有的基于Paillier同态加密的多方纵向隐私保护逻辑回归算法在每个客户端生成公私钥，并利用所有客户端的公私钥进行加密运算，在Pailier密钥长度均为512时，每轮联合逻辑回归建模的速度快了接近一倍，使得多方联合建模不再局限于两方。

2、对联邦模型的梯度作了保护，每个客户端仅发送本地计算的部分模型梯度给服务端，使得服务端不仅不知晓每个客户端的所有数据，同时也不能准确判断模型每次更新时的梯度，保护了各客户端的原始数据不泄露。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于多方纵向隐私保护和逻辑回归的模型联合构建方法的流程示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

假设多方为三方，带有样本标签的任务发起方为A，无标签的任务接受方为B、C，A、B、C在联邦学习框架下实现本实施例提供的基于多方纵向隐私保护和逻辑回归的模型联合构建方法的算法原理和具体流程如下：

【算法原理】

假设任务发起方A携带的样本数据为X_A和y，y∈{-1,+1}，1、-1为数据X_A的样本标签， 1表示正样本，-1表示负样本；B的数据为X_B；C的数据为X_C，B、C不带样本标签，假设样本已经对齐。若逻辑回归模型的参数为θ，令θ^T为θ的转置，则逻辑回归模型的输出值为利用统计学中极大似然估计的想法，将优化目标确定为最小化“负对数似然函数”，即：将目标函数(也是损失函数)在原点处进行Taylor二阶展开，有记则损失函数和客户本地模型的梯度计算公式分别为：

可以看出，其中的共同因子

【具体流程】

如图1所示，本实施例提供的基于多方纵向隐私保护和逻辑回归的模型联合构建方法，包括步骤：

S1，联邦学习框架下的服务端(Server)基于Paillier同态加密算法生成公钥pk和私钥 sk并存储，并将公钥pk发送给参与联邦学习的各客户端(包括任务发起方和任务接受方)进行存储；

S2，服务端对每个客户端发送的在本地计算的部分模型梯度beta_i进行聚合，得到聚合梯度beta_agg，然后利用公钥pk对beta_agg进行加密，并将加密后的[[beta_agg]]_pk发送给每个客户端；

为了确保服务端不知晓客户端的所有数据，本实施例对联邦模型的梯度进行了保护，即客户端只发送本地计算的部分模型梯度给服务端，服务端便无法知晓各客户的本地模型每次更新时的梯度。

作为优选，作为联邦学习任务发起方的客户端发送给服务端作梯度聚合的部分模型梯度 beta_i通过以下表达式(1)表达：

表达式(1)中，y_i表示作为任务发起方的客户端A利用本地训练的逻辑回归模型对输入样本X_Ai的预测输出值；

u_Ai表示客户端A训练的逻辑回归模型作线性回归的假设函数，u_Ai的计算通过以下表达式 (2)表达：

表达式(2)中，表示θ_A的转置，θ_A为客户端A本地训练的逻辑回归模型的参数；

X_Ai表示客户端A进行本地模型训练的第i个样本。

作为优选，作为联邦学习任务接受方的客户端发送给服务端作梯度聚合的部分模型梯度 beta_i通过以下表达式(3)表达：

表达式(3)中，u_Mi表示作为任务接收方的客户端M(本实施例中M为客户端A和B)本地训练的逻辑回归模型作线性回归的假设函数，u_Mi通过以下表达式(4)表达：

表达式(4)中，表示θ_M的转置，θ_M为客户端M本地训练的逻辑回归模型的参数；

X_Mi表示客户端A进行本地模型训练的第i个样本。

S3，每个客户端计算[[beta_agg]]_pk下的梯度[[grad_i]]_pk(客户端使用公钥pk计算梯度 [[grad_i]]_pk，由于[[grad_i]]_pk的具体计算方法并非本发明请求权利保护的范围，因此具体过程不做说明)，并加上随机掩码mask_i后将加密结果[[grad_i+mask_i]]_pk发送给服务端，并在本地存储随机掩码mask_i；

加入随机掩码提高了其他客户端破解grad_i的难度，提高了数据传输的安全性。

S4，服务端使用私钥sk解密[[grad_i+mask_i]]_pk，并将解密结果[grad_i+mask_i]发送给对应的客户端；

这里需要强调的是，客户端是无法对密文进行解密的，这样做的目的是减少客户端加解密计算量，使得本发明实施例提供的基于多方纵向隐私保护和逻辑回归的模型联合构建方法更容易拓展到多方。

S5，每个客户端使用本地存储的随机掩码mask_i对所述解密结果[grad_i+mask_i]作 mask_i匹配，过滤掉mask_i后得到明文梯度grad_i以更新本地模型。

这里需要说明的是，客户端无法直接利用密文[[grad_i]]_pk更新本地模型，需要对[[grad_i]]_pk进行解密后得到明文梯度grad_i后才能更新模型，但解密过程若放在客户端，会增加客户端的加解密时，当参与联邦学习的客户端数量庞大时，模型整体的训练效率由于众多数量的客户端在本地解密需要消耗较长时间而受到影响，因此本实施例将梯度解密统一放在服务端，但不可避免的增加了客户端和服务端间的信息交互，为了提高信息交互时的数据传输安全性，在步骤S3中，直接在密文[[beta_agg]]_pk下计算梯度[[grad_i]]_pk，并在 [[grad_i]]_pk中加入了随机掩码mask_i，通过对[[beta_agg]]_pk不解密+加入随机掩码的方式，给数据传输添加了双重隐私保护。

需要强调的是，本实施例提供的基于多方纵向隐私保护和逻辑回归的模型联合构建方法只在服务端生成一次公私钥，各客户端除在步骤S3中加入随机掩码外，不参与其他的加解密过程，相比较现有的基于Paillier同态加密的逻辑回归算法中各方分别持有一套公私钥进行数据加解密的方法，运算量大幅降低，提高了联合模型训练的效率，使得本发明针对多方同样有效，破除了现有的基于Paillier同态加密的逻辑回归算法通常只对两方有效的局限。下表a示出了在Paillier密钥长度均为512且模型训练参数相同时，本发明提供的模型联合构建方法与传统的各客户端各自拥有一套公私钥的基于Paillier同态加密的逻辑回归算法的模型训练速度对比数据：

表a

由上表a可知，使用本实施例提供的通过服务端加解密的模型联合构建方法的效率相比传统的客户端参与加解密的模型联合构建方法训练模型的效率提升了近一倍，验证了本发明对提升联合模型训练速度的有效性。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种基于多方纵向隐私保护和逻辑回归的模型联合构建方法，其特征在于，步骤包括：

S3，每个所述客户端计算[[beta_agg]]_pk下的梯度[[grad_i]]_pk，并加上随机掩码mask_i后将加密结果[[grad_i+mask_i]]_pk发送给所述服务端，并在本地存储所述随机掩码mask_i；

S5，每个所述客户端使用本地存储的所述随机掩码mask_i对所述解密结果[grad_i+mask_i]作mask_i匹配，过滤掉mask_i后得到明文梯度grad_i以更新本地模型。

2.根据权利要求1所述的基于多方纵向隐私保护和逻辑回归的模型联合构建方法，其特征在于，所述服务端基于Paillier同态加密算法生成所述公钥pk和所述私钥sk。

3.根据权利要求1所述的基于多方纵向隐私保护和逻辑回归的模型联合构建方法，其特征在于，作为联邦学习任务发起方的所述客户端发送给所述服务端作梯度聚合的所述部分模型梯度beta_i通过以下表达式(1)表达：

表达式(2)中，

表示θ_A的转置，θ_A为所述客户端A本地训练的所述逻辑回归模型的参数；

X_Ai表示所述客户端A进行本地模型训练的第i个样本。

4.根据权利要求1所述的基于多方纵向隐私保护和逻辑回归的模型联合构建方法，其特征在于，作为联邦学习任务接受方的所述客户端发送给所述服务端作梯度聚合的所述部分模型梯度beta_i通过以下表达式(3)表达：

表达式(4)中，

表示θ_M的转置，θ_M为所述客户端M本地训练的所述逻辑回归模型的参数；

X_Mi表示所述客户端A进行本地模型训练的第i个样本。