CN111859440B

CN111859440B - 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法

Info

Publication number: CN111859440B
Application number: CN202010847615.3A
Authority: CN
Inventors: 陈志立; 刘佳乐; 张顺; 仲红
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2022-12-23
Anticipated expiration: 2040-08-21
Also published as: CN111859440A

Abstract

本发明公开了一种基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法，该方法是应用于由n个数据提供方，一个加密服务提供商以及一个数据聚合方组成的分布式逻辑回归模型训练场景中，并包含以下步骤：步骤S1、初始化阶段；步骤S2、分布式模型训练阶段；步骤S3、最终模型发布阶段。本发明能解决当前多个数据提供方使用逻辑回归模型联合进行样本分类过程中的隐私泄露问题，从而能够在不泄露私有数据的情况下完成样本分类任务，并提高样本分类过程的安全性以及敏感数据的利用率。

Description

基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法

技术领域

本发明属于网络与信息安全领域，具体的说是一种基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法。

背景技术

近年来，机器学习技术在实践中越来越多的被应用于产生预测或分类模型，用以解决具体的预测、分类任务。随着大数据的发展，导致了海量的数据的产生。这些数据，给预测模型或分类模型的训练过程提供了更大规模的训练数据集，以获得更好的预测或分类效果。然而，这些数据往往由不同的站点所持有，出于法律法规的限制或自身的利益因素，这些站点希望在不泄露自身隐私数据的前提下，联合进行数据挖掘任务。比如，多家机构各自拥有本地的样本数据，这些机构想要在不公开各自私有数据的前提下，联合训练构建一个逻辑回归模型，然后使用该模型，对本地的待分类样本进行分类操作。

为了解决上述问题，文献[SecureML:A System for Scalable Privacy-Preserving Machine Learning,2017]，提出了一种基于秘密共享和加密电路的隐私保护机器学习方案，使得多个数据提供方能够在两个可信服务器的辅助下，使用安全两方计算技术联合完成线性回归、逻辑回归等数据挖掘任务。而文献[Logistic regression modeltraining based on the approximate homomorphic encryption,2018]，则提出一种基于近似同态加密技术的外包逻辑回归模型构建方案，该方案需要数据提供方将各自的数据以同态加密密文的形式提交给外包服务器，然后外包服务器对密文进行操作，构建出逻辑回归模型，最后将该模型用于具体的分类任务。然而这两种方案都需要数据提供方以不同的形式提交自己得私有数据，且在参与方规模比较大的情况下，会产生很大得计算和通信开销。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于混合协议的分布式隐私保护逻辑回归模型的分类方法，以期能解决当前样本分类过程中的隐私保护问题，提高用户分布式联合进行分类任务的安全性，同时利用密文打包技术有效的降低总体的计算和通信开销，从而能够在不泄露私有信息的前提下，获得更好的分类效果，并提高敏感数据的利用率。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法的特点是应用于由n个数据提供方{dp₁,dp₂,…,dp_i,…,dp_n}，一个加密服务提供商以及一个数据聚合方所组成的网络场景中；其中，dp_i表示第i个数据提供方；且第i个数据提供方dp_i持有训练数据集X_i，且

x_ikj表示第i个数据提供方dp_i持有的第k条训练样本中的第j个特征数据；则所有数据提供方持有的训练数据集记为{X₁,X₂,…,X_i,…,X_n,Y}；其中，Y表示标签数据，由数据聚合方持有，并有：

y_k表示第k条样本对应的标签值；i＝1,2,…,n；j＝1,2,…,t；k＝1,2,…,m；

所述分类方法包括以下步骤：

步骤S1、初始化阶段：

步骤S1.1、所述加密服务提供商初始化学习率为α、最大迭代次数为maxiter、当前迭代次数为iter、密文空间位数为P、明文数据位数为p；并初始化iter＝1；

步骤S1.2、所述加密服务提供商生成公私钥对，并将公钥以及所述学习率α、最大迭代次数maxiter、当前迭代次数iter、加密数据密文位数P和明文二进制数编码位数p分发给所述数据聚合方以及所有的数据提供方；

步骤S1.3、第i个数据提供方dp_i使用式(3)对训练数据集X_i中的每个特征数据进行缩放，得到缩放后的特征数据x_i′_kj：

式(3)中，q为全局统一的缩放因子；

步骤S1.4、所述第i个数据提供方dp_i随机选取一个p位二进制数，并使用所述加密服务提供商的公钥对所述p位二进制数进行加密，得到第i个数据提供方dp_i的第j个特征数据在第一次迭代中所对应的权重密文

其中，E(·)表示公钥加密算法；从而所述第i个数据提供方dp_i初始化持有的t个特征在第一次迭代中所对应的密文形式的权重向量

步骤S2、分布式模型训练阶段是对权重向量密文的多次迭代更新，其中第iter次迭代过程为：

步骤S2.1、所述第i个数据提供方dp_i利用式(4)本地计算第iter次迭代中第k条样本数据和权重向量的内积密文

从而得到第iter次迭代中所述第i个数据提供方dp_i的每一条样本数据和权重向量的内积密文

式(4)中，

表示密文同态加法操作；

为第iter次迭代中第i个数据提供方持有的第j个特征所对应的权重密文；

步骤S2.2、所述第i个数据提供方dp_i按

个密文为一组，从每一条样本对应的内积密文

依次选取密文，并按照式(5)进行密文打包，得到第iter迭代过程中所述第i个数据提供方dp_i的第a个打包密文

从而得到第iter次迭代过程中所述第i个数据提供方dp_i的所有密文的打包密文

并发送给数据聚合方；其中b表示打包后的密文个数；且

a＝1,2,…,b；

式(5)中，

表示第iter次迭代中选出的第a组密文中的第f个密文，

步骤S2.3、所述数据聚合方随机选取第iter次迭代过程中b个掩码数据

其中，

表示第iter次迭代过程中选出的第a个掩码数据，利用式(6)得到第iter次迭代过程中第a个聚合密文

从而得到第iter次迭代过程中的聚合密文集合

并发送给加密服务提供商；

步骤S2.4、所述加密服务提供商收到所述第iter次迭代过程中聚合密文集合C^(iter)后，使用私钥解密得到第iter次迭代过程中明文数据Z^(iter)，然后在第iter次迭代过程中随机选择一个掩码集合

并计算第iter次迭代过程中掩码的密文集合

最后构造一个用于计算预测值的加密电路并计算第iter次迭代过程中明文数据Z^(iter)和掩码集合u^(iter)对应的加密电路的输入GI(Z^(iter),u^(iter))，从而将第iter次迭代过程中加密电路、掩码的密文

以及明文数据Z^(iter)和掩码集合u^(iter)所对应的加密电路的输入GI(Z^(iter),u^(iter))发送给数据聚合方；其中，

表示第iter次迭代过程中用来对第k条样本的预测值进行干扰的掩码数据；

表示第iter次迭代过程中第k条样本的掩码数据的密文；

步骤S2.5、所述数据聚合方通过和所述加密服务提供商执行茫然传输来获得第iter次迭代过程中掩码数据μ^(iter)对应的加密电路的输入GI(μ^(iter))，然后使用输入GI(Z^(iter),u^(iter))和GI(μ^(iter))评估第iter次迭代过程中的加密电路，得到第iter迭代过程中每一条样本在掩码数据u^(iter)干扰下的预测值

其中，

表示第iter次迭代过程中第k条样本在第k个掩码数据

干扰下的预测值；

步骤S2.6、所述数据聚合方按照式(7)，计算第iter次迭代过程中第k条样本附加掩码下的预测误差值

从而得到第iter次迭代过程中每一条样本附加掩码下的预测误差值

然后所述数据聚合方使用加密服务提供商的公钥加密所述附加掩码的预测误值

得到第iter次迭代过程中附加掩码下的预测误差值密文

最后按照式(8)计算得到第iter次迭代过程中第k条样本的预测误差值密文

从而得到第iter次迭代过程中每一条样本的预测误差值密文

并发送给所有的数据提供方；

步骤S2.7、所述数据提供方在收到第iter次迭代过程中预测误差值密文

后，按照式(9)对所述第i个数据提供方dp_i持有的第iter次迭代中的权重向量密文

进行更新，从而得到更新后的第iter+1次迭代中的权重向量密文

步骤S2.8、将iter+1赋值给iter后，判断iter≥maxiter是否成立，若成立，则表示模型训练完毕，并得到第i个数据提供方dp_i的部分密文模型，否则，返回步骤S2.1；

步骤S3、模型训练结果发布阶段：

所述第i个数据提供方dp_i将本地持有的部分密文模型

发送给加密服务提供商；

所述加密服务提供商在收到所有数据提供方的部分密文模型后，使用自己的私钥进行解密，得到最终的分类模型，并将分类模型发送给所有的数据提供方用于实现分类。

与现有技术相比，本发明的有益效果在于：

1、本发明应用于多个参与方之间合作进行隐私保护逻辑回归分类的场景中，与现有的大部分技术不同，采取以密文形式在数据提供方之间共享分类模型的方法，所有的数据提供方，只需要利用自己的私有数据在本地对密文模型进行计算更新，而不用以任何形式提交自己的数据，从而更好的保护了用户的隐私，减少了敏感数据的泄露，提高了使用逻辑回归进行分类任务的安全性。

2、本发明结合了Paillier加法同态加密和加密电路技术，参与方可以利用Paillier加密的同态加法性质，在本地进行部分预计算，然后使用加密电路技术计算模型迭代的变化量，从而降低了每一轮计算的深度，减少了整体的计算开销。

3、本发明利用密文打包技术，在给数据提供方发送密文数据之前，将多条样本对应的多个密文打包到一个密文中，充分的利用了Paillier同态加密系统的密文空间，从而较少了逻辑回归分类模型训练过程中的通信开销，提高了方法的整体效率。

附图说明

图1为本发明的应用场景示意图；

图2为本发明的整体流程图。

具体实施方式

本实施例中，如图1所示，一种基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法，是应用于由n个数据提供方{dp₁,dp₂,…,dp_i,…,dp_n}，一个加密服务提供商以及一个数据聚合方所组成的网络场景中；其中，dp_i表示第i个数据提供方；且第i个数据提供方dp_i持有训练数据集X_i，且

假设考虑有两个数据提供方dp₁和dp₂，使用各自的私有数据联合进行关于客户是否购车的分类任务，其中dp₁持有每条用户样本的“性别”和“年龄”两个特征，dp₂持有每条用户样本的月工资特征，以及样本标签“是否购车”；其中“年龄”取值为0或1，1表示男性，0表示女性；“是否购车”的取值为0或1，1表示“是”，0表示“否”；“年龄”和“月工资”均为大于0的实数。dp₁和dp₂持有的训练数据如表1、表2所示；

表1数据提供方dp₁持有的训练数据

表2数据提供方dp₂持有的训练数据

在该分类任务中，样本的标签数据由dp₂持有，所以由dp₂承当数据聚合方。在本实施例中使用的加密系统为Paillier加法同态加密系统，根据图2，该样本分类方法包括以下步骤：

步骤S1、初始化阶段：

步骤S1.1、加密服务提供商初始化学习率为α、最大迭代次数为maxiter、当前迭代次数为iter、Paillier加密系统的密文空间位数为P、明文数据位数为p；并初始化iter＝1；

步骤S1.2、加密服务提供商生成Paillier加密系统的公私钥对，具体，并将公钥以及学习率α、最大迭代次数maxiter、当前迭代次数iter、加密数据密文位数P和明文二进制数编码位数p分发给数据聚合方以及所有的数据提供方；

步骤S1.3、第i个数据提供方dp_i使用式(3)对训练数据集X_i中的每个特征数据进行缩放，得到缩放后的特征数据x′_ikj：

式(3)中，q为全局统一的缩放因子；

以第一条样本为例，数据提供方dp₁第一条样本的“性别”数据处理为

“年龄”数据处理为

数据提供方dp₂将第一条样本的“月工资”数据处理为

标签数据“是否购车”处理为

步骤S1.4、第i个数据提供方dp_i随机选取一个p位二进制数，并使用加密服务提供商的公钥对p位二进制数进行加密，得到第i个数据提供方dp_i的第j个特征数据在第一次迭代中所对应的权重密文

其中，E(·)表示公钥加密算法；从而第i个数据提供方dp_i初始化持有的t个特征在第一次迭代中所对应的密文形式的权重向量

步骤S2.1、第i个数据提供方dp_i利用式(4)本地计算第iter次迭代过程中第k条样本数据和权重向量的内积密文

从而得到第iter次迭代过程中第i个数据提供方dp_i的每一条样本数据和权重向量的内积密文

式(4)中，

表示密文同态加法操作；

步骤S2.2、第i个数据提供方dp_i按

个密文为一组，从每一条样本对应的内积密文

依次选取密文，并按照式(5)进行密文打包，得到第iter迭代第i个数据提供方dp_i的第a个打包密文

从而得到第iter次迭代过程中第i个数据提供方dp_i的所有密文的打包密文

并发送给数据聚合方；其中b表示打包后的密文个数；且

a＝1,2,…,b；

式(5)中，

表示第iter次迭代中选出的第a组密文中的第f个密文，

假设P＝1024，p＝32，则一条密文对应的明文空间可以存放

个明文数据；所以dp₁和dp₂可以从各自内积密文集合中每次选取32个密文，打包成一条打包密文。

步骤S2.3、数据聚合方随机选取第iter次迭代过程中b个掩码数据

其中，

从而得到第iter次迭代过程中的聚合密文集合

并发送给加密服务提供商；

步骤S2.4、加密服务提供商收到第iter次迭代过程中聚合密文集合C^(iter)后，使用私钥解密得到第iter次迭代过程中明文数据Z^(iter)，然后在第iter次迭代过程中随机选择一个掩码集合

并计算第iter次迭代过程中掩码的密文

最后根据文献[SecureML:A System forScalable Privacy-Preserving Machine Learning,2017]中提出的激活函数的分段线性拟合Rule函数构造一个用于计算预测值的加密电路，该加密电路主要由加法电路，减法电路以及乘法电路等基本电路构成，电路的设计参考文献[On Privacy-preservingCloudAuction,2016]；然后计算第iter次迭代过程中明文数据Z^(iter)和掩码集合u^(iter)对应的加密电路的输入GI(Z^(iter),u^(iter))，从而将第iter次迭代过程中加密电路、掩码的密文

表示第iter次迭代过程中第k条样本的掩码数据的密文；

步骤S2.5、数据聚合方通过和加密服务提供商执行茫然传输来获得第iter次迭代过程中掩码数据μ^(iter)对应的加密电路的输入GI(μ^(iter))，然后使用输入GI(Z^(iter),u^(iter))和GI(μ^(iter))评估第iter次迭代过程中的加密电路，得到第iter迭代过程中每一条样本在掩码数据u^(iter)干扰下的预测值

其中，

表示第iter次迭代过程中第k条样本在第k个掩码数据

干扰下的预测值；

步骤S2.6、数据聚合方按照式(7)，计算第iter次迭代过程中第k条样本附加掩码下的预测误差值

然后数据聚合方使用加密服务提供商的公钥加密附加掩码的预测误值

得到第iter次迭代过程中附加掩码下的预测误差值密文

从而得到第iter次迭代过程中每一条样本的预测误差值密文

并发送给所有的数据提供方；

步骤S2.7、数据提供方在收到第iter次迭代过程中预测误差值密文

后，按照式(9)对第i个数据提供方dp_i持有的第iter次迭代中的权重向量密文

步骤S3、模型训练结果发布阶段：

第i个数据提供方dp_i将本地持有的部分密文模型

发送给加密服务提供商；

加密服务提供商在收到所有数据提供方的部分密文模型后，使用自己的私钥进行解密，得到最终的分类模型，并将分类模型发送给所有的数据提供方用于实现分类。