CN111859440B - 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法 - Google Patents

基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法 Download PDF

Info

Publication number
CN111859440B
CN111859440B CN202010847615.3A CN202010847615A CN111859440B CN 111859440 B CN111859440 B CN 111859440B CN 202010847615 A CN202010847615 A CN 202010847615A CN 111859440 B CN111859440 B CN 111859440B
Authority
CN
China
Prior art keywords
iter
data
ciphertext
iteration
provider
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010847615.3A
Other languages
English (en)
Other versions
CN111859440A (zh
Inventor
陈志立
刘佳乐
张顺
仲红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202010847615.3A priority Critical patent/CN111859440B/zh
Publication of CN111859440A publication Critical patent/CN111859440A/zh
Application granted granted Critical
Publication of CN111859440B publication Critical patent/CN111859440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0442Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply asymmetric encryption, i.e. different keys for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/008Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0816Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
    • H04L9/0819Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s)
    • H04L9/0825Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s) using asymmetric-key encryption or public key infrastructure [PKI], e.g. key signature or public key certificates

Abstract

本发明公开了一种基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法,该方法是应用于由n个数据提供方,一个加密服务提供商以及一个数据聚合方组成的分布式逻辑回归模型训练场景中,并包含以下步骤:步骤S1、初始化阶段;步骤S2、分布式模型训练阶段;步骤S3、最终模型发布阶段。本发明能解决当前多个数据提供方使用逻辑回归模型联合进行样本分类过程中的隐私泄露问题,从而能够在不泄露私有数据的情况下完成样本分类任务,并提高样本分类过程的安全性以及敏感数据的利用率。

Description

基于混合协议的分布式隐私保护逻辑回归模型的样本分类 方法
技术领域
本发明属于网络与信息安全领域,具体的说是一种基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法。
背景技术
近年来,机器学习技术在实践中越来越多的被应用于产生预测或分类模型,用以解决具体的预测、分类任务。随着大数据的发展,导致了海量的数据的产生。这些数据,给预测模型或分类模型的训练过程提供了更大规模的训练数据集,以获得更好的预测或分类效果。然而,这些数据往往由不同的站点所持有,出于法律法规的限制或自身的利益因素,这些站点希望在不泄露自身隐私数据的前提下,联合进行数据挖掘任务。比如,多家机构各自拥有本地的样本数据,这些机构想要在不公开各自私有数据的前提下,联合训练构建一个逻辑回归模型,然后使用该模型,对本地的待分类样本进行分类操作。
为了解决上述问题,文献[SecureML:A System for Scalable Privacy-Preserving Machine Learning,2017],提出了一种基于秘密共享和加密电路的隐私保护机器学习方案,使得多个数据提供方能够在两个可信服务器的辅助下,使用安全两方计算技术联合完成线性回归、逻辑回归等数据挖掘任务。而文献[Logistic regression modeltraining based on the approximate homomorphic encryption,2018],则提出一种基于近似同态加密技术的外包逻辑回归模型构建方案,该方案需要数据提供方将各自的数据以同态加密密文的形式提交给外包服务器,然后外包服务器对密文进行操作,构建出逻辑回归模型,最后将该模型用于具体的分类任务。然而这两种方案都需要数据提供方以不同的形式提交自己得私有数据,且在参与方规模比较大的情况下,会产生很大得计算和通信开销。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于混合协议的分布式隐私保护逻辑回归模型的分类方法,以期能解决当前样本分类过程中的隐私保护问题,提高用户分布式联合进行分类任务的安全性,同时利用密文打包技术有效的降低总体的计算和通信开销,从而能够在不泄露私有信息的前提下,获得更好的分类效果,并提高敏感数据的利用率。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法的特点是应用于由n个数据提供方{dp1,dp2,…,dpi,…,dpn},一个加密服务提供商以及一个数据聚合方所组成的网络场景中;其中,dpi表示第i个数据提供方;且第i个数据提供方dpi持有训练数据集Xi,且
Figure BDA0002643605610000021
xikj表示第i个数据提供方dpi持有的第k条训练样本中的第j个特征数据;则所有数据提供方持有的训练数据集记为{X1,X2,…,Xi,…,Xn,Y};其中,Y表示标签数据,由数据聚合方持有,并有:
Figure BDA0002643605610000022
yk表示第k条样本对应的标签值;i=1,2,…,n;j=1,2,…,t;k=1,2,…,m;
所述分类方法包括以下步骤:
步骤S1、初始化阶段:
步骤S1.1、所述加密服务提供商初始化学习率为α、最大迭代次数为maxiter、当前迭代次数为iter、密文空间位数为P、明文数据位数为p;并初始化iter=1;
步骤S1.2、所述加密服务提供商生成公私钥对,并将公钥以及所述学习率α、最大迭代次数maxiter、当前迭代次数iter、加密数据密文位数P和明文二进制数编码位数p分发给所述数据聚合方以及所有的数据提供方;
步骤S1.3、第i个数据提供方dpi使用式(3)对训练数据集Xi中的每个特征数据进行缩放,得到缩放后的特征数据xikj
Figure BDA0002643605610000023
式(3)中,q为全局统一的缩放因子;
步骤S1.4、所述第i个数据提供方dpi随机选取一个p位二进制数,并使用所述加密服务提供商的公钥对所述p位二进制数进行加密,得到第i个数据提供方dpi的第j个特征数据在第一次迭代中所对应的权重密文
Figure BDA0002643605610000031
其中,E(·)表示公钥加密算法;从而所述第i个数据提供方dpi初始化持有的t个特征在第一次迭代中所对应的密文形式的权重向量
Figure BDA0002643605610000032
步骤S2、分布式模型训练阶段是对权重向量密文的多次迭代更新,其中第iter次迭代过程为:
步骤S2.1、所述第i个数据提供方dpi利用式(4)本地计算第iter次迭代中第k条样本数据和权重向量的内积密文
Figure BDA0002643605610000033
从而得到第iter次迭代中所述第i个数据提供方dpi的每一条样本数据和权重向量的内积密文
Figure BDA0002643605610000034
Figure BDA0002643605610000035
式(4)中,
Figure BDA0002643605610000036
表示密文同态加法操作;
Figure BDA0002643605610000037
为第iter次迭代中第i个数据提供方持有的第j个特征所对应的权重密文;
步骤S2.2、所述第i个数据提供方dpi
Figure BDA0002643605610000038
个密文为一组,从每一条样本对应的内积密文
Figure BDA0002643605610000039
依次选取密文,并按照式(5)进行密文打包,得到第iter迭代过程中所述第i个数据提供方dpi的第a个打包密文
Figure BDA00026436056100000310
从而得到第iter次迭代过程中所述第i个数据提供方dpi的所有密文的打包密文
Figure BDA00026436056100000311
并发送给数据聚合方;其中b表示打包后的密文个数;且
Figure BDA00026436056100000312
a=1,2,…,b;
Figure BDA00026436056100000313
式(5)中,
Figure BDA00026436056100000314
表示第iter次迭代中选出的第a组密文中的第f个密文,
Figure BDA00026436056100000315
步骤S2.3、所述数据聚合方随机选取第iter次迭代过程中b个掩码数据
Figure BDA00026436056100000316
其中,
Figure BDA00026436056100000317
表示第iter次迭代过程中选出的第a个掩码数据,利用式(6)得到第iter次迭代过程中第a个聚合密文
Figure BDA0002643605610000041
从而得到第iter次迭代过程中的聚合密文集合
Figure BDA0002643605610000042
并发送给加密服务提供商;
Figure BDA0002643605610000043
步骤S2.4、所述加密服务提供商收到所述第iter次迭代过程中聚合密文集合C(iter)后,使用私钥解密得到第iter次迭代过程中明文数据Z(iter),然后在第iter次迭代过程中随机选择一个掩码集合
Figure BDA0002643605610000044
并计算第iter次迭代过程中掩码的密文集合
Figure BDA0002643605610000045
最后构造一个用于计算预测值的加密电路并计算第iter次迭代过程中明文数据Z(iter)和掩码集合u(iter)对应的加密电路的输入GI(Z(iter),u(iter)),从而将第iter次迭代过程中加密电路、掩码的密文
Figure BDA0002643605610000046
以及明文数据Z(iter)和掩码集合u(iter)所对应的加密电路的输入GI(Z(iter),u(iter))发送给数据聚合方;其中,
Figure BDA0002643605610000047
表示第iter次迭代过程中用来对第k条样本的预测值进行干扰的掩码数据;
Figure BDA0002643605610000048
表示第iter次迭代过程中第k条样本的掩码数据的密文;
步骤S2.5、所述数据聚合方通过和所述加密服务提供商执行茫然传输来获得第iter次迭代过程中掩码数据μ(iter)对应的加密电路的输入GI(μ(iter)),然后使用输入GI(Z(iter),u(iter))和GI(μ(iter))评估第iter次迭代过程中的加密电路,得到第iter迭代过程中每一条样本在掩码数据u(iter)干扰下的预测值
Figure BDA0002643605610000049
其中,
Figure BDA00026436056100000410
表示第iter次迭代过程中第k条样本在第k个掩码数据
Figure BDA00026436056100000411
干扰下的预测值;
步骤S2.6、所述数据聚合方按照式(7),计算第iter次迭代过程中第k条样本附加掩码下的预测误差值
Figure BDA00026436056100000412
从而得到第iter次迭代过程中每一条样本附加掩码下的预测误差值
Figure BDA00026436056100000413
然后所述数据聚合方使用加密服务提供商的公钥加密所述附加掩码的预测误值
Figure BDA00026436056100000414
得到第iter次迭代过程中附加掩码下的预测误差值密文
Figure BDA00026436056100000415
最后按照式(8)计算得到第iter次迭代过程中第k条样本的预测误差值密文
Figure BDA0002643605610000051
从而得到第iter次迭代过程中每一条样本的预测误差值密文
Figure BDA0002643605610000052
并发送给所有的数据提供方;
Figure BDA0002643605610000053
Figure BDA0002643605610000054
步骤S2.7、所述数据提供方在收到第iter次迭代过程中预测误差值密文
Figure BDA0002643605610000055
后,按照式(9)对所述第i个数据提供方dpi持有的第iter次迭代中的权重向量密文
Figure BDA0002643605610000056
进行更新,从而得到更新后的第iter+1次迭代中的权重向量密文
Figure BDA0002643605610000057
Figure BDA0002643605610000058
步骤S2.8、将iter+1赋值给iter后,判断iter≥maxiter是否成立,若成立,则表示模型训练完毕,并得到第i个数据提供方dpi的部分密文模型,否则,返回步骤S2.1;
步骤S3、模型训练结果发布阶段:
所述第i个数据提供方dpi将本地持有的部分密文模型
Figure BDA0002643605610000059
发送给加密服务提供商;
所述加密服务提供商在收到所有数据提供方的部分密文模型后,使用自己的私钥进行解密,得到最终的分类模型,并将分类模型发送给所有的数据提供方用于实现分类。
与现有技术相比,本发明的有益效果在于:
1、本发明应用于多个参与方之间合作进行隐私保护逻辑回归分类的场景中,与现有的大部分技术不同,采取以密文形式在数据提供方之间共享分类模型的方法,所有的数据提供方,只需要利用自己的私有数据在本地对密文模型进行计算更新,而不用以任何形式提交自己的数据,从而更好的保护了用户的隐私,减少了敏感数据的泄露,提高了使用逻辑回归进行分类任务的安全性。
2、本发明结合了Paillier加法同态加密和加密电路技术,参与方可以利用Paillier加密的同态加法性质,在本地进行部分预计算,然后使用加密电路技术计算模型迭代的变化量,从而降低了每一轮计算的深度,减少了整体的计算开销。
3、本发明利用密文打包技术,在给数据提供方发送密文数据之前,将多条样本对应的多个密文打包到一个密文中,充分的利用了Paillier同态加密系统的密文空间,从而较少了逻辑回归分类模型训练过程中的通信开销,提高了方法的整体效率。
附图说明
图1为本发明的应用场景示意图;
图2为本发明的整体流程图。
具体实施方式
本实施例中,如图1所示,一种基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法,是应用于由n个数据提供方{dp1,dp2,…,dpi,…,dpn},一个加密服务提供商以及一个数据聚合方所组成的网络场景中;其中,dpi表示第i个数据提供方;且第i个数据提供方dpi持有训练数据集Xi,且
Figure BDA0002643605610000061
xikj表示第i个数据提供方dpi持有的第k条训练样本中的第j个特征数据;则所有数据提供方持有的训练数据集记为{X1,X2,…,Xi,…,Xn,Y};其中,Y表示标签数据,由数据聚合方持有,并有:
Figure BDA0002643605610000062
yk表示第k条样本对应的标签值;i=1,2,…,n;j=1,2,…,t;k=1,2,…,m;
假设考虑有两个数据提供方dp1和dp2,使用各自的私有数据联合进行关于客户是否购车的分类任务,其中dp1持有每条用户样本的“性别”和“年龄”两个特征,dp2持有每条用户样本的月工资特征,以及样本标签“是否购车”;其中“年龄”取值为0或1,1表示男性,0表示女性;“是否购车”的取值为0或1,1表示“是”,0表示“否”;“年龄”和“月工资”均为大于0的实数。dp1和dp2持有的训练数据如表1、表2所示;
表1数据提供方dp1持有的训练数据
Figure BDA0002643605610000071
表2数据提供方dp2持有的训练数据
Figure BDA0002643605610000072
在该分类任务中,样本的标签数据由dp2持有,所以由dp2承当数据聚合方。在本实施例中使用的加密系统为Paillier加法同态加密系统,根据图2,该样本分类方法包括以下步骤:
步骤S1、初始化阶段:
步骤S1.1、加密服务提供商初始化学习率为α、最大迭代次数为maxiter、当前迭代次数为iter、Paillier加密系统的密文空间位数为P、明文数据位数为p;并初始化iter=1;
步骤S1.2、加密服务提供商生成Paillier加密系统的公私钥对,具体,并将公钥以及学习率α、最大迭代次数maxiter、当前迭代次数iter、加密数据密文位数P和明文二进制数编码位数p分发给数据聚合方以及所有的数据提供方;
步骤S1.3、第i个数据提供方dpi使用式(3)对训练数据集Xi中的每个特征数据进行缩放,得到缩放后的特征数据x′ikj
Figure BDA0002643605610000081
式(3)中,q为全局统一的缩放因子;
以第一条样本为例,数据提供方dp1第一条样本的“性别”数据处理为
Figure BDA0002643605610000082
“年龄”数据处理为
Figure BDA0002643605610000083
数据提供方dp2将第一条样本的“月工资”数据处理为
Figure BDA0002643605610000084
标签数据“是否购车”处理为
Figure BDA0002643605610000085
步骤S1.4、第i个数据提供方dpi随机选取一个p位二进制数,并使用加密服务提供商的公钥对p位二进制数进行加密,得到第i个数据提供方dpi的第j个特征数据在第一次迭代中所对应的权重密文
Figure BDA0002643605610000086
其中,E(·)表示公钥加密算法;从而第i个数据提供方dpi初始化持有的t个特征在第一次迭代中所对应的密文形式的权重向量
Figure BDA0002643605610000087
步骤S2、分布式模型训练阶段是对权重向量密文的多次迭代更新,其中第iter次迭代过程为:
步骤S2.1、第i个数据提供方dpi利用式(4)本地计算第iter次迭代过程中第k条样本数据和权重向量的内积密文
Figure BDA0002643605610000088
从而得到第iter次迭代过程中第i个数据提供方dpi的每一条样本数据和权重向量的内积密文
Figure BDA0002643605610000089
Figure BDA00026436056100000810
式(4)中,
Figure BDA00026436056100000811
表示密文同态加法操作;
Figure BDA00026436056100000812
为第iter次迭代中第i个数据提供方持有的第j个特征所对应的权重密文;
步骤S2.2、第i个数据提供方dpi
Figure BDA00026436056100000813
个密文为一组,从每一条样本对应的内积密文
Figure BDA00026436056100000814
依次选取密文,并按照式(5)进行密文打包,得到第iter迭代第i个数据提供方dpi的第a个打包密文
Figure BDA00026436056100000815
从而得到第iter次迭代过程中第i个数据提供方dpi的所有密文的打包密文
Figure BDA00026436056100000816
并发送给数据聚合方;其中b表示打包后的密文个数;且
Figure BDA00026436056100000817
a=1,2,…,b;
Figure BDA0002643605610000091
式(5)中,
Figure BDA0002643605610000092
表示第iter次迭代中选出的第a组密文中的第f个密文,
Figure BDA0002643605610000093
假设P=1024,p=32,则一条密文对应的明文空间可以存放
Figure BDA0002643605610000094
个明文数据;所以dp1和dp2可以从各自内积密文集合中每次选取32个密文,打包成一条打包密文。
步骤S2.3、数据聚合方随机选取第iter次迭代过程中b个掩码数据
Figure BDA0002643605610000095
其中,
Figure BDA0002643605610000096
表示第iter次迭代过程中选出的第a个掩码数据,利用式(6)得到第iter次迭代过程中第a个聚合密文
Figure BDA0002643605610000097
从而得到第iter次迭代过程中的聚合密文集合
Figure BDA0002643605610000098
并发送给加密服务提供商;
Figure BDA0002643605610000099
步骤S2.4、加密服务提供商收到第iter次迭代过程中聚合密文集合C(iter)后,使用私钥解密得到第iter次迭代过程中明文数据Z(iter),然后在第iter次迭代过程中随机选择一个掩码集合
Figure BDA00026436056100000910
并计算第iter次迭代过程中掩码的密文
Figure BDA00026436056100000911
最后根据文献[SecureML:A System forScalable Privacy-Preserving Machine Learning,2017]中提出的激活函数的分段线性拟合Rule函数构造一个用于计算预测值的加密电路,该加密电路主要由加法电路,减法电路以及乘法电路等基本电路构成,电路的设计参考文献[On Privacy-preservingCloudAuction,2016];然后计算第iter次迭代过程中明文数据Z(iter)和掩码集合u(iter)对应的加密电路的输入GI(Z(iter),u(iter)),从而将第iter次迭代过程中加密电路、掩码的密文
Figure BDA00026436056100000912
以及明文数据Z(iter)和掩码集合u(iter)所对应的加密电路的输入GI(Z(iter),u(iter))发送给数据聚合方;其中,
Figure BDA00026436056100000913
表示第iter次迭代过程中用来对第k条样本的预测值进行干扰的掩码数据;
Figure BDA00026436056100000914
表示第iter次迭代过程中第k条样本的掩码数据的密文;
步骤S2.5、数据聚合方通过和加密服务提供商执行茫然传输来获得第iter次迭代过程中掩码数据μ(iter)对应的加密电路的输入GI(μ(iter)),然后使用输入GI(Z(iter),u(iter))和GI(μ(iter))评估第iter次迭代过程中的加密电路,得到第iter迭代过程中每一条样本在掩码数据u(iter)干扰下的预测值
Figure BDA0002643605610000101
其中,
Figure BDA0002643605610000102
表示第iter次迭代过程中第k条样本在第k个掩码数据
Figure BDA0002643605610000103
干扰下的预测值;
步骤S2.6、数据聚合方按照式(7),计算第iter次迭代过程中第k条样本附加掩码下的预测误差值
Figure BDA0002643605610000104
从而得到第iter次迭代过程中每一条样本附加掩码下的预测误差值
Figure BDA0002643605610000105
然后数据聚合方使用加密服务提供商的公钥加密附加掩码的预测误值
Figure BDA0002643605610000106
得到第iter次迭代过程中附加掩码下的预测误差值密文
Figure BDA0002643605610000107
最后按照式(8)计算得到第iter次迭代过程中第k条样本的预测误差值密文
Figure BDA0002643605610000108
从而得到第iter次迭代过程中每一条样本的预测误差值密文
Figure BDA0002643605610000109
并发送给所有的数据提供方;
Figure BDA00026436056100001010
Figure BDA00026436056100001011
步骤S2.7、数据提供方在收到第iter次迭代过程中预测误差值密文
Figure BDA00026436056100001012
后,按照式(9)对第i个数据提供方dpi持有的第iter次迭代中的权重向量密文
Figure BDA00026436056100001013
进行更新,从而得到更新后的第iter+1次迭代中的权重向量密文
Figure BDA00026436056100001014
Figure BDA00026436056100001015
步骤S2.8、将iter+1赋值给iter后,判断iter≥maxiter是否成立,若成立,则表示模型训练完毕,并得到第i个数据提供方dpi的部分密文模型,否则,返回步骤S2.1;
步骤S3、模型训练结果发布阶段:
第i个数据提供方dpi将本地持有的部分密文模型
Figure BDA00026436056100001016
发送给加密服务提供商;
加密服务提供商在收到所有数据提供方的部分密文模型后,使用自己的私钥进行解密,得到最终的分类模型,并将分类模型发送给所有的数据提供方用于实现分类。

Claims (1)

1.一种基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法,其特征是应用于由n个数据提供方{dp1,dp2,…,dpi,…,dpn},一个加密服务提供商以及一个数据聚合方所组成的网络场景中;其中,dpi表示第i个数据提供方;且第i个数据提供方dpi持有训练数据集
Figure FDA0002643605600000011
xikj表示第i个数据提供方dpi持有的第k条训练样本中的第j个特征数据;则所有数据提供方持有的训练数据集记为{X1,X2,…,Xi,…,Xn,Y};其中,Y表示标签数据,由数据聚合方持有,并有:
Figure FDA0002643605600000012
yk表示第k条样本对应的标签值;i=1,2,…,n;j=1,2,…,t;k=1,2,…,m;
所述分类方法包括以下步骤:
步骤S1、初始化阶段:
步骤S1.1、所述加密服务提供商初始化学习率为α、最大迭代次数为maxiter、当前迭代次数为iter、密文空间位数为P、明文数据位数为p;并初始化iter=1;
步骤S1.2、所述加密服务提供商生成公私钥对,并将公钥以及所述学习率α、最大迭代次数maxiter、当前迭代次数iter、加密数据密文位数P和明文二进制数编码位数p分发给所述数据聚合方以及所有的数据提供方;
步骤S1.3、第i个数据提供方dpi使用式(3)对训练数据集Xi中的每个特征数据进行缩放,得到缩放后的特征数据x′ikj
Figure FDA0002643605600000013
式(3)中,q为全局统一的缩放因子;
步骤S1.4、所述第i个数据提供方dpi随机选取一个p位二进制数,并使用所述加密服务提供商的公钥对所述p位二进制数进行加密,得到第i个数据提供方dpi的第j个特征数据在第一次迭代中所对应的权重密文
Figure FDA0002643605600000021
其中,E(·)表示公钥加密算法;从而所述第i个数据提供方dpi初始化持有的t个特征在第一次迭代中所对应的密文形式的权重向量
Figure FDA0002643605600000022
步骤S2、分布式模型训练阶段是对权重向量密文的多次迭代更新,其中第iter次迭代过程为:
步骤S2.1、所述第i个数据提供方dpi利用式(4)本地计算第iter次迭代中第k条样本数据和权重向量的内积密文
Figure FDA0002643605600000023
从而得到第iter次迭代中所述第i个数据提供方dpi的每一条样本数据和权重向量的内积密文
Figure FDA0002643605600000024
Figure FDA0002643605600000025
式(4)中,
Figure FDA0002643605600000026
表示密文同态加法操作;
Figure FDA0002643605600000027
为第iter次迭代中第i个数据提供方持有的第j个特征所对应的权重密文;
步骤S2.2、所述第i个数据提供方dpi
Figure FDA0002643605600000028
个密文为一组,从每一条样本对应的内积密文
Figure FDA0002643605600000029
依次选取密文,并按照式(5)进行密文打包,得到第iter迭代过程中所述第i个数据提供方dpi的第a个打包密文
Figure FDA00026436056000000210
从而得到第iter次迭代过程中所述第i个数据提供方dpi的所有密文的打包密文
Figure FDA00026436056000000211
并发送给数据聚合方;其中b表示打包后的密文个数;且
Figure FDA00026436056000000212
a=1,2,…,b;
Figure FDA00026436056000000213
式(5)中,
Figure FDA00026436056000000214
表示第iter次迭代中选出的第a组密文中的第f个密文,
Figure FDA00026436056000000215
步骤S2.3、所述数据聚合方随机选取第iter次迭代过程中b个掩码数据
Figure FDA00026436056000000216
其中,
Figure FDA00026436056000000217
表示第iter次迭代过程中选出的第a个掩码数据,利用式(6)得到第iter次迭代过程中第a个聚合密文
Figure FDA0002643605600000031
从而得到第iter次迭代过程中的聚合密文集合
Figure FDA0002643605600000032
并发送给加密服务提供商;
Figure FDA0002643605600000033
步骤S2.4、所述加密服务提供商收到所述第iter次迭代过程中聚合密文集合C(iter)后,使用私钥解密得到第iter次迭代过程中明文数据Z(iter),然后在第iter次迭代过程中随机选择一个掩码集合
Figure FDA0002643605600000034
并计算第iter次迭代过程中掩码的密文集合
Figure FDA0002643605600000035
最后构造一个用于计算预测值的加密电路并计算第iter次迭代过程中明文数据Z(iter)和掩码集合u(iter)对应的加密电路的输入GI(Z(iter),u(iter)),从而将第iter次迭代过程中加密电路、掩码的密文
Figure FDA0002643605600000036
以及明文数据Z(iter)和掩码集合u(iter)所对应的加密电路的输入GI(Z(iter),u(iter))发送给数据聚合方;其中,
Figure FDA0002643605600000037
表示第iter次迭代过程中用来对第k条样本的预测值进行干扰的掩码数据;
Figure FDA0002643605600000038
表示第iter次迭代过程中第k条样本的掩码数据的密文;
步骤S2.5、所述数据聚合方通过和所述加密服务提供商执行茫然传输来获得第iter次迭代过程中掩码数据μ(iter)对应的加密电路的输入GI(μ(iter)),然后使用输入GI(Z(iter),u(iter))和GI(μ(iter))评估第iter次迭代过程中的加密电路,得到第iter迭代过程中每一条样本在掩码数据u(iter)干扰下的预测值
Figure FDA0002643605600000039
其中,
Figure FDA00026436056000000310
表示第iter次迭代过程中第k条样本在第k个掩码数据
Figure FDA00026436056000000311
干扰下的预测值;
步骤S2.6、所述数据聚合方按照式(7),计算第iter次迭代过程中第k条样本附加掩码下的预测误差值
Figure FDA00026436056000000312
从而得到第iter次迭代过程中每一条样本附加掩码下的预测误差值
Figure FDA00026436056000000313
然后所述数据聚合方使用加密服务提供商的公钥加密所述附加掩码的预测误值
Figure FDA00026436056000000314
得到第iter次迭代过程中附加掩码下的预测误差值密文
Figure FDA00026436056000000315
最后按照式(8)计算得到第iter次迭代过程中第k条样本的预测误差值密文
Figure FDA00026436056000000316
从而得到第iter次迭代过程中每一条样本的预测误差值密文
Figure FDA0002643605600000041
并发送给所有的数据提供方;
Figure FDA0002643605600000042
Figure FDA0002643605600000043
步骤S2.7、所述数据提供方在收到第iter次迭代过程中预测误差值密文
Figure FDA0002643605600000044
后,按照式(9)对所述第i个数据提供方dpi持有的第iter次迭代中的权重向量密文
Figure FDA0002643605600000045
进行更新,从而得到更新后的第iter+1次迭代中的权重向量密文
Figure FDA0002643605600000046
Figure FDA0002643605600000047
步骤S2.8、将iter+1赋值给iter后,判断iter≥maxiter是否成立,若成立,则表示模型训练完毕,并得到第i个数据提供方dpi的部分密文模型,否则,返回步骤S2.1;
步骤S3、模型训练结果发布阶段:
所述第i个数据提供方dpi将本地持有的部分密文模型E(Wi (max iter))发送给加密服务提供商;
所述加密服务提供商在收到所有数据提供方的部分密文模型后,使用自己的私钥进行解密,得到最终的分类模型,并将分类模型发送给所有的数据提供方用于实现分类。
CN202010847615.3A 2020-08-21 2020-08-21 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法 Active CN111859440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010847615.3A CN111859440B (zh) 2020-08-21 2020-08-21 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010847615.3A CN111859440B (zh) 2020-08-21 2020-08-21 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法

Publications (2)

Publication Number Publication Date
CN111859440A CN111859440A (zh) 2020-10-30
CN111859440B true CN111859440B (zh) 2022-12-23

Family

ID=72968876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010847615.3A Active CN111859440B (zh) 2020-08-21 2020-08-21 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法

Country Status (1)

Country Link
CN (1) CN111859440B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434898B (zh) * 2021-05-22 2022-10-18 西安电子科技大学 一种非交互式的隐私保护逻辑回归联邦训练方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110190946A (zh) * 2019-07-12 2019-08-30 之江实验室 一种基于同态加密的隐私保护多机构数据分类方法
CN110537191A (zh) * 2017-03-22 2019-12-03 维萨国际服务协会 隐私保护机器学习
CN110719158A (zh) * 2019-09-11 2020-01-21 南京航空航天大学 基于联合学习的边缘计算隐私保护系统及保护方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110537191A (zh) * 2017-03-22 2019-12-03 维萨国际服务协会 隐私保护机器学习
CN110190946A (zh) * 2019-07-12 2019-08-30 之江实验室 一种基于同态加密的隐私保护多机构数据分类方法
CN110719158A (zh) * 2019-09-11 2020-01-21 南京航空航天大学 基于联合学习的边缘计算隐私保护系统及保护方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Oblivious Neural Network Computing via Homomorphic Encryption;C Orlandi等;《EURASIP Journal on Information Security》;20070724;1-11 *
隐私保护机器学习的密码学方法;蒋瀚等;《电子与信息学报》;20200531(第05期);1068-1078 *

Also Published As

Publication number Publication date
CN111859440A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111259443B (zh) 一种基于psi技术保护联邦学习预测阶段隐私的方法
Li et al. Privacy-preserving machine learning with multiple data providers
WO2021197037A1 (zh) 双方联合进行数据处理的方法及装置
CN112989368B (zh) 多方联合进行隐私数据处理的方法及装置
CN112182649A (zh) 一种基于安全两方计算线性回归算法的数据隐私保护系统
JP5957918B2 (ja) 暗号化技術を用いたツリーに基づく分類のための方法及び装置
CN107196926B (zh) 一种云外包隐私集合比较方法与装置
CN110084063B (zh) 一种保护隐私数据的梯度下降计算方法
CN114401079B (zh) 多方联合信息价值计算方法、相关设备及存储介质
CN114696990B (zh) 基于全同态加密的多方计算方法、系统及相关设备
CN113542228B (zh) 基于联邦学习的数据传输方法、装置以及可读存储介质
CN111783129A (zh) 一种保护隐私的数据处理方法及系统
CN110784306A (zh) Sm4算法白盒实现方法、装置、电子设备及计算机介质
CN115630713A (zh) 样本标识符不相同下的纵向联邦学习方法、设备和介质
CN111555880A (zh) 数据碰撞方法、装置、存储介质及电子设备
CN112906052B (zh) 联邦学习中多用户梯度置换的聚合方法
CN116561787A (zh) 视觉图像分类模型的训练方法、装置及电子设备
CN111859440B (zh) 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法
CN111831979B (zh) 一种数据隐私保护协议的分析方法及装置
CN116170142B (zh) 分布式协同解密方法、设备和存储介质
CN116094686B (zh) 用于量子卷积计算的同态加密方法、系统、设备及终端
CN117349685A (zh) 一种通信数据的聚类方法、系统、终端及介质
CN115292726A (zh) 语义通信方法、装置、电子设备及存储介质
Zhou et al. A survey of security aggregation
CN114629620A (zh) 同态加密计算方法及系统、同态请求、计算和密钥系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant