CN108259158B - 一种云计算环境下高效和隐私保护的单层感知机学习方法 - Google Patents

一种云计算环境下高效和隐私保护的单层感知机学习方法 Download PDF

Info

Publication number
CN108259158B
CN108259158B CN201810028163.9A CN201810028163A CN108259158B CN 108259158 B CN108259158 B CN 108259158B CN 201810028163 A CN201810028163 A CN 201810028163A CN 108259158 B CN108259158 B CN 108259158B
Authority
CN
China
Prior art keywords
cloud server
client
ciphertext
scheme
weight vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810028163.9A
Other languages
English (en)
Other versions
CN108259158A (zh
Inventor
陈晓峰
王晶晶
张肖瑜
王剑锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201810028163.9A priority Critical patent/CN108259158B/zh
Publication of CN108259158A publication Critical patent/CN108259158A/zh
Application granted granted Critical
Publication of CN108259158B publication Critical patent/CN108259158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/008Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0435Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply symmetric encryption, i.e. same key used for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于云计算技术领域,公开了一种云计算环境下高效和隐私保护的单层感知机学习方法,包括客户端,给定安全参数,用于运行对称同态加密算法的密钥生成算法计算公开参数和密钥,然后运行加密算法,用密钥加密训练数据,得到相应的密文,并将密文和相关的期望输出发送给云服务器,训练过程中协助云服务器判断点积结果的正负性,训练任务结束后解密接收到的最终最优权重向量的密文,得到单层感知机预测模型;云服务器,用于存储训练数据,训练单层感知机模型,训练任务结束后将最终最优权重向量的密文发送给客户端。安全分析表明本发明在训练过程中可以保护训练数据、中间结果以及最优预测模型的隐私;在计算开销和通信开销方面是高效的。

Description

一种云计算环境下高效和隐私保护的单层感知机学习方法
技术领域
本发明属于云计算技术领域,尤其涉及一种云计算环境下高效和隐私保护的单层感知机学习方法。
背景技术
云计算是格计算、并行计算和分布式计算的融合和发展。它不仅可以提供软件服务,也可以提供硬件服务,可以为存储数据提供方便性并提高处理数据的效率。因此,拥有资源受限设备的用户往往以一种按需付费方式外包他们的数据和大量的计算任务给云服务器。然而,云计算的事务处理很大程度上依赖于虚拟云,可能会受到恶意攻击。此外,网络的开放性和异构性也不可避免地给存储在云服务器上的数据带来安全问题。因此,外包范式会给用户的隐私信息带来潜在的威胁,隐私信息可能是来自政府、医院、银行或企业的敏感数据。如今,在很多国家,隐私保护已经被写进法律,例如,欧盟数据保护指令和美国隐私法(HIPAA,COPPA,GLB,FRC等等)。在云服务器的帮助下进行大数据分析和建立决策支持模型是最具有前景的基于云计算技术的研究课题之一。随着高速网络、社交网络以及电子商业的发展,产生了前所未有的数据,其中包含了大量有价值的信息,例如,用户的行为信息以及设备的状态信息等等。人们通常使用数据挖掘和机器学习技术从大数据仓库中提取有用的信息。具有强大的学习大数据特征能力的神经网络经常在很多场景中用来高效的预测输出。同时,神经网络深度学习的发展已经在图像、语音以及文本识别方面做出了突破性的进展。此外,单层感知机模型是广泛使用的神经网络模型之一,由于简洁性,在很多场景中它比其他复杂模型更加高效和适用,并且被广泛的应用在金融领域分析风险、应用在电子医疗领域预测各种疾病等等。因此,神经网络近年来受到了越来越多的关注。然而,考虑到数据量之大、数据种类之多、数据流的高速性以及本地存储和计算资源的有限性,客户端往往外包数据存储和模型训练任务给云服务器。在这种场景中,我们关注存储在云服务器中训练数据的隐私。近年来,这一问题得到了许多研究者的研究。最近,Wang[Wang G,Lu R,Huang C.PSLP:Privacy-preserving single-layer perceptron learning for e-Healthcare[C].Proceedings of 10th International Conference on Information,Communications and Signal Processing,2015:1-5]基于paillier密码系统提出了一个隐私保护单层感知机学习方案(Privacy-Preserving Single-Layer PerceptronLearning Scheme,PSLP)。在PSLP方案中,一方面,在训练过程中PSLP方案会泄露敏感的医疗数据和最终最优的权重向量,主要原因是使用paillier密码系统计算
Figure GDA0002844924470000021
云服务器必须要得到权重向量的明文
Figure GDA0002844924470000022
因此,云服务器根据一个方程一个未知数
Figure GDA0002844924470000023
可以求解出医疗数据
Figure GDA0002844924470000024
另一方面,由于paillier加密方案的效率不高导致PSLP方案中单层感知机模型的训练效率较低;此外,由于云服务器在训练数据的密文上计算
Figure GDA0002844924470000025
需要权重向量
Figure GDA0002844924470000026
的明文,所以,每当权重向量被更新,云服务器需要传送更新后的权重向量的密文给客户端,然后客户端需要将解密的权重向量返回给云服务器,因此,在PSLP方案中有较多的通信开销。进一步,Zhang[Zhang C,Zhu L,Xu C,et al.PPDP:An efficient and privacy-preservingdisease prediction scheme in cloud-based e-Healthcare system[J].FutureGeneration Computer Systems,2018,79:16-25]基于单层感知机模型,提出一个隐私保护疾病预测方案(Privacy-Preserving Disease Prediction Scheme,PPDP)。一方面,PPDP方案的计算开销较大,在PPDP方案中,每个向量经过加密后变成一个对应的密文矩阵,之后训练阶段的计算都是建立在这些矩阵上,所以,训练阶段有大量的矩阵相乘操作;此外,训练过程中权重向量需要在客户端进行更新,更新过程需要较多的矩阵相乘操作,矩阵相乘操作的时间复杂度是O(n3),且由于客户端资源的有限性,所以,更新过程会严重影响整个方案的效率,因此,PPDP方案的计算开销较大。另一方面,PPDP方案的通信开销较大,在PPDP方案中,权重向量需要被更新时,云服务器需要将一个密文矩阵发送给客户端,客户端更新后需要将更新后的权重向量的密文矩阵再发送给云服务器,加之训练过程是迭代的,所以,PPDP方案训练过程中的通信开销较大。同时,在PPDP方案中,一个明文向量对应一个密文矩阵,所以,在云服务器端PPDP方案需要更多的存储空间。此外,在PPDP方案中,密钥矩阵和向量的维度是根据训练数据的特征维度确定的,当特征维度增加或者减小时,PPDP方案需要生成新的密钥,并对所有的训练数据重新加密,因此,PPDP方案缺乏可扩展性。
综上所述,现有技术存在的问题是:目前的隐私保护单层感知机学习方法不能保护训练数据和权重向量的隐私;计算开销和通信开销较大;缺乏可扩展性。
发明内容
针对现有技术存在的问题,本发明提供了一种云计算环境下高效和隐私保护的单层感知机学习方法。
本发明是这样实现的,一种云计算环境下高效和隐私保护的单层感知机学习方法,所述云计算环境下高效和隐私保护的单层感知机学习方法给定安全参数,客户端运行对称同态加密算法的密钥生成算法计算公开参数和密钥;客户端运行加密算法,用密钥加密训练数据,得到相应的密文;客户端将密文和相关的期望输出发送给云服务器;云服务器基于训练数据的密文和期望输出的明文训练单层感知机模型,并将最终最优权重向量的密文发送给客户端;客户端接收到最终最优权重向量的密文并解密,得到单层感知机预测模型。
进一步,所述云计算环境下高效和隐私保护的单层感知机学习方法包括:系统建立阶段和隐私保护单层感知机学习阶段。
进一步,所述系统建立阶段,给定安全参数k,客户端运行对称同态加密算法的密钥生成算法KeyGen(k)计算公开参数p和密钥SK=(s,q),密钥SK=(s,q)存储在客户端,客户端计算s的逆s-1和s2的逆s-2
客户端运行加密算法Enc(·),用密钥SK加密训练数据
Figure GDA0002844924470000031
得到相应的密文
Figure GDA0002844924470000032
其中
Figure GDA0002844924470000033
使用加密算法Enc(·)加密信息时,令密文阶参数d=1,xi,j的加密公式:
exi,j=Enc(SK,1,xi,j·yi);
客户端将密文ex和相关的期望输出{y1,...,ym}发送给云服务器。
进一步,所述隐私保护单层感知机学习阶段具体包括:
步骤一,客户端初始化一个随机向量
Figure GDA0002844924470000034
运行加密算法Enc(·)加密所有的权重并且得到相应的密文
Figure GDA0002844924470000035
客户端将
Figure GDA0002844924470000036
发送给云服务器,wj的加密公式如下:
ewj=Enc(SK,1,wj);
步骤二,云服务器获得加密的权重向量
Figure GDA0002844924470000037
之后,随机选择一条加密的训练样例
Figure GDA0002844924470000038
并利用同态加密算法的同态乘法属性和同态加法属性计算:
Di,j=(exi,j×ewj)mod p,for 1≤j≤n
Figure GDA0002844924470000039
云服务器把Di返回给客户端。注意,Di,j的密文阶是2,因此Di的密文阶也是2;
步骤三,客户端接收到密文Di,计算:
Figure GDA00028449244700000310
客户端把ti发送给云服务器;
步骤四,云服务器接收到ti,并比较ti与0的大小,如果ti=0,即
Figure GDA0002844924470000041
那么令
Figure GDA0002844924470000042
Figure GDA0002844924470000043
否则计算
Figure GDA0002844924470000044
云服务器比较
Figure GDA0002844924470000045
和yi,如果
Figure GDA0002844924470000046
云服务器利用同态乘法和同态加法属性更新权重向量
Figure GDA0002844924470000047
Aj=η×exi,j mod p,ewj=(ewj+Aj)mod p,for 1≤j≤n;
如果
Figure GDA0002844924470000048
不需要更新权重向量
Figure GDA0002844924470000049
ewj的密文阶是1,到目前为止,如果不满足终止条件,云服务器转到第二步继续迭代,如果满足终止条件,云服务器将最终最优权重向量的密文发送给客户端,终止条件是,没有误分类点,即梯度下降法收敛,或者迭代次数大于等于预设值;
步骤五,客户端接收到最终最优权重向量的密文
Figure GDA00028449244700000410
计算:
wj=Dec(SK,1,ewj),for 1≤j≤n;
获得最终最优权重向量的明文
Figure GDA00028449244700000411
即单层感知机预测模型。
本发明的另一目的在于提供一种所述云计算环境下高效和隐私保护的单层感知机学习方法的云计算环境下高效和隐私保护的单层感知机学习系统,所述云计算环境下高效和隐私保护的单层感知机学习系统包括:
客户端,根据选定的安全参数计算密钥和公开参数,客户端使用密钥加密所有的训练数据并将所有的密文发送给云服务器去训练单层感知机模型;
云服务器,存储所有训练数据的密文,以一种隐私保护的方式训练单层感知机模型,并将最终最优权重向量的密文发送给客户端。
本发明的另一目的在于提供一种应用所述云计算环境下高效和隐私保护的单层感知机学习方法的智能决策支持系统。
本发明基于对称同态加密算法和符号分类算法提出了一个具体的隐私保护单层感知机学习方案。安全分析表明本发明可以保护训练过程中训练数据、中间结果以及最优预测模型的隐私,在诚实但好奇(honest-but-curious)安全模型下,本发明可以抵抗已知明文攻击。本发明在计算开销方面是高效的。首先,使用的对称同态加密算法是高效的,此外,训练过程中绝大部分耗时的操作在云服务器上执行,客户端只需要协助云服务器判断点积结果的正负性。本发明在通信开销方面是高效的。训练过程中,云服务器和客户端之间的通信是一个数,且在权重向量需要更新时,服务器和客户端之间不需要进行通信。本发明在特征维度发生变化时具有可扩展性。当特征维度发生变化时,客户端不需要重新产生密钥并对所有数据重新加密。
与PSLP方案相比,本发明可以保护训练数据和模型的隐私,提高了计算效率和通信效率(如表1所示)。与PPDP方案相比,本发明具有可扩展性,且提高了计算效率和通信效率(如表1所示)。表1中,M表示乘法操作,E表示指数操作,n表示特征维度。
表1方案比较
Figure GDA0002844924470000051
附图说明
图1是本发明实施例提供的云计算环境下高效和隐私保护的单层感知机学习方法流程图。
图2是本发明实施例提供的单层感知机示意图。
图3是本发明实施例提供的PSLP实现流程图。
图4是本发明实施例提供的EPSLP的系统模型示意图。
图5是本发明实施例提供的EPSLP实现流程图。
图6是本发明实施例提供的每一步计算开销的比较示意图。
图7是本发明实施例提供的数据集大小对时间开销的影响示意图;
图中:(a)建立阶段;(b)学习阶段。
图8是本发明实施例提供的特征维度对时间开销的影响示意图;
图中:(a)建立阶段;(b)学习阶段。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
随着云计算和机器学习技术的同步发展,资源受限的客户端往往将数据存储和计算任务外包给云服务器。然而,在这种外包范式中,数据拥有者失去了对数据的控制,因此,解决客户端数据隐私的问题至关重要。本发明基于对称同态加密方案,提出了一个在云计算环境下高效和隐私保护的单层感知机学习方法(Efficient and Privacy-PreservingSingle-Layer Perceptron Learning Scheme,EPSLP)。安全分析表明本发明在训练过程中可以保护训练数据、中间结果以及最优预测模型的隐私。本发明在计算开销和通信开销方面是高效的。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的云计算环境下高效和隐私保护的单层感知机学习方法包括:1、客户端2、云服务器。
客户端1,给定安全参数,运行对称同态加密算法的密钥生成算法计算公开参数和密钥,然后运行加密算法,用密钥加密训练数据,得到相应的密文,并将密文和相关的期望输出发送给云服务器,训练过程中协助云服务器判断点积结果的正负性,训练任务结束后解密接收到的最终最优权重向量的密文,得到单层感知机预测模型。
云服务器2,存储训练数据的密文和期望输出的明文,以一种隐私保护的方式训练单层感知机模型,训练过程中将点积结果的密文发送给客户端,训练任务结束后将最终最优权重向量的密文发送给客户端。
下面结合附图对本发明的应用原理作进一步的描述。
1单层感知机模型,对称同态加密方案以及符号分类算法。
1.1单层感知机模型
单层感知机(Single-Layer Perceptron,SLP)是一个二分类的线性分类模型,它的输入是训练样例的特征向量,输出是训练样例的类别,记作±1。单层感知机由两层神经元组成,是神经网络的基础。输入层结点接收外部的输入信号并传送给输出层,输出层结点是一个阈值逻辑单元。本发明选择符号函数作为输出层的激活函数,符号函数如下:
Figure GDA0002844924470000061
同时,本发明将阈值视为输入固定为-1的哑结点对应的权重。因此,权重和阈值的学习可以统一为权重的学习,如图2所示。
给定一个单层感知机结构,输入向量记作
Figure GDA0002844924470000062
其中包含了哑结点。期望输出记作{y1,...,ym}(yi∈{-1,+1}),输出层结点的结果记作
Figure GDA0002844924470000063
权重向量记作(w1,...,wn)。这里,m表示训练样例或记录的个数,n表示特征的个数。本发明使用
Figure GDA0002844924470000064
作为损失函数,使用随机梯度下降法最小化损失函数。因此,权重的更新公式如下:
wj=wj+ηyixi,j(1≤j≤n);
η是学习率。基于以上描述,单层感知机学习算法可以描述为算法1。
Figure GDA0002844924470000071
1.2对称同态加密方法
基本组成。对称同态加密方案[Li L,Lu R,Choo K K R,et al.Privacy-preserving-outsourced association rule mining on vertically partitioneddatabases[J].IEEE Transactions on Information Forensics and Security,2016,11(8):1847-1861]包括三部分:密钥生成算法KeyGen(·),加密算法Enc(·)和解密算法Dec(·)。
KeyGen(k)→(SK,p):给定安全参数k,密钥生成算法随机的选择一个公开参数p和一个密钥SK=(s,q)。q和p是两个大素数。q的比特长决定于安全参数k,p>>q,且s是域
Figure GDA0002844924470000072
中的一个随机数。
Enc(SK,d,m)→c:输入密钥SK,密文阶参数d和明文
Figure GDA0002844924470000073
输出密文c。加密公式如下:
Enc(SK,d,m)=sd(rq+m)mod p;
其中r是一个大的随机正整数并叫做密文c的随机成分。注意r的比特长|r|需要满足|r|+|q|<|p|。
Dec(SK,d,c)→m:输入密钥SK,密文阶参数d和密文
Figure GDA0002844924470000074
输出明文m。解密公式如下:
Dec(SK,d,c)=(c×s-dmod p)modq;
其中s-d是sd在域
Figure GDA0002844924470000081
中的乘法逆元。
同态属性。令m1,m2是两个明文,且
Figure GDA0002844924470000082
是对应的两个密文,那么有以下同态属性。
同态乘法:m1×m2的d1+d2阶密文可以通过计算(c1×c2)mod p得到,即:
Enc(SK,d1+d2,m1×m2)=(c1×c2)mod p;
注意,为了从密文正确的解密m1×m2,必须保障|r1|+|r2|+2|q|+1<|p|。
同态加法:令d1=d2,那么m1+m2的d1阶密文可以通过计算(c1+c2)mod p·得到,即:
Enc(SK,d1,m1+m2)=(c1+c2)mod p;
为了从密文正确的解密m1+m2,必须保障(r1+r2)q+m1+m2<p,r1+r2是m1+m2密文的随机成分。
同态点乘:给定密文c1和明文m2,那么有:
Enc(SK,d1,m1×m2)=(c1×m2)mod p;
为了正确的解密,必须保障r1m2q+m1×m2<p,r1m2是m1×m2密文的随机成分。
1.3符号分类算法
在本发明的隐私保护单层感知机学习算法中,云服务器需要通过激活函数sign(·)获得
Figure GDA0002844924470000083
的符号,这需要比较
Figure GDA0002844924470000084
和0的大小。然而,云服务器仅仅拥有
Figure GDA0002844924470000085
的密文。这个比较问题可以转换为以下的形式。
在本发明的方案中,云服务器拥有
Figure GDA0002844924470000086
的密文,即Di,并且想要比较
Figure GDA0002844924470000087
的符号和期望输出yi是否相等,需要借助客户端才能完成。因此,为了得到
Figure GDA0002844924470000088
的符号,云服务器首先将Di发送给客户端,客户端通过用密钥SK解密Di得到
Figure GDA0002844924470000089
Figure GDA00028449244700000810
注意
Figure GDA00028449244700000811
是域
Figure GDA00028449244700000812
中的一个数且
Figure GDA00028449244700000813
然后,客户端根据
Figure GDA00028449244700000814
可以得到
Figure GDA00028449244700000815
的符号。为了解决以上的问题,符号分类方法设计如下:
本发明假设
Figure GDA00028449244700000816
的范围是[-α,β],i.e.,如果
Figure GDA00028449244700000817
否则
Figure GDA00028449244700000818
令0≤β<<(q-1)/2,且-(q-1)/2<<-α<0,那么,如果
Figure GDA00028449244700000819
如果
Figure GDA00028449244700000820
以上比较方法的正确性可以描述如下。本发明考虑以下两种情况。
Figure GDA0002844924470000091
的情况:由于
Figure GDA0002844924470000092
且0≤β<<(q-1)/2,那么有:
Figure GDA0002844924470000093
Figure GDA0002844924470000094
的情况:因为
Figure GDA0002844924470000095
且-(q-1)/2<<-α<0,那么有:
Figure GDA0002844924470000096
因此,
Figure GDA0002844924470000097
Figure GDA0002844924470000098
由此,客户端通过比较
Figure GDA0002844924470000099
和(q-1)/2的大小可以得到
Figure GDA00028449244700000910
的符号,并将其发送给云服务器。在本发明的方案中,符号函数sign(·)被重新定义如下:
Figure GDA00028449244700000911
2、PSLP方案的安全性
2.1PSLP方案由两个阶段组成:系统建立阶段和隐私保护单层感知机学习阶段。
系统建立阶段。根据安全参数k,医院运行paillier密码系统的密钥生成算法计算公钥PK和私钥SK。然后,医院运行paillier加密算法Enc(·)用公钥PK加密医疗样例
Figure GDA00028449244700000912
得到相应的密文
Figure GDA00028449244700000913
然后,医院发送密文ex和期望输出{y1,...,ym}(yi∈{-1,1})给云服务器。
隐私保护单层感知机学习阶段。PSLP方案学习阶段的主要步骤见图3。
步骤1:医院初始化一个随机向量
Figure GDA00028449244700000914
并传送给云服务器。
步骤2:云服务器获得权重向量
Figure GDA00028449244700000915
后,随机选择一条加密的医疗样例
Figure GDA00028449244700000916
计算
Figure GDA00028449244700000917
Figure GDA00028449244700000918
然后计算
Figure GDA00028449244700000919
云服务器将A返回给医院。这里,N表示paillier密码系统中两个大素数的乘积,是公钥PK的一部分。
步骤3:医院接收到密文A并用paillier密码系统的解密算法Dec(·)解密,然后用符号函数sign(·)计算解密得到明文的符号,记作
Figure GDA00028449244700000920
并将
Figure GDA00028449244700000921
发送给云服务器。
步骤4:云服务器接收到
Figure GDA0002844924470000101
并比较
Figure GDA0002844924470000102
和期望输出yi。如果
Figure GDA0002844924470000103
计算
Figure GDA0002844924470000104
Figure GDA0002844924470000105
同时,云服务器使用paillier密码系统的加密算法Enc(·)加密
Figure GDA0002844924470000106
ewj=Enc(wj)(wj≥0)或ewj=Enc(N-|wj|)(wj<0)(for 1≤j≤n)。然后,云服务器计算ewj=ewj·Vj(for 1≤j≤n)更新权重向量
Figure GDA00028449244700001031
最后,云服务器将更新后的权重向量的密文
Figure GDA0002844924470000107
返回给医院。如果
Figure GDA0002844924470000108
权重向量的明文
Figure GDA0002844924470000109
被返回给医院。注意,权重向量仅仅在第一次更新时被加密。
步骤5:如果医院接收到权重向量的密文
Figure GDA00028449244700001010
那么使用paillier密码系统的解密算法进行解密得到
Figure GDA00028449244700001011
wj=Dec(ewj)(for 1≤j≤n),并将明文
Figure GDA00028449244700001012
发送给云服务器,然后云服务器转到步骤2继续运行。如果以下其中一个条件被满足,医院将终止训练过程。条件一,迭代次数大于等于预设值;条件二,对于每一条医疗样例,医院接收到的权重向量是明文。
2.2PSLP方案的安全分析
因为医疗信息
Figure GDA00028449244700001013
具有极大的商业价值,因此诚实但好奇(honest-but-curious)的云服务器可能想要得到隐私的医疗信息。在这部分,本发明将说明在PSLP方案中一个诚实但好奇(honest-but-curious)的云服务器可以得到隐私的医疗信息。
Figure GDA00028449244700001014
是一个诚实但好奇(honest-but-curious)的云服务器,他可以得到隐私的医疗信息。更确切地说,在一次迭代中,如果
Figure GDA00028449244700001015
更新权重向量
Figure GDA00028449244700001016
如步骤5所述
Figure GDA00028449244700001017
将得到由医院返回的更新后的权重向量的明文。然后,
Figure GDA00028449244700001018
拥有更新前的权重向量的明文、更新后的权重向量的明文、学习率η以及期望输出yi。那么,根据一个方程一个未知数
Figure GDA00028449244700001019
Figure GDA00028449244700001020
可以得到医疗样例的值
Figure GDA00028449244700001021
因此,云服务器通过求解这些等式可以得到隐私的医疗信息
Figure GDA00028449244700001022
此外,算法迭代的次数越多,泄露的医疗信息越多。
此外,如果医疗样例被泄露,对于
Figure GDA00028449244700001023
来说知道权重向量中每一个特征值的实际意义将是容易的。然而,在PSLP方案中,如果终止条件是步骤5中描述的第二个,
Figure GDA00028449244700001024
也可以得到最终最优的权重向量
Figure GDA00028449244700001025
因此,医疗样例的泄露将会导致具体的用于电子医疗的单层感知机模型的泄露。此外,如果医院需要将预测任务外包给云服务器,那么云服务器一定会得到权重向量的明文。然而,预测模型也具有巨大的商业价值。
下面本发明将分析在PSLP方案中训练数据和权重向量不能被很好的保护的原因。主要原因是使用paillier密码系统计算
Figure GDA00028449244700001026
云服务器必须要得到权重向量的明文
Figure GDA00028449244700001027
因此,如果云服务器得到了更新前的权重向量和更新后的权重向量
Figure GDA00028449244700001028
那么通过求解一元一次方程
Figure GDA00028449244700001029
获得医疗样例
Figure GDA00028449244700001030
是容易的。此外,云服务器得到的医疗样例的明文越多,正确猜出每个特征意义的可能性越大。
3本发明的方法
3.1系统模型
EPSLP的系统模型见图4,系统中包含两个实体:客户端和云服务器。
客户端:拥有有限的计算和存储资源,以及大量的训练数据。根据选定的安全参数计算密钥和公开参数。客户端使用密钥加密所有的训练数据并将所有的密文发送给云服务器去训练单层感知机模型。
云服务器:他是诚实但好奇(honest-but-curious)的并且拥有大量的存储资源和强大的计算能力。云服务器存储所有训练数据的密文并以一种隐私保护的方式训练单层感知机模型。
3.2安全模型
本发明的方案基于诚实但好奇(honest-but-curious)模型。在这个模型中,参与的实体按照协议执行方案。然而,他们会尝试着分析他们可以得到的信息。因此,为了确保安全性,除了输入和输出以外,云服务器不能得到任何其他信息。根据云服务器可以得到的信息,攻击模型可以归纳如下。
已知明文攻击模型。在这种攻击模型中,云服务器拥有所有特征的密文、期望输出的明文以及所有加密的权重向量。具体来讲,EPSLP方案的目标是防止云服务器获得每条训练数据的特征和最优的权重向量。
此外,本发明从以下三个方面声明EPSLP方案的安全要求。
正确性。如果云服务器诚实的执行方案,每一步的计算结果应该是正确的。因为主要的计算操作在密文上执行,所以在密文上的计算结果应该和对应明文上的计算结果相同。如果训练数据中有浮点数,准确率的损失应该是可忽略的。
隐私性。训练数据
Figure GDA0002844924470000111
和权重向量
Figure GDA0002844924470000112
应该被很好的保护。一方面,云服务器不能根据训练数据和权重向量的密文得到相应的明文。另一方面,通过分析训练过程,云服务器不能得到训练数据和权重向量的明文。此外,即使由于其他的原因云服务器获得了一些训练数据或者权重向量,对称同态加密方案的密钥也不能被泄露。注意,期望输出{y1,...,ym}不需要是隐私保护的。
高效性。训练数据应该被存储在云服务器上。客户端的计算开销应该远远小于云服务器端的计算开销,即耗时的操作应该在云服务器上执行。此外,EPSLP方案应该对特征维度的变化具有扩展性。
3.3具体的EPSLP方案
EPSLP方案主要由两个阶段组成:系统建立阶段和隐私保护单层感知机学习阶段。这两个阶段的具体信息见图5。
系统建立阶段。给定安全参数k,客户端运行对称同态加密算法的密钥生成算法KeyGen(k)计算公开参数p和密钥SK=(s,q),密钥SK=(s,q)仅仅存储在客户端。此外,客户端计算s的逆s-1和s2的逆s-2
然后客户端运行加密算法Enc(·),用密钥SK加密训练数据
Figure GDA0002844924470000121
得到相应的密文
Figure GDA0002844924470000122
其中
Figure GDA0002844924470000123
在本发明的方案中,使用加密算法Enc(·)加密信息时,令密文阶参数d=1,xi,j的加密公式如下所示:
exi,j=Enc(SK,1,xi,j·yi);
然后,客户端将密文ex和相关的期望输出{y1,...,ym}发送给云服务器。本发明注意到{y1,...,ym}的泄露对于训练数据的所有者没有危害,并且方案的安全性不会受到影响。
隐私保护单层感知机学习阶段。EPSLP方案的主要步骤如下所示。
步骤1:客户端初始化一个随机向量
Figure GDA0002844924470000124
运行加密算法Enc(·)加密所有的权重并且得到相应的密文
Figure GDA0002844924470000125
然后客户端将
Figure GDA0002844924470000126
发送给云服务器。wj的加密公式如下:
ewj=Enc(SK,1,wj);
步骤2:云服务器获得加密的权重向量
Figure GDA0002844924470000127
之后,随机选择一条加密的训练样例
Figure GDA0002844924470000128
并利用同态加密算法的同态乘法属性和同态加法属性计算:
Di,j=(exi,j×ewj)mod p,for 1≤j≤n
Figure GDA0002844924470000129
云服务器把Di返回给客户端。注意,Di,j的密文阶是2,因此Di的密文阶也是2。
步骤3:客户端接收到密文Di,计算:
Figure GDA00028449244700001210
然后客户端把ti发送给云服务器。
步骤4:云服务器接收到ti,并比较ti与0的大小,如果ti=0,即
Figure GDA0002844924470000131
那么令
Figure GDA0002844924470000132
Figure GDA0002844924470000133
否则计算
Figure GDA0002844924470000134
然后云服务器比较
Figure GDA0002844924470000135
和yi,如果
Figure GDA0002844924470000136
云服务器利用同态乘法和同态加法属性更新权重向量
Figure GDA0002844924470000137
Aj=η×exi,j mod p,ewj=(ewj+Aj)mod p,for 1≤j≤n;
如果
Figure GDA0002844924470000138
不需要更新权重向量
Figure GDA0002844924470000139
注意ewj的密文阶是1。
到目前为止,如果不满足终止条件,云服务器转到第二步继续迭代。如果满足终止条件,云服务器将最终最优权重向量的密文
Figure GDA00028449244700001310
发送给客户端。终止条件是,没有误分类点即梯度下降法收敛,或者迭代次数大于等于预设值。
步骤5:客户端接收到最终最优权重向量的密文
Figure GDA00028449244700001311
计算:
wj=Dec(SK,1,ewj),for 1≤j≤n;
获得最终最优权重向量的明文
Figure GDA00028449244700001312
即单层感知机预测模型。这一步仅在训练中止时执行一次。
下面结合分析对本发明的应用原理作进一步的描述。
1 EPSLP方法分析
1.1安全分析
声明1.在提出的EPSLP方案中,如果云服务器诚实的执行方案,每一步的计算结果应该是正确的。
证明.EPSLP方案的正确性如下所述。注意,所有的明文在域
Figure GDA00028449244700001313
中。
在第二步中,云服务器计算:
Di,j=(exi,j×ewj)=(Enc(SK,1,xi,j·yi)×Enc(SK,1,wj))
=Enc(SK,2,xi,j·yi·wj),for 1≤j≤n;
然后,云服务器计算Di
Figure GDA00028449244700001314
在第三步中,客户端获得Di,并解密:
Figure GDA00028449244700001315
客户端获得
Figure GDA00028449244700001316
的符号ti
Figure GDA0002844924470000141
如前所述,符号函数sign(·)通过比较
Figure GDA0002844924470000142
与(q-1)/2的大小可以正确的判别
Figure GDA0002844924470000143
是否大于0。在第四步中,如果ti=0,令
Figure GDA0002844924470000144
即如果
Figure GDA0002844924470000145
Figure GDA0002844924470000146
如果ti≠0,云服务器计算
Figure GDA0002844924470000147
Figure GDA0002844924470000148
因此,
Figure GDA0002844924470000149
表示
Figure GDA00028449244700001410
的符号,且
Figure GDA00028449244700001411
然后,如果
Figure GDA00028449244700001412
更新权重向量:
Aj=η×exi,j=η×Enc(SK,1,xi,j·yi)=Enc(SK,1,η·xi,j·yi),for 1≤j≤n
ewj=(ewj+Aj)=(Enc(SK,1,wj)+Enc(SK,1,η·xi,j·yi))
=Enc(SK,1,wj+η·xi,j·yi),for 1≤j≤n;
基于以上分析,EPSLP方案是正确的。因此,客户端在云服务器的协助下可以得到预测模型。
声明2.在提出的EPSLP方案中,在诚实但好奇(honest-but-curious)模型下,训练数据
Figure GDA00028449244700001413
和预测模型
Figure GDA00028449244700001414
的隐私需要得到保证。
证明.本发明从存储和训练过程两个方面分析EPSLP方案的隐私性。
存储在云服务器上训练数据和权重向量的隐私性。在EPSLP方案中,存储在云服务器上的训练数据和权重向量被同态加密算法加密,这个同态加密算法基于求解非确定性系统的NP难题。因为使用的同态加密算法在已知明文攻击下是安全的,所以存储在云服务器上的训练数据和权重向量在已知明文攻击下是隐私保护的。因此,如果一些训练数据的明文被泄露,其他训练数据的隐私性不会被削弱。同时,期望输出{y1,…,ym}的泄露对训练数据的所有者没有危害,且对方案的安全性没有影响。
训练过程中训练数据和预测模型的隐私性。在第二步,云服务器计算:
Figure GDA00028449244700001415
所有这些计算在密文上执行。此外,如果由于其他的原因exi,j和ewj的明文被泄露了,那么:
exi,j=s(r1q+xi,jyi)mod p,for 1≤j≤n
ewj=s(r2q+wj)mod p,for 1≤j≤n;
在这2n个方程中有2n+2个未知数,即攻击者不能得到密钥SK,因此,其他信息的隐私性不会受到威胁。基于以上的分析,所有的训练数据和权重向量的隐私可以在这一步得到很好的保护。在第四步,云服务器根据接收到的ti可以得到
Figure GDA0002844924470000151
的符号
Figure GDA0002844924470000152
并且计算:
Aj=η×exi,jmod p,ewj=(ewj+Aj)mod p,for 1≤j≤n;
所有这些计算也都是在训练数据
Figure GDA0002844924470000153
和权重向量
Figure GDA0002844924470000154
的密文上执行,并且期望输出{y1,...,ym}、符号
Figure GDA0002844924470000155
接受到的ti以及学习率η的泄露对训练数据和权重向量的隐私性没有影响。此外,如果由于其他的原因exi,j的明文泄露了,那么:
Aj=η×exi,j=s(r1ηq+ηxi,jyi)mod p,for 1≤j≤n;
在这个等式中有三个未知数:s,q,r1不能求解出来。进一步,如果更新前的权重向量也泄露了,那么有:
ewj=(ewj+Aj)=s((r1η+r2)q+wj+ηxi,jyi)mod p,for 1≤j≤n;
方程中会增加一个新的未知数r2。因此,密钥SK不会被泄露。所有的训练数据和权重向量的隐私在这一步也可以得到很好的保护。最后,在EPSLP方案中,
Figure GDA0002844924470000156
的计算需要权重向量
Figure GDA0002844924470000157
的密文和训练数据
Figure GDA0002844924470000158
的密文,这可以避免一个方程一个未知数wj=wj+ηyixi,j(for1≤j≤n)的求解。因此,在本发明方案的迭代过程中,训练数据和预测模型是隐私保护的。
1.2效率分析
在这部分,本发明对EPSLP方案的计算和通信效率进行了理论分析。此外,本发明给出了PSLP和EPSLP方案的具体比较,以及PPDP和EPSLP方案的详细比较。
计算开销。计算开销的比较如表2所示。为了表达的简洁性,一个加法操作、一个乘法操作、一个指数操作以及一个模逆操作的时间开销分别由A、M、E以及D表示。
在系统建立阶段,客户端通过运行加密算法Enc(·)加密训练数据
Figure GDA0002844924470000159
在对称同态加密方案中加密一个消息需要两个乘法操作和一个加法操作。在EPSLP方案中,加密xi,j时需要计算xi,jyi,因此,加密一个训练数据xi,j需要3个乘法操作和1个加法操作。那么,加密所有训练数据样例需要3mn个乘法操作和mn个加法操作。在表2中,本发明仅仅比较了这一阶段的加密操作的开销。注意,这个阶段在整个算法中仅仅运行一次。
在第1步,客户端初始化一个随机的权重向量
Figure GDA0002844924470000161
并且加密,这需要2n个乘法操作和n个加法操作。在第2步,对于选定的训练数据
Figure GDA0002844924470000162
云服务器执行n个乘法操作exi,j×ewj(1≤j≤n)和(n-1)个加法操作计算所有乘法操作的和。在第3步,客户端解密点积的密文Di,需要一个乘法操作。在第4步,云服务器执行(n+1)个乘法操作和n个加法操作更新权重向量。在第5步,云服务器解密最终最优的权重向量需要n个乘法操作。第1步和第5步在训练过程中仅仅执行一次,他们的时间开销相对于整个学习阶段的时间开销可以忽略。因此,表1中学习阶段的计算开销不包含这两个阶段。
与PSLP方案相比,EPSLP方案的计算效率更高。首先,在EPSLP方案中,当权重向量被更新后,在第5步不需要解密权重向量的密文。此外,对称同态加密方案的效率远远高于paillier加密方案。
与PPDP方案相比,EPSLP方案在系统建立阶段和感知机学习阶段是高效的,主要由于PPDP方案中有大量的矩阵相乘操作。此外,在感知机学习阶段,PPDP方案客户端的计算复杂度高于本发明的方案,这会严重影响整个方案的效率。并且PPDP方案客户端的计算复杂度随着特征维度的增加而增加。另外,特征维度的变化在现实中是不可避免的,在PPDP方案中,无论特征维度增加或者减少,客户端需要重新生成密钥并且重新加密所有的训练数据。然而,在本发明的EPSLP方案中,当特征维度增加时,客户端仅仅需要对所有训练样例加密新增加的特征,这使得系统建立阶段是高效的。因此,当特征维度增加或者减少时,本发明的EPSLP方案更具有可扩展性。
表2计算开销比较
Figure GDA0002844924470000163
通信开销。通信开销的比较如表3所示。在表3中,迭代表示消息需要重复的传送。
在系统建立阶段,客户端发送公开参数p、m条训练样例的密文以及期望输出给云服务器分别需要|p|比特、mn|p|比特以及m|y|比特。其中y表示期望输出或第3步最后的结果,y∈{-1,0,+1}。这个阶段的通信仅仅需要执行一次。
在第1步,客户端发送n|p|比特加密的权重向量
Figure GDA0002844924470000171
给云服务器。在第2步,云服务器返回|p|比特点积的密文Di给客户端。在第3步,客户端发送|y|比特符号ti给云服务器。在第4步,如果满足终止条件,云服务器返回n|p|比特最终最优权重向量的密文
Figure GDA0002844924470000172
给客户端。
与PSLP方案相比,EPSLP方案的通信效率是高效的。在PSLP方案中,云服务器需要发送更新后的权重向量
Figure GDA0002844924470000173
给客户端,然后客户端解密
Figure GDA0002844924470000174
并传输明文
Figure GDA0002844924470000175
给云服务器。因此,在本发明中,在权重向量需要更新的训练轮中,一轮的通信被减少。
与PPDP方案相比,EPSLP方案的通信效率是高效的。在表3中,
Figure GDA0002844924470000176
表示一条加密的训练样例,在EPSLP方案中是一个n维的向量,然而,在PPDP方案中是一个n×n的矩阵,这不仅会造成通信量的增加,而且会增加云服务器端的存储开销。
Figure GDA0002844924470000177
表示加密的权重向量,在EPSLP方案中是一个n维的向量,然而,在PPDP方案中是一个n×n的矩阵,并且每次在权重向量更新后都需要由客户端发送给云服务器。ηCi表示PPDP方案中需要更新的密文,是一个n×n的矩阵,并且每次在权重向量更新前都需要由云服务器发送给客户端。一般而言,迭代次数的复杂度为O(m),训练轮数的复杂度也为O(m),迭代次数和训练轮数的差距一般不会很大。Di表示云服务器返回给客户端的点积的密文,ti表示客户端发送给云服务器的解密的符号,Di和ti分别是一个数而不是矩阵或者向量。此外,当特征维度发生变化时,由于PPDP方案有限的可扩展性,PPDP方案比EPSLP方案在系统建立阶段会有更多的通信开销。
表3通信开销比较
Figure GDA0002844924470000178
下面结合性能评估对本发明的应用效果作详细的描述。
1性能评估
本发明使用JAVA语言实现了提出的EPSLP方案和PSLP方案。执行云服务器端程序的电脑的参数为:Intel(R)Xeon(R)CPU E5-1620V3处理器,3.40GHz主频,16GB RAM。运行客户端程序的电脑的参数为:Intel(R)Core(TM)i5-6200U CPU处理器,2.30GHz主频,8GBRAM。本发明首先描述数据集,然后进行效率和准确率的性能评估。
本发明在两个代表性的二分类数据集上进行评估实验,即WisconsinBreastCancer Database(January 8,1991)[Bennett K P,Mangasarian O L.Robust linearprogramming discrimination oftwo linearly inseparable sets[J].Optimizationmethods and software,1992,1(1):23-34]和Default of Credit Card Clients DataSet[Yeh I C,Lien C.The comparisons of data mining techniques for thepredictive accuracy of probability of default of credit card clients[J].Expert Systems withApplications,2009,36(2):2473-2480]。WisconsinBreast Cancer数据集除去16个不可用的点以外,有683条样例,每条样例有9个特征,所有的样例被分成两类。Default ofCredit Card Clients数据集有30000条样例,每条样例有23个特征,所有的样例被分成两类。
WisconsinBreast Cancer数据集的训练参数为:迭代次数的预设值等于10000,学习率η=1,初始的权重向量随机生成。Default ofCredit Card Clients数据集的训练参数为:迭代次数的预设值等于60000,学习率η=1,初始的权重向量也是随机生成。注意,在本文中迭代次数表示权重向量被更新的次数。因此,预设值表示权重向量被更新的最大次数。此外,原始的训练数据
Figure GDA0002844924470000181
可能是浮点数,然而对称同态加密方案作用的明文在域
Figure GDA0002844924470000182
中。为了高效的计算,每一个训练数据xi,j乘以一个常数(e.g.,扩大1000倍)并舍弃掉小数部分使其绝对值是域
Figure GDA0002844924470000183
中的一个整数,这伴随着可忽略的准确率损失。同时,本发明必须确保所有的xi,j<<q/2。
为了在本发明的方案中使用对称同态加密方案,密钥的比特长和参数必须仔细的选择。本发明选择的对称同态加密方案的参数见表4。Num表示训练的轮数。同时,paillier密码系统的实验参数设置和PSLP方案中的设置相同。
表4实验参数设置
Figure GDA0002844924470000184
1.1效率评估
首先,本发明使用WisconsinBreast Cancer数据集详细的评估EPSLP方案每一步的效率。此外,本发明使用Default ofCredit Card Clients数据集评估数据集大小和特征维度对效率的影响。为了评估性能并给出公平的比较,本发明在相同的客户端环境、云端环境和训练参数上执行PSLP方案和EPSLP方案。
每一步的效率评估。EPSLP方案和PSLP方案每一步的时间开销和细节比较见图6。如图6所示,EPSLP方案在系统建立阶段、步骤2、步骤3、步骤4和步骤5上比PSLP方案快几个数量级。对于系统建立阶段,PSLP方案需要86.8秒加密所有的训练数据,EPSLP方案仅仅需要3毫秒。PSLP方案在步骤1的时间开销为0.011毫秒。然而,EPSLP在步骤1的时间开销为0.016毫秒,这是因为在本发明的方案中,初始化的权重向量需要在客户端加密。PSLP方案和EPSLP方案在步骤5的时间开销分别为1121.8秒和0.02毫秒。这一步造成巨大差距的原因是在PSLP方案中每当权重向量被更新后,医院需要解密权重向量。然而,在本发明的方案中当达到终止条件时,权重向量仅仅被解密一次。因此,PSLP方案步骤5的时间开销随着权重向量被更新次数的增加而增加。
数据集大小对效率的影响。本发明通过在EPSLP方案和PSLP方案中使数据集范围从3000变化到30000来评估数据集大小对效率的影响。如图7中的(a)所示,系统建立阶段的时间开销随着数据集的增加而增加。对于EPSLP方案,系统建立阶段的时间开销从29毫秒增加到247毫秒。对于PSLP方案,系统建立阶段的时间开销从565秒增加到5670秒。然而,如图7中的(b)所示,学习阶段的时间开销随着数据集的增加是稳定的。例如,在EPSLP方案中,当m=3000时,学习阶段的时间开销为4.23秒,m=30000时,学习阶段的时间开销为4.71秒,它们是同数量级的。原因是当数据的分布和迭代的次数确定时,训练的轮数是稳定的。此外,当数据集的大小从3000变化到30000时,EPSLP方案在系统建立阶段和学习阶段比PSLP方案都要快几个数量级。
特征维度对效率的影响。本发明通过在EPSLP方案和PSLP方案中使特征维度从5变化到23来评估特征维度对效率的影响。如图8中的(a)和图8中的(b)所示,系统建立阶段和学习阶段的时间开销随着特征维度的增加而增加。对于系统建立阶段的时间开销,EPSLP方案从51毫秒变化到247毫秒,PSLP方案从939秒变化到5670秒。对于学习阶段的时间开销,EPSLP方案从1.62秒变化到4.71秒,PSLP方案从1095秒变化到32597秒。在本发明的EPSLP方案中,特征维度的增加会导致乘法数量的增加,在PSLP方案中,特征维度的增加会带来指数操作的增加。此外,当特征维度增加时,学习阶段客户端的时间开销在EPSLP方案中会增加很缓慢,然而,在PSLP方案中会增加很明显。原因是在PSLP方案中客户端需要解密更新后的权重向量。
1.2准确率评估
为了分析EPSLP方案的准确率损失,本发明分别使用EPSLP方案、PSLP方案和非隐私保护SLP方案(i.e.,训练程序在明文上执行)对以上两个数据集进行分类,并为三个方案设置相同的训练参数。
EPSLP方案、PSLP方案和非隐私保护SLP方案的准确率见表5,如表5所示,三个方案在以上两个数据集上的准确率相同,原因是两个数据集中的元素都是整数。如果数据集中有浮点数,根据小数点后保留的小数个数,EPSLP方案和PSLP方案的准确率有所降低,然而,由于这个原因造成的准确率损失几乎可以忽略。此外,如果PSLP方案中小数点后保留的小数位数和EPSLP方案一样,那么这两个方案的准确率是相同的。
表5准确率比较
Figure GDA0002844924470000201
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种云计算环境下高效和隐私保护的单层感知机学习方法,其特征在于,所述云计算环境下高效和隐私保护的单层感知机学习方法给定安全参数,客户端运行对称同态加密算法的密钥生成算法计算公开参数和密钥;客户端运行加密算法,用密钥加密训练数据,得到相应的密文;客户端将密文和相关的期望输出发送给云服务器;云服务器基于训练数据的密文和期望输出的明文训练单层感知机模型,并将最终最优权重向量的密文发送给客户端;客户端接收到最终最优权重向量的密文并解密,得到单层感知机预测模型;
所述云计算环境下高效和隐私保护的单层感知机学习方法包括:系统建立阶段和隐私保护单层感知机学习阶段;
所述隐私保护单层感知机学习阶段具体包括:
步骤一,客户端初始化一个随机向量
Figure FDA0002938739210000011
运行加密算法Enc(·)加密所有的权重并且得到相应的密文
Figure FDA0002938739210000012
客户端将
Figure FDA0002938739210000013
发送给云服务器,wj的加密公式如下:
ewj=Enc(SK,1,wj);
步骤二,云服务器获得加密的权重向量
Figure FDA0002938739210000014
之后,随机选择一条加密的训练样例
Figure FDA0002938739210000015
并利用同态加密算法的同态乘法属性和同态加法属性计算:
Di,j=(exi,j×ewj)mod p,for 1≤j≤n
Figure FDA0002938739210000016
云服务器把Di返回给客户端,Di,j的密文阶是2,因此Di的密文阶也是2;
步骤三,客户端接收到密文Di,计算:
Figure FDA0002938739210000017
客户端把ti发送给云服务器;
步骤四,云服务器接收到ti,并比较ti与0的大小,如果ti=0,即
Figure FDA0002938739210000018
那么令
Figure FDA0002938739210000019
Figure FDA00029387392100000110
否则计算
Figure FDA00029387392100000111
云服务器比较
Figure FDA00029387392100000112
和yi,如果
Figure FDA00029387392100000113
云服务器利用同态乘法和同态加法属性更新权重向量
Figure FDA00029387392100000114
Aj=η×exi,j mod p,ewj=(ewj+Aj)mod p,for 1≤j≤n;
如果
Figure FDA00029387392100000115
不需要更新权重向量
Figure FDA00029387392100000116
ewj的密文阶是1,到目前为止,如果不满足终止条件,云服务器转到第二步继续迭代,如果满足终止条件,云服务器将最终最优权重向量的密文发送给客户端,终止条件是,没有误分类点,即梯度下降法收敛,或者迭代次数大于等于预设值;η是学习率;
步骤五,客户端接收到最终最优权重向量的密文
Figure FDA0002938739210000021
计算:
wj=Dec(SK,1,ewj),for1≤j≤n;
获得最终最优权重向量的明文
Figure FDA0002938739210000022
即单层感知机预测模型;
所述系统建立阶段,给定安全参数k,客户端运行对称同态加密算法的密钥生成算法KeyGen(k)计算公开参数p和密钥SK=(s,q),密钥SK=(s,q)存储在客户端,客户端计算s的逆s-1和s2的逆s-2
客户端运行加密算法Enc(·),用密钥SK加密训练数据
Figure FDA0002938739210000023
得到相应的密文
Figure FDA0002938739210000024
其中
Figure FDA0002938739210000025
使用加密算法Enc(·)加密信息时,令密文阶参数d=1,xi,j的加密公式:
exi,j=Enc(SK,1,xi,j·yi);
客户端将密文ex和相关的期望输出{y1,...,ym}发送给云服务器。
2.一种如权利要求1所述云计算环境下高效和隐私保护的单层感知机学习方法的云计算环境下高效和隐私保护的单层感知机学习系统,其特征在于,所述云计算环境下高效和隐私保护的单层感知机学习系统包括:
客户端,根据选定的安全参数计算密钥和公开参数,客户端使用密钥加密所有的训练数据,并将所有的密文发送给云服务器去训练单层感知机模型;
云服务器,存储所有训练数据的密文,以一种隐私保护的方式训练单层感知机模型,并将最终最优权重向量的密文发送给客户端。
3.一种应用权利要求1所述云计算环境下高效和隐私保护的单层感知机学习方法的智能决策支持系统。
CN201810028163.9A 2018-01-11 2018-01-11 一种云计算环境下高效和隐私保护的单层感知机学习方法 Active CN108259158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810028163.9A CN108259158B (zh) 2018-01-11 2018-01-11 一种云计算环境下高效和隐私保护的单层感知机学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810028163.9A CN108259158B (zh) 2018-01-11 2018-01-11 一种云计算环境下高效和隐私保护的单层感知机学习方法

Publications (2)

Publication Number Publication Date
CN108259158A CN108259158A (zh) 2018-07-06
CN108259158B true CN108259158B (zh) 2021-03-23

Family

ID=62726483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810028163.9A Active CN108259158B (zh) 2018-01-11 2018-01-11 一种云计算环境下高效和隐私保护的单层感知机学习方法

Country Status (1)

Country Link
CN (1) CN108259158B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165725B (zh) * 2018-08-10 2022-03-29 深圳前海微众银行股份有限公司 基于迁移学习的神经网络联邦建模方法、设备及存储介质
CN109194507B (zh) * 2018-08-24 2022-02-18 曲阜师范大学 非交互式的保护隐私神经网络预测方法
CN109582861B (zh) * 2018-10-29 2023-04-07 复旦大学 一种数据隐私信息检测系统
WO2020087381A1 (zh) * 2018-10-31 2020-05-07 北京比特大陆科技有限公司 模型数据的载入方法、装置、设备和存储介质
CN109687952A (zh) * 2018-11-16 2019-04-26 创新奇智(重庆)科技有限公司 数据处理方法及其装置、电子装置及存储介质
CN110020883A (zh) * 2018-12-12 2019-07-16 阿里巴巴集团控股有限公司 一种对评分矩阵中的未知评分进行预测的方法及装置
US11138327B2 (en) 2018-12-27 2021-10-05 Industrial Technology Research Institute Privacy data integration method and server
CN111460453B (zh) * 2019-01-22 2023-12-12 百度在线网络技术(北京)有限公司 机器学习训练方法、控制器、装置、服务器、终端和介质
CN110059501B (zh) * 2019-04-16 2021-02-02 广州大学 一种基于差分隐私的安全外包机器学习方法
CN110399738B (zh) * 2019-07-26 2022-06-24 安徽理工大学 具有隐私保护的分布式在线优化算法
CN110516464A (zh) * 2019-09-02 2019-11-29 深圳市网心科技有限公司 基于神经网络计算的数据保护方法及相关设备
CN110572253B (zh) * 2019-09-16 2023-03-24 济南大学 一种联邦学习训练数据隐私性增强方法及系统
CN111159727B (zh) * 2019-12-11 2022-12-09 西安交通大学医学院第一附属医院 一种面向多方协同的贝叶斯分类器安全生成系统及方法
CN111125734B (zh) * 2019-12-20 2023-03-31 深圳前海微众银行股份有限公司 一种数据处理方法及系统
CN111131227B (zh) * 2019-12-20 2023-04-18 深圳前海微众银行股份有限公司 一种数据处理方法及装置
CN111160961B (zh) * 2019-12-20 2023-10-17 深圳前海微众银行股份有限公司 一种信息推荐方法及装置
CN110795768B (zh) * 2020-01-06 2020-05-22 支付宝(杭州)信息技术有限公司 基于私有数据保护的模型学习方法、装置及系统
CN111245610B (zh) * 2020-01-19 2022-04-19 浙江工商大学 基于ntru同态加密的数据隐私保护深度学习方法
CN111260081B (zh) * 2020-02-14 2023-03-14 广州大学 一种非交互式隐私保护多方机器学习方法
CN111275202B (zh) * 2020-02-20 2023-08-11 济南大学 一种面向数据隐私保护的机器学习预测方法及系统
US11599806B2 (en) 2020-06-22 2023-03-07 International Business Machines Corporation Depth-constrained knowledge distillation for inference on encrypted data
CN111737751B (zh) * 2020-07-17 2020-11-17 支付宝(杭州)信息技术有限公司 实现隐私保护的分布式数据处理的方法及装置
CN111782550B (zh) * 2020-07-31 2022-04-12 支付宝(杭州)信息技术有限公司 基于用户隐私保护训练指标预测模型的方法及装置
CN112347495B (zh) * 2020-11-15 2023-05-26 北京物资学院 一种基于区块链的可信隐私智能服务计算系统及方法
CN114124343B (zh) * 2020-11-16 2023-11-14 神州融安数字科技(北京)有限公司 保护隐私的风险评分信息查询方法、装置、系统及设备
CN112241547B (zh) * 2020-11-23 2023-06-06 中国联合网络通信集团有限公司 车辆数据加密分析方法、边缘服务器及存储介质
CN112910624B (zh) * 2021-01-14 2022-05-10 东北大学 一种基于同态加密的密文预测方法
CN112733114B (zh) * 2021-01-14 2022-03-29 天津大学 一种面向智能家居的隐私保护人脸识别系统及方法
CN112822005B (zh) * 2021-02-01 2022-08-12 福州大学 基于同态加密的安全迁移学习系统
CN113704778A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 基于同态加密的机器学习线性模型预测方法
CN114003961B (zh) * 2021-12-03 2024-04-26 青岛大学 一种具有隐私性保护的深度神经网络推理方法
CN115051816B (zh) * 2022-08-17 2022-11-08 北京锘崴信息科技有限公司 基于隐私保护的云计算方法、金融数据云计算方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104181528A (zh) * 2014-08-06 2014-12-03 西安电子科技大学 基于bp优化的压缩感知多层isar成像方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160073257A1 (en) * 2014-09-04 2016-03-10 Wedoey, Inc. Console Display Terminal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104181528A (zh) * 2014-08-06 2014-12-03 西安电子科技大学 基于bp优化的压缩感知多层isar成像方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PPDP An efficient and privacy-preserving disease prediction scheme in cloud-based e-Healthcare system;Chuan Zhang , Liehuang Zhu , Chang Xu , Rongxing Lu;《Elsevier》;20170907;第16-20页 *
基于集成卷积神经网络的人脸年龄识别研究;李怀;《CNKI中国硕士学位论文全文数据库信息科技辑》;20170515;全文 *

Also Published As

Publication number Publication date
CN108259158A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN108259158B (zh) 一种云计算环境下高效和隐私保护的单层感知机学习方法
Li et al. Outsourced privacy-preserving classification service over encrypted data
Mandal et al. PrivFL: Practical privacy-preserving federated regressions on high-dimensional data over mobile networks
Liu et al. Hybrid privacy-preserving clinical decision support system in fog–cloud computing
CN112822005B (zh) 基于同态加密的安全迁移学习系统
WO2011052056A1 (ja) データ処理装置
Wang et al. Outsourced privacy-preserving decision tree classification service over encrypted data
WO2022015948A1 (en) Privacy-preserving fuzzy query system and method
Liu et al. Secure multi-label data classification in cloud by additionally homomorphic encryption
JP2014504741A (ja) サーバーにおいて記憶された隠れマルコフモデル(hmm)に対するクライアントにおいて記憶された観測値系列の確率を評価するための方法及びサーバー
Baryalai et al. Towards privacy-preserving classification in neural networks
CN111581648B (zh) 在不规则用户中保留隐私的联邦学习的方法
Li et al. Communication-efficient outsourced privacy-preserving classification service using trusted processor
CN116523074A (zh) 动态化公平性的隐私保护联邦深度学习方法
Khan et al. Blind faith: Privacy-preserving machine learning using function approximation
Das et al. A new modified version of standard RSA cryptography algorithm
Ma et al. Pmkt: Privacy-preserving multi-party knowledge transfer for financial market forecasting
Raja et al. Opposition based joint grey wolf-whale optimization algorithm based attribute based encryption in secure wireless communication
Zhang et al. A secure and privacy-preserving word vector training scheme based on functional encryption with inner-product predicates
Chen et al. Cryptanalysis and improvement of DeepPAR: Privacy-preserving and asynchronous deep learning for industrial IoT
Zhu et al. Practical secure naïve bayesian classification over encrypted big data in cloud
Nguyen et al. Split Without a Leak: Reducing Privacy Leakage in Split Learning
Li et al. Secure naïve Bayesian classification over encrypted data in cloud
Frimpong et al. GuardML: Efficient Privacy-Preserving Machine Learning Services Through Hybrid Homomorphic Encryption
Alex et al. Energy Efficient and Secure Neural Network–based Disease Detection Framework for Mobile Healthcare Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant