CN109992979B - 一种岭回归训练方法、计算设备、介质 - Google Patents
一种岭回归训练方法、计算设备、介质 Download PDFInfo
- Publication number
- CN109992979B CN109992979B CN201910196048.7A CN201910196048A CN109992979B CN 109992979 B CN109992979 B CN 109992979B CN 201910196048 A CN201910196048 A CN 201910196048A CN 109992979 B CN109992979 B CN 109992979B
- Authority
- CN
- China
- Prior art keywords
- ciphertext
- data
- acs
- data packet
- csp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Storage Device Security (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种岭回归训练方法,包括步骤:参数初始化,生成系统公共参数,生成各参与方的公私钥对,计算重加密密钥;接收训练请求时,计算联合公钥,用联合公钥加密私有数据,生成密文一;利用两阶段的解密机制,结合密文重加密技术,对密文一进行部分解密和重加密,生成密文二;通过DR对密文二进行解密,得到模型的最终训练结果。本发明用到ElGamal加法变体方案,结合密文重加密技术,保证数据资源在合作过程中的机密性的同时精简计算,提高计算速度的同时降低计算成本。
Description
技术领域
本发明涉及数据安全与隐私保护领域,特别涉及一种基于多源数据隐私保护的岭回归训练方法、计算设备、介质。
背景技术
近年来,大数据技术和人工智能正处于高速发展阶段,我们在日常生活中无时无刻不享受着大数据技术所带来的便利。然而,在享受这些便利的同时,伴随的是用户隐私数据的泄露,这些数据在无形之中被各企业所共享,换言之,我们其实是在牺牲隐私换取便利。用户隐私数据的泄露将会给用户造成很大的困扰,在大数据时代也愈发重视保护个人数据的隐私。常用的数据安全技术便是加密技术,将用户的私有数据加密后再存储在云端,数据加密技术能够防止数据的泄露,然而,普通的加密技术只能保证数据不会被泄露出去,却丧失了数据的可用性。
机器学习需要大量数据来训练更准确的模型,也就意味着用户经常需要把与个人隐私相关的数据上传到机器学习云服务器上进行训练,这就是正在大肆兴起的机器学习即服务(MLaaS)。目前,云服务提供商在MLaas方面发展迅速,但所有的训练数据都必须透露给执行该服务的操作人员,这个过程往往不能保证数据不会被第三方利用。
在密码学领域,同态加密和安全多方计算等密文计算方法为解决这个难题提供了一种有效的解决思路,利用同态密码学技术能够在加密的数据上执行一定的运算操作,并且等同于在明文上进行操作,即能够利用同态密码学构造在密文上训练机器学习模型的协议。但值得注意的是,全同态加密算法虽然支持在密文上进行任何运算,但由于效率低下的原因无法在现实场景中使用。而现有的很多技术虽然能够利用加法同态构造出密文上的机器学习训练协议,但由于执行算法的过程中用户与云服务器的交互次数太多,增加了方案的通信复杂度,使得整体机器学习的效率降低,还不能完全适用于现实场景,如Nikolaenko等人在2003年提出的基于Paillier和GC(使得开发人员能够使用基本的“异或”门、“或”门和“与”门来定义任意电路的基于Java的开源框架)的岭回归训练方案,由于使用了GC导致计算开销太大。在2005年Gascon等人也提出了一个基于垂直分区数据集的算法,但解决方案仍需要用到GC。参考文献:
[1]Nikolaenko V,Weinsberg U,Ioannidis S,et al.Privacy-PreservingRidge Regression on Hundreds of Millions of Records[C]//IEEE Symposium onSecurity&Privacy.IEEE Computer Society,2013.
[2]AdriàGascón,Schoppmann P,Balle B,et al.Privacy PreservingDistributed Linear Regression on High-Dimensional Data[J].Proceedings onPrivacy Enhancing Technologies,2017,2017(4):345–364.
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种岭回归训练方法,利用密文计算保障个人数据在加密服务提供商训练、流转过程中不泄露个人隐私,保证数据资源在合作过程中的机密性,同时精简计算,提高计算速度的同时降低计算成本。
本发明的目的通过以下的技术方案实现:
一种岭回归训练方法,包括如下步骤:
参数初始化,生成系统公共参数,生成DPs(数据提供者)、CSP(加密服务提供商)、ACS(辅助服务器)、DR(数据请求者)的公私钥对,计算ACS与DR的重加密密钥;
接收训练请求时,计算CSP与ACS的联合公钥,用联合公钥加密私有数据,生成密文一;
通过CSP对密文一进行部分解密,对密文一的每个数据项加噪声以盲化,生成数据包一;
通过ACS对数据包一进行解密后再加密,生成数据包二;
利用加法同态性质,通过CSP对数据包二进行去盲,加入正则化矩阵,得到中间值,并引入随机值对中间值进行盲化,同时将随机值用重加密密钥加密,生成包括盲化后中间值、加密后随机值的数据包三;
通过ACS对加密后随机值进行重加密、对盲化后中间值进行解密操作,生成密文二;
通过DR对密文二进行解密,得到模型的最终训练结果。
优选的,所述重加密密钥由ACS私钥和DR公钥计算得出。
优选的,通过引入常数对密文一每个数据项加噪声。
一种计算设备,用于实现上述岭回归训练方法,具体包括:
存储设备,用于存储用户数据;
处理器,用于处理数据;
所述处理器被配置为:参数初始化,生成系统公共参数,生成DPs(数据提供者)、CSP(加密服务提供商)、ACS(辅助服务器)、DR(数据请求者)的公私钥对,计算ACS与DR的重加密密钥;
接收训练请求时,计算CSP与ACS的联合公钥,用联合公钥加密私有数据,生成密文一;
通过CSP对密文一进行部分解密,对每个数据项加噪声,生成数据包一;
通过ACS对数据包一进行解密后再加密,生成数据包二;
利用加法同态性质,通过CSP对数据包二进行去盲,加入正则化矩阵,得到中间值,并引入随机值对中间值进行盲化,同时将随机值用重加密密钥加密,生成包括盲化后中间值、加密后随机值的数据包三;
通过ACS对加密后随机值进行重加密、对盲化后中间值进行解密操作,生成密文二;
通过DR对密文二进行解密,得到模型的最终训练结果。
优选的,所述计算设备还包括用于连接到网络的网络连接。
优选的,所述CSP和ACS实现在分离的计算设备上。
一种介质,为包含指令的机器可读介质,所述指令在被执行时实现上述岭回归训练方法的步骤。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明用到ElGamal加法变体方案,结合密文重加密技术,保证数据资源在合作过程中的机密性的同时精简计算,提高计算速度的同时降低计算成本。
2、利用密文计算保障个人数据在加密服务提供商训练、流转过程中不泄露个人隐私,,使得整个方案在计算和通信上都有明显的提升,而且所有的计算操作都是外包给加密服务提供商的,对用户而言是轻量级的,较适用于当前的云计算场景。
附图说明
图1是本发明实施例一种岭回归训练方法示意图。
图2为本发明实施例一种保护隐私的医学疾病诊断模型训练示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
在大数据时代,企业间的数据共享日益频繁,对多源数据进行关联分析和深度挖掘,能够将经过匿名化处理的数据复原,导致现有数据脱敏技术“失灵”,直接威胁用户的个人隐私数据。在大数据平台,一个数据资源池同时服务于多个数据提供者和数据使用者,强化数据隔离和访问控制,实现数据“可用不可见”,是大数据环境下数据安全的新需求。
本实施例用到ElGamal加法变体方案,结合密文重加密技术,以实现快速保密训练。
1.基于ElGamal的加法同态方案
由于原始的ElGamal方案是只具有乘法同态性的,而现有的很多场景都是需要加法同态性的,现有的很多文章都是基于ElGamal方案进行改进,使得其具有加法同态性。下面我们描述一个最直观的改进方法,该密码系统还包含的主要算法:Setup(初始化)、KeyGen(密钥生成)、Enc(加密)和Dec(解密)。
[m]=(A,B)=(gr mod p,αmhr mod p).
Dec:输入密文[m]和私钥x,该算法输出明文m。
该方案的加法同态性:
对于两条不同的消息m和m′,有如下的同态性质:
(1)[m]⊙[m′]=[m+m′],其中⊙是定义在密文上的某种运算,一般为乘法。
(2)[m]k=[k·m],其中k是一个常数。
在我们的方案中,我们假设私钥sk=sk1+sk2,对应的公钥pk′=(p,g,h′,α),其中h′=gsk mod p。在此,我们使用一个两阶段的解密机制,描述如下:
PDec1:用sk1进行部分解密,执行这个算法能够将原始密文转化为能够由sk2解密的密文,计算如下:
PDec2:用sk2进行解密,执行该算法可以最终解密得到结果,计算如下:
2.隐私保护的岭回归训练
给定由d个属性描述的样本xi=(xi1;xi2;…;xid),其中xij是样本xi在第j个属性上的取值,线性模型试图学得一个通过这d个属性的线性组合来进行预测的函数,即:f(x)=w1x1+w2x2+…+wdxd+b,一般用向量形式写成f(x)=wTx+b,得到w和b后,模型就确定了。我们假定数据集D={(x1,y1),(x2,y2),…,(xn,yn)},其中xi=(xi1;xi2;…;xid),将w和b吸收进入向量的形式并将每个样本xi都扩展到d+1维变成x′i,其中最后一个元素x′i(d+1)恒置为1。现需要训练一个岭回归模型以尽可能准确地预测新值对应的输出结果。
我们将数据集写成矩阵形式:
y=[y1,y2,…,yn]
我们提出下图所示的场景,拥有四部分实体:DPs(数据提供者)、CSP(云服务提供商)、ACS(辅助云服务器)、DR(数据请求者)。其中,DPs提供私有数据并加密上传到CSP;CSP具有不受限的存储空间和计算能力,存储所有用户的加密数据,并能够基于密文进行运算操作;ACS协助CSP执行岭回归训练协议;DR向DPs请求数据,并能够获取数据处理结果,一个DR同时也可以是DP。
接下来我们详述在该场景下进行岭回归训练的步骤:
步骤一:系统参数的初始化,生成该系统下的公共参数PP=(p,g,α),之后系统中的各参与方调用KeyGen算法生成自己的公私钥对:(pkCSP,skCSP)、(pkACS,skACS)、(pkDR,skDR),同时ACS利用自己的私钥和DR的公钥计算一个重加密密钥并发给CSP。
[y]PK=[[y1]PK,…,[yn]PK]T n×1。
步骤三:CSP执行PDec1算法,用skCSP对密文一进行部分解密,并对密文一的每个数据项都加噪声以盲化,生成数据包一,其中Rij和ri都是常数。
[y′]ACS=[[y1r1]ACS,…,[ynrn]ACS]T
将数据包一([X′]ACS,[y′]ACS)发给ACS。
步骤四:ACS收到数据包一后,对[X′]ACS和[y′]ACS进行解密,计算X′TX′和X′Ty′,并用pkACS加密,生成数据包二,将数据包二([X′TX′]ACS,[X′Ty′]ACS)返回给CSP:
步骤五:CSP对ACS返回的矩阵进行“去盲”操作,利用加法同态的性质,计算:
并加入正则化矩阵λI,得到中间值[G]ACS=[XTX+λI]ACS,再选择一个随机矩阵R和一个随机向量r,对A和b进行盲化,得到中间值C、E在ACS的公钥下加密的密文形式:[C]ACS=[GR]ACS,[E]ACS=[b+Gr]ACS,将矩阵R和r用rkACS→DR加密。把数据包三([C]ACS,[E]ACS,[R]rk,[r]rk)发送给ACS。
步骤六:ACS利用私钥对[R]rk和[r]rk进行重加密得到[R]DR和[r]DR,并对[C]ACS和[E]ACS执行解密操作,计算:
C-1=(AR)-1=R-1A-1
下面结合具体事例说明本发明原理,如图2所示,一种保护隐私的医学疾病诊断模型训练。
现假设某医学研究所需要训练一个糖尿病病情预测的模型,因此需要各医院提供糖尿病人的一些生理数据(如,年龄、性别、血压、各种血清的化验数据等),出于对病人隐私的保护,医院会对这些数据进行加密后再发送给云服务提供商,云平台基于密文进行模型的训练,最终该研究所能够获得糖尿病病情预测的模型,而云平台不会获知数据和模型的信息。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种岭回归训练方法,其特征在于,包括如下步骤:
参数初始化,生成系统公共参数,生成数据提供者DPs、加密服务提供商CSP、辅助服务器ACS、数据请求者DR的公私钥对,计算ACS与DR的重加密密钥;
接收训练请求时,计算CSP与ACS的联合公钥,用联合公钥加密私有数据,生成密文一;
通过CSP对密文一进行部分解密,对密文一的每个数据项加噪声以盲化,生成数据包一;
通过ACS对数据包一进行解密后再加密,生成数据包二;
利用加法同态性质,通过CSP对数据包二进行去盲,加入正则化矩阵,得到中间值,并引入随机值对中间值进行盲化,同时将随机值用重加密密钥加密,生成包括盲化后中间值、加密后随机值的数据包三;
通过ACS对加密后随机值进行重加密、对盲化后中间值进行解密操作,生成密文二;
通过DR对密文二进行解密,得到模型的最终训练结果。
2.根据权利要求1所述的岭回归训练方法,其特征在于,所述重加密密钥由ACS私钥和DR公钥计算得出。
3.根据权利要求1所述的岭回归训练方法,其特征在于,通过引入常数对密文一每个数据项加噪声。
4.一种计算设备,其特征在于,用于实现权利要求1-3任一项的岭回归训练方法,具体包括:
存储设备,用于存储用户数据;
处理器,用于处理数据;
所述处理器被配置为:参数初始化,生成系统公共参数,生成数据提供者DPs、加密服务提供商CSP、辅助服务器ACS、数据请求者DR的公私钥对,计算ACS与DR的重加密密钥;
接收训练请求时,计算CSP与ACS的联合公钥,用联合公钥加密私有数据,生成密文一;
通过CSP对密文一进行部分解密,对每个数据项加噪声,生成数据包一;
通过ACS对数据包一进行解密后再加密,生成数据包二;
利用加法同态性质,通过CSP对数据包二进行去盲,加入正则化矩阵,得到中间值,并引入随机值对中间值进行盲化,同时将随机值用重加密密钥加密,生成包括盲化后中间值、加密后随机值的数据包三;
通过ACS对加密后随机值进行重加密、对盲化后中间值进行解密操作,生成密文二;
通过DR对密文二进行解密,得到模型的最终训练结果。
5.根据权利要求4所述的计算设备,其特征在于,所述计算设备还包括用于连接到网络的网络连接。
6.根据权利要求4所述的计算设备,其特征在于,所述CSP和ACS实现在分离的计算设备上。
7.一种介质,其特征在于,为包含指令的机器可读介质,所述指令在被执行时实现权利要求1-3任一项岭回归训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910196048.7A CN109992979B (zh) | 2019-03-15 | 2019-03-15 | 一种岭回归训练方法、计算设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910196048.7A CN109992979B (zh) | 2019-03-15 | 2019-03-15 | 一种岭回归训练方法、计算设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109992979A CN109992979A (zh) | 2019-07-09 |
CN109992979B true CN109992979B (zh) | 2020-12-11 |
Family
ID=67129700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910196048.7A Active CN109992979B (zh) | 2019-03-15 | 2019-03-15 | 一种岭回归训练方法、计算设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109992979B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059501B (zh) * | 2019-04-16 | 2021-02-02 | 广州大学 | 一种基于差分隐私的安全外包机器学习方法 |
CN110572253B (zh) * | 2019-09-16 | 2023-03-24 | 济南大学 | 一种联邦学习训练数据隐私性增强方法及系统 |
CN111159727B (zh) * | 2019-12-11 | 2022-12-09 | 西安交通大学医学院第一附属医院 | 一种面向多方协同的贝叶斯分类器安全生成系统及方法 |
CN110955907B (zh) * | 2019-12-13 | 2022-03-25 | 支付宝(杭州)信息技术有限公司 | 一种基于联邦学习的模型训练方法 |
CN112668016B (zh) * | 2020-01-02 | 2023-12-08 | 华控清交信息科技(北京)有限公司 | 一种模型训练方法、装置和电子设备 |
CN112818362B (zh) * | 2021-01-29 | 2023-09-22 | 江苏理工学院 | 基于r-lwe的公钥加密方法 |
CN113077054B (zh) * | 2021-03-03 | 2022-11-29 | 暨南大学 | 基于多密钥密文的岭回归学习方法、系统、介质和设备 |
CN113807537B (zh) * | 2021-04-06 | 2023-12-05 | 京东科技控股股份有限公司 | 多源数据的数据处理方法、装置及电子设备、存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160036584A1 (en) * | 2013-03-04 | 2016-02-04 | Thomson Licensing | Privacy-preserving ridge regression using partially homomorphic encryption and masks |
EP3031165A2 (en) * | 2013-08-09 | 2016-06-15 | Thomson Licensing | A method and system for privacy preserving matrix factorization |
CN106170943A (zh) * | 2013-09-25 | 2016-11-30 | 汤姆逊许可公司 | 使用部分同态加密和掩码的隐私保护岭回归 |
CN103957109B (zh) * | 2014-05-22 | 2017-07-11 | 武汉大学 | 一种云数据隐私保护安全重加密方法 |
CN106534085B (zh) * | 2016-10-25 | 2019-09-06 | 杭州云象网络技术有限公司 | 一种基于区块链技术的隐私保护方法 |
US10644876B2 (en) * | 2017-01-20 | 2020-05-05 | Enveil, Inc. | Secure analytics using homomorphic encryption |
CN107592195A (zh) * | 2017-09-12 | 2018-01-16 | 北京电子科技学院 | 一种准全同态密文数据操作方法和系统 |
CN108712260B (zh) * | 2018-05-09 | 2021-06-25 | 曲阜师范大学 | 云环境下保护隐私的多方深度学习计算代理方法 |
CN109409125B (zh) * | 2018-10-12 | 2022-05-31 | 南京邮电大学 | 一种提供隐私保护的数据采集和回归分析方法 |
CN109361510B (zh) * | 2018-11-07 | 2021-06-11 | 西安电子科技大学 | 一种支持溢出检测和大整数运算的信息处理方法及应用 |
-
2019
- 2019-03-15 CN CN201910196048.7A patent/CN109992979B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109992979A (zh) | 2019-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992979B (zh) | 一种岭回归训练方法、计算设备、介质 | |
Xu et al. | Privacy-preserving federated deep learning with irregular users | |
Trieu et al. | Epione: Lightweight contact tracing with strong privacy | |
Li et al. | Privacy-preserving outsourced classification in cloud computing | |
Belguith et al. | Phoabe: Securely outsourcing multi-authority attribute based encryption with policy hidden for cloud assisted iot | |
Liu et al. | Efficient and privacy-preserving outsourced calculation of rational numbers | |
CN112822005B (zh) | 基于同态加密的安全迁移学习系统 | |
Deepa et al. | RETRACTED ARTICLE: E health care data privacy preserving efficient file retrieval from the cloud service provider using attribute based file encryption | |
US10102399B2 (en) | Secure evaluation of a program | |
US20150149763A1 (en) | Server-Aided Private Set Intersection (PSI) with Data Transfer | |
CN106850656B (zh) | 一种云环境下多用户文件共享控制方法 | |
Ding et al. | Efficient and privacy-preserving multi-party skyline queries over encrypted data | |
CN110213231A (zh) | 一种面向sgx的轻量级的外包数据访问控制方法及控制系统 | |
Akavia et al. | Linear-regression on packed encrypted data in the two-server model | |
Wang et al. | PPFLHE: A privacy-preserving federated learning scheme with homomorphic encryption for healthcare data | |
Cheng et al. | Strongly secure and efficient range queries in cloud databases under multiple keys | |
Xu et al. | Enabling comparable search over encrypted data for IoT with privacy-preserving | |
Wang et al. | Privacy preserving computations over healthcare data | |
Xu et al. | SPCSS: Social network based privacy-preserving criminal suspects sensing | |
Bai et al. | Scalable private decision tree evaluation with sublinear communication | |
Zhang et al. | Privacy-preserving multikey computing framework for encrypted data in the cloud | |
Suma et al. | Brakerski‐Gentry‐Vaikuntanathan fully homomorphic encryption cryptography for privacy preserved data access in cloud assisted Internet of Things services using glow‐worm swarm optimization | |
Li et al. | PMDP: A framework for preserving multiparty data privacy in cloud computing | |
Zhang et al. | Outsourced privacy-preserving anomaly detection in time series of multi-party | |
Yang et al. | Federated medical learning framework based on blockchain and homomorphic encryption |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |