CN107612675B - 一种隐私保护下的广义线性回归方法 - Google Patents

一种隐私保护下的广义线性回归方法 Download PDF

Info

Publication number
CN107612675B
CN107612675B CN201710850810.XA CN201710850810A CN107612675B CN 107612675 B CN107612675 B CN 107612675B CN 201710850810 A CN201710850810 A CN 201710850810A CN 107612675 B CN107612675 B CN 107612675B
Authority
CN
China
Prior art keywords
linear regression
data set
generalized linear
encryption
parameter vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710850810.XA
Other languages
English (en)
Other versions
CN107612675A (zh
Inventor
杨浩淼
何伟超
黄云帆
梁绍鹏
师兆森
鲁冰儿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201710850810.XA priority Critical patent/CN107612675B/zh
Publication of CN107612675A publication Critical patent/CN107612675A/zh
Application granted granted Critical
Publication of CN107612675B publication Critical patent/CN107612675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种隐私保护下的广义线性回归方法,旨在解决现有技术中在计算外包时云端不可信的时候在加密下情况下实现广义线性回归效率效和精度低的问题,本申请中结合加密算法以及线性回归方法以及梯度下降法实现了数据集加密之后的广义线性回归,也就是实现了云端不可信的情况下,加密保护下依旧可以进行数据处理等,实现了真正的计算外包,实现了明文的计算与密文的计算的相互对应,克服了传统的梯度下降法在密文下迭代的准确率低和计算速度慢的技术难题;本申请适用于向量同态计算相关领域。

Description

一种隐私保护下的广义线性回归方法
技术领域
本发明涉及向量同态计算相关领域,具体涉及一种隐私保护下的广义线性回归方法。
背景技术
数据爆发式增长的今天,使用机器学习,数据挖掘技术实现数据的产值最大化并成为人们实际需求。但是由于计算资源及其有限,使得像谷歌、微软、IBM等国际IT巨头都在发展自己的云计算平台以供商用。但是云端的安全问题一直是云计算发展的瓶颈。美国8家互联网巨头联名反对美国政府监控项目再次将云计算的安全问题聚焦到人们的视野。但是仅仅从政策上来保护云端安全是远远不够的,也无法打消人们对云端安全问题的顾虑。
2010年Rob Hall等人提出了一种隐私保护的线性回归。但是这种方法基于多方安全计算,没有真正实现计算外包。本发明针对云端安全问题以及人们对于大规模计算得需求,提出了一种基于同态加密的隐私保护的广义线性回归方法,该方法能够实现广义线性的训练与预测。
同态加密方案的具体细节,参考文献:[1]Hongchao Zhou,Gregory Wornell.“Efficient Homomorphic Encryption on Integer Vectors and Its Applications.”Information Theory and Applications Workshop(ITA).IEEE,2014,其中有相关知识的介绍。
线性回归的模型简单,但是变化丰富。可以直接将线性回归的模型简写成:y=wT+b,对数线性回归的模型简写成:lny=wT+b,实际上让
Figure GDA0001439074760000011
与y无限逼近,虽然形式依旧是线性回归的模型,但是这里的对数函数将线性回归模型预测与真实值标记联系起来,更一般的是利用可微函数g,令其:y=g-1(wT+b),则g(y)=(wT+b),这种称为广义的线性回归,显然对于广义的线性回归模型更容易进行应用。
发明内容
本发明的目的在于:针对现有技术中在计算外包时云端不可信的时候在加密下情况下实现广义线性回归效率低和精度低的问题,本申请提供了一种高效、高精度隐私保护下的广义线性回归方法。
本发明采用的技术方案如下:
一种隐私保护下的广义线性回归方法,其特征在于,包括以下步骤:
步骤1:利用可微函数g对目标数据集D变换得到广义线性回归数据集D1
具体地,所述步骤1的具体步骤为:
目标数据集为D=[(x1,y1),(x2,y2),…,(xn,yn)],选择可逆可导函数g,定义zi=g(yi),根据zi=g(yi)对目标数据集D变换得到广义线性回归数据集D1,其中广义线性回归数据集D1为D1=[((x1,z1),(x2,z2),…,(xn,zn)]。
步骤2:根据使用同态加密方案中的方法,定义加密参数w和加密私钥S,对广义线性回归数据集D1加密得到加密数据集D′;
具体地,所述步骤2采用VHE加密算法进行加密,具体步骤为:
步骤2.1:根据加密公式S=wx+e,得到关系SD′=wD1+e,其中S为私钥矩阵,D′加密数据集,e为噪声数据集,w为加密参数,其中加密私钥S=[I,T],构造公钥矩阵为
Figure GDA0001439074760000021
步骤2.2:D′=M(wD1)*,根据AM=I*,获得矩阵A;
步骤2.3:根据范数矩阵H=ATA,获得范数矩阵H以及加密数据集D′=[((c1,z1),(c2,z2),…,(cn,zn)];
步骤3:定义密文参数向量θ′,根据密文参数向量θ′定义加密数据集D′的预测值与真实值之间的差值获得损失函数J(θ′),定义迭代步长为α,设定最大目标损失参数β,并获得出迭代更新模型,若J(θ′i)-J(θ′i-1)<β,则停止迭代,获得此时的损失向量θ′;
具体地,所述步骤3的具体步骤为:
步骤3.1:定义密文参数向量θ′;
步骤3.2:获得损失函数
Figure GDA0001439074760000022
步骤3.3:定义迭代步长为α,设定损失阈值β,采用梯度下降法得到迭代更新模型,具体:
产生随机向量θ0,更新向量:
Figure GDA0001439074760000023
其中j=(1,…,d+1);
向量形式表示
Figure GDA0001439074760000024
为:
Figure GDA0001439074760000025
定义(θ′Txi-zi)=Ri,进行简化推导:
Figure GDA0001439074760000031
变换形式得到:
Figure GDA0001439074760000032
最终向量更新形式为:
θ′:=θ′-α*R1c1′-α*R1c2′…-α*Rncn′,将(θ′Txi-zi)=Ri进行替换得到迭代更新模型:
Figure GDA0001439074760000033
步骤3.4:迭代至J(θ′i)-J(θ′i-1)<β,则停止迭代,获得此时的密文参数向量θ′;
步骤4:根据密文参数向量θ′,加密参数w和加密私钥S获得明文参数向量θ,根据明文参数向量θ,实现隐私保护下的目标数据集D广义线性回归与明文的目标数据集D广义线性回归误差最小化;
具体地,所述步骤4的具体步骤为:
根据密文参数向量θ′,根据θ=S*θ′/w获得明文参数向量θ,实现隐私保护下的目标数据集D广义线性回归与明文的目标数据集D广义线性回归误差最小化。
其中应当说明的是:满足精度要求下,设定损失阈值β;所述α可以取值为0.1或0.01等较小的取值;其中应当说明的是损失函数J(θ′)是加密数据集D′的预测值与真实值的差值,也就是表示密文下的的预测值与真实值差值;
Figure GDA0001439074760000034
表示赋值运算符合,即将等式右边的值赋予左边;“隐私保护”是指“加密保护”;“明文”是指“不加密”。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本申请中结合加密算法以及线性回归方法实现了数据集加密之后的广义线性回归,也就是实现了云端不可信的情况下,加密保护下依旧可以进数据处理等,实现了真正的计算外包;
2.本申请中结合梯度下降法,利用密文情况下的最小损失函数求解得到明文参数向量,实现了密文情况下的广义线性回归的预测值与真实值之间的更加逼近,同时也实现了密文情况下的广义线性回归与明文情况下的广义线性回归之间的误差最小化;
3.本申请对线性回归对密文下的数据集进行广义线性回归,实现了明文的计算与密文的计算的相互对应,克服了传统的梯度下降法迭代的准确率低的技术难题;
4.本申请采用VHE加密算法进行加密,实现了向量的运算下的加密算法,类同态加密方案,实现了快速加密。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种隐私保护下的广义线性回归方法,其特征在于,包括以下步骤:
步骤1:利用可微函数g对目标数据集D变换得到广义线性回归数据集D1
具体地,所述步骤1的具体步骤为:
目标数据集为D=[(x1,y1),(x2,y2),…,(xn,yn)],选择可逆可导函数g,定义zi=g(yi),根据zi=g(yi)对目标数据集D变换得到广义线性回归数据集D1,其中广义线性回归数据集D1为D1=[((x1,z1),(x2,z2),…,(xn,zn)]。
步骤2:根据使用同态加密方案中的方法,定义加密参数w和加密私钥S,对广义线性回归数据集D1加密得到加密数据集D′;
具体地,所述步骤2采用VHE加密算法进行加密,具体步骤为:
步骤2.1:根据加密公式Sc=wx+e得到关系SD′=wD1+e,,其中S为私钥矩阵,D′加密数据集,e为噪声数据集,w为加密参数,其中加密私钥S=[I,T],构造公钥矩阵为
Figure GDA0001439074760000041
步骤2.2:D′=M(wD1)*,根据AM=I*,获得矩阵A;
步骤2.3:根据范数矩阵H=ATA,获得范数矩阵H以及加密数据集D′=[((c1,z1),(c2,z2),…,(cn,zn)];
步骤3:定义密文参数向量θ′,根据密文参数向量θ′定义加密数据集D′的预测值与真实值之间的差值获得损失函数J(θ′),定义迭代步长为α,设定最大目标损失参数β,并获得出迭代更新模型,若J(θ′i)-J(θ′i-1)<β,则停止迭代,获得此时的损失向量θ′;
具体地,所述步骤3的具体步骤为:
步骤3.1:定义密文参数向量θ′;
步骤3.2:获得损失函数
Figure GDA0001439074760000042
步骤3.3:定义迭代步长为α,设定损失阈值β,采用梯度下降法得到迭代更新模型,具体
产生随机向量θ0,更新向量:
Figure GDA0001439074760000051
其中j=(1,…,d+1);
向量形式表示
Figure GDA0001439074760000052
为:
Figure GDA0001439074760000053
定义(θ′Txi-zi)=Ri,进行简化推导:
Figure GDA0001439074760000054
变换形式得到:
Figure GDA0001439074760000055
最终向量更新形式为:
θ′:=θ′-α*R1c1′-α*R1c2′…-α*Rncn′,将(θ′Txi-zi)=Ri进行替换得到迭代更新模型:
Figure GDA0001439074760000056
步骤3.4:迭代至J(θ′i)-J(θ′i-1)<β,则停止迭代,获得此时的密文参数向量θ′;
步骤4:根据密文参数向量θ′,加密参数w和加密私钥S获得明文参数向量θ,根据明文参数向量θ,实现隐私保护下的目标数据集D广义线性回归与明文的目标数据集D广义线性回归误差最小化;
具体地,所述步骤4的具体步骤为:
根据密文参数向量θ′,根据θ=S*θ′/w获得明文参数向量θ,实现隐私保护下的目标数据集D广义线性回归与明文的目标数据集D广义线性回归误差最小化。
实施例一
目标数据集
D
=(574 425 404 625 315 573 151;109 772 734 250 520 394 403;105 766734 237 794 386 391;105 766 730 237 1000 380 384;71 580 553 750 383 628 66;42461 442 525 315 444 720;63 720 684 100 931 690 208;33 0 873 1000 109 122 812;63 0 911 550 109 225 961;704 0 538 675 109 546 311;33 549 523 600 383 125927;46 564 534 412 178 175 1000;21 673 642 687 109 78 747;915 0 0 925 109 734192;1000 0 0 375 178 892 342;92 601 573 187 726 716 303;67 0 919 500 109 859166;666 549 523 575 452 122 479;729 0 550 100 383 602 625;670 502 0 737 315655 169;708 518 0 450 383 734 246;729 0 550 725 383 231 625;46 932 0 287 452772 445;37 922 0 400 452 739 414;21 673 642 175 452 511 552;12 663 630 287520 476 514;721 575 546 712 383 219 173;666 549 523 600 109 476 35;679 554526 512 109 497 55;746 0 619 587 109 418 445;776 0 630 375 41 473 510;894 0684 875 109 225 307;966 0 719 387 178 339 445;578 461 442 525 315 149 713;0865 823 825 109 0 445;582 512 488 300 589 298 571;485 393 373 425 246 371690;118 777 0 275 520 921 338;88 0 946 175 178 956 250;80 0 934 250 452 918219;33 917 873 612 452 128 284;71 730 696 925 452 260 162;97 756 723 537 452353 265;649 544 0 562 109 441 598;679 554 0 325 109 500 667;763 652 0 625 109447 368;603 476 453 587 315 511 146;632 487 465 350 315 573 211;822 0 653 0109 561 632;797 0 642 175 109 514 579;772 0 626 350 315 462 517;864 704 0 812452 181 407;924 735 0 412 452 272 525;725 0 546 725 383 596 150;780 0 573 325246 710 261;92 1000 0 600 520 330 678;717 569 0 362 383 573 475;742 642 0 562452 403 449;25 678 646 712 109 535 120;12 663 630 962 109 470 58;594 0 450562 315 488 605;637 0 465 212 178 584 720;683 554 0 625 383 505 399;649 538 0887 315 435 322;540 445 426 437 109 365 571;92 0 953 187 520 973 162;97 0 961100 520 997 181;122 0 1000 287 589 441 713;772 658 630 637 109 38 315;839 6940 775 109 140 560;586 466 446 250 315 473 487;742 580 0 750 383 251 567;780601 0 450 383 321 659;662 549 523 587 109 114 525;37 549 526 612 109 488 475;50 564 534 412 109 538 533;92 0 719 200 452 824 567;523 404 384 512 315 456460;12 7 761 186 0 1000 535;17 3 805 360 13 842 568;13 21 830 423 20 998 265;13 61 869 597 34 915 165;97 1 923 918 328 213 767;13 158 919 117 61 937 390;13 232 903 141 75 993 242;14 316 918 281 89 905 156;26 475 922 510 123 75124;241 1 923 927 308 212 653;56 574 921 101 143 854 101;56 577 918 91 143 852114;77 632 923 248 157 756 45;119 741 916 505 184 512 45;703 1 922 955 267210 285;147 839 917 75 205 717 3;151 820 921 80 205 715 13;199 794 920 237212 620 1;331 584 919 483 205 514 32;667 0 922 952 267 211 314;469 523 919111 226 720 0;468 523 922 113 226 707 13;513 455 921 191 219 675 20;675 211922 425 212 587 42;893 0 858 606 356 228 449);
其中可微函数g=x;损失阈值β取0.1,迭代步长α=0.00000001;根据运算得出密文参数向量θ′为:
θ′=
(-184405798.6,-131798621.4,-170070236.7,-114104629.9,-171051528.2,-160409032.2,-351219.7593,-5.807009492,-5.447309536,-5.486462196,-5.782825121,-6.0359208,-6.167139059,-6.209441639,-5.298847879)
进而获得明文参数向量θ
θ=
(0.1717684044,0.1227692636,0.185400493,0.1584109234,0.106300244,0.1593212539,0.1494076144,0.0003470551279)
由实验运行结果,可以看出实现了加密情况下的线性回归,同时还实现了明文的计算与密文的计算的相互对应。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (2)

1.一种隐私保护下的广义线性回归方法,其特征在于,包括以下步骤:
步骤1:利用可微函数g对目标数据集D变换得到广义线性回归数据集D1
所述步骤1的具体步骤为:
目标数据集为D=[(x1,y1),(x2,y2),…,(xn,yn)],选择可逆可导函数g,定义zi=g(yi),根据zi=g(yi)对目标数据集D变换得到广义线性回归数据集D1,其中广义线性回归数据集D1为D1=[((x1,z1),(x2,z2),…,(xn,zn)];
步骤2:使用同态加密方案对广义线性回归数据集D1加密得到加密数据集D′;
所述步骤2采用VHE加密算法进行加密,具体步骤为:
步骤2.1:根据加密公式Sc=wx+e,得到关系SD′=wD1+e,其中S为私钥矩阵,D′加密数据集,e为噪声数据集,w为加密参数,其中加密私钥S=[I,T],构造公钥矩阵为
Figure FDA0002581494120000011
步骤2.2:D′=M(wD1)*,根据AM=I*,获得矩阵A;
步骤2.3:根据范数矩阵H=ATA,获得范数矩阵H以及加密数据集D′=[((c1,z1),(c2,z2),…,(cn,zn)];
步骤3:定义密文参数向量θ′,根据密文参数向量θ′定义加密数据集D′的预测值与真实值之间的差值获得损失函数J(θ′),设定损失阈值β,并获得出迭代更新模型,若J(θ′i)-J(θ′i-1)<β,则停止迭代,获得此时的密文参数向量θ′;
步骤4:根据密文参数向量θ′获得明文参数向量θ,实现隐私保护下的目标数据集D广义线性回归与明文的目标数据集D广义线性回归误差最小化;
所述步骤4的具体步骤为:
根据密文参数向量θ′,根据θ=S*θ′/w获得明文参数向量θ,实现隐私保护下的目标数据集D广义线性回归与明文的目标数据集D广义线性回归误差最小化。
2.如权利要求1所述的一种隐私保护下的广义线性回归方法,其特征在于,所述步骤3的具体步骤为:
步骤3.1:定义密文参数向量θ′;
步骤3.2:获得损失函数
Figure FDA0002581494120000012
步骤3.3:定义迭代步长为α,设定损失阈值β,采用梯度下降法得到迭代更新模型为:
Figure FDA0002581494120000013
步骤3.4:迭代至J(θ′i)-J(θ′i-1)<β,则停止迭代,获得此时的密文参数向量θ′。
CN201710850810.XA 2017-09-20 2017-09-20 一种隐私保护下的广义线性回归方法 Active CN107612675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710850810.XA CN107612675B (zh) 2017-09-20 2017-09-20 一种隐私保护下的广义线性回归方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710850810.XA CN107612675B (zh) 2017-09-20 2017-09-20 一种隐私保护下的广义线性回归方法

Publications (2)

Publication Number Publication Date
CN107612675A CN107612675A (zh) 2018-01-19
CN107612675B true CN107612675B (zh) 2020-09-25

Family

ID=61061547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710850810.XA Active CN107612675B (zh) 2017-09-20 2017-09-20 一种隐私保护下的广义线性回归方法

Country Status (1)

Country Link
CN (1) CN107612675B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019072316A2 (en) * 2019-01-11 2019-04-18 Alibaba Group Holding Limited DISTRIBUTED MULTI-PART SECURITY MODEL LEARNING APPARATUS FOR PRIVACY PROTECTION
CN110190945B (zh) * 2019-05-28 2022-07-19 暨南大学 基于多加密的线性回归隐私保护方法及系统
CN110569227B (zh) * 2019-08-09 2020-08-14 阿里巴巴集团控股有限公司 模型参数确定方法、装置和电子设备
CN110969261B (zh) * 2019-11-29 2023-11-28 中国银行股份有限公司 基于加密算法的模型构建方法及相关设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110126197A1 (en) * 2009-11-25 2011-05-26 Novell, Inc. System and method for controlling cloud and virtualized data centers in an intelligent workload management system
CN106170943A (zh) * 2013-09-25 2016-11-30 汤姆逊许可公司 使用部分同态加密和掩码的隐私保护岭回归
CN105425589B (zh) * 2015-12-22 2016-09-14 中国人民解放军国防科学技术大学 提高航天器惯性参数辨识精度的输入信号设计方法
CN106790069B (zh) * 2016-12-21 2020-03-31 电子科技大学 基于向量同态加密的隐私保护k-nn分类方法
CN107147484B (zh) * 2017-05-12 2020-03-31 南京邮电大学 一种面向隐私保护的浮点数全同态加密方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hongchao Zhou;Gregory Wornell.Efficient homomorphic encryption on integer vectors and its applications.《2014 Information Theory and Applications Workshop (ITA)》.2014, *

Also Published As

Publication number Publication date
CN107612675A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
CN107612675B (zh) 一种隐私保护下的广义线性回归方法
CN109002861B (zh) 联邦建模方法、设备及存储介质
Tang et al. Non-interactive privacy-preserving truth discovery in crowd sensing applications
WO2021114585A1 (zh) 模型训练方法、装置和电子设备
US9276734B2 (en) Confidential computation system, confidential computation method, and confidential computation program
WO2015155896A1 (ja) サポートベクトルマシン学習システムおよびサポートベクトルマシン学習方法
US20120303565A1 (en) Learning processes for single hidden layer neural networks with linear output units
EP3278263B1 (en) Computing on encrypted data using deferred evaluation
US11516008B2 (en) Efficient post-quantum secure software updates tailored to resource-constrained devices
US11381381B2 (en) Privacy preserving oracle
WO2020156004A1 (zh) 模型训练方法、装置及系统
US10387501B2 (en) Grouping records in buckets distributed across nodes of a distributed database system to perform comparison of the grouped records
US11438172B2 (en) Robust state synchronization for stateful hash-based signatures
US11275866B2 (en) Image processing method and image processing system for deep learning
WO2020040482A3 (ko) 전문가 플랫폼의 제어 방법, 장치 및 프로그램
CN111107076A (zh) 一种安全高效的矩阵乘法外包方法
Lu et al. More practical privacy-preserving machine learning as a service via efficient secure matrix multiplication
CN115150063A (zh) 模型加密的方法、装置及电子设备
CN117439731B (zh) 基于同态加密的隐私保护大数据主成分分析方法及系统
CN117034307A (zh) 数据加密方法、装置、计算机设备和存储介质
CN107944290B (zh) 一种基于局部排序的虹膜模板保护方法
JP6961527B2 (ja) 情報処理装置、学習方法、及びプログラム
CN116187433A (zh) 基于秘密分享的联邦拟牛顿训练方法、装置及存储介质
US10467405B2 (en) Format preserving encryption of floating point data
Mewada et al. Artificial bee colony-based approach for privacy preservation of medical data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant