CN107612675B

CN107612675B - 一种隐私保护下的广义线性回归方法

Info

Publication number: CN107612675B
Application number: CN201710850810.XA
Authority: CN
Inventors: 杨浩淼; 何伟超; 黄云帆; 梁绍鹏; 师兆森; 鲁冰儿
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2020-09-25
Anticipated expiration: 2037-09-20
Also published as: CN107612675A

Abstract

本发明公开了一种隐私保护下的广义线性回归方法，旨在解决现有技术中在计算外包时云端不可信的时候在加密下情况下实现广义线性回归效率效和精度低的问题，本申请中结合加密算法以及线性回归方法以及梯度下降法实现了数据集加密之后的广义线性回归，也就是实现了云端不可信的情况下，加密保护下依旧可以进行数据处理等，实现了真正的计算外包，实现了明文的计算与密文的计算的相互对应，克服了传统的梯度下降法在密文下迭代的准确率低和计算速度慢的技术难题；本申请适用于向量同态计算相关领域。

Description

一种隐私保护下的广义线性回归方法

技术领域

本发明涉及向量同态计算相关领域，具体涉及一种隐私保护下的广义线性回归方法。

背景技术

数据爆发式增长的今天，使用机器学习，数据挖掘技术实现数据的产值最大化并成为人们实际需求。但是由于计算资源及其有限，使得像谷歌、微软、IBM等国际IT巨头都在发展自己的云计算平台以供商用。但是云端的安全问题一直是云计算发展的瓶颈。美国8家互联网巨头联名反对美国政府监控项目再次将云计算的安全问题聚焦到人们的视野。但是仅仅从政策上来保护云端安全是远远不够的，也无法打消人们对云端安全问题的顾虑。

2010年Rob Hall等人提出了一种隐私保护的线性回归。但是这种方法基于多方安全计算，没有真正实现计算外包。本发明针对云端安全问题以及人们对于大规模计算得需求，提出了一种基于同态加密的隐私保护的广义线性回归方法，该方法能够实现广义线性的训练与预测。

同态加密方案的具体细节，参考文献：[1]Hongchao Zhou,Gregory Wornell.“Efficient Homomorphic Encryption on Integer Vectors and Its Applications.”Information Theory and Applications Workshop(ITA).IEEE,2014，其中有相关知识的介绍。

线性回归的模型简单，但是变化丰富。可以直接将线性回归的模型简写成：y＝w^T+b，对数线性回归的模型简写成：lny＝w^T+b,实际上让

与y无限逼近，虽然形式依旧是线性回归的模型，但是这里的对数函数将线性回归模型预测与真实值标记联系起来，更一般的是利用可微函数g，令其：y＝g^-1(w^T+b)，则g(y)＝(w^T+b)，这种称为广义的线性回归，显然对于广义的线性回归模型更容易进行应用。

发明内容

本发明的目的在于：针对现有技术中在计算外包时云端不可信的时候在加密下情况下实现广义线性回归效率低和精度低的问题，本申请提供了一种高效、高精度隐私保护下的广义线性回归方法。

本发明采用的技术方案如下：

一种隐私保护下的广义线性回归方法,其特征在于，包括以下步骤：

步骤1：利用可微函数g对目标数据集D变换得到广义线性回归数据集D₁；

具体地，所述步骤1的具体步骤为：

目标数据集为D＝[(x₁,y₁),(x₂,y₂),…,(x_n,y_n)]，选择可逆可导函数g，定义z_i＝g(y_i),根据z_i＝g(y_i)对目标数据集D变换得到广义线性回归数据集D₁，其中广义线性回归数据集D₁为D₁＝[((x₁,z₁),(x₂,z₂),…,(x_n,z_n)]。

步骤2：根据使用同态加密方案中的方法，定义加密参数w和加密私钥S，对广义线性回归数据集D₁加密得到加密数据集D′；

具体地，所述步骤2采用VHE加密算法进行加密，具体步骤为：

步骤2.1：根据加密公式S＝wx+e,得到关系SD′＝wD₁+e,其中S为私钥矩阵，D′加密数据集，e为噪声数据集，w为加密参数，其中加密私钥S＝[I,T]，构造公钥矩阵为

步骤2.2：D′＝M(wD₁)^*,根据AM＝I^*，获得矩阵A；

步骤2.3：根据范数矩阵H＝A^TA，获得范数矩阵H以及加密数据集D′＝[((c₁,z₁),(c₂,z₂),…,(c_n,z_n)]；

步骤3：定义密文参数向量θ′，根据密文参数向量θ′定义加密数据集D′的预测值与真实值之间的差值获得损失函数J(θ′)，定义迭代步长为α，设定最大目标损失参数β，并获得出迭代更新模型，若J(θ′_i)-J(θ′_i-1)<β,则停止迭代，获得此时的损失向量θ′；

具体地，所述步骤3的具体步骤为：

步骤3.1：定义密文参数向量θ′；

步骤3.2：获得损失函数

步骤3.3：定义迭代步长为α，设定损失阈值β，采用梯度下降法得到迭代更新模型，具体：

产生随机向量θ₀，更新向量:

其中j＝(1,…,d+1)；

向量形式表示

为：

定义(θ′^Tx_i-z_i)＝R_i,进行简化推导：

变换形式得到：

最终向量更新形式为：

θ′:＝θ′-α*R₁c₁′-α*R₁c₂′…-α*R_nc_n′,将(θ′^Tx_i-z_i)＝R_i进行替换得到迭代更新模型：

步骤3.4：迭代至J(θ′_i)-J(θ′_i-1)<β，则停止迭代，获得此时的密文参数向量θ′；

步骤4：根据密文参数向量θ′，加密参数w和加密私钥S获得明文参数向量θ，根据明文参数向量θ，实现隐私保护下的目标数据集D广义线性回归与明文的目标数据集D广义线性回归误差最小化；

具体地，所述步骤4的具体步骤为：

根据密文参数向量θ′，根据θ＝S*θ′/w获得明文参数向量θ，实现隐私保护下的目标数据集D广义线性回归与明文的目标数据集D广义线性回归误差最小化。

其中应当说明的是：满足精度要求下，设定损失阈值β；所述α可以取值为0.1或0.01等较小的取值；其中应当说明的是损失函数J(θ′)是加密数据集D′的预测值与真实值的差值，也就是表示密文下的的预测值与真实值差值；

表示赋值运算符合，即将等式右边的值赋予左边；“隐私保护”是指“加密保护”；“明文”是指“不加密”。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本申请中结合加密算法以及线性回归方法实现了数据集加密之后的广义线性回归，也就是实现了云端不可信的情况下，加密保护下依旧可以进数据处理等，实现了真正的计算外包；

2.本申请中结合梯度下降法，利用密文情况下的最小损失函数求解得到明文参数向量，实现了密文情况下的广义线性回归的预测值与真实值之间的更加逼近，同时也实现了密文情况下的广义线性回归与明文情况下的广义线性回归之间的误差最小化；

3.本申请对线性回归对密文下的数据集进行广义线性回归，实现了明文的计算与密文的计算的相互对应，克服了传统的梯度下降法迭代的准确率低的技术难题；

4.本申请采用VHE加密算法进行加密，实现了向量的运算下的加密算法，类同态加密方案，实现了快速加密。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体地，所述步骤1的具体步骤为：

具体地，所述步骤2采用VHE加密算法进行加密，具体步骤为：

步骤2.1：根据加密公式Sc＝wx+e得到关系SD′＝wD₁+e,,其中S为私钥矩阵，D′加密数据集，e为噪声数据集，w为加密参数，其中加密私钥S＝[I,T]，构造公钥矩阵为

步骤2.2：D′＝M(wD₁)^*,根据AM＝I^*，获得矩阵A；

具体地，所述步骤3的具体步骤为：

步骤3.1：定义密文参数向量θ′；

步骤3.2：获得损失函数

步骤3.3：定义迭代步长为α，设定损失阈值β，采用梯度下降法得到迭代更新模型，具体

产生随机向量θ₀，更新向量:

其中j＝(1,…,d+1)；

向量形式表示

为：

定义(θ′^Tx_i-z_i)＝R_i,进行简化推导：

变换形式得到：

最终向量更新形式为：

具体地，所述步骤4的具体步骤为：

实施例一

目标数据集

D

＝(574 425 404 625 315 573 151；109 772 734 250 520 394 403；105 766734 237 794 386 391；105 766 730 237 1000 380 384；71 580 553 750 383 628 66；42461 442 525 315 444 720；63 720 684 100 931 690 208；33 0 873 1000 109 122 812；63 0 911 550 109 225 961；704 0 538 675 109 546 311；33 549 523 600 383 125927；46 564 534 412 178 175 1000；21 673 642 687 109 78 747；915 0 0 925 109 734192；1000 0 0 375 178 892 342；92 601 573 187 726 716 303；67 0 919 500 109 859166；666 549 523 575 452 122 479；729 0 550 100 383 602 625；670 502 0 737 315655 169；708 518 0 450 383 734 246；729 0 550 725 383 231 625；46 932 0 287 452772 445；37 922 0 400 452 739 414；21 673 642 175 452 511 552；12 663 630 287520 476 514；721 575 546 712 383 219 173；666 549 523 600 109 476 35；679 554526 512 109 497 55；746 0 619 587 109 418 445；776 0 630 375 41 473 510；894 0684 875 109 225 307；966 0 719 387 178 339 445；578 461 442 525 315 149 713；0865 823 825 109 0 445；582 512 488 300 589 298 571；485 393 373 425 246 371690；118 777 0 275 520 921 338；88 0 946 175 178 956 250；80 0 934 250 452 918219；33 917 873 612 452 128 284；71 730 696 925 452 260 162；97 756 723 537 452353 265；649 544 0 562 109 441 598；679 554 0 325 109 500 667；763 652 0 625 109447 368；603 476 453 587 315 511 146；632 487 465 350 315 573 211；822 0 653 0109 561 632；797 0 642 175 109 514 579；772 0 626 350 315 462 517；864 704 0 812452 181 407；924 735 0 412 452 272 525；725 0 546 725 383 596 150；780 0 573 325246 710 261；92 1000 0 600 520 330 678；717 569 0 362 383 573 475；742 642 0 562452 403 449；25 678 646 712 109 535 120；12 663 630 962 109 470 58；594 0 450562 315 488 605；637 0 465 212 178 584 720；683 554 0 625 383 505 399；649 538 0887 315 435 322；540 445 426 437 109 365 571；92 0 953 187 520 973 162；97 0 961100 520 997 181；122 0 1000 287 589 441 713；772 658 630 637 109 38 315；839 6940 775 109 140 560；586 466 446 250 315 473 487；742 580 0 750 383 251 567；780601 0 450 383 321 659；662 549 523 587 109 114 525；37 549 526 612 109 488 475；50 564 534 412 109 538 533；92 0 719 200 452 824 567；523 404 384 512 315 456460；12 7 761 186 0 1000 535；17 3 805 360 13 842 568；13 21 830 423 20 998 265；13 61 869 597 34 915 165；97 1 923 918 328 213 767；13 158 919 117 61 937 390；13 232 903 141 75 993 242；14 316 918 281 89 905 156；26 475 922 510 123 75124；241 1 923 927 308 212 653；56 574 921 101 143 854 101；56 577 918 91 143 852114；77 632 923 248 157 756 45；119 741 916 505 184 512 45；703 1 922 955 267210 285；147 839 917 75 205 717 3；151 820 921 80 205 715 13；199 794 920 237212 620 1；331 584 919 483 205 514 32；667 0 922 952 267 211 314；469 523 919111 226 720 0；468 523 922 113 226 707 13；513 455 921 191 219 675 20；675 211922 425 212 587 42；893 0 858 606 356 228 449)；

其中可微函数g＝x；损失阈值β取0.1，迭代步长α＝0.00000001；根据运算得出密文参数向量θ′为：

θ′＝

(-184405798.6,-131798621.4,-170070236.7,-114104629.9,-171051528.2,-160409032.2,-351219.7593,-5.807009492,-5.447309536,-5.486462196,-5.782825121,-6.0359208,-6.167139059,-6.209441639,-5.298847879)

进而获得明文参数向量θ

θ＝

(0.1717684044,0.1227692636,0.185400493,0.1584109234,0.106300244,0.1593212539,0.1494076144,0.0003470551279)

由实验运行结果，可以看出实现了加密情况下的线性回归，同时还实现了明文的计算与密文的计算的相互对应。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种隐私保护下的广义线性回归方法,其特征在于，包括以下步骤：

所述步骤1的具体步骤为：

目标数据集为D＝[(x₁,y₁),(x₂,y₂),…,(x_n,y_n)]，选择可逆可导函数g，定义z_i＝g(y_i),根据z_i＝g(y_i)对目标数据集D变换得到广义线性回归数据集D₁，其中广义线性回归数据集D₁为D₁＝[((x₁,z₁),(x₂,z₂),…,(x_n,z_n)]；

步骤2：使用同态加密方案对广义线性回归数据集D₁加密得到加密数据集D′；

所述步骤2采用VHE加密算法进行加密，具体步骤为：

步骤2.1：根据加密公式Sc＝wx+e,得到关系SD′＝wD₁+e,其中S为私钥矩阵，D′加密数据集，e为噪声数据集，w为加密参数，其中加密私钥S＝[I,T]，构造公钥矩阵为

步骤2.2：D′＝M(wD₁)^*,根据AM＝I^*，获得矩阵A；

步骤3：定义密文参数向量θ′，根据密文参数向量θ′定义加密数据集D′的预测值与真实值之间的差值获得损失函数J(θ′)，设定损失阈值β，并获得出迭代更新模型，若J(θ′_i)-J(θ′_i-1)<β,则停止迭代，获得此时的密文参数向量θ′；

步骤4：根据密文参数向量θ′获得明文参数向量θ，实现隐私保护下的目标数据集D广义线性回归与明文的目标数据集D广义线性回归误差最小化；

所述步骤4的具体步骤为：

2.如权利要求1所述的一种隐私保护下的广义线性回归方法,其特征在于，所述步骤3的具体步骤为：

步骤3.1：定义密文参数向量θ′；

步骤3.2：获得损失函数

步骤3.3：定义迭代步长为α，设定损失阈值β，采用梯度下降法得到迭代更新模型为：

步骤3.4：迭代至J(θ′_i)-J(θ′_i-1)<β，则停止迭代，获得此时的密文参数向量θ′。