CN111245610B

CN111245610B - 基于ntru同态加密的数据隐私保护深度学习方法

Info

Publication number: CN111245610B
Application number: CN202010057521.6A
Authority: CN
Inventors: 韩嵩; 任思琪; 孔梦娇; 陈晓莉; 徐云华; 林建洪; 徐菁
Original assignee: Zhejiang Ponshine Information Technology Co ltd; Zhejiang Gongshang University
Current assignee: Zhejiang Ponshine Information Technology Co ltd; Zhejiang Gongshang University
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2022-04-19
Anticipated expiration: 2040-01-19
Also published as: CN111245610A

Abstract

本发明公开了基于NTRU同态加密的数据隐私保护深度学习方法。本发明采用一种NTRU同态加密的方法来加密深度学习中感知器学习过程中的训练数据、测试数据、标签值以及权重向量，并在这些数据加密的情况下来训练预测模型，确保用户数据的隐私性和安全性。这种同态加密技术相比于一般同态加密技术因其所用多项式次数较低而具有较好的实用性，基于这种隐私保护下的感知器学习可以推广到多层的神经网络，实现深度学习过程中的数据隐私保护。

Description

基于NTRU同态加密的数据隐私保护深度学习方法

技术领域

本发明涉及数据隐私保护深度学习领域，尤其涉及一种基于NTRU同态加密的数据隐私保护深度学习方法。

背景技术

机器学习中的多层神经网络的层与层之间的感知器有连接，而层内之间的感知器没有连接。如图2所示，最左边的层叫做输入层，这层负责接收输入数据；最右边的层叫输出层，我们可以从这层获取神经网络输出数据。输入层和输出层之间的层叫做隐藏层。隐藏层比较多(大于2)的神经网络叫做深度神经网络。而深度学习，就是使用多层神经网络架构的机器学习方法。

深度学习是为了让层数较多的多层神经网络可以训练、能够进行模式发现进而理解世界演化出来的一系列的新的结构和新的方法。为使得深度学习更好的工作，必须训练大量数据；但大量数据例如交通数据、医疗保健数据等等包含大量的敏感隐私信息，如不妥善保护，则那些敏感信息有可能被非法利用，进而引起大的经济损失或负面的社会影响。所以，如何保护数据隐私是深度学习必须解决的重要问题。

同态加密被用来解决上述问题。然而，目前较多的同态加密方案的在深度学习中最大问题是实用性问题，例如基于大整数或理想格的同态加密。而基于NTRU的同态加密方案是一种较高效的公钥加密方案，且因为其多项式次数较低而具有较好的实用性。

发明内容

本发明针对现有深度学习过程中的数据隐私保护需求，提供了一种基于NTRU同态加密的数据隐私保护深度学习方法。

本发明采用的技术方案为：

基于NTRU同态加密的数据隐私保护深度学习方法包括以下步骤：

步骤1、数据存储中心运行密钥生成算法Keygen(1^κ)产生公私钥对

其中h为生成的公钥，f为生成的私钥，q为素数,q＝q(κ),κ为安全参数；f＝2f＇+1，且在R_q上存在逆元f^-1，f＇是简单多项式，g←χ；χ＝χ(κ)是基于环

上的误差分布，φ(x)∈Z[x]是次数为n＝n(κ)的多项式，g为自于χ的取样。

步骤2、数据存储中心利用公钥pk_x、pk_y、pk_w分别加密收集到的用户数据x、对应数据的标签y以及初始化的权重向量w，并将这些加密数据上传到数据计算中心；

其中i表示第i个用户，j表示第j个属性，s、e都是自于χ的取样。

步骤3、数据计算中心在接收到上述加密数据之后根据错误程度进行权重向量的调整，直到权重向量不再发生变化为止

其中η∈(0,1]表示学习率。

步骤4、数据计算中心把最后一次更新的权重向量结果返回给数据存储中心。数据存储中心利用私钥f_x、f_y、f_w分别对加密的权重向量解密，作为深度学习感知器的预测模型。

当有新的测试数据输入时，用预测模型预测加密测试数据的结果，从而保证了测试数据的隐私性。

本发明的有益效果：本发明采用的NTRU同态加密技术具有高效性和较好的实用性，可以降低计算开销。本发明利用基于NTRU的同态加密技术加密用户数据x、对应数据的标签y以及权重向量w，并且利用加密数据训练预测模型找到最优的权重向量，在保证训练数据和权重向量隐私性的同时，也提高了训练过程的效率，降低了计算的开销。

附图说明

图1为本发明技术方案模型。

图2为多层神经网络结构图。

具体实施方式

为了清楚的描述本发明，首先对于本发明所涉及的一些变量符号做出如下定义，见下表。

基于上述变量定义，结合图1，对本发明的方法进行描述：

本发明采用一种NTRU同态加密的方法来加密深度学习中感知器学习过程中的训练数据、测试数据、标签值以及权重向量，并在这些数据加密的情况下来训练预测模型，确保用户数据的隐私性和安全性，具体步骤如下：

步骤1、数据存储中心利用上述定义的参数，运行密钥生成算法Keygen(1^κ)产生公私钥对

其中f＝2f＇+1，且在R_q上存在逆元f^-1，f＇是简单多项式，g←χ；κ为安全参数，q＝q(κ)是素数，φ(x)∈Z[x]是次数为n＝n(κ)的多项式，χ＝χ(κ)是基于环

上的误差分布；

步骤3、数据计算中心在接收到上述加密数据之后根据错误程度进行权重向量的调整，以下迭代过程进行直到权重向量不再发生变化为止

步骤4、数据计算中心把最后一次更新的权重向量结果返回给数据存储中心。数据存储中心利用私钥f_x、f_y、f_w分别对加密的权重向量解密，作为深度学习感知器的预测模型；

当有新的测试数据输入时，可以用预测模型预测加密测试数据的结果，从而保证了测试数据的隐私性。

针对多层神经网络，如图2所示，用同一个公钥pk_w分别加密输入层到隐藏层1,、隐藏层1到隐藏层2以及隐藏层2到输出层之间的各个权重值，再在加密条件下利用反向传播算法进行权重值的更新。

步骤1)中，利用基于环上的误差分布比传统公钥密码体制在安全性上更有优势；利用基于环本身的性质产生公私钥对，在对数据进行加解密的时候会比很多同态加密技术高效。

步骤2)中，对用户数据x、对应数据的标签y以及初始化的权重向量w采用不同的公钥进行加密，即使数据计算中心不诚实，但没有对应私钥就无法访问明文信息，保证了数据的安全性。

步骤3)中，对加密的数据进行预测模型的训练，权重向量的调整也是在密文的状态下，即使数据计算中心是诚实但好奇的计算模型，也能够保证训练数据、对应标签和预测模型的隐私性；

步骤4)中，用组合使用私钥来解密最后一次更新的权重向量，只要保证三个私钥中的一个不泄露就无法正确解密出预测模型的明文权重向量，保证了预测模型的安全性；对新输入的测试数据加密，通过预测模型计算得到对应结果，在此过程中不会泄露测试数据的任何敏感信息，保护了测试数据的隐私性。

本发明还对单层感知器进行扩展到多层神经网络，可以用与单层感知器类似的加密进行多层神经网络的模型训练和数据预测，有利于深度学习中的数据隐私保护。

实施例：

首先，定义κ为安全参数，q＝q(κ)是素数，φ(x)∈Z[x]是次数为n＝n(κ)的多项式，χ＝χ(κ)是基于环

上的误差分布。接着利用上述定义的参数，运行密钥生成算法Keygen(1^κ)产生用于加密数据x、对应数据的标签y以及权重向量w的公私钥对分别为(pk_x＝h_x,sk_x＝f_x)、(pk_y＝h_y,sk_y＝f_y)、(pk_w＝h_w,sk_w＝f_w)。用公钥pk_x、pk_y、pk_w分别加密数据，并将这些数据上传到数据计算中心，数据计算中心接收到上述加密数据之后根据错误程度进行权重向量的调整，以下过程迭代进行直到权重向量不再发生变化为止。将最后一次更新的权重向量结果返回给数据存储中心，用私钥f_x、f_y、f_w对加密的权重向量解密，作为感知器的预测模型。当有新的测试数据输入时，可以用预测模型预测加密测试数据的结果，从而保证了测试数据的隐私性。

本发明能在不泄露训练数据和测试数据隐私的情况下，用训练数据密文进行预测模型的训练，并且能对加密测试数据进行结果预测。即使数据计算中心是诚实但好奇的计算模型也能保证训练数据、权重向量和预测模型的隐私安全性。本发明基于NTRU的同态加密技术，保证了加密解密过程的高效性且计算开销较小，另外，这种同态加密技术相比于一般同态加密技术因其所用多项式次数较低而具有较好的实用性。基于这种隐私保护下的感知器学习可以推广到多层的神经网络，实现深度学习过程中的数据隐私保护。

Claims

1.基于NTRU同态加密的数据隐私保护深度学习方法，其特征在于该方法包括以下步骤：

上的误差分布，φ(x)∈Z[x]是次数为n＝n(κ)的多项式，g为自于χ的取样；

其中i表示第i个用户，j表示第j个属性，s、e都是自于χ的取样；

其中η∈(0,1]表示学习率；

步骤4、数据计算中心把最后一次更新的权重向量结果返回给数据存储中心，数据存储中心利用私钥f_x、f_y、f_w分别对加密的权重向量解密，作为深度学习感知器的预测模型；

2.根据权利要求1所述的基于NTRU同态加密的数据隐私保护深度学习方法，其特征在于：对于多层神经网络，用同一个公钥pk_w分别加密输入层到第一隐藏层、第一隐藏层到第二隐藏层以及第二隐藏层到输出层之间的各个权重值，再在加密条件下利用反向传播算法进行权重值的更新。