CN113360927A

CN113360927A - 一种数据共享的两阶段隐私保护方法

Info

Publication number: CN113360927A
Application number: CN202110659713.9A
Authority: CN
Inventors: 毛莺池; 郭宏乐; 屠子健; 吴明波; 王龙宝; 程杨堃; 吴俊�; 平萍
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-09-07
Anticipated expiration: 2041-06-15
Also published as: CN113360927B

Abstract

本发明公开了一种数据共享的两阶段隐私保护方法，首先进行分布式训练初始化，初始化后，在客户端将数据上传到中心服务器，采用多对一同态加密对上传数据进行加密保护。各个客户端使用中心服务器的公钥进行加密，中心服务器对从客户端接受到的全部加密数据安全聚合和解密，在中心服务器将数据发送到各个客户端的阶段，采用一种一对多的零知识签名。首先，随机生成加密数据块，原始数据通过散列函数得到散列值。其次，中心服务器利用私钥和散列值生成签名。最后，客户端验证数据正确性。从而确保数据的完整性和正确性。经过多轮迭代，输出最终模型。本发明能够有效的根据不同阶段的实际隐私保护目的进行具体保护，且能够显著减少时间花销。

Description

一种数据共享的两阶段隐私保护方法

技术领域

本发明涉及分布训练过程中的数据隐私保护方法，尤其涉及一种数据共享的两阶段隐私保护方法。

背景技术

随着《通用数据保护条例》(GDPR)的出台，工业界和学术界开始更加关注数据隐私保护。尤其在分布式训练过程中，客户端和中心服务器共享的数据可能会被泄露，从而导致不必要的经济损失。为了解决这个问题，国内外研究学者在分布式训练过程中涉及的数据泄露问题也提出了很多解决方案。差分隐私、安全多方计算技术和同态加密是广泛采用的严格隐私概念。然而，在实际系统中应用这些方案并不容易。

此外，现存方法通常向数据中添加噪声使得数据模糊化，以此保护数据。但是，随着噪声被添加，数据质量也会随之降低。由于深度学习模型的复杂计算，这些方法难以在深度学习中扩展。并且，大多数方案使用相同的方法来加密不同阶段的数据。其结果并不满足不同阶段的具体需求。例如：在客户端将数据上传到中心服务器阶段，此阶段的保护目的是，确保其数据不被其他非授权通信方获取。在客户端将数据从中心服务器下载的阶段，此阶段的目的是，确保下载数据在传输过程中有没有被第三方更改，同时接受方可判断收到的数据是否已被修改。此外，这些方案需要管理大量的密钥。它们局限性大，时间开销大，效率低。

发明内容

发明目的：本发明针对分布式训练过程中数据隐私保护问题，提供一种数据共享的两阶段隐私保护方法，能够有效的针对不同阶段的实际情况进行数据保护，确保各客户端接受到的数据的完整性和正确性。

技术方案：本发明所述的一种数据共享的两阶段隐私保护方法。具体步骤如下：

(1)分布式训练初始化阶段：中心服务器生成初始模型和密钥对，所述密钥对包括公钥和私钥，向各客户端分发初始模型和公钥，中心服务器保存私钥；

(2)数据上传阶段：初始化后，每个客户端在本地训练初始模型，并将训练好的数据上传到中心服务器；所述客户端在将数据上传到中心服务器之前，使用中心服务器的公钥执行多对一同态加密；

(3)数据安全聚合阶段：中心服务器接受到客户端上传的所有加密数据之后，对所有数据进行聚合和解密；

(4)数据下载阶段：采用数字签名进行数据保护，中心服务器生成签名后，将签名与数据一起发送给每个客户端；

(5)客户端进行新一轮训练；经过多轮迭代，输出最终模型。

进一步的，在分布式训练初始化阶段，中心服务器通过从模型提供者下载初始模型或从可信客户端收集数据集来训练初始模型。所述初始模型为神经网络模型。

具体的，在数据上传阶段中，所述多对一同态加密的具体内容为：

假设有n个客户端，客户端i上传的数据为w_i，i＝1，2，3…n；

使用中心服务器的公钥pk对数据进行多对一同态加密得到加密数据

向中心服务器上传加密数据

具体的，所述数据安全聚合阶段具体包括如下内容：

中心服务器接受到客户端上传的加密数据

对其进行安全聚合，得到更新的数据

其中，

是密文操作符号；

在安全聚合后进行数据解密，中心服务器输出解密后的数据

其中，←是表示输出得到的符号。

进一步优选的，在数据下载阶段，还包括客户端验证数据是否正确的步骤，当数据验证正确时，数据被视为可信和完整的，开始下一轮培训；反之则丢弃数据。

具体的，所述数据下载阶段中，采用一对多零知识数字签名进行数据保护，具体包括如下内容：

S1：数据

通过散列函数生成散列数据H；

S2：随机生成若干数据块，所述数据块中包含一个一元二次方程的系数和根；用散列数据H作为密钥对数据块进行加密，得到加密数据；

S3：用私钥sk对步骤S2获取的加密数据再次加密，生成双重加密数据；

S4：双重加密数据作为零知识签名与数据w_sum一起下发到各个客户端；

S5：客户端收到所述零知识签名与数据w_sum后，进行数据正确性验证操作。所述验证操作为：

S51：提取零知识签名和数据w_sum；

S52：使用公钥pk解密零知识签名，得到H′；

S53：采用和步骤S1相同的方式，对数据w_sum进行散列，得到散列数据H″；

S54将散列数据H″作为密钥对解密之后的零知识签名H′再次解密；

S55：按照给定的格式提取一元二次方程的系数和根，检查根的正确性，如果正确，则下载的内容是真实和完整的，否则将数据丢弃；

S56：客户端使用最新接收的数据结合本地数据执行新一轮的训练；多轮迭代训练后，输出最终模型。

有益效果：本发明与现有技术相比具有以下显著优点：

本发明针对分布式训练中多个客户端和中心服务器之间的数据共享过程所存在隐私保护的问题。在客户端向中心服务器上传数据阶段，采用多对一同态加密，对上传数据进行加密保护，确保中心服务器接收到的数据不会泄露，从而提高数据整合的准确率。在中心服务器将更新之后的数据下发到各个客户端阶段，采用一对多零知识签名，对下发数据进行保护，确保数据的完整性和不可逆性。本发明既保护了不同阶段的数据，同时与现有技术相比，能够显著减少时间花销。

附图说明

图1为一种数据共享两阶段隐私保护的场景图；

图2为一种数据共享两阶段隐私保护方法的流程示意图；

图3为一对多零知识签名中的三个块的示意图。

具体实施方式

下面结合附图和具体实施例，详细阐明本发明的技术方案。

图1为本发明一种实施例中的数据共享两阶段隐私保护的场景图。

在分布式训练过程中，存在一个中心服务器和多个客户端进行数据共享。中心服务器可以执行数据聚合，签名和解密。客户端可以执行加密和解密。多个客户端将参数上传到中心服务器为上传阶段，该上传阶段采用多对一同态加密进行数据保护。客户端从中心服务器下载更新的参数为下载阶段，该下载阶段采用一对多零知识签名进行数据保护。

图2为本发明一种实施例的方法流程示意图，具体包括如下四个阶段：

一、分布式训练初始化阶段：

中心服务器生成加密的密钥对(公钥pk和私钥sk)，将私钥sk留在本地，将公钥pk发送给每个客户端；中心服务器通过从模型提供者下载初始模型或从可信客户端收集数据集来训练初始模型，初始模型被发送到客户端，客户端根据初始模型获取当前迭代的轮数epoch。本实施例中，初始模型采用神经网络模型。

二、数据上传阶段：

初始化后，每个客户端在本地训练神经网络模型。注意，模型攻击者可能通过共享数据推断客户端本地数据。因此，每个客户端在将共享数据上传到聚合服务器进行安全聚合之前，执行多对一同态加密，多对一同态加密包含多个加密方P_i(i＝1，2，3…n)和一个解密方P(对应于本发明的n个客户端和一个中心服务器)。根据DGHv方案生成 P的公共pk密钥和秘密密钥sk。

假设有n个客户端，客户端i上传的数据为w_i(i＝1，2，3…n)；

向中心服务器上传加密数据

三、数据安全聚合阶段：

中心服务器接受到客户端上传的加密数据

对其进行安全聚合，得到更新的数据

其中，

是密文操作符号；

在安全聚合后进行数据解密，中心服务器输出解密后的数据

其中，←表示输出得到。

四、数据下载阶段：

中心服务器将数据w_sum通过一对多零知识签名保护下发到各个客户端，此阶段数据由数字签名保护，中心服务器生成签名后，将签名与数据w_sum一起发送给每个客户端。

优选的，本实施例采用一对多零知识数字签名，具体实现方式如下：

(1)随机生成三个64位整数。这三个被称为a，b和c的数字是一个二次方程的系数，这个方程的根也分别用64位表示，表示为r1和r2。

附加到数据w_sum的签名的大小有三个块的长度，如图3所示。每个数据块大小为128位，a和b组成第一个块，c和r1组成第二个块，r2和固定位组成第三个块，a、b、 c、r1、r2的值将由前两个块和第三个块的前64位表示，第三个块的最后64位将用1 填充，后面是63个0。在不同块大小的情况下，第一个64*5位之后的位将是1，然后是全0。

在计算出a、b、c、r1和r2的值并且3个数据块以上述格式准备好之后，在中心服务器执行以下步骤来签名数据：

(2)可变长度数据w_sum作为输入被给予散列函数，从而产生被称为散列值的固定长度输出H。

(3)然后散列值H被用作密钥来加密上面创建的3个数据块。

(4)使用中心服务器的密钥sk对步骤(3)获取的加密数据再次加密，生成双重加密数据，从而确保身份验证并增加第二级安全性，以确保发送数据的完整性。

(5)双重加密数据作为零知识数字签名，与解密数据w_sum一起发送到每个客户端。

(6)各客户端收到实际数据和零知识数字签名，执行验证步骤：

(61)从接收的消息中提取零知识数字签名和实际数据。

(62)然后使用中心服务器的公钥pk对接收到的零知识数字签名解密，得到加密值H′。

(63)针对提取的实际数据，使用和步骤(2)相同的方法进行散列，假设收到的哈希值表示为H″。

(64)使用H″作为解密密钥，对步骤(62)的加密值H′进行解密。

(65)检查数据的格式是否正确。64*5位后的数据应为1，后跟全0。如果格式不正确，则丢弃数据，否则转到步骤6)。

(66)按照给定的格式提取a′、b′、c′、r1′和r2′的值，并将检查这些值的正确性；在各个客户端检查r1′和r2′是否是以a′，b′，c′为系数的二次方程的正确根。

(67)如果在步骤(66)中值是正确的，数据将被视为可信和完整的，否则将被丢弃。

经过多轮迭代，输出最终模型。