CN112149160A

CN112149160A - 基于同态伪随机数的联邦学习隐私保护方法及系统

Info

Publication number: CN112149160A
Application number: CN202010886968.4A
Authority: CN
Inventors: 万志国; 葛均易
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-29
Anticipated expiration: 2040-08-28
Also published as: CN112149160B

Abstract

本申请公开了基于同态伪随机数的联邦学习隐私保护方法及系统，n个客户端使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成n份，每个客户端获得自己的秘密份额s_i；至少t个客户端参与恢复密钥s，并把密钥s发送给服务器；n和t均为正整数；s_i表示第i个客户端的秘密份额；每个客户端均进行联邦学习，每个客户端在本地使用各自的数据进行机器学习模型训练，产生更新梯度值；每个客户端以秘密份额s_i作为种子，使用密钥同态伪随机函数产生一个随机数F(s_i,x)；并用随机数F(s_i,x)对更新梯度值进行加密得到更新梯度值密文，然后将更新梯度值密文发送给服务器；客户端接收服务器反馈回来的更新后的模型。

Description

基于同态伪随机数的联邦学习隐私保护方法及系统

技术领域

本申请涉及隐私保护技术领域，特别是涉及基于同态伪随机数的联邦学习隐私保护方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

大数据、云计算和深度学习等新技术的出现促进了人工智能、机器学习的蓬勃发展，但是数据安全和隐私问题却严重制约着人工智能和机器学习的实际应用。目前出于担心数据泄露的风险，政府、公司、个人的数据共享和利用极为有限，大量的数据得不到有效地利用。由于审批流程、商业竞争、个人隐私等因素，政府部门、公司、个人的数据实现真正的共享利用仍然存在很大的阻碍，数据源之间难以打破的壁垒导致了“数据孤岛”的现象。此外，随着大数据的发展，重视数据隐私和安全已成为世界性的趋势，如何保护数据共享和利用过程中的数据隐私是目前亟待破解的难题。

针对“数据孤岛”和“数据隐私保护”的问题，谷歌提出了联邦学习算法技术。联邦学习(Federated Learning)本质上是一种分布式机器学习技术，在进行机器学习训练模型的过程中，各参与方分别使用自有数据训练更新模型，并通过共享各自的训练结果实现对所有数据的训练。各方无需共享原始数据，数据无需离开本地，只需共享模型更新参数，即可完成数据联合训练，建立共享的机器学习模型。

尽管联邦学习无需传输原始数据，只需传输模型的更新梯度值，但是这些更新梯度值来自于原始数据，因此这些模型更新梯度值依然可能泄露数据信息。为了解决这个问题，谷歌提出了使用伪随机数保护模型更新梯度值的方案，但是这种方法的复杂度过高，无法适用于大规模联邦学习的场景。

发明内容

为了解决现有技术的不足，本申请提出了基于同态伪随机数的联邦学习隐私保护方法及系统；设计一种安全高效的联邦学习隐私保护方法，满足目前联邦学习对数据共享的迫切需求，具有重要的意义和巨大的应用价值。

第一方面，本申请提供了基于同态伪随机数的联邦学习隐私保护方法；

基于同态伪随机数的联邦学习隐私保护方法，包括：

n个客户端使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成n份，每个客户端获得自己的秘密份额s_i；至少t个客户端参与恢复密钥s，并把密钥s发送给服务器；n和t均为正整数；s_i表示第i个客户端的秘密份额；

每个客户端均进行联邦学习，每个客户端在本地使用各自的数据进行机器学习模型训练，产生更新梯度值；

每个客户端以秘密份额s_i作为种子，使用密钥同态伪随机函数产生一个随机数F(s_i,x)；并用随机数F(s_i,x)对更新梯度值进行加密得到更新梯度值密文，然后将更新梯度值密文发送给服务器；

客户端接收服务器反馈回来的更新后的模型。

第二方面，本申请提供了基于同态伪随机数的联邦学习隐私保护系统；

基于同态伪随机数的联邦学习隐私保护系统，包括：服务器和若干个客户端；

每个客户端以秘密份额s_i作为种子，使用密钥同态伪随机函数产生一个伪随机数F(s_i,x)；并用随机数F(s_i,x)对更新梯度值进行加密得到更新梯度值密文，然后将更新梯度值密文发送给服务器；

服务器收集聚合所有客户端发送的更新梯度值密文，以总密钥s作为种子使用密钥同态伪随机函数产生一个随机数F(s,x)，用该随机数F(s,x)进行对更新梯度值密文处理，恢复出聚合更新梯度值明文，使用聚合梯度值对机器学习模型的参数进行更新，将更新后的机器学习模型的参数发给各个客户端。

第三方面，本申请还提供了客户端。

一种客户端，其被配置为：

客户端接收服务器反馈回来的更新后的机器学习模型。

第四方面，本申请还提供了服务器。

一种服务器，其被配置为：收集聚合所有客户端发送的更新梯度值密文，以总密钥s作为种子使用密钥同态伪随机函数产生一个随机数F(s,x)，用该随机数F(s,x)进行对更新梯度值密文处理，恢复出聚合更新梯度值明文，使用聚合梯度值对机器学习模型的参数进行更新，将更新后的机器学习模型的参数发给各个客户端。

与现有技术相比，本申请的有益效果是：

1.本申请使用可验证的秘密分享技术(VSS),保证了密钥的安全性和完整性，秘密份额的持有者可以恢复出密钥。

2.本申请应用基于分层的聚合方法，降低了通信成本。

3.本申请所使用的技术保证了服务器在计算梯度值的过程中，客户端的数据不会泄露，高效且安全的保护了客户端的数据隐私。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本申请无集群的基于同态伪随机数的联邦学习隐私保护方案的流程示意图；

图2为本申请无集群的基于同态伪随机数的联邦学习隐私保护方案的流程示意图；

图3为本申请有集群的基于同态伪随机数的联邦学习隐私保护方案的流程示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

术语解释：

1.可验证的秘密分享(Verifiable Secret Sharing,VSS)：是一种分发、保存和恢复秘密的方法，是实现安全多方计算的一种重要工具。参数为(t,n)的可验证秘密分享方案使得n个参与者共享秘密s，每个参与者得到s的一个秘密份额；至少t个参与者才能恢复出s，而小于t个参与者则无法恢复秘密s。在秘密分发的过程中，各成员p_i(1≤i≤n)能够对分发的秘密分片的正确性进行验证(Verify)，实现了可验证秘密分享。

2.密钥同态伪随机函数(key-homomorphicPRFs)：密钥同态伪随机函数是一种新的密码技术，可应用于代理重新加密和可更新加密等。伪随机函数(Pseudorandomfunction,PRF)F(k,x)输出的值与真正的随机数无法区分，并且具有以下性质：F(k₁,x)+F(k₂,x)＝F(k₁+k₂,x)，x∈{0,1}^l，

k为密钥。

3.总密钥：即系统中服务器掌握的密钥，至少t个参与者才能恢复出该密钥。

4.秘密份额：总密钥的一部分，每个参与者都会得到各自的秘密份额。

5.更新梯度值：即训练过程中，通过反向传播算法计算更新的目标函数梯度值。

6.更新梯度值合：更新梯度值加权求和后的结果。

7.更新梯度值密文：使用F(k,x)对更新梯度值进行加密的结果。

8.F(k,x)：客户端和服务器以k为密钥产生伪随机数的函数(Pseudorandomfunction,PRF)。

9.f(x)：参与者获得的秘密份额，是总密钥的一部分。

10.f_i(x)：f(x)的一部分。参与者相互广播f_i(x)，进而构造出各自的秘密份额。

11.密钥恢复公式：

L_i为拉格朗日参数。

12.随机梯度下降(SGD)：梯度下降法是求解无约束最优化问题的一种常用方法，是一种迭代算法，每一步需要求解目标函数的梯度向量。随机梯度下降是随机取样替代完整的样本，主要作用是提高迭代速度。

实施例一，本实施例提供了基于同态伪随机数的联邦学习隐私保护方法；

基于同态伪随机数的联邦学习隐私保护方法，包括：

S101：n个客户端使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成n份，每个客户端获得自己的秘密份额s_i；至少t个客户端参与恢复密钥s，并把密钥s发送给服务器；n和t均为正整数；s_i表示第i个客户端的秘密份额；

S102：每个客户端均进行联邦学习，每个客户端在本地使用各自的数据进行机器学习模型训练，产生更新梯度值；

S103：每个客户端以秘密份额s_i作为种子，使用密钥同态伪随机函数产生一个伪随机数F(s_i,x)；并用随机数F(s_i,x)对更新梯度值进行加密得到更新梯度值密文，然后将更新梯度值密文发送给服务器；

S104：客户端接收服务器反馈回来的更新后的机器学习模型的参数。

进一步地，所述S101中，服务器只知道密钥s，而不知道秘密份额s_i。

进一步地，所述S103步骤之后，所述S104步骤之前，还包括S103-4，所述S103-4的概要步骤包括：

进一步地，S103-4具体步骤包括：

服务器收集聚合所有客户端发送的更新梯度值密文，对所有客户端发送的更新梯度值密文加权求和得到聚合梯度值密文，然后使用自己的总密钥产生伪随机数，用该随机数F(s,x)对聚合梯度值密文进行解密，得到聚合梯度值明文，使用此聚合梯度值对模型进行更新；将更新后的模型发给各个客户端，转到S102进行下一轮联邦学习，直到模型收敛。

进一步地，所述S101：n个客户端使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成n份，每个客户端获得自己的秘密份额s_i；至少t个客户端参与恢复密钥s，并把密钥s发送给服务器；具体步骤包括：

S1011：每个客户端i选择秘密参数a_i,j，1≤j≤t-1；构造多项式f_i(x)＝a_i,0+a_i,1x+a_i,2x²+…+a_i,t-1x^t-1，x为客户端ID，t为门限值。

S1012：客户端i向客户端j发送f_i(j)，且f_i(i)只有客户端i知道。

S1013：每个客户端i，收集其他客户端j发送的f_j(i)，得到：

f(i)即为客户端i得到的秘密份额s_i，由拉格朗日插值法恢复出密钥s，并把密钥s发送给服务器。

进一步地，所述S103：每个客户端以秘密份额s_i作为种子，使用密钥同态伪随机函数产生一个伪随机数F(s_i,x)；并用随机数F(s_i,x)对更新梯度值进行加密得到更新梯度值密文，然后将更新梯度值密文发送给服务器；具体步骤包括：

S1031：客户端以秘密份额s_i作为种子生成随机数F(s_i,x)；

S1032：客户端使用随机数F(s_i,x)对得到的更新梯度值g_i进行加密，即

n_i为客户端拥有的数据条数，L_i为拉格朗日插值参数，并将

更新梯度值密文发送给服务器。

进一步地，所述S103-4详细步骤包括：

S103-41：服务器收集客户端发送的更新梯度值密文，并对密文进行加权求和，得到聚合更新梯度值密文

即

n是所有数据的数量；

S103-42：服务器以总密钥s为种子的密钥同态伪随机函数得到随机数F(s,x)，又由密钥恢复公式

和密钥同态伪随机函数的特性可知：

即服务器能够抹去掩盖值

恢复出正确的聚合更新梯度值明文；

S103-43：服务器根据随机梯度下降法，利用聚合梯度值明文更新模型，并将更新后的模型发送给客户端。

进一步地，所述S101：n个客户端使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成n份，每个客户端获得自己的秘密份额s_i；至少t个客户端参与恢复密钥s，并把密钥s发送给服务器；允许被替换为：

S2011：n(n≥1)个的客户端分成m(m≥1)个不同的集群，每个集群内有q个客户端

每个集群都选定一个客户端作为集群头；

S2012：所有集群的集群头使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成m份，每个集群头获得自己的秘密份额s_i；至少t个集群头参与恢复密钥s，并把密钥s发送给服务器端。服务器端只知道密钥s，而不知道秘密份额s_i。

进一步地，所述S2012的具体步骤包括：

S20121：每个集群头i选择秘密参数a_i,j，1≤j≤t-1；构造多项式f_i(x)＝a_i,0+a_i,1x+a_i,2x²+…+a_i,t-1x^t-1，x为集群头ID，t为门限值；

S20122：集群头i向集群头j发送f_i(j)，且f_i(i)只有集群头i知道；

S20123：每个集群头i，收集其他集群头j发送给其的f_j(i)，得到

f(i)即为集群头得到的秘密份额s_i，由拉格朗日插值法即可恢复出密钥s，并把密钥s发送给服务器端。

进一步地，所述S102：每个客户端均进行联邦学习，每个客户端在本地使用各自的数据进行机器学习模型训练，产生更新梯度值；允许被替换为：

S2021：在每个集群内部，客户端使用可验证秘密分享VSS产生一个密钥k′_i，把密钥k′_i分割成q份，每个客户端获得自己的秘密份额k_i，至少t个客户端参与恢复密钥k′_i，并把密钥k′_i发送给集群头；集群头只知道密钥k′_i，而不知道秘密份额k_i；

S2022：客户端在本地使用各自的数据进行机器学习模型训练，产生更新梯度值。

进一步地，所述S2021的具体步骤包括：

S20211：在每个集群内部，客户端i选择参数b_i,j，1≤j≤t-1；构造多项式f_i(x)＝b_i,0+b_i,1x+b_i,2x²+…+b_i,t-1x^t-1，x为集群头ID，t为门限值；

S20212：客户端i向客户端j发送f_i(j)，且f_i(i)只有客户端i知道；

S20213：对客户端i，收集其他客户端j发送到f_j(i)，得到

f(i)即为客户端得到的秘密份额k_i，由拉格朗日插值法即可恢复出密钥k′_i，并把k′_i发送给所在集群的集群头。

进一步地，所述S103：每个客户端以秘密份额s_i作为种子，使用密钥同态伪随机函数产生一个伪随机数F(s_i,x)；并用随机数F(s_i,x)对更新梯度值进行加密得到更新梯度值密文，然后将更新梯度值密文发送给服务器；允许被替换为：

S2031：客户端以秘密份额k_i作为种子使用密钥同态伪随机函数产生一个随机数F(k_i,x)；并用该随机数F(k_i,x)对更新梯度值进行加密，然后将更新梯度值密文发送给所在集群的集群头；

S2032：集群头收集并聚合所有更新梯度值密文，以密钥k′_i作为种子使用密钥同态伪随机函数产生一个随机数F(k′_i,x)，利用F(k′_i,x)恢复出一个聚合更新梯度值明文；

集群头以秘密份额s_i作为种子使用密钥同态伪随机函数产生一个随机数F(s_i,x)，用该随机数F(s_i,x)对得到的聚合更新梯度值明文进行加密并将其发送给服务器端。

进一步地，所述S2031的具体步骤包括：

S20311：客户端以秘密份额k_i作为种子生成随机数F(k_i,x)；

S20312：客户端使用随机数F(k_i,x)对得到的更新梯度值g_i进行加密，即

n_i为客户端拥有的数据条数，L_i为拉格朗日插值参数，并发送给集群头。

进一步地，所述S2032的具体步骤包括：

S20321：集群头收集并聚合客户端发送的更新梯度值密文

n是所有数据的数量。

S20322：集群头以密钥k′_i作为种子使用密钥同态伪随机函数产生一个随机数F(k′_i,x)，并利用F(k′_i,x)恢复出一个聚合更新梯度值明文g′_i。

S20323：集群头以秘密份额s_i作为种子使用密钥同态伪随机函数产生一个随机数F(s_i,x)。

S20324：集群头利用随机数F(s_i,x)对聚合更新梯度值明文g′_i进行加密，即得到更新梯度值密文

并将其发送给服务器端，其中n_i为集群大小，L_i为拉格朗日插值参数。

进一步地，所述S103-4，允许被替换为：

S203-4：服务器端收集聚合所有集群头发送的聚合更新梯度值密文，以总密钥s作为种子使用密钥同态伪随机函数产生一个随机数F(s,x)，用该随机数F(s,x)进行对更新梯度值密文处理，恢复出聚合更新梯度值明文，使用此聚合梯度值对模型进行更新，将更新后的模型发给各个客户端。

进一步地，所述S203-4，具体步骤包括：

S203-41：服务器端收集集群头发送的更新梯度值密文，对密文进行加权求和

进一步地，由步骤S20324中集群头得到的更新梯度值密文：

计算出：

S203-42：服务器端以总密钥s为种子使用密钥同态伪随机函数产生随机数F(s,x)，又由公式

和密钥同态伪随机函数的特性可知：

即服务器端能够抹去掩盖值

恢复出正确的聚合更新梯度值明文。

S203-43：服务器端根据随机梯度下降法(SGD)，利用聚合梯度值明文对模型进行更新，将更新后的模型发给各个客户端。

实施例二，本实施例提供了基于同态伪随机数的联邦学习隐私保护系统；

n个客户端使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成n份，每个客户端获得自己的秘密份额s_i；至少t个客户端参与恢复密钥s，并把密钥s发送给服务器；

服务器收集聚合所有客户端发送的更新梯度值密文，以总密钥s作为种子使用密钥同态伪随机函数产生一个随机数F(s,x)，用该随机数F(s,x)进行对更新梯度值密文处理，恢复出聚合更新梯度值明文，使用聚合梯度值对模型进行更新，将更新后的模型发给各个客户端。

实施例三，本实施例还提供了客户端。

一种客户端，其被配置为：

客户端接收服务器反馈回来的更新后的模型。

实施例四，本实施例还提供了服务器。

一种服务器，其被配置为：收集聚合所有客户端发送的更新梯度值密文，以总密钥s作为种子使用密钥同态伪随机函数产生一个随机数F(s,x)，用该随机数F(s,x)进行对更新梯度值密文处理，恢复出聚合更新梯度值明文，使用聚合梯度值对模型进行更新，将更新后的模型发给各个客户端。

本申请的技术方案实现多个客户端在运行联邦学习时，客户端各自在自己的数据上进行多轮模型训练，将得到的更新梯度值加密后发送给服务器，服务器聚合解密更新梯度值，并根据随机梯度下降算法对模型进行更新，将更新后的模型发送给客户端，重复上述过程，直至模型收敛。通过联邦学习得到最终的训练模型，同时每个客户端的更新梯度值不会暴露给服务器或者其他客户端。

实施例五，本实施例提供了有集群的基于同态伪随机数的联邦学习隐私保护系统；

若干个客户端被划分成不同的集群，每个集群选定一个客户端为集群头，多个客户端在运行联邦学习时，客户端各自在自己的数据上进行多轮模型训练，将得到的更新梯度值加密后发送给所在集群的集群头；集群头将集群内的所有更新梯度值进行聚合加密后发送给服务器端；

服务器端接收所有集群头发送的聚合更新梯度值密文，恢复出聚合更新梯度值明文，并根据聚合更新梯度值对模型进行更新，将更新后的模型发送给客户端，重复上述过程，直至模型收敛；通过联邦学习得到最终的训练模型，同时每个客户端的更新梯度值不会暴露给服务器端或者其他客户端。

n(n≥1)个的客户端分成m(m≥1)个不同的集群，每个集群内有q个客户端

每个集群都选定一个客户端作为集群头；

所有集群的集群头使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成m份，每个集群头获得自己的秘密份额s_i；至少t个集群头参与恢复密钥s，并把密钥s发送给服务器端。服务器端只知道密钥s，而不知道秘密份额s_i；

在每个集群内部，客户端使用可验证秘密分享VSS产生一个密钥k′_i，把密钥k′_i分割成q份，每个客户端获得自己的秘密份额k_i，至少t个客户端参与恢复密钥k′_i，并把密钥k′_i发送给集群头；集群头只知道密钥k′_i，而不知道秘密份额k_i；

客户端在本地使用各自的数据进行机器学习模型训练，产生更新梯度值；

客户端以秘密份额k_i作为种子使用密钥同态伪随机函数产生一个随机数F(k_i,x)；并用该随机数F(k_i,x)对更新梯度值进行加密，然后将更新梯度值密文发送给所在集群的集群头；

集群头收集并聚合所有更新梯度值密文，以密钥k′_i作为种子使用密钥同态伪随机函数产生一个随机数F(k′_i,x)，利用F(k′_i,x)恢复出一个聚合更新梯度值明文；集群头以秘密份额s_i作为种子使用密钥同态伪随机函数产生一个随机数F(s_i,x)，用该随机数F(s_i,x)对得到的聚合更新梯度值明文进行加密并将其发送给服务器端；

服务器端收集聚合所有集群头发送的聚合更新梯度值密文，以总密钥s作为种子使用密钥同态伪随机函数产生一个随机数F(s,x)，用该随机数F(s,x)进行对更新梯度值密文处理，恢复出聚合更新梯度值明文，使用此聚合梯度值对模型进行更新，将更新后的模型发给各个客户端。

实施例六，本实施例还提供了客户端。

客户端，其被配置为：若干个客户端被划分成不同的集群，每个集群选定一个客户端为集群头，多个客户端在运行联邦学习时，客户端各自在自己的数据上进行多轮模型训练，将得到的更新梯度值加密后发送给所在集群的集群头；集群头将集群内的所有更新梯度值进行聚合加密后发送给服务器端；

客户端，其被配置为：n(n≥1)个的客户端分成m(m≥1)个不同的集群，每个集群内有q个客户端

每个集群都选定一个客户端作为集群头；

集群头收集并聚合所有更新梯度值密文，以密钥k′_i作为种子使用密钥同态伪随机函数产生一个随机数F(k′_i,x)，利用F(k′_i,x)恢复出一个聚合更新梯度值明文；集群头以秘密份额s_i作为种子使用密钥同态伪随机函数产生一个随机数F(s_i,x)，用该随机数F(s_i,x)对得到的聚合更新梯度值明文进行加密并将其发送给服务器端。

实施例七，本实施例还提供了服务器端。

服务器端，其被配置为：接收所有集群头发送的聚合更新梯度值密文，恢复出聚合更新梯度值明文，并根据聚合更新梯度值对模型进行更新，将更新后的模型发送给客户端，重复上述过程，直至模型收敛；通过联邦学习得到最终的训练模型，同时每个客户端的更新梯度值不会暴露给服务器端或者其他客户端。

实施例1.1

本申请无集群的基于同态伪随机数的联邦学习隐私保护方案，如图1所示，包括步骤如下：

1.系统初始化：设定6个客户端和服务器进行初始化，获得各自密钥。设定门限值t＝3。

6个客户端使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成6份，每个客户端获得自己的秘密份额s_i。例如6个客户端协同产生多项式f(x)＝1+3*x+x²，客户端ID分别为1，2，3，4，5，6，所以客户端获得的秘密份额分别为：s₁＝5，s₂＝11，s₃＝19，s₄＝29，s₅＝41，s₆＝55；6个客户端分为两个组：ID为1，2，3的客户端分为一组，客户端的拉格朗日参数分别为：L₁＝3，L₂＝-3，L₃＝1；ID为4，5，6的客户端分为一组，客户端的拉格朗日参数分别为：L₄＝15，L₅＝-24，L₆＝10。

进一步地，每组3个客户端协同恢复密钥s＝1，并把密钥s发送给服务器。

2.客户端机器学习：客户端进行机器学习得到更新梯度值，加密后上传到服务器。

客户端i在本地使用自己的数据进行机器学习，获得更新梯度值g_i。客户端拥有的数据条数n_i分别为：n₁＝101，n₂＝132，n₃＝129，n₄＝87，n₅＝154，n₆＝92。更新梯度值g_i分别为：

进一步地，客户端i以秘密份额s_i为种子，使用密钥同态伪随机函数产生随机数F(s_i,x)。

进一步地，客户端i使用随机数F(s_i,x)对更新梯度值明文g_i进行加密

得到更新梯度值密文

进一步地，客户端i将更新梯度值密文发送给服务器。

3.服务器计算梯度值：服务器收集聚合更新梯度值密文，对其解密并计算正确的梯度值。

服务器收集客户端发送的更新梯度值密文，并对密文进行加权求和，得到聚合更新梯度值密文

即

进一步地，根据

可计算出

进一步地，服务器以密钥s为种子的密钥同态伪随机函数可得到随机数

又由公式

和密钥同态伪随机函数的特性可知：

即服务器可以抹去掩盖值

恢复出正确的聚合更新梯度值明文

进一步地，服务器根据随机梯度下降公式(SGD)，利用聚合梯度值明文对模型进行更新，将更新后的模型发给客户端。

实施例1.2

本申请无集群的基于同态伪随机数的联邦学习隐私保护方案，如图2所示，包括步骤如下：

6个客户端使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成6份，每个客户端获得自己的秘密份额s_i。例如6个客户端协同产生多项式f(x)＝3+x+x²，客户端ID分别为1，2，3，4，5，6，所以客户端获得的秘密份额分别为：s₁＝5，s₂＝9，s₃＝15，s₄＝23，s₅＝33，s₆＝45；6个客户端分为两个组：ID为1，2，3的客户端分为一组，客户端的拉格朗日参数分别为：L₁＝3，L₂＝-3，L₃＝1；ID为4，5，6的客户端分为一组，客户端的拉格朗日参数分别为：L₄＝15，L₅＝-24，L₆＝10。

进一步地，每组3个客户端协同恢复密钥s，并把密钥s发送给服务器。ID为6的客户端掉线，导致第二组客户端由于数量小于门限值t＝3，无法恢复出密钥，此时剩余5个客户端应重新分组，ID为1，2，3的客户端分为一组，客户端的拉格朗日参数分别为：L₁＝3，L₂＝-3，L₃＝1；ID为3，4，5的客户端分为一组，客户端的拉格朗日参数分别为：L_3′＝5，L₄＝-9，L₅＝5。两组客户端分别协同恢复出密钥s＝3，

客户端i在本地使用自己的数据进行机器学习，获得更新梯度值g_i。客户端拥有的数据条数n_i分别为：n₁＝234，n₂＝120，n₃＝98，n₄＝405，n₅＝240。更新梯度值g_i分别为：

进一步地，客户端i以秘密份额s_i为种子，使用密钥同态伪随机函数产生随机数F(s_i,x)，

得到更新梯度值密文

进一步地，客户端i将更新梯度值密文发送给服务器。

3.服务器计算梯度值：服务器收集聚合更新梯度值，对其解密并计算正确的梯度值。

即

进一步地，根据

可计算出

又由密钥恢复公式和密钥同态伪随机函数的特性可知：F(∑L_is_i,x)＝F(s,x)，即服务器可以抹去掩盖值

恢复出正确的聚合更新梯度值明文

实施例1.3

本申请有集群的基于同态伪随机数的联邦学习隐私保护方案，如图3所示，包括步骤如下

1、系统初始化：客户端，集群头，服务器端进行初始化，获得各自密钥。设定门限值t＝3。

客户端分成4个集群，每个集群都选定一个客户端作为集群头。

进一步地，4个集群头使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成4份，每个集群头获得自己的秘密份额s_i。例如4个集群头协同产生多项式f(x)＝2+3*x+x²，集群头ID分别为1，2，3，4，所以集群头获得的秘密份额分别为：s₁＝6，s₂＝12，s₃＝20，s₄＝30；集群头的拉格朗日参数分别为：L₁＝4，L₂＝-6，L₃＝4，L₄＝-1。

进一步地，集群头协同恢复出密钥s＝2，发送给服务器端。

进一步地，在集群内部，客户端U_j与其他客户端应用VSS技术产生密钥k′_i，把密钥k′_i分割成q份，客户端U_j获得k′_i的分片K_i,j。例如在ID为1的集群内6个客户端协同产生多项式f(x)＝1+2*x+x²，客户端ID分别为1，2，3，4，5，6，所以客户端获得的秘密份额分别为：K_1,1＝4，K_1,2＝9，K_1,3＝16，K_1,4＝25，K_1,5＝36，K_1,6＝49；6个客户端分为两个组：ID为1，2，3的客户端分为一组，客户端的拉格朗日参数分别为：L_1,1＝3，L_1,2＝-3，L_1,3＝1；ID为4，5，6的客户端分为一组，客户端的拉格朗日参数分别为：L_1,4＝15，L_1,5＝-24，L_1,6＝10。

进一步地，在该集群内部，每组3个客户端协同恢复密钥k′₁＝2，发送给集群头。

2、客户端机器学习：客户端进行机器学习得到更新梯度值，加密后上传到集群头，集群头收集聚合更新梯度值，对其重新加密后上传到服务器端。

客户端U_j在本地利用自己的数据进行机器学习，获得更新梯度值g_i,j。客户端拥有的数据条数n_j分别为：n₁＝51，n₂＝46，n₃＝75，n₄＝88，n₅＝62，n₆＝73。更新梯度值g_1,j分别为：

进一步地，客户端U_j以秘密份额K_i,j为种子使用密钥同态伪随机函数产生随机数F(K_i,j,x)。

进一步地，客户端U_j用随机数F(K_i,j,x)对更新梯度值g_i,j进行加密

得到

并把

上传给集群头。

进一步地，集群头收集聚合所在集群内客户端发送的更新梯度值

ID为1的集群头聚合的更新梯度值密文为

进一步地，集群头以密钥k′_i作为种子使用密钥同态伪随机函数产生一个随机数F(k′_i,x)，并利用F(k′_i,x)恢复出更新梯度值明文g′_i。ID为1的集群头恢复出的更新梯度值明文为

进一步地，集群头以秘密份额s_i作为种子使用密钥同态伪随机函数产生一个随机数F(s_i,x)，并利用F(s_i,x)对g′_i进行加密

得到

ID为1的集群头产生随机数

进一步地，集群头把

发送给服务器端。

3、服务器端计算梯度值；服务器端收集聚合更新梯度值，对其解密并计算正确的梯度值。

服务器端收集集群头发送的更新梯度值密文，并对其进行加权求和，得到聚合更新梯度值密文

即

进一步地，根据

可计算出

进一步地，服务器端以密钥s为种子的密钥同态伪随机函数可得到随机数

又由公式

和密钥同态伪随机函数的特性可知：

即服务器端可以抹去掩盖值

恢复出正确的聚合更新梯度值明文

进一步地，服务器端根据随机梯度下降公式(SGD)，利用聚合梯度值明文对模型进行更新，将更新后的模型发给客户端。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于同态伪随机数的联邦学习隐私保护方法，其特征是，包括：

客户端接收服务器反馈回来的更新后的模型。

2.如权利要求1所述的方法，其特征是，在将更新梯度值密文发送给服务器步骤之后，在客户端接收服务器反馈回来的更新后的模型步骤之前；还包括：机器学习模型的参数更新步骤；所述机器学习模型的参数更新步骤；包括：

服务器收集聚合所有客户端发送的更新梯度值密文，以总密钥s作为种子使用密钥同态伪随机函数产生一个随机数F(s,x)，用该随机数F(s,x)进行对更新梯度值密文处理，恢复出聚合更新梯度值明文，使用聚合更新梯度值对机器学习模型的参数进行更新，将更新后的机器学习模型的参数发给各个客户端。

3.如权利要求1所述的方法，其特征是，n个客户端使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成n份，每个客户端获得自己的秘密份额s_i；至少t个客户端参与恢复密钥s，并把密钥s发送给服务器；具体步骤包括：

S1011：每个客户端i选择秘密参数a_i,j，1≤j≤t-1；构造多项式f_i(x)＝a_i,0+a_i,1x+a_i,2x²+…+a_i,t-1x^t-1，x为客户端ID，t为门限值；

S1012：客户端i向客户端j发送f_i(j)，且f_i(i)只有客户端i知道；

S1013：每个客户端i，收集其他客户端j发送的f_j(i)，得到：

f(i)即为客户端i得到的秘密份额s_i，由拉格朗日插值法恢复出密钥s，并把密钥s发送给服务器；

或者，

每个客户端以秘密份额s_i作为种子，使用密钥同态伪随机函数产生一个伪随机数F(s_i,x)；并用随机数F(s_i,x)对更新梯度值进行加密得到更新梯度值密文，然后将更新梯度值密文发送给服务器；具体步骤包括：

S1031：客户端以秘密份额s_i作为种子生成随机数F(s_i,x)；

n_i为客户端拥有的数据条数，L_i为拉格朗日插值参数，并将

更新梯度值密文发送给服务器；

或者，

所述机器学习模型的参数更新步骤详细步骤包括：

即

n是所有数据的数量；

和密钥同态伪随机函数的特性可知：

即服务器能够抹去掩盖值

恢复出正确的聚合更新梯度值明文；

4.如权利要求1所述的方法，其特征是，n个客户端使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成n份，每个客户端获得自己的秘密份额s_i；至少t个客户端参与恢复密钥s，并把密钥s发送给服务器；允许被替换为：

S2011：n个的客户端分成m个不同的集群，每个集群内有q个客户端，每个集群都选定一个客户端作为集群头；

S2012：所有集群的集群头使用可验证秘密分享VSS产生一个密钥s，把密钥s分割成m份，每个集群头获得自己的秘密份额s_i；至少t个集群头参与恢复密钥s，并把密钥s发送给服务器端；服务器端只知道密钥s，而不知道秘密份额s_i；

或者，

所述S2012的具体步骤包括：

S20121：每个集群头i选择秘密参数a_i,j，1≤j≤t-1；构造多项式f_i(x)＝a_i,0+a_i,1x+a_i, ₂x²+…+a_i,t-1x^t-1，x为集群头ID，t为门限值；

5.如权利要求1所述的方法，其特征是，每个客户端均进行联邦学习，每个客户端在本地使用各自的数据进行机器学习模型训练，产生更新梯度值；允许被替换为：

S2021：在每个集群内部，客户端使用可验证秘密分享VSS产生一个密钥k_i ^′，把密钥k_i ^′分割成q份，每个客户端获得自己的秘密份额k_i，至少t个客户端参与恢复密钥k′_i，并把密钥k′_i发送给集群头；集群头只知道密钥k′_i，而不知道秘密份额k_i；

S2022：客户端在本地使用各自的数据进行机器学习模型训练，产生更新梯度值；

或者，

所述S2021的具体步骤包括：

S20213：对客户端i，收集其他客户端j发送到f_j(i)，得到

6.如权利要求1所述的方法，其特征是，每个客户端以秘密份额s_i作为种子，使用密钥同态伪随机函数产生一个伪随机数F(s_i,x)；并用随机数F(s_i,x)对更新梯度值进行加密得到更新梯度值密文，然后将更新梯度值密文发送给服务器；允许被替换为：

集群头以秘密份额s_i作为种子使用密钥同态伪随机函数产生一个随机数F(s_i,x)，用该随机数F(s_i,x)对得到的聚合更新梯度值明文进行加密并将其发送给服务器端；

或者，

所述S2031的具体步骤包括：

S20311：客户端以秘密份额k_i作为种子生成随机数F(k_i,x)；

n_i为客户端拥有的数据条数，L_i为拉格朗日插值参数，并发送给集群头；

或者，

所述S2032的具体步骤包括：

S20321：集群头收集并聚合客户端发送的更新梯度值密文

n是所有数据的数量；

S20322：集群头以密钥k′_i作为种子使用密钥同态伪随机函数产生一个随机数F(k′_i,x)，并利用F(k′_i,x)恢复出一个聚合更新梯度值明文g′_i；

S20323：集群头以秘密份额s_i作为种子使用密钥同态伪随机函数产生一个随机数F(s_i,x)；

7.如权利要求1所述的方法，其特征是，所述机器学习模型的参数更新步骤，允许被替换为：

S203-4：服务器端收集聚合所有集群头发送的聚合更新梯度值密文，以总密钥s作为种子使用密钥同态伪随机函数产生一个随机数F(s,x)，用该随机数F(s,x)进行对更新梯度值密文处理，恢复出聚合更新梯度值明文，使用此聚合梯度值对模型进行更新，将更新后的模型发给各个客户端；

或者，

所述S203-4，具体步骤包括：

由步骤S20324中集群头得到的更新梯度值密文：

计算出：

和密钥同态伪随机函数的特性可知：

即服务器端能够抹去掩盖值

恢复出正确的聚合更新梯度值明文；

S203-43：服务器端根据随机梯度下降法SGD，利用聚合梯度值明文对模型进行更新，将更新后的模型发给各个客户端。

8.基于同态伪随机数的联邦学习隐私保护系统，其特征是，包括：服务器和若干个客户端；

9.一种客户端，其特征是，其被配置为：

客户端接收服务器反馈回来的更新后的机器学习模型。

10.一种服务器，其特征是，其被配置为：收集聚合所有客户端发送的更新梯度值密文，以总密钥s作为种子使用密钥同态伪随机函数产生一个随机数F(s,x)，用该随机数F(s,x)进行对更新梯度值密文处理，恢复出聚合更新梯度值明文，使用聚合梯度值对机器学习模型的参数进行更新，将更新后的机器学习模型的参数发给各个客户端。