CN110390206A

CN110390206A - 边云系统框架下具有隐私保护的梯度下降加速算法

Info

Publication number: CN110390206A
Application number: CN201910315793.9A
Authority: CN
Inventors: 杨树森; 李亚男; 惠永昌
Original assignee: Jiangsu Huizhong Data Technology Co Ltd
Current assignee: Jiangsu Huizhong Data Technology Co Ltd
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2019-10-29

Abstract

边云系统框架下具有隐私保护的梯度下降加速算法，各个边服务器从中心服务器读取当前时刻的更新参量至本地服务器，从本地数据集中随机抽取一个批数据并在此批上计算梯度，随后从拉普拉斯分布中随机抽取噪声对梯度进行加密，之后上传至中心服务器完成梯度下降更新；若梯度的范数大于给定的阈值，则使用第一阶段的全局敏感度和学习率，利用过时梯度加速收敛并保护隐私；若梯度的范数小于给定的阈值，则转入第二阶段，使用调整后的全局敏感度和学习率，利用过时梯度加速收敛并保护隐私；解决了异步并行算法迭代更新时的隐私保护和收敛慢问题。

Description

边云系统框架下具有隐私保护的梯度下降加速算法

技术领域

本发明属于隐私保护技术领域，具体涉及一种边云系统框架下具有隐私保护的梯度下降加速算法。

背景技术

机器学习和人工智能的飞速发展为工业生产、社会生活产生了巨大利益并带来了极大便利，而用于机器学习的数据通常分布在各边服务器上，当数据量较小且不考虑隐私保护时，可将原始数据上传至中心服务器完成学习。但考虑到数据量的爆炸式增长和其中包含的大量用户的个人信息，将原始数据上传至中心服务器进行学习会消耗大量的I/O资源并增加用户隐私泄露的风险。为了解决这两个问题，可以采用边云智能学习，各边不需要将数据上传至中心服务器，而只需要将本地的梯度上传至中心服务器并在中心服务器异步并行地完成学习。即便如此，上传的梯度仍可能泄露本地数据的相关信息，另外异步并行方式产生的用于更新的过时信息会延长学习过程。因此，在边云系统中有两个基本的问题亟待解决：1)如何在保护梯度的同时，不显著降低学习结果的效用性？2)如何显著缩短机器学习过程并保证良好的预测精度，即如何显著提升机器学习的收敛率？

发明内容

为克服上述现有技术的不足，本发明的目的在于提供了一种边云系统框架下具有隐私保护的梯度下降加速算法，该算法显著提升了边云系统中基于梯度下降的异步并行算法的收敛率并提升预测精度，同时利用两阶段特性通过引入少量噪声有效提升了差分隐私保护的有效性和效率性问题。

为实现上述目的，本发明采用的技术方案是：

边云系统框架下具有隐私保护的梯度下降加速算法—两阶段可调节隐私保护算法(TAPA)，所有的边服务器独立并行的从中心服务器上读取当前时刻的更新参量x_t至本地，在随机抽取的本地mini-batch上计算梯度随后从拉普拉斯分布Lap(ΔS/ε)中随机抽取噪声η_t添加到梯度上得到之后将上传到中心服务器完成梯度下降更新两个阶段的区别在于所采用的拉普拉斯分布中的参量全局敏感度ΔS和学习率γ不相同，具体包括以下步骤：

步骤1，初始化学习参数：设置全局变量初始值x₀，批大小b，梯度Lipschitz常数L，梯度方差σ²，延时上界τ_max，总迭代次数T，第一阶段学习率γ₁、第二阶段学习率γ₂，单次迭代隐私预算ε，第一阶段全局敏感度ΔS₁、第二阶段全局敏感度ΔS₂，第一阶段、第二阶段划分阈值c；

第一阶段

步骤2，从中心服务器中读取步骤1的全局变量：边服务器N_i从中心服务器读取当前时刻t的全局变量x_t至本地；

步骤3，计算本地梯度：在本地数据集中随机抽取包含b条数据的一个batch，在batch上计算x_t处的梯度其中ξ为样本；

步骤4，对梯度添加噪声：从拉普拉斯分布Lap(ΔS₁/ε)中抽取噪声η_t，将噪声添加到梯度上，得到噪声梯度该机制确保梯度受到(ε，δ)-DP的差分隐私保护；

步骤5，更新全局变量：边服务器N_i将噪声梯度上传至中心服务器并利用公式更新全局变量；

步骤6，停止第一阶段：各边服务器独立并行重复步骤2)-6)直至条件成立，将此时的x_t记为x_tml并通信给中心服务器；

第二阶段

步骤7，广播新的初始值：中心服务器将x_tml广播给所有的边服务器，作为新的初始值x₀；

步骤8，读取全局变量：边服务器N_i从中心服务器读取当前时刻t的全局变量x_t至本地；

步骤9，计算本地梯度：在本地数据集中随机抽取包含b条数据的一个batch，计算x_t处的梯度其中ξ为样本；

步骤10，对梯度添加噪声：从拉普拉斯分布Lap(ΔS₂/ε)中抽取噪声η_t，将噪声添加到梯度上，得到噪声梯度该机制确保梯度受到ε-DP的差分隐私保护；

步骤11，更新全局变量：边服务器N_i将噪声梯度上传至中心服务器并利用公式更新全局变量；

步骤12，停止第二阶段：当总的迭代次数达到T时结束学习，x_T为最终模型训练结果，中心服务器将训练结果广播给各边服务器，完成学习；

上述步骤中，步骤2～步骤6为第一阶段，步骤7～步骤12为第二阶段；本发明的核心思想在于将传统学习分为两阶段学习，以实现同时提高机器学习的收敛率和学习模型的效用两个目标。

对于提高机器学习的收敛率，提出两阶段加速方法；在第一阶段，与传统上单纯抑制过时梯度对收敛产生不好影响的做法相反，TAPA利用异步并行产生的过时梯度去加速学习过程，使得更新参量x_t可快速的趋于包含最优解x^*的某一领域；在第二阶段，为了继续利用过时梯度去加速学习，需要对过时信息程度进行调整，将第一阶段结束时的x_tml设为新的初始值，并以新的学习率在第一阶段趋于的x^*的领域内寻找最优解。

对于提高学习模型效用，提出两阶段差分隐私保护方法；与传统在整个搜索空间上计算全局敏感度不同，在第一阶段采用(ε，δ)-DP，在牺牲微小的隐私情况下(δ≈0)，可极大的降低噪声的幅度，进而极大地提升梯度的效用性；在第二阶段，由于已经限制梯度的范数小于事先给定的阈值c，故第二阶段取全局敏感度2c/b以保证ε-DP；该两阶段差分隐私保护策略与不分阶段相比，既保护了梯度信息，又极大地提升了梯度的效用性。

本发明进一步的改进在于，第一阶段、第二阶段的划分阈值c的确定和步骤1中核心参量的计算公式：

ΔS₂＝2c/b

其中x^*为最优解，σ²为梯度方差，L为Lipschitz梯度光滑常数，τ_max为延时上界，R为搜索空间直径，1-δ为隐私保护程度，n为训练集的大小，b为批的大小，T为总的迭代次数，c为第一、二阶段阈值且满足c＞σ²/b。

本发明进一步的改进在于，所述的步骤2中各边服务器从中心服务器读取全局更新参量xt的方式是独立并行的，边服务器N_i读取到本地的参量x_t(i)和边服务器N_j读取到本地的参量x_t(j)是不同的。

本发明进一步的改进在于，所述的步骤3的具体操作为：边服务器N_i在本地数据集上抽取数量为b的数据batch_i，利用公式

计算梯度，边服务器N_j在本地数据集上抽取数量为b的数据batch_j，利用公式

计算梯度。

本发明进一步的改进在于，所述的步骤4的具体操作为：从拉普拉斯分布Lap(ΔS₁/ε)中随机抽取噪声η_t，将噪声添加到梯度上，得到噪声梯度边服务器N_j从拉普拉斯分布Lap(ΔS₁/ε)中随机抽取噪声η_j，将噪声添加到梯度上，得到噪声梯度该策略提供(ε，δ)-DP，这里η_t服从拉普拉斯分布Lap(λ)，其密度函数形式为

在第一阶段确保(ε，δ)-DP而非ε-DP的原因有两个：(1)在牺牲可忽略不计的隐私前提下，会极大地降低引入噪声的幅度，进而显著提升梯度在学习中的效用性；(2)第一阶段参量远离最优解x^*，此时对梯度信息的推断不会泄露x^*的相关信息。

本发明进一步的改进在于，步骤5的具体操作为：所有的边服务器将计算好的噪声梯度按照梯度下降公式在中心服务器独立并行地完成更新，并将更新后的x_t+τ(t)读取到本地进行下一轮梯度计算，其中学习率为γ₁，敏感度ΔS₁的确定依据公式：

其中x^*为最优解，σ²为梯度方差，τ_max为延时上界，n为训练集的大小，b为批的大小，T为总的迭代次数，1-δ为隐私保护程度，c²为第一、第二阶段阈值满足c²＞σ²/b。

本发明进一步的改进在于，步骤6的具体操作为：每个边服务器在完成梯度计算后，独立地判断梯度的范数是否小于给定的阈值c，若满足，则完成第一阶段学习转入第二阶段学习，若不满足，则继续进行第一阶段学习。

本发明进一步的改进在于，步骤7的具体操作为：中心服务器将第一阶段结束时得到的x_tml设置为第二阶段学习的初始值x₀，并广播给所有的边服务器，各边服务器以x₀为初始值开始第二阶段学习。这种做法的目的在于降低梯度的过时程度，避免较大的过时量使得参量逐渐远离最优解x^*或在最优解x^*周围振荡而不收敛于x^*。

本发明进一步的改进在于，步骤8～步骤11的具体操作为：步骤8～步骤11的具体做法与步骤2～步骤5流程相同，区别在于差分隐私的机制和学习率；步骤8～步骤11中噪声的抽样分布为拉普拉斯Lap(ΔS₂/ε)，学习率为γ₂，敏感度ΔS₂的确定依据公式：

ΔS₂＝2c/b

这里x^*为最优解，σ²为梯度方差，L为Lipschitz梯度光滑常数，τ_max为延时上界，R为搜索空间直径，n为训练集的大小，T为总的迭代次数，b为批的大小，c为第一、二阶段阈值且满足c＞σ²/b。

其中步骤10具体操作为：从拉普拉斯分布Lap(ΔS₂/ε)中随机抽取噪声η_t，将噪声添加到梯度上，得到噪声梯度该策略提供ε-DP，这里η_t服从拉普拉斯分布Lap(λ)，其密度函数形式为

利用步骤10，在第二阶段实现确保ε-DP而非(ε，δ)-DP的原因在于：(1)由于第二阶段限定搜索空间为最优解x^*周围的某个领域，此领域内的全局敏感度ΔS₂不会过大，采用ΔS₂对应的拉普拉斯分布不会引入过大幅度的噪声；(2)第二阶段参量更新已经在最优解x^*的某领域内，此时对梯度信息的推断可能会泄露x^*的相关信息，必须采用ε-DP。

其中步骤11的具体操作为：边服务器N_i将噪声梯度上传至中心服务器，并利用公式更新全局变量，这里重新设置的学习率γ₂可同时起到利用过时梯度加速学习和抑制噪声的影响两重作用。

本发明的进一步改进在于，步骤12的具体做法为：中心服务器设置计数时钟，用于统计全局更新次数，当总的更新次数达到T时，停止学习并得到最终学习结果x_T。

本发明具有如下有益的技术效果：

本发明提供的边云系统框架下具有隐私保护的梯度下降加速算法，将整个学习过程分为两个阶段，在第一阶段利用过时梯度去加速学习，使参量快速收敛到包含最优解x^*的某一领域，在第二阶段调整学习率使参量仍以较快速度收敛到最优解x^*。在两个阶段中，所有的边服务器从中心服务器读取迭代参量至本地，在本地计算min-batch梯度并添加相应差分隐私策略的噪声对梯度进行加密，随后将加密后的梯度上传至中心服务器完成单次梯度下降更新，重复该过程直至总的迭代次数或资源耗尽。该方法在确保隐私安全的前提下，利用过时梯度将学习收敛率进行了显著地提升，有效地降低了通信资源的消耗。

附图说明

图1为边云系统异步并行框架的示意图。

图2为本文所提方法的流程图。

图3为过时梯度产生影响的示意图。

图4为用两阶段方法调节收敛的示意图。

图5为SOA与Two-Stage方法在相同训练精度下需要迭代次数的对比图。

图6为Two-Stage与TAPA方法在相同训练精度下需要迭代次数的对比图。

图7为SOA、Two-Stage、TAPA三种方法得到训练模型在相同预测集上的精度对比图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

参考图1，考虑本地数据上传至中心服务器需要高成本和隐私泄露风险的增加，所以数据存储在本地服务器，而本地服务器间采用异步并行的方式与中心服务器仅通信梯度来完成基于梯度下降的机器学习任务；同时，考虑窃听者通过对梯度的窃听和分析可能获得本地数据和模型的相关信息，使用差分隐私对通信梯度进行保护。

参考图2，本发明提供了边云系统框架下具有隐私保护的梯度下降加速算法，将传统的异步并行机器学习算法分为两个阶段，第一阶段，利用异步产生的过时梯度对学习进行加速，确保全局更新参量快速趋于包含最优解的某一特定领域；第二阶段，仅在第一阶段确定的特定领域内搜索最优解，通过设定合适的学习率对学习过程进一步加速；同时，在两个阶段的学习过程中，均采用差分隐私机制对各边服务器用于全局更新的随机梯度进行保护，两阶段中引入的噪声幅度均明显小于传统不分阶段的异步并行算法；边云系统框架下具有隐私保护的梯度下降加速算法在保护隐私的同时，不仅显著提升了收敛速率而且同时提升了预测精度；具体包括以下步骤：

步骤1，初始化学习参数：设置迭代初始值x₀，批的大小b，总迭代次数T，单次迭代隐私预算ε，第一阶段、第二阶段划分阈值c，按照以下公式分别计算第一阶段全局敏感度ΔS₁、第二阶段全局敏感度ΔS₂，第一阶段学习率γ₁、第二阶段学习率γ₂；

ΔS₂＝2c/b

开始第一阶段

步骤2，从中心服务器中读取全局更新变量：边服务器N_i从中心服务器读取当前时刻t的全局更新变量x_t至本地，由于所有的边服务器采用异步并行的方式进行更新，所以不同的边服务器读取更新参量的时刻一般不同；

步骤3，计算本地梯度：边服务器N_i从本地数据集中随机抽取包含b条数据的一个batch，并在该batch上计算x_t处的梯度边服务器N_j在本地数据集上抽取数量为b的数据batch_j，利用公式

计算梯度；

步骤4，对梯度添加噪声：为了保护边服务器与中心服务器通信的原始梯度不被窃听者获得，采用差分隐私保护，从拉普拉斯分布Lap(ΔS₁/ε)中抽取噪声η_t，将噪声添加到原始梯度上，得到加密后的噪声梯度边服务器N_j从拉普拉斯分布Lap(ΔS₁/ε)中随机抽取噪声η_j，将噪声添加到梯度上，得到噪声梯度该机制确保梯度受到(ε，6)-DP的差分隐私保护；

步骤5，更新全局变量：边服务器Ni将加密后的噪声梯度上传至中心服务器并利用过时梯度和公式更新全局变量；并将更新后的x_t+τ(t)读取到本地进行下一轮梯度计算；

步骤6，停止第一阶段：各边服务器独立并行重复步骤2)-5)直至条件成立，当条件成立时结束第一阶段，将此时的x_t记为x_tml并通信给中心服务器；

步骤6的具体操作为：所有的边服务器在完成梯度计算后，首先判断梯度的范数是否小于给定的阈值c，若满足，则完成第一阶段学习转入第二阶段学习，若不满足，则继续进行第一阶段学习；

开始第二阶段

步骤7，广播新的初始值：中心服务器将x_tml广播给所有的边服务器，所有的边服务器采用第二阶段的全局敏感度ΔS₂和学习率γ₂，以x_tml作为新的初始值开始梯度下降更新；

步骤7的具体做法为：中心服务器将第一阶段结束时的参量x_rml设置为第二阶段的初始参量x₀，并将x₀广播给所有的边服务器后开始第二阶段学习。

步骤9，计算本地梯度：在本地数据集中随机抽取包含b条数据的一个batch，计算x_t处的梯度

步骤9的具体做法为：中心服务器将第一阶段结束时的参量x_rml设置为第二阶段的初始参量x₀，并将x₀广播给所有的边服务器后开始第二阶段学习；

步骤12，停止第二阶段：当总的迭代次数达到T时结束学习，x_T为最终模型训练结果，中心服务器将训练结果广播给各边服务器，完成学习。

参考图3，该图说明了在边云系统中的异步并行算法所产生的过时梯度在一定范围内可以提升收敛的速率。通过图3可以发现，当延时从0增加到6时，收敛到相同给定精度所用的迭代次数从42逐步减小到24，当延时继续从6增加到12时，收敛到相同给定精度所用的迭代次数从35逐渐增大到82。所以，可以利用过时梯度在一定范围内对学习进行加速。

参考图4，该图展示了对于延时为12时利用两阶段思想得到的参量迭代轨迹图。该图直观展示了两阶段加速算法的实际效果，图中有明显弯折的两条曲线分别为两阶段算法添加噪声和不添加噪声两种情况，其中的弯折处为第一阶段、第二阶段的分界点。利用两阶段方法，可以将迭代次数从82降低到62，进一步考虑隐私保护对学习率再进行调节，迭代次数可降至38。

参考图5至图7，记录了在真实数据集MNIST上应用逻辑回归做分类的实际效果。图5、图6、图7为三种不同方法在数据集MNIST上做逻辑回归的迭代次数和预测精度展示；其中，图5与图6展示了在收敛到相同给定精度下，三种算法SOA、Two-Stage、TAPA在不同边服务器个数下所需要的迭代次数，这里SOA为主流异步并行算法，Two-Stage为本方法的二阶段学习但不考虑隐私保护，TAPA为本方法的考虑隐私保护的二阶段加速学习算法。从图5和图6中可以观察出本方法在保护隐私的同时可显著的提升学习的速率。图7展示了三种方法在训练集上得到的模型用来预测时的精度对比结果，从中可以本方法在预测精度上明显地高于主流异步并行算法。

Claims

1.边云系统框架下具有隐私保护的梯度下降加速算法，其特征在于，包括以下步骤：

第一阶段

步骤3，计算本地梯度：边服务器N_i在本地数据集中随机抽取包含b条数据的一个batch，在batch上计算x_t处的梯度其中ξ为样本；

第二阶段

2.根据权利要求1所述的边云系统框架下具有隐私保护的梯度下降加速算法，其特征在于，步骤1的具体操作为：给定合理的初始值x₀，批大小b，总迭代次数T，单次迭代隐私预算ε；而对于其它参数，包括第一阶段学习率γ₁、第二阶段学习率γ₂，第一阶段全局敏感度ΔS₁、第二阶段全局敏感度ΔS₂，第一阶段、第二阶段划分阈值c，则需要按照以下公式进行计算

ΔS₂＝2c/b

c＞σ²/b

其中x^*为最优解，σ²为梯度方差，L为Lipschitz梯度光滑常数，1-δ为隐私保护程度，τ_max为延时上界，R为搜索空间直径，n为训练集的大小，b为批的大小，T为总的迭代次数。

3.根据权利要求1所述的边云系统框架下具有隐私保护的梯度下降加速算法，其特征在于，步骤2中各边服务器从中心服务器读取全局更新参量x_t的方式是独立并行的，边服务器N_i读取到本地的参量x_t(i)和边服务器N_j读取到本地的参量x_t(j)是不同的。

4.根据权利要求1所述的边云系统框架下具有隐私保护的梯度下降加速算法，其特征在于，步骤3的具体操作为：边服务器N_i在本地数据集上抽取数量为b的数据batch_i，利用公式

计算梯度。

5.根据权利要求1所述的边云系统框架下具有隐私保护的梯度下降加速算法，其特征在于，步骤4的具体操作为：边服务器N_i从拉普拉斯分布Lap(ΔS₁/ε)中随机抽取噪声η_i，将噪声添加到梯度上，得到噪声梯度边服务器N_j从拉普拉斯分布Lap(ΔS₁/ε)中随机抽取噪声η_j，将噪声添加到梯度上，得到噪声梯度确保(ε，δ)-DP而非ε-DP的原因有两个：(1)在牺牲可忽略不计的隐私前提下，会极大地降低引入噪声的幅度，进而显著提升梯度在学习中的效用性；(2)第一阶段参量远离最优解x^*，此时对梯度信息的推断不会泄露x^*的相关信息。

6.根据权利要求1所述的边云系统框架下具有隐私保护的梯度下降加速算法，其特征在于，步骤5的具体操作为：所有的边服务器将计算好的噪声梯度按照梯度下降公式在中心服务器独立并行地完成更新，并将更新后的x_t+τ(t)读取到本地进行下一轮梯度计算。学习率为γ₁，敏感度ΔS₁的确定依据公式：

7.根据权利要求1所述的边云系统框架下具有隐私保护的梯度下降加速算法，其特征在于，步骤6的具体操作为：所有的边服务器在完成梯度计算后，首先判断梯度的范数是否小于给定的阈值c，若满足，则完成第一阶段学习转入第二阶段学习，若不满足，则继续进行第一阶段学习。

8.根据权利要求1所述的边云系统框架下具有隐私保护的梯度下降加速算法，其特征在于，步骤7的具体做法为：中心服务器将第一阶段结束时的参量x_rml设置为第二阶段的初始参量x₀，并将x₀广播给所有的边服务器后开始第二阶段学习。

9.根据权利要求1所述的边云系统框架下具有隐私保护的梯度下降加速算法，其特征在于，步骤8～步骤11的具体做法与步骤2～步骤5流程相同，区别在于差分隐私的机制和学习率；步骤8～步骤11中噪声的抽样分布为拉普拉斯Lap(ΔS₂/ε)，学习率为γ₂，ΔS₂的确定依据公式：

ΔS₂＝2c/b

其中σ²为梯度方差，τ_max为延时上界，R为搜索空间直径，b为批的大小，T为总的迭代次数，c²为第一、第二阶段阈值满足c²＞σ²/b；

该噪声机制Lap(ΔS₂/ε)确保ε-DP而非(ε，δ)-DP，原因在于：(1)由于第二阶段限定搜索空间为最优解x^*周围的某个领域，此领域内的全局敏感度ΔS₂不会过大，采用ΔS₂对应的拉普拉斯分布不会引入过大幅度的噪声；(2)第二阶段参量更新已经在最优解x^*的某领域内，此时对梯度信息的推断可能会泄露x^*的相关信息，必须采用ε-DP。

10.根据权利要求1所述的边云系统框架下具有隐私保护的梯度下降加速算法，其特征在于，步骤12的具体做法为：中心服务器设置计数时钟，当总的更新次数达到T时，停止学习并得到最终学习结果x_T。