CN111475848A

CN111475848A - 保障边缘计算数据隐私的全局和局部低噪声训练方法

Info

Publication number: CN111475848A
Application number: CN202010368216.9A
Authority: CN
Inventors: 韩锐; 刘驰; 李东; 欧阳峻彦
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-07-31
Anticipated expiration: 2040-04-30
Also published as: CN111475848B

Abstract

本发明提供了一种保障边缘计算数据隐私的全局和局部低噪声训练方法，包括，步骤1：原始数据输入，通过读取分布式文件系统或者本地磁盘中的数据；步骤2：对符合模型输入要求的输入数据进行全局噪声降低处理；步骤3：进行面向问题的分布式环境下的数据训练；步骤4：冗余数据移除,在数据训练过程中，使用在步骤3中计算得到的梯度值计算压缩点对训练梯度更新的影响程度来移除冗余数据；步骤5：局部噪声添加与降低；步骤6：判断当前迭代是否满足迭代终止条件。所述方法通过降低差分隐私保护中的全局噪声与局部噪声，实现在隐私保护的前提下达到更高的模型精度与可用性。

Description

保障边缘计算数据隐私的全局和局部低噪声训练方法

技术领域

本发明涉及多方联合模型训练的隐私保护技术领域，具体涉及一种保障边缘计算数据隐私的全局和局部低噪声训练方法。

背景技术

在万物互联时代，物联网将人、机、物广泛互联，其众多的节点使得更高精确度与泛化性的模型训练成为可能，然而由于其分布式节点多、数据传输分散、监管不到位等原因，物联网的安全与隐私问题更加突出，已成为物联网相关研究需要重点关注的内容，而差分隐私则为上述问题提供了一个有效的解决方法。

差分隐私可以通过在查询结果上加入噪声来实现对用户隐私信息的保护，而噪声量的大小则是一个关键的量，为了保证数据与模型的可用性，就需要使得添加的噪声相对的小；而为了提供高的隐私保护，就需要大的噪声的添加，而这又降低了模型的精度和可用性，因此，如何在分布式数据分析和训练环境下有效降低噪声，是有效保障数据隐私所需要解决的重要问题。

在差分隐私保护算法中，噪声添加的大小是由函数敏感度决定的，围绕函数敏感度，现有的相关技术主要分为以下几类：

Sample-Aggregate框架，由Nissim等人提出，Sample-Aggregate框架通过把查询函数转化为一个平滑敏感度较低的函数，实现了敏感度的降低，进而使得最后添加的噪声降低，Sample-Aggregate框架首先将一个数据集随机取样划分为m个小子集，m是框架中设定好的参数，然后对每个子集上执行查询函数f来生成一个在f的输出空间上的值z_k，最后通过聚合函数生成

来替代原始查询函数f，加入校正至平滑敏感度的噪声来得到查询结果，该方法对于交互式的查询操作有着比较好的效果，但是对于多方数据源的联合模型训练的适应性却不是很强；

矩阵机制，由Li等人提出，该方法优化了大量线性查询中噪声量过大的问题，该方案通过将批量的线性查询转化为一查询负载W，W矩阵中包含了一系列不同的线性查询，该方案使用一个不同的矩阵A来进行查询，矩阵A称为查询策略，在这里，我们把可以线性表示查询负载的矩阵A称为查询负载W的查询策略，严格的说，即存在解矩阵X，使得W＝XA成立，矩阵机制通过在查询策略上加入合适的噪声来实现差分隐私保护，其定义如下：

M_k，A(W，x)＝WA⁺K(A，x)

其中K(A，x)为作用于数据集x和查询策略A的差分隐私机制，若使用拉普拉斯机制，则有K(A，x)＝Ax+b_A，b_A是一个噪声向量，A⁺为查询策略A的广义逆矩阵，但是矩阵机制的缺点在于，当给定一个查询负载时，求解其最优的查询策略是一个半正定最优问题，当查询负载在一个有m个数据格的直方图上时，求解该问题的复杂度为O(m⁶)，这使得矩阵机制对于大型的数据是难以使用的。

发明内容

针对现有技术的不足，本发明提供一种保障边缘计算数据隐私的全局和局部低噪声训练方法。

为了实现本发明的目的，采用如下技术方案：

一种保障边缘计算数据隐私的全局和局部低噪声训练方法，包括：

步骤1：原始数据输入，通过读取分布式文件系统或者本地磁盘中的数据，将所述数据记录至内存中，并对输入数据进行处理以符合模型输入要求；

步骤2：对符合模型输入要求的输入数据进行全局噪声降低处理，压缩点生成：

步骤2.1：对所述输入数据进行降维，使用基于增量奇异值分解法对数据训练模型对应的输入数据进行降维，使用增量奇异值分解法将大小为N×d的输入数据转化为大小为N×v的数据，其中N为数据的数目，v、d为每条数据的维度，且v＜＜d，即实现了数据维度的降低；

步骤2.2：基于LSH(局部敏感哈希)数据划分，在得到降维数据之后将N×v的降维数据集中的N个数据点划分为2^v个子集，每个子集包括

个相似数据点；

步骤2.3：对划分数据进行数据聚集，根据步骤2.2的划分结果，将每个子集所对应的原始输入数据点进行压缩属性信息以将原始输入数据点转换成一个压缩点；

步骤2.4：根据步骤2.2的划分结果，生成粗粒度压缩点，记录经过压缩后的属性信息，并将所述属性信息转换成为一个粗粒度压缩点，记录粗粒度压缩点；

步骤2.5：生成细粒度压缩点，在数据训练过程中，对于每一个粗粒度压缩点所对应的原始数据进一步压缩以生成多个相对应的细粒度压缩点；

步骤3：进行面向问题的分布式环境下的数据训练，计算出集群中每个节点的梯度值，使用正向传播方法，通过数据模型中的模型参数以及模型的输入数据，沿着数据模型网络计算下去，最终得到每一个节点的局部梯度值；

步骤4：冗余数据移除，在数据训练过程中，使用在步骤3中计算得到的梯度值计算压缩点对训练梯度更新的影响程度来移除冗余数据；

步骤5：局部噪声添加与降低，通过对步骤3中计算得到的梯度添加噪声，通过噪声量的选取实现在噪声大小与模型可用度之间的平衡，以降低局部噪声；

步骤6：判断当前迭代是否满足迭代终止条件，若满足，则结束训练，否则进入下一迭代的训练过程。

进一步地，步骤1所述对输入数据进行处理包括将图片数据转化为向量数据和将原始数据进行标记。

进一步地，步骤2所述全局噪声为每个节点梯度上添加局部噪声之后的等价效果，设各节点添加噪声标准差为σ_local，根据中心极限定理，在节点数较多时，求得全局梯度的公式(1)：

其中，N表示正态分布，d表示加噪声后全局梯度，

表示未加噪声的全局梯度，L是批大小(batch size)，K是节点数。

进一步地，步骤4所述移除冗余数据包括如下步骤：

步骤4.1，计算每一个粗粒度压缩点对参数更新的影响值；

步骤4.2，若影响值大于有效点上界，则保留影响值数据，若影响值小于有效点下界，则移除影响值数据；

步骤4.3，若影响值介于有效点上界与下界之间，则计算影响值的粗粒度压缩点对应的细粒度压缩点以及其对应的对梯度参数的影响值，进行细分操作。

进一步地，步骤5中，局部噪声的降低通过计算每个节点加入的噪声决定，每个节点加入的噪声通过如下步骤求得：

步骤5.1：梯度采样，从所有的节点梯度中，随机获取梯度数据；

步骤5.2：计算梯度标准差，计算上述获得的梯度数据的标准差，根据3-sigma原则，取样之后计算出的梯度标准差代表整体的梯度分布的标准差；

步骤5.3：计算差分隐私敏感度，通过上述计算得到的标准差计算出差分隐私的敏感度；

步骤5.4：计算差分隐私噪声相关参数，得到差分隐私敏感度之后，通过敏感度计算出差分隐私噪声的参数；

步骤5.5：生成差分隐私噪声生成器，根据步骤5.4中的噪声参数，构造相应参数的随机噪声生成器，生成随机噪声，并将生成随机噪声添加至节点梯度值中，其中，噪声参数为拉普拉斯分布的尺度参数β，或者高斯分布的尺度参数σ²。

进一步地，步骤5.3所述差分隐私的敏感度计算按照如下公式(2)：

Δf＝max||f(D)-f(D′)||₁或Δf＝max||f(D)-f(D′)||₂……(2)，

其中，Δf为函数f的敏感，f为对数据集应用的函数，D，D′为两个只差一条记录的数据集，||·||表示范数，下标取1表示使用一阶范数计算，取2表示使用二阶范数计算。

进一步地，步骤5.2所述梯度标准差的计算：取出一个节点，从局部角度来看，使用m条记录用于训练，将用于训练的第i条记录对应的梯度记为d_i，计算出局部梯度

对这个局部梯度向量采样，算出局部梯度的分布的标准差σ，计算出敏感度

进而可得对于(∈-δ)-差分隐私，∈和δ均表示差分隐私定义中用来控制隐私度的一个度量，噪声标准差设置为如下式(3)：

从全局角度看，为了能计算全局噪声大小，设每个节点运行的任务添加噪声的标准差都是σ_local，则全局噪声为下式(4)：

进一步地，步骤5.5中，在添加随机噪声时，当使用拉普拉斯机制，对应的是∈-差分隐私，则对原函数添加分布为Lap(μ＝0，β＝Δ/∈)的噪声；当使用高斯机制，对应的是(∈，δ)-差分隐私，则对原函数添加分布为

的噪声。

相对于现有技术，本发明的有益效果是：

1、本发明所述保障边缘计算数据隐私的全局和局部低噪声训练方法，针对物联网背景下的多方联合模型训练的隐私保护问题，通过降低差分隐私保护中的全局噪声与局部噪声，实现了在隐私保护的前提下达到更高的模型精度与可用性。

2、本发明所述保障边缘计算数据隐私的全局和局部低噪声训练方法，通过使用冗余移除算法实现了在资源有限的情况下有效的增加模型训练的批大小，从而实现了更小的全局噪声的添加。

3、本发明所述保障边缘计算数据隐私的全局和局部低噪声训练方法，通过利用3-sigma原则，通过使用了取样(Sample)的方法，合理的确定了梯度的范围，保证了局部低噪声的实现。

附图说明

图1是本发明中保障边缘计算数据隐私的全局和局部低噪声训练方法的流程图；

图2是本发明中局部噪声计算的流程图；

图3是本发明中分布式环境下局部噪声的添加与全局噪声计算的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述，需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

实施例

如图1所示，本实施例提供一种面向边缘计算差分隐私全局和局部低噪声隐私保护方法，所述方法流程为：先在各节点取出本地数据，如果选择了进行冗余移除，则还要进行数据点压缩，然后进行神经网络的正向推导，计算出各记录对应的梯度，如果选择进行梯度裁剪，需要在此进行，然后计算局部梯度，根据局部梯度计算噪声，汇总局部梯度，计算全局梯度，将全局梯度反向传播，更新模型权重参数。

具体的，一种保障边缘计算数据隐私的全局和局部低噪声训练方法，包括：

步骤1：原始数据输入，通过读取分布式文件系统或者本地磁盘中的数据，将所述数据记录至内存中，并对输入数据进行处理，例如将图片数据转化为向量数据，将原始数据进行标记等操作；

步骤2：对符合模型输入要求的输入数据进行全局噪声降低处理以为进行模型的训练做准备，压缩点生成：

个相似数据点，考虑到N是否能被2v整除的问题，实际应用中可能会出现有的子集数据点个数不足

步骤2.3：对划分数据进行数据聚集，根据步骤2.2的划分结果，将每个子集所对应的原始输入数据点进行压缩属性信息以将原始输入数据点转换成一个压缩点，在d个维度上，压缩点的每一个属性值，都是对应子集上所有原始数据点在对应维度属性值的平均值；

步骤2.4：根据步骤2.2的划分结果，生成粗粒度压缩点，记录经过压缩后的属性信息，并将所述属性信息转换成为一个粗粒度压缩点，记录粗粒度压缩点，对于划分结果的每一个子集，找到其对应的原始数据，由于其经过数据降维，数据划分之后属于同一个子集，将同一个子集中对应的原始数据进行压缩，压缩方法为将这些原始数据中相同维度所对应的值平均，形成一个新的向量，生成粗粒度压缩点；

步骤3：进行面向问题的分布式环境下的数据训练，通过采用机器学习中的正向传播方法计算出节点的集群中每个节点的梯度值，通过数据模型中的模型参数以及模型的输入数据，沿着数据模型网络计算下去，最终得到每一个节点的局部梯度值；

步骤5：局部噪声添加与降低，通过对步骤3中计算得到的梯度添加噪声以达到隐私保护的效果，通过噪声量的选取来保证在噪声大小与模型可用度之间的平衡，从而保证了局部噪声的降低；

步骤6：判断当前迭代是否满足迭代终止条件，即模型准确度是否达到所定阈值，或训练迭代次数是否达到最大值，若满足上述条件，则结束训练，否则进入下一迭代的训练过程。

在本实施例的步骤1中，原始数据因为格式不符合模型输入要求，未标注标签值问题不能直接用于机器学习的训练，因此需要进行预处理操作，同时相对于磁盘的数据读取速度，内存的数据读取速度要快上很多，因此基于内存的机器学习方法都需要将数据记录在内存中以便数据训练。

在本实施例的步骤2中，全局噪声为每个节点梯度上添加局部噪声之后的等价效果，节点梯度的概念是针对分布式训练平台而言的，对于分布式计算平台，为了保证训练效率，其使用多个节点并行的进行计算，每个节点计算一部分的数据，使用正向传播方法来计算出每个节点的梯度值，即为节点梯度，这里的节点即集群节点，设各节点添加噪声标准差为σ_local，根据中心极限定理，全局梯度是指各个节点梯度加噪声之后的平均梯度，同时也看作未加噪的节点梯度的平均值加上全局噪声，在节点数较多时，按照如下公式求得全局梯度：

其中，N表示正态分布，d表示加噪声后全局梯度，

表示未加噪声的全局梯度，L是批大小(batch size)，K是节点数，全局噪声的分布近似为

则全局噪声的标准差为

可见，它正比于

因此，随着批大小L的增大，全局噪声减小。

其中，节点梯度的概念是针对分布式训练平台而言的，对于分布式计算平台，为了保证训练效率，其使用多个节点并行的进行计算，每个节点计算一部分的数据，使用正向传播方法来计算出每个节点的梯度值，即为节点梯度，这里的节点即集群节点；全局梯度是指各个节点梯度加噪声之后的平均梯度，同时也可以看作未加噪的节点梯度的平均值加上全局噪声。

在本实施例的步骤5中，如图2所示，局部噪声添加与降低的具体流程为：对局部梯度进行采样，计算梯度数据的标准差，再根据梯度标准差和梯度向量维数(已知)以及上文提到的L1或L2敏感度计算公式计算差分隐私敏感度，最后再根据这个敏感度、所选的差分隐私机制(拉普拉斯机制或高斯机制)和设定好的隐私预算等超参数计算噪声的分布相关参数，从而构造该分布对应的随机数产生器，取出一个节点，从局部角度来看，使用m条记录用于训练，将用于训练的第i条记录对应的梯度记为d_i，计算出局部梯度

进而可得对于(∈-δ)-差分隐私，∈和δ均表示差分隐私定义中用来控制隐私度的一个度量，噪声标准差设置为如下：

从全局角度看，为了能计算全局噪声大小，设每个task(每个节点运行的任务)添加噪声的标准差都是σ_local，则全局噪声为：

例如，目标CNN网络参数共10000000个，有15个工作节点，批大小取3000，则δ取0.000001，∈取314.0时σ_global＝0.100σ，这时，可以预估全局噪声大小约为梯度本身的1/10，如果实验时发现这个大小的噪声对网络的效果影响大，则可以依据上面全局噪声公式，通过增加批大小的方式减小噪声。

在本实施例的步骤3中，根据要解决问题的不同，采用不同的机器学习训练方法，也就是确定数据训练所使用的人工神经网络。

在本实施例的步骤5中，如图3所示，其中Node1，Node2，Node3，Node4代表集群中的节点，f操作为计算节点梯度的操作，∑指求和操作，noise为需要添加的局部噪声，Average为平均操作，final gradient为最终梯度。其步骤是在每个Node节点中，每一条记录t_i经过正向传播操作f之后得到当前的梯度值，然后对这个节点每一条记录的梯度值进行求和∑操作，接着添加局部噪声(Noise)，最后对这些加噪梯度进行求和操作∑，取平均值得到全局噪声，这里的均值指对该迭代下每条训练记录的均值，即除以批的大小(batch size)，而非节点数。

每个节点在步骤3中求出该轮迭代中使用的每条记录对应梯度的和(或均值)，并添加差分隐私噪声，最后把各节点的结果求和并除以批的大小batch-size，当用的是均值，则除以节点数，最后得到该轮迭代最终梯度值。局部噪声的降低，主要是通过合理的计算每个节点加入的噪声决定的。根据差分隐私的定义，确定当前需要添加的噪声需要计算当前函数的敏感度Δ：

Δf＝max||f(D)-f(D′)||₁或Δf＝max||f(D)-f(D′)||₂，

其中，Δf为函数f的敏感，f为对数据集应用的函数，D，D′为两个只差一条记录的数据集，||·||为范数，下标取1表示使用一阶范数计算，取2表示使用二阶范数计算，在添加局部噪声时，若使用拉普拉斯机制，对应的是∈-差分隐私，则对原函数添加分布为Lap(μ＝0，β＝Δ/∈)的噪声；若使用高斯机制，对应的是(∈，δ)-差分隐私，则对原函数添加分布为

的噪声。

通过上述公式得知，添加的噪声的大小是与敏感度Δ成正比的，计算敏感度，根据敏感度的计算公式，就需要计算出梯度的区间范围，这里我们采用取样法来计算这个值，其步骤如下：梯度采样，从所有的节点梯度中，随机获取一定量的梯度数据；计算梯度标准差，计算上述获得的梯度数据的标准差，根据3-sigma原则，取样之后计算出的梯度标准差是可以在一定程度上代表整体的梯度分布的标准差的；计算差分隐私敏感度，通过上述计算得到的标准差计算除差分隐私的敏感度；计算差分隐私噪声相关参数，得到差分隐私敏感度之后，通过敏感度计算出差分隐私噪声的参数。

本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书界定。

Claims

1.一种保障边缘计算数据隐私的全局和局部低噪声训练方法，其特征在于，包括：

步骤2.1：对所述输入数据进行降维，使用基于增量奇异值分解法对数据训练模型对应的输入数据进行降维，使用增量奇异值分解法将大小为N×d的输入数据转化为大小为N×v的数据，其中N为数据的数目，v、d为每条数据的维度，且v<<d，即实现了数据维度的降低；

步骤2.2：基于LSH局部敏感哈希数据划分，在得到降维数据之后将N×v的降维数据集中的N个数据点划分为2^v个子集，每个子集包括

相似数据点；

步骤4：冗余数据移除,在数据训练过程中，使用在步骤3中计算得到的梯度值计算压缩点对训练梯度更新的影响程度来移除冗余数据；

步骤5：局部噪声添加与降低，通过对步骤3中计算得到的梯度添加噪声，通过噪声量的选取来实现在噪声大小与模型可用度之间的平衡，以降低局部噪声；

2.根据权利要求1所述的保障边缘计算数据隐私的全局和局部低噪声训练方法，其特征在于，步骤2所述全局噪声为每个节点梯度上添加局部噪声之后的等价效果，设各节点添加噪声标准差为σ_local，根据中心极限定理，在节点数较多时，可以求得全局梯度的公式(1)：

其中，N表示正态分布，d表示加噪声后全局梯度，

表示未加噪声的全局梯度，L是批大小，K是节点数。

3.根据权利要求1所述的保障边缘计算数据隐私的全局和局部低噪声训练方法，其特征在于，步骤4中，移除冗余数据包括如下步骤：

步骤4.1，计算每一个粗粒度压缩点对参数更新的影响值；

步骤4.2，若影响值大于有效点上界，则保留影响值数据，若该影响值小于有效点下界，则移除影响值数据；

4.根据权利要求2所述的保障边缘计算数据隐私的全局和局部低噪声训练方法，其特征在于，步骤5中，局部噪声的降低通过计算每个节点加入的噪声决定。

5.根据权利要求4所述的保障边缘计算数据隐私的全局和局部低噪声训练方法，其特征在于，步骤5中，每个节点加入的噪声通过如下步骤求得：

步骤5.5：生成差分隐私噪声生成器，根据步骤5.4中的噪声参数，构造相应参数的随机噪声生成器，生成随机噪声，并添加至节点梯度值中。

6.根据权利要求5所述的保障边缘计算数据隐私的全局和局部低噪声训练方法，其特征在于，步骤5.3中，敏感度的计算通过如下公式(2)：

Δf＝max||f(D)-f(D′)||₁或Δf＝max||f(D)-f(D′)||₂……(2)，

7.根据权利要求6所述的保障边缘计算数据隐私的全局和局部低噪声训练方法，其特征在于，步骤5.2所述梯度标准差的计算：取出一个节点，从局部角度来看，使用m条记录用于训练，将用于训练的第i条记录对应的梯度记为d_i，计算出局部梯度

从全局角度看，为了能计算全局噪声大小，设每个task添加噪声的标准差都是σ_local，则全局噪声为下式(4)：

8.根据权利要求7所述的保障边缘计算数据隐私的全局和局部低噪声训练方法，其特征在于，步骤5.5中，在添加局部噪声时，当使用拉普拉斯机制，对应的是∈-差分隐私，则对原函数添加分布为Lap(μ＝0,β＝Δ/∈)的噪声；当使用高斯机制，对应的是(∈,δ)-差分隐私，则对原函数添加分布为

的噪声。