CN111475848A - 保障边缘计算数据隐私的全局和局部低噪声训练方法 - Google Patents

保障边缘计算数据隐私的全局和局部低噪声训练方法 Download PDF

Info

Publication number
CN111475848A
CN111475848A CN202010368216.9A CN202010368216A CN111475848A CN 111475848 A CN111475848 A CN 111475848A CN 202010368216 A CN202010368216 A CN 202010368216A CN 111475848 A CN111475848 A CN 111475848A
Authority
CN
China
Prior art keywords
data
noise
gradient
local
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010368216.9A
Other languages
English (en)
Other versions
CN111475848B (zh
Inventor
韩锐
刘驰
李东
欧阳峻彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202010368216.9A priority Critical patent/CN111475848B/zh
Publication of CN111475848A publication Critical patent/CN111475848A/zh
Application granted granted Critical
Publication of CN111475848B publication Critical patent/CN111475848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明提供了一种保障边缘计算数据隐私的全局和局部低噪声训练方法,包括,步骤1:原始数据输入,通过读取分布式文件系统或者本地磁盘中的数据;步骤2:对符合模型输入要求的输入数据进行全局噪声降低处理;步骤3:进行面向问题的分布式环境下的数据训练;步骤4:冗余数据移除,在数据训练过程中,使用在步骤3中计算得到的梯度值计算压缩点对训练梯度更新的影响程度来移除冗余数据;步骤5:局部噪声添加与降低;步骤6:判断当前迭代是否满足迭代终止条件。所述方法通过降低差分隐私保护中的全局噪声与局部噪声,实现在隐私保护的前提下达到更高的模型精度与可用性。

Description

保障边缘计算数据隐私的全局和局部低噪声训练方法
技术领域
本发明涉及多方联合模型训练的隐私保护技术领域,具体涉及一种保障边缘计算数据隐私的全局和局部低噪声训练方法。
背景技术
在万物互联时代,物联网将人、机、物广泛互联,其众多的节点使得更高精确度与泛化性的模型训练成为可能,然而由于其分布式节点多、数据传输分散、监管不到位等原因,物联网的安全与隐私问题更加突出,已成为物联网相关研究需要重点关注的内容,而差分隐私则为上述问题提供了一个有效的解决方法。
差分隐私可以通过在查询结果上加入噪声来实现对用户隐私信息的保护,而噪声量的大小则是一个关键的量,为了保证数据与模型的可用性,就需要使得添加的噪声相对的小;而为了提供高的隐私保护,就需要大的噪声的添加,而这又降低了模型的精度和可用性,因此,如何在分布式数据分析和训练环境下有效降低噪声,是有效保障数据隐私所需要解决的重要问题。
在差分隐私保护算法中,噪声添加的大小是由函数敏感度决定的,围绕函数敏感度,现有的相关技术主要分为以下几类:
Sample-Aggregate框架,由Nissim等人提出,Sample-Aggregate框架通过把查询函数转化为一个平滑敏感度较低的函数,实现了敏感度的降低,进而使得最后添加的噪声降低,Sample-Aggregate框架首先将一个数据集随机取样划分为m个小子集,m是框架中设定好的参数,然后对每个子集上执行查询函数f来生成一个在f的输出空间上的值zk,最后通过聚合函数生成
Figure BDA0002477251610000011
来替代原始查询函数f,加入校正至平滑敏感度的噪声来得到查询结果,该方法对于交互式的查询操作有着比较好的效果,但是对于多方数据源的联合模型训练的适应性却不是很强;
矩阵机制,由Li等人提出,该方法优化了大量线性查询中噪声量过大的问题,该方案通过将批量的线性查询转化为一查询负载W,W矩阵中包含了一系列不同的线性查询,该方案使用一个不同的矩阵A来进行查询,矩阵A称为查询策略,在这里,我们把可以线性表示查询负载的矩阵A称为查询负载W的查询策略,严格的说,即存在解矩阵X,使得W=XA成立,矩阵机制通过在查询策略上加入合适的噪声来实现差分隐私保护,其定义如下:
Mk,A(W,x)=WA+K(A,x)
其中K(A,x)为作用于数据集x和查询策略A的差分隐私机制,若使用拉普拉斯机制,则有K(A,x)=Ax+bA,b_A是一个噪声向量,A+为查询策略A的广义逆矩阵,但是矩阵机制的缺点在于,当给定一个查询负载时,求解其最优的查询策略是一个半正定最优问题,当查询负载在一个有m个数据格的直方图上时,求解该问题的复杂度为O(m6),这使得矩阵机制对于大型的数据是难以使用的。
发明内容
针对现有技术的不足,本发明提供一种保障边缘计算数据隐私的全局和局部低噪声训练方法。
为了实现本发明的目的,采用如下技术方案:
一种保障边缘计算数据隐私的全局和局部低噪声训练方法,包括:
步骤1:原始数据输入,通过读取分布式文件系统或者本地磁盘中的数据,将所述数据记录至内存中,并对输入数据进行处理以符合模型输入要求;
步骤2:对符合模型输入要求的输入数据进行全局噪声降低处理,压缩点生成:
步骤2.1:对所述输入数据进行降维,使用基于增量奇异值分解法对数据训练模型对应的输入数据进行降维,使用增量奇异值分解法将大小为N×d的输入数据转化为大小为N×v的数据,其中N为数据的数目,v、d为每条数据的维度,且v<<d,即实现了数据维度的降低;
步骤2.2:基于LSH(局部敏感哈希)数据划分,在得到降维数据之后将N×v的降维数据集中的N个数据点划分为2v个子集,每个子集包括
Figure BDA0002477251610000021
个相似数据点;
步骤2.3:对划分数据进行数据聚集,根据步骤2.2的划分结果,将每个子集所对应的原始输入数据点进行压缩属性信息以将原始输入数据点转换成一个压缩点;
步骤2.4:根据步骤2.2的划分结果,生成粗粒度压缩点,记录经过压缩后的属性信息,并将所述属性信息转换成为一个粗粒度压缩点,记录粗粒度压缩点;
步骤2.5:生成细粒度压缩点,在数据训练过程中,对于每一个粗粒度压缩点所对应的原始数据进一步压缩以生成多个相对应的细粒度压缩点;
步骤3:进行面向问题的分布式环境下的数据训练,计算出集群中每个节点的梯度值,使用正向传播方法,通过数据模型中的模型参数以及模型的输入数据,沿着数据模型网络计算下去,最终得到每一个节点的局部梯度值;
步骤4:冗余数据移除,在数据训练过程中,使用在步骤3中计算得到的梯度值计算压缩点对训练梯度更新的影响程度来移除冗余数据;
步骤5:局部噪声添加与降低,通过对步骤3中计算得到的梯度添加噪声,通过噪声量的选取实现在噪声大小与模型可用度之间的平衡,以降低局部噪声;
步骤6:判断当前迭代是否满足迭代终止条件,若满足,则结束训练,否则进入下一迭代的训练过程。
进一步地,步骤1所述对输入数据进行处理包括将图片数据转化为向量数据和将原始数据进行标记。
进一步地,步骤2所述全局噪声为每个节点梯度上添加局部噪声之后的等价效果,设各节点添加噪声标准差为σlocal,根据中心极限定理,在节点数较多时,求得全局梯度的公式(1):
Figure BDA0002477251610000031
其中,N表示正态分布,d表示加噪声后全局梯度,
Figure BDA0002477251610000032
表示未加噪声的全局梯度,L是批大小(batch size),K是节点数。
进一步地,步骤4所述移除冗余数据包括如下步骤:
步骤4.1,计算每一个粗粒度压缩点对参数更新的影响值;
步骤4.2,若影响值大于有效点上界,则保留影响值数据,若影响值小于有效点下界,则移除影响值数据;
步骤4.3,若影响值介于有效点上界与下界之间,则计算影响值的粗粒度压缩点对应的细粒度压缩点以及其对应的对梯度参数的影响值,进行细分操作。
进一步地,步骤5中,局部噪声的降低通过计算每个节点加入的噪声决定,每个节点加入的噪声通过如下步骤求得:
步骤5.1:梯度采样,从所有的节点梯度中,随机获取梯度数据;
步骤5.2:计算梯度标准差,计算上述获得的梯度数据的标准差,根据3-sigma原则,取样之后计算出的梯度标准差代表整体的梯度分布的标准差;
步骤5.3:计算差分隐私敏感度,通过上述计算得到的标准差计算出差分隐私的敏感度;
步骤5.4:计算差分隐私噪声相关参数,得到差分隐私敏感度之后,通过敏感度计算出差分隐私噪声的参数;
步骤5.5:生成差分隐私噪声生成器,根据步骤5.4中的噪声参数,构造相应参数的随机噪声生成器,生成随机噪声,并将生成随机噪声添加至节点梯度值中,其中,噪声参数为拉普拉斯分布的尺度参数β,或者高斯分布的尺度参数σ2
进一步地,步骤5.3所述差分隐私的敏感度计算按照如下公式(2):
Δf=max||f(D)-f(D′)||1或Δf=max||f(D)-f(D′)||2……(2),
其中,Δf为函数f的敏感,f为对数据集应用的函数,D,D′为两个只差一条记录的数据集,||·||表示范数,下标取1表示使用一阶范数计算,取2表示使用二阶范数计算。
进一步地,步骤5.2所述梯度标准差的计算:取出一个节点,从局部角度来看,使用m条记录用于训练,将用于训练的第i条记录对应的梯度记为di,计算出局部梯度
Figure BDA0002477251610000041
对这个局部梯度向量采样,算出局部梯度的分布的标准差σ,计算出敏感度
Figure BDA0002477251610000042
进而可得对于(∈-δ)-差分隐私,∈和δ均表示差分隐私定义中用来控制隐私度的一个度量,噪声标准差设置为如下式(3):
Figure BDA0002477251610000043
从全局角度看,为了能计算全局噪声大小,设每个节点运行的任务添加噪声的标准差都是σlocal,则全局噪声为下式(4):
Figure BDA0002477251610000044
进一步地,步骤5.5中,在添加随机噪声时,当使用拉普拉斯机制,对应的是∈-差分隐私,则对原函数添加分布为Lap(μ=0,β=Δ/∈)的噪声;当使用高斯机制,对应的是(∈,δ)-差分隐私,则对原函数添加分布为
Figure BDA0002477251610000045
的噪声。
相对于现有技术,本发明的有益效果是:
1、本发明所述保障边缘计算数据隐私的全局和局部低噪声训练方法,针对物联网背景下的多方联合模型训练的隐私保护问题,通过降低差分隐私保护中的全局噪声与局部噪声,实现了在隐私保护的前提下达到更高的模型精度与可用性。
2、本发明所述保障边缘计算数据隐私的全局和局部低噪声训练方法,通过使用冗余移除算法实现了在资源有限的情况下有效的增加模型训练的批大小,从而实现了更小的全局噪声的添加。
3、本发明所述保障边缘计算数据隐私的全局和局部低噪声训练方法,通过利用3-sigma原则,通过使用了取样(Sample)的方法,合理的确定了梯度的范围,保证了局部低噪声的实现。
附图说明
图1是本发明中保障边缘计算数据隐私的全局和局部低噪声训练方法的流程图;
图2是本发明中局部噪声计算的流程图;
图3是本发明中分布式环境下局部噪声的添加与全局噪声计算的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
实施例
如图1所示,本实施例提供一种面向边缘计算差分隐私全局和局部低噪声隐私保护方法,所述方法流程为:先在各节点取出本地数据,如果选择了进行冗余移除,则还要进行数据点压缩,然后进行神经网络的正向推导,计算出各记录对应的梯度,如果选择进行梯度裁剪,需要在此进行,然后计算局部梯度,根据局部梯度计算噪声,汇总局部梯度,计算全局梯度,将全局梯度反向传播,更新模型权重参数。
具体的,一种保障边缘计算数据隐私的全局和局部低噪声训练方法,包括:
步骤1:原始数据输入,通过读取分布式文件系统或者本地磁盘中的数据,将所述数据记录至内存中,并对输入数据进行处理,例如将图片数据转化为向量数据,将原始数据进行标记等操作;
步骤2:对符合模型输入要求的输入数据进行全局噪声降低处理以为进行模型的训练做准备,压缩点生成:
步骤2.1:对所述输入数据进行降维,使用基于增量奇异值分解法对数据训练模型对应的输入数据进行降维,使用增量奇异值分解法将大小为N×d的输入数据转化为大小为N×v的数据,其中N为数据的数目,v、d为每条数据的维度,且v<<d,即实现了数据维度的降低;
步骤2.2:基于LSH(局部敏感哈希)数据划分,在得到降维数据之后将N×v的降维数据集中的N个数据点划分为2v个子集,每个子集包括
Figure BDA0002477251610000061
个相似数据点,考虑到N是否能被2v整除的问题,实际应用中可能会出现有的子集数据点个数不足
Figure BDA0002477251610000062
步骤2.3:对划分数据进行数据聚集,根据步骤2.2的划分结果,将每个子集所对应的原始输入数据点进行压缩属性信息以将原始输入数据点转换成一个压缩点,在d个维度上,压缩点的每一个属性值,都是对应子集上所有原始数据点在对应维度属性值的平均值;
步骤2.4:根据步骤2.2的划分结果,生成粗粒度压缩点,记录经过压缩后的属性信息,并将所述属性信息转换成为一个粗粒度压缩点,记录粗粒度压缩点,对于划分结果的每一个子集,找到其对应的原始数据,由于其经过数据降维,数据划分之后属于同一个子集,将同一个子集中对应的原始数据进行压缩,压缩方法为将这些原始数据中相同维度所对应的值平均,形成一个新的向量,生成粗粒度压缩点;
步骤2.5:生成细粒度压缩点,在数据训练过程中,对于每一个粗粒度压缩点所对应的原始数据进一步压缩以生成多个相对应的细粒度压缩点;
步骤3:进行面向问题的分布式环境下的数据训练,通过采用机器学习中的正向传播方法计算出节点的集群中每个节点的梯度值,通过数据模型中的模型参数以及模型的输入数据,沿着数据模型网络计算下去,最终得到每一个节点的局部梯度值;
步骤4:冗余数据移除,在数据训练过程中,使用在步骤3中计算得到的梯度值计算压缩点对训练梯度更新的影响程度来移除冗余数据;
步骤5:局部噪声添加与降低,通过对步骤3中计算得到的梯度添加噪声以达到隐私保护的效果,通过噪声量的选取来保证在噪声大小与模型可用度之间的平衡,从而保证了局部噪声的降低;
步骤6:判断当前迭代是否满足迭代终止条件,即模型准确度是否达到所定阈值,或训练迭代次数是否达到最大值,若满足上述条件,则结束训练,否则进入下一迭代的训练过程。
在本实施例的步骤1中,原始数据因为格式不符合模型输入要求,未标注标签值问题不能直接用于机器学习的训练,因此需要进行预处理操作,同时相对于磁盘的数据读取速度,内存的数据读取速度要快上很多,因此基于内存的机器学习方法都需要将数据记录在内存中以便数据训练。
在本实施例的步骤2中,全局噪声为每个节点梯度上添加局部噪声之后的等价效果,节点梯度的概念是针对分布式训练平台而言的,对于分布式计算平台,为了保证训练效率,其使用多个节点并行的进行计算,每个节点计算一部分的数据,使用正向传播方法来计算出每个节点的梯度值,即为节点梯度,这里的节点即集群节点,设各节点添加噪声标准差为σlocal,根据中心极限定理,全局梯度是指各个节点梯度加噪声之后的平均梯度,同时也看作未加噪的节点梯度的平均值加上全局噪声,在节点数较多时,按照如下公式求得全局梯度:
Figure BDA0002477251610000071
其中,N表示正态分布,d表示加噪声后全局梯度,
Figure BDA0002477251610000072
表示未加噪声的全局梯度,L是批大小(batch size),K是节点数,全局噪声的分布近似为
Figure BDA0002477251610000073
则全局噪声的标准差为
Figure BDA0002477251610000074
可见,它正比于
Figure BDA0002477251610000075
因此,随着批大小L的增大,全局噪声减小。
其中,节点梯度的概念是针对分布式训练平台而言的,对于分布式计算平台,为了保证训练效率,其使用多个节点并行的进行计算,每个节点计算一部分的数据,使用正向传播方法来计算出每个节点的梯度值,即为节点梯度,这里的节点即集群节点;全局梯度是指各个节点梯度加噪声之后的平均梯度,同时也可以看作未加噪的节点梯度的平均值加上全局噪声。
在本实施例的步骤5中,如图2所示,局部噪声添加与降低的具体流程为:对局部梯度进行采样,计算梯度数据的标准差,再根据梯度标准差和梯度向量维数(已知)以及上文提到的L1或L2敏感度计算公式计算差分隐私敏感度,最后再根据这个敏感度、所选的差分隐私机制(拉普拉斯机制或高斯机制)和设定好的隐私预算等超参数计算噪声的分布相关参数,从而构造该分布对应的随机数产生器,取出一个节点,从局部角度来看,使用m条记录用于训练,将用于训练的第i条记录对应的梯度记为di,计算出局部梯度
Figure BDA0002477251610000076
对这个局部梯度向量采样,算出局部梯度的分布的标准差σ,计算出敏感度
Figure BDA0002477251610000077
进而可得对于(∈-δ)-差分隐私,∈和δ均表示差分隐私定义中用来控制隐私度的一个度量,噪声标准差设置为如下:
Figure BDA0002477251610000078
从全局角度看,为了能计算全局噪声大小,设每个task(每个节点运行的任务)添加噪声的标准差都是σlocal,则全局噪声为:
Figure BDA0002477251610000079
例如,目标CNN网络参数共10000000个,有15个工作节点,批大小取3000,则δ取0.000001,∈取314.0时σglobal=0.100σ,这时,可以预估全局噪声大小约为梯度本身的1/10,如果实验时发现这个大小的噪声对网络的效果影响大,则可以依据上面全局噪声公式,通过增加批大小的方式减小噪声。
在本实施例的步骤3中,根据要解决问题的不同,采用不同的机器学习训练方法,也就是确定数据训练所使用的人工神经网络。
在本实施例的步骤5中,如图3所示,其中Node1,Node2,Node3,Node4代表集群中的节点,f操作为计算节点梯度的操作,∑指求和操作,noise为需要添加的局部噪声,Average为平均操作,final gradient为最终梯度。其步骤是在每个Node节点中,每一条记录ti经过正向传播操作f之后得到当前的梯度值,然后对这个节点每一条记录的梯度值进行求和∑操作,接着添加局部噪声(Noise),最后对这些加噪梯度进行求和操作∑,取平均值得到全局噪声,这里的均值指对该迭代下每条训练记录的均值,即除以批的大小(batch size),而非节点数。
每个节点在步骤3中求出该轮迭代中使用的每条记录对应梯度的和(或均值),并添加差分隐私噪声,最后把各节点的结果求和并除以批的大小batch-size,当用的是均值,则除以节点数,最后得到该轮迭代最终梯度值。局部噪声的降低,主要是通过合理的计算每个节点加入的噪声决定的。根据差分隐私的定义,确定当前需要添加的噪声需要计算当前函数的敏感度Δ:
Δf=max||f(D)-f(D′)||1或Δf=max||f(D)-f(D′)||2
其中,Δf为函数f的敏感,f为对数据集应用的函数,D,D′为两个只差一条记录的数据集,||·||为范数,下标取1表示使用一阶范数计算,取2表示使用二阶范数计算,在添加局部噪声时,若使用拉普拉斯机制,对应的是∈-差分隐私,则对原函数添加分布为Lap(μ=0,β=Δ/∈)的噪声;若使用高斯机制,对应的是(∈,δ)-差分隐私,则对原函数添加分布为
Figure BDA0002477251610000081
的噪声。
通过上述公式得知,添加的噪声的大小是与敏感度Δ成正比的,计算敏感度,根据敏感度的计算公式,就需要计算出梯度的区间范围,这里我们采用取样法来计算这个值,其步骤如下:梯度采样,从所有的节点梯度中,随机获取一定量的梯度数据;计算梯度标准差,计算上述获得的梯度数据的标准差,根据3-sigma原则,取样之后计算出的梯度标准差是可以在一定程度上代表整体的梯度分布的标准差的;计算差分隐私敏感度,通过上述计算得到的标准差计算除差分隐私的敏感度;计算差分隐私噪声相关参数,得到差分隐私敏感度之后,通过敏感度计算出差分隐私噪声的参数。
本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内,本发明要求保护范围由所附的权利要求书界定。

Claims (8)

1.一种保障边缘计算数据隐私的全局和局部低噪声训练方法,其特征在于,包括:
步骤1:原始数据输入,通过读取分布式文件系统或者本地磁盘中的数据,将所述数据记录至内存中,并对输入数据进行处理以符合模型输入要求;
步骤2:对符合模型输入要求的输入数据进行全局噪声降低处理,压缩点生成:
步骤2.1:对所述输入数据进行降维,使用基于增量奇异值分解法对数据训练模型对应的输入数据进行降维,使用增量奇异值分解法将大小为N×d的输入数据转化为大小为N×v的数据,其中N为数据的数目,v、d为每条数据的维度,且v<<d,即实现了数据维度的降低;
步骤2.2:基于LSH局部敏感哈希数据划分,在得到降维数据之后将N×v的降维数据集中的N个数据点划分为2v个子集,每个子集包括
Figure FDA0002477251600000011
相似数据点;
步骤2.3:对划分数据进行数据聚集,根据步骤2.2的划分结果,将每个子集所对应的原始输入数据点进行压缩属性信息以将原始输入数据点转换成一个压缩点;
步骤2.4:根据步骤2.2的划分结果,生成粗粒度压缩点,记录经过压缩后的属性信息,并将所述属性信息转换成为一个粗粒度压缩点,记录粗粒度压缩点;
步骤2.5:生成细粒度压缩点,在数据训练过程中,对于每一个粗粒度压缩点所对应的原始数据进一步压缩以生成多个相对应的细粒度压缩点;
步骤3:进行面向问题的分布式环境下的数据训练,计算出集群中每个节点的梯度值,使用正向传播方法,通过数据模型中的模型参数以及模型的输入数据,沿着数据模型网络计算下去,最终得到每一个节点的局部梯度值;
步骤4:冗余数据移除,在数据训练过程中,使用在步骤3中计算得到的梯度值计算压缩点对训练梯度更新的影响程度来移除冗余数据;
步骤5:局部噪声添加与降低,通过对步骤3中计算得到的梯度添加噪声,通过噪声量的选取来实现在噪声大小与模型可用度之间的平衡,以降低局部噪声;
步骤6:判断当前迭代是否满足迭代终止条件,若满足,则结束训练,否则进入下一迭代的训练过程。
2.根据权利要求1所述的保障边缘计算数据隐私的全局和局部低噪声训练方法,其特征在于,步骤2所述全局噪声为每个节点梯度上添加局部噪声之后的等价效果,设各节点添加噪声标准差为σlocal,根据中心极限定理,在节点数较多时,可以求得全局梯度的公式(1):
Figure FDA0002477251600000021
其中,N表示正态分布,d表示加噪声后全局梯度,
Figure FDA0002477251600000022
表示未加噪声的全局梯度,L是批大小,K是节点数。
3.根据权利要求1所述的保障边缘计算数据隐私的全局和局部低噪声训练方法,其特征在于,步骤4中,移除冗余数据包括如下步骤:
步骤4.1,计算每一个粗粒度压缩点对参数更新的影响值;
步骤4.2,若影响值大于有效点上界,则保留影响值数据,若该影响值小于有效点下界,则移除影响值数据;
步骤4.3,若影响值介于有效点上界与下界之间,则计算影响值的粗粒度压缩点对应的细粒度压缩点以及其对应的对梯度参数的影响值,进行细分操作。
4.根据权利要求2所述的保障边缘计算数据隐私的全局和局部低噪声训练方法,其特征在于,步骤5中,局部噪声的降低通过计算每个节点加入的噪声决定。
5.根据权利要求4所述的保障边缘计算数据隐私的全局和局部低噪声训练方法,其特征在于,步骤5中,每个节点加入的噪声通过如下步骤求得:
步骤5.1:梯度采样,从所有的节点梯度中,随机获取梯度数据;
步骤5.2:计算梯度标准差,计算上述获得的梯度数据的标准差,根据3-sigma原则,取样之后计算出的梯度标准差代表整体的梯度分布的标准差;
步骤5.3:计算差分隐私敏感度,通过上述计算得到的标准差计算出差分隐私的敏感度;
步骤5.4:计算差分隐私噪声相关参数,得到差分隐私敏感度之后,通过敏感度计算出差分隐私噪声的参数;
步骤5.5:生成差分隐私噪声生成器,根据步骤5.4中的噪声参数,构造相应参数的随机噪声生成器,生成随机噪声,并添加至节点梯度值中。
6.根据权利要求5所述的保障边缘计算数据隐私的全局和局部低噪声训练方法,其特征在于,步骤5.3中,敏感度的计算通过如下公式(2):
Δf=max||f(D)-f(D′)||1或Δf=max||f(D)-f(D′)||2……(2),
其中,Δf为函数f的敏感,f为对数据集应用的函数,D,D′为两个只差一条记录的数据集,||·||表示范数,下标取1表示使用一阶范数计算,取2表示使用二阶范数计算。
7.根据权利要求6所述的保障边缘计算数据隐私的全局和局部低噪声训练方法,其特征在于,步骤5.2所述梯度标准差的计算:取出一个节点,从局部角度来看,使用m条记录用于训练,将用于训练的第i条记录对应的梯度记为di,计算出局部梯度
Figure FDA0002477251600000031
对这个局部梯度向量采样,算出局部梯度的分布的标准差σ,计算出敏感度
Figure FDA0002477251600000032
进而可得对于(∈-δ)-差分隐私,∈和δ均表示差分隐私定义中用来控制隐私度的一个度量,噪声标准差设置为如下式(3):
Figure FDA0002477251600000033
从全局角度看,为了能计算全局噪声大小,设每个task添加噪声的标准差都是σlocal,则全局噪声为下式(4):
Figure FDA0002477251600000034
8.根据权利要求7所述的保障边缘计算数据隐私的全局和局部低噪声训练方法,其特征在于,步骤5.5中,在添加局部噪声时,当使用拉普拉斯机制,对应的是∈-差分隐私,则对原函数添加分布为Lap(μ=0,β=Δ/∈)的噪声;当使用高斯机制,对应的是(∈,δ)-差分隐私,则对原函数添加分布为
Figure FDA0002477251600000035
的噪声。
CN202010368216.9A 2020-04-30 2020-04-30 保障边缘计算数据隐私的全局和局部低噪声训练方法 Active CN111475848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010368216.9A CN111475848B (zh) 2020-04-30 2020-04-30 保障边缘计算数据隐私的全局和局部低噪声训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010368216.9A CN111475848B (zh) 2020-04-30 2020-04-30 保障边缘计算数据隐私的全局和局部低噪声训练方法

Publications (2)

Publication Number Publication Date
CN111475848A true CN111475848A (zh) 2020-07-31
CN111475848B CN111475848B (zh) 2022-10-11

Family

ID=71757174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010368216.9A Active CN111475848B (zh) 2020-04-30 2020-04-30 保障边缘计算数据隐私的全局和局部低噪声训练方法

Country Status (1)

Country Link
CN (1) CN111475848B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214733A (zh) * 2020-09-30 2021-01-12 中国科学院数学与系统科学研究院 面向隐私保护的分布式估计方法、系统与可读存储介质
CN112234612A (zh) * 2020-09-30 2021-01-15 云南电网有限责任公司 一种计及随机扰动幅度的电力系统概率稳定分析方法
CN112329073A (zh) * 2021-01-05 2021-02-05 腾讯科技(深圳)有限公司 分布式数据处理方法、装置、计算机设备及存储介质
CN112989369A (zh) * 2021-02-09 2021-06-18 山东大学 一种适用于动态分布式物联网系统的数据加密学习方法
CN114745465A (zh) * 2022-03-24 2022-07-12 马斌斌 智能手机交互式噪声自先验感知分析系统
WO2022162498A1 (en) * 2021-01-28 2022-08-04 Alipay Labs (singapore) Pte. Ltd. Method and system for federated learning
CN116805082A (zh) * 2023-08-23 2023-09-26 南京大学 一种保护客户端隐私数据的拆分学习方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN108280217A (zh) * 2018-02-06 2018-07-13 南京理工大学 一种基于差分隐私保护的矩阵分解推荐方法
CN108763954A (zh) * 2018-05-17 2018-11-06 西安电子科技大学 线性回归模型多维高斯差分隐私保护方法、信息安全系统
CN109800891A (zh) * 2018-12-18 2019-05-24 北京理工大学 一种机器学习冗余数据删除方法及系统
US20190227980A1 (en) * 2018-01-22 2019-07-25 Google Llc Training User-Level Differentially Private Machine-Learned Models
CN110390206A (zh) * 2019-04-19 2019-10-29 江苏慧中数据科技有限公司 边云系统框架下具有隐私保护的梯度下降加速算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
US20190227980A1 (en) * 2018-01-22 2019-07-25 Google Llc Training User-Level Differentially Private Machine-Learned Models
CN108280217A (zh) * 2018-02-06 2018-07-13 南京理工大学 一种基于差分隐私保护的矩阵分解推荐方法
CN108763954A (zh) * 2018-05-17 2018-11-06 西安电子科技大学 线性回归模型多维高斯差分隐私保护方法、信息安全系统
CN109800891A (zh) * 2018-12-18 2019-05-24 北京理工大学 一种机器学习冗余数据删除方法及系统
CN110390206A (zh) * 2019-04-19 2019-10-29 江苏慧中数据科技有限公司 边云系统框架下具有隐私保护的梯度下降加速算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DWORK 等: "The algorithmic foundations of differential privacy", 《FOUNDATIONS AND TRENDS IN THEORETICAL COMPUTER SCIENCE》 *
LI S 等: "Polynomially coded regression: Optimal straggler mitigation via data encoding", 《HTTPS://ARXIV.ORG/PDF/1805.09934V1》 *
李英等: "面向深度神经网络训练的数据差分隐私保护随机梯度下降算法", 《计算机应用与软件》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214733A (zh) * 2020-09-30 2021-01-12 中国科学院数学与系统科学研究院 面向隐私保护的分布式估计方法、系统与可读存储介质
CN112234612A (zh) * 2020-09-30 2021-01-15 云南电网有限责任公司 一种计及随机扰动幅度的电力系统概率稳定分析方法
CN112214733B (zh) * 2020-09-30 2022-06-21 中国科学院数学与系统科学研究院 面向隐私保护的分布式估计方法、系统与可读存储介质
CN112234612B (zh) * 2020-09-30 2023-08-18 云南电网有限责任公司 一种计及随机扰动幅度的电力系统概率稳定分析方法
CN112329073A (zh) * 2021-01-05 2021-02-05 腾讯科技(深圳)有限公司 分布式数据处理方法、装置、计算机设备及存储介质
WO2022162498A1 (en) * 2021-01-28 2022-08-04 Alipay Labs (singapore) Pte. Ltd. Method and system for federated learning
CN112989369A (zh) * 2021-02-09 2021-06-18 山东大学 一种适用于动态分布式物联网系统的数据加密学习方法
CN112989369B (zh) * 2021-02-09 2022-03-25 山东大学 一种适用于动态分布式物联网系统的数据加密学习方法
CN114745465A (zh) * 2022-03-24 2022-07-12 马斌斌 智能手机交互式噪声自先验感知分析系统
CN116805082A (zh) * 2023-08-23 2023-09-26 南京大学 一种保护客户端隐私数据的拆分学习方法
CN116805082B (zh) * 2023-08-23 2023-11-03 南京大学 一种保护客户端隐私数据的拆分学习方法

Also Published As

Publication number Publication date
CN111475848B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN111475848B (zh) 保障边缘计算数据隐私的全局和局部低噪声训练方法
US11157815B2 (en) Efficient convolutional neural networks and techniques to reduce associated computational costs
US20200401939A1 (en) Systems and methods for preparing data for use by machine learning algorithms
EP4073714A1 (en) Federated mixture models
CN113570064A (zh) 利用复合机器学习模型来执行预测的方法及系统
CN107480694B (zh) 基于Spark平台采用两次评价的加权选择集成三支聚类方法
Snoke et al. pMSE mechanism: differentially private synthetic data with maximal distributional similarity
CN104809244B (zh) 一种大数据环境下的数据挖掘方法和装置
Zhang et al. An improved algorithm of individuation k-anonymity for multiple sensitive attributes
CN104573031B (zh) 一种微博突发事件检测方法
CN111327046B (zh) 一种含大规模风电功率场景的电力系统经济调度方法
Rosadi et al. Improving machine learning prediction of peatlands fire occurrence for unbalanced data using SMOTE approach
Gao et al. ARBF: adaptive radial basis function interpolation algorithm for irregularly scattered point sets
WO2022115656A1 (en) Data source correlation techniques for machine learning and convolutional neural models
Meeus et al. Achilles’ heels: vulnerable record identification in synthetic data publishing
Chen et al. Privacy-preserving hierarchical federated recommendation systems
Liu et al. ACO-HCO: Heuristic performance tuning scheme for the Hadoop MapReduce architecture
Papageorgiou et al. Context-tree weighting for real-valued time series: Bayesian inference with hierarchical mixture models
Larrakoetxea et al. Efficient machine learning on edge computing through data compression techniques
Wang et al. Scaled IoT Intrusion Detection Model based on Improved PSO Algorithm Optimization
Jittawiriyanukoon Granularity analysis of classification and estimation for complex datasets with MOA
Chiu et al. A Model Selection Method for Machine Learning by Differential Evolution
Li et al. Density estimation via discrepancy based adaptive sequential partition
Zhang et al. Association rule mining based on estimation of distribution algorithm for blood indices
Finkler et al. Large Scale Neural Architecture Search with Polyharmonic Splines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant