CN116186780A - 一种协作学习场景下基于噪声扰动的隐私保护方法和系统 - Google Patents
一种协作学习场景下基于噪声扰动的隐私保护方法和系统 Download PDFInfo
- Publication number
- CN116186780A CN116186780A CN202310302147.5A CN202310302147A CN116186780A CN 116186780 A CN116186780 A CN 116186780A CN 202310302147 A CN202310302147 A CN 202310302147A CN 116186780 A CN116186780 A CN 116186780A
- Authority
- CN
- China
- Prior art keywords
- cnt
- iteration
- local
- client
- gradient vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种协作学习场景下基于噪声扰动的隐私保护方法,其采用两个主要措施来实现隐私保护语模型性能之间的有效权衡。一方面设计一种新的梯度裁剪方式,将每一个梯度参数都视为隐私保护对象进行处理,然后再对裁剪后的梯度参数进行噪声扰动。另一方面使用偏差纠正机制来在本轮更新的参数中纠正前面累积的偏差,从而在不影响通信效率与隐私的前提下保障了模型的性能。本发明的优点在于,它不仅可以保护参与方的隐私,还可以在不牺牲模型性能的情况下提高训练效率和准确性,从而实现协作学习的安全性和可用性的双赢。
Description
技术领域
本发明属于协作式机器学习安全领域,更具体地,涉及一种协作学习场景下基于噪声扰动的隐私保护方法和系统。
背景技术
大数据、人工智能等产业的爆发式发展,一方面为传统行业带来升级变革的新机遇,另一方面也给数据和网络安全带来了新挑战。如何在满足数据隐私、安全和监管要求的前提下,设计一个机器学习框架,让人工智能系统能够更加高效、准确地共同使用各自的数据,是当前人工智能发展所面临的一个重大难题。而协作学习正是针对这个难题设计的框架。协作学习可以看成是一种分布式机器学习框架,而与常见的分布式机器学习框架不同的是,协作学习中将各方数据保存在客户本地,在数据不直接共享的情况下,多个参与者联合数据建立虚拟的公有模型,使用他们本地数据产生的数据进行公有模型的更新。由于协作学习使用聚合梯度的方式而不是直接使用数据来实现模型的训练,所以协作学习被普遍认为可以保护隐私。但最新工作表明,梯度仍然会泄露隐私,攻击者可以使用梯度反演攻击从收集的梯度恢复出客户的隐私数据。
为了解决这个问题,研究人员已经提出了多种方法来保护梯度的隐私。目前,保护隐私的协作学习主要有两种方法:一是使用差分隐私保护技术,二是使用加密工具执行安全聚合。差分隐私技术起源于数据科学领域,其隐私保障建立在不可区分博弈上,通过添加适当的噪声,它限制了攻击者在区分具体数据样本是否在数据库中的优势;基于密码学的安全聚合技术例如安全多方计算,同态加密等,这些技术可以保证客户端与服务器通信时所传输的梯度信息的机密性,使得攻击者只能获得加密后的梯度信息而无法进行解密。
然而,上述两种保护隐私的协作学习方法都存在一些不可忽略的缺陷:第一,差分隐私技术主要用于防御成员推理攻击的,而对于近几年来新提出的梯度反演攻击却没有很好的效果;第二,差分隐私技术中对梯度添加的噪声扰动会大大降低训练出来的模型的精确度,收敛性和可用性;第三、基于密码学的安全聚合技术虽然能保证梯度信息的机密性,但是其使用到的加密算法会带来昂贵的计算开销和通信开销,在实际的大规模协作学习场景下不适用。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种协作学习场景下基于噪声扰动的隐私保护方法和系统,其目的在于,解决现有差分隐私技术主要用于防御成员推理攻击的,而对于新提出的梯度反演攻击却没有很好效果的技术问题,以及现有差分隐私技术中对梯度添加的噪声扰动会大大降低训练出来的模型的精确度、收敛性和可用性的技术问题,以及现有基于密码学的安全聚合技术虽然能保证梯度信息的机密性,但是其使用到的加密算法会带来昂贵的计算开销和通信开销,导致在实际的大规模协作学习场景下不适用的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种协作学习场景下基于噪声扰动的隐私保护方法,包括以下步骤:
(1)服务端与所有客户端共同协商确定作为全局模型进行训练的神经网络模型,并确定参与训练的客户端的数量M,训练过程的迭代总次数,全局模型的学习率lr,以及训练过程中所使用的损失函数L;
(2)服务端设置计数器cnt=1,并初始化全局模型,以得到第cnt次迭代时的全局模型Gcnt以及参数矩阵Wcnt和偏置矩阵bcnt;
(3)服务端判断cnt是否大于步骤(1)中确定的训练过程的迭代总次数,如果是则过程结束,否则转入步骤(4);
(4)服务端将当前全局模型Gcnt的参数矩阵Wcnt和偏置矩阵bcnt与计数器cnt发送到客户端;
(5)第i个客户端判断来自服务端的计数器cnt是否等于1,如果是则初始化累积偏差值然后转入步骤(6);否则设置累积偏差值/>然后进入步骤(6);其中/>是在第i个客户端再第cnt-1轮迭代中的累积偏差值;其中i∈[1,参与训练的客户端的数量M];
(10)第i个客户端对步骤(7)得到的第cnt次迭代时的本地梯度向量和对步骤(9)得到的第cnt次迭代时扰动后的本地梯度向量/>进行本地偏差记录,以得到第cnt次迭代时的本地偏差/>并将该第cnt次迭代时扰动后的本地梯度向量/>发送到服务端。
(11)服务端获取来自所有客户端发送的第cnt次迭代时扰动后的本地梯度向量,然后对这些获取到的扰动后的本地梯度向量取平均值,作为第cnt次迭代时全局模型的梯度向量ΔWcnt;
(12)服务端根据步骤(11)中得到的第cnt次迭代时全局模型的梯度向量ΔWcnt和步骤(1)中确定的全局模型学习率lr,更新全局模型的参数矩阵,以得到第cnt+1次迭代的全局模型参数矩阵Wcnt+1,更新计数器cnt=cnt+1,并返回步骤(3)。
优选地,确定的参与训练的客户端的数量M是大于或等于2;
神经网络模型可以是Resnet50、ViT、或Vgg19;
迭代总次数的取值范围是2000到4000,优选为2500;
学习率lr的取值范围为0到1,优选0.05;
优选地,步骤(2)包括以下子步骤:
(2-1)服务端生成一个随机数矩阵S,其大小与第cnt次迭代时的全局模型Gcnt的参数矩阵W保持一致,且随机数矩阵S中每个元素的值都是介于0到1之间;
(2-2)服务端用步骤(2-1)中生成的随机数矩阵S初始化全局模型,即设置全局模型的参数矩阵W=S;
(2-3)服务端设置偏置矩阵b=0。
优选地,步骤(6)包括以下子步骤:
(6-2)第i个客户端将其本地数据及其标签随机划分为多个组,每一组中都包含100个数据及其对应的标签;
(6-4)第i个客户端根据步骤(1)中确定的损失函数L和步骤(6-3)中获得的本地模型输出结果y以及这些数据对应的标签label计算损失值l=L(y,label);
优选地,步骤(8)具体包含以下子步骤:
(8-2)第i个客户端判断j1是否大于m1,如果是则转入步骤(8-6);否则转入步骤(8-3);
(8-5)第i个客户端更新计数器j1=j1+1,并返回步骤(8-2);
优选地,本步骤(9)具体包括以下子步骤:
(9-2)第i个客户端生成一个均值为0、标准差为1的高斯分布N;
(9-3)第i个客户端判断j2是否大于m2,如果是则转入步骤(9-7),否则转入步骤(9-4);
(9-6)第i个客户端更新计数器j2=j2+1,然后回到步骤(9-3);
步骤(12)中的更新公式为Wcnt+1=Wcnt-lr*ΔWcnt。
按照本发明的另一方面,提供了一种协作学习场景下基于噪声扰动的隐私保护系统,包括:
第一模块,其设置于服务端,用于与所有客户端共同协商确定作为全局模型进行训练的神经网络模型,并确定参与训练的客户端的数量M,训练过程的迭代总次数,全局模型的学习率lr,以及训练过程中所使用的损失函数L;
第二模块,其设置于服务端,用于设置计数器cnt=1,并初始化全局模型,以得到第cnt次迭代时的全局模型Gcnt以及参数矩阵Wcnt和偏置矩阵bcnt;
第三模块,其设置于服务端,用于判断cnt是否大于第一模块中确定的训练过程的迭代总次数,如果是则过程结束,否则转入第四模块;
第四模块,其设置于服务端,用于将当前全局模型Gcnt的参数矩阵Wcnt和偏置矩阵bcnt与计数器cnt发送到客户端;
第五模块,其设置于第i个客户端,用于判断来自服务端的计数器cnt是否等于1,如果是则初始化累积偏差值然后转入第六模块;否则设置累积偏差值/>然后进入第六模块;其中/>是在第i个客户端再第cnt-1轮迭代中的累积偏差值;其中i∈[1,参与训练的客户端的数量M];
第七模块,其设置于第i个客户端,用于根据第六模块获得的客户端第cnt次迭代时的本地梯度向量与第五模块获得的第cnt次迭代时的累积偏差值/>进行偏差纠正,以得到第cnt次迭代时经偏差纠正后的本地梯度向量/>
第十模块,其设置于第i个客户端,用于对第七模块得到的第cnt次迭代时的本地梯度向量和对第九模块得到的第cnt次迭代时扰动后的本地梯度向量/>进行本地偏差记录,以得到第cnt次迭代时的本地偏差/>并将该第cnt次迭代时扰动后的本地梯度向量/>发送到服务端。
第十一模块,其设置于服务端,用于获取来自所有客户端发送的第cnt次迭代时扰动后的本地梯度向量,然后对这些获取到的扰动后的本地梯度向量取平均值,作为第cnt次迭代时全局模型的梯度向量ΔWcnt;
第十二模块,其设置于服务端,用于根据第十一模块得到的第cnt次迭代时全局模型的梯度向量ΔWcnt和第一模块确定的全局模型学习率lr,更新全局模型的参数矩阵,以得到第cnt+1次迭代的全局模型参数矩阵Wcnt+1,更新计数器cnt=cnt+1,并返回第三模块。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、由于本发明设计了梯度扰动步骤(步骤(8)和步骤(9)),其通过对每一个梯度参数进行裁剪后加噪而不是对梯度整体进行放缩处理,从而直接影响了攻击者对参数梯度的角度关系的利用,降低了梯度重构数据的质量效果,从而可以很好地防御梯度反演攻击;
2、由于本发明设计了偏差纠正步骤(步骤(7)),其通过将最新生成的梯度参数减去之前为了保护隐私所引入的扰动偏差,可以有效地减少本发明在扰动梯度后对模型收敛性与模型精确度的影响,从而提高了模型的可用性;
3、由于本发明在处理梯度的步骤中(步骤(7),步骤(8),步骤(9))没有引入任何复杂的加密算法,所以本发明的计算开销和通信开销并不多,可以很好地适用于实际的大规模协作学习场景。
附图说明
图1是本发明在协作学习场景下基于梯度噪声扰动的隐私保护方法的整体流程图;
图2是本发明在协作学习场景下基于梯度噪声扰动的隐私保护方法的梯度噪声扰动步骤的流程图;
图3是本发明在协作学习场景下基于梯度噪声扰动的隐私保护方法的偏差纠正步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本方法是采用两个主要措施来实现隐私保护语模型性能之间的有效权衡。一方面设计一种新的梯度裁剪方式,将每一个梯度参数都视为隐私保护对象进行处理,然后再对裁剪后的梯度参数进行噪声扰动。另一方面使用偏差纠正机制来在本轮更新的参数中纠正前面累积的偏差,从而在不影响通信效率与隐私的前提下保障了模型的性能。
本发明的目的是增强协作学习的安全性和可用性,使得在协作学习场景下,参与方可以更加放心地共享数据和模型,并且获得更好的模型性能。本发明的优点在于,它不仅可以保护参与方的隐私,还可以在不牺牲模型性能的情况下提高训练效率和准确性,从而实现协作学习的安全性和可用性的双赢。
为了使本发明的目的、技术方法及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。
如图1所示,本发明提供了一种协作学习场景下基于噪声扰动的隐私保护方法,包括以下步骤:
(1)服务端与所有客户端共同协商确定作为全局模型进行训练的神经网络模型,并确定参与训练的客户端的数量M,训练过程的迭代总次数,全局模型的学习率lr,以及训练过程中所使用的损失函数L;
具体而言,本步骤中确定的参与训练的客户端的数量M根据实际应用情况确定;一般而言,M大于或等于2。
本步骤中确定的神经网络模型可以是诸如Resnet50、ViT、Vgg19等神经网络。
本步骤中的迭代总次数的取值范围是2000到4000,优选为2500。
本步骤中学习率lr的取值范围为0到1,优选0.05。
本步骤中损失函数L需要根据训练任务进行确定,对于图像分类任务而言,所使用到的损失函数为交叉熵损失函数,其表达式为: 其中K为数据总数,labi为第i个数据的标签,yi为神经网络模型对第i个数据的输出结果。
(2)服务端设置计数器cnt=1,并初始化全局模型,以得到第cnt次迭代时的全局模型Gcnt以及参数矩阵Wcnt和偏置矩阵bcnt;
具体而言,本步骤包括以下子步骤:
(2-1)服务端生成一个随机数矩阵S,其大小与第cnt次迭代时的全局模型Gcnt的参数矩阵W保持一致,且随机数矩阵S中每个元素的值都是介于0到1之间;
(2-2)服务端用步骤(2-1)中生成的随机数矩阵S初始化全局模型,即设置全局模型的参数矩阵W=S;
(2-3)服务端设置偏置矩阵b=0;
(3)服务端判断cnt是否大于步骤(1)中确定的训练过程的迭代总次数,如果是则过程结束,否则转入步骤(4);
(4)服务端将当前全局模型Gcnt的参数矩阵Wcnt和偏置矩阵bcnt与计数器cnt发送到客户端;
以下步骤(5)到步骤(10)为所有客户端并行执行的步骤。为简化表达,以第i个客户端为例,来描述执行的步骤;其余的客户端执行相同的步骤即可。
(5)第i个客户端判断来自服务端的计数器cnt是否等于1,如果是则初始化累积偏差值然后转入步骤(6);否则设置累积偏差值/>然后进入步骤(6);其中/>是在第i个客户端再第cnt-1轮迭代中的累积偏差值;其中i∈[1,参与训练的客户端的数量M];
具体而言,本步骤(6)包括以下子步骤:
(6-2)第i个客户端将其本地数据及其标签随机划分为多个组,每一组中都包含100个数据及其对应的标签;
(6-4)第i个客户端根据步骤(1)中确定的损失函数L和步骤(6-3)中获得的本地模型输出结果y以及这些数据对应的标签label计算损失值l=L(y,label);
具体而言,本步骤是采用以下公式:其中β是对累积偏差进行调整的比例系数,并且是关于当前已完成的迭代次数t的函数,其中t=cnt-1且满足其中Q为非负常数。通常Q的值设置为1,客户端也可以根据实际的训练效果灵活调整;
本步骤(7)的优点在于,在本轮梯度迭代中消除前面训练过程中的累积偏差,从而降低最终整体模型与无隐私下的训练模型之间的总体偏差,有利于保证模型的收敛性与泛化性。
本步骤(8)具体包含以下子步骤:
具体而言,本步骤计算梯度向量的维数,可以采用以下方法:遍历第cnt次迭代时经偏差纠正后的本地梯度向量的每一个分量并计数,最终得到该向量中所包含的分量的总个数即为第cnt次迭代时经偏差纠正后的本地梯度向量/>的维数;
(8-2)第i个客户端判断j1是否大于m1,如果是则转入步骤(8-6);否则转入步骤(8-3);
在本步骤中,裁剪阈值θ=4,客户端也可以根据实际情况进行调整。
(8-5)第i个客户端更新计数器j1=j1+1,并返回步骤(8-2);
本步骤(9)具体包括以下子步骤(如图3所示):
具体而言,本步骤中获取维数的方法与步骤(8-1)中的完全相同,在此不再赘述;
(9-2)第i个客户端生成一个均值为0、标准差为1的高斯分布N;
(9-3)第i个客户端判断j2是否大于m2,如果是则转入步骤(9-7),否则转入步骤(9-4);
(9-6)第i个客户端更新计数器j2=j2+1,然后回到步骤(9-3);
上述步骤(8)和步骤(9)的优点在于,不同于传统的差分隐私加噪处理方式,并不是将整个模型参数的梯度作为一个整体考虑来进行裁剪加噪,而是将每个参数的梯度值(即上述两个步骤中所描述的本地梯度向量的每个分量)都视为隐私保护对象,为每一个参数的梯度值都进行裁剪与噪声扰动。这样做的目的是考虑到来自服务端的主动攻击,每个参数梯度都有可能会泄露本地模型和数据的隐私。而本方法的裁剪和加噪扰动破坏了模型参数的梯度与模型参数之间潜在的关系。因为全部的梯度参数之间的大小对应关系被裁剪与噪声破坏(如像素点x对应真实梯度参数p,但p经历扰动后成为p’。攻击者可以从p恢复像素点x,却无法从p’中恢复x,因为x与p’并不对应),攻击者很难从发送信息中获得恢复出真实数据,所以具有足够的隐私保障。
(10)第i个客户端对步骤(7)得到的第cnt次迭代时的本地梯度向量和对步骤(9)得到的第cnt次迭代时扰动后的本地梯度向量/>进行本地偏差记录,以得到第cnt次迭代时的本地偏差/>并将该第cnt次迭代时扰动后的本地梯度向量/>发送到服务端。
本步骤(10)的优点在于,客户端只需要在自己本地保留本轮的累积偏差值来参加下一轮的计算即可实现对模型性能的精度修正,并不需要在本地保留每一轮扰动的具体误差,这大大节省了客户端的本地存储开销。
(11)服务端获取来自所有客户端发送的第cnt次迭代时扰动后的本地梯度向量,然后对这些获取到的扰动后的本地梯度向量取平均值,作为第cnt次迭代时全局模型的梯度向量ΔWcnt;具体而言,其公式为 其中M为步骤(1)中确定的参与训练的客户端的数量;
(12)服务端根据步骤(11)中得到的第cnt次迭代时全局模型的梯度向量ΔWcnt和步骤(1)中确定的全局模型学习率lr,更新全局模型的参数矩阵,以得到第cnt+1次迭代的全局模型参数矩阵Wcnt+1,更新计数器cnt=cnt+1,并返回步骤(3)。
具体而言,其更新公式为Wcnt+1=Wcnt-lr*ΔWcnt。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种协作学习场景下基于噪声扰动的隐私保护方法,其特征在于,包括以下步骤:
(1)服务端与所有客户端共同协商确定作为全局模型进行训练的神经网络模型,并确定参与训练的客户端的数量M,训练过程的迭代总次数,全局模型的学习率lr,以及训练过程中所使用的损失函数L;
(2)服务端设置计数器cnt=1,并初始化全局模型,以得到第cnt次迭代时的全局模型Gcnt以及参数矩阵Wcnt和偏置矩阵vcnt;
(3)服务端判断cnt是否大于步骤(1)中确定的训练过程的迭代总次数,如果是则过程结束,否则转入步骤(4);
(4)服务端将当前全局模型Gcnt的参数矩阵Wcnt和偏置矩阵bcnt与计数器cnt发送到客户端;
(5)第i个客户端判断来自服务端的计数器cnt是否等于1,如果是则初始化累积偏差值然后转入步骤(6);否则设置累积偏差值/>然后进入步骤(6);其中/>是在第i个客户端再第cnt-1轮迭代中的累积偏差值;其中i∈[1,参与训练的客户端的数量M];
(10)第i个客户端对步骤(7)得到的第cnt次迭代时的本地梯度向量和对步骤(9)得到的第cnt次迭代时扰动后的本地梯度向量/>进行本地偏差记录,以得到第cnt次迭代时的本地偏差/>并将该第cnt次迭代时扰动后的本地梯度向量/>发送到服务端。
(11)服务端获取来自所有客户端发送的第cnt次迭代时扰动后的本地梯度向量,然后对这些获取到的扰动后的本地梯度向量取平均值,作为第cnt次迭代时全局模型的梯度向量ΔWcnt;
(12)服务端根据步骤(11)中得到的第cnt次迭代时全局模型的梯度向量ΔWcnt和步骤(1)中确定的全局模型学习率lr,更新全局模型的参数矩阵,以得到第cnt+1次迭代的全局模型参数矩阵Wcnt+,更新计数器cnt=cnt+1,并返回步骤(3)。
3.根据权利要求1或2所述的协作学习场景下基于噪声扰动的隐私保护方法,其特征在于,步骤(2)包括以下子步骤:
(2-1)服务端生成一个随机数矩阵S,其大小与第cnt次迭代时的全局模型Gcnt的参数矩阵W保持一致,且随机数矩阵S中每个元素的值都是介于0到1之间;
(2-2)服务端用步骤(2-1)中生成的随机数矩阵S初始化全局模型,即设置全局模型的参数矩阵W=S;
(2-3)服务端设置偏置矩阵b=0。
4.根据权利要求1至3中任意一项所述的协作学习场景下基于噪声扰动的隐私保护方法,其特征在于,步骤(6)包括以下子步骤:
(6-2)第i个客户端将其本地数据及其标签随机划分为多个组,每一组中都包含100个数据及其对应的标签;
(6-4)第i个客户端根据步骤(1)中确定的损失函数L和步骤(6-3)中获得的本地模型输出结果y以及这些数据对应的标签label计算损失值
l=L(y,label);
6.根据权利要求5所述的协作学习场景下基于噪声扰动的隐私保护方法,其特征在于,步骤(8)具体包含以下子步骤:
(8-2)第i个客户端判断j1是否大于m1,如果是则转入步骤(8-6);否则转入步骤(8-3);
(8-4)第i个客户端判断步骤(8-3)得到的第j1维梯度分量gj1是否大于预先设置的阈值θ,若是则设置gj1=θ,然后进入步骤(8-5),否则直接进入步骤(8-5);
(8-5)第i个客户端更新计数器j1=j1+1,并返回步骤(8-2);
7.根据权利要求6所述的协作学习场景下基于噪声扰动的隐私保护方法,其特征在于,本步骤(9)具体包括以下子步骤:
(9-2)第i个客户端生成一个均值为0、标准差为1的高斯分布N;
(9-3)第i个客户端判断j2是否大于m2,如果是则转入步骤(9-7),否则转入步骤(9-4);
(9-6)第i个客户端更新计数器j2=j2+1,然后回到步骤(9-3);
10.一种协作学习场景下基于噪声扰动的隐私保护系统,其特征在于,包括:
第一模块,其设置于服务端,用于与所有客户端共同协商确定作为全局模型进行训练的神经网络模型,并确定参与训练的客户端的数量M,训练过程的迭代总次数,全局模型的学习率lr,以及训练过程中所使用的损失函数L;
第二模块,其设置于服务端,用于设置计数器cnt=1,并初始化全局模型,以得到第cnt次迭代时的全局模型Gcnt以及参数矩阵Wcnt和偏置矩阵bcnt;
第三模块,其设置于服务端,用于判断cnt是否大于第一模块中确定的训练过程的迭代总次数,如果是则过程结束,否则转入第四模块;
第四模块,其设置于服务端,用于将当前全局模型Gcnt的参数矩阵Wcnt和偏置矩阵bcnt与计数器cnt发送到客户端;
第五模块,其设置于第i个客户端,用于判断来自服务端的计数器cnt是否等于1,如果是则初始化累积偏差值然后转入第六模块;否则设置累积偏差值/>然后进入第六模块;其中/>是在第i个客户端再第cnt-1轮迭代中的累积偏差值;其中i∈[1,参与训练的客户端的数量M];
第七模块,其设置于第i个客户端,用于根据第六模块获得的客户端第cnt次迭代时的本地梯度向量与第五模块获得的第cnt次迭代时的累积偏差值/>进行偏差纠正,以得到第cnt次迭代时经偏差纠正后的本地梯度向量/>
第十模块,其设置于第i个客户端,用于对第七模块得到的第cnt次迭代时的本地梯度向量和对第九模块得到的第cnt次迭代时扰动后的本地梯度向量/>进行本地偏差记录,以得到第cnt次迭代时的本地偏差/>并将该第cnt次迭代时扰动后的本地梯度向量/>发送到服务端。
第十一模块,其设置于服务端,用于获取来自所有客户端发送的第cnt次迭代时扰动后的本地梯度向量,然后对这些获取到的扰动后的本地梯度向量取平均值,作为第cnt次迭代时全局模型的梯度向量ΔWcnt;
第十二模块,其设置于服务端,用于根据第十一模块得到的第cnt次迭代时全局模型的梯度向量ΔWcnt和第一模块确定的全局模型学习率lr,更新全局模型的参数矩阵,以得到第cnt+1次迭代的全局模型参数矩阵Wcnt,更新计数器cnt=cnt+1,并返回第三模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310302147.5A CN116186780A (zh) | 2023-03-27 | 2023-03-27 | 一种协作学习场景下基于噪声扰动的隐私保护方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310302147.5A CN116186780A (zh) | 2023-03-27 | 2023-03-27 | 一种协作学习场景下基于噪声扰动的隐私保护方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116186780A true CN116186780A (zh) | 2023-05-30 |
Family
ID=86444494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310302147.5A Pending CN116186780A (zh) | 2023-03-27 | 2023-03-27 | 一种协作学习场景下基于噪声扰动的隐私保护方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116186780A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056979A (zh) * | 2023-10-11 | 2023-11-14 | 杭州金智塔科技有限公司 | 基于用户隐私数据的业务处理模型更新方法及装置 |
CN117371046A (zh) * | 2023-12-07 | 2024-01-09 | 清华大学 | 一种面向多方协同优化的数据隐私增强方法及装置 |
-
2023
- 2023-03-27 CN CN202310302147.5A patent/CN116186780A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056979A (zh) * | 2023-10-11 | 2023-11-14 | 杭州金智塔科技有限公司 | 基于用户隐私数据的业务处理模型更新方法及装置 |
CN117056979B (zh) * | 2023-10-11 | 2024-03-29 | 杭州金智塔科技有限公司 | 基于用户隐私数据的业务处理模型更新方法及装置 |
CN117371046A (zh) * | 2023-12-07 | 2024-01-09 | 清华大学 | 一种面向多方协同优化的数据隐私增强方法及装置 |
CN117371046B (zh) * | 2023-12-07 | 2024-03-01 | 清华大学 | 一种面向多方协同优化的数据隐私增强方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sharma et al. | Secure and efficient federated transfer learning | |
CN116186780A (zh) | 一种协作学习场景下基于噪声扰动的隐私保护方法和系统 | |
Zhang et al. | Additively homomorphical encryption based deep neural network for asymmetrically collaborative machine learning | |
CN112668044B (zh) | 面向联邦学习的隐私保护方法及装置 | |
CN115102763B (zh) | 基于可信联邦学习多域DDoS攻击检测方法与装置 | |
CN115549888A (zh) | 一种基于区块链与同态加密的联邦学习隐私保护方法 | |
Lyu et al. | Towards fair and decentralized privacy-preserving deep learning with blockchain | |
Gupta et al. | A differential approach for data and classification service-based privacy-preserving machine learning model in cloud environment | |
CN113806768A (zh) | 基于去中心化安全聚合的轻量级联邦学习隐私保护方法 | |
CN112613618A (zh) | 一种安全联邦学习逻辑回归算法 | |
CN115660050A (zh) | 一种高效隐私保护的鲁棒联邦学习方法 | |
CN114547643A (zh) | 一种基于同态加密的线性回归纵向联邦学习方法 | |
CN117395067B (zh) | 面向拜占庭鲁棒联邦学习的用户数据隐私保护系统及方法 | |
CN112380495B (zh) | 安全多方乘法运算方法及系统 | |
CN117077192B (zh) | 一种隐私保护的联邦学习中搭便车攻击防御方法及装置 | |
Li et al. | Ubiquitous intelligent federated learning privacy-preserving scheme under edge computing | |
Liu et al. | Privacy preserving pca for multiparty modeling | |
Yan et al. | Multi-participant vertical federated learning based time series prediction | |
CN113326947B (zh) | 一种联合学习模型训练方法及系统 | |
Li et al. | Privacy-preserving and poisoning-defending federated learning in fog computing | |
CN111737337B (zh) | 基于数据隐私保护的多方数据转换方法、装置及系统 | |
Sifaou et al. | Over-the-air federated learning under Byzantine attacks | |
Chen et al. | Advances in Robust Federated Learning: Heterogeneity Considerations | |
Liu et al. | High-accuracy low-cost privacy-preserving federated learning in IoT systems via adaptive perturbation | |
CN117216786A (zh) | 基于区块链与差分隐私的众包平台统计数据按需共享方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |