CN115146313B - 基于模型差值稀疏化的联邦学习差分隐私保护方法 - Google Patents

基于模型差值稀疏化的联邦学习差分隐私保护方法 Download PDF

Info

Publication number
CN115146313B
CN115146313B CN202210784983.7A CN202210784983A CN115146313B CN 115146313 B CN115146313 B CN 115146313B CN 202210784983 A CN202210784983 A CN 202210784983A CN 115146313 B CN115146313 B CN 115146313B
Authority
CN
China
Prior art keywords
model
training
delta
pub
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210784983.7A
Other languages
English (en)
Other versions
CN115146313A (zh
Inventor
黄冠东
秦拯
欧露
高诗慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210784983.7A priority Critical patent/CN115146313B/zh
Publication of CN115146313A publication Critical patent/CN115146313A/zh
Application granted granted Critical
Publication of CN115146313B publication Critical patent/CN115146313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模型差值稀疏化的联邦学习差分隐私保护方法,设有中央服务器和若干个客户端,在中央服务器生成一个初始的全局模型,中央服务器将全局模型下发给各参与训练的客户端,各参与训练的客户端利用本地数据对全局模型进行若干次本地训练后得到本地模型,用全局模型减去本地模型得到模型差值,对模型差值进行稀疏、裁剪、加噪,将模型差值上传至中央服务器,中央服务器聚合收到的若干个模型差值,用全局模型减去聚合后的模型差值得到新的全局模型,以上步骤迭代若干次后得到最终的全局模型。本发明不仅可以有效防止敌手从模型参数中逆向推断得到客户端的隐私数据信息,同时还可以提升模型的可用性并减小通信开销。

Description

基于模型差值稀疏化的联邦学习差分隐私保护方法
技术领域
本发明涉及计算机领域,尤其是指基于模型差值稀疏化的联邦学习差分隐私保护方法。
背景技术
联邦学习(Federated Learning)是一种机器学习框架,本质就是分布式机器学习,通常由一个中央服务器和多个客户端组成,可实现私有数据、共享模型,每个客户端拥有各自的私有数据,多个客户端在中央服务器的协调下共同训练一个全局模型。在联邦学习中,各参与训练的客户端通过接受中央服务器下发的当前最新的全局模型并在本地利用自身拥有的私有数据对全局模型进行迭代训练,本地训练完成后,各参与训练的客户端将本地模型参数上传给中央服务器,中央服务器聚合收到的若干个本地模型参数得到一个新的全局模型,再将这个新的全局模型下发给各个参与训练的客户端进行下一轮的训练。
联邦学习不同于以往的机器学习方法,不需要收集各参与方的隐私数据,而是通过聚合各参与训练的客户端的本地模型参数的方式来进行训练,做到了所谓的“数据不动模型动”,看似可以保护各参与训练的客户端的隐私信息,但是已有研究人员在文献“Membership inference attacks against machine learning models”中表明,敌手可以通过分析模型信息来获取数据的隐私信息,也就是说我们需要结合别的隐私保护方法来保护用户的隐私信息。
目前常见的隐私保护方法是在模型训练过程中通过对模型参数添加满足差分隐私要求的高斯噪声来实现联邦学习下的数据隐私保护。差分隐私最早由Dwork等研究人员在文献“The algorithmic foundations of differential privacy”中提出,其核心思想是通过对数据真实值进行扰动,具体方法为对数据的真实值添加服从特定分布的噪声,在改变数据真实值的同时使这些数据仍保持其统计意义,但敌手无法通过分析获取的数据结果来得到用户的准确信息,因为敌手获取的数据结果并不是真实值,而是添加噪声后的扰动值。
对于给定隐私参数ε>0,0≤δ<1,随机机制M满足(∈,σ)-DP,如果对于任意两个相邻数据集D和D′以及任意输出的子集有Pr[M(D)]∈O≤ePr[M(D′)]∈O+δ。其中ε称为隐私预算,该参数用于衡量差分隐私系统对数据隐私保护的程度,ε的值越小,两个概率值越接近,差分隐私的保护效果就越好。其中δ称为松弛项,该参数表示上述不等式将有1-δ的概率不成立,δ的值越小,不等式成立的概率就越大,差分隐私的保护效果就越好。但是ε和δ的值越小,也意味着添加的噪声越大,会降低数据的可用性。当δ=0时,可称作ε-DP。
现有的方法是在模型训练过程中通过对模型参数添加满足差分隐私要求的高斯噪声来实现联邦学习下的数据隐私保护,添加的噪声量与模型的参数量正相关,然而随着深度学习的快速发展,模型的参数量不断增大,如2014年提出的VGG16神经网络的参数量为139357544,这将使得加入的噪声量过大,虽然符合差分隐私的要求,但是会严重影响模型的性能。并且,由于模型的参数量不断增大,联邦学习中的通信开销也越来越大,通信开销过大也是联邦学习中有待解决的问题。
名词解释:
FedAvg算法:谷歌公司提出的联邦学习经典算法。
高斯噪声:概率密度函数服从高斯分布(即正态分布)的随机扰动机制。
隐私预算:一种隐私保护力度的表现形式,设定的值越小,隐私保护力度越大。
松弛项:一种隐私保护力度的表现形式,设定的值越小,随机机制符合差分隐私的概率越大。
发明内容
为解决上述问题,本发明提供了一种基于模型差值稀疏化的联邦学习差分隐私保护方法,不仅可以有效防止敌手从模型参数中逆向推断得到客户端的隐私数据信息,同时还可以提升模型的可用性以及减小通信开销。
本发明的目的是通过下述技术方案予以实现:
步骤1,设联邦学习训练中使用的模型参数量为d,初始化掩码矩阵集合M,M中每个掩码矩阵的元素个数与模型的参数量相等,即M中每个掩码矩阵的元素个数为d,使用公共数据集Dpub求得最终的掩码矩阵集合M′;
步骤2,对于联邦学习中的每次全局迭代t∈{0,1,2,...,T-1},其中T表示全局迭代次数,设参与训练的客户端个数为n,各参与训练的客户端先从中央服务器下载全局模型θt,再利用本地数据对全局模型进行τ次训练得到本地模型θt,τ,最后用全局模型减去本地模型得到模型差值△,即△=θtt,τ
步骤3,使用M′中的掩码矩阵轮流对△进行稀疏,每次稀疏都会使△中p×d个值为0,其余(1-p)×d个值不变,稀疏后的模型差值记作△′;
步骤4,裁剪△′使其二范数||Δ′||2小于或等于预先设定的裁剪阈值C,裁剪后的模型差值记作
步骤5,根据预先设置的隐私参数和参与训练的客户端个数n来计算需要添加的高斯噪声的方差,对添加稀疏后的高斯噪声,最终得到稀疏、裁剪、加噪后的模型差值/>
步骤6,将稀疏、裁剪、加噪后的模型差值上传至中央服务器;
步骤7,中央服务器使用FedAvg算法聚合收到的n个模型差值,用全局模型θt减去聚合后的模型差值得到新的全局模型θt+1
重复步骤2至步骤7,直到达到设置的指定训练轮次,从而得到最终的全局模型。
本方案中,首先初始化掩码矩阵集合,通过公共数据集求得掩码矩阵集合。在联邦学习中的每次全局迭代中,各参与训练的客户端从中央服务器下载全局模型,利用本地数据对全局模型进行训练得到本地模型,用全局模型减去本地模型得到模型差值量,使用掩码矩阵集合稀疏模型差值,裁剪模型差值,使模型差值的二范数小于或等于预先设定的阈值,根据预先设置的隐私参数和参与训练的客户端个数来计算需要添加的高斯噪声的方差,对裁剪后的模型差值添加稀疏后的高斯噪声,得到稀疏、裁剪、加噪后的模型差值后将其上传至中央服务器,中央服务器使用FedAvg算法聚合收到的n个模型差值,用全局模型减去聚合后的模型差值得到新的全局模型,以上步骤迭代若干次后得到最终的全局模型。
作为优选,所述步骤1具体为,初始化掩码矩阵集合M={M0,M1,M2,...,Mm-1},m为M的基数,对于Mi为零矩阵,从总的数据集中划分部分数据作为公共数据集Dpub,用公共数据集Dpub来训练初始化的模型θ0,经过τ次训练得到新的模型θτ,用θ0减去θτ得到模型差值△pub,△pub中元素的个数为d,对△pub中所有元素取绝对值得到|△pub|,将|△pub|中所有元素从大到小排序得到|△pub|′,设稀疏率为p,找出|△pub|′中第1到p×d个元素在|△pub|中对应的坐标,将M0中相应元素的值设为1,再找出|△pub|′中第p×d+1到2×p×d个元素在|△pub|中对应的坐标,将M1中相应元素的值设为1,以此类推。
作为优选,所述步骤3具体为,对于第t次全局迭代,使用的掩码矩阵为Mt%m,其中%为取余预算符,△′=△⊙Mt%m,其中⊙为哈达玛积,表示两个矩阵中对应位置元素相乘。
作为优选,所述步骤5具体为,根据预先设定的裁剪阈值C、噪声乘数σ以及参与训练的客户端个数n来计算需要添加的高斯噪声的方差C2σ2/n, 其中N(0,(C2σ2/n)·Id)为高斯噪声矩阵,N(0,(C2σ2/n)·Id)⊙Mt%m为稀疏后的高斯噪声矩阵。。
本发明的有益效果是:本发明不仅可以有效防止敌手从模型参数中逆向推断得到客户端的隐私数据信息,同时还可以提升模型的可用性以及减小通信开销。
附图说明
图1是本发明的具体流程图;
图2是在隐私预算∈=1时本发明在稀疏率p=0.005,num_vector=6时与DP-FedAvg算法基于SVHN数据集的准确率的对比图,而上行通信开销仅为DP-FedAvg的0.5%;
图3是在隐私预算∈=1时本发明在稀疏率p=0.01,num_vector=5时与DP-FedAvg算法基于SVHN数据集的准确率的对比图,而上行通信开销仅为DP-FedAvg的1%;
图4是在隐私预算∈=1时本发明在稀疏率p=0.05,num-vector=4时与DP-FedAvg算法基于SVHN数据集的准确率的对比图,而上行通信开销仅为DP-FedAvg的5%;
图5是在隐私预算∈=1时本发明在稀疏率p=0.1,num_vector=2时与DP-FedAvg算法基于SVHN数据集的准确率的对比图,而上行通信开销仅为DP-FedAvg的10%。
具体实施方式
下面结合附图和实施例对本发明进一步描述。
实施例:
基于模型差值稀疏化的联邦学习差分隐私保护方法,如图1所示,在联邦学习开始前,通过公共数据集求得掩码矩阵集合,中央服务器生成一个初始的全局模型,把初始的全局模型下发给各参与训练的客户端,各参与训练的客户端使用本地数据对初始的全局模型进行τ次训练得到本地模型,初始的全局模型减去本地模型得到模型差值,使用掩码矩阵集合稀疏模型差值,使用预先设置的阈值裁剪模型差值,对模型差值添加高斯噪音,得到满足差分隐私条件的模型差值,各参与训练的客户端将各自的模型差值上传至中央服务器,中央服务器使用FedAvg算法聚合收到的模型差值,并用初始的全局模型减去聚合后的模型差值得到新的全局模型,上述过程迭代T次,具体包括以下步骤:
步骤1,设联邦学习训练中使用的模型参数量为d,初始化掩码矩阵集合M,M中每个掩码矩阵的元素个数与模型的参数量相等,即M中每个掩码矩阵的元素个数为d,使用公共数据集Dpub求得最终的掩码矩阵集合M′;
步骤2,对于联邦学习中的每次全局迭代t∈{0,1,2,...,T-1},其中T表示全局迭代次数,设参与训练的客户端个数为n,各参与训练的客户端先从中央服务器下载全局模型θt,再利用本地数据对全局模型进行τ次训练得到本地模型θt,τ,最后用全局模型减去本地模型得到模型差值△,即△=θtt,τ
步骤3,使用M′中的掩码矩阵轮流对△进行稀疏,每次稀疏都会使△中p×d个值为0,其余(1-p)×d个值不变,稀疏后的模型差值记作△′;
步骤4,裁剪△′使其二范数||Δ′||2小于或等于预先设定的裁剪阈值C,裁剪后的模型差值记作
步骤5,根据预先设置的隐私参数和参与训练的客户端个数n来计算需要添加的高斯噪声的方差,对添加稀疏后的高斯噪声,最终得到稀疏、裁剪、加噪后的模型差值/>
步骤6,将稀疏、裁剪、加噪后的模型差值上传至中央服务器;
步骤7,中央服务器使用FedAvg算法聚合收到的n个模型差值,用全局模型θt减去聚合后的模型差值得到新的全局模型θt+1
重复步骤2至步骤7,直到达到设置的指定训练轮次,从而得到最终的全局模型。
本方案的设计,本发明不仅可以有效防止敌手从模型参数中逆向推断得到客户端的隐私数据信息,同时还可以提升模型的可用性以及减小通信开销。相比于DP-FedAvg算法,本方案实现了在提升模型性能的同时,大幅减小了上行通信开销。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (4)

1.一种基于模型差值稀疏化的联邦学习差分隐私保护方法,其特征在于,设有中央服务器和若干个参与训练的客户端,具体包括以下步骤:
步骤1,设联邦学习训练中使用的模型参数量为d,初始化掩码矩阵集合M,M中每个掩码矩阵的元素个数与模型的参数量相等,即M中每个掩码矩阵的元素个数为d,使用公共数据集Dpub求得最终的掩码矩阵集合M′;
步骤2,对于联邦学习中的每次全局迭代t∈{0,1,2,...,T-1},其中T表示全局迭代次数,设参与训练的客户端个数为n,各参与训练的客户端先从中央服务器下载全局模型θt,再利用本地数据对全局模型进行τ次训练得到本地模型θt,τ,最后用全局模型减去本地模型得到模型差值Δ,即Δ=θtt,τ
步骤3,使用M′中的掩码矩阵轮流对Δ进行稀疏,每次稀疏都会使Δ中p×d个值为0,其余(1-p)×d个值不变,稀疏后的模型差值记作Δ′;
步骤4,裁剪Δ′使其二范数||Δ′||2小于或等于预先设定的裁剪阈值C,裁剪后的模型差值记作
步骤5,根据预先设置的隐私参数和参与训练的客户端个数n来计算需要添加的高斯噪声的方差,对添加稀疏后的高斯噪声,最终得到稀疏、裁剪、加噪后的模型差值/>
步骤6,将稀疏、裁剪、加噪后的模型差值上传至中央服务器;
步骤7,中央服务器使用FedAvg算法聚合收到的n个模型差值,用全局模型θt减去聚合后的模型差值得到新的全局模型θt+1
重复步骤2至步骤7,直到达到设置的指定训练轮次,从而得到最终的全局模型。
2.根据权利要求1所述的基于模型差值稀疏化的联邦学习差分隐私保护方法,其特征在于,所述的步骤1具体为,初始化掩码矩阵集合M={M0,M1,M2,...,Mm-1},m为M的基数,对于Mi为零矩阵,从总的数据集中划分部分数据作为公共数据集Dpub,用公共数据集Dpub来训练初始化的模型θ0,经过τ次训练得到新的模型θτ,用θ0减去θτ得到模型差值Δpub,Δpub中元素的个数为d,对Δpub中所有元素取绝对值得到|Δpub|,将|Δpub|中所有元素从大到小排序得到|Δpub|′,设稀疏率为p,找出|Δpub|′中第1到p×d个元素在|Δpub|中对应的坐标,将M0中相应元素的值设为1,再找出|Δpub|′中第p×d+1到2×p×d个元素在|Δpub|中对应的坐标,将M1中相应元素的值设为1,以此类推。
3.根据权利要求1所述的基于模型差值稀疏化的联邦学习差分隐私保护方法,其特征在于,所述的步骤3具体为,对于第t次全局迭代,使用的掩码矩阵为Mt%m,其中%为取余预算符,Δ′=Δ⊙Mt%m,其中⊙为哈达玛积,表示两个矩阵中对应位置元素相乘。
4.根据权利要求1所述的基于模型差值稀疏化的联邦学习差分隐私保护方法,其特征在于,所述的步骤5具体为,根据预先设定的裁剪阈值C、噪声乘数σ以及参与训练的客户端个数n来计算需要添加的高斯噪声的方差C2σ2/n, 其中N(0,(C2σ/n)·Id)为高斯噪声矩阵,N(0,(C2σ2/n)·Id)⊙Mt%m为稀疏后的高斯噪声矩阵。
CN202210784983.7A 2022-07-05 2022-07-05 基于模型差值稀疏化的联邦学习差分隐私保护方法 Active CN115146313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210784983.7A CN115146313B (zh) 2022-07-05 2022-07-05 基于模型差值稀疏化的联邦学习差分隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210784983.7A CN115146313B (zh) 2022-07-05 2022-07-05 基于模型差值稀疏化的联邦学习差分隐私保护方法

Publications (2)

Publication Number Publication Date
CN115146313A CN115146313A (zh) 2022-10-04
CN115146313B true CN115146313B (zh) 2024-04-09

Family

ID=83409560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210784983.7A Active CN115146313B (zh) 2022-07-05 2022-07-05 基于模型差值稀疏化的联邦学习差分隐私保护方法

Country Status (1)

Country Link
CN (1) CN115146313B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017322B1 (en) * 2021-01-28 2021-05-25 Alipay Labs (singapore) Pte. Ltd. Method and system for federated learning
CN112862011A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 基于联邦学习的模型训练方法、装置及联邦学习系统
CN113127931A (zh) * 2021-06-18 2021-07-16 国网浙江省电力有限公司信息通信分公司 基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法
CN114219160A (zh) * 2021-12-20 2022-03-22 湖南大学 一种基于联邦学习的生产链协同调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3097655A1 (en) * 2019-10-30 2021-04-30 Royal Bank Of Canada System and method for machine learning architecture with differential privacy

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017322B1 (en) * 2021-01-28 2021-05-25 Alipay Labs (singapore) Pte. Ltd. Method and system for federated learning
CN112862011A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 基于联邦学习的模型训练方法、装置及联邦学习系统
CN113127931A (zh) * 2021-06-18 2021-07-16 国网浙江省电力有限公司信息通信分公司 基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法
CN114219160A (zh) * 2021-12-20 2022-03-22 湖南大学 一种基于联邦学习的生产链协同调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
机器学习的隐私保护研究综述;刘俊旭;孟小峰;;计算机研究与发展;20200215(第02期);第108-124页 *
面向联邦学习的本地差分隐私设计;张昊;智能计算机与应用;20220531;第12卷(第5期);第61-69页 *

Also Published As

Publication number Publication date
CN115146313A (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
Hajek et al. Achieving exact cluster recovery threshold via semidefinite programming
US10430464B1 (en) Scalable graph propagation for knowledge expansion
Pichapati et al. Adaclip: Adaptive clipping for private sgd
Balabdaoui et al. Score estimation in the monotone single‐index model
CN114841364B (zh) 一种满足个性化本地差分隐私需求的联邦学习方法
Moore et al. Predicting the speed of epidemics spreading in networks
CN111814189B (zh) 一种基于差分隐私的分布式学习隐私保护方法
CN115952533A (zh) 一种基于差分隐私的个性化联邦学习、识别方法及系统
CN108763954A (zh) 线性回归模型多维高斯差分隐私保护方法、信息安全系统
JP7471445B2 (ja) コンテンツの配信と分析のためのプライバシーを守る機械学習
US20230214642A1 (en) Federated Learning with Partially Trainable Networks
CN116324820A (zh) 诱发稀疏性的联合机器学习
Xu et al. Focused information criterion and model averaging based on weighted composite quantile regression
CN110490002A (zh) 一种基于本地化差分隐私的多维众包数据真值发现方法
CN115098882B (zh) 基于增量学习的本地差分隐私的多维数据发布方法及系统
CN113569286A (zh) 基于本地化差分隐私的频繁项集挖掘方法
Girard et al. Extreme values and Haar series estimates of point process boundaries
CN115146313B (zh) 基于模型差值稀疏化的联邦学习差分隐私保护方法
CN105956925B (zh) 一种基于传播网络的重要用户发现方法及装置
Ling et al. Efficient federated learning privacy preservation method with heterogeneous differential privacy
Chen et al. Privacy-preserving hierarchical federated recommendation systems
McMurry et al. Bootstrap confidence intervals in nonparametric regression with built-in bias correction
CN109190040A (zh) 基于协同演化的个性化推荐方法及装置
Yang et al. An item-diversity-based collaborative filtering algorithm to improve the accuracy of recommender system
Imai Estimating real log canonical thresholds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant