CN112966298A - 一种复合隐私保护方法、系统、计算机设备及存储介质 - Google Patents
一种复合隐私保护方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112966298A CN112966298A CN202110226452.1A CN202110226452A CN112966298A CN 112966298 A CN112966298 A CN 112966298A CN 202110226452 A CN202110226452 A CN 202110226452A CN 112966298 A CN112966298 A CN 112966298A
- Authority
- CN
- China
- Prior art keywords
- model
- client
- server
- privacy
- encryption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Storage Device Security (AREA)
Abstract
本发明提供了一种复合隐私保护方法、系统、计算机设备及存储介质,所述方法包括:预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥;由所述服务器向所述客户端发送第一模型和第一模型参数;由所述客户端根据本地数据对所述第一模型进行训练,将所述第一模型参数更新为第二模型参数;采用差分隐私算法,由所述客户端对所述第二模型参数添加噪声,得到第三模型参数;根据所述加密公钥,由所述客户端对所述第三模型参数进行函数加密,得到加密模型并发送给所述服务器;根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型。本发明不仅加强了隐私保护,还提高了模型服务质量和学习效率。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种面向联邦学习的复合隐私保护方法、系统、计算机设备及存储介质。
背景技术
随着人工智能的高速发展,采用机器深度学习模型进行训练分类预测等被广泛应用,然而,由于每个用户的数据有限降低了机器学习的精度,且出于对数据隐私和安全的保护,各个用户之间无法直接进行数据交换等问题的存在限制了机器学习的发展,随之,一种允许在不需要原始数据的情况下充分利用分散的训练设备进行模型训练的联邦学习就应运而生了。虽然,联邦学习为进一步打破数据孤岛和提供更精确的服务提供了便利,且已在数字图像处理、自然语言处理、文本语音处理等领域得以广泛应用,但其学习过程中存在的数据隐私问题仍备受学者关注,学者们分别基于数据级隐私和内容级隐私给出了不同的保护方案。
现有技术虽然提供了不同的隐私保护方案,如,通过同态加密和安全多方计算等方法保护数据级隐私,采用扰动机制(如差分隐私)和泛化机制(如k-匿名、l-多样性、t-近似)保护内容级隐私,将差分隐私和安全多方计算协议结合起来保护数据和参数的隐私,将差分隐私和秘密共享技术结合起来保护数据提供者的隐私,及将函数加密和差分隐私相结合保证参数隐私性,并添加一个可信的第三方实体来负责生成和管理密钥的多维度隐私保护等方法。但,它们中均未考虑联邦学习训练过程中客户端权重的保护,在为攻击者根据模型分析结果间接推断出训练数据的来源提供了可乘之机的同时,为了追求差分隐私保护效果又忽略了联邦学习模型的服务质量和学习效率。
发明内容
本发明的目的是提供一种面向联邦学习的复合隐私保护方法,在克服现有隐私保护方法忽略对客户端权重保护的问题,达到了保护客户端数据来源隐私和防止数据级隐私泄露威胁的效果的同时,克服现有技术忽略联邦学习的模型服务质量和学习效率的问题,达到了防止内容级隐私泄露威胁、保障模型服务质量和学习效率的效果。
为了实现上述目的,有必要针对上述技术问题,提供了一种复合隐私保护方法、系统、计算机设备及存储介质。
第一方面,本发明实施例提供了一种复合隐私保护方法,所述方法包括以下步骤:
预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥;
由所述服务器向所述客户端发送第一模型和第一模型参数;所述第一模型参数包括噪声参数和采样率;
由所述客户端根据本地数据对所述第一模型进行训练,将所述第一模型参数更新为第二模型参数;
采用差分隐私算法,由所述客户端对所述第二模型参数添加噪声,得到第三模型参数;
根据所述加密公钥,由所述客户端对所述第三模型参数进行函数加密,得到加密模型并发送给所述服务器;
根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型。。
进一步地,所述预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥的步骤包括:
由所述客户端将预设的权重数据发送给所述可信第三方;
由所述可信第三方根据所述权重数据生成权重向量,并根据所述权重向量生成所述客户端的加密公钥和服务器的解密私钥。
进一步地,所述采用差分隐私算法,由所述客户端对所述第二模型参数添加噪声,得到第三模型参数的步骤包括:
根据所述第二模型参数的分布特征及所述噪声参数添加噪声,得到第三模型参数;
根据所述第二模型参数与第三模型参数的距离、以及所述噪声参数和所述采样率,计算隐私损失。
进一步地,所述根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型的步骤之后还包括:
由所述服务器将所述客户端的隐私损失进行汇总,得到全局隐私损失;
根据所述全局隐私损失是否超过预设的隐私预算,判断是否停止迭代;
若所述全局隐私损失未超过预设的隐私预算时,则由所述服务器将所述全局模型发送给所述客户端进行下一轮迭代训练,反之则停止迭代。
进一步地,在所述根据所述加密公钥,由所述客户端对所述第三模型参数进行函数加密的步骤之前,还包括以下步骤:
采用模型压缩算法,由所述客户端对所述第二模型参数进行模型压缩;所述模型压缩算法包括稀疏化差分梯度算法。
进一步地,所述根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型的步骤包括:
由所述服务器根据所述解密私钥对所述加密模型进行解密,得到增量全局模型;
将所述增量全局模型和所述全局模型作和,更新所述全局模型。
第二方面,本发明实施例提供了一种复合隐私保护系统,所述系统包括:
权重加密模块,用于预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥;
模型下发模块,用于由所述服务器向所述客户端发送预设的第一模型和第一模型参数;所述第一模型参数包括噪声参数和采样率;
模型训练模块,用于由所述客户端根据本地数据对所述第一模型进行训练,将所述第一模型参数更新为第二模型参数;
差分隐私模块,用于采用差分隐私算法,由所述客户端对所述第二模型参数添加噪声,得到第三模型参数;
模型加密模块,用于根据所述加密公钥,由所述客户端对所述第三模型参数进行函数加密,得到加密模型并发送给所述服务器;
模型聚合模块,用于根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型。
进一步地,在所述模型加密模块之前,还包括:
模型压缩模块,用于采用模型压缩算法,由所述客户端对所述第二模型参数进行模型压缩;所述模型压缩算法包括稀疏化差分梯度算法。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述本申请提供了一种复合隐私保护方法、系统、计算机设备及存储介质,通过所述方法,实现了通过可信第三方根据客户端预设的权重数据进行权重加密生成客户端的加密公钥和服务器的解密私钥,在服务器下发第一模型和第一模型参数后,由客户端先根据本地数据对第一模型进行训练将第一模型参数更新为第二模型参数,再对第二模型参数采用模型压缩算法进行模型压缩,采用差分隐私进行参数加噪声得到第三模型参数,再采用加密公钥对第三模型参数进行加密后上传给服务器,由服务器根据解密私钥进行解密得到全局模型,用于根据全局模型提供服务的技术方案。与现有技术相比,该面向联邦学习的复合隐私保护方法,在克服现有隐私保护方法忽略对客户端权重保护的技术问题,达到保护客户端数据来源隐私和防止数据级隐私泄露威胁的效果的同时,克服了现有技术忽略模型服务质量和学习效率的技术问题,达到了防止内容级隐私泄露威胁、保障模型服务质量和学习效率的效果。
附图说明
图1是本发明实施例中复合隐私保护方法应用的联邦学习模型框架示意图;
图2是现有联邦学习模型存在的数据级隐私威胁的示意图;
图3是现有联邦学习模型存在的内容级隐私威胁的示意图;
图4是本发明实施例中复合隐私保护方法的流程示意图;
图5是图4中步骤S11可信第三方基于权重加密生成客户端加密公钥和服务器解密私钥的流程示意图;
图6是图4中步骤S14对模型参数添加噪声的流程示意图;
图7是本发明实施例中另一复合隐私保护方法的流程示意图;
图8是本发明实施例中另一复合隐私保护方法的流程示意图;
图9是图8中S27步骤的得到全局模型的流程示意图;
图10是本发明实施例中复合隐私保护系统的结构示意图;
图11是本发明实施例中另一复合隐私保护系统的结构示意图;
图12是本发明实施例应用于智慧医疗场景的示意图;
图13是本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的复合隐私保护方法,应用于如图1所示的联邦学习模型框架中,在有效解决了如图2-3所示的联邦学习过程中的客户端数据来源隐私、数据级隐私及内容级隐私问题的同时,克服了现有技术忽略模型服务质量和学习效率的问题。
如图2所示,数据级隐私威胁是指攻击者在训练过程中试图推断敏感属性、重构用户训练数据或猜测隐私信息的所有者。从客户的参数中直接提取私人信息看似不容易,但是在参数结构已知的地方,关于本次迭代训练数据的附加信息将被泄露出来,因此,使用参数梯度代替上传原始数据是对联邦学习方法的一个重要改进。
如图3所示,内容级隐私威胁是指攻击者利用背景知识和经过训练的模型对训练数据中的隐私信息进行反向攻击,主要包括模型反演攻击和属性推理攻击。与数据级隐私威胁不同,攻击者使用的是经过训练的模型,而不是数据参数。这意味着联邦学习中的任何参与者都可能发起攻击,因此,采用加密函数对客户端权重进行加密生成客户端和服务器端使用的加密秘钥和服务器端使用的解密秘钥,及采用合适的差分隐私算法对模型参数或参数梯度进行加密的方法,在保护数据级隐私的同时,来保护内容级数据隐私是很有必要的。
在一个实施例中,如图4所示,提供了一种复合隐私保护方法,包括以下步骤:
S11、预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥;
其中,客户端权重一般只用作后续服务器对客户端训练生成的本地模型进行聚合生成服务器使用的全局模型,本实施例基于保护训练数据来源的考虑,对现有技术中忽略的客户端权重,采用函数加密方法进行保护,由第可信第三方根据每个客户端的贡献度和数据量分配权重,并由此权重生成各客户端的加密公钥和服务器的解密私钥,如图5所示,所述预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥的步骤S11包括:
S111、由所述客户端将预设的权重数据发送给所述可信第三方;
其中,权重数据的具体内容根据实际应用需求设定,如客户端可以将本地模型训练精度等贡献度及本地数据的数量大小作为预设的权重数据发送给可信第三方,由可信第三方管理和使用,避免直接将客户端的权重暴露给服务器,造成潜在的数据来源泄密风险。
S112、由所述可信第三方根据所述权重数据生成权重向量,并根据所述权重向量生成所述客户端的加密公钥和服务器的解密私钥。
其中,权重向量是由可信第三方根据各客户端发送的权重数据合理分配的权重构成的一个向量(y1,y2,…,yn),yi,i=1,…,n为对应于每个客户端的权重值,n为参与模型训练的客户端总数。可信第三方得到权重向量后基于能够实现函数加密的函数加密算法,生成每个客户端的公钥pki,i=1,…,n,和服务器使用的解密秘钥再发送给各个客户端和服务器,有效地避免了因服务器对客户端权重的感知而造成服务器侧出现训练模型及数据等信息的泄露风险,为联邦学习的隐私提供了更深层的保护。
S12、由所述服务器向所述客户端发送第一模型和第一模型参数;所述第一模型参数包括噪声参数和采样率;
其中,第一模型和第一模型参数是服务器根据实际需求选择,需要客户端完成本地训练的模型。需要说明的是,由于实际的联邦学习训练需要很多轮才能够得到满足服务器所需的理想模型,此处的第一模型在第一轮训练时下发的就是一个初始模型,并不是严格意义上的由服务器按照预设规则聚合后的全局模型,后续迭代训练服务器均是将根据客户端权重聚合得到的全局模型作为第一模型下发,但考虑到第一轮训练时,每个客户端初始模型相同,按照权重聚合得到的全局模型仍是该初始模型,因此,不分第几轮迭代训练,由服务器下发的训练模型统称为第一模型,与之相关的模型参数统称为第一模型参数。最初服务器下发的第一模型可以根据实际需求选择,如神经网络模型等,第一模型参数除了包括噪声参数和采样率外,还有包括神经网络模型的网络参数等。其中,噪声参数用来衡量所添加噪声量的大小,一般取值为0.5-1.0,采样率为参与联邦学习训练的客户端数量占所有客户端数量的比值,用于后续客户端对训练好的模型参加添加噪声使用。
S13、由所述客户端根据本地数据对所述第一模型进行训练,将所述第一模型参数更新为第二模型参数;
其中,本地数据指的是每个客户端的私有数据。每个客户端在本地使用自有的本地数据对服务器下发的第一模型分别进行一轮迭代训练,将训练得到模型参数作为第二模型参数,用于后续的差分隐私使用。
S14、采用差分隐私算法,由所述客户端对所述第二模型参数添加噪声,得到第三模型参数;
其中,差分隐私算法采用贝叶斯差分隐私算法,是一种通过数据分布情况来校正添加噪声以保护数据隐私的方法,如图6所示,所述采用差分隐私算法,由所述客户端对所述第二模型参数添加噪声,得到第三模型参数的步骤S14包括:
S141、根据所述第二模型参数的分布特征及所述噪声参数添加噪声,得到第三模型参数;
其中,添加噪声的常用方式有指数噪声,拉普拉斯噪声,高斯噪声等。本实施例中根据联邦学习模型的构建采用高斯噪声,满足的公式如下所示:
其中,f(d)为添加噪声前的与第二模型参数对应的第二模型,M(d)为添加噪声后的与第三模型参数对应的第三模型,σ为噪声参数,Sf是固定值,一般设为1,是差分隐私算法中的敏感度,表示均值为0,方差为的高斯分布,具体方法此处不再赘述。
S142、根据所述第二模型参数与第三模型参数的距离、以及所述噪声参数和所述采样率,计算隐私损失。
其中,隐私损失是差分隐私算法的一个关键变量,其由每个客户端根据实际添加噪声前后的情况计算,并上报给服务器进行累加,以决定联邦学习训练的迭代次数。其计算隐私损失所用到的第二模型参数与第三模型参数的距离原则上有很多种度量方式,本实施例中采用瑞丽散度作为添加噪声前后模型参数距离的度量,虽然瑞丽散度因不满足距离定义中的对称性而不能称为实际意义上的距离,但仍可以用它来衡量两个分布之间的差距。利用瑞丽散度和噪声参数及采样率计算隐私损失的公式如下:
其中,t表示当前的迭代轮数,q为采样率,σ为噪声参数,gt表示第二模型参数梯度,g′t表示第三模型参数梯度,λ为超参数,一般设置为10,ct(λ)表示第t轮迭代的隐私损失。
S15、根据所述加密公钥,由所述客户端对所述第三模型参数进行函数加密,得到加密模型并发送给所述服务器;
其中,函数加密是指一种拥有解密密钥的用户可以获得的秘密数据的函数值而不会获得其他有关任何明文信息的方案。加密公钥为可信第三方基于客户端的权重采用函数加密算法生成,客户端在本地对上述加噪处理后的第三模型参数使用加密公钥进行加密,将加密得到的加密模型发送给服务器,很好地保证传输途中模型的私密性。需要说明的是,将加密模型发送给服务器的同时,还将本地计算的隐私损失上报给服务器,用户后续的服务器对每轮迭代各客户端隐私损失的统计汇总。
S16、根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型。
其中,全局模型是服务器对所有客户端本地训练上传的加密后的第三模型参数解密后聚合得到,其聚合方法可以按照实际需求选择。本实施例中采用基于客户端权重对所有客户端上传的第三模型参数进行加权平均的聚合方法得到,并作为后续迭代时下发给所有客户端进行训练的模型。
本申请实施例中基于现有联邦学习的隐私保护忽略了对客户端权重的保护、及模型服务质量和学习效率的考虑,设计了一种联邦学习的复合隐私保护方法的框架,其实现了预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥,在服务器向客户端发送第一模型和第一模型参数后,由客户端根据本地数据对第一模型进行训练,将第一模型参数更新为第二模型参数,再采用差分隐私算法对第二模型参数添加噪声得到第三模型参数后,根据加密公钥对所述第三模型参数进行函数加密将得到加密模型发送给服务器,由其根据所述解密私钥对加密模型进行解密得到全局模型的技术方案。该方法应用于实际的联邦学习训练中,通过采用隐藏客户端权重的多用户输入的函数加密方案及本地贝叶斯差分隐私方案相关结合的方法,达到了保护客户端数据来源隐私和防止数据级隐私泄露威胁的效果的同时,达到防止内容级隐私泄露威胁的效果。
在一个实施例中,如图7所示,为了保证服务器获得的理想的全局模型,通过隐私预算来控制客户端本地进行迭代训练的次数,提供了一种复合隐私保护方法,除上述S11-S16外,还包括以下步骤:
S17、由所述服务器将所述客户端的隐私损失进行汇总,得到全局隐私损失;
其中,客户端的隐私损失随着加密模型一起上报给服务器。全局隐私损失采用累加的方式计算得到,由服务器对所有客户端上报的迭代训练过程中产生的隐私损失全部累加在一起,作为后续服务器判断是否需要停止迭代的标准,在保证服务质量的同时,更好地控制联邦学习效率。
S18、根据所述全局隐私损失是否超过预设的隐私预算,判断是否停止迭代;若所述全局隐私损失未超过预设的隐私预算时,则由所述服务器将所述全局模型发送给所述客户端进行下一轮迭代训练,反之则停止迭代。
其中,隐私预算可以根据实际联邦学习训练的需求设置,其取值范围原则上在[1,50]之间。实际的联邦学习训练中,剩余的隐私预算值越接近于0,隐私保护效果就越好,因此,在服务器每次收到客户端上报的隐私损失后都要将其累计更新当前的全局隐私损失,判断此轮迭代完成后全局隐私损失是否超过服务器根据实际学习需要预设的隐私预算,若超过则认为隐私保护已达到预期服务要求可以终止迭代,反之,则继续下一轮迭代训练直到得到更理想的全局模型用于服务,来保证模型服务质量的同时,进一步提高学习效率。
本实施例中在上述通过采用隐藏客户端权重的多用户输入的函数加密方案及本地贝叶斯差分隐私方案相关结合的联邦学习训练的基础上,提供了一种由服务器通过隐私预算来合理有效地控制客户端本地进行迭代训练的次数的联邦学习训练方法,不仅达到保护客户端数据来源隐私、防止数据级隐私泄露威胁,和防止内容级隐私泄露威胁的效果,还在保证模型服务质量的同时,进一步提高学习效率。
在一个实施例中,如图8所示,所述方法包括以下步骤:
S21、预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥;
S22、由所述服务器向所述客户端发送第一模型和第一模型参数;所述第一模型参数包括噪声参数和采样率;
S23、由所述客户端根据本地数据对所述第一模型进行训练,将所述第一模型参数更新为第二模型参数;
S24、采用模型压缩算法,由所述客户端对所述第二模型参数进行模型压缩;所述模型压缩算法包括稀疏化差分梯度算法;
S25、采用差分隐私算法,由所述客户端对所述第二模型参数添加噪声,得到第三模型参数;
S26、根据所述加密公钥,由所述客户端对所述第二模型参数进行函数加密,得到加密模型并发送给所述服务器;
S27、根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型。
其中,模型压缩是指一种通过对压缩训练模型规模、筛选压缩模型参数尺寸以提高机器学习计算效率的方案。模型压缩算法除了可以使用稀疏化差分梯度算法外,还可以使用其他的模型裁剪、或SqueezeNet、MobileNet等更精细的模型设计方法,本实施例中仅以稀疏化差分梯度算法为例进行说明。采用稀疏化差分梯度算法时,客户端预先设置模型压缩阈值,在客户端完成首轮本地训练后上传完整的模型梯度,后续迭代训练时,只需将变化量超过模型压缩阈值的参数增量上传给服务器,服务器可以根据参数增量恢复完整模型参数。模型压缩阈值可以根据实际需求设置,本实施例根据大量实践发现,将压缩阈值设置为0.000001时,模型的精度下降最小,仅为0.03,在进一步提高学习效率的同时,还很好的保证了联邦学习模型的服务质量。需要说明的是,该实施例与上述实施例的区别仅在于对客户端本地训练得到的模型增加了模型压缩的步骤S24,其他步骤的实现方式与上述实施例保持一致,且该实施例中步骤S24与S25的位置可以互换,不会影响整个联邦学习模型框架的效果。
在一个实施例中,如图9所示,所述根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型的步骤S27包括:
S271、由所述服务器根据所述解密私钥对所述加密模型进行解密,得到增量全局模型;
其中,增量全局模型是对应于加上模型压缩步骤S24后,除首轮迭代训练后服务器解密聚合得到的全局模型外,其它次的迭代训练后得到的全局模型。迭代训练加上模型压缩后,只有第一轮迭代上传的是完整的模型参数,后续每轮迭代都是将参数增量超过阈值的参数上传给服务器,即每个客户端上传的都是增量模型,服务器解密聚合得到的全局模型也是对各客户端的增量模型聚合而成的增量全局模型,并不是可以直接使用的完整的全局模型。
S272、将所述增量全局模型和所述全局模型作和,更新所述全局模型。
其中,在得到上述的增量全局模型后,需要将其与上轮迭代产生的全局模型相加,得到最新的全局模型用于服务器使用,或者下发给客户端进行下一轮迭代,有效地保证了每轮迭代客户端使用的训练模型的完整性。
本实施例通过客户端本地实现模型压缩,在服务器收到对应的模型参数梯度进行解密聚合后,再更新全局模型的方法,在提高机器学习计算效率的同时,还保证了迭代训练的完整性和有效性。
需要说明的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。
在一个实施例中,如图10所示,提供了一种复合隐私保护系统,所述系统包括:
权重加密模块11,用于预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥;
模型下发模块12,用于由所述服务器向所述客户端发送预设的第一模型和第一模型参数;所述第一模型参数包括噪声参数和采样率;
模型训练模块13,用于由所述客户端根据本地数据对所述第一模型进行训练,将所述第一模型参数更新为第二模型参数;
差分隐私模块14,用于采用差分隐私算法,由所述客户端对所述第二模型参数添加噪声,得到第三模型参数;
模型加密模块15,用于根据所述加密公钥,由所述客户端对所述第三模型参数进行函数加密,得到加密模型并发送给所述服务器;
模型聚合模块16,用于根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型。
在一个实施例中,如图11所示,提供了一种复合隐私保护系统,所述系统包括:
权重加密模块21,用于预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥;
模型下发模块22,用于由所述服务器向所述客户端发送预设的第一模型和第一模型参数;所述第一模型参数包括噪声参数和采样率;
模型训练模块23,用于由所述客户端根据本地数据对所述第一模型进行训练,将所述第一模型参数更新为第二模型参数;
模型压缩模块24,用于采用模型压缩算法,由所述客户端对所述第二模型参数进行模型压缩;所述模型压缩算法包括稀疏化差分梯度算法;
差分隐私模块25,用于采用差分隐私算法,由所述客户端对所述第二模型参数添加噪声,得到第三模型参数;
模型加密模块26,用于根据所述加密公钥,由所述客户端对所述第三模型参数进行函数加密,得到加密模型并发送给所述服务器;
模型聚合模块27,用于根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型。
需要说明的是,本实例中的复合保护隐私系统与上述系统的区别仅在于增加了模型压缩模块24,其他模块的实现方式与上述系统实施例保持一致,且该实施例中模型压缩模块24和差分隐私模块25的位置可互换,只要完成相应的功能叠加效果即可。如图12所示,在包括医院及诊断服务器的智慧医疗场景下,采用该系统完成各个医院数据库的安全的联邦学习,以实现线上疾病的精准诊断的具体应用为:参与训练的各个医院将自己的权重数据发送给可信第三方用于分配权重,及对各医院的权重进行函数加密生成的各医院训练使用的加密公钥,及线上诊断服务器对各医院训练的模型进行聚合的解密秘钥,并发送给各医院和诊断服务器;诊断服务器在收到解密秘钥后,向每个医院下发初始训练模型及模型参数,由各医院利用自己的电子病历数据集进行模型训练后得到本地模型,并对本地模型采用如稀疏化差分梯度算法的模型压缩方案进行筛选和压缩,及采用贝叶斯差分隐私方案,根据电子病历数据的分布情况对该压缩后的本地模型参数添加合适的噪声,再利用加密公钥,采用函数加密算法对添加噪声后的模型参数进行加密并上传给线上诊断服务器;线上诊断服务器根据解密私钥,采用函数解密算法对各医院上传的加密后的本地模型进行解密聚合得到全局模型,如联邦评价模型等;线上诊断服务器利用经过联邦学习训练好的模型提供服务,在个人用户上传个人健康数据到线上诊断服务器后,线上诊断服务器将该用户的个人数据输入到全局模型进行疾病匹配,并将线上诊断结果及时反馈给个人用户。
关于复合隐私保护系统的具体限定可以参见上文中对于复合隐私保护方法的限定,在此不再赘述。上述复合隐私保护系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图13示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图13所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种复合隐私保护方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比途中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
综上,本发明实施例提供的一种复合隐私保护方法、系统、计算机设备及存储介质,其复合隐私保护方法通过可信第三方根据客户端预设的权重数据进行权重加密生成客户端的加密公钥和服务器的解密私钥,在服务器下发第一模型和第一模型参数后,由客户端先根据本地数据对第一模型参数进行训练得到第二模型参数,再对第二模型参数采用模型压缩算法进行模型压缩,采用差分隐私进行参数加噪声得到第三模型参数,再采用加密公钥对第三模型参数进行加密后上传给服务器,由服务器根据解密私钥进行解密得到全局模型,用于根据全局模型提供服务的技术方案。该方法应用于实际的联邦学习训练场景时,不仅达到了保护客户端数据来源隐私、防止数据级隐私泄露威胁,及防止内容级隐私泄露威胁的效果,还在保障模型服务质量的同时,进一步提升了联邦学习模型的学习效率。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种复合隐私保护方法,其特征在于,所述方法包括以下步骤:
预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥;
由所述服务器向所述客户端发送第一模型和第一模型参数;所述第一模型参数包括噪声参数和采样率;
由所述客户端根据本地数据对所述第一模型进行训练,将所述第一模型参数更新为第二模型参数;
采用差分隐私算法,由所述客户端对所述第二模型参数添加噪声,得到第三模型参数;
根据所述加密公钥,由所述客户端对所述第三模型参数进行函数加密,得到加密模型并发送给所述服务器;
根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型。
2.如权利要求1所述的复合隐私保护方法,其特征在于,所述预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥的步骤包括:
由所述客户端将预设的权重数据发送给所述可信第三方;
由所述可信第三方根据所述权重数据生成权重向量,并根据所述权重向量生成所述客户端的加密公钥和服务器的解密私钥。
3.如权利要求1所述的复合隐私保护方法,其特征在于,所述采用差分隐私算法,由所述客户端对所述第二模型参数添加噪声,得到第三模型参数的步骤包括:
根据所述第二模型参数的分布特征及所述噪声参数添加噪声,得到第三模型参数;
根据所述第二模型参数与第三模型参数的距离、以及所述噪声参数和所述采样率,计算隐私损失。
4.如权利要求3所述的复合隐私保护方法,其特征在于,所述根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型的步骤之后还包括:
由所述服务器将所述客户端的隐私损失进行汇总,得到全局隐私损失;
根据所述全局隐私损失是否超过预设的隐私预算,判断是否停止迭代;
若所述全局隐私损失未超过预设的隐私预算时,则由所述服务器将所述全局模型发送给所述客户端进行下一轮迭代训练,反之,则停止迭代。
5.如权利要求1所述的复合隐私保护方法,其特征在于,在所述根据所述加密公钥,由所述客户端对所述第三模型参数进行函数加密的步骤之前,还包括以下步骤:
采用模型压缩算法,由所述客户端对所述第二模型参数进行模型压缩;所述模型压缩算法包括稀疏化差分梯度算法。
6.如权利要求5所述的复合隐私保护方法,其特征在于,所述根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型的步骤包括:
由所述服务器根据所述解密私钥对所述加密模型进行解密,得到增量全局模型;
将所述增量全局模型和所述全局模型作和,更新所述全局模型。
7.一种复合隐私保护系统,其特征在于,所述系统包括:
权重加密模块,用于预先根据客户端权重,通过可信第三方生成客户端的加密公钥和服务器的解密私钥;
模型下发模块,用于由所述服务器向所述客户端发送预设的第一模型和第一模型参数;所述第一模型参数包括噪声参数和采样率;
模型训练模块,用于由所述客户端根据本地数据对所述第一模型进行训练,将所述第一模型参数更新为第二模型参数;
差分隐私模块,用于采用差分隐私算法,由所述客户端对所述第二模型参数添加噪声,得到第三模型参数;
模型加密模块,用于根据所述加密公钥,由所述客户端对所述第三模型参数进行函数加密,得到加密模型并发送给所述服务器;
模型聚合模块,用于根据所述解密私钥,由所述服务器对所述加密模型进行解密,得到全局模型。
8.如权利要求7所述的复合隐私保护系统,其特征在于,在所述模型加密模块之前,还包括:
模型压缩模块,用于采用模型压缩算法,由所述客户端对所述第二模型参数进行模型压缩;所述模型压缩算法包括稀疏化差分梯度算法。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权力要求1至6中任一所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权力要求1至6中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110226452.1A CN112966298B (zh) | 2021-03-01 | 2021-03-01 | 一种复合隐私保护方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110226452.1A CN112966298B (zh) | 2021-03-01 | 2021-03-01 | 一种复合隐私保护方法、系统、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966298A true CN112966298A (zh) | 2021-06-15 |
CN112966298B CN112966298B (zh) | 2022-02-22 |
Family
ID=76275921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110226452.1A Active CN112966298B (zh) | 2021-03-01 | 2021-03-01 | 一种复合隐私保护方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966298B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449318A (zh) * | 2021-06-18 | 2021-09-28 | 北京明朝万达科技股份有限公司 | 一种数据分级模型训练方法、装置、数据分级方法、装置 |
CN113469370A (zh) * | 2021-06-22 | 2021-10-01 | 河北工业大学 | 一种基于联邦增量学习的工业物联网数据共享方法 |
CN113626866A (zh) * | 2021-08-12 | 2021-11-09 | 中电积至(海南)信息技术有限公司 | 一种面向联邦学习的本地化差分隐私保护方法、系统、计算机设备及存储介质 |
CN113961967A (zh) * | 2021-12-13 | 2022-01-21 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护联合训练自然语言处理模型的方法及装置 |
CN114091651A (zh) * | 2021-11-03 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 多方联合训练图神经网络的方法、装置及系统 |
CN114595831A (zh) * | 2022-03-01 | 2022-06-07 | 北京交通大学 | 融合自适应权重分配和个性化差分隐私的联邦学习方法 |
CN115348001A (zh) * | 2022-10-18 | 2022-11-15 | 北京融数联智科技有限公司 | 一种基于同态加密的空间距离计算方法及系统 |
CN116168789A (zh) * | 2023-04-26 | 2023-05-26 | 之江实验室 | 一种多中心医疗数据生成系统和方法 |
CN116805082A (zh) * | 2023-08-23 | 2023-09-26 | 南京大学 | 一种保护客户端隐私数据的拆分学习方法 |
CN117034287A (zh) * | 2023-08-03 | 2023-11-10 | 国家电网有限公司大数据中心 | 基于隐私计算互联互通技术的多方联合建模安全增强方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110572253A (zh) * | 2019-09-16 | 2019-12-13 | 济南大学 | 一种联邦学习训练数据隐私性增强方法及系统 |
CN110719158A (zh) * | 2019-09-11 | 2020-01-21 | 南京航空航天大学 | 基于联合学习的边缘计算隐私保护系统及保护方法 |
CN111091199A (zh) * | 2019-12-20 | 2020-05-01 | 哈尔滨工业大学(深圳) | 一种基于差分隐私的联邦学习方法、装置及存储介质 |
CN111611610A (zh) * | 2020-04-12 | 2020-09-01 | 西安电子科技大学 | 联邦学习信息处理方法、系统、存储介质、程序、终端 |
CN111898137A (zh) * | 2020-06-30 | 2020-11-06 | 深圳致星科技有限公司 | 一种联邦学习的隐私数据处理方法、设备及系统 |
CN112383396A (zh) * | 2021-01-08 | 2021-02-19 | 索信达(北京)数据技术有限公司 | 一种联邦学习模型训练方法及系统 |
-
2021
- 2021-03-01 CN CN202110226452.1A patent/CN112966298B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110719158A (zh) * | 2019-09-11 | 2020-01-21 | 南京航空航天大学 | 基于联合学习的边缘计算隐私保护系统及保护方法 |
CN110572253A (zh) * | 2019-09-16 | 2019-12-13 | 济南大学 | 一种联邦学习训练数据隐私性增强方法及系统 |
CN111091199A (zh) * | 2019-12-20 | 2020-05-01 | 哈尔滨工业大学(深圳) | 一种基于差分隐私的联邦学习方法、装置及存储介质 |
CN111611610A (zh) * | 2020-04-12 | 2020-09-01 | 西安电子科技大学 | 联邦学习信息处理方法、系统、存储介质、程序、终端 |
CN111898137A (zh) * | 2020-06-30 | 2020-11-06 | 深圳致星科技有限公司 | 一种联邦学习的隐私数据处理方法、设备及系统 |
CN112383396A (zh) * | 2021-01-08 | 2021-02-19 | 索信达(北京)数据技术有限公司 | 一种联邦学习模型训练方法及系统 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449318B (zh) * | 2021-06-18 | 2024-03-19 | 北京明朝万达科技股份有限公司 | 一种数据分级模型训练方法、装置、数据分级方法、装置 |
CN113449318A (zh) * | 2021-06-18 | 2021-09-28 | 北京明朝万达科技股份有限公司 | 一种数据分级模型训练方法、装置、数据分级方法、装置 |
CN113469370B (zh) * | 2021-06-22 | 2022-08-30 | 河北工业大学 | 一种基于联邦增量学习的工业物联网数据共享方法 |
CN113469370A (zh) * | 2021-06-22 | 2021-10-01 | 河北工业大学 | 一种基于联邦增量学习的工业物联网数据共享方法 |
CN113626866A (zh) * | 2021-08-12 | 2021-11-09 | 中电积至(海南)信息技术有限公司 | 一种面向联邦学习的本地化差分隐私保护方法、系统、计算机设备及存储介质 |
CN113626866B (zh) * | 2021-08-12 | 2023-10-13 | 积至(海南)信息技术有限公司 | 一种面向联邦学习的本地化差分隐私保护方法、系统、计算机设备及存储介质 |
CN114091651A (zh) * | 2021-11-03 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 多方联合训练图神经网络的方法、装置及系统 |
CN114091651B (zh) * | 2021-11-03 | 2024-05-24 | 支付宝(杭州)信息技术有限公司 | 多方联合训练图神经网络的方法、装置及系统 |
CN113961967B (zh) * | 2021-12-13 | 2022-03-22 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护联合训练自然语言处理模型的方法及装置 |
CN113961967A (zh) * | 2021-12-13 | 2022-01-21 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护联合训练自然语言处理模型的方法及装置 |
CN114595831A (zh) * | 2022-03-01 | 2022-06-07 | 北京交通大学 | 融合自适应权重分配和个性化差分隐私的联邦学习方法 |
CN115348001A (zh) * | 2022-10-18 | 2022-11-15 | 北京融数联智科技有限公司 | 一种基于同态加密的空间距离计算方法及系统 |
CN115348001B (zh) * | 2022-10-18 | 2022-12-27 | 北京融数联智科技有限公司 | 一种基于同态加密的空间距离计算方法及系统 |
CN116168789A (zh) * | 2023-04-26 | 2023-05-26 | 之江实验室 | 一种多中心医疗数据生成系统和方法 |
CN117034287A (zh) * | 2023-08-03 | 2023-11-10 | 国家电网有限公司大数据中心 | 基于隐私计算互联互通技术的多方联合建模安全增强方法 |
CN116805082A (zh) * | 2023-08-23 | 2023-09-26 | 南京大学 | 一种保护客户端隐私数据的拆分学习方法 |
CN116805082B (zh) * | 2023-08-23 | 2023-11-03 | 南京大学 | 一种保护客户端隐私数据的拆分学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112966298B (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966298B (zh) | 一种复合隐私保护方法、系统、计算机设备及存储介质 | |
Liu et al. | Privacy-preserving aggregation in federated learning: A survey | |
Lyu et al. | Towards fair and privacy-preserving federated deep models | |
Jin et al. | FedML-HE: An efficient homomorphic-encryption-based privacy-preserving federated learning system | |
Fang et al. | A privacy-preserving and verifiable federated learning method based on blockchain | |
CN113836556B (zh) | 面向联邦学习的去中心化函数加密隐私保护方法及系统 | |
TW201448550A (zh) | 使用遮罩之隱私保護脊狀回歸 | |
JP2012165374A (ja) | 時系列データのプライバシー保護アグリゲーション | |
CN114254386A (zh) | 基于层次聚合和区块链的联邦学习隐私保护系统及方法 | |
JP7422892B2 (ja) | 分類の正確さを改善するための機械学習モデリングデータの処理 | |
CN115037477A (zh) | 一种基于区块链的联邦学习隐私保护方法 | |
Lyu et al. | Towards fair and decentralized privacy-preserving deep learning with blockchain | |
CN113221105A (zh) | 一种基于部分参数聚合的鲁棒性联邦学习算法 | |
EP4097618B1 (en) | Privacy preserving machine learning for content distribution and analysis | |
WO2021106077A1 (ja) | ニューラルネットワークの更新方法、端末装置、計算装置及びプログラム | |
Wang et al. | Achieve efficient and privacy-preserving disease risk assessment over multi-outsourced vertical datasets | |
KR20210102291A (ko) | 암호화된 네트워크 값 집계 | |
Fotiou et al. | A privacy-preserving statistics marketplace using local differential privacy and blockchain: An application to smart-grid measurements sharing | |
CN116882524A (zh) | 一种满足参与方的个性化隐私保护需求的联邦学习方法和系统 | |
EP3966988B1 (en) | Generating sequences of network data while preventing acquisition or manipulation of time data | |
Wan et al. | Towards privacy-preserving and verifiable federated matrix factorization | |
Xu et al. | Outsourced privacy-aware task allocation with flexible expressions in crowdsourcing | |
Liu et al. | DHSA: efficient doubly homomorphic secure aggregation for cross-silo federated learning | |
Zhao et al. | Local differentially private federated learning with homomorphic encryption | |
Keshavarzkalhori et al. | Federify: a verifiable federated learning scheme based on zksnarks and blockchain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |