CN115587381B - 基于差分隐私的医疗诊断模型联合训练方法及系统 - Google Patents
基于差分隐私的医疗诊断模型联合训练方法及系统 Download PDFInfo
- Publication number
- CN115587381B CN115587381B CN202211588350.5A CN202211588350A CN115587381B CN 115587381 B CN115587381 B CN 115587381B CN 202211588350 A CN202211588350 A CN 202211588350A CN 115587381 B CN115587381 B CN 115587381B
- Authority
- CN
- China
- Prior art keywords
- model
- target model
- updated
- client
- privacy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000003745 diagnosis Methods 0.000 title claims abstract description 53
- 230000007246 mechanism Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 9
- 230000003094 perturbing effect Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 230000003321 amplification Effects 0.000 abstract description 2
- 230000000052 comparative effect Effects 0.000 abstract description 2
- 238000003199 nucleic acid amplification method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 5
- 230000036541 health Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computer Security & Cryptography (AREA)
- Evolutionary Computation (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种基于差分隐私的医疗诊断模型联合训练方法及系统,属于医疗数据隐私保护技术领域。该方法及系统基于目前医疗领域常用的深度神经网络诊断模型,利用联邦学习框架串联多个客户端对医疗诊断模型进行共同训练,避免了客户端数据的直接交换,保护了本地数据的隐私性。同时,在对模型参数进行更新时,通过差分隐私机制对模型更新进行扰动,并且利用混淆放大机制,最大限度降低了隐私扰动对模型性能的影响,保障模型良好性能的同时提供了强有力的隐私保护,使得攻击者无法通过模型的更新反推出本地训练数据。此外,该方法利用对比学习的思想解决了多个数据集非独立同分布的问题。
Description
技术领域
本发明涉及医疗数据隐私保护技术领域,具体涉及一种基于差分隐私的医疗诊断模型联合训练方法及系统。
背景技术
近年来,随着深度神经网络技术的发展,基于深度学习的医疗诊断模型得到了广泛的关注,大大提高了医疗诊断的效率,实现了人工诊断向自动化辅助诊断的转变。区域医疗协作及医疗联合体的建设为综合利用海量的健康数据、共同构建医疗诊断模型提供了可能。但由于涉及病人的隐私,不同的医疗单位通常不能共享医疗数据,从而导致这些数据无法得到有效的利用;而单一的医疗机构拥有的数据不一定能够覆盖所有情况,基于其训练的模型泛化性能无法得到保障。并且,由于深度神经网络本身存在的安全性风险,上述得到的医疗诊断模型容易受到成员推理攻击,即通过模型对某一样本的输出结果可以反推出该样本是否为模型的训练数据,从而可能暴露特定病人的健康信息。
因此,在能够保护数据隐私的情况下,如何利用多个医疗机构的数据共同训练模型成为现有技术中亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于差分隐私的医疗诊断模型联合训练方法及系统,以克服目前隐私泄露的技术问题。
为实现以上目的,本发明采用如下技术方案:
一方面,在目前医疗领域常用的深度神经网络诊断模型的训练方案上,提出一种基于差分隐私的医疗诊断模型联合训练方法,应用于客户端,对数据进行隐私保护,所述方法包括:
响应于参与模型联合训练指令,向服务器发送模型获取请求;
接收所述服务器发送的目标模型和加密秘钥;
根据本地数据对所述目标模型进行训练,得到更新后的训练模型和更新参数明文,并基于差分隐私机制对所述更新参数明文进行扰动,得到扰动后的更新参数明文;
根据所述加密秘钥对所述扰动后的更新参数明文进行加密,得到加密的更新参数;
发送所述加密的更新参数至混淆器,使得混淆器对所述加密的更新参数进行匿名置乱,并将匿名置乱的加密的更新参数发送至所述服务器,以使所述服务器根据所述加密的更新参数来更新所述目标模型,得到更新后的目标模型,以供每个客户端获取。
可选的,所述基于差分隐私机制对所述更新参数明文进行扰动,包括:
基于差分隐私机制,消耗隐私预算对更新参数明文进行扰动。
可选的,所述根据本地数据对所述目标模型进行训练,得到更新后的训练模型和更新参数明文,包括:
在第t轮获取目标模型时,所述目标模型为Mt-1;
修改所述目标模型Mt-1的损失函数为:
;
其中,为第t轮本地目标模型Mi t在样本(x,y)上监督学习的损失,(x,y)分别代表本地数据的样本特征和标签;为第t-1轮目标模型Mt-1、第t-1轮本地目标模型Mt-1 i和第t轮本地目标模型Mi t在样本x上的对比损失,μ为控制对比损失权重的参数;i为客户端编号;
通过训练得到更新后的模型Mi t,计算模型参数,得到更新参数明文Wi t=Mi t-Mi t-1。
又一方面,一种基于差分隐私的医疗诊断模型联合训练方法,应用于混淆器,对数据进行匿名置乱,所述方法包括:
接收所述客户端发送的加密的更新参数;
对所有所述加密的更新参数进行匿名处理,并置乱匿名处理后的加密的更新参数的顺序,得到匿名置乱的加密的更新参数;
将所述匿名置乱的加密的更新参数发送给服务器。
又一方面,一种基于差分隐私的医疗诊断模型联合训练方法,应用于服务器,对数据进行隐私保护,所述方法包括:
响应于模型联合训练指令,确定目标模型以及生成密钥对;所述密钥对包括加密秘钥和解密秘钥;
接收每个客户端发送的模型获取请求,将所述目标模型和加密秘钥发送至所述模型获取请求对应的客户端,以使所述客户端根据本地数据对所述目标模型进行训练,得到更新后的训练模型和更新参数明文,并基于差分隐私机制对所述更新参数明文进行扰动,根据所述加密秘钥对扰动后的更新参数明文进行加密,得到加密后的更新参数;
接收混淆器发送的匿名置乱的加密的更新参数,根据解密秘钥对所述加密的更新参数进行解密,得到扰动后的更新参数明文,根据所述扰动后的更新参数明文更新所述目标模型,得到更新后的目标模型,以供所述客户端在预设时间间隔下获取,并迭代更新所述目标模型;
判断当前目标模型是否满足预设需求,若所述当前目标模型满足预设需求,则确定所述当前目标模型为目标模型最终状态。
可选的,所述判断当前目标模型是否满足预设需求,若满足预设需求,则确定所述当前目标模型为目标模型最终状态,包括:
判断当前目标模型是否收敛,若所述当前目标模型收敛,则确定所述当前目标模型为目标模型最终状态;或,
判断预设置的差分隐私机制扰动中的隐私预算是否消耗完毕,若消耗完毕,则确定所述当前目标模型为目标模型最终状态。
又一方面,一种客户端,包括:第一处理器和第一存储器,所述第一处理器与第一存储器相连:
其中,所述第一处理器,用于调用并执行所述第一存储器中存储的程序;
所述第一存储器,用于存储所述程序,所述程序至少用于执行上述任一项所述的基于差分隐私的医疗诊断模型联合训练方法。
又一方面,一种混淆器,包括:第二处理器和第二存储器,所述第二处理器与第二存储器相连:
其中,所述第二处理器,用于调用并执行所述第二存储器中存储的程序;
所述第二存储器,用于存储所述程序,所述程序至少用于执行上述所述的基于差分隐私的医疗诊断模型联合训练方法。
又一方面,一种服务器,包括:第三处理器和第三存储器,所述第三处理器与第三存储器相连:
其中,所述第三处理器,用于调用并执行所述第三存储器中存储的程序;
所述第三存储器,用于存储所述程序,所述程序至少用于执行上述任一项所述的基于差分隐私的医疗诊断模型联合训练方法。
又一方面,一种基于差分隐私的医疗诊断模型联合训练系统,应用于数据的隐私保护,所述系统包括:上述所述的服务器、上述所述的混淆器和上述所述的客户端;所述客户端的个数为至少2个;
所述混淆器和所述服务器相互独立。
本发明提供技术方案至少包括以下有益效果:
本发明实施例提供的基于差分隐私的医疗诊断模型联合训练方法及系统,利用联邦学习框架串联多个客户端对目标模型进行共同训练,避免了客户端之间数据的直接交换,保护了本地数据的隐私性;同时,在对模型参数进行更新时,通过差分隐私机制对更新参数进行扰动,进一步提升了数据安全性,使得攻击者无法通过模型的更新参数反推出本地训练数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于差分隐私的医疗诊断模型联合训练系统的结构示意图;
图2为本发明实施例提供的一种基于差分隐私的医疗诊断模型联合训练系统的数据交互示意图;
图3为本发明实施例提供的一种应用于客户端的基于差分隐私的医疗诊断模型联合训练方法的流程示意图;
图4为本发明实施例提供的一种应用于服务器的基于差分隐私的医疗诊断模型联合训练方法的流程示意图;
图5为本发明实施例提供的一种客户端的结构示意图;
图6为本发明实施例提供的一种混淆器的结构示意图;
图7为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
近年来,随着深度神经网络技术的发展,基于深度学习的医疗诊断模型得到了广泛的关注,大大提高了医疗诊断的效率,实现了人工诊断向自动化辅助诊断的转变。区域医疗协作及医疗联合体的建设为综合利用海量的健康数据、共同构建医疗诊断模型提供了可能。但由于涉及病人的隐私,不同的医疗单位通常不能共享医疗数据,从而导致这些数据无法得到有效的利用;而单一的医疗机构拥有的数据不一定能够覆盖所有情况,基于其训练的模型泛化性能无法得到保障。并且,由于深度神经网络本身存在的安全性风险,上述得到的医疗诊断模型容易受到成员推理攻击,即通过模型对某一样本的输出结果可以反推出该样本是否为模型的训练数据,从而可能暴露特定病人的健康信息。
因此,在能够保护数据隐私的情况下,如何利用多个医疗机构的数据共同训练模型成为现有技术中亟待解决的技术问题。
基于此,本发明实施例提供了一种基于差分隐私的医疗诊断模型联合训练方法及系统。
图1为本发明实施例提供的一种基于差分隐私的医疗诊断模型联合训练系统的结构示意图,参阅图1,本申请提供的系统,可以包括:服务器1和客户端2;客户端的个数为N,N为大于1的自然数。
其中,多个客户端在服务器的组织下利用本地数据进行模型训练,得到目标模型。
在一些实施例中,参阅图1,为了进一步提升数据的安全性,还可以包括混淆器3。其中,为了保证安全性,可以设置混淆器和服务器相互独立。
混淆器具体用于对所有加密的更新参数进行匿名处理,并置乱匿名处理后的更新参数的顺序,得到匿名置乱后更新参数,使得攻击者无法将消息与其发送者联系起来;服务器用解密秘钥对匿名置乱后的更新参数进行解密。
本申请实施例中,通过客户端、混淆器和服务器之间的交互过程,对本申请的基于差分隐私的医疗诊断模型联合训练方法进行说明。
图2为本发明实施例提供的一种基于差分隐私的医疗诊断模型联合训练系统的数据交互示意图。
客户端可以为医疗单位,要训练的目标模型可以为医疗诊断模型,多个医疗单位参与模型联合训练。
参阅图1、图2,在一个具体的基于差分隐私的模型联合训练过程中,当服务器收到模型联合训练指令后,响应于该指令,确定目标模型(即,初始模型M0),并生成密钥对。其中,密钥对包括加密秘钥pk和解密秘钥sk;初始模型可以为选定的任一神经网络模型。而当客户端响应于参与模型联合训练指令,与服务器建立连接,参与基于差分隐私的模型联合训练。其中,模型联合训练指令可以为开始指令;参与模型联合训练指令可以为参与指令,也可以为开始指令等。
客户端在通过参与模型联合训练指令确定参与模型联合训练后,向服务器发送模型获取请求,从而得到服务器发送的目标模型和加密秘钥pk。根据本地数据对目标模型进行训练,得到更新后的训练模型(即在客户端的更新后的目标模型),计算更新后的训练模型的参数,得到更新参数明文,并基于差分隐私机制,消耗隐私预算对更新参数明文进行扰动,得到扰动的更新参数明文;根据加密秘钥对扰动后的更新参数明文进行加密,得到加密的更新参数;发送所述加密的更新参数至混淆器。
混淆器接收所述客户端发送的加密的更新参数;对所有所述加密的更新参数进行匿名处理,并置乱匿名处理后的加密的更新参数的顺序,得到匿名置乱的加密的更新参数;将所述匿名置乱的加密的更新参数发送给服务器,以使服务器用解密秘钥对更新参数进行解密。
服务器在接收到混淆器发送的匿名置乱的加密的更新参数后,根据解密秘钥sk对加密的更新参数进行解密,得到扰动后的更新参数明文,根据扰动后的更新参数明文更新目标模型,得到更新后的目标模型。每个客户端根据预设时间间隔(即,预设频率)不断获取当前最新的目标模型,从而根据本地数据对最新的目标模型进行训练,并迭代更新当前更新明文参数,以使服务器迭代更新当前目标模型。服务器在每次更新当前目标模型后,判断其是否满足预设需求,当目标模型满足预设需求时,确定当前目标模型为目标模型最终状态,停止各客户端对目标模型的迭代更新。
值得说明的是,服务器判断当前目标模型是否满足预设需求,若当前目标模型满足预设需求,则确定当前目标模型为目标模型最终状态,具体可以通过以下方式进行判断:判断当前目标模型是否收敛,若当前目标模型收敛,则确定当前目标模型为目标模型最终状态;或,判断预设置的隐私预算是否消耗完毕,若隐私预算消耗完毕,则确定当前目标模型为目标模型最终状态。
值得说明的是,客户端根据本地数据对当前目标模型进行训练的具体过程,可以为:
初始目标模型为M0,在第t轮获取目标模型时,目标模型为Mt-1;
修改目标模型Mt-1的损失函数为:
;
其中,为第t轮本地目标模型Mi t在样本(x,y)上监督学习的损失,(x,y)分别代表本地数据的样本特征和标签,样本特征和标签可以由用户设定;
为第t-1轮目标模型Mt-1、第t-1轮本地目标模型Mt-1 i和第t轮本地目标模型Mi t在样本x上的对比损失,通过引入此损失,使得目标模型能够在各客户端数据非独立同分布时也能保持良好的性能,μ为控制对比损失权重的参数,可以由用户进行设定;i为客户端编号;
通过训练得到更新后的模型Mi t,计算模型参数,得到更新参数明文Wi t=Mi t-Mi t-1。然后通过差分隐私随机扰动机制,消耗一定量的隐私预算对参数更新进行扰动以满足差分隐私要求。
值得说明的是,在客户端基于差分隐私机制对更新参数明文进行扰动,得到扰动的更新参数明文时,为了减小加入的扰动,可以具体通过以下方法进行扰动的加入:由于模型更新参数是一个多维向量,为了减小加入的扰动,可以将向量拆分为多个部分,再分别按照拆分后各部分的敏感度分别加入隐私扰动。
服务器在收到混淆器发送更新参数后,利用解密秘钥sk对所有的更新参数进行解密,然后通过求平均数的方式,得到本轮模型(即当前目标模型)的更新参数,并根据该更新参数求得本轮目标模型的最新状态(其中,
η表示学习率)。
可以理解的是,本发明实施例提供的基于差分隐私的医疗模型联合训练系统,通过联邦学习框架串联多个客户端,使得多个客户端各自依据本地数据对目标模型进行共同训练,避免了客户端之间数据的直接交换,保护了本地数据的隐私性;同时,在对模型参数进行更新时,通过差分隐私机制对更新参数进行扰动,进一步提升了数据安全性,使得攻击者无法通过模型的更新参数反推出本地训练数据。
基于一个总的发明构思,本发明实施例提供一种应用于客户端的基于差分隐私的医疗诊断模型联合训练方法。
图3为本发明实施例提供的一种应用于客户端的基于差分隐私的医疗诊断模型联合训练方法的流程示意图,应用于客户端,对数据进行隐私保护;参阅图3,本发明实施例提供的方法可以包括以下步骤:
步骤S31、响应于参与模型联合训练指令,向服务器发送模型获取请求;
步骤S32、接收服务器发送的目标模型和加密秘钥;
步骤S33、根据本地数据对目标模型进行训练,得到更新后的训练模型和更新参数明文,并基于差分隐私机制对更新参数明文进行扰动,得到扰动后的更新参数明文;
步骤S34、根据加密秘钥对扰动后的更新参数明文进行加密,得到加密的更新参数;
步骤S35、发送加密的更新参数至混淆器,使得混淆器对加密的更新参数进行匿名置乱,并将匿名置乱的加密的更新参数发送至服务器,以使服务器根据加密的更新参数来更新目标模型,得到更新后的目标模型,以供每个客户端获取。
可选的,基于差分隐私机制对更新参数明文进行扰动,包括:
基于差分隐私机制,消耗隐私预算对更新参数明文进行扰动。
可选的,根据本地数据对目标模型进行训练,得到更新后的训练模型和更新参数明文,包括:
在第t轮获取目标模型时,目标模型为Mt-1;
修改目标模型Mt-1的损失函数为:
;
其中,为第t轮本地目标模型Mi t在样本(x,y)上监督学习的损失,(x,y)分别代表本地数据的样本特征和标签;为第t-1轮目标模型Mt-1、第t-1轮本地目标模型Mt-1 i和第t轮本地目标模型Mi t在样本x上的对比损失,通过引入此损失,使得目标模型能够在各客户端数据非独立同分布时也能保持良好的性能,μ为控制对比损失权重的参数;i为客户端编号;
通过训练得到更新模型Mi t,计算模型参数,得到更新参数明文Wi t=Mi t-Mi t-1。
关于上述实施例中的应用于客户端的基于差分隐私的医疗诊断模型联合训练方法中各步骤的具体方式,已经在有关该系统的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供的基于差分隐私的医疗诊断模型联合训练方法,通过联邦学习框架串联多个客户端,使得多个客户端各自依据本地数据对目标模型进行共同训练,避免了客户端之间数据的直接交换,保护了本地数据的隐私性;同时,在对模型参数进行更新时,通过差分隐私机制对模型更新参数进行扰动,进一步提升了数据安全性,使得攻击者无法通过模型的更新参数反推出本地训练数据。
基于一个总的发明构思,本发明实施例还提供一种应用于混淆器的基于差分隐私的医疗诊断模型联合训练方法。
本申请提供的应用于混淆器的基于差分隐私的医疗诊断模型联合训练方法,可以包括以下步骤:
接收客户端发送的加密的更新参数;
对所有加密的更新参数进行匿名处理,并置乱匿名处理后的加密的更新参数的顺序,得到匿名置乱的加密的更新参数;
将匿名置乱的加密的更新参数发送给服务器。
关于上述实施例中的应用于混淆器的基于差分隐私的医疗诊断模型联合训练方法中各步骤的具体方式,已经在有关该系统的实施例中进行了详细描述,此处将不做详细阐述说明。
基于一个总的发明构思,本发明实施例提供一种应用于服务器的基于差分隐私的医疗诊断模型联合训练方法。
图4为本发明实施例提供的一种应用于服务器的基于差分隐私的医疗诊断模型联合训练方法的流程示意图,应用于服务器,对数据进行隐私保护;参阅图4,本发明实施例提供的方法可以包括以下步骤:
步骤S41、响应于模型联合训练指令,确定目标模型以及生成密钥对;密钥对包括加密秘钥和解密秘钥;
步骤S42、接收每个客户端发送的模型获取请求,将目标模型和加密秘钥发送至模型获取请求对应的客户端,以使客户端根据本地数据对目标模型进行训练,得到更新后的训练模型和更新参数明文,并基于差分隐私机制对更新参数明文进行扰动,根据加密秘钥对扰动后的更新参数明文进行加密,得到加密后的更新参数;
步骤S43、接收混淆器发送的匿名置乱的加密的更新参数,根据解密秘钥对加密的更新参数进行解密,得到扰动后的更新参数明文,根据扰动后的更新参数明文更新目标模型,得到更新后的目标模型,以供客户端在预设时间间隔下获取,并迭代更新目标模型;
步骤S44、判断当前目标模型是否满足预设需求,若当前目标模型满足预设需求,则确定当前目标模型为目标模型最终状态。
可选的,判断当前目标模型是否满足预设需求,若满足预设需求,则确定当前目标模型为目标模型最终状态,包括:
判断当前目标模型是否收敛,若当前目标模型收敛,则确定当前目标模型为目标模型最终状态;或,
判断预设置的差分隐私机制扰动中的隐私预算是否消耗完毕,若消耗完毕,则确定当前目标模型为目标模型最终状态。
关于上述实施例中的应用于服务器的基于差分隐私的医疗诊断模型联合训练方法中各步骤的具体方式,已经在有关该系统的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供的基于差分隐私的医疗诊断模型联合训练方法,通过联邦学习框架串联多个客户端,使得多个客户端各自依据本地数据对目标模型进行共同训练,避免了客户端之间数据的直接交换,保护了本地数据的隐私性;同时,在对模型参数进行更新时,通过差分隐私机制对更新参数进行扰动,进一步提升了数据安全性,使得攻击者无法通过模型的更新参数反推出本地训练数据。
基于一个总的发明构思,本发明实施例提供一种客户端,用于实现上述应用于客户端的基于差分隐私的模型联合训练方法。
图5为本发明实施例提供的一种客户端的结构示意图,参阅图5,本发明实施例提供的客户端可以包括:第一处理器51和第一存储器52,第一处理器与第一存储器相连:
其中,第一处理器,用于调用并执行第一存储器中存储的程序;
第一存储器,用于存储程序,程序至少用于执行上述任一项的基于差分隐私的医疗诊断模型联合训练方法。
基于一个总的发明构思,本发明实施例提供一种混淆器,用于实现上述应用于混淆器的基于差分隐私的模型联合训练方法。
图6为本发明实施例提供的一种混淆器的结构示意图,参阅图6,本发明实施例提供的混淆器可以包括:第二处理器61和第二存储器62,第二处理器与第二存储器相连:
其中,第二处理器,用于调用并执行第二存储器中存储的程序;
第二存储器,用于存储程序,程序至少用于执行上述任一项的基于差分隐私的医疗诊断模型联合训练方法。
基于一个总的发明构思,本发明实施例提供一种服务器,用于实现上述应用于服务器的基于差分隐私的模型联合训练方法。
图7为本发明实施例提供的一种服务器的结构示意图,参阅图7,本发明实施例提供的服务器可以包括:第三处理器71和第三存储器72,第三处理器与第三存储器相连:
其中,第三处理器,用于调用并执行第三存储器中存储的程序;
第三存储器,用于存储程序,程序至少用于执行上述任一项的基于差分隐私的医疗诊断模型联合训练方法。
基于一个总的发明构思,本发明实施例提供的基于差分隐私的医疗诊断模型联合训练系统,应用于数据的隐私保护,系统包括:上述的服务器、上述混淆器和上述的客户端;客户端的个数为至少2个;
混淆器和服务器相互独立。
关于上述实施例中的系统,其中各个部分执行操作的具体方式已经在有关该系统的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供的基于差分隐私的模型联合训练系统,利用联邦学习框架串联多个客户端对目标模型进行共同训练,避免了客户端之间数据的直接交换,保护了本地数据的隐私性;同时,在对模型参数进行更新时,通过差分隐私机制对更新参数进行扰动,进一步提升了数据安全性,使得攻击者无法通过模型的更新参数反推出本地训练数据。本发明通过利用差分隐私的混淆放大模型,使得每次隐私扰动可以花费更少的隐私预算来实现同等强度的隐私保护,相比于其它差分隐私联邦学习方法,本方法更具有实用性。在面对多个数据源存在的非独立同分布问题时,本发明结合对比学习的思想,通过模型表示之间的相似性来纠正个体的局部训练偏差,有效缓解了模型训练的发散问题。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种基于差分隐私的医疗诊断模型联合训练方法,其特征在于,应用于客户端,对数据进行隐私保护,所述方法包括:
响应于参与模型联合训练指令,向服务器发送模型获取请求;
接收所述服务器发送的目标模型和加密秘钥;
根据本地数据对所述目标模型进行训练,得到更新后的训练模型和更新参数明文,包括:
在第t轮获取目标模型时,所述目标模型为Mt-1;
修改所述目标模型Mt-1的损失函数为:
;
其中,为第t轮本地目标模型Mi t在样本(x,y)上监督学习的损失,(x,y)分别代表本地数据的样本特征和标签;为第t-1轮目标模型Mt-1、第t-1轮本地目标模型Mt-1 i和第t轮本地目标模型Mi t在样本x上的对比损失,μ为控制对比损失权重的参数;i为客户端编号;
通过训练得到更新后的模型Mi t,计算模型参数,得到更新参数明文Wi t=Mi t-Mi t-1;
并基于差分隐私机制对所述更新参数明文进行扰动,得到扰动后的更新参数明文;
根据所述加密秘钥对所述扰动后的更新参数明文进行加密,得到加密的更新参数;
发送所述加密的更新参数至混淆器,使得混淆器对所述加密的更新参数进行匿名置乱,并将匿名置乱的加密的更新参数发送至所述服务器,以使所述服务器根据所述加密的更新参数来更新所述目标模型,得到更新后的目标模型,以供每个客户端获取。
2.根据权利要求1所述的方法,其特征在于,所述基于差分隐私机制对所述更新参数明文进行扰动,包括:
基于差分隐私机制,消耗隐私预算对更新参数明文进行扰动。
3.一种基于差分隐私的医疗诊断模型联合训练方法,其特征在于,应用于混淆器,对数据进行匿名置乱,所述方法包括:
接收客户端发送的加密的更新参数;其中,所述加密的更新参数的获取方法包括:客户端响应于参与模型联合训练指令,向服务器发送模型获取请求;
接收所述服务器发送的目标模型和加密秘钥;在第t轮获取目标模型时,所述目标模型为Mt-1;修改所述目标模型Mt-1的损失函数为:;其中,为第t轮本地目标模型Mi t在样本(x,y)上监督学习的损失,(x,y)分别代表本地数据的样本特征和标签;为第t-1轮目标模型Mt-1、第t-1轮本地目标模型Mt-1 i和第t轮本地目标模型Mi t在样本x上的对比损失,μ为控制对比损失权重的参数;i为客户端编号;
通过训练得到更新后的模型Mi t,计算模型参数,得到更新参数明文Wi t=Mi t-Mi t-1;并基于差分隐私机制对所述更新参数明文进行扰动,得到扰动后的更新参数明文;根据所述加密秘钥对所述扰动后的更新参数明文进行加密,得到加密的更新参数;发送所述加密的更新参数至混淆器;
对所有所述加密的更新参数进行匿名处理,并置乱匿名处理后的加密的更新参数的顺序,得到匿名置乱的加密的更新参数;
将所述匿名置乱的加密的更新参数发送给服务器。
4.一种基于差分隐私的医疗诊断模型联合训练方法,其特征在于,应用于服务器,对数据进行隐私保护,所述方法包括:
响应于模型联合训练指令,确定目标模型以及生成密钥对;所述密钥对包括加密秘钥和解密秘钥;
接收每个客户端发送的模型获取请求,将所述目标模型和加密秘钥发送至所述模型获取请求对应的客户端,以使所述客户端根据本地数据对所述目标模型进行训练,得到更新后的训练模型和更新参数明文,并基于差分隐私机制对所述更新参数明文进行扰动,根据所述加密秘钥对扰动后的更新参数明文进行加密,得到加密后的更新参数;其中,所述客户端根据本地数据对所述目标模型进行训练,得到更新后的训练模型和更新参数明文,具体包括:客户端在第t轮获取目标模型时,所述目标模型为Mt-1;
修改所述目标模型Mt-1的损失函数为:
;
其中,为第t轮本地目标模型Mi t在样本(x,y)上监督学习的损失,(x,y)分别代表本地数据的样本特征和标签;为第t-1轮目标模型Mt-1、第t-1轮本地目标模型Mt-1 i和第t轮本地目标模型Mi t在样本x上的对比损失,μ为控制对比损失权重的参数;i为客户端编号;
通过训练得到更新后的模型Mi t,计算模型参数,得到更新参数明文Wi t=Mi t-Mi t-1;
接收混淆器发送的匿名置乱的加密的更新参数,根据解密秘钥对所述加密的更新参数进行解密,得到扰动后的更新参数明文,根据所述扰动后的更新参数明文更新所述目标模型,得到更新后的目标模型,以供所述客户端在预设时间间隔下获取,并迭代更新所述目标模型;
判断当前目标模型是否满足预设需求,若所述当前目标模型满足预设需求,则确定所述当前目标模型为目标模型最终状态。
5.根据权利要求4所述的方法,其特征在于,所述判断当前目标模型是否满足预设需求,若满足预设需求,则确定所述当前目标模型为目标模型最终状态,包括:
判断当前目标模型是否收敛,若所述当前目标模型收敛,则确定所述当前目标模型为目标模型最终状态;或,
判断预设置的差分隐私机制扰动中的隐私预算是否消耗完毕,若消耗完毕,则确定所述当前目标模型为目标模型最终状态。
6.一种客户端,其特征在于,包括:第一处理器和第一存储器,所述第一处理器与第一存储器相连:
其中,所述第一处理器,用于调用并执行所述第一存储器中存储的程序;
所述第一存储器,用于存储所述程序,所述程序至少用于执行权利要求1-2任一项所述的基于差分隐私的医疗诊断模型联合训练方法。
7.一种混淆器,其特征在于,包括:第二处理器和第二存储器,所述第二处理器与第二存储器相连:
其中,所述第二处理器,用于调用并执行所述第二存储器中存储的程序;
所述第二存储器,用于存储所述程序,所述程序至少用于执行权利要求3所述的基于差分隐私的医疗诊断模型联合训练方法。
8.一种服务器,其特征在于,包括:第三处理器和第三存储器,所述第三处理器与第三存储器相连:
其中,所述第三处理器,用于调用并执行所述第三存储器中存储的程序;
所述第三存储器,用于存储所述程序,所述程序至少用于执行权利要求4-5任一项所述的基于差分隐私的医疗诊断模型联合训练方法。
9.一种基于差分隐私的医疗诊断模型联合训练系统,其特征在于,应用于数据的隐私保护,所述系统包括:权利要求8所述的服务器、权利要求7所述的混淆器和权利要求6所述的客户端;所述客户端的个数为至少2个;
所述混淆器和所述服务器相互独立。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211588350.5A CN115587381B (zh) | 2022-12-12 | 2022-12-12 | 基于差分隐私的医疗诊断模型联合训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211588350.5A CN115587381B (zh) | 2022-12-12 | 2022-12-12 | 基于差分隐私的医疗诊断模型联合训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115587381A CN115587381A (zh) | 2023-01-10 |
CN115587381B true CN115587381B (zh) | 2023-04-07 |
Family
ID=84783469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211588350.5A Active CN115587381B (zh) | 2022-12-12 | 2022-12-12 | 基于差分隐私的医疗诊断模型联合训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115587381B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115987694B (zh) * | 2023-03-20 | 2023-06-27 | 杭州海康威视数字技术股份有限公司 | 基于多域联邦的设备隐私保护方法、系统和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668044A (zh) * | 2020-12-21 | 2021-04-16 | 中国科学院信息工程研究所 | 面向联邦学习的隐私保护方法及装置 |
CN114357526A (zh) * | 2022-03-15 | 2022-04-15 | 中电云数智科技有限公司 | 抵御推断攻击的医疗诊断模型差分隐私联合训练方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN203634414U (zh) * | 2013-12-27 | 2014-06-11 | 四川大学华西医院 | 一种应用于连续性肾脏替代治疗的多功能治疗车 |
US11139961B2 (en) * | 2019-05-07 | 2021-10-05 | International Business Machines Corporation | Private and federated learning |
CN112488322B (zh) * | 2020-12-15 | 2024-02-13 | 杭州电子科技大学 | 一种基于数据特征感知聚合的联邦学习模型训练方法 |
CN113239404B (zh) * | 2021-06-04 | 2022-07-19 | 南开大学 | 一种基于差分隐私和混沌加密的联邦学习方法 |
CN113127931B (zh) * | 2021-06-18 | 2021-09-03 | 国网浙江省电力有限公司信息通信分公司 | 基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法 |
CN115345315A (zh) * | 2022-05-16 | 2022-11-15 | 阿里巴巴(中国)有限公司 | 基于联邦学习的模型训练方法和联邦学习系统 |
CN115329387A (zh) * | 2022-10-17 | 2022-11-11 | 中国科学技术大学 | 基于差分隐私置乱模型的联邦协同蒸馏方法及系统 |
-
2022
- 2022-12-12 CN CN202211588350.5A patent/CN115587381B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668044A (zh) * | 2020-12-21 | 2021-04-16 | 中国科学院信息工程研究所 | 面向联邦学习的隐私保护方法及装置 |
CN114357526A (zh) * | 2022-03-15 | 2022-04-15 | 中电云数智科技有限公司 | 抵御推断攻击的医疗诊断模型差分隐私联合训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115587381A (zh) | 2023-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Privacy-preserving aggregation in federated learning: A survey | |
JP4849541B2 (ja) | 個別情報を秘匿するクロス集計処理方法およびクロス集計装置、並びにプログラム | |
CN113239404B (zh) | 一种基于差分隐私和混沌加密的联邦学习方法 | |
Picazo-Sanchez et al. | Secure publish-subscribe protocols for heterogeneous medical wireless body area networks | |
Guo et al. | A lightweight verifiable outsourced decryption of attribute-based encryption scheme for blockchain-enabled wireless body area network in fog computing | |
CN115587381B (zh) | 基于差分隐私的医疗诊断模型联合训练方法及系统 | |
CN111104968B (zh) | 一种基于区块链的安全svm训练方法 | |
WO2017099117A1 (ja) | 事前計算装置、方法、およびコンピュータ読取可能な記録媒体、並びにベクトル乗算装置、および方法 | |
CN110999200A (zh) | 监测函数的评估 | |
CN112819058B (zh) | 一种具有隐私保护属性的分布式随机森林评估系统与方法 | |
CN113240129A (zh) | 一种面向多类型任务图像分析的联邦学习系统 | |
Zhang et al. | Privacy-enhanced momentum federated learning via differential privacy and chaotic system in industrial cyber–physical systems | |
CN115455476A (zh) | 基于多密钥同态加密的纵向联邦学习隐私保护方法及系统 | |
Yang et al. | Dynamic corrected split federated learning with homomorphic encryption for u-shaped medical image networks | |
JP2024510658A (ja) | マルチソースデータのデータ処理方法、装置、電子機器、及び記憶媒体 | |
Zhou et al. | VDFChain: Secure and verifiable decentralized federated learning via committee-based blockchain | |
CN117077192B (zh) | 一种隐私保护的联邦学习中搭便车攻击防御方法及装置 | |
Gao et al. | Multiparty private set intersection cardinality and its applications | |
Dong et al. | Wide area key distribution network based on a quantum key distribution system | |
Hanchate et al. | Medical Image Encryption Using Hybrid Adaptive Elliptic Curve Cryptography and Logistic Map-based DNA Sequence in IoT Environment | |
Kim et al. | Secure encapsulation schemes using key recovery system in iomt environments | |
Giannopoulos et al. | Privacy preserving medical data analytics using secure multi party computation. an end-to-end use case | |
Lin et al. | Privacy Protection Scheme for Personal Health Record System Using Blockchain Based on Homomorphic Encryption | |
Mancy et al. | Protection of encrypted medical image using consent based access control | |
Yu et al. | Identity-based and leakage-resilient broadcast encryption scheme for cloud storage service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |