CN111243698A - 一种数据安全共享方法、存储介质和计算设备 - Google Patents

一种数据安全共享方法、存储介质和计算设备 Download PDF

Info

Publication number
CN111243698A
CN111243698A CN202010034607.7A CN202010034607A CN111243698A CN 111243698 A CN111243698 A CN 111243698A CN 202010034607 A CN202010034607 A CN 202010034607A CN 111243698 A CN111243698 A CN 111243698A
Authority
CN
China
Prior art keywords
parameter
participating
parameters
server
secret
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010034607.7A
Other languages
English (en)
Inventor
翁健
董彩芹
刘志全
刘家男
杨雅希
成玉丹
赵红霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202010034607.7A priority Critical patent/CN111243698A/zh
Publication of CN111243698A publication Critical patent/CN111243698A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种数据安全共享方法、存储介质和计算设备,方法包括先确定多个用户集合和用户集合中的参与机构的学习目标和训练条件;然后将每个服务器的参数分成当前参数秘密份额并发送给参与机构;参与机构重构当前参数秘密份额和进行协作深度学习训练,将得到的更新的参数分成更新参数秘密份额并发送给服务器;服务器根据更新参数秘密份额验证参数是否合法,是则将更新参数秘密份额加入到服务器当前拥有的参数秘密份额中;当所有参与机构均达到学习目标后,再将每个服务器的最新参数分成最新参数秘密份额,然后发送给参与机构,以此完成数据安全共享。本发明能够在保护隐私的同时保证参数安全,实现不同参与机构之间的数据安全共享。

Description

一种数据安全共享方法、存储介质和计算设备
技术领域
本发明涉及隐私保护数据共享技术领域,特别涉及一种数据安全共享方法、存储介质和计算设备。
背景技术
随着人工智能技术的不断成熟,越来越多领域开始应用人工智能技术。例如,20世纪70年代,国外就曾开始出现利用人工智能应用在医疗领域的尝试。我国在人工智能+医疗领域也不断地进行各种尝试,例如百度医疗大脑,阿里健康医疗AI系统等具体应用都不断为智能医疗的发展提供解决方案。人工智能在医疗领域的应用场景非常广泛,人工智能医学影像方向是人工智能在医疗领域的主要应用之一。人工智能通过提取大量医疗影像中的特征,从而对疾病状况做出诊断。由于健康医疗数据涉及个人数据隐私,如身体健康状况、家族遗传信息等等暴露个人身份的隐私信息,因此,健康医疗数据的隐私需要受到严重重视及保护。一般在人工智能中使用医疗数据时,都会对数据进行去标识化,也就是使数据无法识别到特定个人的处理。另一方面,健康医疗数据的开放程度有限,包括医院与医院之间的流通限制、境内与境外的流通限制等,限制了医疗数据的共享。尽管人工智能在医疗领域各方面取得了令人瞩目的成就,但是不可否认,人工智能在医疗领域长久可靠的发展应用还需要突破隐私问题、数据共享等壁垒。因此,在将人工智能应用在医疗影像领域时,实现数据隐私保护和共享是关键性问题。
在现有的数据共享技术中,协作学习(federated learning)是谷歌公司提出的一种分布式的人工智能框架,参与机构之间不需要将数据共享出来的同时共同训练一个深度学习模型,既能够个人数据的隐私性,又能够实现了不同参与机构之间的数据共享。但是它们没有考虑到协作学习过程中共享的参数也可能泄露本地数据隐私,如Hitaj等人[Hitaj,B.,Ateniese,G.,&Perez-Cruz,F.(2017,October).Deep models under the GAN:information leakage from collaborative deep learning.In Proceedings of the2017 ACM SIGSAC Conference on Computer and Communications Security(pp.603-618).ACM.]提出的使用生成对抗学习方法针对协作学习过程中其他参与机构的数据实现推理攻击。另外,他们没有考虑参与机构作恶的情况。数据提供者可能会提供带有恶意后门的学习模型参数,如Bagdasaryan等人[Bagdasaryan,E.,Veit,A.,Hua,Y.,Estrin,D.,&Shmatikov,V.(2018).How to backdoor federated learning.arXiv preprint arXiv:1807.00459.]提出的使用带有后门的参数实现对协作学习的攻击。因此,有必要研究出能克服如上缺陷的新的数据安全共享技术。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种数据安全共享方法,该方法能够在保护隐私的同时保证参数安全,实现不同参与机构之间的数据安全共享。
本发明的第二目的在于提供一种存储介质。
本发明的第三目的在于提供一种计算设备。
本发明的第一目的通过下述技术方案实现:一种数据安全共享方法,包括如下步骤:
S1、确定多个用户集合Ω,每个用户集合中包含有与3个服务器通信的多个参与机构;
确定参与机构的学习目标和进行协作深度学习训练的训练条件;
S2、对于每个服务器,将自身拥有的参数秘密份额发送给用户集合中的各个参与机构;
S3、在每个参与机构中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,然后将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器;
S4、对于每个服务器,当接收到一个参与机构上传的更新参数秘密份额之后,基于该更新参数秘密份额,隐私地验证参数的合法性,若参数合法,则将该合法的更新参数秘密份额加入到服务器当前拥有的参数秘密份额中,对参数进行更新;若参数违法,则将参数从用户集合Ω中删除;
S5、重复步骤S2~S4,直至所有参与机构均达到学习目标,协作深度学习训练结束;
将每个服务器的最新参数分成多份最新参数秘密份额,然后再分别发送给各个参与机构,以此完成数据安全共享。
优选的,参与机构拥有本地数据集和可供本地协作深度学习训练的服务器环境,本地数据集中具有携带分类标签的本地数据;
参与机构进行协作深度学习训练的训练条件是指协作深度学习训练所使用的学习模型和达到学习目标所需输入本地数据的数据格式,不同的参与机构所拥有的本地数据格式相同;
当参与机构为医疗机构,本地数据为医疗图像数据,每个医疗图像携带有对应的疾病分类标签,学习目标为训练一个对疾病进行分类的模型。
更进一步的,步骤S3中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,具体如下:
在准备参与机构PPi的第t轮本地训练时,通过重构计算公式对3个服务器的参数秘密份额进行秘密重构,重构计算公式具体如下:
Figure BDA0002365567440000031
其中,i是参与机构序号;
Figure BDA0002365567440000032
为在第t-1轮本地训练中第1个服务器发送给参与机构PPi的参数秘密份额,
Figure BDA0002365567440000033
为在第t-1轮本地训练中第2个服务器发送给参与机构PPi的参数秘密份额,
Figure BDA0002365567440000034
为在第t-1轮本地训练中第3个服务器发送给参与机构PPi的参数秘密份额;
Figure BDA0002365567440000035
为重构得到的参数,也即第t-1轮本地训练得到的全局参数;
将重构得到的参数
Figure BDA0002365567440000036
作为本地训练的学习模型参数,通过学习模型和参与机构的本地数据进行深度学习训练,得到更新的参数ΔWi t+1
优选的,在步骤S3中,在第t轮本地训练结束后,参与机构PPi将更新的参数ΔWi t+1通过秘密分享方案拆分成3份更新参数秘密份额([ΔWi t+1]1,[ΔWi t+1]2,[ΔWi t+1]3),并分别对应发送给3个服务器,秘密分享方案具体如下:
Figure BDA0002365567440000041
优选的,在步骤S4中,使用安全三方计算协议在保护隐私情况下计算验证参数的合法性;
验证参数合法性的规则具体为:检测参与机构提供的参数是否为没有贡献的任意随机数或者带有后门的恶意参数,参数为没有贡献的任意随机数或者带有后门的恶意参数即违反参数的合法性规则。
更进一步的,参数合法性的验证方法包括如下几种:
(1)余弦相似性:计算参与机构PPi在第t轮本地训练上传的更新参数ΔWi t+1与第t-1轮本地训练得到的全局参数
Figure BDA0002365567440000042
之间的余弦相似性csi,根据余弦相似性判断更新参数ΔWi t+1与全局参数
Figure BDA0002365567440000043
之间的偏差,当偏差过大,则判断该更新参数为无用的随机值;
余弦相似性计算公式具体如下:
Figure BDA0002365567440000044
Figure BDA0002365567440000045
其中,i为参与机构序号;j为计数索引;p为参数向量的维数;
(2)欧式距离:计算参与机构PPi在第t轮本地训练上传的更新参数ΔWi t+1与第t-1轮本地训练得到的全局参数
Figure BDA0002365567440000046
之间的欧式距离,当欧式距离过大,则判定该更新参数为无用的随机值;
欧式距离计算公式具体如下:
Figure BDA0002365567440000051
(3)错误率:将参与机构PPi的更新参数秘密份额和服务器存储的验证数据集共同执行隐私保护的深度学习预测算法,在隐私保护的情况下计算出参与机构PPi的预测结果,并判断预测结果与参与机构的本地数据携带的分类标签是否相同;
根据判断结果计算得到一个使用该更新参数的预测错误率,将预测错误率重构并公开,当预测错误率
Figure BDA0002365567440000052
超过阈值时,则判定该参与机构PPi的更新参数秘密份额是恶意的;
(4)对比错误率:将预测错误率
Figure BDA0002365567440000053
与使用第t-1轮本地训练得到的全局参数
Figure BDA0002365567440000054
得到的预测错误率
Figure BDA0002365567440000055
进行大小比较并计算出两者的差值,当差值超过阈值时,则判定该参与机构PPi的更新参数秘密份额是恶意的。
优选的,步骤S4中,对参数进行更新,具体为:
(1)在服务器Pm中,当接收到超过K个参与机构上传的合法的更新参数秘密份额后,利用更新公式将更新参数秘密份额聚合到全局参数
Figure BDA0002365567440000056
上,以完成全局参数的更新,更新公式具体如下:
Figure BDA0002365567440000057
其中,m是服务器的序号,1≤m≤3;PPi是参与机构,i是参与机构序号;ΔWi t+1是参与机构PPi在第t轮本地训练上传的更新参数秘密份额;
(2)参数聚合完成后,服务器Pm具有一个新的更新参数秘密份额,也即是全局参数
Figure BDA0002365567440000058
并且更新参数秘密份额满足重构计算公式:
Figure BDA0002365567440000059
其中,
Figure BDA00023655674400000510
为重构得到的参数,也即第t轮本地训练最终得到的全局参数
Figure BDA00023655674400000511
然后将服务器Pm的更新参数秘密份额发送给用户集合Ω中的参与机构。
优选的,在步骤S5中,当最新模型参数秘密份额分别发送给各个参与机构之后,在参与机构中,在本地将接收到的所有模型参数秘密份额进行重构,得到最终的优化模型参数Wglobal,重构计算公式如下:
Figure BDA0002365567440000061
其中,[Wglobal]1为第1个服务器发送给参与机构PPi的最新参数秘密份额,[Wglobal]2为第2个服务器发送给参与机构PPi的最新参数秘密份额,[Wglobal]3为第3个服务器发送给参与机构PPi的最新参数秘密份额。
本发明的第二目的通过下述技术方案实现:一种存储介质,存储有程序,所述程序被处理器执行时,实现本发明第一目的所述的数据安全共享方法。
本发明的第三目的通过下述技术方案实现:一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现本发明第一目的所述的数据安全共享方法。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明数据安全共享方法,包括先确定多个用户集合和用户集合中的参与机构的学习目标和训练条件;然后将每个服务器的参数分成当前参数秘密份额并发送给参与机构;参与机构重构当前参数秘密份额和进行协作深度学习训练,将得到的更新的参数分成更新参数秘密份额并发送给服务器;服务器根据更新参数秘密份额验证参数是否合法,是则将更新参数秘密份额加入到服务器当前拥有的参数秘密份额中;当所有参与机构均达到学习目标后,再将每个服务器的最新参数分成最新参数秘密份额,然后发送给参与机构,以此完成数据安全共享。本发明能够在保护隐私的同时保证参数安全,实现不同参与机构之间的数据安全共享。本发明的整个数据共享过程,参与机构的数据都在本地,无需将本地数据直接共享给其他机构,因此能够保护参与机构的数据隐私,同时通过验证参数的合法性来保证所用参数的安全,实现了不同参与机构之间的数据安全共享,同时也有利于促进人工智能在生物医疗数据应用领域的发展。
(2)本发明数据安全共享方法中,医疗机构可作为参与机构,医疗图像数据作为本地数据,通过本发明方法进行医疗数据共享,有利于对疾病的研究。
(3)本发明数据安全共享方法中,使用安全三方计算协议验证参数的合法性,整个过程中其他参与机构无法获取该参与机构上传到服务器的参数明文,防御了其他参与机构根据模型参数推测该参与机构的本地生物医疗数据的攻击行为。并且,在计算过程中如果存在恶意服务器作恶,使用不正确的数据进行计算,那么其他可信服务器就能够发现并终止协议,协议运行只要最终有输出结果,这个结果一定是正确的,因此能够保证服务器进行的是合法性验证以及聚合计算结果的正确性。
(3)本发明数据安全共享方法可通过余弦相似性、欧式距离、错误率和对比错误率这多种方法验证参数的合法性,能够减小没有贡献的任意随机数和带有后门的恶意参数这两种恶意行为对最终的模型参数的影响,在隐私保护的情况下尽可能地保证了参数的安全性。
附图说明
图1是本发明数据安全共享方法的示意图。
图2是本发明数据安全共享方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例公开了一种数据安全共享方法,如图1和图2所示,包括如下步骤:
S1、确定多个用户集合Ω,每个用户集合中包含有与3个服务器通信的多个参与机构。
确定参与机构的学习目标和进行协作深度学习训练的训练条件。
其中,参与机构拥有本地数据集和可供本地协作深度学习训练的服务器环境,该本地数据集中具有携带分类标签的本地数据,参与机构在深度学习训练可以得到参数,并且在本地协作深度学习训练的过程中可上传不合法的模型参数。在本实施例中,参与机构为医疗机构,本地数据为医疗图像数据,每个医疗图像携带有对应的疾病分类标签。参与机构的学习目标为训练一个对疾病进行分类的模型。
参与机构进行协作深度学习训练的训练条件是指协作深度学习训练所使用的学习模型和达到学习目标所需输入本地数据的数据格式,学习模型例如可以选择卷积神经网络,数据格式例如为适合网络的图像尺寸和像素,不同的参与机构所拥有的本地数据格式相同。
服务器可为参与机构提供协作深度学习过程中的参数合法性验证、参数更新和参与机构集合控制,每个服务器具有一个用于验证参数是否合法的验证数据集。3个服务器之间不互相合谋,合谋是指三个服务器把自己拥有的那部分数据公开给其他服务器,使得服务器都能够获取到原始秘密数据,这容易导致隐私泄露。在3个服务器中最多只有一个服务器是恶意的,恶意是指违反参数合法性的规则进行参数更新。
S2、对于每个服务器,将自身拥有的参数秘密份额发送给用户集合中的各个参与机构;
S3、在每个参与机构中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,然后将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器。
其中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,具体如下:
(1)在准备参与机构PPi的第t轮本地训练时,通过重构计算公式对3个服务器的参数秘密份额进行秘密重构,重构计算公式具体如下:
Figure BDA0002365567440000081
在上述计算公式中,i是参与机构序号;
Figure BDA0002365567440000082
为在第t-1轮本地训练中第1个服务器发送给参与机构PPi的参数秘密份额,
Figure BDA0002365567440000083
为在第t-1轮本地训练中第2个服务器发送给参与机构PPi的参数秘密份额,
Figure BDA0002365567440000084
为在第t-1轮本地训练中第3个服务器发送给参与机构PPi的参数秘密份额;
Figure BDA0002365567440000085
为重构得到的参数,也即第t-1轮本地训练得到的全局参数。
(2)将重构得到的参数
Figure BDA0002365567440000086
作为本地训练的学习模型参数,通过学习模型和参与机构的本地数据进行深度学习训练,得到更新的参数Wi t+1
将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器,具体是:
在第t轮本地训练结束后,参与机构PPi将更新的参数ΔWi t+1通过秘密分享方案拆分成3份更新参数秘密份额([ΔWi t+1]1,[ΔWi t+1]2,[ΔWi t+1]3),并分别对应发送给3个服务器,秘密分享方案具体如下:
Figure BDA0002365567440000091
S4、对于每个服务器,当接收到一个参与机构上传的更新参数秘密份额之后,基于该更新参数秘密份额计算恢复得到参数,从而隐私地验证参数的合法性,若参数合法,则将该合法的更新参数秘密份额加入到服务器当前拥有的参数秘密份额中,对参数进行更新;若参数违法,则将参数从用户集合Ω中删除。
本实施例使用了安全三方计算协议在保护隐私情况下计算验证参数的合法性,其中,验证参数合法性的规则具体为:检测参与机构提供的参数是否为没有贡献的任意随机数或者带有后门的恶意参数,参数为没有贡献的任意随机数或者带有后门的恶意参数即违反参数的合法性规则。
后门是指绕过安全控制而获取对程序或者系统访问权的方法,带有后门的恶意参数会导致学习模型在对本地数据进行分类时将带有后门的样本分类到错误的分类标签中。没有贡献的任意随机数或者带有后门的恶意参数这两种恶意行为都会对最终的模型参数产生影响。
在整个验证过程中,其他参与机构无法获取该参与机构上传到服务器的参数明文,因此能够防御其他参与机构根据模型参数推测该参与机构的本地生物医疗数据的攻击行为。并且,在计算过程中如果存在恶意服务器作恶,使用不正确的数据进行计算,其他可信服务器能够发现并终止协议,因此,协议运行只要最终有输出结果,这个结果一定是正确的。
参数合法性的验证方法包括如下几种:
(1)余弦相似性:计算参与机构PPi在第t轮本地训练上传的更新参数ΔWi t+1与第t-1轮本地训练得到的全局参数
Figure BDA0002365567440000092
之间的余弦相似性csi,即是测量这两个高维参数向量的夹角的余弦值,以此度量它们之间的相似性,然后根据余弦相似性衡量更新参数之间的角度距离,来判断更新参数ΔWi t+1与全局参数
Figure BDA0002365567440000093
之间的偏差,,当偏差过大,也即是角度距离大于预设的阈值,,则判断该更新参数为无用的随机值;余弦相似性计算公式具体如下:
Figure BDA0002365567440000101
Figure BDA0002365567440000102
其中,j为计数索引;p为参数向量的维数。
(2)欧式距离:计算参与机构PPi在第t轮本地训练上传的更新参数ΔWi t+1与第t-1轮本地训练得到的全局参数
Figure BDA0002365567440000103
之间的欧式距离
Figure BDA0002365567440000104
当欧式距离过大,则判定该更新参数为无用的随机值;
欧式距离计算公式具体如下:
Figure BDA0002365567440000105
(3)错误率:将参与机构PPi的更新参数秘密份额和服务器存储的验证数据集共同执行隐私保护的深度学习预测算法,在隐私保护的情况下计算出参与机构PPi的预测结果,并判断预测结果与参与机构的本地数据携带的分类标签是否相同;深度学习预测算法具体是指根据已有训练好的参数,再用一次深度学习训练用的算法计算出一个分类结果。
根据判断结果计算得到一个使用该更新参数的预测错误率,将预测错误率重构并公开,重构可以把秘密数据恢复出来,公开即是把预测错误率公开明文,当预测错误率
Figure BDA0002365567440000106
超过阈值时,则判定该参与机构PPi的更新参数秘密份额是恶意的。
(4)对比错误率:将预测错误率
Figure BDA0002365567440000107
与使用第t-1轮本地训练得到的全局参数
Figure BDA0002365567440000108
得到的预测错误率
Figure BDA0002365567440000109
进行大小比较并计算出两者的差值,当差值超过阈值时,则判定该参与机构PPi的更新参数秘密份额是恶意的。
对参数进行更新,即是在每一轮协作深度学习训练过程中,都要把服务器里聚合更新后的参数秘密份额发送给参与机构,具体如下:
(1)在服务器Pm中,当接收到超过K个参与机构上传的合法的更新参数秘密份额后,利用更新公式将更新参数秘密份额聚合到全局参数
Figure BDA0002365567440000111
上,以完成全局参数的更新,更新公式具体如下:
Figure BDA0002365567440000112
其中,m是服务器的序号,1≤m≤3;[ΔWi t+1]m是参与机构PPi在第t轮本地训练上传的更新参数秘密份额;
(2)参数聚合完成后,服务器Pm具有一个新的更新参数秘密份额,也即是全局参数
Figure BDA0002365567440000113
并且更新参数秘密份额满足重构计算公式:
Figure BDA0002365567440000114
其中,
Figure BDA0002365567440000115
为重构得到的参数,也即第t轮本地训练最终得到的全局参数
Figure BDA0002365567440000116
然后将服务器Pm的更新参数秘密份额发送给用户集合Ω中的参与机构。
S5、重复步骤S2~S4,直至所有参与机构均达到学习目标,协作深度学习训练结束。
将每个服务器的最新参数分成多份最新参数秘密份额,然后再分别发送给各个参与机构,以此完成数据安全共享。
其中,当最新模型参数秘密份额分别发送给各个参与机构之后,在参与机构中,将接收到的所有模型参数秘密份额进行重构,得到最终的优化模型参数Wglobal,重构计算公式如下:
Figure BDA0002365567440000117
其中,[Wglobal]1为第1个服务器发送给参与机构PPi的最新参数秘密份额,[Wglobal]2为第2个服务器发送给参与机构PPi的最新参数秘密份额,[Wglobal]3为第3个服务器发送给参与机构PPi的最新参数秘密份额。
实施例2
本实施例公开了一种存储介质,存储有程序,所述程序被处理器执行时,实现实施例1所述的数据安全共享方法,具体如下:
S1、确定多个用户集合Ω,每个用户集合中包含有与3个服务器通信的多个参与机构;
确定参与机构的学习目标和进行协作深度学习训练的训练条件;
S2、对于每个服务器,将自身拥有的参数秘密份额发送给用户集合中的各个参与机构;
S3、在每个参与机构中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,然后将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器;
S4、对于每个服务器,当接收到一个参与机构上传的更新参数秘密份额之后,基于该更新参数秘密份额,隐私地验证参数的合法性,若参数合法,则将该合法的更新参数秘密份额加入到服务器当前拥有的参数秘密份额中,对参数进行更新;若参数违法,则将参数从用户集合Ω中删除;
S5、重复步骤S2~S4,直至所有参与机构均达到学习目标,协作深度学习训练结束;
将每个服务器的最新参数分成多份最新参数秘密份额,然后再分别发送给各个参与机构,以此完成数据安全共享。
本实施例中的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
实施例3
本实施例公开了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例1所述的数据安全共享方法,具体如下:
S1、确定多个用户集合Ω,每个用户集合中包含有与3个服务器通信的多个参与机构;
确定参与机构的学习目标和进行协作深度学习训练的训练条件;
S2、对于每个服务器,将自身拥有的参数秘密份额发送给用户集合中的各个参与机构;
S3、在每个参与机构中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,然后将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器;
S4、对于每个服务器,当接收到一个参与机构上传的更新参数秘密份额之后,基于该更新参数秘密份额,隐私地验证参数的合法性,若参数合法,则将该合法的更新参数秘密份额加入到服务器当前拥有的参数秘密份额中,对参数进行更新;若参数违法,则将参数从用户集合Ω中删除;
S5、重复步骤S2~S4,直至所有参与机构均达到学习目标,协作深度学习训练结束;
将每个服务器的最新参数分成多份最新参数秘密份额,然后再分别发送给各个参与机构,以此完成数据安全共享。
本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有处理器功能的终端设备。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种数据安全共享方法,其特征在于,包括如下步骤:
S1、确定多个用户集合Ω,每个用户集合中包含有与3个服务器通信的多个参与机构;
确定参与机构的学习目标和进行协作深度学习训练的训练条件;
S2、对于每个服务器,将自身拥有的参数秘密份额发送给用户集合中的各个参与机构;
S3、在每个参与机构中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,然后将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器;
S4、对于每个服务器,当接收到一个参与机构上传的更新参数秘密份额之后,基于该更新参数秘密份额,隐私地验证参数的合法性,若参数合法,则将该合法的更新参数秘密份额加入到服务器当前拥有的参数秘密份额中,对参数进行更新;若参数违法,则将参数从用户集合Ω中删除;
S5、重复步骤S2~S4,直至所有参与机构均达到学习目标,协作深度学习训练结束;
将每个服务器的最新参数分成多份最新参数秘密份额,然后再分别发送给各个参与机构,以此完成数据安全共享。
2.根据权利要求1所述的数据安全共享方法,其特征在于,参与机构拥有本地数据集和可供本地协作深度学习训练的服务器环境,本地数据集中具有携带分类标签的本地数据;
参与机构进行协作深度学习训练的训练条件是指协作深度学习训练所使用的学习模型和达到学习目标所需输入本地数据的数据格式,不同的参与机构所拥有的本地数据格式相同;
当参与机构为医疗机构,本地数据为医疗图像数据,每个医疗图像携带有对应的疾病分类标签,学习目标为训练一个对疾病进行分类的模型。
3.根据权利要求2所述的数据安全共享方法,其特征在于,在步骤S3中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,具体如下:
在准备参与机构PPi的第t轮本地训练时,通过重构计算公式对3个服务器的参数秘密份额进行秘密重构,重构计算公式具体如下:
Figure FDA0002365567430000021
其中,i是参与机构序号;
Figure FDA0002365567430000022
为在第t-1轮本地训练中第1个服务器发送给参与机构PPi的参数秘密份额,
Figure FDA0002365567430000023
为在第t-1轮本地训练中第2个服务器发送给参与机构PPi的参数秘密份额,
Figure FDA0002365567430000024
为在第t-1轮本地训练中第3个服务器发送给参与机构PPi的参数秘密份额;
Figure FDA0002365567430000025
为重构得到的参数,也即第t-1轮本地训练得到的全局参数;
将重构得到的参数
Figure FDA0002365567430000026
作为本地训练的学习模型参数,通过学习模型和参与机构的本地数据进行深度学习训练,得到更新的参数ΔWi t+1
4.根据权利要求1所述的数据安全共享方法,其特征在于,在步骤S3中,在第t轮本地训练结束后,参与机构PPi将更新的参数ΔWi t+1通过秘密分享方案拆分成3份更新参数秘密份额([ΔWi t+1]1,[ΔWi t+1]2,[ΔWi t+1]3),并分别对应发送给3个服务器,秘密分享方案具体如下:
Figure FDA0002365567430000027
5.根据权利要求1所述的数据安全共享方法,其特征在于,在步骤S4中,使用安全三方计算协议在保护隐私情况下计算验证参数的合法性;
验证参数合法性的规则具体为:检测参与机构提供的参数是否为没有贡献的任意随机数或者带有后门的恶意参数,参数为没有贡献的任意随机数或者带有后门的恶意参数即违反参数的合法性规则。
6.根据权利要求5所述的数据安全共享方法,其特征在于,参数合法性的验证方法包括如下几种:
(1)余弦相似性:计算参与机构PPi在第t轮本地训练上传的更新参数ΔWi t+1与第t-1轮本地训练得到的全局参数
Figure FDA0002365567430000028
之间的余弦相似性csi,根据余弦相似性判断更新参数ΔWi t+1与全局参数
Figure FDA0002365567430000029
之间的偏差,当偏差过大,则判断该更新参数为无用的随机值;
余弦相似性计算公式具体如下:
Figure FDA0002365567430000031
Figure FDA0002365567430000032
其中,i为参与机构序号;j为计数索引;p为参数向量的维数;
(2)欧式距离:计算参与机构PPi在第t轮本地训练上传的更新参数ΔWi t+1与第t-1轮本地训练得到的全局参数
Figure FDA0002365567430000033
之间的欧式距离,当欧式距离过大,则判定该更新参数为无用的随机值;
欧式距离计算公式具体如下:
Figure FDA0002365567430000034
(3)错误率:将参与机构PPi的更新参数秘密份额和服务器存储的验证数据集共同执行隐私保护的深度学习预测算法,在隐私保护的情况下计算出参与机构PPi的预测结果,并判断预测结果与参与机构的本地数据携带的分类标签是否相同;
根据判断结果计算得到一个使用该更新参数的预测错误率,将预测错误率重构并公开,当预测错误率
Figure FDA0002365567430000035
超过阈值时,则判定该参与机构PPi的更新参数秘密份额是恶意的;
(4)对比错误率:将预测错误率
Figure FDA0002365567430000036
与使用第t-1轮本地训练得到的全局参数
Figure FDA0002365567430000037
得到的预测错误率
Figure FDA0002365567430000038
进行大小比较并计算出两者的差值,当差值超过阈值时,则判定该参与机构PPi的更新参数秘密份额是恶意的。
7.根据权利要求1所述的数据安全共享方法,其特征在于,步骤S4中,对参数进行更新,具体为:
(1)在服务器Pm中,当接收到超过K个参与机构上传的合法的更新参数秘密份额后,利用更新公式将更新参数秘密份额聚合到全局参数
Figure FDA0002365567430000041
上,以完成全局参数的更新,更新公式具体如下:
Figure FDA0002365567430000042
其中,m是服务器的序号,1≤m≤3;PPi是参与机构,i是参与机构序号;ΔWi t+1是参与机构PPi在第t轮本地训练上传的更新参数秘密份额;
(2)参数聚合完成后,服务器Pm具有一个新的更新参数秘密份额,也即是全局参数
Figure FDA0002365567430000043
并且更新参数秘密份额满足重构计算公式:
Figure FDA0002365567430000044
其中,
Figure FDA0002365567430000045
为重构得到的参数,也即第t轮本地训练最终得到的全局参数
Figure FDA0002365567430000046
然后将服务器Pm的更新参数秘密份额发送给用户集合Ω中的参与机构。
8.根据权利要求1所述的数据安全共享方法,其特征在于,在步骤S5中,当最新模型参数秘密份额分别发送给各个参与机构之后,在参与机构中,在本地将接收到的所有模型参数秘密份额进行重构,得到最终的优化模型参数Wglobal,重构计算公式如下:
Figure FDA0002365567430000047
其中,[Wglobal]1为第1个服务器发送给参与机构PPi的最新参数秘密份额,[Wglobal]2为第2个服务器发送给参与机构PPi的最新参数秘密份额,[Wglobal]3为第3个服务器发送给参与机构PPi的最新参数秘密份额。
9.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1至8中任一项所述的数据安全共享方法。
10.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1至8中任一项所述的数据安全共享方法。
CN202010034607.7A 2020-01-14 2020-01-14 一种数据安全共享方法、存储介质和计算设备 Pending CN111243698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010034607.7A CN111243698A (zh) 2020-01-14 2020-01-14 一种数据安全共享方法、存储介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010034607.7A CN111243698A (zh) 2020-01-14 2020-01-14 一种数据安全共享方法、存储介质和计算设备

Publications (1)

Publication Number Publication Date
CN111243698A true CN111243698A (zh) 2020-06-05

Family

ID=70866221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010034607.7A Pending CN111243698A (zh) 2020-01-14 2020-01-14 一种数据安全共享方法、存储介质和计算设备

Country Status (1)

Country Link
CN (1) CN111243698A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148755A (zh) * 2020-09-07 2020-12-29 支付宝(杭州)信息技术有限公司 基于秘密共享的隐私数据访问方法、装置、设备及系统
CN113139534A (zh) * 2021-05-06 2021-07-20 上海交通大学 两阶段安全多方计算的图片文本定位识别方法
WO2022068204A1 (en) * 2020-09-30 2022-04-07 Huawei Technologies Co., Ltd. System, method and apparatus for privacy preserving inference
WO2022095523A1 (zh) * 2020-11-03 2022-05-12 华为技术有限公司 机器学习模型管理方法、装置和系统
CN114494803A (zh) * 2022-04-18 2022-05-13 山东师范大学 基于安全计算的图像数据标注方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977694A (zh) * 2019-03-11 2019-07-05 暨南大学 一种基于协作深度学习的数据共享方法
US20190227980A1 (en) * 2018-01-22 2019-07-25 Google Llc Training User-Level Differentially Private Machine-Learned Models
US20190268150A1 (en) * 2018-02-28 2019-08-29 Vmware, Inc. Methods and systems that efficiently and securely store data
CN110197285A (zh) * 2019-05-07 2019-09-03 清华大学 基于区块链的安全协作深度学习方法及装置
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110460600A (zh) * 2019-08-13 2019-11-15 南京理工大学 可抵御生成对抗网络攻击的联合深度学习方法
WO2019246206A1 (en) * 2018-06-20 2019-12-26 Iot And M2M Technologies, Llc An ecdhe key exchange for server authentication and a key server

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190227980A1 (en) * 2018-01-22 2019-07-25 Google Llc Training User-Level Differentially Private Machine-Learned Models
US20190268150A1 (en) * 2018-02-28 2019-08-29 Vmware, Inc. Methods and systems that efficiently and securely store data
WO2019246206A1 (en) * 2018-06-20 2019-12-26 Iot And M2M Technologies, Llc An ecdhe key exchange for server authentication and a key server
CN109977694A (zh) * 2019-03-11 2019-07-05 暨南大学 一种基于协作深度学习的数据共享方法
CN110197285A (zh) * 2019-05-07 2019-09-03 清华大学 基于区块链的安全协作深度学习方法及装置
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110460600A (zh) * 2019-08-13 2019-11-15 南京理工大学 可抵御生成对抗网络攻击的联合深度学习方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148755A (zh) * 2020-09-07 2020-12-29 支付宝(杭州)信息技术有限公司 基于秘密共享的隐私数据访问方法、装置、设备及系统
CN112148755B (zh) * 2020-09-07 2024-10-18 支付宝(杭州)信息技术有限公司 基于秘密共享的隐私数据访问方法、装置、设备及系统
WO2022068204A1 (en) * 2020-09-30 2022-04-07 Huawei Technologies Co., Ltd. System, method and apparatus for privacy preserving inference
US11451375B2 (en) 2020-09-30 2022-09-20 Huawei Technologies Co., Ltd. System, method and apparatus for privacy preserving inference
WO2022095523A1 (zh) * 2020-11-03 2022-05-12 华为技术有限公司 机器学习模型管理方法、装置和系统
CN113139534A (zh) * 2021-05-06 2021-07-20 上海交通大学 两阶段安全多方计算的图片文本定位识别方法
CN114494803A (zh) * 2022-04-18 2022-05-13 山东师范大学 基于安全计算的图像数据标注方法及系统
CN114494803B (zh) * 2022-04-18 2022-07-05 山东师范大学 基于安全计算的图像数据标注方法及系统

Similar Documents

Publication Publication Date Title
CN111243698A (zh) 一种数据安全共享方法、存储介质和计算设备
CN110189192B (zh) 一种信息推荐模型的生成方法及装置
CN110399742B (zh) 一种联邦迁移学习模型的训练、预测方法及装置
Rajasekar et al. Enhanced multimodal biometric recognition approach for smart cities based on an optimized fuzzy genetic algorithm
Fredrikson et al. Model inversion attacks that exploit confidence information and basic countermeasures
EP3534287A1 (en) Inserting a further data block into a first ledger
Nguyen et al. Backdoor attacks and defenses in federated learning: Survey, challenges and future research directions
Liu et al. D2MIF: A malicious model detection mechanism for federated learning empowered artificial intelligence of things
CN115765965A (zh) 基于联邦学习和双联盟区块链的医疗数据安全共享方法
CN117349899B (zh) 基于遗忘模型的敏感数据处理方法、系统及存储介质
WO2020051232A1 (en) Decentralized biometric identification and authentication network
Hermawan et al. Cyber physical system based smart healthcare system with federated deep learning architectures with data analytics
CN114492827A (zh) 基于区块链技术的联邦学习模型水印加固方法和应用
Li et al. SearchAuth: Neural Architecture Search-based Continuous Authentication Using Auto Augmentation Search
CN117436047A (zh) 验证码生成方法、装置、计算机设备和存储介质
CN113343970B (zh) 文本图像检测方法、装置、设备及存储介质
Hernández-Álvarez et al. Biometrics and artificial intelligence: Attacks and challenges
Huang et al. A comprehensive intrusion detection method for the internet of vehicles based on federated learning architecture
CN113762055A (zh) 图像处理方法、装置、电子设备及可读存储介质
Wang et al. Explore and Enhance the Generalization of Anomaly DeepFake Detection
Zuo et al. Federated TrustChain: Blockchain-Enhanced LLM Training and Unlearning
HU Privacy Attacks and Protection in Generative Models
Djenouri et al. A Federated Convolution Transformer for Fake News Detection
CN117951673B (zh) 一种反ai诈骗的方法、电子设备
CN117150422B (zh) 纵向联邦学习系统中基于样本交换的标签推断攻击方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200605