CN111243698A - 一种数据安全共享方法、存储介质和计算设备 - Google Patents
一种数据安全共享方法、存储介质和计算设备 Download PDFInfo
- Publication number
- CN111243698A CN111243698A CN202010034607.7A CN202010034607A CN111243698A CN 111243698 A CN111243698 A CN 111243698A CN 202010034607 A CN202010034607 A CN 202010034607A CN 111243698 A CN111243698 A CN 111243698A
- Authority
- CN
- China
- Prior art keywords
- parameter
- participating
- parameters
- server
- secret
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims abstract description 94
- 238000012549 training Methods 0.000 claims abstract description 88
- 238000013135 deep learning Methods 0.000 claims abstract description 41
- 239000004743 Polypropylene Substances 0.000 claims description 43
- 238000004364 calculation method Methods 0.000 claims description 26
- 230000008520 organization Effects 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 11
- 201000010099 disease Diseases 0.000 claims description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- -1 polypropylene Polymers 0.000 claims description 2
- 229920001155 polypropylene Polymers 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 7
- 230000036541 health Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- DNXHEGUUPJUMQT-CBZIJGRNSA-N Estrone Chemical compound OC1=CC=C2[C@H]3CC[C@](C)(C(CC4)=O)[C@@H]4[C@@H]3CCC2=C1 DNXHEGUUPJUMQT-CBZIJGRNSA-N 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种数据安全共享方法、存储介质和计算设备,方法包括先确定多个用户集合和用户集合中的参与机构的学习目标和训练条件;然后将每个服务器的参数分成当前参数秘密份额并发送给参与机构;参与机构重构当前参数秘密份额和进行协作深度学习训练,将得到的更新的参数分成更新参数秘密份额并发送给服务器;服务器根据更新参数秘密份额验证参数是否合法,是则将更新参数秘密份额加入到服务器当前拥有的参数秘密份额中;当所有参与机构均达到学习目标后,再将每个服务器的最新参数分成最新参数秘密份额,然后发送给参与机构,以此完成数据安全共享。本发明能够在保护隐私的同时保证参数安全,实现不同参与机构之间的数据安全共享。
Description
技术领域
本发明涉及隐私保护数据共享技术领域,特别涉及一种数据安全共享方法、存储介质和计算设备。
背景技术
随着人工智能技术的不断成熟,越来越多领域开始应用人工智能技术。例如,20世纪70年代,国外就曾开始出现利用人工智能应用在医疗领域的尝试。我国在人工智能+医疗领域也不断地进行各种尝试,例如百度医疗大脑,阿里健康医疗AI系统等具体应用都不断为智能医疗的发展提供解决方案。人工智能在医疗领域的应用场景非常广泛,人工智能医学影像方向是人工智能在医疗领域的主要应用之一。人工智能通过提取大量医疗影像中的特征,从而对疾病状况做出诊断。由于健康医疗数据涉及个人数据隐私,如身体健康状况、家族遗传信息等等暴露个人身份的隐私信息,因此,健康医疗数据的隐私需要受到严重重视及保护。一般在人工智能中使用医疗数据时,都会对数据进行去标识化,也就是使数据无法识别到特定个人的处理。另一方面,健康医疗数据的开放程度有限,包括医院与医院之间的流通限制、境内与境外的流通限制等,限制了医疗数据的共享。尽管人工智能在医疗领域各方面取得了令人瞩目的成就,但是不可否认,人工智能在医疗领域长久可靠的发展应用还需要突破隐私问题、数据共享等壁垒。因此,在将人工智能应用在医疗影像领域时,实现数据隐私保护和共享是关键性问题。
在现有的数据共享技术中,协作学习(federated learning)是谷歌公司提出的一种分布式的人工智能框架,参与机构之间不需要将数据共享出来的同时共同训练一个深度学习模型,既能够个人数据的隐私性,又能够实现了不同参与机构之间的数据共享。但是它们没有考虑到协作学习过程中共享的参数也可能泄露本地数据隐私,如Hitaj等人[Hitaj,B.,Ateniese,G.,&Perez-Cruz,F.(2017,October).Deep models under the GAN:information leakage from collaborative deep learning.In Proceedings of the2017 ACM SIGSAC Conference on Computer and Communications Security(pp.603-618).ACM.]提出的使用生成对抗学习方法针对协作学习过程中其他参与机构的数据实现推理攻击。另外,他们没有考虑参与机构作恶的情况。数据提供者可能会提供带有恶意后门的学习模型参数,如Bagdasaryan等人[Bagdasaryan,E.,Veit,A.,Hua,Y.,Estrin,D.,&Shmatikov,V.(2018).How to backdoor federated learning.arXiv preprint arXiv:1807.00459.]提出的使用带有后门的参数实现对协作学习的攻击。因此,有必要研究出能克服如上缺陷的新的数据安全共享技术。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种数据安全共享方法,该方法能够在保护隐私的同时保证参数安全,实现不同参与机构之间的数据安全共享。
本发明的第二目的在于提供一种存储介质。
本发明的第三目的在于提供一种计算设备。
本发明的第一目的通过下述技术方案实现:一种数据安全共享方法,包括如下步骤:
S1、确定多个用户集合Ω,每个用户集合中包含有与3个服务器通信的多个参与机构;
确定参与机构的学习目标和进行协作深度学习训练的训练条件;
S2、对于每个服务器,将自身拥有的参数秘密份额发送给用户集合中的各个参与机构;
S3、在每个参与机构中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,然后将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器;
S4、对于每个服务器,当接收到一个参与机构上传的更新参数秘密份额之后,基于该更新参数秘密份额,隐私地验证参数的合法性,若参数合法,则将该合法的更新参数秘密份额加入到服务器当前拥有的参数秘密份额中,对参数进行更新;若参数违法,则将参数从用户集合Ω中删除;
S5、重复步骤S2~S4,直至所有参与机构均达到学习目标,协作深度学习训练结束;
将每个服务器的最新参数分成多份最新参数秘密份额,然后再分别发送给各个参与机构,以此完成数据安全共享。
优选的,参与机构拥有本地数据集和可供本地协作深度学习训练的服务器环境,本地数据集中具有携带分类标签的本地数据;
参与机构进行协作深度学习训练的训练条件是指协作深度学习训练所使用的学习模型和达到学习目标所需输入本地数据的数据格式,不同的参与机构所拥有的本地数据格式相同;
当参与机构为医疗机构,本地数据为医疗图像数据,每个医疗图像携带有对应的疾病分类标签,学习目标为训练一个对疾病进行分类的模型。
更进一步的,步骤S3中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,具体如下:
在准备参与机构PPi的第t轮本地训练时,通过重构计算公式对3个服务器的参数秘密份额进行秘密重构,重构计算公式具体如下:
其中,i是参与机构序号;为在第t-1轮本地训练中第1个服务器发送给参与机构PPi的参数秘密份额,为在第t-1轮本地训练中第2个服务器发送给参与机构PPi的参数秘密份额,为在第t-1轮本地训练中第3个服务器发送给参与机构PPi的参数秘密份额;为重构得到的参数,也即第t-1轮本地训练得到的全局参数;
优选的,在步骤S3中,在第t轮本地训练结束后,参与机构PPi将更新的参数ΔWi t+1通过秘密分享方案拆分成3份更新参数秘密份额([ΔWi t+1]1,[ΔWi t+1]2,[ΔWi t+1]3),并分别对应发送给3个服务器,秘密分享方案具体如下:
优选的,在步骤S4中,使用安全三方计算协议在保护隐私情况下计算验证参数的合法性;
验证参数合法性的规则具体为:检测参与机构提供的参数是否为没有贡献的任意随机数或者带有后门的恶意参数,参数为没有贡献的任意随机数或者带有后门的恶意参数即违反参数的合法性规则。
更进一步的,参数合法性的验证方法包括如下几种:
(1)余弦相似性:计算参与机构PPi在第t轮本地训练上传的更新参数ΔWi t+1与第t-1轮本地训练得到的全局参数之间的余弦相似性csi,根据余弦相似性判断更新参数ΔWi t+1与全局参数之间的偏差,当偏差过大,则判断该更新参数为无用的随机值;
余弦相似性计算公式具体如下:
其中,i为参与机构序号;j为计数索引;p为参数向量的维数;
欧式距离计算公式具体如下:
(3)错误率:将参与机构PPi的更新参数秘密份额和服务器存储的验证数据集共同执行隐私保护的深度学习预测算法,在隐私保护的情况下计算出参与机构PPi的预测结果,并判断预测结果与参与机构的本地数据携带的分类标签是否相同;
优选的,步骤S4中,对参数进行更新,具体为:
其中,m是服务器的序号,1≤m≤3;PPi是参与机构,i是参与机构序号;ΔWi t+1是参与机构PPi在第t轮本地训练上传的更新参数秘密份额;
然后将服务器Pm的更新参数秘密份额发送给用户集合Ω中的参与机构。
优选的,在步骤S5中,当最新模型参数秘密份额分别发送给各个参与机构之后,在参与机构中,在本地将接收到的所有模型参数秘密份额进行重构,得到最终的优化模型参数Wglobal,重构计算公式如下:
其中,[Wglobal]1为第1个服务器发送给参与机构PPi的最新参数秘密份额,[Wglobal]2为第2个服务器发送给参与机构PPi的最新参数秘密份额,[Wglobal]3为第3个服务器发送给参与机构PPi的最新参数秘密份额。
本发明的第二目的通过下述技术方案实现:一种存储介质,存储有程序,所述程序被处理器执行时,实现本发明第一目的所述的数据安全共享方法。
本发明的第三目的通过下述技术方案实现:一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现本发明第一目的所述的数据安全共享方法。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明数据安全共享方法,包括先确定多个用户集合和用户集合中的参与机构的学习目标和训练条件;然后将每个服务器的参数分成当前参数秘密份额并发送给参与机构;参与机构重构当前参数秘密份额和进行协作深度学习训练,将得到的更新的参数分成更新参数秘密份额并发送给服务器;服务器根据更新参数秘密份额验证参数是否合法,是则将更新参数秘密份额加入到服务器当前拥有的参数秘密份额中;当所有参与机构均达到学习目标后,再将每个服务器的最新参数分成最新参数秘密份额,然后发送给参与机构,以此完成数据安全共享。本发明能够在保护隐私的同时保证参数安全,实现不同参与机构之间的数据安全共享。本发明的整个数据共享过程,参与机构的数据都在本地,无需将本地数据直接共享给其他机构,因此能够保护参与机构的数据隐私,同时通过验证参数的合法性来保证所用参数的安全,实现了不同参与机构之间的数据安全共享,同时也有利于促进人工智能在生物医疗数据应用领域的发展。
(2)本发明数据安全共享方法中,医疗机构可作为参与机构,医疗图像数据作为本地数据,通过本发明方法进行医疗数据共享,有利于对疾病的研究。
(3)本发明数据安全共享方法中,使用安全三方计算协议验证参数的合法性,整个过程中其他参与机构无法获取该参与机构上传到服务器的参数明文,防御了其他参与机构根据模型参数推测该参与机构的本地生物医疗数据的攻击行为。并且,在计算过程中如果存在恶意服务器作恶,使用不正确的数据进行计算,那么其他可信服务器就能够发现并终止协议,协议运行只要最终有输出结果,这个结果一定是正确的,因此能够保证服务器进行的是合法性验证以及聚合计算结果的正确性。
(3)本发明数据安全共享方法可通过余弦相似性、欧式距离、错误率和对比错误率这多种方法验证参数的合法性,能够减小没有贡献的任意随机数和带有后门的恶意参数这两种恶意行为对最终的模型参数的影响,在隐私保护的情况下尽可能地保证了参数的安全性。
附图说明
图1是本发明数据安全共享方法的示意图。
图2是本发明数据安全共享方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例公开了一种数据安全共享方法,如图1和图2所示,包括如下步骤:
S1、确定多个用户集合Ω,每个用户集合中包含有与3个服务器通信的多个参与机构。
确定参与机构的学习目标和进行协作深度学习训练的训练条件。
其中,参与机构拥有本地数据集和可供本地协作深度学习训练的服务器环境,该本地数据集中具有携带分类标签的本地数据,参与机构在深度学习训练可以得到参数,并且在本地协作深度学习训练的过程中可上传不合法的模型参数。在本实施例中,参与机构为医疗机构,本地数据为医疗图像数据,每个医疗图像携带有对应的疾病分类标签。参与机构的学习目标为训练一个对疾病进行分类的模型。
参与机构进行协作深度学习训练的训练条件是指协作深度学习训练所使用的学习模型和达到学习目标所需输入本地数据的数据格式,学习模型例如可以选择卷积神经网络,数据格式例如为适合网络的图像尺寸和像素,不同的参与机构所拥有的本地数据格式相同。
服务器可为参与机构提供协作深度学习过程中的参数合法性验证、参数更新和参与机构集合控制,每个服务器具有一个用于验证参数是否合法的验证数据集。3个服务器之间不互相合谋,合谋是指三个服务器把自己拥有的那部分数据公开给其他服务器,使得服务器都能够获取到原始秘密数据,这容易导致隐私泄露。在3个服务器中最多只有一个服务器是恶意的,恶意是指违反参数合法性的规则进行参数更新。
S2、对于每个服务器,将自身拥有的参数秘密份额发送给用户集合中的各个参与机构;
S3、在每个参与机构中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,然后将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器。
其中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,具体如下:
(1)在准备参与机构PPi的第t轮本地训练时,通过重构计算公式对3个服务器的参数秘密份额进行秘密重构,重构计算公式具体如下:
在上述计算公式中,i是参与机构序号;为在第t-1轮本地训练中第1个服务器发送给参与机构PPi的参数秘密份额,为在第t-1轮本地训练中第2个服务器发送给参与机构PPi的参数秘密份额,为在第t-1轮本地训练中第3个服务器发送给参与机构PPi的参数秘密份额;为重构得到的参数,也即第t-1轮本地训练得到的全局参数。
将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器,具体是:
在第t轮本地训练结束后,参与机构PPi将更新的参数ΔWi t+1通过秘密分享方案拆分成3份更新参数秘密份额([ΔWi t+1]1,[ΔWi t+1]2,[ΔWi t+1]3),并分别对应发送给3个服务器,秘密分享方案具体如下:
S4、对于每个服务器,当接收到一个参与机构上传的更新参数秘密份额之后,基于该更新参数秘密份额计算恢复得到参数,从而隐私地验证参数的合法性,若参数合法,则将该合法的更新参数秘密份额加入到服务器当前拥有的参数秘密份额中,对参数进行更新;若参数违法,则将参数从用户集合Ω中删除。
本实施例使用了安全三方计算协议在保护隐私情况下计算验证参数的合法性,其中,验证参数合法性的规则具体为:检测参与机构提供的参数是否为没有贡献的任意随机数或者带有后门的恶意参数,参数为没有贡献的任意随机数或者带有后门的恶意参数即违反参数的合法性规则。
后门是指绕过安全控制而获取对程序或者系统访问权的方法,带有后门的恶意参数会导致学习模型在对本地数据进行分类时将带有后门的样本分类到错误的分类标签中。没有贡献的任意随机数或者带有后门的恶意参数这两种恶意行为都会对最终的模型参数产生影响。
在整个验证过程中,其他参与机构无法获取该参与机构上传到服务器的参数明文,因此能够防御其他参与机构根据模型参数推测该参与机构的本地生物医疗数据的攻击行为。并且,在计算过程中如果存在恶意服务器作恶,使用不正确的数据进行计算,其他可信服务器能够发现并终止协议,因此,协议运行只要最终有输出结果,这个结果一定是正确的。
参数合法性的验证方法包括如下几种:
(1)余弦相似性:计算参与机构PPi在第t轮本地训练上传的更新参数ΔWi t+1与第t-1轮本地训练得到的全局参数之间的余弦相似性csi,即是测量这两个高维参数向量的夹角的余弦值,以此度量它们之间的相似性,然后根据余弦相似性衡量更新参数之间的角度距离,来判断更新参数ΔWi t+1与全局参数之间的偏差,,当偏差过大,也即是角度距离大于预设的阈值,,则判断该更新参数为无用的随机值;余弦相似性计算公式具体如下:
其中,j为计数索引;p为参数向量的维数。
欧式距离计算公式具体如下:
(3)错误率:将参与机构PPi的更新参数秘密份额和服务器存储的验证数据集共同执行隐私保护的深度学习预测算法,在隐私保护的情况下计算出参与机构PPi的预测结果,并判断预测结果与参与机构的本地数据携带的分类标签是否相同;深度学习预测算法具体是指根据已有训练好的参数,再用一次深度学习训练用的算法计算出一个分类结果。
根据判断结果计算得到一个使用该更新参数的预测错误率,将预测错误率重构并公开,重构可以把秘密数据恢复出来,公开即是把预测错误率公开明文,当预测错误率超过阈值时,则判定该参与机构PPi的更新参数秘密份额是恶意的。
对参数进行更新,即是在每一轮协作深度学习训练过程中,都要把服务器里聚合更新后的参数秘密份额发送给参与机构,具体如下:
其中,m是服务器的序号,1≤m≤3;[ΔWi t+1]m是参与机构PPi在第t轮本地训练上传的更新参数秘密份额;
然后将服务器Pm的更新参数秘密份额发送给用户集合Ω中的参与机构。
S5、重复步骤S2~S4,直至所有参与机构均达到学习目标,协作深度学习训练结束。
将每个服务器的最新参数分成多份最新参数秘密份额,然后再分别发送给各个参与机构,以此完成数据安全共享。
其中,当最新模型参数秘密份额分别发送给各个参与机构之后,在参与机构中,将接收到的所有模型参数秘密份额进行重构,得到最终的优化模型参数Wglobal,重构计算公式如下:
其中,[Wglobal]1为第1个服务器发送给参与机构PPi的最新参数秘密份额,[Wglobal]2为第2个服务器发送给参与机构PPi的最新参数秘密份额,[Wglobal]3为第3个服务器发送给参与机构PPi的最新参数秘密份额。
实施例2
本实施例公开了一种存储介质,存储有程序,所述程序被处理器执行时,实现实施例1所述的数据安全共享方法,具体如下:
S1、确定多个用户集合Ω,每个用户集合中包含有与3个服务器通信的多个参与机构;
确定参与机构的学习目标和进行协作深度学习训练的训练条件;
S2、对于每个服务器,将自身拥有的参数秘密份额发送给用户集合中的各个参与机构;
S3、在每个参与机构中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,然后将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器;
S4、对于每个服务器,当接收到一个参与机构上传的更新参数秘密份额之后,基于该更新参数秘密份额,隐私地验证参数的合法性,若参数合法,则将该合法的更新参数秘密份额加入到服务器当前拥有的参数秘密份额中,对参数进行更新;若参数违法,则将参数从用户集合Ω中删除;
S5、重复步骤S2~S4,直至所有参与机构均达到学习目标,协作深度学习训练结束;
将每个服务器的最新参数分成多份最新参数秘密份额,然后再分别发送给各个参与机构,以此完成数据安全共享。
本实施例中的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
实施例3
本实施例公开了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例1所述的数据安全共享方法,具体如下:
S1、确定多个用户集合Ω,每个用户集合中包含有与3个服务器通信的多个参与机构;
确定参与机构的学习目标和进行协作深度学习训练的训练条件;
S2、对于每个服务器,将自身拥有的参数秘密份额发送给用户集合中的各个参与机构;
S3、在每个参与机构中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,然后将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器;
S4、对于每个服务器,当接收到一个参与机构上传的更新参数秘密份额之后,基于该更新参数秘密份额,隐私地验证参数的合法性,若参数合法,则将该合法的更新参数秘密份额加入到服务器当前拥有的参数秘密份额中,对参数进行更新;若参数违法,则将参数从用户集合Ω中删除;
S5、重复步骤S2~S4,直至所有参与机构均达到学习目标,协作深度学习训练结束;
将每个服务器的最新参数分成多份最新参数秘密份额,然后再分别发送给各个参与机构,以此完成数据安全共享。
本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有处理器功能的终端设备。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种数据安全共享方法,其特征在于,包括如下步骤:
S1、确定多个用户集合Ω,每个用户集合中包含有与3个服务器通信的多个参与机构;
确定参与机构的学习目标和进行协作深度学习训练的训练条件;
S2、对于每个服务器,将自身拥有的参数秘密份额发送给用户集合中的各个参与机构;
S3、在每个参与机构中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,然后将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器;
S4、对于每个服务器,当接收到一个参与机构上传的更新参数秘密份额之后,基于该更新参数秘密份额,隐私地验证参数的合法性,若参数合法,则将该合法的更新参数秘密份额加入到服务器当前拥有的参数秘密份额中,对参数进行更新;若参数违法,则将参数从用户集合Ω中删除;
S5、重复步骤S2~S4,直至所有参与机构均达到学习目标,协作深度学习训练结束;
将每个服务器的最新参数分成多份最新参数秘密份额,然后再分别发送给各个参与机构,以此完成数据安全共享。
2.根据权利要求1所述的数据安全共享方法,其特征在于,参与机构拥有本地数据集和可供本地协作深度学习训练的服务器环境,本地数据集中具有携带分类标签的本地数据;
参与机构进行协作深度学习训练的训练条件是指协作深度学习训练所使用的学习模型和达到学习目标所需输入本地数据的数据格式,不同的参与机构所拥有的本地数据格式相同;
当参与机构为医疗机构,本地数据为医疗图像数据,每个医疗图像携带有对应的疾病分类标签,学习目标为训练一个对疾病进行分类的模型。
3.根据权利要求2所述的数据安全共享方法,其特征在于,在步骤S3中,对接收到的当前参数秘密份额进行重构和进行协作深度学习训练,得到更新的参数,具体如下:
在准备参与机构PPi的第t轮本地训练时,通过重构计算公式对3个服务器的参数秘密份额进行秘密重构,重构计算公式具体如下:
其中,i是参与机构序号;为在第t-1轮本地训练中第1个服务器发送给参与机构PPi的参数秘密份额,为在第t-1轮本地训练中第2个服务器发送给参与机构PPi的参数秘密份额,为在第t-1轮本地训练中第3个服务器发送给参与机构PPi的参数秘密份额;为重构得到的参数,也即第t-1轮本地训练得到的全局参数;
5.根据权利要求1所述的数据安全共享方法,其特征在于,在步骤S4中,使用安全三方计算协议在保护隐私情况下计算验证参数的合法性;
验证参数合法性的规则具体为:检测参与机构提供的参数是否为没有贡献的任意随机数或者带有后门的恶意参数,参数为没有贡献的任意随机数或者带有后门的恶意参数即违反参数的合法性规则。
6.根据权利要求5所述的数据安全共享方法,其特征在于,参数合法性的验证方法包括如下几种:
(1)余弦相似性:计算参与机构PPi在第t轮本地训练上传的更新参数ΔWi t+1与第t-1轮本地训练得到的全局参数之间的余弦相似性csi,根据余弦相似性判断更新参数ΔWi t+1与全局参数之间的偏差,当偏差过大,则判断该更新参数为无用的随机值;
余弦相似性计算公式具体如下:
其中,i为参与机构序号;j为计数索引;p为参数向量的维数;
欧式距离计算公式具体如下:
(3)错误率:将参与机构PPi的更新参数秘密份额和服务器存储的验证数据集共同执行隐私保护的深度学习预测算法,在隐私保护的情况下计算出参与机构PPi的预测结果,并判断预测结果与参与机构的本地数据携带的分类标签是否相同;
7.根据权利要求1所述的数据安全共享方法,其特征在于,步骤S4中,对参数进行更新,具体为:
其中,m是服务器的序号,1≤m≤3;PPi是参与机构,i是参与机构序号;ΔWi t+1是参与机构PPi在第t轮本地训练上传的更新参数秘密份额;
然后将服务器Pm的更新参数秘密份额发送给用户集合Ω中的参与机构。
9.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1至8中任一项所述的数据安全共享方法。
10.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1至8中任一项所述的数据安全共享方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010034607.7A CN111243698A (zh) | 2020-01-14 | 2020-01-14 | 一种数据安全共享方法、存储介质和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010034607.7A CN111243698A (zh) | 2020-01-14 | 2020-01-14 | 一种数据安全共享方法、存储介质和计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111243698A true CN111243698A (zh) | 2020-06-05 |
Family
ID=70866221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010034607.7A Pending CN111243698A (zh) | 2020-01-14 | 2020-01-14 | 一种数据安全共享方法、存储介质和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243698A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148755A (zh) * | 2020-09-07 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 基于秘密共享的隐私数据访问方法、装置、设备及系统 |
CN113139534A (zh) * | 2021-05-06 | 2021-07-20 | 上海交通大学 | 两阶段安全多方计算的图片文本定位识别方法 |
WO2022068204A1 (en) * | 2020-09-30 | 2022-04-07 | Huawei Technologies Co., Ltd. | System, method and apparatus for privacy preserving inference |
WO2022095523A1 (zh) * | 2020-11-03 | 2022-05-12 | 华为技术有限公司 | 机器学习模型管理方法、装置和系统 |
CN114494803A (zh) * | 2022-04-18 | 2022-05-13 | 山东师范大学 | 基于安全计算的图像数据标注方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977694A (zh) * | 2019-03-11 | 2019-07-05 | 暨南大学 | 一种基于协作深度学习的数据共享方法 |
US20190227980A1 (en) * | 2018-01-22 | 2019-07-25 | Google Llc | Training User-Level Differentially Private Machine-Learned Models |
US20190268150A1 (en) * | 2018-02-28 | 2019-08-29 | Vmware, Inc. | Methods and systems that efficiently and securely store data |
CN110197285A (zh) * | 2019-05-07 | 2019-09-03 | 清华大学 | 基于区块链的安全协作深度学习方法及装置 |
CN110288094A (zh) * | 2019-06-10 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN110460600A (zh) * | 2019-08-13 | 2019-11-15 | 南京理工大学 | 可抵御生成对抗网络攻击的联合深度学习方法 |
WO2019246206A1 (en) * | 2018-06-20 | 2019-12-26 | Iot And M2M Technologies, Llc | An ecdhe key exchange for server authentication and a key server |
-
2020
- 2020-01-14 CN CN202010034607.7A patent/CN111243698A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190227980A1 (en) * | 2018-01-22 | 2019-07-25 | Google Llc | Training User-Level Differentially Private Machine-Learned Models |
US20190268150A1 (en) * | 2018-02-28 | 2019-08-29 | Vmware, Inc. | Methods and systems that efficiently and securely store data |
WO2019246206A1 (en) * | 2018-06-20 | 2019-12-26 | Iot And M2M Technologies, Llc | An ecdhe key exchange for server authentication and a key server |
CN109977694A (zh) * | 2019-03-11 | 2019-07-05 | 暨南大学 | 一种基于协作深度学习的数据共享方法 |
CN110197285A (zh) * | 2019-05-07 | 2019-09-03 | 清华大学 | 基于区块链的安全协作深度学习方法及装置 |
CN110288094A (zh) * | 2019-06-10 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN110460600A (zh) * | 2019-08-13 | 2019-11-15 | 南京理工大学 | 可抵御生成对抗网络攻击的联合深度学习方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148755A (zh) * | 2020-09-07 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 基于秘密共享的隐私数据访问方法、装置、设备及系统 |
CN112148755B (zh) * | 2020-09-07 | 2024-10-18 | 支付宝(杭州)信息技术有限公司 | 基于秘密共享的隐私数据访问方法、装置、设备及系统 |
WO2022068204A1 (en) * | 2020-09-30 | 2022-04-07 | Huawei Technologies Co., Ltd. | System, method and apparatus for privacy preserving inference |
US11451375B2 (en) | 2020-09-30 | 2022-09-20 | Huawei Technologies Co., Ltd. | System, method and apparatus for privacy preserving inference |
WO2022095523A1 (zh) * | 2020-11-03 | 2022-05-12 | 华为技术有限公司 | 机器学习模型管理方法、装置和系统 |
CN113139534A (zh) * | 2021-05-06 | 2021-07-20 | 上海交通大学 | 两阶段安全多方计算的图片文本定位识别方法 |
CN114494803A (zh) * | 2022-04-18 | 2022-05-13 | 山东师范大学 | 基于安全计算的图像数据标注方法及系统 |
CN114494803B (zh) * | 2022-04-18 | 2022-07-05 | 山东师范大学 | 基于安全计算的图像数据标注方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243698A (zh) | 一种数据安全共享方法、存储介质和计算设备 | |
CN110189192B (zh) | 一种信息推荐模型的生成方法及装置 | |
CN110399742B (zh) | 一种联邦迁移学习模型的训练、预测方法及装置 | |
Rajasekar et al. | Enhanced multimodal biometric recognition approach for smart cities based on an optimized fuzzy genetic algorithm | |
Fredrikson et al. | Model inversion attacks that exploit confidence information and basic countermeasures | |
EP3534287A1 (en) | Inserting a further data block into a first ledger | |
Nguyen et al. | Backdoor attacks and defenses in federated learning: Survey, challenges and future research directions | |
Liu et al. | D2MIF: A malicious model detection mechanism for federated learning empowered artificial intelligence of things | |
CN115765965A (zh) | 基于联邦学习和双联盟区块链的医疗数据安全共享方法 | |
CN117349899B (zh) | 基于遗忘模型的敏感数据处理方法、系统及存储介质 | |
WO2020051232A1 (en) | Decentralized biometric identification and authentication network | |
Hermawan et al. | Cyber physical system based smart healthcare system with federated deep learning architectures with data analytics | |
CN114492827A (zh) | 基于区块链技术的联邦学习模型水印加固方法和应用 | |
Li et al. | SearchAuth: Neural Architecture Search-based Continuous Authentication Using Auto Augmentation Search | |
CN117436047A (zh) | 验证码生成方法、装置、计算机设备和存储介质 | |
CN113343970B (zh) | 文本图像检测方法、装置、设备及存储介质 | |
Hernández-Álvarez et al. | Biometrics and artificial intelligence: Attacks and challenges | |
Huang et al. | A comprehensive intrusion detection method for the internet of vehicles based on federated learning architecture | |
CN113762055A (zh) | 图像处理方法、装置、电子设备及可读存储介质 | |
Wang et al. | Explore and Enhance the Generalization of Anomaly DeepFake Detection | |
Zuo et al. | Federated TrustChain: Blockchain-Enhanced LLM Training and Unlearning | |
HU | Privacy Attacks and Protection in Generative Models | |
Djenouri et al. | A Federated Convolution Transformer for Fake News Detection | |
CN117951673B (zh) | 一种反ai诈骗的方法、电子设备 | |
CN117150422B (zh) | 纵向联邦学习系统中基于样本交换的标签推断攻击方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200605 |