CN111243698A

CN111243698A - 一种数据安全共享方法、存储介质和计算设备

Info

Publication number: CN111243698A
Application number: CN202010034607.7A
Authority: CN
Inventors: 翁健; 董彩芹; 刘志全; 刘家男; 杨雅希; 成玉丹; 赵红霞
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-06-05

Abstract

本发明公开了一种数据安全共享方法、存储介质和计算设备，方法包括先确定多个用户集合和用户集合中的参与机构的学习目标和训练条件；然后将每个服务器的参数分成当前参数秘密份额并发送给参与机构；参与机构重构当前参数秘密份额和进行协作深度学习训练，将得到的更新的参数分成更新参数秘密份额并发送给服务器；服务器根据更新参数秘密份额验证参数是否合法，是则将更新参数秘密份额加入到服务器当前拥有的参数秘密份额中；当所有参与机构均达到学习目标后，再将每个服务器的最新参数分成最新参数秘密份额，然后发送给参与机构，以此完成数据安全共享。本发明能够在保护隐私的同时保证参数安全，实现不同参与机构之间的数据安全共享。

Description

一种数据安全共享方法、存储介质和计算设备

技术领域

本发明涉及隐私保护数据共享技术领域，特别涉及一种数据安全共享方法、存储介质和计算设备。

背景技术

随着人工智能技术的不断成熟，越来越多领域开始应用人工智能技术。例如，20世纪70年代，国外就曾开始出现利用人工智能应用在医疗领域的尝试。我国在人工智能+医疗领域也不断地进行各种尝试，例如百度医疗大脑，阿里健康医疗AI系统等具体应用都不断为智能医疗的发展提供解决方案。人工智能在医疗领域的应用场景非常广泛，人工智能医学影像方向是人工智能在医疗领域的主要应用之一。人工智能通过提取大量医疗影像中的特征，从而对疾病状况做出诊断。由于健康医疗数据涉及个人数据隐私，如身体健康状况、家族遗传信息等等暴露个人身份的隐私信息，因此，健康医疗数据的隐私需要受到严重重视及保护。一般在人工智能中使用医疗数据时，都会对数据进行去标识化，也就是使数据无法识别到特定个人的处理。另一方面，健康医疗数据的开放程度有限，包括医院与医院之间的流通限制、境内与境外的流通限制等，限制了医疗数据的共享。尽管人工智能在医疗领域各方面取得了令人瞩目的成就，但是不可否认，人工智能在医疗领域长久可靠的发展应用还需要突破隐私问题、数据共享等壁垒。因此，在将人工智能应用在医疗影像领域时，实现数据隐私保护和共享是关键性问题。

在现有的数据共享技术中，协作学习(federated learning)是谷歌公司提出的一种分布式的人工智能框架，参与机构之间不需要将数据共享出来的同时共同训练一个深度学习模型，既能够个人数据的隐私性，又能够实现了不同参与机构之间的数据共享。但是它们没有考虑到协作学习过程中共享的参数也可能泄露本地数据隐私，如Hitaj等人[Hitaj,B.,Ateniese,G.,&Perez-Cruz,F.(2017,October).Deep models under the GAN:information leakage from collaborative deep learning.In Proceedings of the2017 ACM SIGSAC Conference on Computer and Communications Security(pp.603-618).ACM.]提出的使用生成对抗学习方法针对协作学习过程中其他参与机构的数据实现推理攻击。另外，他们没有考虑参与机构作恶的情况。数据提供者可能会提供带有恶意后门的学习模型参数，如Bagdasaryan等人[Bagdasaryan,E.,Veit,A.,Hua,Y.,Estrin,D.,&Shmatikov,V.(2018).How to backdoor federated learning.arXiv preprint arXiv:1807.00459.]提出的使用带有后门的参数实现对协作学习的攻击。因此，有必要研究出能克服如上缺陷的新的数据安全共享技术。

发明内容

本发明的第一目的在于克服现有技术的缺点与不足，提供一种数据安全共享方法，该方法能够在保护隐私的同时保证参数安全，实现不同参与机构之间的数据安全共享。

本发明的第二目的在于提供一种存储介质。

本发明的第三目的在于提供一种计算设备。

本发明的第一目的通过下述技术方案实现：一种数据安全共享方法，包括如下步骤：

S1、确定多个用户集合Ω，每个用户集合中包含有与3个服务器通信的多个参与机构；

确定参与机构的学习目标和进行协作深度学习训练的训练条件；

S2、对于每个服务器，将自身拥有的参数秘密份额发送给用户集合中的各个参与机构；

S3、在每个参与机构中，对接收到的当前参数秘密份额进行重构和进行协作深度学习训练，得到更新的参数，然后将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器；

S4、对于每个服务器，当接收到一个参与机构上传的更新参数秘密份额之后，基于该更新参数秘密份额，隐私地验证参数的合法性，若参数合法，则将该合法的更新参数秘密份额加入到服务器当前拥有的参数秘密份额中，对参数进行更新；若参数违法，则将参数从用户集合Ω中删除；

S5、重复步骤S2～S4，直至所有参与机构均达到学习目标，协作深度学习训练结束；

将每个服务器的最新参数分成多份最新参数秘密份额，然后再分别发送给各个参与机构，以此完成数据安全共享。

优选的，参与机构拥有本地数据集和可供本地协作深度学习训练的服务器环境，本地数据集中具有携带分类标签的本地数据；

参与机构进行协作深度学习训练的训练条件是指协作深度学习训练所使用的学习模型和达到学习目标所需输入本地数据的数据格式，不同的参与机构所拥有的本地数据格式相同；

当参与机构为医疗机构，本地数据为医疗图像数据，每个医疗图像携带有对应的疾病分类标签，学习目标为训练一个对疾病进行分类的模型。

更进一步的，步骤S3中，对接收到的当前参数秘密份额进行重构和进行协作深度学习训练，得到更新的参数，具体如下：

在准备参与机构PP_i的第t轮本地训练时，通过重构计算公式对3个服务器的参数秘密份额进行秘密重构，重构计算公式具体如下：

其中，i是参与机构序号；

为在第t-1轮本地训练中第1个服务器发送给参与机构PP_i的参数秘密份额，

为在第t-1轮本地训练中第2个服务器发送给参与机构PP_i的参数秘密份额，

为在第t-1轮本地训练中第3个服务器发送给参与机构PP_i的参数秘密份额；

为重构得到的参数，也即第t-1轮本地训练得到的全局参数；

将重构得到的参数

作为本地训练的学习模型参数，通过学习模型和参与机构的本地数据进行深度学习训练，得到更新的参数ΔW_i ^t+1。

优选的，在步骤S3中，在第t轮本地训练结束后，参与机构PP_i将更新的参数ΔW_i ^t+1通过秘密分享方案拆分成3份更新参数秘密份额([ΔW_i ^t+1]₁,[ΔW_i ^t+1]₂,[ΔW_i ^t+1]₃)，并分别对应发送给3个服务器，秘密分享方案具体如下：

优选的，在步骤S4中，使用安全三方计算协议在保护隐私情况下计算验证参数的合法性；

验证参数合法性的规则具体为：检测参与机构提供的参数是否为没有贡献的任意随机数或者带有后门的恶意参数，参数为没有贡献的任意随机数或者带有后门的恶意参数即违反参数的合法性规则。

更进一步的，参数合法性的验证方法包括如下几种：

(1)余弦相似性：计算参与机构PP_i在第t轮本地训练上传的更新参数ΔW_i ^t+1与第t-1轮本地训练得到的全局参数

之间的余弦相似性cs_i，根据余弦相似性判断更新参数ΔW_i ^t+1与全局参数

之间的偏差，当偏差过大，则判断该更新参数为无用的随机值；

余弦相似性计算公式具体如下：

其中，i为参与机构序号；j为计数索引；p为参数向量的维数；

(2)欧式距离：计算参与机构PP_i在第t轮本地训练上传的更新参数ΔW_i ^t+1与第t-1轮本地训练得到的全局参数

之间的欧式距离，当欧式距离过大，则判定该更新参数为无用的随机值；

欧式距离计算公式具体如下：

(3)错误率：将参与机构PP_i的更新参数秘密份额和服务器存储的验证数据集共同执行隐私保护的深度学习预测算法，在隐私保护的情况下计算出参与机构PP_i的预测结果，并判断预测结果与参与机构的本地数据携带的分类标签是否相同；

根据判断结果计算得到一个使用该更新参数的预测错误率，将预测错误率重构并公开，当预测错误率

超过阈值时，则判定该参与机构PP_i的更新参数秘密份额是恶意的；

(4)对比错误率：将预测错误率

与使用第t-1轮本地训练得到的全局参数

得到的预测错误率

进行大小比较并计算出两者的差值，当差值超过阈值时，则判定该参与机构PP_i的更新参数秘密份额是恶意的。

优选的，步骤S4中，对参数进行更新，具体为：

(1)在服务器P_m中，当接收到超过K个参与机构上传的合法的更新参数秘密份额后，利用更新公式将更新参数秘密份额聚合到全局参数

上，以完成全局参数的更新，更新公式具体如下：

其中，m是服务器的序号，1≤m≤3；PP_i是参与机构，i是参与机构序号；ΔW_i ^t+1是参与机构PP_i在第t轮本地训练上传的更新参数秘密份额；

(2)参数聚合完成后，服务器P_m具有一个新的更新参数秘密份额，也即是全局参数

并且更新参数秘密份额满足重构计算公式：

其中，

为重构得到的参数，也即第t轮本地训练最终得到的全局参数

然后将服务器P_m的更新参数秘密份额发送给用户集合Ω中的参与机构。

优选的，在步骤S5中，当最新模型参数秘密份额分别发送给各个参与机构之后，在参与机构中，在本地将接收到的所有模型参数秘密份额进行重构，得到最终的优化模型参数W_global，重构计算公式如下：

其中，[W_global]₁为第1个服务器发送给参与机构PP_i的最新参数秘密份额，[W_global]₂为第2个服务器发送给参与机构PP_i的最新参数秘密份额，[W_global]₃为第3个服务器发送给参与机构PP_i的最新参数秘密份额。

本发明的第二目的通过下述技术方案实现：一种存储介质，存储有程序，所述程序被处理器执行时，实现本发明第一目的所述的数据安全共享方法。

本发明的第三目的通过下述技术方案实现：一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现本发明第一目的所述的数据安全共享方法。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明数据安全共享方法，包括先确定多个用户集合和用户集合中的参与机构的学习目标和训练条件；然后将每个服务器的参数分成当前参数秘密份额并发送给参与机构；参与机构重构当前参数秘密份额和进行协作深度学习训练，将得到的更新的参数分成更新参数秘密份额并发送给服务器；服务器根据更新参数秘密份额验证参数是否合法，是则将更新参数秘密份额加入到服务器当前拥有的参数秘密份额中；当所有参与机构均达到学习目标后，再将每个服务器的最新参数分成最新参数秘密份额，然后发送给参与机构，以此完成数据安全共享。本发明能够在保护隐私的同时保证参数安全，实现不同参与机构之间的数据安全共享。本发明的整个数据共享过程，参与机构的数据都在本地，无需将本地数据直接共享给其他机构，因此能够保护参与机构的数据隐私，同时通过验证参数的合法性来保证所用参数的安全，实现了不同参与机构之间的数据安全共享，同时也有利于促进人工智能在生物医疗数据应用领域的发展。

(2)本发明数据安全共享方法中，医疗机构可作为参与机构，医疗图像数据作为本地数据，通过本发明方法进行医疗数据共享，有利于对疾病的研究。

(3)本发明数据安全共享方法中，使用安全三方计算协议验证参数的合法性，整个过程中其他参与机构无法获取该参与机构上传到服务器的参数明文，防御了其他参与机构根据模型参数推测该参与机构的本地生物医疗数据的攻击行为。并且，在计算过程中如果存在恶意服务器作恶，使用不正确的数据进行计算，那么其他可信服务器就能够发现并终止协议，协议运行只要最终有输出结果，这个结果一定是正确的，因此能够保证服务器进行的是合法性验证以及聚合计算结果的正确性。

(3)本发明数据安全共享方法可通过余弦相似性、欧式距离、错误率和对比错误率这多种方法验证参数的合法性，能够减小没有贡献的任意随机数和带有后门的恶意参数这两种恶意行为对最终的模型参数的影响，在隐私保护的情况下尽可能地保证了参数的安全性。

附图说明

图1是本发明数据安全共享方法的示意图。

图2是本发明数据安全共享方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

本实施例公开了一种数据安全共享方法，如图1和图2所示，包括如下步骤：

S1、确定多个用户集合Ω，每个用户集合中包含有与3个服务器通信的多个参与机构。

确定参与机构的学习目标和进行协作深度学习训练的训练条件。

其中，参与机构拥有本地数据集和可供本地协作深度学习训练的服务器环境，该本地数据集中具有携带分类标签的本地数据，参与机构在深度学习训练可以得到参数，并且在本地协作深度学习训练的过程中可上传不合法的模型参数。在本实施例中，参与机构为医疗机构，本地数据为医疗图像数据，每个医疗图像携带有对应的疾病分类标签。参与机构的学习目标为训练一个对疾病进行分类的模型。

参与机构进行协作深度学习训练的训练条件是指协作深度学习训练所使用的学习模型和达到学习目标所需输入本地数据的数据格式，学习模型例如可以选择卷积神经网络，数据格式例如为适合网络的图像尺寸和像素，不同的参与机构所拥有的本地数据格式相同。

服务器可为参与机构提供协作深度学习过程中的参数合法性验证、参数更新和参与机构集合控制，每个服务器具有一个用于验证参数是否合法的验证数据集。3个服务器之间不互相合谋，合谋是指三个服务器把自己拥有的那部分数据公开给其他服务器，使得服务器都能够获取到原始秘密数据，这容易导致隐私泄露。在3个服务器中最多只有一个服务器是恶意的，恶意是指违反参数合法性的规则进行参数更新。

S3、在每个参与机构中，对接收到的当前参数秘密份额进行重构和进行协作深度学习训练，得到更新的参数，然后将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器。

其中，对接收到的当前参数秘密份额进行重构和进行协作深度学习训练，得到更新的参数，具体如下：

(1)在准备参与机构PP_i的第t轮本地训练时，通过重构计算公式对3个服务器的参数秘密份额进行秘密重构，重构计算公式具体如下：

在上述计算公式中，i是参与机构序号；

为重构得到的参数，也即第t-1轮本地训练得到的全局参数。

(2)将重构得到的参数

作为本地训练的学习模型参数，通过学习模型和参与机构的本地数据进行深度学习训练，得到更新的参数W_i ^t+1。

将更新的参数分成3份更新参数秘密份额并分别对应发送给3个服务器，具体是：

在第t轮本地训练结束后，参与机构PP_i将更新的参数ΔW_i ^t+1通过秘密分享方案拆分成3份更新参数秘密份额([ΔW_i ^t+1]₁,[ΔW_i ^t+1]₂,[ΔW_i ^t+1]₃)，并分别对应发送给3个服务器，秘密分享方案具体如下：

S4、对于每个服务器，当接收到一个参与机构上传的更新参数秘密份额之后，基于该更新参数秘密份额计算恢复得到参数，从而隐私地验证参数的合法性，若参数合法，则将该合法的更新参数秘密份额加入到服务器当前拥有的参数秘密份额中，对参数进行更新；若参数违法，则将参数从用户集合Ω中删除。

本实施例使用了安全三方计算协议在保护隐私情况下计算验证参数的合法性，其中，验证参数合法性的规则具体为：检测参与机构提供的参数是否为没有贡献的任意随机数或者带有后门的恶意参数，参数为没有贡献的任意随机数或者带有后门的恶意参数即违反参数的合法性规则。

后门是指绕过安全控制而获取对程序或者系统访问权的方法，带有后门的恶意参数会导致学习模型在对本地数据进行分类时将带有后门的样本分类到错误的分类标签中。没有贡献的任意随机数或者带有后门的恶意参数这两种恶意行为都会对最终的模型参数产生影响。

在整个验证过程中，其他参与机构无法获取该参与机构上传到服务器的参数明文，因此能够防御其他参与机构根据模型参数推测该参与机构的本地生物医疗数据的攻击行为。并且，在计算过程中如果存在恶意服务器作恶，使用不正确的数据进行计算，其他可信服务器能够发现并终止协议，因此，协议运行只要最终有输出结果，这个结果一定是正确的。

参数合法性的验证方法包括如下几种：

之间的余弦相似性cs_i，即是测量这两个高维参数向量的夹角的余弦值，以此度量它们之间的相似性，然后根据余弦相似性衡量更新参数之间的角度距离，来判断更新参数ΔW_i ^t+1与全局参数

之间的偏差，，当偏差过大，也即是角度距离大于预设的阈值，，则判断该更新参数为无用的随机值；余弦相似性计算公式具体如下：

其中，j为计数索引；p为参数向量的维数。

之间的欧式距离

当欧式距离过大，则判定该更新参数为无用的随机值；

欧式距离计算公式具体如下：

(3)错误率：将参与机构PP_i的更新参数秘密份额和服务器存储的验证数据集共同执行隐私保护的深度学习预测算法，在隐私保护的情况下计算出参与机构PP_i的预测结果，并判断预测结果与参与机构的本地数据携带的分类标签是否相同；深度学习预测算法具体是指根据已有训练好的参数，再用一次深度学习训练用的算法计算出一个分类结果。

根据判断结果计算得到一个使用该更新参数的预测错误率，将预测错误率重构并公开，重构可以把秘密数据恢复出来，公开即是把预测错误率公开明文，当预测错误率

超过阈值时，则判定该参与机构PP_i的更新参数秘密份额是恶意的。

(4)对比错误率：将预测错误率

与使用第t-1轮本地训练得到的全局参数

得到的预测错误率

对参数进行更新，即是在每一轮协作深度学习训练过程中，都要把服务器里聚合更新后的参数秘密份额发送给参与机构，具体如下：

上，以完成全局参数的更新，更新公式具体如下：

其中，m是服务器的序号，1≤m≤3；[ΔW_i ^t+1]_m是参与机构PP_i在第t轮本地训练上传的更新参数秘密份额；

并且更新参数秘密份额满足重构计算公式：

其中，

为重构得到的参数，也即第t轮本地训练最终得到的全局参数

S5、重复步骤S2～S4，直至所有参与机构均达到学习目标，协作深度学习训练结束。

其中，当最新模型参数秘密份额分别发送给各个参与机构之后，在参与机构中，将接收到的所有模型参数秘密份额进行重构，得到最终的优化模型参数W_global，重构计算公式如下：

实施例2

本实施例公开了一种存储介质，存储有程序，所述程序被处理器执行时，实现实施例1所述的数据安全共享方法，具体如下：

本实施例中的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

实施例3

本实施例公开了一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例1所述的数据安全共享方法，具体如下：

本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有处理器功能的终端设备。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种数据安全共享方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的数据安全共享方法，其特征在于，参与机构拥有本地数据集和可供本地协作深度学习训练的服务器环境，本地数据集中具有携带分类标签的本地数据；

3.根据权利要求2所述的数据安全共享方法，其特征在于，在步骤S3中，对接收到的当前参数秘密份额进行重构和进行协作深度学习训练，得到更新的参数，具体如下：

其中，i是参与机构序号；

为重构得到的参数，也即第t-1轮本地训练得到的全局参数；

将重构得到的参数

4.根据权利要求1所述的数据安全共享方法，其特征在于，在步骤S3中，在第t轮本地训练结束后，参与机构PP_i将更新的参数ΔW_i ^t+1通过秘密分享方案拆分成3份更新参数秘密份额([ΔW_i ^t+1]₁,[ΔW_i ^t+1]₂,[ΔW_i ^t+1]₃)，并分别对应发送给3个服务器，秘密分享方案具体如下：