CN112231756B - 一种fl-em-gmm的医疗用户隐私保护方法及系统 - Google Patents

一种fl-em-gmm的医疗用户隐私保护方法及系统 Download PDF

Info

Publication number
CN112231756B
CN112231756B CN202011187217.XA CN202011187217A CN112231756B CN 112231756 B CN112231756 B CN 112231756B CN 202011187217 A CN202011187217 A CN 202011187217A CN 112231756 B CN112231756 B CN 112231756B
Authority
CN
China
Prior art keywords
data
server
parameters
medical
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011187217.XA
Other languages
English (en)
Other versions
CN112231756A (zh
Inventor
程文志
欧嵬
晏婉琴
刘丁菀
刘春燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Totem Technology Hefei Co ltd
Hainan Xiaopeng Health Internet Hospital Co ltd
Original Assignee
Hunan University of Science and Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Science and Engineering filed Critical Hunan University of Science and Engineering
Priority to CN202011187217.XA priority Critical patent/CN112231756B/zh
Publication of CN112231756A publication Critical patent/CN112231756A/zh
Application granted granted Critical
Publication of CN112231756B publication Critical patent/CN112231756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/008Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开一种基于FL‑EM‑GMM的医疗用户隐私保护方法及系统,在基于密码学的研究基础上,该方法提出了一种基于联邦学习期望最大值的高斯混合模型。该方法在病人隐私数据不泄露的情况下,实现了不同医疗机构之间的病例数据共享,有利于疾病信息的收集和诊断。针对医疗数据具有较强隐私性的特征,不同医疗机构之间直接数据交换可能导致病人隐私泄露的问题,本发明提出了解决方案,该方案在保证数据不交换的情况下,进行医疗数据集的训练,获取病例的特征值,提高诊断的准确度,以便确定有效的治疗方案。另外,为了保障医疗数据传输的安全性,数据在上传到服务器前进行加密处理,利用区块链技术建立安全可信的合作机制,保证数据传输的安全性和可靠性。

Description

一种FL-EM-GMM的医疗用户隐私保护方法及系统
技术领域
本发明涉及一种计算机算法,特别是基于FL-EM-GMM的医疗用户隐私保护方法及系统。
背景技术
近年来,随着信息技术的不断发展,给人们的生活带来了诸多便利,特别是医疗信息领域,从传统的纸质病历向电子病历转变,用户个人的信息也存储到云端服务器;医疗机构之间的信息沟通也更加便捷,医疗疾病的特征提取也更迅速。但是,信息技术给医疗领域带来诸多便利的同时,也给用户的生活造成了一定的困扰,特别是医疗用户的隐私安全,正在遭受泄露的风险和危机。医疗用户的隐私不仅包括用户姓名、性别、年龄、电话、住址等个人信息,还包括用户的疾病信息,甚至是用户的生物信息(如:指纹、血型、DNA、面部信息等)。这些留存在医疗机构的个人信息,本来是作为病例或病人后期治疗的留存数据,如果被不法分子获取或泄露,可能会对病人造成严重的损失。例如:装有心脏起搏器的病人信息,尤其是设备信息如果被不法分子获取,攻击者可能会远程通过漏洞控制心脏起搏器工作,最终会给病人带来严重的后果。
同时,医疗用户的隐私数据不受用户本人所控制,用户无权修改或删除存储在云端服务器上的电子病历,用户不具有医疗隐私数据的所有权和处置权。同时,医疗机构在病例诊断过程中,往往会收集并使用患者的病历资料,甚至会和其它机构进行数据共享以便获得更好的医疗诊断。在这个过程中,医疗用户的隐私数据容易被泄露。如果仅仅依靠法律法规,将无法实现有效的约束,因此医疗数据的隐私保护技术尤为关键,亟需解决。
加密是保护用户信息安全的有效手段,在不被泄露密钥的情况下,它可以有效的保证用户隐私数据不被泄露。但是,加密的信息不利于病例的分享,也不利于疾病的诊断,更加不利于医疗的发展。而且,如果用户的密钥不慎遗失,医疗数据无法共享,这将不利于病人的治疗方案确立,甚至会阻碍治疗方案的进行。特别是在精准医疗的背景下,对用户信息的需求更多,如果因用户遗失密钥,而导致医疗机构无法授权访问病人医疗数据,最终也无法制定有效的治疗方案。
医疗机构对数据共享有着相应的需求,医疗数据的共享不仅有利于患者病例的研究,促进治疗方案的改进,而且可以根据医疗数据信息为患者制定精准医疗方案。如果采取简单的密钥管理,将密钥权限给患者,那么当患者遗失密钥或处于无法提供密钥授权的状态,那么势必会影响患者的救治。如果将用户权限给医疗机构管理,那么用户的隐私安全问题也得不到有效解决。因此,提供一种有效的医疗用户隐私保护方案及系统显得很有必要。
发明内容
针对现有技术中存在的问题,本发明提出了一种基于FL-EM-GMM的医疗用户隐私保护方法及系统,在病人隐私数据不泄露的情况下,实现了不同医疗机构之间的病例数据共享,有利于疾病信息的收集和诊断。
一种基于FL-EM-GMM的医疗用户隐私保护模型,包括以下步骤:
步骤1:建立基于聚类问题的高斯混合模型,利用期望最大值算法进行参数更新。
步骤2:构建联邦学习服务器;服务器主要将联邦学习方案发送给不同的医疗结构的客户端,以及接收客户端训练好的参数后进行联合分发;此过程可以人工参与分析。
步骤3:两个不同医疗机构A和B的对数据进行预处理,使用加密算法对敏感或隐私数据进行加密,并存储在内存的固定区域。
步骤4:服务器构建医疗机构A和B的通信信道,并启动通信服务;服务器向通信终端A和B发送信号,提出本次联邦学习的相关资源需求,如内存、CPU、数据大小等。
步骤5:医疗机构A和B对服务器提出的资源需求进行响应,并向服务器返回对应的数据信息,如数据大小、响应时间等,以便中央服务器进行统筹规划。
步骤6:服务器根据医疗机构A和B反馈的数据信息,进行参数初始化:服务器集群概率分配参数矩阵φ、聚类概率矩阵λ、医疗机构客户端初始类别参数矩阵μ 0 σ 0 2 ;然后,服务器整合这些初始参数,更新服务器端的集群概率分配参数矩阵φ和聚类概率矩阵λ
步骤7:服务器依据已更新的参数,将联邦学习的训练计划发送到医疗机构A和B参与训练;A客户端将接受的参数为φ、μ1 0 σ1 0 2 ,B客户端接收的参数为φ、μ2 0 σ2 0 2
医疗机构A和B根据服务器发送的参数开始训练本地数据集,更新病例特征值;医疗机构A得到一个呈现D维正态分布数据矩阵Normal(μ1 0 , σ1 0 2 ),医疗机构B也会得到一个呈现D维正态分布的数据矩阵Normal(μ2 0 , σ2 0 2 );其中t为数据联邦学习的深度。
医疗机构A和B的数据训练结束后,将发送训练结果μ1 t σ1 t 2 μ2 t σ2 t 2 到服务器中进行聚合处理,整个数据发送过程,由同态加密算法Paillier加密数据;在数据整合和传递过程中,病人的隐私数据在本地处理,全程无直接接触,可以保证病人的隐私安全。
步骤10:服务器整合来自医疗机构A和B发送的数据,更新训练数据的参数,进入新的循环,直到整个过程结束。
一种基于FL-EM-GMM的医疗用户隐私保护方法,包括以下过程:
系统初始化;输入参数为不同医疗机构数据集A和B的数据xy,以及聚类数K;训练完成后,输出结果为高斯混合模型的参数λ, μ, σ 2 和集群分配参数矩阵φ i ;中央服务器初始化的参数为λ, 客户端初始化类别参数矩阵μ 0 , σ 0 2
其中,xy表示待训练的数据,λ表示聚类概率矩阵,φ i 表示第i次的集群分配参数矩阵,μσ 2 表示客户端类别参数矩阵;μ 0 σ 0 2 表示客户端的初始聚类参数矩阵φ i
通过已知的参数,在中央服务器端进行数据迭代计算;利用如下公式,在中央服务器端,对医疗数据加密处理后,其分配参数矩阵进行计算。
Figure 327248DEST_PATH_IMAGE001
其中,Normal(x| μ1 j(t-i) ,σ1 2 j(t-i) )表示x i 数据集中的初始聚类矩阵正态分布概率,i, j, t表示迭代参数,它们的大小与数据xy的维度有关,其大小将影响到分配参数矩阵的精度。
计算服务器端的分配参数累加和;根据之前的计算结果,可以得到整个分配参数的累加和,其计算公式如下所示:
Figure 362200DEST_PATH_IMAGE002
通过前面n j(t) 计算得到的结果,可以计算聚类概率矩阵,具体的计算公式如下所示:
Figure 398289DEST_PATH_IMAGE003
在客户端A,利用同态加密算法对数据进行加密传输,并更新本地数据库中的特征参数矩阵,具体的计算公式如下:
Figure 24443DEST_PATH_IMAGE004
其中,A(μ j(t) )A(σ 2 j(t) )表示经过计算得到的客户端A中的参数矩阵,其结果与其它机构的数据x有关,经过与数据x进行计算处理后,客户端A的数据特征值会更加精确。
在客户端B,利用同样的方式,更新本地数据库中的特征参数矩阵,具体的计算公式如下:
Figure 5037DEST_PATH_IMAGE005
其中,B(μ j(t) )和B 2 j(t) )表示经过计算后得到客户端B中的参数矩阵,其结果与其它机构的数据y有关,经过与数据y进行计算处理后,客户端B的数据特征值也会同样精确。
当医疗机构A和B与服务器进行通信时,所述步骤4中的通信服务利用同态加密和区块链技术建立可信安全的传输机制,其具体的过程如下:
医疗机构A和B的数据再发送到服务器之前,利用同态加密技术对数据进行对应的加密操作,保证数据的保密性。
服务器采用云服务的的架构,利用区块链的智能合约技术,对数据进行广播分发传输,及时部分数据或信道被破坏,也不影响正常通信,服务器通信的双方均能正常接收数据,保证通信信道的安全性。
医疗机构A和B的有权限对参与训练的数据设定生命周期,只有在生命周期内的数据才能参与到整个联邦学习过程,保证数据的隐私安全性。
医疗机构A和B在参与数据训练过程中,其隐私数据不可交换,具体的步骤如下:
首先,医疗机构A和医疗机构B根据服务器的要求,对数据进行加密样本对齐,保证参与到整个训练过程中的数据的一致性。
然后,根据服务器派发的训练参数,医疗机构A和B会根据本地各自的模型参与到联邦学习系统训练中,最终得到更新的模型A和模型B。
整个训练过程都是加密的,采用加密训练模式;整个系统学习过程,医疗结构A和医疗机构B的隐私数据无直接接触,是在加密的过程中完成的,从而保证了医疗机构中病人的隐私性。
最后,服务器会接收模型A和模型B的数据,并聚合形成最终的聚合模型,然后派发给模型A和模型B,完成整个训练过程。
加密训练模型,包括以下步骤:
服务器分发密钥给医疗机构A和B,此密钥为公钥;医疗机构A和B依据公钥将对齐的明文数据进行加密。
医疗机构A和B加密交互中间结果;对齐后的加密数据A和B在服务器传递参数的作用下,进行加密数据计算,得到各自最新的训练结果参数。
医疗机构A和B会将各自的加密计算结果传递给服务器,并统筹加密汇总梯度与损失;服务器会根据计算结果,更新计算模型参数。
服务器将更新后的模型参数分别发送给医疗机构A和B,供其更新本地模型。
整个模型的聚合操作,包括:
服务器会依据不同医疗机构的实际情况,分配相应的模型参数wi给对应的医疗机构客户端k参与计算;整个计算过程是在医疗机构的本地完成,当每一轮计算结束后,医疗机构的客户端会将对应的参数传递给服务器;由服务器统筹规划,将所有机构的客户端参数聚合,完成整个聚合操作过程。
一种基于FL-EM-GMM的医疗用户隐私保护系统,包括:
医疗机构的数据在本地训练,隐私数据不交换;参与的医疗机构在本地依据所拥有的数据,通过基于梯度下降的算法,寻找模型参数,使得损失函数最小,获得最佳模型参数。
服务器端参数收集;医疗机构训练完成后的参数,通过网络传值给服务器,服务器收集来自各个用户的参数,并聚合模型参数,更新整个学习训练系统的模型。
服务器将最新的数据分发给各自参与的医疗机构,从而开始新一轮的训练学习。
有益效果:
本发明提供了一种基于FL-EM-GMM的医疗用户隐私保护方法及系统,该方法在基于密码学机制提出了一种基于联邦学习期望最大值的高斯混合模型。针对目前医疗数据具有较强隐私性的特征,不同医疗机构之间进行直接交换可能导致病人或医疗用户的隐私数据泄露,从而给病人或医疗用户带来损失。因此,本发明提出了FL-EM-GMM系统解决方案,该方案可以利用联邦学习和同态加密,在保证数据不交换的情况下,进行不同医疗机构之间的数据集的训练,保护病人隐私数据的同时,也获取病例的特征值,提高诊断的准确度,以便确定有效的治疗方案。另外,本发明为了保证医疗数据传输的安全性,在医疗机构数据上传到云服务器之前,进行有效的加密,利用区块链技术建立安全可信的合作机制,保障医疗数据传输的安全性和可靠性。
附图说明
图1为本发明所述的方法和系统模型图;
图2为本发明所述的医疗用户隐私数据保护原理图;
图3为本发明所述的数据训练操作架构示意图。
具体实施方式
下面结合附图和实施方式对本发明做进一步说明。
如图1所示,一种基于FL-EM-GMM的医疗用户隐私保护方法及系统,包括以下的步骤:
步骤1:建立基于聚类问题的高斯混合模型,利用期望最大值算法进行参数更新。
系统初始化:
输入参数为不同医疗机构数据集A和B的数据xy,以及聚类数K
训练完成后,输出结果为高斯混合模型的参数λ, μ, σ 2 和集群分配参数矩阵φ i
中央服务器初始化的参数为λ, 客户端初始化类别参数矩阵μ 0 , σ 0 2
其中,xy表示待训练的数据,λ表示聚类概率矩阵。
φ i 表示第i次的集群分配参数矩阵,μσ 0 2 表示客户端类别参数矩阵。
μ 0 σ 0 2 表示客户端的初始聚类参数矩阵。
步骤2:构建联邦学习服务器;服务器主要将联邦学习方案发送给不同的医疗结构的客户端,以及接收客户端训练好的参数后进行联合分发。
系统主要分为用户层和服务层。用户层主要由物联网设备、移动终端等组成,即为医疗机构。
服务层主要由配备有移动边缘计算服务器和具备一定存储与计算能力的基站构成,即为服务器。
其中,联邦学习本地训练运行在用户层,依据用户层的数据学习本地模型参数。
通过已知的参数,在中央服务器端进行数据迭代计算。
利用如下公式,在中央服务器端,对医疗数据加密处理后,对其分配参数的矩阵进行如下计算:
Figure 109259DEST_PATH_IMAGE006
其中,Normal(x| μ1 j(t-i) ,σ1 2 j(t-i) )表示x i 数据集中的初始聚类矩阵正态分布概率,i, j, t表示迭代参数,它们的大小与数据xy的维度有关,其大小将影响到分配参数矩阵的精度。
步骤3:两个不同医疗机构A和B的对数据进行预处理,使用加密算法对敏感或隐私数据进行加密,并存储在内存的固定区域。
客户端初始化工作完成后,就向服务器端发送计算请求,请求计算。
服务器构建医疗机构A和B的通信信道,并启动通信服务。
同时,服务器向通信终端A和B发送信号,提出本次联邦学习的相关资源需求,如内存、CPU、数据大小等。
医疗机构A和B对服务器提出的资源需求进行响应,并向服务器返回对应的数据信息,如数据参数、响应时间等,以便中央服务器进行统筹规划。
在此过程中,服务器会利用广播模型M进行广播传输;其中,全局模型M的参数如下所示:
Figure 265434DEST_PATH_IMAGE007
全局模型M的参数是由本地模型M k 聚合而来,本地模型即为医疗机构本地数据参与计算后得到的模型。
整个通信网络中,所有的通信服务由广播网络进行,广播网络的服务器为区块链架构组成,不同区块链组成不同结点,形成整个区块链网络,数据的交易和通信在区块链网络中进行,保证了数据传输的安全性。
步骤4:服务器根据医疗机构A和B反馈的数据信息,进行参数初始化。
服务器集群概率分配参数矩阵φ、聚类概率矩阵λ、医疗机构客户端初始类别参数矩阵μ 0 σ 0 2
然后,服务器整合这些初始参数,更新服务器端的集群概率分配参数矩阵和聚类概率矩阵λ。
计算服务器端的分配参数累加和。根据之前的计算结果,可以得到整个分配参数的累加和,以及聚类概率矩阵,其计算公式如下所示:
Figure 531330DEST_PATH_IMAGE008
步骤5:服务器依据已更新的参数,将联邦学习的训练计划发送到医疗机构A和B参与训练。
A客户端将接受的参数为φμ1 0 σ1 0 2 ,B客户端接收的参数为φ、μ2 0 σ2 0 2
在客户端A,利用同态加密算法对数据进行加密传输,并更新本地数据库中的特征参数矩阵,具体的计算公式如下:
Figure 140166DEST_PATH_IMAGE009
其中,A(μ j(t) )A(σ 2 j(t) )表示经过计算得到的客户端A中的参数矩阵,其结果与其它机构(医疗机构B)的数据x有关,经过与数据x进行计算处理后,客户端A的数据特征值会更加精确。
在客户端B,利用同样的方式,更新本地数据库中的特征参数矩阵,具体的计算公式如下:
Figure 313659DEST_PATH_IMAGE010
其中,B(μ j(t) )和B 2 j(t) )表示经过计算后得到客户端B中的参数矩阵,其结果与其它机构(医疗机构A)的数据y有关,经过与数据y进行计算处理后,客户端B的数据特征值也会同样精确。
医疗机构A和B根据服务器发送的参数开始训练本地数据集,更新病例特征值。
医疗机构A得到一个呈现D维正态分布数据矩阵Normal(μ1 0 , σ1 0 2 ),医疗机构B也会得到一个呈现D维正态分布的数据矩阵Normal(μ2 0 , σ2 0 2 )
其中,t为数据联邦学习的深度。
医疗机构A和B的数据训练结束后,将发送训练结果μ1 t σ1 t 2 μ2 t σ2 t 2 到服务器中进行聚合处理,整个数据发送过程,由同态加密算法Paillier加密数据。
在数据整合和传递过程中,病人的隐私数据在本地处理,全程无直接接触,可以保证病人的隐私安全。
服务器在传输过程中,采取了区块链技术,对传输的数据利用区块链进行传输,防止非法用户的数据篡改,保证数据的准确性和安全性。
步骤6:服务器整合来自医疗机构A和B发送的数据,更新训练数据的参数,进入新的循环,直到整个过程结束。
本系统利用纵向联邦学习方法,针对拥有同类样本但是不同指标维度的数据平台进行间接交互,实现同类指标数据的扩大样本量的协同计算,以提升系统整体的安全性和分析结果的完整性和全面性。
如图2所示,一种基于FL-EM-GMM的医疗用户隐私数据保护原理图,包括:
医疗机构A和医疗机构B在参与数据训练过程中,其隐私数据不可直接交换,保护用户的隐私数据安全。
如果医疗机构A向医疗机构B直接传输未经加密的隐私数据,那么服务器会阻止其通信过程,组织未经加密的数据泄露。
医疗机构A和医疗机构B根据服务器的要求,对数据进行加密样本对齐,保证参与到整个训练过程中的数据的一致性。
然后,根据服务器派发的训练参数,医疗机构A和B会根据本地各自的模型参与到联邦学习系统训练中,最终得到更新的模型A和模型B。
医疗机构参与的训练过程都是加密数据参与的,采用加密训练模式,保证了整个系统的意思数据安全性。
整个系统训练学习过程,医疗结构A和医疗机构B的隐私数据无直接接触,是在加密的过程中完成的,从而保证了医疗机构中病人的隐私性。
最后,服务器会接收模型A和模型B的数据,并聚合形成最终的聚合模型,然后派发给模型A和模型B,完成整个训练过程。
其中,加密训练模型,包括以下内容:
服务器分发密钥给医疗机构A和B,此密钥为公钥。
医疗机构A和B依据公钥将对齐的明文数据进行加密。
医疗机构A和B加密交互中间结果,整个数据的传输都是加密进行的,数据的训练也是加密的,因此可以保证隐私安全。
整个操作是在服务器监督下完成,对齐后的加密数据A和B在服务器传递参数的作用下,进行加密数据计算,得到各自最新的训练结果参数。
医疗机构A和B会将各自的加密计算结果传递给服务器,并统筹加密汇总梯度与损失;服务器会根据计算结果,更新计算模型参数。
服务器将更新后的模型参数分别发送给医疗机构A和B,供其更新本地模型。
如图3所示,一种基于FL-EM-GMM的医疗用户隐私数据训练学习操作架构示意图,包括以下的内容:
中央服务器会依据医疗机构的实际情况,分配相应的模型参数wi给对应的医疗机构客户端k参与计算。
中央服务器的模型参数并不是直接发给医疗机构的客户端,而是服务器请求接收的客户端的数据后,进行聚合操作,统一分配和统筹规划的。
医疗机构的客户端在本地下载服务器经过处理后的数据,并更新本地模型。
医疗机构的整个计算过程是在本地完成的,医疗用户的数据不直接接触,从而避免了隐私泄露的过程。
参与的医疗机构在本地依据所拥有的数据,通过基于梯度下降的算法,寻找模型参数,使得损失函数最小,获得最佳模型参数,并上传到服务器。
当每一轮计算结束后,医疗机构的客户端会将对应的参数传递给服务器。由服务器统筹规划,将所有机构的客户端参数聚合,完成整个聚合操作过程。
综上所述,本发明提出了一种基于FL-EM-GMM的医疗用户隐私保护方法及系统。针对目前医疗数据具有较强隐私性的特征,不同医疗机构之间进行直接交换可能导致病人或医疗用户的隐私数据泄露,从而给病人或医疗用户带来损失。因此,本发明提出了FL-EM-GMM系统解决方案,该方案可以利用联邦学习和同态加密,在保证数据不交换的情况下,进行不同医疗机构之间的数据集的训练,保护病人隐私数据的同时,也获取病例的特征值,提高诊断的准确度,以便确定有效的治疗方案。
本发明中所叙述的具体实施方案仅仅是对本发明所做出的具体说明,本发明所属技术领域中的技术人员可以根据实际情况,对具体实施案例做出对应的修改、补充或采取相似方式替换,但这并不会偏离本发明的精神或超出权利要求书中的定义范围。

Claims (7)

1.一种FL-EM-GMM的医疗用户隐私保护方法,其特征在于,包括以下步骤:
步骤1:建立基于聚类问题的高斯混合模型,利用期望最大值算法进行参数更新;
步骤2:构建联邦学习服务器;服务器主要将联邦学习方案发送给不同的医疗结构的客户端,以及接收客户端训练好的参数后进行联合分发;进一步地,此过程需要人工参与分析;
步骤3:两个不同医疗机构A和B的对数据进行预处理,使用加密算法对敏感或隐私数据进行加密,并存储在内存的固定区域;
步骤4:服务器构建医疗机构A和B的通信信道,并启动通信服务;同时,服务器向通信终端A和B发送信号,提出本次联邦学习的相关资源需求;所述联邦学习的相关资源需求是指内存、CPU、数据大小;
步骤5:医疗机构A和B对服务器提出的资源需求进行响应,并向服务器返回对应的数据信息,以便中央服务器进行统筹规划;所述服务器返回对应的数据信息是指数据大小、响应时间;
步骤6:服务器根据医疗机构A和B反馈的数据信息,进行参数初始化:服务器集群概率分配参数矩阵φ、聚类概率矩阵λ、医疗机构客户端初始类别参数矩阵μ 0 σ 0 2 ;然后,服务器整合这些初始参数,更新服务器端的集群概率分配参数矩阵φ和聚类概率矩阵λ
步骤7:服务器依据已更新的参数,将联邦学习的训练计划发送到医疗机构A和B参与训练;A客户端将接受的参数为φ、μ1 0 σ1 0 2 ,B客户端接收的参数为φ、μ2 0 σ2 0 2
步骤8:医疗机构A和B根据服务器发送的参数开始训练本地数据集,更新病例特征值;医疗机构A得到一个呈现D维正态分布数据矩阵
Figure 806449DEST_PATH_IMAGE001
,医疗机构B也会得到一个呈现D维正态分布的数据矩阵
Figure 799812DEST_PATH_IMAGE002
;其中t为数据联邦学习的深度;
步骤9:医疗机构A和B的数据训练结束后,将发送训练结果μ1 t σ1 t 2 μ2 t σ2 t 2 到服务器中进行聚合处理,整个数据发送过程,由同态加密算法Paillier加密数据;在数据整合和传递过程中,病人的隐私数据在本地处理;
步骤10:服务器整合来自医疗机构A和B发送的数据,更新训练数据的参数,进入新的循环,直到整个过程结束;其中,所述的FL-EM-GMM 是指联邦学习期望最大化高斯混合模型。
2.根据权利要求1所述的一种FL-EM-GMM的医疗用户隐私保护方法,其特征在于,包括以下步骤:
1) 系统初始化;输入参数为不同医疗机构数据集A和B的数据xy,以及聚类数K;训练完成后,输出结果为高斯混合模型的参数λ, μ, σ 2 和集群分配参数矩阵;中央服务器初始化的参数为λ, 客户端初始化类别参数矩阵μ 0 , σ 0 2
其中,xy表示待训练的数据,λ表示聚类概率矩阵,φ i 表示第i次的集群分配参数矩阵,μσ 2 表示客户端类别参数矩阵;μ 0 σ 0 2 表示客户端的初始聚类参数矩阵φ i
2) 通过已知的参数,在中央服务器端进行数据迭代计算;利用如下公式,在中央服务器端,对医疗数据加密处理后,其分配参数矩阵进行计算;
Figure 741093DEST_PATH_IMAGE003
其中,
Figure 415787DEST_PATH_IMAGE004
表示x i 数据集中的初始聚类矩阵正态分布概率,i, j, t表示迭代参数,它们的大小与数据xy的维度有关,其大小将影响到分配参数矩阵的精度;
3) 计算服务器端的分配参数累加和;根据2)中的计算结果,可以得到整个分配参数的累加和,其计算公式如下所示:
Figure 126123DEST_PATH_IMAGE005
4) 通过3)计算得到的结果,可以计算聚类概率矩阵,具体的计算公式如下所示:
Figure 555968DEST_PATH_IMAGE006
5) 在客户端A,利用同态加密算法对数据进行加密传输,并更新本地数据库中的特征参数矩阵,具体的计算公式如下:
Figure 735276DEST_PATH_IMAGE007
其中,A(μ j(t) )A(σ 2 j(t) )表示经过计算得到的客户端A中的参数矩阵,其结果与其它机构的数据x有关;
6) 在客户端B,利用5)中同样的方式,更新本地数据库中的特征参数矩阵,具体的计算公式如下:
Figure 197351DEST_PATH_IMAGE008
其中,B(μ j(t) )和B 2 j(t) )表示经过计算后得到客户端B中的参数矩阵,其结果与其它机构的数据y有关。
3.根据权利要求1所述的一种FL-EM-GMM的医疗用户隐私保护方法,其特征在于,当医疗机构A和B与服务器进行通信时,所述步骤4中的通信服务利用同态加密和区块链技术建立可信安全的传输机制,其具体的过程如下:
医疗机构A和B的数据再发送到服务器之前,利用同态加密技术对数据进行对应的加密操作,保证数据的保密性;
服务器采用云服务的架构,利用区块链的智能合约技术,对数据进行广播分发传输,及时部分数据或信道被破坏,也不影响正常通信,服务器通信的双方均能正常接收数据,保证通信信道的安全性;
医疗机构A和B的有权限对参与训练的数据设定生命周期,只有在生命周期内的数据才能参与到整个联邦学习过程,保证数据的隐私安全性。
4.根据权利要求1或3所述的一种FL-EM-GMM的医疗用户隐私保护方法,其特征是医疗机构A和B在参与数据训练过程中,其隐私数据不可交换,具体的步骤如下:
首先,医疗机构A和医疗机构B根据服务器的要求,对数据进行加密样本对齐,保证参与到整个训练过程中的数据的一致性;
然后,根据服务器派发的训练参数,医疗机构A和B会根据本地各自的模型参与到联邦学习系统训练中,最终得到更新的模型A和模型B;整个训练过程都是加密的,采用加密训练模式;整个系统学习过程,医疗结构A和医疗机构B的隐私数据无直接接触,是在加密的过程中完成的;
最后,服务器会接收模型A和模型B的数据,并聚合形成最终的聚合模型,然后派发给模型A和模型B,完成整个训练过程。
5.根据权利要求4中所述的方法,其特征在于,所述加密训练过程,包括以下步骤:
1) 服务器分发密钥给医疗机构A和B,此密钥为公钥;医疗机构A和B依据公钥将对齐的明文数据进行加密;
2) 医疗机构A和B加密交互中间结果;对齐后的加密数据A和B在服务器传递参数的作用下,进行加密数据计算,得到各自最新的训练结果参数;
3) 医疗机构A和B会将各自的加密计算结果传递给服务器,并统筹加密汇总梯度与损失;服务器会根据计算结果,更新计算模型参数;
4) 服务器将更新后的模型参数分别发送给医疗机构A和B,供其更新本地模型。
6.根据权利要求4所述的方法,其特征在于,所述的模型的聚合操作,包括:
服务器会依据不同医疗机构的实际情况,分配相应的模型参数w i 给对应的医疗机构客户端k参与计算;整个计算过程是在医疗机构的本地完成,当每一轮计算结束后,医疗机构的客户端会将对应的参数传递给服务器;由服务器统筹规划,将所有机构的客户端参数聚合,完成整个聚合操作过程。
7.用以实现权利要求1或2所述方法的一种FL-EM-GMM的医疗用户隐私保护系统,其特征在于,包括:
医疗机构的数据在本地训练,隐私数据不交换;参与的医疗机构在本地依据所拥有的数据,通过基于梯度下降的算法,寻找模型参数,使得损失函数最小,获得最佳模型参数;
服务器端参数收集;医疗机构训练完成后的参数,通过网络传值给服务器,服务器收集来自各个用户的参数,并聚合模型参数,更新整个学习训练系统的模型;服务器将最新的数据分发给各自参与的医疗机构,从而开始新一轮的训练学习。
CN202011187217.XA 2020-10-29 2020-10-29 一种fl-em-gmm的医疗用户隐私保护方法及系统 Active CN112231756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011187217.XA CN112231756B (zh) 2020-10-29 2020-10-29 一种fl-em-gmm的医疗用户隐私保护方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011187217.XA CN112231756B (zh) 2020-10-29 2020-10-29 一种fl-em-gmm的医疗用户隐私保护方法及系统

Publications (2)

Publication Number Publication Date
CN112231756A CN112231756A (zh) 2021-01-15
CN112231756B true CN112231756B (zh) 2022-05-27

Family

ID=74123005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011187217.XA Active CN112231756B (zh) 2020-10-29 2020-10-29 一种fl-em-gmm的医疗用户隐私保护方法及系统

Country Status (1)

Country Link
CN (1) CN112231756B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800178A (zh) * 2021-01-28 2021-05-14 平安科技(深圳)有限公司 答案生成方法、装置、电子设备及可读存储介质
CN112966307B (zh) * 2021-04-20 2023-08-22 钟爱健康科技(广东)有限公司 一种基于联邦学习张量因子分解的医疗隐私数据保护方法
CN113411329B (zh) * 2021-06-17 2022-06-28 浙江工业大学 基于dagmm的联邦学习后门攻击防御方法
CN113704778A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 基于同态加密的机器学习线性模型预测方法
CN113705825A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 适用于多方使用的数据模型共享方法
CN113449329A (zh) * 2021-08-31 2021-09-28 国网浙江省电力有限公司信息通信分公司 基于安全分享的联邦学习场景下的能源数据融合计算方法
CN115422596B (zh) * 2022-11-02 2023-01-13 北京锘崴信息科技有限公司 采用隐私保护算法确定数据、金融和医疗数据有效性方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018017467A1 (en) * 2016-07-18 2018-01-25 NantOmics, Inc. Distributed machine learning systems, apparatus, and methods
US10970402B2 (en) * 2018-10-19 2021-04-06 International Business Machines Corporation Distributed learning preserving model security
CN109684855B (zh) * 2018-12-17 2020-07-10 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
WO2020185973A1 (en) * 2019-03-11 2020-09-17 doc.ai incorporated System and method with federated learning model for medical research applications
CN111180061B (zh) * 2019-12-09 2023-05-02 广东工业大学 融合区块链与联邦学习的共享医疗数据智能辅助诊断系统

Also Published As

Publication number Publication date
CN112231756A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112231756B (zh) 一种fl-em-gmm的医疗用户隐私保护方法及系统
CN107231351A (zh) 电子证件的管理方法及相关设备
CN110213737B (zh) 基于联盟链建立体域网信息安全机制的方法
CN110322240A (zh) 基于多个区块链的数据共享方法
CN113467927A (zh) 一种基于区块链的参与方可信任的联邦学习方法和装置
CN112101403B (zh) 基于联邦少样本网络模型的分类方法、系统及电子设备
Tian et al. A voting protocol based on the controlled quantum operation teleportation
DE202016008584U1 (de) Systeme zur Bereitstellung einer Blockketten-basierten Multifaktor-Identitätsprüfung von Personen
CN108629583A (zh) 基于分布式技术实现数字资产在映射链上的映射系统及相应方法
CN115765965A (zh) 基于联邦学习和双联盟区块链的医疗数据安全共享方法
CN116738444B (zh) 基于夏普利值的数据安全共享平台多方贡献度评估方法
CN113972012A (zh) 基于联盟链和公有链的传染病防控协同系统
KR102457915B1 (ko) 블록체인의 스마트 컨트랙트를 이용한 전자 투표 시스템 및 방법
CN110648735B (zh) 一种基于区块链的电子病历可信共享方法及系统
Waheed et al. Fedblockhealth: A synergistic approach to privacy and security in IoT-enabled healthcare through federated learning and blockchain
CN117592101A (zh) 基于新型区块链结构的医疗数据细粒度安全共享方法
CN112085051A (zh) 基于加权投票的图像分类方法、系统及电子设备
Meshram et al. Conformal Chebyshev chaotic map-based remote user password authentication protocol using smart card
Yang et al. Consortium blockchain private key protection scheme based on rational secret sharing and blockchain
CN113657616B (zh) 联邦学习模型的更新方法和装置
CN113837397B (zh) 基于联邦学习的模型训练方法、装置及相关设备
CN113034139B (zh) 基于活体生物特征认证的区块链多币钱包及其实现方法
CN114629653A (zh) 基于区块链的医疗影像共享方法及系统
CN115292745A (zh) 基于区块链的医疗数据价值流通方法
CN115086049A (zh) 基于可验证延迟函数的区块链医疗数据共享系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230712

Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Dragon totem Technology (Hefei) Co.,Ltd.

Address before: 425199 130 Yang Zi Tang Road, Lingling District, Yongzhou, Hunan.

Patentee before: HUNAN University OF SCIENCE AND ENGINEERING

Effective date of registration: 20230712

Address after: 571900 5th Floor, A-22, Hainan Ecological Software Park, Old Town High tech Industry Demonstration Zone, Chengmai County, Hainan Province

Patentee after: Hainan Xiaopeng Health Internet Hospital Co.,Ltd.

Address before: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee before: Dragon totem Technology (Hefei) Co.,Ltd.