CN117393148A - 一种能够保护患者隐私的智能医疗联邦学习方法和装置 - Google Patents
一种能够保护患者隐私的智能医疗联邦学习方法和装置 Download PDFInfo
- Publication number
- CN117393148A CN117393148A CN202311407440.4A CN202311407440A CN117393148A CN 117393148 A CN117393148 A CN 117393148A CN 202311407440 A CN202311407440 A CN 202311407440A CN 117393148 A CN117393148 A CN 117393148A
- Authority
- CN
- China
- Prior art keywords
- learning method
- intelligent medical
- federal learning
- site
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 230000003595 spectral effect Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 17
- MZWGYEJOZNRLQE-KXQOOQHDSA-N 1-stearoyl-2-myristoyl-sn-glycero-3-phosphocholine Chemical compound CCCCCCCCCCCCCCCCCC(=O)OC[C@H](COP([O-])(=O)OCC[N+](C)(C)C)OC(=O)CCCCCCCCCCCCC MZWGYEJOZNRLQE-KXQOOQHDSA-N 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000002441 reversible effect Effects 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 239000003814 drug Substances 0.000 claims description 5
- 238000003745 diagnosis Methods 0.000 claims description 4
- 230000004807 localization Effects 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种能够保护患者隐私的智能医疗联邦学习方法和装置,涉及智能医疗技术领域,所述能够保护患者隐私的智能医疗联邦学习方法包括下述操作步骤:S1、数据预处理;S2、计算余弦相似度;S3、谱聚类;S4、集群训练。该能够保护患者隐私的智能医疗联邦学习方法和装置,对于数据的预处理方法和调度策略保证了用户的数据隐私,在达到模型训练的功能需求的同时,不同的站点之间,无法看到其他站点的个人信息,解决了联合学习中非IID数据和患者隐私保护的问题,本案用ICU数据预测病人死亡情况,可以扩展到其他表型分析任务。
Description
技术领域
本发明涉及智能医疗技术领域,具体为一种能够保护患者隐私的智能医疗联邦学习方法和装置。
背景技术
深度学习在电子健康记录(EHR)上的应用已被广泛且成功地应用于一系列目标,例如疾病风险预测、诊断支持,为了利用深度学习模型对EHR数据固有的高维度的预测能力,需要大量样本,采样不足或过度指定的模型更有可能在训练数据集上过度拟合,并且在应用于新数据集时泛化能力较差,单个医疗机构通常没有足够的能力和数据来开发预测模型,实现更复杂和更准确的模型的一种解决方案是增加可用的训练数据,这个一般通过志愿者采集更多的数据,另一种选择是机构之间数据共享,但监管带来的法律问题,例如隐私保护问题,限制了机构之间广泛的数据共享;
而联邦学习(FL)是支持跨站点协作学习同时最大限度地减少隐私问题的一种解决方案,FL是一种分布式机器学习方法,使多个站点能够协作训练模型,同时保持数据本地化,该过程涉及站点与中央服务器共享本地训练的模型参数,然后中央服务器聚合这些参数以创建全局模型,这个过程会重复多次训练,直到获得最终的全局模型,这些参数通过常用算法联合平均(FedAvg)进行聚合,该算法使用样本大小加权平均来组合模型参数。
当前,联合学习(FL)是一种常用的机器学习方法,使多个组织在能够训练模型的同时,无需与中央服务器共享数据,然而,如果训练的数据样本是非同一独立分布(non-IID)的,那么FL的性能会显着下降,特别在智能医疗方面,患者群体的差异极大,导致了医院之间的样本数据分布差异,个性化FL通过考虑站点特定的分布差异来解决此问题,一般采用聚类FL的方法,通过将医院内的患者分组,并在每个组上训练单独的模型来解决此问题,技术上确实可行,但是在隐私保护问题上,仍然是一个问题,因为聚类过程需要交换患者级别的信息,FL的初衷就是每个组织独立训练,无需共享数据,当前的通用方法,是使用聚合后的数据,重新分成不同的组,但这个解决方案会导致分组不准确,以及性能下降。
于是,有鉴于此,针对现有的结构及缺失予以研究改良,提出一种能够保护患者隐私的智能医疗联邦学习方法和装置。
发明内容
针对现有技术的不足,本发明提供了一种能够保护患者隐私的智能医疗联邦学习方法和装置,解决了上述背景技术中提出的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种能够保护患者隐私的智能医疗联邦学习方法,所述能够保护患者隐私的智能医疗联邦学习方法包括下述操作步骤:
S1、数据预处理:
训练编码器来创建嵌入向量,联合自动编码器以获得每个特征域的潜在变量,潜在变量连接起来形成患者嵌入向量;
S2、计算余弦相似度:
采用SMPC协议计算嵌入向量之间的余弦相似度,SMPC使用秘密共享方案来联合计算向量对之间的点积;
S3、谱聚类:
使用由嵌入的成对余弦相似度生成的相似度矩阵对患者进行聚类;
S4、集群训练:
基于集群到FL训练,每个模型都在每个集群单独训练。
进一步的,所述步骤S1中,嵌入向量是将一个高纬度向量嵌入到低纬度的空间中。
进一步的,所述步骤S1中,数据预处理的具体操作如下:
采用一个6层的全连接网络结构,包括一个三层编码器和一个相同的三层解码器来创建患者嵌入,为了减少过度拟合,30%的特征在训练过程中被随机破坏,即30%的特征被强制为0,为每个特征域训练了一个单独的自动编码器,隐藏层中使用ReLU作为激活函数,在最终输出层中使用sigmoid作为激活函数,损失函数为MSE,使用学习率为1e-3且batch大小为32的Adam优化器,汇总来说,输入是一个患者的所有特征,生成的嵌入向量连接了所有潜在的用户特征。
进一步的,所述特征域包括药物、诊断和体检。
进一步的,所述步骤S2中,SMPC是一种加密技术,允许各方共同计算其输入的函数,同时保持输入秘密,即仅提供输出。
进一步的,所述步骤S2中,SMPC通过数学保证保护隐私免受外部对手和其他相关方的侵害,并允许精确计算站点之间的余弦相似度,使用秘密共享计算跨站点的点积建立对手模型,主要包括以下步骤:
嵌入向量的维度为d,site1上有数据集A(维度N1xd),site2上有数据集B(维度N2xd),Ni表示样本的数量;
步骤一:创建一个随机的长宽是dxd的可逆矩阵M,采用Reed-Hoffman编码,将M发送给site1,然后将M-1发送给site2;
步骤二:每个站点上,将他们的数据集划分成子矩阵,然后用M或者M-1来进行掩码操作;
步骤三:被掩码操作后的子矩阵,在站点之间共享;
步骤四:被掩码操作后的子矩阵用来生成最终的矩阵点积;
进一步说明以上步骤,
站点1计算A1=A×Mleft,A2=A×Mright,然后将A1发给服务器;
站点2计算然后将B2发给服务器;
服务器将B2发给站点1,将A1发给站点2;
站点1计算Va=A2×B2,然后将Va发给服务端;
站点2计算Vb=A1×B1,然后将Vb发给服务端;
理论分析如下面公式:
公式说明了M的具体值并不影响最终的计算结果,只要M是可逆的矩阵即可,将A拆分成了左右两个部分;
B拆分成了上下两个部分即B1和B2,对应以上公式的下标left、right、top、bottom。
进一步的,所述步骤四中,在计算点积之前,所有嵌入向量首先经过L2归一化,因此该乘积相当于余弦相似度。
进一步的,所述步骤S3中,进行聚类时,首先基于WCSS计算簇1-10的簇内平方和,WCSS是衡量集群紧凑性的指标,再使用elbow point选择绘图的“肘”点,在此之后额外的簇不会导致WCSS的实质性改进即簇的紧凑性,由此用于确定解释数据集中方差所需的最小簇数,小的WCSS意味着数据点更加紧凑,表明相似点的聚类更加紧密,并选择3个集群,具体选择数量根据实际需求调整。
进一步的,所述步骤S4中,FL指的是联邦学习,其是一种分布式机器学习方法,使多个站点能够协作训练模型,同时保持数据本地化。
一种装置,该装置为服务器,所述服务器应用有如上所述的能够保护患者隐私的智能医疗联邦学习方法。
本发明提供了一种能够保护患者隐私的智能医疗联邦学习方法和装置,具备以下有益效果:
该能够保护患者隐私的智能医疗联邦学习方法和装置,对于数据的预处理方法和调度策略保证了用户的数据隐私,在达到模型训练的功能需求的同时,不同的站点之间,无法看到其他站点的个人信息,解决了联合学习中非IID数据和患者隐私保护的问题,本案用ICU数据预测病人死亡情况,可以扩展到其他表型分析任务。
附图说明
图1为本发明一种能够保护患者隐私的智能医疗联邦学习方法的操作步骤流程示意图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
如图1所示,本发明提供技术方案:一种能够保护患者隐私的智能医疗联邦学习方法,能够保护患者隐私的智能医疗联邦学习方法包括下述操作步骤:
S1、数据预处理:
训练编码器来创建嵌入向量,联合自动编码器以获得每个特征域的潜在变量,潜在变量连接起来形成患者嵌入向量;
其中,嵌入向量是将一个高纬度向量嵌入到低纬度的空间中;
数据预处理的具体操作如下:
采用一个6层的全连接网络结构,包括一个三层编码器和一个相同的三层解码器来创建患者嵌入,为了减少过度拟合,30%的特征在训练过程中被随机破坏,即30%的特征被强制为0,为每个特征域训练了一个单独的自动编码器,隐藏层中使用ReLU作为激活函数,在最终输出层中使用sigmoid作为激活函数,损失函数为MSE,使用学习率为1e-3且batch大小为32的Adam优化器,汇总来说,输入是一个患者的所有特征即原始记录,生成输出的就是嵌入向量,其连接了所有潜在的用户特征,而特征域包括药物、诊断和体检;
嵌入向量的获得参考下述网址:
https://www.zhihu.com/tardis/zm/art/475086668?source_id=1005;
并推荐下述实现方法:比如原始记录[F1,F2,F3..FN],Fx表示一个特征的值,作为输入,处理方法采用Node2Vector的方法生成,方法描述具体论文:node2vec:ScalableFeature Learning for Networks;
由于上述关于获得嵌入向量的方法已被公开,故不在此详细描述;
S2、计算余弦相似度:
采用SMPC协议计算嵌入向量之间的余弦相似度,SMPC使用秘密共享方案来联合计算向量对之间的点积;
其中,SMPC是一种加密技术,允许各方共同计算其输入的函数,同时保持输入秘密,即仅提供输出,SMPC通过数学保证保护隐私免受外部对手和其他相关方的侵害,并允许精确计算站点之间的余弦相似度,使用秘密共享计算跨站点的点积建立对手模型,主要包括以下步骤:
嵌入向量的维度为d,site1上有数据集A(维度N1xd),site2上有数据集B(维度N2xd),Ni表示样本的数量;
步骤一:创建一个随机的长宽是dxd的可逆矩阵M,采用Reed-Hoffman编码,将M发送给site1,然后将M-1发送给site2;
步骤二:每个站点上,将他们的数据集划分成子矩阵,然后用M或者M-1来进行掩码操作;
步骤三:被掩码操作后的子矩阵,在站点之间共享;
步骤四:被掩码操作后的子矩阵用来生成最终的矩阵点积,而在计算点积之前,所有嵌入向量首先经过L2归一化,因此该乘积相当于余弦相似度;
进一步说明以上步骤,
站点1计算A1=A×Mleft,A2=A×Mright,然后将A1发给服务器;
站点2计算然后将B2发给服务器;
服务器将B2发给站点1,将A1发给站点2;
站点1计算Va=A2×B2,然后将Va发给服务端;
站点2计算Vb=A1×B1,然后将Vb发给服务端;
理论分析如下面公式:
公式说明了M的具体值并不影响最终的计算结果,只要M是可逆的矩阵即可,将A拆分成了左右两个部分;
B拆分成了上下两个部分即B1和B2,对应以上公式的下标left、right、top、bottom;
基于上述步骤实现安全计算,是因为任何一方都没有足够的信息,而仅使用一些子矩阵,来重建原始数据集,只要站点仅共享其编码矩阵的一半(A1和B2),问题的解决方案就有无限多个,该方法依赖于安全矩阵M的构造,该矩阵使用最大距离可分离(MDS)代码(例如Reed-Solomon代码)生成,MDS代码确保列的任何子集彼此线性独立,从而无法恢复原始数据;
S3、谱聚类:
使用由嵌入的成对余弦相似度生成的相似度矩阵对患者进行聚类;
其中,进行聚类时,首先基于WCSS计算簇1-10的簇内平方和,WCSS是衡量集群紧凑性的指标,再使用elbow point(求取肘点的方式,即用point求elbow_python-以稳定的方式找到曲线的肘点)选择绘图的“肘”点,在此之后额外的簇不会导致WCSS的实质性改进即簇的紧凑性,这是一种启发式方法(启发式的意思就是选择的可能是局部最优解,不是全局最优解),由此用于确定解释数据集中方差所需的最小簇数,小的WCSS意味着数据点更加紧凑,表明相似点的聚类更加紧密,并选择3个集群,具体选择数量根据实际需求调整;
S4、集群训练:
基于集群到FL训练,每个模型都在每个集群单独训练,FL指的是联邦学习,其是一种分布式机器学习方法,使多个站点能够协作训练模型,同时保持数据本地化;
具体采用ReLU作为激活函数,采用Binary Cross Entropy(是一种损失函数的公式)作为损失函数,Binary Cross Entropy公式如下:
Adam作为优化器,学习率和学习轮次,分片大小根据实际情况确定,激活函数,损失函数,优化器的选择,可以根据具体情况调整;
不同的数据集定义往往可能不同,此处的数据集若定义为0则表示为存活,若为1则表示死亡,而针对不同的数据源,结构化的方法,只要对同一个数据或者场景,采用一样的定义即可,例如拿到5份数据源,是否存活这个域,有的用AB代表存活或者死亡,有的用文字代表,结构化的方法,就是将格式统一,统一为一个表,行是记录,列是域,是否存活用一列表示,值为1表示存活,0表示死亡。
一种装置,该装置为服务器,所述服务器应用有如上所述的能够保护患者隐私的智能医疗联邦学习方法。
基于上述内容,从三个方面对隐私进行保护:
1.采用联邦学习方法,不同client之间并没有样本数据共享,不需要将敏感数据进行网络传输;
2.使用SMPC将聚类预处理步骤合并到联邦学习中,SMPC-Secure multipartycomputation(MPC/SMPC),安全多方计算,安全多方计算(也称为安全计算、多方计算(MPC)或隐私保护计算)是密码学的一个子领域,其目标是为各方创建方法来共同计算其输入的函数,同时保留这些输入的隐私,与传统的密码学任务不同,在传统的密码学任务中,密码学确保通信或存储的安全性和完整性,并且对手(潜在的破坏者,发送者和接收者的窃听者)位于参与者系统之外,而该模型中的密码学可以保护参与者彼此的隐私;
3.采用了谱聚类的方法,聚类过程避免了交换患者级别的信息。
综上,如图1所示,该能够保护患者隐私的智能医疗联邦学习方法和装置,使用时,首先训练编码器来创建嵌入向量,联合自动编码器以获得每个特征域的潜在变量,潜在变量连接起来形成患者嵌入向量;
数据预处理的具体操作如下:
采用一个6层的全连接网络结构,包括一个三层编码器和一个相同的三层解码器来创建患者嵌入,为了减少过度拟合,30%的特征在训练过程中被随机破坏,即30%的特征被强制为0,为每个特征域训练了一个单独的自动编码器,隐藏层中使用ReLU作为激活函数,在最终输出层中使用sigmoid作为激活函数,损失函数为MSE,使用学习率为1e-3且batch大小为32的Adam优化器,汇总来说,输入是一个患者的所有特征,生成的嵌入向量连接了所有潜在的用户特征,而特征域包括药物、诊断和体检;
采用SMPC协议计算嵌入向量之间的余弦相似度,SMPC使用秘密共享方案来联合计算向量对之间的点积;
其中,SMPC是一种加密技术,允许各方共同计算其输入的函数,同时保持输入秘密,即仅提供输出,SMPC通过数学保证保护隐私免受外部对手和其他相关方的侵害,并允许精确计算站点之间的余弦相似度,使用秘密共享计算跨站点的点积建立对手模型,主要包括以下步骤:
嵌入向量的维度为d,site1上有数据集A(维度N1xd),site2上有数据集B(维度N2xd),Ni表示样本的数量;
步骤一:创建一个随机的长宽是dxd的可逆矩阵M,采用Reed-Hoffman编码,将M发送给site1,然后将M-1发送给site2;
步骤二:每个站点上,将他们的数据集划分成子矩阵,然后用M或者M-1来进行掩码操作;
步骤三:被掩码操作后的子矩阵,在站点之间共享;
步骤四:被掩码操作后的子矩阵用来生成最终的矩阵点积,而在计算点积之前,所有嵌入向量首先经过L2归一化,因此该乘积相当于余弦相似度;
进一步说明以上步骤,
站点1计算A1=A×Mleft,A2=A×Mright,然后将A1发给服务器;
站点2计算然后将B2发给服务器;
服务器将B2发给站点1,将A1发给站点2;
站点1计算Va=A2×B2,然后将Va发给服务端;
站点2计算Vb=A1×B1,然后将Vb发给服务端;
理论分析如下面公式:
公式说明了M的具体值并不影响最终的计算结果,只要M是可逆的矩阵即可,将A拆分成了左右两个部分;
B拆分成了上下两个部分即B1和B2,对应以上公式的下标left、right、top、bottom;
使用由嵌入的成对余弦相似度生成的相似度矩阵对患者进行聚类;
选择3个集群,具体选择数量根据实际需求调整;
基于集群到FL训练,每个模型都在每个集群单独训练,FL指的是联邦学习,其是一种分布式机器学习方法,使多个站点能够协作训练模型,同时保持数据本地化。
本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (10)
1.一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述能够保护患者隐私的智能医疗联邦学习方法包括下述操作步骤:
S1、数据预处理:
训练编码器来创建嵌入向量,联合自动编码器以获得每个特征域的潜在变量,潜在变量连接起来形成患者嵌入向量;
S2、计算余弦相似度:
采用SMPC协议计算嵌入向量之间的余弦相似度,SMPC使用秘密共享方案来联合计算向量对之间的点积;
S3、谱聚类:
使用由嵌入的成对余弦相似度生成的相似度矩阵对患者进行聚类;
S4、集群训练:
基于集群到FL训练,每个模型都在每个集群单独训练。
2.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述步骤S1中,嵌入向量是将一个高纬度向量嵌入到低纬度的空间中。
3.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述步骤S1中,数据预处理的具体操作如下:
采用一个6层的全连接网络结构,包括一个三层编码器和一个相同的三层解码器来创建患者嵌入,30%的特征在训练过程中被随机破坏,即30%的特征被强制为0,为每个特征域训练了一个单独的自动编码器,隐藏层中使用ReLU作为激活函数,在最终输出层中使用sigmoid作为激活函数,损失函数为MSE,使用学习率为1e-3且batch大小为32的Adam优化器,汇总来说,输入是一个患者的所有特征,生成的嵌入向量连接了所有潜在的用户特征。
4.根据权利要求3所述的一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述特征域包括药物、诊断和体检。
5.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述步骤S2中,SMPC是一种加密技术,允许各方共同计算其输入的函数,同时保持输入秘密,即仅提供输出。
6.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述步骤S2中,SMPC通过数学保证保护隐私免受外部对手和其他相关方的侵害,并允许精确计算站点之间的余弦相似度,使用秘密共享计算跨站点的点积建立对手模型,主要包括以下步骤:
嵌入向量的维度为d,site1上有数据集A(维度N1xd),site2上有数据集B(维度N2xd),Ni表示样本的数量;
步骤一:创建一个随机的长宽是dxd的可逆矩阵M,采用Reed-Hoffman编码,将M发送给site1,然后将M-1发送给site2;
步骤二:每个站点上,将他们的数据集划分成子矩阵,然后用M或者M-1来进行掩码操作;
步骤三:被掩码操作后的子矩阵,在站点之间共享;
步骤四:被掩码操作后的子矩阵用来生成最终的矩阵点积;
进一步说明以上步骤,
站点1计算A1=A×Mleft,A2=A×Mright,然后将A1发给服务器;
站点2计算然后将B2发给服务器;
服务器将B2发给站点1,将A1发给站点2;
站点1计算Va=A2×B2,然后将Va发给服务端;
站点2计算Vb=A1×B1,然后将Vb发给服务端;
理论分析如下面公式:
7.根据权利要求6所述的一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述步骤四中,在计算点积之前,所有嵌入向量首先经过L2归一化,因此该乘积相当于余弦相似度。
8.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述步骤S3中,进行聚类时,首先基于WCSS计算簇1-10的簇内平方和,WCSS是衡量集群紧凑性的指标,再使用elbow point选择绘图的“肘”点。
9.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述步骤S4中,FL指的是联邦学习,其是一种分布式机器学习方法,使多个站点能够协作训练模型,同时保持数据本地化。
10.一种装置,其特征在于:该装置为服务器,所述服务器应用有如权利要求1-9任意一项所述的能够保护患者隐私的智能医疗联邦学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311407440.4A CN117393148B (zh) | 2023-10-27 | 2023-10-27 | 一种能够保护患者隐私的智能医疗联邦学习方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311407440.4A CN117393148B (zh) | 2023-10-27 | 2023-10-27 | 一种能够保护患者隐私的智能医疗联邦学习方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117393148A true CN117393148A (zh) | 2024-01-12 |
CN117393148B CN117393148B (zh) | 2024-06-07 |
Family
ID=89438854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311407440.4A Active CN117393148B (zh) | 2023-10-27 | 2023-10-27 | 一种能够保护患者隐私的智能医疗联邦学习方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117393148B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020229684A1 (en) * | 2019-05-16 | 2020-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concepts for federated learning, client classification and training data similarity measurement |
CN115759289A (zh) * | 2022-11-16 | 2023-03-07 | 海南大学 | 基于用户分组协同的联邦学习方法、系统及装置 |
CN116523074A (zh) * | 2023-05-16 | 2023-08-01 | 许昌学院 | 动态化公平性的隐私保护联邦深度学习方法 |
CN116595584A (zh) * | 2023-05-19 | 2023-08-15 | 西安体育学院 | 基于云雾架构纵向联邦学习的体医数据融合隐私保护方法 |
CN116822581A (zh) * | 2023-08-29 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 变分自编码器的训练、图像处理以及所有权检测方法 |
-
2023
- 2023-10-27 CN CN202311407440.4A patent/CN117393148B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020229684A1 (en) * | 2019-05-16 | 2020-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concepts for federated learning, client classification and training data similarity measurement |
CN115759289A (zh) * | 2022-11-16 | 2023-03-07 | 海南大学 | 基于用户分组协同的联邦学习方法、系统及装置 |
CN116523074A (zh) * | 2023-05-16 | 2023-08-01 | 许昌学院 | 动态化公平性的隐私保护联邦深度学习方法 |
CN116595584A (zh) * | 2023-05-19 | 2023-08-15 | 西安体育学院 | 基于云雾架构纵向联邦学习的体医数据融合隐私保护方法 |
CN116822581A (zh) * | 2023-08-29 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 变分自编码器的训练、图像处理以及所有权检测方法 |
Non-Patent Citations (2)
Title |
---|
"《清华大学学报》(自然科学版)第45卷第1―12, S1期2005年总目次", 清华大学学报(自然科学版), no. 12, 25 December 2005 (2005-12-25) * |
周俊;方国英;吴楠;: "联邦学习安全与隐私保护研究综述", 西华大学学报(自然科学版), no. 04, 10 July 2020 (2020-07-10) * |
Also Published As
Publication number | Publication date |
---|---|
CN117393148B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rani et al. | Federated learning for secure IoMT-applications in smart healthcare systems: A comprehensive review | |
Almalawi et al. | Managing security of healthcare data for a modern healthcare system | |
Hoen et al. | Phylogeography of Borrelia burgdorferi in the eastern United States reflects multiple independent Lyme disease emergence events | |
Moafimadani et al. | A new algorithm for medical color images encryption using chaotic systems | |
Mandala et al. | Privacy preservation of data using crow search with adaptive awareness probability | |
Cha et al. | Implementing vertical federated learning using autoencoders: Practical application, generalizability, and utility study | |
Kong et al. | Achieve location privacy-preserving range query in vehicular sensing | |
Abdel Hakeem et al. | Centralized threshold key generation protocol based on Shamir secret sharing and HMAC authentication | |
Siddique et al. | Privacy-enhanced pneumonia diagnosis: IoT-enabled federated multi-party computation in industry 5.0 | |
Georgieva-Tsaneva et al. | Mathematically Based Assessment of the Accuracy of Protection of Cardiac Data Realized with the Help of Cryptography and Steganography | |
Liu et al. | Efficient and secure federated learning for financial applications | |
CN117393148B (zh) | 一种能够保护患者隐私的智能医疗联邦学习方法和装置 | |
CN117789983A (zh) | 基于人工智能的血栓性微血管疾病多源数据处理方法 | |
Wang et al. | Privacy-preserving and lightweight selective aggregation with fault-tolerance for edge computing-enhanced IoT | |
Li et al. | Efficient Quantum Private Comparison without Sharing a Key | |
Zhu et al. | An efficient encryption algorithm for the security of sensitive private information in cyber-physical systems | |
Zhang et al. | Granular content distribution for IoT remote sensing data supporting privacy preservation | |
Zhang et al. | A Chunked and Disordered Data Privacy Protection Algorithm: Application to Resource Platform Systems | |
Veugen | Lightweight secure integer comparison | |
Giannopoulos et al. | Privacy preserving medical data analytics using secure multi party computation. an end-to-end use case | |
Wang et al. | FedDNA: Federated learning using dynamic node alignment | |
Angulo et al. | Training of Classification Models via Federated Learning and Homomorphic Encryption | |
Xia et al. | An information theoretically secure e-lottery scheme based on symmetric bivariate polynomials | |
Zhu et al. | Distributed Random Beacon for Blockchain Based on Share Recovery Threshold Signature | |
Rathinaeaswari et al. | A New Efficient and Privacy-Preserving Hybrid Classification model for Patient-Centric Clinical Decision Support System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |