CN117393148B - 一种能够保护患者隐私的智能医疗联邦学习方法和装置 - Google Patents

一种能够保护患者隐私的智能医疗联邦学习方法和装置 Download PDF

Info

Publication number
CN117393148B
CN117393148B CN202311407440.4A CN202311407440A CN117393148B CN 117393148 B CN117393148 B CN 117393148B CN 202311407440 A CN202311407440 A CN 202311407440A CN 117393148 B CN117393148 B CN 117393148B
Authority
CN
China
Prior art keywords
site
patient
learning method
intelligent medical
privacy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311407440.4A
Other languages
English (en)
Other versions
CN117393148A (zh
Inventor
刘德生
周宇
王斌
王微
龙真真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Jingrui Suzhou Technology Co ltd
Original Assignee
Zhongke Jingrui Suzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Jingrui Suzhou Technology Co ltd filed Critical Zhongke Jingrui Suzhou Technology Co ltd
Priority to CN202311407440.4A priority Critical patent/CN117393148B/zh
Publication of CN117393148A publication Critical patent/CN117393148A/zh
Application granted granted Critical
Publication of CN117393148B publication Critical patent/CN117393148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种能够保护患者隐私的智能医疗联邦学习方法和装置,涉及智能医疗技术领域,所述能够保护患者隐私的智能医疗联邦学习方法包括下述操作步骤:S1、数据预处理;S2、计算余弦相似度;S3、谱聚类;S4、集群训练。该能够保护患者隐私的智能医疗联邦学习方法和装置,对于数据的预处理方法和调度策略保证了用户的数据隐私,在达到模型训练的功能需求的同时,不同的站点之间,无法看到其他站点的个人信息,解决了联合学习中非IID数据和患者隐私保护的问题,本案用ICU数据预测病人死亡情况,可以扩展到其他表型分析任务。

Description

一种能够保护患者隐私的智能医疗联邦学习方法和装置
技术领域
本发明涉及智能医疗技术领域,具体为一种能够保护患者隐私的智能医疗联邦学习方法和装置。
背景技术
深度学习在电子健康记录(EHR)上的应用已被广泛且成功地应用于一系列目标,例如疾病风险预测、诊断支持,为了利用深度学习模型对EHR数据固有的高维度的预测能力,需要大量样本,采样不足或过度指定的模型更有可能在训练数据集上过度拟合,并且在应用于新数据集时泛化能力较差,单个医疗机构通常没有足够的能力和数据来开发预测模型,实现更复杂和更准确的模型的一种解决方案是增加可用的训练数据,这个一般通过志愿者采集更多的数据,另一种选择是机构之间数据共享,但监管带来的法律问题,例如隐私保护问题,限制了机构之间广泛的数据共享;
而联邦学习(FL)是支持跨站点协作学习同时最大限度地减少隐私问题的一种解决方案,FL是一种分布式机器学习方法,使多个站点能够协作训练模型,同时保持数据本地化,该过程涉及站点与中央服务器共享本地训练的模型参数,然后中央服务器聚合这些参数以创建全局模型,这个过程会重复多次训练,直到获得最终的全局模型,这些参数通过常用算法联合平均(FedAvg)进行聚合,该算法使用样本大小加权平均来组合模型参数。
当前,联合学习(FL)是一种常用的机器学习方法,使多个组织在能够训练模型的同时,无需与中央服务器共享数据,然而,如果训练的数据样本是非同一独立分布(non-IID)的,那么FL的性能会显着下降,特别在智能医疗方面,患者群体的差异极大,导致了医院之间的样本数据分布差异,个性化FL通过考虑站点特定的分布差异来解决此问题,一般采用聚类FL的方法,通过将医院内的患者分组,并在每个组上训练单独的模型来解决此问题,技术上确实可行,但是在隐私保护问题上,仍然是一个问题,因为聚类过程需要交换患者级别的信息,FL的初衷就是每个组织独立训练,无需共享数据,当前的通用方法,是使用聚合后的数据,重新分成不同的组,但这个解决方案会导致分组不准确,以及性能下降。
于是,有鉴于此,针对现有的结构及缺失予以研究改良,提出一种能够保护患者隐私的智能医疗联邦学习方法和装置。
发明内容
针对现有技术的不足,本发明提供了一种能够保护患者隐私的智能医疗联邦学习方法和装置,解决了上述背景技术中提出的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种能够保护患者隐私的智能医疗联邦学习方法,所述能够保护患者隐私的智能医疗联邦学习方法包括下述操作步骤:
S1、数据预处理:
训练编码器来创建嵌入向量,联合自动编码器以获得每个特征域的潜在变量,潜在变量连接起来形成患者嵌入向量;
S2、计算余弦相似度:
采用SMPC协议计算嵌入向量之间的余弦相似度,SMPC使用秘密共享方案来联合计算向量对之间的点积;
S3、谱聚类:
使用由嵌入的成对余弦相似度生成的相似度矩阵对患者进行聚类;
S4、集群训练:
基于集群到FL训练,每个模型都在每个集群单独训练。
进一步的,所述步骤S1中,嵌入向量是将一个高纬度向量嵌入到低纬度的空间中。
进一步的,所述步骤S1中,数据预处理的具体操作如下:
采用一个6层的全连接网络结构,包括一个三层编码器和一个相同的三层解码器来创建患者嵌入,为了减少过度拟合,30%的特征在训练过程中被随机破坏,即30%的特征被强制为0,为每个特征域训练了一个单独的自动编码器,隐藏层中使用ReLU作为激活函数,在最终输出层中使用sigmoid作为激活函数,损失函数为MSE,使用学习率为1e-3且batch大小为32的Adam优化器,汇总来说,输入是一个患者的所有特征,生成的嵌入向量连接了所有潜在的用户特征。
进一步的,所述特征域包括药物、诊断和体检。
进一步的,所述步骤S2中,SMPC是一种加密技术,允许各方共同计算其输入的函数,同时保持输入秘密,即仅提供输出。
进一步的,所述步骤S2中,SMPC通过数学保证保护隐私免受外部对手和其他相关方的侵害,并允许精确计算站点之间的余弦相似度,使用秘密共享计算跨站点的点积建立对手模型,主要包括以下步骤:
嵌入向量的维度为d,站点1上有数据集A(维度N1xd),站点2上有数据集B(维度N2xd),Ni表示样本的数量;
步骤一:创建一个随机的长宽是dxd的可逆矩阵M,采用Reed-Hoffman编码,将M发送给站点1,然后将M-1发送给站点2;
步骤二:每个站点上,将他们的数据集划分成子矩阵,然后用M或者M-1来进行掩码操作;
步骤三:被掩码操作后的子矩阵,在站点之间共享;
步骤四:被掩码操作后的子矩阵用来生成最终的矩阵点积;
进一步说明以上步骤,
站点1计算A1=A×Mleft,A2=A×Mright,然后将A1发给服务器;
站点2计算然后将B2发给服务器;
服务器将B2发给站点1,将A1发给站点2;
站点1计算Va=A2×B2,然后将Va发给服务端;
站点2计算Vb=A1×B1,然后将Vb发给服务端;
理论分析如下面公式:
公式说明了M的具体值并不影响最终的计算结果,只要M是可逆的矩阵即可,将A拆分成了左右两个部分;
B拆分成了上下两个部分即B1和B2,对应以上公式的下标left、right、top、bottom。
进一步的,所述步骤四中,在计算点积之前,所有嵌入向量首先经过L2归一化,因此乘积相当于余弦相似度。
进一步的,所述步骤S3中,进行聚类时,首先基于WCSS计算簇1-10的簇内平方和,WCSS是衡量集群紧凑性的指标,再使用elbow point选择绘图的“肘”点,在此之后额外的簇不会导致WCSS的实质性改进即簇的紧凑性,由此用于确定解释数据集中方差所需的最小簇数,小的WCSS意味着数据点更加紧凑,表明相似点的聚类更加紧密,并选择3个集群,具体选择数量根据实际需求调整。
进一步的,所述步骤S4中,FL指的是联邦学习,其是一种分布式机器学习方法,使多个站点能够协作训练模型,同时保持数据本地化。
一种装置,该装置为服务器,所述服务器应用有如上所述的能够保护患者隐私的智能医疗联邦学习方法。
本发明提供了一种能够保护患者隐私的智能医疗联邦学习方法和装置,具备以下有益效果:
该能够保护患者隐私的智能医疗联邦学习方法和装置,对于数据的预处理方法和调度策略保证了用户的数据隐私,在达到模型训练的功能需求的同时,不同的站点之间,无法看到其他站点的个人信息,解决了联合学习中非IID数据和患者隐私保护的问题,本案用ICU数据预测病人死亡情况,可以扩展到其他表型分析任务。
附图说明
图1为本发明一种能够保护患者隐私的智能医疗联邦学习方法的操作步骤流程示意图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
如图1所示,本发明提供技术方案:一种能够保护患者隐私的智能医疗联邦学习方法,能够保护患者隐私的智能医疗联邦学习方法包括下述操作步骤:
S1、数据预处理:
训练编码器来创建嵌入向量,联合自动编码器以获得每个特征域的潜在变量,潜在变量连接起来形成患者嵌入向量;
其中,嵌入向量是将一个高纬度向量嵌入到低纬度的空间中;
数据预处理的具体操作如下:
采用一个6层的全连接网络结构,包括一个三层编码器和一个相同的三层解码器来创建患者嵌入,为了减少过度拟合,30%的特征在训练过程中被随机破坏,即30%的特征被强制为0,为每个特征域训练了一个单独的自动编码器,隐藏层中使用ReLU作为激活函数,在最终输出层中使用sigmoid作为激活函数,损失函数为MSE,使用学习率为1e-3且batch大小为32的Adam优化器,汇总来说,输入是一个患者的所有特征即原始记录,生成输出的就是嵌入向量,其连接了所有潜在的用户特征,而特征域包括药物、诊断和体检;
嵌入向量的获得参考下述网址:
https://www.zhihu.com/tardis/zm/art/475086668?source_id=1005;
并推荐下述实现方法:比如原始记录[F1,F2,F3..FN],Fx表示一个特征的值,作为输入,处理方法采用Node2Vector的方法生成,方法描述具体论文:node2vec:ScalableFeature Learning for Networks;
由于上述关于获得嵌入向量的方法已被公开,故不在此详细描述;
S2、计算余弦相似度:
采用SMPC协议计算嵌入向量之间的余弦相似度,SMPC使用秘密共享方案来联合计算向量对之间的点积;
其中,SMPC是一种加密技术,允许各方共同计算其输入的函数,同时保持输入秘密,即仅提供输出,SMPC通过数学保证保护隐私免受外部对手和其他相关方的侵害,并允许精确计算站点之间的余弦相似度,使用秘密共享计算跨站点的点积建立对手模型,主要包括以下步骤:
嵌入向量的维度为d,站点1上有数据集A(维度N1xd),站点2上有数据集B(维度N2xd),Ni表示样本的数量;
步骤一:创建一个随机的长宽是dxd的可逆矩阵M,采用Reed-Hoffman编码,将M发送给站点1,然后将M-1发送给站点2;
步骤二:每个站点上,将他们的数据集划分成子矩阵,然后用M或者M-1来进行掩码操作;
步骤三:被掩码操作后的子矩阵,在站点之间共享;
步骤四:被掩码操作后的子矩阵用来生成最终的矩阵点积,而在计算点积之前,所有嵌入向量首先经过L2归一化,因此乘积相当于余弦相似度;
进一步说明以上步骤,
站点1计算A1=A×Mleft,A2=A×Mright,然后将A1发给服务器;
站点2计算然后将B2发给服务器;
服务器将B2发给站点1,将A1发给站点2;
站点1计算Va=A2×B2,然后将Va发给服务端;
站点2计算Vb=A1×B1,然后将Vb发给服务端;
理论分析如下面公式:
公式说明了M的具体值并不影响最终的计算结果,只要M是可逆的矩阵即可,将A拆分成了左右两个部分;
B拆分成了上下两个部分即B1和B2,对应以上公式的下标left、right、top、bottom;
基于上述步骤实现安全计算,是因为任何一方都没有足够的信息,而仅使用一些子矩阵,来重建原始数据集,只要站点仅共享其编码矩阵的一半(A1和B2),问题的解决方案就有无限多个,该方法依赖于安全矩阵M的构造,该矩阵使用最大距离可分离(MDS)代码(例如Reed-Solomon代码)生成,MDS代码确保列的任何子集彼此线性独立,从而无法恢复原始数据;
S3、谱聚类:
使用由嵌入的成对余弦相似度生成的相似度矩阵对患者进行聚类;
其中,进行聚类时,首先基于WCSS计算簇1-10的簇内平方和,WCSS是衡量集群紧凑性的指标,再使用elbow point(求取肘点的方式,即用point求elbow_python-以稳定的方式找到曲线的肘点)选择绘图的“肘”点,在此之后额外的簇不会导致WCSS的实质性改进即簇的紧凑性,这是一种启发式方法(启发式的意思就是选择的可能是局部最优解,不是全局最优解),由此用于确定解释数据集中方差所需的最小簇数,小的WCSS意味着数据点更加紧凑,表明相似点的聚类更加紧密,并选择3个集群,具体选择数量根据实际需求调整;
S4、集群训练:
基于集群到FL训练,每个模型都在每个集群单独训练,FL指的是联邦学习,其是一种分布式机器学习方法,使多个站点能够协作训练模型,同时保持数据本地化;
具体采用ReLU作为激活函数,采用Binary Cross Entropy(是一种损失函数的公式)作为损失函数,Binary Cross Entropy公式如下:
Adam作为优化器,学习率和学习轮次,分片大小根据实际情况确定,激活函数,损失函数,优化器的选择,可以根据具体情况调整;
不同的数据集定义往往可能不同,此处的数据集若定义为0则表示为存活,若为1则表示死亡,而针对不同的数据源,结构化的方法,只要对同一个数据或者场景,采用一样的定义即可,例如拿到5份数据源,是否存活这个域,有的用AB代表存活或者死亡,有的用文字代表,结构化的方法,就是将格式统一,统一为一个表,行是记录,列是域,是否存活用一列表示,值为1表示存活,0表示死亡。
一种装置,该装置为服务器,所述服务器应用有如上所述的能够保护患者隐私的智能医疗联邦学习方法。
基于上述内容,从三个方面对隐私进行保护:
1.采用联邦学习方法,不同client之间并没有样本数据共享,不需要将敏感数据进行网络传输;
2.使用SMPC将聚类预处理步骤合并到联邦学习中,SMPC-Secure multipartycomputation(MPC/SMPC),安全多方计算,安全多方计算(也称为安全计算、多方计算(MPC)或隐私保护计算)是密码学的一个子领域,其目标是为各方创建方法来共同计算其输入的函数,同时保留这些输入的隐私,与传统的密码学任务不同,在传统的密码学任务中,密码学确保通信或存储的安全性和完整性,并且对手(潜在的破坏者,发送者和接收者的窃听者)位于参与者系统之外,而该模型中的密码学可以保护参与者彼此的隐私;
3.采用了谱聚类的方法,聚类过程避免了交换患者级别的信息。
综上,如图1所示,该能够保护患者隐私的智能医疗联邦学习方法和装置,使用时,首先训练编码器来创建嵌入向量,联合自动编码器以获得每个特征域的潜在变量,潜在变量连接起来形成患者嵌入向量;
数据预处理的具体操作如下:
采用一个6层的全连接网络结构,包括一个三层编码器和一个相同的三层解码器来创建患者嵌入,为了减少过度拟合,30%的特征在训练过程中被随机破坏,即30%的特征被强制为0,为每个特征域训练了一个单独的自动编码器,隐藏层中使用ReLU作为激活函数,在最终输出层中使用sigmoid作为激活函数,损失函数为MSE,使用学习率为1e-3且batch大小为32的Adam优化器,汇总来说,输入是一个患者的所有特征,生成的嵌入向量连接了所有潜在的用户特征,而特征域包括药物、诊断和体检;
采用SMPC协议计算嵌入向量之间的余弦相似度,SMPC使用秘密共享方案来联合计算向量对之间的点积;
其中,SMPC是一种加密技术,允许各方共同计算其输入的函数,同时保持输入秘密,即仅提供输出,SMPC通过数学保证保护隐私免受外部对手和其他相关方的侵害,并允许精确计算站点之间的余弦相似度,使用秘密共享计算跨站点的点积建立对手模型,主要包括以下步骤:
嵌入向量的维度为d,站点1上有数据集A(维度N1xd),站点2上有数据集B(维度N2xd),Ni表示样本的数量;
步骤一:创建一个随机的长宽是dxd的可逆矩阵M,采用Reed-Hoffman编码,将M发送给站点1,然后将M-1发送给站点2;
步骤二:每个站点上,将他们的数据集划分成子矩阵,然后用M或者M-1来进行掩码操作;
步骤三:被掩码操作后的子矩阵,在站点之间共享;
步骤四:被掩码操作后的子矩阵用来生成最终的矩阵点积,而在计算点积之前,所有嵌入向量首先经过L2归一化,因此乘积相当于余弦相似度;
进一步说明以上步骤,
站点1计算A1=A×Mleft,A2=A×Mright,然后将A1发给服务器;
站点2计算然后将B2发给服务器;
服务器将B2发给站点1,将A1发给站点2;
站点1计算Va=A2×B2,然后将Va发给服务端;
站点2计算Vb=A1×B1,然后将Vb发给服务端;
理论分析如下面公式:
公式说明了M的具体值并不影响最终的计算结果,只要M是可逆的矩阵即可,将A拆分成了左右两个部分;
B拆分成了上下两个部分即B1和B2,对应以上公式的下标left、right、top、bottom;
使用由嵌入的成对余弦相似度生成的相似度矩阵对患者进行聚类;
选择3个集群,具体选择数量根据实际需求调整;
基于集群到FL训练,每个模型都在每个集群单独训练,FL指的是联邦学习,其是一种分布式机器学习方法,使多个站点能够协作训练模型,同时保持数据本地化。
本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (5)

1.一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述能够保护患者隐私的智能医疗联邦学习方法包括下述操作步骤:
S1、数据预处理:
训练编码器来创建嵌入向量,联合自动编码器以获得每个特征域的潜在变量,潜在变量连接起来形成患者嵌入向量;
S2、计算余弦相似度:
采用SMPC协议计算嵌入向量之间的余弦相似度,SMPC使用秘密共享方案来联合计算向量对之间的点积;
S3、谱聚类:
使用由嵌入的成对余弦相似度生成的相似度矩阵对患者进行聚类;
S4、集群训练:
基于集群到FL训练,每个模型都在每个集群单独训练;
步骤S1中,数据预处理的具体操作如下:
采用一个6层的全连接网络结构,包括一个三层编码器和一个相同的三层解码器来创建患者嵌入,30%的特征在训练过程中被随机破坏,即30%的特征被强制为0,为每个特征域训练了一个单独的自动编码器,隐藏层中使用ReLU作为激活函数,在最终输出层中使用sigmoid作为激活函数,损失函数为MSE,使用学习率为1e-3且batch大小为32的Adam优化器,汇总来说,输入是一个患者的所有特征,生成的嵌入向量连接了所有潜在的用户特征;
所述特征域包括药物、诊断和体检;
步骤S2中,SMPC是一种加密技术,允许各方共同计算其输入的函数,同时保持输入秘密,即仅提供输出;
步骤S2中,SMPC通过数学保证保护隐私免受外部对手和其他相关方的侵害,并允许精确计算站点之间的余弦相似度,使用秘密共享计算跨站点的点积建立对手模型,主要包括以下步骤:
嵌入向量的维度为d,站点1上有数据集A(维度N1xd),站点2上有数据集B(维度N2xd),Ni表示样本的数量;
步骤一:创建一个随机的长宽是dxd的可逆矩阵M,采用Reed-Hoffman编码,将M发送给站点1,然后将M-1发送给站点2;
步骤二:每个站点上,将他们的数据集划分成子矩阵,然后用M或者M-1来进行掩码操作;
步骤三:被掩码操作后的子矩阵,在站点之间共享;
步骤四:被掩码操作后的子矩阵用来生成最终的矩阵点积;
进一步说明以上步骤,
站点1计算A1=A×Mleft,A2=A×Mright,然后将A1发给服务器;
站点2计算然后将B2发给服务器;
服务器将B2发给站点1,将A1发给站点2;
站点1计算Va=A2×B2,然后将Va发给服务端;
站点2计算Vb=A1×B1,然后将Vb发给服务端;
理论分析如下面公式:
所述步骤四中,在计算点积之前,所有嵌入向量首先经过L2归一化,因此乘积相当于余弦相似度。
2.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述步骤S1中,嵌入向量是将一个高纬度向量嵌入到低纬度的空间中。
3.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述步骤S3中,进行聚类时,首先基于WCSS计算簇1-10的簇内平方和,WCSS是衡量集群紧凑性的指标,再使用elbow point选择绘图的“肘”点。
4.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法,其特征在于:所述步骤S4中,FL指的是联邦学习,其是一种分布式机器学习方法,使多个站点能够协作训练模型,同时保持数据本地化。
5.一种装置,其特征在于:该装置为服务器,所述服务器应用有如权利要求1-4任意一项所述的能够保护患者隐私的智能医疗联邦学习方法。
CN202311407440.4A 2023-10-27 2023-10-27 一种能够保护患者隐私的智能医疗联邦学习方法和装置 Active CN117393148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311407440.4A CN117393148B (zh) 2023-10-27 2023-10-27 一种能够保护患者隐私的智能医疗联邦学习方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311407440.4A CN117393148B (zh) 2023-10-27 2023-10-27 一种能够保护患者隐私的智能医疗联邦学习方法和装置

Publications (2)

Publication Number Publication Date
CN117393148A CN117393148A (zh) 2024-01-12
CN117393148B true CN117393148B (zh) 2024-06-07

Family

ID=89438854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311407440.4A Active CN117393148B (zh) 2023-10-27 2023-10-27 一种能够保护患者隐私的智能医疗联邦学习方法和装置

Country Status (1)

Country Link
CN (1) CN117393148B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020229684A1 (en) * 2019-05-16 2020-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concepts for federated learning, client classification and training data similarity measurement
CN115759289A (zh) * 2022-11-16 2023-03-07 海南大学 基于用户分组协同的联邦学习方法、系统及装置
CN116523074A (zh) * 2023-05-16 2023-08-01 许昌学院 动态化公平性的隐私保护联邦深度学习方法
CN116595584A (zh) * 2023-05-19 2023-08-15 西安体育学院 基于云雾架构纵向联邦学习的体医数据融合隐私保护方法
CN116822581A (zh) * 2023-08-29 2023-09-29 腾讯科技(深圳)有限公司 变分自编码器的训练、图像处理以及所有权检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020229684A1 (en) * 2019-05-16 2020-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concepts for federated learning, client classification and training data similarity measurement
CN115759289A (zh) * 2022-11-16 2023-03-07 海南大学 基于用户分组协同的联邦学习方法、系统及装置
CN116523074A (zh) * 2023-05-16 2023-08-01 许昌学院 动态化公平性的隐私保护联邦深度学习方法
CN116595584A (zh) * 2023-05-19 2023-08-15 西安体育学院 基于云雾架构纵向联邦学习的体医数据融合隐私保护方法
CN116822581A (zh) * 2023-08-29 2023-09-29 腾讯科技(深圳)有限公司 变分自编码器的训练、图像处理以及所有权检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《清华大学学报》(自然科学版)第45卷第1―12,S1期2005年总目次.清华大学学报(自然科学版).2005,(12),全文. *
联邦学习安全与隐私保护研究综述;周俊;方国英;吴楠;;西华大学学报(自然科学版);20200710(04);全文 *

Also Published As

Publication number Publication date
CN117393148A (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
Rani et al. Federated learning for secure IoMT-applications in smart healthcare systems: A comprehensive review
Abd-El-Atty et al. A robust quasi-quantum walks-based steganography protocol for secure transmission of images on cloud-based E-healthcare platforms
Hoen et al. Phylogeography of Borrelia burgdorferi in the eastern United States reflects multiple independent Lyme disease emergence events
Moafimadani et al. A new algorithm for medical color images encryption using chaotic systems
Mandala et al. Privacy preservation of data using crow search with adaptive awareness probability
US10013569B2 (en) Privacy-preserving data collection, publication, and analysis
Zhang et al. A symmetric image encryption algorithm based on a coupled logistic–bernoulli map and cellular automata diffusion strategy
Cha et al. Implementing vertical federated learning using autoencoders: Practical application, generalizability, and utility study
Walkowiak et al. Predictors of COVID-19 vaccination campaign success: lessons learnt from the pandemic so far. a case study from Poland
Moshawrab et al. Reviewing federated machine learning and its use in diseases prediction
Chen et al. Wmnet: A lossless watermarking technique using deep learning for medical image authentication
Khan et al. An efficient and secure revocation-enabled attribute-based access control for eHealth in smart society
Ren et al. Privacy-enhanced and multifunctional health data aggregation under differential privacy guarantees
Shen et al. A new chaotic image encryption algorithm based on transversals in a Latin square
Kong et al. Achieve location privacy-preserving range query in vehicular sensing
Bahbouh et al. Tokens shuffling approach for privacy, security, and reliability in IoHT under a pandemic
Meng et al. An encryption algorithm for region of interest in medical DICOM based on one-dimensional eλ-cos-cot map
Arrigo et al. four-year environmental surveillance program of Legionella spp. in one of Palermo’s largest hospitals
Oduniyi et al. The impact of sustainable land management practices on household welfare and determinants among smallholder maize farmers in South Africa
Wang et al. Federated learning-empowered disease diagnosis mechanism in the internet of medical things: From the privacy-preservation perspective
Georgieva-Tsaneva et al. Mathematically Based Assessment of the Accuracy of Protection of Cardiac Data Realized with the Help of Cryptography and Steganography
Zhang et al. Collusion-aware privacy-preserving range query in tiered wireless sensor networks
Liang et al. Coupling quantum random walks with long-and short-term memory for high pixel image encryption schemes
Deng et al. Vertical federated unlearning on the logistic regression model
CN117393148B (zh) 一种能够保护患者隐私的智能医疗联邦学习方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant