CN117393148A

CN117393148A - 一种能够保护患者隐私的智能医疗联邦学习方法和装置

Info

Publication number: CN117393148A
Application number: CN202311407440.4A
Authority: CN
Inventors: 刘德生; 周宇; 王斌; 王微; 龙真真
Original assignee: Zhongke Jingrui Suzhou Technology Co ltd
Current assignee: Zhongke Jingrui Suzhou Technology Co ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-01-12
Anticipated expiration: 2043-10-27
Also published as: CN117393148B

Abstract

本发明公开了一种能够保护患者隐私的智能医疗联邦学习方法和装置，涉及智能医疗技术领域，所述能够保护患者隐私的智能医疗联邦学习方法包括下述操作步骤：S1、数据预处理；S2、计算余弦相似度；S3、谱聚类；S4、集群训练。该能够保护患者隐私的智能医疗联邦学习方法和装置，对于数据的预处理方法和调度策略保证了用户的数据隐私，在达到模型训练的功能需求的同时，不同的站点之间，无法看到其他站点的个人信息，解决了联合学习中非IID数据和患者隐私保护的问题，本案用ICU数据预测病人死亡情况，可以扩展到其他表型分析任务。

Description

一种能够保护患者隐私的智能医疗联邦学习方法和装置

技术领域

本发明涉及智能医疗技术领域，具体为一种能够保护患者隐私的智能医疗联邦学习方法和装置。

背景技术

深度学习在电子健康记录(EHR)上的应用已被广泛且成功地应用于一系列目标，例如疾病风险预测、诊断支持，为了利用深度学习模型对EHR数据固有的高维度的预测能力，需要大量样本，采样不足或过度指定的模型更有可能在训练数据集上过度拟合，并且在应用于新数据集时泛化能力较差，单个医疗机构通常没有足够的能力和数据来开发预测模型，实现更复杂和更准确的模型的一种解决方案是增加可用的训练数据，这个一般通过志愿者采集更多的数据，另一种选择是机构之间数据共享，但监管带来的法律问题，例如隐私保护问题，限制了机构之间广泛的数据共享；

而联邦学习(FL)是支持跨站点协作学习同时最大限度地减少隐私问题的一种解决方案，FL是一种分布式机器学习方法，使多个站点能够协作训练模型，同时保持数据本地化，该过程涉及站点与中央服务器共享本地训练的模型参数，然后中央服务器聚合这些参数以创建全局模型，这个过程会重复多次训练，直到获得最终的全局模型，这些参数通过常用算法联合平均(FedAvg)进行聚合，该算法使用样本大小加权平均来组合模型参数。

当前，联合学习(FL)是一种常用的机器学习方法，使多个组织在能够训练模型的同时，无需与中央服务器共享数据，然而，如果训练的数据样本是非同一独立分布(non-IID)的，那么FL的性能会显着下降，特别在智能医疗方面，患者群体的差异极大，导致了医院之间的样本数据分布差异，个性化FL通过考虑站点特定的分布差异来解决此问题，一般采用聚类FL的方法，通过将医院内的患者分组，并在每个组上训练单独的模型来解决此问题，技术上确实可行，但是在隐私保护问题上，仍然是一个问题，因为聚类过程需要交换患者级别的信息，FL的初衷就是每个组织独立训练，无需共享数据，当前的通用方法，是使用聚合后的数据，重新分成不同的组，但这个解决方案会导致分组不准确，以及性能下降。

于是，有鉴于此，针对现有的结构及缺失予以研究改良，提出一种能够保护患者隐私的智能医疗联邦学习方法和装置。

发明内容

针对现有技术的不足，本发明提供了一种能够保护患者隐私的智能医疗联邦学习方法和装置，解决了上述背景技术中提出的问题。

为实现以上目的，本发明通过以下技术方案予以实现：一种能够保护患者隐私的智能医疗联邦学习方法，所述能够保护患者隐私的智能医疗联邦学习方法包括下述操作步骤：

S1、数据预处理：

训练编码器来创建嵌入向量，联合自动编码器以获得每个特征域的潜在变量，潜在变量连接起来形成患者嵌入向量；

S2、计算余弦相似度：

采用SMPC协议计算嵌入向量之间的余弦相似度，SMPC使用秘密共享方案来联合计算向量对之间的点积；

S3、谱聚类：

使用由嵌入的成对余弦相似度生成的相似度矩阵对患者进行聚类；

S4、集群训练：

基于集群到FL训练，每个模型都在每个集群单独训练。

进一步的，所述步骤S1中，嵌入向量是将一个高纬度向量嵌入到低纬度的空间中。

进一步的，所述步骤S1中，数据预处理的具体操作如下：

采用一个6层的全连接网络结构，包括一个三层编码器和一个相同的三层解码器来创建患者嵌入，为了减少过度拟合，30％的特征在训练过程中被随机破坏，即30％的特征被强制为0，为每个特征域训练了一个单独的自动编码器，隐藏层中使用ReLU作为激活函数，在最终输出层中使用sigmoid作为激活函数，损失函数为MSE，使用学习率为1e^-3且batch大小为32的Adam优化器，汇总来说，输入是一个患者的所有特征，生成的嵌入向量连接了所有潜在的用户特征。

进一步的，所述特征域包括药物、诊断和体检。

进一步的，所述步骤S2中，SMPC是一种加密技术，允许各方共同计算其输入的函数，同时保持输入秘密，即仅提供输出。

进一步的，所述步骤S2中，SMPC通过数学保证保护隐私免受外部对手和其他相关方的侵害，并允许精确计算站点之间的余弦相似度，使用秘密共享计算跨站点的点积建立对手模型，主要包括以下步骤：

嵌入向量的维度为d，site₁上有数据集A(维度N₁xd)，site₂上有数据集B(维度N₂xd)，N_i表示样本的数量；

步骤一：创建一个随机的长宽是dxd的可逆矩阵M，采用Reed-Hoffman编码，将M发送给site₁,然后将M^-1发送给site₂；

步骤二：每个站点上，将他们的数据集划分成子矩阵，然后用M或者M^-1来进行掩码操作；

步骤三：被掩码操作后的子矩阵，在站点之间共享；

步骤四：被掩码操作后的子矩阵用来生成最终的矩阵点积；

进一步说明以上步骤，

站点1计算A₁＝A×M_left,A₂＝A×M_right，然后将A₁发给服务器；

站点2计算然后将B₂发给服务器；

服务器将B₂发给站点1，将A₁发给站点2；

站点1计算V_a＝A₂×B₂，然后将V_a发给服务端；

站点2计算V_b＝A₁×B₁，然后将V_b发给服务端；

理论分析如下面公式：

公式说明了M的具体值并不影响最终的计算结果，只要M是可逆的矩阵即可，将A拆分成了左右两个部分；

B拆分成了上下两个部分即B₁和B₂，对应以上公式的下标left、right、top、bottom。

进一步的，所述步骤四中，在计算点积之前，所有嵌入向量首先经过L2归一化，因此该乘积相当于余弦相似度。

进一步的，所述步骤S3中，进行聚类时，首先基于WCSS计算簇1-10的簇内平方和，WCSS是衡量集群紧凑性的指标，再使用elbow point选择绘图的“肘”点，在此之后额外的簇不会导致WCSS的实质性改进即簇的紧凑性，由此用于确定解释数据集中方差所需的最小簇数，小的WCSS意味着数据点更加紧凑，表明相似点的聚类更加紧密，并选择3个集群，具体选择数量根据实际需求调整。

进一步的，所述步骤S4中，FL指的是联邦学习，其是一种分布式机器学习方法，使多个站点能够协作训练模型，同时保持数据本地化。

一种装置，该装置为服务器，所述服务器应用有如上所述的能够保护患者隐私的智能医疗联邦学习方法。

本发明提供了一种能够保护患者隐私的智能医疗联邦学习方法和装置，具备以下有益效果：

该能够保护患者隐私的智能医疗联邦学习方法和装置，对于数据的预处理方法和调度策略保证了用户的数据隐私，在达到模型训练的功能需求的同时，不同的站点之间，无法看到其他站点的个人信息，解决了联合学习中非IID数据和患者隐私保护的问题，本案用ICU数据预测病人死亡情况，可以扩展到其他表型分析任务。

附图说明

图1为本发明一种能够保护患者隐私的智能医疗联邦学习方法的操作步骤流程示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

如图1所示，本发明提供技术方案：一种能够保护患者隐私的智能医疗联邦学习方法，能够保护患者隐私的智能医疗联邦学习方法包括下述操作步骤：

S1、数据预处理：

其中，嵌入向量是将一个高纬度向量嵌入到低纬度的空间中；

数据预处理的具体操作如下：

采用一个6层的全连接网络结构，包括一个三层编码器和一个相同的三层解码器来创建患者嵌入，为了减少过度拟合，30％的特征在训练过程中被随机破坏，即30％的特征被强制为0，为每个特征域训练了一个单独的自动编码器，隐藏层中使用ReLU作为激活函数，在最终输出层中使用sigmoid作为激活函数，损失函数为MSE，使用学习率为1e^-3且batch大小为32的Adam优化器，汇总来说，输入是一个患者的所有特征即原始记录，生成输出的就是嵌入向量，其连接了所有潜在的用户特征，而特征域包括药物、诊断和体检；

嵌入向量的获得参考下述网址：

https://www.zhihu.com/tardis/zm/art/475086668？source_id＝1005；

并推荐下述实现方法：比如原始记录[F1,F2,F3..FN]，Fx表示一个特征的值，作为输入，处理方法采用Node2Vector的方法生成，方法描述具体论文：node2vec:ScalableFeature Learning for Networks；

由于上述关于获得嵌入向量的方法已被公开，故不在此详细描述；

S2、计算余弦相似度：

其中，SMPC是一种加密技术，允许各方共同计算其输入的函数，同时保持输入秘密，即仅提供输出，SMPC通过数学保证保护隐私免受外部对手和其他相关方的侵害，并允许精确计算站点之间的余弦相似度，使用秘密共享计算跨站点的点积建立对手模型，主要包括以下步骤：

步骤三：被掩码操作后的子矩阵，在站点之间共享；

步骤四：被掩码操作后的子矩阵用来生成最终的矩阵点积，而在计算点积之前，所有嵌入向量首先经过L2归一化，因此该乘积相当于余弦相似度；

进一步说明以上步骤，

站点2计算然后将B₂发给服务器；

服务器将B₂发给站点1，将A₁发给站点2；

站点1计算V_a＝A₂×B₂，然后将V_a发给服务端；

站点2计算V_b＝A₁×B₁，然后将V_b发给服务端；

理论分析如下面公式：

B拆分成了上下两个部分即B₁和B₂，对应以上公式的下标left、right、top、bottom；

基于上述步骤实现安全计算，是因为任何一方都没有足够的信息，而仅使用一些子矩阵，来重建原始数据集，只要站点仅共享其编码矩阵的一半(A1和B2)，问题的解决方案就有无限多个，该方法依赖于安全矩阵M的构造，该矩阵使用最大距离可分离(MDS)代码(例如Reed-Solomon代码)生成，MDS代码确保列的任何子集彼此线性独立，从而无法恢复原始数据；

S3、谱聚类：

其中，进行聚类时，首先基于WCSS计算簇1-10的簇内平方和，WCSS是衡量集群紧凑性的指标，再使用elbow point(求取肘点的方式，即用point求elbow_python-以稳定的方式找到曲线的肘点)选择绘图的“肘”点，在此之后额外的簇不会导致WCSS的实质性改进即簇的紧凑性，这是一种启发式方法(启发式的意思就是选择的可能是局部最优解，不是全局最优解)，由此用于确定解释数据集中方差所需的最小簇数，小的WCSS意味着数据点更加紧凑，表明相似点的聚类更加紧密，并选择3个集群，具体选择数量根据实际需求调整；

S4、集群训练：

基于集群到FL训练，每个模型都在每个集群单独训练，FL指的是联邦学习，其是一种分布式机器学习方法，使多个站点能够协作训练模型，同时保持数据本地化；

具体采用ReLU作为激活函数，采用Binary Cross Entropy(是一种损失函数的公式)作为损失函数，Binary Cross Entropy公式如下：

Adam作为优化器，学习率和学习轮次，分片大小根据实际情况确定，激活函数，损失函数，优化器的选择，可以根据具体情况调整；

不同的数据集定义往往可能不同，此处的数据集若定义为0则表示为存活，若为1则表示死亡，而针对不同的数据源，结构化的方法，只要对同一个数据或者场景，采用一样的定义即可，例如拿到5份数据源，是否存活这个域，有的用AB代表存活或者死亡，有的用文字代表，结构化的方法，就是将格式统一，统一为一个表，行是记录，列是域，是否存活用一列表示，值为1表示存活，0表示死亡。

基于上述内容，从三个方面对隐私进行保护：

1.采用联邦学习方法，不同client之间并没有样本数据共享，不需要将敏感数据进行网络传输；

2.使用SMPC将聚类预处理步骤合并到联邦学习中，SMPC-Secure multipartycomputation(MPC/SMPC),安全多方计算，安全多方计算(也称为安全计算、多方计算(MPC)或隐私保护计算)是密码学的一个子领域，其目标是为各方创建方法来共同计算其输入的函数，同时保留这些输入的隐私，与传统的密码学任务不同，在传统的密码学任务中，密码学确保通信或存储的安全性和完整性，并且对手(潜在的破坏者，发送者和接收者的窃听者)位于参与者系统之外，而该模型中的密码学可以保护参与者彼此的隐私；

3.采用了谱聚类的方法，聚类过程避免了交换患者级别的信息。

综上，如图1所示，该能够保护患者隐私的智能医疗联邦学习方法和装置，使用时，首先训练编码器来创建嵌入向量，联合自动编码器以获得每个特征域的潜在变量，潜在变量连接起来形成患者嵌入向量；

数据预处理的具体操作如下：

采用一个6层的全连接网络结构，包括一个三层编码器和一个相同的三层解码器来创建患者嵌入，为了减少过度拟合，30％的特征在训练过程中被随机破坏，即30％的特征被强制为0，为每个特征域训练了一个单独的自动编码器，隐藏层中使用ReLU作为激活函数，在最终输出层中使用sigmoid作为激活函数，损失函数为MSE，使用学习率为1e^-3且batch大小为32的Adam优化器，汇总来说，输入是一个患者的所有特征，生成的嵌入向量连接了所有潜在的用户特征，而特征域包括药物、诊断和体检；

步骤三：被掩码操作后的子矩阵，在站点之间共享；

进一步说明以上步骤，

站点2计算然后将B₂发给服务器；

服务器将B₂发给站点1，将A₁发给站点2；

站点1计算V_a＝A₂×B₂，然后将V_a发给服务端；

站点2计算V_b＝A₁×B₁，然后将V_b发给服务端；

理论分析如下面公式：

选择3个集群，具体选择数量根据实际需求调整；

基于集群到FL训练，每个模型都在每个集群单独训练，FL指的是联邦学习，其是一种分布式机器学习方法，使多个站点能够协作训练模型，同时保持数据本地化。

本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种能够保护患者隐私的智能医疗联邦学习方法，其特征在于：所述能够保护患者隐私的智能医疗联邦学习方法包括下述操作步骤：

S1、数据预处理：

S2、计算余弦相似度：

S3、谱聚类：

S4、集群训练：

基于集群到FL训练，每个模型都在每个集群单独训练。

2.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法，其特征在于：所述步骤S1中，嵌入向量是将一个高纬度向量嵌入到低纬度的空间中。

3.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法，其特征在于：所述步骤S1中，数据预处理的具体操作如下：

采用一个6层的全连接网络结构，包括一个三层编码器和一个相同的三层解码器来创建患者嵌入，30％的特征在训练过程中被随机破坏，即30％的特征被强制为0，为每个特征域训练了一个单独的自动编码器，隐藏层中使用ReLU作为激活函数，在最终输出层中使用sigmoid作为激活函数，损失函数为MSE，使用学习率为1e^-3且batch大小为32的Adam优化器，汇总来说，输入是一个患者的所有特征，生成的嵌入向量连接了所有潜在的用户特征。

4.根据权利要求3所述的一种能够保护患者隐私的智能医疗联邦学习方法，其特征在于：所述特征域包括药物、诊断和体检。

5.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法，其特征在于：所述步骤S2中，SMPC是一种加密技术，允许各方共同计算其输入的函数，同时保持输入秘密，即仅提供输出。

6.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法，其特征在于：所述步骤S2中，SMPC通过数学保证保护隐私免受外部对手和其他相关方的侵害，并允许精确计算站点之间的余弦相似度，使用秘密共享计算跨站点的点积建立对手模型，主要包括以下步骤：

步骤三：被掩码操作后的子矩阵，在站点之间共享；

步骤四：被掩码操作后的子矩阵用来生成最终的矩阵点积；

进一步说明以上步骤，

站点2计算然后将B₂发给服务器；

服务器将B₂发给站点1，将A₁发给站点2；

站点1计算V_a＝A₂×B₂，然后将V_a发给服务端；

站点2计算V_b＝A₁×B₁，然后将V_b发给服务端；

理论分析如下面公式：

7.根据权利要求6所述的一种能够保护患者隐私的智能医疗联邦学习方法，其特征在于：所述步骤四中，在计算点积之前，所有嵌入向量首先经过L2归一化，因此该乘积相当于余弦相似度。

8.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法，其特征在于：所述步骤S3中，进行聚类时，首先基于WCSS计算簇1-10的簇内平方和，WCSS是衡量集群紧凑性的指标，再使用elbow point选择绘图的“肘”点。

9.根据权利要求1所述的一种能够保护患者隐私的智能医疗联邦学习方法，其特征在于：所述步骤S4中，FL指的是联邦学习，其是一种分布式机器学习方法，使多个站点能够协作训练模型，同时保持数据本地化。

10.一种装置，其特征在于：该装置为服务器，所述服务器应用有如权利要求1-9任意一项所述的能够保护患者隐私的智能医疗联邦学习方法。