CN113792856A

CN113792856A - 基于vae医疗保健联邦学习框架的确定方法

Info

Publication number: CN113792856A
Application number: CN202111058809.6A
Authority: CN
Inventors: 杨浩淼; 葛孟雨; 金禹樵; 张益�; 李佳晟; 王宇; 卢锐恒; 汤殿华; 李宇博; 李发根
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-12-14
Anticipated expiration: 2041-09-09
Also published as: CN113792856B

Abstract

本发明公开了基于VAE医疗保健联邦学习框架的确定方法，涉及计算机科学、机器学习以及联邦学习技术领域，解决基于联邦学习的医疗保健领域的三个挑战，第一，数据分布非IID导致的最终模型性能降低以及收敛速度慢的问题。第二，医疗数据的正负样本分布不均衡导致的模型偏差较大的问题。第三，联邦学习下所消耗的通信带宽过大导致的难以实际部署的问题。我们先在联邦学习框架下训练两个轻量级的VAE，然后将训练好的VAE分发给所有的节点用于更新自己的本地数据，而更新后的本地数据具有的特点就是数据都是低维且分布具有相似性并且类别是均衡的。最后再利用这样的数据对异常检测模型进行训练。

Description

基于VAE医疗保健联邦学习框架的确定方法

技术领域

本发明涉及计算机科学领域，更具体的是涉及基于VAE医疗保健联邦学习框架的确定方法技术领域。

背景技术

近年来，可穿戴技术的出现改善了患者的生活和治疗体验。可穿戴设备和移动设备从根本上改变了我们对待医疗保健的方式。远程患者监控(RPM)是医疗物联网(IoMT)的一个实现，有助于提供高质量的护理和及时的远程干预，以避免健康危机。为了得到一个高质量的远程异常检测系统(比如心率异常检测，跌倒检测等)，必须通过大量的数据进行学习。然而医疗领域的数据又是非常敏感的且是隐私的，这意味着医疗机构之间的数据是不能被共享的，于是与传统的将数据集中起来进行模型训练不同，谷歌于2016年提出了联邦学习(FL)框架，也就是在数据不需要被集中(传到中心服务器)的情况下，所有参与方与一个中心服务器共同参与模型的训练。使用FL技术，独立的数据节点可以协同工作来训练一个强大的全局模型，这满足了数据安全和有关部门的监管要求。

虽然联邦学习是一个非常有应用前景的分布式学习框架，但是它依然有存在许多问题和挑战。第一个问题是，分布式训练下的每个节点的数据分布不是独立同分布的(non-IID)，这将会导致的两个问题是全局模型收敛会很慢以及最终的全局模型效果会比集中式学习模型效果差很多。第二个问题是，数据非平衡(imbalanced)的问题，这个问题在医疗保健领域尤为突出，因为异常数据发生的可能性比正常数据少得多，比如在跌倒检测的数据中，日常活动的数据要远多于跌倒类型的数据(因为人大多数时候都是在从事日常活动而不是摔倒)。而这将导致的结果是模型会更加关注那些类别多的数据从而得到的是有偏差的模型，进而影响最终的模型准确率。第三个问题是，联邦学习框架的通信成本过高。导致这个问题的原因主要有两点，第一，用户的原始数据维度太高导致模型也变得很大从而每个通信轮次中所要传输的梯度也会变多；第二，由于数据是非独立同分布的，导致全局模型需要迭代很多次(服务器与节点之间通信很多个轮次)才能收敛，这也增加了通信负担。针对第一个问题，现有的技术解决方案是让所有参与方(节点)共享一部分的数据以减轻数据非iid对模型的影响，但这不适用于医疗场景，因为在任何情况下都不能共享患者的私人数据；对于第二个问题，现有技术方案是采用数据生成算法(SMOTE算法)，然而，这种数据生成需要用到全局数据，而基于FL的医疗保健系统中的医疗数据是私有的和本地的，因此这种方法也是不现实的。针对第三个问题，现有的技术解决方案是在每个通信轮次都对所传输的梯度进行压缩，从而降低通信开销。然而，这种方法是以牺牲模型性能为代价的，这对医疗领域来说是不可容忍的，因为错误的判断可能会给患者带来无可挽回的后果。到目前为止，还没有研究同时解决这三个问题。虽然有部分研究专注于解决联邦学习中统计挑战中的某一个问题并且取得了良好的效果，但是如果只是简单将它们拼凑起来的结果是侵犯到了用户的隐私以及增加了计算成本，换句话说现有的方案是很难兼容的。

因此，我们提出了一个新的框架FedVAE，FedVAE为基于VAE医疗保健联邦学习框架；在医疗联邦学习场景下它可以同时解决中提到的上述三个问题，能在消耗较低通信带宽的情况下联合训练出高精度的异常检测模型。

发明内容

本发明的目的在于：为了解决上述技术问题，本发明提供基于VAE医疗保健联邦学习框架的确定方法。

本发明为了实现上述目的具体采用以下技术方案：

基于VAE医疗保健联邦学习框架的确定方法，具体包括以下步骤：

步骤1：医疗机构从云服务器获取初始化VAE模型、初始化异常检测模型；

步骤2：各个医疗机构基于自己的数据集，训练初始化VAE模型，根据数据集的选取获取初始化VAE_fe模型和初始化VAE_gen模型；初始化VAE_fe模型训练的数据集包括全部数据、初始化VAE_gen模型训练的数据集包括样本数据；

步骤3：云服务器将从各个医疗机构获取初始化VAE_fe模型和初始化VAE_gen模型的梯度，分别进行梯度聚合后；将训练好的第一代初始化VAE_fe模型和第一代初始化VAE_gen模型分发给所有的医疗机构；

步骤4：以上步骤2-3需要不断迭代，直到损失函数收敛为止，训练完毕得到最终模型，记作：VAE_fe模型和VAE_gen模型，各个医疗机构基于VAE_fe模型和VAE_gen模型更新自己的本地数据集，更新后的本地数据集用于训练初始化异常检测模型；

步骤5：训练完毕的初始化异常检测模型为第一代异常检测模型，被云服务器分配给全部节点，全部节点包括家庭网关以及医疗机构；

步骤6：医疗机构与家庭网关均基于自身的数据集，同时对第一代异常检测模型进行联合训练、得到第二代异常检测模块并发送至云端服务器，云服务器将从全部节点获取的第二代异常检测模块的梯度，进行梯度聚合后，再次下发到全部节点；

步骤7：以上步骤5-6需要不断迭代，直到损失函数收敛为止，最后的异常检测模型记为M模型，M模型直接投入使用。

作为一种可选的技术方案：其特征在于，所述家庭网关的数据集由可穿戴设备中的传感器获取，所述传感器包含角速度和加速度传感器，每个传感器上都包含有xyz三轴上的序列信息；处理家庭身体数据的方式是使用Gramian Angular Field技术将其转化为二维的图像数据。

作为一种可选的技术方案：所述VAE_fe模型的作用是用于从原始高维数据中提取出低维的特征，并使得该特征服从正态分布；所述VAE_gen模型的作用是用于生成更多的异常类样本；训练过程如下所示：

步骤41：云服务器将训练好的第一代初始化VAE_fe模型和第一代初始化VAE_gen模型分配给所有参与训练的医疗机构，记医疗机构总数量为k，第k家医疗机构拥有的数据集为

步骤42：第一代初始化VAE_fe模型的编码端和解码端分别记作E_fe和D_fe；第一代初始化VAE_gen模型的编码端和解码端分别记作E_gen和D_gen；每个节点需要分别最小化如下两个损失函数：

其中L₁和L₂分别是VAE_fe和VAE_gen的损失函数，L₁用的数据是节点中的全部数据All、L₂只用节点中少类的样本数据Anomaly；μ₀，σ₀，μ₁，σ₁是需要被模型学习的参数，KL指的是Kullback-Leibler散度的计算

步骤43：局部训练完成后会将模型上传到云服务器，最后云服务器执行FedAvg算法进行梯度聚合；以上过程需要不断迭代，直到损失函数收敛为止；

步骤44：训练完毕得到最终模型，记作：VAE_fe模型和VAE_gen模型、两个模型将被存储在每个节点中，不再与云服务器之间进行传输。

作为一种可选的技术方案：在训练M模型前，本地数据集将会被重新更新使得其中的正样本和负样本达到平衡；训练过程如下所示：

步骤71：本地节点k先判断自己的数据集中正样本和负样本所差的数量，记作N_k；

步骤72：再从一个标准高斯分布中进行随机采样，一共采样N_k次。每一次的采样得到的向量记作z；

步骤73：将该向量传入D_gen后进行解码，输出的值则为新的数据样本；

步骤74：D_k更新为：

步骤75：D′_k随后需被E_fe进一步更新为：

其中X的维度比原始数据x的维度有所降低，具体降低的数值可在实际应用中进行调节；因此，对于每个节点来说则需要最小化如下局部交叉熵损失函数：

步骤76：局部训练完成后会将模型上传到云服务器，最后云服务器执行FedAvg算法进行梯度聚合；以上过程需要不断迭代，直到损失函数收敛为止；

步骤77：训练完毕得到最终模型，记作：M模型、M模型直接投入使用。

作为一种可选的技术方案：当有新的数据集可用时，VAE_fe模型、VAE_gen模型和M模型需要定期更新，三个模型的的学习流程为：

步骤A：基于原始数据集中的异常样本训练样本生成VAE_gen模型；

步骤B：基于全部原始数据集训练特征提取VAE_fe模型；

步骤C：从标准高斯分布中进行采样然后传入D_gen得到更多生成的样本；

步骤D：训练M模型。

作为一种可选的技术方案：M模型是由两层隐藏层的全连接神经网络组成的，其中输入层的维度与上表中的z dim一致，两层隐藏层的神经元个数分别为1024和256，输出维度为2。

作为一种可选的技术方案：M模型加入了Dropout和BatchNormalization，除了最后一层使用SoftMax激活函数进行激活，其它层之间都选取SeLu作为激活函数。

本发明的有益效果如下：

1.现有技术方案用于解决分布式下数据分布非IID导致的模型性能降低的方法主要有以下两种方法：方法一：通过创建一个在所有边缘设备之间全局共享的数据子集来改进对非iid数据的训练。方法一缺点：在医疗保健领域共享一部分数据都是不现实的，这种做法并没有完全的保护数据隐私；方法二：通过层次聚类来判断数据分布相似的节点，每一组数据分布相似的节点共同训练一个模型，若所有参与方一共划分成了N组节点，则最终会产生N个模型。方法二缺点：当所有参与方的数据分布差异都很大时，需要训练的模型数量会增多，这意味着训练每一个模型所用的数据量会减少，模型很有可能过拟合。在极端情况下，所有的节点都只用自己的本地数据用于训练单独的模型再服务于自身，这违背了联邦学习的初衷。

但是本申请文件的FedVAE使用了一个特征提取VAE将原始数据编码到一个服从标准正态分布的低维的子空间中，这从根本上解决了原始数据分布非IID的问题，即每个节点上用于训练最终异常检测模型的数据分布都是同样的标准正态分布，而训练VAE的过程不需要共享任何数据且训练的最终判别模型是充分利用了所有参与方的数据。因此FedVAE框架在解决数据分布非IID的问题上更有优势。

2.现有技术方案用于解决数据分布非平衡导致的模型性能降低的方法主要有以下三种方法：方法一：采样技术；方法一缺点：过采样技术是从少数类中随机复制一定数量的样本，然后将它们添加到原始数据集中。欠采样则随机地从多数类中删除一定数量的实例，以实现均衡的数据集。而随机过采样很可能导致过拟合，而随机欠采样可能会丢失很大部分的重要信息。方法二：SMOTE算法方法二缺点：SMOTE根据现有少数类样本之间的相似性创建人工数据。虽然SMOTE已经显示出许多好处，但其已经被证明仍然存在一些缺点，如过度泛化和方差过大等问题。此外，在联邦学习场景下是不可能获取全局的少类样本的，而如果只对单个节点上的少类数据应用SMOTE算法，则其过度泛化的风险会更大。方法三：基于考虑样本误分类带来的代价的“代价敏感学习”。它对样本的错误分类赋予了不同的代价值。例如，把一个病人错分类为一个健康的人，其代价要比把健康的人分类为病人的代价高得多。这是因为前者可能失去最好的治疗机会，甚至失去一个人的生命，而后者只是导致更多的检查。方法三缺点：虽然代价敏感算法可以显著提高分类性能，但只有在已知误分类的具体代价值时才能适用。而特别是在医疗保健场景下，很难对代价进行明确的描述，只知道一个非正式的断言，如异常样本错误分类为正常样本的代价高于相反的情况。

但是本申请文件用于解决数据类别不均衡的方法是训练一个样本生成VAE，它的训练只依赖于各个节点的异常类别数据，由于样本的生成是基于随机采样的，因此每个节点每个通信轮次下的所生成的样本都是不同的，但是由于所有节点生成样本的方式是一样的(都是先从标准高斯分布中进行随机抽样再传入VAE_gen的解码端)，在这个意义上依然保证了数据的分布一致性。我们的方案降低了过拟合和过度泛化的风险也无需提前对代价进行明确量化。

3.现有技术方案用于解决联邦学习中通信代价过高的方法主要有以下两种方法：方法一：深度梯度压缩，即在每一个通信轮次中，节点每次不上传全部梯度，而只上传部分梯度；方法一缺点：虽然减少了总通信量，但是相比普通联邦学习来说增加了通信轮次。此外，通信量的减少是以损失模型的精度作为代价的。而这在医疗领域是不能容忍的，因为错误的判断会给用户带来不可逆转的损失。方法二：结构化更新/草图更新：应用复杂的数据结构用以压缩每次更新中通信的数据总量方法二缺点：这些工作没有收敛性的保证，同时增加了通信阶段的计算复杂性。

但是本申请文件从原始数据压缩的角度对通信量进行了降低，即达到了压缩数据的同时保证数据的相似性分布的目的，我们的实验说明了与原始的联邦学习相比我们的通信量降低到了原来的5％，而最终异常检测模型的精度可以达到中心化模型的精度甚至略微超过0.8％。此外由于我们只是将数据本身进行了压缩，而并没有更改传统联邦学习的通信协议，因此收敛性是可以得到保证的。所以我们的方案可以在不损失精度以及不增加额外的计算复杂性的前提下可实现通信带宽的降低。

附图说明

图1是本发明FedVAE框架的云边缘架构示意图；

图2是本发明FedVAE框架的云边缘架构流程图；

图3是本发明FedVAE框架下三个模型的学习流程和依赖关系图；

图4是本发明图像数据处理示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1到4所示

实施例1

本实施例提供基于VAE医疗保健联邦学习框架的确定方法，具体包括以下步骤：

具体地：图1由一些边缘节点和一个中心服务器组成，其中边缘节点的种类主要有三种，可以是医院，可信任的医疗保健机构和家庭网关。这些边缘节点具有存储数据的能力，并具有一定的计算能力。医院拥有最多的数据，其中大部分是过去患者的数据(如帕金森患者的语音数据、异常心率数据等)。这些数据一旦被收集，就会保存在医院的私有医疗数据库中。家庭网关的数据主要来源于可穿戴设备获取的传感器数据。在某些情况下，用户可以将自己的健康数据上传到可信任的第三方医疗机构，因此此类节点也可以拥有部分训练数据。

当异常检测模型被训练好后，得到M模型，云端会将训练好的模型发送至家庭网关或者直接分配给用户进行实时监测。其中若家庭网关有历史数据，则其可以根据历史数据对被分配的全局模型进行微调(fine-tune)从而形成用户的个性化模型，将这一步称作个性化操作，得到的个性化模型会优于全局的异常检测模型。当异常检测模型训练好后它会实时读取用户的传感器数据，判断用户是否处于异常状态。如果检测为异常，则它会将相应的信息紧急反馈到最近的医院，从而达到早发现、早治疗的目的。

实施例2

在实施例1的基础上，所述家庭网关的数据集由可穿戴设备中的传感器获取，所述传感器包含角速度和加速度传感器，每个传感器上都包含有xyz三轴上的序列信息；处理家庭身体数据的方式是使用Gramian Angular Field技术将其转化为二维的图像数据。

具体地，如图4所示，左边是原始的序列数据，右边是6维的图像数据。这种处理方式的好处是，不论多长的序列数据都能统一成相同大小的三维图像，便于后续的处理。

实施例3

在实施例2的基础上，所述VAE_fe模型的作用是用于从原始高维数据中提取出低维的特征，并使得该特征服从正态分布；所述VAE_gen模型的作用是用于生成更多的异常类样本；训练过程如下所示：

步骤42：第一代初始化VAE_fe模型的编码端和解码端分别记作E_fe和D_fe；第一代初始化VAE_gen模型的编码端和解码端分别记作E_gen和D_gen；每个节点需要分别最小化如下两个损失函数：这个节点指医疗机构；

其中L₁和L₂分别是VAE_fe和VAE_gen的损失函数，L₁用的数据是节点中的全部数据All、L₂只用节点中少类的样本数据Anomaly；μ₀，σ₀，μ₁，σ₁是需要被模型学习的参数，KL指的是Kullback-Leibler散度的计算，

在训练M模型前，本地数据集将会被重新更新使得其中的正样本和负样本达到平衡；训练过程如下所示：

步骤74：D_k更新为：

步骤75：D′_k随后需被E_fe进一步更新为：

当有新的数据集可用时，VAE_fe模型、VAE_gen模型和M模型需要定期更新，三个模型的的学习流程为：

步骤B：基于全部原始数据集训练特征提取VAE_fe模型；

步骤D：训练M模型。

具体地：每一通信轮次下进行训练M的时候，D″_k是不一样的，这是因为VAE自身的特性引起的。首先，每一次采样是随机的，所以生成的样本会变化。其次，对于同样的原始数据，VAE对其进行的编码不是固定的(传统的编码器是硬编码，即数据确定后编码也是确定的)，而是服从于正态分布的，因此若有N个通信轮次，则每个节点将会产生N个不同的数据集，动态变化的数据集同时也提高了异常检测模型M的鲁棒性，训练过程中也减少了M过拟合的风险。

下表展示了两个VAE的具体结构信息：

这个表格主要说明了VAE模型搭建的具体参数信息，有了这些信息就能够构建出VAE模型。

举个例子，VAE模型的第一层是一个卷积层，它接受一个6×30×30的数据输入(Input)，该卷积层使用了32个滤波器(Filter)并且卷积核(Kernel size)的大小为4，卷积步长(Stride)为2，最终该层输出(Output)一个32×14×14的数据并传入下一层…以此类推。

实施例4

在实施例3的基础上，M模型是由两层隐藏层的全连接神经网络组成的，其中输入层的维度与上表中的z dim一致，两层隐藏层的神经元个数分别为1024和256，输出维度为2。M模型加入了Dropout和BatchNormalization，除了最后一层使用SoftMax激活函数进行激活，其它层之间都选取SeLu作为激活函数。

具体地：FedVAE框架解决了基于联邦学习的医疗保健领域的三个挑战，第一，数据分布非IID导致的最终模型性能降低以及收敛速度慢的问题。第二，医疗数据的正负样本分布不均衡导致的模型偏差较大的问题。第三，联邦学习下所消耗的通信带宽过大导致的难以实际部署的问题。我们先在联邦学习框架下训练两个轻量级的VAE，然后将训练好的VAE分发给所有的节点用于更新自己的本地数据，而更新后的本地数据具有的特点就是数据都是低维且分布具有相似性并且类别是均衡的。最后再利用这样的数据对异常检测模型进行训练。

此外，FedVAE还允许具有用户历史数据的家庭网关对最终训练好的全局判别模型进行微调形成为用户/家庭量身定制的个性化模型从而进一步提升了模型在实际应用中的表现。目前而言，大多数研究针对上述三个挑战的解决方案都并不适用于医疗保健场景且很少有研究是可以同时有效解决这三个挑战的。我们在真实数据集上进行了实验，验证了FedVAE的有效性和可扩展性。FedVAE框架下判别模型的最终性能与集中式模型相似甚至略高于集中式模型，收敛速度也比普通FL快，这也说明这个框架的合理性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明的保护范围，任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于VAE医疗保健联邦学习框架的确定方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于VAE医疗保健联邦学习框架的确定方法，其特征在于，所述家庭网关的数据集由可穿戴设备中的传感器获取，所述传感器包含角速度和加速度传感器，每个传感器上都包含有xyz三轴上的序列信息；处理家庭身体数据的方式是使用Gramian Angular Field技术将其转化为二维的图像数据。

3.根据权利要求1所述的基于VAE医疗保健联邦学习框架的确定方法，其特征在于，所述VAE_fe模型的作用是用于从原始高维数据中提取出低维的特征，并使得该特征服从正态分布；所述VAE_gen模型的作用是用于生成更多的异常类样本；训练过程如下所示：

i表示数据的索引、x_i表示数据集中的第i条数据的原始信息、y_i表示数据集中第i条数据所对应的标签信息；

其中L₁和L₂分别是VAE_fe和VAE_gen的损失函数，L₁用的数据是节点中的全部数据All、L₂只用节点中少类的样本数据Anomaly；μ₀，σ₀，μ₁，σ₁是需要被模型学习的参数，KL指的是Kullback-Leibler散度的计算，N为高斯分布函数、N(0，1)表示均值为0，方差为1的高斯函数；

4.根据权利要求3所述的基于VAE医疗保健联邦学习框架的确定方法，其特征在于，在训练M模型前，本地数据集将会被重新更新使得其中的正样本和负样本达到平衡；训练过程如下所示：

步骤74：D_k更新为：

N_k表示第k个节点中正样本和负样本所查的数量，j表示第j次采样，z_j表示第j次从高斯分布中采样出的样本、是一个向量；

步骤75：D′_k随后需被E_fe进一步更新为：

5.根据权利要求1所述的基于VAE医疗保健联邦学习框架的确定方法，其特征在于，当有新的数据集可用时，VAE_fe模型、VAE_gen模型和M模型需要定期更新，三个模型的的学习流程为：

步骤B：基于全部原始数据集训练特征提取VAE_fe模型；

步骤D：训练M模型。

6.根据权利要求1所述的基于VAE医疗保健联邦学习框架的确定方法，其特征在于，M模型是由两层隐藏层的全连接神经网络组成的，其中输入层的维度与上表中的z dim一致，两层隐藏层的神经元个数分别为1024和256，输出维度为2。

7.根据权利要求6所述的基于VAE医疗保健联邦学习框架的确定方法，其特征在于，M模型加入了Dropout和BatchNormalization，除了最后一层使用SoftMax激活函数进行激活，其它层之间都选取SeLu作为激活函数。