CN112420187A

CN112420187A - 一种基于迁移联邦学习的医疗疾病分析方法

Info

Publication number: CN112420187A
Application number: CN202011107453.6A
Authority: CN
Inventors: 张晖; 王志坤; 赵海涛; 孙雁飞; 朱洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-02-26
Anticipated expiration: 2040-10-15
Also published as: CN112420187B

Abstract

本发明公开了一种基于迁移联邦学习的医疗疾病分析方法。属于医疗领域和迁移联邦学习领域；具体步骤：获取疾病特征和标签数据并将数据上传至本地服务器、本地服务器随机将无误的数据等比例的加密上传到云端、得到权重系数以及标签识别准确率、云端将初始训练模型迁移到本地服务器、本地服务器上传训练模型参数给云端，再由云端分配给模型权重系数、本地服务器结合标签识别准确率进行融合学习。本发明根据获取数据不平衡问题对模型的影响，通过对概率分布分析来对标签识别准确度进行修正，根据异常数据问题对模型的影响，提出了加密数据共享，通过对异常数据处理对各参与方或计算结点的加权系数进行修改，保证联邦学习预测的准确性。

Description

一种基于迁移联邦学习的医疗疾病分析方法

技术领域

本发明涉及医疗领域和迁移联邦学习领域，具体涉及一种基于迁移联邦学习的医疗疾病分析方法；此方法中各服务器获取对应医院的数据库数据，拿出部分数据进行加密再预处理，并根据数据的准确性制定每个模型的信任系数，接着把各服务器的最终模型利用云端实现共享，实现模型融合学习。

背景技术

随着机器学习的蓬勃发展和应用加深，数据交换安全以及个人数据隐私的重要程度被广大人们认可。在2016年，首先联邦学习由谷歌提出，原本用于解决安卓手机终端用户的本地更新模型的问题，是多参与方或多计算结点之间开展高效率的机器学习，同时联邦学习中使用的算法可以多种多样，既能包括传统经典的机器学习算法，也能包括神经网络算法等深度学习算法。随后多领域开始投身对联邦学习的研究，不断创新，提出了横向，纵向以及迁移联邦学习，在银行金融，医院，城市管理等方面得到了很大的应用，同时随着5G时代的到来，5G 加联邦学习会使联邦学习应用领域进一步扩大，数据获取量也进一步扩大，所以对于联邦学习的研究不仅具有很好的前景，而且能对我国的经济发展有着推动作用，对与成为科技强国具有极大的意义。

联邦学习主要目的是数据处理，但与一般机器学习有着明显的不同，其采用的是分布式学习，有利于解决某处数据严重不足，而使训练模型严重不好的问题，同时联邦学习对用户数据的隐私性比较重视，所以很快成为人们关注的重点，所以联邦学习是既具有研究价值同时又极具挑战性的热门课题。

在联邦学习中，一直存在各参与方或计算结点中的数据分布不平衡的问题，因此应对该问题保证训练模型质量是联邦学习的重要问题之一。传统的联邦学习未对数据分布不平衡的问题进行处理，导致学习效率较低，模型准确率较低。基于模型融合学习以及标签识别准确度的联邦学习，能够有效的处理数据分布不对称的影响，使得学习的准确度有一定的提升。在现有的研究中提出了一系列的针对数据不对称的有效解决方案，是采用数据共享，采用多批量的梯度学习，但有研究表明，恶意的用户可以依据联邦学习梯度参数在每一轮中的差异，通过调整其输入数据逼近真实梯度，从而推测出用户的敏感数据。考虑到某参与方或某计算结点中数据大量出错(可能是人为影响)对总体训练的影响，基于加密数据预处理的联邦学习，通过设置服务器的信任度，用于消减数据出错对整体学习的影响，同时保证了用户数据的隐私性，并使得学习的准确度有一定的提升。

对于医疗领域来讲，由传统医疗向智能医疗的转变是必然趋势，因为结合大数据处理可以为医疗领域带来极大的好处。如某些医院的某病例数是相对少的 (样本少)，而其他病例数又偏多(样本多)，会导致难以训练能准确分类样本少的疾病的模型。同时，在医疗领域里，样本数量都不会很大，通过以迁移模型作为各服务器的初始模型，增强对小样本数据的学习能力。

为此，本发明从加密数据共享的角度出发进行了异常数据的处理，同时根据异常数据对各参与方或计算结点的加权系数进行修改；从融合模型学习的角度出发处理数据分布不平衡的问题，同时根据概率分布对模型的标签识别准确度进行修改。从而提出了一种基于迁移联邦学习的医疗疾病分析方法。

发明内容

针对上述问题，本发明提供了一种基于迁移联邦学习的医疗疾病分析方法。

本发明的技术方案是：一种基于迁移联邦学习的医疗疾病分析方法，具体步骤包括如下：

步骤(1.1)、通过病历分析，获取疾病特征和标签数据并将数据上传至本地服务器；

步骤(1.2)、采用改进的生成对抗网络，本地服务器检测接收的疾病数据并随机将无误的数据等比例的加密上传到云端；

步骤(1.3)、云端对加密数据进行异常数据检测和概率分布分析得到权重系数以及标签识别准确率；

步骤(1.4)、云端将初始训练模型迁移到本地服务器，本地服务器结合所有的无误数据进行模型训练；

步骤(1.5)、本地服务器上传训练模型参数给云端，再由云端分配给模型权重系数；

步骤(1.6)、云端共享模型信息给本地服务器，本地服务器结合标签识别准确率进行融合学习。

进一步的，在步骤(1.2)中，所述本地服务器检测接收的疾病数据并随机将无误的数据等比例的加密上传到云端的具体操作步骤如下：

(1.2.1)、基于改进的生成对抗网络进行异常数据检测；

(1.2.2)、随机选择等比例的无误数据并采用相同的同态加密手段；

(1.2.3)、本地服务器上传加密数据以及样本数据的概率分布信息。

进一步的，在步骤(1.3)中，所述云端对加密数据进行异常数据检测和概率分布分析的具体操作步骤如下：

(1.3.1)、云端对加密数据采用统计方法进行异常数据检测；

(1.3.2)、云端根据异常数据检测结果设置权重系数；

(1.3.3)、云端根据数据库样本的概率分布制定标签识别准确度。

进一步的，在步骤(1.4)中，所述本地服务器结合所有的无误数据进行模型训练的具体操作步骤如下：

(1.4.1)、云端向本地服务器发送相同迁移学习模型；

(1.4.2)、本地服务器以迁移模型为初始模型并结合所有的无误数据进行模型训练。

进一步的，在所述步骤(1.5)中，由于各个数据库的数据分布不平衡，从而导致其中一部分服务器的数据与总的数据分布出现差异，因此，通过设置信任度，给各服务器分配权重系数，改进模型的可信度，从而使用本地服务器上传训练模型参数给云端。

进一步的，在所述步骤(1.6)中，由于各数据库之间的数据分布不平衡，各服务器训练的模型对其中一部分标签的特征敏感，因此，通过共享所有模型信息，结合云端制定的标签识别准确度，从而进行模型融合学习。

本发明的有益效果是：本发明根据获取数据不平衡问题对模型的影响，提出了融合模型学习，通过对概率分布分析来对标签识别准确度进行修正，又考虑了异常数据问题对模型的影响，提出了加密数据共享，通过对异常数据处理对各参与方或计算结点的加权系数进行修改。从而保证联邦学习能够更准确的预测，更有安全性。一方面，该方案中融合模型学习减小数据不平衡问题的影响，加密数据共享减小异常数据问题的影响，具有较好的理论性能保证，使得模型准确率更高，另一方面，该方案又非常简单的易于实现，具有个别好的应用前景。

附图说明

图1是本发明的结构流程图；

图2是本发明中提供的联邦学习的架构图；

图3是本发明中基于改进的生成对抗网络(GAN)模型的示意图；

图4是本发明中提供的数据上传加密框图；

图5是本发明中提供的联邦学习的模块图。

具体实施方式

为了更清楚地说明本发明的技术方案，下面结合附图对本发明的技术方案做进一步的详细说明：

如图1所述，一种基于迁移联邦学习的医疗疾病分析方法，具体步骤包括如下：

步骤(1.1)、通过病历分析，医院获取疾病特征和标签数据并将数据上传至本地服务器；

步骤(1.2)、采用改进的生成对抗网络(GAN)，本地服务器检测接收的疾病数据并随机将无误的数据等比例的加密上传到云端；

(1.2.1)、基于改进的生成对抗网络进行异常数据检测；

(1.3.1)、云端对加密数据采用统计方法进行异常数据检测；

(1.3.2)、云端根据异常数据检测结果设置权重系数；

(1.4.1)、云端向本地服务器发送相同迁移学习模型；

本发明提够了一种基于迁移联邦学习的医疗疾病分析方法，基本架构图如图 2所示，本发明首先使各参与方或计算结点进行数据获取，再随机的选择一定量的数据进行加密上传，云端对加密数据进行预处理来检测各参与方或计算结点获取数据的异常性，从而对它们进行加权系数的修改，防止某参与方或计算结点因过多的数据异常，影响整个模型的训练，再通过对各参与方或计算结点获取数据的概率分布分析，从而对它们进行标签识别准确度进行修正，最后得到性能比较好的融合学习模型。

本发明主要包含三个内容：一是使用数据加密上传和异常检测，来保证患者隐私数据，同时分析某个别服务器是否出现大量的数据异常(可能是人为原因)；二是各服务器的数据概率分布上传及分析，为改进因数据不平衡导致模型对某个标签的分类准确率不足；三是模型训练以及模型模型融合，通过联合各个服务器的模型，更加全面的进行分类，提高整体的模型准确度。

1、数据加密上传与异常检测：

在联邦学习中，每个本地训练模型最终都会影响整体模型，为防止个别模型的数据出错，导致该模型训练准确度不够，进而导致整体模型的训练准确度降低，需要进行数据上传并检测；

对于数据上传，为保证患者的隐私数据不被泄露，与要进行加密处理；这样云端进行加密数据处理时，是不会先解密再处理数据，而是直接对加密的数据进行预处理，因为云端是未接收到服务器使用的加密密钥的；本发明采用对称加密技术，其特点是文件加密和解密使用相同的密钥，即加密密钥也可以用作解密密钥；如图2所示，每个服务器使用相同的加密密钥，这样既能不向云端泄露患者的数据，又能让所有的服务器对全部的加密数据进行解密；假设每个服务器获取的数据量分别为m_i，i＝1，2，…，N，且m₁＝m₂＝…＝m_N，m_i个数据量有着k个不同的标签；用α表示数据加密上传系数，使用随机抽取的方法，则从每个服务器中上传的共享加密数据量为：

而云端所接收的加密数据量为

对于异常检测，本发明有两处要进行异常检测；其一是各服务器获取数据时的异常数据检测；其二是各服务器上传到云端是进行的异常数据检测；

服务器端的异常数据检测：为了更好的训练模型，需要对医院数据库获取的数据进行清理，本发明中此处采用的异常数据检测方法为基于改进的生成对抗网络(GAN)的检测方法，如图3所示；在训练阶段，输入特征1与输入特征2都是正常数据，提取偏差指的是输入特征1各项减去平均向量T,平均向量T的求法如下：

其中，h为一个样本拥有的特征数量，T_r表示记忆池中储存的正常数据样本；

在训练阶段，总会把前M个正常数据样本存在记忆池中，再求离这些样本数据距离平方和最近的向量为平均向量T，该做法可以自适应的根据正常数据的分布情况来修改提取出偏差；提取出来的数据偏差经过两层神经网络实现数据降维，去除噪声和冗余信息；再由生成网络生成特征向量，与真实的特征向量在鉴别网络中识别，目标是实现当输入特征1是正常时，由生成网络生成的特征向量与已知的输入特征2是极为相近的；

在检测过程中，如输入特征1是正常时，则可得知鉴别网络的输出为1，此时，生成网络生成的特征向量将会加入记忆池中，来替换最旧的样本数据；如输入特征1是异常时，则可得知鉴别网络的输出为0，则样本数据时将会被清除；

云端的异常数据检测：云端通过对加密数据的预处理来进行数据的异常检测，本发明进行异常检测所用到的方法：1)将有着不同标签的数据进行分成不同的集合T_l，l＝1，...，k；2)假设不同标签的特征服从高斯分布，通过正确的数据集，求出该分布的均值u和方差σ²；3)比较集合T_l对应特征是否满足(u-3σ,u+3σ)，不满足，则判断异常；

已知异常数据，分别找到其对应的服务器；在云端接收的共享数据中，各服务器所对应异常数据量是E_i，则可以估计服务器i中异常数据所占的比例，即异常率为：

通过上述操作，可以求得所有服务器的数据异常率R_i，此时设定异常阈值R_阈，对于异常率R_i小于异常阈值R_阈的服务器，则相应地对服务器i梯度的加权系数进行修改，修改后的加权系数为

而对于异常率R_i大于等于异常阈值R_阈的服务器，则相应地对服务器i梯度的加权参数进行修改，修改后的加权系数为

其中f(x)是单调递减函数；加权系数为：

其中，g(x)满足下列式子：

2、数据概率分布上传及分析

在一般的联邦学习中，各服务器里的数据一般被认为是独立同分布的，但是医疗领域会由于各方面的影响，不同医院对某相同疾病的病例数是不同，导致医院数据库的数据难以保证独立同分布，即每个医院数据库的疾病数据分布不平衡；假设m_i个数据量有着k个不同的标签，m_i,k表示第i个服务器获取的数据中，第k 个类别的数据量，其对应的概率分布为p_i,k,0≤p_i,k≤1，因为每个医院数据库是不同的，就会导致p_i≠p_j,i≠j，即每个服务器获取的数据分布是不同的；可以知道，当p_i,k越小时，则表示对于第i个服务器训练的模型中，对标签k的识别准确度是越差的；为此，需要制定一个标签识别准确度，来表示模型对该标签识别结果的可信度；设置单调递增函数h(x)，标签识别准确度函数为：

在识别过程中，假设第i服务器训练的模型的输出是第k类标签，则在进行结果判定时，需要将得分乘上T(p_i,k)；具体由后文给出；

3、模型训练以及模型融合：

有研究表明，在传统的联邦学习中，恶意的用户可以依据联邦学习梯度参数在每一轮中的差异，通过调整其输入数据逼近真实梯度，从而推测出用户的敏感数据；为此，本发明的模型训练不涉及数据共享以及梯度聚合，主要流程是，各服务器使用相同的学习模型作为训练的初始模型，再利用医院数据库中获取的数据，进行本地模型训练，最终通过云端将所有模型进行融合；

对于模型训练，会面临到数据不平很的问题，所以在输出得分判决时，要进行阈值相应的修改；已知第i服务器中第k类标签的概率分布为p_i,k,0≤p_i,k≤1，当模型输出第k类标签的得分y_i,k满足y_i,k＞p_i,k时，可以认定分类结果为第k类标签；此时需要将得分y_i,k乘上标签识别准确度T(p_i,k)进行结果融合；

对于模型融合，会面临某些服务器数据出错，导致模型融合的准确度降低，所以需要设置加权系数W(R_i)；每个服务器都有其他服务器的训练模型，通过特征输入，对每个模型的输出结果进行融合；具体步骤如下：

A、每个服务器通过输入得到得分y_i,k；

B、保留满足y_i,k＞p_i,k的得分，对于不满足的得分y_i,k，不加入下一步的计算；

C、不同模型保留的得分y_i,k乘上T(p_i,k)和W(R_i)，并进行加权和，判定为k的最终分数score_k结果如下；

D、比较最终分数score_k大小，从而得到融合分析的结果。

下面通过实施例，对所提供的一种迁移联邦学习的方法作进一步的描述。在本发明实施例中：迁移联邦学习方法采用改进的生成对抗网络(GAN)进行异常数据检测，可以清除不同医院疾病数据中的异常数据；如以多个本地服务器中的服务器a为例；服务器a将医院疾病特征数据减去记忆池中M个数据的平均值作为改进的生成对抗网络(GAN)的输入，当输出为1时，表示该数据正常；迁移联邦学习方法通过在云端采取统计方法对加密数据进行异常检测，可以计算多个本地服务器训练模型的权重系数；服务器a上述检测无误的数据以加密手段随即上传给云端30％数据，构造特征的高斯分布，若某一特征的统计均值为u＝3，方差σ²＝0.025，则该特征处于(2.925，3.075)的数据在该特征是无误的，同样方法可判断其他特征；如服务器a上传到云端数据为s_a＝1000，异常的数据为E_a＝20，则异常率为R_a＝0.02，将异常率代入权重系数函数W(R_a)得到权重系数；迁移联邦学习方法通过不同疾病类型的分布概率，可以求得多个服务器得标签识别率。如服务器a的疾病数据类型由4类，通过随机抽样或数据统计得到样本中不同疾病类型的概率分布；如第一类的概率为1/4，第二类的概率为1/5，第三类的概率为3/20，第四类的概率为2/5；则对应的标签识别率分别为：0.25，0.23，0.2， 0.32，标签识别率函数为

迁移联邦学习方法通过权重系数和标签识别率进行模型融合，可以得到最终疾病识别结果；如输入病历特征数据，服务器a的模型输出结果分别为0.35(>1/4)，0.1(<1/5)，0.05(<3/20)，0.5(>2/5)，所以对于服务器a，只有第一类和第四类有得分，分别为：0.25*W(R_a)和 0.32*W(R_a)，同样的方法用于其他服务器的模型，计算各类型的总得分，得分高的为最终结果；这样不仅能够避免异常数据造成的影响，还能降低数据分布不平衡造成的影响，此外还能结合多个训练模型做出更准确更全面的判断。

以上对本发明实施例所提供的一种联邦学习的方法进行了详细介绍，对于医疗领域和联邦学习领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于迁移联邦学习的医疗疾病分析方法，其特征在于，具体步骤包括如下：

2.根据权利要求1所述的一种基于迁移联邦学习的医疗疾病分析方法，其特征在于，在步骤(1.2)中，所述本地服务器检测接收的疾病数据并随机将无误的数据等比例的加密上传到云端的具体操作步骤如下：

(1.2.1)、基于改进的生成对抗网络进行异常数据检测；

3.根据权利要求1所述的一种基于迁移联邦学习的医疗疾病分析方法，其特征在于，在步骤(1.3)中，所述云端对加密数据进行异常数据检测和概率分布分析的具体操作步骤如下：

(1.3.1)、云端对加密数据采用统计方法进行异常数据检测；

(1.3.2)、云端根据异常数据检测结果设置权重系数；

4.根据权利要求1所述的基一种基于迁移联邦学习的医疗疾病分析方法，其特征在于，在步骤(1.4)中，所述本地服务器结合所有的无误数据进行模型训练的具体操作步骤如下：

(1.4.1)、云端向本地服务器发送相同迁移学习模型；

5.根据权利要求1所述的一种基于迁移联邦学习的医疗疾病分析方法，其特征在于，在所述步骤(1.5)中，由于各个数据库的数据分布不平衡，从而导致其中一部分服务器的数据与总的数据分布出现差异，因此，通过设置信任度，给各服务器分配权重系数，改进模型的可信度，从而使用本地服务器上传训练模型参数给云端。

6.根据权利要求1所述的一种基于迁移联邦学习的医疗疾病分析方法，其特征在于，在所述步骤(1.6)中，由于各数据库之间的数据分布不平衡，各服务器训练的模型对其中一部分标签的特征敏感，因此，通过共享所有模型信息，结合云端制定的标签识别准确度，从而进行模型融合学习。