CN112420187A - 一种基于迁移联邦学习的医疗疾病分析方法 - Google Patents

一种基于迁移联邦学习的医疗疾病分析方法 Download PDF

Info

Publication number
CN112420187A
CN112420187A CN202011107453.6A CN202011107453A CN112420187A CN 112420187 A CN112420187 A CN 112420187A CN 202011107453 A CN202011107453 A CN 202011107453A CN 112420187 A CN112420187 A CN 112420187A
Authority
CN
China
Prior art keywords
data
model
local server
cloud
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011107453.6A
Other languages
English (en)
Other versions
CN112420187B (zh
Inventor
张晖
王志坤
赵海涛
孙雁飞
朱洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011107453.6A priority Critical patent/CN112420187B/zh
Publication of CN112420187A publication Critical patent/CN112420187A/zh
Application granted granted Critical
Publication of CN112420187B publication Critical patent/CN112420187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于迁移联邦学习的医疗疾病分析方法。属于医疗领域和迁移联邦学习领域;具体步骤:获取疾病特征和标签数据并将数据上传至本地服务器、本地服务器随机将无误的数据等比例的加密上传到云端、得到权重系数以及标签识别准确率、云端将初始训练模型迁移到本地服务器、本地服务器上传训练模型参数给云端,再由云端分配给模型权重系数、本地服务器结合标签识别准确率进行融合学习。本发明根据获取数据不平衡问题对模型的影响,通过对概率分布分析来对标签识别准确度进行修正,根据异常数据问题对模型的影响,提出了加密数据共享,通过对异常数据处理对各参与方或计算结点的加权系数进行修改,保证联邦学习预测的准确性。

Description

一种基于迁移联邦学习的医疗疾病分析方法
技术领域
本发明涉及医疗领域和迁移联邦学习领域,具体涉及一种基于迁移联邦学习的医疗疾病分析方法;此方法中各服务器获取对应医院的数据库数据,拿出部分数据进行加密再预处理,并根据数据的准确性制定每个模型的信任系数,接着把各服务器的最终模型利用云端实现共享,实现模型融合学习。
背景技术
随着机器学习的蓬勃发展和应用加深,数据交换安全以及个人数据隐私的重要程度被广大人们认可。在2016年,首先联邦学习由谷歌提出,原本用于解决安卓手机终端用户的本地更新模型的问题,是多参与方或多计算结点之间开展高效率的机器学习,同时联邦学习中使用的算法可以多种多样,既能包括传统经典的机器学习算法,也能包括神经网络算法等深度学习算法。随后多领域开始投身对联邦学习的研究,不断创新,提出了横向,纵向以及迁移联邦学习,在银行金融,医院,城市管理等方面得到了很大的应用,同时随着5G时代的到来,5G 加联邦学习会使联邦学习应用领域进一步扩大,数据获取量也进一步扩大,所以对于联邦学习的研究不仅具有很好的前景,而且能对我国的经济发展有着推动作用,对与成为科技强国具有极大的意义。
联邦学习主要目的是数据处理,但与一般机器学习有着明显的不同,其采用的是分布式学习,有利于解决某处数据严重不足,而使训练模型严重不好的问题,同时联邦学习对用户数据的隐私性比较重视,所以很快成为人们关注的重点,所以联邦学习是既具有研究价值同时又极具挑战性的热门课题。
在联邦学习中,一直存在各参与方或计算结点中的数据分布不平衡的问题,因此应对该问题保证训练模型质量是联邦学习的重要问题之一。传统的联邦学习未对数据分布不平衡的问题进行处理,导致学习效率较低,模型准确率较低。基于模型融合学习以及标签识别准确度的联邦学习,能够有效的处理数据分布不对称的影响,使得学习的准确度有一定的提升。在现有的研究中提出了一系列的针对数据不对称的有效解决方案,是采用数据共享,采用多批量的梯度学习,但有研究表明,恶意的用户可以依据联邦学习梯度参数在每一轮中的差异,通过调整其输入数据逼近真实梯度,从而推测出用户的敏感数据。考虑到某参与方或某计算结点中数据大量出错(可能是人为影响)对总体训练的影响,基于加密数据预处理的联邦学习,通过设置服务器的信任度,用于消减数据出错对整体学习的影响,同时保证了用户数据的隐私性,并使得学习的准确度有一定的提升。
对于医疗领域来讲,由传统医疗向智能医疗的转变是必然趋势,因为结合大数据处理可以为医疗领域带来极大的好处。如某些医院的某病例数是相对少的 (样本少),而其他病例数又偏多(样本多),会导致难以训练能准确分类样本少的疾病的模型。同时,在医疗领域里,样本数量都不会很大,通过以迁移模型作为各服务器的初始模型,增强对小样本数据的学习能力。
为此,本发明从加密数据共享的角度出发进行了异常数据的处理,同时根据异常数据对各参与方或计算结点的加权系数进行修改;从融合模型学习的角度出发处理数据分布不平衡的问题,同时根据概率分布对模型的标签识别准确度进行修改。从而提出了一种基于迁移联邦学习的医疗疾病分析方法。
发明内容
针对上述问题,本发明提供了一种基于迁移联邦学习的医疗疾病分析方法。
本发明的技术方案是:一种基于迁移联邦学习的医疗疾病分析方法,具体步骤包括如下:
步骤(1.1)、通过病历分析,获取疾病特征和标签数据并将数据上传至本地服务器;
步骤(1.2)、采用改进的生成对抗网络,本地服务器检测接收的疾病数据并随机将无误的数据等比例的加密上传到云端;
步骤(1.3)、云端对加密数据进行异常数据检测和概率分布分析得到权重系数以及标签识别准确率;
步骤(1.4)、云端将初始训练模型迁移到本地服务器,本地服务器结合所有的无误数据进行模型训练;
步骤(1.5)、本地服务器上传训练模型参数给云端,再由云端分配给模型权重系数;
步骤(1.6)、云端共享模型信息给本地服务器,本地服务器结合标签识别准确率进行融合学习。
进一步的,在步骤(1.2)中,所述本地服务器检测接收的疾病数据并随机将无误的数据等比例的加密上传到云端的具体操作步骤如下:
(1.2.1)、基于改进的生成对抗网络进行异常数据检测;
(1.2.2)、随机选择等比例的无误数据并采用相同的同态加密手段;
(1.2.3)、本地服务器上传加密数据以及样本数据的概率分布信息。
进一步的,在步骤(1.3)中,所述云端对加密数据进行异常数据检测和概率分布分析的具体操作步骤如下:
(1.3.1)、云端对加密数据采用统计方法进行异常数据检测;
(1.3.2)、云端根据异常数据检测结果设置权重系数;
(1.3.3)、云端根据数据库样本的概率分布制定标签识别准确度。
进一步的,在步骤(1.4)中,所述本地服务器结合所有的无误数据进行模型训练的具体操作步骤如下:
(1.4.1)、云端向本地服务器发送相同迁移学习模型;
(1.4.2)、本地服务器以迁移模型为初始模型并结合所有的无误数据进行模型训练。
进一步的,在所述步骤(1.5)中,由于各个数据库的数据分布不平衡,从而导致其中一部分服务器的数据与总的数据分布出现差异,因此,通过设置信任度,给各服务器分配权重系数,改进模型的可信度,从而使用本地服务器上传训练模型参数给云端。
进一步的,在所述步骤(1.6)中,由于各数据库之间的数据分布不平衡,各服务器训练的模型对其中一部分标签的特征敏感,因此,通过共享所有模型信息,结合云端制定的标签识别准确度,从而进行模型融合学习。
本发明的有益效果是:本发明根据获取数据不平衡问题对模型的影响,提出了融合模型学习,通过对概率分布分析来对标签识别准确度进行修正,又考虑了异常数据问题对模型的影响,提出了加密数据共享,通过对异常数据处理对各参与方或计算结点的加权系数进行修改。从而保证联邦学习能够更准确的预测,更有安全性。一方面,该方案中融合模型学习减小数据不平衡问题的影响,加密数据共享减小异常数据问题的影响,具有较好的理论性能保证,使得模型准确率更高,另一方面,该方案又非常简单的易于实现,具有个别好的应用前景。
附图说明
图1是本发明的结构流程图;
图2是本发明中提供的联邦学习的架构图;
图3是本发明中基于改进的生成对抗网络(GAN)模型的示意图;
图4是本发明中提供的数据上传加密框图;
图5是本发明中提供的联邦学习的模块图。
具体实施方式
为了更清楚地说明本发明的技术方案,下面结合附图对本发明的技术方案做进一步的详细说明:
如图1所述,一种基于迁移联邦学习的医疗疾病分析方法,具体步骤包括如下:
步骤(1.1)、通过病历分析,医院获取疾病特征和标签数据并将数据上传至本地服务器;
步骤(1.2)、采用改进的生成对抗网络(GAN),本地服务器检测接收的疾病数据并随机将无误的数据等比例的加密上传到云端;
步骤(1.3)、云端对加密数据进行异常数据检测和概率分布分析得到权重系数以及标签识别准确率;
步骤(1.4)、云端将初始训练模型迁移到本地服务器,本地服务器结合所有的无误数据进行模型训练;
步骤(1.5)、本地服务器上传训练模型参数给云端,再由云端分配给模型权重系数;
步骤(1.6)、云端共享模型信息给本地服务器,本地服务器结合标签识别准确率进行融合学习。
进一步的,在步骤(1.2)中,所述本地服务器检测接收的疾病数据并随机将无误的数据等比例的加密上传到云端的具体操作步骤如下:
(1.2.1)、基于改进的生成对抗网络进行异常数据检测;
(1.2.2)、随机选择等比例的无误数据并采用相同的同态加密手段;
(1.2.3)、本地服务器上传加密数据以及样本数据的概率分布信息。
进一步的,在步骤(1.3)中,所述云端对加密数据进行异常数据检测和概率分布分析的具体操作步骤如下:
(1.3.1)、云端对加密数据采用统计方法进行异常数据检测;
(1.3.2)、云端根据异常数据检测结果设置权重系数;
(1.3.3)、云端根据数据库样本的概率分布制定标签识别准确度。
进一步的,在步骤(1.4)中,所述本地服务器结合所有的无误数据进行模型训练的具体操作步骤如下:
(1.4.1)、云端向本地服务器发送相同迁移学习模型;
(1.4.2)、本地服务器以迁移模型为初始模型并结合所有的无误数据进行模型训练。
进一步的,在所述步骤(1.5)中,由于各个数据库的数据分布不平衡,从而导致其中一部分服务器的数据与总的数据分布出现差异,因此,通过设置信任度,给各服务器分配权重系数,改进模型的可信度,从而使用本地服务器上传训练模型参数给云端。
进一步的,在所述步骤(1.6)中,由于各数据库之间的数据分布不平衡,各服务器训练的模型对其中一部分标签的特征敏感,因此,通过共享所有模型信息,结合云端制定的标签识别准确度,从而进行模型融合学习。
本发明提够了一种基于迁移联邦学习的医疗疾病分析方法,基本架构图如图 2所示,本发明首先使各参与方或计算结点进行数据获取,再随机的选择一定量的数据进行加密上传,云端对加密数据进行预处理来检测各参与方或计算结点获取数据的异常性,从而对它们进行加权系数的修改,防止某参与方或计算结点因过多的数据异常,影响整个模型的训练,再通过对各参与方或计算结点获取数据的概率分布分析,从而对它们进行标签识别准确度进行修正,最后得到性能比较好的融合学习模型。
本发明主要包含三个内容:一是使用数据加密上传和异常检测,来保证患者隐私数据,同时分析某个别服务器是否出现大量的数据异常(可能是人为原因);二是各服务器的数据概率分布上传及分析,为改进因数据不平衡导致模型对某个标签的分类准确率不足;三是模型训练以及模型模型融合,通过联合各个服务器的模型,更加全面的进行分类,提高整体的模型准确度。
1、数据加密上传与异常检测:
在联邦学习中,每个本地训练模型最终都会影响整体模型,为防止个别模型的数据出错,导致该模型训练准确度不够,进而导致整体模型的训练准确度降低,需要进行数据上传并检测;
对于数据上传,为保证患者的隐私数据不被泄露,与要进行加密处理;这样云端进行加密数据处理时,是不会先解密再处理数据,而是直接对加密的数据进行预处理,因为云端是未接收到服务器使用的加密密钥的;本发明采用对称加密技术,其特点是文件加密和解密使用相同的密钥,即加密密钥也可以用作解密密钥;如图2所示,每个服务器使用相同的加密密钥,这样既能不向云端泄露患者的数据,又能让所有的服务器对全部的加密数据进行解密;假设每个服务器获取的数据量分别为mi,i=1,2,…,N,且m1=m2=…=mN,mi个数据量有着k个不同的标签;用α表示数据加密上传系数,使用随机抽取的方法,则从每个服务器中上传的共享加密数据量为:
Figure RE-GDA0002908629720000051
而云端所接收的加密数据量为
Figure RE-GDA0002908629720000061
对于异常检测,本发明有两处要进行异常检测;其一是各服务器获取数据时的异常数据检测;其二是各服务器上传到云端是进行的异常数据检测;
服务器端的异常数据检测:为了更好的训练模型,需要对医院数据库获取的数据进行清理,本发明中此处采用的异常数据检测方法为基于改进的生成对抗网络(GAN)的检测方法,如图3所示;在训练阶段,输入特征1与输入特征2都是正常数据,提取偏差指的是输入特征1各项减去平均向量T,平均向量T的求法如下:
Figure RE-GDA0002908629720000062
其中,h为一个样本拥有的特征数量,Tr表示记忆池中储存的正常数据样本;
在训练阶段,总会把前M个正常数据样本存在记忆池中,再求离这些样本数据距离平方和最近的向量为平均向量T,该做法可以自适应的根据正常数据的分布情况来修改提取出偏差;提取出来的数据偏差经过两层神经网络实现数据降维,去除噪声和冗余信息;再由生成网络生成特征向量,与真实的特征向量在鉴别网络中识别,目标是实现当输入特征1是正常时,由生成网络生成的特征向量与已知的输入特征2是极为相近的;
在检测过程中,如输入特征1是正常时,则可得知鉴别网络的输出为1,此时,生成网络生成的特征向量将会加入记忆池中,来替换最旧的样本数据;如输入特征1是异常时,则可得知鉴别网络的输出为0,则样本数据时将会被清除;
云端的异常数据检测:云端通过对加密数据的预处理来进行数据的异常检测,本发明进行异常检测所用到的方法:1)将有着不同标签的数据进行分成不同的集合Tl,l=1,...,k;2)假设不同标签的特征服从高斯分布,通过正确的数据集,求出该分布的均值u和方差σ2;3)比较集合Tl对应特征是否满足(u-3σ,u+3σ),不满足,则判断异常;
已知异常数据,分别找到其对应的服务器;在云端接收的共享数据中,各服务器所对应异常数据量是Ei,则可以估计服务器i中异常数据所占的比例,即异常率为:
Figure RE-GDA0002908629720000063
通过上述操作,可以求得所有服务器的数据异常率Ri,此时设定异常阈值R,对于异常率Ri小于异常阈值R的服务器,则相应地对服务器i梯度的加权系数进行修改,修改后的加权系数为
Figure RE-GDA0002908629720000071
而对于异常率Ri大于等于异常阈值R的服务器,则相应地对服务器i梯度的加权参数进行修改,修改后的加权系数为
Figure RE-GDA0002908629720000072
其中f(x)是单调递减函数;加权系数为:
Figure RE-GDA0002908629720000073
其中,g(x)满足下列式子:
Figure RE-GDA0002908629720000074
2、数据概率分布上传及分析
在一般的联邦学习中,各服务器里的数据一般被认为是独立同分布的,但是医疗领域会由于各方面的影响,不同医院对某相同疾病的病例数是不同,导致医院数据库的数据难以保证独立同分布,即每个医院数据库的疾病数据分布不平衡;假设mi个数据量有着k个不同的标签,mi,k表示第i个服务器获取的数据中,第k 个类别的数据量,其对应的概率分布为pi,k,0≤pi,k≤1,因为每个医院数据库是不同的,就会导致pi≠pj,i≠j,即每个服务器获取的数据分布是不同的;可以知道,当pi,k越小时,则表示对于第i个服务器训练的模型中,对标签k的识别准确度是越差的;为此,需要制定一个标签识别准确度,来表示模型对该标签识别结果的可信度;设置单调递增函数h(x),标签识别准确度函数为:
Figure RE-GDA0002908629720000075
在识别过程中,假设第i服务器训练的模型的输出是第k类标签,则在进行结果判定时,需要将得分乘上T(pi,k);具体由后文给出;
3、模型训练以及模型融合:
有研究表明,在传统的联邦学习中,恶意的用户可以依据联邦学习梯度参数在每一轮中的差异,通过调整其输入数据逼近真实梯度,从而推测出用户的敏感数据;为此,本发明的模型训练不涉及数据共享以及梯度聚合,主要流程是,各服务器使用相同的学习模型作为训练的初始模型,再利用医院数据库中获取的数据,进行本地模型训练,最终通过云端将所有模型进行融合;
对于模型训练,会面临到数据不平很的问题,所以在输出得分判决时,要进行阈值相应的修改;已知第i服务器中第k类标签的概率分布为pi,k,0≤pi,k≤1,当模型输出第k类标签的得分yi,k满足yi,k>pi,k时,可以认定分类结果为第k类标签;此时需要将得分yi,k乘上标签识别准确度T(pi,k)进行结果融合;
对于模型融合,会面临某些服务器数据出错,导致模型融合的准确度降低,所以需要设置加权系数W(Ri);每个服务器都有其他服务器的训练模型,通过特征输入,对每个模型的输出结果进行融合;具体步骤如下:
A、每个服务器通过输入得到得分yi,k
B、保留满足yi,k>pi,k的得分,对于不满足的得分yi,k,不加入下一步的计算;
C、不同模型保留的得分yi,k乘上T(pi,k)和W(Ri),并进行加权和,判定为k的最终分数scorek结果如下;
Figure RE-GDA0002908629720000081
D、比较最终分数scorek大小,从而得到融合分析的结果。
下面通过实施例,对所提供的一种迁移联邦学习的方法作进一步的描述。在本发明实施例中:迁移联邦学习方法采用改进的生成对抗网络(GAN)进行异常数据检测,可以清除不同医院疾病数据中的异常数据;如以多个本地服务器中的服务器a为例;服务器a将医院疾病特征数据减去记忆池中M个数据的平均值作为改进的生成对抗网络(GAN)的输入,当输出为1时,表示该数据正常;迁移联邦学习方法通过在云端采取统计方法对加密数据进行异常检测,可以计算多个本地服务器训练模型的权重系数;服务器a上述检测无误的数据以加密手段随即上传给云端30%数据,构造特征的高斯分布,若某一特征的统计均值为u=3,方差σ2=0.025,则该特征处于(2.925,3.075)的数据在该特征是无误的,同样方法可判断其他特征;如服务器a上传到云端数据为sa=1000,异常的数据为Ea=20,则异常率为Ra=0.02,将异常率代入权重系数函数W(Ra)得到权重系数;迁移联邦学习方法通过不同疾病类型的分布概率,可以求得多个服务器得标签识别率。如服务器a的疾病数据类型由4类,通过随机抽样或数据统计得到样本中不同疾病类型的概率分布;如第一类的概率为1/4,第二类的概率为1/5,第三类的概率为3/20,第四类的概率为2/5;则对应的标签识别率分别为:0.25,0.23,0.2, 0.32,标签识别率函数为
Figure RE-GDA0002908629720000091
迁移联邦学习方法通过权重系数和标签识别率进行模型融合,可以得到最终疾病识别结果;如输入病历特征数据,服务器a的模型输出结果分别为0.35(>1/4),0.1(<1/5),0.05(<3/20),0.5(>2/5),所以对于服务器a,只有第一类和第四类有得分,分别为:0.25*W(Ra)和 0.32*W(Ra),同样的方法用于其他服务器的模型,计算各类型的总得分,得分高的为最终结果;这样不仅能够避免异常数据造成的影响,还能降低数据分布不平衡造成的影响,此外还能结合多个训练模型做出更准确更全面的判断。
以上对本发明实施例所提供的一种联邦学习的方法进行了详细介绍,对于医疗领域和联邦学习领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于迁移联邦学习的医疗疾病分析方法,其特征在于,具体步骤包括如下:
步骤(1.1)、通过病历分析,获取疾病特征和标签数据并将数据上传至本地服务器;
步骤(1.2)、采用改进的生成对抗网络,本地服务器检测接收的疾病数据并随机将无误的数据等比例的加密上传到云端;
步骤(1.3)、云端对加密数据进行异常数据检测和概率分布分析得到权重系数以及标签识别准确率;
步骤(1.4)、云端将初始训练模型迁移到本地服务器,本地服务器结合所有的无误数据进行模型训练;
步骤(1.5)、本地服务器上传训练模型参数给云端,再由云端分配给模型权重系数;
步骤(1.6)、云端共享模型信息给本地服务器,本地服务器结合标签识别准确率进行融合学习。
2.根据权利要求1所述的一种基于迁移联邦学习的医疗疾病分析方法,其特征在于,在步骤(1.2)中,所述本地服务器检测接收的疾病数据并随机将无误的数据等比例的加密上传到云端的具体操作步骤如下:
(1.2.1)、基于改进的生成对抗网络进行异常数据检测;
(1.2.2)、随机选择等比例的无误数据并采用相同的同态加密手段;
(1.2.3)、本地服务器上传加密数据以及样本数据的概率分布信息。
3.根据权利要求1所述的一种基于迁移联邦学习的医疗疾病分析方法,其特征在于,在步骤(1.3)中,所述云端对加密数据进行异常数据检测和概率分布分析的具体操作步骤如下:
(1.3.1)、云端对加密数据采用统计方法进行异常数据检测;
(1.3.2)、云端根据异常数据检测结果设置权重系数;
(1.3.3)、云端根据数据库样本的概率分布制定标签识别准确度。
4.根据权利要求1所述的基一种基于迁移联邦学习的医疗疾病分析方法,其特征在于,在步骤(1.4)中,所述本地服务器结合所有的无误数据进行模型训练的具体操作步骤如下:
(1.4.1)、云端向本地服务器发送相同迁移学习模型;
(1.4.2)、本地服务器以迁移模型为初始模型并结合所有的无误数据进行模型训练。
5.根据权利要求1所述的一种基于迁移联邦学习的医疗疾病分析方法,其特征在于,在所述步骤(1.5)中,由于各个数据库的数据分布不平衡,从而导致其中一部分服务器的数据与总的数据分布出现差异,因此,通过设置信任度,给各服务器分配权重系数,改进模型的可信度,从而使用本地服务器上传训练模型参数给云端。
6.根据权利要求1所述的一种基于迁移联邦学习的医疗疾病分析方法,其特征在于,在所述步骤(1.6)中,由于各数据库之间的数据分布不平衡,各服务器训练的模型对其中一部分标签的特征敏感,因此,通过共享所有模型信息,结合云端制定的标签识别准确度,从而进行模型融合学习。
CN202011107453.6A 2020-10-15 2020-10-15 一种基于迁移联邦学习的医疗疾病分析方法 Active CN112420187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011107453.6A CN112420187B (zh) 2020-10-15 2020-10-15 一种基于迁移联邦学习的医疗疾病分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011107453.6A CN112420187B (zh) 2020-10-15 2020-10-15 一种基于迁移联邦学习的医疗疾病分析方法

Publications (2)

Publication Number Publication Date
CN112420187A true CN112420187A (zh) 2021-02-26
CN112420187B CN112420187B (zh) 2022-08-26

Family

ID=74854579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011107453.6A Active CN112420187B (zh) 2020-10-15 2020-10-15 一种基于迁移联邦学习的医疗疾病分析方法

Country Status (1)

Country Link
CN (1) CN112420187B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468133A (zh) * 2021-05-23 2021-10-01 杭州医康慧联科技股份有限公司 适用于数据模型的在线共享系统
CN113691594A (zh) * 2021-08-11 2021-11-23 杭州电子科技大学 一种基于二阶导数解决联邦学习中数据不平衡问题的方法
CN114048515A (zh) * 2022-01-11 2022-02-15 四川大学 一种基于联邦学习和区块链的医疗大数据共享方法
CN115577797A (zh) * 2022-10-18 2023-01-06 东南大学 一种基于本地噪声感知的联邦学习优化方法及系统
WO2023040640A1 (zh) * 2021-09-16 2023-03-23 中国电信股份有限公司 一种纵向联邦学习的数据检验方法
CN116204599A (zh) * 2023-05-06 2023-06-02 成都三合力通科技有限公司 基于联邦学习的用户信息分析系统及方法
WO2023223448A1 (ja) * 2022-05-18 2023-11-23 日本電気株式会社 情報処理装置、情報処理方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520780A (zh) * 2018-03-07 2018-09-11 中国科学院计算技术研究所 一种基于迁移学习的医学数据处理和系统
CN111180061A (zh) * 2019-12-09 2020-05-19 广东工业大学 融合区块链与联邦学习的共享医疗数据智能辅助诊断系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520780A (zh) * 2018-03-07 2018-09-11 中国科学院计算技术研究所 一种基于迁移学习的医学数据处理和系统
CN111180061A (zh) * 2019-12-09 2020-05-19 广东工业大学 融合区块链与联邦学习的共享医疗数据智能辅助诊断系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468133A (zh) * 2021-05-23 2021-10-01 杭州医康慧联科技股份有限公司 适用于数据模型的在线共享系统
CN113691594A (zh) * 2021-08-11 2021-11-23 杭州电子科技大学 一种基于二阶导数解决联邦学习中数据不平衡问题的方法
CN113691594B (zh) * 2021-08-11 2023-02-07 杭州电子科技大学 一种基于二阶导数解决联邦学习中数据不平衡问题的方法
WO2023040640A1 (zh) * 2021-09-16 2023-03-23 中国电信股份有限公司 一种纵向联邦学习的数据检验方法
CN114048515A (zh) * 2022-01-11 2022-02-15 四川大学 一种基于联邦学习和区块链的医疗大数据共享方法
CN114048515B (zh) * 2022-01-11 2022-03-22 四川大学 一种基于联邦学习和区块链的医疗大数据共享方法
WO2023223448A1 (ja) * 2022-05-18 2023-11-23 日本電気株式会社 情報処理装置、情報処理方法及びプログラム
CN115577797A (zh) * 2022-10-18 2023-01-06 东南大学 一种基于本地噪声感知的联邦学习优化方法及系统
CN115577797B (zh) * 2022-10-18 2023-09-26 东南大学 一种基于本地噪声感知的联邦学习优化方法及系统
CN116204599A (zh) * 2023-05-06 2023-06-02 成都三合力通科技有限公司 基于联邦学习的用户信息分析系统及方法
CN116204599B (zh) * 2023-05-06 2023-10-20 成都三合力通科技有限公司 基于联邦学习的用户信息分析系统及方法

Also Published As

Publication number Publication date
CN112420187B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN112420187B (zh) 一种基于迁移联邦学习的医疗疾病分析方法
WO2021208721A1 (zh) 联邦学习防御方法、装置、电子设备及存储介质
Badsha et al. Imputation of single‐cell gene expression with an autoencoder neural network
CN111767707B (zh) 雷同病例检测方法、装置、设备及存储介质
TWI706333B (zh) 欺詐交易識別方法、裝置、伺服器及儲存媒體
US20190340533A1 (en) Systems and methods for preparing data for use by machine learning algorithms
CN113011973B (zh) 基于智能合约数据湖的金融交易监管模型的方法及设备
JP2022543954A (ja) キーポイント検出方法、キーポイント検出装置、電子機器及び記憶媒体
CN114333064B (zh) 基于多维原型重构增强学习的小样本行为识别方法及系统
EP4053757A1 (en) Degradation suppression program, degradation suppression method, and information processing device
WO2021189908A1 (zh) 基于深度学习的图像分类方法、装置、服务器及介质
Huang et al. PLFace: Progressive learning for face recognition with mask bias
Kou et al. Faircrowd: Fair human face dataset sampling via batch-level crowdsourcing bias inference
CN112598089B (zh) 图像样本的筛选方法、装置、设备及介质
CN112200684B (zh) 一种检测医保欺诈的方法、系统及存储介质
Yin et al. A feature selection method for improved clonal algorithm towards intrusion detection
Hidayat et al. Data encryption algorithm AES by using blockchain technology: a review
Ma et al. Fuzzy nodes recognition based on spectral clustering in complex networks
CN116668068A (zh) 基于联合联邦学习的工控异常流量检测方法
CN116306969A (zh) 基于自监督学习的联邦学习方法和系统
CN115481415A (zh) 基于纵向联邦学习的通信成本优化方法、系统、设备及介质
CN111062484B (zh) 基于多任务学习的数据集选取方法及装置
Yuan et al. Towards Efficient and Robust Federated Unlearning in IoT Networks
Tian et al. An optional splitting extraction based gain-AUPRC balanced strategy in federated XGBoost for mitigating imbalanced credit card fraud detection
Li et al. Sharpness and brightness quality assessment of face images for recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant