CN117592555B - 一种面向多源异构医疗数据的联邦学习方法及系统 - Google Patents
一种面向多源异构医疗数据的联邦学习方法及系统 Download PDFInfo
- Publication number
- CN117592555B CN117592555B CN202311600749.5A CN202311600749A CN117592555B CN 117592555 B CN117592555 B CN 117592555B CN 202311600749 A CN202311600749 A CN 202311600749A CN 117592555 B CN117592555 B CN 117592555B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- training
- medical
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 58
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 47
- 238000000586 desensitisation Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 230000002776 aggregation Effects 0.000 claims abstract description 16
- 238000004220 aggregation Methods 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000009826 distribution Methods 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims abstract description 9
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 239000012634 fragment Substances 0.000 claims description 36
- 238000000605 extraction Methods 0.000 claims description 17
- 230000005540 biological transmission Effects 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000010195 expression analysis Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 claims description 3
- 238000011423 initialization method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000002864 sequence alignment Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000011160 research Methods 0.000 abstract description 3
- 230000010354 integration Effects 0.000 abstract description 2
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000009534 blood test Methods 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种面向多源异构医疗数据的联邦学习方法及系统,所述方法包括以下步骤:步骤1、数据脱敏与加密;步骤2、数据预处理;步骤3、特征提取;步骤4、特征融合;步骤5、本地模型训练;步骤6、模型参数聚合。所述系统包括访问控制模块、数据处理模块、联邦学习模块、贡献评估模块以及接口模块。本发明能够同时处理多来源、多模态、多类型的医疗数据,通过采用脱敏加密防护技术,确保了数据的安全与隐私保护,对不同特征数据进行权重分配与融合,提高了模型训练的精度,并采用高效安全聚合算法聚合模型参数,进一步保障了数据的安全性。本发明有利于实现医联体内的资源整合,推动多中心医学研究的进展,提高医疗服务质量和效率。
Description
技术领域
本发明属于联邦学习技术领域,尤其涉及一种面向多源异构医疗数据的联邦学习方法及系统。
背景技术
由于医疗数据的复杂性和高度敏感性,如何实现医疗机构之间的数据共享一直是行业发展的一个挑战,而人工智能技术的发展尤其是联邦学习技术领域的发展为其提供了可能性。目前将联邦学习应用于医疗数据领域的研究不多,现有的方法中,或者仅考虑单一来源的医疗数据,无法解决多源异构医疗数据的融合问题;或者未考虑到医疗数据多模态、多类型的实际情况,在数据处理及安全性方面有所欠缺等,均难以训练出精度较高的学习模型。因此对于多源异构医疗数据来说,如何保障数据安全并实现高精度的模型训练是本领域亟需解决的技术问题。
发明内容
本发明的目的在于提供一种面向多源异构医疗数据的联邦学习方法及系统,以解决上述技术问题。
为实现上述目的,本发明提供如下技术方案:
本发明公开一种面向多源异构医疗数据的联邦学习方法,所述方法包括以下步骤:
步骤1、数据脱敏与加密:对各医疗中心的原始医疗数据进行数据脱敏与加密处理,并采用生成对抗网络生成数据扰动;
所述原始医疗数据包括不同模态的数据,分别为电子病历数据、医学影像数据、基因组数据,不同模态的数据根据其表现形式分为不同的数据类型,包括数值型数据、文本型数据、图像型数据以及基因型数据,数值型数据属于结构化数据,文本型数据和图像型数据属于非结构化数据,基因型数据视为结构化数据;
步骤2、数据预处理:对经过脱敏与加密处理后的数据进行预处理,所述预处理过程包括数据清洗、缺失值填充以及标准化处理;
步骤3、特征提取:对经过预处理后的数据根据各数据模态采用适合各数据模态的方法分别进行特征提取;
步骤4、特征融合:采用随机森林算法对提取出的特征数据进行权重分配和融合,形成特征数据集,将特征数据集作为训练数据集;
步骤5、本地模型训练:确定本地模型的类型、初始化参数以及超参数,利用训练数据集对本地模型进行训练;
步骤6、模型参数聚合:本地模型训练完成后,使用秘密共享方式对模型参数进行安全聚合从而获得全局模型。
进一步的是,步骤1中所述对原始医疗数据进行数据脱敏与加密处理具体为:采用k-匿名算法对原始医疗数据进行数据脱敏,采用高级加密标准算法对脱敏后的数据进行加密。
进一步的是,步骤2中所述数据清洗为应用数据清洗算法删除冗余或异常值,以确保数据集中的无效或不准确的信息被过滤掉;所述缺失值填充为对于数据集中存在的缺失值采用K-近邻算法来进行填充,K-近邻算法基于数据集中的其他观察值对缺失值进行预测和填充;所述标准化处理是将数据缩放到零均值和单位方差,使所有数据在同一规模,对于不同数据类型分别进行标准化处理。
进一步的是,所述对于不同数据类型分别进行标准化处理具体为:对数值型数据进行Z-score标准化处理,包括对数值型数据进行单位统一以及标准化数值范围;对文本型数据进行标准化处理,包括确定编码标准并统一文本格式;对图像型数据进行标准化处理,包括将图像格式标准化,调整图像分辨率和大小,以及调整图像对比度和亮度;对基因型数据进行标准化处理,包括将基因型数据格式统一,以及对基因表达数据进行Z-score标准化处理。
进一步的是,步骤3中所述对经过预处理后的数据根据各数据模态采用适合各数据模态的方法分别进行特征提取具体为:对于电子病历数据,使用变分自编码器进行特征提取;对于医学影像数据使用卷积神经网络进行特征提取;对于基因组数据,使用序列比对算法和基因表达分析方法进行特征提取。
进一步的是,步骤5中所述对本地模型进行训练具体包括以下步骤:
步骤51、确定本地模型类型:根据数据特性和预期的学习任务选择模型类型:对于结构化数据,选择决策树、支持向量机或神经网络;对于非结构化数据,选择深度学习模型,包括卷积神经网络、循环神经网络;
步骤52、确定模型初始化参数:参数初始化方式包括:
(1)随机初始化:对于神经网络,采用随机数来初始化权重;
(2)预训练模型:使用预训练好的模型参数作为初始参数;
(3)启发式方法:使用He初始化或Xavier初始化方法;
步骤53、设置超参数:根据经验或者通过自动化技术设置超参数,包括学习率、批处理大小、训练迭代次数;所述自动化技术包括网格搜索、贝叶斯优化;
步骤54、划分训练数据集:对训练数据集进行划分,将训练数据集划分为训练集、验证集和测试集,训练集用于对模型进行训练,验证集和测试集分别用于模型训练过程中的性能验证和最终评估。
进一步的是,步骤6中所述秘密共享方式具体为:一个秘密被分解成n个片段,这些片段被分发给n个参与方,每个参与方持有一个片段,只有当至少k个参与方一起汇聚他们的片段时,才能恢复原始的秘密,即秘密共享重建,其中k为秘密共享重建阈值。
进一步的是,步骤6中所述使用秘密共享方式对模型参数进行安全聚合从而获得全局模型具体包括以下步骤:
步骤61、模型参数处理:每个参与方在本地训练完成后,将其模型参数分解成多个片段,这些片段确保单个片段无法泄露完整模型的信息;
步骤62、片段分发:每个参与方将这些片段安全地发送给其他参与方或中央服务器,采用安全的通信协议确保片段在传输过程中的安全;
步骤63、聚合前的片段收集:收集达到秘密共享重建阈值数量的片段,以满足秘密共享重建需求;
步骤64、重建模型参数:在中央服务器或指定参与者处,使用秘密共享重建方式,将收集到的片段组合以恢复每个参与者的模型参数;
步骤65、获得全局模型:使用聚合算法将所有参与者的模型参数合并,获得全局模型。
本发明还公开一种面向多源异构医疗数据的联邦学习系统,所述系统包括访问控制模块、数据处理模块、联邦学习模块、贡献评估模块以及接口模块;
所述访问控制模块用于对不同的参与方设置不同级别的数据访问权限;
所述数据处理模块包括脱敏与加密单元、预处理单元以及特征提取单元,所述脱敏与加密单元用于采用专业算法对原始医疗数据进行脱敏与加密处理;所述预处理单元用于对脱敏与加密处理后的数据进行数据清洗、缺失值填充以及标准化处理;所述特征提取模块用于采用适合各数据模态的方法对不同模态的医疗数据进行特征提取;
所述联邦学习模块包括Translator单元、Local Training单元、Aggregator单元、Scheduler单元以及Connection Manager单元;
Translator单元用于采用随机森林算法对提取的特征进行权重分配和融合,形成训练数据集;Local Training单元用于利用训练数据集对本地模型进行训练;Aggregator单元用于对训练完成的模型参数进行安全聚合,从而获得全局模型;Scheduler单元用于对训练过程进行调度和管理;Connection Manager单元用于处理各医疗中心之间的数据传输和通信,确保数据传输的安全性和效率;
贡献评估模块用于评估每个参与方的贡献;
接口模块用于实现联邦学习系统与各医疗中心的医疗信息系统的数据传输。
本发明的有益效果是:本发明所述的一种面向多源异构医疗数据的联邦学习方法及系统,能够同时处理多来源、多模态、多类型的医疗数据,通过采用脱敏加密防护技术,确保了数据的安全与隐私保护,对不同特征数据进行权重分配与融合,提高了模型训练的精度,并采用高效安全聚合算法聚合模型参数,进一步保障了数据的安全性。本发明有利于实现医联体内的资源整合,推动多中心医学研究的进展,提高医疗服务质量和效率。
下面结合附图及具体实施方式对本发明作进一步详细说明。
附图说明
图1为面向多源异构医疗数据的联邦学习方法流程图;
图2为面向多源异构医疗数据的联邦学习系统结构示意图。
具体实施方式
实施例一
本实施例公开一种面向多源异构医疗数据的联邦学习方法,如图1所示,所述方法包括以下步骤:
步骤1、数据脱敏与加密:对各医疗中心的原始医疗数据进行数据脱敏与加密处理,并采用生成对抗网络生成数据扰动。
各医疗中心的原始医疗数据包括电子病历数据、医学影像数据、基因组数据等多种模态数据,不同模态的医疗数据根据其表现形式不同又可以分为不同的数据类型,包括数值型数据、文本型数据、图像型数据以及基因型数据等,比如,电子病历数据根据内容可以分为数值型数据和文本型数据,数值型数据包括病理数据、生化特征等,文本型数据包括状态描述、病例描述、医生断语等;医学影像数据包括MRI、CT扫描等,属于图像型数据,图像型数据可以通过专业判定转换为数值型数据(比如肿瘤大小,肺炎评级等);基因组数据包括基因序列、基因表达数据等,属于基因型数据。基因组数据本质上是序列信息,可以类比为文本信息或者数值信息,但是由于基因组数据和其他信息有显著区别,因此将其单独作为基因型数据进行分析处理。数值型数据属于结构化数据,文本型数据和图像型数据属于非结构化数据,基因型数据可以视为结构化数据。
在联邦学习的环境下,不同的参与方可能拥有不同级别的数据访问权限,因此,确保对数据的适当访问控制是至关重要的。为实现这一目标,本发明采用了轻量级目录访问协议(LDAP)来实施基于角色的访问控制(RBAC)。在这个设置中,不同的用户根据他们的角色被授权不同级别的访问权限。例如,医生和研究人员可能有权访问完整的医疗数据,而行政人员则可能只能访问非敏感的统计信息。这确保了只有合适的人员才能接触到敏感数据,从而增强了数据的安全性。
对于存储或传输的数据,进一步的安全防护也是必要的。首先,采用k-匿名算法对原始医疗数据进行数据脱敏,这一算法能确保发布的数据在保持数据用途的同时,能够在某种程度上抵御身份泄露的风险。在数据脱敏之后,采用高级加密标准(AES)算法对数据进行加密,AES算法是一种广泛使用的对称加密算法,具有很高的安全性和效率。通过这样的方式,确保即使数据在传输过程中被截获,没有适当的解密密钥,攻击者也无法解读数据内容。
在k-匿名算法中,数据集被修改以使得每个记录在数据集中至少与k-1其他记录不可区分,其中k是一个预定义的常数。这样做的目的是确保单个数据记录不能被用来识别个体。具体来说,对于每一个需要保护的属性(通常称为敏感属性),数据集会被分成多个“等价类”。每个等价类中的记录在所有非敏感属性(称为标识符)上都是不可区分的。然后,这些等价类会被替换或者泛化以达到k匿名性。例如,如果有一个包含年龄和病症两个字段的医疗数据集,并希望使用k=3进行匿名化,那么把所有30到39岁的人的年龄泛化为“30-39”,以确保在这个年龄段中每个病症都至少出现了3次。
AES算法是一种对称加密算法,这意味着加密和解密使用的是同一个密钥。AES是一个基于块的加密算法,通常以128、192或256位的块大小来操作。在AES中,原始数据(明文)首先被分成多个等长的数据块。每个数据块然后通过一系列的四种基本操作进行加密:SubBytes(字节替换)、ShiftRows(行移位)、MixColumns(列混淆)和AddRoundKey(轮密钥加)。这些操作会被反复执行多轮(取决于密钥长度:10轮对于128位,12轮对于192位,14轮对于256位)以提高加密的安全性。AES算法的一个关键优点是效率高。由于AES加密过程可以很容易地被分解成并行操作,它是非常适合大规模数据处理的。
通过组合k-匿名算法脱敏和AES算法加密,不仅保护了个人隐私,还确保了数据在存储和传输过程中的安全性。
尽管上述措施能够提供相当程度的数据安全,但在联邦学习过程中,模型本身也可能成为攻击的目标。例如,通过模型提取攻击,攻击者可能重建训练数据或者获取到模型的内部信息。为了防止这种情况,采用生成对抗网络(GAN)生成数据扰动。GAN用于生成与原始数据分布相似但并非原始数据的数据样本,这些扰动的数据被用于训练模型,使得即使模型被攻击,攻击者也只能得到扰动数据而非真实敏感数据,进一步确保了数据的安全性。
步骤2、数据预处理:对经过脱敏与加密处理后的数据进行预处理,所述预处理过程包括数据清洗、缺失值填充以及标准化处理。
在面向多源异构医疗数据的联邦学习中,各医疗中心首先需要对经过脱敏与加密处理后的各种类型的医疗数据进行预处理,预处理过程包括数据清洗、缺失值填充以及标准化处理。具体来说,数据清洗是指应用数据清洗算法删除冗余或异常值,以确保数据集中的无效或不准确的信息被有效地过滤掉,保证数据的质量和一致性,为后续分析提供更加准确和清晰的数据基础。比如对于基因型数据进数据清洗,则包括删除无用或错误序列、纠正错误序列等,如插入、删除或替换错误的核苷酸序列。缺失值填充是指对于数据集中存在的缺失值采用K-近邻算法来进行填充,K-近邻算法基于数据集中的其他观察值对缺失值进行预测和填充,确保了数据完整性,同时避免了简单删除或填充平均值可能带来的误导。标准化处理是将数据缩放到零均值和单位方差,使所有数据在同一规模,以确保在后续的模型训练中,所有特征数据都在同一规模上,确保数据的一致性,从而避免某些特征由于其数值规模大而对模型产生过大影响。
对不同类型数据分别进行标准化处理。对数值型数据进行Z-score标准化处理,具体为对数值型数据进行单位统一,即对所有的数值型数据使用统一的度量单位,例如将所有血压读数转换为mmHg;然后标准化数值范围,例如将年龄标准化为实际年数,血液检测值标准化为医学上的正常范围。对文本型数据进行标准化处理,具体为确定编码标准,即定义文本数据的编码格式(如UTF-8)以确保一致性;并统一文本格式,如大小写统一等。对图像型数据进行标准化处理,具体为将图像格式标准化,即将所有图像转换为统一的格式(如JPEG,PNG等);调整图像分辨率和大小,即统一图像的分辨率和尺寸,以确保图像的质量和细节一致;调整图像对比度和亮度,即将图像对比度和亮度调整成统一标准,确保不同图像之间的可比性。对基因型数据进行标准化处理,具体为将基因型数据格式统一,即将所有基因型数据转换为统一的格式,例如将基因序列统一为FASTA格式,将基因表达数据统一为CSV或Excel格式;对基因表达数据进行Z-score标准化处理;以确保不同样本之间的可比性。
通过对这些多源异构医疗数据进行预处理,保证了数据分析的准确性和可靠性,不仅有助于提高医疗机构间的协作效率,而且对于确保患者护理和医疗决策的质量也至关重要。
步骤3、特征提取:对经过预处理后的数据根据各数据模态采用适合各数据模态的方法分别进行特征提取。
对于不同模态的医疗数据,采用适合各数据模态的方法对经过预处理后的数据分别进行特征提取。对于电子病历数据,使用变分自编码器(VAE)进行特征提取。VAE是一种生成模型,可以学习数据的潜在结构和分布,通过使用VAE,可以从电子病历数据中提取出有意义的、低维度的特征。医学影像数据通常包含丰富的空间信息,一般选择使用卷积神经网络(CNN)对其进行特征提取。CNN由于其特有的卷积结构,能够有效地捕获图像中的局部空间特征,为医学影像数据提供了精确且具有代表性的特征。对于基因组数据,考虑到其序列性和复杂性,适合使用序列比对算法和基因表达分析方法进行特征提取,所述方法可以识别和比较基因序列中的特定模式,揭示基因表达的差异,以及与特定疾病或症状相关的遗传变异,提取有意义的生物学特征。
步骤4、特征融合:采用随机森林算法对提取出的特征数据进行权重分配和融合,形成特征数据集,将特征数据集作为训练数据集。
完成不同模态数据的特征提取后,采用随机森林算法对提取的数据特征进行权重分配和融合。随机森林作为一种集成学习方法,可以评估每个特征对模型预测的重要性,并据此为各特征分配权重,确保在最终的特征数据融合中,所有特征都得到适当的考虑。通过特征融合,将来自多个医疗数据源的异构数据最后整合为一个统一且信息丰富的数据表征,将融合后的特征数据集作为训练数据集,为后续的模型训练做准备。
步骤5、本地模型训练:确定本地模型的类型、初始化参数以及超参数,利用训练数据集对本地模型进行训练。
本地模型训练过程具体包括以下步骤:
步骤51、确定本地模型类型:根据数据特性和预期的学习任务选择合适的模型类型。例如,对于结构化数据,可以选择决策树、支持向量机或神经网络;对于非结构化数据如图像或文本,可以选择深度学习模型如卷积神经网络(CNN)或循环神经网络(RNN)。
步骤52、确定模型初始化参数:模型初始化参数的选择对于训练过程的收敛速度和最终性能有显著影响。参数初始化可以采用以下方式:
(1)随机初始化:对于神经网络,通常采用随机数(如高斯分布产生的随机数)来初始化权重;
(2)预训练模型:在某些情况下,可以使用在类似数据集上预训练好的模型参数作为初始参数,尤其是在深度学习应用中;
(3)启发式方法:例如使用He初始化或Xavier初始化方法,这些方法考虑了输入和输出单位的数量,以确保激活函数在训练初期处于有效的工作区域。
步骤53、设置超参数:除了模型参数,还需要设置适当的超参数,如学习率、批处理大小、训练迭代次数等。超参数可以根据经验设置,也可以通过自动化技术如网格搜索或贝叶斯优化进行选择。
步骤54、划分训练数据集:在开始训练之前,对训练数据集进行划分,将训练数据集划分为训练集、验证集和测试集,训练集用于对模型进行训练,验证集和测试集分别用于模型训练过程中的性能验证和最终评估。
步骤6、模型参数聚合:本地模型训练完成后,使用秘密共享方式对模型参数进行安全聚合从而获得全局模型。
在全局模型更新阶段,为了确保数据的安全性和隐私,使用秘密共享方式来实现安全多方计算。即每个参与方将其模型参数分割成多个片段,并将这些片段发送给其他参与方。通过这种方式,即使一个或几个参与方被攻击,攻击者也无法从单个片段中获取有用的信息。
秘密共享,具体来说,即一个秘密(s)被分解成n个片段(s_1,s_2,...,s_n),这些片段被分发给n个参与方,每个参与方持有一个片段,并且只有当至少k(k为秘密共享重建阈值)个参与方一起汇聚他们的片段时,才能恢复原始的秘密,即秘密共享重建。
数学上通常是通过多项式插值(例如拉格朗日插值)来实现的。一个k-1阶多项式P(x)被选择,使其在x=0处的值等于秘密s:
P(x)=a0+a1x+a2x2+…+ak-1xk-1
P(0)=a0=s
然后,P(x)在n个不同的点上被评估,得到n个片段:
si=P(i),i=1,2,...,n。
使用秘密共享方式对模型参数进行安全聚合从而获得全局模型,具体包括以下步骤:
步骤61、模型参数处理:每个参与方在本地训练完成后,将其模型参数分解成多个片段(秘密共享),这些片段确保单个片段无法泄露完整模型的信息。
步骤62、片段分发:每个参与方将这些片段安全地发送给其他参与方或中央服务器,采用安全的通信协议确保片段在传输过程中的安全。
步骤63、聚合前的片段收集:收集足够数量的片段,收集数量达到秘密共享重建阈值,以满足秘密共享重建需求;阈值的设置可以确保如果没有达到阈值数量的片段(比如攻击者收集不到那么多的片段),则模型参数无法被重建。
步骤64、重建模型参数:在中央服务器或指定参与者处,使用秘密共享重建方式,将收集到的片段组合恢复每个参与者的模型参数。
步骤65、获得全局模型:使用聚合算法(例如加权平均,由于已经获得模型参数,可以使用FederatedAverage算法进行聚合)将所有参与者的模型参数合并,获得全局模型。
每个医疗中心在本地训练结束之后将自己的模型参数采用秘密共享的方法分享给其他参与者;每一位参与者(即医疗中心)在收集到足够的片段之后即可以得到聚合后的模型,进一步保障了数据安全。
最后,通过采用Shapley值来评估合作中每个参与方的贡献,并按照这个贡献来分配总收益。假设有N个参与方,则Shapley值的计算公式为:
其中,S是不包含i的任何参与方的集合,v(S)是集合S的价值(例如,模型的性能指标)。
实施例二
本实施例公开一种面向多源异构医疗数据的联邦学习系统,如图2所示,所述系统包括访问控制模块、数据处理模块、联邦学习模块、贡献评估模块以及接口模块。
所述访问控制模块用于对不同的参与方设置不同级别的数据访问权限。
所述数据处理模块包括脱敏与加密单元、预处理单元以及特征提取单元,所述脱敏与加密单元用于采用专业算法(如k-匿名算法、AES算法)对原始医疗数据进行脱敏与加密处理;所述预处理单元用于对脱敏与加密处理后的数据进行数据清洗、缺失值填充以及标准化处理;所述特征提取模块用于采用适合各数据模态的方法(包括VAE、CNN、序列比对算法和基因表达分析方法)对不同模态的医疗数据(包括电子病历数据、医学影像数据、基因组数据)进行特征提取。
所述联邦学习模块包括Translator单元、Local Training单元、Aggregator单元、Scheduler单元以及Connection Manager单元。
Translator单元用于采用随机森林算法对提取的特征进行权重分配和融合,形成训练数据集;Local Training单元用于利用训练数据集对本地模型进行训练;Aggregator单元用于对训练完成的模型参数进行安全聚合,从而获得全局模型;Scheduler单元用于对训练过程进行调度和管理;Connection Manager单元用于处理各医疗中心之间的数据传输和通信,确保数据传输的安全性和效率。
贡献评估模块用于评估合作中每个参与方的贡献。
接口模块用于实现联邦学习系统与各医疗中心的医疗信息系统的数据传输。
最后应说明的是,以上所述仅用以说明本发明的技术方案而非限制,尽管参照较佳布置方案对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (8)
1.一种面向多源异构医疗数据的联邦学习方法,其特征在于,所述方法包括以下步骤:
步骤1、数据脱敏与加密:对各医疗中心的原始医疗数据进行数据脱敏与加密处理,并采用生成对抗网络生成数据扰动;
所述原始医疗数据包括不同模态的数据,分别为电子病历数据、医学影像数据、基因组数据,不同模态的数据根据其表现形式分为不同的数据类型,包括数值型数据、文本型数据、图像型数据以及基因型数据,数值型数据属于结构化数据,文本型数据和图像型数据属于非结构化数据,基因型数据视为结构化数据;
步骤2、数据预处理:对经过脱敏与加密处理后的数据进行预处理,所述预处理过程包括数据清洗、缺失值填充以及标准化处理;
步骤3、特征提取:对经过预处理后的数据根据各数据模态采用适合各数据模态的方法分别进行特征提取;
所述对经过预处理后的数据根据各数据模态采用适合各数据模态的方法分别进行特征提取具体为:对于电子病历数据,使用变分自编码器进行特征提取;对于医学影像数据使用卷积神经网络进行特征提取;对于基因组数据,使用序列比对算法和基因表达分析方法进行特征提取;
步骤4、特征融合:采用随机森林算法对提取出的特征数据进行权重分配和融合,形成特征数据集,将特征数据集作为训练数据集;
步骤5、本地模型训练:确定本地模型的类型、初始化参数以及超参数,利用训练数据集对本地模型进行训练;
步骤6、模型参数聚合:本地模型训练完成后,使用秘密共享方式对模型参数进行安全聚合从而获得全局模型。
2.根据权利要求1所述的一种面向多源异构医疗数据的联邦学习方法,其特征在于,步骤1中所述对各医疗中心的原始医疗数据进行数据脱敏与加密处理具体为:采用k-匿名算法对原始医疗数据进行数据脱敏,采用高级加密标准算法对脱敏后的数据进行加密。
3.根据权利要求1所述的一种面向多源异构医疗数据的联邦学习方法,其特征在于,步骤2中所述数据清洗为应用数据清洗算法删除冗余或异常值,以确保数据集中的无效或不准确的信息被过滤掉;所述缺失值填充为对于数据集中存在的缺失值采用K-近邻算法来进行填充,K-近邻算法基于数据集中的其他观察值对缺失值进行预测和填充;所述标准化处理是将数据缩放到零均值和单位方差,使所有数据在同一规模,对于不同数据类型分别进行标准化处理。
4.根据权利要求3所述的一种面向多源异构医疗数据的联邦学习方法,其特征在于,所述对于不同数据类型分别进行标准化处理具体为:对数值型数据进行Z-score标准化处理,包括对数值型数据进行单位统一以及标准化数值范围;对文本型数据进行标准化处理,包括确定编码标准并统一文本格式;对图像型数据进行标准化处理,包括将图像格式标准化,调整图像分辨率和大小,以及调整图像对比度和亮度;对基因型数据进行标准化处理,包括将基因型数据格式统一,以及对基因表达数据进行Z-score标准化处理。
5.根据权利要求1所述的一种面向多源异构医疗数据的联邦学习方法,其特征在于,步骤5中所述对本地模型进行训练具体包括以下步骤:
步骤51、确定本地模型类型:根据数据特性和预期的学习任务选择模型类型:对于结构化数据,选择决策树、支持向量机或神经网络;对于非结构化数据,选择深度学习模型,包括卷积神经网络或循环神经网络;
步骤52、确定模型初始化参数:参数初始化方式包括:
(1)随机初始化:对于神经网络,采用随机数来初始化权重;
(2)预训练模型:使用预训练好的模型参数作为初始参数;
(3)启发式方法:使用He初始化或Xavier初始化方法;
步骤53、设置超参数:根据经验或者通过自动化技术设置超参数,包括学习率、批处理大小和训练迭代次数;所述自动化技术包括网格搜索和贝叶斯优化;
步骤54、划分训练数据集:对训练数据集进行划分,将训练数据集划分为训练集、验证集和测试集,训练集用于对模型进行训练,验证集和测试集分别用于模型训练过程中的性能验证和最终评估。
6.根据权利要求1所述的一种面向多源异构医疗数据的联邦学习方法,其特征在于,步骤6中所述秘密共享方式具体为:一个秘密被分解成 n 个片段,这些片段被分发给 n 个参与方,每个参与方持有一个片段,只有当至少 k个参与方一起汇聚他们的片段时,才能恢复原始的秘密,即秘密共享重建,其中k为秘密共享重建阈值。
7.根据权利要求6所述的一种面向多源异构医疗数据的联邦学习方法,其特征在于,步骤6中所述使用秘密共享方式对模型参数进行安全聚合从而获得全局模型具体包括以下步骤:
步骤61、模型参数处理:每个参与方在本地训练完成后,将其模型参数分解成多个片段,这些片段确保单个片段无法泄露完整模型的信息;
步骤62、片段分发:每个参与方将这些片段安全地发送给其他参与方或中央服务器,采用安全的通信协议确保片段在传输过程中的安全;
步骤63、聚合前的片段收集:收集达到秘密共享重建阈值数量的片段,以满足秘密共享重建需求;
步骤64、重建模型参数:在中央服务器或指定参与者处,使用秘密共享重建方式,将收集到的片段组合以恢复每个参与者的模型参数;
步骤65、获得全局模型:使用聚合算法将所有参与者的模型参数合并,获得全局模型。
8.一种实现权利要求1至7任一所述方法的面向多源异构医疗数据的联邦学习系统,其特征在于,所述系统包括访问控制模块、数据处理模块、联邦学习模块、贡献评估模块以及接口模块;
所述访问控制模块用于对不同的参与方设置不同级别的数据访问权限;
所述数据处理模块包括脱敏与加密单元、预处理单元以及特征提取单元,所述脱敏与加密单元用于采用专业算法对原始医疗数据进行脱敏与加密处理;所述预处理单元用于对脱敏与加密处理后的数据进行数据清洗、缺失值填充以及标准化处理;所述特征提取模块用于采用适合各数据模态的方法对不同模态的医疗数据进行特征提取;
所述联邦学习模块包括Translator单元、Local Training 单元、Aggregator单元、Scheduler单元以及Connection Manager单元;
Translator单元用于采用随机森林算法对提取的特征进行权重分配和融合,形成训练数据集;Local Training 单元用于利用训练数据集对本地模型进行训练;Aggregator单元用于对训练完成的模型参数进行安全聚合,从而获得全局模型;Scheduler单元用于对训练过程进行调度和管理;Connection Manager单元用于处理各医疗中心之间的数据传输和通信,确保数据传输的安全性和效率;
贡献评估模块用于评估每个参与方的贡献;
接口模块用于实现联邦学习系统与各医疗中心的医疗信息系统的数据传输。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311600749.5A CN117592555B (zh) | 2023-11-28 | 2023-11-28 | 一种面向多源异构医疗数据的联邦学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311600749.5A CN117592555B (zh) | 2023-11-28 | 2023-11-28 | 一种面向多源异构医疗数据的联邦学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117592555A CN117592555A (zh) | 2024-02-23 |
CN117592555B true CN117592555B (zh) | 2024-05-10 |
Family
ID=89914871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311600749.5A Active CN117592555B (zh) | 2023-11-28 | 2023-11-28 | 一种面向多源异构医疗数据的联邦学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117592555B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183765A (zh) * | 2020-10-30 | 2021-01-05 | 浙江大学 | 一种用于共享学习的多源多模态数据预处理方法及系统 |
WO2021109647A1 (zh) * | 2019-12-05 | 2021-06-10 | 深圳前海微众银行股份有限公司 | 一种基于多源异构系统的联邦学习方法及装置 |
CN113239972A (zh) * | 2021-04-19 | 2021-08-10 | 温州医科大学 | 一种面向医学影像的人工智能辅助诊断模型构建系统 |
CN113571203A (zh) * | 2021-07-19 | 2021-10-29 | 复旦大学附属华山医院 | 多中心基于联邦学习的脑肿瘤预后生存期预测方法及系统 |
CN114764417A (zh) * | 2022-06-13 | 2022-07-19 | 深圳致星科技有限公司 | 隐私计算、隐私数据及联邦学习的分散式处理方法及装置 |
CN115310122A (zh) * | 2022-07-13 | 2022-11-08 | 广州大学 | 一种多模态数据融合训练中的隐私参数优化方法 |
CN115346668A (zh) * | 2022-07-29 | 2022-11-15 | 京东城市(北京)数字科技有限公司 | 健康风险等级评估模型的训练方法及装置 |
CN115563650A (zh) * | 2022-10-14 | 2023-01-03 | 电子科技大学 | 基于联邦学习实现医疗数据的隐私保护系统 |
CN115775010A (zh) * | 2022-11-23 | 2023-03-10 | 国网江苏省电力有限公司信息通信分公司 | 基于横向联邦学习的电力数据共享方法 |
CN116187474A (zh) * | 2023-03-07 | 2023-05-30 | 西安电子科技大学 | 一种横向联邦学习中参与方的贡献度评估方法 |
CN116523079A (zh) * | 2023-03-10 | 2023-08-01 | 华南理工大学 | 一种基于强化学习联邦学习优化方法及系统 |
CN116525097A (zh) * | 2023-03-23 | 2023-08-01 | 中国医学科学院北京协和医院 | Acth分泌来源分析系统 |
CN116894484A (zh) * | 2023-06-29 | 2023-10-17 | 山东浪潮科学研究院有限公司 | 一种联邦建模方法及系统 |
CN117009924A (zh) * | 2023-10-07 | 2023-11-07 | 之江实验室 | 电子病历引导的多模态自适应多中心数据融合方法及系统 |
CN117115881A (zh) * | 2023-07-28 | 2023-11-24 | 北京元境数字科技有限公司 | 基于机器学习的人脸识别系统 |
-
2023
- 2023-11-28 CN CN202311600749.5A patent/CN117592555B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021109647A1 (zh) * | 2019-12-05 | 2021-06-10 | 深圳前海微众银行股份有限公司 | 一种基于多源异构系统的联邦学习方法及装置 |
CN112183765A (zh) * | 2020-10-30 | 2021-01-05 | 浙江大学 | 一种用于共享学习的多源多模态数据预处理方法及系统 |
CN113239972A (zh) * | 2021-04-19 | 2021-08-10 | 温州医科大学 | 一种面向医学影像的人工智能辅助诊断模型构建系统 |
CN113571203A (zh) * | 2021-07-19 | 2021-10-29 | 复旦大学附属华山医院 | 多中心基于联邦学习的脑肿瘤预后生存期预测方法及系统 |
CN114764417A (zh) * | 2022-06-13 | 2022-07-19 | 深圳致星科技有限公司 | 隐私计算、隐私数据及联邦学习的分散式处理方法及装置 |
CN115310122A (zh) * | 2022-07-13 | 2022-11-08 | 广州大学 | 一种多模态数据融合训练中的隐私参数优化方法 |
CN115346668A (zh) * | 2022-07-29 | 2022-11-15 | 京东城市(北京)数字科技有限公司 | 健康风险等级评估模型的训练方法及装置 |
CN115563650A (zh) * | 2022-10-14 | 2023-01-03 | 电子科技大学 | 基于联邦学习实现医疗数据的隐私保护系统 |
CN115775010A (zh) * | 2022-11-23 | 2023-03-10 | 国网江苏省电力有限公司信息通信分公司 | 基于横向联邦学习的电力数据共享方法 |
CN116187474A (zh) * | 2023-03-07 | 2023-05-30 | 西安电子科技大学 | 一种横向联邦学习中参与方的贡献度评估方法 |
CN116523079A (zh) * | 2023-03-10 | 2023-08-01 | 华南理工大学 | 一种基于强化学习联邦学习优化方法及系统 |
CN116525097A (zh) * | 2023-03-23 | 2023-08-01 | 中国医学科学院北京协和医院 | Acth分泌来源分析系统 |
CN116894484A (zh) * | 2023-06-29 | 2023-10-17 | 山东浪潮科学研究院有限公司 | 一种联邦建模方法及系统 |
CN117115881A (zh) * | 2023-07-28 | 2023-11-24 | 北京元境数字科技有限公司 | 基于机器学习的人脸识别系统 |
CN117009924A (zh) * | 2023-10-07 | 2023-11-07 | 之江实验室 | 电子病历引导的多模态自适应多中心数据融合方法及系统 |
Non-Patent Citations (2)
Title |
---|
多源异构医学数据的集成和学习;李寅昊等;《现代医学与健康研究电子杂志》;20220328;第06卷(第06期);82-89 * |
联邦学习安全与隐私保护研究综述;周俊等;《西华大学学报(自然科学版)》;20200710(第04期);21-29 * |
Also Published As
Publication number | Publication date |
---|---|
CN117592555A (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Blockchain-federated-learning and deep learning models for covid-19 detection using ct imaging | |
KR102403295B1 (ko) | 동형적으로 암호화된 데이터의 유효성 확인 및 이에 대한 연산을 수행하기 위한 시스템 및 방법 | |
CN113643821B (zh) | 一种多中心知识图谱联合决策支持方法与系统 | |
CN104115158B (zh) | 用于检索和管理加密生物计量数据的方法和系统 | |
CN108898029A (zh) | 一种能源监控大数据管理系统及方法 | |
US11657899B2 (en) | Computing device | |
WO2017171726A1 (en) | Distributed data clustering using an untrusted mediator | |
CN115296845A (zh) | 一种基于属性加密的医疗数据分级访问控制方法及系统 | |
Lu et al. | Methods of privacy-preserving genomic sequencing data alignments | |
CN116825264B (zh) | 基于互联网的妇产科信息处理方法及系统 | |
CN114254360A (zh) | 模型训练方法、装置、存储介质、系统以及区块链节点 | |
Siddique et al. | Privacy-enhanced pneumonia diagnosis: IoT-enabled federated multi-party computation in industry 5.0 | |
CN117592555B (zh) | 一种面向多源异构医疗数据的联邦学习方法及系统 | |
CN116506230A (zh) | 基于rsa非对称加密的数据采集方法、系统 | |
Gao et al. | Compressed sensing-based privacy preserving in labeled dynamic social networks | |
Wang et al. | A novel security scheme for mobile healthcare in digital twin | |
Gupta et al. | BIDS: Blockchain and Intrusion Detection System Coalition for Securing Internet of Medical Things Networks | |
Mu et al. | Explainable federated medical image analysis through causal learning and blockchain | |
Ragavan et al. | Evaluation of cryptographic key generation performance using evolutionary algorithm | |
CN117150562B (zh) | 基于区块链的血糖监测方法、装置、设备及存储介质 | |
US20240073012A1 (en) | Method and system for generating cryptographic keys associated with biological extraction data | |
Jiang et al. | Federated Learning-Based Privacy Protection for IoT-based Smart Healthcare Systems | |
Smahi et al. | An efficient and secure blockchain-based SVM classification for a COVID-19 healthcare system | |
Hussain et al. | A robust framework for ensuring data confidentiality and security in modern healthcare networks | |
US11588630B1 (en) | Method and system for generating keys associated with biological extraction cluster categories |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |