CN116403700A

CN116403700A - 一种基于联邦学习的心脏病辅助诊断系统

Info

Publication number: CN116403700A
Application number: CN202310210804.3A
Authority: CN
Inventors: 赵加坤; 周亚亚
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-07-07

Abstract

一种基于联邦学习的心脏病辅助诊断系统，包括联邦学习服务端和联邦学习客户端；所述联邦学习服务端为医疗云服务中心，作为联邦学习的组织协调方，配置有用于诊断心脏病的预测模型；包括初始化模块、模型参数收集模块和模型参数聚合模块；所述联邦学习客户端为医疗机构，作为联邦学习的主体参与者，同联邦学习服务端，提供模型训练服务及疾病诊断服务；包括数据提取模块、数据预处理模块、协作初始化模块、模型训练模块、加密上传模块和模型预测模块。本发明能够在保证参与者本地数据隐私安全的同时，解决医疗数据孤岛问题，更加高效准确地对心脏病进行辅助诊断。

Description

一种基于联邦学习的心脏病辅助诊断系统

技术领域

本发明属于人工智能医疗领域，特别涉及一种基于联邦学习的心脏病辅助诊断系统。

背景技术

随着人工智能技术的加速成熟以及医疗信息化、数字化程度的加深，使用机器学习进行临床心脏病的辅助诊断成为了可能。然而机器学习需要数据作为学习基础，各医疗机构的数据有限，且医疗领域重视隐私保护而形成“数据孤岛”。

现有专利申请CN201710592459.9提供了一种医疗数据采集分析系统，包括多个医疗数据收集管理平台、医疗数据通信模块和医疗数据诊断平台，所述医疗数据收集管理平台通过汇聚节点接收各监测节点的医疗数据进行管理，并通过医疗数据通信模块将医疗数据传送至医疗数据诊断平台；所述医疗数据诊断平台为大型医院或中心医院，用于对收集的医疗数据进行设备检测和专家诊断，生成诊断结果发送给所述医疗数据收集管理平台。该专利存在以下问题：

(1)监测节点和汇聚节点间无验证机制，非法节点可通过拦截数据包伪装成汇聚节点从而收集各监测节点的数据；

(2)直接发送医疗数据存在医疗数据隐私问题。

(3)医疗诊断平台集中对收集的数据进行人工检测和诊断，增加了其相关人员的工作压力。

因此，如何安全可靠地实现碎片化数据的共享与整合，得到更加优质的机器学习模型，是一个亟待解决的问题。

发明内容

为了解决上述背景技术中所提到的问题，本发明的目的在于提供一种基于联邦学习的心脏病辅助诊断系统，能够在保证参与者本地数据隐私安全的同时，解决医疗数据孤岛问题，更加高效准确地对心脏病进行辅助诊断。

为了实现上述目的，本发明采用了如下技术方案：

一种基于联邦学习的心脏病辅助诊断系统，包括联邦学习服务端和联邦学习客户端；

所述联邦学习服务端为医疗云服务中心，作为联邦学习的组织协调方，配置有用于诊断心脏病的预测模型；包括初始化模块、模型参数收集模块和模型参数聚合模块；

所述联邦学习客户端为医疗机构，作为联邦学习的主体参与者，同联邦学习服务端，提供模型训练服务及疾病诊断服务；包括数据提取模块、数据预处理模块、协作初始化模块、模型训练模块、加密上传模块和模型预测模块。

所述的初始化模块，初始化联邦学习所需要的相关参数，具体包括：

S11：生成公钥和私钥对{pk,sk}；

S111：随机选择两个长度相等的大素数p、q和整数g，

S112：计算n＝p*q，λ＝lcm(p-1,q-1)，其中lcm函数用于计算最小公倍数；

S113：定义函数

计算μ＝(L(g^λmodn²))^-1mod n；

S114：得到生成的公钥pk＝(n,g)，私钥sk＝(λ,μ)。

S12：处理联邦学习客户端的协作申请，更新各客户端的样本数量n；

S13：初始化全局模型参数w'、学习率η、迭代次数t＝0、迭代周期T，以及本地迭代次数E(E∈Z⁺)；

S14：将生成的参数广播给各个联邦学习客户端。

所述的模型参数收集模块，对各个联邦学习客户端的局部模型参数进行收集；具体包括：

S21：接收联邦学习客户端上传的数据，使用私钥解密，并对全局迭代次数进行验证，验证通过则数据有效；

S22：到达一个迭代周期后判断验证通过的数据量是否达到期望的比例，否则再等待一个迭代周期。

所述的模型参数聚合模块，对收集到的模型参数进行聚合处理，具体包括：

S31：对模型参数收集模块收集到的模型参数，使用FedAvg联邦加权平均算法进行聚合，得到下一轮的全局模型参数，公式为：

其中，w'为新一轮的全局模型参数，w_k、n_k为第k个联邦学习客户端的模型参数及样本数量，n为样本总数，K为联邦学习客户端个数；

S32：更新全局迭代次数g←g+1；

S33：若g大于设定的阈值，通知客户端联邦学习训练结束，并广播全局模型参数，流程终止，否则继续执行下一步；

S34：将处理得到的全局模型参数w'以及迭代次数g反馈至各个联邦学习客户端，重复步骤S2-S3。

所述的数据提取模块，从HIS系统(医院信息系统)查询心脏病已诊断患者的电子健康记录数据和是否确诊数据并对数据进行处理集成，具体为：

(1)：对HIS数据库相关表进行连接查询，得到患者的电子健康记录数据。查询得到的电子健康记录数据应包含结构化的实验室测量数据以及非结构化的病历信息；

(2)：根据原始特征对非结构化的文本数据进行关键词匹配，连同结构化的实验室测量数据进行集成，得到结构化的原始数据集；

所述的数据预处理模块，对数据提取模块的原始数据集进行预处理，具体为：

(1)：提取数据集中的离散特征，使用独热编码将离散特征的取值映射到欧几里得空间，使特征间的相关计算更加合理；

(2)：由于不同特征具有不同的量纲和数据集，因此为了保证结果的可靠性，使用Min-Max标准化方法对原始数据进行线性变换，将值映射到[0,1]之间，Min-Max算法的公式为：

其中X_nom为变换后的数据，X为原始数据，X_max、X_min分别为数据最大值和最小值。

(3)：针对可能出现的缺失值情况，直接对缺失记录进行舍弃或根据参考值进行填充；

所述的协作初始化模块，获取联邦学习所需要的参数，具体为：

(1)：主动向联邦学习服务端发起协作申请，上报样本数量，等待验证通过；

(2)：接收联邦学习服务端广播的公钥pk，全局迭代次数E并保存。

所述的模型训练模块，使用全局模型参数进行自适应训练，得到局部分类模型，具体为：

(1)：接收联邦学习服务端广播的全局模型参数w'、学习率η、迭代次数g和局部迭代次数E；

(2)：使用全局模型参数w'对本地数据集进行迭代训练，直到迭代次数为E，局部模型训练结束，得到局部模型参数w。

所述的加密上传模块，使用协作初始化模块公钥pk对局部分类模型加密并上传；具体为：

(1)：将局部模型参数w与全局迭代次数g拼接组合；

(2)：使用联邦学习服务端广播的公钥pk，对上述组合进行加密，将密文上传至联邦学习服务器；

所述的模型预测模块，当联邦学习训练结束后，所有客户端都会收到最终的全局模型参数，并据此对待诊断患者进行预测，具体流程为：

a、根据患者标识使用数据提取模块获取患者的结构化数据；

b、使用数据预处理模块得到预测模型的标准化输入；

c、使用模型预测模块进行预测，得到辅助诊断结果。

本发明具备以下优点：

1、本发明将联邦学习应用于心脏疾病的辅助诊断场景。不收集医疗机构数据，只使用各医疗机构基于本地数据集生成的模型的参数进行聚合，使在不泄露医疗机构患者隐私的基础上，能够聚合出优质的心脏病辅助诊断模型，从而提高系统的准确性；

2、本发明引入非对称同态加密和身份验证，避免出现恶意用户干扰训练过程或收集模型参数推断原始数据，提高了系统的安全性；

3、本发明通过周期性地对模型进行迭代更新，服务端在一个周期内接收客户端密文，解密后对其中的全局迭代次数同实际的全局迭代次数进行验证，当验证通过的客户端数量/全部客户端数量达到期望比例则进行加权聚合，否则再等一个周期。可根据客户端样本量动态地调整周期，以满足整体训练进度的需要，提高了系统的健壮性；

4、本发明基于双方的协作关系，服务端可随时接收并处理联邦学习客户端加入或退出协作的申请：客户端发起协作申请，服务端对客户端身份验证，通过则保存客户端样本数量信息；当客户端退出协作时，服务端及时更新保存的信息，提高了系统的灵活性。

5、本发明使用基于样本量的加权平均算法，能够解决因样本量小所带来的局部过拟合问题，降低数据的不平衡影响，提高系统的稳定性。

附图说明

图1是本发明所解决的医疗场景示意图。

图2是本发明联邦学习模型的训练方法流程图。

图3是本发明进行辅助诊断的流程示意图。

图4是本发明在医疗机构数目K＝3时与单方场景下的准确率对比图。

具体实施方式

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要的附图作简单地介绍，应当理解，以下附图仅仅是本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他相关的附图。

本发明实施例提供一种基于联邦学习的心脏病辅助诊断系统，如图1所示为系统的应用场景，包括一个医疗云服务中心作为联邦学习服务端和K个医疗机构作为联邦学习客户端。服务端配置有用于诊断心脏病的预测模型，客户端保存有患者的医疗数据，用于与所述服务端配合、基于联邦学习提供模型训练服务，并提供疾病辅助诊断服务。

如图2所示，在本实例中，基于联邦学习的模型训练过程为：对于相关训练模型，所述联邦学习客户端基于本地数据集对从服务端广播的全局模型进行自适应的迭代训练，并将训练得到的模型参数加密上传至服务端，服务端收到各客户端上传的局部模型参数后进行加权平均聚合，并将聚合更新后的全局模型参数分发至各个客户端。

作为联邦学习服务端的具体实施，所述服务端包括初始化模块、模型参数收集模块、模型参数聚合模块，其具体的处理步骤如下：

所述的初始化模块，初始化联邦学习所需要的相关参数，

S11：生成公钥和私钥对{pk,sk}；

S111：随机选择两个长度相等的大素数p、q和整数g，

S113：定义函数

计算μ＝(L(g^λmodn²))^-1mod n；

S114：得到生成的公钥pk＝(n,g)，私钥sk＝(λ,μ)。

S14：将生成的参数广播给各个联邦学习客户端；

S22：到达一个迭代周期后判断验证通过的数据量是否达到期望的比例，否则再等待一个迭代周期；

S31：对上述得到的模型参数，使用FedAvg联邦加权平均算法进行聚合，得到下一轮的全局模型参数，公式为：

其中w'为新一轮的全局模型参数，w_k、n_k为第k个联邦学习客户端的模型参数及样本数量，n为样本总数，K为联邦学习客户端个数。

S32：更新全局迭代次数g←g+1；

S34：将处理得到的全局模型参数w'以及迭代次数g反馈至各个联邦学习客户端，重复步骤S2-S3；

作为联邦学习客户端的具体实施所述联邦学习客户端，为医疗机构，作为联邦学习的主体参与者，同联邦学习服务端，提供模型训练服务及疾病诊断服务；包括数据提取模块、数据预处理模块、协作初始化模块、模型训练模块、加密上传模块和模型预测模块。

S1：数据提取模块。从HIS系统(医院信息系统)查询心脏病已诊断患者的电子健康记录数据和是否确诊数据并对数据进行处理集成；

其中，需要获取的数据集包括患者年龄(Age)、性别(Sex)、胸痛类型(ChestPainType)、静息血压(RestingBP)、血清胆固醇(Cholesterol)、空腹血糖(FastingBS)、静息心电图结果(RestingECG)、最大心率(MaxHR)、运动心绞痛(ExerciseAngina)、ST段抑制(Oldpeak)、运动高峰ST段坡度(ST_Slope)等共11个特征以及心脏病诊断结果，具体步骤如下所示：

S11：对HIS数据库相关表进行连接查询，得到患者的电子健康记录数据。查询得到的电子健康记录数据应包含结构化的实验室测量数据以及非结构化的病历信息；

S12：根据原始特征对非结构化的文本数据进行关键词匹配，连同结构化的实验室测量数据进行集成，得到结构化的原始数据集；

S21：提取性别、胸痛类型、静息心电图结果、运动心绞痛及运动高峰ST段抑制等离散特征，使用独热编码将离散特征的取值映射到欧几里得空间，使特征间的相关计算更加合理；

S22：由于不同特征具有不同的量纲和数据集，因此为了保证结果的可靠性，使用Min-Max标准化方法对原始数据进行线性变换，将值映射到[0,1]之间，Min-Max算法的公式为：

S23：针对可能出现的缺失值情况，直接对缺失记录进行舍弃或根据参考值进行填充；

S31：主动向联邦学习服务端发起协作申请，上报样本数量，等待验证通过；

S32：接收联邦学习服务端广播的公钥pk，全局迭代次数E并保存；

S41：接收联邦学习服务端广播的全局模型参数w'、学习率η、迭代次数g和局部迭代次数E；

S42：使用全局模型参数w'对本地数据集进行迭代训练，直到迭代次数为E，局部模型训练结束；

S51：将局部模型参数w与全局迭代次数g拼接组合；

S52：使用联邦学习服务端广播的公钥pk，对上述组合进行加密，将密文上传至联邦学习服务器；

所述的模型预测模块，当联邦学习训练结束后，所有客户端都会收到最终的全局模型参数，并据此对待诊断患者进行预测，如图3所示，在本实例中，心脏病辅助诊断的过程为：当联邦学习训练结束后，所有客户端都会收到最终的全局模型参数，客户端以本地医疗数据为输入，基于最终模型进行疾病预测，并输出辅助诊断结果，具体流程为：

a、根据患者标识使用数据提取模块获取患者的结构化数据；

b、使用数据预处理模块得到预测模型的标准化输入；

c、使用模型预测模块进行预测，得到辅助诊断结果。

如图4所示，本发明基于所使用的心脏病数据集(根据UCI数据集中的Cleveland、Hungarian、Switzerland、Long Beach VA、Statlog(Heart)Data Set数据集进行组合而成)进行了联邦学习场景下的训练，并同传统单方场景做了实验对比。通过观察实验结果，可以发现本发明所提出的方法相对于传统的单方场景可以加快模型的收敛速度、提升模型的准确率、降低模型的损失值。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于联邦学习的心脏病辅助诊断系统，其特征在于，包括联邦学习服务端和联邦学习客户端；

所述联邦学习服务端，为医疗云服务中心，作为联邦学习的组织协调方，配置有用于诊断心脏病的预测模型；包括初始化模块、模型参数收集模块和模型参数聚合模块；

所述联邦学习客户端为医疗机构，作为联邦学习的主体参与者，同联邦学习服务端，提供模型训练服务及疾病诊断服务；包括数据提取模块、数据预处理模块、协作初始化模块、模型训练模块、加密上传模块和模型预测模块；

2.根据权利要求1所述的一种基于联邦学习的心脏病辅助诊断系统，其特征在于，所述的初始化模块，初始化联邦学习所需要的相关参数，具体包括：

S11：生成公钥和私钥对{pk,sk}；

S111：随机选择两个长度相等的大素数p、q和整数g，

S113：定义函数

计算μ＝(L(g^λmod n²))^-1mod n；

S114：得到生成的公钥pk＝(n,g)，私钥sk＝(λ,μ)。

S14：将生成的参数广播给各个联邦学习客户端。

3.根据权利要求1所述的一种基于联邦学习的心脏病辅助诊断系统，其特征在于，所述的模型参数收集模块，对各个联邦学习客户端的局部模型参数进行收集；具体包括：

4.根据权利要求1所述的一种基于联邦学习的心脏病辅助诊断系统，其特征在于，所述的模型参数聚合模块，对收集到的模型参数进行聚合处理，具体包括：

其中w'为新一轮的全局模型参数，w_k、n_k为第k个联邦学习客户端的模型参数及样本数量，n为样本总数，K为联邦学习客户端个数；

S32：更新全局迭代次数g←g+1；

5.根据权利要求1所述的一种基于联邦学习的心脏病辅助诊断系统，其特征在于，所述的数据提取模块，从HIS系统(医院信息系统)查询心脏病已诊断患者的电子健康记录数据和是否确诊数据并对数据进行处理集成，具体为：

(2)：根据原始特征对非结构化的文本数据进行关键词匹配，连同结构化的实验室测量数据进行集成，得到结构化的原始数据集。

6.根据权利要求1所述的一种基于联邦学习的心脏病辅助诊断系统，其特征在于，所述的数据预处理模块，对数据提取模块的原始数据集进行预处理，具体为：

(3)：针对可能出现的缺失值情况，直接对缺失记录进行舍弃或根据参考值进行填充。

7.根据权利要求1所述的一种基于联邦学习的心脏病辅助诊断系统，其特征在于，所述的协作初始化模块，获取联邦学习所需要的参数，具体为：

8.根据权利要求1所述的一种基于联邦学习的心脏病辅助诊断系统，其特征在于，所述的模型训练模块，使用全局模型参数进行自适应训练，得到局部分类模型，具体为：

9.根据权利要求1所述的一种基于联邦学习的心脏病辅助诊断系统，其特征在于，所述的加密上传模块，使用协作初始化模块公钥pk对局部分类模型加密并上传；具体为：

(1)：将局部模型参数w与全局迭代次数g拼接组合；

(2)：使用联邦学习服务端广播的公钥pk，对上述组合进行加密，将密文上传至联邦学习服务器。

10.根据权利要求1所述的一种基于联邦学习的心脏病辅助诊断系统，其特征在于，所述的模型预测模块，当联邦学习训练结束后，所有客户端都会收到最终的全局模型参数，并据此对待诊断患者进行预测，具体流程为：

a、根据患者标识使用数据提取模块获取患者的结构化数据；

b、使用数据预处理模块得到预测模型的标准化输入；

c、使用模型预测模块进行预测，得到辅助诊断结果。