CN117370804A

CN117370804A - 基于联邦区块链的医疗数据分析用可扩展个性化异构方法

Info

Publication number: CN117370804A
Application number: CN202311338426.3A
Authority: CN
Inventors: 崔业佳; 袁晓铭; 徐泽瑞; 苏静怡; 高培森; 蒲荣; 赖秀红
Original assignee: Dongguan Songshanhu Central Hospital Dongguan Shilong People's Hospital Dongguan Third People's Hospital Dongguan Cardiovascular Disease Research Institute; Northeastern University Qinhuangdao Branch
Current assignee: Dongguan Songshanhu Central Hospital Dongguan Shilong People's Hospital Dongguan Third People's Hospital Dongguan Cardiovascular Disease Research Institute; Northeastern University Qinhuangdao Branch
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2024-01-09

Abstract

本发明公开了一种基于联邦区块链的医疗数据分析用可扩展个性化异构方法，设计基于不同任务类型的可拓展的联邦区块链模型，采用加入差分隐私的FedProx算法建立训练模型，加入近端项以限制本地模型相对于全局模型的偏离程度，又允许结点进行"不精确"本地训练，以解决系统异构及统计异构问题；并且，将联邦学习算法与差分隐私结合，在本地数据集及上传模型参数时加入高斯白噪声，在区块链中，采用委员会共识机制，以达到对投毒攻击、模型梯度倒推、恶意结点攻击、中心服务器攻击的防御，利用模型相似度个性化训练，选取与本地模型梯度相似度高的其他结点进行动态聚簇，在簇内进行模型聚合，实现本地模型的个性化，同时有利于模型收敛。

Description

基于联邦区块链的医疗数据分析用可扩展个性化异构方法

技术领域

本发明涉及医疗数据分析领域，尤其一种联邦区块链的医疗数据分析用可扩展个性化异构方法。

背景技术

医疗健康数据(例如电子病历)中包含大量医疗信息，对其进行分析挖掘可应用于疾病预测、辅助医疗诊断、个性化信息推荐、临床决策支持、用药模式挖掘等。然而，采用传统的云计算方式存储和处理健康数据，一方面可能造成云端网络通信开销和负载压力，另一方面由于云计算使用多个医疗健康机构个人数据，可能造成部门间利益冲突和患者个人数据泄漏。正是因为医疗数据的敏感性和隐私性，许多用户数据不能公开，这导致了“数据孤岛”的现象。因此，如何在保证用户个人隐私和数据安全的情况下，充分发挥机器学习等人工智能方法的潜力是一项意义深远而又亟待解决的问题。

近年来，为了解决分布式数据机构产生的数据孤岛以及集中式数据收集模式带来的隐私泄露的问题，联邦学习将机器学习模型分布式地部署在边缘结点上。在联邦学习中，边缘结点从中心服务器处下载初始全局模型，将收集到的用户原始数据在本地进行模型训练，只需将训练出的本地模型梯度上传至中心聚合服务器，与其他结点的模型梯度进行聚合得到全局模型，经过多次迭代，全局模型收敛，得到最终全局模型，这一过程并没有泄露原始数据给第三方，很好地保护了隐私并提高了训练效率。然而，传统联邦学习自身也面临安全攻击和隐私攻击：

1.Zhang等人提出了一种基于生成对抗网络的数据投毒攻击算法。该算法通过修改恶意方本地训练的超参数,在恶意方的模型更新上添加比例系数,从而提高恶意更新对全局模型的影响力,扩大生成数据的毒害效果(Zhang,J.,Chen,B.,Cheng,X.,Binh,H.T.T.,&Yu,S.(2020).PoisonGAN:Generative poisoning attacks against federatedlearning in edge computing systems.IEEE Internet of Things Journal,8(5),3310-3322.)

2.Fredrikson等人提出了一种基于预测值置信度的模型反演算法。该算法模型倒推攻击可以从模型中反推训练数据的属性值。(Fredrikson,M.,Jha,S.,&Ristenpart,T.(2015,October).Model inversion attacks that exploit confidence informationand basic countermeasures.In Proceedings of the 22nd ACM SIGSAC conference oncomputer and communications security(pp.1322-1333).)

传统联邦学习由终端设备、边缘结点和中心服务器三层架构组成，中心服务器负责全局模型的初始化、聚合和更新，若中央聚合服务器攻破，所有边缘结点的模型梯度均会泄露，经过梯度倒推，所有结点的原始数据均会被攻击方获取，将会对边缘结点带来严重威胁。此外，不同边缘结点的底层数据集分布具有各自的异构性，而中心服务器只能根据各节点模型梯度聚合出唯一的共同全局模型，不会使模型适用于每一个用户，无法适用于医疗物联网场景下的特异性诊断。并且，传统的联邦平均算法不允许参与训练的结点执行可变的工作量，只是简单地丢弃在指定时间内无法完成计算任务的结点。基于这样的局部更新方案，每轮迭代只有很少的有效结点参与聚合，对模型收敛存在不利影响。

发明内容

本发明的目的是为了克服上述提到的目前研究缺点，提出了医疗物联网场景下的一种基于联邦区块链的可扩展个性化异构算法(ABlockchain-based ScalablePersonalized Heterogeneous Federated Learning algorithmin the scenario ofmedical Internet of Things，BSPHFL)，在该算法中，我们分析了在具有综合性医院和专科医院的复杂医疗物联网场景下的业务需求，设计了基于不同任务类型的可拓展的联邦区块链模型，边缘结点部署在各医院之间，根据任务类型进行去中心化的个性化训练或集中式训练。此外，我们采用异构联邦学习，加入近端项以限制本地模型相对于全局模型的偏离程度，加快模型收敛，又允许结点进行"不精确"本地训练，以解决系统异构及统计异构问题。并且，我们将联邦学习算法与差分隐私结合，在本地数据集及上传模型参数时加入高斯白噪声，在区块链中，我们采用委员会共识机制，以达到对投毒攻击、模型梯度倒推、恶意结点攻击、中心服务器攻击的防御。

为实现上述目的，本发明是根据以下技术方案实现的：

一种基于联邦区块链的医疗数据分析用可扩展个性化异构方法，预设两种训练任务：训练任务一，针对分类相关性强的数据分析；训练任务二，面向群体的数据分析，包括以下步骤：

步骤S1：训练任务下发，模型计算服务器生成初始化模型，根据本地用户数据通过联邦异构算法训练本地模型得到第一轮模型训练的模型参数；

步骤S2：各结点通过区块链结点服务器从区块链中获取其他结点模型参数，根据数字签名机制验证其参数是否被恶意篡改，若通过验证，则将模型参数传给模型计算服务器，模型计算服务器计算其他结点与本结点的模型相似度，基于模型相似度选择出与自身模型相似度高的结点进行聚簇；

步骤S3：选择每个簇中模型相似度最大的结点组成初始委员会，初始委员会将自身模型参数作为簇内全局模型下发，簇内节点下载簇内全局模型，并利用自身数据集进行本地训练；

步骤S4：簇内结点将更新后的模型参数发送给初始委员会；初始委员会利用自身数据集对其余结点的更新进行验证，达成共识后，获取最新区块内容中其余参与结点的模型参数，计算模型相似度，并根据模型相似度为各结点模型参数分配不同权重进行簇内全局模型聚合，其中，只有合格的更新可以被加到区块链上；

步骤S5：下一轮训练开始前，选举上一轮训练中簇头结点作为新的委员会，保证委员会不会连选连任，减少恶意结点混入委员会导致模型聚合偏离正确方向的可能；

步骤S6：若为训练任务二，则在步骤S5的基础上将簇头结点的模型参数进行聚合得到全局模型；

步骤S7：重复步骤S3-S6直至模型收敛。

上述技术方案中，所述训练的方法为通过加入差分隐私的FedProx算法。

上述技术方案中，所述训练的最优化指标即结点k在第t轮的训练目标是近似最小化以下目标函数：

s.t.

其中，w_t是结点在第t次聚合的模型参数，μ是近端项超参数，F_k(w)是各节点的损失函数；C1为函数h的梯度，当满足C2时，定义w^*是min_wh(w；w₀)的一个λ-不精确解，λ越小精度越高。当满足C3时，定义F_k(w)在w处是-局部不相似的；

对任意相邻数据集Q和数据集Q'和训练结果S，定义函数是(ε,δ)-差分隐私满足：

其中，δ是松弛项，表示违反(ε,0)-DP的概率。

当时，即为加入差分隐私后的目标函数：

上述技术方案中，所述步骤S2中的模型相似度的计算方法为：

表示结点j在第t轮迭代时的模型参数，/>表示结点k在第t轮迭代时的第d个模型参数，/>表示/>与/>之间的余弦相似度；D表示模型参数的个数，/>表示/>与/>第d个参数的均值。

上述技术方案中，所述步骤S6中全局模型的具体计算方法为：

其中，表示结点k在第t+1轮迭代时的模型参数，K表示动态聚簇后的簇数，第k个结点在第t轮聚合中的个性化模型参数/>为：

s.t.

其中，N为参与聚合的结点数，表示结点j在第t轮迭代时的模型参数，ρ_k,j表示参与者k聚合生成模型时，参与者j的模型在聚合过程中所占比重。α为一个超参数。表示/>与/>之间的余弦相似度。D表示模型参数的个数，/>表示/>与/>第d个参数的均值。

本发明与现有技术相比，具有如下有益效果：

1、本发明利用模型相似度个性化训练，选取与本地模型梯度相似度高的其他结点进行动态聚簇，在簇内进行模型聚合，实现本地模型的个性化。

2、本发明利用区块链和差分隐私保障隐私安全。利用区块链的分布式架构和不可篡改、信息溯源的特性，结合委员会共识机制实现高效安全聚合，在本地数据集及上传模型参数时加入高斯白噪声，达到对投毒攻击、模型梯度倒推、恶意结点攻击、聚合服务器攻击的防御。

3、本发明采用异构联邦学习，考虑到本地设备算力不同及数据异构问题，允许结点进行"不精确"本地训练，更符合真实场景。

4、本发明，设计了基于不同任务类型的可拓展的联邦区块链模型，适合在具有综合性医院和专科医院的复杂医疗物联网场景下的业务需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明的方法流程示意图。

图2为本发明的方法在有3个恶意结点攻击下，与无恶意结点攻击的传统联邦平均算法、有3个恶意结点攻击的传统联邦平均算法的模型准确率比较效果图。

图3为本发明的方法在迭代相同次数时，与传统联邦平均算法、传统联邦平均算法加委员会共识算法的时延比较效果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

本发明中所涉及的技术术语解释如下：

联邦学习：是一种分布式机器学习算法，角色主要包括客户端和服务器，在学习过程中，各个客户端不会共享自身的训练数据，服务器协调大量客户端共同训练得到一个最佳的全局模型，在保护数据隐私的同时打破数据之间的壁垒，从而解决数据孤岛问题。

统计异构：联邦学习面临的客户端之间数据量的分布不平衡和数据类别分布不平衡挑战，称为统计异构。

系统异构：联邦学习面临的客户端之间计算能力、通信能力等硬件方面的差异问题。

可扩展个性化异构：根据任务类型的不同，既可对相似度高的模型进行聚簇训练，得到更符合本地数据特征的个性化模型，又可进行全局模型训练，得到反映全体数据特征的全局模型。

FedProx算法：对于数据异构性，FedAvg算法已被证明缺乏理论上的收敛保障，在实际应用场景中工作效率低下；对于系统异构性，FedAvg算法不允许本地客户端执行可变数量的本地计算量，而是将同一个通信轮数下没有完成指定epoch的客户端直接丢弃，不允许其参加全局模型的更新，为了解决这两个瓶颈问题，卡内基梅隆大学李恬团队于2020年在MLSys会议中提出FedProx算法，针对数据异构性和系统异构性引入近端项和不精确解。

区块链：一种分布式数据库技术，以去中心化、不可篡改和安全性高等特点而受到关注。区块链技术的基本原理是将一系列交易记录组成的区块通过加密算法连接在一起，形成一个不断增长的链状结构。每个区块都包含上一个区块的哈希值，这使得一旦数据被写入区块链，就无法轻易地进行篡改。此外，区块链采用共识机制，使得整个网络中的节点可以就数据的正确性达成一致。

委员会：在每一轮共识中被视为可信的、固定数量的区块链节点。

委员会共识机制：在区块链共识中采用委员会的形式，赋予委员会节点验证模型更新和块生成的职责，智能合约依据上一轮委员会对其他训练节点模型的评分进行模型聚合，以及从训练者中选举出下一轮委员会节点。其中同一个节点不会同时担任委员会和训练者的角色，委员会节点不会连任。

针对具有综合性医院和专科医院的复杂医疗物联网场景下的业务需求，本发明提出了一种基于联邦区块链的医疗数据分析用可扩展个性化异构方法，该方法预设两种训练任务：训练任务一，针对分类相关性强的数据分析；训练任务二，面向群体的数据分析，将边缘结点部署在各医院之间，根据任务类型进行去中心化的个性化训练或集中式训练；方法的总体架构是将区块链和联邦学习相结合，即，每个结点通过联邦学习进行模型训练，而节点间模型参数的传递则利用区块链进行，联邦学习可以保证在不泄露本地数据集的情况下进行模型训练和聚合，而区块链则可防止恶意结点篡改模型参数。具体包括如下步骤：

首先采用FedProx算法建立最大化估计精度并最小化损失函数的最优化问题如下：

结点k在第t轮的训练目标是近似最小化以下目标函数：

s.t.

其中，w_t是结点在第t次聚合的模型参数，μ是近端项超参数，F_k(w)是各节点的损失函数。C1为函数h的梯度，当满足C2时，定义w^*是min_wh(w；w₀)的一个λ-不精确解，λ越小精度越高。当满足C3时，定义F_k(w)在w处是-局部不相似的。

其中，δ是松弛项，表示违反(ε,0)-DP的概率。

当时，即为加入差分隐私后的目标函数：

第k个结点在第t轮聚合中的个性化模型参数为：

经过T轮迭代后，即为最终得到的个性化模型的参数。

s.t.

其中，N为参与聚合的结点数，表示结点j在第t轮迭代时的模型参数，/>表示结点k在第t轮迭代时的第d个模型参数，ρ_k,j表示参与者k聚合生成模型时，参与者j的模型在聚合过程中所占比重。α为一个超参数。采用改进的余弦相似度计算各结点模型梯度的相似性，/>表示/>与/>之间的余弦相关度。D表示模型参数的个数，/>表示/>与/>第d个参数的均值。

该优化目标表明我们最小化模型的λ-不精确解和目标函数就可以提高模型预测精度以及防御攻击的能力。N为区块链结点数，因此经过T轮训练次数后，系统的总体优化目标就如所示。

如图1所示，具体训练实施过程举例如下：

步骤1：训练任务下发，模型计算服务器生成初始化模型根据本地用户数据通过联邦异构算法训练加入差分隐私后的目标函数得到第一轮模型训练的模型参数。

步骤1中综合考虑了在具有综合性医院和专科医院的复杂医疗物联网场景下的业务需求，设计了基于不同任务类型的可拓展的联邦区块链模型，考虑到了真实场景下的系统异构及统计异构问题，采用加入差分隐私的FedProx算法建立训练模型，加入近端项，限制本地模型相对于全局模型的偏离程度，加快模型收敛，允许结点进行"不精确"本地训练，可根据任务类型进行去中心化的个性化训练或集中式训练；在本地数据集及上传模型参数时加入高斯白噪声，达到对投毒攻击、模型梯度倒推、恶意结点攻击、聚合服务器攻击的防御。

步骤2：各结点通过区块链结点服务器从区块链中获取其他结点模型参数，根据数字签名机制验证其参数是否被恶意篡改，若通过验证，则将模型参数传给模型计算服务器，模型计算服务器计算其他结点与本结点的模型相似度ρ_i,j，基于模型相似度选择出与自身模型相似度高的结点进行聚簇；ρ_i,j大的聚为一簇，聚簇是根据不同模型间的模型相似度分配不同的权重，如，结点1与结点2、3的模型相似度为0.01、0.99，则结点1、3可聚为一簇，结点2，3的模型参数为a、b，则结点1的模型聚合结果为(0.01a+0.99b)。其中，结点2的模型参数所占权重很小，可忽略不计。共聚成K簇，形成K个集合S_k。

步骤2中利用区块链的分布式架构和不可篡改、信息溯源的特性，结合委员会共识机制实现高效安全聚合。

步骤3：选择每个簇中模型相似度最大的结点作为簇头节点并组成初始委员会，初始委员会将自身模型参数作为簇内全局模型下发，簇内节点下载簇内全局模型，并利用自身数据集进行本地训练。

步骤3中利用模型相似度个性化训练，选取与本地模型梯度相似度高的其他结点进行动态聚簇，在簇内进行模型聚合，实现本地模型的个性化。动态聚簇即每一次的模型聚合均从全部有效结点中选择相似度高的模型进行聚簇，而不是在第一次聚簇后就在该簇内进行多次模型聚合，通过动态聚簇的方法可及时根据本地数据的变化选择合适的聚簇，也可抑制投毒攻击的多轮累加造成的毒害作用，更符合个性化场景。

步骤4：簇内结点将更新后的模型参数发送给初始委员会；初始委员会利用自身数据集对其余结点的更新进行验证，达成共识后，获取最新区块内容中其余参与结点的模型参数，计算模型相似度，并根据模型相似度为各结点模型参数分配不同权重进行簇内全局模型聚合，其中，只有合格的更新可以被加到区块链上；委员会共识机制只需要少数的节点(委员会节点)参与共识，可以提高共识算法效率，委员会节点不作为训练节点，因此，在对训练节点模型更新进行评分时，可以将委员会的本地数据视为验证集，随着委员会的交替担任，可以实现交叉验证。

步骤4中用由部分诚实节点组成的委员会执行模型局部梯度验证和区块生成等步骤。由于只有部分节点参与本地模型验证及全局模型更新，联邦学习的整体效率获得了显著提升。该机制要求委员会以外的节点将本地模型发送给委员会节点进行验证打分，只允许合格的模型参与全局模型更新。

步骤5：下一轮训练开始前，选举上一轮训练中簇头结点作为新的委员会，保证委员会不会连选连任，减少恶意结点混入委员会导致模型聚合偏离正确方向的可能；基于委员会对模型更新的评分，智能合约将选取本地数据分布与整体数据分布相似且不是恶意的节点作为下一轮委员会，可以有效抵御恶意结点攻击。

步骤6：若为训练任务二，则在步骤5的基础上将簇头结点的模型参数进行聚合得到全局模型

s.t.

其中，N为参与聚合的结点数，表示结点j在第t轮迭代时的模型参数，ρ_k,j表示参与者k聚合生成模型时，参与者j的模型在聚合过程中所占比重。α为一个超参数。/>表示/>与/>之间的余弦相关度。D表示模型参数的个数，/>表示/>与/>第d个参数的均值。

步骤S7：重复步骤S3-S6，直至达到最大训练轮次T后，停止训练并根据目标求出系统在联邦学习过程的成本预测精度。经仿真分析，在与20个用户和3个恶意节点进行100轮通信后，与未被攻击的传统联邦平均学习相比，本系统平均准确率保持在90％左右。

请参见图2，本发明的方法在有3个恶意结点攻击下(BPFL-MS(3maliciousdevices))，通过与无恶意结点攻击的传统联邦平均算法(VBFL(20legitimate devices))、有3个恶意结点攻击的传统联邦平均算法(VBFL(3malicious devices))的模型准确率比较可以看出：随着迭代次数的增加，本发明提出的BPFL-MS算法(结合委员会共识机制和模型相似性)和两个传统联邦平均学习基线算法最初都会经历准确率的增加。3种模型的准确率(ACC)最终保持不变，表明联邦学习算法表现出较好的收敛性。此外，从图1中我们可以观察到，具有3个恶意设备模型的受攻击传统联邦平均学习的准确率在最初达到39％后迅速下降到10％。而本发明方法在委员会共识协议的帮助下，有效防御恶意节点的攻击，实现了90％的准确率。

请参见图3，本发明的方法(BPFL-MS)在迭代相同次数时，通过与传统联邦平均算法加工作量证明共识机制(VBFL-PoW)、传统联邦平均算法加权益证明共识机制(VBFL-PoS)的时延(Block Generate Time)比较可以看出：本发明所提出的BPFL-MS算法(结合委员会共识机制和模型相似性)和传统联邦平均学习基线算法分别采用工作量证明共识机制和权益证明共识机制相比，在100轮训练中平均区块生成时间(Block Generate Time)变化最小。此外，从图中可以明显看出，利用工作量证明共识机制的传统联邦平均学习模型消耗的计算资源量最大，平均出块时间为58s，采用权益证明共识机制的传统联邦平均学习平均区块生成时间约为30s，而本发明提出的系统实现了25s左右的时延，显著降低了区块验证和链式的计算消耗。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于联邦区块链的医疗数据分析用可扩展个性化异构方法，其特征在于，预设两种训练任务：训练任务一，针对分类相关性强的数据分析；训练任务二，面向群体的数据分析，包括以下步骤：

步骤S7：重复步骤S3-S6直至模型收敛。

2.根据权利要求1所述的一种基于联邦区块链的医疗数据分析用可扩展个性化异构方法，其特征在于，所述训练的方法为通过加入差分隐私的FedProx算法。

3.根据权利要求2所述的一种基于联邦区块链的医疗数据分析用可扩展个性化异构方法，其特征在于，所述训练的最优化指标即结点k在第t轮的训练目标是近似最小化以下目标函数：

s.t.

其中，w_t是结点在第t次聚合的模型参数，μ是近端项超参数，F_k(w)是各节点的损失函数；C1为函数h的梯度，当满足C2时，定义w^*是min_wh(w；w₀)的一个λ-不精确解，λ越小精度越高；当满足C3时，定义F_k(w)在w处是-局部不相似的；

其中，δ是松弛项，表示违反(ε,0)-DP的概率；

当时，即为加入差分隐私后的目标函数：

4.根据权利要求3所述的一种基于联邦区块链的医疗数据分析用可扩展个性化异构方法，其特征在于，所述步骤S2中的模型相似度的计算方法为：

5.根据权利要求4所述的一种基于联邦区块链的医疗数据分析用可扩展个性化异构方法，其特征在于，所述步骤S6中全局模型的具体计算方法为：

s.t.

其中，N为参与聚合的结点数，表示结点j在第t轮迭代时的模型参数，ρ_k,j表示参与者k聚合生成模型时，参与者j的模型在聚合过程中所占比重；α为一个超参数；/>表示与/>之间的余弦相似度；D表示模型参数的个数，/>表示/>与/>第d个参数的均值。