CN114912136A

CN114912136A - 基于竞争机制的区块链上医疗数据协同分析方法及系统

Info

Publication number: CN114912136A
Application number: CN202210825830.2A
Authority: CN
Inventors: 李冠男; 李劲松; 陈松; 陆遥; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-08-16
Anticipated expiration: 2042-07-14
Also published as: CN114912136B

Abstract

本发明公开了一种基于竞争机制的区块链上医疗数据协同分析方法及系统，本发明通过引入纵向联邦学习，实现了数据不出机构即可进行模型构建，解决了在线学习模型训练方向错误的问题，因而能够构建更为准确的医疗预测模型，对特征纵向分布的数据集进行了更好的利用。本发明通过引入竞争机制，不同节点将通过样本的数据特征贡献值计算出相应的权重，并以此来争抢数据汇总权和模型梯度更新权。本发明能够根据样本的特征分布对协调方进行调整，从而能够对特征分布不固定的数据集进行更好的利用。

Description

基于竞争机制的区块链上医疗数据协同分析方法及系统

技术领域

本发明属于医疗信息技术领域，尤其涉及一种基于竞争机制的区块链上医疗数据协同分析方法及系统。

背景技术

众所周知，海量医疗数据中蕴含着巨大的利用价值，对其进行分析挖掘可应用于疾病预测、辅助医疗诊断、个性化信息推荐、临床决策支持、用药模式挖掘等。然而，对于真实的临床数据，患者的就诊数据散落在不同医疗结构，且各个医疗机构之间患者数据的差异性较大，因此如何将多中心的医疗数据整合对齐、协同分析成为众多研究的方向，并且在数据安全访问和有效利用的同时需要保护数据的隐私性和安全性。然而在集中式的架构中会对患者的隐私、信任以及数据安全性带来挑战，从而使得分布式数据的对齐匹配、去中心化的数据利用及模型构建显得尤其重要。

越来越多的研究人员认为，区块链凭借着自己匿名性、稳健性、可追溯、去中心的特点，能够为医疗数据的隐私保护和数据协同分析提供新的方法。与传统的技术相比，区块链提供了更高的安全性。根据区块链的工作原理，应用程序仅是将数据作为区块存储在分布式的节点中，从而使黑客无法控制和修改这些记录。

近年来，机器学习和区块链技术的融合已经成为最为有效的隐私保护患者预测方案，目前也有一些研究已经在这方面做出努力。其中，与本发明所申明最相近的技术方案为：①区块链上学习，即通过在线机器学习和区块链相结合的方式，构建点对点的模型，为模型的数据提供保护。其中，Kuo和 Ohno-Machado提出将私有链和在线机器学习相结合，在整个训练过程中，各个医疗机构都在其他机构之间广播其模型参数，而非患者级别的数据，同时进一步提出GloreChain框架，采用批量学习算法来保证准确性，并利用新的共识算法规范每个机构的参与顺序；Kuo等人通过构建广义的点对点分布式预测模型来预测患者的预后，有助于增强系统安全性和稳健性，并为罕见病数据预测提出层次区块链框架；Chen，Wang和Yang等人设计了一个基于区块链的隐私保护机器学习框架，在区块链上实现去中心化随机梯度下降，并结合梯度延迟补偿方法来支持异步学习。②基于区块链的联邦学习（Blockchain-based Federated Learning，BFL）。目前该技术正受到越来越多人的关注，尚处于早期发展阶段，通常采用不同的BFL框架，来面向联邦学习中不同的痛点问题（如：单点故障、缺乏激励机制、投毒攻击）。其中，LI Y等人提出的BFLC框架，采用的是委员会共识机制，而非常见的工作量证明共识机制，使得部分节点可以参与模型更新，联邦学习效率显著提升；HIEU N Q等人通过引入深度强化学习，实现了最小化的系统时延，提高了区块生成速率。

现有技术以在线机器学习和区块链相结合的方式来在构建多中心模型的同时保证患者级别数据不出医院。但首先，实验大多将数据集按样本横向划分，而实际医疗数据更多是纵向数据乃至时序数据；其次，在线学习虽然可以做到实时反馈，但是运维成本也相对较高，且训练初期的细小误差可能会使模型走向完全错误的方向。

联邦学习在一定程度上解决了数据样本纵向分布的问题，但更多的是应用于特征分布较为确定的场景。由于患者就诊的不确定性，数据样本的特征分布也并不确定，不同的特征数据甚至标签数据的所在机构是随样本变化的，这也给多中心模型的构建带来了更大的挑战。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于竞争机制的区块链上医疗数据协同分析方法及系统，解决了以下技术问题：

1. 本发明通过引入纵向联邦学习，实现了数据不出机构即可进行模型构建，解决了在线学习模型训练方向错误的问题，因而能够构建更为准确的医疗预测模型，对特征纵向分布的数据集进行了更好的利用。

2. 本发明通过引入竞争机制，不同节点将通过样本的数据特征贡献值计算出相应的权重，并以此来争抢数据汇总权和模型梯度更新权。本发明能够根据样本的特征分布对协调方进行调整，从而能够对特征分布不固定的数据集进行更好的利用。

本发明的目的是通过以下技术方案实现的：

根据本说明书的第一方面，提供一种基于竞争机制的区块链上医疗数据协同分析方法，该方法包括以下步骤：

S1，各医疗机构作为区块链节点，作为发起方的医疗机构设定研究筛选条件，在本地生成患者队列，将患者队列中的患者身份信息通过哈希加密后上链；

S2，作为参与方的医疗机构接收到发起方广播的患者身份信息后，在本地进行患者匹配识别，将匹配出的本地患者的统计信息返回给发起方；

S3，发起方确认参与方返回的信息满足研究要求后，参与方进行本地数据准备；

S4，将全局模型参数进行随机初始化，各节点根据初始化参数计算本地数据所有特征对于全局模型的贡献值，将贡献值视为信息素浓度，根据蚁群算法得到初始协调方；

S5，各节点依据本地数据特征分布情况进行批次划分，并将当前批次数据进行同态加密后上链；

S6，协调方收到其他节点的加密数据后进行数据整合对齐，利用对齐后的加密数据进行当前批次的模型训练，将训练得到的密文上链；

S7，各节点根据链上密文进行本地解密，将解密结果广播到协调方，协调方收到各节点的本地解密结果后，进行全局解密得到全局模型参数梯度并上链；

S8，各节点根据链上全局模型参数梯度进行本地模型的梯度更新，并更新信息素浓度后广播到协调方；

S9，当前批次协调方根据各节点信息素浓度得到下一批次协调方并上链，完成当前批次的协同分析，返回S5进行下一批次的协同分析。

进一步地，所述发起方对于患者数据中身份信息唯一无歧义标识、身份信息有差异标识分别采用SHA-256、SimHash加密算法进行哈希散列；在患者身份信息转换为哈希值之后，为哈希值进行分组，依据识别患者强弱的程度授予不同权重；每个患者在本地对应一个作为患者身份标识的哈希值组。

进一步地，所述患者匹配识别具体为：

参与方将发起方广播的哈希值组与本地数据生成的哈希值组进行比对，采用字符串相似度计算方法，将发起方特定患者哈希值组中的项目与本地患者哈希值组中的对应项目进行计算排序，给予本地每个患者的每个项目相似度百分比；将本地患者哈希值组中的项目相似度进行加权求和，得到本地每个患者的相似度分数并与阈值比较，判断是否匹配成功，将匹配成功后相似度分数最高的本地患者的统计信息返回给发起方。

进一步地，S3中，参与方进行本地数据准备具体为：

各节点将待研究患者数据矩阵化为原始数据集

，其中

为输入样本矩阵，T表示转置操作，n为本地样本量，

为输入特征向量，M为全局模型总特征个数，样本的特征按顺序排列，并且X中样本依特征的存在情况进行排序；

为n个样本的诊断标签，

代表第i个样本的标签在该节点不存在；

代表第i个样本的真实标签数据。

进一步地，所述贡献值的计算方法如下：计算各节点中当前批次本地数据的不同特征

对于全局模型参数梯度

的影响

，M为全局模型总特征个数，各节点计算所有特征对于全局模型的贡献值

。

进一步地，S5中，采用基于多秘钥全同态加密的安全多方计算方法进行数据加密。

进一步地，S6中，数据整合对齐及训练具体为：

对于各节点

，K为节点总数，设节点

的本地数据集为

，且各节点的本地数据集总特征数为M，所有本地数据集中样本取并集后总数为N；

协调方在收到其他K-1个节点的加密数据后进行数据整合对齐，设第i批次整合对齐后的数据集为

，数据集

中的样本数为

，

；

之后协调方进行第i批次的模型训练，将待训练模型的假设函数记为

，在训练过程中最终目标为最小化损失函数Loss

，并将复杂运算通过泰勒展开化简为满足同态加密对密文运算要求的基本运算，训练得到密文。

进一步地，S8中，在每一批次全局模型参数梯度更新完毕后，各节点

更新信息素浓度

，K为节点总数，更新公式如下：

其中

分别为当前批次和下一批次节点

的信息素浓度，

为下一批次节点

样本的贡献值，

为当前批次节点

样本的贡献值，

为0或1，若当前批次节点

为协调方则

，否则

；

在协调方进行模型训练时，其他节点处于空闲状态，此时由其他节点使用下一批次样本计算下一批次信息素浓度，从而竞争出下一批次协调方，且提前进行加密数据的传输工作；

根据不同待训练模型，为信息素浓度设置不同阈值

，若节点

的某批次信息素浓度

大于阈值

，则该节点在下一批次将不会竞争为协调方。

进一步地，当前批次协调方全局解密后，得到全局模型参数梯度并上链；此时已竞争出下一批次协调方，下一批次非协调方无需进行梯度更新，只需下一批次协调方根据链上的全局模型参数梯度进行本地模型的梯度更新，并以此来进行下一批次的模型训练；各节点在本地训练的空闲时间将链上的全局模型参数梯度保存到本地，进行本地模型的梯度更新。

根据本说明书的第二方面，提供一种基于竞争机制的区块链上医疗数据协同分析系统，该系统包括数据预处理模块、区块链框架模块、联邦学习模块、数据加密解密模块、竞争机制模块和模型梯度更新模块；

数据预处理模块，用于对多中心的异构医疗数据进行处理统一，以及负责将不同中心的指定数据进行脱敏统计；

区块链框架模块，为系统提供底层支持及可信任的保障，为数据提供隐私保护；

联邦学习模块，运行在竞争出的协调方，负责对多中心的医疗数据进行协同分析以及模型构建；

数据加密解密模块，负责将本地需要传输到协调方的数据进行加密，以及对最终的模型参数进行联合解密；

竞争机制模块，负责根据不同节点的样本特征计算出不同节点的信息素浓度，以此来竞争出多个节点中的协调方；

模型梯度更新模块，在一个批次样本计算完成后，负责将更新后的全局模型通过区块链广播到全局，从而进行下一个批次的更新。

根据本说明书的第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述基于竞争机制的区块链上医疗数据协同分析方法中的步骤。

根据本说明书的第四方面，提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述基于竞争机制的区块链上医疗数据协同分析方法中的步骤。

本发明的有益效果是：

1. 现有的将在线学习和区块链相结合的技术方案，模型训练存在偶然性，数据利用存在局限性；本发明通过引入纵向联邦学习，能够对纵向分布的数据进行更好的利用，采用批次训练的方式，保证模型训练的质量。

2. 现有协同分析框架大多面向固定分布的数据集，对于特征分布不固定的医疗数据，普适性较弱；本发明可以根据医疗数据的特征分布进行动态竞争调整，将分布不确定的数据充分利用，具有较强普适性。

附图说明

图1为一示例性实施例提供的区块链上医疗数据协同分析方法流程图。

图2为一示例性实施例提供的区块链上医疗数据协同分析框架示意图。

图3为一示例性实施例提供的基于哈希值的患者匹配识别流程图。

图4为一示例性实施例提供的普通纵向联邦学习数据对齐示意图。

图5为一示例性实施例提供的竞争机制示意图。

图6为一示例性实施例提供的区块链上医疗数据协同分析系统结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明提供一种基于竞争机制的区块链上医疗数据协同分析方法，如图1、图2所示，该方法包括以下步骤：

下述说明进一步给出了符合本申请要求的基于竞争机制的区块链上医疗数据协同分析方法实现的部分实施例。

S1-S3为数据预处理部分，在一个实施例中，包括如下步骤：

将各医疗机构作为区块链的不同节点，将节点数记为K。

某医疗机构的研究人员设定研究筛选条件，包括指定特征、患者、患病情况等，以此在本地生成患者队列，该医疗机构节点作为发起方将患者队列中的患者身份信息通过哈希加密后在区块链进行广播。

区块链上其他节点接收到发起方广播的患者身份信息后，在本地数据库进行样本数据的筛选统计并进行回馈，以供发起方研究人员评估样本质量。

发起方对于患者身份信息的不同部分，结合SHA-256和SimHash两种加密算法进行哈希散列，做到将原始数据和哈希值一一对应且不能从哈希值反推回原始数据。具体为：对于患者数据中身份信息唯一无歧义标识，采用SHA-256加密算法进行哈希散列；对于患者数据中身份信息有差异标识，采用SimHash加密算法进行哈希散列。在患者身份信息分别转换为对应哈希值之后，为这些哈希值进行分组，依据识别患者强弱的程度授予一定的权重系数，例如对于唯一无歧义标识赋予高权重；对于性别、年龄等辅助信息赋予较低权重。进行过哈希生成与权重赋予后，每个患者在本地对应一组有权重差别的哈希值，这一哈希值组即为患者的身份标识，发起方将哈希值组在区块链进行广播，用于进行患者匹配识别。

基于哈希值的患者匹配识别流程如图3所示。患者匹配识别包含相似度计算和阈值判别。其他医疗机构节点会将发起方广播的哈希值组与本地患者数据生成的哈希值组进行比对，采用字符串相似度计算方法，将发起方特定患者哈希值组中的项目与本地患者哈希值组中的对应项目进行计算排序，依据排序给予本地每个患者的每个项目相似度百分比。将本地患者哈希值组中的项目权重乘以项目相似度百分比并求和后，得到本地每个患者的相似度分数，将相似度分数与阈值比较，判断是否匹配成功，将匹配成功后相似度分数最高的本地患者的统计信息返回给发起方。采用基于哈希的匹配算法，可以在保证效率的同时避免患者身份信息的暴露。

发起方确认各节点返回的本地患者的统计信息满足研究要求后，各医疗机构节点进行本地数据准备，具体为：各医疗机构节点将待研究患者数据矩阵化为原始数据集

，其中

为输入样本矩阵，T表示转置操作，n为本地样本量，

为输入特征向量，M为全局模型总特征个数，样本的特征按顺序排列，不同特征可能存在空值，表示该样本的该特征不存在于该医疗机构，并且X中样本依特征的存在情况进行排序，例如，将医疗机构本地数据集中存在特征

而不存在其他特征的样本归为一组，将存在特征

而不存在其他特征的样本归为一组，以此类推；

为n个样本的诊断标签，

代表第i个样本的标签在该医疗机构不存在；

代表第i个样本的真实标签数据，在这里，

代表样本为阴性，

代表样本为阳性。

在一个实施例中，详细描述本发明基于的区块链框架。与传统的集中式数据库不同，区块链上数据可以分布在多个数据库或计算机节点上，各个节点均持有全局模型参数。区块链数据通过加密技术进行保护，在各个节点组网时建立信任连接，禁止节点的后续加入，以防止后续恶意节点对模型进行恶意攻击。在每一轮训练前，协调方负责收集竞争机制模块的信息素参数，得出下一轮训练的协调方作为最新协调方，并在区块链进行广播。最新协调方通过收集各节点的加密数据后进行相应的模型训练，训练完成后进行全局解密，最终进行链上全局模型广播，更新全局模型参数。其中具体的加密解密交由数据加密解密模块负责。

区块链中区块保存全局模型参数，以及每轮训练时的数据集密文，其中全局模型参数进行更新后可以暴露给每个参与节点，每个节点可以共享训练后的全局模型。

在一个实施例中，数据整合对齐及训练具体为：

对于各节点

，设节点

的本地数据集为

，且各节点的本地数据集总特征数为M，所有本地数据集中样本取并集后总数为N。

各节点依本地数据集特征分布情况进行批次划分，并将当前批次数据加密后上链。协调方在收到其他K-1个节点的加密数据后进行整合对齐，设其中第i批次整合后的数据集为

，数据集

中的样本数为

，且

。之后协调方进行第i批次的模型训练，将待训练模型的假设函数记为

，在训练过程中最终目标为最小化损失函数Loss

，对于一些复杂运算，可通过泰勒展开化简为一些基本运算，从而满足后续同态加密对密文进行运算的要求，由此可见，采用本方法进行适当化简后可以在保证安全的同时实现模型的有效训练。

以简单的三方逻辑回归模型为例，假设三方分别为节点

，对于全局样本，分别有特征

，特征

，特征

和标签y。三方分别根据本地数据集中样本的特征分布进行批次划分，并加密后交由协调方进行数据整合对齐。例如第一批次的1-5条样本的特征

和标签y在节点

，特征

在节点

，特征

在节点

，设此时节点

为协调方，这时节点

会收到来自于节点

和节点

的加密数据，并交由节点

进行整合对齐后用于模型训练。第二批次的6-10条样本的特征

和标签y在节点

，特征

在节点

，特征

在节点

，且此时节点

竞争为协调方，同理节点

将会对其他节点的加密数据进行整合对齐后用于模型训练。

设标签y的取值范围为{-1,1}，假设逻辑回归模型参数为

，因此可以令待训练模型的假设函数

，模型的输出值为

，x为特征变量，

分别为特征

的参数系数，b为偏置；基于最大似然估计，目标函数为最小化

，i表示第i个批次，j表示该批次数据集中第j 个样本，

表示第i个批次数据集中第j个样本，

，

分别表示样本

对应的特征

，

表示第j个样本的标签；对目标函数求对数不影响单调性，因此可替换为最小化

，由于后续同态加密算法不支持对数运算，因此对目标函数进行泰勒展开，可以得到：

令

，得到似然函数值L：

模型参数

的梯度函数为：

因此对于此模型，只要能够安全计算出模型参数的梯度函数，就能够完成模型的训练，且模型参数的梯度函数满足同态加密要求，能够做到在计算的同时保证数据安全性。

在一个实施例中，详细描述数据加密解密流程。为了保障在数据交换过程中既不暴露原始数据，又能够实现数据的计算，本发明引入同态加密。同态加密除了能实现基本的加密操作还能实现密文之间的多种计算。本发明通过采用基于MKFHE（Multi-key fullyHomomorphic Encryption，多秘钥全同态加密）的安全多方计算(Multi-Party Computing,MPC)，在进行数据加密的同时，实现各个节点对模型参数的权限控制。

以上文提到的简单逻辑回归模型为例，参与同态加密运算的三个节点为

，令运算函数f等于模型参数的梯度函数，即

，d为运算函数f的深度，安全参数为

，计算协议如下：

（1）参与计算的各节点运行初始化函数

，输入安全参数

以及函数深度d，得到公共参数p；

（2）各节点

根据公共参数p，执行秘钥生成函数

，生成各节点的公钥

、私钥

、扩展秘钥

、同态计算秘钥

；

各节点

执行加密函数

利用公钥

对节点的本地数据集

进行加密，得到密文

；

（3）设节点

为协调方，则节点

、

将加密的密文

上链传输到节点

，节点

在收到其他节点的密文之后，协调本地密文

执行相应运算函数f，从而产生同态加密后的密文

；

协调方计算得到密文

后，将密文

发送到所有参与计算的节点，进行全局解密，解密运算如下：

（1）各节点

执行中间解密函数

利用各自的私钥

对密文

进行解密，得到中间解密结果

（2）各节点

将各自的中间解密结果

通过区块链广播到协调方

，协调方在收到各个节点的中间解密结果后，执行最终解密函数

，输出最终解密结果

即全局模型参数梯度；

协调方

将全局模型参数梯度

进行上链，其他节点根据全局模型参数梯度

进行本地模型的梯度更新。

在一个实施例中，详细描述通过引入竞争机制来对区块链节点中的协调方进行动态调整的流程。由于医疗数据样本的特殊性，使得不同样本的特征分布存在较大差异，为了能够更加充分的利用各个节点的数据，所以各个节点的特征汇总不能是一成不变的，在此本发明引入竞争机制模块来对区块链节点中的协调方进行动态调整，能够充分利用医疗数据，同时避免单中心架构所带来的风险。

图4为普通纵向联邦学习数据对齐示意图，普通纵向联邦学习的数据对齐更多针对于特征分布比较固定的样本，以图4为例，虚线框内为对齐后的样本，只用到了样本患者3、患者4和患者5，但是样本患者1和患者2换一种对齐方式也是可以利用的，因此本发明通过对协调方进行动态调整从而可以更加充分的利用样本数据。

本发明对群体智能中的蚁群算法进行重新设计，将不同医疗机构的医疗数据视为蚂蚁，将协调方视为食物，交给不同医疗机构自动寻找数据更新的最优医疗机构作为协调方，实现样本特征的动态汇总，使得各个医疗机构具有自组织性，也进一步实现分布式控制。

令上文提到的模型参数的梯度函数

为

：

本发明将样本按照样本特征在不同节点

的分布情况进行分批，则各节点中第i 批次数据集的不同特征

对于梯度

的影响

为：

对于

，以特征

为例，

以特征

为例，

故当

计算公式如下：

当

计算公式如下：

其中标签y的存在也会对结果产生影响，每个节点计算所有特征对于梯度的贡献值

：

传统的蚁群算法主要是蚂蚁在走过的路径上留下信息素，使得其他蚂蚁可以根据信息素的浓度查找最优路径。相较于传统蚁群算法，本发明将贡献值

视为信息素，并将其更新到每一个节点，从而吸引其他节点的数据。

设一共有K个节点，对于第一批样本，全局模型参数先进行随机初始化，根据初始化的模型参数计算出

，则此时各个节点的信息素浓度

即为贡献值

。

（1）信息素浓度更新，在每一轮全局模型参数梯度更新完毕后，各节点

对自己的信息素浓度

进行更新，信息素浓度的更新公式如下：

其中

分别为当前批次和下一批次节点

的信息素浓度，

为下一批次节点

样本的贡献值，

为0或1，若当前批次节点

为协调方则

，否则

，目的是将当前批次节点

样本的贡献值

算作信息素浓度的影响因子，以表示节点

对其他节点的吸引力。

由于一般情况下，模型训练时长大于数据传输时长，因此在协调方进行模型训练时，其他区块链节点其实处于空闲状态，此时可由其他节点同样使用下一批次样本根据信息素浓度的更新公式计算下一批次的信息素浓度，从而竞争出下一批次的协调方，且提前进行加密数据的传输工作，从而做到在模型训练的同时完成下一批次数据的加密传输，从而提升模型训练效率。实际可以理解为，当所有蚂蚁涌向一个食物时造成路线拥堵，此时后续蚂蚁提前走向第二个食物也不失为一个好的选择。

与此同时，根据不同待训练模型，为信息素浓度设置不同阈值

，若节点

的某批次信息素浓度

大于阈值

，则该节点在下一批次将不再会竞争为协调方，可以缓解所有数据一致流向该节点

，容易给该节点造成过大负载。实际可以理解为，当过多蚂蚁涌向一个食物时，此时该处食物已不够后续蚂蚁分，因而走向其他食物。

（2）转移概率，各节点在进行信息素浓度更新后，本批次协调方自动选取信息素浓度最大的节点作为下一批次数据的流动方向，即协调方，如图5所示。信息素浓度

是在经过许多计算之后得出的结果，因此并不会携带原始的样本数据信息，故无需担心数据的隐私泄露问题。

在一个实施例中，详细描述模型梯度更新流程。当协调方通过各方的解密数据汇总解密后，得到全局模型参数梯度，协调方将全局模型参数梯度进行上链；由上文竞争机制模块可知，此时已竞争出下一批次协调方，因此，此时下一批次的非协调方无需再根据全局模型参数梯度进行本地模型的梯度更新，而只需下一批次的协调方根据链上的全局模型参数梯度进行本地模型的梯度更新，并以此来进行下一批次的模型训练；不排除有节点会连续作为协调方角色来参与训练，从而减少不必要的数据传输。

各医疗结构节点在本地训练的空闲，可以将链上的全局模型参数梯度保存到本地，进行本地模型的梯度更新，以免后续的节点挂机等意外情况的发生。与此同时，协调方需将更新后的信息素浓度进行下一批次的全局广播。

与前述基于竞争机制的区块链上医疗数据协同分析方法的实施例相对应，本发明还提供了基于竞争机制的区块链上医疗数据协同分析系统的实施例。

如图6所示，本发明实施例提供的基于竞争机制的区块链上医疗数据协同分析系统，包括数据预处理模块、区块链框架模块、联邦学习模块、数据加密解密模块、竞争机制模块和模型梯度更新模块。

本发明在保护数据隐私的同时为多中心医疗数据提供安全协同分析方法。对于样本特征分布不确定的医疗数据，能够对数据进行更好的利用。引入竞争机制的协同分析，能够减少大规模的数据传递，提高模型训练效率，拥有更多特征、更多样本、特征贡献更大、协调次数更多的节点更容易作为协调方。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中基于竞争机制的区块链上医疗数据协同分析方法中的步骤。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中基于竞争机制的区块链上医疗数据协同分析方法中的步骤。其中，存储介质可以为非易失性存储介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，所述发起方对于患者数据中身份信息唯一无歧义标识、身份信息有差异标识分别采用SHA-256、SimHash加密算法进行哈希散列；在患者身份信息转换为哈希值之后，为哈希值进行分组，依据识别患者强弱的程度授予不同权重；每个患者在本地对应一个作为患者身份标识的哈希值组。

3.根据权利要求2所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，所述患者匹配识别具体为：

4.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，S3中，参与方进行本地数据准备具体为：

各节点将待研究患者数据矩阵化为原始数据集

，其中

为输入样本矩阵，T表示转置操作，n为本地样本量，

为n个样本的诊断标签，

代表第i个样本的标签在该节点不存在；

代表第i个样本的真实标签数据。

5.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，所述贡献值的计算方法如下：计算各节点中当前批次本地数据的不同特征

对于全局模型参数梯度

的影响

。

6.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，S5中，采用基于多秘钥全同态加密的安全多方计算方法进行数据加密。

7.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，S6中，数据整合对齐及训练具体为：

对于各节点

，K为节点总数，设节点

的本地数据集为

，数据集

中的样本数为

，

；

，在训练过程中最终目标为最小化损失函数Loss

8.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，S8中，在每一批次全局模型参数梯度更新完毕后，各节点

更新信息素浓度

，K为节点总数，更新公式如下：

其中

分别为当前批次和下一批次节点

的信息素浓度，

为下一批次节点

样本的贡献值，

为当前批次节点

样本的贡献值，

为0或1，若当前批次节点

为协调方则

，否则

；

根据不同待训练模型，为信息素浓度设置不同阈值

，若节点

的某批次信息素浓度

大于阈值

，则该节点在下一批次将不会竞争为协调方。

9.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，当前批次协调方全局解密后，得到全局模型参数梯度并上链；此时已竞争出下一批次协调方，下一批次非协调方无需进行梯度更新，只需下一批次协调方根据链上的全局模型参数梯度进行本地模型的梯度更新，并以此来进行下一批次的模型训练；各节点在本地训练的空闲时间将链上的全局模型参数梯度保存到本地，进行本地模型的梯度更新。

10.一种实现如权利要求1-9中任一项所述方法的基于竞争机制的区块链上医疗数据协同分析系统，其特征在于，包括数据预处理模块、区块链框架模块、联邦学习模块、数据加密解密模块、竞争机制模块和模型梯度更新模块；