CN114912136A - 基于竞争机制的区块链上医疗数据协同分析方法及系统 - Google Patents

基于竞争机制的区块链上医疗数据协同分析方法及系统 Download PDF

Info

Publication number
CN114912136A
CN114912136A CN202210825830.2A CN202210825830A CN114912136A CN 114912136 A CN114912136 A CN 114912136A CN 202210825830 A CN202210825830 A CN 202210825830A CN 114912136 A CN114912136 A CN 114912136A
Authority
CN
China
Prior art keywords
data
node
local
patient
batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210825830.2A
Other languages
English (en)
Other versions
CN114912136B (zh
Inventor
李冠男
李劲松
陈松
陆遥
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210825830.2A priority Critical patent/CN114912136B/zh
Publication of CN114912136A publication Critical patent/CN114912136A/zh
Application granted granted Critical
Publication of CN114912136B publication Critical patent/CN114912136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于竞争机制的区块链上医疗数据协同分析方法及系统,本发明通过引入纵向联邦学习,实现了数据不出机构即可进行模型构建,解决了在线学习模型训练方向错误的问题,因而能够构建更为准确的医疗预测模型,对特征纵向分布的数据集进行了更好的利用。本发明通过引入竞争机制,不同节点将通过样本的数据特征贡献值计算出相应的权重,并以此来争抢数据汇总权和模型梯度更新权。本发明能够根据样本的特征分布对协调方进行调整,从而能够对特征分布不固定的数据集进行更好的利用。

Description

基于竞争机制的区块链上医疗数据协同分析方法及系统
技术领域
本发明属于医疗信息技术领域,尤其涉及一种基于竞争机制的区块链上医疗数据协同分析方法及系统。
背景技术
众所周知,海量医疗数据中蕴含着巨大的利用价值,对其进行分析挖掘可应用于疾病预测、辅助医疗诊断、个性化信息推荐、临床决策支持、用药模式挖掘等。然而,对于真实的临床数据,患者的就诊数据散落在不同医疗结构,且各个医疗机构之间患者数据的差异性较大,因此如何将多中心的医疗数据整合对齐、协同分析成为众多研究的方向,并且在数据安全访问和有效利用的同时需要保护数据的隐私性和安全性。然而在集中式的架构中会对患者的隐私、信任以及数据安全性带来挑战,从而使得分布式数据的对齐匹配、去中心化的数据利用及模型构建显得尤其重要。
越来越多的研究人员认为,区块链凭借着自己匿名性、稳健性、可追溯、去中心的特点,能够为医疗数据的隐私保护和数据协同分析提供新的方法。与传统的技术相比,区块链提供了更高的安全性。根据区块链的工作原理,应用程序仅是将数据作为区块存储在分布式的节点中,从而使黑客无法控制和修改这些记录。
近年来,机器学习和区块链技术的融合已经成为最为有效的隐私保护患者预测方案,目前也有一些研究已经在这方面做出努力。其中,与本发明所申明最相近的技术方案为:①区块链上学习,即通过在线机器学习和区块链相结合的方式,构建点对点的模型,为模型的数据提供保护。其中,Kuo和 Ohno-Machado提出将私有链和在线机器学习相结合,在整个训练过程中,各个医疗机构都在其他机构之间广播其模型参数,而非患者级别的数据,同时进一步提出GloreChain框架,采用批量学习算法来保证准确性,并利用新的共识算法规范每个机构的参与顺序;Kuo等人通过构建广义的点对点分布式预测模型来预测患者的预后,有助于增强系统安全性和稳健性,并为罕见病数据预测提出层次区块链框架;Chen,Wang和Yang等人设计了一个基于区块链的隐私保护机器学习框架,在区块链上实现去中心化随机梯度下降,并结合梯度延迟补偿方法来支持异步学习。②基于区块链的联邦学习(Blockchain-based Federated Learning,BFL)。目前该技术正受到越来越多人的关注,尚处于早期发展阶段,通常采用不同的BFL框架,来面向联邦学习中不同的痛点问题(如:单点故障、缺乏激励机制、投毒攻击)。其中,LI Y等人提出的BFLC框架,采用的是委员会共识机制,而非常见的工作量证明共识机制,使得部分节点可以参与模型更新,联邦学习效率显著提升;HIEU N Q等人通过引入深度强化学习,实现了最小化的系统时延,提高了区块生成速率。
现有技术以在线机器学习和区块链相结合的方式来在构建多中心模型的同时保证患者级别数据不出医院。但首先,实验大多将数据集按样本横向划分,而实际医疗数据更多是纵向数据乃至时序数据;其次,在线学习虽然可以做到实时反馈,但是运维成本也相对较高,且训练初期的细小误差可能会使模型走向完全错误的方向。
联邦学习在一定程度上解决了数据样本纵向分布的问题,但更多的是应用于特征分布较为确定的场景。由于患者就诊的不确定性,数据样本的特征分布也并不确定,不同的特征数据甚至标签数据的所在机构是随样本变化的,这也给多中心模型的构建带来了更大的挑战。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于竞争机制的区块链上医疗数据协同分析方法及系统,解决了以下技术问题:
1. 本发明通过引入纵向联邦学习,实现了数据不出机构即可进行模型构建,解决了在线学习模型训练方向错误的问题,因而能够构建更为准确的医疗预测模型,对特征纵向分布的数据集进行了更好的利用。
2. 本发明通过引入竞争机制,不同节点将通过样本的数据特征贡献值计算出相应的权重,并以此来争抢数据汇总权和模型梯度更新权。本发明能够根据样本的特征分布对协调方进行调整,从而能够对特征分布不固定的数据集进行更好的利用。
本发明的目的是通过以下技术方案实现的:
根据本说明书的第一方面,提供一种基于竞争机制的区块链上医疗数据协同分析方法,该方法包括以下步骤:
S1,各医疗机构作为区块链节点,作为发起方的医疗机构设定研究筛选条件,在本地生成患者队列,将患者队列中的患者身份信息通过哈希加密后上链;
S2,作为参与方的医疗机构接收到发起方广播的患者身份信息后,在本地进行患者匹配识别,将匹配出的本地患者的统计信息返回给发起方;
S3,发起方确认参与方返回的信息满足研究要求后,参与方进行本地数据准备;
S4,将全局模型参数进行随机初始化,各节点根据初始化参数计算本地数据所有特征对于全局模型的贡献值,将贡献值视为信息素浓度,根据蚁群算法得到初始协调方;
S5,各节点依据本地数据特征分布情况进行批次划分,并将当前批次数据进行同态加密后上链;
S6,协调方收到其他节点的加密数据后进行数据整合对齐,利用对齐后的加密数据进行当前批次的模型训练,将训练得到的密文上链;
S7,各节点根据链上密文进行本地解密,将解密结果广播到协调方,协调方收到各节点的本地解密结果后,进行全局解密得到全局模型参数梯度并上链;
S8,各节点根据链上全局模型参数梯度进行本地模型的梯度更新,并更新信息素浓度后广播到协调方;
S9,当前批次协调方根据各节点信息素浓度得到下一批次协调方并上链,完成当前批次的协同分析,返回S5进行下一批次的协同分析。
进一步地,所述发起方对于患者数据中身份信息唯一无歧义标识、身份信息有差异标识分别采用SHA-256、SimHash加密算法进行哈希散列;在患者身份信息转换为哈希值之后,为哈希值进行分组,依据识别患者强弱的程度授予不同权重;每个患者在本地对应一个作为患者身份标识的哈希值组。
进一步地,所述患者匹配识别具体为:
参与方将发起方广播的哈希值组与本地数据生成的哈希值组进行比对,采用字符串相似度计算方法,将发起方特定患者哈希值组中的项目与本地患者哈希值组中的对应项目进行计算排序,给予本地每个患者的每个项目相似度百分比;将本地患者哈希值组中的项目相似度进行加权求和,得到本地每个患者的相似度分数并与阈值比较,判断是否匹配成功,将匹配成功后相似度分数最高的本地患者的统计信息返回给发起方。
进一步地,S3中,参与方进行本地数据准备具体为:
各节点将待研究患者数据矩阵化为原始数据集
Figure 895753DEST_PATH_IMAGE001
,其中
Figure 554268DEST_PATH_IMAGE002
为输入样本矩阵,T表示转置操作,n为本地样本量,
Figure 719670DEST_PATH_IMAGE003
为输入特征向量,M为 全局模型总特征个数,样本的特征按顺序排列,并且X中样本依特征的存在情况进行排序;
Figure 754622DEST_PATH_IMAGE004
n个样本的诊断标签,
Figure 761018DEST_PATH_IMAGE005
代表第i个样本的标 签在该节点不存在;
Figure 590433DEST_PATH_IMAGE006
代表第i个样本的真实标签数据。
进一步地,所述贡献值的计算方法如下:计算各节点中当前批次本地数据的不同 特征
Figure 446394DEST_PATH_IMAGE007
对于全局模型参数梯度
Figure 81774DEST_PATH_IMAGE008
的影响
Figure 441212DEST_PATH_IMAGE009
M为全局模型总特征个数,各节点 计算所有特征对于全局模型的贡献值
Figure 441529DEST_PATH_IMAGE010
进一步地,S5中,采用基于多秘钥全同态加密的安全多方计算方法进行数据加密。
进一步地,S6中,数据整合对齐及训练具体为:
对于各节点
Figure 519206DEST_PATH_IMAGE011
K为节点总数,设节点
Figure 958278DEST_PATH_IMAGE012
的本地数据集为
Figure 437801DEST_PATH_IMAGE013
,且各节点的 本地数据集总特征数为M,所有本地数据集中样本取并集后总数为N
协调方在收到其他K-1个节点的加密数据后进行数据整合对齐,设第i批次整合对 齐后的数据集为
Figure 874598DEST_PATH_IMAGE014
,数据集
Figure 672528DEST_PATH_IMAGE014
中的样本数为
Figure 649711DEST_PATH_IMAGE015
Figure 983740DEST_PATH_IMAGE016
之后协调方进行第i批次的模型训练,将待训练模型的假设函数记为
Figure 325860DEST_PATH_IMAGE017
,在训练 过程中最终目标为最小化损失函数Loss
Figure 378130DEST_PATH_IMAGE018
,并将复杂运算通过泰勒展开化简为满足同态 加密对密文运算要求的基本运算,训练得到密文。
进一步地,S8中,在每一批次全局模型参数梯度更新完毕后,各节点
Figure 96687DEST_PATH_IMAGE019
更 新信息素浓度
Figure 347540DEST_PATH_IMAGE020
K为节点总数,更新公式如下:
Figure 126140DEST_PATH_IMAGE021
其中
Figure 400126DEST_PATH_IMAGE022
分别为当前批次和下一批次节点
Figure 922374DEST_PATH_IMAGE023
的信息素浓度,
Figure 732461DEST_PATH_IMAGE024
为下一批次节点
Figure 478700DEST_PATH_IMAGE023
样本的贡献值,
Figure 239983DEST_PATH_IMAGE025
为当前批次节点
Figure 300343DEST_PATH_IMAGE026
样本的贡献值,
Figure 463471DEST_PATH_IMAGE027
为0或1,若当前批次节点
Figure 380611DEST_PATH_IMAGE028
为协调 方则
Figure 894769DEST_PATH_IMAGE029
,否则
Figure 493241DEST_PATH_IMAGE030
在协调方进行模型训练时,其他节点处于空闲状态,此时由其他节点使用下一批次样本计算下一批次信息素浓度,从而竞争出下一批次协调方,且提前进行加密数据的传输工作;
根据不同待训练模型,为信息素浓度设置不同阈值
Figure 510875DEST_PATH_IMAGE031
,若节点
Figure 67758DEST_PATH_IMAGE032
的某批次信息素浓 度
Figure 600371DEST_PATH_IMAGE033
大于阈值
Figure 766648DEST_PATH_IMAGE031
,则该节点在下一批次将不会竞争为协调方。
进一步地,当前批次协调方全局解密后,得到全局模型参数梯度并上链;此时已竞争出下一批次协调方,下一批次非协调方无需进行梯度更新,只需下一批次协调方根据链上的全局模型参数梯度进行本地模型的梯度更新,并以此来进行下一批次的模型训练;各节点在本地训练的空闲时间将链上的全局模型参数梯度保存到本地,进行本地模型的梯度更新。
根据本说明书的第二方面,提供一种基于竞争机制的区块链上医疗数据协同分析系统,该系统包括数据预处理模块、区块链框架模块、联邦学习模块、数据加密解密模块、竞争机制模块和模型梯度更新模块;
数据预处理模块,用于对多中心的异构医疗数据进行处理统一,以及负责将不同中心的指定数据进行脱敏统计;
区块链框架模块,为系统提供底层支持及可信任的保障,为数据提供隐私保护;
联邦学习模块,运行在竞争出的协调方,负责对多中心的医疗数据进行协同分析以及模型构建;
数据加密解密模块,负责将本地需要传输到协调方的数据进行加密,以及对最终的模型参数进行联合解密;
竞争机制模块,负责根据不同节点的样本特征计算出不同节点的信息素浓度,以此来竞争出多个节点中的协调方;
模型梯度更新模块,在一个批次样本计算完成后,负责将更新后的全局模型通过区块链广播到全局,从而进行下一个批次的更新。
根据本说明书的第三方面,提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于竞争机制的区块链上医疗数据协同分析方法中的步骤。
根据本说明书的第四方面,提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于竞争机制的区块链上医疗数据协同分析方法中的步骤。
本发明的有益效果是:
1. 现有的将在线学习和区块链相结合的技术方案,模型训练存在偶然性,数据利用存在局限性;本发明通过引入纵向联邦学习,能够对纵向分布的数据进行更好的利用,采用批次训练的方式,保证模型训练的质量。
2. 现有协同分析框架大多面向固定分布的数据集,对于特征分布不固定的医疗数据,普适性较弱;本发明可以根据医疗数据的特征分布进行动态竞争调整,将分布不确定的数据充分利用,具有较强普适性。
附图说明
图1为一示例性实施例提供的区块链上医疗数据协同分析方法流程图。
图2为一示例性实施例提供的区块链上医疗数据协同分析框架示意图。
图3为一示例性实施例提供的基于哈希值的患者匹配识别流程图。
图4为一示例性实施例提供的普通纵向联邦学习数据对齐示意图。
图5为一示例性实施例提供的竞争机制示意图。
图6为一示例性实施例提供的区块链上医疗数据协同分析系统结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明提供一种基于竞争机制的区块链上医疗数据协同分析方法,如图1、图2所示,该方法包括以下步骤:
S1,各医疗机构作为区块链节点,作为发起方的医疗机构设定研究筛选条件,在本地生成患者队列,将患者队列中的患者身份信息通过哈希加密后上链;
S2,作为参与方的医疗机构接收到发起方广播的患者身份信息后,在本地进行患者匹配识别,将匹配出的本地患者的统计信息返回给发起方;
S3,发起方确认参与方返回的信息满足研究要求后,参与方进行本地数据准备;
S4,将全局模型参数进行随机初始化,各节点根据初始化参数计算本地数据所有特征对于全局模型的贡献值,将贡献值视为信息素浓度,根据蚁群算法得到初始协调方;
S5,各节点依据本地数据特征分布情况进行批次划分,并将当前批次数据进行同态加密后上链;
S6,协调方收到其他节点的加密数据后进行数据整合对齐,利用对齐后的加密数据进行当前批次的模型训练,将训练得到的密文上链;
S7,各节点根据链上密文进行本地解密,将解密结果广播到协调方,协调方收到各节点的本地解密结果后,进行全局解密得到全局模型参数梯度并上链;
S8,各节点根据链上全局模型参数梯度进行本地模型的梯度更新,并更新信息素浓度后广播到协调方;
S9,当前批次协调方根据各节点信息素浓度得到下一批次协调方并上链,完成当前批次的协同分析,返回S5进行下一批次的协同分析。
下述说明进一步给出了符合本申请要求的基于竞争机制的区块链上医疗数据协同分析方法实现的部分实施例。
S1-S3为数据预处理部分,在一个实施例中,包括如下步骤:
将各医疗机构作为区块链的不同节点,将节点数记为K
某医疗机构的研究人员设定研究筛选条件,包括指定特征、患者、患病情况等,以此在本地生成患者队列,该医疗机构节点作为发起方将患者队列中的患者身份信息通过哈希加密后在区块链进行广播。
区块链上其他节点接收到发起方广播的患者身份信息后,在本地数据库进行样本数据的筛选统计并进行回馈,以供发起方研究人员评估样本质量。
发起方对于患者身份信息的不同部分,结合SHA-256和SimHash两种加密算法进行哈希散列,做到将原始数据和哈希值一一对应且不能从哈希值反推回原始数据。具体为:对于患者数据中身份信息唯一无歧义标识,采用SHA-256加密算法进行哈希散列;对于患者数据中身份信息有差异标识,采用SimHash加密算法进行哈希散列。在患者身份信息分别转换为对应哈希值之后,为这些哈希值进行分组,依据识别患者强弱的程度授予一定的权重系数,例如对于唯一无歧义标识赋予高权重;对于性别、年龄等辅助信息赋予较低权重。进行过哈希生成与权重赋予后,每个患者在本地对应一组有权重差别的哈希值,这一哈希值组即为患者的身份标识,发起方将哈希值组在区块链进行广播,用于进行患者匹配识别。
基于哈希值的患者匹配识别流程如图3所示。患者匹配识别包含相似度计算和阈值判别。其他医疗机构节点会将发起方广播的哈希值组与本地患者数据生成的哈希值组进行比对,采用字符串相似度计算方法,将发起方特定患者哈希值组中的项目与本地患者哈希值组中的对应项目进行计算排序,依据排序给予本地每个患者的每个项目相似度百分比。将本地患者哈希值组中的项目权重乘以项目相似度百分比并求和后,得到本地每个患者的相似度分数,将相似度分数与阈值比较,判断是否匹配成功,将匹配成功后相似度分数最高的本地患者的统计信息返回给发起方。采用基于哈希的匹配算法,可以在保证效率的同时避免患者身份信息的暴露。
发起方确认各节点返回的本地患者的统计信息满足研究要求后,各医疗机构节点 进行本地数据准备,具体为:各医疗机构节点将待研究患者数据矩阵化为原始数据集
Figure 373210DEST_PATH_IMAGE001
,其中
Figure 100994DEST_PATH_IMAGE034
为输入样本矩阵,T表示转置操作,n为本地样本量,
Figure 324165DEST_PATH_IMAGE035
为输入特征向量,M为全局模型总特征个数,样本的特征按顺序排列,不 同特征可能存在空值,表示该样本的该特征不存在于该医疗机构,并且X中样本依特征的存 在情况进行排序,例如,将医疗机构本地数据集中存在特征
Figure 326756DEST_PATH_IMAGE036
而不存在其他特征的样本 归为一组,将存在特征
Figure 318983DEST_PATH_IMAGE037
而不存在其他特征的样本归为一组,以此类推;
Figure 952090DEST_PATH_IMAGE038
n个样本的诊断标签,
Figure 396977DEST_PATH_IMAGE005
代表第i个样本的标签在该医 疗机构不存在;
Figure 203259DEST_PATH_IMAGE006
代表第i个样本的真实标签数据,在这里,
Figure 49993DEST_PATH_IMAGE039
代表样本为阴性,
Figure 355466DEST_PATH_IMAGE040
代表样本为阳性。
在一个实施例中,详细描述本发明基于的区块链框架。与传统的集中式数据库不同,区块链上数据可以分布在多个数据库或计算机节点上,各个节点均持有全局模型参数。区块链数据通过加密技术进行保护,在各个节点组网时建立信任连接,禁止节点的后续加入,以防止后续恶意节点对模型进行恶意攻击。在每一轮训练前,协调方负责收集竞争机制模块的信息素参数,得出下一轮训练的协调方作为最新协调方,并在区块链进行广播。最新协调方通过收集各节点的加密数据后进行相应的模型训练,训练完成后进行全局解密,最终进行链上全局模型广播,更新全局模型参数。其中具体的加密解密交由数据加密解密模块负责。
区块链中区块保存全局模型参数,以及每轮训练时的数据集密文,其中全局模型参数进行更新后可以暴露给每个参与节点,每个节点可以共享训练后的全局模型。
在一个实施例中,数据整合对齐及训练具体为:
对于各节点
Figure 553229DEST_PATH_IMAGE041
,设节点
Figure 897622DEST_PATH_IMAGE042
的本地数据集为
Figure 864441DEST_PATH_IMAGE013
,且各节点的本地数据集总 特征数为M,所有本地数据集中样本取并集后总数为N
各节点依本地数据集特征分布情况进行批次划分,并将当前批次数据加密后上 链。协调方在收到其他K-1个节点的加密数据后进行整合对齐,设其中第i批次整合后的数 据集为
Figure 573771DEST_PATH_IMAGE014
,数据集
Figure 258831DEST_PATH_IMAGE014
中的样本数为
Figure 406915DEST_PATH_IMAGE015
,且
Figure 228241DEST_PATH_IMAGE016
。之后协调方进行第i批次的模型训练,将 待训练模型的假设函数记为
Figure 374051DEST_PATH_IMAGE043
,在训练过程中最终目标为最小化损失函数Loss
Figure 280827DEST_PATH_IMAGE044
,对 于一些复杂运算,可通过泰勒展开化简为一些基本运算,从而满足后续同态加密对密文进 行运算的要求,由此可见,采用本方法进行适当化简后可以在保证安全的同时实现模型的 有效训练。
以简单的三方逻辑回归模型为例,假设三方分别为节点
Figure 967024DEST_PATH_IMAGE045
,对于全局样 本,分别有特征
Figure 406970DEST_PATH_IMAGE046
,特征
Figure 458103DEST_PATH_IMAGE047
,特征
Figure 852175DEST_PATH_IMAGE048
和标签y。三方分别根据本地数据集中样本的特征分布 进行批次划分,并加密后交由协调方进行数据整合对齐。例如第一批次的1-5条样本的特征
Figure 342062DEST_PATH_IMAGE049
和标签y在节点
Figure 137980DEST_PATH_IMAGE050
,特征
Figure 891172DEST_PATH_IMAGE047
在节点
Figure 506961DEST_PATH_IMAGE051
,特征
Figure 534960DEST_PATH_IMAGE048
在节点
Figure 185384DEST_PATH_IMAGE052
,设此时节点
Figure 843899DEST_PATH_IMAGE050
为协调方,这时节点
Figure 725747DEST_PATH_IMAGE050
会收到来自于节点
Figure 760699DEST_PATH_IMAGE051
和节点
Figure 62367DEST_PATH_IMAGE052
的加密数据,并交由节点
Figure 157362DEST_PATH_IMAGE050
进行整合对齐后用于模型训练。 第二批次的6-10条样本的特征
Figure 747743DEST_PATH_IMAGE046
和标签y在节点
Figure 320807DEST_PATH_IMAGE053
,特征
Figure 742561DEST_PATH_IMAGE047
在节点
Figure 8458DEST_PATH_IMAGE052
,特征
Figure 86135DEST_PATH_IMAGE048
在节点
Figure 462890DEST_PATH_IMAGE050
,且 此时节点
Figure 440948DEST_PATH_IMAGE053
竞争为协调方,同理节点
Figure 877745DEST_PATH_IMAGE053
将会对其他节点的加密数据进行整合对齐后用于模 型训练。
设标签y的取值范围为{-1,1},假设逻辑回归模型参数为
Figure 239456DEST_PATH_IMAGE054
,因此可以令待训练模 型的假设函数
Figure 154323DEST_PATH_IMAGE055
,模型的输出值为
Figure 488352DEST_PATH_IMAGE056
x为特征变量,
Figure 96051DEST_PATH_IMAGE057
分别为特征
Figure 945058DEST_PATH_IMAGE058
的参数系数,b为偏置;基于最大似然估计,目 标函数为最小化
Figure 663616DEST_PATH_IMAGE059
i表示第i个批次,j表示该批次数据集中第j 个样本,
Figure 852152DEST_PATH_IMAGE060
表示第i个批次数据集中第j个样本,
Figure 630752DEST_PATH_IMAGE061
Figure 967055DEST_PATH_IMAGE062
分别表示样本
Figure 990768DEST_PATH_IMAGE063
对应的特征
Figure 299390DEST_PATH_IMAGE064
Figure 983312DEST_PATH_IMAGE065
表示第j个样本的标签;对目标函数求对数不影响单调性,因此可 替换为最小化
Figure 744595DEST_PATH_IMAGE066
,由于后续同态加密算法不支持对数运算,因此对目标函 数进行泰勒展开,可以得到:
Figure 867271DEST_PATH_IMAGE067
Figure 30400DEST_PATH_IMAGE068
,得到似然函数值L:
Figure 885223DEST_PATH_IMAGE069
模型参数
Figure 399381DEST_PATH_IMAGE070
的梯度函数为:
Figure 60169DEST_PATH_IMAGE071
因此对于此模型,只要能够安全计算出模型参数的梯度函数,就能够完成模型的训练,且模型参数的梯度函数满足同态加密要求,能够做到在计算的同时保证数据安全性。
在一个实施例中,详细描述数据加密解密流程。为了保障在数据交换过程中既不暴露原始数据,又能够实现数据的计算,本发明引入同态加密。同态加密除了能实现基本的加密操作还能实现密文之间的多种计算。本发明通过采用基于MKFHE(Multi-key fullyHomomorphic Encryption,多秘钥全同态加密)的安全多方计算(Multi-Party Computing,MPC),在进行数据加密的同时,实现各个节点对模型参数的权限控制。
以上文提到的简单逻辑回归模型为例,参与同态加密运算的三个节点为
Figure 77804DEST_PATH_IMAGE072
,令运算函数f等于模型参数的梯度函数,即
Figure 867643DEST_PATH_IMAGE073
,d为运算函数f的深度,安全 参数为
Figure 603518DEST_PATH_IMAGE074
,计算协议如下:
(1)参与计算的各节点运行初始化函数
Figure 802418DEST_PATH_IMAGE075
,输入安全参数
Figure 940139DEST_PATH_IMAGE074
以及 函数深度d,得到公共参数p
(2)各节点
Figure 667923DEST_PATH_IMAGE076
根据公共参数p,执行秘钥生成函数
Figure 359936DEST_PATH_IMAGE077
,生成各节点的 公钥
Figure 831368DEST_PATH_IMAGE078
、私钥
Figure 620333DEST_PATH_IMAGE079
、扩展秘钥
Figure 253439DEST_PATH_IMAGE080
、同态计算秘钥
Figure 698327DEST_PATH_IMAGE081
Figure 209336DEST_PATH_IMAGE082
各节点
Figure 56070DEST_PATH_IMAGE076
执行加密函数
Figure 922394DEST_PATH_IMAGE083
利用公钥
Figure 588999DEST_PATH_IMAGE078
对节点的本地数据集
Figure 402234DEST_PATH_IMAGE084
进行 加密,得到密文
Figure 369053DEST_PATH_IMAGE085
Figure 140700DEST_PATH_IMAGE086
(3)设节点
Figure 560180DEST_PATH_IMAGE087
为协调方,则节点
Figure 911527DEST_PATH_IMAGE088
Figure 732853DEST_PATH_IMAGE089
将加密的密文
Figure 675401DEST_PATH_IMAGE090
上链传输到节点
Figure 80712DEST_PATH_IMAGE091
,节点
Figure 235750DEST_PATH_IMAGE092
在收到其他节点的密文之后,协调本地密文
Figure 646003DEST_PATH_IMAGE093
执行相应运算函数f,从而产生同态加密后 的密文
Figure 228294DEST_PATH_IMAGE094
协调方计算得到密文
Figure 419104DEST_PATH_IMAGE094
后,将密文
Figure 112253DEST_PATH_IMAGE094
发送到所有参与计算的节点,进行全局 解密,解密运算如下:
(1)各节点
Figure 642592DEST_PATH_IMAGE095
执行中间解密函数
Figure 395784DEST_PATH_IMAGE096
利用各自的私钥
Figure 808311DEST_PATH_IMAGE097
对密文
Figure 305151DEST_PATH_IMAGE098
进行解密,得到中间解密结果
Figure 457040DEST_PATH_IMAGE099
Figure 381134DEST_PATH_IMAGE100
(2)各节点
Figure 484219DEST_PATH_IMAGE095
将各自的中间解密结果
Figure 519171DEST_PATH_IMAGE099
通过区块链广播到协调方
Figure 820840DEST_PATH_IMAGE101
,协调方在收 到各个节点的中间解密结果后,执行最终解密函数
Figure 915835DEST_PATH_IMAGE102
,输出最终解密结果
Figure 240637DEST_PATH_IMAGE103
即 全局模型参数梯度;
Figure 79280DEST_PATH_IMAGE104
协调方
Figure 501034DEST_PATH_IMAGE101
将全局模型参数梯度
Figure 766930DEST_PATH_IMAGE103
进行上链,其他节点根据全局模型参数梯度
Figure 343143DEST_PATH_IMAGE103
进行 本地模型的梯度更新。
在一个实施例中,详细描述通过引入竞争机制来对区块链节点中的协调方进行动态调整的流程。由于医疗数据样本的特殊性,使得不同样本的特征分布存在较大差异,为了能够更加充分的利用各个节点的数据,所以各个节点的特征汇总不能是一成不变的,在此本发明引入竞争机制模块来对区块链节点中的协调方进行动态调整,能够充分利用医疗数据,同时避免单中心架构所带来的风险。
图4为普通纵向联邦学习数据对齐示意图,普通纵向联邦学习的数据对齐更多针对于特征分布比较固定的样本,以图4为例,虚线框内为对齐后的样本,只用到了样本患者3、患者4和患者5,但是样本患者1和患者2换一种对齐方式也是可以利用的,因此本发明通过对协调方进行动态调整从而可以更加充分的利用样本数据。
本发明对群体智能中的蚁群算法进行重新设计,将不同医疗机构的医疗数据视为蚂蚁,将协调方视为食物,交给不同医疗机构自动寻找数据更新的最优医疗机构作为协调方,实现样本特征的动态汇总,使得各个医疗机构具有自组织性,也进一步实现分布式控制。
令上文提到的模型参数的梯度函数
Figure 454318DEST_PATH_IMAGE105
Figure 730579DEST_PATH_IMAGE106
Figure 167376DEST_PATH_IMAGE107
本发明将样本按照样本特征在不同节点
Figure 732350DEST_PATH_IMAGE108
的分布情况进行分批,则各节点中第i 批次数据集的不同特征
Figure 647216DEST_PATH_IMAGE109
对于梯度
Figure 246825DEST_PATH_IMAGE110
的影响
Figure 854524DEST_PATH_IMAGE111
为:
对于
Figure 437952DEST_PATH_IMAGE112
,以特征
Figure 422088DEST_PATH_IMAGE113
为例,
Figure 100370DEST_PATH_IMAGE114
以特征
Figure 878970DEST_PATH_IMAGE115
为例,
Figure 949694DEST_PATH_IMAGE116
故当
Figure 471943DEST_PATH_IMAGE117
计算公式如下:
Figure 514985DEST_PATH_IMAGE118
Figure 464486DEST_PATH_IMAGE119
计算公式如下:
Figure 288086DEST_PATH_IMAGE120
其中标签y的存在也会对结果产生影响,每个节点计算所有特征对于梯度的贡献 值
Figure 348446DEST_PATH_IMAGE121
Figure 777153DEST_PATH_IMAGE122
传统的蚁群算法主要是蚂蚁在走过的路径上留下信息素,使得其他蚂蚁可以根据 信息素的浓度查找最优路径。相较于传统蚁群算法,本发明将贡献值
Figure 631977DEST_PATH_IMAGE123
视为信息素,并将其 更新到每一个节点,从而吸引其他节点的数据。
设一共有K个节点,对于第一批样本,全局模型参数先进行随机初始化,根据初始 化的模型参数计算出
Figure 379091DEST_PATH_IMAGE124
,则此时各个节点的信息素浓度
Figure 39879DEST_PATH_IMAGE125
即为贡献值
Figure 323093DEST_PATH_IMAGE126
(1)信息素浓度更新,在每一轮全局模型参数梯度更新完毕后,各节点
Figure 348818DEST_PATH_IMAGE127
对自己的 信息素浓度
Figure 84693DEST_PATH_IMAGE127
进行更新,信息素浓度的更新公式如下:
Figure 549172DEST_PATH_IMAGE128
其中
Figure 686892DEST_PATH_IMAGE129
分别为当前批次和下一批次节点
Figure 883518DEST_PATH_IMAGE127
的信息素浓度,
Figure 106689DEST_PATH_IMAGE130
为下一批次节点
Figure 374860DEST_PATH_IMAGE127
样本的贡献值,
Figure 367086DEST_PATH_IMAGE131
为0或1,若当前批次节点
Figure 236079DEST_PATH_IMAGE127
为协调方则
Figure 946546DEST_PATH_IMAGE132
,否则
Figure 752828DEST_PATH_IMAGE133
,目的是将当前批 次节点
Figure 599561DEST_PATH_IMAGE134
样本的贡献值
Figure 403569DEST_PATH_IMAGE135
算作信息素浓度的影响因子,以表示节点
Figure 335753DEST_PATH_IMAGE127
对其他节点的吸引力。
由于一般情况下,模型训练时长大于数据传输时长,因此在协调方进行模型训练时,其他区块链节点其实处于空闲状态,此时可由其他节点同样使用下一批次样本根据信息素浓度的更新公式计算下一批次的信息素浓度,从而竞争出下一批次的协调方,且提前进行加密数据的传输工作,从而做到在模型训练的同时完成下一批次数据的加密传输,从而提升模型训练效率。实际可以理解为,当所有蚂蚁涌向一个食物时造成路线拥堵,此时后续蚂蚁提前走向第二个食物也不失为一个好的选择。
与此同时,根据不同待训练模型,为信息素浓度设置不同阈值
Figure 945726DEST_PATH_IMAGE136
,若节点
Figure 646965DEST_PATH_IMAGE137
的某批 次信息素浓度
Figure 887454DEST_PATH_IMAGE138
大于阈值
Figure 41355DEST_PATH_IMAGE139
,则该节点在下一批次将不再会竞争为协调方,可以缓解所有数 据一致流向该节点
Figure 891237DEST_PATH_IMAGE137
,容易给该节点造成过大负载。实际可以理解为,当过多蚂蚁涌向一个 食物时,此时该处食物已不够后续蚂蚁分,因而走向其他食物。
(2)转移概率,各节点在进行信息素浓度更新后,本批次协调方自动选取信息素浓 度最大的节点作为下一批次数据的流动方向,即协调方,如图5所示。信息素浓度
Figure 509300DEST_PATH_IMAGE138
是在经 过许多计算之后得出的结果,因此并不会携带原始的样本数据信息,故无需担心数据的隐 私泄露问题。
在一个实施例中,详细描述模型梯度更新流程。当协调方通过各方的解密数据汇总解密后,得到全局模型参数梯度,协调方将全局模型参数梯度进行上链;由上文竞争机制模块可知,此时已竞争出下一批次协调方,因此,此时下一批次的非协调方无需再根据全局模型参数梯度进行本地模型的梯度更新,而只需下一批次的协调方根据链上的全局模型参数梯度进行本地模型的梯度更新,并以此来进行下一批次的模型训练;不排除有节点会连续作为协调方角色来参与训练,从而减少不必要的数据传输。
各医疗结构节点在本地训练的空闲,可以将链上的全局模型参数梯度保存到本地,进行本地模型的梯度更新,以免后续的节点挂机等意外情况的发生。与此同时,协调方需将更新后的信息素浓度进行下一批次的全局广播。
与前述基于竞争机制的区块链上医疗数据协同分析方法的实施例相对应,本发明还提供了基于竞争机制的区块链上医疗数据协同分析系统的实施例。
如图6所示,本发明实施例提供的基于竞争机制的区块链上医疗数据协同分析系统,包括数据预处理模块、区块链框架模块、联邦学习模块、数据加密解密模块、竞争机制模块和模型梯度更新模块。
数据预处理模块,用于对多中心的异构医疗数据进行处理统一,以及负责将不同中心的指定数据进行脱敏统计;
区块链框架模块,为系统提供底层支持及可信任的保障,为数据提供隐私保护;
联邦学习模块,运行在竞争出的协调方,负责对多中心的医疗数据进行协同分析以及模型构建;
数据加密解密模块,负责将本地需要传输到协调方的数据进行加密,以及对最终的模型参数进行联合解密;
竞争机制模块,负责根据不同节点的样本特征计算出不同节点的信息素浓度,以此来竞争出多个节点中的协调方;
模型梯度更新模块,在一个批次样本计算完成后,负责将更新后的全局模型通过区块链广播到全局,从而进行下一个批次的更新。
本发明在保护数据隐私的同时为多中心医疗数据提供安全协同分析方法。对于样本特征分布不确定的医疗数据,能够对数据进行更好的利用。引入竞争机制的协同分析,能够减少大规模的数据传递,提高模型训练效率,拥有更多特征、更多样本、特征贡献更大、协调次数更多的节点更容易作为协调方。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中基于竞争机制的区块链上医疗数据协同分析方法中的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中基于竞争机制的区块链上医疗数据协同分析方法中的步骤。其中,存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (10)

1.一种基于竞争机制的区块链上医疗数据协同分析方法,其特征在于,包括以下步骤:
S1,各医疗机构作为区块链节点,作为发起方的医疗机构设定研究筛选条件,在本地生成患者队列,将患者队列中的患者身份信息通过哈希加密后上链;
S2,作为参与方的医疗机构接收到发起方广播的患者身份信息后,在本地进行患者匹配识别,将匹配出的本地患者的统计信息返回给发起方;
S3,发起方确认参与方返回的信息满足研究要求后,参与方进行本地数据准备;
S4,将全局模型参数进行随机初始化,各节点根据初始化参数计算本地数据所有特征对于全局模型的贡献值,将贡献值视为信息素浓度,根据蚁群算法得到初始协调方;
S5,各节点依据本地数据特征分布情况进行批次划分,并将当前批次数据进行同态加密后上链;
S6,协调方收到其他节点的加密数据后进行数据整合对齐,利用对齐后的加密数据进行当前批次的模型训练,将训练得到的密文上链;
S7,各节点根据链上密文进行本地解密,将解密结果广播到协调方,协调方收到各节点的本地解密结果后,进行全局解密得到全局模型参数梯度并上链;
S8,各节点根据链上全局模型参数梯度进行本地模型的梯度更新,并更新信息素浓度后广播到协调方;
S9,当前批次协调方根据各节点信息素浓度得到下一批次协调方并上链,完成当前批次的协同分析,返回S5进行下一批次的协同分析。
2.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法,其特征在于,所述发起方对于患者数据中身份信息唯一无歧义标识、身份信息有差异标识分别采用SHA-256、SimHash加密算法进行哈希散列;在患者身份信息转换为哈希值之后,为哈希值进行分组,依据识别患者强弱的程度授予不同权重;每个患者在本地对应一个作为患者身份标识的哈希值组。
3.根据权利要求2所述的基于竞争机制的区块链上医疗数据协同分析方法,其特征在于,所述患者匹配识别具体为:
参与方将发起方广播的哈希值组与本地数据生成的哈希值组进行比对,采用字符串相似度计算方法,将发起方特定患者哈希值组中的项目与本地患者哈希值组中的对应项目进行计算排序,给予本地每个患者的每个项目相似度百分比;将本地患者哈希值组中的项目相似度进行加权求和,得到本地每个患者的相似度分数并与阈值比较,判断是否匹配成功,将匹配成功后相似度分数最高的本地患者的统计信息返回给发起方。
4.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法,其特征在于,S3中,参与方进行本地数据准备具体为:
各节点将待研究患者数据矩阵化为原始数据集
Figure 925869DEST_PATH_IMAGE001
,其中
Figure 16578DEST_PATH_IMAGE002
为输 入样本矩阵,T表示转置操作,n为本地样本量,
Figure 530736DEST_PATH_IMAGE003
为输入特征向量,M为全局 模型总特征个数,样本的特征按顺序排列,并且X中样本依特征的存在情况进行排序;
Figure 394787DEST_PATH_IMAGE004
n个样本的诊断标签,
Figure 678001DEST_PATH_IMAGE005
代表第i个样本的标签在该 节点不存在;
Figure 969305DEST_PATH_IMAGE006
代表第i个样本的真实标签数据。
5.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法,其特征在 于,所述贡献值的计算方法如下:计算各节点中当前批次本地数据的不同特征
Figure 705180DEST_PATH_IMAGE007
对于全局 模型参数梯度
Figure 372921DEST_PATH_IMAGE008
的影响
Figure 245063DEST_PATH_IMAGE009
M为全局模型总特征个数,各节点计算所有特征对 于全局模型的贡献值
Figure 205803DEST_PATH_IMAGE010
6.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法,其特征在于,S5中,采用基于多秘钥全同态加密的安全多方计算方法进行数据加密。
7.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法,其特征在于,S6中,数据整合对齐及训练具体为:
对于各节点
Figure 225712DEST_PATH_IMAGE011
K为节点总数,设节点
Figure 431565DEST_PATH_IMAGE012
的本地数据集为
Figure 423792DEST_PATH_IMAGE013
,且各节点的本地 数据集总特征数为M,所有本地数据集中样本取并集后总数为N
协调方在收到其他K-1个节点的加密数据后进行数据整合对齐,设第i批次整合对齐后 的数据集为
Figure 56898DEST_PATH_IMAGE014
,数据集
Figure 767366DEST_PATH_IMAGE014
中的样本数为
Figure 308068DEST_PATH_IMAGE015
Figure 420381DEST_PATH_IMAGE016
之后协调方进行第i批次的模型训练,将待训练模型的假设函数记为
Figure 224389DEST_PATH_IMAGE017
,在训练过程 中最终目标为最小化损失函数Loss
Figure 156573DEST_PATH_IMAGE018
,并将复杂运算通过泰勒展开化简为满足同态加密 对密文运算要求的基本运算,训练得到密文。
8.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法,其特征在 于,S8中,在每一批次全局模型参数梯度更新完毕后,各节点
Figure 193975DEST_PATH_IMAGE019
更新信息素浓度
Figure 160794DEST_PATH_IMAGE020
K为节点总数,更新公式如下:
Figure 198020DEST_PATH_IMAGE021
其中
Figure 617500DEST_PATH_IMAGE022
分别为当前批次和下一批次节点
Figure 703268DEST_PATH_IMAGE023
的信息素浓度,
Figure 524593DEST_PATH_IMAGE024
为下一批次节点
Figure 732720DEST_PATH_IMAGE023
样 本的贡献值,
Figure 373917DEST_PATH_IMAGE025
为当前批次节点
Figure 263376DEST_PATH_IMAGE026
样本的贡献值,
Figure 204787DEST_PATH_IMAGE027
为0或1,若当前批次节点
Figure 583816DEST_PATH_IMAGE028
为协调方则
Figure 476423DEST_PATH_IMAGE029
,否则
Figure 903994DEST_PATH_IMAGE030
在协调方进行模型训练时,其他节点处于空闲状态,此时由其他节点使用下一批次样本计算下一批次信息素浓度,从而竞争出下一批次协调方,且提前进行加密数据的传输工作;
根据不同待训练模型,为信息素浓度设置不同阈值
Figure 434332DEST_PATH_IMAGE031
,若节点
Figure 187524DEST_PATH_IMAGE032
的某批次信息素浓度
Figure 865630DEST_PATH_IMAGE033
大于阈值
Figure 362471DEST_PATH_IMAGE031
,则该节点在下一批次将不会竞争为协调方。
9.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法,其特征在于,当前批次协调方全局解密后,得到全局模型参数梯度并上链;此时已竞争出下一批次协调方,下一批次非协调方无需进行梯度更新,只需下一批次协调方根据链上的全局模型参数梯度进行本地模型的梯度更新,并以此来进行下一批次的模型训练;各节点在本地训练的空闲时间将链上的全局模型参数梯度保存到本地,进行本地模型的梯度更新。
10.一种实现如权利要求1-9中任一项所述方法的基于竞争机制的区块链上医疗数据协同分析系统,其特征在于,包括数据预处理模块、区块链框架模块、联邦学习模块、数据加密解密模块、竞争机制模块和模型梯度更新模块;
数据预处理模块,用于对多中心的异构医疗数据进行处理统一,以及负责将不同中心的指定数据进行脱敏统计;
区块链框架模块,为系统提供底层支持及可信任的保障,为数据提供隐私保护;
联邦学习模块,运行在竞争出的协调方,负责对多中心的医疗数据进行协同分析以及模型构建;
数据加密解密模块,负责将本地需要传输到协调方的数据进行加密,以及对最终的模型参数进行联合解密;
竞争机制模块,负责根据不同节点的样本特征计算出不同节点的信息素浓度,以此来竞争出多个节点中的协调方;
模型梯度更新模块,在一个批次样本计算完成后,负责将更新后的全局模型通过区块链广播到全局,从而进行下一个批次的更新。
CN202210825830.2A 2022-07-14 2022-07-14 基于竞争机制的区块链上医疗数据协同分析方法及系统 Active CN114912136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210825830.2A CN114912136B (zh) 2022-07-14 2022-07-14 基于竞争机制的区块链上医疗数据协同分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210825830.2A CN114912136B (zh) 2022-07-14 2022-07-14 基于竞争机制的区块链上医疗数据协同分析方法及系统

Publications (2)

Publication Number Publication Date
CN114912136A true CN114912136A (zh) 2022-08-16
CN114912136B CN114912136B (zh) 2022-10-28

Family

ID=82772078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210825830.2A Active CN114912136B (zh) 2022-07-14 2022-07-14 基于竞争机制的区块链上医疗数据协同分析方法及系统

Country Status (1)

Country Link
CN (1) CN114912136B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092683A (zh) * 2023-04-12 2023-05-09 深圳达实旗云健康科技有限公司 一种原始数据不出域的跨医疗机构疾病预测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784994A (zh) * 2020-12-31 2021-05-11 浙江大学 基于区块链的联邦学习数据参与方贡献值计算和激励方法
CN112949865A (zh) * 2021-03-18 2021-06-11 之江实验室 一种基于sigma协议的联邦学习贡献度评估方法
CN113204787A (zh) * 2021-05-06 2021-08-03 广州大学 基于区块链的联邦学习隐私保护方法、系统、设备和介质
CN113408746A (zh) * 2021-06-22 2021-09-17 深圳大学 一种基于区块链的分布式联邦学习方法、装置及终端设备
WO2021185197A1 (zh) * 2020-03-18 2021-09-23 索尼集团公司 用于联邦学习的装置、方法和存储介质
CN113792856A (zh) * 2021-09-09 2021-12-14 电子科技大学 基于vae医疗保健联邦学习框架的确定方法
CN114186263A (zh) * 2021-12-17 2022-03-15 大连理工大学 一种基于纵向联邦学习的数据回归方法及电子装置
CN114219160A (zh) * 2021-12-20 2022-03-22 湖南大学 一种基于联邦学习的生产链协同调度方法
CN114580009A (zh) * 2022-01-13 2022-06-03 吉林省元依科技有限公司 基于联邦学习的区块链数据管理方法、系统及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021185197A1 (zh) * 2020-03-18 2021-09-23 索尼集团公司 用于联邦学习的装置、方法和存储介质
CN112784994A (zh) * 2020-12-31 2021-05-11 浙江大学 基于区块链的联邦学习数据参与方贡献值计算和激励方法
CN112949865A (zh) * 2021-03-18 2021-06-11 之江实验室 一种基于sigma协议的联邦学习贡献度评估方法
CN113204787A (zh) * 2021-05-06 2021-08-03 广州大学 基于区块链的联邦学习隐私保护方法、系统、设备和介质
CN113408746A (zh) * 2021-06-22 2021-09-17 深圳大学 一种基于区块链的分布式联邦学习方法、装置及终端设备
CN113792856A (zh) * 2021-09-09 2021-12-14 电子科技大学 基于vae医疗保健联邦学习框架的确定方法
CN114186263A (zh) * 2021-12-17 2022-03-15 大连理工大学 一种基于纵向联邦学习的数据回归方法及电子装置
CN114219160A (zh) * 2021-12-20 2022-03-22 湖南大学 一种基于联邦学习的生产链协同调度方法
CN114580009A (zh) * 2022-01-13 2022-06-03 吉林省元依科技有限公司 基于联邦学习的区块链数据管理方法、系统及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LEI ZHAO ETC.: "Towards Cooperative Caching for Vehicular Networks with Multi-level Federated Reinforcement Learning", 《IEEE》 *
田志浩: "机器学习远程并行训练算法研究", 《硕士电子期刊出版信息》 *
贾延延等: "联邦学习模型在涉密数据处理中的应用", 《中国电子科学研究院学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092683A (zh) * 2023-04-12 2023-05-09 深圳达实旗云健康科技有限公司 一种原始数据不出域的跨医疗机构疾病预测方法

Also Published As

Publication number Publication date
CN114912136B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
Chaudhari et al. Trident: Efficient 4pc framework for privacy preserving machine learning
Zhang et al. A survey on collaborative deep learning and privacy-preserving
CN113434626B (zh) 一种多中心医学诊断知识图谱表示学习方法及系统
Han et al. Privacy-preserving gradient-descent methods
Chang et al. Privacy in neural network learning: Threats and countermeasures
Alzubi et al. Optimal multiple key‐based homomorphic encryption with deep neural networks to secure medical data transmission and diagnosis
Chen et al. Secure collaborative deep learning against GAN attacks in the Internet of Things
Alabdulkarim et al. A Privacy-Preserving Algorithm for Clinical Decision-Support Systems Using Random Forest.
WO2022142060A1 (zh) 基于联邦学习的虹膜图像特征提取方法、系统和装置
CN114912136B (zh) 基于竞争机制的区块链上医疗数据协同分析方法及系统
Doku et al. On the blockchain-based decentralized data sharing for event based encryption to combat adversarial attacks
CN112118099A (zh) 抗推理攻击的分布式多任务学习隐私保护方法及系统
Samet et al. Incremental learning of privacy-preserving Bayesian networks
Hu et al. SMPC-ranking: A privacy-preserving method on identifying influential nodes in multiple private networks
Arumugam et al. Federated learning-based privacy preservation with blockchain assistance in iot 5G heterogeneous networks
Zheng et al. Optimizing secure decision tree inference outsourcing
Zhou et al. LEGO: A hybrid toolkit for efficient 2PC-based privacy-preserving machine learning
Shao et al. Privacy-preserving and verifiable cloud-aided disease diagnosis and prediction with hyperplane decision-based classifier
Yuan et al. Distributed social learning with imperfect information
Fortier et al. Learning Bayesian classifiers using overlapping swarm intelligence
Chen et al. SecDT: privacy-preserving outsourced decision tree classification without polynomial forms in edge-cloud computing
Zhang Multi-server verifiable delegation of computations: Unconditional security and practical efficiency
Li et al. Mixture-model-based graph for privacy-preserving semi-supervised learning
CN114358323A (zh) 联邦学习环境中基于第三方高效皮尔森系数计算方法
Guan et al. DCIGAN: a distributed class-incremental learning method based on generative adversarial networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant