CN114566289B - 一种基于多中心临床数据防作弊分析的疾病预测系统 - Google Patents

一种基于多中心临床数据防作弊分析的疾病预测系统 Download PDF

Info

Publication number
CN114566289B
CN114566289B CN202210444327.2A CN202210444327A CN114566289B CN 114566289 B CN114566289 B CN 114566289B CN 202210444327 A CN202210444327 A CN 202210444327A CN 114566289 B CN114566289 B CN 114566289B
Authority
CN
China
Prior art keywords
voting
data
model
medical institution
disease prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210444327.2A
Other languages
English (en)
Other versions
CN114566289A (zh
Inventor
李冠男
李劲松
池胜强
王宇清
朱伟伟
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210444327.2A priority Critical patent/CN114566289B/zh
Publication of CN114566289A publication Critical patent/CN114566289A/zh
Application granted granted Critical
Publication of CN114566289B publication Critical patent/CN114566289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于多中心临床数据防作弊分析的疾病预测系统,本发明利用区块链技术共享伪数据,并让所有医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数,保证临床数据量少的医疗机构的真实临床数据能够被充分利用的同时还使得医疗机构无法对本地临床数据质量评价结果进行作弊。本发明设计的模型参数投票迭代机制,每轮迭代中根据投票结果保留一家医疗机构提供的模型参数,可以使得质量好的临床数据在模型训练中发挥更大作用。本发明设计的投票权的初始化和更新机制,以及在迭代投票过程中的作弊检测机制,让临床数据质量好的医疗机构拥有更多投票权,也防止了单家或多家医疗机构勾结篡改投票结果。

Description

一种基于多中心临床数据防作弊分析的疾病预测系统
技术领域
本发明属于医疗健康信息技术领域,具体涉及一种基于多中心临床数据防作弊分析的疾病预测系统。
背景技术
不同医疗机构由于其所在区域、治疗水平、医保报销、收费标准等因素的差别,在疾病数量分布上存在着较大的差异。单家医疗机构的临床数据不足以支撑一个高准确性的疾病预测模型构建。为了训练一个效果较好的疾病预测模型,往往需要大量高质量的临床数据。多中心临床数据的协同分析为大规模临床数据的整合分析利用提供了解决方案。但是,在数据安全和隐私保护的约束下,各家医疗机构的原始临床数据不能直接离开机构,导致多中心临床数据分析过程存在许多难点。
在多中心临床数据分析与建模的过程中,不仅需要保证临床数据不被窃取,还要保证参与协同分析建模的医疗机构无法单独或相互勾结后进行篡改疾病预测模型的模型参数、篡改疾病预测模型评价结果、泄露模型参数、提供噪声数据干扰模型训练、不提供真实临床数据或恶意提供低质量临床数据来获取最终模型参数等作弊行为。需要一种多中心临床数据防作弊分析方法,在保证临床数据安全性和防止医疗机构作弊的前提下,利用多家医疗机构的临床数据共同训练一个准确性高、泛化性好的疾病预测模型。现有的常见解决方案主要有:(1)联邦学习:由多家医疗机构和一个可信的中心服务器组成。医疗机构在本地利用临床数据训练预测模型,模型参数经过同态加密后发送给中心服务器。中心服务器利用同态加密的加法同态性和乘法同态性直接对模型参数的密文进行聚合处理,并将处理结果分发回医疗机构。医疗机构对聚合后的模型参数的密文进行解密后进行下一轮迭代,直至预测模型收敛。(2)群体智能:利用区块链,提供一种去中心化的协同分析建模方法。由医疗机构构成一个群网络,每家医疗机构在本地利用临床数据训练预测模型后通过区块链交换模型参数。模型参数在医疗机构本地进行模型聚合后进行下一轮迭代。
常见解决方案具有以下不足:联邦学习需要有一个中心服务器进行模型参数聚合等操作,医疗机构与中心服务器的地位不平等。不可信的中心服务器与医疗机构串通后会存在模型参数篡改、模型参数泄露等风险,甚至基于模型参数推断出原始临床数据。群体智能可以让医疗机构利用区块链传递模型参数,模型参数传递到单个医疗机构,与该机构本地训练的模型参数合并以后发送到下一家医疗机构。若存在不可信的医疗机构,则模型参数会存在泄露和被篡改的风险。
此外,联邦学习和群体智能在协同分析建模的过程中,各个医疗机构的临床数据具有相同的重要性。然而实际上部分医疗机构的临床数据质量较差,协同分析建模的过程中会对疾病预测模型的效果造成影响。
中国发明专利 CN114048515A公开了一种基于联邦学习和区块链的医疗大数据共享方法,利用传统的联邦学习框架进行协同分析建模,将训练过程中医疗机构每轮训练用时和准确率结果保存到区块链上。完成协同分析建模后,中心服务器根据每家医疗机构提供的算力、每轮训练用时、提供的临床数据量、提供的临床数据质量来分配奖励,如模型使用权限等。然而,每家医疗机构提供的算力、每轮训练用时、提供的临床数据量、提供的临床数据质量都是由医疗机构自己提供的,缺少验证其真实性的方法,存在着作弊的风险。例如,该方法中验证医疗机构临床数据质量的方法是根据本地模型的准确率计算得到,不可信的医疗机构可通过上传虚假的准确率来获得更多的奖励,如更高的模型使用权限等。
发明内容
针对现有技术的不足,本发明提供一种基于多中心临床数据防作弊分析的疾病预测系统。
本发明的目的是通过以下技术方案实现的:一种基于多中心临床数据防作弊分析的疾病预测系统,该系统包括以下模块:
初始化模块:用于发布疾病预测模型的协同分析建模协议,决定参与协同分析建模的医疗机构组成协同分析建模区块链;
数据质量评估模块,包括伪数据生成子模块和伪数据质量评估子模块;
伪数据生成子模块:用于各家医疗机构在本地利用临床数据训练生成对抗网络,并生成伪数据,各家医疗机构生成的伪数据的数据量相等;
伪数据质量评估子模块:用于将各家医疗机构生成的伪数据上链,各家医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数;
协同分析建模模块,包括模型训练子模块和投票子模块;
模型训练子模块:用于各家医疗机构在本地利用临床数据训练单中心疾病预测模型,并将单中心疾病预测模型的模型参数上链;
投票子模块:用于进行多轮迭代投票,在每轮投票中,动态更新各家医疗机构根据数据质量系数和之前轮次投票情况得到的投票权,各家医疗机构在本地利用临床数据计算所有单中心疾病预测模型的损失,结合自身投票权对单中心疾病预测模型进行投票,并将投票结果上链,票数最多的单中心疾病预测模型胜出,并作为本轮迭代得到的疾病预测模型,进入下一轮迭代;在迭代过程中进行作弊检测,将未通过作弊检测的医疗机构从协同分析建模区块链中剔除。
进一步地,所述初始化模块中,所述协同分析建模协议的内容包括疾病预测模型的模型结构、模型初始化参数、模型训练所需特征和标签、模型损失函数、生成伪数据用的生成对抗网络模型结构和参数、加权聚类模型的模型结构和参数。
进一步地,所述伪数据质量评估子模块中,数据质量系数的计算过程如下:
对于训练疾病预测模型的任一特征
Figure DEST_PATH_IMAGE001
,医疗机构
Figure DEST_PATH_IMAGE002
生成的伪数据中特征
Figure 11547DEST_PATH_IMAGE001
的数据 质量评分记为
Figure DEST_PATH_IMAGE003
M家医疗机构共同组成数据集
Figure DEST_PATH_IMAGE004
,其中
Figure DEST_PATH_IMAGE005
表示医 疗机构
Figure 335212DEST_PATH_IMAGE002
生成的伪数据中特征
Figure 114950DEST_PATH_IMAGE001
的数据,将
Figure DEST_PATH_IMAGE006
记为
Figure DEST_PATH_IMAGE007
,其中
Figure DEST_PATH_IMAGE008
表 示第i个样本,N为伪数据的数据量,利用
Figure DEST_PATH_IMAGE009
训练加权聚类模型
Figure DEST_PATH_IMAGE010
,根据加权聚类模型
Figure 962689DEST_PATH_IMAGE010
的参数求得数据质量评分
Figure 777061DEST_PATH_IMAGE003
加权聚类模型
Figure 333944DEST_PATH_IMAGE010
训练完成后,计算每个样本中每个元素与跟该样本同一聚类 的样本的对应元素距离的均值和每个样本中每个元素与跟该样本不同聚类的样本的对应 元素距离的均值,得到
Figure 600977DEST_PATH_IMAGE009
的每一列的轮廓系数,根据轮廓系数与多样性阈值计算得到医疗 机构
Figure DEST_PATH_IMAGE011
生成的伪数据中特征
Figure 596615DEST_PATH_IMAGE001
的数据多样性评分
Figure DEST_PATH_IMAGE012
医疗机构
Figure DEST_PATH_IMAGE013
的数据质量系数为医疗机构
Figure DEST_PATH_IMAGE014
生成的伪数据中所有特征的数据质量 评分与数据多样性评分之积的加权平均。
进一步地,所述伪数据质量评估子模块中,利用
Figure 999915DEST_PATH_IMAGE009
训练加权聚类模型
Figure DEST_PATH_IMAGE015
,包括:
设加权聚类模型
Figure 665383DEST_PATH_IMAGE010
的聚类个数为C,聚类表征矩阵为U,聚类中心的坐标集合为
Figure DEST_PATH_IMAGE016
,其中
Figure DEST_PATH_IMAGE017
表示第c个聚类中心坐标,记
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
中第j个元素
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
中第j个元素
Figure DEST_PATH_IMAGE022
的距离;M家医疗机构对应的特征
Figure DEST_PATH_IMAGE023
的数据质量评分构成数据质 量评分集合
Figure DEST_PATH_IMAGE024
加权聚类模型
Figure 606663DEST_PATH_IMAGE010
的损失函数定义为
Figure DEST_PATH_IMAGE025
,其中
Figure DEST_PATH_IMAGE026
表示聚类表征矩阵U中第i行第c列的元素,通过训练迭代来减小
Figure 78095DEST_PATH_IMAGE010
的损失函 数,训练迭代步骤如下:
(1)随机设定初始化聚类中心的坐标集合Z、数据质量评分集合
Figure DEST_PATH_IMAGE027
和聚类表征矩 阵U
(2)通过以下公式更新聚类表征矩阵U
Figure DEST_PATH_IMAGE028
再计算新的
Figure DEST_PATH_IMAGE029
,若
Figure DEST_PATH_IMAGE030
保持不变,则停止迭代,否则进入步骤(3);
(3)通过公式
Figure DEST_PATH_IMAGE031
更新聚类中心的坐标集合Z,再计算新的
Figure DEST_PATH_IMAGE032
,若
Figure 804743DEST_PATH_IMAGE032
保持不变,则停止迭代,否则进入步骤(4);
(4)通过公式
Figure DEST_PATH_IMAGE033
更新数据质量评分集合
Figure DEST_PATH_IMAGE034
,其中
Figure DEST_PATH_IMAGE035
,再计算新的
Figure DEST_PATH_IMAGE036
,若
Figure DEST_PATH_IMAGE037
保持不变,则停止迭代, 否则返回步骤(2)迭代计算。
进一步地,所述伪数据质量评估子模块中,
Figure DEST_PATH_IMAGE038
的第j列轮廓系数
Figure DEST_PATH_IMAGE039
的计算公式为
Figure DEST_PATH_IMAGE040
,其中
Figure DEST_PATH_IMAGE041
为每个样本中每个元素与跟该样本同一聚类的样本的对应元素 距离的均值,
Figure DEST_PATH_IMAGE042
为每个样本中每个元素与跟该样本不同聚类的样本的对应元素距离的均 值;
医疗机构
Figure DEST_PATH_IMAGE043
生成的伪数据中特征
Figure DEST_PATH_IMAGE044
的数据多样性评分
Figure DEST_PATH_IMAGE045
,其中
Figure DEST_PATH_IMAGE046
为多样性阈值。
进一步地,所述模型训练子模块中,在每轮迭代训练中,各家医疗机构利用本地临床数据训练投票子模块得到的上一轮迭代胜出的疾病预测模型,得到单中心疾病预测模型。
进一步地,所述投票子模块中,各家医疗机构的投票权由基础投票权、累积投票权和随机投票权加和得到;所述基础投票权由医疗机构的数据质量系数计算得到,在每轮迭代中保持不变;所述累积投票权由医疗机构之前轮次投票情况计算得到,在每轮迭代投票结束后更新;所述随机投票权在每轮迭代投票之前更新。
进一步地,所述累积投票权的更新具体为:根据医疗机构在每一轮给最终胜出的疾病预测模型的损失排序结果更新累积投票权,若上一轮投票中损失升序排序第一的单中心疾病预测模型胜出,则累积投票权清零,若上一轮投票中损失升序排序第二的单中心疾病预测模型胜出,则累积投票权减半,否则累积投票权加1。
进一步地,所述随机投票权的计算具体为:参与投票的医疗机构的随机投票权之 和为一固定值
Figure DEST_PATH_IMAGE047
,在每轮迭代投票之前,根据参与投票的医疗机构的数据质量系数的哈希 值与当前轮次的哈希值之和,取最大前R个医疗机构,将它们在本轮投票中的随机投票权置 为1,其余医疗机构在本轮投票中的随机投票权置为0。
进一步地,所述投票子模块中,在迭代过程中进行作弊检测,具体为:在协同分析建模协议中给出作弊检测开始的迭代轮次K,从第K轮开始,每轮投票完成后根据最近K-1轮各家医疗机构上链分享的单中心疾病预测模型损失的排序对参与协同分析建模的医疗机构进行筛选;若在最近K-1轮投票中有过半数量的医疗机构都将某医疗机构提供的单中心疾病预测模型的损失排在倒数两位,则将该医疗机构从协同分析建模区块链中剔除。
本发明的有益效果是:
1. 针对医疗机构临床数据质量缺少验证的问题,本发明让各家医疗机构均在本地训练加权聚类模型,根据加权聚类模型结果确定数据的质量和多样性,并计算各家医疗机构的数据质量系数。数据质量系数公开,单个或多个医疗机构勾结也无法篡改数据质量系数。
2. 针对医疗机构勾结并篡改疾病预测模型评价结果的问题,本发明在每轮迭代中动态更新各家医疗机构的投票权。数据质量越好的医疗机构拥有更多的投票权,投票给胜出模型参数的医疗机构的投票权会在下一轮投票中适当减少,大幅增加了医疗机构勾结作弊成本。若一家或多家医疗机构勾结作弊,不使用上一轮胜出的模型参数进行本轮迭代训练,而是用其它模型参数进行本轮迭代训练,则在本轮的投票中,作弊的医疗机构提供的模型参数很难在非作弊的医疗机构的临床数据上取得好的效果,从而无法得到非作弊的医疗机构的投票。
3. 本发明设计的临床数据质量评估方法利用区块链技术共享伪数据,并让所有医疗机构用伪数据训练加权聚类模型来确定每家医疗机构的数据质量系数,保证临床数据量少的医疗机构的真实临床数据能够被充分利用的同时还使得医疗机构无法对本地临床数据质量的评价结果进行作弊。
4. 本发明设计的模型参数投票迭代机制,每轮迭代中根据投票结果保留一家医疗机构提供的模型参数进入下一轮迭代。这一机制可以使得质量好的临床数据在模型训练中发挥更大的作用。
5. 本发明设计投票权的初始化和更新机制,根据医疗机构的数据质量系数来确定医疗机构的投票权,并且根据每轮投票结果更新各家医疗机构的投票权。同时根据医疗机构给出的单中心疾病预测模型损失的排序,将达到判别条件的医疗机构从协同分析建模区块链中剔除。这一机制可以让临床数据质量好的医疗机构拥有更多投票权,也防止了单家或多家医疗机构勾结篡改投票结果,并且防止临床数据质量太差或没有真实临床数据的医疗机构获取最终模型结果。
附图说明
图1为本发明实施例提供的基于多中心临床数据防作弊分析的疾病预测系统结构图;
图2为本发明实施例提供的疾病预测模型构建流程图;
图3为本发明实施例提供的加权聚类模型训练流程图;
图4为本发明实施例提供的累积投票权更新机制示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明提供一种基于多中心临床数据防作弊分析的疾病预测系统,如图1所示,该系统包括初始化模块、数据质量评估模块和协同分析建模模块,进一步地,数据质量评估模块包括伪数据生成子模块和伪数据质量评估子模块,协同分析建模模块包括模型训练子模块和投票子模块。本发明用于多家医疗机构协同分析建模得到疾病预测模型,从而预测患者可能患有的疾病,作为辅助诊断。
图2为本发明一示例性实施例提供的疾病预测模型构建流程图,如图2所示,本发明首先利用区块链技术,让参与疾病预测模型协同分析建模的医疗机构上链。在开始协同分析建模之前,各家医疗机构在本地利用临床数据训练生成对抗网络,并生成伪数据。生成的伪数据上链后,各家医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数。协同分析建模过程中,各家医疗机构在本地利用真实临床数据训练单中心疾病预测模型后,将模型参数上链。每家医疗机构都拥有其他医疗机构分享的模型参数,根据本地临床数据计算每种模型参数对应的损失,然后投票给损失最小的两种模型参数。各家医疗机构的投票权根据自身的数据质量以及前几轮的投票情况计算得到。得票数最多的模型参数胜出,作为本轮协同分析训练的结果,进入下一轮迭代。在迭代过程中进行作弊检测,如果某家医疗机构作弊检测未通过,则将该医疗机构从协同分析建模区块链中剔除。
下述说明进一步给出了符合本申请要求的基于多中心临床数据防作弊分析的疾病预测系统各模块实现的部分实施例。
一、初始化模块
由一家医疗机构发布协同分析建模协议,协议内容包括疾病预测模型的模型结构、模型初始化参数、模型训练所需特征和标签、模型损失函数、生成伪数据用的生成对抗网络模型结构和参数、数据质量评估模块中的加权聚类模型的模型结构和参数。其他医疗机构收到协同分析建模协议后决定是否参与疾病预测模型协同分析建模。
具体地,在协同分析建模协议中给出初始化疾病预测模型记为
Figure DEST_PATH_IMAGE048
,本实施例中疾 病预测模型采用共3层神经网络,每层128个神经元,配合sigmoid激活函数的多标签分类 器。
参与协同分析建模的医疗机构组成协同分析建模区块链。区块链上的医疗机构能够将数据上链共享。
二、数据质量评估模块
该模块利用加权聚类模型的方法确定各家医疗机构根据真实临床数据生成的伪数据的数据质量和多样性,进而计算每家医疗机构的数据质量系数。该数据质量系数会在后续协同分析建模模块的投票子模块中成为计算每家医疗机构初始投票权的关键因素。临床数据质量和多样性越好的医疗结构会在数据质量评估模块中得到更大的数据质量系数,也会在投票子模块中获得更多的初始投票权,从而使得该医疗机构所支持的模型参数更有可能胜出。数据质量评估模块包括伪数据生成子模块和伪数据质量评估子模块,下面详细阐述每个子模块的实现过程。
2.1伪数据生成子模块
协同分析建模协议中训练疾病预测模型的特征集合记为
Figure DEST_PATH_IMAGE049
, 其中K为训练疾病预测模型的特征数量,
Figure DEST_PATH_IMAGE050
表示第k种特征。
设共有M家医疗机构参与到疾病预测模型的协同分析建模中,医疗机构的集合记 为
Figure DEST_PATH_IMAGE051
,医疗机构临床数据集合记为
Figure DEST_PATH_IMAGE052
,其中
Figure DEST_PATH_IMAGE053
代表医疗机构
Figure DEST_PATH_IMAGE054
的临床数据。
Figure DEST_PATH_IMAGE055
,其中
Figure DEST_PATH_IMAGE056
表示
Figure DEST_PATH_IMAGE057
中特征
Figure DEST_PATH_IMAGE058
的数据。每 家医疗机构临床数据量不同,记医疗机构
Figure 624800DEST_PATH_IMAGE054
的临床数据量为
Figure DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE060
是一个
Figure DEST_PATH_IMAGE061
的矩阵。
医疗机构
Figure 522218DEST_PATH_IMAGE054
在本地服务器上利用
Figure DEST_PATH_IMAGE062
训练生成对抗网络(GAN),得到模型
Figure DEST_PATH_IMAGE063
Figure 594079DEST_PATH_IMAGE063
可以生成基于
Figure 237550DEST_PATH_IMAGE062
的伪数据
Figure DEST_PATH_IMAGE064
。各家医疗机构生成的伪数据的数据量相等,记为N,本实 施例中设N=1000。医疗机构生成的伪数据集合记为
Figure DEST_PATH_IMAGE065
Figure DEST_PATH_IMAGE066
,其中
Figure DEST_PATH_IMAGE067
表示
Figure DEST_PATH_IMAGE068
中特征
Figure DEST_PATH_IMAGE069
的数据。
Figure DEST_PATH_IMAGE070
是一个
Figure DEST_PATH_IMAGE071
的矩阵。生成 的伪数据能够反映真实临床数据的分布情况,而且真实临床数据量大的医疗机构生成的伪 数据的分布与真实临床数据分布更接近,因此伪数据的数据质量和真实临床数据的数据质 量有着紧密的关联,可以利用伪数据代替真实数据质量的评估。
2.2伪数据质量评估子模块
对于特征集合F中的任一特征
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE073
,医疗机构
Figure DEST_PATH_IMAGE074
生成的伪数据
Figure DEST_PATH_IMAGE075
中特征
Figure 244820DEST_PATH_IMAGE072
的数据质量评分记为
Figure DEST_PATH_IMAGE076
。数据质量评分集合
Figure DEST_PATH_IMAGE077
。数据质量评分
Figure DEST_PATH_IMAGE078
通过加权聚类模型的参数求得,具体步骤如下。
医疗机构
Figure 629534DEST_PATH_IMAGE011
将伪数据
Figure DEST_PATH_IMAGE079
中特征
Figure DEST_PATH_IMAGE080
的数据
Figure DEST_PATH_IMAGE081
上链共享。M家医疗机构共同组成
Figure DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE083
是一个
Figure DEST_PATH_IMAGE084
的矩阵,可以看作是一个由N个样本、M个特征组 成的数据集。可以将
Figure DEST_PATH_IMAGE085
记为
Figure DEST_PATH_IMAGE086
,其中T表示矩阵运算中的转置操作;
Figure DEST_PATH_IMAGE087
表示第i个样本,是一个长度为M的向量,用
Figure DEST_PATH_IMAGE088
表示
Figure DEST_PATH_IMAGE089
中第j个元素的值。利用
Figure DEST_PATH_IMAGE090
训练一个 加权聚类模型
Figure DEST_PATH_IMAGE091
,具体训练过程如下:
设加权聚类模型
Figure DEST_PATH_IMAGE092
的聚类个数为C,本实施例中设C=10。设聚类表征矩阵为U,是 一个
Figure DEST_PATH_IMAGE093
的矩阵,聚类表征矩阵
Figure DEST_PATH_IMAGE094
中第i行第j列的元素记为
Figure DEST_PATH_IMAGE095
,值为:
Figure DEST_PATH_IMAGE096
聚类中心的坐标集合为
Figure DEST_PATH_IMAGE097
,其中
Figure DEST_PATH_IMAGE098
表示第c个聚类中心的 坐标,是一个长度为M的向量,用
Figure DEST_PATH_IMAGE099
表示
Figure DEST_PATH_IMAGE100
中第j个元素的值。记
Figure DEST_PATH_IMAGE101
为样本
Figure DEST_PATH_IMAGE102
中第j个元素到第c个聚类中心坐标的第j个元素的距离。同理,
Figure DEST_PATH_IMAGE103
为样本
Figure DEST_PATH_IMAGE104
中第j个元素到样本
Figure DEST_PATH_IMAGE105
中第j个元素的距离。
加权聚类模型
Figure 36245DEST_PATH_IMAGE092
的损失函数定义为
Figure DEST_PATH_IMAGE106
, 通过训练迭代来减小
Figure 268643DEST_PATH_IMAGE092
的损失函数,如图3所示,训练迭代步骤如下:
第一步:随机设定初始化聚类中心的坐标集合Z、数据质量评分集合
Figure DEST_PATH_IMAGE107
和聚类表 征矩阵U
第二步:通过以下公式更新聚类表征矩阵U
Figure DEST_PATH_IMAGE108
再计算新的
Figure DEST_PATH_IMAGE109
。若
Figure 571448DEST_PATH_IMAGE109
保持不变,则停止迭代,否则进入第三步。
第三步:通过公式
Figure DEST_PATH_IMAGE110
更新聚类中心的坐标集合Z,再计算新的
Figure DEST_PATH_IMAGE111
。若
Figure 443458DEST_PATH_IMAGE111
保持不变,则停止迭代,否则进入第四步。
第四步:通过公式
Figure 325963DEST_PATH_IMAGE033
更新数据质量评分集合
Figure DEST_PATH_IMAGE112
,其中
Figure DEST_PATH_IMAGE113
,代表了
Figure DEST_PATH_IMAGE114
中每个样本的第j个元素到该样本所属聚类中心坐 标的第j个元素的距离之和。再计算新的
Figure 209606DEST_PATH_IMAGE109
。若
Figure 152154DEST_PATH_IMAGE111
保持不变,则停止迭代, 否则返回第二步迭代计算。
加权聚类模型
Figure DEST_PATH_IMAGE115
训练迭代完成后,计算每个样本中每个元素与跟该样本同一聚 类的样本的对应元素距离的均值
Figure DEST_PATH_IMAGE116
和每个样本中每个元素与跟该样本不同聚类的样本的 对应元素距离的均值,计算公式分别为:
Figure DEST_PATH_IMAGE117
Figure DEST_PATH_IMAGE118
的第j列的轮廓系数记为
Figure DEST_PATH_IMAGE119
Figure DEST_PATH_IMAGE120
,其中
Figure DEST_PATH_IMAGE121
表示取最大 值。
Figure DEST_PATH_IMAGE122
越大代表
Figure 527772DEST_PATH_IMAGE118
的第j列在聚类结果中的多样性越差。医疗机构
Figure DEST_PATH_IMAGE123
生成的伪数据
Figure DEST_PATH_IMAGE124
中 特征
Figure DEST_PATH_IMAGE125
的数据多样性评分记为
Figure DEST_PATH_IMAGE126
Figure DEST_PATH_IMAGE127
,其中
Figure DEST_PATH_IMAGE128
为多样性阈值,取(0, 1),由协同分析建模协议给出。
医疗机构
Figure 338602DEST_PATH_IMAGE011
的数据质量系数
Figure DEST_PATH_IMAGE129
定义为伪数据
Figure DEST_PATH_IMAGE130
中所有特征的数据质量评分与数 据多样性评分之积的加权平均,即
Figure DEST_PATH_IMAGE131
三、协同分析建模模块
协同分析建模模块包括模型训练子模块和投票子模块,下面详细阐述每个子模块的实现过程。
3.1模型训练子模块
本实施例中使用的疾病预测模型的损失函数为二元交叉熵损失(Binary cross entropy loss)。经过i轮迭代后,疾病预测模型记为
Figure DEST_PATH_IMAGE132
。第i轮迭代中,医疗机构
Figure DEST_PATH_IMAGE133
利用临 床数据
Figure DEST_PATH_IMAGE134
训练第i-1轮胜出的疾病预测模型
Figure DEST_PATH_IMAGE135
后得到单中心疾病预测模型记为
Figure DEST_PATH_IMAGE136
,医 疗机构
Figure DEST_PATH_IMAGE137
Figure DEST_PATH_IMAGE138
上链共享给其他医疗机构。所有医疗机构通过投票子模块选出一个最优的 单中心疾病预测模型作为本轮迭代的结果,即本轮迭代后的疾病预测模型
Figure 748855DEST_PATH_IMAGE132
Figure DEST_PATH_IMAGE139
,随后开始下一轮的迭代。总迭代次数记为ITER,本实施例中取 ITER=100。
3.2投票子模块
在第i轮迭代中,医疗机构
Figure DEST_PATH_IMAGE140
的投票权记为
Figure DEST_PATH_IMAGE141
,计算公式为
Figure DEST_PATH_IMAGE142
其中
Figure DEST_PATH_IMAGE143
是医疗机构
Figure 314834DEST_PATH_IMAGE140
的基础投票权,由数据质量系数
Figure DEST_PATH_IMAGE144
计算得到,计算公式为
Figure DEST_PATH_IMAGE145
Figure DEST_PATH_IMAGE146
在每轮迭代中保持不变。
Figure DEST_PATH_IMAGE147
是医疗机构
Figure DEST_PATH_IMAGE148
在第i轮投票中的累积投票权,累积投票权初始值
Figure DEST_PATH_IMAGE149
,每轮投 票后的更新规则在下文中说明。
Figure DEST_PATH_IMAGE150
是医疗机构
Figure 505644DEST_PATH_IMAGE148
在第i轮投票中的随机投票权,
Figure 729952DEST_PATH_IMAGE150
在每轮投票之前都会更新,参与 投票的医疗机构的随机投票权之和为一固定值R,即
Figure DEST_PATH_IMAGE151
,在本实施例中取R=10。在每 轮投票之前,根据参与投票的医疗机构的数据质量系数的哈希值与当前轮次的哈希值之 和,取最大前R个医疗机构,将它们在本轮投票中的随机投票权置为1,其余医疗机构在本轮 投票中的随机投票权置为0。
投票权计算公式对所有医疗机构都公开,因此区块链上各家医疗机构的投票权是透明公开的。医疗机构投出的票数可以是浮点数,精确到小数点后六位。
在第i轮迭代的投票过程中,参与投票的医疗机构
Figure DEST_PATH_IMAGE152
在本地利用临床数据
Figure DEST_PATH_IMAGE153
根据 协同分析建模协议中的疾病预测模型的损失函数分别计算所有单中心疾病预测模型
Figure DEST_PATH_IMAGE154
的损失。记
Figure DEST_PATH_IMAGE155
Figure DEST_PATH_IMAGE156
上的损失为
Figure DEST_PATH_IMAGE157
Figure DEST_PATH_IMAGE158
。对
Figure DEST_PATH_IMAGE159
升序排序,记
Figure DEST_PATH_IMAGE160
对应的序号为
Figure DEST_PATH_IMAGE161
。医疗机构
Figure DEST_PATH_IMAGE162
给模型
Figure 384924DEST_PATH_IMAGE155
的投票数为
Figure DEST_PATH_IMAGE163
,并有
Figure DEST_PATH_IMAGE164
。医疗机构
Figure 466013DEST_PATH_IMAGE162
Figure DEST_PATH_IMAGE165
Figure DEST_PATH_IMAGE166
上链分享给其他参与协同分析建模的医疗机构。
Figure DEST_PATH_IMAGE167
得到的总 票数为
Figure DEST_PATH_IMAGE168
。若
Figure DEST_PATH_IMAGE169
,则将
Figure DEST_PATH_IMAGE170
记为第i轮迭代胜出的疾病预测模 型
Figure DEST_PATH_IMAGE171
针对不提供真实临床数据或恶意提供低质量临床数据来获得最终疾病预测模型 参数的行为进行作弊检测,具体为:在协同分析建模协议中给出作弊检测开始的迭代轮次K,从第K轮迭代开始,每轮投票完成后根据最近K-1轮各家医疗机构上链分享的单中心疾病 预测模型损失的排序对参与协同分析建模的医疗机构进行筛选。若在最近K-1轮投票中有 过半数量的医疗机构都将医疗机构
Figure DEST_PATH_IMAGE172
提供的单中心疾病预测模型的损失排在倒数前两位, 则将医疗机构
Figure 19485DEST_PATH_IMAGE172
从协同分析建模区块链中剔除,医疗机构
Figure 844221DEST_PATH_IMAGE172
无法进行后续的训练迭代,也无 法获得最终的疾病预测模型。
i轮迭代的投票结束后,每家医疗机构的累积投票权将会更新。如图4所示,根据 医疗机构
Figure 25804DEST_PATH_IMAGE172
在每一轮给最终胜出的疾病预测模型的损失排序结果,更新累积投票权;若
Figure DEST_PATH_IMAGE173
胜出,则医疗机构
Figure 949898DEST_PATH_IMAGE172
在下一轮(第i+1轮)迭代的投票中的累积投票权
Figure DEST_PATH_IMAGE174
计算公式如下:
Figure DEST_PATH_IMAGE175
以下给出本发明的一个具体应用场景。
A医院发起一个针对慢性胃炎、急性上呼吸道感染、二型糖尿病等50种全科疾病的疾病预测模型协同分析建模协议。疾病预测模型采用共3层神经网络,每层128个神经元,配合sigmoid激活函数的多标签分类器。疾病预测模型的损失函数采用二元交叉熵损失(Binary cross entropy loss)。协议中要求参与协同分析建模的医疗机构提供独热编码后的100种症状数据作为特征。
B医院、C医院、D医院同意该协同分析建模协议后与A医院共同组成协同分析建模区块链。四家医院分别各自训练生成对抗网络根据真实临床数据生成伪数据,并将伪数据上链。得到所有医院的伪数据后,每家医院都在本地训练加权聚类模型,确定每家医院的数据质量系数。每家医院计算得到的数据质量系数需公开,由于每家医院训练的模型和用到的伪数据是一样的,所以计算得到的数据质量系数也应该是一样的,无法从中作弊。根据数据质量系数可以确定每家医院的基础投票权。每家医院的投票权在进行投票之前是确定的,医院无法对其进行篡改。
然后开始疾病预测模型的协同分析建模。疾病预测模型的初始化参数由协同分析建模协议中给出。每家医院在本地利用临床数据对该模型进行训练,并将模型参数上链。四家医院都能得到自己的模型参数和其他三家医院的模型参数。每家医院都用损失函数分别计算每种模型参数在自己本地临床数据上的损失,并投票给损失最小的两种模型参数。得票最多的模型参数作为疾病预测模型本轮的训练结果,进入下一轮迭代,共计迭代1000次。
如果某家医院作弊检测未通过,则将该医院从协同分析建模区块链中剔除,该医院无法进行后续的训练迭代,也无法获得最终的疾病预测模型。
疾病预测模型协同分析建模完成后,通过作弊检测的所有医院都会得到这个模型的模型参数。得到该模型参数医院可以通过输入训练时用到的100种症状是否在某位患者身上出现,来预测该患者可能患有的全科疾病,作为辅助诊断。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,包括:
初始化模块:用于发布疾病预测模型的协同分析建模协议,决定参与协同分析建模的医疗机构组成协同分析建模区块链;
数据质量评估模块,包括伪数据生成子模块和伪数据质量评估子模块;
伪数据生成子模块:用于各家医疗机构在本地利用临床数据训练生成对抗网络,并生成伪数据,各家医疗机构生成的伪数据的数据量相等;
伪数据质量评估子模块:用于将各家医疗机构生成的伪数据上链,各家医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数,具体为,根据加权聚类模型的参数求得医疗机构生成的伪数据中特征的数据质量评分,根据加权聚类模型的轮廓系数与多样性阈值计算得到医疗机构生成的伪数据中特征的数据多样性评分,医疗机构的数据质量系数为医疗机构生成的伪数据中所有特征的数据质量评分与数据多样性评分之积的加权平均;
协同分析建模模块,包括模型训练子模块和投票子模块;
模型训练子模块:用于各家医疗机构在本地利用临床数据训练单中心疾病预测模型,并将单中心疾病预测模型的模型参数上链;
投票子模块:用于进行多轮迭代投票,在每轮投票中,动态更新各家医疗机构根据数据质量系数和之前轮次投票情况得到的投票权,各家医疗机构在本地利用临床数据计算所有单中心疾病预测模型的损失,结合自身投票权对单中心疾病预测模型进行投票,并将投票结果上链,票数最多的单中心疾病预测模型胜出,并作为本轮迭代得到的疾病预测模型,进入下一轮迭代;在迭代过程中进行作弊检测,将未通过作弊检测的医疗机构从协同分析建模区块链中剔除。
2.根据权利要求1所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述初始化模块中,所述协同分析建模协议的内容包括疾病预测模型的模型结构、模型初始化参数、模型训练所需特征和标签、模型损失函数、生成伪数据用的生成对抗网络模型结构和参数、加权聚类模型的模型结构和参数。
3.根据权利要求1所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述伪数据质量评估子模块中,数据质量系数的计算过程如下:
对于训练疾病预测模型的任一特征
Figure 864834DEST_PATH_IMAGE001
,医疗机构
Figure 781974DEST_PATH_IMAGE002
生成的伪数据中特征
Figure 296132DEST_PATH_IMAGE001
的数据质量 评分记为
Figure 691342DEST_PATH_IMAGE003
M家医疗机构共同组成数据集
Figure 505714DEST_PATH_IMAGE004
,其中
Figure 249548DEST_PATH_IMAGE005
表示医疗机 构
Figure 516581DEST_PATH_IMAGE002
生成的伪数据中特征
Figure 715481DEST_PATH_IMAGE001
的数据,将
Figure 118781DEST_PATH_IMAGE006
记为
Figure 112145DEST_PATH_IMAGE007
,其中
Figure 663212DEST_PATH_IMAGE008
表示第i 个样本,N为伪数据的数据量,利用
Figure 400223DEST_PATH_IMAGE009
训练加权聚类模型
Figure 923609DEST_PATH_IMAGE010
,根据加权聚类模型
Figure 87874DEST_PATH_IMAGE010
的 参数求得数据质量评分
Figure 1603DEST_PATH_IMAGE003
加权聚类模型
Figure 276727DEST_PATH_IMAGE010
训练完成后,计算每个样本中每个元素与跟该样本同一聚类的样本 的对应元素距离的均值和每个样本中每个元素与跟该样本不同聚类的样本的对应元素距 离的均值,得到
Figure 920198DEST_PATH_IMAGE009
的每一列的轮廓系数,根据轮廓系数与多样性阈值计算得到医疗机构
Figure 989785DEST_PATH_IMAGE011
生成的伪数据中特征
Figure 718706DEST_PATH_IMAGE012
的数据多样性评分
Figure 594259DEST_PATH_IMAGE013
医疗机构
Figure 92236DEST_PATH_IMAGE014
的数据质量系数为医疗机构
Figure 863883DEST_PATH_IMAGE011
生成的伪数据中所有特征的数据质量评分 与数据多样性评分之积的加权平均。
4.根据权利要求3所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特 征在于,所述伪数据质量评估子模块中,利用
Figure 548942DEST_PATH_IMAGE015
训练加权聚类模型
Figure 431448DEST_PATH_IMAGE016
,包括:
设加权聚类模型
Figure 783931DEST_PATH_IMAGE016
的聚类个数为C,聚类表征矩阵为U,聚类中心的坐标集合为
Figure 647851DEST_PATH_IMAGE017
,其中
Figure 85786DEST_PATH_IMAGE018
表示第c个聚类中心坐标,记
Figure 240824DEST_PATH_IMAGE019
Figure 713393DEST_PATH_IMAGE020
中第j个元素
Figure 826843DEST_PATH_IMAGE021
Figure 548811DEST_PATH_IMAGE022
中第j个元素
Figure 773119DEST_PATH_IMAGE023
的距离;M家医疗机构对应的特征
Figure 834616DEST_PATH_IMAGE024
的数据质量评分构成数据质 量评分集合
Figure 853387DEST_PATH_IMAGE025
加权聚类模型
Figure 265914DEST_PATH_IMAGE016
的损失函数定义为
Figure 293913DEST_PATH_IMAGE026
,其 中
Figure 147600DEST_PATH_IMAGE027
表示聚类表征矩阵U中第i行第c列的元素,通过训练迭代来减小
Figure 337273DEST_PATH_IMAGE016
的损失函数,训 练迭代步骤如下:
(1)随机设定初始化聚类中心的坐标集合Z、数据质量评分集合
Figure 237095DEST_PATH_IMAGE028
和聚类表征矩阵U
(2)通过以下公式更新聚类表征矩阵U
Figure 537627DEST_PATH_IMAGE029
再计算新的
Figure 839295DEST_PATH_IMAGE030
,若
Figure 996607DEST_PATH_IMAGE031
保持不变,则停止迭代,否则进入步骤(3);
(3)通过公式
Figure 383726DEST_PATH_IMAGE032
更新聚类中心的坐标集合Z,再计算新的
Figure 753527DEST_PATH_IMAGE033
,若
Figure 378544DEST_PATH_IMAGE033
保持不变,则停止迭代,否则进入步骤(4);
(4)通过公式
Figure 175599DEST_PATH_IMAGE034
更新数据质量评分集合
Figure 784434DEST_PATH_IMAGE035
,其中
Figure 879298DEST_PATH_IMAGE036
,再计算新的
Figure 624400DEST_PATH_IMAGE037
,若
Figure 592356DEST_PATH_IMAGE038
保持不变,则停止迭代, 否则返回步骤(2)迭代计算。
5.根据权利要求3所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特 征在于,所述伪数据质量评估子模块中,
Figure 688488DEST_PATH_IMAGE039
的第j列轮廓系数
Figure 196830DEST_PATH_IMAGE040
的计算公式为
Figure 62018DEST_PATH_IMAGE041
,其中
Figure 200875DEST_PATH_IMAGE042
为每个样本中每个元素与跟该样本同一聚类的样本的对应元素 距离的均值,
Figure 518724DEST_PATH_IMAGE043
为每个样本中每个元素与跟该样本不同聚类的样本的对应元素距离的均 值;
医疗机构
Figure 768440DEST_PATH_IMAGE044
生成的伪数据中特征
Figure 425817DEST_PATH_IMAGE045
的数据多样性评分
Figure 735576DEST_PATH_IMAGE046
,其中
Figure 540721DEST_PATH_IMAGE047
为多样性阈值。
6.根据权利要求1-5中任一项所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述模型训练子模块中,在每轮迭代训练中,各家医疗机构利用本地临床数据训练投票子模块得到的上一轮迭代胜出的疾病预测模型,得到单中心疾病预测模型。
7.根据权利要求1-5中任一项所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述投票子模块中,各家医疗机构的投票权由基础投票权、累积投票权和随机投票权加和得到;所述基础投票权由医疗机构的数据质量系数计算得到,在每轮迭代中保持不变;所述累积投票权由医疗机构之前轮次投票情况计算得到,在每轮迭代投票结束后更新;所述随机投票权在每轮迭代投票之前更新。
8.根据权利要求7所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述累积投票权的更新具体为:根据医疗机构在每一轮给最终胜出的疾病预测模型的损失排序结果更新累积投票权,若上一轮投票中损失升序排序第一的单中心疾病预测模型胜出,则累积投票权清零,若上一轮投票中损失升序排序第二的单中心疾病预测模型胜出,则累积投票权减半,否则累积投票权加1。
9.根据权利要求7所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述随机投票权的计算具体为:参与投票的医疗机构的随机投票权之和为一固定值R,在每轮迭代投票之前,根据参与投票的医疗机构的数据质量系数的哈希值与当前轮次的哈希值之和,取最大前R个医疗机构,将它们在本轮投票中的随机投票权置为1,其余医疗机构在本轮投票中的随机投票权置为0。
10.根据权利要求1-5中任一项所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述投票子模块中,在迭代过程中进行作弊检测,具体为:在协同分析建模协议中给出作弊检测开始的迭代轮次K,从第K轮开始,每轮投票完成后根据最近K-1轮各家医疗机构上链分享的单中心疾病预测模型损失的排序对参与协同分析建模的医疗机构进行筛选;若在最近K-1轮投票中有过半数量的医疗机构都将某医疗机构提供的单中心疾病预测模型的损失排在倒数两位,则将该医疗机构从协同分析建模区块链中剔除。
CN202210444327.2A 2022-04-26 2022-04-26 一种基于多中心临床数据防作弊分析的疾病预测系统 Active CN114566289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210444327.2A CN114566289B (zh) 2022-04-26 2022-04-26 一种基于多中心临床数据防作弊分析的疾病预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210444327.2A CN114566289B (zh) 2022-04-26 2022-04-26 一种基于多中心临床数据防作弊分析的疾病预测系统

Publications (2)

Publication Number Publication Date
CN114566289A CN114566289A (zh) 2022-05-31
CN114566289B true CN114566289B (zh) 2022-08-09

Family

ID=81721498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210444327.2A Active CN114566289B (zh) 2022-04-26 2022-04-26 一种基于多中心临床数据防作弊分析的疾病预测系统

Country Status (1)

Country Link
CN (1) CN114566289B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092683B (zh) * 2023-04-12 2023-06-23 深圳达实旗云健康科技有限公司 一种原始数据不出域的跨医疗机构疾病预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280479A (zh) * 2018-01-25 2018-07-13 重庆大学 一种基于负荷特性指标加权聚类算法的电网用户分类方法
CN112990921A (zh) * 2021-01-29 2021-06-18 腾讯科技(深圳)有限公司 基于区块链的数据处理方法、装置、计算机及存储介质
CN113723566A (zh) * 2021-09-15 2021-11-30 云知声智能科技股份有限公司 一种模型训练方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362586B (zh) * 2019-07-12 2021-08-03 之江实验室 一种无患者数据共享的多中心生物医学数据协同处理系统及方法
CN111640510A (zh) * 2020-04-09 2020-09-08 之江实验室 一种基于深度半监督多任务学习生存分析的疾病预后预测系统
US20220100601A1 (en) * 2020-09-29 2022-03-31 Hailo Technologies Ltd. Software Defined Redundant Allocation Safety Mechanism In An Artificial Neural Network Processor
CN112967812A (zh) * 2021-04-20 2021-06-15 钟爱健康科技(广东)有限公司 一种基于联邦学习的防窃取攻击医疗诊断模型保护方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280479A (zh) * 2018-01-25 2018-07-13 重庆大学 一种基于负荷特性指标加权聚类算法的电网用户分类方法
CN112990921A (zh) * 2021-01-29 2021-06-18 腾讯科技(深圳)有限公司 基于区块链的数据处理方法、装置、计算机及存储介质
CN113723566A (zh) * 2021-09-15 2021-11-30 云知声智能科技股份有限公司 一种模型训练方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A novel false data injection attack detection model of the cyber-physical power system;Cao J;《IEEE Access》;20200602;第8卷;全文 *
基于区块链的传染病监测与预警技术;欧阳丽炜等;《智能科学与技术学报》;20200615(第02期);全文 *
基于区块链的电子投票选举系统研究分析;张昕伟等;《电子技术应用》;20171106(第11期);全文 *
基于权重的改进K-means算法应用研究;宗春梅等;《高师理科学刊》;20171130(第11期);全文 *

Also Published As

Publication number Publication date
CN114566289A (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
Pivovarova et al. Quantifying the microeconomic effects of war using panel data: Evidence from Nepal
JP2022031730A (ja) 確率分布をモデル化するためのシステムおよび方法
CN106845147B (zh) 医学经验总结模型的建立方法、装置
Idike et al. Census politics in Nigeria: an examination of 2006 population census
Wong et al. A comparison of ICU mortality prediction using the APACHE II scoring system and artificial neural networks
CN114566289B (zh) 一种基于多中心临床数据防作弊分析的疾病预测系统
Vaishnav The market for criminality: Money, muscle and elections in India
CN110706095B (zh) 一种基于关联网络的目标节点关键信息填补方法及系统
CN116992980B (zh) 一种基于超网络和联邦学习的预后预测预警模型训练方法、系统及设备
Resce et al. Predicting agri-food quality across space: A Machine Learning model for the acknowledgment of Geographical Indications
CN106446552A (zh) 一种基于增量式神经网络模型的睡眠障碍预测方法和预测系统
CN116959725A (zh) 一种多模态数据融合的疾病风险预测方法
CN115952532A (zh) 一种基于联盟链联邦学习的隐私保护方法
CN115049397A (zh) 识别社交网络中的风险账户的方法及装置
CN115687526A (zh) 一种基于区块链和联邦学习的地震数据模型共享方法
CN108171578A (zh) 一种基于区块链交易网络的地址排名系统及其构建方法
Liu et al. An analysis of the spatial heterogeneity of future climate change impacts in support of cross-sectoral adaptation strategies in Japan
CN111582879A (zh) 一种基于遗传算法的医疗保险反欺诈识别方法
Tai et al. [Retracted] Breakdancing Movement Based on Image Recognition Promotes Preschool Children’s Executive Function and Intervention Plan
CN110942391A (zh) 在区块链中多活动标签用户的主要活动标签确定方法
CN113706290A (zh) 在区块链上采用神经架构搜索的信用评估模型构建方法、系统、设备及存储介质
CN106407693A (zh) 一种基于增量式神经网络模型的乙肝预测方法和预测系统
Hudgins et al. Results from the National Institute of Justice recidivism forecasting challenge
Fumey et al. Impact evaluation of households participation in agriculture on welfare in Ghana
Weng Is “deep learning” fraudulent legally?’

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant