CN114566289B - 一种基于多中心临床数据防作弊分析的疾病预测系统 - Google Patents
一种基于多中心临床数据防作弊分析的疾病预测系统 Download PDFInfo
- Publication number
- CN114566289B CN114566289B CN202210444327.2A CN202210444327A CN114566289B CN 114566289 B CN114566289 B CN 114566289B CN 202210444327 A CN202210444327 A CN 202210444327A CN 114566289 B CN114566289 B CN 114566289B
- Authority
- CN
- China
- Prior art keywords
- voting
- data
- model
- medical institution
- disease prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于多中心临床数据防作弊分析的疾病预测系统,本发明利用区块链技术共享伪数据,并让所有医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数,保证临床数据量少的医疗机构的真实临床数据能够被充分利用的同时还使得医疗机构无法对本地临床数据质量评价结果进行作弊。本发明设计的模型参数投票迭代机制,每轮迭代中根据投票结果保留一家医疗机构提供的模型参数,可以使得质量好的临床数据在模型训练中发挥更大作用。本发明设计的投票权的初始化和更新机制,以及在迭代投票过程中的作弊检测机制,让临床数据质量好的医疗机构拥有更多投票权,也防止了单家或多家医疗机构勾结篡改投票结果。
Description
技术领域
本发明属于医疗健康信息技术领域,具体涉及一种基于多中心临床数据防作弊分析的疾病预测系统。
背景技术
不同医疗机构由于其所在区域、治疗水平、医保报销、收费标准等因素的差别,在疾病数量分布上存在着较大的差异。单家医疗机构的临床数据不足以支撑一个高准确性的疾病预测模型构建。为了训练一个效果较好的疾病预测模型,往往需要大量高质量的临床数据。多中心临床数据的协同分析为大规模临床数据的整合分析利用提供了解决方案。但是,在数据安全和隐私保护的约束下,各家医疗机构的原始临床数据不能直接离开机构,导致多中心临床数据分析过程存在许多难点。
在多中心临床数据分析与建模的过程中,不仅需要保证临床数据不被窃取,还要保证参与协同分析建模的医疗机构无法单独或相互勾结后进行篡改疾病预测模型的模型参数、篡改疾病预测模型评价结果、泄露模型参数、提供噪声数据干扰模型训练、不提供真实临床数据或恶意提供低质量临床数据来获取最终模型参数等作弊行为。需要一种多中心临床数据防作弊分析方法,在保证临床数据安全性和防止医疗机构作弊的前提下,利用多家医疗机构的临床数据共同训练一个准确性高、泛化性好的疾病预测模型。现有的常见解决方案主要有:(1)联邦学习:由多家医疗机构和一个可信的中心服务器组成。医疗机构在本地利用临床数据训练预测模型,模型参数经过同态加密后发送给中心服务器。中心服务器利用同态加密的加法同态性和乘法同态性直接对模型参数的密文进行聚合处理,并将处理结果分发回医疗机构。医疗机构对聚合后的模型参数的密文进行解密后进行下一轮迭代,直至预测模型收敛。(2)群体智能:利用区块链,提供一种去中心化的协同分析建模方法。由医疗机构构成一个群网络,每家医疗机构在本地利用临床数据训练预测模型后通过区块链交换模型参数。模型参数在医疗机构本地进行模型聚合后进行下一轮迭代。
常见解决方案具有以下不足:联邦学习需要有一个中心服务器进行模型参数聚合等操作,医疗机构与中心服务器的地位不平等。不可信的中心服务器与医疗机构串通后会存在模型参数篡改、模型参数泄露等风险,甚至基于模型参数推断出原始临床数据。群体智能可以让医疗机构利用区块链传递模型参数,模型参数传递到单个医疗机构,与该机构本地训练的模型参数合并以后发送到下一家医疗机构。若存在不可信的医疗机构,则模型参数会存在泄露和被篡改的风险。
此外,联邦学习和群体智能在协同分析建模的过程中,各个医疗机构的临床数据具有相同的重要性。然而实际上部分医疗机构的临床数据质量较差,协同分析建模的过程中会对疾病预测模型的效果造成影响。
中国发明专利 CN114048515A公开了一种基于联邦学习和区块链的医疗大数据共享方法,利用传统的联邦学习框架进行协同分析建模,将训练过程中医疗机构每轮训练用时和准确率结果保存到区块链上。完成协同分析建模后,中心服务器根据每家医疗机构提供的算力、每轮训练用时、提供的临床数据量、提供的临床数据质量来分配奖励,如模型使用权限等。然而,每家医疗机构提供的算力、每轮训练用时、提供的临床数据量、提供的临床数据质量都是由医疗机构自己提供的,缺少验证其真实性的方法,存在着作弊的风险。例如,该方法中验证医疗机构临床数据质量的方法是根据本地模型的准确率计算得到,不可信的医疗机构可通过上传虚假的准确率来获得更多的奖励,如更高的模型使用权限等。
发明内容
针对现有技术的不足,本发明提供一种基于多中心临床数据防作弊分析的疾病预测系统。
本发明的目的是通过以下技术方案实现的:一种基于多中心临床数据防作弊分析的疾病预测系统,该系统包括以下模块:
初始化模块:用于发布疾病预测模型的协同分析建模协议,决定参与协同分析建模的医疗机构组成协同分析建模区块链;
数据质量评估模块,包括伪数据生成子模块和伪数据质量评估子模块;
伪数据生成子模块:用于各家医疗机构在本地利用临床数据训练生成对抗网络,并生成伪数据,各家医疗机构生成的伪数据的数据量相等;
伪数据质量评估子模块:用于将各家医疗机构生成的伪数据上链,各家医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数;
协同分析建模模块,包括模型训练子模块和投票子模块;
模型训练子模块:用于各家医疗机构在本地利用临床数据训练单中心疾病预测模型,并将单中心疾病预测模型的模型参数上链;
投票子模块:用于进行多轮迭代投票,在每轮投票中,动态更新各家医疗机构根据数据质量系数和之前轮次投票情况得到的投票权,各家医疗机构在本地利用临床数据计算所有单中心疾病预测模型的损失,结合自身投票权对单中心疾病预测模型进行投票,并将投票结果上链,票数最多的单中心疾病预测模型胜出,并作为本轮迭代得到的疾病预测模型,进入下一轮迭代;在迭代过程中进行作弊检测,将未通过作弊检测的医疗机构从协同分析建模区块链中剔除。
进一步地,所述初始化模块中,所述协同分析建模协议的内容包括疾病预测模型的模型结构、模型初始化参数、模型训练所需特征和标签、模型损失函数、生成伪数据用的生成对抗网络模型结构和参数、加权聚类模型的模型结构和参数。
进一步地,所述伪数据质量评估子模块中,数据质量系数的计算过程如下:
对于训练疾病预测模型的任一特征,医疗机构生成的伪数据中特征的数据
质量评分记为;M家医疗机构共同组成数据集,其中表示医
疗机构生成的伪数据中特征的数据,将记为,其中表
示第i个样本,N为伪数据的数据量,利用训练加权聚类模型,根据加权聚类模型的参数求得数据质量评分;
加权聚类模型训练完成后,计算每个样本中每个元素与跟该样本同一聚类
的样本的对应元素距离的均值和每个样本中每个元素与跟该样本不同聚类的样本的对应
元素距离的均值,得到的每一列的轮廓系数,根据轮廓系数与多样性阈值计算得到医疗
机构生成的伪数据中特征的数据多样性评分;
(2)通过以下公式更新聚类表征矩阵U;
进一步地,所述伪数据质量评估子模块中,的第j列轮廓系数的计算公式为,其中为每个样本中每个元素与跟该样本同一聚类的样本的对应元素
距离的均值,为每个样本中每个元素与跟该样本不同聚类的样本的对应元素距离的均
值;
进一步地,所述模型训练子模块中,在每轮迭代训练中,各家医疗机构利用本地临床数据训练投票子模块得到的上一轮迭代胜出的疾病预测模型,得到单中心疾病预测模型。
进一步地,所述投票子模块中,各家医疗机构的投票权由基础投票权、累积投票权和随机投票权加和得到;所述基础投票权由医疗机构的数据质量系数计算得到,在每轮迭代中保持不变;所述累积投票权由医疗机构之前轮次投票情况计算得到,在每轮迭代投票结束后更新;所述随机投票权在每轮迭代投票之前更新。
进一步地,所述累积投票权的更新具体为:根据医疗机构在每一轮给最终胜出的疾病预测模型的损失排序结果更新累积投票权,若上一轮投票中损失升序排序第一的单中心疾病预测模型胜出,则累积投票权清零,若上一轮投票中损失升序排序第二的单中心疾病预测模型胜出,则累积投票权减半,否则累积投票权加1。
进一步地,所述随机投票权的计算具体为:参与投票的医疗机构的随机投票权之
和为一固定值,在每轮迭代投票之前,根据参与投票的医疗机构的数据质量系数的哈希
值与当前轮次的哈希值之和,取最大前R个医疗机构,将它们在本轮投票中的随机投票权置
为1,其余医疗机构在本轮投票中的随机投票权置为0。
进一步地,所述投票子模块中,在迭代过程中进行作弊检测,具体为:在协同分析建模协议中给出作弊检测开始的迭代轮次K,从第K轮开始,每轮投票完成后根据最近K-1轮各家医疗机构上链分享的单中心疾病预测模型损失的排序对参与协同分析建模的医疗机构进行筛选;若在最近K-1轮投票中有过半数量的医疗机构都将某医疗机构提供的单中心疾病预测模型的损失排在倒数两位,则将该医疗机构从协同分析建模区块链中剔除。
本发明的有益效果是:
1. 针对医疗机构临床数据质量缺少验证的问题,本发明让各家医疗机构均在本地训练加权聚类模型,根据加权聚类模型结果确定数据的质量和多样性,并计算各家医疗机构的数据质量系数。数据质量系数公开,单个或多个医疗机构勾结也无法篡改数据质量系数。
2. 针对医疗机构勾结并篡改疾病预测模型评价结果的问题,本发明在每轮迭代中动态更新各家医疗机构的投票权。数据质量越好的医疗机构拥有更多的投票权,投票给胜出模型参数的医疗机构的投票权会在下一轮投票中适当减少,大幅增加了医疗机构勾结作弊成本。若一家或多家医疗机构勾结作弊,不使用上一轮胜出的模型参数进行本轮迭代训练,而是用其它模型参数进行本轮迭代训练,则在本轮的投票中,作弊的医疗机构提供的模型参数很难在非作弊的医疗机构的临床数据上取得好的效果,从而无法得到非作弊的医疗机构的投票。
3. 本发明设计的临床数据质量评估方法利用区块链技术共享伪数据,并让所有医疗机构用伪数据训练加权聚类模型来确定每家医疗机构的数据质量系数,保证临床数据量少的医疗机构的真实临床数据能够被充分利用的同时还使得医疗机构无法对本地临床数据质量的评价结果进行作弊。
4. 本发明设计的模型参数投票迭代机制,每轮迭代中根据投票结果保留一家医疗机构提供的模型参数进入下一轮迭代。这一机制可以使得质量好的临床数据在模型训练中发挥更大的作用。
5. 本发明设计投票权的初始化和更新机制,根据医疗机构的数据质量系数来确定医疗机构的投票权,并且根据每轮投票结果更新各家医疗机构的投票权。同时根据医疗机构给出的单中心疾病预测模型损失的排序,将达到判别条件的医疗机构从协同分析建模区块链中剔除。这一机制可以让临床数据质量好的医疗机构拥有更多投票权,也防止了单家或多家医疗机构勾结篡改投票结果,并且防止临床数据质量太差或没有真实临床数据的医疗机构获取最终模型结果。
附图说明
图1为本发明实施例提供的基于多中心临床数据防作弊分析的疾病预测系统结构图;
图2为本发明实施例提供的疾病预测模型构建流程图;
图3为本发明实施例提供的加权聚类模型训练流程图;
图4为本发明实施例提供的累积投票权更新机制示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明提供一种基于多中心临床数据防作弊分析的疾病预测系统,如图1所示,该系统包括初始化模块、数据质量评估模块和协同分析建模模块,进一步地,数据质量评估模块包括伪数据生成子模块和伪数据质量评估子模块,协同分析建模模块包括模型训练子模块和投票子模块。本发明用于多家医疗机构协同分析建模得到疾病预测模型,从而预测患者可能患有的疾病,作为辅助诊断。
图2为本发明一示例性实施例提供的疾病预测模型构建流程图,如图2所示,本发明首先利用区块链技术,让参与疾病预测模型协同分析建模的医疗机构上链。在开始协同分析建模之前,各家医疗机构在本地利用临床数据训练生成对抗网络,并生成伪数据。生成的伪数据上链后,各家医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数。协同分析建模过程中,各家医疗机构在本地利用真实临床数据训练单中心疾病预测模型后,将模型参数上链。每家医疗机构都拥有其他医疗机构分享的模型参数,根据本地临床数据计算每种模型参数对应的损失,然后投票给损失最小的两种模型参数。各家医疗机构的投票权根据自身的数据质量以及前几轮的投票情况计算得到。得票数最多的模型参数胜出,作为本轮协同分析训练的结果,进入下一轮迭代。在迭代过程中进行作弊检测,如果某家医疗机构作弊检测未通过,则将该医疗机构从协同分析建模区块链中剔除。
下述说明进一步给出了符合本申请要求的基于多中心临床数据防作弊分析的疾病预测系统各模块实现的部分实施例。
一、初始化模块
由一家医疗机构发布协同分析建模协议,协议内容包括疾病预测模型的模型结构、模型初始化参数、模型训练所需特征和标签、模型损失函数、生成伪数据用的生成对抗网络模型结构和参数、数据质量评估模块中的加权聚类模型的模型结构和参数。其他医疗机构收到协同分析建模协议后决定是否参与疾病预测模型协同分析建模。
参与协同分析建模的医疗机构组成协同分析建模区块链。区块链上的医疗机构能够将数据上链共享。
二、数据质量评估模块
该模块利用加权聚类模型的方法确定各家医疗机构根据真实临床数据生成的伪数据的数据质量和多样性,进而计算每家医疗机构的数据质量系数。该数据质量系数会在后续协同分析建模模块的投票子模块中成为计算每家医疗机构初始投票权的关键因素。临床数据质量和多样性越好的医疗结构会在数据质量评估模块中得到更大的数据质量系数,也会在投票子模块中获得更多的初始投票权,从而使得该医疗机构所支持的模型参数更有可能胜出。数据质量评估模块包括伪数据生成子模块和伪数据质量评估子模块,下面详细阐述每个子模块的实现过程。
2.1伪数据生成子模块
设共有M家医疗机构参与到疾病预测模型的协同分析建模中,医疗机构的集合记
为,医疗机构临床数据集合记为,其中
代表医疗机构的临床数据。,其中表示中特征的数据。每
家医疗机构临床数据量不同,记医疗机构的临床数据量为。是一个的矩阵。
医疗机构在本地服务器上利用训练生成对抗网络(GAN),得到模型。可以生成基于的伪数据。各家医疗机构生成的伪数据的数据量相等,记为N,本实
施例中设N=1000。医疗机构生成的伪数据集合记为。,其中表示中特征的数据。是一个的矩阵。生成
的伪数据能够反映真实临床数据的分布情况,而且真实临床数据量大的医疗机构生成的伪
数据的分布与真实临床数据分布更接近,因此伪数据的数据质量和真实临床数据的数据质
量有着紧密的关联,可以利用伪数据代替真实数据质量的评估。
2.2伪数据质量评估子模块
医疗机构将伪数据中特征的数据上链共享。M家医疗机构共同组成。是一个的矩阵,可以看作是一个由N个样本、M个特征组
成的数据集。可以将记为,其中T表示矩阵运算中的转置操作;
表示第i个样本,是一个长度为M的向量,用表示中第j个元素的值。利用训练一个
加权聚类模型,具体训练过程如下:
聚类中心的坐标集合为,其中表示第c个聚类中心的
坐标,是一个长度为M的向量,用表示中第j个元素的值。记
为样本中第j个元素到第c个聚类中心坐标的第j个元素的距离。同理,为样本中第j个元素到样本中第j个元素的距离。
第二步:通过以下公式更新聚类表征矩阵U。
将的第j列的轮廓系数记为,,其中表示取最大
值。越大代表的第j列在聚类结果中的多样性越差。医疗机构生成的伪数据中
特征的数据多样性评分记为,,其中为多样性阈值,取(0,
1),由协同分析建模协议给出。
三、协同分析建模模块
协同分析建模模块包括模型训练子模块和投票子模块,下面详细阐述每个子模块的实现过程。
3.1模型训练子模块
本实施例中使用的疾病预测模型的损失函数为二元交叉熵损失(Binary cross
entropy loss)。经过i轮迭代后,疾病预测模型记为。第i轮迭代中,医疗机构利用临
床数据训练第i-1轮胜出的疾病预测模型后得到单中心疾病预测模型记为,医
疗机构将上链共享给其他医疗机构。所有医疗机构通过投票子模块选出一个最优的
单中心疾病预测模型作为本轮迭代的结果,即本轮迭代后的疾病预测模型,,随后开始下一轮的迭代。总迭代次数记为ITER,本实施例中取
ITER=100。
3.2投票子模块
是医疗机构在第i轮投票中的随机投票权,在每轮投票之前都会更新,参与
投票的医疗机构的随机投票权之和为一固定值R,即,在本实施例中取R=10。在每
轮投票之前,根据参与投票的医疗机构的数据质量系数的哈希值与当前轮次的哈希值之
和,取最大前R个医疗机构,将它们在本轮投票中的随机投票权置为1,其余医疗机构在本轮
投票中的随机投票权置为0。
投票权计算公式对所有医疗机构都公开,因此区块链上各家医疗机构的投票权是透明公开的。医疗机构投出的票数可以是浮点数,精确到小数点后六位。
在第i轮迭代的投票过程中,参与投票的医疗机构在本地利用临床数据根据
协同分析建模协议中的疾病预测模型的损失函数分别计算所有单中心疾病预测模型的损失。记在上的损失为,。对升序排序,记对应的序号为。医疗机构给模型的投票数为,并有。医疗机构将和上链分享给其他参与协同分析建模的医疗机构。得到的总
票数为。若,则将记为第i轮迭代胜出的疾病预测模
型。
针对不提供真实临床数据或恶意提供低质量临床数据来获得最终疾病预测模型
参数的行为进行作弊检测,具体为:在协同分析建模协议中给出作弊检测开始的迭代轮次K,从第K轮迭代开始,每轮投票完成后根据最近K-1轮各家医疗机构上链分享的单中心疾病
预测模型损失的排序对参与协同分析建模的医疗机构进行筛选。若在最近K-1轮投票中有
过半数量的医疗机构都将医疗机构提供的单中心疾病预测模型的损失排在倒数前两位,
则将医疗机构从协同分析建模区块链中剔除,医疗机构无法进行后续的训练迭代,也无
法获得最终的疾病预测模型。
第i轮迭代的投票结束后,每家医疗机构的累积投票权将会更新。如图4所示,根据
医疗机构在每一轮给最终胜出的疾病预测模型的损失排序结果,更新累积投票权;若
胜出,则医疗机构在下一轮(第i+1轮)迭代的投票中的累积投票权计算公式如下:
以下给出本发明的一个具体应用场景。
A医院发起一个针对慢性胃炎、急性上呼吸道感染、二型糖尿病等50种全科疾病的疾病预测模型协同分析建模协议。疾病预测模型采用共3层神经网络,每层128个神经元,配合sigmoid激活函数的多标签分类器。疾病预测模型的损失函数采用二元交叉熵损失(Binary cross entropy loss)。协议中要求参与协同分析建模的医疗机构提供独热编码后的100种症状数据作为特征。
B医院、C医院、D医院同意该协同分析建模协议后与A医院共同组成协同分析建模区块链。四家医院分别各自训练生成对抗网络根据真实临床数据生成伪数据,并将伪数据上链。得到所有医院的伪数据后,每家医院都在本地训练加权聚类模型,确定每家医院的数据质量系数。每家医院计算得到的数据质量系数需公开,由于每家医院训练的模型和用到的伪数据是一样的,所以计算得到的数据质量系数也应该是一样的,无法从中作弊。根据数据质量系数可以确定每家医院的基础投票权。每家医院的投票权在进行投票之前是确定的,医院无法对其进行篡改。
然后开始疾病预测模型的协同分析建模。疾病预测模型的初始化参数由协同分析建模协议中给出。每家医院在本地利用临床数据对该模型进行训练,并将模型参数上链。四家医院都能得到自己的模型参数和其他三家医院的模型参数。每家医院都用损失函数分别计算每种模型参数在自己本地临床数据上的损失,并投票给损失最小的两种模型参数。得票最多的模型参数作为疾病预测模型本轮的训练结果,进入下一轮迭代,共计迭代1000次。
如果某家医院作弊检测未通过,则将该医院从协同分析建模区块链中剔除,该医院无法进行后续的训练迭代,也无法获得最终的疾病预测模型。
疾病预测模型协同分析建模完成后,通过作弊检测的所有医院都会得到这个模型的模型参数。得到该模型参数医院可以通过输入训练时用到的100种症状是否在某位患者身上出现,来预测该患者可能患有的全科疾病,作为辅助诊断。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,包括:
初始化模块:用于发布疾病预测模型的协同分析建模协议,决定参与协同分析建模的医疗机构组成协同分析建模区块链;
数据质量评估模块,包括伪数据生成子模块和伪数据质量评估子模块;
伪数据生成子模块:用于各家医疗机构在本地利用临床数据训练生成对抗网络,并生成伪数据,各家医疗机构生成的伪数据的数据量相等;
伪数据质量评估子模块:用于将各家医疗机构生成的伪数据上链,各家医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数,具体为,根据加权聚类模型的参数求得医疗机构生成的伪数据中特征的数据质量评分,根据加权聚类模型的轮廓系数与多样性阈值计算得到医疗机构生成的伪数据中特征的数据多样性评分,医疗机构的数据质量系数为医疗机构生成的伪数据中所有特征的数据质量评分与数据多样性评分之积的加权平均;
协同分析建模模块,包括模型训练子模块和投票子模块;
模型训练子模块:用于各家医疗机构在本地利用临床数据训练单中心疾病预测模型,并将单中心疾病预测模型的模型参数上链;
投票子模块:用于进行多轮迭代投票,在每轮投票中,动态更新各家医疗机构根据数据质量系数和之前轮次投票情况得到的投票权,各家医疗机构在本地利用临床数据计算所有单中心疾病预测模型的损失,结合自身投票权对单中心疾病预测模型进行投票,并将投票结果上链,票数最多的单中心疾病预测模型胜出,并作为本轮迭代得到的疾病预测模型,进入下一轮迭代;在迭代过程中进行作弊检测,将未通过作弊检测的医疗机构从协同分析建模区块链中剔除。
2.根据权利要求1所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述初始化模块中,所述协同分析建模协议的内容包括疾病预测模型的模型结构、模型初始化参数、模型训练所需特征和标签、模型损失函数、生成伪数据用的生成对抗网络模型结构和参数、加权聚类模型的模型结构和参数。
3.根据权利要求1所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述伪数据质量评估子模块中,数据质量系数的计算过程如下:
对于训练疾病预测模型的任一特征,医疗机构生成的伪数据中特征的数据质量
评分记为;M家医疗机构共同组成数据集,其中表示医疗机
构生成的伪数据中特征的数据,将记为,其中表示第i
个样本,N为伪数据的数据量,利用训练加权聚类模型,根据加权聚类模型的
参数求得数据质量评分;
加权聚类模型训练完成后,计算每个样本中每个元素与跟该样本同一聚类的样本
的对应元素距离的均值和每个样本中每个元素与跟该样本不同聚类的样本的对应元素距
离的均值,得到的每一列的轮廓系数,根据轮廓系数与多样性阈值计算得到医疗机构
生成的伪数据中特征的数据多样性评分;
(2)通过以下公式更新聚类表征矩阵U;
6.根据权利要求1-5中任一项所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述模型训练子模块中,在每轮迭代训练中,各家医疗机构利用本地临床数据训练投票子模块得到的上一轮迭代胜出的疾病预测模型,得到单中心疾病预测模型。
7.根据权利要求1-5中任一项所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述投票子模块中,各家医疗机构的投票权由基础投票权、累积投票权和随机投票权加和得到;所述基础投票权由医疗机构的数据质量系数计算得到,在每轮迭代中保持不变;所述累积投票权由医疗机构之前轮次投票情况计算得到,在每轮迭代投票结束后更新;所述随机投票权在每轮迭代投票之前更新。
8.根据权利要求7所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述累积投票权的更新具体为:根据医疗机构在每一轮给最终胜出的疾病预测模型的损失排序结果更新累积投票权,若上一轮投票中损失升序排序第一的单中心疾病预测模型胜出,则累积投票权清零,若上一轮投票中损失升序排序第二的单中心疾病预测模型胜出,则累积投票权减半,否则累积投票权加1。
9.根据权利要求7所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述随机投票权的计算具体为:参与投票的医疗机构的随机投票权之和为一固定值R,在每轮迭代投票之前,根据参与投票的医疗机构的数据质量系数的哈希值与当前轮次的哈希值之和,取最大前R个医疗机构,将它们在本轮投票中的随机投票权置为1,其余医疗机构在本轮投票中的随机投票权置为0。
10.根据权利要求1-5中任一项所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述投票子模块中,在迭代过程中进行作弊检测,具体为:在协同分析建模协议中给出作弊检测开始的迭代轮次K,从第K轮开始,每轮投票完成后根据最近K-1轮各家医疗机构上链分享的单中心疾病预测模型损失的排序对参与协同分析建模的医疗机构进行筛选;若在最近K-1轮投票中有过半数量的医疗机构都将某医疗机构提供的单中心疾病预测模型的损失排在倒数两位,则将该医疗机构从协同分析建模区块链中剔除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210444327.2A CN114566289B (zh) | 2022-04-26 | 2022-04-26 | 一种基于多中心临床数据防作弊分析的疾病预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210444327.2A CN114566289B (zh) | 2022-04-26 | 2022-04-26 | 一种基于多中心临床数据防作弊分析的疾病预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114566289A CN114566289A (zh) | 2022-05-31 |
CN114566289B true CN114566289B (zh) | 2022-08-09 |
Family
ID=81721498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210444327.2A Active CN114566289B (zh) | 2022-04-26 | 2022-04-26 | 一种基于多中心临床数据防作弊分析的疾病预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114566289B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092683B (zh) * | 2023-04-12 | 2023-06-23 | 深圳达实旗云健康科技有限公司 | 一种原始数据不出域的跨医疗机构疾病预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280479A (zh) * | 2018-01-25 | 2018-07-13 | 重庆大学 | 一种基于负荷特性指标加权聚类算法的电网用户分类方法 |
CN112990921A (zh) * | 2021-01-29 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 基于区块链的数据处理方法、装置、计算机及存储介质 |
CN113723566A (zh) * | 2021-09-15 | 2021-11-30 | 云知声智能科技股份有限公司 | 一种模型训练方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362586B (zh) * | 2019-07-12 | 2021-08-03 | 之江实验室 | 一种无患者数据共享的多中心生物医学数据协同处理系统及方法 |
CN111640510A (zh) * | 2020-04-09 | 2020-09-08 | 之江实验室 | 一种基于深度半监督多任务学习生存分析的疾病预后预测系统 |
US20220100601A1 (en) * | 2020-09-29 | 2022-03-31 | Hailo Technologies Ltd. | Software Defined Redundant Allocation Safety Mechanism In An Artificial Neural Network Processor |
CN112967812A (zh) * | 2021-04-20 | 2021-06-15 | 钟爱健康科技(广东)有限公司 | 一种基于联邦学习的防窃取攻击医疗诊断模型保护方法 |
-
2022
- 2022-04-26 CN CN202210444327.2A patent/CN114566289B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280479A (zh) * | 2018-01-25 | 2018-07-13 | 重庆大学 | 一种基于负荷特性指标加权聚类算法的电网用户分类方法 |
CN112990921A (zh) * | 2021-01-29 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 基于区块链的数据处理方法、装置、计算机及存储介质 |
CN113723566A (zh) * | 2021-09-15 | 2021-11-30 | 云知声智能科技股份有限公司 | 一种模型训练方法及装置 |
Non-Patent Citations (4)
Title |
---|
A novel false data injection attack detection model of the cyber-physical power system;Cao J;《IEEE Access》;20200602;第8卷;全文 * |
基于区块链的传染病监测与预警技术;欧阳丽炜等;《智能科学与技术学报》;20200615(第02期);全文 * |
基于区块链的电子投票选举系统研究分析;张昕伟等;《电子技术应用》;20171106(第11期);全文 * |
基于权重的改进K-means算法应用研究;宗春梅等;《高师理科学刊》;20171130(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114566289A (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pivovarova et al. | Quantifying the microeconomic effects of war using panel data: Evidence from Nepal | |
JP2022031730A (ja) | 確率分布をモデル化するためのシステムおよび方法 | |
CN106845147B (zh) | 医学经验总结模型的建立方法、装置 | |
Idike et al. | Census politics in Nigeria: an examination of 2006 population census | |
Wong et al. | A comparison of ICU mortality prediction using the APACHE II scoring system and artificial neural networks | |
CN114566289B (zh) | 一种基于多中心临床数据防作弊分析的疾病预测系统 | |
Vaishnav | The market for criminality: Money, muscle and elections in India | |
CN110706095B (zh) | 一种基于关联网络的目标节点关键信息填补方法及系统 | |
CN116992980B (zh) | 一种基于超网络和联邦学习的预后预测预警模型训练方法、系统及设备 | |
Resce et al. | Predicting agri-food quality across space: A Machine Learning model for the acknowledgment of Geographical Indications | |
CN106446552A (zh) | 一种基于增量式神经网络模型的睡眠障碍预测方法和预测系统 | |
CN116959725A (zh) | 一种多模态数据融合的疾病风险预测方法 | |
CN115952532A (zh) | 一种基于联盟链联邦学习的隐私保护方法 | |
CN115049397A (zh) | 识别社交网络中的风险账户的方法及装置 | |
CN115687526A (zh) | 一种基于区块链和联邦学习的地震数据模型共享方法 | |
CN108171578A (zh) | 一种基于区块链交易网络的地址排名系统及其构建方法 | |
Liu et al. | An analysis of the spatial heterogeneity of future climate change impacts in support of cross-sectoral adaptation strategies in Japan | |
CN111582879A (zh) | 一种基于遗传算法的医疗保险反欺诈识别方法 | |
Tai et al. | [Retracted] Breakdancing Movement Based on Image Recognition Promotes Preschool Children’s Executive Function and Intervention Plan | |
CN110942391A (zh) | 在区块链中多活动标签用户的主要活动标签确定方法 | |
CN113706290A (zh) | 在区块链上采用神经架构搜索的信用评估模型构建方法、系统、设备及存储介质 | |
CN106407693A (zh) | 一种基于增量式神经网络模型的乙肝预测方法和预测系统 | |
Hudgins et al. | Results from the National Institute of Justice recidivism forecasting challenge | |
Fumey et al. | Impact evaluation of households participation in agriculture on welfare in Ghana | |
Weng | Is “deep learning” fraudulent legally?’ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |