CN114566289B

CN114566289B - 一种基于多中心临床数据防作弊分析的疾病预测系统

Info

Publication number: CN114566289B
Application number: CN202210444327.2A
Authority: CN
Inventors: 李冠男; 李劲松; 池胜强; 王宇清; 朱伟伟; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-08-09
Anticipated expiration: 2042-04-26
Also published as: CN114566289A

Abstract

本发明公开了一种基于多中心临床数据防作弊分析的疾病预测系统，本发明利用区块链技术共享伪数据，并让所有医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数，保证临床数据量少的医疗机构的真实临床数据能够被充分利用的同时还使得医疗机构无法对本地临床数据质量评价结果进行作弊。本发明设计的模型参数投票迭代机制，每轮迭代中根据投票结果保留一家医疗机构提供的模型参数，可以使得质量好的临床数据在模型训练中发挥更大作用。本发明设计的投票权的初始化和更新机制，以及在迭代投票过程中的作弊检测机制，让临床数据质量好的医疗机构拥有更多投票权，也防止了单家或多家医疗机构勾结篡改投票结果。

Description

一种基于多中心临床数据防作弊分析的疾病预测系统

技术领域

本发明属于医疗健康信息技术领域，具体涉及一种基于多中心临床数据防作弊分析的疾病预测系统。

背景技术

不同医疗机构由于其所在区域、治疗水平、医保报销、收费标准等因素的差别，在疾病数量分布上存在着较大的差异。单家医疗机构的临床数据不足以支撑一个高准确性的疾病预测模型构建。为了训练一个效果较好的疾病预测模型，往往需要大量高质量的临床数据。多中心临床数据的协同分析为大规模临床数据的整合分析利用提供了解决方案。但是，在数据安全和隐私保护的约束下，各家医疗机构的原始临床数据不能直接离开机构，导致多中心临床数据分析过程存在许多难点。

在多中心临床数据分析与建模的过程中，不仅需要保证临床数据不被窃取，还要保证参与协同分析建模的医疗机构无法单独或相互勾结后进行篡改疾病预测模型的模型参数、篡改疾病预测模型评价结果、泄露模型参数、提供噪声数据干扰模型训练、不提供真实临床数据或恶意提供低质量临床数据来获取最终模型参数等作弊行为。需要一种多中心临床数据防作弊分析方法，在保证临床数据安全性和防止医疗机构作弊的前提下，利用多家医疗机构的临床数据共同训练一个准确性高、泛化性好的疾病预测模型。现有的常见解决方案主要有：（1）联邦学习：由多家医疗机构和一个可信的中心服务器组成。医疗机构在本地利用临床数据训练预测模型，模型参数经过同态加密后发送给中心服务器。中心服务器利用同态加密的加法同态性和乘法同态性直接对模型参数的密文进行聚合处理，并将处理结果分发回医疗机构。医疗机构对聚合后的模型参数的密文进行解密后进行下一轮迭代，直至预测模型收敛。（2）群体智能：利用区块链，提供一种去中心化的协同分析建模方法。由医疗机构构成一个群网络，每家医疗机构在本地利用临床数据训练预测模型后通过区块链交换模型参数。模型参数在医疗机构本地进行模型聚合后进行下一轮迭代。

常见解决方案具有以下不足：联邦学习需要有一个中心服务器进行模型参数聚合等操作，医疗机构与中心服务器的地位不平等。不可信的中心服务器与医疗机构串通后会存在模型参数篡改、模型参数泄露等风险，甚至基于模型参数推断出原始临床数据。群体智能可以让医疗机构利用区块链传递模型参数，模型参数传递到单个医疗机构，与该机构本地训练的模型参数合并以后发送到下一家医疗机构。若存在不可信的医疗机构，则模型参数会存在泄露和被篡改的风险。

此外，联邦学习和群体智能在协同分析建模的过程中，各个医疗机构的临床数据具有相同的重要性。然而实际上部分医疗机构的临床数据质量较差，协同分析建模的过程中会对疾病预测模型的效果造成影响。

中国发明专利 CN114048515A公开了一种基于联邦学习和区块链的医疗大数据共享方法，利用传统的联邦学习框架进行协同分析建模，将训练过程中医疗机构每轮训练用时和准确率结果保存到区块链上。完成协同分析建模后，中心服务器根据每家医疗机构提供的算力、每轮训练用时、提供的临床数据量、提供的临床数据质量来分配奖励，如模型使用权限等。然而，每家医疗机构提供的算力、每轮训练用时、提供的临床数据量、提供的临床数据质量都是由医疗机构自己提供的，缺少验证其真实性的方法，存在着作弊的风险。例如，该方法中验证医疗机构临床数据质量的方法是根据本地模型的准确率计算得到，不可信的医疗机构可通过上传虚假的准确率来获得更多的奖励，如更高的模型使用权限等。

发明内容

针对现有技术的不足，本发明提供一种基于多中心临床数据防作弊分析的疾病预测系统。

本发明的目的是通过以下技术方案实现的：一种基于多中心临床数据防作弊分析的疾病预测系统，该系统包括以下模块：

初始化模块：用于发布疾病预测模型的协同分析建模协议，决定参与协同分析建模的医疗机构组成协同分析建模区块链；

数据质量评估模块，包括伪数据生成子模块和伪数据质量评估子模块；

伪数据生成子模块：用于各家医疗机构在本地利用临床数据训练生成对抗网络，并生成伪数据，各家医疗机构生成的伪数据的数据量相等；

伪数据质量评估子模块：用于将各家医疗机构生成的伪数据上链，各家医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数；

协同分析建模模块，包括模型训练子模块和投票子模块；

模型训练子模块：用于各家医疗机构在本地利用临床数据训练单中心疾病预测模型，并将单中心疾病预测模型的模型参数上链；

投票子模块：用于进行多轮迭代投票，在每轮投票中，动态更新各家医疗机构根据数据质量系数和之前轮次投票情况得到的投票权，各家医疗机构在本地利用临床数据计算所有单中心疾病预测模型的损失，结合自身投票权对单中心疾病预测模型进行投票，并将投票结果上链，票数最多的单中心疾病预测模型胜出，并作为本轮迭代得到的疾病预测模型，进入下一轮迭代；在迭代过程中进行作弊检测，将未通过作弊检测的医疗机构从协同分析建模区块链中剔除。

进一步地，所述初始化模块中，所述协同分析建模协议的内容包括疾病预测模型的模型结构、模型初始化参数、模型训练所需特征和标签、模型损失函数、生成伪数据用的生成对抗网络模型结构和参数、加权聚类模型的模型结构和参数。

进一步地，所述伪数据质量评估子模块中，数据质量系数的计算过程如下：

对于训练疾病预测模型的任一特征

，医疗机构

生成的伪数据中特征

的数据质量评分记为

；M家医疗机构共同组成数据集

，其中

表示医疗机构

生成的伪数据中特征

的数据，将

记为

，其中

表示第i个样本，N为伪数据的数据量，利用

训练加权聚类模型

，根据加权聚类模型

的参数求得数据质量评分

；

加权聚类模型

训练完成后，计算每个样本中每个元素与跟该样本同一聚类的样本的对应元素距离的均值和每个样本中每个元素与跟该样本不同聚类的样本的对应元素距离的均值，得到

的每一列的轮廓系数，根据轮廓系数与多样性阈值计算得到医疗机构

生成的伪数据中特征

的数据多样性评分

；

医疗机构

的数据质量系数为医疗机构

生成的伪数据中所有特征的数据质量评分与数据多样性评分之积的加权平均。

进一步地，所述伪数据质量评估子模块中，利用

训练加权聚类模型

，包括：

设加权聚类模型

的聚类个数为C，聚类表征矩阵为U，聚类中心的坐标集合为

，其中

表示第c个聚类中心坐标，记

为

中第j个元素

到

中第j个元素

的距离；M家医疗机构对应的特征

的数据质量评分构成数据质量评分集合

；

加权聚类模型

的损失函数定义为

，其中

表示聚类表征矩阵U中第i行第c列的元素，通过训练迭代来减小

的损失函数，训练迭代步骤如下：

(1)随机设定初始化聚类中心的坐标集合Z、数据质量评分集合

和聚类表征矩阵U；

(2)通过以下公式更新聚类表征矩阵U；

再计算新的

，若

保持不变，则停止迭代，否则进入步骤(3)；

(3)通过公式

更新聚类中心的坐标集合Z，再计算新的

，若

保持不变，则停止迭代，否则进入步骤(4)；

(4)通过公式

更新数据质量评分集合

，其中

，再计算新的

，若

保持不变，则停止迭代，否则返回步骤(2)迭代计算。

进一步地，所述伪数据质量评估子模块中，

的第j列轮廓系数

的计算公式为

，其中

为每个样本中每个元素与跟该样本同一聚类的样本的对应元素距离的均值，

为每个样本中每个元素与跟该样本不同聚类的样本的对应元素距离的均值；

医疗机构

生成的伪数据中特征

的数据多样性评分

，其中

为多样性阈值。

进一步地，所述模型训练子模块中，在每轮迭代训练中，各家医疗机构利用本地临床数据训练投票子模块得到的上一轮迭代胜出的疾病预测模型，得到单中心疾病预测模型。

进一步地，所述投票子模块中，各家医疗机构的投票权由基础投票权、累积投票权和随机投票权加和得到；所述基础投票权由医疗机构的数据质量系数计算得到，在每轮迭代中保持不变；所述累积投票权由医疗机构之前轮次投票情况计算得到，在每轮迭代投票结束后更新；所述随机投票权在每轮迭代投票之前更新。

进一步地，所述累积投票权的更新具体为：根据医疗机构在每一轮给最终胜出的疾病预测模型的损失排序结果更新累积投票权，若上一轮投票中损失升序排序第一的单中心疾病预测模型胜出，则累积投票权清零，若上一轮投票中损失升序排序第二的单中心疾病预测模型胜出，则累积投票权减半，否则累积投票权加1。

进一步地，所述随机投票权的计算具体为：参与投票的医疗机构的随机投票权之和为一固定值

，在每轮迭代投票之前，根据参与投票的医疗机构的数据质量系数的哈希值与当前轮次的哈希值之和，取最大前R个医疗机构，将它们在本轮投票中的随机投票权置为1，其余医疗机构在本轮投票中的随机投票权置为0。

进一步地，所述投票子模块中，在迭代过程中进行作弊检测，具体为：在协同分析建模协议中给出作弊检测开始的迭代轮次K，从第K轮开始，每轮投票完成后根据最近K-1轮各家医疗机构上链分享的单中心疾病预测模型损失的排序对参与协同分析建模的医疗机构进行筛选；若在最近K-1轮投票中有过半数量的医疗机构都将某医疗机构提供的单中心疾病预测模型的损失排在倒数两位，则将该医疗机构从协同分析建模区块链中剔除。

本发明的有益效果是：

1. 针对医疗机构临床数据质量缺少验证的问题，本发明让各家医疗机构均在本地训练加权聚类模型，根据加权聚类模型结果确定数据的质量和多样性，并计算各家医疗机构的数据质量系数。数据质量系数公开，单个或多个医疗机构勾结也无法篡改数据质量系数。

2. 针对医疗机构勾结并篡改疾病预测模型评价结果的问题，本发明在每轮迭代中动态更新各家医疗机构的投票权。数据质量越好的医疗机构拥有更多的投票权，投票给胜出模型参数的医疗机构的投票权会在下一轮投票中适当减少，大幅增加了医疗机构勾结作弊成本。若一家或多家医疗机构勾结作弊，不使用上一轮胜出的模型参数进行本轮迭代训练，而是用其它模型参数进行本轮迭代训练，则在本轮的投票中，作弊的医疗机构提供的模型参数很难在非作弊的医疗机构的临床数据上取得好的效果，从而无法得到非作弊的医疗机构的投票。

3. 本发明设计的临床数据质量评估方法利用区块链技术共享伪数据，并让所有医疗机构用伪数据训练加权聚类模型来确定每家医疗机构的数据质量系数，保证临床数据量少的医疗机构的真实临床数据能够被充分利用的同时还使得医疗机构无法对本地临床数据质量的评价结果进行作弊。

4. 本发明设计的模型参数投票迭代机制，每轮迭代中根据投票结果保留一家医疗机构提供的模型参数进入下一轮迭代。这一机制可以使得质量好的临床数据在模型训练中发挥更大的作用。

5. 本发明设计投票权的初始化和更新机制，根据医疗机构的数据质量系数来确定医疗机构的投票权，并且根据每轮投票结果更新各家医疗机构的投票权。同时根据医疗机构给出的单中心疾病预测模型损失的排序，将达到判别条件的医疗机构从协同分析建模区块链中剔除。这一机制可以让临床数据质量好的医疗机构拥有更多投票权，也防止了单家或多家医疗机构勾结篡改投票结果，并且防止临床数据质量太差或没有真实临床数据的医疗机构获取最终模型结果。

附图说明

图1为本发明实施例提供的基于多中心临床数据防作弊分析的疾病预测系统结构图；

图2为本发明实施例提供的疾病预测模型构建流程图；

图3为本发明实施例提供的加权聚类模型训练流程图；

图4为本发明实施例提供的累积投票权更新机制示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明提供一种基于多中心临床数据防作弊分析的疾病预测系统，如图1所示，该系统包括初始化模块、数据质量评估模块和协同分析建模模块，进一步地，数据质量评估模块包括伪数据生成子模块和伪数据质量评估子模块，协同分析建模模块包括模型训练子模块和投票子模块。本发明用于多家医疗机构协同分析建模得到疾病预测模型，从而预测患者可能患有的疾病，作为辅助诊断。

图2为本发明一示例性实施例提供的疾病预测模型构建流程图，如图2所示，本发明首先利用区块链技术，让参与疾病预测模型协同分析建模的医疗机构上链。在开始协同分析建模之前，各家医疗机构在本地利用临床数据训练生成对抗网络，并生成伪数据。生成的伪数据上链后，各家医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数。协同分析建模过程中，各家医疗机构在本地利用真实临床数据训练单中心疾病预测模型后，将模型参数上链。每家医疗机构都拥有其他医疗机构分享的模型参数，根据本地临床数据计算每种模型参数对应的损失，然后投票给损失最小的两种模型参数。各家医疗机构的投票权根据自身的数据质量以及前几轮的投票情况计算得到。得票数最多的模型参数胜出，作为本轮协同分析训练的结果，进入下一轮迭代。在迭代过程中进行作弊检测，如果某家医疗机构作弊检测未通过，则将该医疗机构从协同分析建模区块链中剔除。

下述说明进一步给出了符合本申请要求的基于多中心临床数据防作弊分析的疾病预测系统各模块实现的部分实施例。

一、初始化模块

由一家医疗机构发布协同分析建模协议，协议内容包括疾病预测模型的模型结构、模型初始化参数、模型训练所需特征和标签、模型损失函数、生成伪数据用的生成对抗网络模型结构和参数、数据质量评估模块中的加权聚类模型的模型结构和参数。其他医疗机构收到协同分析建模协议后决定是否参与疾病预测模型协同分析建模。

具体地，在协同分析建模协议中给出初始化疾病预测模型记为

，本实施例中疾病预测模型采用共3层神经网络，每层128个神经元，配合sigmoid激活函数的多标签分类器。

参与协同分析建模的医疗机构组成协同分析建模区块链。区块链上的医疗机构能够将数据上链共享。

二、数据质量评估模块

该模块利用加权聚类模型的方法确定各家医疗机构根据真实临床数据生成的伪数据的数据质量和多样性，进而计算每家医疗机构的数据质量系数。该数据质量系数会在后续协同分析建模模块的投票子模块中成为计算每家医疗机构初始投票权的关键因素。临床数据质量和多样性越好的医疗结构会在数据质量评估模块中得到更大的数据质量系数，也会在投票子模块中获得更多的初始投票权，从而使得该医疗机构所支持的模型参数更有可能胜出。数据质量评估模块包括伪数据生成子模块和伪数据质量评估子模块，下面详细阐述每个子模块的实现过程。

2.1伪数据生成子模块

协同分析建模协议中训练疾病预测模型的特征集合记为

，其中K为训练疾病预测模型的特征数量，

表示第k种特征。

设共有M家医疗机构参与到疾病预测模型的协同分析建模中，医疗机构的集合记为

，医疗机构临床数据集合记为

，其中

代表医疗机构

的临床数据。

，其中

表示

中特征

的数据。每家医疗机构临床数据量不同，记医疗机构

的临床数据量为

。

是一个

的矩阵。

医疗机构

在本地服务器上利用

训练生成对抗网络（GAN），得到模型

。

可以生成基于

的伪数据

。各家医疗机构生成的伪数据的数据量相等，记为N，本实施例中设N=1000。医疗机构生成的伪数据集合记为

。

，其中

表示

中特征

的数据。

是一个

的矩阵。生成的伪数据能够反映真实临床数据的分布情况，而且真实临床数据量大的医疗机构生成的伪数据的分布与真实临床数据分布更接近，因此伪数据的数据质量和真实临床数据的数据质量有着紧密的关联，可以利用伪数据代替真实数据质量的评估。

2.2伪数据质量评估子模块

对于特征集合F中的任一特征

，

，医疗机构

生成的伪数据

中特征

的数据质量评分记为

。数据质量评分集合

。数据质量评分

通过加权聚类模型的参数求得，具体步骤如下。

医疗机构

将伪数据

中特征

的数据

上链共享。M家医疗机构共同组成

。

是一个

的矩阵，可以看作是一个由N个样本、M个特征组成的数据集。可以将

记为

，其中T表示矩阵运算中的转置操作；

表示第i个样本，是一个长度为M的向量，用

表示

中第j个元素的值。利用

训练一个加权聚类模型

，具体训练过程如下：

设加权聚类模型

的聚类个数为C，本实施例中设C=10。设聚类表征矩阵为U，是一个

的矩阵，聚类表征矩阵

中第i行第j列的元素记为

，值为：

聚类中心的坐标集合为

，其中

表示第c个聚类中心的坐标，是一个长度为M的向量，用

表示

中第j个元素的值。记

为样本

中第j个元素到第c个聚类中心坐标的第j个元素的距离。同理，

为样本

中第j个元素到样本

中第j个元素的距离。

加权聚类模型

的损失函数定义为

，通过训练迭代来减小

的损失函数，如图3所示，训练迭代步骤如下：

第一步：随机设定初始化聚类中心的坐标集合Z、数据质量评分集合

和聚类表征矩阵U。

第二步：通过以下公式更新聚类表征矩阵U。

再计算新的

。若

保持不变，则停止迭代，否则进入第三步。

第三步：通过公式

更新聚类中心的坐标集合Z，再计算新的

。若

保持不变，则停止迭代，否则进入第四步。

第四步：通过公式

更新数据质量评分集合

，其中

，代表了

中每个样本的第j个元素到该样本所属聚类中心坐标的第j个元素的距离之和。再计算新的

。若

保持不变，则停止迭代，否则返回第二步迭代计算。

加权聚类模型

训练迭代完成后，计算每个样本中每个元素与跟该样本同一聚类的样本的对应元素距离的均值

和每个样本中每个元素与跟该样本不同聚类的样本的对应元素距离的均值，计算公式分别为：

将

的第j列的轮廓系数记为

，

，其中

表示取最大值。

越大代表

的第j列在聚类结果中的多样性越差。医疗机构

生成的伪数据

中特征

的数据多样性评分记为

，

，其中

为多样性阈值，取(0, 1)，由协同分析建模协议给出。

医疗机构

的数据质量系数

定义为伪数据

中所有特征的数据质量评分与数据多样性评分之积的加权平均，即

。

三、协同分析建模模块

协同分析建模模块包括模型训练子模块和投票子模块，下面详细阐述每个子模块的实现过程。

3.1模型训练子模块

本实施例中使用的疾病预测模型的损失函数为二元交叉熵损失（Binary cross entropy loss）。经过i轮迭代后，疾病预测模型记为

。第i轮迭代中，医疗机构

利用临床数据

训练第i-1轮胜出的疾病预测模型

后得到单中心疾病预测模型记为

，医疗机构

将

上链共享给其他医疗机构。所有医疗机构通过投票子模块选出一个最优的单中心疾病预测模型作为本轮迭代的结果，即本轮迭代后的疾病预测模型

，

，随后开始下一轮的迭代。总迭代次数记为ITER，本实施例中取 ITER=100。

3.2投票子模块

在第i轮迭代中，医疗机构

的投票权记为

，计算公式为

。

其中

是医疗机构

的基础投票权，由数据质量系数

计算得到，计算公式为

。

在每轮迭代中保持不变。

是医疗机构

在第i轮投票中的累积投票权，累积投票权初始值

，每轮投票后的更新规则在下文中说明。

是医疗机构

在第i轮投票中的随机投票权，

在每轮投票之前都会更新，参与投票的医疗机构的随机投票权之和为一固定值R，即

，在本实施例中取R=10。在每轮投票之前，根据参与投票的医疗机构的数据质量系数的哈希值与当前轮次的哈希值之和，取最大前R个医疗机构，将它们在本轮投票中的随机投票权置为1，其余医疗机构在本轮投票中的随机投票权置为0。

投票权计算公式对所有医疗机构都公开，因此区块链上各家医疗机构的投票权是透明公开的。医疗机构投出的票数可以是浮点数，精确到小数点后六位。

在第i轮迭代的投票过程中，参与投票的医疗机构

在本地利用临床数据

根据协同分析建模协议中的疾病预测模型的损失函数分别计算所有单中心疾病预测模型

的损失。记

在

上的损失为

，

。对

升序排序，记

对应的序号为

。医疗机构

给模型

的投票数为

，并有

。医疗机构

将

和

上链分享给其他参与协同分析建模的医疗机构。

得到的总票数为

。若

，则将

记为第i轮迭代胜出的疾病预测模型

。

针对不提供真实临床数据或恶意提供低质量临床数据来获得最终疾病预测模型参数的行为进行作弊检测，具体为：在协同分析建模协议中给出作弊检测开始的迭代轮次K，从第K轮迭代开始，每轮投票完成后根据最近K-1轮各家医疗机构上链分享的单中心疾病预测模型损失的排序对参与协同分析建模的医疗机构进行筛选。若在最近K-1轮投票中有过半数量的医疗机构都将医疗机构

提供的单中心疾病预测模型的损失排在倒数前两位，则将医疗机构

从协同分析建模区块链中剔除，医疗机构

无法进行后续的训练迭代，也无法获得最终的疾病预测模型。

第i轮迭代的投票结束后，每家医疗机构的累积投票权将会更新。如图4所示，根据医疗机构

在每一轮给最终胜出的疾病预测模型的损失排序结果，更新累积投票权；若

胜出，则医疗机构

在下一轮（第i+1轮）迭代的投票中的累积投票权

计算公式如下：

。

以下给出本发明的一个具体应用场景。

A医院发起一个针对慢性胃炎、急性上呼吸道感染、二型糖尿病等50种全科疾病的疾病预测模型协同分析建模协议。疾病预测模型采用共3层神经网络，每层128个神经元，配合sigmoid激活函数的多标签分类器。疾病预测模型的损失函数采用二元交叉熵损失（Binary cross entropy loss）。协议中要求参与协同分析建模的医疗机构提供独热编码后的100种症状数据作为特征。

B医院、C医院、D医院同意该协同分析建模协议后与A医院共同组成协同分析建模区块链。四家医院分别各自训练生成对抗网络根据真实临床数据生成伪数据，并将伪数据上链。得到所有医院的伪数据后，每家医院都在本地训练加权聚类模型，确定每家医院的数据质量系数。每家医院计算得到的数据质量系数需公开，由于每家医院训练的模型和用到的伪数据是一样的，所以计算得到的数据质量系数也应该是一样的，无法从中作弊。根据数据质量系数可以确定每家医院的基础投票权。每家医院的投票权在进行投票之前是确定的，医院无法对其进行篡改。

然后开始疾病预测模型的协同分析建模。疾病预测模型的初始化参数由协同分析建模协议中给出。每家医院在本地利用临床数据对该模型进行训练，并将模型参数上链。四家医院都能得到自己的模型参数和其他三家医院的模型参数。每家医院都用损失函数分别计算每种模型参数在自己本地临床数据上的损失，并投票给损失最小的两种模型参数。得票最多的模型参数作为疾病预测模型本轮的训练结果，进入下一轮迭代，共计迭代1000次。

如果某家医院作弊检测未通过，则将该医院从协同分析建模区块链中剔除，该医院无法进行后续的训练迭代，也无法获得最终的疾病预测模型。

疾病预测模型协同分析建模完成后，通过作弊检测的所有医院都会得到这个模型的模型参数。得到该模型参数医院可以通过输入训练时用到的100种症状是否在某位患者身上出现，来预测该患者可能患有的全科疾病，作为辅助诊断。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，包括：

伪数据质量评估子模块：用于将各家医疗机构生成的伪数据上链，各家医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数，具体为，根据加权聚类模型的参数求得医疗机构生成的伪数据中特征的数据质量评分，根据加权聚类模型的轮廓系数与多样性阈值计算得到医疗机构生成的伪数据中特征的数据多样性评分，医疗机构的数据质量系数为医疗机构生成的伪数据中所有特征的数据质量评分与数据多样性评分之积的加权平均；

协同分析建模模块，包括模型训练子模块和投票子模块；

2.根据权利要求1所述的一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，所述初始化模块中，所述协同分析建模协议的内容包括疾病预测模型的模型结构、模型初始化参数、模型训练所需特征和标签、模型损失函数、生成伪数据用的生成对抗网络模型结构和参数、加权聚类模型的模型结构和参数。

3.根据权利要求1所述的一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，所述伪数据质量评估子模块中，数据质量系数的计算过程如下：

对于训练疾病预测模型的任一特征

，医疗机构

生成的伪数据中特征

的数据质量评分记为

；M家医疗机构共同组成数据集

，其中

表示医疗机构

生成的伪数据中特征

的数据，将

记为

，其中

表示第i 个样本，N为伪数据的数据量，利用

训练加权聚类模型

，根据加权聚类模型

的参数求得数据质量评分

；

加权聚类模型

生成的伪数据中特征

的数据多样性评分

；

医疗机构

的数据质量系数为医疗机构

4.根据权利要求3所述的一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，所述伪数据质量评估子模块中，利用

训练加权聚类模型

，包括：

设加权聚类模型

的聚类个数为C，聚类表征矩阵为U，聚类中心的坐标集合为

，其中

表示第c个聚类中心坐标，记

为

中第j个元素

到

中第j个元素

的距离；M家医疗机构对应的特征

的数据质量评分构成数据质量评分集合

；

加权聚类模型

的损失函数定义为

，其中

的损失函数，训练迭代步骤如下：

(1)随机设定初始化聚类中心的坐标集合Z、数据质量评分集合

和聚类表征矩阵U；

(2)通过以下公式更新聚类表征矩阵U；

再计算新的

，若

保持不变，则停止迭代，否则进入步骤(3)；

(3)通过公式

更新聚类中心的坐标集合Z，再计算新的

，若

保持不变，则停止迭代，否则进入步骤(4)；

(4)通过公式

更新数据质量评分集合

，其中

，再计算新的

，若

保持不变，则停止迭代，否则返回步骤(2)迭代计算。

5.根据权利要求3所述的一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，所述伪数据质量评估子模块中，

的第j列轮廓系数

的计算公式为

，其中

医疗机构

生成的伪数据中特征

的数据多样性评分

，其中

为多样性阈值。

6.根据权利要求1-5中任一项所述的一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，所述模型训练子模块中，在每轮迭代训练中，各家医疗机构利用本地临床数据训练投票子模块得到的上一轮迭代胜出的疾病预测模型，得到单中心疾病预测模型。

7.根据权利要求1-5中任一项所述的一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，所述投票子模块中，各家医疗机构的投票权由基础投票权、累积投票权和随机投票权加和得到；所述基础投票权由医疗机构的数据质量系数计算得到，在每轮迭代中保持不变；所述累积投票权由医疗机构之前轮次投票情况计算得到，在每轮迭代投票结束后更新；所述随机投票权在每轮迭代投票之前更新。

8.根据权利要求7所述的一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，所述累积投票权的更新具体为：根据医疗机构在每一轮给最终胜出的疾病预测模型的损失排序结果更新累积投票权，若上一轮投票中损失升序排序第一的单中心疾病预测模型胜出，则累积投票权清零，若上一轮投票中损失升序排序第二的单中心疾病预测模型胜出，则累积投票权减半，否则累积投票权加1。

9.根据权利要求7所述的一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，所述随机投票权的计算具体为：参与投票的医疗机构的随机投票权之和为一固定值R，在每轮迭代投票之前，根据参与投票的医疗机构的数据质量系数的哈希值与当前轮次的哈希值之和，取最大前R个医疗机构，将它们在本轮投票中的随机投票权置为1，其余医疗机构在本轮投票中的随机投票权置为0。

10.根据权利要求1-5中任一项所述的一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，所述投票子模块中，在迭代过程中进行作弊检测，具体为：在协同分析建模协议中给出作弊检测开始的迭代轮次K，从第K轮开始，每轮投票完成后根据最近K-1轮各家医疗机构上链分享的单中心疾病预测模型损失的排序对参与协同分析建模的医疗机构进行筛选；若在最近K-1轮投票中有过半数量的医疗机构都将某医疗机构提供的单中心疾病预测模型的损失排在倒数两位，则将该医疗机构从协同分析建模区块链中剔除。