CN116168789B

CN116168789B - 一种多中心医疗数据生成系统和方法

Info

Publication number: CN116168789B
Application number: CN202310456988.1A
Authority: CN
Inventors: 王宇清; 池胜强; 谭笑; 李劲松; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-07-18
Anticipated expiration: 2043-04-26
Also published as: CN116168789A

Abstract

本发明公开了一种多中心医疗数据生成系统，包括医疗数据量权重计算模块、多中心对抗生成网络训练模块和多中心医疗数据生成模块，在各家医疗机构不公开真实数据量的情况下计算各家医疗机构的医疗数据量权重；采用生成器和判别器分离的架构，在计算服务器中构造并训练生成器，在各个医疗机构构造并训练判别器，各家医疗机构仅将带权重的生成器损失发送给计算服务器；计算服务器聚合带权重的生成器损失，更新生成器；利用训练完成的生成器生成多中心合成医疗数据，提供给用户使用。本发明还提供了一种多中心医疗数据生成方法。本发明可以更好的保护患者隐私和数据安全，能够得到更符合真实的多中心医疗数据分布的合成医疗数据。

Description

一种多中心医疗数据生成系统和方法

技术领域

本发明属于医疗健康信息技术领域，尤其涉及一种多中心医疗数据生成系统和方法。

背景技术

随着人工智能技术的不断发展，机器学习和深度学习的算法被广泛应用于健康医疗领域。机器学习和深度学习模型的效果很大程度上依赖于训练数据的数据量和数据质量。医疗数据量较少的医疗机构难以训练出效果好的机器学习和深度学习模型。

随着对抗生成网络（GAN）技术的发展，医疗机构可以训练一个生成器，通过输入随机噪声，输出一组合成医疗数据；同时训练一个判别器，对合成医疗数据和真实医疗数据进行判别，并将判别结果返回给生成器。生成器和判别器不停地迭代，最终使得生成器输出的合成医疗数据的分布接近真实医疗数据。

由于医疗数据的敏感性和隐私性，医疗机构之间无法直接共享合成医疗数据。为了训练一个基于多中心医疗数据的模型，各个参与训练的医疗机构利用GAN生成合成医疗数据，然后结合联邦学习等方法利用多中心合成医疗数据训练机器学习或深度学习模型。

授权公告号为CN 113297573 B的发明专利公开了一种基于GAN模拟数据生成的垂直联邦学习防御方法和装置，被动参与方利用GAN生成合成数据，并利用合成数据参与垂直联邦学习。

公开号为CN 110598843 A的发明专利申请公开了一种包含一个判别器和多个生成器的GAN组织结构，利用多个生成器生成的数据训练一个判别器，并根据判别器的损失更新多个生成器模型，目的是增强GAN兼顾多角度、多方面学习的能力。

然而，在医疗数据生成的场景中，由于各家医疗机构利用GAN生成的合成医疗数据的分布接近于真实医疗数据的分布，在医疗机构将合成医疗数据传输给计算服务器的过程中，若合成医疗数据遭泄露被人窃取，则会有暴露该医疗机构真实医疗数据分布的风险。

授权公告号为CN 110362586 B的发明专利公开了一种无患者数据共享的多中心生物医学数据协同处理系统及方法，该系统包括用于协同各医疗中心模型参数与异步计算的云端服务器和用于对数据开展本地高性能计算的医疗中心客户端；其中云端服务器包括参数管理器和任务调度器；该发明将参数共享机制和异步通信机制通过云端服务器的参数管理器和任务调度器连接管理，共同应用到多中心医学数据协同计算；能够满足医疗中心数据与云端服务器的安全隔离，充分保护医疗中心患者数据的隐私性。

此外，每家医疗机构由于地域和设备等差异，拥有的医疗数据存在异质性，不满足独立同分布条件。因此，计算服务器将各家医疗机构的合成医疗数据聚合后得到的多中心合成医疗数据与真实的多中心医疗数据分布上存在的差异较大，由该多中心合成医疗数据训练得到的基于多中心医疗数据的模型会存在泛化性差的问题。

公开号为CN 114238509 A的发明专利申请公开了一种基于GAN和区块链的数据生成及去中心化加密联邦框架，其采用生成对抗网络对不平衡数据进行处理，使得输入数据的正负样本趋于平衡，避免训练出的模型过拟合及泛化能力差；同时其结合区块链及信息加密的思想，提出了去中心化及梯度加密联邦框架，每个节点利用GAN生成合成数据，解决了传统联邦学习框架中节点因数据量不够而发生宕机的问题。

虽然目前关于多中心医疗数据生成方法的研究已经有了一定的基础，但是如何更好地解决医疗数据泄露以及医疗数据异质性的问题，还需要进一步研究。

发明内容

针对上述问题，本发明的目的在于提供一种多中心医疗数据生成系统、方法、电子设备和计算机可读存储介质，更好的保护患者隐私和数据安全，并且可以得到更符合真实的多中心医疗数据分布的合成医疗数据。

本发明提供了一种多中心医疗数据生成系统，包括医疗数据量权重计算模块、多中心对抗生成网络训练模块和多中心医疗数据生成模块，

所述医疗数据量权重计算模块用于在各家医疗机构不公开真实数据量的情况下，利用同态加密技术计算出各家医疗机构的医疗数据量占总医疗数据量的权重；

所述多中心对抗生成网络训练模块用于构造并训练生成器和判别器，根据合成医疗数据和真实医疗数据计算生成器损失和判别器损失，用判别器损失更新判别器，再结合医疗数据量的权重计算全局生成器损失，更新生成器；

其中，所述多中心对抗生成网络训练模块中生成器和判别器为分离的架构，在计算服务器中构造并训练生成器，在各个医疗机构本地构造并训练判别器，训练过程中计算服务器向各家医疗机构发送合成医疗数据，各家医疗机构在本地计算带权重的生成器损失并发送给计算服务器；

所述多中心医疗数据生成模块利用多中心对抗生成网络训练模块中计算服务器训练完成的生成器，按照用户设定的数据量，生成多中心合成医疗数据，提供给用户使用。

进一步的，所述的多中心对抗生成网络训练模块包括医疗数据生成子模块、判别器训练子模块和生成器训练子模块，

所述医疗数据生成子模块用于在训练多中心对抗生成网络的过程中生成合成医疗数据；

所述判别器训练子模块根据所述合成医疗数据和各家医疗机构的真实医疗数据在各家医疗机构本地训练判别器，用于求出带权重的生成器损失；

所述生成器训练子模块中计算服务器聚合各家医疗机构的带权重的生成器损失，用于更新生成器。

本发明还提供了一种多中心医疗数据生成方法，所述方法应用上述多中心医疗数据生成系统实现，所述方法包括以下步骤：

（1）在各家医疗机构不公开真实数据量的情况下，利用同态加密技术计算出各家医疗机构的医疗数据量占总医疗数据量的权重；

（2）在计算服务器中构造并训练生成器，在各个医疗机构本地构造并训练判别器，训练过程中计算服务器利用生成器生成并向各家医疗机构发送合成医疗数据，各家医疗机构在本地利用真实医疗数据和合成医疗数据通过判别器计算生成器损失和判别器损失，利用判别器损失更新判别器，根据生成器损失计算带权重的生成器损失，并将带权重的生成器损失发送给计算服务器，计算服务器将各家医疗机构返回的带权重的生成器损失进行聚合，得到全局生成器损失，并更新生成器，迭代训练生成器和判别器，直至达到用户设置的多中心对抗生成网络训练轮次上限；

（3）利用步骤（2）中计算服务器训练完成的生成器，按照用户设定的数据量，生成多中心合成医疗数据，提供给用户使用。

本发明基于同态加密的方法，在各家医疗机构不公开真实医疗数据量的前提下求出各家医疗机构的真实医疗数据量占总医疗数据量的权重，再进行生成器和判别器训练，能够使训练完成后的生成器生成的多中心合成医疗数据的分布更符合真实的多中心医疗数据分布，减少医疗机构的真实医疗数据的异质性对多中心合成医疗数据的影响。

进一步的，步骤（1）中，所述的利用同态加密技术计算各家医疗机构的医疗数据量占总医疗数据量的权重的步骤为：

（1-1）各家医疗机构利用同态加密算法对医疗数据的数据量加密，得到数据量的密文；

（1-2）各家医疗机构将数据量的密文发送给计算服务器；

（1-3）计算服务器对各家医疗机构的数据量的密文进行聚合计算，得到总数据量的密文；

（1-4）计算服务器将总数据量的密文发送给各家医疗机构；

（1-5）各家医疗机构对总数据量的密文进行解密得到总数据量；

（1-6）各家医疗机构计算医疗数据量占总医疗数据的权重。

假设共有家医疗机构，医疗机构/>所拥有的真实医疗数据记为/>，数据量记为/>。医疗机构/>将/>加密后得到数据量的密文/>，其中/>是同态加密算法中的加密算法，/>是同态加密算法的加密密钥。加密完成后，医疗机构/>将/>发送给计算服务器。

计算服务器获得所有医疗机构的数据量的密文后，根据同态加密算法的加法同态性，直接对数据量的密文进行计算操作，得到总数据量的密文。

计算服务器将发送给各家医疗机构。医疗机构/>将/>解密后得到总医疗数据量。其中/>是同态加密算法中的解密算法，/>是同态加密算法的解密密钥。医疗机构/>利用真实医疗数据量/>和总医疗数据量/>计算得到医疗数据量的权重。

步骤（2）中，参与的医疗机构数量不受限制，并且可以自愿选择是否参与。各家医疗机构在生成器和判别器的训练过程中只向计算服务器传输带权重的生成器损失，即使在传输过程中该带权重的生成器损失遭到泄露，也不会暴露医疗机构中真实医疗数据的分布，进一步地保护了患者隐私和数据安全。

进一步的，步骤（2）中，所述的生成器采用神经网络模型，模型超参数包括学习率、优化器、激活函数、隐藏层数和每层隐藏单元数，参数为。生成器/>的输入为随机噪声/>，输出为合成医疗数据/>，数据量为/>。所述的生成器输出的合成医疗数据会被发送给各家医疗机构，用于训练各家医疗机构本地的判别器。

进一步的，步骤（2）中，所述的判别器采用神经网络模型，模型超参数包括学习率、优化器、激活函数、隐藏层数和每层隐藏单元数，医疗机构的判别器参数为/>。医疗机构/>本地的判别器记为/>，/>对合成医疗数据/>的预测结果记为/>，其中第/>项记为；/>对真实医疗数据/>的预测结果记为/>，其中第/>项记为/>。

判别器损失为：

其中为真实医疗数据/>的分布，/>表示医疗数据/>满足/>的分布；/>为噪声/>的先验分布，/>表示噪声/>满足/>的分布；/>代表期望；/>代表/>对真实医疗数据/>的预测结果。

计算出判别器损失后，利用随机梯度下降法更新判别器的参数/>：

其中表示利用随机梯度下降法根据/>求得的梯度。

由此完成判别器训练的一次迭代。

医疗机构利用判别器/>对合成医疗数据/>的预测结果/>计算生成器损失。然后将生成器损失乘以医疗数据量的权重以后得到带权重的生成器损失：

医疗机构将带权重的生成器损失/>返回给计算服务器。

进一步的，步骤（2）中，计算服务器将各家医疗机构返回的将带权重的生成器损失进行聚合，得到全局生成器损失：

计算出全局生成器损失后，利用随机梯度下降法更新生成器的参数/>：

其中表示利用随机梯度下降法根据/>求得的梯度。

由此完成生成器训练的一次迭代。

进一步的，步骤（3）中，计算服务器从随机噪声的先验分布中随机采样用户指定数据量的噪声/>，然后利用生成器/>生成多中心合成医疗数据/>，提供给用户。

本发明还提供了一种电子设备，所述电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的多中心医疗数据生成方法。

本发明还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现所述的多中心医疗数据生成方法。

与现有技术相比，本发明至少具备以下有益效果：

（1）本发明设计了生成器与判别器分离的架构，由计算服务器训练生成器，各家医疗机构训练判别器，在多中心对抗生成网络的训练过程中，各家医疗机构只向计算服务器传输带权重的生成器损失，即使在传输过程中该带权重的生成器损失遭到泄露，也不会暴露医疗机构中真实医疗数据的分布，进一步地保护了患者隐私和数据安全，防止了各家医疗机构的真实医疗数据分布的泄露；

（2）各家医疗机构利用同态加密的方法，在不公开真实医疗数据量的前提下求出各家医疗机构的真实医疗数据量占总医疗数据量的权重，各家医疗机构在计算生成器损失后，乘以该医疗机构的医疗数据量的权重，得到带权重的生成器损失，计算服务器利用各家医疗机构返回的带权重的生成器损失更新生成器，能够使训练完成后的生成器生成的多中心合成医疗数据的分布更符合真实的多中心医疗数据分布，减少医疗机构的真实医疗数据的异质性对多中心合成医疗数据的影响。

附图说明

图1为实施例中多中心医疗数据生成系统的模块示意图。

图2为实施例中各家医疗机构与计算服务器进行通信和数据传输的过程示意图。

图3为实施例中医疗数据量权重的计算流程图。

图4为实施例中多中心对抗生成网络训练过程中生成器和判别器的训练流程图。

图5为实施例中多中心对抗生成网络训练过程生成器的训练流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了解决合成医疗数据在传输过程中被泄露的风险以及各家医疗机构的真实医疗数据的异质性，本发明提出了一种多中心医疗数据生成系统、方法、电子设备和计算机可读存储介质，以更好的保护患者隐私并减少医疗机构的真实医疗数据的异质性对多中心合成医疗数据的影响。

图1为实施例中多中心医疗数据生成系统的模块示意图，包括医疗数据量权重计算模块S101、多中心对抗生成网络训练模块S102和多中心医疗数据生成模块S103，其中多中心对抗生成网络训练模块由医疗数据生成子模块S1021、判别器训练子模块S1022和生成器训练子模块组成S1023。

医疗数据量权重计算模块S101用于在各家医疗机构不公开真实数据量的情况下，利用同态加密技术计算出各家医疗机构的医疗数据量占总医疗数据量的权重。

多中心对抗生成网络训练模块S102用于构造并训练生成器和判别器，根据合成医疗数据和真实医疗数据计算生成器损失和判别器损失，再结合医疗数据量的权重计算全局生成器损失，更新生成器。

医疗数据生成子模块S1021用于在训练多中心对抗生成网络的过程中生成合成医疗数据；判别器训练子模块S1022利用所述合成医疗数据和各家医疗机构的真实医疗数据在各家医疗机构本地训练判别器，并求出带权重的生成器损失；生成器训练子模块S1023用于计算服务器聚合各家医疗机构返回的带权重的生成器损失，更新生成器。

多中心医疗数据生成模块S103利用多中心对抗生成网络训练模块中计算服务器训练完成的生成器，按照用户设定的数据量，生成多中心合成医疗数据，提供给用户使用。

某用户使用本系统，为获得多中心合成医疗数据。实施例中各家医疗机构与计算服务器进行通信和数据传输的过程示意图如图2所示，该系统中共有家医疗机构，各家医疗机构只与计算服务器进行通信和数据传输，参与的医疗机构数量不受限制，并且可以自愿选择是否参与。本实施例中/>，即有3家医疗机构参与多中心对抗生成网络训练。

在训练多中心对抗生成网络之前，利用同态加密技术，在各家医疗机构不公开自身数据量的前提下计算出各家医疗机构的医疗数据量占总医疗数据量的权重。计算医疗数据量权重的过程如图3所示，包括：

S201：疗机构将拥有的真实医疗数据量进行同态加密，得到数据量的密文/>；

S202：各家医疗机构将数据量的密文发送给计算服务器；

S203：计算服务器根据同态加密算法的加法同态性，直接对各家医疗机构数据量的密文进行聚合计算，得到总数据量的密文；

S204：计算服务器将总数据量的密文发送给各家医疗机构；

S205：各家医疗机构对总数据量的密文进行解密，得到总医疗数据量/>；

S206：各家医疗机构利用真实医疗数据量/>和总医疗数据量/>计算得到医疗数据量占总医疗数据量的权重/>。

图4为实施例中多中心对抗生成网络训练过程中生成器和判别器的训练流程图，包括：

S301：计算服务器初始化生成器，各家医疗机构初始化判别器；

S302：计算服务器使用生成器生成合成医疗数据，并将合成医疗数据发送给各家医疗机构；

S303：各家医疗机构在本地利用真实医疗数据和合成医疗数据通过判别器计算生成器损失和判别器损失，并利用判别器损失更新判别器；

S304：各家医疗机构将生成器损失乘以该医疗机构的数据量权重，得到带权重的生成器损失；

S305：各家医疗机构将带权重的生成器损失发送给计算服务器；

S306：计算服务器将各家医疗机构返回的带权重的生成器损失进行聚合，更新生成器。

迭代训练生成器和判别器，直至达到用户设置的多中心对抗生成网络训练轮次上限。迭代训练轮次上限由用户定义，本实施例中迭代训练轮次上限设为100。

本实施例中多中心对抗生成网络由一个生成器和个判别器组成，计算服务器训练生成器，每家医疗机构训练一个判别器。生成器是一个多层感知机神经网络，本实施例中采用的生成器的隐藏层数为2层，每层隐藏单元数为32个，学习率为0.001，激活函数使用relu函数，优化器使用Adam优化器。判别器是一个多层感知机神经网络，本实施例中采用的判别器的隐藏层数为2层，每层隐藏单元数为32个，学习率为0.001，激活函数使用sigmoid函数，优化器使用Adam优化器。生成器和所有判别器的参数随机初始化。

图5为实施例中多中心对抗生成网络训练过程生成器的训练流程图。由图5所示，在每一轮迭代训练过程中，首先由计算服务器中的生成器利用随机噪声/>生成合成医疗数据/>，然后计算服务器将合成医疗数据/>发送给各家医疗机构，医疗机构/>利用本地的判别器/>对合成医疗数据/>和真实医疗数据/>进行预测，预测结果分别为/>和。根据/>和/>计算得到判别器损失/>：

计算出判别器损失后，利用随机梯度下降法更新判别器的参数，完成判别器训练的一次迭代。

医疗机构将带权重的生成器损失/>返回给计算服务器。计算服务器将各家医疗机构返回的将带权重的生成器损失进行聚合，得到全局生成器损失：/>

计算出全局生成器损失后，利用随机梯度下降法更新生成器的参数，完成生成器训练的一次迭代。

迭代训练生成器和判别器，直到达到多中心对抗生成网络训练训练轮次上限。完成多中心对抗生成网络的训练后，用户可以利用计算服务器中的生成器获得自定义数据量的多中心合成医疗数据。计算服务器从随机噪声的先验分布中随机采样用户指定数据量的噪声，然后将噪声输入生成器，生成多中心合成医疗数据，提供给用户。

Claims

1.一种多中心医疗数据生成系统，其特征在于：包括医疗数据量权重计算模块、多中心对抗生成网络训练模块和多中心医疗数据生成模块，

所述医疗数据量权重计算模块用于在各家医疗机构不公开真实数据量的情况下，利用同态加密技术计算出各家医疗机构的医疗数据量占总医疗数据量的权重，所述权重的获取步骤如下：

各家医疗机构利用同态加密算法对医疗数据的数据量加密，得到数据量的密文；

各家医疗机构将数据量的密文发送给计算服务器；

计算服务器对各家医疗机构的数据量的密文进行聚合计算，得到总数据量的密文；

计算服务器将总数据量的密文发送给各家医疗机构；

各家医疗机构对总数据量的密文进行解密得到总数据量；

各家医疗机构计算医疗数据量占总医疗数据的权重；

所述多中心对抗生成网络训练模块用于构造并训练生成器和判别器，根据合成医疗数据和真实医疗数据计算生成器损失和判别器损失，再结合医疗数据量的权重计算全局生成器损失，更新生成器，

其中，所述生成器和判别器为分离的架构，在计算服务器中构造并训练生成器，在各个医疗机构本地构造并训练判别器，训练过程中计算服务器利用生成器生成并向各家医疗机构发送合成医疗数据，各家医疗机构在本地利用真实医疗数据和合成医疗数据通过判别器计算生成器损失和判别器损失，利用判别器损失更新判别器，各家医疗机构将生成器损失乘以对应的医疗机构的数据量权重，得到带权重的生成器损失，并将带权重的生成器损失发送给计算服务器，计算服务器将各家医疗机构返回的带权重的生成器损失进行聚合，得到全局生成器损失；

2.根据权利要求1所述的多中心医疗数据生成系统，其特征在于，所述的多中心对抗生成网络训练模块包括医疗数据生成子模块、判别器训练子模块和生成器训练子模块，

3.一种多中心医疗数据生成方法，其特征在于，所述多中心医疗数据生成方法应用权利要求1或2所述的多中心医疗数据生成系统实现，所述多中心医疗数据生成方法包括以下步骤：

（1）在各家医疗机构不公开真实数据量的情况下，利用同态加密技术计算出各家医疗机构的医疗数据量占总医疗数据量的权重，所述权重的获取步骤如下：

各家医疗机构将数据量的密文发送给计算服务器；

计算服务器将总数据量的密文发送给各家医疗机构；

各家医疗机构对总数据量的密文进行解密得到总数据量；

各家医疗机构计算医疗数据量占总医疗数据的权重；

4.根据权利要求3所述的多中心医疗数据生成方法，其特征在于，步骤（2）中，所述的利用判别器损失更新判别器的方法为：计算出判别器损失后，利用随机梯度下降法更新判别器，由此完成判别器的一次迭代。

5.根据权利要求3所述的多中心医疗数据生成方法，其特征在于，步骤（2）中，所述的更新生成器的方法为：计算出全局生成器损失后，利用随机梯度下降法更新生成器，由此完成生成器训练的一次迭代。

6.根据权利要求3所述的多中心医疗数据生成方法，其特征在于，步骤（3）中，计算服务器从随机噪声的先验分布中随机采样用户指定数据量的噪声，然后利用生成器生成多中心合成医疗数据，提供给用户。

7.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求3-6中任意一项所述的多中心医疗数据生成方法。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求3-6中任意一项所述的多中心医疗数据生成方法。