CN117035571A

CN117035571A - 一种基于联邦学习的多中心医院科研数据建模方法

Info

Publication number: CN117035571A
Application number: CN202311031545.4A
Authority: CN
Inventors: 张冰; 苏逸飞; 陶震寰
Original assignee: Nanjing Drum Tower Hospital
Current assignee: Nanjing Drum Tower Hospital
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-11-10

Abstract

本发明提供一种基于联邦学习的多中心医院科研数据建模方法，包括：1）医疗机构A收集患者数据，在机构A本地构成样本特征矩阵X_A，对非数值型的患者数据编码；医疗机构B用同样的方法构成样本特征矩阵X_B；2）医疗机构A在本地收集病种的诊断结果，对病种诊断结果进行编码，或者患病风险概率的百分比编码；3）对样本特征矩阵X_A和X_B求交集，得到相同ID的样本数据；4）医疗机构A和B在本地对相同ID的样本数据预处理；5）对预处理后的数据进行特征分箱；6）医疗机构A和B对特征分箱后的数据进行特征选择并联合建模，利用2）中的医疗机构A对病种的诊断结果或患病风险概率使模型进行有监督学习，基于评价指标选取最优模型作为冠军模型。

Description

一种基于联邦学习的多中心医院科研数据建模方法

技术领域

本发明涉及医院科研数据处理技术，具体涉及一种基于联邦学习的多中心医院科研数据建模方法。

背景技术

通过相关的风险因素预防疾病已经是全球公共卫生的优先任务之一。新兴的人工智能技术正越来越多地被用来预测相关疾病。由于隐私问题，患者数据分布存储在各家医疗机构的电子健康记录(EHR)数据库和大量临床数据集中；这使得医疗机构无法直接聚集患者数据，更无法采用在集中的训练数据上训练模型的实现方式。

联邦学习，是一种新兴的人工智能机器学习框架，在保障大数据交换时的信息安全、保护终端和个人隐私数据、保证合规的前提下，让参与方在不共享数据的基础上联合建模，能从技术上打破数据孤岛，实现AI协作。

通过实现在保护不同医疗机构数据隐私下的疾病预测模型，破解医疗行业数据安全与隐私保护难题，为医疗大健康的各种潜在应用如分诊诊疗、慢病防控、疾病早筛、医保控费的落地等探索出了新的方向。

这一技术让医疗行业的数据融合应用找到有效的方法，不考虑直接粗暴地将各自数据做合并，而是通过协议在其间传递加密之后的信息，该加密过程具有一定的隐私保护机制，保证加密后的信息不会产生数据泄露。

各个医疗机构通过使用这些加密的信息更新模型参数，从而实现在不暴露原始数据的条件下使用全部患者数据的训练过程。

纵向联邦学习的目的是增加建模的特征，在建模过程中，特征越多，模型训练出来的效果越好，对应的模型对未知样本预测更精准，为了增加模型特征，需要在建模之前对医疗机构A、B、C的样本数据进行求交基于指定的字段，从而产生安全求交(PSI)。隐私数据安全求交是指，在不泄露医疗机构A、B或医疗机构A、B、C的特定字段的情况下，医疗机构A、B或医疗机构A、B、C最终只知道相同的特定字段值，即双方或多方特定字段的交集，而对于交集之外的其他字段，任何医疗机构都无法知道其信息。从隐私数据安全求交提出到发展至今，隐私求交协议种类非常多，大致分为以下几种：

1)基于朴素的哈希解决方案，其应用主要是用hash函数进行加密，计算哈希结果，缺点是安全性不高和其他协议相比。

2)基于用公钥进行加密，有基于RSA盲签名的，有基于bloom-filter的，基于多项式插值的。

3)基于混淆电路，基于GoldreichMicali-Wigderson protocol，基于姚期智教授的混淆电路计算协议的。

4)基于用不经意传输，基于OT的PSI。

虽然上面的PSI安全协议，在实际应用中，部分协议已经非常安全，且执行效率比较高，但是这些协议在执行效率上还有待进一步的提升，因为任何PSI安全协议在执行过程中，双方或多方都需要对加密的数据进行传输，当数据量非常大，而网络带宽非常低的时候，往往协议的执行效率比我们预期想要的结果要差。

发明内容

本发明针对现有技术中的不足，提供一种基于联邦学习的多中心医院科研数据建模方法，重点在于方法中的样本融合阶段对隐私数据进行压缩求交方案，该方案可以保证基于相同的条件下，压缩的隐私数据求交方案比正常的隐私数据求交方案执行效率要高，当双方或三方的之间的网络带宽不高的时候，效果有显著提升。

为实现上述目的，本发明采用以下技术方案：

一种基于联邦学习的多中心医院科研数据建模方法，包括以下步骤：

步骤1、医疗机构A收集患者数据，所述患者数据包括病史数据、体检数据及基本健康数据，在机构A本地构成样本特征矩阵v_A，对非数值型的患者数据，进行编码以完成数字化；医疗机构B用同样的方法构成样本特征矩阵X_B；

步骤2、医疗机构A在本地进行特定病种的诊断结果数据的收集，对病种的诊断结果进行编码，分为确诊与否的二值化编码，或者患病风险概率的百分比编码；

步骤3、对样本特征矩阵X_A和样本特征矩阵X_B求交集，得到相同ID的样本数据；

步骤4、医疗机构A和医疗机构B在各自本地对相同ID的样本数据预处理；

步骤5、对预处理后的数据进行特征分箱；

步骤6、医疗机构A和医疗机构B对特征分箱后的数据进行特征选择并联合建模，利用步骤2中的医疗机构A对病种的诊断结果或患病风险概率使模型进行有监督学习，基于评价指标选取最优的模型作为冠军模型。

为优化上述技术方案，采取的具体措施还包括：

进一步地，步骤3具体为：

步骤3.1、医疗机构A对样本特征矩阵X_A设置各类样本数据的特定字段ID，医疗机构B对样本特征矩阵X_B设置各类样本数据的特定字段ID；并各自生成自己的私钥a和b；

步骤3.2、医疗机构A和B分别对自己本方的ID进行hash处理得到hash结果H(x)和H(y)；

步骤3.3、医疗机构A基于自己本方的hash结果，用自己的私钥a进行加密H(x)^a，医疗机构B基于自己本方的hash结果，用自己的私钥b进行加密H(y)^b；

步骤3.4、医疗机构A使用压缩算法将加密后的hash结果H(x)^a进行压缩处理，并发送给医疗机构B；医疗机构B使用压缩算法将加密后的hash结果H(y)^b进行压缩处理，并发送给医疗机构A；

步骤3.5、医疗机构A对医疗机构B发送的被压缩的hash结果进行解压，然后用自己的私钥a进行二次加密处理(H(y)^b)^a，医疗机构B对医疗机构A发送的被压缩的hash结果进行解压，然后用自己的私钥b进行二次加密处理(H(x)^a)^b，将二次加密的结果压缩并发送给医疗机构A；

步骤3.6、医疗机构A将医疗机构B发来的压缩的二次加密的结果解压，还原成(H(x)^a)^b，然后与(H(y)^b)^a求交集，将最终求交结果进行压缩，并发给医疗机构B；

步骤3.7、医疗机构B将求交结果进行解压，得最终求交结果。

进一步地，步骤5中，所述特征分箱包括等频分箱、等距分箱或卡方分箱。

进一步地，所述压缩算法具体为zlib算法。

进一步地，所述解压使用的方法为DH加密算法。

进一步地，步骤4中，所述预处理包括缺失值填补和异常值修复。

本发明的有益效果是：

(1)在样本相同的情况下，对网络带宽有更低需求，当遇到带宽不高或不稳定网络的条件下，本发明的方案与非压缩数据传输隐私求交方案相比有更高的成功机率。

(2)在样本相同的条件下，本发明的方案有更高的执行效率，在整个求交流程中应用该方案，与非压缩数据传输的隐私求交方案相比，花费更少的时间。

附图说明

图1为本发明一种基于联邦学习的多中心医院科研数据建模方法中样本融合阶段对隐私数据进行压缩求交方案的流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

在一实施例中，本发明提出了一种基于联邦学习的多中心医院科研数据建模方法，包括以下步骤：

步骤1、医疗机构A收集患者数据，所述患者数据包括病史数据、体检数据及基本健康数据，在机构A本地构成样本特征矩阵X_A，对非数值型的患者数据，进行编码以完成数字化；医疗机构B用同样的方法构成样本特征矩阵X_B；

步骤4、医疗机构A和医疗机构B在各自本地对相同ID的样本数据预处理；所述预处理包括缺失值填补和异常值修复。

步骤5、对预处理后的数据进行特征分箱；所述特征分箱包括等频分箱、等距分箱或卡方分箱。

步骤3中，求交集的方法的流程图如图1所示，具体为：

步骤3.7、医疗机构B将求交结果进行解压，得最终求交结果。

基于联邦学习的多中心医院科研数据建模方法中样本融合阶段对隐私数据进行压缩求交方案，我们采用的是DH加密算法和zlib算法进行解压压缩，当前方案除了DH加密算法和zlib算法进行解压压缩之外，还有其他的替代方案，如RSA盲签名算法和gzip算法进行压缩和解压等，但是经过实验论证，其他方案的综合执行效率比本方案差。

样本求交阶段对隐私数据进行压缩求交方案，一方面，在同等样本数据条件下，可以降低对网络带宽要求，另一方面在整个隐私求交流程中，通过对传输数据的高效压缩，可以提高整个流程的执行效率，最终提升整个联邦学习在多中心医疗机构科研数据建模流程的效率，当网络带宽不高或网络不稳定的情况，该方案的执行效率提升非常明显。

本发明所指求交方案为在两个医疗机构参与的情况，当然此方案也可以推广到三个医疗机构或多个医疗机构场景。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于联邦学习的多中心医院科研数据建模方法，其特征在于，包括以下步骤：

步骤5、对预处理后的数据进行特征分箱；

2.如权利要求1所述的基于联邦学习的多中心医院科研数据建模方法，其特征在于，步骤3具体为：

步骤3.7、医疗机构B将求交结果进行解压，得最终求交结果。

3.如权利要求1所述的基于联邦学习的多中心医院科研数据建模方法，其特征在于，步骤5中，所述特征分箱包括等频分箱、等距分箱或卡方分箱。

4.如权利要求2所述的基于联邦学习的多中心医院科研数据建模方法，其特征在于，所述压缩算法具体为zlib算法。

5.如权利要求2所述的基于联邦学习的多中心医院科研数据建模方法，其特征在于，所述解压使用的方法为DH加密算法。

6.如权利要求1所述的基于联邦学习的多中心医院科研数据建模方法，其特征在于，步骤4中，所述预处理包括缺失值填补和异常值修复。