CN117035571A - 一种基于联邦学习的多中心医院科研数据建模方法 - Google Patents

一种基于联邦学习的多中心医院科研数据建模方法 Download PDF

Info

Publication number
CN117035571A
CN117035571A CN202311031545.4A CN202311031545A CN117035571A CN 117035571 A CN117035571 A CN 117035571A CN 202311031545 A CN202311031545 A CN 202311031545A CN 117035571 A CN117035571 A CN 117035571A
Authority
CN
China
Prior art keywords
medical institution
data
medical
sample
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202311031545.4A
Other languages
English (en)
Inventor
张冰
苏逸飞
陶震寰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Drum Tower Hospital
Original Assignee
Nanjing Drum Tower Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Drum Tower Hospital filed Critical Nanjing Drum Tower Hospital
Priority to CN202311031545.4A priority Critical patent/CN117035571A/zh
Publication of CN117035571A publication Critical patent/CN117035571A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种基于联邦学习的多中心医院科研数据建模方法,包括:1)医疗机构A收集患者数据,在机构A本地构成样本特征矩阵XA,对非数值型的患者数据编码;医疗机构B用同样的方法构成样本特征矩阵XB;2)医疗机构A在本地收集病种的诊断结果,对病种诊断结果进行编码,或者患病风险概率的百分比编码;3)对样本特征矩阵XA和XB求交集,得到相同ID的样本数据;4)医疗机构A和B在本地对相同ID的样本数据预处理;5)对预处理后的数据进行特征分箱;6)医疗机构A和B对特征分箱后的数据进行特征选择并联合建模,利用2)中的医疗机构A对病种的诊断结果或患病风险概率使模型进行有监督学习,基于评价指标选取最优模型作为冠军模型。

Description

一种基于联邦学习的多中心医院科研数据建模方法
技术领域
本发明涉及医院科研数据处理技术,具体涉及一种基于联邦学习的多中心医院科研数据建模方法。
背景技术
通过相关的风险因素预防疾病已经是全球公共卫生的优先任务之一。新兴的人工智能技术正越来越多地被用来预测相关疾病。由于隐私问题,患者数据分布存储在各家医疗机构的电子健康记录(EHR)数据库和大量临床数据集中;这使得医疗机构无法直接聚集患者数据,更无法采用在集中的训练数据上训练模型的实现方式。
联邦学习,是一种新兴的人工智能机器学习框架,在保障大数据交换时的信息安全、保护终端和个人隐私数据、保证合规的前提下,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,实现AI协作。
通过实现在保护不同医疗机构数据隐私下的疾病预测模型,破解医疗行业数据安全与隐私保护难题,为医疗大健康的各种潜在应用如分诊诊疗、慢病防控、疾病早筛、医保控费的落地等探索出了新的方向。
这一技术让医疗行业的数据融合应用找到有效的方法,不考虑直接粗暴地将各自数据做合并,而是通过协议在其间传递加密之后的信息,该加密过程具有一定的隐私保护机制,保证加密后的信息不会产生数据泄露。
各个医疗机构通过使用这些加密的信息更新模型参数,从而实现在不暴露原始数据的条件下使用全部患者数据的训练过程。
纵向联邦学习的目的是增加建模的特征,在建模过程中,特征越多,模型训练出来的效果越好,对应的模型对未知样本预测更精准,为了增加模型特征,需要在建模之前对医疗机构A、B、C的样本数据进行求交基于指定的字段,从而产生安全求交(PSI)。隐私数据安全求交是指,在不泄露医疗机构A、B或医疗机构A、B、C的特定字段的情况下,医疗机构A、B或医疗机构A、B、C最终只知道相同的特定字段值,即双方或多方特定字段的交集,而对于交集之外的其他字段,任何医疗机构都无法知道其信息。从隐私数据安全求交提出到发展至今,隐私求交协议种类非常多,大致分为以下几种:
1)基于朴素的哈希解决方案,其应用主要是用hash函数进行加密,计算哈希结果,缺点是安全性不高和其他协议相比。
2)基于用公钥进行加密,有基于RSA盲签名的,有基于bloom-filter的,基于多项式插值的。
3)基于混淆电路,基于GoldreichMicali-Wigderson protocol,基于姚期智教授的混淆电路计算协议的。
4)基于用不经意传输,基于OT的PSI。
虽然上面的PSI安全协议,在实际应用中,部分协议已经非常安全,且执行效率比较高,但是这些协议在执行效率上还有待进一步的提升,因为任何PSI安全协议在执行过程中,双方或多方都需要对加密的数据进行传输,当数据量非常大,而网络带宽非常低的时候,往往协议的执行效率比我们预期想要的结果要差。
发明内容
本发明针对现有技术中的不足,提供一种基于联邦学习的多中心医院科研数据建模方法,重点在于方法中的样本融合阶段对隐私数据进行压缩求交方案,该方案可以保证基于相同的条件下,压缩的隐私数据求交方案比正常的隐私数据求交方案执行效率要高,当双方或三方的之间的网络带宽不高的时候,效果有显著提升。
为实现上述目的,本发明采用以下技术方案:
一种基于联邦学习的多中心医院科研数据建模方法,包括以下步骤:
步骤1、医疗机构A收集患者数据,所述患者数据包括病史数据、体检数据及基本健康数据,在机构A本地构成样本特征矩阵vA,对非数值型的患者数据,进行编码以完成数字化;医疗机构B用同样的方法构成样本特征矩阵XB
步骤2、医疗机构A在本地进行特定病种的诊断结果数据的收集,对病种的诊断结果进行编码,分为确诊与否的二值化编码,或者患病风险概率的百分比编码;
步骤3、对样本特征矩阵XA和样本特征矩阵XB求交集,得到相同ID的样本数据;
步骤4、医疗机构A和医疗机构B在各自本地对相同ID的样本数据预处理;
步骤5、对预处理后的数据进行特征分箱;
步骤6、医疗机构A和医疗机构B对特征分箱后的数据进行特征选择并联合建模,利用步骤2中的医疗机构A对病种的诊断结果或患病风险概率使模型进行有监督学习,基于评价指标选取最优的模型作为冠军模型。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤3具体为:
步骤3.1、医疗机构A对样本特征矩阵XA设置各类样本数据的特定字段ID,医疗机构B对样本特征矩阵XB设置各类样本数据的特定字段ID;并各自生成自己的私钥a和b;
步骤3.2、医疗机构A和B分别对自己本方的ID进行hash处理得到hash结果H(x)和H(y);
步骤3.3、医疗机构A基于自己本方的hash结果,用自己的私钥a进行加密H(x)a,医疗机构B基于自己本方的hash结果,用自己的私钥b进行加密H(y)b
步骤3.4、医疗机构A使用压缩算法将加密后的hash结果H(x)a进行压缩处理,并发送给医疗机构B;医疗机构B使用压缩算法将加密后的hash结果H(y)b进行压缩处理,并发送给医疗机构A;
步骤3.5、医疗机构A对医疗机构B发送的被压缩的hash结果进行解压,然后用自己的私钥a进行二次加密处理(H(y)b)a,医疗机构B对医疗机构A发送的被压缩的hash结果进行解压,然后用自己的私钥b进行二次加密处理(H(x)a)b,将二次加密的结果压缩并发送给医疗机构A;
步骤3.6、医疗机构A将医疗机构B发来的压缩的二次加密的结果解压,还原成(H(x)a)b,然后与(H(y)b)a求交集,将最终求交结果进行压缩,并发给医疗机构B;
步骤3.7、医疗机构B将求交结果进行解压,得最终求交结果。
进一步地,步骤5中,所述特征分箱包括等频分箱、等距分箱或卡方分箱。
进一步地,所述压缩算法具体为zlib算法。
进一步地,所述解压使用的方法为DH加密算法。
进一步地,步骤4中,所述预处理包括缺失值填补和异常值修复。
本发明的有益效果是:
(1)在样本相同的情况下,对网络带宽有更低需求,当遇到带宽不高或不稳定网络的条件下,本发明的方案与非压缩数据传输隐私求交方案相比有更高的成功机率。
(2)在样本相同的条件下,本发明的方案有更高的执行效率,在整个求交流程中应用该方案,与非压缩数据传输的隐私求交方案相比,花费更少的时间。
附图说明
图1为本发明一种基于联邦学习的多中心医院科研数据建模方法中样本融合阶段对隐私数据进行压缩求交方案的流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
在一实施例中,本发明提出了一种基于联邦学习的多中心医院科研数据建模方法,包括以下步骤:
步骤1、医疗机构A收集患者数据,所述患者数据包括病史数据、体检数据及基本健康数据,在机构A本地构成样本特征矩阵XA,对非数值型的患者数据,进行编码以完成数字化;医疗机构B用同样的方法构成样本特征矩阵XB
步骤2、医疗机构A在本地进行特定病种的诊断结果数据的收集,对病种的诊断结果进行编码,分为确诊与否的二值化编码,或者患病风险概率的百分比编码;
步骤3、对样本特征矩阵XA和样本特征矩阵XB求交集,得到相同ID的样本数据;
步骤4、医疗机构A和医疗机构B在各自本地对相同ID的样本数据预处理;所述预处理包括缺失值填补和异常值修复。
步骤5、对预处理后的数据进行特征分箱;所述特征分箱包括等频分箱、等距分箱或卡方分箱。
步骤6、医疗机构A和医疗机构B对特征分箱后的数据进行特征选择并联合建模,利用步骤2中的医疗机构A对病种的诊断结果或患病风险概率使模型进行有监督学习,基于评价指标选取最优的模型作为冠军模型。
步骤3中,求交集的方法的流程图如图1所示,具体为:
步骤3.1、医疗机构A对样本特征矩阵XA设置各类样本数据的特定字段ID,医疗机构B对样本特征矩阵XB设置各类样本数据的特定字段ID;并各自生成自己的私钥a和b;
步骤3.2、医疗机构A和B分别对自己本方的ID进行hash处理得到hash结果H(x)和H(y);
步骤3.3、医疗机构A基于自己本方的hash结果,用自己的私钥a进行加密H(x)a,医疗机构B基于自己本方的hash结果,用自己的私钥b进行加密H(y)b
步骤3.4、医疗机构A使用压缩算法将加密后的hash结果H(x)a进行压缩处理,并发送给医疗机构B;医疗机构B使用压缩算法将加密后的hash结果H(y)b进行压缩处理,并发送给医疗机构A;
步骤3.5、医疗机构A对医疗机构B发送的被压缩的hash结果进行解压,然后用自己的私钥a进行二次加密处理(H(y)b)a,医疗机构B对医疗机构A发送的被压缩的hash结果进行解压,然后用自己的私钥b进行二次加密处理(H(x)a)b,将二次加密的结果压缩并发送给医疗机构A;
步骤3.6、医疗机构A将医疗机构B发来的压缩的二次加密的结果解压,还原成(H(x)a)b,然后与(H(y)b)a求交集,将最终求交结果进行压缩,并发给医疗机构B;
步骤3.7、医疗机构B将求交结果进行解压,得最终求交结果。
基于联邦学习的多中心医院科研数据建模方法中样本融合阶段对隐私数据进行压缩求交方案,我们采用的是DH加密算法和zlib算法进行解压压缩,当前方案除了DH加密算法和zlib算法进行解压压缩之外,还有其他的替代方案,如RSA盲签名算法和gzip算法进行压缩和解压等,但是经过实验论证,其他方案的综合执行效率比本方案差。
样本求交阶段对隐私数据进行压缩求交方案,一方面,在同等样本数据条件下,可以降低对网络带宽要求,另一方面在整个隐私求交流程中,通过对传输数据的高效压缩,可以提高整个流程的执行效率,最终提升整个联邦学习在多中心医疗机构科研数据建模流程的效率,当网络带宽不高或网络不稳定的情况,该方案的执行效率提升非常明显。
本发明所指求交方案为在两个医疗机构参与的情况,当然此方案也可以推广到三个医疗机构或多个医疗机构场景。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (6)

1.一种基于联邦学习的多中心医院科研数据建模方法,其特征在于,包括以下步骤:
步骤1、医疗机构A收集患者数据,所述患者数据包括病史数据、体检数据及基本健康数据,在机构A本地构成样本特征矩阵XA,对非数值型的患者数据,进行编码以完成数字化;医疗机构B用同样的方法构成样本特征矩阵XB
步骤2、医疗机构A在本地进行特定病种的诊断结果数据的收集,对病种的诊断结果进行编码,分为确诊与否的二值化编码,或者患病风险概率的百分比编码;
步骤3、对样本特征矩阵XA和样本特征矩阵XB求交集,得到相同ID的样本数据;
步骤4、医疗机构A和医疗机构B在各自本地对相同ID的样本数据预处理;
步骤5、对预处理后的数据进行特征分箱;
步骤6、医疗机构A和医疗机构B对特征分箱后的数据进行特征选择并联合建模,利用步骤2中的医疗机构A对病种的诊断结果或患病风险概率使模型进行有监督学习,基于评价指标选取最优的模型作为冠军模型。
2.如权利要求1所述的基于联邦学习的多中心医院科研数据建模方法,其特征在于,步骤3具体为:
步骤3.1、医疗机构A对样本特征矩阵XA设置各类样本数据的特定字段ID,医疗机构B对样本特征矩阵XB设置各类样本数据的特定字段ID;并各自生成自己的私钥a和b;
步骤3.2、医疗机构A和B分别对自己本方的ID进行hash处理得到hash结果H(x)和H(y);
步骤3.3、医疗机构A基于自己本方的hash结果,用自己的私钥a进行加密H(x)a,医疗机构B基于自己本方的hash结果,用自己的私钥b进行加密H(y)b
步骤3.4、医疗机构A使用压缩算法将加密后的hash结果H(x)a进行压缩处理,并发送给医疗机构B;医疗机构B使用压缩算法将加密后的hash结果H(y)b进行压缩处理,并发送给医疗机构A;
步骤3.5、医疗机构A对医疗机构B发送的被压缩的hash结果进行解压,然后用自己的私钥a进行二次加密处理(H(y)b)a,医疗机构B对医疗机构A发送的被压缩的hash结果进行解压,然后用自己的私钥b进行二次加密处理(H(x)a)b,将二次加密的结果压缩并发送给医疗机构A;
步骤3.6、医疗机构A将医疗机构B发来的压缩的二次加密的结果解压,还原成(H(x)a)b,然后与(H(y)b)a求交集,将最终求交结果进行压缩,并发给医疗机构B;
步骤3.7、医疗机构B将求交结果进行解压,得最终求交结果。
3.如权利要求1所述的基于联邦学习的多中心医院科研数据建模方法,其特征在于,步骤5中,所述特征分箱包括等频分箱、等距分箱或卡方分箱。
4.如权利要求2所述的基于联邦学习的多中心医院科研数据建模方法,其特征在于,所述压缩算法具体为zlib算法。
5.如权利要求2所述的基于联邦学习的多中心医院科研数据建模方法,其特征在于,所述解压使用的方法为DH加密算法。
6.如权利要求1所述的基于联邦学习的多中心医院科研数据建模方法,其特征在于,步骤4中,所述预处理包括缺失值填补和异常值修复。
CN202311031545.4A 2023-08-16 2023-08-16 一种基于联邦学习的多中心医院科研数据建模方法 Withdrawn CN117035571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311031545.4A CN117035571A (zh) 2023-08-16 2023-08-16 一种基于联邦学习的多中心医院科研数据建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311031545.4A CN117035571A (zh) 2023-08-16 2023-08-16 一种基于联邦学习的多中心医院科研数据建模方法

Publications (1)

Publication Number Publication Date
CN117035571A true CN117035571A (zh) 2023-11-10

Family

ID=88639657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311031545.4A Withdrawn CN117035571A (zh) 2023-08-16 2023-08-16 一种基于联邦学习的多中心医院科研数据建模方法

Country Status (1)

Country Link
CN (1) CN117035571A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577248A (zh) * 2024-01-15 2024-02-20 浙江大学 融合区块链与隐私求交技术的医疗数据共享方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577248A (zh) * 2024-01-15 2024-02-20 浙江大学 融合区块链与隐私求交技术的医疗数据共享方法及系统
CN117577248B (zh) * 2024-01-15 2024-04-05 浙江大学 融合区块链与隐私求交技术的医疗数据共享方法及系统

Similar Documents

Publication Publication Date Title
Jiang et al. Toward practical privacy-preserving processing over encrypted data in IoT: an assistive healthcare use case
Rehman et al. A novel chaos-based privacy-preserving deep learning model for cancer diagnosis
CN110084377A (zh) 用于构建决策树的方法和装置
CN117035571A (zh) 一种基于联邦学习的多中心医院科研数据建模方法
CN112394974B (zh) 代码变更的注释生成方法、装置、电子设备及存储介质
CN117238458B (zh) 基于云计算的重症护理跨机构协同平台系统
US10116632B2 (en) System, method and computer-accessible medium for secure and compressed transmission of genomic data
Muthukumaran et al. Intelligent medical data analytics using classifiers and clusters in machine learning
CN113240129A (zh) 一种面向多类型任务图像分析的联邦学习系统
CN116644778A (zh) 量子同态神经网络的构建方法及加密图像分类方法
CN115169576A (zh) 基于联邦学习的模型训练方法、装置及电子设备
CN116091826A (zh) 一种基于联邦学习和半监督学习的智能驾驶感知方法
Jiang et al. Private facial prediagnosis as an edge service for parkinson's dbs treatment valuation
CN116825264A (zh) 基于互联网的妇产科信息处理方法及系统
CN117675270A (zh) 面向纵向联邦学习的多模态数据加密传输方法及系统
CN115914488B (zh) 医学图像身份混淆共享方法、系统、终端设备及存储介质
CN115860768B (zh) 一种基于区块链的溯源方法、装置及其电子设备
CN117058088A (zh) 一种基于智能合约和自注意力的covid-19病灶预测系统
CN113904779B (zh) 基于超密编码的身份认证方法、系统、设备和存储介质
Goswami et al. Securing healthcare big data in industry 4.0: cryptography encryption with hybrid optimization algorithm for IoT applications
CN116340918A (zh) 全密文人脸比对方法、装置、设备及存储介质
CN115033917A (zh) 基于隐私保护的医疗数据处理系统
CN114154714A (zh) 时序数据预测方法、装置、计算机设备及介质
Hussain Medical image encryption using multi chaotic maps
Zheng et al. Design of Cloud Storage‐Oriented Sports Physical Fitness Monitoring System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20231110