CN113434626A - 一种多中心医学诊断知识图谱表示学习方法及系统 - Google Patents

一种多中心医学诊断知识图谱表示学习方法及系统 Download PDF

Info

Publication number
CN113434626A
CN113434626A CN202110995013.7A CN202110995013A CN113434626A CN 113434626 A CN113434626 A CN 113434626A CN 202110995013 A CN202110995013 A CN 202110995013A CN 113434626 A CN113434626 A CN 113434626A
Authority
CN
China
Prior art keywords
server
medical
global
occurrence
disease classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110995013.7A
Other languages
English (en)
Other versions
CN113434626B (zh
Inventor
李劲松
池胜强
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110995013.7A priority Critical patent/CN113434626B/zh
Publication of CN113434626A publication Critical patent/CN113434626A/zh
Application granted granted Critical
Publication of CN113434626B publication Critical patent/CN113434626B/zh
Priority to JP2023535611A priority patent/JP7433541B2/ja
Priority to PCT/CN2022/114879 priority patent/WO2023025255A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/008Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种多中心医学诊断知识图谱表示学习方法及系统,本发明基于已有的医学诊断本体,以有向无环图的形式表示医学诊断概念的层级结构,构建全局医学诊断知识图谱;利用全局医学诊断知识图谱,构建所有疾病分类编码的共现矩阵,计算每对编码的共现信息,同时出现越多且距离越近的编码对,具有更大的共现信息;基于联邦学习,在保护各医疗机构参与方数据隐私和安全的前提下,利用多中心数据,加和共现信息,提高数据密度,解决数据稀疏问题;在对大规模知识图谱及原始数据进行学习的过程中,融入了知识源中符合人类认知的层级信息和复杂关联关系,挖掘数据之间的相关关系,丰富语义信息,学习知识的高质量表示形式,便于知识的计算与推理。

Description

一种多中心医学诊断知识图谱表示学习方法及系统
技术领域
本发明属于医疗信息技术领域,尤其涉及一种多中心医学诊断知识图谱表示学习方法及系统。
背景技术
知识图谱是以结构化的形式描述客观世界中概念、实体及其关系,将信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解信息的能力,可以用于知识的挖掘、分析及构建、绘制和显示知识之间的相互联系。表示学习旨在将研究对象的语义信息表示为稠密低维实体向量。知识图谱表示学习主要是面对知识图谱中的实体和关系进行表示学习,通过对大规模知识图谱及原始数据的学习与训练,能够获得知识在低维稠密空间的分布向量表示,表达实体和关系的语义信息,便于知识的计算与推理。
利用医学本体对分层临床结构和医学概念之间的关系进行编码,可以减少对大量数据的需求,在不丢失信息的情况下有效减少搜索空间。幸运的是,在医疗保健领域有许多组织良好的本体,如国际疾病分类(ICD)、临床分类软件(CCS)或医学临床术语系统化命名(SNOMED)。在医学本体中,相互接近的结点(即医学概念)很可能与类似的患者相关联,从而允许我们在它们之间传递知识。当数据量不足以训练深度学习模型时,使用医学本体可能是有用的。甚至在数据量足够的情况下,也可以在不损失信息的前提下,作为一种精简模型的方法,通过学习更多符合本体结构的可解释表征。
基于医疗知识图谱结构信息的知识表示学习模型不能解决复杂关系建模和数据稀疏所带来的语义表示能力低下等问题。已有研究工作利用知识图谱本身结构外的海量文本信息,扩充知识图谱结构信息来减少数据稀疏所造成的影响。现有方法忽略了数据中固有的结构和相关性信息。此外,缺少在隐私保护和数据安全前提下扩大数据量,用于知识表示学习的方法。
发明内容
本发明针对现有技术的不足,提出一种多中心医学诊断知识图谱表示学习方法及系统,在保护各医疗机构参与方数据隐私和安全的前提下,利用多中心数据,提高数据密度,此外,在对大规模知识图谱及原始数据进行学习的过程中,融入了知识源中符合人类认知的层级信息和复杂关联关系,挖掘数据之间的相关关系,丰富语义信息,从而解决数据稀疏带来的语义表示能力低下问题。
本发明的目的是通过以下技术方案来实现的:
本发明一方面公开了一种多中心医学诊断知识图谱表示学习方法,该方法基于联邦学习与同态加密,利用多中心数据,结合层级信息和复杂关联关系,实现结构信息的知识表示学习,具体包括以下步骤:
(1)第一服务器构建全局医学诊断知识图谱,所述全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构,由叶子结点和祖先结点两部分组成,所述叶子结点为最小的疾病分类编码,其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码;
(2)第一服务器将构建的全局医学诊断知识图谱分发给各医疗机构参与方;
(3)各医疗机构参与方内部进行疾病诊断共现信息统计,具体为:
将医疗机构参与方电子病历中所有疾病分类编码的集合记为
Figure 177985DEST_PATH_IMAGE001
,共 有
Figure 645744DEST_PATH_IMAGE002
种疾病分类编码,医疗机构参与方每个患者的病历记录看作是多次就诊,记为
Figure 973957DEST_PATH_IMAGE003
,共就诊
Figure 395843DEST_PATH_IMAGE004
次,每次就诊的疾病分类编码集记为
Figure 366073DEST_PATH_IMAGE005
,将
Figure 173492DEST_PATH_IMAGE005
中每个疾病分类编 码的上层疾病分类编码加入
Figure 921874DEST_PATH_IMAGE005
,得到增强疾病分类编码集记为
Figure 877060DEST_PATH_IMAGE006
;将
Figure 870555DEST_PATH_IMAGE006
中的编码两两组合 构成编码对,计算编码对的共现信息;
医学诊断知识图谱中所有疾病分类编码的集合记为
Figure 798060DEST_PATH_IMAGE007
,共有
Figure 266080DEST_PATH_IMAGE008
种疾 病分类编码,
Figure 380666DEST_PATH_IMAGE009
;该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构建 共现矩阵
Figure 427120DEST_PATH_IMAGE010
,共现矩阵
Figure 225443DEST_PATH_IMAGE010
的第
Figure 331939DEST_PATH_IMAGE011
行第
Figure 245406DEST_PATH_IMAGE012
列元素
Figure 829971DEST_PATH_IMAGE013
表示两编码
Figure 217221DEST_PATH_IMAGE014
Figure 760198DEST_PATH_IMAGE015
的共现信息,
Figure 849377DEST_PATH_IMAGE016
Figure 752480DEST_PATH_IMAGE017
表示该医疗机构参与方中患者总数,
Figure 774662DEST_PATH_IMAGE018
表示两编码
Figure 708114DEST_PATH_IMAGE014
Figure 284589DEST_PATH_IMAGE015
在患者
Figure 256962DEST_PATH_IMAGE019
单次 就诊的增强疾病分类编码集
Figure 602493DEST_PATH_IMAGE006
中的共现信息;
(4)数据加密计算:第二服务器生成加密算法、加密密钥、解密算法和解密密钥,并将加密算法和加密密钥分发给各医疗机构参与方;各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器;第一服务器在密文状态下,对两编码的共现信息进行加和,得到密文状态下的全局共现矩阵,发送给第二服务器;第二服务器通过解密算法和解密密钥得到全局共现矩阵,返回给第一服务器;
(5)知识表示学习:在第一服务器中,将每个疾病分类编码表达成一个由实数组成 的表示向量,构造如下目标函数
Figure 221693DEST_PATH_IMAGE020
Figure 36196DEST_PATH_IMAGE021
其中,
Figure 500676DEST_PATH_IMAGE022
Figure 700713DEST_PATH_IMAGE023
分别是编码
Figure 490814DEST_PATH_IMAGE024
Figure 765850DEST_PATH_IMAGE015
的表示向量,
Figure 565179DEST_PATH_IMAGE025
Figure 619722DEST_PATH_IMAGE026
分别是两个表示向量的偏置 项,
Figure 331457DEST_PATH_IMAGE027
表示全局共现矩阵中编码
Figure 104241DEST_PATH_IMAGE028
Figure 176103DEST_PATH_IMAGE015
的共现信息,
Figure 85153DEST_PATH_IMAGE029
为加权函数;
优化目标函数直至收敛,得到两个表示向量
Figure 731904DEST_PATH_IMAGE030
Figure 726404DEST_PATH_IMAGE023
进一步地,所述第一服务器和第二服务器均为第三方服务器,第三方服务器需要是诚实的,第三方服务器之间能够相互通信,各医疗机构参与方内部部署各自的电子病历数据库,电子病历数据库中的原始数据不允许离开各医疗机构参与方,各医疗机构参与方之间无法直接进行相互通信,只能与第三方服务器进行通信。
进一步地,在构建全局医学诊断知识图谱过程中,使用的医学诊断本体包括ICD、CCS、SNOMED。
进一步地,构建的医学诊断知识图谱以字典形式存储,字典中的每个元素记录一种疾病的层级结构信息。
进一步地,增强疾病分类编码集
Figure 601957DEST_PATH_IMAGE031
的构建具体为:在医学诊断知识图谱中查找叶 子结点对应的祖先结点,共同祖先结点对应的上层疾病分类编码需要重复加入
Figure 631092DEST_PATH_IMAGE005
中。
进一步地,所述步骤(3)中,对于编码对中的两编码
Figure 419051DEST_PATH_IMAGE032
,编码对的共现信息计算 公式为:
Figure 432006DEST_PATH_IMAGE033
其中,
Figure 845670DEST_PATH_IMAGE034
Figure 978580DEST_PATH_IMAGE035
Figure 452287DEST_PATH_IMAGE031
中出现的次数,
Figure 421380DEST_PATH_IMAGE036
Figure 638735DEST_PATH_IMAGE037
Figure 862037DEST_PATH_IMAGE031
中出现的次数,
Figure 772224DEST_PATH_IMAGE038
为两编码
Figure 228613DEST_PATH_IMAGE039
之间的距离,
Figure 984079DEST_PATH_IMAGE040
为编码对的共现信息。
进一步地,所述步骤(3)中,
Figure 91582DEST_PATH_IMAGE018
的计算具体为:如果两编码
Figure 907091DEST_PATH_IMAGE024
Figure 850776DEST_PATH_IMAGE015
在患者
Figure 160666DEST_PATH_IMAGE019
单次就 诊的增强疾病分类编码集
Figure 873407DEST_PATH_IMAGE031
中同时出现过,就能够在该患者此次的
Figure 859817DEST_PATH_IMAGE031
中找到编码
Figure 290799DEST_PATH_IMAGE041
等于编 码
Figure 631476DEST_PATH_IMAGE024
,找到编码
Figure 198723DEST_PATH_IMAGE042
等于编码
Figure 356035DEST_PATH_IMAGE015
,则
Figure 274313DEST_PATH_IMAGE018
等于
Figure 926005DEST_PATH_IMAGE043
;否则
Figure 613338DEST_PATH_IMAGE018
等于0。
进一步地,所述步骤(4)具体为:
Figure 941552DEST_PATH_IMAGE044
个医疗机构参与方的
Figure 81546DEST_PATH_IMAGE044
个共现矩阵记为
Figure 769885DEST_PATH_IMAGE045
,任意两编码
Figure 311725DEST_PATH_IMAGE024
Figure 810839DEST_PATH_IMAGE015
的共现信息记为
Figure 454441DEST_PATH_IMAGE046
第二服务器利用加法同态加密算法得到加密算法
Figure 697204DEST_PATH_IMAGE047
、解密算法
Figure 359129DEST_PATH_IMAGE048
、加密密钥
Figure 763566DEST_PATH_IMAGE049
和解密密钥
Figure 127420DEST_PATH_IMAGE050
,将加密算法
Figure 173873DEST_PATH_IMAGE047
和加密密钥
Figure 690305DEST_PATH_IMAGE049
发送给各医疗机构参与方;
在实现安全加法聚合的过程中,对于任意两个编码的共现信息,各医疗机构参与 方首先将共现信息加密为密文,记为
Figure 531222DEST_PATH_IMAGE051
, 然后将密文发给第一服务器;
第一服务器直接对密文进行操作;根据加法同态性,只需计算密文的乘积即可,两 编码
Figure 618258DEST_PATH_IMAGE024
Figure 202823DEST_PATH_IMAGE015
加密后的共现信息
Figure 839341DEST_PATH_IMAGE052
公式如下:
Figure 851159DEST_PATH_IMAGE053
针对医学诊断知识图谱中的任意两个疾病分类编码,均计算密文状态下的两编码 共现信息,最终得到密文状态下的全局共现矩阵
Figure 189606DEST_PATH_IMAGE054
第一服务器将
Figure 312283DEST_PATH_IMAGE054
发给第二服务器,第二服务器解密得到全局共现矩阵
Figure 803307DEST_PATH_IMAGE055
,即
Figure 986026DEST_PATH_IMAGE056
,返回给第一服务器。
进一步地,所述步骤(5)中,
Figure 47654DEST_PATH_IMAGE057
采用以下分段函数:
Figure 974022DEST_PATH_IMAGE058
其中,
Figure 319553DEST_PATH_IMAGE059
Figure 673174DEST_PATH_IMAGE060
均为超参数,根据实验结果设定最优取值,在共现信息超过
Figure 992072DEST_PATH_IMAGE061
后,
Figure 456551DEST_PATH_IMAGE062
维持在1的不变水平。
本发明另一方面公开了一种多中心医学诊断知识图谱表示学习系统,该系统包括:
全局医学诊断知识图谱构建模块:用于在第一服务器上构建全局医学诊断知识图谱,所述全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构,由叶子结点和祖先结点两部分组成,所述叶子结点为最小的疾病分类编码,其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码;
医学诊断知识图谱分发模块:用于将第一服务器构建的全局医学诊断知识图谱分发给各医疗机构参与方;
疾病诊断共现信息统计模块:部署在各医疗机构参与方;将医疗机构参与方电子 病历中所有疾病分类编码的集合记为
Figure 656588DEST_PATH_IMAGE063
,共有
Figure 181111DEST_PATH_IMAGE064
种疾病分类编码,医疗机 构参与方每个患者的病历记录看作是多次就诊,记为
Figure 217331DEST_PATH_IMAGE065
,共就诊
Figure 16659DEST_PATH_IMAGE066
次,每次 就诊的疾病分类编码集记为
Figure 71203DEST_PATH_IMAGE067
,将
Figure 15894DEST_PATH_IMAGE067
中每个疾病分类编码的上层疾病分类编码加入
Figure 788678DEST_PATH_IMAGE067
,得到 增强疾病分类编码集记为
Figure 860539DEST_PATH_IMAGE068
;将
Figure 35169DEST_PATH_IMAGE068
中的编码两两组合构成编码对,计算编码对的共现信息; 医学诊断知识图谱中所有疾病分类编码的集合记为
Figure 917805DEST_PATH_IMAGE069
,共有
Figure 912306DEST_PATH_IMAGE070
种疾病分类编 码,
Figure 787858DEST_PATH_IMAGE071
;该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构建共现矩 阵
Figure 551415DEST_PATH_IMAGE010
,共现矩阵
Figure 103488DEST_PATH_IMAGE072
的第
Figure 585285DEST_PATH_IMAGE011
行第
Figure 998949DEST_PATH_IMAGE012
列元素
Figure 898903DEST_PATH_IMAGE013
表示两编码
Figure 372609DEST_PATH_IMAGE024
Figure 341702DEST_PATH_IMAGE015
的共现信息,
Figure 559057DEST_PATH_IMAGE073
Figure 546473DEST_PATH_IMAGE017
表示该医疗机构参与方中患者总数,
Figure 191081DEST_PATH_IMAGE018
表示两编码
Figure 647471DEST_PATH_IMAGE024
Figure 684828DEST_PATH_IMAGE015
在患者
Figure 808642DEST_PATH_IMAGE019
单次就诊的增强疾病分 类编码集
Figure 358572DEST_PATH_IMAGE031
中的共现信息;
数据加密计算模块:第二服务器生成加密算法、加密密钥、解密算法和解密密钥,并将加密算法和加密密钥分发给各医疗机构参与方;各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器;第一服务器在密文状态下,对两编码的共现信息进行加和,得到密文状态下的全局共现矩阵,发送给第二服务器;第二服务器通过解密算法和解密密钥得到全局共现矩阵,返回给第一服务器;
知识表示学习模块:部署在第一服务器,将每个疾病分类编码表达成一个由实数 组成的表示向量,构造如下目标函数
Figure 302257DEST_PATH_IMAGE020
Figure 128260DEST_PATH_IMAGE074
其中,
Figure 841001DEST_PATH_IMAGE075
Figure 827412DEST_PATH_IMAGE023
分别是编码
Figure 9125DEST_PATH_IMAGE024
Figure 106394DEST_PATH_IMAGE015
的表示向量,
Figure 939221DEST_PATH_IMAGE025
Figure 362112DEST_PATH_IMAGE026
分别是两个表示向量的偏置 项,
Figure 795236DEST_PATH_IMAGE027
表示全局共现矩阵中编码
Figure 696196DEST_PATH_IMAGE028
Figure 383530DEST_PATH_IMAGE015
的共现信息,
Figure 462475DEST_PATH_IMAGE029
为加权函数;
优化目标函数直至收敛,得到两个表示向量
Figure 868049DEST_PATH_IMAGE075
Figure 307120DEST_PATH_IMAGE023
本发明的有益效果是:
1. 基于已有的医学诊断本体(ICD、CCS、SNOMED等),以有向无环图的形式表示医学诊断概念的层级结构,构建全局医学诊断知识图谱;利用全局医学诊断知识图谱,构建所有疾病分类编码的共现矩阵,计算每对编码的共现信息,同时出现越多且距离越近的编码对,具有更大的共现信息。
2. 基于联邦学习,在保护各医疗机构参与方数据隐私和安全的前提下,利用多中心数据,加和共现信息,提高数据密度,解决数据稀疏问题;
3. 在对大规模知识图谱及原始数据进行学习的过程中,融入了知识源中符合人类认知的层级信息和复杂关联关系,挖掘数据之间的相关关系,丰富语义信息,学习知识的高质量表示形式,便于知识的计算与推理。
附图说明
图1为本发明实施例提供的多中心医学诊断知识图谱表示学习方法的网络架构示意图;
图2为本发明实施例提供的多中心医学诊断知识图谱表示学习方法的实现流程图;
图3为本发明实施例提供的医学诊断知识图谱结构示例。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明提供一种多中心医学诊断知识图谱表示学习方法,该方法基于联邦学习与同态加密,利用多中心数据,结合层级信息和复杂关联关系,实现结构信息的知识表示学习。该方法基于如图1所示网络架构,包括两个第三方服务器(第一服务器和第二服务器)和多个医疗机构参与方,第三方服务器需要是诚实的,第三方服务器之间可以相互通信。各医疗机构参与方内部部署各自的电子病历数据库,电子病历数据库中的原始数据不允许离开各医疗机构参与方。各医疗机构参与方之间无法直接进行相互通信,只能与第三方服务器进行通信。
如图2所示,本实施例提供的一种多中心医学诊断知识图谱表示学习方法,步骤如下:
1.全局医学诊断知识图谱构建
第一服务器负责构建全局医学诊断知识图谱。全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构。全局医学诊断知识图谱由叶子结点和祖先结点两部分组成,其中叶子结点为最小的疾病分类编码,其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码。
本实施例中使用ICD10作为医学诊断本体,构建全局医学诊断知识图谱。其中,医学诊断本体还可以选择CCS、SNOMED等医学领域常用的知识源。以病毒性咽炎为例,病毒性咽炎J02.801为叶子结点,根据ICD10中的疾病层级信息,构建其祖先结点:呼吸系统疾病J00-J99、急性上呼吸道感染J00-J06、急性咽炎J02,如图3所示。
构建的医学诊断知识图谱以字典形式存储,字典中的每个元素记录一种疾病的层级结构信息。以病毒性咽炎为例,层级结构信息存储为:{J02.801: [J02.801, root, J00-J99, J00-J06, J02]},root代表根结点。
2.医学诊断知识图谱分发
第一服务器将构建的全局医学诊断知识图谱分发给各医疗机构参与方,因为知识图谱是公开获取的,可以不加密。
3.每个医疗机构参与方内部进行疾病诊断共现信息统计
将每个医疗机构参与方电子病历中所有疾病分类编码的集合记为
Figure 98228DEST_PATH_IMAGE001
,总共有
Figure 597342DEST_PATH_IMAGE002
种疾病分类编码。该医疗机构参与方每个患者的病历记录可以 看作是多次就诊,记为
Figure 490212DEST_PATH_IMAGE076
,总共就诊
Figure 749286DEST_PATH_IMAGE004
次,每次就诊的疾病分类编码集记为
Figure 411211DEST_PATH_IMAGE005
医疗机构参与方以单次就诊
Figure 81227DEST_PATH_IMAGE005
为单位,通过加入
Figure 710661DEST_PATH_IMAGE005
中每个疾病分类编码的上层疾 病分类编码,得到增强疾病分类编码集记为
Figure 757114DEST_PATH_IMAGE031
,即在医学诊断知识图谱中查找叶子结点对 应的祖先结点,共同祖先结点对应的上层疾病分类编码需要重复加入。
计算每个疾病分类编码及其上层疾病分类编码在
Figure 7967DEST_PATH_IMAGE031
中的出现次数。将
Figure 848884DEST_PATH_IMAGE031
中的编码 两两组合构成编码对,通过相乘编码对中两编码的出现次数,计算该编码对的共现信息。同 时,计算编码对中两编码之间的距离,即连接两个结点的最短路径所包含的边的数量,将距 离的倒数作为权重。
对于编码对中的两编码
Figure 467078DEST_PATH_IMAGE077
,编码对的共现信息为:
Figure 51643DEST_PATH_IMAGE078
其中,
Figure 422582DEST_PATH_IMAGE034
Figure 434400DEST_PATH_IMAGE079
Figure 309864DEST_PATH_IMAGE031
中出现的次数,
Figure 432541DEST_PATH_IMAGE036
Figure 674298DEST_PATH_IMAGE042
Figure 122596DEST_PATH_IMAGE031
中出现的次数,
Figure 433492DEST_PATH_IMAGE038
为两编码
Figure 359860DEST_PATH_IMAGE080
之间的距离,
Figure 220237DEST_PATH_IMAGE081
为编码对的共现信息。
医学诊断知识图谱中所有疾病分类编码的集合记为
Figure 573858DEST_PATH_IMAGE082
,总共有
Figure 372050DEST_PATH_IMAGE008
种 疾病分类编码,
Figure 102108DEST_PATH_IMAGE083
。该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构 建共现矩阵
Figure 318457DEST_PATH_IMAGE084
,如表1所示。
Figure 108559DEST_PATH_IMAGE013
表示两编码
Figure 394047DEST_PATH_IMAGE028
Figure 177064DEST_PATH_IMAGE015
的共现信息,
Figure 231607DEST_PATH_IMAGE085
Figure 458189DEST_PATH_IMAGE017
表示该医 疗机构参与方中患者的总数,
Figure 716127DEST_PATH_IMAGE018
表示两编码
Figure 787988DEST_PATH_IMAGE024
Figure 962617DEST_PATH_IMAGE015
在患者
Figure 828942DEST_PATH_IMAGE019
单次就诊的增强疾病分类编码 集
Figure 338290DEST_PATH_IMAGE031
中的共现信息,如果两编码
Figure 213842DEST_PATH_IMAGE024
Figure 508557DEST_PATH_IMAGE015
在患者
Figure 562095DEST_PATH_IMAGE019
单次就诊的增强疾病分类编码集
Figure 43891DEST_PATH_IMAGE031
中同时 出现过,就可以在该患者此次的
Figure 457555DEST_PATH_IMAGE031
中找到编码
Figure 850185DEST_PATH_IMAGE079
等于编码
Figure 589471DEST_PATH_IMAGE024
,找到编码
Figure 292985DEST_PATH_IMAGE042
等于编码
Figure 244760DEST_PATH_IMAGE015
,则
Figure 264800DEST_PATH_IMAGE018
等于
Figure 174987DEST_PATH_IMAGE081
;如果没有,记为0。共现矩阵
Figure 631376DEST_PATH_IMAGE084
对称,
Figure 636110DEST_PATH_IMAGE013
Figure 494345DEST_PATH_IMAGE086
相等,对角线上 是相同疾病分类编码的共现信息,记为0。
表1共现矩阵结构示例
Figure 575433DEST_PATH_IMAGE087
以图3的医学诊断知识图谱为例,假设患者单次就诊的疾病诊断为病毒性咽炎和 急性喉炎,
Figure 269851DEST_PATH_IMAGE005
= [J02.801,J04.000],通过加入上层疾病分类编码,增强为
Figure 829008DEST_PATH_IMAGE006
= [J02.801, J02, J00-J06, J00-J99, root, J04.000, J04, J00-J06, J00-J99, root],编码 J02.801的出现次数为1,J00-J06的出现次数为2,两者间的距离为2,共现信息取值为1。
4.数据加密计算
第二服务器生成加密算法、加密密钥、解密算法和解密密钥,并将加密算法和加密密钥分发给各医疗机构参与方。各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器。第一服务器在密文状态下,对两编码的共现信息进行加和,得到密文状态下的全局共现矩阵,发送给第二服务器。第二服务器通过解密算法和解密密钥得到全局共现矩阵,返回给第一服务器。整个过程没有数据泄露风险。具体实现流程如下:
Figure 541749DEST_PATH_IMAGE088
个医疗机构参与方的
Figure 262581DEST_PATH_IMAGE088
个共现矩阵记为
Figure 942830DEST_PATH_IMAGE089
,任意两编码
Figure 305678DEST_PATH_IMAGE024
Figure 138505DEST_PATH_IMAGE015
的共现信息记为
Figure 46549DEST_PATH_IMAGE090
第二服务器利用加法同态加密算法得到加密算法
Figure 230406DEST_PATH_IMAGE047
、解密算法
Figure 131366DEST_PATH_IMAGE048
、加密密钥
Figure 553120DEST_PATH_IMAGE049
和解密密钥
Figure 396180DEST_PATH_IMAGE050
,将加密算法
Figure 536174DEST_PATH_IMAGE047
和加密密钥
Figure 506404DEST_PATH_IMAGE049
发送给各医疗机构参与方。
其次,在实现安全加法聚合的过程中,对于任意两个编码的共现信息,各医疗机构 参与方首先将共现信息加密为密文,记为
Figure 533397DEST_PATH_IMAGE091
,然后将密文发给第一服务器。
第一服务器不进行解密操作,直接对密文进行操作。根据加法同态性,只需计算密 文的乘积即可,两编码
Figure 298091DEST_PATH_IMAGE014
Figure 190960DEST_PATH_IMAGE015
加密后的共现信息
Figure 954429DEST_PATH_IMAGE052
公式如下:
Figure 616354DEST_PATH_IMAGE092
针对医学诊断知识图谱中的任意两个疾病分类编码,均按照上述步骤,计算密文 状态下的两编码共现信息,最终得到密文状态下的全局共现矩阵
Figure 286370DEST_PATH_IMAGE054
。第一服务器将
Figure 151689DEST_PATH_IMAGE054
发给第二服务器,第二服务器解密得到全局共现矩阵
Figure 198143DEST_PATH_IMAGE055
,即
Figure 714575DEST_PATH_IMAGE093
,返回给 第一服务器。
5.知识表示学习
在第一服务器中,根据GloVe算法原理,将每个疾病分类编码表达成一个由实数组成的表示向量,该表示向量和全局共现矩阵之间的关系表示为:
Figure 555492DEST_PATH_IMAGE094
其中,
Figure 406642DEST_PATH_IMAGE075
Figure 991207DEST_PATH_IMAGE023
分别是最终需要求解的疾病分类编码
Figure 627725DEST_PATH_IMAGE024
Figure 390275DEST_PATH_IMAGE015
的表示向量,随机初始 化为一个128维的、取值在-0.1到0.1之间的随机向量;上标T表示转置操作;
Figure 479454DEST_PATH_IMAGE095
Figure 133289DEST_PATH_IMAGE026
分别是两 个表示向量的偏置项,初始值为0;
Figure 608002DEST_PATH_IMAGE027
表示全局共现矩阵X中编码
Figure 790722DEST_PATH_IMAGE024
Figure 367196DEST_PATH_IMAGE015
的共现信息。
基于上述公式,构造目标函数
Figure 559143DEST_PATH_IMAGE020
Figure 389827DEST_PATH_IMAGE096
其中,
Figure 9027DEST_PATH_IMAGE029
为加权函数。为了让共现多的编码对获得更高权重,
Figure 807219DEST_PATH_IMAGE029
为非递减函数,同时, 这个权重不能过大,当到达一定程度之后应该不再增加。如果两个编码
Figure 537278DEST_PATH_IMAGE024
Figure 721003DEST_PATH_IMAGE015
没有一起出 现,即
Figure 776684DEST_PATH_IMAGE097
,那么它们不参与目标函数的计算,即
Figure 62172DEST_PATH_IMAGE098
。基于以上要求,
Figure 81074DEST_PATH_IMAGE029
采用以下分 段函数:
Figure 401197DEST_PATH_IMAGE099
即在共现信息超过阈值
Figure 362200DEST_PATH_IMAGE059
后,其权重维持在1的不变水平。超参数
Figure 869405DEST_PATH_IMAGE061
Figure 473691DEST_PATH_IMAGE060
根据 实验结果设定最优取值,可分别设置为100和0.75。
优化目标函数过程采用AdaDelta梯度下降算法,对全局共现矩阵X中的元素进行 随机采样,学习率设为0.05,迭代50次,直至收敛,得到两个表示向量
Figure 648320DEST_PATH_IMAGE075
Figure 514645DEST_PATH_IMAGE023
通过知识图谱表示学习得到的表示向量,不仅可以用于计算疾病之间的相似性, 还可以将其和患者病历相结合,融入到深度学习模型中完成预测任务。比如,根据患者的历 史就诊记录,预测下次就诊可能会出现的疾病。在电子病历中,每个患者的病历记录可以看 作是多次就诊,而每次就诊中又包含着一系列的疾病分类编码,即
Figure 525458DEST_PATH_IMAGE100
的子集。患者单次就诊 的疾病分类编码集可以表示为二进制向量
Figure 401010DEST_PATH_IMAGE101
Figure 430146DEST_PATH_IMAGE102
,其中第i个元素代表该患者的这 次就诊是否出现编码
Figure 467372DEST_PATH_IMAGE024
,出现则为1,反之则为0。在深度学习模型训练中,可以将患者每次 就诊的二进制向量
Figure 464016DEST_PATH_IMAGE101
与表示向量做点乘再经非线性转换,作为RNN预测模型的输入,预测得 到下一次就诊的疾病分类编码,从而预测可能会出现的疾病。
本发明实施例还提供一种多中心医学诊断知识图谱表示学习系统,该系统包括:
全局医学诊断知识图谱构建模块:用于在第一服务器上构建全局医学诊断知识图谱,所述全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构,由叶子结点和祖先结点两部分组成,所述叶子结点为最小的疾病分类编码,其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码;
医学诊断知识图谱分发模块:用于将第一服务器构建的全局医学诊断知识图谱分发给各医疗机构参与方;
疾病诊断共现信息统计模块:部署在各医疗机构参与方;将医疗机构参与方电子 病历中所有疾病分类编码的集合记为
Figure 877679DEST_PATH_IMAGE103
,共有
Figure 761322DEST_PATH_IMAGE064
种疾病分类编码,医疗机 构参与方每个患者的病历记录看作是多次就诊,记为
Figure 235028DEST_PATH_IMAGE065
,共就诊
Figure 954854DEST_PATH_IMAGE066
次,每次 就诊的疾病分类编码集记为
Figure 172209DEST_PATH_IMAGE067
,将
Figure 175937DEST_PATH_IMAGE067
中每个疾病分类编码的上层疾病分类编码加入
Figure 804233DEST_PATH_IMAGE067
,得到 增强疾病分类编码集记为
Figure 260622DEST_PATH_IMAGE068
;将
Figure 281668DEST_PATH_IMAGE068
中的编码两两组合构成编码对,计算编码对的共现信息; 医学诊断知识图谱中所有疾病分类编码的集合记为
Figure 139902DEST_PATH_IMAGE104
,共有
Figure 706144DEST_PATH_IMAGE070
种疾病分类编 码,
Figure 384250DEST_PATH_IMAGE071
;该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构建共现矩 阵
Figure 943407DEST_PATH_IMAGE105
,共现矩阵
Figure 656148DEST_PATH_IMAGE105
的第
Figure 891827DEST_PATH_IMAGE011
行第
Figure 322808DEST_PATH_IMAGE012
列元素
Figure 420077DEST_PATH_IMAGE013
表示两编码
Figure 987324DEST_PATH_IMAGE024
Figure 160948DEST_PATH_IMAGE015
的共现信息,
Figure 79225DEST_PATH_IMAGE106
Figure 449027DEST_PATH_IMAGE017
表示 该医疗机构参与方中患者总数,
Figure 136360DEST_PATH_IMAGE018
表示两编码
Figure 985279DEST_PATH_IMAGE014
Figure 125274DEST_PATH_IMAGE015
在患者
Figure 829925DEST_PATH_IMAGE019
单次就诊的增强疾病分类编 码集
Figure 122497DEST_PATH_IMAGE031
中的共现信息;
数据加密计算模块:第二服务器生成加密算法、加密密钥、解密算法和解密密钥,并将加密算法和加密密钥分发给各医疗机构参与方;各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器;第一服务器在密文状态下,对两编码的共现信息进行加和,得到密文状态下的全局共现矩阵,发送给第二服务器;第二服务器通过解密算法和解密密钥得到全局共现矩阵,返回给第一服务器;
知识表示学习模块:部署在第一服务器,将每个疾病分类编码表达成一个由实数 组成的表示向量,构造如下目标函数
Figure 621611DEST_PATH_IMAGE020
Figure 248902DEST_PATH_IMAGE074
其中,
Figure 226085DEST_PATH_IMAGE075
Figure 137278DEST_PATH_IMAGE023
分别是编码
Figure 807294DEST_PATH_IMAGE024
Figure 921880DEST_PATH_IMAGE015
的表示向量,
Figure 702754DEST_PATH_IMAGE025
Figure 235498DEST_PATH_IMAGE026
分别是两个表示向量的偏置 项,
Figure 76415DEST_PATH_IMAGE027
表示全局共现矩阵中编码
Figure 412719DEST_PATH_IMAGE028
Figure 997284DEST_PATH_IMAGE015
的共现信息,
Figure 945386DEST_PATH_IMAGE029
为加权函数;
优化目标函数直至收敛,得到两个表示向量
Figure 957204DEST_PATH_IMAGE075
Figure 531536DEST_PATH_IMAGE023
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种多中心医学诊断知识图谱表示学习方法,其特征在于,该方法包括:
(1)第一服务器构建全局医学诊断知识图谱,所述全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构,由叶子结点和祖先结点两部分组成,所述叶子结点为最小的疾病分类编码,其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码;
(2)第一服务器将构建的全局医学诊断知识图谱分发给各医疗机构参与方;
(3)各医疗机构参与方内部进行疾病诊断共现信息统计,具体为:
将医疗机构参与方电子病历中所有疾病分类编码的集合记为
Figure DEST_PATH_IMAGE001
,共有
Figure 926937DEST_PATH_IMAGE002
种疾病分类编码,医疗机构参与方每个患者的病历记录看作是多次就诊,记为
Figure DEST_PATH_IMAGE003
,共就诊
Figure 765449DEST_PATH_IMAGE004
次,每次就诊的疾病分类编码集记为
Figure DEST_PATH_IMAGE005
,将
Figure 748449DEST_PATH_IMAGE006
中每个疾病分类编码的上层疾病分类编码加入
Figure 602047DEST_PATH_IMAGE006
,得到增强疾病分类编码集记为
Figure DEST_PATH_IMAGE007
;将
Figure 354103DEST_PATH_IMAGE008
中的编码两两组合构成编码对,计算编码对的共现信息;
医学诊断知识图谱中所有疾病分类编码的集合记为
Figure DEST_PATH_IMAGE009
,共有
Figure 363516DEST_PATH_IMAGE010
种疾病分类编码,
Figure 99391DEST_PATH_IMAGE011
;该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构建共现矩阵
Figure DEST_PATH_IMAGE012
,共现矩阵
Figure 219662DEST_PATH_IMAGE012
的第
Figure 622962DEST_PATH_IMAGE014
行第
Figure 85167DEST_PATH_IMAGE016
列元素
Figure DEST_PATH_IMAGE017
表示两编码
Figure 777180DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
的共现信息,
Figure 435563DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
表示该医疗机构参与方中患者总数,
Figure 145899DEST_PATH_IMAGE022
表示两编码
Figure 44585DEST_PATH_IMAGE018
Figure 755052DEST_PATH_IMAGE019
在患者
Figure DEST_PATH_IMAGE023
单次就诊的增强疾病分类编码集
Figure 217126DEST_PATH_IMAGE008
中的共现信息;
(4)数据加密计算:第二服务器生成加密算法、加密密钥、解密算法和解密密钥,并将加密算法和加密密钥分发给各医疗机构参与方;各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器;第一服务器在密文状态下,对两编码的共现信息进行加和,得到密文状态下的全局共现矩阵,发送给第二服务器;第二服务器通过解密算法和解密密钥得到全局共现矩阵,返回给第一服务器;
(5)知识表示学习:在第一服务器中,将每个疾病分类编码表达成一个由实数组成的表示向量,构造如下目标函数
Figure DEST_PATH_IMAGE025
Figure 798280DEST_PATH_IMAGE026
其中,
Figure DEST_PATH_IMAGE027
Figure 320397DEST_PATH_IMAGE028
分别是编码
Figure DEST_PATH_IMAGE029
Figure 987002DEST_PATH_IMAGE019
的表示向量,
Figure 269078DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
分别是两个表示向量的偏置项,
Figure 954007DEST_PATH_IMAGE032
表示全局共现矩阵中编码
Figure 194495DEST_PATH_IMAGE018
Figure 613975DEST_PATH_IMAGE019
的共现信息,
Figure 943151DEST_PATH_IMAGE034
为加权函数;
优化目标函数直至收敛,得到两个表示向量
Figure 764476DEST_PATH_IMAGE027
Figure 175866DEST_PATH_IMAGE028
2.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法,其特征在于,所述第一服务器和第二服务器均为第三方服务器,第三方服务器需要是诚实的,第三方服务器之间能够相互通信,各医疗机构参与方内部部署各自的电子病历数据库,电子病历数据库中的原始数据不允许离开各医疗机构参与方,各医疗机构参与方之间无法直接进行相互通信,只能与第三方服务器进行通信。
3.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法,其特征在于,在构建全局医学诊断知识图谱过程中,使用的医学诊断本体包括ICD、CCS、SNOMED。
4.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法,其特征在于,构建的医学诊断知识图谱以字典形式存储,字典中的每个元素记录一种疾病的层级结构信息。
5.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法,其特征在于,增强疾病分类编码集
Figure 331910DEST_PATH_IMAGE007
的构建具体为:在医学诊断知识图谱中查找叶子结点对应的祖先结点,共同祖先结点对应的上层疾病分类编码需要重复加入
Figure 221369DEST_PATH_IMAGE006
中。
6.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法,其特征在于,所述步骤(3)中,对于编码对中的两编码
Figure DEST_PATH_IMAGE035
,编码对的共现信息计算公式为:
Figure 631621DEST_PATH_IMAGE036
其中,
Figure DEST_PATH_IMAGE037
Figure 932021DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
中出现的次数,
Figure 794935DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
Figure 940615DEST_PATH_IMAGE039
中出现的次数,
Figure 470953DEST_PATH_IMAGE042
为两编码
Figure DEST_PATH_IMAGE043
之间的距离,
Figure 942255DEST_PATH_IMAGE044
为编码对的共现信息。
7.根据权利要求6所述的一种多中心医学诊断知识图谱表示学习方法,其特征在于,所述步骤(3)中,
Figure 823623DEST_PATH_IMAGE022
的计算具体为:如果两编码
Figure 320463DEST_PATH_IMAGE029
Figure 970888DEST_PATH_IMAGE019
在患者
Figure 878670DEST_PATH_IMAGE023
单次就诊的增强疾病分类编码集
Figure 247334DEST_PATH_IMAGE039
中同时出现过,就能够在该患者此次的
Figure 16707DEST_PATH_IMAGE039
中找到编码
Figure DEST_PATH_IMAGE045
等于编码
Figure 770905DEST_PATH_IMAGE029
,找到编码
Figure 334742DEST_PATH_IMAGE046
等于编码
Figure 190702DEST_PATH_IMAGE019
,则
Figure 278613DEST_PATH_IMAGE022
等于
Figure DEST_PATH_IMAGE047
;否则
Figure 106892DEST_PATH_IMAGE022
等于0。
8.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法,其特征在于,所述步骤(4)具体为:
Figure 372788DEST_PATH_IMAGE048
个医疗机构参与方的
Figure 440013DEST_PATH_IMAGE048
个共现矩阵记为
Figure 82347DEST_PATH_IMAGE049
,任意两编码
Figure 561870DEST_PATH_IMAGE029
Figure 998667DEST_PATH_IMAGE019
的共现信息记为
Figure 812908DEST_PATH_IMAGE050
第二服务器利用加法同态加密算法得到加密算法
Figure 727775DEST_PATH_IMAGE051
、解密算法
Figure 327383DEST_PATH_IMAGE052
、加密密钥
Figure 935082DEST_PATH_IMAGE053
和解密密钥
Figure 236620DEST_PATH_IMAGE054
,将加密算法
Figure 689598DEST_PATH_IMAGE051
和加密密钥
Figure 143713DEST_PATH_IMAGE053
发送给各医疗机构参与方;
在实现安全加法聚合的过程中,对于任意两个编码的共现信息,各医疗机构参与方首先将共现信息加密为密文,记为
Figure 171580DEST_PATH_IMAGE055
,然后将密文发给第一服务器;
第一服务器直接对密文进行操作;根据加法同态性,只需计算密文的乘积即可,两编码
Figure 711146DEST_PATH_IMAGE029
Figure 233394DEST_PATH_IMAGE019
加密后的共现信息
Figure 542016DEST_PATH_IMAGE056
公式如下:
Figure 475206DEST_PATH_IMAGE057
针对医学诊断知识图谱中的任意两个疾病分类编码,均计算密文状态下的两编码共现信息,最终得到密文状态下的全局共现矩阵
Figure DEST_PATH_IMAGE058
第一服务器将
Figure 705330DEST_PATH_IMAGE059
发给第二服务器,第二服务器解密得到全局共现矩阵
Figure DEST_PATH_IMAGE060
,即
Figure 749378DEST_PATH_IMAGE061
,返回给第一服务器。
9.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法,其特征在于,所述步骤(5)中,
Figure DEST_PATH_IMAGE062
采用以下分段函数:
Figure 381348DEST_PATH_IMAGE063
其中,
Figure DEST_PATH_IMAGE064
Figure 954280DEST_PATH_IMAGE065
均为超参数,根据实验结果设定最优取值,在共现信息超过
Figure 468438DEST_PATH_IMAGE066
后,
Figure 332489DEST_PATH_IMAGE067
维持在1的不变水平。
10.一种多中心医学诊断知识图谱表示学习系统,其特征在于,该系统包括:
全局医学诊断知识图谱构建模块:用于在第一服务器上构建全局医学诊断知识图谱,所述全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构,由叶子结点和祖先结点两部分组成,所述叶子结点为最小的疾病分类编码,其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码;
医学诊断知识图谱分发模块:用于将第一服务器构建的全局医学诊断知识图谱分发给各医疗机构参与方;
疾病诊断共现信息统计模块:部署在各医疗机构参与方;将医疗机构参与方电子病历中所有疾病分类编码的集合记为
Figure 599391DEST_PATH_IMAGE068
,共有
Figure 156275DEST_PATH_IMAGE069
种疾病分类编码,医疗机构参与方每个患者的病历记录看作是多次就诊,记为
Figure 892150DEST_PATH_IMAGE070
,共就诊
Figure 559891DEST_PATH_IMAGE071
次,每次就诊的疾病分类编码集记为
Figure 433299DEST_PATH_IMAGE072
,将
Figure 426663DEST_PATH_IMAGE072
中每个疾病分类编码的上层疾病分类编码加入
Figure 384254DEST_PATH_IMAGE072
,得到增强疾病分类编码集记为
Figure 855687DEST_PATH_IMAGE073
;将
Figure 831602DEST_PATH_IMAGE073
中的编码两两组合构成编码对,计算编码对的共现信息;医学诊断知识图谱中所有疾病分类编码的集合记为
Figure DEST_PATH_IMAGE074
,共有
Figure 199129DEST_PATH_IMAGE076
种疾病分类编码,
Figure 644017DEST_PATH_IMAGE077
;该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构建共现矩阵
Figure 902829DEST_PATH_IMAGE078
,共现矩阵
Figure 15142DEST_PATH_IMAGE079
的第
Figure 819150DEST_PATH_IMAGE014
行第
Figure 16913DEST_PATH_IMAGE016
列元素
Figure 813836DEST_PATH_IMAGE017
表示两编码
Figure 515076DEST_PATH_IMAGE029
Figure 489985DEST_PATH_IMAGE019
的共现信息,
Figure 424312DEST_PATH_IMAGE080
Figure 775659DEST_PATH_IMAGE081
表示该医疗机构参与方中患者总数,
Figure 596985DEST_PATH_IMAGE022
表示两编码
Figure 742795DEST_PATH_IMAGE018
Figure 898839DEST_PATH_IMAGE019
在患者
Figure 788297DEST_PATH_IMAGE023
单次就诊的增强疾病分类编码集
Figure 729709DEST_PATH_IMAGE039
中的共现信息;
数据加密计算模块:第二服务器生成加密算法、加密密钥、解密算法和解密密钥,并将加密算法和加密密钥分发给各医疗机构参与方;各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器;第一服务器在密文状态下,对两编码的共现信息进行加和,得到密文状态下的全局共现矩阵,发送给第二服务器;第二服务器通过解密算法和解密密钥得到全局共现矩阵,返回给第一服务器;
知识表示学习模块:部署在第一服务器,将每个疾病分类编码表达成一个由实数组成的表示向量,构造如下目标函数
Figure 46420DEST_PATH_IMAGE025
Figure 689760DEST_PATH_IMAGE082
其中,
Figure 382910DEST_PATH_IMAGE027
Figure 178827DEST_PATH_IMAGE028
分别是编码
Figure 932020DEST_PATH_IMAGE029
Figure 62656DEST_PATH_IMAGE019
的表示向量,
Figure 293917DEST_PATH_IMAGE083
Figure 678762DEST_PATH_IMAGE031
分别是两个表示向量的偏置项,
Figure 857983DEST_PATH_IMAGE032
表示全局共现矩阵中编码
Figure 226647DEST_PATH_IMAGE018
Figure 261599DEST_PATH_IMAGE019
的共现信息,
Figure 766530DEST_PATH_IMAGE084
为加权函数;
优化目标函数直至收敛,得到两个表示向量
Figure 110792DEST_PATH_IMAGE027
Figure 966753DEST_PATH_IMAGE028
CN202110995013.7A 2021-08-27 2021-08-27 一种多中心医学诊断知识图谱表示学习方法及系统 Active CN113434626B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110995013.7A CN113434626B (zh) 2021-08-27 2021-08-27 一种多中心医学诊断知识图谱表示学习方法及系统
JP2023535611A JP7433541B2 (ja) 2021-08-27 2022-08-25 多中心医学診断知識グラフ表示学習方法及びシステム
PCT/CN2022/114879 WO2023025255A1 (zh) 2021-08-27 2022-08-25 一种多中心医学诊断知识图谱表示学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110995013.7A CN113434626B (zh) 2021-08-27 2021-08-27 一种多中心医学诊断知识图谱表示学习方法及系统

Publications (2)

Publication Number Publication Date
CN113434626A true CN113434626A (zh) 2021-09-24
CN113434626B CN113434626B (zh) 2021-12-07

Family

ID=77798239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110995013.7A Active CN113434626B (zh) 2021-08-27 2021-08-27 一种多中心医学诊断知识图谱表示学习方法及系统

Country Status (3)

Country Link
JP (1) JP7433541B2 (zh)
CN (1) CN113434626B (zh)
WO (1) WO2023025255A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990495A (zh) * 2021-12-27 2022-01-28 之江实验室 一种基于图神经网络的疾病诊断预测系统
WO2023025255A1 (zh) * 2021-08-27 2023-03-02 之江实验室 一种多中心医学诊断知识图谱表示学习方法及系统
CN116072298A (zh) * 2023-04-06 2023-05-05 之江实验室 一种基于层级标记分布学习的疾病预测系统
CN116403728A (zh) * 2023-06-09 2023-07-07 吉林大学第一医院 医疗就诊数据的数据处理装置和相关设备
CN116564535A (zh) * 2023-05-11 2023-08-08 之江实验室 基于隐私保护下局部图信息交换的中心疾病预测方法和装置
CN116757275A (zh) * 2023-06-07 2023-09-15 京信数据科技有限公司 一种知识图谱的联邦学习装置及方法
CN116821375A (zh) * 2023-08-29 2023-09-29 之江实验室 一种跨机构医学知识图谱表示学习方法及系统
CN116825264A (zh) * 2023-08-30 2023-09-29 青岛市妇女儿童医院(青岛市妇幼保健院、青岛市残疾儿童医疗康复中心、青岛市新生儿疾病筛查中心) 基于互联网的妇产科信息处理方法及系统
CN118571502A (zh) * 2024-08-02 2024-08-30 之江实验室 基于知识引导域自适应的多中心医学数据处理方法、系统、设备、介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364299B (zh) * 2023-03-30 2024-02-13 之江实验室 一种基于异构信息网络的疾病诊疗路径聚类方法及系统
CN116502129B (zh) * 2023-06-21 2023-09-22 之江实验室 一种知识与数据协同驱动的不平衡临床数据分类系统
CN116525125B (zh) * 2023-07-04 2023-09-19 之江实验室 一种虚拟电子病历的生成方法及装置
CN117409911B (zh) * 2023-10-13 2024-05-07 四川大学 一种基于多视图对比学习的电子病历表示学习方法
CN117116432B (zh) * 2023-10-23 2023-12-15 博奥生物集团有限公司 一种疾病特征的处理装置和设备
CN117711578B (zh) * 2024-02-06 2024-04-30 重庆医科大学绍兴柯桥医学检验技术研究中心 一种医学影像数据分析管理系统
CN117811722B (zh) * 2024-03-01 2024-05-24 山东云海国创云计算装备产业创新中心有限公司 全局参数模型构建方法、秘钥生成方法、装置及服务器

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
US20170277841A1 (en) * 2016-03-23 2017-09-28 HealthPals, Inc. Self-learning clinical intelligence system based on biological information and medical data metrics
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法
CN108614885A (zh) * 2018-05-03 2018-10-02 杭州认识科技有限公司 基于医学信息的知识图谱分析方法及装置
US20180322954A1 (en) * 2017-05-08 2018-11-08 Hefei University Of Technology Method and device for constructing medical knowledge graph and assistant diagnosis method
CN109284396A (zh) * 2018-09-27 2019-01-29 北京大学深圳研究生院 医学知识图谱构建方法、装置、服务器及存储介质
CN110347798A (zh) * 2019-07-12 2019-10-18 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解系统
CN111191020A (zh) * 2019-12-27 2020-05-22 江苏省人民医院(南京医科大学第一附属医院) 基于机器学习和知识图谱的处方推荐方法和系统
CN111292848A (zh) * 2019-12-31 2020-06-16 同方知网(北京)技术有限公司 一种基于贝叶斯估计的医疗知识图谱辅助推理方法
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN111858955A (zh) * 2020-07-01 2020-10-30 石家庄铁路职业技术学院 基于加密联邦学习的知识图谱表示学习增强方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136259A1 (en) * 2004-12-17 2006-06-22 General Electric Company Multi-dimensional analysis of medical data
JP2008083928A (ja) * 2006-09-27 2008-04-10 Gifu Univ 医療情報抽出装置、及び医療情報抽出プログラム
JP6101563B2 (ja) * 2013-05-20 2017-03-22 株式会社日立製作所 情報構造化システム
US10423758B2 (en) * 2015-03-27 2019-09-24 Hitachi, Ltd. Computer system and information processing method
US11194860B2 (en) * 2016-07-11 2021-12-07 Baidu Usa Llc Question generation systems and methods for automating diagnosis
CN106951684B (zh) * 2017-02-28 2020-10-09 北京大学 一种医学疾病诊断记录中实体消歧的方法
CN111180061B (zh) * 2019-12-09 2023-05-02 广东工业大学 融合区块链与联邦学习的共享医疗数据智能辅助诊断系统
CN111739595B (zh) * 2020-07-24 2020-11-13 湖南创星科技股份有限公司 一种医疗大数据共享分析方法及装置
CN112364376A (zh) * 2020-11-11 2021-02-12 贵州大学 一种属性代理重加密医疗数据共享方法
CN112765312B (zh) * 2020-12-31 2022-05-10 湖南大学 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统
CN113434626B (zh) * 2021-08-27 2021-12-07 之江实验室 一种多中心医学诊断知识图谱表示学习方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
US20170277841A1 (en) * 2016-03-23 2017-09-28 HealthPals, Inc. Self-learning clinical intelligence system based on biological information and medical data metrics
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
US20180322954A1 (en) * 2017-05-08 2018-11-08 Hefei University Of Technology Method and device for constructing medical knowledge graph and assistant diagnosis method
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法
CN108614885A (zh) * 2018-05-03 2018-10-02 杭州认识科技有限公司 基于医学信息的知识图谱分析方法及装置
CN109284396A (zh) * 2018-09-27 2019-01-29 北京大学深圳研究生院 医学知识图谱构建方法、装置、服务器及存储介质
CN110347798A (zh) * 2019-07-12 2019-10-18 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解系统
CN111191020A (zh) * 2019-12-27 2020-05-22 江苏省人民医院(南京医科大学第一附属医院) 基于机器学习和知识图谱的处方推荐方法和系统
CN111292848A (zh) * 2019-12-31 2020-06-16 同方知网(北京)技术有限公司 一种基于贝叶斯估计的医疗知识图谱辅助推理方法
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN111858955A (zh) * 2020-07-01 2020-10-30 石家庄铁路职业技术学院 基于加密联邦学习的知识图谱表示学习增强方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIFAN WANG,等: "DUGRA: Dual-Graph Representation Learning for Health Information Networks", 《2020 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》 *
付雷杰,等: "国内垂直领域知识图谱发展现状与展望", 《计算机应用研究》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023025255A1 (zh) * 2021-08-27 2023-03-02 之江实验室 一种多中心医学诊断知识图谱表示学习方法及系统
CN113990495B (zh) * 2021-12-27 2022-04-29 之江实验室 一种基于图神经网络的疾病诊断预测系统
WO2023124190A1 (zh) * 2021-12-27 2023-07-06 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN113990495A (zh) * 2021-12-27 2022-01-28 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN116072298A (zh) * 2023-04-06 2023-05-05 之江实验室 一种基于层级标记分布学习的疾病预测系统
CN116072298B (zh) * 2023-04-06 2023-08-15 之江实验室 一种基于层级标记分布学习的疾病预测系统
CN116564535B (zh) * 2023-05-11 2024-02-20 之江实验室 基于隐私保护下局部图信息交换的中心疾病预测方法和装置
CN116564535A (zh) * 2023-05-11 2023-08-08 之江实验室 基于隐私保护下局部图信息交换的中心疾病预测方法和装置
CN116757275B (zh) * 2023-06-07 2024-06-11 京信数据科技有限公司 一种知识图谱的联邦学习装置及方法
CN116757275A (zh) * 2023-06-07 2023-09-15 京信数据科技有限公司 一种知识图谱的联邦学习装置及方法
CN116403728B (zh) * 2023-06-09 2023-08-29 吉林大学第一医院 医疗就诊数据的数据处理装置和相关设备
CN116403728A (zh) * 2023-06-09 2023-07-07 吉林大学第一医院 医疗就诊数据的数据处理装置和相关设备
CN116821375B (zh) * 2023-08-29 2023-12-22 之江实验室 一种跨机构医学知识图谱表示学习方法及系统
CN116821375A (zh) * 2023-08-29 2023-09-29 之江实验室 一种跨机构医学知识图谱表示学习方法及系统
CN116825264A (zh) * 2023-08-30 2023-09-29 青岛市妇女儿童医院(青岛市妇幼保健院、青岛市残疾儿童医疗康复中心、青岛市新生儿疾病筛查中心) 基于互联网的妇产科信息处理方法及系统
CN116825264B (zh) * 2023-08-30 2023-11-21 青岛市妇女儿童医院(青岛市妇幼保健院、青岛市残疾儿童医疗康复中心、青岛市新生儿疾病筛查中心) 基于互联网的妇产科信息处理方法及系统
CN118571502A (zh) * 2024-08-02 2024-08-30 之江实验室 基于知识引导域自适应的多中心医学数据处理方法、系统、设备、介质

Also Published As

Publication number Publication date
WO2023025255A1 (zh) 2023-03-02
JP7433541B2 (ja) 2024-02-19
JP2023547562A (ja) 2023-11-10
CN113434626B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN113434626B (zh) 一种多中心医学诊断知识图谱表示学习方法及系统
Chen et al. Knowledge graph completion: A review
Sousa et al. How to keep text private? A systematic review of deep learning methods for privacy-preserving natural language processing
Hao et al. Privacy-aware and resource-saving collaborative learning for healthcare in cloud computing
Alzubi et al. Optimal multiple key‐based homomorphic encryption with deep neural networks to secure medical data transmission and diagnosis
Tu et al. Neuropathic pain diagnosis simulator for causal discovery algorithm evaluation
CN112765370B (zh) 知识图谱的实体对齐方法、装置、计算机设备和存储介质
Guo et al. Privacy-preserving image search (PPIS): Secure classification and searching using convolutional neural network over large-scale encrypted medical images
Alabdulkarim et al. A Privacy-Preserving Algorithm for Clinical Decision-Support Systems Using Random Forest.
Lin et al. Atom correlation based graph propagation for scene graph generation
Omer et al. Privacy-preserving of SVM over vertically partitioned with imputing missing data
Yang et al. Privacy‐preserving generative framework for images against membership inference attacks
Kulkarni et al. Optimized key generation-based privacy preserving data mining model for secure data publishing
Zhou et al. Homomorphic multi-label classification of virus strains
Jamshidi et al. Adjustable privacy using autoencoder-based learning structure
Budig et al. Trade-offs between privacy-preserving and explainable machine learning in healthcare
Tong et al. Learning discriminative text representation for streaming social event detection
Nkongolo Fuzzy feature selection with key-based cryptographic transformations
Yuan et al. A training scheme of deep neural networks on encrypted data
Kolhar et al. An Intelligent Cardiovascular Diseases Prediction System Focused on Privacy.
Benfriha et al. Improving cbr retrieval process through multilabel text categorization for health care of childhood traumatic brain injuries in road accident
Saadeh Applications of secure multi-party computation in Machine Learning
CN116821375B (zh) 一种跨机构医学知识图谱表示学习方法及系统
WANG et al. Entropy-based Knowledge Space Visualization for Data-driven Decision Support
Wei Applications of Statistics in Machine Learning Problems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant