CN113434626A - 一种多中心医学诊断知识图谱表示学习方法及系统 - Google Patents
一种多中心医学诊断知识图谱表示学习方法及系统 Download PDFInfo
- Publication number
- CN113434626A CN113434626A CN202110995013.7A CN202110995013A CN113434626A CN 113434626 A CN113434626 A CN 113434626A CN 202110995013 A CN202110995013 A CN 202110995013A CN 113434626 A CN113434626 A CN 113434626A
- Authority
- CN
- China
- Prior art keywords
- server
- medical
- global
- occurrence
- disease classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 39
- 201000010099 disease Diseases 0.000 claims abstract description 120
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 120
- 239000011159 matrix material Substances 0.000 claims abstract description 72
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 22
- 239000013604 expression vector Substances 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 125000002015 acyclic group Chemical group 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000019771 cognition Effects 0.000 abstract description 3
- 206010047473 Viral pharyngitis Diseases 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 2
- 201000008197 Laryngitis Diseases 0.000 description 1
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 201000007100 Pharyngitis Diseases 0.000 description 1
- 206010057190 Respiratory tract infections Diseases 0.000 description 1
- 206010046306 Upper respiratory tract infection Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 201000010550 acute laryngitis Diseases 0.000 description 1
- 208000016150 acute pharyngitis Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 101150077939 mapA gene Proteins 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 208000020029 respiratory tract infectious disease Diseases 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/008—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种多中心医学诊断知识图谱表示学习方法及系统,本发明基于已有的医学诊断本体,以有向无环图的形式表示医学诊断概念的层级结构,构建全局医学诊断知识图谱;利用全局医学诊断知识图谱,构建所有疾病分类编码的共现矩阵,计算每对编码的共现信息,同时出现越多且距离越近的编码对,具有更大的共现信息;基于联邦学习,在保护各医疗机构参与方数据隐私和安全的前提下,利用多中心数据,加和共现信息,提高数据密度,解决数据稀疏问题;在对大规模知识图谱及原始数据进行学习的过程中,融入了知识源中符合人类认知的层级信息和复杂关联关系,挖掘数据之间的相关关系,丰富语义信息,学习知识的高质量表示形式,便于知识的计算与推理。
Description
技术领域
本发明属于医疗信息技术领域,尤其涉及一种多中心医学诊断知识图谱表示学习方法及系统。
背景技术
知识图谱是以结构化的形式描述客观世界中概念、实体及其关系,将信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解信息的能力,可以用于知识的挖掘、分析及构建、绘制和显示知识之间的相互联系。表示学习旨在将研究对象的语义信息表示为稠密低维实体向量。知识图谱表示学习主要是面对知识图谱中的实体和关系进行表示学习,通过对大规模知识图谱及原始数据的学习与训练,能够获得知识在低维稠密空间的分布向量表示,表达实体和关系的语义信息,便于知识的计算与推理。
利用医学本体对分层临床结构和医学概念之间的关系进行编码,可以减少对大量数据的需求,在不丢失信息的情况下有效减少搜索空间。幸运的是,在医疗保健领域有许多组织良好的本体,如国际疾病分类(ICD)、临床分类软件(CCS)或医学临床术语系统化命名(SNOMED)。在医学本体中,相互接近的结点(即医学概念)很可能与类似的患者相关联,从而允许我们在它们之间传递知识。当数据量不足以训练深度学习模型时,使用医学本体可能是有用的。甚至在数据量足够的情况下,也可以在不损失信息的前提下,作为一种精简模型的方法,通过学习更多符合本体结构的可解释表征。
基于医疗知识图谱结构信息的知识表示学习模型不能解决复杂关系建模和数据稀疏所带来的语义表示能力低下等问题。已有研究工作利用知识图谱本身结构外的海量文本信息,扩充知识图谱结构信息来减少数据稀疏所造成的影响。现有方法忽略了数据中固有的结构和相关性信息。此外,缺少在隐私保护和数据安全前提下扩大数据量,用于知识表示学习的方法。
发明内容
本发明针对现有技术的不足,提出一种多中心医学诊断知识图谱表示学习方法及系统,在保护各医疗机构参与方数据隐私和安全的前提下,利用多中心数据,提高数据密度,此外,在对大规模知识图谱及原始数据进行学习的过程中,融入了知识源中符合人类认知的层级信息和复杂关联关系,挖掘数据之间的相关关系,丰富语义信息,从而解决数据稀疏带来的语义表示能力低下问题。
本发明的目的是通过以下技术方案来实现的:
本发明一方面公开了一种多中心医学诊断知识图谱表示学习方法,该方法基于联邦学习与同态加密,利用多中心数据,结合层级信息和复杂关联关系,实现结构信息的知识表示学习,具体包括以下步骤:
(1)第一服务器构建全局医学诊断知识图谱,所述全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构,由叶子结点和祖先结点两部分组成,所述叶子结点为最小的疾病分类编码,其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码;
(2)第一服务器将构建的全局医学诊断知识图谱分发给各医疗机构参与方;
(3)各医疗机构参与方内部进行疾病诊断共现信息统计,具体为:
将医疗机构参与方电子病历中所有疾病分类编码的集合记为,共
有种疾病分类编码,医疗机构参与方每个患者的病历记录看作是多次就诊,记为,共就诊次,每次就诊的疾病分类编码集记为,将中每个疾病分类编
码的上层疾病分类编码加入,得到增强疾病分类编码集记为;将中的编码两两组合
构成编码对,计算编码对的共现信息;
医学诊断知识图谱中所有疾病分类编码的集合记为,共有种疾
病分类编码,;该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构建
共现矩阵,共现矩阵的第行第列元素表示两编码和的共现信息,,表示该医疗机构参与方中患者总数,表示两编码和在患者单次
就诊的增强疾病分类编码集中的共现信息;
(4)数据加密计算:第二服务器生成加密算法、加密密钥、解密算法和解密密钥,并将加密算法和加密密钥分发给各医疗机构参与方;各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器;第一服务器在密文状态下,对两编码的共现信息进行加和,得到密文状态下的全局共现矩阵,发送给第二服务器;第二服务器通过解密算法和解密密钥得到全局共现矩阵,返回给第一服务器;
进一步地,所述第一服务器和第二服务器均为第三方服务器,第三方服务器需要是诚实的,第三方服务器之间能够相互通信,各医疗机构参与方内部部署各自的电子病历数据库,电子病历数据库中的原始数据不允许离开各医疗机构参与方,各医疗机构参与方之间无法直接进行相互通信,只能与第三方服务器进行通信。
进一步地,在构建全局医学诊断知识图谱过程中,使用的医学诊断本体包括ICD、CCS、SNOMED。
进一步地,构建的医学诊断知识图谱以字典形式存储,字典中的每个元素记录一种疾病的层级结构信息。
进一步地,所述步骤(4)具体为:
本发明另一方面公开了一种多中心医学诊断知识图谱表示学习系统,该系统包括:
全局医学诊断知识图谱构建模块:用于在第一服务器上构建全局医学诊断知识图谱,所述全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构,由叶子结点和祖先结点两部分组成,所述叶子结点为最小的疾病分类编码,其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码;
医学诊断知识图谱分发模块:用于将第一服务器构建的全局医学诊断知识图谱分发给各医疗机构参与方;
疾病诊断共现信息统计模块:部署在各医疗机构参与方;将医疗机构参与方电子
病历中所有疾病分类编码的集合记为,共有种疾病分类编码,医疗机
构参与方每个患者的病历记录看作是多次就诊,记为,共就诊次,每次
就诊的疾病分类编码集记为,将中每个疾病分类编码的上层疾病分类编码加入,得到
增强疾病分类编码集记为;将中的编码两两组合构成编码对,计算编码对的共现信息;
医学诊断知识图谱中所有疾病分类编码的集合记为,共有种疾病分类编
码,;该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构建共现矩
阵,共现矩阵的第行第列元素表示两编码和的共现信息,,
表示该医疗机构参与方中患者总数,表示两编码和在患者单次就诊的增强疾病分
类编码集中的共现信息;
数据加密计算模块:第二服务器生成加密算法、加密密钥、解密算法和解密密钥,并将加密算法和加密密钥分发给各医疗机构参与方;各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器;第一服务器在密文状态下,对两编码的共现信息进行加和,得到密文状态下的全局共现矩阵,发送给第二服务器;第二服务器通过解密算法和解密密钥得到全局共现矩阵,返回给第一服务器;
本发明的有益效果是:
1. 基于已有的医学诊断本体(ICD、CCS、SNOMED等),以有向无环图的形式表示医学诊断概念的层级结构,构建全局医学诊断知识图谱;利用全局医学诊断知识图谱,构建所有疾病分类编码的共现矩阵,计算每对编码的共现信息,同时出现越多且距离越近的编码对,具有更大的共现信息。
2. 基于联邦学习,在保护各医疗机构参与方数据隐私和安全的前提下,利用多中心数据,加和共现信息,提高数据密度,解决数据稀疏问题;
3. 在对大规模知识图谱及原始数据进行学习的过程中,融入了知识源中符合人类认知的层级信息和复杂关联关系,挖掘数据之间的相关关系,丰富语义信息,学习知识的高质量表示形式,便于知识的计算与推理。
附图说明
图1为本发明实施例提供的多中心医学诊断知识图谱表示学习方法的网络架构示意图;
图2为本发明实施例提供的多中心医学诊断知识图谱表示学习方法的实现流程图;
图3为本发明实施例提供的医学诊断知识图谱结构示例。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明提供一种多中心医学诊断知识图谱表示学习方法,该方法基于联邦学习与同态加密,利用多中心数据,结合层级信息和复杂关联关系,实现结构信息的知识表示学习。该方法基于如图1所示网络架构,包括两个第三方服务器(第一服务器和第二服务器)和多个医疗机构参与方,第三方服务器需要是诚实的,第三方服务器之间可以相互通信。各医疗机构参与方内部部署各自的电子病历数据库,电子病历数据库中的原始数据不允许离开各医疗机构参与方。各医疗机构参与方之间无法直接进行相互通信,只能与第三方服务器进行通信。
如图2所示,本实施例提供的一种多中心医学诊断知识图谱表示学习方法,步骤如下:
1.全局医学诊断知识图谱构建
第一服务器负责构建全局医学诊断知识图谱。全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构。全局医学诊断知识图谱由叶子结点和祖先结点两部分组成,其中叶子结点为最小的疾病分类编码,其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码。
本实施例中使用ICD10作为医学诊断本体,构建全局医学诊断知识图谱。其中,医学诊断本体还可以选择CCS、SNOMED等医学领域常用的知识源。以病毒性咽炎为例,病毒性咽炎J02.801为叶子结点,根据ICD10中的疾病层级信息,构建其祖先结点:呼吸系统疾病J00-J99、急性上呼吸道感染J00-J06、急性咽炎J02,如图3所示。
构建的医学诊断知识图谱以字典形式存储,字典中的每个元素记录一种疾病的层级结构信息。以病毒性咽炎为例,层级结构信息存储为:{J02.801: [J02.801, root, J00-J99, J00-J06, J02]},root代表根结点。
2.医学诊断知识图谱分发
第一服务器将构建的全局医学诊断知识图谱分发给各医疗机构参与方,因为知识图谱是公开获取的,可以不加密。
3.每个医疗机构参与方内部进行疾病诊断共现信息统计
医疗机构参与方以单次就诊为单位,通过加入中每个疾病分类编码的上层疾
病分类编码,得到增强疾病分类编码集记为,即在医学诊断知识图谱中查找叶子结点对
应的祖先结点,共同祖先结点对应的上层疾病分类编码需要重复加入。
计算每个疾病分类编码及其上层疾病分类编码在中的出现次数。将中的编码
两两组合构成编码对,通过相乘编码对中两编码的出现次数,计算该编码对的共现信息。同
时,计算编码对中两编码之间的距离,即连接两个结点的最短路径所包含的边的数量,将距
离的倒数作为权重。
医学诊断知识图谱中所有疾病分类编码的集合记为,总共有种
疾病分类编码,。该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构
建共现矩阵,如表1所示。表示两编码和的共现信息,,表示该医
疗机构参与方中患者的总数,表示两编码和在患者单次就诊的增强疾病分类编码
集中的共现信息,如果两编码和在患者单次就诊的增强疾病分类编码集中同时
出现过,就可以在该患者此次的中找到编码等于编码,找到编码等于编码,则等于;如果没有,记为0。共现矩阵对称,和相等,对角线上
是相同疾病分类编码的共现信息,记为0。
表1共现矩阵结构示例
以图3的医学诊断知识图谱为例,假设患者单次就诊的疾病诊断为病毒性咽炎和
急性喉炎, = [J02.801,J04.000],通过加入上层疾病分类编码,增强为 = [J02.801,
J02, J00-J06, J00-J99, root, J04.000, J04, J00-J06, J00-J99, root],编码
J02.801的出现次数为1,J00-J06的出现次数为2,两者间的距离为2,共现信息取值为1。
4.数据加密计算
第二服务器生成加密算法、加密密钥、解密算法和解密密钥,并将加密算法和加密密钥分发给各医疗机构参与方。各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器。第一服务器在密文状态下,对两编码的共现信息进行加和,得到密文状态下的全局共现矩阵,发送给第二服务器。第二服务器通过解密算法和解密密钥得到全局共现矩阵,返回给第一服务器。整个过程没有数据泄露风险。具体实现流程如下:
针对医学诊断知识图谱中的任意两个疾病分类编码,均按照上述步骤,计算密文
状态下的两编码共现信息,最终得到密文状态下的全局共现矩阵。第一服务器将
发给第二服务器,第二服务器解密得到全局共现矩阵,即,返回给
第一服务器。
5.知识表示学习
在第一服务器中,根据GloVe算法原理,将每个疾病分类编码表达成一个由实数组成的表示向量,该表示向量和全局共现矩阵之间的关系表示为:
其中,和分别是最终需要求解的疾病分类编码和的表示向量,随机初始
化为一个128维的、取值在-0.1到0.1之间的随机向量;上标T表示转置操作;和分别是两
个表示向量的偏置项,初始值为0;表示全局共现矩阵X中编码和的共现信息。
其中,为加权函数。为了让共现多的编码对获得更高权重,为非递减函数,同时,
这个权重不能过大,当到达一定程度之后应该不再增加。如果两个编码和没有一起出
现,即,那么它们不参与目标函数的计算,即。基于以上要求,采用以下分
段函数:
通过知识图谱表示学习得到的表示向量,不仅可以用于计算疾病之间的相似性,
还可以将其和患者病历相结合,融入到深度学习模型中完成预测任务。比如,根据患者的历
史就诊记录,预测下次就诊可能会出现的疾病。在电子病历中,每个患者的病历记录可以看
作是多次就诊,而每次就诊中又包含着一系列的疾病分类编码,即的子集。患者单次就诊
的疾病分类编码集可以表示为二进制向量,,其中第i个元素代表该患者的这
次就诊是否出现编码,出现则为1,反之则为0。在深度学习模型训练中,可以将患者每次
就诊的二进制向量与表示向量做点乘再经非线性转换,作为RNN预测模型的输入,预测得
到下一次就诊的疾病分类编码,从而预测可能会出现的疾病。
本发明实施例还提供一种多中心医学诊断知识图谱表示学习系统,该系统包括:
全局医学诊断知识图谱构建模块:用于在第一服务器上构建全局医学诊断知识图谱,所述全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构,由叶子结点和祖先结点两部分组成,所述叶子结点为最小的疾病分类编码,其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码;
医学诊断知识图谱分发模块:用于将第一服务器构建的全局医学诊断知识图谱分发给各医疗机构参与方;
疾病诊断共现信息统计模块:部署在各医疗机构参与方;将医疗机构参与方电子
病历中所有疾病分类编码的集合记为,共有种疾病分类编码,医疗机
构参与方每个患者的病历记录看作是多次就诊,记为,共就诊次,每次
就诊的疾病分类编码集记为,将中每个疾病分类编码的上层疾病分类编码加入,得到
增强疾病分类编码集记为;将中的编码两两组合构成编码对,计算编码对的共现信息;
医学诊断知识图谱中所有疾病分类编码的集合记为,共有种疾病分类编
码,;该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构建共现矩
阵,共现矩阵的第行第列元素表示两编码和的共现信息,,表示
该医疗机构参与方中患者总数,表示两编码和在患者单次就诊的增强疾病分类编
码集中的共现信息;
数据加密计算模块:第二服务器生成加密算法、加密密钥、解密算法和解密密钥,并将加密算法和加密密钥分发给各医疗机构参与方;各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器;第一服务器在密文状态下,对两编码的共现信息进行加和,得到密文状态下的全局共现矩阵,发送给第二服务器;第二服务器通过解密算法和解密密钥得到全局共现矩阵,返回给第一服务器;
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.一种多中心医学诊断知识图谱表示学习方法,其特征在于,该方法包括:
(1)第一服务器构建全局医学诊断知识图谱,所述全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构,由叶子结点和祖先结点两部分组成,所述叶子结点为最小的疾病分类编码,其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码;
(2)第一服务器将构建的全局医学诊断知识图谱分发给各医疗机构参与方;
(3)各医疗机构参与方内部进行疾病诊断共现信息统计,具体为:
将医疗机构参与方电子病历中所有疾病分类编码的集合记为,共有种疾病分类编码,医疗机构参与方每个患者的病历记录看作是多次就诊,记为,共就诊次,每次就诊的疾病分类编码集记为,将中每个疾病分类编码的上层疾病分类编码加入,得到增强疾病分类编码集记为;将中的编码两两组合构成编码对,计算编码对的共现信息;
医学诊断知识图谱中所有疾病分类编码的集合记为,共有种疾病分类编码,;该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构建共现矩阵,共现矩阵的第行第列元素表示两编码和的共现信息,,表示该医疗机构参与方中患者总数,表示两编码和在患者单次就诊的增强疾病分类编码集中的共现信息;
(4)数据加密计算:第二服务器生成加密算法、加密密钥、解密算法和解密密钥,并将加密算法和加密密钥分发给各医疗机构参与方;各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器;第一服务器在密文状态下,对两编码的共现信息进行加和,得到密文状态下的全局共现矩阵,发送给第二服务器;第二服务器通过解密算法和解密密钥得到全局共现矩阵,返回给第一服务器;
2.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法,其特征在于,所述第一服务器和第二服务器均为第三方服务器,第三方服务器需要是诚实的,第三方服务器之间能够相互通信,各医疗机构参与方内部部署各自的电子病历数据库,电子病历数据库中的原始数据不允许离开各医疗机构参与方,各医疗机构参与方之间无法直接进行相互通信,只能与第三方服务器进行通信。
3.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法,其特征在于,在构建全局医学诊断知识图谱过程中,使用的医学诊断本体包括ICD、CCS、SNOMED。
4.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法,其特征在于,构建的医学诊断知识图谱以字典形式存储,字典中的每个元素记录一种疾病的层级结构信息。
8.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法,其特征在于,所述步骤(4)具体为:
10.一种多中心医学诊断知识图谱表示学习系统,其特征在于,该系统包括:
全局医学诊断知识图谱构建模块:用于在第一服务器上构建全局医学诊断知识图谱,所述全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构,由叶子结点和祖先结点两部分组成,所述叶子结点为最小的疾病分类编码,其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码;
医学诊断知识图谱分发模块:用于将第一服务器构建的全局医学诊断知识图谱分发给各医疗机构参与方;
疾病诊断共现信息统计模块:部署在各医疗机构参与方;将医疗机构参与方电子病历中所有疾病分类编码的集合记为,共有种疾病分类编码,医疗机构参与方每个患者的病历记录看作是多次就诊,记为,共就诊次,每次就诊的疾病分类编码集记为,将中每个疾病分类编码的上层疾病分类编码加入,得到增强疾病分类编码集记为;将中的编码两两组合构成编码对,计算编码对的共现信息;医学诊断知识图谱中所有疾病分类编码的集合记为,共有种疾病分类编码,;该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构建共现矩阵,共现矩阵的第行第列元素表示两编码和的共现信息,,表示该医疗机构参与方中患者总数,表示两编码和在患者单次就诊的增强疾病分类编码集中的共现信息;
数据加密计算模块:第二服务器生成加密算法、加密密钥、解密算法和解密密钥,并将加密算法和加密密钥分发给各医疗机构参与方;各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器;第一服务器在密文状态下,对两编码的共现信息进行加和,得到密文状态下的全局共现矩阵,发送给第二服务器;第二服务器通过解密算法和解密密钥得到全局共现矩阵,返回给第一服务器;
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110995013.7A CN113434626B (zh) | 2021-08-27 | 2021-08-27 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
JP2023535611A JP7433541B2 (ja) | 2021-08-27 | 2022-08-25 | 多中心医学診断知識グラフ表示学習方法及びシステム |
PCT/CN2022/114879 WO2023025255A1 (zh) | 2021-08-27 | 2022-08-25 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110995013.7A CN113434626B (zh) | 2021-08-27 | 2021-08-27 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113434626A true CN113434626A (zh) | 2021-09-24 |
CN113434626B CN113434626B (zh) | 2021-12-07 |
Family
ID=77798239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110995013.7A Active CN113434626B (zh) | 2021-08-27 | 2021-08-27 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7433541B2 (zh) |
CN (1) | CN113434626B (zh) |
WO (1) | WO2023025255A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113990495A (zh) * | 2021-12-27 | 2022-01-28 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
WO2023025255A1 (zh) * | 2021-08-27 | 2023-03-02 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
CN116072298A (zh) * | 2023-04-06 | 2023-05-05 | 之江实验室 | 一种基于层级标记分布学习的疾病预测系统 |
CN116403728A (zh) * | 2023-06-09 | 2023-07-07 | 吉林大学第一医院 | 医疗就诊数据的数据处理装置和相关设备 |
CN116564535A (zh) * | 2023-05-11 | 2023-08-08 | 之江实验室 | 基于隐私保护下局部图信息交换的中心疾病预测方法和装置 |
CN116757275A (zh) * | 2023-06-07 | 2023-09-15 | 京信数据科技有限公司 | 一种知识图谱的联邦学习装置及方法 |
CN116821375A (zh) * | 2023-08-29 | 2023-09-29 | 之江实验室 | 一种跨机构医学知识图谱表示学习方法及系统 |
CN116825264A (zh) * | 2023-08-30 | 2023-09-29 | 青岛市妇女儿童医院(青岛市妇幼保健院、青岛市残疾儿童医疗康复中心、青岛市新生儿疾病筛查中心) | 基于互联网的妇产科信息处理方法及系统 |
CN118571502A (zh) * | 2024-08-02 | 2024-08-30 | 之江实验室 | 基于知识引导域自适应的多中心医学数据处理方法、系统、设备、介质 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116364299B (zh) * | 2023-03-30 | 2024-02-13 | 之江实验室 | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 |
CN116502129B (zh) * | 2023-06-21 | 2023-09-22 | 之江实验室 | 一种知识与数据协同驱动的不平衡临床数据分类系统 |
CN116525125B (zh) * | 2023-07-04 | 2023-09-19 | 之江实验室 | 一种虚拟电子病历的生成方法及装置 |
CN117409911B (zh) * | 2023-10-13 | 2024-05-07 | 四川大学 | 一种基于多视图对比学习的电子病历表示学习方法 |
CN117116432B (zh) * | 2023-10-23 | 2023-12-15 | 博奥生物集团有限公司 | 一种疾病特征的处理装置和设备 |
CN117711578B (zh) * | 2024-02-06 | 2024-04-30 | 重庆医科大学绍兴柯桥医学检验技术研究中心 | 一种医学影像数据分析管理系统 |
CN117811722B (zh) * | 2024-03-01 | 2024-05-24 | 山东云海国创云计算装备产业创新中心有限公司 | 全局参数模型构建方法、秘钥生成方法、装置及服务器 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874695A (zh) * | 2017-03-22 | 2017-06-20 | 北京大数医达科技有限公司 | 医疗知识图谱的构建方法和装置 |
CN106886543A (zh) * | 2015-12-16 | 2017-06-23 | 清华大学 | 结合实体描述的知识图谱表示学习方法和系统 |
US20170277841A1 (en) * | 2016-03-23 | 2017-09-28 | HealthPals, Inc. | Self-learning clinical intelligence system based on biological information and medical data metrics |
CN108197290A (zh) * | 2018-01-19 | 2018-06-22 | 桂林电子科技大学 | 一种融合实体和关系描述的知识图谱表示学习方法 |
CN108614885A (zh) * | 2018-05-03 | 2018-10-02 | 杭州认识科技有限公司 | 基于医学信息的知识图谱分析方法及装置 |
US20180322954A1 (en) * | 2017-05-08 | 2018-11-08 | Hefei University Of Technology | Method and device for constructing medical knowledge graph and assistant diagnosis method |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN110347798A (zh) * | 2019-07-12 | 2019-10-18 | 之江实验室 | 一种基于自然语言生成技术的知识图谱辅助理解系统 |
CN111191020A (zh) * | 2019-12-27 | 2020-05-22 | 江苏省人民医院(南京医科大学第一附属医院) | 基于机器学习和知识图谱的处方推荐方法和系统 |
CN111292848A (zh) * | 2019-12-31 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 |
CN111382272A (zh) * | 2020-03-09 | 2020-07-07 | 西南交通大学 | 一种基于知识图谱的电子病历icd自动编码方法 |
CN111858955A (zh) * | 2020-07-01 | 2020-10-30 | 石家庄铁路职业技术学院 | 基于加密联邦学习的知识图谱表示学习增强方法和装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060136259A1 (en) * | 2004-12-17 | 2006-06-22 | General Electric Company | Multi-dimensional analysis of medical data |
JP2008083928A (ja) * | 2006-09-27 | 2008-04-10 | Gifu Univ | 医療情報抽出装置、及び医療情報抽出プログラム |
JP6101563B2 (ja) * | 2013-05-20 | 2017-03-22 | 株式会社日立製作所 | 情報構造化システム |
US10423758B2 (en) * | 2015-03-27 | 2019-09-24 | Hitachi, Ltd. | Computer system and information processing method |
US11194860B2 (en) * | 2016-07-11 | 2021-12-07 | Baidu Usa Llc | Question generation systems and methods for automating diagnosis |
CN106951684B (zh) * | 2017-02-28 | 2020-10-09 | 北京大学 | 一种医学疾病诊断记录中实体消歧的方法 |
CN111180061B (zh) * | 2019-12-09 | 2023-05-02 | 广东工业大学 | 融合区块链与联邦学习的共享医疗数据智能辅助诊断系统 |
CN111739595B (zh) * | 2020-07-24 | 2020-11-13 | 湖南创星科技股份有限公司 | 一种医疗大数据共享分析方法及装置 |
CN112364376A (zh) * | 2020-11-11 | 2021-02-12 | 贵州大学 | 一种属性代理重加密医疗数据共享方法 |
CN112765312B (zh) * | 2020-12-31 | 2022-05-10 | 湖南大学 | 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统 |
CN113434626B (zh) * | 2021-08-27 | 2021-12-07 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
-
2021
- 2021-08-27 CN CN202110995013.7A patent/CN113434626B/zh active Active
-
2022
- 2022-08-25 JP JP2023535611A patent/JP7433541B2/ja active Active
- 2022-08-25 WO PCT/CN2022/114879 patent/WO2023025255A1/zh active Application Filing
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886543A (zh) * | 2015-12-16 | 2017-06-23 | 清华大学 | 结合实体描述的知识图谱表示学习方法和系统 |
US20170277841A1 (en) * | 2016-03-23 | 2017-09-28 | HealthPals, Inc. | Self-learning clinical intelligence system based on biological information and medical data metrics |
CN106874695A (zh) * | 2017-03-22 | 2017-06-20 | 北京大数医达科技有限公司 | 医疗知识图谱的构建方法和装置 |
US20180322954A1 (en) * | 2017-05-08 | 2018-11-08 | Hefei University Of Technology | Method and device for constructing medical knowledge graph and assistant diagnosis method |
CN108197290A (zh) * | 2018-01-19 | 2018-06-22 | 桂林电子科技大学 | 一种融合实体和关系描述的知识图谱表示学习方法 |
CN108614885A (zh) * | 2018-05-03 | 2018-10-02 | 杭州认识科技有限公司 | 基于医学信息的知识图谱分析方法及装置 |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN110347798A (zh) * | 2019-07-12 | 2019-10-18 | 之江实验室 | 一种基于自然语言生成技术的知识图谱辅助理解系统 |
CN111191020A (zh) * | 2019-12-27 | 2020-05-22 | 江苏省人民医院(南京医科大学第一附属医院) | 基于机器学习和知识图谱的处方推荐方法和系统 |
CN111292848A (zh) * | 2019-12-31 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 |
CN111382272A (zh) * | 2020-03-09 | 2020-07-07 | 西南交通大学 | 一种基于知识图谱的电子病历icd自动编码方法 |
CN111858955A (zh) * | 2020-07-01 | 2020-10-30 | 石家庄铁路职业技术学院 | 基于加密联邦学习的知识图谱表示学习增强方法和装置 |
Non-Patent Citations (2)
Title |
---|
QIFAN WANG,等: "DUGRA: Dual-Graph Representation Learning for Health Information Networks", 《2020 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》 * |
付雷杰,等: "国内垂直领域知识图谱发展现状与展望", 《计算机应用研究》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023025255A1 (zh) * | 2021-08-27 | 2023-03-02 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
CN113990495B (zh) * | 2021-12-27 | 2022-04-29 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
WO2023124190A1 (zh) * | 2021-12-27 | 2023-07-06 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN113990495A (zh) * | 2021-12-27 | 2022-01-28 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN116072298A (zh) * | 2023-04-06 | 2023-05-05 | 之江实验室 | 一种基于层级标记分布学习的疾病预测系统 |
CN116072298B (zh) * | 2023-04-06 | 2023-08-15 | 之江实验室 | 一种基于层级标记分布学习的疾病预测系统 |
CN116564535B (zh) * | 2023-05-11 | 2024-02-20 | 之江实验室 | 基于隐私保护下局部图信息交换的中心疾病预测方法和装置 |
CN116564535A (zh) * | 2023-05-11 | 2023-08-08 | 之江实验室 | 基于隐私保护下局部图信息交换的中心疾病预测方法和装置 |
CN116757275B (zh) * | 2023-06-07 | 2024-06-11 | 京信数据科技有限公司 | 一种知识图谱的联邦学习装置及方法 |
CN116757275A (zh) * | 2023-06-07 | 2023-09-15 | 京信数据科技有限公司 | 一种知识图谱的联邦学习装置及方法 |
CN116403728B (zh) * | 2023-06-09 | 2023-08-29 | 吉林大学第一医院 | 医疗就诊数据的数据处理装置和相关设备 |
CN116403728A (zh) * | 2023-06-09 | 2023-07-07 | 吉林大学第一医院 | 医疗就诊数据的数据处理装置和相关设备 |
CN116821375B (zh) * | 2023-08-29 | 2023-12-22 | 之江实验室 | 一种跨机构医学知识图谱表示学习方法及系统 |
CN116821375A (zh) * | 2023-08-29 | 2023-09-29 | 之江实验室 | 一种跨机构医学知识图谱表示学习方法及系统 |
CN116825264A (zh) * | 2023-08-30 | 2023-09-29 | 青岛市妇女儿童医院(青岛市妇幼保健院、青岛市残疾儿童医疗康复中心、青岛市新生儿疾病筛查中心) | 基于互联网的妇产科信息处理方法及系统 |
CN116825264B (zh) * | 2023-08-30 | 2023-11-21 | 青岛市妇女儿童医院(青岛市妇幼保健院、青岛市残疾儿童医疗康复中心、青岛市新生儿疾病筛查中心) | 基于互联网的妇产科信息处理方法及系统 |
CN118571502A (zh) * | 2024-08-02 | 2024-08-30 | 之江实验室 | 基于知识引导域自适应的多中心医学数据处理方法、系统、设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023025255A1 (zh) | 2023-03-02 |
JP7433541B2 (ja) | 2024-02-19 |
JP2023547562A (ja) | 2023-11-10 |
CN113434626B (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113434626B (zh) | 一种多中心医学诊断知识图谱表示学习方法及系统 | |
Chen et al. | Knowledge graph completion: A review | |
Sousa et al. | How to keep text private? A systematic review of deep learning methods for privacy-preserving natural language processing | |
Hao et al. | Privacy-aware and resource-saving collaborative learning for healthcare in cloud computing | |
Alzubi et al. | Optimal multiple key‐based homomorphic encryption with deep neural networks to secure medical data transmission and diagnosis | |
Tu et al. | Neuropathic pain diagnosis simulator for causal discovery algorithm evaluation | |
CN112765370B (zh) | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 | |
Guo et al. | Privacy-preserving image search (PPIS): Secure classification and searching using convolutional neural network over large-scale encrypted medical images | |
Alabdulkarim et al. | A Privacy-Preserving Algorithm for Clinical Decision-Support Systems Using Random Forest. | |
Lin et al. | Atom correlation based graph propagation for scene graph generation | |
Omer et al. | Privacy-preserving of SVM over vertically partitioned with imputing missing data | |
Yang et al. | Privacy‐preserving generative framework for images against membership inference attacks | |
Kulkarni et al. | Optimized key generation-based privacy preserving data mining model for secure data publishing | |
Zhou et al. | Homomorphic multi-label classification of virus strains | |
Jamshidi et al. | Adjustable privacy using autoencoder-based learning structure | |
Budig et al. | Trade-offs between privacy-preserving and explainable machine learning in healthcare | |
Tong et al. | Learning discriminative text representation for streaming social event detection | |
Nkongolo | Fuzzy feature selection with key-based cryptographic transformations | |
Yuan et al. | A training scheme of deep neural networks on encrypted data | |
Kolhar et al. | An Intelligent Cardiovascular Diseases Prediction System Focused on Privacy. | |
Benfriha et al. | Improving cbr retrieval process through multilabel text categorization for health care of childhood traumatic brain injuries in road accident | |
Saadeh | Applications of secure multi-party computation in Machine Learning | |
CN116821375B (zh) | 一种跨机构医学知识图谱表示学习方法及系统 | |
WANG et al. | Entropy-based Knowledge Space Visualization for Data-driven Decision Support | |
Wei | Applications of Statistics in Machine Learning Problems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |