CN110111905B - 一种医疗知识图谱的构建系统和构建方法 - Google Patents

一种医疗知识图谱的构建系统和构建方法 Download PDF

Info

Publication number
CN110111905B
CN110111905B CN201910334418.9A CN201910334418A CN110111905B CN 110111905 B CN110111905 B CN 110111905B CN 201910334418 A CN201910334418 A CN 201910334418A CN 110111905 B CN110111905 B CN 110111905B
Authority
CN
China
Prior art keywords
entity
related data
strength index
data
relation strength
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910334418.9A
Other languages
English (en)
Other versions
CN110111905A (zh
Inventor
史亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201910334418.9A priority Critical patent/CN110111905B/zh
Publication of CN110111905A publication Critical patent/CN110111905A/zh
Application granted granted Critical
Publication of CN110111905B publication Critical patent/CN110111905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioethics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供了一种医疗知识图谱的构建系统和构建方法,该医疗知识图谱的构建系统和构建方法是通过对医学病历执行实体识别处理以得到实体,再对实体执行异构数据融合处理以得到医疗知识图谱实体,接着通过归一化谷歌距离算法NGD和点互信息算法PMI分别计算出两种关于不同实体之间的关系强度指标,再基于该两种关于不同实体之间的关系强度指标确定出不同实体之间的相关关系,从而最终将得到的医疗知识图谱实体和相关关系导入至图数据库中以形成医疗知识图谱。

Description

一种医疗知识图谱的构建系统和构建方法
技术领域
本发明涉及医疗图像处理的技术领域,特别涉及一种医疗知识图谱的构建系统和构建方法。
背景技术
医疗知识图谱是用于表征医疗诊断过程中不同医疗特征量之间的关联性。医护人员通过医疗知识图谱能够准确地和全面地获得关于对应病患的医疗诊断数据信息,并从该医疗知识图谱中判断出适应与当前病患的治疗方案。目前而言,应用最为广泛的一种医疗知识图谱的构建方法就是利用自然语言处理技术从如病历等医学资料中提取如疾病、症状或者检查等不同医学实体,然后通过计算不同医学实体之间的相关度,以此来构建不同医学实体之间的相关关系,最后将不同医学实体及其相互之间的相关关系导入至图数据库中,从而构建出相应的医疗知识图谱。上述现有的医疗知识图谱的构建方法不仅能够快速和有针对性地构建出符合当前病患的医疗知识图谱,并且还能够实现医疗知识图谱的随时随地更新。
在医疗知识图谱中,不同医学实体之间相关度是构建医学关系不可缺少的重要一环,并且不同医学实体相关度的计算会考虑不同医学实体之间的共现程度,而该共现程度的大小直接影响医疗知识图谱构建的准确性。在实际构建场景中,不同医学实体之间的共现规模可能十分丰富,另外的不同医学实体之间的共现规模可能十分细小,当在构建医疗知识图谱的过程中,同时存在不同医学实体之间共现规模悬殊的情况时,现有的医疗知识图谱构建方法将无法同时妥善的处理上述情况,并以此准确地计算出对应的不同医学实体相关度,这将严重地影响医疗知识图谱对不同应用场景的适用性,以及降低医疗知识图谱对于医疗诊断的辅助精确性。
发明内容
针对现有技术存在的缺陷,本发明提供一种医疗知识图谱的构建系统和构建方法,该医疗知识图谱的构建系统和构建方法是通过对医学病历执行实体识别处理以得到实体,在对该实体执行异构数据融合处理以得到医疗知识图谱实体,接着通过归一化谷歌距离算法NGD和点互信息算法PMI分别计算出两种关于不同实体之间的关系强度指标,再基于该两种关于不同实体之间的关系强度指标确定出不同实体之间的相关关系,从而最终将得到的医疗知识图谱实体和相关关系导入至图数据库中以形成医疗知识图谱。由于归一化谷歌距离算法NGD能够在不同医学实体之间共现次数较少的情况下很好地计算出相应的关系强度指标,而点互信息算法PMI能够在不同医学实体之间共现次数较多的情况下很好地计算出相应的关系强度指标,该医疗知识图谱的构建系统和构建方法通过将归一化谷歌距离算法NGD和点互信息算法PMI有机地结合在一起,从而使得该构建系统和构建方法能够具备计算医学实体之间不同共现规模对应关系强度指标的能力,以此大大地提高该构建系统和构建方法构建医疗知识图谱的准确性。
本发明提供一种医疗知识图谱的构建系统,其特征在于:
所述医疗知识图谱的构建系统包括实体识别处理模块、融合处理模块、关系强度指标计算模块、相关关系构建模块和存储模块;其中,
所述实体识别处理模块用于对医学病历执行实体识别处理,以此得到实体;
所述融合处理模块用于对所述实体执行异构数据融合处理,以此得到医疗知识图谱实体;
所述关系强度指标计算模块用于计算所述医疗知识图谱实体中不同实体之间的关系强度指标;
所述相关关系构建模块用于构建不同所述医疗知识图谱实体中不同实体之间的相关关系;
所述存储模块用于将医疗知识图谱实体和所述相关关系保存至图数据库中;
进一步,所述实体识别处理模块包括命名实体识别处理子模块和实体生成子模块;其中,
所述命名实体识别处理子模块用于通过自然语言识别模型对所述医学病历中的病历信息执行命名实体识别处理;
所述实体生成子模块用于将所述命名实体识别处理得到的所述病历信息中对应的疾病相关数据、症状相关数据或者检查相关数据中的至少一者,作为所述实体;
进一步,所述融合处理模块包括数据清洗处理子模块、实体消歧处理子模块、实体对齐处理子模块;其中,
所述数据清洗处理子模块用于对所述异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行数据清洗处理;
所述实体消歧处理子模块用于对所述异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行实体消歧处理;
所述实体对齐处理子模块用于对所述异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行实体对齐处理;
进一步,所述关系强度指标计算模块包括数据预处理子模块和数据过滤子模块;
所述数据预处理子模块用于对所述异构数据中任意的第一实体E1和第二实体E2形成的实体对进行预处理,以此获取所述第一实体E1与所述第二实体E2之间的共现数量N(E1,E2);
所述数据过滤子模块用于将所述共现数量N(E1,E2)与预设共现数量阈值TN进行比较,并且,
若N(E1,E2)<TN,则所述数据过滤子模块剔除当前共现数量对应的第一实体E1与第二实体E2,
否则,所述数据过滤子模块保留当前共现数量对应的第一实体E1与第二实体E2;
进一步,所述关系强度指标计算模块还包括第一关系强度指标计算子模块、第二关系强度指标计算子模块、最终关系强度指标计算子模块;其中,
所述第一关系强度指标计算子模块用于通过归一化谷歌距离算法NGD计算所述保留的第一实体E1与第二实体E2之间的关系强度指标NGD(E1,E2);
所述第二关系强度指标计算子模块用于通过优化的点互信息算法PMI计算所述保留的第一实体E1与第二实体E2之间的关系强度指标PMI(E1,E2);
所述最终关系强度指标计算子模块用于根据所述关系强度指标NGD(E1,E2)与所述关系强度指标PMI(E1,E2),计算所述第一实体E1与所述第二实体E2之间的最终关系强度指标P(E1,E2)。
本发明还提供一种医疗知识图谱的构建方法,其特征在于,所述医疗知识图谱的构建方法包括如下步骤:
步骤(1),对医学病历执行实体识别处理,以得到实体,并对所述实体执行异构数据融合处理;
步骤(2),对所述融合处理得到的医疗知识图谱实体,执行关于实体之间的关系强度指标计算以及构建实体之间的相关关系;
步骤(3),将所述步骤(2)得到的所述医疗知识图谱实体和所述实体之间的相关关系保存于对应的图数据库中;
进一步,在所述步骤(1)中,对医学病历执行实体识别处理,以得到实体,并对所述实体执行异构数据融合处理具体包括,
步骤(11),通过自然语言识别模型对所述医学病历中的病历信息执行命名实体识别处理;
步骤(12),基于所述命名实体识别处理得到所述病历信息中对应的疾病相关数据、症状相关数据或者检查相关数据中的至少一者;
步骤(13),将所述疾病相关数据、所述症状相关数据或者所述检查相关数据中的至少一者,作为所述异构数据融合处理结果;
进一步,在所述步骤(1)中,对医学病历执行实体识别处理,以得到实体,并对所述实体执行异构数据融合处理还具体包括,
步骤(14),对所述疾病相关数据、所述症状相关数据或者所述检查相关数据中的至少一者执行包括数据清洗处理、实体消歧处理或者实体对齐处理中的至少一者,以实现对所述疾病相关数据、所述症状相关数据或者所述检查相关数据中的至少一者的融合处理;
进一步,在所述步骤(2)中,执行关于实体之间的关系强度指标计算具体包括计算第一实体E1与第二实体E2之间的关系强度指标;
其中,所述第一实体与所述第二实体包括疾病相关数据与症状相关数据、或者疾病相关数据与检查相关数据;或者
在所述步骤(2)中,执行关于实体之间的关系强度指标计算包括计算第一实体E1与第二实体E2之间的关系强度指标,其具体包括,
步骤(21),对所述第一实体E1与所述第二实体E2进行数据预处理,并计算所述第一实体E1与所述第二实体E2之间的共现数量N(E1,E2);
步骤(22),将所述共现数量N(E1,E2)与预设共现数量阈值TN进行比较,若N(E1,E2)<TN,则剔除当前共现数量对应的第一实体E1与第二实体E2,否则,保留当前共现数量对应的第一实体E1与第二实体E2;
步骤(23),通过归一化谷歌距离算法NGD,计算所述步骤(22)保留的第一实体E1与第二实体E2之间的关系强度指标NGD(E1,E2);
步骤(24),若NGD(E1,E2)≤1,则不构建对应的第一实体E1与第二实体E2之间的相关关系,若NGD(E1,E2)>1,则执行下面的步骤(25);
步骤(25),通过优化的点互信息算法PMI,计算所述步骤(24)中对应的第一实体E1与第二实体E2之间的关系强度指标PMI(E1,E2);
步骤(26),根据所述关系强度指标NGD(E1,E2)与所述关系强度指标PMI(E1,E2),计算所述第一实体E1与所述第二实体E2之间的最终关系强度指标P(E1,E2)以及构建所述第一实体E1与所述第二实体E2之间的相互关系;
进一步,在所述步骤(23)中,通过归一化谷歌距离算法NGD计算所述关系强度指标NGD(E1,E2)是通过下面公式(1)实现,
Figure BDA0002038715570000061
在所述步骤(25)中,通过优化的点互信息算法PMI计算所述关系强度指标PMI(E1,E2)是通过下面公式(2)实现,
Figure BDA0002038715570000062
在所述步骤(26)中,计算所述最终关系强度指标P(E1,E2)是通过下面公式(3)和(4)实现,
P(E1,E2)=β×P(E1,E2)+(1-β)×(1-NGD(E1,E2)) (3)
Figure BDA0002038715570000063
其中,在上述公式(1)-(4)中,N为所述病历信息中第一实体E1与第二实体E2共现的总数量,N(E1,E2)为第一实体E1与所述第二实体E2的共现数量,N(E1)为所述病历信息中第一实体E1的数量,N(E2)为所述病历信息中第二实体E2的数量,max为取较大值运算函数符号,min为取较小值运算函数符号。
相比于现有技术,本发明的医疗知识图谱的构建系统和构建方法是通过对医学病历执行实体识别处理以得到实体,在对该实体执行异构数据融合处理以得到医疗知识图谱实体,接着通过归一化谷歌距离算法NGD和点互信息算法PMI分别计算出两种关于不同实体之间的关系强度指标,再基于该两种关于不同实体之间的关系强度指标确定出不同实体之间的相关关系,从而最终将得到的医疗知识图谱实体和相关关系导入至图数据库中以形成医疗知识图谱。由于归一化谷歌距离算法NGD能够在不同医学实体之间共现次数较少的情况下很好地计算出相应的关系强度指标,而点互信息算法PMI能够在不同医学实体之间共现次数较多的情况下很好地计算出相应的关系强度指标,该医疗知识图谱的构建系统和构建方法通过将归一化谷歌距离算法NGD和点互信息算法PMI有机地结合在一起,从而使得该构建系统和构建方法能够具备计算医学实体之间不同共现规模对应关系强度指标的能力,以此大大地提高该构建系统和构建方法构建医疗知识图谱的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种医疗知识图谱的构建系统的结构示意图。
图2为本发明提供的一种医疗知识图谱的构建方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的一种医疗知识图谱的构建系统的结构示意图。该医疗知识图谱的构建系统包括但不限于实体识别处理模块、融合处理模块、关系强度指标计算模块、相关关系构建模块和存储模块。
优选地,该实体识别处理模块用于对医学病历执行实体识别处理,以此得到实体。
优选地,该融合处理模块用于对该实体执行异构数据融合处理,以此得到医疗知识图谱实体。
优选地,该关系强度指标计算模块用于计算该医疗知识图谱实体中不同实体之间的关系强度指标。
优选地,该相关关系构建模块用于构建不同该医疗知识图谱实体中不同实体之间的相关关系。
优选地,该存储模块用于将医疗知识图谱实体和该相关关系保存至图数据库中。
优选地,该实体识别处理模块包括命名实体识别处理子模块和实体生成子模块。
优选地,该命名实体识别处理子模块用于通过自然语言识别模型对该医学病历中的病历信息执行命名实体识别处理。
优选地,该实体生成子模块用于将该命名实体识别处理得到的该病历信息中对应的疾病相关数据、症状相关数据或者检查相关数据中的至少一者,作为该实体。
优选地,该融合处理模块包括数据清洗处理子模块、实体消歧处理子模块、实体对齐处理子模块。
优选地,该数据清洗处理子模块用于对该异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行数据清洗处理。
优选地,该实体消歧处理子模块用于对该异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行实体消歧处理。
优选地,该实体对齐处理子模块用于对该异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行实体对齐处理。
优选地,该关系强度指标计算模块包括数据预处理子模块和数据过滤子模块。
优选地,该数据预处理子模块用于对该异构数据中任意的第一实体E1和第二实体E2形成的实体对进行预处理,以此获取该第一实体E1与该第二实体E2之间的共现数量N(E1,E2)。
优选地,该数据过滤子模块用于将该共现数量N(E1,E2)与预设共现数量阈值TN进行比较,并且,
若N(E1,E2)<TN,则该数据过滤子模块剔除当前共现数量对应的第一实体E1与第二实体E2,
否则,该数据过滤子模块保留当前共现数量对应的第一实体E1与第二实体E2。
优选地,该关系强度指标计算模块还包括第一关系强度指标计算子模块、第二关系强度指标计算子模块、最终关系强度指标计算子模块。
优选地,该第一关系强度指标计算子模块用于通过归一化谷歌距离算法NGD计算该保留的第一实体E1与第二实体E2之间的关系强度指标NGD(E1,E2)。
优选地,该第二关系强度指标计算子模块用于通过优化的点互信息算法PMI计算该保留的第一实体E1与第二实体E2之间的关系强度指标PMI(E1,E2)。
优选地,该最终关系强度指标计算子模块用于根据该关系强度指标NGD(E1,E2)与该关系强度指标PMI(E1,E2),计算该第一实体E1与该第二实体E2之间的最终关系强度指标P(E1,E2)。
参阅图2,为本发明实施例提供的一种医疗知识图谱的构建方法的流程示意图。该医疗知识图谱的构建方法包括如下步骤:
步骤(1),对医学病历执行实体识别处理,以得到实体,并对该实体执行异构数据融合处理。
优选地,在该步骤(1)中,对医学病历执行实体识别处理,以得到实体,并对该实体执行异构数据融合处理具体包括,
步骤(11),通过自然语言识别模型对该医学病历中的病历信息执行命名实体识别处理;
步骤(12),基于该命名实体识别处理得到该病历信息中对应的疾病相关数据、症状相关数据或者检查相关数据中的至少一者;
步骤(13),将该疾病相关数据、该症状相关数据或者该检查相关数据中的至少一者,作为该异构数据融合处理结果。
优选地,在该步骤(1)中,对医学病历执行实体识别处理,以得到实体,并对该实体执行异构数据融合处理还具体包括,
步骤(14),对该疾病相关数据、该症状相关数据或者该检查相关数据中的至少一者执行包括数据清洗处理、实体消歧处理或者实体对齐处理中的至少一者,以实现对该疾病相关数据、该症状相关数据或者该检查相关数据中的至少一者的融合处理。
步骤(2),对该融合处理得到的医疗知识图谱实体,执行关于实体之间的关系强度指标计算以及构建实体之间的相关关系。
优选地,在该步骤(2)中,执行关于实体之间的关系强度指标计算具体包括计算第一实体E1与第二实体E2之间的关系强度指标;
其中,该第一实体与该第二实体包括疾病相关数据与症状相关数据、或者疾病相关数据与检查相关数据。
优选地,在该步骤(2)中,执行关于实体之间的关系强度指标计算包括计算第一实体E1与第二实体E2之间的关系强度指标,其具体包括,
步骤(21),对该第一实体E1与该第二实体E2进行数据预处理,并计算该第一实体E1与该第二实体E2之间的共现数量N(E1,E2);
步骤(22),将该共现数量N(E1,E2)与预设共现数量阈值TN进行比较,若N(E1,E2)<TN,则剔除当前共现数量对应的第一实体E1与第二实体E2,否则,保留当前共现数量对应的第一实体E1与第二实体E2;
步骤(23),通过归一化谷歌距离算法NGD,计算该步骤(22)保留的第一实体E1与第二实体E2之间的关系强度指标NGD(E1,E2);
步骤(24),若NGD(E1,E2)≤1,则不构建对应的第一实体E1与第二实体E2之间的相关关系,若NGD(E1,E2)>1,则执行下面的步骤(25);
步骤(25),通过优化的点互信息算法PMI,计算该步骤(24)中对应的第一实体E1与第二实体E2之间的关系强度指标PMI(E1,E2);
步骤(26),根据该关系强度指标NGD(E1,E2)与该关系强度指标PMI(E1,E2),计算该第一实体E1与该第二实体E2之间的最终关系强度指标P(E1,E2)以及构建该第一实体E1与该第二实体E2之间的相互关系。
优选地,在该步骤(23)中,通过归一化谷歌距离算法NGD计算该关系强度指标NGD(E1,E2)是通过下面公式(1)实现,
Figure BDA0002038715570000111
优选地,在该步骤(25)中,通过优化的点互信息算法PMI计算该关系强度指标PMI(E1,E2)是通过下面公式(2)实现,
Figure BDA0002038715570000112
优选地,在该步骤(26)中,计算该最终关系强度指标P(E1,E2)是通过下面公式(3)和(4)实现,
P(E1,E2)=β×P(E1,E2)+(1-β)×(1-NGD(E1,E2)) (3)
Figure BDA0002038715570000113
其中,在上述公式(1)-(4)中,N为该病历信息中第一实体E1与第二实体E2共现的总数量,N(E1,E2)为第一实体E1与该第二实体E2的共现数量,N(E1)为该病历信息中第一实体E1的数量,N(E2)为该病历信息中第二实体E2的数量,max为取较大值运算函数符号,min为取较小值运算函数符号。
步骤(3),将该步骤(2)得到的该医疗知识图谱实体和该实体之间的相关关系保存于对应的图数据库中。
从上述实施例可以看出,该医疗知识图谱的构建系统和构建方法是通过对医学病历执行实体识别处理以得到实体,在对该实体执行异构数据融合处理以得到医疗知识图谱实体,接着通过归一化谷歌距离算法NGD和点互信息算法PMI分别计算出两种关于不同实体之间的关系强度指标,再基于该两种关于不同实体之间的关系强度指标确定出不同实体之间的相关关系,从而最终将得到的医疗知识图谱实体和相关关系导入至图数据库中以形成医疗知识图谱。由于归一化谷歌距离算法NGD能够在不同医学实体之间共现次数较少的情况下很好地计算出相应的关系强度指标,而点互信息算法PMI能够在不同医学实体之间共现次数较多的情况下很好地计算出相应的关系强度指标,该医疗知识图谱的构建系统和构建方法通过将归一化谷歌距离算法NGD和点互信息算法PMI有机地结合在一起,从而使得该构建系统和构建方法能够具备计算医学实体之间不同共现规模对应关系强度指标的能力,以此大大地提高该构建系统和构建方法构建医疗知识图谱的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种医疗知识图谱的构建系统,其特征在于:
所述医疗知识图谱的构建系统包括实体识别处理模块、融合处理模块、关系强度指标计算模块、相关关系构建模块和存储模块;其中,
所述实体识别处理模块用于对医学病历执行实体识别处理,以此得到实体;
所述融合处理模块用于对所述实体执行异构数据融合处理,以此得到医疗知识图谱实体;
所述关系强度指标计算模块用于计算所述医疗知识图谱实体中不同实体之间的关系强度指标;
所述相关关系构建模块用于构建不同所述医疗知识图谱实体中不同实体之间的相关关系;
所述存储模块用于将医疗知识图谱实体和所述相关关系保存至图数据库中;
所述关系强度指标计算模块,还包括:通过归一化谷歌距离算法NGD计算关系强度指标NGD(E1,E2)是通过下面公式(1)实现,
Figure 372539DEST_PATH_IMAGE001
(1);
通过优化的点互信息算法PMI计算关系强度指标PMI(E1,E2)是通过下面公式(2)实现,
Figure 252771DEST_PATH_IMAGE002
(2);
计算最终关系强度指标P(E1,E2)是通过下面公式(3)和(4)实现,
Figure 877656DEST_PATH_IMAGE003
(3)
Figure 235956DEST_PATH_IMAGE004
(4)
其中,在上述公式(1)-(4)中,N为病历信息中第一实体E1与第二实体E2共现的总数量,N(E1,E2)为第一实体E1与第二实体E2之间的共现数量,N(E1)为病历信息中第一实体E1的数量,N(E2)为病历信息中第二实体E2的数量,max为取较大值运算函数符号,min为取较小值运算函数符号。
2.如权利要求1所述的医疗知识图谱的构建系统,其特征在于:
所述实体识别处理模块包括命名实体识别处理子模块和实体生成子模块;其中,
所述命名实体识别处理子模块用于通过自然语言识别模型对所述医学病历中的病历信息执行命名实体识别处理;
所述实体生成子模块用于将所述命名实体识别处理得到的所述病历信息中对应的疾病相关数据、症状相关数据或者检查相关数据中的至少一者,作为所述实体。
3.如权利要求1所述的医疗知识图谱的构建系统,其特征在于:
所述融合处理模块包括数据清洗处理子模块、实体消歧处理子模块、实体对齐处理子模块;其中,
所述数据清洗处理子模块用于对所述异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行数据清洗处理;
所述实体消歧处理子模块用于对所述异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行实体消歧处理;
所述实体对齐处理子模块用于对所述异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行实体对齐处理。
4.如权利要求1所述的医疗知识图谱的构建系统,其特征在于:
所述关系强度指标计算模块包括数据预处理子模块和数据过滤子模块;
所述数据预处理子模块用于对所述异构数据中任意的第一实体E1和第二实体E2形成的实体对进行预处理,以此获取所述第一实体E1与所述第二实体E2之间的共现数量N(E1,E2);
所述数据过滤子模块用于将所述共现数量N(E1,E2)与预设共现数量阈值TN进行比较,并且,
若N(E1,E2)<TN,则所述数据过滤子模块剔除当前共现数量对应的第一实体E1与第二实体E2,
否则,所述数据过滤子模块保留当前共现数量对应的第一实体E1与第二实体E2。
5.如权利要求4所述的医疗知识图谱的构建系统,其特征在于:
所述关系强度指标计算模块还包括第一关系强度指标计算子模块、第二关系强度指标计算子模块、最终关系强度指标计算子模块;其中,
所述第一关系强度指标计算子模块用于通过归一化谷歌距离算法NGD计算所述保留的第一实体E1与第二实体E2之间的关系强度指标NGD(E1,E2);
所述第二关系强度指标计算子模块用于通过优化的点互信息算法PMI计算所述保留的第一实体E1与第二实体E2之间的关系强度指标PMI(E1,E2);
所述最终关系强度指标计算子模块用于根据所述关系强度指标NGD(E1,E2)与所述关系强度指标PMI(E1,E2),计算所述第一实体E1与所述第二实体E2之间的最终关系强度指标P(E1,E2)。
6.一种医疗知识图谱的构建方法,其特征在于,所述医疗知识图谱的构建方法包括如下步骤:
步骤(1),对医学病历执行实体识别处理,以得到实体,并对所述实体执行异构数据融合处理;
步骤(2),对所述融合处理得到的医疗知识图谱实体,执行关于实体之间的关系强度指标计算以及构建实体之间的相关关系;
步骤(3),将所述步骤(2)得到的所述医疗知识图谱实体和所述实体之间的相关关系保存于对应的图数据库中;
基于步骤(2),包括:
通过归一化谷歌距离算法NGD计算关系强度指标NGD(E1,E2)是通过下面公式(1)实现,
Figure 895476DEST_PATH_IMAGE001
(1);
通过优化的点互信息算法PMI计算关系强度指标PMI(E1,E2)是通过下面公式(2)实现,
Figure 8926DEST_PATH_IMAGE002
(2);
计算最终关系强度指标P(E1,E2)是通过下面公式(3)和(4)实现,
Figure 871840DEST_PATH_IMAGE003
(3)
Figure 283098DEST_PATH_IMAGE004
(4)
其中,在上述公式(1)-(4)中,N为病历信息中第一实体E1与第二实体E2共现的总数量,N(E1,E2)为第一实体E1与第二实体E2之间的共现数量,N(E1)为病历信息中第一实体E1的数量,N(E2)为病历信息中第二实体E2的数量,max为取较大值运算函数符号,min为取较小值运算函数符号。
7.如权利要求6所述的医疗知识图谱的构建方法,其特征在于:在所述步骤(1)中,对医学病历执行实体识别处理,以得到实体,并对所述实体执行异构数据融合处理具体包括,
步骤(11),通过自然语言识别模型对所述医学病历中的病历信息执行命名实体识别处理;
步骤(12),基于所述命名实体识别处理得到所述病历信息中对应的疾病相关数据、症状相关数据或者检查相关数据中的至少一者;
步骤(13),将所述疾病相关数据、所述症状相关数据或者所述检查相关数据中的至少一者,作为所述异构数据融合处理结果。
8.如权利要求7所述的医疗知识图谱的构建方法,其特征在于:
在所述步骤(1)中,对医学病历执行实体识别处理,以得到实体,并对所述实体执行异构数据融合处理还具体包括,
步骤(14),对所述疾病相关数据、所述症状相关数据或者所述检查相关数据中的至少一者执行包括数据清洗处理、实体消歧处理或者实体对齐处理中的至少一者,以实现对所述疾病相关数据、所述症状相关数据或者所述检查相关数据中的至少一者的融合处理。
9.如权利要求6所述的医疗知识图谱的构建方法,其特征在于:
在所述步骤(2)中,执行关于实体之间的关系强度指标计算具体包括计算第一实体E1与第二实体E2之间的关系强度指标;
其中,所述第一实体与所述第二实体包括疾病相关数据与症状相关数据、或者疾病相关数据与检查相关数据;或者
在所述步骤(2)中,执行关于实体之间的关系强度指标计算包括计算第一实体E1与第二实体E2之间的关系强度指标,其具体包括,
步骤(21),对所述第一实体E1与所述第二实体E2进行数据预处理,并计算所述第一实体E1与所述第二实体E2之间的共现数量N(E1,E2);
步骤(22),将所述共现数量N(E1,E2)与预设共现数量阈值TN进行比较,若N(E1,E2)<TN,则剔除当前共现数量对应的第一实体E1与第二实体E2,否则,保留当前共现数量对应的第一实体E1与第二实体E2;
步骤(23),通过归一化谷歌距离算法NGD,计算所述步骤(22)保留的第一实体E1与第二实体E2之间的关系强度指标NGD(E1,E2);
步骤(24),若NGD(E1,E2)≤1,则不构建对应的第一实体E1与第二实体E2之间的相关关系,若NGD(E1,E2)>1,则执行下面的步骤(25);
步骤(25),通过优化的点互信息算法PMI,计算所述步骤(24)中对应的第一实体E1与第二实体E2之间的关系强度指标PMI(E1,E2);
步骤(26),根据所述关系强度指标NGD(E1,E2)与所述关系强度指标PMI(E1,E2),计算所述第一实体E1与所述第二实体E2之间的最终关系强度指标P(E1,E2)以及构建所述第一实体E1与所述第二实体E2之间的相互关系。
CN201910334418.9A 2019-04-24 2019-04-24 一种医疗知识图谱的构建系统和构建方法 Active CN110111905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910334418.9A CN110111905B (zh) 2019-04-24 2019-04-24 一种医疗知识图谱的构建系统和构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910334418.9A CN110111905B (zh) 2019-04-24 2019-04-24 一种医疗知识图谱的构建系统和构建方法

Publications (2)

Publication Number Publication Date
CN110111905A CN110111905A (zh) 2019-08-09
CN110111905B true CN110111905B (zh) 2021-09-03

Family

ID=67486571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910334418.9A Active CN110111905B (zh) 2019-04-24 2019-04-24 一种医疗知识图谱的构建系统和构建方法

Country Status (1)

Country Link
CN (1) CN110111905B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414490A (zh) * 2020-04-07 2020-07-14 中国建设银行股份有限公司 确定失联修复信息的方法、装置、电子设备和存储介质
US11797545B2 (en) * 2020-04-21 2023-10-24 International Business Machines Corporation Dynamically generating facets using graph partitioning
CN111708893A (zh) * 2020-05-15 2020-09-25 北京邮电大学 基于知识图谱的科技资源整合方法及系统
CN111768869B (zh) * 2020-09-03 2020-12-11 成都索贝数码科技股份有限公司 面向智能问答系统的医学指南图谱化构建搜索系统及方法
CN113314206B (zh) * 2021-06-08 2024-04-26 北京大数医达科技有限公司 图像显示方法、装置和终端设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180253650A9 (en) * 2014-08-06 2018-09-06 Prysm, Inc. Knowledge To User Mapping in Knowledge Automation System
CN107169078A (zh) * 2017-05-10 2017-09-15 京东方科技集团股份有限公司 中医药知识图谱及其建立方法以及计算机系统
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
CN108492887B (zh) * 2018-04-13 2020-09-22 合肥工业大学 医疗知识图谱构建方法及装置
CN108986871A (zh) * 2018-08-27 2018-12-11 东北大学 一种智慧医疗知识图谱的构建方法
CN109408100B (zh) * 2018-09-08 2021-06-22 扬州大学 一种基于多源数据的软件缺陷信息融合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mapping knowledge flows in virtual teams with SNA;Frank D.Behrend等;《JOURNAL OF KNOWLEDGE MANAGEMENT》;20090717;第13卷(第4期);第99-114页 *

Also Published As

Publication number Publication date
CN110111905A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110111905B (zh) 一种医疗知识图谱的构建系统和构建方法
KR102153920B1 (ko) 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법
US20180322954A1 (en) Method and device for constructing medical knowledge graph and assistant diagnosis method
CN110838368B (zh) 一种基于中医临床知识图谱的主动问诊机器人
CN109949938B (zh) 用于将医疗非标准名称标准化的方法及装置
CN106682397A (zh) 一种基于知识的电子病历质控方法
CN111368094A (zh) 实体知识图谱建立、属性信息获取、门诊分诊方法及装置
WO2021151302A1 (zh) 基于机器学习的药品质控分析方法、装置、设备及介质
CN107887025A (zh) 一种医疗大脑系统
US11449680B2 (en) Method for testing medical data
CN110874409A (zh) 病情分级预测系统、方法、电子设备及可读存储介质
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
CN112507138A (zh) 专病知识图谱构建方法及装置、介质及电子设备
CN115497616A (zh) 一种感染性疾病辅助决策的方法、系统、设备及存储介质
CN111180026A (zh) 专科诊疗视图系统及方法
CN113610118A (zh) 一种基于多任务课程式学习的眼底图像分类方法、装置、设备及介质
CN116578704A (zh) 文本情感分类方法、装置、设备及计算机可读介质
CN113658690A (zh) 一种智能导医方法、装置、存储介质以及电子设备
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN108831560B (zh) 一种确定医疗数据属性数据的方法和装置
CN111222325A (zh) 一种双向栈式循环神经网络的医疗语义标注方法和系统
CN110610766A (zh) 基于症状特征权重推导疾病概率的装置和存储介质
AU2021102129A4 (en) Automatic labeling method of emphysema in CT image based on image report
CN114429822A (zh) 病历质检方法、装置和存储介质
CN114897057A (zh) 基于多模态数据融合的阴虚证智能诊断系统、方法、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096

Applicant after: Yunzhisheng Intelligent Technology Co.,Ltd.

Address before: No.101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing

Applicant before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant