CN110111905A - 一种医疗知识图谱的构建系统和构建方法 - Google Patents

一种医疗知识图谱的构建系统和构建方法 Download PDF

Info

Publication number
CN110111905A
CN110111905A CN201910334418.9A CN201910334418A CN110111905A CN 110111905 A CN110111905 A CN 110111905A CN 201910334418 A CN201910334418 A CN 201910334418A CN 110111905 A CN110111905 A CN 110111905A
Authority
CN
China
Prior art keywords
entity
instance
relationship strength
strength index
related data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910334418.9A
Other languages
English (en)
Other versions
CN110111905B (zh
Inventor
史亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunzhisheng Information Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201910334418.9A priority Critical patent/CN110111905B/zh
Publication of CN110111905A publication Critical patent/CN110111905A/zh
Application granted granted Critical
Publication of CN110111905B publication Critical patent/CN110111905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供了一种医疗知识图谱的构建系统和构建方法,该医疗知识图谱的构建系统和构建方法是通过对医学病历执行实体识别处理以得到实体,再对实体执行异构数据融合处理以得到医疗知识图谱实体,接着通过归一化谷歌距离算法NGD和点互信息算法PMI分别计算出两种关于不同实体之间的关系强度指标,再基于该两种关于不同实体之间的关系强度指标确定出不同实体之间的相关关系,从而最终将得到的医疗知识图谱实体和相关关系导入至图数据库中以形成医疗知识图谱。

Description

一种医疗知识图谱的构建系统和构建方法
技术领域
本发明涉及医疗图像处理的技术领域,特别涉及一种医疗知识图谱的构建系统和构建方法。
背景技术
医疗知识图谱是用于表征医疗诊断过程中不同医疗特征量之间的关联性。医护人员通过医疗知识图谱能够准确地和全面地获得关于对应病患的医疗诊断数据信息,并从该医疗知识图谱中判断出适应与当前病患的治疗方案。目前而言,应用最为广泛的一种医疗知识图谱的构建方法就是利用自然语言处理技术从如病历等医学资料中提取如疾病、症状或者检查等不同医学实体,然后通过计算不同医学实体之间的相关度,以此来构建不同医学实体之间的相关关系,最后将不同医学实体及其相互之间的相关关系导入至图数据库中,从而构建出相应的医疗知识图谱。上述现有的医疗知识图谱的构建方法不仅能够快速和有针对性地构建出符合当前病患的医疗知识图谱,并且还能够实现医疗知识图谱的随时随地更新。
在医疗知识图谱中,不同医学实体之间相关度是构建医学关系不可缺少的重要一环,并且不同医学实体相关度的计算会考虑不同医学实体之间的共现程度,而该共现程度的大小直接影响医疗知识图谱构建的准确性。在实际构建场景中,不同医学实体之间的共现规模可能十分丰富,另外的不同医学实体之间的共现规模可能十分细小,当在构建医疗知识图谱的过程中,同时存在不同医学实体之间共现规模悬殊的情况时,现有的医疗知识图谱构建方法将无法同时妥善的处理上述情况,并以此准确地计算出对应的不同医学实体相关度,这将严重地影响医疗知识图谱对不同应用场景的适用性,以及降低医疗知识图谱对于医疗诊断的辅助精确性。
发明内容
针对现有技术存在的缺陷,本发明提供一种医疗知识图谱的构建系统和构建方法,该医疗知识图谱的构建系统和构建方法是通过对医学病历执行实体识别处理以得到实体,在对该实体执行异构数据融合处理以得到医疗知识图谱实体,接着通过归一化谷歌距离算法NGD和点互信息算法PMI分别计算出两种关于不同实体之间的关系强度指标,再基于该两种关于不同实体之间的关系强度指标确定出不同实体之间的相关关系,从而最终将得到的医疗知识图谱实体和相关关系导入至图数据库中以形成医疗知识图谱。由于归一化谷歌距离算法NGD能够在不同医学实体之间共现次数较少的情况下很好地计算出相应的关系强度指标,而点互信息算法PMI能够在不同医学实体之间共现次数较多的情况下很好地计算出相应的关系强度指标,该医疗知识图谱的构建系统和构建方法通过将归一化谷歌距离算法NGD和点互信息算法PMI有机地结合在一起,从而使得该构建系统和构建方法能够具备计算医学实体之间不同共现规模对应关系强度指标的能力,以此大大地提高该构建系统和构建方法构建医疗知识图谱的准确性。
本发明提供一种医疗知识图谱的构建系统,其特征在于:
所述医疗知识图谱的构建系统包括实体识别处理模块、融合处理模块、关系强度指标计算模块、相关关系构建模块和存储模块;其中,
所述实体识别处理模块用于对医学病历执行实体识别处理,以此得到实体;
所述融合处理模块用于对所述实体执行异构数据融合处理,以此得到医疗知识图谱实体;
所述关系强度指标计算模块用于计算所述医疗知识图谱实体中不同实体之间的关系强度指标;
所述相关关系构建模块用于构建不同所述医疗知识图谱实体中不同实体之间的相关关系;
所述存储模块用于将医疗知识图谱实体和所述相关关系保存至图数据库中;
进一步,所述实体识别处理模块包括命名实体识别处理子模块和实体生成子模块;其中,
所述命名实体识别处理子模块用于通过自然语言识别模型对所述医学病历中的病历信息执行命名实体识别处理;
所述实体生成子模块用于将所述命名实体识别处理得到的所述病历信息中对应的疾病相关数据、症状相关数据或者检查相关数据中的至少一者,作为所述实体;
进一步,所述融合处理模块包括数据清洗处理子模块、实体消歧处理子模块、实体对齐处理子模块;其中,
所述数据清洗处理子模块用于对所述异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行数据清洗处理;
所述实体消歧处理子模块用于对所述异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行实体消歧处理;
所述实体对齐处理子模块用于对所述异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行实体对齐处理;
进一步,所述关系强度指标计算模块包括数据预处理子模块和数据过滤子模块;
所述数据预处理子模块用于对所述异构数据中任意的第一实体E1和第二实体E2形成的实体对进行预处理,以此获取所述第一实体E1与所述第二实体E2之间的共现数量N(E1,E2);
所述数据过滤子模块用于将所述共现数量N(E1,E2)与预设共现数量阈值TN进行比较,并且,
若N(E1,E2)<TN,则所述数据过滤子模块剔除当前共现数量对应的第一实体E1与第二实体E2,
否则,所述数据过滤子模块保留当前共现数量对应的第一实体E1与第二实体E2;
进一步,所述关系强度指标计算模块还包括第一关系强度指标计算子模块、第二关系强度指标计算子模块、最终关系强度指标计算子模块;其中,
所述第一关系强度指标计算子模块用于通过归一化谷歌距离算法NGD计算所述保留的第一实体E1与第二实体E2之间的关系强度指标NGD(E1,E2);
所述第二关系强度指标计算子模块用于通过优化的点互信息算法PMI计算所述保留的第一实体E1与第二实体E2之间的关系强度指标PMI(E1,E2);
所述最终关系强度指标计算子模块用于根据所述关系强度指标NGD(E1,E2)与所述关系强度指标PMI(E1,E2),计算所述第一实体E1与所述第二实体E2之间的最终关系强度指标P(E1,E2)。
本发明还提供一种医疗知识图谱的构建方法,其特征在于,所述医疗知识图谱的构建方法包括如下步骤:
步骤(1),对医学病历执行实体识别处理,以得到实体,并对所述实体执行异构数据融合处理;
步骤(2),对所述融合处理得到的医疗知识图谱实体,执行关于实体之间的关系强度指标计算以及构建实体之间的相关关系;
步骤(3),将所述步骤(2)得到的所述医疗知识图谱实体和所述实体之间的相关关系保存于对应的图数据库中;
进一步,在所述步骤(1)中,对医学病历执行实体识别处理,以得到实体,并对所述实体执行异构数据融合处理具体包括,
步骤(11),通过自然语言识别模型对所述医学病历中的病历信息执行命名实体识别处理;
步骤(12),基于所述命名实体识别处理得到所述病历信息中对应的疾病相关数据、症状相关数据或者检查相关数据中的至少一者;
步骤(13),将所述疾病相关数据、所述症状相关数据或者所述检查相关数据中的至少一者,作为所述异构数据融合处理结果;
进一步,在所述步骤(1)中,对医学病历执行实体识别处理,以得到实体,并对所述实体执行异构数据融合处理还具体包括,
步骤(14),对所述疾病相关数据、所述症状相关数据或者所述检查相关数据中的至少一者执行包括数据清洗处理、实体消歧处理或者实体对齐处理中的至少一者,以实现对所述疾病相关数据、所述症状相关数据或者所述检查相关数据中的至少一者的融合处理;
进一步,在所述步骤(2)中,执行关于实体之间的关系强度指标计算具体包括计算第一实体E1与第二实体E2之间的关系强度指标;
其中,所述第一实体与所述第二实体包括疾病相关数据与症状相关数据、或者疾病相关数据与检查相关数据;或者
在所述步骤(2)中,执行关于实体之间的关系强度指标计算包括计算第一实体E1与第二实体E2之间的关系强度指标,其具体包括,
步骤(21),对所述第一实体E1与所述第二实体E2进行数据预处理,并计算所述第一实体E1与所述第二实体E2之间的共现数量N(E1,E2);
步骤(22),将所述共现数量N(E1,E2)与预设共现数量阈值TN进行比较,若N(E1,E2)<TN,则剔除当前共现数量对应的第一实体E1与第二实体E2,否则,保留当前共现数量对应的第一实体E1与第二实体E2;
步骤(23),通过归一化谷歌距离算法NGD,计算所述步骤(22)保留的第一实体E1与第二实体E2之间的关系强度指标NGD(E1,E2);
步骤(24),若NGD(E1,E2)≤1,则不构建对应的第一实体E1与第二实体E2之间的相关关系,若NGD(E1,E2)>1,则执行下面的步骤(25);
步骤(25),通过优化的点互信息算法PMI,计算所述步骤(24)中对应的第一实体E1与第二实体E2之间的关系强度指标PMI(E1,E2);
步骤(26),根据所述关系强度指标NGD(E1,E2)与所述关系强度指标PMI(E1,E2),计算所述第一实体E1与所述第二实体E2之间的最终关系强度指标P(E1,E2)以及构建所述第一实体E1与所述第二实体E2之间的相互关系;
进一步,在所述步骤(23)中,通过归一化谷歌距离算法NGD计算所述关系强度指标NGD(E1,E2)是通过下面公式(1)实现,
在所述步骤(25)中,通过优化的点互信息算法PMI计算所述关系强度指标PMI(E1,E2)是通过下面公式(2)实现,
在所述步骤(26)中,计算所述最终关系强度指标P(E1,E2)是通过下面公式(3)和(4)实现,
P(E1,E2)=β×P(E1,E2)+(1-β)×(1-NGD(E1,E2))(3)
其中,在上述公式(1)-(4)中,N为所述病历信息中第一实体E1与第二实体E2共现的总数量,N(E1,E2)为第一实体E1与所述第二实体E2的共现数量,N(E1)为所述病历信息中第一实体E1的数量,N(E2)为所述病历信息中第二实体E2的数量,max为取较大值运算函数符号,min为取较小值运算函数符号。
相比于现有技术,本发明的医疗知识图谱的构建系统和构建方法是通过对医学病历执行实体识别处理以得到实体,在对该实体执行异构数据融合处理以得到医疗知识图谱实体,接着通过归一化谷歌距离算法NGD和点互信息算法PMI分别计算出两种关于不同实体之间的关系强度指标,再基于该两种关于不同实体之间的关系强度指标确定出不同实体之间的相关关系,从而最终将得到的医疗知识图谱实体和相关关系导入至图数据库中以形成医疗知识图谱。由于归一化谷歌距离算法NGD能够在不同医学实体之间共现次数较少的情况下很好地计算出相应的关系强度指标,而点互信息算法PMI能够在不同医学实体之间共现次数较多的情况下很好地计算出相应的关系强度指标,该医疗知识图谱的构建系统和构建方法通过将归一化谷歌距离算法NGD和点互信息算法PMI有机地结合在一起,从而使得该构建系统和构建方法能够具备计算医学实体之间不同共现规模对应关系强度指标的能力,以此大大地提高该构建系统和构建方法构建医疗知识图谱的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种医疗知识图谱的构建系统的结构示意图。
图2为本发明提供的一种医疗知识图谱的构建方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的一种医疗知识图谱的构建系统的结构示意图。该医疗知识图谱的构建系统包括但不限于实体识别处理模块、融合处理模块、关系强度指标计算模块、相关关系构建模块和存储模块。
优选地,该实体识别处理模块用于对医学病历执行实体识别处理,以此得到实体。
优选地,该融合处理模块用于对该实体执行异构数据融合处理,以此得到医疗知识图谱实体。
优选地,该关系强度指标计算模块用于计算该医疗知识图谱实体中不同实体之间的关系强度指标。
优选地,该相关关系构建模块用于构建不同该医疗知识图谱实体中不同实体之间的相关关系。
优选地,该存储模块用于将医疗知识图谱实体和该相关关系保存至图数据库中。
优选地,该实体识别处理模块包括命名实体识别处理子模块和实体生成子模块。
优选地,该命名实体识别处理子模块用于通过自然语言识别模型对该医学病历中的病历信息执行命名实体识别处理。
优选地,该实体生成子模块用于将该命名实体识别处理得到的该病历信息中对应的疾病相关数据、症状相关数据或者检查相关数据中的至少一者,作为该实体。
优选地,该融合处理模块包括数据清洗处理子模块、实体消歧处理子模块、实体对齐处理子模块。
优选地,该数据清洗处理子模块用于对该异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行数据清洗处理。
优选地,该实体消歧处理子模块用于对该异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行实体消歧处理。
优选地,该实体对齐处理子模块用于对该异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行实体对齐处理。
优选地,该关系强度指标计算模块包括数据预处理子模块和数据过滤子模块。
优选地,该数据预处理子模块用于对该异构数据中任意的第一实体E1和第二实体E2形成的实体对进行预处理,以此获取该第一实体E1与该第二实体E2之间的共现数量N(E1,E2)。
优选地,该数据过滤子模块用于将该共现数量N(E1,E2)与预设共现数量阈值TN进行比较,并且,
若N(E1,E2)<TN,则该数据过滤子模块剔除当前共现数量对应的第一实体E1与第二实体E2,
否则,该数据过滤子模块保留当前共现数量对应的第一实体E1与第二实体E2。
优选地,该关系强度指标计算模块还包括第一关系强度指标计算子模块、第二关系强度指标计算子模块、最终关系强度指标计算子模块。
优选地,该第一关系强度指标计算子模块用于通过归一化谷歌距离算法NGD计算该保留的第一实体E1与第二实体E2之间的关系强度指标NGD(E1,E2)。
优选地,该第二关系强度指标计算子模块用于通过优化的点互信息算法PMI计算该保留的第一实体E1与第二实体E2之间的关系强度指标PMI(E1,E2)。
优选地,该最终关系强度指标计算子模块用于根据该关系强度指标NGD(E1,E2)与该关系强度指标PMI(E1,E2),计算该第一实体E1与该第二实体E2之间的最终关系强度指标P(E1,E2)。
参阅图2,为本发明实施例提供的一种医疗知识图谱的构建方法的流程示意图。该医疗知识图谱的构建方法包括如下步骤:
步骤(1),对医学病历执行实体识别处理,以得到实体,并对该实体执行异构数据融合处理。
优选地,在该步骤(1)中,对医学病历执行实体识别处理,以得到实体,并对该实体执行异构数据融合处理具体包括,
步骤(11),通过自然语言识别模型对该医学病历中的病历信息执行命名实体识别处理;
步骤(12),基于该命名实体识别处理得到该病历信息中对应的疾病相关数据、症状相关数据或者检查相关数据中的至少一者;
步骤(13),将该疾病相关数据、该症状相关数据或者该检查相关数据中的至少一者,作为该异构数据融合处理结果。
优选地,在该步骤(1)中,对医学病历执行实体识别处理,以得到实体,并对该实体执行异构数据融合处理还具体包括,
步骤(14),对该疾病相关数据、该症状相关数据或者该检查相关数据中的至少一者执行包括数据清洗处理、实体消歧处理或者实体对齐处理中的至少一者,以实现对该疾病相关数据、该症状相关数据或者该检查相关数据中的至少一者的融合处理。
步骤(2),对该融合处理得到的医疗知识图谱实体,执行关于实体之间的关系强度指标计算以及构建实体之间的相关关系。
优选地,在该步骤(2)中,执行关于实体之间的关系强度指标计算具体包括计算第一实体E1与第二实体E2之间的关系强度指标;
其中,该第一实体与该第二实体包括疾病相关数据与症状相关数据、或者疾病相关数据与检查相关数据。
优选地,在该步骤(2)中,执行关于实体之间的关系强度指标计算包括计算第一实体E1与第二实体E2之间的关系强度指标,其具体包括,
步骤(21),对该第一实体E1与该第二实体E2进行数据预处理,并计算该第一实体E1与该第二实体E2之间的共现数量N(E1,E2);
步骤(22),将该共现数量N(E1,E2)与预设共现数量阈值TN进行比较,若N(E1,E2)<TN,则剔除当前共现数量对应的第一实体E1与第二实体E2,否则,保留当前共现数量对应的第一实体E1与第二实体E2;
步骤(23),通过归一化谷歌距离算法NGD,计算该步骤(22)保留的第一实体E1与第二实体E2之间的关系强度指标NGD(E1,E2);
步骤(24),若NGD(E1,E2)≤1,则不构建对应的第一实体E1与第二实体E2之间的相关关系,若NGD(E1,E2)>1,则执行下面的步骤(25);
步骤(25),通过优化的点互信息算法PMI,计算该步骤(24)中对应的第一实体E1与第二实体E2之间的关系强度指标PMI(E1,E2);
步骤(26),根据该关系强度指标NGD(E1,E2)与该关系强度指标PMI(E1,E2),计算该第一实体E1与该第二实体E2之间的最终关系强度指标P(E1,E2)以及构建该第一实体E1与该第二实体E2之间的相互关系。
优选地,在该步骤(23)中,通过归一化谷歌距离算法NGD计算该关系强度指标NGD(E1,E2)是通过下面公式(1)实现,
优选地,在该步骤(25)中,通过优化的点互信息算法PMI计算该关系强度指标PMI(E1,E2)是通过下面公式(2)实现,
优选地,在该步骤(26)中,计算该最终关系强度指标P(E1,E2)是通过下面公式(3)和(4)实现,
P(E1,E2)=β×P(E1,E2)+(1-β)×(1-NGD(E1,E2)) (3)
其中,在上述公式(1)-(4)中,N为该病历信息中第一实体E1与第二实体E2共现的总数量,N(E1,E2)为第一实体E1与该第二实体E2的共现数量,N(E1)为该病历信息中第一实体E1的数量,N(E2)为该病历信息中第二实体E2的数量,max为取较大值运算函数符号,min为取较小值运算函数符号。
步骤(3),将该步骤(2)得到的该医疗知识图谱实体和该实体之间的相关关系保存于对应的图数据库中。
从上述实施例可以看出,该医疗知识图谱的构建系统和构建方法是通过对医学病历执行实体识别处理以得到实体,在对该实体执行异构数据融合处理以得到医疗知识图谱实体,接着通过归一化谷歌距离算法NGD和点互信息算法PMI分别计算出两种关于不同实体之间的关系强度指标,再基于该两种关于不同实体之间的关系强度指标确定出不同实体之间的相关关系,从而最终将得到的医疗知识图谱实体和相关关系导入至图数据库中以形成医疗知识图谱。由于归一化谷歌距离算法NGD能够在不同医学实体之间共现次数较少的情况下很好地计算出相应的关系强度指标,而点互信息算法PMI能够在不同医学实体之间共现次数较多的情况下很好地计算出相应的关系强度指标,该医疗知识图谱的构建系统和构建方法通过将归一化谷歌距离算法NGD和点互信息算法PMI有机地结合在一起,从而使得该构建系统和构建方法能够具备计算医学实体之间不同共现规模对应关系强度指标的能力,以此大大地提高该构建系统和构建方法构建医疗知识图谱的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种医疗知识图谱的构建系统,其特征在于:
所述医疗知识图谱的构建系统包括实体识别处理模块、融合处理模块、关系强度指标计算模块、相关关系构建模块和存储模块;其中,
所述实体识别处理模块用于对医学病历执行实体识别处理,以此得到实体;
所述融合处理模块用于对所述实体执行异构数据融合处理,以此得到医疗知识图谱实体;
所述关系强度指标计算模块用于计算所述医疗知识图谱实体中不同实体之间的关系强度指标;
所述相关关系构建模块用于构建不同所述医疗知识图谱实体中不同实体之间的相关关系;
所述存储模块用于将医疗知识图谱实体和所述相关关系保存至图数据库中。
2.如权利要求1所述的医疗知识图谱的构建系统,其特征在于:
所述实体识别处理模块包括命名实体识别处理子模块和实体生成子模块;其中,
所述命名实体识别处理子模块用于通过自然语言识别模型对所述医学病历中的病历信息执行命名实体识别处理;
所述实体生成子模块用于将所述命名实体识别处理得到的所述病历信息中对应的疾病相关数据、症状相关数据或者检查相关数据中的至少一者,作为所述实体。
3.如权利要求1所述的医疗知识图谱的构建系统,其特征在于:
所述融合处理模块包括数据清洗处理子模块、实体消歧处理子模块、实体对齐处理子模块;其中,
所述数据清洗处理子模块用于对所述异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行数据清洗处理;
所述实体消歧处理子模块用于对所述异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行实体消歧处理;
所述实体对齐处理子模块用于对所述异构数据中的疾病相关数据、症状相关数据或者检查相关数据中的至少一者进行实体对齐处理。
4.如权利要求1所述的医疗知识图谱的构建系统,其特征在于:
所述关系强度指标计算模块包括数据预处理子模块和数据过滤子模块;
所述数据预处理子模块用于对所述异构数据中任意的第一实体E1和第二实体E2形成的实体对进行预处理,以此获取所述第一实体E1与所述第二实体E2之间的共现数量N(E1,E2);
所述数据过滤子模块用于将所述共现数量N(E1,E2)与预设共现数量阈值TN进行比较,并且,
若N(E1,E2)<TN,则所述数据过滤子模块剔除当前共现数量对应的第一实体E1与第二实体E2,
否则,所述数据过滤子模块保留当前共现数量对应的第一实体E1与第二实体E2。
5.如权利要求4所述的医疗知识图谱的构建系统,其特征在于:
所述关系强度指标计算模块还包括第一关系强度指标计算子模块、第二关系强度指标计算子模块、最终关系强度指标计算子模块;其中,
所述第一关系强度指标计算子模块用于通过归一化谷歌距离算法NGD计算所述保留的第一实体E1与第二实体E2之间的关系强度指标NGD(E1,E2);
所述第二关系强度指标计算子模块用于通过优化的点互信息算法PMI计算所述保留的第一实体E1与第二实体E2之间的关系强度指标PMI(E1,E2);
所述最终关系强度指标计算子模块用于根据所述关系强度指标NGD(E1,E2)与所述关系强度指标PMI(E1,E2),计算所述第一实体E1与所述第二实体E2之间的最终关系强度指标P(E1,E2)。
6.一种医疗知识图谱的构建方法,其特征在于,所述医疗知识图谱的构建方法包括如下步骤:
步骤(1),对医学病历执行实体识别处理,以得到实体,并对所述实体执行异构数据融合处理;
步骤(2),对所述融合处理得到的医疗知识图谱实体,执行关于实体之间的关系强度指标计算以及构建实体之间的相关关系;
步骤(3),将所述步骤(2)得到的所述医疗知识图谱实体和所述实体之间的相关关系保存于对应的图数据库中。
7.如权利要求6所述的医疗知识图谱的构建方法,其特征在于:
在所述步骤(1)中,对医学病历执行实体识别处理,以得到实体,并对所述实体执行异构数据融合处理具体包括,
步骤(11),通过自然语言识别模型对所述医学病历中的病历信息执行命名实体识别处理;
步骤(12),基于所述命名实体识别处理得到所述病历信息中对应的疾病相关数据、症状相关数据或者检查相关数据中的至少一者;
步骤(13),将所述疾病相关数据、所述症状相关数据或者所述检查相关数据中的至少一者,作为所述异构数据融合处理结果。
8.如权利要求7所述的医疗知识图谱的构建方法,其特征在于:
在所述步骤(1)中,对医学病历执行实体识别处理,以得到实体,并对所述实体执行异构数据融合处理还具体包括,
步骤(14),对所述疾病相关数据、所述症状相关数据或者所述检查相关数据中的至少一者执行包括数据清洗处理、实体消歧处理或者实体对齐处理中的至少一者,以实现对所述疾病相关数据、所述症状相关数据或者所述检查相关数据中的至少一者的融合处理。
9.如权利要求6所述的医疗知识图谱的构建方法,其特征在于:
在所述步骤(2)中,执行关于实体之间的关系强度指标计算具体包括计算第一实体E1与第二实体E2之间的关系强度指标;
其中,所述第一实体与所述第二实体包括疾病相关数据与症状相关数据、或者疾病相关数据与检查相关数据;或者
在所述步骤(2)中,执行关于实体之间的关系强度指标计算包括计算第一实体E1与第二实体E2之间的关系强度指标,其具体包括,
步骤(21),对所述第一实体E1与所述第二实体E2进行数据预处理,并计算所述第一实体E1与所述第二实体E2之间的共现数量N(E1,E2);
步骤(22),将所述共现数量N(E1,E2)与预设共现数量阈值TN进行比较,若N(E1,E2)<TN,则剔除当前共现数量对应的第一实体E1与第二实体E2,否则,保留当前共现数量对应的第一实体E1与第二实体E2;
步骤(23),通过归一化谷歌距离算法NGD,计算所述步骤(22)保留的第一实体E1与第二实体E2之间的关系强度指标NGD(E1,E2);
步骤(24),若NGD(E1,E2)≤1,则不构建对应的第一实体E1与第二实体E2之间的相关关系,若NGD(E1,E2)>1,则执行下面的步骤(25);
步骤(25),通过优化的点互信息算法PMI,计算所述步骤(24)中对应的第一实体E1与第二实体E2之间的关系强度指标PMI(E1,E2);
步骤(26),根据所述关系强度指标NGD(E1,E2)与所述关系强度指标PMI(E1,E2),计算所述第一实体E1与所述第二实体E2之间的最终关系强度指标P(E1,E2)以及构建所述第一实体E1与所述第二实体E2之间的相互关系。
10.如权利要求9所述的医疗知识图谱的构建方法,其特征在于:
在所述步骤(23)中,通过归一化谷歌距离算法NGD计算所述关系强度指标NGD(E1,E2)是通过下面公式(1)实现,
在所述步骤(25)中,通过优化的点互信息算法PMI计算所述关系强度指标PMI(E1,E2)是通过下面公式(2)实现,
在所述步骤(26)中,计算所述最终关系强度指标P(E1,E2)是通过下面公式(3)和(4)实现,
P(E1,E2)=β×P(E1,E2)+(1-β)×(1-NGD(E1,E2)) (3)
其中,在上述公式(1)-(4)中,N为所述病历信息中第一实体E1与第二实体E2共现的总数量,N(E1,E2)为第一实体E1与所述第二实体E2的共现数量,N(E1)为所述病历信息中第一实体E1的数量,N(E2)为所述病历信息中第二实体E2的数量,max为取较大值运算函数符号,min为取较小值运算函数符号。
CN201910334418.9A 2019-04-24 2019-04-24 一种医疗知识图谱的构建系统和构建方法 Active CN110111905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910334418.9A CN110111905B (zh) 2019-04-24 2019-04-24 一种医疗知识图谱的构建系统和构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910334418.9A CN110111905B (zh) 2019-04-24 2019-04-24 一种医疗知识图谱的构建系统和构建方法

Publications (2)

Publication Number Publication Date
CN110111905A true CN110111905A (zh) 2019-08-09
CN110111905B CN110111905B (zh) 2021-09-03

Family

ID=67486571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910334418.9A Active CN110111905B (zh) 2019-04-24 2019-04-24 一种医疗知识图谱的构建系统和构建方法

Country Status (1)

Country Link
CN (1) CN110111905B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414490A (zh) * 2020-04-07 2020-07-14 中国建设银行股份有限公司 确定失联修复信息的方法、装置、电子设备和存储介质
CN111708893A (zh) * 2020-05-15 2020-09-25 北京邮电大学 基于知识图谱的科技资源整合方法及系统
CN111768869A (zh) * 2020-09-03 2020-10-13 成都索贝数码科技股份有限公司 面向智能问答系统的医学指南图谱化构建搜索系统及方法
CN113314206A (zh) * 2021-06-08 2021-08-27 北京大数医达科技有限公司 图像显示方法、装置和终端设备
WO2021214566A1 (en) * 2020-04-21 2021-10-28 International Business Machines Corporation Dynamically generating facets using graph partitioning
CN113918732A (zh) * 2021-11-19 2022-01-11 北京明略软件系统有限公司 多模态知识图谱构建方法、系统、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169078A (zh) * 2017-05-10 2017-09-15 京东方科技集团股份有限公司 中医药知识图谱及其建立方法以及计算机系统
US20170308792A1 (en) * 2014-08-06 2017-10-26 Prysm, Inc. Knowledge To User Mapping in Knowledge Automation System
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
CN108492887A (zh) * 2018-04-13 2018-09-04 合肥工业大学 医疗知识图谱构建方法及装置
CN108986871A (zh) * 2018-08-27 2018-12-11 东北大学 一种智慧医疗知识图谱的构建方法
CN109408100A (zh) * 2018-09-08 2019-03-01 扬州大学 一种基于多源数据的软件缺陷信息融合方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308792A1 (en) * 2014-08-06 2017-10-26 Prysm, Inc. Knowledge To User Mapping in Knowledge Automation System
CN107169078A (zh) * 2017-05-10 2017-09-15 京东方科技集团股份有限公司 中医药知识图谱及其建立方法以及计算机系统
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
CN108492887A (zh) * 2018-04-13 2018-09-04 合肥工业大学 医疗知识图谱构建方法及装置
CN108986871A (zh) * 2018-08-27 2018-12-11 东北大学 一种智慧医疗知识图谱的构建方法
CN109408100A (zh) * 2018-09-08 2019-03-01 扬州大学 一种基于多源数据的软件缺陷信息融合方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FRANK D.BEHREND等: "Mapping knowledge flows in virtual teams with SNA", 《JOURNAL OF KNOWLEDGE MANAGEMENT》 *
刘峤 等: "知识图谱构建技术综述", 《计算机研究与发展》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414490A (zh) * 2020-04-07 2020-07-14 中国建设银行股份有限公司 确定失联修复信息的方法、装置、电子设备和存储介质
WO2021214566A1 (en) * 2020-04-21 2021-10-28 International Business Machines Corporation Dynamically generating facets using graph partitioning
GB2610334A (en) * 2020-04-21 2023-03-01 Ibm Dynamically generating facets using graph partitioning
US11797545B2 (en) 2020-04-21 2023-10-24 International Business Machines Corporation Dynamically generating facets using graph partitioning
CN111708893A (zh) * 2020-05-15 2020-09-25 北京邮电大学 基于知识图谱的科技资源整合方法及系统
CN111768869A (zh) * 2020-09-03 2020-10-13 成都索贝数码科技股份有限公司 面向智能问答系统的医学指南图谱化构建搜索系统及方法
CN113314206A (zh) * 2021-06-08 2021-08-27 北京大数医达科技有限公司 图像显示方法、装置和终端设备
CN113314206B (zh) * 2021-06-08 2024-04-26 北京大数医达科技有限公司 图像显示方法、装置和终端设备
CN113918732A (zh) * 2021-11-19 2022-01-11 北京明略软件系统有限公司 多模态知识图谱构建方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN110111905B (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN110111905A (zh) 一种医疗知识图谱的构建系统和构建方法
US20180322954A1 (en) Method and device for constructing medical knowledge graph and assistant diagnosis method
CN109509551A (zh) 一种常见疾病智能诊断方法及系统
CN111899252B (zh) 基于人工智能的病理图像处理方法和装置
CN111666477A (zh) 一种数据处理方法、装置、智能设备及介质
Rajput et al. An accurate and noninvasive skin cancer screening based on imaging technique
CN110120055B (zh) 基于深度学习的眼底荧光造影图像无灌注区自动分割方法
Kumar et al. Redefining Retinal Lesion Segmentation: A Quantum Leap With DL-UNet Enhanced Auto Encoder-Decoder for Fundus Image Analysis
WO2020224433A1 (zh) 基于机器学习的目标对象属性预测方法及相关设备
Wu et al. Study on iris segmentation algorithm based on dense U-Net
CN112635013B (zh) 医学影像信息的处理方法、装置、电子设备和存储介质
CN116259407B (zh) 基于多模态数据的疾病诊断方法、装置、设备及介质
CN114881968A (zh) 基于深度卷积神经网络的octa图像血管分割方法、设备及介质
WO2023160264A1 (zh) 医疗数据处理方法、装置及存储介质
CN115775626A (zh) 多模态脑网络计算方法、装置、设备及存储介质
Prasad et al. Detection of ckd from ct scan images using knn algorithm and using edge detection
CN117391092A (zh) 一种基于对比学习的电子病历多模态医疗语义对齐方法
CN115089112B (zh) 卒中后认知障碍风险评估模型建立方法、装置及电子设备
CN116797817A (zh) 基于自监督图卷积模型的自闭症疾病预测技术
Li et al. Patient multi-relational graph structure learning for diabetes clinical assistant diagnosis
CN115813367A (zh) 结构功能关联的多模态脑网络计算方法、装置、设备及介质
CN115422368A (zh) 一种事件共指消解方法、装置、计算机设备和存储介质
Zhang et al. Regional context-based recalibration network for cataract recognition in AS-OCT
Chen et al. Improving adherence to heart failure management guidelines via abductive reasoning
CN117766137B (zh) 一种基于强化学习的医疗诊断结果确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096

Applicant after: Yunzhisheng Intelligent Technology Co.,Ltd.

Address before: No.101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing

Applicant before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant