CN108492887B - 医疗知识图谱构建方法及装置 - Google Patents

医疗知识图谱构建方法及装置 Download PDF

Info

Publication number
CN108492887B
CN108492887B CN201810333716.1A CN201810333716A CN108492887B CN 108492887 B CN108492887 B CN 108492887B CN 201810333716 A CN201810333716 A CN 201810333716A CN 108492887 B CN108492887 B CN 108492887B
Authority
CN
China
Prior art keywords
entity
disease
medical
knowledge
electronic medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810333716.1A
Other languages
English (en)
Other versions
CN108492887A (zh
Inventor
丁帅
李玲
杨善林
王浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201810333716.1A priority Critical patent/CN108492887B/zh
Publication of CN108492887A publication Critical patent/CN108492887A/zh
Application granted granted Critical
Publication of CN108492887B publication Critical patent/CN108492887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种医疗知识图谱构建方法及装置,能够充分利用数据驱动和知识驱动来构建知识图谱,解决临床上相同类型的医疗实体间联系不紧密的技术问题。该方法包括:通过自然语言处理技术分词从医疗资料中抽取目标实体;根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组;将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱;将构建的所述医疗知识图谱存储在Neo4j图数据库中。

Description

医疗知识图谱构建方法及装置
技术领域
本发明涉及医疗技术领域,具体地,涉及一种医疗知识图谱构建方法及装置。
背景技术
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。
目前,知识图谱在医疗领域的应用是基于医疗知识图谱的人机问答,相关技术多是通过提取用户的问题中的关键词作为知识点,并在数据库内部进行一对一的实体映射来找出知识点的对应项,然后将对应项作为答案反馈给用户。
由上可知,现有的医疗知识图谱对知识点仅建立了一对一的关系映射网,知识点与知识点之间的联系十分薄弱,无法进行知识的推理,因此其反馈给用户的答案往往并不准确,甚至缺乏针对性,所答非所问。
发明内容
本发明实施例提供一种医疗知识图谱构建方法及装置,能够充分利用数据驱动和知识驱动来构建知识图谱,解决临床上相同类型的医疗实体间联系不紧密的技术问题。
为了实现上述目的,本发明第一方面提供一种医疗知识图谱构建方法,所述方法包括:
通过自然语言处理技术分词从医疗资料中抽取目标实体;
根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组;
将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱;
将构建的所述医疗知识图谱存储在Neo4j图数据库中。
可选地,所述医疗资料包括医疗指南、专家经验和电子病历中的至少一者;和/或,
在所述根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组之前,所述方法还包括:
针对从所述医疗资料中抽取到的所述目标实体执行异构资源的整合,以进行实体对齐。
可选地,所述目标实体包括以下实体:症状、疾病、单检查;
所述指定类实体包括所述单检查实体,所述指定类的实体组包括检查组。
可选地,所述将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱,包括:
通过如下第一公式计算疾病实体到症状实体的强度指标:
Figure BDA0001628642730000021
其中,
Figure BDA0001628642730000022
|dj|表示电子病历中疾病dj的个数,|D|表示电子病历样本总数,N表示疾病类别总数;当得疾病dj会有症状sk这条知识存在于所述医疗资料中时,x=1,否则x=0,α为一个常数,|s|表示症状总类数,|skdj|表示疾病dj含有症状sk的电子病历份数;
通过如下第二公式计算疾病实体到单检查实体的强度指标:
Figure BDA0001628642730000023
其中,当用检查ei来验证疾病dj这条知识存在于所述医疗资料时,x=1,否则x=0,|E|表示单检查的总类数,|eidj|表示疾病dj含有检查ei但不包含含有ei的检查组合的电子病历份数;
通过如下第三公式计算疾病实体到检查组实体的强度指标:
Figure BDA0001628642730000031
其中,|Ei'dj|表示疾病dj含有检查组合Ei’但不包括含有Ej’的检查组合的电子病历份数,|Ej’|表示频繁项集项数为j的检查组合的类数,即:若Ej’为任意一个检查组合,且
Figure BDA0001628642730000032
则|Ei'dj|表示电子病历中患者患疾病dj,且做了Ei’检查组合,但未做检查组合Ej’的电子病历份数。
可选地,所述医疗知识图谱还包括涉及到收费的实体分别对应的费用。
本发明第二方面提供一种医疗知识图谱构建装置,所述装置包括:
知识抽取模块,用于通过自然语言处理技术分词从医疗资料中抽取目标实体;
频繁集确定模块,用于根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组;
强度指标确定模块,用于将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱;
存储模块,用于将构建的所述医疗知识图谱存储在Neo4j图数据库中。
可选地,所述医疗资料包括医疗指南、专家经验和电子病历中的至少一者;
所述装置还包括:
实体对齐模块,用于在所述频繁集确定模块根据Apriori算法确定指定类实体的频繁项集之前,针对从所述医疗资料中抽取到的所述目标实体执行异构资源的整合,以进行实体对齐。
可选地,所述目标实体包括以下实体:症状、疾病、单检查;
所述指定类实体包括所述单检查实体,所述指定类的实体组包括检查组。
可选地,所述强度指标确定模块包括:
通过如下第一公式计算疾病实体到症状实体的强度指标:
Figure BDA0001628642730000041
其中,
Figure BDA0001628642730000042
|dj|表示电子病历中疾病dj的个数,|D|表示电子病历样本总数,N表示疾病类别总数;当得疾病dj会有症状sk这条知识存在于所述医疗资料中时,x=1,否则x=0,α为一个常数,|s|表示症状总类数,|skdj|表示疾病dj含有症状sk的电子病历份数;
通过如下第二公式计算疾病实体到单检查实体的强度指标:
Figure BDA0001628642730000043
其中,当用检查ei来验证疾病dj这条知识存在于所述医疗资料时,x=1,否则x=0,|E|表示单检查的总类数,|eidj|表示疾病dj含有检查ei但不包含含有ei的检查组合的电子病历份数;
通过如下第三公式计算疾病实体到检查组实体的强度指标:
Figure BDA0001628642730000044
其中,|Ei'dj|表示疾病dj含有检查组合Ei’但不包括含有Ej’的检查组合的电子病历份数,|Ej’|表示频繁项集项数为j的检查组合的类数,即:若Ej’为任意一个检查组合,且
Figure BDA0001628642730000045
则|Ei'dj|表示电子病历中患者患疾病dj,且做了Ei’检查组合,但未做检查组合Ej’的电子病历份数。
可选地,所述医疗知识图谱还包括涉及到收费的实体分别对应的费用。
采用上述技术方案,在医疗知识图谱的构建阶段,引入频繁项集的概念,将频繁项集放入知识图谱中,从而可以得到实体组合,例如医疗检查的组合,预防手段的组合,药品组合等,加强了知识点之间的联系。并且,医疗知识的来源可以包括医疗指南、专家经验和电子病历,这样,本发明提供的技术方案可以充分的将临床电子病历和临床指南以及专家经验这些知识相结合,利用数据驱动和知识驱动来构建知识图谱,解决了临床上相同类型的医疗实体间联系不紧密的技术问题。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的一种医疗知识图谱构建方法的流程示意图;
图2为本发明实施例提供的一种实体对应本体的关系示意图;
图3是基于本发明实施例提供的技术方案构建的医疗知识图谱的示意图;
图4为本发明实施例提供的一种医疗知识图谱构建装置的结构示意图;
图5为本发明实施例提供的另一种医疗知识图谱构建装置的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明实施例提供一种医疗知识图谱构建方法,如图1所示,该方法包括:
S101、通过自然语言处理技术分词从医疗资料中抽取目标实体。
值得说明的是,实体(Entity)是指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念或联系,知识库中包含多种类别的实体,例如,针对医疗知识,实体可以包括疾病,症状,检查,检验、手术、药品、疾病影响因素、预防手段、康复手段等。并且上述医疗资料可以包括医疗指南,专家经验和电子病例,丰富了知识的来源。
自然语言处理(NLP,Natural Language Processing)是研究计算机处理人类语言的一门技术,通过句法语义分析以及信息抽取,能够对给定的文本进行分词,词性标记,命名实体识别等。从而能够精确的从海量的文本信息中抽取知识点。
S102、根据Apriori算法确定指定类实体的频繁项集,得到该指定类的实体组。
频繁项集是数据挖掘中关联分析的手段,其中,项的集合称为项集,频繁项集是指支持度大于最小支持度阈值的项集。Apriori算法能够有效地进行数据关联以及规则挖掘,该算法使用迭代方法,通过低维频繁项集产生高维频繁项集。例如,该指定类实体可以包括检查实体,通过Apriori算法可以找出所有检查的频繁项集,得到检查组合,即上述实体组为检查组合。又例如,该指定类实体还可以包括检验、药品、预防手段、康复手段等实体,则相应地实体组即为检验组、药品组、预防手段组、康复手段组等实体组。
S103、将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱。
具体地,根据预先选定的实体类别,可以预先指定实体之间的关系。示例地,目标实体包括疾病,症状以及检查三类实体,则实体之间的关系可以是以疾病为根节点,症状为疾病的下一层节点,检查为症状的下一层节点。
这样,通过医疗资源记录的关系,例如,得D1疾病会有S1症状,应进行E1检查进行确诊,可以计算得到每一节点之间的强度指标,作为节点之间边的权重。
上述只是举例说明,根据提取的实体以及具体的使用情况,可以设定其他的实体关系,本发明对此不做限定。
S104、将构建的医疗知识图谱存储在Neo4j图数据库中。
Neo4j是一个高性能的NoSQL图形数据库,它将结构化数据存储在网络上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。
采用上述方法,在医疗知识图谱的构建阶段,引入频繁项集的概念,将频繁项集放入知识图谱中,从而可以得到实体组合,例如医疗检查的组合,预防手段的组合,药品组合等,加强了知识点之间的联系。并且,医疗知识的来源可以包括医疗指南、专家经验和电子病历,这样,本发明提供的技术方案可以充分的将临床电子病历和临床指南以及专家经验这些知识相结合,利用数据驱动和知识驱动来构建知识图谱,将基于规则的知识推理与数据驱动相结合,有效利用了电子病历中抽取的知识,解决了临床上相同类型的医疗实体间联系不紧密的技术问题。
为了使本领域普通技术人员能够更加清楚的理解本发明实施例提供的技术方案,下面对上述步骤进行详细说明。
首先,所述医疗资料包括医疗指南、专家经验和电子病历中的至少一者。而在存在多个知识来源的情况下,对于异构数据源知识库中的各个实体,需要找出属于现实世界中的同一实体。因此,在上述步骤S103之前,还可以执行异构资源的整合,以进行实体对齐(Entity Alignment)。实体对齐也被称作实体匹配(Entity Matching),实体对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐。
下面以目标实体包括症状实体、疾病实体、单检查实体,指定类实体包括单检查实体,所述指定类的实体组包括检查组为例,对强度指标的计算进行说明。
图2是将疾病作为本体,其他症状实体以及检查类实体与本体之间的关系示意图,基于图2所示的关系,若疾病实体D={d1,d2,……,dn},症状实体S={s1,s2,……,sn},检查实体E={e1,e2,……,en},则疾病先验概率的计算为:
Figure BDA0001628642730000081
其中,|dj|表示电子病历中疾病dj的个数,|D|表示电子病历样本总数,N表示疾病类别总数。
则可以通过如下第一公式计算疾病实体到症状实体的强度指标:
Figure BDA0001628642730000082
当得疾病dj会有症状sk这条知识存在于所述医疗资料中时,x=1,否则x=0,α为一个常数,|s|表示症状总类数,|skdj|表示疾病dj含有症状sk的电子病历份数。
通过如下第二公式计算疾病实体到单检查实体的强度指标:
Figure BDA0001628642730000083
其中,当用检查ei来验证疾病dj这条知识存在于所述医疗资料时,x=1,否则x=0,|E|表示单检查的总类数,|eidj|表示疾病dj含有检查ei但不包含含有ei的检查组合的电子病历份数。即若Ej’为任意一个检查组合,且ei∈E'j则|eidj|表示电子病历中患者患疾病dj,且做了ei检查,但未做检查组合Ej’的电子病历份数。
进一步,通过如下第三公式计算疾病实体到检查组实体的强度指标:
Figure BDA0001628642730000084
其中,|Ei'dj|表示疾病dj含有检查组合Ei’但不包括含有Ej’的检查组合的电子病历份数,|Ej’|表示频繁项集项数为j的检查组合的类数,即:若Ej’为任意一个检查组合,且
Figure BDA0001628642730000091
则|Ei'dj|表示电子病历中患者患疾病dj,且做了Ei’检查组合,但未做检查组合Ej’的电子病历份数。
本领域技术人员应该知悉,上述只是对举例说明,在具体实施时,从医疗资料抽取的目标实体包括的实体可以更多,相应地,各实体之间的强度指标也可以参照以上描述的计算方式,此处不再赘述。
例如,在本发明实施例的一种可能的实现方式中,所述目标实体还可以包括涉及到收费的实体分别对应的费用,例如,每一单检查以及检查组对应的检查费用,所述检查费用可以是从医院费用标准中获取到的,这样,基于构建的医疗知识谱图,可以进行疾病检查的推荐。或者,还可以包括检验,药品,治疗手段等单实体及其各自的实体组的费用。
图3基于本发明实施例提供的技术方案构建的医疗知识图谱的示意图,包括症状实体,疾病实体,单检查实体,检查组实体,以及每一单检查以及检查组实体对应的检查费用。其中,每条边上都有一个强度指标,p表示强度指标,例如0.36,0.56等,图中未一一示出。此外,医疗知识图谱还可能包括的其他实体也未一一示出。
采用本发明实施例提供的技术方案,在知识图谱的构建阶段,节点权重的确定没有仅仅依赖于统计思想,而是与医疗指南和专家经验相结合,并利用拉普拉修斯的方法修正了贝叶斯统计的权重,边的先验概率强度计算时同样使用拉普拉修斯修正,并引入频繁项集的概念,将频繁项集放入知识图谱中,使得知识点之间的关系更加准确详尽。
基于相同的发明构思,本公开实施例还提供一种医疗知识图谱构建装置40,如图4所示,所述装置40包括:
知识抽取模块401,用于通过自然语言处理技术分词从医疗资料中抽取目标实体;
频繁集确定模块402,用于根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组;
强度指标确定模块403,用于将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱;
存储模块404,用于将构建的所述医疗知识图谱存储在Neo4j图数据库中。
可选地,所述医疗资料包括医疗指南、专家经验和电子病历中的至少一者。在医疗治疗包括异构资源的情况下,所述装置40还可以包括:实体对齐模块(图4中未示出),用于在所述频繁集确定模块402根据Apriori算法确定指定类实体的频繁项集之前,针对从所述医疗资料中抽取到的所述目标实体执行异构资源的整合,以进行实体对齐。
可选地,所述目标实体包括以下实体:症状、疾病、单检查;
所述指定类实体包括所述单检查实体,所述指定类的实体组包括检查组。
可选地,所述强度指标确定模块包括:
通过如下第一公式计算疾病实体到症状实体的强度指标:
Figure BDA0001628642730000101
其中,
Figure BDA0001628642730000102
|dj|表示电子病历中疾病dj的个数,|D|表示电子病历样本总数,N表示疾病类别总数;当得疾病dj会有症状sk这条知识存在于所述医疗资料中时,x=1,否则x=0,α为一个常数,|s|表示症状总类数,|skdj|表示疾病dj含有症状sk的电子病历份数;
通过如下第二公式计算疾病实体到单检查实体的强度指标:
Figure BDA0001628642730000103
其中,当用检查ei来验证疾病dj这条知识存在于所述医疗资料时,x=1,否则x=0,|E|表示单检查的总类数,|eidj|表示疾病dj含有检查ei但不包含含有ei的检查组合的电子病历份数;
通过如下第三公式计算疾病实体到检查组实体的强度指标:
Figure BDA0001628642730000111
其中,|Ei'dj|表示疾病dj含有检查组合Ei’但不包括含有Ej’的检查组合的电子病历份数,|Ej’|表示频繁项集项数为j的检查组合的类数,即:若Ej’为任意一个检查组合,且
Figure BDA0001628642730000112
则|Ei'dj|表示电子病历中患者患疾病dj,且做了Ei’检查组合,但未做检查组合Ej’的电子病历份数。
可选地,所述医疗知识图谱还包括涉及到收费的实体分别对应的费用。
本领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述装置,在医疗知识图谱的构建阶段,引入频繁项集的概念,将频繁项集放入知识图谱中,从而可以得到实体组合,例如医疗检查的组合,预防手段的组合,药品组合等,加强了知识点之间的联系。并且,医疗知识的来源可以包括医疗指南、专家经验和电子病历,这样,本发明提供的技术方案可以充分的将临床电子病历和临床指南以及专家经验这些知识相结合,利用数据驱动和知识驱动来构建知识图谱,将基于规则的知识推理与数据驱动相结合,有效利用了电子病历中抽取的知识,解决了临床上相同类型的医疗实体间联系不紧密的技术问题。
本发明实施例提供一种医疗知识图谱构建装置50,如图5所示,该医疗知识图谱构建装置50包括:
处理器(processor)51、通信接口(Communications Interface)52、存储器(memory)53和通信总线54;其中,所述处理器51、所述通信接口52和所述存储器53通过所述通信总线54完成相互间的通信。
处理器51可能是一个多核中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器53用于存放程序代码,所述程序代码包括计算机操作指令和网络流图。存储器53可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器53也可以是存储器阵列。存储器53还可能被分块,并且所述块可按一定的规则组合成虚拟卷。
所述通信接口52,用于实现这些装置之间的连接通信。
所述处理器51用于执行所述存储器63中的程序代码,以实现以下操作:
通过自然语言处理技术分词从医疗资料中抽取目标实体;
根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组;
将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱;
将构建的所述医疗知识图谱存储在Neo4j图数据库中。
可选地,所述医疗资料包括医疗指南、专家经验和电子病历中的至少一者;和/或,
在所述根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组之前,所述方法还包括:
针对从所述医疗资料中抽取到的所述目标实体执行异构资源的整合,以进行实体对齐。
可选地,所述目标实体包括以下实体:症状、疾病、单检查;所述指定类实体包括所述单检查实体,所述指定类的实体组包括检查组。
可选地,所述将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱,包括:
通过如下第一公式计算疾病实体到症状实体的强度指标:
Figure BDA0001628642730000131
其中,
Figure BDA0001628642730000132
|dj|表示电子病历中疾病dj的个数,|D|表示电子病历样本总数,N表示疾病类别总数;当得疾病dj会有症状sk这条知识存在于所述医疗资料中时,x=1,否则x=0,α为一个常数,|s|表示症状总类数,|skdj|表示疾病dj含有症状sk的电子病历份数;
通过如下第二公式计算疾病实体到单检查实体的强度指标:
Figure BDA0001628642730000133
其中,当用检查ei来验证疾病dj这条知识存在于所述医疗资料时,x=1,否则x=0,|E|表示单检查的总类数,|eidj|表示疾病dj含有检查ei但不包含含有ei的检查组合的电子病历份数;
通过如下第三公式计算疾病实体到检查组实体的强度指标:
Figure BDA0001628642730000134
其中,|Ei'dj|表示疾病dj含有检查组合Ei’但不包括含有Ej’的检查组合的电子病历份数,|Ej’|表示频繁项集项数为j的检查组合的类数,即:若Ej’为任意一个检查组合,且
Figure BDA0001628642730000135
则|Ei'dj|表示电子病历中患者患疾病dj,且做了Ei’检查组合,但未做检查组合Ej’的电子病历份数。
可选地,所述医疗知识图谱还包括涉及到收费的实体分别对应的费用。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所发明的内容。

Claims (6)

1.一种医疗知识图谱构建方法,其特征在于,所述方法包括:
通过自然语言处理技术分词从医疗资料中抽取目标实体;
根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组;
将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱;
将构建的所述医疗知识图谱存储在Neo4j图数据库中;
所述目标实体包括以下实体:症状、疾病、单检查;
所述指定类实体包括所述单检查实体,所述指定类的实体组包括检查组;
将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱,包括:
通过如下第一公式计算疾病实体到症状实体的强度指标:
Figure FDA0002561656520000011
其中,
Figure FDA0002561656520000012
|dj|表示电子病历中疾病dj的个数,|D|表示电子病历样本总数,N表示疾病类别总数;当得疾病dj会有症状sk这条知识存在于所述医疗资料中时,x=1,否则x=0,α为一个常数,|s|表示症状总类数,|skdj|表示疾病dj含有症状sk的电子病历份数;
通过如下第二公式计算疾病实体到单检查实体的强度指标:
Figure FDA0002561656520000013
其中,当用检查ei来验证疾病dj这条知识存在于所述医疗资料时,x=1,否则x=0,|E|表示单检查的总类数,|eidj|表示疾病dj含有检查ei但不包含含有ei的检查组合的电子病历份数;
通过如下第三公式计算疾病实体到检查组实体的强度指标:
Figure FDA0002561656520000021
其中,|E′idj|表示疾病dj含有检查组合Ei’但不包括含有Ej’的检查组合的电子病历份数,|Ej’|表示频繁项集项数为j的检查组合的类数,即:若Ej’为任意一个检查组合,且
Figure FDA0002561656520000022
则|E′idj|表示电子病历中患者患疾病dj,且做了Ei’检查组合,但未做检查组合Ej’的电子病历份数。
2.根据权利要求1所述的方法,其特征在于,所述医疗资料包括医疗指南、专家经验和电子病历中的至少一者;和/或,
在所述根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组之前,所述方法还包括:
针对从所述医疗资料中抽取到的所述目标实体执行异构资源的整合,以进行实体对齐。
3.根据权利要求1所述的方法,其特征在于,所述医疗知识图谱还包括涉及到收费的实体分别对应的费用。
4.一种医疗知识图谱构建装置,其特征在于,所述装置包括:
知识抽取模块,用于通过自然语言处理技术分词从医疗资料中抽取目标实体;
频繁集确定模块,用于根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组;
强度指标确定模块,用于将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱;
存储模块,用于将构建的所述医疗知识图谱存储在Neo4j图数据库中;
所述目标实体包括以下实体:症状、疾病、单检查;
所述指定类实体包括所述单检查实体,所述指定类的实体组包括检查组;
所述强度指标确定模块包括:
通过如下第一公式计算疾病实体到症状实体的强度指标:
Figure FDA0002561656520000031
其中,
Figure FDA0002561656520000032
|dj|表示电子病历中疾病dj的个数,|D|表示电子病历样本总数,N表示疾病类别总数;当得疾病dj会有症状sk这条知识存在于所述医疗资料中时,x=1,否则x=0,α为一个常数,|s|表示症状总类数,|skdj|表示疾病dj含有症状sk的电子病历份数;
通过如下第二公式计算疾病实体到单检查实体的强度指标:
Figure FDA0002561656520000033
其中,当用检查ei来验证疾病dj这条知识存在于所述医疗资料时,x=1,否则x=0,|E|表示单检查的总类数,|eidj|表示疾病dj含有检查ei但不包含含有ei的检查组合的电子病历份数;
通过如下第三公式计算疾病实体到检查组实体的强度指标:
Figure FDA0002561656520000034
其中,|E′idj|表示疾病dj含有检查组合Ei’但不包括含有Ej’的检查组合的电子病历份数,|Ej’|表示频繁项集项数为j的检查组合的类数,即:若Ej’为任意一个检查组合,且
Figure FDA0002561656520000035
则|E′idj|表示电子病历中患者患疾病dj,且做了Ei’检查组合,但未做检查组合Ej’的电子病历份数。
5.根据权利要求4所述的装置,其特征在于,所述医疗资料包括医疗指南、专家经验和电子病历中的至少一者;
所述装置还包括:
实体对齐模块,用于在所述频繁集确定模块根据Apriori算法确定指定类实体的频繁项集之前,针对从所述医疗资料中抽取到的所述目标实体执行异构资源的整合,以进行实体对齐。
6.根据权利要求4所述的装置,其特征在于,所述医疗知识图谱还包括涉及到收费的实体分别对应的费用。
CN201810333716.1A 2018-04-13 2018-04-13 医疗知识图谱构建方法及装置 Active CN108492887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810333716.1A CN108492887B (zh) 2018-04-13 2018-04-13 医疗知识图谱构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810333716.1A CN108492887B (zh) 2018-04-13 2018-04-13 医疗知识图谱构建方法及装置

Publications (2)

Publication Number Publication Date
CN108492887A CN108492887A (zh) 2018-09-04
CN108492887B true CN108492887B (zh) 2020-09-22

Family

ID=63315914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810333716.1A Active CN108492887B (zh) 2018-04-13 2018-04-13 医疗知识图谱构建方法及装置

Country Status (1)

Country Link
CN (1) CN108492887B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522416A (zh) * 2018-10-19 2019-03-26 广东工业大学 一种金融风险控制知识图谱的构建方法
CN109635121A (zh) * 2018-11-07 2019-04-16 平安科技(深圳)有限公司 医疗知识图谱创建方法及相关装置
CN109545373A (zh) * 2018-11-08 2019-03-29 新博卓畅技术(北京)有限公司 一种人体疾病症状特征自动抽取方法、系统及设备
CN109559822A (zh) * 2018-11-12 2019-04-02 平安科技(深圳)有限公司 智能初诊方法、装置、计算机设备及存储介质
CN109726293B (zh) * 2018-11-14 2020-12-01 数据地平线(广州)科技有限公司 一种因果事件图谱构建方法、系统、装置及存储介质
CN109543047A (zh) * 2018-11-21 2019-03-29 焦点科技股份有限公司 一种基于医疗领域网站的知识图谱构建方法
CN109657069B (zh) * 2018-12-11 2021-03-23 北京百度网讯科技有限公司 知识图谱的生成方法及其装置
CN109801705A (zh) * 2018-12-12 2019-05-24 平安科技(深圳)有限公司 治疗推荐方法、系统、装置及存储介质
CN109767842B (zh) * 2018-12-13 2023-08-22 平安科技(深圳)有限公司 一种疾病预警方法、疾病预警装置及计算机可读存储介质
CN109766445B (zh) * 2018-12-13 2024-03-26 平安科技(深圳)有限公司 一种知识图谱构建方法及数据处理装置
CN109712704B (zh) * 2018-12-14 2021-08-13 北京百度网讯科技有限公司 方案的推荐方法及其装置
CN109616169B (zh) * 2018-12-24 2020-11-13 广州天鹏计算机科技有限公司 相似患者挖掘方法、装置、计算机设备和存储介质
CN109670054B (zh) * 2018-12-26 2020-11-10 医渡云(北京)技术有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN110111905B (zh) * 2019-04-24 2021-09-03 云知声智能科技股份有限公司 一种医疗知识图谱的构建系统和构建方法
CN110277147A (zh) * 2019-04-25 2019-09-24 胡盛寿 一种实现病案诊断智能化编目的系统及方法
CN110175227B (zh) * 2019-05-10 2021-03-02 神思电子技术股份有限公司 一种基于组队学习和层级推理的对话辅助系统
CN110379520A (zh) * 2019-06-18 2019-10-25 北京百度网讯科技有限公司 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质
CN110390003A (zh) * 2019-06-19 2019-10-29 北京百度网讯科技有限公司 基于医疗的问答处理方法及系统、计算机设备及可读介质
CN110413798A (zh) * 2019-07-24 2019-11-05 厦门快商通科技股份有限公司 一种医疗美容知识图谱自动构建方法、系统及存储介质
CN110362693A (zh) * 2019-07-24 2019-10-22 广东电网有限责任公司 一种业扩工程图纸知识图谱构建方法
CN110569372B (zh) * 2019-09-20 2022-08-30 四川大学 一种心脏病大数据知识图谱系统的构建方法
CN110929752B (zh) * 2019-10-18 2023-06-20 平安科技(深圳)有限公司 基于知识驱动和数据驱动的分群方法及相关设备
CN112836058A (zh) * 2019-11-25 2021-05-25 北京搜狗科技发展有限公司 医疗知识图谱建立方法及装置、医疗知识图谱查询方法及装置
CN111078875B (zh) * 2019-12-03 2022-12-13 哈尔滨工程大学 一种基于机器学习的从半结构化文档中提取问答对的方法
CN113012803A (zh) * 2019-12-19 2021-06-22 京东方科技集团股份有限公司 计算机设备、系统、可读存储介质及医学数据分析方法
CN113496332B (zh) * 2020-04-02 2024-01-26 中国电信股份有限公司 工业互联网故障预测方法和系统
CN111680150A (zh) * 2020-06-05 2020-09-18 深圳市铭数信息有限公司 一种信息处理方法、装置、设备和存储介质
CN111767410B (zh) * 2020-06-30 2023-05-30 深圳平安智慧医健科技有限公司 临床医疗知识图谱的构建方法、装置、设备及存储介质
CN112434089A (zh) * 2020-12-23 2021-03-02 龙马智芯(珠海横琴)科技有限公司 一种频繁项挖掘方法、装置、服务器及可读存储介质
CN112347204B (zh) * 2021-01-08 2021-05-14 药渡经纬信息科技(北京)有限公司 药物研发知识库构建方法及装置
CN113590775B (zh) * 2021-06-22 2023-07-21 北京百度网讯科技有限公司 诊疗数据的处理方法、装置、电子设备及存储介质
CN113505236B (zh) * 2021-06-29 2023-08-04 朱一帆 医疗知识图谱的构建方法、装置、设备及计算机可读介质
CN113972010B (zh) * 2021-10-27 2024-06-21 广东工业大学 一种基于知识图谱和自适应机制的辅助疾病推理系统
CN114078576B (zh) * 2021-11-19 2023-07-25 中国人民解放军总医院 临床辅助决策方法、装置、设备及介质
CN116313118B (zh) * 2022-06-07 2023-11-14 拉萨卓友峰科技有限公司 应用于医疗数据处理的知识图谱构建方法
CN116737945B (zh) * 2023-05-10 2024-05-07 百洋智能科技集团股份有限公司 一种患者emr知识图谱映射方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280576A1 (en) * 2013-03-14 2014-09-18 Google Inc. Determining activities relevant to groups of individuals
CN107145744B (zh) * 2017-05-08 2018-03-02 合肥工业大学 医学知识图谱的构建方法、装置及辅助诊断方法
CN107729497B (zh) * 2017-10-20 2020-08-14 同济大学 一种基于知识图谱的词嵌入深度学习方法
CN107704637B (zh) * 2017-11-20 2019-12-13 中国人民解放军国防科技大学 一种面向突发事件的知识图谱构建方法

Also Published As

Publication number Publication date
CN108492887A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108492887B (zh) 医疗知识图谱构建方法及装置
CN111986770B (zh) 药方用药审核方法、装置、设备及存储介质
CN108565019A (zh) 多学科适用的临床检查组合推荐方法及装置
CN109670054B (zh) 知识图谱构建方法、装置、存储介质及电子设备
US8949079B2 (en) Patient data mining
US11222175B2 (en) Structured term recognition
US11275892B2 (en) Traversal-based sentence span judgements
CN112151170A (zh) 用于计算用作医疗决策支持的医疗建议的分数的方法
CN111382275A (zh) 医疗知识图谱的构建方法、装置、介质及电子设备
Li et al. Reliable medical diagnosis from crowdsourcing: Discover trustworthy answers from non-experts
US20200410050A1 (en) Deep learning approach to computing spans
Erraguntla et al. Inference of missing ICD 9 codes using text mining and nearest neighbor techniques
CN113707253A (zh) 医疗方案推荐方法、装置、设备及介质
Chen et al. An approach for transgender population information extraction and summarization from clinical trial text
US11334720B2 (en) Machine learned sentence span inclusion judgments
CN113488157B (zh) 智能导诊处理方法、装置、电子设备及存储介质
CN111177356A (zh) 一种酸碱指标医疗大数据分析方法及系统
Chandra et al. Natural language Processing and Ontology based Decision Support System for Diabetic Patients
CN109522331B (zh) 以个人为中心的区域化多维度健康数据处理方法及介质
Sarrouti et al. A new and efficient method based on syntactic dependency relations features for ad hoc clinical question classification
Henao et al. Patient clustering with uncoded text in electronic medical records
CN113066531B (zh) 风险预测方法、装置、计算机设备及存储介质
CN113689924A (zh) 相似病历检索方法、装置、电子设备及可读存储介质
Otmani et al. Ontology-based approach to enhance medical web information extraction
CN114649071A (zh) 一种基于真实世界数据的消化性溃疡治疗方案的预测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant