CN110427491A - 一种基于电子病历的医学知识图谱构建方法及装置 - Google Patents

一种基于电子病历的医学知识图谱构建方法及装置 Download PDF

Info

Publication number
CN110427491A
CN110427491A CN201910598980.2A CN201910598980A CN110427491A CN 110427491 A CN110427491 A CN 110427491A CN 201910598980 A CN201910598980 A CN 201910598980A CN 110427491 A CN110427491 A CN 110427491A
Authority
CN
China
Prior art keywords
symptom
entity
binary
details
health record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910598980.2A
Other languages
English (en)
Other versions
CN110427491B (zh
Inventor
胡茜
柯登峰
刘宁
王静
吴志超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aidoctor Intelligent Medical Technology Co Ltd
Original Assignee
Beijing Aidoctor Intelligent Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aidoctor Intelligent Medical Technology Co Ltd filed Critical Beijing Aidoctor Intelligent Medical Technology Co Ltd
Priority to CN201910598980.2A priority Critical patent/CN110427491B/zh
Publication of CN110427491A publication Critical patent/CN110427491A/zh
Application granted granted Critical
Publication of CN110427491B publication Critical patent/CN110427491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明实施例提供了一种基于电子病历的医学知识图谱构建方法及装置,方法包括:在电子病历中以身体部位为锚点抽取症状实体;为所述症状实体构建症状与症状细节的二元实体对;为所述二元实体对确定对应的关系类型;以所述二元实体对中的两个实体为节点,以所述二元实体对的关系类型为边,构建医学知识图谱。本发明实施例在电子病历中以身体部位为锚点抽取症状实体,因此可以得到较为全面的症状实体抽取结果,从而提高了医学知识图谱中症状实体的完备性,进而提高了医学知识图谱的参考价值。此外,本发明还构建了症状与症状细节的二元实体对以及对应的关系类型,从而可以根据医学知识图谱分析症状与症状细节之间的医学对应关系。

Description

一种基于电子病历的医学知识图谱构建方法及装置
技术领域
本发明实施例涉及计算机技术领域,具体涉及一种基于电子病历 的医学知识图谱构建方法及装置。
背景技术
知识图谱相对于传统的知识表示,具有语义丰富、结构友好、海 量规模、质量精良等特点,将医学知识表现在知识图谱中,可以利用 知识图谱的优点及相关的技术进行疾病推理应用。
目前在基于电子病历的医学知识图谱构建过程中,存在症状实体 提取不准、漏提或错提的问题,进而影响后续构建的医学知识图谱的 数据完备性,进而降低了医学知识图谱的参考价值。
发明内容
针对现有技术中的问题,本发明实施例提供一种基于电子病历的 医学知识图谱构建方法及装置。
第一方面,本发明实施例提供了一种基于电子病历的医学知识图 谱构建方法,包括:
在电子病历中以身体部位为锚点抽取症状实体;
为所述症状实体构建症状与症状细节的二元实体对;
为所述二元实体对确定对应的关系类型;
以所述二元实体对中的两个实体为节点,以所述二元实体对的关 系类型为边,构建医学知识图谱。
进一步地,所述在电子病历中以身体部位为锚点抽取症状实体, 具体包括:
对电子病历进行分句、分词、词性标注、依存句法分析和语义角 色标注;
在句子中找到表示身体部位的词或词组并以此为锚点,再根据依 存句法分析结果,找到和身体部位上下关联的词或词组,将表示身体 部位的词或词组与和身体部位上下关联的词或词组组成新的词组,并 将所述新的词组作为症状实体。
进一步地,所述为所述症状实体构建症状与症状细节的二元实体 对,具体包括:
根据句子中核心谓语与语义角色标注结果构建症状与症状细节的 二元实体对。
进一步地,所述为所述症状实体构建症状与症状细节的二元实体 对,具体包括:
根据句子中核心谓语与语义角色标注结果确定症状细节,然后再 根据依存句法分析结果分析所述症状细节所描述的症状,最后将所述 症状细节和所述症状组成二元实体对。
进一步地,在根据依存句法分析结果找不出所述症状细节所描述 的症状时,采用就近原则,选择与当前症状细节左边距离最近的症状 作为对应症状,然后将所述症状细节与对应症状组成二元实体对。
进一步地,所述为所述二元实体对确定对应的关系类型,具体包 括:
根据预先定义的关系抽取规则,以及,所述实体对中的症状细节 实体和症状实体,以及,包含所述症状细节实体和所述症状实体的句 子中出现的用于表示所述症状细节实体和所述症状实体之间关系的关 系词,根据规则匹配的方法确定与所述二元实体对对应的关系类型。
进一步地,在所述在电子病历中以身体部位为锚点抽取症状实体 之后,以及,在所述为所述症状实体构建症状与症状细节的二元实体 对之前,所述方法还包括:
将抽取得到的症状实体转化为标准症状实体;
其中,所述将抽取得到的症状实体转化为标准症状实体,具体包 括:
根据预设标准医学命名实体字典对所述抽取得到的症状实体进行 相似度匹配,根据相似度匹配结果将抽取得到的症状实体转化为标准 症状实体;
或,
根据预设症状同义词表对所述抽取得到的症状实体进行同义词映 射,根据同义词映射结果将抽取得到的症状实体转化为标准症状实体。
第二方面,本发明实施例还提供了一种基于电子病历的医学知识 图谱构建装置,包括:
抽取模块,用于在电子病历中以身体部位为锚点抽取症状实体;
第一构建模块,用于为所述症状实体构建症状与症状细节的二元 实体对;
确定模块,用于为所述二元实体对确定对应的关系类型;
第二构建模块,用于以所述二元实体对中的两个实体为节点,以 所述二元实体对的关系类型为边,构建医学知识图谱。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处 理器执行所述程序时实现如第一方面所述基于电子病历的医学知识图 谱构建方法的步骤。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介 质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第 一方面所述基于电子病历的医学知识图谱构建方法的步骤。
由上述技术方案可知,本发明实施例提供的基于电子病历的医学 知识图谱构建方法及装置,先在电子病历中以身体部位为锚点抽取症 状实体,然后基于电子病历为所述症状实体构建症状与症状细节的二 元实体对,接着为所述二元实体对确定对应的关系类型,最后以所述 二元实体对中的两个实体为节点,以所述二元实体对的关系类型为边, 构建医学知识图谱。由于医学中出现的症状多数为与身体部位相关的 症状,因此,在电子病历中以身体部位为锚点抽取症状实体,可以得 到较为全面的症状实体抽取结果,从而提高了医学知识图谱中症状实 体的完备性,进而提高了医学知识图谱的参考价值。此外,本发明实 施例还构建了症状与症状细节的二元实体对以及对应的关系类型,从 而使得最终构建得到的医学知识图谱中包含有症状与症状细节之间的 医学原理对应关系,从而可以根据构建得到的医学知识图谱分析某些 症状与某些症状细节之间的医学原理对应关系。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通 技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图 获得其他的附图。
图1是本发明一实施例提供的基于电子病历的医学知识图谱构 建方法的流程图;
图2是本发明另一实施例提供的基于电子病历的医学知识图谱构 建装置的结构示意图;
图3是本发明又一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结 合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有 作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护 的范围。
图1示出了本发明实施例提供的基于电子病历的医学知识图谱构 建方法的流程图。如图1所示,本发明实施例提供的基于电子病历的 医学知识图谱构建方法包括如下步骤:
步骤101:在电子病历中以身体部位为锚点抽取症状实体。
在本步骤中,由于医学中出现的症状多数为与身体部位相关的症 状,因此,在电子病历中以身体部位为锚点抽取症状实体,可以得到 较为全面的症状实体抽取结果。例如,假设电子病历中有这么一段文 字:患者近10年来反复出现头疼,以右侧表颞部跳痛为主,疼痛程度 为轻中度,活动可使头痛加重。伴腹痛,腹痛为脐周绞痛。在本实施 例中,在对上面这段文字分析后可知,其中涉及的身体部位为头和腹, 因此以身体部位(头和腹)为锚点抽取症状实体,可以获取症状实体 头疼和腹痛。由此可见,通过以身体部位为锚点抽取症状实体,不但 简单方便,而且不容易发生错提或漏提的问题,从而可以简单方便的 得到较为全面的症状实体抽取结果。
在本步骤中,在电子病历中以身体部位为锚点抽取症状实体时, 一般需要先对电子病历进行分句、分词、词性标注、依存句法分析和 语义角色标注,然后在句子中找到表示身体部位的词或词组并以此为 锚点,再根据依存句法分析结果,找到和身体部位上下关联的词或词 组,将表示身体部位的词或词组与和身体部位上下关联的词或词组组 成新的词组,并将所述新的词组作为症状实体。
具体来说,对电子病历以句号、问号、分号、空格等为标志进行 分句,然后再进行分词、依存句法分析与语义角色标注,对文本词性 与结构进行拆分与理解,分析结果将用于后续症状等医学命名实体抽 取以及症状与症状细节之间关系的抽取。由于该部分对电子病历进行 分句、分词、词性标注、依存句法分析和语义角色标注等内容属于本 技术领域的常规处理方式,故本实施例对此不再做详细描述。举例来 说,词性标注:就是给句子中的每个词一个词性类别,有名词、动词、 形容词、副词等等。
在对电子病历进行分句、分词、词性标注、依存句法分析和语义 角色标注之后,在句子中找到表示身体部位的词或词组并以此为锚点, 再根据依存句法分析结果,找到和身体部位上下关联的词或词组,将 表示身体部位的词或词组与和身体部位上下关联的词或词组组成新的 词组,并将所述新的词组作为症状实体。例如,假设电子病历中的一 段文字为:患者近10年来反复出现头疼,以右侧表颞部跳痛为主,疼 痛程度为轻中度,活动可使头痛加重。伴腹痛,腹痛为脐周绞痛。则 先对上面这句话进行分句、分词、词性标注、依存句法分析和语义角 色标注之后,找到表示身体部位的词或词组如“头”并以此为锚点, 找其上下依存关系,根据其上下依存关系,找到和身体部位“头”上 下关联的词“疼”和“痛”,将“头”和“疼”以及“头”和“痛”组 成新的词组“头疼”和“头痛”,并将所述新的词组“头疼”和“头痛” 作为症状实体。由于“头疼”和“头痛”实际上表达的是一个含义, 因此可以保留其中一个作为症状实体。类似地,还可以按照同样的方 式确定出“腹痛”这个症状实体。
步骤102:为所述症状实体构建症状与症状细节的二元实体对。
在本步骤中,在以身体部位为锚点获取症状实体后,还为获取的 症状实体构建了症状与症状细节的二元实体对,从而可以在后续构建 的医学知识图谱中体现症状与症状细节的相互关系。
在本步骤中,可以根据句子中核心谓语与语义角色标注结果直接 构建症状与症状细节的二元实体对。例如,对于“感冒诱发咽痛”这 句话,其核心谓语为“诱发”,然后通过语义角色标注确定核心谓语的 施事者为“感冒”,受事者为“咽痛”,从而确定[咽痛,感冒]为一对二 元实体对。
在本步骤中,除了根据句子中核心谓语与语义角色标注结果直接 构建症状与症状细节的二元实体对外,还可以根据句子中核心谓语与 语义角色标注结果确定症状细节实体,然后再根据依存句法分析结果 分析所述症状细节实体所描述的症状实体,最后将所述症状细节实体 和所述症状实体组成二元实体对。
例如,对于“伴腹痛,为脐周绞痛”,因为是以逗号分隔的短句来 做处理,所以对于短句“为脐周绞痛”,只能找到症状细节“脐周”和 “绞痛”,无法找到其对应的症状,而通过依存句法分析,能知道“脐 周绞痛”是依存于前面的“腹痛”,所以可以知道“脐周绞痛”是对症 状“腹痛”的描述,从而找到相关二元实体对[腹痛,脐周]和[腹痛, 绞痛]。
此外,在本实施例中,如果根据依存句法分析结果找不出症状细 节所描述的症状时,就选择就近原则,即选择与当前症状细节左边距 离最近的症状为对应症状,将该症状细节与找到的症状组成二元实体 对。需要说明的是,就近原则,是基于对医生病历书写格式和规则总 结后确定的,由于医生书写病历时首先会表明患者有某种症状,接着 会描述该症状具体的多个细节。因此,在当前短句中没有找到相应的 症状时,一般选择之前给出的最近的症状,这种处理方式的优点是对 于症状的查找非常简单明确。
需要说明的是,如果不通过核心谓词以及语义角色标注也可以确 定症状细节,但会丢失一些细节,比如“头痛、咳嗽5天。”,如果通过 语义角色标注的方法,知道“5天”是表示“头痛”和“咳嗽”的时间, 而不通过核心谓词以及语义角色标注的话,可能只会找到“5天”是“咳 嗽”的时间。
由此可知,在本实施例中,依据核心谓词与语义角色标注完成二 元实体对的构建,一方面可以精准的提取二元实体对,避免对症状细 节的丢失;另一方面充分考虑了中文语言的特点,有更好的扩展性, 也很能方便地提取除后续介绍的关系类型之外的其他关系类型。
在本实施例中,对于上述病历中的这句话“患者近10年来反复出 现头疼,以右侧表颞部跳痛为主,疼痛程度为轻中度,活动可使头痛 加重。伴腹痛,腹痛为脐周绞痛”,首先进行分句处理后得到多个短句: “患者近10年来反复出现头疼”、“以右侧表颞部跳痛为主”、“疼痛程 度为轻中度”、“活动可使头痛加重”、“伴腹痛,腹痛为脐周绞痛”。然 后对每个短句进行核心谓语分析,如对于“患者近10年来反复出现头 疼”来说,核心谓语为“出现”;对于“以右侧表颞部跳痛为主”来说, 核心谓语为“以…为主”;对于“活动可使头痛加重”来说,核心谓语 为“使…加重”;对于“腹痛为脐周绞痛”来说,核心谓语为“为”。 在找到核心谓语后,再根据语义角色标注结果(核心谓语的施事者、 受事者、时间、地点和状态等),可以找到与症状“头疼”和“腹痛” 分别对应的症状细节为“近10年”、“右侧表颞部”、“跳痛”、“活动”、 “脐周”、“绞痛”等等,最后必要时再结合依存句法分析结果或就近 原则确定该句话中存在的症状与症状细节的二元实体对为[头疼,近10 年],[头疼,右侧表颞部],[头疼,跳痛],[头疼,活动],[腹痛,脐 周],[腹痛,绞痛]等。
步骤103:为所述二元实体对确定对应的关系类型。
在本步骤中,由于在构建医学知识图谱时需要完整的实体关系, 而完整的实体关系不但包括二元实体对,还包括二元实体对的关系类 型,因此,在步骤102构建完所述二元实体对后,本步骤103需要确定 所述二元实体对中两个实体的关系类型。
在本步骤中,在为所述二元实体对确定对应的关系类型时,可以 根据预先定义的关系抽取规则,以及,所述实体对中的症状细节实体 和症状实体,以及,包含所述症状细节实体和所述症状实体的句子中 出现的用于表示所述症状细节实体和所述症状实体之间关系的关系 词,根据规则匹配的方法确定与所述二元实体对对应的关系类型。
举例来说,可以根据医生病历书写格式与习惯,预先定义一些关 系抽取规则,例如,根据病历中的这句话:“XX天前出现某症状”或 者“某症状XX天”,可以定义一个规则为:“时间+出现+症状->病程” 或者“症状+时间->病程”。因此,当病历中满足该规则的文本出现时, 可以将症状与时间抽取出来,组成二元实体对,并为该二元实体对确 定对应的关系类型为病程。例如,对于病历中的这么一句话“一个月 前出现眼睛模糊”,可以按照上面步骤101介绍的以身体部位为锚点的 症状抽取方式得到症状为“眼睛模糊”,按照上述步骤102介绍的先找 到核心谓语,再根据之前的语义角色标注结果,确定由症状与症状细 节组成的二元实体对为[眼睛模糊,一个月]。接着,通过对“一个月前 出现眼睛模糊”这句话分析得到表示一个月和眼睛模糊之间关系的关 系词为出现,因此根据预先定义好的关系抽取规则:“时间+出现+症状 ->病程”或者“症状+时间->病程”可以得到二元实体对[眼睛模糊, 一个月]的关系类型为病程。
又如根据病历中的这句话:“症状细节诱发症状”,可以预先定义 一个规则为:“症状细节+诱发+症状”。因此,当病历中满足该规则的 文本出现时,可以将症状与症状细节抽取出来,组成二元实体对,并 为该二元实体对确定对应的关系类型为诱因。例如,对于病历中的这 么一句话“感冒诱发咽痛”,可以按照上面步骤101介绍的以身体部位 为锚点的症状抽取方式得到症状为“咽痛”,按照上述步骤102介绍的 先找到核心谓语“诱发”,再根据之前的语义角色标注结果,确定诱发 的施事者为“感冒”,受事者为“咽痛”,从而确定由症状与症状细节 组成的二元实体对为[咽痛,感冒]。接着,通过对“感冒诱发咽痛”这 句话分析得到表示感冒和咽痛之间关系的关系词为诱发,因此根据预 先定义好的关系抽取规则:“症状细节+诱发+症状”,确定二元实体对 [咽痛,感冒]的关系类型为诱因,且感冒是咽痛的诱因。
又如根据病历中的这句话:“动作XX可使症状加重”,可以预先定 义一个规则为:“症状细节+加重+症状”或者“症状细节+使+症状+加 重”。因此,当病历中满足该规则的文本出现时,可以将动作XX与症 状抽取出来,组成二元实体对,并为该二元实体对确定对应的关系类 型为加重条件。例如,对于病历中的这么一句话“活动使得头疼加重”, 可以按照上面步骤101介绍的以身体部位为锚点的症状抽取方式得到 症状为“头疼”,按照上述步骤102介绍的先找到核心谓语“加重”,再 根据之前的语义角色标注结果,确定加重的施事者为“活动”,受事者 为“头疼”,从而确定由症状与症状细节组成的二元实体对为[头疼,活动]。接着,通过对“活动使得头疼加重”这句话分析得到表示活动和 头疼之间关系的关系词为加重,因此根据预先定义好的关系抽取规则: “症状细节+加重+症状”或“症状细节+使+症状+加重”,确定二元实 体[头疼,活动]的关系类型为加重条件。
类似地,根据医生病历书写格式与习惯,预先定义了各式各样的 关系抽取规则,相应地,与预先定义的关系抽取规则对应的关系类型 有:病程、诱因、加重条件、缓解条件、持续时间、发作时间、起病 急缓、频率、量、颜色、性质、特征等。
步骤104:以所述二元实体对中的两个实体为节点,以所述二元实 体对的关系类型为边,构建医学知识图谱。
在本步骤中,在得到二元实体对和二元实体对的关系类型后,可 以以所述二元实体对中的两个实体为节点,以所述二元实体对的关系 类型为边,构建医学知识图谱。
由上述技术方案可知,本发明实施例提供的基于电子病历的医学 知识图谱构建方法及装置,先在电子病历中以身体部位为锚点抽取症 状实体,然后基于电子病历为所述症状实体构建症状与症状细节的二 元实体对,接着为所述二元实体对确定对应的关系类型,最后以所述 二元实体对中的两个实体为节点,以所述二元实体对的关系类型为边, 构建医学知识图谱。由于医学中出现的症状多数为与身体部位相关的 症状,因此,在电子病历中以身体部位为锚点抽取症状实体,可以得 到较为全面的症状实体抽取结果,从而提高了医学知识图谱中症状实 体的完备性,进而提高了医学知识图谱的参考价值。此外,本发明实 施例还构建了症状与症状细节的二元实体对以及对应的关系类型,从 而使得最终构建得到的医学知识图谱中包含有症状与症状细节之间的 医学原理对应关系,从而可以根据构建得到的医学知识图谱分析某些 症状与某些症状细节之间的医学原理对应关系。
基于上述实施例的内容,在本实施例中,在上述步骤101和步骤102 之间,所述方法还包括:
步骤101’:将抽取得到的症状实体转化为标准症状实体。
在本实施例中,从电子病历中抽取得到的症状实体有可能对同一 症状采用了多种描述词,例如,这段文字中“患者近10年来反复出现 头疼,以右侧表颞部跳痛为主,疼痛程度为轻中度,活动可使头痛加 重。伴腹痛,腹痛为脐周绞痛”,对头痛采用了“头疼”和“头痛”两 种描述词,那么在抽取得到症状时,会得到“头疼”和“头痛”两个 症状,但由于“头疼”和“头痛”实际上表达的是同一症状,且医学 上一般认定“头痛”为标准症状实体,因此,可以将提取得到的“头 疼”症状转化为标准症状实体“头痛”。
此外,从电子病历中抽取得到的症状实体有可能是根据病人描述 整理得到的口语化的症状词汇,例如,“胸闷憋喘”,其实际对应的标 准症状实体实际上为“呼吸困难”,因此,可以将提取得到的“胸闷憋 喘”症状转化为标准症状实体“呼吸困难”。
由上面分析可知,将抽取得到的症状实体转化为标准症状实体, 一方面便于将从同一病历中抽取得到的表示同一含义的多个症状实体(如“头疼”和“头痛”)进行统一,去除不必要的冗余,另一方面, 也便于将抽取得到的症状实体的名称与医学知识图谱中规定的标准症 状实体的名称进行统一,从而便于利用抽取得到的症状实体进行后续 医学知识图谱的构建。
基于上述实施例的内容,在本实施例中,上述步骤101’具体可通过 如下方式实现:
根据预设标准医学命名实体字典对所述抽取得到的症状实体进行 相似度匹配,根据相似度匹配结果将抽取得到的症状实体转化为标准 症状实体;
或,
根据预设症状同义词表对所述抽取得到的症状实体进行同义词映 射,根据同义词映射结果将抽取得到的症状实体转化为标准症状实体。
在本实施例中,由于所述预设标准医学命名实体字典中存储有与 医学知识图谱中的症状实体相一致的标准症状实体,因此根据预设标 准医学命名实体字典对所述抽取得到的症状实体进行相似度匹配,可 以根据相似度匹配结果将抽取得到的症状实体转化为标准症状实体。
在本实施例中,由于所述预设症状同义词表中存储有常见口语化 症状与标准症状实体的同义词映射关系,因此,根据预设症状同义词 表对所述抽取得到的症状实体进行同义词映射,可以根据同义词映射 结果将抽取得到的症状实体转化为标准症状实体。举例来说,标准症 状实体“呼吸困难”对应的常见口语化症状为“憋喘”、“喘气困难”、 “喘不上来气”等等。又如,标准症状实体“鼻塞”对应的常见口语 化症状为“鼻子堵”、“鼻子出气难受”、“鼻子憋闷”等等。
举例来说,假设电子病历中有这么一段文字:患者近10年来反复 出现头疼,以右侧表颞部跳痛为主,疼痛程度为轻中度,活动可使头 痛加重。伴腹痛,腹痛为脐周绞痛。通过以身体部位为锚点,获取症 状实体包括“头疼”、“头痛”和“腹痛”,再通过与标准医学命名实体 字典或预设症状同义字典对比,将“头疼”这个实体转化为标准症状 实体“头痛”,从而获得标准症状实体为头痛和腹痛。相应地,上述步 骤102获得的二元实体对变为:[头痛,右侧表颞部],[头痛,跳痛],[头 痛,活动],[腹痛,脐周],[腹痛,绞痛]等。
又如,举例来说,假设从病历中抽取的症状为“腹部不舒服”,则 根据预设标准医学命名实体字典对所述抽取得到的症状“腹部不舒服” 进行相似度匹配,匹配得到标准症状“腹部不适”。
又如,举例来说,假设从病历中抽取的症状为“憋喘”,则根据预 设症状同义词表对所述抽取得到的症状“憋喘”进行同义词映射,映 射得到标准症状“呼吸困难”。
基于相同的发明构思,本发明另一实施例提供了一种基于电子病 历的医学知识图谱构建装置,参见图2,包括:抽取模块21、第一构建 模块22、确定模块23和第二构建模块24,其中:
抽取模块21,用于在电子病历中以身体部位为锚点抽取症状实体;
第一构建模块22,用于为所述症状实体构建症状与症状细节的二 元实体对;
确定模块23,用于为所述二元实体对确定对应的关系类型;
第二构建模块24,用于以所述二元实体对中的两个实体为节点, 以所述二元实体对的关系类型为边,构建医学知识图谱。
由于本发明实施例提供的基于电子病历的医学知识图谱构建装 置,可以用于执行上述实施例所述的基于电子病历的医学知识图谱构 建方法,其工作原理和有益效果类似,故此处不再详述,具体内容可 参见上述实施例的介绍。
基于相同的发明构思,本发明又一实施例提供了一种电子设备, 参见图3,所述电子设备具体包括如下内容:处理器301、存储器302、 通信接口303和总线304;
其中,所述处理器301、存储器302、通信接口303通过所述总线 304完成相互间的通信;所述通信接口303用于实现各建模软件及智 能制造装备模块库等相关设备之间的信息传输;
所述处理器301用于调用所述存储器302中的计算机程序,所述处 理器执行所述计算机程序时实现上述基于电子病历的医学知识图谱构 建方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下 述过程:在电子病历中以身体部位为锚点抽取症状实体;为所述症状 实体构建症状与症状细节的二元实体对;为所述二元实体对确定对应 的关系类型;以所述二元实体对中的两个实体为节点,以所述二元实 体对的关系类型为边,构建医学知识图谱。
基于相同的发明构思,本发明又一实施例提供了一种计算机可读 存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程 序被处理器执行时实现上述基于电子病历的医学知识图谱构建方法的 全部步骤,例如,所述处理器执行所述计算机程序时实现下述过程: 在电子病历中以身体部位为锚点抽取症状实体;为所述症状实体构建 症状与症状细节的二元实体对;为所述二元实体对确定对应的关系类 型;以所述二元实体对中的两个实体为节点,以所述二元实体对的关 系类型为边,构建医学知识图谱。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式 实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取 存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现 有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式 体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令 用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设 备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的 存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或 者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部 件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的 部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也 可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在 不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然 也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现 有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光 盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所 述的基于电子病历的医学知识图谱构建方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而 非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领 域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技 术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。

Claims (10)

1.一种基于电子病历的医学知识图谱构建方法,其特征在于,包括:
在电子病历中以身体部位为锚点抽取症状实体;
为所述症状实体构建症状与症状细节的二元实体对;
为所述二元实体对确定对应的关系类型;
以所述二元实体对中的两个实体为节点,以所述二元实体对的关系类型为边,构建医学知识图谱。
2.根据权利要求1所述的基于电子病历的医学知识图谱构建方法,其特征在于,所述在电子病历中以身体部位为锚点抽取症状实体,具体包括:
对电子病历进行分句、分词、词性标注、依存句法分析和语义角色标注;
在句子中找到表示身体部位的词或词组并以此为锚点,再根据依存句法分析结果,找到和身体部位上下关联的词或词组,将表示身体部位的词或词组与和身体部位上下关联的词或词组组成新的词组,并将所述新的词组作为症状实体。
3.根据权利要求2所述的基于电子病历的医学知识图谱构建方法,其特征在于,所述为所述症状实体构建症状与症状细节的二元实体对,具体包括:
根据句子中核心谓语与语义角色标注结果构建症状与症状细节的二元实体对。
4.根据权利要求2所述的基于电子病历的医学知识图谱构建方法,其特征在于,所述为所述症状实体构建症状与症状细节的二元实体对,具体包括:
根据句子中核心谓语与语义角色标注结果确定症状细节,然后再根据依存句法分析结果分析所述症状细节所描述的症状,最后将所述症状细节和所述症状组成二元实体对。
5.根据权利要求4所述的基于电子病历的医学知识图谱构建方法,其特征在于,在根据依存句法分析结果找不出所述症状细节所描述的症状时,采用就近原则,选择与当前症状细节左边距离最近的症状作为对应症状,然后将所述症状细节与对应症状组成二元实体对。
6.根据权利要求1~5任一项所述的基于电子病历的医学知识图谱构建方法,其特征在于,所述为所述二元实体对确定对应的关系类型,具体包括:
根据预先定义的关系抽取规则,以及,所述实体对中的症状细节实体和症状实体,以及,包含所述症状细节实体和所述症状实体的句子中出现的用于表示所述症状细节实体和所述症状实体之间关系的关系词,根据规则匹配的方法确定与所述二元实体对对应的关系类型。
7.根据权利要求1~5任一项所述的基于电子病历的医学知识图谱构建方法,其特征在于,在所述在电子病历中以身体部位为锚点抽取症状实体之后,以及,在所述为所述症状实体构建症状与症状细节的二元实体对之前,所述方法还包括:
将抽取得到的症状实体转化为标准症状实体;
其中,所述将抽取得到的症状实体转化为标准症状实体,具体包括:
根据预设标准医学命名实体字典对所述抽取得到的症状实体进行相似度匹配,根据相似度匹配结果将抽取得到的症状实体转化为标准症状实体;
或,
根据预设症状同义词表对所述抽取得到的症状实体进行同义词映射,根据同义词映射结果将抽取得到的症状实体转化为标准症状实体。
8.一种基于电子病历的医学知识图谱构建装置,其特征在于,包括:
抽取模块,用于在电子病历中以身体部位为锚点抽取症状实体;
第一构建模块,用于为所述症状实体构建症状与症状细节的二元实体对;
确定模块,用于为所述二元实体对确定对应的关系类型;
第二构建模块,用于以所述二元实体对中的两个实体为节点,以所述二元实体对的关系类型为边,构建医学知识图谱。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于电子病历的医学知识图谱构建方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于电子病历的医学知识图谱构建方法的步骤。
CN201910598980.2A 2019-07-04 2019-07-04 一种基于电子病历的医学知识图谱构建方法及装置 Active CN110427491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910598980.2A CN110427491B (zh) 2019-07-04 2019-07-04 一种基于电子病历的医学知识图谱构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910598980.2A CN110427491B (zh) 2019-07-04 2019-07-04 一种基于电子病历的医学知识图谱构建方法及装置

Publications (2)

Publication Number Publication Date
CN110427491A true CN110427491A (zh) 2019-11-08
CN110427491B CN110427491B (zh) 2020-05-12

Family

ID=68408939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910598980.2A Active CN110427491B (zh) 2019-07-04 2019-07-04 一种基于电子病历的医学知识图谱构建方法及装置

Country Status (1)

Country Link
CN (1) CN110427491B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110993097A (zh) * 2019-12-05 2020-04-10 中国科学院自动化研究所 基于医学症状词汇的问诊方法及系统
CN111209410A (zh) * 2019-12-27 2020-05-29 中国地质大学(武汉) 一种基于锚点的动态知识图谱表示学习方法及系统
CN111816273A (zh) * 2020-09-07 2020-10-23 北京富通东方科技有限公司 一种海量电子病历的大规模医学知识图谱构建方法
CN111986765A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 电子病例实体标记方法、装置、计算机设备及存储介质
CN112151186A (zh) * 2020-10-05 2020-12-29 河南大学 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统
CN112509692A (zh) * 2020-12-01 2021-03-16 北京百度网讯科技有限公司 用于匹配医学表达的方法、装置、电子设备及存储介质
CN112951439A (zh) * 2021-03-26 2021-06-11 深圳万普瑞邦技术有限公司 一种大数据医疗信息处理方法、系统、及终端设备
CN113658652A (zh) * 2021-08-18 2021-11-16 四川大学华西医院 一种基于电子病历数据文本的二元关系提取方法
CN114334049A (zh) * 2020-12-31 2022-04-12 中电云脑(天津)科技有限公司 一种电子病历结构化处理方法和装置及设备
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
AT524707A1 (de) * 2021-01-28 2022-08-15 Blockhealth Gmbh Verfahren zum Ordnen von Gesundheitsdaten

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060036468A1 (en) * 2002-03-16 2006-02-16 Thomas Denise M Healthcare organization record identifier assignment management system
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法
CN107145744A (zh) * 2017-05-08 2017-09-08 合肥工业大学 医学知识图谱的构建方法、装置及辅助诊断方法
US20180089382A1 (en) * 2016-09-28 2018-03-29 International Business Machines Corporation Container-Based Knowledge Graphs for Determining Entity Relations in Non-Narrative Text
CN108182973A (zh) * 2017-12-29 2018-06-19 湖南大学 一种基于知识图谱推理的智能诊断技术
CN108829728A (zh) * 2018-05-10 2018-11-16 杭州依图医疗技术有限公司 一种医学术语库的存储方法和装置
CN109213871A (zh) * 2018-07-26 2019-01-15 南京邮电大学 患者信息知识图谱构建方法、可读存储介质和终端
CN109545373A (zh) * 2018-11-08 2019-03-29 新博卓畅技术(北京)有限公司 一种人体疾病症状特征自动抽取方法、系统及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060036468A1 (en) * 2002-03-16 2006-02-16 Thomas Denise M Healthcare organization record identifier assignment management system
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法
US20180089382A1 (en) * 2016-09-28 2018-03-29 International Business Machines Corporation Container-Based Knowledge Graphs for Determining Entity Relations in Non-Narrative Text
CN107145744A (zh) * 2017-05-08 2017-09-08 合肥工业大学 医学知识图谱的构建方法、装置及辅助诊断方法
CN108182973A (zh) * 2017-12-29 2018-06-19 湖南大学 一种基于知识图谱推理的智能诊断技术
CN108829728A (zh) * 2018-05-10 2018-11-16 杭州依图医疗技术有限公司 一种医学术语库的存储方法和装置
CN109213871A (zh) * 2018-07-26 2019-01-15 南京邮电大学 患者信息知识图谱构建方法、可读存储介质和终端
CN109545373A (zh) * 2018-11-08 2019-03-29 新博卓畅技术(北京)有限公司 一种人体疾病症状特征自动抽取方法、系统及设备

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110993097B (zh) * 2019-12-05 2024-04-30 中国科学院自动化研究所 基于医学症状词汇的问诊方法及系统
WO2021109385A1 (zh) * 2019-12-05 2021-06-10 中国科学院自动化研究所 基于医学症状词汇的问诊方法及系统
CN110993097A (zh) * 2019-12-05 2020-04-10 中国科学院自动化研究所 基于医学症状词汇的问诊方法及系统
CN111209410A (zh) * 2019-12-27 2020-05-29 中国地质大学(武汉) 一种基于锚点的动态知识图谱表示学习方法及系统
CN111209410B (zh) * 2019-12-27 2023-04-18 中国地质大学(武汉) 一种基于锚点的动态知识图谱表示学习方法及系统
CN111986765A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 电子病例实体标记方法、装置、计算机设备及存储介质
CN111986765B (zh) * 2020-09-03 2023-11-21 深圳平安智慧医健科技有限公司 电子病例实体标记方法、装置、计算机设备及存储介质
CN111816273A (zh) * 2020-09-07 2020-10-23 北京富通东方科技有限公司 一种海量电子病历的大规模医学知识图谱构建方法
CN111816273B (zh) * 2020-09-07 2020-12-22 北京富通东方科技有限公司 一种海量电子病历的大规模医学知识图谱构建方法
CN112151186A (zh) * 2020-10-05 2020-12-29 河南大学 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统
CN112509692A (zh) * 2020-12-01 2021-03-16 北京百度网讯科技有限公司 用于匹配医学表达的方法、装置、电子设备及存储介质
CN112509692B (zh) * 2020-12-01 2024-05-28 北京百度网讯科技有限公司 用于匹配医学表达的方法、装置、电子设备及存储介质
CN114334049A (zh) * 2020-12-31 2022-04-12 中电云脑(天津)科技有限公司 一种电子病历结构化处理方法和装置及设备
CN114334049B (zh) * 2020-12-31 2024-06-07 中电云脑(天津)科技有限公司 一种电子病历结构化处理方法和装置及设备
AT524707A1 (de) * 2021-01-28 2022-08-15 Blockhealth Gmbh Verfahren zum Ordnen von Gesundheitsdaten
CN112951439A (zh) * 2021-03-26 2021-06-11 深圳万普瑞邦技术有限公司 一种大数据医疗信息处理方法、系统、及终端设备
CN113658652A (zh) * 2021-08-18 2021-11-16 四川大学华西医院 一种基于电子病历数据文本的二元关系提取方法
CN114596931B (zh) * 2022-05-10 2022-08-02 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置

Also Published As

Publication number Publication date
CN110427491B (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN110427491A (zh) 一种基于电子病历的医学知识图谱构建方法及装置
Bamman et al. An annotated dataset of coreference in English literature
US9361587B2 (en) Authoring system for bayesian networks automatically extracted from text
JP6583686B2 (ja) 意味情報生成方法、意味情報生成装置、およびプログラム
EP3654227A1 (en) System for extracting semantic triples for building a knowledge base
US20200125791A1 (en) Enhancing Reading Accuracy, Efficiency and Retention
US10496756B2 (en) Sentence creation system
US11159462B2 (en) Communication system and communication control method
CN109918676A (zh) 一种检测意图正则表达式的方法及装置、终端设备
CN110032728B (zh) 疾病名称标准化的转换方法和装置
CN110675944A (zh) 分诊方法及装置、计算机设备及介质
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
CN113380234B (zh) 基于语音识别生成表单的方法、装置、设备及介质
CN110134951A (zh) 一种分析文本数据潜在主题短语的方法及系统
CN110069636B (zh) 融合依存关系与篇章修辞关系的事件时序关系识别方法
Ding et al. Weakly supervised induction of affective events by optimizing semantic consistency
US11595331B2 (en) Communication system and communication control method
Paul et al. SPRITE: Generalizing topic models with structured priors
Roy et al. " Is depression related to cannabis?": A knowledge-infused model for Entity and Relation Extraction with Limited Supervision
Theijssen et al. On the difficulty of making concreteness concrete
US11281855B1 (en) Reinforcement learning approach to decode sentence ambiguity
CN109960805A (zh) 一种基于语义领域划分的智能语义匹配方法
CN109885835A (zh) 一种获取用户语料中词语之间的关联关系的方法和系统
Basu et al. Natural Language Question Answering with Goal-directed Answer Set Programming.
KR102567562B1 (ko) 인공지능 기반 개인 질환 예측 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant