CN110704631B - 医疗知识图谱的构建方法及装置 - Google Patents
医疗知识图谱的构建方法及装置 Download PDFInfo
- Publication number
- CN110704631B CN110704631B CN201910763588.9A CN201910763588A CN110704631B CN 110704631 B CN110704631 B CN 110704631B CN 201910763588 A CN201910763588 A CN 201910763588A CN 110704631 B CN110704631 B CN 110704631B
- Authority
- CN
- China
- Prior art keywords
- data
- medical
- knowledge
- text data
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及一种医疗知识图谱的构建方法及装置,所述方法包括:依据多个数据源获取医疗文本数据;对所述医疗文本数据进行知识抽取,形成医疗知识数据;将所述医疗知识数据输入图谱树中,生成医疗知识图谱。由此,可以实现准确地生成医疗知识图谱。
Description
技术领域
本发明实施例涉及知识图谱技术领域,尤其涉及一种医疗知识图谱的构建方法及装置。
背景技术
知识图谱作为支撑人工智能系统的重要基础设施,是决定人工智能系统“性能”和“智能化”程度的核心要素之一,因此,知识图谱的构建和应用具有非常重要的价值。
目前,利用现有的知识图谱构建方法在构建医疗知识图谱时存在以下两个问题:其一,医学知识数量巨大而又复杂,现有方法中知识体系通常表示为“实体-关系-实体”三元组,其无法有效地对医疗知识进行组织和表示;其二,现有方法中主要是从非结构化文本中针对给定关系抽取“实体-关系-实体”三元组,这也就大大限制了医疗知识的来源。由此可见,现有方法中无法实现准确地生成医疗知识图谱。
发明内容
鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种医疗知识图谱的构建方法及装置,以实现准确地生成医疗知识图谱。
第一方面,本发明实施例提供一种医疗知识图谱的构建方法,包括:
依据多个数据源获取医疗文本数据;
对所述医疗文本数据进行知识抽取,形成医疗知识数据;
将所述医疗知识数据输入图谱树中,生成医疗知识图谱。
在一个可能的实施方式中,所述多个数据源至少包括:网络数据源、诊疗数据源、医学专业书籍数据源。
在一个可能的实施方式中,所述对所述医疗文本数据进行知识抽取,形成医疗知识数据,包括:
当所述医疗文本数据的类型为结构化数据时,从所述医疗文本数据中抽取属性名称和属性值;
依据所述属性名称和所述属性值构建三元组知识数据;
将所述三元组知识数据作为所述医疗知识数据。
在一个可能的实施方式中,所述对所述医疗文本数据进行知识抽取,形成医疗知识数据,包括:
当所述医疗文本数据的类型为半结构化数据时,依据所述医疗文本数据构建知识抽取模板;
利用所述知识抽取模板从所述医疗文本数据中抽取属性名称和属性值;
依据所述属性名称和所述属性值构建三元组知识数据;
将所述三元组知识数据作为所述医疗知识数据。
在一个可能的实施方式中,所述对所述医疗文本数据进行知识抽取,形成医疗知识数据,包括:
当所述医疗文本数据的类型为非结构化数据时,将所述医疗文本数据转化为句子集合;
依据预设词表对所述句子集合中的每一句子进行命名实体识别;
依据命名实体识别后的句子集合构建知识抽取模板;
利用所述知识抽取模板从所述医疗文本数据中抽取属性名称和属性值;
依据所述属性名称和所述属性值构建三元组知识数据;
将所述三元组知识数据作为所述医疗知识数据。
在一个可能的实施方式中,还包括:
将从所述医疗文本数据中抽取的属性名称和属性值添加至所述预设词表。
在一个可能的实施方式中,所述图谱树通过以下方式构建:
针对各个指定概念,以所述指定概念为根结点,以所述指定概念的下位概念为中间节点,以实体为叶子节点构建图谱树;
其中,所述指定概念至少包括:疾病、病因、症状、药品、检查、部位器官、治疗。
第二方面,本发明实施例提供一种医疗知识图谱的构建装置,包括:
数据获取模块,用于依据多个数据源获取医疗文本数据;
知识抽取模块,用于对所述医疗文本数据进行知识抽取,形成医疗知识数据;
图谱生成模块,用于将所述医疗知识数据输入图谱树中,生成医疗知识图谱。
在一个可能的实施方式中,所述多个数据源至少包括:网络数据源、诊疗数据源、医学专业书籍数据源。
在一个可能的实施方式中,所述知识抽取模块包括:
第一抽取子模块,用于当所述医疗文本数据的类型为结构化数据时,从所述医疗文本数据中抽取属性名称和属性值;
第一知识构建子模块,用于依据所述属性名称和所述属性值构建三元组知识数据;
第一确定子模块,用于将所述三元组知识数据作为所述医疗知识数据。
在一个可能的实施方式中,所述知识抽取模块包括:
第一模板构建子模块,用于当所述医疗文本数据的类型为半结构化数据时,依据所述医疗文本数据构建知识抽取模板;
第二抽取子模块,用于利用所述知识抽取模板从所述医疗文本数据中抽取属性名称和属性值;
第二知识构建子模块,用于依据所述属性名称和所述属性值构建三元组知识数据;
第二确定子模块,用于将所述三元组知识数据作为所述医疗知识数据。
在一个可能的实施方式中,所述知识抽取模板包括:
转化子模块,用于当所述医疗文本数据的类型为非结构化数据时,将所述医疗文本数据转化为句子集合;
识别子模块,用于依据预设词表对所述句子集合中的每一句子进行命名实体识别;
第二模板构建子模块,用于依据命名实体识别后的句子集合构建知识抽取模板;
第三抽取子模块,用于利用所述知识抽取模板从所述医疗文本数据中抽取属性名称和属性值;
第三知识构建子模块,用于依据所述属性名称和所述属性值构建三元组知识数据;
第三确定子模块,用于将所述三元组知识数据作为所述医疗知识数据。
在一个可能的实施方式中,还包括:
词表添加模块,用于将从所述医疗文本数据中抽取的属性名称和属性值添加至所述预设词表。
在一个可能的实施方式中,还包括:
图谱树构建模块,用于针对各个指定概念,以所述指定概念为根结点,以所述指定概念的下位概念为中间节点,以实体为叶子节点构建图谱树;
其中,所述指定概念至少包括:疾病、病因、症状、药品、检查、部位器官、治疗。
本发明实施例提供的医疗图谱的构建方案,通过依据多个数据源获取医疗文本数据,对医疗文本数据进行知识抽取,形成医疗知识数据,将,医疗知识数据输入图谱树中,生成医疗知识图谱,可以实现准确地生成医疗知识图谱。
附图说明
图1为本发明一示例性实施例提供的一种医疗知识图谱的构建方法的实施例流程图;
图2为从网络数据源获取到的医疗文本数据的一种示例;
图3A为病历数据的一种示例;
图3B为依据诊疗数据源获取的医疗文本数据的一种示例;
图4为结构化类型的医疗文本数据的一种示例;
图5A为半结构化类型的医疗文本数据的一种示例;
图5B为图5A所示例的医疗文本数据所对应网页的源码的一种示例;
图6A为将图3所示例的医疗文本数据转化为句子集合的一种示例;
图6B为对图6A中的句子进行命名实体识别结果的示例;
图7为医疗知识图谱的一种示例;
图8为本发明一示例性实施例提出的一种医疗知识图谱的构建装置的实施例框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
请参见图1,为本发明一示例性实施例提供的一种医疗知识图谱的构建方法的实施例流程图,该方法包括以下步骤:
步骤101:依据多个数据源获取医疗文本数据。
作为一个示例,上述多个数据源至少包括网络数据源、诊疗数据源、医学专业书籍数据源。
以下,分别针对不同的数据源描述获取医疗文本数据的过程:
(1)网络数据源、
作为一个示例,可以使用网络爬虫(又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动抓取万维网信息的程序或者脚本程序)抓取目标网站的网页。之后,分析抓取到的网页的源码,提取出其中的正文部分,舍弃其他部分。例如,如图2所示,图2中标号为21的矩形框所框选的内容为网页中需要保留的正文部分,标号为22的矩形框所框选的内容则是网页中需要舍弃的其他部分。
(2)诊疗数据源、
作为一个示例,可以从已有的电子病历系统数据库中导出病历数据,例如,如图3A所示,为病历数据的一种示例。之后,对病历数据进行解析,并将解析结果转化为文本格式,得到医疗文本数据,例如,如图3B所示,为依据诊疗数据源获取的医疗文本数据的一种示例。
(3)医学专业书籍数据源、
作为一个示例,对于电子格式,例如文本格式的医学专业书籍可以不做处理,直接获取到医疗文本数据,而对于非电子格式,例如纸质的医学专业书籍则可以将其转化为文本格式,得到医疗文本数据。
步骤102:对医疗文本数据进行知识抽取,形成医疗知识数据。
本领域技术人员可以理解的是,按照数据格式对数据进行分类,可以将数据分为结构化数据、半结构化数据、非结构化数据三种,其中,结构化数据(例如以关系数据表形式管理的数据)和半结构化数据(例如日志文件、XML文档、JSON文档等)都是有基本固定结构模式的数据,非结构化数据(例如word文档、PDF文档、PPT文档等)则没有固定结构模式。
基于上述描述可知,由于不同类型的数据结构不同,因此,从不同类型的数据中进行知识抽取的具体实现方式也不相同,如下,分别对从结构化数据、半结构化数据、非结构化数据中进行知识抽取的过程进行说明:
(1)当医疗文本数据的类型为结构化数据时、
由于结构化数据以显式的表格存在,从而,根据结构化数据的格式就可以抽取出其中的内容。具体的,可以首先确定表格是行表格还是列表格,作为一个示例,可以使用启发式规则模型确定表格是行表格还是列表格。若为行表格,则可以从第一行中抽取出属性名称,从其他行中抽取出属性值;若为列表格,则可以从第一列中抽取出属性名称,从其他列中抽取出属性值。之后,依据属性名称和属性值构建三元组知识数据,将该三元组知识数据作为医疗知识数据。
举例来说,如图4所示,为结构化类型的医疗文本数据的一种示例。该图4中的表格为行表格,则可以首先从第一行中抽取出属性名称,分别为“名称”、“正常”、“异常”,之后,从其他行中抽取属性值,例如“酸碱度”、“4.6~8.0”、“增高常见于频繁呕吐、呼吸性碱中毒等”。之后,结合表头构建三元组知识数据,得到大量的三元组知识数据,例如“尿常规检验-包括-酸碱度”、“酸碱度-名称-酸碱度”、“酸碱度-正常-4.6~8.0”等等。
(2)当医疗文本数据的类型为半结构化数据时、
半结构化数据主要来源于网络数据。
作为一个示例,采用基于模板的方式对半结构化数据进行知识抽取。具体的,首先依据医疗文本数据构建知识抽取模板,之后,利用知识抽取模板从医疗文本数据中抽取属性名称和属性值,最后,依据属性名称和属性值构建三元组知识数据,将所述三元组知识数据作为所述医疗知识数据。
作为一个示例,在利用知识抽取模板从医疗文本数据中抽取属性名称和属性值时,可以首先将知识抽取模板转化为相应的正则表达式,然后,利用该相应的正则表达式从医疗文本数据中抽取属性名称和属性值。
作为一个示例,还可以利用半结构化数据的特定模板抽取出上下位知识。
举例来说,如图5A所示,为半结构化类型的医疗文本数据的一种示例,图5B为图5A所示例的医疗文本数据所对应网页的源码。通过分析图5B所示例的源码,可以学习到,用于抽取属性名称的模板是:
<span class="headline-content">(属性名称)</span>
用于抽取属性值的模板是:
<div class="para">(属性值)<br/></div>
指示上下位知识的模板是:
<title>疾病词条_梗阻性黄疸、<title>【奥扎格雷】功效与作用_价格、<title>血型鉴定_检验查询、等等。
(3)当医疗文本数据的类型为非结构化数据时、
非结构化数据主要指纯文本数据。
作为一个示例,可以通过如下过程对非结构化数据进行知识抽取:首先,将医疗文本数据转化为句子集合,依据预设词表对句子集合中的每一句子进行命名实体识别,之后,依据命名实体识别后的句子集合构建知识抽取模板,并利用知识抽取模板从医疗文本数据中抽取属性名称和属性值,最后,依据属性名称和属性值构建三元组知识数据,将三元组知识数据作为医疗知识数据。
作为一个示例,上述预设词表可以根据结构化数据、非结构化数据进行知识抽取的结果建立,其中,可以为每种概念分别建立一个词表。
作为一个示例,上述知识抽取模板可以以正则表达式的形式体现;作为另一个示例,上述知识抽取模板可以指取实体定长的上下文。
举例来说,如图6A所示,为将图3所示例的医疗文本数据转化为句子集合的一种示例。以图6A中的句子“患者于2015年2月因“宫颈癌”在当地医院行“广泛性全子宫、双附件切除+盆腔淋巴结清扫术”,术后行放、化疗”为例,对该句子进行命名实体识别后的句子如图6B所示。之后,依据图6B构建知识抽取模板,例如,构建正则表达式形式的知识抽取模板:
“患者于“(.+?)”因“(.+?)”在当地医院行“(.+?)”
又例如,构建取实体定长的上下文的模板:
“于[time]因“(疾病)”在当地”、“医院行“(手术)”,术后”
此外,进一步地,可以将从医疗文本数据中抽取的属性名称和属性值添加至上述预设词表中,以更新该预设词表。
步骤103:将医疗知识数据输入图谱树中,生成医疗知识图谱。
首先说明,在医疗知识体系中包含多个指定概念,作为一个示例,该多个指定概念至少包括:疾病、病因、症状、药品、检查、部位器官、治疗。在本发明实施例中,可以针对各个指定概念,以指定概念为根结点,以指定概念的下位概念为中间节点,以实体为叶子节点构建图谱树。
以“药品”这棵图谱树举例来说,“抗生素”是“药品”概念的子概念,其属于中间节点,进一步,“红霉素系抗生素”是“抗生素”概念的子概念,其属于中间节点,“阿奇霉素”则是一个具体的实体,其在“药品”这棵图谱树中则属于叶子节点。为了描述方便,“药品”这棵图谱树的实例则可以表示为“药品-抗生素-红霉素系抗生素-阿奇霉素”。
进一步,为了描述概念,为其设置若干属性,相应的,该概念下的实体就具有具体的属性值。例如,“疾病”概念有“传染性”这一属性,相应的,“感冒”就具有“传染性”这一具体属性值。
进一步,基于上述描述,将医疗知识分为三个层次,其中,第一层次为单独某一概念的医疗知识,表现为“概念-包括-子概念/实体”和“实体-属性名-属性值”,例如“疾病-包括-感冒”,“感冒-传染性-具有传染性”;第二层次为两个概念之间关联关系的医疗知识,表现为“概念-关系-概念”,例如“感冒-治疗药品-白加黑”;第三层次是多个概念之间关联关系的知识,表现为“if概念1特定值,概念2特定值,...概念n特定值,then结论”,例如“if病因=着凉,症状1=咳嗽,症状2=流鼻涕,症状3=全身肌肉酸痛,症状4=发热,血常规=白细胞值偏高then疾病=呼吸道感染”。
基于上述描述,可以将上述步骤中获取到的医疗知识数据输入图谱树中,之后,对于表现形式为“实体-属性名-属性值”、和“实体-关系名-实体”的医疗知识,通过实体将相关联的树连接起来,得到医疗知识图谱。例如,如图7所示,为医疗知识图谱的一种示例。
在图7所示例的医疗知识图谱中,“症状”、“疾病”和“药品”是三个概念,相应的内容是三棵树;“阿奇霉素”是一种具体的“药品”;“药品”概念具有“制剂类型”、“不良反应”等属性,“阿奇霉素”作为实体,具有具体的属性值“片剂”和“总不良反应率约为12%”。
此外,需要说明的是,上述生成的医疗知识图谱具有可更新性,该可更新性可以表现在以下两点:
(1)人工更新,具体的,相关人员可以根据实际情况,增加或删减医疗知识图谱中的概念及与该概念相关的知识。
(2)自动更新,具体的,可以定期根据新增的数据执行上述医疗知识图谱的构建方法,将生成的医疗知识图谱加入至历史医疗知识图谱中,实现对医疗知识图谱的更新。
此外,本领域技术人员可以理解的是,应用本发明构建出的医疗知识图谱可以支持多种具体应用需求,包括但不限于:
(1)医学知识问答、
举例来说,医疗知识图谱作为知识源可以支撑“XX疾病有哪些症状?”,“XX疾病该吃什么药?”等问题的解答。
(2)辅助诊疗、
举例来说,根据症状和检查结果,通过查询医疗知识图谱可以做出诊断并给出相应的治疗方案或治疗用药。
由上述实施例可见,通过依据多个数据源获取医疗文本数据,对医疗文本数据进行知识抽取,形成医疗知识数据,将,医疗知识数据输入图谱树中,生成医疗知识图谱,可以实现准确地生成医疗知识图谱。
与前述医疗知识图谱的构建方法相对应的,本发明还提出了医疗知识图谱的构建装置。
如图8所示,为本发明一示例性实施例提出的一种医疗知识图谱的构建装置的实施例框图,包括:数据获取模块81、知识抽取模块82,以及图谱生成模块83。
其中,数据获取模块81,用于依据多个数据源获取医疗文本数据;
知识抽取模块82,用于对所述医疗文本数据进行知识抽取,形成医疗知识数据;
图谱生成模块83,用于将所述医疗知识数据输入图谱树中,生成医疗知识图谱。
在一实施例中,所述多个数据源至少包括:网络数据源、诊疗数据源、医学专业书籍数据源。
在一实施例中,所述知识抽取模块82可以包括(图8中未示出):
第一抽取子模块,用于当所述医疗文本数据的类型为结构化数据时,从所述医疗文本数据中抽取属性名称和属性值;
第一知识构建子模块,用于依据所述属性名称和所述属性值构建三元组知识数据;
第一确定子模块,用于将所述三元组知识数据作为所述医疗知识数据。
在一实施例中,所述知识抽取模块82可以包括(图8中未示出):
第一模板构建子模块,用于当所述医疗文本数据的类型为半结构化数据时,依据所述医疗文本数据构建知识抽取模板;
第二抽取子模块,用于利用所述知识抽取模板从所述医疗文本数据中抽取属性名称和属性值;
第二知识构建子模块,用于依据所述属性名称和所述属性值构建三元组知识数据;
第二确定子模块,用于将所述三元组知识数据作为所述医疗知识数据。
在一实施例中,所述知识抽取模块82可以包括(图8中未示出):
转化子模块,用于当所述医疗文本数据的类型为非结构化数据时,将所述医疗文本数据转化为句子集合;
识别子模块,用于依据预设词表对所述句子集合中的每一句子进行命名实体识别;
第二模板构建子模块,用于依据命名实体识别后的句子集合构建知识抽取模板;
第三抽取子模块,用于利用所述知识抽取模板从所述医疗文本数据中抽取属性名称和属性值;
第三知识构建子模块,用于依据所述属性名称和所述属性值构建三元组知识数据;
第三确定子模块,用于将所述三元组知识数据作为所述医疗知识数据。
在一实施例中,还包括(图8中未示出):
词表添加模块,用于将从所述医疗文本数据中抽取的属性名称和属性值添加至所述预设词表。
在一实施例中,还包括(图8中未示出):
图谱树构建模块,用于针对各个指定概念,以所述指定概念为根结点,以所述指定概念的下位概念为中间节点,以实体为叶子节点构建图谱树;
其中,所述指定概念至少包括:疾病、病因、症状、药品、检查、部位器官、治疗。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种医疗知识图谱的构建方法,其特征在于,包括:
依据多个数据源获取医疗文本数据;
对所述医疗文本数据进行知识抽取,形成医疗知识数据;
将所述医疗知识数据输入图谱树中,生成医疗知识图谱;
其中,所述对所述医疗文本数据进行知识抽取,形成医疗知识数据,包括:
当所述医疗文本数据的类型为结构化数据时,根据所述结构化数据的格式从所述医疗文本数据中抽取属性名称和属性值;或,
当所述医疗文本数据的类型为半结构化数据时,依据所述医疗文本数据构建知识抽取模板;利用所述知识抽取模板从所述医疗文本数据中抽取属性名称和属性值,还包括利用半结构化数据抽取上下位知识;再或,
当所述医疗文本数据的类型为非结构化数据时,将所述医疗文本数据转化为句子集合;依据预设词表对所述句子集合中的每一句子进行命名实体识别;依据命名实体识别后的句子集合构建知识抽取模板;利用所述知识抽取模板从所述医疗文本数据中抽取属性名称和属性值;
依据所述属性名称和所述属性值构建三元组知识数据;
将所述三元组知识数据作为所述医疗知识数据;
所述将所述医疗知识数据输入图谱树中,生成医疗知识图谱,包括:
确定三个层次的所述医疗知识数据,并将所述三个层次的所述医疗知识数据输入图谱树中,生成医疗知识图谱;
其中,所述三个层次的所述医疗知识数据包括:第一层次的任一概念的医疗知识数据,第二层次的两个所述概念之间关联关系的医疗知识数据以及第三层次的多个所述概念之间关联关系的医疗知识数据,其中,所述图谱树通过以下方式构建:
针对各个指定概念,以所述指定概念为根结点,以所述指定概念的下位概念为中间节点,以实体为叶子节点构建图谱树;其中,所述指定概念至少包括:疾病、病因、症状、药品、检查、部位器官、治疗。
2.根据权利要求1所述的方法,其特征在于,所述多个数据源至少包括:网络数据源、诊疗数据源、医学专业书籍数据源。
3.根据权利要求1所述的方法,其特征在于,还包括:
将从所述医疗文本数据中抽取的属性名称和属性值添加至所述预设词表。
4.一种医疗知识图谱的构建装置,其特征在于,包括:
数据获取模块,用于依据多个数据源获取医疗文本数据;
知识抽取模块,用于对所述医疗文本数据进行知识抽取,形成医疗知识数据;
图谱生成模块,用于将所述医疗知识数据输入图谱树中,生成医疗知识图谱;
所述知识抽取模块,具体用于:
当所述医疗文本数据的类型为结构化数据时,根据所述结构化数据的格式从所述医疗文本数据中抽取属性名称和属性值;或,
当所述医疗文本数据的类型为半结构化数据时,依据所述医疗文本数据构建知识抽取模板;利用所述知识抽取模板从所述医疗文本数据中抽取属性名称和属性值,还包括利用半结构化数据抽取上下位知识;再或,
当所述医疗文本数据的类型为非结构化数据时,将所述医疗文本数据转化为句子集合;依据预设词表对所述句子集合中的每一句子进行命名实体识别;依据命名实体识别后的句子集合构建知识抽取模板;利用所述知识抽取模板从所述医疗文本数据中抽取属性名称和属性值;
依据所述属性名称和所述属性值构建三元组知识数据;
将所述三元组知识数据作为所述医疗知识数据;
所述图谱生成模块,具体用于:
确定三个层次的所述医疗知识数据,并将所述三个层次的所述医疗知识数据输入图谱树中,生成医疗知识图谱;
其中,所述三个层次的所述医疗知识数据包括:第一层次的任一概念的医疗知识数据,第二层次的两个所述概念之间关联关系的医疗知识数据以及第三层次的多个所述概念之间关联关系的医疗知识数据,其中,所述图谱树通过以下方式构建:
针对各个指定概念,以所述指定概念为根结点,以所述指定概念的下位概念为中间节点,以实体为叶子节点构建图谱树;其中,所述指定概念至少包括:疾病、病因、症状、药品、检查、部位器官、治疗。
5.根据权利要求4所述的装置,其特征在于,所述多个数据源至少包括:网络数据源、诊疗数据源、医学专业书籍数据源。
6.根据权利要求4所述的装置,其特征在于,还包括:
词表添加模块,用于将从所述医疗文本数据中抽取的属性名称和属性值添加至所述预设词表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910763588.9A CN110704631B (zh) | 2019-08-16 | 2019-08-16 | 医疗知识图谱的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910763588.9A CN110704631B (zh) | 2019-08-16 | 2019-08-16 | 医疗知识图谱的构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110704631A CN110704631A (zh) | 2020-01-17 |
CN110704631B true CN110704631B (zh) | 2022-12-13 |
Family
ID=69193498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910763588.9A Active CN110704631B (zh) | 2019-08-16 | 2019-08-16 | 医疗知识图谱的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704631B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581363B (zh) * | 2020-04-30 | 2023-08-29 | 北京百度网讯科技有限公司 | 知识抽取方法、装置、设备及存储介质 |
CN111986742A (zh) * | 2020-07-06 | 2020-11-24 | 北京欧应信息技术有限公司 | 一种构建骨科知识图谱的方法 |
CN111984805A (zh) * | 2020-07-06 | 2020-11-24 | 北京欧应信息技术有限公司 | 一种基于骨科知识图谱建立骨科云影像数据库的方法 |
CN111858957B (zh) * | 2020-07-20 | 2024-05-14 | 上海汽车集团股份有限公司 | 一种知识图谱自动构建方法及系统 |
CN112037920A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗知识图谱构建方法、装置、设备及存储介质 |
CN111813963B (zh) * | 2020-09-10 | 2020-12-22 | 平安国际智慧城市科技股份有限公司 | 知识图谱构建方法、装置、电子设备及存储介质 |
CN112925918B (zh) * | 2021-02-26 | 2023-03-24 | 华南理工大学 | 一种基于疾病领域知识图谱的问答匹配系统 |
CN112732945B (zh) * | 2021-03-30 | 2021-06-18 | 中国电子技术标准化研究院 | 标准知识图谱构建、标准查询方法及装置 |
CN113205890A (zh) * | 2021-05-21 | 2021-08-03 | 中国人民大学 | 一种基于传染性疾病传播路径的控制方法和系统 |
CN113177125B (zh) * | 2021-06-30 | 2021-09-03 | 中国电子技术标准化研究院 | 标准知识图谱构建、标准查询方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030093394A1 (en) * | 2001-11-14 | 2003-05-15 | Normand Frenette | Knowledge capture and retrieval method |
CN106776711B (zh) * | 2016-11-14 | 2020-04-07 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN109378053B (zh) * | 2018-11-30 | 2021-07-06 | 安徽影联云享医疗科技有限公司 | 一种用于医学影像的知识图谱构建方法 |
CN109669994B (zh) * | 2018-12-21 | 2023-03-14 | 吉林大学 | 一种健康知识图谱的构建方法及系统 |
-
2019
- 2019-08-16 CN CN201910763588.9A patent/CN110704631B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110704631A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704631B (zh) | 医疗知识图谱的构建方法及装置 | |
CN113871003B (zh) | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 | |
CN111767410B (zh) | 临床医疗知识图谱的构建方法、装置、设备及存储介质 | |
CN110990579B (zh) | 跨语言的医学知识图谱构建方法、装置与电子设备 | |
CN111061841B (zh) | 知识图谱的构建方法及装置 | |
WO2020172446A9 (en) | Automated generation of structured patient data record | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
Khan et al. | Towards development of health data warehouse: Bangladesh perspective | |
Grossman et al. | A method for harmonization of clinical abbreviation and acronym sense inventories | |
Gibney et al. | Text indexing for regular expression matching | |
de Macedo et al. | Hackathon as an instrument for innovation in collaborative networks: a bibliometric analysis | |
Helgheim et al. | Merging data diversity of clinical medical records to improve effectiveness | |
Brahmia et al. | JUpdate: a JSON update language | |
Lytvyn et al. | Medical Content Processing in Intelligent System of District Therapist. | |
Benson et al. | Snomed ct | |
Demidova et al. | Dataset of Program Source Codes Solving Unique Programming Exercises Generated by Digital Teaching Assistant | |
Ng et al. | Long-term outcomes after non-traumatic out-of-hospital cardiac arrest in pediatric patients: a systematic review | |
CN112259243A (zh) | 一种基于双向GRUs的单病种临床路径构建方法及系统 | |
Duarte et al. | Retrieving a context tree from EEG data | |
Wang et al. | Ltmatch: A method to abstract pattern from unstructured log | |
US20230377697A1 (en) | System and a way to automatically monitor clinical trials - virtual monitor (vm) and a way to record medical history | |
CN114913956A (zh) | 基于知识图谱的重复用药提醒方法、装置以及电子设备 | |
Tran et al. | Scaling out and evaluation of obsecan, an automated section annotator for semi-structured clinical documents, on a large VA clinical corpus | |
Tian et al. | Representing Rules for Clinical Data Quality Assessment Based on OpenEHR Guideline Definition Language. | |
Pareja-Ríos et al. | A new deep learning algorithm with activation mapping for diabetic retinopathy: backtesting after 10 years of tele-ophthalmology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |