CN110222201B

CN110222201B - 一种专病知识图谱构建方法及装置

Info

Publication number: CN110222201B
Application number: CN201910561727.XA
Authority: CN
Inventors: 李姣; 覃露; 徐晓巍
Original assignee: Institute of Medical Information CAMS
Current assignee: Institute of Medical Information CAMS
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2021-04-27
Anticipated expiration: 2039-06-26
Also published as: CN110222201A

Abstract

本申请提供了一种专病知识图谱构建方法及装置，该方法在构建专病知识体系的基础上，利用预先构建的实体抽取模型进行医学实体信息的抽取，并进一步基于所述专病知识体系进行医学实体的属性信息及关系信息的抽取，最终基于所抽取的各项信息构建专病知识图谱，其中，所述实体抽取模型为基于预先标注的训练数据集所训练的模型，且所述训练数据集通过使用医学词表匹配结合人工审核、标注的方式构造得到。本申请在医学实体抽取中，通过使用医学词表匹配结合人工审核、标注的方式构造实体抽取模型训练时所需的训练数据集，可以减小构造训练数据集的工作量，降低了对人力资源及时间资源的消耗，同时还可提升专病知识图谱的构建效率及知识合理性。

Description

一种专病知识图谱构建方法及装置

技术领域

本申请属于自然语言处理技术领域，尤其涉及一种专病知识图谱构建方法及装置。

背景技术

专病知识图谱，属于医学知识图谱，是一种描述医学上某一种疾病领域客观存在的实体、概念及它们之间关联关系的语义网络，采用语义技术形式表达系统化、结构化、集成化的医学领域知识，可应用于医学领域中的疾病筛查和预测、辅助临床诊断、医疗保险风险预测和医学知识科普等各个方面。

为了在医学领域有着较好的应用，准确构建所需的专病知识图谱非常必要，医学知识图谱的构建主要分为五个部分：医学知识体系构建、信息抽取、信息融合、质量评估及存储。目前，在构建专病知识图谱时，在信息抽取阶段，一般通过人工标注数据集的方式来构建实体抽取模型进而实现实体信息的抽取，然而，人工标注数据集的方式存在耗时耗力、效率低的缺陷，且该方式对于标注人员的医学背景也有较高要求，同时标注结果的质量往往难以保证，相对应地会对实体抽取模型的训练产生不利影响，难以保证其实体识别准确率，最终影响了所构建的专病知识图谱的知识合理性。

发明内容

有鉴于此，本申请的目的在于提供一种专病知识图谱构建方法及装置，旨在至少克服现有技术在构建专病知识图谱时所存在的上述缺陷，降低对人力资源及时间资源的消耗，提升专病知识图谱的构建效率及知识合理性。

为此，本发明公开如下技术方案：

一种专病知识图谱构建方法，包括：

构建专病知识体系；

基于所述专病知识体系，利用预先构建的实体抽取模型进行医学实体信息的抽取；所述实体抽取模型为基于预先标注的训练数据集所训练的模型，所述训练数据集基于如下处理方式得到：采用医学词表匹配的方式对医学文本进行实体信息标注，并基于人工方式对词表匹配结果进行审核和再标注；

基于所述专病知识体系，进行医学实体的属性信息的抽取；

基于所述专病知识体系，进行医学实体与医学实体之间的关系信息和/或医学实体与医学实体的属性之间的关系信息的抽取；

基于所抽取的医学实体信息、属性信息及关系信息，构建专病知识图谱。

上述方法，优选的，所述专病知识图谱的知识来源包括：专病电子病历、医学词表、医学网站、专病医学文献、专病临床指南、医学书籍。

上述方法，优选的，所述构建专病知识体系，包括：

构建专病知识图谱的概念层信息；

所述构建专病知识图谱的概念层信息，包括：

构建专病概念分类信息、专病概念属性描述信息以及概念之间的相互关系信息；所述专病概念包括实体及实体属性的概念，所述相互关系信息包括实体与实体之间的关系和/或实体与属性之间的关系。

上述方法，优选的，其特征在于，所述利用预先构建的实体抽取模型进行医学实体信息的抽取，包括：

提取医学文本中的字向量；

针对提取出的每个字向量，将该字向量与医学词典进行匹配，得到以该字向量对应的字符为结尾和/或开头的各个第一候选词语；

将所述各个第一候选词语与所述医学文本进行匹配，得到各个第二候选词语，所述第二候选词语为存在于所述医学文本中的第一候选词语；

选取各个所述第二候选词语中字符长度最大的词语与该字向量进行配对，得到字向量-词向量对；

将医学文本对应的各个字向量-词向量对按序输入预先构建的BiLSTM-CRF实体抽取模型中的BiLSTM模型，得到BiLSTM模型输出的该医学文本中的上下文信息；

将所述上下文信息输入所述BiLSTM-CRF实体抽取模型中的CRF模型，得到CRF模型基于所述上下文信息抽取的该医学文本中的实体信息；

所述进行医学实体的属性信息的抽取，包括：

基于医学网站的半结构化特征，从医学网站中抽取医学实体的属性；

采用词表匹配的方式从医学网站中抽取医学实体的属性的属性值；

所述进行医学实体与医学实体之间的关系信息和/或医学实体与医学实体的属性之间的关系信息的抽取，包括：

从已构建的专病知识图谱的概念层信息中，抽取出医学实体与医学实体之间的关系信息和/或医学实体与医学实体的属性之间的关系信息。

上述方法，优选的，在所述基于所抽取的医学实体信息、属性信息及关系信息，构建专病知识图谱之前，还包括：

对所抽取的医学实体信息、属性信息和关系信息中的同义词进行消歧归一处理。

上述方法，优选的，在所述基于所抽取的医学实体信息、属性信息及关系信息，构建专病知识图谱之后，还包括：

获取专业人员对所述专病知识图谱进行评价后所提供的完善信息，基于所述完善信息对所述专病知识图谱进行完善，并存储完善后的专病知识图谱。

一种专病知识图谱构建装置，包括：

知识体系构建单元，用于构建专病知识体系；

实体抽取单元，用于基于所述专病知识体系，利用预先构建的实体抽取模型进行医学实体信息的抽取；所述实体抽取模型为基于预先标注的训练数据集所训练的模型，所述训练数据集基于如下处理方式得到：采用医学词表匹配的方式对医学文本进行实体信息标注，并基于人工方式对词表匹配结果进行审核和再标注；

属性抽取单元，用于基于所述专病知识体系，进行医学实体的属性信息的抽取；

关系抽取单元，用于基于所述专病知识体系，进行医学实体与医学实体之间的关系信息和/或医学实体与医学实体的属性之间的关系信息的抽取；

知识图谱构建单元，用于基于所抽取的医学实体信息、属性信息及关系信息，构建专病知识图谱。

上述装置，优选的，所述专病知识图谱的知识来源包括：专病电子病历、医学词表、医学网站、专病医学文献、专病临床指南、医学书籍。

上述装置，优选的，所述知识体系构建单元，具体用于：

构建专病知识图谱的概念层信息；

所述知识体系构建单元构建专病知识图谱的概念层信息，具体包括：

上述装置，优选的，所述实体抽取单元，具体用于：提取医学文本中的字向量；针对提取出的每个字向量，将该字向量与医学词典进行匹配，得到以该字向量对应的字符为结尾和/或开头的各个第一候选词语；将所述各个第一候选词语与所述医学文本进行匹配，得到各个第二候选词语，所述第二候选词语为存在于所述医学文本中的第一候选词语；选取各个所述第二候选词语中字符长度最大的词语与该字向量进行配对，得到字向量-词向量对；将医学文本对应的各个字向量-词向量对按序输入预先构建的BiLSTM-CRF实体抽取模型中的BiLSTM模型，得到BiLSTM模型输出的该医学文本中的上下文信息；将所述上下文信息输入所述BiLSTM-CRF实体抽取模型中的CRF模型，得到CRF模型基于所述上下文信息抽取的该医学文本中的实体信息；

所述属性抽取单元，具体用于：基于医学网站的半结构化特征，从医学网站中抽取医学实体的属性；采用词表匹配的方式从医学网站中抽取医学实体的属性的属性值；

所述关系抽取单元，具体用于：从已构建的专病知识图谱的概念层信息中，抽取出医学实体与医学实体之间的关系信息和/或医学实体与医学实体的属性之间的关系信息。

上述装置，优选的，还包括：

消歧归一单元，用于对所抽取的医学实体信息、属性信息和关系信息中的同义词进行消歧归一处理。

上述装置，优选的，还包括：

信息完善单元，用于获取专业人员对所述专病知识图谱进行评价后所提供的完善信息，基于所述完善信息对所述专病知识图谱进行完善，并存储完善后的专病知识图谱。

由以上方案可知，本申请所提供的专病知识图谱构建方法及装置，在构建专病知识体系的基础上，利用预先构建的实体抽取模型进行医学实体信息的抽取，并进一步基于所述专病知识体系进行医学实体的属性信息及关系信息的抽取，最终基于所抽取的各项信息构建专病知识图谱，其中，所述实体抽取模型为基于预先标注的训练数据集所训练的模型，且所述训练数据集通过使用医学词表匹配结合人工审核、标注的方式构造得到。本申请在医学实体抽取中，通过使用医学词表匹配结合人工审核、标注的方式构造实体抽取模型训练时所需的训练数据集，可以减小构造训练数据集的工作量，降低了对人力资源及时间资源的消耗，同时还可提升专病知识图谱的构建效率及知识合理性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的专病知识图谱构建方法的一种流程图；

图2是本申请实施例提供的专病知识图谱的概念层信息的示例图；

图3是本申请实施例提供的通过向实体抽取模型输入“字向量-词向量”对实现医学实体信息抽取的逻辑示意图；

图4是本申请实施例提供的具有半结构化特征的网页的示例图；

图5是本申请实施例提供的专病知识图谱构建方法的另一种流程图；

图6是本申请实施例提供的专病知识图谱构建方法的再一种流程图；

图7是本申请实施例提供的专病知识图谱的构建逻辑示意图；

图8-图10是本申请实施例提供的专病知识图谱构建装置的几种结构示意图。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词、简写或缩写总结解释如下：

专病知识图谱：是一种描述医学上某一种疾病领域客观存在的实体、概念及它们之间关联关系的语义网络，采用语义技术形式表达系统化、结构化、集成化的医学领域知识。

命名实体识别：是指从文本中识别出具有特定意义的实体，主要包括两个部分：(1)实体边界识别，即识别出实体在文本中的位置；(2)确定实体类别。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了降低在构建专病知识图谱时对人力资源及时间资源的消耗，提升专病知识图谱的构建效率及知识合理性，本申请提供了一种专病知识图谱构建方法及装置，以下将通过具体实施例对本申请的专病知识图谱构建方法及装置进行详细阐述。

参考图1，为本申请实施例提供的专病知识图谱构建方法的一种流程图，如图1所示，该专病知识图谱构建方法可以包括以下处理过程：

步骤101、构建专病知识体系。

医学知识图谱的构建主要分为五个部分：医学知识体系构建、医学知识抽取、医学知识融合、质量评估及存储。医学知识体系构建主要是对医学概念分类、概念属性描述以及概念之间相互关系的定义；医学知识抽取是指通过从结构化、半结构化以及无结构化的医学数据中抽取医学实体、关系等医学知识图谱的构成元素，医学知识融合是指对医学知识库内容进行消歧和链接，增强内部的逻辑性和表达能力，并通过人工或自动的方式为医学知识图谱更新旧知识或补充新知识，质量评估则是保障数据的重要手段，可以提高医学知识图谱的可信度和准确度。

鉴于此，本申请在进行专病知识图谱的构建时，首先构建专病知识体系。

其中，对专病知识体系的构建，如上文所述，主要是通过设计专病知识图谱的概念层来构建专病知识图谱的概念层信息，可以包括但不限于构建专病概念分类信息、专病概念属性描述以及概念之间的相互关系信息；所述专病概念包括实体及属性的概念，所述相互关系信息包括实体与实体之间的关系及实体与属性之间的关系。

参考图2，图2提供了所构建的专病知识图谱概念层信息的一个示例，其中图2中的“检查”、“患者”、“治疗”、“疾病”、“临床表现”为所定义的多个不同的专病概念，“基本信息”为“患者”这一上位概念的一个下位概念(或者也可称为子概念)，“实验室检查”、“体格检查”、“影像学检查”均为“检查”这一上位概念的下位概念，“药物”、“手术”均为“治疗”这一上位概念的下位概念，且上述的各个概念属于实体概念，而图2中的“病因”及“解剖部位”则属于“疾病”这一实体的属性概念；图2中位于相应概念节点之间的连接线上的因素，如实体与实体节点之间的连接线上的因素或者实体与属性节点之间的连接上的因素等，相对应地为实体与实体之间的关系或者实体与属性之间的关系，在图2的示例中，这些关系信息具体包括：“instance_of”(属于)、“has_a”(具有)、“reason”(原因)、“locate”(位置)、“test_Disease”(检查疾病)、“detect”(侦测)、“Symptom_Disease”(疾病症状)。

不同的专病其概念层略有不同，具体实施中应以专病的实际情况为准构建相应的专病知识图谱概念层，同时在概念层的构建过程中优选地可咨询医学专家来协助完成概念层的相关设计。

在完成构建专病知识体系的基础上，可基于所构建的专病知识体系，从专病知识图谱的知识来源中进行实体、属性及关系等构建专病知识图谱所需的各组成元素的元素信息提取。

现有的专病知识图谱的知识来源相对单一，主要是从电子病历中获取医学知识的，从而所涵盖的医学知识相对有限，相应会导致所构建的专病知识图谱的知识结构不够全面，为了克服该问题，本申请方案纳入了多来源的医学知识，具体地，本申请中所述专病知识图谱的知识来源包含了专病电子病历、医学词表、医学网站、专病医学文献、专病临床指南、医学书籍，从而涵盖了较全的医学知识，可使得最终所构建的专病知识图谱的知识结构更为全面。

步骤102、基于所述专病知识体系，利用预先构建的实体抽取模型进行医学实体信息的抽取；所述实体抽取模型为基于预先标注的训练数据集所训练的模型，所述训练数据集基于如下处理方式得到：采用医学词表匹配的方式对医学文本进行实体信息标注，并基于人工方式对词表匹配结果进行审核和再标注。

在完成专病知识体系的构建后，本步骤102进一步从专病知识图谱的知识来源中进行医学实体信息的抽取。其中，具体可预先构建一具备医学实体信息抽取功能的实体抽取模型，进而利用该实体抽取模型从专病知识图谱的知识来源所提供的医学文本中进行医学实体信息的抽取。

在进行实体抽取模型的构建时，可首先进行数据集的标注以得到具有实体标注信息的训练数据集，区别于现有技术中采用人工标注方式实现数据集的标注，本申请通过使用医学词表匹配加人工审核、标注的方式来构造实体抽取模型训练时所需的训练数据集，即具体地，首先采用医学词表匹配的方式对医学文本进行实体信息标注，在此基础上，进一步基于人工方式对词表匹配结果进行审核和再标注，以最终得到可用于进行模型训练的具有实体标注信息的训练数据集。

在准备好用于进行模型训练的训练数据集后，可继续利用所准备的训练数据集来训练所需的实体抽取模型。目前在专病知识图谱构建方面对于词表的利用并不充分，医学词表如MeSH主题词表、ICD10、ICD-9-CM-3、国家基本药物目录等涵盖了大量的医学专有名词和修饰词，同时还收录了同一词的别名，这些词表可以在图谱构建的多个环节中发挥作用，鉴于此，本申请中的专病知识图谱构建方法同时还充分利用了词表来辅助构建医学实体抽取模型训练时所需的训练数据集。

目前在命名实体识别领域中识别效果较好的模型是BiLSTM-CRF模型，BiLSTM可借助模型的存储单元的结构来保存较长的依赖关系(该依赖关系能够体现医学文本中的上下文信息)，其主要从整体语义方面对文本进行分析，但是缺乏在句子层面上的特征分析，而CRF将实体序列标注的重点放在句子级别上，将两者结合起来可以保证在能够提取足够上下文信息的同时，还能够使用有效的序列标注方法进行实体序列标注。鉴于此，本申请中优选地采用BiLSTM-CRF模型进行实体抽取模型的训练。

BiLSTM-CRF模型的流程是先将文本信息如医学文本输入BiLSTM，然后将BiLSTM的输出结果(文本的上下文信息)输入CRF，这样就形成了BiLSTM-CRF结构。这种结构结合了BiLSTM和CRF的特点和优势：作为BiLSTM，它可以有效地保存文本中的较长的依赖关系，并提取其上下文信息；作为CRF，它能够利用文本中的上下文信息，进行具有很高准确率的实体序列标注，进而输出文本的实体序列，在模型训练过程中，可通过将BiLSTM-CRF模型的输出结果与训练集的特征标注进行比对来使得模型不断地学习训练数据集的实体特征，进而得到所需的实体抽取模型。

之后，可利用所构建的实体抽取模型按上述的处理流程从专病知识图谱的专病电子病历、医学词表、医学网站、专病医学文献、专病临床指南、医学书籍等多个知识来源所提供的医学文本中进行医学实体信息的抽取，从而得到构建专病知识图谱所需的医学实体信息。

在使用BiLSTM-CRF模型进行实体抽取识别的时候，现有的研究一般是以字向量或者词向量作为输入，在中文命名实体识别领域，基于字符的方法表现要优于基于词的方法，由此，现有技术在向BiLSTM-CRF模型输入中文文本信息时，通常采用向BiLSTM-CRF模型输入字向量的方式实现文本信息的输入。

然而，发明人经研究发现，在向BiLSTM-CRF模型进行信息输入时，仅使用字向量的话，则忽略了词信息以及词序信息，相应会导致影响最终的实体识别效果。为克服该问题，本申请提出了在实体识别阶段同时向BiLSTM-CRF模型输入字向量以及词向量，以此来提高模型的实体识别效果。

结合以上技术思路，本申请具体通过以下的处理过程进行医学实体信息的抽取识别：

1)提取医学文本中的字向量；

以“精神病性障碍是一种xxx疾病”这一医学文本为例，可提取其中的“精”、“神”、“病”…这些字符的字向量，参阅图3，在该图3中示例性示出了该医学文本中的“精”、“神”、“病”、“性”、“障”、“碍”这六个字符的字向量(其余字向量在图3中未示出)。

2)针对提取出的每个字向量，将该字向量与医学词典进行匹配，得到以该字向量对应的字符为结尾和/或开头的各个第一候选词语；

在提取出医学文本中的各个字向量后，针对提取出的每个字向量，本申请将该字向量与医学词典进行匹配，得到以该字向量对应的字符为结尾和/或开头的各个第一候选词语。

以所述字符“碍”的字向量为例，在将其与医学词典匹配后，假设可得到以该字符“碍”为结尾的“妨碍”、“障碍”、“阻碍”、“性障碍”、“精神病性障碍”这5个词语，则可以将这5个词语作为字符“碍”的字向量的第一候选词语。

3)将所述各个第一候选词语与所述医学文本进行匹配，得到各个第二候选词语，所述第二候选词语为存在于所述医学文本中的第一候选词语；

之后，进一步将从医学词典匹配出的上述各个第一候选词语与所述医学文本进行匹配，并将存在于所述医学文本中的各个第一候选词语作为所述字向量的第二候选词语。

仍以上述的字向量“碍”为例，在将其上述的5个第一候选词语与所述医学文本“精神病性障碍是一种xxx疾病”进行匹配后，可确定出3个第二候选词语(即存在于所述医学文本中的各个第一候选词语)：“障碍”、“性障碍”、“精神病性障碍”。

4)选取各个所述第二候选词语中字符长度最大的词语与该字向量进行配对，得到字向量-词向量对；

在上述处理的基础上，最终，从所述各个第二候选词语中选取出字符长度最长的第二候选词语与所述字向量进行配对，从而得到“字向量-词向量”对。

例如，对于上述的“障碍”、“性障碍”、“精神病性障碍”这3个第二候选词语，则可从中选取出“精神病性障碍”这一字符长度最长的词语与所述“碍”这一字向量进行匹配，从而得到“碍-精神病性障碍”这一“字向量-词向量”对。

如图3所示，通过对医学文本中的每个字向量进行上述的处理，则可得到该医学文本所对应的一系列“字向量-词向量”对，后续可将这一系列的“字向量-词向量”对作为BiLSTM-CRF中BiLSTM模型的输入。

5)将医学文本对应的各个字向量-词向量对按序输入预先构建的BiLSTM-CRF实体抽取模型中的BiLSTM模型，得到BiLSTM模型输出的该医学文本中的上下文信息；

6)将所述上下文信息输入所述BiLSTM-CRF实体抽取模型中的CRF模型，得到CRF模型基于所述上下文信息抽取的该医学文本中的实体信息；

这里，需要说明的是，本申请一方面：采用了按序输入“字向量-词向量”对的形式进行了模型信息输入，该信息输入形式在向模型提供了字向量信息的基础上，还同时向模型提供了词信息及次序信息，结合这些信息可使得模型能够更好的学习/提取医学文本的上下文信息，能够较好地确保最终的实体识别效果；另外，该“字向量-词向量”对的信息输入形式还可确保每个字向量与其所对应词向量的距离最近，为模型获得字向量的语义环境信息提供了方便(字所在的词语提供了字的语义环境信息)；另一方面：本申请在进行词向量的确定时，还结合采用了医学词典，并在采用医学词典的基础上，选取了以字向量对应的字符为结尾/开头的各个词语中字符长度最大的词语与该字向量进行配对，这相比于现有技术直接利用结巴分词等分词工具对文本进行分词进而确定词向量的方式(在基于现有技术的该方式对上文的医学文本进行分词时，一般会将“精神病性障碍”分词为“精神病”、“性”、“障碍”)，显然能够为该字向量提供更加全面、准确的语义环境信息，从而进一步确保了最终的实体识别效果。

步骤103、基于所述专病知识体系，进行医学实体的属性信息的抽取。

对医学实体的属性信息的抽取，具体可以包括对医学实体的属性的抽取，以及对医学实体的属性的属性值的抽取。

其中，在对医学实体的属性进行抽取时，本实施例充分利用医学网站半结构化的特点，从医学网络中抽取医学实体的相关属性，如图4所示，是某医学网站对于“奥替溴铵”这种药物的介绍，根据该介绍信息所对应的半结构化的网络结构，可以很容易地获取该药物的属性，如适应症、不良反应、用药禁忌、药物间相互作用这些属性等。

对于医学实体的属性的属性值的抽取，本实施例采用医学词表匹配的方式获取，以“不良反应”这一医学实体的属性(即为药物实体“奥替溴铵”的属性)为例，可从图4示出的半结构化的网页中按医学词表匹配的方式提取出其“偶见恶心”、“呕吐”、“上腹部疼痛”、“腹部不适”、“头疼”、“头晕”等属性值，由于医学网站的医学用语比较规范，因此采用医学词表匹配的方式就能达到很好的效果。

步骤104、基于所述专病知识体系，进行医学实体与医学实体之间的关系信息和/或医学实体与医学实体的属性之间的关系信息的抽取。

对于关系信息的抽取，如医学实体与医学实体之间的关系，或者医学实体与医学实体的属性之间的关系等，可采用在专病知识图谱概念层设计时所定义的关系信息。

示例性地，比如，可通过将医学实体的“实体-实体”对或者医学实体与医学实体的属性的“实体-属性”对，与图2中的专病知识图谱概念层信息进行匹配，来获知医学实体与医学实体之间的关系，或者医学实体与医学实体的属性之间的关系。

步骤105、基于所抽取的医学实体信息、医学属性信息及关系信息，构建专病知识图谱。

在抽取出构建专病知识图谱所需的各组成元素信息，如所述医学实体信息、医学实体的属性信息及所述关系信息后，可基于所抽取的这些信息，构建专病知识图谱，该步骤105所对应的处理环节属于上述五部分中的医学知识融合环节，医学知识融合是指至少对医学知识库内容如所抽取的实体、实体属性、关系等信息进行链接，从而最终可得到图状/网状的以实体/属性作为节点、以关系信息作为“实体-实体”节点对或“实体-属性”节点对之间的连接信息(即边信息)的专病知识图谱，至此，完成了专病知识图谱的初步构建。

由以上方案可知，本实施例所提供的专病知识图谱构建方法，在构建专病知识体系的基础上，利用预先构建的实体抽取模型进行医学实体信息的抽取，并进一步基于所述专病知识体系进行医学实体的属性信息及关系信息的抽取，最终基于所抽取的各项信息构建专病知识图谱，其中，所述实体抽取模型为基于预先标注的训练数据集所训练的模型，且所述训练数据集通过使用医学词表匹配结合人工审核、标注的方式构造得到。本申请在医学实体抽取中，通过使用医学词表匹配结合人工审核、标注的方式构造实体抽取模型训练时所需的训练数据集，可以减小构造训练数据集的工作量，降低了对人力资源及时间资源的消耗，同时还可提升专病知识图谱的构建效率及知识合理性。

在本申请的一可选实施例中，参考图5示出的本申请一种专病知识图谱构建方法的另一种流程图，所述专病知识图谱构建方法在所述步骤105之前，还可以包括：

步骤104’、对所抽取的医学实体信息、医学属性信息和/或医学关系信息中的同义词进行消歧归一处理。

由于本申请具体是从医学领域的多个知识来源中进行专病知识图谱构建所需的实体、实体属性及关系信息的抽取的，从而所抽取的各项信息难以避免可能存在同义词、别名等情况，针对该情况，本实施例中，在从医学领域的多个知识来源中抽取出专病知识图谱构建所需的实体、实体属性及关系等多种组成元素信息后，首先对所抽取的信息进行消歧归一处理，以消除所抽取的实体、实体属性和/或关系信息中存在同义词或别名的情况，使得对实体、实体属性和/或关系信息中的各词汇的描述统一化。

其中，医学词表如MeSH主题词表、ICD10、ICD-9-CM-3、国家基本药物目录涵盖了大量的医学专有名词和修饰词，同时还收录了同一词的别名，因此，具体可在知识融合阶段基于词表的规范性及所纳入的同义词完成多来源知识的消歧归一。

本实施例通过在知识融合阶段首先基于词表的规范性及所纳入的同义词完成多来源知识的消歧归一，进一步规范了专病知识图谱的知识信息。

在本申请的一可选实施例中，参考图6示出的本申请一种专病知识图谱构建方法的再一种流程图，所述专病知识图谱构建方法在所述步骤105之后，还可以包括：

步骤106、获取专业人员对所述专病知识图谱进行评价后所提供的完善信息，基于所述完善信息对所述专病知识图谱进行完善，并存储完善后的专病知识图谱。

所述专业人员可以包括但不限于知识图谱领域专家、临床专家等相关人员。

在完成专病知识图谱的初步构建后，可选地，还可以邀请知识图谱领域专家及临床专家等专业人员对专病知识图谱的合理性及完整性进行评价，并在评价完成之后进一步给出相应完善信息，相对应地，可基于知识图谱领域专家及临床专家等专业人员对所述专病知识图谱进行评价后所提供的完善信息，对所述专病知识图谱进行完善，并将完善后的专病知识图谱存储于图数据库，从而完成了专病知识图谱的最终构建及存储。

参考图7，示出了对应于上文所述的专病知识图谱构建过程的专病知识图谱构建逻辑示意图。

本申请通过在整个图谱构建过程中邀请知识图谱领域专家及医学专家进行指导并对图谱合理性及完整性进行评价，进而根据专家意见完善图谱，可使得最终所得的专病知识图谱具备较高的合理性及完整性。

对应于上述的专病知识图谱构建方法，本申请还提供了一种专病知识图谱构建装置，参考图8示出的专病知识图谱构建装置的结构示意图，该装置可以包括：

知识体系构建单元801，用于构建专病知识体系；

实体抽取单元802，用于基于所述专病知识体系，利用预先构建的实体抽取模型进行医学实体信息的抽取；所述实体抽取模型为基于预先标注的训练数据集所训练的模型，所述训练数据集基于如下处理方式得到：采用医学词表匹配的方式对医学文本进行实体信息标注，并基于人工方式对词表匹配结果进行审核和再标注；

属性抽取单元803，用于基于所述专病知识体系，进行医学实体的属性信息的抽取；

关系抽取单元804，用于基于所述专病知识体系，进行医学实体与医学实体之间的关系信息和/或医学实体与医学实体的属性之间的关系信息的抽取；

知识图谱构建单元805，用于基于所抽取的医学实体信息、属性信息及关系信息，构建专病知识图谱。

在本申请实施例的一可选实施方式中，所述专病知识图谱的知识来源包括：专病电子病历、医学词表、医学网站、专病医学文献、专病临床指南、医学书籍。

在本申请实施例的一可选实施方式中，所述知识体系构建单元801，具体用于：构建专病知识图谱的概念层信息；

所述知识体系构建单元801构建专病知识图谱的概念层信息，具体包括：构建专病概念分类信息、专病概念属性描述信息以及概念之间的相互关系信息；所述专病概念包括实体及实体属性的概念，所述相互关系信息包括实体与实体之间的关系和/或实体与属性之间的关系。

在本申请实施例的一可选实施方式中，所述实体抽取单元802，具体用于：利用预先构建的BiLSTM-CRF实体抽取模型中的BiLSTM模型抽取医学文本中的上下文信息；利用预先构建的BiLSTM-CRF实体抽取模型中的CRF模型，基于所述抽上下文信息抽取医学文本中的实体信息；

所述属性抽取单元803，具体用于：基于医学网站的半结构化特征，从医学网站中抽取医学实体的属性；采用词表匹配的方式从医学网站中抽取医学实体的属性的属性值；

所述关系抽取单元804，具体用于：从已构建的专病知识图谱的概念层信息中，抽取出医学实体与医学实体之间的关系信息和/或医学实体与医学实体的属性之间的关系信息。

在本申请实施例的一可选实施方式中，参考图9示出的专病知识图谱构建装置的结构示意图，该装置还可以包括：消歧归一单元806，用于对所抽取的医学实体信息、属性信息和关系信息中的同义词进行消歧归一处理。

在本申请实施例的一可选实施方式中，参考图10示出的专病知识图谱构建装置的结构示意图，该装置还可以包括：信息完善单元807，用于获取专业人员对所述专病知识图谱进行评价后所提供的完善信息，基于所述完善信息对所述专病知识图谱进行完善，并存储完善后的专病知识图谱。

对于本申请实施例公开的专病知识图谱构建装置而言，由于其与上文各实施例公开的专病知识图谱构建方法相对应，所以描述的比较简单，相关相似之处请参见上文各实施例中专病知识图谱构建方法部分的说明即可，此处不再详述。

综上所述，本申请的专病知识图谱构建方法及装置，相比于现有技术，具备以下优势：

(1)在进行专病知识图谱构建时，纳入了多来源的医学知识，涵盖的医学知识较为广泛；

(2)训练数据集的标注采用词典匹配和人工审核、标注相结合的方式，在减小工作量的同时，提高了标注质量；

(3)实体的属性及属性值的提取，充分利用了网页的半结构化特点及词表，减小了属性及属性值提取的工作量；

(4)邀请知识图谱专家及临床专家对专病知识图谱的构建进行指导和评估，图谱的合理性和质量有了更好的保障。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种专病知识图谱构建方法，其特征在于，包括：

构建专病知识体系；

基于所述专病知识体系，进行医学实体的属性信息的抽取；

基于所抽取的医学实体信息、属性信息及关系信息，构建专病知识图谱；

所述构建专病知识体系，包括：

构建专病知识图谱的概念层信息；

所述构建专病知识图谱的概念层信息，包括：

构建专病概念分类信息、专病概念属性描述信息以及概念之间的相互关系信息；所述专病概念包括实体及实体属性的概念，所述相互关系信息包括实体与实体之间的关系和/或实体与属性之间的关系；

所述利用预先构建的实体抽取模型进行医学实体信息的抽取，包括：

提取医学文本中的字向量；

所述进行医学实体的属性信息的抽取，包括：

2.根据权利要求1所述的方法，其特征在于，所述专病知识图谱的知识来源包括：专病电子病历、医学词表、医学网站、专病医学文献、专病临床指南、医学书籍。

3.根据权利要求1-2任一项所述的方法，其特征在于，在所述基于所抽取的医学实体信息、属性信息及关系信息，构建专病知识图谱之前，还包括：

4.根据权利要求 1-2任一项所述的方法，其特征在于，在所述基于所抽取的医学实体信息、属性信息及关系信息，构建专病知识图谱之后，还包括：

5.一种专病知识图谱构建装置，其特征在于，包括：

知识体系构建单元，用于构建专病知识体系；

知识图谱构建单元，用于基于所抽取的医学实体信息、属性信息及关系信息，构建专病知识图谱；

所述知识体系构建单元，具体用于：

构建专病知识图谱的概念层信息；

所述实体抽取单元，具体用于：

提取医学文本中的字向量；针对提取出的每个字向量，将该字向量与医学词典进行匹配，得到以该字向量对应的字符为结尾和/或开头的各个第一候选词语；将所述各个第一候选词语与所述医学文本进行匹配，得到各个第二候选词语，所述第二候选词语为存在于所述医学文本中的第一候选词语；选取各个所述第二候选词语中字符长度最大的词语与该字向量进行配对，得到字向量-词向量对；将医学文本对应的各个字向量-词向量对按序输入预先构建的BiLSTM-CRF实体抽取模型中的BiLSTM模型，得到BiLSTM模型输出的该医学文本中的上下文信息；将所述上下文信息输入所述BiLSTM-CRF实体抽取模型中的CRF模型，得到CRF模型基于所述上下文信息抽取的该医学文本中的实体信息；

6.根据权利要求5所述的装置，其特征在于，所述专病知识图谱的知识来源包括：专病电子病历、医学词表、医学网站、专病医学文献、专病临床指南、医学书籍。

7.根据权利要求5-6任一项所述的装置，其特征在于，还包括：

8.根据权利要求5-6任一项所述的装置，其特征在于，还包括：