CN109145120B

CN109145120B - 医学健康领域知识图谱的关系抽取方法及系统

Info

Publication number: CN109145120B
Application number: CN201810708686.8A
Authority: CN
Inventors: 常德杰; 孔飞; 卜江勇; 赵进; 刘邦长; 刘朝振; 姜鹏
Original assignee: Beijing Miaoyijia Information Technology Co ltd
Current assignee: Beijing Miaoyijia Information Technology Co ltd
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2021-11-02
Anticipated expiration: 2038-07-02
Also published as: CN109145120A

Abstract

本发明公开了一种医学健康领域知识图谱的关系抽取方法及系统，该关系抽取方法包括：步骤S1，构造训练语料；步骤S2，将所述训练语料输入至基于Bi‑GRU和双重关注的模型进行训练，以得到关系抽取模型，所述双重关注包括字级别的关注和句子级别的关注；步骤S3，使用关系抽取模型预测知识文本中的实体之间的关系。本发明的上述技术方案，能够在构建医疗健康领域知识图谱中自动发现实体之间的关系。

Description

医学健康领域知识图谱的关系抽取方法及系统

技术领域

本发明涉及一种医学健康领域知识图谱的关系抽取方法及系统。

背景技术

如果知识是人类进步的阶梯，知识图谱就是AI(Artificial Intelligence，人工智能)进步的阶梯。知识图谱作为一项AI领域的底层技术，可以把人类的知识转化为机器可理解的知识，是AI在行业领域内深化机器智能最为重要的技术之一。最近几年各个行业在机器智能领域都在建立行业内知识图谱以提供深度的知识服务。

在全数据时代，知识图谱将原本没有联系的数据连接起来，可以发现数据间人类尚未发现的关系，这些发现可用于医疗领域内的药物研制、疾病的深度探索等等。知识图谱还可用于知识问答、用户检索、行为决策等等领域。

但是，知识图谱的构建却具有很大的技术难度，需要使用自然语言处理技术、数据库技术和语义推理等多重技术作支持，同时还需要大量的专业人员参与校验。总之，想建立一个关于全部人类知识的广义图谱是非常巨大的工程，目前只有少数几家公司和组织在尝试。另一方面针对各个行业领域的领域内的知识图谱也正方兴未艾，相比于上述广义知识图谱，领域内知识图谱只需关注某个领域的人类知识即可，其可构建化成本也要小很多，例如医疗健康领域内的知识图谱。

然而，面对海量的自由文本和医学专家文章，若人工构建医学知识图谱需要花费巨大的人力物力。所以近几年业内开始尝试使用机器学习的方式自动构建知识图谱，常规的自动构建方式在抽取关系对上的准确率有待提升，无法达到工业级的应用标准。困难在于：一是常规机器学习方法的瓶颈在处理海量数据里力不从心，二是组织起高质量的训练语料非常困难，即便有了更好的算法，但是没有高质量的训练语料也达不到好的效果。

针对相关技术中的上述问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的上述问题，本发明提出一种医学健康领域知识图谱的关系抽取方法及系统，能够在构建医疗健康领域知识图谱中自动发现实体之间的关系。

本发明的技术方案是这样实现的：

根据本发明的一个方面，提供了一种医学健康领域知识图谱的关系抽取方法，包括：

步骤S1，构造训练语料，

步骤S2，将训练语料输入至基于Bi-GRU和双重关注的模型进行训练，以得到关系抽取模型，双重关注包括字级别的关注和句子级别的关注；

步骤S3，使用关系抽取模型预测知识文本中的实体之间的关系。

根据本发明的实施例，在步骤S1中，构造训练语料包括：根据知识图谱抽取其中的关系对，并在语料库中选择正确的句子，以构造正关系对样本。

根据本发明的实施例，在步骤S1中，构造训练语料还包括：随机抽取没有关系的实体对，并在语料库中随机抽取与没有关系的实体对共现的句子，以构造负关系对样本。

根据本发明的实施例，步骤S2包括：将训练语料中的每一个字符输入作为字嵌入，随后对每个句子的输入进行训练并加入字级别的关注。

根据本发明的实施例，步骤S3包括：识别知识文本中的实体；提取与识别的实体共现的句子；根据提取的句子，并使用关系抽取模型预测识别的实体之间的关系。

根据本发明的实施例，其中，基于Bi-GRU和双重关注的模型的输入层包括句子、实体对、以及实体对之间的关系。

根据本发明的实施例，实体对中的实体是医疗健康术语。

根据本发明的实施例，步骤S1包括：通过资料收集人工整理出多种关系，所述多种关系包括以下关系之中的任意多种：疾病与症状、疾病与检查、疾病与食谱、疾病与药物、疾病与运动、食谱与食材、症状与检查、症状与食谱、症状与药物。

根据本发明的另一方面，提供了一种医学健康领域知识图谱的关系抽取系统，包括顺序连接的以下模块：

语料构造模块，用于构造训练语料，并且构造的训练语料包括句子、实体对、以及实体对之间的关系；

训练模块，用于将训练语料输入至基于Bi-GRU的模型进行训练，并在训练中加入字级别的关注和句子级别的关注；

模型导出模块，用于导出训练后的模型从而得到关系抽取模型，关系抽取模型用于预测知识文本中的实体之间的关系。

本发明的上述技术方案，通过基于深度神经网络Bi-GRU和Dual Attention模型进行医疗健康领域的知识抽取，能够在构建医疗健康领域知识图谱中自动发现实体关系，针对患者病例或医学论文可自动抽取其中的实体关系，以自动扩充医疗健康知识图谱。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的医学健康领域知识图谱的关系抽取方法的流程图；

图2是根据本发明实施例的基于Bi-GRU和Dual Attention模型的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

构成知识图谱的最小单元既是由关系连接的一个实体对。在医疗健康知识图谱中，每个实体都是医疗健康知识中的一个具体的术语，比如疾病、药品、手术、身体部位等等。在知识图谱构建初期，需要专业人员整理这些关系，等知识图谱初具规模，就可以使用本发明的关系抽取方法对文本知识进行关系抽取。这样可减轻大量的人员成本，让系统自动发现实体关系，可以让知识图谱自动发现隐藏的知识。

结合图1和图2所示，本发明提供了一种医学健康领域知识图谱的关系抽取方法10，包括：

步骤S12，构造训练语料。

步骤S14，将训练语料输入至基于Bi-GRU(Bidirectional-Gate Recurrent Unit)和双重关注(Dual Attention)的模型进行训练，以得到关系抽取模型。其中，双重关注包括字级别的关注和句子级别的关注。Bi-GRU神经网络属于循环神经网络(Recurrent neuralNetwork，RNN)的一变种。

步骤S16，使用关系抽取模型预测知识文本中的实体之间的关系。

根据本发明的实施例，实体对中的实体是医疗健康术语。

具体来说，本发明的关系抽取方法10开始于步骤S12，并在步骤S12处构造训练语料。构造训练语料可以包括：根据知识图谱抽取其中的关系对，并在语料库中选择正确的句子，以构造正关系对样本。构造训练语料还可以包括：随机抽取没有关系的实体对，并在语料库中随机抽取与没有关系的实体对共现的句子，以构造负关系对样本。也就是说，训练语料可以分为正关系对样本和负关系对样本，对于正关系对，可依赖于既有的知识图谱抽取其中的关系对，并在既有的语料库中寻找正确的句子以组成正样本集。对于负样本，我们随机抽取没有关系的实体，然后在语料中随机抽取实体对共现的句子以组成负样本集。

在该步骤S12中，可以通过资料收集和医生人工整理，整理出以下18种关系：疾病与症状，疾病与检查，疾病与食谱，疾病与药物，疾病与运动，食谱与食材，症状与检查，症状与食谱，症状与药物。根据实际情况，可以对上述的多种关系进行选择或其他配置。

其中，训练语料的格式标注举例如下：肺炎|疾病的症状有|关系发烧|症状。

然后，生成字向量，该字向量是在既有的语料库上训练得到的，然后可以对正负训练样本做字嵌入准备。训练集和测试集可以按照80％和20％划分。

随后关系抽取方法10进行到步骤S14，在训练语料准备好后，使用模型训练模块对语料进行训练，待模型收敛后，导出模型即可使用。

如图2所示，步骤S14可以具体包括：将训练语料中的每一个字符输入作为字嵌入(character embedding)，随后对每个句子的输入进行训练并加入字级别的关注。在图2中，S1、S2、...、Sn分别表示各个句子向量，r1、r2、...、rn分别表示实体间的关系，并通过α1、α2、...、αn得到最终的关系。

基于Bi-GRU和Dual Attention的模型的输入层为句子和关系对，例如，如表1所示。

表1

关系抽取方法10进行到步骤S16，使用关系抽取模型预测知识文本中的实体之间的关系。步骤S16可以具体包括以下子步骤：

S162，识别知识文本中的实体；

S164，提取与识别的实体共现的句子；

S166，根据提取的句子，并使用关系抽取模型预测识别的实体之间的关系。

以实体是医疗健康术语为例，步骤S16可以包括：给定知识文本，先识别知识文本中的医疗健康术语，然后提取医疗健康术语共现的句子，接下来使用关系抽取模型预测医疗健康术语间的关系，即可抽取其中的知识。

以下是本发明的关系抽取方法预测实体之间关系的实例：

实例1：

句子：如2周岁以内的孩子，发生在秋冬季节，水样便腹泻，以轮状病毒肠炎可能性大；发生在夏季以产毒性大肠杆菌肠炎可能性大；粘液脓血便要考虑细菌性痢疾，此外也要考虑其它侵袭性细菌感染，如侵袭性大肠杆菌肠炎。

实体1:肠炎

实体2:细菌感染

关系预测:

No.1:Disease_to_Symptom,Probability is 0.9999658

No.2:unknown,Probability is 3.4227043e-05。

在该实例1中，No.1表示实体1与实体2之间的关系是疾病并发症状的可能性为0.9999658；No.2表示实体1与实体2之间的不存在关系(unknown)的可能性为3.4227043e-05。

实例2：

句子：按摩太冲穴对爱发火和忧郁的人都有舒缓作用，尤其对高血压、头痛、乳房胀痛、月经不调等患者具有良好的治疗养生功效。

实体1:高血压

实体2:乳房胀痛

关系预测:

No.1:unknown,Probability is 1.0

No.2:Disease_to_Symptom,Probability is 4.817816e-08。

在该实例2中，No.1表示实体1与实体2之间的不存在关系(unknown)的可能性为1.0；No.2表示实体1与实体2之间的关系是疾病并发症状的可能性为4.817816e-08。

根据本发明的实施例，还提供了一种医学健康领域知识图谱的关系抽取系统，包括顺序连接的以下模块：

语料构造模块，用于构造训练语料，并且构造的所述训练语料包括句子、实体对、以及实体对之间的关系；

训练模块，用于将所述训练语料输入至基于Bi-GRU的模型进行训练，并在所述训练中加入字级别的关注和句子级别的关注；

综上所述，借助于本发明的上述技术方案，运用神经网络在自然语言处理中的细致入微优势，使用Bi-GRU加Dual Attention模型训练出的分类系统，并把训练语料中的每个句子中的每一个字符输入作为字嵌入，然后对句子输入做训练并加入字级别的关注。这样训练出的模型在对文本做关系推断时可以不依赖分词，执行效率更快。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种医学健康领域知识图谱的关系抽取方法，其特征在于，包括：

步骤S1，构造训练语料，构造的所述训练语料包括句子、实体对、以及实体对之间的关系；

步骤S2，将所述训练语料输入至基于Bi-GRU和双重关注的模型进行训练，以得到关系抽取模型，所述双重关注包括字级别的关注和句子级别的关注；

步骤S3，使用关系抽取模型预测知识文本中的实体之间的关系，

其中，所述步骤S3包括：

识别所述知识文本中的实体；

提取与识别的实体共现的句子；

根据提取的句子，并使用关系抽取模型预测识别的实体之间的关系。

2.根据权利要求1所述的医学健康领域知识图谱的关系抽取方法，其特征在于，在步骤S1中，构造训练语料包括：

根据知识图谱抽取其中的关系对，并在语料库中选择正确的句子，以构造正关系对样本。

3.根据权利要求2所述的医学健康领域知识图谱的关系抽取方法，其特征在于，在步骤S1中，构造训练语料还包括：

随机抽取没有关系的实体对，并在所述语料库中随机抽取与没有关系的实体对共现的句子，以构造负关系对样本。

4.根据权利要求1所述的医学健康领域知识图谱的关系抽取方法，其特征在于，步骤S2包括：

将所述训练语料中的每一个字符输入作为字嵌入，随后对每个句子的输入进行训练并加入所述字级别的关注。

5.根据权利要求1所述的医学健康领域知识图谱的关系抽取方法，其特征在于，

所述实体对中的实体是医疗健康术语。

6.根据权利要求1所述的医学健康领域知识图谱的关系抽取方法，其特征在于，步骤S1包括：

通过资料收集人工整理出多种关系，所述多种关系包括以下关系之中的任意多种：疾病与症状、疾病与检查、疾病与食谱、疾病与药物、疾病与运动、食谱与食材、症状与检查、症状与食谱、症状与药物。

7.一种医学健康领域知识图谱的关系抽取系统，其特征在于，包括顺序连接的以下模块：

模型导出模块，用于导出训练后的模型从而得到关系抽取模型，关系抽取模型用于预测知识文本中的实体之间的关系，

其中，所述模型导出模块还用于：

识别所述知识文本中的实体；

提取与识别的实体共现的句子；