CN113486667A

CN113486667A - 一种基于实体类型信息的医疗实体关系联合抽取方法

Info

Publication number: CN113486667A
Application number: CN202110846235.2A
Authority: CN
Inventors: 王星; 唐楠楠; 陈吉; 蹇木伟
Original assignee: Liaoning Technical University; Linyi University
Current assignee: Liaoning Technical University; Linyi University
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-08
Anticipated expiration: 2041-07-26
Also published as: CN113486667B

Abstract

本发明提供了一种基于实体类型信息的医疗实体关系联合抽取方法，包括对医疗文本数据集进行预处理；将训练数据句子中的每一个词转化成对应的词向量，构建词嵌入层；根据医疗文本的词向量表示，获取具有特征信息的文本特征向量表示；通过分层的指针标注方法，并融合实体类型信息，抽取出医学文本中的关系三元组。本发明将实体类型信息加入到医疗实体关系联合抽取训练模型中，实体类型信息与上下文信息对于关系抽取模型同样重要，融合了实体类型信息的模型使得实体与关系之间的依赖性更强，联系更为紧密，增强了实体关系抽取模型的性能；基于分层的指针网络模型，将关系建模为主语到宾语的映射，较好的处理医疗文本数据中存在的实体关系重叠问题。

Description

一种基于实体类型信息的医疗实体关系联合抽取方法

技术领域

本发明涉及自然语言处理的技术领域，尤其涉及一种基于实体类型信息的医疗实体关系联合抽取方法。

背景技术

随着医疗信息化建设的高速发展，电子病历数据不断累积。如何从大量非结构化电子医疗病例中获取有价值的信息以推动医疗事业的发展，受到医学界的广泛关注。实体关系抽取是获取结构化信息的关键步骤，对于医疗问答系统、医疗信息检索等任务以及医疗知识图谱的构建有重要意义。

目前，实体关系抽取方法根据抽取顺序分为流水线方法和联合抽取方法。流水线方法将实体识别和关系抽取视为两个独立的任务依次进行，虽然操作灵活，但忽略了两个任务的内在联系，容易产生误差累计。联合抽取的方法将实体识别和关系分别进行联合建模，能够更好地整合两个子任务之间的联系，获得较好的抽取效果。因而现有的医疗实体关系抽取多数采用联合抽取的方法。

尽管目前的关系抽取模型已经取得了较大的进展，但对于医疗领域实体关系抽取来说抽取效果仍有较大提升空间，主要原因包括以下几点：

1、实体关系发生重叠的现象普遍存在，尤其在医学文本中更为常见。重叠情况包括实体对重叠和单一实体重叠，比如句子“慢性淋巴细胞白血病会导致溶血和继发性贫血”中包括(慢性淋巴细胞白血病，并发症，溶血)和(慢性淋巴细胞白血病，并发症，继发性贫血)两个关系三元组，属于单一实体重叠情况。然而，多数现有的抽取模型无法完整抽取出重叠的三元组，因为这些模型将关系视为实体对上的离散函数，无法较好的解决句子中包含相互重叠的多个三元组的问题。

2、相关研究表明文本语境和实体提及(主要为实体类型)都为关系抽取提供了关键信息，但多数现有的关系抽取方法仅仅利用上下文信息而忽略实体类型信息的重要性，不利用实体类型信息会导致模型中实体和关系缺乏内在的交互，从而限制实体关系抽取模型的性能。

3、现有的关系抽取模型多数采用Bi-LSTM网络编码来获取上下文信息，该网络虽然可以捕获长距离依赖信息，但是无法挖掘出句子中的重点词汇，从而导致从文本中获取的语义特征信息不够准确。特别地，在医疗领域关系抽取中，区分词的重要程度对于文本信息的理解更为重要。

因此，需要一种基于实体类型信息的医疗实体关系联合抽取方法，以解决现有关系抽取技术存在的问题。

发明内容

针对上述技术问题，本发明的目的在于提供一种基于实体类型信息的医疗实体关系联合抽取方法，基于分层的指针标注框架，将实体类型信息加入到模型训练中，以解决相关技术中医疗实体关系发生重叠难以抽取的问题，并通过实体提及信息来提高模型性能。

为实现上述目的，本发明提供了一种基于实体类型信息的医疗实体关系联合抽取方法，包括如下步骤：

S1：对医疗文本数据集进行预处理；

S2：将训练数据句子中的每一个词转化成对应的词向量，构建词嵌入层；

S3：根据医疗文本的词向量表示，获取具有特征信息的文本特征向量表示；

S4：通过分层的指针标注方法，并融合实体类型信息，抽取出医学文本中的关系三元组。

可选的，所述步骤S1的步骤如下：

步骤1.1：对医疗电子病历数据集进行清洗；

步骤1.2：根据医疗领域词典进行分词，得到训练语料。

优选的，所述步骤S2中，通过预训练语言模型BERT动态的训练医疗文本词向量。

进一步的，所述步骤S3中，通过多头注意力机制学习医疗文本句子的内部结构信息，注意力机制通过计算每两个词之间的相似度，挖掘出句子中的重点词汇。

可选的，所述步骤S4的步骤如下：

S4.1：采用单层的指针标注对句子进行主语的标记，将步骤S3中获取的医疗文本特征向量输入到两个相同的Sigmoid指针标注器中，两个指针分别代表开始和结束，通过Sigmoid函数预测该位置为主语开始位置或结束位置的概率，给定一个阈值，如果该位置的概率大于给定阈值，则标记该位置为1，表示是边界位置，否则标记为0，由此判断出主语；

S4.2：将开始指针和结束指针标记出的主语的首尾位置间的特征向量进行连接，获取主语的特征向量，通过SoftMax对主语向量进行预测，判断主语的实体类型信息；

S4.3：依次取句子中的每一个主语，将主语的实体类型信息与主语向量进行连接，再将连接好的特征向量通过层归一化的方式融合到医疗文本的特征向量中，作为抽取宾语模型的输入；

S4.4：在每一种预定义的关系条件下，采用分层的指针标注，针对每一个主语标记其对应的宾语，具体操作表示为将步骤S4.3中获取的特征向量分别输入到N对二进制指针标注器中，预测宾语的头尾位置；

S4.5：判断宾语的实体类型，将实体对信息和实体类型信息作为约束条件，抽取出医疗文本中的三元组。

由上，本发明的基于实体类型信息的医疗实体关系联合抽取方法至少具有如下有益效果：

1、本发明将实体类型信息加入到医疗实体关系联合抽取训练模型中，实体类型信息与上下文信息对于关系抽取模型同样重要。融合了实体类型信息的模型使得实体与关系之间的依赖性更强，联系更为紧密，增强了实体关系抽取模型的性能。

2、本发明采用预训练语言模性BERT训练词向量，相比Word2vec、Glove训练的静态词向量，本发明的动态词向量可以解决多义词问题，使词向量蕴含的语义信息更为丰富。并且通过多头注意力机制编码上下文信息，可以多维度获取更为丰富的语义特征信息，还能挖掘出医疗文本句子中的重点词汇，同时忽略无关词信息。

3、本发明基于分层的指针网络模型，通过将关系建模为主语到宾语的映射，可以较好的处理医疗文本数据中存在的实体关系重叠问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。为了更清楚的说明本发明实施例的技术方案，下面将对实施例的附图作简单介绍。

图1为本发明中医疗实体关系联合抽取方法流程图；

图2为本发明中预训练语言模型的示意图；

图3为本发明中多头注意力机制的示意图；

图4为本发明中医疗实体关系联合抽取方法的模型示意图。

具体实施方式

下面参见图1～图4对本发明所述基于实体类型信息的医疗实体关系联合抽取方法进行详细说明。

本发明构建了基于实体类型信息的医疗实体关系联合抽取方法，具体包括如下步骤：

步骤1：对医疗文本数据集进行预处理。其中包括对医疗电子病历数据集进行清洗，以及根据医疗领域词典进行分词来得到训练语料。本发明所采用的数据集为中文医学信息抽取数据集CMeIE(Chinese Medical Information Extraction)。该数据集中标注出了三元组信息，包括实体，关系，以及实体类型信息。

步骤2：将训练数据句子中的每一个词转化成对应的词向量，构建词嵌入层。通过预训练语言模型BERT动态的训练医疗文本词向量，以往通过Word2vec、Glove训练的词向量为静态的，不能处理一词多义。BERT是基于Transformer的双向编码表征模型。BERT模型的输入向量为分割向量，词向量和每个词的位置向量三种向量之和，可以更好地编码上下文信息，本发明用H表示BERT编码的词向量。

步骤3：根据医疗文本的词向量表示，获取具有特征信息的文本特征向量表示。通过多头注意力机制学习医疗文本句子的内部结构信息，注意力机制是通过计算每两个词之间的相似度，挖掘出句子中的重点词汇，如公式(1)。

其中Q、K、V分别表示查询矩阵、键矩阵和值矩阵，

是键维度的平方根，T表示矩阵转置。本发明从不同的表示子空间表示，可以多维度的获取医疗文本句子中的特征信息，关键信息具有较高权重，无关信息具有较低权重。公式如下，其中h为注意力头数，

为不同的参数矩阵，head_i表示每个子空间的注意力，Concat表示连接操作为，W^o变换矩阵，M为输出的特征向量。

M(Q,K,V)＝Concat(head₁,…,head_h)W^o (3)

步骤4：通过分层的指针标注方法，并融合实体类型信息，抽取出医学文本中的关系三元组。

步骤4.1：采用单层的指针标注对句子进行主语的标记。将步骤3中获取的医疗文本特征向量输入到两个相同的Sigmoid指针标注器中，两个指针分别代表开始和结束，通过Sigmoid函数预测该位置为主语开始位置或结束位置的概率。如公式(4)、(5)所示。

其中

代表该位置为边界位置的概率，W_start/end和b_start/end分别代表参数矩阵和偏置矩阵，m_i为输入向量M中对应第i个位置的向量，给定一个阈值，如果该位置的概率大于给定阈值，则标记该位置为1，表示是边界位置，否则标记为0，由此判断出主语。

步骤4.2：将开始指针和结束指针标记出的主语的首尾位置间的特征向量进行连接，获取主语的特征向量，用S_i表示抽取出的第i个主语。通过SoftMax对主语向量进行预测，判断主语的实体类型信息，用

表示第i个主语的实体类型信息。

步骤4.3：依次取句子中的每一个主语，将主语的实体类型信息与主语向量进行连接，如公式(6)所示。

再将连接好的特征向量S_i'通过改进的层归一化的方式融合到医疗文本的特征向量中，作为抽取宾语模型的输入。层归一化公式为：

其中m_i为输入向量，α和β是模型的参数，σ²为方差，μ为均值，ε是趋近于0的正数。改进的层归一化将主语的类型向量与主语向量连接后的特征向量S_i'，通过变化矩阵W_α、W_β转化成与α和β同样的维度，融合到特征向量M中。具体操作如公式(8)所示。

步骤4.4：在每一种预定义的关系条件下，采用分层的指针标注，针对每一个主语标记其对应的宾语。具体操作表示为将步骤4.3中获取的特征向量分别输入到N对二进制指针标注器中，预测宾语的头尾位置。详细的操作如公式(9)、(10)所示，其中

代表该位置为边界位置的概率，

和

分别代表关系条件下的参数矩阵和偏置矩阵，m_i'为输入向量M'中对应第i个位置的向量。

步骤4.5：判断宾语的实体类型，将实体对信息和实体类型信息作为约束条件，抽取出医疗文本中的三元组。

由于模型中在预测主语和宾语之后，又分别对主语和宾语的类型进行了预测，所以损失函数包括主语、主语类型、关系条件下宾语预测、宾语类型预测四部分损失函数之和。

在损失函数层次上，对主语和宾语的实体类型进行约束，使得医疗实体关系模型可以充分利用医疗实体的类别信息，更有效的提升联合抽取模型的抽取性能。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于实体类型信息的医疗实体关系联合抽取方法，其特征在于，包括如下步骤：

S1：对医疗文本数据集进行预处理；

2.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法，其特征在于，所述步骤S1的步骤如下：

步骤1.1：对医疗电子病历数据集进行清洗；

步骤1.2：根据医疗领域词典进行分词，得到训练语料。

3.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法，其特征在于，所述步骤S2中，通过预训练语言模型BERT动态的训练医疗文本词向量。

4.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法，其特征在于，所述步骤S3中，通过多头注意力机制学习医疗文本句子的内部结构信息，注意力机制通过计算每两个词之间的相似度，挖掘出句子中的重点词汇。

5.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法，其特征在于，所述步骤S4的步骤如下：