CN110569506A

CN110569506A - 一种基于医疗词典的医疗命名实体识别方法

Info

Publication number: CN110569506A
Application number: CN201910834690.3A
Authority: CN
Inventors: 齐涛; 黄永峰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2019-12-13

Abstract

本发明提出一种基于医疗词典的医疗命名实体识别方法，属于命名体识别和生物信息领域。该方法首先对待识别的医疗文本和医疗词典预处理，分别对医疗文本和医疗词典的医疗实体进行局部信息建模，得到医疗文本字符的局部上下文表示和医疗实体字符的局部上下文表示；对医疗文本全局信息进行建模，得到医疗文本字符的全局上下文表示，获取医疗实体识别损失函数；对医疗实体字符的局部上下文表示进行池化得到医疗实体的表示，获取医疗实体分类损失函数；将两个损失函数加权相加并优化，得到最终的医疗文本的医疗命名实体识别结果。本发明有效地提升了医疗实体识别的性能，同时能很好地识别普通实体和罕见实体。

Description

一种基于医疗词典的医疗命名实体识别方法

技术领域

本发明涉及命名体识别和生物信息领域，具体涉及一种基于医疗词典的医疗命名实体识别方法，用于从医疗文本中抽取医疗实体。

背景技术

医疗命名实体识别旨在从医疗文本中提取医疗实体，并对其类别进行分类，例如药物，手术，症状，疾病和身体部位。例如，给出一个句子“五月前患者出现下肢水肿”，医疗命名实体识别的目标是从这句话中提取“下肢”和“水肿”，并将它们分别分类为身体部位实体和疾病实体。医疗命名实体识别是智能医疗保健中的一项重要任务，也是许多下游任务的重要先决条件，例如药物重新定位，实体链接和临床决策支持系统。因此，近年来医疗命名实体识别越来越受到关注。

然而，医疗命名实体识别的标记数据通常是小尺寸的，并且在医疗文本中存在许多难以被有限标记数据覆盖的稀有实体。因此，现有的命名实体识别方法识别医疗命名实体是非常具有挑战性的。幸运的是，许多大型医疗词典都是现成的，可以涵盖许多医疗命名实体，包括普通医疗实体和罕见医疗实体。因此，这些词典有可能帮助改善医疗命名实体识别的表现。

近年来，深度学习方法已被广泛用于命名实体识别。大多数这些方法将命名实体识别建模为序列标记问题。例如，Lample等人提出了一种用于英文命名实体识别的LSTM-CRF 架构，其中长短时记忆网络(LSTM)用于学习上下文单词表示，条件随机场(CRF)用于解码单词标签。Chiu等人提出了一种用于英文命名实体识别的CNN-LSTM-CRF架构，它与LSTM-CRF非常相似，只是他们使用卷积神经网络(CNN)来利用单词中的字母学习单词的表示。由于中文文本中没有自然分隔符来分隔短语，因此许多中文命名实体识别方法将此任务建模为字符级序列标记问题。例如，董等人提出了一个字符级LSTM-CRF框架。这些现有的命名实体识别方法通常依赖于大量标记数据来训练神经网络模型，然而标注数据通常是非常昂贵且耗时的。此外，这些方法通常难以识别在训练数据中很少或不出现的实体。然而，医疗命名实体识别的标记数据通常很少。此外，医疗文本中有许多罕见的实体，很难被有限的标记数据所覆盖。因此，现有的命名实体识别方法识别医疗实体是非常具有挑战性的，并且它们在医疗命名实体识别中的表现通常是不令人满意的。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种基于医疗词典的医疗命名实体识别方法。该方法有效地提升了医疗实体识别的性能，同时能很好地识别普通实体和罕见实体。

本发明提出一种基于医疗词典的医疗命名实体识别方法，其特征在于，包括以下步骤：

1)对待识别的医疗文本进行预处理，将所述文本进行分句并转换为对应的字符序列；对医疗词典进行预处理，将词典中的医疗实体转换为对应的字符序列；

2)对步骤1)预处理完毕的的医疗文本进行局部信息建模，得到医疗文本字符的局部上下文表示；

3)对步骤1)预处理完毕医疗词典的医疗实体进行局部信息建模，得到医疗实体字符的局部上下文表示；

4)对预处理完毕的医疗文本全局信息进行建模，得到医疗文本字符的全局上下文表示；

5)对医疗实体字符的局部上下文表示进行池化得到医疗实体的表示；

6)基于医疗文本字符的全局上下文表示对医疗文本各字符的标签进行解码，得到预测的医疗命名实体以及医疗实体识别的损失函数；

7)基于医疗实体的表示进行医疗实体的分类，利用softmax函数对分类概率归一化，得到医疗实体分类损失函数；

8)利用医疗实体识别的损失函数和医疗实体分类的损失函数加权相加得到最终的损失函数并进行优化，得到最终的医疗文本的医疗命名实体识别结果。

本发明的特点及有益效果在于：

本发明基于医疗词典知识，使用了一个多任务联合学习的框架，首先从医疗文本捕捉医疗文本的局部信息和全局信息得到向量序列的表示并利用联合解码标签序列，同时利用一个实体分类的辅助任务，实体从医疗词典中获得并和医疗实体识别模型共享部分网络。通过共同学习和训练，该方法能有效地将词典知识融入到医疗实体识别模型中，有效地提升了医疗实体识别的性能，同时能同时很好地识别常见实体和罕见实体。

附图说明

图1为本发明方法的整体流程图。

图2为本发明一个具体实施例中本发明方法的工作原理图。

具体实施方式

本发明提出一种基于医疗词典的医疗命名实体识别方法，下面结合附图和具体实施例对本发明进一步详细说明如下。

本发明提出一种基于医疗词典的医疗命名实体识别方法，整体流程如图1所示，包括以下步骤：

1)对待识别的医疗文本进行预处理，将所述文本进行分句，并转换为对应的字符序列。对医疗词典进行预处理，将词典中的医疗实体转换为对应的字符序列。

2)对步骤1)预处理完毕的医疗文本进行局部信息建模，得到医疗文本字符的局部上下文表示；

进一步地，在本发明的一个实施例中，步骤2)包括：使用字符向量嵌入矩阵查找医疗文本字符的向量表示；使用字符级别的卷积神经网络，根据每个字符的局部上下文学习医疗文本字符的隐向量表示。

局部信息对于医疗实体的识别十分重要。例如，在“胃癌”中，通过字符“癌”，我们可以很容易地推断，字符“胃”不是一个身体部位实体，而是疾病实体名称的一部分。可以理解的是，本发明实施例可以对通过对医疗文本中的字符对医疗文本进行建模，使用字符嵌入矩阵查找所述字符的语义向量表示；并使用字符级别的卷积神经网络，从字符的语义向量表示学习字符的局部上下文表示。

具体而言，图2为本发明实施例的工作原理图，如图2所示，本发明实施例对于一个医疗文本的字符序列[w₁，w₂，...，w_M]，需要从中建模医疗文本局部信息的隐向量表示。通过这一个步骤，每个字符通过字符嵌入查找表被映射到一个低维向量，其中V 是词汇量大小，D是嵌入维度。在模型训练期间，该字符嵌入查找表的参数可以训练。该医疗文本字符序列被转换为对应的向量序列[e₁，e₂，...，e_M]。

下一层是CNN(Convolutional Neural Networks，卷积神经网络)。将h_i记作为第i个医疗文本字符的局部上下文表示，计算方法如下：

h_i＝ReLU(F_w×e₍i_-k:i+k)+b_w)

其中e_(i-k:i+k)是从位置i-k到i+k的字符嵌入向量的串联，和是CNN网络中的滤波器参数，N_F是滤波器数量，2k+1是窗口大小。ReLU是非线性激活函数。CNN网络的输出是一系列字符的上下文表示，表示为[h₁，h₂，...，h_M]。

3)对步骤1)预处理完毕医疗词典的的医疗实体进行局部信息建模，得到医疗实体字符的局部上下文表示；具体如下：

使用步骤2)中的字符向量嵌入矩阵查找所述医疗实体字符的向量表示；使用步骤2) 中相同的字符级别的卷积神经网络，根据字符的局部上下文学习医疗实体字符的隐向量表示。

可以理解的是，本发明实施例可以对通过对医疗实体中的字符对医疗实体进行建模，使用字符嵌入矩阵查找所述字符的语义向量表示；并使用字符级别的卷积神经网络，从字符的语义向量表示学习字符的局部上下文表示。通过和医疗文本共享一个字符向量嵌入矩阵和卷积神经网络，我们能够将词典中的知识共享给我们医疗实体识别部分的模型，增强其性能。

具体而言，如图2所示，本发明实施例对于一个医疗文本的字符序列[c₁，c₂，...，c_M]，需要从中建模医疗文本局部信息的隐向量表示。通过这一个步骤，每个字符通过S1中使用的字符嵌入查找表被映射到一个低维向量，该医疗实体字符序列被转换为向量序列[e′₁，e′₂，...，e′_k]。

下一层是步骤2)中使用的CNN(Convolutional Neural Networks，卷积神经网络)。将h′_i记作为第i个医疗实体字符的局部上下文表示，其计算方法如下：

h′_i＝ReLU(F_w×e′_(i-k:i+k)+b_w)，

其中e′_(i-k:i+k)是从位置i-k到i+k的字符嵌入向量的串联，和是CNN网络中的滤波器参数，N_F是滤波器数量，2k+1是窗口大小。ReLU是非线性激活函数。CNN网络的输出是一系列单词的上下文表示，表示为[h′₁，h′₂，...，h′_K]。

4)对预处理完毕的医疗文本全局信息进行建模，得到医疗文本字符的全局上下文表示。

进一步地，在本发明的一个实例中，所述步骤4)包括：使用字符级的双向长短时记忆网络根据医疗文本字符的全局上下文信息学习字符的隐向量表示。

可以理解的是，本实例可以通过一个双向长短时记忆网络，利用医疗文本字符的局部上下文表示对医疗文本的全局信息进行建模，得到医疗文本字符的全局上下文表示。

具体而言，如图2所示，在这一步骤中，双向长短时记忆网络利用医疗文本字符的局部上下文表示[h₁，h₂，...，h_M]对医疗文本的全局信息进行建模，得到医疗文本字符的全局上下文表示[r₁，r₂，...，r_M]：

其中为正向长短时记忆网络对于第t个字符的输出的表示向量，为反向长短时记忆网络对于第t个字符的输出的表示向量。

其中的计算方法为：

其中均为正向长短时记忆网络的可训练参数。反向长短时记忆网络的计算方式和正向十分相似，只需要将t-1 替换为t+1即可。

进一步地，在本发明的一个实施例中，所述步骤5)包括：使用全局最大值池化层，仅保留保疗实体的字符隐向量序列每个维度中最强烈的信号，得到医疗实体的隐向量表示。

可以理解的是，通过一个一维的全局池化层，将医疗实体从一个局部上下文的隐向量序列表示池化为了一个向量表示。

具体而言，如图2所示，在这一步骤中，我们将S2中得到的医疗实体字符隐向量表示[h′₁，h′₂，...，h′_K]进行最大池化得到医疗实体的隐向量表示p′，其中p′的第i维记为p′ⁱ，有：

6)基于医疗文本字符的全局上下文表示对医疗文本各字符的标签进行解码，得到医疗文本中医疗命名实体的标注结果以及医疗实体识别的损失函数；

进一步地，在本发明的一个实施例中，所述步骤6)包括：使用条件随机场利用医疗文本的全局上下文字符表示解码出标签，得到预测的医疗命名实体，获取当前医疗文本实体标注的loss函数。由于医疗实体之间的标签存在依赖，因此我们通过一个条件随机场来对整个序列进行联合解码，以获得进一步的性能提升。

具体而言，如图2所示，在这一步骤中，我们通过条件随机场利用4)中得到的医疗文本字符隐向量表示r＝[r₁，r₂，...，r_M]计算字符序列对应于每一个标签序列y的分数。

L_i＝W_Cr_i+b_C，

其中m(r，y)是候选序列y的总分，L_i是将第i个字符标记为y_i的分数，将两个连续的标签分别分配为y_i和y_i+1的转移分数，W_C，b_C和T是条件随机场模型的参数。

将计算该医疗文本序列s标记为标签序列y的概率为：

其中Y为全部候选标签的集合。

最后，我们可以得到医疗实体识别的损失函数为：

其中S为全部医疗文本的集合。

7)基于医疗实体的表示进行医疗实体的分类，利用softmax函数对分类概率归一化，得到医疗实体分类损失函数。

进一步地，在本发明的一个实施例中，所述步骤7)包括：使用全连接层利用医疗实体的表示对其类别进行分类，并使用，并使用所述softmax函数进行概率的归一化，获取所述医疗实体分类loss函数。

可以理解的是，本发明实施例将前的医疗实体表示向量通过一个全连接层计算这个医疗实体属于各个类别的分数，并利用softmax函数进行归一化，得到医疗实体分类的概率向量，同时得到实体分类的分类loss函数。

具体而言，本发明实施例使用一个全连接层，并使用一个softmax层计算医疗实体p′在不同类别中的概率，其公式如下：

其中，和是分类器的参数，C是类别数。

并且，我们可以得到医疗实体分类的损失函数为：

其中，y_u，c是医疗实体u是否为c类别的指示，如果为真，则为1，否则为0。U是训练医疗实体的数量。

8)利用主任务损失函数和辅助任务损失函数得到最终损失函数，并对模型进行优化。

进一步地，在本发明的一个实施例中，所述步骤8)包括：将主任务损失函数即医疗实体识别的损失函数和辅助任务损失函数即医疗实体分类的损失函数加权相加得到最终的损失函数，并进行优化。

可以理解的是，本发明实施例将医疗实体识别的损失函数和医疗实体分类的损失函数加权相加得到最终的损失函数，对最终的损失函数进行优化，就能优化医疗实体识别任务的性能，并将医疗词典知识融入到共享的字符向量嵌入矩阵和共享的卷积神经网络之中。

具体而言，最终优化的损失函数是由医疗实体识别的损失函数和医疗实体分类的损失函数加权得到：

其中α∈(0，1)，为加权系数。

我们通过Adam优化器对损失函数进行优化来训练我们的模型。

在预测阶段，选择p(y|s)中最高的标签序列作为医疗文本的医疗实体识别结果。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于医疗词典的医疗命名实体识别方法，其特征在于，包括以下步骤：