CN114239585A

CN114239585A - 一种生物医学嵌套命名实体识别方法

Info

Publication number: CN114239585A
Application number: CN202111553048.1A
Authority: CN
Inventors: 黄荣梅; 廖涛; 段松松
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-03-25

Abstract

本发明公开了一种生物医学嵌套命名实体识别方法，通过基于字符级向量与字级别向量交互融合并结合多头注意力机制得到信息交互后的字符级特征向量与字级别特征向量的表示，通过基于双向长短期记忆神经网络得到句子上下文信息，再次对获取上下文信息的字符级向量与字级向量交互信息，经过向量加权得到最终的标签序列，根据标签序列得到粗粒度候选区间，经过对粗粒度候选区间的细粒度划分得到所有的嵌套命名实体识别结果。字符级特征与字级别特征的信息交互可以更好的获得字内部的信息，基于注意力机制的语言预处理模型预先生成增强语义的字向量并有利于特征信息之间的相互传递。本发明不仅提高了嵌套命名实体的识别效果，而且提高了识别的速度。

Description

一种生物医学嵌套命名实体识别方法

技术领域

本发明涉及一种生物医学嵌套命名实体识别方法，属于自然语言处理中命名实体识别技术领域。

背景技术

自然语言处理是近几年热门研究方向，其目的是让计算机理解人类的语言并进行有效交互。命名实体识别技术是自然语言处理中一项非常重要的技术，其目的是识别语句中包含特定意义的实体，包括人名，地名，机构名，专有名词等。然后在大多数数据当中实体嵌套现象也是随处可见，嵌套命名实体包含更细粒度的语言信息，被证明在许多自然语言任务处理中都有着显著的促进作用。本发明提出的嵌套命名实体识别方法基于不同领域数据，主要用于识别生物医学，化学等文本中的嵌套命名实体，具体可应用于自然语言处理中的事件检测、信息检索、机器翻译和问答系统等。

早期使用基于规则和字典的方法探索具有嵌套结构的命名实体，然而，基于规则的方法存在灵活性差、可扩展性差以及字典之外的词查找能力不足等缺点。随着深度学习的不断发展，基于神经网络的方法引起了研究人员的广泛关注，大多数提出的模型是以使用双向长短期记忆网络和条件随机场的组合模型为基础，嵌套命名实体识别效果得到进一步的提升。近年来，提出的各种针对嵌套命名实体识别的方法主要分为两类：基于转化的方法以及基于跨度的方法。基于转化的方法最终将复杂的序列嵌套问题转化为标注型的序列标记任务，基于跨度的方法即为找到最有可能为实体的区间再进行分类。

发明内容

发明目的：为了克服现有技术中难以应对命名实体之间相互嵌套，以及一字多义问题，本发明提供一种嵌套命名实体识别方法，通过基于注意力机制的语言预处理模型生成文本中每个字和字符的特征向量，经过两特征向量的交互得到更深层次的字内部语义信息，通过双向长短期记忆网络的特征向量第二次交互信息并在其后加入多头注意力层以提取文本中字的多重语义，特征提取层最终形成的上下文隐层序列标签进入全连接层和softmax层得到粗粒度候选区间，然后通过对粗粒度候选区间进行细粒度划分，枚举出所有可能的实体区间，再经过一个全连接层和softmax层得到最终的实体标签序列。基于特征向量交互的和注意力机制的语言预处理模型在实体识别之前预先生成增强语义的字向量与字符向量，并在嵌套实体识别模型中加入多头注意力层以提取文本中字的多重语义，从而有效提高识别效果。由于二进制序列标记只标注两种标签，并且相邻标签之间不具有较强的依赖关系，因此模型采用的是全连接层而不是条件随机场，减少了训练时长。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种嵌套命名实体识别方法，包括基于特征交互和注意力机制的语言预处理模型和嵌套实体识别模型。在语言预处理模型中，引入注意力机制，从而使生成的字向量可以学习到字符间长距离依赖关系，增强字向量的语义特征，同时增强了字符向量之间的信息共享。在嵌套实体识别模型中，使用双向长短期记忆网络获取上下文信息，并添加多头注意力层进一步提取字的多重语义信息，提升了嵌套命名实体识别的准确性，通过使用全连接层和softmax层获得粗粒度候选区间，进一步枚举出所有细粒度区间并识别实体类别或不属于任何实体。嵌套命名实体识别方法主要应用于生物医学或化学信息抽取，在医疗知识图谱等多个领域具有重要的应用价值。由全连接层和softmax组成的粗粒度候选区间感知层过滤一些不相关的区间，只保留属于实体词的区间，再对粗粒度候选区间进行细粒度划分，这样一来，减少了计算时间和成本，提高了嵌套命名实体识别的准确度和效率，具体包括以下步骤：

步骤1)将用于训练的生物医学数据集进行字符级别和字级别的切分，得到用于训练的生物医学数据集文本切分字符；将用于识别的生物医学数据集进行字符级别和字级别的切分，得到用于识别的生物医学数据集文本切分字符；

步骤2)对用于训练的数据集文本切分字符和切分字进行标注，得到用于训练的标注数据集，其中，属于命名实体的开始字符或字标注为‘B’，命名实体的内部实体字符或字标注为‘I’，不是实体的字符或字标注为‘O’；

步骤3)将用于训练的切分字符和切分字向量进行交互并通过多头注意力机制获得增强语义的字符向量和字向量；使用步骤2得到的用于训练的标注文本对基于注意力机制和特征交互的语言预处理模型进行训练，得到训练好语言预处理模型；基于注意力机制和特征交互的语言预处理模型包括依次连接的字嵌入层、特征交互层和注意力机制层；

步骤3.1)将步骤2得到的用于训练的标注数据集文本以句为单位送入基于注意力机制和特征交互的语言预处理模型的字嵌入层，得到字符级别特征向量和字级别特征向量的表示。将字符级别特征向量与字级别特征向量进行交互得到更多的字内部信息，交互计算后得到新的字符向量和字向量：

其中，x^w表示字级别特征向量表示，x^c表示字符级别特征向量表示；mul表示不同数据之间的信息交换；

表示交互后的字级别特征向量表示，

表示字符级别特征向量表示；

步骤3.2)使用注意力机制分别学习字向量中的字符依赖关系以及字符之间的信息交流，使字嵌入向量包含字中所有字与字符的信息；注意力机制层的输出为最终生成新的字符级别与字级别向量：

其中，Attention(Q,K,V)表示注意力分数，Q表示查询向量，K表示键向量，V表示值向量，

表示键向量维数的平方根，softmax函数为归一化指数函数：

其中，D表示数组，D_t表示数组D的第t个元素，t表示字级别特征元素

与或字符级别特征元素

中的第t个元素，softmax(t)的值即为数组中第t个元素的指数与其它所有元素指数和的比值。

步骤4)使用步骤2得到的用于训练的标注数据集文本对生物医学嵌套命名实体识别模型进行训练，得到训练好的嵌套实体识别模型，嵌套实体识别模型包括依次连接的双向长短期记忆网络层、多头注意力层、全连接层网络与softmax层构成的粗粒度候选区间感知层和细粒度划分及类别判断层。

步骤4.1)使用双向长短期记忆网络层对字向量和字符向量进行双向编码，正向长短期记忆网络层学习后文特征，反向长短期记忆网络层学习前文特征，从而使生成的向量更好地捕捉前后文语义信息，学习上下文关系；双向长短期记忆网络层是由输入门、遗忘门和输出门组成，字向量长短期记忆网络层计算公式如(5)-(10)所示：

其中，σ(·)是sigmoid激活函数，tanh(·)是双曲正切函数

分别表示输入门、遗忘门和输出门；

表示t时刻候选记忆单元向量，

表示t时刻记忆单元向量；W^w和U^w表示单元输出的权重矩阵；b^w表示偏置向量；⊙表示元素级乘法运算。

通过连接前向LSTM和后向LSTM得到句子的隐藏状态

其中

同理，可以得到句子字符级特征表示

经过BiLSTM得到的句子隐藏状态特征表示为：

其中

步骤4.2)隐藏状态的特征信息可以通过强化训练获取深层语义信息，本文引入softmax激活函数更新不同特征的权重，同时让两个隐藏状态特征向量与权重矩阵进行交互，以达到关注有用的部分，降低不相关信息比重的目的。该过程描述如公式(11)-(12)所示：

经过两次交互之后，最终的包含单词语义信息和句子上下文信息的隐藏状态序列表示H＝{h₁,h₂,...,h_n},每个隐藏单元h_t满足公式(13)：

步骤4.3)使用多头注意力层进一步提取多重语义：多头注意力层实质指进行两次以上的注意力头运算，对于通过双向长短期记忆网络层的输出状态，首先通过公式(14)进行单头注意力计算：

其中，head_i表示第i个注意力头计算的结果，i表示总共有i个注意力头，W_i ^Q为生成查询向量的权重参数，W_i ^K为生成键向量的权重参数，W_i ^V为生成值向量的权重参数，

为k维度的调节平滑项，softmax()为归一化指数函数。最后，拼接这i次的计算结果并做一次线性变换，得到对于每一时刻t通过双向长短期记忆网络层的t时刻网络的输出状态的多头注意力运算结果，如公式(15)所示：

MultiHead_i＝Concat(head₁,head₂,...,head_i)W^m (15)

其中，MultiHead_i表示多头注意力层的计算结果，W^m为权重参数。

步骤4.4)使用全连接层和softmax层得到粗粒度候选区间，采用二进制序列标记给每一个文本标记实数，其中是实体词的被标记为1，非实体词被标记为0。可以用来判断每一个词是否属于某一个或多个实体，以便过滤掉一些不相关的区域，找到属于实体内部词的粗粒度候选区间，进而划分出不同层次的实体词。

具体步骤是：隐藏层特征序列输出经过一个全连接层和sigmoid激活函数得到每个词属于实体内部或实体边界的实体词概率p。句子的粗粒度候选区间感知层使用二元交叉熵函数作为损失函数L_word，公式如(16)所示：

L_word＝-[ylog(p)+(1-y)log(1-p) (16)

其中，y是所判断词的真实标签，p是所判断词为实体词的概率。

句子的粗粒度候选区间感知层在当前批次的损失Loss_word公式如(17)所示：

其中，L_word为粗粒度候选区间感知层的损失函数；word_i表示当前训练批次的第i个词；m_x表示当前训练批次词的个数。模型进行训练时在训练集上运用反向传播算法对公式进行最小化达到对模型的优化。

对粗粒度候选空间继续划分出不同层的细粒度候选区间，判断是否为实体区间词或单个的实体词，并判断出实体类型。对于每个粗粒度候选区间interval(i,j)＝(x_i,x_i+1,...,x_j)，x_i表示输入文本的第i个词，定义粗粒度候选区间的左边界信息为区间第一个词的句子级信息h_i，右边界信息为区间最后一个词的句子级信息h_j，整体信息为区间的所有词句子级信息表示的平均值。每个粗粒度候选区间interval(i,j)向量表示如公式(18)所示：

对粗粒度候选区间的细粒度划分采用枚举的方法，其中，细粒度区间的向量表示和粗粒度候选区间向量表示保持一致。随后，细粒度区间的向量表示输入到由全连接层和softmax输出层构成的区域，用来分类该细粒度区间属于哪一种实体类别或者不属于任何实体类别。细粒度区间分类损失函数采用交叉熵损失函数，公式表示如(19)所示：

其中，y_interval,c表示的是细粒度区间是否属于实体类别c的二元标签(1表示属于，0表示不属于)；p_interval,c表示细粒度区间属于实体类别c的概率；实体类别一共有N个。细粒度划分及类别判断层在当前批次上的训练损失公式如(20)所示：

模型在训练集上的损失Loss为多任务训练损失的加权平均值。公式如(21)所示：

其中，λ是一项超参数(0<λ<1)，表示粗粒度候选区间感知层在整个模型损失中的权重。L_word和L_interval分别表示粗粒度候选区间感知层和细粒度划分及类别判断层的损失函数。

优选的：步骤4.1中sigmoid函数值域为(-1,1)，表达式如公式(22)所示：

优选的：步骤4.1中激励函数值域为(-1,1)，表达式如公式(23)所示：

本发明相比现有技术，具有以下有益效果：

本发明在语言预处理模型中，引入注意力机制，从而使生成的字向量可以学习到字符间长距离依赖关系，增强字向量的语义特征，同时增强了字符向量之间的信息共享。在嵌套实体识别模型中，使用双向长短期记忆网络获取上下文信息，并添加多头注意力层进一步提取字的多重语义信息，提升了嵌套命名实体识别的准确性，通过使用全连接层和softmax层获得粗粒度候选区间，进一步枚举出所有细粒度区间并识别实体类别或不属于任何实体。由全连接层和softmax组成的粗粒度候选区间感知层过滤一些不相关的区间，只保留属于实体词的区间，再对粗粒度候选区间进行细粒度划分。采用上述方式减少了计算时间和成本，提高了嵌套命名实体识别的准确度和效率。

附图说明

图1为本发明具体流程示意图。

图2为基于注意力机制和特征交互的语言预处理模型框架。

图3为嵌套实体识别模型框架。

图4为长短期记忆网络示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种生物医学嵌套命名实体识别方法，首先使用数据文本在进行分割和标记处理后，对语言预处理模型进行训练，然后将待识别的文本送入训练好的语言预处理模型生成增强语义的字向量和字符向量，然后使用经过训练的嵌套实体识别模型根据字向量生成标签序列，之后选出粗粒度候选区间，再对粗粒度候选区间进行细粒度划分，最后得到嵌套命名实体标签，如图1所示，具体包括以下步骤：

步骤1)将用于训练的数据文本进行字符级和字级切分，得到用于训练的文本切分字符。如文本‘the mouse IL-2R alpha gene’的字级切分为‘the’，‘mouse’，‘IL-2R’，‘alpha’，‘gene’。字符级切分为每个词的字符级切分如‘the’字符级切分为‘t’，‘h’，‘e’，‘mouse’的字符级切分为‘m’，‘o’，‘u’，‘s’，‘e’，后面词的字符级切分与前两个词字符级切分保持一致。

步骤2)对用于训练的文本切分字符进行标注，得到用于训练的标注文本，其中，命名实体的开始字符标注为‘B’，命名实体的非开始字符标注为‘I’，单个词为实体的标注为‘S’，不是实体的字符标注为‘O’。如对于文本‘the mouse IL-2R alpha gene’，最终的标注序列为‘the(O、O)’，‘mouse(B-protein、B-DNA)’，‘IL-2R(I-protein、I-DNA)’，‘alpha(I-protein、I-DNA)’，‘gene(O、I-DNA)’，其中‘BIO’标注用于区分命名实体，为后续的嵌套实体识别模型训练作准备。

步骤3)使用步骤2得到的用于训练的标注文本对基于注意力机制和特征交互的语言预处理模型进行训练语言预处理模型。如图2所示，基于注意力机制和特征交互的语言预处理模型包括依次连接的字嵌入层、特征交互层和注意力机制层，对于分割后的文本，首先通过字嵌入层生成字级别特征向量和字符级别特征向量，然后进行基于注意力机制的特征交互，从而加强字的语义表示。

步骤3.1)将步骤2得到的用于训练的标注文本以句为单位送入基于注意力机制和特征交互的字嵌入层，得到字符级别特征向量和字级别特征向量的表示。将字符级别特征向量与字级别特征向量进行交互得到更多的字内部信息，交互计算后得到新的字符向量和字向量：

表示交互后的字级别特征向量表示，

表示字符级别特征向量表示。

表示键向量维数的平方根，softmax函数为归一化指数函数：

与或字符级别

步骤4，使用步骤2得到的用于训练的标注数据集文本对生物医学嵌套命名实体识别模型进行训练，得到训练好的嵌套实体识别模型，嵌套实体识别模型包括依次连接的双向长短期记忆网络层、多头注意力层、全连接层网络与softmax层构成的粗粒度候选区间感知层和细粒度划分及类别判断层。

其中，σ(·)是sigmoid激活函数，tanh(·)是双曲正切函数

分别表示输入门、遗忘门和输出门；

表示t时刻候选记忆单元向量，

通过连接前向LSTM和后向LSTM得到句子的隐藏状态

其中

同理，可以得到句子字符级特征表示

经过BiLSTM得到的句子隐藏状态特征表示为：

其中

MultiHead_i＝Concat(head₁,head₂,...,headi)W^m (15)

L_word＝-[ylog(p)+(1-y)log(1-p) (16)

最后，根据标签序列识别文本中的嵌套命名实体。其中，如果字符标注为‘B’，则代表其是命名实体的首字符，如果字符标注为‘I’，则代表其是命名实体的非开始部分，单个词为实体的标注为‘S’，如果字符标注为‘O’，则代表其不是命名实体。如输入文本为‘theCD28 surface receptor’，则最终标注为‘the(O、O)’，‘CD28(S、B-pretion)’，‘surface(O、I-pretion)’，‘receptor(O、I-pretion)’根据标注识别出嵌套命名实体‘CD28’和‘CD28surface receptor’。

步骤5)识别时，将用于识别的数据集文本切分字符和切分字导入到训练好的基于注意力机制的语言预处理模型中生成字符向量和字向量；将得到的生成字符向量和字向量导入训练好的生物医学嵌套命名实体识别模型中识别文本中的嵌套命名实体。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种生物医学嵌套命名实体识别方法，其特征在于，包括以下步骤：

步骤3)将用于训练的切分字符和切分字向量进行交互并通过多头注意力机制获得增强语义的字符向量和字向量；使用步骤2得到的用于训练的标注文本对基于注意力机制的语言预处理模型进行训练，得到训练好的基于注意力机制的语言预处理模型；基于注意力机制的语言预处理模型包括依次连接的字嵌入层、特征交互层注意力机制层；

步骤3.1)将步骤2得到的用于训练的标注数据集文本以句为单位送入基于注意力机制和特征交互的语言预处理模型的字嵌入层，得到字符级别特征向量和字级别特征向量的表示。将字符级别特征向量与字级别特征向量进行交互得到更多的字内部信息，交互计算如公式(1)、(2)所示：

表示交互后的字级别特征向量表示，

表示字符级别特征向量表示；

步骤3.2)使用注意力机制分别学习字向量中的字符依赖关系以及字符之间的信息交流，使字嵌入向量包含字中所有字与字符的信息；注意力机制层的输出为最终生成新的字符级别与字级别向量，进而完成基于注意力机制的语言预处理模型的训练。注意力机制计算公式如公式(3)所示：

其中，Attention(Q，K，V)表示注意力分数，Q表示查询向量，K表示键向量，V表示值向量，

表示键向量维数的平方根，softmax函数为归一化指数函数；

与或字符级别

中的第t个元素，softmax(t)的值即为数组中第t个元素的指数与其它所有元素指数和的比值；

步骤4)使用步骤2得到的用于训练的标注数据集文本对嵌套命名实体识别模型进行训练，得到训练好的嵌套实体识别模型，嵌套实体识别模型包括依次连接的双向长短期记忆网络层、多头注意力层、全连接层网络与softmax层构成的粗粒度候选区间感知层和细粒度划分及类别判断层；

步骤4.1)使用双向长短期记忆网络层对字向量和字符向量进行双向编码，双向长短期记忆网络包括一个正向长短期记忆网络层和一个反向长短期记忆网络层，正向长短期记忆网络层学习后文特征，反向长短期记忆网络层学习前文特征，从而使生成的向量更好地捕捉前后文语义信息，学习上下文关系；双向长短期记忆网络层是由输入门、遗忘门和输出门组成，字向量长短期记忆网络层计算公式如(5)-(10)所示：

其中，σ(·)是sigmoid激活函数，tanh(·)是双曲正切函数

分别表示输入门、遗忘门和输出门；

表示t时刻候选记忆单元向量，

表示t时刻记忆单元向量；W^w和U^w表示单元输出的权重矩阵；b^w表示偏置向量；⊙表示元素级乘法运算。通过连接前向LSTM和后向LSTM得到句子的隐藏状态

其中

同理，可以得到句子字符级特征表示

经过BiLSTM得到的句子隐藏状态特征表示为：

其中

经过两次交互之后，最终的包含单词语义信息和句子上下文信息的隐藏状态序列表示H＝{h₁，h₂，...，h_n}，每个隐藏单元h_t满足公式(13)：

MultiHead_i＝Concat(head₁，head₂，...，head_i)W^m (15)

其中，MultiHead_i表示多头注意力层的计算结果，W^m为权重参数；

步骤4.4)使用全连接层和softmax层得到粗粒度候选区间，采用二进制序列标记给每一个文本标记实数，其中是实体词的被标记为1，非实体词被标记为0。可以用来判断每一个词是否属于某一个或多个实体，以便过滤掉一些不相关的区域，找到属于实体内部词的粗粒度候选区间，进而划分出不同层次的实体词，避免了对不同跨度的不同区间进行是否为实体的判断，减少了计算的时间成本。具体步骤是：隐藏层特征序列输出经过一个全连接层和sigmoid激活函数得到每个词属于实体内部或实体边界的实体词概率p。句子的粗粒度候选区间感知层使用二元交叉熵函数作为损失函数L_word，公式如(16)所示：

L_word＝-[y log(p)+(1-y)log(1-p) (16)

其中，y是所判断词的真实标签，p是所判断词为实体词的概率；

在模型进行训练时，若输入的句子X＝{x₁，x₂，...，x_n}，且在区间(x_i，x_i+1，...，x_j)内都是实体，则对应的二元序列标签y_i，y_i+1，...，y_j都为1，不在任何实体中的词被标记为0。句子的粗粒度候选区间感知层在当前批次的损失Loss_word公式如(17)所示：

其中，L_word为粗粒度候选区间感知层的损失函数；word_i表示当前训练批次的第i个词；m_x表示当前训练批次词的个数。模型进行训练时在训练集上运用反向传播算法对公式进行最小化达到对模型的优化；

步骤4.5)对粗粒度候选空间继续划分出不同层的细粒度候选区间，判断是否为实体区间词或单个的实体词，并判断出实体类型。对于每个粗粒度候选区间interval(i，j)＝(x_i，x_i+1，...，x_j)，x_i表示输入文本的第i个词，定义粗粒度候选区间的左边界信息为区间第一个词的句子级信息h_i，右边界信息为区间最后一个词的句子级信息h_j，整体信息为区间的所有词句子级信息表示的平均值。每个粗粒度候选区间interval(i，j)向量表示如公式(18)所示：

其中，h_k表示输入句子第k个单词的隐藏状态特征表示；

其中，y_interval，c表示的是细粒度区间是否属于实体类别c的二元标签(1表示属于，0表示不属于)；p_interval，c表示细粒度区间属于实体类别c的概率；实体类别一共有N个。细粒度划分及类别判断层在当前批次上的训练损失公式如(20)所示：

其中，λ是一项超参数(0＜λ＜1)，表示粗粒度候选区间感知层在整个模型损失中的权重。L_word和L_interval分别表示粗粒度候选区间感知层和细粒度划分及类别判断层的损失函数；

2.根据权利要求1所述一种生物医学嵌套命名实体识别方法，其特征在于：步骤4.1中sigmoid函数值域为(-1，1)，表达式如公式(22)所示：

其中，

属于函数的输入

或

3.根据权利要求2所述一种生物医学嵌套命名实体识别方法，其特征在于：步骤4.1中激励函数值域为(-1，1)，表达式如公式(23)所示：