CN114925694B

CN114925694B - 一种利用实体判别信息来提高生物医学命名体识别的方法

Info

Publication number: CN114925694B
Application number: CN202210513350.2A
Authority: CN
Inventors: 陈毅东; 张国成; 钟恩俊; 史晓东
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2024-06-04
Anticipated expiration: 2042-05-11
Also published as: CN114925694A

Abstract

一种利用实体判别信息来提高生物医学命名体识别的方法，涉及生物医学命名体识别。包括以下步骤：1)构建EJNER模型，将EJ任务和NER任务结合的方法，称之为EJNER；EJNER模型包括EJ模型、NER模型和特征融合模块；2)定义EJ任务并训练EJ模型；3)将EJ模型提取的特征和NER模型提取的特征通过相加、门控单元、多头注意力机制方法融合，利用融合后的特征进行预测。可缓解实体边界错误分类问题。不仅仅适用于BioNER任务，同样适用于一般的命名体识别任务。

Description

一种利用实体判别信息来提高生物医学命名体识别的方法

技术领域

本发明涉及生物医学命名体识别，尤其是涉及一种利用实体判别信息来提高生物医学命名体识别的方法。

背景技术

随着生物医学文本的数量迅速增加，大规模的生物医学文本挖掘成为一项必不可少的任务，用来帮助研究人员专注于相关文档中的有用信息。在生物医学文本挖掘领域中，生物医学命名体识别(Biomedical Named Entity Recognition，BioNER)是重要的子任务之一，通过BioNER模型识别出类似疾病、基因、蛋白质等在给定文本中出现的实体，然后将模型识别出的实体用于下游的任务和应用。

近年来，深度学习方法在自然语言处理(Natural Language Processing，NLP)领域取得了重大进展，因此，目前对BioNER的研究主要集中在基于深度学习的方法上。随着大规模的预训练语言模型的提出，比如基于转换器的双向编码特征(Bidirectional EncoderRepresentations from Transformers，BERT)，其在多个NLP基准任务上取得了巨大的效果提升，这证明预训练语言模型和深度学习方法的有效性。

尽管一些基于深度学习的研究工作在BioNER中取得重大进展，但在这些研究工作中，普遍存在实体边界错误分类的问题。

表1实体边界错误分类案例分析

如表1所示，第一行是实际的参考，第二行是当前在BioNER任务上效果最好的BioBERT模型预测的结果，“B”表示一个实体预测的开始，在其后第一个预测的“O”表示实体预测的结束。可以看到，实体“autosomal dominant condition”包含三个单词，但是BioBERT仅仅预测两个词，缺少最后一个单词“condition”，这是比较典型的实体边界错误分类。

发明人研究发现，利用BioBERT模型仅仅判断给定文本中的一个单词是否是实体，即实体判断(Entity Judgement，EJ)任务，遇到上述实体边界错误分类的情况较少。具体来说，通过分析BioBERT模型在NCBI-disease数据集上的预测结果，发现在BioNER任务中有64个实体边界错误分类，而在EJ任务中只有38个实体边界错误分类，这一结果表明，EJ模型相比较BioNER模型遇到实体边界问题更少；此外，人类在标注NER数据时，会先判断一个单词是否是实体，然后为其选择一个类型。但目前并没有研究工作尝试将EJ和BioNER两个任务结合起来。

发明内容

本发明的目的在于根据上述在NCBI-disease数据集上的统计分析以及人类标注NER数据时的行为，针对目前的研究工作在BioNER任务上存在实体边界分类错误的问题，提供一种利用实体判别信息来提高生物医学命名体识别的方法。本发明将EJ任务和NER任务结合的方法，称之为EJNER。通过将EJ模型提取的特征和NER模型提取的特征进行融合，然后利用融合后的特征进行预测。

本发明包括以下步骤：

1)构建EJNER模型，包括EJ模型、NER模型和特征融合模块；

2)定义EJ任务并训练EJ模型；

3)将EJ模型提取的特征和NER模型提取的特征融合，利用融合后的特征进行预测。

在步骤1)中，所述EJ模型作为EJ特征提取模块用于提取可以判断单词是否为实体的特征；NER模型作为NER特征提取模块用于提取可以进行实体识别的特征；特征融合模块用于通过相加、门控单元或多头注意力机制三种融合方式将EJ特征和NER特征两种不同的特征融合在一起。

在步骤2)中，所述定义EJ任务并训练EJ模型的具体步骤可为：首先给出EJ任务的形式化定义，假设输入为X＝{x₁,x₂,…,x_n}，其中，x_i表示序列X中第i个单词，n是序列的长度，若x_i是一个实体，则将其标记为“I”，否则标记为“O”；使用预训练语言模型BioBERT获取词嵌入，即给定X，x_i的词嵌入为其中，d表示词嵌入h_i的维度；在获得输入序列的词嵌入后，将其输入到输出层进行预测，概率预测公式如下所示：

P(m|x_i)＝softmax(h_iW+b) (1)

其中，都是模型中可训练的参数，m表示x_i的类别数目，softmax是一个可以将多分类的输出值转换为范围在[0,1]且和为1的函数，其公式如下所示：

其中，z_i是第i个节点的输出值，m为输出节点个数，也就是分类的类别个数；在得到预测概率后，可以得到EJ任务的损失函数：

其中，N表示序列的长度，当x_i的预测类别和c相等时，y_ic＝1，否则y_ic＝0。

在步骤3)中，所述将EJ模型提取的特征和NER模型提取的特征融合，EJNER模型有两个特征提取器：一个是使用BioBERT在EJ任务上提取的特征，称之为BioBERT_EJ，该模型在步骤2)中已经训练完毕；另一个是使用BioBERT在NER任务上提取的特征，称之为BioBERT_NER；将BioBERT_EJ模型的参数固定，以避免在训练BioBERT_NER模型过程中，改变BioBERT_EJ模型的参数；给定输入序列X，BioBERT_EJ提取的特征为BioBERT_NER提取的特征为/>在得到两个特征后，将两个特征融合，假设融合后的特征用f_merged表示，采用如下三种特征融合方式：

第一种是简单的将两种特征相加：

这种取均值的方式比较简单；

第二种是使用门控单元：

f_merged＝g(f_EJ,f_NER) (5)

g(f_EJ,f_NER)＝αf_EJ+(1-α)f_NER (6)

α＝sigmoid(f_EJW_EJ+f_NERW_NER) (7)

其中，g表示门控单元函数，均是可训练参数，d是特征的维度，sigmoid用来将实数映射到(0,1)区间，假设实数值为x，则计算公式如下：

相比较简单相加的方式，门控单元可以动态的控制不同特征的权重；

第三种是通过多头注意力机制，该方法使得特征之间可以互相交互：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O (9)

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (10)

均为模型的可学习参数，h表示head的个数，n表示输入序列的长度，d表示特征维度，d_k和d_v表示输出维度，令Q＝f_EJ、K＝V＝f_NER；

最后，EJNER模型的预测和损失函数与EJ模型一致。

与现有技术相比，本发明具有以下突出的优点和技术效果：

本发明针对目前在BioNER任务上的方法普遍存在实体边界错误分类的问题，通过统计发现EJ任务相比较BioNER任务，遇到实体边界错误分类情况较少，结合人类在标注NER数据时，会先判断是否是实体，然后确定实体类别的行为，提出一种将EJ模型和NER模型结合起来的新模型EJNER，即分别利用EJ模型和NER模型作为不同的特征提取器，在提取各自的特征后，通过相加、门控单元、多头注意力机制方法将两种特征进行融合，从而进一步缓解实体边界错误分类问题。并且，本发明不仅仅适用于BioNER任务，同样适用于一般的命名体识别任务。

附图说明

图1为EJNER的模型架构图。

图2为多头注意力机制特征融合方式结构图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

如图1所示，本发明实施例包括以下步骤：

1)构建EJNER模型；所述的EJNER模型主要由三个模块组成，分别为EJ特征提取模块、NER特征提取模块、特征融合模块。其中，EJ特征提取模块主要用来提取可以判断单词是否为实体的特征；NER特征提取模块主要用来提取可以进行实体识别的特征；特征融合模块则是通过相加、门控单元或多头注意力机制将两种不同的特征融合在一起。

2)定义EJ任务并训练EJ模型；首先给出EJ任务的形式化定义，假设输入为X＝{x₁,x₂,…,x_n}，其中x_i表示序列X中第i个单词，n是序列的长度，若x_i是一个实体，则将其标记为“I”，否则标记为“O”。使用预训练语言模型BioBERT获取词嵌入，即给定X，x_i的词嵌入为其中d表示词嵌入h_i的维度。在获得输入序列的词嵌入后，将其输入到输出层进行预测，概率预测公式如下所示：

P(m|x_i)＝softmax(h_iW+b) (1)

其中，z_i是第i个节点的输出值，m为输出节点个数，即分类的类别个数。在得到预测概率后，最终可以得到EJ任务的损失函数：

3)将EJ模型提取的特征和NER模型提取的特征融合；本发明的EJNER模型主要有两个特征提取器：一个是使用BioBERT在EJ任务上提取的特征，称之为BioBERT_EJ，该模型在步骤2)中已经训练完毕；另一个是使用BioBERT在NER任务上提取的特征，称之为BioBERT_NER。因为在训练BioBERT_NER模型过程中，会改变BioBERT_EJ模型的参数，因此本发明将BioBERT_EJ模型的参数固定。给定输入序列X，BioBERT_EJ提取的特征为BioBERT_NER提取的特征为/>在得到两个特征后，需要将它们融合，假设融合后的特征用f_merged表示，有三种特征融合方式：第一种是简单的将两种特征相加：

这种取均值的方式比较简单，有时也是一种比较有效的方法；第二种是使用门控单元：

f_merged＝g(f_EJ,f_NER) (5)

g(f_EJ,f_NER)＝αf_EJ+(1-α)f_NER (6)

α＝sigmoid(f_EJW_EJ+f_NERW_NER) (7)

其中，g表示门控单元函数，均是可训练参数，d是特征的维度，sigmoid是深度学习中一个常见的激活函数，用来将实数映射到(0,1)区间，假设实数值为x，则计算公式如下：

相比较第一种方式，门控单元可以动态的控制不同特征的权重；第三种是通过多头注意力机制，使得特征之间可以互相交互：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O (9)

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (10)

其中，均为模型的可学习参数，h表示head的个数，n表示输入序列的长度，d表示特征维度，d_k和d_v表示输出维度，令Q＝f_EJ、K＝V＝f_NER。最后，EJNER模型的预测和损失函数与EJ模型一致。

表2给出部分关于BioNER实体识别案例研究。

表2 BioNER案例分析

如表2所示，给出原始句子以及其对应的参考预测结果，在第三行中，BioBERT是当前在BioNER任务上效果最好的模型，但是其将“condition”单词预测为“O”，这意味其预测的实体为“autosomal dominant”，实体边界错误分类，而本发明提出的EJNER，在BioBERT的基础上，融入EJ模型的特征，可以准确的区分实体的边界，并且EJ模型不仅可以准确的判断单词“condition”为实体，即预测结果为“I”，而且也能准确判断出其它单词类别。

图1给出EJNER模型的整体框架。其中，左边部分是EJ模型结构图，使用BioBERT模型进行参数初始化并在EJ任务上进行训练；右边部分是EJNER模型结构图，其中BioBERT_EJ模型使用在EJ任务上训练的模型参数，并将其固定，BioBERT_NER模型则参数可以训练更新。右边部分自底向上，输入经过BioBERT_EJ和BioBERT_NER模型后，得到对应的特征f_EJ和f_NER，然后将两类特征通过融合层进行融合，这里有相加、门控单元、多头注意力机制三种融合方式，最后经过Softmax函数计算类别的概率分布，然后计算损失并反向传播更新模型参数。

图2是多头注意力机制融合方法的结构图，f_EJ是BioBERT_EJ提取的特征，f_NER是BioBERT_NER提取的特征，相比较传统注意力机制，这里的Q＝f_EJ、K＝V＝f_NER，将特征输入到多头注意力层，经过相加和正则化，即可得到最终的输出。

Claims

1.一种利用实体判别信息来提高生物医学命名体识别的方法，其特征在于包括以下步骤：

1)构建EJNER模型，包括EJ模型、NER模型和特征融合模块；

2)定义EJ任务并训练EJ模型，具体步骤为：首先给出EJ任务的形式化定义，假设输入为X＝{x₁,x₂,…,x_n}，其中，x_i表示序列X中第i个单词，n是序列的长度，若x_i是一个实体，则将其标记为“I”，否则标记为“O”；使用预训练语言模型BioBERT获取词嵌入，即给定X，x_i的词嵌入为其中，d表示词嵌入h_i的维度；在获得输入序列的词嵌入后，将其输入到输出层进行预测，概率预测公式如下所示：

P(m|x_i)＝softmax(h_iW+b) (1)

其中，都是模型中可训练的参数，m表示单词分类的类别数量，softmax是一个将多分类的输出值转换为范围在[0,1]且和为1的函数，其公式如下所示：

其中，z_i表示第i个节点的输出值，m表示单词分类的类别数量；在得到预测概率后，得到EJ任务的损失函数：

其中，N表示序列的长度，当x_i的预测类别和c相等时，y_ic＝1，否则y_ic＝0；

3)将EJ模型提取的特征和NER模型提取的特征融合，利用融合后的特征进行预测；

所述将EJ模型提取的特征和NER模型提取的特征融合，EJNER模型有两个特征提取器：一个是使用BioBERT在EJ任务上提取的特征，称之为BioBERT_EJ，该EJ模型在步骤2)中已经训练完毕；另一个NER模型是使用BioBERT在NER任务上提取的特征，称之为BioBERT_NER；将BioBERT_EJ模型的参数固定，以避免在训练BioBERT_NER模型过程中，改变BioBERT_EJ模型的参数；给定输入序列X，BioBERT_EJ提取的特征为BioBERT_NER提取的特征为/>在得到两个特征后，将两个特征融合，假设融合后的特征用f_merged表示，采用三种特征融合方式。

2.如权利要求1所述一种利用实体判别信息来提高生物医学命名体识别的方法，其特征在于在步骤1)中，所述EJ模型作为EJ特征提取模块用于提取可以判断单词是否为实体的特征；所述NER模型作为NER特征提取模块用于提取可以进行实体识别的特征；所述特征融合模块用于通过相加、门控单元或多头注意力机制三种融合方式将EJ特征和NER特征两种不同的特征融合在一起。

3.如权利要求1所述一种利用实体判别信息来提高生物医学命名体识别的方法，其特征在于在步骤3)中，所述三种特征融合方式如下：

第一种是简单的将两种特征相加：

这种取均值的方式比较简单；

第二种是使用门控单元：

f_metged＝g(f_EJ,f_NER) (5)

g(f_EJ,f_NER)＝αf_EJ+(1-α)f_NER (6)

α＝sigmoid(f_EJW_EJ+f_NERW_NER) (7)

MultiHed(Q,K,V)＝Concat(head₁,…,head_h)W^O (9)

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (10)

最后，EJNER模型的预测和损失函数与EJ模型一致。