CN114282539A

CN114282539A - 一种基于生物医学领域预训练模型的命名实体识别方法

Info

Publication number: CN114282539A
Application number: CN202111524520.9A
Authority: CN
Inventors: 邹家辉
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-05

Abstract

本发明涉及人工智能、自然语言处理，特别涉及一种基于生物医学领域预训练模型的命名实体识别方法，包括对于输入的文本的每个词汇对应预训练结果中的词表进行分词处理，通过BioBERT的Embedding层赋予初始权重；对于超过max_batch_size的句子进行截断；连接所有的句子对，对于句首使用[CLS]标签，句尾使用[SEP]标签；通过在PubMed和PMC文本下预训练完成的BioBERT模型进行第一特征提取；将BioBERT结构的输出再次通过BiLSTM网络模型进行第二特征提取；使用CRF网络对第二特征提取得到的特征进行识别；本发明能够更精确识别生物医学领域预的实体。

Description

一种基于生物医学领域预训练模型的命名实体识别方法

技术领域

本发明涉及人工智能、自然语言处理，特别涉及一种基于生物医学领域预训练模型的命名实体识别方法。

背景技术

随着生物医学文献的指数级增长，与此同时越来越多的蛋白质，基因，疾病等生物医学实体被命名，特殊性，专业性比较强且种类繁多，数据显示：截止2019年1月，著名生物医学数据库PubMED就有2900万篇文章，同时研究人员需要从这些文本中提取关键有用信息，人工收集效率低下，因此生物医学文本信息抽取就应运而生，命名实体识别技术属于它的关键字任务，同时也是后续关系提取的子任务，一般应用于普通文本例如新闻类的命名实体识别方案直接应用在生物医学领域的性能降低超过10％，因此具有很大的意义和挑战性。本专利实例就是对生物医学文本中的基因，疾病，蛋白质等实体进行更加有效地识别。

早期这个问题的解决方案是基于词典和规则的方法，构建词典或者规则进行文本的匹配，核心思想是关注规则，不过差不多已经淘汰了。到后来的一些机器学习方法，例如：支持向量机模型，隐马尔可夫模型以及条件随机场模型等，核心思想是关注概率，到目前比较主流比较常用的神经网络方法(目前应用最多识别效果整体最好的模型ELMO，Bert，openAI-gpt以及Bert模型的一些变种，他们的共同点就是神经元都是以self-attention为核心的Transformer架构，能够结合全文表征当前所处理的token)。这些方法各有优劣，因此灵活的融合多种模型可以得到更好的实体识别性能。当前针对该问题综合性能最佳的BioBERT模型(一种基于BERT在海量生物医学文本中无监督学习后的预训练模型)，由于其核心架构Transformer全连接层的复杂计算而导致弱化了文本中各个token的位置信息，所以该方法仍然有进一步提升的空间。

发明内容

为了有效的对生物医学文本中的疾病，蛋白质，基因等相关实体做出识别，本发明提出一种基于生物医学领域预训练模型的命名实体识别方法，具体包括以下步骤：

对于输入的文本的每个词汇对应预训练结果中的词表进行分词处理，通过BioBERT的Embedding层赋予初始权重；

对于超过max_batch_size的句子进行截断；连接所有的句子对，对于句首使用[CLS]标签，句尾使用[SEP]标签；

通过在PubMed和PMC文本下预训练完成的BioBERT模型进行第一特征提取；

将BioBERT结构的输出再次通过BiLSTM网络模型进行第二特征提取；

使用CRF网络对第二特征提取得到的特征进行识别。

进一步的，BioBERT模型进行第一特征提取过程中，利用自注意力机制提取权重，在提取权重过程中随机遮住15％的单词，遮住的15％的单词中的80％用masked token代替，10％用随机一个词来代替，10％保持这个词不变。

进一步的，BioBERT模型进行第一特征提取过程中，利用自注意力机制提取权重表示为：

其中，Attention(Q,K,V)为自注意力机制权重；Q、K、V分别为输入的词向量分别与三个不同的权值矩阵相乘得到的加权词向量；d_k为输入向量维度。

进一步的，BiLSTM网络模型包括多个级联的LSTM神经元，单个LSTM神经元包括遗忘门、记忆门以及输出门，根据输入的文本以及上一级LSTM神经元的输出提取特征，该过程包括：

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)，

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)，

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)，

其中，σ是sigmoid函数，h_t-1是指前一个LSTM单元输出的隐藏层状态，x_t是指当前输入到LSTM单元的词嵌入向量，f_t指遗忘门，i_t表示记忆门，c～_t为用于控制记忆门输入的信息比例；W_ix为记忆门输入的计算权值；W_ih为记忆门隐藏层的计算权值；b_i为计算门计算偏置；W_fx为遗忘门输入的计算权值；W_fh为遗忘门隐藏层的计算权值；b_f为遗忘门计算偏置；W_ox为输出门输入的计算权值；W_oh为输出门隐藏层的计算权值；b_o为输出门的计算偏置。

进一步的，用于控制记忆门输入的信息比例

表示为：

其中，W_cx为记忆门对输入信息比例控制计算的权值；W_ch为记忆门对隐藏层输入比例控制计算的权值；b_c为记忆门比例控制计算的偏置。

进一步的，第t个神经LSTM单元LSTM单元h_t表示为：

进一步的，使用CRF网络对第二特征提取得到的特征进行识别，即识别序列x到标签y的概率，表示为：

其中，P(y|x)为序列x到标签y的概率；分子S(x,y)为标签序列为正确序列的分数；分母为每种可能的分数之和，Y_x为全部标签；y为全部标签中的一种标签。

进一步的，S(x,y)表示为：

其中，A_ij表示标签i到标签j的转移分数，

表示词i标签为y_j的得分。

本发明得益于强化位置信息，使得在实体预测过程中具有更强的前后文理解能力，因此在各个比较权威主流的数据集中包括BC5CDR以及NCBI-disease都有更高的F-score(精确率和召回率的调和平均)。例如在BC5CDR数据集中，“The endothelial markerfactor VIII-related antigen,and with hematoxylin and eosin.”这句文本“hematoxylin”和“eosin”是用“and”连接的两个单独的实体，在本专利提出的模型下预测的结果是准确的但是使用BioBERT模型会将“hematoxylin and eosin”整个识别为一个实体，原因就是对于前后文位置信息的表达不足。

附图说明

图1为本发明一种基于生物医学领域预训练模型的命名实体识别方法流程图；

图2为本发明中BioBERT示意图；

图3为本发明单个LSTM单元结构图；

图4为本发明BiLSTM-CRF结构图；

图5为本发明采用的BioBERT-BiLSTM-CRF整体结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于生物医学领域预训练模型的命名实体识别方法，其特征在于，包括以下步骤：

使用CRF网络对第二特征提取得到的特征进行识别。

在本实施例中，如图1，本发明主要采用BioBERT模型对输入的向量进行第一次特征提取然后输入BiLSTM-CRF网络模型，在该模型中采用BiLSTM网络模型对第一次特征分类个提取得到的特征进行进一步的特征提取后输入CRF网络进行识别。

如图1，BioBERT模型进行第一特征提取的过程包括三个步骤：

1)预训练

在该过程中通过在PubMed和PMC文本下预训练完成的BioBERT模型。

微调

在该过程中，对已标注语料库中的文本进行预处理，然后将预处理后的数据输入BioBERT模型，利用这些数据对经过预训练的BioBERT模型进行进一步参数调整。

在对预料进行标注时，对于超过max_batch_size的句子进行截断；连接所有的句子对，对于句首使用[CLS]标签，句尾使用[SEP]标签。

2)实体识别

将需要进行实体识别的数据进行与处理后输入BioBERT模型，进行第一次特征提取。

本实施例采用的BioBERT模型包括多层全连接的transformer编码解码器，其核心为注意力机制：

主要操作为随机遮住15％的单词，其中80％用masked token代替，10％用随机一个词来代替，10％保持这个词不变。如图2所示，BioBERT是针对生物医学领域的预训练模型，具体是使用BERT的权重对其进行初始化，BERT已在通用领域语料库(Wikipedia和BooksCorpus)上进行了预训练，然后对BioBERT进行生物医学领域语料库的预训练(PubMed摘要和PMC全文文章)。

为了进一步强化位置信息，将BioBERT结构的输出再次通过BiLSTM网络模型进行特征提取，BiLSTM网络的单个LSTM神经元如图3所示，包括遗忘门，记忆门以及输出门：

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)，

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)，

其中，σ是sigmoid函数，h_t-1是指前一个LSTM单元输出的隐藏层状态，x_t是指当前输入到LSTM单元的词嵌入向量，f_t指遗忘门，i_t表示记忆门，

用于控制记忆门输入的信息比例：

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)，

记忆门，遗忘门，输出门以及上一个LSTM单元的输出一起控制当前单元的输出。

最后将结果使用CRF网络评估，该网络层可以考虑标签之间的关系获得全局最优标签序列，不仅可以输出每个词对应的最大概率标签，同时还能学习标签出现的规律，例如在BIO标注中，实体标签总是以B标签作为开头。计算如下：

其中，A_ij表示标签i到标签j的转移分数，P_i,yj啊表示词i标签为y_j的得分，根据评估分数计算序列x到标签y的概率为：

实体识别过程：使用微调后的模型文件，同样的类似于训练过程，将未标注的生物医学文本输入，依次分词处理，截断处理以及连接句子对，经过embedding层，BioBERT的Transformer层，BiLSTM网络层以及输出的CRF层，得到最终的实体识别结果。

该模型在使用时一般分为微调和实体识别应用，微调过程其实就是通过带有标注的数据集进行特征提取过程，不断修改各个网络层的深度学习神经单元的参数。

微调后的模型就可以直接应用在测试集上进行结果的评估，也可以直接应用于命名实体识别的标签预测。

如图5，本实施例中输入一个句子“Activation of the CD28 surfacerecepter”,通过BioBERT的Embedding层赋予每个词一个权重，然后计算其他词对某一个词的影响力，获取每个词的权重，即该词的特征向量输入BiLSTM网络模型，BiLSTM网络模型包括前向LSTM和后向LSTM，将前向LSTM和后向LSTM提取的特征进行融合后输入CRF网络进行实体识别。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于生物医学领域预训练模型的命名实体识别方法，其特征在于，包括以下步骤：

使用CRF网络对第二特征提取得到的特征进行识别。

2.根据权利要求1所述的一种基于生物医学领域预训练模型的命名实体识别方法，其特征在于，BioBERT模型进行第一特征提取过程中，利用自注意力机制提取权重，在提取权重过程中随机遮住15％的单词，遮住的15％的单词中的80％用masked token代替，10％用随机一个词来代替，10％保持这个词不变。

3.根据权利要求2所述的一种基于生物医学领域预训练模型的命名实体识别方法，其特征在于，BioBERT模型进行第一特征提取过程中，利用自注意力机制提取权重表示为：

4.根据权利要求1所述的一种基于生物医学领域预训练模型的命名实体识别方法，其特征在于，BiLSTM网络模型包括多个级联的LSTM神经元，单个LSTM神经元包括遗忘门、记忆门以及输出门，根据输入的文本以及上一级LSTM神经元的输出提取特征，该过程包括：

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)，

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)，

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)，

为用于控制记忆门输入的信息比例；W_ix为记忆门输入的计算权值；W_ih为记忆门隐藏层的计算权值；b_i为计算门计算偏置；W_fx为遗忘门输入的计算权值；W_fh为遗忘门隐藏层的计算权值；b_f为遗忘门计算偏置；W_ox为输出门输入的计算权值；W_oh为输出门隐藏层的计算权值；b_o为输出门的计算偏置。。

5.根据权利要求4所述的一种基于生物医学领域预训练模型的命名实体识别方法，其特征在于，第t个神经LSTM单元LSTM单元h_t表示为：

其中，

为用于控制记忆门输入的信息比例。

6.根据权利要求4或5所述的一种基于生物医学领域预训练模型的命名实体识别方法，其特征在于，用于控制记忆门输入的信息比例

表示为：

7.根据权利要求1所述的一种基于生物医学领域预训练模型的命名实体识别方法，其特征在于，使用CRF网络对第二特征提取得到的特征进行识别，即识别序列x到标签y的概率，表示为：

其中，P(y|x)为序列x到标签y的概率；S(x,y)为标签序列为正确序列的分数；分母为每种可能的分数之和，Y_x为全部标签；y为全部标签中一种标签。

8.根据权利要求7所述的一种基于生物医学领域预训练模型的命名实体识别方法，其特征在于，标签序列为正确序列的分数S(x,y)表示为：

其中，A_ij表示标签i到标签j的转移分数，

表示词i标签为y_j的得分。