CN114282539A - 一种基于生物医学领域预训练模型的命名实体识别方法 - Google Patents

一种基于生物医学领域预训练模型的命名实体识别方法 Download PDF

Info

Publication number
CN114282539A
CN114282539A CN202111524520.9A CN202111524520A CN114282539A CN 114282539 A CN114282539 A CN 114282539A CN 202111524520 A CN202111524520 A CN 202111524520A CN 114282539 A CN114282539 A CN 114282539A
Authority
CN
China
Prior art keywords
model
gate
input
biobert
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111524520.9A
Other languages
English (en)
Inventor
邹家辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111524520.9A priority Critical patent/CN114282539A/zh
Publication of CN114282539A publication Critical patent/CN114282539A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及人工智能、自然语言处理,特别涉及一种基于生物医学领域预训练模型的命名实体识别方法,包括对于输入的文本的每个词汇对应预训练结果中的词表进行分词处理,通过BioBERT的Embedding层赋予初始权重;对于超过max_batch_size的句子进行截断;连接所有的句子对,对于句首使用[CLS]标签,句尾使用[SEP]标签;通过在PubMed和PMC文本下预训练完成的BioBERT模型进行第一特征提取;将BioBERT结构的输出再次通过BiLSTM网络模型进行第二特征提取;使用CRF网络对第二特征提取得到的特征进行识别;本发明能够更精确识别生物医学领域预的实体。

Description

一种基于生物医学领域预训练模型的命名实体识别方法
技术领域
本发明涉及人工智能、自然语言处理,特别涉及一种基于生物医学领域预训练模型的命名实体识别方法。
背景技术
随着生物医学文献的指数级增长,与此同时越来越多的蛋白质,基因,疾病等生物医学实体被命名,特殊性,专业性比较强且种类繁多,数据显示:截止2019年1月,著名生物医学数据库PubMED就有2900万篇文章,同时研究人员需要从这些文本中提取关键有用信息,人工收集效率低下,因此生物医学文本信息抽取就应运而生,命名实体识别技术属于它的关键字任务,同时也是后续关系提取的子任务,一般应用于普通文本例如新闻类的命名实体识别方案直接应用在生物医学领域的性能降低超过10%,因此具有很大的意义和挑战性。本专利实例就是对生物医学文本中的基因,疾病,蛋白质等实体进行更加有效地识别。
早期这个问题的解决方案是基于词典和规则的方法,构建词典或者规则进行文本的匹配,核心思想是关注规则,不过差不多已经淘汰了。到后来的一些机器学习方法,例如:支持向量机模型,隐马尔可夫模型以及条件随机场模型等,核心思想是关注概率,到目前比较主流比较常用的神经网络方法(目前应用最多识别效果整体最好的模型ELMO,Bert,openAI-gpt以及Bert模型的一些变种,他们的共同点就是神经元都是以self-attention为核心的Transformer架构,能够结合全文表征当前所处理的token)。这些方法各有优劣,因此灵活的融合多种模型可以得到更好的实体识别性能。当前针对该问题综合性能最佳的BioBERT模型(一种基于BERT在海量生物医学文本中无监督学习后的预训练模型),由于其核心架构Transformer全连接层的复杂计算而导致弱化了文本中各个token的位置信息,所以该方法仍然有进一步提升的空间。
发明内容
为了有效的对生物医学文本中的疾病,蛋白质,基因等相关实体做出识别,本发明提出一种基于生物医学领域预训练模型的命名实体识别方法,具体包括以下步骤:
对于输入的文本的每个词汇对应预训练结果中的词表进行分词处理,通过BioBERT的Embedding层赋予初始权重;
对于超过max_batch_size的句子进行截断;连接所有的句子对,对于句首使用[CLS]标签,句尾使用[SEP]标签;
通过在PubMed和PMC文本下预训练完成的BioBERT模型进行第一特征提取;
将BioBERT结构的输出再次通过BiLSTM网络模型进行第二特征提取;
使用CRF网络对第二特征提取得到的特征进行识别。
进一步的,BioBERT模型进行第一特征提取过程中,利用自注意力机制提取权重,在提取权重过程中随机遮住15%的单词,遮住的15%的单词中的80%用masked token代替,10%用随机一个词来代替,10%保持这个词不变。
进一步的,BioBERT模型进行第一特征提取过程中,利用自注意力机制提取权重表示为:
Figure BDA0003409612850000021
其中,Attention(Q,K,V)为自注意力机制权重;Q、K、V分别为输入的词向量分别与三个不同的权值矩阵相乘得到的加权词向量;dk为输入向量维度。
进一步的,BiLSTM网络模型包括多个级联的LSTM神经元,单个LSTM神经元包括遗忘门、记忆门以及输出门,根据输入的文本以及上一级LSTM神经元的输出提取特征,该过程包括:
ft=σ(Wfxxt+Wfhht-1+bf),
it=σ(Wixxt+Wihht-1+bi),
ot=σ(Woxxt+Wohht-1+bo),
其中,σ是sigmoid函数,ht-1是指前一个LSTM单元输出的隐藏层状态,xt是指当前输入到LSTM单元的词嵌入向量,ft指遗忘门,it表示记忆门,c~t为用于控制记忆门输入的信息比例;Wix为记忆门输入的计算权值;Wih为记忆门隐藏层的计算权值;bi为计算门计算偏置;Wfx为遗忘门输入的计算权值;Wfh为遗忘门隐藏层的计算权值;bf为遗忘门计算偏置;Wox为输出门输入的计算权值;Woh为输出门隐藏层的计算权值;bo为输出门的计算偏置。
进一步的,用于控制记忆门输入的信息比例
Figure BDA0003409612850000031
表示为:
Figure BDA0003409612850000032
其中,Wcx为记忆门对输入信息比例控制计算的权值;Wch为记忆门对隐藏层输入比例控制计算的权值;bc为记忆门比例控制计算的偏置。
进一步的,第t个神经LSTM单元LSTM单元ht表示为:
Figure BDA0003409612850000033
Figure BDA0003409612850000034
进一步的,使用CRF网络对第二特征提取得到的特征进行识别,即识别序列x到标签y的概率,表示为:
Figure BDA0003409612850000035
其中,P(y|x)为序列x到标签y的概率;分子S(x,y)为标签序列为正确序列的分数;分母为每种可能的分数之和,Yx为全部标签;y为全部标签中的一种标签。
进一步的,S(x,y)表示为:
其中,Aij表示标签i到标签j的转移分数,
Figure BDA0003409612850000036
表示词i标签为yj的得分。
本发明得益于强化位置信息,使得在实体预测过程中具有更强的前后文理解能力,因此在各个比较权威主流的数据集中包括BC5CDR以及NCBI-disease都有更高的F-score(精确率和召回率的调和平均)。例如在BC5CDR数据集中,“The endothelial markerfactor VIII-related antigen,and with hematoxylin and eosin.”这句文本“hematoxylin”和“eosin”是用“and”连接的两个单独的实体,在本专利提出的模型下预测的结果是准确的但是使用BioBERT模型会将“hematoxylin and eosin”整个识别为一个实体,原因就是对于前后文位置信息的表达不足。
附图说明
图1为本发明一种基于生物医学领域预训练模型的命名实体识别方法流程图;
图2为本发明中BioBERT示意图;
图3为本发明单个LSTM单元结构图;
图4为本发明BiLSTM-CRF结构图;
图5为本发明采用的BioBERT-BiLSTM-CRF整体结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,包括以下步骤:
对于输入的文本的每个词汇对应预训练结果中的词表进行分词处理,通过BioBERT的Embedding层赋予初始权重;
对于超过max_batch_size的句子进行截断;连接所有的句子对,对于句首使用[CLS]标签,句尾使用[SEP]标签;
通过在PubMed和PMC文本下预训练完成的BioBERT模型进行第一特征提取;
将BioBERT结构的输出再次通过BiLSTM网络模型进行第二特征提取;
使用CRF网络对第二特征提取得到的特征进行识别。
在本实施例中,如图1,本发明主要采用BioBERT模型对输入的向量进行第一次特征提取然后输入BiLSTM-CRF网络模型,在该模型中采用BiLSTM网络模型对第一次特征分类个提取得到的特征进行进一步的特征提取后输入CRF网络进行识别。
如图1,BioBERT模型进行第一特征提取的过程包括三个步骤:
1)预训练
在该过程中通过在PubMed和PMC文本下预训练完成的BioBERT模型。
微调
在该过程中,对已标注语料库中的文本进行预处理,然后将预处理后的数据输入BioBERT模型,利用这些数据对经过预训练的BioBERT模型进行进一步参数调整。
在对预料进行标注时,对于超过max_batch_size的句子进行截断;连接所有的句子对,对于句首使用[CLS]标签,句尾使用[SEP]标签。
2)实体识别
将需要进行实体识别的数据进行与处理后输入BioBERT模型,进行第一次特征提取。
本实施例采用的BioBERT模型包括多层全连接的transformer编码解码器,其核心为注意力机制:
Figure BDA0003409612850000051
其中,Attention(Q,K,V)为自注意力机制权重;Q、K、V分别为输入的词向量分别与三个不同的权值矩阵相乘得到的加权词向量;dk为输入向量维度。
主要操作为随机遮住15%的单词,其中80%用masked token代替,10%用随机一个词来代替,10%保持这个词不变。如图2所示,BioBERT是针对生物医学领域的预训练模型,具体是使用BERT的权重对其进行初始化,BERT已在通用领域语料库(Wikipedia和BooksCorpus)上进行了预训练,然后对BioBERT进行生物医学领域语料库的预训练(PubMed摘要和PMC全文文章)。
为了进一步强化位置信息,将BioBERT结构的输出再次通过BiLSTM网络模型进行特征提取,BiLSTM网络的单个LSTM神经元如图3所示,包括遗忘门,记忆门以及输出门:
ft=σ(Wfxxt+Wfhht-1+bf),
it=σ(Wixxt+Wihht-1+bi),
Figure BDA0003409612850000061
其中,σ是sigmoid函数,ht-1是指前一个LSTM单元输出的隐藏层状态,xt是指当前输入到LSTM单元的词嵌入向量,ft指遗忘门,it表示记忆门,
Figure BDA0003409612850000062
用于控制记忆门输入的信息比例:
Figure BDA0003409612850000063
ot=σ(Woxxt+Wohht-1+bo),
Figure BDA0003409612850000064
记忆门,遗忘门,输出门以及上一个LSTM单元的输出一起控制当前单元的输出。
最后将结果使用CRF网络评估,该网络层可以考虑标签之间的关系获得全局最优标签序列,不仅可以输出每个词对应的最大概率标签,同时还能学习标签出现的规律,例如在BIO标注中,实体标签总是以B标签作为开头。计算如下:
Figure BDA0003409612850000065
其中,Aij表示标签i到标签j的转移分数,Pi,yj啊表示词i标签为yj的得分,根据评估分数计算序列x到标签y的概率为:
Figure BDA0003409612850000071
实体识别过程:使用微调后的模型文件,同样的类似于训练过程,将未标注的生物医学文本输入,依次分词处理,截断处理以及连接句子对,经过embedding层,BioBERT的Transformer层,BiLSTM网络层以及输出的CRF层,得到最终的实体识别结果。
该模型在使用时一般分为微调和实体识别应用,微调过程其实就是通过带有标注的数据集进行特征提取过程,不断修改各个网络层的深度学习神经单元的参数。
微调后的模型就可以直接应用在测试集上进行结果的评估,也可以直接应用于命名实体识别的标签预测。
如图5,本实施例中输入一个句子“Activation of the CD28 surfacerecepter”,通过BioBERT的Embedding层赋予每个词一个权重,然后计算其他词对某一个词的影响力,获取每个词的权重,即该词的特征向量输入BiLSTM网络模型,BiLSTM网络模型包括前向LSTM和后向LSTM,将前向LSTM和后向LSTM提取的特征进行融合后输入CRF网络进行实体识别。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,包括以下步骤:
对于输入的文本的每个词汇对应预训练结果中的词表进行分词处理,通过BioBERT的Embedding层赋予初始权重;
对于超过max_batch_size的句子进行截断;连接所有的句子对,对于句首使用[CLS]标签,句尾使用[SEP]标签;
通过在PubMed和PMC文本下预训练完成的BioBERT模型进行第一特征提取;
将BioBERT结构的输出再次通过BiLSTM网络模型进行第二特征提取;
使用CRF网络对第二特征提取得到的特征进行识别。
2.根据权利要求1所述的一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,BioBERT模型进行第一特征提取过程中,利用自注意力机制提取权重,在提取权重过程中随机遮住15%的单词,遮住的15%的单词中的80%用masked token代替,10%用随机一个词来代替,10%保持这个词不变。
3.根据权利要求2所述的一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,BioBERT模型进行第一特征提取过程中,利用自注意力机制提取权重表示为:
Figure FDA0003409612840000011
其中,Attention(Q,K,V)为自注意力机制权重;Q、K、V分别为输入的词向量分别与三个不同的权值矩阵相乘得到的加权词向量;dk为输入向量维度。
4.根据权利要求1所述的一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,BiLSTM网络模型包括多个级联的LSTM神经元,单个LSTM神经元包括遗忘门、记忆门以及输出门,根据输入的文本以及上一级LSTM神经元的输出提取特征,该过程包括:
ft=σ(Wfxxt+Wfhht-1+bf),
it=σ(Wixxt+Wihht-1+bi),
ot=σ(Woxxt+Wohht-1+bo),
其中,σ是sigmoid函数,ht-1是指前一个LSTM单元输出的隐藏层状态,xt是指当前输入到LSTM单元的词嵌入向量,ft指遗忘门,it表示记忆门,
Figure FDA0003409612840000021
为用于控制记忆门输入的信息比例;Wix为记忆门输入的计算权值;Wih为记忆门隐藏层的计算权值;bi为计算门计算偏置;Wfx为遗忘门输入的计算权值;Wfh为遗忘门隐藏层的计算权值;bf为遗忘门计算偏置;Wox为输出门输入的计算权值;Woh为输出门隐藏层的计算权值;bo为输出门的计算偏置。。
5.根据权利要求4所述的一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,第t个神经LSTM单元LSTM单元ht表示为:
Figure FDA0003409612840000022
Figure FDA0003409612840000023
其中,
Figure FDA0003409612840000024
为用于控制记忆门输入的信息比例。
6.根据权利要求4或5所述的一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,用于控制记忆门输入的信息比例
Figure FDA0003409612840000025
表示为:
Figure FDA0003409612840000026
其中,Wcx为记忆门对输入信息比例控制计算的权值;Wch为记忆门对隐藏层输入比例控制计算的权值;bc为记忆门比例控制计算的偏置。
7.根据权利要求1所述的一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,使用CRF网络对第二特征提取得到的特征进行识别,即识别序列x到标签y的概率,表示为:
Figure FDA0003409612840000027
其中,P(y|x)为序列x到标签y的概率;S(x,y)为标签序列为正确序列的分数;分母为每种可能的分数之和,Yx为全部标签;y为全部标签中一种标签。
8.根据权利要求7所述的一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,标签序列为正确序列的分数S(x,y)表示为:
Figure FDA0003409612840000031
其中,Aij表示标签i到标签j的转移分数,
Figure FDA0003409612840000032
表示词i标签为yj的得分。
CN202111524520.9A 2021-12-14 2021-12-14 一种基于生物医学领域预训练模型的命名实体识别方法 Pending CN114282539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111524520.9A CN114282539A (zh) 2021-12-14 2021-12-14 一种基于生物医学领域预训练模型的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111524520.9A CN114282539A (zh) 2021-12-14 2021-12-14 一种基于生物医学领域预训练模型的命名实体识别方法

Publications (1)

Publication Number Publication Date
CN114282539A true CN114282539A (zh) 2022-04-05

Family

ID=80872141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111524520.9A Pending CN114282539A (zh) 2021-12-14 2021-12-14 一种基于生物医学领域预训练模型的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN114282539A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363712A (zh) * 2023-03-21 2023-06-30 中国矿业大学 一种基于模态信息度评估策略的掌纹掌静脉识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN112541356A (zh) * 2020-12-21 2021-03-23 山东师范大学 一种生物医学命名实体识别的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN112541356A (zh) * 2020-12-21 2021-03-23 山东师范大学 一种生物医学命名实体识别的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邹家辉: "基于深度学习的生物医学文本命名实体识别方法", 《万方数据》, 6 July 2023 (2023-07-06), pages 1 - 71 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363712A (zh) * 2023-03-21 2023-06-30 中国矿业大学 一种基于模态信息度评估策略的掌纹掌静脉识别方法
CN116363712B (zh) * 2023-03-21 2023-10-31 中国矿业大学 一种基于模态信息度评估策略的掌纹掌静脉识别方法

Similar Documents

Publication Publication Date Title
Collobert et al. Natural language processing (almost) from scratch
Deng et al. Deep learning for signal and information processing
CN110287320A (zh) 一种结合注意力机制的深度学习多分类情感分析模型
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN113435211B (zh) 一种结合外部知识的文本隐式情感分析方法
CN112257449A (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
CN112417894A (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN111666373A (zh) 一种基于Transformer的中文新闻分类方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Amari et al. Deep convolutional neural network for Arabic speech recognition
CN112183106A (zh) 一种基于音素联想及深度学习的语义理解方法及装置
Zhao et al. Knowledge-aware bayesian co-attention for multimodal emotion recognition
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
Hidayatullah et al. Attention-based cnn-bilstm for dialect identification on javanese text
Elleuch et al. The Effectiveness of Transfer Learning for Arabic Handwriting Recognition using Deep CNN.
CN114841167A (zh) 一种基于图神经网络多嵌入联合的临床命名实体识别方法
CN114282539A (zh) 一种基于生物医学领域预训练模型的命名实体识别方法
CN113254575A (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN111813907A (zh) 一种自然语言问答技术中的问句意图识别方法
CN113761106B (zh) 一种强化自注意力的债券交易意图识别系统
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114510569A (zh) 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination