CN114091460A - 一种多任务中文实体命名识别方法 - Google Patents

一种多任务中文实体命名识别方法 Download PDF

Info

Publication number
CN114091460A
CN114091460A CN202111405790.8A CN202111405790A CN114091460A CN 114091460 A CN114091460 A CN 114091460A CN 202111405790 A CN202111405790 A CN 202111405790A CN 114091460 A CN114091460 A CN 114091460A
Authority
CN
China
Prior art keywords
word
layer
sequence
gate
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111405790.8A
Other languages
English (en)
Inventor
唐小勇
黄勇
许佳豪
王仕果
章登勇
张经宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202111405790.8A priority Critical patent/CN114091460A/zh
Publication of CN114091460A publication Critical patent/CN114091460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多任务中文实体命名识别方法,包括以下步骤:(1)首先对数据进行预处理,划分数据集并进行标注任务设置;(2)通过BERT对输入的主任务数据和辅任务进行特征抽取;(3)对于主任务和辅任务分别采用双层的包括输入、隐藏和输出的LSTM神经网络模型对词向量进行分类训练;(4)将辅任务和主任务的训练好的隐藏层信息经过注意力机制层进行全连接(5)最后经过CRF层考虑了序列中的全局标签信息,输出最优的标签序列;(6)通过验证集对训练好的模型进行性能评估。本发明能够帮助研究者在海量的中文文本数据中高效地获取有价值的信息和知识,有效的缓解了人工抽取信息耗时耗力的问题,对进一步文本挖掘工作的具有重要意义。

Description

一种多任务中文实体命名识别方法
技术领域
本发明涉及文本挖掘技术领域,具体涉及一种多任务中文实体命名识别方法。
背景技术
如今,对于英文文本的实体命名识别问题,已经被广泛研究。然而,中文NER仍然面临中文分词等挑战,往往很难定义一个词的构成。过去的中文NER任务,往往采用循环神经网络(RNN)提高模型在实体分类任务上的性能,但是RNN在长距离训练过程中存在梯度消失和梯度爆炸问题,长短期记忆模型(LSTM),能够在更长序列中有更好的表现,并为RNN中的LSTM单元提出一个简单的调整技巧能够显著减少过拟合现象。双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)和条件随机场(CRF)结合的神经网络模型,将其用于NER或者词性标注,效果比单纯的CRF或者BiLSTM效果都要好,这种双向结构能够获取上下文的序列信息,因此在命名实体识别等任务中得到相当广泛的应用。
由于中文命名实体识别的实体边界难以划分,存在分词错误、词表外(OOV)等问题,BILSTM作为特征抽取器效果并不理想。对于词向量的预训练,都是基于词、字符的特征提取,忽略了词在上下文的相关信息,提取的是一种不包含上下文语境的静态词向量,因此也导致了模型有关实体识别能力的下降。BERT预训练模型可以很好的解决上述问题,它是一个基于微调的多层双向Transformer编码器。BERT可以进一步提高了词向量模型的泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,结合了上下文的语境和语义信息,从而提高模型的实体识别能力。
为了进一步提高NER模型的性能,研究人员继续提出各种尝试,例如将各种最新方法集成到现有工具中,以提高模型性能,然而,如何在现有方法的基础上进一步提高NER系统的性能,特别是在数据集有限的情况下,如何进一步提高NER的性能仍是一个值得研究的领域。
多任务学习(MTL)就是研究方向之一,它通过使用多个相关标记数据集来训练目标模型,从而提高模型在单个数据集上的性能。由于相关数据集可能包含有效的辅助信息,有助于模型在联合训练后更有效地解决单个数据集的任务。
发明内容
本发明要解决的技术问题是,克服现有技术存在的上述缺陷,提供一种提高实体标准水平的高可用性、高效率的一种基于BERT和BiLSTM-AM-CRF的多任务中文实体命名识别方法,模型通过训练集来拟合数据样本,通过验证集调整模型的超参数,在测试集评估模最终模型的泛化能力。
为了实现上述技术目的,本发明的技术方案是,
一种多任务中文实体命名识别方法,包括以下步骤:
步骤一,获取至少两个不同的已标注中文语句数据集,并进行预处理;
步骤二,构建包括双向编码器\解码器、双层长短期记忆网络层、注意力网络、隐藏层和条件随机场层的BERT--BiLSTM-CRF网络结构,其中编码器、解码器、双层长短期记忆网络层和条件随机场层均包括两个平行的相同结构,且两个双层长短期记忆网络层通过同一个注意力网络输出到同一个隐藏层;
步骤三,通过包括解码器和编码器的预训练部分BERT分别对不同的数据集进行特征抽取,获取词向量;
步骤四,将得到的词向量输入到双层长短期记忆网络层BiLSTM中,以通过包括遗忘门,记忆门和输出门在内的神经网络层来对词向量进行信息提取;
步骤五,让两个双层长短期记忆网络层的结果通过注意力网络输入到同一个隐藏层,其中注意力网络结合不同学习率来对两个结果进行全连接,再将隐藏层的输出结果输入到条件随机场层CRF,最后由CRF层约束,输出最优标签序列;
步骤六,重复步骤三-五,并对模型超参数进行调整以得到最优参数从而完成模型训练,然后将待识别的数据集输入到模型中以进行识别。
所述的一种多任务中文实体命名识别方法,所述的步骤一中,预处理包括对数据集中的句子进行长度统一化处理。
所述的一种多任务中文实体命名识别方法,所述的步骤一中,中文语句数据集是采用以下方式对数据集中的实体进行标注:当命名实体由一个字描述时,标记为Begin-named entity;当命名实体由超过一个字的词语描述时,以Begin-named entity标记开头的字,其他字标记成In-named entity;非命名实体的字词都标注成Out。
根据权利要求1所述的一种多任务中文实体命名识别方法,所述的步骤三中,进行特征抽取包括以下步骤:
对于数据集中的句子,首先通过分词处理得到分词文本序列,然后对分词序列的部分词进行全词Mask;然后再用特殊标记[CLS]标记序列即一个句子的开头,用特殊标记[SEP]标记序列的结尾;从而得到由Token Embedding、Segment Embedding和PositionEmbedding这3个部分组成的Embedding,此时将序列向量每个词的输出Embedding输入到双向编码器\解码器进行特征提取,最后得到包含上下文语义特征的序列向量(x1,x2,...,xn)。
所述的一种多任务中文实体命名识别方法,对分词序列的部分词进行全词Mask,是指对分词序列中预设比例的词执行以下处理:将预设比例中80%的词替换成空白;10%的词替换成任意一个其他词;10%的词不变化。
所述的一种多任务中文实体命名识别方法,所述的步骤四中,进行信息提取包括:
通过对网络中细胞状态中信息遗忘和记忆新的信息,使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态,其中双层长短期记忆网络层中的遗忘,记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门f,记忆门i和输出门o来控制:
遗忘门公式为:
ft=σ(Wf·[ht-1,xt]+bf)
其中σ是Sigmoid激活函数,W是权重矩阵,b是偏置向量,h是隐藏层状态,x是输入的词向量,下标t表示t时刻,下标f表示遗忘门下的相应参数;
然后计算记忆门以选择重要信息:
输入:前一时刻的隐层状态ht-1,偏移量b
输出:记忆门的值it,临时细胞状态
Figure BDA0003372177340000031
it=σ(Wf·[ht-1,xt]+bi)
Figure BDA0003372177340000032
其中下标i表示记忆门下的相应参数,tanh为Tanh激活函数,下标C表示当前细胞状态下的相应参数;
接下来计算当前细胞状态Ct
Figure BDA0003372177340000033
最后计算输出门ot和当前时刻的隐藏状态ht
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中下标o表示输出门下的相应参数;
BiLSTM通过对每个词序列分别采取前向和后向LSTM,然后将同一个时刻的输出进行合并,因此对于每一个时刻的ht而言,都对应着前向的信息
Figure BDA0003372177340000041
与后向的信息
Figure BDA0003372177340000042
Figure BDA0003372177340000043
所述的一种多任务中文实体命名识别方法,所述的步骤五中,对不同的语料句子使用不同学习率,并通过相似度函数自动调整学习率,其中句子的学习率计算为:
α(x)=α*func(x,IN)
Figure BDA0003372177340000044
其中α是固定学习速率,func(x,IN)表示句子x和作为语料库的步骤一中获取的数据集IN之间的相似性,相似性的取值从0到1;C为常数,vx为句子的矩阵表示,vIN为语料库的矩阵表示,d为维度;
通过得到的不同的学习率,将两个结果经过自注意力机制网络,结合学习率,进行全连接:
Figure BDA0003372177340000045
其中Softmax为多分类函数,Q,K,V是字向量矩阵,dk是Embedding维度,上标T表示矩阵的转置。
所述的一种多任务中文实体命名识别方法,所述的步骤五中,由CRF层约束包括:对于任一个序列X=(x1,x2,...,xn),以P作为BiLSTM的输出得分矩阵,P的大小为n×k,其中n为词的个数,k为标签个数,Pij表示第i个词的第j个标签的分数;
则对于预测序列Y=(y1,y2,…,yn),得到它的分数函数s(X,Y)为:
Figure BDA0003372177340000046
其中A表示转移分数矩阵,Aij代表标签i转移为标签j的分数,A的大小为k+2;
预测序列Y产生的概率为:
Figure BDA0003372177340000047
其中e表示自然对数的底;
两头取对数得到预测序列的似然函数:
Figure BDA0003372177340000051
式中,
Figure BDA0003372177340000052
表示真实的标注序列,Y|X表示所有可能的标注序列;解码后得到最大分数的输出序列Y*:
Figure BDA0003372177340000053
其中
Figure BDA0003372177340000054
表示当
Figure BDA0003372177340000055
取最大值时,
Figure BDA0003372177340000056
的取值。
所述的一种多任务中文实体命名识别方法,所述的步骤六中,对模型超参数进行调整包括:
将数据集分为训练集和验证集,并监控模型训练过程中标签在训练集和验证集上的预测效果,即通过对训练集的损失值trainloss和验证集的损失值dev loss进行检测来进行监控,并以损失值保持稳定时的模型超参数作为最优参数,完成调整。
本发明的技术效果在于,采取BERT进行词向量的特征抽取,通过BiLSTM层训练,结合多任务学习的方法,将两个任务训练后经过注意力机制网络共享隐藏层信息,然后分别输出最后的结果。本发明能够帮助研究者在海量的中文文本数据中高效地获取有价值的信息和知识,有效的缓解了人工抽取信息耗时耗力的问题,对进一步文本挖掘工作的具有重要意义。
附图说明
图1为本实施例的网络结构示意图;
图2为本实施例的模型训练步骤示意图;
图3为本实施例的数据集中句子长短分布示意图;
图4为在人民日报数据集和MASR数据集上采用不同模型得到的精确率P示意图;
图5为在人民日报数据集和MASR数据集上采用不同模型得到的召回率R示意图;
图6为在人民日报数据集和MASR数据集上采用不同模型得到的F1值示意图。
具体实施方式
下面结合实施例对本发明的具体实施方式作进一步详细说明:
建立模型并进行训练:
将实验数据集进行划分训练集,验证集,测试集,并使用BIO标注规则进行实体标注。使用的标签是Begin-named entity、In-named entity和Out,当命名实体是一个字描述时,标记为Begin-named entity,当命名实体由一个词描述时,以Begin-named entity标记开头的字,其他字标记成In-named entity,非命名实体的字词都标注成Out。然后构建BERT-BI-BiLSTM-CRF网络结构,该网络结构包括双向编码器\解码器、双层长短期记忆网络层、注意力网络、隐藏层和条件随机场层。其中编码器、解码器、双层长短期记忆网络层和条件随机场层均包括两个平行的相同结构,且两个双层长短期记忆网络层通过同一个注意力网络输出到同一个隐藏层。
对数据集中的句子进行长度统一化处理,本实施例将句子的长度统一调整为150个字,超出该长度的句子进行截断,小于该长度的句子则以0进行填充。
通过BERT对处理好的训练数据进行特征抽取,获取词向量。对于任意序列,首先通过分词处理得到分词文本序列,然后对分词序列的部分词进行Mask,不同于一般BERT的Mask标记,本实施例中对中文文本采用全词Mask,即对分词序列中预设比例的词执行以下处理:将预设比例中80%的词替换成空白;10%的词替换成任意一个其他词;10%的词不变化。本实施例中的预设比例设为20%,实际运用中也可根据具体需要进行调整。然后用特殊标记[CLS]标记序列的开头,用标记[SEP]分隔句子。这样就得到了由Token Embedding、Segment Embedding和Position Embedding这3个部分组成的Embedding,此时将序列向量每个词的输出Embedding输入到双向Transformer进行特征提取,最后得到包含上下文语义特征的序列向量(x1,x2,...,xn)。
第三步:将两个数据集经过特征抽取后得到的序列向量分别输入到双层长短期记忆网络中,通过对网络中细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态,其中遗忘,记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门,记忆门,输出门来控制。
遗忘门公式如下,h是隐藏层状态,x是输入的词向量,
ft=σ(Wf·[ht-1,xt]+bf)
计算记忆门,选择重要信息,
输入:前一时刻的隐层状态ht-1,偏移量b
输出:记忆门的值i,临时细胞状态C
it=σ(Wf·[ht-1,xt]+bi)
Figure BDA0003372177340000061
计算当前细胞状态
Figure BDA0003372177340000071
最后计算输出门和当前时刻的隐藏状态
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
BiLSTM由对每个词序列分别采取前向和后向LSTM,然后将同一个时刻的输出进行合并.因此对于每一个时刻而言,都对应着前向与后向的信息。
Figure BDA0003372177340000072
第四步:第一个BiLSTM模型训练辅助任务,然后连接第二个主要任务模型,进行功能提取。让主任务和辅任务的训练结果通过attention层,输入到同一个隐藏层,并将最终结果输入CRF,分别输出结果。由于两个数据集的不同,需要识别主任务语料和辅任务语料的相似性,对不同的语料句子使用不同的学习率。通过相似度函数自动调整学习率。
句子的学习率计算如下
α(x)=α*func(x,IN)
Figure BDA0003372177340000073
其中α是固定学习速率,func(x,IN)表示句子x和主任务语料库IN之间的相似性,后者从0到1。
通过得到的不同的的学习率结果,将两个结果经过自注意力机制网络,结合学习率,进行全连接。
Figure BDA0003372177340000074
第五步:隐藏层的输出作为CRF层的输入,经CRF层约束,输出最优标签序列。CRF层可以通过学习数据集中标签之间的转移概率从而修正BiLSTM层的输出,从而保证预测标签的合理性,可以有效地避免类似情况的发生。对于任一个序列X=(x1,x2,…,xn),在此假定P是BiLSTM的输出得分矩阵,P的大小为n×k,其中n为词的个数,k为标签个数,Pij表示第i个词的第j个标签的分数.对预测序列Y=(y1,y2,…,yn)而言,得到它的分数函数为:
Figure BDA0003372177340000081
A表示转移分数矩阵,Aij代表标签i转移为标签j的分数,A的大小为k+2.预测序列Y产生的概率为:
Figure BDA0003372177340000082
两头取对数得到预测序列的似然函数:
Figure BDA0003372177340000083
式中,Y~表示真实的标注序列,YX表示所有可能的标注序列.解码后得到最大分数的输出序列。
然后重复执行训练步骤,并对模型超参数进行调整:
将数据集分为训练集和验证集,并监控模型训练过程中标签在训练集和验证集上的预测效果,即通过对训练集的损失值trainloss和验证集的损失值dev loss进行检测来进行监控,并以损失值保持稳定时的模型超参数作为最优参数,完成调整。其中对损失值的监控中,根据不同情况可作出如下判断:
如果一直在减小,则将减小的模型作为目标模型,根据以下情况进行判断:
train loss不断下降,dev loss不断下降:说明网络仍在学习;
train loss不断下降,dev loss趋于不变:说明网络过拟合;
train loss趋于不变,dev loss不断下降:说明数据集可能出现问题;
train loss趋于不变,dev loss趋于不变:说明学习遇到瓶颈,可能需要减小学习率或批量数目等方式来调整超参数,或者是数据集有问题等。
train loss不断上升,test loss不断上升:说明网络结构设计不当,训练超参数设置不当,数据集经过清洗等问题。
如果loss值连续20轮未下降,默认当前模型为最优模型,进一步在测试集上进行测试,输出模型最终结果。
实验数据集划分
本实施例使用微软亚洲研究(MSRA)和人民日报数据集提供的来试验本文中介绍的模型。MSRA和《人民日报》包含三种实体类型:人员(PER)、组织(ORG)和Location(LOC)。下面是各个数据集的划分情况
Figure BDA0003372177340000091
下面的句子长短分布从可以看出,数据集的大部分句子长度分布在150个词以下,当数据被预处理时,句子的最大长度可以设置为150用于训练。在进行预处理时,短于150的句子可补入0作为填充,以将其扩充至150。
实验参数设置
使用Tensorflow的Adam优化器对模型进行培训,初始学习速率为0.001,并且通过反向传播对网络进行了微调。对于消失的梯度和过度拟合的问题,dropout为0.1。将句子的最大长度控制为150,标签的长度为10。否则填充较短的序列,截断较长的部分。下表中列出了详细的超参数。
Figure BDA0003372177340000092
识别结果
任务一采用的是MSRA中文数据集,任务二采用的是人民日报数据集,进行实验,并将实验结果与BiLSTM-CRF、BERT-CRF、BERT-BiLSTM-CRF等单任务模型在数据上进行对比,在两个数据集上的实验结果均有提高,本方法模型对比其他原有模型,性能有进一步的提升。
本实施例采用精确率P、召回率R和F1值来评判模型的性能,其中F1值是对模型精确率和召回率的一个综合评价,也是对模型的最后评价指标。各评价指标的计算方法如下:
Figure BDA0003372177340000093
Figure BDA0003372177340000094
Figure BDA0003372177340000101
F1在人民日报数据集和MASR数据集上的取得了98.33%和98.36%的得分。
在人民日报数据集上的结果如下:
Figure BDA0003372177340000102
在MASR数据集上的结果如下:
Figure BDA0003372177340000103
具体模型在人民日报数据集以及MASR数据集上各个指标对比情况如图3、图4及图5所示。

Claims (9)

1.一种多任务中文实体命名识别方法,其特征在于,包括以下步骤:
步骤一,获取至少两个不同的已标注中文语句数据集,并进行预处理;
步骤二,构建包括双向编码器\解码器、双层长短期记忆网络层、注意力网络、隐藏层和条件随机场层的BERT--BiLSTM-CRF网络结构,其中编码器、解码器、双层长短期记忆网络层和条件随机场层均包括两个平行的相同结构,且两个双层长短期记忆网络层通过同一个注意力网络输出到同一个隐藏层;
步骤三,通过包括解码器和编码器的预训练部分BERT分别对不同的数据集进行特征抽取,获取词向量;
步骤四,将得到的词向量输入到双层长短期记忆网络层BiLSTM中,以通过包括遗忘门,记忆门和输出门在内的神经网络层来对词向量进行信息提取;
步骤五,让两个双层长短期记忆网络层的结果通过注意力网络输入到同一个隐藏层,其中注意力网络结合不同学习率来对两个结果进行全连接,再将隐藏层的输出结果输入到条件随机场层CRF,最后由CRF层约束,输出最优标签序列;
步骤六,重复步骤三-五,并对模型超参数进行调整以得到最优参数从而完成模型训练,然后将待识别的数据集输入到模型中以进行识别。
2.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤一中,预处理包括对数据集中的句子进行长度统一化处理。
3.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤一中,中文语句数据集是采用以下方式对数据集中的实体进行标注:当命名实体由一个字描述时,标记为Begin-named entity;当命名实体由超过一个字的词语描述时,以Begin-named entity标记开头的字,其他字标记成In-named entity;非命名实体的字词都标注成Out。
4.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤三中,进行特征抽取包括以下步骤:
对于数据集中的句子,首先通过分词处理得到分词文本序列,然后对分词序列的部分词进行全词Mask;然后再用特殊标记[CLS]标记序列即一个句子的开头,用特殊标记[SEP]标记序列的结尾;从而得到由Token Embedding、Segment Embedding和PositionEmbedding这3个部分组成的Embedding,此时将序列向量每个词的输出Embedding输入到双向编码器\解码器进行特征提取,最后得到包含上下文语义特征的序列向量(x1,x2,...,xn)。
5.根据权利要求4所述的一种多任务中文实体命名识别方法,其特征在于,对分词序列的部分词进行全词Mask,是指对分词序列中预设比例的词执行以下处理:将预设比例中80%的词替换成空白;10%的词替换成任意一个其他词;10%的词不变化。
6.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤四中,进行信息提取包括:
通过对网络中细胞状态中信息遗忘和记忆新的信息,使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态,其中双层长短期记忆网络层中的遗忘,记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门f,记忆门i和输出门o来控制:
遗忘门公式为:
ft=σ(Wf·[ht-1,xt]+bf)
其中σ是Sigmoid激活函数,W是权重矩阵,b是偏置向量,h是隐藏层状态,x是输入的词向量,下标t表示t时刻,下标f表示遗忘门下的相应参数;
然后计算记忆门以选择重要信息:
输入:前一时刻的隐层状态ht-1,偏移量b
输出:记忆门的值it,临时细胞状态
Figure FDA0003372177330000021
it=σ(Wf·[ht-1,xt]+bi)
Figure FDA0003372177330000022
其中下标i表示记忆门下的相应参数,tanh为Tanh激活函数,下标C表示当前细胞状态下的相应参数;
接下来计算当前细胞状态Ct
Figure FDA0003372177330000023
最后计算输出门ot和当前时刻的隐藏状态ht
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中下标o表示输出门下的相应参数;
BiLSTM通过对每个词序列分别采取前向和后向LSTM,然后将同一个时刻的输出进行合并,因此对于每一个时刻的ht而言,都对应着前向的信息
Figure FDA0003372177330000031
与后向的信息
Figure FDA0003372177330000032
Figure FDA0003372177330000033
7.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤五中,对不同的语料句子使用不同学习率,并通过相似度函数自动调整学习率,其中句子的学习率计算为:
α(x)=α*func(x,IN)
Figure FDA0003372177330000034
其中α是固定学习速率,func(x,IN)表示句子x和作为语料库的步骤一中获取的数据集IN之间的相似性,相似性的取值从0到1;C为常数,vx为句子的矩阵表示,vIN为语料库的矩阵表示,d为维度;
通过得到的不同的学习率,将两个结果经过自注意力机制网络,结合学习率,进行全连接:
Figure FDA0003372177330000035
其中Softmax为多分类函数,Q,K,V是字向量矩阵,dk是Embedding维度,上标T表示矩阵的转置。
8.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤五中,由CRF层约束包括:对于任一个序列X=(x1,x2,...,xn),以P作为BiLSTM的输出得分矩阵,P的大小为n×k,其中n为词的个数,k为标签个数,Pij表示第i个词的第j个标签的分数;
则对于预测序列Y=(y1,y2,…,yn),得到它的分数函数s(X,Y)为:
Figure FDA0003372177330000036
其中A表示转移分数矩阵,Aij代表标签i转移为标签j的分数,A的大小为k+2;
预测序列Y产生的概率为:
Figure FDA0003372177330000037
其中e表示自然对数的底;
两头取对数得到预测序列的似然函数:
Figure FDA0003372177330000041
式中,
Figure FDA0003372177330000042
表示真实的标注序列,Y|X表示所有可能的标注序列;解码后得到最大分数的输出序列Y*:
Figure FDA0003372177330000043
其中
Figure FDA0003372177330000044
表示当
Figure FDA0003372177330000045
取最大值时,X,
Figure FDA0003372177330000046
的取值。
9.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤六中,对模型超参数进行调整包括:
将数据集分为训练集和验证集,并监控模型训练过程中标签在训练集和验证集上的预测效果,即通过对训练集的损失值trainloss和验证集的损失值dev loss进行检测来进行监控,并以损失值保持稳定时的模型超参数作为最优参数,完成调整。
CN202111405790.8A 2021-11-24 2021-11-24 一种多任务中文实体命名识别方法 Pending CN114091460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111405790.8A CN114091460A (zh) 2021-11-24 2021-11-24 一种多任务中文实体命名识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111405790.8A CN114091460A (zh) 2021-11-24 2021-11-24 一种多任务中文实体命名识别方法

Publications (1)

Publication Number Publication Date
CN114091460A true CN114091460A (zh) 2022-02-25

Family

ID=80304078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111405790.8A Pending CN114091460A (zh) 2021-11-24 2021-11-24 一种多任务中文实体命名识别方法

Country Status (1)

Country Link
CN (1) CN114091460A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114637822A (zh) * 2022-03-15 2022-06-17 平安国际智慧城市科技股份有限公司 法律信息查询方法、装置、设备及存储介质
CN114821603A (zh) * 2022-03-03 2022-07-29 北京百度网讯科技有限公司 票据识别方法、装置、电子设备以及存储介质
CN114937486A (zh) * 2022-06-22 2022-08-23 肾泰网健康科技(南京)有限公司 Idh预测及干预措施推荐多任务模型的构建方法及应用
CN115630649A (zh) * 2022-11-23 2023-01-20 南京邮电大学 一种基于生成模型的医学中文命名实体识别方法
CN116401369A (zh) * 2023-06-07 2023-07-07 佰墨思(成都)数字技术有限公司 用于生物制品生产术语的实体识别及分类方法
CN116501884A (zh) * 2023-03-31 2023-07-28 重庆大学 一种基于BERT-BiLSTM-CRF的医药实体识别方法
CN117933380A (zh) * 2024-01-31 2024-04-26 国网江苏省电力有限公司南通供电分公司 一种电力行业科研知识抽取方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821603A (zh) * 2022-03-03 2022-07-29 北京百度网讯科技有限公司 票据识别方法、装置、电子设备以及存储介质
CN114821603B (zh) * 2022-03-03 2023-09-01 北京百度网讯科技有限公司 票据识别方法、装置、电子设备以及存储介质
CN114637822A (zh) * 2022-03-15 2022-06-17 平安国际智慧城市科技股份有限公司 法律信息查询方法、装置、设备及存储介质
CN114937486A (zh) * 2022-06-22 2022-08-23 肾泰网健康科技(南京)有限公司 Idh预测及干预措施推荐多任务模型的构建方法及应用
CN114937486B (zh) * 2022-06-22 2023-09-26 肾泰网健康科技(南京)有限公司 Idh预测及干预措施推荐多任务模型的构建方法及应用
CN115630649A (zh) * 2022-11-23 2023-01-20 南京邮电大学 一种基于生成模型的医学中文命名实体识别方法
CN116501884A (zh) * 2023-03-31 2023-07-28 重庆大学 一种基于BERT-BiLSTM-CRF的医药实体识别方法
CN116401369A (zh) * 2023-06-07 2023-07-07 佰墨思(成都)数字技术有限公司 用于生物制品生产术语的实体识别及分类方法
CN116401369B (zh) * 2023-06-07 2023-08-11 佰墨思(成都)数字技术有限公司 用于生物制品生产术语的实体识别及分类方法
CN117933380A (zh) * 2024-01-31 2024-04-26 国网江苏省电力有限公司南通供电分公司 一种电力行业科研知识抽取方法及系统

Similar Documents

Publication Publication Date Title
CN114091460A (zh) 一种多任务中文实体命名识别方法
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN109635109B (zh) 基于lstm并结合词性及多注意力机制的句子分类方法
CN112579778B (zh) 基于多层次的特征注意力的方面级情感分类方法
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN112270379A (zh) 分类模型的训练方法、样本分类方法、装置和设备
CN109684642B (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、系统及介质
CN111597342B (zh) 一种多任务意图分类方法、装置、设备及存储介质
CN110580287A (zh) 基于迁移学习和on-lstm的情感分类方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
Yao Attention-based BiLSTM neural networks for sentiment classification of short texts
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN117909918A (zh) 一种基于融合特征的监护仪故障预测方法和系统
CN114239584A (zh) 一种基于自监督学习的命名实体识别方法
CN113642862A (zh) 基于bert-mbigru-crf模型的电网调度指令命名实体识别方法及系统
CN113761885A (zh) 一种基于BayesLSTM的语种识别方法
CN113157918A (zh) 一种基于注意力机制的商品名称短文本分类方法和系统
CN110888944B (zh) 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination