CN116151256A

CN116151256A - 一种基于多任务和提示学习的小样本命名实体识别方法

Info

Publication number: CN116151256A
Application number: CN202310010226.9A
Authority: CN
Inventors: 徐云兵; 王洁
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-05-23

Abstract

本发明公开了一种基于多任务和提示学习的小样本命名实体识别方法，在利用原型网络进行实体抽取阶段，针对原型网络无法利用标签之间的依赖转移关系，引入条件随机场(CRF)进行联合解码。在构建提示模板时，对提示模板引入可自动学习语义的虚拟字符，增加模型的鲁棒性。此外对提示模板中硬提示符单独赋予自注意力机制，增强硬提示符语义之间的连贯性和整体性。将多任务与提示学习相结合，将命名实体识别拆分成两个子任务来完成；基于提示学习的方式，将实体词嵌入至提示模板完成实体类型的分类。本发明能够提高鲁棒性，同时对提示模板中硬提示符单独赋予自注意力机制，增强硬提示符的联贯性和整体性。

Description

一种基于多任务和提示学习的小样本命名实体识别方法

技术领域

本发明涉及深度学习自然语言处理技术领域，具体涉及一种基于多任务和提示学习的小样本命名实体识别方法，可用于小样本命名实体识别任务中，能够为知识图谱的构建、机器翻译、问答系统所服务。

背景技术

随着信息技术的高速发展，海量的信息以文本为载体在互联网上传播，而如何从海量的文本中提取出有价值的信息成为当下热点研究问题。命名实体识别(Name EntityRecognition，NER)作为信息抽取领域的一项子任务，其目标是识别出文本中的实体所在的位置以及实体对应的类别。命名实体识别作为文本信息结构化的预处理步骤，广泛应用于问答系统、知识库构建等诸多下游任务中。

深度学习方法在命名实体识别任务上表现优异，但深度学习方法依赖大量标注数据来训练模型，而在实际应用场景中，很多领域无法获得丰富的命名实体标注数据，而对于命名实体识别数据集的标注工作极其耗费人力，且需要标注人员具备较高的领域内的相关知识，因此小样本命名实体识别具备较高的实用价值。基于提示学习(Prompt learning)的方法，通过引入提示模板，将下游任务转换成与模型预训练任务相同形式，缩小了预训练任务和下游任务之间形式上的差距，从而在小样本场景下能更充分的挖掘出预训练模型的内部知识。然而，基于提示学习的方法起初是基于句子级别的任务提出的，因此现阶段该方法仅对于句子级别的自然语言理解任务方便且有效，对于命名实体识别这一类字符级别的自然语言理解任务，受到提示模板与样本结合形式的限制，现有的方法通过n-gram算法枚举句子中各个跨度下的候选实体，然后与逐一填入各个实体类别对应提示模板中进行预测，导致时间复杂度较高。此外目前基于提示学习的方法对于提示模板采用手工进行构建或者在大规模语料空间搜索完成，该类方法在小样场景下难以进行搜索优化，且样本对模板中提示符的变动十分敏感。

本发明将提示学习与多任务思想结合，提出了基于多任务和提示学习的命名实体识别方法，改善了现有方法所存在的弊端：(1)将命名实体识别任务拆分成实体抽取和实体类型分类两个子任务，先基于原型网络计算出各类别的原型，通过度量文本中单词与各原型之间距离完成实体抽取；然后基于提示学习的方式，将实体词嵌入至提示模板完成实体类型的分类，降低了时间复杂度。(2)针对传统提示模板构建时搜索空间大且模型对提示符敏感的问题，对提示模板引入可训练的软提示符。(3)对提示模板中硬提示符单独赋予自注意力机制，增强硬提示符语义的连贯性和整体性。(4)在公开数据集上进行小样本采样操作，按照小样本个数设定得到多个小样本数据集并进行实验，验证了本发明的有效性。

发明内容

本发明的主要思想是：考虑到命名实体识别可拆分为实体抽取和实体类型分类两个子任务，因此可以先进行实体抽取实体然后结合提示学习完成实体类型分类，从而取代枚举实体跨度片段并填充至提示模板进行分类这一繁琐耗时的形式。在利用原型网络进行实体抽取阶段，针对原型网络无法利用标签之间的依赖转移关系，引入条件随机场(CRF)进行联合解码。在构建提示模板时，对提示模板引入可自动学习语义的虚拟字符，增加模型的鲁棒性。此外对提示模板中硬提示符单独赋予自注意力机制，增强硬提示符语义之间的连贯性和整体性。

本发明包括以下步骤：

步骤一：对待抽取实体的文本语句进行编码；利用预训练模型BERT得到文本语句的各个词的编码向量。

步骤二：抽取文本中实体；原型网络先基于支持集样本计算出每个实体类别的几何中心，然后将该中心作为对应类别的原型。对查询集文本单词分类时，通过对比单词到每个原型的距离，从而预测出单词的类别。为了解决传统的原型网络在解码过程中未考虑到标签之间的依赖转移概率，引入条件随机场进行联合解码，得到全局最优的标签序列，根据预测的标签得到文本中的实体词。

步骤三：构建提示模板并进行词嵌入；经过实体抽取模块得到文本中的命名实体后，将实体词填充到提示模板，然后将提示模板与原始文本拼接得到完整的输入样本。在提示模板中引入需要自动学习语义的软提示符，提高模型的鲁棒性。软提示符采用随机向量嵌入，原始文本与硬提符由预训练模型BERT生成嵌入向量。

步骤四：对原始文本和提示模板进行编码；提示模板先经过一层双向长短期记忆网络(BiLSTM)进行编码，以缓解提示模板中软提示符和硬提示符之间的语义割裂问题；针对硬体提示符以及实体词的编码向量单独引入自注意力编码，增强该部分单词之间的相关性以及语义上的连贯性；最后将原始文本的向量序列与提示模板的向量序列拼接输入BERT进行编码，得到最终输出的隐藏层向量序列。

步骤五：实体类型分类；采用与预训练模型预训练任务相同的掩码预测任务对实体类型进行分类。利用BERT掩码预测任务的头部对最终输出的隐藏层向量序列中被遮盖的字符(MASK)进行预测，最后将预测的单词转换成实体的类别标签。

与现有技术相比，本发明的技术方案具有以下优势：

1)本发明将多任务与提示学习相结合，将命名实体识别拆分成两个子任务来完成，先基于原型网络计算出各类别的原型，通过度量文本中单词与各原型之间距离完成实体抽取；然后基于提示学习的方式，将实体词嵌入至提示模板完成实体类型的分类，取代了枚举实体跨度再填充到提示模板中进行实体类型预测这一繁琐耗时的形式。

2)本发明在原型网络解码阶段引入条件随机场以捕条件捉标签类别之间的转移关系，确保输出全局最优的标签序列，提高实体抽取的准确率。

3)本发明对提示模板引入可训练的软字符，以缓解模型对不同纯硬提示模板敏感的问题，提高模板的鲁棒性，同时对提示模板中硬提示符单独赋予自注意力机制，增强硬提示符的联贯性和整体性。

附图说明

图1是本发明所设计方法的整体流程图。

图2是本发明所设计的基于原型网络的实体抽取层结构图。

图3是本发明方法中原始输入提示模板的嵌入层流程图。

图4是本发明所设计的实体类型分类模块编码层流程图。

图5是本发明所使用的BiLSTM网络结构图。

图6是本发明所使用的自注意力层网络结构图。

图7是本发明所设计的实体类型解码层流程图。

具体实施方式

为了使本发明的目的、技术方案和特点更加清楚明白，以下结合具体实施例子，并参照附图，对本发明进行进一步的细化说明。

步骤一：对待抽取实体的文本语句进行编码；

本发明采用预训练模型BERT对输入的文本进行编码，经过大规模语料预训练的BERT能更好的捕捉到文本更深层次的信息，区别于传统的上下文无关的语言模型(Glove,Word2Vector)，BERT对词进行编码时，充分考虑了词的上下文语义信息，为单词生成动态的编码表示，解决了一次多义的问题。

BERT的模型的输入分为三个部分：词嵌入(token embedding)、位置嵌入(position embedding)、片段嵌入(segment embedding)。词嵌入指输入文本中每个单词的初始向量表示；位置嵌入记录了文本中每个词的位置信息；片段嵌入标识单词是属于哪一个句子，其值为0或1，0表示属于第一个句子，1表示属于第二个句子。对于每个输入文本，BERT会在文本的开始位置和结束位置分别添加[CLS]、[SEP]标识符，其中[CLS]标识符通常用于文本的整句向量表示。

针对于长度为L的输入样本X＝[x₁,x₂,…,x_L],在经过BERT编码后得到最终的编码序列H＝[h₀,h₁,h₂,…,h_L+1]，其中，h₀表示[CLS]标识符的编码向量，h_L+1表示[SEP]的编码向量，h₁,h₂,…h_L则表示原始输入文本的编码向量。

步骤二：抽取文本中实体；

实体抽取层基于原型网络实现,原型网络通过把样本语句投影到一个空间，然后计算每个类别的几何中心作为原型，在分类的时候，通过对比单词与每个原型的距离，从而预测出单词的类别，为了解决传统的原型网络在解码过程中未考虑到标签之间的依赖转移关系，本发明在解码阶段引入条件随机场(CRF)以捕条件捉标签类别之间的转移关系。实体抽取层整体结构如图2所示。

为了使实体抽取任务适配到原型网络，本发明将数据集标签进行转化，将原始标签统一转换成B、I、O三类，其中B表示实体的开始位置，I表示实体的中间或者结束位置，O表示非实体词，通过对输入样本语句中每个单词进行分类预测，达到实体抽取的目的。

实体抽取层的输入分为支持集(support set)和查询集(query set)两部分，支持集从训练集采样k个样本构成，查询集为待预测样本构成。支持集先经过原型网络生成每个类别对应的原型c,设支持集为

类别t的原型c_t计算过程如下:

h_i＝BERT(x_i)(1)

/>

其中，S_t表示支持集中所有样本语句中的类别为t的单词构成的集合，支持集中的样本语句先经过编码器BERT得到编码向量H_i＝[h₀,h₁,h₂,…,h_L+1]，如公式(2)所示，原型网络通过计算同一类别单词编码向量的几何质心来确定各个类别的原型。

然后，通过度量查询集文本的单词的编码向量到每个原型的欧式距离得到相应的类别概率，计算方式如公式(3)和(4)所示，其中h_i为输入文本中单词x_i经过编码层得到的向量,d(C_t,h_i)表示向量h_i与类别t的原型向量C_t之间负的欧式距离。在计算单词的编码向量到各个原型的距离之后，再经过softmax归一化，得到单词xi的对应的各类别概率为p(y_i|x_i)。

d(c_t,h_i)＝-||h_i-c_t||(3)

p(y_i|x_i)＝Softmax(d(c₀,h_i),…,d(c_T,h_i))(4)

最后，CRF层对单词到标签的发射概率以及标签之间的转移概率联合建模，输出全局最优的标签序列，计算公式如下：

为了提高实体抽取模块对实体抽取的效果，缩小模型预测结果与真实结果的差距，本发明设计了如式(6)所示的损失函数，为了缓解损失相对较高的字符学习不足的问题，在交叉熵损失的基础上额外添加了一个字符损失最大的损失项：

步骤三：构建提示模板并进行词嵌入；嵌入层的输入分为原始训练样本和提示模板，在经过实体抽取模块得到文本中的实体后，将其填充到提示模板，然后将提示模板与原始文本拼接得到完整的输入样本，该层流程如图3所示，原始输入为“Isaac Newton wasborn in England”，经过实体抽取模块抽取出里面的人名实体“Isaac Newton”，然后将其填充到提示模板中。提示模板由硬提示符和软提示符构成，硬提示符是具有固定自然语义的单词，软提示符则需要经过训练学习到相应的语义向量表示，由BERT的词表中的[UNK]字符标识，表示未知字符。提示模板中的[MASK]字符为待解码字符，BERT的掩码预测任务(MLM)根据输入文本的整体语义，预测出[MASK]位置需要填充的单词。设原始输入为

提示模板为/>

由于[UNK]这一字符不具备自然语义，嵌入方式为随机向量嵌入，其他字符则由BERT模型的预训练权重生成嵌入向量，最终得到嵌入层输出/>

步骤四：对原始文本和提示模板进行编码；

原始输入和提示模板拼接得到的文本经过嵌入层得到嵌入层向量序列E后，输入编码层进行编码，该层整体结构如图4所示。由于提示模板中软提示符的向量初始权重为随机生成，而提示模板中的硬提示符的嵌入向量由预训练模型生成，二者的向量在语义上存在割裂，因此引入双向长短期记忆网络(BiLSTM)对提示模板进行编码，增强提示模板向量语义空间上的整体连续性。BiLSTM结构如图5所示，将嵌入层得到的嵌入向量的提示模板部分E_T输入到BiLSTM网络中进行特征提取，输出编码后的文本向量H^lstm∈R^2d×n。提示模板的第i个单词输出向量表示如下：

其中，

表示嵌入层向量e经过前向LSIM单元得到的隐藏层输出；/>

则表示e_i经过后向LSIM单元得到的隐藏层输出；h_i表示e_i经过双向LSIM网络的最终输出，由前向输出向量/>

和后向输出向量/>

拼接而成。

考虑到提示模板中硬体提示符以及实体词本身具备自然语义，但是由于插入到提示模板中的位置并不是连续的，破坏了语义上的连贯性，因此针对硬体提示符以及实体词的编码向量单独引入自注意力机制，增强该部分单词之间的相关性以及语义上的连贯性。自注意力层对应的网络结构如图6所示，自注意力层的输入为H^lstm中硬提示符以及实体词部分的向量，设为X＝[x₁,x₂,…,x_m]。为了提高模型能力，自注意力机制通常采用查询-键-值(Query-key-value,Q,K,V)模式，对于每个输入向量x_i,先将其映射到Q、K、V三个不同的向量空间中，分别得到查询向量

键向量/>

值向量/>

对于整个输入序列X，线性映射过程如以下公式所示：

其中

分别为线性映射参数矩阵，Q＝[q₁,q₂…q_m],K＝[k₁,k₂…k_m],V＝[v₁,v₂…v_m]分别为查询向量，键向量和值向量构成的矩阵。将x_i对应的q_i经过键值对注意力机制，得到输出向量h_i，计算公式如下：

其中，α_ij表示第i个输出向量对第j个输入向量的注意力分数，s(k_j,q_i)为注意打分函数，采用缩放点积的进行计算。Softmax为归一化函数，按列对注意力分数进行归一化。

硬提示符与实体词经过自注意层得到相应的编码向量后，与软提示符的编码向量进行拼接，得到整个提示模板的编码向量H^template，再将其与原始输入文本的输入向量H^input进行拼接得到的整个输入的向量序列H^total＝[H^input,H^template],最后，将H^total输入BERT进行编码，得到最终输出的隐藏层向量序列H^out。

步骤五：实体类型分类；

本发明采用掩码语言模型(Mask Language Model,MLM)BERT的掩码预测任务的头部作为实体类型解码层，该层结构如图7所示，该层对输入语句中掩码字符，即[MASK]位置应该填充的单词进行预测。

首先将编码层得到的隐向量序列H^out＝[h_[cls],h₀,h₁…h_[MASK]…h_[sep]]输入解码层，解码层首先提取出[MASK]字符对应的隐向量h_[MASK],然后经过运算在[MASK]位置得到关于整个BERT词表中单词集合V的预测概率分布，运算过程如公式(15)所示，其中W_mlm表示BERT掩码预测任务头部的权重，b表示偏置值。为了将单词空间转换到标签空间，本发明为每个标签挑选出了相应的候选单词集合

标签候选词与标签之间有着相似的语义。通过对所有标签的候选词集合取交集得到所有标签的候选词集合/>

然后根据BERT词表中单词集合V的概率分布筛选出标签的候选词集合V_total中各个单词对应的概率值。最终选取V_total中概率最高的单词作为预测结果，最后根据候选词与标签之间的对应关系，得到该实体的真实类别标签，计算公式如下所示，其中H^out为隐向量序列，v为y标签候选单词集合V_y中的单词。

p([MASK]＝v|H^out)＝Softmax(W_mlmh_[MASK]+b)(15)

p(y|x,T,e)＝p([MASK]＝v|H^out)v∈V_y(16)

实体类型分类模块的损失函数为交叉熵损失，具体计算方式如下所示，其中x为原始输入语句，T为提示模板，e_i为样本语句x中的第i个实体。

实验结果与分析

本发明分别在公开数据集FewNERD和OntoNote 5.0上进行了实验对比。选择精确率(precision)、召回率(recall)、F1值(F1 score)作为实验的评价标准，根据数据的真实标记和算法得到的预测标记，可以将预测结果分为四个类别，分别是真正类(TP)、真负类(TN)、假正类(FP)和假负类(FN)。命名实体识别任务目的在于识别出文本中的实体以及实体对应的类别，只有当实体边界和实体类别同时被精确识别出时，命名实体识别任务才会被认定为成功。

1)精确率(precision)：

2)召回率(recall)：

3)F1值(F1-measure)：

第一组实验将本发明所提出的模型在FewNERD数据集上与其它命名实体识别模型进行对比实验，实验结果如表1所示。本发明选择常用的命名实体识别模型Bert-Tagger、ProtoNet、NNShot、Template NER作为对比模型。通过对FewNERD数据集进行小样本采样操作创建小样本数据集，小样本采样按照实体类别的样本个数k分为5、10、20三组。

Template NER模型基于提示学习的方式来完成命名实体识别，通过原始输入样本中添加额外的提示模板，从而将下游任务转化成与预训练模型的预训练任务相同的形式，缩小了下游任务与预训练任务之间的差异，因此该方法能更好地挖掘出预训练模型的潜在知识，该模型的小样本命名实体识别效果大幅优于Bert-Tagger、ProtoNet、NNShot等模型。

本发明提出的模型Prompt-M在改进了Template NER模型枚举实体跨度再填充到提示模板中进行实体类型预测这一繁琐的形式，此外对提示模板引入可训练的软字符，以缓解模型对不同纯硬提示模板敏感的问题，同时对提示模板中硬提示符单独赋予自注意力机制，增强硬提示符的联系性和整体性。与Template NER模型相比，虽然在k为20的场景下二者在精确率、召回率、F1值三个指标上各有优劣，但是本发明提出的方法在k为5、10的情况下精确率、召回率、F1值三个指标均更优，其中k＝5的设定下F1分数提升1.45

第二组实验在公开数据集OntoNotes5.0上进行实验，OntoNote5.0包括新闻，演讲，博客等多个域的语料，能更好地验证模型在小样本场景下的泛化能力。实验结果如表2所示。将本发明所提出的方法与其它命名实体识别模型对比，从实验结果来看，本发明在三组小样本设定下精确率、召回率、F1值均优于Bert-tag、ProtoNet、NNShot模型，尤其是在样本个数较少时(k＝5、10)效果提升更加明显。相较于目前的基于提示学习的命名实体识别模型Template NER，三组小样本设定下，F1值均更优。

表1是FewNERD数据集上小样本实验结果。

表2是OntoNote 5.0数据集上小样本实验结果

/>

Claims

1.一种基于多任务和提示学习的小样本命名实体识别方法，其特征在于，包括以下步骤：

步骤一：对待抽取实体的文本语句进行编码；利用预训练模型BERT得到文本语句的各个词的编码向量；

步骤二：抽取文本中实体；原型网络先基于支持集样本计算出每个实体类别的几何中心，然后将该中心作为对应类别的原型；对查询集文本单词分类时，通过对比单词到每个原型的距离，从而预测出单词的类别；引入条件随机场进行联合解码，得到全局最优的标签序列，根据预测的标签得到文本中的实体词；

步骤三：构建提示模板并进行词嵌入；经过实体抽取模块得到文本中的命名实体后，将实体词填充到提示模板，然后将提示模板与原始文本拼接得到完整的输入样本；在提示模板中引入需要自动学习语义的软提示符，提高模型的鲁棒性；软提示符采用随机向量嵌入，原始文本与硬提符由预训练模型BERT生成嵌入向量；

步骤四：对原始文本和提示模板进行编码；提示模板先经过一层双向长短期记忆网络BiLSTM进行编码，以缓解提示模板中软提示符和硬提示符之间的语义割裂问题；针对硬体提示符以及实体词的编码向量单独引入自注意力编码，增强该部分单词之间的相关性以及语义上的连贯性；最后将原始文本的向量序列与提示模板的向量序列拼接输入BERT进行编码，得到最终输出的隐藏层向量序列；

步骤五：实体类型分类；采用与预训练模型预训练任务相同的掩码预测任务对实体类型进行分类；利用BERT掩码预测任务的头部对最终输出的隐藏层向量序列中被遮盖的字符MASK进行预测，最后将预测的单词转换成实体的类别标签。

2.根据权利要求1所述的一种基于多任务和提示学习的小样本命名实体识别方法，其特征在于，步骤一：对待抽取实体的文本语句进行编码；

采用预训练模型BERT对输入的文本进行编码，经过语料预训练的BERT捕捉到文本更深层次的信息；

BERT的模型的输入分为三个部分：词嵌入、位置嵌入、片段嵌入；词嵌入指输入文本中每个单词的初始向量表示；位置嵌入记录了文本中每个词的位置信息；片段嵌入标识单词是属于哪一个句子，其值为0或1，0表示属于第一个句子，1表示属于第二个句子；对于每个输入文本，BERT会在文本的开始位置和结束位置分别添加[CLS]、[SEP]标识符，其中[CLS]标识符通常用于文本的整句向量表示；

对于长度为L的输入样本x＝[x₁，x₂，...，x_L]，在经过BERT编码后得到最终的编码序列H＝[h₀，h₁，h₂，...，h_L+1]，其中，h₀表示[CLS]标识符的编码向量，h_L+1表示[SEP]的编码向量，h₁，h₂，...h_L则表示原始输入文本的编码向量。

3.根据权利要求1所述的一种基于多任务和提示学习的小样本命名实体识别方法，其特征在于，步骤二：抽取文本中实体；

实体抽取层基于原型网络实现，原型网络通过把样本语句投影到一个空间，然后计算每个类别的几何中心作为原型，在分类的时候，通过对比单词与每个原型的距离，从而预测出单词的类别；在解码阶段引入条件随机场CRF以捕条件捉标签类别之间的转移关系；

为了使实体抽取任务适配到原型网络，将数据集标签进行转化，将原始标签统一转换成B、I、O三类，其中B表示实体的开始位置，I表示实体的中间或者结束位置，O表示非实体词，通过对输入样本语句中每个单词进行分类预测，达到实体抽取的目的；

实体抽取层的输入分为支持集和查询集两部分，支持集从训练集采样k个样本构成，查询集为待预测样本构成；支持集先经过原型网络生成每个类别对应的原型c，设支持集为

类别t的原型c_t计算过程如下：

h_i＝BERT(x_i) (1)

其中，S_t表示支持集中所有样本语句中的类别为t的单词构成的集合，支持集中的样本语句先经过编码器BERT得到编码向量H_i＝[h₀，h₁，h₂，...，h_L+1]，如公式(2)所示，原型网络通过计算同一类别单词编码向量的几何质心来确定各个类别的原型；

然后，通过度量查询集文本的单词的编码向量到每个原型的欧式距离得到相应的类别概率，计算方式如公式(3)和(4)所示，其中h_i为输入文本中单词x_i经过编码层得到的向量，d(C_t，h_i)表示向量h_i与类别t的原型向量C_t之间负的欧式距离；在计算单词的编码向量到各个原型的距离之后，再经过softmax归一化，得到单词x_i的对应的各类别概率为p(y_i|x_i)；

d(c_t，h_i)＝-||h_i-c_t|| (3)

p(y_i|x_i)＝Softmax(d(c₀，h_i)，…，d(c_T，h_i)) (4)

为了提高实体抽取模块对实体抽取的效果，缩小模型预测结果与真实结果的差距，设计了如式(6)所示的损失函数，为了缓解损失相对较高的字符学习不足的问题，在交叉熵损失的基础上额外添加了一个字符损失最大的损失项：

4.根据权利要求1所述的一种基于多任务和提示学习的小样本命名实体识别方法，其特征在于，步骤三：构建提示模板并进行词嵌入；嵌入层的输入分为原始训练样本和提示模板，在经过实体抽取模块得到文本中的实体后，将其填充到提示模板，然后将提示模板与原始文本拼接得到完整的输入样本，经过实体抽取模块抽取出里面的人名实体，然后将其填充到提示模板中；提示模板由硬提示符和软提示符构成，硬提示符是具有固定自然语义的单词，软提示符则需要经过训练学习到相应的语义向量表示，由BERT的词表中的[UNK]字符标识，表示未知字符；提示模板中的[MASK]字符为待解码字符，BERT的掩码预测任务(MLM)根据输入文本的整体语义，预测出[MASK]位置需要填充的单词；设原始输入为

提示模板为/>

5.根据权利要求1所述的一种基于多任务和提示学习的小样本命名实体识别方法，其特征在于，步骤四：对原始文本和提示模板进行编码；

原始输入和提示模板拼接得到的文本经过嵌入层得到嵌入层向量序列E后，输入编码层进行编码，引入双向长短期记忆网络BiLSTM对提示模板进行编码，增强提示模板向量语义空间上的整体连续性；BiLSTM结构中，将嵌入层得到的嵌入向量的提示模板部分E_T输入到BiLSTM网络中进行特征提取，输出编码后的文本向量H^lstm∈R^2d×n；提示模板的第i个单词输出向量表示如下：

其中，

表示嵌入层向量e经过前向LSIM单元得到的隐藏层输出；/>

和后向输出向量/>

拼接而成；

考虑到提示模板中硬体提示符以及实体词本身具备自然语义，但是由于插入到提示模板中的位置并不是连续的，破坏了语义上的连贯性，因此针对硬体提示符以及实体词的编码向量单独引入自注意力机制，增强该部分单词之间的相关性以及语义上的连贯性；自注意力层对应的网络结构中，自注意力层的输入为H^lstm中硬提示符以及实体词部分的向量，设为X＝[x₁，x₂，...，x_m]；为了提高模型能力，自注意力机制通常采用查询-键-值模式，对于每个输入向量x_i，先将其映射到Q、K、V三个不同的向量空间中，分别得到查询向量

键向量/>

值向量/>

对于整个输入序列X，线性映射过程如以下公式所示：

其中

分别为线性映射参数矩阵，Q＝[q₁，q₂…q_m]，K＝[k₁，k₂...k_m]，V＝[v₁，v₂…v_m]分别为查询向量，键向量和值向量构成的矩阵；将x_i对应的q_i经过键值对注意力机制，得到输出向量h_i，计算公式如下：

其中，α_ij表示第i个输出向量对第j个输入向量的注意力分数，s(k_j，q_i)为注意打分函数，采用缩放点积的进行计算；Softmax为归一化函数，按列对注意力分数进行归一化；

硬提示符与实体词经过自注意层得到相应的编码向量后，与软提示符的编码向量进行拼接，得到整个提示模板的编码向量H^template，再将其与原始输入文本的输入向量H^input进行拼接得到的整个输入的向量序列H^total＝[H^input，H^template]，最后，将H^total输入BERT进行编码，得到最终输出的隐藏层向量序列H^out。

6.根据权利要求1所述的一种基于多任务和提示学习的小样本命名实体识别方法，其特征在于，步骤五：实体类型分类；

采用掩码语言模型BERT的掩码预测任务的头部作为实体类型解码层，该层对输入语句中掩码字符，即[MASK]位置应该填充的单词进行预测；

首先将编码层得到的隐向量序列H^out＝[h_[cls]，h₀，h₁…h_[MASK]…h_[sep]]输入解码层，解码层首先提取出[MASK]字符对应的隐向量h_[MASK]，然后经过运算在[MASK]位置得到关于整个BERT词表中单词集合V的预测概率分布，运算过程如公式(15)所示，其中W_mlm表示BERT掩码预测任务头部的权重，b表示偏置值；为了将单词空间转换到标签空间，为每个标签挑选出了相应的候选单词集合

标签候选词与标签之间有着相似的语义；通过对所有标签的候选词集合取交集得到所有标签的候选词集合/>

然后根据BERT词表中单词集合V的概率分布筛选出标签的候选词集合V_total中各个单词对应的概率值；最终选取V_total中概率最高的单词作为预测结果，最后根据候选词与标签之间的对应关系，得到该实体的真实类别标签，计算公式如下所示，其中H^out为隐向量序列，v为y标签候选单词集合V_y中的单词；

p([MASK]＝v|H^out)＝Softmax(W_mlmh_[MASK]+b) (15)

p(y|x，T，e)＝p([MASK]＝v|H^out)v∈V_y (16)

实体类型分类模块的损失函数为交叉熵损失，具体计算方式如下所示，其中x为原始输入语句，T为提示模板，e_i为样本语句x中的第i个实体；

/>