CN114548104B

CN114548104B - 基于特征和类别干预的少样本实体识别方法与模型

Info

Publication number: CN114548104B
Application number: CN202210117810.XA
Authority: CN
Inventors: 刘永彬; 陶治华; 欧阳纯萍; 万亚平; 林强; 田纹龙; 聂沛
Original assignee: University of South China
Current assignee: University of South China
Filing date: 2022-02-08
Publication date: 2024-07-12
Anticipated expiration: 2042-02-08

Abstract

基于特征和类别干预的少样本实体识别方法与模型，涉及自然语言处理技术领域，该方法包括：构建输入特征干预模型和类别调整干预模型；将支持集和查询集交叉样本间的特征X提取出来，输入至特征干预模型中，对特征X进行注意力门前干预，获取特征层级调整；将调整后的特征输入至类别调整干预模型中，对分类器概率输出进行重定义，将来自预训练的特征均值依据分类概率重新分配新的权重，进行类别调整，得到新类特征，计算查询集中每个样本在所有类下的最小距离，并利用解码器得到查询集样本的分类预测值。本发明通过对特征和类进行干预，消减了混杂因素的干扰，增加了相似语义样本之间的差异，提高了实体分类器的辨别能力。

Description

基于特征和类别干预的少样本实体识别方法与模型

技术领域

本发明涉及自然语言处理技术领域，尤其指一种基于特征和类别干预的少样本实体识别方法与模型。

背景技术

在自然语言学习中，命名实体识别是信息抽取中一项重要任务，旨在识别文本中表示实体的成分并分类。在通用语料库中，命名实体识别任务已经获得了相当高质量的解决方法。但是在实际应用中，丰富的语料库是不常见的，经常会出现资源不足的情况，例如数据标注缺少，语料中某一类别实体数量较少不足以通过训练获得准确实体类别等。针对上述情况，开发出一种基于少量标记数据学习到实体类别的任务，即Few-shot NER。随着Few-shot NER的流行，越来越多人意识到研究Few-shot NER的重要意义并将Few-shotNER应用到专门领域。

常见的Few-shot NER解决方法是度量学习，包括匹配网络和原型网络。这样的模型不需要为了学习新的类而重新训练，就可以从少数样本中学习类，极大地解决了样本数量不足所产生的问题，表现出强大的潜力例如，在原型网络中，命名实体识别的少样本研究是学习类的原型，根据最接近的原型对示例进行分类。尽管如此，基本的原型网络在面临类别相似的情况中，能获得词义的一般信息，但很难精准捕捉到类别之间的差异，使得实体相关特征难以准确学到。

现存的模型大多都是关注在预训练上，预训练模型越强大任务效果越好。虽然模型性能得到显著提升，但是无法利用查询集(即Query集)样本与支持集(即 Support集)样本之间关系，更好提高模型的泛化能力。在小样本学习中：第一，本身由于样本数量有限，无法很准确学习到Support集和Query集特征；第二，文本中同一个词汇在不同语境下含义不同，仅依据在support集某类语句中实体属性以相似度加以判别其在Query集中实体属性，会造成一定误差。如下表1 所示：

Table 1 Case of misclassification of similar entities

support集中数据通过训练后句子将重点关注在新特征向量上，在句子1和句子2中依据句特征和词特征找到两个类别的原型后得到的实体类别分别为 ‘event-attack/war/military conflict’以及‘event-contest’.针对query样本，与两个类均存在相似特征，依照特征相似度及原型距离计算将会划分到错误类别 ‘event-attack/war/militaryconflict’,但是真实类别是‘event-contest’。文本信息中，一个句子不同部分有着不同的含义和重要性，将句子编码看作Q和V的输入，可以获得对句子中某一类词的重点关注，这种方式称为注意力机制，它是一种非局部卷积方式。

总而言之，现实世界文本数据其庞大和复杂性特点增加了标记的难度并导致已标记文本数量有限，少样本命名实体识别仅利用少量标注数据就可以识别实体并分类，虽然现有的原型网络在少样本中已经取得了良好的性能，但样本会受到语义相近信息干扰，导致偏差并难以精准捕捉类别。

发明内容

本发明所要解决的技术问题是提供一种基于特征和类别干预的少样本实体识别方法，该方法通过对特征和类进行干预，消减混杂因素的干扰，增加了相似语义样本之间的差异，提高了实体分类器的辨别能力。

为了解决上述技术问题，本发明采用如下技术方法：一种基于特征和类别干预的少样本实体识别方法，包括以下步骤：

S1、构建输入特征干预模型和类别调整干预模型；

S2、将支持集和查询集交叉样本间的特征X提取出来，输入至步骤S1得到的输入特征模型中，对所述特征X进行注意力门前干预，获取特征层级调整；

S3、将调整后的特征输入至类别调整干预模型中，对分类器概率输出进行重定义，将来自预训练的特征均值依据分类概率重新分配新的权重，进行类别调整，得到新类特征，计算查询集中每个样本在所有类下的最小距离，并利用解码器得到查询集样本的分类预测值。

进一步地，步骤S1中，所述输入特征干预模型采用如下公式进行构建：

式中，X为支持集和查询集交叉样本间的特征，T为特征提取的过程，Y为查询集样本的分类结果。

进一步地，步骤S1中，所述类别调整模型采用如下公式进行建模：

式中，m为训练类数量，m_i为第i个训练类，P(m_i|x)为样本x属于m_i类的概率，x_i′表示第i类的平均特征，表示向量拼接。

更进一步地，步骤S2中，所述特征X在进行注意力门前干预，获取特征层级调整时，包括：

(1)将支持集和查询集的句子输入BERT中，获得支持集和查询集最初隐藏特征W₀；

W₀＝f(l) (3)

(2)基于attention机制，先将机制中的Q替换成查询集样本特征，对原始特征进行维度扩展，再对Q、K进行余弦距离计算，获得查询集与支持集句间的相似度矩阵A_i,j：

A_i,j＝softmax(Cos_Sim(Q_i,K_j)) (4)

X′＝∑_i∈I,j∈JV_jA_i,j (5)

式中，i为查询集中的第i个句子，j为支持集中的第j个句子，X’为基于查询集作用下支持集的表征信息。

(3)对(2)中得到的X’用normalization函数进行归一化处理，并将样本特征值映射到[0,1]区间，重新赋予样本新权重得到样本新特征X₀：

式中，F(X’)为X’的归一化函数，表示向量拼接。

再进一步地，步骤S3中，在进行类别调整，得到新类特征时，包括：

(1)训练支持集样本，随机初始化类别i下的原型proto_i，并定义其支持集为S_i，以字符为单位计算查询集样本的原型距离d_i(x)：

式中，q_x为查询集中的样本；

(2)根据查询集中的样本q_x与原型距离d_i(x)，得出样本q_x属于M个类的概率p＝{p₁,p₂,…,p_m}；

(3)先将原型距离d_i(x)转化为概率权重，再和类特征相结合，接着与原始特征拼接得到新类特征。

更进一步地，步骤S3中，在得到新类特征后，采用如下公式计算查询集中每个样本x在m个类下的最小距离y^*：

y^*＝{y₁,y₂,…y_m}＝argmin_yd′(x) (9)

优选地，在步骤S3中，利用维特比解码器得到查询集样本的分类预测值y，所述分类预测值y的计算公式如下：

式中，p(y_i|y_i-1)是transition distribution，p(y_i|x)是emissiondistribution。

作为本发明的另一面，基于特征和类别干预的少样本实体识别模型，包括前述基于特征和类别干预的少样本实体识别方法中的输入特征干预模型和类别调整干预模型。

为了解决传统少样本实体识别方法会受到语义相近信息干扰，导致偏差并难以精准捕捉类别的问题，本发明基于因果关系提出了一种创新的基于特征和类别干预的少样本实体识别方法与模型，本发明引导模型对特征和类进行干预，消减混杂因素的干扰，具体地说，本发明在特征提取部分采用交叉样本注意力扰动的同时，在类层建立了有效的特征与分类标签间的因果关系。其中，采用交叉样本特征，可以将自注意力机制转移到样本间注意力融合代替了传统的注意力，对支持集特征进行扰动而非直接影响，避免了特征误差造成的错误注意力关注，一定程度消减了先验知识导致的混淆。其次，利用分类调整凸显原型权重差异，可以减轻标签间虚假相关性影响，使分类器对相关性学习更加精确。总体来说，本发明是因果方法论在少样本命名实体识别任务中的一次尝试，它可以消减混杂因素的干扰，增加相似语义样本之间的差异，提高实体分类器的辨别能力。

附图说明

图1为本发明所涉FSECI的因果图(图中a为FSECI的因果图，b为P(Y|do(X) 干预模型；c为特征调整干预；d为类调整干预)；

图2为本发明所涉FSECI模型的框架图；

图3为传统的以及本发明所涉的少样本实体分类的原理图(图中a为采用传统的attention机制进行分类；b为采用encoder干预进行分类)；

图4为本发明实施方式中基于Few-NERD_INTER数据集下FSECI模型在 N-way K-shot任务中的错误分析图；

图5为本发明实施方式中FSECI模型的准确率随学习速率的变化关系图(图中a为在Few-NERD_INTER数据集下；b为在Few-NERD_INTRA数据集下)；

图6为本发明实施方式中N-way K-shot任务下FSECI模型随步长变化的受损失值变化曲线图；

图7为本发明实施方式中5-way 1～2-shot任务下FSECI模型随步长变化的受损失值变化曲线图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

在介绍本发明之前，先阐述一下本发明的设计思路。

在业内，众所周知，在少样本分类中，为了减少因数据量过少出现过拟合现象，最常使用基于度量的元学习方法，即原型网络。原型网络用于计算每个query 样本和每个类的原型之间的欧几里得距离，用于图像分类、文本分类，关系抽取中。原型网络通过将样本投入到同一度量空间，在这个空间中同类样本距离较近，异类距离较远。但是在多分类情况下，如果出现两个或以上类别距离相似的情况，对分类结果的判别会有较大的影响，因此，我们想到在support集中引入query 集的样本特征交叉融合，这样新的特征融入了句间的相似度信息，应当会使原型网络在做相似度度量时与相似其他类别的差异更明显。另外，业内注意到注意力机制在各项任务中都取得了成功，从图像识别到自然语言中处理任务中应用颇为广泛，能够让模型关注句子内的重要信息并充分学习。在关系抽取中，使用注意力对句子中字级别进行特征提取并整合到句子级特征向量中。用多头自注意力self-attention来学习文本表示，捕获句子内部词依赖关系。因此，我们想到提出用因果推断的方法在attention原理上，将句间的相似度信息融合，强化了句与句间的共性，凸显差异性与相似性。再者，因果推理是根据一个结果发生的条件对因果关系得出结论的过程。近些年，将因果推理应用到机器学习中，取得了不错的表现效果。面对计算机视觉领域，解耦样本和类别的特征，在零样本学习中利用反事实生成判别样本属于已知类或未知类获得。利用因果和注意机制将句子特征整合到图像特征中，获得与句子相关的视觉特征。最终的预测是通过对两种模态相似度信息的整合来实现的。该方法是视觉语言领域的一项创新研究。借鉴于上述方法，我们可以在少样本实体识别中融入新的特征提取方式，发现隐藏的因果结构，采用干预的方式去增强特征信息。

综合上述思路，我们设计出了一种基于特征和类别干预的少样本实体识别方法与模型，该方法与模型是因果方法论在少样本命名实体识别任务中的一次尝试，它可以消减混杂因素的干扰，增加相似语义样本之间的差异，提高实体分类器的辨别能力。

本发明提供的基于特征和类别干预的少样本实体识别模型(以下简称FSECI 模型)分为两部分，第一部分为输入特征干预模型，用于对特征进行因果干预，第二部分为类别调整模型，用于对分类进行因果干预。该FSECI模型旨在利用双层干预因果来捕获样本之间的相似性，图1中展示了完整的因果结构图，通过有向边指明因果函数关系，图2中展示了FSECI模型的结构框架，从图中可知， FSECI模型是通过计算每个query与原型之间的距离来实现分类预测。

少样本命名实体识别任务旨在给出少量样本示例时生成可靠分类器。在 Few-shot中，训练阶段会随机抽取N个类别，每个类别K个样本，即N*K个样本数构成Support集输入，通过训练得到模型，用N个类剩余数据中抽取一部分数量样本Q，即N*Q个样本数作为Query set，用模型学会如何去区分这N个类类别，这种任务方式通常称为N-way K-shot。如图1所示，本发明的目的是在看到少量support集示例后能预测未经训练的query集中哪个是实体，实体的类别又是什么。实体的类别通常划分”Person”,”Location”,”event”等以及“Other”,其中 “Other”类代表非标记实体类别。我们对实体类别预定义D_e＝{d₁,d₂,…,d_k}，Support 集被样本定义为式(11)，其中L＝{l₁,l₂,…,l_n}表示句子，y表示每个l_i对应的类标签。Query集样本被定为式(12)：

S(l,y)＝S{(l₁,y₁),(l₂,y₂),…,(l_n,y_n)} (11)

Q(L,y′)＝Q{(l₁,y′₁),(l₂,y′₂),…,(l_n,y′_n) (12)

如图1所示：

C->X：C为预编码数据知识，X为样本表示特征，C与X的连接表示为特征提取的过程。

C->H<-X：又可以分为：1.路径X->H：定义H为特征变换后的表示，X与 H的连接表示特征映射的过程；2.路径C->H：将数据嵌入映射到某一特定维度表示的过程。

H->Y<-X：Y为分类结果，Y可以由X直接作用，也可以由H间接影响作用，其中H充当X->Y的中间因子。

当如图1中(b)(c)所示，切断X-＞Y的路径，同样可以获得Y的分类结果，但是H介质存在是无法避免的，它充当了X连接Y的桥梁，无法通过阻断H-＞Y 的链路实现目标。因此，如图1(b)所示，本发明可以通过阻断C-＞X的路径来完成对X的干预，如图1(c)所示，可以通过融入query样本特征，获取encoder层级调整，如图1(d)所示，可以通过赋予权重并聚集来自所有类的原型，更新类信息。

由上可知，本发明提供的FSECI模型只用P(Y|X)作为计量标准不考虑其他因素的影响，将很难准确地确定从X到Y的因果关系，因此，为了追求真正的 X和Y之间的因果关系，我们需要使用因果干预P(Y|do(X))，而不是P(Y|X)。

1、输入特征干预模型

如图3(a)所示，传统少样本方式X作为Support样本的输入，通过过程T自注意力输出得到映射后的特征表示计算类别原型，实现分类预测，即X->T->Y，该方法通常以P(Y|X)作为最终目标来学习并训练模型。

P(Y|X)＝∑_tP(T＝t|X)P(Y|T＝t) (13)

式中，X为支持集样本的特征，T为特征提取的过程，Y为查询集样本的分类结果。

对于FSECI模型中第一部分为输入特征干预模型来说，如图3(a)中所示，T 从X中选择了合适的知识并利用T预测Y的分类，但是由于数据偏差可能会影响预测器学习导致带来虚假相关性，影响到Query集正确的分类识别、那么针对这个问题我们调整了X的输入方式，进行注意力前门干预影响：

这里的x代表不同的输入情况，针对我们的模型，它代表query和support 的交叉样本。通过对传统attention方法作出调整，对输入特征进行第一步干预，削减了其他因素造成的虚假信息的干扰。如表1所示，单通过support样本集可能学习到query相关实体隶属于错误类别。因为通过对support集的虚假相关性学习后，query中样本与句子1特征高度相似，很容易推断实体属于错误类别，导致错误判别。通过第一步输入干预，将query的相关属性间接影响support的强导向性特征判别，会为正确的选择提供合法的依据。

2、类别调整模型

假设共有M＝{m₁,…m_m}个训练类，每个类的平均特征为C＝{c₁,c₂,…,c_m}，定义P(m_i|q)为样本x属于m_i类的概率。本发明在类间进行调整，对分类器概率输出进行重定义，将来自预训练的特征均值即原型点依据分类概率重新分配新的权重，计算分类结果。分类调整的公式如下：

本发明将第一部分的输入特征干预模型与第二部分的类别调整模型相结合，使得分类识别的分层调整机制更加精细化。总的来说，本发明在基于输入特征的调整基础上对分类结果进行二次调整，如下公式：

作为本发明的另一面，基于特征和类别干预的少样本实体识别方法，具体包括三大步骤。

第一步，构建前述输入特征干预模型和类别调整干预模型；

第二步，输入特征调整；

(1)由于BERT能够更高效地捕捉更长距离的依赖，同时，BERT采用多头注意力机制为基准，可以做到真正意义上的捕捉双向上下文信息，因此本发明将支持集和查询集的句子输入BERT中，获得支持集和查询集最初隐藏特征W₀，这里的W₀等价于因果式中的X，f(l)为利用BERT获取的函数：

W₀＝f(l) (3)

(2)BERT本身自带注意力机制，通过BERT已经获得了Support集和Query 集的自特征。如下公式(15)，在传统的attention机制中， n和m代表字符数：

本发明基于attention机制，将机制中的Q替换成查询集样本特征，对原始特征进行维度扩展，由H∈R^n×d→H′∈R^n×n×d，其中d为维度，对Q、K进行余弦距离计算，获得查询集与支持集句间的相似度矩阵A_i,j：

A_i,j＝softmax(Cos_Sim(Q_i,K_j)) (4)

X′＝∑_i∈I,j∈JV_jA_i,j (5)

(3)为了获得针对不同query集背景下的support集的区域性信息，本发明对结果用normalization函数进行归一化处理，将样本特征值映射到[0,1]区间，重新赋予样本新权重得到样本新特征X₀：

式中，F(X’)为X’的归一化函数，表示向量拼接。

第三步，类别调整并获取分类结果；

式中，q_x为查询集中的样本；

(4)在得到新类特征后，采用如下公式计算查询集中每个样本x在m个类下的最小距离y^*：

y^*＝{y₁,y₂,…y_m}＝argmin_yd′(x) (9)

(5)利用维特比解码器得到查询集样本的分类预测值y，分类预测值y的计算公式如下：

为了验证本发明的性能，本实施方式做了如下实验：

本实施方式在Few-NERD_INTRA and Few-NERD_INTER数据集上完成实验，其原始语料库是维基百科，包含66种细粒度实体类型，188238个句子，表 2完整的统计了两个数据集数据分布。

表2 Few-NERD统计

Dateset	Train	Dev	Test
				Few-NERD_INTRA	99519	19358	44059
Few-NERD_INTER	130112	18817	14007

Few-NERD_INTRA：不同集合中所有实体属于不同粗粒度类型。训练集包含实体类别,验证集包含实体类别为{Event,Building},测试集包含实体类别 {ORG,LOC}，在数据集设置中train、test、dev细粒度实体类型共享知识很少。

Few-NERD_INTER：粗粒度实体共享，将八个粗粒度类型实体中60％的细粒度分配给训练集，20％分配给验证集，20％分配给测试集。

利用两个数据集的偏差，分别探索在粗粒度和细粒度划分下NER模型的效果。

实验中本实施方式与如下基准方法相同，使用BERT计算所有模型的上下文嵌入，本实施方式将学习率设为1e-4，batch size设为2，通过计算query集的Precision(P),Recall(R)and Micro F1-score(F1)来评估模型的性能。

基准

ProtoBert：使用原型网络结合BERT编码。原型网络方法通过计算相同实体类型的字嵌入平均值为每一个类学习一个度量空间。

NNShot：利用结构化近邻方法，求得与字符距离最近的字符级原型点，是一种简单高效的学习方法。

StructShot：与NNShot相似，唯一区别在于StructShot利用Viterbit algorithm。众所周知，命名实体任务中Viterbi算法在Decoder阶段起到至关重要的作用。通过引入Viterbi algorithm，选择最佳路径的预测结果。

Protoshot：与ProtoBert结构基本相同，在其基础上同样引入了Viterbidecoder，即获得transition distribution及emission distribution。

结果与分析：如下表3和表4所展示的本发明提供的模型与传统方法在同一超参下的比较结果。

表3不同模型在Few-NERD_INTER数据集下的性能

表4不同模型在Few-NERD_INTRA数据集下的性能

实验进行了三轮数据计算，结果以平均值说明。从表3和表4可以看出，本发明提供的FSECI模型在5-way及10-way都取得了较好的效果。FSECI模型始终优于最先进的模型，在Few-NERD_INTER和Few-NERD_INTRA数据集上达到61.14％和39.2％，与现有的最优模型(Struct)相比，在5-way 1～5-shot任务获得了4.83％和3.16％的改进。对于5-way 1～5shot任务，FSECI模型在不同数据集中的性能分别比Protoshot高出10.02％和8.04％。与Protoshot相比，FSECI模型在Few-NERD_INTER和Few-NERD_INTRA中对10-way 1～5shot和10-way 5～10shot任务的准确率分别为56.13％、31.71％和63.96％、43.32％。在不同模型的比较中，ProtoBert在Few-NERD_INTER中R值的性能较好，一方面，这是由于Few-NERD_INTER是按细粒度实体类型划分的，训练集与测试集的关联度较低，训练难度较大，另一方面，ProtoBert的正规化性质也起到了一定作用。总体而言，Few-NERD_INTER模型的性能总体上优于Few-NERD_INTRA模型。

为了进一步衡量本发明所涉模型的性能，本实施方式在粗粒度类型中进行水平和垂直误差分析，以探索实体跨度是否可以准确学习。表5显示了结果。FP 表示“Other”字符被标识为一个实体，FN表示实体被标识为“Other”。所以，FP 和FN是Span Error，意思是边界被正确识别，类型判断错误。Within表示实体被错误判断为同一跨度下的另一类型(粗粒度)。Outer表示实体被错误判断为不同跨度下的另一类型。是否能在跨度内准确检测到实体，对模型性能有很大影响。对于5-way 1～2shot,FSECI模型和基准都显示了良好的结果。Struct模型在FP 中性能良好，但在FN中误差最大。NNShot在Outer上表现最好，但在Span Error 上没有表现出优势。结合Span error和type error来说，FSECI模型更加稳定。就 FSECI模型本身而言，如图4所示，5-way 5～10-shot和10-way 5-10-shot的误差分析会更低。这意味着FSECI模型对多样本有较好的识别效果。

表5不同模型在5-way 1-2-shot任务下针对Few-NERD_INTER数据集的误差分析

另外，本发明所涉FSECI模型侧重于双层干预机制，为了验证encoder干预和class干预的效果，我们分别对单模型效果进行了评价。如下表6所示，在粗粒度数据集下，在样本较少的情况下，encoder干预的优势更大，而在样本较多的情况下，class干预的优势更大。而在细粒度数据集下的多样本多分类情况下， encoder干预具有显著优势。FSECI模型结合了两者的特点，使得模型在不同的分类和样本数量下具有良好的性能。

表6针对不同部分干预效果在FSECI模型下比较

学习率是提高模型准确性的关键指标之一，从图5可以看出，在 Few-NERD_INTER和Few-NERD_INTER上，当学习率为1e-4时，FSECI模型的准确率最高。综合考虑，我们在实验中将学习率设置为1e-4。

为了验证FSECI模型的收敛速度，我们选择了几个点来表示损失下降的变化。对于FSECI模型本身，从图6可以看出，模型在10000步时对所有数据集都是收敛的。同时，验证了不同模型在Few-NERD_INTER数据集上随步长增加的收敛速度。为了便于观测，对于损失值过大的模型，在1000步中只截取了一段值。由图7可以看出，随着步长的增加，所有模型的损耗收敛速度都趋于稳定。

实验表明，本发明所涉FSECI模型优于四个基准模型，值得注意的是，FSECI 模型不仅仅提高了实体识别的准确率，也为少样本实体识别提供了因果理论分析，为小样本命名实体识别开辟了新的研究方向。

上述实施例为本发明较佳的实现方案，除此之外，本发明还可以其它方式现实，在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范围之内。

为了让本领域普通技术人员更方便地理解本发明相对于现有技术的改进之处，本发明的一些附图和描述已经被简化，并且为了清楚起见，本申请文件还省略了一些其他元素，本领域普通技术人员应该意识到这些省略的元素也可构成本发明的内容。

Claims

1.基于特征和类别干预的少样本实体识别方法，其特征在于，包括以下步骤：

S1、构建输入特征干预模型和类别调整干预模型；

步骤S1中，所述输入特征干预模型采用如下公式进行构建：

式中，X为支持集和查询集交叉样本间的特征，T为特征提取的过程，Y为查询集样本的分类结果；

步骤S1中，所述类别调整模型采用如下公式进行建模：

式中，m为训练类数量，m_i为第i个训练类，P(m_i|x)为样本x属于m_i类的概率，x′_i表示第i类的平均特征，表示向量拼接；

步骤S2中，所述特征X在进行注意力门前干预，获取特征层级调整时，包括：

W₀＝f(1) (3)

式中，f(1)为利用BERT获取的函数；

(2)基于attention机制，先将机制中的Q替换成查询集样本特征，对原始特征进行维度扩展，再对Q、K进行余弦距离计算，获得查询集与支持集句间的相似度矩阵A_i，j：

A_i，j＝softmax(Cos_Sim(Q_i，K_j)) (4)

X′＝∑_{i∈I，j∈J}V_jA_i，j (5)

式中，i为查询集中的第i个句子，j为支持集中的第j个句子，X’为基于查询集作用下支持集的表征信息；

(3)对(2)中得到的X’用normalization函数进行归一化处理，并将样本特征值映射到[0，1]区间，重新赋予样本新权重得到样本新特征X₀：

式中，F(X’)为X’的归一化函数，表示向量拼接；

S3、将调整后的特征输入至类别调整干预模型中，对分类器概率输出进行重定义，将来自预训练的特征均值依据分类概率重新分配新的权重，进行类别调整，得到新类特征，计算查询集中每个样本在所有类下的最小距离，并利用解码器得到查询集样本的分类预测值；

步骤S3中，在进行类别调整，得到新类特征时，包括：

式中，q_x为查询集中的样本；

(2)根据查询集中的样本q_x与原型距离d_i(x)，得出样本q_x属于M个类的概率p＝{p₁，p₂，...，p_m}；

(3)先将原型距离d_i(x)转化为概率权重，再和类特征相结合，接着与原始特征拼接得到新类特征；

步骤S3中，在得到新类特征后，采用如下公式计算查询集中每个样本x在m个类下的最小距离y^*：

y^*＝argmin_yd_i(x) (9)

在步骤S3中，利用维特比解码器得到查询集样本的分类预测值y，所述分类预测值y的计算公式如下：

式中，p(y_i|y_i-1)是transition distribution，p(y_i|x)是emission distribution。

2.基于特征和类别干预的少样本实体识别模型，其特征在于：包括权利要求1所述的基于特征和类别干预的少样本实体识别方法中的输入特征干预模型和类别调整干预模型。