CN114548104B - 基于特征和类别干预的少样本实体识别方法与模型 - Google Patents
基于特征和类别干预的少样本实体识别方法与模型 Download PDFInfo
- Publication number
- CN114548104B CN114548104B CN202210117810.XA CN202210117810A CN114548104B CN 114548104 B CN114548104 B CN 114548104B CN 202210117810 A CN202210117810 A CN 202210117810A CN 114548104 B CN114548104 B CN 114548104B
- Authority
- CN
- China
- Prior art keywords
- sample
- feature
- intervention
- model
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000001364 causal effect Effects 0.000 description 18
- 230000000694 effects Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- FLDSMVTWEZKONL-AWEZNQCLSA-N 5,5-dimethyl-N-[(3S)-5-methyl-4-oxo-2,3-dihydro-1,5-benzoxazepin-3-yl]-1,4,7,8-tetrahydrooxepino[4,5-c]pyrazole-3-carboxamide Chemical compound CC1(CC2=C(NN=C2C(=O)N[C@@H]2C(N(C3=C(OC2)C=CC=C3)C)=O)CCO1)C FLDSMVTWEZKONL-AWEZNQCLSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Abstract
基于特征和类别干预的少样本实体识别方法与模型,涉及自然语言处理技术领域,该方法包括:构建输入特征干预模型和类别调整干预模型;将支持集和查询集交叉样本间的特征X提取出来,输入至特征干预模型中,对特征X进行注意力门前干预,获取特征层级调整;将调整后的特征输入至类别调整干预模型中,对分类器概率输出进行重定义,将来自预训练的特征均值依据分类概率重新分配新的权重,进行类别调整,得到新类特征,计算查询集中每个样本在所有类下的最小距离,并利用解码器得到查询集样本的分类预测值。本发明通过对特征和类进行干预,消减了混杂因素的干扰,增加了相似语义样本之间的差异,提高了实体分类器的辨别能力。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其指一种基于特征和类别干预的少样 本实体识别方法与模型。
背景技术
在自然语言学习中,命名实体识别是信息抽取中一项重要任务,旨在识别文 本中表示实体的成分并分类。在通用语料库中,命名实体识别任务已经获得了相 当高质量的解决方法。但是在实际应用中,丰富的语料库是不常见的,经常会出 现资源不足的情况,例如数据标注缺少,语料中某一类别实体数量较少不足以通 过训练获得准确实体类别等。针对上述情况,开发出一种基于少量标记数据学习 到实体类别的任务,即Few-shot NER。随着Few-shot NER的流行,越来越多人 意识到研究Few-shot NER的重要意义并将Few-shotNER应用到专门领域。
常见的Few-shot NER解决方法是度量学习,包括匹配网络和原型网络。这 样的模型不需要为了学习新的类而重新训练,就可以从少数样本中学习类,极大 地解决了样本数量不足所产生的问题,表现出强大的潜力例如,在原型网络中, 命名实体识别的少样本研究是学习类的原型,根据最接近的原型对示例进行分类。 尽管如此,基本的原型网络在面临类别相似的情况中,能获得词义的一般信息, 但很难精准捕捉到类别之间的差异,使得实体相关特征难以准确学到。
现存的模型大多都是关注在预训练上,预训练模型越强大任务效果越好。虽 然模型性能得到显著提升,但是无法利用查询集(即Query集)样本与支持集(即 Support集)样本之间关系,更好提高模型的泛化能力。在小样本学习中:第一, 本身由于样本数量有限,无法很准确学习到Support集和Query集特征;第二, 文本中同一个词汇在不同语境下含义不同,仅依据在support集某类语句中实体 属性以相似度加以判别其在Query集中实体属性,会造成一定误差。如下表1 所示:
Table 1 Case of misclassification of similar entities
support集中数据通过训练后句子将重点关注在新特征向量上,在句子1和 句子2中依据句特征和词特征找到两个类别的原型后得到的实体类别分别为 ‘event-attack/war/military conflict’以及‘event-contest’.针对query样本,与两个类 均存在相似特征,依照特征相似度及原型距离计算将会划分到错误类别 ‘event-attack/war/militaryconflict’,但是真实类别是‘event-contest’。文本信息中, 一个句子不同部分有着不同的含义和重要性,将句子编码看作Q和V的输入, 可以获得对句子中某一类词的重点关注,这种方式称为注意力机制,它是一种非 局部卷积方式。
总而言之,现实世界文本数据其庞大和复杂性特点增加了标记的难度并导致 已标记文本数量有限,少样本命名实体识别仅利用少量标注数据就可以识别实体 并分类,虽然现有的原型网络在少样本中已经取得了良好的性能,但样本会受到 语义相近信息干扰,导致偏差并难以精准捕捉类别。
发明内容
本发明所要解决的技术问题是提供一种基于特征和类别干预的少样本实体 识别方法,该方法通过对特征和类进行干预,消减混杂因素的干扰,增加了相似 语义样本之间的差异,提高了实体分类器的辨别能力。
为了解决上述技术问题,本发明采用如下技术方法:一种基于特征和类别干 预的少样本实体识别方法,包括以下步骤:
S1、构建输入特征干预模型和类别调整干预模型;
S2、将支持集和查询集交叉样本间的特征X提取出来,输入至步骤S1得到 的输入特征模型中,对所述特征X进行注意力门前干预,获取特征层级调整;
S3、将调整后的特征输入至类别调整干预模型中,对分类器概率输出进行重 定义,将来自预训练的特征均值依据分类概率重新分配新的权重,进行类别调整, 得到新类特征,计算查询集中每个样本在所有类下的最小距离,并利用解码器得 到查询集样本的分类预测值。
进一步地,步骤S1中,所述输入特征干预模型采用如下公式进行构建:
P(Y|do(T))=∑tP(T=t|X)P(Y|do(T))=∑tP(T=t|X)∑xP(X=x)P(Y|T=t,X=x) (1)
式中,X为支持集和查询集交叉样本间的特征,T为特征提取的过程,Y为 查询集样本的分类结果。
进一步地,步骤S1中,所述类别调整模型采用如下公式进行建模:
式中,m为训练类数量,mi为第i个训练类,P(mi|x)为样本x属于mi类的 概率,xi′表示第i类的平均特征,表示向量拼接。
更进一步地,步骤S2中,所述特征X在进行注意力门前干预,获取特征层 级调整时,包括:
(1)将支持集和查询集的句子输入BERT中,获得支持集和查询集最初隐 藏特征W0;
W0=f(l) (3)
(2)基于attention机制,先将机制中的Q替换成查询集样本特征,对原始 特征进行维度扩展,再对Q、K进行余弦距离计算,获得查询集与支持集句间的 相似度矩阵Ai,j:
Ai,j=softmax(Cos_Sim(Qi,Kj)) (4)
X′=∑i∈I,j∈JVjAi,j (5)
式中,i为查询集中的第i个句子,j为支持集中的第j个句子,X’为基于查 询集作用下支持集的表征信息。
(3)对(2)中得到的X’用normalization函数进行归一化处理,并将样本 特征值映射到[0,1]区间,重新赋予样本新权重得到样本新特征X0:
式中,F(X’)为X’的归一化函数,表示向量拼接。
再进一步地,步骤S3中,在进行类别调整,得到新类特征时,包括:
(1)训练支持集样本,随机初始化类别i下的原型protoi,并定义其支持集 为Si,以字符为单位计算查询集样本的原型距离di(x):
式中,q_x为查询集中的样本;
(2)根据查询集中的样本q_x与原型距离di(x),得出样本q_x属于M个类 的概率p={p1,p2,…,pm};
(3)先将原型距离di(x)转化为概率权重,再和类特征相结合,接着与原始 特征拼接得到新类特征。
更进一步地,步骤S3中,在得到新类特征后,采用如下公式计算查询集中 每个样本x在m个类下的最小距离y*:
y*={y1,y2,…ym}=argminyd′(x) (9)
优选地,在步骤S3中,利用维特比解码器得到查询集样本的分类预测值y, 所述分类预测值y的计算公式如下:
式中,p(yi|yi-1)是transition distribution,p(yi|x)是emissiondistribution。
作为本发明的另一面,基于特征和类别干预的少样本实体识别模型,包括前 述基于特征和类别干预的少样本实体识别方法中的输入特征干预模型和类别调 整干预模型。
为了解决传统少样本实体识别方法会受到语义相近信息干扰,导致偏差并难 以精准捕捉类别的问题,本发明基于因果关系提出了一种创新的基于特征和类别 干预的少样本实体识别方法与模型,本发明引导模型对特征和类进行干预,消减 混杂因素的干扰,具体地说,本发明在特征提取部分采用交叉样本注意力扰动的 同时,在类层建立了有效的特征与分类标签间的因果关系。其中,采用交叉样本 特征,可以将自注意力机制转移到样本间注意力融合代替了传统的注意力,对支 持集特征进行扰动而非直接影响,避免了特征误差造成的错误注意力关注,一定 程度消减了先验知识导致的混淆。其次,利用分类调整凸显原型权重差异,可以 减轻标签间虚假相关性影响,使分类器对相关性学习更加精确。总体来说,本发 明是因果方法论在少样本命名实体识别任务中的一次尝试,它可以消减混杂因素 的干扰,增加相似语义样本之间的差异,提高实体分类器的辨别能力。
附图说明
图1为本发明所涉FSECI的因果图(图中a为FSECI的因果图,b为P(Y|do(X) 干预模型;c为特征调整干预;d为类调整干预);
图2为本发明所涉FSECI模型的框架图;
图3为传统的以及本发明所涉的少样本实体分类的原理图(图中a为采用传 统的attention机制进行分类;b为采用encoder干预进行分类);
图4为本发明实施方式中基于Few-NERD_INTER数据集下FSECI模型在 N-way K-shot任务中的错误分析图;
图5为本发明实施方式中FSECI模型的准确率随学习速率的变化关系图(图 中a为在Few-NERD_INTER数据集下;b为在Few-NERD_INTRA数据集下);
图6为本发明实施方式中N-way K-shot任务下FSECI模型随步长变化的受 损失值变化曲线图;
图7为本发明实施方式中5-way 1~2-shot任务下FSECI模型随步长变化的受 损失值变化曲线图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步 的说明,实施方式提及的内容并非对本发明的限定。
在介绍本发明之前,先阐述一下本发明的设计思路。
在业内,众所周知,在少样本分类中,为了减少因数据量过少出现过拟合现 象,最常使用基于度量的元学习方法,即原型网络。原型网络用于计算每个query 样本和每个类的原型之间的欧几里得距离,用于图像分类、文本分类,关系抽取 中。原型网络通过将样本投入到同一度量空间,在这个空间中同类样本距离较近, 异类距离较远。但是在多分类情况下,如果出现两个或以上类别距离相似的情况, 对分类结果的判别会有较大的影响,因此,我们想到在support集中引入query 集的样本特征交叉融合,这样新的特征融入了句间的相似度信息,应当会使原型 网络在做相似度度量时与相似其他类别的差异更明显。另外,业内注意到注意力 机制在各项任务中都取得了成功,从图像识别到自然语言中处理任务中应用颇为 广泛,能够让模型关注句子内的重要信息并充分学习。在关系抽取中,使用注意 力对句子中字级别进行特征提取并整合到句子级特征向量中。用多头自注意力self-attention来学习文本表示,捕获句子内部词依赖关系。因此,我们想到提出 用因果推断的方法在attention原理上,将句间的相似度信息融合,强化了句与句 间的共性,凸显差异性与相似性。再者,因果推理是根据一个结果发生的条件对 因果关系得出结论的过程。近些年,将因果推理应用到机器学习中,取得了不错 的表现效果。面对计算机视觉领域,解耦样本和类别的特征,在零样本学习中利 用反事实生成判别样本属于已知类或未知类获得。利用因果和注意机制将句子特 征整合到图像特征中,获得与句子相关的视觉特征。最终的预测是通过对两种模 态相似度信息的整合来实现的。该方法是视觉语言领域的一项创新研究。借鉴于 上述方法,我们可以在少样本实体识别中融入新的特征提取方式,发现隐藏的因 果结构,采用干预的方式去增强特征信息。
综合上述思路,我们设计出了一种基于特征和类别干预的少样本实体识别方 法与模型,该方法与模型是因果方法论在少样本命名实体识别任务中的一次尝试, 它可以消减混杂因素的干扰,增加相似语义样本之间的差异,提高实体分类器的 辨别能力。
本发明提供的基于特征和类别干预的少样本实体识别模型(以下简称FSECI 模型)分为两部分,第一部分为输入特征干预模型,用于对特征进行因果干预, 第二部分为类别调整模型,用于对分类进行因果干预。该FSECI模型旨在利用 双层干预因果来捕获样本之间的相似性,图1中展示了完整的因果结构图,通过 有向边指明因果函数关系,图2中展示了FSECI模型的结构框架,从图中可知, FSECI模型是通过计算每个query与原型之间的距离来实现分类预测。
少样本命名实体识别任务旨在给出少量样本示例时生成可靠分类器。在 Few-shot中,训练阶段会随机抽取N个类别,每个类别K个样本,即N*K个样 本数构成Support集输入,通过训练得到模型,用N个类剩余数据中抽取一部分 数量样本Q,即N*Q个样本数作为Query set,用模型学会如何去区分这N个类 类别,这种任务方式通常称为N-way K-shot。如图1所示,本发明的目的是在看 到少量support集示例后能预测未经训练的query集中哪个是实体,实体的类别 又是什么。实体的类别通常划分”Person”,”Location”,”event”等以及“Other”,其中 “Other”类代表非标记实体类别。我们对实体类别预定义De={d1,d2,…,dk},Support 集被样本定义为式(11),其中L={l1,l2,…,ln}表示句子,y表示每个li对应的类标 签。Query集样本被定为式(12):
S(l,y)=S{(l1,y1),(l2,y2),…,(ln,yn)} (11)
Q(L,y′)=Q{(l1,y′1),(l2,y′2),…,(ln,y′n) (12)
如图1所示:
C->X:C为预编码数据知识,X为样本表示特征,C与X的连接表示为特 征提取的过程。
C->H<-X:又可以分为:1.路径X->H:定义H为特征变换后的表示,X与 H的连接表示特征映射的过程;2.路径C->H:将数据嵌入映射到某一特定维度 表示的过程。
H->Y<-X:Y为分类结果,Y可以由X直接作用,也可以由H间接影响作 用,其中H充当X->Y的中间因子。
当如图1中(b)(c)所示,切断X->Y的路径,同样可以获得Y的分类结果, 但是H介质存在是无法避免的,它充当了X连接Y的桥梁,无法通过阻断H->Y 的链路实现目标。因此,如图1(b)所示,本发明可以通过阻断C->X的路径来完 成对X的干预,如图1(c)所示,可以通过融入query样本特征,获取encoder层 级调整,如图1(d)所示,可以通过赋予权重并聚集来自所有类的原型,更新类信 息。
由上可知,本发明提供的FSECI模型只用P(Y|X)作为计量标准不考虑其他 因素的影响,将很难准确地确定从X到Y的因果关系,因此,为了追求真正的 X和Y之间的因果关系,我们需要使用因果干预P(Y|do(X)),而不是P(Y|X)。
1、输入特征干预模型
如图3(a)所示,传统少样本方式X作为Support样本的输入,通过过程T自 注意力输出得到映射后的特征表示计算类别原型,实现分类预测,即X->T->Y, 该方法通常以P(Y|X)作为最终目标来学习并训练模型。
P(Y|X)=∑tP(T=t|X)P(Y|T=t) (13)
式中,X为支持集样本的特征,T为特征提取的过程,Y为查询集样本的分 类结果。
对于FSECI模型中第一部分为输入特征干预模型来说,如图3(a)中所示,T 从X中选择了合适的知识并利用T预测Y的分类,但是由于数据偏差可能会影 响预测器学习导致带来虚假相关性,影响到Query集正确的分类识别、那么针对 这个问题我们调整了X的输入方式,进行注意力前门干预影响:
P(Y|do(T))=∑tP(T=t|X)P(Y|do(T))=∑tP(T=t|X)∑xP(X=x)P(Y|T=t,X=x) (1)
式中,X为支持集和查询集交叉样本间的特征,T为特征提取的过程,Y为 查询集样本的分类结果。
这里的x代表不同的输入情况,针对我们的模型,它代表query和support 的交叉样本。通过对传统attention方法作出调整,对输入特征进行第一步干预, 削减了其他因素造成的虚假信息的干扰。如表1所示,单通过support样本集可 能学习到query相关实体隶属于错误类别。因为通过对support集的虚假相关性 学习后,query中样本与句子1特征高度相似,很容易推断实体属于错误类别, 导致错误判别。通过第一步输入干预,将query的相关属性间接影响support的 强导向性特征判别,会为正确的选择提供合法的依据。
2、类别调整模型
假设共有M={m1,…mm}个训练类,每个类的平均特征为C={c1,c2,…,cm}, 定义P(mi|q)为样本x属于mi类的概率。本发明在类间进行调整,对分类器概率 输出进行重定义,将来自预训练的特征均值即原型点依据分类概率重新分配新的 权重,计算分类结果。分类调整的公式如下:
式中,m为训练类数量,mi为第i个训练类,P(mi|x)为样本x属于mi类的 概率,xi′表示第i类的平均特征,表示向量拼接。
本发明将第一部分的输入特征干预模型与第二部分的类别调整模型相结合, 使得分类识别的分层调整机制更加精细化。总的来说,本发明在基于输入特征的 调整基础上对分类结果进行二次调整,如下公式:
作为本发明的另一面,基于特征和类别干预的少样本实体识别方法,具体包 括三大步骤。
第一步,构建前述输入特征干预模型和类别调整干预模型;
第二步,输入特征调整;
(1)由于BERT能够更高效地捕捉更长距离的依赖,同时,BERT采用多 头注意力机制为基准,可以做到真正意义上的捕捉双向上下文信息,因此本发明 将支持集和查询集的句子输入BERT中,获得支持集和查询集最初隐藏特征W0, 这里的W0等价于因果式中的X,f(l)为利用BERT获取的函数:
W0=f(l) (3)
(2)BERT本身自带注意力机制,通过BERT已经获得了Support集和Query 集的自特征。如下公式(15),在传统的attention机制中, n和m代表字符数:
本发明基于attention机制,将机制中的Q替换成查询集样本特征,对原始 特征进行维度扩展,由H∈Rn×d→H′∈Rn×n×d,其中d为维度,对Q、K进行 余弦距离计算,获得查询集与支持集句间的相似度矩阵Ai,j:
Ai,j=softmax(Cos_Sim(Qi,Kj)) (4)
X′=∑i∈I,j∈JVjAi,j (5)
式中,i为查询集中的第i个句子,j为支持集中的第j个句子,X’为基于查 询集作用下支持集的表征信息。
(3)为了获得针对不同query集背景下的support集的区域性信息,本发明 对结果用normalization函数进行归一化处理,将样本特征值映射到[0,1]区间,重 新赋予样本新权重得到样本新特征X0:
式中,F(X’)为X’的归一化函数,表示向量拼接。
第三步,类别调整并获取分类结果;
(1)训练支持集样本,随机初始化类别i下的原型protoi,并定义其支持集 为Si,以字符为单位计算查询集样本的原型距离di(x):
式中,q_x为查询集中的样本;
(2)根据查询集中的样本q_x与原型距离di(x),得出样本q_x属于M个类 的概率p={p1,p2,…,pm};
(3)先将原型距离di(x)转化为概率权重,再和类特征相结合,接着与原始 特征拼接得到新类特征。
(4)在得到新类特征后,采用如下公式计算查询集中每个样本x在m个类 下的最小距离y*:
y*={y1,y2,…ym}=argminyd′(x) (9)
(5)利用维特比解码器得到查询集样本的分类预测值y,分类预测值y的 计算公式如下:
式中,p(yi|yi-1)是transition distribution,p(yi|x)是emissiondistribution。
为了验证本发明的性能,本实施方式做了如下实验:
本实施方式在Few-NERD_INTRA and Few-NERD_INTER数据集上完成实 验,其原始语料库是维基百科,包含66种细粒度实体类型,188238个句子,表 2完整的统计了两个数据集数据分布。
表2 Few-NERD统计
Dateset | Train | Dev | Test |
Few-NERD_INTRA | 99519 | 19358 | 44059 |
Few-NERD_INTER | 130112 | 18817 | 14007 |
Few-NERD_INTRA:不同集合中所有实体属于不同粗粒度类型。训练集包 含实体类别,验证集包含实体类别为{Event,Building},测试集包含实体类别 {ORG,LOC},在数据集设置中train、test、dev细粒度实体类型共享知识很少。
Few-NERD_INTER:粗粒度实体共享,将八个粗粒度类型实体中60%的细 粒度分配给训练集,20%分配给验证集,20%分配给测试集。
利用两个数据集的偏差,分别探索在粗粒度和细粒度划分下NER模型的效 果。
实验中本实施方式与如下基准方法相同,使用BERT计算所有模型的上下文 嵌入,本实施方式将学习率设为1e-4,batch size设为2,通过计算query集的Precision(P),Recall(R)and Micro F1-score(F1)来评估模型的性能。
基准
ProtoBert:使用原型网络结合BERT编码。原型网络方法通过计算相同实体 类型的字嵌入平均值为每一个类学习一个度量空间。
NNShot:利用结构化近邻方法,求得与字符距离最近的字符级原型点,是 一种简单高效的学习方法。
StructShot:与NNShot相似,唯一区别在于StructShot利用Viterbit algorithm。众所周知,命名实体任务中Viterbi算法在Decoder阶段起到至关重要的作用。 通过引入Viterbi algorithm,选择最佳路径的预测结果。
Protoshot:与ProtoBert结构基本相同,在其基础上同样引入了Viterbidecoder, 即获得transition distribution及emission distribution。
结果与分析:如下表3和表4所展示的本发明提供的模型与传统方法在同一 超参下的比较结果。
表3不同模型在Few-NERD_INTER数据集下的性能
表4不同模型在Few-NERD_INTRA数据集下的性能
实验进行了三轮数据计算,结果以平均值说明。从表3和表4可以看出,本 发明提供的FSECI模型在5-way及10-way都取得了较好的效果。FSECI模型始 终优于最先进的模型,在Few-NERD_INTER和Few-NERD_INTRA数据集上达 到61.14%和39.2%,与现有的最优模型(Struct)相比,在5-way 1~5-shot任务获得 了4.83%和3.16%的改进。对于5-way 1~5shot任务,FSECI模型在不同数据集 中的性能分别比Protoshot高出10.02%和8.04%。与Protoshot相比,FSECI模型 在Few-NERD_INTER和Few-NERD_INTRA中对10-way 1~5shot和10-way 5~10shot任务的准确率分别为56.13%、31.71%和63.96%、43.32%。在不同模型 的比较中,ProtoBert在Few-NERD_INTER中R值的性能较好,一方面,这是由 于Few-NERD_INTER是按细粒度实体类型划分的,训练集与测试集的关联度较 低,训练难度较大,另一方面,ProtoBert的正规化性质也起到了一定作用。总 体而言,Few-NERD_INTER模型的性能总体上优于Few-NERD_INTRA模型。
为了进一步衡量本发明所涉模型的性能,本实施方式在粗粒度类型中进行水 平和垂直误差分析,以探索实体跨度是否可以准确学习。表5显示了结果。FP 表示“Other”字符被标识为一个实体,FN表示实体被标识为“Other”。所以,FP 和FN是Span Error,意思是边界被正确识别,类型判断错误。Within表示实体 被错误判断为同一跨度下的另一类型(粗粒度)。Outer表示实体被错误判断为不 同跨度下的另一类型。是否能在跨度内准确检测到实体,对模型性能有很大影响。 对于5-way 1~2shot,FSECI模型和基准都显示了良好的结果。Struct模型在FP 中性能良好,但在FN中误差最大。NNShot在Outer上表现最好,但在Span Error 上没有表现出优势。结合Span error和type error来说,FSECI模型更加稳定。就 FSECI模型本身而言,如图4所示,5-way 5~10-shot和10-way 5-10-shot的误差 分析会更低。这意味着FSECI模型对多样本有较好的识别效果。
表5不同模型在5-way 1-2-shot任务下针对Few-NERD_INTER数据集的误差分析
另外,本发明所涉FSECI模型侧重于双层干预机制,为了验证encoder干预 和class干预的效果,我们分别对单模型效果进行了评价。如下表6所示,在粗 粒度数据集下,在样本较少的情况下,encoder干预的优势更大,而在样本较多 的情况下,class干预的优势更大。而在细粒度数据集下的多样本多分类情况下, encoder干预具有显著优势。FSECI模型结合了两者的特点,使得模型在不同的 分类和样本数量下具有良好的性能。
表6针对不同部分干预效果在FSECI模型下比较
学习率是提高模型准确性的关键指标之一,从图5可以看出,在 Few-NERD_INTER和Few-NERD_INTER上,当学习率为1e-4时,FSECI模型 的准确率最高。综合考虑,我们在实验中将学习率设置为1e-4。
为了验证FSECI模型的收敛速度,我们选择了几个点来表示损失下降的变 化。对于FSECI模型本身,从图6可以看出,模型在10000步时对所有数据集 都是收敛的。同时,验证了不同模型在Few-NERD_INTER数据集上随步长增加 的收敛速度。为了便于观测,对于损失值过大的模型,在1000步中只截取了一 段值。由图7可以看出,随着步长的增加,所有模型的损耗收敛速度都趋于稳定。
实验表明,本发明所涉FSECI模型优于四个基准模型,值得注意的是,FSECI 模型不仅仅提高了实体识别的准确率,也为少样本实体识别提供了因果理论分析, 为小样本命名实体识别开辟了新的研究方向。
上述实施例为本发明较佳的实现方案,除此之外,本发明还可以其它方式现 实,在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范 围之内。
为了让本领域普通技术人员更方便地理解本发明相对于现有技术的改进之 处,本发明的一些附图和描述已经被简化,并且为了清楚起见,本申请文件还省 略了一些其他元素,本领域普通技术人员应该意识到这些省略的元素也可构成本 发明的内容。
Claims (2)
1.基于特征和类别干预的少样本实体识别方法,其特征在于,包括以下步骤:
S1、构建输入特征干预模型和类别调整干预模型;
步骤S1中,所述输入特征干预模型采用如下公式进行构建:
P(Y|do(T))=∑tP(T=t|X)P(Y|do(T))=∑tP(T=t|X)∑xP(X=x)P(Y|T=t,X=x)(1)
式中,X为支持集和查询集交叉样本间的特征,T为特征提取的过程,Y为查询集样本的分类结果;
步骤S1中,所述类别调整模型采用如下公式进行建模:
式中,m为训练类数量,mi为第i个训练类,P(mi|x)为样本x属于mi类的概率,x′i表示第i类的平均特征,表示向量拼接;
S2、将支持集和查询集交叉样本间的特征X提取出来,输入至步骤S1得到的输入特征模型中,对所述特征X进行注意力门前干预,获取特征层级调整;
步骤S2中,所述特征X在进行注意力门前干预,获取特征层级调整时,包括:
(1)将支持集和查询集的句子输入BERT中,获得支持集和查询集最初隐藏特征W0;
W0=f(1) (3)
式中,f(1)为利用BERT获取的函数;
(2)基于attention机制,先将机制中的Q替换成查询集样本特征,对原始特征进行维度扩展,再对Q、K进行余弦距离计算,获得查询集与支持集句间的相似度矩阵Ai,j:
Ai,j=softmax(Cos_Sim(Qi,Kj)) (4)
X′=∑i∈I,j∈JVjAi,j (5)
式中,i为查询集中的第i个句子,j为支持集中的第j个句子,X’为基于查询集作用下支持集的表征信息;
(3)对(2)中得到的X’用normalization函数进行归一化处理,并将样本特征值映射到[0,1]区间,重新赋予样本新权重得到样本新特征X0:
式中,F(X’)为X’的归一化函数,表示向量拼接;
S3、将调整后的特征输入至类别调整干预模型中,对分类器概率输出进行重定义,将来自预训练的特征均值依据分类概率重新分配新的权重,进行类别调整,得到新类特征,计算查询集中每个样本在所有类下的最小距离,并利用解码器得到查询集样本的分类预测值;
步骤S3中,在进行类别调整,得到新类特征时,包括:
(1)训练支持集样本,随机初始化类别i下的原型protoi,并定义其支持集为Si,以字符为单位计算查询集样本的原型距离di(x):
式中,q_x为查询集中的样本;
(2)根据查询集中的样本q_x与原型距离di(x),得出样本q_x属于M个类的概率p={p1,p2,...,pm};
(3)先将原型距离di(x)转化为概率权重,再和类特征相结合,接着与原始特征拼接得到新类特征;
步骤S3中,在得到新类特征后,采用如下公式计算查询集中每个样本x在m个类下的最小距离y*:
y*=argminydi(x) (9)
在步骤S3中,利用维特比解码器得到查询集样本的分类预测值y,所述分类预测值y的计算公式如下:
式中,p(yi|yi-1)是transition distribution,p(yi|x)是emission distribution。
2.基于特征和类别干预的少样本实体识别模型,其特征在于:包括权利要求1所述的基于特征和类别干预的少样本实体识别方法中的输入特征干预模型和类别调整干预模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210117810.XA CN114548104B (zh) | 2022-02-08 | 基于特征和类别干预的少样本实体识别方法与模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210117810.XA CN114548104B (zh) | 2022-02-08 | 基于特征和类别干预的少样本实体识别方法与模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114548104A CN114548104A (zh) | 2022-05-27 |
CN114548104B true CN114548104B (zh) | 2024-07-12 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200137772A (ko) * | 2019-05-31 | 2020-12-09 | 에스케이텔레콤 주식회사 | 분류기 생성 장치, 방법 및 이에 의해 생성되는 분류 장치 |
CN112541355A (zh) * | 2020-12-11 | 2021-03-23 | 华南理工大学 | 一种实体边界类别解耦的少样本命名实体识别方法与系统 |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200137772A (ko) * | 2019-05-31 | 2020-12-09 | 에스케이텔레콤 주식회사 | 분류기 생성 장치, 방법 및 이에 의해 생성되는 분류 장치 |
CN112541355A (zh) * | 2020-12-11 | 2021-03-23 | 华南理工大学 | 一种实体边界类别解耦的少样本命名实体识别方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cisse et al. | Houdini: Fooling deep structured visual and speech recognition models with adversarial examples | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
Oliveira et al. | Automatic recognition of handwritten numerical strings: A recognition and verification strategy | |
US7362892B2 (en) | Self-optimizing classifier | |
CN109447099B (zh) | 一种基于pca降维的多分类器融合方法 | |
Çeker et al. | Sensitivity analysis in keystroke dynamics using convolutional neural networks | |
CN109858015B (zh) | 一种基于ctw和km算法的语义相似度计算方法及装置 | |
Rahman et al. | Classifying non-functional requirements using RNN variants for quality software development | |
CN108154136B (zh) | 用于识别字迹的方法、装置及计算机可读介质 | |
Kessentini et al. | A Dempster–Shafer theory based combination of handwriting recognition systems with multiple rejection strategies | |
Montazer et al. | A neuro-fuzzy inference engine for Farsi numeral characters recognition | |
CN112396129A (zh) | 一种对抗样本检测方法及通用对抗攻击防御系统 | |
CN116955699B (zh) | 一种视频跨模态搜索模型训练方法、搜索方法及装置 | |
CN115937873A (zh) | 一种基于可辨识单字字符的在线笔迹验证系统及方法 | |
Ali et al. | A novel features and classifiers fusion technique for recognition of Arabic handwritten character script | |
Gavisiddappa et al. | Multimodal biometric authentication system using modified ReliefF feature selection and multi support vector machine | |
Ren et al. | Granularity-aware area prototypical network with bimargin loss for few shot relation classification | |
Sundaram et al. | Bigram language models and reevaluation strategy for improved recognition of online handwritten Tamil words | |
Garhawal et al. | A study on handwritten signature verification approaches | |
Jeyakarthic et al. | Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data | |
Freitas et al. | Confusion matrix disagreement for multiple classifiers | |
Vishi et al. | A new approach for multi-biometric fusion based on subjective logic | |
CN114548104B (zh) | 基于特征和类别干预的少样本实体识别方法与模型 | |
Karimi et al. | Illegible text to readable text: An image-to-image transformation using conditional sliced wasserstein adversarial networks | |
US20240028952A1 (en) | Apparatus for attribute path generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |