CN114510943A - 一种基于伪样本重放的增量式命名实体识别方法 - Google Patents

一种基于伪样本重放的增量式命名实体识别方法 Download PDF

Info

Publication number
CN114510943A
CN114510943A CN202210150846.8A CN202210150846A CN114510943A CN 114510943 A CN114510943 A CN 114510943A CN 202210150846 A CN202210150846 A CN 202210150846A CN 114510943 A CN114510943 A CN 114510943A
Authority
CN
China
Prior art keywords
old
knowledge
model
review
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210150846.8A
Other languages
English (en)
Other versions
CN114510943B (zh
Inventor
夏宇
李素建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210150846.8A priority Critical patent/CN114510943B/zh
Publication of CN114510943A publication Critical patent/CN114510943A/zh
Application granted granted Critical
Publication of CN114510943B publication Critical patent/CN114510943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明公布了一种基于伪样本重放的增量式命名实体识别方法,是知识图谱构建技术的基础,属于自然语言处理中的信息抽取技术领域。本发明在学习阶段,给定了一个只包含新实体类型的训练集,将旧模型作为教师,训练新的学生模型时,在常规的交叉熵损失上增加了知识蒸馏损失;在复习阶段,生成关于旧类型的伪样本作为复习材料,通过在复习材料上进一步蒸馏,来温故旧知识,并将其和新知识整合起来。本发明使用旧类型的伪样本为复习材料提供新类型的监督信号,使用教师提供旧类型的监督信号,有了上述新旧类型的监督信号后,本发明可以使用此监督信号来约束新学生模型在复习材料上的输出。

Description

一种基于伪样本重放的增量式命名实体识别方法
技术领域
本发明提供一种增量式命名实体识别技术,具体设计一种基于伪样本重放的命名实体识别方法,是知识图谱构建技术的基础,属于自然语言处理中的信息抽取技术领域。
背景技术
传统的命名实体识别[1]是指从无结构化文本中抽取指定类别的实体(比如,人名、地名、机构名),是信息抽取的重要步骤之一。传统方法局限于抽取预定义类别的实体,然而在现实中,待抽取的实体类别往往会随着需求动态扩增,比如,在对话系统中时不时会遇到新的意图,新的实体类型会随之引入,这就要求模型能够识别一个动态扩增的实体类型集合。为了适配上述场景,一个简单的方法是给所有见过的实体类型标注一个数据集,并用它来训练一个新的模型,然而这个方法对标注的需求过大,且耗费的计算资源过多,在实体类型特别多的场景下,甚至是不可行的。于是Monaikul等人[2]提出了一个对于标注需求和计算资源要求较低的设置,每次只需提供一个标注了新的实体类型的数据集,并利用旧模型中关于旧类型实体的知识来训练新的模型。
这种学习范式又被称为持续学习(终生学习,增量式学习),更具体地来说,属于类别增量式持续学习。然而,持续学习技术离实际应用仍然有一定的差距,其中最大的挑战就是灾难性遗忘问题[3],灾难性遗忘指的是,学习新任务时模型在旧任务上的表现大幅下降。灾难性遗忘问题产生的原因是:和人类不同的是,神经网络是通过参数来存储任务知识,当它学习新实体类型时,不可避免地会更新到旧任务相关的参数,于是造成了旧任务表现的下降。除了灾难性遗忘问题,类别增量式持续学习还面临着类别混淆问题[4],类别混淆问题指的是,模型不能很好地区分不同类别,此问题产生的原因是:不同类别的样本出现在了不同的任务中,模型每次训练时只见到了部分类别,没有同时对所有类别进行建模。
由于缺乏统一的基准数据集来衡量持续学习场景下的命名实体识别,相关工作的设置较为混乱,最适合实际应用场景的是Monaikul等人[2]提出的设置,Monaikul等人将现有的传统场景下的命名实体识别数据集转化成了类别增量式的设置:假设在第k步,目标是学习一个新的实体类型集合
Figure BDA0003510440160000011
提供的训练数据集
Figure BDA0003510440160000012
中只需要标注出属于
Figure BDA0003510440160000013
的实体,其他旧类型的实体并不需要标注出来。为了学习新类型并且不忘记旧类型,Monaikul将旧模型作为教师,训练新的学生模型时,在常规的交叉熵损失上增加了知识蒸馏损失[5],知识蒸馏损失的目的是用教师模型的输出来约束学生模型在旧类型上的输出,以防学生模型忘记旧类型。尽管上述方法取得了初步的成功,然而它具有下述缺陷:这种基于蒸馏的方法依赖训练数据集
Figure BDA0003510440160000021
中旧类型实体的数量,若
Figure BDA0003510440160000022
中不具有旧类型实体,教师模型就难以将旧知识蒸馏进学生模型。
发明内容
为了解决灾难性遗忘和类别混淆问题,本发明提出了一个两阶段的训练框架Learn-and-Review(L&R),它受启发于人类的学习过程,在常规的“学习阶段”之后引入了一个“复习阶段”。
本发明提供的技术方案如下:
参考图1,本发明提供的一种基于伪样本重放的的命名实体识别方法,其特征在于,包括学习阶段和复习阶段,在学习阶段,给定一个只包含新实体类型的训练集,将旧模型作为教师,训练新的学生模型时,在常规的交叉熵损失上增加知识蒸馏损失;在复习阶段,生成关于旧类型的伪样本作为复习材料,通过在复习材料上进一步蒸馏,来温故旧知识,并将其和新知识整合起来;具体包括如下步骤:
1)学习阶段中,在第k步骤,得到当前数据集Dk和上一步骤得到的Mk-1,G1:k-1模型;
2)将Mk-1视作教师、
Figure BDA0003510440160000023
视作学生,并通过知识蒸馏将Mk-1中旧实体类型的知识蒸馏到
Figure BDA0003510440160000024
中;
3)复习阶段中,对于每个旧任务i∈{1,2,...,k-1},生成包含了旧类型Ei的无标注文本
Figure BDA0003510440160000025
4)将无标注文本分别喂入Mk-1和第一阶段得到的学生
Figure BDA0003510440160000026
得到所有见过的实体类型上的输出概率分布P(xi;θk-1,T)和
Figure BDA0003510440160000027
5)取Mk-1的输出分布中的前
Figure BDA0003510440160000028
维,
Figure BDA0003510440160000029
的输出分布中的第
Figure BDA00035104401600000210
至第
Figure BDA00035104401600000211
维,将他们拼接得到
Figure BDA00035104401600000212
6)复习阶段后得到一个模型Mk,它能够识别所有见过的实体类型
Figure BDA00035104401600000213
计算Mk的输出分布与
Figure BDA00035104401600000214
之间的KL散度作为蒸馏损失函数:
Figure BDA00035104401600000215
7)数据集Dk中的每个词分为两类:一类是带着实体标签,另一类是不带着实体标签;对于带着实体标签的词,计算
Figure BDA0003510440160000031
的输出与实体标签的交叉熵损失函数:
Figure BDA0003510440160000032
对于带着O标签的词,计算
Figure BDA0003510440160000033
的输出分布与Mk-1的输出分布的KL散度:
Figure BDA0003510440160000034
其中,
Figure BDA0003510440160000035
分别表示Mk-1
Figure BDA0003510440160000036
的输出分布;T表示蒸馏中的温度,用来得到更加平滑的概率分布;
8)上述三个损失函数的加权和得到复习阶段的总损失函数:
Figure BDA0003510440160000037
本发明使用旧类型的无标注文本为复习材料提供新类型的监督信号,使用教师提供旧类型的监督信号,有了上述新旧类型的监督信号后,本发明使用此监督信号来约束新学生模型在复习材料上的输出。
附图说明
图1是本发明的整体框架;
图2是数据集统计信息;
图3是主实验结果。
具体实施方式
本发明包括了一种是用于做命名实体识别的主模型(M),另一种是用于生成伪样本的生成器(G),
主模型命名实体识别通常被建模成序列标注任务,即给每个词分配一个标签。本发明主模型由特征抽取器和分类层组成。特征抽取器采用了预训练语言模型BERT-base,分类层采用了带softmax的线性层。给定一个长度为L的词序列[x1,x2,...,xL]以及每个词的标签[y1,y2,...,yL],首先通过特征抽取器得到每个词的隐向量[h1,h2,...,hL],然后通过线性层将隐向量映射到标签空间[s1,s2,...,sL],再通过softmax得到每个词在所有类型上的概率[p1,p2,...,pL]:
zi=Whi+b
Figure BDA0003510440160000041
其中,
Figure BDA0003510440160000042
d是预训练语言模型的隐向量大小,d为768;
Figure BDA0003510440160000043
m是标签集合的大小,取决于所采用的标签体系,本发明采用了BIO标签体系,m为2n+1,n是实体类型的数量,每一步动态增加。
主模型的训练目标函数是交叉熵损失,它鼓励模型正确地预测每个词的标签:
Figure BDA0003510440160000044
其中,
Figure BDA0003510440160000045
是词xi属于标签yi的概率;θ是所有可训练的参数。
生成器生成器是由嵌入层、LSTM层、分类器构成的语言模型,给定一个长度为L的词序列[x1,x2,...,xL],首先通过嵌入层得到每个词的词向量,这里本发明采用的是FastText词向量[6],然后通过LSTM层得到融入了上下文信息的隐向量[h1,h2,...,hL],最后由带softmax的线性层得到下一个词的概率:
zi=Whi+b
Figure BDA0003510440160000046
其中,zi∈RV,V是词典的大小,由数据集决定;index(xi)表示xi在词典中的编号。
生成器的训练目标是语言建模损失函数,它最小化预测下一个词的负对数似然损失:
Figure BDA0003510440160000047
本发明的学习阶段
假设在第k步骤,能够使用的东西包括了当前数据集Dk和上一步骤得到的Mk-1,G1:k-1模型,学习阶段的目标是得到一个模型
Figure BDA0003510440160000048
它能够识别所有见过的实体类型
Figure BDA0003510440160000049
首先,使用Mk-1的参数来初始化当前的模型
Figure BDA00035104401600000410
并且将其线性层进行扩展以适应新的实体类型数量。具体来说,是从h×(2n+1)扩展成h×(2n+2m+1),其中
Figure BDA00035104401600000411
m=|Ek|,分别表示旧类型数量和新类型数量。
其次,本发明将Mk-1视作教师、
Figure BDA00035104401600000412
视作学生,并通过知识蒸馏将Mk-1中旧实体类型的知识蒸馏到
Figure BDA00035104401600000413
中。具体来说,数据集中的每个词可以分为两类:一类是带着实体标签,另一类是不带着实体标签(标签为O)。对于带着实体标签的词,本发明计算
Figure BDA0003510440160000051
的输出与实体标签的交叉熵损失函数:
Figure BDA0003510440160000052
对于带着O标签的词,它有可能是旧类型的实体标签,但是在本发明的设定下,这个信息并没有被标注出来,本发明计算
Figure BDA0003510440160000053
的输出分布与Mk-1的输出分布的KL散度:
Figure BDA0003510440160000054
其中,
Figure BDA0003510440160000055
分别表示Mk-1
Figure BDA0003510440160000056
的输出分布;T表示蒸馏中的温度,用来得到更加平滑的概率分布,本发明设置成2。为了使得上述两个输出分布的维度相同,本发明将Mk-1的输出的类别维度上补上一个很小的常数,然后重新归一化。
综上所述,学习阶段的总损失函数是两个损失函数的加权和:
Figure BDA0003510440160000057
其中,α和β的取值都设置为1。
本发明的复习阶段
复习阶段的目的是通过在旧类型的伪样本上做进一步蒸馏,来唤醒旧类型知识并且和新类型知识整合起来,得到第k步的最终模型Mk
首先,对于每个旧任务i∈{1,2,...,k-1},本发明使用Gi来生成包含了旧类型Ei的无标注文本
Figure BDA0003510440160000058
其次,本发明将无标注文本分别喂入Mk-1和第一阶段得到的一号学生
Figure BDA0003510440160000059
得到所有见过的实体类型上的输出概率分布P(xi;θk-1,T)和
Figure BDA00035104401600000510
然后本发明取Mk-1的输出分布中的前
Figure BDA00035104401600000511
维,
Figure BDA00035104401600000512
的输出分布中的第
Figure BDA00035104401600000513
至第
Figure BDA00035104401600000514
维,将他们拼接得到
Figure BDA00035104401600000515
然后,计算Mk的输出分布与
Figure BDA00035104401600000516
之间的KL散度作为蒸馏损失函数:
Figure BDA00035104401600000517
在Dk上仍然计算学习阶段中的损失:
Figure BDA0003510440160000061
综上所述,复习阶段的总损失函数是三个损失函数的加权和:
Figure BDA0003510440160000062
本发明参照着Monaikul等人提供的细节来进行实现,使用BERT-base作为抽取器,Huggingface的Pytorch作为编程框架,在单张GeForce RTX3090显卡上运行程序,批大小为32,最大句子长度为128,最大训练轮数是20,早停轮数设置为3,使用Adam作为优化器,学习率是5e-5,损失函数的权重都设置为1,L&R中的生成器默认生成3000条样本,对CoNLL-03和OntoNotes-5.0分别采样6种和8种任务顺序。
初步实验发现,使用一层LSTM模型作为生成器即可取得显著的提升,平均运行时间是10min/每个任务,模型大小约50MB/每个任务。
本发明使用了命名实体识别常用的数据集CoNLL-03[7]和OntoNotes-5.0[8],CoNLL-03包含了四种实体类型:person(PER)、location(LOC)、organization(ORG)、miscellaneous(MISC),本发明参照Monaikul等人挑选了OntoNotes-5.0中最具代表性的六种实体类型:person(PER)、geo-political entity(GPE)、organization(ORG)、cardinal(CARD)、Nationalities and Religious Political Group(NORP)。
本发明采取了以下设置来模拟现实中的数据积累过程,本发明对原数据集中的样本进行如下操作来构建第k个任务的训练/验证集:对于原训练/验证集的一句话[x1,x2,...,xL]以及它的标签[y1,y2,...,yL],本发明将yi替换成O如果
Figure BDA0003510440160000063
本发明将替换后的标签记作
Figure BDA0003510440160000064
如果
Figure BDA0003510440160000065
不全是O,则将其加入第k个任务的训练/验证集。构建第k个任务的测试集时,本发明将上述的Ek替换成
Figure BDA0003510440160000066
通过上述操作后,每个任务的训练/验证/测试集的统计数据如图2:
参照Monaikul等人,为了评估模型在所有见过的类型上的平均表现,使用了宏平均F1(macro-average F1),并且对采样的多个任务顺序的结果取了平均,定义如下:
Figure BDA0003510440160000067
其中
Figure BDA0003510440160000068
表示r任务顺序下,累计到第k步所有见过的实体类型,
Figure BDA0003510440160000069
表示r任务顺序下第k步的e实体的F1值。
为了对模型有更加全面的认识,本发明还衡量了模型对于任务顺序的鲁棒性,本发明采用的指标是误差上界(Error Bound,EB),定义如下:
Figure BDA0003510440160000071
其中,
Figure BDA0003510440160000072
是α置信度下的置信系数,σ是在n个不同任务顺序下算得的标准差,越低的误差上界表示了越低的顺序敏感度。
本发明以Monaikul等人提出的ExtendNER作为基线与本项目的方法进行对比,并选取2.1.3章节中的第一部分提到的“多任务训练”来衡量上限效果。
实验结果如图3所示,由图中第一行以及第三行可以看出,本发明提出的L&R在两个数据集的所有步骤(step)上,均超过了ExtendNER,而且步骤越多,L&R的提升就越明显,这是因为本发明的方法提高了每一步的效果,由此缓解了蒸馏所带来的错误传播。除了上述累积的提升,本发明也给出了每一步做完“复习阶段”后立刻的提升,第五行代表了模型在“复习阶段”之前的效果,第四行代表了模型在“复习阶段”之后的效果,它们的差值就是“复习阶段”所带来的立刻提升。图3的第二行和第四行也给出了模型的误差上界,可以看到L&R的误差上界更低,说明本发明的模型对任务顺序较不敏感。
参考文献:
[1]Monaikul N,Castellucci G,Filice S,et al.Continual Learning forNamed Entity Recognition[C]//Proceedings of the Thirty-Fifth AAAI Conferenceon Artificial Intelligence.2021.
[2]Lample G,Ballesteros M,Subramanian S,et al.Neural architecturesfor named entity recognition[J].arXiv preprint arXiv:1603.01360,2016.
[3]Kirkpatrick J,Pascanu R,Rabinowitz N,et al.Overcoming catastrophicforgetting in neural networks[J].Proceedings of the national academy ofsciences,2017,114(13):3521-3526.
[4]Masana M,Liu X,Twardowski B,et al.Class-incremental learning:survey and performance evaluation on image classification[J].arXiv preprintarXiv:2010.15277,2020.
[5]Hinton G,Vinyals O,Dean J.Distilling the knowledge in a neuralnetwork[J].arXiv preprint arXiv:1503.02531,2015.
[6]Joulin A,Grave E,Bojanowski P,et al.Fasttext.zip:Compressing textclassification models[J].arXiv preprint arXiv:1612.03651,2016.
[7]Sang E F,De Meulder F.Introduction to the CoNLL-2003shared task:Language-independent named entity recognition[J].arXiv preprint cs/0306050,2003.
[8]Hovy E,Marcus M,Palmer M,et al.OntoNotes:the 90%solution[C]//Proceedings of the human language technology conference of the NAACL,Companion Volume:Short Papers.2006:57-60.

Claims (6)

1.一种增量式命名实体识别方法,其特征在于,包括学习阶段和复习阶段,在学习阶段,给定一个只包含新实体类型的训练集,将旧模型作为教师,训练新的学生模型时,在常规的交叉熵损失上增加知识蒸馏损失;在复习阶段,生成关于旧类型的伪样本作为复习材料,通过在复习材料上进一步蒸馏,来温故旧知识,并将其和新知识整合起来;具体步骤包括:
1)学习阶段中,在第k步骤,得到当前数据集Dk和上一步骤得到的Mk-1,G1:k-1模型;
2)将Mk-1视作教师、
Figure FDA0003510440150000011
视作学生,并通过知识蒸馏将Mk-1中旧实体类型的知识蒸馏到
Figure FDA0003510440150000012
中;
3)复习阶段中,对于每个旧任务i∈(1,2,...,k-1},生成包含了旧类型Ei的无标注文本
Figure FDA0003510440150000013
4)将无标注文本分别喂入Mk-1和第一阶段得到的学生
Figure FDA0003510440150000014
得到所有见过的实体类型上的输出概率分布p(xi;θk-1,T)和
Figure FDA0003510440150000015
5)取Mk-1的输出分布中的前
Figure FDA0003510440150000016
维,
Figure FDA0003510440150000017
的输出分布中的第
Figure FDA0003510440150000018
至第
Figure FDA0003510440150000019
维,将他们拼接得到
Figure FDA00035104401500000110
6)复习阶段后得到一个模型Mk,它能够识别所有见过的实体类型
Figure FDA00035104401500000111
计算Mk的输出分布与
Figure FDA00035104401500000112
之间的KL散度作为蒸馏损失函数:
Figure FDA00035104401500000113
7)数据集Dk中的每个词分为两类:一类是带着实体标签,另一类是不带着实体标签;对于带着实体标签的词,计算
Figure FDA00035104401500000114
的输出与实体标签的交叉熵损失函数:
Figure FDA00035104401500000115
对于带着O标签的词,计算
Figure FDA00035104401500000116
的输出分布与Mk-1的输出分布的KL散度:
Figure FDA00035104401500000117
其中,
Figure FDA00035104401500000118
分别表示Mk-1
Figure FDA00035104401500000119
的输出分布;T表示蒸馏中的温度,用来得到更加平滑的概率分布;
8)上述三个损失函数的加权和得到复习阶段的总损失函数:
Figure FDA00035104401500000120
2.如权利要求1所述的增量式命名实体识别方法,其特征在于,模型Mk由特征抽取器和分类层组成,特征抽取器采用了预训练语言模型BERT-base,分类层采用了带softmax的线性层。
3.如权利要求2所述的增量式命名实体识别方法,其特征在于,给定一个长度为L的词序列[x1,x2,...,xL]以及每个词的标签[y1,y2,...,yL],首先通过特征抽取器得到每个词的隐向量[h1,h2,...,hL],然后通过线性层将隐向量映射到标签空间[s1,s2,...,sL],再通过softmax得到每个词在所有类型上的概率[p1,p2,...,pL]:
zi=Whi+b
Figure FDA0003510440150000021
其中,
Figure FDA0003510440150000022
d是预训练语言模型的隐向量大小,d为768;
Figure FDA0003510440150000023
m是标签集合的大小,取决于所采用的标签体系。
4.如权利要求1所述的增量式命名实体识别方法,其特征在于,步骤3)中用于生成无标注文本的生成器(G)是由嵌入层、LSTM层、分类器构成的语言模型。
5.如权利要求4所述的增量式命名实体识别方法,其特征在于,给定一个长度为L的词序列[x1,x2,...,xL],首先通过嵌入层得到每个词的词向量,然后通过LSTM层得到融入了上下文信息的隐向量[h1,h2,...,hL],最后由带softmax的线性层得到下一个词的概率:
zi=Whi+b
Figure FDA0003510440150000024
其中,
Figure FDA0003510440150000025
V是词典的大小,由数据集决定;index(xi)表示xi在词典中的编号。
6.如权利要求4所述的增量式命名实体识别方法,其特征在于,生成器的训练目标是语言建模损失函数,它最小化预测下一个词的负对数似然损失:
Figure FDA0003510440150000026
CN202210150846.8A 2022-02-18 2022-02-18 一种基于伪样本重放的增量式命名实体识别方法 Active CN114510943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210150846.8A CN114510943B (zh) 2022-02-18 2022-02-18 一种基于伪样本重放的增量式命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210150846.8A CN114510943B (zh) 2022-02-18 2022-02-18 一种基于伪样本重放的增量式命名实体识别方法

Publications (2)

Publication Number Publication Date
CN114510943A true CN114510943A (zh) 2022-05-17
CN114510943B CN114510943B (zh) 2024-05-28

Family

ID=81552221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210150846.8A Active CN114510943B (zh) 2022-02-18 2022-02-18 一种基于伪样本重放的增量式命名实体识别方法

Country Status (1)

Country Link
CN (1) CN114510943B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036843A (zh) * 2022-09-09 2023-11-10 腾讯科技(深圳)有限公司 目标检测模型训练方法、目标检测方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
CN112257447A (zh) * 2020-10-22 2021-01-22 北京众标智能科技有限公司 基于深度网络as-lstm的命名实体识别系统及识别方法
CN112633002A (zh) * 2020-12-29 2021-04-09 上海明略人工智能(集团)有限公司 样本标注、模型训练、命名实体识别方法和装置
CN113408288A (zh) * 2021-06-29 2021-09-17 广东工业大学 一种基于BERT与BiGRU-CRF的命名实体识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
CN112257447A (zh) * 2020-10-22 2021-01-22 北京众标智能科技有限公司 基于深度网络as-lstm的命名实体识别系统及识别方法
CN112633002A (zh) * 2020-12-29 2021-04-09 上海明略人工智能(集团)有限公司 样本标注、模型训练、命名实体识别方法和装置
CN113408288A (zh) * 2021-06-29 2021-09-17 广东工业大学 一种基于BERT与BiGRU-CRF的命名实体识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036843A (zh) * 2022-09-09 2023-11-10 腾讯科技(深圳)有限公司 目标检测模型训练方法、目标检测方法和装置

Also Published As

Publication number Publication date
CN114510943B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
Chen et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization
CN110020438B (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN110532557B (zh) 一种无监督的文本相似度计算方法
CN112149421A (zh) 一种基于bert嵌入的软件编程领域实体识别方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN111931061B (zh) 标签映射方法、装置、计算机设备及存储介质
CN107315738A (zh) 一种文本信息的创新度评估方法
CN113946677B (zh) 基于双向循环神经网络和注意力机制的事件识别分类方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN106934055B (zh) 一种基于不充分模态信息的半监督网页自动分类方法
CN112183064A (zh) 基于多任务联合学习的文本情绪原因识别系统
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN113836891A (zh) 基于多元标注策略的结构化信息抽取方法和装置
CN115203338A (zh) 一种标签及标签实例推荐方法
CN116775872A (zh) 一种文本处理方法、装置、电子设备及存储介质
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN112685561A (zh) 一种跨病种的小样本临床医疗文本后结构化处理方法
CN115392254A (zh) 一种基于目标任务可解释性认知预测与判别方法及其系统
CN114510943A (zh) 一种基于伪样本重放的增量式命名实体识别方法
CN116958677A (zh) 一种基于多模态大数据的互联网短视频分类方法
CN115827871A (zh) 互联网企业分类的方法、装置和系统
CN114817537A (zh) 一种基于政策文件数据的分类方法
CN114648029A (zh) 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant