CN112541355B - 一种实体边界类别解耦的少样本命名实体识别方法与系统 - Google Patents

一种实体边界类别解耦的少样本命名实体识别方法与系统 Download PDF

Info

Publication number
CN112541355B
CN112541355B CN202011443134.2A CN202011443134A CN112541355B CN 112541355 B CN112541355 B CN 112541355B CN 202011443134 A CN202011443134 A CN 202011443134A CN 112541355 B CN112541355 B CN 112541355B
Authority
CN
China
Prior art keywords
entity
entity block
word
boundary
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011443134.2A
Other languages
English (en)
Other versions
CN112541355A (zh
Inventor
蔡毅
陈晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202011443134.2A priority Critical patent/CN112541355B/zh
Publication of CN112541355A publication Critical patent/CN112541355A/zh
Application granted granted Critical
Publication of CN112541355B publication Critical patent/CN112541355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种实体边界类别解耦的少样本命名实体识别方法及系统,其方法包括步骤:S1、通过共享的词嵌入层,将句子中的单词映射为词嵌入向量;S2、通过双向长短期记忆网络提取出特征向量;S3、利用边界检测模块获取查询集实体边界标签预测结果,并提取出实体块;S4、基于原型网络获取实体块类别原型表示;S5、进行度量计算,根据度量结果进行分类,获取查询集实体块在各类别上的概率分布;S6、联合训练模型;S7、完成少样本命名实体识别。本发明通过实体边界检测获取实体块表示,基于原型网络使用支持集少量样本计算类别原型,实现了获取类别区分能力更强的原型网络类别原型表示,提高了少样本命名实体识别任务的准确率。

Description

一种实体边界类别解耦的少样本命名实体识别方法与系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种实体边界类别解耦的少样本命名实体识别方法与系统。
背景技术
命名实体识别是自然语言处理领域中一个重要的基础任务。其主要目标是抽取文本语句中相应的实体描述并将其分类为对应实体类别比如人名,地名,组织等,这些词可以是独立的单个词也可以是多个词。因此,命名实体识别常被视为序列标注任务,这个任务也用于大量信息抽取框架、基于目标的对话系统的核心组成模块,具有极高的社会经济价值。
当拥有大量标注数据时,命名实体识别任务可以以较高的标注质量完成。现有的用于测试新的命名实体识别模型的基准及比如CoNLL-2003和Ontonotes数据集,这两个数据集均包含大量数据来实现在有监督的设定下训练神经网络结构。然而,在实际应用中,特别是一些少资源领域和少资源语言中,这样拥有丰富标注数据量的数据集通常是无法获得的,训练样本需要大量的人工进行标注,这需要耗费时间以及财力。此外即使我们拥有足够的标注数据量,也无法避免数据集中存在一些稀缺实体,由于出现频率过低而无法利用神经网络在文本中准确识别实体。
为了降低模型对大量数据的依赖,近年来有一些基于少样本学习的命名实体识别工作,少样本学习的相关技术可以训练能借鉴源领域的先验知识并利用少量标注样本快速迁移至新领域的模型。现有的方法都是对单个词与边界信息和类别信息耦合在一起的类别表示使用基于相似性度量的少样本学习方法进行分类。但这一类的方法由于单个词的语义松散,歧义性强,又在特征空间中不同类别的类别差异不够明显,导致了实体分类的错误率比较高。
发明内容
为解决现有技术所存在的技术问题,本发明提供一种实体边界类别解耦的少样本命名实体识别方法与系统,通过实体边界检测获取实体块表示,基于原型网络使用支持集少量样本计算类别原型,实现类别分类,实现了获取类别区分能力更强的原型网络类别原型表示,提高了少样本命名实体识别任务的准确率。
本发明方法采用以下技术方案来实现:一种实体边界类别解耦的少样本命名实体识别方法,包括以下步骤:
S1、利用标注出命名实体且切分支持集和查询集的源领域和目标领域数据集,通过共享的词嵌入层,将支持集和查询集中的句子中的单词映射为词嵌入向量;
S2、以句子为单位,分别将支持集和查询集中句子对应的词嵌入向量输入到双向长短期记忆网络中,通过双向长短期记忆网络提取出特征向量表示;
S3、将查询集中双向长短期记忆网络提取得到的特征向量表示输入到由全连接层构成的边界检测模块获取查询集实体边界标签预测结果,并根据实体边界标签预测结果提取出实体块表示;
S4、将支持集中句子通过双向长短期记忆网络提取得到的特征向量表示根据其位置边界标签和类别标签基于原型网络获取各类别的实体块类别原型表示;
S5、将查询集中获取的所有实体块表示和支持集中获取的所有实体块类别原型表示进行度量计算,根据度量结果进行分类,利用欧氏距离作为距离度量函数dist,利用softmax层通过计算实体块表示与嵌入空间中的原型之间的距离获取查询集实体块表示在各类别上的概率分布;
S6、分别计算边界检测分类损失和实体块类别分类损失,联合训练并采用随机梯度下降算法训练模型;
S7、获取训练模型后,输入目标领域支持集和查询集,输出目标领域查询集预测标签,完成目标领域的少样本命名实体识别。
本发明系统采用以下技术方案来实现:一种实体边界类别解耦的少样本命名实体识别系统,包括共享特征抽取器、边界检测模块、原型构造模块以及实体类别分类模块;边界检测模块上设有全连接层分类模块,原型构造模块上设有原型网络模块,实体类别分类模块上设有度量分类模块;其中:
共享特征抽取器利用标注出命名实体且切分支持集和查询集的源领域和目标领域数据集,将支持集和查询集中的句子中的单词映射为词嵌入向量;以句子为单位,分别将支持集和查询集中句子对应的词嵌入向量输入到共享特征抽取器中,通过共享特征抽取器提取出特征向量表示;
全连接层分类模块构成的边界检测模块接收到查询集中共享特征抽取器提取得到的特征向量表示后,获取查询集实体边界标签预测结果,并根据实体边界标签预测结果提取出实体块表示;
原型网络模块利用支持集中句子通过共享特征抽取器提取得到的特征向量表示根据其位置边界标签和类别标签获取各类别的实体块类别原型表示;
度量分类模块利用全连接层分类模块中获取的实体块表示和原型网络模块中获取的所有实体块类别原型表示进行度量计算,根据度量结果进行分类,使用欧氏距离作为距离度量函数dist,使用softmax层通过计算实体块表示与嵌入空间中的原型之间的距离获取查询集实体块表示在各类别上的分布概率,分别计算边界检测分类损失和实体块类别分类损失,联合训练并采用随机梯度下降算法训练模型,获取训练模型后,输入目标领域支持集和查询集,输出目标领域查询集预测标签,完成目标领域的少样本命名实体识别。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明通过实体边界检测获取实体块表示,基于原型网络使用支持集少量样本计算类别原型,实现类别分类,实现了获取类别区分能力更强的原型网络类别原型表示,提高了少样本命名实体识别任务的准确率。
2、本发明基于迁移学习中少样本学习的理论设计,迁移至多个目标领域仍能保持良好的鲁棒性,降低模型对大量数据的依赖,只需要少量标注样本便可获得较高的命名实体识别准确率,极大的节省了人力物力。
附图说明
图1是本发明方法的流程图;
图2是本发明系统的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本发明实体边界类别解耦的少样本命名实体识别方法,包括以下步骤:
S1、利用已标注出命名实体且已切分支持集和查询集的源领域和目标领域数据集,通过共享的词嵌入层,将支持集和查询集中的句子中的单词映射为词嵌入向量;
S2、当源领域进行训练时,以句子为单位,分别将支持集和查询集中句子对应的词嵌入向量输入到双向长短期记忆网络Bi-LSTM中,通过双向长短期记忆网络Bi-LSTM提取出特征向量表示,特征向量表示包含单词之间的上下文关系;
S3、将查询集中双向长短期记忆网络Bi-LSTM提取得到的特征向量表示输入到由全连接层构成的边界检测模块获取查询集实体边界标签预测结果,并根据实体边界标签预测结果提取出所有的实体块表示;
S4、将支持集中句子通过双向长短期记忆网络Bi-LSTM提取得到的特征向量表示根据其位置边界标签和类别标签基于原型网络获取各类别的实体块类别原型表示;
S5、将查询集中获取的所有实体块表示和支持集中获取的所有实体块类别原型表示进行度量计算,根据度量结果进行分类,使用欧氏距离作为距离度量函数dist,使用softmax层通过计算在嵌入空间中,实体块表示与体块类别原型表示之间的距离获取查询集实体块表示在各类别上的概率分布;
S6、分别计算边界检测分类损失和实体块类别分类损失,联合训练并采用随机梯度下降算法训练模型;
S7、获取最终训练模型后,输入目标领域支持集和查询集,输出目标领域查询集预测标签,完成目标领域的少样本命名实体识别。
本实施例中,步骤S1中获取词嵌入向量的具体步骤如下:
S11、切分支持集和查询集的源领域和目标领域数据集:分别构造N类别1样本和N类别5样本的批训练数据,N类别1样本即支持集中包含N种类别的命名实体,且每个类别至少有一个以上支持实例;
S12、将支持集和查询集中的句子x=(x1,x2,…,xn)中的所有单词映射得到的词嵌入向量表示为:
其中,x1为第i个单词在词库中对应的索引,即单词从0开始排序的位置;ew为词级别的特征编码器encoder;ew(xi)为将单词映射到对应预训练的词嵌入向量;ec为字符级别的特征编码器encoder;ec(xi)为将单词内的所有字符映射到对应的字符嵌入向量;LSTM(ec(xi))为将获取的字符嵌入向量通过长短期记忆网络进行循环操作得到该单词字符级别的向量表示;代表向量拼接,通过获取单词级别的词嵌入向量和字符级别的向量表示,再通过拼接操作,得到每个单词对应的词嵌入向量;其中,预训练的词嵌入向量采用的是GloVe预训练的词向量;字符嵌入向量采用了随机初始化的方法,字符嵌入向量中的每个元素的值均满足正态分布中。
本实施例中,步骤S2中获取特征向量表示的具体步骤如下:
S21、通过双向长短期记忆网络提取句子的特征向量表示:
其中,vi为第i个单词的词嵌入向量;单向的长短期记忆网络只对过去的序列信息进行编码,而忽略了未来时间步提取出来的序列信息,因此采用了双向长短期记忆网络Bi-LSTM提取信息;为向前双向长短期记忆网络Bi-LSTM提取出来的特征向量表示;/>为后向双向长短期记忆网络Bi-LSTM提取出来的特征向量表示;/>为前向双向长短期记忆网络第i-1个隐藏状态;/>为后向双向长短期记忆网络第i+1个隐藏状态;hi为双向长短期记忆网络第i个隐藏状态;/>代表向量拼接;
S22、分别获取支持集和查询集中句子级别的特征隐向量,其表示为:
H={h1,h2,…,ht}
其中,t为支持集和查询集中句子中的单词数量;H为句子的隐藏状态集合;ht为句子第t个单词所对应的隐藏状态,
本实例中,步骤S3中的获取查询集实体边界标签预测结果及提取实体快的具体步骤如下:
S31、将特征向量表示输入全连接层分类器,利用一个softmax层获取每个单词的位置边界标签的概率分布,计算公式表示为:
其中,hi为特征向量表示,
yB={y1,y2,…,yn}
其中,yB为位置边界标签集合;n为句子中单词数量;yn为第n个单词所预测标签值;
MLP层为线性全连接层分类器,包含参数矩阵通过线性全连接层分类器之后获取位置边界标签概率分布,并取位置边界标签概率分布最大值获取单词位置边界标签:
其中,为概率分布最大值所对应标签类别;
S32、根据查询集预测获取的位置边界标签,获取所有实体块的实体块表示,根据单词位置边界标签利用注意力机制计算实体块表示/>计算公式如下:
αt=softmax(WBounhi:j)
其中,为可学习的参数矩阵;i为实体块表示起始位置索引值,j为实体块表示结束位置索引值;hi:j为实体块表示起始到结束全部隐藏状态集合;αt为各个词的注意力权重值;/>其中,/>为实体块类型标签集合;其中m为当前批训练数据实体类别数量,ym为第m种实体块类型标签。
本实施例中,步骤S4中原型网络根据支持集中所有实体块表示计算m种类别的实体块类别原型表示任何类别的实体块类别原型表示为支持集中该类别所有实体块表示的特征向量表示平均值,实体块类别原型表示Ck的计算公式如下:
其中,Sk为第k种实体类别在支持集中所有实例。
本实施例中,步骤S5中欧式距离计算公式如下:
其中,X为r维空间中第一个点;Y为r维空间中第二个点;dist(X,Y)为r维空间中X,Y两点之间的欧式距离;r为空间维数;i为维度索引值,xi为X在第i维空间值;yi为Y在第i维空间值;
实体块表示在各类别上的概率分布为:
其中,y为实体块预测类别标签;k为实体块类别标签集合类别索引值;dist为距离度量函数(欧式距离);Ck为第k种实体块原型;为实体块类别标签集合;
取实体块表示在各类别上的概率分布最大值获取单词位置边界标签:
其中,为预测所得实体块标签类别。
本实施例中,步骤S6中边界检测损失计算公式如下:
其中,LB为边界检测损失;N为句子序列长度;为第i个单词位置类别标签索引值;/>为第i个单词在各位置类别标签上的概率分布;
实体块表示类别分类损失计算公式如下:
其中,为实体块类别分类损失;
通过联合训练边界检测任务和实体块类别分类任务,获取最佳的模型参数,联合训练的损失函数表示如下:
其中,Lall为全部损失和;λ1为边界检测任务的损失函数权重;λ2为实体块类别分类任务的损失函数权重。
如图2所示,相应地,本发明的一种实体边界类别解耦的少样本命名实体识别系统,包括:共享特征抽取器Bi-LSTM、边界检测模块、原型构造模块以及实体类别分类模块;边界检测模块上设有全连接层分类模块,原型构造模块上设有原型网络模块,实体类别分类模块上设有度量分类模块;其中:
共享特征抽取器Bi-LSTM利用已标注出命名实体且已切分支持集和查询集的源领域和目标领域数据集,将支持集和查询集中的句子中的单词映射为词嵌入向量;当源领域进行训练时,以句子为单位,分别将支持集和查询集中句子对应的词嵌入向量输入到共享特征抽取器Bi-LSTM中,通过共享特征抽取器Bi-LSTM提取出特征向量表示,特征向量表示包含单词之间的上下文关系;
全连接层分类模块构成的边界检测模块接收到查询集中共享特征抽取器Bi-LSTM提取得到的特征向量表示后,获取查询集实体边界标签预测结果,并根据实体边界标签预测结果提取出所有的实体块表示;
原型网络模块利用支持集中句子通过共享特征抽取器Bi-LSTM提取得到的特征向量表示根据其位置边界标签和类别标签获取各类别的实体块类别原型表示;
度量分类模块利用全连接层分类模块中获取的所有实体块表示和原型网络模块中获取的所有实体块类别原型表示进行度量计算,根据度量结果进行分类,使用欧氏距离作为距离度量函数dist,使用softmax层通过计算实体块表示与嵌入空间中的原型之间的距离获取查询集实体块表示在各类别上的概率分布,分别计算边界检测分类损失和实体块类别分类损失,联合训练并采用随机梯度下降算法训练模型,获取最终训练模型后,输入目标领域支持集和查询集,输出目标领域查询集预测标签,完成目标领域的少样本命名实体识别。
其中,词嵌入向量的预训练采用的是GloVe预训练的词向量。
上述实施例为本发明专利较佳的实施例,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种实体边界类别解耦的少样本命名实体识别方法,其特征在于,包括以下步骤:
S1、利用标注出命名实体且切分支持集和查询集的源领域和目标领域数据集,通过共享的词嵌入层,将支持集和查询集中的句子中的单词映射为词嵌入向量;
S2、以句子为单位,分别将支持集和查询集中句子对应的词嵌入向量输入到双向长短期记忆网络中,通过双向长短期记忆网络提取出特征向量表示;
S3、将查询集中双向长短期记忆网络提取得到的特征向量表示输入到由全连接层构成的边界检测模块获取查询集实体边界标签预测结果,并根据实体边界标签预测结果提取出实体块表示;
S4、将支持集中句子通过双向长短期记忆网络提取得到的特征向量表示根据其位置边界标签和类别标签基于原型网络获取各类别的实体块类别原型表示;
S5、将查询集中获取的所有实体块表示和支持集中获取的所有实体块类别原型表示进行度量计算,根据度量结果进行分类,利用欧氏距离作为距离度量函数dist,利用softmax层通过计算实体块表示与嵌入空间中的原型之间的距离获取查询集实体块表示在各类别上的概率分布;
S6、分别计算边界检测分类损失和实体块类别分类损失,联合训练并采用随机梯度下降算法训练模型;
S7、获取训练模型后,输入目标领域支持集和查询集,输出目标领域查询集预测标签,完成目标领域的少样本命名实体识别。
2.根据权利要求1所述的少样本命名实体识别方法,其特征在于,步骤S1中获取词嵌入向量的具体步骤如下:
S11、切分支持集和查询集的源领域和目标领域数据集,分别构造N类别单样本和N类别多样本的批训练数据,其中,N类别单样本为支持集中包含N种类别的命名实体,且每个类别至少有一个支持实例;
S12、将支持集和查询集中的句子x=(x1,x2,…,xn)中的所有单词映射获取的词嵌入向量表示为:
其中,xi为第i个单词在词库中对应的索引,ew为词级别的特征编码器encoder,ew(xi)为将单词映射到对应预训练的词嵌入向量;ec为字符级别的特征编码器encoder;ec(xi)为将单词内的所有字符映射到对应的字符嵌入向量;LSTM(ec(xi))为将获取的字符嵌入向量通过双向长短期记忆网络进行循环操作得到该单词字符级别的向量表示;代表向量拼接。
3.根据权利要求2所述的少样本命名实体识别方法,其特征在于,预训练的词嵌入向量采用的是GloVe预训练的词向量;字符嵌入向量采用的是随机初始化的方法。
4.根据权利要求1所述的少样本命名实体识别方法,其特征在于,步骤S2中获取特征向量表示的具体步骤如下:
S21、通过双向长短期记忆网络提取句子的特征向量表示:
其中,vi为第i个单词的词嵌入向量;为前向双向长短期记忆网络提取出来的特征向量表示;/>为后向双向长短期记忆网络提取出来的特征向量表示;/>为前向双向长短期记忆网络第i-1个隐藏状态;/>为后向双向长短期记忆网络第i+1个隐藏状态;hi为双向长短期记忆网络第i个隐藏状态;/>代表向量拼接;
S22、分别获取支持集和查询集中句子级别的特征隐向量,其表示为:
H=h1,h2,…,ht}
其中,t为支持集和查询集中句子中的单词数量;H为句子的隐藏状态集合;ht为句子第t个单词所对应的隐藏状态,
5.根据权利要求4所述的少样本命名实体识别方法,其特征在于,步骤S3中的获取查询集实体边界标签预测结果及提取实体块表示的具体步骤如下:
S31、将特征向量表示输入全连接层分类器,利用softmax层获取每个单词的位置边界标签的概率分布,计算公式表示为:
其中,hi为特征向量表示,
yB={y1,y2,…,yn}
其中,yB为位置边界标签集合;n为句子中单词数量;yn为第n个单词所预测标签值;
MLP层为线性全连接层分类器,包含参数矩阵通过线性全连接层分类器之后获取位置边界标签概率分布,并取位置边界标签概率分布最大值获取单词位置边界标签:
其中,为概率分布最大值所对应标签类别;
S32、根据查询集预测获取的位置边界标签,获取所有实体块的实体块表示,根据单词位置边界标签利用注意力机制计算实体块表示vSp,计算公式如下:
αt=softmax(WBounhi:j)
其中,为可学习的参数矩阵;i为实体块表示起始位置索引值;j为实体块表示结束位置索引值;hi:为实体块表示起始到结束全部隐藏状态集合;αt为各个词的注意力权重值;vSp∈ysp={y1,y2,…,ym},其中,ySp为实体块类型标签集合;其中m为当前批训练数据实体类别数量,ym为第m种实体块类型标签。
6.根据权利要求5所述的少样本命名实体识别方法,其特征在于,步骤S4中原型网络根据支持集中实体块表示计算m种类别的实体块类别原型表示实体块类别原型表示Ck的计算公式如下:
其中,Sk为第k种实体类别在支持集中的实例。
7.根据权利要求6所述的少样本命名实体识别方法,其特征在于,步骤S5中获取实体块表示在各类别上的概率分布的具体步骤如下:
S51、获取实体块表示在各类别上的概率分布:
其中,y为实体块预测类别标签;k为实体块类别标签集合类别索引值;dist为距离度量函数;Ck为第k种实体块原型;ySp为实体块类别标签集合;
S52、取实体块表示在各类别上的概率分布最大值获取单词位置边界标签:
其中,为预测所得实体块标签类别。
8.根据权利要求1所述的少样本命名实体识别方法,其特征在于,步骤S6中边界检测损失计算公式如下:
其中,LB为边界检测损失;N为句子序列长度;为第i个单词位置类别标签索引值;/>为第i个单词在各位置类别标签上的概率分布;
实体块类别分类损失计算公式如下:
Lsp=-∑p(y=k|hi:)log(p(y=k|hi:))
其中,LSp为实体块类别分类损失;
联合训练的损失函数表示如下:
Lall=λ1LB2Lsp
其中,Lall为全部损失和;λ1为边界检测任务的损失函数权重;λ2为实体块类别分类任务的损失函数权重。
9.一种实体边界类别解耦的少样本命名实体识别系统,其特征在于,包括共享特征抽取器、边界检测模块、原型构造模块以及实体类别分类模块;边界检测模块上设有全连接层分类模块,原型构造模块上设有原型网络模块,实体类别分类模块上设有度量分类模块;其中:
共享特征抽取器利用标注出命名实体且切分支持集和查询集的源领域和目标领域数据集,将支持集和查询集中的句子中的单词映射为词嵌入向量;以句子为单位,分别将支持集和查询集中句子对应的词嵌入向量输入到共享特征抽取器中,通过共享特征抽取器提取出特征向量表示;
全连接层分类模块构成的边界检测模块接收到查询集中共享特征抽取器提取得到的特征向量表示后,获取查询集实体边界标签预测结果,并根据实体边界标签预测结果提取出实体块表示;
原型网络模块利用支持集中句子通过共享特征抽取器提取得到的特征向量表示根据其位置边界标签和类别标签获取各类别的实体块类别原型表示;
度量分类模块利用全连接层分类模块中获取的实体块表示和原型网络模块中获取的所有实体块类别原型表示进行度量计算,根据度量结果进行分类,使用欧氏距离作为距离度量函数dist,使用softmax层通过计算实体块表示与嵌入空间中的原型之间的距离获取查询集实体块表示在各类别上的分布概率,分别计算边界检测分类损失和实体块类别分类损失,联合训练并采用随机梯度下降算法训练模型,获取训练模型后,输入目标领域支持集和查询集,输出目标领域查询集预测标签,完成目标领域的少样本命名实体识别。
10.根据权利要求9所述的少样本命名实体识别系统,其特征在于,词嵌入向量的预训练采用的是GloVe预训练的词向量。
CN202011443134.2A 2020-12-11 2020-12-11 一种实体边界类别解耦的少样本命名实体识别方法与系统 Active CN112541355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011443134.2A CN112541355B (zh) 2020-12-11 2020-12-11 一种实体边界类别解耦的少样本命名实体识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011443134.2A CN112541355B (zh) 2020-12-11 2020-12-11 一种实体边界类别解耦的少样本命名实体识别方法与系统

Publications (2)

Publication Number Publication Date
CN112541355A CN112541355A (zh) 2021-03-23
CN112541355B true CN112541355B (zh) 2023-07-18

Family

ID=75018222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011443134.2A Active CN112541355B (zh) 2020-12-11 2020-12-11 一种实体边界类别解耦的少样本命名实体识别方法与系统

Country Status (1)

Country Link
CN (1) CN112541355B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486917B (zh) * 2021-05-17 2023-06-02 西安电子科技大学 一种基于度量学习的雷达hrrp小样本目标识别方法
CN113408605B (zh) * 2021-06-16 2023-06-16 西安电子科技大学 基于小样本学习的高光谱图像半监督分类方法
CN113505225B (zh) * 2021-07-08 2023-07-25 东北大学 一种基于多层注意力机制的小样本医疗关系分类方法
CN114722822B (zh) * 2022-03-22 2024-01-19 平安科技(深圳)有限公司 命名实体识别方法、装置、设备和计算机可读存储介质
CN115204176B (zh) * 2022-07-28 2023-06-06 平安科技(深圳)有限公司 命名实体识别方法、系统及存储介质
CN116796742A (zh) * 2023-03-27 2023-09-22 上海交通大学医学院 一种中医古籍命名实体识别方法、装置、设备和存储介质
CN116432656B (zh) * 2023-06-13 2023-08-29 河海大学 面向大坝应急响应的小样本命名实体识别方法
CN116579345B (zh) * 2023-07-14 2023-10-24 亚信科技(中国)有限公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN117114004B (zh) * 2023-10-25 2024-01-16 江西师范大学 一种基于门控纠偏的少样本两阶段命名实体识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111460824A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111460824A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法

Also Published As

Publication number Publication date
CN112541355A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN112541355B (zh) 一种实体边界类别解耦的少样本命名实体识别方法与系统
CN112765358B (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN107133569B (zh) 基于泛化多标记学习的监控视频多粒度标注方法
CN110909820A (zh) 基于自监督学习的图像分类方法及系统
Radwan et al. Neural networks pipeline for offline machine printed Arabic OCR
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN111914099A (zh) 一种交通优化策略的智能问答方法、系统、装置及介质
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN115471739A (zh) 基于自监督对比学习的跨域遥感场景分类与检索方法
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN112905793B (zh) 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN111428505B (zh) 一种融合触发词识别特征的实体关系抽取方法
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN113076758A (zh) 一种面向任务型对话的多域请求式意图识别方法
Li et al. Review network for scene text recognition
Li et al. Deep neural network with attention model for scene text recognition
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN115455934A (zh) 一种企业多种经营范围识别方法与系统
CN111767402B (zh) 一种基于对抗学习的限定域事件检测方法
CN114155403A (zh) 一种基于深度学习的图像分段哈希排序方法
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN114298047A (zh) 基于笔画卷积和词向量的中文命名实体识别方法及系统
CN117114004B (zh) 一种基于门控纠偏的少样本两阶段命名实体识别方法
CN117830874B (zh) 一种多尺度模糊边界条件下的遥感目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant