CN112541355A - 一种实体边界类别解耦的少样本命名实体识别方法与系统 - Google Patents

一种实体边界类别解耦的少样本命名实体识别方法与系统 Download PDF

Info

Publication number
CN112541355A
CN112541355A CN202011443134.2A CN202011443134A CN112541355A CN 112541355 A CN112541355 A CN 112541355A CN 202011443134 A CN202011443134 A CN 202011443134A CN 112541355 A CN112541355 A CN 112541355A
Authority
CN
China
Prior art keywords
entity
boundary
representation
word
prototype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011443134.2A
Other languages
English (en)
Other versions
CN112541355B (zh
Inventor
蔡毅
陈晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202011443134.2A priority Critical patent/CN112541355B/zh
Publication of CN112541355A publication Critical patent/CN112541355A/zh
Application granted granted Critical
Publication of CN112541355B publication Critical patent/CN112541355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种实体边界类别解耦的少样本命名实体识别方法及系统,其方法包括步骤:S1、通过共享的词嵌入层,将句子中的单词映射为词嵌入向量;S2、通过双向长短期记忆网络提取出特征向量;S3、利用边界检测模块获取查询集实体边界标签预测结果,并提取出实体块;S4、基于原型网络获取实体块类别原型表示;S5、进行度量计算,根据度量结果进行分类,获取查询集实体块在各类别上的概率分布;S6、联合训练模型;S7、完成少样本命名实体识别。本发明通过实体边界检测获取实体块表示,基于原型网络使用支持集少量样本计算类别原型,实现了获取类别区分能力更强的原型网络类别原型表示,提高了少样本命名实体识别任务的准确率。

Description

一种实体边界类别解耦的少样本命名实体识别方法与系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种实体边界类别解耦的少样本命名实体识别方法与系统。
背景技术
命名实体识别是自然语言处理领域中一个重要的基础任务。其主要目标是抽取文本语句中相应的实体描述并将其分类为对应实体类别比如人名,地名,组织等,这些词可以是独立的单个词也可以是多个词。因此,命名实体识别常被视为序列标注任务,这个任务也用于大量信息抽取框架、基于目标的对话系统的核心组成模块,具有极高的社会经济价值。
当拥有大量标注数据时,命名实体识别任务可以以较高的标注质量完成。现有的用于测试新的命名实体识别模型的基准及比如CoNLL-2003和Ontonotes数据集,这两个数据集均包含大量数据来实现在有监督的设定下训练神经网络结构。然而,在实际应用中,特别是一些少资源领域和少资源语言中,这样拥有丰富标注数据量的数据集通常是无法获得的,训练样本需要大量的人工进行标注,这需要耗费时间以及财力。此外即使我们拥有足够的标注数据量,也无法避免数据集中存在一些稀缺实体,由于出现频率过低而无法利用神经网络在文本中准确识别实体。
为了降低模型对大量数据的依赖,近年来有一些基于少样本学习的命名实体识别工作,少样本学习的相关技术可以训练能借鉴源领域的先验知识并利用少量标注样本快速迁移至新领域的模型。现有的方法都是对单个词与边界信息和类别信息耦合在一起的类别表示使用基于相似性度量的少样本学习方法进行分类。但这一类的方法由于单个词的语义松散,歧义性强,又在特征空间中不同类别的类别差异不够明显,导致了实体分类的错误率比较高。
发明内容
为解决现有技术所存在的技术问题,本发明提供一种实体边界类别解耦的少样本命名实体识别方法与系统,通过实体边界检测获取实体块表示,基于原型网络使用支持集少量样本计算类别原型,实现类别分类,实现了获取类别区分能力更强的原型网络类别原型表示,提高了少样本命名实体识别任务的准确率。
本发明方法采用以下技术方案来实现:一种实体边界类别解耦的少样本命名实体识别方法,包括以下步骤:
S1、利用标注出命名实体且切分支持集和查询集的源领域和目标领域数据集,通过共享的词嵌入层,将支持集和查询集中的句子中的单词映射为词嵌入向量;
S2、以句子为单位,分别将支持集和查询集中句子对应的词嵌入向量输入到双向长短期记忆网络中,通过双向长短期记忆网络提取出特征向量表示;
S3、将查询集中双向长短期记忆网络提取得到的特征向量表示输入到由全连接层构成的边界检测模块获取查询集实体边界标签预测结果,并根据实体边界标签预测结果提取出实体块表示;
S4、将支持集中句子通过双向长短期记忆网络提取得到的特征向量表示根据其位置边界标签和类别标签基于原型网络获取各类别的实体块类别原型表示;
S5、将查询集中获取的所有实体块表示和支持集中获取的所有实体块类别原型表示进行度量计算,根据度量结果进行分类,利用欧氏距离作为距离度量函数dist,利用softmax层通过计算实体块表示与嵌入空间中的原型之间的距离获取查询集实体块表示在各类别上的概率分布;
S6、分别计算边界检测分类损失和实体块类别分类损失,联合训练并采用随机梯度下降算法训练模型;
S7、获取训练模型后,输入目标领域支持集和查询集,输出目标领域查询集预测标签,完成目标领域的少样本命名实体识别。
本发明系统采用以下技术方案来实现:一种实体边界类别解耦的少样本命名实体识别系统,包括共享特征抽取器、边界检测模块、原型构造模块以及实体类别分类模块;边界检测模块上设有全连接层分类模块,原型构造模块上设有原型网络模块,实体类别分类模块上设有度量分类模块;其中:
共享特征抽取器利用标注出命名实体且切分支持集和查询集的源领域和目标领域数据集,将支持集和查询集中的句子中的单词映射为词嵌入向量;以句子为单位,分别将支持集和查询集中句子对应的词嵌入向量输入到共享特征抽取器中,通过共享特征抽取器提取出特征向量表示;
全连接层分类模块构成的边界检测模块接收到查询集中共享特征抽取器提取得到的特征向量表示后,获取查询集实体边界标签预测结果,并根据实体边界标签预测结果提取出实体块表示;
原型网络模块利用支持集中句子通过共享特征抽取器提取得到的特征向量表示根据其位置边界标签和类别标签获取各类别的实体块类别原型表示;
度量分类模块利用全连接层分类模块中获取的实体块表示和原型网络模块中获取的所有实体块类别原型表示进行度量计算,根据度量结果进行分类,使用欧氏距离作为距离度量函数dist,使用softmax层通过计算实体块表示与嵌入空间中的原型之间的距离获取查询集实体块表示在各类别上的分布概率,分别计算边界检测分类损失和实体块类别分类损失,联合训练并采用随机梯度下降算法训练模型,获取训练模型后,输入目标领域支持集和查询集,输出目标领域查询集预测标签,完成目标领域的少样本命名实体识别。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明通过实体边界检测获取实体块表示,基于原型网络使用支持集少量样本计算类别原型,实现类别分类,实现了获取类别区分能力更强的原型网络类别原型表示,提高了少样本命名实体识别任务的准确率。
2、本发明基于迁移学习中少样本学习的理论设计,迁移至多个目标领域仍能保持良好的鲁棒性,降低模型对大量数据的依赖,只需要少量标注样本便可获得较高的命名实体识别准确率,极大的节省了人力物力。
附图说明
图1是本发明方法的流程图;
图2是本发明系统的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本发明实体边界类别解耦的少样本命名实体识别方法,包括以下步骤:
S1、利用已标注出命名实体且已切分支持集和查询集的源领域和目标领域数据集,通过共享的词嵌入层,将支持集和查询集中的句子中的单词映射为词嵌入向量;
S2、当源领域进行训练时,以句子为单位,分别将支持集和查询集中句子对应的词嵌入向量输入到双向长短期记忆网络Bi-LSTM中,通过双向长短期记忆网络Bi-LSTM提取出特征向量表示,特征向量表示包含单词之间的上下文关系;
S3、将查询集中双向长短期记忆网络Bi-LSTM提取得到的特征向量表示输入到由全连接层构成的边界检测模块获取查询集实体边界标签预测结果,并根据实体边界标签预测结果提取出所有的实体块表示;
S4、将支持集中句子通过双向长短期记忆网络Bi-LSTM提取得到的特征向量表示根据其位置边界标签和类别标签基于原型网络获取各类别的实体块类别原型表示;
S5、将查询集中获取的所有实体块表示和支持集中获取的所有实体块类别原型表示进行度量计算,根据度量结果进行分类,使用欧氏距离作为距离度量函数dist,使用softmax层通过计算在嵌入空间中,实体块表示与体块类别原型表示之间的距离获取查询集实体块表示在各类别上的概率分布;
S6、分别计算边界检测分类损失和实体块类别分类损失,联合训练并采用随机梯度下降算法训练模型;
S7、获取最终训练模型后,输入目标领域支持集和查询集,输出目标领域查询集预测标签,完成目标领域的少样本命名实体识别。
本实施例中,步骤S1中获取词嵌入向量的具体步骤如下:
S11、切分支持集和查询集的源领域和目标领域数据集:分别构造N类别1样本和N类别5样本的批训练数据,N类别1样本即支持集中包含N种类别的命名实体,且每个类别至少有一个以上支持实例;
S12、将支持集和查询集中的句子x=(x1,x2,…,xn)中的所有单词映射得到的词嵌入向量表示为:
Figure BDA0002830716420000041
其中,x1为第i个单词在词库中对应的索引,即单词从0开始排序的位置;ew为词级别的特征编码器encoder;ew(xi)为将单词映射到对应预训练的词嵌入向量;ec为字符级别的特征编码器encoder;ec(xi)为将单词内的所有字符映射到对应的字符嵌入向量;LSTM(ec(xi))为将获取的字符嵌入向量通过长短期记忆网络进行循环操作得到该单词字符级别的向量表示;
Figure BDA0002830716420000042
代表向量拼接,通过获取单词级别的词嵌入向量和字符级别的向量表示,再通过拼接操作,得到每个单词对应的词嵌入向量;其中,预训练的词嵌入向量采用的是GloVe预训练的词向量;字符嵌入向量采用了随机初始化的方法,字符嵌入向量中的每个元素的值均满足正态分布中。
本实施例中,步骤S2中获取特征向量表示的具体步骤如下:
S21、通过双向长短期记忆网络提取句子的特征向量表示:
Figure BDA0002830716420000043
Figure BDA0002830716420000044
Figure BDA0002830716420000045
其中,vi为第i个单词的词嵌入向量;单向的长短期记忆网络只对过去的序列信息进行编码,而忽略了未来时间步提取出来的序列信息,因此采用了双向长短期记忆网络Bi-LSTM提取信息;
Figure BDA0002830716420000051
为向前双向长短期记忆网络Bi-LSTM提取出来的特征向量表示;
Figure BDA0002830716420000052
为后向双向长短期记忆网络Bi-LSTM提取出来的特征向量表示;
Figure BDA0002830716420000053
为前向双向长短期记忆网络第i-1个隐藏状态;
Figure BDA0002830716420000054
为后向双向长短期记忆网络第i+1个隐藏状态;hi为双向长短期记忆网络第i个隐藏状态;
Figure BDA0002830716420000055
代表向量拼接;
S22、分别获取支持集和查询集中句子级别的特征隐向量,其表示为:
H={h1,h2,…,ht}
其中,t为支持集和查询集中句子中的单词数量;H为句子的隐藏状态集合;ht为句子第t个单词所对应的隐藏状态,
Figure BDA0002830716420000056
本实例中,步骤S3中的获取查询集实体边界标签预测结果及提取实体快的具体步骤如下:
S31、将特征向量表示输入全连接层分类器,利用一个softmax层获取每个单词的位置边界标签的概率分布,计算公式表示为:
Figure BDA0002830716420000057
其中,hi为特征向量表示,
Figure BDA0002830716420000058
yB={y1,y2,…,yn}
其中,yB为位置边界标签集合;n为句子中单词数量;yn为第n个单词所预测标签值;
MLP层为线性全连接层分类器,包含参数矩阵
Figure BDA0002830716420000059
通过线性全连接层分类器之后获取位置边界标签概率分布,并取位置边界标签概率分布最大值获取单词位置边界标签:
Figure BDA00028307164200000510
其中,
Figure BDA00028307164200000511
为概率分布最大值所对应标签类别;
S32、根据查询集预测获取的位置边界标签,获取所有实体块的实体块表示,根据单词位置边界标签
Figure BDA00028307164200000512
利用注意力机制计算实体块表示
Figure BDA00028307164200000513
计算公式如下:
αt=softmax(WBounhi:j)
Figure BDA00028307164200000514
其中,
Figure BDA00028307164200000515
为可学习的参数矩阵;i为实体块表示起始位置索引值,j为实体块表示结束位置索引值;hi:j为实体块表示起始到结束全部隐藏状态集合;αt为各个词的注意力权重值;
Figure BDA0002830716420000061
其中,
Figure BDA0002830716420000062
为实体块类型标签集合;其中m为当前批训练数据实体类别数量,ym为第m种实体块类型标签。
本实施例中,步骤S4中原型网络根据支持集中所有实体块表示计算m种类别的实体块类别原型表示
Figure BDA0002830716420000063
任何类别的实体块类别原型表示为支持集中该类别所有实体块表示的特征向量表示平均值,实体块类别原型表示Ck的计算公式如下:
Figure BDA0002830716420000064
其中,Sk为第k种实体类别在支持集中所有实例。
本实施例中,步骤S5中欧式距离计算公式如下:
Figure BDA0002830716420000065
其中,X为r维空间中第一个点;Y为r维空间中第二个点;dist(X,Y)为r维空间中X,Y两点之间的欧式距离;r为空间维数;i为维度索引值,xi为X在第i维空间值;yi为Y在第i维空间值;
实体块表示在各类别上的概率分布为:
Figure BDA0002830716420000066
其中,y为实体块预测类别标签;k为实体块类别标签集合类别索引值;dist为距离度量函数(欧式距离);Ck为第k种实体块原型;
Figure BDA0002830716420000067
为实体块类别标签集合;
取实体块表示在各类别上的概率分布最大值获取单词位置边界标签:
Figure BDA0002830716420000068
其中,
Figure BDA0002830716420000069
为预测所得实体块标签类别。
本实施例中,步骤S6中边界检测损失计算公式如下:
Figure BDA00028307164200000610
其中,LB为边界检测损失;N为句子序列长度;
Figure BDA00028307164200000611
为第i个单词位置类别标签索引值;
Figure BDA00028307164200000612
为第i个单词在各位置类别标签上的概率分布;
实体块表示类别分类损失计算公式如下:
Figure BDA0002830716420000073
其中,
Figure BDA0002830716420000071
为实体块类别分类损失;
通过联合训练边界检测任务和实体块类别分类任务,获取最佳的模型参数,联合训练的损失函数表示如下:
Figure BDA0002830716420000072
其中,Lall为全部损失和;λ1为边界检测任务的损失函数权重;λ2为实体块类别分类任务的损失函数权重。
如图2所示,相应地,本发明的一种实体边界类别解耦的少样本命名实体识别系统,包括:共享特征抽取器Bi-LSTM、边界检测模块、原型构造模块以及实体类别分类模块;边界检测模块上设有全连接层分类模块,原型构造模块上设有原型网络模块,实体类别分类模块上设有度量分类模块;其中:
共享特征抽取器Bi-LSTM利用已标注出命名实体且已切分支持集和查询集的源领域和目标领域数据集,将支持集和查询集中的句子中的单词映射为词嵌入向量;当源领域进行训练时,以句子为单位,分别将支持集和查询集中句子对应的词嵌入向量输入到共享特征抽取器Bi-LSTM中,通过共享特征抽取器Bi-LSTM提取出特征向量表示,特征向量表示包含单词之间的上下文关系;
全连接层分类模块构成的边界检测模块接收到查询集中共享特征抽取器Bi-LSTM提取得到的特征向量表示后,获取查询集实体边界标签预测结果,并根据实体边界标签预测结果提取出所有的实体块表示;
原型网络模块利用支持集中句子通过共享特征抽取器Bi-LSTM提取得到的特征向量表示根据其位置边界标签和类别标签获取各类别的实体块类别原型表示;
度量分类模块利用全连接层分类模块中获取的所有实体块表示和原型网络模块中获取的所有实体块类别原型表示进行度量计算,根据度量结果进行分类,使用欧氏距离作为距离度量函数dist,使用softmax层通过计算实体块表示与嵌入空间中的原型之间的距离获取查询集实体块表示在各类别上的概率分布,分别计算边界检测分类损失和实体块类别分类损失,联合训练并采用随机梯度下降算法训练模型,获取最终训练模型后,输入目标领域支持集和查询集,输出目标领域查询集预测标签,完成目标领域的少样本命名实体识别。
其中,词嵌入向量的预训练采用的是GloVe预训练的词向量。
上述实施例为本发明专利较佳的实施例,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种实体边界类别解耦的少样本命名实体识别方法,其特征在于,包括以下步骤:
S1、利用标注出命名实体且切分支持集和查询集的源领域和目标领域数据集,通过共享的词嵌入层,将支持集和查询集中的句子中的单词映射为词嵌入向量;
S2、以句子为单位,分别将支持集和查询集中句子对应的词嵌入向量输入到双向长短期记忆网络中,通过双向长短期记忆网络提取出特征向量表示;
S3、将查询集中双向长短期记忆网络提取得到的特征向量表示输入到由全连接层构成的边界检测模块获取查询集实体边界标签预测结果,并根据实体边界标签预测结果提取出实体块表示;
S4、将支持集中句子通过双向长短期记忆网络提取得到的特征向量表示根据其位置边界标签和类别标签基于原型网络获取各类别的实体块类别原型表示;
S5、将查询集中获取的所有实体块表示和支持集中获取的所有实体块类别原型表示进行度量计算,根据度量结果进行分类,利用欧氏距离作为距离度量函数dist,利用softmax层通过计算实体块表示与嵌入空间中的原型之间的距离获取查询集实体块表示在各类别上的概率分布;
S6、分别计算边界检测分类损失和实体块类别分类损失,联合训练并采用随机梯度下降算法训练模型;
S7、获取训练模型后,输入目标领域支持集和查询集,输出目标领域查询集预测标签,完成目标领域的少样本命名实体识别。
2.根据权利要求1所述的少样本命名实体识别方法,其特征在于,步骤S1中获取词嵌入向量的具体步骤如下:
S11、切分支持集和查询集的源领域和目标领域数据集,分别构造N类别单样本和N类别多样本的批训练数据,其中,N类别单样本为支持集中包含N种类别的命名实体,且每个类别至少有一个支持实例;
S12、将支持集和查询集中的句子x=(x1,x2,...,xn)中的所有单词映射获取的词嵌入向量表示为:
Figure FDA0002830716410000011
其中,xi为第i个单词在词库中对应的索引,ew为词级别的特征编码器encoder,ew(xi)为将单词映射到对应预训练的词嵌入向量;ec为字符级别的特征编码器encoder;ec(xi)为将单词内的所有字符映射到对应的字符嵌入向量;LSTM(ec(xi))为将获取的字符嵌入向量通过双向长短期记忆网络进行循环操作得到该单词字符级别的向量表示;
Figure FDA0002830716410000012
代表向量拼接。
3.根据权利要求2所述的少样本命名实体识别方法,其特征在于,预训练的词嵌入向量采用的是GloVe预训练的词向量;字符嵌入向量采用的是随机初始化的方法。
4.根据权利要求1所述的少样本命名实体识别方法,其特征在于,步骤S2中获取特征向量表示的具体步骤如下:
S21、通过双向长短期记忆网络提取句子的特征向量表示:
Figure FDA0002830716410000021
Figure FDA0002830716410000022
Figure FDA0002830716410000023
其中,vi为第i个单词的词嵌入向量;
Figure FDA0002830716410000024
为前向双向长短期记忆网络提取出来的特征向量表示;
Figure FDA0002830716410000025
为后向双向长短期记忆网络提取出来的特征向量表示;
Figure FDA0002830716410000026
为前向双向长短期记忆网络第i-1个隐藏状态;
Figure FDA0002830716410000027
为后向双向长短期记忆网络第i+1个隐藏状态;hi为双向长短期记忆网络第i个隐藏状态;
Figure FDA0002830716410000028
代表向量拼接;
S22、分别获取支持集和查询集中句子级别的特征隐向量,其表示为:
H={h1,h2,...,ht}
其中,t为支持集和查询集中句子中的单词数量;H为句子的隐藏状态集合;ht为句子第t个单词所对应的隐藏状态,
Figure FDA0002830716410000029
5.根据权利要求1所述的少样本命名实体识别方法,其特征在于,步骤S3中的获取查询集实体边界标签预测结果及提取实体块表示的具体步骤如下:
S31、将特征向量表示输入全连接层分类器,利用softmax层获取每个单词的位置边界标签的概率分布,计算公式表示为:
Figure FDA00028307164100000210
其中,hi为特征向量表示,
Figure FDA00028307164100000211
yB={y1,y2,...,yn}
其中,yB为位置边界标签集合;n为句子中单词数量;yn为第n个单词所预测标签值;
MLP层为线性全连接层分类器,包含参数矩阵
Figure FDA00028307164100000212
通过线性全连接层分类器之后获取位置边界标签概率分布,并取位置边界标签概率分布最大值获取单词位置边界标签:
Figure FDA00028307164100000213
其中,
Figure FDA00028307164100000214
为概率分布最大值所对应标签类别;
S32、根据查询集预测获取的位置边界标签,获取所有实体块的实体块表示,根据单词位置边界标签
Figure FDA0002830716410000039
利用注意力机制计算实体块表示vSp,计算公式如下:
αt=softmax(WBounhi:j)
Figure FDA0002830716410000031
其中,
Figure FDA0002830716410000032
为可学习的参数矩阵;i为实体块表示起始位置索引值;j为实体块表示结束位置索引值;hi:j为实体块表示起始到结束全部隐藏状态集合;αt为各个词的注意力权重值;vSp∈ySp={y1,y2,...,ym},其中,ySp为实体块类型标签集合;其中m为当前批训练数据实体类别数量,ym为第m种实体块类型标签。
6.根据权利要求1所述的少样本命名实体识别方法,其特征在于,步骤S4中原型网络根据支持集中实体块表示计算m种类别的实体块类别原型表示
Figure FDA0002830716410000033
实体块类别原型表示Ck的计算公式如下:
Figure FDA0002830716410000034
其中,Sk为第k种实体类别在支持集中的实例。
7.根据权利要求1所述的少样本命名实体识别方法,其特征在于,步骤S5中获取实体块表示在各类别上的概率分布的具体步骤如下:
S51、获取实体块表示在各类别上的概率分布:
Figure FDA0002830716410000035
其中,y为实体块预测类别标签;k为实体块类别标签集合类别索引值;dist为距离度量函数;Ck为第k种实体块原型;ySp为实体块类别标签集合;
S52、取实体块表示在各类别上的概率分布最大值获取单词位置边界标签:
Figure FDA0002830716410000036
其中,
Figure FDA0002830716410000037
为预测所得实体块标签类别。
8.根据权利要求1所述的少样本命名实体识别方法,其特征在于,步骤S6中边界检测损失计算公式如下:
Figure FDA0002830716410000038
其中,LB为边界检测损失;N为句子序列长度;
Figure FDA0002830716410000041
为第i个单词位置类别标签索引值;
Figure FDA0002830716410000042
为第i个单词在各位置类别标签上的概率分布;
实体块类别分类损失计算公式如下:
LSp=-∑p(y=k|hi:j)log(p(y=k|hi:j))
其中,LSp为实体块类别分类损失;
联合训练的损失函数表示如下:
Lall=λ1LB2LSp
其中,Lall为全部损失和;λ1为边界检测任务的损失函数权重;λ2为实体块类别分类任务的损失函数权重。
9.一种实体边界类别解耦的少样本命名实体识别系统,其特征在于,包括共享特征抽取器、边界检测模块、原型构造模块以及实体类别分类模块;边界检测模块上设有全连接层分类模块,原型构造模块上设有原型网络模块,实体类别分类模块上设有度量分类模块;其中:
共享特征抽取器利用标注出命名实体且切分支持集和查询集的源领域和目标领域数据集,将支持集和查询集中的句子中的单词映射为词嵌入向量;以句子为单位,分别将支持集和查询集中句子对应的词嵌入向量输入到共享特征抽取器中,通过共享特征抽取器提取出特征向量表示;
全连接层分类模块构成的边界检测模块接收到查询集中共享特征抽取器提取得到的特征向量表示后,获取查询集实体边界标签预测结果,并根据实体边界标签预测结果提取出实体块表示;
原型网络模块利用支持集中句子通过共享特征抽取器提取得到的特征向量表示根据其位置边界标签和类别标签获取各类别的实体块类别原型表示;
度量分类模块利用全连接层分类模块中获取的实体块表示和原型网络模块中获取的所有实体块类别原型表示进行度量计算,根据度量结果进行分类,使用欧氏距离作为距离度量函数dist,使用softmax层通过计算实体块表示与嵌入空间中的原型之间的距离获取查询集实体块表示在各类别上的分布概率,分别计算边界检测分类损失和实体块类别分类损失,联合训练并采用随机梯度下降算法训练模型,获取训练模型后,输入目标领域支持集和查询集,输出目标领域查询集预测标签,完成目标领域的少样本命名实体识别。
10.根据权利要求9所述的少样本命名实体识别系统,其特征在于,词嵌入向量的预训练采用的是GloVe预训练的词向量。
CN202011443134.2A 2020-12-11 2020-12-11 一种实体边界类别解耦的少样本命名实体识别方法与系统 Active CN112541355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011443134.2A CN112541355B (zh) 2020-12-11 2020-12-11 一种实体边界类别解耦的少样本命名实体识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011443134.2A CN112541355B (zh) 2020-12-11 2020-12-11 一种实体边界类别解耦的少样本命名实体识别方法与系统

Publications (2)

Publication Number Publication Date
CN112541355A true CN112541355A (zh) 2021-03-23
CN112541355B CN112541355B (zh) 2023-07-18

Family

ID=75018222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011443134.2A Active CN112541355B (zh) 2020-12-11 2020-12-11 一种实体边界类别解耦的少样本命名实体识别方法与系统

Country Status (1)

Country Link
CN (1) CN112541355B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408605A (zh) * 2021-06-16 2021-09-17 西安电子科技大学 基于小样本学习的高光谱图像半监督分类方法
CN113486917A (zh) * 2021-05-17 2021-10-08 西安电子科技大学 一种基于度量学习的雷达hrrp小样本目标识别方法
CN113505225A (zh) * 2021-07-08 2021-10-15 东北大学 一种基于多层注意力机制的小样本医疗关系分类方法
CN115204176A (zh) * 2022-07-28 2022-10-18 平安科技(深圳)有限公司 命名实体识别方法、系统及存储介质
CN116432656A (zh) * 2023-06-13 2023-07-14 河海大学 面向大坝应急响应的小样本命名实体识别方法
CN116579345A (zh) * 2023-07-14 2023-08-11 亚信科技(中国)有限公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN116796742A (zh) * 2023-03-27 2023-09-22 上海交通大学医学院 一种中医古籍命名实体识别方法、装置、设备和存储介质
WO2023178802A1 (zh) * 2022-03-22 2023-09-28 平安科技(深圳)有限公司 命名实体识别方法、装置、设备和计算机可读存储介质
CN117114004A (zh) * 2023-10-25 2023-11-24 江西师范大学 一种基于门控纠偏的少样本两阶段命名实体识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111460824A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111460824A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486917A (zh) * 2021-05-17 2021-10-08 西安电子科技大学 一种基于度量学习的雷达hrrp小样本目标识别方法
CN113486917B (zh) * 2021-05-17 2023-06-02 西安电子科技大学 一种基于度量学习的雷达hrrp小样本目标识别方法
CN113408605A (zh) * 2021-06-16 2021-09-17 西安电子科技大学 基于小样本学习的高光谱图像半监督分类方法
CN113505225A (zh) * 2021-07-08 2021-10-15 东北大学 一种基于多层注意力机制的小样本医疗关系分类方法
CN113505225B (zh) * 2021-07-08 2023-07-25 东北大学 一种基于多层注意力机制的小样本医疗关系分类方法
WO2023178802A1 (zh) * 2022-03-22 2023-09-28 平安科技(深圳)有限公司 命名实体识别方法、装置、设备和计算机可读存储介质
CN115204176A (zh) * 2022-07-28 2022-10-18 平安科技(深圳)有限公司 命名实体识别方法、系统及存储介质
CN115204176B (zh) * 2022-07-28 2023-06-06 平安科技(深圳)有限公司 命名实体识别方法、系统及存储介质
CN116796742A (zh) * 2023-03-27 2023-09-22 上海交通大学医学院 一种中医古籍命名实体识别方法、装置、设备和存储介质
CN116432656A (zh) * 2023-06-13 2023-07-14 河海大学 面向大坝应急响应的小样本命名实体识别方法
CN116432656B (zh) * 2023-06-13 2023-08-29 河海大学 面向大坝应急响应的小样本命名实体识别方法
CN116579345A (zh) * 2023-07-14 2023-08-11 亚信科技(中国)有限公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN116579345B (zh) * 2023-07-14 2023-10-24 亚信科技(中国)有限公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN117114004A (zh) * 2023-10-25 2023-11-24 江西师范大学 一种基于门控纠偏的少样本两阶段命名实体识别方法
CN117114004B (zh) * 2023-10-25 2024-01-16 江西师范大学 一种基于门控纠偏的少样本两阶段命名实体识别方法

Also Published As

Publication number Publication date
CN112541355B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN112541355B (zh) 一种实体边界类别解耦的少样本命名实体识别方法与系统
CN112765358B (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN110826335B (zh) 一种命名实体识别的方法和装置
CN109800437A (zh) 一种基于特征融合的命名实体识别方法
CN115081437B (zh) 基于语言学特征对比学习的机器生成文本检测方法及系统
CN112687328B (zh) 确定临床描述信息的表型信息的方法、设备和介质
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN113076758B (zh) 一种面向任务型对话的多域请求式意图识别方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN114722204A (zh) 多标签文本分类方法及装置
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN114757183B (zh) 一种基于对比对齐网络的跨领域情感分类方法
CN111428505A (zh) 一种融合触发词识别特征的实体关系抽取方法
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
CN115455934A (zh) 一种企业多种经营范围识别方法与系统
CN114595329A (zh) 一种原型网络的少样本事件抽取系统及方法
CN114298047A (zh) 基于笔画卷积和词向量的中文命名实体识别方法及系统
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN113989811A (zh) 基于深度学习的贸易合同中项目公司、供应商的提取方法
CN114155403A (zh) 一种基于深度学习的图像分段哈希排序方法
CN113297845B (zh) 一种基于多层次双向循环神经网络的简历块分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant