CN116644755B - 基于多任务学习的少样本命名实体识别方法、装置及介质 - Google Patents
基于多任务学习的少样本命名实体识别方法、装置及介质 Download PDFInfo
- Publication number
- CN116644755B CN116644755B CN202310928055.8A CN202310928055A CN116644755B CN 116644755 B CN116644755 B CN 116644755B CN 202310928055 A CN202310928055 A CN 202310928055A CN 116644755 B CN116644755 B CN 116644755B
- Authority
- CN
- China
- Prior art keywords
- entity
- loss function
- characterization
- span
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 230000006870 function Effects 0.000 claims description 95
- 238000012512 characterization method Methods 0.000 claims description 90
- 235000019580 granularity Nutrition 0.000 claims description 74
- 238000012549 training Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 3
- 230000000052 comparative effect Effects 0.000 claims 2
- 238000010276 construction Methods 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理领域,公开了一种基于多任务学习的少样本命名实体识别方法、装置及介质,该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块,利用源域数据对模型进行训练,再利用少量目标域数据微调模型参数,即实现少样本场景下的命名实体识别。本发明实现共同学习实体跨度检测和实体类型分类任务,从而精确识别出命名实体的边界及所属实体类型。
Description
技术领域
本发明属于涉及自然语言处理领域,尤其涉及一种联合学习实体跨度检测和实体类型分类的少样本命名实体识别方法、装置及介质。
背景技术
命名实体识别的目的是从一段非结构化文本中识别出命名实体,并将其归类到某个预定义的类别。作为文本中的重要语义载体,命名实体对能够有效支撑诸多自然语言处理领域的下游应用,如语义分析、问答系统、机器翻译和信息检索等。为了解决实际应用中难以获得大量标注数据的问题,少样本学习方法被应用于命名实体识别任务中,它仅需要少量的目标域数据对源域数据训练出的模型进行微调,即可快速适应新领域。
现有的少样本命名实体识别方法是将任务分解成实体跨度检测和实体类型分类两个子任务,但它们并没有解决以下两个问题:(1)现有的方法一般单独优化分解后的两个子任务,没有考虑到两个子任务之间的相关性和整体任务的完整性;(2)现有的方法仅利用实体的细粒度特征,但忽略了粗粒度类型信息,导致对实体语义信息的建模不够充分。因此,现有技术往往很难获得令人满意的实体识别效果。
针对现有技术存在的上述技术问题,本发明结合两个子任务之间的相关性及实体的层级语义特征,设计了一种基于多任务学习的少样本命名实体识别框架,该框架在客观评价指标上取得突出的效果,并超过之前的任何最佳模型。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于多任务学习的少样本命名实体识别方法、装置及介质,共同学习实体跨度检测和实体类型分类任务,从而精确识别出命名实体的边界及所属实体类型。
本发明为达到上述发明目的,采用如下技术方案:
第一方面,本发明提供了一种基于多任务学习的少样本命名实体识别方法,该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块,利用源域数据对模型进行训练,再利用少量目标域数据微调模型参数,即实现少样本场景下的命名实体识别;其中,
在实体跨度检测模块中,先利用实体跨度编码器获取句子的跨度上下文表征,将该跨度上下文表征通过对比学习帮助模型学习实体边界信息,具体是在该阶段根据实体的开始位置、中间位置、结束位置、单个实体以及非实体五种类型标签数据,将相同的标签数据作为正样本对,不同的标签数据作为负样本对,再利用对比学习优化模型,最后将该跨度上下文表征送入分类器,利用交叉熵损失函数优化参数,帮助实体跨度检测模块增强识别实体边界信息的能力;
在实体类型分类模块中,使用原型网络作为基准模型,并构建层级增强的网络结构以捕获实体类型的语义信息,具体是在该阶段先利用两个实体类型编码器分别获取粗、细粒度上下文表征,将粗粒度上下文表征与实体跨度检测模块中获得的跨度上下文表征相加后得到粗粒度类型表征,再将粗粒度类型表征通过门控机制与细粒度上下文表征融合后得到细粒度类型表征,得到两种类型表征取实体跨度部分的类型表征,根据该阶段的具体类型标签数据分别构建正、负样本对,在两种表征之间分别使用对比学习增强泛化能力,同时分别利用两种表征构造粗、细粒度的原型进行原型学习。
更进一步地,所述少样本命名实体识别方法具体包括以下步骤:
S1、数据准备
少样本场景下的数据集分为源域数据和目标域数据,两种数据是不同领域类型的数据,其中,源域数据具有大量标注样本以供模型训练,目标域数据提供少量的标注样本用于模型微调,再使用更新参数后的模型进行预测,以得到可预测目标域数据的最终模型;
S2、模型建立
对实体跨度检测模块给定输入文本,利用实体跨度编码器获取句子的跨度上下文特征,根据每个字的标签信息,取相同的标签数据构造正样本对,不同的标签数据构造负样本对,并利用对比学习使模型在语义空间上拉近正样本对、拉远负样本对进行优化,再使用交叉熵损失优化识别实体边界的分类器;对实体类型分类模块给定输入文本,得到所述粗、细粒度类型表征取实体跨度部分的类型表征,根据每个实体字的类型标签分别构建正、负样本对,使用对比学习增加相同类型实体的相似度,减少不同类型实体间的相似度,并基于两种粒度的跨度表征构建原型进行原型学习,再基于边际损失减少细粒度类型表征和不相关粗粒度原型之间的相似度,使不同类型实体在语义空间上相互远离;
S3、模型参数训练
在模型的训练中,采用交叉熵损失、对比学习损失和边际损失作为损失函数,并使用随机梯度下降算法来更新模型参数。
更进一步地,所述步骤S2中,对实体跨度检测模块给定输入文本,使用Bert编码器获取序列化的跨度上下文表征,通过对比学习在语义空间上拉近正样本对、拉远负样本对,构造实体跨度检测损失函数,具体计算过程如下:
(1)先计算实体跨度检测的对比学习损失函数,表示为: 其中,hi表示单个样本的表征,hp表示样本xi的正样本表征,ha表示除样本xi以外的其他样本表征,P(i)表示样本xi的正样本集合,A(i)表示除了样本xi之外的全体样本集合,τ1表示温度超参数,使模型更加关注困难样本;
(2)对于每个样本的表征hi,使用线性层和softmax函数计算样本xi是否在实体内部的概率预测值,表示为:p(xi)=softmax(Whi+b),再平均每个样本的概率预测值与标签的交叉熵,并且添加了一个最大项损失,即得交叉熵损失函数,表示为 其中,α表示权重因子,用于约束最大项损失;
(3)根据上述步骤得到的交叉熵损失函数和对比学习损失函数的加权求和,即得实体跨度检测损失函数,表示为:
更进一步地,所述步骤S2中,对实体类型分类模块给定同样的输入文本,使用两个相互独立的Bert编码器分别获取粗、细粒度上下文表征,通过对比学习在语义空间中增强区分实体类型的能力,并构造粗粒度类型损失函数和细粒度类型损失函数,具体计算过程如下:
(1)先计算实体类型分类的对比学习损失函数,表示为: 其中,E表示实体样本集合,P(i)表示样本xi的正样本集合,该阶段中有粗、细粒度两种类型表征,则根据所述实体类型分类的对比学习损失函数表达式,分别计算得到粗粒度类型的对比学习损失函数/>和细粒度类型的对比学习损失函数/>
(2)构建原型网络,以帮助模型学习跨域场景下的语义表征,假设一个实体跨度x[i,j]的起始位置为i,结束位置为j,取该实体跨度下的所有样本表征的平均值作为该实体跨度的表征s[i,j],表达为:定义Sk={x[i,j]}表示为属于类别yk的所有实体跨度集合,得到所有实体跨度表征后再计算得出每个原型表征,对于每个类别yk的原型表征ck,其表征为平均该类别所有实体跨度的表征,表达为:/>
(3)对于每个需要预测的实体跨度,通过计算其表征与类别yk的原型表征的相似度,以得到该实体属于此类别的概率预测值p(yk;x[i,j]),表达为: 其中sim(ci,s[i,j])=β(ci·s[i,j]),β表示用于放大点积相似度的超参数,则原型网络部分的交叉熵损失函数表达为:/>
(4)由原型网络部分的交叉熵损失函数与实体类型分类的对比学习损失函数加权求和,得到实体类型分类损失函数,表达为:最后根据实体类型分类损失函数的表述式,分别使用粗、细粒度表征计算得出粗粒度类型损失函数和细粒度类型损失函数/>
更进一步地,所述基于边际的损失函数的表达式为: 其中,Yc是粗粒度类型集合,/>是细粒度实体表征,/>是粗粒度原型表征,m是控制边际的超参数。
更进一步地,所述在模型的训练过程中,模型的总损失函数由实体跨度检测损失函数、粗粒度类型损失函数、细粒度类型损失函数和基于边际的损失函数加权求和得到,表达为:其中,λ3是一个标量超参数,用于控制的大小。
更进一步地,所述交叉熵损失函数、对比学习损失函数以及基于边际的损失函数用随机梯度下降算法进行优化,优化器为AdamW优化器,通过反向传播更新模型参数,每个批次的大小设置为16,初始学习率设置为2e-5,线性warmup比率设置为0.1。
更进一步地,所述源域数据为法律数据,所述目标域数据为金融数据。
第二方面,本发明提供了一种命名实体识别装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行所述计算机可执行指令,所述计算机可执行指令被所述处理器运行时实现所述的基于多任务学习的少样本命名实体识别方法。
第三方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现任一项所述的基于多任务学习的少样本命名实体识别方法。
与现有技术相比,本发明的有益效果如下:
1.本发明利用多任务学习共同优化分解后的两个子任务,即实体跨度检测和实体类别分类任务,建模两个子任务之间的相关性,同时设计层级增强的原型网络以充分利用数据的粗粒度特征,进一步挖掘文本的语义信息,从而使不同类别的表征在语义空间上更容易被区分。因此,本发明少样本命名实体识别方法在少样本命名实体识别的精度上取得了较好的效果。
2.本发明在粗粒度类型表征、细粒度类型表征的基础上,根据不同实体类型分别构建两种粒度的原型,并进行原型学习使相同类型的实体在语义空间上更加聚集,通过边际损失进一步减少细粒度类型表征和不同类型的粗粒度原型之间的相似度,使不同类型实体在语义空间上相互远离。同时,本发明可以充分利用已有源域数据学习出效果良好的命名实体识别模型,在此基础之上用少量目标域数据微调模型完成少样本场景下的命名实体识别。
附图说明
图1为实施例1公开的基于多任务学习的少样本命名实体识别方法的模型框架组成示意图。
图2为实施例1中实体跨度检测阶段对比学习的原理图。
图3为实施例1中实体类型分类阶段对比学习的原理图。
图4为实施例1中基于边际的网络结构图。
具体实施方式
实施例1:
本实施例公开了一种基于多任务学习的少样本命名实体识别方法,该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块,利用源域数据对模型进行训练,再利用少量目标域数据微调模型参数,即实现少样本场景下的命名实体识别;其中,
在实体跨度检测模块中,先利用实体跨度编码器获取句子的跨度上下文表征,将该跨度上下文表征通过对比学习帮助模型学习实体边界信息,具体是在该阶段根据实体的开始位置、中间位置、结束位置、单个实体以及非实体五种类型标签数据,将相同的标签数据作为正样本对,不同的标签数据作为负样本对,再利用对比学习优化模型,最后将该跨度上下文表征送入分类器,利用交叉熵损失函数优化参数,帮助实体跨度检测模块增强识别实体边界信息的能力;
在实体类型分类模块中,使用原型网络作为基准模型,并构建层级增强的网络结构以捕获实体类型的语义信息,具体是在该阶段先利用两个实体类型编码器分别获取粗、细粒度上下文表征,将粗粒度上下文表征与实体跨度检测模块中获得的跨度上下文表征相加后得到粗粒度类型表征,再将粗粒度类型表征通过门控机制与细粒度上下文表征融合后得到细粒度类型表征,得到两种类型表征取实体跨度部分的类型表征,根据该阶段的具体类型标签数据分别构建正、负样本对,在两种表征之间分别使用对比学习增强泛化能力,同时分别利用两种表征构造粗、细粒度的原型进行原型学习。
参见图1~4,本实施例公开的少样本命名实体识别方法具体包括以下步骤:
S1、数据准备
少样本场景下的数据集分为源域数据和目标域数据,两种数据是不同领域类型的数据,所述源域数据为法律数据,所述目标域数据为金融数据。其中,源域数据具有大量标注样本以供模型训练,目标域数据提供少量的标注样本用于模型微调,再使用更新参数后的模型进行预测,以得到可预测目标域数据的最终模型;
S2、模型建立
对实体跨度检测模块给定输入文本,利用实体跨度编码器获取句子的跨度上下文特征,根据每个字的标签信息,取相同的标签数据构造正样本对,不同的标签数据构造负样本对,并利用对比学习使模型在语义空间上拉近正样本对、拉远负样本对进行优化,再使用交叉熵损失优化识别实体边界的分类器;对实体类型分类模块给定输入文本,得到粗、细粒度类型表征取实体跨度部分的类型表征,根据每个实体字的类型标签分别构建正、负样本对,使用对比学习增加相同类型实体的相似度,减少不同类型实体间的相似度,并基于两种粒度的跨度表征构建原型进行原型学习,再基于边际损失减少细粒度类型表征和不相关粗粒度原型之间的相似度,使不同类型实体在语义空间上相互远离。
具体地,对实体跨度检测模块给定输入文本,使用Bert编码器获取序列化的跨度上下文表征,通过对比学习在语义空间上拉近正样本对、拉远负样本对,构造实体跨度检测损失函数,具体计算过程如下:
(1)先计算实体跨度检测的对比学习损失函数,表示为: 其中,hi表示单个样本的表征,hp表示样本xi的正样本表征,ha表示除样本xi以外的其他样本表征,P(i)表示样本xi的正样本集合,A(i)表示除了样本xi之外的全体样本集合,τ1表示温度超参数,使模型更加关注困难样本;
(2)对于每个样本的表征hi,使用线性层和softmax函数计算样本xi是否在实体内部的概率预测值,表示为:p(xi)=softmax(Whi+b),再平均每个样本的概率预测值与标签的交叉熵,并且添加了一个最大项损失,即得交叉熵损失函数,表示为 其中,α表示权重因子,用于约束最大项损失;
(3)根据上述步骤得到的交叉熵损失函数和对比学习损失函数的加权求和,即得实体跨度检测损失函数,表示为:对实体类型分类模块给定同样的输入文本,使用两个相互独立的Bert编码器分别获取粗、细粒度上下文表征,通过对比学习在语义空间中增强区分实体类型的能力,并构造粗粒度类型损失函数和细粒度类型损失函数,具体计算过程如下:
(a)先计算实体类型分类的对比学习损失函数,表示为: 其中,E表示实体样本集合,P(i)表示样本xi的正样本集合,该阶段中有粗、细粒度两种类型表征,则根据实体类型分类的对比学习损失函数表达式,分别计算得到粗粒度类型的对比学习损失函数/>和细粒度类型的对比学习损失函数
(b)构建原型网络,以帮助模型学习跨域场景下的语义表征,假设一个实体跨度x[i,j]的起始位置为i,结束位置为j,取该实体跨度下的所有样本表征的平均值作为该实体跨度的表征s[i,j],表达为:定义Sk={x[i,j]}表示为属于类别yk的所有实体跨度集合,得到所有实体跨度表征后再计算得出每个原型表征,对于每个类别yk的原型表征ck,其表征为平均该类别所有实体跨度的表征,表达为:/>
(c)对于每个需要预测的实体跨度,通过计算其表征与类别yk的原型表征的相似度,以得到该实体属于此类别的概率预测值p(yk;x[i,j]),表达为: 其中sim(ci,s[i,j])=β(ci·s[i,j]),β表示用于放大点积相似度的超参数,则原型网络部分的交叉熵损失函数表达为:/>
(d)由原型网络部分的交叉熵损失函数与实体类型分类的对比学习损失函数加权求和,得到实体类型分类损失函数,表达为:最后根据实体类型分类损失函数的表述式,分别使用粗、细粒度表征计算得出粗粒度类型损失函数和细粒度类型损失函数/>基于边际的损失函数的表达式为:/> 其中,Yc是粗粒度类型集合,/>是细粒度实体表征,/>是粗粒度原型表征,m是控制边际的超参数。
S3、模型参数训练
在模型的训练中,采用交叉熵损失、对比学习损失和边际损失作为损失函数,并使用随机梯度下降算法来更新模型参数。模型的总损失函数由实体跨度检测损失函数、粗粒度类型损失函数、细粒度类型损失函数和基于边际的损失函数加权求和得到,表达为: 其中,λ3是一个标量超参数,用于控制/>的大小。交叉熵损失函数、对比学习损失函数以及基于边际的损失函数用随机梯度下降算法进行优化,优化器为AdamW优化器,通过反向传播更新模型参数,每个批次的大小设置为16,初始学习率设置为2e-5,线性warmup比率设置为0.1。
实施例2:
本实施例公开了一种命名实体识别装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行计算机可执行指令,计算机可执行指令被处理器运行时实现本实施例1公开的基于多任务学习的少样本命名实体识别方法。
实施例3:
本实施例公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时实现本实施例1公开的任一项基于多任务学习的少样本命名实体识别方法。
Claims (9)
1.一种基于多任务学习的少样本命名实体识别方法,其特征是,该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块,利用源域数据对模型进行训练,再利用少量目标域数据微调模型参数,即实现少样本场景下的命名实体识别;其中,
在实体跨度检测模块中,先利用实体跨度编码器获取句子的跨度上下文表征,将该跨度上下文表征通过对比学习帮助模型学习实体边界信息,具体是在实体跨度检测阶段根据实体的开始位置、中间位置、结束位置、单个实体以及非实体五种类型标签数据,将相同的标签数据作为正样本对,不同的标签数据作为负样本对,再利用对比学习优化模型,最后将该跨度上下文表征送入分类器,利用交叉熵损失函数优化参数,帮助实体跨度检测模块增强识别实体边界信息的能力;
在实体类型分类模块中,使用原型网络作为基准模型,并构建层级增强的网络结构以捕获实体类型的语义信息,具体是在实体类型分类阶段先利用两个实体类型编码器分别获取粗、细粒度上下文表征,将粗粒度上下文表征与实体跨度检测模块中获得的跨度上下文表征相加后得到粗粒度类型表征,再将粗粒度类型表征通过门控机制与细粒度上下文表征融合后得到细粒度类型表征,得到两种类型表征取实体跨度部分的类型表征,根据实体类型分类阶段的具体类型标签数据分别构建正、负样本对,在两种表征之间分别使用对比学习增强泛化能力,同时分别利用两种表征构造粗、细粒度的原型进行原型学习;
所述少样本命名实体识别方法具体包括以下步骤:
S1、数据准备
少样本场景下的数据集分为源域数据和目标域数据,两种数据是不同领域类型的数据,其中,源域数据具有大量标注样本以供模型训练,目标域数据提供少量的标注样本用于模型微调,再使用更新参数后的模型进行预测,以得到可预测目标域数据的最终模型;
S2、模型建立
对实体跨度检测模块给定输入文本,利用实体跨度编码器获取句子的跨度上下文特征,根据每个字的标签信息,取相同的标签数据构造正样本对,不同的标签数据构造负样本对,并利用对比学习使模型在语义空间上拉近正样本对、拉远负样本对进行优化,再使用交叉熵损失优化识别实体边界的分类器;对实体类型分类模块给定输入文本,得到所述粗、细粒度类型表征取实体跨度部分的类型表征,根据每个实体字的类型标签分别构建正、负样本对,使用对比学习增加相同类型实体的相似度,减少不同类型实体间的相似度,并基于两种粒度的跨度表征构建原型进行原型学习,再基于边际损失减少细粒度类型表征和不相关粗粒度原型之间的相似度,使不同类型实体在语义空间上相互远离;
S3、模型参数训练
在模型的训练中,采用交叉熵损失、对比学习损失和边际损失作为损失函数,并使用随机梯度下降算法来更新模型参数。
2.根据权利要求1所述的基于多任务学习的少样本命名实体识别方法,其特征是,所述步骤S2中,对实体跨度检测模块给定输入文本,使用Bert编码器获取序列化的跨度上下文表征,通过对比学习在语义空间上拉近正样本对、拉远负样本对,构造实体跨度检测损失函数,具体计算过程如下:
(1)先计算实体跨度检测的对比学习损失函数,表示为: 其中,hi表示单个样本的表征,hp表示样本xi的正样本表征,ha表示除样本xi以外的其他样本表征,P(i)表示样本xi的正样本集合,A(i)表示除了样本xi之外的全体样本集合,τ1表示温度超参数,使模型更加关注困难样本;
(2)对于每个样本的表征hi,使用线性层和softmax函数计算样本xi是否在实体内部的概率预测值,表示为:p(xi)=softmax(Whi+b),再平均每个样本的概率预测值与标签的交叉熵,并且添加了一个最大项损失,即得交叉熵损失函数,表示为
其中,α表示权重因子,用于约束最大项损失;
(3)根据上述步骤得到的交叉熵损失函数和对比学习损失函数的加权求和,即得实体跨度检测损失函数,表示为:
3.根据权利要求2所述的基于多任务学习的少样本命名实体识别方法,其特征是,所述步骤S2中,对实体类型分类模块给定同样的输入文本,使用两个相互独立的Bert编码器分别获取粗、细粒度上下文表征,通过对比学习在语义空间中增强区分实体类型的能力,并构造粗粒度类型损失函数和细粒度类型损失函数,具体计算过程如下:
(1)先计算实体类型分类的对比学习损失函数,表示为: 其中,E表示实体样本集合,P(i)表示样本xi的正样本集合,该阶段中有粗、细粒度两种类型表征,则根据所述实体类型分类的对比学习损失函数表达式,分别计算得到粗粒度类型的对比学习损失函数/>和细粒度类型的对比学习损失函数/>
(2)构建原型网络,以帮助模型学习跨域场景下的语义表征,假设一个实体跨度x[i,j]的起始位置为i,结束位置为j,取该实体跨度下的所有样本表征的平均值作为该实体跨度的表征S[i,j],表达为:定义Sk={x[i,j]}表示为属于类别yk的所有实体跨度集合,得到所有实体跨度表征后再计算得出每个原型表征,对于每个类别yk的原型表征ck,其表征为平均该类别所有实体跨度的表征,表达为:/>
(3)对于每个需要预测的实体跨度,通过计算其表征与类别yk的原型表征的相似度,以得到该实体属于此类别的概率预测值p(yk;x[i,j]),表达为: 其中sim(ci,s[i,j])=β(ci·s[i,j]),β表示用于放大点积相似度的超参数,则原型网络部分的交叉熵损失函数表达为:/>
(4)由原型网络部分的交叉熵损失函数与实体类型分类的对比学习损失函数加权求和,得到实体类型分类损失函数,表达为:最后根据实体类型分类损失函数的表述式,分别使用粗、细粒度表征计算得出粗粒度类型损失函数/>和细粒度类型损失函数/>
4.根据权利要求3所述的基于多任务学习的少样本命名实体识别方法,其特征是,所述基于边际的损失函数的表达式为: 其中,Yc是粗粒度类型集合,/>是细粒度实体表征,/>是粗粒度原型表征,m是控制边际的超参数。
5.根据权利要求4所述的基于多任务学习的少样本命名实体识别方法,其特征是,所述在模型的训练过程中,模型的总损失函数由实体跨度检测损失函数、粗粒度类型损失函数、细粒度类型损失函数和基于边际的损失函数加权求和得到,表达为: 其中,λ3是一个标量超参数,用于控制/>的大小。
6.根据权利要求1所述的基于多任务学习的少样本命名实体识别方法,其特征是,所述交叉熵损失函数、对比学习损失函数以及基于边际的损失函数用随机梯度下降算法进行优化,优化器为AdamW优化器,通过反向传播更新模型参数,每个批次的大小设置为16,初始学习率设置为2e-5,线性warmup比率设置为0.1。
7.根据权利要求1所述的基于多任务学习的少样本命名实体识别方法,其特征是,所述源域数据为法律数据,所述目标域数据为金融数据。
8.一种命名实体识别装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行所述计算机可执行指令,其特征在于,所述计算机可执行指令被所述处理器运行时实现权利要求1~7任一项所述的基于多任务学习的少样本命名实体识别方法。
9.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时实现权利要求1~7任一项所述的基于多任务学习的少样本命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310928055.8A CN116644755B (zh) | 2023-07-27 | 2023-07-27 | 基于多任务学习的少样本命名实体识别方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310928055.8A CN116644755B (zh) | 2023-07-27 | 2023-07-27 | 基于多任务学习的少样本命名实体识别方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116644755A CN116644755A (zh) | 2023-08-25 |
CN116644755B true CN116644755B (zh) | 2023-11-17 |
Family
ID=87625190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310928055.8A Active CN116644755B (zh) | 2023-07-27 | 2023-07-27 | 基于多任务学习的少样本命名实体识别方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116644755B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095317B (zh) * | 2023-10-19 | 2024-06-25 | 深圳市森歌数据技术有限公司 | 一种无人机三维影像实体识别与时间定位方法 |
CN117114004B (zh) * | 2023-10-25 | 2024-01-16 | 江西师范大学 | 一种基于门控纠偏的少样本两阶段命名实体识别方法 |
CN117236335B (zh) * | 2023-11-13 | 2024-01-30 | 江西师范大学 | 基于提示学习的两阶段命名实体识别方法 |
CN118070800B (zh) * | 2023-12-20 | 2024-08-09 | 湖南工商大学 | 一种基于实体类型语义感知的法律文本命名实体识别方法 |
CN117435748B (zh) * | 2023-12-20 | 2024-03-12 | 深圳前海环融联易信息科技服务有限公司 | 基于对比学习的命名实体处理方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339764A (zh) * | 2019-09-18 | 2020-06-26 | 华为技术有限公司 | 一种中文命名实体识别方法以及装置 |
CN114881032A (zh) * | 2022-04-28 | 2022-08-09 | 北京计算机技术及应用研究所 | 基于多任务学习的层次类别命名实体识别模型设计方法 |
CN116127978A (zh) * | 2023-02-15 | 2023-05-16 | 中国科学技术大学 | 基于医学文本的嵌套命名实体抽取方法 |
CN116432655A (zh) * | 2023-06-12 | 2023-07-14 | 山东大学 | 基于语用知识学习的少样本命名实体识别方法和装置 |
CN116451691A (zh) * | 2023-03-24 | 2023-07-18 | 燕山大学 | 实体层次信息增强原型表征的小样本命名实体识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10410139B2 (en) * | 2016-01-05 | 2019-09-10 | Oracle International Corporation | Named entity recognition and entity linking joint training |
-
2023
- 2023-07-27 CN CN202310928055.8A patent/CN116644755B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339764A (zh) * | 2019-09-18 | 2020-06-26 | 华为技术有限公司 | 一种中文命名实体识别方法以及装置 |
CN114881032A (zh) * | 2022-04-28 | 2022-08-09 | 北京计算机技术及应用研究所 | 基于多任务学习的层次类别命名实体识别模型设计方法 |
CN116127978A (zh) * | 2023-02-15 | 2023-05-16 | 中国科学技术大学 | 基于医学文本的嵌套命名实体抽取方法 |
CN116451691A (zh) * | 2023-03-24 | 2023-07-18 | 燕山大学 | 实体层次信息增强原型表征的小样本命名实体识别方法 |
CN116432655A (zh) * | 2023-06-12 | 2023-07-14 | 山东大学 | 基于语用知识学习的少样本命名实体识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
CLUENER2020 Fine-grained Named Entity Recognition Dataset and Benchmark for Chinese;Liang Xu 等;《Computiion and Language》;第1-7页 * |
结合上下文词汇匹配和图卷积的材料数据命名实体识别;陈茜 等;《上海大学学报(自然科学版)》;第第28卷卷(第第3期期);第372-385页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116644755A (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116644755B (zh) | 基于多任务学习的少样本命名实体识别方法、装置及介质 | |
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
US8473430B2 (en) | Deep-structured conditional random fields for sequential labeling and classification | |
CN111914085A (zh) | 文本细粒度情感分类方法、系统、装置及存储介质 | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN111753995A (zh) | 一种基于梯度提升树的局部可解释方法 | |
CN106021402A (zh) | 用于跨模态检索的多模态多类Boosting框架构建方法及装置 | |
CN114781375A (zh) | 一种基于bert与注意力机制的军事装备关系抽取方法 | |
CN115329120A (zh) | 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 | |
Qin et al. | Deep top similarity hashing with class-wise loss for multi-label image retrieval | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN113837307A (zh) | 数据相似度计算方法、装置、可读介质及电子设备 | |
CN113869005A (zh) | 一种基于语句相似度的预训练模型方法和系统 | |
Chefrour et al. | A Novel Incremental Learning Algorithm Based on Incremental Vector Support Machina and Incremental Neural Network Learn++. | |
CN116341564A (zh) | 基于语义理解的问题推理方法和装置 | |
CN114818979A (zh) | 一种基于最大化间隔机制的含噪多标记分类方法 | |
US20060155540A1 (en) | Method for data training | |
CN115795037B (zh) | 一种基于标签感知的多标签文本分类方法 | |
CN115019084B (zh) | 一种基于张量多属性特征迁移的分类方法 | |
CN117436449B (zh) | 一种基于多源域适应和强化学习的众包命名实体识别模型及系统 | |
CN117274732B (zh) | 一种基于情景记忆驱动构建优化扩散模型的方法和系统 | |
CN114255371B (zh) | 一种基于组件监督网络的小样本图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |