CN116644755B

CN116644755B - 基于多任务学习的少样本命名实体识别方法、装置及介质

Info

Publication number: CN116644755B
Application number: CN202310928055.8A
Authority: CN
Inventors: 徐童; 陈恩红; 陈玮; 赵莉莉; 罗鹏飞
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-07-27
Filing date: 2023-07-27
Publication date: 2023-11-17
Anticipated expiration: 2043-07-27
Also published as: CN116644755A

Abstract

本发明涉及自然语言处理领域，公开了一种基于多任务学习的少样本命名实体识别方法、装置及介质，该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块，利用源域数据对模型进行训练，再利用少量目标域数据微调模型参数，即实现少样本场景下的命名实体识别。本发明实现共同学习实体跨度检测和实体类型分类任务，从而精确识别出命名实体的边界及所属实体类型。

Description

基于多任务学习的少样本命名实体识别方法、装置及介质

技术领域

本发明属于涉及自然语言处理领域，尤其涉及一种联合学习实体跨度检测和实体类型分类的少样本命名实体识别方法、装置及介质。

背景技术

命名实体识别的目的是从一段非结构化文本中识别出命名实体，并将其归类到某个预定义的类别。作为文本中的重要语义载体，命名实体对能够有效支撑诸多自然语言处理领域的下游应用，如语义分析、问答系统、机器翻译和信息检索等。为了解决实际应用中难以获得大量标注数据的问题，少样本学习方法被应用于命名实体识别任务中，它仅需要少量的目标域数据对源域数据训练出的模型进行微调，即可快速适应新领域。

现有的少样本命名实体识别方法是将任务分解成实体跨度检测和实体类型分类两个子任务，但它们并没有解决以下两个问题：(1)现有的方法一般单独优化分解后的两个子任务，没有考虑到两个子任务之间的相关性和整体任务的完整性；(2)现有的方法仅利用实体的细粒度特征，但忽略了粗粒度类型信息，导致对实体语义信息的建模不够充分。因此，现有技术往往很难获得令人满意的实体识别效果。

针对现有技术存在的上述技术问题，本发明结合两个子任务之间的相关性及实体的层级语义特征，设计了一种基于多任务学习的少样本命名实体识别框架，该框架在客观评价指标上取得突出的效果，并超过之前的任何最佳模型。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于多任务学习的少样本命名实体识别方法、装置及介质，共同学习实体跨度检测和实体类型分类任务，从而精确识别出命名实体的边界及所属实体类型。

本发明为达到上述发明目的，采用如下技术方案：

第一方面，本发明提供了一种基于多任务学习的少样本命名实体识别方法，该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块，利用源域数据对模型进行训练，再利用少量目标域数据微调模型参数，即实现少样本场景下的命名实体识别；其中，

在实体跨度检测模块中，先利用实体跨度编码器获取句子的跨度上下文表征，将该跨度上下文表征通过对比学习帮助模型学习实体边界信息，具体是在该阶段根据实体的开始位置、中间位置、结束位置、单个实体以及非实体五种类型标签数据，将相同的标签数据作为正样本对，不同的标签数据作为负样本对，再利用对比学习优化模型，最后将该跨度上下文表征送入分类器，利用交叉熵损失函数优化参数，帮助实体跨度检测模块增强识别实体边界信息的能力；

在实体类型分类模块中，使用原型网络作为基准模型，并构建层级增强的网络结构以捕获实体类型的语义信息，具体是在该阶段先利用两个实体类型编码器分别获取粗、细粒度上下文表征，将粗粒度上下文表征与实体跨度检测模块中获得的跨度上下文表征相加后得到粗粒度类型表征，再将粗粒度类型表征通过门控机制与细粒度上下文表征融合后得到细粒度类型表征，得到两种类型表征取实体跨度部分的类型表征，根据该阶段的具体类型标签数据分别构建正、负样本对，在两种表征之间分别使用对比学习增强泛化能力，同时分别利用两种表征构造粗、细粒度的原型进行原型学习。

更进一步地，所述少样本命名实体识别方法具体包括以下步骤：

S1、数据准备

少样本场景下的数据集分为源域数据和目标域数据，两种数据是不同领域类型的数据，其中，源域数据具有大量标注样本以供模型训练，目标域数据提供少量的标注样本用于模型微调，再使用更新参数后的模型进行预测，以得到可预测目标域数据的最终模型；

S2、模型建立

对实体跨度检测模块给定输入文本，利用实体跨度编码器获取句子的跨度上下文特征，根据每个字的标签信息，取相同的标签数据构造正样本对，不同的标签数据构造负样本对，并利用对比学习使模型在语义空间上拉近正样本对、拉远负样本对进行优化，再使用交叉熵损失优化识别实体边界的分类器；对实体类型分类模块给定输入文本，得到所述粗、细粒度类型表征取实体跨度部分的类型表征，根据每个实体字的类型标签分别构建正、负样本对，使用对比学习增加相同类型实体的相似度，减少不同类型实体间的相似度，并基于两种粒度的跨度表征构建原型进行原型学习，再基于边际损失减少细粒度类型表征和不相关粗粒度原型之间的相似度，使不同类型实体在语义空间上相互远离；

S3、模型参数训练

在模型的训练中，采用交叉熵损失、对比学习损失和边际损失作为损失函数，并使用随机梯度下降算法来更新模型参数。

更进一步地，所述步骤S2中，对实体跨度检测模块给定输入文本，使用Bert编码器获取序列化的跨度上下文表征，通过对比学习在语义空间上拉近正样本对、拉远负样本对，构造实体跨度检测损失函数，具体计算过程如下：

(1)先计算实体跨度检测的对比学习损失函数，表示为：其中，h_i表示单个样本的表征，h_p表示样本x_i的正样本表征，h_a表示除样本x_i以外的其他样本表征，P(i)表示样本x_i的正样本集合，A(i)表示除了样本x_i之外的全体样本集合，τ₁表示温度超参数，使模型更加关注困难样本；

(2)对于每个样本的表征h_i，使用线性层和softmax函数计算样本x_i是否在实体内部的概率预测值，表示为：p(x_i)＝softmax(Wh_i+b)，再平均每个样本的概率预测值与标签的交叉熵，并且添加了一个最大项损失，即得交叉熵损失函数，表示为其中，α表示权重因子，用于约束最大项损失；

(3)根据上述步骤得到的交叉熵损失函数和对比学习损失函数的加权求和，即得实体跨度检测损失函数，表示为：

更进一步地，所述步骤S2中，对实体类型分类模块给定同样的输入文本，使用两个相互独立的Bert编码器分别获取粗、细粒度上下文表征，通过对比学习在语义空间中增强区分实体类型的能力，并构造粗粒度类型损失函数和细粒度类型损失函数，具体计算过程如下：

(1)先计算实体类型分类的对比学习损失函数，表示为：其中，E表示实体样本集合，P(i)表示样本x_i的正样本集合，该阶段中有粗、细粒度两种类型表征，则根据所述实体类型分类的对比学习损失函数表达式，分别计算得到粗粒度类型的对比学习损失函数/>和细粒度类型的对比学习损失函数/>

(2)构建原型网络，以帮助模型学习跨域场景下的语义表征，假设一个实体跨度x_[i，j]的起始位置为i，结束位置为j，取该实体跨度下的所有样本表征的平均值作为该实体跨度的表征s_[i，j]，表达为：定义S_k＝{x_[i，j]}表示为属于类别y_k的所有实体跨度集合，得到所有实体跨度表征后再计算得出每个原型表征，对于每个类别y_k的原型表征c_k，其表征为平均该类别所有实体跨度的表征，表达为：/>

(3)对于每个需要预测的实体跨度，通过计算其表征与类别y_k的原型表征的相似度，以得到该实体属于此类别的概率预测值p(y_k；x_[i，j])，表达为：其中sim(c_i，s_[i，j])＝β(c_i·s_[i，j])，β表示用于放大点积相似度的超参数，则原型网络部分的交叉熵损失函数表达为：/>

(4)由原型网络部分的交叉熵损失函数与实体类型分类的对比学习损失函数加权求和，得到实体类型分类损失函数，表达为：最后根据实体类型分类损失函数的表述式，分别使用粗、细粒度表征计算得出粗粒度类型损失函数和细粒度类型损失函数/>

更进一步地，所述基于边际的损失函数的表达式为：其中，Y^c是粗粒度类型集合，/>是细粒度实体表征，/>是粗粒度原型表征，m是控制边际的超参数。

更进一步地，所述在模型的训练过程中，模型的总损失函数由实体跨度检测损失函数、粗粒度类型损失函数、细粒度类型损失函数和基于边际的损失函数加权求和得到，表达为：其中，λ₃是一个标量超参数，用于控制的大小。

更进一步地，所述交叉熵损失函数、对比学习损失函数以及基于边际的损失函数用随机梯度下降算法进行优化，优化器为AdamW优化器，通过反向传播更新模型参数，每个批次的大小设置为16，初始学习率设置为2e-5，线性warmup比率设置为0.1。

更进一步地，所述源域数据为法律数据，所述目标域数据为金融数据。

第二方面，本发明提供了一种命名实体识别装置，包括存储器以及处理器，存储器存储有计算机可执行指令，处理器被配置为运行所述计算机可执行指令，所述计算机可执行指令被所述处理器运行时实现所述的基于多任务学习的少样本命名实体识别方法。

第三方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现任一项所述的基于多任务学习的少样本命名实体识别方法。

与现有技术相比，本发明的有益效果如下：

1.本发明利用多任务学习共同优化分解后的两个子任务，即实体跨度检测和实体类别分类任务，建模两个子任务之间的相关性，同时设计层级增强的原型网络以充分利用数据的粗粒度特征，进一步挖掘文本的语义信息，从而使不同类别的表征在语义空间上更容易被区分。因此，本发明少样本命名实体识别方法在少样本命名实体识别的精度上取得了较好的效果。

2.本发明在粗粒度类型表征、细粒度类型表征的基础上，根据不同实体类型分别构建两种粒度的原型，并进行原型学习使相同类型的实体在语义空间上更加聚集，通过边际损失进一步减少细粒度类型表征和不同类型的粗粒度原型之间的相似度，使不同类型实体在语义空间上相互远离。同时，本发明可以充分利用已有源域数据学习出效果良好的命名实体识别模型，在此基础之上用少量目标域数据微调模型完成少样本场景下的命名实体识别。

附图说明

图1为实施例1公开的基于多任务学习的少样本命名实体识别方法的模型框架组成示意图。

图2为实施例1中实体跨度检测阶段对比学习的原理图。

图3为实施例1中实体类型分类阶段对比学习的原理图。

图4为实施例1中基于边际的网络结构图。

具体实施方式

实施例1：

本实施例公开了一种基于多任务学习的少样本命名实体识别方法，该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块，利用源域数据对模型进行训练，再利用少量目标域数据微调模型参数，即实现少样本场景下的命名实体识别；其中，

参见图1～4，本实施例公开的少样本命名实体识别方法具体包括以下步骤：

S1、数据准备

少样本场景下的数据集分为源域数据和目标域数据，两种数据是不同领域类型的数据，所述源域数据为法律数据，所述目标域数据为金融数据。其中，源域数据具有大量标注样本以供模型训练，目标域数据提供少量的标注样本用于模型微调，再使用更新参数后的模型进行预测，以得到可预测目标域数据的最终模型；

S2、模型建立

对实体跨度检测模块给定输入文本，利用实体跨度编码器获取句子的跨度上下文特征，根据每个字的标签信息，取相同的标签数据构造正样本对，不同的标签数据构造负样本对，并利用对比学习使模型在语义空间上拉近正样本对、拉远负样本对进行优化，再使用交叉熵损失优化识别实体边界的分类器；对实体类型分类模块给定输入文本，得到粗、细粒度类型表征取实体跨度部分的类型表征，根据每个实体字的类型标签分别构建正、负样本对，使用对比学习增加相同类型实体的相似度，减少不同类型实体间的相似度，并基于两种粒度的跨度表征构建原型进行原型学习，再基于边际损失减少细粒度类型表征和不相关粗粒度原型之间的相似度，使不同类型实体在语义空间上相互远离。

具体地，对实体跨度检测模块给定输入文本，使用Bert编码器获取序列化的跨度上下文表征，通过对比学习在语义空间上拉近正样本对、拉远负样本对，构造实体跨度检测损失函数，具体计算过程如下：

(3)根据上述步骤得到的交叉熵损失函数和对比学习损失函数的加权求和，即得实体跨度检测损失函数，表示为：对实体类型分类模块给定同样的输入文本，使用两个相互独立的Bert编码器分别获取粗、细粒度上下文表征，通过对比学习在语义空间中增强区分实体类型的能力，并构造粗粒度类型损失函数和细粒度类型损失函数，具体计算过程如下：

(a)先计算实体类型分类的对比学习损失函数，表示为：其中，E表示实体样本集合，P(i)表示样本x_i的正样本集合，该阶段中有粗、细粒度两种类型表征，则根据实体类型分类的对比学习损失函数表达式，分别计算得到粗粒度类型的对比学习损失函数/>和细粒度类型的对比学习损失函数

(b)构建原型网络，以帮助模型学习跨域场景下的语义表征，假设一个实体跨度x_[i，j]的起始位置为i，结束位置为j，取该实体跨度下的所有样本表征的平均值作为该实体跨度的表征s_[i，j]，表达为：定义S_k＝{x_[i，j]}表示为属于类别y_k的所有实体跨度集合，得到所有实体跨度表征后再计算得出每个原型表征，对于每个类别y_k的原型表征c_k，其表征为平均该类别所有实体跨度的表征，表达为：/>

(c)对于每个需要预测的实体跨度，通过计算其表征与类别y_k的原型表征的相似度，以得到该实体属于此类别的概率预测值p(y_k；x_[i，j])，表达为：其中sim(c_i，s_[i，j])＝β(c_i·s_[i，j])，β表示用于放大点积相似度的超参数，则原型网络部分的交叉熵损失函数表达为：/>

(d)由原型网络部分的交叉熵损失函数与实体类型分类的对比学习损失函数加权求和，得到实体类型分类损失函数，表达为：最后根据实体类型分类损失函数的表述式，分别使用粗、细粒度表征计算得出粗粒度类型损失函数和细粒度类型损失函数/>基于边际的损失函数的表达式为：/> 其中，Y^c是粗粒度类型集合，/>是细粒度实体表征，/>是粗粒度原型表征，m是控制边际的超参数。

S3、模型参数训练

在模型的训练中，采用交叉熵损失、对比学习损失和边际损失作为损失函数，并使用随机梯度下降算法来更新模型参数。模型的总损失函数由实体跨度检测损失函数、粗粒度类型损失函数、细粒度类型损失函数和基于边际的损失函数加权求和得到，表达为：其中，λ₃是一个标量超参数，用于控制/>的大小。交叉熵损失函数、对比学习损失函数以及基于边际的损失函数用随机梯度下降算法进行优化，优化器为AdamW优化器，通过反向传播更新模型参数，每个批次的大小设置为16，初始学习率设置为2e-5，线性warmup比率设置为0.1。

实施例2：

本实施例公开了一种命名实体识别装置，包括存储器以及处理器，存储器存储有计算机可执行指令，处理器被配置为运行计算机可执行指令，计算机可执行指令被处理器运行时实现本实施例1公开的基于多任务学习的少样本命名实体识别方法。

实施例3：

本实施例公开了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时实现本实施例1公开的任一项基于多任务学习的少样本命名实体识别方法。

Claims

1.一种基于多任务学习的少样本命名实体识别方法，其特征是，该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块，利用源域数据对模型进行训练，再利用少量目标域数据微调模型参数，即实现少样本场景下的命名实体识别；其中，

在实体跨度检测模块中，先利用实体跨度编码器获取句子的跨度上下文表征，将该跨度上下文表征通过对比学习帮助模型学习实体边界信息，具体是在实体跨度检测阶段根据实体的开始位置、中间位置、结束位置、单个实体以及非实体五种类型标签数据，将相同的标签数据作为正样本对，不同的标签数据作为负样本对，再利用对比学习优化模型，最后将该跨度上下文表征送入分类器，利用交叉熵损失函数优化参数，帮助实体跨度检测模块增强识别实体边界信息的能力；

在实体类型分类模块中，使用原型网络作为基准模型，并构建层级增强的网络结构以捕获实体类型的语义信息，具体是在实体类型分类阶段先利用两个实体类型编码器分别获取粗、细粒度上下文表征，将粗粒度上下文表征与实体跨度检测模块中获得的跨度上下文表征相加后得到粗粒度类型表征，再将粗粒度类型表征通过门控机制与细粒度上下文表征融合后得到细粒度类型表征，得到两种类型表征取实体跨度部分的类型表征，根据实体类型分类阶段的具体类型标签数据分别构建正、负样本对，在两种表征之间分别使用对比学习增强泛化能力，同时分别利用两种表征构造粗、细粒度的原型进行原型学习；

所述少样本命名实体识别方法具体包括以下步骤：

S1、数据准备

S2、模型建立

S3、模型参数训练

2.根据权利要求1所述的基于多任务学习的少样本命名实体识别方法，其特征是，所述步骤S2中，对实体跨度检测模块给定输入文本，使用Bert编码器获取序列化的跨度上下文表征，通过对比学习在语义空间上拉近正样本对、拉远负样本对，构造实体跨度检测损失函数，具体计算过程如下：

(2)对于每个样本的表征h_i，使用线性层和softmax函数计算样本x_i是否在实体内部的概率预测值，表示为：p(x_i)＝softmax(Wh_i+b)，再平均每个样本的概率预测值与标签的交叉熵，并且添加了一个最大项损失，即得交叉熵损失函数，表示为

其中，α表示权重因子，用于约束最大项损失；

3.根据权利要求2所述的基于多任务学习的少样本命名实体识别方法，其特征是，所述步骤S2中，对实体类型分类模块给定同样的输入文本，使用两个相互独立的Bert编码器分别获取粗、细粒度上下文表征，通过对比学习在语义空间中增强区分实体类型的能力，并构造粗粒度类型损失函数和细粒度类型损失函数，具体计算过程如下：

(2)构建原型网络，以帮助模型学习跨域场景下的语义表征，假设一个实体跨度x_[i,j]的起始位置为i，结束位置为j，取该实体跨度下的所有样本表征的平均值作为该实体跨度的表征S_[i,j]，表达为：定义S_k＝{x_[i,j]}表示为属于类别y_k的所有实体跨度集合，得到所有实体跨度表征后再计算得出每个原型表征，对于每个类别y_k的原型表征c_k，其表征为平均该类别所有实体跨度的表征，表达为：/>

(3)对于每个需要预测的实体跨度，通过计算其表征与类别y_k的原型表征的相似度，以得到该实体属于此类别的概率预测值p(y_k；x_[i,j])，表达为：其中sim(c_i，s_[i,j])＝β(c_i·s_[i,j])，β表示用于放大点积相似度的超参数，则原型网络部分的交叉熵损失函数表达为：/>

(4)由原型网络部分的交叉熵损失函数与实体类型分类的对比学习损失函数加权求和，得到实体类型分类损失函数，表达为：最后根据实体类型分类损失函数的表述式，分别使用粗、细粒度表征计算得出粗粒度类型损失函数/>和细粒度类型损失函数/>

4.根据权利要求3所述的基于多任务学习的少样本命名实体识别方法，其特征是，所述基于边际的损失函数的表达式为：其中，Y^c是粗粒度类型集合，/>是细粒度实体表征，/>是粗粒度原型表征，m是控制边际的超参数。

5.根据权利要求4所述的基于多任务学习的少样本命名实体识别方法，其特征是，所述在模型的训练过程中，模型的总损失函数由实体跨度检测损失函数、粗粒度类型损失函数、细粒度类型损失函数和基于边际的损失函数加权求和得到，表达为：其中，λ₃是一个标量超参数，用于控制/>的大小。

6.根据权利要求1所述的基于多任务学习的少样本命名实体识别方法，其特征是，所述交叉熵损失函数、对比学习损失函数以及基于边际的损失函数用随机梯度下降算法进行优化，优化器为AdamW优化器，通过反向传播更新模型参数，每个批次的大小设置为16，初始学习率设置为2e-5，线性warmup比率设置为0.1。

7.根据权利要求1所述的基于多任务学习的少样本命名实体识别方法，其特征是，所述源域数据为法律数据，所述目标域数据为金融数据。

8.一种命名实体识别装置，包括存储器以及处理器，存储器存储有计算机可执行指令，处理器被配置为运行所述计算机可执行指令，其特征在于，所述计算机可执行指令被所述处理器运行时实现权利要求1～7任一项所述的基于多任务学习的少样本命名实体识别方法。

9.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时实现权利要求1～7任一项所述的基于多任务学习的少样本命名实体识别方法。