CN117236335B

CN117236335B - 基于提示学习的两阶段命名实体识别方法

Info

Publication number: CN117236335B
Application number: CN202311499946.2A
Authority: CN
Inventors: 黄琪; 吕明翰; 邵佳兴; 王菲菲; 罗文兵; 王明文
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-01-30
Anticipated expiration: 2043-11-13
Also published as: CN117236335A

Abstract

本发明公开了一种基于提示学习的两阶段命名实体识别方法，步骤为：获取公开的命名实体识别数据集；构建命名实体识别模型，分为跨度识别模块和跨度分类模块；将句子文本输入到跨度识别模块的特征编码器中获取嵌入特征向量；将嵌入特征向量输入到跨度识别模块的线性分类层，预测实体跨度计算跨度损失；将实体跨度和句子文本填入到跨度分类模块的自然语言模板中构建标签词映射再输入到预训练语言模型；对完整自然语言模板进行预测，得到预测的字符映射到对应的类别，为跨度分配相应的类别。本发明的优点是：解决在少样本场景下难以学习标签依赖性的问题，解决在少样本命名实体识别任务中使用提示学习导致预测耗时过长的问题。

Description

基于提示学习的两阶段命名实体识别方法

技术领域

本发明涉及电子信息计算领域，具体为一种基于提示学习的两阶段命名实体识别方法。

背景技术

命名实体识别是自然语言处理的一项基础任务，是处理非结构化文本的第一步，旨在将文本中的实体定位并分类为预先定义的类别，如人名、地名、公司名、机构名、日期、时间、疾病名、症状名、手术名称、软件名称等，该任务也是构建自然语言理解系统的关键步骤。

近年来，深度学习在命名实体识别方面取得了显著的成功，尤其是在使用自监督方式训练的预训练语言模型方面。然而，即使使用这些预训练语言模型，构建命名实体识别系统仍然是一项劳动密集型、耗时且成本高昂的任务。构建准确的命名实体识别系统依赖于大量高质量的域内注释数据，这需要丰富的领域知识和专家经验来注释大量的训练标记。然而，这与现实世界的应用场景相反，在现实世界中，只有非常有限的标记数据可用于新域。需要对一个新的领域进行命名实体识别时，无法获取大量的已标注数据且标注大量数据需要耗费高昂的成本。因此，如何在小样本情境下，构建轻量、易部署、准确的命名实体识别系统成为该领域未来发展和研究的重点。

早期一些针对少样本命名实体识别的研究通常将该任务视为序列标记任务，并使用令牌级原型网络，将每个查询令牌与平均每个实体类的支持示例的嵌入得到的原型进行比较，并根据它们的距离分配标签。序列标记任务受益于标签依赖性，然而在少样本场景下，仅靠少数标记的样本难以学习标签依赖性。同时，仅依靠少数支持示例生成的原型并不可靠，并且大量的“O”类别非常嘈杂，难以生成有效的原型。

近些年，提示学习受到了相当多的关注，提示学习通过向输入增加“提示信息”、将下游任务改为预训练语言模型预训练时的文本生成任务, 避免引入大量新的参数，从而在少样本任务上产生更好的性能。尽管基于提示学习的方法在句子级任务中被证明是非常有效的，但对于命名实体识别这种序列标记任务，使用该方法还面临着巨大的挑战。

目前针对少样本命名实体识别的提示学习方法，需要枚举句子中所有可能的跨度，将其填入模板中，根据相应的模板分数对每个候选跨度进行分类。该方法在解码时所耗费的时间是无法承受的。因此，本技术将命名实体识别任务分解为跨度识别和跨度分类两个任务，由跨度识别模块预测可能的跨度，再将其填入模板，减少了需要预测的跨度，从而大量减少了解码需要的时间。

发明内容

为了解决上述技术问题，本发明提供一种基于提示学习的两阶段命名实体识别方法，本发明将提示学习引入少样本命名实体识别，解决了传统的原型网络在少样本场景下难以生成良好的原型的问题，并将命名实体识别任务分解为跨度识别和跨度分类任务，大大减少了命名实体识别中运用提示学习造成的解码高耗时的问题。

本发明采用以下的技术方案：一种基于提示学习的两阶段命名实体识别方法，其特征在于：方法步骤如下：

步骤S1,获取公开的命名实体识别数据集，其中命名实体识别数据集分为训练集和测试集，训练集和测试集均由句子文本和标注好的真实标签组成，训练集由少数样本组成；

步骤S2，定义两阶段命名实体识别任务形式化，构建命名实体识别模型，命名实体识别模型分为跨度识别模块和跨度分类模块，所述跨度识别模块由特征编码器和线性分类层组成，特征编码器和线性分类层呈串行结构；所述跨度分类模块由自然语言模板、标签词映射和预训练语言模型组成；

步骤S3，将步骤S1的训练集中的句子文本输入到跨度识别模块的特征编码器中，获取句子文本中所有字符的嵌入特征向量；

步骤S4，将步骤S3中获得的嵌入特征向量输入到跨度识别模块的线性分类层中，基于跨度边界的方法预测得到所有的实体跨度；再通过交叉熵损失函数计算跨度损失，通过跨度损失/>优化更新跨度识别模块参数；

步骤S5，将步骤S3中的句子文本以及句子文本通过步骤S4得到所有的实体跨度填入到跨度分类模块的自然语言模板中，根据实体类别构建标签词映射，将填入句子文本和实体跨度的完整自然语言模板输入到预训练语言模型BERT；

步骤S6，预训练语言模型BERT对完整自然语言模板进行预测，得到预测的字符，根据预测的字符通过交叉熵损失函数计算类别损失，通过类别损失/>优化更新预训练语言模型参数；根据步骤S5中构建的标签词映射，将预测的字符映射到对应的类别，为跨度分配相应的类别。

进一步的，步骤S2中定义两阶段命名实体识别任务形式化，具体为：

给定一个句子文本，/>表示句子文本中第i个字符，n表示句子文本中字符个数，将句子文本输入到跨度识别模块，得到实体跨度集/>；/>表示实体跨度集中第i个跨度，t表示实体跨度集中跨度的数量，句子文本中的跨度，/>表示句子文本中第j个字符；

给定一个实体类别集，/>表示实体类别集中的第i个实体类别，N表示实体类别集中的实体类别的个数，跨度分类为每个实体跨度/>分配一个实体类别/>。

进一步的，步骤S2中预训练语言模型，具体为：

预训练语言模型BERT使用Transformer架构中的编码器模块，编码器模块由多层双向编码器组成；将句子文本的第i个字符输入到预训练语言模型BERT中，获取嵌入特征向量，计算过程如公式(1)所示：

（1）；

其中，为句子文本的第i个字符经过预训练语言模型BERT得到的对应嵌入特征向量。

进一步的，步骤S4中基于跨度边界的方法，具体如下：

模型训练：步骤S3中获得的字符嵌入特征向量利用线性分类层计算每个字符作为实体跨度开始、实体跨度结束和实体跨度一部分的分数,计算过程如公式(2)、公式(3)、公式(4)所示：

（2）；

（3）；

（4）；

其中，表示第i个字符作为实体跨度开始的分数，/>表示第i个字符作为实体跨度结束的分数，/>表示第i个字符作为实体跨度一部分的分数，/>，，/>分别表示字符作为实体跨度开始、实体跨度结束和实体跨度一部分的线性分类层的参数矩阵的转置；

通过字符作为实体跨度开始的分数、实体跨度结束的分数计算每个字符作为实体跨度开始的概率和实体跨度结束的概率，计算过程如公式(5)、公式(6)所示：

（5）；

（6）；

其中，表示第i个字符作为实体跨度开始的概率，/>表示第i个字符作为实体跨度结束的概率，sigmoid表示归一化函数；

将第i个字符作为实体跨度开始的分数、第i个字符作为实体跨度结束的分数和第i个字符作为实体跨度一部分的分数的累加和求和，计算跨度属于一个实体跨度的概率，计算过程如公式(7)所示：

（7）；

其中，表示跨度/>整体属于一个实体跨度的概率，/>表示第i个字符作为实体跨度开始的分数，/>表示第j个字符作为实体跨度结束的分数，/>表示第t个字符作为实体跨度一部分的分数；

使用交叉熵分别计算字符i作为实体跨度开始的损失、实体跨度结束的损失，计算过程如公式(8)、公式(9)所示：

（8）；

（9）；

其中，表示字符作为跨度开始的损失，/>表示字符作为跨度结束的损失，表示第i个字符是否为跨度开始的真实标签，/>表示第i个字符是否为跨度结束的真实标签；

对于跨度整体损失，进行负样本抽样，对负样本跨度进行随机选取，使正负样本的比例与字符作为跨度开始和跨度结束中的正负样本比例相同，计算过程如公式(10)所示：

（10）；

其中，表示跨度整体属于实体的损失，/>表示真实标签属于实体的正样本的集合，/>表示真实标签不属于实体的负样本的集合；

整个跨度识别模块的损失函数通过将，/>，/>求和计算得到，计算过程如公式(11)所示：

（11）；

模型预测：跨度识别模块通过计算每个跨度，句子文本中第i个字符/>为实体跨度的开始的概率/>，句子文本中第j个字符/>为实体跨度的结束的概率/>，以及跨度/>整体为实体跨度的概率/>；

通过将第i个字符作为实体跨度开始的概率、第i个字符作为实体跨度结束的概率/>、跨度整体属于一个实体跨度的概率/>进行求和，得到跨度为实体跨度的最终概率，并设定阈值，概率大于设定阈值的跨度为实体跨度/>，并输入到跨度分类模块中。

进一步的，跨度分类模块，包括如下：

输入数据：将分类任务转换为预训练语言模型的预训练任务设置提示模板，提示模板将句子文本X改为包含[MASK]令牌的提示输入T(X,)，形式化为：T（X，/>）=X，式中，/>是一个[MASK]；

其中，T(X,)表示根据句子文本X和实体跨度/>构建的提示输入，X表示句子文本，表示跨度识别模块中对句子文本X预测的实体跨度；

模型训练：将[MASK]令牌上预测的字符映射为对应的实体类别y设置标签词映射，实体类别y=PER转换为对应自然语言形式的词语v=人类；形式化如公式(12)所示：

（12）；

其中，M表示标签词映射，v表示实体类别y经过标签词映射得到的自然语言形式的词语；

将跨度分类任务建模为计算[MASK]令牌上预测的词汇表概率分布，其计算过程如公式(13)所示：

（13）；

其中，表示基于根据句子文本X和实体跨度/>构建的提示输入/>，预训练语言模型在[MASK]字符处预测为实体类别y经过标签词映射的字符的概率；

在标签词中加入“O”类及其映射词表“其他”，并随机抽取负样本进行训练，将预测为“其他”的实体跨度全部剔除，减少跨度识别模块中识别错误带来的误差累计；使用交叉熵计算损失并对模型参数进行优化更新，如公式（14）所示：

（14）；

其中，表示跨度分类模块的整体损失，/>表示输入为句子文本/>及实体跨度/>时，预训练语言模型预测为真实标签实体类别y的概率，m表示句子文本X中实体跨度的数量；

模型预测：将跨度识别模块预测的实体跨度与其对应的句子文本X填入自然语言模板，通过预训练语言模型预测得到[MASK] 字符上的词汇表概率，通过标签词映射，为实体跨度/>分配对应的实体类别，如果通过标签词映射为“O”类别，则将实体跨度/>从结果中剔除。

本发明的有益效果是：（1）本发明首先收集命名实体识别领域公开的标准少样本数据集，利用数据集分别训练跨度识别模块和跨度分类模块，在跨度识别模块中，预测所有可能为实体的跨度，输入跨度分类模块，跨度分类模块通过人工构建提示模板，并根据数据集实体类别设计标签词映射，将跨度识别预测的跨度分别填入模板中，根据预测的单词通过标签词预测转换为对应的实体类别；

（2）本发明将提示学习引入少样本命名实体识别，规避了传统原型网络在少样本场景下难以获取良好原型的劣势，并通过将任务转换为预训练任务，减少引入新的参数，增强了模型在少样板场景下的性能。本发明将命名实体识别分解为跨度识别和跨度分类任务，解决了在少样本场景下难以学习标签依赖性的问题，解决了“O”类跨度难以处理的问题，同时解决了在少样本命名实体识别任务中使用提示学习导致预测耗时过长的问题。

附图说明

图1为本发明的整体模型框架图。

具体实施方式

本发明是这样来工作和实施的，一种基于提示学习的两阶段命名实体识别方法，其方法步骤如下：

如图1所示，图1为整体的模型框架图，展示了具体组成模块、数据传递以及输入输出的可视化结果。具体流程如下:将数据集中的句子文本，例如：“张三在1999年创办了公司。”，输入跨度识别模块中的特征编码器，将得到的嵌入特征向量输入跨度识别器，计算每个令牌为跨度开始、结束及部分的概率，将总体概率大于阈值的跨度预测为候选实体跨度，待输入到跨度分类模块。将跨度识别模块预测的候选实体跨度与其对应的句子文本填入设置好的模板中，并输入预训练语言模型，通过预测[MASK]位置上的字符，通过标签词映射，为其分配对应的实体类别。

进一步的，步骤S2中预训练语言模型，具体为：

（1）；

进一步的，步骤S4中基于跨度边界的方法，具体如下：

（2）；

（3）；

（4）；

（5）；

（6）；

（7）；

（8）；

（9）；

（10）；

（11）；

进一步的，跨度分类模块，包括如下：

其中，T(X,)表示根据句子文本X和实体跨度/>构建的提示输入， X表示句子文本， />表示跨度识别模块中对句子文本X预测的实体跨度；

（12）；

（13）；

（14）；

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于提示学习的两阶段命名实体识别方法，其特征在于：方法步骤如下：

步骤S6，预训练语言模型BERT对完整自然语言模板进行预测，得到预测的字符，根据预测的字符通过交叉熵损失函数计算类别损失，通过类别损失/>优化更新预训练语言模型参数；根据步骤S5中构建的标签词映射，将预测的字符映射到对应的类别，为跨度分配相应的类别；

步骤S2中预训练语言模型，具体为：

（1）；

其中，为句子文本的第i个字符经过预训练语言模型BERT得到的对应嵌入特征向量；

步骤S4中基于跨度边界的方法，具体如下：

（2）；

（3）；

（4）；

其中，表示第i个字符作为实体跨度开始的分数，/>表示第i个字符作为实体跨度结束的分数，/>表示第i个字符作为实体跨度一部分的分数，/>，/>，分别表示字符作为实体跨度开始、实体跨度结束和实体跨度一部分的线性分类层的参数矩阵的转置；

（5）；

（6）；

（7）；

其中，表示跨度/>整体属于一个实体跨度的概率，/>表示第i个字符作为实体跨度开始的分数，/>表示第j个字符作为实体跨度结束的分数，表示第t个字符作为实体跨度一部分的分数；

（8）；

（9）；

其中，表示字符作为跨度开始的损失，/>表示字符作为跨度结束的损失，/>表示第i个字符是否为跨度开始的真实标签，/>表示第i个字符是否为跨度结束的真实标签；

（10）；

（11）；

通过将第i个字符作为实体跨度开始的概率、第i个字符作为实体跨度结束的概率/>、跨度整体属于一个实体跨度的概率/>进行求和，得到跨度为实体跨度的最终概率，并设定阈值，概率大于设定阈值的跨度为实体跨度/>，并输入到跨度分类模块中；

跨度分类模块，包括如下：

输入数据：将分类任务转换为预训练语言模型的预训练任务设置提示模板，提示模板将句子文本X改为包含[MASK]令牌的提示输入T(X,)，形式化为：“T（X，/>）=X，在这个句子中，/>是一个[MASK]”，其中，T(X,/>)表示根据句子文本X和实体跨度/>构建的提示输入，X表示句子文本，/>表示跨度识别模块中对句子文本X预测的实体跨度；

（12）；

将跨度分类任务建模为计算[MASK]令牌上预测的词汇表概率分布，其计算过程如公式(14)所示：

（13）；

在标签词中加入“O”类及其映射词表“其他”，并随机抽取负样本进行训练，将预测为“其他”的实体跨度全部剔除，减少跨度识别模块中识别错误带来的误差累计；使用交叉熵计算损失并对模型参数进行优化更新,如公式（14）所示：

（14）；

2.根据权利要求1所述的一种基于提示学习的两阶段命名实体识别方法，其特征在于：步骤S2中定义两阶段命名实体识别任务形式化，具体为：

给定一个句子文本，/>表示句子文本中第i个字符，n表示句子文本中字符个数，将句子文本输入到跨度识别模块，得到实体跨度集/>；/>表示实体跨度集中第i个跨度，t表示实体跨度集中跨度的数量，句子文本中的跨度/>，表示句子文本中第j个字符；