CN115713082A

CN115713082A - 一种命名实体识别方法、装置、设备及存储介质

Info

Publication number: CN115713082A
Application number: CN202211299349.0A
Authority: CN
Inventors: 蒋盛益; 付颖雯; 林楠铠; 林晓钿; 杨子渝
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-02-24

Abstract

本发明公开一种命名实体识别方法、装置、设备及存储介质，方法包括：基于教师模型损失函数和命名实体标注数据集对预训练的语言模型进行判别辅助任务训练，获得教师模型；利用教师模型过滤命名实体无监督样本集中存在错误预测标签的伪样本，获得第一样本集，并移除第一样本集中具有非实体标签的伪样本，获得第二样本集；然后生成第二样本集中每个伪样本所对应的伪标签，计算每个伪样本的置信度，选取置信度大于预设阈值的若干置信伪样本，并基于学生模型损失函数和命名实体标注数据集重新对预训练的语言模型进行训练，获得学生模型，以对输入的文本数据进行命名实体识别。本发明能够避免半监督学习模型在自训练过程中选择具有错误伪标签的伪样本。

Description

一种命名实体识别方法、装置、设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种命名实体识别方法、装置、设备及计算机可读存储介质。

背景技术

命名实体识别(Named Entity Recognition，NER)是许多自然语言处理(NaturalLanguage Processing，NLP)任务的基础，旨在识别命名实体的边界并将它们分类为预定义的类别，如人名、地名或组织名。作为自然语言处理的一个基础研究任务，命名实体识别在各种工业产品中具有广泛的应用，因此提高命名实体识别的准确性具有重大意义。目前，深度神经网络已广泛应用于命名实体识别并取得了较好的效果，然而深度神经网络模型通常需要大量的训练数据，其适用于拥有大量标注语料的语言，而对于标注语料较少的低资源语言，深度神经网络在命名实体识别的应用将受到数据稀缺问题的限制。

为了解决这一问题，现有技术通常采用半监督学习(Semi-supervised Learning，SSL)的方式进行命名实体识别，其通过利用大量无监督数据和少量标注数据进行自训练，为无监督数据生成伪标签以扩充训练集，从而提高模型的泛化能力。然而该方法在自训练过程中可能会生成错误的伪标签，从而影响模型进行命名实体识别的准确性。

发明内容

本发明提供一种命名实体识别方法、装置、设备及存储介质，以解决现有技术因半监督学习模型在自训练过程中产生的错误的伪标签而影响模型进行命名实体识别的准确性的技术问题，通过训练后的教师模型对命名实体无监督样本集执行判别辅助任务，以过滤命名实体无监督样本中存在错误预测标签的伪样本，并根据伪样本的置信度选择用于训练学生模型的伪样本，能够有效地避免半监督学习模型在自训练过程中选择具有错误伪标签的伪样本，从而能够提高模型进行命名实体识别的准确性。

为了解决上述技术问题，本发明实施例第一方面提供一种命名实体识别方法，包括如下步骤：

基于预设的教师模型损失函数，利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练，获得教师模型；

利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务，以过滤所述命名实体无监督样本中存在错误预测标签的伪样本，获得第一样本集；

基于所述教师模型，移除所述第一样本集中具有非实体标签的伪样本，获得第二样本集；

利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签，并基于每个伪样本所对应的伪标签，计算所述第二样本集中每个伪样本的置信度；

选取所述第二样本集中置信度大于预设阈值的若干置信伪样本，并基于预设的学生模型损失函数，利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练，获得学生模型；

利用所述学生模型对输入的文本数据进行命名实体识别。

作为优选方案，所述基于预设的教师模型损失函数，利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练，获得教师模型，具体包括如下步骤：

基于如下教师模型损失函数，利用所述命名实体标注数据集对预训练的语言模型进行判别辅助任务训练，获得所述教师模型：

其中，x表示命名实体标注数据集D_L中的标注数据，L表示词条序列的长度，p(x_i,θ^t)表示教师模型θ^t输出的标签的概率，y_i表示词条x_i的真实标签，xj_i表示包含词条的隐藏状态和预测软标签的输入样本，p′(xj_i,θ^t)表示输入样本xj_i所对应的错误判断标签yj_i的分布概率，yj_i表示输入样本xj_i所对应的错误判断标签，λ_J表示判别辅助任务损失函数的权重，

表示标注数据x的损失值，

表示命名实体标注数据集D_L的损失值。

作为优选方案，所述利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务，以过滤所述命名实体无监督样本中存在错误预测标签的伪样本，具体包括如下步骤：

利用所述教师模型通过如下表达式对所述命名实体无监督样本集执行判别辅助任务，以过滤所述命名实体无监督样本中存在错误预测标签的伪样本：

p′(x_i，θ)＝sigmoid(W_jh_i+b_j)

其中，p′(x_i，θ)表示词条x_i所对应的错误判断标签的分布概率，h_i表示词条x_i的隐藏状态，W_j表示第一待学习参数，b_j表示第二待学习参数，

表示词条x_i所对应的分布概率最大的错误判断标签。

作为优选方案，所述利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签，具体包括如下步骤：

利用所述教师模型通过如下表达式生成所述第二样本集中每个伪样本所对应的伪标签：

其中，

表示伪样本

所对应的伪标签，D_U表示所述命名实体无监督样本集。

作为优选方案，所述基于每个伪样本所对应的伪标签，计算所述第二样本集中每个伪样本的置信度，具体包括如下步骤：

基于每个伪样本所对应的伪标签，通过如下表达式计算所述第二样本集中每个伪样本的置信度：

其中，

表示伪样本

所对应的伪标签，C表示伪标签的数量，

表示伪样本

在类别c上的预测概率，

表示伪样本的熵，O表示非实体标签，ω表示伪样本

的置信度。

作为优选方案，所述基于预设的学生模型损失函数，利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练，获得学生模型，具体包括如下步骤：

基于如下学生模型损失函数，利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练，获得学生模型：

其中，p(x_i，θ^s)表示学生模型θ^s输出的标签的概率，p′(xj_i，θ^s)表示输入样本xj_i所对应的错误判断标签yj_i的分布概率，

表示学生模型θ^s输出的伪标签的概率，λ_U表示伪标签损失函数权重，

表示命名实体无监督样本集中的伪样本，

表示标注数据x的损失值，

表示伪样本

的损失值，

表示命名实体标注数据集D_L和命名实体无监督样本集D_U的损失值之和。

作为优选方案，所述预训练的语言模型为mBERT模型。

本发明实施例第二方面提供一种命名实体识别装置，包括：

教师模型获取模块，用于基于预设的教师模型损失函数，利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练，获得教师模型；

伪样本过滤模块，用于利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务，以过滤所述命名实体无监督样本中存在错误预测标签的伪样本，获得第一样本集；

伪样本移除模块，用于基于所述教师模型，移除所述第一样本集中具有非实体标签的伪样本，获得第二样本集；

置信度计算模块，用于利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签，并基于每个伪样本所对应的伪标签，计算所述第二样本集中每个伪样本的置信度；

学生模型获取模块，用于选取所述第二样本集中置信度大于预设阈值的若干置信伪样本，并基于预设的学生模型损失函数，利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练，获得学生模型；

命名实体识别模块，用于利用所述学生模型对输入的文本数据进行命名实体识别。

本发明实施例第三方面提供一种命名实体识别设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的命名实体识别方法。

本发明实施例第四方面提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一项所述的命名实体识别方法。

相比于现有技术，本发明实施例的有益效果在于，通过训练后的教师模型对命名实体无监督样本集执行判别辅助任务，以过滤命名实体无监督样本中存在错误预测标签的伪样本，并根据伪样本的置信度选择用于训练学生模型的伪样本，能够有效地避免半监督学习模型在自训练过程中选择具有错误伪标签的伪样本，从而能够提高模型进行命名实体识别的准确性。

附图说明

图1是本发明实施例中的一种命名实体识别方法的流程示意图；

图2是本发明实施例中的一种命名实体识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明实施例第一方面提供一种命名实体识别方法，包括如下步骤S1至步骤S6：

步骤S1，基于预设的教师模型损失函数，利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练，获得教师模型；

步骤S2，利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务，以过滤所述命名实体无监督样本中存在错误预测标签的伪样本，获得第一样本集；

步骤S3，基于所述教师模型，移除所述第一样本集中具有非实体标签的伪样本，获得第二样本集；

步骤S4，利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签，并基于每个伪样本所对应的伪标签，计算所述第二样本集中每个伪样本的置信度；

步骤S5，选取所述第二样本集中置信度大于预设阈值的若干置信伪样本，并基于预设的学生模型损失函数，利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练，获得学生模型；

步骤S6，利用所述学生模型对输入的文本数据进行命名实体识别。

值得说明的是，由于预训练的语言模型的隐藏状态包含大量实体信息以支持实体标签预测，因此本实施例提出一种判别辅助任务，以评估文本中每个词条的预测标签是否正确。判别辅助任务是一个二元分类任务，用于判断基模型的NER预测的正确性，该任务旨在过滤存在错误预测标签的伪样本，以词语的隐藏状态和预测标签作为输入，根据词条的真实标签来判断预测标签的正确性。可以理解的是，词条的真实标签即为该词条所对应的正确的实体标签。

进一步地，由于对预训练的语言模型进行判别辅助任务训练只利用了命名实体标注数据集，而命名实体标注数据集中的标注数据都是具有真实标签的样本，因此训练过程中不会发生错误传播的情况。

进一步地，本实施例利用教师模型对预设的命名实体无监督样本集执行判别辅助任务，以过滤命名实体无监督样本中存在错误预测标签的伪样本。值得说明的是，错误预测标签即为该伪样本所对应的预测标签与真实标签不相同，表明该伪样本会引起错误传播，因此需要过滤。

进一步地，本实施例基于教师模型，移除第一样本集中具有非实体标签的伪样本，获得第二样本集；利用教师模型生成第二样本集中每个伪样本所对应的伪标签，并基于每个伪样本所对应的伪标签，计算第二样本集中每个伪样本的置信度。值得说明的是，考虑到实体标签和非实体标签的占比极度不平衡，同时NER任务集中在实体提取上，因此本实施例移除第一样本集中具有非实体标签的伪样本。由于在分类任务中，预测置信度高的样本比预测置信度低的样本更容易被正确分类，因此本实施例基于每个伪样本所对应的伪标签，计算第二样本集中每个伪样本的置信度，以选择置信度高的伪样本作为用于训练学生模型的伪样本，从而使得学生模型在自训练过程中能够有效地选择高质量的伪样本，提高低资源命名实体识别任务的准确性。

本发明实施例提供的一种命名实体识别方法，通过训练后的教师模型对命名实体无监督样本集执行判别辅助任务，以过滤命名实体无监督样本中存在错误预测标签的伪样本，并根据伪样本的置信度选择用于训练学生模型的伪样本，能够有效地避免半监督学习模型在自训练过程中选择具有错误伪标签的伪样本，从而能够提高模型进行命名实体识别的准确性。

其中，x表示命名实体标注数据集D_L中的标注数据，L表示词条序列的长度，p(x_i，θ^t)表示教师模型θ^t输出的标签的概率，y_i表示词条x_i的真实标签，xj_i表示包含词条的隐藏状态和预测软标签的输入样本，p′(xj_i，θ^t)表示输入样本xj_i所对应的错误判断标签yj_i的分布概率，yj_i表示输入样本xj_i所对应的错误判断标签，λ_J表示判别辅助任务损失函数的权重，

表示标注数据x的损失值，

表示命名实体标注数据集D_L的损失值。

可以理解的是，命名实体标注数据集D_L的损失值即为命名实体标注数据集D_L中所有标注数据x的损失值之和。

p′(x_i，θ)＝sigmoid(W_jh_i+b_j)

表示词条x_i所对应的分布概率最大的错误判断标签。

具体地，本实施例首先融合词条隐藏状态和预测软标签，可以理解的是，本实施例所融合的预测标签为软标签(预测概率)，而不是硬标签(独热标签)，因为软标签包含更丰富的标签信息，然后将包含词条的隐藏状态和预测软标签的输入样本输入至多层分类器中，并通过如下表达式分配对应的错误判断标签：

值得说明的是，当为0时，表明该输入样本的预测标签与真实标签相同；当为1时，表明该输入样本的预测标签为错误的预测标签。

然后对于每个输入样本，将其输入至sigmoid分类层中，通过如下表达式预测错误判断标签所对应的概率分布：

p′(x_i，θ)＝sigmoid(W_jh_i+b_j)

最终过滤命名实体无监督样本中存在错误预测标签的伪样本，只选择所有词条的错误判断标签均为0的伪句子。

其中，

表示伪样本

所对应的伪标签，D_U表示所述命名实体无监督样本集。

其中，

表示伪样本

所对应的伪标签，C表示伪标签的数量，

表示伪样本

在类别c上的预测概率，

表示伪样本的熵，O表示非实体标签，ω表示伪样本

的置信度。

值得说明的是，本实施例中的置信度是基于熵度量的，在对第二样本集中每个伪样本的置信度进行计算后，按照置信度对伪样本进行排序，并选取置信度大于预设阈值的若干置信伪样本，视为置信度较高的伪样本。值得说明的是，每个词条序列的置信度由序列中所有词条的置信度的平均值表示。

表示学生模型θs输出的伪标签的概率，λ_U表示伪标签损失函数权重，

表示命名实体无监督样本集中的伪样本，

表示标注数据x的损失值，

表示伪样本

的损失值，

可以理解的是，命名实体标注数据集D_L和命名实体无监督样本集D_U的损失值之和即为命名实体标注数据集D_L中所有标注数据x的损失值与命名实体无监督样本集D_U中所有伪样本

的损失值之和。

作为优选方案，所述预训练的语言模型为mBERT模型。

值得说明的是，BERT是使用Transformer编码器学习的语言模型。它每次输入一个序列并通过两个子任务进行学习，即掩码语言模型(Masked Language Modeling，MLM)和下一句预测(Next Sentence Prediction，NSP)。

mBERT遵循与BERT相同的模型架构和训练过程，不同之处在于它是在104种语言的维基百科数据上进行预训练的。对于分词器，mBERT利用WordPiece嵌入和超过110万个共享词汇来促进不同语言之间的词向量空间对齐。

参见图2，本发明实施例第二方面提供一种命名实体识别装置，包括：

教师模型获取模块201，用于基于预设的教师模型损失函数，利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练，获得教师模型；

伪样本过滤模块202，用于利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务，以过滤所述命名实体无监督样本中存在错误预测标签的伪样本，获得第一样本集；

伪样本移除模块203，用于基于所述教师模型，移除所述第一样本集中具有非实体标签的伪样本，获得第二样本集；

置信度计算模块204，用于利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签，并基于每个伪样本所对应的伪标签，计算所述第二样本集中每个伪样本的置信度；

学生模型获取模块205，用于选取所述第二样本集中置信度大于预设阈值的若干置信伪样本，并基于预设的学生模型损失函数，利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练，获得学生模型；

命名实体识别模块206，用于利用所述学生模型对输入的文本数据进行命名实体识别。

作为优选方案，所述教师模型获取模块201用于基于预设的教师模型损失函数，利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练，获得教师模型，具体包括：

表示标注数据x的损失值，

表示命名实体标注数据集D_L的损失值。

作为优选方案，所述伪样本过滤模块202用于利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务，以过滤所述命名实体无监督样本中存在错误预测标签的伪样本，具体包括：

p′(x_i，θ)＝sigmoid(W_jh_i+b_j)

表示词条x_i所对应的分布概率最大的错误判断标签。

作为优选方案，所述置信度计算模块204用于利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签，具体包括：

其中，

表示伪样本

所对应的伪标签，Du表示所述命名实体无监督样本集。

作为优选方案，所述置信度计算模块204用于基于每个伪样本所对应的伪标签，计算所述第二样本集中每个伪样本的置信度，具体包括：

其中，

表示伪样本

所对应的伪标签，C表示伪标签的数量，

表示伪样本

在类别c上的预测概率，

表示伪样本的熵，O表示非实体标签，ω表示伪样本

的置信度。

作为优选方案，所述学生模型获取模块205用于基于预设的学生模型损失函数，利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练，获得学生模型，具体包括：

表示命名实体无监督样本集中的伪样本，

表示标注数据x的损失值，

表示伪样本

的损失值，

作为优选方案，所述预训练的语言模型为mBERT模型。

需要说明的是，本发明实施例所提供的一种命名实体识别装置，能够实现上述任一实施例所述的命名实体识别方法的所有流程，装置中的各个模块的作用以及实现的技术效果分别与上述实施例所述的命名实体识别方法的作用以及实现的技术效果对应相同，这里不再赘述。

本发明实施例第三方面提供一种命名实体识别设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一实施例所述的命名实体识别方法。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明实施例第四方面提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一实施例所述的命名实体识别方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。