CN117371447A

CN117371447A - 命名实体识别模型的训练方法、装置及存储介质

Info

Publication number: CN117371447A
Application number: CN202210753850.3A
Authority: CN
Inventors: 高海锋; 董滨; 张永伟; 姜珊珊
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2024-01-09

Abstract

本申请提供了一种命名实体识别模型的训练方法、装置及存储介质。所述方法包括：将当前批次的训练样本输入至预训练语言模型进行编码，得到当前批次的令牌向量序列；将当前批次的训练样本对应的令牌向量序列输入至全连接层，得到令牌归属于各个标签类型的预测概率，并根据所述预测概率计算得到当前批次的交叉熵损失；将当前批次的训练样本对应的令牌向量序列转换为当前批次的训练样本对应的实体向量序列，并根据所述实体向量序列计算得到当前批次的实体对比损失；根据所述交叉熵损失和实体对比损失得到当前批次的总损失，基于所述总损失对所述预训练语言模型和全连接层进行优化。本申请能够提高训练得到的命名实体识别模型的性能。

Description

命名实体识别模型的训练方法、装置及存储介质

技术领域

本发明涉及机器学习与自然语言处理(NLP，Natural Language Processing)技术领域，具体涉及一种命名实体识别(named entity recognition,NER)模型的训练方法、装置及存储介质。

背景技术

命名实体识别(也称为实体识别、实体分块和实体提取)是NLP中一项基础任务，是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别(也称为实体识别、实体分块和实体提取)旨在将文本中的命名实体定位并分类为预先定义的实体类型，如人名、机构名、地名、时间表达式、数量、货币值、百分比等。

基于序列标注的命名实体识别方法难以区分相似类型的实体。为了解决以上问题，现有技术的一种基于特征融合的命名实体识别方法(中国专利申请公开号CN109800437A)提出了一种结合语义特征、词特征和字符特征的命名实体识别方法，可以提高命名实体识别的准确率。又例如，现有技术的另一种多特征融合的中文医疗文本命名实体识别方法(中国专利申请公开号CN113191150A，2021-05-21)中，利用具有汉字偏旁、部首和笔顺信息的词向量来改进传统的神经网络输入，使得词向量更能完整地表示汉字中的信息，解决了多义、形声字的问题，提高了模型的准确性。以上方法或者需要增加语义特征、词特征和字符特征等信息，或者需要融合汉字的偏旁部首和笔顺等信息，由于需要引入额外的信息，增加了模型实现的复杂度。

发明内容

本申请的至少一个实施例提供了一种命名实体识别模型的训练方法及装置，能够提高训练得到的命名实体识别模型的性能。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种命名实体识别模型的训练方法，所述命名实体模型包括有预训练语言模型和全连接层，所述训练方法包括：

步骤A，将当前批次的训练样本输入至所述预训练语言模型进行编码，得到当前批次的每个训练样本的令牌向量序列；

步骤B，将当前批次的训练样本的令牌向量序列输入至所述全连接层，得到训练样本中的令牌归属于各个标签类型的预测概率，并根据所述预测概率计算得到当前批次的交叉熵损失；

步骤C，将当前批次的训练样本对应的令牌向量序列转换为当前批次的训练样本对应的实体向量序列，并通过监督对比学习，计算得到当前批次的实体对比损失；

步骤D，根据所述交叉熵损失和实体对比损失得到当前批次的总损失，基于所述总损失对所述预训练语言模型和全连接层进行优化。

可选的，在将当前批次的训练样本输入至所述预训练语言模型之前，所述方法还包括：

获得训练集，所述训练集包括多个训练样本；

按照预设批量大小，将所述训练集中的训练样本划分为多个批次；

循环利用各个批次的训练样本执行所述步骤A～D，对所述命名实体模型进行训练，直至满足预设的训练结束条件。

可选的，还包括：

利用训练得到的命名实体模型进行命名实体的识别。

可选的，所述将当前批次的训练样本输入至所述预训练语言模型进行编码，得到当前批次的每个训练样本的令牌向量序列，包括：

获得每个训练样本的序列长度为n的令牌序列，其中，在训练样本中的令牌数量大于n时，选取所述训练样本的前n个令牌，作为所述训练样本的令牌序列；在训练样本的令牌数量小于n时，通过填充0，使得令牌序列长度为n；所述n为预设正整数；

将当前批次的每个训练样本的令牌序列输入至所述预训练语言模型，利用所述预训练语言模型编码得到当前批次的每个训练样本的令牌向量序列。

可选的，所述将当前批次的训练样本对应的令牌向量序列转换为当前批次的训练样本对应的实体向量序列，包括：

针对每个训练样本的令牌向量序列，对属于同一个命名实体的令牌向量进行融合处理，得到该命名实体对应的实体向量，以及，将对应于非命名实体的每个令牌向量，直接作为一个实体向量；

获得由每个训练样本中的实体向量组成的实体向量序列，其中，在所述实体向量序列长度小于n时，通过填充0使得序列长度为n。

可选的，所述通过监督对比学习，计算得到当前批次的实体对比损失，包括：

针对训练样本对应的实体向量序列，根据实体向量i与该实体向量序列中其他实体向量之间的相似度，计算得到实体向量i的实体对比损失，其中，所述实体向量i的实体对比损失与第一相似度正相关，与第二相似度负相关，所述第一相似度是实体向量i与该实体向量序列中的实体向量j之间的相似度，所述第二相似度是实体向量i与该实体向量序列中的实体向量l之间的相似度；所述实体向量j与实体向量i对应的实体类型相同，所述实体向量l与实体向量i对应的实体类型不同；累加该实体向量序列中的各个实体向量的实体对比损失，得到该实体向量序列的实体对比损失；

针对当前批次的所有训练样本对应的实体向量序列，计算实体向量序列的实体对比损失的平均值，得到当前批次的实体对比损失。

可选的，根据所述交叉熵损失和实体对比损失得到当前批次的总损失，包括：按照预设权重，对所述交叉熵损失和实体对比损失进行加权求和，得到总损失。

可选的，基于所述总损失对所述预训练语言模型和全连接层进行优化，包括：采用自适应矩估计算法，调整所述预训练语言模型和全连接层的模型参数，以减小所述总损失为目标进行优化。

第二方面，本申请实施例提供了一种命名实体识别模型的训练装置，所述命名实体模型包括有预训练语言模型和全连接层，所述训练装置包括：

序列编码模块，用于将当前批次的训练样本输入至所述预训练语言模型进行编码，得到当前批次的每个训练样本的令牌向量序列；

第一损失计算模块，用于将当前批次的训练样本对应的令牌向量序列输入至所述全连接层，得到训练样本中的令牌归属于各个标签类型的预测概率，并根据所述预测概率计算得到当前批次的交叉熵损失；

第二损失计算模块，用于将当前批次的训练样本对应的令牌向量序列转换为当前批次的训练样本对应的实体向量序列，并通过监督对比学习，计算得到当前批次的实体对比损失；

优化模块，用于根据所述交叉熵损失和实体对比损失得到当前批次的总损失，基于所述总损失对所述预训练语言模型和全连接层进行优化。

可选的，所述装置还包括：

样本获得模块，用于获得训练集，所述训练集包括多个训练样本；

样本划分模块，用于按照预设批量大小，将所述训练集中的训练样本划分为多个批次；

训练控制模块，用于循环利用各个批次的训练样本，并调用所述序列编码模块、第一损失计算模块、第二损失计算模块和优化模块，对所述命名实体模型进行训练，直至满足预设的训练结束条件。

可选的，所述装置还包括：

实体识别模块，用于利用训练得到的命名实体模型进行命名实体的识别。

可选的，所述序列编码模块，还用于：

可选的，所述第二损失计算模块，还用于：

可选的，所述优化模块，还用于按照预设权重，对所述交叉熵损失和实体对比损失进行加权求和，得到总损失。

第三方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有程序，所述程序被处理器执行时，实现如上所述的方法的步骤。

与现有技术相比，本申请实施例提供的命名实体识别模型的训练方法及装置，将令牌级(token)的向量表示转换为实体级别的向量表示，并通过监督比较学习的实体对比损失函数引导模型学习不同实体类型所对应的不同特征，从而能够更好地区分不同类型的命名实体，提高训练得到的命名实体识别模型的性能。另外，本申请实施例不需要引入额外的数据、知识库和模型结构等，具有模型结构简单，易于实现等优点。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例的命名实体识别模型的训练方法的一种流程图；

图2为本申请实施例的利用当前批次训练数据进行训练的一种流程图；

图3为本申请实施例的命名实体识别模型的训练装置的一种结构示意图；

图4为本申请另一实施例的命名实体识别模型的训练装置的结构示意图；

图5为本申请又一实施例的命名实体识别模型的训练装置的结构示意图。

具体实施方式

为使本申请要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本申请的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本申请的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本申请的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

请参照图1，本申请实施例提供的一种命名实体识别模型的训练方法，所述命名实体模型包括有预训练语言模型和全连接层，该方法包括：

步骤11，获得训练集，所述训练集包括多个训练样本。

这里，所述训练集包括多个已标注的训练样本。训练样本中的令牌预先被标注了对应的标签，所述标签可以根据命名实体类型以及令牌在命名实体类型中的位置进行标注。也就是说，不同类型的标签能够反映令牌所属的命名实体类型及该令牌在所属的命名实体中的位置。具体的，本申请实施例可以采用命名实体识别中常用的BIO、BMES等标签体系进行标注。

步骤12，按照预设批量大小，将所述训练集中的训练样本划分为多个批次。

这里，为了便于模型计算处理，可以将训练集中的训练样本分成相同大小的批次，即，每个批次的训练样本包括有相同数量N的训练样本，即训练样本1、训练样本2、…，训练样本N。在具体训练时，可以利用多个批次的训练样本进行循环训练。

步骤13，循环利用各个批次的训练样本对所述命名实体模型进行训练，直至满足预设的训练结束条件，其中，所述训练包括：将当前批次的训练样本输入至所述预训练语言模型进行编码，得到当前批次的每个训练样本的令牌向量序列；将当前批次的训练样本对应的令牌向量序列输入至所述全连接层，得到训练样本中的令牌归属于各个标签类型的预测概率，并根据所述预测概率计算得到当前批次的交叉熵损失；将当前批次的训练样本对应的令牌向量序列转换为当前批次的训练样本对应的实体向量序列，并通过监督对比学习(SupervisedContrastiveLearning，SCL)，计算得到当前批次的实体对比损失；根据所述交叉熵损失和实体对比损失得到当前批次的总损失，基于所述总损失对所述预训练语言模型和全连接层进行优化。

在上述步骤13中，本申请实施例执行至少一轮迭代优化(epoch)，直至满足预设的训练结束条件。其中，每轮迭代优化中，循环利用各个批次的训练样本对所述命名实体模型进行训练，即在每个批次(batch)训练中使用一个批次的训练样本，在前一批次的训练结束后，利用下一批次的训练样本，在前一批次训练得到的模型基础上，执行下一批次的训练。如果在训练过程中，达到预设的训练结束条件(如达到预设的迭代优化轮数，或达到预设的收敛条件等)，则可以结束训练并输出最终的命名实体模型，否则，继续执行训练。

本申请实施例的命名实体识别模型的训练方法中，利用某个批次的训练样本对预训练语言模型，具体包括如图2所示的以下步骤：

步骤A，将当前批次的训练样本输入至所述预训练语言模型进行编码，得到当前批次的每个训练样本的令牌向量序列。

步骤B，将当前批次的训练样本对应的令牌向量序列输入至所述全连接层，得到训练样本中的令牌归属于各个标签类型的预测概率，并根据所述预测概率计算得到当前批次的交叉熵损失。

步骤C，将当前批次的训练样本对应的令牌向量序列转换为当前批次的训练样本对应的实体向量序列，并通过监督对比学习，计算得到当前批次的实体对比损失。

下面对利用某个批次的训练样本进行训练的过程进行详细说明。

(1)获得每个训练样本的序列长度为n的令牌序列，其中，在训练样本的令牌序列长度大于n时，选取所述训练样本的前n个令牌向量，作为所述训练样本的令牌序列；在训练样本的令牌序列长度小于n时，通过填充0，使得令牌序列长度为n；所述n为预设正整数。

这里，为了便于模型计算处理，本申请实施例将每个训练样本对应的令牌向量序列设置为相同长度n。n为预设的最大序列长度，其取值最大不超过预训练语言模型所限制的序列长度(例如，在采用BERT模型作为预训练语言模型时，n小于或等于512)。

这里，本申请实施例中，所述令牌(token)是指预训练语言模型处理文本的粒度，具体可以是中文中的单个汉字、英文中的单词或子词等。所述预训练语言模型包括但不限于以下模型中的任一种：BERT模型、RoBERTa模型、ALBERT模型、ELECTRA模型等。

(2)本申请实施例将当前批次的训练样本输入至所述预训练语言模型，利用所述预训练语言模型编码得到当前批次的每个训练样本的令牌向量序列。

这里，该令牌向量序列为一向量序列，每个向量又是多维的，因此该令牌向量序列为特定维度的矩阵。

(3)在获得当前批次的令牌向量序列后，本申请实施例可以将当前批次的训练样本对应的令牌向量序列输入至命名实体识别模型中的全连接层，得到各个令牌归属于各个标签类型的预测概率。上述过程可以用以下公式表示：

P＝softmax(W·H+b)

其中，·表示矩阵相乘，W和b为全连接层的可训练的参数，即权重矩阵和偏置。H表示当前批次的训练样本对应的令牌向量序列。P表示各个令牌归属于各个标签类型的预测概率。Softmax函数表示对全连接层的输出进行归一化计算。

(4)然后，可以根据所述预测概率计算得到当前批次的交叉熵损失。例如，.按照当前批次的训练数据中各个令牌所归属的标签类型，以独热编码方式进行编码，从而得到一个标签矩阵Y。然后，利用以下公式，计算得到当前批次的交叉熵损失L_ce：

其中，表示矩阵点积，Sum为矩阵求和，N为批量大小。

本申请实施例除了交叉熵损失外，还将当前批次的令牌向量序列，从令牌级别的隐藏序列表示，转换为实体级别的隐藏序列的表示(实体向量序列)，然后使用监督对比学习损失函数，计算当前批次的实体对比损失。最后，基于所述交叉熵损失和实体对比损失计算总损失，基于所述总损失进行模型的优化。下面继续介绍实体对比损失的计算过程。

(5)针对每个训练样本的令牌向量序列，本申请实施例对属于同一个命名实体的令牌向量进行融合处理，得到该命名实体对应的实体向量，以及，将对应于非命名实体的每个令牌向量，直接作为一个实体向量。上述融合处理具体可以是最大池化或平均池化。然后，获得由每个训练样本中的实体向量组成的实体向量序列，其中，为使数据对齐，在所述实体向量序列长度小于n时，可以通过在实体向量序列尾部填充0，使得序列长度为n，得到该训练样本对应的实体向量序列。

例如，对于当前批次(训练样本1、训练样本2、…，训练样本N)中的某个训练样本X＝(x₁,x₂,...,x_n)，其中，X∈{1,2,...,N}，x_i为某个令牌，N为批量大小，以及，得到的其令牌级别的令牌向量序列H＝(h₁,h₂,...,h_n)。假设对于训练样本中的某个命名实体的令牌序列(x_i,x_i+1,...,x_j),1≤i<j≤n，则其令牌级别的令牌向量序列表示为(h_i,h_i+1,...,h_j),1≤i<j≤n。而对于训练样本中的非命名实体的令牌x_t，则其令牌级别的令牌向量表示为h_t。

对于训练样本中的命名实体对应的令牌向量序列，可以使用平均池化或最大池化操作，对其令牌级别的令牌向量序列(h_i,h_i+1,...,h_j),1≤i<j≤n进行运算，得到该命名实体对应的实体向量e_i，即该命名实体的实体级别向量表示。

对于训练样本中的非命名实体的令牌x_t，则保留其令牌级别的令牌向量表示h_t作为该非命名实体的实体向量，即该非命名实体的实体级别向量表示。

通过以上处理，将训练样本的令牌向量序列转换为实体级别的向量序列。为了保证序列长度的一致性以便于模型处理，本申请实施例还可以将0填充到实体级别的向量序列的尾部，使得整个实体向量序列的长度为n，从而得到该训练样本对应的实体向量序列E＝(e₁,e₂,...,e_m,0,…,0)，其中m等于训练样本中的命名实体的数量与非命名实体的数量之和。

(6)通过监督对比学习，计算得到当前批次的实体对比损失，具体的：

针对训练样本对应的实体向量序列，根据实体向量i与该实体向量序列中其他实体向量之间的相似度，计算得到实体向量i的实体对比损失，其中，所述实体向量i的实体对比损失与第一相似度正相关，与第二相似度负相关，所述第一相似度是实体向量i与该实体向量序列中的实体向量j之间的相似度，所述第二相似度是实体向量i与该实体向量序列中的实体向量l之间的相似度；所述实体向量j与实体向量i对应的实体类型相同，所述实体向量l与实体向量i对应的实体类型不同。然后，累加该实体向量序列中的各个实体向量的实体对比损失，得到该实体向量序列的实体对比损失。然后，针对当前批次的所有训练样本对应的实体向量序列，计算实体向量序列的实体对比损失的平均值，得到当前批次的实体对比损失。

这里，所述实体向量i对应的实体可以是命名实体或非命名实体，本申请实施例中，将非命名实体作为一类特殊的命名实体类型进行处理。

下面提供计算某个训练样本X的实体对比损失的一种计算公式，需要指出的是，以下公式仅为本申请实施例可以采用的一种计算方式的举例说明，并非用于限定本申请：

其中，m为训练样本X中的实体数量，即训练样本X中的命名实体的数量与非命名实体的数量之和。e_k表示训练样本X中实体k所对应的实体向量。P(i)是训练样本X中的实体i的正例集合，即训练样本X中与命名实体i属于同一种实体类型的实体的集合。M是上述正例集合中的实体的数量。A(i)是训练样本X中除实体i之外的实体集合。

然后，计算当前批次中所有训练样本本对应的实体向量序列的实体对比损失的平均值，得到当前批次的实体对比损失L_cl，具体包括：

其中，N为批量大小。

(7)将当前批次的交叉熵损失和实体对比损失相加，得到当前批次的总损失L，例如，按照预设权重，对所述交叉熵损失和实体对比损失进行加权求和，得到总损失。一种具体计算方式为：

其中，λ是超参数，一般情况下为0到1之间。

(8)基于所述总损失对所述预训练语言模型和全连接层进行优化，具体可以采用自适应矩估计(Adam)算法，调整所述预训练语言模型和全连接层的模型参数，以减小所述总损失为目标进行优化。

例如，使用Adam优化器计算梯度，然后反馈到整个模型(预训练模型和全连接层)，更新神经网络的参数，完成一轮迭代。

通过重复执行上述步骤(1)-(8)，采用不同批次的训练样本进行迭代训练，直到模型收敛，然后停止迭代，得到优化后的命名实体识别模型。

在获得训练优化后的命名实体识别模型后，本申请实施例可以基于训练优化后的模型，将待预测的数据输入到优化后的命名实体识别模型(编码器和全连接层)中，命名实体识别模型输出每个实体类别对应的概率，取概率最大的实体类别作为最终识别结果，完成命名实体识别。

从以上步骤可以看出，本申请实施例提供了一种基于预训练语言模型和监督对比学习(SupervisedContrastiveLearning，SCL)进行命名实体识别模型训练的新方法，在上述步骤(7)中，通过融合实体特征以引导模型在训练阶段学习不同类别实体的特征(在特征空间内，使得同类别实体之间的隐藏表示的距离变近，使得不同类别实体之间的隐藏表示距离变远)，从而可以使模型更好地区分类型相似且难以区分的实体，提高了训练得到的命名实体识别模型的性能。另外，本申请实施例不需要引入额外的数据、知识库和模型结构等，具有模型结构简单，易于实现等优点。另外，本申请实施例训练得到的命名实体识别模型，适用于无明显分词特征的语言，并支持所有的序列化标注任务。

基于以上方法，本申请实施例还提供了实施上述方法的装置，请参考图3，本申请实施例提供了一种命名实体识别模型的训练装置，所述命名实体模型包括有预训练语言模型和全连接层，所述训练装置包括：

序列编码模块31，用于将当前批次的训练样本输入至所述预训练语言模型进行编码，得到当前批次的每个训练样本的令牌向量序列；

第一损失计算模块32，用于将当前批次的训练样本对应的令牌向量序列输入至所述全连接层，得到训练样本中的令牌归属于各个标签类型的预测概率，并根据所述预测概率计算得到当前批次的交叉熵损失；

第二损失计算模块33，用于将当前批次的训练样本对应的令牌向量序列转换为当前批次的训练样本对应的实体向量序列，并通过监督对比学习，计算得到当前批次的实体对比损失；

优化模块34，用于根据所述交叉熵损失和实体对比损失得到当前批次的总损失，基于所述总损失对所述预训练语言模型和全连接层进行优化。

通过以上模块，本申请实施例能够提高训练得到的命名实体识别模型的性能。

如图4所示，本申请实施例提供的另一种命名实体识别模型的训练装置中，还包括有：

样本获得模块35，用于获得训练集，所述训练集包括多个训练样本；

样本划分模块36，用于按照预设批量大小，将所述训练集中的训练样本划分为多个批次；

训练控制模块37，用于循环利用各个批次的训练样本，并调用所述序列编码模块、第一损失计算模块、第二损失计算模块和优化模块，对所述命名实体模型进行训练，直至满足预设的训练结束条件。

可选的，所述装置还包括以下模块：

可选的，所述序列编码模块，还用于：

可选的，所述第二损失计算模块，还用于：

可选的，所述优化模块，还采用自适应矩估计算法，调整所述预训练语言模型和全连接层的模型参数，以减小所述总损失为目标进行优化。

请参考图5，本申请实施例还提供了原型网络训练装置的一种硬件结构框图，如图5所示，该训练装置500包括：

处理器302；和

存储器304，在所述存储器304中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器302执行以下步骤：

进一步地，如图5所示，该模型训练装置500还包括网络接口501、输入设备503、硬盘505、和显示设备506。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器502代表的一个或者多个中央处理器(CPU)和/或图形处理器(GPU)，以及由存储器504代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口501，可以连接至网络(如因特网、局域网等)，从网络中接收训练样本等数据，并可以将接收到的数据保存在硬盘505中。

所述输入设备503，可以接收操作人员输入的各种指令，并发送给处理器502以供执行。所述输入设备503可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备506，可以将处理器502执行指令获得的结果进行显示，例如显示训练进度等。

所述存储器504，用于存储操作系统运行所必须的程序和数据，以及处理器502计算过程中的中间结果等数据。

可以理解，本申请实施例中的存储器504可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器504旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器504存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统5041和应用程序5042。

其中，操作系统5041，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5042，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例方法的程序可以包含在应用程序5042中。

本申请上述实施例揭示的方法可以应用于处理器502中，或者由处理器502实现。处理器502可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器502中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器502可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器504，处理器502读取存储器504中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，所述计算机程序被处理器502执行时还可实现如下步骤：

在将当前批次的训练样本输入至所述预训练语言模型之前，获得训练集，所述训练集包括多个训练样本；

利用训练得到的命名实体模型进行命名实体的识别。

按照预设权重，对所述交叉熵损失和实体对比损失进行加权求和，得到总损失。

采用自适应矩估计算法，调整所述预训练语言模型和全连接层的模型参数，以减小所述总损失为目标进行优化。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种命名实体识别模型的训练方法，所述命名实体模型包括有预训练语言模型和全连接层，其特征在于，所述训练方法包括：

步骤C，将当前批次的训练样本对应的令牌向量序列转换为当前批次的训练样本对应的实体向量序列，并通过监督对比学习损失函数，计算得到当前批次的实体对比损失；

2.如权利要求1所述的方法，其特征在于，在将当前批次的训练样本输入至所述预训练语言模型之前，所述方法还包括：

获得训练集，所述训练集包括多个训练样本；

3.如权利要求2所述的方法，其特征在于，还包括：

利用训练得到的命名实体模型进行命名实体的识别。

4.如权利要求1所述的方法，其特征在于，所述将当前批次的训练样本输入至所述预训练语言模型进行编码，得到当前批次的每个训练样本的令牌向量序列，包括：

将当前批次的训练样本的令牌序列输入至所述预训练语言模型，利用所述预训练语言模型编码得到当前批次的每个训练样本的令牌向量序列。

5.如权利要求1所述的方法，其特征在于，所述将当前批次的训练样本对应的令牌向量序列转换为当前批次的训练样本对应的实体向量序列，包括：

6.如权利要求1所述的方法，其特征在于，所述通过监督对比学习，计算得到当前批次的实体对比损失，包括：

7.如权利要求1所述的方法，其特征在于，根据所述交叉熵损失和实体对比损失得到当前批次的总损失，包括：按照预设权重，对所述交叉熵损失和实体对比损失进行加权求和，得到总损失。

8.如权利要求1所述的方法，其特征在于，基于所述总损失对所述预训练语言模型和全连接层进行优化，包括：采用自适应矩估计算法，调整所述预训练语言模型和全连接层的模型参数，以减小所述总损失为目标进行优化。

9.一种命名实体识别模型的训练装置，所述命名实体模型包括有预训练语言模型和全连接层，其特征在于，所述训练装置包括：

10.如权利要求9所述的装置，其特征在于，还包括：

11.如权利要求10所述的装置，其特征在于，还包括：

12.如权利要求9所述的装置，其特征在于，所述序列编码模块，还用于：

13.如权利要求9所述的装置，其特征在于，所述第二损失计算模块，还用于：

14.如权利要求9所述的装置，其特征在于，所述第二损失计算模块，还用于：

15.如权利要求9所述的装置，其特征在于，所述优化模块，还用于按照预设权重，对所述交叉熵损失和实体对比损失进行加权求和，得到总损失。

16.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至8中任一项所述的命名实体识别模型的训练方法的步骤。