CN115409111A

CN115409111A - 命名实体识别模型的训练方法和命名实体识别方法

Info

Publication number: CN115409111A
Application number: CN202211054854.9A
Authority: CN
Inventors: 张磊
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-11-29

Abstract

本申请涉及一种命名实体识别模型的训练方法和装置、命名实体识别方法和装置、计算机设备、存储介质和计算机程序产品，涉及人工智能技术领域，可用于金融科技领域或其他领域。所述方法包括：获取多个待标注标签的训练语料；基于预设知识库对训练语料进行实体标注，得到目标类别序列；将训练语料输入至命名实体识别模型进行实体识别，得到预测结果；基于第一类型损失函数和第二类型损失函数构建目标损失函数，基于预测结果、目标类别序列、目标损失函数，计算损失值；基于损失值和预设模型更新算法，对命名实体识别模型进行更新，基于更新后的命名实体识别模型确定目标命名实体识别模型。采用本方法能够提高命名实体识别模型的识别准确度。

Description

命名实体识别模型的训练方法和命名实体识别方法

技术领域

本申请涉及人工智能技术领域，特别是涉及一种命名实体识别模型的训练方法和装置、命名实体识别方法和装置、计算机设备、存储介质和计算机程序产品。

背景技术

命名实体识别任务的目标是识别出文本中的人名、位置、机构等实体名称，是自然语言处理中的基本任务，有着广泛的应用。一般可以通过命名实体识别模型对待识别文本进行命名实体识别，识别出待识别文本包含的命名实体、以及各命名实体对应的类型。

相关技术中，命名实体识别模型的训练方法一般是采用已标注实体名称的训练语料对初始模型进行训练，然而已标注的训练语料数量较少，导致训练得到的命名实体识别模型的识别准确度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高识别准确度的命名实体识别模型的训练方法和装置、命名实体识别方法和装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种命名实体识别模型的训练方法。所述方法包括：

获取多个待标注标签的训练语料；

基于预设知识库对各所述训练语料进行命名实体标注，得到每个所述训练语料对应的目标类别序列；

将各所述训练语料输入至第一命名实体识别模型进行命名实体识别，得到各所述训练语料对应的第一预测结果；

基于第一类型损失函数和第二类型损失函数构建第一目标损失函数，并基于所述第一预测结果、所述目标类别序列、以及所述第一目标损失函数，计算第一损失值；

基于所述第一损失值和预设的第一模型更新算法，对所述第一命名实体识别模型进行更新，并基于更新后的第一命名实体识别模型确定目标命名实体识别模型。

在其中一个实施例中，所述基于预设知识库对各所述训练语料进行命名实体标注，得到各所述训练语料对应的目标类别序列，包括：

将各所述训练语料进行分词处理，得到每个所述训练语料对应的词语序列；

将所述词语序列中的每个词语分别与预设知识库中的各知识进行匹配处理；所述预设知识库包含多个知识和各知识对应的命名实体类别标签；

将与所述词语相匹配的知识对应的命名实体类别标签，确定为所述词语对应的命名实体类别标签；

基于各所述词语对应的命名实体类别标签，确定各所述训练语料对应的目标类别序列。

在其中一个实施例中，所述基于更新后的第一命名实体识别模型确定目标命名实体识别模型，包括：

将更新后的第一命名实体识别模型确定为目标命名实体识别模型。

在其中一个实施例中，所述第一命名实体识别模型的数目为多个，所述多个第一命名实体识别模型的初始参数不同；所述基于更新后的第一命名实体识别模型确定目标命名实体识别模型，包括：

将所述训练语料输入至第二命名实体识别模型进行命名实体识别，得到第二预测结果；

将所述训练语料输入至各更新后的第一命名实体识别模型进行命名实体识别，得到多个第三预测结果，并基于所述多个第三预测结果，确定目标预测结果；

基于所述第二预测结果、所述目标预测结果、以及第二目标损失函数，计算第二损失值；

根据所述第二损失值和预设的第二模型更新算法，对所述第二命名实体识别模型进行更新，将更新后的第二命名实体识别模型确定为目标命名实体识别模型。

在其中一个实施例中，所述第三预测结果包含各命名实体类别的预测置信度；所述基于所述多个第三预测结果，确定目标预测结果，包括：

针对每个更新后的第一命名实体识别模型，根据所述更新后的第一命名实体识别模型对应的第三预测结果、以及所述目标类别序列，确定所述更新后的第一命名实体识别模型对应的目标预测置信度；

计算各所述更新后的第一命名实体识别模型对应的目标预测置信度的均值，将所述均值确定为目标预测结果。

第二方面，本申请还提供了一种命名实体识别方法。所述方法包括：

获取待识别文本；

将所述待识别文本输入至目标命名实体识别模型进行命名实体识别，得到预测结果；其中，所述目标命名实体识别模型通过第一方面所述的命名实体识别模型的训练方法训练得到；

根据所述预测结果确定所述待识别文本包含的命名实体。

第三方面，本申请还提供了一种命名实体识别模型的训练装置。所述装置包括：

获取模块，用于获取多个待标注标签的训练语料；

标注模块，用于基于预设知识库对各所述训练语料进行命名实体标注，得到每个所述训练语料对应的目标类别序列；

识别模块，用于将各所述训练语料输入至第一命名实体识别模型进行命名实体识别，得到各所述训练语料对应的第一预测结果；

计算模块，用于基于第一类型损失函数和第二类型损失函数构建第一目标损失函数，并基于所述第一预测结果、所述目标类别序列、以及所述第一目标损失函数，计算第一损失值；

确定模块，用于基于所述第一损失值和预设的第一模型更新算法，对所述第一命名实体识别模型进行更新，并基于更新后的第一命名实体识别模型确定目标命名实体识别模型。

在其中一个实施例中，所述标注模块具体用于：

将各所述训练语料进行分词处理，得到每个所述训练语料对应的词语序列；将所述词语序列中的每个词语分别与预设知识库中的各知识进行匹配处理；所述预设知识库包含多个知识和各知识对应的命名实体类别标签；将与所述词语相匹配的知识对应的命名实体类别标签，确定为所述词语对应的命名实体类别标签；基于各所述词语对应的命名实体类别标签，确定各所述训练语料对应的目标类别序列。

在其中一个实施例中，所述确定模块具体用于：

在其中一个实施例中，所述第一命名实体识别模型的数目为多个，所述多个第一命名实体识别模型的初始参数不同；所述确定模块具体用于：

将所述训练语料输入至第二命名实体识别模型进行命名实体识别，得到第二预测结果；将所述训练语料输入至各更新后的第一命名实体识别模型进行命名实体识别，得到多个第三预测结果，并基于所述多个第三预测结果，确定目标预测结果；基于所述第二预测结果、所述目标预测结果、以及第二目标损失函数，计算第二损失值；根据所述第二损失值和预设的第二模型更新算法，对所述第二命名实体识别模型进行更新，将更新后的第二命名实体识别模型确定为目标命名实体识别模型。

在其中一个实施例中，所述第三预测结果包含各命名实体类别的预测置信度；所述确定模块具体用于：

针对每个更新后的第一命名实体识别模型，根据所述更新后的第一命名实体识别模型对应的第三预测结果、以及所述目标类别序列，确定所述更新后的第一命名实体识别模型对应的目标预测置信度；计算各所述更新后的第一命名实体识别模型对应的目标预测置信度的均值，将所述均值确定为目标预测结果。

第四方面，本申请还提供了一种命名实体识别装置。所述装置包括：

获取模块，用于获取待识别文本；

识别模块，用于将所述待识别文本输入至目标命名实体识别模型进行命名实体识别，得到预测结果；其中，所述目标命名实体识别模型通过第一方面所述的命名实体识别模型的训练方法训练得到；

确定模块，用于根据所述预测结果确定所述待识别文本包含的命名实体。

第五方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面或第二方面所述的方法的步骤。

第六方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面或第二方面所述的方法的步骤。

第七方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面或第二方面所述的方法的步骤。

上述命名实体识别模型的训练方法和装置、命名实体识别方法和装置、计算机设备、存储介质和计算机程序产品，通过获取多个待标注标签的训练语料，基于预设知识库对各训练语料进行命名实体标注，得到每个训练语料对应的目标类别序列。然后将各训练语料输入至第一命名实体识别模型进行命名实体识别，得到各训练语料对应的第一预测结果，之后基于第一类型损失函数和第二类型损失函数构建第一目标损失函数，并基于第一预测结果、目标类别序列、以及第一目标损失函数，计算第一损失值。然后基于第一损失值和预设的第一模型更新算法，对第一命名实体识别模型进行更新，并基于更新后的第一命名实体识别模型确定目标命名实体识别模型。本方法中，获取的训练语料为待标注标签的训练语料，即未进行标注标签的训练语料，相比获取已标注的训练语料，本方法获取训练语料的难度较低，因而可以采用更多的训练语料用于模型训练，提高模型训练效果，同时，模型训练过程中使用的目标损失函数是基于第一类型损失函数和第二类型损失函数构建的，可以兼顾模型的收敛性和对于目标类别序列中的噪声的鲁棒性。因此，本方法能提高训练后的命名实体识别模型对于文本中实体名称的识别准确度。

附图说明

图1为一个实施例中命名实体识别模型的训练方法的流程示意图；

图2为一个实施例中标注训练语料的流程示意图；

图3为一个实施例中确定目标命名实体识别模型的流程示意图；

图4为一个实施例中命名实体识别方法的流程示意图；

图5为一个实施例中命名实体识别模型的训练装置的结构框图；

图6为一个实施例中命名实体识别装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先，在具体介绍本申请实施例的技术方案之前，先对本申请实施例基于的技术背景或者技术演进脉络进行介绍。相关技术中，命名实体识别模型的训练一般是采用已标注实体名称的训练语料对初始模型进行训练，而训练语料的标注一般为人工标注，标注成本高，因而获取已标注的训练语料难度较大，能获取到的已标注的训练语料数量较少，导致训练得到的命名实体识别模型的识别准确度较低。基于该背景，申请人通过长期的研发以及实验验证，提出本申请的命名实体识别模型的训练方法，能提高训练后的命名实体识别模型对于文本中实体名称的识别准确度。另外，需要说明的是，本申请技术问题的发现以及下述实施例介绍的技术方案，申请人均付出了大量的创造性劳动。

在一个实施例中，如图1所示，提供了一种命名实体识别模型的训练方法，以该方法应用于终端为例进行说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。该方法包括以下步骤：

步骤101，获取多个待标注标签的训练语料。

在实施中，可以针对命名实体识别模型的应用场景构建训练语料库。例如，若命名实体识别模型的应用场景为识别金融领域文本中包含的时间、货币名、金融机构名、地名、金融领域专业术语等命名实体，则可以定义实体类别为时间、货币名、金融机构名、地名、金融领域专业术语等，然后获取包含上述各类别命名实体的语料构建训练语料库。例如，可以获取金融领域的报告、新闻、著作等文本中的语料构建训练语料库。训练语料库中的每个训练语料可以是未标注实体类别标签的文本，即为待标注标签的训练语料。进行模型训练时，终端可以直接从训练语料库中获取多个待标注标签的训练语料用于后续处理。

步骤102，基于预设知识库对各训练语料进行命名实体标注，得到每个训练语料对应的目标类别序列。

其中，预设知识库存储有多个知识，可以根据各知识的关联知识或属性信息确定其实体类别。

在实施中，终端可以基于预设知识库对各训练语料进行命名实体标注，例如，可以将训练语料包含的每个词语，通过字符串匹配或正则表达式的方式，在预设知识库中匹配出对应的知识，并将该知识对应的实体类别，确定为该词语的实体类别，由此得到训练语料中各词语对应的类别标签。训练语料中各词语的类别标签组成的序列，即为该训练语料对应的目标类别序列。训练语料和对应的目标类别序列，可以作为训练样本用于模型训练。

对于训练语料x，可表示为序列x＝[x₁,…,_n]，x₁表示训练语料x中的第1个词语，n表示训练语料x包含的词语数量。其对应的目标类别序列可表示为y＝[y₁,…,_n]，y₁表示词语x₁对应的目标类别标签，可以是定义的实体类别标签(如时间、金融机构名、货币名等)，也可以是非实体类别标签(即不属于定义的任何一种实体类别)。例如，若预先定义3种实体类别标签，分别记为A、B、C，以及将非实体类别标签记为D，则y₁为A、B、C、D中的一种。

步骤103，将各训练语料输入至第一命名实体识别模型进行命名实体识别，得到各训练语料对应的第一预测结果。

其中，第一命名实体识别模型为待训练模型，可以构建Transformer结构的神经网络作为第一命名实体识别模型。

在实施中，终端可以将各训练语料输入至第一命名实体识别模型进行命名实体识别，得到每个训练语料对应的第一预测结果。第一预测结果包含多个类别预测置信度集合。每个类别预测置信度集合与训练语料中包含的词语对应。各类别预测置信度集合中的每个类别预测置信度对应一个类别(包括实体类别和非实体类别)，表示该词语为该类别的置信度。例如，若预先定义3种实体类别标签，分别记为A、B、C，以及将非实体类别标签记为D，对于训练语料x＝[x₁,…,_n]，其对应的第一预测结果包含n个类别预测置信度集合M_i(i∈[1,n])，其中，M₁为词语x₁对应的类别预测置信度集合。x₁对应的类别预测置信度集合可表示为(A₁,B₁,C₁,D₁)，其中，A₁表示词语x₁为实体类别A的类别预测置信度，B₁表示词语x₁为实体类别B的类别预测置信度，C₁表示词语x₁为实体类别C的类别预测置信度，D₁表示词语x₁为非实体类别D的类别预测置信度。

步骤104，基于第一类型损失函数和第二类型损失函数构建第一目标损失函数，并基于第一预测结果、目标类别序列、以及第一目标损失函数，计算第一损失值。

在实施中，终端可以基于第一类型损失函数和第二类型损失函数构建第一目标损失函数，作为训练第一命名实体识别模型的目标损失函数(即第一目标损失函数)。其中，第一类型损失函数可以是交叉熵损失函数(可记为L_CE)，公式如下所示：

其中，f_i,yi(；θ)是第一命名实体识别模型对训练语料x＝[x₁,…,_n]的第一预测结果中，第i个词语x_i为类别y_i的类别预测置信度(或称为预测概率)。n为训练语料x包含的词语的数量。y_i为训练语料x对应的目标类别序列y＝[₁,…,_n]中，词语x_i对应的类别。θ为第一命名实体识别模型的参数。例如，若预先定义3种实体类别标签，分别记为A、B、C，以及将非实体类别标签记为D，对于训练语料x＝[x₁,…,_n]，其对应的目标类别序列为y＝[y₁,…,_n]，则y_i为A、B、C、D中的一种。若y₁＝A(即基于预设知识库对训练语料x进行命名实体标注时，将词语x₁标注为类别A)，第一预测结果中词语x₁对应的类别预测置信度集合为(A₁,B₁,C₁,D₁)，则f_1,y1(x；θ)＝A₁，A₁表示第一预测结果中，词语x₁为类别A(即y₁)的类别预测置信度。

交叉熵损失函数L_CE的梯度计算公式如下所示：

在公式(2)中，由于f_i,yi(x；θ)是分母，在梯度更新期间，模型预测的类别与目标类别不一致的词语将被隐式加权。故采用交叉熵损失函数L_CE作为模型的损失函数时，当训练样本中没有噪声时(比如训练语料对应的目标类别标签中所有类别标签均是正确的)，则可以使模型更好地收敛，预测结果比较准确。但是当训练样本中包含噪声时(即训练语料对应的目标类别标签中，存在某些词语的类别标注错误)，则训练好的模型会对错误类别标注的词语产生过拟合。因此，交叉熵损失函数L_CE对于有噪声的训练样本比较敏感。

第二类型损失函数可以是平均绝对错误损失函数(可记为L_MAE)，公式如下所示：

平均绝对错误损失函数L_MAE的梯度计算公式如下所示：

根据公式(4)可知，在梯度更新时，公式(4)可以平等地对待训练语料中的每个词语，从而使模型的学习过程可以由大多数正确的类别标签来主导，而不受小部分有噪声类别标签的影响。然而，平均绝对错误损失函数L_MAE的缺点是会降低模型的收敛效率和有效性，从而可能导致模型训练的效果较差。

终端可以将该两个损失函数进行融合，构建均衡两个损失函数特点的第一目标损失函数(可记为L_GCE)，公式如下所示：

其中，q为取值范围为大于0小于1的超参数(0<q<1)，可以根据实验或经验预先设置。

根据公式(1)、(3)、(5)可知，当q趋近于1(q→1)时，第一目标损失函数L_GCE近似等于平均绝对错误损失函数L_MAE；当q趋近于0(q→0)时，第一目标损失函数L_GCE近似等于交叉熵损失函数L_CE。

第一目标损失函数L_GCE的梯度计算公式如下：

对比公式(6)和公式(2)可知，在公式(6)中，模型预测的类别标签与准确的类别标签不一致的单词的权重相对更低一些。故第一目标损失函数L_GCE比交叉熵损失函数L_CE的鲁棒性更强。对比公式(6)和公式(4)可知，在公式(6)中，预测难度较大的词语可以得到更大的权重，故第一目标损失函数L_GCE比平均绝对错误损失函数L_MAE具有更好的收敛能力。

因此，将第一目标损失函数L_GCE作为训练第一命名实体识别模型的目标损失函数，可以使得训练后的模型具有更强的鲁棒性和更好的收敛能力，提升模型的训练效果，进而提高模型的识别准确度。

然后，终端可以基于第一预测结果、目标类别序列、以及第一目标损失函数L_GCE，计算第一损失值。具体的，终端可以基于第一预测结果(训练语料x＝[x₁,…,_n]中各词语对应的类别预测置信度集合M_i)和目标类别序列y＝[y₁,…,_n]，确定训练语料x＝[x₁,…,_n]中第i个词语x_i属于目标类别y_i(该词语在目标类别序列中对应的命名实体类别标签)的类别预测置信度f_i,yi(；θ)，并代入第一目标损失函数L_GCE(公式5)，计算出第一损失值。

步骤105，基于第一损失值和预设的第一模型更新算法，对第一命名实体识别模型进行更新，并基于更新后的第一命名实体识别模型确定目标命名实体识别模型。

在实施中，终端可以基于步骤104中计算出的第一损失值，以及预设的第一模型更新算法(如梯度下降法，根据公式6计算梯度)，对第一命名实体识别模型的参数θ进行更新，使得基于更新后的第一命名实体识别模型计算的新的损失值最小(或小于预设阈值)。然后，终端可以基于更新后的第一命名实体识别模型确定目标命名实体识别模型。例如，终端可以直接将更新后的第一命名实体识别模型作为目标命名实体识别模型。

上述命名实体识别模型的训练方法中，通过获取待标注标签的训练语料，即未进行标注标签的训练语料，然后基于预设知识库对各训练语料进行命名实体标注，得到目标类别序列，将训练语料和目标类别序列作为训练样本对命名实体识别模型进行训练。相比直接获取已标注的训练语料作为训练样本，本方法获取训练样本的难度较低，因而可以采用更多的训练样本用于命名实体识别模型的训练，提高模型训练效果。同时，命名实体识别模型训练的过程中使用的目标损失函数是基于第一类型损失函数和第二类型损失函数构建的，融合了两类损失函数的特点，可以兼顾模型的收敛性和对于训练样本中的噪声的鲁棒性。因此，本方法能提高训练后的命名实体识别模型对于文本中实体名称的识别准确度。

在一个实施例中，如图2所示，步骤102中对训练语料进行命名实体标注的过程具体包括如下步骤：

步骤201，将各训练语料进行分词处理，得到每个训练语料对应的词语序列。

在实施中，终端可以采用分词算法(如前向或后向最大匹配算法)对每个训练语料进行分词处理，得到每个训练语料对应的词语序列。对于训练语料x，其对应的词语序列可表示为x＝[x₁,…,x_n]。

步骤202，将词语序列中的每个词语分别与预设知识库中的各知识进行匹配处理。

其中，预设知识库包含多个知识和各知识对应的命名实体类别标签。

在实施中，终端可以将词语序列x＝[x₁,…,x_n]中的每个词语x_i，分别与预设知识库中的各知识进行匹配，如采用字符串匹配的方式或正则表达式的方式进行匹配处理。

步骤203，将与词语相匹配的知识对应的命名实体类别标签，确定为该词语对应的命名实体类别标签。

在实施中，对于词语x_i，若终端在预设知识库中匹配出与之对应的知识，则可以将该知识对应的命名实体类别标签确定为词语x_i对应的命名实体类别标签。可以理解的，若终端未匹配出与该词语对应的知识，则可以将非实体类别标签作为该词语对应的类别标签。

步骤204，基于各词语对应的命名实体类别标签，确定各训练语料对应的目标类别序列。

在实施中，终端在确定出训练语料对应的词语序列中，各词语对应的命名实体类别标签后，将各词语的命名实体类别标签组成的序列，作为训练语料对应的目标类别序列，可表示为y＝[y₁,…,y_n]。

本实施例中，可以将获取的待标注训练语料进行分词处理，得到词语序列，并将词语序列中每个词语分别与预设知识库中的知识匹配，确定出各词语对应的命名实体类别标签，进而得到各训练语料对应的目标类别序列。由此，相比直接获取已标注的训练语料，本方案获取训练语料的难度较低，可以获取大量目标领域(如金融领域)的未标注标签的训练语料用于模型训练，提高命名实体识别模型的识别准确度。

在一个实施例中，步骤105中确定目标命名实体识别模型的过程具体包括：将更新后的第一命名实体识别模型确定为目标命名实体识别模型。

在实施中，终端可以将更新后的第一命名实体识别模型确定目标命名实体识别模型。可以理解的，终端还可以在更新模型参数后，返回执行将各所述训练语料输入至第一命名实体识别模型进行命名实体识别，得到各所述训练语料对应的第一预测结果的步骤(步骤103)，直到达到预设迭代次数，或直到计算的损失值小于预设阈值，则可以结束训练，将更新参数后的第一命名实体识别模型作为目标命名实体识别模型。

本实施例中，训练第一命名实体识别模型的过程中，获取的训练语料的难度较低，可以采用大量目标领域(如金融领域)的训练语料训练该模型，且采用的目标损失函数融合了两类损失函数的特点，可以兼顾模型的收敛性和对于目标类别序列中的噪声的鲁棒性，从而训练后的第一命名实体识别模型具有较高的识别准确度。

在一个实施例中，第一命名实体识别模型的数目为多个，多个第一命名实体识别模型的初始参数不同。如图3所示，步骤105中确定目标命名实体识别模型的过程具体包括如下步骤：

步骤301，将训练语料输入至第二命名实体识别模型进行命名实体识别，得到第二预测结果。

在实施中，终端可以训练多个第一命名实体识别模型(如K个，K可以为5)，得到多个更新后的第一命名实体识别模型。其中，第一命名实体识别模型的初始参数不同，例如，可以采用不同的随机种子对第一命名实体识别模型进行初始化。

终端还可以构建第二命名实体识别模型。第二命名实体识别模型的结构可以和第一命名实体识别模型相同。然后，终端可以将步骤101中获取的训练语料输入至第二命名实体识别模型进行命名实体识别，得到第二预测结果。第二预测结果可以包含多个类别预测置信度集合，每个类别预测置信度集合与训练语料中包含的词语对应。各类别预测置信度集合中的每个类别预测置信度对应一个类别(包括实体类别和非实体类别)，表示该词语为该类别的置信度。

步骤302，将训练语料输入至各更新后的第一命名实体识别模型进行命名实体识别，得到多个第三预测结果，并基于多个第三预测结果，确定目标预测结果。

在实施中，终端可以将步骤301中使用的训练语料输入至K个更新后的第一命名实体识别模型，得到K个更新后的第一命名实体识别模型对应的第三预测结果。然后，终端可以基于该K个第三预测结果，确定目标预测结果。例如，可以将K个第三预测结果取平均，得到目标预测结果。

步骤303，基于第二预测结果、目标预测结果、以及第二目标损失函数，计算第二损失值。

其中，第二目标损失函数(可记为L_ENS)的公式可以如下所示：

其中，

表示目标预测结果(如K个第一命名实体识别模型的预测结果的平均结果)中，训练语料x＝[x₁,…,x_n]的第i个词语x_i属于目标类别y_i(目标类别序列y＝[y₁,…,y_n]中的类别y_i)的类别预测置信度；f_i(x；θ_ENS)表示第二预测结果(即第二命名实体识别模型的预测结果)中，词语x_i属于目标类别y_i的类别预测置信度。KL()表示KL散度函数。θ_ENS表示第二命名实体识别模型的参数。θ_k表示第k个第一命名实体识别模型的参数。

终端可以将第二预测结果和目标预测结果中，训练语料x＝[x₁,…,x_n]各词语x_i属于目标类别y_i的类别预测置信度f_i(x；θ_ENS)和

代入第二目标损失函数L_ENS(公式7)，计算出第二损失值。

步骤304，根据第二损失值和预设的第二模型更新算法，对第二命名实体识别模型进行更新，将更新后的第二命名实体识别模型确定为目标命名实体识别模型。

在实施中，终端可以根据步骤303计算出的第二损失值和预设的第二模型更新算法(如梯度下降算法)，对第二命名实体识别模型的参数θ_ENS进行更新，使更新后的模型计算出的新的第二损失值达到预设条件(如小于预设阈值)，即可结束训练，终端可以将更新参数后的第二命名实体识别模型确定为目标命名实体识别模型。

本实施例中，在训练目标命名实体识别模型的过程中，训练目标为使训练后的第二命名实体识别模型的预测结果，尽可能接近多个训练后的第一命名实体识别模型的预测结果的平均结果(目标预测结果)，使得目标命名实体识别模型的预测稳定性更强。

在一个实施例中，第三预测结果包含各命名实体类别的预测置信度。步骤302中确定目标预测结果的过程具体包括：针对每个更新后的第一命名实体识别模型，根据更新后的第一命名实体识别模型对应的第三预测结果、以及目标类别序列，确定更新后的第一命名实体识别模型对应的目标预测置信度；计算各更新后的第一命名实体识别模型对应的目标预测置信度的均值，将均值确定为目标预测结果。

在实施中，针对每个更新后的第一命名实体识别模型，终端可以根据更新后的第一命名实体识别模型对应的第三预测结果、以及目标类别序列，确定更新后的第一命名实体识别模型对应的目标预测置信度。目标预测置信度可以是第三预测结果中，训练语料各词语为目标类别序列中的目标类别的类别预测置信度。然后，终端可以计算各更新后的第一命名实体识别模型对应的目标预测置信度的均值，将该均值确定为目标预测结果(可记为

)。在一个示例中，目标预测结果

的计算公式如下所示：

其中，f_i(x；θ_k)为第k个更新后的第一命名实体识别模型对训练语料x＝[x₁,…,x_n]的第三预测结果中，第i个词语x_i为目标类别y_i(该词语在目标类别序列y＝[y₁,…,y_n]中对应的命名实体类别标签y_i)的类别预测置信度(即目标预测置信度)。K为第一命名实体识别模型的个数。

本实施例中，将K个更新后的第一命名实体识别模型对应的目标预测置信度取平均，得到的均值作为目标预测结果，进而基于目标预测结果更新第二命名实体识别模型的参数，使得第二命名实体识别模型的预测结果接近目标预测结果，由此可以提高目标命名实体识别模型的预测稳定性。

在一个实施例中，如图4所示，还提供了一种命名实体识别方法，该方法还包括：

步骤401，获取待识别文本。

在实施中，终端可以获取待识别文本。待识别文本可以是与训练命名实体识别模型的训练语料相同或相近领域的文本。

步骤402，将待识别文本输入至目标命名实体识别模型进行命名实体识别，得到预测结果。

其中，目标命名实体识别模型是根据上述实施例涉及的命名实体识别模型的训练方法训练得到的。

在实施中，终端可以将待识别文本输入至目标命名实体识别模型进行命名实体识别，得到预测结果。预测结果包含待识别文本中各词语对应的类别预测置信度集合。

步骤403，根据预测结果确定待识别文本包含的命名实体。

在实施中，终端可以根据预测结果确定出待识别文本包含的命名实体。具体的，终端可以将各词语的类别预测置信度集合中，数值最大的置信度对应的命名实体类别，作为该词语对应的命名实体类别，由此，可以得到待识别文本包含的命名实体。例如，预先定义3种实体类别标签，分别记为A、B、C，以及将非实体类别标签记为D，若待识别文本为包含m个词语的序列

则预测结果可以为各词语

的类别预测置信度集合

然后，终端可以在类别预测置信度集合确定出数值最大的置信度，如

数值最大，则待识别文本中的词语

对应的命名实体类别为类别A，即识别出该待识别文本中包含类别为A的命名实体

(即词语

为一个目标命名实体)。

本实施例中，将上述各命名实体识别模型的训练方法训练得到的目标命名实体识别模型，用于对待识别文本进行命名实体识别，可以较准确地识别出待识别文本包含的命名实体。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的命名实体识别模型的训练方法的命名实体识别模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个命名实体识别模型的训练装置实施例中的具体限定可以参见上文中对于命名实体识别模型的训练方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种命名实体识别模型的训练装置500，包括：获取模块501、标注模块502、识别模块503、计算模块504和确定模块505，其中：

获取模块501，用于获取多个待标注标签的训练语料。

标注模块502，用于基于预设知识库对各训练语料进行命名实体标注，得到每个训练语料对应的目标类别序列。

识别模块503，用于将各训练语料输入至第一命名实体识别模型进行命名实体识别，得到各训练语料对应的第一预测结果。

计算模块504，用于基于第一类型损失函数和第二类型损失函数构建第一目标损失函数，并基于第一预测结果、目标类别序列、以及第一目标损失函数，计算第一损失值。

确定模块505，用于基于第一损失值和预设的第一模型更新算法，对第一命名实体识别模型进行更新，并基于更新后的第一命名实体识别模型确定目标命名实体识别模型。

在其中一个实施例中，标注模块502具体用于：将各训练语料进行分词处理，得到每个训练语料对应的词语序列；将词语序列中的每个词语分别与预设知识库中的各知识进行匹配处理；预设知识库包含多个知识和各知识对应的命名实体类别标签；将与词语相匹配的知识对应的命名实体类别标签，确定为词语对应的命名实体类别标签；基于各词语对应的命名实体类别标签，确定各训练语料对应的目标类别序列。

在其中一个实施例中，确定模块505具体用于：将更新后的第一命名实体识别模型确定为目标命名实体识别模型。

在其中一个实施例中，第一命名实体识别模型的数目为多个，多个第一命名实体识别模型的初始参数不同；确定模块505具体用于：将训练语料输入至第二命名实体识别模型进行命名实体识别，得到第二预测结果；将训练语料输入至各更新后的第一命名实体识别模型进行命名实体识别，得到多个第三预测结果，并基于多个第三预测结果，确定目标预测结果；基于第二预测结果、目标预测结果、以及第二目标损失函数，计算第二损失值；根据第二损失值和预设的第二模型更新算法，对第二命名实体识别模型进行更新，将更新后的第二命名实体识别模型确定为目标命名实体识别模型。

在其中一个实施例中，第三预测结果包含各命名实体类别的预测置信度。确定模块505具体用于：针对每个更新后的第一命名实体识别模型，根据更新后的第一命名实体识别模型对应的第三预测结果、以及目标类别序列，确定更新后的第一命名实体识别模型对应的目标预测置信度；计算各更新后的第一命名实体识别模型对应的目标预测置信度的均值，将均值确定为目标预测结果。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的命名实体识别方法的命名实体识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个命名实体识别装置实施例中的具体限定可以参见上文中对于命名实体识别方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种命名实体识别装置600，包括：获取模块601、识别模块602和确定模块603，其中：

获取模块601，用于获取待识别文本。

识别模块602，用于将待识别文本输入至目标命名实体识别模型进行命名实体识别，得到预测结果；其中，目标命名实体识别模型通过上述实施例涉及的命名实体识别模型的训练方法训练得到。

确定模块603，用于根据预测结果确定待识别文本包含的命名实体。

上述命名实体识别模型的训练装置和命名实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种命名实体识别模型的训练方法或命名实体识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本申请提供的命名实体识别模型的训练方法和装置、命名实体识别方法和装置、计算机设备、存储介质和计算机程序产品涉及人工智能技术领域，可用于金融科技领域或其他相关领域，本申请对命名实体识别模型的训练方法和装置、命名实体识别方法和装置、计算机设备、存储介质和计算机程序产品的应用领域不做限定。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种命名实体识别模型的训练方法，其特征在于，所述方法包括：

获取多个待标注标签的训练语料；

2.根据权利要求1所述的方法，其特征在于，所述基于预设知识库对各所述训练语料进行命名实体标注，得到各所述训练语料对应的目标类别序列，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于更新后的第一命名实体识别模型确定目标命名实体识别模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述第一命名实体识别模型的数目为多个，所述多个第一命名实体识别模型的初始参数不同；所述基于更新后的第一命名实体识别模型确定目标命名实体识别模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述第三预测结果包含各命名实体类别的预测置信度；所述基于所述多个第三预测结果，确定目标预测结果，包括：

6.一种命名实体识别方法，其特征在于，所述方法包括：

获取待识别文本；

将所述待识别文本输入至目标命名实体识别模型进行命名实体识别，得到预测结果；其中，所述目标命名实体识别模型通过权利要求1至5中任一项所述的命名实体识别模型的训练方法训练得到；

根据所述预测结果确定所述待识别文本包含的命名实体。

7.一种命名实体识别模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取多个待标注标签的训练语料；

8.一种命名实体识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别文本；

识别模块，用于将所述待识别文本输入至目标命名实体识别模型进行命名实体识别，得到预测结果；其中，所述目标命名实体识别模型通过权利要求1至5中任一项所述的命名实体识别模型的训练方法训练得到；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5或6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5或6中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5或6中任一项所述的方法的步骤。