CN112800768A

CN112800768A - 一种嵌套命名实体识别模型的训练方法及装置

Info

Publication number: CN112800768A
Application number: CN202110150250.3A
Authority: CN
Inventors: 王得贤; 李长亮
Original assignee: Beijing Kingsoft Software Co Ltd
Current assignee: Beijing Kingsoft Software Co Ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-05-14

Abstract

本申请提供一种嵌套命名实体识别模型的训练方法及装置，其中嵌套命名实体识别模型的训练方法包括：将训练样本语句输入编码器中进行编码，获得训练样本语句对应的第一训练编码向量；并将第一训练编码向量输入解码器包括的至少两个标注分支层进行解码，获得至少两个标注分支层输出的预测实体类型；针对至少两个标注分支层中的每一标注分支层，根据标注分支层输出的预测实体类型，计算标注分支层的第一损失值；根据至少两个标注分支层的第一损失值，确定嵌套命名实体识别模型的第二损失值；根据第二损失值调整嵌套命名实体识别模型的参数，继续训练嵌套命名实体识别模型，直至达到训练停止条件。

Description

一种嵌套命名实体识别模型的训练方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种嵌套命名实体识别模型的训练方法及装置、嵌套命名实体识别方法及装置、计算设备和计算机可读存储介质。

背景技术

命名实体识别(NER)是指从输入文本中抽取出具有特定意义的或指代性强的实体，是自然语言处理中一个非常重要的任务，其在文本信息理解、知识问答、检索、图谱构建等诸多场景中有着广泛的应用。嵌套命名实体识别是命名实体识别的重要组成部分，嵌套命名实体识别是将属于多个实体类型的词语识别并标注，即一个词语可能属于多个实体类型。

现有技术中，嵌套命名实体识别的方法主要包括：(1)基于标注融合的方法：将可能共同出现的所有类别的实体类型(标注)两两组合，产生新的标注；(2)基于分层的方法：先通过一层NER识别细粒度实体类型，然后将该层识别出的实体类型作为一个实体，对该实体内的特征向量求平均后作为下一层NER的输入，识别粗粒度实体类型；(3)基于阅读理解的方法：重新构建数据，针对每个文本对各个实体类型(标注)构造问题，每个样本数据变为(问题，实体，文本)三元组。

然而，上述基于标注融合的方法，组合所有可能共同出现的实体类型，可能会造成标注数量指数级增长；上述基于分层的方法，下一层的输入依赖于上一层的识别结果，可能会造成错误传播，上一层的错误识别结果会导致下一层识别错误，且多层NER无法进行并行训练；上述基于阅读理解的方法，需要复杂的数据构建过程。

因此，如何提供更简便、更快速、更准确的嵌套命名实体识别方法，以识别嵌套命名实体就成为技术人员亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供了一种嵌套命名实体识别模型的训练方法及装置、嵌套命名实体识别方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种嵌套命名实体识别模型的训练方法，所述嵌套命名实体识别模型包括编码器和解码器，所述解码器包括至少两个标注分支层；

所述嵌套命名实体识别模型的训练方法包括：

将训练样本语句输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量；并将所述第一训练编码向量输入所述解码器包括的所述至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的预测实体类型；

针对所述至少两个标注分支层中的每一所述标注分支层，根据所述标注分支层输出的预测实体类型，计算所述标注分支层的第一损失值；根据所述至少两个标注分支层的所述第一损失值，确定所述嵌套命名实体识别模型的第二损失值；

根据所述第二损失值调整所述嵌套命名实体识别模型的参数，继续训练所述嵌套命名实体识别模型，直至达到训练停止条件。

根据本申请实施例的第二方面，提供了一种嵌套命名实体识别方法，包括：

将待识别语句的字符序列输入嵌套命名实体识别模型的嵌入层做嵌入化处理，获得所述待识别语句的待识别语句向量，其中，所述嵌套命名实体识别模型是通过上述第一方面所述的训练方法训练得到的；

将所述待识别语句向量输入所述嵌套命名实体识别模型的编码器中进行编码处理，获得所述待识别语句的第一编码向量；

将所述待识别语句的第一编码向量输入所述嵌套命名实体识别模型的解码器包括的至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的所述待识别语句对应的实体类型。

根据本申请实施例的第三方面，提供了一种嵌套命名实体识别模型的训练装置，所述嵌套命名实体识别模型包括编码器和解码器，所述解码器包括至少两个标注分支层；

所述嵌套命名实体识别模型的训练装置包括：

获得模块，被配置为将训练样本语句输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量；并将所述第一训练编码向量输入所述解码器包括的所述至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的预测实体类型；

确定模块，被配置为针对所述至少两个标注分支层中的每一所述标注分支层，根据所述标注分支层输出的预测实体类型，计算所述标注分支层的第一损失值；根据所述至少两个标注分支层的所述第一损失值，确定所述嵌套命名实体识别模型的第二损失值；

调整模块，被配置为根据所述第二损失值调整所述嵌套命名实体识别模型的参数，继续训练所述嵌套命名实体识别模型，直至达到训练停止条件。

根据本申请实施例的第四方面，提供了一种嵌套命名实体识别装置，包括：

嵌入化模块，被配置为将待识别语句的字符序列输入嵌套命名实体识别模型的嵌入层做嵌入化处理，获得所述待识别语句的待识别语句向量，其中，所述嵌套命名实体识别模型是通过权利要求1-8任意一项所述的训练方法训练得到的；

编码模块，被配置为将所述待识别语句向量输入所述嵌套命名实体识别模型的编码器中进行编码处理，获得所述待识别语句的第一编码向量；

解码模块，被配置为将所述待识别语句的第一编码向量输入所述嵌套命名实体识别模型的解码器包括的至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的所述待识别语句对应的实体类型。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述嵌套命名实体识别模型的训练方法或所述嵌套命名实体识别方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述嵌套命名实体识别模型的训练方法或所述嵌套命名实体识别方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现所述嵌套命名实体识别模型的训练方法或所述嵌套命名实体识别方法的步骤。

本申请实施例提供的嵌套命名实体识别模型的训练方法，嵌套命名实体识别模型包括编码器和解码器，所述解码器包括至少两个标注分支层；通过将训练样本语句输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量；并将所述第一训练编码向量输入所述解码器包括的所述至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的预测实体类型；然后，针对所述至少两个标注分支层中的每一所述标注分支层，根据所述标注分支层输出的预测实体类型，计算所述标注分支层的第一损失值；并根据所述至少两个标注分支层的所述第一损失值，确定所述嵌套命名实体识别模型的第二损失值；之后，根据所述第二损失值调整所述嵌套命名实体识别模型的参数，继续训练所述嵌套命名实体识别模型，直至达到训练停止条件。这种情况下，嵌套命名实体识别模型包括至少两个标注分支层，从而可以得到至少两个预测实体类型，且针对所述至少两个标注分支层中的每一所述标注分支层，可以同时根据所述标注分支层输出的预测实体类型，计算所述标注分支层的第一损失值，从而计算整体嵌套命名实体识别模型的第二损失值，对嵌套命名实体识别模型的参数进行调整，也即嵌套命名实体识别模型包括的至少两个标注分支层可以并行训练，大大提高了模型训练效率，最终获得性能更好的嵌套命名实体识别模型。另外，采用普通的命名实体识别样本数据就可对嵌套命名实体识别模型进行训练，避免了复杂的数据构建，提高了嵌套命名实体识别模型的训练速度。再者，无需对嵌套的实体类型标签进行融合，避免了造成标签数量急剧增加。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的嵌套命名实体识别模型的训练方法的流程图；

图3是本申请实施例提供的一种编码器示意图；

图4是本申请实施例提供的嵌套命名实体识别方法的示意图；

图5是本申请实施例提供的一种命名实体识别过程的示意图；

图6是本申请实施例提供的嵌套命名实体识别模型的训练装置的结构示意图；

图7是本申请实施例提供的嵌套命名实体识别装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

LSTM(Long Short-Term Memory，长短期记忆网络)：是一种时间递归神经网络，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。LSTM区别于RNN的地方，主要在于它在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell，一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门，一个信息进入LSTM的网络当中，可以根据规则来判断是否有用，只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。相比于普通的RNN，LSTM能够在更长的序列中有更好的表现。

CNN(Convolutional Neural Network，卷积神经网络)：是一种前馈神经网络，由若干卷积层和池化层组成，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。

BERT(Bidirectional Encoder Representations from Transformers)模型：是一种语言表示模型，代表来自Transformer的双向编码器表示。BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。网络架构使用的是多层Transformer结构，其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1。

实体：指文本中具有特定意义的实体词汇或者短语描述。

命名实体识别(Named Entity Recognition，NER)：描述的是自然语言处理(Natural Language Processing，NLP)中的一项基础任务，在一段文本中识别出各类命名实体，需要识别的命名实体通常包括人名、地名、组织机构名、药物、时间等。命名实体识别是问答系统、信息检索、知识图谱等NLP应用的重要基础工具，它的识别结果会作为前期基础数据输入到下游任务中，可以说命名实体识别的准确性一定程度上决定了NLP应用的最终效果，在NLP应用中起着基石作用。

条件随机场(conditional random field，简称CRF)：是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。条件随机场(CRF)结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。

在本申请中，提供了一种嵌套命名实体识别模型的训练方法及装置、嵌套命名实体识别方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示嵌套命名实体识别模型的训练方法中的步骤。图2示出了根据本申请一实施例的嵌套命名实体识别模型的训练方法的流程图，包括如下步骤：

步骤202：接收训练样本语句，所述训练样本语句携带对应的实体类型标签，所述训练样本语句包括目标实体和除所述目标实体外的其他实体，所述目标实体对应有至少两个第一实体类型标签，所述其他实体对应有一个第二实体类型标签。

具体的，训练样本语句是用于训练嵌套命名实体识别模型的数据，实体是指训练样本语句包括的各个元素(即词语)，训练样本语句中包括的各个实体的实体类型是已知的，即训练样本语句带有标签，该标签即是训练样本语句中各个实体对应的实体类型标签。并且，训练样本语句中包括至少一个实体的实体类型是嵌套实体类型，也即该实体属于多个实体类型。

需要说明的是，训练样本语句的标注方式可以为BIO标注、BIEO标注、BIOSE标注等等，本申请实施例以BIO标注为例，每个实体标注为“B-X”、“I-X”或“O”，其中，“B-X”表示此实体在所在文本属于X类型，且此实体是所述X类型实体的开头，“I-X”表示此实体在所在文本属于X类型，且此实体是在所述X类型实体的中间位置，“O”表示此元素不属于任何类型。

示例的，训练样本语句为“XY大学是全国最好的高校之一”，其中，“XY”为某省名称，也即“X”和“Y”即属于地名，又属于组织机构名。该训练样本语句携带的实体类型标签为：“X”-“B-LOC”和“B-ORG”，“Y”-“I-LOC”和“I-ORG”，“大”-“I-ORG”、“学”-“I-ORG”，“是”-“O”，“全”-“O”，“国”-“O”，“最”-“O”，“好”-“O”，“的”-“O”，“高”-“O”，“校”-“O”，“之”-“O”，“一”-“O”，其中，“LOC”代表地名，“ORG”代表组织机构名。也就是说，“X”和“Y”为目标实体，对应的第一实体类型标签为地名和组织机构名；“大”和“学”为其他词语，对应的第二实体类型标签为组织机构名，“是”、“全”、“国”、“最”、“好”、“的”、“高”、“校”、“之”、“一”也为其他词语，对应的第二实体类型标签为不属于任何类型。

步骤204：对所述训练样本语句进行分词，得到所述训练样本语句对应的训练字符序列。

需要说明的是，由于嵌套命名实体识别模型是用于识别某个语句中包括的各个实体所属的实体类型，即嵌套命名实体识别模型需要对语句中包括的单个字符一一进行识别，因而在通过训练样本语句对嵌套命名实体识别模型进行训练之前，还需要将训练样本语句拆分成单个字符，得到对应的字符序列。

沿用上例，训练样本语句是“XY大学是全国最好的高校之一”，对所述训练样本语句进行分词，得到其对应的字符序列为：“X、Y、大、学、是、全、国、最、好、的、高、校、之、一”。

步骤206：将所述训练样本语句输入编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量。

具体的，嵌套命名实体识别模型中的编码器可以采用LSTM模型结构、CNN模型结构或BERT模型结构，通过所述编码器对所述训练样本语句进行编码，获取对应的第一训练编码向量。

本实施例一个可选的实施方式中，将所述训练样本语句输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量，具体实现过程可以如下：

将所述训练样本语句对应的训练字符序列输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量。

本实施例另一个可选的实施方式中，将所述训练样本语句输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量，具体实现过程还可以如下：

获取所述训练样本语句对应的训练字符序列对应的训练语句向量，将所述训练语句向量输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量。

实际应用中，嵌套命名实体识别模型中的编码器可以采用LSTM模型结构、CNN模型结构或BERT模型结构。由于BERT模型结构中包括有嵌入层，可以自行转化得到相应的向量，再进行编码，因而如果编码器采用BERT模型结构，则该编码器中包括嵌入层，因而可以直接将得到的训练样本语句对应的训练字符序列输入编码器中，以得到对应的第一训练编码向量。而由于LSTM模型结构和CNN模型结构只能接收向量形式的输入，因而如果编码器采用LSTM模型结构和CNN模型结构，则可以在嵌套命名实体识别模型的编码器之前，增加一个嵌入层，以获取训练字符序列对应的训练语句向量，再将所述训练语句向量输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量。

本申请一个可选的实施方式中，嵌套命名实体识别模型中还包括有嵌入层，可以将所述训练字符序列输入所述嵌入层做嵌入化处理获得所述训练语句向量。其中，嵌入化是指用一个低维度的向量表示一个物体，如一个词，或一个商品等，嵌入化向量的性质的一种解释是能使距离相近的向量对应的物体有相近的含义，嵌入化能用低维度向量对物体进行编码还能保留其含义的特点非常适合深度学习。本申请实施例中对训练字符序列进行嵌入化处理，可以提高对训练字符序列信息提取的深度和丰富度，增强分析准确性。

沿用上例，将训练字符序列“X、Y、大、学、是、全、国、最、好、的、高、校、之、一”输入所述嵌入层做嵌入化处理获得对应的训练语句向量。

需要说明的是，由于编码器中实际的编码模型输出的训练编码向量仅是对输入的训练语句向量进行编码得到的编码表示，因而后续还可以经过全连接层转化为各个实体对应预设实体类型的得分，因而本申请实施例中嵌套命名实体识别模型还可以包括全连接层。

本实施例一个可选的实施方式中，可以在编码器中设置全连接层，将所述训练样本语句输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量，具体实现过程可以如下：

将所述训练样本语句输入所述编码器中的编码模型进行编码，获得所述训练样本语句对应的第二训练编码向量；

将所述第二训练编码向量输入所述编码器中的全连接层进行转化，获得所述训练样本语句对应的第一训练编码向量。

需要说明的是，此时编码器输出的第一训练编码向量表示该训练样本语句中包括的各个实体属于各个预设标签的得分，后续可以直接通过解码器对所述第一训练编码向量进行解码。

示例的，图3是本申请一实施例提供的一种编码器示意图，如图3所示，编码器为LSTM/CNN/BERT网络模型(包括全连接层)，将训练样本语句(w0，w1，w2，w3，w4)输入LSTM/CNN/BERT网络模型，可以输出训练样本语句对应的第一训练编码向量。

如图3所示，对于训练样本语句中的w0来说，LSTM/CNN/BERT网络模型的输出是1.5(B-LOC)、0.9(I-LOC)、0.1(B-ORG)、0.08(I-ORG)和0.05(O)，对于训练样本语句中的w1来说，LSTM/CNN/BERT网络模型的输出是0.2(B-LOC)、0.4(I-LOC)、0.1(B-ORG)、0.11(I-ORG)和0.05(O)，对于训练样本语句中的w2来说，LSTM/CNN/BERT网络模型的输出是0.09(B-LOC)、0.02(I-LOC)、0.03(B-ORG)、0.08(I-ORG)和0.1(O)，对于训练样本语句中的w3来说，LSTM/CNN/BERT网络模型的输出是0.003(B-LOC)、0.002(I-LOC)、0.2(B-ORG)、0.07(I-ORG)和0.05(O)，对于训练样本语句中的w4来说，LSTM/CNN/BERT网络模型的输出是0.12(B-LOC)、0.2(I-LOC)、0.1(B-ORG)、0.065(I-ORG)和0.5(O)。

这些得分(第一训练编码向量)将会是后续标注分支层(CRF)的输入。其中，B-LOC、I-LOC、B-ORG、I-ORG和O是预设实体类型，B-LOC表示地名开始部分，I-LOC表示地名中间部分，B-ORG表示组织机构开始部分，I-ORG表示组织机构中间部分，O表示非实体信息。

本实施例一个可选的实施方式中，还可以在解码器中设置全连接层，所述全连接层设置于所述至少两个标注分支层之前。由于解码器包括至少两个标注分支层，因而可以在所述至少两个标注分支层之前设置一个全连接层，也可以在所述至少两个标注分支层中的每个标注分支层前均设置一个全连接层，也即所述解码器中包括至少一个全连接层；此时，所述将所述第一训练编码向量输入所述解码器包括的所述至少两个标注分支层进行解码之前，还包括：

将所述第一训练编码向量输入所述解码器包括的所述全连接层进行转化处理，得到第二训练编码向量。

需要说明的是，先将所述第一训练编码向量输入所述解码器包括的所述全连接层进行转化处理，得到第二训练编码向量，此时得到的第二训练编码向量表示该训练语句向量中包括的各个实体属于各个预设标签的得分，后续可以将该第二训练编码向量输入解码器包括的所述至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的预测实体类型。

实际应用中，在全连接层后还可以设置归一化层，通过该归一化层将全连接层输出的得分转化为各个实体对应预设实体类型的概率，后续再将各个实体对应预设实体类型的概率输入解码器包括的所述至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的预测实体类型。

步骤208：将所述第一训练编码向量输入所述解码器包括的所述至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的预测实体类型。

需要说明的是，编码层可以学到训练样本语句中每个实体最可能对应的实体类型是什么，这个过程考虑的是每个实体左边和右边的上下文信息，但是输出的最大概率对应的实体类型依然可能有误，因此引入了标注分支层，标注分支层用于学习相邻实体类型之间的转移特征，从而得出最终的预测实体类型。

实际应用中，嵌套命名实体识别模型包括至少两个标注分支层，所述标注分支层可以对第一训练编码向量进行解码，得到实体对应各个预测实体类型的得分或概率，然后对属于各个实体类型的得分或概率进行组合分析，得到最终对应的预测实体类型。实际应用中所述标注分支层可以是指条件随机场(CRF)、HMM(Hidden Markov Model，隐马尔可夫模型)、Softmax(归一化指数函数)等，本申请实施例中以标注分支层为条件随机场(CRF)为例进行说明。

具体的，CRF层的输入是编码层输出的第一训练编码向量，或者全连接层输出的第二训练编码向量，对该训练编码向量进行解码标注，输出该训练编码向量对应的预测实体类型。CRF层可以学习到句子的约束条件，也即CRF层可以加入一些约束来保证最终预测结果是有效的，这些约束可以在训练数据时被CRF层自动学习得到。

需要说明的是，嵌套命名实体识别模型的解码器中包括至少两个标注分支层，因而在通过嵌套命名实体识别模型的编码层得到训练语句对应的第一训练编码向量后，可以将该第一训练编码向量同时分别输入该至少两个标注分支层中，由该至少两个标注分支层分别对第一训练编码向量进行解码，从而可以分别得到训练语句中目标实体对应的至少两个预测实体类型。

另外，由于至少两个标注分支层是用于分别对某语句中目标实体对应的至少两个实体类型进行识别，因而标注分支层的个数应该和目标实体对应的实体类型的个数相同。也就是说，标注分支层的个数由嵌套实体确定，主要作用是让嵌套实体的不同类型识别出现在不同分支。

沿用上例，对于语句“XY大学是全国最好的高校之一”，目标实体为“X”、“Y”，目标实体对应的实体类型为2类，即地名和组织机构名，因而此时嵌套命名实体识别模型中应该包括2个标注分支层。假设语句中还有一个时间实体，如“XY大学是今年全国最好的高校之一”，由于时间实体“今年”没有与地名、组织机构名相互嵌套，故时间实体和地名、组织机构名可以在同一个分支，最终还是两个标注分支层。

步骤210：针对所述至少两个标注分支层中的每一所述标注分支层，根据所述标注分支层输出的预测实体类型，计算所述标注分支层的第一损失值。

具体的，本申请实施例中的损失值可以为对数损失值，对数损失即对数似然损失(Log-likelihood Loss)，也称逻辑斯谛回归损失(Logistic Loss)或交叉熵损失(cross-entropy Loss)，是在概率估计上定义的，常用于逻辑斯谛回归和神经网络，以及一些期望极大算法的变体，可用于评估分类器的概率输出。对数损失通过惩罚错误的分类，实现对分类器的准确度的量化，最小化对数损失基本等价于最大化分类器的准确度。

需要说明的是，本申请实施例的嵌套命名实体识别模型中包括至少两个标注分支层，在对嵌套命名实体识别模型进行训练时，可以先得到每个标注分支层的损失值，再进一步计算得到整个嵌套命名实体识别模型的损失值。另外，由于训练语句向量需要先输入编码层进行编码，然后再进入标注分支层进行解码，因而每个标注分支层的损失值实际上是编码层和该标注分支层的损失值。

实际实现时，嵌套命名实体识别模型包括的至少两个标注分支层可以分别识别出训练样本语句中目标实体对应的至少两个实体类型，而至于具体通过哪个标注分支层识别哪个实体类型，可以不进行限定，也即可以随机确定每个标注分支层识别哪个实体类型。

另外，本实施例一个可选的实施方式中，所述标注分支层可以包括标注类型参数，此时根据所述标注分支层输出的预测实体类型，计算所述标注分支层的第一损失值，具体实现过程可以如下：

根据所述标注分支层包括的所述标注类型参数、所述预测实体类型和所述实体类型标签，计算所述标注分支层的第一损失值。

具体的，所述标注类型参数用于标识该标注分支层用于识别的实体类型，例如该标注类型参数可以为地名、人名或组织机构名。

需要说明的是，由于嵌套命名实体识别模型包括至少两个标注分支层，每个标注分支层可以识别目标实体的一种实体类型，而目标实体对应至少两种实体类型，因而可以预先设置每个标注分支层用于识别哪个实体类型，后续在计算某标注分支层的损失值时，可以结合标注分支层包括的标注类型参数、预测实体类型和实体类型标签，进行计算。

本实施例一个可选的实施方式中，根据所述标注分支层包括的所述标注类型参数、所述预测实体类型和所述实体类型标签，计算所述标注分支层的第一损失值，具体实现过程可以如下：

确定所述标注分支层输出的所述预测实体类型中所述目标实体对应的第一预测实体类型，以及除所述目标实体外的其他实体对应的第二预测实体类型；

根据所述标注分支层包括的标注类型参数，从所述目标实体对应的所述至少两个第一实体类型标签中确定对应的目标实体类型标签；

将所述第一预测实体类型和所述目标实体类型标签进行对比，将所述第二预测实体类型和所述第二实体类型标签进行对比，确定所述标注分支层的第一损失值。

具体实现时，确定所述标注分支层的第一损失值的计算公式如下：

其中，Y为输出变量(即预测实体类型)，X为输入变量(即第一编码向量)，L为损失函数，N为输入样本量(即输入第一编码向量的个数)，M为可能的实体类型个数，y_ij是一个二值指标，表示预测实体类型j是否是输入变量x_i的真实实体类型，p_ij为模型或分类器预测输入变量x_i属于预测实体类型j的概率。

需要说明的是，对数损失是用于最大似然估计的，一组参数在一堆数据下的似然值，等于每一条数据的概率之积，而损失函数一般是每条数据的损失之和，为了把积变为和，就取了对数，再加个负号是为了让最大似然值和最小损失对应起来。

本申请中标注分支层会输出训练样本语句对应的各个实体的预测实体类型，由于训练样本语句中的目标实体对应有至少两个实体类型，而该标注分层只会输出目标实体对应的一个实体类型，因而需要先根据该标注分支的标注类型参数，确定该标注分支层要识别的目标实体类型标签，然后将该标注分支层输出的预测实体类型中目标实体对应的第一预测实体类型和该目标实体类型标签进行比较，确定第一预测实体类型与目标实体类型标签是否相同，并将所述第二预测实体类型和所述第二实体类型标签进行对比，确定第二预测实体类型与第二实体类型标签是否相同，从而确定出所述标注分支层的第一损失值。

步骤212：根据所述至少两个标注分支层的所述第一损失值，确定所述嵌套命名实体识别模型的第二损失值。

需要说明的是，嵌套命名实体识别模型包括至少两个标注分支层，在计算出每个标注分支层的第一损失值后，还需要结合计算出的每个标注分支层的第一损失值，计算得到整个嵌套命名实体识别模型的整体损失值，即第二损失值。

本实施例一个可选的实施方式中，所述根据所述至少两个标注分支层的所述第一损失值，确定所述嵌套命名实体识别模型的第二损失值，具体实现过程可以如下：

对所述至少两个标注分支层的所述第一损失值求和，得到所述嵌套命名实体识别模型的第二损失值。

需要说明的是，针对所述至少两个标注分支层中的每一所述标注分支层，可以同时根据所述标注分支层输出的预测实体类型，计算所述标注分支层的第一损失值，从而计算整体嵌套命名实体识别模型的第二损失值，对嵌套命名实体识别模型的参数进行调整，也即嵌套命名实体识别模型包括的至少两个标注分支层可以并行训练，大大提高了模型训练效率，最终获得性能更好的嵌套命名实体识别模型。

步骤214：根据所述第二损失值调整所述嵌套命名实体识别模型的参数，继续训练所述嵌套命名实体识别模型，直至达到训练停止条件。

需要说明的是，嵌套命名实体识别模型的训练停止条件可以设置为损失值小于预设阈值，也可以设置为训练轮次为预设的训练轮次，如训练10轮，等等，在本申请实施例中，对训练停止条件不做限定。其中，预设阈值为损失值的临界值，在损失值大于或等于预设阈值的情况下，说明初始模型的预测结果与真实结果之间仍存在一定偏差，仍需继续对该模型进行训练；在损失值小于预设阈值的情况下，说明初始模型的预测结果与真实结果的接近程度已经足够，可以停止训练。预设阈值的数值可以根据实际情况确定，本说明书对此不做限制。

本实施例一个可选的实施方式中，根据所述第二损失值调整所述嵌套命名实体识别模型的参数，具体实现过程如下：

将所述第二损失值反向传播更新所述解码层包括的至少两个标注分支层的解码参数和所述编码层的编码参数。

实际实现时，实体类型标签是指真实想要嵌套命名实体识别模型输出的实体类型，也即实体类型标签为真实结果，而将训练样本语句向量输入初始模型，得到的预测实体类型就是预测结果，在预测结果和真实结果之间的差值足够小时，说明预测结果足够接近真实结果，此时初始模型训练完成，得到嵌套命名实体识别模型。本申请中可以通过计算损失值直观的示出模型的预测结果与真实结果之间的差异，再对初始模型进行针对性训练，反向传播调整参数，可以有效提高模型训练的速率及模型训练的效果。

本申请实施例提供的嵌套命名实体识别模型的训练方法，嵌套命名实体识别模型包括编码器和解码器，所述解码器包括至少两个标注分支层；通过将训练样本语句输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量；并将所述第一训练编码向量输入所述解码器包括的所述至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的预测实体类型；然后，针对所述至少两个标注分支层中的每一所述标注分支层，根据所述标注分支层输出的预测实体类型，计算所述标注分支层的第一损失值；并根据所述至少两个标注分支层的所述第一损失值，确定所述嵌套命名实体识别模型的第二损失值；之后，根据所述第二损失值调整所述嵌套命名实体识别模型的参数，继续训练所述嵌套命名实体识别模型，直至达到训练停止条件。

这种情况下，嵌套命名实体识别模型包括至少两个标注分支层，从而可以得到至少两个预测实体类型，且针对所述至少两个标注分支层中的每一所述标注分支层，可以同时根据所述标注分支层输出的预测实体类型，计算所述标注分支层的第一损失值，从而计算整体嵌套命名实体识别模型的第二损失值，对嵌套命名实体识别模型的参数进行调整，也即嵌套命名实体识别模型包括的至少两个标注分支层可以并行训练，大大提高了模型训练效率，最终获得性能更好的嵌套命名实体识别模型。另外，采用普通的命名实体识别样本数据就可对嵌套命名实体识别模型进行训练，避免了复杂的数据构建，提高了嵌套命名实体识别模型的训练速度。再者，无需对嵌套的实体类型标签进行融合，避免了造成标签数量急剧增加。

图4示出了根据本申请一实施例的嵌套命名实体识别方法的流程图，包括如下步骤：

步骤402：获取待识别语句，对所述待识别语句进行分词，得到所述待识别语句对应的字符序列。

需要说明的是，待识别语句是指等待进行命名实体识别的语句。由于嵌套命名实体识别模型是用于识别待识别语句中包括的各个实体所属的实体类型，即嵌套命名实体识别模型需要对待识别语句中包括的单个字符一一进行识别，因而需要将待识别语句拆分成单个字符，得到对应的字符序列。

示例的，待识别语句是“HM大学是全国最好的高校之一”，其中，“HM”是地名，对该待识别语句进行分词，得到其对应的字符序列为：“H”、“M”、“大”、“学”、“是”、“全”、“国”、“最”、“好”、“的”、“高”、“校”、“之”、“一”。

步骤404：将所述待识别语句的字符序列输入嵌套命名实体识别模型的嵌入层做嵌入化处理，获得所述待识别语句的待识别语句向量。

具体的，所述嵌套命名实体识别模型是通过上述图2所示的训练方法训练得到的。

沿用上例，将待识别语句的字符序列“H、M、大、学、是、全、国、最、好、的、高、校、之、一”输入所述嵌入层做嵌入化处理获得对应的待识别语句向量。

步骤406：将所述待识别语句向量输入所述嵌套命名实体识别模型的编码器中进行编码处理，获得所述待识别语句的第一编码向量。

本实施例一个可选的实施方式中，可以在编码器中设置全连接层，所述全连接层设置于实际的编码层后面，将所述待识别语句向量输入所述编码器中进行编码处理，获得所述待识别语句对应的第一编码向量，具体实现过程可以如下：

将所述待识别语句向量输入所述编码器中的编码模型进行编码，获得所述待识别语句向量对应的第二编码向量；

将所述第二编码向量输入所述编码器中的全连接层进行转化，获得所述待识别语句对应的第一编码向量。

需要说明的是，此时编码器输出的第一编码向量表示该待识别语句中包括的各个实体属于各个预设标签的分数，后续可以直接通过解码器对所述第一编码向量进行解码。

步骤408：将所述待识别语句的第一编码向量输入所述嵌套命名实体识别模型的解码器包括的至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的所述待识别语句对应的实体类型。

需要说明的是，获得的至少两个标注分支层输出的待识别语句对应的实体类型就是待识别语句的实体类型，通过至少两个标注分支层可以同时识别出待识别语句中包括的嵌套实体类型，也即可以同时识别出待识别语句中嵌套实体对应的多个实体类型。

本实施例一个可选的实施方式中，所述解码器中还可以包括至少一个全连接层，所述全连接层设置于所述至少两个标注分支层之前，此时将所述待识别语句的第一编码向量输入所述解码器包括的所述至少两个标注分支层进行解码之前，还包括：

将所述待识别语句的第一编码向量输入所述嵌套命名实体识别模型的解码器包括的全连接层进行解码，得到所述待识别语句的第二编码向量；

相应的，将所述待识别语句的第一编码向量输入所述嵌套命名实体识别模型的解码器包括的至少两个标注分支层进行解码，具体实现过程可以如下：

将所述待识别语句的第二编码向量输入所述嵌套命名实体识别模型的解码器包括的至少两个标注分支层进行解码。

需要说明的是，由于编码器中实际的编码模型输出的编码向量仅是对输入的待识别语句向量进行编码得到的编码表示，后续需要经过全连接层转化为各个实体对应的实体类型的得分，因而本申请实施例中嵌套命名实体识别模型还可以包括全连接层，该全连接层除了可以设置于编码器中外，还可以设置于解码器中。由于解码器包括至少两个标注分支层，因而可以在所述至少两个标注分支层之前设置一个全连接层，也可以在所述至少两个标注分支层中的每个标注分支层前均设置一个全连接层，也即所述解码器中包括至少一个全连接层。

示例的，图5是本申请一实施例提供的一种命名实体识别过程的示意图，如图5所示，待识别语句是“HM大学是全国最好的高校之一”，假设“HM”既可能为地名，又可能为组织机构名，因而嵌套命名实体识别模型的解码器中设置有两个标注分支层，该标注分支层均为CRF层。通过编码层(LSTM/CNN/BERT)分别得到“H”、“M”、“大”、“学”、“是”、“全”、“国”、“最”、“好”、“的”、“高”、“校”、“之”、“一”对应的编码向量后，再将该编码向量分别输入预设的两个CRF层(解码层)。

第一个CRF层分别输出待识别语句的各个字符对应的实体类型，“H”对应B-LOC(地名开始部分)，“M”对应I-LOC(地名中间部分)，“大”对应O(非实体信息)，“学”对应O(非实体信息)，“是”对应O(非实体信息)，“全”对应O(非实体信息)，“国”对应O(非实体信息)，“最”对应O(非实体信息)，“好”对应O(非实体信息)，“的”对应O(非实体信息)，“高”对应O(非实体信息)，“校”对应O(非实体信息)，“之”对应O(非实体信息)，“一”对应O(非实体信息)。

第二个CRF层也分别输出待识别语句的各个字符对应的实体类型，“H”对应B-ORG(组织机构开始部分)，“M”对应I-ORG(组织机构中间部分)，“大”对应I-ORG(组织机构中间部分)，“学”对应I-ORG(组织机构中间部分)，“是”对应O(非实体信息)，“全”对应O(非实体信息)，“国”对应O(非实体信息)，“最”对应O(非实体信息)，“好”对应O(非实体信息)，“的”对应O(非实体信息)，“高”对应O(非实体信息)，“校”对应O(非实体信息)，“之”对应O(非实体信息)，“一”对应O(非实体信息)。

本申请提供的嵌套命名实体识别方法，可以将待识别语句的字符序列输入嵌套命名实体识别模型的嵌入层做嵌入化处理，获得所述待识别语句的待识别语句向量；然后，将所述待识别语句向量输入所述嵌套命名实体识别模型的编码器中进行编码处理，获得所述待识别语句的第一编码向量；并将所述待识别语句的第一编码向量输入所述嵌套命名实体识别模型的解码器包括的至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的所述待识别语句对应的实体类型。这种情况下，可以通过嵌套命名实体识别模型包括的至少两个标注分支层，得到待识别语句中嵌套实体的至少两个实体类型，也即可以将嵌套实体的命名实体识别设置为多个标注分支层，每个标注分支层识别未嵌套的实体；如此，采用分支结构，可同时预测嵌套实体的实体类型，避免了下一层的输入依赖于上一层的识别结果，从而避免了错误传播，实现了更简便、更快速、更准确的识别嵌套实体类型。

与上述方法实施例相对应，本申请还提供了嵌套命名实体识别模型的训练装置实施例，图6示出了本申请一个实施例的嵌套命名实体识别模型的训练装置的结构示意图，所述嵌套命名实体识别模型包括编码器和解码器，所述解码器包括至少两个标注分支层。如图6所示，该嵌套命名实体识别模型的训练装置包括：

获得模块602，被配置为将训练样本语句输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量；并将所述第一训练编码向量输入所述解码器包括的所述至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的预测实体类型；

确定模块604，被配置为针对所述至少两个标注分支层中的每一所述标注分支层，根据所述标注分支层输出的预测实体类型，计算所述标注分支层的第一损失值；根据所述至少两个标注分支层的所述第一损失值，确定所述嵌套命名实体识别模型的第二损失值；

调整模块606，被配置为根据所述第二损失值调整所述嵌套命名实体识别模型的参数，继续训练所述嵌套命名实体识别模型，直至达到训练停止条件。

可选地，所述获得模块602进一步被配置为：

接收所述训练样本语句，所述训练样本语句携带对应的实体类型标签，所述训练样本语句包括目标实体和除所述目标实体外的其他实体，所述目标实体对应有至少两个第一实体类型标签，所述其他实体对应有一个第二实体类型标签；

对所述训练样本语句进行分词，得到所述训练样本语句对应的训练字符序列；

可选地，所述获得模块602进一步被配置为：

获取所述训练字符序列对应的训练语句向量；

将所述训练语句向量输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量。

可选地，所述标注分支层包括标注类型参数；确定模块604进一步被配置为：

可选地，确定模块604进一步被配置为：

可选地，所述嵌套命名实体识别模型还包括嵌入层；第一获取模块进一步被配置为：

将所述训练字符序列输入所述嵌入层做嵌入化处理获得所述训练语句向量。

可选地，所述解码器还包括至少一个全连接层；所述装置还包括：

第一转化模块，被配置为将所述第一训练编码向量输入所述解码器包括的所述全连接层进行转化处理，得到第二训练编码向量；

相应的，获得模块602进一步被配置为：

将所述第二训练编码向量输入所述解码器包括的所述至少两个标注分支层进行解码。

可选地，确定模块604进一步被配置为：

可选地，调整模块606进一步被配置为：

本申请实施例提供的嵌套命名实体识别模型的训练装置，嵌套命名实体识别模型包括编码器和解码器，所述解码器包括至少两个标注分支层；通过将训练样本语句输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量；并将所述第一训练编码向量输入所述解码器包括的所述至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的预测实体类型；然后，针对所述至少两个标注分支层中的每一所述标注分支层，根据所述标注分支层输出的预测实体类型，计算所述标注分支层的第一损失值；并根据所述至少两个标注分支层的所述第一损失值，确定所述嵌套命名实体识别模型的第二损失值；之后，根据所述第二损失值调整所述嵌套命名实体识别模型的参数，继续训练所述嵌套命名实体识别模型，直至达到训练停止条件。

上述为本实施例的一种嵌套命名实体识别模型的训练装置的示意性方案。需要说明的是，该嵌套命名实体识别模型的训练装置的技术方案与上述的嵌套命名实体识别模型的训练方法的技术方案属于同一构思，嵌套命名实体识别模型的训练装置的技术方案未详细描述的细节内容，均可以参见上述嵌套命名实体识别模型的训练方法的技术方案的描述。

与上述方法实施例相对应，本申请还提供了嵌套命名实体识别装置实施例，图7示出了本申请一个实施例的嵌套命名实体识别装置的结构示意图，如图7所示，该嵌套命名实体识别装置包括：

嵌入化模块702，被配置为将待识别语句的字符序列输入嵌套命名实体识别模型的嵌入层做嵌入化处理，获得所述待识别语句的待识别语句向量，其中，所述嵌套命名实体识别模型是通过权利要求1-8任意一项所述的训练方法训练得到的；

编码模块704，被配置为将所述待识别语句向量输入所述嵌套命名实体识别模型的编码器中进行编码处理，获得所述待识别语句的第一编码向量；

解码模块706，被配置为将所述待识别语句的第一编码向量输入所述嵌套命名实体识别模型的解码器包括的至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的所述待识别语句对应的实体类型。

可选地，所述装置还包括：

第二获取模块，被配置为获取所述待识别语句：

第二分词模块，被配置为对所述待识别语句进行分词，得到所述待识别语句对应的字符序列。

可选地，所述装置还包括：

第二转化模块，被配置为将所述待识别语句的第一编码向量输入所述嵌套命名实体识别模型的解码器包括的全连接层进行转化，得到所述待识别语句的第二编码向量；

相应的，所述解码模块706进一步被配置为：

本申请提供的嵌套命名实体识别装置，可以将待识别语句的字符序列输入嵌套命名实体识别模型的嵌入层做嵌入化处理，获得所述待识别语句的待识别语句向量；然后，将所述待识别语句向量输入所述嵌套命名实体识别模型的编码器中进行编码处理，获得所述待识别语句的第一编码向量；并将所述待识别语句的第一编码向量输入所述嵌套命名实体识别模型的解码器包括的至少两个标注分支层进行解码，获得所述至少两个标注分支层输出的所述待识别语句对应的实体类型。这种情况下，可以通过嵌套命名实体识别模型包括的至少两个标注分支层，得到待识别语句中嵌套实体的至少两个实体类型，也即可以将嵌套实体的命名实体识别设置为多个标注分支层，每个标注分支层识别未嵌套的实体；如此，采用分支结构，可同时预测嵌套实体的实体类型，避免了下一层的输入依赖于上一层的识别结果，从而避免了错误传播，实现了更简便、更快速、更准确的识别嵌套实体类型。

上述为本实施例的一种嵌套命名实体识别装置的示意性方案。需要说明的是，该嵌套命名实体识别装置的技术方案与上述的嵌套命名实体识别方法的技术方案属于同一构思，嵌套命名实体识别装置的技术方案未详细描述的细节内容，均可以参见上述嵌套命名实体识别方法的技术方案的描述。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的嵌套命名实体识别模型的训练方法或嵌套命名实体识别方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的嵌套命名实体识别模型的训练方法或嵌套命名实体识别方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述嵌套命名实体识别模型的训练方法或嵌套命名实体识别方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述嵌套命名实体识别模型的训练方法或嵌套命名实体识别方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的嵌套命名实体识别模型的训练方法或嵌套命名实体识别方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述嵌套命名实体识别模型的训练方法或嵌套命名实体识别方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述嵌套命名实体识别模型的训练方法或嵌套命名实体识别方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种嵌套命名实体识别模型的训练方法，其特征在于，所述嵌套命名实体识别模型包括编码器和解码器，所述解码器包括至少两个标注分支层；

所述嵌套命名实体识别模型的训练方法包括：

2.根据权利要求1所述的嵌套命名实体识别模型的训练方法，其特征在于，所述将训练样本语句输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量，包括：

3.根据权利要求2所述的嵌套命名实体识别模型的训练方法，其特征在于，所述将训练样本语句输入所述编码器中进行编码，获得所述训练样本语句对应的第一训练编码向量，包括：

获取所述训练字符序列对应的训练语句向量；

4.根据权利要求2所述的嵌套命名实体识别模型的训练方法，其特征在于，所述标注分支层包括标注类型参数；

所述根据所述标注分支层输出的预测实体类型，计算所述标注分支层的第一损失值，包括：

5.根据权利要求4所述的嵌套命名实体识别模型的训练方法，其特征在于，根据所述标注分支层包括的所述标注类型参数、所述预测实体类型和所述实体类型标签，计算所述标注分支层的第一损失值，包括：

6.根据权利要求3所述的嵌套命名实体识别模型的训练方法，其特征在于，所述嵌套命名实体识别模型还包括嵌入层；

所述获取所述训练字符序列对应的训练语句向量，包括：

7.根据权利要求1所述的嵌套命名实体识别模型的训练方法，其特征在于，所述解码器还包括至少一个全连接层；

所述将所述第一训练编码向量输入所述解码器包括的所述至少两个标注分支层进行解码之前，还包括：

将所述第一训练编码向量输入所述解码器包括的所述全连接层进行转化处理，得到第二训练编码向量；

相应的，所述将所述第一训练编码向量输入所述解码器包括的所述至少两个标注分支层进行解码，包括：

8.根据权利要求1所述的嵌套命名实体识别模型的训练方法，其特征在于，所述根据所述至少两个标注分支层的所述第一损失值，确定所述嵌套命名实体识别模型的第二损失值，包括：

9.根据权利要求1所述的嵌套命名实体识别模型的训练方法，其特征在于，所述根据所述第二损失值调整所述嵌套命名实体识别模型的参数，包括：

10.一种嵌套命名实体识别方法，其特征在于，包括：

将待识别语句的字符序列输入嵌套命名实体识别模型的嵌入层做嵌入化处理，获得所述待识别语句的待识别语句向量，其中，所述嵌套命名实体识别模型是通过权利要求1-8任意一项所述的训练方法训练得到的；

11.根据权利要求1所述的嵌套命名实体识别方法，其特征在于，所述将待识别语句的字符序列输入嵌套命名实体识别模型的嵌入层做嵌入化处理之前，还包括：

获取所述待识别语句：

对所述待识别语句进行分词，得到所述待识别语句对应的字符序列。

12.根据权利要求11所述的嵌套命名实体识别方法，其特征在于，所述将所述待识别语句的第一编码向量输入所述嵌套命名实体识别模型的解码器包括的至少两个标注分支层进行解码之前，还包括：

将所述待识别语句的第一编码向量输入所述嵌套命名实体识别模型的解码器包括的全连接层进行转化，得到所述待识别语句的第二编码向量；

相应的，所述将所述待识别语句的第一编码向量输入所述嵌套命名实体识别模型的解码器包括的至少两个标注分支层进行解码，包括：

13.一种嵌套命名实体识别模型的训练装置，其特征在于，所述嵌套命名实体识别模型包括编码器和解码器，所述解码器包括至少两个标注分支层；

所述嵌套命名实体识别模型的训练装置包括：

14.一种嵌套命名实体识别装置，其特征在于，包括：

15.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-9或者10-12任意一项所述方法的步骤。

16.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-9或者10-12任意一项所述方法的步骤。