CN109902307A

CN109902307A - 命名实体识别方法、命名实体识别模型的训练方法及装置

Info

Publication number: CN109902307A
Application number: CN201910200009.XA
Authority: CN
Inventors: 李长亮; 侯昶宇; 汪美玲; 唐剑波
Original assignee: Chengdu Kingsoft Interactive Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Current assignee: Chengdu Kingsoft Interactive Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-06-18
Anticipated expiration: 2039-03-15
Also published as: CN109902307B

Abstract

本发明实施例提供了一种命名实体识别方法，方法包括：获取待进行命名实体识别的目标文本；将目标文本输入到预设的命名实体识别模型中，得到目标文本的命名实体识别结果；其中，命名实体识别模型为采用训练样本和训练样本的标注信息训练得到的；命名实体识别模型包括：长短期记忆网络LSTM层；其中，LSTM层对训练样本中除前两个字以外的每一个字的处理过程包括：如果训练样本中该字之前的内容存在词语，对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量。与现有技术相比，应用本发明实施例提供的方法，对文本进行命名实体识别时，可以提高得到的识别结果的准确率。

Description

命名实体识别方法、命名实体识别模型的训练方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及命名实体识别方法、命名实体识别模型的训练方法及装置。

背景技术

当前，命名实体识别任务的需求越来越多，例如，问答系统、机器翻译系统等。所谓命名实体识别(Named Entity Recognition，NER)又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

其中，基于训练得到的命名实体识别模型来执行命名实体识别任务，是一种常用的方式。该命名实体识别模型可以包括用于提取文本中各个字的特征向量的LSTM(LongShort-Term Memory，长短期记忆网络)层、用于基于各个字的初始特征向量提取各个字的深度特征向量的中间层和用于对所述中间层的输出内容进行类别标定的输出层。

相关技术中，在对命名实体识别模型进行训练时，LSTM层对训练样本处理过程，包括：获取该训练样本中的每个字的字向量；针对第一个字，基于该字的字向量提取该字的特征向量；针对除第一个字以外的任一个字，基于该字的字向量和上一个字的特征向量，提取该字的特征向量。

然而，在上述相关技术中，由于LSTM层的处理过程中忽略了训练样本所包括各个字的词序信息，从而没有学习到训练样本的整体特征，因此，采用上述相关技术中训练得到的命名实体识别模型对文本进行命名实体识别时，得到的识别结果的准确率较低。

发明内容

本发明实施例的目的在于提供一种命名实体识别方法、装置、电子设备、计算机可读存储介质及芯片，以及一种命名实体识别模型的训练方法、装置、电子设备、计算机可读存储介质及芯片，以提高识别结果准确率。

具体技术方案如下：

第一方面，本发明实施例提供了一种命名实体识别方法，所述方法包括：

获取待进行命名实体识别的目标文本；

将所述目标文本输入到预设的命名实体识别模型中，得到所述目标文本的命名实体识别结果；

其中，所述命名实体识别模型为采用训练样本和所述训练样本的标注信息训练得到的模型；所述命名实体识别模型包括：长短期记忆网络LSTM层；

其中，所述LSTM层对所述训练样本中的每一个字的处理过程包括：

针对所述训练样本中的第一个字，对该字的字向量进行特征提取，得到该字的初始特征向量；

针对所述训练样本中的第二个字，对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量；

针对所述训练样本中除前两个字以外的每一个字，如果所述训练样本中该字之前的内容存在词语，对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量；否则，对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量。

可选的，一种具体实现方式中，所述LSTM层对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量的步骤，包括：

判断所存在词语中，是否包含该字对应的目标词；其中，所述目标词为：在该字之前，且与该字相邻的词语；

如果存在，对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量；

否则，对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量。

可选的，一种具体实现方式中，所述LSTM层针对所述训练样本的每一个字，在提取该字的初始特征向量之前，还包括：

获取所述训练样本中，以该字作为第一个字的多个文字组合，其中，每一文字组合为所述训练样本中连续且少于预定数量的各个字的组合；

针对每一文字组合，判断预设的词语库中是否存在该文字组合，如果存在，判定该文字组合为词语。

可选的，一种具体实现方式中，所述命名实体识别模型还包括中间层，所述中间层为膨胀卷积层。

第二方面，本发明实施例提供了一种命名实体识别模型的训练方法，所述方法包括：

获得待利用的训练样本和所述训练样本的标注信息；

基于所述训练样本和所述训练样本的标注信息，对所述命名实体识别模型中的各个网络层进行训练，得到训练完成的命名实体识别模型；

其中，所述各个网络层包括长短期记忆网络LSTM层，所述LSTM层对所述训练样本中的每一个字的处理过程包括：

可选的，一种具体实现方式中，所述各个网络层还包括中间层，所述中间层为膨胀卷积层。

第三方面，本发明实施例提供了一种命名实体识别装置，所述装置包括：

文本获取模块，用于获取待进行命名实体识别的目标文本；

结果获得模块，用于将所述目标文本输入到预设的命名实体识别模型中，得到所述目标文本的命名实体识别结果；

可选的，一种具体实现方式中，所述LSTM层对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量，包括：

可选的，一种具体实现方式中，其特征在于，所述命名实体识别模型还包括中间层，所述中间层为膨胀卷积层。

第四方面，本发明实施例提供了一种命名实体识别模型的训练装置，所述装置包括：

样本获得模块，用于获得待利用的训练样本和所述训练样本的标注信息；

模型训练模块，用于基于所述训练样本和所述训练样本的标注信息，对所述命名实体识别模型中的各个网络层进行训练，得到训练完成的命名实体识别模型；

第五方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面提供的一种命名实体识别方法中任一项所述的方法步骤。

第六方面，本发明实施例提供了另一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第二方面提供的一种命名实体识别模型的训练方法中任一项所述的方法步骤。

第七方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的一种命名实体识别方法中任一项所述的方法步骤。

第八方面，本发明实施例提供了另一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第二方面提供的一种命名实体识别模型的训练方法中任一项所述的方法步骤。

第九方面，本发明实施例提供了一种芯片，所述芯片存储有计算机指令，所述计算机指令被执行时实现上述第一方面提供的一种命名实体识别方法中任一项所述的方法步骤。

第十方面，本发明实施例提供了另一种芯片，所述芯片存储有计算机指令，所述计算机指令被执行时实现上述第二方面提供的一种命名实体识别模型的训练方法中任一项所述的方法步骤。

以上可见，在本发明实施例提供的方案中，在对待进行命名实体识别的目标文本进行命名实体识别时，是将该目标文本输入到预设的命名实体识别模型中，得到该目标文本的命名实体识别结果的。其中，命名实体识别模型为采用训练样本和所述训练样本的标注信息训练得到的模型。由于命名实体识别模型的LSTM层在对训练样本中每个字的处理过程中，可以学习到该训练样本中所包括的每个字的词序信息，因此，基于训练样本所包括的每个字的特征信息以及该训练样本中每个字的词序信息，训练得到的命名实体识别模型可以更全面的学习训练样本的特征训练，使得命名实体识别模型不但可以学习到训练样本中各个字的特征，还可以学习到训练样本的整体特征。这样，训练得到的命名实体识别模型可以更好地对文本进行识别，并提高识别结果的准确率。进一步的，利用训练得到的命名实体识别模型对目标文本进行命名实体识别时，便可以提高得到的识别结果的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种命名实体识别方法的流程示意图；

图2为本发明实施例提供的一种LSTM层对训练样本中的每一个字的处理过程的流程示意图；

图3为本发明实施例提供的一种S203中，LSTM层对该字的字向量、该字的上一个字的特征向量以及所存在的词语的词向量进行特征提取，得到该字的初始特征向量的方式的流程示意图；

图4为本发明实施例提供的一个命名实体识别模型对一个训练样本的进行训练的实施例的示意图；

图5为本发明实施例提供的一种命名实体识别模型的训练方法的流程示意图；

图6为本发明实施例提供的一种命名实体识别装置的结构示意图；

图7为本发明实施例提供的一种命名实体识别模型的训练装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图；

图9为本发明实施例提供的另一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，在上述相关技术中，由于LSTM层的处理过程中忽略了训练样本所包括各个字的词序信息，从而没有学习到训练样本的整体特征，因此，采用上述相关技术中训练得到的命名实体识别模型对文本进行命名实体识别时，得到的识别结果的准确率较低。为了解决上述技术问题，本发明实施例提供了一种命名实体识别方法。

下面，首先对本发明实施例提供的一种命名实体识别方法进行介绍。图1为本发明实施例提供的一种命名实体识别方法的流程示意图。其中，该方法可以应用于任一需要进行命名实体识别的电子设备，例如，台式电脑、笔记本电脑、平板电脑等，对此，本发明实施例不做具体限定，以下简称第一电子设备。

如图1所示，该命名实体识别方法可以包括如下步骤：

S101：获取待进行命名实体识别的目标文本；

S102：将目标文本输入到预设的命名实体识别模型中，得到目标文本的命名实体识别结果；

其中，命名实体识别模型为采用训练样本和训练样本的标注信息训练得到的模型；命名实体识别模型包括：长短期记忆网络LSTM层；

其中，LSTM层对训练样本中的每一个字的处理过程包括：

针对训练样本中的第一个字，对该字的字向量进行特征提取，得到该字的初始特征向量；

针对训练样本中的第二个字，对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量；

针对训练样本中除前两个字以外的每一个字，如果训练样本中该字之前的内容存在词语，对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量；否则，对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量。

以上可见，在本发明实施例提供的方案中，在对待进行命名实体识别的目标文本进行命名实体识别时，是将该目标文本输入到预设的命名实体识别模型中，得到该目标文本的命名实体识别结果的。其中，命名实体识别模型为采用训练样本和所述训练样本的标注信息训练得到的模型。由于命名实体识别模型的LSTM层在对训练样本中每个字的处理过程中，可以学习到该训练样本中所包括的每个字的词序信息，因此，基于训练样本所包括的每个字的特征信息以及该训练样本中每个字的词序信息，训练得到的命名实体识别模型可以更全面的学习训练样本的特征训练，使得命名实体识别模型不但可以学习到训练样本中各个字的特征，还可以学习到训练样本的整体特征。这样，利用训练得到的命名实体识别模型对目标文本进行命名实体识别时，便可以提高得到的识别结果的准确率。

为了便于理解本发明实施例提供的一种命名实体识别方法，首先对命名实体识别进行介绍。

命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。所谓命名实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

例如，在金融领域，针对某金融公司的年报，便可以利用上述命名实体识别模型，对该年报中的日期、货币类型、百分比等实体进行识别，并在识别到每个实体时，基于该实体的类别和该实体中的每个字的位置对该实体中的每个字进行标注，从而得到该年报的命名实体识别结果，该结果便为：为年报中的各个实体中各个字添加标注后的年报文本；

又例如，在交通管理领域，针对某交通事故报告，便可以利用上述命名实体识别模型，对该报告中的人名、地点、时间、伤亡数量等实体进行识别，并在识别到每个实体时，基于该实体的类别和该实体中的每个字的位置对该实体中的每个字进行标注，从而得到该报告的命名实体识别结果，该结果便为：为报告中的各个实体添加标注后的报告文本。

具体的，在本发明实施例提供的一种命名实体识别方法中，针对待进行命名实体识别的目标文本，第一电子设备首先执行上述步骤101，获取待进行命名实体识别的目标文本。进而，第一电子设备便可以执行上述步骤S102，将该目标文本输入到预设的命名实体识别模型中。这样，在获取到目标文本后，命名实体识别模型便可以对该目标文本中所存在的各个实体进行识别，同时，针对所识别到的每一实体，根据该实体的类别和该实体中的每个字的位置，对该实体中的每个字进行标注。进而，第一电子设备便可以得到该命名实体模型输出的目标文本的命名实体识别结果，该结果为：为表征实体的各个词语中的各个字添加标注后的目标文本。

其中，可选的，一种具体实现方式中，在得到上述输出结果后，第一电子设备还可以根据命名实体模型为各个实体中的各个字所添加的标注，提取该目标文本中所包括的某一类或者某几类实体语。例如，提取出上述目标文本中的所有人名，或者提取出上述目标文本中的所有地名和所有人名等。

在本发明实施例提供的一种命名实体识别方法中，在对待进行命名实体识别的目标文本进行命名实体识别时，是将该目标文本输入到预设的命名实体识别模型中，得到该目标文本的命名实体识别结果的。下面，对上述预设的命名实体识别模型进行介绍。

上述命名实体识别模型是采用训练样本和训练样本的标注信息训练得到的模型。

其中，该命名实体识别模型可以是任一需要训练命名实体识别模型的电子设备训练得到的，例如，笔记本电脑、台式电脑、平板电脑等，对此，本发明实施例不做具体限定，以下简称第二电子设备。其中，第二电子设备与上述第一电子设备可以是同一电子设备，也可以是不同的电子设备。当第二电子设备和第一电子设备是同一设备时，可以在同一电子设备中训练得到上述命名实体识别模型，进而，在该电子设备上，利用所得到的命名实体识别模型对待进行命名实体识别的目标文本进行识别，得到该目标文本的命名实体识别结果；当上述第二电子设备和第一电子设备不是同一设备时，第二电子设备在训练得到上述命名实体识别模型后，可以将所得到的命名实体识别模型发送给第一电子设备。这样，第一电子设备在得到命名实体识别模型后，便可以利用所得到的命名实体识别模型对待进行命名实体识别的目标文本进行识别，得到该目标文本的命名实体识别结果。

具体的，第二电子设备可以首先获取待利用的训练样本和训练样本的标注信息，进而，便可以基于所获取的训练样本和训练样本的标注信息，对命名实体识别模型中的各个网络层进行训练，得到训练完成的命名实体识别模型。

其中，训练样本可以是句子，也可以是由多个词语组成的词组或者短语，这都是合理的；另外，训练样本的标注信息的确定方式为：针对训练样本中所包括的各个实体，根据该实体的类别以及该实体中各个字所在的位置，为该实体中的各个字添加标注，从而确定该训练样本的标注信息。

第二电子设备可以直接在本地获取训练样本和训练样本的标注信息，例如，技术人员事先在第二电子设备的存储空间中的保存训练样本和训练样本的标注信息；也可以是从与第二电子设备通信连接的其他电子设备处获取训练样本和训练样本的标注信息。这都合理的。

此外，在本发明实施例中，为了保证训练得到的命名实体识别模型的准确率，第二电子设备需要基于大量的训练样本和每个训练样本的标准信息对命名实体识别模型中的各个网络层进行训练。因此，第二电子设备可以获取多个待利用的训练样本和每个训练样本对应的标注信息。其中，训练样本的数量可以根据实际应用中的需求进行设定，本发明中不做具体限定。且第二电子设备所获取的多个训练样本的类型可以仅仅包括句子，或者短语，或者词组，也可以包括句子、短语和词组中的事少两类。这都是合理的。

进一步的，上述命名实体识别模型中包括LSTM层，在命名实体识别模型的训练过程中，LSTM层用于提取训练样本中各个字的初始特征向量。

其中，第二电子设备在获得多个训练样本及训练样本的标注信息后，便可以将每个训练样本及该训练样本的标注信息输入到命名实体识别模型的嵌入层。这样，针对每个训练样本中的每个字，该嵌入层便可以基于该字的信息和该字在该训练样本中的标注信息，对该字进行向量转换，得到每个训练样本中的每个字的字向量。由于每个字的标注信息是基于该字所在的实体的类别确定的，因此，针对每个字，嵌入层所得到的该字的字向量可以表征该字的信息和该字的类别标注信息。

接着，命名实体识别模型的嵌入层便可以将所得到的每个训练样本中的每个字的字向量输入到上述命名实体识别模型的LSTM层。这样，该LSTM层便可以基于所接收到的每个训练样本中的每个字的字向量，提取每个训练样本中的每个字的初始特征向量。

具体的，如图2所示，LSTM层对训练样本中的每一个字的处理过程包括：

S201：针对训练样本中的第一个字，对该字的字向量进行特征提取，得到该字的初始特征向量；

S202：针对训练样本中的第二个字，对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量；

S203：针对训练样本中除前两个字以外的每一个字，如果训练样本中该字之前的内容存在词语，对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量；否则，对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量。

其中，上述步骤S203中，训练样本中该字之前的内容中所存在的词语是指：在该训练样本中的该字之前的多个字中，是否存在连续至少两个字所组成的词语，且该词语所包括的字数不超过预设数值。该预设数值是可以基于实际应用中的训练需求进行设定的，对此，本发明实施例不做具体限定。具体的，针对不同的领域，在训练适用于该领域的命名实体识别模型时，可以根据该领域所包括的各个实体所包括的字数所处的范围，确定上述预设数值。例如，在训练适用于生化领域的命名实体识别模型时，由于生化领域所包括的各个实体所包括的字数较多，因此，所确定的上述预设数值可以较大，例如，可以为8或10等；在训练适用于金融领域的命名实体识别模型时，由于金融领域所包括的各个实体所包括的字数通常少于生化领域所包括的各个实体所包括的字数，因此，所确定的上述预设数值可以相对较小，例如，可以为5或者4等。

下面，以训练样本“武汉市长江大桥的总设计师是茅以升”中的“大”为例，对上述训练样本中该字之前的内容中所存在的词语进行介绍。其中，上述预设数值可以为5。

具体的，在训练样本“武汉市长江大桥的总设计师是茅以升”中“大”字之前的内容中存在“武”、“汉”、“市”、“长”、“江”五个字，其中，连续至少两个字可以组成四个词语，分别是“武汉”、“武汉市”、“市长(zhang)”和“长江”，且每个词语所包括字数均小于5，则上述四个词语即为在训练样本“武汉市长江大桥的总设计师是茅以升”中“大”字之前的内容中存在的词语。而“汉”字和“江”字虽然也可以组成词语“汉江”，但是，由于“汉”字和“江”字在训练样本“武汉市长江大桥的总设计师是茅以升”中不连续，则“汉江”不能作为在训练样本“武汉市长江大桥的总设计师是茅以升”中“大”字之前的内容中存在的词语。

可选的，一种具体实现方式中，如图3所示，上述步骤S203中，上述LSTM层对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量的步骤，可以包括如下步骤：

S301：判断所存在词语中，是否包含该字对应的目标词；其中，目标词为：在该字之前，且与该字相邻的词语；如果存在，执行步骤S302；如果不存在，执行步骤S303；

S302：对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量；

S303：对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量。

具体的，针对每个训练样本的除前两个字以外的每一个字，当在该训练样本中该字之前的内容存在词语时，LSTM层便可以判断所存在词语中，是否包括该字对应的目标词，即判断在训练样本中是否存在在该字之前，且与该字相邻的词语。

进而，当判断结果为是时，LSTM层便可以对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量；否则，LSTM层便可以对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量。

下面，以训练样本“武汉市长江大桥的总设计师是茅以升”中的“大”为例，对图3所示的具体实现方式进行介绍。

具体的，在训练样本“武汉市长江大桥的总设计师是茅以升”中“大”字之前的内容中存在“武汉”、“武汉市”、“市长(zhang)”和“长江”四个词语。其中，词语“长江”的最后一个字“江”在“武汉市长江大桥的总设计师是茅以升”的位置，为“大”字在“武汉市长江大桥的总设计师是茅以升”中的位置的前一个位置，则词语“长江”为“武汉市长江大桥的总设计师是茅以升”中“大”字之前的，且与“大”字相邻的词语，则可以判定，在“武汉市长江大桥的总设计师是茅以升”中存在“大”字对应的目标词“长江”，则LSTM层便可以对“大”字的字向量、“江”字的初始特征向量以及“长江”的词向量进行特征提取，得到“大”字的初始特征向量。

这样，在本具体实现方式中，针对每个训练样本的除前两个字以外的每一个字，在提取该字的特征向量时，由于所利用的目标词与该字在该训练样本中的是连续的，因此，可以更好地学习到该训练样本中各个字的词序信息，从而提升训练得到的命名识别模型的识别准确率。

可选的，一种具体实现方式中，命名实体识别模型的LSTM层针对训练样本的每一个字，在提取该字的初始特征向量之前，还包括如下步骤A1-A2：

步骤A1：获取训练样本中，以该字作为第一个字的多个文字组合，其中，每一文字组合为训练样本中连续且少于预定数量的各个字的组合；

步骤A2：针对每一文字组合，判断预设的词语库中是否存在该文字组合，如果存在，判定该文字组合为词语。

针对训练样本的每一个字，在提取该字的初始特征向量之前，LSTM层便可以获取该训练样本中，以该字作为第一个字的，连续且少于预定数量的各个字组成的文字组合；这样，针对所获取的每一文字组合，训练设备便可以将每个文字组合与预设的词语库进行匹配，从而判断该词语库中是否存在该文字组合。其中，由于预设的词语库中所包括的每一个文字组合均为一个词语，因此，针对所获取的每一文字组合，当词语库中包括该文字组合时，便可以判定该文字组合为词语。

这样，在本具体实现方式中，LSTM层在提取训练样本中的每个字的初始特征向量时，便可以首先确定训练样本中，以该字作为第一个字的多个文字组合中的词语。从而，LSTM层在提取训练样本中的该字之后的另一个字的初始特征向量时，可以直接确定在训练样本中，该另一个字之前的内容中是否存在词语，以及，当存在词语时，可以直接确定所存在词语的具体内容；而不需要在提取该另一个字的初始特征向量时，首先去判断训练样本中该字之前的内容中是否存在词语。这样，可以提高提取该另一个字的初始特征向量效率。

下面，以训练样本“武汉市长江大桥的总设计师是茅以升”中的“长”为例，对上述步骤A1-A2进行介绍。其中，上述预设数值可以为5。

具体的，针对“武汉市长江大桥的总设计师是茅以升”中的“长”字，便可以获取以该“长”字作为第一个字的，连续且少于5个的各个字组成的文字组合。其中，这些文字组合包括“长江”、“长江大”、“长江大桥”和“长江大桥的”。进一步的，LSTM层便可以将“长江”、“长江大”、“长江大桥”和“长江大桥的”分别与预设的词语库进行匹配，判断该词语库中是否包括“长江”、“长江大”、“长江大桥”和“长江大桥的”。进而，由于预设的词语库中包括“长江”和“长江大桥”，因此，LSTM层可以判定文字组合“长江”和“长江大桥”分别为词语，“长江大”和“长江大桥的”不是词语。

其中，在本具体实现方式中，上述词语库中包括的各个词语可以是第二电子设备利用分词算法对文本进行分词得到的；也可以是第二电子设备从通讯连接的其他电子设备处或者网络上获得的现有词语库；当然，第二电子设备还可以通过其他方式获得该词语库，这都是合理的。

可选的，一种具体实现方式中，上述命名实体识别模型还包括中间层，且该中间层为膨胀卷积层。

具体的，在LSTM层得到各个训练样本中各个字的初始特征向量后，LSTM层便可以所得到的各个训练样本中各个字的初始特征向量输入到命名实体识别模型的中间层。这样，中间层在得到各个训练样本中各个字的初始特征向量后，针对每一训练样本中的每个字，便可以对该字的初始特征向量和该字在该训练样本中的上下文所包括的字的初始特征向量进行特征提取，得到该字的深度特征向量。其中，该字在该训练样本中的上下文是指：训练样本中，该字之前的一个字或者连续多个字，以及该字之后的一个字或者连续多个字。

进一步的，由于每个字的字向量可以表征该字的类别标注信息，因此，LSTM层所得到的每个字的初始特征向量以及中间层所得到的每个字的深度特征向量，均可以表征该字的类别标注信息。基于此，针对训练样本中的每个字，命名实体识别模型的中间层在得到该字的深度特征向量后，便可以基于所得到的深度特征向量中各个维度的数值，学习该字被标记为各个类别的概率。

这样，经过多次迭代学习，命名实体识别模型的中间层可以最终确定训练样本中的每个字被标记为各个类别的概率，并确定最大概率所对应的类别标注。进而，命名实体识别模型的中间层便可以将所最终确定的每个字被标记为各个类别的概率作为输出，输入到命名实体模型的输出层。其中，针对每个字，命名实体模型的输出层可以将所确定的最大概率所对应的类别标注，作为该字的输出结果。

具体的，在每次迭代学习后，中间层可以通过对比所学习到的每个字的类别标注与该字在训练样本中的标注信息，确定预设的损失函数的取值。其中，损失函数的取值越大，说明所学习到的每个字的类别标注与该字在训练样本中的标注信息之间的误差越大。进而，经过多次迭代，当损失函数的取值小于预设阈值时，说明所学习到的每个字的类别标注与该字在训练样本中的标注信息之间的误差已经降低到实际应用的允许范围内。这样，便可以停止模型训练，最终确定训练样本中的每个字被标记为各个类别的概率，从而得到训练好的命名实体识别模型。其中，上述预设阈值可以根据实际应用中对命名实体识别的准确率的需求进行确定，预设阈值越低，则说明实际应用中对命名实体识别的准确率的需求越高。

此外，也可以是在迭代次数达到预设次数时，停止模型训练，得到训练好的命名实体识别模型。其中，上述预设次数可以根据实际应用中对命名实体识别的准确率的需求进行确定，预设次数越大，则说明实际应用中对命名实体识别的准确率的需求越高。

可选的，在本具体实现方式中，上述命名实体识别模型的中间层可以为卷积层。

进一步的，针对每一训练样本中的每个字，为了在提取该字的深度特征向量时，可以学习到该字在该训练样本中的更多的上下文，即为了使得在提取该字的深度特征向量时，所利用的该字在该训练样本中的上下文所包括的字可以更多，上述命名实体识别模型的中间层可以为膨胀卷积层。

这样，当中间层为膨胀卷积层时，可以扩大中间层的感受野，使得中间层在提取每个字的深度特征向量时，所利用的该字在该训练样本中上下文所包括的字可以为：该字在该训练样本中之前连续的多个字和之后连续的多个字。从而使得在训练过程中，命名实体识别模型可以更好的学习训练样本中各个字的词序信息，从而提高得到的命名实体识别模型的识别准确率。

例如，当膨胀卷积层为三层时，则该字在该训练样本中上下文所包括的字可以为：该字在该训练样本中之前连续的三个字和之后连续的三个字。

下面，当膨胀卷积层为三层时，以训练样本“武汉市长江大桥的总设计师是茅以升”中的“武”、“长”和“升”为例，对上述提取各个字的深度特征向量的方式进行说明。

则针对“武”字，便可以对“武”、“汉”、“市”和“长”四个字的初始特征向量进行特征提取，得到“武”字的深度特征向量；针对“长”字，便可以对“武”、“汉”、“市”“长”、“江”、“大”和“桥”七个字的初始特征向量进行特征提取，得到“长”字的深度特征向量；针对“升”，便可以对“是”、“茅”、“以”和“升”四个字的初始特征向量进行特征提取，得到“升”字的深度特征向量。

此外，在本发明实施例提供的方案中，命名实体模型是用于识别目标文本中的各个实体的。可以理解的，在语言习惯中，每个实体中各个字的前后顺序存在逻辑关系，因此，在对目标文本进行命名实体识别时，在识别得到的一个实体中，为该实体的各个字所添加的标注信息也存在逻辑关系。

例如，在本发明实施例提供的方案中，利用BIO标注为训练样本添加标注信息，则逻辑上当一个实体的第一个字被标记为B-X时，该实体中的其他字只能被标记为I-X或O，而不能被标记为I-Y或I-Z等其他内容。其中，X、Y和Z为某一类型对应的属性标识。

具体的，在BIO标注中，B为Begin的缩写，用于标注实体中的起始字，I为Continue的缩写，用于标注实体中起始字之外的字，O为Others的缩写，用于标注表征非实体内容的字；并且，可以预先设定各个实体类型对应的属性标识，并通过“-”连接在B或者I之后。

这样，NER中，可以利用BIO标注来对文本中的所有命名实体(人名、组织名、地点、时间等)进行标注，从而可以得到多个B和I的类别，如B-PERS、I-PERS、B-ORG、I-ORG等，其中，PERS对应的实体类型为人名，ORG对应的实体类型为组织名。

例如，当实体类型为地点时，设定地点的属性标识为LOC，则文本“北京欢迎你”的BIO标注结果为：

北B-LOC

京I-LOC

欢O

迎O

你O

其中，BIO标注的显示格式为：每个字为一行，标注信息与字通过空格隔开，每一句之间通过空行进行区分。

因此，为了进一步提升训练得到的命名实体识别模型的识别准确性，使得在对目标文本进行实体识别时，所得到的识别结果可以更好地满足所添加的标注信息之间的逻辑关系，可选的，一种具体实现方式中，在上述本发明实施例提供的命名实体模型的中间层和输出层之间，还可以包括CRF(conditional random fields，条件随机场)。

其中，CRF层可以对命名实体识别模型的中间层的训练结果进行进一步限定。具体的，CRF层作为统计模型，可以统计训练样本的标注信息中，每个字及其上下文中的各个字的标注信息，从而统计得到训练样本中各个字的标注信息之间的逻辑关系；进而，便可以基于统计结果，降低中间层的训练结果中不满足上述逻辑关系的训练结果的概率，从而最终确定训练样本中的各个字的标注结果，并将所确定的各个字的标注结果作为输出通过命名实体识别模型的的中间层进行输出，完成对命名实体识别结果的训练。

为了便于理解上述本发明实施例提供的命名实体识别模型的训练方法，如图4所示，以训练样本“武汉市长江大桥”为例，进行具体说明。其中，上述步骤A1中的预定数量为4。

具体的：

第二电子设备将训练样本“武汉市长江大桥”和该训练样本的标注信息输入到命名实体识别模型的嵌入层，该嵌入层对“武汉市长江大桥”中的各个字，基于该字的信息和该字的标注信息进行向量转换，得到各个字的字向量，并将所得到的各个字的字向量输入到命名实体识别模型的LSTM层；

其中，为了便于后续说明，在图4中，通过各个汉字来表征“武汉市长江大桥”中的各个字的字向量。

命名实体识别模型的LSTM层在得到“武汉市长江大桥”中的各个字的字向量后，便可以基于所获得的各个字的字向量，提取各个字的初级特征向量；

其中，针对第一个字“武”，LSTM层可以判定存在词语“武汉”和“武汉市”，并对“武”的字向量进行特征提取，得到“武”的初始特征向量；

针对第二个字“汉”，判定不存在词语，并对“武”的初始特征向量和“汉”的字向量进行特征提取，得到“汉”的初始特征向量；

针对第三个字“市”，判定存在词语“市长(zhang)”，且存在“市”对应的目标词“武汉”，并对“汉”的初始特征向量、“市”的字向量和“武汉”的词向量进行特征提取，得到“市”的初始特征向量；

针对第四个字“长”，判定存在词语“长江”和“长江大桥”，且存在“长”对应的目标词“武汉市”，并对“市”的初始特征向量、“长”的字向量和“武汉市”的词向量进行特征提取，得到“长”的初始特征向量；

针对第五个字“江”，判定不存在词语，且存在“江”对应的目标词“市长(zhang)”，并对“长”的初始特征向量、“江”的字向量和“市长(zhang)”的词向量进行特征提取，得到“江”的初始特征向量；

针对第六个字“大”，判定存在词语“大桥”，且存在“大”对应的目标词“长江”，并对“江”的初始特征向量、“大”的初始特征向量和“长江”的词向量进行特征提取，得到“大”的初始特征向量；

针对第七个字“桥”，判定不存在词语，且不存在“桥”对应的目标词，对“大”的初始特征向量和“桥”的字向量进行特征提取，得到“桥”的初始特征向量。

在得到“武汉市长江大桥”中的各个字的初级特征向量后，LSTM层便可以将所得到的各个字的初级特征向量输入到膨胀卷积层，从而得到“武汉市长江大桥”中的各个字的深度特征向量。其中，膨胀卷积层为三层。

则针对第一个字“武”，膨胀卷积层可以对“武”、“汉”、“市”和“长”的初级特征向量进行特征提取，得到“武”的深度特征向量；

针对第二个字“汉”，膨胀卷积层可以对“武”、“汉”、“市”、“长”和“江”的初级特征向量进行特征提取，得到“汉”的深度特征向量；

针对第三个字“市”，膨胀卷积层可以对“武”、“汉”、“市”、“长”、“江”和“大”的初级特征向量进行特征提取，得到“市”的深度特征向量；

针对第四个字“长”，膨胀卷积层可以对“武”、“汉”、“市”、“长”、“江”、“大”和“桥”的初级特征向量进行特征提取，得到“长”的深度特征向量；

针对第五个字“江”，膨胀卷积层可以对“汉”、“市”、“长”、“江”、“大”和“桥”的初级特征向量进行特征提取，得到“江”的深度特征向量；

针对第六个字“大”，膨胀卷积层可以对“市”、“长”、“江”、“大”和“桥”的初级特征向量进行特征提取，得到“大”的深度特征向量；

针对第七个字“桥”，膨胀卷积层可以对“长”、“江”、“大”和“桥”的初级特征向量进行特征提取，得到“桥”的深度特征向量。

这样，在得到“武汉市长江大桥”中的各个字的深度特征向量后，膨胀卷积层可以经过预设次数的迭代学习，确定“武汉市长江大桥”中的每个字被标记为各个类别的概率，并将所确定的概率作为输出，输入到CRF层。进而，CRF层对接收到的“武汉市长江大桥”中的每个字被标记为各个类别的概率进行进一步限定，从而最终确定“武汉市长江大桥”中的每个字的类别标注。

相应于上述本发明实施例提供的一种命名实体识别方法，本发明实施例还提供了一种命名实体识别模型的训练方法。

图5为本发明实施例提供的一种命名实体识别模型的训练方法的流程示意图。其中，该方法可以应用于任一需要训练命名实体识别模型的电子设备，例如，笔记本电脑、台式电脑、平板电脑等，对此，本发明实施例不做具体限定。

如图5所示，该训练方法可以包括如下步骤：

S501：获得待利用的训练样本和训练样本的标注信息；

S502：基于训练样本和训练样本的标注信息，对命名实体识别模型中的各个网络层进行训练，得到训练完成的命名实体识别模型；

其中，各个网络层包括长短期记忆网络LSTM层，LSTM层对训练样本中的每一个字的处理过程包括：

以上可见，在本发明实施例提供的方案中，命名实体识别模型的LSTM层在对训练样本中每个字的处理过程中，可以学习到该训练样本中所包括的每个字的词序信息，因此，基于训练样本所包括的每个字的特征信息以及该训练样本中每个字的词序信息，训练得到的命名实体识别模型可以更全面的学习训练样本的特征训练，使得命名实体识别模型不但可以学习到训练样本中各个字的特征，还可以学习到训练样本的整体特征。这样，训练得到的命名实体识别模型可以更好地对文本进行识别，并提高识别结果的准确率。

可选的，一种具体实现方式中，上述LSTM层对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量的步骤，可以包括如下步骤B1-B3：

步骤B1：判断所存在词语中，是否包含该字对应的目标词；其中，目标词为：在该字之前，且与该字相邻的词语；如果存在，执行步骤B2，否则，执行步骤B3；

步骤B2：对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量；

步骤B3：对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量。

可选的，一种具体实现方式中，上述LSTM层针对训练样本的每一个字，在提取该字的初始特征向量之前，还可以包括如下步骤C1-C3：

步骤C1：获取训练样本中，以该字作为第一个字的多个文字组合，其中，每一文字组合为训练样本中连续且少于预定数量的各个字的组合；

步骤C2：针对每一文字组合，判断预设的词语库中是否存在该文字组合，如果是，执行步骤C3；

步骤C3：判定该文字组合为词语。

可选的，一种具体实现方式，上述各个网络层还可以包括中间层，中间层可以为膨胀卷积层。

需要说明的是，在本发明实施例提供的一种命名实体识别模型的训练方法中，上述各具体实现方式的具体内容，与上述本发明实施例提供的一种命名实体识别方法中的内容相同，在此不再赘述。

相应于上述本发明实施例提供的一种命名实体识别方法，本发明实施例还提供了一种命名实体识别装置。

图6为本发明实施例提供的一种命名实体识别装置的结构示意图。如图6，该装置可以包括如下模块：

文本获取模块610，用于获取待进行命名实体识别的目标文本；

结果获得模块620，用于将目标文本输入到预设的命名实体识别模型中，得到目标文本的命名实体识别结果；

其中，LSTM层对训练样本中的每一个字的处理过程包括：

以上可见，在本发明实施例提供的方案中，在对待进行命名实体识别的目标文本进行命名实体识别时，是将该目标文本输入到预设的命名实体识别模型中，得到该目标文本的命名实体识别结果的。其中，命名实体识别模型为采用训练样本和训练样本的标注信息训练得到的模型。由于命名实体识别模型的LSTM层在对训练样本中每个字的处理过程中，可以学习到该训练样本中所包括的每个字的词序信息，因此，基于训练样本所包括的每个字的特征信息以及该训练样本中每个字的词序信息，训练得到的命名实体识别模型可以更全面的学习训练样本的特征训练，使得命名实体识别模型不但可以学习到训练样本中各个字的特征，还可以学习到训练样本的整体特征。这样，利用训练得到的命名实体识别模型对目标文本进行命名实体识别时，便可以提高得到的识别结果的准确率。

可选的，一种具体实现方式中，上述LSTM层对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量，可以包括：

判断所存在词语中，是否包含该字对应的目标词；其中，目标词为：在该字之前，且与该字相邻的词语；

可选的，一种具体实现方式中，上述LSTM层针对训练样本的每一个字，在提取该字的初始特征向量之前，还可以包括：

获取训练样本中，以该字作为第一个字的多个文字组合，其中，每一文字组合为训练样本中连续且少于预定数量的各个字的组合；

可选的，一种具体实现方式中，上述命名实体识别模型还可以包括中间层，该中间层可以为膨胀卷积层。

相应于上述本发明实施例提供的一种命名实体识别模型的训练方法，本发明实施例还提供了一种命名实体识别模型的训练装置。

图7为本发明实施例提供的一种命名实体识别模型的训练装置的结构示意图。如图7所示，该装置可以包括如下模块：

样本获得模块710，用于获得待利用的训练样本和训练样本的标注信息；

模型训练模块720，用于基于训练样本和训练样本的标注信息，对命名实体识别模型中的各个网络层进行训练，得到训练完成的命名实体识别模型；

可选的，一种具体实现方式中，上述各个网络层还可以包括中间层，该中间层为膨胀卷积层。

相应于上述本发明实施例提供的一种命名实体识别模型的训练方法，本发明实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现上述本发明实施例提供的一种命名实体识别方法。

具体的，上述命名实体识别方法，包括：

获取待进行命名实体识别的目标文本；

将目标文本输入到预设的命名实体识别模型中，得到目标文本的命名实体识别结果；

其中，LSTM层对训练样本中的每一个字的处理过程包括：

需要说明的是，上述处理器801执行存储器803上存放的程序而实现的一种命名实体识别方法的其他实现方式，与前述方法实施例部分提供的一种命名实体识别方法实施例相同，这里不再赘述。

相应于上述本发明实施例提供的一种命名实体识别模型的训练方法，本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现上述本发明实施例提供的一种命名实体识别方法。

具体的，上述一种命名实体识别模型的训练方法，包括：

获得待利用的训练样本和训练样本的标注信息；

基于训练样本和训练样本的标注信息，对命名实体识别模型中的各个网络层进行训练，得到训练完成的命名实体识别模型；

需要说明的是，上述处理器901执行存储器903上存放的程序而实现的一种命名实体识别模型的训练方法的其他实现方式，与前述方法实施例部分提供的一种命名实体识别模型的训练方法实施例相同，这里不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

相应于上述本发明实施例提供的一种命名实体识别方法，本发明实施例还提供了一种计算机可读存储介质，该计算机程序被处理器执行时实现上述本发明实施例提供的一种命名实体识别方法。

相应于上述本发明实施例提供的一种命名实体识别模型的训练方法，本发明实施例还提供了一种计算机可读存储介质，该计算机程序被处理器执行时实现上述本发明实施例提供的一种命名实体识别模型的训练方法。

相应于上述本发明实施例提供的一种命名实体识别方法，本发明实施例还提供了一种芯片，该芯片存储有计算机指令，该计算机指令被执行时实现上述本发明实施例提供的一种命名实体识别方法。

相应于上述本发明实施例提供的一种命名实体识别方法，本发明实施例还提供了一种芯片，该芯片存储有计算机指令，该计算机指令被执行时实现上述本发明实施例提供的一种命名实体识别模型的训练方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、模型实施例、电子设备实施例、计算机可读存储介质实施例、芯片实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种命名实体识别方法，其特征在于，所述方法包括：

获取待进行命名实体识别的目标文本；

2.根据权利要求1所述的方法，其特征在于，所述LSTM层对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述LSTM层针对所述训练样本的每一个字，在提取该字的初始特征向量之前，还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述命名实体识别模型还包括中间层，所述中间层为膨胀卷积层。

5.一种命名实体识别模型的训练方法，其特征在于，所述方法包括：

获得待利用的训练样本和所述训练样本的标注信息；

6.根据权利要求5所述的方法，其特征在于，所述LSTM层对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量的步骤，包括：

7.根据权利要求5所述的方法，其特征在于，所述LSTM层针对所述训练样本的每一个字，在提取该字的初始特征向量之前，还包括：

8.根据权利要求5-7任一项所述的方法，其特征在于，所述各个网络层还包括中间层，所述中间层为膨胀卷积层。

9.一种命名实体识别装置，其特征在于，所述装置包括：

文本获取模块，用于获取待进行命名实体识别的目标文本；

10.根据权利要求9所述的装置，其特征在于，所述LSTM层对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量，包括：

11.根据权利要求9所述的装置，其特征在于，所述LSTM层针对所述训练样本的每一个字，在提取该字的初始特征向量之前，还包括：

12.根据权利要求9-11任一项所述的装置，其特征在于，所述命名实体识别模型还包括中间层，所述中间层为膨胀卷积层。

13.一种命名实体识别模型的训练装置，其特征在于，所述装置包括：

14.根据权利要求13所述的装置，其特征在于，所述LSTM层对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量，包括：

15.根据权利要求13所述的装置，其特征在于，所述LSTM层针对所述训练样本的每一个字，在提取该字的初始特征向量之前，还包括：

16.根据权利要求13-15任一项所述的装置，其特征在于，所述各个网络层还包括中间层，所述中间层为膨胀卷积层。

17.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一项所述的方法步骤。

18.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求5-8任一项所述的方法步骤。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求5-8任一项所述的方法步骤。

21.一种芯片，所述芯片存储有计算机指令，其特征在于，所述计算机指令被执行时实现权利要求1-4任一项所述的方法步骤。

22.一种芯片，所述芯片存储有计算机指令，其特征在于，所述计算机指令被执行时实现权利要求5-8任一项所述的方法步骤。