CN109190120A

CN109190120A - 神经网络训练方法和装置及命名实体识别方法和装置

Info

Publication number: CN109190120A
Application number: CN201811011544.2A
Authority: CN
Inventors: 赵汉光; 王珵; 戴文渊
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-01-11
Anticipated expiration: 2038-08-31
Also published as: CN109190120B

Abstract

提供一种神经网络训练方法和装置及命名实体识别方法和装置。一种用于命名实体识别的神经网络的训练方法，其中，神经网络包括多个子神经网络，训练方法包括：获取第一训练文本集和第一训练文本集的关于多个命名实体类别的标注信息；将第一训练文本集输入到神经网络中，得到各子神经网络输出的命名实体识别信息，其中，神经网络中的各子神经网络与第一训练文本集的标注信息包含的多个命名实体类别一一对应；对于各子神经网络，基于第一训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失；根据各子神经网络的损失计算神经网络的损失，并根据神经网络的损失训练神经网络。

Description

神经网络训练方法和装置及命名实体识别方法和装置

技术领域

本发明涉及命名实体识别，尤其涉及用于命名实体识别的神经网络的训练方法和装置以及基于神经网络的命名实体识别方法和装置。

背景技术

命名实体识别(Named Entity Recognition,NER)是一种把文本中出现的命名实体识别出来并加以归类的技术。例如，命名实体可包括三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。命名实体识别是自然语言处理中的一项基础性工作，同时也是很多应用(例如，信息检索、信息抽取以及机器翻译等)中的关键技术。因此，研究命名实体的自动识别具有重要的理论意义和实践价值。

随着对命名实体识别技术的需求不断提高，对命名实体识别技术的要求也越来越高。然而，在现有的命名实体识别技术中，不同文本和不同任务间的命名实体的类别往往不完全相同，命名实体识别模型无法方便的进行迁移，使得命名实体识别模型的功能单一，无法充分地满足用户对不同文本和/或不同任务间的命名实体类别识别的日益增长的需求。

发明内容

本发明的目的在于提供一种用于命名实体识别的神经网络的训练方法和装置以及基于神经网络的命名实体识别方法和装置。

本发明的一方面提供一种用于命名实体识别的神经网络的训练方法，其中，所述神经网络包括多个子神经网络，所述训练方法包括：获取第一训练文本集和第一训练文本集的关于多个命名实体类别的标注信息；将第一训练文本集输入到所述神经网络中，得到各子神经网络输出的命名实体识别信息，其中，所述神经网络中的各子神经网络与第一训练文本集的标注信息所包含的多个命名实体类别一一对应；对于各子神经网络，基于第一训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失；根据各子神经网络的损失计算所述神经网络的损失，并根据所述神经网络的损失对所述神经网络进行训练。

可选地，所述训练方法进一步包括：获取第二训练文本集和第二训练文本集的关于多个命名实体类别的标注信息；将第二训练文本集的标注信息所包含的多个命名实体类别与所述神经网络中的各子神经网络对应的多个命名实体类别进行比较，得到比较结果；根据得到的比较结果，调整所述神经网络，使得调整后的神经网络中的各子神经网络与第二训练文本集的标注信息所包含的多个命名实体类别一一对应；将第二训练文本集输入至调整后的神经网络，得到调整后的神经网络中的各子神经网络输出的命名实体识别信息；对于调整后的神经网络的各子神经网络，基于第二训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失；根据各子神经网络的损失计算调整后的神经网络的损失，并根据调整后的神经网络的损失对调整后的神经网络进行迁移训练。

可选地，所述神经网络和调整后的神经网络的各子神经网络均包括文本转换层、特征层、拼接层和分类层，且所述神经网络和调整后的神经网络的各子神经网络共用文本转换层、特征层和拼接层；所述将第一训练文本集输入至所述神经网络，得到各子神经网络输出的命名实体识别信息包括：将第一训练文本集输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息；由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到所述神经网络的各子神经网络的分类层；所述将第二训练文本集输入至调整后的神经网络，得到调整后的神经网络中的各子神经网络输出的命名实体识别信息包括：将第二训练文本集输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息；由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到调整后的神经网络的各子神经网络的分类层。

可选地，所述将第一训练文本集输入至所述神经网络，得到各子神经网络输出的命名实体识别信息还包括：将至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层；所述将第二训练文本集输入至调整后的神经网络，得到调整后的神经网络中的各子神经网络输出的命名实体识别信息还包括：将所述至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层。

可选地，所述文本转换层为嵌入层；所述将训练文本输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息包括：将训练文本输入到经过预训练的嵌入层，得到嵌入层输出的字向量；或者，所述文本转换层为语言模型；所述将训练文本输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息包括：将训练文本输入到经过预训练的语言模型，得到语言模型输出的字相关信息；或者，所述文本转换层包括嵌入层和语言模型；所述将训练文本输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息包括：将训练文本分别输入到经过预训练的嵌入层和语言模型，将嵌入层和语言模型的输出拼接后得到字相关信息。

可选地，所述根据得到的比较结果，调整所述神经网络包括：当得到的比较结果指示第二训练文本集的标注信息所包含的多个命名实体类别与所述神经网络中的各子神经网络对应的多个命名实体类别相同时，维持所述神经网络中的各子神经网络，并固定文本转换层或文本转换层和特征层的参数权重。

可选地，所述根据得到的比较结果，调整所述神经网络包括：当得到的比较结果指示所述神经网络中的各子神经网络对应的多个命名实体类别中的至少一个命名实体类别不在第二训练文本集的标注信息所包含的多个命名实体类别中时，如果第二训练文本集的标注信息所包含的多个命名实体类别中的一个或多个命名实体类别依赖于所述至少一个命名实体类别，则维持所述神经网络中的各子神经网络，固定所述神经网络中的所述至少一个命名实体类别对应的子神经网络的分类层的参数权重；如果第二训练文本集的标注信息所包含的多个命名实体类别均不依赖于所述至少一个命名实体类别，则删除所述神经网络中的所述至少一个命名实体类别对应的子神经网络的分类层。

可选地，所述根据得到的比较结果，调整所述神经网络包括：当得到的比较结果指示第二训练文本集的标注信息所包含的多个命名实体类别中的至少一个命名实体类别不在所述神经网络中的各子神经网络对应的多个命名实体类别之中时，加入与所述至少一个命名实体类别一一对应的新的子神经网络的分类层。

可选地，所述分类层为线性链条件随机场层；或者，所述分类层由全连接层和归一化层组成。

可选地，所述训练方法进一步包括：对第一训练文本集的关于多个命名实体类别的标注信息进行BMESO+编码；对所述神经网络中的各子神经网络输出的命名实体识别信息进行BMESO+解码。

本发明的一方面提供一种基于神经网络的命名实体识别方法，其中，所述神经网络包括多个子神经网络，所述神经网络是预训练的，所述命名实体识别方法包括：获取待识别的预测文本；将所述预测文本输入到所述神经网络中，得到所述神经网络的各子神经网络识别并输出的命名实体识别信息；其中，所述神经网络中的各子神经网络与多个命名实体类别一一对应。

可选地，所述神经网络中的每个子神经网络均包括文本转换层、特征层、拼接层和分类层，且所述神经网络的各子神经网络共用文本转换层、特征层和拼接层；所述将所述预测文本输入所述神经网络中，得到所述神经网络的各子神经网络识别并输出的命名实体识别信息包括：将所述预测文本输入到文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息，由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到所述神经网络的各子神经网络的分类层；得到各分类层输出的命名实体识别信息。

可选地，所述将所述预测文本输入至所述神经网络，得到所述神经网络的各子神经网络识别并输出的命名实体识别信息还包括：将至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层。

可选地，所述文本转换层为嵌入层；所述将所述预测文本输入到文本转换层，得到文本转换层输出的字相关信息包括：将所述预测文本输入到嵌入层，得到嵌入层输出的字向量；或者，所述文本转换层为语言模型；所述将所述预测文本输入到文本转换层，得到文本转换层输出的字相关信息包括：将所述预测文本输入到语言模型，得到语言模型输出的字相关信息；或者，所述文本转换层包括嵌入层和语言模型；所述将所述预测文本输入到文本转换层，得到文本转换层输出的字相关信息包括：将所述预测文本分别输入到嵌入层和语言模型，将嵌入层和语言模型的输出拼接后得到字相关信息。

可选地，所述命名实体识别方法进一步包括：对所述神经网络中的各子神经网络识别并输出的命名实体识别信息进行BMESO+解码。

可选地，所述神经网络是依据上面所述的任一项训练方法训练得到的。

本发明的一方面提供一种用于命名实体识别的神经网络的训练装置，其中，所述神经网络包括多个子神经网络，所述训练装置包括：获取单元，被配置为获取第一训练文本集和第一训练文本集的关于多个命名实体类别的标注信息；命名实体识别信息生成单元，被配置为将第一训练文本集输入到所述神经网络中，得到各子神经网络输出的命名实体识别信息，其中，所述神经网络中的各子神经网络与第一训练文本集的标注信息所包含的多个命名实体类别一一对应；训练单元，被配置为：对于各子神经网络，基于第一训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失，根据各子神经网络的损失计算所述神经网络的损失，并根据所述神经网络的损失对所述神经网络进行训练。

可选地，获取单元被配置为获取第二训练文本集和第二训练文本集的关于多个命名实体类别的标注信息；所述训练装置进一步包括：比较单元，被配置为将第二训练文本集的标注信息所包含的多个命名实体类别与所述神经网络中的各子神经网络对应的多个命名实体类别进行比较，得到比较结果，调整单元，被配置为根据得到的比较结果，调整所述神经网络，使得调整后的神经网络中的各子神经网络与第二训练文本集的标注信息所包含的多个命名实体类别一一对应；命名实体识别信息生成单元被配置为将第二训练文本集输入至调整后的神经网络，得到调整后的神经网络中的各子神经网络输出的命名实体识别信息；训练单元被配置为对于调整后的神经网络的各子神经网络，基于第二训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失；根据各子神经网络的损失计算调整后的神经网络的损失，并根据调整后的神经网络的损失对调整后的神经网络进行迁移训练。

可选地，所述神经网络和调整后的神经网络的各子神经网络均包括文本转换层、特征层、拼接层和分类层，且所述神经网络和调整后的神经网络的各子神经网络共用文本转换层、特征层和拼接层；命名实体识别信息生成单元被配置为：将第一训练文本集输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息；由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到所述神经网络的各子神经网络的分类层；命名实体识别信息生成单元被配置为：将第二训练文本集输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息；由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到调整后的神经网络的各子神经网络的分类层。

可选地，命名实体识别信息生成单元还被配置为：针对第一训练文本集，将至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层；命名实体识别信息生成单元还被配置为：针对第二训练文本集，将所述至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层。

可选地，所述文本转换层为嵌入层；命名实体识别信息生成单元被配置为：将训练文本输入到经过预训练的嵌入层，得到嵌入层输出的字向量；或者，所述文本转换层为语言模型；命名实体识别信息生成单元被配置为：将训练文本输入到经过预训练的语言模型，得到语言模型输出的字相关信息；或者，所述文本转换层包括嵌入层和语言模型；命名实体识别信息生成单元被配置为：将训练文本分别输入到经过预训练的嵌入层和语言模型，将嵌入层和语言模型的输出拼接后得到字相关信息。

可选地，调整单元被配置为：当得到的比较结果指示第二训练文本集的标注信息所包含的多个命名实体类别与所述神经网络中的各子神经网络对应的多个命名实体类别相同时，维持所述神经网络中的各子神经网络，并固定文本转换层或文本转换层和特征层的参数权重。

可选地，调整单元被配置为：当得到的比较结果指示所述神经网络中的各子神经网络对应的多个命名实体类别中的至少一个命名实体类别不在第二训练文本集的标注信息所包含的多个命名实体类别中时，如果第二训练文本集的标注信息所包含的多个命名实体类别中的一个或多个命名实体类别依赖于所述至少一个命名实体类别，则维持所述神经网络中的各子神经网络，固定所述神经网络中的所述至少一个命名实体类别对应的子神经网络的分类层的参数权重；如果第二训练文本集的标注信息所包含的多个命名实体类别均不依赖于所述至少一个命名实体类别，则删除所述神经网络中的所述至少一个命名实体类别对应的子神经网络的分类层。

可选地，调整单元被配置为：当得到的比较结果指示第二训练文本集的标注信息所包含的多个命名实体类别中的至少一个命名实体类别不在所述神经网络中的各子神经网络对应的多个命名实体类别之中时，加入与所述至少一个命名实体类别一一对应的新的子神经网络的分类层。

可选地，所述训练装置进一步包括：编码单元，被配置为对第一训练文本集的关于多个命名实体类别的标注信息进行BMESO+编码；解码单元，被配置为对所述神经网络中的各子神经网络输出的命名实体识别信息进行BMESO+解码。

本发明的一方面提供一种基于神经网络的命名实体识别装置，其中，所述神经网络包括多个子神经网络，所述神经网络是预训练的，所述命名实体识别装置包括：获取单元，被配置为获取待识别的预测文本；命名实体识别信息生成单元，被配置为将所述预测文本输入到所述神经网络中，得到所述神经网络的各子神经网络识别并输出的命名实体识别信息；其中，所述神经网络中的各子神经网络与多个命名实体类别一一对应。

可选地，所述神经网络中的每个子神经网络均包括文本转换层、特征层、拼接层和分类层，且所述神经网络的各子神经网络共用文本转换层、特征层和拼接层；命名实体识别信息生成单元被配置为：将所述预测文本输入到文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息；由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到所述神经网络的各子神经网络的分类层，得到各分类层输出的命名实体识别信息。

可选地，命名实体识别信息生成单元还被配置为：将至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层。

可选地，所述文本转换层为嵌入层；命名实体识别信息生成单元被配置为：将所述预测文本输入到嵌入层，得到嵌入层输出的字向量；或者，所述文本转换层为语言模型；命名实体识别信息生成单元被配置为：将所述预测文本输入到语言模型，得到语言模型输出的字相关信息；或者，所述文本转换层包括嵌入层和语言模型；命名实体识别信息生成单元被配置为：将所述预测文本分别输入到嵌入层和语言模型，将嵌入层和语言模型的输出拼接后得到字相关信息。

可选地，所述命名实体识别装置进一步包括：解码单元，被配置为对所述神经网络中的各子神经网络识别并输出的命名实体识别信息进行BMESO+解码。

可选地，所述神经网络是依据如上所述的任一项训练方法训练得到的。

本发明的一方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被一个或多个计算装置执行时使得所述一个或多个计算装置实现如上所述的任一项方法。

本发明的一方面提供一种包括一个或多个计算装置和一个或多个存储装置的系统，所述一个或多个存储装置上记录有计算机程序，所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现如上所述的任一项方法。

本发明这种利用包括多个子神经网络的神经网络进行多类别命名实体识别的技术方案，由于通过多个子神经网络分别获得与多类别命名实体识别对应的多个命名实体识别信息并基于多个命名实体识别信息训练神经网络，因此，能够针对不同命名实体类别的文本进行识别，增加了命名实体识别的应用范围。此外，由于本发明的神经网络中的多个子神经网络相对独立地输出各自的命名实体识别信息，本发明的神经网络在面对新的文本数据时大大增强了迁移能力，以适应新的文本风格和不同类别的命名实体。

将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明总体构思的实施而得知。

附图说明

通过下面结合示例性地示出一例的附图进行的描述，本发明的上述和其他目的和特点将会变得更加清楚，其中：

图1示出根据本发明的用于命名实体识别的神经网络的训练方法的流程图；

图2示出根据本发明的用于命名实体识别的神经网络的图1的训练方法所进一步包括的迁移训练方法的流程图；

图3示出根据本发明的基于神经网络的命名实体识别方法的流程图；

图4示出根据本发明的用于命名实体识别的神经网络的训练装置；

图5示出根据本发明的具有的图4的训练装置的进一步详细配置的用于命名实体识别的神经网络的训练装置的框图；

图6示出根据本发明的基于神经网络的命名实体识别装置的框图；

图7示出根据本发明的一个实施例的神经网络的示意图；

图8示出根据本发明的一个实施例的调整神经网络的示意图。

具体实施方式

提供以下参照附图进行的描述，以帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。所述描述包括各种特定细节以帮助理解，但这些细节被认为仅是示例性的。因此，本领域的普通技术人员将认识到：在不脱离本发明的范围和精神的情况下，可对这里描述的实施例进行各种改变和修改。此外，为了清楚和简明，可省略已知功能和构造的描述。

图1示出根据本发明的用于命名实体识别的神经网络的训练方法的流程图。在本发明的实施例中，用于命名实体识别的神经网络可包括多个子神经网络。参照图1，该方法包括：

在步骤S110中，获取第一训练文本集和第一训练文本集的关于多个命名实体类别的标注信息。这里，多个命名实体类别指的是两个或两个以上的命名实体类别，例如，人名、地名和机构名是三个不同的命名实体类别。作为示例，当多个命名实体包括人名和地名时，标注信息可指示第一训练文本集中的各文本是属于以下情况中的哪一种：属于人名而不属于地名、属于地名而不属于人名、属于人名和地名二者、既不属于人名也不属于地名。

在步骤S120中，将第一训练文本集输入到所述神经网络中，得到各子神经网络输出的命名实体识别信息，其中，所述神经网络中的各子神经网络与第一训练文本集的标注信息所包含的多个命名实体类别一一对应。也就是说，各子神经网络被设计为基于第一训练文本集输出与多个命名实体类别中的特定命名实体类别对应的命名实体识别信息。例如，命名实体识别信息可指示文本是否属于特定命名实体类别。

作为示例，所述神经网络的各子神经网络均包括文本转换层、特征层、拼接层和分类层，且所述神经网络的各子神经网络共用文本转换层、特征层和拼接层。在这个示例中，可通过以下步骤来执行步骤S120：将第一训练文本集输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息；由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到所述神经网络的各子神经网络的分类层。例如，字相关信息可反映字本身的特性，字和上下文的关系信息可反映字与上下文是否为连词、字与上下文的命名实体类别的依赖关系等。这里，各子神经网络的分类层输出相应的命名实体识别信息。

作为示例，所述文本转换层为嵌入层，所述将训练文本输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息包括：将训练文本输入到经过预训练的嵌入层，得到嵌入层输出的字向量；或者，所述文本转换层为语言模型，所述将训练文本输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息包括：将训练文本输入到经过预训练的语言模型，得到语言模型输出的字相关信息；或者，所述文本转换层包括嵌入层和语言模型，所述将训练文本输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息包括：将训练文本分别输入到经过预训练的嵌入层和语言模型，将嵌入层和语言模型的输出拼接后得到字相关信息。

作为文本转换层的示例，语言模型是用来计算文本中的一个句子的概率的模型。利用语言模型，可以确定哪个词序列的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语。例如，可通过使用n-gram模型方法、决策树方法、最大熵模型方法、最大熵马尔科夫模型方法、条件随机域方法、循环神经网络方法等来获得语言模型。注意，这里对语言模型的描述也可适用于本申请的其他地方所涉及的语言模型。

在图1的实施例中，所述分类层为线性链条件随机场层；或者，所述分类层由全连接层和归一化层组成。换言之，各神经网络的分类层可以是线性链条件随机场层或者全连接层和归一化层的组合中的一个。

可选地，步骤S120还可包括：将至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层。在这种情况下，由于另一子神经网络的分类层利用到了其他子神经网络层的分类层的输出信息，因此，该另一子神经网络的识别准确率会大大提高。作为示例，当多个命名实体类别包括机构名和地名时，由于机构名可依赖于地名，因此，将用于识别地名的子神经网络的输出信息输入到用于识别机构名的子神经网络的分类层，从而提高了识别机构名的准确率。

在步骤S130中，对于各子神经网络，基于第一训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失。

可通过现有的各个损失计算方法来计算子神经网络的损失。例如，可使用分类交叉熵损失函数(categorical cross entropy loss function)来基于第一训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失。例如，可使用负对数似然函数(negative log-likelihoodfunction)来基于第一训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息。

在步骤S140中，根据各子神经网络的损失计算所述神经网络的损失，并根据所述神经网络的损失对所述神经网络进行训练。

例如，对各子神经网络的损失进行加权求和来计算所述神经网络的损失。可根据设计需要来调整各子神经网络的损失的权重，以使用户更关注的命名实体类别获得更大的权重。例如，各子神经网络的损失的权重之和为1，且各子神经网络的损失的权重在0至1之间。

此外，可选地，图1中的训练方法还可进一步包括对第一训练文本集的关于多个命名实体类别的标注信息进行BMESO+编码；对所述神经网络中的各子神经网络输出的命名实体识别信息进行BMESO+解码。这里，BMESO+编码是为了便于神经网络使用关于多个命名实体类别的标注信息，BMESO+解码是为了便于用户获取直观的关于命名实体类别的信息。

在BMESO+编码中，B代表实体的开始，M代表实体的中间部分，E代表实体的结束，S代表单个字符对应一个实体，O代表不属于实体的部分，同时用O-和-O标记了与实体相邻的两个字符。例如，表1是对“丹麦红十字会自九一年起”进行BMESO+编码的示例：

表1

文本	人名	地名	时间	机构名
					丹	O	B-LOC	O	B-ORG
麦	O	E-LOC	O	M-ORG
					红	O	LOC-O	O	M-ORG
十	O	O	O	M-ORG
					字	O	O	O	E-ORG
会	O	O	O	ORG-O
					自	O	O	O-TIME	O
九	O	O	B-TIME	O
					一	O	O	M-TIME	O
年	O	O	E-TIME	O
					起	O	O	TIME-O	O

由于编码后的标签存在重叠，不能放在同一个向量中。例如“丹麦”即是地名，也是机构名的一部分，因此其存在地名标签，也存在机构名标签，需要放在不同的向量中。对于每一种实体类别，都将标签映射到数字并进行独热编码，用于神经网络的输出层。需要说明的是，这里的标签即是前述的标注信息。

此外，BMESO+解码可被视为BMESO+编码的逆过程。

根据图1所示的方法可以训练得到包括多个子神经网络的用于命名实体识别的神经网络，且各子神经网络与特定的命名实体类别(即第一训练集中包含的命名实体类别)一一对应。如果希望将基于第一训练集训练好的该神经网络应用于数据集与第一训练集不同的其它的场景进行命名实体识别，则需要对该神经网络进行迁移训练。

图2示出根据本发明的用于命名实体识别的神经网络的图1的训练方法所进一步包括的迁移训练方法的流程图。

参照图2，在步骤S210中，获取第二训练文本集和第二训练文本集的关于多个命名实体类别的标注信息。这里，第二训练文本的标注信息所包含的命名实体类别可与第一训练文本的标注信息所包含的命名实体类别相同或不同。

在步骤S220中，将第二训练文本集的标注信息所包含的多个命名实体类别与所述神经网络中的各子神经网络对应的多个命名实体类别进行比较，得到比较结果。

比较结果可指示不同的结果。例如，比较结果可指示第二训练文本集的标注信息所包含的多个命名实体类别与所述神经网络中的各子神经网络对应的多个命名实体类别相同，或者比较结果可指示所述神经网络中的各子神经网络对应的多个命名实体类别中的至少一个命名实体类别不在第二训练文本集的标注信息所包含的多个命名实体类别中，或者比较结果可指示第二训练文本集的标注信息所包含的多个命名实体类别中的至少一个命名实体类别不在所述神经网络中的各子神经网络对应的多个命名实体类别之中。

在步骤S230中，根据得到的比较结果，调整所述神经网络，使得调整后的神经网络中的各子神经网络与第二训练文本集的标注信息所包含的多个命名实体类别一一对应。换言之，调整后的神经网络将具有识别和输出与第二训练文本集的标注信息所包含的多个命名实体类别对应的命名实体识别信息的能力。

与图1中的神经网络相似，调整后的神经网络的各子神经网络均包括文本转换层、特征层、拼接层和分类层，且所调整后的神经网络的各子神经网络共用文本转换层、特征层和拼接层。此外，图1中针对文本转换层、特征层、拼接层和分类层的描述也可适用于调整后的神经网络的各子神经网络所包括的文本转换层、特征层、拼接层和分类层。

下面对不同比较结果下的步骤230的具体操作进行描述。

根据本发明的一个示例，步骤S230可包括：当得到的比较结果指示第二训练文本集的标注信息所包含的多个命名实体类别与所述神经网络中的各子神经网络对应的多个命名实体类别相同时，维持所述神经网络中的各子神经网络，并固定文本转换层或文本转换层和特征层的参数权重。这里，维持所述神经网络中的各子神经网络表示维持所述神经网络中的各子神经网络的结构不变。

根据本发明的另一示例，步骤S230可包括：当得到的比较结果指示所述神经网络中的各子神经网络对应的多个命名实体类别中的至少一个命名实体类别不在第二训练文本集的标注信息所包含的多个命名实体类别中时，如果第二训练文本集的标注信息所包含的多个命名实体类别中的一个或多个命名实体类别依赖于所述至少一个命名实体类别，则维持所述神经网络中的各子神经网络，固定所述神经网络中的所述至少一个命名实体类别对应的子神经网络的分类层的参数权重，从而维持识别的准确率；如果第二训练文本集的标注信息所包含的多个命名实体类别均不依赖于所述至少一个命名实体类别，则删除所述神经网络中的所述至少一个命名实体类别对应的子神经网络的分类层，从而减少计算量。

根据本发明的又一示例，步骤S230可包括：当得到的比较结果指示第二训练文本集的标注信息所包含的多个命名实体类别中的至少一个命名实体类别不在所述神经网络中的各子神经网络对应的多个命名实体类别之中时，加入与所述至少一个命名实体类别一一对应的新的子神经网络的分类层，从而具有识别第二训练文本集的命名实体类别的能力，并满足用户的需要。

在步骤S240中，将第二训练文本集输入至调整后的神经网络，得到调整后的神经网络中的各子神经网络输出的命名实体识别信息。

作为示例，步骤S240可包括：将第二训练文本集输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息；由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到调整后的神经网络的各子神经网络的分类层。

在步骤S250中，对于调整后的神经网络的各子神经网络，基于第二训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失。参照图1描述的计算子神经网络的损失的方法也适用于这里。

在步骤S260中，根据各子神经网络的损失计算调整后的神经网络的损失，并根据调整后的神经网络的损失对调整后的神经网络进行迁移训练。参照图1描述的计算调整后的神经网络的损失的方法也适用于这里。

可选地，步骤S240还可包括：将至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层。在这种情况下，由于另一子神经网络的分类层利用到了其他子神经网络层的分类层的输出信息，因此，该另一子神经网络的识别准确率会大大提高。作为示例，当调整后的神经网络可识别机构名、地名和时间，调整前的神经网络可识别地名和时间时，由于机构名可依赖于地名，因此，将用于识别地名的子神经网络的输出信息输入到用于识别机构名的子神经网络的分类层，从而提高了识别机构名的准确率。

图3示出根据本发明的基于神经网络的命名实体识别方法的流程图。

根据图3的实施例，所述神经网络包括多个子神经网络，所述神经网络是预训练的。例如，图3中的神经网络可以是参照图1至图2描述的任意训练方法训练而得到的，因此，参照图1至图2的描述也可根据上下文适用于图3的描述。

参照图3，在步骤S310中，获取待识别的预测文本。

在步骤S320中，将所述预测文本输入到所述神经网络中，得到所述神经网络的各子神经网络识别并输出的命名实体识别信息其中，所述神经网络中的各子神经网络与多个命名实体类别一一对应。

在图3的实施例中，所述神经网络中的各子神经网络均包括文本转换层、特征层、拼接层和分类层，且所述神经网络的各子神经网络共用文本转换层、特征层和拼接层。在这种情况下，步骤S320可包括：将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息，由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到所述神经网络的各子神经网络的分类层；得到各分类层输出的命名实体识别信息。

作为示例，所述文本转换层为嵌入层；所述将所述预测文本输入到文本转换层，得到文本转换层输出的字相关信息包括：将所述预测文本输入到嵌入层，得到嵌入层输出的字向量；或者，所述文本转换层为语言模型；所述将所述预测文本输入到文本转换层，得到文本转换层输出的字相关信息包括：将所述预测文本输入到语言模型，得到语言模型输出的字相关信息；或者，所述文本转换层包括嵌入层和语言模型；所述将所述预测文本输入到文本转换层，得到文本转换层输出的字相关信息包括：将所述预测文本分别输入到嵌入层和语言模型，将嵌入层和语言模型的输出拼接后得到字相关信息。

在图3的实施例中，所述分类层为线性链条件随机场层；或者，所述分类层由全连接层和归一化层组成。

可选地，步骤S320还可包括：将至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层。在这种情况下，由于另一子神经网络的分类层利用到了其他子神经网络层的分类层的输出信息，因此，该另一子神经网络的识别准确率会大大提高。

此外，可选地，图3的训练方法还可包括：对所述神经网络中的各子神经网络识别并输出的命名实体识别信息进行BMESO+解码。

例如，对于预测文本，通过所述神经网络的输出是编码后标签的向量，并不是直观的输出，所以需要对其进行解码(例如，BMESO+解码)。以人名为例，可通过如下布置来进行解码：

1令命名实体的集合下标i＝1

2当i≤n时：

3如果第i个标签为S-PER，则将原文本第i个字符加入到S

4如果第i个标签为B-PER，则记录s＝i，当i≤n时：

5 i：＝i+1

6如果第i个标签不在M-PER、E-PER中则退出循环

7如果第i个标签为E-PER，则将原文本第s到i的字符自串加入到S并退出循环

8 i：＝i+1

在上述步骤中，：＝表示赋值操作。经过上述步骤处理后，得到的集合S即为对应类别的命名实体的集合。

图4示出根据本发明的用于命名实体识别的神经网络的训练装置400，其中，所述神经网络包括多个子神经网络。

参照图4，训练装置400包括获取单元410、命名实体识别信息生成单元420和训练单元430。获取单元410被配置为获取第一训练文本集和第一训练文本集的关于多个命名实体类别的标注信息。命名实体识别信息生成单元420被配置为将第一训练文本集输入到所述神经网络中，得到各子神经网络输出的命名实体识别信息，其中，所述神经网络中的各子神经网络与第一训练文本集的标注信息所包含的多个命名实体类别一一对应。训练单元430被配置为：对于各子神经网络，基于第一训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失，根据各子神经网络的损失计算所述神经网络的损失，并根据所述神经网络的损失对所述神经网络进行训练。

作为示例，所述神经网络的各子神经网络均包括文本转换层、特征层、拼接层和分类层，且所述神经网络的各子神经网络共用文本转换层、特征层和拼接层。在这个示例中，命名实体识别信息生成单元420被配置为：将第一训练文本集输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息；由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到所述神经网络的各子神经网络的分类层。

作为示例，所述文本转换层为嵌入层；命名实体识别信息生成单元420被配置为：将第一训练文本集输入到经过预训练的嵌入层，得到嵌入层输出的字向量；或者，所述文本转换层为语言模型；命名实体识别信息生成单元420被配置为：将第一训练文本集输入到经过预训练的语言模型，得到语言模型输出的字相关信息；或者，所述文本转换层包括嵌入层和语言模型；命名实体识别信息生成单元被配置为：将第一训练文本集分别输入到经过预训练的嵌入层和语言模型，将嵌入层和语言模型的输出拼接后得到字相关信息。

在图4的实施例中，所述分类层为线性链条件随机场层；或者，所述分类层由全连接层和归一化层组成。

可选地，命名实体识别信息生成单元还被配置为：针对第一训练文本集，将至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层。

从外，可选地，图4中的训练装置400还可包括编码单元和解码单元(未示出)，其中，编码单元被配置为对第一训练文本集的关于多个命名实体类别的标注信息进行BMESO+编码，解码单元被配置为对所述神经网络中的各子神经网络输出的命名实体识别信息进行BMESO+解码。

图5示出根据本发明的具有的训练装置400的进一步详细配置的用于命名实体识别的神经网络的训练装置500的框图。

参照图5，训练装置500可包括获取单元510、比较单元520、调整单元530、命名实体识别信息生成单元540和训练单元550。

这里，获取单元510、命名实体识别信息生成单元540和训练单元550可分别具有与参照图4描述的获取单元410、命名实体识别信息生成单元420和训练单元430的配置相同或相似的配置。然而，实施例不限于此，获取单元510、命名实体识别信息生成单元540和训练单元550可除了具有与参照图4描述的获取单元410、命名实体识别信息生成单元420和训练单元430相同的配置之外还具有更多的配置。

例如，获取单元510被配置为获取第二训练文本集和第二训练文本集的关于多个命名实体类别的标注信息。比较单元520被配置为将第二训练文本集的标注信息所包含的多个命名实体类别与所述神经网络中的各子神经网络对应的多个命名实体类别进行比较，得到比较结果。调整单元530被配置为根据得到的比较结果，调整所述神经网络，使得调整后的神经网络中的各子神经网络与第二训练文本集的标注信息所包含的多个命名实体类别一一对应。命名实体识别信息生成单元540被配置为将第二训练文本集输入至调整后的神经网络，得到调整后的神经网络中的各子神经网络输出的命名实体识别信息。训练单元550被配置为对于调整后的神经网络的各子神经网络，基于第二训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失；根据各子神经网络的损失计算调整后的神经网络的损失，并根据调整后的神经网络的损失对调整后的神经网络进行迁移训练。

与所述神经网络相同，调整后的神经网络的各子神经网络均包括文本转换层、特征层、拼接层和分类层，且调整后的神经网络的各子神经网络共用文本转换层、特征层和拼接层。命名实体识别信息生成单元540被配置为：将第二训练文本集输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息；由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到调整后的神经网络的各子神经网络的分类层。

作为示例，所述文本转换层为嵌入层；命名实体识别信息生成单元540被配置为：将第二训练文本集输入到经过预训练的嵌入层，得到嵌入层输出的字向量；或者，所述文本转换层为语言模型；命名实体识别信息生成单元540被配置为：将第二训练文本集输入到经过预训练的语言模型，得到语言模型输出的字相关信息；或者，所述文本转换层包括嵌入层和语言模型；命名实体识别信息生成单元被配置为：将第二训练文本集分别输入到经过预训练的嵌入层和语言模型，将嵌入层和语言模型的输出拼接后得到字相关信息。

可选地，命名实体识别信息生成单元540被配置为：针对第二训练文本集，将所述至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层。

根据本发明的一个示例，调整单元520被配置为：当得到的比较结果指示第二训练文本集的标注信息所包含的多个命名实体类别与所述神经网络中的各子神经网络对应的多个命名实体类别相同时，维持所述神经网络中的各子神经网络，并固定文本转换层或文本转换层和特征层的参数权重。

根据本发明的另一示例，调整单元520被配置为：当得到的比较结果指示所述神经网络中的各子神经网络对应的多个命名实体类别中的至少一个命名实体类别不在第二训练文本集的标注信息所包含的多个命名实体类别中时，如果第二训练文本集的标注信息所包含的多个命名实体类别中的一个或多个命名实体类别依赖于所述至少一个命名实体类别，则维持所述神经网络中的各子神经网络，固定所述神经网络中的所述至少一个命名实体类别对应的子神经网络的分类层的参数权重；如果第二训练文本集的标注信息所包含的多个命名实体类别均不依赖于所述至少一个命名实体类别，则删除所述神经网络中的所述至少一个命名实体类别对应的子神经网络的分类层。

根据本发明的又一示例，调整单元520被配置为：当得到的比较结果指示第二训练文本集的标注信息所包含的多个命名实体类别中的至少一个命名实体类别不在所述神经网络中的各子神经网络对应的多个命名实体类别之中时，加入与所述至少一个命名实体类别一一对应的新的子神经网络的分类层。

在图5的实施例中，所述分类层为线性链条件随机场层；或者，所述分类层由全连接层和归一化层组成。

图6示出根据本发明的基于神经网络的命名实体识别装置600的框图。

根据图6的实施例，所述神经网络包括多个子神经网络，所述神经网络是预训练的。例如，所述神经网络以是参照图1至图2描述的任意训练方法训练而得到的。

参照图6，命名实体识别装置600包括获取单元610和命名实体识别信息生成单元620。获取单元610被配置为获取待识别的预测文本。命名实体识别信息生成单元620被配置为将所述预测文本输入到所述神经网络中，得到所述神经网络的各子神经网络识别并输出的命名实体识别信息，其中，所述神经网络中的各子神经网络与多个命名实体类别一一对应。

作为示例，所述神经网络中的各子神经网络均包括文本转换层、特征层、拼接层和分类层，且所述神经网络的各子神经网络共用文本转换层、特征层和拼接层。在这个示例中，命名实体识别信息生成单元620被配置为：将所述预测文本输入到文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息；由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到所述神经网络的各子神经网络的分类层，得到各分类层输出的命名实体识别信息。

作为示例，所述文本转换层为嵌入层；命名实体识别信息生成单元620被配置为：将所述预测文本输入到嵌入层，得到嵌入层输出的字向量；或者，所述文本转换层为语言模型；命名实体识别信息生成单元620被配置为：将所述预测文本输入到语言模型，得到语言模型输出的字相关信息；或者，所述文本转换层包括嵌入层和语言模型；命名实体识别信息生成单元620被配置为：将所述预测文本分别输入到嵌入层和语言模型，将嵌入层和语言模型的输出拼接后得到字相关信息。

在图6的实施例中，所述分类层为线性链条件随机场层；或者，所述分类层由全连接层和归一化层组成。

可选地，命名实体识别信息生成单元620还被配置为：将至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层。

此外，可选地，所述命名实体识别装置进一步包括解码单元(未示出)。解码单元被配置为对所述神经网络中的各子神经网络识别并输出的命名实体识别信息进行BMESO+解码。

图7示出根据本发明的一个实施例的神经网络700的示意图。

参照图7，神经网络700包括嵌入层(Embedding Layer)、特征层(CNN/LSTM/GRULayers)、拼接层(Concatenate Layer)和线性链条件随机场层(Linear-Chain CRFLayer)。

尽管图7示出神经网络700包括作为分类层的示例的线性链条件随机场层，但本发明的示例不限于此。例如，分类层还可由全连接层和归一化层组成。此外，尽管图7示出神经网络700包括作为文本转换层的示例的嵌入层，但本发明的示例不限于此。例如，文本转换层还为语言模型或者包括嵌入层和语音模型。特征层的结构包括但不限于一层或多层的卷积神经网络(Convolutional Neural Network,CNN)、长短期记忆网络(Long-ShortTermMemory,LSTM)、门循环单元(Gated Recurrent Unit,GRU)、双向长短期记忆网络(Bi-LSTM)、双向门循环单元(Bi-GRU)等。

参照图7，嵌入层的权重通过语言学习模型模块进行初始化，文本通过嵌入层将每个字符映射为字向量的列表，通过特征层进一步提取字符与上下文之间的关系，通过将每个字符在嵌入层和特征层输出的特征拼接在一起，得到标签分类之前的拼接后的输入特征。在语言学习模型模块，将对语料(文本)本身的特性进行学习。由于不依赖于语料中的标注，可以爬取网络上的其它语料(如维基百科)进行学习，以获得更具一般性的语言本身的特征。利用word2vec框架训练出每个字符的字向量，这些字向量将用嵌入层权重的初始化。字向量的计算方法包括但不限于连续词袋(Continuous Bag-of-Words，CBoW)、跳字模型(Skip-Gram)、全局向量(Global Vectors,GloVe)、fastText(一个开源库)等。

对于不同类别的命名实体识别任务，用于标注分类的线性链条件随机场层相互独立。同时考虑到命名实体之间的嵌套关系，例如，「北京大学」整体是一个机构名实体的同时，其中也包括了「北京」这个地名实体。一般规律上，「地名」+「大学」都是一个机构名实体，所以机构名的学习可以依赖于地名学习的结果，学习更为一般化的结论。

如果人名、地名、时间、机构名的输出层对应的损失分别为L_PER、L_LOC、L_TIME、L_ORG，则网络的整体损失为：

L＝α_PERL_PER+α_LOCL_LOC+α_TIMEL_TIME+α_ORGL_ORG

其中α_PER+α_LOC+α_TIME+α_ORG≤1，控制每种类别的学习效率。得到损失函数后，可以通过Adam算法对神经网络700进行优化，同时学习不同类别的命名实体。优化方法包括但不限于随机梯度下降(Stochastic Gradient Descent，SGD)、自适应自梯度方法(AdaptiveSubgradient Methods，AdaGrad)、自适应学习率方法(AdaDelta)、自适应矩估计(adaptivemoment estimation，Adam)等。

图8示出根据本发明的一个实施例的调整神经网络700的示意图。

通过神经网络的训练学习可以获得一个基础的模型，而实际使用中目标语料可能与基础模型训练语料的风格不同，或者存在不同命名实体类别，这时将需要利用基础模型进行迁移学习。

如果目标语料(即，第二训练文本集)和原始训练语料(即，第一训练文本集)的命名实体类别完全相同，则可以直接对原始网络进行细调(fine-tuning)：如固定嵌入层或嵌入层和特征层的参数权重，利用目标语料对线性链条件随机场层进行细调，以获得更接近目标语料的模型。

如果原始训练语料中的一个命名实体类别不在目标语料训练数据的类别中，则在目标语料中命名实体的类别不依赖于缺失类别的情况下，可以直接删除神经网络中对应的线性链条件随机场层以减少计算量，利用与上段类似的方法进行细调；如果目标语料中命名实体依赖于缺失类别，则可以固定对应缺失的线性链条件随机场层的参数权重，再用与上段类似的方式进行细调。

如果目标语料训练数据中的一个命名实体类别不在原始训练语料的类别中，则可以考虑与其它类别的依赖关系，按照与已有线性链条件随机场层类似的方式加入新的线性链条件随机场层，先固定已有类别的线性链条件随机场层的权重进行细调，再同时训练所有类别的线性链条件随机场层。

例如，参照图8，如果目标语料中多了股票名类别，少了地名和时间，则因为股票依赖于机构名，机构名依赖于地名，股票名间接依赖了地名的输出，所以要固定地名的线性链条件随机场层的参数权重；由于不需要时间输出，可以直接删除对应的线性链条件随机场层，节约计算资源；新增的股票名的线性链条件随机场层依赖于拼接层、特征层和机构名的线性链条件随机场层的输出。新的神经网络结构可以继续使用对损失函数加权的方式同时对人名、机构名、股票名进行学习。

以上已参照图1至图6描述了根据本发明的示例性实施例的用于命名实体识别的神经网络的训练方法和训练装置以及基于神经网络的命名实体识别方法和装置。然而，应理解的是：图1至图6中所使用的装置、系统、单元等可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些系统、装置或单元等可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的单元。此外，这些系统、装置或单元等所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，上述方法可通过记录在计算可读存储介质上的计算机程序来实现。例如，根据本发明的示例性实施例，可提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被一个或多个计算装置执行时使得所述一个或多个计算装置实现本申请中所公开的任一方法。

例如，在所述计算机程序被一个或多个计算装置执行时使得所述一个或多个计算装置执行以下步骤：获取待识别的预测文本；将所述预测文本输入到所述神经网络中，得到所述神经网络的各子神经网络识别并输出的命名实体识别信息，其中，所述神经网络中的各子神经网络与多个命名实体类别一一对应。

上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述计算机程序在被运行时还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图1到图8进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本发明的示例性实施例的用于命名实体识别的神经网络的训练方法和训练装置以及基于神经网络的命名实体识别方法和装置，可完全依赖计算机程序的运行来实现相应的功能，其中，装置或系统的各个单元在计算机程序的功能架构中与各步骤相应，使得整个装置或系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，当图1至图8所提及的各个单元或装置以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读存储介质中，使得计算装置(如处理器)可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，根据本发明的实施例的一种包括一个或多个计算装置和一个或多个存储装置的系统，其中，所述一个或多个存储装置中存储有计算机程序，在所述计算机程序被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现本申请中所公开的任一方法。例如，使得所述一个或多个计算装置执行以下步骤：获取待识别的预测文本；将所述预测文本输入到所述神经网络中，得到所述神经网络的各子神经网络识别并输出的命名实体识别信息，其中，所述神经网络中的各子神经网络与多个命名实体类别一一对应。

具体说来，上述计算装置可以部署在服务器中，也可以部署在分布式网络环境中的节点装置上。此外，所述计算装置设备还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置设备的所有组件可经由总线和/或网络而彼此连接。

这里，所述计算装置并非必须是单个装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述计算装置还可以是集成控制计算装置或计算装置管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

用于执行根据本发明的示例性实施例的神经网络的训练方法或命名实体识别方法的计算装置可以是处理器，这样的处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器、微控制器或微处理器。作为示例而非限制，所述处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。处理器可运行存储在存储装置之一中的指令或代码，其中，所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储装置可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储装置可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库计算装置可使用的其他存储装置。存储装置和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储装置中的文件。

应注意本发明示例性实施注重解决目前命名实体识别方法泛化能力差，计算资源浪费、识别准确率低的问题。具体的来说，一方面，为了增强泛化能力，本发明示例性实施例的实施通过相对独立地构建并训练神经网络的各子神经网络，并根据目标训练文本的命名实体类别与当前训练的神经网络所能识别的命名实体类别进行比较来调整和迁移训练新的神经网络，使得包含新的神经网络的模型能适应目标文本的风格和不同类型的命名实体类别；另一方面，为了减少计算资源浪费，本发明示例性实施例的实施在迁移训练的过程考虑到了对非必要命名实体类别的删除，从而减少了工作量；又一方面，为了提高识别的准确率，本发明示例性实施例的实施利用了不同的命名实体类别(例如，股票名标签与地名标签)之间的相关性，同时充分利用训练语料中的信息并学习了语言本身的通用特征，从而提高了识别的准确率。

以上描述了本申请的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本申请的保护范围应该以权利要求的范围为准。

Claims

1.一种用于命名实体识别的神经网络的训练方法，其中，所述神经网络包括多个子神经网络，所述训练方法包括：

获取第一训练文本集和第一训练文本集的关于多个命名实体类别的标注信息；

将第一训练文本集输入到所述神经网络中，得到各子神经网络输出的命名实体识别信息，其中，所述神经网络中的各子神经网络与第一训练文本集的标注信息所包含的多个命名实体类别一一对应；

对于各子神经网络，基于第一训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失；

根据各子神经网络的损失计算所述神经网络的损失，并根据所述神经网络的损失对所述神经网络进行训练。

2.如权利要求1所述的训练方法，其中，所述训练方法进一步包括：

获取第二训练文本集和第二训练文本集的关于多个命名实体类别的标注信息；

将第二训练文本集的标注信息所包含的多个命名实体类别与所述神经网络中的各子神经网络对应的多个命名实体类别进行比较，得到比较结果；

根据得到的比较结果，调整所述神经网络，使得调整后的神经网络中的各子神经网络与第二训练文本集的标注信息所包含的多个命名实体类别一一对应；

将第二训练文本集输入至调整后的神经网络，得到调整后的神经网络中的各子神经网络输出的命名实体识别信息；

对于调整后的神经网络的各子神经网络，基于第二训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失；

根据各子神经网络的损失计算调整后的神经网络的损失，并根据调整后的神经网络的损失对调整后的神经网络进行迁移训练。

3.如权利要求2所述的训练方法，其中，所述神经网络和调整后的神经网络的各子神经网络均包括文本转换层、特征层、拼接层和分类层，且所述神经网络和调整后的神经网络的各子神经网络共用文本转换层、特征层和拼接层；

所述将第一训练文本集输入至所述神经网络，得到各子神经网络输出的命名实体识别信息包括：将第一训练文本集输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息；由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到所述神经网络的各子神经网络的分类层；

所述将第二训练文本集输入至调整后的神经网络，得到调整后的神经网络中的各子神经网络输出的命名实体识别信息包括：将第二训练文本集输入到经过预训练的文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息；由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到调整后的神经网络的各子神经网络的分类层。

4.如权利要求3所述的训练方法，其中，

所述将第一训练文本集输入至所述神经网络，得到各子神经网络输出的命名实体识别信息还包括：将至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层；

所述将第二训练文本集输入至调整后的神经网络，得到调整后的神经网络中的各子神经网络输出的命名实体识别信息还包括：将所述至少一个子神经网络的分类层的输出信息输入到另一子神经网络的分类层。

5.一种基于神经网络的命名实体识别方法，其中，所述神经网络包括多个子神经网络，所述神经网络是预训练的，所述命名实体识别方法包括：

获取待识别的预测文本；

将所述预测文本输入到所述神经网络中，得到所述神经网络的各子神经网络识别并输出的命名实体识别信息；

其中，所述神经网络中的各子神经网络与多个命名实体类别一一对应。

6.如权利要求5所述的命名实体识别方法，其中，所述神经网络中的各子神经网络均包括文本转换层、特征层、拼接层和分类层，且所述神经网络的各子神经网络共用文本转换层、特征层和拼接层；

所述将所述预测文本输入所述神经网络中，得到所述神经网络的各子神经网络识别并输出的命名实体识别信息包括：将所述预测文本输入到文本转换层，得到文本转换层输出的字相关信息；将文本转换层输出的字相关信息输入到特征层，获得特征层输出的训练文本中的字和上下文的关系信息，由拼接层将文本转换层的输出和特征层的输出拼接在一起后，分别输入到所述神经网络的各子神经网络的分类层；得到各分类层输出的命名实体识别信息。

7.一种用于命名实体识别的神经网络的训练装置，其中，所述神经网络包括多个子神经网络，所述训练装置包括：

获取单元，被配置为获取第一训练文本集和第一训练文本集的关于多个命名实体类别的标注信息；

命名实体识别信息生成单元，被配置为将第一训练文本集输入到所述神经网络中，得到各子神经网络输出的命名实体识别信息，其中，所述神经网络中的各子神经网络与第一训练文本集的标注信息所包含的多个命名实体类别一一对应；

训练单元，被配置为：对于各子神经网络，基于第一训练文本集的该子神经网络对应的命名识别类别的标注信息以及该子神经网络输出的命名实体识别信息，计算该子神经网络的损失，根据各子神经网络的损失计算所述神经网络的损失，并根据所述神经网络的损失对所述神经网络进行训练。

8.一种基于神经网络的命名实体识别装置，其中，所述神经网络包括多个子神经网络，所述神经网络是预训练的，所述命名实体识别装置包括：

获取单元，被配置为获取待识别的预测文本；

命名实体识别信息生成单元，被配置为将所述预测文本输入到所述神经网络中，得到所述神经网络的各子神经网络识别并输出的命名实体识别信息；

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被一个或多个计算装置执行时使得所述一个或多个计算装置实现如权利要求1-6中任一项所述的方法。

10.一种包括一个或多个计算装置和一个或多个存储装置的系统，所述一个或多个存储装置上记录有计算机程序，所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现如权利要求1-6中任一项所述的方法。