CN112446216A

CN112446216A - 一种融合中心词信息的嵌套命名实体识别方法与装置

Info

Publication number: CN112446216A
Application number: CN202110134242.XA
Authority: CN
Inventors: 邬昌兴; 李家祯
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-03-05
Anticipated expiration: 2041-02-01
Also published as: CN112446216B

Abstract

本发明提出一种融合中心词信息的嵌套命名实体识别方法与装置，该方法包括：以标注了嵌套实体信息以及中心词信息的语句作为训练语句；构建基于多任务学习的边界检测神经网络模型，引入中心词预测任务作为辅助任务，基于训练语句中的每个词在上下文中的向量表示，分别进行预测；根据首词预测结果以及尾词预测结果，筛选出候选文本片段集；构建中心词增强的类别预测神经网络模型，以候选文本片段集以及中心词预测结果作为输入，计算得到每个候选文本片段本身的向量表示及在上下文中的向量表示，进而计算得到类别预测结果。本发明提出的实体识别方法，具有更好的识别性能，满足了应用需求。

Description

一种融合中心词信息的嵌套命名实体识别方法与装置

技术领域

本发明涉及计算机语句识别技术领域，特别涉及一种融合中心词信息的嵌套命名实体识别方法与装置。

背景技术

命名实体识别是自然语言处理中的一项基本任务，其目的是从无结构的文本中找出代表实体的文本片段并判断其类别。例如，人物、机构以及地点等。命名实体识别性能的提高有利于众多下游的自然语言处理应用。例如，事件抽取、关系抽取和机器阅读理解等。

现有研究工作主要是针对无嵌套的命名实体识别，即认为文本中的每个词只能属于某个实体，各实体的文本片段之间没有重叠。针对无嵌套的命名实体识别提出的序列标注模型，虽然能够取得较好的识别性能，但这类方法给文本中的每个词预测一个类别标记，不能用于嵌套命名实体的识别。如图1所示，在句子“交通大学校长发言”中，存在一个机构实体“交通大学”和一个人物实体“交通大学校长”，且机构实体嵌套在人物实体中。据统计，常用数据集ACE2004和ACE 2005中嵌套的命名实体占比分别约为43%和37%，占比非常高。因此，嵌套命名实体识别方法是当前研究的热点之一。

现有的嵌套命名实体识别方法可大致分为以下两大类：（1）层叠多个序列标注模型的方法。此类方法通常使用第一个序列标注模型识别最低层的实体，层叠多个序列标注模型用于对应层实体的识别，前一层识别的结果用于当前层模型的输入。上述层叠的方法能够利用嵌套实体之间的依赖关系，但性能受错误传播的影响比较大，计算效率也较低。（2）文本片段分类的方法。这类方法把嵌套命名实体识别分解成两个子任务。首先，使用一个神经网络预测句子中的词是否是实体的首词（开始词）或尾词（结尾词），找出可能是实体的文本片段，称为边界检测神经网络；然后，使用另一个神经网络预测文本片段对应的实体类别，称为类别预测神经网络。然而，现有的方法都忽略了中心词信息的利用，识别性能较差。

发明内容

鉴于上述状况，有必要解决现有的方法都忽略了中心词信息的利用，识别性能较差的问题。

本发明实施例提供了一种融合中心词信息的嵌套命名实体识别方法，其中，用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型实现，所述方法包括如下步骤：

步骤一：以标注了嵌套实体信息以及中心词信息的语句作为训练语句，其中所述嵌套实体信息为所述训练语句中各实体的位置及类别，所述中心词信息为各所述实体中的核心词；

步骤二：构建基于多任务学习的边界检测神经网络模型，引入中心词预测任务作为辅助任务，基于所述训练语句中的每个词在上下文中的向量表示，分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果；

步骤三：根据所述首词预测结果以及所述尾词预测结果，以筛选出存在实体概率的候选文本片段集；

步骤四：构建中心词增强的类别预测神经网络模型，以所述候选文本片段集以及所述中心词预测结果作为输入，计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示，进而计算得到每个所述候选文本片段对应的类别预测结果。

本发明提出的融合中心词信息的嵌套命名实体识别方法，利用中心词信息，通过构建基于多任务学习的边界检测神经网络模型和中心词增强的类别预测神经网络模型实现；首先通过基于多任务学习的边界检测神经网络模型中的输入层，在基于预训练好的词向量矩阵的基础上，将训练语句中的每个词转换成对应的词向量表示；然后通过上下文信息建模层，基于双向长短时记忆网络，根据上述的词向量表示，计算得到每个词在上下文中的向量表示；再通过多个不同的分类子层进行预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果，并根据首词预测结果以及尾词预测结果确定可能为实体的候选文本片段集；进一步的，通过类别预测神经网络模型，基于双向长短时记忆网络以及注意力机制，计算每个候选文本片段在上下文中的向量表示，基于卷积神经网络计算每个候选文本片段本身的向量表示，最后计算得到每个候选文本片段对应的类别预测结果。其中，类别预测结果用于表明候选文本片段

属于何种命名实体或不是命名实体的概率，从而对命名实体进行良好的预测，以提高识别效果。

所述融合中心词信息的嵌套命名实体识别方法，其中，在所述步骤一中，所述训练语句表示为：

其中，

表示所述训练语句中所包含的词的数量；

对所述训练语句中的第

个词，其作为首词时对应的真实标记表示为

，作为尾词时对应的真实标记表示为

，作为实体中心词时对应的真实标记表示为

；

对所述训练语句中的文本片段

，其作为真实实体类别标记时表示为

，

为所述训练语句中的第

个词。

所述融合中心词信息的嵌套命名实体识别方法，其中，在所述步骤二中，所述首词预测结果表示为：

所述尾词预测结果表示为：

所述中心词预测结果表示为：

其中，

为第

个词在上下文中的向量表示，

为sigmoid函数，

为首词预测任务中分类子层的参数，

为第

个词是实体首词的概率，

为第

个词不是实体首词的概率；

为尾词预测任务中分类子层的参数，

为第

个词是实体尾词的概率，

为第

个词不是实体尾词的概率；

为中心词预测结果，softmax为计算概率的归一化指数函数，

为用于中心词预测任务的分类子层的参数，向量

中的第

维为第

个词是实体类别

的中心词的概率，最后1维为该词不是实体中心词的概率，

指代的为

维的实数向量。

所述融合中心词信息的嵌套命名实体识别方法，其中，所述基于多任务学习的边界检测神经网络模型训练时的总代价函数为：

其中，首词预测任务对应的代价函数表示为：

尾词预测任务对应的代价函数表示为：

中心词预测任务对应的代价函数为：

其中，

为训练语句中词的个数，

与

分别为

和

的第

个分量，

是一个

维的一维有效编码向量；

取值为1或0，当第

个词为实体首词时取值为1，当第

个词不是实体首词时取值为0；

取值为1或0，当第

个词为实体尾词时取值为1，当第

个词不是实体尾词时取值为0。

所述融合中心词信息的嵌套命名实体识别方法，其中，在所述步骤三中：

对于所述训练语句中任意的从第

个词到第

个词的文本片段

，若满足以下条件，则加入到实体的侯选文本片段集

中：

其中，

是一个人为指定的阈值，

。

所述融合中心词信息的嵌套命名实体识别方法，其中，在所述步骤四中，以所述候选文本片段集以及所述中心词预测结果作为输入表示为：

其中，

为所述训练语句中第

个词的词向量，

表示向量的拼接操作，

指代的是

维的实数向量，

为词向量的维度。

所述融合中心词信息的嵌套命名实体识别方法，其中，在所述步骤四中，所述候选文本片段对应的类别预测结果表示为：

其中，

为侯选文本片段本身的向量表示，

为侯选文本片段在上下文中的向量表示，

与

为网络参数，

为候选文本片段对应的类别预测结果，

表示实体的类别数。

所述融合中心词信息的嵌套命名实体识别方法，其中，所述训练语句中每个词在上下文中的向量表示为

；

其中，

表示从左至右建模词的上文信息，

表示从右至左建模词的下文信息，

以及

用于计算个方向的信息以用作词在上下文中的表示，

表示两个向量的拼装操作，

与

中的起始向量

和

可初始化为零向量，

和

分别为融合了上文信息的第

个词的向量表示和融合了下文信息的第

个词的向量表示，LSTM为长短时记忆网络。

所述融合中心词信息的嵌套命名实体识别方法，其中，

的具体计算公式如下：

其中，

为网络参数，

为sigmoid函数；

分别为输入门、遗忘门和输出门，用于控制信息的流动；

为第

个词对应的记忆状态，

为第

个词在上下文中的表示

与第

个词的向量表示

融合后的结果，

为第

个词在上下文中的表示。

本发明提出一种融合中心词信息的嵌套命名实体识别装置，其特征在于，用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型，所述装置包括：

第一处理模块，用于以标注了嵌套实体信息以及中心词信息的语句作为训练语句，其中所述嵌套实体信息为所述训练语句中各实体的位置及类别，所述中心词信息为各所述实体中的核心词；

第一计算模块，用于构建基于多任务学习的边界检测神经网络模型，引入中心词预测任务作为辅助任务，基于所述训练语句中的每个词在上下文中的向量表示，分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果；

第二处理模块，用于根据所述首词预测结果以及所述尾词预测结果，以筛选出存在实体概率的候选文本片段集；

第二计算模块，用于构建中心词增强的类别预测神经网络模型，以所述候选文本片段集以及所述中心词预测结果作为输入，计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示，进而计算得到每个所述候选文本片段对应的类别预测结果。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明中嵌套命名实体的示意图；

图2为本发明提出的融合中心词信息的嵌套命名实体识别方法的流程图；

图3为本发明中基于多任务学习的边界检测神经网络模型的结构示意图；

图4为本发明中中心词增强的类别预测神经网络模型的结构示意图；

图5为本发明提出的融合中心词信息的嵌套命名实体识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

中心词指的是一个实体或短语中最核心的词，这个词在很大程度上能反映该实体的类型或者短语的语义。对于嵌套命名实体而言，虽然实体之间可能存在嵌套的结构，但嵌套的多个实体的中心词绝大部分情况下是不相同的。例如，“大学”是机构实体“交通大学”的中心词，“校长”是人物实体“交通大学校长”的中心词。

其中，融入了中心词信息对嵌套命名实体识别是非常有用的。具体的，一方面，融入中心词信息有利于实体边界的预测，从而更准确地找出可能是实体的文本片段。例如，汉语中实体的中心词通常位于一个实体的尾部。另一方面，融入中心词信息有利于实体类别的预测。例如，在预测“交通大学”文本片段的类别时，通过给中心词“大学”相对高的权重、词“交通”相对低的权重，可以较容易地识别出其该文本片段为机构实体。

基于以上分析，本发明提出一种融合中心词信息的嵌套命名实体识别方法，通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及融合了中心词信息的中心词增强的类别预测神经网络模型进行实现。

在本发明中，首先定义三个分类任务。第一个是首词预测任务，是一个2分类问题，即针对句子中的每一个词，预测其是否是实体首词的概率。第二个是尾词预测任务，也是一个2分类问题，即针对句子中的每一个词，预测其是否是实体尾词的概率。第三个是中心词预测任务，是一个

分类问题，其中

是预定义的实体的类别数，即针对句子中的每一个词，预测其分别是实体类别1的中心词、实体类别2的中心词、……、实体类别

的中心词以及不是中心词对应的概率。

需要说明的是，首词预测任务、尾词预测任务以及中心词预测任务虽然是三个不同的分类任务，但它们之间具有较强的相关性。具体表现在以下两个方面：（1）在确定了实体首尾词的情况下，中心词预测显然会更容易；（2）在明确了中心词的情况下，首尾词的预测也会更准确。大量的研究证实：在多个具有相关性的任务之间共享信息，可以达到相互促进、共同提高的目的。

如图3所示，融合中心词信息的基于多任务学习的边界检测神经网络模型包括三个神经网络层：（1）输入层，其作用是把句子中的每个词转换成语义向量表示，

为句子中第

个词的向量表示；（2）上下文信息建模层，其作用是把词所在句子的上下文信息融入到词的语义向量表示中，也即学习词在上下文中的表示

；（3）分类层，其作用是使用三个不同的分类子层，基于词在上下文中的表示分别计算首词预测、尾词预测以及中心词预测三个任务的结果

（图3中以第3个词为例进行说明）。

本质上，融合中心词信息的边界检测神经网络是一个多任务学习模型。其中，用于三个分类任务的神经网络共享输入层和上下文信息建模层，而使用不同的分类层。在多任务学习策略下，通过同时训练这三个分类任务，可以基于共享的参数在它们之间实现信息的共享，从而达到共同提高预测性能的目的。

下面详细介绍使用的输入层、上下文信息建模层以及分类层的使用方法。请参阅图1至图4，对于本发明提出的融合中心词信息的嵌套命名实体识别方法，所述方法包括如下步骤：

S101，以标注了嵌套实体信息以及中心词信息的语句作为训练语句，其中所述嵌套实体信息为所述训练语句中各实体的位置及类别，所述中心词信息为各所述实体中的核心词。

在本步骤中，训练语句表示为：

其中，

表示训练语句中所包含的词的数量。

对所述训练语句中的第

个词，其作为首词时对应的真实标记表示为

，作为尾词时对应的真实标记表示为

，作为实体中心词时对应的真实标记表示为

；

对所述训练语句中的文本片段

，其作为真实实体类别标记时表示为

，

为所述训练语句中的第

个词。

S102，构建基于多任务学习的边界检测神经网络模型，引入中心词预测任务作为辅助任务，基于所述训练语句中的每个词在上下文中的向量表示，分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果。

输入层将第

个词对应的词向量表示为：

其中，

为预训练好的词向量矩阵，

表示一个

行、

列的二维实数矩阵，

表示词表中词的个数，

表示词向量的维度，

中的每一行对应一个词。词向量矩阵

可以使用Word2Vec或GloVe等开源工具在大规模无标注的文本上训练获得。

上下文信息建模层基于双向长短时记忆网络（Bi-directional Long Short Term Memory，BiLSTM）将词所在训练语句的上下文信息融入词的语义向量表示中。BiLSTM是一种常用于句子中上下文信息建模的神经网络，在众多自然语言处理任务上取得了较好的效果。具体地，给定词向量表示

，双向长短时记忆网络

按如下公式计算词在上下文中的向量表示

。

其中，每个词在上下文中的向量表示为

，计算公式为：

其中，

表示从左至右建模词的上文信息，

表示从右至左建模词的下文信息，

以及

用于计算个方向的信息以用作词在上下文中的表示，

表示两个向量的拼装操作，

与

中的起始向量

和

可初始化为零向量。

的具体计算公式如下：

其中，

为网络参数，

为sigmoid函数；

分别为输入门、遗忘门和输出门，用于控制信息的流动；

为第

个词对应的记忆状态，

为融合了上文信息（句子中当前词前面的词）的第

个词的向量表示，

为第

个词在上下文中的表示

与第

个词的向量表示

融合后的结果。

的计算公式与

类似，只是网络参数的值不同，在此不再赘述。

在分类层中，使用三个独立的分类子层分别用于首词预测任务、尾词预测任务以及中心词预测任务。其中，首词预测任务和尾词预测任务均为2分类任务，分别按如下公式计算预测结果：

其中，首词预测结果表示为：

尾词预测结果表示为：

其中，

为sigmoid函数，

为首词预测任务中分类子层的参数，

为第

个词是实体首词的概率，

为第

个词不是实体首词的概率；

为尾词预测任务中分类子层的参数，

为第

个词是实体尾词的概率，

为第

个词不是实体尾词的概率。

中心词预测结果表示为：

其中，

为中心词预测结果，softmax为用于计算概率的归一化指数函数，

为用于中心词预测任务的分类子层的参数，向量

中的第

维为第

个词是实体类别

的中心词的概率，最后1维为该词不是实体中心词的概率，

指代的为

维的实数向量。

在基于多任务学习的边界检测神经网络模型的训练过程中，对于人工标注好的嵌套命名实体（也即标注了实体的首尾词）及中心词的训练语料中的每个句子

。定义首词预测任务的交叉熵代价函数（二分类）表示如下：

其中，

为句子中词的个数，

为第

个词对应于首词预测任务的真实标记，取值为1表示该词是某个实体的首词，取值为0表示该词不是任何实体的首词，

为首词预测结果。

与此同时，定义尾词预测任务的交叉熵代价函数（二分类）表示如下：

其中，

为句子中词的个数，

为第

个词对应于尾词预测任务的真实标记，取值为1表示该词是某个实体的尾词，取值为0表示该词不是任何实体的尾词，

为尾词预测结果。

进一步的，定义中心词预测任务的交叉熵代价函数（多分类）表示如下：

其中，

为句子中词的个数，

为第

个词对应于中心词预测任务的真实标记向量，

为中心词预测的结果向量，

与

分别为

和

的第

个分量；

是一个

维的一维有效编码向量，即如果第

个词是某一实体类别的中心词，那么

中对应于该类别的那一维为1，其他维均为0；如果第

个词不是中心词，则

中最后一维为1，其他维均为0。

基于多任务学习策略同时训练上述三个任务，即可以在它们之间实现信息共享，从而达到同时提高性能的目的。因此，总体的代价函数定义为上述三个分类任务的代价函数之和：

在此需要指出的是，训练好的边界检测神经网络模型可用于计算语句中每个词对应的首词预测结果、尾词预测结果以及中心词预测结果。

S103，根据所述首词预测结果以及所述尾词预测结果，以筛选出存在实体概率的候选文本片段集。

基于首词预测的结果和尾词预测的结果，可以确定训练语句中可能是命名实体的文本片段。具体地，对于训练语句中任意的从第

个词到第

个词（

）的文本片段

。如果满足以下条件，则加入到实体的侯选文本片段集

中：

其中，

是一个人为指定的阈值，

为第

个词是实体首词的概率，

为第

个词是实体尾词的概率。

S104，构建中心词增强的类别预测神经网络模型，以所述候选文本片段集以及所述中心词预测结果作为输入，计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示，进而计算得到每个所述候选文本片段对应的类别预测结果。

在本步骤中，需要指出的是，在类别预测神经网络中融合中心词信息主要有以下三个方面的作用：（1）对仅包含非嵌套命名实体的文本片段而言，如果知道中心词信息，则实体类别的识别会更加容易。例如，在文本片段“交通大学”中，唯一的中心词“大学”非常明确地表明了该实体应为机构实体；若文本片段中的每个词是中心词的概率都比较小，则该文本片段是命名实体的可能性就比较小。（2）对包含多个嵌套的命名实体的文本片段而言，虽然含有多个中心词，但知道这些中心词信息有利于模型学到嵌套的多种命名实体之间的关系。例如，在文本“交通大学校长”中，“大学”是机构实体的中心词，“校长”是人物实体的中心词，那么模型就可能学到“机构实体通常与人物实体嵌套在一起”这样一种实体之间的关系。（3）在建模上下文信息或文本片段本身的信息时，可以给实体中心词分配更高的权重。

进一步的，在确定了句子中实体的侯选文本片段集

后，本发明设计了一种融合中心词信息的的类别预测神经网络模型，用于预测

中的侯选文本片段属于哪种命名实体或是否为命名实体。

如图4所示，融合中心词信息的类别预测神经网络建模了以下三个方面的信息：（1）基于双向长短时记忆网络

和注意力机制学习侯选文本片段在上下文中的向量表示

（图4中以文本片段

为例），因为上下文信息对实体类别的识别是有帮助的；（2）基于卷积神经网络（Convolutional Neural Network，CNN）和注意力机制学习侯选文本片段本身的表示

，因为相当一部分情况下，仅根据命名实体本身就能准确地推导出其类别，加入上下文信息反而可能造成干扰；（3）在上述网络

和

的输入中，不仅包括常用的词向量信息

，还包括中心词的预测结果向量

。其中，

给出了句子中的第

个词属于何种实体的中心词的概率以及不是中心词的概率。

下面对融合中心词信息的类别预测神经网络模型的工作原理进行详细介绍。

在步骤S104中，候选文本片段在上下文中的向量表示的计算方法包括：

（1）基于双向长短时记忆网络，学习候选文本片段中的词在上下文中的向量表示。

其输入是该文本片段所在的整个句子，对应的计算公式如下：

其中，

是句子中第

个词的词向量，

指代的是

维的实数向量，

为词向量的维度，

为对应的中心词预测结果，

指代的为

维的实数向量，

表示向量的拼接操作；

表示从左至右建模词的上文信息，

表示从右至左建模词的下文信息，

为句子中第

个词在上下文中的向量表示。

和

的计算分别与上一节中

和

的计算类似，在此不再赘述。

（2）基于注意力机制，根据所述候选文本片段中的词在上下文中的向量表示计算候选文本片段在上下文中的向量表示。

使用注意力机制计算候选文本片段

在上下文中的向量表示，对应的计算公式如下：

其中，

表示由向量

构成的二维矩阵，矩阵的第一列为

，最后一列为

；

为注意力机制中的参数矩阵，

为计算得到的权重向量，

为

中对应于片段

第

个词的权重值；加权求和的结果向量

即为融合了中心词信息的侯选文本片段

在上下文中的向量表示。

进一步的，候选文本片段对应的本身信息表示的计算方法包括：

（1）基于卷积神经网络，学习候选文本片段中的词本身的向量表示。

在本步骤中，使用一个

学习侯选文本片段

本身的表示，即仅仅建模文本片段内部的信息，而不考虑上下文信息。考虑到命名实体中包含的词的个数通常较少，该

使用窗口为2的卷积核，其计算公式如下：

其中，

为代表卷积核的参数矩阵，用于建模候选文本片段中相邻的两个词的信息，

为偏置项参数，

为候选文本片段中的第

个词本身的向量表示。

（2）基于注意力机制，根据所述候选文本片段中的词本身的向量表示计算得到候选文本片段本身的向量表示。

在本步骤中，使用注意力机制计算候选文本片段

本身的表示，如下所示：

其中，

表示由向量

构成的二维矩阵，矩阵的第一列为

，最后一列为

；

为注意力机制中的参数矩阵，

为计算得到的权重向量，

为

中对应片段

第

个词的权重值；加权求和的结果向量

即为融合了中心词信息的侯选文本片段

本身的向量表示。

拼接融合了中心词信息的侯选文本片段

在上下文中的向量表示

和其本身的向量表示

用于分类，如下所示：

类别预测结果的计算公式为：

其中，

与

为网络参数，

为类别预测结果，

表示实体的类别数。

在此需要补充说明的是，在融合中心词信息的类别预测神经网络模型的训练过程中，给定

中所有侯选文本片段的真实类别标记向量，定义其代价函数为：

其中，真实类别标记

是一个

维的一维有效编码向量，

为类别预测的结果向量，

和

分别是

和

的第

个分量。可以理解的，基于此处的代价函数，训练好的类别预测神经网络模型可以用于计算候选文本片段对应的类别预测结果。

请参阅图5，对于本发明提出的一种融合中心词信息的嵌套命名实体识别装置，其中，用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型，所述装置包括依次连接的第一处理模块11、第一计算模块12、第二处理模块13以及第二计算模块14；

第一处理模块11，用于以标注了嵌套实体信息以及中心词信息的语句作为训练语句，其中所述嵌套实体信息为所述训练语句中各实体的位置及类别，所述中心词信息为各所述实体中的核心词；

第一计算模块12，用于构建基于多任务学习的边界检测神经网络模型，引入中心词预测任务作为辅助任务，基于所述训练语句中的每个词在上下文中的向量表示，分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果；

第二处理模块13，用于根据所述首词预测结果以及所述尾词预测结果，以筛选出存在实体概率的候选文本片段集；

第二计算模块14，用于构建中心词增强的类别预测神经网络模型，以所述候选文本片段集以及所述中心词预测结果作为输入，计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示，进而计算得到每个所述候选文本片段对应的类别预测结果。

本发明提出的融合中心词信息的嵌套命名实体识别方法，通过融合中心词信息的边界检测神经网络模型以及类别预测神经网络模型实现，首先通过边界检测神经网络模型中的输入层，在基于预训练好的词向量矩阵的基础上，将训练语句中的每个词转换成对应的词向量表示；然后通过上下文信息建模层，基于双向长短时记忆网络，根据上述的词向量表示，计算得到每个词在上下文中的向量表示；再通过多个分类子层进行预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果，并根据首词预测结果以及尾词预测结果确定实体的候选文本片段集；进一步的，通过类别预测神经网络模型，基于双向长短时记忆网络以及注意力机制，计算每个候选文本片段在上下文中的向量表示，基于卷积神经网络计算每个候选文本片段本身的向量表示，最后计算得到每个候选文本片段对应的类别预测结果。其中，类别预测结果用于表明候选文本片段属于何种命名实体或不是命名实体的概率，从而对命名实体进行良好的预测，以提高识别效果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。