CN113221539A

CN113221539A - 一种集成句法信息的嵌套命名实体识别方法与系统

Info

Publication number: CN113221539A
Application number: CN202110772554.3A
Authority: CN
Inventors: 叶臻; 黄兆华; 邬昌兴
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-08-06
Anticipated expiration: 2041-07-08
Also published as: CN113221539B

Abstract

本发明提出一种集成句法信息的嵌套命名实体识别方法及系统，所述方法包括如下步骤：抽取给定句子中每个当前词对应的短语句法特征，集合短语句法特征以得到短语句法信息；以短语句法信息作为额外输入，并基于注意力机制构建得到边界检测模型，用于筛选出给定句子中包含命名实体的文本片段并加入到候选文本片段集中；抽取给定句子中每个当前词对应的依存句法特征，集合依存句法特征以得到依存句法信息；以依存句法信息作为额外输入，并基于注意力机制构建得到类别预测模型，类别预测模型用于预测候选文本片段为特定类别实体的概率以及不是实体的概率。本发明提出的集成句法信息的嵌套命名实体识别方法，可提高实际识别准确度。

Description

一种集成句法信息的嵌套命名实体识别方法与系统

技术领域

本发明涉及计算机句法处理技术领域，特别涉及一种集成句法信息的嵌套命名实体识别方法与系统。

背景技术

命名实体识别旨在识别自然语言文本中特定类型的实体，如人名、地名以及机构名等。命名实体识别是自然语言处理领域的重要任务之一，也是信息抽取中的关键子问题之一。命名实体识别性能的提高有利于信息检索、机器翻译以及智能问答等众多自然语言处理的下游应用。目前，针对非嵌套命名实体识别的研究工作比较多，而对嵌套命名实体识别的研究工作比较少。嵌套命名实体是一种特殊的命名实体，即在一个实体的内部还存在着一个或多个其他的实体。如图1所示，在句子“医科大学教授讲课”中，存在“医科大学”机构实体和“医科大学教授”人物实体，且实体“医科大学”嵌套在实体“医科大学教授”中。在中英文等主流语言中，命名实体嵌套的现象很普遍。据统计，常用数据集ACE 2004和ACE2005中嵌套命名实体占比分别高达43%和37%。目前，基于序列标注的命名实体模型能较有效地识别非嵌套命名实体，但并不适合用于识别此种具有嵌套结构的命名实体。

具体的，现有的嵌套命名实体识别的方法大致可分为两大类：（1）基于超图的方法，该类方法通常首先设计一种超图结构来表示命名实体中所有可能的嵌套结构，然后将嵌套命名实体识别问题转化为图结构标签的预测问题。该类方法中设计的超图通常都比较复杂，这将不可避免地导致其具有较高的时间复杂度；（2）基于文本片段分类的方法，该类方法将嵌套命名实体识别分解成实体边界检测和实体类别预测两个子任务。其中，实体边界检测子任务的目的是为了找出句子中可能是实体的候选文本片段。实体类别预测子任务的目的是预测候选文本片段是否为实体，如果是则给出实体所属的类别。一般来说，与基于超图的方法相比，基于文本片段分类的方法更简单，识别性能也更好。

句子的短语句法树中包含短语的边界、类别以及层次结构等信息。如图2中a所示，“医科大学”与“医科大学教授”均属于名词短语，而且低一级短语“医科大学”是短语“医科大学教授”的构成成分。显然，句子的短语句法信息对实体边界的检测是有用的，主要体现在以下两个方面：1）句子中实体的边界肯定是短语的边界；2）名词短语等是实体的可能性比较大；反之，动词短语等不是实体的可能性比较大。因此，集成句子的短语句法信息有利于提高实体边界检测子任务的性能。

另一方面，句子的依存句法树中包含词与词之间的依存关系和核心词等信息，常见的依存关系包括主谓、介宾、动宾、核心以及定中等。如图2中b所示，词“医科”与词“大学”之间为定中关系，核心词是“大学”；词“大学”与“教授”之间也是定中关系，而核心词是“教授”。显然，句子的依存句法信息对实体类别的预测是有帮助的，主要体现在以下两个方面：1）机构实体通常与“定中关系”等有关联，而人物实体则常常与“主谓关系”关系或“动宾关系”有关联；2）若知道词“大学”为核心词，则能较容易地推断出相应文本片段是机构实体；若知道词“教授”为核心词，则容易推断出是人物实体。因此，集成句子的依存句法信息有利于提高实体类别预测子任务的性能。

然而，现有的嵌套命名实体识别方法中，忽略了句法信息的利用，识别性能不是很理想。

发明内容

鉴于上述状况，有必要解决现有的命名实体识别方法中，忽略了句法信息的利用，识别性能不是很理想的问题。

本发明实施例提供了一种集成句法信息的嵌套命名实体识别方法，其中，所述方法包括如下步骤：

步骤一：抽取给定句子中每个当前词对应的短语句法特征，集合多个所述短语句法特征以得到短语句法信息，其中所述短语句法特征包括：短语句法树中包含当前词的第k个短语的类别、包含当前词的第k个短语在短语句法树中的层级，以及当前词在第k个短语中的位置；

步骤二：以所述短语句法信息作为额外输入，并基于注意力机制构建得到边界检测模型，所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中，其中所述边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层；

步骤三：抽取所述给定句子中每个当前词对应的依存句法特征，集合多个所述依存句法特征以得到依存句法信息，所述依存句法特征包括：依存句法树中与当前词相关的第k个依存关系的类别、依存句法树中与当前词相关的第k个依存关系中的另一个词、以及所述当前词是否为该依存关系的核心词；

步骤四：以所述依存句法信息作为额外输入，并基于注意力机制构建得到类别预测模型，所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率，所述类别预测模型包括：第二输入层、第二句法信息集成层、聚合层以及第二分类层。

本发明提出的集成句法信息的嵌套命名实体识别方法，抽取给定句子中每个当前词对应的短语句法特征，集合多个短语句法特征以得到短语句法信息；以短语句法信息作为额外输入，并基于注意力机制构建得到边界检测模型，其中边界检测模型用于筛选出给定句子中包含命名实体的文本片段并加入到候选文本片段集中；抽取给定句子中每个当前词对应的依存句法特征，集合多个依存句法特征以得到依存句法信息；最后以依存句法信息作为额外输入，并基于注意力机制构建得到类别预测模型，类别预测模型用于预测候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率。本发明提出的集成句法信息的嵌套命名实体识别方法，充分考虑了句法信息的利用，有效提高了识别准确度。

所述集成句法信息的嵌套命名实体识别方法，其中，在所述步骤一中：

所述短语句法特征记为

，所述短语句法信息记为

，其中

，

为给定句子中词

的个数，

，

为给定句子中包含词

的短语的个数；

所述短语句法特征包括：短语句法树中包含词

的第k个短语的类别、包含词

的第k个短语在短语句法数中的层级，以及词

在第k个短语中的位置。

所述集成句法信息的嵌套命名实体识别方法，其中，在所述步骤二中，所述第一输入层用于：

将给定句子中的词转换成语义向量表示，具体方法包括如下步骤：

基于词向量工具在无标注的文本上预训练好词向量矩阵

，其中词向量矩阵

中的每一行对应词表中的一个词；

对给定句子中的词

，从词向量矩阵中找到对应的行向量，以得到词

的语义向量表示

。

所述集成句法信息的嵌套命名实体识别方法，其中，在所述步骤二中，所述第一句法信息集成层用于：

根据给定句子中词的语义向量表示，基于transformer网络学习词在上下文中的语义向量表示；

基于注意力机制学习词对应的短语句法信息的语义向量表示；

将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接，以得到词最终的语义向量表示；

其中，所述给定句子中词的语义向量表示记为

，词在上下文中的语义向量表示记为

；

是一个transformer网络。

所述集成句法信息的嵌套命名实体识别方法，其中，所述基于注意力机制学习词对应的短语句法信息的语义向量表示的步骤对应的计算公式为：

其中，

为词

在上下文中的语义向量表示，

为词

对应的短语句法信息的语义向量表示，

与

均为短语句法特征

的语义向量表示，

表示词

的第k个短语句法特征对应的权重，

为给定句子中包含词

的短语的个数，

表示向量的转置；

将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接，以得到词最终的语义向量表示的步骤对应的公式为：

为向量的拼接操作，

为词

最终的语义向量表示；

所述第一分类层用于输出词

是实体首词、实体尾词以及其它词的概率，对应的计算公式为：

其中，

由一个多层前馈神经网络叠加一个

层组成；

是一个3维的向量，其中第1个分量

为词

是实体首词的概率，第2个分量

为词

是实体尾词的概率，第3个分量

为词

是其它词的概率。

所述集成句法信息的嵌套命名实体识别方法，其中，在所述步骤三中：

所述依存句法特征记为

，所述依存句法信息记为

，其中

，

为给定句子中词

的个数，

，

为与词

相关的依存关系的个数，

表示向量的转置；

将词在上下文中的语义向量表示以及词对应的依存句法信息的语义向量表示进行拼接，对应的公式为：

其中，

为词最终的语义向量表示，

为向量的拼接操作。

所述聚合层用于基于注意力机制计算候选文本片段的语义向量表示，对应的计算公式如下：

其中，

为候选文本片段

的语义向量表示，

为文本片段中第

个词对应的权重，

与

均为文本片段中第

个词最终的语义向量表示，

，

为参数矩阵；

所述第二分类层用于输出候选文本片段

为特定类别实体的概率以及不是实体的概率，计算公式如下：

其中，

由一个多层前馈神经网络叠加一个

层组成；

为一个

维的向量，

的前

个分量分别为候选文本片段

是对应类别实体的概率，最后一个分量为候选文本片段

不是实体的概率。

本发明还提出一种集成句法信息的嵌套命名实体识别系统，其中，所述系统包括：

第一处理模块，用于抽取给定句子中每个当前词对应的短语句法特征，集合多个所述短语句法特征以得到短语句法信息，其中所述短语句法特征包括：短语句法树中包含当前词的第k个短语的类别、包含当前词的第k个短语在短语句法树中的层级，以及当前词在第k个短语中的位置；

第二处理模块，用于以所述短语句法信息作为额外输入，并基于注意力机制构建得到边界检测模型，所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中，其中所述边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层；

第三处理模块，用于抽取所述给定句子中每个当前词对应的依存句法特征，集合多个所述依存句法特征以得到依存句法信息，所述依存句法特征包括：依存句法树中与当前词相关的第k个依存关系的类别、依存句法树中与当前词相关的第k个依存关系中的另一个词、以及所述当前词是否为该依存关系的核心词；

第四处理模块，用于以所述依存句法信息作为额外输入，并基于注意力机制构建得到类别预测模型，所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率，所述类别预测模型包括：第二输入层、第二句法信息集成层、聚合层以及第二分类层。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明中嵌套命名实体的示例图；

图2为本发明中短语句法树和依存句法树的结构示意图；

图3为本发明提出的集成句法信息的嵌套命名实体识别方法的流程图；

图4为本发明中集成短语句法信息的边界检测模型的结构示意图；

图5为本发明中集成依存句法信息的类别预测模型的结构示意图；

图6为本发明提出的集成句法信息的嵌套命名实体识别系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

现有的嵌套命名实体识别方法中，忽略了句法信息的利用，识别性能不是很理想。为了解决这一技术问题，本发明提出一种集成句法信息的嵌套命名实体识别方法，请参阅图1至图5，其中，所述方法包括如下步骤：

S101，抽取给定句子中每个当前词对应的短语句法特征，集合多个所述短语句法特征以得到短语句法信息。

上述的短语句法特征记为

，短语句法信息记为

。在此需要说明的是，短语句法信息

为短语句法特征

的集合。其中，

，

为给定句子中词

的个数，

，

为给定句子中包含词

的短语的个数。

上述的短语句法特征包括：短语句法树中包含词

的第k个短语的类别、包含词

的第k个短语在短语句法数中的层级，以及词

在第k个短语中的位置。

具体的，按照如下规则抽取词

对应的短语句法特征

：

（1）抽取短语句法树中包含词

的第k个短语的类别；例如名词短语(NP)以及动词短语(VP)等。

（2）抽取包含词

的第k个短语在短语句法树中的层级。定义词所在层的层级为0，自底向上层级依次加1。

（3）抽取词

在第k个短语中的位置。其中，定义词

在短语中的位置为以下四种：B表示词是短语的首词、E表示词是短语的尾词、I表示词位于短语的中间以及S表示词单独构建短语。

（4）将上述类别、层次以及位置三部分信息综合在一起，作为词

对应的短语句法特征

。

（5）考虑到层级较高的短语信息对实体边界识别的帮助比较小，因此仅基于层级不超过3的短语抽取词

对应的短语句法特征。

（6）考虑到一个词

的词性对实体边界的识别是有帮助的，因此将词

本身看作是仅包含其自己的短语，并把其词性看作该短语的类别。例如，词“大学”的词性为名词(NN)。

例如，如图2中a所示，以句子的第2个词“大学”为例，自底向上在短语句法树找到包含“大学”的短语：“大学”、“医科大学”和“医科大学教授”。它们的类别分别为NN、NP和NP，所处的层级分别是1、2和3，词“大学”在这些短语中的位置分别为S、E和I。综合上述信息，可得词“大学”对应的短语句法特征包括NN-1-S、NP-2-E和NP-3-I，分别记为

、

和

。

S102，以所述短语句法信息作为额外输入，并基于注意力机制构建得到边界检测模型，所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中。

在本实施例中，边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层。

其中，所述第一输入层用于将给定句子中的词转换成语义向量表示。具体的，该方法包括如下步骤：

（1）基于词向量工具在无标注的文本上预训练好词向量矩阵

，其中词向量矩阵

中的每一行对应词表中的一个词；

（2）对给定句子中的词

，从词向量矩阵

中找到对应的行向量，以得到词

的语义向量表示

。

此外，上述的第一句法信息集成层执行如下步骤：

（1）根据给定句子中词的语义向量表示，基于transformer网络学习词在上下文中的语义向量表示；

（2）基于注意力机制学习词对应的短语句法特征的语义向量表示；

（3）将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接，以得到词最终的语义向量表示。

其中，给定句子中词的语义向量表示记为

，词在上下文中的语义向量表示记为

；

是一个transformer网络。transformer网络是一种由多个自注意力机制层堆叠而成的深度神经网络，其不仅能够捕获句子中词之间的长距离依赖，而且具有良好的并行计算能力，在很多自然语言处理任务上取得了较好的效果。目前，transformer网络已成为主流的建模上下文信息的神经网络，其具体计算过程这里不再赘述。

然后，基于注意力机制学习词对应的短语句法信息的语义向量表示。其中，注意力机制具有自动捕获重要信息的能力，是一种常用于集成外部知识的方法，在此主要用于集成词对应的短语句法信息。

具体的，基于注意力机制学习词对应的短语句法信息的语义向量表示的步骤对应的计算公式为：

其中，

为词

在上下文中的语义向量表示，

为词

对应的短语句法信息的语义向量表示，

与

均为短语句法特征

的语义向量表示，

表示词

的第k个短语句法特征对应的权重，

为给定句子中包含

的短语的个数，

表示向量的转置。

进一步的，将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接，以得到词最终的语义向量表示，对应的公式为：

为向量的拼接操作，

为词

最终的语义向量表示。

进一步的，第一分类层用于输出词

其中，

由一个多层前馈神经网络叠加一个

层组成；

是一个3维的向量，其中第1个分量

为词

是实体首词的概率，第2个分量

为词

是实体尾词的概率，第3个分量

为词

是其它词的概率。

在边界检测模型训练的过程中，对于人工标注好嵌套命名实体（等同于标注了实体的首尾词）的训练语料中的每个句子

，定义实体边界检测子任务的交叉熵代价函数（3分类）表示如下：

其中，

为边界检测模型的交叉熵代价函数，

为给定句子中词

的个数，

是词

对应于该任务的真实类别标记，

和

分别表示

和

的第

个分量。在此需要说明的是，通过最小化迭代交叉熵代价函数以训练模型，最后得到的模型即为训练好的模型，可用于预测边界。

进一步的，基于实体边界的预测结果，可筛选出句子中可能是命名实体的文本片段。具体地，对于给定句子中任意从第

个词到第

个词（

）的文本片段

，若满足

，

是人为指定的阈值，则加入到实体的侯选文本片段集

中。

S103，抽取所述给定句子中每个当前词对应的依存句法特征，集合多个所述依存句法特征以得到依存句法信息。

在本步骤中，依存句法特征记为

，所述依存句法信息记为

，其中

，

为给定句子中词

的个数，

，

为与词