CN114330341A

CN114330341A - 命名实体识别方法和命名实体识别装置

Info

Publication number: CN114330341A
Application number: CN202011074537.4A
Authority: CN
Inventors: 揭展明; 邴立东
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2022-04-12

Abstract

本申请公开了一种命名实体识别方法和命名实体识别装置。所述命名实体识别方法，包括：解析所述输入文本，获得所述输入文本对应的多个候选依存树结构；从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构；将所述输入文本和所述输入文本对应的目标依存树结构输入命名实体识别模型，获得所述输入文本对应的命名实体序列。

Description

命名实体识别方法和命名实体识别装置

技术领域

本申请涉及机器学习领域，特别是涉及一种命名实体识别方法和命名实体识别装置。

背景技术

命名实体识别(Named Entity Recognition，简称NER)，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

命名实体识别(named entity recognition)在实际场景中运用广泛，但是目前大部分的标注数据存在于英文中文以及其他常见的语言中，部分语言本发明实施例只有少量的命名实体标注，导致训练出来的模型效果不尽人意。

此外，命名实体识别(NER)需要大量的注释数据才能实现最先进的性能。实际上，对于电子商务域等新域中的低资源语言或数据集来说，为命名实体识别(NER)数据集提供如此大量的注释是具有挑战性的。在没有某些域知识的情况下注释这些数据并非易事。

前人的研究工作中展示了语言学上的依存树结构(dependency tree structure)对提高命名实体识别效果有着显著的作用，尤其是在一些训练数据相对比较少的数据上。但是在这一方式存在以下问题：

1，依存树结构依赖于大量的依存项标注，实际使用中针对新的语言、领域，通常没有可用于命名实体识别数据集的依存项标注。

2，依存树结构对提高命名实体识别的效果，仅仅是针对特定依存树的特定语言或者域，如果迁移到其语言或域中，则识别性能下降很多。

3，针对目标语言，如果从外部解析器中获取目标语言的依存树，再进行命名实体识别，则这样的分步模型很容易遭受级联错误，导致命名实体识别性能低于最佳甚至有害。

发明内容

鉴于上述问题，本发明一实施例提出一种命名实体识别方法和命名实体识别装置，以解决现有技术存在的问题。

为了解决上述问题，本申请一实施例公开一种命名实体识别方法，用于对包含至少两个词的输入文本进行命名实体识别，所述方法包括如下步骤：

解析所述输入文本，获得所述输入文本对应的多个候选依存树结构；

从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构；

将所述输入文本和所述输入文本对应的目标依存树结构输入命名实体识别模型组件，获得所述输入文本对应的命名实体序列。

为了解决上述问题，本申请一实施例公开一种命名实体识别装置，包括：

解析模块，用于解析所述输入文本，获得所述输入文本对应的多个候选依存树结构；

目标依存树获取模块，用于从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构；

命名实体序列获取模块，用于将所述输入文本和所述输入文本对应的目标依存树结构输入命名实体识别模型组件，获得所述输入文本对应的命名实体序列。

为了解决上述问题，本申请一实施例还公开一种电子装置，该电子装置包括：

存储器，用于存储计算机可读程序；

处理器，当所述处理器读取所述存储器中的计算机可读程序时，所述电子装置执行如下操作：

为了解决上述问题，本申请一实施例还公开一种终端设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述终端设备执行上述的方法。

本申请一实施例还公开一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得终端设备执行上述的方法。

由上述可知，本申请实施例提出的命名实体识别方法和装置，至少包括以下优点：

本发明实施例提出的命名实体识别方法和装置，通过通用依存树库中的依存树数据对本发明提出的命名实体识别模型进行训练，将依存树作为潜在的变量，训练出基于依存树的命名实体识别模型组件，再将输入文本输入该命名实体识别模型组件，获得命名实体识别标注序列。在低资源的命名实体标注中，本发明命名实体识别标注准确性高，对传统的命名实体识别模型有显著的改善，不需要大量的标注即可训练性能优越的命名实体识别模型组件。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请第一实施例的命名实体序列模型的示意图。

图2是本申请第一实施例的命名实体识别方法的流程图。

图3是本申请第二实施例的命名实体识别方法的流程图。

图4是本申请第二实施例的步骤S101的子步骤的流程图。

图5是本申请第三实施例的命名实体识别装置的方框图。

图6是本申请第三实施例的命名实体识别装置的方框图。

图7示意性地示出了用于执行根据本发明的方法的终端设备的框图；以及

图8示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

命名实体识别(NER)可以广泛应用于人名识别、地名识别、地址识别、机构名称识别、专有名词、新零售、旅游等各种领域。是指识别文本中具有特定意义的实体。例如，命名实体识别模型组件可以从各种文本例如“浙江省杭州市西湖区”、“我爱科学”、“地球围绕着太阳转动”等文本中识别出实体，用于后续使用。

图1所示为本发明的一实施例的命名实体识别模型组件的示意图。如图1所示，该基于依存树的命名实体识别模型组件30主要包含两部分模型，一部分是依存关系解析器10，一部分是用于标注的命名实体识别模型20。所述依存关系解析器10可选为Biaffine依存关系解析器，用于执行依存解析；命名实体识别模型20可以是传统的LSTM-CRF神经网络模型，例如是依存导向的LSTM-CRF神经网络模型，用于执行序列标注。

如图1所示，带箭头的实线表示的模型应用过程中，输入文本40通过依存关系解析器10解析生成目标依存树结构，目标依存树结构用于表征输入文本的词之间的关系；在通过依存关系解析器10之后，可以获得针对该输入文本40的多个候选依存树结构中的目标依存树结构，例如是最佳依存树结构。将输入文本和输入文本对应的目标依存树结构输入命名实体识别模型，可以生成命名实体识别序列。进一步的，图1中带箭头的虚线所示的模型训练过程中，输入文本40分别输入依存关系解析器和命名实体识别模型，可以对二者同时进行训练。

本发明第一实施例提出一种命名实体识别方法。图2所示为本发明第一实施例的命名实体识别方法的步骤流程图。如图2所示，本发明实施例的命名实体识别方法用于对包含至少两个词的输入文本进行命名实体识别。输入文本例如为句子，其包括多个词(word)，此处的“词”可以为英文的单词、中文的字词等，本发明并不特别限定。

本发明第一实施例提出的命名实体识别方法可以包括如下步骤：

S101，解析所述输入文本，获得所述输入文本对应的多个候选依存树结构；

S102，从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构；

S103，将包含所述目标依存树的输入信息输入所述命名实体识别模型，获得所述输入文本对应的命名实体序列。以下具体进行描述。

步骤S101，解析所述输入文本，获得所述输入文本对应的多个候选依存树结构；

在这一步骤中，例如，用户输入文本至机器学习模型后，执行主体(例如是服务器)可以根据用户的输入文本，经过解析的步骤，获得对应于该输入文本的多个依存树结构，这些依存树结构可以是潜在依存树(latent dependency tree)。

本发明实施例提出的命名实体识别模型组件可以包括依存关系解析器。所述依存关系解析器例如是潜在Biaffine依存树解析器(latent Biaffine dependency parser)。该依存关系解析器可以将用户的输入文本解析为依存树。通过依存关系解析器所解析出的依存树可以为多个，后续会从多个依存树中通过例如结构化推断的方式获得的最佳依存树，可以将初步解析出的多个依存树称为候选依存树，将最终选择的依存树称为目标依存树。

在步骤S101中，执行主体可以首先获得所述输入文本对应的词嵌入(wordembedding)信息和上下文表示(contextualized representation)信息，根据所述词嵌入信息和所述上下文表示信息获得输入文本对应的词表示信息。

词嵌入(word embedding)是将现有的机器学习方法无法直接处理的文本数据转换为数值型数据，如果将词(word)看作输入文本的最小单元，词嵌入(word embedding)理解为一种映射，其过程是将文本空间中的某个词(word)通过一定的方法映射或嵌入到另一个数值向量空间。

词嵌入的输入是原始文本中的一组不重叠的词汇，这些词汇可以放置在一个词典(dictionary)里，这一词典(dictionary)就可以看作是词嵌入的一个输入。词嵌入的输出就是每个词的向量表示。对于上文中的原始输入，假设使用最简单的one hot编码方式，那么每个词都对应了一种数值表示。例如文本语句“I love science”，I对应的向量就是[1,0,0]，science对应的向量就是[0,0,1]，各种机器学习应用可以基于这种词的数值表示来构建各自的模型。

上下文表示(contextualized representation)信息是通过一个深度双向LSTM模型来获得基于上下文意思的词表示，是对词嵌入信息的修正，结合语境动态地更新词嵌入信息。

词嵌入是将词表示为向量(word2vec)，其本质上是一个静态模型，利用word2vec训练完每个词之后，词的表示就固定了，之后使用的时候，词嵌入信息都不会跟随上下文的场景发生变化。在本发明实施例中，可以用对应的上下文组件处理器，例如ELMo(Deepcontextualized word representation)，解决语境问题。ELMo是一种新型深度语境化词表征，可对词进行复杂特征(如句法和语义)和词在语言语境中的变化进行建模(即对多义词进行建模)。具体的做法是事先用语言模型在一个大的语料库上学习好词的词嵌入信息，之后用去除标签的训练数据来细调预训练好的ELMO模型，在使用时可以动态地去更新词的词嵌入信息。

利用输入文本，通过对应的word2vec和上下文表示处理器(例如ELMo)，可以获得输入文本对应的词嵌入(word embedding)信息和上下文表示(contextualizedrepresentation)信息，即与上下文意思相关的向量化的词表示信息。

在这一步骤中，还可以将所述词表示信息输入依存关系解析器，获得多个候选依存树。其中每一个候选依存树分别对应一个依存性边际评分。

由于依存树是潜在的，在这一步骤中，依存关系解析器需要枚举所有可能的依存树，这些依存树是目标依存树(例如最佳依存树)的概率各不相同，有的概率较高，有的概率较低。在枚举出大量的依存树后，可以在后续的推断过程中查找最佳依存树(目标依存树)。

推断(inference)的主要目的是在知道观察变量的值的情况下估计隐藏变量的值。例如观察到生成模型的“叶子”，可以尝试推断隐藏的原因(diagnosis)，反之如果观察到生成模型的“根”，就可以尝试预测它的节点(predicition)。结构化推断(structuralinference)，是根据可以观测的部分，对潜在的结构进行推断的操作。

在本实施例中，由于依存项树的数量呈指数级大，可以通过执行结构化推断的方法获得目标依存树。在本发明实施例提出的方案中，可以估算依存弧线上边缘化的隐性结构的和，从而通过隐性结构的和的评分确定出目标依存树。

由于潜在的候选依存树数量巨大，本发明实施例中可以采用近似估计的做法。例如可以针对每个词(word)，计算其父项的概率分布，然后用这个概率分布的近似估计结果来枚举所有的依存结构。

前述的词表示信息被发送到依存关系解析器，获取依存性边际评分可以通过如下方式进行：例如以“I love science”这一输入文本为例，将这一输入文本的词表示信息通过依存关系解析器，可以获得如下信息：I这个单词，其父项(parent)是love的概率是0.8，父项是science的概率是0.2。science这个单词，父项是love的概率是0.9，是I的概率是0.1。经过依存关系解析器，可以获得每一单词的不同父项的不同概率。

估算依存弧线上边缘化的隐性结构的和的具体做法例如可以通过如下方式进行：由于已经获得了每个词的父项的分布概率，在这一步骤中可以将每个词的分布概率与该词的表示信息相乘并进行合并，并计算该词的分布概率总和。例如前述“I love science”这句子中I这个单词，假如其父项确定是love，就直接和love的表示信息合并在一起。但其父项为love的概率是0.8，其父项为science的父项的概率为0.2，在此可以以概率求和的形式，例如通过：weighted sum：0.8*love的表示信息+0.2*science的表示信息，获得和，再与I合并在一起，获得依存性边际评分。

通过前述的方式，可以获得不同的候选依存树，并且每一个候选依存树分别对应于一个依存性边际评分，这一依存性边际评分与候选依存树是目标依存树的概率相关。在一实施例中，如果评分较高，则可以认为其是目标依存树的概率较高，反之亦然。

在执行步骤S101之后，可以执行步骤S102如下：

在这一步骤中，由于前述的潜在依存树的数量是很大的，在本实施例中可以采用结构化推断的方式，获得目标依存树。

由于前述步骤中已经获得了依存弧线上边缘化的隐性结构的和，在这一步骤中可以通过隐性结构的总和，选出最佳依存树。例如，前述步骤中计算出的隐性结构的总和的概率最高的依存树，即为最佳依存树。将该最佳依存树结构作为对应该输入文本的目标依存树结构。

所述结构化推断的方式例如可以通过如下方式实现：将每两个词的表示信息(representation)进行评分(scoring)。例如一个句子有三个单词，针对第一个单词和第二个单词的表示信息进行评分，并针对第二个和第三个单词的表示信息进行评分，经过softmax函数，即可以获得第一个单词和第二个单词的概率，以及第二个单词和第三个单词的概率。选取概率最高的单词组合进行倒推，可以获得近似估计的最佳依存树，即为对应该输入文本的目标依存树结构。

通过结构化推断方式获得对应该输入文本的目标依存树结构的方式仅仅使本发明的其中一个实施方式，在其他实施方式中，例如还可以通过SPIGOT或直通估计器进行潜在变量推断。举例来说，可以使用SPIGOT程序，直接从输入的句子本身得到依存树结构，然后通过依存树结构直接使用已有依存引导(dependency-guided)LSTM-CRF的工作。

在执行步骤S102之后，可以执行步骤S103如下：

S103，将所述输入文本和所述输入文本对应的目标依存树结构输入命名实体识别模型，获得所述输入文本对应的命名实体序列。

在这一步骤中，可以利用目标依存树作为命名实体识别模型的输入，获取输入文本的命名实体序列。可以将目标依存树结构作为前述的LSTM-CRF神经网络模型的输入的一部分，将所述输入的文本通过目标依存树结构和LSTM-CRF神经网络模型，获得文本的命名实体序列。目标依存树结构例如是针对该输入文本的最佳依存树结构。在前述的步骤中确定了目标依存树结构之后，即确定了输入文本的词之间的依存关系。这一依存关系例如可以通过树形结构的数据表示。例如，在“I love science”这一输入文本中，前述的步骤解析出love作为根节点root，love to I的关系是主语关系，love to science的关系是宾语关系。那么可以将这三个单词的关系(例如主语为I、宾语为science)和属性(例如love作为根节点root)记录下来，将表征树形关系的数据作为命名实体模型的一部分，与输入文本一起输入至命名实体模型中。

这一步骤利用了句子的依存树结构对传统的命名实体识别模型进行优化。值得注意的是，本发明实施例中的目标依存树结构与LSTM-CRF模型并非传统的分步叠加的关系，而是将利用推断确定出的目标依存树结构作为命名实体识别模型的输入，使得包含了目标依存树结构的命名实体识别模型全程可导，没有断点。由于优化后的命名实体识别模型全程可导，在训练中不会因为级联误差传递导致命名实体识别模型训练失败、精度低等问题，可以利用有限的训练数据训练出高精度的基于目标依存树结构的命名实体识别模型。

可选地，在步骤S102之前，还可以包括利用依存树库中的通用依存树对依存关系解析器进行训练的步骤，如下：

S100，利用通用依存树数据训练所述依存关系解析器。

这一步骤可以在前述的步骤S101之前或者之后执行，可以提供通用依存树数据来训练更好的潜在依存关系解析器。

通用依存树数据库的数据可以提供语法的一致注释，如语音部分标记和跨许多不同的语言的依存项。例如，英文语法中，用nn代表名词、用vb代表动词。而西班牙语言中用n和c代表。通用依存树数据库会通过统一的标注方式，标注不同语言的词性和依存关系，通用依存树数据库已将越来越多的语言纳入这个树库。

所以，尽管对于标注较少的领域的文本，无法获得命名标注数据，但是通用依存树库中却有大量的(语句文本，依存树)的数据，换言之，这些数据是表征句子和依存树之间的关系的数据。本发明实施例提出的方案中，可以利用这些(语句文本，依存树)数据，训练依存关系解析器，例如前述的潜在的Biaffine依存树解析器，使之反馈更好的解析依存树的效果。

此外，作为一个优选实施例，所述步骤S102之前，即从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构的步骤之前，所述方法还包括：

S1001，利用通用依存树数据和命名实体识别数据，在多任务学习环境中同时训练所述依存关系解析器和所述命名实体识别模型。

此处多任务的含义在于：同时训练依存树解析模块和命名实体识别模型；在训练的过程中可以拿一些只有依存性的数据，对依存树解析模块进行训练；这些只有依存性的数据不参与训练命名实体识别模型，另一些命名实体识别数据，例如为历史数据，可以同时参与图1所示的依存关系解析器10和命名实体识别模型20的训练中，即参与整个命名实体识别模型组件30的训练。

在一实施例中，所述步骤S100，即利用通用依存树数据训练所述依存关系解析器的步骤，可以包括：将所述通用依存树数据和所述依存关系解析器的损失数据输入所述依存关系解析器，训练所述依存关系解析器。

例如，在训练依存树解析模块之后将会获得训练产生的损失数据，即训练结果和真实结果的误差，在这一步骤中可以将损失合并入依存树解析模块训练中，即，将通用依存树数据和前述的损失数据，作为依存树解析模块的一个维度，继续循环训练依存关系解析器模块。

利用合并损失的方式训练出的依存树解析模块能够更快地获得期望的精度，提高了训练的效率。由于本发明实施例提出的方案中，命名实体识别模型组件是连续可导的模型，传递性好，不会产生级联误差。

由上述可知，本发明第一实施例提出的命名实体识别方法至少具有如下技术效果：

本发明实施例提出的方案，通过通用依存树库中的依存树数据对本发明提出的命名实体识别模型进行训练，将依存树结构作为潜在的变量，训练出基于依存树结构的命名实体识别模型组件，再将输入文本输入该命名实体识别模型组件，获得命名实体识别标注序列。在低资源的命名实体标注中，本发明命名实体识别标注准确性高，对传统的命名实体识别模型有显著的改善，不需要大量的标注即可训练性能优越的模型。

第二实施例

本发明第二实施例提出一种命名实体识别方法。图3所示为本发明第二实施例的命名实体识别方法的步骤流程图。如图3所示，本发明实施例的命名实体识别方法如下步骤：

S201，利用依存关系解析器解析所述输入文本，获得所述输入文本对应的多个候选依存树结构；

S202，从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构；

S203，将所述输入文本和所述输入文本对应的目标依存树结构输入命名实体识别模型组件，获得所述输入文本对应的命名实体序列。

上述步骤S202至步骤S203与上一实施例的步骤S102至步骤S103相同或相似，在此不再赘述。本实施例重点说明与上一实施例的不同之处。

在步骤S201中，利用依存关系解析器对输入文本进行解析。依存关系解析器例如为Biaffine依存树解析器，用于对文本解析，生成多种可能的依存树。

由于依存树是潜在的，在这一步骤中，可以利用已有的Biaffine依存树解析器枚举所有可能的依存项树，以在后续的推断过程中查找最佳依存树，即为目标依存树。由于依存项树的数量呈指数级大，需要找到执行结构化推断的正确方法。在本发明实施例提出的方案中，可以估算依存弧线上边缘化的隐性结构的和。例如可以针对每个词(word)，计算其父项的概率分布。该字的父项可能是第一个词也可能是第二个词，将这两种可能的概率分别与该词的表示信息相乘求和，通过最后的得分可以判断出最可能的树形结构，从而倒推获得最佳依存树，确定目标依存树。

可选地，在步骤S202之前，还可以包括利用依存树库中的通用依存树数据对依存关系解析器进行训练的步骤，如下：

S200，利用通用依存树数据训练依存关系解析器。

这一步骤可以在步骤S201之前或者之后执行，可以提供通用依存树数据来训练更好的潜在依存关系解析器。

可选地，在步骤S201中可以包括如下子步骤：

S201a，获得所述输入文本对应的词嵌入信息和上下文表示信息；S201b，根据所述词嵌入信息和所述上下文表示信息获得输入文本对应的词表示信息；S201c，将所述词表示信息输入依存关系解析器，获取多个候选依存树；

其中，所述多个候选依存树分别对应依存性边际评分。

执行主体可以首先获得所述输入文本对应的词嵌入(word embedding)信息和上下文表示(contextualized representation)信息，根据所述词嵌入信息和所述上下文表示信息获得输入文本对应的词表示信息。

此外，作为一个优选实施例，在步骤S202即所述从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构的步骤之前，还可以包括利用依存树库中的通用依存树数据和利用命名实体识别数据，对依存关系解析器进行训练的步骤，如下：

利用通用依存树数据和命名实体识别数据，在多任务学习环境中同时训练所述依存关系解析器和所述命名实体识别组件包含的命名实体识别模型。

在一实施例中，所述步骤S200，即利用通用依存树数据训练所述依存关系解析器的步骤，可以包括：将所述通用依存树数据和所述依存关系解析器的损失数据输入所述依存关系解析器，训练所述依存关系解析器。

综上所述，本发明第二实施例提出的命名实体识别方法至少具有如下技术效果：

在可选实施例中，本实施例提出的命名实体识别方法，至少还具有如下优点：

1，本发明实施例提出了一个潜在变量模型，以了解命名实体识别(NER)任务中的潜在依存性结构。本发明实施例可以进一步执行多任务学习，以合并来自通用依存项树库的依存项数据。本发明的模型是可导的，意味着全程无断点。相比于现有的分步模型，本发明的模型不会将上一步模型的误差传递到下一步，提高了模型的精度。

2.与标准LSTM-CRF模型相比，本发明实施例对多种语言进行广泛的实验，并取得卓越的性能。本发明实施例的分析表明，在多任务学习期间，少量的依存数据可以显著改善模型，而所学的潜在依存关系可以部分模仿黄金依存关系结构。

3.本发明实施例的方法可以进一步扩展到具有更多训练数据的大规模实验，从而可能导致更好的潜在依存关系。

第三实施例

本发明第三实施例提出一种命名实体识别装置，如图5所示，该装置包括：

解析模块301，用于解析所述输入文本，获得所述输入文本对应的多个候选依存树结构；

目标依存树获取模块302，用于从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构；

命名实体序列获取模块303，用于将所述输入文本和所述输入文本对应的目标依存树结构输入命名实体识别模型，获得所述输入文本对应的命名实体序列。

综上所述，本实施例提出的命名实体识别装置至少具有如下优点：

本发明实施例提出的方案，通过通用依存树库中的依存树数据对本发明提出的命名实体识别模型进行训练，将依存树作为潜在的变量，训练出基于依存树的命名实体识别模型组件，再将输入文本输入该命名实体识别模型组件，获得命名实体识别标注序列。在低资源的命名实体标注中，本发明命名实体识别标注准确性高，对传统的命名实体识别模型有显著的改善，不需要大量的标注即可训练性能优越的模型。

第四实施例

本发明第四实施例提出一种命名实体识别装置500，如图6所示，该装置包括：

解析模块401，用于解析所述输入文本，获得所述输入文本对应的多个候选依存树结构；

目标依存树获取模块402，用于从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构；

命名实体序列获取模块403，用于将所述输入文本和所述输入文本对应的目标依存树结构输入命名实体识别模型，获得所述输入文本对应的命名实体序列。

在一些可选实施例中，所述解析模块401包括：

词向量获取模块401a，用于获得所述输入文本对应的词嵌入信息和上下文表示信息；

词表示信息获取模块401b，用于根据所述词嵌入信息和所述上下文表示信息获得输入文本对应的词表示信息；

候选依存树获取模块401c，用于将所述词表示信息输入依存关系解析器，获取多个依存树分别对应的依存性边际评分。

在一些可选实施例中，所述将所述词表示信息输入依存关系解析器，获取多个依存树分别对应的依存性边际评分中，所述依存关系解析器包括潜在的Biaffine依存树解析器。

在一些可选实施例中，所述目标依存树获取模块402，用于根据所述多个候选依存树分别对应的所述依存性边际评分，获得所述输入文本对应的目标依存树结构。

在一些可选实施例中，所述命名实体识别模型为依存导向的LSTM-CRF模型，所述命名实体序列获取模块403用于：

将目标依存树叠加于所述LSTM-CRF模型，将所述输入文本通过目标依存树叠加后的所述LSTM-CRF模型，获得文本的命名实体序列。

在一些可选实施例中，所述装置还包括：

训练模块400，用于利用通用依存树数据训练所述依存关系解析器。或者，训练模块400用于利用通用依存树数据和命名实体识别数据，在多任务学习环境中同时训练所述依存关系解析器和所述命名实体识别组件包含的命名实体识别模型。

在一些可选实施例中，所述通用依存树数据包括文本和依存树结构的对应关系数据。

在一些可选实施例中，所述训练模块400还用于：将所述通用依存树数据和所述依存关系解析器的损失数据输入所述依存关系解析器，训练所述依存关系解析器。

综上所述，本发明第四实施例提出的命名实体识别装置，至少具有如下技术效果：

在可选实施例中，本实施例提出的命名实体识别装置，至少还具有如下优点：

图7为本申请一实施例提供的终端设备的硬件结构示意图。如图7所示，该终端设备可以包括输入设备90、处理器91、输出设备92、存储器93和至少一个通信总线94。通信总线94用于实现元件之间的通信连接。存储器93可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，存储器93中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述处理器91例如可以为中央处理器(Central Processing Unit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该处理器91通过有线或无线连接耦合到上述输入设备90和输出设备92。

可选的，上述输入设备90可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；可选的，上述收发信机可以是具有通信功能的射频收发芯片、基带处理芯片以及收发天线等。麦克风等音频输入设备可以接收语音数据。输出设备92可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中数据处理装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图8为本申请另一实施例提供的终端设备的硬件结构示意图。图8是对图7在实现过程中的一个具体的实施例。如图8所示，本实施例的终端设备包括处理器101以及存储器102。

处理器101执行存储器102所存放的计算机程序代码，实现上述实施例中图2至图4的命名实体识别方法。

存储器102被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。存储器102可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，处理器101设置在处理组件100中。该终端设备还可以包括：通信组件103，电源组件104，多媒体组件105，音频组件106，输入/输出接口107和/或传感器组件108。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件100通常控制终端设备的整体操作。处理组件100可以包括一个或多个处理器101来执行指令，以完成上述图2至图4方法的全部或部分步骤。此外，处理组件100可以包括一个或多个模块，便于处理组件100和其他组件之间的交互。例如，处理组件100可以包括多媒体模块，以方便多媒体组件105和处理组件100之间的交互。

电源组件104为终端设备的各种组件提供电力。电源组件104可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件105包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件106被配置为输出和/或输入音频信号。例如，音频组件106包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件103发送。在一些实施例中，音频组件106还包括一个扬声器，用于输出音频信号。

输入/输出接口107为处理组件100和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件108包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件108可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件108可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件108还可以包括摄像头等。

通信组件103被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务端建立通信。

由上可知，在图8实施例中所涉及的通信组件103、音频组件106以及输入/输出接口107、传感器组件108均可以作为图7实施例中的输入设备的实现方式。

本申请实施例提供了一种终端设备，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述终端设备执行如本申请实施例中一个或多个所述的视频摘要的生成方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种命名实体识别方法和命名实体识别装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种命名实体识别方法，用于对包含至少两个词的输入文本进行命名实体识别，其特征在于，所述方法包括：

2.根据权利要求1所述的命名实体识别方法，其特征在于，所述解析所述输入文本，获得所述输入文本对应的多个候选依存树结构的步骤包括：

获得所述输入文本对应的词嵌入信息和上下文表示信息；

根据所述词嵌入信息和所述上下文表示信息获得输入文本对应的词表示信息；

将所述词表示信息输入依存关系解析器，获取多个候选依存树；

其中，所述多个候选依存树分别对应依存性边际评分。

3.根据权利要求2所述的命名实体识别方法，其特征在于，所述将所述词表示信息输入依存关系解析器，获取多个候选依存树的步骤中，所述依存关系解析器包括潜在的Biaffine依存树解析器。

4.根据权利要求1所述的命名实体识别方法，其特征在于，所述从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构的步骤，包括：

根据所述多个候选依存树分别对应的所述依存性边际评分，获得所述输入文本对应的目标依存树结构。

5.根据权利要求1所述的命名实体识别方法，其特征在于，所述解析所述输入文本，获得所述输入文本对应的多个候选依存树结构的步骤通过依存关系解析器执行，

所述从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构的步骤之前，所述方法还包括：

利用通用依存树数据训练依存关系解析器。

6.根据权利要求1所述的命名实体识别方法，其特征在于，所述解析所述输入文本，获得所述输入文本对应的多个候选依存树结构的步骤通过依存关系解析器执行，

利用通用依存树数据和命名实体识别数据，在多任务学习环境中同时训练依存关系解析器和所述命名实体识别组件包含的命名实体识别模型。

7.根据权利要求5或6所述的命名实体识别方法，其特征在于，所述通用依存树数据包括文本和依存树结构的对应关系数据。

8.根据权利要求7所述的命名实体识别方法，其特征在于，所述利用通用依存树数据训练所述依存关系解析器的步骤，包括：

将所述通用依存树数据和所述依存关系解析器的损失数据输入所述依存关系解析器，训练所述依存关系解析器。

9.一种命名实体识别装置，其特征在于，包括：

10.根据权利要求9所述的命名实体识别装置，其特征在于，所述解析模块包括：

词向量获取模块，用于获得所述输入文本对应的词嵌入信息和上下文表示信息；

词表示信息获取模块，用于根据所述词嵌入信息和所述上下文表示信息获得输入文本对应的词表示信息；

候选依存树获取模块，用于将所述词表示信息输入依存关系解析器，获取多个依存树；

其中所述多个候选依存树分别对应依存性边际评分。

11.根据权利要求10述的命名实体识别装置，其特征在于，所述将所述词表示信息输入依存关系解析器，获取多个依存树分别对应的依存性边际评分中，所述依存关系解析器包括潜在的Biaffine依存树解析器。

12.根据权利要求9所述的命名实体识别装置，其特征在于，所述目标依存树获取模块用于根据所述多个候选依存树分别对应的所述依存性边际评分，获得所述输入文本对应的目标依存树结构。

13.根据权利要求9所述的命名实体识别装置，其特征在于，所述解析所述输入文本，获得所述输入文本对应的多个候选依存树结构的操作通过依存关系解析器执行，

所述装置还包括：

训练模块，用于利用通用依存树数据训练所述依存关系解析器。

14.根据权利要求9所述的命名实体识别装置，其特征在于，所述解析所述输入文本，获得所述输入文本对应的多个候选依存树结构的操作通过依存关系解析器执行，

所述装置还包括：

训练模块，用于利用通用依存树数据和命名实体识别数据，在多任务学习环境中同时训练所述依存关系解析器和所述命名实体识别组件包含的命名实体识别模型。

15.根据权利要求13或14所述的命名实体识别装置，其特征在于，所述通用依存树数据包括文本和依存树结构的对应关系数据。

16.根据权利要求15所述的命名实体识别装置，其特征在于，所述训练模块用于：将所述通用依存树数据和所述依存关系解析器的损失数据输入所述依存关系解析器，训练所述依存关系解析器。

17.一种终端设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述终端设备执行如权利要求1-8中一个或多个所述的方法。

18.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得终端设备执行如权利要求1-8中一个或多个所述的方法。