CN109101481A

CN109101481A - 一种命名实体识别方法、装置及电子设备

Info

Publication number: CN109101481A
Application number: CN201810660597.0A
Authority: CN
Inventors: 赵知纬
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2018-12-28
Anticipated expiration: 2038-06-25
Also published as: CN109101481B

Abstract

本发明实施例提供了一种命名实体识别方法、装置及电子设备，其中，该方法包括：对待识别文本进行分词，得到多个待识别词；在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量，并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出待识别文本对应的实体类别标签序列，其中，每个待识别词在至少两个预设向量库中的词向量不同，至少两个预设向量库包括通用领域向量库和特定领域向量库；从而可以提高识别特定领域的命名实体的准确度。

Description

一种命名实体识别方法、装置及电子设备

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种命名实体识别方法、装置及电子设备。

背景技术

近年来，随着神经网络的再次兴起，许多自然语言处理任务都通过神经网络技术而达到了更好的处理效果，命名实体识别作为自然语言处理中非常重要的基础性任务，通过与神经网络技术相结合，使得识别命名实体的效果大大增加。

目前，基于神经网络的命名实体识别的方法，主要有：基于循环神经网络的命名实体识别方法、基于卷积神经网络的命名实体识别方法、基于条件随机场的命名实体识别方法、基于循环神经网络和条件随机场的命名实体识别方法，以及基于卷积神经网络和条件随机场的命名实体识别方法。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

同一个词在特定的领域可能代表不同的含义，例如，“仙剑奇侠传”这一词，在游戏领域，该词表示游戏名，在影视领域，该词表示电视名。而现有技术中的命名实体识别方法并未针对这一情况进行优化处理，因此，在将现有技术中的基于神经网络的命名实体识别方法应用于特定领域时，命名实体识别的准确度不高。

发明内容

本发明实施例的目的在于提供一种命名实体识别方法、装置及电子设备，以实现提高识别特定领域的命名实体的准确度。具体技术方案如下：

在本发明实施的一个方面，本发明实施例还提供了一种命名实体识别方法，该方法包括：

对待识别文本进行分词，得到多个待识别词；

在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量，并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，其中，每个待识别词在至少两个预设向量库中的词向量不同，至少两个预设向量库包括通用领域向量库和特定领域向量库；

将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出待识别文本对应的实体类别标签序列。

可选的，建立至少两个预设向量库的过程，包括：

针对每个预设向量库，获取建立该预设向量库的训练语料，通过word2vec训练模型或GloVe训练模型对训练语料进行训练，得到训练语料的词向量；

将训练语料和训练语料的词向量存储在预设数据库中，得到该预设向量库。

可选的，训练得到注意力模型和神经网络命名实体识别模型的过程，包括：

获取训练文本，将训练文本分词，得到训练文本的多个样本词，并在至少两个预设向量库中查询多个样本词中每个样本词对应的至少两个样本词向量；

获取训练文本的多个样本词的命名实体，将每个样本词对应的至少两个样本词向量，作为注意力模型和神经网络命名实体识别模型的训练输入量，根据多个样本词的命名实体，并通过神经网络BP算法，训练得到注意力模型和神经网络命名实体识别模型。

可选的，将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，包括：

将多个待识别词中每个待识别词对应的至少两个待识别词向量输入以下训练得到的注意力模型中：

输出多个待识别词的合成词向量G中每个待识别词的合成词向量g_k；

其中，为多个样本词的第i个词向量，为第k个样本词的第i个词向量，为第m个样本词的第i个词向量，为第k个样本词的第j个词向量，为第m个样本词的第j个词向量，1≤i≤n，2≤n，1≤k≤m，1≤m，n为的总数，m为多个样本词的总数，i,j,k,m,n均为正整数，A为注意力模型参数数值，G＝[g₁,g₂,…,g_k,…,g_m]，g_k为第k个样本词的合成词向量，g_m为第m个样本词的合成词向量。

可选的，神经网络命名实体识别模型包括：循环神经网络命名实体识别模型、卷积神经网络命名实体识别模型、深度神经网络命名实体识别模型以及条件随机场模型中的至少一个或组合。

在本发明实施的又一方面，本发明实施例还提供了一种命名实体识别装置，该装置包括：

分词模块，用于对待识别文本进行分词，得到多个待识别词；

向量合成模块，用于在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量，并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，其中，每个待识别词在至少两个预设向量库中的词向量不同，至少两个预设向量库包括通用领域向量库和特定领域向量库；

命名实体识别模块，用于将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出待识别文本对应的实体类别标签序列。

可选的，本发明实施例的一种命名实体识别装置还包括：预设向量库建立模块，用于：

针对每个预设向量库，获取建立该预设向量库的训练语料，通过word2vec训练模型或GloVe训练模型对训练语料进行训练，得到训练语料的词向量；将训练语料和训练语料的词向量存储在预设数据库中，得到该预设向量库。

可选的，本发明实施例的一种命名实体识别装置还包括：模型训练模块，用于：

可选的，向量合成模块，具体用于：

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的一种命名实体识别方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的一种命名实体识别方法。

本发明实施例提供的一种命名实体识别方法、装置及电子设备，可以在进行命名实体识别时，首先对待识别文本进行分词，得到多个待识别词，然后在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量，并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，最后，将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出待识别文本对应的实体类别标签序列，该实体类别标签序列可以反映识别出的命名实体所属的实体类别。由于该至少两个预设向量库包括通用领域向量库和特定领域向量库，因此，每个待识别词的合成词向量同时包括了在通用领域的向量和在特定领域的向量，在将每个待识别词的合成词向量，输入训练得到的神经网络命名实体识别模型进行命名实体识别时，可以更准确的识别出待识别文本中，属于特定领域的命名实体。从而可以提高识别特定领域的命名实体的准确度。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例的一种命名实体识别方法第一种实施方式的流程图；

图2为本发明实施例的一种命名实体识别方法第二种实施方式的流程图；

图3为本发明实施例的一种命名实体识别方法第三种实施方式的流程图；

图4为本发明实施例的一种命名实体识别装置的结构示意图；

图5为本发明实施例的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了解决现有技术存在的问题，本发明实施例提供了一种命名实体识别方法、装置及电子设备，以实现提高对特定领域的命名实体识别的准确度。

首先，对本发明实施例的一种命名实体识别方法进行介绍，如图1所示，为本发明实施例的一种命名实体识别方法第一种实施方式的流程图，在图1中，该方法可以包括：

S110，对待识别文本进行分词，得到多个待识别词。

在一些示例中，当用户进行命名实体识别时，可以将待识别文本输入应用本发明实施例的一种命名实体识别方法的命名实体识别装置中，该待识别文本可以是一段文本，也可以是一句话。

当用户输入的待识别文本是一段文本时，上述的命名实体识别装置可以将该一段文本拆分为多个句子，然后对每个句子进行分词从而可以得到多个待识别词。当用户输入的待识别文本是一句话时，该命名实体识别装置可以直接对该一句话进行分词，得到多个待识别词。

在一些示例中，上述的命名实体识别装置可以按照代表句子结束的标点符号符号对待识别文本进行拆分，例如，可以按照“！”、“。”、“？”、“；”等标点符号将待识别文本拆分为多个句子。然后对拆分得到的每个句子进行分词。

上述的命名实体识别装置在得到待识别文本后，在对该待识别文本进行分词时，可以通过在预先设置的词典库中查询与该待识别文本中相同的词语来对该待识别文本进行分词。从而可以得到该待识别文本的多个待识别词。

假设，该待识别文本为“我要看风筝”。预先设置的词典库中存储有“我”、“我们”、“想要”、“要”、“阅览”、“玩”、“看”、“游戏”、“风筝”、“电脑”等词，通过在该预先设置的词典库中进行查询，可以将该待识别文本进行分词，得到的多个待识别词分别为“我”、“要”、“看”、“风筝”。

S120，在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量，并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量。

其中，该至少两个预设向量库包括通用领域向量库和特定领域向量库，每个待识别词在至少两个预设向量库中的词向量不同。

在一些示例中，可以在上述的命名实体识别装置中预先设置至少两个向量库。其中，该通用领域向量库可以是基于生活中常用词语建立的，例如，可以基于衣、食、住、行等常用领域中的词语建立该通用领域向量库。

该特定领域向量库可以是基于特定领域中的词语建立的。该特定领域可以是影视和视频领域、游戏领域，也可以是音乐领域等。

上述的命名实体识别装置在获取到多个待识别词后，可以在该至少两个预设向量库中查询该多个待识别词中每个待识别词对应的至少两个待识别词向量。

在一些示例中，该至少两个预设向量库可以是采用现有技术中建立向量库的方法建立的。

为了更清楚的说明本发明实施例的一种命名实体识别方法，这里以两个预设向量库为例来说明，该两个预设向量库分别为向量库A和向量库B。其中，向量库A可以基于生活中常用词语建立，向量库B可以基于影视和视频领域建立。

则上述的命名实体识别装置，可以在向量库A中查询与多个待识别词“我”、“要”、“看”、“风筝”对应的词向量，假设查询到的与该多个待识别词“我”、“要”、“看”、“风筝”对应的词向量为：

还可以在向量库B中查询与多个待识别词“我”、“要”、“看”、“风筝”对应的词向量，假设查询到的与该多个待识别词“我”、“要”、“看”、“风筝”对应的词向量为：

可见，每个待识别词在向量库A和向量库B中分别对应不同的词向量。

上述的命名实体识别装置在得到每个待识别词对应的至少两个待识别词向量后，可以将每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，以使得该训练得到的注意力模型对该至少两个待识别词向量进行合成，合成为每个待识别词的合成词向量。

假设，将上述的四个待识别词“我”、“要”、“看”、“风筝”对应的词向量和输入该训练得到的注意力模型中，得到的合成词向量可以是其中，该α₁和α₂为注意力模型系数。

通过对每个待识别词的至少两个待识别词向量进行合成，可以使得在通过后续步骤识别命名实体时，识别出的命名实体更加能够反映在特定领域的含义，例如，在影视和视频领域，命名实体“风筝”代表一部影视作品。从而可以提高在特定领域中命名实体识别的准确度。

S130，将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出待识别文本对应的实体类别标签序列。

具体的，当上述的命名实体识别装置在得到每个待识别词的合成词向量后，为了识别出该待识别文本中的命名实体，可以将该多个待识别词中每个待识别词的合成词向量输入到训练得到的神经网络命名实体识别模型中，以使得该训练得到的神经网络命名实体识别模型能够通过每个待识别词的合成词向量，识别多个待识别词中的命名实体。

上述的命名实体识别装置在得到待识别文本对应的实体类别标签序列后，该实体类别标签序列可以反映待识别文本中每个待识别词是否为实体，以及为实体待识别词的实体类别。

例如，可以识别出上述的待识别文本“我要看风筝”中的“我”、“要”以及“看”为非实体，“风筝”为命名实体，并且，命名实体“风筝”的实体类别为影视剧。

通过本步骤，可以识别出待识别文本中的实体和非实体，以及实体的实体类别。

在一些示例中，上述的命名实体识别装置在得到待识别文本对应的实体类别标签序列后，还可以将该实体类别标签序列与待识别文本中的每个待识别词进行匹配，然后将匹配结果输出，这样，可以使得用户更加直观的了解该用户输入的文本中每个待识别词是否为实体，以及命名实体的实体类别。

通过本发明实施例的一种命名实体识别方法，可以在进行命名实体识别时，首先对待识别文本进行分词，得到多个待识别词，然后在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量，并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，最后，将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出待识别文本对应的实体类别标签序列，该实体类别标签序列可以反映识别出的命名实体所属的实体类别。由于该至少两个预设向量库包括通用领域向量库和特定领域向量库，因此，每个待识别词的合成词向量同时包括了在通用领域的向量和在特定领域的向量，在将每个待识别词的合成词向量，输入训练得到的神经网络命名实体识别模型进行命名实体识别时，可以更准确的识别出待识别文本中，属于特定领域的命名实体。从而可以提高识别特定领域的命名实体的准确度。

在本发明实施例的一种可选的实施例中，在图1所示的一种命名实体识别方法的基础上，本发明实施例还提供了一种命名实体识别方法，如图2所示，为本发明实施例的一种命名实体识别方法第二种实施方式的流程图，在图2中，建立至少两个预设向量库的过程，可以包括：

S140，针对每个预设向量库，获取建立该预设向量库的训练语料，通过word2vec训练模型或GloVe训练模型对训练语料进行训练，得到训练语料的词向量。

在一些示例中，在建立至少两个预设向量库时，可以采用相同的方法分别建立预设向量库。因此，在本实施例中，可以以建立一个预设向量库为例来进行说明。

具体的，针对每个预设向量库，用户可以将训练语料输入上述的命名实体识别装置，因此，该命名实体识别装置可以获取到建立该预设向量库所用到的训练语料。

在一些示例中，在建立一个预设向量库时，输入的训练语料可以是该预设向量库对应的领域的语料。例如，在建立影视和视频领域的预设向量库时，输入的训练语料可以是影视和视频领域的训练语料。该训练语料可以是电视剧、电影的标题等。

在获取到训练语料后，上述的命名实体识别装置，可以将该训练语料输入训练模型中进行训练，从而可以得到训练语料的词向量。

在一些示例中，该训练模型可以是word2vec训练模型，也可以是GloVe训练模型。

S150，将训练语料和训练语料的词向量存储在预设数据库中，得到该预设向量库。

上述的命名实体识别装置在训练得到训练语料的词向量后，可以将该训练语料以及该训练语料的词向量存储在一个预设数据库中，从而可以得到该预设向量库。

通过本发明实施例预先建立预设向量库，可以使得上述的命名实体识别装置在分词后，可以快速的查询到每个待识别词对应的词向量，从而可以提高识别命名实体整体的效率。

在本发明实施例的一种可选的实施例中，在图1所示的一种命名实体识别方法的基础上，本发明实施例还提供了一种命名实体识别方法，如图3所示，为本发明实施例的一种命名实体识别方法第三种实施方式的流程图，在图3中，训练注意力模型和神经网络命名实体识别模型的过程，可以包括：

S160，获取训练文本，将训练文本分词，得到训练文本的多个样本词，并在至少两个预设向量库中查询多个样本词中每个样本词对应的至少两个样本词向量。

具体的，上述的命名实体识别装置在训练注意力模型和神经网络命名实体识别模型时，可以首先获取训练文本，该训练文本可以是用户预先输入该命名实体识别装置中的。

该命名实体识别装置在获取到训练文本后，可以对该训练文本进行分词处理，从而得到该训练文本的多个样本词，然后在上述的至少两个预设向量库中查询该多个样本词中每个样本词对应的至少两个样本词向量。

例如，假设该多个样本词为“生活”、“丰富”、“现实”、“社会”，则可以分别查询样本词“生活”对应的至少两个样本词向量，样本词“丰富”对应的至少两个样本词向量，样本词“现实”对应的至少两个样本词向量，样本词“社会”对应的至少两个样本词向量。

S170，获取训练文本的多个样本词的命名实体，将每个样本词对应的至少两个样本词向量，作为注意力模型和神经网络命名实体识别模型的训练输入量，根据多个样本词的命名实体，并通过神经网络BP算法，训练得到注意力模型和神经网络命名实体识别模型。

具体的，上述的命名实体识别装置在得到每个样本词对应的至少两个样本词向量后，可以将每个样本词对应的至少两个样本词向量，作为注意力模型和神经网络的训练输入量，输入到注意力模型和神经网络命名实体识别模型中。

在一些示例中，为了训练得到注意力模型和神经网络命名实体识别模型，可以预先通过人工识别的方式识别该训练文本的命名实体，然后将识别的命名实体以及该训练文本输入到上述的命名实体识别装置中，因此，该命名实体识别装置可以获取到训练文本的多个样本词的命名实体。

上述的命名实体识别装置在将每个样本词对应的至少两个样本词向量，输入到注意力模型和神经网络命名实体识别模型后，可以根据获取到的该多个样本词的命名实体，通过神经网络BP算法，对注意力模型和神经网络命名实体识别模型进行训练。

具体的，可以将每个样本词对应的至少两个样本词向量，作为注意力模型的训练输入量，输入注意力模型，然后可以得到注意力模型的训练输出量，然后将注意力模型的训练输出量作为神经网络命名实体识别模型的训练输入量。

在一些示例中，上述的注意力模型可以是如下所示的注意力模型：

其中，为多个样本词的第i个词向量，为第k个样本词的第i个词向量，为第m个样本词的第i个词向量，为第k个样本词的第j个词向量，为第m个样本词的第j个词向量，1≤i≤n，2≤n，1≤k≤m，1≤m，n为的总数，m为多个样本词的总数，i,j,k,m,n均为正整数，A为注意力模型参数，G为多个样本词的合成词向量，G包括每个样本词的合成词向量。

对注意力模型和神经网络命名实体识别模型进行训练，也就是通过训练得到注意力模型参数A的数值和神经网络命名实体识别模型中各个参数的数值。

在一些示例中，在训练前，注意力模型参数A的数值和神经网络命名实体识别模型中各个参数的数值是未知的，在训练后，注意力模型参数A的数值和神经网络命名实体识别模型中各个参数的数值是已知的。

在一些示例中，通过神经网络BP算法，对注意力模型和神经网络命名实体识别模型进行训练，可以是在神经网络命名实体识别模型输出训练输出量时，对比训练输出量和多个样本词的命名实体之间的误差，然后再反向调整注意力模型参数A的数值和神经网络命名实体识别模型中各个参数的数值，直到输出的训练输出量和多个样本词的命名实体之间的误差在预设的误差范围内，其中，该神经网络命名实体识别模型的计算方法可以采用现有技术中神经网络的计算方法，这里不再对神经网络命名实体的计算过程进行赘述。

通过本发明实施例的一种命名实体识别方法训练注意力模型和神经网络命名实体识别模型，可以使得训练得到的注意力模型和神经网络命名实体识别模型，能够在特定领域中，更准确的识别待识别文本中的命名实体。

在本发明实施例的一种可能的实现方式中，将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，可以包括：

将每个待识别词中每个待识别词对应的至少两个待识别词向量输入以下训练得到的注意力模型中：

输出多个待识别词的合成词向量G中每个待识别词的合成词向量g_k。

为了更清楚的说明本发明实施例，下面，以上述的四个待识别词“我”、“要”、“看”、“风筝”对应的词向量和为例进行说明。在将该词向量和输入上述的训练得到的注意力模型后，该注意力模型为：

其中，

输出的结果合成词向量为G＝[g₁,g₂,g₃,g₄]。

可见，合成词向量G中包括待识别词“我”对应的合成词向量g₁，待识别词“要”对应的合成词向量g₂，待识别词“看”对应的合成词向量g₃，待识别词“风筝”对应的合成词向量g₄。

通过本发明实施例的一种命名实体识别方法，可以将每个待识别词对应的至少两个词向量合成为一个合成词向量，从而可以使得在通过训练得到神经网络命名实体识别模型进行命名实体识别时，仅获取合成词向量便可以进行命名实体识别，避免分别采用神经网络命名实体识别模型分别对该待识别词对应的至少两个词向量进行命名实体识别，从而可以减少命名实体识别过程中的时间开销，提高了命名实体识别的效率。

在一些示例中，上述的神经网络命名实体识别模型，可以包括：循环神经网络命名实体识别模型、卷积神经网络命名实体识别模型、深度神经网络命名实体识别模型以及条件随机场模型中的至少一个或组合。

相应于上述的方法实施例，本发明实施例还提供了一种命名实体识别装置，如图4所示，为本发明实施例的一种命名实体识别装置的结构示意图，在图4中，该装置可以包括：

分词模块410，用于对待识别文本进行分词，得到多个待识别词；

向量合成模块420，用于在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量，并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，其中，每个待识别词在至少两个预设向量库中的词向量不同，至少两个预设向量库包括通用领域向量库和特定领域向量库；

命名实体识别模块430，用于将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出待识别文本对应的实体类别标签序列。

通过本发明实施例的一种命名实体识别装置，可以在进行命名实体识别时，首先对待识别文本进行分词，得到多个待识别词，然后在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量，并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，最后，将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出待识别文本对应的实体类别标签序列，该实体类别标签序列可以反映识别出的命名实体所属的实体类别。由于该至少两个预设向量库包括通用领域向量库和特定领域向量库，因此，每个待识别词的合成词向量同时包括了在通用领域的向量和在特定领域的向量，在将每个待识别词的合成词向量，输入训练得到的神经网络命名实体识别模型进行命名实体识别时，可以更准确的识别出待识别文本中，属于特定领域的命名实体。从而可以提高识别特定领域的命名实体的准确度。

具体的，本发明实施例的一种命名实体识别装置还包括：预设向量库建立模块，用于：

具体的，本发明实施例的一种命名实体识别装置还包括：模型训练模块，用于：

具体的，向量合成模块420，具体用于：

具体的，神经网络命名实体识别模型包括：循环神经网络命名实体识别模型、卷积神经网络命名实体识别模型、深度神经网络命名实体识别模型以及条件随机场模型中的至少一个或组合。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器510、通信接口520、存储器530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信，

存储器530，用于存放计算机程序；

处理器510，用于执行存储器530上所存放的程序时，实现如下步骤：

对待识别文本进行分词，得到多个待识别词；

通过本发明实施例的一种电子设备，可以在进行命名实体识别时，首先对待识别文本进行分词，得到多个待识别词，然后在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量，并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，最后，将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出待识别文本对应的实体类别标签序列，该实体类别标签序列可以反映识别出的命名实体所属的实体类别。由于该至少两个预设向量库包括通用领域向量库和特定领域向量库，因此，每个待识别词的合成词向量同时包括了在通用领域的向量和在特定领域的向量，在将每个待识别词的合成词向量，输入训练得到的神经网络命名实体识别模型进行命名实体识别时，可以更准确的识别出待识别文本中，属于特定领域的命名实体。从而可以提高识别特定领域的命名实体的准确度。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的命名实体识别方法。

通过本发明实施例的一种计算机可读存储介质，可以在进行命名实体识别时，首先对待识别文本进行分词，得到多个待识别词，然后在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量，并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，最后，将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出待识别文本对应的实体类别标签序列，该实体类别标签序列可以反映识别出的命名实体所属的实体类别。由于该至少两个预设向量库包括通用领域向量库和特定领域向量库，因此，每个待识别词的合成词向量同时包括了在通用领域的向量和在特定领域的向量，在将每个待识别词的合成词向量，输入训练得到的神经网络命名实体识别模型进行命名实体识别时，可以更准确的识别出待识别文本中，属于特定领域的命名实体。从而可以提高识别特定领域的命名实体的准确度。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的命名实体识别方法。

通过本发明实施例的一种包含指令的计算机程序产品，可以在进行命名实体识别时，首先对待识别文本进行分词，得到多个待识别词，然后在至少两个预设向量库中查询多个待识别词中每个待识别词对应的至少两个待识别词向量，并将多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，最后，将每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出待识别文本对应的实体类别标签序列，该实体类别标签序列可以反映识别出的命名实体所属的实体类别。由于该至少两个预设向量库包括通用领域向量库和特定领域向量库，因此，每个待识别词的合成词向量同时包括了在通用领域的向量和在特定领域的向量，在将每个待识别词的合成词向量，输入训练得到的神经网络命名实体识别模型进行命名实体识别时，可以更准确的识别出待识别文本中，属于特定领域的命名实体。从而可以提高识别特定领域的命名实体的准确度。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种命名实体识别方法，其特征在于，所述方法包括：

对待识别文本进行分词，得到多个待识别词；

在至少两个预设向量库中查询所述多个待识别词中每个待识别词对应的至少两个待识别词向量，并将所述多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出所述每个待识别词的合成词向量，其中，所述每个待识别词在所述至少两个预设向量库中的词向量不同，所述至少两个预设向量库包括通用领域向量库和特定领域向量库；

将所述每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出所述待识别文本对应的实体类别标签序列。

2.根据权利要求1所述的方法，其特征在于，建立所述至少两个预设向量库的过程，包括：

针对每个预设向量库，获取建立该预设向量库的训练语料，通过word2vec训练模型或GloVe训练模型对所述训练语料进行训练，得到所述训练语料的词向量；

将所述训练语料和所述训练语料的词向量存储在预设数据库中，得到该预设向量库。

3.根据权利要求1所述的方法，其特征在于，训练得到所述注意力模型和所述神经网络命名实体识别模型的过程，包括：

获取训练文本，将所述训练文本分词，得到所述训练文本的多个样本词，并在所述至少两个预设向量库中查询所述多个样本词中每个样本词对应的至少两个样本词向量；

获取所述训练文本的多个样本词的命名实体，将所述每个样本词对应的至少两个样本词向量，作为注意力模型和神经网络命名实体识别模型的训练输入量，根据所述多个样本词的命名实体，并通过神经网络BP算法，训练得到所述注意力模型和所述神经网络命名实体识别模型。

4.根据权利要求1所述的方法，其特征在于，所述将所述多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出每个待识别词的合成词向量，包括：

将所述多个待识别词中每个待识别词对应的至少两个待识别词向量输入以下训练得到的注意力模型中：

输出所述多个待识别词的合成词向量G中每个待识别词的合成词向量g_k；

其中，所述为所述多个样本词的第i个词向量，所述为第k个样本词的第i个词向量，所述为第m个样本词的第i个词向量，所述为所述第k个样本词的第j个词向量，所述为所述第m个样本词的第j个词向量，1≤i≤n，2≤n，1≤k≤m，1≤m，所述n为所述的总数，所述m为所述多个样本词的总数，所述i,j,k,m,n均为正整数，所述A为所述注意力模型参数数值，所述G＝[g₁,g₂,…,g_k,…,g_m]，所述g_k为所述第k个样本词的合成词向量，所述g_m为所述第m个样本词的合成词向量。

5.根据权利要求1～4任一项所述的方法，其特征在于，所述神经网络命名实体识别模型包括：循环神经网络命名实体识别模型、卷积神经网络命名实体识别模型、深度神经网络命名实体识别模型以及条件随机场模型中的至少一个或组合。

6.一种命名实体识别装置，其特征在于，所述装置包括：

向量合成模块，用于在至少两个预设向量库中查询所述多个待识别词中每个待识别词对应的至少两个待识别词向量，并将所述多个待识别词中每个待识别词对应的至少两个待识别词向量输入训练得到的注意力模型中，输出所述每个待识别词的合成词向量，其中，所述每个待识别词在所述至少两个预设向量库中的词向量不同，所述至少两个预设向量库包括通用领域向量库和特定领域向量库；

命名实体识别模块，用于将所述每个待识别词的合成词向量输入训练得到的神经网络命名实体识别模型中，输出所述待识别文本对应的实体类别标签序列。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：预设向量库建立模块，用于：

针对每个预设向量库，获取建立该预设向量库的训练语料，通过word2vec训练模型或GloVe训练模型对所述训练语料进行训练，得到所述训练语料的词向量；将所述训练语料和所述训练语料的词向量存储在预设数据库中，得到该预设向量库。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：模型训练模块，用于：

9.根据权利要求6所述的装置，其特征在于，所述向量合成模块，具体用于：

10.根据权利要求6～9任一项所述的装置，其特征在于，所述神经网络命名实体识别模型包括：循环神经网络命名实体识别模型、卷积神经网络命名实体识别模型、深度神经网络命名实体识别模型以及条件随机场模型中的至少一个或组合。

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。