CN112329465A

CN112329465A - 一种命名实体识别方法、装置及计算机可读存储介质

Info

Publication number: CN112329465A
Application number: CN201910650142.5A
Authority: CN
Inventors: 张永伟; 童毅轩; 刘柏延; 姜珊珊; 董滨
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2021-02-05
Also published as: EP3767516A1

Abstract

本发明提供了一种命名实体识别方法、装置及计算机可读存储介质。本发明提供的命名实体识别方法，在多头注意力训练中，将词向量中的某个头部的内部特征和该头部的上下文特征结合，作为该头部的新表示，从而可以更好的表达单词的特征信息，由于在命名实体识别中充分利用了单词内部的上下文信息，本发明实施例能够提高命名实体识别的准确性。

Description

一种命名实体识别方法、装置及计算机可读存储介质

技术领域

本发明涉及自然语言处理(NLP，Natural Language Processing)技术领域，具体涉及一种命名实体识别方法、装置及计算机可读存储介质。

背景技术

在人工智能领域，信息提取技术是一项不可或缺的重要技术。目前，信息提取技术主要包括三种算法。第一种是基于知识图谱的抽取算法。该抽取算法需要知识库图谱的数据与规则支持。建立知识图谱需要耗费大量人力资源，而最终获得的数据量却并不理想。第二种是基于传统统计机器学习算法的抽取算法，该算法可以使用手动标记的训练数据，应用不同的学习模型，以应对不同的场景，该算法存在人工成本高和推广性差的缺点，使得其在广泛应用时遇到瓶颈。最后一种算法是近年来流行的使用神经网络模型的算法。与传统的机器学习算法相比，使用了大规模的训练数据集的基于神经网络的模型，在自然语言处理任务中展现了优异的性能。

命名实体识别(NER，Named Entity Recognition)是自然语言处理中常见的一项任务，命名实体在很多应用中被作为语义表示的基本单元，其使用的范围非常广，因此命名实体识别技术具有重要作用。命名实体通常指的是文本中具有特别意义或者指代性非常强的实体，通常包括人名、地名、机构名、时间和专有名词等。命名实体识别技术起着重要作用，因为命名实体在很多任务中被作为语义表示的基本单元。可见，高精度的命名实体识别方法，在开发高性能翻译，对话，舆情监测，主题跟踪以及语义理解等系统中具有重要意义。

发明内容

本发明实施例要解决的技术问题是提供一种命名实体识别方法及装置，提高命名实体识别的准确性。

根据本发明实施例的一个方面，提供了一种命名实体识别方法，包括：

针对训练语句中的每个单词，获取所述单词的位置编码向量和词向量并合并，得到所述单词的第一特征向量，以及，根据包括所述单词在内的上下文是否存在于预设实体字典中，生成所述单词的第二特征向量；

将所述单词的第一特征向量输入神经网络模型中的多头注意力模型，训练得到所述单词的语义信息特征，以及，将所述单词的第二特征向量输入神经网络模型中的注意力模型，训练得到所述单词的实体边界特征，其中，所述多头注意力模型用于将所述第一特征向量分割为多个头，训练并合并每个头的注意力表示，每个头的注意力表示是对该头的自注意力表示以及除该头以外的剩余头的自注意力表示合并后得到的；

合并所述单词的语义信息特征和实体边界特征，得到所述单词的输出特征，并根据所述训练语句中各个单词的输出特征进行命名实体识别。

此外，根据本发明至少一个实施例，获取所述单词的位置编码特征向量，包括：

按照第一公式

生成所述位置编码向量的偶数位元素，以及，按照第二公式

生成所述位置编码向量的奇数位元素，其中，pos表示所述单词在所述训练语句中的位置，i表示偶数位元素或奇数位元素所对应的维度，d_model表示所述词向量的维度。

此外，根据本发明至少一个实施例，所述单词的词向量是根据词到向量word2vec算法、卷积神经网络CNN、递归神经网络RNN、双向编码器表示BERT算法或随机初始化算法训练得到的。

此外，根据本发明至少一个实施例，根据包括所述单词在内的上下文是否存在于预设实体字典中，生成所述单词的第二特征向量，包括：

根据所述训练语句中预设长度的上下文，是否存在于所述实体字典中，得到所述单词的独热编码，其中，所述实体字典包括有多个参考实体，所述上下文中包括有所述单词，且以所述单词为边界；

获得不同长度的上下文下方所述单词的独热编码并进行拼接，得到所述单词的第二特征向量。

此外，根据本发明至少一个实施例，合并所述单词的语义信息特征和实体边界特征，得到所述单词的输出特征，包括：

将所述语义信息特征的隐藏层状态与所述实体边界特征的隐藏层状态合并，得到所述单词的隐藏层状态。

此外，根据本发明至少一个实施例，根据所述训练语句中各个单词的输出特征进行命名实体识别，包括：

基于所述训练语句各个单词的隐藏层状态，生成所述训练语句的分段序列，并将所述分段序列输入至所述神经网络模型的输出层softmax层，对所述神经网络模型进行训练，并基于最大似然估计算法，获得所述softmax层输出的具有最高条件概率的结果，作为所述训练语句的各个分段序列所属的命名实体及其概率。

此外，根据本发明至少一个实施例，在训练所述神经网络模型之后，所述方法还包括：

利用训练得到的所述神经网络模型，对待识别语句进行命名实体的识别和标注。

本发明实施例还提供了一种命名实体识别装置，包括：

第一向量生成单元，用于针对训练语句中的每个单词，获取所述单词的位置编码向量和词向量并合并，得到所述单词的第一特征向量；

第二向量生成单元，用于根据包括所述单词在内的上下文是否存在于预设实体字典中，生成所述单词的第二特征向量；

第一特征训练单元，用于将所述单词的第一特征向量输入神经网络模型中的多头注意力模型，训练得到所述单词的语义信息特征，其中，所述多头注意力模型用于将所述第一特征向量分割为多个头，训练并合并每个头的注意力表示，每个头的注意力表示是对该头的自注意力表示以及除该头以外的剩余头的自注意力表示合并后得到的；

第二特征训练单元，用于将所述单词的第二特征向量输入神经网络模型中的注意力模型，训练得到所述单词的实体边界特征；

识别单元，用于合并所述单词的语义信息特征和实体边界特征，得到所述单词的输出特征，并根据所述训练语句中各个单词的输出特征进行命名实体识别。

此外，根据本发明至少一个实施例，所述第二向量生成单元，还用于根据所述训练语句中预设长度的上下文，是否存在于所述实体字典中，得到所述单词的独热编码，其中，所述实体字典包括有多个参考实体，所述上下文中包括有所述单词，且以所述单词为边界；获得不同长度的上下文下方所述单词的独热编码并进行拼接，得到所述单词的第二特征向量。

此外，根据本发明至少一个实施例，所述识别单元，还用于将所述语义信息特征的隐藏层状态与所述实体边界特征的隐藏层状态合并，得到所述单词的隐藏层状态。

本发明实施例还提供了一种命名实体识别装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的命名实体识别方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的命名实体识别方法的步骤。

与现有技术相比，本发明实施例提供的命名实体识别方法、装置及计算机可读存储介质，在多头注意力训练中，将词向量中的某个头部的内部特征和该头部的上下文特征结合，作为该头部的新表示，从而可以更好的表达单词的特征信息，由于在命名实体识别中充分利用了单词内部的上下文信息，本发明实施例能够提高命名实体识别的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的命名实体识别方法的一种流程示意图；

图2为本发明实施例中生成第二特征向量的一个示例图；

图3为本发明实施例中对第一特征向量进行分割的示例图；

图4为本发明实施例中基于第一、第二特征向量进行训练的示例图；

图5为本发明实施例的命名实体识别装置的一种结构示意图；

图6为本发明实施例的命名实体识别装置的另一结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

请参照图1，给出了本发明实施例提供的命名实体识别方法的一种流程示意图，该命名实体识别方法能够提高命名实体识别的准确性。如图1所示，本发明实施例提供的命名实体识别方法包括：

步骤11，针对训练语句中的每个单词，获取所述单词的位置编码向量和词向量并合并，得到所述单词的第一特征向量，以及，根据包括所述单词在内的上下文是否存在于预设实体字典中，生成所述单词的第二特征向量。

这里，训练语句为预先收集的训练数据中的句子，所述训练数据通常包括多个训练语句。利用所述训练语句对神经网络模型进行训练，从而在获得训练好的神经网络模型之后，可以利用该神经网络模型对待识别语句进行命名实体的识别。

在本发明实施例的步骤11中，针对训练语句中的每个单词，需要获取所述单词的位置编码向量和词向量。为了提高处理效率，步骤11中可以直接利用预先训练好的词向量(Word Embedding)。具体的，词向量通常可以采用诸如词到向量(word2vec)算法、卷积神经网络(CNN)、递归神经网络RNN、双向编码器表示(BERT，Bidirectional EncoderRepresentation from Transformers)算法或随机初始化等算法训练得到的。位置编码向量包含有所述单词在所述训练语句中的位置特征信息。作为一种实现方式，位置编码向量可以参考transformer模型中的生成算法，如，按照第一公式

生成所述位置编码向量的偶数位元素，按照第二公式

生成所述位置编码向量的奇数位元素，其中，pos表示所述单词在所述训练语句中的位置，i表示偶数位元素或奇数位元素所对应的维度，d_model表示所述词向量的维度。此时，位置编码向量是一个与词向量相同维度的向量，且其中的每个元素的取值范围均为-1～1。

另外，需要说明的是，以上提供的位置编码的生成算法，仅为本发明实施例生成位置编码的一种方式，其他更多的算法可以参考Jonas Gehring等在卷积序列到序列训练(Convolutionalsequence to sequence learning.arXiv preprint arXiv:1705.03122v2,2017)一文，本发明实施例不再赘述。

在本发明实施例中，获得所述单词的位置编码向量和词向量之后，对所述单词的位置编码向量和词向量进行合并，具体的合并方式包括但不限于向量相加和向量拼接，其中，所述向量拼接是指把两个向量的首尾相连以得到一个更高维度的向量，例如，在两个特征向量均为20维时，在进行向量拼接后可以得到一个40维的向量。本发明实施例在此采用向量相加的方式，将所述单词的位置编码向量和词向量相加，得到同一维度的第一特征向量，此时，该第一特征向量既包括有词向量的特征信息，还包括有所述单词在训练语句中的位置特征信息。

在步骤11中，还生成了所述单词的第二特征向量。具体的，根据所述训练语句中的预设长度的上下文，是否存在于所述实体字典中，得到所述单词的独热编码，即，基于该上下文的所述单词的独热编码。其中，所述实体字典包括有多个参考实体，所述上下文中包括有所述单词，且以所述单词为边界。所述预设长度可以是1～N，这里，N可以根据所述实体字典内的参考实体的最大长度N＇以及对运算量的要求等因素进行设置，例如设置成N＇或接近于N＇的一个整数。然后，对获得的不同长度的上下文下方所述单词的独热编码并进行拼接，得到所述单词的第二特征向量。即，对基于不同长度的上下文的所述单词的独热编码进行拼接，将拼接所得到的向量，作为所述单词的第二特征向量。

例如，对于一个给定的句子X＝(x₁,x₂,…,x_n)和一个实体词典，其中，x₁,x₂,…,x_n分别表示句子中顺序排序的单词。首先使用预先定义的上下文模板，基于包含有单词x_i的N元组(N-gram)构造上下文模板。表1中给出了上下文模板的一个示例。

N元组	上下文模板
		1元组	x<sub>i</sub>
2元组	x<sub>i-1</sub>x<sub>i</sub>,x<sub>i</sub>x<sub>i+1</sub>
		3元组	x<sub>i-2</sub>x<sub>i-1</sub>x<sub>i</sub>,x<sub>i</sub>x<sub>i+1</sub>x<sub>i+2</sub>
…	…
		N元组	x<sub>i-n+1</sub>x<sub>i-n+2</sub>…x<sub>i</sub>,x<sub>i</sub>x<sub>i+1</sub>…x<sub>i+n-1</sub>

表1

对于各个上下文模板的文本段，可以生成一个二进制值来指示该文本段是否是实体字典中的参考实体。然后，将基于所有的上下文模板所生成的二进制值进行拼接，可以生成一个(2N-1)维的向量(即本文所述的第二特征向量)，该第二特征向量包含有从实体字典中提取的实体边界信息。

图2给出了生成第二特征向量的一个具体示例，其中，以句子“This statementwas issued by the Federal Government of the United States”中的单词“Federal”为例进行说明。按照不同长度的上下文模板，可以获得包括该单词“Federal”在内，且以该单词为边界的多种不同长度的上下文：

1元组的上下文：“Federal”；

2元组的上下文：“the Federal”和“Federal Government”；

3元组的上下文：“by the Federal”和“Federal Government of”；

……

6元组的上下文：“statement was issued by the Federal”和“FederalGovernment of the United States”。

通过分别判断以上各个上下文是否存在于一个预先获得的实体字典中，生成在每个上下文下该单词所对应的编码，例如，若存在于实体字典中，则编码为1，否则编码为0，从而可以获得如图2所示的一个11维的第二特征向量。

步骤12，将所述单词的第一特征向量输入神经网络模型中的多头注意力模型，训练得到所述单词的语义信息特征，以及，将所述单词的第二特征向量输入神经网络模型中的注意力模型，训练得到所述单词的实体边界特征。其中，所述多头注意力模型用于将所述单词的第一特征向量分割为多个头，训练并合并每个头的注意力表示，每个头的注意力表示是对该头的自注意力表示以及除该头以外的剩余头的自注意力表示合并后得到的。

也就是说，本发明实施例在训练某个头的注意力表示时，除了计算该头的自注意力表示外，还会将第一特征向量中除该头外的剩余头的自注意力表示，并将该头的注意力表示和剩余头的子注意力表示进行合并，并将合并结果作为该头的注意力表示，然后，将第一特征向量的各个头的注意力表示合并，从而得到所述单词的语义信息特征，该语义信息特征可以通过隐藏层状态表示。具体的，上述合并方式包括向量拼接或向量相加。

图3给出了上述多头注意力模型训练的一个示例，将维度为d_model的第一特征向量Vec分割为h个头，每个头表示为S_i，即Vec＝Concat(S₁,S₂,…,S_h)，每个头的维度

然后，针对每个头，分别从第一特征向量中移除该头，得到维度

的剩余头S′_i，每个剩余头为第一特征向量中除该头以外的头拼接而成的向量，即S′_i＝Concat(S₁,S₂,…,S_i-1,S_i+1,…,S_h)。分别对S_i和S′_i进行自注意力计算，并将计算结果做拼接，将拼接结果作为输入向量第i个头的注意力结果。然后，将第一特征向量的每个头的注意力结果做拼接，作为当前输入的注意力表示。

自注意力计算是基于编码器的输入向量(如第一特征向量)生成3个向量，分别为查询向量Q、键向量K和值向量V，代表了query、key-value对。Q、K、V通常是由输入向量乘以不同维度的权重矩阵生成。根据query和key相似度计算注意力权重，然后根据注意力权重对value进行加权即得到注意力。注意力的计算公式为：

d_k为Q和K的维度

关于注意力计算的更多细节可以参考现有技术的介绍，本文不再详细说明。

通过以上对多头的处理，本发明实施例将每个头的内部特征(该头的自注意力表示)和上下文特征(剩余头的自注意力表示)结合起来，作为每个头的新表示，该新表示可以更为准确的表达单词的特征信息，有利于提高命名实体的识别准确性。

另外，步骤12中，还将所述单词的第二特征向量输入神经网络模型中的注意力模型，训练得到所述单词的实体边界特征，该实体边界特征可以通过隐藏层状态表示。这里，由于第二特征向量的长度通常较小，因此可以直接采用自注意力模型进行训练。

步骤13，合并所述单词的语义信息特征和实体边界特征，得到所述单词的输出特征，并根据所述训练语句中各个单词的输出特征进行命名实体识别。

这里，可以将所述语义信息特征的隐藏层状态与所述实体边界特征的隐藏层状态合并(具体可以是向量拼接或向量相加)，得到所述单词的隐藏层状态，作为所述单词的输出特征。图4给出了以上训练过程的一个示例，将单词的词向量与位置编码向量相加，然后输入多头注意力模型进行训练，得到输出结果

将第二特征向量输入注意力模型进行训练，得到输出结果

将

和

结合，结合的结果h_i作为训练语句第i个单词的最终隐藏层状态表示，从而可以获得所述训练语句输入模型后输出的隐藏层状态序列表示，即所述训练语句中各个单词的隐藏层状态所组成的序列(h₀，h₁，…，h_n)。

然后，根据所述训练语句中各个单词的隐藏层状态所组成的序列，生成所述训练语句的分段序列，并将所述分段序列输入至所述神经网络模型的输出层(softmax)层，对所述神经网络模型进行训练，并基于最大似然估计算法，选择使似然率最大的参数，从而获得所述softmax层输出的具有最高条件概率的结果，作为所述训练语句的各个分段序列所属的命名实体及其概率。

例如，对于具有预测标记序列y＝(y₁,y₂,…,y_n)的训练语句x＝(x₁,x₂,…,x_n)，其预测分数可定义为公式

其中

表示将x_i分类到第y_i个标签的打分值。P_i可定义为公式P_i＝W_sh_i+b_s，其中

W_s和b_s是模型的可训练参数。

训练语句x被标注为序列y的概率则可以计算为

Y_x为训练语句x所有可能的标签序列

这里可以使用最大似然估计算法，最大化标签序列

的似然率对数

然后，在标签序列中找到最高条件概率的y来对序列进行标签标注：

通过以上步骤，本发明实施例在多头注意力训练中，将词向量中的某个头部的内部特征和该头部的上下文特征结合，作为该头部的新表示，从而可以更好的表达单词的特征信息，由于在命名实体识别中充分利用了单词内部的上下文信息，本发明实施例能够提高命名实体识别的准确性。

在上述步骤13之后，本发明实施例还可以将训练得到的所述神经网络模型应用于具体的命名实体识别任务中，例如，对待处理语句中的命名实体进行识别和标注。由于本发明实施例在训练生成神经网络模型时引入了词向量内部的上下文信息，其所训练得到的神经网络模型具有较好的实体识别效果，可以提高实体识别的准确性。

基于以上方法，本发明实施例还提供了实施上述方法的装置，请参考图5，本发明实施例提供的命名实体识别装置50，该命名实体识别装置50可以应用于各种命名实体识别场景中，能够提高命名实体识别的准确性。如图5所示，该命名实体识别装置50具体包括：

第一向量生成单元51，用于针对训练语句中的每个单词，获取所述单词的位置编码向量和词向量并合并，得到所述单词的第一特征向量；

第二向量生成单元52，用于根据包括所述单词在内的上下文是否存在于预设实体字典中，生成所述单词的第二特征向量；

第一特征训练单元53，用于将所述单词的第一特征向量输入神经网络模型中的多头注意力模型，训练得到所述单词的语义信息特征，其中，所述多头注意力模型用于将所述第一特征向量分割为多个头，训练并合并每个头的注意力表示，每个头的注意力表示是对该头的自注意力表示以及除该头以外的剩余头的自注意力表示合并后得到的；

第二特征训练单元54，用于将所述单词的第二特征向量输入神经网络模型中的注意力模型，训练得到所述单词的实体边界特征；

识别单元55，用于合并所述单词的语义信息特征和实体边界特征，得到所述单词的输出特征，并根据所述训练语句中各个单词的输出特征进行命名实体识别。

此外，根据本发明至少一个实施例，所述第一向量生成单元51，还用于按照第一公式

生成所述位置编码向量的偶数位元素，以及，按照第二公式

可选的，所述单词的词向量是根据词到向量word2vec算法、卷积神经网络CNN、递归神经网络RNN、双向编码器表示BERT算法或随机初始化算法训练得到的。

此外，根据本发明至少一个实施例，所述第二向量生成单元52，还用于根据所述训练语句中预设长度的上下文，是否存在于所述实体字典中，得到所述单词的独热编码，其中，所述实体字典包括有多个参考实体，所述上下文中包括有所述单词，且以所述单词为边界；获得不同长度的上下文下方所述单词的独热编码并进行拼接，得到所述单词的第二特征向量。

此外，根据本发明至少一个实施例，所述识别单元55，还用于将所述语义信息特征的隐藏层状态与所述实体边界特征的隐藏层状态合并，得到所述单词的隐藏层状态。

此外，根据本发明至少一个实施例，所述识别单元55，还用于基于所述训练语句各个单词的隐藏层状态，生成所述训练语句的分段序列，并将所述分段序列输入至所述神经网络模型的输出层softmax层，对所述神经网络模型进行训练，并基于最大似然估计算法，获得所述softmax层输出的具有最高条件概率的结果，作为所述训练语句的各个分段序列所属的命名实体及其概率。

此外，根据本发明至少一个实施例，所述命名实体识别装置50还可以包括以下单元(图5中未示出)：

标注单元，用于利用训练得到的所述神经网络模型，对待识别语句进行命名实体的识别和标注。

通过以上单元，本发明实施例的命名实体识别装置可以将词向量内部的上下文特征引入到命名实体识别中，从而提高了命名实体识别的准确性。

请参考图6，本发明实施例还提供了命名实体识别装置的一种硬件结构框图，如图6所示，该命名实体识别装置600包括：

处理器602；和

存储器604，在所述存储器604中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器602执行以下步骤：

进一步地，如图6所示，该命名实体识别装置600还可以包括网络接口601、输入设备603、硬盘605、和显示设备606。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是包括任意数量的互联的总线和桥。具体由处理器602代表的一个或者多个中央处理器(CPU)，以及由存储器604代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口601，可以连接至网络(如因特网、局域网等)，从网络中接收数据(如训练语句)，并可以将接收到的数据保存在硬盘605中。

所述输入设备603，可以接收操作人员输入的各种指令，并发送给处理器602以供执行。所述输入设备603可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等)。

所述显示设备606，可以将处理器602执行指令获得的结果进行显示，例如显示命名实体识别的结果等。

所述存储器604，用于存储操作系统运行所必须的程序和数据，以及处理器602计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器604可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器604旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器604存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统6041和应用程序6042。

其中，操作系统6041，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序6042，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6042中。

本发明上述实施例揭示的命名实体识别方法可以应用于处理器602中，或者由处理器602实现。处理器602可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述命名实体识别方法的各步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器602可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器604，处理器602读取存储器604中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，所述计算机程序被处理器602执行时还可实现如下步骤：

按照第一公式

生成所述位置编码向量的偶数位元素，以及，按照第二公式

根据所述训练语句中预设长度的上下文，是否存在于所述实体字典中，得到所述单词的独热编码，其中，所述实体字典包括有多个参考实体，所述上下文中包括有所述单词，且以所述单词为边界；获得不同长度的上下文下方所述单词的独热编码并进行拼接，得到所述单词的第二特征向量。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的命名实体识别方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁盘或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种命名实体识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，获取所述单词的位置编码特征向量，包括：

按照第一公式

生成所述位置编码向量的偶数位元素，以及，按照第二公式

3.如权利要求1所述的方法，其特征在于，所述单词的词向量是根据词到向量word2vec算法、卷积神经网络CNN、递归神经网络RNN、双向编码器表示BERT算法或随机初始化算法训练得到的。

4.如权利要求1所述的方法，其特征在于，根据包括所述单词在内的上下文是否存在于预设实体字典中，生成所述单词的第二特征向量，包括：

5.如权利要求1所述的方法，其特征在于，合并所述单词的语义信息特征和实体边界特征，得到所述单词的输出特征，包括：

6.如权利要求5所述的方法，其特征在于，根据所述训练语句中各个单词的输出特征进行命名实体识别，包括：

7.如权利要求6所述的方法，其特征在于，在训练所述神经网络模型之后，所述方法还包括：

8.一种命名实体识别装置，其特征在于，包括：

9.如权利要求8所述的命名实体识别装置，其特征在于，

所述第二向量生成单元，还用于根据所述训练语句中预设长度的上下文，是否存在于所述实体字典中，得到所述单词的独热编码，其中，所述实体字典包括有多个参考实体，所述上下文中包括有所述单词，且以所述单词为边界；获得不同长度的上下文下方所述单词的独热编码并进行拼接，得到所述单词的第二特征向量。

10.如权利要求8所述的命名实体识别装置，其特征在于，

所述识别单元，还用于将所述语义信息特征的隐藏层状态与所述实体边界特征的隐藏层状态合并，得到所述单词的隐藏层状态。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的命名实体识别方法的步骤。