CN113743116A

CN113743116A - 命名实体识别的训练方法、装置及计算机可读存储介质

Info

Publication number: CN113743116A
Application number: CN202010471116.9A
Authority: CN
Inventors: 张永伟; 丁磊; 姜珊珊; 董滨; 张佳师
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2021-12-03

Abstract

本发明提供了一种命名实体识别的训练方法、装置及计算机可读存储介质。本发明提供的命名实体识别的训练方法，在命名实体识别的训练过程中，使用自注意力机制自动字的词边界特征，从而无需依赖其他分词工具或词典就可以在命名实体识别中引入词边界特征信息，简化了命名实体识别的实现，提高了训练得到的模型对命名实体识别的识别效率和识别准确性。

Description

命名实体识别的训练方法、装置及计算机可读存储介质

技术领域

本发明涉及自然语言处理(NLP，Natural Language Processing)技术领域，具体涉及一种命名实体识别的训练方法、装置及计算机可读存储介质。

背景技术

在人工智能领域，信息提取技术是一项不可或缺的重要技术。目前，信息提取技术主要包括三种算法。第一种是基于知识图谱的抽取算法。该抽取算法需要知识库图谱的数据与规则支持。建立知识图谱需要耗费大量人力资源，而最终获得的数据量却并不理想。第二种是基于传统统计机器学习算法的抽取算法，该算法可以使用手动标记的训练数据，应用不同的学习模型，以应对不同的场景，该算法存在人工成本高和推广性差的缺点，使得其在广泛应用时遇到瓶颈。最后一种算法是近年来流行的使用神经网络模型的算法。与传统的机器学习算法相比，使用了大规模的训练数据集的基于神经网络的模型，在自然语言处理任务中展现了优异的性能。

命名实体识别(NER，Named Entity Recognition)是自然语言处理中常见的一项任务，命名实体在很多应用中被作为语义表示的基本单元，其使用的范围非常广，因此命名实体识别技术具有重要作用。命名实体通常指的是文本中具有特别意义或者指代性非常强的实体，通常包括人名、地名、机构名、时间和专有名词等。命名实体识别技术起着重要作用，因为命名实体在很多任务中被作为语义表示的基本单元。可见，高精度的命名实体识别方法，在开发高性能翻译，对话，舆情监测，主题跟踪以及语义理解等系统中具有重要意义。

发明内容

本发明实施例要解决的技术问题是提供一种命名实体识别的训练方法、装置及计算机可读存储介质，能够提高训练得到的模型对命名实体识别的识别效率和识别准确性。

根据本发明实施例的一个方面，提供了一种命名实体识别的训练方法，包括：

将训练语句中的字转换为字向量，输入至双向长短期记忆Bi-LSTM模型，获得由各个时间步在正向方向上的第一隐藏层状态所组成的第一序列和在反向方向上的第二隐藏层状态所组成的第二序列；

针对每个时间步，从所述第一序列中选择出以该时间步对应的第一隐藏层状态为结尾的预设数量的第一隐藏层状态，作为该时间步对应的第一子序列；计算所述第一子序列中的各个第一隐藏层状态，与所述第一子序列中的最后一个第一隐藏层状态之间的第一相关性；根据所述第一相关性，生成所述第一子序列中的第一隐藏层状态的加权组合向量，作为以该时间步对应的字为词结束边界的第一边界特征；

针对每个时间步，从所述第二序列中选择出以该时间步对应的第二隐藏层状态为起始的所述预设数量的第二隐藏层状态，作为该时间步对应的第二子序列；计算所述第二子序列中的各个第二隐藏层状态，与所述第二子序列中的最后一个第二隐藏层状态之间的第二相关性；根据所述第二相关性，生成所述第二子序列中的第二隐藏层状态的加权组合向量，作为以该时间步对应的字为词起始边界的第二边界特征；

将同一时间步对应的所述第一隐藏层状态、第二隐藏层状态、第一边界特征和第二边界特征进行拼接后，作为该时间步的最终隐藏层状态，并将所述最终隐藏层状态输入至条件随机场模型进行命名实体识别的训练。

此外，根据本发明至少一个实施例，所述计算所述第一子序列中的各个第一隐藏层状态，与所述第一子序列中的最后一个第一隐藏层状态之间的第一相关性的步骤，包括：利用第一自注意力模型，计算所述第一子序列中的各个第一隐藏层状态与所述第一子序列中的最后一个第一隐藏层状态之间的相关性并进行归一化处理，得到所述第一相关性；

所述计算所述第二子序列中的各个第二隐藏层状态，与所述第二子序列中的最后一个第二隐藏层状态之间的第二相关性的步骤，包括：利用第二自注意力模型，计算所述第二子序列中的各个第二隐藏层状态与所述第二子序列中的第一个第二隐藏层状态之间的相关性并进行归一化处理，得到所述第二相关性。

此外，根据本发明至少一个实施例，所述根据所述第一相关性，生成所述第一子序列中的第一隐藏层状态的加权组合向量，作为以该时间步对应的字为词结束边界的第一边界特征的步骤，包括：根据所述第一相关性，对所述第一子序列中的各个第一隐藏层状态对应的子序列向量进行加权求和，得到所述第一边界特征，其中，各个第一隐藏层状态对应的子序列向量是所述第一序列中以该第一隐藏层状态为结尾的预设数量的第一隐藏层状态所组成的向量；

所述根据所述第二相关性，生成所述第二子序列中的第二隐藏层状态的加权组合向量，作为以该时间步对应的字为词起始边界的第二边界特征的步骤，包括：根据所述第二相关性，对所述第二子序列中的各个第二隐藏层状态对应的子序列向量进行加权求和，得到所述第二边界特征，其中，各个第二隐藏层状态对应的子序列向量是所述第二序列中以该第二隐藏层状态为起始的预设数量的第二隐藏层状态所组成的向量。

此外，根据本发明至少一个实施例，所述将所述最终隐藏层状态输入至条件随机场模型进行命名实体识别的训练的步骤，包括：将每个时间步对应的所述最终隐藏层状态输入到条件随机场模型中，利用训练数据中每个字对应的命名实体的标签，计算条件随机场的损失，并将条件随机场的损失作为整个神经网络模型的损失，进行联合模型的训练，所述联合模型包括双向Bi-LSTM模型、第一自注意力模型、第二注意力模型和条件随机场模型。

此外，根据本发明至少一个实施例，所述方法还包括：

利用训练得到的所述联合模型，对待识别语句进行命名实体的识别。

此外，根据本发明至少一个实施例，在将训练语句转换为字向量，输入至双向长短期记忆Bi-LSTM模型的步骤之前，所述方法还包括：根据已标注命名实体的数据集，构造一个基于字的字典，并为所述字典中的每个字分配一个唯一的标识ID号；对所述字典中的每个字所对应的ID号进行向量转换，生成该字的字向量；

所述将训练语句中的字转换为字向量的步骤，包括：根据所述字典中各个字的字向量，将所述训练语句中的每个字转换为对应的字向量。

根据本发明实施例的另一方面，还提供了一种命名实体识别的训练装置，包括：

序列生成模块，用于将训练语句中的字转换为字向量，输入至双向长短期记忆Bi-LSTM模型，获得由各个时间步在正向方向上的第一隐藏层状态所组成的第一序列和在反向方向上的第二隐藏层状态所组成的第二序列；

第一边界特征生成模块，用于针对每个时间步，从所述第一序列中选择出以该时间步对应的第一隐藏层状态为结尾的预设数量的第一隐藏层状态，作为该时间步对应的第一子序列；计算所述第一子序列中的各个第一隐藏层状态，与所述第一子序列中的最后一个第一隐藏层状态之间的第一相关性；根据所述第一相关性，生成所述第一子序列中的第一隐藏层状态的加权组合向量，作为以该时间步对应的字为词结束边界的第一边界特征；

第二边界特征生成模块，用于针对每个时间步，从所述第二序列中选择出以该时间步对应的第二隐藏层状态为起始的所述预设数量的第二隐藏层状态，作为该时间步对应的第二子序列；计算所述第二子序列中的各个第二隐藏层状态，与所述第二子序列中的最后一个第二隐藏层状态之间的第二相关性；根据所述第二相关性，生成所述第二子序列中的第二隐藏层状态的加权组合向量，作为以该时间步对应的字为词起始边界的第二边界特征；

模型训练模块，用于将同一时间步对应的所述第一隐藏层状态、第二隐藏层状态、第一边界特征和第二边界特征进行拼接后，作为该时间步的最终隐藏层状态，并将所述最终隐藏层状态输入至条件随机场模型进行命名实体识别的训练。

此外，根据本发明至少一个实施例，所述第一边界特征生成模块，还用于利用第一自注意力模型，计算所述第一子序列中的各个第一隐藏层状态与所述第一子序列中的最后一个第一隐藏层状态之间的相关性并进行归一化处理，得到所述第一相关性；

所述第二边界特征生成模块，还用于利用第二自注意力模型，计算所述第二子序列中的各个第二隐藏层状态与所述第二子序列中的第一个第二隐藏层状态之间的相关性并进行归一化处理，得到所述第二相关性。

此外，根据本发明至少一个实施例，所述第一边界特征生成模块，还用于根据所述第一相关性，对所述第一子序列中的各个第一隐藏层状态对应的子序列向量进行加权求和，得到所述第一边界特征，其中，各个第一隐藏层状态对应的子序列向量是所述第一序列中以该第一隐藏层状态为结尾的预设数量的第一隐藏层状态所组成的向量；

所述第二边界特征生成模块，还用于根据所述第二相关性，对所述第二子序列中的各个第二隐藏层状态对应的子序列向量进行加权求和，得到所述第二边界特征，其中，各个第二隐藏层状态对应的子序列向量是所述第二序列中以该第二隐藏层状态为起始的预设数量的第二隐藏层状态所组成的向量。

此外，根据本发明至少一个实施例，所述模型训练模块，还用于将每个时间步对应的所述最终隐藏层状态输入到条件随机场模型中，利用训练数据中每个字对应的命名实体的标签，计算条件随机场的损失，并将条件随机场的损失作为整个神经网络模型的损失，进行联合模型的训练，所述联合模型包括双向Bi-LSTM模型、第一自注意力模型、第二注意力模型和条件随机场模型。

此外，根据本发明至少一个实施例，所述训练装置还包括：

命名实体识别模块，用于利用训练得到的所述联合模型，对待识别语句进行命名实体的识别。

本发明实施例还提供了一种命名实体识别的训练装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的命名实体识别的训练方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的命名实体识别的训练方法的步骤。

与现有技术相比，本发明实施例提供的命名实体识别的训练方法、装置及计算机可读存储介质，使用自注意力机制自动学习字的词边界特征信息，从而无需依赖其他分词工具或词典就可以在命名实体识别中引入词边界特征信息，简化了命名实体识别的实现，提高了命名实体识别效率和准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的命名实体识别的训练方法的一种流程示意图；

图2为本发明实施例基于第一序列中生成第一边界特征的一个示例图；

图3为本发明实施例基于第二序列中生成第二边界特征的一个示例图；

图4为本发明实施例的命名实体识别的训练装置的一种结构示意图；

图5为本发明实施例的命名实体识别的训练装置的另一种结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明实施例提供的命名实体识别的训练方法，特别适用于没有明显分词特征的语言中进行命名实体识别，例如，对包括有中文、日文或韩文等语句进行命名实体识别，该方法能够简化命名实体识别的实现，提高命名实体识别的效率。请参照图1，给出了本发明实施例提供的命名实体识别的训练方法的一种流程示意图，如图1所示，该训练方法包括：

步骤11，将训练语句中的字转换为字向量，输入至双向长短期记忆(Bi-LSTM，Bi-directional Long Short-Term Memory)模型，获得由各个时间步在正向方向上的第一隐藏层状态所组成的第一序列和在反向方向上的第二隐藏层状态所组成的第二序列。

这里，在上述步骤11之前，本发明实施例还可以根据已标注命名实体的数据集，构造一个基于字的字典，并为所述字典中的每个字分配一个唯一的标识ID号；对所述字典中的每个字所对应的ID号进行向量转换，生成该字的字向量。

例如，在获得所述数据集之后，本发明实施例可以统计所述数据集中的各个字的出现频次，并将出现频次大于某个预设门限的字加入到该字典中，从而生成了一个基于字的字典。在获得上述字典后，本发明实施例可以为字典中的每个字分配一个唯一的标识(ID)号，用于代表该字。然后，对所述字典中的每个字所对应的ID号进行向量转换，生成该字的字向量。具体的，本发明实施例可以采用诸如词到向量(word2vec)算法、卷积神经网络(CNN)、递归神经网络(RNN)、双向编码器表示(BERT，Bidirectional EncoderRepresentation from Transformers)算法或随机初始化等算法，对上述ID号进行向量转换，生成字对应的向量，即字向量。

这样，在上述步骤11中，本发明实施例可以根据所述字典中各个字的字向量，将所述训练语句中的每个字转换为对应的字向量。

本发明实施例将训练语句中的字转换为字向量，这样训练语句可以转换为包括一个或多个字向量的字向量序列，将上述字向量序列输入至Bi-LSTM模型。Bi-LSTM模型可以生成上述字向量序列在正向方向和反向方向上的隐藏层状态(隐藏层状态通常为一个多维向量)，每个时间步输出一个正向和反向的隐藏层状态，这样，可以获得由各个时间步在正向方向上的第一隐藏层状态所组成的第一序列，以及，由各个时间步在反向方向上的第二隐藏层状态所组成的第二序列。

例如，对于包含有n个字的训练语句X＝(x₁,x₂,…,x_n)，第t个字对应的d维字向量为x_t。将上述训练语句转换为字向量组成的字向量序列，输入至Bi-LSTM模型，可以获得两个方向上的隐藏层状态序列

和

其中，

表示在正向方向上字向量x_t对应的第一隐藏层状态，

表示在反向方向上字向量x_t对应的第二隐藏层状态。

Bi-LSTM模型计算指定时间步(如字向量x_t对应的时间步t)的隐藏层状态的具体方式如下：

f_t＝σ(W_f[h_t-1,x_t]+b_f)

i_t＝σ(W_i[h_t-1,x_t]+b_i)

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t⊙tanh(c_t)

其中，W_f、b_f、W_i、b_i、W_c、b_c、W_o、b_o均为模型训练时的模型参数。关于Bi-LSTM模型的更多细节可以参考相关现有技术的介绍，为节约篇幅，本文不再详细说明。

步骤12，针对每个时间步，从所述第一序列中选择出以该时间步对应的第一隐藏层状态为结尾的预设数量的第一隐藏层状态，作为该时间步对应的第一子序列；计算所述第一子序列中的各个第一隐藏层状态，与所述第一子序列中的最后一个第一隐藏层状态之间的第一相关性；根据所述第一相关性，生成所述第一子序列中的第一隐藏层状态的加权组合向量，作为以该时间步对应的字为词结束边界的第一边界特征。

这里，本发明实施例利用预设长度l的第一窗口，对第一序列中的隐藏层状态进行截取，第一窗口的长度l是指该第一窗口内的第一隐藏层状态的数量。利用所述第一窗口从第一序列截取出l个第一隐藏层状态，然后，分别计算第一窗口内的每个第一隐藏层状态与该第一窗口内的最后一个第一隐藏层状态的相关性(为了便于描述，这里称之为第一相关性)，进而根据所述第一相关性，对所述第一子序列中的各个第一隐藏层状态对应的子序列向量进行加权求和(即，对所述第一窗口内的各个第一隐藏层状态对应的子序列向量进行加权求和)，得到一个加权组合向量，该向量可以作为增强当前字作为词结束边界的第一边界特征，这里，当前字是指该第一窗口内的最后一个第一隐藏层状态对应的字。每个第一隐藏层状态的权重与所述第一相关性正相关。某个第一隐藏层状态对应的子序列向量是指，所述第一序列中以该第一隐藏层状态为结尾的预设数量的第一隐藏层状态所组成的向量。

例如，假设训练语句X＝(x₁,x₂,…,x_n)包括有n个字，其中，x₁,x₂,…x_t…,x_n分别表示训练句子中顺序排序的字所对应的字向量，

表示在正向方向上字向量x_t对应的第一隐藏层状态，

表示在反向方向上字向量x_t对应的第二隐藏层状态。所述第一序列可以表示为

所述第二序列可以表示为

假设第一窗口长度用l表示。

表示以

为结尾的第一窗口内的l个第一隐藏层状态所组成的第一子序列向量，

表示

以为起始的第一窗口内的l个第二隐藏层状态所组成的第二子序列向量。

如图2所示，假设正向方向的第一序列共有9个第一隐藏层状态，分别为

第一窗口的长度l＝4。利用该第一窗口，从第一序列的第一个隐藏层状态

开始，分别截取4个第一隐藏层状态。其中，当第一窗口在位置201时，此时窗口以

为结尾，第一窗口内仅包括1个第一隐藏层状态，此处可以通过补位方式加入3个第一隐藏层状态(补位的隐藏层状态可以是全0向量)，以得到

所对应的子序列向量

类似的，对于位置203～203也可以通过补位方式生成对应的子序列向量。对于位置204或205等，由于第一窗口内已包括有第一序列中的4个第一隐藏层状态，因此可以直接得到

所对应的第一子序列为

而

所对应的子序列向量为

以及，

所对应的第一子序列为

而

所对应的子序列向量为

等等。

以第一子序列为

子序列向量

为例，可以分别计算该第一子序列中的每个第一隐藏层状态(即

)与最后一个第一隐藏层状态(即

)之间的相关性，然后，按照相关性对该第一子序列中的所有第一隐藏层状态所对应的字序列向量进行加权求和，从而得到以

对应的字作为词结束边界的第一边界特征。

具体的，本发明实施例可以利用第一自注意力模型，计算所述第一子序列中的各个第一隐藏层状态与所述第一子序列中的最后一个第一隐藏层状态之间的相关性并进行归一化处理，得到所述第一相关性。所述第一自注意力模型以

的第一窗口内的子序列作为输入，生成用于增强每个时间步长的字作为词结束边界的第一边界特征，这里，将所生成的第一边界特征表示为E，E＝(E₁,E₂,…E_t,…,E_n)。其中，E_t的一种具体计算方式如下：

以正向的第一序列

作为输入，设置窗口大小l，以当前时间步的第一隐藏层状态作为窗口的结尾(即窗口内的最后一个隐藏层状态)，基于注意力模型计算当前时间步的第一隐藏层状态和窗口内各个时间步的第一隐藏层状态之间的相关性，然后得到当前时间步的隐藏层状态和各个时间步的第一隐藏层状态的加权组合向量，作为增强当前字作为词结尾边界的特征向量(第一边界特征)。

其中，当前时间步的第一隐藏层状态与窗口内的各个时间步的第一隐藏层状态之间的第一相关性计算如下：

其中

表示窗口内的第一隐藏层状态组成的向量(以当前时间步的第一隐藏层状态作为结尾)；w₁,w₂为第一自注意力模型的权重矩阵。

用于增强当前字作为词结尾边界的第一边界特征的一种计算方式如下：

其中

表示以

为结尾的窗口内的第一隐藏层状态所组成的子序列向量，l表示窗口大小，

表示

中的第l个值。

步骤13，针对每个时间步，从所述第二序列中选择出以该时间步对应的第二隐藏层状态为起始的所述预设数量的第二隐藏层状态，作为该时间步对应的第二子序列；计算所述第二子序列中的各个第二隐藏层状态，与所述第二子序列中的最后一个第二隐藏层状态之间的第二相关性；根据所述第二相关性，生成所述第二子序列中的第二隐藏层状态的加权组合向量，作为以该时间步对应的字为词起始边界的第二边界特征。

这里，类似的，本发明实施例利用所述预设长度l的第二窗口，对第二序列中的隐藏层状态进行截取，第二窗口的长度l是指该第二窗口内的第二隐藏层状态的数量。利用所述第二窗口从第一序列截取出l个第二隐藏层状态，然后，分别计算第一窗口内的每个第二隐藏层状态与该第二窗口内的第一个第二隐藏层状态的相关性(为了便于描述，这里称之为第二相关性)，进而根据所述第二相关性，对所述第二子序列中的各个第二隐藏层状态对应的子序列向量进行加权求和(即，对所述第二窗口内的各个第二隐藏层状态对应的子序列向量进行加权求和)，得到一个加权组合向量，该向量可以作为增强当前字作为词起始边界的第二边界特征，这里，当前字是指该第二窗口内的第一个第二隐藏层状态对应的字。每个第二隐藏层状态的权重与所述第二相关性正相关。某个第二隐藏层状态对应的子序列向量是指：所述第二序列中以该第二隐藏层状态为起始的预设数量的第二隐藏层状态所组成的向量。

如图3所示，假设反向方向的第二序列共有9个第一隐藏层状态，分别为

第二窗口的长度l＝4。利用该第二窗口，从第二序列的第一个隐藏层状态

开始，分别截取4个第二隐藏层状态。其中，当第二窗口在位置301时，此时以

为起始的第二窗口内包括4个第二隐藏层状态，分别为

因此可以得到

所对应的第二子序列为

而

所对应的子序列向量为

类似的，可以获得

所对应的第二子序列为

所对应的子序列向量为

类似的，当第二窗口内的第二隐藏层状态的数量不够时，也可以通过补位方式补齐。

具体的，本发明实施例可以利用第二自注意力模型，计算所述第二子序列中的各个第二隐藏层状态与所述第二子序列中的第一个第二隐藏层状态之间的相关性并进行归一化处理，得到所述第二相关性。所述第二自注意力模型以

的第二窗口内的子序列作为输入，生成用于增强每个时间步长的字作为词起始边界的第二边界特征。

这里，将所生成的第二边界特征表示为B，B＝(B₁,B₂,…B_t,…,B_n)。B_t的一种具体计算如下：

以反向的第二序列

作为输入，设置窗口大小l，以当前时间步的第二隐藏层状态作为窗口的开始，基于注意力模型计算当前时间步的第二隐藏层状态和窗口内的各个时间步的第二隐藏层状态之间的相关性，然后得到当前时间步的第二隐藏层状态和各个时间步的第二隐藏层状态的加权组合向量，作为增强当前字作为词开始边界的特征向量(第二边界特征)。

其中，当前时间步的第二隐藏层状态与窗口内的各个时间步的第二隐藏层状态之间的第二相关性计算如下：

其中

表示窗口内的第二隐藏层状态组成的向量(以当前时间步的第二隐藏层状态作为起始)；w₃,w₄为第二自注意力模型的权重矩阵。需要说明的是，本发明实施例的计算第一相关性和第二相关性时可以采用相互独立的自注意力模型，也可以采用共享同一模型参数的自注意力模型，此时，w₁＝w₃，w₂＝w₄。

用于增强当前字作为词起始边界的第二边界特征的一种计算方式如下：

其中

表示以

为开始的窗口内第二隐藏层状态所组成的的子序列向量，l表示窗口大小，

表示

中的第l个值。

步骤14，将同一时间步对应的所述第一隐藏层状态、第二隐藏层状态、第一边界特征和第二边界特征进行拼接后，作为该时间步的最终隐藏层状态，并将所述最终隐藏层状态输入至条件随机场模型进行命名实体识别的训练。

这里，将所述双向LSTM在两个方向上每个时间步的隐藏层状态(即上文的第一隐藏层状态和第二隐藏层状态)，与用于增强每个字作为词结束边界的第一边界特征以及用于增强每个字作为词起始边界的第二边界特征进行拼接后，生成每个时间步对应的最终隐藏层状态h_t，具体的：

即本发明实施例中的自注意力模型层的最终输出为：H＝(h₁,h₂,…h_t,…,h_n)，将上述最终输出输入至条件随机场(CRF，Conditional Random Fields)模型进行命名实体识别的训练。

具体的，可以将每个时间步对应的所述最终隐藏层状态输入到条件随机场模型中，利用训练数据中每个字对应的命名实体的标签，计算条件随机场的损失，并将条件随机场的损失作为整个神经网络模型的损失，进行联合模型的训练，所述联合模型包括双向Bi-LSTM模型、第一自注意力模型、第二注意力模型和条件随机场模型。

例如，对于一个给定的句子X＝(x₁,x₂,…,x_n)，具有预测标记序列y＝(y₁,y₂,…,y_n)，其预测分数可定义为：

其中A为转移得分矩阵，A_i,j表示标签i到标签j的转移得分。

表示x_t映射到标记y_t的得分。P_t可精确定义为公式P_t＝W_sh_t+b_s，其中h_t为Bi-LSTM的隐藏层状态输出，W_s和b_s是模型的可训练参数。

句子X被标注为序列y的概率可以计算为

Y_X为给定的句子X所有可能的标注序列

这里可以使用最大似然估计最大化标注序列

的似然率对数

在解码时找到最高条件概率的y作为序列化标注的输出y^*：

这里，可以基于训练语句集进行多轮训练，直至达到预设的训练结束条件(收敛条件)，得到最终的最优模型。

通过以上步骤，本发明实施例使用自注意力机制自动学习字的词边界特征信息，无需依赖其他分词工具或词典，提升了词边界特征的生成效率，简化了命名实体识别的实现，提高了命名实体识别效率。

在上述步骤14之后，本发明实施例还可以利用训练得到的联合模型，对待识别语句进行命名实体的识别。例如，在进行命名实体标注时，可以在解码时找到最高条件概率的y来序列化标注的输出。由于本发明实施例通过自注意力机制引入了词边界特征信息，其所训练得到的模型具有较好的标注效果，可以提高命名实体识别的准确性。

基于以上方法，本发明实施例还提供了实施上述方法的装置，请参考图4，本发明实施例提供的命名实体识别的训练装置400，该命名实体识别的训练装置400可以应用于各种命名实体识别场景中，能够简化命名实体识别模型的训练，提高命名实体识别的效率和准确性。如图4所示，该命名实体识别的训练装置400具体包括：

序列生成模块401，用于将训练语句中的字转换为字向量，输入至双向长短期记忆Bi-LSTM模型，获得由各个时间步在正向方向上的第一隐藏层状态所组成的第一序列和在反向方向上的第二隐藏层状态所组成的第二序列；

第一边界特征生成模块402，用于针对每个时间步，从所述第一序列中选择出以该时间步对应的第一隐藏层状态为结尾的预设数量的第一隐藏层状态，作为该时间步对应的第一子序列；计算所述第一子序列中的各个第一隐藏层状态，与所述第一子序列中的最后一个第一隐藏层状态之间的第一相关性；根据所述第一相关性，生成所述第一子序列中的第一隐藏层状态的加权组合向量，作为以该时间步对应的字为词结束边界的第一边界特征；

第二边界特征生成模块403，用于针对每个时间步，从所述第二序列中选择出以该时间步对应的第二隐藏层状态为起始的所述预设数量的第二隐藏层状态，作为该时间步对应的第二子序列；计算所述第二子序列中的各个第二隐藏层状态，与所述第二子序列中的最后一个第二隐藏层状态之间的第二相关性；根据所述第二相关性，生成所述第二子序列中的第二隐藏层状态的加权组合向量，作为以该时间步对应的字为词起始边界的第二边界特征；

模型训练模块404，用于将同一时间步对应的所述第一隐藏层状态、第二隐藏层状态、第一边界特征和第二边界特征进行拼接后，作为该时间步的最终隐藏层状态，并将所述最终隐藏层状态输入至条件随机场模型进行命名实体识别的训练。

通过以上模型，本发明实施例的命名实体识别的训练装置，可以提高了训练得到的模型对命名实体识别的识别效率和识别准确性。

可选的，所述第一边界特征生成模块402，还用于利用第一自注意力模型，计算所述第一子序列中的各个第一隐藏层状态与所述第一子序列中的最后一个第一隐藏层状态之间的相关性并进行归一化处理，得到所述第一相关性；

所述第二边界特征生成模块403，还用于利用第二自注意力模型，计算所述第二子序列中的各个第二隐藏层状态与所述第二子序列中的第一个第二隐藏层状态之间的相关性并进行归一化处理，得到所述第二相关性。

可选的，所述第一边界特征生成模块402，还用于根据所述第一相关性，对所述第一子序列中的各个第一隐藏层状态对应的子序列向量进行加权求和，得到所述第一边界特征，其中，各个第一隐藏层状态对应的子序列向量是所述第一序列中以该第一隐藏层状态为结尾的预设数量的第一隐藏层状态所组成的向量；

所述第二边界特征生成模块403，还用于根据所述第二相关性，对所述第二子序列中的各个第二隐藏层状态对应的子序列向量进行加权求和，得到所述第二边界特征，其中，各个第二隐藏层状态对应的子序列向量是所述第二序列中以该第二隐藏层状态为起始的预设数量的第二隐藏层状态所组成的向量。

可选的，所述模型训练模块404，还用于将每个时间步对应的所述最终隐藏层状态输入到条件随机场模型中，利用训练数据中每个字对应的命名实体的标签，计算条件随机场的损失，并将条件随机场的损失作为整个神经网络模型的损失，进行联合模型的训练，所述联合模型包括双向Bi-LSTM模型、第一自注意力模型、第二注意力模型和条件随机场模型。

可选的，所述训练装置还包括：

字向量生成模块，用于根据已标注命名实体的数据集，构造一个基于字的字典，并为所述字典中的每个字分配一个唯一的标识ID号；对所述字典中的每个字所对应的ID号进行向量转换，生成该字的字向量。

所述序列生成模块401，还用于根据所述字典中各个字的字向量，将所述训练语句中的每个字转换为对应的字向量。

请参考图5，本发明实施例还提供了命名实体识别的训练装置的一种硬件结构框图，如图5所示，该命名实体识别的训练装置500包括：

处理器502；和

存储器504，在所述存储器504中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器502执行以下步骤：

进一步地，如图5所示，该命名实体识别的训练装置500还可以包括网络接口501、输入设备503、硬盘505、和显示设备506。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是包括任意数量的互联的总线和桥。具体由处理器502代表的一个或者多个具有计算能力的处理器，所述处理器可以包括中央处理器(CPU,Central Processing Unit)和/或图形处理器(GPU，Graphics Processing Unit)，以及由存储器504代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口501，可以连接至网络(如因特网、局域网等)，从网络中接收数据(如训练语句)，并可以将接收到的数据保存在硬盘505中。

所述输入设备503，可以接收操作人员输入的各种指令，并发送给处理器502以供执行。所述输入设备503可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等)。

所述显示设备506，可以将处理器502执行指令获得的结果进行显示，例如显示命名实体识别的结果等。

所述存储器504，用于存储操作系统运行所必须的程序和数据，以及处理器502计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器504可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器504旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器504存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统5041和应用程序5042。

其中，操作系统5041，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5042，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5042中。

本发明上述实施例揭示的命名实体识别的训练方法可以应用于处理器502中，或者由处理器502实现。处理器502可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述命名实体识别的训练方法的各步骤可以通过处理器502中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器502可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器504，处理器502读取存储器504中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，所述计算机程序被处理器502执行时还可实现如下步骤：

利用第一自注意力模型，计算所述第一子序列中的各个第一隐藏层状态与所述第一子序列中的最后一个第一隐藏层状态之间的相关性并进行归一化处理，得到所述第一相关性；

利用第二自注意力模型，计算所述第二子序列中的各个第二隐藏层状态与所述第二子序列中的第一个第二隐藏层状态之间的相关性并进行归一化处理，得到所述第二相关性。

根据所述第一相关性，对所述第一子序列中的各个第一隐藏层状态对应的子序列进行加权求和，得到所述第一边界特征；

根据所述第二相关性，对所述第二子序列中的各个第二隐藏层状态对应的子序列进行加权求和，得到所述第二边界特征。

将每个时间步对应的所述最终隐藏层状态输入到条件随机场模型中，利用训练数据中每个字对应的命名实体的标签，计算条件随机场的损失，并将条件随机场的损失作为整个神经网络模型的损失，进行联合模型的训练，所述联合模型包括双向Bi-LSTM模型、第一自注意力模型、第二注意力模型和条件随机场模型。

在将训练语句转换为字向量，输入至双向长短期记忆Bi-LSTM模型之前，根据已标注命名实体的数据集，构造一个基于字的字典，并为所述字典中的每个字分配一个唯一的标识ID号；对所述字典中的每个字所对应的ID号进行向量转换，生成该字的字向量；以及，

根据所述字典中各个字的字向量，将所述训练语句中的每个字转换为对应的字向量。

在本发明的一些实施例中，还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现以下步骤：

该程序被处理器执行时能实现上述命名实体识别的训练方法中的所有实现方式，且能达到相同的技术效果，为避免重复，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的命名实体识别的训练方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁盘或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种命名实体识别的训练方法，其特征在于，包括：

2.如权利要求1所述的训练方法，其特征在于，

所述计算所述第一子序列中的各个第一隐藏层状态，与所述第一子序列中的最后一个第一隐藏层状态之间的第一相关性的步骤，包括：利用第一自注意力模型，计算所述第一子序列中的各个第一隐藏层状态与所述第一子序列中的最后一个第一隐藏层状态之间的相关性并进行归一化处理，得到所述第一相关性；

3.如权利要求2所述的训练方法，其特征在于，

所述根据所述第一相关性，生成所述第一子序列中的第一隐藏层状态的加权组合向量，作为以该时间步对应的字为词结束边界的第一边界特征的步骤，包括：根据所述第一相关性，对所述第一子序列中的各个第一隐藏层状态对应的子序列向量进行加权求和，得到所述第一边界特征，其中，各个第一隐藏层状态对应的子序列向量是所述第一序列中以该第一隐藏层状态为结尾的预设数量的第一隐藏层状态所组成的向量；

4.如权利要求3所述的训练方法，其特征在于，

所述将所述最终隐藏层状态输入至条件随机场模型进行命名实体识别的训练的步骤，包括：将每个时间步对应的所述最终隐藏层状态输入到条件随机场模型中，利用训练数据中每个字对应的命名实体的标签，计算条件随机场的损失，并将条件随机场的损失作为整个神经网络模型的损失，进行联合模型的训练，所述联合模型包括双向Bi-LSTM模型、第一自注意力模型、第二注意力模型和条件随机场模型。

5.如权利要求4所述的训练方法，其特征在于，还包括：

6.如权利要求1至5任一项所述的训练方法，其特征在于，

在将训练语句转换为字向量，输入至双向长短期记忆Bi-LSTM模型的步骤之前，所述方法还包括：根据已标注命名实体的数据集，构造一个基于字的字典，并为所述字典中的每个字分配一个唯一的标识ID号；对所述字典中的每个字所对应的ID号进行向量转换，生成该字的字向量；

7.一种命名实体识别的训练装置，其特征在于，包括：

8.如权利要求7所述的训练装置，其特征在于，

所述第一边界特征生成模块，还用于利用第一自注意力模型，计算所述第一子序列中的各个第一隐藏层状态与所述第一子序列中的最后一个第一隐藏层状态之间的相关性并进行归一化处理，得到所述第一相关性；

9.如权利要求8所述的训练装置，其特征在于，

所述第一边界特征生成模块，还用于根据所述第一相关性，对所述第一子序列中的各个第一隐藏层状态对应的子序列向量进行加权求和，得到所述第一边界特征，其中，各个第一隐藏层状态对应的子序列向量是所述第一序列中以该第一隐藏层状态为结尾的预设数量的第一隐藏层状态所组成的向量；

10.如权利要求9所述的训练装置，其特征在于，

所述模型训练模块，还用于将每个时间步对应的所述最终隐藏层状态输入到条件随机场模型中，利用训练数据中每个字对应的命名实体的标签，计算条件随机场的损失，并将条件随机场的损失作为整个神经网络模型的损失，进行联合模型的训练，所述联合模型包括双向Bi-LSTM模型、第一自注意力模型、第二注意力模型和条件随机场模型。

11.如权利要求10所述的训练装置，其特征在于，还包括：

12.一种命名实体识别的训练装置，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的命名实体识别的训练方法的步骤。