CN111160032A

CN111160032A - 一种命名实体提取方法、装置、电子设备及存储介质

Info

Publication number: CN111160032A
Application number: CN201911303013.5A
Authority: CN
Inventors: 刘伟棠; 李保敏; 何林强
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-05-15
Anticipated expiration: 2039-12-17
Also published as: CN111160032B

Abstract

本发明公开了一种命名实体提取方法、装置、电子设备及存储介质，由于在本发明实施例中，首先基于预先训练完成的命名实体提取模型，根据第一文本序列中每个第一目标文字的第一语义表示向量，提取第一文本序列中每个第一目标文字的开始边界标签，然后将预测开始边界标签时每个第一目标文字的每个第一标签概率与每个第一目标文字的第一语义表示向量进行拼接，得到第二语义表示向量，根据第二语义表示向量中每个第一目标文字的每个第一标签概率，可以确定每个实体开始边界的位置，考虑到每个实体开始边界的位置得出每个第一目标文字的结束边界标签，可以使得同一实体的结束边界位置在开始边界位置之后，从而提高了命名实体提取的准确性。

Description

一种命名实体提取方法、装置、电子设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种命名实体提取方法、装置、电子设备及存储介质。

背景技术

命名实体提取作为信息提取的基石，是研究如何从文本中抽取出人名、地名、机构名等特定的实体并将其以结构化的形式呈现出来，对于问答、检索、知识图谱等技术的发展具有重要的意义。目前命名实体提取的技术方案一般包括：

1、使用BiLSTM+CRF模型将命名实体提取任务作为序列标记任务。该方法存在的问题是，无法提取嵌套实体，所谓嵌套实体是指一个实体中包含另一个实体，例如“浙江大学”为一个组织机构实体，但是其中又包含一个位置实体“浙江”。

2、结合使用激活学习和深度学习，采用sequence to sequence模式解决命名实体提取问题，分别使用CNN和LSTM作为编码器和解码器，并引入激活学习，从而实现在小数据集下模型能够取得良好的效果。该方法仍然存在无法提取嵌套实体的问题。

3、采用BERT+BiLSTM+CRF模型识别实体边界信息，通过边界组合产生候选实体集，最后使用CNN模型对候选实体集进行筛选。该方法存在的问题是，在产生实体边界时加入标记信息，这样会产生大量的候选实体，带来较大的计算量；另外该方法确定实体边界中，有可能出现结束边界在开始边界之前的情况，因此该方法可靠性较低，得到的命名实体的准确性较差。

发明内容

本发明实施例提供了一种命名实体提取方法、装置、电子设备及存储介质，用以解决现有技术中对于嵌套命名实体提取准确性较差的问题。

本发明实施例提供了一种命名实体提取方法，所述方法包括：

将待提取的第一文本序列输入预先训练完成的命名实体提取模型；基于所述命名实体提取模型进行命名实体提取；

其中，确定所述第一文本序列中每个第一目标文字的第一语义表示向量；

根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率；根据所述每个第一目标文字的每个第一标签概率，确定所述每个第一目标文字的开始边界标签；

将所述每个第一目标文字的第一语义表示向量与对应的每个第一标签概率进行拼接得到第二语义表示向量；根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率；根据所述每个第一目标文字的每个第二标签概率，确定所述每个第一目标文字的结束边界标签；

根据所述每个第一目标文字的开始边界标签和结束边界标签，提取所述第一文本序列中的实体。

进一步地，所述确定所述第一文本序列中每个第一目标文字的第一语义表示向量包括：

根据预先保存的每个文字与向量的对应关系，确定所述第一文本序列中每个第一目标文字的初始向量；

将所述每个第一目标文字的初始向量输入预先训练完成的语义表示子模型，得到所述每个第一目标文字的第一语义表示向量。

进一步地，所述根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率包括：

根据所述每个第一语义表示向量与预先确定的第一向量的乘积，确定所述每个第一目标文字的第二向量；将所述每个第一目标文字的第二向量输入预先训练完成的开始边界检测子模型得到所述每个第一目标文字的每个第一标签概率。

进一步地，所述根据所述每个第一目标文字的每个第一标签概率，确定所述每个第一目标文字的开始边界标签包括：

针对所述每个第一目标文字，将该第一目标文字的第一标签概率大于预设的第一阈值的标签作为该第一目标文字的开始边界标签。

进一步地，所述根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率包括：

根据所述每个第二语义表示向量与预先确定的第三向量的乘积，确定所述每个第一目标文字的第四向量；将所述每个第一目标文字的第四向量输入预先训练完成的结束边界检测子模型得到所述每个第一目标文字的每个第二标签概率。

进一步地，所述根据所述每个第一目标文字的每个第二标签概率，确定所述每个第一目标文字的结束边界标签包括：

针对所述每个第一目标文字，将该第一目标文字的第二标签概率大于预设的第二阈值的标签作为该第一目标文字的结束边界标签。

进一步地，所述根据所述每个第一目标文字的开始边界标签和结束边界标签，提取所述第一文本序列中的实体包括：

依次以所述开始边界标签中的每一个标签为第一基准标签，确定所述第一基准标签对应的第一目标文字，在所述结束边界标签中由该第一目标文字起向后查找第一个与所述第一基准标签相同的第二基准标签，将所述第一基准标签和第二基准标签之间的第一目标文字确定为一个实体，该实体的标签类型为所述第一基准标签所代表的类型。

进一步地，所述开始边界检测子模型的训练过程包括：

针对训练集中的每个第二文本序列，确定该第二文本序列中的每个第二目标文字的第三语义表示向量，根据所述每个第二目标文字的第三语义表示向量与预先确定的第一向量的乘积，确定所述每个第二目标文字的第五向量；将所述每个第二目标文字的第五向量和所述每个第二目标文字的标签输入开始边界检测子模型，对所述开始边界检测子模型进行训练。

进一步地，所述结束边界检测子模型的训练过程包括：

针对训练集中的每个第二文本序列，确定该第二文本序列中的每个第二目标文字的第三语义表示向量，根据所述每个第二目标文字的第三语义表示向量和预先训练完成的开始边界检测模型得到所述每个第二目标文字的每个第三标签概率；将所述每个第二目标文字的第三语义表示向量与对应的每个第三标签概率进行拼接得到第四语义表示向量；根据所述每个第二目标文字的第四语义表示向量与预先确定的第三向量的乘积，确定所述每个第二目标文字的第六向量；将所述每个第二目标文字的第六向量和所述每个第二目标文字的标签输入结束边界检测子模型，对所述结束边界检测子模型进行训练。

另一方面，本发明实施例提供了一种命名实体提取装置，所述装置包括：

输入模块，用于将待提取的第一文本序列输入预先训练完成的命名实体提取模型；基于所述命名实体提取模型进行命名实体提取；

第一确定模块，用于确定所述第一文本序列中每个第一目标文字的第一语义表示向量；

第二确定模块，用于根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率；根据所述每个第一目标文字的每个第一标签概率，确定所述每个第一目标文字的开始边界标签；

第三确定模块，用于将所述每个第一目标文字的第一语义表示向量与对应的每个第一标签概率进行拼接得到第二语义表示向量；根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率；根据所述每个第一目标文字的每个第二标签概率，确定所述每个第一目标文字的结束边界标签；

提取模块，用于根据所述每个第一目标文字的开始边界标签和结束边界标签，提取所述第一文本序列中的实体。

进一步地，所述第一确定模块，具体用于根据预先保存的每个文字与向量的对应关系，确定所述第一文本序列中每个第一目标文字的初始向量；将所述每个第一目标文字的初始向量输入预先训练完成的语义表示子模型，得到所述每个第一目标文字的第一语义表示向量。

进一步地，所述第二确定模块，具体用于根据所述每个第一语义表示向量与预先确定的第一向量的乘积，确定所述每个第一目标文字的第二向量；将所述每个第一目标文字的第二向量输入预先训练完成的开始边界检测子模型得到所述每个第一目标文字的每个第一标签概率。

进一步地，所述第二确定模块，具体用于针对所述每个第一目标文字，将该第一目标文字的第一标签概率大于预设的第一阈值的标签作为该第一目标文字的开始边界标签。

进一步地，所述第三确定模块，具体用于根据所述每个第二语义表示向量与预先确定的第三向量的乘积，确定所述每个第一目标文字的第四向量；将所述每个第一目标文字的第四向量输入预先训练完成的结束边界检测子模型得到所述每个第一目标文字的每个第二标签概率。

进一步地，所述第三确定模块，具体用于针对所述每个第一目标文字，将该第一目标文字的第二标签概率大于预设的第二阈值的标签作为该第一目标文字的结束边界标签。

进一步地，所述实体提取模块，具体用于依次以所述开始边界标签中的每一个标签为第一基准标签，确定所述第一基准标签对应的第一目标文字，在所述结束边界标签中由该第一目标文字起向后查找第一个与所述第一基准标签相同的第二基准标签，将所述第一基准标签和第二基准标签之间的第一目标文字确定为一个实体，该实体的标签类型为所述第一基准标签所代表的类型。

进一步地，所述装置还包括：

第一训练模块，用于针对训练集中的每个第二文本序列，确定该第二文本序列中的每个第二目标文字的第三语义表示向量，根据所述每个第二目标文字的第三语义表示向量与预先确定的第一向量的乘积，确定所述每个第二目标文字的第五向量；将所述每个第二目标文字的第五向量和所述每个第二目标文字的标签输入开始边界检测子模型，对所述开始边界检测子模型进行训练。

进一步地，所述装置还包括：

第二训练模块，用于针对训练集中的每个第二文本序列，确定该第二文本序列中的每个第二目标文字的第三语义表示向量，根据所述每个第二目标文字的第三语义表示向量和预先训练完成的开始边界检测模型得到所述每个第二目标文字的每个第三标签概率；将所述每个第二目标文字的第三语义表示向量与对应的每个第三标签概率进行拼接得到第四语义表示向量；根据所述每个第二目标文字的第四语义表示向量与预先确定的第三向量的乘积，确定所述每个第二目标文字的第六向量；将所述每个第二目标文字的第六向量和所述每个第二目标文字的标签输入结束边界检测子模型，对所述结束边界检测子模型进行训练。

另一方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一项所述的方法步骤。

另一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。

本发明实施例提供了一种命名实体提取方法、装置、电子设备及存储介质，所述方法包括：将待提取的第一文本序列输入预先训练完成的命名实体提取模型；基于所述命名实体提取模型进行命名实体提取；其中，确定所述第一文本序列中每个第一目标文字的第一语义表示向量；根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率；根据所述每个第一目标文字的每个第一标签概率，确定所述每个第一目标文字的开始边界标签；将所述每个第一目标文字的第一语义表示向量与对应的每个第一标签概率进行拼接得到第二语义表示向量；根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率；根据所述每个第一目标文字的每个第二标签概率，确定所述每个第一目标文字的结束边界标签；根据所述每个第一目标文字的开始边界标签和结束边界标签，提取所述第一文本序列中的实体。

由于在本发明实施例中，首先基于预先训练完成的命名实体提取模型，根据第一文本序列中每个第一目标文字的第一语义表示向量，提取第一文本序列中每个第一目标文字的开始边界标签，然后将预测开始边界标签时每个第一目标文字的每个第一标签概率与每个第一目标文字的第一语义表示向量进行拼接，得到第二语义表示向量，根据第二语义表示向量中每个第一目标文字的每个第一标签概率，可以确定每个实体开始边界的位置，考虑到每个实体开始边界的位置得出每个第一目标文字的结束边界标签，可以使得同一实体的结束边界位置在开始边界位置之后，从而提高了命名实体提取的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的命名实体提取过程示意图；

图2为本发明实施例提供的命名实体提取流程图；

图3为本发明实施例提供的命名实体提取装置结构示意图；

图4为本发明实施例提供的电子设备结构示意图。

具体实施方式

下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的命名实体提取过程示意图，在本发明实施例中，首先将待提取的第一文本序列输入预先训练完成的命名实体提取模型；基于命名实体提取模型进行命名实体提取。其中，基于命名实体提取模型进行命名实体提取的过程包括以下步骤：

S101：确定所述第一文本序列中每个第一目标文字的第一语义表示向量。

S102：根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率；根据所述每个第一目标文字的每个第一标签概率，确定所述每个第一目标文字的开始边界标签。

S103：将所述每个第一目标文字的第一语义表示向量与对应的每个第一标签概率进行拼接得到第二语义表示向量；根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率；根据所述每个第一目标文字的每个第二标签概率，确定所述每个第一目标文字的结束边界标签。

S104：根据所述每个第一目标文字的开始边界标签和结束边界标签，提取所述第一文本序列中的实体。

本发明实施例提供的命名实体提取方法应用于电子设备，该电子设备可以是PC、平板电脑等设备。其中，本发明实施例提供的命名实体提取方法是一种基于指针结构的命名实体提取方法。

在本发明实施例中，电子设备中保存有预先训练完成的命名实体提取模型，将待提取的第一文本序列输入命名实体提取模型，基于命名实体提取模型的命名实体提取过程如下。

首先，确定出第一文本序列中每个第一目标文字的第一语义表示向量，其中，命名实体提取模型中可以包含预先训练完成的语义表示子模型，将第一文本序列中每个第一目标文字输入语义表示子模型，可以确定出每个第一目标文字的第一语义表示向量。

具体的，所述确定所述第一文本序列中每个第一目标文字的第一语义表示向量包括：

在本发明实施例中，预先保存有每个文字与向量的对应关系，例如“浙”对应的向量为“0.1258，-0.3697，……，0.4781”，“江”对应的向量为“0.2594，0.2514，……，0.2492”等。根据预先保存的每个文字与向量的对应关系，可以确定第一文本序列中每个第一目标文字的初始向量；然后将每个第一目标文字的初始向量输入预先训练完成的语义表示子模型，得到每个第一目标文字的第一语义表示向量。

在本发明实施例中，为了便于确定第一文本序列中每个第一目标文字的初始向量，电子设备可以先将第一文本序列中每个第一目标文字进行ID序列化，也就是说先将第一文本序列中每个第一目标文字转换为序列符号。例如，预先保存文字与序列符号的对应关系为：“我”：0，“在”：1，“杭”：2，“州”：3，“钱”：4，“学”：5，“森”：6，“中”：7，“读”：8，“书”：9，“unk”：10。其中“unk“代表未知文字。那么，对于“我在杭州钱学森中学读书”这样的文本序列就转化为“0，1，2，3，4，5，6，7，5，8，9，10”。再根据每个序列符号与初始向量的对应关系，确定出第一文本序列中每个第一目标文字的初始向量。

电子设备确定出第一文本序列中每个第一目标文字的第一语义表示向量之后，根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率；根据所述每个第一目标文字的每个第一标签概率，确定所述每个第一目标文字的开始边界标签。

其中，命名实体提取模型中可以包含预先训练完成的开始边界检测子模型，将每个第一目标文字的第一语义表示向量输入始边界检测子模型，可以确定出每个第一目标文字的每个第一标签概率。在本发明实施例中，标签至少包括人名实体标签、组织机构实体标签和地名实体标签。

具体的，所述根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率包括：

在本发明实施例中，预先确定的第一向量也是经过预先训练得到的。在获取第一语义表示向量时，初始化一个Embedding层，假设第一文本序列中每个第一目标文字的初始向量为300维向量，将所述每个第一目标文字的初始向量输入预先训练完成的语义表示子模型，得到所述每个第一目标文字的第一语义表示向量。假设第一语义表示向量也为300维向量，并且标签个数为4，包括人名实体标签、组织机构实体标签、地名实体标签和非实体标签。预先确定的第一向量可以为一个维度为300*4的向量，经过线性变化，也就是计算每个第一语义表示向量与预先确定的第一向量的乘积之后，得到每个第一目标文字的第二向量，然后将每个第一目标文字的第二向量输入预先训练完成的开始边界检测子模型得到所述每个第一目标文字的每个第一标签概率。即将每个第一目标文字的第二向量输入激活函数sigmoid可得到每个第一目标文字的每个第一标签概率。

在本发明实施例中，根据所述每个第一目标文字的每个第一标签概率，确定所述每个第一目标文字的开始边界标签时，可以针对每个第一目标文字，将该第一目标文字中最大的第一标签概率最为该第一目标文字的开始边界标签。

例如，“PER”表示人名实体标签，“ORG”表示组织机构实体标签，“LOC”表示地名实体标签，“O”表示非实体标签。“我在杭州钱学森中学读书”中“杭”字的每个第一标签概率为“O”为0.3，“PER”为0.4，“ORG”为0.6，“LOC”为0.7。则可以确定“杭”字的开始边界标签为“LOC”，也就是地名实体标签。

较佳的，所述根据所述每个第一目标文字的每个第一标签概率，确定所述每个第一目标文字的开始边界标签包括：

具体的，电子设备可以保存预设的第一阈值，例如预设的第一阈值为0.5，当“我在杭州钱学森中学读书”中“杭”字的每个第一标签概率为“O”为0.3，“PER”为0.4，“ORG”为0.6，“LOC”为0.7。则可以确定“杭”字的开始边界标签为“LOC”和“ORG”，也就是说“杭”字的开始边界标签为两个，分别是地名实体标签和组织机构实体标签。

在本发明实施例中，所述根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率包括：

在本发明实施例中，预先确定的第三向量也是经过预先训练得到的。在获取第一语义表示向量之后。假设第一语义表示向量为300维向量，每个第一目标文字的每个第一标签概率为4维向量，即“PER”，“ORG”，“LOC”，“O”。将所述每个第一目标文字的第一语义表示向量与对应的每个第一标签概率进行拼接得到第二语义表示向量，第二语义表示向量为300+4维向量。

例如，对于文本序列“浙江……司”确定出的每个第一目标文字的第一语义表示向量为：

文本序列“浙江……司”确定出的每个第一目标文字的每个第一标签概率为：

则拼接后得到的第二语义表示向量为：

标签个数为4，包括人名实体标签、组织机构实体标签、地名实体标签和非实体标签。预先确定的第三向量可以为一个维度为304*4的向量，经过线性变化，也就是计算每个第二语义表示向量与预先确定的第三向量的乘积之后，得到每个第一目标文字的第四向量，然后将每个第一目标文字的第四向量输入预先训练完成的结束边界检测子模型得到所述每个第一目标文字的每个第二标签概率。即将每个第一目标文字的第四向量输入激活函数sigmoid可得到每个第一目标文字的每个第二标签概率。

在本发明实施例中，根据所述每个第一目标文字的每个第二标签概率，确定所述每个第一目标文字的结束边界标签时，可以针对每个第一目标文字，将该第一目标文字中最大的第二标签概率最为该第一目标文字的开始边界标签。

较佳的，所述根据所述每个第一目标文字的每个第二标签概率，确定所述每个第一目标文字的结束边界标签包括：

具体的，电子设备可以保存预设的第二阈值，其中，预设的第二阈值与预设的第一阈值可以相同或不同。每个第一目标文字的结束边界标签可以为一个标签也可以为多个标签。

在本发明实施例中，所述根据所述每个第一目标文字的开始边界标签和结束边界标签，提取所述第一文本序列中的实体包括：

例如，确定第一文本序列“我在杭州钱学森中学读书”的开始边界预测序列为[“O”，“O”，“[LOC、ORG]”，“O”，“PER”，“O”，“O”，“O”，“O”，“O”，“O”]，结束边界预测序列为[“O”，“O”，“O”，“LOC”，“O”，“O”，“PER”，“O”，“ORG”，“O”，“O”]，则依次以开始边界预测序列中的每一个标签为基准标签，在结束边界预测序列中的相应位置开始进行匹配，当匹配到第一个与基准标签相同的标签时停止匹配，此时两个标签之间的内容为一个实体，且其实体类型为标签所代表的类型。以开始边界预测序列中“[LOC、ORG]”包含的“LOC”为基准标签，其所对应位置为“杭”，在结束边界预测序列中相对应的位置开始进行匹配，匹配到的第一个为标签为“LOC”的位置为“州”，则将“杭州”作为类型为“LOC”的实体，其余依此类推，得到“杭州钱学森中学”为“ORG”类型的实体，“钱学森”为“PER”类型的实体。

在本发明实施例中，所述开始边界检测子模型的训练过程包括：

所述结束边界检测子模型的训练过程包括：

需要说明的是，本发明实施例中的命名实体提取模型中包括语义表示子模型、第一向量、第三向量、开始边界检测子模型和结束边界检测子模型，预先对命名实体提取模型进行训练的过程包括预先对语义表示子模型、第一向量、第三向量、开始边界检测子模型和结束边界检测子模型训练的过程。

具体的，电子设备中保存有训练集，根据训练集中的每个第二文本序列对命名实体提取模型进行训练。在训练开始边界检测子模型时，针对训练集中的每个第二文本序列，根据语义表示子模型确定该第二文本序列中的每个第二目标文字的第三语义表示向量，根据每个第二目标文字的第三语义表示向量与预先确定的第一向量的乘积，确定所述每个第二目标文字的第五向量；将所述每个第二目标文字的第五向量和所述每个第二目标文字的标签输入开始边界检测子模型，对所述开始边界检测子模型进行训练。

需要说明的是，每个第二目标文字的标签也可以用标签序列来表示，例如，以“我在杭州钱学森中学读书”为训练集中的文本序列为例，以字粒度为分析对象，则序列可以转化为[“我”，“在”，“杭”，“州”，“钱”，“学”，“森”，“中”，“学”，“读”，“书”]，对应的开始边界标签序列为[“O”，“O”，“[LOC、ORG]”，“O”，“PER”，“O”，“O”，“O”，“O”，“O”，“O”]，对应的结束边界标签序列为[“O”，“O”，“O”，“LOC”，“O”，“O”，“PER”，“O”，“ORG”，“O”，“O”]。假设标签映射关系为{“O”:0,“PER”:1,“ORG”:2,“LOC”:3}，那么可以得到开始边界的标签id序列为[0，0，[2、3]，0，1，0，0，0，0，0，0]，对应的结束边界的标签id序列为[0，0，0，3，0，0，1，0，0，0，2]。

根据每个第二目标文字的第五向量和所述每个第二目标文字的标签输入开始边界检测子模型，对所述开始边界检测子模型进行训练。

对结束边界检测子模型进行训练时，还以训练集中的每个第二文本序列进行训练，首先针对训练集中的每个第二文本序列，根据语义表示子模型确定该第二文本序列中的每个第二目标文字的第三语义表示向量，根据所述每个第二目标文字的第三语义表示向量和预先训练完成的开始边界检测模型得到所述每个第二目标文字的每个第三标签概率。然后将每个第二目标文字的第三语义表示向量与对应的每个第三标签概率进行拼接得到第四语义表示向量；根据每个第二目标文字的第四语义表示向量与预先确定的第三向量的乘积，确定所述每个第二目标文字的第六向量；将所述每个第二目标文字的第六向量和所述每个第二目标文字的标签输入结束边界检测子模型，对所述结束边界检测子模型进行训练。

图2为本发明实施例提供的命名实体提取流程图，包括以下步骤：

S201：根据预先保存的每个文字与向量的对应关系，确定所述第一文本序列中每个第一目标文字的初始向量；将所述每个第一目标文字的初始向量输入预先训练完成的语义表示子模型，得到所述每个第一目标文字的第一语义表示向量。

S202：根据所述每个第一语义表示向量与预先确定的第一向量的乘积，确定所述每个第一目标文字的第二向量；将所述每个第一目标文字的第二向量输入预先训练完成的开始边界检测子模型得到所述每个第一目标文字的每个第一标签概率。

S203：针对所述每个第一目标文字，将该第一目标文字的第一标签概率大于预设的第一阈值的标签作为该第一目标文字的开始边界标签。

S204：根据所述每个第二语义表示向量与预先确定的第三向量的乘积，确定所述每个第一目标文字的第四向量；将所述每个第一目标文字的第四向量输入预先训练完成的结束边界检测子模型得到所述每个第一目标文字的每个第二标签概率。

S205：针对所述每个第一目标文字，将该第一目标文字的第二标签概率大于预设的第二阈值的标签作为该第一目标文字的结束边界标签。

S206：依次以所述开始边界标签中的每一个标签为第一基准标签，确定所述第一基准标签对应的第一目标文字，在所述结束边界标签中由该第一目标文字起向后查找第一个与所述第一基准标签相同的第二基准标签，将所述第一基准标签和第二基准标签之间的第一目标文字确定为一个实体，该实体的标签类型为所述第一基准标签所代表的类型。

图3为本发明实施例提供的命名实体提取装置结构示意图，该装置包括：

输入模块31，用于将待提取的第一文本序列输入预先训练完成的命名实体提取模型；基于所述命名实体提取模型进行命名实体提取；

第一确定模块32，用于确定所述第一文本序列中每个第一目标文字的第一语义表示向量；

第二确定模块33，用于根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率；根据所述每个第一目标文字的每个第一标签概率，确定所述每个第一目标文字的开始边界标签；

第三确定模块34，用于将所述每个第一目标文字的第一语义表示向量与对应的每个第一标签概率进行拼接得到第二语义表示向量；根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率；根据所述每个第一目标文字的每个第二标签概率，确定所述每个第一目标文字的结束边界标签；

提取模块35，用于根据所述每个第一目标文字的开始边界标签和结束边界标签，提取所述第一文本序列中的实体。

所述第一确定模块32，具体用于根据预先保存的每个文字与向量的对应关系，确定所述第一文本序列中每个第一目标文字的初始向量；将所述每个第一目标文字的初始向量输入预先训练完成的语义表示子模型，得到所述每个第一目标文字的第一语义表示向量。

所述第二确定模块33，具体用于根据所述每个第一语义表示向量与预先确定的第一向量的乘积，确定所述每个第一目标文字的第二向量；将所述每个第一目标文字的第二向量输入预先训练完成的开始边界检测子模型得到所述每个第一目标文字的每个第一标签概率。

所述第二确定模块33，具体用于针对所述每个第一目标文字，将该第一目标文字的第一标签概率大于预设的第一阈值的标签作为该第一目标文字的开始边界标签。

所述第三确定模块34，具体用于根据所述每个第二语义表示向量与预先确定的第三向量的乘积，确定所述每个第一目标文字的第四向量；将所述每个第一目标文字的第四向量输入预先训练完成的结束边界检测子模型得到所述每个第一目标文字的每个第二标签概率。

所述第三确定模块34，具体用于针对所述每个第一目标文字，将该第一目标文字的第二标签概率大于预设的第二阈值的标签作为该第一目标文字的结束边界标签。

所述实体提取模块35，具体用于依次以所述开始边界标签中的每一个标签为第一基准标签，确定所述第一基准标签对应的第一目标文字，在所述结束边界标签中由该第一目标文字起向后查找第一个与所述第一基准标签相同的第二基准标签，将所述第一基准标签和第二基准标签之间的第一目标文字确定为一个实体，该实体的标签类型为所述第一基准标签所代表的类型。

所述装置还包括：

第一训练模块36，用于针对训练集中的每个第二文本序列，确定该第二文本序列中的每个第二目标文字的第三语义表示向量，根据所述每个第二目标文字的第三语义表示向量与预先确定的第一向量的乘积，确定所述每个第二目标文字的第五向量；将所述每个第二目标文字的第五向量和所述每个第二目标文字的标签输入开始边界检测子模型，对所述开始边界检测子模型进行训练。

所述装置还包括：

第二训练模块37，用于针对训练集中的每个第二文本序列，确定该第二文本序列中的每个第二目标文字的第三语义表示向量，根据所述每个第二目标文字的第三语义表示向量和预先训练完成的开始边界检测模型得到所述每个第二目标文字的每个第三标签概率；将所述每个第二目标文字的第三语义表示向量与对应的每个第三标签概率进行拼接得到第四语义表示向量；根据所述每个第二目标文字的第四语义表示向量与预先确定的第三向量的乘积，确定所述每个第二目标文字的第六向量；将所述每个第二目标文字的第六向量和所述每个第二目标文字的标签输入结束边界检测子模型，对所述结束边界检测子模型进行训练。

本发明实施例中还提供了一种电子设备，如图4所示，包括：处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信；

所述存储器303中存储有计算机程序，当所述程序被所述处理器301执行时，使得所述处理器301执行如下步骤：

基于同一发明构思，本发明实施例中还提供了一种电子设备，由于上述电子设备解决问题的原理与命名实体提取方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、网络侧设备等。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口302用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在本发明实施例中处理器执行存储器上所存放的程序时，实现将待提取的第一文本序列输入预先训练完成的命名实体提取模型；基于所述命名实体提取模型进行命名实体提取；其中，确定所述第一文本序列中每个第一目标文字的第一语义表示向量；根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率；根据所述每个第一目标文字的每个第一标签概率，确定所述每个第一目标文字的开始边界标签；将所述每个第一目标文字的第一语义表示向量与对应的每个第一标签概率进行拼接得到第二语义表示向量；根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率；根据所述每个第一目标文字的每个第二标签概率，确定所述每个第一目标文字的结束边界标签；根据所述每个第一目标文字的开始边界标签和结束边界标签，提取所述第一文本序列中的实体。

本发明实施例还提供了一种计算机存储可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行时实现如下步骤：

基于同一发明构思，本发明实施例中还提供了一种计算机可读存储介质，由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与命名实体提取方法相似，因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施，重复之处不再赘述。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

在本发明实施例中提供的计算机可读存储介质内存储计算机程序，计算机程序被处理器执行时实现将待提取的第一文本序列输入预先训练完成的命名实体提取模型；基于所述命名实体提取模型进行命名实体提取；其中，确定所述第一文本序列中每个第一目标文字的第一语义表示向量；根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率；根据所述每个第一目标文字的每个第一标签概率，确定所述每个第一目标文字的开始边界标签；将所述每个第一目标文字的第一语义表示向量与对应的每个第一标签概率进行拼接得到第二语义表示向量；根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率；根据所述每个第一目标文字的每个第二标签概率，确定所述每个第一目标文字的结束边界标签；根据所述每个第一目标文字的开始边界标签和结束边界标签，提取所述第一文本序列中的实体。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种命名实体提取方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述确定所述第一文本序列中每个第一目标文字的第一语义表示向量包括：

3.如权利要求1所述的方法，其特征在于，所述根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述每个第一目标文字的每个第一标签概率，确定所述每个第一目标文字的开始边界标签包括：

5.如权利要求3所述的方法，其特征在于，所述根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率包括：

6.如权利要求1所述的方法，其特征在于，所述根据所述每个第一目标文字的每个第二标签概率，确定所述每个第一目标文字的结束边界标签包括：

7.如权利要求1所述的方法，其特征在于，所述根据所述每个第一目标文字的开始边界标签和结束边界标签，提取所述第一文本序列中的实体包括：

8.如权利要求5所述的方法，其特征在于，所述开始边界检测子模型的训练过程包括：

9.如权利要求8所述的方法，其特征在于，所述结束边界检测子模型的训练过程包括：

10.一种命名实体提取装置，其特征在于，所述装置包括：

11.如权利要求10所述的装置，其特征在于，所述第一确定模块，具体用于根据预先保存的每个文字与向量的对应关系，确定所述第一文本序列中每个第一目标文字的初始向量；将所述每个第一目标文字的初始向量输入预先训练完成的语义表示子模型，得到所述每个第一目标文字的第一语义表示向量。

12.如权利要求10所述的装置，其特征在于，所述第二确定模块，具体用于根据所述每个第一语义表示向量与预先确定的第一向量的乘积，确定所述每个第一目标文字的第二向量；将所述每个第一目标文字的第二向量输入预先训练完成的开始边界检测子模型得到所述每个第一目标文字的每个第一标签概率。

13.如权利要求10所述的装置，其特征在于，所述第二确定模块，具体用于针对所述每个第一目标文字，将该第一目标文字的第一标签概率大于预设的第一阈值的标签作为该第一目标文字的开始边界标签。

14.如权利要求12所述的装置，其特征在于，所述第三确定模块，具体用于根据所述每个第二语义表示向量与预先确定的第三向量的乘积，确定所述每个第一目标文字的第四向量；将所述每个第一目标文字的第四向量输入预先训练完成的结束边界检测子模型得到所述每个第一目标文字的每个第二标签概率。

15.如权利要求10所述的装置，其特征在于，所述第三确定模块，具体用于针对所述每个第一目标文字，将该第一目标文字的第二标签概率大于预设的第二阈值的标签作为该第一目标文字的结束边界标签。

16.如权利要求10所述的装置，其特征在于，所述实体提取模块，具体用于依次以所述开始边界标签中的每一个标签为第一基准标签，确定所述第一基准标签对应的第一目标文字，在所述结束边界标签中由该第一目标文字起向后查找第一个与所述第一基准标签相同的第二基准标签，将所述第一基准标签和第二基准标签之间的第一目标文字确定为一个实体，该实体的标签类型为所述第一基准标签所代表的类型。

17.如权利要求14所述的装置，其特征在于，所述装置还包括：

18.如权利要求17所述的装置，其特征在于，所述装置还包括：

19.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9任一项所述的方法步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一项所述的方法步骤。