CN110852103A

CN110852103A - 一种命名实体识别方法及装置

Info

Publication number: CN110852103A
Application number: CN201911033416.2A
Authority: CN
Inventors: 胡伟凤; 高雪松; 曲文武; 张晓霞; 陈维强
Original assignee: Qingdao Juhaolian Technology Co Ltd
Current assignee: Qingdao Juhaolian Technology Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-28

Abstract

本发明公开了一种命名实体识别方法及装置，该方法包括获取用户输入的语句，根据用户输入的语句和多任务联合实体识别模型，确定出用户输入的语句的实体识别标签序列和分词识别标签序列，多任务联合实体识别模型包括命名实体识别模型和实体边界识别模型，命名实体识别模型和实体边界识别模型共用字符嵌入层和第一特征学习层，第一概率预测层的损失函数和第二概率预测层的损失函数相关。通过多任务联合模型进行命名实体的识别，由于命名实体识别中的概率预测层的损失函数与实体边界识别模型中的概率预测层的损失函数有关联，需要依赖于实体边界识别模型中的概率预测层的损失函数，从而可以通过加强对实体边界的识别能力来提升命名实体识别的准确率。

Description

一种命名实体识别方法及装置

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种命名实体识别方法及装置。

背景技术

命名实体识别为自然语言处理中的基础任务，奠定了下游实体链接、关系抽取、语义搜索和自动问答等一系列任务的基石。业界广泛应用长短时记忆模型与概率分布预测模型串行解决的系列算法，但其模型训练需要依赖大量人工标注数据，特别在中文垂直领域应用中，模型的产业化应用效果完全依赖大量的领域知识进行训练。在实际应用中，命名实体识别的表现力不仅要考虑准确率还要考虑召回率，目前应用的长短时记忆模型与概率分布预测模型串行解决方案的准确率和召回率都比较低。

发明内容

本发明实施例提供一种命名实体识别方法及装置，用以提高命名实体识别的准确率。

第一方面，本发明实施例提供一种命名实体识别方法，包括：

获取用户输入的语句；

根据所述用户输入的语句和多任务联合实体识别模型，确定出所述用户输入的语句的实体识别标签序列和分词识别标签序列；所述多任务联合实体识别模型包括命名实体识别模型和实体边界识别模型；所述命名实体识别模型包括字符嵌入层、第一特征学习层、第二特征学习层和第一概率预测层，所述实体边界识别模型包括字符嵌入层、第一特征学习层和第二概率预测层；其中，所述命名实体识别模型和所述实体边界识别模型共用所述字符嵌入层和所述第一特征学习层；所述第一概率预测层的损失函数和所述第二概率预测层的损失函数相关。

上述技术方案中，通过多任务联合模型进行命名实体的识别，由于命名实体识别中的概率预测层的损失函数与实体边界识别模型中的概率预测层的损失函数有关联，需要依赖于实体边界识别模型中的概率预测层的损失函数，从而可以通过加强对实体边界的识别能力来提升命名实体识别的准确率。

可选的，所述根据所述用户输入的语句和多任务联合实体识别模型，确定出所述用户输入的语句的实体识别标签序列，包括：

通过所述字符嵌入层，将所述用户输入的语句转化为第一嵌入空间向量；

将所述第一嵌入空间向量输入至所述第一特征学习层，提取所述用户输入的语句的第一特征；

将所述用户输入的语句的第一特征输入至所述第二特征学习层，提取所述用户输入的语句的第二特征；

将所述用户输入的语句的第二特征输入至所述第一概率预测层，得到所述用户输入的语句对应的实体标签序列。

可选的，在所述提取所述用户输入的语句的第一特征之后，还包括：

将所述用户输入的语句的第一特征输入至所述第二概率预测层，得到所述用户输入的语句对应的分词识别标签序列。

可选的，所述第一概率预测层的损失函数和所述第二概率预测层的损失函数成预设比例。

第二方面，本发明实施例提供一种命名实体识别装置，包括：

获取单元，用于获取用户输入的语句；

处理单元，用于根据所述用户输入的语句和多任务联合实体识别模型，确定出所述用户输入的语句的实体识别标签序列和分词识别标签序列；所述多任务联合实体识别模型包括命名实体识别模型和实体边界识别模型；所述命名实体识别模型包括字符嵌入层、第一特征学习层、第二特征学习层和第一概率预测层，所述实体边界识别模型包括字符嵌入层、第一特征学习层和第二概率预测层；其中，所述命名实体识别模型和所述实体边界识别模型共用所述字符嵌入层和所述第一特征学习层；所述第一概率预测层的损失函数和所述第二概率预测层的损失函数相关。

可选的，所述处理单元具体用于：

可选的，所述处理单元还用于：

在所述提取所述用户输入的语句的第一特征之后，将所述用户输入的语句的第一特征输入至所述第二概率预测层，得到所述用户输入的语句对应的分词识别标签序列。

第三方面，本发明实施例还提供一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行上述命名实体识别方法。

第四方面，本发明实施例还提供一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行上述命名实体识别方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构的示意图；

图2为本发明实施例提供的一种命名实体识别方法的流程示意图；

图3为本发明实施例提供的一种分词和命名实体识别标注的示意图；

图4为本发明实施例提供的一种多任务联合实体识别模型的示意图；

图5为本发明实施例提供的一种实验结果的示意图；

图6为本发明实施例提供的一种命名实体识别装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示例性的示出了本发明实施例所适用的一种系统架构，该系统架构可以服务器100，该服务器100可以包括处理器110、通信接口120和存储器130。

其中，通信接口120用于终端设备进行通信，收发终端设备传输的信息，实现通信。

处理器110是服务器100的控制中心，利用各种接口和路线连接整个服务器100的各个部分，通过运行或执行存储在存储器130内的软件程序/或模块，以及调用存储在存储器130内的数据，执行服务器100的各种功能和处理数据。可选地，处理器110可以包括一个或多个处理单元。

存储器130可用于存储软件程序以及模块，处理器110通过运行存储在存储器130的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据业务处理所创建的数据等。此外，存储器130可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

需要说明的是，上述图1所示的结构仅是一种示例，本发明实施例对此不做限定。

基于上述描述，图2详细的示出了本发明实施例提供的一种命名实体识别方法的流程，该流程可以由命名实体识别装置执行，该装置可以位于如图1所示服务器100内，也可以是该服务器100。

如图2所示，该流程具体包括：

步骤201，获取用户输入的语句。

在本发明实施例中，分词与命名实体识别为自然语言处理中的基础任务，奠定了下游实体链接、关系抽取、语义搜索和自动问答等一系列任务的基石，分词与命名实体识别都可作为序列标注问题解决(例如BIO(B-begin，开始；I-inside，内部；O-outside，外部)标注集)，其中，分词与命名实体识别的输入输出可以如图3所示，从图3中可以看出，输入的语句“我家空调今天突然不制冷”，分词模型输出的实体标签序列和命名实体识别模型输出的实体标签序列是不同的。

步骤202，根据所述用户输入的语句和多任务联合实体识别模型，确定出所述用户输入的语句的实体识别标签序列和分词识别标签序列。

在本发明实施例中，该多任务联合实体识别模型可以包括命名实体识别模型和实体边界识别模型，命名实体识别模型可以包括字符嵌入层、第一特征学习层、第二特征学习层和第一概率预测层，而实体边界识别模型可以包括字符嵌入层、第一特征学习层和第二概率预测层。其中，命名实体识别模型和所述实体边界识别模型共用字符嵌入层和第一特征学习层；第一概率预测层的损失函数和第二概率预测层的损失函数相关。具体实施的过程中，该第一特征层可以为CNN(Convolutional Neural Networks，卷积神经网络)层，也可以称为短距特征学习层。该第二特征层可以为Bi-LSTM(Bi-directional Long Short-TermMemory，双向长短时记忆循环神经网络)层，也可以称为长距特征学习层。该概率预测层可以为CRF(Conditional Random Field，条件随机场)层，其中具体可以如图4所示，第一特征学习层输出的数据可以直接输入至实体边界识别模型的第二概率预测层。

具体的，在确定用户输入的语句的实体识别标签序列时，可以先通过字符嵌入层，将用户输入的语句转化为第一嵌入空间向量，将第一嵌入空间向量输入至第一特征学习层，提取用户输入的语句的第一特征，将用户输入的语句的第一特征输入至第二特征学习层，提取用户输入的语句的第二特征，将用户输入的语句的第二特征输入至第一概率预测层，得到用户输入的语句对应的实体标签序列。其中，在提取用户输入的语句的第一特征之后，还可以将用户输入的语句的第一特征输入至第二概率预测层，得到用户输入的语句对应的分词识别标签序列。

此外，第一概率预测层的损失函数和第二概率预测层的损失函数成预设比例，该预设比例可以依据经验设置，两者可以成线性关系。

需要说明的是，上述多任务联合实体识别模型是对实体识别标签序列和分词识别标签序列的训练集进行大量训练得到的。

基于图4所示的多任务联合实体识别模型，其中，进行命名实体识别时，可以在字符嵌入层将输入的汉字序列(语句)转化为嵌入空间向量：

其中，w_i为每个字符的one-hot向量表示，V为字典空间的大小，N为输入序列长度，D为嵌入维度大小。

然后再通过CNN特征提取层：提取文本的局部特征，作为Bi-LSTM层的输入。

具体的，c＝[c₁,c₂,…c_N],c_i∈R^M；

其中，

表示从

到

的字符嵌入的关联关系，f为激活函数RELU，M为过滤器个数，w∈R^KD为CNN的一个过滤器，K为窗口大小，每个ci的上下文关联信息为当前位置所有窗口过滤器的值的链接。

Bi-LSTM层可以用来提取文本双侧的中长距离的关联信息，最后CRF层进行解码，将Bi-LSTM层提取到的特征作为输入，计算出序列中每个元素的标签。即对于给定输入h＝[h₁,h₂,…,h_N]，计算其输出标签y＝[y₁,y₂,…,y_N],y_i∈R^L,代表第i个字符序列的one-hot值，L为标签空间大小。概率模型CRF中，对于给定输入h输出序列y的条件概率为：

其中，Y(s)为所有输入序列s的所有可能的标签序列集，

W∈R^2S×L,T∈R^L×L为参数用θ表示,θ＝{W,T}。

在CRF层中，损失函数可以为：

L_NER＝-∑_s∈Slog(p(y_s|h_s；θ))；

其中，S为训练集语句集合，y_s、h_s分别为语句S的隐含层和标签序列。

相应的，实体边界识别模型中CRF层的损失函数可以为：

其中，

为语句s的标签序列，θ^seg为分词模型的参数集合，c_s为语句s经过CNN模型后输出的隐含特征集。

因此，就可以将L_CWS与L_NER做线性拟合：

L＝(1-ω)L_NER+ωL_CWS；

其中，ω∈[0,1)用来控制分词模型损失函数占比。

通过将本发明实施例提供的多任务联合实体识别模型与非多任务的实体识别模型进行对比，如图5所示，可以看出本发明实施例提供的多任务联合实体识别模型来进行命名实体识别可以更好的捕捉实体边界，提高命名实体识别的准确度和召回率。

上述实施例表明，获取用户输入的语句，根据用户输入的语句和多任务联合实体识别模型，确定出用户输入的语句的实体识别标签序列和分词识别标签序列，多任务联合实体识别模型包括命名实体识别模型和实体边界识别模型，命名实体识别模型包括字符嵌入层、第一特征学习层、第二特征学习层和第一概率预测层，实体边界识别模型包括字符嵌入层、第一特征学习层和第二概率预测层，其中，命名实体识别模型和实体边界识别模型共用字符嵌入层和第一特征学习层，第一概率预测层的损失函数和第二概率预测层的损失函数相关。通过多任务联合模型进行命名实体的识别，由于命名实体识别中的概率预测层的损失函数与实体边界识别模型中的概率预测层的损失函数有关联，需要依赖于实体边界识别模型中的概率预测层的损失函数，从而可以通过加强对实体边界的识别能力来提升命名实体识别的准确率。

基于相同的技术构思，图6示例性的示出了本发明实施例提供的一种命名实体识别装置的结构，该装置可以执行命名实体识别流程，该装置可以位于图1所示的服务器100内，也可以是该服务器100。

如图6所示，该装置具体包括：

获取单元601，用于获取用户输入的语句；

处理单元602，用于根据所述用户输入的语句和多任务联合实体识别模型，确定出所述用户输入的语句的实体识别标签序列和分词识别标签序列；所述多任务联合实体识别模型包括命名实体识别模型和实体边界识别模型；所述命名实体识别模型包括字符嵌入层、第一特征学习层、第二特征学习层和第一概率预测层，所述实体边界识别模型包括字符嵌入层、第一特征学习层和第二概率预测层；其中，所述命名实体识别模型和所述实体边界识别模型共用所述字符嵌入层和所述第一特征学习层；所述第一概率预测层的损失函数和所述第二概率预测层的损失函数相关。

可选的，所述处理单元具体用于：

可选的，所述处理单元还用于：

基于相同的技术构思，本发明实施例还提供了一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用存储器中存储的程序指令，按照获得的程序执行上述命名实体识别方法。

基于相同的技术构思，本发明实施例还提供了一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行计算机可读指令时，使得计算机执行上述命名实体识别方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种命名实体识别方法，其特征在于，包括：

获取用户输入的语句；

2.如权利要求1所述的方法，其特征在于，所述根据所述用户输入的语句和多任务联合实体识别模型，确定出所述用户输入的语句的实体识别标签序列，包括：

3.如权利要求2所述的方法，其特征在于，在所述提取所述用户输入的语句的第一特征之后，还包括：

4.如权利要求1至3任一项所述的方法，其特征在于，所述第一概率预测层的损失函数和所述第二概率预测层的损失函数成预设比例。

5.一种命名实体识别装置，其特征在于，包括：

获取单元，用于获取用户输入的语句；

6.如权利要求5所述的装置，其特征在于，所述处理单元具体用于：

7.如权利要求6所述的装置，其特征在于，所述处理单元还用于：

8.如权利要求5至7任一项所述的装置，其特征在于，所述第一概率预测层的损失函数和所述第二概率预测层的损失函数成预设比例。

9.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至4任一项所述的方法。

10.一种计算机可读非易失性存储介质，其特征在于，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行如权利要求1至4任一项所述的方法。