CN111368544A

CN111368544A - 命名实体识别方法及装置

Info

Publication number: CN111368544A
Application number: CN202010130305.XA
Authority: CN
Inventors: 卢健; 范奇峰; 崔月皎
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-07-03
Anticipated expiration: 2040-02-28
Also published as: CN111368544B

Abstract

本发明公开了一种命名实体识别方法及装置，该方法包括：获取用于模型训练的句子序列以及所述句子序列对应的标注标签序列；将所述句子序列转化为句子的向量表示，得到所述句子序列中每个字的向量；根据所述句子序列中的第i个字的向量以及第i‑1个字的预测标签生成预测向量，并根据所述预测向量确定第i个字的预测标签，以此生成所述句子序列对应的预测标签序列；将所述预测标签序列和所述标注标签序列输入交叉熵损失函数；使用梯度下降算法优化所述交叉熵损失函数进行命名实体识别模型训练，以根据训练好的命名实体识别模型进行命名实体识别。本发明的命名实体识别方法的模型训练速度和识别速度相比与现有技术有明显提升。

Description

命名实体识别方法及装置

技术领域

本发明涉及人工智能领域，具体而言，涉及一种命名实体识别方法及装置。

背景技术

命名实体识别(Named Entity Recognition，简称NER)是信息提取、问答系统、句法分析、机器翻译以及现在的NL2SQL等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。举个简单的例子，在句子“中国工商银行上海市分行”中，对其进行命名实体识别，应该能提取信息，地点：上海市，行业：银行。

常见的命名实体识别算法有HMM、CRF和深度学习结合CRF等，都是基于马尔可夫过程的理论。这些算法使用状态概率加转移概率的条件随机场原理来拟合标注序列，在推断阶段，使用维特比算法来寻找最短路径，模型训练速度和推断速度都不够理想。

发明内容

本发明为了解决上述背景技术中的至少一个技术问题，提出了一种命名实体识别方法及装置。

为了实现上述目的，根据本发明的一个方面，提供了一种命名实体识别方法，该方法包括：

获取用于模型训练的句子序列以及所述句子序列对应的标注标签序列；

将所述句子序列转化为句子的向量表示，得到所述句子序列中每个字的向量；

根据所述句子序列中的第i个字的向量以及第i-1个字的预测标签生成预测向量，并根据所述预测向量确定第i个字的预测标签，以此生成所述句子序列对应的预测标签序列；

将所述预测标签序列和所述标注标签序列输入交叉熵损失函数；

使用梯度下降算法优化所述交叉熵损失函数进行命名实体识别模型训练，以根据训练好的命名实体识别模型进行命名实体识别。

可选的，该命名实体识别方法还包括：

获取待识别的句子序列；

将所述待识别的句子序列输入到训练好的命名实体识别模型中，得到所述待识别的句子序列中的命名实体，其中，所述训练好的命名实体识别模型将所述待识别的句子序列转化为句子的向量表示，生成所述待识别的句子序列对应的预测标签序列，并根据预测标签序列提取出所述待识别的句子序列中的命名实体。

可选的，所述将所述句子序列转化为句子的向量表示，包括：

使用深度学习算法对所述句子序列进行语义提取得到句子的向量表示。

可选的，所述根据所述句子序列中的第i个字的向量以及第i-1个字的预测标签生成预测向量，包括：

将所述句子序列中的第i个字的向量以及第i-1个字的预测标签进行拼接；

将拼接生成的向量与预设的参数矩阵相乘，得到预测向量。

可选的，所述根据所述预测向量确定第i个字的预测标签，包括：

确定所述预测向量中最大元素的位置，并根据所述位置确定第i个字的预测标签。

将所述预测向量输入到预设的全连接层，得到第i个字的预测标签。

为了实现上述目的，根据本发明的另一方面，提供了一种命名实体识别装置，该装置包括：

训练数据获取单元，用于获取用于模型训练的句子序列以及所述句子序列对应的标注标签序列；

向量表示转化单元，用于将所述句子序列转化为句子的向量表示，得到所述句子序列中每个字的向量；

预测标签序列生成单元，用于根据所述句子序列中的第i个字的向量以及第i-1个字的预测标签生成预测向量，并根据所述预测向量确定第i个字的预测标签，以此生成所述句子序列对应的预测标签序列；

交叉熵损失函数单元，用于将所述预测标签序列和所述标注标签序列输入交叉熵损失函数；

损失函数优化单元，用于使用梯度下降算法优化所述交叉熵损失函数进行命名实体识别模型训练，以根据训练好的命名实体识别模型进行命名实体识别。

可选的，该命名实体识别装置还包括：

待识别句子获取单元，用于获取待识别的句子序列；

命名实体识别单元，用于将所述待识别的句子序列输入到训练好的命名实体识别模型中，得到所述待识别的句子序列中的命名实体，其中，所述训练好的命名实体识别模型将所述待识别的句子序列转化为句子的向量表示，生成所述待识别的句子序列对应的预测标签序列，并根据预测标签序列提取出所述待识别的句子序列中的命名实体。

可选的，所述向量表示转化单元，具体用于使用深度学习算法对所述句子序列进行语义提取得到句子的向量表示。

可选的，所述预测标签序列生成单元，包括：

向量拼接模块，用于将所述句子序列中的第i个字的向量以及第i-1个字的预测标签进行拼接；

计算模块，用于将拼接生成的向量与预设的参数矩阵相乘，得到预测向量。

可选的，所述预测标签序列生成单元，包括：

预测标签确定模块，用于确定所述预测向量中最大元素的位置，并根据所述位置确定第i个字的预测标签。

可选的，所述预测标签序列生成单元，包括：

预测标签确定模块，用于将所述预测向量输入到预设的全连接层，得到第i个字的预测标签。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述命名实体识别方法中的步骤。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述命名实体识别方法中的步骤。

本发明的有益效果为：本发明的命名实体识别方法在模型训练阶段使用交叉熵损失函数，计算量远小于现有技术采用的条件随机场模型，后者的损失函数需要计算所有路径之和，而本发明方法则无需如此，训练速度大幅提升。在推断(识别)阶段，相对于深度学习结合CRF的算法本发明与其前期计算步骤基本一样而后期完全摒弃了维特比算法，推断(识别)速度有较大提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例命名实体识别模型训练的流程图；

图2是本发明实施例采用训练好的命名实体识别模型进行命名实体识别的流程图；

图3是本发明实施例命名实体识别装置的第一结构框图；

图4是本发明实施例命名实体识别装置的第二结构框图；

图5是本发明实施例预测标签序列生成单元的组成结构框图；

图6是本发明实施例计算机设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明提出了基于一种延时一阶自回归方法替代转移概率策略来拟合标注序列，进行命名实体识别的方法(一对一等长序列预测任务)，推断阶段可直接根据输出层概率和延时一阶概率逐个预测序列标签，无需查找最优路径，其训练和推断速度更快且准确率也比常规CRF方法要好。

下面将从命名实体识别模型的训练以及根据训练好命名实体识别模型进行命名实体识别两个部分对本发明的命名实体识别方法进行介绍。

图1是本发明实施例命名实体识别模型的训练流程图，如图1所示，本实施例的命名实体识别模型的训练流程包括步骤S101至步骤S105。

步骤S101，获取用于模型训练的句子序列以及所述句子序列对应的标注标签序列。

在本发明实施例中，本步骤获取句子序列X:x₁,x₂,x₃,...,x_n和对应的标注标签序列Y:y₁,y₂,y₃,...,y_n。本发明实施例的句子序列为句子的单字拆分序列，例如句子“中国工商银行上海市分行”，该句子的句子序列为“中”，“国”，“工”，“商”，“银”，“行”，“上”，“海”，“市”，“分”，“行”，序列长度为11。标注标签序列为句子序列中每个字标注的标签组成的序列，在本发明可选实施例中，共有8类标签：B-LOC、I-LOC、B-MISC、I-MISC、B-ORG、I-ORG、B-PER、I-PER。

步骤S102，将所述句子序列转化为句子的向量表示，得到所述句子序列中每个字的向量。

在本发明实施例中，本步骤将句子序列X转化为句子的向量表示H:h₁,h₂,h₃,...,h_n，句子的向量表示H中包含句子序列X中每个字的向量。本步骤将句子序列X中的每个字转化成向量形式，形成句子的向量表示H。例如上述句子序列：“中”，“国”，“工”，“商”，“银”，“行”，“上”，“海”，“市”，“分”，“行”，转化为句子的向量表示可以为：(0.1，0.23，0.22....0.6)，(0.3，0.13，0.12....0.69)，....，(0.7，0.63，0.82....0.77)。

在本发明的可选实施例中，本步骤可以使用深度学习算法(如RNN、LSTM等)对所述句子序列进行语义提取得到句子的向量表示。

步骤S103，根据所述句子序列中的第i个字的向量以及第i-1个字的预测标签生成预测向量，并根据所述预测向量确定第i个字的预测标签，以此生成所述句子序列对应的预测标签序列。

在本发明实施例中，本步骤的根据所述句子序列中的第i个字的向量以及第i-1个字的预测标签生成预测向量，具体包括：

将拼接生成的向量与预设的参数矩阵相乘，得到第i个字的预测向量。

在本发明的一个具体实施例中，句子的向量表示H中每一个字是一个向量，将第一个字的向量h1和预设的初始预测向量

拼接，再乘以预设的参数矩阵w，有

得到向量

即为第一个字的预测向量。进而将向量

与第二个字的向量h2拼接，得到

这也是一个向量，用这个向量再乘以预设的参数矩阵w得到

得到第二个字的预测向量，如此递归下去。得到每一个字的预测向量

在本发明实施例中，每个字的预测向量可以表示为该字的预测标签。本步骤的根据预测向量确定预测标签，具体可以为：确定所述预测向量中最大元素的位置，并根据所述位置可以确定预测向量对应的预测标签。在本发明实施例中，上述每个预测向量

都是一个向量，向量中最大元素的位置如果是k，表示这个字的标签被预测为第k类标签。比如

那么h1这个字的标签就被预测为第2类标签。在本发明可选实施例中，共有8类标签：B-LOC、I-LOC、B-MISC、I-MISC、B-ORG、I-ORG、B-PER、I-PER。

在本发明另一可选实施例中，本步骤的根据所述预测向量确定第i个字的预测标签，可以为将所述预测向量输入到预设的全连接层，得到第i个字的预测标签。具体的，将第i个字的向量h_i与第i-1个字的预测标签

进行拼接得到的拼接向量

输入到预设的一个全连接层f中，得到第i个字的预测标签

公式为：

在本发明实施例中，本步骤最终生成所述句子序列X对应的预测标签序列

步骤S104，将所述预测标签序列和所述标注标签序列输入交叉熵损失函数。

在本发明实施例中，在命名实体识别模型训练阶段，需要将得到句子的预测标签序列

和标注标签序列Y一起输入softmax交叉熵得到损失函数：

步骤S105，使用梯度下降算法优化所述交叉熵损失函数进行命名实体识别模型训练，以根据训练好的命名实体识别模型进行命名实体识别。

在本发明实施例中，本步骤通过Adam梯度下降算法迭代接近该损失函数loss的最小值来拟合整个模型，最终训练出命名实体识别模型。

由上述实施例可以看出，本发明的命名实体识别方法在模型训练阶段使用交叉熵损失函数，计算量远小于现有技术采用的条件随机场模型，后者的损失函数需要计算所有路径之和，而本发明方法则无需如此，训练速度大幅提升。

图2是本发明实施例采用训练好的命名实体识别模型进行命名实体识别的流程图，如图2所示，本发明实施例采用训练好的命名实体识别模型进行命名实体识别的流程包括步骤S201和步骤S202。

步骤S201，获取待识别的句子序列。

步骤S202，将所述待识别的句子序列输入到训练好的命名实体识别模型中，得到所述待识别的句子序列中的命名实体。

在本发明实施例中，在将待识别的句子序列输入到训练好的命名实体识别模型后，命名实体识别模可以根据上述步骤S102的方法将待识别的句子序列转化为句子的向量表示，根据上述步骤S103的方法生成待识别的句子序列对应的预测标签序列，最后根据预测标签序列提取出待识别的句子序列中的命名实体。

由此可见，在命名实体识别阶段，相对于深度学习结合CRF的算法本发明与其前期计算步骤基本一样而后期完全摒弃了维特比算法，识别速度有较大提升。

为了对本发明的命名实体识别方法的识别效果进行验证，本发明根据命名实体识别公开数据集conll2002，针对本发明算法和Bi-LSTM-CRF算法做了测试。

表现情况如下：

这份数据中共有八类标签，识别的实体共有四个分别是地名，杂项，组织机构和人名。评价指标分别是准确率召回率和F1得分。相对于BI-LSTM-CRF算法，本发明的平均F1得分为0.75相对于前者有1.9％的提升。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于同一发明构思，本发明实施例还提供了一种命名实体识别装置，可以用于实现上述实施例所描述的命名实体识别方法，如下面的实施例所述。由于命名实体识别装置解决问题的原理与命名实体识别方法相似，因此命名实体识别装置的实施例可以参见命名实体识别方法的实施例，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是本发明实施例命名实体识别装置的第一结构框图，如图3所示，本发明实施例命名实体识别装置包括：训练数据获取单元1、向量表示转化单元2、预测标签序列生成单元3、交叉熵损失函数单元4和损失函数优化单元5。

训练数据获取单元1，用于获取用于模型训练的句子序列以及所述句子序列对应的标注标签序列。

向量表示转化单元2，用于将所述句子序列转化为句子的向量表示，得到所述句子序列中每个字的向量。

在本发明其他可选实施例中，所述向量表示转化单元2还可以使用深度学习算法对所述句子序列进行语义提取得到句子的向量表示。

预测标签序列生成单元3，用于根据所述句子序列中的第i个字的向量以及第i-1个字的预测标签生成预测向量，并根据所述预测向量确定第i个字的预测标签，以此生成所述句子序列对应的预测标签序列。

交叉熵损失函数单元4，用于将所述预测标签序列和所述标注标签序列输入交叉熵损失函数。

损失函数优化单元5，用于使用梯度下降算法优化所述交叉熵损失函数进行命名实体识别模型训练，以根据训练好的命名实体识别模型进行命名实体识别。

图4是本发明实施例命名实体识别装置的第二结构框图，如图4所示，本发明实施例命名实体识别装置包括：待识别句子获取单元6和命名实体识别单元7。

待识别句子获取单元6，用于获取待识别的句子序列。

命名实体识别单元7，用于将所述待识别的句子序列输入到训练好的命名实体识别模型中，得到所述待识别的句子序列中的命名实体，其中，所述训练好的命名实体识别模型将所述待识别的句子序列转化为句子的向量表示，生成所述待识别的句子序列对应的预测标签序列，并根据预测标签序列提取出所述待识别的句子序列中的命名实体。

图5是本发明实施例预测标签序列生成单元的组成结构框图，如图5所示，在本发明实施例中，上述预测标签序列生成单元3具体包括：向量拼接模块301、计算模块302和预测标签确定模块303。

向量拼接模块301，用于将所述句子序列中的第i个字的向量以及第i-1个字的预测标签进行拼接。

计算模块302，用于将拼接生成的向量与预设的参数矩阵相乘，得到预测向量。

预测标签确定模块303，用于确定所述预测向量中最大元素的位置，并根据所述位置确定第i个字的预测标签。

在本发明其他可选实施例中，预测标签确定模块303还可以将所述预测向量输入到预设的全连接层，得到第i个字的预测标签。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机设备。如图6所示，该计算机设备包括存储器、处理器、通信接口以及通信总线，在存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元，如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及作品数据处理，即实现上述方法实施例中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个单元存储在所述存储器中，当被所述处理器执行时，执行上述实施例中的方法。

上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解，此处不再赘述。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述命名实体识别方法中的步骤。本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种命名实体识别方法，其特征在于，包括：

2.根据权利要求1所述的命名实体识别方法，其特征在于，还包括：

获取待识别的句子序列；

3.根据权利要求1所述的命名实体识别方法，其特征在于，所述将所述句子序列转化为句子的向量表示，包括：

4.根据权利要求1所述的命名实体识别方法，其特征在于，所述根据所述句子序列中的第i个字的向量以及第i-1个字的预测标签生成预测向量，包括：

将拼接生成的向量与预设的参数矩阵相乘，得到预测向量。

5.根据权利要求1所述的命名实体识别方法，其特征在于，所述根据所述预测向量确定第i个字的预测标签，包括：

6.根据权利要求1所述的命名实体识别方法，其特征在于，所述根据所述预测向量确定第i个字的预测标签，包括：

7.一种命名实体识别装置，其特征在于，包括：

8.根据权利要求7所述的命名实体识别装置，其特征在于，还包括：

待识别句子获取单元，用于获取待识别的句子序列；

9.根据权利要求7所述的命名实体识别装置，其特征在于，所述向量表示转化单元，具体用于使用深度学习算法对所述句子序列进行语义提取得到句子的向量表示。

10.根据权利要求7所述的命名实体识别装置，其特征在于，所述预测标签序列生成单元，包括：

11.根据权利要求7所述的命名实体识别装置，其特征在于，所述预测标签序列生成单元，包括：

12.根据权利要求7所述的命名实体识别装置，其特征在于，所述预测标签序列生成单元，包括：

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法。

14.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序在计算机处理器中执行时实现如权利要求1至6任意一项所述的方法。