CN111832302A

CN111832302A - 一种命名实体识别方法和装置

Info

Publication number: CN111832302A
Application number: CN201910284133.9A
Authority: CN
Inventors: 吴明昊; 赵楠; 汪维
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2020-10-27

Abstract

本申请提供了一种命名实体识别方法和装置，该方法包括：获取待识别命名实体的文本信息；提取所述文本信息的词向量、字符向量和手工特征，并组成向量矩阵；通过预设的双向长短期记忆网络BiLSTM‑条件随机场CRF模型对所述文本信息的向量矩阵进行命名实体识别；并获得识别结果；其中，所述预设的BiLSTM‑CRF模型是通过自编码器将手工特征加入到初始BiLSTM‑CRF模型进行训练获得的；所述手工特征包括：词性、词形和词库。该方法能够提高命名实体识别效率。

Description

一种命名实体识别方法和装置

技术领域

本发明涉及语言处理技术领域，特别涉及一种命名实体识别方法和装置。

背景技术

信息提取是自然语言处理的一个基础问题，通过模型自动提取文本中的信息。信息提取的第一环就是识别文本中的命名实体，准确识别文本中的命名实体为提取文本中的结构化信息提供了先决条件。比如说，对于句子“我今天到上海出差”，命名实体识别应该能够准确识别“上海”作为地点的命名实体。

现阶段进行命名实体的识别方法主要有如下三种：

第一种：词典匹配；

该方法是简单的字符串匹配，缺乏对文本上下文的理解。

第二种：传统的机器学习方法，如CRF。主要基于统计学习的方法，对文本结构进行建模。

该种方法需要手动提取特征，过程十分繁琐，且不能保证质量。过程中也需要大量的人力物力；模型性能受训练样本的影响较大；离线训练的负样本无法涵盖所有场景，泛化能力有限；

第三种：基于深度学习的双向长短期记忆网络(Bidirectional Long Short TermMemory，BiLSTM)模型与条件随机场(Conditional Random Field，CRF)相结合，也称之为BiLSTM-CRF模型识别法。

该模型往往难于充分提取特征，导致训练结果的识别率比较低；并且模型的训练需要大量的运算资源，训练速度慢。

发明内容

有鉴于此，本申请提供一种命名实体识别方法和装置，能够提高命名实体识别效率。

为解决上述技术问题，本申请的技术方案是这样实现的：

在一个实施例中，提供了一种命名实体识别方法，所述方法包括：

获取待识别命名实体的文本信息；

提取所述文本信息的词向量、字符向量和手工特征，并组成向量矩阵；

通过预设的BiLSTM-CRF模型对所述文本信息的向量矩阵进行命名实体识别；并获得识别结果；

其中，所述预设的BiLSTM-CRF模型是通过自编码器将手工特征加入到初始BiLSTM-CRF模型进行训练获得的；所述手工特征包括：词性、词形和词库。

在另一个实施例中，提供了一种命名实体识别装置，所述装置包括：获取单元、提取单元、建立单元和识别单元；

所述获取单元，用于获取待识别命名实体的文本信息；

所述提取单元，用于提取所述获取单元获取的文本信息的词向量、字符向量和手工特征，并组成向量矩阵；

所述建立单元，用于建立预设的BiLSTM-CRF模型；其中，所述预设的BiLSTM-CRF模型是通过自编码器将手工特征加入到初始BiLSTM-CRF模型进行训练获得的；所述手工特征包括：词性、词形和词库；

所述识别单元，用于通过所述建立单元建立的预设的BiLSTM-CRF模型对所述提取单元获取的文本信息的向量矩阵进行命名实体识别；并获得识别结果。

在另一个实施例中，还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如所述命名实体识别方法的步骤。

在另一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述命名实体识别方法的步骤。

由上面的技术方案可见，上述实施例中。

附图说明

以下附图仅对本发明做示意性说明和解释，并不限定本发明的范围：

图1为本申请实施例中训练BiLSTM-CRF模型的架构示意图；

图2为本申请实施例中预设的BiLSTM-CRF模型结构示意图；

图3为本申请实施例中命名实体识别流程示意图；

图4为本申请实施例中应用于上述技术的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图并举实施例，对本发明的技术方案进行详细说明。

本申请实施例中提供一种命名实体识别方法，通过自编码器将手工特征引入到BiLSTM-CRF模型中进行模型的训练，进而能够获得更多的特征，并且提高训练效果；使用训练好的BiLSTM-CRF模型识别命名实体，能够提高识别效率。

参见图1，图1为本申请实施例中训练BiLSTM-CRF模型的架构示意图。

图1中与现有的BiLSTM-CRF模型相比，输入BiLSTM的向量增加了手工特征，并且在通过BiLSTM获得特征向量后，增加了将该特征向量输入到自编码器的操作。

下面针对图1中训练BiLSTM-CRF模型的架构中的各组成部分的实现分别进行详细说明。

词向量单元，用于提取待识别文本信息中每个词的词向量，词向量表示单词含义的向量；

字符向量单元，用于提取待识别文本信息中每个词的字符向量，词的字符向量为表示字符含义的向量；

词向量和字符向量的提取可以按照现有实现方式实现，本申请对此不进行限制。

手工特征单元，用于提取待识别文本信息中每个词的手工特征，手工特征包括：词性、词形和词库。

所述词性和词形通过开源工具生成；如spaCy。

所述词库根据建立的词库，或已存在的词库生成。

数据集中命名实体共有四大类，即PERSON、LOCATION、ORGANIZATION和MISC，可以使用已存在的词库，也可以自行收集词库，如PERSON和LOCATION的词库。

下面以文本信息：U.N.official Ekeus heads for Baghdad.为例，进行手工特征的提取。参见表1，表1为针对文本信息提取的手工特征所对应的内容。

单词

U.N.

official

Ekeus

heads

for

Baghdad

.

词性

NNP

NN

NNP

VBZ

IN

NNP

.

词形

X.X.

Xxxx

Xxxxx

xxxx

xxx

Xxxxx

.

词库

O

PER

O

LOC

O

命名实体

B-ORG

O

B-PER

O

B-LOC

O

表1

由表1中可以看到词性是指名词、形容词、动词等；

词形是指字母大小写等；词形主要针对英语、拉丁文等，针对中文则不存在对应的词形，忽略该手工特征即可。

词库中匹配到对应的词时，可以确定该词对应的词库；否则，确定存在词库这一手工特征。

BiLSTM，用于接收词向量、字符向量，以及手工特征组成的向量矩阵，通过前向和反向计算提取句子级的信息，BiLSTM的内部实现同现有实现。

CRF，用于预测最佳序列，完成命名实体识别任务。

自编码器(Auto-Encoder)是一种旨在将它们的输入复制到的输出的神经网络。他们通过将输入压缩成一种隐藏空间表示(latent-space representation)，然后这种重构这种表示的输出进行工作。

在机器学习中，利用手工特征的传统方法一般是仅把特征输入到模型中。本申请实施例中的创新性在于，利用了自编码器提取特征的能力，不仅把特征输入模型，还在输出端重构特征。

本申请实施例中针对每个手工特征增加一个编码器，每个编码器使用对应的损失函数。

在现有的BiLSTM-CRF模型中只有CRF中使用了损失函数，而本申请实施例中不仅CRF中使用了损失函数，每个自编码器均使用了损失函数，这样针对整个BiLSTM-CRF训练模型对应的损失函数为四个损失函数的加权和，也就是说本申请实施例中优化了模型的损失函数，能够充分发挥手工特征的作用。具体如下：

CRF使用的损失函数为：

每个自编码器使用的损失函数：

BiLSTM-CRF训练模型对应的损失函数：

其中，CRF对应的损失函数的权重为1，第t个自编码器对应的损失函数对应的权重为α^t，t代表type，表示手工特征的类型，即手工特征中的第几个特征，本申请实施例中例举了三种手工特征，则t取值为1、2、3；

表示输入的一种手工特征对应的特征向量，

表示输出的一种手工特征对应的特征向量。

下面给出训练BiLSTM-CRF模型的过程：

第一步、获取文本信息作为样本。

第二步、分别提取样本中的词向量、字符向量和手工特征；并将手工特征中的各特征以独热编码的方式，与词向量、字符向量拼接为一个向量矩阵。

独热编码(One-Hot Encoding)，在机器学习中，离散型特征会被模型当作连续型特征处理，例如，移动运营商有[中国移动，中国联通，中国电信]，如果把移动运营商映射成[1，2，3]，这个向量会被模型当作连续型特征处理，不符合我们的要求。因此，我们需要对[中国移动，中国联通，中国电信]做独热编码，得到以下特征：

[1，0，0]

[0，1，0]

[0，0，1]

第三步、基于BISTM获得所述向量矩阵对应的特征向量。

第四步、将所述特征向量分别作为自编码器和CRF的输入，基于模型损失函数计算交叉熵，并利用反向传播算法和梯度下降算法更新训练初始BiLSTM-CRF模型的参数，获得预设的BiLSTM-CRF模型。

其中，在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降(Gradient Descent)是最常采用的方法之一。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。梯度下降法的计算过程就是沿梯度下降的方向求解极小值。

梯度下降法背后的直观感受可以用假设情境进行说明。一个被卡在山上的人正在试图下山(即试图找到极小值)。大雾使得能见度非常低。因此，下山的道路是看不见的，所以他必须利用局部信息来找到极小值。他可以使用梯度下降法，该方法涉及到察看在他当前位置山的陡峭程度，然后沿着负陡度(即下坡)最大的方向前进。如果他要找到山顶(即极大值)的话，他需要沿着正陡度(即上坡)最大的方向前进。使用此方法，他会最终找到下山的路。

反向传播(Backpropagation)算法是“误差反向传播”的简称，是一种与最优化方法(如梯度下降法)结合使用的，用来训练人工神经网络的常见方法。该方法计算损失函数的梯度，并通过链式法则从输出端反向传播至输入端，从而更新模型所有的参数。这个梯度会反馈给最优化方法，用来更新参数以最小化损失函数。

接针对梯度下降法假设情景。此人代表反向传播算法，而下山路径表示能使误差最小化的权重集合。山的陡度表示误差曲面在该点的斜率。他要前行的方向对应于误差曲面在该点的梯度。用来测量陡峭度的工具是微分(误差曲面的斜率可以通过对平方误差函数在该点求导数计算出来)。他在两次测量之间前行的距离(与测量频率成正比)是算法的学习速率。

参见图2，图2为本申请实施例中预设的BiLSTM-CRF模型结构示意图。图2中与图1中不同的是不再包括自编码器。词向量单元、字符向量单元和手工特征单元的实现与训练时的实现是一致的，将三者组成的向量矩阵通过BiLSTM获得特征向量，将特征向量直接输入CRF进行命名实体识别即可。

下面结合附图，详细说明本申请实施例中实现命名实体识别的过程。

实现命名实体识别的主体可以为一台PC等，即具有命名实体识别能力的设备即可，在下文为了描述方便简称为识别设备。

参见图3，图3为本申请实施例中命名实体识别流程示意图。具体步骤为：

步骤301，识别设备获取待识别命名实体的文本信息。

这里的待命名实体的文本信息可以为由其他网络设备传输到本识别设备上，也可以通过拷贝的方式实现所述文本信息的获取。

步骤302，该识别设备提取所述文本信息的词向量、字符向量和手工特征，并组成向量矩阵。

手工特征中的各特征以独热编码的方式，与词向量、字符向量拼接为一个向量矩阵。

步骤303，该识别设备通过预设的BiLSTM-CRF模型对所述文本信息的向量矩阵进行命名实体识别；并获得识别结果。

其中，所述预设的BiLSTM-CRF模型是通过自编码器将手工特征加入到初始BiLSTM-CRF模型进行训练获得的。

本申请实施例中通过自编码器将手工特征引入到BiLSTM-CRF模型中进行模型的训练，进而能够获得更多的特征，并且提高训练效果；使用训练好的BiLSTM-CRF模型识别命名实体，能够提高识别效率。

基于同样的发明构思，本申请实施例中还提供一种命名实体识别装置。参见图4，图4为本申请实施例中应用于上述技术的装置结构示意图。该装置包括：获取单元401、提取单元402、建立单元403和识别单元404；

获取单元401，用于获取待识别命名实体的文本信息；

提取单元402，用于提取获取单元401获取的文本信息的词向量、字符向量和手工特征，并组成向量矩阵；

建立单元403，用于建立预设的BiLSTM-CRF模型；其中，所述预设的BiLSTM-CRF模型是通过自编码器将手工特征加入到初始BiLSTM-CRF模型进行训练获得的；所述手工特征包括：词性、词形和词库；

识别单元404，用于通过建立单元403建立的预设的BiLSTM-CRF模型对提取单元402获取的文本信息的向量矩阵进行命名实体识别；并获得识别结果。

优选地，

提取单元402，具体用于组成向量矩阵时，将手工特征中的各特征以独热编码的方式，与词向量、字符向量拼接为一个向量矩阵。

优选地，

建立单元403，具体用于获得预设的BiLSTM-CRF模型包括：在训练初始BiLSTM-CRF模型时，将通过BiLSTM获得的特征向量分别输入自编码器和CRF，基于模型损失函数计算交叉熵，并利用反向传播算法和梯度下降算法更新训练初始BiLSTM-CRF模型的参数，获得预设的BiLSTM-CRF模型；其中，模型损失函数为所有自编码器使用的损失函数和CRF使用的损失函数的加权和；所述手工特征中的每种特征对应一个自编码器。

优选地，

所述词性和词形通过开源工具生成；

所述词库根据建立的词库，或已存在的词库生成。

上述实施例的单元可以集成于一体，也可以分离部署；可以合并为一个单元，也可以进一步拆分成多个子单元。

在另一个实施例中，本申请实施例中还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如所述命名实体识别方法的步骤。

在另一个实施例中，本申请实施例中还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述命名实体识别方法的步骤。

综上所述，本申请通过在已有的基于Bi-LSTM模型和CRF的模型上进行改进。在命名实体识别领域，深度学习因其自身良好的效果，已经得到了广泛的应用，但是深度学习模型往往需要大量的标注样本用于训练模型才能发挥优势。考虑到人工标注语句成本极高，尽管我们会尽可能充实我们的数据，但是依然无法完全还原人类语言表达的多样性，所以这里我们在Bi-LSTM和CRF的基础上，引入了使用开源工具标注的手动特征。把手动特征通过自编码器和已有模型结合起来达到更优的效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种命名实体识别方法，其特征在于，所述方法包括：

获取待识别命名实体的文本信息；

通过预设的双向长短期记忆网络BiLSTM-条件随机场CRF模型对所述文本信息的向量矩阵进行命名实体识别；并获得识别结果；

2.根据权利要求1所述的方法，其特征在于，所述组成向量矩阵，包括：

3.根据权利要求1所述的方法，其特征在于，获得预设的BiLSTM-CRF模型，包括：

在训练初始BiLSTM-CRF模型时，将通过BiLSTM获得的特征向量分别输入自编码器和CRF，基于模型损失函数计算交叉熵，并利用反向传播算法和梯度下降算法更新训练初始BiLSTM-CRF模型的参数，获得预设的BiLSTM-CRF模型；

其中，模型损失函数为所有自编码器使用的损失函数和CRF使用的损失函数的加权和；所述手工特征中的每种特征对应一个自编码器。

4.根据权利要求1-3任一项所述的方法，其特征在于，

所述词性和词形通过开源工具生成；

所述词库根据建立的词库，或已存在的词库生成。

5.一种命名实体识别装置，其特征在于，所述装置包括：获取单元、提取单元、建立单元和识别单元；

所述获取单元，用于获取待识别命名实体的文本信息；

所述建立单元，用于建立预设的双向长短期记忆网络BiLSTM-条件随机场CRF模型；其中，所述预设的BiLSTM-CRF模型是通过自编码器将手工特征加入到初始BiLSTM-CRF模型进行训练获得的；所述手工特征包括：词性、词形和词库；

6.根据权利要求5所述的装置，其特征在于，

所述提取单元，具体用于组成向量矩阵时，将手工特征中的各特征以独热编码的方式，与词向量、字符向量拼接为一个向量矩阵。

7.根据权利要求5所述的装置，其特征在于，

所述建立单元，具体用于获得预设的BiLSTM-CRF模型包括：在训练初始BiLSTM-CRF模型时，将通过BiLSTM获得的特征向量分别输入自编码器和CRF，基于模型损失函数计算交叉熵，并利用反向传播算法和梯度下降算法更新训练初始BiLSTM-CRF模型的参数，获得预设的BiLSTM-CRF模型；其中，模型损失函数为所有自编码器使用的损失函数和CRF使用的损失函数的加权和；所述手工特征中的每种特征对应一个自编码器。

8.根据权利要求5-7任一项所述的装置，其特征在于，

所述词性和词形通过开源工具生成；

所述词库根据建立的词库，或已存在的词库生成。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4任一项所述的方法。