CN110287480A

CN110287480A - 一种命名实体识别方法、装置、存储介质及终端设备

Info

Publication number: CN110287480A
Application number: CN201910450114.9A
Authority: CN
Inventors: 徐波
Original assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Current assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-09-27
Anticipated expiration: 2039-05-27
Also published as: CN110287480B

Abstract

本发明公开了一种命名实体识别方法，包括：获取未标注语料；根据所述未标注语料对预设的语言模型进行训练；对所述未标注语料进行标注，获得标注语料；根据所述标注语料对预设的命名实体识别模型进行训练；其中，所述命名实体识别模型根据训练后的语言模型构建获得；根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。相应的，本发明还公开了一种命名实体识别装置、计算机可读存储介质及终端设备。采用本发明的技术方案能够充分利用未标注语料训练语言模型，增强语言模型的上下文理解能力，从而降低训练成本，提高识别效果。

Description

一种命名实体识别方法、装置、存储介质及终端设备

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种命名实体识别方法、装置、计算机可读存储介质及终端设备。

背景技术

自然语言处理(Natural Language Processing，NLP)是计算机科学、人工智能、语言学所关注的计算机和人类语言之间相互作用的领域，是计算机科学领域与人工智能领域中的一个重要方向。作为NLP中的一项基本任务，命名实体识别(Named EntityRecognition，NER)是指从文本中识别出具有特定类别的实体，例如人名、地名、机构名、专有名词等的技术，在所有涉及NLP的人工智能研究中，命名实体识别都是一个必须攻克的任务，命名实体的识别效果，对后续的一系列人工智能技术都有重要的影响。

现有技术一般通过构建命名实体识别模型，并根据训练后的命名实体识别模型对文本中的命名实体进行识别，在训练命名实体识别模型时，需要大量的标注语料，由于标注语料获取困难，通常做法是针对特定领域收集未标注语料，人工进行标注，但是，人工标注需要耗费大量的时间和精力，能够获得的标注语料较少，导致训练成本加高，并且根据少量的标注语料训练获得的命名实体识别模型的识别效果较差。

发明内容

本发明实施例所要解决的技术问题在于，提供一种命名实体识别方法、装置、计算机可读存储介质及终端设备，能够充分利用未标注语料训练语言模型，增强语言模型的上下文理解能力，从而降低训练成本，提高识别效果。

为了解决上述技术问题，本发明实施例提供了一种命名实体识别方法，包括：

获取未标注语料；

根据所述未标注语料对预设的语言模型进行训练；

对所述未标注语料进行标注，获得标注语料；

根据所述标注语料对预设的命名实体识别模型进行训练；其中，所述命名实体识别模型根据训练后的语言模型构建获得；

根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。

进一步地，所述获取未标注语料，具体包括：

收集文本语料；

对所述文本语料进行预处理，获得所述未标注语料；其中，所述预处理包括语料去重、繁体转简体、全角符号转半角符号和去除噪音字符。

进一步地，所述语言模型包括Word Embedding层、Bi-LSTM层和Softmax层；则，

所述根据所述未标注语料对预设的语言模型进行训练，具体包括：

基于所述Word Embedding层，根据所述未标注语料获得词向量；

基于所述Bi-LSTM层，根据所述词向量获得第一输出结果；

基于所述Softmax层，根据所述第一输出结果相应获得预测概率；

根据所述预测概率和预设的第一损失函数计算第一损失值；

根据所述第一损失值和反向传播算法对所述Bi-LSTM层的权重值进行优化更新。

进一步地，所述第一损失函数为其中，loss表示损失值，N表示训练样本的总数，pi表示训练样本中的第i个字符的预测概率。

进一步地，所述对所述未标注语料进行标注，获得标注语料，具体包括：

根据BIEO标注方式对所述未标注语料进行标注，获得所述标注语料。

进一步地，所述命名实体识别模型包括Word Embedding层、Bi-LSTM层、Softmax层和CRF层；则，

所述根据所述标注语料对预设的命名实体识别模型进行训练，具体包括：

基于所述Word Embedding层，根据所述标注语料获得词向量；

基于所述Bi-LSTM层，根据所述词向量获得第二输出结果；

基于所述Softmax层，根据所述第二输出结果相应获得所述词向量中的每个字符映射到每个标注标签的第一预测分值；

基于所述CRF层，根据所述第一预测分值获得每个字符的映射到每个标注标签的第二预测分值；

根据所述第二预测分值和预设的第二损失函数计算第二损失值；

根据所述第二损失值和反向传播算法对所述Bi-LSTM层的权重值进行优化更新。

进一步地，所述第二损失函数根据最大似然估计获得。

为了解决上述技术问题，本发明实施例还提供了一种命名实体识别装置，包括：

语料获取模块，用于获取未标注语料；

语言模型训练模块，用于根据所述未标注语料对预设的语言模型进行训练；

语料标注模块，用于对所述未标注语料进行标注，获得标注语料；

识别模型训练模块，用于根据所述标注语料对预设的命名实体识别模型进行训练；其中，所述命名实体识别模型根据训练后的语言模型构建获得；以及，

识别模块，用于根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的命名实体识别方法。

本发明实施例还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的命名实体识别方法。

与现有技术相比，本发明实施例提供了一种命名实体识别方法、装置、计算机可读存储介质及终端设备，通过未标注语料对语言模型进行训练，根据训练后的语言模型构建命名实体识别模型，并通过标注语料对命名实体识别模型进行训练，根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别，无需获取大量的标注语料，能够充分利用未标注语料训练语言模型，增强了语言模型的上下文理解能力，从而增强了命名实体识别模型的上下文理解能力，进而降低了训练成本，提高了识别效果。

附图说明

图1是本发明提供的一种命名实体识别方法的一个优选实施例的流程图；

图2是本发明提供的一种命名实体识别装置的一个优选实施例的结构框图；

图3是本发明提供的一种终端设备的一个优选实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种命名实体识别方法，参见图1所示，是本发明提供的一种命名实体识别方法的一个优选实施例的流程图，所述方法包括步骤S11至步骤S15：

步骤S11、获取未标注语料；

步骤S12、根据所述未标注语料对预设的语言模型进行训练；

步骤S13、对所述未标注语料进行标注，获得标注语料；

步骤S14、根据所述标注语料对预设的命名实体识别模型进行训练；其中，所述命名实体识别模型根据训练后的语言模型构建获得；

步骤S15、根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。

具体的，首先获取大量的用于模型训练的未标注语料，根据获得的未标注语料对预先构建的语言模型中的网络结构和相关参数进行训练；接着对未标注语料中的少量语料(具体标注的数量可以根据实际需要进行选择)进行标注处理，相应获得标注语料，根据训练后的语言模型的网络结构和相关参数构建命名实体识别模型，根据标注语料对构建的命名实体识别模型中的相关参数进行训练；最后根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别，相应获得识别结果。

需要说明的是，使用未标注语料，训练的是语言模型，可以增强语言模型对上下文信息的理解能力，使用标注语料，训练的是命名实体识别模型，由于命名实体识别模型是根据训练后的语言模型构建获得的，在根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别时，同样可以增强命名实体识别模型对待识别文本中的字符的上下文信息的理解能力，而使用标注语料对命名实体模型进行训练，相当于是修正训练后的语言模型中的相关参数，使得命名实体模型的识别结果更加准确，从而可以增强命名实体识别模型的识别效果，同时，在训练命名实体识别模型时，由于命名实体识别模型的部分网络结构和部分参数已经根据大量的未标注语料训练过，无需再使用大量的标注语料进行训练，因而可以降低训练成本。

在另一个优选实施例中，所述获取未标注语料，具体包括：

收集文本语料；

可以理解的，结合上述实施例，为了获取大量的用于模型训练的未标注语料，需要收集大量的文本语料，并且由于收集文本语料时可能有不同的语料来源(如从网上获取)、不同格式的文本语料，导致收集到的文本语料比较杂乱，因此需要对收集到的文本语料进行预处理，例如对文本语料进行语料去重处理、繁体转简体处理、全角符号转半角符号处理和去除噪音字符处理(如标点符号)等，从而获得符合一定标准的未标注语料。

在又一个优选实施例中，所述语言模型包括Word Embedding层、Bi-LSTM层和Softmax层；则，

基于所述Word Embedding层，根据所述未标注语料获得词向量；

基于所述Bi-LSTM层，根据所述词向量获得第一输出结果；

根据所述预测概率和预设的第一损失函数计算第一损失值；

具体的，结合上述实施例，预先根据Word Embedding层、Bi-LSTM层和Softmax层构建语言模型，在根据获得的未标注语料对构建的语言模型中的网络结构和相关参数进行训练时，首先通过Word Embedding层将未标注语料转化为词向量，接着将词向量输入Bi-LSTM层，相应获得Bi-LSTM层的第一输出结果，将第一输出结果输入Softmax层，根据第一输出结果相应获得一个预测概率，然后根据该预测概率和预先设置的第一损失函数可以计算得到第一损失值，最后根据计算获得的第一损失值和反向传播算法对Bi-LSTM层的权重值进行优化更新。

需要说明的是，对于Bi-LSTM层，包括前向LSTM层和反向LSTM层(前向LSTM层和反向LSTM层是相互独立的，不共享任何参数)，前向LSTM层和反向LSTM层均包括数量相同的若干个LSTM单元，且前向LSTM层的第i个LSTM单元的输出作为前向LSTM层的第i+1个LSTM单元的输入，反向LSTM层的第i+1个LSTM单元的输出作为反向LSTM层的第i个LSTM单元的输入。

对于词向量中的第i个字符，将第i个字符输入到前向LSTM层的第i个LSTM单元，相应获得一个输出y_i1，将词向量中的第i个字符输入到反向LSTM层的第i个LSTM单元，相应获得一个输出y_i2，将y_i1和y_i2进行拼接，从而获得将第i个字符输入Bi-LSTM层后对应的输出结果y_i，同理，将词向量中的每一个字符依次输入Bi-LSTM层的每一个LSTM单元，相应获得该词向量对应的第一输出结果。

在将第一输出结果输入Softmax层后，以第i个字符为例，可以预测第i个字符的下一个字符，即第i+1个字符出现的概率，同理，可以预测词向量中的每一个字符的下一个字符出现的概率，相应获得上述预测概率，根据预测概率以及预先设置的损失函数计算第一损失值，以根据第一损失值和反向传播算法对Bi-LSTM层的权重值进行优化更新(Bi-LSTM层的权重的初始值可以使用Xavier算法随机初始化)，从而达到对语言模型中的网络结构和相关参数进行训练的目的。

损失函数用于衡量预测结果与标准结果之间的差距，从而能够根据差距使用反向传播算法更新每一个LSTM单元的权重(对差距求导、计算梯度、使用梯度下降法更新权重)。

采用这种训练方法，可以使Bi-LSTM层的权重矩阵包含字符之间的顺序信息、共现概率等上下文理解方面的信息，从而使训练后的语言模型具有上下文理解能力。

作为优选方案，所述第一损失函数为其中，loss表示损失值，N表示训练样本的总数，p_i表示训练样本中的第i个字符的预测概率。

需要说明的是，训练样本为上述实施例中的词向量。

在又一个优选实施例中，所述对所述未标注语料进行标注，获得标注语料，具体包括：

具体的，对于未标注语料中的每一个句子，对每个字符进行标记，相应获得标注语料，标记规则使用BIEO(begin，inside，end，other)规则；例如，某个三字人名中的第一个字、第二个字和第三个字对应标注的标签分别为B、I和E。

在又一个优选实施例中，所述命名实体识别模型包括Word Embedding层、Bi-LSTM层、Softmax层和CRF层；则，

基于所述Word Embedding层，根据所述标注语料获得词向量；

基于所述Bi-LSTM层，根据所述词向量获得第二输出结果；

具体的，结合上述实施例，预先根据Word Embedding层、Bi-LSTM层、Softmax层和CRF层构建命名实体识别模型(Word Embedding层和Bi-LSTM层为语言模型中的经过训练的Word Embedding层和Bi-LSTM层，这里直接复用)，在根据获得的标注语料对构建的命名实体识别模型中的网络结构和相关参数进行训练时，首先通过Word Embedding层将标注语料转化为词向量，接着将词向量输入Bi-LSTM层，相应获得Bi-LSTM层的第二输出结果，将第二输出结果输入Softmax层，根据第二输出结果相应获得词向量中的每个字符映射到每个标注标签的第一预测分值，然后将第一预测分值输入CRF层，根据第一预测分值相应获得每个字符的映射到每个标注标签的第二预测分值，根据该第二预测分值和预先设置的第二损失函数可以计算得到第二损失值，最后根据计算获得的第二损失值和反向传播算法对Bi-LSTM层的权重值进行优化更新。

例如，将某个三字人名中的第一个字x1、第二个字x2和第三个字x3依次输入Bi-LSTM层和Softmax层，预测获得第一个字x1、第二个字x2和第三个字x3对应的标注标签，并且以发射概率的形式进行表示，假如第一个字x1对应获得的发射概率为[0.9，0.1，0.5]，表示第一个字x1对应的标注标签是B的概率为0.9，是O的概率为0.1，是I的概率为0.5。

虽然仅根据Word Embedding层、Bi-LSTM层和Softmax层可以预测获得每个字符对应的概率最大的标注标签，但是并不能保证概率最大的标注标签就是该字符对应的正确标签，因此可以将Softmax层的输出作为CRF层的输入，通过CRF层对Softmax层的输出进行约束，以提高识别结果的准确性。

需要说明的是，在根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别时，可以根据命名实体识别模型的CRF层的输出相应获得识别结果。

作为优选方案，所述第二损失函数根据最大似然估计获得。

需要说明的是，在根据最大似然估计获得第二损失函数并且相应计算获得第二损失值后，根据第二损失值和反向传播算法对Bi-LSTM层的权重值进行优化更新，首先通过第二损失函数衡量模型输出与标签的差距(即第二损失值)，根据这个差距进行求导计算出梯度，再通过梯度下降法更新每一个LSTM单元的权重值。

本发明实施例还提供了一种命名实体识别装置，能够实现上述任一实施例所述的命名实体识别方法的所有流程，装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的命名实体识别方法的作用以及实现的技术效果对应相同，这里不再赘述。

参见图2所示，是本发明提供的一种命名实体识别装置的一个优选实施例的结构框图，所述装置包括：

语料获取模块11，用于获取未标注语料；

语言模型训练模块12，用于根据所述未标注语料对预设的语言模型进行训练；

语料标注模块13，用于对所述未标注语料进行标注，获得标注语料；

识别模型训练模块14，用于根据所述标注语料对预设的命名实体识别模型进行训练；其中，所述命名实体识别模型根据训练后的语言模型构建获得；以及，

识别模块15，用于根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。

优选地，所述语料获取模块11具体包括：

语料获取单元，用于收集文本语料；以及，

语料预处理单元，用于对所述文本语料进行预处理，获得所述未标注语料；其中，所述预处理包括语料去重、繁体转简体、全角符号转半角符号和去除噪音字符。

优选地，所述语言模型包括Word Embedding层、Bi-LSTM层和Softmax层；则，所述语言模型训练模块12具体包括：

第一词向量获取单元，用于基于所述Word Embedding层，根据所述未标注语料获得词向量；

第一输出结果获取单元，用于基于所述Bi-LSTM层，根据所述词向量获得第一输出结果；

预测概率获取单元，用于基于所述Softmax层，根据所述第一输出结果相应获得预测概率；

第一损失值获取单元，用于根据所述预测概率和预设的第一损失函数计算第一损失值；以及，

第一优化单元，用于根据所述第一损失值和反向传播算法对所述Bi-LSTM层的权重值进行优化更新。

优选地，所述第一损失函数为其中，loss表示损失值，N表示训练样本的总数，p_i表示训练样本中的第i个字符的预测概率。

优选地，所述语料标注模块13具体包括：

语料标注单元，用于根据BIEO标注方式对所述未标注语料进行标注，获得所述标注语料。

优选地，所述命名实体识别模型包括Word Embedding层、Bi-LSTM层、Softmax层和CRF层；则，所述识别模型训练模块14具体包括：

第二词向量获取单元，用于基于所述Word Embedding层，根据所述标注语料获得词向量；

第二输出结果获取单元，用于基于所述Bi-LSTM层，根据所述词向量获得第二输出结果；

第一预测分值获取单元，用于基于所述Softmax层，根据所述第二输出结果相应获得所述词向量中的每个字符映射到每个标注标签的第一预测分值；

第二预测分值获取单元，用于基于所述CRF层，根据所述第一预测分值获得每个字符的映射到每个标注标签的第二预测分值；

第二损失值获取单元，用于根据所述第二预测分值和预设的第二损失函数计算第二损失值；以及，

第二优化单元，用于根据所述第二损失值和反向传播算法对所述Bi-LSTM层的权重值进行优化更新。

优选地，所述第二损失函数根据最大似然估计获得。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的命名实体识别方法。

本发明实施例还提供了一种终端设备，参见图3所示，是本发明提供的一种终端设备的一个优选实施例的结构框图，所述终端设备包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序，所述处理器10在执行所述计算机程序时实现上述任一实施例所述的命名实体识别方法。

优选地，所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······)，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器10执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述处理器10可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器10也可以是任何常规的处理器，所述处理器10是所述终端设备的控制中心，利用各种接口和线路连接所述终端设备的各个部分。

所述存储器20主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序等，数据存储区可存储相关数据等。此外，所述存储器20可以是高速随机存取存储器，还可以是非易失性存储器，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡和闪存卡(Flash Card)等，或所述存储器20也可以是其他易失性固态存储器件。

需要说明的是，上述终端设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，图3结构框图仅仅是上述终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

综上，本发明实施例所提供的一种命名实体识别方法、装置、计算机可读存储介质及终端设备，通过未标注语料对语言模型进行训练，根据训练后的语言模型构建命名实体识别模型，并通过标注语料对命名实体识别模型进行训练，根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别，无需获取大量的标注语料，能够充分利用未标注语料训练语言模型，增强了语言模型的上下文理解能力，从而增强了命名实体识别模型的上下文理解能力，进而降低了训练成本，提高了识别效果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种命名实体识别方法，其特征在于，包括：

获取未标注语料；

根据所述未标注语料对预设的语言模型进行训练；

对所述未标注语料进行标注，获得标注语料；

2.如权利要求1所述的命名实体识别方法，其特征在于，所述获取未标注语料，具体包括：

收集文本语料；

3.如权利要求1所述的命名实体识别方法，其特征在于，所述语言模型包括WordEmbedding层、Bi-LSTM层和Softmax层；则，

基于所述Word Embedding层，根据所述未标注语料获得词向量；

基于所述Bi-LSTM层，根据所述词向量获得第一输出结果；

根据所述预测概率和预设的第一损失函数计算第一损失值；

4.如权利要求3所述的命名实体识别方法，其特征在于，所述第一损失函数为其中，loss表示损失值，N表示训练样本的总数，p_i表示训练样本中的第i个字符的预测概率。

5.如权利要求1所述的命名实体识别方法，其特征在于，所述对所述未标注语料进行标注，获得标注语料，具体包括：

6.如权利要求1所述的命名实体识别方法，其特征在于，所述命名实体识别模型包括Word Embedding层、Bi-LSTM层、Softmax层和CRF层；则，

基于所述Word Embedding层，根据所述标注语料获得词向量；

基于所述Bi-LSTM层，根据所述词向量获得第二输出结果；

7.如权利要求6所述的命名实体识别方法，其特征在于，所述第二损失函数根据最大似然估计获得。

8.一种命名实体识别装置，其特征在于，包括：

语料获取模块，用于获取未标注语料；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1～7任一项所述的命名实体识别方法。

10.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1～7任一项所述的命名实体识别方法。