CN111199152A

CN111199152A - 一种基于标签注意力机制的命名实体识别方法

Info

Publication number: CN111199152A
Application number: CN201911329149.3A
Authority: CN
Inventors: 郑帅; 刘军; 孟庆波; 田智强
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-26

Abstract

本发明公开了一种基于标签注意力机制的命名实体识别方法，采用的网络模型包括IDCNN‑BiLSTM‑LAN层和BiLSTM‑LAN层；通过对所有候选标签进行编码的方式，利用标签知识捕捉了标签间长期依赖关系，并在一定程度上解决了标注偏执问题。序列标注实验结果证明，在比BiLSTM‑CRF训练解码速度更快的情况下，本发明可以达到更高的实体提取准确率，可以应用于智能家居领域人机交互话术的语义理解。

Description

一种基于标签注意力机制的命名实体识别方法

技术领域

本发明属于自然语言处理领域，涉及一种智能家居领域人机交互话术的命名实体识别方法。

背景技术

实体是文本的基本信息元素，是构成文本的基础。命名实体识别(Named EntityRecognition,NER)是自然语言处理的一项基本任务，主要是从一段文本中找出实体，并对实体出现的位置和类别进行标记。随着深度学习的发展，最近几年出现了大量的基于神经网络的模型，最具代表性的是BiLSTM-softmax和BiLSTM-CRF模型。然而在很多情况下，BiLSTM-CRF并没有比不对输出序列进行建模的BiLSTM-softmax取得更好的效果。一个可能的原因是神经网络编码器已经有很强的序列信息编码能力，在此基础上CRF并没有引入更多的有效信息，对输出序列没有进行很好的编码。

人机交互话术的命名实体识别方法在应用于家居领域时，由于人机交互话术文本意图范围广泛，且实体类别细分领域众多，因此对实体的标记提取的准确性要求较高。在智能家居领域人机交互话术自然语言处理中就使用到了NER方法，但当前智能家居领域NER方法在实体提取结果上仍缺乏一定的准确性，导致无法为后续的子任务机器翻译提供准确的实体标记信息，影响机器对整个文本的语义理解，进而对整体的家居产品效果产生影响，使产品缺乏竞争力。

发明内容

针对智能家居领域文本话术的特点，为了更好的对输出序列进行编码，本发明提供了一种基于标签注意力机制的命名实体识别方法。

为达到上述目的，本发明采用了以下技术方案：

一种基于标签注意力机制的命名实体识别方法，该命名实体识别方法包括以下步骤：

1)将基于预训练获得的输入文本的向量化表示(即词向量，表示为：…，X_t-1，X_t，X_t+1，…)并行输入IDCNN网络和第一BiLSTM网络，将IDCNN网络和第一BiLSTM网络输出的向量进行拼接后形成蕴含词信息的特征向量(即输入文本的词信息序列，表示为：…，h^w _t-1，h^w _t，h^w _t+1，…)；

2)计算蕴含词信息的特征向量与候选标签的注意力机制(Attention)，从而生成输入文本中每个词对每个候选标签的相近程度的概率分布(…，c¹ _t-1，c¹ _t，c¹ _t+1，…)；

3)将步骤2)生成的各个概率分布与对应候选标签相乘，形成蕴含标签信息的特征向量(即输入文本的标签信息序列，表示为：…，h^m _t-1、h^m _t、h^m _t+1，…；其中，h^m _t＝c^l _t×y^m _t)；

4)将步骤1)形成的蕴含词信息的特征向量和步骤3)形成的蕴含标签信息的特征向量拼接后同时通过第二BiLSTM网络进行编码；

5)计算步骤4)中的第二BiLSTM网络输出的向量(即隐层向量，表示为：…，h^t-1，h^t，h^t+1，…)与候选标签的注意力机制(Attention)，再次生成输入文本中每个词对每个候选标签的相近程度的概率分布(…，c² _t-1，c² _t，c² _t+1，…)，得到用于文本命名实体识别预测的网络模型，可以直接根据分布情况来输出预测结果(…，y_t-1，y_t，y_t+1，…)。

优选的，所述命名实体识别方法还包括以下步骤：将待识别命名实体的文本的向量化表示输入上述网络模型，然后由该网络模型输出该文本的命名实体的标签标注结果。

优选的，所述步骤1)中，采用BERT预训练中文词向量，可以较完整地保存文本语义信息，提升了上下文双向特征抽取能力，并较好地解决了命名实体的边界划分问题。

优选的，所述候选标签选自根据智能家居人机交互话术归纳得到的以字符为单位的命名实体类别中的一种以上。

一种基于标签注意力机制的命名实体识别系统，该命名实体识别系统包括用于文本命名实体识别预测的网络模型，所述网络模型包括IDCNN-BiLSTM-LAN层和BiLSTM-LAN层；

所述IDCNN-BiLSTM-LAN层：利用并行的IDCNN网络和第一BiLSTM网络并根据输入文本的向量化表示分别输出向量及对各输出向量进行拼接后形成蕴含词信息的特征向量，及计算蕴含词信息的特征向量与候选标签的注意力机制(Attention)；

所述BiLSTM-LAN层：利用第二BiLSTM网络对经过拼接的蕴含词信息的特征向量和蕴含标签信息的特征向量同时进行编码，及计算第二BiLSTM网络输出的向量与候选标签的注意力机制(Attention)，其中，蕴含标签信息的特征向量是通过将IDCNN-BiLSTM-LAN层中经计算注意力机制(Attention)生成的输入文本中每个词对每个候选标签的相近程度的概率分布与对应候选标签相乘形成的。

优选的，所述网络模型还包括用于获得文本的向量化表示的预处理模型。

优选的，所述预处理模型采用BERT预训练中文词向量。

本发明的有益效果体现在：

本发明提出的基于标签注意力机制的命名实体识别方法中，通过对所有候选标签进行编码的方式，利用标签知识捕捉了标签间长期依赖关系，并在一定程度上解决了标注偏执问题。序列标注实验结果证明，在比BiLSTM-CRF训练解码速度更快的情况下，本发明可以达到更高的实体提取准确率，可以应用于智能家居领域人机交互话术的语义理解。

本发明提出的基于标签注意力机制的命名实体识别系统中，IDCNN-BiLSTM并行编码文本特征，既能兼顾全局特征(通过BiLSTM)，又能兼顾局部特征(通过IDCNN)。其中，IDCNN使接受域可快速覆盖到全部的输入数据(IDCNN模型在膨胀的宽度随着层数的增加呈现为指数增加，但参数的数量是线性增加的)，并且IDCNN使得接受域扩大的同时解决了利用循环神经网络在提取特征时存在的不能很好的兼顾到局部特征的问题(尽管IDCNN不具备双向循环神经网络从序列的整体提取正向和反向特征)。该系统通过利用标签知识捕捉标签间长期的依赖关系，对文本中实体的提取准确率更高，可以应用于智能家居领域人机交互话术的语义理解。

附图说明

图1为命名实体语料标签形式。

图2为整体模型框图。

具体实施方式

下面结合附图和实施例对本发明进行进一步详细说明。

用于命名实体识别的智能家居人机交互领域话术的数据全部为自制数据集，实体标注中B表示开始，I表示中间，L表示结尾，S表示单独一个实体，非实体用O表示。实体标签类别为8类，如表1所示：

表1.命名实体语料标签形式

数据集片段如图1所示，包括用户话术的输入文本语料(源语句)，以及与输入文本语料对应的标签标注的语料形式，训练和测试的数据集比例大概为10:1。

(二)基于标签注意力机制的网络模型

该网络模型主要分为三部分，如图2所示，分别为BERT预训练模型、IDCNN-BiLSTM-LAN层和BiLSTM-LAN层。所述网络模型首先利用BERT预训练模型对输入文本(表示为：E₁…，E_t-1，E_t，E_t+1，…，E_N；N为文本字符数)进行单个字符编码，得到输入文本的单个字符词向量，接着进入IDCNN-BiLSTM-LAN层中，该层由IDCNN、BiLSTM对输入文本进行编码特征提取和对标签信息进行推理(Label Attention Inference Layer，LAN)组成。输入的词向量先由IDCNN和BiLSTM分别使用卷积神经网络和循环神经网络提取特征向量，并将两个特征向量拼接，形成既包含全局特征又包含局部特征的拼接向量，然后计算该拼接向量与标签序列的Attention表示，接着将蕴含词信息的拼接向量与蕴含标签信息的向量拼接并输入到BiLSTM-LAN层。在BiLSTM-LAN层中输入文本的序列表示和输出标签的序列表示同时被BiLSTM编码。所述网络模型中，IDCNN-BiLSTM-LAN层学习到局部的信息，BiLSTM-LAN层学习到更加全局的信息，然后BiLSTM-LAN直接根据预测得到每个词的标签。

本发明的网络模型可以看成是BiLSTM-softmax的一种变种。一层IDCNN-BiLSTM-LAN与一层BiLSTM-softmax完全相同。然而多层BiLSTM-softmax仅仅叠加BiLSTM，可以更好的编码输入序列信息。BiLSTM-LAN可以理解为既叠加了BiLSTM也叠加了softmax，用来更好的学习输入和输出序列的表示。

(三)评价指标

本发明采用常用的命名实体识别指标衡量实验结果(准确率P、召回率R和F1值)：

(四)仿真实验

1、参数设置

本发明中，BERT预训练模型默认使用12头注意力机制的Transformer，预训练词向量长度为512维。每批次大小为64，优化器采用的是Adam，学习率设置为5×10^-5，droupout为0.5，为缓解梯度消失和爆炸的影响。Attention层参数为64，即每个词向量被压缩为64维。

对于IDCNN-BiLSTM-LAN层及BiLSTM-LAN层，BiLSTM的隐层节点为300，IDCNN的filter个数为100，模型中的droupout层参数设置为0.5，采用Adam优化算法，学习率设置为0.001，batch size的大小为64，epoch的大小为80。

2、实验结果对比

表2.三种网络模型的比较

本发明中，第一层的IDCNN-BiLSTM-LAN学习到局部的信息，第二层的BiLSTM-LAN学习到更加全局的信息，在得到更加全局的信息后BiLSTM-LAN直接根据预测得到每个词的标签。根据实验结果(参见表2)，本发明提出的网络模型在准确率、召回率和F1值上均取得了更好的性能分数，从而可以为智能家居领域人机交互话术的语言理解后续子任务机器翻译提供了准确的前期实体标记的支撑，更加有利于机器对文本的语义理解。

Claims

1.一种基于标签注意力机制的命名实体识别方法，其特征在于：该命名实体识别方法包括以下步骤：

1)将输入文本的向量化表示并行输入IDCNN网络和第一BiLSTM网络，将IDCNN网络和第一BiLSTM网络输出的向量进行拼接后形成蕴含词信息的特征向量；

2)计算蕴含词信息的特征向量与候选标签的注意力机制，生成输入文本中每个词对每个候选标签的相近程度的概率分布；

3)将步骤2)生成的各个概率分布与对应候选标签相乘，形成蕴含标签信息的特征向量；

5)计算步骤4)中的第二BiLSTM网络输出的向量与候选标签的注意力机制，再次生成输入文本中每个词对每个候选标签的相近程度的概率分布，得到用于文本命名实体识别预测的网络模型。

2.根据权利要求1所述一种基于标签注意力机制的命名实体识别方法，其特征在于：所述命名实体识别方法还包括以下步骤：将待识别命名实体的文本的向量化表示输入所述网络模型，然后由该网络模型输出该文本的命名实体的标签标注结果。

3.根据权利要求1所述一种基于标签注意力机制的命名实体识别方法，其特征在于：所述步骤1)中，采用BERT预训练中文词向量。

4.根据权利要求1所述一种基于标签注意力机制的命名实体识别方法，其特征在于：所述候选标签选自根据智能家居人机交互话术归纳得到的以字符为单位的命名实体类别中的一种以上。

5.一种基于标签注意力机制的命名实体识别系统，其特征在于：该命名实体识别系统包括用于文本命名实体识别预测的网络模型，所述网络模型包括IDCNN-BiLSTM-LAN层和BiLSTM-LAN层；

所述IDCNN-BiLSTM-LAN层：利用并行的IDCNN网络和第一BiLSTM网络并根据输入文本的向量化表示分别输出向量及对各输出向量进行拼接后形成蕴含词信息的特征向量，及计算蕴含词信息的特征向量与候选标签的注意力机制；

所述BiLSTM-LAN层：利用第二BiLSTM网络对经过拼接的蕴含词信息的特征向量和蕴含标签信息的特征向量同时进行编码，及计算第二BiLSTM网络输出的向量与候选标签注意力机制，其中，蕴含标签信息的特征向量是通过将IDCNN-BiLSTM-LAN层中经计算注意力机制生成的输入文本中每个词对每个候选标签的相近程度的概率分布与对应候选标签相乘形成的。

6.根据权利要求5所述一种基于标签注意力机制的命名实体识别系统，其特征在于：所述网络模型还包括用于获得文本的向量化表示的预处理模型。

7.根据权利要求6所述一种基于标签注意力机制的命名实体识别系统，其特征在于：所述预处理模型采用BERT预训练中文词向量。