CN110442860A

CN110442860A - 基于时间卷积网络的命名实体识别方法

Info

Publication number: CN110442860A
Application number: CN201910602993.2A
Authority: CN
Inventors: 车超; 赵撼宇; 张强
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-11-12

Abstract

本发明涉及一种基于时间卷积网络的命名实体识别方法。方法步骤为：首先构建特征表示层，其主要由词向量和字符特征层组成。词向量层和字符向量层分别接受单词和字符作为输入，分别将离散的One‑hot表示映射到各自的连续稠密的低维特征空间中。然后将词向量和字符级向量进行拼接以表示单词在特定语义空间下的特征。其次将拼接后的特征作为时间卷积网络的输入，经过融合卷积核大小不同的时间卷积网络提取不同特征，得到最终的特征h₁h₂…h_n。最后将得到的特征作为CRF层的输入，CRF对上下文标注进一步约束后，输出序列标注结果y₁y₂...y_n。本发明的TCN网络相较于现有的LSTM网络，识别精度稍有提高，训练时间仅为LSTM网络的约1/3。

Description

基于时间卷积网络的命名实体识别方法

技术领域

本发明涉及命名实体识别领域，具体涉及一种基于时间卷积网络的命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。目前，主流的命名实体识别方法都是神经网络模型。如基于CNN(Convolutional Neural Network)的命名实体识别方法。但传统的CNN网络的感受野较小且大小固定，无法记忆长时信息。在命名别实体识别任务上，最常用的网络是LSTM，但LSTM只能串行处理，运算速度较慢。例如，申请号2017109467319的中国专利提供了一种基于LSTM-CNN的命名实体识别方法。该方法在训练阶段将带有标签的训练语料数据转换为字符级的语料数据，然后训练基于LSTM-CNN的深度学习模型；在预测阶段将没有标签的测试语料数据转换为字符级的语料数据，然后使用训练阶段训练好的深度学习模型进行预测。该方法就存在只能串行处理，运行速度较慢的问题。

针对上述问题，本发明使用TCN(temporal convolutional network)来进行命名实体识别任务。

发明内容

为了消除传统命名实体识别方法的以上缺陷，本发明提出了一种基于时间卷积网络的命名实体识别方法，该模型在TCN的基础上，利用卷积核大小不同的TCN网络在不同的感受野下分别提取特征，并对二者提取的特征进行融合，最后利用CRF算法对其进行解码，获得最终的标记结果。

为实现上述目的，本发明采用以下步骤：

步骤1：采用词向量和字符级向量构建特征表示层，作为模型的输入；

步骤2：经过融合卷积核大小不同的时间卷积网络提取的不同特征，得到最终的特征h₁h₂...h_n；

步骤3：将提取的特征作为CRF层的输入，CRF对上下文标注进一步约束后，输出序列标注结果y₁y₂...y_n。

所述的步骤1构建特征表示层的主要步骤的依据如下：

特征表示层将输入单词序列映射为连续稠密的特征向量，该特征向量捕获了单词的语义信息、句法信息以及形态学信息。定义一个固定大小的词典D_word和一个固定大小的字符集D_char；给定长度为N的句子{w₁,w₂,...,w_n}，将句中每个单词映射为词向量r_word∈R_word和字符级向量r_char∈R_char拼接而成的词表示x_n＝[r_word；r_char]，其中词向量捕获了单词的语义信息和句法信息，字符级向量捕获了单词的词形信息。

所述的步骤2构造网络层的主要步骤的依据如下：

时间卷积网络通过使用因果卷积，保证前面时间步的预测不会使用未来的信息，其公式如下：

TCN网络采用1*3和1*5两种规模的卷积核，分别提取文本的特征，最后将二者提取的特征进行融合；

并且通过使用空洞卷积扩大感受野。空洞卷积的原理是，在保持输入不变的情况下，向卷积核中添加一些值为0的权重，对于一维的输入序列x∈R^n和卷积核f:{0,1...,k-1}→R,空洞卷积的公式为：

最后该网络通过加入了残差的跳层连接来提高准确率。在残差模块内，有1层空洞卷积和ReLU激励函数，且每个卷积核的权重都经过了归一化，每个空洞卷积后都增加了Dropout以实现正则化。

所述的步骤3构造CRF层的主要步骤的依据如下：

假定引入转移得分矩阵A，矩阵元素A_ij表示标签i转移到标签j的转移得分，令y₀,y_n+1为句中的起始标签和终止标签，标签种类为k,则A∈R^(k+2)(k+2)。设句子长度为n，则输出层的得分矩阵为P∈R^n*k，矩阵元素P_i,j表示第i个单词在第j个标签下的输出得分。在输入为X＝(x₁,x₂,...,x_n)，输出标签序列y＝(y₁,y₂,...,y_n)，则该标签的总得分为：

对所有可能的序列路径进行归一化，产生关于输出序列y的概率分布：

在训练过程中，最大化关于正确标签序列的对数概率：

由上式可知，该式可以促使模型生成正确的标签序列；在解码阶段，预测总得分最高的序列为最优的序列

在预测阶段使用维特比算法来求解最优序列。

本发明的有益效果在于TCN通过使用一维因果卷积可以充分的提取序列中的时序信息，解决了普通卷积操作无法获取时序信息的缺陷。此外，TCN的反向传播路径和序列的时间方向不同，这避免了RNN系列模型经常出现的梯度爆炸和梯度消失问题，且可以大规模并行处理，网络的训练和验证时间都会变短。而且TCN通过堆叠更多的卷积层、使用更大的膨胀系数以及增大卷积核的大小，提高了感受野大小改变的灵活性，解决了普通卷积操作感受野较小无法记忆长时信息的问题。

附图说明

图1为网络整体的架构图，为所提出模型的整体架构，主要由特征表示层、TCN和CRF层三部分组成；

图2为网络特征提取部分结构图；

图3为残差块结构图。

具体实施方式

以下结合附图和实施例对本发明作进一步详细说明。

实施例：请参见图1，为本发明所提出模型的整体架构，主要由特征表示层、TCN和CRF层三部分组成。其中，特征表示层主要由词向量和字符特征层组成。词向量层和字符向量层分别接受单词和字符作为输入，并且将离散的One-hot表示映射到各自的连续稠密的低维特征空间中；然后，将词向量和字符级向量进行拼接以表示单词在特定语义空间下的特征；随后将拼接后的特征作为TCN的输入，经过融合卷积核大小不同的TCN提取的不同特征，得到最终的特征h₁h₂...h_n，并以此作为CRF层的输入，CRF对上下文标注进一步约束后，输出序列标注结果y₁y₂...y_n。

本发明实验数据来自于CoNLL2003英文命名实体识别数据集和GENIA数据集，分别验证该模型在通用领域和垂直领域的有效性。CoNLL2003数据集来自路透社新闻语料。为了方便研究，该数据集已经预先划分了训练集、验证集和测试集，避免了测试语料不统一无法有效比较结果的问题。

CoNLL2003训练集中共有23499个实体、验证集共有5942个实体、测试集共有5648个实体，包括人名(PER)、地名(LOC)、组织名(ORG)和其他实体(MISC)4类实体。GENIA数据集，其标记语料为生物医学文本。该数据集为了避免测试语料不统一，也预先划定了训练集和测试集，GENIA语料包括Protein、DNA、RNA、Cell Type和Cell Line五类实体，其中训练集一共有51301个实体，测试集一共有8662个实体。其步骤如下：

步骤1：采用词向量和字符级向量构建特征表示层，作为模型的输入。

按照上述步骤，将本发明分别与常用的命名实体识别模型LSTM、BiLSTM_CRF进行对比。对比结果表明本发明所提出的TCN_CRF模型在效率上均优于传统的网络模型。

本发明实施例所提出的TCN-CRF模型利用卷积核大小不同的TCN网络在不同的感受野下分别提取特征，并对二者提取的特征进行融合，最后利用CRF算法对其进行解码，获得最终的标记结果。

上述实施例所述仅为本发明较佳的一部分实施例，在此不可能也没必要列举所有可能的实施例，因此本发明的保护范围不被该实施例限定；任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其主要精神加以等同替换或改变，均属于本发明的保护范围，本发明的保护范围由权利要求书及其等同物确定。

Claims

1.基于时间卷积网络的命名实体识别方法，其特征在于，包括以下步骤：

步骤2：经过融合卷积核大小不同的时间卷积网络提取的不同特征，得到最终的特征h₁h₂…h_n；

2.根据权利要求1所述的基于时间卷积网络的命名实体识别方法，其特征在于，步骤1构建特征表示层的主要步骤是根据：

特征表示层将输入单词序列映射为连续稠密的特征向量，该特征向量捕获了单词的语义信息、句法信息以及形态学信息；定义一个固定大小的词典D_word和一个固定大小的字符集D_char；给定长度为N的句子{w₁,w₂,...,w_n}，将句中每个单词映射为词向量r_word∈R_word和字符级向量r_char∈R_char拼接而成的词表示x_n＝[r_word；r_char]，其中词向量捕获了单词的语义信息和句法信息，字符级向量捕获了单词的词形信息。

3.根据权利要求1所述的基于时间卷积网络的命名实体识别方法，其特征在于，步骤2构造网络层的主要步骤是根据：

并且通过使用空洞卷积扩大感受野；空洞卷积的原理是，在保持输入不变的情况下，向卷积核中添加一些值为0的权重，对于一维的输入序列x∈R^n和卷积核f:{0,1...,k-1}→R，空洞卷积的公式为：

最后该网络通过加入了残差的跳层连接来提高准确率；在残差模块内，有1层空洞卷积和ReLU激励函数，且每个卷积核的权重都经过了归一化，每个空洞卷积后都增加了Dropout以实现正则化。

4.根据权利要求1所述的基于时间卷积网络的命名实体识别方法，其特征在于，步骤3构造CRF层的主要步骤是根据：

假定引入转移得分矩阵A，矩阵元素A_ij表示标签i转移到标签j的转移得分，令y₀,y_n+1为句中的起始标签和终止标签，标签种类为k,则A∈R^(k+2)(k+2)。设句子长度为n，则输出层的得分矩阵为矩阵元素P_i,j表示第i个单词在第j个标签下的输出得分，在输入为X＝(x₁,x₂,...,x_n)，输出标签序列y＝(y₁,y₂,...,y_n)，则该标签的总得分为：

在训练过程中，最大化关于正确标签序列的对数概率：

由上式可知，该式可以促使模型生成正确的标签序列；在解码阶段，预测总得分最高的序列为最优的序列；

在预测阶段使用维特比算法来求解最优序列。