CN108460013A

CN108460013A - 一种基于细粒度词表示模型的序列标注模型

Info

Publication number: CN108460013A
Application number: CN201810120922.4A
Authority: CN
Inventors: 张绍武; 林广和; 杨亮; 林鸿飞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-08-28
Anticipated expiration: 2038-01-30
Also published as: CN108460013B

Abstract

本发明提供了一种基于细粒度词表示模型的序列标注模型，用于进行序列标注任务，属于计算机应用及自然语言处理领域。本发明的模型结构主要由特征表示层、BiLSTM和CRF层3部分构成。利用该模型进行序列标注任务时，首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息，然后由Finger与BiLSTM‑CRF模型共同完成序列标注任务，最终该方法以端到端、无任何特征工程形式在CoNLL 2003数据集上取得了F1为91.09％的结果。实验表明本发明设计的Finger模型显著提升序列标注系统的召回率，从而使得模型的识别能力显著提升。

Description

一种基于细粒度词表示模型的序列标注模型

技术领域

本发明属于计算机应用及自然语言处理领域，涉及一种基于注意力机制的字符级模型及其在序列标注任务的应用。本发明提出了一种基于细粒度词表示模型的序列标注模型。主要创新在于设计了一种基于注意力机制的细粒度词表示模型来更精准、全局、动态地刻画单词的形态学信息，进而提出了基于该词表示模型的序列标注模型。该模型不仅具有较高的序列标注能力，而且无需特征工程，同时具有很强的可解释性。

背景技术

词性标注(Part-of-Speech Tagging)、命名实体识别(Named EntityRecognition，NER)等序列标注任务是自然语言处理领域的基础工作。以NER为例，其主要任务是识别文本中的人名、地名、组织机构名等专有名词和有意义的时间、日期等短语。序列标注任务作为信息抽取中重要的组成部分，其识别效果对于后续的机器翻译等任务有很大影响。

目前序列标注任务主要模型分为传统的统计机器学习模型和神经网络模型两类。常见的统计模型主要有隐马尔可夫模型(Hidden Markov Model，HMM)和条件随机场(Conditional Random Field，CRF)等浅层模型，其中CRF模型广泛应用于各种序列标注任务中，并取得了不错的效果。近年来，深度学习在自然语言处理领域中取得了重大的突破。与传统机器学习方法相比，神经网络模型在序列标注任务中取得了更好的结果。神经网络方法在使用大规模的未标注语料进行词向量训练，通过将预训练词向量输入到卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)等模型，实现了端到端的训练。在基于神经网络方法的NER任务中，Collobert等人采用CNN进行特征抽取，同时提出了一种句级对数似然函数(Sentence-level log-likelihood)，通过融合其它特征取得了不错的结果。Huang等人提出了BiLSTM-CRF模型，同时还融合了其他语言学特征以提升模型性能。在上述方法中，浅层模型采用了特征工程，但在其他领域和语言中泛化能力不佳；大部分神经网络模型尽管采用了语义丰富的词向量，自动学习任务相关的特征表示，但是没有考虑单词的结构信息，导致形态学信息缺失的问题。如何使模型能根据当前的任务自动学习形态学上的信息，从而提升实体识别性能成为近期研究的热点。

在目前的序列标注任务中，研究自动学习词形信息的工作主要有Lample等人的双向长短时记忆网络(Bi-directional Long Short-Term Memory network，BiLSTM)和Chiu等人的CNN。Lample等人采用两个BiLSTM分别自动学习词级和字符级表示，在命名实体识别任务中取得了与先进水平可比的结果。Chiu等人提出采用CNN自动学习字符级表示，在一定程度上缓解了模型对于特征工程的依赖，同时还融合了由两个公开的外部资源构造的词典特征，在CoNLL 2003英文NER语料上取得了F1为91.62％的目前最先进结果。尽管上述字符级表示模型在命名实体识别任务中取得了较好的进展，但是两者在理论上均无法全局、动态地定量表示单词内各字符在字符级词向量中的贡献。如何能全局、动态地定量刻画词内各字符的贡献以期产生一种更好的字符级表达方式是本发明的核心内容。

近年来，注意力(Attention)机制广泛应用于机器翻译等自然语言处理领域中。在NER任务中，Rei等人采用一种类似门机制的Attention模型动态地选择词级信息和字符级信息作为模型的输入，相比于仅有词向量作为输入的方法，该方法在多个数据集上有了显著提升。Bharadwaj等人通过Attention机制针对输入单词的语义信息与词内字符信息之间的关联性进行全局性地建模，从而得到该单词的上下文表示。尽管Attention机制开始在NER任务中取得了一定的进展，但如何将Attention机制的动态性和全局性有效地融入字符级模型有待进一步探索。

综合上述情况和近期Attention机制在自然语言处理领域上取得的进展，本发明提出了一种基于Attention机制的细粒度字符级词表示模型(Fine-grained character-level word representation model，Finger)。Finger根据Attention机制产生的概率分布，重点关注对于单词的形态学信息表示起到关键作用的个别字符，从而充分捕获词内的结构信息，进而有助于提升系统的识别效果。在此基础上，我们结合BiLSTM-CRF模型构建了Finger-BiLSTM-CRF模型进行实体识别任务。该模型是基于BiLSTM-CRF模型的改进，结合解释性极强的Attention机制，构成了一种完全端到端、无任何特征工程的序列标注系统。

发明内容

本发明要解决的技术问题是如何通过字符级表示模型自动地、动态地、全局地学习形态学信息，其关键点在于如何合理利用注意力机制，从而得到细粒度的字符级词表示，进而联合BiLSTM-CRF模型进行序列标注任务。

本发明的技术方案：

一种基于细粒度词表示模型的序列标注模型，一种完全基于Attention机制的字符级词表示模型Finger来替代BiLSTM、CNN字符级模型，将Finger作为BiLSTM-CRF模型的扩展，构造了新的命名实体识别模型Finger-BiLSTM-CRF；该模型的结构见图1所示，主要由特征表示层、BiLSTM和CRF层3部分构成；

(1)特征表示层：主要由词向量层和字符特征层组成；字符特征层由字符向量层和构建在字符向量层之上的基于注意力机制的Finger模型组成；词向量层和字符向量层分别接受单词和字符作为输入，分别将离散高维的独热表示映射到各自的稠密连续的低维特征空间中；Finger则将单词转换为字符序列表示，通过Attention机制建立形态学信息与字符信息间的关联，构成与词内结构相关的字符级向量；最后，将词向量和字符级向量进行拼接以表示单词在特定语义空间下的特征；

(2)BiLSTM：由正向和反向的长短时记忆网络(Long Short-Term Memory，LSTM)组成；正向和反向LSTM接收特征表示层的输出特征作为输入，分别编码当前时刻的上文和下文信息；两者的编码信息合并构成待解码的得分信息；

(3)CRF：CRF层接受BiLSTM的输出得分作为输入，同时引入转移得分矩阵，根据序列得分选择全局最优的标签序列；

整个模型既融合了序列标注任务所需的词形信息，有助于模型对于实体的判断，又结合了BiLSTM对于单词的上下文信息的表示能力，还保留CRF层求解标签序列的全局最优解的能力，从而为模型产生最优结果创造了可能。

一种采用序列标注模型进行序列标注任务的方法，步骤如下：

第一步，特征表示阶段

特征表示层将输入的单词序列映射为实值的特征向量，特征向量捕获单词的句法信息、语义信息和形态学信息；定义一个固定大小的词典V^wrd和一个固定大小的字符集V^chr；给定长度为N的句子{w₁,w₂,...,w_N}，将句子中每个单词w_n映射为由词向量和字符级向量拼接而成的词表示其中词向量捕获单词的句法信息和语义信息，字符级向量表达词形信息；

1)词向量层

词向量矩阵中的第i列代表词典中第i个单词的词向量；如公式(1)所示，通过矩阵-向量乘法将单词w_n映射为向量

其中，向量是维数为|V^wrd|的独热(one-hot)表示；矩阵W^wrd为待学习参数，词向量维度d^wrd为超参数；

2)字符向量层

给定一个由M个字符{c₁,c₂,...,c_M}构成的单词w_n，先将每个字符c_m映射为字符向量和词向量层的表示过程是相同的，字符向量矩阵中的第j列代表字符集中的第j个字符的字符向量；如公式(2)所示，通过矩阵-向量乘法将字符c_m映射为向量

其中，向量是长度为|V^chr|的独热(one-hot)表示；矩阵W^chr为待学习参数，词向量维度d^chr为超参数；

单词的字符序列经过上述的线性映射，生成字符向量序列作为后续模型的输入；

3)Finger模型

词向量的出现减少了模型对于特征工程的依赖，但由此产生了未登录词问题和形态学信息缺失问题。尽管作为字符级表示模型的BiLSTM和CNN均能通过模型学习，捕获单词的结构信息，弥补了信息缺失的问题，解决了未登录词问题。尽管BiLSTM能捕获单词的词缀信息，但无法明确指出哪些字符构成字符表示；尽管CNN捕获了单词的n-gram信息，但无法动态地表示n-gram中各个字符的贡献。

为了更好的编码单词的形态学特征，本发明提出一种基于Attention机制的细粒度字符级词表示模型Finger。Finger采用Attention机制找到适合任务的字符级词表示，该过程可以理解为形态学信息编码过程，即引入待学习的形态学信息参数，针对词形信息与字符信息的关联性进行建模，通过训练赋予与任务相关的字符以较高的权重，而降低其它无关字符的权重。在避免人工提取词缀信息的同时，捕获了单词内全局的、非线性的形态学信息。该模型将BiLSTM对于词形特征的定性表示和CNN的静态表示转变为全局动态的定量刻画。

如图2所示，首先引入一个形态学信息矩阵fin_u表示形态学特征类别数，m_k表示第k类形态学信息特征向量；同时，采用公式(3)计算相关性得分向量G_k，通过双线性操作(Bilinear Operation)来捕获形态学信息m_k与输入字符序列矩阵C之间的关联信息：

G_k＝m_k ^TUC(3)

其中，U是待训练权值矩阵；

随后，根据公式(4)来处理相关性得分向量G_k，以获得该类形态学信息的Attention权重向量α_k：

其中G_k,j,α_k,j分别表示形态学信息m_k与输入的第j个字符间的相关性得分和对应权重；

接着，利用公式(5)将Attention权重向量α_k和输入字符序列向量C相乘来表示形态学上强调的字符表示：

然后，根据公式(6)，通过一个非线性变换来表示第i类形态学特征对应的字符表示：

其中，非线性激活函数f为双曲正切函数；

最后，构成单词w_n的字符级向量

第二步，编码阶段

循环神经网络是一种时间序列模型，具有保持历史信息的能力，理论上能根据长距离特征来推测当前输出，但在实际中，RNN因为梯度消失和梯度爆炸而无法学习到历史信息。为了解决长距离依赖问题，Hochreiter等人设计了一种LSTM单元来替换原来RNN的内部实现，该单元采用了门机制来控制信息的传递，同时引入记忆单元，保证历史信息的更替。结果显示，LSTM能很好地解决长距离依赖问题。本发明中采用的LSTM实现如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i) (7)

c_t＝(1-i_t)⊙c_t-1+i_t⊙tanh(W_xcx_t+W_hch_t-1+b_c) (8)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o) (9)

h_t＝o_t⊙tanh(c_t) (10)

其中，W为层间的权重矩阵，b为偏置向量，σ为按位sigmoid函数，i，o和c分别对应输入门、输出门和记忆单元；⊙表示按位乘法；

为了充分考虑序列中的上下文信息，本发明选择BiLSTM进行上下文信息编码；BiLSTM由两个独立的LSTM构成，其中一个LSTM在某一时刻t沿着正向时序获得上文信息另一个LSTM沿着逆向时序获得下文信息将每个时刻上的两个LSTM的隐藏层向量连接起来，形成BiLSTM在该时刻的输出h_t表示当前时刻t的上下文信息；

第三步，解码阶段

通常在预测阶段采用Softmax分类器解决多分类问题，但Softmax分类器在序列标注问题中没有考虑到标签之间的依存关系。例如，在IOBES标注方式下，标注器若能正确学得模型，那么I-PER的后继标签不能为B-ORG或I-LOC等错误标签，可能的正确标注应该为I-PER或E-PER。

鉴于上述情况，本发明采用Collobert提出的句级对数似然函数，也就是CRF层。该方法考虑标签序列的全局信息，具体细节如下：

假定引入转移得分矩阵A，矩阵元素A_i,j表示标签i转移到标签j的转移得分，令y₀,y_n+1为句中的起始标签和终止标签，标签种类为k，则设句子长度为n，则输出层的得分矩阵为矩阵元素P_i,j表示第i个词在第j个标签下的输出得分；

给定输入句子X＝(x₁,x₂,...,x_n)，输出标签序列y＝(y₁,y₂,...y_n)，则该标签序列的总得分为

对所有可能的序列路径进行归一化，产生关于输出序列y的概率分布：

在训练过程中，最大化关于正确标签序列y^*的对数概率：

从上式可知：采用句级似然函数的目的是鼓励模型生成正确的标签序列。在解码阶段，预测总得分最高的序列作为最优序列，即：

在预测阶段，本发明采用维特比算法来求解最优序列。

本发明的有益效果：以序列标注任务中经典的实体识别任务为例，由于引入Finger模型，整个模型对于单词的边界判断有了很大提升，表明Finger作为字符级模型的有效性；而在实验过程中对于实体内各单词的首字母均呈现较高权重，这和我们对于命名实体特征的认知保持高度一致，表明本发明设计的Finger模型不同于BiLSTM和CNN，该模型通过Attention机制，展现了良好的可解释能力，能定量表示词内各字符对于字符级词表示的贡献程度，所呈现的词表示对于NER系统的实体识别能力有较大的提升。

附图说明

图1是Finger-BiLSTM-CRF模型结构。

图2是Finger结构。

具体实施方式

所论述的具体实施例仅用于说明本发明的实现方式，而不限制本发明的范围。以下结合技术方案和附图详细说明本发明的实施例。

为了更为精确的表示单词的词形信息，本发明设计了一种基于Attention机制的细粒度词表示模型Finger，同时，通过联合Finger和BiLSTM-CRF模型进行序列标注任务，取得了理想的结果。

1.表示阶段

在表示阶段，给定由任意长的句子，通过公式(1)-(6)分别表示对应单词的词向量表示和字符向量表示，并通过拼接，连接单词序列的词向量和字符向量。

2.编码阶段

在编码阶段，BiLSTM将接收步骤1中单词序列表示作为输入，通过公式(7)-(10)编码每个单词的上下文信息。

3.解码阶段

在解码阶段，CRF将接收来自BiLSTM的上下文信息，通过公式(11)-(14)解码出整个输入序列的最优解序列。

目前，本发明在命名实体识别任务CoNLL 2003语料上取得了91.09％的结果，在词性标注语料Wall Street Journal上取得了97.36％的结果。

Claims

1.一种基于细粒度词表示模型的序列标注模型，其特征在于，一种完全基于Attention机制的字符级词表示模型Finger来替代BiLSTM、CNN字符级模型，将Finger作为BiLSTM-CRF模型的扩展，构造了新的命名实体识别模型Finger-BiLSTM-CRF；该模型主要由特征表示层、BiLSTM和CRF层3部分构成；

(2)BiLSTM：由正向和反向的长短时记忆网络LSTM组成；正向和反向LSTM接收特征表示层的输出特征作为输入，分别编码当前时刻的上文和下文信息；两者的编码信息合并构成待解码的得分信息；

(3)CRF：CRF层接受BiLSTM的输出得分作为输入，同时引入转移得分矩阵，根据序列得分选择全局最优的标签序列。

2.一种根据权利要求1所述的序列标注模型进行序列标注任务的方法，其特征在于，步骤如下：

第一步，特征表示阶段

1)词向量层

其中，向量是维数为|V^wrd|的独热表示；矩阵W^wrd为待学习参数，词向量维度d^wrd为超参数；

2)字符向量层

其中，向量是长度为|V^chr|的独热表示；矩阵W^chr为待学习参数，词向量维度d^chr为超参数；

3)Finger模型

首先引入一个形态学信息矩阵fin_u表示形态学特征类别数，m_k表示第k类形态学信息特征向量；同时，采用公式(3)计算相关性得分向量G_k，通过双线性操作来捕获形态学信息m_k与输入字符序列矩阵C之间的关联信息：

G_k＝m_k ^TUC (3)

其中，U是待训练权值矩阵；

其中，非线性激活函数f为双曲正切函数；

最后，构成单词w_n的字符级向量

第二步，编码阶段

采用LSTM实现如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i) (7)

c_t＝(1-i_t)⊙c_t-1+i_t⊙tanh(W_xcx_t+W_hch_t-1+b_c) (8)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o) (9)

h_t＝o_t⊙tanh(c_t) (10)

为了充分考虑序列中的上下文信息，选择BiLSTM进行上下文信息编码；BiLSTM由两个独立的LSTM构成，其中一个LSTM在某一时刻t沿着正向时序获得上文信息另一个LSTM沿着逆向时序获得下文信息将每个时刻上的两个LSTM的隐藏层向量连接起来，形成BiLSTM在该时刻的输出h_t表示当前时刻t的上下文信息；

第三步，解码阶段

采用Collobert提出的句级对数似然函数，即CRF层，并考虑标签序列的全局信息，具体细节如下：

设定引入转移得分矩阵A，矩阵元素A_i,j表示标签i转移到标签j的转移得分，令y₀,y_n+1为句中的起始标签和终止标签，标签种类为k，则设句子长度为n，则输出层的得分矩阵为矩阵元素P_i,j表示第i个词在第j个标签下的输出得分；

在训练过程中，最大化关于正确标签序列y^*的对数概率：

从上式可知：采用句级似然函数的目的是鼓励模型生成正确的标签序列；在解码阶段，预测总得分最高的序列作为最优序列，即：

在预测阶段，采用维特比算法来求解最优序列。