CN111783459A

CN111783459A - 一种基于改进Transformer+CRF的老挝语命名实体识别方法

Info

Publication number: CN111783459A
Application number: CN202010390416.4A
Authority: CN
Inventors: 周兰江; 杨志婥琪
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-10-16

Abstract

本发明公开了一种基于改进Transformer+CRF的老挝语命名实体识别方法，属于自然语言处理中小语种识别领域。本发明采用改进的Transformer模型对老挝语进行编码，再用CRF(条件随机场)模型进行解码，获得最优的标注序列。本文发明首先用Transformer作为字符编码器对老挝语的单个字符进行字符编码，将编码得到的字符级向量与预训练的词向量拼接并进行位置编码，作为Transformer编码组件的输入，先后通过多头注意力层和前馈神经网络层的训练，最后将得到的向量集合输入到融合了老挝语人名地名机构名语言学特征的CRF模型中进行命名实体识别训练，得到了融合了老挝语语言规则的命名实体识别模型。本发明的识别效果比主流的BLSTM+CRF的命名实体识别方法有所提升。

Description

一种基于改进Transformer+CRF的老挝语命名实体识别方法

技术领域

本发明涉及一种基于改进Transformer+CRF的老挝语命名实体识别方法，属于自然语言处理中小语种识别领域。

背景技术

命名实体识别是自然语言处理的一项基本任务。目前命名实体常用的方法有基于规则和词典的方法，基于统计的方法，基于混合模型的方法和基于深度学习的方法。由于老挝语标注语料的匮乏，目前RNN、CNN、BiLSTM、BiGRU等深度模型被主要应用于老挝语命名实体识别的研究中，这种方法的优势在于不需要人工对数据进行标注，可由搭建好的神经网络模型自行训练并提取特征。随着并行效率更高的基于注意力机制的Transformer模型的提出，人们也开始用Transformer+CRF模型来完成自然语言处理的任务。对于命名实体识别任务，Transformer模型经过稍微的改进能够呈现出比其他深度模型更好的性能。但老挝语语言特点使得老挝语的语言规则归纳困难，并且老挝语的研究语料极其匮乏，目前在命名实体识别领域对老挝语的研究还很少，因此，老挝语的识别准确率还有很大的提升空间。

发明内容

本发明要解决的技术问题是提供一种基于改进的Transformer+CRF的老挝语命名实体识别方法，用于解决老挝语命名实体识别问题，能够有效提高老挝语命名实体识别的准确率。

本发明的技术方案是：一种基于改进的Transformer+CRF的老挝语命名实体识别方法，所述的方法的具体步骤如下：

Step1，对现有老挝语命名实体语料进行预处理并划分数据集，其中，训练集占90％，测试集占10％；

Step2,对老挝语句子进行分词，并通过Gensim的word2vec模型预训练词向量，训练出具有上下文语义的词向量；

Step3，将老挝语句子分词后每个词语的单个字符作为输入，采用Transformer作为字符编码器输出字符级特征向量；

Step4，将字符级特征向量和Step2训练好的词向量拼接形成词嵌入；

Step5，对Step4得到的词嵌入(word embedding)进行位置编码，在wordembedding上组合一个表示位置信息的位置向量，得到最终的带有位置信息的向量；

Step6，将带有位置信息的向量输入Transformer编码组件(Encoder)(编码组件包括多个编码器，每个编码器有一个自注意力层和一个前馈神经网络层)的Multi-HeadAttention层并进行带有方向与相对位置信息的自注意力值(Self-Atteniton)计算。

Step7，将Multi-Head Attention层输出的向量传递到Feed Forward Network层进行计算，输出编码好的向量集合。

Step8，将老挝语人名地名机构名的多个语言学特征融合到CRF模型中。

Step9，将Step7中Transformer模型输出的向量集合输入到Step8中融合了多特征的CRF模型中，进行老挝语命名实体的识别训练。

具体地，所述步骤Step1中对老挝语命名实体语料的预处理，主要是通过Python编码去除噪声。

具体地，所述步骤Step2首先通过老挝语分词工具将老挝语句子切分成词语，再遍历老挝语去除停用词表，去停用词，在Gensim包中调用Word2vec算法，将去停用词后的老挝词语作为Word2vec算法的输入，对词语的频率和上下文信息进行训练，最终输出具有了上下文语义特征的词向量。

具体地，所述步骤Step3将老挝语字符先后通过Transformer编码器的多头注意力层Multi-Head Attention，前馈神经网络层Feed Forward Network(两个子层使用残差连接)来提取字符特征。比起CNN字符编码器Transformer作为字符编码器不仅充分利用了GPU的并发能力，而且还具有识别不同语法和甚至不连续模式的潜力。

具体地，所述步骤Step4在Python环境中安装Numpy模块用于特征向量的拼接。特征向量的拼接实际是矩阵的计算，对Step3得到的字符级特征向量矩阵维度设置一个值，使Step2的词向量矩阵维度与其相同，进行矩阵拼接计算，即可得到拼接后的词嵌入。

具体地，所述步骤Step5对最终得到的词嵌入进行位置编码，即在词嵌入上再加一个位置向量，改进的Transformer模型与原始Transformer模型不同的是，改进的Transformer模型在位置编码上包括相对位置以及方向信息，编码公式如下：

其中，t是目标token的索引，j是上下文token的索引，R_t-j是相对位置编码，

i的范围是

d_k为k的向量维度，T表示矩阵的转置。

具体地，所述步骤Step6将对每个词嵌入创建三个向量：查询向量(Query)、键向量(Key)和值向量(Value),这三个向量是通过每个词向量与各自的权重矩阵相乘后创建的。执行单个Head Attention就是将Q，K和V分别线性地投影，然后将多个Head Attention连接起来并再次投影，得到最终值，再对Multi-Head Attention层的输出结果进行残余连接和层归一化。Self-Atteniton计算公式如下：

Attn(Q,K,V)＝softmax(A^rel)V

其中Q_t，K_j分别是t，j两个token的查询向量和键向量，

是可学习的参数，

表示两个token之间的注意力得分，

表示第t个token在一定相对距离上的偏差，

是第j个token的偏差，

表示特定距离和方向的偏差，A^rel表示每个token对于当前token的相关性大小，V表示上文的值向量，改进的Transformer模型在计算self-attention时，去掉了键和值矩阵的点积除以的比例因子

因为在没有比例因子

的情况下，注意力将更加明显，模型的性能更好。

具体地，所述步骤Step7将Step6所得结果传递到Feed Forward Network层。Multi-Head Attention使模型可以共同关注来自不同位置的的子空间的不同表示信息，而Feed Forward Network层只需要一个矩阵，所以需要把多个矩阵压缩成一个矩阵，即把多个矩阵与一个附加的权重矩阵W^O相乘，将多个矩阵组合到一起输入FeedForward Network层，再对于Feed Forward Network层的输出结果进行残余连接和层归一化。计算公式如下：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

其中，Q，K，V分别是查询向量，键向量，值向量，W_i ^Q，W_i ^K,W_i ^V为训练时的权值矩阵。W₁，W₂，b₁，b₂是可学习的参数

b₂∈R^d，d_ff是超参数。

具体地，所述步骤Step8在CRF算法的基础上融合了最新整理的老挝语人名地名机构名的语言学特征，如：词特征、词性特征、通名特征、指界词特征等。将这些原子特征组合叠加得到特征模板，并融合到CRF算法中，用来提升对老挝语命名实体识别的准确率。

具体地，所述步骤Step9将Step7经改进Transformer模型编码的向量集合输入到融合了老挝语语言特征模板的CRF模型中进行训练，最终实现基于改进的Transformer+CRF的老挝语命名实体识别的方法。

本发明的有益效果是：

(1)该基于改进的Transformer+CRF的老挝语命名实体识别方法中，相较于目前主流的BLSTM+CRF模型在识别精度方面有明显的提高。

(2)该基于改进的Transformer+CRF的老挝语命名实体识别方法中，Transformer模型完全基于注意力机制，使得模型对输入的文本序列选择性学习，利用注意力机制快速筛选出有用信息，有助于后期模型训练，且能避免输入和输出序列的距离问题，不受输入序列长度的限制。加入融合了老挝语语言特征的CRF模型，能够使模型收敛加快，融合的语言特征也能提升老挝语命名实体识别的准确率。

(3)该基于改进的Transformer+CRF的老挝语命名实体识别方法中，增加了带有相对位置信息和方向信息的位置编码，方向信息以及相对位置信息对于命名实体识别任务是重要的，但是原始的Transformer模型无法捕获这些信息；丢弃了原始的Transformer模型的注意力比例因子，注意力比例因子的引入是为了得到分布相对均匀的attention权重，但是在命名实体识别中，并不需要关注所有词；另外，除了使用Transformer模型来建模词级别的上下文信息，还使用Transformer模型来建模字符级别的信息，不仅充分利用了GPU的并发能力，而且还具有识别不同语法和甚至不连续模式的潜力。

附图说明

图1为本发明中的流程图；

图2是本发明所使用的Transformer编码器的基本结构图；

图3是本发明所使用的改进Transformer+CRF模型的基本结构图。

具体实施方式

下面结合附图和具体实施例，对本发明做进一步的说明。

实施例1：如图1-3所示，一种基于改进Transformer+CRF的老挝语命名实体识别方法，具体步骤如下：

Step1，对现有老挝语命名实体语料进行预处理并划分数据集，其中，训练集占90％，测试集占10％。

Step2,对老挝语句子进行分词，并通过Gensim的word2vec模型预训练词向量，训练出具有上下文语义的词向量。

Step3，将老挝语句子分词后每个词语的单个字符作为输入，采用Transformer作为字符编码器输出字符级特征向量。

Step4，将字符级特征向量和Step2训练好的词向量拼接形成词嵌入。

Step5，对Step4得到的词嵌入(word embedding)进行位置编码，在wordembedding上组合一个表示位置信息的位置向量，得到最终的带有位置信息的向量。

Step9，将Transformer模型输出的向量集合输入到融合了多特征的CRF模型中，进行老挝语命名实体的识别训练。

进一步地，所述步骤Step1中对老挝语命名实体语料的预处理，主要是通过Python编码去除噪声。

进一步地，所述步骤Step2首先通过老挝语分词工具将老挝语句子切分成词语，再遍历老挝语去除停用词表，去停用词，在Gensim包中调用Word2vec算法，将去停用词后的老挝词语作为Word2vec算法的输入，对词语的频率和上下文信息进行训练，最终输出具有了上下文语义特征的词向量。

进一步地，所述步骤Step3将老挝语字符先后通过Transformer编码器的Multi-Head Attention层，Feed Forward Network层(两个子层使用残差连接)来提取字符特征。比起CNN字符编码器Transformer作为字符编码器不仅充分利用了GPU的并发能力，而且还具有识别不同语法和甚至不连续模式的潜力。

进一步地，所述步骤Step4在Python环境中安装Numpy模块用于特征向量的拼接。特征向量的拼接实际是矩阵的计算，对Step3得到的字符级特征向量矩阵维度设置一个值，使Step2的词向量矩阵维度与其相同，进行矩阵拼接计算，即可得到拼接后的词嵌入。

进一步地，所述步骤Step5对最终得到的词嵌入进行位置编码，即在词嵌入上再加一个位置向量，改进的Transformer模型与原始Transformer模型不同的是，改进的Transformer模型在位置编码上包括相对位置以及方向信息，编码公式如下：

i的范围是

d_k为k的向量维度，T表示矩阵的转置。

进一步地，所述步骤Step6将对每个词嵌入创建三个向量：查询向量(Query)、键向量(Key)和值向量(Value),这三个向量是通过每个词向量与各自的权重矩阵相乘后创建的。执行单个Head Attention就是将Q，K和V分别线性地投影，然后将多个Head Attention连接起来并再次投影，得到最终值，再对Multi-Head Attention层的输出结果进行残余连接和层归一化。Self-Atteniton计算公式如下：

Attn(Q,K,V)＝softmax(A^rel)V

其中Q_t，K_j分别是t，j两个token的查询向量和键向量，

是可学习的参数，

表示两个token之间的注意力得分，

表示第t个token在一定相对距离上的偏差，

是第j个token的偏差，

因为在没有比例因子

的情况下，注意力将更加明显，模型的性能更好。

进一步地，所述步骤Step7将Step6所得结果传递到Feed Forward Network层。Multi-Head Attention使模型可以共同关注来自不同位置的的子空间的不同表示信息，而Feed Forward Network层只需要一个矩阵，所以需要把多个矩阵压缩成一个矩阵，即把多个矩阵与一个附加的权重矩阵W^O相乘，将多个矩阵组合到一起输入FeedForward Network层，再对于Feed Forward Network层的输出结果进行残余连接和层归一化。计算公式如下：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

其中，Q，K，V分别是查询向量，键向量，值向量。W_i ^Q，W_i ^K,W_i ^V为训练时的权值矩阵。W₁，W₂，b₁，b₂是可学习的参数，

b₂∈R^d，d_ff是超参数。

进一步地，所述步骤Step8在CRF算法的基础上融合了最新整理的老挝语人名地名机构名的语言学特征，如：词特征、词性特征、通名特征、指界词特征等。将这些原子特征组合叠加得到特征模板，并融合到CRF算法中，用来提升对老挝语命名实体识别的准确率。

进一步地，所述步骤Step9将Step7经改进Transformer模型编码的向量集合输入到融合了老挝语语言特征模板的CRF模型中进行训练，最终实现基于改进的Transformer+CRF的老挝语命名实体识别的方法。

本发明提出一种基于改进的Transformer+CRF老挝语命名实体识别方法，减少了对老挝语语料人工标注的依赖，通过改进的Transformer模型对词向量的训练，用注意力机制更好地提取了文本特征，融合了老挝语语言特征的CRF模型使得命名实体识别任务得到最优的序列标注结果。

下面结合具体例子对本发明的方案就行解释说明。

如句子：

译为：昆明理工大学在云南省昆明市。将该老挝语句子分词如下：

(大学)

(理工)

(昆明)

(在)

(市)

(昆明),

(省)

(云南)。以

(大学)为例，再将该词语的每个字符

用Transformer进行编码，得到字符级特征向量，用Word2vec训练词语

(大学)得到词向量，并将该词的词向量和每个字符的字符向量拼接起来得到词嵌入，进行位置编码后的得到带有位置信息的词向量矩阵。把词向量矩阵作为Transformer编码器的输入，经过Multi-Head Attention层和Feed Forward Network层对矩阵的运算最终得到该词的最终表示向量。同样地，其他每个词也可通过上述过程得到最终的表示向量，将所有词的向量集合作为融合了老挝语语言特征的CRF层的输入，可得到最终对每个词的标记结果：

(大学，B-ORG)

(理工，I-ORG)

(昆明，I-ORG)

(在，O)

(市，B-LOC)

(昆明，I-LOC),

(省，B-LOC)

(云南，I-LOC)。其中O表示非实体，B-ORG表示组织机构名实体的开始，I-ORG表示组织机构名实体的内部，B-LOC表示地名实体的开始，I-LOC表示地名实体的内部。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于改进Transformer+CRF的老挝语命名实体识别方法，其特征在于：具体步骤如下：

Step4，将字符级特征向量和Step2训练好的词向量拼接形成词嵌入word embedding；

Step5，对Step4得到的词嵌入word embedding进行位置编码，在word embedding上组合一个表示位置信息的位置向量，得到最终的带有位置信息的向量；

Step6，将带有位置信息的向量输入Transformer编码组件Encoder的Multi-HeadAttention层并进行带有方向与相对位置信息的自注意力值Self-Atteniton计算；

Step7，将Multi-Head Attention层输出的向量传递到Feed Forward Network层进行计算，输出编码好的向量集合；

Step8，将老挝语人名地名机构名的多个语言学特征融合到CRF模型中；

Step9，将Step7中Transformer模型输出的向量输出的向量集合输入到Step8中融合了多特征的CRF模型中，进行老挝语命名实体的识别训练。

2.根据权利要求1所述基于改进Transformer+CRF的老挝语命名实体识别方法，其特征在于：所述步骤Step1中对老挝语命名实体语料的预处理，是通过Python编码去除噪声。

3.根据权利要求1所述基于改进Transformer+CRF的老挝语命名实体识别方法，其特征在于：所述步骤Step2，首先通过老挝语分词工具将老挝语句子切分成词语，再遍历老挝语去除停用词表，去停用词，在Gensim包中调用Word2vec算法，将去停用词后的老挝词语作为Word2vec算法的输入，对词语的频率和上下文信息进行训练，最终输出具有了上下文语义特征的词向量。

4.根据权利要求1所述基于改进Transformer+CRF的老挝语命名实体识别方法，其特征在于：所述步骤Step3将老挝语字符先后通过Transformer编码器中使用残差连接的Multi-Head Attention层、Feed Forward Network层来提取字符特征。

5.根据权利要求1所述基于改进Transformer+CRF的老挝语命名实体识别方法，其特征在于：所述步骤Step4在Python环境中安装Numpy模块用于特征向量的拼接，特征向量的拼接实际是矩阵的计算，对Step3得到的字符级特征向量矩阵维度设置一个值，使Step2的词向量矩阵维度与其相同，进行矩阵拼接计算，即可得到拼接后的词嵌入。

6.根据权利要求1所述基于改进Transformer+CRF的老挝语命名实体识别方法，其特征在于：所述步骤Step5对最终得到的词嵌入进行位置编码，即在词嵌入上再加一个位置向量，改进的Transformer模型与原始Transformer模型不同的是，改进的Transformer模型在位置编码上包括相对位置以及方向信息，编码公式如下：

i的范围是

d_k为k的向量维度，T表示矩阵的转置。

7.根据权利要求6所述基于改进Transformer+CRF的老挝语命名实体识别方法，其特征在于：所述步骤Step6将对每个词嵌入创建三个向量：查询向量Query、键向量Key和值向量Value,这三个向量是通过每个词向量与各自的权重矩阵相乘后创建的，执行单个HeadAttention就是将Q，K和V分别线性地投影，然后将多个Head Attention连接起来并再次投影，得到最终值，再对Multi-Head Attention层的输出结果进行残余连接和层归一化，Self-Atteniton计算公式如下：

Attn(Q,K,V)＝softmax(A^rel)V

其中Q_t，K_j分别是t，j两个token的查询向量和键向量，

是可学习的参数，

表示两个token之间的注意力得分，

表示第t个token在一定相对距离上的偏差，

是第j个token的偏差，

8.根据权利要求1所述基于改进Transformer+CRF的老挝语命名实体识别方法，其特征在于：所述步骤Step7将Step6所得结果传递到Feed Forward Network层，Multi-HeadAttention使模型可以共同关注来自不同位置的的子空间的不同表示信息，而FeedForward Network层只需要一个矩阵，所以需要把多个矩阵压缩成一个矩阵，即把多个矩阵与一个附加的权重矩阵W^O相乘，将多个矩阵组合到一起输入Feed Forward Network层，再对于Feed Forward Network层的输出结果进行残余连接和层归一化，计算公式如下：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

其中，Q，K，V分别是查询向量，键向量，值向量，W_i ^Q，W_i ^K,W_i ^V为训练时的权值矩阵，W₁，W₂，b₁，b₂是可学习的参数，

b₂∈R^d，d_ff是超参数。