CN110134956A

CN110134956A - 基于blstm-crf的地名组织名识别方法

Info

Publication number: CN110134956A
Application number: CN201910397611.7A
Authority: CN
Inventors: 李燕萍; 沙淮; 吴佳怡; 张燕
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-08-16

Abstract

本发明公开了一种基于BLSTM‑CRF的地名组织名识别方法，包括训练阶段和识别阶段，使用BLSTM‑CRF模型，通过BLSTM能够较好地学习上下文的信息，通过CRF特有的转移特征能够考虑到输出label之间的顺序性，特别是用词特征与字特征结合作为输入特征，通过加入词特征能够更好地进行命名体的分界，提高命名体识别的精确度和召回率。此外，本方法运用基于地理位置的分词工具，分词更加精准。

Description

基于BLSTM-CRF的地名组织名识别方法

技术领域

本发明涉及一种地名组织名识别方法，特别是涉及一种基于BLSTM-CRF的地名组织名识别方法。

背景技术

NER、分词都可以看作是序列的标注问题，而这一类问题比较传统的方法是以马尔科夫模型(HMM)、条件随机场(CRF)为代表的概率图模型，还有最大熵隐马尔可夫模型(MEMM)，这三者在之前都取得了非常不错的结果，近几年随着深度学习的兴起，深度神经网络也加入到NLP的任务中，跟CV一样，网络层起到的作用依然是特征提取的过程，深度神经网络+概率图模型成为处理NLP任务的一个非常好的解决方案。

现有的神经网络+概率图的命名体识别方法有基于LSTM-CRF的方法、BLSTM-softmax方法等。Softmax层的输出是相互独立的，即虽然BLSTM学习到了上下文的信息，但是输出相互之间并没有影响，它只是在每一步挑选一个最大概率值的label输出。这样就会导致如“B-x”后再接一个“B-x”的问题。而CRF中有转移特征，即它会考虑输出label之间的顺序性，所以考虑用CRF去做BLSTM的输出层。

基于BLSTM-CRF的方法能够很好地处理序列标注的问题，但是在地名组织名识别任务中，由于地名组织名作为一个整体，具有数量大，有规则性的特点，仅用字向量作为输出特征还存在一定的局限性，无法很好地判断特殊任务中命名体的边界。所以，在地名组织名的任务中，基于地名组织名的命名组成有一定的规律，可以考虑如何加入词向量特征以有效提升召回率和准确率。

发明内容

发明目的：本发明要解决的技术问题是提供一种基于BLSTM-CRF的地名组织名识别方法，解决目前识别方法中无法很好地判断特殊任务中命名体的边界的不足，加入词特征能够更好地进行命名体的分界，提高命名体识别的精确度和召回率。

技术方案：本发明所述的基于BLSTM-CRF的地名组织名识别方法，包括训练阶段和识别阶段，所述训练阶段包括以下步骤：

(1.1)获取训练语料，训练语料由字、分好的词以及字的标签组成；

(1.2)将所述的字和词通过词向量嵌入层编码成向量形式，分别获得字和词的特征序列和并进行拼接为新的输入特征x′_t，将所述的字的标签用数字表示，得到对应标签y_t；

(1.3)将输入特征x′_t输入BLSTM模型得到输出的两层隐藏序列为和将两层序列进行拼接为新的中间序列特征h′_t，接着通过全连接层生成得分序列k为标签类别的个数；

(1.4)将得分序列输入CRF层，根据标签yt得到CRF得分；

(1.5)根据得分序列和CRF得分来最大化目标似然函数，更新词向量嵌入层参数、BLSTM模型和CRF转移矩阵

(1.6)重复步骤(1.2)至(1.5)，直到达到迭代次数；

所述识别阶段包括以下步骤：

(2.1)将待识别语料分词为字和词序列，并通过所述词向量嵌入层得到特征序列和

(2.2)将特征序列和输入BLSTM模型，生成得分序列，将上述得分序列输入CRF层，根据已经训练好的CRF转移矩阵通过维特比算法求得最优输出是所有序列得分中的最高得分时对应的序列；

(2.3)根据提取描述地名组织名的标签所在位置的字符，组成一个表示地名组织名的命名体。

进一步的，所述的BLSTM模型是双层LSTM结构的循环神经网络，两层的输出为：

其中，z¹是第一层t时刻LSTM的输入和上一个时刻的输出拼接而成的，为是第一层t时刻将词和字拼接后得到的新的输入特征，是第一层t-1时刻的LSTM的输出，分别代表第一层t时刻LSTM的输入门、遗忘门和输出门，是第一层的t时刻的c传输状态，是第一层的t时刻的c传输状态，是第一层t时刻的LSTM的输出；z²是第二层t时刻LSTM的输入和上一个时刻的输出拼接而成的，为是第二层t时刻将词和字拼接后得到的新的输入特征，是第二层t-1时刻的LSTM的输出，分别代表第二层t时刻LSTM的输入门，遗忘门和输出门，是第二层的t时刻的c传输状态，是第二层的t时刻的c传输状态，是第二层t时刻的LSTM的输出。

进一步的，步骤(1.5)中的目标似然函数为：

其中，Y_x为所有的输出序列，s(X，y)为正确的序列得分，为输出序列为任一的得分，

其中，为CRF每一个时刻t到下一个时刻t+1的转移概率和，为每一个时刻t属于真正的标签y_t的得分，n为输入序列的个数。

进一步的，步骤(1.5)中的最大化方法为：

(1)将所述目标似然函数求对数，

(2)将上述目标似然函数运用梯度下降法求最大值，得到更新的模型参数和CRF的转移矩阵

进一步的，步骤(2.2)中通过维特比算法求得最优输出具体为：

进一步的，所述的词向量嵌入层为参数随机初始化的全连接层。

进一步的，所述词向量嵌入层的dropout系数为0.1，所述BLSTM模型的dropout系数为0.2。

有益效果：本发明使用BLSTM-CRF模型，通过BLSTM能够较好地学习上下文的信息，通过CRF特有的转移特征，能够考虑到输出label之间的顺序性，特别是用词特征与字特征结合作为输入特征，通过加入词特征能够更好地进行命名体的分界，提高命名体识别的精确度和召回率。此外，本方法运用基于地理位置的分词工具，分词更加精准。

附图说明

图1是本发明的网络结构图；

图2是本实施例语料编码示意图。

具体实施方式

如图1所示，本发明实施例所述的方法分为两个部分：训练部分用于得到地名组织名识别所需的参数和CRF转移概率，而识别部分用于实现地名组织名的识别。

训练阶段实施步骤为：

1.1)获取训练语料，训练语料是司乘上报的12万条语音通过kaldi识别成的文本，将文本预处理为json格式。训练语料包含字序列，词序列和标签序列。其中，每个字序列，词序列向量长度为该batch所有序列中最长的序列长度，长度不足的通过padding补零，向量维度为150维，用来描述地名组织名的标签有三种“B-x”，“I-x”，“O”。在命名体的第一个字位置对应“B-x”，中间部分对应“I-x”，其余部分对应“O”。如图2所示：“在南京我......”中南京为一个地名的命名体，即标注“南”为“B-x”，“京”为“I-x”，其余为“O”。

1.2)字序列训练语料和词序列训练语料通过词向量嵌入层编码成向量形式，获得字的特征序列和对应词的特征序列每个序列的维度为(最长长度*150)，将字的特征序列和对应词的特征序列进行拼接得到输入的特征序列x′_t，其中x′_t的维度为(最长长度*300)。如图2所示，char特征和word特征通过concat拼接为新的输入特征序列。词向量嵌入层为参数随机初始化的全连接层。

1.3)本实施例中的BLSTM-CRF网络由两个部分组成：BLSTM层和CRF层。BLSTM可以生成属于不同标签得分对于命名体任务来说，仅仅根据前向的信息来退出后面的LSTM是不够的，因此通过双向的LSTM可以考虑到前向和后向的顺序，最大化标签选择的概率。但是仅仅得出每个标签的概率是不够的，该任务的标签含有限制条件，例如“B-x”后只能接“I-x”，“I-x”后不能“B-x”，因此使用CRF可以限定生成标签之间关系。

所述的BLSTM模型是双层LSTM结构的循环神经网络，两层的输出为：

其中，z¹是第一层t时刻LSTM的输入和上一个时刻的输出拼接而成的，为是第一层t时刻将词和字拼接后得到的新的输入特征，是第一层t-1时刻的LSTM的输出，z¹的值和相等。分别代表第一层t时刻LSTM的输入门，遗忘门和输出门。是第一层的t时刻的c传输状态，是第一层的t时刻的c传输状态。是第一层t时刻的LSTM的输出，z²是第二层t时刻LSTM的输入和上一个时刻的输出拼接而成的，为其中是第二层t时刻将词和字拼接后得到的新的输入特征，是第二层t-1时刻的LSTM的输出。z²的值和相等。分别代表第二层t时刻LSTM的输入门，遗忘门和输出门。是第二层的t时刻的c传输状态，是第二层的t时刻的c传输状态。是第二层t时刻的LSTM的输出。

1.4)设置BLSTM的输出维度为300维。经BLSTM得到双层输出和的维度为(最长长度*300)将和拼接得到维度为(最长长度*300)，再将通过一个输出层为3维的全连接层，得到对应3种标签的输出序列的得分3个维度分别是属于不同标签的得分。接着初始化CRF层的转移概率，并将传入CRF层，根据标签yt计算CRF的得分。

1.5)假设输入为X＝x₁，x₂...，x_n，标签为y＝y₁，y₂...，y_n，模型的得分为：

其中，s(X，y)即为正确的序列得分包括两个部分，是CRF得分，是BLSTM输出的预测序列得分。左边的部分为CRF每一个时刻t到下一个时刻t+1的转移概率和，右边的部分为每一个时刻t属于真正的标签y_t的得分。

将生成的所有得分通过Softmax，得出正确的序列的极大似然概率为：

将极大似然概率取对数得到目标函数：

将目标函数运用梯度下降法求最大值，得到模型的参数和CRF的转移概率矩阵，更新词向量嵌入层参数、BLSTM模型和CRF转移矩阵

1.6)重复1.2)、1.3)、1.4)和1.5)直至达到迭代次数，从而得到训练好的BLSTM-CRF网络，由于神经网络具体设置不同以及实验设备性能不同，选择的数据批量的大小和迭代次数也各不相同。本实验中选择迭数据批量的大小为128，代次数为15次。

转换阶段实施步骤为：

2.1)将待识别的文本语料分词为字和词序列，并通过词向量嵌入层得到特征序列和

2.2)将2.1)中字和词特征序列和拼接后输入模型，通过训练好的BLSTM得到输出的BLSTM得分序列为

2.3)将2.2)中得到的输入CRF层，根据已经训练好的转移矩阵通过维特比算法求得最优输出即

其中，是在的条件下所有序列得分中的最高得分时对应的序列。

2.4)根据提取描述地名组织名的标签所在位置的字符，组成一个表示地名组织名的命名体。

Claims

1.一种基于BLSTM-CRF的地名组织名识别方法,其特征在于：包括训练阶段和识别阶段，所述训练阶段包括以下步骤：

(1.4)将得分序列输入CRF层，根据标签y_t得到CRF得分；

(1.6)重复步骤(1.2)至(1.5)，直到达到迭代次数；

所述识别阶段包括以下步骤：

2.根据权利要求1所述的基于BLSTM-CRF的地名组织名识别方法,其特征在于：所述的BLSTM模型是双层LSTM结构的循环神经网络，两层的输出为：

3.根据权利要求1所述的基于BLSTM-CRF的地名组织名识别方法,其特征在于步骤(1.5)中的目标似然函数为：

其中，Y_x为所有的输出序列，s(X,y)为正确的序列得分，为输出序列为任一的得分，

4.根据权利要求3所述的基于BLSTM-CRF的地名组织名识别方法,其特征在于：步骤(1.5)中的最大化方法为：

(1)将所述目标似然函数求对数，

5.根据权利要求4所述的基于BLSTM-CRF的地名组织名识别方法,其特征在于步骤(2.2)中通过维特比算法求得最优输出具体为：

6.根据权利要求1所述的基于BLSTM-CRF的地名组织名识别方法,其特征在于：所述的词向量嵌入层为参数随机初始化的全连接层。

7.据权利要求1所述的基于BLSTM-CRF的地名组织名识别方法,其特征在于：所述词向量嵌入层的dropout系数为0.1,所述BLSTM模型的dropout系数为0.2。