CN109284400B

CN109284400B - 一种基于Lattice LSTM和语言模型的命名实体识别方法

Info

Publication number: CN109284400B
Application number: CN201811434481.1A
Authority: CN
Inventors: 廖伟智; 王宇; 马攀; 阴艳超
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2020-10-23
Anticipated expiration: 2038-11-28
Also published as: CN109284400A

Abstract

本发明公开了一种基于Lattice LSTM和语言模型的命名实体识别方法，该方法包括语言模型训练语料预处理，构建基于LSTM的语言模型，命名实体识别训练语料预处理，构建基于Lattice LSTM和语言模型的命名实体识别模型，进行命名实体识别。本发明通过构建基于Lattice LSTM和语言模型的命名实体识别模型，有效的利用了字符嵌入和词嵌入来进行命名实体识别，并且在命名识别模型中使用语言模型来提供上下文信息，显著提高了命名实体识别的识别精度，同时减少了人工数据标注造成的人力消耗。

Description

一种基于Lattice LSTM和语言模型的命名实体识别方法

技术领域

本发明属于命名实体识别技术领域，具体涉及一种基于Lattice LSTM和语言模型的命名实体识别方法。

背景技术

传统的命名实体识别方法可以分为基于词典的命名实体识别方法，基于规则的命名实体识别方法，基于传统机器学习的命名实体识别的方法，基于LSTM-CRF的命名实体识别的方法。

基于词典的命名实体识别方法，其原理是将可能多的不同类别的实体收入词典中，识别时将文本信息和词典中的词语进行匹配，匹配上的则标记为对应的实体类别。

基于规则的命名实体识别方法的原理利用手工编写的规则，将文本与规则进行匹配来识别出命名实体。例如，对于中文来说，“说”、“老师”等词语可作为人名的下文，“大学”、“医院”等词语可作为组织机构名的结尾，还可以利用到词性、句法信息。

基于传统机器学习的命名实体识别的方法，例如基于CRF(条件随机场)的命名实体识别的方法、基于HMM(隐马尔可夫)的命名实体识别的方法等，这类方法的原理是通过人工构建特征模板提取特征，作为输入，学习前后一个词的语义信息，然后做出分类判断。基于LSTM-CRF的命名实体识别的方法，其原理是通过输入词向量或者字符向量，让LSTM自动提取特征作为CRF的输入，然后通过CRF来进行分类判断。

上述现有技术存在下列缺陷：

1、基于词典的命名实体识别方法严重依赖于词典库，无法识别未登录词。

2、基于规则的命名实体识别方法在构建规则的过程中往往需要大量的语言学知识，不同语言的识别规则不尽相同，而且需要谨慎处理规则之间的冲突问题；此外，构建规则的过程费时费力、可移植性不好。

3、基于传统机器学习的命名实体识别的方法需要人工提取特征模板，非常耗时耗力，并且特征模板的质量对命名实体识别的影响很大，以及这种方法只能关联当前词的前一个词的语义，无法解决长依赖的问题，并且无法识别未登录词。

4、基于LSTM-CRF的命名实体识别的方法，这种方法主要有两种形式，一种是基于词的(输入为词向量)，一种是基于字的(输入为字符向量)。基于词主要有两个缺陷：(1)基于词的需要先分词，然后在做命名实体识别，所以分词的准确度对后面的命名实体识别有着较大的影响；(2)词向量的学习，对一些语料中未出现的，或者出现次数比较少的，他们的词向量的质量是很难保证的，而语料中未出现或者次数较少的词也很大一部分是实体词。基于字的主要有两个缺陷：(1)没有利用粗粒度的信息，比如词信息、上下文信息；(2)一个字符对应一个固定的字符向量不合理，因为同一个字符在不同的语境中或者词中其含义是不同的

发明内容

本发明的发明目的是：为了解决现有技术中存在的以上问题，本发明提出了一种能够有效的提高命名实体识别精度的基于Lattice LSTM和语言模型的命名实体识别方法。

本发明的技术方案是：一种基于Lattice LSTM和语言模型的命名实体识别方法，包括以下步骤：

A、获取语言模型的训练语料数据并进行预处理；

B、根据步骤A预处理后的训练语料数据构建基于LSTM的语言模型；

C、获取命名实体识别模型的训练语料数据并进行标注，形成标注语料；

D、对步骤C得到标注语料进行预处理；

E、根据步骤B得到的基于LSTM的语言模型和步骤D预处理后的标注语料构建基于Lattice LSTM和语言模型的命名实体识别模型；

F、利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理，得到命名实体识别结果。

进一步地，所述步骤A中，对语言模型的训练语料数据进行预处理，具体包括以下分步骤：

A1、将语言模型的训练语料数据OrgData转换为字符级的语料数据NewData；

A2、统计字符级的语料数据NewData中的字符，得到字符集合CharSet，并将每个字符进行编号，得到字符集合对应字符编号集合CharID；

A3、将整个文档切分为Batch大小个子序列，然后以长度Length切分这些序列，得到m个Batch；

A4、将每一个Batch的字符通过字符编号集合CharID转换为固定长度的数据BatchData；

A5、删除文档的第一个字符，将整个文档切分为Batch大小个子序列，然后以长度Length切分这些序列，得到m个Batch，并将每一个Batch的字符通过字符编号集合CharID转换为固定长度的标签数据PredictData。

进一步地，所述步骤B中，基于LSTM的语言模型包括Embedding层、第一DropOut层、第一单向LSTM层、第二DropOut层、第二单向LSTM层和SoftMax层。

进一步地，所述步骤B还包括将步骤A4得到的固定长度的数据和步骤A5得到的固定长度的标签数据输入到基于LSTM的语言模型中，训练基于LSTM的语言模型的模型参数。

进一步地，所述步骤C中，对命名实体识别模型的训练语料数据进行标注具体为采用BMESO的标记方式对命名实体识别模型的训练语料数据进行标注。

进一步地，所述步骤D对步骤C得到标注语料进行预处理，具体包括以下分步骤：

D1、统计标注语料的字符，得到字符集合CharSet，将每个字符进行编号，得到字符集合对应字符编号集合CharID；统计标注语料的标签，得到标签集合LableSet，将每个标签进行编号，得到标签集合LableSet对应的标签编号集合LableID；

D2、以汉语词典为基础建立一棵单词查找树，将标注语料中的每一句话与单词查找树进行匹配，保留匹配成功的词，得到单词集合WordSet；

D3、去除单词集合WordSet中的重复词得到新的WordSet，并对新的WordSet中的每个词进行编号，得到新WordSet对应的编号集合WordID；

D4、将标注语料中的每个字符和标签分别根据CharID和LableID转换为对应ID，并让标注语料中的每一句话与单词查找树进行匹配，保存每一句话匹配到的词，并将这些词根据WordID转换为对应的ID；

D5、将步骤D4中转换成ID后的语料随机排列顺序，并采用随机无放回的方式从标注语料中抽取BatchSize句数据c，以及对应的标签y和对应的单词集合w。

进一步地，所述步骤E中，基于Lattice LSTM和语言模型的命名实体识别模型包括Embedding层、第一DropOut层、Lattice LSTM层、拼接层、第二DropOut层、LSTM层和CRF层。

进一步地，所述基于Lattice LSTM和语言模型的命名实体识别模型中的拼接层将步骤D5中的数据c输入到基于LSTM的语言模型后的输出与Lattice LSTM层的输出进行拼接。

进一步地，所述步骤F利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理，得到命名实体识别结果，具体为：

将待识别数据中的每个字符根据字符编号集合CharID转换为对应ID，并将预测数据中的每一句话与单词查找树进行匹配，保存每一句话匹配到的词，并将这些词根据WordID转换为对应的ID；然后将转换后的ID输入到基于Lattice LSTM和语言模型的命名实体识别模型中，并采用维特比算法求出每句话最大可能的标注序列，将其作为命名实体识别结果。

本发明的有益效果是：本发明通过构建基于Lattice LSTM和语言模型的命名实体识别模型，有效的利用了字符嵌入和词嵌入来进行命名实体识别，并且在命名识别模型中使用语言模型来提供上下文信息，显著提高了命名实体识别的识别精度，同时减少了人工数据标注造成的人力消耗。

附图说明

图1为本发明的基于Lattice LSTM和语言模型的命名实体识别方法的流程示意图；

图2为本发明实施例中长序列切分为子序列的处理过程示意图；

图3为本发明实施例中基于LSTM的语言模型的结构示意图；

图4为本发明实施例中基于Lattice LSTM和语言模型的命名实体识别模型的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，为本发明的基于Lattice LSTM和语言模型的命名实体识别方法的流程示意图。一种基于Lattice LSTM和语言模型的命名实体识别方法，包括以下步骤：

A、获取语言模型的训练语料数据并进行预处理；

D、对步骤C得到标注语料进行预处理；

在本发明的一个可选实施例中，上述步骤A首先获取语言模型的训练语料数据，然后对语言模型的训练语料数据进行预处理，具体包括以下分步骤：

如图2所示，为本发明实施例中长序列切分为子序列的处理过程示意图。假设batch的大小是4，则先将这个文档平分为4个子序列，然后按Length的长度去截断序列，得到m个Batch。这里batch的大小即为batchsize，将所有样本分组，一个batch就是一个组，batch的大小就是一个batch里面有多少个样本；长度Length表示一个样本中包含的字的个数；例如4句话分别为‘abcde’,‘fghk’,‘tgfds’,‘tf’，其中每一个字母代表一个字，假设batch大小为2，则这2个子序列可以为：‘abcdefgh’,‘ktgfdstf’，length为4，则可以得到两个batch，分别为{‘abcd’,‘ktgf’}和{‘degf’,‘dstf’}。

A5、删除文档的第一个字符，将整个文档切分为Batch大小个子序列，然后以长度Length切分这些序列，得到m个Batch,并将每一个Batch的字符通过CharID转换为固定长度的标签数据PredictData。

在本发明的一个可选实施例中，上述步骤B根据步骤A预处理后的训练语料数据构建基于LSTM(Long Short-Term Memory，长短期记忆网络)的语言模型，如图3所示，为本发明实施例中基于LSTM的语言模型的结构示意图，基于LSTM的语言模型包括Embedding层、第一DropOut层、第一单向LSTM层、第二DropOut层、第二单向LSTM层和SoftMax层，其中

1)Embedding层，用于将输入的字符数据转换为向量；

2)第一DropOut层，用于防止过拟合；

3)第一单向LSTM层，包含若干LSTM单元，用于提取字符级间的语义关系；

4)第二DropOut层，用于防止过拟合；

5)第二单向LSTM层，包含若干LSTM单元，用于提取字符级间的语义关系；

6)SoftMax层，用于预测下一个字符。

本发明还包括将步骤A4得到的固定长度的数据和步骤A5得到的固定长度的标签数据输入到基于LSTM的语言模型中，训练基于LSTM的语言模型的模型参数具体为：

将数据BatchData及标签数据PredictData输入到基于LSTM的语言模型中，然后采用SGD(梯度下降法)或其他优化方法训练基于LSTM的语言模型的模型参数，当模型产生的损失值满足设定要求或者达到最大迭代次数N时，则终止该模型的训练。

在本发明的一个可选实施例中，上述步骤C中，对命名实体识别模型的训练语料数据进行标注具体为采用BMESO(begin，middle，end，single，other)的标记方式对命名实体识别模型的训练语料数据进行标注，形成标注语料。

如果一个字符单元是一个实体词的开始，则标记为(S-...)；如果一个字符单元是一个实体词的中间字符，则标记为(M-...)；如果一个字符单元是一个实体词的最后一个字符，则标记为(E-...)；如果一个字符为单独的一个实体词，则标记为(S-...)；如果一个字符不属于实体词则标注为(O)。例如“小华出生在成都，现在在华为工作。”，其标注结果为：小S-PER、华S-PER、出O、生O、在O、成B-LOC、都E-LOC、，O、现O、在O、在O、华B-ORG、为E-ORG、工O、作O。

在本发明的一个可选实施例中，上述步骤D对步骤C得到标注语料进行预处理，具体包括以下分步骤：

例如一句话为“南京市长江大桥”，匹配的过程：首先匹配“南”作为首字符的词，依次查找单词树中是否有“南京市长江大桥”、“南京市长江大”，“南京市长江”，“南京市长”，“南京市”，“南京”，最后可以得到以“南”为首字符的词的一个列表[“南京市”，“南京”]，然后再依次查找以‘京’，‘市’，‘长’，‘江’，‘大’，‘桥’作为首字符的词，将匹配到的词保存到WordSet中。

在本发明的一个可选实施例中，上述步骤E根据步骤B得到的基于LSTM的语言模型和步骤D预处理后的标注语料构建基于Lattice LSTM和语言模型的命名实体识别模型，如图4所示，为本发明实施例中基于Lattice LSTM和语言模型的命名实体识别模型的结构示意图，基于Lattice LSTM和语言模型的命名实体识别模型包括Embedding层、第一DropOut层、Lattice LSTM层、拼接层、第二DropOut层、LSTM层和CRF层；其中

1)Embedding层，用于将输入的字符和词数据转换为向量；

2)DropOut层，用于防止过拟合；

3)Lattice LSTM层，用于提取字符和词的语义；

4)拼接层，用于将Lattice LSTM和语言模型的输出进行拼接；

5)DropOut层，用于防止过拟合；

6)LSTM层，用于进一步提取语义信息；

7)CRF层，用于预测标签；

上述Embedding层，根据我们输入的字符和词的ID，转换为对应的字符向量和词向量，作为下一层的输入；

上述第一DropOut层，根据输入的比例，按比例的让部分输入为0，防止过拟合；

上述Lattice LSTM层，是对LSTM进行改进，实现同时处理字符向量和词向量。

假设需要处理一个字符序列S＝c₁,c₂,c₃....,c_m，通过

可以得到每个字符的字符向量

将S序列和单词查找树进行匹配，可以得到这个序列隐藏的词集合，表示为

下标b代表这个词的第一个字符在句子中的索引，下标e代表这个词的最后一个字符在句子中的索引，例如“南京市长江大桥”，代表词“南京”，代表词“长江”；通过

可以得到每个词的词向量，然后将字符向量

和词向量

作为模型的输入，通过Lattice LSTM进行语义提取，然后对每个字符进行标注。

Lattice LSTM包括两部分：词的LSTM单元和字符的LSTM单元，其中w为词的LSTM单元，其计算公式为

其中，

为输入门，

为遗忘门，

为其细胞状态。在传统的LSTM的基础上，本发明中词的LSTM单元减少了输出门和隐藏状态。

本发明中字符的LSTM单元与传统LSTM在计算细胞状态时不同，由于字符的LSTM单元是输入不仅仅来自上一个字符的状态和字符向量，还有前面多个词的LSTM单元输出的细胞状态。其计算公式为

其中，

为上一个词的细胞状态，

为上一个词的细胞状态的权重。

上述拼接层，主要是将步骤B训练好的基于LSTM的语言模型取出来，并把步骤D5中的数据c作为输入，然后将第二层的LSTM的输出和Lattice LSTM层的输出进行拼接，然后作为DropOut层的输入。

上述第二DropOut层，根据设定的比例，按比例的让部分输入为0，防止过拟合。

上述LSTM层，将DropOut层的输出作为输入，进一步的提取语义信息。

上述CRF层，将LSTM层的输出作为输入，进行句子级的序列标注。

CRF层的参数是一个(k+2)×(k+2)的矩阵A，A_i,j表示的是从第i和j个标签的转移得分，进而在为一个位置进行标注的时候可以利用此前已经标注过的标签，其中2是表示在句子首部添加一个起始状态以及在句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列，那么模型对于句子x的标签等于y的打分为

可以得出整个序列的打分等于各个位置的打分之和，而每个位置的打分由两部分得到，一部分是由LSTM输出的决定，另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率，表示为：

本发明还通过最大化对数似然函数训练基于Lattice LSTM和语言模型的命名实体识别模型，对一个训练样本(x,y^x)的对数似然表示为

若有N个样本，

可以得到其损失函数为

其中，||θ||²为L2正则项，λ为正则化参数。

本发明训练基于Lattice LSTM和语言模型的命名实体识别模型的模型参数时，将步骤D5中得到的数据c和数据w作为模型的输入，然后采用SGD(梯度下降法)或其他优化方法训练该模型的参数，当模型产生的损失值满足设定要求或者达到最大迭代次数N时，则终止该模型的训练。

在本发明的一个可选实施例中，上述步骤F利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理，得到命名实体识别结果，具体为：

本发明的基于Lattice LSTM和语言模型的命名实体识别方法通过构建基于Lattice LSTM和语言模型的命名实体识别模型，有效的利用了字符嵌入和词嵌入来进行命名实体识别，提高了识别精度，而不需要人工提取特征；并且在命名识别模型中使用语言模型来提供上下文信息，进一步提高了识别精度。

本发明能够更精确的对文本中的命名实体进行标注，为一些下游工作，比如：知识图谱、问答系统、信息检索、机器翻译等，提供了一个良好的基础；同时既减少了许多数据标注的人力，又具备了较高的精确度。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于Lattice LSTM和语言模型的命名实体识别方法，其特征在于，包括以下步骤：

A、获取语言模型的训练语料数据并进行预处理；

具体包括以下分步骤：

A5、删除文档的第一个字符，将整个文档切分为Batch大小个子序列，然后以长度Length切分这些序列，得到m个Batch，并将每一个Batch的字符通过字符编号集合CharID转换为固定长度的标签数据PredictData；

所述基于LSTM的语言模型包括Embedding层、第一DropOut层、第一单向LSTM层、第二DropOut层、第二单向LSTM层和SoftMax层；

所述步骤B还包括将步骤A4得到的固定长度的数据BatchData和步骤A5得到的固定长度的标签数据PredictData输入到基于LSTM的语言模型中，训练基于LSTM的语言模型的模型参数；

C、获取命名实体识别模型的训练语料数据并进行标注，形成标注语料，具体为采用BMESO的标记方式对命名实体识别模型的训练语料数据进行标注；

D、对步骤C得到标注语料进行预处理；

具体包括以下分步骤：

D5、将步骤D4中转换成ID后的语料随机排列顺序，并采用随机无放回的方式从标注语料中抽取BatchSize句数据c，以及对应的标签y和对应的单词集合w；

2.如权利要求1所述的基于Lattice LSTM和语言模型的命名实体识别方法，其特征在于，所述步骤E中，基于Lattice LSTM和语言模型的命名实体识别模型包括Embedding层、第一DropOut层、Lattice LSTM层、拼接层、第二DropOut层、LSTM层和CRF层。

3.如权利要求2所述的基于Lattice LSTM和语言模型的命名实体识别方法，其特征在于，所述基于Lattice LSTM和语言模型的命名实体识别模型中的拼接层将步骤D5中的数据c输入到基于LSTM的语言模型后的输出与Lattice LSTM层的输出进行拼接。

4.如权利要求3所述的基于Lattice LSTM和语言模型的命名实体识别方法，其特征在于，所述步骤F利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理，得到命名实体识别结果，具体为：