CN107885721A

CN107885721A - 一种基于lstm的命名实体识别方法

Info

Publication number: CN107885721A
Application number: CN201710946714.5A
Authority: CN
Inventors: 岳永鹏; 唐华阳
Original assignee: Beijing Future Information Technology Co Ltd
Current assignee: Beijing Future Information Technology Co Ltd
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2018-04-06

Abstract

本发明涉及一种基于LSTM的命名实体识别方法。该方法包括：1)对命名实体识别的训练语料进行标注，形成标注语料；2)将标注语料中的词和字符转化为向量；3)利用词和字符的向量建立基于LSTM的命名实体识别模型，并训练该命名实体识别模型的参数；4)利用训练好的命名实体识别模型，对待预测的数据进行命名实体识别预测。本发明采用基于词和字符的向量，可以同时获得字符和词的特征，同时还可以规避未登录词的问题；另外采用长短期记忆神经网络LSTM相比传统纯粹的CRF模型算法，其能够吸收更多的字符和词语特征，从而能更进一步的提升实体识别的精度。

Description

一种基于LSTM的命名实体识别方法

技术领域

本发明属于信息技术领域，具体涉及一种基于LSTM的命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition，简称NER)是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别方法的实践场景包括：

场景1：事件检测。地点、时间、人物是时间的几个基本构成部分，在构建事件的摘要时，可以突出相关人物、地点、单位等。在事件搜索系统中，相关的人物、时间、地点可以作为索引关键词。事件的几个构成部分之间的关系，从语义层面更详细的描述了事件。

场景2：信息检索。命名实体可以用来提高和改进检索系统的效果，当用户输入“重大”时，可以发现用户更想检索的是“重庆大学”，而不是其对应的形容词含义。此外，在建立倒排索引的时候，如果把命名实体切成多个单词，将会导致查询效率降低。此外，搜索引擎正在向语义理解、计算答案的方向发展。

场景3：语义网络。语义网络中一般包括概念和实例及其对应的关系，例如“国家”是一个概念，中国是一个实例，“中国”是一个“国家”表达实体与概念之间的关系。语义网络中的实例有很大一部分是命名实体。

场景4：机器翻译。命名实体的翻译常会有一些特殊翻译规则，例如中国人民翻译成英文时要使用名字的拼音来表示，有名在前姓在后的规则，而普通的词语要翻译成对应的英文单词。准确识别出文本中的命名实体，对提高机器翻译的效果有重要的意义。

场景5：问答系统。准确的识别出问题的各个组成部分特别重要，问题的相关领域，相关概念。目前，大部分问答系统都只能搜索答案，而不能计算答案。搜索答案进行关键词的匹配，用户根据搜索结果人工提取答案，而更加友好的方式是把答案计算好呈现给用户。问答系统中有一部分问题需要考虑到实体之间的关系，例如“美国第四十五届总统”，目前的搜索引擎会以特殊的格式返回答案“特朗普”。

传统的命名实体识别方法可以分为基于词典的命名实体识别方法、基于词频统计的方法以及基于人工神经网络模型的方法。基于词典的命名实体识别方法，其原理是将尽量多的不同类别的实体词汇收入词典中，识别时将文本信息与词典中的词语进行匹配，匹配上的则标记为对应的实体类别。基于词频统计的方法，例如CRF(条件随机场)，其原理是学习到前后一个词的语义信息，然后做出分类判断。

基于词典的命名实体识别严重依赖于词典库，不能够识别未登录词。基于词频统计的HMM(隐马尔可夫)和CRF(条件随机场)方法其只能关联后一个词与前一个词的语义，识别精度不够高，尤其是未登录词的识别率较低。基于人工神经网络模型的方法，在训练时存在梯度消失问题，并且在实际的应用中网络层数少，最终命名实体识别结果优势不明显。

发明内容

本发明针对上述问题，提供一种基于LSTM(Long Short-Term Memory，长短期记忆神经网络)的命名实体识别方法，能够有效提高命名实体识别的精度。

本发明中，登录词指的是已经出现在语料词表中的词，未登录词指的是没有出现在语料词表中的词。

本发明采用的技术方案如下：

一种基于LSTM的命名实体识别方法，包括以下步骤：

1)对命名实体识别的训练语料进行标注，形成标注语料；

2)将标注语料中的词和字符转化为向量；

3)利用词和字符的向量建立基于LSTM的命名实体识别模型，并训练该命名实体识别模型的参数；

4)利用训练好的命名实体识别模型，对待预测的数据进行命名实体识别预测。

进一步地，步骤1)按照IOBES的方式对训练语料进行标注。

进一步地，步骤2)首先将输入的词转化为向量，然后将词中的每一个字符进行了拆解，用LSTM模型将词所包含的所有字符转化为向量，并对词和字符转化的向量进行拼接。

进一步地，步骤3)采用Adam梯度下降算法训练命名实体识别模型的参数。

进一步地，步骤3)在训练参数的过程中，将训练语料按照中文句法规则进行分句处理，并对分句后字符长度小于神经元个数的语句用数据0填充。

进一步地，在Adam梯度下降算法的迭代中每次随机无放回的从训练语料数据集中随机的选取一个句子分组，从该句子分组中抽取若干句子作为模型单次的迭代数据。

进一步地，步骤4)对待预测的数据首先进行预处理，然后进行字符和词的向量化处理，然后进行命名实体识别预测。

进一步地，所述预处理包括分句处理和分词处理；所述向量化处理包括词向量化处理，字符向量化处理，以及对词向量、字符向量进行拼接。

本发明基于LSTM的命名实体识别方法，采用基于词和字符的向量，可以同时获得字符和词的特征，同时还可以规避未登录词的问题；另外采用长短期记忆神经网络LSTM相比传统纯粹的CRF模型算法，其能够吸收更多的字符和词语特征，从而能更进一步的提升实体识别的精度。

附图说明

图1.LSTM实体识别步骤流程图。

图2.LSTM实体识别整体架构图。

图3.LSTM单元示意图。

图4.LSTM字符向量架构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施案例并结合附图，对本发明做进一步详细说明。

本发明公开了一种基于LSTM的命名实体识别方法，比如从非结构化文本中识别出人名、地名、机构名、商标名、公司名等等。本发明要解决的核心问题包含两个：1.使用LSTM-CRF模型提高命名实体识别的精度；2.加入词的字符向量的特征，解决对未登录词命名实体的识别(Out of Vocabulary,OV)。

为了提高命名实体识别的精度，本发明在传统的CRF模型之上加入LSTM字符特征和LSTM字符加词特征层，其详细的结构如图2、图3和图4所示。

因为待识别的实体在很多情形之下都是未登录词汇，为了提高对未登录词的识别，本发明加入了图4所示的字符向量的特征提取，从而说明一个实体不仅仅与分词结果存在很大关系，同时也与其本身的字符存在很大关系，比如中国的人名“赵、钱、孙、李..…”作为首个字符出现的时候，其紧跟的词汇组合结果有很大可能就是一个人名。

本发明的命名实体识别方法流程如图1所示。该方法分为两个阶段：训练阶段，预测阶段。

(一)训练阶段：(图1中的“训练”)

步骤1：标注语料准备。

步骤2：字符和词向量化。

步骤3：LSTM实体识别模型搭建。

步骤4：模型参数训练。

步骤5：模型结果保存。

(二)预测阶段：(图1中的“预测”)

步骤1：数据预处理。

步骤2：字符和词向量化。

步骤3：使用训练阶段(一)的步骤4保存的模型对预测数据做实体识别预测。

下面具体说明两个阶段的实现过程。

(一)训练阶段：

步骤1：标注语料准备。

语料按照IOBES(Inside、Other、Begin、End、Single)的方式对实体识别的训练语料进行标注(也可以采用其它方式进行标注，如用0,1,2,3,4代替)。如果对一个分词单元是一个单独的实体，则标记为(tag S-…)；如果一个分词单元是一个实体开始，则标记为(tagB-…)；如果一个分词单元是一个实体中间词汇，则标记为(tag I-…)；如果一个分词单元是一个实体的结束，则标记为(tag E-…)；如果一个分词单元不是一个实体，则标记为(tagO)。比如“小明出生在云南，现在在中国四川省成都市知道创宇工作。”，以实体中最常见的人名(PER)、地名(LOC)和机构名(ORG)为例，其分词和语料标注的结果为：

小明 S-PER

出生 O

在 O

云南 S-LOC

，O

现在 O

在 O

中国 B-LOC

四川省 I-LOC

成都市 E-LOC

知道 B-ORG

创宇 E-ORG

工作 O

。O

步骤2：字符和词的向量化。

因计算机仅能对数值型的类型进行计算，而输入的词x是字符型，计算机不能直接计算，因此需要将词转化为数值向量。此处采用了公知技术word2vec，把输入的词转化为一个300维的向量。同时，为了获得单个字符的特征，本发明也将词语中的每一个字符进行了拆解，用图4所示的LSTM模型将词所包含的所有字符转化为一个128维的向量。并对词和字符转化的向量进行拼接，得到一个428维的向量。

步骤3：建立LSTM实体识别的模型。

按照图2的LSTM实体识别模型的架构搭建实体识别的模型，将步骤2拼接的字符和词向量(以“我是中国人。”为例，如图2所示)输入到第一层LSTM神经元单元中，同时第一层LSTM第i个LSTM单元的输出同时作为第一层LSTM第i+1个LSTM单元的输入。而后将LSTM每一个神经单元的输出作为序列标注模型CRF的输入，从而计算出每个输入字符x_i通过上述模型计算出的y_i。并设定语料中实际标记的结果为构造一个基于熵的损失函数L：

其中，n表示训练样本数量。而后，本发明将这个损失函数L转化为一个优化问题，求解：

图2的CRF Layer中的“O”表示非实体类型，Loc表示地名实体。

详细的LSTM单元描述见图3，其中各符号的含义说明如下：

w：待求解的参数列表。

C_i-1，C_i：分别表示前i-1个字符累积得到的语义信息和前i个字符累积得到的语义信息。

h_i-1，h_i：分别表示第i-1个字符的特征信息和第i个字符的特征信息。

f：遗忘门，用于控制前i-1个字符的累积语义信息(C_i-1)保留多少。

i：输入门，用于控制输入数据(w和h_i-1)保留多少。

o：输出门，用于控制在输出第i个字符的特征时输出多少特征信息。

tanh：双曲正切函数。

u:tanh：与输入门i一起控制第i个字符有多少特征信息保留在C_i-1中。

*，+：分别表示按位进行乘法和按位进行加法。

步骤4：模型参数的训练。

为了求解优化函数L中的参数w，本发明中采公知的Adam梯度下降算法训练L中的参数。在训练参数的过程中，包含有以下的几个关键问题：

步骤4-1：分句。

将训练语料按照中文句法规则进行分句处理。设l_i表示第i句话的句子长度，则将|l_i-l_j|＜δ的句子归入一组，其中δ表示句子长度间隔，设分组之后的数据为GroupData，一共设为M组。

步骤4-2：输入数据填充。

因为图2的LSTM实体识别结构模型其输入数据的神经元单元是固定长度的，对分句后每一句字符长度小于LSTM实体识别模型神经元个数的语句需要用数据0填充。

步骤4-3：迭代批量数据的选取。

在Adam梯度下降算法的迭代中本发明每次随机无放回的从训练语料数据集中随机的选取一个句子分组，从该句子分组中抽取BatchSize个句子作为模型单次的迭代数据(BatchSize的数值可以任意选择)。

步骤4-4：迭代的终止条件。

在Adam梯度下降算法训练L中的参数的模型终止条件的选择上，本发明设置了两个终止条件：1)最大的迭代次数Max_Iteration和2)损失值迭代变化|L_i-L_i+1|＜ε。其中ε表示一个可以接受的误差范围。

步骤5：模型结果保存。

最后将步骤1-4步中训练好的模型参数保存，以供预测阶段使用这些参数。

(二)预测阶段：

步骤1：数据预处理。

本发明对实体识别的预测阶段的数据预处理主要包括两个步骤：

步骤1-1:分句。

对待实体识别的一段话，首先做分句处理。比如“小明出生在中国，他是中国人，他爱中国。小李出生在美国，他是美国人，他也爱中国。”按照汉语语法的分句结果为：

第一句：小明出生在中国，我是中国人，我爱中国。

第二句：小李出生在美国，我是美国人，我也爱中国。

步骤1-2：分词。

对步骤1-1的分句的结果进行分词，本发明在分词采用公知的基于词典+HMM(隐马尔科夫)模型对未登录词的识别的jieba(结巴)分词对其进行分词。步骤1-1的分词结果为：

第一句：小明出生在中国，他是中国人，他爱中国。

第二句：小李出生在美国，他是美国人，他也爱中国。

步骤2：字符和词向量化。

字符和词向量可以拆分为下面的三个步骤：

步骤2-1：词向量化。

将步骤1-2的分词结果采用公知的word2vec将词转化为一个向量，比如步骤1-2分词结果中的“美国”，首先word2vec会把“美国”转换为一个300维的向量。

步骤2-2：字符向量化。

按照图4所示LSTM模型进行字符向量转化，比如步骤2-1中的“美国”会把“美”和“国”两个字符通过LSTM模型将其转化为一个128维的向量。

步骤2-3：拼接。

将步骤2-1和2-2得到的两个向量进行拼接，比如对分词“美国”会得到一个300+128＝428维的向量。

步骤3：实体识别预测。

将步骤2-3拼接得到的向量数据输入到(一)训练阶段的步骤5保存的模型中，得到每一个输入数据的预测结果。在预测的过程中同样需要对输入的句子分句和输入数据填充的操作，到此就完成了实体识别的预测过程。对步骤1-2中分词结果的预测结果为

第一句：小明/S-PER出生/O在/O中国/S-LOC，/O他/O是/O中国/S-ORG人/O，/O他/O爱/O中国/S-ORG。/O

第二句：小李/S-PER出生/O在/O美国/S-LOC，/O他/O是/O美国/S-ORG人/O，/O他/O也/O爱/O中国/S-ORG。/O

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于LSTM的命名实体识别方法，其特征在于，包括以下步骤：

1)对命名实体识别的训练语料进行标注，形成标注语料；

2)将标注语料中的词和字符转化为向量；

2.如权利要求1所述的方法，其特征在于，步骤1)按照IOBES的方式对训练语料进行标注。

3.如权利要求1所述的方法，其特征在于，步骤2)首先将输入的词转化为向量，然后将词中的每一个字符进行了拆解，用LSTM模型将词所包含的所有字符转化为向量，并对词和字符转化的向量进行拼接。

4.如权利要求3所述的方法，其特征在于，步骤3)所述基于LSTM的命名实体识别模型包括LSTM层和CRF层，步骤2)拼接的字符和词的向量输入到第一层LSTM神经元单元中，第一层LSTM的第i个LSTM单元的输出同时作为第一层LSTM的第i+1个LSTM单元的输入，而后将LSTM每一个神经单元的输出作为CRF模型的输入，从而计算出对应每个输入字符x_i的y_i，并设定语料中实际标记的结果为构造一个基于熵的损失函数L：

<mrow> <mi>L</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <msub> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中n表示训练样本数量；而后将损失函数L转化为一个优化问题，求解：

<mrow> <mi>M</mi> <mi>i</mi> <mi>n</mi> <mi> </mi> <mi>L</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <msub> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

5.如权利要求4所述的方法，其特征在于，步骤3)采用Adam梯度下降算法训练L中的参数。

6.如权利要求5所述的方法，其特征在于，步骤3)在训练参数的过程中，将训练语料按照中文句法规则进行分句处理，并对分句后字符长度小于神经元个数的语句用数据0填充。

7.如权利要求6所述的方法，其特征在于，在Adam梯度下降算法的迭代中每次随机无放回的从训练语料数据集中随机的选取一个句子分组，从该句子分组中抽取若干句子作为模型单次的迭代数据。

8.如权利要求5所述的方法，其特征在于，Adam梯度下降算法中迭代的终止条件为：1)最大的迭代次数；2)损失值迭代变化|L_i-L_i+1|＜ε，其中ε表示能够接受的误差范围。

9.如权利要求1所述的方法，其特征在于，步骤4)对待预测的数据首先进行预处理，然后进行字符和词的向量化处理，然后进行命名实体识别预测。

10.如权利要求9所述的方法，其特征在于，所述预处理包括分句处理和分词处理；所述向量化处理包括词向量化处理，字符向量化处理，以及对词向量、字符向量进行拼接。