CN107526798B

CN107526798B - 一种基于神经网络的实体识别和规范化联合方法及模型

Info

Publication number: CN107526798B
Application number: CN201710713734.8A
Authority: CN
Inventors: 姬东鸿; 娄银霞
Original assignee: Wuhan Hongcha Data Technology Co ltd
Current assignee: Wuhan University WHU
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2020-09-01
Anticipated expiration: 2037-08-18
Also published as: CN107526798A

Abstract

本发明涉及一种基于神经网络的实体识别和规范化联合方法及模型，其方法包括从词向量文本中读取目标文本中每个词的词向量，并作为实体识别子模型中的BI‑LSTM层的输入；所述BI‑LSTM层根据所述词向量生成对应的BI‑LSTM输出向量，所述BI‑LSTM输出向量包含了对应词向量在给定的某一时刻的过去和未来的上下文信息；根据所述BI‑LSTM输出向量生成目标文本中的识别实体以及对应的识别实体ID。本发明的基于神经网络的实体识别和规范化联合方法，基于神经网络的联合模型从大数据中自动学习特征，在使用中减少了手工设计特征的巨大工作量，可以有效利用实体识别和实体规范这两个任务之间的相互信息，避免了串行模型中的实体识别到实体规范的错误传播。

Description

一种基于神经网络的实体识别和规范化联合方法及模型

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于神经网络的实体识别和规范化联合方法及模型。

背景技术

命名实体的识别(NER)是自然语言处理中的一个很重要的任务，也是信息抽取中的一个关键技术。命名实体识别任务是识别文本中实体的边界，且给它们分配一个类型。对于许多其它的信息检索任务，命名实体识别是一个基础任务，包括命名实体规范化，知识库的构建、关系抽取和机器翻译。尽管传统的机器学习的方法广泛地用于命名实体的识别，例如支持向量机、最大熵、隐马尔可夫和条件随机场等。但是，其性能的提升可能会受到几种常见因素的影响：

(1)随着语料和语言的变化，重构特征集是困难的。

(2)一些带有语义信息的复杂特征往往依赖于其它NLP模块的性能。

(3)具有专业知识的特征获取成本昂贵。

鉴于上述的浅层的机器学习方法有具有很强的人工特征的依赖性，且很难表示复杂的模型，近年来，深度学习被引进到了命名实体识别领域。Collobert等人提出统一神经网络架构和学习算法，用于各种自然语言处理任务，在NER任务中取得了较好的成果。陈宇等人采用深度置信网络提取中文文档中的实体，且效果高于传统的机器学习方法。长短期记忆(LSTM)也被用于具有复杂模型框架的识别命名实体。

文本中的命名实体从字面上看具有模糊性，例如：实体“Gates”在句子“Thegreater part of Gates’population is in Marion County.”和“Gates was a baseballplayer.”，我们需要分清第一个“Gates”是表示位置，另一个“Gates”表示人。命名实体在文本中也有多个的变量名。例如，“Anneke Gronoh”可能出现“Mw.Gronloh”、“AnnekeKronloh”或者“Mevrouw G”等多种形式因此。因此，需要对命名实体进行规范化。同时，实体规范化对实体检索、事件跟踪和知识库的构建起着重要的作用。命名实体规范化任务是链接文本中的命名实体到给定的知识库中规范的形式。例如：

句子“JetBlue begins direct service between Barnstable Airport and JFKInternational.”这里，“JetBlue”应该被连接到KB：JetBlue，“Barnstable Airport”连接到KB：Barnstable Municipal Airport和“JFK International”到KB：John F.KennedyInternational Airport。

目前，大多数处理实体识别和规范化联合方式使用串行的模型：如图1和图2所示，分别为现有的实体识别和规范化联合方法流程示意图和联合模型结构示意图，它们先执行命名实体识别模型识别实体在文本中的边界，然后再对已识别的实体进行规范。但是，串行的框架面临下面两个挑战：

(1)它们可能导致错误从实体识别传给实体规范

(2)实体规范有助于实体识别，但是串行的方法不能利用这种信息。

针对串行模型的不足，一些学者提出了联合模型。例如，Xiaohua Liu等人提出了联合推理的方法为了推特命名实体的识别和规范化。Avirup Sil提出了重排序的方法对于实体识别和规范化联合。Yinxia Lou等人提出了基于转换的疾病的命名实体和规范化的方法。Robert Leaman等人使用半马尔科夫模型进行疾病名称识别和规范化。但是这些联系模型都使用了丰富的人工特征。这些人工特征依赖于语料和语言的变化，而且成本也非常昂贵。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于神经网络的实体识别和规范化联合方法及模型。

本发明解决上述技术问题的技术方案如下：

依据本发明的一个发明，提供了一种基于神经网络的实体识别和规范化联合方法，包括如下步骤：

步骤1：从词向量文本中读取目标文本中每个词的词向量，并作为实体识别子模型中的BI-LSTM层的输入；

步骤2：所述BI-LSTM层根据所述词向量生成对应的BI-LSTM输出向量，所述BI-LSTM输出向量包含了对应词向量在给定的某一时刻的过去和未来的上下文信息；

步骤3：根据所述BI-LSTM输出向量生成目标文本中的识别实体以及对应的识别实体ID。

本发明的基于神经网络的实体识别和规范化联合方法，基于神经网络的联合模型从大数据中自动学习特征，在使用中减少了手工设计特征的巨大工作量，可以有效利用实体识别和实体规范这两个任务之间的相互信息，避免了串行模型中的实体识别到实体规范的错误传播。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步：所述步骤1中，对所述词向量文本中的目标文本进行分句处理，读取每个文本语句中每个词对应的词向量，并以句子为单位将所述文本语句输出至所述实体识别子模型中的BI-LSTM层。

上述进一步方案的有益效果是：由于词向量是低为稠密向量，通过读取文本语句中的词向量，可以有效地避免维数灾难，而且所述词向量含有更加丰富的语义信息，可以更好用于自然语言处理的任务中。

进一步：所述步骤3中，根据所述BI-LSTM输出向量生成识别实体具体包括：

步骤31a：所述实体识别子模型中的第一隐层将所述BI-LSTM输出向量作为输入，并将所述第一隐层的输出结果输出至所述实体识别子模型中的CRF层；

步骤32a：所述CRF层根据所述第一隐层的输出生成对应词的标签信息，并对所述标签信息进行联合解码，得到所述文本语句的最佳标签序列，并作为识别实体输出。

上述进一步方案的有益效果是：通过BI-LSTM输出向量能自动地抽取出更加复杂和丰富的特征信息，避免了复杂特征设计，经过第一隐层的非线性变换，得到更有效的信息，最后经过CRF的联合解码，而不是对应位置的单独解码，能得到最佳的标签序列。

进一步：所述步骤3中，根据所述BI-LSTM输出向量生成识别实体ID具体包括：

步骤31b：实体规范子模型中的池化层将所述BI-LSTM输出向量作为输入进行最大值池化maxpooling处理，得到长度相同的向量并输出至实体规范子模型中的第二隐层；

步骤32b：所述第二隐层根据所述长度相同的向量生成输出结果并输出至所述实体规范子模型中的softmax多分类层；

步骤33b：所述softmax多分类层将所述第二隐层的输出结果作为输入，并结合预设知识库生成识别实体ID并输出。

上述进一步方案的有益效果是：通过BI-LSTM输出向量能自动地抽取出更加复杂和丰富的特征信息，避免了复杂特征设计和规则设计，输出向量经过最大值池化层，可以得到实体的显著特征信息，经过第二隐层的非线性变换，可以得到实体相关的有效特征信息。

进一步：所述步骤34b中，所述softmax多分类层将多分类作为目标函数，计算所述预设知识库中每一种标签的对应类别概率值，选取最大概率值对应类别的ID作为识别实体ID并输出。

上述进一步方案的有益效果是：通过所述softmax多分类层可以针对预设知识库中的每一类标签准确的计算出对应类别的概率，并将概率最大的类别ID作为识别实体ID，从而可以比较准确的对识别实体的类别进行规范化。

依据本发明的另一个发明，提供了一种基于神经网络的实体识别和规范化联合模型，包括实体识别子模型，用于从词向量文本中读取目标文本中每个词的词向量，根据所述词向量生成对应的BI-LSTM输出向量，所述BI-LSTM输出向量包含了对应词向量在给定的某一时刻的过去和未来的上下文信息；根据所述BI-LSTM输出向量生成目标文本中的识别实体；实体规范化子模型，用于根据所述BI-LSTM输出向量生成识别实体ID。

本发明的一种基于神经网络的实体识别和规范化联合模型，基于神经网络的联合模型从大数据中自动学习特征，在使用中减少了手工设计特征的巨大工作量，避免了构建人工特征的困难性。同时，也避免了随着语料和语言的变化，特征集构建困难的问题可以有效利用实体识别和实体规范这两个任务之间的相互信息，避免了串行模型中的实体识别到实体规范的错误传播。

进一步：所述实体识别子模型包括词向量层，用于对所述词向量文本中的目标文本进行分句处理，读取每个文本语句中每个词对应的词向量，并以句子为单位将所述文本语句输出至所述实体识别子模型中的BI-LSTM层。

进一步：所述实体识别子模型还包括BI-LSTM层，用于根据所述词向量生成对应的BI-LSTM输出向量，所述BI-LSTM输出向量包含了对应词向量在给定的某一时刻的过去和未来的上下文信息；第一隐层，用于将所述BI-LSTM输出向量作为输入，并将输出结果输出至CRF层；CRF层，用于根据所述第一隐层的输出结果生成对应词的标签信息，并对所述标签信息进行联合解码，得到所述文本语句的最佳标签序列，并作为识别实体输出。

进一步：所述实体规范化子模型包括池化层，用于将所述BI-LSTM输出向量作为输入进行最大值池化maxpooling处理，得到长度相同的向量并输出至实体规范子模型中的第二隐层；第二隐层，用于根据所述长度相同的向量生成输出结果并输出至所述实体规范子模型中的softmax多分类层；softmax多分类层，用于将所述第二隐层的输出结果作为输入，并结合预设知识库生成识别实体ID并输出。

进一步：所述softmax多分类层将多分类作为目标函数，计算所述预设知识库中每一种标签的对应类别概率值，选取最大概率值对应类别的ID作为识别实体ID并输出。

附图说明

图1为现有的实体识别和规范化流程示意图；

图2为现有的实体识别和规范化模型结构示意图；

图3为本发明的基于神经网络的实体识别和规范化联合方法流程示意图；

图4为本发明的基于神经网络的实体识别和规范化联合模型结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图3所示，一种基于神经网络的实体识别和规范化联合方法，包括如下步骤：

步骤1：从词向量文本中读取目标文本中每个词的词向量；

步骤2：根据所述词向量生成对应的BI-LSTM输出向量，所述BI-LSTM输出向量包含了对应词向量在给定的某一时刻的过去和未来的上下文信息；

本发明的基于神经网络的实体识别和规范化联合方法，基于神经网络的联合模型从大数据中自动学习特征，在使用中减少了手工设计特征的巨大工作量，避免了构建人工特征的困难性。同时，也避免了随着语料和语言的变化，特征集构建困难的问题，实体识别和实体规范共用实体的BI-LSTM层，可以有效利用实体识别和实体规范这两个任务之间的相互信息，避免了串行模型中的实体识别到实体规范的错误传播。

本实施例中，所述步骤1中，对所述词向量文本中的目标文本进行分句处理，读取每个文本语句中每个词对应的词向量，并以句子为单位将所述文本语句输出至所述实体识别子模型中的BI-LSTM层。由于词向量是低为稠密向量，通过读取文本语句中的词向量，可以有效地避免维数灾难，而且所述词向量含有更加丰富的语义信息，可以更好用于自然语言处理的任务中。

本实施例中，所述步骤3中，根据所述BI-LSTM输出向量生成识别实体具体包括：

通过BI-LSTM输出向量能自动地抽取出更加复杂和丰富的特征信息，避免了复杂特征设计，经过第一隐层的非线性变换，得到更有效的信息，最后经过CRF的联合解码，而不是对应位置的单独解码，能得到最佳的标签序列。

图3中O,B-Chemical和B-Disease分别表示实体的类型是疾病实体还是药物实体。在实体识别的任务中，对于一个给定的时间，我们利用过去和将来的特征信息作为输入，因此，我们能利用双向的LSTM层。除此之外，本发明的实体识别子模型还使用了CRF层，以更好地利用句子级的标签信息。

本发明中，我们使用了长短记忆Long Short-Term Memory(LSTM)型递归神经网络进行识别实体命名，长短期记忆神经网络，第一隐层更新被专门的内存单元替代，因此，它们可能更好地找到和利用长范围的依赖信息。

本实施例中，所述步骤3中，根据所述BI-LSTM输出向量生成识别实体ID具体包括：

通过BI-LSTM输出向量能自动地抽取出更加复杂和丰富的特征信息，避免了复杂特征设计和规则设计，输出向量经过最大值池化层，可以得到实体的显著特征信息，经过第二隐层的非线性变换，可以得到实体相关的有效特征信息。

优选地，作为本发明的一个实施例，该实施例中，所述步骤34b中，所述softmax多分类层将多分类作为目标函数，计算所述预设知识库中每一种标签的对应类别概率值，选取最大概率值对应类别的ID作为实体的ID并输出。通过所述softmax多分类层可以针对预设知识库中的每一类标签准确的计算出对应类别的概率，并将概率最大的类别ID作为识别实体ID，从而可以比较准确的对识别实体的类别进行规范化。实际中，使用多分类对文档中的识别实体进行规范化，把预设知识库中含有的规范词的总数作为类别数。

图3表示基于神经网络的联合模型，用于实体识别和规范化。该模型左边是一个BI-LSTM-CRF模型，右边是一个softmax的多分类的神经网络模型，两部分共用BI-LSTM层和输入的词向量层，也即实体规范子模型的输入是BI-LSTM的输出。如此一来，实体规范字模型可以利用实体识别字模型的信息，实体识别字模型也可以利用实体规范字模型的信息。

如图4所示，一种基于神经网络的实体识别和规范化联合模型，包括：实体识别子模型，用于从词向量文本中读取目标文本中每个词的词向量，根据所述词向量生成对应的BI-LSTM输出向量，所述BI-LSTM输出向量包含了对应词向量在给定的某一时刻的过去和未来的上下文信息；根据所述BI-LSTM输出向量生成目标文本中的识别实体；实体规范化子模型，用于根据所述BI-LSTM输出向量生成识别实体ID。

本发明的一种基于神经网络的实体识别和规范化联合模型，基于神经网络的联合模型从大数据中自动学习特征，在使用中减少了手工设计特征的巨大工作量，避免了构建人工特征的困难性。同时，也避免了随着语料和语言的变化，特征集构建困难的问题，实体识别和实体规范共用实体的BI-LSTM层，可以有效利用实体识别和实体规范这两个任务之间的相互信息，避免了串行模型中的实体识别到实体规范的错误传播。

本实施例中，所述实体识别子模型包括词向量层，用于对所述词向量文本中的目标文本进行分句处理，读取每个文本语句中每个词对应的词向量，并以句子为单位将所述文本语句输出至所述实体识别子模型中的BI-LSTM层。由于词向量是低为稠密向量，通过读取文本语句中的词向量，可以有效地避免维数灾难，而且所述词向量含有更加丰富的语义信息，可以更好用于自然语言处理的任务中。

本实施例中，所述实体识别子模型还包括BI-LSTM层，用于根据所述词向量生成对应的BI-LSTM输出向量，所述BI-LSTM输出向量包含了对应词向量在给定的某一时刻的过去和未来的上下文信息；第一隐层，用于将所述BI-LSTM输出向量作为输入，并将输出结果输出至CRF层；CRF层，用于根据所述第一隐层的输出结果生成对应词的标签信息，并对所述标签信息进行联合解码，得到所述文本语句的最佳标签序列，并作为识别实体输出。通过BI-LSTM输出向量能自动地抽取出更加复杂和丰富的特征信息，避免了复杂特征设计，经过第一隐层的非线性变换，得到更有效的信息，最后经过CRF的联合解码，而不是对应位置的单独解码，能得到最佳的标签序列。

本实施例中，所述实体规范化子模型包括池化层，用于将所述BI-LSTM输出向量作为输入进行最大值池化maxpooling处理，得到长度相同的向量并输出至实体规范子模型中的第二隐层；第二隐层，用于根据所述长度相同的向量生成输出结果并输出至所述实体规范子模型中的softmax多分类层；softmax多分类层，用于将所述第二隐层的输出结果作为输入，并结合预设知识库生成识别实体ID并输出。通过BI-LSTM输出向量能自动地抽取出更加复杂和丰富的特征信息，避免了复杂特征设计和规则设计，输出向量经过最大值池化层，可以得到实体的显著特征信息，经过第二隐层的非线性变换，可以得到实体相关的有效特征信息。

优选地，作为本发明的一个实施例，该实施例中，所述softmax多分类层将多分类作为目标函数，计算所述预设知识库中每一种标签的对应类别概率值，选取最大概率值对应类别的ID作为识别实体ID并输出。通过所述softmax多分类层可以针对预设知识库中的每一类标签准确的计算出对应类别的概率，并将概率最大的类别ID作为识别实体ID，从而可以比较准确的对识别实体的类别进行规范化。

本实施例中结合了BI-LSTM层和CRF层，形成BI-LSTM-CRF模型。该模型能有效地利用过去和将来的输入特征通过一个BI-LSTM层，而且可以利用句子级的标签信息通过一个CRF层，带有这些信息我们能有效地预测当前的标签。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的实体识别和规范化联合方法，其特征在于，包括如下步骤：

步骤1：从词向量文本中读取目标文本中每个词的词向量；

步骤3：根据所述BI-LSTM输出向量生成目标文本中的识别实体以及对应的识别实体ID；

所述步骤1中，对所述词向量文本中的目标文本进行分句处理，读取每个文本语句中每个词对应的词向量，并以句子为单位将所述文本语句输出至所述实体识别子模型中的BI-LSTM层；

所述步骤3中，根据所述BI-LSTM输出向量生成识别实体具体包括：

步骤32a：所述CRF层根据所述第一隐层的输出生成对应词的标签信息，并对所述标签信息进行联合解码，得到所述文本语句的最佳标签序列，并作为识别实体输出；

所述步骤3中，根据所述BI-LSTM输出向量生成识别实体ID具体包括：

2.根据权利要求1所述的基于神经网络的实体识别和规范化联合方法，其特征在于，所述步骤33b中，所述softmax多分类层将多分类作为目标函数，计算所述预设知识库中每一种标签的对应类别概率值，选取最大概率值对应类别的ID作为识别实体ID并输出。

3.一种基于神经网络的实体识别和规范化联合模型，其特征在于，包括：

实体识别子模型，用于从词向量文本中读取目标文本中每个词的词向量，根据所述词向量生成对应的BI-LSTM输出向量，所述BI-LSTM输出向量包含了对应词向量在给定的某一时刻的过去和未来的上下文信息；根据所述BI-LSTM输出向量生成目标文本中的识别实体；

实体规范化子模型，用于根据所述BI-LSTM输出向量生成识别实体ID；

所述实体识别子模型还包括词向量层，用于对所述词向量文本中的目标文本进行分句处理，读取每个文本语句中每个词对应的词向量，并以句子为单位将所述文本语句输出至所述实体识别子模型中的BI-LSTM层；

所述实体识别子模型包括：

BI-LSTM层，用于根据所述词向量生成对应的BI-LSTM输出向量，所述BI-LSTM输出向量包含了对应词向量在给定的某一时刻的过去和未来的上下文信息；

第一隐层，用于将所述BI-LSTM输出向量作为输入，并将输出结果输出至CRF层；

CRF层，用于根据所述第一隐层的输出结果生成对应词的标签信息，并对所述标签信息进行联合解码，得到所述文本语句的最佳标签序列，并作为识别实体输出；

所述实体规范化子模型包括：

池化层，用于将所述BI-LSTM输出向量作为输入进行最大值池化maxpooling处理，得到长度相同的向量并输出至实体规范子模型中的第二隐层；

第二隐层，用于根据所述长度相同的向量生成输出结果并输出至所述实体规范子模型中的softmax多分类层；

softmax多分类层，用于将所述第二隐层的输出结果作为输入，并结合预设知识库生成识别实体ID并输出。

4.根据权利要求3所述的基于神经网络的实体识别和规范化联合模型，其特征在于，所述softmax多分类层将多分类作为目标函数，计算所述预设知识库中每一种标签的对应类别概率值，选取最大概率值对应类别的ID作为识别实体ID并输出。