CN109255119A

CN109255119A - 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统

Info

Publication number: CN109255119A
Application number: CN201810789114.7A
Authority: CN
Inventors: 陈涛; 吴明芬
Original assignee: Wuyi University Fujian
Current assignee: Wuyi University Fujian
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2019-01-22
Anticipated expiration: 2038-07-18
Also published as: CN109255119B

Abstract

本发明提供一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法、及系统，本发明分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析，并将三个网络的输出向量分别传递给多任务参数共享层网络；多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练，并将训练结果反向传递给双向LSTM神经网络的输入层；经过多个周期的迭代训练后，输出带有句子主干标注信息的结果序列。本发明采用基于深度学习的人工神经网络和句子中语义元素的多任务学习相结合的方法，能够提高系统准确性、反应速度和容错性。

Description

一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统

技术领域

本发明涉及一种自然语言处理技术领域，尤其是一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统。

背景技术

对文本数据中的句子主干进行自动化分析是自然语言处理、句法分析等人工智能技术的重要应用领域，其主要目的是应用自然语言处理技术和机器学习技术，让计算机自动对数字化文本中的句子进行分析，输出句子的主语、谓语、宾语等关键信息的结构化表示。

本发明的基本思想是：首先，使用三个带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析，上述三个任务分别在三个独立的神经网络上进行训练，三个任务的神经网络分别输出特征向量传递给多任务参数共享层网络；(2)多任务参数共享层网络使用全连接的神经网络对上述三个任务传递来的特征向量进行拼接和训练，然后将训练的结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层；(3)经过多个周期的迭代训练后，输出带有句子主干标注信息的结果序列。

其中，中文分词是使用计算机和自然语言处理技术自动将中文句子切分成词的序列。命名实体，英文为Named Entity，在自然语言处理领域是指具有命名性的指称形式的实体，而实体是文本中承载信息的重要语言单元。命名实体识别(Named EntityRecognition，NER) 作为文本信息抽取任务中的一种，主要研究如何从一段自然语言文本中找出相关实体，并标注出其位置以及类型。常见的命名实体划分类型包括：人名、地名、机构名、时间、货币等。句子主干分析是指使用计算机和自然语言处理技术自动对中文句子中的主语、谓语、宾语等关键信息进行标示，即进行结构化表示。

随着网络信息技术的不断发展，尤其是大数据、云计算、移动互联网的发展，越来越多的人通过网络分享自己的观点、体验和心情。这种开放、自由的信息共享与流动方式带来了信息的巨大积累。然而，这些积累的信息大多是以自然语言、声音、图像、视频等非结构化的形式保存的，急需一种技术能够自动、高效的从这些信息中提取知识。随着人工智能、机器学习、自然语言处理技术的不断发展和信息系统应用范围的不断深化，对文本数据进行自动化句子主干分析已经成为自然语言处理中的关键性问题之一。它对于解决机器翻译、信息抽取和自动文摘等任务都有重要的意义，它是将人工智能、自然语言处理应用于企业生产，提高企业生产效率和竞争优势的重要技术措施之一。

现有的句子主干分析技术多采用单一任务的方式进行分析，未考虑其它相关任务的有利影响，而句子是由词构成的，句子主干多为命名实体，在训练句子主干分析模型的同时，在不增加人工标注语料的情况下，通过对分词语料、命名实体识别语料的进行多任务同时训练和学习，将中文分词和命名实体识别任务中学习到的语言学特征应用到句子主干分析模型的训练中，有利于提高句子主干分析的效果。

发明内容

针对现有技术的不足，本发明提供一种能够利用中文分词、命名实体识别模型训练中学习到的语言学特征知识的基于多任务学习和深度神经网络的自动句子主干分析方法、系统。

本发明的技术方案为：一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法，包括以下步骤：

S1)、分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析，并将三个网络的输出向量分别传递给下一层神经网络，即多任务参数共享层网络；

S2)、多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练，并将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层；

S3)、经过多个周期的迭代训练后，输出带有句子主干标注信息的结果序列。

进一步的，步骤S1)中，使用带有条件随机场的双向LSTM神经网络对中文分词语料进行分词，具体如下：

输入的中文句子分为训练集和测试集两类，训练集中的句子采用人工标注的方式进行分词，用空格作为词与词之间的分隔符；

测试集中的句子则是未经过分词的中文句子；

带有条件随机场的双向LSTM神经网络在训练集上训练分词模型，在测试集上测试该模型的性能。

进一步的，步骤S1)中，带有条件随机场的双向LSTM神经网络进行命名实体识别，具体如下：

输入的中文命名实体识别语料分为训练集和测试集两类；

训练集中的句子通过人工标注了命名实体，所采用的标记方法是BIO标记法，其中，B 表示命名实体的开始词；I表示命名实体的中间词或结尾词；O表示命名实体之外的词；

将带有上述BIO标记的人工标注好命名实体的训练集句子输入到带有条件随机场的双向 LSTM网络中，对神经网络进行训练，通过调节神经网络的参数实现模型的优化；

将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中，神经网络会给该句子中的每个词自动标注一个BIO标记，从而实现命名实体的自动学习和识别。

进一步的，步骤S1)中，带有条件随机场的双向LSTM神经网络进行中文句子主干分析，具体如下：与前面的中文分词和命名实体识别相似，输入的中文句子主干分析语料分为训练集和测试集两类；

将人工标注了句子主干成分的中文句子作为训练集，将未标注句子主干成分的句子作为测试集，输入到带有条件随机场的双向LSTM网络中，进行训练；

其中标记句子主干成分采用Y/N标记方法标记出来，Y表示是句子主干成分，N表示不是句子主干成分；

将上一层网络识别出来的命名实体作为一个长词看待；

带有条件随机场的双向LSTM神经网络在上述训练集上训练句子主干分析模型，在测试集上测试该模型的性能。

进一步的，步骤S1)中，将三个网络的输出向量分别传递给多任务参数共享层网络，具体如下：负责上述三个任务(中文分词任务、命名实体识别任务和句子主干分析任务)的带有条件随机场的双向LSTM神经网络在训练过程中输出每个任务的特征向量，这些向量具有一定的与所训练任务相关的句法或语义信息；将上述特征向量传递给下一层网络，即多任务参数共享层网络，用于多任务机器学习。

进一步的，步骤S1)中，所述的双向LSTM神经网络由输入层、BiLSTM层和CRF层组成，其中，BiLSTM层由一个前向LSTM网络和个后向LSTM网络组成，因此，它可以同时从前后两个方向学习句子序列的信息；CRF层由一个基于概率统计的条件随机场模型构成；双向LSTM神经网络是一种带有长距离短期记忆单位作为隐含单元的循环神经网络。

进一步的，步骤S2)中，多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练，具体如下：

全连接的神经网络是指输入层与隐含层、隐含层与隐含层、隐含层与输出层之间，任意一个网络层中的神经元都和与其相邻的网络层的神经元两两互联组成的神经网络；

多任务参数共享层网络的输入是负责中文分词任务、命名实体识别任务和句子主干分析任务的带有条件随机场的双向LSTM神经网络输出的特征向量，每个任务输出一个特征向量，三个特征向量收尾相连拼接成一个长向量，输入给多任务参数共享层网络。

进一步的，步骤S2)中，将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层，具体如下：

全连接的神经网络的训练误差结果经过归一化后，反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层，用于调整这三个网络中神经元的权值和输入向量的值。

进一步的，步骤S3)中，经过多个周期的迭代训练后，输出带有句子主干标注信息的结果序列，具体如下：

经过多个周期的迭代训练后，当整个网络达到收敛或者训练周期达到设定的最大训练周期数，迭代训练停止；

将带有句子主干标注信息的结果序列输出，并利用可视化方式将其呈现给用户。

本发明还提供一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析系统，所述系统包括：

中文分词模块，用于将中文句子文本切分成词汇序列；

命名实体识别模块：用于对分好词的中文句子进行命名实体识别，自动分析句子中的命名实体句子主干分析，并用BIO标签标记出来；

句子主干分析模块：用于对命名实体识别后的句子的进行句子主干分析，自动识别出句子中的主要成分，并用Y/N标签标记出来；

多任务参数共享模块：将上述三个模块输出的特征向量进行拼接和训练，将训练结果反向传递给负责三个任务的神经网络的输入层；

结果输出模块，用于将句子主干分析的结果以便于用户理解的方式可视化输出。

本发明的有益效果为：本发明采用基于深度学习的人工神经网络和基于分词和命名实体识别和句子主干分析的多任务学习方法，针对不同任务分别训练和优化深度神经网络，通过多任务参数共享和误差反馈机制，将中文分词和命名实体识别任务中学习到的语言学特征应用到句子主干分析模型的训练中，提高句子主干分析的效果，满足工业界对大规模文本语料处理的实际需求。

附图说明

图1是本发明的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法的流程示意图；

图2是本发明的实施例中命名实体识别的BIO标记结果示意图；

图3是本发明的实施例中的句子主干分析Y/N标记结果示意图；

图4是本发明的实施例中基于分词和命名实体识别的多任务深度神经网络的句子主干分析系统的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

本发明提供一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法、及系统，本发明分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析，并将三个网络的输出向量分别传递给多任务参数共享层网络；然后，多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练，并将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层；最后，经过多个周期的迭代训练后，输出带有句子主干标注信息的结果序列。

本发明采用基于深度学习的人工神经网络和句子中语义元素的多任务学习相结合的方法，能够提高系统准确性、反应速度和容错性。

如图1所示，该句子主干分析方法包括以下步骤：

输入的中文句子分为训练集和测试集两类，训练集中的句子采用人工标注的方式进行分词，用空格作为词与词之间的分隔符；如：句子“我爱自然语言处理。”分词后为：“我爱自然语言处理。”；

测试集中的句子则是未经过分词的中文句子；

输入的中文命名实体识别语料分为训练集和测试集两类；

训练集中的句子通过人工标注了命名实体，所采用的标记方法是BIO标记法，其中，B 表示命名实体的开始词；I表示命名实体的中间词或结尾词；O表示命名实体之外的词；例如：

例如分好词的句子“我爱自然语言处理。”进行人工命名实体标注后的结果是：“我/O爱/O自然/B语言/I处理/I。/O”，即将“自然语言处理”作为一个特有的命名实体对待，“自然”是该命名实体的开始词，标记为B，“语言”和“处理”都是该命名实体的中间词或结尾词，标记为I，其他的词包括“我”、“爱”以及标点符号“。”都是命名实体之外的词，标记为O；

将上一层网络识别出来的命名实体作为一个长词看待；

全连接的神经网络是指输入层与隐含层、隐含层与隐含层、隐含层与输出层之间，任意一个网络层中的神经元都和与其相邻的网络层的神经元两两互联组成的神经网络，采用全连接的神经网络可以比较充分的学习多任务的共享参数；

例如，对于待分析的句子“自然语言处理是计算机科学领域与人工智能领域中的一个重要研究方向。”。将待分析句子输入到双向LSTM网络中进行分词，结果如下：“自然语言处理是计算机科学领域与人工智能领域中的一个重要研究方向。”。将上述结果中的每一个词输入到另一个双向LSTM网络中中，进行命名实体识别，分析结果如图2所示。其中识别出的命名实体包括“自然语言处理”、“计算机科学”、“人工智能”、“研究方向”。最后将上述结果输入的第三个双向LSTM网络中进行句子主干的分析，分析结果如图3所示，得到的句子主干为“自然语言处理是研究方向”。

如图4所示，所述的系统包括：

中文分词模块，用于将中文句子文本切分成词汇序列；

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法，其特征在于：步骤S1)中，使用带有条件随机场的双向LSTM神经网络对中文分词语料进行分词，具体如下：

测试集中的句子则是未经过分词的中文句子；

3.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法，其特征在于：步骤S1)中，带有条件随机场的双向LSTM神经网络进行命名实体识别，具体如下：

输入的中文命名实体识别语料分为训练集和测试集两类；

训练集中的句子通过人工标注了命名实体，所采用的标记方法是BIO标记法，其中，B表示命名实体的开始词；I表示命名实体的中间词或结尾词；O表示命名实体之外的词；

将带有上述BIO标记的人工标注好命名实体的训练集句子输入到带有条件随机场的双向LSTM网络中，对神经网络进行训练，通过调节神经网络的参数实现模型的优化；

4.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法，其特征在于：步骤S1)中，带有条件随机场的双向LSTM神经网络进行中文句子主干分析，具体如下：与前面的中文分词和命名实体识别相似，输入的中文句子主干分析语料分为训练集和测试集两类；

将上一层网络识别出来的命名实体作为一个长词看待；

5.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法，其特征在于：步骤S1)中，将三个网络的输出向量分别传递给多任务参数共享层网络，具体如下：负责上述三个任务(中文分词任务、命名实体识别任务和句子主干分析任务)的带有条件随机场的双向LSTM神经网络在训练过程中输出每个任务的特征向量，这些向量具有一定的与所训练任务相关的句法或语义信息；将上述特征向量传递给下一层网络，即多任务参数共享层网络，用于多任务机器学习。

6.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法，其特征在于：步骤S1)中，所述的双向LSTM神经网络由输入层、BiLSTM层和CRF层组成，其中，BiLSTM层由一个前向LSTM网络和个后向LSTM网络组成，因此，它可以同时从前后两个方向学习句子序列的信息；CRF层由一个基于概率统计的条件随机场模型构成；双向LSTM神经网络是一种带有长距离短期记忆单位作为隐含单元的循环神经网络。

7.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法，其特征在于：步骤S2)中，多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练，具体如下：

8.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法，其特征在于：步骤S2)中，将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层，具体如下：

9.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法，其特征在于：步骤S3)中，经过多个周期的迭代训练后，输出带有句子主干标注信息的结果序列，具体如下：

10.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析系统，其特征在于，包括：

中文分词模块，用于将中文句子文本切分成词汇序列；