CN109241520B

CN109241520B - 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统

Info

Publication number: CN109241520B
Application number: CN201810789276.0A
Authority: CN
Inventors: 陈涛; 吴明芬
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2023-05-23
Anticipated expiration: 2038-07-18
Also published as: CN109241520A

Abstract

本发明提供一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统，本发明首先对中文句子进行分词，将其切分成词的序列，然后对词序列进行命名实体识别，将属于同一个命名实体的词合并，最后对命名实体识别后的句子进行主干分析，可视化输出识别出的句子主要成分。本发明采用基于深度学习的人工神经网络和从词到命名实体再到句子的多层语义元素结构信息相结合的方法，针对不同层次的结构信息分别训练和优化深度神经网络，通过多层误差反馈提高句子主干分析的效果。该方法能够提高系统准确性、反应速度和容错性。

Description

一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统

技术领域

本发明涉及一种自然语言处理技术领域，尤其是一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统。

背景技术

对文本数据中的句子主干进行自动化分析是自然语言处理、句法分析等人工智能技术的重要应用领域，其主要目的是应用自然语言处理技术和机器学习技术，让计算机自动对数字化文本中的句子进行分析，输出句子的主语、谓语、宾语等关键信息的结构化表示。本发明的基本思想是：首先，对中文句子进行分词，将其切分成词的序列；然后，对上述词的序列进行命名实体识别，将属于同一个命名实体的多个词进行合并，并表示为同一个命名实体；最后对命名实体识别后的句子进行主干分析，可视化输出识别出的句子主要成分。

命名实体，英文为Named Entity，在自然语言处理领域是指具有命名性的指称形式的实体，而实体是文本中承载信息的重要语言单元。命名实体识别(Named EntityRecognition，NER)作为文本信息抽取任务中的一种，主要研究如何从一段自然语言文本中找出相关实体，并标注出其位置以及类型。常见的命名实体划分类型包括：人名、地名、机构名、时间、货币等。

随着信息技术的不断发展和信息系统应用范围的不断深化，对文本数据进行自动化句子主干分析已经成为自然语言处理中的关键性问题之一，对于解决机器翻译、信息抽取和自动文摘等任务都有重要的意义，它是将人工智能、自然语言处理应用于企业生产，提高企业生产效率和竞争优势的重要技术措施之一。

对于需要处理大量文本数据的行业而言，随着各类数字化业务的开拓，如何在浩如烟海的数字化资料中获取想要的信息，发掘数据中隐藏的商机(如用户的兴趣与需求、市场的变化等)是大数据处理行业面对的直接挑战。但是，现有的技术大多是利用机器学习方法(如最大熵模型)对预处理过(如分词、词性标注、断句等)的句子进行分析，未考虑句子中从词到命名实体(如是人名、地名、机构名等)到句子的层次结构，更没有一种利用此类多层结构的句子主干分析方法，分析效果有限。对大规模文本而言，急需一种比较实用的能够代替人工处理的方式对句子主干进行分析的方法。

发明内容

针对现有技术的不足，本发明提供一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析方法、系统及系统，本发明的首先对中文句子进行分词，将其切分成词的序列，然后对词序列进行命名实体识别，将属于同一个命名实体的词合并，最后对命名实体识别后的句子进行主干分析，可视化输出识别出的句子主要成分。

本发明采用基于深度学习的人工神经网络和句子中语义元素的多层结构信息相结合的方法，能够提高系统准确性、反应速度和容错性。

本发明的技术方案为：一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析方法，包括以下步骤：

S1)、使用双向LSTM神经网络对输入的中文句子进行分词，并将分词误差传递给下一层神经网络；

S2)、使用双向LSTM神经网络对分词后的句子进行命名实体识别，并将识别误差传递给下一层神经网络传递；

S3)、使用双向LSTM神经网络对命名实体识别后的句子进行句子主干分析，并将分析误差反向传递回整个网络的输入层；

S4)、经过多个周期的迭代训练后，当句子主干分析的训练误差收敛或训练周期达到一定数量时，输出带有句子主干标注信息的结果序列。

进一步的，上述技术方案中，步骤S1)中，使用双向LSTM神经网络对输入的中文句子进行分词，具体如下：

输入的中文句子分为训练集和测试集两类，训练集中的句子采用人工标注的方式进行分词，用空格作为词与词之间的分隔符；

测试集中的句子则是未经过分词的中文句子；

双向LSTM神经网络在训练集上训练分词模型，在测试集上测试该模型的性能。

进一步的，上述方法中，步骤S1)中，将分词误差传递给下一层神经网络的具体如下：

双向LSTM网络对输入的句子进行分词，将分词的结果与训练集中人工标注的结果进行对比，对比结果中不同于人工标注结果的分词方案则为训练误差，神经网络将训练误差数字化和归一化后，传递给下一层神经网络，即负责命名实体识别的神经网络。

进一步的，在上述方法中，步骤S2)中，使用双向LSTM神经网络对分好词的句子进行命名实体识别，具体如下：与步骤S1)相似，输入到双向LSTM网络的中文句子同样分为训练集和测试集两类；

训练集中的句子通过人工标注了命名实体，所采用的标记方法是BIO标记法，其中，B表示命名实体的开始词；I表示命名实体的中间词或结尾词；O表示命名实体之外的词，将带有上述BIO标记的人工标注好命名实体的训练集句子输入到双向LSTM网络中，对神经网络进行训练，通过调节神经网络的参数实现模型的优化；

将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中，神经网络会给该句子中的每个词自动标注一个BIO标记，从而实现命名实体的自动学习和识别。

在上述方法中，步骤S2)中，将命名实体识别误差传递给下一层网络，具体如下：

双向LSTM网络对输入的句子进行命名实体识别，将命名实体识别的结果与训练集中人工标注的命名实体BIO标记结果进行对比，对比结果中不同于人工标注结果的标记被认为是训练误差，神经网络将训练误差数字化和归一化后，向上传递给负责句子主干分析的神经网络。

在上述方法中，步骤S3)中，使用双向LSTM神经网络对命名实体识别后的句子进行句子主干分析如下所述：与前面的步骤S1)和步骤S2)相似，将人工标注了句子主干成分的中文句子作为训练集，将未标注句子主干成分的句子作为测试集，输入到双向LSTM网络中，进行训练；

其中标记句子主干成分采用Y/N标记方法标记出来，Y表示是句子主干成分，N表示不是句子主干成分；

将上一层网络识别出来的命名实体作为一个长词看待，双向LSTM神经网络在上述训练集上训练句子主干分析模型，在测试集上测试该模型的性能。

在上述方法中，步骤S3)中，将分析误差反向传递回整个网络的输入层，具体如下：

双向LSTM网络对输入的句子进行句子主干分析，将分析结果与训练集中人工标注的句子主干标记结果进行对比，对比结果中不同于人工标注结果的标记被认为是训练误差，神经网络将训练误差数字化和归一化后，反向传递给整个网络的输入层，即负责分词的双向LSTM网络的输入层。

在上述方法中，步骤S4)中，经过多个周期的迭代训练后，得到带有句子主干标注信息的结果序列，然后利用可视化方法将其呈现给用户。

本发明还提供一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析系统，所述系统包括：

中文分词模块，用于将中文句子文本切分成词汇序列；

命名实体识别模块：用于对分好词的中文句子进行命名实体识别，自动分析句子中的命名实体句子主干分析，并用BIO标签标记出来；

句子主干分析模块：用于对命名实体识别后的句子的进行句子主干分析，自动识别出句子中的主要成分，并用Y/N标签标记出来；

结果输出模块，用于将句子主干分析的结果以便于用户理解的方式可视化输出。

本发明的有益效果为：本发明采用基于深度学习的人工神经网络和从词到命名实体再到句子的多层结构信息相结合的方法，针对不同层次的结构信息分别训练和优化深度神经网络，通过多层误差反馈提高句子主干分析的效果，满足工业界对大规模文本语料处理的实际需求；

附图说明

图1是本发明的分析方法的流程图；

图2是本发明的实施例中的命名实体识别的BIO标记结果示意图；

图3是本发明的实施例的句子主干分析Y/N标记结果示意图；

图4是本发明的实施例中基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析系统的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析方法及系统，本发明的首先对中文句子进行分词，将其切分成词的序列，然后对词序列进行命名实体识别，将属于同一个命名实体的词合并，最后对命名实体识别后的句子进行主干分析，可视化输出识别出的句子主要成分。

如图1所示，该句子主干分析方法具体包括以下步骤：

步骤S1)中，使用双向LSTM神经网络对输入的中文句子进行分词，具体如下：

输入的中文句子分为训练集和测试集两类，训练集中的句子采用人工标注的方式进行分词，用空格作为词与词之间的分隔符；例如：句子“我爱自然语言处理。”分词后为：“我爱自然语言处理。”；

测试集中的句子则是未经过分词的中文句子；

双向LSTM神经网络在训练集上训练分词模型，在测试集上测试该模型的性能；

LSTM神经网络又称长短时记忆网络(Long Short-Term Memory network，LSTM)是由德国科学家Sepp Hochreiter和Juergen Schmidhub在90年代中期提出的一种循环神经网络。此类网络能够缓解普通循环神经网络(Recurrent Neural Network，RNN)在训练过程中存在的梯度消失问题。循环神经网络是一种典型的人工神经网络序列标注模型，其特征是隐含层单元首尾连接，构成一个有向环结构。它以任意序列作为输入，使用内部记忆单元学习动态时序特征。在自然语言处理中，循环神经网络首先被当作一类语言模型提出，通过当前的一系列词去预测下一个可能出现的词，而后在序列标注相关的诸多任务中得到应用。LSTM是针对梯度消失问题而设计的一类RNN网络架构，通过特殊的开关门机制，可以高效的学习长距离的依赖关系。在一些序列标注任务中需要获取序列前向和后向两个方面的上下文信息，双向LSTM通过两个LSTM，一个从前往后，一个从后向前，能够学习序列前后两个方向上的信息。上述前后两个方向的信息作为两个LSTM的输出，首尾拼接传递给网络的输出层，进行有监督的序列信息预测。

上述方法中，步骤S1)中，将分词误差传递给下一层神经网络的具体如下：

在上述方法中，步骤S2)中，使用双向LSTM神经网络对分好词的句子进行命名实体识别，具体如下：与步骤S1)相似，输入到双向LSTM网络的中文句子同样分为训练集和测试集两类；

训练集中的句子通过人工标注了命名实体，所采用的标记方法是BIO标记法，其中，B表示命名实体的开始词；I表示命名实体的中间词或结尾词；O表示命名实体之外的词，例如分好词的句子“我爱自然语言处理。”进行人工命名实体标注后的结果是：“我/O爱/O自然/B语言/I处理/I。/O”，即将“自然语言处理”作为一个特有的命名实体对待，“自然”是该命名实体的开始词，标记为B，“语言”和“处理”都是该命名实体的中间词或结尾词，标记为I，其他的词包括“我”、“爱”以及标点符号“。”都是命名实体之外的词，标记为O；

将带有上述BIO标记的人工标注好命名实体的训练集句子输入到双向LSTM网络中，对神经网络进行训练，通过调节神经网络的参数实现模型的优化；

如图2所示，通过BIO标记法标记“自然语言处理是计算机科学领域与人工智能领域中的一个重要研究方向。”将待分析句子输入到双向LSTM网络中进行分词，结果如下：“自然语言处理是计算机科学领域与人工智能领域中的一个重要研究方向。”。将上述结果中的每一个词输入到另一个双向LSTM网络中，进行命名实体识别，分析结果如图2所示。其中识别出的命名实体包括“自然语言处理”、“计算机科学”、“人工智能”、“研究方向”。最后将上述结果输入的第三个双向LSTM网络中进行句子主干的分析，分析结果如图3所示，得到的句子主干为“自然语言处理是研究方向”；

如图4所示，所述系统包括：

中文分词模块，用于将中文句子文本切分成词汇序列；

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析方法，其特征在于，包括以下步骤：

其中，使用双向LSTM神经网络对输入的中文句子进行分词，具体如下：输入的中文句子分为训练集和测试集两类，训练集中的句子采用人工标注的方式进行分词，用空格作为词与词之间的分隔符；

测试集中的句子则是未经过分词的中文句子；

将分词误差传递给下一层神经网络，具体如下：

双向LSTM网络对输入的句子进行分词，将分词的结果与训练集中人工标注的结果进行对比，对比结果中不同于人工标注结果的分词方案则为训练误差，神经网络将训练误差数字化和归一化后，传递给下一层神经网络，即负责命名实体识别的神经网络；

S2)、使用双向LSTM神经网络对分词后的句子进行命名实体识别，与步骤S1)相似，输入到双向LSTM网络的中文句子同样分为训练集和测试集两类；

将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中，神经网络会给该句子中的每个词自动标注一个BIO标记，从而实现命名实体的自动学习和识别；

并将识别误差传递给下一层神经网络传递；具体如下：

双向LSTM网络对输入的句子进行命名实体识别，将命名实体识别的结果与训练集中人工标注的命名实体BIO标记结果进行对比，对比结果中不同于人工标注结果的标记被认为是训练误差，神经网络将训练误差数字化和归一化后，向上传递给负责句子主干分析的神经网络；

S3)、使用双向LSTM神经网络对命名实体识别后的句子进行句子主干分析，与前面的步骤S1)和步骤S2)相似，将人工标注了句子主干成分的中文句子作为训练集，将未标注句子主干成分的句子作为测试集，输入到双向LSTM网络中，进行训练；

将上一层网络识别出来的命名实体作为一个长词看待，双向LSTM神经网络在上述训练集上训练句子主干分析模型，在测试集上测试该模型的性能；

并将分析误差反向传递回整个网络的输入层；具体如下：

双向LSTM网络对输入的句子进行句子主干分析，将分析结果与训练集中人工标注的句子主干标记结果进行对比，对比结果中不同于人工标注结果的标记被认为是训练误差，神经网络将训练误差数字化和归一化后，反向传递给整个网络的输入层，即负责分词的双向LSTM网络的输入层；

2.根据权利要求1所述的一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析方法，其特征在于：步骤S4)中，经过多个周期的迭代训练后，得到带有句子主干标注信息的结果序列，然后利用可视化方法将其呈现给用户。

3.一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析系统，其特征在于：所述的系统用于权利要求1或2所述的分析方法，所述的系统包括：

中文分词模块，用于将中文句子文本切分成词汇序列；