CN110516239B

CN110516239B - 一种基于卷积神经网络的分段池化关系抽取方法

Info

Publication number: CN110516239B
Application number: CN201910788092.7A
Authority: CN
Inventors: 黄瑞章; 杨卫哲; 王凯; 秦永彬; 陈艳平
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2022-12-09
Anticipated expiration: 2039-08-26
Also published as: CN110516239A

Abstract

本发明公开了一种基于卷积神经网络的分段池化关系抽取方法，所述方法包括如下步骤：步骤一：基于预训练词向量和随机词向量以及零向量对文本进行向量映射；步骤二：通过神经网络对向量矩阵进行卷积操作提取特征；步骤3：对卷积后的结果分段池化进一步抽象特征；步骤4：全连接、Softmax层预测结果。在充分利用句子文本完整信息的基础上，采用实体分割策略，引入神经网络技术，充分发挥神经网络分层自动提取高维抽象特征的特点，将提取由实体分割的文本各部分池化特征，并且在一定程度上避免传统机器学习方法产生的特征稀疏问题，从而提高关系抽取的性能。

Description

一种基于卷积神经网络的分段池化关系抽取方法

技术领域

本发明涉及一种卷积神经网络，尤其涉及一种基于卷积神经网络的分段池化关系抽取方法，属于自然语言处理技术领域。

背景技术

随着计算机在世界范围内快速普及以及互联网技术的的迅猛发展，使得视频、音频、图片、文本等各种各样的数据激增，大量的信息以电子数字化形式出现在用户面前。为了应对信息爆炸带来的严峻挑战，迫切需要专业的自动化工具从海量的数据中提取真正有价值的信息，信息抽取应运而生。信息抽取技术是自然语言处理领域中应用广泛的信息处理技术，关系抽取是文本信息抽取中的重要组成部分。命名实体指的是文本中表示人名、地名和组织名的专有名词，而关系抽取则是指从标记好实体对的文本中抽取出该文本中实体对之间存在的语义关系。例如在句子“The burst has been caused by water hammerpressure。”中，对于该句子中存在的两个命名实体“burst”和“pressure”，关系抽取系统能识别出这两实体之间存在一个Cause-Effect(e2，e1)的关系，其中(e2，e1)指的是在这句话中实体语义关系“因果(Cause-Effect)关系”与实体之间的对应顺序。其第二个实体“pressure”为关系中的“因(Cause)”，第一个实体“burst”为关系中的“果(Effect)”。

信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息，主要任务有实体抽取、关系抽取、事件抽取。其中，关系抽取研究的主要内容是从文本内容中挖掘出实体与实体之间的语义关系，作为文本中重要的语义知识载体，关系抽取在信息抽取中扮演重要角色，其作为信息抽取的一个子任务被提出之后，便受到学术界的高度重视，并进行了一系列的广泛研究，其主要目的是对文本中已识别出的实体对判别在该语义中存在的语义关系，进一步地为自动问答、意见挖掘、语义分析等众多自然语言处理任务提供重要的语义支撑。

文本中的命名实体是以连续字符的表现形式存在，在文本中对实体进行识别之后并进行标记然后再利用关系抽取方法对该实体对进行语义关系识别，我们的方法主要可以利用的是通过不同的文字表示方法来消除同一个字在不同的语境中表达的不同含义所带来的歧义问题。因此，文本中实体的标记存在使得原本统一的整体出现了分割，我们可以通过由实体分割后的各部分语义提取其特征然后抽取实体语义关系。由不同的语境中的相同文字往往富含不同的语义信息，为保证原始文本语义的完整性，文本中由实体分割后的各个部分进行分别池化来提取特征是必要的。

从理论层面看，关系抽取的技术研究能为其它自然语言处理技术提供理论支持，是一项值得进行下去的自然语言处理项目。关系抽取在语义角色标注、篇章理解、机器翻译方面具有重要的研究意义。2013年，邵堃等采用模式匹配的方法抽取结构化信息，用动态模式库以提高抽取的准确率，但分词的结构，专业词汇的存在都会影响到识别的效果。目前机器学习方法用于关系抽取的分为有监督方法、半监督方法、无监督方法等。有监督的机器学习方法一般将关系抽取看为一个分类问题，也就是对不同的实体对在不同语句中的关系分类，一般需要提前定义关系的类别。Socher等人在2012年开始使用递归神经网络来解决关系抽取问题，该方法首先对句子进行句法解析，然后为句法树上的每个节点学习向量表示。通过递归神经网络，可以从句法树最低端的词向量开始，按照句子的句法结构迭代合并，最终得到该句子的向量表示，并用于关系分类。该方法能够有效考虑句子的句法结构信息，但是无法考虑两个实体在句子中的位置和语义信息。半监督方法如自举方法减少了训练过程中对标注语料的依赖，降低了人工标注的成本，但存在语义漂移问题。无监督方法则主要使用聚类算法，能够应用于大规模开放性信息领域中，但是难以对关系名称进行准确描述。无监督实体关系抽取方法无需依赖实体关系标注语料，其实现包括关系实例聚类和关系类型词选择两个过程。首先根据实体对出现的上下文将相似度高的实体对聚为一类，然后选择具有代表性的词语来标记这种关系。

发明内容

本发明要解决的技术问题是：提供一种基于卷积神经网络的分段池化关系抽取方法，在充分利用句子文本完整信息的基础上，采用实体分割策略，引入神经网络技术，充分发挥神经网络分层自动提取高维抽象特征的特点，将提取由实体分割的文本各部分池化特征，并且在一定程度上避免传统机器学习方法产生的特征稀疏问题，从而提高关系抽取的性能，有效的解决了上述存在的问题。

本发明的技术方案为：一种基于卷积神经网络的分段池化关系抽取方法，所述方法包括如下步骤：步骤一：基于预训练词向量和随机词向量以及零向量对文本进行向量映射；步骤二：通过神经网络对向量矩阵进行卷积操作提取特征；步骤三：对卷积后的结果分段池化进一步抽象特征；步骤四：全连接、Softmax层预测结果。

所述步骤一中，基于神经网络模型，使用自然语言处理中的词向量特征对文本进行向量映射，识别出实体的位置，并在两个实体的前后共四个位置处填充零向量，便于神经网络卷积操作之后对卷积结果进行分隔，然后在池化层进一步获得五个部分的抽象特征，充分发挥神经网络分层自动抽取特征的特点，有效防止语义信息的损失。

原始语句为S：S＝(s₁，s₂，…，s_i+1，…，s_i+k，…，s_j+1，…，s_j+t，…，s_n)，其中，s_i+1，…，s_i+k和s_j+1，…，s_j+t表示原始句子中的两个实体，将其用词向量映射为X：X＝(x₁，x₂，…，0，x_i+1，…，x_i+k，0，…，0，x_j+1，…，x_j+t，0，…，x_n)，其中，0就表示在实体边界填充的0向量，用于分隔卷积后的结果。

所述步骤二中，对通过预训练词向量映射之后的向量矩阵X进行卷积操作，卷积结果为C：C＝Conv(X)，由于步骤一中映射词向量时在实体边界填充了0向量，因此便于此后对卷积结果按照实体将句子分隔为五部分。

所述步骤三中，对卷积后产生的结果进行分段提取特征，其分段的依据是根据实体边界将卷积后的句子进行分隔成五个部分，记为Part-L，Part-E1，Part-M，Part-E2，Part-R，然后再此步骤的池化操作作用于这五部分之上，分别对这五个部分进行池化提取特征的操作，对卷积后的结果进一步抽象特征。由于避免了整体池化造成的特征缺失，该方案对句子中五个部分，包括两个实体的部分进行了分别池化，保证了句子中重要特征的保留和不缺失，进而达到更好的而特征提取，使得整个关系抽取任务性能变好。

步骤四是对整个神经网络中的最终部分，通过其之前的向量化，卷积操作，和该方案的创新点“分段池化”操作以及全连接之后，进行Softmax操作，得出神经网络的输出。

分段池化关系抽取，即将进行关系抽取的句子按照句中两实体分割为五部分：Part-L，Part-E1，Part-M，Part-E2，Part-R，其含义分别为，

Part-L，句子被实体1和实体2切割后的左边部分

Part-E1，实体1

Part-M，句子被实体1和实体2切割后的中间部分

Part-E2，实体2

Part-R，句子被实体1和实体2切割后的右边部分。

本方案在卷积神经网络之后对句子分割后的各部分进行最大池化，能够得到各部分内容的语义信息，进而进行关系抽取，可以达到一个比较好的性能。

本发明的有益效果是：与现有技术相比，采用本发明的技术方案，在充分利用句子文本完整信息的基础上，采用实体分割策略，引入神经网络技术，充分发挥神经网络分层自动提取高维抽象特征的特点，将提取由实体分割的文本各部分池化特征，并且在一定程度上避免传统机器学习方法产生的特征稀疏问题，从而提高关系抽取的性能，将神经网络分层次自动抽取抽象特征的特点和分段最大池化获取各部分语义特征的优点相结合，在关系抽取方面取得了优良的成绩。

附图说明

图1为本发明的抽取技术路线图；

图2为本发明的抽取模型图；

图3为本发明的分段池化方法示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将参照本说明书附图对本发明作进一步的详细描述。

实施例1：如附图1～3所示，一种基于卷积神经网络的分段池化关系抽取方法，所述方法包括如下步骤：步骤一：基于预训练词向量和随机词向量以及零向量对文本进行向量映射；步骤二：通过神经网络对向量矩阵进行卷积操作提取特征；步骤3：对卷积后的结果分段池化进一步抽象特征；步骤4：全连接、Softmax层预测结果。

进一步的，步骤一中，基于神经网络模型，使用自然语言处理中的词向量特征对文本进行向量映射，识别出实体的位置，并在两个实体的前后共四个位置处填充零向量，便于神经网络卷积操作之后对卷积结果进行分隔，然后在池化层进一步获得五个部分的抽象特征，充分发挥神经网络分层自动抽取特征的特点，有效防止语义信息的损失。

进一步的，步骤二中，对通过预训练词向量映射之后的向量矩阵X进行卷积操作，卷积结果为C：C＝Conv(X)，由于步骤一中映射词向量时在实体边界填充了0向量，因此便于此后对卷积结果按照实体将句子分隔为五部分。

进一步的，步骤三中，对卷积后产生的结果进行分段提取特征，其分段的依据是根据实体边界将卷积后的句子进行分隔成五个部分，记为Part-L，Part-E1，Part-M，Part-E2，Part-R，然后再此步骤的池化操作作用于这五部分之上，分别对这五个部分进行池化提取特征的操作，对卷积后的结果进一步抽象特征。由于避免了整体池化造成的特征缺失，该方案对句子中五个部分，包括两个实体的部分进行了分别池化，保证了句子中重要特征的保留和不缺失，进而达到更好的而特征提取，使得整个关系抽取任务性能变好。

进一步的，四是对整个神经网络中的最终部分，通过其之前的向量化，卷积操作，和该方案的创新点“分段池化”操作以及全连接之后，进行Softmax操作，得出神经网络的输出。

Part-L，句子被实体1和实体2切割后的左边部分

Part-E1，实体1

Part-M，句子被实体1和实体2切割后的中间部分

Part-E2，实体2

Part-R，句子被实体1和实体2切割后的右边部分。

下面结合本实施例对本发明作进一步说明：

实行本发明的方法，首先执行步骤一，使用预训练词向量Google-News对得到的文本句子向量化，注意使用0向量分割句子。然后执行步骤二，对向量化矩阵进行卷积操作。

例如句子"The most common<e1>audits</e1>were about<e2>waste</e2>andrecycling."，由句子中标记好的实体1“audits”和实体2“waste”，便通过查找Google-News预训练词向量将句中所有词汇进行向量化，同时在两个实体的两边填充0向量，以便进行分割。然后执行步骤二，对向量化矩阵进行卷积操作。步骤三是分段池化方法的核心，对卷积后的结果按照0向量分割并分段池化进一步抽象特征；最后使用全连接进行特征融合，通过Softmax层预测结果，便是整个卷积神经网络分段池化关系抽取方法的过程。

综上，本发明提出的基于卷积神经网络的分段池化关系抽取方法具有优良的性能。

本发明未详述之处，均为本技术领域技术人员的公知技术。最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于卷积神经网络的分段池化关系抽取方法，其特征在于，包括如下步骤：

步骤一：基于预训练词向量和随机词向量以及零向量对文本进行向量映射；基于神经网络模型，使用自然语言处理中的词向量特征对文本进行向量映射，识别出实体的位置，并在两个实体的前后共四个位置处填充零向量；

步骤二：通过神经网络对向量矩阵进行卷积操作提取特征；

步骤三：对卷积后的结果分段池化进一步抽象特征；对卷积后产生的结果进行分段提取特征，其分段的依据是根据实体边界将卷积后的句子进行分隔成五个部分，记为Part-L，Part-E1，Part-M，Part-E2，Part-R，其含义分别为：

Part-L，句子被实体1和实体2切割后的左边部分；

Part-E1，实体1；

Part-M，句子被实体1和实体2切割后的中间部分；

Part-E2，实体2；

Part-R，句子被实体1和实体2切割后的右边部分；

然后在此步骤的池化操作作用于这五部分之上，分别对这五个部分进行池化提取特征的操作，对卷积后的结果进一步抽象特征；

步骤四：全连接、Softmax层预测结果。

2.根据权利要求1所述的基于卷积神经网络的分段池化关系抽取方法，其特征在于：所述步骤二中，对通过预训练词向量映射之后的向量矩阵X进行卷积操作，卷积结果为C：C =Conv(X)。