CN109783799B

CN109783799B - 一种基于语义依存图的关系提取方法

Info

Publication number: CN109783799B
Application number: CN201811522442.7A
Authority: CN
Inventors: 姜明; 何杰成; 张旻; 汤景凡; 滕海滨
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2020-05-05
Anticipated expiration: 2038-12-13
Also published as: CN109783799A

Abstract

本发明公开了一种基于语义依存图的关系提取方法。本发明包括如下步骤：步骤(1)训练双向循环卷积注意神经网络；步骤(2)读取语句数据；步骤(3)将数据输入训练好的深度神经网络，输出数据与各个关系的相关度。本发明通过引入语义依存图的信息来降低噪声数据和增强数据特征信息的方法。通过从语义依存图中提出来的实体对之间的最短路径中提取句子的特征信息。本发明通过引入语义依存图和双向循环卷积注意网络进行关系提取，通过语义依存的分析并提取的实体间最短路径，可以有效的降低远程监督学习带来的噪声数据影响，从而提高了关系提取的准确率。

Description

一种基于语义依存图的关系提取方法

技术领域

本发明涉及关系提取方法，具体来讲是一种基于语义依存图的关系提取方法，属于自然语言处理技术领域。

背景技术

在自然语言处理技术领域中，最重要的任务是分析人类话语并能理解。在这个大领域中有一项十分重要的任务是如何构建知识图谱。在建立知识图谱中，如果通过人类一句话一句话的进行分析并提取实体与关系，这是十分浪费人力的。因此，我们需要通过引入深度神经网络训练模型，让模型自动提取出句子中实体的关系。目前，主要的关系提取方法有无监督学习，监督学习和远程监督学习。由于，无监督学习效果一般，监督学习效果好，但是需要大量的训练数据，标记训练数据是一项浪费资源的工作。我们采用远程监督学习，但是，在该方法中会引入大量的噪声数据，因此，我们需要改进方法降低噪声数据对模型的影响。

发明内容

本发明针对使用远程监督学习方式进行关系提取中的噪声问题，公开一种通过引入语义依存图的信息来降低噪声数据和增强数据特征信息的方法。

为实现以上的技术目的，本发明将采用以下的技术方案：

步骤(1)训练双向循环卷积注意神经网络；

步骤(2)读取语句数据；

步骤(3)将数据输入训练好的深度神经网络，输出数据与各个关系的相关度；

步骤(1)包括如下步骤：

步骤A对输入数据进行语义分析，提取实体对的最短路径，并编码整理序列化；所述的最短路径包含词和依赖关系边；

步骤B构建双向循环卷积注意神经网络，确定双向循环卷积注意神经网络每一层的输入输出的向量维度、计算方式、训练方式；

步骤C特征提取，将处理好的数据和对应的结果标签输入到双向循环卷积注意神经网络中，提取出每个组的特征；

步骤D对于步骤C中的每个组，计算组的特征与结果候选集中每个关系的相关度，将相关度最大的作为该组提取的结果；

步骤E利用交叉熵损失函数计算结果与标签的误差，并调整双向循环卷积注意神经网络中的参数。

步骤A具体为：首先，将训练数据按照标签分组；其次，使用NLP分析工具将自然语言句子进行语义依存分析，得到相应的语义依存图；根据自然语言句子中的实体对和得到的语义依存图，使用改进后的最短路径迪杰斯特拉算法，提取出多条实体对之间的最短路径；

所述的改进后的最短路径迪杰斯特拉算法，具体是在原算法基础上加入一个PATH数据表记录每个图中节点在最短路径中的前一跳是哪个节点。

步骤B中，所述的双向循环卷积注意神经网络由BCNN网络架构改进实现，首先由一个双向循环网络对最短路径进行编码，每条最短路径循环次数限制为15次；再使用卷积网络与池化层提取编码后的最短路径的特征，卷积网络中采用200个过滤器；然后用注意力网络计算每条最短路径在当前组中的权重。

所述的双向循环卷积注意神经网络采用远程监督学习训练，网络自底向上的流程包括：

第一层：对每条最短路径中的词和依赖关系边，分别使用双向循环卷积注意神经网络进行编码，编码的过程为：

i_t＝σ(w_i·x_t+u_t·h_t-1+b_i)

g_t＝tanh(w_c·x_t+u_c·h_t-1+b_c)

f_t＝σ(w_f·x_t+u_f·h_t-1+b_f)

o_t＝σ(w_o·x_t+u_o·h_t-1+b_o)

其中，w表示模型中的参数，x表示输入的词特征或者依赖关系边特征，u表示模型中的参数，b表示模型中的参数，h表示循环中的前一时刻的输出，σ表示sigmod函数，

表示相乘；

得到前向和后向中每个词的编码信息hw_i和每条依赖关系边的编码信息he_i；

第二层：将前向和后向的编码信息按照依存单元进行组合，依存单元形式为<词，依赖关系边，词>；从而得到以下forward集合和backward集合，其中forward集合表示前向，backward集合表示后向：

第三层：使用卷积网络和池化层提取前向和后向的依存单元信息，然后将两个信息相连得到最短路径的特征信息；

第四层：使用注意力模型对一个组中所有最短路径特征信息融合得到组的特征；采取计算注意力方法，根据句子最短路径特征计算每条最短路径在该组中的权重，公式为：

S＝∑α_iG_i

f_i＝G_iAr

其中，S表示组的特征信息，α表示每条最短路径的权重，G表示最短路径特征信息，f表示最短路径和标签关系的相关度，i表示第i条最短路径，k表示列举改组中的所有最短路径。

步骤E中双向循环卷积注意神经网络的调优，具体实现如下：

采用自顶向下的远程监督学习方式进行调优，即使用标签的样本数据进行训练，误差自顶向下进行传输，对网络进行调优，包括：根据交叉熵损失函数的结果，利用反向传播算法重新调整双向循环卷积注意神经网络参数，最终达到全局网络最优，交叉熵损失函数为：

其中，θ是模型中的参数，r表示关系信息，G表示最短路径信息，i表示组中最短路径下标。

本发明由于采取以上技术方案，具有如下优点：

本发明通过引入语义依存图和双向循环卷积注意网络进行关系提取，通过语义依存的分析并提取的实体间最短路径，可以有效的降低远程监督学习带来的噪声数据影响，从而提高了关系提取的准确率。

附图说明

图1是本发明的神经网络模型流程示例图；

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1所示，一种基于语义依存图的关系提取方法，按照如下步骤进行：

步骤(1)训练双向循环卷积注意神经网络；

步骤(2)读取语句数据；

步骤(3)将数据输入训练好的深度神经网络，输出特征与各个关系的相关度

其中训练双向循环卷积注意神经网络的步骤如下：

将训练数据集中的数据按照实体对和标记关系进行分组。

将每一组句子，分别使用NLP工具进行语义分析得到相应的语义依存图。

根据句子中的实体对和得到的语义依存图，使用改进后的最短路径迪杰斯特拉算法，提取出多条实体对之间的最短路径；算法改进所做的是加入一个PATH数据记录每个图中节点在最短路径中的前一跳是哪个节点。

将得到的最短路径分别输入到双向循环卷积注意神经网络中，初始化BP神经网络参数，训练双向循环卷积注意神经网络。

以下是对本发明一种基于语义依存的关系提取方法神经网络模型的详细说明，模型图如图1。

第一层是双向循环神经网络(BiLSTM)，该网络的作用是对最短路径中的单词特征信息和依存关系边特征信息进行编码，其中前向和后向，单词和依存关系边要进行组合分开进行。因此，可以得到四组特征信息。

将前向的单词特征信息和依存关系边特征信息，按照依存单元的形式进行组合。可以得到前向依存单元组和后向依存单元组。依存单元的形式为：<单词，依存关系边，单词>。

第二层是卷积池化神经网络(CNN)，该网络的作用是提取依存单元的特征信息，网络中的窗口大小为1，过滤器组数为200个，再通过一个池化层得到前向的特征信息和后向的特征信息，最后将两者相连。

第三层是一个注意力神经网络，该网络的作用是计算该组中每个句子和标签关系的相关程度，也就是该句子在组中的权重大小。

根据得到的权重大小，将组中的句子进行加权求和，得到该组的特征信息。

根据得到的组特征信息，计算它与每个关系的相关程度，最后去相关程度最高的关系，作为当次计算的结果。

根据得到的结果，使用交叉熵目标函数对bp网络中的参数进行调整，实验的迭代次数为50次。

使用模型过程为，输入一组相同实体对的句子，先进行NLP工具分析语义信息，得到语义依存图。再从中抽取出实体对之间的最短路径，并输入到双向循环卷积注意网络中，网络输出组中句子所表达的关系。

Claims

1.一种基于语义依存图的关系提取方法，其特征在于包括如下步骤：

步骤(1)训练双向循环卷积注意神经网络；

步骤(2)读取语句数据；

步骤(3)将数据输入训练好的双向循环卷积注意神经网络，输出数据与各个关系的相关度；

步骤(1)包括如下步骤：

步骤E利用交叉熵损失函数计算结果与标签的误差，并调整双向循环卷积注意神经网络中的参数；

所述的改进后的最短路径迪杰斯特拉算法，具体是在原算法基础上加入一个PATH数据表记录每个图中节点在最短路径中的前一跳是哪个节点；

所述的双向循环卷积注意神经网络由BCNN网络架构改进实现，首先由一个双向循环网络对最短路径进行编码，每条最短路径循环次数限制为15次；再使用卷积网络与池化层提取编码后的最短路径的特征，卷积网络中采用200个过滤器；然后用注意力网络计算每条最短路径在当前组中的权重；

双向循环卷积注意神经网络采用远程监督学习训练，网络自底向上的流程包括：

i_t＝σ(w_i·x_t+u_t·h_t-1+b_i)

g_t＝tanh(w_c·x_t+u_c·h_t-1+b_c)

f_t＝σ(w_f·x_t+u_f·h_t-1+b_f)

o_t＝σ(w_o·x_t+u_o·h_t-1+b_o)

其中，w表示双向循环卷积注意神经网络中的参数，x表示输入的词特征或者依赖关系边特征，u表示双向循环卷积注意神经网络中的参数，b表示双向循环卷积注意神经网络中的参数，h_t-1表示循环中的前一时刻的输出，σ表示sigmod函数，

表示相乘；

其中，S表示组的特征信息，α表示每条最短路径的权重，G表示最短路径特征信息，f表示最短路径和标签关系的相关度，i表示第i条最短路径，k表示列举该组中的所有最短路径。

2.根据权利要求1所述的基于语义依存图的关系提取方法，其特征在于步骤E中双向循环卷积注意神经网络的调优，具体实现如下：

其中，θ是模型中的参数，r表示关系信息，G表示最短路径特征信息，i表示第i条最短路径。