CN111191461B

CN111191461B - 一种基于课程学习的远程监督关系抽取方法

Info

Publication number: CN111191461B
Application number: CN201911395765.9A
Authority: CN
Inventors: 刘琼昕; 王佳升; 马敬; 王鹏; 杨敏; 卢士帅
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-06-06
Filing date: 2019-12-30
Publication date: 2021-08-03
Anticipated expiration: 2039-12-30
Also published as: CN111191461A

Abstract

本发明公开了一种基于课程学习的远程监督关系抽取方法，属于人工智能和自然语言处理技术领域。本方法将关系抽取器看作学生网络，针对关系抽取任务，设计一个导师网络来监督关系抽取器的训练过程。导师网络接收关系抽取器的相关特征信息输入，学习出包中每个句子的权重，然后将其反馈到关系抽取器中，使得质量好的句子更多参与到关系抽取器的训练过程中。本方法为了高效地协同训练两个网络，在交替局部梯度下降方法基础上进行改进，提出一种适用于关系抽取任务的联合优化方法。本发明提高了噪声环境下关系抽取的效果，在主流的关系抽取数据集中优于传统方法。

Description

一种基于课程学习的远程监督关系抽取方法

技术领域

本发明涉及一种远程监督关系抽取方法，属于人工智能和自然语言处理技术领域。

背景技术

信息抽取(Information Extraction)是自然语言处理中的一项基本任务，通过对非结构化文本进行处理抽取结构化信息，作为后续自然语言处理任务的输入。在知识爆炸的时代，人们每天都需要面对海量数据，合理利用信息抽取系统高效地处理文本提取有用的信息就变得极为重要。信息抽取作为自然语言处理中极为重要的一环，本身也是由一系列子任务构成的，例如命名实体识别、关系抽取和事件抽取等。

关系抽取(Relation Extraction，RE)是信息抽取的一项关键技术，其目的是挖掘实体间存在的语义关系，对于知识库自动构建、问答系统等领域有着极为重要的意义。远程监督关系抽取(Distant Supervision Relation Extraction，DSRE)通过外部知识库代替人工对语料进行标注，可以低成本地获取大量标注数据，是目前主流的关系抽取方法。

知识库中有大量形如“实体1，实体2，实体1、2关系”的三元组，远程监督将一个无标注语料库对齐到已知的知识库，知识库中的每一条三元组都对应一个句子集合，这种句子集合称为包(Bag)。包中的句子都是从无标注语料库中获得，且同一个包中的句子都含有相同的实体对(即对应三元组中的两个实体)。远程监督关系抽取假设包中的每一个句子都具有对应实体对的关系，这使得在获得大量标注数据的同时，也引入了大量的噪声即错误标注的数据。

远程监督关系抽取的目标是训练一个关系抽取器，然后针对一个未标注的包(在知识库中该包的实体对间不存在关系)，预测该包的关系，从而得到一个新的知识(三元组)。训练数据含有大量的噪声会导致神经网络拟合到噪声上，影响关系抽取的效果。目前，缓解噪声数据的主流方法是多实例学习(Multi Instance Learning)，即从一个包中只选出一个句子来预测该包对应实体对的关系，但包中往往有多个标注正确的句子，并且有些句子可能隐式地表示了包的关系，因此多实例学习浪费了数据集中大量句子的语义信息。

发明内容

本发明的目的是为了解决现有的远程监督关系抽取方法在噪声环境下抽取效果差，无法充分挖掘包中句子的语义信息的技术问题，创造性地提出一种基于课程学习的远程监督关系抽取方法。

本发明所述方法，将关系抽取器看作学生网络(StudentNet)，针对关系抽取任务，设计一个导师网络(MentorNet)来监督关系抽取器的训练过程。导师网络接收关系抽取器的相关特征信息输入，学习出包中每个句子的权重，然后将其反馈到关系抽取器中，使得质量好的句子更多参与到关系抽取器的训练过程中。同时，本方法为了高效地协同训练两个网络，在交替局部梯度下降方法基础上进行改进，提出了一个适用于关系抽取任务的联合优化方法。

有益效果

本发明方法与现有技术相比，具有如下有益效果：

本发明将课程学习领域的导师网络引入到远程监督关系抽取领域，并对相关算法进行改进，提高了噪声环境下关系抽取的效果。本方法制定了一个针对关系抽取的导师网络，使其在训练时考虑了关系抽取器中的特征，更加充分挖掘了包内句子信息。协同训练两个网络使之达到数据正则化的效果，提升了关系抽取器泛化能力。本方法在主流的关系抽取数据集中取得了优于传统方法的效果。

附图说明

图1是本方法的整体框架图；

图2是PCNN的结构图；

图3是针对关系抽取的导师网络结构图；

图4是本发明方法与一些目前存在方法的Precision/Recall曲线图。

具体实施方式

下面结合附图对本发明方法做进一步详细说明。

本实施例详细阐述了本方法在关系抽取主流数据集下具体实施时的方法和效果。如图1所示，一种基于课程学习的远程监督关系抽取方法，包括以下步骤：

步骤1：获取知识库，将知识数据集中的句子，按包进行划分。

将知识数据集中的句子按照对应的实体对划分成包，使包中的句子具有相同的实体对，并将该实体对对应的关系赋给每个句子。

步骤2：获取关系抽取器的相关特征。

令数据集中第i个包

其中，n＝|B_i|，

表示包B_i的最后一个句子。

具体包括以下步骤：

步骤2.1：获取包中每个句子的向量表示(Sentence Embedding)。如图2所示，包括以下步骤：

步骤2.1.1：得到句子中每个词语的向量表示。

对于一个句子S＝{w₁,w₂,…,w_|S|}，每个单词w_i的向量表示，包括词嵌入表示(WordEmbedding)和相对位置嵌入表示(Position Embedding)两部分。其中，词嵌入表示通过Word2vec算法在大规模文本上训练获得。相对位置嵌入表示，指句子中每个词到实体对中每个实体的相对距离嵌入到向量。词嵌入表示的维度为k_m，相对位置嵌入表示的维度为k_d，最终得到词表示的维度为k＝k_m+2k_d；S中每个词的表示

则

步骤2.1.2：用一个含有m个卷积核{f₁,f₂,…,f_m}的分段卷积神经网络(PiecewiseConvolutional Neural Network，PCNN)，得到句子S的向量表示。其中，f_m表示第m个卷积核，每一个卷积核

l表示卷积核的长度，k表示卷积核的宽度。

首先，通过m个卷积核提取卷积特征c_ij：

c_ij＝f_i*w_j-l+1:j (1)

其中，1≤i≤m，1≤j≤|S|+l-1，w_j-l+1:j表示句子S的第j-l+1个到第j个单词对应向量构成的矩阵；*为卷积操作。经过卷积后，得到矩阵

然后，对于每个卷积核f_i对应的卷积结果c_i，按照句子中的两个实体位置划分为三部分{c_i1,c_i2,c_i3}，进行分段最大池化操作：

p_ij＝max(c_ij) (2)

其中，1≤i≤m,1≤j≤3。

每个卷积核f_i对应一个3维向量p_i＝{p_i1,p_i2,p_i3}。所有的卷积核对应向量拼接得到向量

通过tanh函数，得到句子S最终向量表示：

se＝tanh(p_1:m) (3)

其中，

d_s＝3m，此时句子S对应的向量表示与其长度无关。

数据集中第i个包

对应一个句子向量矩阵

步骤2.2：获取包中每个句子对应关系的向量表示(Label Embedding)。

数据集中，实体对之间存在已知的关系总数为N，则关系集合为R＝{r₁,r₂,…,r_N}，可以通过Embedding技术等，将每种关系表示为维度为d_r的向量，则包

中的每一个句子

都对应一个关系标签向量

从而包B_i对应一个关系标签矩阵

步骤2.3：获取包中每个句子的损失值。

包括以下步骤：

首先，计算关系集合R中每个关系在句子S的预测得分：

o＝W_s*se+b_s (4)

其中，

是句子的向量表示，

是权重矩阵，N是关系总数，

表示偏置。

句子S对应的关系标签r_i的预测分数为

然后，利用Softmax计算关系r_i的概率：

其中，θ为关系抽取器中可训练参数，o_j表示关系集合中第j个关系在句子S的预测得分。

最后，利用交叉熵损失函数，得到句子S对应的损失值L：

则包

对应一个损失值集合Ls＝{l₁,l₂,…,l_n}。

步骤2.4：计算当前训练进度(Epoch Percentage Embedding)。

其中，训练一次整个训练集称为1个epoch，k表示当前关系抽取器训练到第k个epoch，maxEpochs表示总的epoch数量，将epochPercent离散化到[0,99]间的整数。

为方便导师网络基于包进行处理，将包

对应一个训练进度集合E＝{ee₁,ee₂,…,ee_n}，E中元素都相同于ee，然后可以利用Embeddging技术，将每一个ee_t∈E嵌入到向量

d_e表示向量的维度，则包B_i对应的训练进度矩阵

步骤3：用导师网络预测包中每个句子的权重。

导师网络结构如图4所示，主要由一层双向长短期记忆神经网络(Long ShortTerm Memory Neural Network，LSTM)和两层全连接层组成，导师网络的输入即为步骤2得到的4个关系抽取器的特征信息。通过导师网络预测包中每个句子的权重主要有两个步骤：

步骤3.1：通过双向长短期记忆神经网络捕捉包中句子的损失信息。

通过步骤2.3，得到包B_i对应的损失值集合Ls＝{l₁,l₂,…,l_n}，对于每第t个损失值l_t∈Ls，其对应的滑动平均为

通过双向长短期记忆神经网络对

进行编码捕捉损失值的方差信息，双向长短期记忆神经网络的隐藏层大小为d_h，则第t个损失对应的输出向量为

则损失值集合Ls对应的双向长短期记忆神经网络的输出向量矩阵为

步骤3.2：通过两个全连接层预测包的句子权重。

具体包括以下步骤：

首先，对步骤2和步骤3.1得到的信息进行水平拼接，得到输入矩阵：

I＝[EE；SE；LE；LO] (8)

其中，

d_c＝d_e+d_s+d_r+d_h。

然后，将I经过两层全连接得到句子权重v：

v＝sigmoid(W₂tanh(W₁I^T+b₁)+b₂) (9)

其中，I^T表示I的转置矩阵，

最后的结果

表示包B_i的n个句子的权重，将v记为g_m(I；Θ_m)，Θ_m表示导师网络的可训练参数。

步骤4：用导师网络预测出来的句子权重直接作用于关系抽取器中的句子向量，得到包对应关系的概率。

步骤4.1：计算包B_i对应的权重性向量表示：

其中，g_m(I_j；Θ_m)是预测出的包B_i第j个句子

的权重，se_j为句子

的向量表示。

步骤4.2：计算包B_i对应关系r_i的概率

首先，计算关系集合R中每个关系在包B_i的预测得分：

其中，

是包B_i的向量表示，

是权重矩阵，N是关系总数，

表示偏置。

包B_i对应的关系标签r_i的预测分数为

然后，利用Softmax计算关系r_i的概率：

其中，Θ_s表示关系抽取器的网络参数，Θ_m表示导师网络的网络参数，q(r_i|B_i；Θ_s,Θ_m)表示关系r_i的概率。

步骤5：根据训练集和优化目标，对两个网络参数进行联合优化更新。优化目标如下：

其中，D＝{B₁,B₂,…,B_|D|}是训练数据集的包集合，λ为超参数。

步骤6：根据训练好的模型，针对未标注的包，预测该包的关系，从而获得新的三元组知识，进而挖掘出包中句子的语义信息。

实验验证对比如下：

本发明方法和各种基准方法的在NYT数据集上的实验对比结果如下所示，在P@N指标和AUC值上，与基线方法相比，本发明方法均取得了较大的效果提升。另外，从图4可以看出，本发明方法的关系抽取效果优于现有效果较好的关系抽取方法。

表1基线方法和课程学习方法的P@N指标

表2基线方法和课程学习方法的AUC值

Claims

1.一种基于课程学习的远程监督关系抽取方法，其特征在于，包括以下步骤：

步骤1：获取知识库，将知识数据集中的句子，按包进行划分；

步骤2：获取关系抽取器的相关特征，包括以下步骤：

首先，获取包中每个句子的向量表示；

然后，获取包中每个句子对应关系的向量表示；

之后，获取包中每个句子的损失值；

最后，计算当前训练进度；

步骤3：用导师网络预测包中每个句子的权重，包括以下步骤：

首先，通过双向长短期记忆神经网络捕捉包中句子的损失信息；

然后，通过两个全连接层预测包的句子权重；

步骤4：用导师网络预测出来的句子权重直接作用于关系抽取器中的句子向量，得到包对应关系的概率；

步骤5：根据训练集和优化目标，对两个网络参数进行联合优化更新；

2.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法，其特征在于，所述步骤2，其中，获取包中每个句子的向量表示的方法如下：

令数据集中第i个包

其中，n＝|B_i|，

表示包B_i的最后一个句子；

步骤2.1.1：得到句子中每个词语的向量表示；

对于一个句子S＝{w₁,w₂,…,w_|S|}，每个单词w_i的向量表示，包括词嵌入表示和相对位置嵌入表示两部分，其中，词嵌入表示通过Word2vec算法在大规模文本上训练获得；相对位置嵌入表示，指句子中每个词到实体对中每个实体的相对距离嵌入到向量；词嵌入表示的维度为k_m，相对位置嵌入表示的维度为k_d，最终得到词表示的维度为k＝k_m+2k_d；S中每个词的表示

则

步骤2.1.2：用一个含有m个卷积核{f₁,f₂,…,f_m}的分段卷积神经网络，得到句子S的向量表示；其中，f_m表示第m个卷积核，每一个卷积核

l表示卷积核的长度，k表示卷积核的宽度；

首先，通过m个卷积核提取卷积特征c_ij：

c_ij＝f_i*w_j-l+1:j (1)

其中，1≤i≤m，1≤j≤|S|+l-1，w_j-l+1:j表示句子S的第j-l+1个到第j个单词对应向量构成的矩阵；*为卷积操作；经过卷积后，得到矩阵

p_ij＝max(c_ij) (2)

其中，1≤i≤m,1≤j≤3；

每个卷积核f_i对应一个3维向量p_i＝{p_i1,p_i2,p_i3}；所有的卷积核对应向量拼接得到向量

通过tanh函数，得到句子S最终向量表示：

se＝tanh(p_1:m) (3)

其中，

d_s＝3m，此时句子S对应的向量表示与其长度无关；

数据集中第i个包

对应一个句子向量矩阵

3.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法，其特征在于，所述步骤2，其中，获取包中每个句子对应关系的向量表示的方法如下：

令数据集中第i个包

其中，n＝|B_i|，

表示包B_i的最后一个句子；

数据集中，实体对之间存在已知的关系总数为N，则关系集合为R＝{r₁,r₂,…,r_N}，将每种关系表示为维度为d_r的向量，则包

中的每一个句子

都对应一个关系标签向量

从而包B_i对应一个关系标签矩阵

4.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法，其特征在于，所述步骤2，其中，获取包中每个句子的损失值的方法如下：

令数据集中第i个包

其中，n＝|B_i|，

表示包B_i的最后一个句子；

首先，计算关系集合R中每个关系在句子S的预测得分：

o＝W_s*se+b_s (4)

其中，

是句子的向量表示，

是权重矩阵，N是关系总数，

表示偏置；

句子S对应的关系标签r_i的预测分数为

然后，利用Softmax计算关系r_i的概率：

其中，θ为关系抽取器中可训练参数，o_j表示关系集合中第j个关系在句子S的预测得分；

最后，利用交叉熵损失函数，得到句子S对应的损失值L：

则包

对应一个损失值集合Ls＝{l₁,l₂,…,l_n}。

5.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法，其特征在于，所述步骤2，其中，计算当前训练进度的方法如下：

令数据集中第i个包

其中，n＝|B_i|，

表示包B_i的最后一个句子，当前训练进度ee为：

其中，训练一次整个训练集称为1个epoch，k表示当前关系抽取器训练到第k个epoch，maxEpochs表示总的epoch数量，将epochPercent离散化到[0,99]间的整数；

将包

对应一个训练进度集合E＝{ee₁,ee₂,…,ee_n}，E中元素都相同于ee，然后将每一个ee_t∈E嵌入到向量

d_e表示向量的维度，则包B_i对应的训练进度矩阵

6.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法，其特征在于，所述步骤3，其中，通过双向长短期记忆神经网络捕捉包中句子的损失信息的方法如下：

令数据集中第i个包

其中，n＝|B_i|，

表示包B_i的最后一个句子；

对于包B_i对应的损失值集合Ls＝{l₁,l₂,…,l_n}，对于每第t个损失值l_t∈Ls，其对应的滑动平均为

通过双向长短期记忆神经网络对

损失值集合Ls对应的双向长短期记忆神经网络的输出向量矩阵为

7.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法，其特征在于，所述步骤3，其中，通过两个全连接层预测包的句子权重的方法如下：

令数据集中第i个包

其中，n＝|B_i|，

表示包B_i的最后一个句子；

首先，对获取到的关系抽取器的相关特征，和通过双向长短期记忆神经网络捕捉包中句子的损失信息进行水平拼接，得到输入矩阵：

I＝[EE；SE；LE；LO] (8)

其中，

d_c＝d_e+d_s+d_r+d_h；

然后，将I经过两层全连接得到句子权重v：

v＝sigmoid(W₂ tanh(W₁I^T+b₁)+b₂) (9)

其中，I^T表示I的转置矩阵，

最后的结果

8.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法，其特征在于，所述步骤4的实现方法如下：

令数据集中第i个包

其中，n＝|B_i|，

表示包B_i的最后一个句子；

步骤4.1：计算包B_i对应的权重性向量表示：

其中，g_m(I_j；Θ_m)是预测出的包B_i第j个句子

的权重，se_j为句子

的向量表示；

步骤4.2：计算包B_i对应关系r_i的概率：

首先，计算关系集合R中每个关系在包B_i的预测得分：

其中，

是包B_i的向量表示，

是权重矩阵，N是关系总数，

表示偏置；

包B_i对应的关系标签r_i的预测分数为

然后，利用Softmax计算关系r_i的概率：

9.如权利要求1或权利要求8所述的一种基于课程学习的远程监督关系抽取方法，其特征在于，所述步骤5的优化目标如下：

其中，D＝{B₁,B₂,…,B_|D|}是训练数据集的包集合，λ为超参数，数据集中第i个包

n＝|B_i|，

表示包B_i的最后一个句子。