CN112463982A

CN112463982A - 一种基于显隐式实体约束的关系抽取方法

Info

Publication number: CN112463982A
Application number: CN202011362271.3A
Authority: CN
Inventors: 高明; 王嘉宁; 蔡文渊; 徐林昊; 周傲英
Original assignee: Shanghai Honglu Data Technology Co ltd; East China Normal University
Current assignee: Shanghai Honglu Data Technology Co ltd; East China Normal University
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-09
Anticipated expiration: 2040-11-27
Also published as: CN112463982B

Abstract

本发明公开了一种基于显隐式实体约束的关系抽取方法，其特点是采用实体类型注意力机制提取显式实体约束信息的方法，对于一个包内每个句子均可以提取融合了句子语义的实体约束信息，最后通过句子级别注意力机制，获取包级别的实体约束信息，具体包括：数据预处理、包表征学习、显式和隐式实体约束表征、模型迭代训练等步骤。本发明与现有技术相比具有方法简便，有效解决了噪声、训练不充分和数据稀疏的类不均衡问题，对缓解噪声和NA对分类的影响，提升关系抽取的效果，具有一定的实用价值。

Description

一种基于显隐式实体约束的关系抽取方法

技术领域

本发明涉及知识图谱的自然语言处理与信息抽取技术领域，尤其是一种基于显隐式实体约束的关系抽取方法。

背景技术

信息抽取作为一种人工智能下的自然语言处理技术，以其能够高效地从非结构化数据中提取结构化知识的优势，已然成为知识图谱构建的必要过程。同时基于信息抽取的结果，可以应用到包括文本摘要、机器翻译等上游任务，实现知识的驱动力。随着互联网络的快速发展和普及，Web端海量数据日益激增，大量的知识被存储在云端，例如各大百科网站、博客以及新闻网等，这些信息绝大多数都是以非结构化的文本形式存在，因此，如何快速自动地从这些非结构的文本中提取有价值的信息，进一步缓解信息迷航问题，近年来逐渐吸引研究者们的关注。

关系抽取是信息抽取重要的步骤，其旨在从非结构化的文本中，根据相应的实体对来预测其语义关系。关系抽取分为三大类，第一类以无监督为主，即通常在没有关系标签的条件下，根据语料的句法或语义结构自动地从文本中提取可以描述对应关系的词汇或短语；第二类以有监督为主，对实体和文本通过特征工程或表征学习来提取句法或语义信息，并通过分类器完成对关系的分类；第三类则以远程监督方法为主，该方法是将文本与现有知识库进行启发式地标注构建大规模语料后，再采用有监督的方法进行学习。其中，第三类为目前最为常用的方法，它可以解决第一类传统方法泛化能力差的问题，也可以缓解第二类方法中大量人工标注消耗问题，虽然远程监督关系抽取作为一个新的研究点，在带来价值的同时也存在着许多的挑战，主要有以下三个方面的问题：

1)错误标注带来的噪声问题(NoisyLabeling)：由于启发式的标注方法基于一种过强的假设，即如果两个实体在知识库中具有某种关系，任意一个包含这两个实体的文本都描述了这种关系，显然这个假设不一定成立，因此可能会引入许多错误标注的数据，因此需要考虑如何准确的识别出噪声，或间接地降低噪声对分类的影响。

2)数据稀疏与不均衡性(Data Sparseness and Imbalance)：在现实世界中，只有很少部分的实体对经常出现在语料中，而大多数的实体对出现频率很低，这被称为长尾现象，导致大量的实体对存在数据稀疏和非均衡问题，因此如何针对稀疏的实体对更准确地预测其关系，是目前关系抽取的一大挑战。

3)长文本潜在的梯度消失问题(Vanishing Gradient)：在Web数据资源中，富含丰富语义结构化信息通常存在与长文本中，其在NYT和GIDS数据集中表现较为明显，现有的部分深度学习方法在处理长文本上普遍存在梯度消失问题，使得句子语义特征提取不充分。

基于远程监督的关系抽取方法首先被Mintz在“International JointConference on Natural Language Processing”(AACL-IJCNLP，2009)提出，该方法是指将大量文本通过与Freebase等开源知识库进行对齐，从而启发式地标注大规模监督数据，并通过传统的机器学习方法(矩阵分解、支持向量机等模型)进行分类。Riedel在“EuropeanConference on Machine Learning”(ECLM，2010)提出一种基于概率图的方法实现关系抽取，在处理噪声的问题上，为每个句子分配一个隐变量来预测该句子是否是噪声。在此基础上，Fan在“Meeting ofthe Association for Computational Linguistics”(ACL，2014)采用矩阵补全的方法，首先根据训练集和测试集划分一个包含4个矩阵块的矩阵，其中左上角矩阵块表示训练集的特征，右上角矩阵块表示训练集的标签，左下角矩阵块表示测试集的特征，而右下角为测试集的标签，为未知值，因此其通过矩阵秩最小化和核范数最小化目标预测未知标签。随着深度学习的发展，Zeng在“Empirical Methods in NaturalLanguageProcessing”(EMNLP，2015)上采用分段卷积神经网络，首先使用传统的卷积神经网络对长文本进行特征提取，其次根据两个实体在文本中的位置，将句子划分为三段，并在每一段上进行最大池化，当时用230个不相同的卷积核时，最终可形成690维度的句子向量。基于此，Lin在“Meeting of the Association forComputational Linguistics”(ACL，2016)提出一种句子级别注意力机制，在PCNN基础上，对每个句子进行加权求和，为真实的句子分配较高的权重以突显其重要性，为可能是噪声的句子分配较低的权重以弱化其对分类的影响，该方法有效地通过端到端的方式缓解噪声问题。

现有技术的关系抽取忽略了部分实体对数据稀疏和非均衡问题，同时在实际预测过程中，也忽略了实体自身的信息。

发明内容

发明的目的是针对现有技术的不足而设计的一种基于显隐式实体约束的关系抽取方法，采用实体类型注意力机制提取显式实体约束信息的方法，对于一个包内每个句子均可以提取融合了句子语义的实体约束信息，最后通过句子级别注意力机制，获取包级别的实体约束信息，该方法通过对远程监督启发式标注的数据集进行关系分类，以及GloVe模型进行词向量预训练，引入位置表征向量记录实体在句子中的相对位置，并使用PCNN模型处理长文本的句子表征，应用句子级别注意力形成包表征，通过实体类型注意力机制对实体对类型表进行特征提取，获得显式实体约束；通过TransR学习实体在知识图谱中的拓扑表征，并获得实体对的隐式约束信息，最后结合三个表征信息使用前馈网络进行分类，并采用Adam算法进行迭代训练。方法简便，有效解决了噪声、训练不充分和数据稀疏的类不均衡问题，对缓解噪声和NA对分类的影响，具有一定的实用价值。

本发明的目的是这样实现的：一种基于显隐式实体约束的关系抽取方法，其特点包括如下步骤：

步骤1，数据预处理：选取通过远程监督启发式标注的大规模数据集，然后每个句子进行分词，并使用GloVe模型对词向量进行预训练，根据实体相对位置获得每个词的位置表征信息，其次根据相同实体对对齐的句子组合为包；

步骤2，包表征学习：远程监督语料中大多数句子为长文本，为了能够有效地处理长文本，并能够体现句子中实体的相对位置，使用分段卷积神经网络(PCNN模型)，并将实体相对位置表征与词向量拼接起来作为PCNN模型的输入。每个句子通过PCNN模型表征后将会形成一个向量，通过注意力机制对包内句子进行加权求和，最终形成包的表征向量；

步骤3，显式实体约束表征：每个实体都有对应的类型，可以作为关系抽取的显式约束信息。对数据集中每个实体列出其所有的类型，因此每个实体对都会形成一个实体类型表，使用实体类型注意力机制提取该实体对可能的约束信息；

步骤4，隐式实体约束表征：实体在现有知识库中的拓扑结构关系可以作为隐式的实体信息，使用知识表示学习TransR模型对实体进行表征。对于一个实体对，则可以通过将尾实体和头实体向量的差作为隐式约束表征向量；

步骤5，迭代步骤：对于步骤2-4分别得到的三个表征向量进行拼接，并用分类器进行分类，定义交叉熵损失函数作为优化目标，使用梯度下降作为优化方法，迭代训练整个模型。

所述数据预处理步骤中，对于远程监督启发式标注的数据集的获取，可以是常用的公开数据集New York Times(NYT)以及Google-IISc Distant Supervision(GIDS)；对每个数据集，由于均为英文语料，因此可以分别对每个句子根据空格进行分词形成token，并过滤掉停用词，然后使用GloVe进行预训练，得到每个词的预训练词向量；另外，定义位置表征，为每个token添加其与两个实体的相对位置信息。每个数据集均提供了每个句子对应的实体对，因此可以将相同的实体对对齐的句子组合为包。

所述包表征过程中，将每个句子的分词后的token对应的词向量和位置表征向量拼接起来输入的分段卷积网络(PCNN模型)中，最终每个句子将形成相同长度的向量。考虑到有些句子可能是噪声，因此采用句子级别注意力机制对包内句子进行加权求和，形成最终的包表征；

所述提取显式实体约束表征的过程中，对每个实体列出其所有可能的类型，针对每个实体对形成实体对类型表，并使用实体类型注意力机制提取显式实体约束信息。对于一个包内每个句子均可以提取融合了句子语义的实体约束信息，最后通过句子级别注意力机制，获取包级别的实体约束信息。

所述提取隐式实体约束表征的步骤中，使用知识表示学习TransR模型对Freebase知识库进行实体表示，对于实体对来说，将尾实体与头实体的差作为隐式约束信息。

所述迭代步骤中，将包表征向量、显式实体约束表征和隐式实体约束表征结合起来作为最终的语义表征，并使用分类器进行预测。为了能够寻找最优解，定义交叉信息熵作为目标函数，并结合正则化项防止过拟合，利用Adam梯度下降法进行参数更新。

本发明基于GloVe词向量预训练方法，具有良好的扩展能力，通过GloVe进行词向量的预训练，可以将单词映射到低维度连续的向量空间，语义层面上相近的词往往在向量空间中更加靠近，有利于将先验知识引入到模型中，提升泛化能力。

本发明运用PCNN模型处理长文本句子的表征，其分为两个步骤，首先根据每个句子的词向量和位置表征向量组成的矩阵，通过卷积核进行滑动卷积；第二步则是根据句子中的两个实体，将句子划分为三段，并在每一段上应用最大池化，因此每个卷积核都可以获得三个元素组成的向量。通过PCNN可以有效缓解长文本任务上的梯度消失问题，且由于卷积神经网络可并行的优点，进一步降低时间消耗；

本发明采用TransR模型用于对知识图谱进行表征。假设一个三元组表示为(h，r，t)，其对应的向量表示为h，r，t，于是可以定义一个得分函数

其中M为可训练的参数矩阵，因此当两个实体存在相互关系时，其得分函数会变小。通过对知识图谱表示，则可以得到隐式的实体约束信息，记做t-h。

本发明与现有技术相比具有下述有益技术效果和显著进步：

1)较好的解决了监督学习存在的语料不足、人工标注带来的成本问题，通过远程监督可以获得大规模监督语料，在缓解噪声的问题上，采用多示例学习和基于句子级别注意力的方法。

2)考虑了实体约束信息对远程监督关系抽取的影响，通过引入约束信息，可以进一步对预测的关系进行约束，也间接地引入额外的语义信息，缓解数据稀疏和非均衡问题。

3)根据实体类型构建实体对类型表，以及实体对类型注意力机制挖掘潜在的实体约束信息，有效的提升关系抽取的效果。

4)使用了NYT和GIDS两个公开数据集来和已有的远程监督关系抽取方法进行对比实验。实验结果表明本发明在同时引入显示和隐式实体约束信息时，结果优于已有的方法。通过消融实验表明，显式实体约束信息和隐式实体约束信息均可以有效地提高关系预测的能力，这也表明了实体约束对关系抽取的重要性。

附图说明

图1为本发明框架示意图；

图2为显式实体约束表征示意图。

具体实施方式

本发明基于显隐式实体约束的关系抽取的方法，通过对远程监督启发式标注的数据集进行关系分类。通过GloVe模型进行词向量预训练。其次引入位置表征向量记录实体在句子中的相对位置。并使用PCNN模型处理长文本的句子表征，并应用句子级别注意力形成包表征。接着。通过实体类型注意力机制对实体对类型表进行特征提取，获得显式实体约束；通过TransR学习实体在知识图谱中的拓扑表征，并获得实体对的隐式约束信息。最后结合三个表征信息使用前馈网络进行分类，并采用Adam算法进行迭代训练。

以下结合具体实施例对本发明作进一步的详细描述。

实施例1

参阅附图1，本发明基于显隐式实体约束的关系抽取方法框架，采用实体类型注意力机制提取显式实体约束信息的方法，对于一个包内每个句子均可以提取融合了句子语义的实体约束信息，最后通过句子级别注意力机制，获取包级别的实体约束信息，关系抽取的具体步骤如下：

步骤1：数据预处理

选取通过远程监督启发式标注的大规模数据集，并将根据相同实体对对齐的句子组合为包，其次对包内每个句子进行分词，并使用GloVe模型对词向量进行预训练，每个句子都将对应一个词向量组成的矩阵，具体操作如下：

1-1：GloVe词向量

由于数据集以英文为准，由于英文天然的空格分词特性，因此每个单词作为一个token。其次使用GloVe模型预训练词向量。例如给定一个已经预训练后句子记做S＝[w₁，w₂，...，w_n]，其中w_i表示第i个单词的预训练词向量。

1-2：位置表征信息

通常实体在句子中的位置不同，对其语义的理解也会不同，因此需要显示地提供实体的位置信息。假设在句子

中，

和

分别为两个实体(假设实体作为整个token)，因此每个tokenw_i相对于两个实体的位置可表示为h-i和t-i。因此从位置表征矩阵中对应的行向量取出即可作为位置表征向量，两个位置表征向量通常直接拼接即可。

1-3：包划分

根据相同实体对对齐的句子，将其组合为包单位，最终形成B＝{(B₁，r₁)，(B₂，r₂)，...，(B_N，r_N)}，其中

称之为包(Bag)。

步骤2：包表征学习

参阅附图1a，远程监督语料中大多数句子为长文本，为了能够有效地处理长文本，并能够体现句子中实体的相对位置，使用分段卷积神经网络(PCNN模型)，并将实体相对位置表征与词向量拼接起来作为PCNN模型的输入。每个句子通过PCNN模型表征后将会形成一个向量，通过注意力机制对包内句子进行加权求和，最终形成包的表征向量，具体操作如下：

2-1：分段卷积神经网络(PCNN模型)

卷积神经网络主要包括卷积层和池化层，对于卷积层在分段卷积神经网络中，定义K个大小为l×d卷积核，其中：l表示卷积核覆盖的词的个数；d表示词向量与位置表征向量的维度和。因此，对于每个卷积核，均可以得到一个卷积后的向量，记做

其中：n表示句子的长度，卷积层的输出记作L＝[L⁽¹⁾，L⁽²⁾，...，L^(K)]。对于池化层，根据两个实体，可将句子分为三段，每一段上对卷积层得到的特征进行最大池化，记做

其中：p1，p2表示两个实体的位置，最终PCNN的输出为c＝[c₁，c₂，...，c_K]。

2-2：句子级别注意力机制

由于远程监督启发式标注方法会引入大量的噪声，为了能够避免噪声对分类的影响，本发明应用多示例学习方法和句子级别注意力，对于一个包内的所有句子，为每个句子学习一个权重α_j，权重可通过模型参数学习得到，最终得到包表征b＝∑_jα_jc_j。

步骤3：显式实体约束表征

参阅附图1b，在关系抽取中，实体类型可以起到一定的约束作用，且引入实体类型信息可以有效缓解数据稀疏问题。在显示实体约束表征步骤中，需要先构建实体对类型表，再根据表使用注意力机制提取相应的约束信息，对于包内的每个句子进行加权，得到该实体对最终的显式实体约束表征，具体操作如下：

3-1：实体对类型表

首先根据整个数据集，列出所有可能的实体类型种类，并保存在实体表ET中，种类数记为n_type，定义每个实体类型的表征维度d_type。对每个实体，如果该实体拥有某一个类型，则对应的实体类标记为1，否则为0，而对于一个实体对，则当且仅当两个实体都同时拥有同一个类型时，其标记为1，否则标记为0，如附图2所示，即可根据实体对构建一个实体对类型表T。

3-2：实体类型注意力机制

参阅附图2，实体对类型表T的行表示头实体的实体类型记录，列表示尾实体的实体类型记录，定义一个参数共享的注意力机制，其对非0行或列进行加权求和。例如：对于行来说，图2中有三行，则只对这三行进行加权求和，其他行权重固定为0。而每一个元素则可以从ET表中提取对应的实体类型表征。因此，对于头实体的实体类型注意力定义为α_hi＝softmax(W^TET_i)，尾实体则表示为α_tk＝softmax(W^TET_k)，其中：W为可训练的参数；softmax为激活函数，最终可以得到当前句子的实体对约束表征，记做

3-3：句子级别注意力机制

同步骤2，采用句子级别注意力，对每个句子的实体对类型约束信息进行加权求和，得到包对应的实体对约束信息，该约束信息则富含具体的句子语义。

步骤4：隐式实体约束表征

参阅附图1c，实体在现有知识库中的拓扑结构关系可以作为隐式的实体信息，使用知识表示学习TransR模型对实体进行表征，对于一个实体对，则可以通过将尾实体和头实体向量的差作为隐式约束表征向量，具体操作如下：

4-1：知识表示TransR()

设三元组(h，r，t)的表征分别为

设可学习的参数矩阵

则有h_r＝hM，t_r＝tM，得分函数定义为

其损失函数由下述a式进行预训练或微调：

L₁＝∑_{(h，r，t)∈S}∑_{(h′，r，t′)∈S′}[γ+f_r(h，t)-f_r(h′，t′)]₊ (a)；

4-2：隐式实体约束表征

为了获得隐式实体约束表征，本发明采用头尾实体做差法表示，即通过预训练好的实体对，不显式地使用训练好的r，而是直接使用

作为实体约束信息。即当前的实体对隐式约束信息更加偏向于真实关系，则会使得模型的预测结果更加偏向于这个关系，从而起到隐式的约束作用。

步骤5：迭代训练

通过上述步骤，对于第j个包，获得三种表征信息，分别是包表征b_j、显示实体约束表征

和隐式实体约束表征

将三者拼接起来作为整个示例的表征

并通过前馈神经网络进行分类，具体操作如下：

5-1：交叉信息熵损失函数

在训练环节中，是一种参数估计和优化的过程，训练前对所有参数进行随机初始化，然后采用最大似然估计的原则最大化对数似然函数，其对应的最小化交叉信息熵由下述b式计算：

其中：N表示包的个数；M表示类的个数；α为正则化参数，对应的是正则化项，用于降低模型参数复杂度防止过拟合。

在具体的实验中，为了能够使得几个模块同时进行微调，可结合L₁和L₂两个目标函数同时训练，即：L＝λ₁L₁+λ₂L₂，其中，λ₁＝λ₂＝0.5。

5-2：优化方法

本发明采用随机梯度下降法(SGD)对上面的目标函数进行优化，学习率为0.01，batch_size批处理大小设置为32，正则化系数α＝1.0，PCNN核数为230，显隐式实体信息维度均设置为100，位置表征向量维度设置为10。本发明兼顾了显式和隐式的实体约束信息，并充分挖掘实体对约束对关系抽取的影响。

以上只是对本发明作进一步的说明，并非用以限制本专利，凡为本发明等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种基于显隐式实体约束的关系抽取方法，其特征在于采用实体类型注意力机制提取显式实体约束信息的方法，对于一个包内每个句子均可以提取融合了句子语义的实体约束信息，最后通过句子级别注意力机制，获取包级别的实体约束信息，关系抽取的具体步骤如下：

步骤1：数据预处理

选取通过远程监督启发式标注的大规模数据集，将根据相同实体对对齐的句子组合为包，并对包内每个句子进行分词，通过GloVe模型对词向量进行预训练，使每个句子都将对应一个词向量组成的矩阵；

步骤2：包表征学习

使用分段卷积神经网络将实体相对位置表征与词向量进行拼接，将其作为PCNN模型的输入，使每个句子通过PCNN模型表征后形成一个向量，通过注意力机制对包内句子进行加权求和，最终形成包的表征向量；

步骤3：显式实体约束表征

将数据集中每个实体形成一个实体类型表，使用实体类型注意力机制提取该实体对可能的约束信息为显式实体约束的表征向量；

步骤4：隐式实体约束表征

实体在现有知识库中的拓扑结构关系作为隐式的实体信息，使用知识表示学习TransR模型对实体进行表征，对于一个实体对，则通过将尾实体和头实体向量的差作为隐式约束的表征向量；

步骤5：迭代训练

将上述步骤2~4中得到的三个表征向量拼接后使用分类器进行分类，并定义交叉熵损失函数为优化目标，使用梯度下降作为优化方法，迭代训练整个模型。

2.根据权利要求1所述基于显隐式实体约束的关系抽取方法，其特征在于所述数据预处理步骤中，对于远程监督启发式标注的数据集的获取，可以是常用的公开数据集NewYork Times（NYT）以及Google-IISc Distant Supervision（GIDS）；对每个数据集，分别对每个句子进行分词并形成token，并过滤停用词，然后使用GloVe进行预训练，得到每个词的预训练词向量，所述每个数据集均提供了每个句子对应的实体对，并将相同的实体对对齐的句子组合为包。

3.根据权利要求1所述基于显隐式实体约束的关系抽取方法，其特征在于所述包表征学习步骤中，将每个句子的分词后的token对应的词向量和位置表征向量拼接起来输入的分段卷积网络中，将每个句子形成相同长度的向量，采用句子级别注意力机制对包内句子进行加权求和，形成最终的包表征向量。

4.根据权利要求1所述基于显隐式实体约束的关系抽取方法，其特征在于所述显式实体约束表征步骤中，对每个实体列出所有可能的类型建立实体对类型表，并对其使用实体类型注意力机制提取显式实体约束信息。

5.根据权利要求1所述基于显隐式实体约束的关系抽取方法，其特征在于所述隐式实体约束表征步骤中，使用知识表示学习TransR模型对Freebase知识库进行实体表示；对于实体对，将尾实体与头实体的差作为隐式约束信息。

6.根据权利要求1所述基于显隐式实体约束的关系抽取方法，其特征在于所述迭代训练步骤中，将包的表征、显式实体约束表征和隐式实体约束表征结合起来作为最终的语义表征，并使用分类器进行预测，并定义交叉信息熵作为目标函数并结合正则化项，利用Adam梯度下降法进行参数更新，得到最优解。