CN113553828A

CN113553828A - 基于义原编码的层次级远程监督关系抽取方法

Info

Publication number: CN113553828A
Application number: CN202110823952.3A
Authority: CN
Inventors: 季一木; 汤淑宁; 刘尚东; 刘凯航; 胡林; 洪程; 邱晨阳; 其他发明人请求不公开姓名
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-10-26
Anticipated expiration: 2041-07-21
Also published as: CN113553828B

Abstract

本发明公开了一种基于义原编码的层次级远程监督关系抽取方法，包括如下步骤：步骤1：将训练数据集中的所有句子，将包含相同实体对的句子分配到同一包中；步骤2：词向量编码；步骤3：位置向量编码；步骤4：PCNN特征提取；步骤5：层次级关系注意力机制；步骤6：构建超包级别训练实例；步骤7：训练调优，最终得到关系抽取模型。本发明利用关系之间的联系来丰富训练数据，通过顶层关系的粗粒度特征弥补训练数据不足的长尾部分，再从关系层次上构建超包，降低学到错误关系特征的影响并近似忽略整个句子包都是错误实例的可能，有效减少对数据的依赖，降低数据质量对最终结果的波动影响，从而提高关系抽取的准确率。

Description

基于义原编码的层次级远程监督关系抽取方法

技术领域

本发明属于自然语言处理和人工智能技术，具体的说是一种基于义原编码的缓解长尾关系问题的知识图谱关系抽取方法。

背景技术

知识图谱(Knowledge Graph)由Google于2012年首次提出，通过结构化形式将客观世界中的概念、实体结合在一起，将互联网中存在的海量数据信息进行有效的组织、管理并理解，使之更接近人类的认知世界。

实体关系抽取是知识图谱生成过程中的重要环节，致力于挖掘出文本中实体对之间的语义关系，也是自然语言处理、信息检索等领域的关键任务。传统的基于深度学习技术的有监督关系抽取，需要大量人工标注好的训练数据集，前期工作量较大。为了从繁重的样本标注工作中解放出来，远程监督关系抽取应运而生：通过知识库和自然语言文本的自动对齐生成标记数据。但这种简单的自动对齐机制也带来了一系列的噪声影响，

Daojian Zeng、Kang Liu、Yubo Chen和Jun Zhao发表了Distant Supervisionfor Relation Extraction via Piecewise Convolutional Neural Networks，Zeng等人提出了多实例学习的假设，认为句子包中至少有一个实例是正确的，并使用分段卷积神经网络提取文本特征。

Y Lin，S Shen，Z Liu，H Luan和M Sun发表了Neural Relation Extraction withSelective Attention over Instances，Lin等人提出了基于句子级注意力机制的关系抽取模型，通过给每个句子分配权重以动态降低错误样本的影响。

He D、Zhang H、Hao W、Zhang R、Chen G、Jin D和Cheng K.发表了Distantsupervised relation extraction via long short term memory networks with sentence embedding.Intelligent Data Analysis，He等人提出利用SE-LSTM提取实体对方向信息，结合多实例学习解决错误传播问题，释放了对NLP工具包的依赖。

然而这些方法都依赖数据驱动，在语料库性能不够稳定的情况下，对下游任务具有一定影响；同时，目前的工作大部分局限于孤立的处理每种关系，忽略了关系之间的联系，而这种联系的挖掘有助于发现潜在的关系特征，进一步丰富训练数据少的样本。

发明内容

远程监督关系抽取的最大优势是将知识库自动对齐自然语言文本，生成标记数据，在省去大量人力成本的同时但也不可避免的会带来噪声数据影响。目前的研究集中于使用神经网络自动提取特征，但该方法局限于数据驱动，语料库的好坏对最终结果会产生较大波动，为了解决现有技术中的缺陷，本发明利用HowNet人工知识库作为先验知识，降低对低频词的词向量生成效果较差的影响。针对语料库普遍存在的长尾问题，句子实例相对较少的句子包训练不充分，研究通过利用关系之间的联系来丰富训练数据，从基本关系得到细粒度特征，顶层抽象关系捕获多个相关子关系共享的公共特征，从而提供粗粒度特征，通过利用关系之间的联系来丰富训练数据不足的长尾部分；同时，为降低学到错误关系特征影响，考虑从关系层次上构建超包，将超包设置为训练实例，进而从更高层次上减少错误标签噪声的影响，以提高关系抽取的准确率。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明一种基于义原编码的层次级远程监督关系抽取方法，包括如下步骤：

步骤1：将训练数据集中的所有句子，将包含相同实体对的句子分配到同一包中；

步骤2：利用HowNet知识库，为每个单词标注了精确的语义，并将语义拆解为多个义原组合，根据单词所在上下文迭代执行词义消歧，直到学习出单词的义原向量组合表示。利用注意力机制选择出最符合语境的语义，得到单词的向量表征，最符合语境的语义的选择通过注意力机制为语义分配权重，

代表单词w的第j种语义向量；

步骤3：根据步骤1中每个句子的每个单词相对实体对的距离训练得到位置向量；

步骤4：将步骤2通过义原编码的词向量和步骤3的位置向量拼接在一起得到句子向量，句子向量X_i表示为：X_i∈R^d(d＝d^w+d^p×2)其中：d^w是单词义原编码后长度，d^p是位置向量长度，将句子向量输入PCNN即分段卷积神经网络，与给定的卷积核W进行卷积操作，卷积是指针对相同维度，矩阵A＝(a_ij)_m×n，矩阵B＝(b_ij)_m×n，进行

操作，因此将X_i与给定卷积核W＝{w₁，w₂，...，w_|m|}，进行卷积操作后，根据实体对在句子中分成3段后的每一段做最大池化：p_i1＝max(c_i1)；

步骤5：对于步骤1给定的一组包含相同实体对的句子集，将经过PCNN特征提取后的低维的句子向量在关系层次结构的每一层上都进行注意力计算也就是说步骤5中句子向量与给定基本关系的每一个层次关系，例如：/地点/国家/首都与/地点/国家和/地点分别进行注意力计算，最终将不同层次上的向量信息进行拼接形成完整的句子集向量；

步骤6：构建超包级别训练实例：得到每个包针对不同关系层级的句子集向量表示后，从关系的角度重新打包，即为每种关系构造一个超包，并将超包设置为训练实例。计算超包中每一组包的注意力权重，得到超包的特征，模型最终在超包级别上进行训练调优；此步骤中超包

其中，n_s是超包的大小，B_i是标注了第k种关系的句子包。因此，超包B的特征

其中

步骤7：关系抽取模型：使用交叉熵目标损失函数J，采用随机梯度下降来最小化损失函数进行训练调优，最终得到关系抽取模型。

本发明的有益效果是：

1、使用HowNet人工知识库作为先验知识，降低纯数据驱动向量编码对低频词的词向量生成效果较差的影响。

2、针对语料库普遍存在的长尾关系数据稀疏问题，利用关系之间的联系来丰富训练数据：从基本关系得到细粒度特征，顶层抽象关系捕获多个相关子关系共享的公共特征，从而提供粗粒度特征，通过利用关系之间的联系来丰富训练数据不足的长尾部分。

3、从更高的关系层次上构建超包，不仅能降低学到错误关系特征的影响，而且能近似忽略整个句子包都是错误实例的可能，进而从更高层次上减少错误标签噪声的影响，以提高关系抽取的准确率。

附图说明

图1是本发明基于义原编码的层次级远程监督关系抽取算法流程图。

图2是本发明“联想”的义原树演示示例。

图3是本发明层次级注意力机制模型结构。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1所示，本发明是一种基于义原编码的层次级远程监督关系抽取方法，主要分为向量编码、PCNN特征提取，层次级关系注意力机制、以超包构建训练实例四步。其中，向量编码由基于HowNet先验知识的词向量和相对实体对的位置向量拼接而成。

义原指词义的最小语义单位，包括词在内的所有概念的语义都可使用一个有限的义原集合去表示。

基于HowNet人工知识库，HowNet知识库为每个单词都标注了语义，并将每种语义拆解为多个义原组合。图2以“联想”为例给出了义原、义项、词语的三层结构。“联想”有两种含义：一种是指精神上的连接，另一种是电脑品牌。第三层及以下将每种词义拆解为多个细粒度的义原组合用于解释词义。

为降低目前广泛使用的如CBOW、Skip-gram等纯数据驱动向量编码对低频词的词向量生成效果较差的影响，将义原知识融入到词表征学习中，在低维语义空间中学习改进的词嵌入，提高词向量的表征能力。

具体地说，将每个词义视为其义原的组合，根据单词所在上下文迭代执行词义消歧，并通过扩展word2vec中的Skip-gram学习义原、义项和单词的表示。主要利用上下文信息对中心词词义的关注程度，从而选择出符合语境的义原信息，为中心词的生成表示提供必要的辅助，也就提升了中心词的向量表示能力。其中，使用注意力机制为不同语义分配权重，

代表单词w的第j种语义向量。

得到词向量后，对单词进行位置编码，位置信息表明每个单词在句子中相对实体对的距离。位置信息在开始时被随机初始化为位置向量，并在训练期间不断更新，最后把词向量和位置向量拼接在一起。因此句子向量X_i表示为：X_i∈R^d(d＝d^w+d^p×2),d^w是单词义原编码后长度，d^p是位置向量长度。

卷积是指针对相同维度，矩阵A＝(a_ij)_m×n，矩阵B＝(b_ij)_m×n，进行

操作。将上述步骤得到的句子向量X_i与给定卷积核W＝{w₁，w₂，...，w_|m|}，进行卷积操作后，根据实体对在句子中位置将其分成3段，对每一段做最大池化，即取每一段的最大值：p_ij＝max(c_ij)，j∈1，2，3。

针对语料库普遍存在的长尾关系数据稀疏问题，将句子向量与给定基本关系的每一个层次关系如：/地点/国家/首都与/地点/国家和/地点分别进行注意力计算。注意力计算是指计算每个句子与给定关系的匹配程度，

s是每一个句子向量，q_r ⁱ是每一个层级关系向量。因此，句子集S在每一层上的分布式向量表示为：

最终将不同层次上的向量信息进行拼接形成完整的句子集向量。

得到每个包针对不同关系层级的向量表示后，从关系的角度重新打包，即为每种关系构造一个超包

其中，n_s是超包的大小，B_i是标注了第k种关系的句子包，并将超包设置为训练实例。计算超包中每一组包的注意力权重，得到超包B的特征

其中

模型最终在超包级别上进行训练调优。

使用交叉熵损失函数

作为超包级别的目标函数，采用随机梯度下降(SGD)来最小化损失函数训练调优，最终得到关系抽取模型。

本发明主要解决远程监督关系抽取将知识库自动对齐自然语言文本生成标记数据这种强假设条件所带来的噪声问题，与目前研究广泛使用的数据驱动方式不同，利用HowNet人工知识库作为先验知识，降低对低频词的词向量生成效果较差的影响。通过顶层关系的粗粒度特征弥补训练数据不足的长尾部分，降低学到错误关系特征的影响并近似忽略整个句子包都是错误实例的可能。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。