CN113434698B

CN113434698B - 基于全层级注意力的关系抽取模型建立方法及其应用

Info

Publication number: CN113434698B
Application number: CN202110730796.6A
Authority: CN
Inventors: 李玉华; 陈昊; 李瑞轩; 辜希武
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-08-02
Anticipated expiration: 2041-06-30
Also published as: CN113434698A

Abstract

本发明公开了一种基于全层级注意力的关系抽取模型建立方法及其应用，属于自然语言处理领域，包括：获取数据集中的各关系类型的层级结构，并对各关系层级编码；建立包含句子编码网络、袋编码网络以及分类器深度学习模型；句子编码网络以包含若干头、尾实体相同的句子的袋为输入，用于获得袋中的各句子的向量表示；袋编码网络用于基于注意力机制获取各句子在每一个关系层级的注意力权重后，对句子向量进行加权求和，得到袋在该层级的向量表示，并拼接得到袋向量；分类器用于计算袋中句子的关系类型的概率分布；将数据集划分为训练集、测试集和验证集，依次对模型进行训练、测试和验证后，得到关系抽取模型。本发明能够提高句子关系抽取的准确率。

Description

基于全层级注意力的关系抽取模型建立方法及其应用

技术领域

本发明属于自然语言处理领域，更具体地，涉及一种基于全层级注意力的关系抽取模型建立方法及其应用。

背景技术

在互联网时代，用户大量的活动如购物、阅读、游戏、社交等都从线下转移到了线上，数据量也因此在以指数的速度上涨。这些数据的形式十分丰富，有视频、文本、音频、图像等等，目前，文本所占的比例最高。文本中含有丰富的信息，其中会包含实体以及实体之间的关系，例如，在“Kobe was born in Philadelphia,USA”这个句子中，“Kobe”和“Philadelphia”就是两个实体，并且两个实体间的关系为“placeofbirth”。人当然可以轻松获取到这些信息，但是从如此大量的数据中获取信息是项费事费力的工作，通过计算机技术能够从这些文本中高效的提取有价值的信息，这些实体间的关系对于构建类似FreeBase一样的知识图谱、智能检索等具有重要意义。但是随着数据量的迅速攀升，如何能够高效、快速的提取文本关系类型也给研究人员带来了不小的挑战。

关系抽取任务最早在1998年在MUC-7会议上被首次提出，当时抽取的关系类型主要有：location_of、employee_of、manufacture_of三大类，通过人工构建关系模板的方式进行关系抽取。此后，ACE会议认为对实体关系进行抽取前，应该首先判定该关系属于哪一类，因此对关系类型进行了分类，定义了整体-部分、成员、位置、机构、人-社会五大关系类型。并且抽取的方法也升级为机器学习，包括有监督和半监督的方法，而且提供了一定规模的有标记的数据集供大家研究，这为后续的研究提供了便利。发展到现在，基于深度学习进行关系提取逐渐成为主流，通过利用WordNet、FreeBase、HotNet等知识库采取远程监督的方法也一定程度上解决了大规模语料获取难的问题，并且与传统的人工标注语料相比，基于知识库的涵盖的关系类型更丰富、数据量更大、语料涉及的领域也更广。

基于有监督的方法在关系抽取任务中取得了不错的进展，但这种方法非常依赖人工的标注，而获得大量人工标注的数据集是十分费事费力的。于是为了解决这一问题，研究人员提出了远程监督的方法。远程监督的核心思想在于一个非常重要的假设，即对于一个已有的知识图谱(如Freebase等)中的一个三元组(由一对实体和一个关系构成)，假设外部文档库中任何包含这对实体的句子，在一定程度上都反映了这种关系，从而能够给外部文档库中的句子标注关系标签。远程监督解决了人工依赖的问题，但是其中存在噪音数据、长尾关系的问题，并且在关系抽取的过程中忽略了关系层级之间丰富的信息，训练集和测试集之间也存在关系分布不均问题，这些问题影响了关系抽取的准确率。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于全层级注意力的关系抽取模型建立方法及其应用，其目的在于，提高句子关系抽取的准确率。

为实现上述目的，按照本发明的一个方面，提供了一种基于全层级注意力的关系抽取模型建立方法，包括：

初始化步骤：获取数据集中的所有关系类型的层级结构，并将每一层级均编码为向量；数据集中，每一个样本为关系类型已知的句子；层级结构中，关系类型的分类结果与层级相关，且层级越高，对应的分类粒度越粗；

模型建立步骤：建立深度学习模型，包括句子编码网络、袋编码网络以及分类器；句子编码网络以包含若干头实体和尾实体相同的句子的袋为输入，用于获得袋中的各句子的向量表示，得到对应的句子向量；袋编码网络以句子编码网络输出的句子向量为输入，用于基于注意力机制获取各句子在关系类型层级结构中每一个层级的注意力权重后，对句子向量进行加权求和，得到袋在该层级的向量表示，并将袋在各层级的向量表示拼接，得到袋向量；分类器以袋编码网络输出的袋向量为输入，用于计算袋中句子的关系类型的概率分布；

模型训练步骤：将数据集划分为训练集、测试集和验证集，利用训练集、测试集和验证集依次对深度学习模型进行训练、测试和验证后，得到关系抽取模型。

本发明所建立的模型，以包含一个或多个头实体、尾实体相同的句子的袋为输入，实现了多示例学习；模型中的袋编码网络会获得输入模型的袋在关系类型层级结构中的每一个层级的编码；在针对某个具体层级进行袋编码时，会基于注意力机制获得袋中每个句子的注意力权重，通过对句子向量进行加权求和的方式获得袋在该层级的编码，不仅对袋中的噪音能够很好的识别，而且对长尾问题的解决也有很大帮助；最终由袋在各层级的编码结果拼接得到袋的向量表示，作为后续分类器的输入，由此能够在关系抽取时充分利用关系层级之间丰富的信息，有效提高关系抽取的准确率。

进一步地，袋编码网络包括k个袋向量表示模块以及袋向量拼接模块；k表示关系类型层级结构的层数；

袋向量表示模块以句子编码网络输出的句子向量，以及关系类型层级结构中一个层级的向量表示为输入；k个袋向量表示模块分别用于基于注意力机制获取各句子在关系类型层级结构的k个层级的注意力权重后，对句子向量进行加权求和，得到袋在该层级的向量表示；

袋向量拼接模块，以k个袋向量表示模块输出的向量表示为输入，用于将袋在各层级的向量表示拼接，得到袋向量。

本发明所建立的模型，其中的袋编码模块基于注意力机制分别获得袋在关系层级中每一个层级的向量表示，之后拼接为最终的袋向量，由此得到的袋向量中包含了关系层级之间丰富的信息，基于该袋向量能够有提高关系抽取的准确率。

进一步地，袋编码网络还包括实体类型嵌入模块；

实体类型嵌入模块，用于获得袋中句子的头实体类型和/或尾实体类型的向量表示，得到实体类型向量表示，并将该实体类型向量表示与袋向量拼接模块输出的袋向量拼接，将拼接得到的向量作为整个袋编码网络输出的袋向量。

本发明在对袋进行编码时，除了综合关系层级之间的信息，还会在袋向量中嵌入了头实体和尾实体的类型，能够以实体类型为辅助信息，进一步提高关系抽取的准确率。

进一步地，若实体类型有多个，则实体类型的向量表示为实体的多个类型的原始向量表示的平均值；实体为头实体或尾实体。

进一步地，句子编码网络包括：句子嵌入模块和匹配关系嵌入模块；

句子嵌入模块用于获取句子的特征向量；

匹配关系嵌入模块用于提取出所有可能用于表示句子中头实体和尾实体间关系的关系词，并计算各关系词与知识库中各关系触发词的相似度，将相似度高于预设阈值的关系触发词对应的关系类型作为匹配关系类型，并将句子嵌入模块输出的句子的特征向量与匹配关系类型的向量表示拼接，得到句子的向量表示。

本发明所建立的模型，其中的句子编码网络在获得句子的向量表示时，会先通过语法分析获得所有可能用于表示句子中头实体和尾实体间关系的关系词，并筛选出知识库中与各关系词较为相似的关系触发词，将筛选出的关系触发词对应的关系类型作为匹配关系，并将匹配关系的类型嵌入句子的向量表示中，由于所确定的匹配关系很大概率上反映了实体间真实的关系类型，在句子向量中嵌入匹配关系类型，能够提供更多的辅助信息，进一步提高关系抽取的准确率。

进一步地，若匹配关系嵌入模块获取到的匹配关系类型有多个，则匹配关系类型的向量为多个匹配关系类型的原始向量表示的平均值。

在一些可选的实施例中，在模型训练步骤之后还包括：对深度学习模型中分类器的偏差进行调整，使得对于任意一个关系类型r_i，分类器偏差为b_i+lnp(r_i|D_m)-lnp(r_i|D_d)；

其中，p(r_i|D_d)和p(r_i|D_m)分别表示关系类型r_i在训练集和验证集中出现的概率；b_i表示偏差调整前分类器的偏差。

本发明在模型训练完成后，根据关系类型在训练集和验证集中出现的概率p(r_i|D_d)和p(r_i|D_m)将模型中分类器的偏差调整为b_i+lnp(r_i|D_m)-lnp(r_i|D_d)，能够减小训练集和测试集之间关系分布不均所带来的关系抽取误差，进一步提高关系抽取的准确率。

在一些可选的实施方式中，在模型训练步骤之前，还包括：对深度学习模型中分类器的偏差进行调整，使得对于任意一个关系类型r_i，分类器偏差为lnp(r_i|D_d)；

并且，在模型训练步骤之后，还包括：对深度学习模型中分类器的偏差进行调整，使得对于任意一个关系类型r_i，分类器偏差为lnp(r_i|D_m)；

其中，p(r_i|D_d)和p(r_i|D_m)分别表示关系类型r_i在训练集和验证集中出现的概率。

本发明在模型训练时，根据关系类型在训练集中出现的概率p(r_i|D_d)将模型中分类器的偏差调整为p(r_i|D_d)，并在模型训练完成后，根据关系类型在验证集中出现的概率p(r_i|D_m)将模型中分类器的偏差调整为p(r_i|D_m)，能够减小训练集和测试集之间关系分布不均所带来的关系抽取误差，进一步提高关系抽取的准确率。

按照本发明的另一个方面，提供了一种基于全层级注意力的关系抽取方法，包括：将待处理的句子作为一个袋，输入由本发明提供的基于全层级注意力的关系抽取模型建立方法得到的关系模型抽取模型，并将关系模型抽取模型输出的关系类型的概率分布中概率值最大的关系类型，作为关系抽取结果。

按照本发明的又一个方面，提供了一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行本发明提供的基于全层级注意力的关系抽取模型建立方法，和/或本发明提供的基于全层级注意力的关系抽取方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明所提供的基于全层级注意力的关系抽取模型建立方法及其应用，以袋为模型输入，实现了多示例学习，并且在对袋进行编码时，综合了袋在关系类型层级结构中每一个层级的向量表示，由此能够充分利用关系层级间丰富的信息，还能对袋中的噪音能够很好的识别，而且对长尾问题的解决也有很大帮助，从而有效提高关系抽取的准确率。

(2)本发明提供的基于全层级注意力的关系抽取模型建立方法及其应用，在对袋进行编码时，会嵌入句子中实体的类型，在对句子进行编码时，还会预先确定可能匹配的关系类型，并嵌入句子向量中，提供了更多的辅助信息，能够进一步提高关系抽取的准确率。

(3)本发明提供的基于全层级注意力的关系抽取模型建立方法及其应用，会根据关系类型在训练集和验证集中出现的概率对模型中分类器的偏差进行调整，能够减小训练集和测试集之间关系分布不均所带来的关系抽取误差，进一步提高关系抽取的准确率。

附图说明

图1为本发明实施例提供的基于全层级注意力的关系抽取模型示意图；

图2为本发明实施例提供的袋编码网络示意图；

图3为本发明实施例提供的全层级注意力机制示意图；

图4为本发明实施例提供的句子编码网络示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了解决基于远程监督的关系抽取方法准确率不高的技术问题，本发明提供了一种基于全层级注意力机制的关系抽取模型建立方法及其应用，其整体思路在于：以袋为模型输入，实现多示例学习，并且在对袋进行编码时，综合了袋在关系类型层级结构中每一个层级的向量表示，由此能够充分利用关系层级间丰富的信息，并有效解决噪音数据的干扰，以及长尾关系问题有效提高关系抽取的准确率，从而有效提高关系抽取的准确率。在此基础上，通过在袋向量中嵌入实体类型，在句子向量中嵌入匹配关系类型，借助辅助信息进一步提高关系抽取的准确率，并对分类器的偏差进行调整，以减小训练集和测试集之间关系分布不均所带来的关系抽取误差，进一步提高关系抽取的准确率。

在详细解释发明的技术方案之前，先对关系类型的层级结构做如下简要介绍：

和其他分类体系类似，关系类型也有表示范围从大到小的分类体系，可将其视为一种层级结构。例如NYT-10中的关系类型/business/company/founders，表示公司创始人的关系。其顶层关系business表示商业，粒度较粗；接着是company，表明实体对中的一个实体和公司相关；最后是founders，表明关系最终落脚点是创始人。由上至下关系表示粒度逐渐变小。

以下为实施例。

实施例1：

一种基于全层级注意力的关系抽取模型建立方法，包括：初始化步骤，模型建立步骤和模型训练步骤。

本实施例中，初始化步骤具体包括：获取数据集中的所有关系类型的层级结构，并将每一层级均编码为向量；数据集中，每一个样本为关系类型已知的句子；层级结构中，关系类型的分类结果与层级相关，且层级越高，对应的分类粒度越粗。

作为一种可选的实施方式，本实施例所采用的数据集是远程监督中常用的NYT-10数据集，该数据集由纽约时报(New York Times)中真实的文章根据Freebase知识库中的实体关系对齐得到的，即远程监督的方法，在命名实体识别的过程中使用了斯坦福命名实体识别工具标注生成。NYT-10的关系类型共有53种，其中的“NA”表示该实体对没有关系或者没有其他52种关系。该数据集中，训练集有50多万个示例，其中包括281,270个实体对；而测试集则有17多万个示例，其中有68,296个实体对。应当说明的是，NYT-10数据集仅为一种可选的数据集，不应理解为对本发明的唯一限定，在本发明实施例中，也可以使用其他的由标注了实体间关系类型的句子构成的数据集。

可选地，本实施例对于每一种关系类型采用三层结构表示，即关系类型层级结构的层数k＝3；以关系类型“place_of_birth”(出生地)为例，其完整的三层表示为“/people/person/place_of_birth”，其中第一层的关系类型为“/people”，第二层关系类型为“/person”，第三层关系类型为“/place_of_birth”，这三个层级分别表示按照不同的粒度划分时，同一关系所对应的关系类型；本实施例中在初始化步骤中，为第一层的/people、第二层的/person、第三层的/place_of_birth分别分配id，这样具有相同父关系的类型会具有相同的父级id。

由于本实施例采用多示例学习的方法，因此需要将训练集和测试集中具有相同实体对(即头实体和尾实体)的句子整合成一个袋，在后续训练和预测中均以袋为单位进行。相应的需要处理得到袋的标签(即袋中句子的头实体和尾实体间的关系)、袋中句子的索引(即句子在袋中的序号)等。另外，还要计算每个单词与句子中头实体、尾实体的相对距离，并将其映射到非负数的范围内，方便后续距离嵌入。

本实施例中，模型建立步骤具体包括：建立深度学习模型，该模型以袋为输入，输出关系类型的概率分布。

本实施例所建立的深度学习模型如图1所示，包括句子编码网络、袋编码网络以及分类器；

句子编码网络以包含若干头实体和尾实体相同的句子的袋为输入，用于获得袋中的各句子的向量表示，得到对应的句子向量；

袋编码网络以句子编码网络输出的句子向量为输入，用于基于注意力机制获取各句子在关系类型层级结构中每一个层级的注意力权重后，对句子向量进行加权求和，得到袋在该层级的向量表示，并将袋在各层级的向量表示拼接，得到袋向量；

分类器以袋编码网络输出的袋向量为输入，用于计算袋中句子的关系类型的概率分布。

本实施例中，袋编码网络如图2所示，包括k个袋向量表示模块以及袋向量拼接模块；k表示关系类型层级结构的层数，在本实施例中，k＝3；

袋向量表示模块以句子编码网络输出的句子向量，以及关系类型层级结构中一个层级的向量表示为输入；关系类型层级结构中，三个层级的向量表示由初始化步骤获取，图2中，

和

分别表示第一层级、第二层级和第三层级的向量表示，s₁～s_N分别表示袋中第1～N个句子的句子向量；

k个袋向量表示模块分别用于基于注意力机制获取各句子在关系类型层级结构的k个层级的注意力权重后，对句子向量进行加权求和，得到袋在该层级的向量表示；图2中，在袋中包含的句子数量为N时，

分别表示第1～N个句子在第一层级的注意力权重，

分别表示第1～N个句子在第二层级的注意力权重，

分别表示第1～N个句子在第三层级的注意力权重，

分别表示袋在第一层级、第二层级和第三层级的向量表示；

袋向量拼接模块，以k个袋向量表示模块输出的向量表示为输入，用于将袋在各层级的向量表示拼接，得到袋向量；图2中，

表示袋向量，该袋向量综合了关系类型中各层级间的信息。

本实施例中的袋编码网络实现了全层级的注意力机制，全层级的注意力机制提供了袋编码多层级的特征。全层级注意力机制会计算袋中的每个句子对于关系不同层级的注意力权重，这个权重表示了该句子表达特定关系类型层级的程度，句子越接近给定关系类型层级的注意力权重越高，反之就越低。然后将该注意力权重与对应句子的向量表示加权求和，得到袋不同层级的向量表示。

全层级的注意力机制利用袋中可能出现的噪音数据的真实标签与标记标签的层级关系，能够得到袋多维度的表示，不仅能降低袋中噪音数据对预测的影响，还能通过多层的特征提取提高预测效率。

图3所示袋编码的一个示例，其中，袋中包含3个句子，袋的实体关系类型标签为国籍(“nationality”)，但是袋中只有第1个句子中的实体关系类型与该标签一致，各句子在各关系层级的注意力权重如图3所示。基于图3所示的袋编码示例可知，本实施例中的袋编码网络基于全层级注意力机制实现袋编码，一方面能够有效识别出各关系层级中的噪音数据，另一方面能够通过噪音数据对负例的父关系、祖父关系的特征进行提取，丰富了预测袋的关系类型指标的维度。

考虑到实体类型信息对关系抽取也十分重要，很多关系的实体是固定类型，比如关系“/business/company/founders”的实体对类型一定是人和公司，因此出现其他实体类型可直接排除该关系。基于这一经验，为了进一步提高关系抽取的准确率和效率，如图1所示，本实施例的袋编码网络还包括实体类型嵌入模块；

实体类型嵌入模块，用于获得袋中句子的头实体类型和尾实体类型的向量表示，得到实体类型向量表示，并将该实体类型向量表示与袋向量拼接模块输出的袋向量拼接，将拼接得到的向量作为整个袋编码网络输出的袋向量；

本实施例在对袋进行编码时，除了综合关系层级之间的信息，还会在袋向量中嵌入了头实体和尾实体的类型，能够以实体类型为辅助信息，进一步提高关系抽取的准确率；

在实际应用中，可使用任意一种实体分类体系获取实体类型，例如Freebase中实体的32种粗粒度分类；容易理解的是，某些实体可能同时具有多个类型，例如Paris的类型既可以是government也可以是location，此时，将实体的多个类型的原始向量表示的平均值作为实体类型最终的向量表示，并且在嵌入实体类型的向量表示时，具体嵌入该平均值。

本实施例中，句子编码网络如图4所示，输入模型的袋中的各句子会共用该句子编码网络，由该句子编码网络依次完成各句子的编码；句子编码网络具体包括：

句子嵌入模块和匹配关系嵌入模块；

句子嵌入模块用于获取句子的特征向量；

匹配关系嵌入模块用于提取出所有可能用于表示句子中头实体和尾实体间关系的关系词，并计算各关系词与知识库中各关系触发词的相似度，将相似度高于预设阈值的关系触发词对应的关系类型作为匹配关系类型，并将句子嵌入模块输出的句子的特征向量与匹配关系类型的向量表示拼接，得到句子的向量表示；

可选地，本实施例中，匹配关系嵌入模块获取所有可能用于表示句子中头实体和尾实体间关系的关系词的方式如下：

通过使用CoreNLP组件得到句子的依存语法树；根据该依存语法树，将可能作为实体对的关系词全部提取出来，组成集合P；具体提取内容有开放信息提取中与实体对匹配的关系词和分别处于实体对前、中间、后三个位置并且在依存语法树上距离为1的词组；这样做的原因是CoreNLP有时对于结构复杂的句子，并不能准确提取到我们想要的实体对的关系词。

匹配关系嵌入模块计算各关系词与知识库中各关系触发词的相似度，将相似度高于预设阈值的关系触发词对应的关系类型作为匹配关系类型的方式如下：

现有的知识库中，针对每一个关系类型，会设定多个关系触发词；利用知识库中存在的关系触发词，即可得到关系类型与触发词的对应关系；接着将上述通过语法分析得到的关系词和知识库中的关系触发词均送入到编码器中，使其转换为向量表示，编码器可采用GloVe的预训练模型；具体以余弦相似度衡量集合P中的关系词与知识库中关系触发词之间的相似度；对于每个p∈P计算其与所有关系触发词的余弦相似度，若该余弦相似度高于预设阈值t，则认为该关系词与该关系触发词较为接近，将该关系触发词所对应的关系类型认为是可能的关系类型，将其记为匹配关系；将该匹配关系对应的向量表示与句子的特征向量拼接，即可最终得到句子的向量表示；其中，阈值t的取值可根据实际的应用需求相应确定，可选地，本实施例中，t＝0.65；

本实施例借助语法分析和知识库，预先筛选出的匹配关系很大概率上反映了实体间真实的关系类型，在句子向量中嵌入匹配关系类型，能够提供更多的辅助信息，进一步提高关系抽取的准确率和效率；

通过关系词和关系触发词间的预先相似度，可能筛选出多个匹配关系，若匹配关系嵌入模块获取到的匹配关系类型有多个，则匹配关系类型的向量为多个匹配关系类型的原始向量表示的平均值。

图4所示，本实施例中，句子嵌入模块包括词嵌入模块和句子特征提取模块；

词嵌入模块用于获得句子中各单词的特征向量，并将各单词与头实体、尾实体的相对距离表示成向量，将单词的特征以及其与头实体、尾实体的相对距离的向量表示拼接为单词的向量表示；

句子特征提取模块以词嵌入模块输出的句子中各单词的向量表示为输入，用于提取句子的特征向量；

本实施例中，词嵌入模块具体包括词嵌入和位置嵌入两部分；词嵌入完成了单词特征向量化，位置嵌入则完成了单词位置向量化；

为了获得句子中各单词的特征向量，可选地，本实施例中，采用了Word2vec预训练模型，通过词嵌入的预训练模型提取单词的词汇级特征。假设给定的由多个单词组成的句子s可以表示为{w₁，...，w_n}，词嵌入为每个单词进行编码得到w＝{w₁，...，w_n}，其维度定义为k_w；

位置嵌入将当前单词与实体对的相对距离嵌入到最终的单词表示中，使模型能够获取到每个单词与实体对的相对位置信息；设相对位置的范围是[0，pos_num-1]，位置嵌入的维度为k_p，需要随机初始化维度为pos_num× k_p的向量作为单词的位置编码；将每个单词头实体、尾实体相对位置的对应向量与词嵌入进行拼接，即

为单词的最终表示，其维度为k_i＝k_w+k_p×2。

本实施例中，句子特征提取模块实现了句子特征向量化；可选地，本实施例中，采用卷积神经网络(CNN)模型获取句子的特征向量，在输入句子中各单词的向量表示后，CNN模型在提取特征过程中，会利用窗口融合多个单词的信息，结合若干个卷积核得到的单词不同的上下文特征表示，得到特征向量每个维度最有用的特征从而获取到句子级的特征；CNN模型隐藏层输出经过一个最大池化层输出最终的句子特征向量，该特征向量的维度与句子长度无关，只与隐藏层维度有关。

本实施例中，模型训练步骤具体包括：将数据集划分为训练集、测试集和验证集，利用训练集、测试集和验证集依次对深度学习模型进行训练、测试和验证后，得到关系抽取模型；

可选地，本实施例中，将NYT-10数据集中的原始训练集作为用于模型训练的训练集，将NYT-10数据集中的原始测试集中的20％分割出来作为用于模型验证的验证集，将原始测试集中剩余的80％作为用于模型测试的测试集；

测试集分割结束后，可以计算得到任意一种关系类型r_i在训练集和验证集中出现的概率p(r_i|D_d)和_p(r_i|D_m)；

原始的分类器的传递函数表达式为：

o＝Mb+b_i

其中，o为分类器输出的概率分布；M为识别矩阵，由模型训练得到；b_i表示分类器的原始偏差；

考虑到由于训练集和测试集中关系类型分布不均匀，会影响关系抽取的准确度，为了减小由此产生的误差，可选地，本实施例在模型训练步骤之后还包括：对深度学习模型中分类器的偏差进行调整，使得对于任意一个关系类型r_i，分类器偏差为b_i+lnp(r_i|D_m)-lnp(r_i|D_d)；在实际的模型预测时，模型中分类器的偏差即为b_i+lnp(r_i|D_m)-lnp(r_i|D_d)；

基于该调整，能够减小训练集和测试集之间关系分布不均所带来的关系抽取误差，进一步提高关系抽取的准确率；本实施例中，从NYT-10数据集中的原始测试集中划分得到的验证集一方面用于偏差调整中对测试集关系分布估计的计算，另一方面用于模型的参数调整。

可选地，在模型训练过程中，使用交叉熵损失函数，算法优化使用stochasticgradient descent(SGD)。

总体而言，本实施例所建立的关系抽取模型，以袋为输入，实现了多示例学习；基于全层级注意力机制实现袋编码，充分利用了关系层级间丰富的信息，能够有效提高关系抽取的准确性；在袋编码过程中融合了实体类型的辅助信息，在句子编码过程中融合了匹配关系类型的辅助信息，能够进一步提高关系抽取的准确性；通过对分类器的偏差进行调整，能够减小由训练集和测试集中关系类型分布不均带来的误差，进一步提高关系抽取的准确性。

实施例2：

一种基于全层级注意力的关系抽取模型建立方法，本实施例与上述实施例1类似，所不同之处在于，本实施例中，对分类器的偏差调整包括两个部分，具体地，在模型训练步骤之前，还包括：对深度学习模型中分类器的偏差进行调整，使得对于任意一个关系类型r_i，分类器偏差为lnp(r_i|d_d)；

其中，p(r_i|D_d)和_p(r_i|D_m)分别表示关系类型r_i在训练集和验证集中出现的概率。

实施例3：

一种基于全层级注意力的关系抽取方法，包括：将待处理的句子作为一个袋，输入由上述实施例1或2的基于全层级注意力的关系抽取模型建立方法得到的关系模型抽取模型，并将关系模型抽取模型输出的关系类型的概率分布中概率值最大的关系类型，作为关系抽取结果。

实施例4：

一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行上述实施例1或2提供的基于全层级注意力的关系抽取模型建立方法，和/或上述实施例3提供的基于全层级注意力的关系抽取方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于全层级注意力的关系抽取模型建立方法，其特征在于，包括：

初始化步骤：获取数据集中的所有关系类型的层级结构，并将每一层级均编码为向量；所述数据集中，每一个样本为关系类型已知的句子；所述层级结构中，关系类型的分类结果与层级相关，且层级越高，对应的分类粒度越粗；

模型建立步骤：建立深度学习模型，包括句子编码网络、袋编码网络以及分类器；所述句子编码网络以包含若干头实体和尾实体相同的句子的袋为输入，用于获得袋中的各句子的向量表示，得到对应的句子向量；所述袋编码网络以所述句子编码网络输出的句子向量为输入，用于基于注意力机制获取各句子在关系类型层级结构中每一个层级的注意力权重后，对句子向量进行加权求和，得到袋在该层级的向量表示，并将袋在各层级的向量表示拼接，得到袋向量；所述分类器以所述袋编码网络输出的袋向量为输入，用于计算袋中句子的关系类型的概率分布；

模型训练步骤：将所述数据集划分为训练集、测试集和验证集，利用所述训练集、所述测试集和所述验证集依次对所述深度学习模型进行训练、测试和验证后，得到所述关系抽取模型；

在所述模型训练步骤之后还包括：对所述深度学习模型中分类器的偏差进行调整，使得对于任意一个关系类型r_i，分类器偏差为b_i+lnp(r_i|D_m)-lnp(r_i|D_d)；

或者，在所述模型训练步骤之前，还包括：对所述深度学习模型中分类器的偏差进行调整，使得对于任意一个关系类型r_i，分类器偏差为lnp(r_i|D_d)；在所述模型训练步骤之后，还包括：对所述深度学习模型中分类器的偏差进行调整，使得对于任意一个关系类型r_i，分类器偏差为lnp(r_i|D_m)；

其中，p(r_i|D_d)和p(r_i|D_m)分别表示所述关系类型r_i在所述训练集和所述验证集中出现的概率；b_i表示偏差调整前所述分类器的偏差。

2.如权利要求1所述的基于全层级注意力的关系抽取模型建立方法，其特征在于，所述袋编码网络包括k个袋向量表示模块以及袋向量拼接模块；k表示关系类型层级结构的层数；

所述袋向量表示模块以所述句子编码网络输出的句子向量，以及关系类型层级结构中一个层级的向量表示为输入；所述k个袋向量表示模块分别用于基于注意力机制获取各句子在关系类型层级结构的k个层级的注意力权重后，对句子向量进行加权求和，得到袋在该层级的向量表示；

所述袋向量拼接模块，以所述k个袋向量表示模块输出的向量表示为输入，用于将袋在各层级的向量表示拼接，得到袋向量。

3.如权利要求2所述的基于全层级注意力的关系抽取模型建立方法，其特征在于，所述袋编码网络还包括实体类型嵌入模块；

所述实体类型嵌入模块，用于获得袋中句子的头实体类型和/或尾实体类型的向量表示，得到实体类型向量表示，并所述实体类型向量表示与袋向量拼接模块输出的袋向量拼接，将拼接得到的向量作为整个袋编码网络输出的袋向量。

4.如权利要求3所述的基于全层级注意力的关系抽取模型建立方法，其特征在于，若实体类型有多个，则实体类型的向量表示为实体的多个类型的原始向量表示的平均值；所述实体为头实体或尾实体。

5.如权利要求1所述的基于全层级注意力的关系抽取模型建立方法，其特征在于，所述句子编码网络包括：句子嵌入模块和匹配关系嵌入模块；

所述句子嵌入模块用于获取句子的特征向量；

所述匹配关系嵌入模块用于提取出所有可能用于表示句子中头实体和尾实体间关系的关系词，并计算各关系词与知识库中各关系触发词的相似度，将相似度高于预设阈值的关系触发词对应的关系类型作为匹配关系类型，并将所述句子嵌入模块输出的句子的特征向量与匹配关系类型的向量表示拼接，得到句子的向量表示。

6.如权利要求5所述的基于全层级注意力的关系抽取模型建立方法，其特征在于，若所述匹配关系嵌入模块获取到的匹配关系类型有多个，则匹配关系类型的向量为多个匹配关系类型的原始向量表示的平均值。

7.一种基于全层级注意力的关系抽取方法，其特征在于，包括：将待处理的句子作为一个袋，输入由权利要求1～6任一项所述的基于全层级注意力的关系抽取模型建立方法得到的关系模型抽取模型，并将所述关系模型抽取模型输出的关系类型的概率分布中概率值最大的关系类型，作为关系抽取结果。

8.一种计算机可读存储介质，其特征在于，包括存储的计算机程序；所述计算机程序被处理器执行时，控制所述计算机可读存储介质所在设备执行权利要求1-6任一项所述的基于全层级注意力的关系抽取模型建立方法，和/或权利要求7所述的基于全层级注意力的关系抽取方法。