CN112307130B

CN112307130B - 一种文档级远程监督关系抽取方法及系统

Info

Publication number: CN112307130B
Application number: CN202011135229.8A
Authority: CN
Inventors: 刘知远; 孙茂松; 肖朝军; 姚远; 谢若冰; 韩旭; 林芬; 林乐宇
Original assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Current assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2022-07-05
Anticipated expiration: 2040-10-21
Also published as: CN112307130A

Abstract

本发明实施例提供一种文档级远程监督关系抽取方法及系统，该方法包括：获取远程监督数据；基于训练好的预降噪模型，对所述远程监督数据进行降噪处理，得到目标远程监督数据，所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的；将所述目标远程监督数据输入到训练好的文本编码器模型中，得到文档级关系抽取结果，所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。本发明实施例通过预训练方式对远程监督数据进行降噪，能够有效地滤除远程监督数据中的噪音，并利用大规模的降噪后数据对模型进行预训练，从而实现文档级远程监督关系抽取，提升文档级关系抽取效果。

Description

一种文档级远程监督关系抽取方法及系统

技术领域

本发明涉及机器学习技术领域，尤其涉及一种文档级远程监督关系抽取方法及系统。

背景技术

关系提取任务旨在从文本中识别实体之间的关系事实，该任务是实现知识图谱自动构建的关键所在。随着深度学习技术的发展，神经关系抽取模型已经在句子级关系抽取任务中得到了验证，然而，训练一个高质量的关系抽取模型，需要大量的人工标注数据集，并且数据集的构建同样也需要耗费大量的时间与精力。为了解决这个问题，远程监督机制被提出，该机制通过对齐知识图谱与文本中的实体来实现数据的自动标注，从而为关系抽取任务提供了非常大规模的数据，可以使得模型训练更加充分。

现有的句子级关系抽取方法，侧重于抽取一个句子内部的实体之间的关系。然而，在实际表述中，存在着非常多的关系事实需要通过综合多个句子的信息来实现抽取。正是因为大量存在的这种句子间的关系，在实际应用中，句子级关系抽取的通用性和覆盖面受到了极大的限制，数据表明，至少有40.7％的关系事实需要综合多个句子的信息推断出来。因此，目前提出许多文档级关系抽取方法，来实现句间和句内关系的抽取。但是，现有的大多数文档级关系抽取模型严重依赖高质量的人工标注的训练数据，耗时耗力。并且，将句子级远程监督机制扩展到文档级是极具挑战性的，进行文档级远程监督机制的挑战主要来自于：1、远程监督将引入大量的错误标注。统计显示，文档级远程监督产生的61.8％的句间关系实例实际上是错误标注样例；2、从长文档中捕捉有用的关系信息是具有挑战性的，因为文档中的大部分内容可能与给定的实体和关系无关。虽然早现有句子级关系抽取中，已经有一些工作致力于通过联合考虑多个句子来对远程监督语料进行降噪，然而，这些降噪方法不能直接适应文档级关系抽取。

因此，现在亟需一种文档级远程监督关系抽取方法及系统来解决上述问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种文档级远程监督关系抽取方法及系统。

第一方面，本发明实施例提供了一种文档级远程监督关系抽取方法，包括：

获取远程监督数据；

基于训练好的预降噪模型，对所述远程监督数据进行降噪处理，得到目标远程监督数据，所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的；

将所述目标远程监督数据输入到训练好的文本编码器模型中，得到文档级关系抽取结果，所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。

进一步地，所述训练好的文本编码器模型通过以下步骤训练得到：

通过训练好的预降噪模型，对样本远程监督数据进行降噪处理，得到降噪后的样本远程监督数据；

根据所述降噪后的样本远程监督数据，对待训练的文本编码器模型分别进行实体提及匹配预训练、实体关系事实检测预训练和关系事实对齐预训练，得到预训练的文本编码器模型；

通过预设标注数据集，对所述预训练的文本编码器模型进行调整，得到训练好的文本编码器模型，所述预设标注数据集是由已标注实体关系的远程监督数据构建得到的。

进一步地，所述训练好的预降噪模型通过以下步骤训练得到：

获取样本远程监督数据，并将具有实体关系的样本远程监督数据标注为正样例，将不具有实体关系的样本远程监督数据标注为负样例；

根据所述正样例和所述负样例，对待训练的预降噪模型进行训练，得到训练好的预降噪模型。

进一步地，所述训练好的文本编码器模型和所述训练好的预降噪模型是基于BERT模型构建得到的。

进一步地，所述实体提及匹配预训练包括：

获取所述降噪后的样本远程监督数据中的实体提及和实体；

获取所述实体提及和所述实体之间的匹配分数；

根据所述匹配分数，通过归一化指数函数和交叉熵函数，获取第一损失函数；

根据所述第一损失函数对所述待训练的文本编码器模型进行更新，以完成实体提及匹配预训练。

进一步地，所述实体关系事实检测预训练包括：

获取所述降噪后的样本远程监督数据中所有的实体对；

通过线性变换，对每个实体对进行打分，得到每个实体对的分数；

根据每个实体对的分数，通过归一化指数函数和交叉熵函数，获取第二损失函数；

根据所述第二损失函数对所述待训练的文本编码器模型进行更新，以完成实体关系事实检测预训练。

进一步地，所述关系事实对齐预训练包括：

获取所述降噪后的样本远程监督数据中多个文档；

从多个文档中获取相同的实体对，并根据归一化指数函数和交叉熵函数，获取第三损失函数，以根据所述第三损失函数对所述待训练的文本编码器模型进行更新，以完成关系事实对齐预训练。

第二方面，本发明实施例提供了一种文档级远程监督关系抽取系统，包括：

文档级远程监督数据获取模块，用于获取远程监督数据；

预降噪模块，用于基于训练好的预降噪模型，对所述远程监督数据进行降噪处理，得到目标远程监督数据，所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的；

关系抽取模块，用于将所述目标远程监督数据输入到训练好的文本编码器模型中，得到文档级关系抽取结果，所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种文档级远程监督关系抽取方法及系统，通过预训练的方式对文档级远程监督数据进行降噪，能够有效地滤除远程监督数据中的噪音，并利用大规模的降噪后数据对模型进行预训练，得到一个有效的文本编码器，从而实现文档级的远程监督关系抽取，提升文档级关系抽取的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文档级远程监督关系抽取方法的流程示意图；

图2为本发明实施例提供的文本编码器模型的整体示意图；

图3为本发明实施例提供的文档级远程监督关系抽取系统的结构示意图；

图4为本发明实施例提供的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的文档级远程监督关系抽取方法的流程示意图，如图1所示，本发明实施例提供了一种文档级远程监督关系抽取方法，包括：

步骤101，获取远程监督数据。

在本发明实施例中，首先，获取远程监督数据，在该数据中，存在大量的噪声，其中，将真正含有指定关系的句子作为关系实例(Relational Instance)，即后续步骤中的正样例，将实际上不含任何关系实体对作为后续步骤中的负样例，例如，乔布斯是苹果的创始人，以及乔布斯吃了一个苹果，表达的完全不是一个关系，这就说明远程监督数据里存在大量的噪声。

步骤102，基于训练好的预降噪模型，对所述远程监督数据进行降噪处理，得到目标远程监督数据，所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的。

在本发明实施例中，训练好的预降噪模型对远程监督数据进行噪声预处理，将部分无关系负样例进行筛除，从而得到目标远程监督数据。

步骤103，将所述目标远程监督数据输入到训练好的文本编码器模型中，得到文档级关系抽取结果，所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。

在本发明实施例中，图2为本发明实施例提供的文本编码器模型的整体示意图，可参考图2所示，将目标远程监督数据输入到文本编码器(Document Encoder)模型之后，该模型会对文档分别进行实体提及匹配(Mention-Entity Matching)、关系事实检测(RelationDetection)和关系事实对齐(Relational Fact Alignment)三个方面处理，从而抽取目标远程监督数据中的文档级关系，得到文档级关系抽取结果。

本发明实施例提供的文档级远程监督关系抽取方法，通过预训练的方式对文档级远程监督数据进行降噪，能够有效地滤除远程监督数据中的噪音，并利用大规模的降噪后数据对模型进行预训练，得到一个有效的文本编码器，从而实现文档级的远程监督关系抽取，提升文档级关系抽取的效果。

在上述实施例的基础上，所述训练好的文本编码器模型通过以下步骤训练得到：

在本发明实施例中，利用训练好的预降噪模型，筛除样本远程监督数据中部分无关系的实体对；然后，使用降噪后的样本远程监督数据，对文本编码器模型进行预训练；最后，使用手工标注数据构建的预设标注数据集，对预训练的文本编码器模型进行微调，从而得到最终训练好的模型。在通过大规模的远程监督数据(即降噪后的样本远程监督数据)对文本编码器模型进行预训练之后，再通过手工标注得到的数据集对文本编码器模型进行微调。在本发明实施例中，使用预训练得到的文本编码器模型，对每一个实体对进行分类，从而得到该实体对属于某个关系的概率P：

P＝softmax(w_fr+b_f)；

其中，

表示实体对向量，d为向量维度；

和

表示训练参数，n_r为关系数量，两个参数为关系分类时的线性输出层的两个参数，只用于计算关系分类的输出。并将交叉熵作为损失函数进行训练，从而对预训练的文本编码器模型中的参数进行微调，得到训练好的文本编码器模型。

需要说明的是，在本发明实施例中，预降噪模型的模型结构与文本编码器模型结构相同，并且训练方式也具有有重合之处。具体模型结构和模型的预训练过程可参考图2所示。

在上述实施例的基础上，所述训练好的预降噪模型通过以下步骤训练得到：

在本发明实施例中，预降噪模型用于对远程监督数据进行预处理，筛除文档中的部分无关系负样例。该模型的编码器与上述实施例中的文本编码器模型相同，在进行训练时，利用实体关系事实检测预训练的方式进行训练。在训练完成后，利用该预降噪模型对文档中所有的实体对进行打分，打分公式可参考后续实施例中实体关系事实检测的实体对打分公式。接着，将每篇文档中的实体对按照分数进行排序，只保留分数最高(可基于满足预设范围的分数进行定义)的部分实体对，用于后续的预训练和微调。

在上述实施例的基础上，所述训练好的文本编码器模型和所述训练好的预降噪模型是基于BERT模型构建得到的。

在本发明实施例中，基于BERT(Bidirectional Encoder Representations fromTransformers)构建文本编码器模型和预降噪模型。BERT的本质上是通过在海量的语料的基础上，运行自监督学习方法为单词学习一个好的特征表示，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在后续特定的自然语言处理(Natural LanguageProcessing，简称NLP)任务中，可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以，BERT模型提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。

具体地，在本发明实施例中，以BERT模型构建文本编码器模型进行说明。编码器的输入为一篇由n个词语组成的文档D：

其中，w_i表示第i个词语。同时，文档中也包含有多个实体V：

其中，e_K表示第K个实体。每个实体e_K在文档中被提及l_K次，即每个实体在该文档中包含有l_K个实体提及：

其中，

表示第K个实体在文档中对应的第j个实体提及。

进一步地，在本发明实施例中，首先利用BERT模型对文档进行编码，将词语转成隐向量序列H：

其中，h_i表示第i个词语对应的隐向量，从而定义一个实体提及

的表示为该实体提及对应的隐向量。接下来，利用最大池化操作从多个实体提及的表示中生成实体的表示：

为了进行关系分类，需要获得每一个实体对的表示，因此对于实体对(e_K,e_p)，本发明实施例使用一个双线性操作，以用于计算该实体对的表示：

r_{K,p}＝Bilinear_E(e_K,e_p)。

在上述实施例的基础上，所述实体提及匹配预训练包括：

获取所述降噪后的样本远程监督数据中的实体提及和实体；

获取所述实体提及和所述实体之间的匹配分数；

在本发明实施例中，一个实体在一篇文档中将有多个提及。通过实体提及匹配预训练，在给定一个实体提及后，判断该实体提及具体属于哪一个实体。进一步地，给定一个实体提及m^q和该文档中所有实体

接着计算实体提及m^q和各个

的匹配分数：

接着，通过归一化指数(softmax)函数来计算概率，并利用交叉熵函数计算实体提及匹配预训练的损失函数。

在上述实施例的基础上，所述实体关系事实检测预训练包括：

获取所述降噪后的样本远程监督数据中所有的实体对；

在本发明实施例中，远程监督数据中存在大量无关系实体对，因此拥有区分有关系的正样例和无关系的负样例的能力是非常重要的。实体关系事实检测预训练要求模型能够从大量实体对中，找出有关系的实体对。具体地，给定k_n个实体对的表示

利用线性变换来对实体对打分：

其中，

和

为训练参数，即为关系事实检测任务的线性输出层的两个参数，只用于计算该任务的输出。并通过softmax和交叉熵计算损失函数。

在上述实施例的基础上，所述关系事实对齐预训练包括：

获取所述降噪后的样本远程监督数据中多个文档；

在本发明实施例中，一个有关系的实体对可能在多个文档中出现。因此，本发明实施例假设，一个训练好的编码器可从不同文章中获取的相同实体对的表示是基本相同的。具体地，给定包含有相同实体对的两篇文档A和文档B，以及其中的实体对表示

和

文本编码模型需要找出文档A中与实体对表示

相同的表示：

其中，

和

为训练参数，即为关系事实对齐任务的线性输出层的两个参数，只用于计算该任务的输出。然后，通过softmax和交叉熵计算损失函数。

在本发明实施例中，在对模型训练时，可采用Adam优化算法，进行参数训练更新，当损失函数值下降至收敛时，停止训练。

图3为本发明实施例提供的文档级远程监督关系抽取系统的结构示意图，如图3所示，本发明实施例提供了一种文档级远程监督关系抽取系统，其特征在于，包括文档级远程监督数据获取模块301、预降噪模块302和关系抽取模块303，其中，文档级远程监督数据获取模块301用于获取远程监督数据；预降噪模块302用于基于训练好的预降噪模型，对所述远程监督数据进行降噪处理，得到目标远程监督数据，所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的；关系抽取模块303用于将所述目标远程监督数据输入到训练好的文本编码器模型中，得到文档级关系抽取结果，所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。

本发明实施例提供的文档级远程监督关系抽取系统，通过预训练的方式对文档级远程监督数据进行降噪，能够有效地滤除远程监督数据中的噪音，并利用大规模的降噪后数据对模型进行预训练，得到一个有效的文本编码器，从而实现文档级的远程监督关系抽取，提升文档级关系抽取的效果。

本发明实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图4为本发明实施例提供的电子设备结构示意图，参照图4，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令，以执行如下方法：获取远程监督数据；基于训练好的预降噪模型，对所述远程监督数据进行降噪处理，得到目标远程监督数据，所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的；将所述目标远程监督数据输入到训练好的文本编码器模型中，得到文档级关系抽取结果，所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的文档级远程监督关系抽取方法，例如包括：获取远程监督数据；基于训练好的预降噪模型，对所述远程监督数据进行降噪处理，得到目标远程监督数据，所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的；将所述目标远程监督数据输入到训练好的文本编码器模型中，得到文档级关系抽取结果，所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。