CN116595189A

CN116595189A - 基于两阶段的零样本关系三元组抽取方法及系统

Info

Publication number: CN116595189A
Application number: CN202310534905.6A
Authority: CN
Inventors: 张春; 张宁; 许亮
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-08-15

Abstract

本发明提供一种基于两阶段的零样本关系三元组抽取方法及系统，属于人工智能与自然语言处理技术领域，将给定句子与Prompt模板结合起来，利用预训练的语言模型来预测句子中包含的关系的位置的嵌入表示，作为句子表示；将每个关系的文本描述输入到同一个预训练语言模型中，获得关系表示；将句子表示与每个关系表示进行比较，确定哪些关系是候选关系；利用提示驱动的生成模型来实现对比三元组提取，识别每个匹配关系的主体和客体。本发明利用提示驱动的零样本文本分类确定哪些是看不见的关系与给定句子相匹配；利用提示驱动的生成模型实现对比三元组提取，识别每个匹配关系的主客体；缓解了样本生成带来的误差传递，提高了零样本关系三元抽取任务的F1值。

Description

基于两阶段的零样本关系三元组抽取方法及系统

技术领域

本发明涉及人工智能与自然语言处理技术领域，具体涉及一种基于两阶段的零样本关系三元组抽取方法及系统。

背景技术

关系三元组抽取是信息提取领域中的一个重要任务，旨在从给定的句子中提取出关系三元组。该任务支持许多领域的发展，如知识图谱、信息检索和自然语言推理。目前，基于监督学习的关系三元组抽取技术已经发展成熟，并取得了很多成果。然而，由于新知识的快速涌现和数据标注的高成本，现有的可用数据并不能总是覆盖所有的关系。对此，零样本的关系三元组抽取逐渐受到越来越多的关注。

现有针对没有训练数据的关系三元组抽取问题的解决方案大致可以分成三类：远程监督的、开放域的和零样本的三元组抽取。远程监督的关键思想是将未标记的语料与现有的大规模知识图谱对齐，利用知识图谱的关系来标记每个给定的句子，最后将标记的语料用于监督的关系三元组提取。开放域关系抽取是一种试图从给定句子中明确呈现的关系中抽取关系三元组的方法。零样本三元组抽取要求模型能够在没有对特定关系类型进行训练的情况下，对该类型进行关系三元组抽取。这种方法通常需要利用文本描述等外部信息来进行推理和泛化，因此具有较高的实用性和应用价值。

现有的技术方案中，主要存在以下问题：

远程监督的关系三元组抽取方法不能提取知识图谱中未见过的关系三元组，应用范围较为局限；开放域的关系三元组抽取方法有一个严格的前提条件，即只有句子中的显性表示出来的关系才能被提取出来，其不能够发掘句子之外的知识，可能无法发现潜在的关系，应用范围较局限；现有的零样本三元组抽取任务是基于训练集训练生成模型，生成未见过的关系三元组，然后通过监督学习技术学习未知三元组的抽取模型。但是这样的策略不可避免地会导致错误传播，影响最终的抽取效果。

发明内容

本发明的目的在于提供一种可以有效缓解错误传播问题，提高模型抽取未知关系三元组的表现的基于两阶段的零样本关系三元组抽取方法及系统，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供一种基于两阶段的零样本关系三元组抽取方法，包括：

将给定句子与Prompt模板结合起来，利用预训练的语言模型来预测句子中包含的关系的位置的嵌入表示，作为句子表示；

将每个关系的文本描述输入到同一个预训练语言模型中，获得关系表示；

将句子表示与每个关系表示进行比较，确定哪些关系是候选关系；

利用提示驱动的生成模型来实现对比三元组提取，识别每个匹配关系的主体和客体。

优选的，利用提示驱动的生成模型来实现对比三元组提取，识别每个匹配关系的主体和客体包括：引入标记字符集，用于将关系三元组表示为一个字符序列；为了表示输出的三元组，“<Triplet>”标记表示一个新三元组的开始，紧随其后的是三元组的主语实体的生成输出；“<Subject>”和“<Object>”标记表示主语实体字符和宾语实体字符的结尾，中间填充的是宾语实体字符；关系类型放置在“<Object>”后面；同时，为了表示输入的候选关系，“<Relation>”和“<\Relation>”令牌被添加到Prompt中的模板，分别对应于候选关系字符的开始和结束。

优选的，Prompt驱动的关系匹配的目标是：生成句子表示并将其与候选关系进行匹配，如下式所示：

T＝[t₁,…,t_p][MASK][t_p+1,…,t_|T|]

其中，模板T表示为一个令牌序列；对于特定的输入(s,T)，即Prompt驱动的关系匹配的输入，表示为它是通过填充模板并使用[CLS]和[SEP]标记将其与s进行连接获得，如下式所示：

优选的，将关系位置的嵌入分配为句子表示b是预训练语言模型的嵌入维度，/>如下式所示：

其中，PLM(·)表示从输入令牌序列到输出关系嵌入的映射，由预训练语言模型中的编码层实现；

基于预训练语言模型和关系描述，获得一个特定关系r_i的表示，表示为r_i∈R^b，模型的优化目标是最小化与其对应关系表示之间的距离，如下式所示：

其中，如果第j句话属于第i个关系，则k_ij＝1，否则k_ij＝0；f_distance(·)是一个距离度量函数。

优选的，引入一个新的标记“<None>”，在训练过程中，随机选择多个关系，并插入到Prompt模板中，其中主语和宾语被“<None>”令牌替换；

将句子和Prompt中的模板连接在一起作为输入，表示为如下式所示，模型基于预训练语言模型和/>自回归生成输出标记序列y；

其中，在训练过程中，每个y_i被表示为一个单词分布的向量。

优选的，基于预训练语言模型通过最小化损失函数L_sog进行优化：

第二方面，本发明提供一种基于两阶段的零样本关系三元组抽取系统，包括：

预测模块，用于将给定句子与Prompt模板结合起来，利用预训练的语言模型来预测句子中包含的关系的位置的嵌入表示，作为句子表示；

获取模块，用于将每个关系的文本描述输入到同一个预训练语言模型中，获得关系表示；

比较模块，用于将句子表示与每个关系表示进行比较，确定哪些关系是候选关系；

识别模块，用于利用提示驱动的生成模型来实现对比三元组提取，识别每个匹配关系的主体和客体。

第三方面，本发明提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如上所述的基于两阶段的零样本关系三元组抽取方法。

第四方面，本发明提供一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现如上所述的基于两阶段的零样本关系三元组抽取方法。

第五方面，本发明提供一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如上所述的基于两阶段的零样本关系三元组抽取方法的指令。

本发明有益效果：利用提示驱动的零样本文本分类来确定哪些是看不见的关系与给定的句子相匹配；利用提示驱动的生成模型来实现对比三元组提取，旨在识别每个匹配关系的主客体；有效缓解了样本生成带来的误差传递提高了零样本关系三元抽取任务的F1值。

本发明附加方面的优点，将在下述的描述部分中更加明显的给出，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的基于两阶段的零样本关系三元组抽取方法流程图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

本实施例1中，首先提供了一种基于两阶段的零样本关系三元组抽取系统，包括：预测模块，用于将给定句子与Prompt模板结合起来，利用预训练的语言模型来预测句子中包含的关系的位置的嵌入表示，作为句子表示；获取模块，用于将每个关系的文本描述输入到同一个预训练语言模型中，获得关系表示；比较模块，用于将句子表示与每个关系表示进行比较，确定哪些关系是候选关系；识别模块，用于利用提示驱动的生成模型来实现对比三元组提取，识别每个匹配关系的主体和客体。

本实施例1中，利用上述的系统实现了基于两阶段的零样本关系三元组抽取方法，包括：

利用提示驱动的生成模型来实现对比三元组提取，识别每个匹配关系的主体和客体包括：引入标记字符集，用于将关系三元组表示为一个字符序列；为了表示输出的三元组，“<Triplet>”标记表示一个新三元组的开始，紧随其后的是三元组的主语实体的生成输出；“<Subject>”和“<Object>”标记表示主语实体字符和宾语实体字符的结尾，中间填充的是宾语实体字符；关系类型放置在“<Object>”后面；同时，为了表示输入的候选关系，“<Relation>”和“<\Relation>”令牌被添加到Prompt中的模板，分别对应于候选关系字符的开始和结束。

Prompt驱动的关系匹配的目标是：生成句子表示并将其与候选关系进行匹配，如下式所示：

T＝[t₁,…,t_p][MASK][t_p+1,…,t_|T|]

将关系位置的嵌入分配为句子表示b是预训练语言模型的嵌入维度，/>如下式所示：

引入一个新的标记“<None>”，在训练过程中，随机选择多个关系，并插入到Prompt模板中，其中主语和宾语被“<None>”令牌替换；

基于预训练语言模型通过最小化损失函数L_sog进行优化：

实施例2

本实施例2中，提供了一种基于两阶段的零样本关系三元组抽取算法，解决了目前关系三元组抽取算法依赖训练数据、零样本关系抽取算法的性能表现较差以及生成模型生成的训练样本中噪声造成的错误传播的问题。

本实施例中，重新审视了零样本关系三元组提取的任务，并将该任务解构为两个新的子任务：关系匹配和主客体生成，并通过提示驱动方法的实现了一种新的零样本关系三元组提取两阶段框架，可以有效缓解错误传播问题，提高模型抽取未知关系三元组的表现。对于前者关系匹配，我们利用提示驱动的零样本文本分类来确定哪些是不可见的关系与给定的句子相匹配。对于后面的主客体生成，我们利用提示驱动的生成模型来实现对比三元组提取，旨在识别每个匹配关系的主客体。

具体的，对于关系匹配：在Prompt驱动的关系匹配中，关键问题是生成适当的句子表示以识别隐含的关系。因此，我们利用基于BERT的MLM(Masked Language Model)任务的思想，该任务已经被广泛使用来预测给定句子中包含的关系。具体地，我们将给定句子与适当的Prompt模板结合起来，例如“根据以上的句子，其中包含的关系是[MASK]”。然后，利用预训练的语言模型来预测[MASK]位置的嵌入表示作为句子表示。同时，将每个关系的文本描述输入到同一个预训练语言模型中，以获得关系表示。最后，将句子表示与每个关系表示进行比较，确定哪些关系是候选关系。

对于主体与客体生成：Prompt驱动的主宾生成的目的是提取与候选关系相应的主体和客体字符。为使生成任务能够正常进行，我们引入了一个新的标记字符集，并使用它们将关系三元组表示为一个字符序列。为了表示输出的三元组，“<Triplet>”标记表示一个新三元组的开始，紧随其后的是三元组的主语实体的生成输出。“<Subject>”和“<Object>”标记表示主语实体字符和宾语实体字符的结尾，中间填充的是宾语实体字符。关系类型放置在“<Object>”后面。同时，为了表示输入的候选关系，“<Relation>”和“<\Relation>”令牌被添加到Prompt中的模板，分别对应于候选关系字符的开始和结束。

上述的基于两阶段的零样本关系三元组抽取方法。它由两个组成部分组成：关系匹配和主客体生成，在实现中这两个组件都基于预训练语言模型和Prompt驱动方法。在训练阶段我们分别训练两个组件，然后在推理过程中将它们重新组装在一起。

在关系匹配阶段：

Prompt驱动的关系匹配的目标是生成句子表示并将其与候选关系进行匹配，如公式所示。

T＝[t₁,…,t_p][MASK][t_p+1,…,t_|T|]

在模板T表示为一个令牌序列。对于特定的输入(s,T)，即Prompt驱动的关系匹配的输入，表示为它是通过填充模板并使用[CLS]和[SEP]标记将其与s进行连接而获得的，如下式所示。

通常，掩码语言模型会将[MASK]位置预测为一个单词分布，这不能直接与关系表示进行比较。因此，在提出的模型中，我们直接将[MASK]位置的嵌入分配为句子表示b是预训练语言模型的嵌入维度，/>如下式所示。

其中，PLM(·)表示从输入令牌序列到输出[MASK]嵌入的映射，由预训练语言模型中的编码层实现。

同时，基于预训练语言模型和关系描述，很容易获得一个特定关系r_i的表示，表示为r_i∈R^b。该模型的优化目标是最小化与其对应关系表示之间的距离，如下式所示。

其中，如果第j句话属于第i个关系，则k_ij＝1，否则k_ij＝0。f_distance(·)是一个距离度量函数，在本文中使用欧几里得距离实现。

在主体与客体生成阶段：

Prompt驱动的主宾生成的目的是提取与候选关系相应的主语和宾语令牌。为使生成任务能够正常进行，我们引入了一个新的标记字符集，并使用它们将关系三元组表示为一个字符序列。为了表示输出的三元组，“<Triplet>”标记表示一个新三元组的开始，紧随其后的是三元组的主语实体的生成输出。“<Subject>”和“<Object>”标记表示主语实体字符和宾语实体字符的结尾，中间填充的是宾语实体字符。关系类型放置在“<Object>”后面。同时，为了表示输入的候选关系，“<Relation>”和“<\Relation>”令牌被添加到Prompt中的模板，分别对应于候选关系字符的开始和结束。

此外，为了提高生成模型对Prompt中模板的敏感性和对未见关系类型的主客体实体提取能力，提出一种简单但有效的基于Prompt的对比学习机制。具体而言，引入了一个新的标记“<None>”。在训练过程中，随机选择一些其他已见的关系，并将它们插入到Prompt中的模板中。这些关系也有它们的输出三元组，其中主语和宾语被“<None>”令牌替换。考虑到候选关系顺序的影响，模板中的关系和关系三元组的输出令牌序列并不严格对应。

将句子和Prompt中的模板连接在一起作为输入，表示为如下式所示，模型基于预训练语言模型和/>自回归生成输出标记序列y。

其中，在训练过程中，每个y_i被表示为一个单词分布的向量。此外，该模型通过最小化损失函数进行优化。

本实施例所提出的两阶段的零样本关系三元组抽取方法的架构如图1所示，主要由关系匹配层和主客体生成层组成。实验数据来是FewRel，该数据集包含80个关系，其中65个关系用于模型训练，15个关系用于模型测试。每种关系具有700个远程监督生成的样本实例，这些实例中包含主体和客体构成的实体对。此外，每个关系的文本描述由关系名称和关系描述构成。步骤如下：

数据预处理阶段：将要抽取的句子填入到不同的模板中，并输入到关系匹配层中供训练。将要抽取的句子填入与新建的标记字符集拼接输入到主客体生成层中供训练。

模型的训练步骤如下：

关系匹配层：将数据输入到关系生成层，使用欧式距离对MLM生成的词向量与关系描述文本的词向量进行比较。主客体生成层：将数据输入到关系层，对输出的文本进行解码，与对应的主体客体相匹配。

在本实施例中，选择了两个代表性零样本关系三元组抽取的研究作为基准。分别是TableSequence和RelationPrompt。两者的思路都是先生成未见关系的训练样本，然后使用监督学习策略训练模型。在不同不可见类别数目设置下，评测指标使用准确度，对比结果见表1。

表1

实验结果表明：通过将本实施例所述的模型与现有最新的零样本三元组抽取模型进行对比，可以看到本实施例所提模型在实验中获取了最高的识别性能，这说明了本实施例设计的模型的有效性。

实施例3

本实施例3提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如上所述的基于两阶段的零样本关系三元组抽取方法，该方法包括：

实施例4

本实施例4提供一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现如上所述的基于两阶段的零样本关系三元组抽取方法，该方法包括：

实施例5

本实施例5提供一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如上所述的基于两阶段的零样本关系三元组抽取方法的指令，该方法包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于两阶段的零样本关系三元组抽取方法，其特征在于，包括：

2.根据权利要求1所述的基于两阶段的零样本关系三元组抽取方法，其特征在于，利用提示驱动的生成模型来实现对比三元组提取，识别每个匹配关系的主体和客体包括：引入标记字符集，用于将关系三元组表示为一个字符序列；为了表示输出的三元组，“<Triplet>”标记表示一个新三元组的开始，紧随其后的是三元组的主语实体的生成输出；“<Subject>”和“<Object>”标记表示主语实体字符和宾语实体字符的结尾，中间填充的是宾语实体字符；关系类型放置在“<Object>”后面；同时，为了表示输入的候选关系，“<Relation>”和“<\Relation>”令牌被添加到Prompt中的模板，分别对应于候选关系字符的开始和结束。

3.根据权利要求1所述的基于两阶段的零样本关系三元组抽取方法，其特征在于，Prompt驱动的关系匹配的目标是：生成句子表示并将其与候选关系进行匹配，如下式所示：

T＝[t₁,…,t_p][pMASK][t_p+1,…,t_|T|]；

4.根据权利要求3所述的基于两阶段的零样本关系三元组抽取方法，其特征在于，将关系位置的嵌入分配为句子表示b是预训练语言模型的嵌入维度，/>如下式所示：

5.根据权利要求4所述的基于两阶段的零样本关系三元组抽取方法，其特征在于，引入一个新的标记“<None>”，在训练过程中，随机选择多个关系，并插入到Prompt模板中，其中主语和宾语被“<None>”令牌替换；

6.根据权利要求5所述的基于两阶段的零样本关系三元组抽取方法，其特征在于，基于预训练语言模型通过最小化损失函数L_sog进行优化：

7.一种基于两阶段的零样本关系三元组抽取系统，其特征在于，包括：

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-6任一项所述的基于两阶段的零样本关系三元组抽取方法。

9.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现如权利要求1-6任一项所述的基于两阶段的零样本关系三元组抽取方法。

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1-6任一项所述的基于两阶段的零样本关系三元组抽取方法的指令。