CN117669593B

CN117669593B - 基于等价语义的零样本关系抽取方法、系统、设备及介质

Info

Publication number: CN117669593B
Application number: CN202410128850.3A
Authority: CN
Inventors: 李敏; 李刚; 周鸣乐; 韩德隆; 邵聪
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-04-26
Anticipated expiration: 2044-01-31
Also published as: CN117669593A

Abstract

本发明公开的基于等价语义的零样本关系抽取方法、系统、设备及介质，涉及零样本关系抽取技术领域，包括：获取待识别样本；提取待识别样本中句子实例的语义特征向量及关系描述的语义特征向量；对句子实例的语义特征向量和关系描述的语义特征向量，均进行正交变换，对应获得句子语义等价向量和关系语义等价向量；计算句子实例的语义特征向量和关系描述的语义特征向量的匹配分数，及句子语义等价向量和关系语义等价向量的匹配分数；将两种匹配分数加权求和，获得句子实例和关系描述的预测分数；根据句子实例和关系描述的预测分数，确定句子实例和关系描述的预测关系。提高了零样本关系抽取的准确性。

Description

基于等价语义的零样本关系抽取方法、系统、设备及介质

技术领域

本发明涉及零样本关系抽取技术领域，尤其涉及基于等价语义的零样本关系抽取方法、系统、设备及介质。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

关系抽取（RE）是自然语言理解任务中很重要的一项基础任务。它的目标是理解句子或段落的上下文信息，识别出实体对的目标关系。依赖于大规模高质量数据的传统关系抽取已经取得了优异表现，但是随着时代的发展，高质量的数据被消耗殆尽，面对不断出现的缺少训练数据的各种新型关系类型，传统的方法陷入了瓶颈。

为了应对这种情况，零样本关系抽取成为了当今的研究热点。零样本关系抽取是指在没有任何标注的训练样本的情况下，从文本中抽取实体之间的关系。零样本关系抽取的目标是通过利用先验知识、迁移学习、元学习等技术，使模型能够在缺乏样本的情况下推断出新关系或罕见关系。

常见的零样本关系抽取方法有问题回答、文本蕴含和语义匹配三种方式。问题回答通过让模型回答预定义的问题模板来对不可见类进行归类。然而，该方法对于新出现的类别需要手动创建额外的问题，不能很好的应用到实际场景中。文本蕴含通过判断输入的句子是否蕴含着对应的关系描述来识别关系类别，很好地契合了零样本学习的任务定义。然而，该方法无法建立一个有效的语义表示空间，使得关系之间的比较难以实现。语义匹配是指在自然语言处理任务中，判断两个文本片段之间是否存在语义上的相似性或关联性。它是一种基于语义的文本匹配技术，旨在通过分析文本的语义信息，判断两个文本之间的相似度或者相关程度，语义匹配的目的是预测一对文本序列之间语义相似性的匹配得分，该方法可以将输入文本和关系描述文本投影到同一语义空间，进行关系类型之间的比较。尽管语义匹配方案取得了先进的性能，但是仍存在着一些问题，其中最具代表性的就是匹配模式单一，导致模型在匹配时会受到无关上下文的负面影响。

发明内容

本发明为了解决上述问题，提出了基于等价语义的零样本关系抽取方法、系统、设备及介质，保证了零样本关系抽取的准确性。

为实现上述目的，本发明采用如下技术方案：

第一方面，提出了基于等价语义的零样本关系抽取方法，包括：

获取待识别样本；

提取待识别样本中句子实例的语义特征向量及关系描述的语义特征向量；

对句子实例的语义特征向量和关系描述的语义特征向量，均进行正交变换，对应获得句子语义等价向量和关系语义等价向量；

计算句子实例的语义特征向量和关系描述的语义特征向量的匹配分数，及句子语义等价向量和关系语义等价向量的匹配分数；

将两种匹配分数加权求和，获得句子实例和关系描述的预测分数；

根据句子实例和关系描述的预测分数，确定句子实例和关系描述的预测关系。

第二方面，提出了基于等价语义的零样本关系抽取系统，包括：

数据获取模块，用于获取待识别样本；

特征提取模块，用于提取待识别样本中句子实例的语义特征向量及关系描述的语义特征向量；

等价变换模块，用于对句子实例的语义特征向量和关系描述的语义特征向量，均进行正交变换，对应获得句子语义等价向量和关系语义等价向量；

匹配分数计算模块，用于计算句子实例的语义特征向量和关系描述的语义特征向量的匹配分数，及句子语义等价向量和关系语义等价向量的匹配分数；

关系预测模块，用于将两种匹配分数加权求和，获得句子实例和关系描述的预测分数；根据句子实例和关系描述的预测分数，确定句子实例和关系描述的预测关系。

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成基于等价语义的零样本关系抽取方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成基于等价语义的零样本关系抽取方法所述的步骤。

与现有技术相比，本发明的有益效果为：

1、本发明在获取到句子实例和关系描述的语义特征向量后，分别对两个语义特征向量进行了正交变换，获得对应的语义等价向量，在进行关系预测时，分别计算了两个语义特征向量的匹配分数，和两个语义等价向量的匹配分数，实现了从不同的视角下比较句子实例和关系描述的匹配分数，对两个匹配分数进行加权求和，获得预测分数，进而根据预测分数确定预测关系，保证了关系预测的准确性，解决当前语义匹配模式单一的问题。

2、本发明在确定句子实例和关系描述的全局语义嵌入时，首先根据各单词的贡献度确定了词贡献向量，进而通过学习词贡献向量与语义总结向量之间的距离，获得最终的语义总结向量，最终使得经过语义总结向量总结的全局语义嵌入中包含丰富上下文信息的精确语义，减少无关上下文对句意的影响，当利用该全局语义嵌入进行关系预测时，提高了关系预测的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为实施例1公开的基于等价语义的零样本关系抽取方法的处理流程图；

图2为实施例1公开的基于等价语义的零样本关系抽取方法的原理概览图；

图3为实施例1公开的基于等价语义的零样本关系抽取方法的步骤图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

在该实施例中，公开了基于等价语义的零样本关系抽取方法，如图1-图3所示，包括：

S1：获取待识别样本。

在待识别样本中包含句子实例S和关系描述D。

如其中一个句子实例S=( I have loved apples since I was a child.)，关系描述D=(What fruit does someone like to eat.)。

S2：提取待识别样本中句子实例的语义特征向量及关系描述的语义特征向量。

其中，句子实例的语义特征向量包括句子实例的头实体语义嵌入向量、尾实体语义嵌入向量/>和全局语义嵌入向量/>；

关系描述的语义特征向量包括关系描述的头实体语义嵌入向量、尾实体语义嵌入向量/>和全局语义嵌入向量/>。

提取待识别样本中句子实例的语义特征向量及关系描述的语义特征向量的过程包括：

S21：获取句子实例中各单词的嵌入特征向量，和关系描述中各单词的嵌入特征向量/>。

本实施例通过预训练语言模型对句子实例和关系描述进行编码，获得句子实例中各单词的嵌入特征向量，和关系描述中各单词的嵌入特征向量/>，该过程可以被表述为：；/>，其中，/>代表预训练语言模型，/>代表句子实例中第i个单词的嵌入表示，/>代表关系描述中第i个单词的嵌入表示。

优选的，预训练语言模型可以采用BERT模型。

S22：根据句子实例中各单词的嵌入特征向量，获得句子实例的语义总结向量，根据关系描述中各单词的嵌入特征向量/>，获得关系描述的语义总结向量/>。

其中，根据各单词的嵌入特征向量，获取语义总结向量的过程包括：

S221：初始化语义总结向量；

S222：根据各单词的嵌入特征向量，确定词贡献向量；

S223：分别使用词贡献向量和初始化的语义总结向量，对各单词的嵌入特征向量进行总结，获得词贡献特征嵌入和全局语义特征嵌入；

S224：计算词贡献特征嵌入和全局语义特征嵌入之间的距离，使用margin loss（边界损失）优化距离，当损失降至最低时，获得最终的语义总结向量。

以根据句子实例中各单词的嵌入特征向量，获得句子实例的语义总结向量/>为例，说明根据句子实例中各单词的嵌入特征向量，获取句子实例的语义总结向量的过程，具体为：

获取句子实例中各个单词的梯度信息。让预训练语言模型经过一次前向计算和后向传播，就可以得到各个单词的梯度信息。前向计算采用交叉熵多分类实现。后向传播即使用微积分中的链式法则求导梯度。该过程可以被表述为：，。其中，/>代表前向计算，/>代表后向计算，/>代表句子实例中第i个单词的梯度信息，/>代表真实标签，/>代表预测值，代表交叉熵损失函数，/>代表后向传播算法，/>代表模型预测值与真实值之间的差距。

根据句子实例中各个单词的嵌入特征向量和梯度信息，获取句子实例中各个单词的贡献度。然后对句子实例中所有单词的贡献度进行归一化，得到词贡献向量。该过程可以被表述为：，/>。其中，代表句子实例中第i个单词的贡献度，/>为词贡献向量，n为句子实例中单词的个数。

基于获得的单词贡献度，训练一个可以精确提炼句意的语义总结向量，具体实现过程如下：

①随机初始化一个正态分布的句子实例的语义总结向量。

②使用词贡献向量con对句子实例中各单词的嵌入特征向量的特征进行总结，突出句子实例中有积极贡献的词特征，忽略句子中消极贡献的词特征，获得句子实例的词贡献特征嵌入/>。

③使用初始化的语义总结向量也对句子实例中各单词的嵌入特征向量/>的特征进行总结，得到句子实例的全局语义特征嵌入/>。

④计算句子实例的词贡献特征嵌入与全局语义特征嵌入/>之间的距离，使用margin loss（边界损失函数）优化词贡献向量和语义总结向量的距离，随着损失的降低，不断优化语义总结向量smy的语义总结能力，当损失降至最低时的语义总结向量为最终的语义总结向量。

上述过程可以被表述为：。其中，/>代表词贡献特征嵌入/>与全局语义特征嵌入/>之间的距离，随着模型的训练，逐渐变小，/>的语义总结能力也逐渐变强。选取距离最小对应的语义总结向量，为最终的语义总结向量。

根据关系描述中各单词的嵌入特征向量，获得关系描述的语义总结向量的过程，与根据句子实例中各单词的嵌入特征向量，获得句子实例的语义总结向量的过程相同，故不再进行详细论述。

S23：从句子实例中各单词的嵌入特征向量中，提取句子实例的头实体语义嵌入向量和尾实体语义嵌入向量/>，从关系描述中各单词的嵌入特征向量中，提取关系描述的头实体语义嵌入向量/>和尾实体语义嵌入向量/>。该过程可以被描述为：；/>；/>；/>。其中，/>代表句子实例中头实体对应的单词嵌入，/>代表句子实例中尾实体对应的单词嵌入，/>代表关系描述中头实体对应的单词嵌入，/>代表关系描述中尾实体对应的单词嵌入，FC代表全连接层。

S24：根据句子实例的语义总结向量，提取句子实例的全局语义嵌入向量/>，根据关系描述的语义总结向量/>，提取关系描述的全局语义嵌入向量/>。该过程可以被表述为：/>；/>。

将拼成一个维度为/>的二维矩阵，即形成原始语义空间下句子实例的语义特征向量/>。该过程可以被表述为：/>。其中，/>代表向量的堆叠函数，/>是预训练语言模型的隐藏维度。

将拼成一个维度为/>的二维矩阵，即形成原始语义空间下关系描述的语义特征向量/>。该过程可以被表述为：。

S3：对句子实例的语义特征向量和关系描述的语义特征向量，均进行正交变换，对应获得句子语义等价向量和关系语义等价向量。具体的，通过将语义特征向量左乘左正交变换矩阵，右乘右正交变换矩阵，获得该语义特征向量对应的语义等价向量的方式，对句子实例的语义特征向量和关系描述的语义特征向量进行正交变换。

本实施例初始化全局的左正交变换矩阵和右正交变换矩阵/>，包括：初始化一个维度为/>的左正交变换矩阵/>，/>；初始化一个维度为的右正交变换矩阵/>，/>。其中，/>是预训练语言模型的隐藏维度。

句子实例的语义特征向量通过左乘变换矩阵/>和右乘变换矩阵/>的操作，实现原始语义空间的等价变换，得到等价语义空间下句子实例的特征向量集合，称为句子语义等价向量/>。该过程可以被表述为：/>。

关系描述的向量集合通过左乘变换矩阵/>和右乘变换矩阵/>的操作，实现原始语义空间的等价变换，得到等价语义空间下关系描述的特征向量集合，称为关系语义等价向量/>。该过程可以被表述为：/>。

S4：计算句子实例的语义特征向量和关系描述的语义特征向量的匹配分数，及句子语义等价向量和关系语义等价向量的匹配分数。

本实施例通过计算两个向量之间的余弦距离，获得两个向量的匹配分数，具体的：计算句子实例的语义特征向量和关系描述的语义特征向量的余弦距离，将该余弦距离作为句子实例的语义特征向量和关系描述的语义特征向量的匹配分数；计算句子语义等价向量和关系语义等价向量的余弦距离/>，将该余弦距离作为句子语义等价向量和关系语义等价向量的匹配分数。

S5：将两种匹配分数加权求和，获得句子实例和关系描述的预测分数；根据句子实例和关系描述的预测分数，确定句子实例和关系描述的预测关系。

其中，获得句子实例和关系描述的预测分数的过程可以被表述为： = 。其中，/>是超参数，P是句子实例和关系描述各关系的预测分数集合。

本实施例通过softmax函数对句子实例和关系描述的预测分数进行识别，确定句子实例和关系描述的预测关系，该过程可以表述为：/>。

为了验证本实施例公开方法的有效性，使用FewRel和Wiki-ZSL数据集，对本实施例公开方法与现有的分别采用基于BERT的关系分类模型（R-BERT）、基于阅读理解任务的零样本关系抽取模型（ESIM）、从关系描述中学习表征的零样本关系抽取模型（ZS-BERT）、基于提示学习的零样本关系抽取模型（REPrompt）和对关系模式进行细粒度建模的零样本关系抽取模型（RE-Matching）进行关系抽取的基线方法进行对比试验，FewRel数据集由Wikipedia上的100种关系中的70,000个句子组成，并由众筹工作者进行注释。标准FewRel遵循训练/验证/测试集对应64/16/20个关系类型的设置，其中训练和验证集可以公开访问，而测试集不能。Wiki-ZSL数据集包含来自维基百科的 113 个关系和 94,383 个实例，由远程监督注释完成。数据集分为三个子集：训练集/验证集/测试集，分别对应98/5/10个关系类型。试验结果如表1所示，在表1中用OUR表示本实施例公开方法。其中，粗体表示最佳分数，下划线表示第二最佳分数。在F1指标方面，可以看出本实施例公开方法显著优于其他基线方法，在Wiki-ZSL和FewRel数据集上分别提升了1.44%和2.85%。在精确率指标方面，本实施例公开方法表现出优秀的性能，大幅优于现有的基线方法，这表明本实施例公开方法充分提炼了单词的贡献度，有侧重的总结了不同关系标签的语义特征。在召回率指标方面，本实施例公开方法虽然略低于REPrompt，但仍然稳定发挥，优于其他基线模型。

表1试验结果

本实施例公开方法在获取到句子实例和关系描述的语义特征向量后，分别对两个语义特征向量进行了正交变换，获得对应的语义等价向量，在进行关系预测时，分别计算了两个语义特征向量的匹配分数，和两个语义等价向量的匹配分数，实现了从不同的视角下比较句子实例和关系描述的匹配分数，对两个匹配分数进行加权求和，获得预测分数，进而根据预测分数确定预测关系，保证了关系预测的准确性，解决当前语义匹配模式单一的问题。

本实施例公开方法，还在确定句子实例和关系描述的全局语义嵌入时，首先根据各单词的贡献度确定了词贡献向量，进而通过学习词贡献向量与语义总结向量之间的距离，获得最终的语义总结向量，最终使得经过语义总结向量总结的全局语义嵌入中包含丰富上下文信息的精确语义，减少无关上下文对句意的影响，当利用该语义总结向量进行关系预测时，提高了关系预测的准确性。

实施例2

在该实施例中，公开了基于等价语义的零样本关系抽取系统，包括：

数据获取模块，用于获取待识别样本；

本发明还公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的基于等价语义的零样本关系抽取方法所述的步骤。

本发明还公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的基于等价语义的零样本关系抽取方法所述的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的保护范围之内。

Claims

1.基于等价语义的零样本关系抽取方法，其特征在于，包括：

获取待识别样本；

根据句子实例和关系描述的预测分数，确定句子实例和关系描述的预测关系；

句子实例的语义特征向量包括句子实例的头实体语义嵌入向量、尾实体语义嵌入向量和全局语义嵌入向量；

关系描述的语义特征向量包括关系描述的头实体语义嵌入向量、尾实体语义嵌入向量和全局语义嵌入向量；

S21：获取句子实例中各单词的嵌入特征向量，和关系描述中各单词的嵌入特征向量；

通过预训练语言模型对句子实例和关系描述进行编码，获得句子实例中各单词的嵌入特征向量，和关系描述中各单词的嵌入特征向量/>，该过程可以被表述为：；/>，其中，/>代表预训练语言模型，/>代表句子实例中第i个单词的嵌入表示，/>代表关系描述中第i个单词的嵌入表示；

S22：根据句子实例中各单词的嵌入特征向量，获得句子实例的语义总结向量/>，根据关系描述中各单词的嵌入特征向量/>，获得关系描述的语义总结向量/>；

S221：初始化语义总结向量；

S222：根据各单词的嵌入特征向量，确定词贡献向量；

S224：计算词贡献特征嵌入和全局语义特征嵌入之间的距离，使用边界损失优化距离，当损失降至最低时，获得最终的语义总结向量；

根据句子实例中各单词的嵌入特征向量，获取句子实例的语义总结向量的过程，具体为：

获取句子实例中各个单词的梯度信息；让预训练语言模型经过一次前向计算和后向传播，得到各个单词的梯度信息；前向计算采用交叉熵多分类实现；后向传播即使用微积分中的链式法则求导梯度；该过程可以被表述为：，；其中，/>代表前向计算，/>代表后向计算，/>代表句子实例中第i个单词的梯度信息，/>代表真实标签，/>代表预测值，代表交叉熵损失函数，/>代表后向传播算法， />代表模型预测值与真实值之间的差距；

根据句子实例中各个单词的嵌入特征向量和梯度信息，获取句子实例中各个单词的贡献度；然后对句子实例中所有单词的贡献度进行归一化，得到词贡献向量；该过程可以被表述为：，/>；其中，/>代表句子实例中第i个单词的贡献度，/>为词贡献向量，n为句子实例中单词的个数；

①随机初始化一个正态分布的句子实例的语义总结向量；

②使用词贡献向量con对句子实例中各单词的嵌入特征向量的特征进行总结，突出句子实例中有积极贡献的词特征，忽略句子中消极贡献的词特征，获得句子实例的词贡献特征嵌入/>；

③使用初始化的语义总结向量也对句子实例中各单词的嵌入特征向量/>的特征进行总结，得到句子实例的全局语义特征嵌入/>；

④计算句子实例的词贡献特征嵌入与全局语义特征嵌入/>之间的距离，使用边界损失函数优化词贡献向量和语义总结向量的距离，随着损失的降低，不断优化语义总结向量smy的语义总结能力，当损失降至最低时的语义总结向量为最终的语义总结向量；

上述过程可以被表述为：；其中，/>代表词贡献特征嵌入/>与全局语义特征嵌入/>之间的距离，随着模型的训练，/>逐渐变小，/>的语义总结能力也逐渐变强；选取距离最小对应的语义总结向量，为最终的语义总结向量；

根据关系描述中各单词的嵌入特征向量，获得关系描述的语义总结向量的过程，与根据句子实例中各单词的嵌入特征向量，获得句子实例的语义总结向量的过程相同；

S23：从句子实例中各单词的嵌入特征向量中，提取句子实例的头实体语义嵌入向量和尾实体语义嵌入向量/>，从关系描述中各单词的嵌入特征向量中，提取关系描述的头实体语义嵌入向量/>和尾实体语义嵌入向量/>；该过程可以被描述为：；/>；/>；；其中，/>代表句子实例中头实体对应的单词嵌入，/>代表句子实例中尾实体对应的单词嵌入，/>代表关系描述中头实体对应的单词嵌入，/>代表关系描述中尾实体对应的单词嵌入，FC代表全连接层；

S24：根据句子实例的语义总结向量，提取句子实例的全局语义嵌入向量/>，根据关系描述的语义总结向量/>，提取关系描述的全局语义嵌入向量/>；该过程可以被表述为：；/>；

将拼成一个维度为/>的二维矩阵，即形成原始语义空间下句子实例的语义特征向量/>；该过程可以被表述为：/>；其中，/> 代表向量的堆叠函数，/>是预训练语言模型的隐藏维度；

将拼成一个维度为/>的二维矩阵，即形成原始语义空间下关系描述的语义特征向量/>；该过程可以被表述为：/>。

2.如权利要求1所述的基于等价语义的零样本关系抽取方法，其特征在于，通过计算两个向量之间的余弦距离，获得两个向量的匹配分数。

3.如权利要求1所述的基于等价语义的零样本关系抽取方法，其特征在于，将语义特征向量左乘左正交变换矩阵，右乘右正交变换矩阵，获得该语义特征向量对应的语义等价向量。

4.如权利要求1所述的基于等价语义的零样本关系抽取方法，其特征在于，通过softmax函数对句子实例和关系描述的预测分数进行识别，确定句子实例和关系描述的预测关系。

5.基于等价语义的零样本关系抽取系统，基于如权利要求1-4任一项所述的基于等价语义的零样本关系抽取方法，其特征在于，包括：

数据获取模块，用于获取待识别样本；

6.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-4任一项所述的基于等价语义的零样本关系抽取方法的步骤。

7.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-4任一项所述的基于等价语义的零样本关系抽取方法的步骤。