CN115687609A

CN115687609A - 一种基于Prompt多模板融合的零样本关系抽取方法

Info

Publication number: CN115687609A
Application number: CN202211082703.4A
Authority: CN
Inventors: 张春; 张宁; 许亮
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2023-02-03

Abstract

本发明提供了一种基于Prompt多模板融合的零样本关系抽取方法。该方法包括：将需要抽取关系的文本数据与预先定义的Prompt模板进行组合后，输入到预训练语言模型中，输出完形填空任务的结果，将这个结果的词嵌入输出转换成关系表示；将需要抽取关系的文本数据按照重复操作输入到不同类型的预训练语言模型中，得到多种关系表示，根据关系描述文本中的词性与不同Prompt模板之间的关系权重，对多种关系表示进行融合；将融合后的多种关系表示与关系描述文本生成的词嵌入进行欧式距离的比较，将距离转化为对应关系的概率，输出最大概率的所述需要抽取关系的文本数据的零样本关系类别。本发明方法优化了模型生成表示的能力，提高了零样本关系抽取任务的F1值。

Description

一种基于Prompt多模板融合的零样本关系抽取方法

技术领域

本发明涉及人工智能与自然语言技术领域，尤其涉及一种基于Prompt多模板融合的零样本关系抽取方法。

背景技术

随着互联网技术的迅速发展，人们需要处理的文本数据规模呈现指数增长。其中，关系抽取是自然语言处理领域的一项重要的基础工作，旨在从非结构化文本数据中提取实体对间的关系，支撑了包括知识图谱构建、智能问答等多个下游任务。目前大部分的关系抽取算法只能识别在训练过程中已知的关系类别。然而，在现实世界中显然无法为所有关系均收集充足的训练样本，为了解决这一困境，零样本关系抽取算法应运而生。

现有技术中的零样本关系抽取方法大致可以分成三类：有监督的关系抽取模型、文本蕴含模型和关系的表示生成模型。将有监督的关系抽取模型转换成零样本的关系抽取的方法就是利用有监督学习构建的关系抽取模型然后通过不同的方式从输入句子中提取特征来进行后预测。文本蕴含模型的方法是将零样本关系抽取任务转换为文本蕴涵任务，通过判断句子和关系描述是否是有语义蕴含的关系来判断所属关系类别。关系的表示生成模型分成大部分都使用了预训练语言模型。具体来说就是是通过模型生成句子中的关系表示，将句子的表示和类的表示进行距离比较，进而选出最合适的类别。

上述现有技术中的零样本关系抽取方法的缺点为：基于有监督的关系抽取模型的方法因为模型设计没有考虑零样本抽取问题，所以实验性能会较差；

基于文本蕴含模型的方法通常的方法是将零样本关系抽取任务设计成不同的任务形式。这种策略通常无法形成有效的关系语义表示空间，且任务与任务之间存在一定本质差距，影响模型的性能表现；

关系的表示生成的模型中，使用由于预训练语言模型和下游任务的训练目标不同，训练过程会存在一定的不稳定性。

发明内容

本发明的实施例提供了一种基于Prompt多模板融合的零样本关系抽取方法，以实现有效地提取文本数据的零样本关系。

为了实现上述目的，本发明采取了如下技术方案。

一种基于Prompt多模板融合的零样本关系抽取方法，包括：

构造完形填空任务方式的预训练语言模型，将需要抽取关系的文本数据与预先定义的Prompt模板进行组合后，输入到预训练语言模型中，所述预训练语言模型输出完形填空任务的结果，将这个结果的词嵌入输出转换成关系表示；

将所述需要抽取关系的文本数据按照重复操作输入到不同类型的预训练语言模型中，得到多种关系表示，根据关系描述文本中的词性与不同Prompt模板之间的关系权重，对所述多种关系表示进行融合；

将融合后的多种关系表示与关系描述文本生成的词嵌入进行欧式距离的比较，将距离转化为对应关系的概率，输出最大概率的所述需要抽取关系的文本数据的零样本关系类别。

优选地，所述的构造完形填空任务方式的预训练语言模型，将需要抽取关系的文本数据与预先定义的Prompt模板进行组合后，输入到预训练语言模型中，所述预训练语言模型输出完形填空任务的结果，将这个结果的词嵌入输出转换成关系表示，包括：

将预训练语言模型设置为完形填空任务的方式，将需要抽取关系的文本数据与预先定义的Prompt模板进行组合，然后输入到预训练语言模型中，预训练语言模型输出完形填空任务的结果，将这个结果的词嵌入输出转换成关系表示向量，将所述关系表示向量与各个类表示向量之间的欧式距离，根据欧式距离的远近对各个关系表示向量进行分类。

优选地，所述的将需要抽取关系的文本数据与预先定义的Prompt模板进行组合，包括：

将每一个要抽取关系的句子(x，s，o)都填入预先定义的Prompt模板T_n(s，o)中，转换成一个新的token序列，每一个token序列表示一个文本单元或[MASK]等补充符号；

T_n(s，o)＝[t₀...t_p]s[t_p+1...t_q]o[t_q+1，，t_|T(s，o)|-1] (1)

其中

是构造出的新输入,T_n(s，o)是在常用的Prompt模板库中选择的模板，t_num是模板中的词，满足0≤num≤|T_n(s，o)|-1，其中|T_n(s，o)|表示模板的长度0≤p＜q＜T_n(s，o)，组合模板的同时还需要选择模板中α位置的β长度的token序列来进行掩盖，即T_n(x)_α：α+β＝[MASK]₀...[MASK]_β-1，β取1，SEP表示句子的分割符，就是分割模板和表示句子结束的标志。

优选地，所述的根据关系描述文本中的词性与不同Prompt模板之间的关系权重，对所述多种关系表示进行融合，包括：

在训练阶段学习关系描述文本中的词性与Prompt模板之间的关系权重，在测试阶段通过学习到的词性与Promp模板之间的权重来给予不同Promp模板以合适的权重；

处理关系描述来获得T_n模板下每一种关系的描述文本中所代表其词性的向量，

其中|R|是关系类别的种类数，H_|R|∈{h_NN，h_IN，...，h_JJ}，H_|R|∈R^γ×d，γ为词性标签的种类数，d′是向量的维度，h_NN是代表词性为NN的特征向量，通过判断关系描述文本的词性给每个关系都赋值一个权重向量P_pos。

其中P_pos＝{P₁，P₂，...，P_n}，P_pos∈R^n×|R|其中n是模板的种类数目，|R|是关系类别的种类数，P_n代表第n个关系模板所得到的各个关系的权重向量，f是前馈神经网络，W_H∈Rⁿ ^×|R|和b_H∈R^n×|R|是学习的参数矩阵，tanh表示双曲正切，是神经网络中激活函数的一种；

根据关系描述文本中的词性与不同Prompt模板之间的关系权重，对所述多种关系表示进行融合。

优选地，所述的方法还包括：

通过最小化损失的方法来优化预训练语言模型，如公式(3)所示：

其中，当|R|为要分类的关系种类数，当真实值标签为j时k_j＝1，否则，k_j＝0，P_m，j是指在第m个模板对第j号关系类别的参数矩阵，f_distance(·)表示欧式距离的计算公式，

指的是句子输入到预训练语言模型后生成的关系表示，表示描述文本经过预训练语言模型生成的词向量，q_j表示标签为j的词向量。

由上述本发明的实施例提供的技术方案可以看出，本发明提出了一种多Prompt模板融合方法，该方法根据关系描述文本的词性来确定集成不同Prompt模板的权重，以此优化了模型生成表示的能力，提高了零样本关系抽取任务的F1值。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多Prompt模板融合零样本关系抽取模型结构图；

图2为本发明实施例提供的一种单个Prompt模板零样本关系抽取模型结构图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

实施例一

本发明提出了一种融合多Prompt模板的零样本关系抽取方法。该方法使用Prompt范式来进行关系抽取，即将Prompt范式应用到关系抽取任务中，使用多Prompt模板融合方法可以借助Prompt范式来激活预训练语言模型所保存的知识。同时，还可以解决不同模板生成的表示空间差异较大的问题。零样本关系抽取的核心思想是希望让计算机模拟人类的推理方式，从句子中识别从未见过的关系类别。Prompt模板是指一些预先设计好的句子或词，其会与需要预测的句子一起输入到模型中。

本发明方法将零样本关系抽取任务定义为掩码语言预测任务，把词嵌入与语义关系的表示空间进行对齐，将不同模板输出的词向量与关系描述文本的语义向量进行比较来判断关系类别，有效提升了零样本关系抽取的性能。同时还通过引入描述文本的词性信息，来进行多Prompt模板的融合的关系抽取模型，以此来实现了更稳定的零样本关系抽取性能提升。

本发明的实施例提供了一种基于Prompt多模板融合的零样本关系抽取方法的处理流程包括以下步骤：

步骤S10、基于Prompt范式的关系抽取层。

将预训练语言模型设置为更加擅长的完形填空任务的方式。预训练语言模型是指通过无监督学习方法对大量语料进行学习的一种语言模型。以预训练语言模型BERT为例，其就是利用完形填空任务和下一句预测任务来对大量语料进行学习的模型。除了BERT以外还有谷歌的GPT系列模型与脸书AI的BART模型。

将需要抽取关系的文本数据与预先定义的Prompt模板进行组合，然后输入到预训练语言模型中。预训练语言模型会输出完形填空任务的结果，将这个结果的词嵌入输出转换成关系表示。具体来说，完型填空会输出被掩盖位置单词，我们利用这个被掩盖的单词的词嵌入来充当表示关系的关系向量。例如：输入句子“[CLS]…Mississippi River bridgeto replace the deteriorating Cape Girardeau Bridge.[SEP]The cape Girardeaubridge[MASK]the Mississippi River.[SEP]”。预训练语言模型会输出填充被掩盖位置的词“crosses”。将这个词的词嵌入向量当做关系表示向量。将需要预测的句子输入到该模型中，计算得到的关系表示向量与各个类表示向量之间的欧式距离，然后根据欧式距离的远近对各个关系表示向量进行分类。

步骤S20、基于词性的多Prompt模板融合模层。

将需要抽取关系的文本数据按照步骤S10的重复操作输入到不同类型的预训练语言模型中，得到多个关系表示向量。然后根据关系描述文本中的词性与不同Prompt模板之间的关系权重，来对不同的预训练语言模型输出的关系表示向量进行融合。

步骤S30、结果输出模层

将融合后的关系表示向量与关系描述文本生成的词嵌入向量进行欧式距离的比较。然后将距离转化为对应关系的概率，最后输出最大概率的需要抽取关系的文本数据的零样本关系类别。

上述步骤S10具体包括：Prompt模板设计和遮蔽语言模型(masked languagemodel，MLM)预测。

本发明将每一个要抽取关系的句子(x，s，o)都填入预先定义的Prompt模板中，从而转换成一个新的token序列，每一个token序列表示一个文本单元或[MASK]等补充符号。

T_n(s，o)＝[t₀...t_p]s[t_p+1...t_q]o[t_q+1，，t_|T(s，o)|-1] (1)

其中

是构造出的新输入,这部分主要是将输入句子和Prompt模板T_n(s，o)组合在一起。T_n(s，o)是在常用的Prompt模板库中选择的模板，t_num是模板中的词，满足0≤num≤|T_n(s，o)|-1，其中|T_n(s，o)|表示模板的长度0≤p＜q＜T_n(s，o)。组合模板的同时还需要选择模板中α位置的β长度的token序列来进行掩盖，即f_distance(·)T_n(x)_α，α+β＝[MASK]₀...[MASK]_β-1，这里β取1。[SEP]表示句子的分割符，具体来说就是分割模板和表示句子结束的标志。

上述步骤S20具体包括：基于词性的多Prompt模板的融合方法。本发明在训练阶段学习关系描述文本中的词性与Prompt模板之间的关系权重，在测试阶段通过学习到的词性与Promp模板之间的权重来给予不同Promp模板以合适的权重。因为在训练集和测试集中词性的分布的区别很小，这种通过描述文本的词性为桥梁来连接训练集和测试集的方式，很好地解决了模型直接根据关系描述文本来选择模板中出现的问题。

首先处理关系描述来获得T_n模板下每一种关系的描述文本中所代表其词性的向量

其中|R|是关系类别的种类数。H_|R|∈{h_NN，h_IN，...，h_JJ},H_|R|∈R^γ×d′，γ为词性标签的种类数，d′是向量的维度，h_NN是代表词性为NN的特征向量。通过判断关系描述文本的词性给每个关系都赋值一个权重向量P_pos。

其中P_pos＝{P₁，P₂，...，P_n},P_pos∈R^n×|R|其中n是模板的种类数目，|R|是关系类别的种类数。P_n代表第n个关系模板所得到的各个关系的权重向量。f是前馈神经网络，R^n×|R|和b_H∈R^n×|R|都是可以学习的参数矩阵。tanh表示双曲正切，是神经网络中激活函数的一种。

上述步骤S30具体包括：模型将输入(s，r，o)转化为

后输入到预训练语言模型中得到MLM任务输出的结果充当关系表示。通过使用Prompt-fix LM Tunning的方式进行训练，在数据量有限的时候，直接使用语言模型的参数。在数据量充足的时候，让预训练语言模型进行微调，通过这种方式来使模型更适合零样本学习任务。句子在不同模板下生成的不同的词向量会和每一个候选关系描述的向量表示进行距离度量，来判断输入实例是属于哪一种关系，在该基础上，进一步的构造出损失函数，定义基于距离的优化方法，通过最小化损失的方法来优化该模型。如公式所示。

其中当|R|为要分类的关系种类数，当真实值标签为j时k_j＝1，否则，k_j＝0。P_m，j是指在第m个模板对第j号关系类别的参数矩阵。

表示测量距离的函数，在本专利中就是欧式距离的计算公式。

指的是句子输入到模型后生成的关系表示，q表示描述文本经过预训练语言模型生成的词向量，q_j表示标签为j的词向量。

实施例二

本发明实施例提供的一种多Prompt模板融合零样本关系抽取模型结构图如图1所示，单个Prompt模板零样本关系抽取模型结构图如图2所示。本发明主要由基于Prompt的关系抽取层、多Prompt模板融合层和结果输出层组成。本发明的实验数据来是FewRel，该数据集包含80个关系，其中65个关系用于模型训练，15个关系用于模型测试。每种关系具有700个远程监督生成的样本实例，这些实例中包含主体和客体构成的实体对。此外，每个关系的文本描述由关系名称和关系描述构成。步骤如下：

数据预处理阶段：将要抽取关系的句子和其对应的主体与客体组合填入到不同的模板中，并输入到模型中。

模型的训练步骤如下：

(1)多Prompt模板融合层：首先处理关系描述来获得T_n模板下每一种关系的描述文本中所代表其词性的向量

(2)，然后通过判断关系描述文本的词性给每个关系都赋值一个权重向量P_pos·

(3)Prompt模板的关系比较层：使用欧式距离对MLM生成的词向量与关系描述文本的词向量进行比较。

(4)结果输出层：将使用不同模板得出的结果加权求和后并输入到输出层，对结果进行解码。

按照上述步骤，将本发明与常用的零样本关系抽取模型进行对比，包括有监督的关系抽取模型Att-Bi-LSTM和R-BERT。使用Bi-LSTM对输入序列进行编码的CIM和ESIM以及通过模型生成句子中的关系表示，将句子的表示和类的表示进行距离比较，进而选出最合适的类别的ZS-BERT模型。采用准确率、召回率和F1值作为评价指标，对比结果见表1。

表1本发明模型与其他模型在Boson数据集上的实验结果

	Att-Bi-LSTM	R-BERT	ESIM	ZS-BERT	Ours
						准确率P(％)	38.13	32.25	36.97	35.54	59.82
召回率R(％)	32.05	25.58	32.51	38.19	66.07
						F1(％)	34.82	28.53	34.60	36.82	62.79

实验结果表明：

通过将本模型与现有的实体识别模型进行对比，可以看到本发明所提模型在实验中获取了最高的识别性能，这说明了本专利设计的模型的有效性。该模型存在召回率较高，精确度却比较低的情况，这说明了该模型对某些类特别敏感，可以很好地识别到该目标类。

综上所述，本发明实施例提出了一种基于多Prompt模板的零样本关系抽取模型。该方法将零样本学习关系抽取任务转化为关系的表示生成任务，并借助Prompt范式来激活预训练语言模型所保存的知识。同时，针对不同模板生成的表示空间差异较大的问题，本发明提出了一种多Prompt模板融合方法，该方法根据关系描述文本的词性来确定集成不同Prompt模板的权重，以此优化了模型生成表示的能力，提高了零样本关系抽取任务的F1值。

该方法将下游任务建模为预训练语言模型更加擅长的完形填空任务的方式，通过这个方法来降低预训练语言模型在训练阶段和下游任务微调阶段的差别，达到降低模型输出关系表征所需要的数据量的目的。然后直接将不同模板生成的词向量作为关系表示，分别将这些表示与关系描述经过预训练语言模型后生成的词向量进行比较。在上述的基础上引入引入描述文本的词性信息，以此为基础来融合多Prompt模板的关系抽取模型，得到不同模板输出结果的权重。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于Prompt多模板融合的零样本关系抽取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述的构造完形填空任务方式的预训练语言模型，将需要抽取关系的文本数据与预先定义的Prompt模板进行组合后，输入到预训练语言模型中，所述预训练语言模型输出完形填空任务的结果，将这个结果的词嵌入输出转换成关系表示，包括：

3.根据权利要求2所述的方法，其特征在于，所述的将需要抽取关系的文本数据与预先定义的Prompt模板进行组合，包括：

T_n(s，o)＝[t₀...t_p]s[t_p+1...t_q]o[t_q+1，，t_|T(s，o)|-1] (1)

其中

4.根据权利要求2或者3所述的方法，其特征在于，所述的根据关系描述文本中的词性与不同Prompt模板之间的关系权重，对所述多种关系表示进行融合，包括：

其中P_pos＝{P₁，P₂，...，P_n}，P_pos∈R^n×|R|其中n是模板的种类数目，|R|是关系类别的种类数，P_n代表第n个关系模板所得到的各个关系的权重向量，f是前馈神经网络，W_H∈R^n×|R|和b_H∈R^n×|R|是学习的参数矩阵，tanh表示双曲正切，是神经网络中激活函数的一种；

5.根据权利要求4所述的方法，其特征在于，所述的方法还包括：