CN117131873A

CN117131873A - 一种基于对比学习的双编码器预训练小样本关系抽取方法

Info

Publication number: CN117131873A
Application number: CN202311096357.XA
Authority: CN
Inventors: 严玺; 刘峤; 骆妲; 张志鹏; 刘延; 甘洋镭; 侯睿; 代婷婷; 佟飘
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-11-28

Abstract

本发明公开了一种基于对比学习的双编码预训练小样本关系抽取方法，属于小样本关系抽取技术领域。本发明所述方法基于维基百科构建的知识库，利用双编码器架构分别将文本信息和关系信息(类型标签、描述)映射到相同的向量表示空间；通过对比学习最大限度提高文本语义表示及其对应关系表示之间的相似性，以促进文本信息编码器和关系信息编码器之间的相互学习，进而生成更好的语义表示，提升小样本关系抽取性能。此外，预训练的两个编码器也适用于不需要任何特定数据集训练的零样本关系抽取领域。

Description

一种基于对比学习的双编码器预训练小样本关系抽取方法

技术领域

本发明涉及小样本关系抽取技术领域，具体涉及一种基于对比学习的双编码预训练小样本关系抽取方法。

背景技术

关系抽取技术是在大量异构数据的情景中提取实体间的关系，实现了将海量无结构文本转化为格式统一的关系数据的功能，该功能为知识图谱构建、推荐系统、智能问答和信息检索等下游任务提供重要支持。然而，随着大数据时代的来临，异构数据不断增长，人工标注虽可以获得高质量数据，但成本较高且语料的覆盖面窄，对于医疗等某些特定领域，需要更高昂的标注成本。为此，学术界提出了小样本关系抽取任务，即研究如何充分利用少量标注样本进行训练，使得模型具有更好的泛化能力。

进一步地，现有研究多采用预训练的关系抽取框架来获得更好的文本表示，并将预训练的参数当作下游任务的编码器的初始参数辅助训练，以优化小样本关系抽取任务。然而，现有的预训练框架多采用标签不可知的模型来直接比较文本上下文句子之间的相似性，忽略了关系本身的信息(包含关系语义知识的关系标签、描述)。因此，本专利提出了一种基于对比学习的双编码预训练小样本关系抽取方法，分别在句子信息和关系信息两个维度构建了两个不同的预训练编码器，来丰富输入文本信息和关系信息的语义表示，在微调中结合上述两种类型信息可以显著提高关系抽取模型在低资源场景下的性能。

发明内容

本发明的目的在于解决现有的预训练框架多采用标签不可知的模型来直接比较文本上下文句子之间的相似性，忽略了关系本身的信息(包含关系语义知识的关系标签、描述)，从而导致学习的语义表示过度拟合训练数据，进而导致模型泛化性不佳。因此本发明基于维基百科构建的知识库，利用双编码器架构分别将文本信息和关系信息(类型标签、描述)映射到相同的向量表示空间；通过对比学习最大限度提高文本上下文表示及其对应关系表示之间的相似性，以促进文本信息编码器和关系信息编码器之间的相互学习，进而生成更鲁棒的关系表示，提升小样本关系抽取性能，从而解决了上述背景技术中提到的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于对比学习的双编码预训练小样本关系抽取方法，所述关系抽取方法具体步骤如下：

步骤S10：根据英语维基百科语料库，构造关系标签概念字典，与训练语句共同构建关联知识库；

步骤S20：创建句子语义信息编码器，生成句子语义表示；

步骤S30：创建关系语义信息编码器，生成关系语义表示；

步骤S40：将S20和S30得到的句子语义表示和关系语义表示进行对比学习，建立预训练语言表示模型；

步骤S50：利用步骤S20和步骤S30中经过预训练的句子语义信息编码器和关系语义信息编码器分别编码句子和关系信息，辅助原型网络进行小样本关系抽取。

优选的，所述步骤S10的具体步骤如下：

步骤S101，从大规模用于小样本关系抽取预训练的数据集中获得原始句子集合sentence_set和对应的关系标注集合label_set。句子集合sentence_set中每个句子的原始表示为S^I＝[t₁,t₂,…，t_n]，0<I<N，n为句子中单词的数量，N表示句子集合中的句子数量。

步骤S102，在维基百科上获取步骤S101中关系标注标注集合label_set中每个关系对应的关系标签与标签描述，将关系标签与对应的关系标签描述拼接起来，构造关系标签概念字典relation_set，其中每条关系的原始表示为R^I＝[label_I，des_I]＝[l₁,l₂,…，l_t]，0<I<N，t为关系信息中单词的数量，N表示关系标签概念字典中的关系数量。步骤S101中的句子集合sentence_set与关系标签概念字典relation_set共同构建预训练的关联知识库。

优选的，所述步骤S20的具体步骤如下：

步骤S201，已知原始句子集合sentence_set中第I个句子的表示为S^I＝[t₁,t₂,…t_a，…，t_b，…，t_c，…，t_d，…，t_n]，t_a，…，t_b与t_c，…，t_d分别为该句子的两个实体。在句子原始表示中插入特殊标记e₁、\e₁、e₂、\e₂分别表示句子实体对中主体和客体的开始和结束位置，形成新的句子表示

步骤S202，构建基于Bert的句子语义信息编码器Φ_s，将上述的句子表示输入到Φ_c中生成句子向量表示/>其中h_cls是句子的全局表示，d是Bert最后一层隐状态输出的维度，得到第i个句子的句子语义表示其中f与g为插入的特殊标签e₁、e₂的对应位置。此外，为了避免过度依赖实体提及的浅层线索，在生成句子表示时使用特殊的[BLANK]令牌以p_blank的概率随机替换上述的实体{t_a，…，t_b}和{t_c，…，t_d}。

优选的，所述步骤S30的具体步骤如下：

步骤S301，构建基于Bert的关系信息编码器Φ_r，已知原始关系概念字典relation_set中第I个关系表示为R^I＝[l₁,l₂,…，l_t]，将R^I输入到Φ_r中生成关系向量表示其中r_cls是关系向量的全局表示，d表示Bert最后一层隐状态输出的维度，得到第i种关系标签对应的关系语义表示其中/>表示将两个向量拼接起来，V_mean表示对关系向量进行平均池化操作后的结果，V_mnean＝meanpool({r₁,r₂,…，r_t})。

优选的，所述步骤S40的具体步骤如下：

步骤S401，将步骤S202和步骤S301得到的N个句子语义表示和关系语义表示和两两组合，生成N²个样本对，从而得到对应的样本矩阵/> 并对这样本矩阵中N²个样本对进行对比学习。具体来说，使得样本矩阵对角线方向上的N个样本对为正样本对，剩余的N²-N个样本对为负样本对。对比学习的目标是最大化N个正样本对的相似度，同时最小化N²-N个负样本对的相似度，其中相似度是通过计算两个表示的余弦相似度得出的。进行对比学习时的损失函数如下：

其中τ是人为定义的超参数，用来调节数据表示在向量空间中分布的均匀性，sim表示计算余弦相似度的函数，exp()表示以e为底的指数函数；

步骤S402，在进行预训练反向传播时需要保持上述步骤S202的句子编码器Φ_s和步骤S301关系编码器Φ_r的语言理解能力，避免灾难性遗忘，因此需要对输入的向量进行掩码训练，即随机选择15％的token进行遮盖，并预测被遮盖的token。两个编码器Φ_s和Φ_r的掩码训练损失函数分别为和/>与对比学习的损失函数加起来组成预训练表示模型的最终损失：

优选的，所述步骤S50的具体步骤如下：

步骤S501，应用小样本任务N-way-K-shot设置，就是将原始数据集分为两个部分：支持集和查询集，支持集中包含N种关系种类，每种关系有K个实例。而查询集中有M个句子实例，但没有句子对应的关系标注。已知其可能所属的关系范围与支持集一致，小样本关系抽取的任务就是要预测查询集中实例所属的关系类型。

步骤S502，基于原型网络的思想进行小样本关系抽取。通过步骤S20和步骤S30的语义信息编码器Φ_s和关系信息编码器Φ_r对支持集中的句子上下文和关系信息进行编码，分别得到句子语义表示和关系信息表示/>再将两种表示融合得到原型表示然后使用句子语义信息编码器Φ_s对查询集中的句子实例q进行编码，得到句子语义表示/>

步骤S503，计算与不同原型表示R_final的余弦相似度来表示查询实例与不同的类原型表示空间的距离，并选择距离最短的原型所对应的关系类别作为预测的结果，该小样本关系抽取任务使用的损失函数如下：

L_CE＝-log(z_y)

其中L_CE代表损失函数，y表示关系标签，z_y的含义与z(y＝i|q_j)相同，表示对待预测句子语义表示进行计算后，该句子属于y关系的概率，i表示/>所属的真实关系类别。

本发明的有益效果是：

附图说明

图1为本发明方法步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：

本发明提供如下技术方案：一种基于对比学习的双编码预训练小样本关系抽取方法。具体步骤以新闻的小样本关系抽取作为实施例。将所述小样本关系抽取方法运用于新闻关系抽取领域具体步骤如下：

步骤1：根据预训练集中所含有的关系标签及其对应标签的英语维基百科语料库，构造关系标签概念字典，与训练语句共同构建关联知识库；

步骤1-1，从预先搜集好的用于小样本关系抽取预训练的新闻数据集中获得新闻原始句子集合sentence_set和对应的关系标注集合label_set。句子集合sentence_set中每个新闻句子的原始表示为S^I＝[t₁，t₂，…，t_n]，0<I<N，n为句子中单词的数量，N表示新闻句子集合中的句子数量。

步骤1-2，在维基百科上获取步骤S101中关系标注集合label_set中每个新闻关系对应的关系标签与标签描述。将关系标签与对应的关系标签描述拼接起来，构造关系标签概念字典relation_set，其中每条关系的原始表示为R^I＝[label_I,des_I]＝[l₁,l₂,…，l_t]，0<I<N，t为关系信息中单词的数量，N表示关系标签概念字典中的关系数量。步骤1-1中的原始新闻语句集合sentence_set与关系标签概念字典relation_set共同构建预训练的新闻的关联知识库。

步骤2：针对预训练数据集中的原始句子集合sentence_set，创建基于Bert模型的句子语义信息编码器，生成句子语义表示；

步骤2-1，已知原始新闻句子集合sentence_set中第1个句子的表示为S^I＝[t₁,t₂,…t_a，…，t_b，…，t_c，…，t_d，…，t_n]，t_a，…，t_b与t_c，…，t_d分别为该句子的两个实体。在新闻句子原始表示中插入特殊标记e₁、\e₁、e₂、\e₂分别表示改句子所蕴含的新闻关系中主体和客体的开始和结束的位置。经过上述操作所形成的强调实体位置的新闻句子表示为

步骤2-2，构建基于Bert的新闻句子语义信息编码器Φ_s，将上述的句子表示输入到Φ_c中生成句子向量表示/>其中h_cls是句子的全局表示，d是Bert最后一层隐状态输出的维度。得到第i个新闻句子的句子语义表示其中f与g为插入的特殊标签e₁、e₂的对应位置。此外，为了避免过度依赖新闻中相关实体提及的浅层线索，在生成句子表示时使用特殊的[BLANK]令牌以p_blank的概率随机替换上述的实体{t_a，…，t_b}和{t_c，…，t_d}。

步骤3：针对预训练数据集中的关系标注集合label_set，创建基于Bert的关系信息编码器，生成关系表示；

步骤3-1，构建基于Bert的新闻关系信息编码器Φ_r，已知原始新闻关系概念字典relation_set中第I个关系表示为R^I＝[l₁,l₂,…，l_t]，将R^I输入到Φ_r中生成新闻关系向量表示其中r_cls是新闻关系向量的全局表示，d表示Bert最后一层隐状态输出的维度。得到第i种新闻关系标签对应的关系语义表示其中/>表示将两个向量拼接起来，V_mmean表示对关系向量进行平均池化操作后的结果，V_mean＝meanpool(

{r₁，r₂，…，r_t})。

步骤4：将步骤2和步骤3得到的句子语义表示和关系语义表示进行对比学习，建立预训练语言表示模型；

步骤4-1，将步骤S202和步骤S301得到的N个新闻句子语义表示和关系表示和/>两两组合，生成N²个样本对，从而得到对应的样本矩阵/>，并对这样本矩阵中N²个样本对进行对比学习。具体来说，使得样本矩阵对角线方向上的N个样本对为正样本对，剩余的N²-N个样本对为负样本对。对比学习的目标是最大化N个正样本对的相似度，同时最小化N²-N个负样本对的相似度，其中相似度是通过计算两个表示的余弦相似度得出的。进行对比学习时的损失函数如下：

步骤4-2，在进行预训练反向传播时需要保持上述步骤S202的新闻句子编码器Φ_s和步骤S301新闻关系编码器Φ_r的语言理解能力，避免灾难性遗忘，因此需要对输入的向量进行掩码训练，即随机选择15％的token进行遮盖，并预测被遮盖的token。两个编码器Φ_s和Φ_r的掩码训练损失函数分别为和/>与对比学习的损失函数加起来组成新闻预训练表示模型的最终损失：

步骤5：利用步骤4得到的两个预训练编码器分别编码句子和关系信息，辅助原型网络进行小样本关系抽取。

步骤5-1，应用小样本任务N-way-K-shot设置，就是将原始的新闻数据集分为两个部分：支持集和查询集。支持集中包含N种关系种类，每种关系有K个新闻实例。而查询集中有M个新闻句子实例，但没有句子对应的关系标注。

步骤5-2，基于原型网络的思想进行小样本关系抽取。通过步骤S20和步骤S30的语义信息编码器Φ_s和关系信息编码器Φ_r对支持集中的句子上下文和关系信息进行编码，分别得到新闻句子语义表示和新闻关系信息表示/>再将两种表示融合得到新闻原型表示然后使用句子语义信息编码器Φ_s对查询集中的句子实例q进行编码，得到句子语义表示/>

步骤5-3，计算与不同新闻原型表示R_final的余弦相似度来表示查询实例与不同类别的新闻原型表示空间的距离，并选择距离最短的新闻原型表示所对应的关系类别作为预测的新闻关系结果。该小样本关系抽取任务使用的损失函数如下：

L_CE＝-log(z_y)

其中L_CE代表损失函数，y表示新闻所属的关系标签。z_y的含义与z(y＝i|q_j)相同，表示对待预测的新闻句子语义表示进行计算后，该句子属于y关系的概率，i表示/>所属的真实关系类别。

基于对比学习的双编码预训练小样本关系抽取方法，包含了一个句子语义信息表示编码器模块、一个关系信息表示编码器、一个句子信息和关系信息对比学习模块，具体为：

创建句子语义信息表示编码器，生成基于语义与实体位置的句子语义信息表示；

创建关系信息表示编码器，生成基于关系标签和其描述的关系信息表示；

建立基于句子语义信息表示和关系信息表示的对比学习机制，提高上述两个编码器生成的句子及其对应关系表示之间的相似度，使得编码器能够学习到两者之间的潜在关联，从而促进编码器间的相互学习，进而生成更好的语义表示，提升小样本或零样本关系抽取性能。

本发明的方法，以小样本关系抽取方法为研究对象，利用维基百科构建知识库，通过建立双编码器架构来分别将文本信息和关系信息映射到相同的向量表示空间；通过对比学习最大限度提高文本上下文表示及其对应关系表示之间的相似性，以促进文本信息编码器和关系信息编码器之间的相互学习，进而生成更好的语义表示，提升小样本或零样本关系抽取性能。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对比学习的双编码预训练小样本关系抽取方法，其特征在于，包括以下步骤：

步骤S20：创建句子语义信息编码器，生成句子语义表示；

步骤S30：创建关系语义信息编码器，生成关系语义表示；

步骤S40：将步骤S20和步骤S30得到的降句子语义表示和关系语义表示进行对比学习，建立预训练语言表示模型；

2.根据权利要求1所述的基于对比学习的双编码预训练小样本关系抽取方法，其特征在于：所述步骤S10的具体步骤如下：

步骤S101，从大规模用于小样本关系抽取预训练的数据集中获得原始句子集合sentence_set和对应的关系标注集合label_set。

步骤S102，在维基百科上获取步骤S101中关系标注集合label_set中每个关系对应的关系标签与标签描述，将关系标签与对应的关系标签描述拼接起来，构造关系标签概念字典relation_set，与步骤S101中的句子集合sentence_set共同构建预训练的关联知识库。

3.根据权利要求1所述的基于对比学习的双编码预训练小样本关系抽取方法，其特征在于：所述步骤S20的具体步骤如下：

步骤S201，已知原始句子集合sentence_set中第I个句子的表示为S^I＝[t₁,t₂,…t_a，…，t_b，…，t_c，…，t_d，…，t_n]，t_a，…，t_b与t_c，…，t_d分别为该句子的两个实体，在句子原始表示中插入特殊标记e₁、\e₁、e₂、\e₂分别表示句子实体对中主体和客体的开始和结束位置，形成新的句子表示

步骤S202，构建基于Bert的句子语义信息编码器Φ_s，将上述的句子表示输入到语义信息编码器Φ_s中生成句子向量表示/> 其中h_cls是句子的全局表示，得到第i个句子的句子语义表示/> 其中f与g为插入的特殊标签e₁、e₂的对应位置。

4.根据权利要求3所述的基于对比学习的双编码预训练小样本关系抽取方法，其特征在于：所述步骤S30的具体步骤如下：

步骤S301，构建基于Bert的关系信息编码器Φ_r，已知原始关系概念字典relation_set中第I个关系表示为R^I＝[l₁，l₂，…，l_t]，将R^I输入到关系信息编码器Φ_r中生成关系向量表示其中r_cls是关系向量的全局表示，得到第i种关系标签对应的关系语义表示/>其中/>表示将两个向量拼接起来，V_mean是对关系向量/>进行平均池化得到的。

5.根据权利要求4所述的基于对比学习的双编码预训练小样本关系抽取方法，其特征在于：所述步骤S40的具体步骤如下：

步骤S401，将步骤S202和步骤S301得到的N个句子语义表示和关系语义表示知/>两两组合，得到对应的样本矩阵/>使得样本矩阵对角线方向上的N个样本对为正样本对，剩余的N²-N个样本对为负样本对，基于余弦相似度评估样本对的相似性进行对比学习，损失函数如下：

步骤S402，在进行预训练反向传播时要保持编码器的语言理解能力，需要对输入的向量进行掩码训练，语义信息编码器Φ_s和关系信息编码器Φ_r的掩码训练损失函数分别为和/>与对比学习的损失函数加起来组成预训练表示模型的最终损失：

6.根据权利要求1所述的基于对比学习的双编码预训练小样本关系抽取方法，其特征在于：所述步骤S50的具体步骤如下：

步骤S501，应用小样本任务N-way-K-shot设置，就是将原始数据集分为两个部分：支持集和查询集，支持集中包含N种关系种类，每种关系有K个实例，而查询集中有M个句子实例，但没有句子对应的关系标注；

步骤S502，基于原型网络的思想进行小样本关系抽取，通过步骤S20和步骤S30的语义信息编码器Φ_s和关系信息编码器Φ_r对支持集中的句子i和关系信息j进行编码，分别得到句子语义表示和关系信息表示/>再将两种表示融合得到原型表示/>然后使用句子语义信息编码器Φ_s对查询集中的句子实例q进行编码，得到句子语义表示/>

L_CE＝-log(z_y)

其中y表示关系标签，z_y表示对待预测句子语义表示进行计算后，该句子属于y关系的概率，i表示/>所属的真实关系类别。