CN116596031A

CN116596031A - 一种去负样本的无监督句子表征学习方法

Info

Publication number: CN116596031A
Application number: CN202310581403.9A
Authority: CN
Inventors: 孙玉灵; 陈少斌
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-08-15

Abstract

本发明公开了一种去负样本的无监督句子表征学习方法，其特点是采用预测任务过滤预训练数据集中的冗余信息的方法，提升SiamCSE模型性能，将句子中随机挑选的单词进行重复，然后将其传入编码器，得到既不损失句子中的语义信息，同时在长度上也不尽相同的正样本，实现去负样本的句子表征学习，具体包括：设置多层感知机的映射层、目标函数约束中间隐藏向量的相似性、预测任务去除冗余信息、互相关矩阵及去相关矩阵的生成和模型训练等步骤。本发明与现有技术相比具有在句子表征学习任务上表现性能优异，填补了目前句子表征模型的不足，完善了去负样本句子表征学习模型的评估方案，帮助推动去负样本句子表征学习模型在现实中的普适性应用。

Description

一种去负样本的无监督句子表征学习方法

技术领域

本发明涉及基于对比学习的无监督句子表征学习技术领域，尤其是一种去负样本的无监督句子表征学习方法。

背景技术

近年来，对比学习因其通俗易懂的思维方式、相对广泛的应用场景以及出乎意料的优秀效果，在表征学习领域大放光彩。这些研究工作从最开始的视觉表征学习，逐渐拓展到后来的文本表征学习。纵览这些工作，能够发现，绝大部分工作都是通过使用正负两种样本训练来达到预期的效果。然而，在现实中，负样本的使用会带来一系列问题。例如，SimCSE模型粗略地将同一个训练小批量中其它句子作为负样本，这就很容易导致假负样本问题(即那些与输入样本的语义相似度很高的负样本)的出现。

从另一个角度看，对比学习方法想要达到一个理想的效果，通常情况下使用一定数量的负样本与正样本作对比是不可避免的，并且一般而言，负样本的数量越大越好。然而，增大的负样本数量会使得通常的对比学习模型训练阶段的计算量也相应增大，模型规模也比较庞大，难以在诸如手机等小型终端设备上发挥作用。负样本使用会带来假负样本问题，大大影响了模型的精度，同时，负样本也会使得模型更加臃肿和复杂，增加计算量，进而影响研究技术的落地。

因此，研究如何在不使用负样本的情况下提升句子表征学习模型的性能，使其达到甚至超过使用负样本时模型的性能，是十分值得关注的问题。目前，不使用负样本的句子表征学习模型相对较少，还没有形成一个较为完整的体系。具体来说，有少量研究工作在内容上相互独立，分别对于模型架构和数据增强方法做了简单地探究，但没有讲两者之间的关系衔接起；在效果上，这些研究提出的模型性能不但与当前使用负样本的模型性能相差甚远，也缺乏不同模型之间公平有效、直观地比较。

现有技术的去负样本的句子表征学习模型普遍忽略预训练语料的冗余信息的现状，模型性能差，应用场景的广泛使用受到大大限制。

发明内容

本发明的目的是针对现有技术的不足而提供的一种去负样本的无监督句子表征学习方法，采用从预训练语料去噪、模型架构，以及正样本构造等角度进行设计，实现去负样本的句子表征学习，预训练语料去噪使用预测任务去过滤预训练数据集中的冗余信息；正样本构造将句子中随机挑选的单词进行重复后将其传入编码器，这样得到的正样本既不会损失句子中的语义信息，同时在长度上也不尽相同，从而使得模型不会将长度作为正样本的特征，并对于模型中的重要组件进行定量分析，完善了去负样本句子表征学习模型的评估方案，大大提升了去负样本句子表征学习模型的性能，方法简便，使用效果好，有效解决了去负样本的句子表征学习模型普遍忽略预训练语料的冗余信息问题，对提升模型性能有极大的帮助，模型性能不但与当前使用负样本的模型性能媲美，还可以帮助推动去负样本句子表征学习模型在现实中的普适性，应用具有良好应用前景。

本发明的目的是这样实现的：一种去负样本的无监督句子表征学习方法，其特点是采用去负样本的无监督句子表征学习模型SiamCSE，从预训练语料冗余信息过滤预训练数据集中的冗余信息，以提升模型性能，将句子中随机挑选的单词进行重复，然后将其传入编码器，得到的正样本既不会损失句子中的语义信息，同时在长度上也不尽相同，从而使得模型不会将长度作为正样本的特征，对于模型中的重要组件进行定量分析，整合模型评估方案。

所述SiamCSE模型的主要内容包括以下：

(1)设置多层感知机为映射层

在编码器输出添加多层感知机有助于提升输入表征的质量，受此启发，SiamCSE模型将同一个输入x以不同的暂退值p_large和p_small输入编码器，编码器的输出经过多层感知机的映射，得到上、下分支的中间隐藏向量z₁和z₂。

(2)使用目标函数L_C来约束上下分支隐藏向量之间的相似性

SiamCSE模型设计目标函数L_C来约束上、下分支的隐藏向量z₁和z₂之间的相似性，所述z₁和z₂之间的负cosine相似性由下述(b)式定义为：

其中，||·||₂表示L₂范数；D为z₁和z₂之间的负cosine相似性。

所述目标函数L_C由下述(a)式定义为：

该目标函数L_C是针对每一条输入而计算的，一个小批量的损失值取所有的输入损失值的平均值。

(3)基于上、下分支的隐藏向量预测任务去除冗余信息

尽管已有诸如BSL和SCD这样的工作对去负样本句子表征学习做了研究，但它们缺乏对于预训练数据本身包含的冗余信息的考虑，而这些包含的冗余信息不利于句子表示在下游任务上的效果。为此，本发明提出了基于上、下分支的隐藏向量预测任务，来过滤冗余信息。

SiamCSE模型使用上分支的中间隐藏向量z₁去预测下分支的中间隐藏向量z₂，这一步通过下述(c)式表示的优化目标函数L_P来实现：

(4)基于映射函数的互相关矩阵生成

为了避免学习到的句子表示坍塌，SiamCSE模型把多层感知机的输出向量由下述(d)式映射到更高维度的空间P：

p＝H(z) (d)。

其中，p代表将z映射到空间P之后得到的向量；H为映射函数。

本发明使用的映射函数由三层线性层所组成，每层包含4096个神经元，ReLU作为激活函数，并在每层之间使用BatchNorm。在空间P上，SiamCSE模型将左右分支的隐藏表示表达成为互相关矩阵，并用元素C_ij表示，其计算由下述(e)式表示为：

其中，b为样本的索引号；i、j分别为神经网络输出向量的不同维度；C是一个元素值介于-1与1之间的方阵。

(5)生成去相关矩阵

使用“在相同维度尽可能相似，在不同维度尽可能不同”的优化策略优化相关矩阵，以去除输入的表示中包含的噪声和冗余信息，确保学习到的句子表示不会坍塌。

本发明使用下述(f)式表示的优化互相关矩阵目标函数L_D：

将优化之后的矩阵称之为去相关矩阵，该矩阵对角元素趋近于1，而非对角元素则趋近于零。

(6)基于目标函数L_total的SiamCSE模型训练

将上述L_C、L_P和L_D三个目标函数结合在一起作为作为总的目标函数L_total，基于该目标函数L_total训练SiamCSE模型，获取有效的句子表示，实现去负样本的句子表征学习，所述总的训练目标函数L_total由下述(g)式表示为：

L_total＝L_C+αL_P+βL_D (g)。

其中，α和β为超参数。

本发明与现有技术相比具有方法简便，大大提升了模型的性能，有效解决了去负样本的句子表征学习模型普遍忽略预训练语料的冗余信息问题，立足于现有句子表征学习模型的缺点以及在现实小型设备中难以落地的局面，打破了现有去负样本句子表征学习研究工作相互独立，不全面的尴尬现状，从冗余信息、模型架构和数据增强等各个角度做出了较为细致的分析，为去负样本句子表征学习模型的研究提供了参考，帮助推动去负样本句子表征学习模型在现实中的普适性，应用具有良好应用前景。

附图说明

图1为SiamCSE模型结构示意图。

具体实施方式

本发明让SiamCS模型在不使用负样本的情况下，也能够学习到高质量的句子表示，该模型从预训练语料去噪、模型架构改进、正样本构造等角度进行了方法设计，实现去负样本的句子表征学习。本发明的创新之处在于：1)针对当前去负样本的句子表征学习模型普遍忽略预训练语料的冗余信息的现状，采用了预测任务去过滤预训练数据集中的冗余信息，从而提升模型性能；2)针对当前正样本的构造方法使得模型偏向于将长度相同的句子视作为一对正样本的缺点，本发明将句子中随机挑选的单词进行重复然后将其传入编码器，这样得到的正样本既不会损失句子中的语义信息，同时在长度上也不尽相同，从而使得模型不会将长度作为正样本的特征；3)对于模型中的重要组件进行定量分析，整合模型评估方案。

参阅图1，本发明的具体实现步骤如下：

(1)设置多层感知机为映射层

将同一个输入x以不同的暂退值p_large和p_small输入编码器，编码器的输出经过多层感知机的映射，得到上、下分支的中间隐藏向量z₁和z₂。

(2)使用目标函数L_C来约束上下分支隐藏向量之间的相似性

设计目标函数L_C来约束上下分支的隐藏向量z₁和z₂之间的相似性，所述z₁和z₂之间的负cosine相似性由下述(b)式定义为：

所述目标函数L_C由下述(a)式定义为：

(3)基于上下分支的隐藏向量预测任务去除冗余信息

使用上分支的中间隐藏向量z₁去预测下分支的中间隐藏向量z₂，所采用的优化目标函数L_P由下述(c)式定义为：

(4)基于映射函数的互相关矩阵生成

p＝H(z) (d)。

其中，p代表将z映射到空间P之后得到的向量；H为映射函数。

本发明使用的映射函数由三层线性层所组成，每层包含4096个神经元，ReLU作为激活函数，并在每层之间使用BatchNorm。在空间P上，模型将左右分支的隐藏表示表达成为互相关矩阵，用元素C_ij表示，其计算由下述(e)式表示为：

(5)生成去相关矩阵

本发明使用下述(f)式表示的优化互相关矩阵目标函数L_D：

(6)基于目标函数L_total的模型训练

L_total＝L_C+αL_P+βL_D (g)。

其中，α和β为超参数。

经实验分析，本发明所设计的方法在句子表征学习任务上表现性能优异，填补了目前句子表征模型的不足，完善了去负样本句子表征学习模型的评估方案，本发明可以帮助推动去负样本句子表征学习模型在现实中的普适性应用。以上实施例只是对本发明做进一步说明，并非用以限制本发明专利，凡为本发明等效实施，均应包含于本发明专利的权利要求范围之内。

Claims

1.一种去负样本的无监督句子表征学习方法，包括SiamCSE模型，其特征在于，采用预测任务过滤预训练数据集中的冗余信息的方法，提升SiamCSE模型性能，将句子中随机挑选的单词进行重复，然后将其传入编码器，得到既不损失句子中的语义信息，同时在长度上也不尽相同的正样本，实现去负样本的句子表征学习，具体包括以下步骤：

(1)设置基于多层感知机的映射层

将同一个输入x以不同的暂退值p_large和p_small输入编码器，其输出经多层感知机的映射，得到上、下分支的中间隐藏向量z₁和z₂；

(2)使用目标函数L_C约束中间隐藏向量z₁和z₂之间的相似性

使用下述(a)式定义的目标函数L_C约束中间隐藏向量z₁和z₂之间的相似性：

其中，D为下述(b)式定义的的负cosine相似性：

其中，||·||₂为L₂范数；

(3)基于中间隐藏向量z₁和z₂预测任务去除冗余信息

使用隐藏向量z₁预测下分支的中间隐藏向量z₂，其优化的目标函数L_P由下述(c)式表示为：

(4)基于映射函数的互相关矩阵生成

使用SiamCSE将多层感知机的输出向量由下述(d)式映射到更高维度的空间P：

p＝H(z) (d)；

其中，p代表将z映射到空间P之后得到的向量；H为映射函数；

所述映射函数H由三层线性层所组成，每层包含4096个神经元，以ReLU作为激活函数，并在每层之间使用BatchNorm；

所述空间P上模型将上、下分支的中间隐藏向量z₁和z₂由下述(e)式表示的元素C_ij为互相关矩阵：

其中，b为样本的索引号；i、j分别为神经网络输出向量的不同维度；C是一个元素值介于-1与1之间的方阵；

(5)生成去相关矩阵

使用下述(f)式表示的目标函数L_D优化互相关矩阵为去相关矩阵：

所述去相关矩阵对角元素趋近于1，而非对角元素则趋近于零；

(6)基于目标函数L_total的模型训练

将L_C、L_P和L_D三个目标函数结合在一起，作为总的目标函数L_total训练SiamCSE模型，获取有效的句子表示，实现去负样本的句子表征学习，所述总的目标函数L_total由下述(g)式表示为：

L_total＝L_C+αL_P+βL_D (g)；

其中，α和β为超参数。