CN115860009A

CN115860009A - 一种引入辅助样本进行对比学习的句子嵌入方法及系统

Info

Publication number: CN115860009A
Application number: CN202310166215.XA
Authority: CN
Inventors: 韩中元; 张智杰
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-03-28
Anticipated expiration: 2043-02-27
Also published as: CN115860009B

Abstract

本发明提供了一种引入辅助样本进行对比学习的句子嵌入方法及系统，CLVNS包括如下两个部分即构建中性样本的部分和引入中性样本进行学习的部分；首先，随机扰乱原始输入的token embedding空间分布，再利用虚拟标签进行梯度下降，从而构造一种有效的中性样本；然后，将对比损失与排序损失相结合进行联合训练，采用对比损失使得一个样本更接近其中性样本；排序损失被重新定义，以将一个样本和它的负样本分开；由此，能够较好的提高句向量的泛化性，从而生成更好的句子表征。

Description

一种引入辅助样本进行对比学习的句子嵌入方法及系统

技术领域

本发明属于机器学习领域，具体涉及一种引入辅助样本进行对比学习的句子嵌入方法及系统。

背景技术

近年来，基于bert的预训练语言模型在有监督任务下取得了较好的性能，而不经过微调的句子嵌入被证明质量较低。生成良好的句子嵌入对于提高下游任务的性能至关重要，特别是在大规模的语义相似度比较中。为此，有研究者们提出SimCSE，一种对比学习框架，在无监督的情况下，能够生成良好的句向量。具体做法是将句子本身作为正样本，同个batch内的其他样本作为负样本。但是，这种将自身作为正样本的做法，终究缺乏一定的泛化性能。

发明内容

本发明的目的在于提出一种引入辅助样本进行对比学习的句子嵌入方法及系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

CLVNS（Contrastive Learning with Virtual Neutral Samples）为一种无监督句子表征方法，通过引入中性样本来进行对比学习。类中性样本能够增加句子表示的泛化性，从而得到更好的句子表征。首先，随机扰乱原始输入的token embedding空间分布，再利用虚拟标签进行梯度下降，从而构造一种有效的中性样本；然后，将对比损失与排序损失相结合进行联合训练，采用对比损失使得一个样本更接近其中性样本；排序损失被重新定义，以将一个样本和它的负样本分开。CLVNS利用中性样本优化句子表示，使模型几乎不依赖于构建正样本。在评估了CLVNS在标准语义文本相似(STS)任务中的性能后，实验结果表明，CLVNS的性能优于一系列有竞争力的基线。

本发明提供了一种引入辅助样本进行对比学习的句子嵌入方法及系统，其中，CLVNS包括如下两个部分即构建中性样本的部分和引入中性样本进行学习的部分，具体为：首先，随机扰乱原始输入的token embedding空间分布，再利用虚拟标签进行梯度下降，从而构造一种有效的中性样本；然后，将对比损失与排序损失相结合进行联合训练，采用对比损失使得一个样本更接近其中性样本；排序损失被重新定义，以将一个样本和它的负样本分开。

为了实现上述目的，根据本发明的一方面，提供一种引入辅助样本进行对比学习的句子嵌入方法，所述一种引入辅助样本进行对比学习的句子嵌入方法中包括模型CLVNS，所述CLVNS包括如下两个部分即构建中性样本的部分和引入中性样本进行学习的部分。

进一步地，所述CLVNS使用原生编码器生成与SimCSE相同的样本，其中，所述样本包括正样本和负样本，其中还包括虚拟编码器，所述虚拟编码器是指用于生成中性样本的编码器。

进一步地，在所述构建中性样本的部分中，使用了一种特殊的无监督句子表征：

在所述一种特殊的无监督句子表征任务中，目标为检测两个句子的语义是否相关，利用对比学习构造正样本和负样本时，其标签为0或1，当标签为1时，两个句子表达同一个语义，当标签为0时，代表两个句子语义毫不相关；

在所述一种引入辅助样本进行对比学习的句子嵌入方法中还使用了一种特殊的虚拟训练，所述一种特殊的虚拟训练的方法具体为：设立虚拟标签0.5，为使两个句子的语义能够仅有一点相关，从而构造中性样本，如此构造中性样本的过程称为虚拟训练；在所述一种特殊的虚拟训练的过程中，将输入层的token embedding取出，添加均匀分布随机数，扰乱原有的空间分布，再与原token embedding进行相似度计算，并利用MSE损失进行梯度下降，使其相似度与虚拟标签的一致性在概率上最大化，经过一轮梯度下降后，更新后的token embedding即为中性样本对应的token embedding，其最后输出的CLS即为中性样本的句向量。

进一步地，在所述引入中性样本进行学习的部分中，CLVNS模型由联合损失L进行训练, 所述联合损失L的计算公式为：L=L_RC+L_Aux*γ，

其中，以L_Aux表示排序损失，排序损失将一个样本和其负样本推开，以所述L_Rc作为训练的主要任务；

以L_Aux 表示附加损失，附加损失将一个样本和其中性样本的距离拉近，以所述L_Aux为训练的附加任务, γ为权重系数；

L_Aux的计算公式为：

，

其中， N 表示batch size的大小, i 和 j 表示样本id, A 表示集合 {(0, 2),(1, 2), (2, 0), (2,1)},以(a,ß)表示从 A 集合中取出的四种情况，即为样本选取； h表示句向量, h⁰ 和 h¹ 表示由原生编码器生成的正样本, h²表示中性样本,τ表示温度系数, sim(, ) 表示余弦相似度函数，公式中log函数里面的分子的自然常数e的指数里面的带有上标α、β以及下标i、j的两个h变量之间通过相似度sim获取的相似度（h^a _i,h^β _j）表示的是，第i个样本衍生出的四种情况，通过上标的α和β来表示α和β的组合为（α，β）∈{(0, 2),(1, 2), (2, 0), (2,1)}的情况，分母中同理i和j的下标表示样本的id（即序号）；所述附加任务利用三种样本，计算每个句子样本与(3N-1)个其他样本的相似度，计算同一批内两个句向量之间(即h表示的句向量之间)的余弦相似度形成相似度矩阵；

L_Rank （L_Rank也可记作L_RC）的计算公式为：

，

其中，作为所述标签，h上面可以同时有0和1，是表达两组（0,1）的排列组合，即2*2=4种排列，h也可以仅有0或1的上标则表示上面（0,1）的排列组合中其中选取的一种组合，上标的0、1还可以表示排列组合中对h的具体数值的抽样并且编号，即是说抽样出来两个变量h的具体数值分别标号上0、1然后进行排列组合以方便计算相似度的数值；

将句子本身作为正样本，同批内的其他样本作为负样本，设置一个超参数

来选择特定的样本对参与训练，通过同一批内的两个句向量计算余弦相似度，形成相似度矩阵。

其中，未定义具体数值的变量可以使用预设的阈值进行调控以方便实施中的参数优化，（例如上述各系数、阈值、权重等）这样有利于进行对照实验中对神经网络模型进行调参，因为本方法需要对辅助样本的采样进行多次的重复的调控来调整神经网络模型，以此加快操作流程。

本发明还提供了一种引入辅助样本进行对比学习的句子嵌入系统，所述一种引入辅助样本进行对比学习的句子嵌入系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述一种引入辅助样本进行对比学习的句子嵌入方法中的步骤，所述一种引入辅助样本进行对比学习的句子嵌入系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群。

本发明的有益效果为：本发明提供了一种引入辅助样本进行对比学习的句子嵌入方法及系统，CLVNS包括如下两个部分即构建中性样本的部分和引入中性样本进行学习的部分；首先，随机扰乱原始输入的token embedding空间分布，再利用虚拟标签进行梯度下降，从而构造一种有效的中性样本；然后，将对比损失与排序损失相结合进行联合训练，采用对比损失使得一个样本更接近其中性样本；排序损失被重新定义，以将一个样本和它的负样本分开；由此，能够较好的提高句向量的泛化性，从而生成更好的句子表征。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本发明的上述以及其他特征将更加明显，本发明附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为附加任务中利用三种样本计算每个句子样本与(3N-1)个其他样本的相似度的示意图；

图2所示为将句子本身作为正样本而同批内的其他样本作为负样本并设置一个超参数来选择特定的样本对参与训练的示意图；

图3所示为实验结果数据结果对比表。

图4所示为展示了对比损失、排序损失和辅助损失三者之间不同组合的对比表。

图5所示为将不加中性样本情况下的性能与利用均匀分布和正态分布所生成的随机数来作为另外两种中性样本来和本发明所述方法进行对比的对比表。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

一种引入辅助样本进行对比学习的句子嵌入方法，所述一种引入辅助样本进行对比学习的句子嵌入方法中包括模型CLVNS，所述CLVNS包括如下两个部分即构建中性样本的部分和引入中性样本进行学习的部分，其中使用原生编码器生成与SimCSE相同的样本，包括正样本和负样本，虚拟编码器是指用于生成中性样本的编码器。

在所述一种引入辅助样本进行对比学习的句子嵌入方法中还使用了一种特殊的虚拟训练，所述一种特殊的虚拟训练的方法具体为：设立虚拟标签0.5，为使两个句子的语义能够仅有一点相关，从而构造中性样本，该过程称为虚拟训练；在所述一种特殊的虚拟训练的过程中，将输入层的token embedding取出，添加均匀分布随机数，扰乱原有的空间分布，再与原token embedding进行相似度计算，并利用MSE损失进行梯度下降，使其相似度与虚拟标签的一致性在概率上最大化，经过一轮梯度下降后，更新后的token embedding即为中性样本对应的token embedding，其最后输出的CLS即为中性样本的句向量。

进一步地，在所述引入中性样本进行学习的部分中，CLVNS模型由联合损失L进行训练, 所述联合损失L的计算公式为：

，

L_Aux的计算公式为：

，

L_Rank （两者等同，L_Rank也可记作L_RC）的计算公式为：

，

将句子本身作为正样本，同批内的其他样本作为负样本，如图1-2所示的2N×2N大小的L_RC的相似度矩阵，设置一个超参数λ来选择特定的样本对参与训练，通过同一批内的两个句向量计算余弦相似度，形成相似度矩阵，图1-2中矩阵的填色区域表示为计算损失时所选取的样本。

本发明提供了在具体实施方式中的实验数据：

实验配置：

对于无监督任务，本发明还使用了由SimCSE开源存储库提供的100万个维基百科英语句子的语料库；

本发明使用公开的Senteval 评价工具在7个语义文本语义相似度任务上评估本发明的模型, 任务包括 STS 2012-2016, STS Benchmark 和 SICK-Relatedness. 评价指标为斯皮尔曼相关系数；

在实验中，为了更好的与基线SimCSE对比, 本发明遵从 SimCSE 的设置。本发明同样使用BERT_base 和 RoBERT_base作为句子的编码器。

实验结果：

本发明将模型的性能与一系列有竞争力的基线做对比，包括SimCSE, IS-BERT,CMLM, DeCLUTR, CT-BERT, SG-OPT和一些后处理方法，例如BERT-flow和 BERT-whitening, 还有一些最原始的基线，例如averaged GloVe embeddings和 averagedfirst and last layer BERT embeddings；

在图3中，展示了实验结果, 不同句子表示模型（各种句子表示模型的名字及对应项目列在图3所述表的最左边“Model”一列）在各STS任务（包括各项斯皮尔曼相关性测试，Spearman’s correlation）上的表现，可以看到本发明的模型CLVNS 在BERT_base 和RoBERT_base上的表现都优于无监督 SimCSE，其中图上第一行在“Model”往后的多个以“STS”开头的实验项目表示的是STSbenchmark数据集，所述STSbenchmark数据集是在文本相似度任务上的数据集，所述STSbenchmark数据集里面包括STS12，STS13，STS14，STS15，STS16，STS-B，SICK-R等数据集，从STS12至STS16分别为SemEval比赛2012至2016年的数据集，STS-B和SICK-R也是SemEval比赛数据集，STS-B-dev是STS-B中包括的一组可用于进行测试的数据可以用来测试本发明提供的方法及系统，“Model”一列里面使用的各模型也在STSbenchmark数据集的论文里面有公开（参考文献：[1] Cer D , Diab M , Agirre E ,et al. SemEval-2017 Task 1: Semantic Textual Similarity Multilingual andCross-lingual Focused Evaluation[J]. 2017.；[2] Zhu T , Man L . Systemdescription of Semantic Textual Similarity (STS) in the SemEval-2012 (Task 6)[C]// Joint Conference on Lexical & Computational Semantics. Association forComputational Linguistics, 2013.；[3] Agirre E , Banea C , Cer D , et al.SemEval-2016 Task 1: Semantic Textual Similarity, Monolingual and Cross-Lingual Evaluation[C]// International Workshop on Semantic Evaluation.2016.）。

损失消融：

如图4所示展示了对比损失、排序损失和辅助损失三者之间不同组合的比较，其中L_CL 表示SimCSE中的对比损失, L_Rank表示本文所提出的排序损失，L_Aux 表示本文提出的辅助损失。

可以观察到，当只有辅助损失时，效果很差。由于辅助任务也将正样本往中性样本的方向上拉，这有助于提高模型识别正样本对的泛化能力，但也对正样本有一定的负面影响。另外，就负样本而言，负样本会被推得更远，这是本发明想要的积极影响。

为了减轻中性样本的负面影响，同时保留中性样本的积极影响，分别进行了L_Rank和L_CL 的实验。结果从图4可看到单独使用时，L_Rank 和L_CL有着同样的效果；附加上L_Aux时,L_Rank被证实更能够减轻中性样本所带来的负面影响且更多的保留其带来的正面影响。

中性样本：

为了证明增益效果是由中性样本所产生，本发明测试了不加中性样本情况下的性能。而且，本发明利用均匀分布和正态分布所生成的随机数来作为另外两种中性样本，将它们与本发明的方法进行对比，结果如图5所示，证明本发明所述中性样本所带来的增益已经优于现有技术。

可以看出，添加本发明所述方法所构建的中性样本，效果会发生显著变化，用其他随机数构造的中性样本也远不如本发明所述方法的分数优秀。其中，未定义具体数值的变量可使用预设的阈值进行调控以方便实施中的参数优化，如图3-5的测试数据可见，可有利于进行对照实验中对神经网络模型进行调参。因此，本发明所述方法提出的虚拟训练能够生成一种与现有模型相比性能更为领先的中性样本，更有利于在互联网工业生产实践中对社交网络、通信软件的文本数据的数据概率的学习和更新，提供智能化的服务。

所述一种引入辅助样本进行对比学习的句子嵌入系统运行于桌上型计算机、笔记本电脑、掌上电脑或云端数据中心的任一计算设备中，所述计算设备包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述一种引入辅助样本进行对比学习的句子嵌入方法中的步骤,可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群。

本发明的实施例提供的一种引入辅助样本进行对比学习的句子嵌入系统，该实施例的一种引入辅助样本进行对比学习的句子嵌入系统包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种引入辅助样本进行对比学习的句子嵌入方法实施例中的步骤。

其中，优选地，本发明中所有未定义的变量，若未有明确定义，均可为人工设置的阈值。

所述一种引入辅助样本进行对比学习的句子嵌入系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中。所述一种引入辅助样本进行对比学习的句子嵌入系统包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种引入辅助样本进行对比学习的句子嵌入方法及系统的示例，并不构成对一种引入辅助样本进行对比学习的句子嵌入方法及系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种引入辅助样本进行对比学习的句子嵌入系统还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种引入辅助样本进行对比学习的句子嵌入系统的控制中心，利用各种接口和线路连接整个一种引入辅助样本进行对比学习的句子嵌入系统的各个分区域。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种引入辅助样本进行对比学习的句子嵌入方法及系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card,SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

Claims

1.一种引入辅助样本进行对比学习的句子嵌入方法，其特征在于，所述一种引入辅助样本进行对比学习的句子嵌入方法中包括模型CLVNS，所述CLVNS包括如下两个部分即构建中性样本的部分和引入中性样本进行学习的部分；

所述CLVNS使用原生编码器生成与SimCSE相同的样本，所述样本包括正样本和负样本，所述CLVNS中还包括虚拟编码器，所述虚拟编码器是指用于生成中性样本的编码器；

在所述构建中性样本的部分中，使用了一种特殊的无监督句子表征：

在一种特殊的无监督句子表征任务中，目标为检测两个句子的语义是否相关，利用对比学习构造正样本和负样本时，其标签为0或1，当标签为1时，两个句子表达同一个语义，当标签为0时，代表两个句子语义毫不相关；

在所述一种引入辅助样本进行对比学习的句子嵌入方法中还使用了一种特殊的虚拟训练，所述一种特殊的虚拟训练的方法具体为：设立虚拟标签0.5，为使两个句子的语义能够仅有一点相关，从而构造中性样本，如此构造中性样本的过程称为虚拟训练；在所述一种特殊的虚拟训练的过程中，将输入层的token embedding取出，添加均匀分布随机数，扰乱原有的空间分布，再与原token embedding进行相似度计算，并利用MSE损失进行梯度下降，使其相似度与虚拟标签的一致性在概率上最大化，经过一轮梯度下降后，更新后的tokenembedding即为中性样本对应的token embedding，其最后输出的CLS即为中性样本的句向量。

2.根据权利要求1所述的一种引入辅助样本进行对比学习的句子嵌入方法，其特征在于，在所述引入中性样本进行学习的部分中，CLVNS模型由联合损失L进行训练, 所述联合损失L的计算公式为：

，

L_Aux的计算公式为：

，

其中， N 表示batch size的大小, i 和 j 表示样本id, A 表示集合 {(0, 2), (1,2), (2, 0), (2,1)}, 以(a,ß)表示从 A 集合中取出的四种情况，即为样本选取； h 表示句向量, h⁰ 和 h¹ 表示由原生编码器生成的正样本, h²表示中性样本,τ表示温度系数,sim(, ) 表示余弦相似度函数；所述附加任务利用三种样本，计算每个句子样本与(3N-1)个其他样本的相似度，计算同一批内两个句向量之间的余弦相似度形成相似度矩阵；

L_Rc的计算公式为：

，

3.一种引入辅助样本进行对比学习的句子嵌入系统，其特征在于，所述一种引入辅助样本进行对比学习的句子嵌入系统运行于桌上型计算机、笔记本电脑或云端数据中心的任一计算设备中，所述计算设备包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至2中任一项所述的一种引入辅助样本进行对比学习的句子嵌入方法中的步骤。