CN117272979B

CN117272979B - 一种无监督句子表示方法、装置、计算机设备及存储介质

Info

Publication number: CN117272979B
Application number: CN202311566705.5A
Authority: CN
Inventors: 刘畅; 孙晓; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-09
Anticipated expiration: 2043-11-23
Also published as: CN117272979A

Abstract

本发明公开了一种无监督句子表示方法、装置、计算机设备及存储介质，属于自然语言处理领域。针对现有技术中存在的负样本句子随机采样容易导致现有的对比学习模型性能造成缺陷从而无法生成高质量句子表示的问题，本发明将锚点句子表示与负样本句子表示的语义相似度分数输入到负样本排序损失函数中计算得到经排序后的负样本句子表示，将语义相似度分数的分布概率输入到标签平滑损失函数中计算得到经标签平滑的负样本句子表示，将锚点句子表示进行数据扩增得到正样本句子表示，输入正样本句子表示、经排序后的负样本句子表示、经标签平滑的负样本句子表示到对比学习损失函数中进行训练构建对比学习模型，进而通过对比学习模型生成高质量句子表示。

Description

一种无监督句子表示方法、装置、计算机设备及存储介质

技术领域

本发明涉及自然语言处理领域，更具体地说，涉及一种无监督句子表示方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的飞速发展，语言作为人类基本的能力，让机器处理自然语言是生产力发展的必然要求，因此从事研究自然语言处理研究具有重要价值和意义。句子表示作为自然语言处理领域中的主要研究方向之一，通过预训练微调的方式被应用到具体的下游任务的应用中。

早期的句子表示方法通过one-hot，TF-IDF等基于词袋模型的方法导致数据稀疏。后面利用Word2Vec用滑动窗口指定固定大小的上下文，利用当前词语预测上下文或者利用上下文来预测当前词。由于词和向量是一对一的关系，因此无法解决一词多义的问题。BERT预训练致力于学习通用的句子表示，并迁移到多个下游应用场景。但是语言模型生成的语义向量分布中存在非线性和各向异性的问题，导致任意两个句子的相似度很高，在语义空间中坍缩在一个狭小的空间内，因此直接利用BERT得到的句子表示的效果不是很好。

自监督学习通过利用辅助任务从大规模的无监督数据中挖掘自身的监督信息来对网络进行训练，从而学习到对下游任务有价值的表征。对比学习作为自监督学习的一种，在模型训练过程中通过拉近相似数据，推开不相似数据能缓解上述BERT句子表示造成的各向异性的问题，从而获得有效的数据表示。由于自然语言的抽象性和句子结构的复杂性，根据对比学习的思想，通过数据增强的方式获得不同的正样本，将一个批次中除了锚点句子以外的其他句子都看成负样本显然是不合理的，一个批次的负样本中存在假负样本或者不同难度的负样本，而将所有负样本看成一致对模型进行训练会损害对比学习模型的性能。

现有基于对比学习的句子表示方法虽然取得了比传统的句子表示方法更准确的句子表示，然而这些方法忽略了负样本在对比学习中的难度的不一致性，并且在模型训练中将不同难度的负样本看成一致会造成以下两点问题：（1）负样本并不是均匀分布的，以此来学习句子之间的有效的语义信息导致模型在计算损失函数进行迭代时容易造成过拟合；（2）负样本的难度不一致，存在难负例、简单负例和错误负例，将所有的负样本看成一致会引入采样偏差导致对比学习模型受限。因此，如何选择负样本的采样方式在对比学习中的句子表示具有重要作用。

发明内容

1.要解决的技术问题

针对现有技术中存在的基于对比学习中负样本句子随机采样容易导致现有的对比学习模型性能造成缺陷从而无法生成高质量句子表示的问题，本发明提供了一种无监督句子表示方法、装置、计算机设备及存储介质，通过充分挖掘负样本句子表示信息，以实现句子表示更精确的建模，从而生成高质量句子表示。

2.技术方案

本发明的目的通过以下技术方案实现。

一种无监督句子表示方法，包括以下步骤：

获取待表示的句子，将待表示的句子输入到语言模型中进行处理得到句子表示，所述句子表示包括锚点句子表示和负样本句子表示；

计算锚点句子表示与负样本句子表示的语义相似度分数，将语义相似度分数输入到负样本排序损失函数中进行计算得到经排序后的负样本句子表示；

对语义相似度分数进行处理得到语义相似度分数的分布概率，将语义相似度分数的分布概率输入到标签平滑损失函数中进行计算得到经标签平滑的负样本句子表示；

将锚点句子表示进行数据扩增得到正样本句子表示，将正样本句子表示、经排序后的负样本句子表示和经标签平滑的负样本句子表示输入到对比学习损失函数中进行训练，构建对比学习模型；

更新对比学习模型得到最优对比学习模型，输入待表示的句子到最优对比学习模型中生成句子表示。

进一步地，构建负样本排序损失函数，将语义相似度分数输入到负样本排序损失函数中进行计算得到经排序后的负样本句子表示的计算公式为：

其中，L _ranking表示负样本排序损失函数，N表示一个批次中负样本句子表示的数量，i表示当前的锚点句子表示，j表示该批次中的负样本句子表示，表示锚点句子表示，表示该批次中第一条负样本句子表示，/>表示该批次中第二条负样本句子表示，ε表示最大间隔。

进一步地，通过softmax函数对语义相似度分数进行归一化处理得到语义相似度分数的分布概率，计算公式为：

其中，q _i表示语义相似度分数的分布概率，s _i表示锚点句子表示的语义相似度分数，s _j表示负样本句子表示的语义相似度分数。

进一步地，构建标签平滑损失函数，将语义相似度分数的分布概率输入到标签平滑损失函数中进行计算得到经标签平滑的负样本句子表示的计算公式为：

其中，L _smoothing表示标签平滑损失函数，表示正样本句子表示，τ表示温度系数，α表示标签平滑的系数。

进一步地，将正样本句子表示、经排序后的负样本句子表示和经标签平滑的负样本句子表示输入到对比学习损失函数中进行训练的计算公式为：

其中，L _infoNCE表示对比学习损失函数，h _j表示负样本句子表示。

进一步地，训练对比学习模型，得到对比学习模型的损失函数，对比学习模型的损失函数表示为：

其中，L _final对比学习模型的损失函数，β、γ均表示超参数。

进一步地，设定对比学习模型总的训练迭代次数为T，将第T迭代下的对比学习模型作为最优对比学习模型。

一种无监督句子表示装置，包括：

输入模块，获取待表示的句子，将待表示的句子输入到语言模型中进行处理得到句子表示，所述句子表示包括锚点句子表示和负样本句子表示；

处理模块，计算锚点句子表示与负样本句子表示的语义相似度分数，将语义相似度分数输入到负样本排序损失函数中进行计算得到经排序后的负样本句子表示；对语义相似度分数进行处理得到语义相似度分数的分布概率，将语义相似度分数的分布概率输入到标签平滑损失函数中进行计算得到经标签平滑的负样本句子表示；

训练模块，将锚点句子表示进行数据扩增得到正样本句子表示，将正样本句子表示、经排序后的负样本句子表示和经标签平滑的负样本句子表示输入到对比学习损失函数中进行训练，构建对比学习模型；

输出模块，更新对比学习模型得到最优对比学习模型，输入待表示的句子到最优对比学习模型中生成句子表示。

一种计算机设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述的方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述所述的方法。

3.有益效果

相比于现有技术，本发明的优点在于：

（1）本发明的一种无监督句子表示方法、装置、计算机设备及存储介质，通过计算一个批次中锚点句子表示与负样本句子表示的语义相似度分数得到锚点句子表示与负样本句子表示的语义信息分布情况，有效避免在随机采样负样本句子表示时容易采到假负样本句子表示从而影响对比学习模型性能的情况。

（2）本发明的一种无监督句子表示方法、装置、计算机设备及存储介质，通过计算一个批次中的负样本句子表示根据负样本句子表示与锚点句子表示语义相似度分数的分布概率自适应的调节标签平滑参数的值，由此，对比学习模型在训练过程中会根据不同难度的负样本句子表示进行不同程度的梯度更新从而提升随机采样中负样本句子表示的性能。

（3）本发明的一种无监督句子表示方法、装置、计算机设备及存储介质，利用负样本排序损失函数对一个批次中负样本句子表示的语义信息排序进行约束，以此加强对对比学习模型的训练从而提高句子表示的质量。

（4）本发明的一种无监督句子表示方法、装置、计算机设备及存储介质，利用对比学习通过无监督方式对对比学习模型进行训练，不仅可以学习到对比学习中句子表示的语义信息，还能够更细粒度、更准确地捕获负样本句子表示的语义信息，进而通过调参方式使得对比学习模型生成高质量句子表示。

附图说明

图1为本发明实施例一种无监督句子表示方法流程图。

具体实施方式

下面结合说明书附图和具体的实施例，对本发明作详细描述。

实施例

如图1所示，本发明的一种无监督句子表示方法，包括以下步骤：获取待表示的句子，将待表示的句子输入到语言模型中进行处理得到句子表示，所述句子表示包括锚点句子表示和负样本句子表示；计算锚点句子表示与负样本句子表示的语义相似度分数，将语义相似度分数输入到负样本排序损失函数中进行计算得到经排序后的负样本句子表示；对语义相似度分数进行处理得到语义相似度分数的分布概率，将语义相似度分数的分布概率输入到标签平滑损失函数中进行计算得到经标签平滑的负样本句子表示；将锚点句子表示进行数据扩增得到正样本句子表示，将正样本句子表示、经排序后的负样本句子表示和经标签平滑的负样本句子表示输入到对比学习损失函数中进行训练，构建对比学习模型；更新对比学习模型得到最优对比学习模型，输入待表示的句子到最优对比学习模型中生成句子表示。

具体到本实施例中，首先获取待表示的句子，将待表示的句子输入到语言模型中进行处理得到句子表示，所述句子表示包括锚点句子表示和负样本句子表示。本实施例中，从维基百科数据集中随机抽取若干个英文句子作为训练语句，通过BERT-base语言模型对若干个英文句子进行编码得到句子表示，此时，得到的句子表示包括锚点句子表示和负样本句子表示。本实施例中，锚点句子表示和负样本句子表示均用于在对比学习框架下更好地学习句子之间特征信息。需要说明的是，本实施例中，还可以通过RoBERta语言模型等对待表示的句子进行编码。此外，本实施例中，通过BERT-base语言模型对待表示的句子进行编码为现有技术。

进一步地，计算锚点句子表示与负样本句子表示的语义相似度分数，将语义相似度分数输入到负样本排序损失函数中进行计算得到经排序后的负样本句子表示。具体地，利用现有的训练好的语义相似度模型计算锚点句子表示与负样本句子表示的语义相似度分数，需要说明的是，本实施例中，所使用的现有的训练好的语义相似度模型为all-Mili-LM-L6-V2。本实施例中，锚点句子表示与负样本句子表示的语义相似度分数的计算公式为：

其中，sim(h _i,h _j)表示锚点句子表示与负样本句子表示的语义相似度分数，h _i表示锚点句子表示，h _j表示负样本句子表示，T表示转置操作，||...||表示向量范数。

进而，构建负样本排序损失函数，将锚点句子表示与负样本句子表示的语义相似度分数输入到负样本排序损失函数中进行计算，得到经排序后的负样本句子表示。由此，通过负样本排序损失函数得到经排序后的负样本句子表示，可以更好地显示在一个批次中负样本句子表示在语义空间中与锚点句子表示细粒度的排序信息。本实施例中，通过构建负样本排序损失函数，将语义相似度分数输入到负样本排序损失函数中进行计算得到经排序后的负样本句子表示的计算公式为：

进一步地，对语义相似度分数进行处理得到语义相似度分数的分布概率，将语义相似度分数的分布概率输入到标签平滑损失函数中进行计算得到经标签平滑的负样本句子表示。具体地，将锚点句子表示与负样本句子表示的语义相似度分数通过softmax函数进行归一化处理得到语义相似度分数的分布概率。本实施例中，利用softmax函数对语义相似度分数进行归一化处理得到语义相似度分数的分布概率的计算公式为：

进而，构建标签平滑损失函数，将语义相似度分数的分布概率输入到标签平滑损失函数中进行计算得到经标签平滑的负样本句子表示。具体地，通过标签平滑损失函数对语言相似度的分布概率进行计算获得锚点句子表示的标签平滑系数α，由此得到经标签平滑的负样本句子表示。本实施例中，通过该标签平滑系数α可以更好地确定一个批次中负样本句子表示与当前锚点句子表示被拉近或推开的程度。本实施例中，通过构建标签平滑损失函数，将语义相似度分数的分布概率输入到标签平滑损失函数中进行计算得到经标签平滑的负样本句子表示的计算公式为：

值得说明的是，本实施例中，根据标签平滑损失函数对一个批次中的负样本句子表示的语义相似度分布的大小来自适应调整标签平滑系数α的大小，其中，q_i服从q~U|N|的均匀分布，由此，根据语义相似度分数的分布概率q_i来确定每个负样本句子表示的标签平滑程度，从而确定在后续对比学习训练过程中句子被拉近和推开的程度。

进一步地，将锚点句子表示进行数据扩增得到正样本句子表示，将正样本句子表示、经排序后的负样本句子表示和经标签平滑的负样本句子表示输入到对比学习损失函数中进行训练，构建对比学习模型。具体地，利用数据增强的方式对锚点句子表示进行数据扩增生成正样本句子表示。本实施例中，可以通过dropout和随机交换单词、随机删除单词、随机插入单词以及随机插入标点符号等方式对锚点句子表示进行数据扩增。进而，将上述所得到的正样本句子表示、经排序后的负样本句子表示和经标签平滑的负样本句子表示输入到对比损失函数中进行训练，从而构建对比学习模型。本实施例中，将正样本句子表示、经排序后的负样本句子表示和经标签平滑的负样本句子表示输入到对比学习损失函数中进行训练的计算公式为：

本实施例中，对比损失函数将锚点句子表示和负样本句子表示拉开由此来最大化表示语义空间，而标签平滑损失函数和样本排序损失函数在不同程度上将更相似的负样本句子表示推近，从而捕获细粒度的语义排序信息。进而，训练对比学习模型，得到对比学习模型的损失函数，对比学习模型的损失函数表示为：

其中，L _final表示对比学习模型的损失函数，β、γ均表示超参数，本实施例中，β、γ用于平衡各项损失函数。

最后，更新对比学习模型得到最优对比学习模型，输入待表示的句子到最优对比学习模型中生成句子表示。具体地，对对比学习模型进行梯度更新训练，优化对比学习模型参数直到对比学习模型收敛。本实施例中，设定对比学习模型总的训练迭代次数为T，将第T迭代下的对比学习模型作为最优对比学习模型。在对比损失函数的约束下，将第T代下的最优对比学习模型作为句子表示性能最好地模型，以实现高质量的句子表示。本实施例中，当T＝1时，对比学习模型收敛，进而将第1代下的对比学习模型作为最优对比学习模型。由此，将输入待表示的句子到最优对比学习模型中生成高质量的句子表示。

本实施例还提供一种无监督句子表示装置，包括输入模块、处理模块、训练模块以及输出模块。所述输入模块，获取待表示的句子，将待表示的句子输入到语言模型中进行处理得到句子表示，所述句子表示包括锚点句子表示和负样本句子表示。所述处理模块，计算锚点句子表示与负样本句子表示的语义相似度分数，将语义相似度分数输入到负样本排序损失函数中进行计算得到经排序后的负样本句子表示；对语义相似度分数进行处理得到语义相似度分数的分布概率，将语义相似度分数的分布概率输入到标签平滑损失函数中进行计算得到经标签平滑的负样本句子表示。所述训练模块，将锚点句子表示进行数据扩增得到正样本句子表示，将正样本句子表示、经排序后的负样本句子表示和经标签平滑的负样本句子表示输入到对比学习损失函数中进行训练，构建对比学习模型。所述输出模块，更新对比学习模型得到最优对比学习模型，输入待表示的句子到最优对比学习模型中生成句子表示。本实施例提供的一种无监督句子表示装置能够实现所述无监督句子表示方法的任一种方法，且一种无监督句子表示装置的具体工作过程可参考所述无监督句子表示方法实施例中的对应过程。本实施例所提供的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，某个模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的连接或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电性、机械或其它的形式的连接。

本实施例还提供一种计算机设备。一种计算机设备，包括存储器、处理器以及储存在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的一种无监督句子表示方法。

本实施例还提供一种计算机可读存储介质。一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行本实施例中所述的一种无监督句子表示方法。其中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用；计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

实验例子：

为了验证本实施例提供的一种无监督句子表示方法，本实施例比较了几个比较有竞争力的无监督语义表示模型，其中包括GloVe embeddings(avg.)，BERT-base(first-last avg.)，BERT-flow，BERT-whitening，IS-BERT，ConSERT，SimCSE，DCLR，ArcCSE，DiffCSE，PromptBERT和SNCSE在SentEval工具包中的7个语义文本相似度（STS）和7个迁移任务（TR）的无监督数据对模型进行评估，评价指标为斯皮尔曼系数（Spearman'scorrelation）。其中，STS任务包括STS 2012-2016，STS Benchmark和SICK-Relatedness。在这些数据集中，每个样本由两个句子组成，相似程度的得分在0到5之间，以此来显示语义相似的程度。

表1 不同句子嵌入模型在STS任务中的表现（Spearman's correlation）

表2 不同句子嵌入模型在迁移任务上的结果（Spearman's correlation）

上述表1、表2分别显示了一些无监督句子表示方法和本实施例提出的一种无监督句子表示方法在7个语义文本相似度任务（STS）和迁移任务（TR）上的表现。从实验结果可以看出，本实施例提出的一种无监督句子表示方法在Spearman's correlation指标上在所有的预训练语言模型上都明显优于现有方法。通过实验验证了该方法通过在负样本句子表示中采用标签平滑技术和细粒度的排序信息能获得更多的语义区分能力，从而提高句子表示的质量。

以上示意性地对本发明创造及其实施方式进行了描述，该描述没有限制性，在不背离本发明的精神或者基本特征的情况下，能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一，实际的结构并不局限于此，权利要求中的任何附图标记不应限制所涉及的权利要求。所以，如果本领域的普通技术人员受其启示，在不脱离本创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。此外，“包括”一词不排除其他元件或步骤，在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种无监督句子表示方法，包括以下步骤：

计算锚点句子表示与负样本句子表示的语义相似度分数，将语义相似度分数输入到负样本排序损失函数中进行计算得到经排序后的负样本句子表示，具体地，构建负样本排序损失函数，将语义相似度分数输入到负样本排序损失函数中进行计算得到经排序后的负样本句子表示的计算公式为：

其中，L _ranking表示经排序后的负样本句子表示，N表示一个批次中负样本句子表示的数量，i表示当前的锚点句子，j表示该批次中的负样本句子表示，表示锚点句子表示，/>表示该批次中第一条负样本句子表示，/>表示该批次中第二条负样本句子表示，ε表示最大间隔；

2.根据权利要求1所述的一种无监督句子表示方法，其特征在于，构建标签平滑损失函数，将语义相似度分数的分布概率输入到标签平滑损失函数中进行计算得到经标签平滑的负样本句子表示的计算公式为：

其中，L _smoothing表示经标签平滑的负样本句子表示，表示正样本句子表示，τ表示温度系数，α表示标签平滑的系数，q _i表示语义相似度分数的分布概率。

3.根据权利要求2所述的一种无监督句子表示方法，其特征在于，设定对比学习模型总的训练迭代次数为T，将第T迭代下的对比学习模型作为最优对比学习模型。

4.一种无监督句子表示装置，其特征在于，包括：

处理模块，计算锚点句子表示与负样本句子表示的语义相似度分数，将语义相似度分数输入到负样本排序损失函数中进行计算得到经排序后的负样本句子表示，具体地，构建负样本排序损失函数，将语义相似度分数输入到负样本排序损失函数中进行计算得到经排序后的负样本句子表示的计算公式为：

5.一种计算机设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-3任一项所述的方法。

6.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-3中任一项所述的方法。