CN114048825A

CN114048825A - 基于对比学习的聚类方法、系统、设备及存储介质

Info

Publication number: CN114048825A
Application number: CN202111434123.2A
Authority: CN
Inventors: 阮智昊; 江炼鑫; 莫洋
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-02-15

Abstract

本发明涉及人工智能，提供了一种基于对比学习的聚类方法,该方法包括：获取样本数据，样本数据中包括标签数据；根据样本数据得出第一相似标签矩阵和第一余弦相似度矩阵；根据第一相似标签矩阵和第一余弦相似度矩阵，得出第一损失函数；根据第一损失函数和样本数据进行训练得到优化模型；基于优化模型分别对标签数据和样本数据进行处理，得到第一质心序列和第二质心序列；根据第一质心序列和第二质心序列，对样本数据进行标签标注处理，得到伪标签数据；根据伪标签数据对优化模型进行训练得到聚类模型；将样本数据输入聚类模型得到聚类结果。本发明能够利用标签数据和无标签数据进行混合聚类，提高数据类别识别的准确性，改善聚类效果。

Description

基于对比学习的聚类方法、系统、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于对比学习的聚类方法、系统、设备及存储介质。

背景技术

聚类分析是指将数据对象的集合分组为由类似的对象组成的多个类的分析过程。相关技术中，根据数据所携带的标签进行分析识别，将类似标签的数据组成一个组类，从而划分成不同的组类。数据会因自身的标签而划分至不同的组类，因此，聚类效果会受到标签准确性的影响。但是，准确无误的标签数据通常是人工标注，难以获得足够的数据，仅采用标签数据进行聚类分析的成本过高，且由于数据量不足导致聚类结果不稳定，聚类效果差。而采用只有特征没有标签的无标签数据进行聚类分析，容易出现聚类点偏移，结果不稳定，聚类效果差。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种基于对比学习的聚类方法、系统、设备及存储介质，能够利用标签数据和无标签数据进行混合聚类，提高数据类别识别的准确性，改善聚类效果。

第一方面，本发明实施例提供了一种基于对比学习的聚类方法，该方法包括：

获取样本数据，其中，所述样本数据中包括标签数据；

根据所述样本数据，计算得出第一相似标签矩阵和第一余弦相似度矩阵；

根据所述第一相似标签矩阵和所述第一余弦相似度矩阵，计算得出第一损失函数；

根据所述第一损失函数和所述样本数据进行训练，得到优化模型；

基于所述优化模型对所述标签数据进行处理，得到第一质心序列，并基于所述优化模型对所述样本数据进行处理，得到第二质心序列；

根据所述第一质心序列和所述第二质心序列，对所述样本数据进行标签标注处理，得到伪标签数据；

根据所述伪标签数据对所述优化模型进行训练，得到聚类模型；

将所述样本数据输入所述聚类模型，得到聚类结果。

根据本发明的一些实施例，在上述基于对比学习的聚类方法中，所述根据所述样本数据，计算得出第一相似标签矩阵和第一余弦相似度矩阵，包括：

将所述样本数据输入基于转换器的双向编码表征BERT模型，得到多个第一训练数据和多个第二训练数据，其中，所述第一训练数据和所述第二训练数据一一对应相似；

计算任意一个所述第一训练数据和任意一个所述第二训练数据之间的标准相似度，得到第一相似标签矩阵；

计算任意一个所述第一训练数据和任意一个所述第二训练数据之间的余弦相似度，得到第一余弦相似度矩阵。

通过BERT模型对样本数据进行处理，得到对应相似的两组训练数据，计算两组训练数据之间的标准相似度和余弦相似度，得到任意两个样本数据之间的多个相似度，有助于后续的聚类分析，提高相似度计算的准确性。

根据本发明的一些实施例，在上述基于对比学习的聚类方法中，所述基于所述优化模型对所述标签数据进行处理，得到第一质心序列，包括：

将所述标签数据导入所述优化模型，得到标签表征向量；

根据所述标签表征向量，对所述标签数据进行聚类，得到多个标签簇；

根据欧式距离，对各个所述标签簇进行计算，得到多个中间质心数据；

对多个所述中间质心数据进行类别标签标注，得到标签质心数据；

根据所述标签质心数据得到第一质心序列。

通过优化模型将标签数据转化为标签表征向量，根据标签表征向量将标签数据进行聚类，形成标签簇，以寻找各个标签数据之间的相似度关系。计算各个标签簇的质心，并对各个质心数据标注类别标签，便于进行后续的质心对齐处理。

根据本发明的一些实施例，在上述基于对比学习的聚类方法中，所述基于所述优化模型对所述样本数据进行处理，得到第二质心序列，包括：

将所述样本数据导入所述优化模型，得到样本表征向量；

根据所述样本表征向量，对所述样本数据进行聚类，得到多个样本簇；

根据欧式距离，对各个所述样本簇进行计算，得到多个样本质心数据；

根据所述样本质心数据得到第二质心序列。

通过优化模型将所有样本数据转化为样本表征向量，并根据样本表征向量对样本数据进行聚类，形成样本簇，以寻找各个样本数据之间的相似度关系。计算各个样本簇的质心，作为各个样本簇的代表值，从而能够找到与标签簇质心的关系，提高聚类的准确性。

根据本发明的一些实施例，在上述基于对比学习的聚类方法中，所述第一质心序列包括多个类别标签；

所述根据所述第一质心序列和所述第二质心序列，对所述样本数据进行标签标注处理，得到伪标签数据，包括：

对所述第一质心序列和所述第二质心序列进行质心对齐处理，得到第三质心序列；

根据所述第三质心序列和所述类别标签，对所述样本数据进行标注，得到伪标签数据，所述伪标签数据包括所述类别标签。

通过对第一质心序列和第二质心序列进行质心对齐处理，得到标签数据与样本数据之间的映射关系，从而对样本数据标注类别标签，提高标签的准确性，有助于提高聚类准确性。

根据本发明的一些实施例，在上述基于对比学习的聚类方法中，所述第一质心序列包括标签质心数据，所述第二质心序列包括样本质心数据；

所述对所述第一质心序列和所述第二质心序列进行质心对齐处理，得到第三质心序列，包括：

根据匈牙利算法，计算任意的所述标签质心数据与所述样本质心数据之间的匹配度，得到序列映射关系；

根据所述序列映射关系，利用所述标签质心数据对所述样本质心数据进行替换，得到第三质心序列，所述第三质心序列包括所述类别标签。

通过计算标签质心数据和样本质心数据之间的匹配度，以标签簇作为参考，对样本簇标注相应的类别标签，实现伪标签的标注，从而能够针对无标签数据和标签数据进行混合聚合，利用伪标签改善聚类效果。

根据本发明的一些实施例，在上述基于对比学习的聚类方法中，所述根据所述伪标签数据对所述优化模型进行训练，得到聚类模型，包括：

从所述伪标签数据中确定具有相同所述类别标签的伪标签数据，并根据具有相同所述类别标签的伪标签数据得到多个训练数据组；

对各个所述训练数据组进行拆分处理，得到多个第三训练数据和多个第四训练数据，其中，所述第三训练数据与所述第四训练数据一一对应相似；

根据所述第三训练数据和所述第四训练数据，得到第二相似标签矩阵和第二余弦相似度矩阵；

根据所述第二相似标签矩阵和所述第二余弦相似度矩阵，得到第二损失函数；

根据所述第二损失函数和所述伪标签数据，对所述优化模型进行训练，得到聚类模型。

通过对伪标签数据的类别标签进行分成两租对应相似的训练数据组，并利用两组训练数据之间的相似度，计算第二损失函数，对优化模型进行训练，提高优化模型的准确性，改善聚类效果。

第二方面，本发明实施例提供一种基于对比学习的聚类系统，包括：

数据获取模块，用于获取样本数据，其中，所述样本数据中包括标签数据；

相似矩阵模块，用于根据所述样本数据，计算得出第一相似标签矩阵和第一余弦相似度矩阵；

损失函数模块，用于根据所述第一相似标签矩阵和所述第一余弦相似度矩阵，计算得出第一损失函数；

模型训练模块，用于根据所述第一损失函数和所述样本数据，对神经模型进行训练，得到优化模型；

质心序列模块，用于利用所述优化模型对所述标签数据进行处理，得到第质心序列，并利用所述优化模型对所述样本数据进行处理，得到第二质心序列；

伪标签标注模块，用于根据所述第一质心序列和所述第二质心序列，对所述样本数据进行标签标注处理，得到伪标签数据；

所述模型训练模块还用于根据所述伪标签数据对所述优化模型进行训练，得到聚类模型；

聚类分析模块，用于将所述样本数据输入所述聚类模型，得到聚类结果。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面的基于对比学习的聚类方法。

第四方面，本发明实施例提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现如上述第一方面的基于对比学习的聚类方法。

根据本发明提供的实施例的基于对比学习的聚类方法，至少具有如下有益效果：获取的样本数据包括标签数据和无标签数据，利用标签数据和无标签数据进行混合聚类，解决仅采用标签数据成本高和难以获取的问题以及仅采用无标签数据聚类不稳定的问题。利用样本数据构建出的第一相似标签矩阵和第一余弦相似矩阵，计算出第一损失函数，能够提高模型训练的准确度。采用第一损失函数和样本数据对神经网络进行训练，得到优化模型，并基于优化模型分别对标签数据和所有样本数据进行处理，得到第一质心序列和第二质心序列，即得到各个标签数据之间的联系，以及各个样本数据之间的联系。通过第一质心序列和第二质心序列对样本数据进行伪标签标注，利用标签数据和样本数据之间的关系得到伪标签数据，从而样本数据中的无标签数据具有伪标签，有助于进行后续的聚类步骤。利用伪标签数据对优化模型进行训练，寻找各个伪标签数据之间的联系，从而得到聚类模型。将样本数据输入聚类模型，输出聚类结果，实现对标签数据和无标签数据的混合聚类，通过标签数据和样本数据之间的联系，为样本数据进行伪标签标注，提高数据类别识别的准确性，改善聚类效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明实施例提供的基于对比学习的聚类方法的流程图；

图2是图1中步骤S300的具体实现过程示意图；

图3是图1中步骤S500的具体实现过程示意图；

图4是图1中步骤S500的另一具体实现过程示意图；

图5是图1中步骤S600的具体实现过程示意图；

图6是图5中步骤S610的具体实现过程示意图；

图7是图1中步骤S700的具体实现过程示意图；

图8是本发明实施例提供的基于对比学习的聚类系统的结构示意图；

图9是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在模块示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于模块中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明涉及人工智能，提供了一种基于对比学习的聚类方法，获取样本数据，其中，样本数据中包括标签数据；根据样本数据，计算得出第一相似标签矩阵和第一余弦相似度矩阵；根据第一相似标签矩阵和第一余弦相似度矩阵，计算得出第一损失函数；根据第一损失函数和样本数据进行训练，得到优化模型；基于优化模型对标签数据进行处理，得到第一质心序列，并基于优化模型对样本数据进行处理，得到第二质心序列；根据第一质心序列和第二质心序列，对样本数据进行标签标注处理，得到伪标签数据；根据伪标签数据对优化模型进行训练，得到聚类模型；将样本数据输入聚类模型，得到聚类结果，从而实现对标签数据和无标签数据的混合聚类，通过标签数据和样本数据之间的联系，为样本数据进行伪标签标注，提高数据类别识别的准确性，改善聚类效果。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

需要说明的是，人工智能技术还包括按照某个特定标准，如距离准则，把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离，即聚类。

聚类分析是研究分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类分析是由若干模式组成的，通常，模式是一个度量的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

聚类的应用范围广泛，例如在商业上，聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块，可以作为一个单独的工具以发现数据库中分布的一些深层的信息，并且概括出每一类的特点，或者把注意力放在某一个特定的类上以作进一步的分析；并且，聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。

参照图1，图1示出了本发明实施例提供的基于对比学习的聚类方法的流程图，该基于对比学习的聚类方法包括但不限于有以下步骤：

步骤S100，获取样本数据，其中，样本数据中包括标签数据；

步骤S200，根据样本数据，计算得出第一相似标签矩阵和第一余弦相似度矩阵；

步骤S300，根据第一相似标签矩阵和第一余弦相似度矩阵，计算得出第一损失函数；

步骤S400，根据第一损失函数和样本数据进行训练，得到优化模型；

步骤S500，基于优化模型对标签数据进行处理，得到第一质心序列，并基于优化模型对样本数据进行处理，得到第二质心序列；

步骤S600，根据第一质心序列和第二质心序列，对样本数据进行标签标注处理，得到伪标签数据；

步骤S700，根据伪标签数据对优化模型进行训练，得到聚类模型；

步骤S800，将样本数据输入聚类模型，得到聚类结果。

可以理解的是，样本数据中包括标签数据和无标签数据。标签数据中的标签是依赖人工进行标注，数据本身提供的信息内容比稀疏的标签更丰富，并且为了提高模型的准确性，需要为模型提供大量的标签数据，但标签数据是通过手工标签获得的，需要耗费大量的时间成本和人工成本，在一些特殊领域，例如医疗领域，获取足够的数据本身就是一个挑战，因此，仅采用标签数据进行训练得到的聚类模型准确度低。并且由于标签数据中特定标签的限制，通过标签数据训练得到的模型往往只能处理相同的数据，无法针对通用数据进行处理，适用性低。而无标签数据并没有包含充足的语义特征，对聚类分析不能提供足够的帮助，难以提高模型预测的准确性。而仅采用无标签数据进行聚类分析，虽然能够解决标签数据难以获取且成本高的问题，但无标签数据只有特征没有标签，容易出现聚类点偏移，聚类结果不稳定，聚类效果差。因此，采用标签数据和无标签数据进行混合聚类，利用无标签数据的成本低且易获取的特性，解决采用标签数据成本高且数据数量少的问题，从而能够通过大量的数据对模型进行训练，提高准确性。而利用标签数据的标签对无标签数据进行限制，解决了仅采用无标签数据聚类结果不稳定，聚类点偏移的问题，改善聚类效果。

计算任意两个样本数据之间的标准相似度，构成第一相似标签矩阵。其中，当两个样本数据为由同一数据转化得到的，则认为两个样本数据是相似的，两个样本数据之间的标准相似度为1。当两个样本数据为由不同数据转化得到的，则认为两个样本数据不相似，两个样本数据之间的标准相似度为0。另外，计算任意两个样本数据之间的余弦相似度，构成第一余弦相似度矩阵。余弦相似度是通过计算两个样本数据之间的夹角的余弦值来度量它们之间的相似性。当余弦相似度越高，则认为两个样本数据之间的相似程度越高。

分别将第一相似标签矩阵和第一余弦相似度矩阵展开成一维向量，使用交叉熵来计算第一损失函数，第一损失函数的计算公式可以为：

其中，H(p,q)为第一损失函数，p(x)为第一相似标签矩阵展开成的一维向量，q(x)为第一余弦相似度矩阵展开成的一维向量，x为样本数据的标号。通过结合第一相似标签矩阵和第一余弦相似度矩阵进行计算第一损失函数，提高样本数据之间相似度的准确性，从而提高第一损失函数的准确性。将样本数据输入神经网络模型，并利用第一损失函数进行训练，使得神经网络模型能够贴合样本数据，得到优化模型。其中，在利用样本数据对神经网络模型进行训练的过程中，将样本数据划分为训练集和验证集。将训练集输入神经网络模型中进行训练，并且每间隔一周期计算神经网络模型在验证集上的误差，例如，每训练15次训练集可以作为一周期。当神经网络模型在验证集上的误差比上一次训练结果差，即对验证集的预测结果与实际结果的偏离程度更大，则停止训练，使用上一次的训练结果中的参数作为神经网络模型的最终参数，得到优化模型，从而能够提高优化模型的准确性。

基于优化模型分别对标签数据和样本数据进行处理，取出标签数据和样本数据中具有代表性的数据，得到标签数据相应的第一质心序列和样本数据对应的第二质心序列。因此，能够利用第一质心序列和第二质心序列寻找标签数据与样本数据之间的关联性，为样本数据标注伪标签，实现无标签数据和标签数据的混合聚类。通过伪标签数据对优化模型进行训练，使得优化模型学习样本数据与伪标签数据之间的关联性，提高对样本数据聚类的准确性，从而将样本数据输入聚类模型进行处理，能够得到高准确性和高稳定性的聚类结果。

参照图2，图1所示实施例中的步骤S300包括但不限于有以下步骤：

步骤S310，将样本数据输入基于转换器的双向编码表征BERT模型，得到多个第一训练数据和多个第二训练数据，其中，第一训练数据和第二训练数据一一对应相似；

步骤S320，计算任意一个第一训练数据和任意一个第二训练数据之间的标准相似度，得到第一相似标签矩阵；

步骤S330，计算任意一个第一训练数据和任意一个第二训练数据之间的余弦相似度，得到第一余弦相似度矩阵。

可以理解的是，将样本数据输入基于转换器的双向编码表征(BidirectionalEncoder Representation from Transformers，BERT)模型中，能够得到第一训练数据和第二训练数据，其中，第一训练数据的数量、第二训练数据的数量与样本数据的数量相同。另外，序号相同的第一训练数据与第二训练数据是由同一个样本数据得到的，因此，认为序号相同的第一训练数据和第二训练数据是相似的，其标准相似度为1。而序号不同的第一训练数据和第二训练数据不是由同一个样本数据得到的，因此，认为序号不同的第一训练数据和第二训练数据是不相似的，其标准相似度为0。将第一训练数据和第二训练数据进行组合，计算任意一个第一训练数据和任意一个第二训练数据之间的标准相似度，构成第一相似标签矩阵，其中，第一相似标签矩阵中对角线上的元素的标签被标为1，其余元素被标为0，即序号相同的第一训练数据和第二训练数据相似，序号不同的第一训练数据和第二训练数据不相似。将第一训练数据和第二训练数据进行组合，计算任意一个第一训练数据和任意一个第二训练数据之间的余弦相似度，构成第一余弦相似度矩阵，其中，第一余弦相似度矩阵中元素的数值，表示第一训练数据和第二训练数值之间的相似程度，数值越大则相似程度越高。通过结合标准相似度和余弦相似度，提高数据之间相似度计算的准确度，从而提高后续聚类步骤的准确性，改善聚类效果。

参照图3，图1所示实施例步骤S500中的第一质心序列生成步骤包括但不限于有以下步骤：

步骤S510，将标签数据导入优化模型，得到标签表征向量；

步骤S520，根据标签表征向量，对标签数据进行聚类，得到多个标签簇；

步骤S530，根据欧式距离，对各个标签簇进行计算，得到多个中间质心数据；

步骤S540，对多个中间质心数据进行类别标签标注，得到标签质心数据；

步骤S550，根据标签质心数据得到第一质心序列。

可以理解的是，将标签数据作为优化模型的输入，计算标签数据对应的标签表征向量。根据标签表征向量，将标签数据进行聚类，得到多个标签簇。并且采用欧式距离对各个标签簇进行计算，得到各个标签簇的质心，作为中间质心数据。对中间质心数据进行类别标签标注，得到标签质心数据，其中，标签质心数据包括用于类别区分的类别标签。将各个标签质心数据组成第一质心序列，以便于后续的质心对齐处理，寻找标签数据与样本数据之间的映射关系。

参照图4，图1所示实施例步骤S500中的第二质心序列生成步骤包括但不限于有以下步骤：

步骤S560，将样本数据导入优化模型，得到样本表征向量；

步骤S570，根据样本表征向量，对样本数据进行聚类，得到多个样本簇；

步骤S580，根据欧式距离，对各个样本簇进行计算，得到多个样本质心数据；

步骤S590，根据样本质心数据得到第二质心序列。

可以理解的是，利用优化数据对样本数据进行训练，得到样本数据对应的样本表征向量。对样本表征向量进行聚类，即对样本数据进行聚类，得到样本簇。其中，样本簇的数量可以通过预设的簇个数参数进行上限值，得到相应数量的样本簇。通过欧式距离，对每个样本簇进行计算，得到各个样本簇的质心，即样本质心数据。将作为各个样本簇的代表数据的样本质心数据组成第二质心序列，从而有助于进行后续的质心对齐，利用标签数据对样本数据进行伪标签的标注。

参照图5，图1所示实施例中的步骤S600包括但不限于有以下步骤：

步骤S610，对第一质心序列和第二质心序列进行质心对齐处理，得到第三质心序列；

步骤S620，根据第三质心序列和类别标签，对样本数据进行标注，得到伪标签数据，伪标签数据包括类别标签。

其中，第一质心序列包括多个类别标签。

可以理解的是，对第一质心序列和第二质心序列进行质心对齐处理，利用第一质心序列的类别标签，提取标签簇与样本簇之间的映射关系，得到第三质心序列。根据第三质心序列中标签簇与样本簇之间的映射关系，对样本数据标注类别标签，得到伪标签数据。其中，在进行类别标签标注前，计算所有样本数据与其所在样本簇的簇心的距离；基于距离大小进行排序，选取所有距离的中位数作为界限值；遍历所有样本簇的所有样本数据，保留样本数据与其所在簇的簇心距离小于界限值的样本数据，从而能够提高伪标签的准确性。利用标签数据在小范围聚类的稳定性和准确性，对样本数据进行伪标签标注，提高伪标签数据的准确性。

参照图6，图5所示实施例中的步骤S610包括但不限于有以下步骤：

步骤S611，根据匈牙利算法，计算任意的标签质心数据与样本质心数据之间的匹配度，得到序列映射关系；

步骤S612，根据序列映射关系，利用标签质心数据对样本质心数据进行替换，得到第三质心序列，第三质心序列包括类别标签。

其中，第一质心序列包括标签质心数据，第二质心序列包括样本质心数据。

可以理解的是，匈牙利算法是一种在多项式时间内求解任务分配问题的组合优化算法，利用匈牙利算法能够计算第一质心序列和第二质心序列中的各个元素的匹配度，即各个标签质心数据和各个样本质心数据之间一一映射的关系，得到序列映射关系。利用标签质心数据与样本质心数据之间的序列映射关系，将第一质心序列中的标签质心数据，替换第二质心序列中的样本质心数据，在替换的过程中保持标签质心数据的类别标签不变，从而得到的第三质心序列中也包含有相应的类别标签。因此，利用标签质心数据与样本质心数据之间的映射关系，对样本数据进行类别划分，对样本数据进行伪标签标注，使得无标签数据能够具有伪标签，提高聚类的稳定性，改善聚类效果。

参照图7，在伪标签数据包括类别标签的情况下，图1所示实施例中的步骤S700包括但不限于有以下步骤：

步骤S710，从伪标签数据中确定具有相同类别标签的伪标签数据，并根据具有相同类别标签的伪标签数据得到多个训练数据组；

步骤S720，对各个训练数据组进行拆分处理，得到多个第三训练数据和多个第四训练数据，其中，第三训练数据与第四训练数据一一对应相似；

步骤S730，根据第三训练数据和第四训练数据，得到第二相似标签矩阵和第二余弦相似度矩阵；

步骤S740，根据第二相似标签矩阵和第二余弦相似度矩阵，得到第二损失函数；

步骤S750，根据第二损失函数和伪标签数据，对优化模型进行训练，得到聚类模型。

可以理解的是，从伪标签数据中筛选出训练数据组，其中，训练数据组可以由相同类别标签的两个伪标签数据构成。并且从伪标签数据中筛选出的多个训练数据组之间的类别标签不相同，从而能够提高模型训练的准确性。对训练数据组进行拆分，得到第三训练数据和第四训练数据，同一个训练数据组拆分得到的第三训练数据和第四训练数据具有相同的序号，即相同序号的第三训练数据和第四训练数据具有相同的类别标签，因此，第三训练数据和第四训练数据一一对应相似。将第三训练数据和第四训练数据组合，计算任意一个第三训练数据和任意一个第四训练数据之间的标准相似度，构成第二相似标签矩阵。其中，具有相同类别标签的第三训练数据和第四训练数据之间的相似度为1，具有不相同类别标签的第三训练数据和第四训练数据之间的相似度为0。因此，第二相似标签矩阵对角线上的元素被标为1，其余元素被标为0。另外，计算任意一个第三训练数据和任意一个第四训练数据之间的余弦相似度，组合构成第二余弦相似度矩阵。其中，第二余弦相似度矩阵中元素的数值表示第三训练数据与第四训练数据之间的相似程度，数值越大则相似程度越高。将第二相似标签矩阵和第二余弦相似度矩阵分别展开成一维向量，使用交叉熵进行计算第二损失函数。将伪标签数据输入优化模型，以第二损失函数为标准，对优化模型进行训练。将伪标签数据划分为伪标签训练集和伪标签验证集。将伪标签训练集输入优化模型中进行训练，并且每间隔一周期计算优化模型在伪标签验证集上的误差，例如，每训练20次伪标签训练集可以作为一周期。当优化模型在伪标签验证集上的误差比上一次伪标签训练结果差，即对伪标签验证集的预测结果与实际结果的偏离程度更大，则停止训练，使用上一次的训练结果中的参数作为优化模型的最终参数，得到聚类模型，从而能够提高聚类模型的准确性。

需要说明的是，对优化模型进行训练，还可以基于任意两个伪标签之间的距离，对伪标签进行聚类。其中，可以采用汉明距离对各个伪标签数据进行距离计算，也可以采用杰卡德距离进行计算，还可以根据余弦距离进行计算，还可以根据欧式距离进行计算。其中，可以选取多个伪标签数据作为初始的聚类中心，计算每个伪标签数据对应的伪标签数据与各个聚类中心之间的距离，把每个伪标签数据分配至与其距离最近的聚类中心。而聚类中心以及被分配至聚类中心的伪标签数据就代表一个聚类簇。当所有的伪标签数据分配完成，则每个聚类簇的聚类中心则会根据聚类簇中已有的伪标签数据进行重新计算。不断重复计算，直至没有伪标签数据被重新分配至不同的聚类簇，或者聚类中心所变化的距离小于预设距离值，从而完成对优化模型的训练，实现无标签数据和标签数据的混合处理，提高聚类的准确度，改善聚类效果。

参照图8，图8示出了本发明实施例提供的基于对比学习的聚类系统800的结构示意图。

可以理解的是，基于对比学习的聚类系统800包括：

数据获取模块810，用于获取样本数据，其中，样本数据中包括标签数据。

相似矩阵模块820，用于根据样本数据，计算得出第一相似标签矩阵和第一余弦相似度矩阵。

损失函数模块830，用于根据第一相似标签矩阵和第一余弦相似度矩阵，计算得出第一损失函数。

模型训练模块840，用于根据第一损失函数和样本数据，对神经模型进行训练，得到优化模型。

质心序列模块850，用于基于优化模型对标签数据进行处理，得到第质心序列，并基于优化模型对样本数据进行处理，得到第二质心序列。

伪标签标注模块860，用于根据第一质心序列和第二质心序列，对样本数据进行标签标注处理，得到伪标签数据。

其中，模型训练模块840还用于根据伪标签数据对优化模型进行训练，得到聚类模型。

聚类分析模块870，用于将样本数据输入聚类模型，得到聚类结果。

另外，相似矩阵模块820包括：

BERT模型模块821，用于将样本数据输入基于转换器的双向编码表征BERT模型，得到多个第一训练数据和多个第二训练数据，其中，第一训练数据和第二训练数据一一对应相似。

第一相似标签矩阵模块822，用于计算任意一个第一训练数据和任意一个第二训练数据之间的标准相似度，得到第一相似标签矩阵。

第一余弦相似度矩阵模块823，计算任意一个第一训练数据和任意一个第二训练数据之间的余弦相似度，得到第一余弦相似度矩阵。

另外，质心序列模块850包括：

标签表征向量模块851，将标签数据导入优化模型，得到标签表征向量。

标签聚类模块852，用于根据标签表征向量，对标签数据进行聚类，得到多个标签簇。

中间质心计算模块853，用于根据欧式距离，对各个标签簇进行计算，得到多个中间质心数据。

质心数据标注模块854，用于对多个中间质心数据进行类别标签标注，得到标签质心数据。

第一质心序列模块855，用于根据标签质心数据得到第一质心序列。

另外，质心序列模块850还包括：

样本表征向量模块856，用于将样本数据导入优化模型，得到样本表征向量。

样本聚类模块857，用于根据样本表征向量，对样本数据进行聚类，得到多个样本簇。

样本质心数据模块858，用于根据欧式距离，对各个样本簇进行计算，得到多个样本质心数据。

第二质心序列模块859，用于根据样本质心数据得到第二质心序列。

另外，伪标签标注模块860包括：

质心对齐模块861，用于对第一质心序列和第二质心序列进行质心对齐处理，得到第三质心序列。

类别标签标注模块862，用于根据第三质心序列和类别标签，对样本数据进行标注，得到伪标签数据，伪标签数据包括类别标签。

另外，质心对齐模块861包括：

序列映射模块863，用于根据匈牙利算法，计算任意的标签质心数据与样本质心数据之间的匹配度，得到序列映射关系。

第三质心序列模块864，用于根据序列映射关系，利用标签质心数据对样本质心数据进行替换，得到第三质心序列，第三质心序列包括类别标签。

另外，模型训练模块840包括：

数据分组模块841，用于从伪标签数据中确定具有相同类别标签的伪标签数据，并根据具有相同类别标签的伪标签数据得到多个训练数据组。

数据拆分模块842，用于对各个训练数据组进行拆分处理，得到多个第三训练数据和多个第四训练数据，其中，第三训练数据与第四训练数据一一对应相似。

第二相似矩阵模块843，用于根据第三训练数据和第四训练数据，得到第二相似标签矩阵和第二余弦相似度矩阵。

第二损失函数模块844，用于根据第二相似标签矩阵和第二余弦相似度矩阵，得到第二损失函数。

模型优化模块845，用于根据第二损失函数和伪标签数据，对优化模型进行训练，得到聚类模型。

参照图9，图9示出了本发明实施例提供的电子设备900。该电子设备900包括存储器910、处理器920及存储在存储器910上并可在处理器920上运行的计算机程序，处理器920执行计算机程序时实现如上述实施例中的基于对比学习的聚类方法。

存储器910作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如本发明上述实施例中的基于对比学习的聚类方法。处理器920通过运行存储在存储器910中的非暂态软件程序以及指令，从而实现上述本发明上述实施例中的基于对比学习的聚类方法。

存储器910可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储执行上述实施例中的基于密度半径的聚类方法所需的数据等。此外，存储器910可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。需要说明的是，存储器910可选包括相对于处理器920远程设置的存储器，这些远程存储器可以通过网络连接至该终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述实施例中的基于对比学习的聚类方法所需的非暂态软件程序以及指令存储在存储器中，当被一个或者多个处理器执行时，执行上述实施例中的基于对比学习的聚类方法，例如，执行以上描述的图1中的方法步骤S100至步骤S800、图2中的方法步骤S310至步骤S330、图3中的方法步骤S510至步骤S550、图4中的方法步骤S560至步骤S590、图5中的方法步骤S610至步骤S620、图6中的方法步骤S611至步骤S612、图7中的方法步骤S710至步骤S750。

本发明还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行如上述实施例中的基于对比学习的聚类方法，例如，执行以上描述的图1中的方法步骤S100至步骤S800、图2中的方法步骤S310至步骤S330、图3中的方法步骤S510至步骤S550、图4中的方法步骤S560至步骤S590、图5中的方法步骤S610至步骤S620、图6中的方法步骤S611至步骤S612、图7中的方法步骤S710至步骤S750。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

需要说明的是，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于对比学习的聚类方法，所述方法包括：

获取样本数据，其中，所述样本数据中包括标签数据；

将所述样本数据输入所述聚类模型，得到聚类结果。

2.根据权利要求1所述的基于对比学习的聚类方法，其特征在于，所述根据所述样本数据，计算得出第一相似标签矩阵和第一余弦相似度矩阵，包括：

3.根据权利要求1所述的基于对比学习的聚类方法，其特征在于，所述基于所述优化模型对所述标签数据进行处理，得到第一质心序列，包括：

将所述标签数据导入所述优化模型，得到标签表征向量；

根据所述标签质心数据得到第一质心序列。

4.根据权利要求1所述的基于对比学习的聚类方法，其特征在于，所述基于所述优化模型对所述样本数据进行处理，得到第二质心序列，包括：

将所述样本数据导入所述优化模型，得到样本表征向量；

根据所述样本质心数据得到第二质心序列。

5.根据权利要求1所述的基于对比学习的聚类方法，其特征在于，所述第一质心序列包括多个类别标签；

6.根据权利要求5所述的基于对比学习的聚类方法，其特征在于，所述第一质心序列包括标签质心数据，所述第二质心序列包括样本质心数据；

7.根据权利要求5所述的基于对比学习的聚类方法，其特征在于，所述根据所述伪标签数据对所述优化模型进行训练，得到聚类模型，包括：

8.一种基于对比学习的聚类系统，其特征在于，包括：

质心序列模块，用于基于所述优化模型对所述标签数据进行处理，得到第质心序列，并基于所述优化模型对所述样本数据进行处理，得到第二质心序列；

其中，所述模型训练模块还用于根据所述伪标签数据对所述优化模型进行训练，得到聚类模型；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于对比学习的聚类方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至7中任意一项所述的基于对比学习的聚类方法。