CN116257633A

CN116257633A - 文本聚类方法及装置

Info

Publication number: CN116257633A
Application number: CN202310485490.8A
Authority: CN
Inventors: 郑小林; 胡梦玲; 陈超超; 刘伟明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-06-13

Abstract

本说明书提供文本聚类方法及装置，其中文本聚类方法包括：获取至少两个待聚类文本的类别标签，并根据文本分类模型确定至少两个待聚类文本对应的预测类别分布，其中，文本分类模型为基于类别标签迭代训练设定次数获得；根据最优传输求解算法，确定预测类别分布对应的最优类别分布；根据最优类别分布更新类别标签，并基于更新后的类别标签继续对文本分类模型进行训练，直至文本分类模型收敛；通过收敛的文本分类模型，确定至少两个待聚类文本对应的聚类结果。如此，基于最优传输求解算法不断更新类别标签，提高了待聚类文本对文本类别不平衡的鲁棒性，且通过可靠的类别标签作为监督信号可以提高文本分类模型对数据噪声的鲁棒性。

Description

文本聚类方法及装置

技术领域

本说明书涉及计算机技术领域，特别涉及一种文本聚类方法。本说明书同时涉及一种文本聚类装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着计算机技术和互联网技术的快速发展，越来越多的信息可以通过线上文本的方式进行存储和管理，越来越多的领域开始利用计算机进行文本匹配和聚类，从而便于快速查找和了解相关内容，而随着文本数量的快速增长，文本聚类的算法越来越多。

现有技术中，往往是获取大量不同类别的文本，基于该大量不同类别的文本训练获得分类模型，但是不同类别的文本数量之间可能差别很大，导致不同类别训练样本数不平衡，且由于文本的稀疏性，噪声对聚类结果的影响也较大，缺少可靠的监督信号，严重影响分类模型的鲁棒性，从而严重影响文本聚类结果的准确性。进而需要更准确更可靠的方法进行文本聚类的操作或者处理。

发明内容

有鉴于此，本说明书实施例提供了一种文本聚类方法。本说明书同时涉及一种文本聚类装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种文本聚类方法，包括：

获取至少两个待聚类文本的类别标签，并根据文本分类模型确定至少两个待聚类文本对应的预测类别分布，其中，文本分类模型为基于类别标签迭代训练设定次数获得；

根据最优传输求解算法，确定预测类别分布对应的最优类别分布；

根据最优类别分布更新类别标签，并基于更新后的类别标签继续对文本分类模型进行训练，直至文本分类模型收敛；

通过收敛的文本分类模型，确定至少两个待聚类文本对应的聚类结果。

根据本说明书实施例的第二方面，提供了一种文本聚类装置，包括：

第一确定模块，被配置为获取至少两个待聚类文本的类别标签，并根据文本分类模型确定至少两个待聚类文本对应的预测类别分布，其中，文本分类模型为基于类别标签迭代训练设定次数获得；

第二确定模块，被配置为根据最优传输求解算法，确定预测类别分布对应的最优类别分布；

更新模块，被配置为根据最优类别分布更新类别标签，并基于更新后的类别标签继续对文本分类模型进行训练，直至文本分类模型收敛；

第三确定模块，被配置为通过收敛的文本分类模型，确定至少两个待聚类文本对应的聚类结果。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，以实现上述的文本聚类方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述的文本聚类方法的步骤。

本说明书实施例提供的文本聚类方法，获取至少两个待聚类文本的类别标签，并根据文本分类模型确定至少两个待聚类文本对应的预测类别分布，其中，文本分类模型为基于类别标签迭代训练设定次数获得；根据最优传输求解算法，确定预测类别分布对应的最优类别分布；根据最优类别分布更新类别标签，并基于更新后的类别标签继续对文本分类模型进行训练，直至文本分类模型收敛；通过收敛的文本分类模型，确定至少两个待聚类文本对应的聚类结果。

这种情况下，先获取至少两个待聚类文本的类别标签，基于该类别标签迭代训练设定次数获得文本分类模型，通过文本分类模型获得至少两个待聚类文本对应的预测类别分布，通过最优传输求解算法，求解预测类别分布对应的最优类别分布，以对初始确定出的类别标签进行更新，然后基于更新后的类别标签继续对文本分类模型进行训练，直至文本分类模型收敛，可以获得至少两个待聚类文本对应的聚类结果。如此，通过最优传输求解算法，对初始的类别标签不断进行迭代更新，使得至少两个待聚类文本的类别标签逐渐靠近真实类别分布，生成可靠的类别标签，将该可靠的类别标签作为监督信号，对文本分类模型进行训练直至收敛，基于最优传输求解算法不断更新类别标签，提高了待聚类文本对文本类别不平衡的鲁棒性，且通过可靠的类别标签作为监督信号可以提高文本分类模型对数据噪声的鲁棒性，从而提高了文本分类模型的识别准确性，进而保证了文本聚类结果的准确性。

附图说明

图1是本说明书一实施例提供的一种文本聚类方法的流程图；

图2是本说明书一实施例提供的一种文本聚类方法的算法架构示意图；

图3是本说明书一实施例提供的一种应用于短文本场景下的文本聚类方法的处理流程图；

图4是本说明书一实施例提供的一种文本聚类装置的结构示意图；

图5是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

需要说明的是，有非常多的数据是通过短文本的形式呈现的，而短文本聚类可以从大量的短文本数据中挖掘出有价值的信息，是最基础的文本挖掘任务之一。但是短文本往往是类别不平衡的和数据嘈杂的，短文本聚类方法不能很好地处理短文本聚类问题。也就是说，短文本有很多类别并且其类别分布存在各种情况，不同短文本数据集往往具有不同的类别分布，可能各个类别数据量差不多(几乎平衡)，也可能差别很大(严重不平衡)，目前的短文本聚类方法没有考虑类别不平衡的情况，在数据严重不平衡时会得到糟糕的解，聚类结果正确率会显著下降；此外，短文本数据的长度较短，蕴含的信息量比较小，由于短文本的稀疏性，噪声对聚类结果的影响较大，目前的短文本聚类方法由于缺少监督信息导致了不够鲁棒的文本表示，从而影响文本聚类结果。

因而，本说明书实施例中提供了一种鲁棒的文本聚类方法，通过提供生成可靠的伪标签来指导鲁棒的短文本表示学习，从而得到鲁棒的短文本聚类结果。该方法具体来说，主要包括两个部分：(1)生成可靠的伪标签：通过评估实际的类别分布并限制伪标签分布服从评估的类分布；(2)鲁棒的表示学习：将生成的伪标签作为监督信号，结合对比学习以训练到鲁棒的短文本表示。这两个部分相互促进，迭代优化，既提供了模型对数据不平衡的鲁棒性(限制伪标签分布服从评估的类分布)，又提高了模型对数据噪声的鲁棒性(利用伪标签监督并结合对比学习)。

在本说明书中，提供了一种文本聚类方法，本说明书同时涉及一种文本聚类装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一实施例提供的一种文本聚类方法的流程图，具体包括以下步骤102-108：

步骤102：获取至少两个待聚类文本的类别标签，并根据文本分类模型确定至少两个待聚类文本对应的预测类别分布，其中，文本分类模型为基于类别标签迭代训练设定次数获得。

其中，待聚类文本是指需要进行分类的文本内容，该待聚类文本可以为长文本或短文本，长文本是指文本内容超过设定阈值的文本，短文本是指文本内容少于设定阈值的文本。短文本包括的内容较少，能够进行学习训练的特征稀疏，由于短文本的稀疏性，噪声对聚类结果的影响较大。本说明书实施例提供的文本聚类方法主要可以应用于短文本的聚类，当然也可以应用于长文本的聚类，提高模型的鲁棒性，以提高识别结果的准确性。

另外，类别标签是指初始确定出的待聚类文本所属的类别，该类别标签是一种伪标签，不是真实的类别，后续需要不断迭代更新，逐渐靠近真实的类别。预测类别分布是指文本分类模型预测出的各个待聚类文本属于各个类别的概率，也即预测类别分布可以看做一个概率分布矩阵，第i行第j个元素表示第i个待聚类文本属于第j个类别的概率。

实际应用中，设定次数是预先设置的数值，表示迭代训练一定次数后，对监督信号进行更新，也即更新类别标签，如该设定次数可以为5次、10次、50次、300次等。

需要说明的是，可以对至少两个待聚类文本进行初始简单的聚类处理，获得各个待聚类文本的类别，作为初始的类别标签，该初始的类别标签可以作为监督信号，对文本分类模型迭代训练设定次数，然后基于迭代训练设定次数后的文本分类模型预测至少两个待聚类文本对应的预测类别分布。

本实施例一个可选的实施方式中，可以通过设定的聚类算法对至少两个待聚类文本进行聚类，也即是获取至少两个待聚类文本的类别标签，具体实现过程可以如下：

通过k均值聚类算法对至少两个待聚类文本进行聚类，获得至少两个待聚类文本的类别标签。

其中，k均值聚类算法是指k-means聚类算法，一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小等。

需要说明的是，可以将至少两个待聚类文本输入至k均值聚类算法，获得k个聚类，每个聚类中包括的各个待聚类文本属于同一类别，类别标签为该聚类的类别，从而通过k均值聚类算法获得至少两个待聚类文本的类别标签，该类别标签不是最终真实的类别标签，而是初始的伪标签，该初始的伪标签可以作为监督信号，训练文本分类模型，训练一定次数后再对该初始的伪标签进行更新，不断使得伪标签逐渐靠近真实的类别分布，从而提高文本分类模型的鲁棒性，保证文本聚类的准确性。

当然，实际应用中，也可以通过其他聚类算法，获得至少两个待聚类文本的类别标签，如模糊的c均值聚类算法等，本说明书实施例对此不进行限制。

本实施例一个可选的实施方式中，通过设定的聚类算法获得至少两个待聚类文本的类别标签后，可以将该类别标签作为监督信号，对文本分类模型迭代训练设定次数，再于迭代训练设定次数后的文本分类模型预测至少两个待聚类文本对应的预测类别分布，也即根据文本分类模型确定至少两个待聚类文本对应的预测类别分布之前，还可以包括：

从至少两个待聚类文本中选择目标文本；

对目标文本进行文本增强，获得对应的第一增强文本和第二增强文本；

将第一增强文本和第二增强文本输入初始分类模型，获得第一增强文本对应的第一预测分布，以及第二增强文本对应的第二预测分布；

根据类别标签、第一预测分布和第二预测分布，计算初始分类模型的第一损失值，并根据第一损失值反向调整初始分类模型的模型参数，返回执行从至少两个待聚类文本中选择目标文本的步骤，直至迭代次数达到设定次数，获得文本分类模型。

需要说明的是，可以从至少两个待聚类文本中任意选择一个作为目标文本，对目标文本进行文本增强，获得对应的第一增强文本和第二增强文本，后续可以利用初始获得的类别标签，通过第一增强文本和第二增强文本进行对比学习，以训练文本分类模型。

实际应用中，可以通过上下文增强的方式，对目标文本进行文本增强，获得对应的第一增强文本和第二增强文本。具体地，通过使用双向语言模型，根据上下文预测的单词，提供了更广泛的替代词，这种上下文预测方法，提供了与原词具有聚合关系的各种替代词，以对原文本进行增强，获得对应的增强文本。

具体实现时，对比学习一般需要至少两个输入，才能进行对此，分析模型的优劣。因而，可以对目标文本进行文本增强，获得对应的第一增强文本和第二增强，然后将第一增强文本和第二增强文本输入初始分类模型，初始分类模型可以分别针对第一增强文本和第二增强文本进行分类识别，输出对应的第一预测分布，以及第二预测分布，第一预测分布表示每一增强文本属于各个类别的概率，第二预测分布表示第二增强文本属于各个类别的概率。

之后，可以根据初始聚类获得的类别标签、该第一预测分布和该第二预测分布，计算初始分类模型的第一损失值，并根据第一损失值反向调整初始分类模型的模型参数，对初始分类模型进行训练，并返回执行从至少两个待聚类文本中选择目标文本的步骤，继续对模型进行训练，直至达到设定次数，先暂停训练，获得文本分类模型，后续可以进一步对类别标签进行更新，然后再基于更新后的类别标签继续训练，从而提高文本分类模型的鲁棒性。

具体实现时，可以通过如下公式(1)计算获得初始分类模型的第一损失值：

其中，

表示初始分类模型的第一损失值，也即类级别损失值；N表示待聚类文本的类别数目；Q表示类别标签；P⁽¹⁾表示第一预测分布；P⁽²⁾表示第二预测分布。

本说明书实施例中，该第一损失值是基于初始聚类获得的类别标签计算获得，优化目标是希望第一预测分布和第二预测分布更接近该类别标签，提供了类级别的对比学习，拉进同一类别的文本之间的距离，推远不同类别的文本之间的距离，利用类别标签作为监督信息实现更小的类内距离，提高了训练获得的文本分类模型的鲁棒性。

本实施例一个可选的实施方式中，初始分类模型包括编码层和分类层，此时将第一增强文本和第二增强文本输入初始分类模型，获得第一增强文本对应的第一预测分布，以及第二增强文本对应的第二预测分布，具体实现过程可以如下：

将第一增强文本和第二增强文本输入初始分类模型的编码层，获得第一增强文本对应的第一向量表示，以及第二增强文本对应的第二向量表示；

将第一向量表示和第二向量表示输入初始分类模型的分类层，获得第一增强文本对应的第一预测分布，以及第二增强文本对应的第二预测分布。

需要说明的是，初始分类模型的编码层用于对输入文本进行编码，生成对应的特征向量，该编码层可以为SBERT(distilbert)模型结构，SBERT是预训练好的语义相似度模型，该SBERT可以生成较为准确的句向量，通过SBERT模型可以获得第一增强文本对应的第一向量表示、第二增强文本对应的第二向量表示。

另外，初始分类模型的分类层可以是神经网络结构，最后一层的神经网络节点数量为类别数量即可，该分类层可以对编码后的第一向量表示和第二向量表示进行识别，确定对应的第一预测分布和第二预测分布。

本说明书实施例中，初始分类模型可以分为语义相似度模型和神经网络模型，语义相似度模型用于对输入的增强文本进行编码，获得对应的向量表示，神经网络模型用于对编码获得的向量表示进行分类识别，获得对应的预测分布，通过语义相似度模型和神经网络模型相结合，确定两个增强文本对应的预测分布，以便后续基于两个增强文本对应的预测分布进行模型训练，通过类级别的对比学习，拉进同一类别的文本之间的距离，推远不同类别的文本之间的距离，利用类别标签作为监督信息实现更小的类内距离，提高了训练获得的文本分类模型的鲁棒性。

本实施例一个可选的实施方式中，除了类级别的对比学习外，还可以引入实例级别的对比学习，也即将第一增强文本和第二增强文本输入初始分类模型的编码层，获得第一增强文本对应的第一向量表示，以及第二增强文本对应的第二向量表示之后，还可以包括：

将第一向量表示和第二向量表示输入至映射模型，获得第一向量表示在对比空间的第一映射表示，以及第二向量表示在对比空间的第二映射表示；

根据第一映射表示和第二映射表示，计算初始分类模型的第二损失值。

其中，该映射模型是用于将输入的增强表示映射至另一个对比空间的模型，该映射模型也可以是神经网络结构，具体可以是一种两层的神经网络。

需要说明的是，可以将第一向量表示和第二向量表示输入至映射模型，获得第一向量表示在对比空间的第一映射表示，以及第二向量表示在对比空间的第二映射表示，然后可以根据第一映射表示和第二映射表示，计算初始分类模型的第二损失值。该第二损失值是对比映射空间的两个映射表示获得，是一种实例级别的损失值，也即提供了实例级别的对比学习，促使了不同来源的文本之间分开以使得本身重叠的类能够正确分开，获得更大的类间距离，有利于前者得到更正确的聚类效果，进一步提高了训练获得的文本分类模型对噪声的鲁棒性。

实际应用中，可以通过如下公式(2)和公式(3)计算初始分类模型的第二损失值：

其中，

表示初始分类模型的第二损失值，也即实例级别损失值；N表示待聚类文本的数目；i表示第i个增强文本，将第一增强文本的第一向量表示和第二增强文本的第二向量表示拼接在一起，那么第i个增强文本和第2i个增强文本是来自同一个原始文本的一对增强文本，第i个增强文本和第2i个增强文本的向量表示为一对正样本，增强文本i和其他的2N-2个增强文本的向量表示构成负样本；l(i，j)对应的公式(3)是正样本对(i,j)的损失，公式(2)中的l(i，2i)、l(2i，i)其实就是利用公式(3)，这里(i,2i)、(2i,i)也为正样本对；Z_i表示第一映射表示；Z_j表示第二映射表示；τ表示对比学习的温度超参数；k表示第k个增强文本，样本对(i,k)为第i个增强文本和第k个增强文本的向量表示构成的负样本对，也即第i个增强文本和第k个增强文本不来自同一个原始文本；j表示表示第j个增强文本。

本实施例一个可选的实施方式中，可以结合第一损失值和第二损失值，对初始分类模型进行训练，也即根据第一损失值反向调整初始分类模型的模型参数，具体实现过程可以如下：

根据第一损失值和第二损失值，确定初始分类模型的总损失值；

根据总损失值反向调整初始分类模型的模型参数。

需要说明的是，可以对第一损失值和第二损失值求和，确定初始分类模型的总损失值，根据总损失值反向调整初始分类模型的模型参数。具体实现时，可以通过如下公式(4)确定初始分类模型的总损失值：

其中，

表示初始分类模型的总损失值；/>

表示初始分类模型的第一损失值，也即类级别损失值；/>

表示初始分类模型的第二损失值，也即实例级别损失值；λ表示实例级别损失值的权重系数，可以预先配置。

本说明书实施例中，可以结合类级别损失值和实例级别损失值，对分类模型进行训练，通过类级别的对比学习，拉进同一类别的文本之间的距离，推远不同类别的文本之间的距离，利用类别标签作为监督信息实现更小的类内距离；通过实例级别的对比学习，促使了不同来源的文本之间分开以使得本身重叠的类能够正确分开，获得更大的类间距离，有利于类级别得到更正确的聚类效果，提高了训练获得的文本分类模型对噪声的鲁棒性。

步骤104：根据最优传输求解算法，确定预测类别分布对应的最优类别分布。

需要说明的是，将初始获得的类别标签作为监督信号，对分类模型进行对比学习，迭代训练一定次数后，说明文本类别模型的识别准确度达到了一定程度，此时可以将待聚类文本输入该迭代训练设定次数获得的文本分类模型，获得待聚类文本的预测类别分布，该预测类别分布较为准确，但是不是真实的类别分布，可以进一步根据最优传输求解算法，确定预测类别分布对应的最优类别分布，以便后续基于该最优类别分布，对类别标签进行更新，再继续对文本分类模型进行训练。

本实施例一个可选的实施方式中，可以将待求解的最优类别分布看做最优传输问题中的最优传输矩阵，通过最优传输求解算法，求解该最优传输矩阵，获得最优类别分布，也即根据最优传输求解算法，确定预测类别分布对应的最优类别分布，具体实现过程可以如下：

根据预测类别分布确定最优传输求解算法中的代价矩阵；

根据代价矩阵，求解最优传输矩阵；

将最优传输矩阵作为最优类别分布。

实际应用中，正常情况下优化目标为交叉熵损失函数，如下公式(5)所示：

其中，L表示交叉熵损失函数，N表示待聚类文本的数目；K表示类别数目；Q_ij表示待求解的最优类别分布，该最优类别分布是指第i个待聚类文本属于第j个类别的概率；P_ij表示通过迭代训练设定次数的文本分类模型预测出的预测类别分布。也即是，在已知P_ij的情况下，求解Q_ij。

另外，最优传输求解算法中目标函数如下公式(6)所示：

其中，π表示需要求解的最优传输矩阵；M表示最优传输求解算法中的代价矩阵(cost矩阵)。

需要说明的是，对于聚类任务来说，最优类别分布Q_ij未知，对比上述公式(5)和公式(6)可知，若将最优类别分布Q_ij视为最优传输求解算法中的最优传输矩阵，将-logP_ij视为最优传输求解算法中的代价矩阵，最优类别分布Q_ij可以通过求解一个最优传输问题获得。

需要说明的是，求解最优传输矩阵时需要知道类分布以限制解的范围避免产生退化解(某一类别分配的样本数为0)。在不知道实际类分布的情况下，类分布往往被设置成平衡分布，当限制最优类别分布为平衡分布时，对不平衡数据会得到不可靠的伪标签。因而，提出了一种自适应最优传输的方法，也即不固定类分布为平衡分布，而是在计算最优传输矩阵(最优类别分布)的过程中会同时评估类分布，评估的类分布能逐渐趋向实际的数据类分布。具体来说，求解目标如下公式(7)：

s.t.π1＝a，π^T1＝b，πr＞0，b^T1＝1 (7)

其中，π表示需要求解的最优传输矩阵；M表示最优传输求解算法中的代价矩阵(cost矩阵)；b表示类别分布，是对要求解的最优传输矩阵π的范围限制，是总体待聚类文本的类别分布，具体的可以对π的每一列求和，获得一个1*K的向量，K表示类别数目，在求解π的同时也可以求解出b，从而实现自适应最优传输，π的每一行为一个待聚类文本的类别分布；∈₁和∈₂表示超参数，是人为进行调整的；H(π是熵正则项，H(π)＝<π，log\π-1>，可以加快最优传输的求解过程；T表示……；“s.t.”表示约束条件；a表示待聚类文本的类别分布，假定待聚类文本是均匀分布的，也即每个类别的文本数目相同，每个类别文本出现的概率都为1/N，N为待聚类文本的数量。

其中，Ψ(b)-logb-log(1-b)，表示b的惩罚函数。

具体实现时，可以采用拉格朗日乘子算法对上述公式(7)进行优化，获得如下公式(8)：

-f^T(π1-a)-g^T(π^T1-b)-h(b^T1-1) (8)

其中，f、g、h均为拉格朗日乘数。

然后，求上述公式(8)对变量π的微分，可以获得如下公式(9)：

由于π1＝a且π^T1＝b，我们首先修正b，获得如下公式(10)和公式(11)：

/>

其中，C表示待聚类文本的类别数。

然后，我们可以修正f和g，并且更新b，获得如下公式(12)：

求上述公式(12)对变量b的微分，可以获得如下公式(13)：

由上很容易推导出公式(13)的判断式，如下公式(14)：

需要注意如下公式(15)：

因此，选择以下b_j(h)对应的公式(16)：

把上述公式(16)回到最初的约束条件b^T1＝1，公式定义为如下公式(17)：

(b(h))^T1-1＝0 (17)

h是上述公式(17)的根，可以通过牛顿算法求解，具体来说，首先定义如下公式(18)：

f(h)＝(b(h))^T1-1 (18)

然后，h可以更新为如下公式(19)：

本说明书实施例中，通过自适应最优传输方法同时评估实际的类别分布并限制类别标签分布服从评估的类分布，从而生成可靠的最优类别分布，以便后续对预测类别分布进行更新，不断迭代更新类别标签，使得类别标签逐渐靠近真实类别分布，并作为监督信号，对文本分类模型进行训练直至收敛，基于最优传输求解算法不断更新类别标签，提高了待聚类文本对文本类别不平衡的鲁棒性。

步骤106：根据最优类别分布更新类别标签，并基于更新后的类别标签继续对文本分类模型进行训练，直至文本分类模型收敛。

实际应用中，可以根据最优类别分布更新类别标签，然后将更新后的类别标签作为学习目标，继续对文本分类模型进行训练，直至文本分类模型收敛。具体实现时，可以从至少两个待聚类文本中选择目标文本，对目标文本进行文本增强，获得对应的第一增强文本和第二增强文本，将第一增强文本和第二增强文本输入初始分类模型，获得第一增强文本对应的第一预测分布，以及第二增强文本对应的第二预测分布；然后，根据更新后的类别标签、第一预测分布和第二预测分布，计算初始分类模型的第一损失值，并根据第一损失值反向调整初始分类模型的模型参数，返回执行从至少两个待聚类文本中选择目标文本的步骤，直至迭代次数达到设定次数，获得文本分类模型。

需要说明的是，基于更新后的类别标签继续对文本分类模型进行训练的具体实现过程，与上述步骤102中基于初始的类别标签进行迭代训练的实现过程类似，只是学习目标由基于k-means聚类算法获得的初始的类别标签，替换为基于最优传输求解算法更新后的类别标签，本说明书在此不再赘述。

本实施例一个可选的实施方式中，根据最优类别分布更新类别标签，具体实现过程可以如下：

将最优类别分布的各行中概率值最大的类别作为更新类别；

将类别标签中各个待聚类文本对应的类别替换为更新类别。

需要说明的是，最优类别分布是指各个待聚类文本属于各个类别的概率分布，也即为一种概率分布矩阵，该最优类别分布中第i行第j列的元素表示第i个待聚类文本属于第j个类别的概率。由于在进行对比学习，对文本分类模型进行训练时，要学习的目标不能是类别分布，而应该是某个类别，因而可以将第i行中数值最大的类别作为第i个待聚类文本对应的更新类别，然后将类别标签中第i个待聚类文本对应的旧类别替换为该对应的更新类别，类别标签中各个待聚类文本均更新完毕，可以获得更新后的类别标签。

本说明书实施例中，通过最优传输求解算法，对初始的类别标签不断进行迭代更新，使得至少两个待聚类文本的类别标签逐渐靠近真实类别分布，生成更为可靠的类别标签，便于后续继续对文本分类模型进行监督训练，基于最优传输求解算法不断更新类别标签，提高了待聚类文本对文本类别不平衡的鲁棒性。

步骤108：通过收敛的文本分类模型，确定至少两个待聚类文本对应的聚类结果。

需要说明的是，文本分类模型收敛后，说明文本分类模型已经训练完毕，训练获得的文本分类模型对于文本类别分布不平衡、文本稀疏导致的文本噪声等问题的鲁棒性均较高，此时可以通过收敛的文本分类模型，确定至少两个待聚类文本对应的聚类结果，获得准确的聚类结果。

本实施例一个可选的实施方式中，通过收敛的文本分类模型，确定至少两个待聚类文本对应的聚类结果，具体实现过程可以如下：

将至少两个待聚类文本输入收敛的文本分类模型，获得对应的目标类别分布；

确定目标类别分布的各行中概率值最大的类别；

将各行中概率值最大的类别作为至少两个待聚类文本对应的聚类结果。

需要说明的是，目标类别分布是指各个待聚类文本属于各个类别的概率分布，也即为一种概率分布矩阵，该目标类别分布中第i行第j列的元素表示第i个待聚类文本属于第j个类别的概率，第i行中概率值最大的类别即为第i个待聚类文本对应的类别。对于目标类别分布中的每一行，均可以确定出概率值最大的类别，即为对应的待聚类文本的类别，从而获得各个待聚类文本对应的聚类结果。

示例的，图2是本说明书一实施例提供的一种文本聚类方法的算法架构示意图，如图2所示，对于待聚类文本X进行文本增强，获得增强文本X1和增强文本X2，将增强文本X1和增强文本X2输入至文本分类模型的编码层(Encoding)，获得对应的第一向量表示E1和第二向量表示E2，将第一向量表示E1和第二向量表示E2输入至文本分类模型的分类层(Clustering)，获得对应的第一预测分布P1和第二预测分布P2，根据第一预测分布P1、第二预测分布P2和初始的类别标签Q，计算损失值L_C，该初始的类别标签Q为基于k-means聚类算法确定的类别。通过损失值L_C可以拉进同一类别的文本之间的距离，并推远不同类别的文本之间的距离。

将第一向量表示E1和第二向量表示E2输入至映射模型(Projecting)，获得对应的第一映射表示Z1和第二映射表示Z2，根据第一映射表示Z1和第二映射表示Z2计算损失值L_I。通过损失值L_I可以拉进来自同一实例(即同一来源)，的文本之间的距离，推远来自不同实例(即不同来源)的文本之间的距离。

根据损失值L_C和L_I对模型进行迭代训练，迭代训练设定次数后，将待聚类文本X输入至该文本分类模型的编码层，也即该文本分类模型的编码层与迭代训练设定次数后的编码层共享模型参数，获得对应的向量表示E，将该向量表示E输入至文本分类模型的分类层，该分类层与迭代训练设定次数后的分类层共享模型参数，获得预测类别分布P。

通过最优传输求解算法，求解该预测分布类别P对应的参考类别分布P’，更新模块(argmax)基于求解出的参考类别分布P’对初始的类别标签Q进行更新，获得更新后的类别标签Q。

更新后的类别标签Q可以继续作为监督信号，参与损失值L_C的计算，继续迭代训练设定次数，以此类推，直至文本分类模型收敛。

本说明书实施例提供的文本聚类方法，先获取至少两个待聚类文本的类别标签，基于该类别标签迭代训练设定次数获得文本分类模型，通过文本分类模型获得至少两个待聚类文本对应的预测类别分布，通过最优传输求解算法，求解预测类别分布对应的最优类别分布，以对初始确定出的类别标签进行更新，然后基于更新后的类别标签继续对文本分类模型进行训练，直至文本分类模型收敛，可以获得至少两个待聚类文本对应的聚类结果。如此，通过最优传输求解算法，对初始的类别标签不断进行迭代更新，使得至少两个待聚类文本的类别标签逐渐靠近真实类别分布，生成可靠的类别标签，将该可靠的类别标签作为监督信号，对文本分类模型进行训练直至收敛，基于最优传输求解算法不断更新类别标签，提高了待聚类文本对文本类别不平衡的鲁棒性，且通过可靠的类别标签作为监督信号可以提高文本分类模型对数据噪声的鲁棒性，从而提高了文本分类模型的识别准确性，进而保证了文本聚类结果的准确性。

需要说明的是，有非常多的数据是通过短文本的形式呈现的，而短文本聚类可以从大量的短文本数据中挖掘出有价值的信息，是最基础的文本挖掘任务之一。但是短文本往往是类别不平衡的和数据稀疏的，因而本说明书实施例提供的文本聚类方法主要应用于短文本聚类场景，用于解决短文本的数据不平衡问题，以及由于短文本的内容稀疏性导致的噪声对聚类结果影响较大的问题。

下述结合附图3，以本说明书提供的文本聚类方法在短文本场景下的应用为例，对文本聚类方法进行进一步说明。其中，图3示出了本说明书一实施例提供的一种应用于短文本场景下的文本聚类方法的处理流程图，具体包括以下步骤：

步骤302：通过k-means聚类算法，确定多个短文本的类别标签Q。

步骤304：对短文本X进行增强，获得X1和X2。

步骤306：将X1和X2输入至文本分类模型的编码层，获得对应的向量表示E1和E2。

步骤308：将E1和E2输入至文本分类模型的分类层，获得对应的预测分布P1和P2，根据P1、P2、类别标签Q计算类级别损失值L_C。

步骤310：将E1和E2输入至映射模型，获得对应的映射表示Z1和Z2，根据Z1和Z2计算实例级别损失值L_I。

步骤312：根据类级别损失值L_C和实例级别损失值L_I对文本分类模型进行训练。

步骤314：将短文本X输入至迭代训练设定次数后的文本分类模型中，获得预测分布P。

步骤316：根据最优传输求解算法，确定预测分布P对应的最优分布P’，根据最优分布P’对类别标签Q进行更新，获得更新后的类别标签Q，返回执行上述步骤304，直至文本分类模型收敛。

步骤318：将多个短文本输入至收敛后的文本分类模型，获得短文本的目标类别分布，基于该目标类别分布确定短文本的聚类结果。

本说明书实施例提供的文本聚类方法，先获取多个短文本初始的类别标签，基于该类别标签迭代训练设定次数获得文本分类模型，通过文本分类模型获得多个短文本对应的预测类别分布，通过最优传输求解算法，求解预测类别分布对应的最优类别分布，以对初始确定出的类别标签进行更新，然后基于更新后的类别标签继续对文本分类模型进行训练，直至文本分类模型收敛，可以获得多个短文本对应的聚类结果。如此，通过最优传输求解算法，对初始的类别标签不断进行迭代更新，使得多个短文本的类别标签逐渐靠近真实类别分布，生成可靠的类别标签，将该可靠的类别标签作为监督信号，对文本分类模型进行训练直至收敛，基于最优传输求解算法不断更新类别标签，提高了短文本对文本类别不平衡的鲁棒性，且通过可靠的类别标签作为监督信号可以提高文本分类模型对数据噪声的鲁棒性，从而提高了文本分类模型的识别准确性，进而保证了短文本聚类结果的准确性。

与上述方法实施例相对应，本说明书还提供了文本聚类装置实施例，图4示出了本说明书一实施例提供的一种文本聚类装置的结构示意图。如图4所示，该装置包括：

第一确定模块402，被配置为获取至少两个待聚类文本的类别标签，并根据文本分类模型确定至少两个待聚类文本对应的预测类别分布，其中，文本分类模型为基于类别标签迭代训练设定次数获得；

第二确定模块404，被配置为根据最优传输求解算法，确定预测类别分布对应的最优类别分布；

更新模块406，被配置为根据最优类别分布更新类别标签，并基于更新后的类别标签继续对文本分类模型进行训练，直至文本分类模型收敛；

第三确定模块408，被配置为通过收敛的文本分类模型，确定至少两个待聚类文本对应的聚类结果。

可选地，第一确定模块402，进一步被配置为：

可选地，该装置还包括训练模块，被配置为：

从至少两个待聚类文本中选择目标文本；

可选地，初始分类模型包括编码层和分类层；该训练模块，进一步被配置为：

可选地，该训练模块，进一步被配置为：

根据总损失值反向调整初始分类模型的模型参数。

可选地，第二确定模块404，进一步被配置为：

根据预测类别分布确定最优传输求解算法中的代价矩阵；

根据代价矩阵，求解最优传输矩阵；

将最优传输矩阵作为最优类别分布。

可选地，更新模块406，进一步被配置为：

将最优类别分布的各行中概率值最大的类别作为更新类别；

将类别标签中各个待聚类文本对应的类别替换为更新类别。

可选地，第三确定模块408，进一步被配置为：

确定目标类别分布的各行中概率值最大的类别；

本说明书实施例提供的文本聚类装置，先获取至少两个待聚类文本的类别标签，基于该类别标签迭代训练设定次数获得文本分类模型，通过文本分类模型获得至少两个待聚类文本对应的预测类别分布，通过最优传输求解算法，求解预测类别分布对应的最优类别分布，以对初始确定出的类别标签进行更新，然后基于更新后的类别标签继续对文本分类模型进行训练，直至文本分类模型收敛，可以获得至少两个待聚类文本对应的聚类结果。如此，通过最优传输求解算法，对初始的类别标签不断进行迭代更新，使得至少两个待聚类文本的类别标签逐渐靠近真实类别分布，生成可靠的类别标签，将该可靠的类别标签作为监督信号，对文本分类模型进行训练直至收敛，基于最优传输求解算法不断更新类别标签，提高了待聚类文本对文本类别不平衡的鲁棒性，且通过可靠的类别标签作为监督信号可以提高文本分类模型对数据噪声的鲁棒性，从而提高了文本分类模型的识别准确性，进而保证了文本聚类结果的准确性。

上述为本实施例的一种文本聚类装置的示意性方案。需要说明的是，该文本聚类装置的技术方案与上述的文本聚类方法的技术方案属于同一构思，文本聚类装置的技术方案未详细描述的细节内容，均可以参见上述文本聚类方法的技术方案的描述。

图5示出了根据本说明书一实施例提供的一种计算设备的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，NetworkInterface Controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Networks)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，处理器520用于执行如下计算机可执行指令，以实现上述的文本聚类方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本聚类方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本聚类方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于实现上述的文本聚类方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本聚类方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本聚类方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

计算机指令包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本聚类方法，其特征在于，所述方法包括：

获取至少两个待聚类文本的类别标签，并根据文本分类模型确定所述至少两个待聚类文本对应的预测类别分布，其中，所述文本分类模型为基于所述类别标签迭代训练设定次数获得；

根据最优传输求解算法，确定所述预测类别分布对应的最优类别分布；

根据所述最优类别分布更新所述类别标签，并基于更新后的类别标签继续对所述文本分类模型进行训练，直至所述文本分类模型收敛；

通过收敛的文本分类模型，确定所述至少两个待聚类文本对应的聚类结果。

2.根据权利要求1所述的文本聚类方法，其特征在于，所述获取至少两个待聚类文本的类别标签，包括：

通过k均值聚类算法对所述至少两个待聚类文本进行聚类，获得所述至少两个待聚类文本的类别标签。

3.根据权利要求1所述的文本聚类方法，其特征在于，所述根据文本分类模型确定所述至少两个待聚类文本对应的预测类别分布之前，还包括：

从所述至少两个待聚类文本中选择目标文本；

对所述目标文本进行文本增强，获得对应的第一增强文本和第二增强文本；

将所述第一增强文本和第二增强文本输入初始分类模型，获得所述第一增强文本对应的第一预测分布，以及所述第二增强文本对应的第二预测分布；

根据所述类别标签、所述第一预测分布和所述第二预测分布，计算所述初始分类模型的第一损失值，并根据所述第一损失值反向调整所述初始分类模型的模型参数，返回执行所述从所述至少两个待聚类文本中选择目标文本的步骤，直至迭代次数达到所述设定次数，获得所述文本分类模型。

4.根据权利要求3所述的文本聚类方法，其特征在于，所述初始分类模型包括编码层和分类层；所述将所述第一增强文本和第二增强文本输入初始分类模型，获得所述第一增强文本对应的第一预测分布，以及所述第二增强文本对应的第二预测分布，包括：

将所述第一增强文本和第二增强文本输入初始分类模型的编码层，获得所述第一增强文本对应的第一向量表示，以及所述第二增强文本对应的第二向量表示；

将所述第一向量表示和所述第二向量表示输入所述初始分类模型的分类层，获得所述第一增强文本对应的第一预测分布，以及所述第二增强文本对应的第二预测分布。

5.根据权利要求4所述的文本聚类方法，其特征在于，所述将所述第一增强文本和第二增强文本输入初始分类模型的编码层，获得所述第一增强文本对应的第一向量表示，以及所述第二增强文本对应的第二向量表示之后，还包括：

将所述第一向量表示和所述第二向量表示输入至映射模型，获得所述第一向量表示在对比空间的第一映射表示，以及所述第二向量表示在对比空间的第二映射表示；

根据所述第一映射表示和所述第二映射表示，计算所述初始分类模型的第二损失值。

6.根据权利要求5所述的文本聚类方法，其特征在于，所述根据所述第一损失值反向调整所述初始分类模型的模型参数，包括：

根据所述第一损失值和所述第二损失值，确定所述初始分类模型的总损失值；

根据所述总损失值反向调整所述初始分类模型的模型参数。

7.根据权利要求1-6任一项所述的文本聚类方法，其特征在于，所述根据最优传输求解算法，确定所述预测类别分布对应的最优类别分布，包括：

根据所述预测类别分布确定所述最优传输求解算法中的代价矩阵；

根据所述代价矩阵，求解最优传输矩阵；

将所述最优传输矩阵作为所述最优类别分布。

8.根据权利要求1-6任一项所述的文本聚类方法，其特征在于，所述根据所述最优类别分布更新所述类别标签，包括：

将所述最优类别分布的各行中概率值最大的类别作为更新类别；

将所述类别标签中各个待聚类文本对应的类别替换为所述更新类别。

9.根据权利要求1-6任一项所述的文本聚类方法，其特征在于，所述通过收敛的文本分类模型，确定所述至少两个待聚类文本对应的聚类结果，包括：

将所述至少两个待聚类文本输入收敛的文本分类模型，获得对应的目标类别分布；

确定所述目标类别分布的各行中概率值最大的类别；

将所述各行中概率值最大的类别作为所述至少两个待聚类文本对应的聚类结果。

10.一种文本聚类装置，其特征在于，所述装置包括：

第一确定模块，被配置为获取至少两个待聚类文本的类别标签，并根据文本分类模型确定所述至少两个待聚类文本对应的预测类别分布，其中，所述文本分类模型为基于所述类别标签迭代训练设定次数获得；

第二确定模块，被配置为根据最优传输求解算法，确定所述预测类别分布对应的最优类别分布；

更新模块，被配置为根据所述最优类别分布更新所述类别标签，并基于更新后的类别标签继续对所述文本分类模型进行训练，直至所述文本分类模型收敛；

第三确定模块，被配置为通过收敛的文本分类模型，确定所述至少两个待聚类文本对应的聚类结果。

11.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现上述权利要求1-9任一项所述的文本聚类方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现实现上述权利要求1-9任一项所述的文本聚类方法的步骤。