CN117312550A

CN117312550A - 文本聚类方法、装置、计算机设备及存储介质

Info

Publication number: CN117312550A
Application number: CN202210731153.8A
Authority: CN
Inventors: 付红雷; 徐胜利; 高志明
Original assignee: Glodon Co Ltd
Current assignee: Glodon Co Ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2023-12-29

Abstract

本发明提供一种文本聚类方法、装置、计算机设备及存储介质，该方法包括：获取多个目标文本，确定每个所述目标文本的文本向量；计算所述文本向量之间的第一相似度，根据所述第一相似度将所述多个目标文本划分为多个初始类别；属于同一个初始类别内的两个或两个以上的文本向量之间的第一相似度大于预设的第一阈值；计算多个所述初始类别之间的第二相似度，根据所述第二相似度对所述多个初始类别进行合并，以得到多个终极类别。本发明分为粗聚类和细聚类两个阶段。在粗聚类阶段把相似度高于某个较大阈值的文本聚在一起，保证聚类的准确性。在细聚类阶段，不断合并类中心最近的两个类直到整体聚类度不再增加，在快速聚类的前提下保证了聚类最终效果。

Description

文本聚类方法、装置、计算机设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种文本聚类方法、装置、计算机设备及存储介质。

背景技术

文本聚类是将多个文本句依据相似度形成不同类簇的过程，以使相似度较高的文本句属于同一个类簇，较低的文本句属于不同的类簇。目前普遍的实现方法包括基于类中心的算法(k-means)，自底向上的聚类算法(层次聚类)，以及密度聚类几种。然而现有的文本聚类方法均存在一些固有缺陷，例如基于类中心的算法效果严重依赖类个数的选取和类中心的选取，而层次聚类和密度聚类计算所需的时间较长。因此，如何提供一种能够快速准确地实现文本聚类的算法，成为本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种能够优化文本聚类效果、提升文本聚类效率的技术方案，以解决现有技术中存在的上述问题。

为实现上述目的，本发明提供一种文本聚类方法，包括以下步骤：

获取多个目标文本，确定每个所述目标文本的文本向量；

计算所述文本向量之间的第一相似度，根据所述第一相似度将所述多个目标文本划分为多个初始类别；其中属于同一个初始类别内的两个或两个以上的文本向量之间的第一相似度大于预设的第一阈值；

计算多个所述初始类别之间的第二相似度，根据所述第二相似度对所述多个初始类别进行合并，以得到多个终极类别。

根据本发明提供的文本聚类方法，所述获取多个目标文本，确定每个所述目标文本的文本向量的步骤包括：

将所述目标文本输入训练好的语言处理模型，以输出与所述目标文本对应的文本向量。

根据本发明提供的文本聚类方法，所述根据所述第一相似度将所述多个目标文本划分为多个初始类别的步骤包括：

获取任意第一目标文本，判断其它任意第二目标文本与所述第一目标文本的第一相似度是否大于或等于第一阈值，若是，将所述第一目标文本与所述第二目标文本添加到第一初始类别；若否，继续判断其它任意第三目标文本与所述第一目标文本的第一相似度，直至遍历全部目标文本；

获取未被归类的任意第四目标文本，判断其它未被归类的任意第五目标文本与所述第四目标文本的第一相似度是否大于或等于第一阈值，若是，将所述第四目标文本与所述第五目标文本添加到第二初始类别；若否，继续判断其它未被归类的任意第六目标文本与所述第四目标文本的第一相似度，直至遍历全部未被归类的目标文本。

根据本发明提供的文本聚类方法，所述计算多个所述初始类别之间的第二相似度，根据所述第二相似度对所述多个初始类别进行合并，以得到多个终极类别的步骤包括：

计算每个初始类别的中心向量值以及任意两个中心向量值之间的第二相似度；

确定第二相似度最高的第一初始类别和第二初始类别；

计算所述第一初始类别和所述第二初始类别在合并前与其它参照初始类别之间的第一聚类程度，以及所述第一初始类别和所述第二初始类别在合并后与其它参照初始类别之间的第二聚类程度；

根据所述第二聚类程度和所述第一聚类程度之间的关系确定所述第一初始类别和所述第二初始类别是否需要合并。

根据本发明提供的文本聚类方法，所述其它参照初始类别包括分别与所述第一初始类别相似的N个其它初始类别以及与所述第二初始类别相似的N个其它初始类别，N为自然数。

根据本发明提供的文本聚类方法，所述聚类程度通过类内平均距离与类间平均距离之间的比值确定，所述类内平均距离与同一个初始类别内的所有文本向量的平均值相关，所述类间平均距离与任意两个初始类别之间的中心向量值之差的平均值相关。

根据本发明提供的文本聚类方法，所述计算多个所述初始类别之间的第二相似度，根据所述第二相似度对所述多个初始类别进行合并，以得到多个终极类别的步骤还包括：

在确定所述第一初始类别和所述第二初始类别需要合并的情况下，将所述第一初始类别和所述第二初始类别中包含的所有目标文本进行合并以得到新的初始类别；

重复执行根据所述第二相似度对所述多个初始类别进行合并的步骤，直至确定所述第一初始类别和所述第二初始类别需要合并；

将当前所有类别作为所述终极类别。

为实现上述目的，本发明还提出一种文本聚类装置，包括：

文本获取模块，适用于获取多个目标文本，确定每个所述目标文本的文本向量；

初始类别模块，适用于计算所述文本向量之间的第一相似度，根据所述第一相似度将所述多个目标文本划分为多个初始类别；其中属于同一个初始类别内的两个或两个以上的文本向量之间的第一相似度大于预设的第一阈值；

终极类别模块，适用于计算多个所述初始类别之间的第二相似度，根据所述第二相似度对所述多个初始类别进行合并，以得到多个终极类别。

为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明还提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明提供的文本聚类方法、装置、计算机设备及存储介质，整体根据第一相似度和第二相似度分为粗聚类和细聚类两个阶段。在粗聚类阶段，根据目标文本确定文本向量，然后通过第一相似度把相似度高于某个较大阈值的文本聚在一起，从而初步保证聚类的准确性。在细聚类阶段，不断合并类中心最近的两个类，直到整体聚类度不再增加为止。通过细聚类，在快速聚类的前提下保证了聚类最终效果。这样，既保证了聚类效果，又提高了聚类效率。

附图说明

图1为本发明的文本聚类方法实施例一的流程图；

图2为本发明实施例一划分初始类别的示意性流程图；

图3为本发明实施例一将初始类别合并为终极类别的示意性流程图；

图4为本发明的文本聚类装置实施例一的程序模块示意图；

图5为本发明的文本聚类装置实施例一的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参阅图1，本实施例提出一种文本聚类方法，包括以下步骤：

S100:获取多个目标文本，确定每个所述目标文本的文本向量。

目标文本是待聚类的文本，例如一篇文章中的多个文本句或者一段文字中的多个词语。可以利用现有的任意向量转化算法将文本转换为向量，例如word2vec方法、Bert模型方法、CNN模型方法等，本实施例对此不做限制。在一个示例中，可以通过数据训练的语言处理模型实现从目标文本到向量的转化。其中该语言处理模型可以基于人工神经网络构造而成，通过历史文本样本以及已标识的历史向量样本分别作为该人工神经网络的输入和输出数据，训练该人工神经网络中每个神经元的系数，从而使得对于输入的任意文本，该语言处理模型可以输出对应的文本向量。

S200:计算所述文本向量之间的第一相似度，根据所述第一相似度将所述多个目标文本划分为多个初始类别；其中属于同一个初始类别内的两个或两个以上的文本向量之间的第一相似度大于预设的第一阈值。

第一相似度可以包括任意两个向量之间的欧式距离或者余弦相似度，本实施例对此不做限制。可以设置一个较高的第一阈值，例如0.95，通过比较任意两个文本向量之间的第一相似度与第一阈值的关系来划分初始类别。若两个文本向量之间的第一相似度大于或等于第一阈值，则将这两个文本向量划归为一个初始类别；如果某文本向量与其它任一文本向量之间的第一相似度均小于第一阈值，则将该文本向量单独划分为一个初始类别。例如目标文本包括文本1、文本2、……文本10共10个文本，相应的可以得到向量1、向量2、……向量10共10个文本向量。若只有向量2和向量3之间的第一相似度大于第一阈值，其余向量任意两两之间的第一相似度均小于第一阈值，那么将向量2和向量3划分为一个初始类别，其余向量各自作为一个单独的初始类别，由此可以得到9个初始类别。

通过设置较高的第一阈值，例如高于0.90的第一阈值，可以保证同一个初始类别中包含的目标文本相似度足够高，而不同初始类别中包含的目标文本的相似度在一定情况下也可以具有比较相似的特征，从而为进一步的类别合并提供基础。

图2为本发明实施例一划分初始类别的示意性流程图。如图2所示，步骤S200包括：

S210：获取任意第一目标文本，判断其它任意第二目标文本与所述第一目标文本的第一相似度是否大于或等于第一阈值，若是，将所述第一目标文本与所述第二目标文本添加到第一初始类别；若否，继续判断其它任意第三目标文本与所述第一目标文本的第一相似度，直至遍历全部目标文本；

S220:获取未被归类的任意第四目标文本，判断其它未被归类的任意第五目标文本与所述第四目标文本的第一相似度是否大于或等于第一阈值，若是，将所述第四目标文本与所述第五目标文本添加到第二初始类别；若否，继续判断其它未被归类的任意第六目标文本与所述第四目标文本的第一相似度，直至遍历全部未被归类的目标文本。

具体的，可以从第一个文本开始依次往后，找到第一个未归类的文本作为新的初始类别，并把它对应的向量作为哨兵向量，然后从该文本后的第一个文本对应的向量开始，直到第m个向量。如果该文本已经属于某一初始类别，则跳过；否则判断该向量与哨兵向量的余弦相似度，如果大于预设阈值，则把该文本归到哨兵向量文本所在的初始类别。

S300:计算多个所述初始类别之间的第二相似度，根据所述第二相似度对所述多个初始类别进行合并，以得到多个终极类别。

本实施例的第二相似度可以包括任意两个初始类别的中心向量值之间的欧式距离或者余弦相似度。中心向量值指的是初始类别中的所有文本向量的中心值，例如若一个初始类别中只包含一个文本向量，那么该初始类别的中心向量值就是该文本向量值；若一个初始类别中包含多个文本向量，那么该初始类别的中心向量值就是该多个文本向量的平均值。

图3为本发明实施例一将初始类别合并为终极类别的示意性流程图。如图3所示，步骤S300包括：

S310:计算每个初始类别的中心向量值以及任意两个中心向量值之间的第二相似度。如前所述，第二相似度可以包括任意两个初始类别的中心向量值之间的欧式距离或者余弦相似度。

S320:确定第二相似度最高的第一初始类别和第二初始类别。可以理解，第二相似度最高，说明第一初始类别中包含的文本向量和第二初始类别中包含的文本向量最接近，因此第一初始类别和第二初始类别有相互合并的可能性。

S330:计算所述第一初始类别和所述第二初始类别在合并前与其它参照初始类别之间的第一聚类程度，以及所述第一初始类别和所述第二初始类别在合并后与其它参照初始类别之间的第二聚类程度。

聚类程度用于衡量聚类效果的优劣。本步骤中，通过分别计算第一初始类别和第二初始类别在合并前以及合并后与其它初始类别之间的整体聚类程度，从而确定第一初始类别和第二初始类别是否需要合并。需要说明的是，本实施例在计算聚类程度时，不需要计算所有类别的聚类程度，只需选择与待合并的初始类别相邻近的N(N为自然数)个其它初始类别进行计算，从而减少计算过程，提高聚类合并效率。

假设共包含9个初始类别，分别为初始类别1、初始类别2……初始类别9。其中初始类别1和初始类别2之间的相似度最高，那么本步骤需要计算初始类别1和初始类别2在合并之前与邻近的N个其它初始类别之间的第一聚类程度，以及计算初始类别1和初始类别2在合并之后与邻近的N个其它初始类别之间的第二聚类程度。假设N＝2，也就是选择与初始类别1相邻近的2个其它初始类别，以及与初始类别2相邻近的2个其它初始类别，共2×2＝4个其它初始类别。合并前初始类别1和初始类别2代表两个初始类别，加上4个其它初始类别共6个类别。合并后初始类别1和初始类别2合并为一个新的类别，加上4个其它初始类别共5个类别。

合并前，计算2N+2个类(2N个其它初始类别加上初始类别1和初始类别2)的第一聚类程度。其中，第一聚类程度的计算方法为类内平均距离/类间平均距离。计算类内平均距离时，先计算每个初始类别内的所有向量到中心向量的欧式距离之和/向量的个数，然后取所有初始类别的类内距离的平均值做为类内平均距离。计算类间平均距离时，将任意两个初始类别组成一对，计算这对初始类别的中心的欧式距离，然后把所有对的中心的欧式距离求和，并除以类对的总数目作为类间平均距离。

S340:根据所述第二聚类程度和所述第一聚类程度之间的关系确定所述第一初始类别和所述第二初始类别是否需要合并。

聚类程度的数值越小说明聚类效果越好。如果第二聚类程度小于第一聚类程度，说明合并后的聚类效果优于合并前的聚类效果，第一初始类别和第二初始类别适合进行合并。如果第二聚类程度大于第一聚类程度，说明合并后的聚类效果劣于合并前的聚类效果，第一初始类别和第二初始类别不适合进行合并。

进一步，在确定第一初始类别和第二初始类别需要合并的情况下，将第一初始类别和第二初始类别中包含的所有目标文本进行合并以得到新的初始类别。

重复执行根据所述第二相似度对所述多个初始类别进行合并的步骤，直至确定所述第一初始类别和所述第二初始类别需要合并。

将当前所有类别作为所述终极类别。

上述步骤中，本发明通过先用高阈值粗聚类，再通过两两合并的方法进行细聚类，同时在计算聚类程度时，只计算要合并类的N个近邻的聚类程度的方式，在保证聚类效果的前提下，能大大加快聚类速度。

请继续参阅图4，示出了一种文本聚类装置，在本实施例中，文本聚类装置40可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述文本聚类方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述文本聚类装置40在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

文本获取模块41，适用于获取多个目标文本，确定每个所述目标文本的文本向量；

初始类别模块42，适用于计算所述文本向量之间的第一相似度，根据所述第一相似度将所述多个目标文本划分为多个初始类别；其中属于同一个初始类别内的两个或两个以上的文本向量之间的第一相似度大于预设的第一阈值；

终极类别模块43，适用于计算多个所述初始类别之间的第二相似度，根据所述第二相似度对所述多个初始类别进行合并，以得到多个终极类别。

本实施例还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备50至少包括但不限于：可通过系统总线相互通信连接的存储器51、处理器52，如图5所示。需要指出的是，图5仅示出了具有组件51-52的计算机设备50，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器51可以是计算机设备50的内部存储单元，例如该计算机设备50的硬盘或内存。在另一些实施例中，存储器51也可以是计算机设备50的外部存储设备，例如该计算机设备50上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器51还可以既包括计算机设备50的内部存储单元也包括其外部存储设备。本实施例中，存储器51通常用于存储安装于计算机设备50的操作系统和各类应用软件，例如实施例一的文本聚类装置40的程序代码等。此外，存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器52在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备50的总体操作。本实施例中，处理器52用于运行存储器51中存储的程序代码或者处理数据，例如运行文本聚类装置50，以实现实施例一的文本聚类方法。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储文本聚类装置40，被处理器执行时实现实施例一的文本聚类方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

流程图中或在此以其它方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

本技术领域的普通技术人员可以理解，实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本聚类方法，其特征在于，包括以下步骤：

获取多个目标文本，确定每个所述目标文本的文本向量；

2.根据权利要求1所述的文本聚类方法，其特征在于，所述获取多个目标文本，确定每个所述目标文本的文本向量的步骤包括：

3.根据权利要求1或2所述的文本聚类方法，其特征在于，所述根据所述第一相似度将所述多个目标文本划分为多个初始类别的步骤包括：

4.根据权利要求3所述的文本聚类方法，其特征在于，所述计算多个所述初始类别之间的第二相似度，根据所述第二相似度对所述多个初始类别进行合并，以得到多个终极类别的步骤包括：

确定第二相似度最高的第一初始类别和第二初始类别；

5.根据权利要求4所述的文本聚类方法，其特征在于，所述其它参照初始类别包括分别与所述第一初始类别相似的N个其它初始类别以及与所述第二初始类别相似的N个其它初始类别，N为自然数。

6.根据权利要求4或5所述的文本聚类方法，其特征在于，所述聚类程度通过类内平均距离与类间平均距离之间的比值确定，所述类内平均距离与同一个初始类别内的所有文本向量的平均值相关，所述类间平均距离与任意两个初始类别之间的中心向量值之差的平均值相关。

7.根据权利要求4所述的文本聚类方法，其特征在于，所述计算多个所述初始类别之间的第二相似度，根据所述第二相似度对所述多个初始类别进行合并，以得到多个终极类别的步骤还包括：

将当前所有类别作为所述终极类别。

8.一种文本聚类装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。