CN116720523B

CN116720523B - 一种基于多核的深度文本聚类方法、装置及存储介质

Info

Publication number: CN116720523B
Application number: CN202310422925.4A
Authority: CN
Inventors: 任丽娜; 黄瑞章; 秦永彬; 姚茂宣
Original assignee: Guizhou University; Guizhou Light Industry Technical College
Current assignee: Guizhou University; Guizhou Light Industry Technical College
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2024-02-06
Anticipated expiration: 2043-04-19
Also published as: CN116720523A

Abstract

本发明公开了一种基于多核的深度文本聚类方法、装置及存储介质，从学习文本语义表示的角度，充分利用多尺度语义表示以获取更丰富的语义表示，从低维语义表示不可线性划分的角度，将多尺度文本语义表示映射得到不同的高维核空间，并以此为基础学习一个共识核空间，并且通过迭代优化聚类过程，达到数据语义表示线性可分和自监督聚类的目标，从而提高聚类结果准确性，有效解决了深度文本聚类方法中低维表示的线性不可分问题，设计了一种三重自监督损失函数监督指导聚类过程，有效解决了深度文本聚类方法与多核方法的联合优化问题，从而学习到高维线性可分的文本表示，提高聚类结果的准确性，更好的服务于下游任务。

Description

一种基于多核的深度文本聚类方法、装置及存储介质

技术领域

本发明涉及信息抽取、文本处理领域，尤其涉及一种基于多核的深度文本聚类方法、装置及存储介质，属于数据挖掘和自然语言处理技术领域。

背景技术

近年来，信息化的高速发展对各领域内海量文本数据的分析处理工作提出了重大挑战，文本聚类作为文本分析的重要工具受到了广泛的关注。由于神经网络在文本表示学习上表现优异，基于神经网络的深度文本聚类方法已经成为目前主流的文本聚类方法之一。

目前的深度文本聚类方法主要可以分为三类，基于文本语义表示学习的深度文本聚类方法、基于文本结构语义表示学习的深度文本聚类方法以及两种语义混合的深度文本聚类方法，这三类方法的思想均为通过深度神经网络将高维数据转变为低维数据，解决维度灾难问题和文本噪声问题，然后对低维表示进行类簇划分。虽然现有的深度文本聚类方法已经取得了很好的聚类效果，然而，其在对低维表示进行类簇划分时，存在语义表示数据密集且线性不可分的作用的问题，从而影响了聚类效果。因此，如何使得深度文本聚类方法学习到的低维语义表示线性可分是目前文本聚类研究中一个亟待解决的问题。

核映射方法作为常用的解决数据线性不可分问题的方法，其主要思想为利用核函数将低维空间中线性不可分的样本映射到高维空间，从而在高维空间中达到其线性可分的目的。目前核映射方法常用于传统聚类算法中，主要分为单核聚类和多核聚类两种方法，其中，多核聚类方法由于其可不依赖于单一核函数而获得了更优异的聚类效果。然而，当前尚没有深度文本聚类与核映射方法相结合的方法，考虑到深度文本聚类方法中不同层次的神经网络可以学习到不同尺度的文本语义表示，且这些不同尺度的文本语义表示具有的不同的语义信息，因此研究如何将多核方法与充分利用不同尺度的文本语义表示的深度文本聚类方法相结合是十分必要的，为进一步研究深度文本聚类提供了新的思路。

发明内容

本发明提出了一种基于多核的深度文本聚类方法、装置及存储介质，以克服现有技术的不足。

本发明的技术方案为：

第一方面，提供一种基于多核的深度文本聚类方法，所述方法包括如下步骤：

步骤一：对原始文本数据进行数据预处理，利用自编码器的编码器部分从处理后的文本数据中学习到多尺度文本语义表示；通过多核方法将文本不同尺度的文本语义表示映射到不同的核空间中；

步骤二：针对各个尺度的文本语义表示，利用自适应融合策略分别获取对应的共识核空间的文本语义表示，再利用自适应融合策略生成共识核空间，以及获得共识核空间的线性可分的文本语义表示；

步骤三：利用自编码器的解码器对不同核空间的文本语义表示进行解码重构，构建三重自监督优化函数，不断反调优化模型参数，得到最终的共识核空间中线性可分的文本语义表示；

步骤四：利用Kernel K-means算法或K-means算法对步骤三得到的最终的共识核空间中线性可分的文本语义表示进行聚类，得到最终的文本聚类结果。

具体地，所述步骤一具体包括：首先将文本向量化表示，将文本向量化表示可以选用：词袋模型、TF、TF-IDF或Word2Vec；利用自编码器对文本数据进行降维去噪，挖掘文本数据在不同网络层中不同尺度的语义表示，经过多核方法转换到不同的核空间中。

优选地，所述步骤二中共识核空间中线性可分的文本语义表示的计算方法如下：

K^l＝λ_m*K_m ^l

K＝β_l*K^l

其中，H^(l)为第l层语义表示；为第m个核函数；K_m ^l为H^(l)经过/>映射后的高维核空间的文本语义表示；λ_m为第一神经网络参数，由文本聚类目标监督而自动调整合适的数值；K^l为第l层单一尺度文本语义的共识核空间的文本语义表示；β_l为第l层第二神经网络参数，可以由文本聚类目标监督而自动调整合适的数值；K表示共识核空间中线性可分的文本语义表示。

具体地，所述步骤三具体包括：将不同核空间中的语义表示进行融合表示经自编码器的解码器进行重构，通过使三重自监督损失函数损失最小化，拉近不同核空间距离更好的获得共识核空间，不断反调优化编码器参数，得到最终的共识核空间及线性可分的文本语义表示。

具体地，所述三重自监督损失函数通过以下方法构建，

L＝L_res+L_d+L_K

L_res表示文本数据与重构文本数据计算重构损失：

L_d表示最小化一致性核空间中文本文档与聚类中心的距离的损失：

L_K表示衡量原始空间不同尺度文本语义表示与共识核空间的线性可分的文本语义表示的一致性的损失：

L表示三重自监督损失函数，H^(l)为第l层学习到的文本语义表示，表示重构文本数据，K表示共识核空间及线性可分的文本语义表示，μ_j为第j个聚类中心，k_i表示第i个样本在共识核空间中线性可分的文本语义表示，N表示样本个数，C表示聚类个数，L表示层数。

第二方面，提供一种基于多核方法的融合多尺度语义表示的深度文本聚类装置，其特征在于：所述装置包括：处理器和存储器，其中，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时使得所述处理器执行第一方面中任意一项所述的基于自适应结构学习的深度文本聚类方法。

第三方面，提供一种存储介质，包括存储在所述存储介质上的计算机程序指令，其中，所述计算机程序指令被处理器运行时执行如第一方面中任意一项所述的基于自适应结构学习的深度文本聚类方法。

本方案通过将多尺度文本语义表示映射得到不同的高维核空间，有效解决了深度文本聚类方法中低维表示的线性不可分问题，并设计了一种三重自监督损失函数监督指导聚类过程，得到更好的聚类结果，经实验验证，模型可以达到一个比较好的性能。

有益效果

本发明的有益效果是：与现有技术相比，采用本发明的技术方案，

(1)能够将多尺度文本语义表示映射得到不同的高维核空间，有效解决了深度文本聚类方法中低维表示的线性不可分问题，得到可以线性划分的文本语义表示，从而得到更好的聚类结果，适应不同的下游任务；

(2)通过设计一种三重自监督损失函数监督指导聚类过程，可以解决深度文本聚类方法与多核方法的联合优化问题，为深度文本聚类方法与核方法融合的后续研究提供了新的思路；

(3)鉴于文本聚类在自然语言处理领域所扮演的重要角色，引入基于多核的深度文本聚类方法能得到更优的聚类结果，为下游任务提供更有利的支撑，具有较大的理论意义和实用价值。

附图说明

图1为本公开至少一个实施例提供的技术路线图；

图2为本公开至少一个实施例提供的方法模型图；

图3为本公开至少一个实施例提供的基于多核方法的融合多尺度语义表示的深度文本聚类装置的示意性框图；

图4为本公开至少一个实施例提供的存储介质的示意性框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将参照本说明书附图对本发明作进一步的详细描述。

实施例一：

如附图1～2所示，一种基于多核的深度文本聚类方法，所述方法包括如下步骤：步骤一：对原始文本数据进行数据预处理，利用自编码器学习文本的多尺度语义表示，通过多核方法方式将文本不同尺度的语义表示映射到不同的高维核空间中使其线性可分；步骤二：针对各个尺度的文本语义表示，利用自适应融合策略分别获取对应的共识核空间的文本语义表示，再利用自适应融合策略生成共识核空间，以及获得共识核空间的线性可分的文本语义表示；步骤三：利用自编码器的解码器对不同核空间的文本语义表示进行解码重构，构建三重自监督优化函数，不断反调优化模型参数，得到最终的共识核空间的线性可分的文本语义表示；步骤四：利用Kernel K-means算法或K-means算法对步骤三得到的最终的共识核空间中线性可分的文本语义表示进行聚类，得到最终的文本聚类结果。

进一步地，步骤具体包括：首先预处理原始文本数据，使其形成向量化表示，这一环节可以选用：词袋模型、词频(TF)、词频-逆文本频率指数(TF-IDF)或Word2Vec等方法。利用利用自编码器对文本数据进行降维去噪，挖掘文本数据在不同网络层中不同尺度的语义表示，其中最后一层为低维语义表示。这些不同尺度的文本语义表示的获得便于后续充分利用不同尺度的语义信息以及共识核空间的学习。

进一步地，步骤二中共识核空间中线性可分的文本语义表示的计算方法如下：

K^l＝λ_m*K_m ^l

K＝β_l*K^l

进一步地，步骤三中，设计了三重自监督损失函数，三重自监督损失函数包括三个部分，其一，将最终共识核空间的语义表示K经自编码器的解码器进行重构，利用文本数据与重构文本数据计算重构损失，该损失的设计可以达到神经网络与核空间中高维语义表示相互调整的作用；其二，计算最小化共识核空间中文本文档与聚类中心的距离拉近核空间中相似文本的距离；其三，计算衡量原始空间不同尺度文本语义表示与最终的共识核空间的高维空间文本表示的一致性。通过使三重自监督损失函数损失最小化，达到拉近不同核空间距离更好的获得共识核空间的目的。不断反调优化编码器参数，得到最终的共识核空间及线性可分的文本语义表示。此过程可以充分利用三重损失函数指导共识核空间学习及语义表示学习，更好的监督模型。

图2中X表示原始文本数据，K表示共识核空间中线性可分的文本语义表示。本发明构建了三重自监督损失函数，并使三重自监督损失函数损失最小化来达到模型参数优化的目的，这部分的技术原理下所示。

其中，为重构文本数据，μ_j为第j个聚类中心，H^(l)为第l层学习到的文本语义表示，L_res是第一重重构损失，L_d为最小化一致性核空间中文本文档与聚类中心的距离的损失，L_K为衡量原始空间不同尺度文本语义表示与最终的共识核空间的高维空间文本表示的一致性的损失，k_i表示第i个样本在共识核空间中线性可分的文本语义表示，N表示样本个数，C表示聚类个数，L表示层数。如下所示，融合三重损失则构成了本发明的三重自监督损失函数，该函数可以监督指导聚类过程，有效解决了深度文本聚类方法与多核方法的联合优化问题，从而学习到高维线性可分的文本表示。

L＝L_res+L_d+L_K

进一步地，步骤四中，根据步骤三获得的在最终的共识核空间K中线性可分的文本语义表示，通过Kernel K-means算法或K-means算法可以得最终的聚类结果，从而达到了充分利用多尺度文本语义信息丰富文本语义表示以及将线性部分的低维文本数据在高维共识核空间中线性可分的目的，最终可以得最优的聚类结果。

实施例二：

本公开的至少一个实施例还提供了一种基于多核方法的融合多尺度语义表示的深度文本聚类装置。图3是本公开的至少一个实施例提供的基于多核方法的融合多尺度语义表示的深度文本聚类装置的示意性框图。该基于多核方法的融合多尺度语义表示的深度文本聚类装置，包括：处理器和存储器，其中，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时使得所述处理器执行如实施例一中任意一项所述的基于多核的深度文本聚类方法。

例如，该处理器例如是中央处理单元(CPU)、图形处理器GPU、张量处理器(TPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，例如，该处理器可以实现为通用处理器，并且也可以为单片机、微处理器、数字信号处理器、专用的图像处理芯片、或现场可编程逻辑阵列等。例如，存储器可以包括易失性存储器和非易失性存储器的至少一种，例如存储器可以包括只读存储器(ROM)、硬盘、闪存等。相应地，该存储器可以实现为一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，在所述计算机可读存储介质上可以存储一个或多个计算机程序指令。处理器可以运行所述程序指令，以执行本公开的至少一个实施例提供的任一基于多核的深度文本聚类方法。该存储器还可以存储其他各种应用程序和各种数据，例如，所述应用程序使用和/或产生的各种数据等。

实施例三：

本公开的至少一个实施例还提供了一种存储介质(例如，非暂时性存储介质)。图4是本公开的至少一个实施例提供的存储介质的示意性框图。如图4所示，该存储介质包括存储在所述存储介质上的计算机程序指令。计算机程序指令被处理器运行时执行本公开的至少一个实施例提供的基于多核的深度文本聚类方法。

例如，存储介质可能有多种形式，包括有形的存储介质，载波介质或物理传输介质等。稳定的储存介质可以包括：光盘或磁盘，以及其他计算机或类似设备中使用的，能够实现图中所描述的系统组件的存储系统。不稳定的存储介质可以包括动态内存，例如计算机平台的主内存等。有形的传输介质可以包括同轴电缆、铜电缆以及光纤，例如计算机系统内部形成总线的线路。载波传输介质可以传递电信号、电磁信号、声波信号或光波信号等。这些信号可以由无线电频率或红外数据通信的方法所产生。通常的存储介质(例如，计算机可读介质)包括硬盘、软盘、磁带、任何其他磁性介质；CD-ROM、DVD、DVD-ROM、任何其他光学介质；穿孔卡、任何其他包含小孔模式的物理存储介质；RAM、PROM、EPROM、FLASH-EPROM，任何其他存储器片或磁带；传输数据或指令的载波、电缆或传输载波的连接装置、任何其他可以利用计算机程序指令(例如，程序代码)和/或计算机读取的数据。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序指令(例如，程序代码)，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在一些示例中，本公开的至少一个实施例描述的功能也可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

本发明未详述之处，均为本技术领域技术人员的公知技术。最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多核的深度文本聚类方法，其特征在于，所述方法包括如下步骤：

步骤二：针对各个尺度的文本语义表示，利用自适应融合策略分别获取对应的共识核空间的文本语义表示，再利用自适应融合策略生成共识核空间，以及获得共识核空间中线性可分的文本语义表示；

步骤四：利用Kernel K-means算法或K-means算法对步骤三得到的最终的共识核空间中线性可分的文本语义表示进行聚类，得到最终的文本聚类结果；

所述步骤二中共识核空间中线性可分的文本语义表示的计算方法如下：

K^l＝λ_m*K_m ^l

K＝β_l*K^l

其中，H^(l)为第l层语义表示；为第m个核函数；K_m ^l为H^(l)经过/>映射后的高维核空间的文本语义表示；λ_m为第一神经网络参数，由文本聚类目标监督而自动调整合适的数值；K^l为第l层单一尺度文本语义的共识核空间的文本语义表示；β_l为第l层第二神经网络参数，由文本聚类目标监督而自动调整合适的数值；K表示共识核空间中线性可分的文本语义表示；

所述步骤三具体包括：将不同核空间中的语义表示进行融合表示经自编码器的解码器进行重构，通过使三重自监督损失函数损失最小化，拉近不同核空间距离更好的获得共识核空间，不断反调优化编码器参数，得到最终的共识核空间及线性可分的文本语义表示；

所述三重自监督损失函数通过以下方法构建，

L＝L_res+L_d+L_K

L_res表示文本数据与重构文本数据计算重构损失：

L_d表示最小化共识核空间中文本文档与聚类中心的距离的损失：

L_K表示衡量原始空间不同尺度文本语义表示与共识核空间中线性可分的文本语义表示的一致性的损失：

L表示三重自监督损失函数，H^(l)为第l层学习到的文本语义表示，表示重构文本数据，K表示共识核空间及线性可分的文本语义表示，μ_j为第j个聚类中心，k_i表示第i个样本在共识核空间中线性可分的文本语义表示，N表示样本个数，C表示聚类个数，L表示层数；X表示原始文本数据。

2.根据权利要求1所述的基于多核的深度文本聚类方法，其特征在于，所述步骤一具体包括：首先将文本向量化表示，将文本向量化表示选用：词袋模型、TF、TF-IDF或Word2Vec；利用自编码器对文本数据进行降维去噪，挖掘文本数据在不同网络层中不同尺度的语义表示，经过多核方法转换到不同的核空间中。

3.一种基于多核方法的融合多尺度语义表示的深度文本聚类装置，其特征在于：所述装置包括：处理器和存储器，其中，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时使得所述处理器执行如权利要求1-2任一项所述的基于多核的深度文本聚类方法。

4.一种存储介质，包括存储在所述存储介质上的计算机程序指令，其中，所述计算机程序指令被处理器运行时执行如权利要求1-2任一项所述的基于多核的深度文本聚类方法。