CN110096596B

CN110096596B - 一种基于概念分解的多视图文本聚类方法、装置及设备

Info

Publication number: CN110096596B
Application number: CN201910379773.8A
Authority: CN
Inventors: 李健强; 周郭许; 邱育宁
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2023-05-05
Anticipated expiration: 2039-05-08
Also published as: CN110096596A

Abstract

本发明公开了一种基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质，包括：通过多个视角对待分类事件进行数据采集，得到所述待分类事件的文本多视图数据；利用预先构建的概念分解模型对所述文本多视图数据进行分解，得到所述文本多视图数据的一致表征矩阵；利用预设聚类算法对所述一致表征矩阵进行聚类，得到所述待分类事件的聚类结果。本发明所提供的方法、装置、设备以及计算机可读存储介质，利用概念分解模型引入了几何结构的特征图约束，最大限度地挖掘数据中隐含的深层信息，提高了多视图文本聚类的效果。

Description

一种基于概念分解的多视图文本聚类方法、装置及设备

技术领域

本发明涉及聚类技术领域，特别是涉及一种基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质。

背景技术

随着信息技术的不断发展，人们身边的事物都能以数据的形式被记录下来，因此大数据时代的到来使得我们生活中处处离不开数据。为了处理如此庞大的数据，人们需要一些工具对这些数据进行预处理，将数据中冗余的信息剔除以减少计算机的负荷和提升计算速度。矩阵分解是有效的数据处理工具之一，它能将高维的数据降维到低维空间中，同时能够防止有效信息丢失。

目前由于图约束理论被提出，在矩阵分解的模型中引入图约束，能够突破瓶颈从而获得更好的聚类效果。传统的单视图聚类只能依据属性是否相近而进行聚群，但是实际所收集到的数据可能会出现一些虚假错误的信息，从而干扰了聚类的效果。随着技术的成熟化，科研人员发现了一个全新的聚类新方法：多视图聚类(Multi-View Clustering，MVC)，弥补了单视图聚类的不足。多视图聚类通过多个方面对同一事物进行数据采集，其关键是使得信息相互补充，能够解决单一视图可能出现虚假错误信息的现象。

在现有技术中图约束非负矩阵分解多视图聚类算法只对几何结构的数据图作局部约束，虽然此约束在聚类中取得良好的效果，但并没有最大限度地挖掘数据中隐含的深层信息，更进一步取得良好的效果。非负矩阵分解算法在非负约束下能够学习到局部表征，但由于只能允许局部表征作加法运算，因此无法明确地了解原始数据在降维后的空间中的性能效果，例如在再生希尔伯特空间(Reproducing Kernel Hilbert Space，RKHS)。对于已有的基于概念分解的多视图聚类，其仅对几何结构的数据图进行约束，虽然性能有所提升，但是忽略了特征之间的相似性。

综上所述可以看出，如何提高多视图文本聚类的效果，最大限度地挖掘数据中隐含的深层信息是目前有待解决的问题。

发明内容

本发明的目的是提供一种基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质，以解决现有技术中的非负矩阵分解多视图聚类算法没有最大限度的挖掘数据中隐含的深度信息的问题。

为解决上述技术问题，本发明提供一种基于概念分解的多视图文本聚类方法，包括：通过多个视角对待分类事件进行数据采集，得到所述待分类事件的文本多视图数据；利用预先构建的概念分解模型对所述文本多视图数据进行分解，得到所述文本多视图数据的一致表征矩阵；利用预设聚类算法对所述一致表征矩阵进行聚类，得到所述待分类事件的聚类结果。

优选地，所述利用预先构建的概念分解模型对所述文本多视图数据进行分解，得到所述文本多视图数据的一致表征矩阵包括：

分别将所述文本多视图数据中每个视角所采集的文本视图数据输入至所述概念分解模型的目标函数内，得到每个文本视图数据的关联矩阵和表征矩阵；

对所述每个文本视图数据的关联矩阵分别进行迭代更新，得到所述每个文本视图数据更新后的关联矩阵；

对所述每个文本视图数据的表征矩阵分别进行迭代更新，得到所述每个文本视图数据更新后的表征矩阵；

联合所述每个文本视图数据更新后的表征矩阵，对所述文本多视图数据的一致表征矩阵进行更新，得到所述文本多视图数据更新后的一致表征矩阵。

优选地，所述概念分解模型的目标函数为：

s.t.W^(v)≥0,H^(v)≥0,ω_v≥0,∑ω_v＝1.

其中，X^(v)为所述文本多视图数据

中第v个视角中所采集的文本数据，n_v为所述文本多视图数据的视图总数，

m_v为第v个视角中所采集的文本数据的特征维度，n为第v个视角中所采集的文本数据的实例个数；W^(v)∈R^n×k为第v个视角中所采集的文本数据的关联矩阵，H^(v)∈R^n×k为第v个视角中所采集的文本数据的表征矩阵，

和

为特征图和数据图的拉普拉斯矩阵，α₁和α₂为对应图约束的权重；β与ω_v分别为控制惩罚项D(H^(v),H^*)的权重和所述表征矩阵的权重；H^*为所述文本多视图数据的一致表征矩阵。

优选地，所述联合所述每个文本视图数据更新后的表征矩阵，对所述文本多视图数据的一致表征矩阵进行更新，得到所述文本多视图数据更新后的一致表征矩阵包括：

利用

联合所述每个文本视图数据更新后的表征矩阵，对所述文本多视图数据的一致表征矩阵进行更新，得到所述文本多视图数据更新后的一致表征矩：

优选地，所述利用预设聚类算法对所述一致表征矩阵进行聚类，得到所述待分类事件的聚类结果包括：

利用K均值聚类算法对所述一致表征矩阵进行聚类，将所述一致表征矩阵的聚类结果作为所述待分类事件的聚类结果。

本发明还提供了一种基于概念分解的多视图文本聚类装置，包括：

采集模块，用于通过多个视角对待分类事件进行数据采集，得到所述待分类事件的文本多视图数据；

分解模块，用于利用预先构建的概念分解模型对所述文本多视图数据进行分解，得到所述文本多视图数据的一致表征矩阵；

聚类模块，用于利用预设聚类算法对所述一致表征矩阵进行聚类，得到所述待分类事件的聚类结果。

优选地，所述分解模块包括：

分解单元，用于分别将所述文本多视图数据中每个视角所采集的文本视图数据输入至所述概念分解模型的目标函数内，得到每个文本视图数据的关联矩阵和表征矩阵；

关联矩阵更新单元，用于对所述每个文本视图数据的关联矩阵分别进行迭代更新，得到所述每个文本视图数据更新后的关联矩阵；

表征矩阵更新单元，用于对所述每个文本视图数据的表征矩阵分别进行迭代更新，得到所述每个文本视图数据更新后的表征矩阵；

联合单元，用于联合所述每个文本视图数据更新后的表征矩阵，对所述文本多视图数据的一致表征矩阵进行更新，得到所述文本多视图数据更新后的一致表征矩阵。

优选地，所述聚类模块具体用于：

本发明还提供了一种基于概念分解的多视图文本聚类设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种基于概念分解的多视图文本聚类方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于概念分解的多视图文本聚类方法的步骤。

本发明所提供的基于概念分解的多视图文本聚类方法，利用多个视角对待分类事件进行数据采集，得到所述待分类事件的文本多视图数据。利用概念分解模型对所述文本多视图数据进行分解，得到所述文本多视图数据的一致表征矩阵。对所述一致表征矩阵进行聚类，得到的聚类结果作为所述待分类事件的聚类结果。本发明将概念分解应用到多视图文本聚类中，每个聚类中心作为各个原始数据点的线性组合，且每个重构数据点也是各个聚类中心的线性组合，从而构建为概念模型。概念分解与非负矩阵分解不同之处为概念分解可以应用于包含负值的数据，并且可以在核空间中实现，从而能尽可能地保存原始数据中的有效信息。概念分解运用在多视图文本聚类中，引入了一个几何结构的特征图约束，有效地利用数据和特征中包含的结构信息，提升了文本聚类的收敛速度和数据的拟合度。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的基于概念分解的多视图文本聚类方法的第一种具体实施例的流程图；

图2为本发明所提供的基于概念分解的多视图文本聚类方法的第二种具体实施例的流程图；

图3为本发明实施例提供的一种基于概念分解的多视图文本聚类装置的结构框图。

具体实施方式

本发明的核心是提供一种基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质，基于概念分解进行多视图文本聚类，提高了多视图文本聚类的效果，最大限度地挖掘了数据中隐含的深层信息。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的基于概念分解的多视图文本聚类方法的第一种具体实施例的流程图；具体操作步骤如下：

步骤S101：通过多个视角对待分类事件进行数据采集，得到所述待分类事件的文本多视图数据；

在现实世界中，一个物体可以由多个角度观察而得到不同的描述，这些描述也称之为表征。这些表征通常会提供兼容和互补的信息，所以将同一个物体的各个表征组合成集合来获得更好的性能，从而得出多视图聚类算法模型。多视图的学习是利用各个视图的有效信息进行补充，突破单视图聚类的性能瓶颈。待分类事件的文本多视图数据的采集方式是多样的；例如：抽取若干个同时在两个或以上的新闻源中报到的新闻作为多视图数据集，然后将这若干个新闻进行分类；也可以抽取若干个文件，使用它们的不同语言版本作为文本多视图数据，然后再将这若干个文件分类。

步骤S102：利用预先构建的概念分解模型对所述文本多视图数据进行分解，得到所述文本多视图数据的一致表征矩阵；

概念分解的分解形式为X≈XWH^T；而现有技术中非负矩阵分解的解形式：X≈WH^T。

对所述文本多视图数据进行降维分解后，可以去除所述文本多视图数据中一些冗余信息，从而使用概念分解后得到的一致表征矩阵进行聚类的效果比直接使用所述文本多视图数据进行聚类的效果好。

步骤S103：利用预设聚类算法对所述一致表征矩阵进行聚类，得到所述待分类事件的聚类结果。

在本实施例中，可以选用K均值聚类算法对所述一致表征矩阵进行聚类，将所述一致表征矩阵的聚类结果作为所述待分类事件的聚类结果。在本发明的其他实施例中也可以选用其他聚类算法对所述一致表征矩阵进行聚类。

本实施例除了在几何结构中引入了数据图约束外，还引入了特征图约束，有效地利用数据中包含的结构信息和特征，具有比非负矩阵分解算法更强的识别能力。本实施例所体供的多视图文本聚类方法，在特征图约束保证原有的信息不丢失的前提下，最大限度突破瓶颈提升了文本聚类的性能效果。

基于上述实施例，在本实施例中，分别将所述文本多视图数据中每个视角所采集的文本视图数据输入至所述概念分解模型的目标函数内，得到每个文本视图数据的关联矩阵和表征矩阵；联合所述每个文本视图数据的关联矩阵和表征矩阵，得到所述文本多视图数据更新后的一致表征矩阵。请参考图2，图2为本发明所提供的基于概念分解的多视图文本聚类方法的第二种具体实施例的流程图；具体操作步骤如下：

步骤S201：通过多个视角对待分类事件进行数据采集，得到所述待分类事件的文本多视图数据；

步骤S202：分别将所述文本多视图数据中每个视角所采集的文本视图数据输入至所述概念分解模型的目标函数内，得到每个文本视图数据的关联矩阵和表征矩阵；

所述概念分解模型的目标函数为：

s.t.W^(v)≥0,H^(v)≥0,ω_v≥0,∑ω_v＝1.

其中，X^(v)为所述文本多视图数据

和

为特征图和数据图的拉普拉斯矩阵，α₁和α₂为对应图约束权重；β与ω_v分别为控制惩罚项D(H^(v),H^*)的权重和所述表征矩阵的权重；H^*为所述文本多视图数据的一致表征矩阵。

为了进一步对数据拟合，使用迭代乘子更新法对目标函数进行优化。首先定义核矩阵K^(v)＝(X^(v))^TX^(v)，同时定义R^(v)＝H^(v)-H^*。目标函数可以复写为：

s.t.W^(v)≥0,H^(v)≥0,ω_v≥0,∑ω_v＝1.

优化模型时分别对各个视图的因子矩阵进行迭代更新，由于各个视图的更新步骤相似，所以只展示其中一个视图的迭代更新公式，使用K，W，H，L_W，L_H，ω，R分别简单表示同一视图内的K^(v)，W^(v)，H^(v)，

ω_v，R^(v)。公式中tr()为数学符号trace的缩写，代表矩阵的迹。

步骤S203：对所述每个文本视图数据的关联矩阵分别进行迭代更新，得到所述每个文本视图数据更新后的关联矩阵；

固定H^(v)和H^*，更新W^(v)：引入拉格朗日乘子Φ约束W≥0，则关于W的拉格朗日函数L(W,Φ)可以写成为：

L(W,Φ)＝-2tr(W^TKH)+tr(W^TKWH^TH)+α₁tr(W^TL_WW)+tr(ΦW^T)

对L(W,Φ)进行局部微分可得：

使用Karush-Kuhn-Tucker(KKT)条件φ_ijW_ij＝0与图拉普拉斯矩阵L_W＝D_W-S_W，因此可得到关于W^(v)的更新公式：

步骤S204：对所述每个文本视图数据的表征矩阵分别进行迭代更新，得到所述每个文本视图数据更新后的表征矩阵；

固定W^(v)和H^*，更新H^(v)：引入拉格朗日乘子Ψ约束H≥0，则关于H的拉格朗日函数L(H,Ψ)可以写成为：

L(H,Ψ)＝-2tr(W^TKH)+tr(W^TKWH^TH)+α₂tr(H^TL_HH)+βωtr(R^TR)+tr(ΨH^T)；

对L(H,Ψ)进行局部微分可得：

使用KKT条件ψ_ijH_ij＝0与图拉普拉斯矩阵L_H＝D_H-S_H，因此可得到关于H^(v)的更新公式：

步骤S205：联合所述每个文本视图数据更新后的表征矩阵，对所述文本多视图数据的一致表征矩阵进行更新，得到所述文本多视图数据更新后的一致表征矩阵；

固定W^(v)和H^(v)，更新H^*：由于H^*是关于各个视图的一致表征矩阵，需要联合所有视图的表征矩阵进行求导，H^*的函数如下：

更新公式：

对于W^(v)和H^(v)的初始化进行随机初始化，H^*的初始化则根据

ω_v则为则根据ω_v＝1/n_v，α₁和α₂则根据模型的性能进行微调，得到最终所得的一致表征矩阵H^*。

步骤S206：利用K均值聚类算法对所述一致表征矩阵进行聚类，将所述一致表征矩阵的聚类结果作为所述待分类事件的聚类结果。

本实施例中引入了几何结构的特征图约束，利用图拉普拉斯算子同时在特征空间和数据空间进行正则化，同时学习特征空间和数据空间的几何结构信息，能有效增强学习数据的全局和局部信息的能力，提升了多视图文本的聚类效果。

请参考图3，图3为本发明实施例提供的一种基于概念分解的多视图文本聚类装置的结构框图；具体装置可以包括：

采集模块100，用于通过多个视角对待分类事件进行数据采集，得到所述待分类事件的文本多视图数据；

分解模块200，用于利用预先构建的概念分解模型对所述文本多视图数据进行分解，得到所述文本多视图数据的一致表征矩阵；

聚类模块300，用于利用预设聚类算法对所述一致表征矩阵进行聚类，得到所述待分类事件的聚类结果。

本实施例的基于概念分解的多视图文本聚类装置用于实现前述的基于概念分解的多视图文本聚类方法，因此基于概念分解的多视图文本聚类装置中的具体实施方式可见前文中的基于概念分解的多视图文本聚类方法的实施例部分，例如，采集模块100，分解模块200，聚类模块300，分别用于实现上述基于概念分解的多视图文本聚类方法中步骤S101，S102和S103，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种基于概念分解的多视图文本聚类设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种基于概念分解的多视图文本聚类方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于概念分解的多视图文本聚类方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于概念分解的多视图文本聚类方法，其特征在于，包括：

通过多个视角对待分类事件进行数据采集，得到所述待分类事件的文本多视图数据；

利用预先构建的概念分解模型对所述文本多视图数据进行分解，得到所述文本多视图数据的一致表征矩阵，包括：

联合所述每个文本视图数据更新后的表征矩阵，对所述文本多视图数据的一致表征矩阵进行更新，得到所述文本多视图数据更新后的一致表征矩阵；

利用预设聚类算法对所述一致表征矩阵进行聚类，得到所述待分类事件的聚类结果；

所述概念分解模型的目标函数为：

s.t.W^(v)≥0,H^(v)≥0,ω_v≥0,∑ω_v＝1.

其中，X^(v)为所述文本多视图数据中第v个视角中所采集的文本数据，n_v为所述文本多视图数据的视图总数，m_v为第v个视角中所采集的文本数据的特征维度，n为第v个视角中所采集的文本数据的实例个数；W^(v)∈R^n×k为第v个视角中所采集的文本数据的关联矩阵，H^(v)∈R^n×k为第v个视角中所采集的文本数据的表征矩阵，和为特征图和数据图的拉普拉斯矩阵，α₁和α₂为对应图约束权重；β与ω_v分别为控制惩罚项D(H^(v),H^*)的权重和所述表征矩阵的权重；H^*为所述文本多视图数据的一致表征矩阵。

2.如权利要求1所述的多视图文本聚类方法，其特征在于，所述联合所述每个文本视图数据更新后的表征矩阵，对所述文本多视图数据的一致表征矩阵进行更新，得到所述文本多视图数据更新后的一致表征矩阵包括：

利用联合所述每个文本视图数据更新后的表征矩阵，对所述文本多视图数据的一致表征矩阵进行更新，得到所述文本多视图数据更新后的一致表征矩阵：

3.如权利要求1至2任一项所述的多视图文本聚类方法，其特征在于，所述利用预设聚类算法对所述一致表征矩阵进行聚类，得到所述待分类事件的聚类结果包括：

4.一种基于概念分解的多视图文本聚类装置，其特征在于，包括：

所述分解模块包括：

联合单元，用于联合所述每个文本视图数据更新后的表征矩阵，对所述文本多视图数据的一致表征矩阵进行更新，得到所述文本多视图数据更新后的一致表征矩阵；

聚类模块，用于利用预设聚类算法对所述一致表征矩阵进行聚类，得到所述待分类事件的聚类结果；

所述概念分解模型的目标函数为：

s.t.W^(v)≥0,H^(v)≥0,ω_v≥0,∑ω_v＝1.

5.如权利要求4所述的多视图文本聚类装置，其特征在于，所述聚类模块具体用于：

6.一种基于概念分解的多视图文本聚类设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至3任一项所述一种基于概念分解的多视图文本聚类方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述一种基于概念分解的多视图文本聚类方法的步骤。