CN116310452B

CN116310452B - 一种多视图聚类方法及系统

Info

Publication number: CN116310452B
Application number: CN202310132746.7A
Authority: CN
Inventors: 程良伦; 郑达成; 张伟文
Original assignee: Guangdong Nengge Knowledge Technology Co ltd; Guangdong University of Technology
Current assignee: Guangdong Nengge Knowledge Technology Co ltd; Guangdong University of Technology
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2024-03-19
Anticipated expiration: 2043-02-16
Also published as: CN116310452A

Abstract

本发明公开了一种多视图聚类方法及系统，其中，方法包括获取单视图数据集；对所述单视图数据集进行特征提取处理，得到多视图数据集；对所述多视图数据集进行张量构建处理，得到多视图张量；根据所述多视图张量对所述多视图数据集的子空间特征与内部相关性进行学习处理，得到优化矩阵；根据混合抽样算法和变体近邻算法对所述优化矩阵进行二分图构建处理，得到聚类二分图；根据所述聚类二分图对所述多视图数据集进行切割处理，得到多视图聚类结果。本发明实施例能够减低噪声点的产生，提高多视图聚类的鲁棒性，可广泛应用于数据挖掘技术领域。

Description

一种多视图聚类方法及系统

技术领域

本发明涉及数据挖掘技术领域，尤其是一种多视图聚类方法及系统。

背景技术

在目前数据挖掘技术领域中，如何利用多个视图来获取更好的信息是目前该领域的重点研究问题，因为以往的研究是对单视图的聚类进行研究，而在数据挖掘技术领域中，多视图聚类的应用研究更为稀缺。相关技术中，大部分多视图聚类方法使用一个视图进行重建，或者通过不同视图间得到相似矩阵等导致聚类效果不佳的问题。综合上述，相关技术中存在的技术问题亟需得到解决。

发明内容

有鉴于此，本发明实施例提供一种多视图聚类方法及系统，以实现提高数据聚类的鲁棒性。

一方面，本发明提供了一种多视图聚类方法，所述方法包括：

获取单视图数据集；

对所述单视图数据集进行特征提取处理，得到多视图数据集；

对所述多视图数据集进行张量构建处理，得到多视图张量；

根据所述多视图张量对所述多视图数据集的子空间特征与内部相关性进行学习处理，得到优化矩阵；

根据混合抽样算法和变体近邻算法对所述优化矩阵进行二分图构建处理，得到聚类二分图；

根据所述聚类二分图对所述多视图数据集进行切割处理，得到多视图聚类结果。

可选地，所述对所述单视图数据集进行特征提取处理，得到多视图数据集，包括：

对所述单视图数据集进行图像强度和图像纹理特征提取处理，得到多视图数据集。

可选地，所述对所述多视图数据集进行张量构建处理，得到多视图张量，包括：

根据张量核范数对所述多视图数据集进行张量构建处理，得到多视图张量。

可选地，所述根据所述多视图张量对所述多视图数据集的子空间特征与内部相关性进行学习处理，得到优化矩阵，包括：

对所述多视图数据集进行特征矩阵获取处理，得到子空间特征矩阵；

对所述多视图数据集的错误值进行垂直合并处理，得到误差矩阵；

根据所述子空间特征矩阵和所述误差矩阵对所述多视图张量进行优化处理，得到优化矩阵。

可选地，所述根据混合抽样算法和变体近邻算法对所述优化矩阵进行二分图构建处理，得到聚类二分图，包括：

根据混合抽样算法对所述优化矩阵进行抽样处理，得到候选特征集合；

根据变体近邻算法对所述候选特征集合进行构建处理，得到聚类二分图。

可选地，所述根据混合抽样算法对所述优化矩阵进行抽样处理，得到候选特征集合，包括：

对所述优化矩阵进行随机抽样处理，得到子特征集合；

对所述子特征集合进行质心获取处理，得到候选特征集合。

可选地，所述根据变体近邻算法对所述候选特征集合进行二分图构建处理，得到聚类二分图，包括：

对所述候选特征集合进行聚类处理，得到聚类中心集合；

对所述优化矩阵与所述聚类中心集合进行欧式距离计算处理，得到簇中心；

根据所述簇中心对所述优化矩阵进行选举处理，得到近邻对象；

根据所述近邻对象进行二分图构建处理，得到聚类二分图。

另一方面，本发明实施例还提供了一种多视图聚类系统，包括：

第一模块，用于获取单视图数据集；

第二模块，用于对所述单视图数据集进行特征提取处理，得到多视图数据集；

第三模块，用于对所述多视图数据集进行张量构建处理，得到多视图张量；

第四模块，用于根据所述多视图张量对所述多视图数据集的子空间特征与内部相关性进行学习处理，得到优化矩阵；

第五模块，用于根据混合抽样算法和变体近邻算法对所述优化矩阵进行二分图构建处理，得到聚类二分图；

第六模块，用于根据所述聚类二分图对所述多视图数据集进行切割处理，得到多视图聚类结果。

可选地，所述第二模块，包括：

第一单元，用于对所述单视图数据集进行图像强度和图像纹理特征提取处理，得到多视图数据集。

可选地，所述第三模块，包括：

第二单元，用于根据张量核范数对所述多视图数据集进行张量构建处理，得到多视图张量。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明实施例通过对单视图数据集进行特征提取处理得到多视图数据集，能够降低使用单一视图进行重建而造成的风险；另外，本发明实施例根据混合抽样算法和变体近邻算法对优化矩阵进行二分图构建处理，得到聚类二分图；再根据聚类二分图对多视图数据集进行切割处理，得到多视图聚类结果，能够利用混合抽样策略与变体近邻算法进行二次过滤，降低噪声点的产生，从而提高了多视图聚类的精度和鲁棒性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种多视图聚类方法的流程图；

图2是本申请实施例提供的一种模型示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先，对本申请中涉及的若干名词进行解析：

多视图聚类：即利用多视图的互补信息将一组未标记的对象划分为同质的组来组织或发现数据中的结构，从而产生一个较优的聚类结果。

局部二值模式(Local Binary Pattern，LBP)是一种用来描述图像局部纹理特征的算子，它具有旋转不变性和灰度不变性等显著的优点。

Gabor特征是一种可以用来描述图像纹理信息的特征，Gabor滤波器的频率和方向与人类的视觉系统类似，特别适合于纹理表示与判别。Gabor特征主要依靠Gabor核在频率域上对信号进行加窗，从而能描述信号的局部频率信息。

参照图1，本发明实施例提供一种多视图聚类方法，包括：

S101、获取单视图数据集；

S102、对所述单视图数据集进行特征提取处理，得到多视图数据集；

S103、对所述多视图数据集进行张量构建处理，得到多视图张量；

S104、根据所述多视图张量对所述多视图数据集的子空间特征与内部相关性进行学习处理，得到优化矩阵；

S105、根据混合抽样算法和变体近邻算法对所述优化矩阵进行二分图构建处理，得到聚类二分图；

S106、根据所述聚类二分图对所述多视图数据集进行切割处理，得到多视图聚类结果。

在本发明实施例中，首先获取单视图数据集，提取单视图数据集中的特征，生成多视图数据集，其中单视图数据集可以为针对海洋企业相关数据集的单视图表示。接着根据多视图数据集构建低秩张量，得到多视图张量，其中多视图张量为一个有效的低秩限制矩阵，并利用低秩张量特性来学习多视图数据集中不同视图子空间特征与探索跨视图内部相关性，对低秩限制矩阵优化后得到优化矩阵。然后根据混合抽样算法和变体近邻算法对优化矩阵进行二分图构建得到聚类二分图，最后使用图切割算法得到最终的聚类集成结果。可以想到的是，本发明实施例能够结合待分析企业的相关数据，将聚类集成结果可视化。本发明实施例有效地降低了多视图聚类领域中相关技术的多视图聚类方法使用一个视图进行重建所带来的风险，并克服了相关技术中通过增广拉格朗日算法对不同视图计算得到相似矩阵而导致效果不佳的问题，利用混合抽样策略与变体k-近邻算法进行二次过滤提高了多视图聚类的精度。

进一步作为优选的实施方式，所述对所述单视图数据集进行特征提取处理，得到多视图数据集，包括：

在本发明实施例中，提取单视图数据集中的Intensity(图像强度),LBP和Gabor特征，构建得到多视图数据集。其中，Intensity表示单通道图像像素的强度(值的大小)，在灰度图像中，它是图像的灰度。在RGB颜色空间中，可以理解把它为是R通道的像素灰度值，G通道的像素灰度值，或是B通道的像素灰度值。LBP是一种用来描述图像局部纹理特征的算子，通过该算子能够提取得到图像的局部的纹理特征。Gabor特征是一种可以用来描述图像纹理信息的特征。本发明实施例可以通过基于Gabor小波和多尺度LBP算子的特征提取方法提取得到单视图数据集中每个单视图的图像纹理特征，从而得到多视图数据集。

进一步作为优选的实施方式，所述对所述多视图数据集进行张量构建处理，得到多视图张量，包括：

在本发明实施例中，根据张量核范数去构建高阶张量，致使张量是一个有效的低秩限制矩阵。其中，张量即是对向量和矩阵的一种高阶扩展，可以将向量看做一维张量，矩阵看做二维张量。张量的应用面很广，大多数的数据都可用张量表示，例如一张彩色图片就是一个三维张量，分别由像素矩阵和第三维的RGB颜色通道组成，而张量核范数定义为傅里叶变换后的张量正面切片的奇异值之和。本发明实施例将多视图数据集使用向量表示，根据张量核范数构建得到多视图张量。

进一步作为优选的实施方式，所述根据所述多视图张量对所述多视图数据集的子空间特征与内部相关性进行学习处理，得到优化矩阵，包括：

在本发明实施例中，利用多视图张量学习不同视图子空间特征与探索跨视图内部相关性，首先对获取多视图数据集中的每个视图相应的子空间特征矩阵，再将相应视图每一列的错误值垂直合并，得到误差矩阵。最后根据优化公式对结合子空间特征矩阵和误差矩阵对多视图张量进行优化得到优化矩阵，其中，优化公式如下式所示：

式中，Z(v)表示第v个视图相应的子空间特征矩阵，E(v)表示第v个视图相应的误差矩阵，E表示误差矩阵，Z表示多视图张量，Z(m)表示张量中第m个样式展开后的矩阵，γ_m是一个惩罚系数，使得张量往低秩靠拢。

进一步作为优选的实施方式，所述根据混合抽样算法和变体近邻算法对所述优化矩阵进行二分图构建处理，得到聚类二分图，包括：

在本发明实施例中，通过混合抽样算法对优化矩阵进行抽样处理，其中混合抽样算法是随机抽样和k-means算法的结合，以优化矩阵作为输入，得到候选特征集合。其中，优化矩阵为大小为N*N的矩阵，候选特征集合中包括p个候选特征。最后通过变体近邻算法构建N*p二分图，在本发明实施例中，N、p的个数均可自主设计。本发明实施例通过混合抽样策略能降低噪声点的产生，提高聚类的鲁棒性。

进一步作为优选的实施方式，所述根据混合抽样算法对所述优化矩阵进行抽样处理，得到候选特征集合，包括：

对所述优化矩阵进行随机抽样处理，得到子特征集合；

对所述子特征集合进行质心获取处理，得到候选特征集合。

在本发明实施例中，混合抽样算法是对随机抽样算法和k-means算法的结合，对优化矩阵进行随机抽样，得到多个子特征组成子特征集合。但是由于随机抽样具有不确定性，所以加入k-means算法，从子特征集合中获取多个质心，将多个质心作为候选特征集合。

进一步作为优选的实施方式，所述根据变体近邻算法对所述候选特征集合进行二分图构建处理，得到聚类二分图，包括：

对所述候选特征集合进行聚类处理，得到聚类中心集合；

根据所述近邻对象进行二分图构建处理，得到聚类二分图。

在本发明实施例中，变体近邻算法与传统k-近邻算法不同，本发明实施例的变体近邻算法运用了粗提炼机制，即使用k-means在候选特征集合中进行聚类，其中，候选特征集合包括p个候选实体。聚类得到聚类中心集合，聚类中心集合包括n个聚类中心，计算优化矩阵中每个元素到每个聚类中心的欧氏距离，得到矩阵元素最近的簇中心，在簇中心之外选举近邻对象，根据近邻对象构建了对象X与特征R的二分图。

进一步作为优选的实施方式，本发明实施例还提供了一种多视图聚类系统，包括：

第一模块，用于获取单视图数据集；

进一步作为优选的实施方式，所述第二模块，包括：

进一步作为优选的实施方式，所述第三模块，包括：

结合附图2，本发明的模型具体包括：对单视图数据集进行特征提取生成多视图数据集a，从多视图数据集中获取得到多视图子空间特征b，根据多视图数据集能够构建得到低秩张量c，根据混合抽样算法和变体近邻算法对多视图子空间特征进行构建得到二分图d，最后得到最终的聚类结果e。本发明实施例能够有效地减少多视图聚类领域中多视图聚类使用一个视图进行重建带来的风险，以及不同视图间通过增广拉格朗日算法得出来的相似矩阵效果不佳的问题，利用混合抽样算法与变体近邻算法进行二次过滤来提高了模型精度，相比于相关技术中的多视图聚类方法，本发明实施例的聚类效果更好，如下表1所示，表1是本发明在聚类指标NMI上的聚类效果。

数据集	NMI指标
		100Leaves	0.893
yale	0.751
		ORL	0.948
MSRC	0.764
		handwritten	0.946
uci-digit	0.929

表1

相关技术中，将张量应用于多视图领域中是一个常见的手段，利用张量去获取不同视图间关联信息，相比通过获取单个视图的信息再来耦合信息的效果要好。相比之前的多视图聚类算法，在多视图领域中加入张量来关联不同视图间的信息可以得到更好的效果。虽然张量可以加强关注多视图聚类中不同视图间的信息关系，但是在适当的多视图张量约束下，它是直接重建原始视图上的数据点，并为每个视图生成单独的子空间表示。然而，单独的每个视图通常不足以描述数据点，这使得仅使用一个视图进行重建本身就有风险。此外，数据收集可能有噪声，这进一步增加了聚类的难度，导致其聚类效果不佳。

综上所述，本发明实施例具有以下优点：本发明实施例通过混合抽样策略与变体近邻算法进行二次过滤来提高了模型精度，能降低噪声点的产生，提高了多视图聚类的鲁棒性。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种多视图聚类方法，其特征在于，所述方法包括：

获取单视图数据集；

所述对所述单视图数据集进行特征提取处理，得到多视图数据集，包括：

对所述单视图数据集进行图像强度和图像纹理特征提取处理，得到多视图数据集；

对所述多视图数据集进行张量构建处理，得到多视图张量；

所述根据所述多视图张量对所述多视图数据集的子空间特征与内部相关性进行学习处理，得到优化矩阵，包括：

根据所述子空间特征矩阵和所述误差矩阵对所述多视图张量进行优化处理，得到优化矩阵；

所述根据混合抽样算法和变体近邻算法对所述优化矩阵进行二分图构建处理，得到聚类二分图，包括：

根据变体近邻算法对所述候选特征集合进行构建处理，得到聚类二分图；

所述根据变体近邻算法对所述候选特征集合进行二分图构建处理，得到聚类二分图，包括：

对所述候选特征集合进行聚类处理，得到聚类中心集合；

根据所述近邻对象进行二分图构建处理，得到聚类二分图；

2.根据权利要求1所述的方法，其特征在于，所述对所述多视图数据集进行张量构建处理，得到多视图张量，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据混合抽样算法对所述优化矩阵进行抽样处理，得到候选特征集合，包括：

对所述优化矩阵进行随机抽样处理，得到子特征集合；

对所述子特征集合进行质心获取处理，得到候选特征集合。

4.一种多视图聚类系统，其特征在于，所述系统包括：

第一模块，用于获取单视图数据集；

所述第二模块，包括：

第一单元，用于对所述单视图数据集进行图像强度和图像纹理特征提取处理，得到多视图数据集；

所述第三模块，用于根据所述多视图张量对所述多视图数据集的子空间特征与内部相关性进行学习处理，得到优化矩阵，包括：

所述第五模块，用于根据混合抽样算法和变体近邻算法对所述优化矩阵进行二分图构建处理，得到聚类二分图，包括：

对所述候选特征集合进行聚类处理，得到聚类中心集合；

根据所述近邻对象进行二分图构建处理，得到聚类二分图；

5.根据权利要求4所述的一种多视图聚类系统，其特征在于，所述第三模块，包括：