CN113360732A

CN113360732A - 一种大数据多视图图聚类方法

Info

Publication number: CN113360732A
Application number: CN202110624636.3A
Authority: CN
Inventors: 康昭; 林治平
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-09-07

Abstract

本发明公开了一种大数据多视图图聚类方法，采用低通滤波器得到每一个视图特征的平滑表示，将表现良好的自表达模型与锚点思想结合，选取具有代表性的锚点替代原始数据，降低时间复杂度的同时高效地学得图邻接矩阵，通过设置正则项和权重机制得到可迅速收敛的算法，通过该算法得到最优表示的图邻接矩阵，将谱聚类技术运用于学得的图邻接矩阵得到最终的聚类结果。本发明通用性强，基于锚点技术将时间复杂度降为数据个数的线性时间复杂度，基于图结构矩阵的高阶邻近信息、图滤波技术、权重机制，能够高效地捕捉多视图图数据中的潜在信息，相较于基于深度学习的方法，本发明在计算效率上大大提升，并且性能指标不弱于基于深度学习的方法。

Description

一种大数据多视图图聚类方法

技术领域

本发明属于图数据聚类领域，具体涉及一种大数据多视图图聚类方法。

背景技术

随着图类数据的大小和范围的增长，基于图的机器学习方法引起了人们的兴趣。图聚类是无监督学习的一个分支，其目的是将图中的节点划分为若干不相交的组，使每个组属于一个类。图聚类在群体检测、群体分割等方面表现出显著的性能。在实际应用中，实际数据往往比较复杂，既包括节点属性，也包括不同顶点之间的结构关系。为了从结构和特征中挖掘出丰富的信息，有人采用了一种图嵌入框架，有人提出了一种联合聚类技术，并且开发了一种关系主题方法来解决这个问题。然而，它们主要集中在稀疏的原始图上，不能有效地利用底层信息。此外，这些方法无法处理多视图数据，并且由于时间复杂度较高，很难应用于大数据上。

现在，大多数图类数据通常是多模态和多关系的。换言之，节点由多个特征矩阵组成，每个节点通过多种关系相互作用。以学术网络为例，一个图形视图代表合著论文关系，另一个视图描述合著者关系；作者本身也具有研究领域、引文、代表词等多重特征。从不同的角度充分利用互补信息是可取的。

基于上述调研，我们可以得出结论，设计一种大数据多视图图聚类方法具有很大的实际运用价值。为此，本发明提出了一种大数据多视图图聚类方法，它有四个不同的特性：首先，它具有足够的通用性，既可以处理具有多个特征属性和单个图的数据，也可以处理具有单个特征属性和多个图的数据。第二，本发明提出的方法基于低通滤波技术，能够通过近期取得巨大成功的图神经网络得到平滑的特征表示，实现简单的同时保证了对图结构的充分利用，训练参数较少。第三，它能够探索图的高阶邻近信息关系。这些使得我们的方法在实际应用中具有很大潜力。第四，本发明借助了采样策略和锚点的思想，能大大降低算法的时间复杂度，可以在线性时间复杂度内完成任务。

发明内容

本发明提出了一种大数据多视图图聚类方法，步骤1是对对多视图图数据进行预处理，设定好模型参数区间，步骤2-9执行多视图图聚类算法，步骤10对参数矩阵执行非负对称化处理，执行谱聚类算法得到聚类结果。具体而言，包括以下步骤：

步骤1：将给定数据集中的节点特征和节点关系一起转换为一个无向图

其中

代表给定数据集中的节点集合，E_v表示第v个视图节点之间关系的集合，v＝1,2,…,V，一共有V个视图，其中

代表了无向图G中图数据的节点数，

表示了节点i与节点j在第v个视图之中的联系，

表示第v个视图之中的节点特征，其中，

表示第v个视图中第k个节点的特征取值，k＝1,2,…,n；

表示第v个视图有n个节点，每个节点的特征维度为d。无向图G可以被多视图邻接矩阵

所表征，

代表

的第i行第j列数据，具体而言，当

时，

当

时，

由此我们可以获取第v个视图的对称标准化邻接矩阵如下所示：

其中D_v是第v个视图对应的度矩阵，I为单位矩阵。

步骤2：通过步骤1所得到第v个视图的对称标准化邻接矩阵A_v，结合现实世界中的信号一般都是平滑的特性，以及近期取得巨大成功的图神经网络主要是依托于低通滤波器，本发明基于图卷积思想构造出一个低通滤波器来阻断高频信号，通过该低通滤波器后的第v个视图节点的特征矩阵(即通过该低通滤波器后的第v个视图节点特征的平滑表征

)可以表示为：

其中k表示低通滤波器阶数，k是一个非负的整数，L_v＝I-A_v表示第v个视图标准化的图拉普拉斯矩阵。

步骤3：利用自表达性质，每一个数据都能够由数据集中的其他所有数据线性组合而成，考虑单视图的自表达模型，其目标函数可以表示为：

其中，α>0是一个预设的平衡参数，

是参数矩阵，

表示单视图数据节点特征的平滑表征，是步骤2中

的单视图的形式表达，

表示矩阵

的转置，

表示L2范数的平方，单视图的自表达模型的目标函数第一项

表征的是自重建误差，第二项Θ(Z)是一个正则项，需要根据具体情况设置合适的正则项Θ(Z)。

步骤4：对步骤3中的单视图的自表达模型，需要对正则项进行设计，考虑到对图结构的利用不够充分，可以令学得的参数矩阵Z近似于步骤1中的对称标准化邻接矩阵A_v，此外由于原始的对称标准化邻接矩阵A_v一般是稀疏矩阵，并且只表述了节点之间的一阶相似性，这样可能很难充分利用节点之间的潜藏信息，所以我们可以对图的高阶邻近信息定义如下：

f(A)＝A+A²+…+A^P

其中f(A)就是高阶邻近信息表达，A是A_v的单视图表达，P为多项式阶数，且P是一个正整数。

步骤5：通过步骤4中的高阶邻近信息表达，可以对单视图的自表达模型进行进一步的改进，改进后得到单视图图聚类模型的目标函数可以表示如下：

这个模型是针对单视图图聚类的模型。

步骤6：根据步骤5中理论计算得到矩阵Z，此过程的时间复杂度达到了数据个数的立方级别，在大数据上难以应用，为了解决这个问题，需要重新构建矩阵

本发明选取m个具有代表性并且在图数据中重要性很高的点，即锚点，来重建矩阵

得到较小的矩阵B，这m个锚点组成一个锚点集

也就是矩阵B。具体而言，我们采用基于节点重要性的采样策略来采样锚点并且定义

这一映射关系，q表示给定数据集中节点和对应的节点重要性的映射关系，即为每一个节点对应一个重要性度量值，

表示正实数集合。选择节点

作为锚点集

中的第一个锚点的概率定义如下：

其中，

表示节点i的重要性度量值，

表示所有未选择的节点的重要性度量值总和，其中γ为预设的采样参数且γ>0，是为了使得我们的分布更加平滑。接着我们就可以无重复地采样剩下的m-1个节点，详细地讲，每一个节点

表示节点集合

中去掉已经选择的锚点集

中的锚点的集合)都有

的概率被选为第二个锚点，一直按照此规则，直到

其中分母

是一个规范化因子，确保在每一步采样中

步骤7：根据步骤6的采样策略，我们将求解

转换为求解较小的参数矩阵

并且将步骤6中的矩阵B扩展到每一个视图上，B^v表示矩阵B在第v个视图上的表征。我们可以得到基于锚点的单视图图聚类模型的目标函数：

由于我们虽然只需要较小的B^v来表征，但表征的仍然是整个数据特征，所以上式中第一个

不用B^v表征。其中

是从f(A_v)中抽取m个与锚点集中的锚点对应的行组成的矩阵，

表示L2范数的平方，f(A_v)表示第v个视图的高阶邻近信息，

是我们求解的参数矩阵。

步骤8：根据步骤7中基于锚点的单视图图聚类模型，可以进一步地引入权重机制，将基于锚点的单视图图聚类模型扩展到基于锚点的多视图图聚类模型上去，基于锚点的多视图图聚类模型的目标函数表示为：

其中λ^v是第v个视图的权重参数，w<0是一个预设的平滑参数，

表示第v个视图节点特征的平滑表征，是通过前面所述的低通滤波器得到的，C^v是从f(A_v)中根据采样的锚点抽取的。

步骤9：根据步骤8的基于锚点的多视图图聚类模型的目标函数表达式以及数值的相互依赖关系，采取交替优化的优化方法，迭代求解基于锚点的多视图图聚类模型的目标函数中的参数矩阵S，具体优化步骤如下：

S1：初始化迭代次数t＝0和随机初始化S，初始化λ^v＝1/v。

S2：采用步骤6中的基于节点重要性的采样策略得到矩阵B^v，C^v。

S3：循环执行S4-S5，直到

∈为我们预先设定的收敛值。

S4：计算S_t如下所示：

其中I是单位矩阵。

S5：计算λ^v如下所示：

其中

其中w就是步骤8中的平滑参数，最终得到参数矩阵S。

步骤10：根据步骤9得到的参数矩阵S，将

作为谱聚类的输入得到最终的聚类结果。

本发明建立了一个基于锚点的多视图图聚类模型，利用图过滤技术，可以在平滑的表示中进行聚类。利用锚点思想，大大降低了发明的时间复杂度，能够高效地解决大数据聚类问题。通过采用交替学习方案，可以充分利用节点特征和图形结构信息。通过引入权重因子，可以有区别地利用多视图数据的互补信息。通过设计一种新的正则化器，可以灵活地挖掘高阶邻近信息。本发明提出的方法实现过程简单，并且大量的实验结果表明了它的有效性。与深度学习方法相比，本发明具有训练参数少、效率高的优点，这使得本发明在实际应用中具有吸引力。

附图说明

图1为本发明实施例采用的数据集的信息；

图2为本发明具体实施例的流程图；

图3为本发明训练过程中的收敛曲线。

具体实施方式

为便于本领域技术人员理解本发明的技术内容以及理解图滤波在聚类算法中起的关键性作用，下面结合附图对本发明内容进一步阐释。

本发明采用三个多视图图数据集ACM，DBLP，IMDB，和两个单视图图数据集AmazonPhoto，Amazon Computer来进行验证。其中ACM数据集是文章发表网络。利用合作论文(两篇论文由同一作者撰写)关系和合作主题(两篇论文包含相同主题)关系来构造两视图图结构，文章特征是由文章摘要的关键词所组成，我们以论文的研究领域作为标签。DBLP数据集构造了三个视图的信息，包括合著者(两个人合作发表论文关系)关系，联席关系(两个作者在同一会议发表论文)，以及两个作者以相同的时期发表关系，以作者的研究领域作为标签。IMDB数据集是来自IMDB的电影网络。我们利用合作演员(电影由同一个演员演)关系和合作导演(电影由同一个演员导演)关系来构造两视图图结构，电影特征由电影情节的关键词组成，为了评价这个方法，我们使用了电影的题材作为标签。Amazon Photo与Amazon Computer是单视图数据，我们通过一些变换将Amazon Photo与Amazon Computer数据集均转换为多视图多特征数据。具体数据集信息如图1所示。对于参数设置，我们统一将所有数据集的参数固定为图滤波的阶数k＝2，平衡参数α＝{0.1，1，10，50，100，1000}，多项式阶数P＝2，采样参数γ＝7，以及平滑参数w＝-2和控制收敛的收敛值∈＝0.001。

首先对本发明的数据集进行预处理，确定每个数据集的一些参数范围设定，本发明的参数设定主要是图滤波的阶数(即低通滤波器阶数)k，平衡参数α，多项式阶数P，采样参数γ，平滑参数w以及控制收敛的收敛值∈。

然后直接采用本发明的大数据多视图图聚类方法对预处理后的数据集进行处理，具体操作如下：

步骤1：将上述五个数据集中的任意一个数据集中的节点特征和节点关系一起转换为一个无向图

其中

代表数据集中的节点集合，E_v表示第v个视图节点之间关系的集合，v＝1,2,…,V，一共有V个视图，其中

代表了无向图G中图数据的节点数，

表示了节点i与节点j在第v个视图之中的联系，

表示第v个视图之中的节点特征，其中，

表示第v个视图中第k个节点的特征取值，k＝1,2,…,n；

所表征，

代表

的第i行第j列数据，具体而言，当

时，

当

时，

其中D_v是第v个视图对应的度矩阵，I为单位矩阵。

步骤2：通过步骤1所得到的第v个视图的对称标准化邻接矩阵A_v，结合现实世界中的信号一般都是平滑的特性，以及近期取得巨大成功的图神经网络主要是依托于低通滤波器，本发明采用一个低通滤波器来阻断高频信号，通过该低通滤波器后的第v个视图节点特征的平滑表征

可以表示为：

其中k是一个非负的整数，表示该低通滤波器阶数，L_v＝I-A_v表示第v个视图标准化的图拉普拉斯矩阵。在我们测试的五个数据集中，ACM，DBLP，IMDB的特征为单视图，关系是多视图结构，所以在这里X^v＝X(X为ACM,DBLP,IMDB的特征矩阵，对于Amazon Ph oto与Amazon Computer数据集任意第v个视图特征为X^v)。Amazon Photo与Amazon Comp uter的特征为单视图，图结构也为单视图，我们通过对单视图特征做笛卡尔积操作获取多视图特征，从而与ACM,DBLP,IMDB这三个数据集对比。

其中，α>0是一个预设的平衡参数，

是单视图的自表达模型的参数矩阵，

表示单视图数据节点特征的平滑表征，是步骤2中

的单视图的形式表达，

表示矩阵

的转置，

表示L2范数的平方，目标函数第一项

步骤4：对步骤3中的单视图的自表达模型，需要对其正则项进行设计，考虑到对图结构的利用不够充分，可以令学得的参数矩阵Z近似于对称标准化邻接矩阵A_v，此外由于原始的对称标准化邻接矩阵A_v一般是稀疏矩阵，并且只表述了节点之间的一阶相似性，这样可能很难充分利用节点之间的潜藏信息，所以我们可以对图的高阶邻近信息定义如下：

f(A)＝A+A²+…+A^P

这个模型是针对单视图图聚类的模型。由于我们选取的数据集都比较稀疏，我们可以选P＝2作为参数，实际使用中，要根据数据特点和调参结果进行综合考虑。

本发明选取m个具有代表性并且在图数据中重要性很高的点，即锚点来重建矩阵

得到较小的矩阵B，这m个锚点组成一个锚点集

也就是锚点矩阵B。具体而言，我们采用基于节点重要性的采样策略来采样锚点并且定义

表示正实数集合。选择节点

作为锚点集

中的第一个点中的点的概率定义如下：

其中，

表示节点i的重要性度量值，

表示所有未选择的节点的重要性总和，其中γ预设的采样参数且γ>0，是为了使得我们的分布更加平滑。接着我们就可以无重复地采样剩下的m-1个节点，详细地讲，每一个节点

(表示节点集合

中去掉已经选择的锚点集

中的锚点的集合)都有

的概率被选为第二个锚点，一直按照此规则，直到

其中分母

吗是一个规范化因子，确保在每一步采样中

步骤7：根据步骤6的采样策略，我们将求解

转换为求解较小的

并且将步骤6中的矩阵B扩展到每一个视图上，B^v表示矩阵B在第v个视图上的表征，我们可以得到基于锚点的单视图图聚类模型的目标函数：

不用B^v。其中

是从f(A_v)中抽取m个与锚点集中的点对应的行组成的矩阵，

表示L2范数的平方，f(A_v)表示第v个视图的高阶邻近信息，

是我们求解的参数矩阵。

步骤8：根据步骤7中的基于锚点的单视图图聚类模型，可以进一步地引入权重机制，将基于锚点的单视图图聚类模型扩展到基于锚点的多视图图聚类模型上去，基于锚点的多视图图聚类模型的目标函数表示为：

表示第v个视图节点特征的平滑表征，是通过前面所述的低通滤波器得到的，C^v是从f(A_v)中根据采样的锚点抽取的。由于w对实验结果影响不大，在这里我们设置w＝-2(实际运用[-1，-7]的整数都可以)。

步骤9：根据步骤8的基于锚点的多视图图聚类模型的目标函数表达式以及数值的相互依赖关系，采取交替优化的优化方法求解基于锚点的多视图图聚类模型的目标函数中的参数矩阵S，具体优化步骤如下：

S1：初始化迭代次数t＝0和随机初始化S，初始化λ^v＝1/v。

S2：采用步骤6中基于重要性的采样策略得到矩阵B^v，C^v。

S3：循环执行S4-S5，直到

∈为我们预先设定的收敛值。

S4：计算S_t如下所示：

其中I是单位矩阵。

S5：计算λ^v如下所示：

其中

最终得到参数矩阵S。

步骤10：根据步骤9得到的参数矩阵S，将

作为谱聚类的输入得到最终的聚类结果。

图2描述了本发明的具体实施流程图。为了说明本发明方法具有较高效率，能在较短时间收敛获得参数矩阵S，图3(a)、图3(b)和图3(c)分别展示了本发明在三个数据集(ACM，DBLP，IMDB)上的收敛曲线，表明我们的发明能在几次迭代后得到聚类结果。Amaz onPhoto，Amazon Computer这两个数据集用于后面时间对比的实验。

为了本发明的高效性，能运用于大数据的数据集，我们选取一些近一年来基于神经网络的深度学习方法来和我们的图聚类方法进行时间对比，其中O2MAC与MAGCN都是近年来具有代表性的深度学习方法，MvAGC表示本发明提出的方法。

表1本发明方法相较于深度学习方法时间对比(单位：秒)

Method	ACM	DBLP	IMDB	Amazon Photo	Amazon Computer
						O2MAC	524.8	5163.4	4555.24	-	-
MAGCN	-	-	-	3783.6	-
						MvAGC	5.8	5.19	10.38	72.22	215.33

通过对比可以发现，本发明方法的速度是传统基于深度学习方法的几十甚至几百倍，一些深度学习方法在某些数据集上内存溢出或者时间实在太长，在实际应用中，时间是我们考虑的很大一部分因素，并且本发明的图聚类效果也优于表1中的两个深度学习方法O2MAC与MAGCN。

为了说明本发明的本发明中图滤波技术具有消除噪声的优势以及图滤波的重要性，以及探索高阶邻近信息的重要性，本发明进行了消融实验来对本发明的图滤波技术和探索高阶邻近信息予以佐证。

选取ACM，DBLP，IMDB三个数据集进行实验，为了证明图滤波在本发明中的重要作用，将未经滤波的特征X^v加入我们的基于锚点的多视图图聚类模型当中并开展多视图实验，基准模型可以将

中的

替换为

由于在实际实验中二阶邻近信息的表现最稳定，所以选择f(A_v)＝A_v+A_v ²。同时为了证明探索高阶邻近信息的必要性，采用不同阶数的高阶邻近信息在我们的基于锚点的多视图图聚类模型上做实验，具体包括三个不同的f(A_v)：f(A_v)＝A_v，f(A_v)＝A_v+A_v ²和f(A_v)＝A_v+A_v ²+A_v ³。

本发明采用准确率(ACC)，归一化互信息评价指标(NMI)，F1分数(F1-score)以及兰德系数(ARI)这四个评价参数来对图聚类效果进行评价。其中准确率，归一化互信息评价指标和F1分数的取值范围在0到1，兰德系数取值范围在-1到1，这四个评价参数的值越大，说明聚类效果越好。

表2高阶邻近信息和图滤波对评价指标的影响的详细分析

通过对比表2中的基准模型的结果，可以发现添加了低通滤波器的结果要远远优于未添加滤波器的结果，在ACM，DBLP，IMDB这三个数据集中，效果都十分显著，这很好地证明了采用图滤波实现平滑表示的优势。

根据表2的指标结果可以发现，高阶邻近信息确实对结果有着不小作用，具体而言在表2中二阶邻近信息相较于一阶邻近信息使得实验结果表现更好，相比之下三阶邻近信息在有些数据集上会降低模型表现，这可能是因为我们计算高阶邻近信息的方法导致的，直接通过邻接矩阵进行计算可能会改变节点之间的关系，进一步讲，现有的方法会引入很多无关信息，因此在实际运用中我们一般采用二阶邻近信息效果最佳(要根据数据特性进行适当调整，比如IMDB在三阶邻近信息的指标更好)。

综上所述图滤波以及高阶邻近信息在本发明中起到了显著的作用。本领域的普通技术人员将会意识到，这里所述的实例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。