CN113360732A - 一种大数据多视图图聚类方法 - Google Patents

一种大数据多视图图聚类方法 Download PDF

Info

Publication number
CN113360732A
CN113360732A CN202110624636.3A CN202110624636A CN113360732A CN 113360732 A CN113360732 A CN 113360732A CN 202110624636 A CN202110624636 A CN 202110624636A CN 113360732 A CN113360732 A CN 113360732A
Authority
CN
China
Prior art keywords
view
matrix
graph
node
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110624636.3A
Other languages
English (en)
Inventor
康昭
林治平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110624636.3A priority Critical patent/CN113360732A/zh
Publication of CN113360732A publication Critical patent/CN113360732A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种大数据多视图图聚类方法,采用低通滤波器得到每一个视图特征的平滑表示,将表现良好的自表达模型与锚点思想结合,选取具有代表性的锚点替代原始数据,降低时间复杂度的同时高效地学得图邻接矩阵,通过设置正则项和权重机制得到可迅速收敛的算法,通过该算法得到最优表示的图邻接矩阵,将谱聚类技术运用于学得的图邻接矩阵得到最终的聚类结果。本发明通用性强,基于锚点技术将时间复杂度降为数据个数的线性时间复杂度,基于图结构矩阵的高阶邻近信息、图滤波技术、权重机制,能够高效地捕捉多视图图数据中的潜在信息,相较于基于深度学习的方法,本发明在计算效率上大大提升,并且性能指标不弱于基于深度学习的方法。

Description

一种大数据多视图图聚类方法
技术领域
本发明属于图数据聚类领域,具体涉及一种大数据多视图图聚类方法。
背景技术
随着图类数据的大小和范围的增长,基于图的机器学习方法引起了人们的兴趣。图聚类是无监督学习的一个分支,其目的是将图中的节点划分为若干不相交的组,使每个组属于一个类。图聚类在群体检测、群体分割等方面表现出显著的性能。在实际应用中,实际数据往往比较复杂,既包括节点属性,也包括不同顶点之间的结构关系。为了从结构和特征中挖掘出丰富的信息,有人采用了一种图嵌入框架,有人提出了一种联合聚类技术,并且开发了一种关系主题方法来解决这个问题。然而,它们主要集中在稀疏的原始图上,不能有效地利用底层信息。此外,这些方法无法处理多视图数据,并且由于时间复杂度较高,很难应用于大数据上。
现在,大多数图类数据通常是多模态和多关系的。换言之,节点由多个特征矩阵组成,每个节点通过多种关系相互作用。以学术网络为例,一个图形视图代表合著论文关系,另一个视图描述合著者关系;作者本身也具有研究领域、引文、代表词等多重特征。从不同的角度充分利用互补信息是可取的。
基于上述调研,我们可以得出结论,设计一种大数据多视图图聚类方法具有很大的实际运用价值。为此,本发明提出了一种大数据多视图图聚类方法,它有四个不同的特性:首先,它具有足够的通用性,既可以处理具有多个特征属性和单个图的数据,也可以处理具有单个特征属性和多个图的数据。第二,本发明提出的方法基于低通滤波技术,能够通过近期取得巨大成功的图神经网络得到平滑的特征表示,实现简单的同时保证了对图结构的充分利用,训练参数较少。第三,它能够探索图的高阶邻近信息关系。这些使得我们的方法在实际应用中具有很大潜力。第四,本发明借助了采样策略和锚点的思想,能大大降低算法的时间复杂度,可以在线性时间复杂度内完成任务。
发明内容
本发明提出了一种大数据多视图图聚类方法,步骤1是对对多视图图数据进行预处理,设定好模型参数区间,步骤2-9执行多视图图聚类算法,步骤10对参数矩阵执行非负对称化处理,执行谱聚类算法得到聚类结果。具体而言,包括以下步骤:
步骤1:将给定数据集中的节点特征和节点关系一起转换为一个无向图
Figure BDA0003101689710000011
Figure BDA00031016897100000225
其中
Figure BDA00031016897100000226
代表给定数据集中的节点集合,Ev表示第v个视图节点之间关系的集合,v=1,2,…,V,一共有V个视图,其中
Figure BDA0003101689710000021
代表了无向图G中图数据的节点数,
Figure BDA0003101689710000022
Figure BDA0003101689710000023
表示了节点i与节点j在第v个视图之中的联系,
Figure BDA0003101689710000024
表示第v个视图之中的节点特征,其中,
Figure BDA0003101689710000025
表示第v个视图中第k个节点的特征取值,k=1,2,…,n;
Figure BDA0003101689710000026
表示第v个视图有n个节点,每个节点的特征维度为d。无向图G可以被多视图邻接矩阵
Figure BDA0003101689710000027
所表征,
Figure BDA0003101689710000028
代表
Figure BDA0003101689710000029
的第i行第j列数据,具体而言,当
Figure BDA00031016897100000210
时,
Figure BDA00031016897100000211
Figure BDA00031016897100000212
时,
Figure BDA00031016897100000213
由此我们可以获取第v个视图的对称标准化邻接矩阵如下所示:
Figure BDA00031016897100000214
其中Dv是第v个视图对应的度矩阵,I为单位矩阵。
步骤2:通过步骤1所得到第v个视图的对称标准化邻接矩阵Av,结合现实世界中的信号一般都是平滑的特性,以及近期取得巨大成功的图神经网络主要是依托于低通滤波器,本发明基于图卷积思想构造出一个低通滤波器来阻断高频信号,通过该低通滤波器后的第v个视图节点的特征矩阵(即通过该低通滤波器后的第v个视图节点特征的平滑表征
Figure BDA00031016897100000215
)可以表示为:
Figure BDA00031016897100000216
其中k表示低通滤波器阶数,k是一个非负的整数,Lv=I-Av表示第v个视图标准化的图拉普拉斯矩阵。
步骤3:利用自表达性质,每一个数据都能够由数据集中的其他所有数据线性组合而成,考虑单视图的自表达模型,其目标函数可以表示为:
Figure BDA00031016897100000217
其中,α>0是一个预设的平衡参数,
Figure BDA00031016897100000218
是参数矩阵,
Figure BDA00031016897100000219
表示单视图数据节点特征的平滑表征,是步骤2中
Figure BDA00031016897100000220
的单视图的形式表达,
Figure BDA00031016897100000221
表示矩阵
Figure BDA00031016897100000222
的转置,
Figure BDA00031016897100000223
表示L2范数的平方,单视图的自表达模型的目标函数第一项
Figure BDA00031016897100000224
表征的是自重建误差,第二项Θ(Z)是一个正则项,需要根据具体情况设置合适的正则项Θ(Z)。
步骤4:对步骤3中的单视图的自表达模型,需要对正则项进行设计,考虑到对图结构的利用不够充分,可以令学得的参数矩阵Z近似于步骤1中的对称标准化邻接矩阵Av,此外由于原始的对称标准化邻接矩阵Av一般是稀疏矩阵,并且只表述了节点之间的一阶相似性,这样可能很难充分利用节点之间的潜藏信息,所以我们可以对图的高阶邻近信息定义如下:
Figure BDA0003101689710000031
f(A)=A+A2+…+AP
其中f(A)就是高阶邻近信息表达,A是Av的单视图表达,P为多项式阶数,且P是一个正整数。
步骤5:通过步骤4中的高阶邻近信息表达,可以对单视图的自表达模型进行进一步的改进,改进后得到单视图图聚类模型的目标函数可以表示如下:
Figure BDA0003101689710000032
这个模型是针对单视图图聚类的模型。
步骤6:根据步骤5中理论计算得到矩阵Z,此过程的时间复杂度达到了数据个数的立方级别,在大数据上难以应用,为了解决这个问题,需要重新构建矩阵
Figure BDA0003101689710000033
本发明选取m个具有代表性并且在图数据中重要性很高的点,即锚点,来重建矩阵
Figure BDA0003101689710000034
得到较小的矩阵B,这m个锚点组成一个锚点集
Figure BDA0003101689710000035
也就是矩阵B。具体而言,我们采用基于节点重要性的采样策略来采样锚点并且定义
Figure BDA0003101689710000036
这一映射关系,q表示给定数据集中节点和对应的节点重要性的映射关系,即为每一个节点对应一个重要性度量值,
Figure BDA0003101689710000037
表示正实数集合。选择节点
Figure BDA0003101689710000038
作为锚点集
Figure BDA0003101689710000039
中的第一个锚点的概率定义如下:
Figure BDA00031016897100000310
其中,
Figure BDA00031016897100000311
表示节点i的重要性度量值,
Figure BDA00031016897100000312
表示所有未选择的节点的重要性度量值总和,其中γ为预设的采样参数且γ>0,是为了使得我们的分布更加平滑。接着我们就可以无重复地采样剩下的m-1个节点,详细地讲,每一个节点
Figure BDA00031016897100000313
Figure BDA00031016897100000314
表示节点集合
Figure BDA00031016897100000315
中去掉已经选择的锚点集
Figure BDA00031016897100000316
中的锚点的集合)都有
Figure BDA00031016897100000317
的概率被选为第二个锚点,一直按照此规则,直到
Figure BDA00031016897100000318
其中分母
Figure BDA00031016897100000319
是一个规范化因子,确保在每一步采样中
Figure BDA00031016897100000320
步骤7:根据步骤6的采样策略,我们将求解
Figure BDA00031016897100000321
转换为求解较小的参数矩阵
Figure BDA00031016897100000322
Figure BDA00031016897100000323
并且将步骤6中的矩阵B扩展到每一个视图上,Bv表示矩阵B在第v个视图上的表征。我们可以得到基于锚点的单视图图聚类模型的目标函数:
Figure BDA00031016897100000324
由于我们虽然只需要较小的Bv来表征,但表征的仍然是整个数据特征,所以上式中第一个
Figure BDA0003101689710000041
不用Bv表征。其中
Figure BDA0003101689710000042
是从f(Av)中抽取m个与锚点集中的锚点对应的行组成的矩阵,
Figure BDA0003101689710000043
表示L2范数的平方,f(Av)表示第v个视图的高阶邻近信息,
Figure BDA0003101689710000044
是我们求解的参数矩阵。
步骤8:根据步骤7中基于锚点的单视图图聚类模型,可以进一步地引入权重机制,将基于锚点的单视图图聚类模型扩展到基于锚点的多视图图聚类模型上去,基于锚点的多视图图聚类模型的目标函数表示为:
Figure BDA0003101689710000045
其中λv是第v个视图的权重参数,w<0是一个预设的平滑参数,
Figure BDA0003101689710000046
表示第v个视图节点特征的平滑表征,是通过前面所述的低通滤波器得到的,Cv是从f(Av)中根据采样的锚点抽取的。
步骤9:根据步骤8的基于锚点的多视图图聚类模型的目标函数表达式以及数值的相互依赖关系,采取交替优化的优化方法,迭代求解基于锚点的多视图图聚类模型的目标函数中的参数矩阵S,具体优化步骤如下:
S1:初始化迭代次数t=0和随机初始化S,初始化λv=1/v。
S2:采用步骤6中的基于节点重要性的采样策略得到矩阵Bv,Cv
S3:循环执行S4-S5,直到
Figure BDA0003101689710000047
∈为我们预先设定的收敛值。
S4:计算St如下所示:
Figure BDA0003101689710000048
其中I是单位矩阵。
S5:计算λv如下所示:
Figure BDA0003101689710000049
其中
Figure BDA00031016897100000410
其中w就是步骤8中的平滑参数,最终得到参数矩阵S。
步骤10:根据步骤9得到的参数矩阵S,将
Figure BDA00031016897100000411
作为谱聚类的输入得到最终的聚类结果。
本发明建立了一个基于锚点的多视图图聚类模型,利用图过滤技术,可以在平滑的表示中进行聚类。利用锚点思想,大大降低了发明的时间复杂度,能够高效地解决大数据聚类问题。通过采用交替学习方案,可以充分利用节点特征和图形结构信息。通过引入权重因子,可以有区别地利用多视图数据的互补信息。通过设计一种新的正则化器,可以灵活地挖掘高阶邻近信息。本发明提出的方法实现过程简单,并且大量的实验结果表明了它的有效性。与深度学习方法相比,本发明具有训练参数少、效率高的优点,这使得本发明在实际应用中具有吸引力。
附图说明
图1为本发明实施例采用的数据集的信息;
图2为本发明具体实施例的流程图;
图3为本发明训练过程中的收敛曲线。
具体实施方式
为便于本领域技术人员理解本发明的技术内容以及理解图滤波在聚类算法中起的关键性作用,下面结合附图对本发明内容进一步阐释。
本发明采用三个多视图图数据集ACM,DBLP,IMDB,和两个单视图图数据集AmazonPhoto,Amazon Computer来进行验证。其中ACM数据集是文章发表网络。利用合作论文(两篇论文由同一作者撰写)关系和合作主题(两篇论文包含相同主题)关系来构造两视图图结构,文章特征是由文章摘要的关键词所组成,我们以论文的研究领域作为标签。DBLP数据集构造了三个视图的信息,包括合著者(两个人合作发表论文关系)关系,联席关系(两个作者在同一会议发表论文),以及两个作者以相同的时期发表关系,以作者的研究领域作为标签。IMDB数据集是来自IMDB的电影网络。我们利用合作演员(电影由同一个演员演)关系和合作导演(电影由同一个演员导演)关系来构造两视图图结构,电影特征由电影情节的关键词组成,为了评价这个方法,我们使用了电影的题材作为标签。Amazon Photo与Amazon Computer是单视图数据,我们通过一些变换将Amazon Photo与Amazon Computer数据集均转换为多视图多特征数据。具体数据集信息如图1所示。对于参数设置,我们统一将所有数据集的参数固定为图滤波的阶数k=2,平衡参数α={0.1,1,10,50,100,1000},多项式阶数P=2,采样参数γ=7,以及平滑参数w=-2和控制收敛的收敛值∈=0.001。
首先对本发明的数据集进行预处理,确定每个数据集的一些参数范围设定,本发明的参数设定主要是图滤波的阶数(即低通滤波器阶数)k,平衡参数α,多项式阶数P,采样参数γ,平滑参数w以及控制收敛的收敛值∈。
然后直接采用本发明的大数据多视图图聚类方法对预处理后的数据集进行处理,具体操作如下:
步骤1:将上述五个数据集中的任意一个数据集中的节点特征和节点关系一起转换为一个无向图
Figure BDA0003101689710000061
其中
Figure BDA0003101689710000062
代表数据集中的节点集合,Ev表示第v个视图节点之间关系的集合,v=1,2,…,V,一共有V个视图,其中
Figure BDA0003101689710000063
代表了无向图G中图数据的节点数,
Figure BDA0003101689710000064
表示了节点i与节点j在第v个视图之中的联系,
Figure BDA0003101689710000065
表示第v个视图之中的节点特征,其中,
Figure BDA0003101689710000066
表示第v个视图中第k个节点的特征取值,k=1,2,…,n;
Figure BDA0003101689710000067
表示第v个视图有n个节点,每个节点的特征维度为d。无向图G可以被多视图邻接矩阵
Figure BDA0003101689710000068
所表征,
Figure BDA0003101689710000069
代表
Figure BDA00031016897100000610
的第i行第j列数据,具体而言,当
Figure BDA00031016897100000611
时,
Figure BDA00031016897100000612
Figure BDA00031016897100000613
时,
Figure BDA00031016897100000614
由此我们可以获取第v个视图的对称标准化邻接矩阵如下所示:
Figure BDA00031016897100000615
其中Dv是第v个视图对应的度矩阵,I为单位矩阵。
步骤2:通过步骤1所得到的第v个视图的对称标准化邻接矩阵Av,结合现实世界中的信号一般都是平滑的特性,以及近期取得巨大成功的图神经网络主要是依托于低通滤波器,本发明采用一个低通滤波器来阻断高频信号,通过该低通滤波器后的第v个视图节点特征的平滑表征
Figure BDA00031016897100000616
可以表示为:
Figure BDA00031016897100000617
其中k是一个非负的整数,表示该低通滤波器阶数,Lv=I-Av表示第v个视图标准化的图拉普拉斯矩阵。在我们测试的五个数据集中,ACM,DBLP,IMDB的特征为单视图,关系是多视图结构,所以在这里Xv=X(X为ACM,DBLP,IMDB的特征矩阵,对于Amazon Ph oto与Amazon Computer数据集任意第v个视图特征为Xv)。Amazon Photo与Amazon Comp uter的特征为单视图,图结构也为单视图,我们通过对单视图特征做笛卡尔积操作获取多视图特征,从而与ACM,DBLP,IMDB这三个数据集对比。
步骤3:利用自表达性质,每一个数据都能够由数据集中的其他所有数据线性组合而成,考虑单视图的自表达模型,其目标函数可以表示为:
Figure BDA0003101689710000071
其中,α>0是一个预设的平衡参数,
Figure BDA0003101689710000072
是单视图的自表达模型的参数矩阵,
Figure BDA0003101689710000073
表示单视图数据节点特征的平滑表征,是步骤2中
Figure BDA0003101689710000074
的单视图的形式表达,
Figure BDA0003101689710000075
表示矩阵
Figure BDA0003101689710000076
的转置,
Figure BDA0003101689710000077
表示L2范数的平方,目标函数第一项
Figure BDA0003101689710000078
表征的是自重建误差,第二项Θ(Z)是一个正则项,需要根据具体情况设置合适的正则项Θ(Z)。
步骤4:对步骤3中的单视图的自表达模型,需要对其正则项进行设计,考虑到对图结构的利用不够充分,可以令学得的参数矩阵Z近似于对称标准化邻接矩阵Av,此外由于原始的对称标准化邻接矩阵Av一般是稀疏矩阵,并且只表述了节点之间的一阶相似性,这样可能很难充分利用节点之间的潜藏信息,所以我们可以对图的高阶邻近信息定义如下:
Figure BDA0003101689710000079
f(A)=A+A2+…+AP
其中f(A)就是高阶邻近信息表达,A是Av的单视图表达,P为多项式阶数,且P是一个正整数。
步骤5:通过步骤4中的高阶邻近信息表达,可以对单视图的自表达模型进行进一步的改进,改进后得到单视图图聚类模型的目标函数可以表示如下:
Figure BDA00031016897100000710
这个模型是针对单视图图聚类的模型。由于我们选取的数据集都比较稀疏,我们可以选P=2作为参数,实际使用中,要根据数据特点和调参结果进行综合考虑。
步骤6:根据步骤5中理论计算得到矩阵Z,此过程的时间复杂度达到了数据个数的立方级别,在大数据上难以应用,为了解决这个问题,需要重新构建矩阵
Figure BDA00031016897100000711
本发明选取m个具有代表性并且在图数据中重要性很高的点,即锚点来重建矩阵
Figure BDA00031016897100000712
得到较小的矩阵B,这m个锚点组成一个锚点集
Figure BDA00031016897100000713
也就是锚点矩阵B。具体而言,我们采用基于节点重要性的采样策略来采样锚点并且定义
Figure BDA00031016897100000714
这一映射关系,q表示给定数据集中节点和对应的节点重要性的映射关系,即为每一个节点对应一个重要性度量值,
Figure BDA00031016897100000715
表示正实数集合。选择节点
Figure BDA00031016897100000716
作为锚点集
Figure BDA00031016897100000717
中的第一个点中的点的概率定义如下:
Figure BDA00031016897100000718
其中,
Figure BDA00031016897100000719
表示节点i的重要性度量值,
Figure BDA00031016897100000720
表示所有未选择的节点的重要性总和,其中γ预设的采样参数且γ>0,是为了使得我们的分布更加平滑。接着我们就可以无重复地采样剩下的m-1个节点,详细地讲,每一个节点
Figure BDA0003101689710000081
(表示节点集合
Figure BDA0003101689710000082
中去掉已经选择的锚点集
Figure BDA0003101689710000083
中的锚点的集合)都有
Figure BDA0003101689710000084
的概率被选为第二个锚点,一直按照此规则,直到
Figure BDA0003101689710000085
其中分母
Figure BDA0003101689710000086
吗是一个规范化因子,确保在每一步采样中
Figure BDA0003101689710000087
步骤7:根据步骤6的采样策略,我们将求解
Figure BDA0003101689710000088
转换为求解较小的
Figure BDA0003101689710000089
并且将步骤6中的矩阵B扩展到每一个视图上,Bv表示矩阵B在第v个视图上的表征,我们可以得到基于锚点的单视图图聚类模型的目标函数:
Figure BDA00031016897100000810
由于我们虽然只需要较小的Bv来表征,但表征的仍然是整个数据特征,所以上式中第一个
Figure BDA00031016897100000811
不用Bv。其中
Figure BDA00031016897100000812
是从f(Av)中抽取m个与锚点集中的点对应的行组成的矩阵,
Figure BDA00031016897100000813
表示L2范数的平方,f(Av)表示第v个视图的高阶邻近信息,
Figure BDA00031016897100000814
是我们求解的参数矩阵。
步骤8:根据步骤7中的基于锚点的单视图图聚类模型,可以进一步地引入权重机制,将基于锚点的单视图图聚类模型扩展到基于锚点的多视图图聚类模型上去,基于锚点的多视图图聚类模型的目标函数表示为:
Figure BDA00031016897100000815
其中λv是第v个视图的权重参数,w<0是一个预设的平滑参数,
Figure BDA00031016897100000816
表示第v个视图节点特征的平滑表征,是通过前面所述的低通滤波器得到的,Cv是从f(Av)中根据采样的锚点抽取的。由于w对实验结果影响不大,在这里我们设置w=-2(实际运用[-1,-7]的整数都可以)。
步骤9:根据步骤8的基于锚点的多视图图聚类模型的目标函数表达式以及数值的相互依赖关系,采取交替优化的优化方法求解基于锚点的多视图图聚类模型的目标函数中的参数矩阵S,具体优化步骤如下:
S1:初始化迭代次数t=0和随机初始化S,初始化λv=1/v。
S2:采用步骤6中基于重要性的采样策略得到矩阵Bv,Cv
S3:循环执行S4-S5,直到
Figure BDA00031016897100000817
∈为我们预先设定的收敛值。
S4:计算St如下所示:
Figure BDA0003101689710000091
其中I是单位矩阵。
S5:计算λv如下所示:
Figure BDA0003101689710000092
其中
Figure BDA0003101689710000093
最终得到参数矩阵S。
步骤10:根据步骤9得到的参数矩阵S,将
Figure BDA0003101689710000094
作为谱聚类的输入得到最终的聚类结果。
图2描述了本发明的具体实施流程图。为了说明本发明方法具有较高效率,能在较短时间收敛获得参数矩阵S,图3(a)、图3(b)和图3(c)分别展示了本发明在三个数据集(ACM,DBLP,IMDB)上的收敛曲线,表明我们的发明能在几次迭代后得到聚类结果。Amaz onPhoto,Amazon Computer这两个数据集用于后面时间对比的实验。
为了本发明的高效性,能运用于大数据的数据集,我们选取一些近一年来基于神经网络的深度学习方法来和我们的图聚类方法进行时间对比,其中O2MAC与MAGCN都是近年来具有代表性的深度学习方法,MvAGC表示本发明提出的方法。
表1本发明方法相较于深度学习方法时间对比(单位:秒)
Method ACM DBLP IMDB Amazon Photo Amazon Computer
O2MAC 524.8 5163.4 4555.24 - -
MAGCN - - - 3783.6 -
MvAGC 5.8 5.19 10.38 72.22 215.33
通过对比可以发现,本发明方法的速度是传统基于深度学习方法的几十甚至几百倍,一些深度学习方法在某些数据集上内存溢出或者时间实在太长,在实际应用中,时间是我们考虑的很大一部分因素,并且本发明的图聚类效果也优于表1中的两个深度学习方法O2MAC与MAGCN。
为了说明本发明的本发明中图滤波技术具有消除噪声的优势以及图滤波的重要性,以及探索高阶邻近信息的重要性,本发明进行了消融实验来对本发明的图滤波技术和探索高阶邻近信息予以佐证。
选取ACM,DBLP,IMDB三个数据集进行实验,为了证明图滤波在本发明中的重要作用,将未经滤波的特征Xv加入我们的基于锚点的多视图图聚类模型当中并开展多视图实验,基准模型可以将
Figure BDA0003101689710000101
中的
Figure BDA0003101689710000102
替换为
Figure BDA0003101689710000104
由于在实际实验中二阶邻近信息的表现最稳定,所以选择f(Av)=Av+Av 2。同时为了证明探索高阶邻近信息的必要性,采用不同阶数的高阶邻近信息在我们的基于锚点的多视图图聚类模型上做实验,具体包括三个不同的f(Av):f(Av)=Av,f(Av)=Av+Av 2和f(Av)=Av+Av 2+Av 3
本发明采用准确率(ACC),归一化互信息评价指标(NMI),F1分数(F1-score)以及兰德系数(ARI)这四个评价参数来对图聚类效果进行评价。其中准确率,归一化互信息评价指标和F1分数的取值范围在0到1,兰德系数取值范围在-1到1,这四个评价参数的值越大,说明聚类效果越好。
表2高阶邻近信息和图滤波对评价指标的影响的详细分析
Figure BDA0003101689710000103
通过对比表2中的基准模型的结果,可以发现添加了低通滤波器的结果要远远优于未添加滤波器的结果,在ACM,DBLP,IMDB这三个数据集中,效果都十分显著,这很好地证明了采用图滤波实现平滑表示的优势。
根据表2的指标结果可以发现,高阶邻近信息确实对结果有着不小作用,具体而言在表2中二阶邻近信息相较于一阶邻近信息使得实验结果表现更好,相比之下三阶邻近信息在有些数据集上会降低模型表现,这可能是因为我们计算高阶邻近信息的方法导致的,直接通过邻接矩阵进行计算可能会改变节点之间的关系,进一步讲,现有的方法会引入很多无关信息,因此在实际运用中我们一般采用二阶邻近信息效果最佳(要根据数据特性进行适当调整,比如IMDB在三阶邻近信息的指标更好)。
综上所述图滤波以及高阶邻近信息在本发明中起到了显著的作用。本领域的普通技术人员将会意识到,这里所述的实例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (8)

1.一种大数据多视图图聚类方法,其特征在于,该方法包括如下步骤:
步骤1:将给定数据集中的节点特征和节点关系一起转换为一个无向图G={v,E1,…,EV,X1,…,XV},其中
Figure FDA00031016897000000138
代表给定数据集中的节点集合,
Figure FDA00031016897000000141
表示第
Figure FDA00031016897000000142
个视图节点之间关系的集合,
Figure FDA00031016897000000140
Figure FDA00031016897000000139
代表了无向图G中图数据的节点数,
Figure FDA0003101689700000011
表示了节点i与节点j在第
Figure FDA0003101689700000012
个视图之中的联系,
Figure FDA0003101689700000013
表示第
Figure FDA0003101689700000014
个视图的节点特征,
Figure FDA0003101689700000015
表示第
Figure FDA0003101689700000016
个视图中第k个节点的特征取值,k=1,2,…,n;
Figure FDA0003101689700000017
表示有第
Figure FDA0003101689700000018
个视图有n个节点,每个节点的特征维度为d;无向图G采用多视图邻接矩阵
Figure FDA0003101689700000019
表征,
Figure FDA00031016897000000110
代表
Figure FDA00031016897000000111
的第i行第j列数据,具体而言,当
Figure FDA00031016897000000112
时,
Figure FDA00031016897000000113
Figure FDA00031016897000000114
时,
Figure FDA00031016897000000115
由此获取第
Figure FDA00031016897000000116
个视图的对称标准化邻接矩阵如下所示:
Figure FDA00031016897000000117
其中
Figure FDA00031016897000000118
是第
Figure FDA00031016897000000119
个视图对应的度矩阵,I为单位矩阵;
步骤2:通过步骤1所得到第
Figure FDA00031016897000000120
个视图的对称标准化邻接矩阵
Figure FDA00031016897000000121
结合现实世界中的信号特性,采用一个低通滤波器来阻断高频信号,
Figure FDA00031016897000000122
通过该低通滤波器后得到第
Figure FDA00031016897000000123
个视图节点特征的平滑表征
Figure FDA00031016897000000124
表示为:
Figure FDA00031016897000000125
其中k表示该低通滤波器阶数,k是一个非负的整数,
Figure FDA00031016897000000126
表示第
Figure FDA00031016897000000127
个视图标准化的图拉普拉斯矩阵;
步骤3:对于单视图的自表达模型,其目标函数表示为:
Figure FDA00031016897000000128
其中,α>0是一个预设的平衡参数,
Figure FDA00031016897000000129
是参数矩阵,
Figure FDA00031016897000000130
表示单视图节点特征的平滑表征,是步骤2中
Figure FDA00031016897000000131
的单视图的形式表达,
Figure FDA00031016897000000132
表示矩阵
Figure FDA00031016897000000133
的转置,
Figure FDA00031016897000000134
表示L2范数的平方,单视图的自表达模型的目标函数第一项
Figure FDA00031016897000000135
表征的是自重建误差,第二项Θ(Z)是一个正则项,需要根据实际情况设置合适的正则项Θ(Z);
步骤4:第
Figure FDA00031016897000000136
个视图的对称标准化邻接矩阵
Figure FDA00031016897000000137
为稀疏矩阵,并且只表述了节点之间的一阶相似性,很难充分利用节点之间的潜藏信息,因此采用图的高阶邻近信息表示,图的高阶邻近信息表示如下:
Figure FDA0003101689700000021
f(A)=A+A2+…+AP
其中f(A)就是高阶邻近信息表示,A是
Figure FDA00031016897000000227
的单视图表达,P为多项式阶数,且P是一个正整数;
步骤5:利用高阶邻近信息表示f(A),对单视图的自表达模型中的正则项进行改进,改进后得到单视图图聚类模型的目标函数,所述单视图图聚类模型的目标函数表示如下:
Figure FDA0003101689700000022
步骤6:重新构建矩阵
Figure FDA0003101689700000023
以应用于大数据上,选取m个锚点组成一个锚点集
Figure FDA0003101689700000024
也就是矩阵B,具体而言,采用基于节点重要性的采样策略来采样锚点并且定义
Figure FDA0003101689700000025
这一映射关系,q表示给定数据集中节点和对应的节点重要性的映射关系,即为每一个节点对应一个重要性度量值,
Figure FDA0003101689700000026
表示正实数集合;选择节点
Figure FDA0003101689700000027
作为锚点集
Figure FDA0003101689700000028
中的第一个锚点的概率定义如下:
Figure FDA0003101689700000029
其中,
Figure FDA00031016897000000210
表示节点i的重要性度量值,
Figure FDA00031016897000000211
表示所有未选择的节点的重要性度量值总和,其中γ为预设的采样参数且γ>0;接着无重复地采样剩下的m-1个节点,任意一个节点
Figure FDA00031016897000000212
都有
Figure FDA00031016897000000231
的概率被选为第二个锚点,一直按照此规则,直到
Figure FDA00031016897000000213
其中,
Figure FDA00031016897000000214
表示节点集合
Figure FDA00031016897000000228
中去掉已经选择的锚点集
Figure FDA00031016897000000215
中的锚点的集合,分母
Figure FDA00031016897000000216
是一个规范化因子,确保在每一步采样中
Figure FDA00031016897000000217
步骤7:根据步骤6的采样策略,将求解
Figure FDA00031016897000000218
转换为求解
Figure FDA00031016897000000219
并且将步骤6中的矩阵B扩展到每一个视图上,
Figure FDA00031016897000000220
表示矩阵B在第
Figure FDA00031016897000000229
个视图上的表征,得到基于锚点的单视图图聚类模型的目标函数:
Figure FDA00031016897000000221
其中
Figure FDA00031016897000000222
是从
Figure FDA00031016897000000223
中抽取m个与锚点集中的锚点对应的行组成的矩阵,
Figure FDA00031016897000000224
表示L2范数的平方,
Figure FDA00031016897000000225
表示第
Figure FDA00031016897000000230
个视图的高阶邻近信息,
Figure FDA00031016897000000226
是需要求解的参数矩阵;
步骤8:根据步骤7中基于锚点的单视图图聚类模型,进一步引入权重机制,将基于锚点的单视图图聚类模型扩展到基于锚点的多视图图聚类模型上去,基于锚点的多视图图聚类模型的目标函数表示为:
Figure FDA0003101689700000031
其中
Figure FDA0003101689700000032
是第
Figure FDA00031016897000000312
个视图的权重参数,w<0是一个预设的平滑参数,
Figure FDA0003101689700000033
表示第
Figure FDA0003101689700000034
个视图节点特征的平滑表征;
步骤9:采取交替优化的优化方法,迭代求解基于锚点的多视图图聚类模型的目标函数中的参数矩阵S,具体优化步骤如下:
S1:初始化迭代次数t=0和随机初始化S,初始化
Figure FDA0003101689700000035
S2:采用步骤6中的基于节点重要性的采样策略得到矩阵
Figure FDA0003101689700000036
S3:循环执行S4-S5,直到
Figure FDA0003101689700000037
∈为预先设定的收敛值;
S4:计算St如下所示:
Figure FDA0003101689700000038
其中I是单位矩阵;
S5:计算
Figure FDA00031016897000000313
如下所示:
Figure FDA0003101689700000039
其中
Figure FDA00031016897000000310
最终得到参数矩阵S;
步骤10:根据步骤9得到的参数矩阵S,将
Figure FDA00031016897000000311
作为谱聚类的输入得到最终的聚类结果。
2.根据权利要求1所述的大数据多视图图聚类方法,其特征在于,所述给定数据集为ACM,DBLP,IMDB,Amazon Photo或Amazon Computer。
3.根据权利要求2所述的大数据多视图图聚类方法,其特征在于,所述低通滤波器阶数k=2。
4.根据权利要求3所述的大数据多视图图聚类方法,其特征在于,所述平衡参数α={0.1,1,10,50,100,1000}。
5.根据权利要求4所述的大数据多视图图聚类方法,其特征在于,所述多项式阶数P=2。
6.根据权利要求5所述的大数据多视图图聚类方法,其特征在于,所述采样参数γ=7。
7.根据权利要求6所述的大数据多视图图聚类方法,其特征在于,所述平滑参数w=-2。
8.根据权利要求7所述的大数据多视图图聚类方法,其特征在于,所述收敛值∈=0.001。
CN202110624636.3A 2021-06-04 2021-06-04 一种大数据多视图图聚类方法 Pending CN113360732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110624636.3A CN113360732A (zh) 2021-06-04 2021-06-04 一种大数据多视图图聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110624636.3A CN113360732A (zh) 2021-06-04 2021-06-04 一种大数据多视图图聚类方法

Publications (1)

Publication Number Publication Date
CN113360732A true CN113360732A (zh) 2021-09-07

Family

ID=77532376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110624636.3A Pending CN113360732A (zh) 2021-06-04 2021-06-04 一种大数据多视图图聚类方法

Country Status (1)

Country Link
CN (1) CN113360732A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484970A (zh) * 2023-04-13 2023-07-25 南京大学 一种基于锚位学件的学件查搜方法
CN118115767A (zh) * 2024-04-30 2024-05-31 厦门理工学院 一种基于二阶邻近引导的图像数据采样方法
CN118394946A (zh) * 2024-06-28 2024-07-26 中国人民解放军国防科技大学 一种基于多视图聚类的检索增强生成方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484970A (zh) * 2023-04-13 2023-07-25 南京大学 一种基于锚位学件的学件查搜方法
CN116484970B (zh) * 2023-04-13 2024-04-02 南京大学 一种基于锚位学件的学件查搜方法
CN118115767A (zh) * 2024-04-30 2024-05-31 厦门理工学院 一种基于二阶邻近引导的图像数据采样方法
CN118394946A (zh) * 2024-06-28 2024-07-26 中国人民解放军国防科技大学 一种基于多视图聚类的检索增强生成方法和系统

Similar Documents

Publication Publication Date Title
Pan et al. Multi-view contrastive graph clustering
Li et al. Deep convolutional computation model for feature learning on big data in internet of things
Kwasigroch et al. Neural architecture search for skin lesion classification
CN113360732A (zh) 一种大数据多视图图聚类方法
CN105760821B (zh) 基于核空间的分类聚集稀疏表示的人脸识别方法
Gong et al. Attributed Graph Clustering with Dual Redundancy Reduction.
Zhang et al. Non-negative multi-label feature selection with dynamic graph constraints
Zhao et al. Cooperative sparse representation in two opposite directions for semi-supervised image annotation
Tuo et al. Hierarchical feature selection with subtree based graph regularization
CN109582782A (zh) 一种基于用弱监督深度学习的文本聚类方法
Pan et al. High-order multi-view clustering for generic data
CN103488662A (zh) 基于图形处理单元的自组织映射神经网络聚类方法及系统
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN110413704A (zh) 基于加权邻居信息编码的实体对齐方法
CN108830301A (zh) 基于锚图结构的双拉普拉斯正则化的半监督数据分类方法
Jiang et al. Gaussian-induced convolution for graphs
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
Chen et al. Binarized neural architecture search
Zhang et al. Multiview graph restricted Boltzmann machines
CN114565053A (zh) 基于特征融合的深层异质图嵌入模型
CN113297427A (zh) 一种基于u型嵌套网络的图分类方法
CN107229945A (zh) 一种基于竞争学习的深度聚类方法
Sharma et al. Learning point embeddings from shape repositories for few-shot segmentation
Zhao et al. The trade-off between topology and content in community detection: An adaptive encoder–decoder-based NMF approach
CN113360719A (zh) 一种基于图数据的多视图图聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210907