CN113360732A - 一种大数据多视图图聚类方法 - Google Patents
一种大数据多视图图聚类方法 Download PDFInfo
- Publication number
- CN113360732A CN113360732A CN202110624636.3A CN202110624636A CN113360732A CN 113360732 A CN113360732 A CN 113360732A CN 202110624636 A CN202110624636 A CN 202110624636A CN 113360732 A CN113360732 A CN 113360732A
- Authority
- CN
- China
- Prior art keywords
- view
- matrix
- graph
- node
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000011159 matrix material Substances 0.000 claims abstract description 80
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 230000003595 spectral effect Effects 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000006872 improvement Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 13
- 238000013135 deep learning Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种大数据多视图图聚类方法,采用低通滤波器得到每一个视图特征的平滑表示,将表现良好的自表达模型与锚点思想结合,选取具有代表性的锚点替代原始数据,降低时间复杂度的同时高效地学得图邻接矩阵,通过设置正则项和权重机制得到可迅速收敛的算法,通过该算法得到最优表示的图邻接矩阵,将谱聚类技术运用于学得的图邻接矩阵得到最终的聚类结果。本发明通用性强,基于锚点技术将时间复杂度降为数据个数的线性时间复杂度,基于图结构矩阵的高阶邻近信息、图滤波技术、权重机制,能够高效地捕捉多视图图数据中的潜在信息,相较于基于深度学习的方法,本发明在计算效率上大大提升,并且性能指标不弱于基于深度学习的方法。
Description
技术领域
本发明属于图数据聚类领域,具体涉及一种大数据多视图图聚类方法。
背景技术
随着图类数据的大小和范围的增长,基于图的机器学习方法引起了人们的兴趣。图聚类是无监督学习的一个分支,其目的是将图中的节点划分为若干不相交的组,使每个组属于一个类。图聚类在群体检测、群体分割等方面表现出显著的性能。在实际应用中,实际数据往往比较复杂,既包括节点属性,也包括不同顶点之间的结构关系。为了从结构和特征中挖掘出丰富的信息,有人采用了一种图嵌入框架,有人提出了一种联合聚类技术,并且开发了一种关系主题方法来解决这个问题。然而,它们主要集中在稀疏的原始图上,不能有效地利用底层信息。此外,这些方法无法处理多视图数据,并且由于时间复杂度较高,很难应用于大数据上。
现在,大多数图类数据通常是多模态和多关系的。换言之,节点由多个特征矩阵组成,每个节点通过多种关系相互作用。以学术网络为例,一个图形视图代表合著论文关系,另一个视图描述合著者关系;作者本身也具有研究领域、引文、代表词等多重特征。从不同的角度充分利用互补信息是可取的。
基于上述调研,我们可以得出结论,设计一种大数据多视图图聚类方法具有很大的实际运用价值。为此,本发明提出了一种大数据多视图图聚类方法,它有四个不同的特性:首先,它具有足够的通用性,既可以处理具有多个特征属性和单个图的数据,也可以处理具有单个特征属性和多个图的数据。第二,本发明提出的方法基于低通滤波技术,能够通过近期取得巨大成功的图神经网络得到平滑的特征表示,实现简单的同时保证了对图结构的充分利用,训练参数较少。第三,它能够探索图的高阶邻近信息关系。这些使得我们的方法在实际应用中具有很大潜力。第四,本发明借助了采样策略和锚点的思想,能大大降低算法的时间复杂度,可以在线性时间复杂度内完成任务。
发明内容
本发明提出了一种大数据多视图图聚类方法,步骤1是对对多视图图数据进行预处理,设定好模型参数区间,步骤2-9执行多视图图聚类算法,步骤10对参数矩阵执行非负对称化处理,执行谱聚类算法得到聚类结果。具体而言,包括以下步骤:
步骤1:将给定数据集中的节点特征和节点关系一起转换为一个无向图 其中代表给定数据集中的节点集合,Ev表示第v个视图节点之间关系的集合,v=1,2,…,V,一共有V个视图,其中代表了无向图G中图数据的节点数, 表示了节点i与节点j在第v个视图之中的联系,表示第v个视图之中的节点特征,其中,表示第v个视图中第k个节点的特征取值,k=1,2,…,n;表示第v个视图有n个节点,每个节点的特征维度为d。无向图G可以被多视图邻接矩阵所表征,代表的第i行第j列数据,具体而言,当时,当时,由此我们可以获取第v个视图的对称标准化邻接矩阵如下所示:
其中Dv是第v个视图对应的度矩阵,I为单位矩阵。
步骤2:通过步骤1所得到第v个视图的对称标准化邻接矩阵Av,结合现实世界中的信号一般都是平滑的特性,以及近期取得巨大成功的图神经网络主要是依托于低通滤波器,本发明基于图卷积思想构造出一个低通滤波器来阻断高频信号,通过该低通滤波器后的第v个视图节点的特征矩阵(即通过该低通滤波器后的第v个视图节点特征的平滑表征)可以表示为:
其中k表示低通滤波器阶数,k是一个非负的整数,Lv=I-Av表示第v个视图标准化的图拉普拉斯矩阵。
步骤3:利用自表达性质,每一个数据都能够由数据集中的其他所有数据线性组合而成,考虑单视图的自表达模型,其目标函数可以表示为:
其中,α>0是一个预设的平衡参数,是参数矩阵,表示单视图数据节点特征的平滑表征,是步骤2中的单视图的形式表达,表示矩阵的转置,表示L2范数的平方,单视图的自表达模型的目标函数第一项表征的是自重建误差,第二项Θ(Z)是一个正则项,需要根据具体情况设置合适的正则项Θ(Z)。
步骤4:对步骤3中的单视图的自表达模型,需要对正则项进行设计,考虑到对图结构的利用不够充分,可以令学得的参数矩阵Z近似于步骤1中的对称标准化邻接矩阵Av,此外由于原始的对称标准化邻接矩阵Av一般是稀疏矩阵,并且只表述了节点之间的一阶相似性,这样可能很难充分利用节点之间的潜藏信息,所以我们可以对图的高阶邻近信息定义如下:
f(A)=A+A2+…+AP
其中f(A)就是高阶邻近信息表达,A是Av的单视图表达,P为多项式阶数,且P是一个正整数。
步骤5:通过步骤4中的高阶邻近信息表达,可以对单视图的自表达模型进行进一步的改进,改进后得到单视图图聚类模型的目标函数可以表示如下:
这个模型是针对单视图图聚类的模型。
步骤6:根据步骤5中理论计算得到矩阵Z,此过程的时间复杂度达到了数据个数的立方级别,在大数据上难以应用,为了解决这个问题,需要重新构建矩阵本发明选取m个具有代表性并且在图数据中重要性很高的点,即锚点,来重建矩阵得到较小的矩阵B,这m个锚点组成一个锚点集也就是矩阵B。具体而言,我们采用基于节点重要性的采样策略来采样锚点并且定义这一映射关系,q表示给定数据集中节点和对应的节点重要性的映射关系,即为每一个节点对应一个重要性度量值,表示正实数集合。选择节点作为锚点集中的第一个锚点的概率定义如下:
其中,表示节点i的重要性度量值,表示所有未选择的节点的重要性度量值总和,其中γ为预设的采样参数且γ>0,是为了使得我们的分布更加平滑。接着我们就可以无重复地采样剩下的m-1个节点,详细地讲,每一个节点 表示节点集合中去掉已经选择的锚点集中的锚点的集合)都有的概率被选为第二个锚点,一直按照此规则,直到其中分母是一个规范化因子,确保在每一步采样中
由于我们虽然只需要较小的Bv来表征,但表征的仍然是整个数据特征,所以上式中第一个不用Bv表征。其中是从f(Av)中抽取m个与锚点集中的锚点对应的行组成的矩阵,表示L2范数的平方,f(Av)表示第v个视图的高阶邻近信息,是我们求解的参数矩阵。
步骤8:根据步骤7中基于锚点的单视图图聚类模型,可以进一步地引入权重机制,将基于锚点的单视图图聚类模型扩展到基于锚点的多视图图聚类模型上去,基于锚点的多视图图聚类模型的目标函数表示为:
步骤9:根据步骤8的基于锚点的多视图图聚类模型的目标函数表达式以及数值的相互依赖关系,采取交替优化的优化方法,迭代求解基于锚点的多视图图聚类模型的目标函数中的参数矩阵S,具体优化步骤如下:
S1:初始化迭代次数t=0和随机初始化S,初始化λv=1/v。
S2:采用步骤6中的基于节点重要性的采样策略得到矩阵Bv,Cv。
S4:计算St如下所示:
其中I是单位矩阵。
S5:计算λv如下所示:
其中w就是步骤8中的平滑参数,最终得到参数矩阵S。
本发明建立了一个基于锚点的多视图图聚类模型,利用图过滤技术,可以在平滑的表示中进行聚类。利用锚点思想,大大降低了发明的时间复杂度,能够高效地解决大数据聚类问题。通过采用交替学习方案,可以充分利用节点特征和图形结构信息。通过引入权重因子,可以有区别地利用多视图数据的互补信息。通过设计一种新的正则化器,可以灵活地挖掘高阶邻近信息。本发明提出的方法实现过程简单,并且大量的实验结果表明了它的有效性。与深度学习方法相比,本发明具有训练参数少、效率高的优点,这使得本发明在实际应用中具有吸引力。
附图说明
图1为本发明实施例采用的数据集的信息;
图2为本发明具体实施例的流程图;
图3为本发明训练过程中的收敛曲线。
具体实施方式
为便于本领域技术人员理解本发明的技术内容以及理解图滤波在聚类算法中起的关键性作用,下面结合附图对本发明内容进一步阐释。
本发明采用三个多视图图数据集ACM,DBLP,IMDB,和两个单视图图数据集AmazonPhoto,Amazon Computer来进行验证。其中ACM数据集是文章发表网络。利用合作论文(两篇论文由同一作者撰写)关系和合作主题(两篇论文包含相同主题)关系来构造两视图图结构,文章特征是由文章摘要的关键词所组成,我们以论文的研究领域作为标签。DBLP数据集构造了三个视图的信息,包括合著者(两个人合作发表论文关系)关系,联席关系(两个作者在同一会议发表论文),以及两个作者以相同的时期发表关系,以作者的研究领域作为标签。IMDB数据集是来自IMDB的电影网络。我们利用合作演员(电影由同一个演员演)关系和合作导演(电影由同一个演员导演)关系来构造两视图图结构,电影特征由电影情节的关键词组成,为了评价这个方法,我们使用了电影的题材作为标签。Amazon Photo与Amazon Computer是单视图数据,我们通过一些变换将Amazon Photo与Amazon Computer数据集均转换为多视图多特征数据。具体数据集信息如图1所示。对于参数设置,我们统一将所有数据集的参数固定为图滤波的阶数k=2,平衡参数α={0.1,1,10,50,100,1000},多项式阶数P=2,采样参数γ=7,以及平滑参数w=-2和控制收敛的收敛值∈=0.001。
首先对本发明的数据集进行预处理,确定每个数据集的一些参数范围设定,本发明的参数设定主要是图滤波的阶数(即低通滤波器阶数)k,平衡参数α,多项式阶数P,采样参数γ,平滑参数w以及控制收敛的收敛值∈。
然后直接采用本发明的大数据多视图图聚类方法对预处理后的数据集进行处理,具体操作如下:
步骤1:将上述五个数据集中的任意一个数据集中的节点特征和节点关系一起转换为一个无向图其中代表数据集中的节点集合,Ev表示第v个视图节点之间关系的集合,v=1,2,…,V,一共有V个视图,其中代表了无向图G中图数据的节点数,表示了节点i与节点j在第v个视图之中的联系,表示第v个视图之中的节点特征,其中,表示第v个视图中第k个节点的特征取值,k=1,2,…,n;表示第v个视图有n个节点,每个节点的特征维度为d。无向图G可以被多视图邻接矩阵所表征,代表的第i行第j列数据,具体而言,当时,当时,由此我们可以获取第v个视图的对称标准化邻接矩阵如下所示:
其中Dv是第v个视图对应的度矩阵,I为单位矩阵。
步骤2:通过步骤1所得到的第v个视图的对称标准化邻接矩阵Av,结合现实世界中的信号一般都是平滑的特性,以及近期取得巨大成功的图神经网络主要是依托于低通滤波器,本发明采用一个低通滤波器来阻断高频信号,通过该低通滤波器后的第v个视图节点特征的平滑表征可以表示为:
其中k是一个非负的整数,表示该低通滤波器阶数,Lv=I-Av表示第v个视图标准化的图拉普拉斯矩阵。在我们测试的五个数据集中,ACM,DBLP,IMDB的特征为单视图,关系是多视图结构,所以在这里Xv=X(X为ACM,DBLP,IMDB的特征矩阵,对于Amazon Ph oto与Amazon Computer数据集任意第v个视图特征为Xv)。Amazon Photo与Amazon Comp uter的特征为单视图,图结构也为单视图,我们通过对单视图特征做笛卡尔积操作获取多视图特征,从而与ACM,DBLP,IMDB这三个数据集对比。
步骤3:利用自表达性质,每一个数据都能够由数据集中的其他所有数据线性组合而成,考虑单视图的自表达模型,其目标函数可以表示为:
其中,α>0是一个预设的平衡参数,是单视图的自表达模型的参数矩阵,表示单视图数据节点特征的平滑表征,是步骤2中的单视图的形式表达,表示矩阵的转置,表示L2范数的平方,目标函数第一项表征的是自重建误差,第二项Θ(Z)是一个正则项,需要根据具体情况设置合适的正则项Θ(Z)。
步骤4:对步骤3中的单视图的自表达模型,需要对其正则项进行设计,考虑到对图结构的利用不够充分,可以令学得的参数矩阵Z近似于对称标准化邻接矩阵Av,此外由于原始的对称标准化邻接矩阵Av一般是稀疏矩阵,并且只表述了节点之间的一阶相似性,这样可能很难充分利用节点之间的潜藏信息,所以我们可以对图的高阶邻近信息定义如下:
f(A)=A+A2+…+AP
其中f(A)就是高阶邻近信息表达,A是Av的单视图表达,P为多项式阶数,且P是一个正整数。
步骤5:通过步骤4中的高阶邻近信息表达,可以对单视图的自表达模型进行进一步的改进,改进后得到单视图图聚类模型的目标函数可以表示如下:
这个模型是针对单视图图聚类的模型。由于我们选取的数据集都比较稀疏,我们可以选P=2作为参数,实际使用中,要根据数据特点和调参结果进行综合考虑。
步骤6:根据步骤5中理论计算得到矩阵Z,此过程的时间复杂度达到了数据个数的立方级别,在大数据上难以应用,为了解决这个问题,需要重新构建矩阵本发明选取m个具有代表性并且在图数据中重要性很高的点,即锚点来重建矩阵得到较小的矩阵B,这m个锚点组成一个锚点集也就是锚点矩阵B。具体而言,我们采用基于节点重要性的采样策略来采样锚点并且定义这一映射关系,q表示给定数据集中节点和对应的节点重要性的映射关系,即为每一个节点对应一个重要性度量值,表示正实数集合。选择节点作为锚点集中的第一个点中的点的概率定义如下:
其中,表示节点i的重要性度量值,表示所有未选择的节点的重要性总和,其中γ预设的采样参数且γ>0,是为了使得我们的分布更加平滑。接着我们就可以无重复地采样剩下的m-1个节点,详细地讲,每一个节点(表示节点集合中去掉已经选择的锚点集中的锚点的集合)都有的概率被选为第二个锚点,一直按照此规则,直到其中分母吗是一个规范化因子,确保在每一步采样中
由于我们虽然只需要较小的Bv来表征,但表征的仍然是整个数据特征,所以上式中第一个不用Bv。其中是从f(Av)中抽取m个与锚点集中的点对应的行组成的矩阵,表示L2范数的平方,f(Av)表示第v个视图的高阶邻近信息,是我们求解的参数矩阵。
步骤8:根据步骤7中的基于锚点的单视图图聚类模型,可以进一步地引入权重机制,将基于锚点的单视图图聚类模型扩展到基于锚点的多视图图聚类模型上去,基于锚点的多视图图聚类模型的目标函数表示为:
其中λv是第v个视图的权重参数,w<0是一个预设的平滑参数,表示第v个视图节点特征的平滑表征,是通过前面所述的低通滤波器得到的,Cv是从f(Av)中根据采样的锚点抽取的。由于w对实验结果影响不大,在这里我们设置w=-2(实际运用[-1,-7]的整数都可以)。
步骤9:根据步骤8的基于锚点的多视图图聚类模型的目标函数表达式以及数值的相互依赖关系,采取交替优化的优化方法求解基于锚点的多视图图聚类模型的目标函数中的参数矩阵S,具体优化步骤如下:
S1:初始化迭代次数t=0和随机初始化S,初始化λv=1/v。
S2:采用步骤6中基于重要性的采样策略得到矩阵Bv,Cv。
S4:计算St如下所示:
其中I是单位矩阵。
S5:计算λv如下所示:
最终得到参数矩阵S。
图2描述了本发明的具体实施流程图。为了说明本发明方法具有较高效率,能在较短时间收敛获得参数矩阵S,图3(a)、图3(b)和图3(c)分别展示了本发明在三个数据集(ACM,DBLP,IMDB)上的收敛曲线,表明我们的发明能在几次迭代后得到聚类结果。Amaz onPhoto,Amazon Computer这两个数据集用于后面时间对比的实验。
为了本发明的高效性,能运用于大数据的数据集,我们选取一些近一年来基于神经网络的深度学习方法来和我们的图聚类方法进行时间对比,其中O2MAC与MAGCN都是近年来具有代表性的深度学习方法,MvAGC表示本发明提出的方法。
表1本发明方法相较于深度学习方法时间对比(单位:秒)
Method | ACM | DBLP | IMDB | Amazon Photo | Amazon Computer |
O2MAC | 524.8 | 5163.4 | 4555.24 | - | - |
MAGCN | - | - | - | 3783.6 | - |
MvAGC | 5.8 | 5.19 | 10.38 | 72.22 | 215.33 |
通过对比可以发现,本发明方法的速度是传统基于深度学习方法的几十甚至几百倍,一些深度学习方法在某些数据集上内存溢出或者时间实在太长,在实际应用中,时间是我们考虑的很大一部分因素,并且本发明的图聚类效果也优于表1中的两个深度学习方法O2MAC与MAGCN。
为了说明本发明的本发明中图滤波技术具有消除噪声的优势以及图滤波的重要性,以及探索高阶邻近信息的重要性,本发明进行了消融实验来对本发明的图滤波技术和探索高阶邻近信息予以佐证。
选取ACM,DBLP,IMDB三个数据集进行实验,为了证明图滤波在本发明中的重要作用,将未经滤波的特征Xv加入我们的基于锚点的多视图图聚类模型当中并开展多视图实验,基准模型可以将中的替换为由于在实际实验中二阶邻近信息的表现最稳定,所以选择f(Av)=Av+Av 2。同时为了证明探索高阶邻近信息的必要性,采用不同阶数的高阶邻近信息在我们的基于锚点的多视图图聚类模型上做实验,具体包括三个不同的f(Av):f(Av)=Av,f(Av)=Av+Av 2和f(Av)=Av+Av 2+Av 3。
本发明采用准确率(ACC),归一化互信息评价指标(NMI),F1分数(F1-score)以及兰德系数(ARI)这四个评价参数来对图聚类效果进行评价。其中准确率,归一化互信息评价指标和F1分数的取值范围在0到1,兰德系数取值范围在-1到1,这四个评价参数的值越大,说明聚类效果越好。
表2高阶邻近信息和图滤波对评价指标的影响的详细分析
通过对比表2中的基准模型的结果,可以发现添加了低通滤波器的结果要远远优于未添加滤波器的结果,在ACM,DBLP,IMDB这三个数据集中,效果都十分显著,这很好地证明了采用图滤波实现平滑表示的优势。
根据表2的指标结果可以发现,高阶邻近信息确实对结果有着不小作用,具体而言在表2中二阶邻近信息相较于一阶邻近信息使得实验结果表现更好,相比之下三阶邻近信息在有些数据集上会降低模型表现,这可能是因为我们计算高阶邻近信息的方法导致的,直接通过邻接矩阵进行计算可能会改变节点之间的关系,进一步讲,现有的方法会引入很多无关信息,因此在实际运用中我们一般采用二阶邻近信息效果最佳(要根据数据特性进行适当调整,比如IMDB在三阶邻近信息的指标更好)。
综上所述图滤波以及高阶邻近信息在本发明中起到了显著的作用。本领域的普通技术人员将会意识到,这里所述的实例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (8)
1.一种大数据多视图图聚类方法,其特征在于,该方法包括如下步骤:
步骤1:将给定数据集中的节点特征和节点关系一起转换为一个无向图G={v,E1,…,EV,X1,…,XV},其中代表给定数据集中的节点集合,表示第个视图节点之间关系的集合, 代表了无向图G中图数据的节点数,表示了节点i与节点j在第个视图之中的联系,表示第个视图的节点特征,表示第个视图中第k个节点的特征取值,k=1,2,…,n;表示有第个视图有n个节点,每个节点的特征维度为d;无向图G采用多视图邻接矩阵表征,代表的第i行第j列数据,具体而言,当时,当时,由此获取第个视图的对称标准化邻接矩阵如下所示:
步骤3:对于单视图的自表达模型,其目标函数表示为:
其中,α>0是一个预设的平衡参数,是参数矩阵,表示单视图节点特征的平滑表征,是步骤2中的单视图的形式表达,表示矩阵的转置,表示L2范数的平方,单视图的自表达模型的目标函数第一项表征的是自重建误差,第二项Θ(Z)是一个正则项,需要根据实际情况设置合适的正则项Θ(Z);
f(A)=A+A2+…+AP
步骤5:利用高阶邻近信息表示f(A),对单视图的自表达模型中的正则项进行改进,改进后得到单视图图聚类模型的目标函数,所述单视图图聚类模型的目标函数表示如下:
步骤6:重新构建矩阵以应用于大数据上,选取m个锚点组成一个锚点集也就是矩阵B,具体而言,采用基于节点重要性的采样策略来采样锚点并且定义这一映射关系,q表示给定数据集中节点和对应的节点重要性的映射关系,即为每一个节点对应一个重要性度量值,表示正实数集合;选择节点作为锚点集中的第一个锚点的概率定义如下:
其中,表示节点i的重要性度量值,表示所有未选择的节点的重要性度量值总和,其中γ为预设的采样参数且γ>0;接着无重复地采样剩下的m-1个节点,任意一个节点都有的概率被选为第二个锚点,一直按照此规则,直到其中,表示节点集合中去掉已经选择的锚点集中的锚点的集合,分母是一个规范化因子,确保在每一步采样中
步骤8:根据步骤7中基于锚点的单视图图聚类模型,进一步引入权重机制,将基于锚点的单视图图聚类模型扩展到基于锚点的多视图图聚类模型上去,基于锚点的多视图图聚类模型的目标函数表示为:
步骤9:采取交替优化的优化方法,迭代求解基于锚点的多视图图聚类模型的目标函数中的参数矩阵S,具体优化步骤如下:
S4:计算St如下所示:
其中I是单位矩阵;
最终得到参数矩阵S;
2.根据权利要求1所述的大数据多视图图聚类方法,其特征在于,所述给定数据集为ACM,DBLP,IMDB,Amazon Photo或Amazon Computer。
3.根据权利要求2所述的大数据多视图图聚类方法,其特征在于,所述低通滤波器阶数k=2。
4.根据权利要求3所述的大数据多视图图聚类方法,其特征在于,所述平衡参数α={0.1,1,10,50,100,1000}。
5.根据权利要求4所述的大数据多视图图聚类方法,其特征在于,所述多项式阶数P=2。
6.根据权利要求5所述的大数据多视图图聚类方法,其特征在于,所述采样参数γ=7。
7.根据权利要求6所述的大数据多视图图聚类方法,其特征在于,所述平滑参数w=-2。
8.根据权利要求7所述的大数据多视图图聚类方法,其特征在于,所述收敛值∈=0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110624636.3A CN113360732A (zh) | 2021-06-04 | 2021-06-04 | 一种大数据多视图图聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110624636.3A CN113360732A (zh) | 2021-06-04 | 2021-06-04 | 一种大数据多视图图聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113360732A true CN113360732A (zh) | 2021-09-07 |
Family
ID=77532376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110624636.3A Pending CN113360732A (zh) | 2021-06-04 | 2021-06-04 | 一种大数据多视图图聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360732A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484970A (zh) * | 2023-04-13 | 2023-07-25 | 南京大学 | 一种基于锚位学件的学件查搜方法 |
CN118115767A (zh) * | 2024-04-30 | 2024-05-31 | 厦门理工学院 | 一种基于二阶邻近引导的图像数据采样方法 |
CN118394946A (zh) * | 2024-06-28 | 2024-07-26 | 中国人民解放军国防科技大学 | 一种基于多视图聚类的检索增强生成方法和系统 |
-
2021
- 2021-06-04 CN CN202110624636.3A patent/CN113360732A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484970A (zh) * | 2023-04-13 | 2023-07-25 | 南京大学 | 一种基于锚位学件的学件查搜方法 |
CN116484970B (zh) * | 2023-04-13 | 2024-04-02 | 南京大学 | 一种基于锚位学件的学件查搜方法 |
CN118115767A (zh) * | 2024-04-30 | 2024-05-31 | 厦门理工学院 | 一种基于二阶邻近引导的图像数据采样方法 |
CN118394946A (zh) * | 2024-06-28 | 2024-07-26 | 中国人民解放军国防科技大学 | 一种基于多视图聚类的检索增强生成方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pan et al. | Multi-view contrastive graph clustering | |
Li et al. | Deep convolutional computation model for feature learning on big data in internet of things | |
Kwasigroch et al. | Neural architecture search for skin lesion classification | |
CN113360732A (zh) | 一种大数据多视图图聚类方法 | |
CN105760821B (zh) | 基于核空间的分类聚集稀疏表示的人脸识别方法 | |
Gong et al. | Attributed Graph Clustering with Dual Redundancy Reduction. | |
Zhang et al. | Non-negative multi-label feature selection with dynamic graph constraints | |
Zhao et al. | Cooperative sparse representation in two opposite directions for semi-supervised image annotation | |
Tuo et al. | Hierarchical feature selection with subtree based graph regularization | |
CN109582782A (zh) | 一种基于用弱监督深度学习的文本聚类方法 | |
Pan et al. | High-order multi-view clustering for generic data | |
CN103488662A (zh) | 基于图形处理单元的自组织映射神经网络聚类方法及系统 | |
WO2023155508A1 (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
CN110413704A (zh) | 基于加权邻居信息编码的实体对齐方法 | |
CN108830301A (zh) | 基于锚图结构的双拉普拉斯正则化的半监督数据分类方法 | |
Jiang et al. | Gaussian-induced convolution for graphs | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
Chen et al. | Binarized neural architecture search | |
Zhang et al. | Multiview graph restricted Boltzmann machines | |
CN114565053A (zh) | 基于特征融合的深层异质图嵌入模型 | |
CN113297427A (zh) | 一种基于u型嵌套网络的图分类方法 | |
CN107229945A (zh) | 一种基于竞争学习的深度聚类方法 | |
Sharma et al. | Learning point embeddings from shape repositories for few-shot segmentation | |
Zhao et al. | The trade-off between topology and content in community detection: An adaptive encoder–decoder-based NMF approach | |
CN113360719A (zh) | 一种基于图数据的多视图图聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210907 |