CN115952424A

CN115952424A - 一种基于多视图结构的图卷积神经网络聚类方法

Info

Publication number: CN115952424A
Application number: CN202310001650.7A
Authority: CN
Inventors: 刘恒; 鲍舟
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-04-11

Abstract

本发明公开了一种基于多视图结构的图卷积神经网络聚类方法，属于数据分析技术领域。本发明主要包括以下步骤：1、通过数据增强操作对图结构数据集进行预处理，获得图在多个视图下的结构信息；2、构建一个基于多视图结构的图自编码器网络用于模型训练；3、基于构建的多视图网络和预处理的数据集对模型进行训练；4、根据学习的模型参数，将图的节点属性和结构信息作为输入，得到最终的聚类结果。本发明通过多视图网络结构训练数据增强后的图数据，提高模型鲁棒性，在图结构数据分析等领域有着广泛的应用前景。

Description

一种基于多视图结构的图卷积神经网络聚类方法

技术领域

本发明属于数据分析技术领域，更具体地说，涉及一种基于多视图结构的图卷积神经网络聚类方法。

背景技术

计算机视觉、模式识别、机器学习等领域的现有工作发展出了各自的多视图学习方式，同时也表明将多视图的数据按特定策略融合用于后续任务能达到更好效果，同时多视图还为小样本、数据稀疏等问题提供了新的解决思路。其中多视图聚类是机器学习中的一项基本任务。区别于传统聚类，它旨在整合多种特征，发现不同视图之间的一致信息。现有的多视图聚类方法在针对欧式数据上取得了不错的成果。

然而这些方法却不适用处理非欧式数据，如社交网络、化学分子等非结构化数据。针对这类数据提出了图聚类方法，其研究本质就是如何更好的融合结构特征和节点特征，以完成特征的高效融合来完成聚类标签的生成。通常来说就是通过图嵌入将图数据转换为低维、紧凑和连续的特征空间，图神经网络作为最经典的方法，应用多个图卷积层，通过非线性变换和聚合函数来聚合节点邻居的信息来得到图节点的嵌入特征。

图聚类是通过将一个加权无向图划分为两个或两个以上的最优子图来实现聚类，使子图内部尽可能相似，子图彼此之间的距离尽可能远。传统图聚类的主要方法是通过图嵌入方法获得图中每个节点的特征表示，然后利用K-means算法得到聚类结果，例如DeepWalk、Node2Vec。但是，这些方法不能探索图节点中更深层次的潜在信息，并且忽略了图的节点属性。

随着深度学习的发展，图卷积神经网络显示出了较强的特征提取能力。图卷积神经网络通过聚合节点的相邻节点信息，充分利用了图中的节点属性和结构信息。一些基于图卷积神经网络的模型，如图自动编码器和图变分自动编码器，这些方法的编码器部分由图卷积层组成，并以重建邻接矩阵作为监督信号指导模型聚类。DAEGC引入了一种图注意机制，并采用DEC的思想，生成目标分布作为监督信息，指导模型学习聚类分布。虽然这些端到端方法获得了良好的聚类性能，但它并没有从不同的角度充分利用结构性信息，并且现存的一些方法通过添加图注意机制来获取嵌入表示，但图注意机制对噪声的敏感性仍未得到解决。

虽然上述图神经网络可以有效地处理单视图数据，但是它并不适用于多视图数据。现有的一些多视图图聚类方法针对的也只是多视图数据集，不能使用多视图方法去处理单视图数据集。

经检索，申请公布号为：CN113360719A，申请日为：2021年06月04日，发明名称为：一种基于图数据的多视图图聚类方法。该方法首先使用低通滤波器对多视图数据的每一个视图特征进行滤波，然后利用表现良好的自表达模型结合权重机制计算出相似矩阵，并设计一个可收敛的算法学习多视图数据共用的邻接矩阵，最后将传统谱聚类算法应用于该图邻接矩阵得到最终聚类结果。然而，该申请案中，多视图图聚类方法是针对多视图数据的，同样也没有考虑到图的结构信息中噪声的影响。

基于以上分析，现有技术需要一种能够适应多视图结构的图卷积神经网络聚类方法。

发明内容

1.发明要解决的技术问题

为了克服上述现有技术存在的无法处理多视图结构信息和结构信息中噪声的问题；本发明提出了一种基于多视图结构的图卷积神经网络聚类方法；本发明提出了一种双分支网络模型，通过交叉更新迭代，能够达到更好的聚类效果，且本发明能适应各种规模的图结构数据集，具有较强的可扩展性。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的一种基于多视图结构的图卷积神经网络聚类方法，其步骤为：

步骤1、通过数据增强操作对图结构数据集进行预处理，获得图在多个视图下的结构信息；

步骤2、构建一个基于多视图结构的图自编码器网络用于模型训练；

步骤3、依据步骤1预处理的数据集和步骤2构建的模型，调整模型参数，进行模型训练；

步骤4、将图的节点属性和结构信息作为输入，利用步骤3学习得到的参数得到最终的聚类结果。

更进一步地，步骤1中对图数据进行预处理的过程为：选取预训练好的图自编码器作为边缘预测器，将图的初始节点属性和结构信息作为预测器的输入并得出边缘概率矩阵；再根据边缘概率矩阵，添加高概率可能存在的边，删除低概率冗余的边，更新图的结构信息。

更进一步地，步骤2中构建的网络模型是基于多视图结构的双分支网络，每个分支包括：图自编码器，聚类模块以及交叉更新模块。

更进一步地，步骤2所述模型的训练过程如下：将图的节点属性和不同视图下的结构信息作为不同分支的输入，通过图自编码器完成嵌入，得到嵌入特征与重构后的结构信息；之后利用聚类模块，根据嵌入特征计算出图的初始概率分布与目标分布，最后通过交叉更新模块，更新不同分支下的结构信息，并交叉传递到不同分支进行下一轮迭代训练。

更进一步地，步骤2中，图自编码器提取嵌入特征的具体过程如下：

(1)将图的节点属性X和结构信息A作为编码器的输入，提取出图的嵌入特征表示；

(2)利用内积解码器，根据提取出的嵌入特征重构出图的结构信息。

更进一步地，图自编码器中的编码器分别通过两层图卷积层和两层图注意力层提取出图的两种特征表示Z和Z′，再通过特征融合机制得出融合特征Z″；

将融合特征Z″作为预测器的输入，预测出图中每个节点所对应的伪标签，最后通过特征融合方式将伪标签信息Z″′加入到最终嵌入特征表示

。

更进一步地，图自编码器的解码器采用内积编码器。

更进一步地，聚类模块将最终嵌入特征表示作为输入，利用t-学生分布计算初始概率分布Q，并根据初始概率分布计算目标概率分布P。

更进一步地，根据初始概率分布Q按照一定的阙值选取高置信度节点，得到高置信度节点集；然后从高置信节点集中按照1-NN算法选取离高置信度聚类质心最近的点，并根据初始概率分布Q判断高置信度节点集中的节点是否与离所属类别质心最近的节点标签一致，如果一致，则为这两个节点之间添加边；否则，删除这两个节点之间的边；最终得到更新后面向聚类的结构信息，并作为重构时的监督信息。

更进一步地，模型在迭代一定轮数后，在交叉更新模块中，通过计算重构的结构信息和初始结构信息的线性加权和，得出图更新后的结构信息，并将两个分支更新后的结果交叉输入到不同分支，然后参与网络的迭代更新。

3.有益效果

采用本发明提供的技术方案，与已有的公知技术相比，具有如下显著效果：

(1)本发明的一种基于多视图结构的图卷积神经网络聚类方法，设计了一种新的图特征编码器，通过特征融合引入了图注意机制，有效地利用了图不同视角的结构信息和属性信息，提取了图的潜在特征表示。

(2)本发明的一种基于多视图结构的图卷积神经网络聚类方法，提出了一种伪标签预测器，在训练过程中根据节点嵌入特征预测节点的伪标签，并通过特征融合的方式加入伪标签所对应的质心特征信息，隐式地引导模型学习图数据的聚类分布。

(3)本发明的一种基于多视图结构的图卷积神经网络聚类方法，通过交叉迭代更新，学习不同视图下结构信息的潜在一致性特征，具有较高的鲁棒性。

附图说明

图1是本发明的基于多视图结构的图卷积神经网络聚类方法流程图；

图2是本发明的数据预处理流程图；

图3是本发明构建的整体网络模型结构图；

图4是本发明构建的特征编码器详细示意图；

图5是本发明构建的聚类模块详细示意图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

实施例1

结合图1，本实施例的一种基于多视图结构的图卷积神经网络聚类方法，具体包括以下步骤：

步骤1、通过数据增强操作对图结构数据集进行预处理，获得图在多个视图下的结构信息，具体流程如图2所示，即：

选取预训练好的图自编码器作为边缘预测器，将图的初始节点属性和结构信息作为预测器的输入并得出边缘概率矩阵；其次，再根据边缘概率矩阵，添加高概率可能存在的边，删除低概率冗余的边，更新图的结构信息。对图结构数据集进行上述处理，可以得到用于网络训练的不同视图下的图结构信息。

2-1构建的网络模型是基于多视图结构的双分支网络，具体结构如图3所示，每个分支主要由以下几个部分组成：图自编码器，聚类模块以及交叉更新模块。模型的训练流程如下：开始时将图的节点属性和不同视图下的结构信息作为不同分支的输入，通过图自编码器完成嵌入过程，得到嵌入特征与重构后的结构信息。之后利用聚类模块，根据嵌入特征计算出图的初始概率分布与目标分布。最后通过交叉更新模块，更新不同分支下的结构信息，并交叉传递到不同分支进行下一轮迭代训练。

2-2图自编码器的结构如图4所示，具体过程如下：

2-3结合图4，图自编码器的编码器部分分别通过两层图卷积层(GCN)和两层图注意力层(GAT)提取出图的两种特征表示Z和Z′，再通过特征融合机制得出融合特征Z″。编码器进行嵌入特征提取的过程可以如公式(1)表示：

Z＝GCN(A,GCN(A,X))

Z'＝GCAT(A,GAT(A,X))

Z″＝β₁Z+β₂Z′ (1)

其中，β₁和β₂为线性加权系数。

2-4结合图4，图自编码器的编码器部分将融合特征Z″作为预测器(Predict)的输入，预测出图中每个节点所对应的伪标签，最后通过特征融合方式将伪标签信息Z″′加入到最终嵌入特征表示

，具体过程如公式(2)所示：

y_i＝Predict(z′″_i″，i＝1,2，...，n

其中，

表示节点i预测的伪标签y_i所对应的聚类质心特征，β₃为线性加权系数。

2-5结合图4，图自编码器的解码器部分采用内积编码器，具体如公式(3)所示：

表示重构后的结构信息，

为最终嵌入特征表示，sigmod()表示sigmod激活函数。

2-6聚类模块如图5所示。聚类模块将最终嵌入特征表示作为输入，利用t-学生分布(t-student)计算初始概率分布Q，并根据初始概率分布计算目标概率分布P。具体步骤如公式(4)所示：

其中，q_iu代表Q中节点i属于类别u的概率，

代表节点i的最终嵌入特征，μ_u表示第u类的质心特征。p_iu代表P中节点i属于类别u的概率，∑_iq_iu代表所有属于类别u节点的概率和，τ为t-学生分布的温度系数。

2-7聚类模块如图5所示。聚类模块根据初始概率分布Q按照一定的阙值选取高置信度节点，得到高置信度节点集。然后从高置信节点集中按照1-NN算法选取离高置信度聚类质心最近的点，并根据初始概率分布Q判断高置信度节点集中的节点是否与离所属类别质心最近的节点标签一致，如果一致，则为这两个节点之间添加边；否则，删除这两个节点之间的边。最终得到更新后面向聚类的结构信息，并作为重构时的监督信息。具体步骤如公式(5)所示：

Π＝{i∈v|i＝1-NN(μ_j，Ω)and j∈{1，...，K}} (5)

其中Ω为高置信度节点集，α为设定的判断是否属于高置信度节点的阙值，v为图的节点集，q_ij代表Q中节点i属于类别j的概率。II表示离质心最近的节点集，K表示聚类的簇数，1-NN表示最近邻算法，μ_j表示第j类的质心特征。

2-8结合图2，模型在迭代一定轮数后，在交叉更新模块中，通过计算重构的结构信息和初始结构信息的线性加权和，得出图更新后的结构信息，并将两个分支更新后的结果交叉输入到不同分支，然后参与网络的迭代更新。其中具体更新过程如公式(6)所示：

其中

代表第t步输入到不同分支的结构信息，

代表第t步不同分支更新的结构信息。t代表更新次数。θ代表加权系数，取值在0与1之间。

网络的损失函数包含三个部分：重构损失、图注意力层损失以及聚类分布损失，如公式(7)所示：

其中A′₍₁₎、A′₍₂₎为面向聚类的结构信息，

为重构后的结构信息。E为图的边集，E-是从E中提取出的负样本，(v_i，v_j)代表节点i和节点j之间的边，1为指示函数，s_ij表示节点i和节点j之间的相似性。P′₍₁₎、P′₍₂₎和Q′₍₁₎、Q′₍₂₎分别表示不同分支下高置信度节点的初始概率分布和目标分布，KL()为KL散度损失函数。在训练时，把上述的损失放在一起进行优化，网络的总体损失函数如公式(8)所示：

L_toral＝λ₁L_rec+λ₂L_att+λ₃L_c (8)

其中λ₁、λ₂、λ₃为线性加权系数，L_toral为总损失函数，L_rec为重构损失，L_att为图注意力层损失，L_c为聚类损失。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种基于多视图结构的图卷积神经网络聚类方法，其特征在于，其步骤为：

2.根据权利要求1所述的一种基于多视图结构的图卷积神经网络聚类方法，其特征在于：步骤1中对图数据进行预处理的过程为：选取预训练好的图自编码器作为边缘预测器，将图的初始节点属性和结构信息作为预测器的输入并得出边缘概率矩阵；再根据边缘概率矩阵，添加高概率可能存在的边，删除低概率冗余的边，更新图的结构信息。

3.根据权利要求1或2所述的一种基于多视图结构的图卷积神经网络聚类方法，其特征在于：步骤2中构建的网络模型是基于多视图结构的双分支网络，每个分支包括：图自编码器，聚类模块以及交叉更新模块。

4.根据权利要求3所述的一种基于多视图结构的图卷积神经网络聚类方法，其特征在于：步骤2所述模型的训练过程如下：将图的节点属性和不同视图下的结构信息作为不同分支的输入，通过图自编码器完成嵌入，得到嵌入特征与重构后的结构信息；之后利用聚类模块，根据嵌入特征计算出图的初始概率分布与目标分布，最后通过交叉更新模块，更新不同分支下的结构信息，并交叉传递到不同分支进行下一轮迭代训练。

5.根据权利要求4所述的一种基于多视图结构的图卷积神经网络聚类方法，其特征在于：步骤2中，图自编码器提取嵌入特征的具体过程如下：

6.根据权利要求5所述的一种基于多视图结构的图卷积神经网络聚类方法，其特征在于：图自编码器中的编码器分别通过两层图卷积层和两层图注意力层提取出图的两种特征表示Z和Z′，再通过特征融合机制得出融合特征Z″；

7.根据权利要求6所述的一种基于多视图结构的图卷积神经网络聚类方法，其特征于：图自编码器的解码器采用内积编码器。

8.根据权利要求7所述的一种基于多视图结构的图卷积神经网络聚类方法，其特征在于：聚类模块将最终嵌入特征表示作为输入，利用t-学生分布计算初始概率分布Q，并根据初始概率分布计算目标概率分布P。

9.根据权利要求8所述的一种基于多视图结构的图卷积神经网络聚类方法，其特征在于：根据初始概率分布Q按照一定的阙值选取高置信度节点，得到高置信度节点集；然后从高置信节点集中按照1-NN算法选取离高置信度聚类质心最近的点，并根据初始概率分布Q判断高置信度节点集中的节点是否与离所属类别质心最近的节点标签一致，如果一致，则为这两个节点之间添加边；否则，删除这两个节点之间的边；最终得到更新后面向聚类的结构信息，并作为重构时的监督信息。

10.根据权利要求9所述的一种基于多视图结构的图卷积神经网络聚类方法，其特征在于：模型在迭代一定轮数后，在交叉更新模块中，通过计算重构的结构信息和初始结构信息的线性加权和，得出图更新后的结构信息，并将两个分支更新后的结果交叉输入到不同分支，然后参与网络的迭代更新。