CN116894979A

CN116894979A - 基于有监督自适应软聚类分层池化算子的图分类方法

Info

Publication number: CN116894979A
Application number: CN202310959601.4A
Authority: CN
Inventors: 周瑜; 李青阳; 李昭琪; 郝戍峰; 郑海霞
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-10-17

Abstract

本发明涉及图分类技术领域，尤其涉及基于有监督自适应软聚类分层池化算子的图分类方法，该方法首先使用两个GAT模型，一个用来生成节点中间状态矩阵，另一个使用Softmax函数对行进行归一化生成聚类分布矩阵；获得自适应软聚类分配矩阵，自适应软聚类分配矩阵中每列的非零元素表示属于该类的节点类别，将每个节点类别作为超级节点，提取各节点类别中的子图，得到粗化图；通过对图进行多次粗化操作，把上一层节点的特征矩阵当做下一层池化的输入，最终捕获图的层次结构信息；最后利用神经网络实现图分类。该方法自适应地捕获图的聚类结构，进一步捕获图的多粒度层次特征，对于图分类问题的性能至关重要，可以减少计算量和内存使用。

Description

基于有监督自适应软聚类分层池化算子的图分类方法

技术领域

本发明涉及图分类技术领域，尤其涉及基于有监督自适应软聚类分层池化算子的图分类方法。

背景技术

图分类是图领域中一个极具挑战的任务,当前图分类任务上仍然存在许多问题和难点,主要包括以下几个方面。

一、图数据的复杂多样性生活中有大量的数据都可以用图这种数据结构进行表示。例如社交网络,化学分子结构,生物蛋白质结构等。每种类型的图中都包含不同的特征信息和结构信息。这种多样的信息提高了图数据的分类难度。此外,图数据是非欧空间数据,一般来说,每个图的节点数不同,图中节点连接方式不同,每个节点的邻居个数也不同。卷积、池化等在欧式数据中比较容易定义的操作,很难直接迁移到图数据上。图数据的复杂性和多样性,为图数据的分类带来非常大的挑战。

二、图结构信息的有效建模作为非欧数据,图的结构信息非常丰富。图数据的结构信息是指图上节点之间的连接关系,包括节点的一阶连接信息,二阶信息以及高阶信息等。图上机器学习的最基础挑战之一就是找到一种可以表示、编码图结构的方法,从而使得图结构信息可以被机器学习方法有效利用。图的结构信息对于图分类任务也至关重要。例如,在生物信息学等领域的数据集中,图的属性标签与图上的某些结构模式有着必然的联系。然而Errica等人在实验中发现,目前基于图神经网络的图分类方法在大部分数据集上并没能有效地利用到图的结构信息，其对于图分类的预测性能甚至不如没有建模图结构信息的方法。因此,如何有效建模并合理利用图结构信息是图分类任务面临的一大重要挑战。

三、应用于图像分类任务的传统卷积神经网络，主要包括卷积和池化两个操作，这两个操作依赖于图像数据的结构规则性和平移不变性。类比于图像分类任务，图卷积神经网络应用于图分类问题时，同样需要关注卷积和池化算子。但不同于图像数据，图数据是非欧空间数据，同一个数据集中的每个图大小不同，结构不一。给定一组图，基于图神经网络的图分类方法通常先通过卷积的方式对这些图进行多次特征变换，然后在此基础上进行池化操作，将图的规模缩小。这个过程可以重复多次，最终得到整个图的表示，从而进行分类。对于图分类问题，池化算子必须捕获图中丰富的局部和全局结构信息，且可以根据任务需求捕获图的层次表示。

有监督图分类模型首先需要获得图的全局特征向量，然后利用向量分类函数实现图分类。图邻接矩阵是对图结构的一种表示方法，是一个N*N的矩阵，N表示图中的节点个数；图特征矩阵表示图中每个节点的表示向量，且每个节点都有其对应的节点标签。图神经网络通过在图上的消息传播机制，可以获得节点或者边的表示向量，但图卷积算子要么需要大量的矩阵运算，要么需要预先知道图的结构。这就会导致图卷积网络计算代价较大，且只能进行直推式学习。图的全局表示向量通常利用池化算子，将节点或者边的表示向量聚合为图的全局表示向量。这种方法本质上是扁平的。也就是说，它们只能通过一些简单的满足置换不变性的算子，将图节点表示向量聚合为图全局表示向量。还有一些分层池化算子依赖于单独的聚类操作，无法实现自适应聚类。因此，自适应地捕获图的聚类结构，从而进一步捕获图的多粒度层次特征，对于图分类问题的性能至关重要。

发明内容

为克服现有图分类技术中，获得图的全局特征向量时，已有的分层池化算子依赖于对图进行单独聚类操作，无法实现自适应聚类的技术缺陷，本发明提供了一种基于有监督自适应软聚类分层池化算子的图分类方法。

本发明公开了基于有监督自适应软聚类分层池化算子的图分类方法，步骤为：

步骤一、利用图注意力网络GAT计算图中每个节点的表示向量；这里需要使用两个GAT模型，第一个GAT模型是用来生成节点中间状态矩阵，节点中间状态矩阵即为节点中间特征矩阵，第二个GAT模型使用Softmax函数对行进行归一化生成聚类分布矩阵，其中两个GAT模型均需要计算图中相邻节点对(v_i,v_j)之间的权重α_i,j，其中，权重α_i,j表示为：

节点v_i新的状态向量h_i′表示为：

h′_i＝ρ(∑_j∈N(i)α_i,jWh_j)，如果使用多头注意力机制进行状态更新，更新机制为：

或/>

步骤二、利用Top-Rank函数依次选择聚类分布矩形中每行最大的k个值，从而得到自适应软聚类分配矩阵，自适应软聚类分配矩阵中每列的非零元素表示属于该类的节点类别，将每个节点类别作为超级节点，提取各节点类别中的子图，从而可以得到粗化图；粗化图的邻接矩阵A_coar需要考虑原图和聚类类别k之间的变换矩阵Γ^(k)，以及原图与粗化图之间的变换矩阵S，其中：

Γ^(k)[i,j]＝1 iff Γ^(k)[j]＝v_i，

S[i,j]＝1 iff v_i∈Γ^(j)；

粗化图中节点初始特征矩阵通过对每个聚类类别k对应子图的傅里叶基进行向上采样获得；通过对图进行多次粗化操作，把上一层节点的特征矩阵当做下一层池化的输入，最终捕获图的层次结构信息；

步骤三、最后选择Cross Entropy作为分类目标函数，利用神经网络实现图分类。

利用图注意力网络GAT是为了保证该方法的归纳学习能力，本发明拟提出基于自适应软聚类的图数据多粒度层次特征提取方法，自适应地捕获图的聚类结构，从而进一步捕获图的多粒度层次特征，对于图分类问题的性能至关重要。该方法将聚类操作融入到模型中，根据任务需求进行软聚类。为了应对大规模图数据的计算挑战，可以利用随机梯度下降法进行优化。

本发明提供的技术方案与现有技术相比具有如下优点：基于分层池化算子的有监督图分类方法可以有效地从大规模图形中提取有用的信息，因此在具有大量节点的数据集上更为有效；分层池化算子可以将图形分解为多个子图，每个子图都包含一组节点；然后，每个子图都被池化成一个单独的节点，这些节点再被组合成一个新的图形；这种方法可以减少计算量和内存使用。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述基于有监督自适应软聚类分层池化算子的图分类方法的流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面将对本发明的方案进行进一步描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但本发明还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本发明的一部分实施例，而不是全部的实施例。

下面结合附图对本发明的具体实施例进行详细说明。

在一个实施例中，如图1所示，基于有监督自适应软聚类分层池化算子的图分类方法，步骤为：

节点v_i新的状态向量h_i′表示为：

h′_i＝ρ(∑_j∈N(i)α_i,jWh_j)，如果使用多头注意力机制进行状态更新，更新机制为：或/>

Γ^(k)[i,j]＝1 iff Γ^(k)[j]＝v_i，

S[i,j]＝1 iff v_i∈Γ^(j)；

粗化图中节点初始特征矩阵通过对每个聚类类别k对应子图的傅里叶基进行向上采样获得；通过多次对图进行粗化操作，把上一层节点的特征矩阵当做下一层池化的输入，最终捕获图的层次结构信息；

利用图注意力网络GAT是为了保证该方法的归纳学习能力，本发明拟提出基于自适应软聚类的图数据多粒度层次特征提取方法，该方法将聚类操作融入到模型中，根据任务需求进行软聚类。为了应对大规模图数据的计算挑战，可以利用随机梯度下降法进行优化。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。尽管参照前述各实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离各实施例技术方案的范围，其均应涵盖权利要求书的保护范围中。

Claims

1.基于有监督自适应软聚类分层池化算子的图分类方法，其特征在于，步骤为：

节点v_i新的状态向量h_i′表示为：

h′_i＝ρ(∑_j∈N(i)α_i，jWh_j)，

如果使用多头注意力机制进行状态更新，更新机制为：

Γ^(k)[i,j]＝1iff Γ^(k)[j]＝v_i，

S[i，j]＝1iff v_i∈Γ^(j)；