CN116894979A - 基于有监督自适应软聚类分层池化算子的图分类方法 - Google Patents
基于有监督自适应软聚类分层池化算子的图分类方法 Download PDFInfo
- Publication number
- CN116894979A CN116894979A CN202310959601.4A CN202310959601A CN116894979A CN 116894979 A CN116894979 A CN 116894979A CN 202310959601 A CN202310959601 A CN 202310959601A CN 116894979 A CN116894979 A CN 116894979A
- Authority
- CN
- China
- Prior art keywords
- graph
- node
- matrix
- gat
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011176 pooling Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 8
- 238000005096 rolling process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/7625—Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及图分类技术领域,尤其涉及基于有监督自适应软聚类分层池化算子的图分类方法,该方法首先使用两个GAT模型,一个用来生成节点中间状态矩阵,另一个使用Softmax函数对行进行归一化生成聚类分布矩阵;获得自适应软聚类分配矩阵,自适应软聚类分配矩阵中每列的非零元素表示属于该类的节点类别,将每个节点类别作为超级节点,提取各节点类别中的子图,得到粗化图;通过对图进行多次粗化操作,把上一层节点的特征矩阵当做下一层池化的输入,最终捕获图的层次结构信息;最后利用神经网络实现图分类。该方法自适应地捕获图的聚类结构,进一步捕获图的多粒度层次特征,对于图分类问题的性能至关重要,可以减少计算量和内存使用。
Description
技术领域
本发明涉及图分类技术领域,尤其涉及基于有监督自适应软聚类分层池化算子的图分类方法。
背景技术
图分类是图领域中一个极具挑战的任务,当前图分类任务上仍然存在许多问题和难点,主要包括以下几个方面。
一、图数据的复杂多样性生活中有大量的数据都可以用图这种数据结构进行表示。例如社交网络,化学分子结构,生物蛋白质结构等。每种类型的图中都包含不同的特征信息和结构信息。这种多样的信息提高了图数据的分类难度。此外,图数据是非欧空间数据,一般来说,每个图的节点数不同,图中节点连接方式不同,每个节点的邻居个数也不同。卷积、池化等在欧式数据中比较容易定义的操作,很难直接迁移到图数据上。图数据的复杂性和多样性,为图数据的分类带来非常大的挑战。
二、图结构信息的有效建模作为非欧数据,图的结构信息非常丰富。图数据的结构信息是指图上节点之间的连接关系,包括节点的一阶连接信息,二阶信息以及高阶信息等。图上机器学习的最基础挑战之一就是找到一种可以表示、编码图结构的方法,从而使得图结构信息可以被机器学习方法有效利用。图的结构信息对于图分类任务也至关重要。例如,在生物信息学等领域的数据集中,图的属性标签与图上的某些结构模式有着必然的联系。然而Errica等人在实验中发现,目前基于图神经网络的图分类方法在大部分数据集上并没能有效地利用到图的结构信息,其对于图分类的预测性能甚至不如没有建模图结构信息的方法。因此,如何有效建模并合理利用图结构信息是图分类任务面临的一大重要挑战。
三、应用于图像分类任务的传统卷积神经网络,主要包括卷积和池化两个操作,这两个操作依赖于图像数据的结构规则性和平移不变性。类比于图像分类任务,图卷积神经网络应用于图分类问题时,同样需要关注卷积和池化算子。但不同于图像数据,图数据是非欧空间数据,同一个数据集中的每个图大小不同,结构不一。给定一组图,基于图神经网络的图分类方法通常先通过卷积的方式对这些图进行多次特征变换,然后在此基础上进行池化操作,将图的规模缩小。这个过程可以重复多次,最终得到整个图的表示,从而进行分类。对于图分类问题,池化算子必须捕获图中丰富的局部和全局结构信息,且可以根据任务需求捕获图的层次表示。
有监督图分类模型首先需要获得图的全局特征向量,然后利用向量分类函数实现图分类。图邻接矩阵是对图结构的一种表示方法,是一个N*N的矩阵,N表示图中的节点个数;图特征矩阵表示图中每个节点的表示向量,且每个节点都有其对应的节点标签。图神经网络通过在图上的消息传播机制,可以获得节点或者边的表示向量,但图卷积算子要么需要大量的矩阵运算,要么需要预先知道图的结构。这就会导致图卷积网络计算代价较大,且只能进行直推式学习。图的全局表示向量通常利用池化算子,将节点或者边的表示向量聚合为图的全局表示向量。这种方法本质上是扁平的。也就是说,它们只能通过一些简单的满足置换不变性的算子,将图节点表示向量聚合为图全局表示向量。还有一些分层池化算子依赖于单独的聚类操作,无法实现自适应聚类。因此,自适应地捕获图的聚类结构,从而进一步捕获图的多粒度层次特征,对于图分类问题的性能至关重要。
发明内容
为克服现有图分类技术中,获得图的全局特征向量时,已有的分层池化算子依赖于对图进行单独聚类操作,无法实现自适应聚类的技术缺陷,本发明提供了一种基于有监督自适应软聚类分层池化算子的图分类方法。
本发明公开了基于有监督自适应软聚类分层池化算子的图分类方法,步骤为:
步骤一、利用图注意力网络GAT计算图中每个节点的表示向量;这里需要使用两个GAT模型,第一个GAT模型是用来生成节点中间状态矩阵,节点中间状态矩阵即为节点中间特征矩阵,第二个GAT模型使用Softmax函数对行进行归一化生成聚类分布矩阵,其中两个GAT模型均需要计算图中相邻节点对(vi,vj)之间的权重αi,j,其中,权重αi,j表示为:
节点vi新的状态向量hi′表示为:
h′i=ρ(∑j∈N(i)αi,jWhj),如果使用多头注意力机制进行状态更新,更新机制为:
或/>
步骤二、利用Top-Rank函数依次选择聚类分布矩形中每行最大的k个值,从而得到自适应软聚类分配矩阵,自适应软聚类分配矩阵中每列的非零元素表示属于该类的节点类别,将每个节点类别作为超级节点,提取各节点类别中的子图,从而可以得到粗化图;粗化图的邻接矩阵Acoar需要考虑原图和聚类类别k之间的变换矩阵Γ(k),以及原图与粗化图之间的变换矩阵S,其中:
Γ(k)[i,j]=1 iff Γ(k)[j]=vi,
S[i,j]=1 iff vi∈Γ(j);
粗化图中节点初始特征矩阵通过对每个聚类类别k对应子图的傅里叶基进行向上采样获得;通过对图进行多次粗化操作,把上一层节点的特征矩阵当做下一层池化的输入,最终捕获图的层次结构信息;
步骤三、最后选择Cross Entropy作为分类目标函数,利用神经网络实现图分类。
利用图注意力网络GAT是为了保证该方法的归纳学习能力,本发明拟提出基于自适应软聚类的图数据多粒度层次特征提取方法,自适应地捕获图的聚类结构,从而进一步捕获图的多粒度层次特征,对于图分类问题的性能至关重要。该方法将聚类操作融入到模型中,根据任务需求进行软聚类。为了应对大规模图数据的计算挑战,可以利用随机梯度下降法进行优化。
本发明提供的技术方案与现有技术相比具有如下优点:基于分层池化算子的有监督图分类方法可以有效地从大规模图形中提取有用的信息,因此在具有大量节点的数据集上更为有效;分层池化算子可以将图形分解为多个子图,每个子图都包含一组节点;然后,每个子图都被池化成一个单独的节点,这些节点再被组合成一个新的图形;这种方法可以减少计算量和内存使用。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述基于有监督自适应软聚类分层池化算子的图分类方法的流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面将对本发明的方案进行进一步描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但本发明还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本发明的一部分实施例,而不是全部的实施例。
下面结合附图对本发明的具体实施例进行详细说明。
在一个实施例中,如图1所示,基于有监督自适应软聚类分层池化算子的图分类方法,步骤为:
步骤一、利用图注意力网络GAT计算图中每个节点的表示向量;这里需要使用两个GAT模型,第一个GAT模型是用来生成节点中间状态矩阵,节点中间状态矩阵即为节点中间特征矩阵,第二个GAT模型使用Softmax函数对行进行归一化生成聚类分布矩阵,其中两个GAT模型均需要计算图中相邻节点对(vi,vj)之间的权重αi,j,其中,权重αi,j表示为:
节点vi新的状态向量hi′表示为:
h′i=ρ(∑j∈N(i)αi,jWhj),如果使用多头注意力机制进行状态更新,更新机制为:或/>
步骤二、利用Top-Rank函数依次选择聚类分布矩形中每行最大的k个值,从而得到自适应软聚类分配矩阵,自适应软聚类分配矩阵中每列的非零元素表示属于该类的节点类别,将每个节点类别作为超级节点,提取各节点类别中的子图,从而可以得到粗化图;粗化图的邻接矩阵Acoar需要考虑原图和聚类类别k之间的变换矩阵Γ(k),以及原图与粗化图之间的变换矩阵S,其中:
Γ(k)[i,j]=1 iff Γ(k)[j]=vi,
S[i,j]=1 iff vi∈Γ(j);
粗化图中节点初始特征矩阵通过对每个聚类类别k对应子图的傅里叶基进行向上采样获得;通过多次对图进行粗化操作,把上一层节点的特征矩阵当做下一层池化的输入,最终捕获图的层次结构信息;
步骤三、最后选择Cross Entropy作为分类目标函数,利用神经网络实现图分类。
利用图注意力网络GAT是为了保证该方法的归纳学习能力,本发明拟提出基于自适应软聚类的图数据多粒度层次特征提取方法,该方法将聚类操作融入到模型中,根据任务需求进行软聚类。为了应对大规模图数据的计算挑战,可以利用随机梯度下降法进行优化。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。尽管参照前述各实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离各实施例技术方案的范围,其均应涵盖权利要求书的保护范围中。
Claims (1)
1.基于有监督自适应软聚类分层池化算子的图分类方法,其特征在于,步骤为:
步骤一、利用图注意力网络GAT计算图中每个节点的表示向量;这里需要使用两个GAT模型,第一个GAT模型是用来生成节点中间状态矩阵,节点中间状态矩阵即为节点中间特征矩阵,第二个GAT模型使用Softmax函数对行进行归一化生成聚类分布矩阵,其中两个GAT模型均需要计算图中相邻节点对(vi,vj)之间的权重αi,j,其中,权重αi,j表示为:
节点vi新的状态向量hi′表示为:
h′i=ρ(∑j∈N(i)αi,jWhj),
如果使用多头注意力机制进行状态更新,更新机制为:
步骤二、利用Top-Rank函数依次选择聚类分布矩形中每行最大的k个值,从而得到自适应软聚类分配矩阵,自适应软聚类分配矩阵中每列的非零元素表示属于该类的节点类别,将每个节点类别作为超级节点,提取各节点类别中的子图,从而可以得到粗化图;粗化图的邻接矩阵Acoar需要考虑原图和聚类类别k之间的变换矩阵Γ(k),以及原图与粗化图之间的变换矩阵S,其中:
Γ(k)[i,j]=1iff Γ(k)[j]=vi,
S[i,j]=1iff vi∈Γ(j);
粗化图中节点初始特征矩阵通过对每个聚类类别k对应子图的傅里叶基进行向上采样获得;通过对图进行多次粗化操作,把上一层节点的特征矩阵当做下一层池化的输入,最终捕获图的层次结构信息;
步骤三、最后选择Cross Entropy作为分类目标函数,利用神经网络实现图分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310959601.4A CN116894979A (zh) | 2023-08-01 | 2023-08-01 | 基于有监督自适应软聚类分层池化算子的图分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310959601.4A CN116894979A (zh) | 2023-08-01 | 2023-08-01 | 基于有监督自适应软聚类分层池化算子的图分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116894979A true CN116894979A (zh) | 2023-10-17 |
Family
ID=88314879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310959601.4A Pending CN116894979A (zh) | 2023-08-01 | 2023-08-01 | 基于有监督自适应软聚类分层池化算子的图分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116894979A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117391150A (zh) * | 2023-12-07 | 2024-01-12 | 之江实验室 | 一种基于分层池化图哈希的图数据检索模型训练方法 |
-
2023
- 2023-08-01 CN CN202310959601.4A patent/CN116894979A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117391150A (zh) * | 2023-12-07 | 2024-01-12 | 之江实验室 | 一种基于分层池化图哈希的图数据检索模型训练方法 |
CN117391150B (zh) * | 2023-12-07 | 2024-03-12 | 之江实验室 | 一种基于分层池化图哈希的图数据检索模型训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259905B (zh) | 一种基于下采样的特征融合遥感图像语义分割方法 | |
Lin et al. | Construction of dependent Dirichlet processes based on Poisson processes | |
CN111882040A (zh) | 基于通道数量搜索的卷积神经网络压缩方法 | |
CN116894979A (zh) | 基于有监督自适应软聚类分层池化算子的图分类方法 | |
CN115293919A (zh) | 面向社交网络分布外泛化的图神经网络预测方法及系统 | |
CN113297427A (zh) | 一种基于u型嵌套网络的图分类方法 | |
CN115983341A (zh) | 一种基于关系聚合超图的节点分类方法 | |
CN106022359A (zh) | 基于有序信息熵的模糊熵空间聚类分析方法 | |
CN111626311B (zh) | 一种异构图数据处理方法和装置 | |
CN113314188B (zh) | 图结构增强的小样本学习方法、系统、设备及存储介质 | |
CN114118416A (zh) | 一种基于多任务学习的变分图自动编码器方法 | |
CN113723472A (zh) | 一种基于动态滤波等变卷积网络模型的图像分类方法 | |
Lu et al. | Soft-orthogonal constrained dual-stream encoder with self-supervised clustering network for brain functional connectivity data | |
CN116628524A (zh) | 一种基于自适应图注意力编码器的社区发现方法 | |
CN114124729A (zh) | 一种基于元路径的动态异质网络表示方法 | |
CN109754416A (zh) | 图像处理装置和方法 | |
CN113486879A (zh) | 图像区域建议框检测方法、装置、设备及存储介质 | |
CN106789285B (zh) | 一种在线社会网络多尺度社区发现方法 | |
CN112465066A (zh) | 一种基于clique匹配和分层池化的图分类方法 | |
Yao et al. | Hierarchical structure-feature aware graph neural network for node classification | |
Shi et al. | Density peak clustering using tensor network | |
CN109308492B (zh) | 一种多特征自动分级聚合辅助下的遥感影像样本库快速标记方法 | |
CN114826921B (zh) | 基于抽样子图的网络资源动态分配方法、系统及介质 | |
CN116541273B (zh) | 基于图注意力的二进制代码相似性检测方法及系统 | |
CN112990364B (zh) | 一种图数据节点分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |