CN112862064A

CN112862064A - 一种基于自适应图学习的图嵌入方法

Info

Publication number: CN112862064A
Application number: CN202110010713.6A
Authority: CN
Inventors: 张睿; 李学龙; 张运星
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-05-28

Abstract

本发明公开了一种基于自适应图学习的图嵌入方法，包括构建图自编码器框架、拉普拉斯嵌入、邻接矩阵的自适应学习和迭代更新求解四个步骤。图自编码器框架编码层部分采用两层图卷积神经网络，解码层部分为邻接矩阵的重构损失；拉普拉斯嵌入部分将拉普拉斯矩阵嵌入到潜在空间从而使样本点可以更准确地映射到投影子空间；邻接矩阵的自适应学习分三步：一是不再采用固定的节点邻居数量，而是服从正态分布，成为可以通过自适应学习获取的变量；二是设置迭代停止的阈值，当迭代次数大于阈值时，停止更新；三是邻接矩阵部分更新的方式；最终在迭代更新求解部分给出了模型的求解方法。本发明方法鲁棒性强、应用范围广，大大扩展了图自编码器的应用范围。

Description

一种基于自适应图学习的图嵌入方法

技术领域

本发明属于数据挖掘技术领域，具体涉及一种图嵌入方法。

背景技术

图结构在各种现实世界的应用中都是自然存在的，如社交网络、词同现网络和通信网络。图神经网络的研究与图嵌入或网络嵌入密切相关。图嵌入目的是将网络节点表示为低维向量，同时保留网络的拓扑结构和节点内容信息。图神经网络的目的是以端到端的方式解决与图相关的任务，其提取高级表示。图神经网络和图嵌入的关系可以理解为：图神经网络可以针对多种任务而设计，其中可以采用图自编码器框架来解决图嵌入问题，而图嵌入包含了各种各样其他的方法。然而图自编码器的表现性能对图结构(即邻接矩阵)非常敏感，邻接矩阵的质量对图自编码器的效果有非常大的影响。图自编码器框架对图结构的鲁棒性不足，在图结构受到干扰或者缺失的情况下，图自编码器的效果会很差甚至不能工作。

针对这一问题，目前的一些学者提出了他们的解决方法。比如：Jin Wei等人在文献"W.Jin,Y.Ma,X.Liu,X.Tang,S.Wang,and J.Tang:Graph Structure Learning forRobust Graph Neural Networks.arXiv preprint arXiv:2005.10203,2020"中提出的Pro-GNN，和 Yu Chen在文献"Y.Chen,L.Wu,and M.J.Zaki:Deep iterative and adaptivelearning for graph neural networks.arXiv preprint arXiv:1912.07832,2019"中提出的DIAN-GNN方法。

但是这两种方法都具有其局限性。第一：这些方法依旧使用k近邻(kNN)初始化邻接矩阵，存在固定k值的缺点；第二：这两种方法都是针对的有监督的图神经网络框架而非无监督的图自编码器框架。

发明内容

为了克服现有技术的不足，本发明提供了一种基于自适应图学习的图嵌入方法，包括构建图自编码器框架、拉普拉斯嵌入、邻接矩阵的自适应学习和迭代更新求解四个步骤。图自编码器框架编码层部分采用两层图卷积神经网络，解码层部分为邻接矩阵的重构损失；拉普拉斯嵌入部分将拉普拉斯矩阵嵌入到潜在空间从而使样本点可以更准确地映射到投影子空间；邻接矩阵的自适应学习分三步：一是不再采用固定的节点邻居数量，而是服从正态分布，成为可以通过自适应学习获取的变量；二是设置迭代停止的阈值，当迭代次数大于阈值时，停止更新；三是邻接矩阵部分更新的方式；最终在迭代更新求解部分给出了模型的求解方法。本发明方法鲁棒性强、应用范围广，大大扩展了图自编码器的应用范围。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：构建图自编码器框架；

步骤1-1：当原始数据中包含邻接矩阵时将数据特征矩阵X和邻接矩阵A作为图自编码器的输入；当原始数据中不存在邻接矩阵时，通过自适应学习机制利用原始特征信息初始化邻接矩阵A，然后再将数据特征矩阵X和邻接矩阵A输入到图自编码器中；

步骤1-2：图编码过程；

采用两层卷积神经网络作为图编码器进行卷积处理；

第一层卷积神经网络采用Relu函数作为激活函数，第二层卷积神经网络采用线性激活函数；卷积神经网络统一表示为：

其中，l为卷积神经网络层数，

为正则化后的邻接矩阵

I为单位矩阵，W^(l)为卷积神经网络权重，

为正则化邻接矩阵

的度矩阵，且

满足

为度矩阵

的对角元素，

为矩阵

的第i行第j列元素；

Z^(l)为生成的潜在表示，第一层生成的潜在表示Z⁽¹⁾和第二层生成的潜在表示Z⁽²⁾分别为：

Z⁽¹⁾＝f_Relu(X，A|W⁽⁰⁾) (2)

Z⁽²⁾＝f_linear(Z⁽¹⁾，A|W⁽¹⁾) (3)

其中f_Relu代表使用Relu激活函数，f_linear代表线性层，W⁽⁰⁾和W⁽¹⁾分别为卷积神经网络第一层和第二层的权重；Z⁽⁰⁾＝X，代表初始的的数据特征矩阵；

步骤1-3：图解码过程；

图解码器采用sigmoid作为激活函数，重构后的邻接矩阵表示为：

图解码器部分中的邻接矩阵重构损失表示为：

其中⊙代表Hadamard乘积，B为权重矩阵，其计算方式为：B＝A*β+1，β为权重参数，

表示图自编码器框架部分的损失函数；

步骤2：拉普拉斯图结构；

步骤2-1：定义拉普拉斯图结构表示为：

其中对角矩阵D为数据矩阵A的度矩阵，表示为：d_ii＝∑_ja_ij，d_ii为度矩阵的对角元素， a_ij为矩阵A的元素；

步骤2-2：拉普拉斯嵌入；

将潜在表示嵌入到拉普拉斯图结构中，则拉普拉斯图结构部分的损失函数为：

其中Z＝Z⁽²⁾，tr代表矩阵的迹，γ为自适应学习参数

其中

代表向量的2范数，且h_ij按照从小大顺序排列；

步骤2-3：定义整体损失函数表示为：

其中正则化项

步骤3：邻接矩阵的自适应学习；

步骤3-1：通过利用生成的潜在表示Z⁽²⁾，由式(9)生成新的邻接矩阵A_L：

式(9)是式(7)取最小值求解得到的；计算得到的a_ij即重构后的邻接矩阵A_L的第i行第j 列元素；

步骤3-2：邻接矩阵的节点邻居数量k服从于正态分布，正态分布的均值为邻接矩阵上一轮迭代中节点邻居数量的平均值uk，正态分布的方差为1，即

步骤3-3：邻接矩阵的部分更新表示为：

A＝αA_L+(1-α)A₀ (10)

其中，α代表调和参数，A₀代表初始邻接矩阵；

步骤4：迭代更新求解；

采用梯度下降法进行更新，总损失函数为式(8)，采用Adam更新器迭代；最大迭代次数为T，迭代次数t满足0≤t≤T；当0≤t≤τ时，邻接矩阵自适应更新，当τ＜t时，邻接矩阵不再更新；

最终求解结果得到图结构邻接矩阵A和特征矩阵X的潜在表示Z。

本发明的有益效果如下：

1、本发明方法通过引入自适应学习机制，使得图自编码器框架对邻接矩阵的敏感度降低。当邻接矩阵受到干扰或者缺失时，仍然能取得很好的图嵌入效果。在节点聚类实验上，本方法可以比对比方法高10％左右，系统具有很强的鲁棒性。

2、本发明引入自适应学习机制，扩大了图自编码器的应用范围。自适应学习机制可以在邻接矩阵缺失的情况下为图自编码器框架初始化邻接矩阵，从而大大扩展了图自编码器的应用范围。

3、样本节点的邻居数量可以自适应取得。自适应学习机制不再采用固定k值的方式，从而避免了使用kNN初始化邻接矩阵的弊端。

附图说明

图1为本发明方法流程框图。

图2为本发明方法邻接矩阵的更新图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

针对图自编码器对邻接矩阵鲁棒性不足的问题，本发明提出一种基于自适应图学习的图嵌入方法。

自适应图学习机制使得邻接矩阵在迭代过程中实现自适应学习，从而极大地增强模型的鲁棒性。将学习到的潜在表示嵌入到拉普拉斯图结构中，从而在潜在空间中更好地保留图的拓扑结构。与此同时，采用自适应的参数学习方法，让每个样本的近邻参数k可以自主获得，从而避免出现类似kNN的缺陷。此外，针对无先验图结构的数据，在图结构上施加特殊的图约束，使得样本点可以更准确地映射到投影仪子空间。

本方法将图自编码器的应用范围扩展到无图数据集，且自适应学习机制能够在不受参数k影响的情况下初始化邻接矩阵，大大增强了模型的鲁棒性。同时将学习到的潜在向量(Latent representation)嵌入到拉普拉斯图结构中，从而更好地在潜在空间中保留图的拓扑结构。此外，在无先验图结构的数据集上施加图约束，使得样本点更准确地映射到投影子空间，获得更好的嵌入效果。

如图1所示，一种基于自适应图学习的图嵌入方法，包括以下步骤：

步骤1：构建图自编码器框架；

步骤1-2：图编码过程；

采用两层卷积神经网络作为图编码器进行卷积处理；

其中，，为卷积神经网络层数，

为正则化后的邻接矩阵

I为单位矩阵，W^(l)为卷积神经网络权重，

为正则化邻接矩阵

的度矩阵，且

满足

为度矩阵

的对角元素，

为矩阵

的第i行第j列元素；

Z⁽¹⁾＝f_Relu(X，A|W⁽⁰⁾) (2)

Z⁽²⁾＝f_linear(Z⁽¹⁾，A|W⁽¹⁾) (3)

步骤1-3：图解码过程；

图解码器部分中的邻接矩阵重构损失表示为：

表示图自编码器框架部分的损失函数；

步骤2：拉普拉斯图结构；

步骤2-1：定义拉普拉斯图结构表示为：

步骤2-2：拉普拉斯嵌入；

其中Z＝Z⁽²⁾，tr代表矩阵的迹，/为自适应学习参数

其中

代表向量的2范数，且h_ij按照从小大顺序排列；

步骤2-3：定义整体损失函数表示为：

其中正则化项

步骤3：邻接矩阵的自适应学习；

步骤3-3：如图2所示，邻接矩阵的部分更新表示为：

A＝αA_L+(1-α)A₀ (10)

其中，α代表调和参数，A₀代表初始邻接矩阵；

步骤4：迭代更新求解；

生成的潜在表示可以应用于下游任务，比如：节点分类，节点聚类，链路预测等。

具体实施例：

1.仿真条件

本实施例是在中央处理器为

i7-10700F 2.90GHz CPU、内存16G、WINDOWS10操作系统上，运用Python软件进行的仿真。

实验中使用的Cora数据集来自于Kipf等人在文献″T.N.Kipf，M.Welling.Variational Graph Auto-Encoders.NIPS Workshop on Bayesian Deep Learning，2016.″中提出，包含2708个样本，5429对链接，每个样本包含1433个特征，共分为8个类别。

2.仿真内容

对数据集进行节点聚类实验。为了验证自适应学习的有效性，在Cora数据集上进行缺失处理，缺失比例为{0％，5％，10％，15％，20％，25％，50％}。为了对比本发明的有效性，选取了Salha等人在文献″G.Salha，R.Hennequin，and M.Vazirgiannis.Keep itsimple：Graph autoencoders without graph convolutional networks.arXiv preprintarXiv：1910.00942，2019.″中提到的LineGAE方法，Pan等人在文献″S.Pan，R.Hu，G. Long，J.Jiang，L.Yao，and C.Zhang.Adversarially Regularized Graph Autoencoder forGraphEmbedding.inProc.IEEE Conf.IJCAI，2018.″中提出的ARGA，和Kipf等人在文献″T.N.Kipf，M.Welling.Variational Graph Auto-Encoders.NIPS Workshop on BayesianDeep Learning.2016.″中提出GAE。以及其他一些基本图嵌入方法。评价指标采用聚类实验中常用的计算精确性(ACC)和归一化互信息(NMI)。对比结果如表1所示(最高值由加粗标出)。

表1实验结果对比

从表1可见，本方法在节点聚类实验中的嵌入效果优于其他对比方法。通过以上仿真实验可以验证本发明的有效性。