CN112884045B

CN112884045B - 基于多视角的随机删边嵌入模型的分类方法

Info

Publication number: CN112884045B
Application number: CN202110208919.XA
Authority: CN
Inventors: 杨亮; 栗位勋; 顾军华; 贾永娜; 张亚娟; 牛丙鑫
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2022-12-20
Anticipated expiration: 2041-02-25
Also published as: CN112884045A

Abstract

本发明为基于多视角的随机删边嵌入模型的分类方法，该分类方法从两个视角分别是一阶邻居的编码和图扩散分布的各自的特殊通道和他们两个共享权重通道对其进行随机删边操作求和分别做KL散度，两个独特通道和共享权重通道再结合图注意力自适应权重嵌入可以实现最佳性能。基于随机删除边的思想对邻接矩阵和图扩散进行了节点增强，防止过拟合和过平滑增强模型的深度和嵌入能力，提高分类效果及分类速度。

Description

基于多视角的随机删边嵌入模型的分类方法

技术领域

本发明属于同构图半监督分类技术领域，具体是一种基于多视角的随机删边嵌入模型的分类方法。

背景技术

随着机器学习和深度学习成为计算机科研领域非常热门的技术，CNN等一大批经典模型的出现更加推动了在CV领域的发展壮大。但是这些模型都是处理有规则的方方正正的数据，现实社会中更多的存在于非结构化数据，比如社交网络、引用网络、电话通讯网络等等。在处理这些数据情况下CNN就要逊色很多。近些年专家学着的研究提出了图神经网络(GNN)，目的就是为了解决CNN处理不了的数据，比如最近非常火的GCN、GAN等模型在处理非结构化数据表现非常的出色。图卷积神经网络(GNN)已被广泛用于图形表示的学习中，并在诸如节点分类和链接预测等任务中实现了较优的性能。

GCN、GAT等这些模型都是从一个视角处理问题，并没有考虑多视角来获取更完整的信息，另外过平滑和过拟合都影响了深度神经网络的表达能力。最近相关论文AM-GCN通过实验证明了从两个视角即初始条件的邻接矩阵和以属性相关生成的邻接矩阵，一阶邻居的编码和生成属性相关矩阵的各自的特殊通道和他们两个共享权重通道分别进行了GCN得到最后的嵌入，在节点分类任务上取得了不错的效果，由于使用了希尔伯特-施密特独立性准则(Hilbert-Schmidt Independence Criterion(HSIC))一个简单而有效的独立措施，增强这两种嵌入的差距，通过实验表明使用HSIC并没有任何提高分类的效果，反而导致了模型的反向传播复杂度大，运行慢等问题。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种基于多视角的随机删边嵌入模型的分类方法。该分类方法，运行速度较快，且分类准确性在大多数据集中均表现出更高的精度，综合性能更优。

本发明解决所述技术问题采用的技术方案是：

一种基于多视角的随机删边嵌入模型的分类方法，包括以下步骤：

步骤1、对已知的初始邻接矩阵A做图扩散(diffusion)操作得到图扩散矩阵S，将邻接矩阵A和图扩散矩阵S分别做随机剔除边操作得到A_drop和S_drop。这是数据预处理也是为后面操作提供的基本条件。

步骤2、邻接矩阵A和图扩散矩阵S分别经过两个独立通道的多层GCN卷积层得到嵌入矩阵Z_E1、Z_E2，随机剔除边A_drop和随机剔除边S_drop分别经过共享通道的多层GCN卷积层获得嵌入矩阵Z_CE1、Z_CE2，嵌入矩阵Z_CE1与嵌入矩阵Z_CE2求和获得嵌入矩阵Z_CM；不同种类通道GCN卷积层权重w不一样，共享通道的权重相同。

步骤3、对嵌入矩阵Z_E1、Z_E2、Z_CM使用注意力机制确定各嵌入矩阵的重要性，根据公式(10)得到最终嵌入矩阵Z；

Z＝α_E1·Z_E1+α_CM·Z_CM+α_E2·Z_E2 (10)

其中，(α_E1,α_CM,α_E2)分别为对应嵌入矩阵的重要性；

步骤4、将步骤3获得的最终嵌入矩阵Z输入到具有线性变换和softmax函数的半监督多类分类器中，获得对应最终嵌入矩阵Z的预测标签，将预测标签和对应的真实标签Y做交叉熵，获得交叉熵损失函数L_t，

步骤5、分别让Z_E1和Z_CM求KL得到KL散度的损失函数L_e1，让Z_E2和Z_CM求KL得到KL散度的损失函数L_e2，三个损失函数求和得到最终的损失函数Loss；

Loss＝L_t+βL_e1+βL_e2 (13)

其中，γ和β是一致性和视差约束项的参数，在标记数据的指导下，通过反向传播优化建议的模型，并学习节点的嵌入以进行分类；

完成嵌入模型的构建。

在使用特定分类任务下的数据集经过本申请的嵌入模型构建过程，获得适用于解决该特定分类任务的高准确性嵌入模型，将该特定分类任务下的待分类数据输入到该嵌入模型中，即可完成待分类数据的分类。

所述特定分类任务为节点分类和链接预测等任务。

与现有技术相比，本发明的有益效果是：

1、与GCN等模型比较增加了视角和通道，一个局部视角邻接矩阵A，一个全局视角扩散矩阵S，邻接矩阵A和图扩散矩阵S分别经过两个特定的通道另外他们各自随机删除节点后得到的邻接矩阵A_drop和S_drop等四个通道使得模型学习到的嵌入更有利于节点分类等下游任务。

2、应用了图扩散矩阵，通过将邻接矩阵转换为图扩散矩阵，并将这两个矩阵视为同一图结构的两个全等视图，邻接矩阵和扩散矩阵分别提供了图结构的局部和全局视图，从这两个视图学习到的嵌入矩阵表示二者之间的最大一致性，使得嵌入模型能够同时编码丰富的局部和全局信息。

3、邻接矩阵A和图扩散矩阵S分别经过两个特定的通道通过多层GCN模型得到的嵌入矩阵Z_E1、Z_E2和随机删除节点后得到的邻接矩阵A_drop、S_drop通过共享通道GCN模型得到的嵌入矩阵Z_CE1、Z_CE2，二者相加得到Z_CM，特定的独立通道的嵌入矩阵和共享通道的加和两者做KL散度，在整个模型中充当损失函数的正则化，得到更加鲁棒性的模型有效的增强了节点分类等任务。

4、通过实验本发明方法的分类结果都有不同程度的提高。本发明基于随机删除边即drop_edge的思想对邻接矩阵和图扩散进行了节点增强。采用随机删除边能对邻接矩阵和图扩散进行随机采样，防止过拟合和过平滑增强模型的深度和嵌入能力。

附图说明

图1是本发明基于多视角的随机删边嵌入模型的分类方法的流程示意图。

具体实施方式

下面结合实施例及附图进一步解释本发明，但并不以此作为对本申请保护范围的限定。

本发明提供一种基于多视角的随机删边嵌入模型的分类方法，该方法包括下述步骤：

步骤1：初始邻接矩阵A和对A做图扩散操作后得到图扩散矩阵S，分别对以上两个矩阵做随机剔除边后对应得到A_drop和S_drop；

其中邻接矩阵A是初始条件。将邻接矩阵转换为图扩散矩阵并将这两个矩阵视为同一图形结构的两个全等视图，由于邻接矩阵和扩散矩阵分别提供了图结构的局部视图和全局视图，因此从这两个视图(局部视图和全局视图)中学习到的表示形式之间的最大化一致性可使GCN模型同时编码丰富的局部和全局信息。使用快速逼近和稀疏化方法一次计算扩散矩阵，扩散公式为公式(1)，

其中，T∈R^n×n是广义转换矩阵，R是矩阵空间维度表示，n是节点的个数，而θ是确定全局局部信息比率的加权系数，即为概率，同分布前提条件就是所有概率和加起来等于1，因此设

θ_m∈[0,1]，和λ_i∈[0,1]其中λ_i是T的特征值，可确保收敛，m表示迭代次数，S属于R^n*n，

给定邻接矩阵A∈R^n×n和对角度矩阵D∈R^n×n，个性化PageRank(PPR)和热核(heat)，即广义的两个实例通过设置T＝AD^-1和θ_m＝α(1-α)^m和θ_m＝e^-tt^m/m！来定义图扩散，其中α表示随机游走的传送概率，t是扩散次数。热核(heat)和PPR不同个性化形式下的图扩散矩阵可以分别按照方程式(2)和(3)求解闭式解。

S^heat＝exp(tAD^-1-t) (2)

S^PPR＝α(I_n-(1-α)D^-1/2AD^-1/2)^-1 (3),

I_n指的是维度是n*n的对角线全为1的矩阵，S、S^heat、S^PPR都指的是图扩散矩阵，只不过针对不同的问题需要对应的公式，下面统称是S，加粗的是矩阵，不加粗的只是标量也就是说一个具体数。

对于子采样，从一个视图也就是邻接矩阵A中随机采样边缘或者叫剔除边缘得到A_drop，并从图扩散矩阵S中随机采样边缘或者叫剔除边缘得到S_drop。通过此过程，该随机采样边缘方法可以应用于带有不适合GPU内存的图形的归纳任务，也可以通过将子样本(子采样得到的样本叫子样本，随机采样边缘)视为独立的图形应用于归纳任务。

步骤2：邻接矩阵A和图扩散矩阵S分别经过两个特定的通道(每个通道学习自己独有的权重矩阵)和共享通道(两个通道共享一个权重矩阵)得到嵌入Z_E1、Z_E2、Z_CE1、Z_CE2，Z_E1、Z_E2为两个独立通道的嵌入矩阵，Z_CE1、Z_CE2表示邻接矩阵A和图扩散矩阵S分别经共享通道得到的嵌入矩阵，Z_CM为两个共享权重的通道得到最后嵌入矩阵之和，每个通道都是由多层GCN构成；

GCN是一个神经网络层，它的层与层之间的传播方式是：

这个公式中：

·

I是单位矩阵，B只是一个变量，可换成邻接矩阵A，也可以换成图扩散矩阵S。

·

是

的度矩阵(degree matrix)，公式为

i表示行，j表示列；

·H是每一层的特征，对于输入层的话，H的初始值是X，X表示特征矩阵也叫属性矩阵，l表示层，

·σ是非线性激活函数

步骤3：对嵌入矩阵Z_E1、Z_E2、Z_CM使用注意力机制att(Z_E1,Z_CM,Z_E2)来了解它们的相应重要性(α_E1,α_CM,α_E2)如下：

(α_E1,α_CM,α_E2)＝att(Z_E1,Z_CM,Z_E2) (7)

这里集中在节点i上，它在Z_E1中的嵌入是

(即Z_E1的第i行)。首先通过非线性变换对嵌入进行变换，然后使用一个共享的关注向量q∈R^h′×1来获得关注值

如下:

W∈R^h′×h是权重矩阵(h表示输入的权重维度、h’表示输出权重维度)，b∈R^h′×1是偏差向量，h’、h为嵌入过程中间矩阵的维度。类似地，可以分别在嵌入矩阵Z_CM和Z_E2中获得节点i的关注值

和

(i表示第几个节点，下标E1、CM、E2表示通道)。然后，使用softmax函数将关注值

归一化，以得到节点i的归一化后的关注值：

越大表示对应的嵌入就越重要。类似地，

和

对于所有n个节点，三个通道的n个节点的归一化后的关注值的集合

其中e1对应E1独立通道，e2对应E2独立通道，cm对应共享通道，把n个节点的归一化后的关注值的集合转化为对角矩阵，获得各通道嵌入矩阵的重要性分别表示α_E1＝diag(α_e1)，α_CM＝diag(α_cm)和α_E2＝diag(α_e2)。然后，将这三个嵌入矩阵按照公式(10)组合起来，以获得最终的嵌入矩阵Z：

Z＝α_E1·Z_E1+α_CM·Z_CM+α_E2·Z_E2 (10)

输出嵌入矩阵Z用于具有线性变换和softmax函数的半监督多类分类。将n个节点的类预测表示为

(C表示标签或类的总个数)其中

是节点i属于类c的概率。然后可以通过以下方式计算

此时，W为线性分类的权重，b为线性分类的偏置值，

(x为变量，C表示标签或类的总数)实际上是所有类的规范化器。假设训练集为K(指训练时用到所有节点的个数)，对于每个k∈K，真实标签为Y_k，预测标签为

由公式(11)获得。然后，将所有训练节点上的节点分类的交叉熵(Cross-entropy)损失函数表示为L_t：

c表示具体某个标签或者类，Y_kc表示第k个节点属于标签c的值是0或者1，

步骤5、由步骤2得到的Z_E1、Z_E2、Z_CM＝Z_CE1+Z_CE2，其中Z_E1和Z_CM、Z_E2和Z_CM分别做KL散度目的为了缩小它们之间差异在损失函数中充当正则项促使得到更好的嵌入：

其中L表示总层数，l表示具体层，L_e为KL散度的损失函数。

结合节点分类任务和约束，将两个KL散度的损失函数和交叉熵损失函数按照公式(13)求和，获得最终的损失函数Loss；

Loss＝L_t+γL_e1+βL_e2 (13)

其中γ和β是一致性和视差约束项的参数，至此完成嵌入模型的构建。在标记数据的指导下，可以通过反向传播优化建议的模型，并学习节点的嵌入以进行分类。

实施例1

本实施例提供一种基于多视角的随机删边嵌入模型的分类方法(简称方法，参见图1)，包括以下步骤：

步骤1、通过邻接矩阵A得到图扩散矩阵S、随机剔除边操作得到A_drop和S_drop。

使用快速逼近和稀疏化方法一次计算扩散矩阵，扩散公式为公式(1)

其中T∈S^n×n是广义转换矩阵，而θ是确定全局局部信息比率的加权系数。设

θ_m∈[0,1]，和λ_i∈[0,1]其中λ_i是T的特征值，可确保收敛。

给定邻接矩阵A∈R^n×n和对角度矩阵D∈R^n×n，个性化PageRank(PPR)和热核，即广义的两个实例通过设置T＝AD^-1和θ_m＝α(1-α)^m和θ_m＝e^-tt^m/m！来定义图扩散，其中α表示随机游走的传送概率，t是扩散时间。方程式(2)和(3)中公式化了热核和PPR扩散的闭式解。

s^heat＝exp(tAD^-1-t) (2)

S^PPR＝α(I_n-(1-α)D^-1/2AD^-1/2)^-1 (3)

对于子采样，从一个视图也就是邻接矩阵A中随机采样边缘或者叫剔除边缘得到A_drop，并从另一视图图扩展S中随机采样边缘或者叫剔除边缘得到S_drop。通过此过程，可以应用于带有不适合GPU内存的图形的归纳任务，也可以通过将子样本视为独立的图形应用于归纳任务。

在每个训练时期，随机删除节点(DropEdge)技术都会随机丢弃输入图的一定比例的边缘。形式上，它随机地将邻接矩阵A的V_p个非零元素强制为零，其中V是边的总数，p是下降率。如果将结果邻接矩阵表示为A_drop，则其与A的关系变为：

A_drop＝A-A′ (14)

A′是一个稀疏矩阵，从原始边缘E扩展了一个大小为V_p的随机子集。还对A_drop执行了重新归一化技巧，以进行传播和训练。进行验证和测试时，不使用DropEdge。同理可以得到S_drop。

步骤2、邻接矩阵A和以上得到的S、A_drop、S_drop，经过不同通道的多层GCN卷积层得到相应通道的嵌入矩阵。

A_drop和S_drop对应矩阵替换，得到共享通道的对应的两个输出，两个输出求和后即可得到Z_CM。

步骤3、将A_drop和S_drop经共享通道的输出求和得到嵌入矩阵Z_CM，将A和S经独立通道的输出分别与嵌入矩阵Z_CM求KL散度。

由步骤2得到的Z_E1、Z_E2、Z_CM＝Z_CE1+Z_CE2,其中Z_E1和Z_CM、Z_E2和Z_CM分别做KL散度目的为了缩小他们直接差异在损失函数中充当正则项促使得到更好的嵌入：

步骤4、对嵌入矩阵Z_E1、Z_E2、Z_CM使用注意力机制att(Z_E1,Z_CM,Z_E2)来了解它们的相应重要性(α_E1,α_CM,α_E2)如下：

(α_E1,α_CM,α_E2)＝att(Z_E1,Z_CM,Z_E2) (7)

这里集中在节点i上，它在Z_E1中的嵌入是

如下:

W∈R^h′×h是权重矩阵(h、h’表示权重维度)，b∈R^h′×1是偏差向量。类似地，可以分别在嵌入矩阵Z_CM和Z_E2中获得节点i的关注值

和

归一化，以得到节点i的归一化后的关注值：

越大表示对应的嵌入就越重要。类似地，

和

对于所有n个节点，三个通道的n个节点的归一化后的关注值的集合分别为：

把n个节点的归一化后的关注值的集合转化为对角矩阵，获得各通道嵌入矩阵的重要性：α_E1＝diag(α_e1)，α_CM＝diag(α_cm)和α_E2＝diag(α_e2)。然后，将这三个嵌入矩阵按照公式(10)组合起来，以获得最终的嵌入矩阵Z：

Z＝α_E1·Z_e1+α_CM·Z_CM+α_E2·Z_e2 (10)

步骤5、将步骤4获得的最终嵌入矩阵Z输入到具有线性变换和softmax函数的半监督多类分类器中，获得对应最终嵌入矩阵Z的预测标签，将预测标签和对应的真实标签Y做交叉熵，获得交叉熵损失函数L_t，

使用输出嵌入矩阵Z公式(10)用于具有线性变换和softmax函数的半监督多类分类。将n个节点的类预测表示为

其中

是节点i属于类c的概率。然后可以通过以下方式计算

假设训练集为K，对于每个k∈K，k为训练集中的节点，真实标签为Y_k，预测标签为

然后，将所有训练节点上的节点分类的交叉熵损失函数表示为L_t：

结合节点分类任务和约束，以公式(13)为总体目标函数：

Loss＝L_t+βL_e1+βL_e2 (13)

其中γ和β是一致性和视差约束项的参数，

至此完成嵌入模型的构建。

实验

为验证本方法的效果，在六个真实世界的数据集上进行了评估，这些数据集总结在表1中，为了重现性，在补充中提供了所有的数据网站。

·Citeseer:Citeseer是一个研究论文引文网络，节点是出版物，边缘是引文链接。节点属性是论文的词袋表示，所有节点分为六类。

·UAI2010:使用在图卷积网络中测试过的3067个节点和28311条边的数据集

·ACM:该网络是从ACM数据集中提取的，其中节点代表论文，如果有相同的作者，两篇论文之间有一条边。论文分为数据库、无线通信、数据挖掘3类。这些特征是论文中关键词的单词袋表示。

·BlogCatalog：这是一个社交网络，其中包含BlogCatalog网站上的博客作者及其社交关系。节点属性由用户简要表的关键字构成，标签表示作者提供的主题类别，所有节点分为6类。

·Flickr:Flickr是一个图片和视频托管网站，在这里用户可以通过照片分享相互交流。它是一个社交网络，节点代表用户，边代表用户之间的关系，所有节点根据用户的兴趣分组被分为9类。

·coraffull:这是著名的引文网络Cora数据集的更大版本，其中节点表示论文，边表示其被引用，节点根据论文主题标记。

参数设置：为了更全面地评估的嵌入模型，为每个数据集中的训练集选择三个标记率(即每个类别20、40、60个标记节点，训练集中标签的数量)并选择在数据集中选择1000个节点作为测试集。所有基准线均使用其论文中建议的相同参数进行初始化，还将进一步仔细转换参数以获得最佳性能。对于本申请嵌入模型，训练了三个具有相同隐藏层尺寸(nhid1)和相同输出尺寸(nhid2)的2层GCN，其中nhid1∈{512,768}和nhid2∈{32,128,256}，nhid1和nhid2取不同的值取决于不同的数据集，比如citeseer20的nhid1＝768，nhid2＝256；citeseer40的nhid1＝768，nhid2＝128；citeseer60的nhid1＝768，nhid2＝128；coraml20的nhid1＝512，nhid2＝256；coraml40的nhid1＝512，nhid2＝32；coraml60的nhid1＝512，nhid2＝32；BlogCatalog20的nhid1＝512，nhid2＝128；BlogCatalog20的nhid1＝512，nhid2＝128；BlogCatalog20的nhid1＝512，nhid2＝128；

uai20的nhid1＝512，nhid2＝128；uai40的nhid1＝512，nhid2＝128；uai60的nhid1＝512，nhid2＝128；flickr20的nhid1＝512，nhid2＝128；

Acm的所有标记率下，第一层隐藏层尺度为768、第二层隐藏层尺度为256。在Adam优化器中使用了

的学习率，不同的数据集取不同的学习率值，citeseer的学习率5e-4，coraml的学习率e-3；BlogCatalog的学习率5e-4；uai的学习率5e-4；flickr的学习率5e-4。此外，辍学率为0.5，GCN卷积层的权重衰减decay∈{5e-3,5e-4}，不同的数据集取不同的decay值，在给定的两个参数内选择，为了更新权重衰减速率，三个通道GCN中卷积层在训练结束后的权重不同，损失函数正则项γ、β分别取值0.8和0.9。对于所有方法，在相同的分区上运行5次，并报告平均结果。使用节点分类的准确性(ACC)和宏F1分数(F1)评估模型的性能，评估结果见下表。黑色加粗部分可以看出新模型在节点分类准确率和召回率对比AM-GCN模型都有不同程度的提高，说明了本申请的分来方法在处理图节点分类问题上更有效果。且本申请的运行速率相对于AM-GCN模型速度更快。

本发明针对AM-GCN模型进行了进一步优化，以图扩散矩阵代替属性相关生成的矩阵，从全局视图和局部视图两方面能够得到更好的实验结果，对其共享权重的两个通道分别进行随机删边操作，同时引入KL散度，能够得到准确性高且计算速度快的更好的实验结果，最后两个独特通道和共享权重通道再结合图注意力自适应权重嵌入可以实现最佳性能，适用于引文网络、图网络等的精确快速分类，

本发明未述及之处适用于现有技术。