CN110633394A

CN110633394A - 基于特征加强的图压缩方法

Info

Publication number: CN110633394A
Application number: CN201910799520.6A
Authority: CN
Inventors: 陈晋音; 李玉玮; 林翔
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2019-12-31
Anticipated expiration: 2039-08-28
Also published as: CN110633394B

Abstract

一种基于特征加强的图压缩方法，应用于社交网络数据集的分类，根据图分类模型端到端的特点，采用分类准确率对输入的图的邻接矩阵求梯度的方法得到该模型拟合函数下所有连边的权重系数，根据其权重系数的绝对值进行连边重要性排序，将其与传统的连边重要性指标计算得到的连边排序进行重合率计算对比，在连边重合率最大的情况下确定关键连边的数量，保留其关键连边，删除剩余的连边和孤立的节点得到压缩后的图，再将其压缩后的图输入相同的图分类模型进行训练和测试，在保证分类准确率减少不多的情况下尽可能减少模型的训练时间和计算空间。

Description

基于特征加强的图压缩方法

技术领域

本发明涉及一种图压缩方法。

背景技术

在过去的几十年中，由于大量结构化数据的收集，对于图结构数据的研究越来越受到重视。在对图的研究中，已经提出了围绕节点和连边的一系列结构属性，包括节点中心性，聚类系数，协同性，成对节点之间的相似性等，这些属性是许多基于图的模型的基础。此外，它们捕获系统的某些本地拓扑信息，因此可用于设计网络算法。通常，节点中心性始终用于衡量系统中的个体重要性，Liben-Nowell和Kleinberg在社交网络中采用了许多节点的相似性度量来预测它们之间在未来是否会存在新交互(参照文献1：David Liben-Nowell,Kleinberg J.The link-prediction problem for social networks[J].Journalof the American Society for Information Science and Technology,2007.；即社交网络中的链路预测问题)。他们发现有关未来交互的信息确实可以从网络拓扑中提取出来。同样地，连边的重要性可以通过其相连的两个节点的个体重要性来表示，例如Salton系数、Jaccard系等都是基于其两个节点的共同邻居，只是采用了不同的规范化方法。

图神经网络(Graph neural networks)是一种基于图域分析的深度学习方法，它靠图中节点之间的信息传递来捕捉图中的依赖关系，进而得到每个节点的特征。其生成的节点特征可以用作任何可微分预测层的输入，以端到端的方式训练整个模型。当将GNN应用于图分类时，Rex Ying等人(参考文献2：Ying R,You J,Morris C.Hierarchical GraphRepresentation Learning with Differentiable Pooling[J].arXiv preprint arXiv:1806.08804v2,2018.即一种可微分的分层图表示学习方法)提出一种可微分的图形池化模型(DIFFPOOL)，可以对连边求梯度。

目前，基于深度学习的图分类模型已经取得了显著的效果，然而，由于训练数据量的庞大，图的节点和连边数量较多，训练所需的运行时间和计算资源要求较高。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于特征加强的图压缩方法。

本发明通过对图分类深度模型进行求梯度，得到连边的重要性排序，提取部分关键连边，最后只保留其关键连边，删除孤立节点，实现图的压缩。

为实现上述发明目的，本发明提供以下技术方案：

一种基于特征加强的图压缩方法，首先通过对端到端的图分类深度模型进行求梯度，获取图中所有连边对最后分类结果的贡献程度并进行可视化显示，再按照其权重的绝对值进行连边重要性排序，按照一定的比例提取部分关键连边保留，删除剩余连边和孤立节点，实现对图的压缩，在保证分类准确率减少不多的情况下尽可能减少模型的训练时间和计算空间。

本发明的基于特征加强的图压缩方法，包括如下步骤：

(1)设计图分类深度模型，求连边梯度：

(1-1)设计一个端到端的图分类深度模型，该模型由图卷积、池化、全连接三个模块组成。首先利用图卷积模型学习图上每一个节点的局部拓扑结构和其自身属性，得到相同维度的特征向量，然后根据节点特征的相似性将部分节点进行分类聚合，得到新的节点，进而得到新的视图结构，然后重复提取特征和分类聚合的步骤，得到节点和连变数更少的视图和其节点特征。将每层视图的节点特征通过加权和的方式转化为图的特征表示并将所有视图的图特征进行融合。最后利用全连接层输出该图分别对应于各个类标的置信度，从而实现图的分类。本发明用于测试实验数据时，设置节点特征维度固定为256，模型由六个图卷积模块、两个池化模块和一个全连接模块构成，初始图通过三个图卷积模块得到初始图的节点特征，再通过一个池化模块得到第二层视图，然后通过三个图卷积模块得到第二层视图的节点特征，再通过一个池化模块得到第三层视图，第三层视图设置节点个数为1，最后将三层视图的节点特征转化为图特征，级联后得到256×3维的图特征，利用全连接层输出图的分类结果。

(1-2)端到端的深度模型训练好后，对邻接矩阵A求梯度，分类准确率loss函数为：

其中，A和H分别表示图的邻接矩阵和节点属性，作为模型的输入，f表示图分类深度模型，输出为k维的向量，每个元素表示图被预测为该类的置信度，其值为0表示最不可能属于的类标，其值为1表示最有可能属于的类标，k表示图的类标种类个数。T_i表示该图的真实类标，若该图属于类标i，其值为1，否则为0。

(2)提取部分关键连边：

(2-1)根据得到的连边权重对连边进行重要性排序，其连边权重的绝对值越大表示该条连边在分类模型中对分类结果的贡献越大，正值表示该连边对分类准确率起正向作用。

(2-2)传统的连边重要性指标包括CN(Common Neighbors)、AA(Adamic-AdarIndex)、FM(Friends-Measure)等，其中CN和AA指标都是基于该连边连接的两个节点的共同邻居，只是采用了不同的规范化方法，FM指标除了共同邻居，还考虑邻居之间的连接情况来丰富连边的重要性因素，其计算公式为：

其中，i和j表示连边相连的两个节点，Γ(·)函数表示获取一个节点的邻域，k表示一个节点的度值，δ(·)函数表示两个节点是否为同一节点或存在连边，若是则为1，反之则为0。

(3)删除孤立节点，压缩图：

(3-1)根据由梯度所求的连边重要性排序与传统的指标计算的连边排序重合率对比，选择连边总条数的α条作为关键连边，本发明在测试时，设置α＝50％，在该值下，连边的重合率较高，通过这种方法在保证分类准确率降低不多的情况下压缩图的大小。

(3-2)只保留关键连边，删除其余不太重要的连边，删除没有连边相连的孤立节点，本发明在测试时，连边的条数减少为原来的50％，节点的个数减少为原来的89％。

(4)将压缩后的图的邻接矩阵A′和节点属性特征H′重新输入图分类深度模型，最后输出的图分类结果与原图的结果进行比较，分类准确率降低了不足5％。

本发明的优点是：图的数量或者图的节点个数较多会导致模型在训练时所需的运行时间和计算资源较大，利用本发明提出的基于特征的图压缩方法，可以在训练模型前对图进行压缩，使得图的节点个数减少，节省计算时间和资源，并且使用压缩的图训练的模型在分类准确率上下降不足5％。

附图说明

图1是本发明方法的整体流程图；

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

本发明的基于特征加强的图压缩方法，包括如下步骤：

(1)设计图分类深度模型，求连边梯度：

(2)提取部分关键连边：

(3)删除孤立节点，压缩图：

上述方法根据图分类模型端到端的特点，采用分类准确率对输入的图的邻接矩阵求梯度的方法得到该模型拟合函数下所有连边的权重系数，根据其权重系数的绝对值进行连边重要性排序，将其与传统的连边重要性指标计算得到的连边排序进行重合率计算对比，得到α条连边下，连边重合率最大，将其α条连边作为关键连边并保留，删除剩余的连边和孤立的节点得到压缩后的图，再将其压缩后的图输入相同的图分类模型进行训练和测试，在保证分类准确率减少不多的情况下尽可能减少模型的训练时间和计算空间。

实验结果

为了验证本发明具有一定的实际效果和应用背景，将本发明提出的方法在IMDB-BINARY社交网络数据集上进行实验。

IMDB-BINARY数据集是从IMDB收集，关于电影演员和电影的相关数据。每个图是一部电影的自我网络，其中节点代表演员，连边表示他们是否曾同时在一部电影中参演。根据电影类型每个图被划分为不同的种类。该数据集包含1000个图，所有图被划分类2类，每类分别各有500个图。

本说明书实施例所描述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于特征加强的图压缩方法，通过对端到端的图分类深度模型进行求梯度，获取图中所有连边对最后分类结果的权重系数，再按照其权重系数进行连边重要性排序，提取部分关键连边，最后只保留其关键连边，删除孤立节点，达到图压缩的效果，在保证分类准确率减少不多的情况下尽可能减少模型的训练时间和计算空间；

具体步骤为：

(1)设计端到端的图分类深度模型，根据分类准确率loss函数对连边进行求梯度，得到所有连边的权重系数。具体过程为：

(1-1)设计一个端到端的图分类深度模型，该模型由图卷积、池化、全连接三个模块组成。利用图卷积模块得到节点特征，池化模块将部分节点分类聚合成一簇，对图进行池化降维，然后将各个视图的节点特征进行加权求和，转化为图的特征并进行特征融合，最终通过全连接，输出预测的图的类标。因此图分类深度模型的输入为图的邻接矩阵A和节点属性特征H，输出为图被预测为各个类标的置信度。

(1-2)对邻接矩阵A求梯度，分类准确率loss函数为：

其中，A表示图的邻接矩阵，H表示图的节点特征，f表示图分类深度模型，输出为k维的向量，其向量的每个元素表示图被预测为该类的置信度，其值为0表示最不可能属于的类标，其值为1表示最有可能属于的类标，k表示图的类标种类个数。T_i表示该图的真实类标，若该图属于类标i，其值为1，否则为0。

(2)对连边按照重要性进行排序，与传统的连边重要性指标的排序结果进行重合率比较，提取部分关键连边。具体过程为：

(2-1)根据得到的连边权重对连边进行重要性排序，其连边权重的绝对值越大表示该条连边在分类模型中对分类结果的贡献越大。

(2-2)传统的连边重要性指标包括CN(Common Neighbors)、AA(Adamic-Adar Index)、FM(Friends-Measure)等，其计算公式为：

(3)根据提取到的关键连边进行图压缩，删除其余连边和孤立的节点，得到压缩后的图。具体过程为：

(3-1)根据连边重要性排序，选择连边总条数的α条作为关键连边，我们设置α＝50％，通过这种方法在保证分类准确率降低不多的情况下压缩图的大小。

(3-2)只保留关键连边，删除其余不太重要的连边，删除没有连边相连的孤立节点。

(4)将压缩后的图重新输入图分类深度模型，输出压缩后的图的分类准确率。具体过程为：

将压缩后的图的邻接矩阵A′和节点属性特征H′重新输入图分类深度模型，输出的图分类结果与原图的结果进行比较。