CN110633394A - 基于特征加强的图压缩方法 - Google Patents

基于特征加强的图压缩方法 Download PDF

Info

Publication number
CN110633394A
CN110633394A CN201910799520.6A CN201910799520A CN110633394A CN 110633394 A CN110633394 A CN 110633394A CN 201910799520 A CN201910799520 A CN 201910799520A CN 110633394 A CN110633394 A CN 110633394A
Authority
CN
China
Prior art keywords
graph
edges
classification
node
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910799520.6A
Other languages
English (en)
Other versions
CN110633394B (zh
Inventor
陈晋音
李玉玮
林翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910799520.6A priority Critical patent/CN110633394B/zh
Publication of CN110633394A publication Critical patent/CN110633394A/zh
Application granted granted Critical
Publication of CN110633394B publication Critical patent/CN110633394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

一种基于特征加强的图压缩方法,应用于社交网络数据集的分类,根据图分类模型端到端的特点,采用分类准确率对输入的图的邻接矩阵求梯度的方法得到该模型拟合函数下所有连边的权重系数,根据其权重系数的绝对值进行连边重要性排序,将其与传统的连边重要性指标计算得到的连边排序进行重合率计算对比,在连边重合率最大的情况下确定关键连边的数量,保留其关键连边,删除剩余的连边和孤立的节点得到压缩后的图,再将其压缩后的图输入相同的图分类模型进行训练和测试,在保证分类准确率减少不多的情况下尽可能减少模型的训练时间和计算空间。

Description

基于特征加强的图压缩方法
技术领域
本发明涉及一种图压缩方法。
背景技术
在过去的几十年中,由于大量结构化数据的收集,对于图结构数据的研究越来越受到重视。在对图的研究中,已经提出了围绕节点和连边的一系列结构属性,包括节点中心性,聚类系数,协同性,成对节点之间的相似性等,这些属性是许多基于图的模型的基础。此外,它们捕获系统的某些本地拓扑信息,因此可用于设计网络算法。通常,节点中心性始终用于衡量系统中的个体重要性,Liben-Nowell和Kleinberg在社交网络中采用了许多节点的相似性度量来预测它们之间在未来是否会存在新交互(参照文献1:David Liben-Nowell,Kleinberg J.The link-prediction problem for social networks[J].Journalof the American Society for Information Science and Technology,2007.;即社交网络中的链路预测问题)。他们发现有关未来交互的信息确实可以从网络拓扑中提取出来。同样地,连边的重要性可以通过其相连的两个节点的个体重要性来表示,例如Salton系数、Jaccard系等都是基于其两个节点的共同邻居,只是采用了不同的规范化方法。
图神经网络(Graph neural networks)是一种基于图域分析的深度学习方法,它靠图中节点之间的信息传递来捕捉图中的依赖关系,进而得到每个节点的特征。其生成的节点特征可以用作任何可微分预测层的输入,以端到端的方式训练整个模型。当将GNN应用于图分类时,Rex Ying等人(参考文献2:Ying R,You J,Morris C.Hierarchical GraphRepresentation Learning with Differentiable Pooling[J].arXiv preprint arXiv:1806.08804v2,2018.即一种可微分的分层图表示学习方法)提出一种可微分的图形池化模型(DIFFPOOL),可以对连边求梯度。
目前,基于深度学习的图分类模型已经取得了显著的效果,然而,由于训练数据量的庞大,图的节点和连边数量较多,训练所需的运行时间和计算资源要求较高。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于特征加强的图压缩方法。
本发明通过对图分类深度模型进行求梯度,得到连边的重要性排序,提取部分关键连边,最后只保留其关键连边,删除孤立节点,实现图的压缩。
为实现上述发明目的,本发明提供以下技术方案:
一种基于特征加强的图压缩方法,首先通过对端到端的图分类深度模型进行求梯度,获取图中所有连边对最后分类结果的贡献程度并进行可视化显示,再按照其权重的绝对值进行连边重要性排序,按照一定的比例提取部分关键连边保留,删除剩余连边和孤立节点,实现对图的压缩,在保证分类准确率减少不多的情况下尽可能减少模型的训练时间和计算空间。
本发明的基于特征加强的图压缩方法,包括如下步骤:
(1)设计图分类深度模型,求连边梯度:
(1-1)设计一个端到端的图分类深度模型,该模型由图卷积、池化、全连接三个模块组成。首先利用图卷积模型学习图上每一个节点的局部拓扑结构和其自身属性,得到相同维度的特征向量,然后根据节点特征的相似性将部分节点进行分类聚合,得到新的节点,进而得到新的视图结构,然后重复提取特征和分类聚合的步骤,得到节点和连变数更少的视图和其节点特征。将每层视图的节点特征通过加权和的方式转化为图的特征表示并将所有视图的图特征进行融合。最后利用全连接层输出该图分别对应于各个类标的置信度,从而实现图的分类。本发明用于测试实验数据时,设置节点特征维度固定为256,模型由六个图卷积模块、两个池化模块和一个全连接模块构成,初始图通过三个图卷积模块得到初始图的节点特征,再通过一个池化模块得到第二层视图,然后通过三个图卷积模块得到第二层视图的节点特征,再通过一个池化模块得到第三层视图,第三层视图设置节点个数为1,最后将三层视图的节点特征转化为图特征,级联后得到256×3维的图特征,利用全连接层输出图的分类结果。
(1-2)端到端的深度模型训练好后,对邻接矩阵A求梯度,分类准确率loss函数为:
Figure BDA0002181913290000031
其中,A和H分别表示图的邻接矩阵和节点属性,作为模型的输入,f表示图分类深度模型,输出为k维的向量,每个元素表示图被预测为该类的置信度,其值为0表示最不可能属于的类标,其值为1表示最有可能属于的类标,k表示图的类标种类个数。Ti表示该图的真实类标,若该图属于类标i,其值为1,否则为0。
(2)提取部分关键连边:
(2-1)根据得到的连边权重对连边进行重要性排序,其连边权重的绝对值越大表示该条连边在分类模型中对分类结果的贡献越大,正值表示该连边对分类准确率起正向作用。
(2-2)传统的连边重要性指标包括CN(Common Neighbors)、AA(Adamic-AdarIndex)、FM(Friends-Measure)等,其中CN和AA指标都是基于该连边连接的两个节点的共同邻居,只是采用了不同的规范化方法,FM指标除了共同邻居,还考虑邻居之间的连接情况来丰富连边的重要性因素,其计算公式为:
Figure BDA0002181913290000043
Figure BDA0002181913290000041
Figure BDA0002181913290000042
其中,i和j表示连边相连的两个节点,Γ(·)函数表示获取一个节点的邻域,k表示一个节点的度值,δ(·)函数表示两个节点是否为同一节点或存在连边,若是则为1,反之则为0。
(3)删除孤立节点,压缩图:
(3-1)根据由梯度所求的连边重要性排序与传统的指标计算的连边排序重合率对比,选择连边总条数的α条作为关键连边,本发明在测试时,设置α=50%,在该值下,连边的重合率较高,通过这种方法在保证分类准确率降低不多的情况下压缩图的大小。
(3-2)只保留关键连边,删除其余不太重要的连边,删除没有连边相连的孤立节点,本发明在测试时,连边的条数减少为原来的50%,节点的个数减少为原来的89%。
(4)将压缩后的图的邻接矩阵A′和节点属性特征H′重新输入图分类深度模型,最后输出的图分类结果与原图的结果进行比较,分类准确率降低了不足5%。
本发明的优点是:图的数量或者图的节点个数较多会导致模型在训练时所需的运行时间和计算资源较大,利用本发明提出的基于特征的图压缩方法,可以在训练模型前对图进行压缩,使得图的节点个数减少,节省计算时间和资源,并且使用压缩的图训练的模型在分类准确率上下降不足5%。
附图说明
图1是本发明方法的整体流程图;
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
本发明的基于特征加强的图压缩方法,包括如下步骤:
(1)设计图分类深度模型,求连边梯度:
(1-1)设计一个端到端的图分类深度模型,该模型由图卷积、池化、全连接三个模块组成。首先利用图卷积模型学习图上每一个节点的局部拓扑结构和其自身属性,得到相同维度的特征向量,然后根据节点特征的相似性将部分节点进行分类聚合,得到新的节点,进而得到新的视图结构,然后重复提取特征和分类聚合的步骤,得到节点和连变数更少的视图和其节点特征。将每层视图的节点特征通过加权和的方式转化为图的特征表示并将所有视图的图特征进行融合。最后利用全连接层输出该图分别对应于各个类标的置信度,从而实现图的分类。本发明用于测试实验数据时,设置节点特征维度固定为256,模型由六个图卷积模块、两个池化模块和一个全连接模块构成,初始图通过三个图卷积模块得到初始图的节点特征,再通过一个池化模块得到第二层视图,然后通过三个图卷积模块得到第二层视图的节点特征,再通过一个池化模块得到第三层视图,第三层视图设置节点个数为1,最后将三层视图的节点特征转化为图特征,级联后得到256×3维的图特征,利用全连接层输出图的分类结果。
(1-2)端到端的深度模型训练好后,对邻接矩阵A求梯度,分类准确率loss函数为:
Figure BDA0002181913290000061
其中,A和H分别表示图的邻接矩阵和节点属性,作为模型的输入,f表示图分类深度模型,输出为k维的向量,每个元素表示图被预测为该类的置信度,其值为0表示最不可能属于的类标,其值为1表示最有可能属于的类标,k表示图的类标种类个数。Ti表示该图的真实类标,若该图属于类标i,其值为1,否则为0。
(2)提取部分关键连边:
(2-1)根据得到的连边权重对连边进行重要性排序,其连边权重的绝对值越大表示该条连边在分类模型中对分类结果的贡献越大,正值表示该连边对分类准确率起正向作用。
(2-2)传统的连边重要性指标包括CN(Common Neighbors)、AA(Adamic-AdarIndex)、FM(Friends-Measure)等,其中CN和AA指标都是基于该连边连接的两个节点的共同邻居,只是采用了不同的规范化方法,FM指标除了共同邻居,还考虑邻居之间的连接情况来丰富连边的重要性因素,其计算公式为:
Figure BDA0002181913290000071
Figure BDA0002181913290000072
Figure BDA0002181913290000073
其中,i和j表示连边相连的两个节点,Γ(·)函数表示获取一个节点的邻域,k表示一个节点的度值,δ(·)函数表示两个节点是否为同一节点或存在连边,若是则为1,反之则为0。
(3)删除孤立节点,压缩图:
(3-1)根据由梯度所求的连边重要性排序与传统的指标计算的连边排序重合率对比,选择连边总条数的α条作为关键连边,本发明在测试时,设置α=50%,在该值下,连边的重合率较高,通过这种方法在保证分类准确率降低不多的情况下压缩图的大小。
(3-2)只保留关键连边,删除其余不太重要的连边,删除没有连边相连的孤立节点,本发明在测试时,连边的条数减少为原来的50%,节点的个数减少为原来的89%。
(4)将压缩后的图的邻接矩阵A′和节点属性特征H′重新输入图分类深度模型,最后输出的图分类结果与原图的结果进行比较,分类准确率降低了不足5%。
上述方法根据图分类模型端到端的特点,采用分类准确率对输入的图的邻接矩阵求梯度的方法得到该模型拟合函数下所有连边的权重系数,根据其权重系数的绝对值进行连边重要性排序,将其与传统的连边重要性指标计算得到的连边排序进行重合率计算对比,得到α条连边下,连边重合率最大,将其α条连边作为关键连边并保留,删除剩余的连边和孤立的节点得到压缩后的图,再将其压缩后的图输入相同的图分类模型进行训练和测试,在保证分类准确率减少不多的情况下尽可能减少模型的训练时间和计算空间。
实验结果
为了验证本发明具有一定的实际效果和应用背景,将本发明提出的方法在IMDB-BINARY社交网络数据集上进行实验。
IMDB-BINARY数据集是从IMDB收集,关于电影演员和电影的相关数据。每个图是一部电影的自我网络,其中节点代表演员,连边表示他们是否曾同时在一部电影中参演。根据电影类型每个图被划分为不同的种类。该数据集包含1000个图,所有图被划分类2类,每类分别各有500个图。
本说明书实施例所描述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种基于特征加强的图压缩方法,通过对端到端的图分类深度模型进行求梯度,获取图中所有连边对最后分类结果的权重系数,再按照其权重系数进行连边重要性排序,提取部分关键连边,最后只保留其关键连边,删除孤立节点,达到图压缩的效果,在保证分类准确率减少不多的情况下尽可能减少模型的训练时间和计算空间;
具体步骤为:
(1)设计端到端的图分类深度模型,根据分类准确率loss函数对连边进行求梯度,得到所有连边的权重系数。具体过程为:
(1-1)设计一个端到端的图分类深度模型,该模型由图卷积、池化、全连接三个模块组成。利用图卷积模块得到节点特征,池化模块将部分节点分类聚合成一簇,对图进行池化降维,然后将各个视图的节点特征进行加权求和,转化为图的特征并进行特征融合,最终通过全连接,输出预测的图的类标。因此图分类深度模型的输入为图的邻接矩阵A和节点属性特征H,输出为图被预测为各个类标的置信度。
(1-2)对邻接矩阵A求梯度,分类准确率loss函数为:
Figure FDA0002181913280000011
其中,A表示图的邻接矩阵,H表示图的节点特征,f表示图分类深度模型,输出为k维的向量,其向量的每个元素表示图被预测为该类的置信度,其值为0表示最不可能属于的类标,其值为1表示最有可能属于的类标,k表示图的类标种类个数。Ti表示该图的真实类标,若该图属于类标i,其值为1,否则为0。
(2)对连边按照重要性进行排序,与传统的连边重要性指标的排序结果进行重合率比较,提取部分关键连边。具体过程为:
(2-1)根据得到的连边权重对连边进行重要性排序,其连边权重的绝对值越大表示该条连边在分类模型中对分类结果的贡献越大。
(2-2)传统的连边重要性指标包括CN(Common Neighbors)、AA(Adamic-Adar Index)、FM(Friends-Measure)等,其计算公式为:
Figure FDA0002181913280000021
Figure FDA0002181913280000022
Figure FDA0002181913280000023
其中,i和j表示连边相连的两个节点,Γ(·)函数表示获取一个节点的邻域,k表示一个节点的度值,δ(·)函数表示两个节点是否为同一节点或存在连边,若是则为1,反之则为0。
(3)根据提取到的关键连边进行图压缩,删除其余连边和孤立的节点,得到压缩后的图。具体过程为:
(3-1)根据连边重要性排序,选择连边总条数的α条作为关键连边,我们设置α=50%,通过这种方法在保证分类准确率降低不多的情况下压缩图的大小。
(3-2)只保留关键连边,删除其余不太重要的连边,删除没有连边相连的孤立节点。
(4)将压缩后的图重新输入图分类深度模型,输出压缩后的图的分类准确率。具体过程为:
将压缩后的图的邻接矩阵A′和节点属性特征H′重新输入图分类深度模型,输出的图分类结果与原图的结果进行比较。
CN201910799520.6A 2019-08-28 2019-08-28 基于特征加强的图压缩方法 Active CN110633394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910799520.6A CN110633394B (zh) 2019-08-28 2019-08-28 基于特征加强的图压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910799520.6A CN110633394B (zh) 2019-08-28 2019-08-28 基于特征加强的图压缩方法

Publications (2)

Publication Number Publication Date
CN110633394A true CN110633394A (zh) 2019-12-31
CN110633394B CN110633394B (zh) 2021-10-15

Family

ID=68969466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910799520.6A Active CN110633394B (zh) 2019-08-28 2019-08-28 基于特征加强的图压缩方法

Country Status (1)

Country Link
CN (1) CN110633394B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283540A (zh) * 2021-06-11 2021-08-20 浙江工业大学 一种基于图压缩的深度图分类模型防御方法
CN114413910A (zh) * 2022-03-31 2022-04-29 中国科学院自动化研究所 视觉目标导航方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270344A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Rich media content search engine
CN104899255A (zh) * 2015-05-15 2015-09-09 浙江大学 适用于训练深度卷积神经网络的图像数据库的构建方法
US20170228435A1 (en) * 2016-02-05 2017-08-10 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
CN107239203A (zh) * 2016-03-29 2017-10-10 北京三星通信技术研究有限公司 一种图像管理方法和装置
CN109359522A (zh) * 2018-09-06 2019-02-19 浙江工业大学 一种小样本皮肤图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270344A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Rich media content search engine
CN104899255A (zh) * 2015-05-15 2015-09-09 浙江大学 适用于训练深度卷积神经网络的图像数据库的构建方法
US20170228435A1 (en) * 2016-02-05 2017-08-10 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
CN107239203A (zh) * 2016-03-29 2017-10-10 北京三星通信技术研究有限公司 一种图像管理方法和装置
CN109359522A (zh) * 2018-09-06 2019-02-19 浙江工业大学 一种小样本皮肤图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王松等: "网络拓扑结构可视化方法研究与发展", 《网络与信息安全学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283540A (zh) * 2021-06-11 2021-08-20 浙江工业大学 一种基于图压缩的深度图分类模型防御方法
CN113283540B (zh) * 2021-06-11 2024-03-26 浙江工业大学 一种基于图压缩的深度图分类模型防御方法
CN114413910A (zh) * 2022-03-31 2022-04-29 中国科学院自动化研究所 视觉目标导航方法及装置

Also Published As

Publication number Publication date
CN110633394B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN104834686B (zh) 一种基于混合语义矩阵的视频推荐方法
CN110135459B (zh) 一种基于双三元组深度度量学习网络的零样本分类方法
CN108304380B (zh) 一种融合学术影响力的学者人名消除歧义的方法
CN110347932B (zh) 一种基于深度学习的跨网络用户对齐方法
CN113255895B (zh) 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法
CN103258210B (zh) 一种基于字典学习的高清图像分类方法
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN107368534B (zh) 一种预测社交网络用户属性的方法
CN114565053B (zh) 基于特征融合的深层异质图嵌入模型
CN113554100B (zh) 异构图注意力网络增强的Web服务分类方法
CN110633394B (zh) 基于特征加强的图压缩方法
CN110993037A (zh) 一种基于多视图分类模型的蛋白质活性预测装置
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN116416478B (zh) 一种基于图结构数据特征的生物信息学分类模型
CN111126464A (zh) 一种基于无监督域对抗领域适应的图像分类方法
Cong Personalized recommendation of film and television culture based on an intelligent classification algorithm
CN111340187B (zh) 基于对抗注意力机制的网络表征方法
CN117237559A (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN114528479B (zh) 一种基于多尺度异构图嵌入算法的事件检测方法
CN116206327A (zh) 一种基于在线知识蒸馏的图像分类方法
CN113159976B (zh) 一种微博网络重要用户的识别方法
CN116310466A (zh) 基于局部无关区域筛选图神经网络的小样本图像分类方法
Liang et al. The graph embedded topic model
Wang et al. Cross-layer progressive attention bilinear fusion method for fine-grained visual classification
CN113283540B (zh) 一种基于图压缩的深度图分类模型防御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant