CN112990364B - 一种图数据节点分类方法及装置 - Google Patents

一种图数据节点分类方法及装置 Download PDF

Info

Publication number
CN112990364B
CN112990364B CN202110434137.8A CN202110434137A CN112990364B CN 112990364 B CN112990364 B CN 112990364B CN 202110434137 A CN202110434137 A CN 202110434137A CN 112990364 B CN112990364 B CN 112990364B
Authority
CN
China
Prior art keywords
node
graph
nodes
labels
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110434137.8A
Other languages
English (en)
Other versions
CN112990364A (zh
Inventor
寇广
易晓东
王之元
胡志辉
张浩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202110434137.8A priority Critical patent/CN112990364B/zh
Publication of CN112990364A publication Critical patent/CN112990364A/zh
Application granted granted Critical
Publication of CN112990364B publication Critical patent/CN112990364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图数据节点分类方法及装置,所述方法包括以下步骤:S1,获取图结构数据,所述图结构数据包括特征信息和拓扑结构信息;S2,以聚类的方式学习图节点的隐藏层表征,针对图节点的隐藏层表征构建最优化模型;S3,求解最优化模型,得到图节点的新表征;S4,根据节点的新表征执行图节点分类,构建新的神经网络结构。根据本发明的基于节点相似性的图数据节点分类方法和装置极大提高了图节点分类的正确率。

Description

一种图数据节点分类方法及装置
技术领域
本发明涉及人工智能领域,具体涉及处理图数据的机器学习技术,尤其是基于节点相似性的图数据节点分类方法及装置。
背景技术
节点分类任务即给定图中某些节点对应的类别,从而预测出没有标签的类别属于哪一个类别。现有的技术方法可以大致分为以下几种:
一、概率关系分类
概率关系分类器的核心思想是某节点的标签是其邻居节点的对应标签的概率的均值。首先,初始化已经存在标签的节点的分布概率,正例是1,负例是0,对于没有标签的节点概率全部设置为0.5,然后对所有没有标签的节点进行概率更新,直至收敛或者更新到最大的迭代次数。
二、迭代分类
迭代分类实质上就是考虑节点关系的同时也考虑节点的属性。首先,对于每个节点创建一个特征向量,然后利用节点的特征向量来训练分类器,如果一个节点有多个邻居节点,则需要做一个聚合操作,计算其数量、众数、比例、均值以及是否存在邻居等。训练分类器的方式和概率分类相似,不停的迭代更新每一个节点的标签,在更新节点标签的同时节点对应的特征向量也需要更新,直到生成的标签稳定或者达到最大的迭代次数。
三、图卷积网络分类
受传统的深度学习方法启发,图卷积网络是一类在处理非欧几里得数据上取得优良效果。图卷积网络致力于在一个低纬向量空间进行网络节点表示,同时保护网络拓扑结构和节点信息,能够使用简单现成的机器学习算法等作用于下游任务。Kipf和Welling等人提出了标准的GCN[1]用于节点的半监督分类。对于无向图
Figure 100002_DEST_PATH_IMAGE001
,定义图卷积算子如式(1)所示:
Figure 962200DEST_PATH_IMAGE002
(1)
此时,
Figure 100002_DEST_PATH_IMAGE003
是图的邻接矩阵,
Figure 82603DEST_PATH_IMAGE004
是图节点的初始特征矩阵,
Figure 100002_DEST_PATH_IMAGE005
是在第
Figure 348760DEST_PATH_IMAGE006
层的模型参数,
Figure 100002_DEST_PATH_IMAGE007
是第
Figure 822598DEST_PATH_IMAGE008
层的输出,
Figure 100002_DEST_PATH_IMAGE009
Figure 43495DEST_PATH_IMAGE010
是ReLU激活函数。除此之外,
Figure 100002_DEST_PATH_IMAGE011
是归一化的邻接矩阵,
Figure 147848DEST_PATH_IMAGE012
是度矩阵有
Figure 100002_DEST_PATH_IMAGE013
上述三种现有的图节点分类技术存在以下缺点:
(1)概率关系分类忽略了图节点的属性信息,不同的节点包含的属性信息不同,忽略图节点的属性信息而只考虑图的拓扑信息必然导致图分类的不准确。
(2)概率关系分类和迭代分类都不能保证算法收敛,模型可能陷入局部最优解中。
(3)现有的图卷积网络模型不能充分利用图的连接信息。图的连接信息反映了节点对的相似关系。理想情况下,连接的节点需要有相似的表征,但是现有的图卷积网络模型在节点特征聚合过程中往往会破坏节点相似性,这降低了图的节点分类的正确率。
发明内容
针对现有技术存在的问题,本发明的目的在于解决用于图数据的机器学习方法无法精确的挖掘节点之间的相似关系的问题。本发明提出一种结合图神经网络、聚类算法和最优化模型的方法和装置对图数据进行建模,深挖节点之间的相似性,得到节点的精确表征,利用得到的节点表征,可以为在图数据执行节点分类,提高了图节点分类的正确率。
根据本发明的基于节点相似性的图数据节点分类方法,包括以下步骤:
S1,获取图结构数据,所述图结构数据包括特征信息和拓扑结构信息;
S2,以聚类的方式学习图节点的隐藏层表征,针对图节点的隐藏层表征构建最优化模型;
S3,求解最优化模型,得到图节点的新表征;
S4,根据节点的新表征执行图节点分类,构建新的神经网络结构。
进一步,在步骤S2中,聚类算法对图节点在
Figure 86985DEST_PATH_IMAGE006
层的隐藏层表征进行学习,根据聚类算法得到图节点的聚类标签
Figure 957989DEST_PATH_IMAGE014
,同时根据模型预训练得到图节点的伪标签
Figure 100002_DEST_PATH_IMAGE015
,利用聚类标签
Figure 971076DEST_PATH_IMAGE014
和伪标签分别定义图的聚类关系矩阵(CRM)和伪关系矩阵(PRM)
Figure 100002_DEST_PATH_IMAGE017
在PRM中,如果
Figure 433281DEST_PATH_IMAGE018
则表示节点
Figure 100002_DEST_PATH_IMAGE019
和节点
Figure 100002_DEST_PATH_IMAGE021
根据伪标签属于同一类;在CRM中,如果
Figure 797397DEST_PATH_IMAGE022
则表示节点
Figure 200654DEST_PATH_IMAGE019
和节点
Figure 520777DEST_PATH_IMAGE021
根据聚类标签属于同一类;当伪标签接近真实标签时,理想情况下CRM等于PRM。
进一步,构建计算公式如下:
Figure 357146DEST_PATH_IMAGE024
此处,DRM包含三种元素:
零元素:
Figure 100002_DEST_PATH_IMAGE025
表示无论根据伪标签还是聚类标签,节点
Figure 802033DEST_PATH_IMAGE019
和节点
Figure 14840DEST_PATH_IMAGE021
都属于同一类;
正元素:
Figure 330415DEST_PATH_IMAGE026
表示根据聚类标签,节点
Figure 337685DEST_PATH_IMAGE019
和节点
Figure 863344DEST_PATH_IMAGE021
都属于同一类,但根据伪标签,节点
Figure 348684DEST_PATH_IMAGE019
和节点
Figure 377819DEST_PATH_IMAGE021
不属于同一类;
负元素:
Figure DEST_PATH_IMAGE027
表示根据聚类标签,节点
Figure 228095DEST_PATH_IMAGE019
和节点
Figure 975471DEST_PATH_IMAGE021
不属于同一类,但根据伪标签,节点
Figure 264501DEST_PATH_IMAGE019
和节点
Figure 289089DEST_PATH_IMAGE021
属于同一类。
进一步,零元素表示节点
Figure 762796DEST_PATH_IMAGE019
和节点
Figure 872834DEST_PATH_IMAGE021
的特征不需要修改,正元素表示需要扩大节点
Figure 824610DEST_PATH_IMAGE019
和节点
Figure 969283DEST_PATH_IMAGE021
的特征的不相似性,负元素表示需要保留节点
Figure 489257DEST_PATH_IMAGE019
和节点
Figure 211226DEST_PATH_IMAGE021
的特征的相似性。
进一步,步骤S2中,针对节点的隐藏层表征构建最优化模型
Figure DEST_PATH_IMAGE029
其中
Figure 514162DEST_PATH_IMAGE030
是节点
Figure 372397DEST_PATH_IMAGE019
Figure 57413DEST_PATH_IMAGE006
层的隐藏层特征,
Figure DEST_PATH_IMAGE031
表示需要保留相似关系的节点集合。
进一步,步骤S3中,求解最优化模型,得到节点
Figure 673202DEST_PATH_IMAGE019
的新表征
Figure 107725DEST_PATH_IMAGE032
的方式如下:
Figure 820466DEST_PATH_IMAGE034
进一步,构建新的神经网络结构,命名为Cluster Layer,定义如下:
Cluster Layer:
Figure DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE037
Figure 619926DEST_PATH_IMAGE038
本发明还提出一种图数据节点分类装置,包括保留节点相似性模块和类似最大期望计算模块;其中,
保留节点相似性模块用于获取图结构数据,所述图结构数据包括特征信息和拓扑结构信息;以聚类的方式学习图节点的隐藏层表征;针对聚类学习得到的图节点的隐藏层表征构建最优化模型,求解最优化模型,得到图节点的新表征;根据节点的新表征执行图节点分类;
所述类似最大期望计算模块用于图神经网络的训练。
进一步,所述保留节点相似性模块包括第一处理器和第二处理器,第一处理器用于根据聚类划分节点子图,第二处理器用于构造最优化模型,捕捉节点相似性;
所述类似最大期望计算模块的训练包括两个步骤,E步和M步,其中E步执行图神经网络的初始训练;M步根据训练过程中的分类结果选择保留最合适的模型参数;交替执行E步和M步以实现图神经网络的训练。
进一步,所述保留节点相似性模块使用聚类算法对图节点在
Figure 50908DEST_PATH_IMAGE006
层的隐藏层表征进行学习,根据聚类算法得到图节点的聚类标签
Figure 289122DEST_PATH_IMAGE014
,同时根据模型预训练得到图节点的伪标签
Figure 262894DEST_PATH_IMAGE015
,利用聚类标签
Figure 889048DEST_PATH_IMAGE014
和伪标签分别定义图的聚类关系矩阵CRM和伪关系矩阵PRM:
Figure 682691DEST_PATH_IMAGE017
在PRM中,如果
Figure DEST_PATH_IMAGE039
则表示节点
Figure 849231DEST_PATH_IMAGE040
和节点
Figure DEST_PATH_IMAGE041
根据伪标签属于同一类;在CRM中,如果
Figure 677509DEST_PATH_IMAGE042
则表示节点
Figure 881089DEST_PATH_IMAGE040
和节点
Figure 21083DEST_PATH_IMAGE041
根据聚类标签属于同一类;当伪标签接近真实标签时,理想情况下CRM等于PRM;
构建计算公式如下:
Figure 335521DEST_PATH_IMAGE024
此处,DRM包含三种元素:
零元素:
Figure 877361DEST_PATH_IMAGE025
表示无论根据伪标签还是聚类标签,节点
Figure 251841DEST_PATH_IMAGE019
和节点
Figure 879132DEST_PATH_IMAGE021
都属于同一类;
正元素:
Figure 856315DEST_PATH_IMAGE026
表示根据聚类标签,节点
Figure 128027DEST_PATH_IMAGE019
和节点
Figure 798043DEST_PATH_IMAGE021
都属于同一类,但根据伪标签,节点
Figure 522417DEST_PATH_IMAGE019
和节点
Figure 303291DEST_PATH_IMAGE021
不属于同一类;
负元素:
Figure 695089DEST_PATH_IMAGE027
表示根据聚类标签,节点
Figure 536006DEST_PATH_IMAGE019
和节点
Figure 13255DEST_PATH_IMAGE021
不属于同一类,但根据伪标签,节点
Figure 597820DEST_PATH_IMAGE019
和节点
Figure 838265DEST_PATH_IMAGE021
属于同一类;
零元素表示节点
Figure 584504DEST_PATH_IMAGE019
和节点
Figure 408104DEST_PATH_IMAGE021
的特征不需要修改,正元素表示需要扩大节点
Figure 406147DEST_PATH_IMAGE019
和节点
Figure 631592DEST_PATH_IMAGE021
的特征的不相似性,负元素表示需要保留节点
Figure 689678DEST_PATH_IMAGE019
和节点
Figure 573DEST_PATH_IMAGE021
的特征的相似性。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现根据本发明的基于节点相似性的图数据节点分类方法。
本发明还提供一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据本发明的基于节点相似性的图数据节点分类方法。
根据本发明提出的基于节点相似性的图数据节点分类方法和装置,基于保留节点相似性的图卷积网络算法,可以自动化的挖掘图数据中的隐藏信息。通过聚类算法可以自动分析节点的隐藏层特征,在聚类算法得到的结果上利用最优化模式来识别节点对之间的相似性。所述算法可以理论上保证得到最优的解。根据发明的基于节点相似性的图数据节点分类方法和装置极大提高了图节点分类的正确率。
附图说明
图1示出了根据本发明的图数据节点分类方法的图卷积网络流程图。
图2示出了根据本发明的保留节点相似性模块包含的组件以及各组件对应的功能。
图3示出了根据本发明的类似最大期望计算模块中针对图神经网络训练的计算流程。
图4示出了根据本发明的图数据节点分类方法的电子设备结构示意图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明提出一种结合图神经网络、聚类算法和最优化模型的方法对图数据进行建模,深挖节点之间的相似性,得到节点的精确表征,利用得到的节点表征,可以为在图数据执行节点分类。
其中,图神经网络(Graph Neural Networks)用来处理图结构数据。
关于图神经网络:
图的定义如下:
Figure DEST_PATH_IMAGE043
,其中
Figure 67887DEST_PATH_IMAGE044
是图中结点的集合,
Figure DEST_PATH_IMAGE045
是图中边的集合,图中的结点具有特征信息,并且如果两个结点存在某种关系,在图中体现为两个结点之间存在连边。对于图结构数据来讲,既具有特征信息,同时又具有拓扑结构信息,因此在对图数据进行数据分析时,需要同时考虑到结点的特征信息和结构信息。图神经网络可以自动化地同时学到图的特征信息与结构信息。图神经网络基于消息传递的方式进行学习,在对中心结点的表征进行更新时,接收来自其邻居结点的特征信息,然后通过特定的聚合函数进行聚合。根据特征信息传递和聚合方式的不同,可以将图神经网络划分为不同的类别,目前较为知名且应用较为广泛的图神经网络模型包括GCN(图卷积神经网络),GAT(图注意力网络)等等。
关于聚类:
聚类作为一种无监督的数据挖掘方法,被广泛应用于图像处理、医学、 生物分类、考古等众多不同领域。聚类是通过一定的准则将一个数据集划分成不同的类或簇, 使相同簇内的对象之间相似度高,而不同簇的对象间的相似性尽可能小。在数据科学领域,通过聚类分析可以从数据中获得一些有价值的信息。
迄今为止,已经提出的聚类方法主要包括基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。具体来说,基于划分的方法是将数据对象集合划分为若干个无交集的子集,使得每个对象仅属于一个子集。基于层次的方法是将数据对象构建成一组具有树状结构的嵌套簇,除了叶子节点的每个簇都是由其子节点的并集构成,根节点包含所有的数据对象。基于密度的聚类方法是根据单元集密度的大小将数据集分类成簇,密度高的区域聚类成簇,密度低的区域作为噪声或者孤立点处理。基于网格的方法把原数据对象空间划分成独立于输入对象分布的单元。通过构建父子级网格单元关系形成一种多分辨率的网络数据结构,将连续空间离散化成有限数目的单元,利用所形成的网格结构进行聚类。基于模型的方法需要为数据对象中的可能存在的每一簇构建一个分布模型,并假设数据对象均独立分布,通过数据对象的真实分布计算模型参数,最后利用所选模型完成聚类。
关于最优化模型:
最优化模型在经济管理工作中运用线性规划、非线性规划、动态规划、整数规划以及系统科学方法所确定的表示最优方案的模型。它能反映经济活动中的条件极值问题,即在既定目标下,如何最有效地利用各种资源,或者在资源有限制的条件下,如何取得最好的效果。最优化模型方法常用来解决资源的最佳分配问题、最优部门结构问题、生产力合理布局问题、最优积累率问题、物资合理调运问题、最低成本问题等。
最优化问题根据有无约束条件可以分为无约束条件的最优化问题和有约束条件的最优化问题。无约束条件的最优化问题就是在资源无限的情况下求解最佳目标,而有约束条件的最优化问题则是在资源限定的情况下求解最佳目标。
最优化问题根据决策变量在目标函数与约束条件中出现的形式可分为线性规划问题和非线性规划问题。如果决策变量在目标函数与约束条件中只出现一次方的形式,则称该规划问题为线性规划问题。如果决策变量在目标函数或者约束条件中出现了一次方以外( 二次方、三次方、指数、对数、三角函数等)的形式,则称该规划问题为非线性规划问题。
本发明的重点技术改进如下:
根据附图1,其示出了根据本发明的图卷积网络流程图。本发明所提出的基于节点相似性的图数据节点分类方法包括基于保留节点相似性的图卷积网络算法,其主要包含两个部分:保留节点相似性模块和类似最大期望计算模块。保留节点相似性模块主要是以聚类的方式来学习图节点的隐藏层表征,然后基于聚类的结果用最优化模型修正节点的表征。具体来说,用聚类算法对图节点在
Figure 288783DEST_PATH_IMAGE006
层的隐藏层表征进行学习,根据聚类算法得到图节点的聚类标签,同时根据模型预训练得到图节点的伪标签
Figure 783350DEST_PATH_IMAGE015
,利用聚类标签
Figure 581542DEST_PATH_IMAGE014
和伪标签可以分别定义图的聚类关系矩阵(CRM)和伪关系矩阵(PRM)
Figure 921387DEST_PATH_IMAGE046
(2)
在PRM中,如果
Figure 855845DEST_PATH_IMAGE018
则表示节点
Figure 521313DEST_PATH_IMAGE019
和节点
Figure 806801DEST_PATH_IMAGE021
根据伪标签属于同一类。同理,在CRM中,如果
Figure 950337DEST_PATH_IMAGE022
则表示节点
Figure 4881DEST_PATH_IMAGE019
和节点
Figure 841250DEST_PATH_IMAGE021
根据聚类标签属于同一类。当伪标签接近真实标签时,理想情况下CRM需要等于PRM。但是,属于相同类的节点可能会有不相似的表征,不同类的节点可能会有相似的表征。因此,本发明利用CRM和PRM来揭示节点中的这种错误关系。
Figure DEST_PATH_IMAGE047
(3)
此处,DRM包含三种元素:
零元素:
Figure 754979DEST_PATH_IMAGE025
表示无论根据伪标签还是聚类标签,节点
Figure 826840DEST_PATH_IMAGE019
和节点
Figure 735891DEST_PATH_IMAGE021
都属于同一类。
正元素:
Figure 477582DEST_PATH_IMAGE026
表示根据聚类标签,节点
Figure 472082DEST_PATH_IMAGE019
和节点
Figure 957422DEST_PATH_IMAGE021
都属于同一类,但根据伪标签,节点
Figure 986557DEST_PATH_IMAGE019
和节点
Figure 899150DEST_PATH_IMAGE021
不属于同一类。
负元素:
Figure 380947DEST_PATH_IMAGE027
表示根据聚类标签,节点
Figure 794611DEST_PATH_IMAGE019
和节点
Figure 288040DEST_PATH_IMAGE021
不属于同一类,但根据伪标签,节点
Figure 496167DEST_PATH_IMAGE019
和节点
Figure 465260DEST_PATH_IMAGE021
属于同一类。
零元素表示节点
Figure 122480DEST_PATH_IMAGE019
和节点
Figure 126208DEST_PATH_IMAGE021
的特征不需要修改,正元素表示需要扩大节点
Figure 115024DEST_PATH_IMAGE019
和节点
Figure 571413DEST_PATH_IMAGE021
的特征的不相似性,负元素表示需要保留节点
Figure 202246DEST_PATH_IMAGE019
和节点
Figure 794901DEST_PATH_IMAGE021
的特征的相似性。在本发明中,只考虑保留节点相似性的情况。为此,类似最大期望计算模块针对节点的隐藏层表征构建最优化模型
Figure 610410DEST_PATH_IMAGE048
其中
Figure 429462DEST_PATH_IMAGE030
是节点
Figure 723040DEST_PATH_IMAGE019
Figure 45568DEST_PATH_IMAGE006
层的隐藏层特征,
Figure 31978DEST_PATH_IMAGE031
表示需要保留相似关系的节点集合。求解最优化模型,就可以得到节点
Figure 338326DEST_PATH_IMAGE019
的新表征
Figure 435595DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE049
通过上述讨论,本发现构建新的神经网络结构,取名为Cluster Layer,定义如下:
Cluster Layer:
Figure 143788DEST_PATH_IMAGE035
Figure 301100DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE051
本发明还提供一种基于节点相似性的图数据节点分类装置,包括保留节点相似性模块和类似最大期望计算模块。
如图2所示,保留节点相似性模块用于获取图结构数据,所述图结构数据包括特征信息和拓扑结构信息;以聚类的方式学习图节点的隐藏层表征;针对聚类学习得到的图节点的隐藏层表征构建最优化模型,求解最优化模型,得到图节点的新表征;根据节点的新表征执行图节点分类。在结构上,保留节点相似性模块包括第一处理器和第二处理器,第一处理器用于根据聚类划分节点子图,第二处理器用于构造最优化模型,捕捉节点相似性。
如图3所示,类似最大期望计算模块用于图神经网络的训练。所述训练包括两个步骤,E步和M步,其中E步执行图神经网络的初始训练;M步根据训练过程中的分类结果选择保留最合适的模型参数;交替执行E步和M步以实现图神经网络的训练。
此外,如图4所示,本发明还提供一种电子设备,包括如下部件:处理器301、存储器302、通信接口303和通信总线304;其中,所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信;所述通信接口303用于实现各设备之间的信息传输;所述处理器301用于调用所述存储器302中的计算机程序,所述处理器执行所述计算机程序时实现上述基于节点相似性的图数据节点分类方法的全部步骤。
基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述基于节点相似性的图数据节点分类方法的全部步骤。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的基于节点相似性的图数据节点分类方法。
本发明针对基于聚类算法提出了新的图卷积网络算法,有效解决了之前技术方案中存在的弊端,图节点分类的正确率大大提高,并且在真实的数据集Yoochoose上面进行了验证,具体的评价指标数据如下表所示:
Methods Cora Citeseer Pubmed
DeepWalk 67.2 43.2 65.3
GCN 81.3 70.8 79.1
GAT 83.1 71.3 79.0
KNN-GCN 66.5 68.3 78.9
GCNII 82.2 68.2 78.2
CRF-GCN 82.5 72.1 79.2
SimP-GCN 82.8 72.6 81.1
本发明 87.2 76.8  84.7
表1基准数据集上图节点分类准确率
Cora、Citeseer和Pubmed数据集是来自在论文引用的真实数据,表中的数据反映节点分类的正确率,正确率的值越高越好。其余对比方法是主流的图节点分类算法。由上述实验结果可以得知,本发明提出的方法,在图节点分类方面相比于之前的技术方案有较大提升。
本发明用一种无监督的方式学习图卷积网络的节点隐藏层表征,利用最优化模型来修正节点的隐藏层表征。本发明结合对比学习思想,利用了图节点的先验信息,从而提高图卷积网络对图节点分类的正确率。

Claims (8)

1.一种图数据节点分类方法,其特征在于,包括以下步骤:
S1,获取图结构数据,所述图结构数据包括特征信息和拓扑结构信息;
S2,以聚类的方式学习图节点的隐藏层表征,针对图节点的隐藏层表征构建最优化模型;
S3,求解最优化模型,得到图节点的新表征;
S4,根据节点的新表征执行图节点分类,构建新的神经网络结构;
在步骤S2中,聚类算法对图节点在
Figure DEST_PATH_IMAGE001
层的隐藏层表征进行学习,根据聚类算法得到图节点的聚类标签
Figure DEST_PATH_IMAGE002
,同时根据模型预训练得到图节点的伪标签
Figure DEST_PATH_IMAGE003
,利用聚类标签
Figure 913738DEST_PATH_IMAGE002
定义图的聚类关系矩阵CRM,利用伪标签
Figure 440666DEST_PATH_IMAGE003
定义图的伪关系矩阵PRM:
Figure DEST_PATH_IMAGE004
在PRM中,如果
Figure DEST_PATH_IMAGE005
则表示节点
Figure DEST_PATH_IMAGE006
和节点
Figure DEST_PATH_IMAGE007
根据伪标签属于同一类;在CRM中,如果
Figure DEST_PATH_IMAGE008
则表示节点
Figure 564611DEST_PATH_IMAGE006
和节点
Figure 287716DEST_PATH_IMAGE007
根据聚类标签属于同一类;当伪标签
Figure 570930DEST_PATH_IMAGE003
接近真实标签时,理想情况下CRM等于PRM。
2.根据权利要求1所述的图数据节点分类方法,其特征在于,构建计算公式如下:
Figure DEST_PATH_IMAGE009
此处,DRM包含三种元素:
零元素:
Figure DEST_PATH_IMAGE010
表示无论根据伪标签还是聚类标签,节点
Figure 206442DEST_PATH_IMAGE006
和节点
Figure 66950DEST_PATH_IMAGE007
都属于同一类;
正元素:
Figure DEST_PATH_IMAGE011
表示根据聚类标签,节点和节点都属于同一类,但根据伪标签,节点
Figure 341549DEST_PATH_IMAGE006
和节点
Figure 479270DEST_PATH_IMAGE007
不属于同一类;
负元素:
Figure DEST_PATH_IMAGE012
表示根据聚类标签,节点
Figure 269371DEST_PATH_IMAGE006
和节点
Figure 367908DEST_PATH_IMAGE007
不属于同一类,但根据伪标签,节点
Figure 573762DEST_PATH_IMAGE006
和节点
Figure 690622DEST_PATH_IMAGE007
属于同一类;
零元素表示节点
Figure 854887DEST_PATH_IMAGE006
和节点
Figure 440721DEST_PATH_IMAGE007
的特征不需要修改,正元素表示需要扩大节点
Figure 184686DEST_PATH_IMAGE006
和节点
Figure 156053DEST_PATH_IMAGE007
的特征的不相似性,负元素表示需要保留节点
Figure 225640DEST_PATH_IMAGE006
和节点
Figure 33190DEST_PATH_IMAGE007
的特征的相似性。
3.根据权利要求1所述的图数据节点分类方法,其特征在于,步骤S2中,针对节点的隐藏层表征构建最优化模型:
Figure DEST_PATH_IMAGE013
其中
Figure DEST_PATH_IMAGE014
是节点
Figure 908742DEST_PATH_IMAGE006
Figure 747998DEST_PATH_IMAGE001
层的隐藏层特征,
Figure DEST_PATH_IMAGE015
表示需要保留相似关系的节点集合。
4.根据权利要求3所述的图数据节点分类方法,其特征在于,步骤S3中,求解最优化模型,得到节点
Figure 722907DEST_PATH_IMAGE006
的新表征
Figure DEST_PATH_IMAGE016
的方式如下:
Figure DEST_PATH_IMAGE017
5.根据权利要求4所述的图数据节点分类方法,其特征在于,构建新的神经网络结构,命名为Cluster Layer,定义如下:
Cluster Layer:
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
6.一种图数据节点分类装置,其特征在于,包括保留节点相似性模块和类似最大期望计算模块;其中,
保留节点相似性模块用于获取图结构数据,所述图结构数据包括特征信息和拓扑结构信息;以聚类的方式学习图节点的隐藏层表征;针对聚类学习得到的图节点的隐藏层表征构建最优化模型,求解最优化模型,得到图节点的新表征;根据节点的新表征执行图节点分类;
所述类似最大期望计算模块用于图神经网络的训练;
所述保留节点相似性模块使用聚类算法对图节点在
Figure 876808DEST_PATH_IMAGE001
层的隐藏层表征进行学习,根据聚类算法得到图节点的聚类标签
Figure 493734DEST_PATH_IMAGE002
,同时根据模型预训练得到图节点的伪标签
Figure 190426DEST_PATH_IMAGE003
,利用聚类标签
Figure 601815DEST_PATH_IMAGE002
定义图的聚类关系矩阵CRM,利用伪标签
Figure 898804DEST_PATH_IMAGE003
定义图的伪关系矩阵PRM:
Figure 788263DEST_PATH_IMAGE004
在PRM中,如果
Figure DEST_PATH_IMAGE021
则表示节点
Figure DEST_PATH_IMAGE022
和节点
Figure DEST_PATH_IMAGE023
根据伪标签属于同一类;在CRM中,如果
Figure DEST_PATH_IMAGE024
则表示节点
Figure 667357DEST_PATH_IMAGE022
和节点
Figure 249648DEST_PATH_IMAGE023
根据聚类标签属于同一类;当伪标签
Figure 909300DEST_PATH_IMAGE003
接近真实标签时,理想情况下CRM等于PRM。
7.根据权利要求6所述的图数据节点分类装置,其特征在于,所述保留节点相似性模块包括第一处理器和第二处理器,第一处理器用于根据聚类划分节点子图,第二处理器用于构造最优化模型,捕捉节点相似性;
所述类似最大期望计算模块的训练包括两个步骤,E步和M步,其中E步执行图神经网络的初始训练;M步根据训练过程中的分类结果选择保留最合适的模型参数;交替执行E步和M步以实现图神经网络的训练。
8.根据权利要求7所述的图数据节点分类装置,其特征在于,
构建计算公式如下:
Figure 474886DEST_PATH_IMAGE009
此处,DRM包含三种元素:
零元素:
Figure 5224DEST_PATH_IMAGE010
表示无论根据伪标签还是聚类标签,节点
Figure 148630DEST_PATH_IMAGE006
和节点
Figure 295577DEST_PATH_IMAGE007
都属于同一类;
正元素:
Figure 792418DEST_PATH_IMAGE011
表示根据聚类标签,节点
Figure 583787DEST_PATH_IMAGE006
和节点
Figure 242302DEST_PATH_IMAGE007
都属于同一类,但根据伪标签,节点
Figure 735600DEST_PATH_IMAGE006
和节点
Figure 770552DEST_PATH_IMAGE007
不属于同一类;
负元素:
Figure 806641DEST_PATH_IMAGE012
表示根据聚类标签,节点
Figure 511423DEST_PATH_IMAGE006
和节点
Figure 367384DEST_PATH_IMAGE007
不属于同一类,但根据伪标签,节点
Figure 596240DEST_PATH_IMAGE006
和节点
Figure 690098DEST_PATH_IMAGE007
属于同一类;
零元素表示节点
Figure 96939DEST_PATH_IMAGE006
和节点
Figure DEST_PATH_IMAGE025
的特征不需要修改,正元素表示需要扩大节点和节点
Figure 768092DEST_PATH_IMAGE025
的特征的不相似性,负元素表示需要保留节点
Figure 676005DEST_PATH_IMAGE006
和节点
Figure 155528DEST_PATH_IMAGE025
的特征的相似性。
CN202110434137.8A 2021-04-22 2021-04-22 一种图数据节点分类方法及装置 Active CN112990364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110434137.8A CN112990364B (zh) 2021-04-22 2021-04-22 一种图数据节点分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110434137.8A CN112990364B (zh) 2021-04-22 2021-04-22 一种图数据节点分类方法及装置

Publications (2)

Publication Number Publication Date
CN112990364A CN112990364A (zh) 2021-06-18
CN112990364B true CN112990364B (zh) 2021-08-03

Family

ID=76341606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110434137.8A Active CN112990364B (zh) 2021-04-22 2021-04-22 一种图数据节点分类方法及装置

Country Status (1)

Country Link
CN (1) CN112990364B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831758A (zh) * 2020-08-21 2020-10-27 安徽大学 基于快速的层次属性网络表示学习的节点分类方法及装置
CN112529069A (zh) * 2020-12-08 2021-03-19 广州大学华软软件学院 一种半监督节点分类方法、系统、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3061717A1 (en) * 2018-11-16 2020-05-16 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN111966823B (zh) * 2020-07-02 2022-04-22 华南理工大学 一种面向标签噪声的图节点分类方法
CN112580742A (zh) * 2020-12-29 2021-03-30 中国科学技术大学 基于标签传播的图神经网络快速训练方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831758A (zh) * 2020-08-21 2020-10-27 安徽大学 基于快速的层次属性网络表示学习的节点分类方法及装置
CN112529069A (zh) * 2020-12-08 2021-03-19 广州大学华软软件学院 一种半监督节点分类方法、系统、计算机设备和存储介质

Also Published As

Publication number Publication date
CN112990364A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
Bandaru et al. Data mining methods for knowledge discovery in multi-objective optimization: Part A-Survey
Cai et al. Discrete particle swarm optimization for identifying community structures in signed social networks
Ran et al. Comprehensive survey on hierarchical clustering algorithms and the recent developments
Hu et al. FCAN-MOPSO: an improved fuzzy-based graph clustering algorithm for complex networks with multi-objective particle swarm optimization
CN112633426B (zh) 处理数据类别不均衡的方法、装置、电子设备及存储介质
US11037021B2 (en) Quasi-clique prototype-based hybrid clustering
Hanafi et al. A fast DBSCAN algorithm for big data based on efficient density calculation
Ferraro et al. A review and proposal of (fuzzy) clustering for nonlinearly separable data
CN115293919A (zh) 面向社交网络分布外泛化的图神经网络预测方法及系统
Qian et al. A survey on multi-label feature selection from perspectives of label fusion
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
CN111738514B (zh) 利用局部距离和节点秩优化函数的社交网络社区发现方法
CN111738516B (zh) 通过局部距离和节点秩优化函数的社交网络社区发现系统
Wei et al. Improving self-training with density peaks of data and cut edge weight statistic
Liang et al. Optimization of basic clustering for ensemble clustering: an information-theoretic perspective
CN112990364B (zh) 一种图数据节点分类方法及装置
Zhang et al. Clustering optimization algorithm for data mining based on artificial intelligence neural network
Kazemi et al. FEM-DBSCAN: AN efficient density-based clustering approach
CN108897820B (zh) 一种denclue算法的并行化方法
Hautamäki et al. A comparison of categorical attribute data clustering methods
Ding et al. Density peaks clustering algorithm based on improved similarity and allocation strategy
CN116304518A (zh) 用于信息推荐的异质图卷积神经网络模型构建方法及系统
Cabanes et al. On the use of Wasserstein metric in topological clustering of distributional data
Zhang Contributions to large scale data clustering and streaming with affinity propagation. Application to autonomic grids
Mohammadi et al. AN NMF-based community detection method regularized with local and global information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant