CN111831758A - 基于快速的层次属性网络表示学习的节点分类方法及装置 - Google Patents

基于快速的层次属性网络表示学习的节点分类方法及装置 Download PDF

Info

Publication number
CN111831758A
CN111831758A CN202010850921.2A CN202010850921A CN111831758A CN 111831758 A CN111831758 A CN 111831758A CN 202010850921 A CN202010850921 A CN 202010850921A CN 111831758 A CN111831758 A CN 111831758A
Authority
CN
China
Prior art keywords
network
node
attribute
representation
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010850921.2A
Other languages
English (en)
Other versions
CN111831758B (zh
Inventor
赵姝
杜紫维
陈洁
段震
张燕平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co ltd
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202010850921.2A priority Critical patent/CN111831758B/zh
Publication of CN111831758A publication Critical patent/CN111831758A/zh
Application granted granted Critical
Publication of CN111831758B publication Critical patent/CN111831758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于快速的层次属性网络表示学习的节点分类方法及装置,包括以下步骤:S1、构建网络G0;S2、得到一系列网络规模逐渐减小的层次属性网络;S3、获取低维向量表示;S4、获取层次属性网络节点特征;S6、将层次属性网络节点特征和标签送入到分类器中,预测未知类别的节点的标签。本发明先构建网络G0,并网络G0中的拓扑结构和节点的属性信息进行划分得到网络G1,重复划分过程,得到一系列网络规模逐渐减小的层次属性网络,层次属性网络表示方法能够很好的保留网络结构和属性信息及不同粒度的信息,从而提高节点分类的性能。

Description

基于快速的层次属性网络表示学习的节点分类方法及装置
技术领域
本发明涉及网络表示学习技术领域,尤其涉及基于快速的层次属性网络表示学习的节点分类方法及装置。
背景技术
网络是探索和建模现实世界中复杂装置的重要数据结构,如社交网络,引文网络和电子商务网络等都能通过构建复杂网络模型的方法来对其进行一系列数据挖掘分析。节点和边是组成网络的基本部分,如在社交网络中,每一个节点就代表一个社交实体用户,边代表用户之间的关系,通过对用户的类型预测分类,能够实现个性化的推荐。再如引文网络中,每一个节点代表一篇文章,连边代表文章间的引用关系,通过对文章的标签进行预测,能够为研究者推荐相关的引文。因此,对节点的类型、标签进行预测即节点分类的问题研究在数据挖掘分析中具有至关重要的作用。
目前节点分类方法主要基于网络表示学习方法,通过学习节点的低维向量表示来计算节点之间的相似性来进一步对节点的标签进行预测。他们通过不同策略来仅保留结构,在单粒度下保留属性信息与结构,保留层次的结构信息来实现节点的低维映射,然后再进行节点分类。基于单层的表示学习的节点分类方法比较耗时,且不能捕获到更深层次网络的结构信息和属性信息,进而不能在节点分类问题上体现出更大的优越性。仅基于结构的网络表示学习的节点分类方法是不能很好的利用节点的属性信息来获得更高效的分类结果。
如申请号为“CN201710608234.8”的发明专利申请公开了一种基于表示学习的知识库实体分类的计算装置,涉及文本分类和知识库补全领域。所述方法包括步骤:对于知识库中的实体,构造包含不同层次信息的共现网络,将词语or词语,实体or词语,类别or词语,实体or类别之间的共现信息编码到网络中;基于构造的共现网络,利用基于网络的表示学习方法,学习实体和类别的向量表示;基于学习得到的向量表示,利用学习排序算法,为实体和类别学习映射矩阵,语义上相关的实体和类别在语义空间中接近;利用自顶向下的搜索方法,为知识库中的实体自动分配类别,得到一条类别的路径。但是该专利方案中是利用构造包含不同层次信息的共现网络来识别网络,仅仅是基于构造的特定构建识别网络,并未解决仅基于结构的网络表示学习的节点分类方法不能获得更高效的分类结果的问题。
发明内容
本发明所要解决的技术问题在于克服仅基于结构的网络表示学习的节点分类方法不能获得更高效的分类结果的问题。
本发明通过以下技术手段实现解决上述技术问题的:
一种基于快速的层次属性网络表示学习的节点分类方法,包括以下步骤:
S1、以引文网络库为基础,将引文网络库编号并获取节点的标签,再构建网络G0
S2、对网络G0中的拓扑结构和节点的属性信息进行划分得到网络G1,重复划分过程,得到一系列网络规模逐渐减小的层次属性网络:G0、G1、G2…Gi、Gi+1、…Gk,其中i、k为整数,i为0-k之间的整数;
S3、获取最粗层属性网络Gk的节点低维向量表示;
S4、获取GCN模型,并利用最粗层节点的低维向量表示构建目标函数,训练GCN模型中的权重矩阵;
S5、使用GCN模型学习层次属性网络,并迭代执行获得层次属性网络的节点特征表示;
S6、将层次属性网络的节点特征表示和标签送入到分类器中,预测未知类别的节点的标签,标签相同的节点分为同一类,完成节点分类。
先构建网络G0,并对网络G0中的拓扑结构和节点的属性信息进行划分得到网络G1,重复划分过程,得到一系列网络规模逐渐减小的层次属性网络,层次属性网络表示方法能够很好的保留网络结构和属性信息及不同粒度的信息,从而提高节点分类的性能,克服了仅基于结构的网络表示学习的节点分类方法不能获得更高效的分类结果的问题。
作为本发明进一步的方案:所述步骤S1包括:
S11、处理所述引文网络库,包括:
步骤A、将引文网络库中的文章进行编号;且所述引文网络库包括n1篇文章,每篇文章为网络的节点,n1篇文章之间的引用或被引用关系作为网络的连边,连边数量为n2;
步骤B、将引文网络库中的文章进行分为若干类别,且每个节点的标签为类别的编号;
S12、根据处理后引文网络库的数据,构建网络G:
网络G=(V,E,X),其中,V表示n1个节点的集合,E表示n2个连边的集合,X为一个n1·l的多维矩阵,l代表节点属性的维度,G=(V,E,X)=G0
作为本发明进一步的方案:所述划分过程包括:
S21、基于任一个网络Gi,使用非重叠社团划分方法对网络Gi进行社团划分,获取基于结构的社团划分结果:
Figure BDA0002644703060000021
其中,Vi/S表示结构相似的社团划分结果,
Figure BDA0002644703060000022
表示根据结构划分的第j1个社团,j1∈(s1、s2...),s1、s2...表示整数;
S22、选取与网络Gi中节点的标签个数相同的中心节点,网络Gi中节点的属性信息作为每一个节点的表示,计算节点到中心节点的距离,将节点加入到距离最近的中心节点所在社团,从而获取基于属性的社团划分结果
Figure BDA0002644703060000023
其中,Vi表示网络Gi节点的集合,Vi/A表示属性相似的社团划分结果,
Figure BDA0002644703060000031
表示根据节点属性信息划分的第j2个社团;j2为(a1、a2...)中的任意整数,a1、a2...表示整数;
S23、根据基于结构的社团划分结果、基于属性的社团划分结果,获取超点集;
利用公式
Figure BDA0002644703060000032
获取既结构相似又属性相似的社团划分结果,Vi/(S∩A)表示将Vi/S中每个社团分别与Vi/A中每个社团求交集,每一个非空的交集作一个新的社团;
在Vi/(S∩A)中,将每一个新的社团作为超点,进而获得超点集
Figure BDA0002644703060000033
S24、根据超点集
Figure BDA0002644703060000034
利用公式(1)对节点的属性信息粒化形成超点的属性信息;
Figure BDA0002644703060000035
其中,
Figure BDA0002644703060000036
为超点
Figure BDA0002644703060000037
的属性信息,x为正整数,P为1-x之间的整数;任意超点
Figure BDA0002644703060000038
|Vi|表示求模长,得到Vi节点的个数;
S25、根据超点集
Figure BDA0002644703060000039
对超点集中节点的连边粒化形成超点的连边,得到超边,并获取超边集Ei+1
利用公式(2)判断超边
Figure BDA00026447030600000310
是否存在,
Figure BDA00026447030600000311
其中,q、p、w、s表示整数;超边
Figure BDA00026447030600000312
表示超点
Figure BDA00026447030600000313
的连边,
Figure BDA00026447030600000314
表示网络Gi中任意两个节点;
若超边
Figure BDA00026447030600000315
超点
Figure BDA00026447030600000316
Figure BDA00026447030600000317
之间存在超边
Figure BDA00026447030600000318
反之,不存在超边,通过公式(2)得到超点集
Figure BDA00026447030600000319
中的所有超边,即可获得超边集Ei+1
S26、根据超点集Vi+1,超边集Ei+1以及超点的属性信息Xi+1,构建新的网络Gi+1=(Vi +1,Ei+1,Xi+1),且
Figure BDA00026447030600000320
S27、迭代训练得到一系列网络规模逐渐减小的层次属性网络,G0、G1、G2…Gi、Gi +1…Gk;且
Figure BDA00026447030600000410
Gk为最粗层属性网络,>表示粒子的粗细关系,
Figure BDA00026447030600000411
表示Gk-1的粒子比Gk的粒子更细。
作为本发明进一步的方案:所述网络Gk为最粗层属性网络。
作为本发明进一步的方案:所述步骤S3包括:
是使用无监督的网络表示学习方法学习最粗层属性网络Gk中的低维向量表示:
Figure BDA00026447030600000412
为已有的无监督的网络表示学习方法,并判断
Figure BDA00026447030600000413
为基于结构的网络表示学习方法或者为一种属性网络表示学习方法;当
Figure BDA00026447030600000414
为基于结构的网络表示学习方法,执行步骤S31;当
Figure BDA00026447030600000415
为一种属性网络表示学习方法,执行步骤S32;
S31、利用公式(3)获取最粗层属性网络Gk中节点的低维向量表示Zk
Figure BDA0002644703060000041
其中,
Figure BDA0002644703060000042
d代表低维向量的维度,
Figure BDA0002644703060000043
为采用已有的无监督的网络表示方法进行学习最粗层节点的低维向量,
Figure BDA0002644703060000044
表示拼接操作,将网络的属性信息与结构信息相融合,α是一个超参数,PCA为基于主成分分析的降维技术,Vk表示网络Gk的节点集合,Xk表示网络Gk中节点的属性信息;Zk为最粗层属性网络的低维向量表示;
S32、利用公式(4)获取所有层次属性网络中节点的低维向量表示:Zk
Figure BDA0002644703060000045
其中Zk为最粗层属性网络的低维向量表示。
作为本发明进一步的方案:所述获取GCN模型包括:GCN模型H(·)的第jc,jc∈[0,s]层的计算公式为:
Figure BDA0002644703060000046
其中,
Figure BDA0002644703060000047
作为激活函数,
Figure BDA0002644703060000048
是指定层次的可训练权重矩阵,
Figure BDA0002644703060000049
是网络Gk的度矩阵,Dk(p,p)=∑qMk(p,q),λ∈[0,1]是一个用于控制self-loop的超参数,
Figure BDA0002644703060000051
是度矩阵,jc为整数。
作为本发明进一步的方案:
所述构建目标函数包括:利用公式(6)构建目标函数:
Figure BDA0002644703060000052
其中,Zk为最粗层属性网络的低维向量表示,L为目标函数,||||为范数符号,Mk为网络Gk的邻接矩阵,Mk是一个|Vk|×|Vk|的矩阵,且H0(Zk,Mk)=Mk,即GCN模型的第0层等于Mk
作为本发明进一步的方案:所述训练GCN模型中的权重矩阵包括:
更新Δjc使目标函数L取值最小,GCN模型有s层隐藏层,就训练得到s个可训练的权重矩阵Δjc,并返回步骤S42优化GCN模型。
作为本发明进一步的方案:所述步骤S5包括:
S51、利用公式(7)将网络Gi+1的节点特征表示Zi+1分配给Gi的节点来实现跨粒度的学习,
Z″i=Assign(Zi+1,Gi) (7)
其中,跨粒度学习是指从粗层网络到较细层网络间的学习,Z″i是由网络Gi+1细化回来的低维向量表示,Assign(·)表示把超节点的表示分别分配给粒化成超节点细节点,Zi+1表示网络Gi+1的低维向量表示;
S52、获取初始向量;
融合网络Gi的属性信息Xi作为结构信息的补充,并将其作为网络Gi的节点的初始向量Z′i,计算公式如下:
Figure BDA0002644703060000053
Figure BDA0002644703060000054
表示拼接操作,Xi为网络Gi属性信息;
S53、利用GCN模型对初始向量Z′i进行更新学习得到网络Gi的节点特征表示Zi,计算公式如下:
Zi=H(Z′i,Mi) (9)
其中
Figure BDA0002644703060000061
是Gi的邻接矩阵,
Figure BDA0002644703060000062
为实数集。
S54、从最粗到最细,逐层执行步骤S51-s54,直至得到每一层的节点特征表示后,并执行步骤S55;
S55、利用公式(10)计算得到网络节点的低维向量表示;
Figure BDA0002644703060000063
其中
Figure BDA0002644703060000064
表示拼接操作,将结构信息与属性信息进一步的融合,PCA是主成分分析的降维方法,可保留数据的最重要的信息。
一种基于所述的基于快速的层次属性网络表示学习的节点分类方法的分类装置,包括:
构建模块,用于以引文网络库为基础,将引文网络库编号并获取节点的标签,再构建网络Gi,其中i为整数;
划分模块,用于对网络Gi的拓扑结构和节点的属性信息进行划分,粒化得到网络Gi +1,重复粒化过程,从而得到一系列网络规模逐渐减小的层次属性网络:Go、G1、G2…Gi、Gi +1、…Gk,其中i、k为整数;;
获取模块,用于基于层次属性网络,获取最粗层节点的低维向量表示;
优化模块,利用低维向量表以及GCN模型构建目标函数并进行优化;
层次属性网络节点特征模块,用于使用GCN模型学习层次属性网络的低维向量表示,得到细化模型,并迭代执行细化模型,得到层次属性网络节点特征;
分类模块,用于将层次属性网络节点特征和标签送入到分类器中,预测未知类别的节点的标签,标签相同的节点分为同一类,完成节点分类。
本发明的优点在于:
1、本发明中,先构建网络G0,并对网络G0中的拓扑结构和节点的属性信息进行划分得到网络G1,重复划分过程,得到一系列网络规模逐渐减小的层次属性网络,层次属性网络表示方法能够很好的保留网络结构和属性信息及不同粒度的信息,从而提高节点分类的性能,克服了仅基于结构的网络表示学习的节点分类方法不能获得更高效的分类结果的问题。
2、本发明中,通过快速的划分得到粒化模型来缩小网络规模,并快速的学习节点的表示,进而加快的节点分类的速度。
3、本发明可以灵活的使用已有的无监督的仅基于结构或者基于属性的网络表示学习方法学习最粗层得到节点特征表示,体现了本发明节点分类方法的灵活性。
附图说明
图1为本发明实施例1提供的基于快速的层次属性网络表示学习的节点分类方法的流程方框示意图。
图2为本发明实施例1提供的基于快速的层次属性网络表示学习的节点分类方法的框架图。
图3为本发明实施例2提供的基于快速的层次属性网络表示学习的节点分类装置的结构示意图。
图中,301-构建模块,302-划分模块,303-获取模块,304-优化模块,305-层次属性网络节点特征模块,306-分类模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先对CiteSeer(又名ResearchIndex)进行简单的介绍,CiteSeer是NEC研究院在自动引文索引(Autonomous Citation Indexing,ACI)机制的基础上建设的一个学术论文数字图书馆。
实施例1
如图1及图2,图1为本发明实施例1提供的基于快速的层次属性网络表示学习的节点分类方法的流程方框示意图,图2为本发明实施例1提供的基于快速的层次属性网络表示学习的节点分类方法的框架图,包括以下步骤:
S1、以引文网络库为基础,构建网络G;
S11、处理所述引文网络库,具体包括以下步骤:
A、将引文网络库中的文章进行编号;且所述引文网络库包括n1篇文章,每篇文章为网络的节点,n1篇文章之间的引用或被引用关系作为网络的连边,连边数量为n2
将所述引文网络库中的文章按照顺序编号0,1,2···,n1
具体的,本发明以Citeseer为例,Citeseer是一个引文网络库,包含3312篇文章,可分为六大类,Agents(装置)、AI(Artificial Intelligence,人工智能)、DB(Database,数据库)、IR(Information Retrieval,信息检索)、ML(Machine Learning,机器学习)和HCL(HCL表示(Human-Computer Interaction人机交互),且每篇文章之间包含4660个引用或被引用关系,每篇文章包含标题和摘要,且所述Citeseer中的每一篇文章为网络中的节点,并按顺序连续编号0,1,2···,3311,引用或被引用关系为网络的连边,数量为n2
B、将引文网络库中的文章进行分类;
本实施例中,把Citeseer中文章的类别进行编号0,1···,5,作为每个节点的标签;将每一篇文章的标题和摘要,去除停用词和在文档中出现频率低于10次的低频词后整理得到3703个词,平均每篇文档包含32个词,作为文章的属性信息,并利用TfidfVectorizer得到属性信息的3703维的向量表示;
将实体的属性信息去除停止词和低频词后转换为TF-IDF向量表示,该向量作为节点的属性信息。
S12、根据处理后引文网络库的数据,构建网络G0
网络G=(V,E,X),其中,V表示n1个节点的集合,E表示n2个连边的集合,X为一个n1·l的多维矩阵,l代表节点属性的维度,l通常为已知的,且G=(V,E,X)=G0
本实施例中,因为Citeseer中有3312个节点、4660条连边,所以本实施例中,V表示3312个节点的集合,V={v0,v1,···v3311};
E表示网络中4660条连边的集合;E={e1,e2,···e4660},其中,e=(u,v)∈E,表示节点v和节点u之间存在连边(即存在引用关系),v、u表示V={v0,v1,···v3311}中的任意两个不同的节点;
X是一个3312×3703维的矩阵,3703为Citeseer中的节点属性的维度,该矩阵中第i行表示第i个节点vi的属性信息,用xi表示;
S2、对网络G0中的拓扑结构和节点的属性信息进行划分,利用社团发现方法分别对网络的拓扑结构和节点的属性信息进行划分得到网络G1,重复划分过程得到网络Gk;即得到一系列网络规模逐渐减小的层次属性网络:Go、G1、G2…Gi、Gi+1、…Gk,其中i、k为整数;且i为0-k之间的整数;
Figure BDA0002644703060000081
Gi表示第i次迭代粒化过程后得到的网络Gi,i为整数,>表示粒子的粗细关系,
Figure BDA0002644703060000082
表示Gi的粒子比Gi+1的粒子更细,也就是说,|Vi|>|Vi+1|,Vi表示网络Gi中节点的集合,所以网络Gk为最粗层网络。
步骤S2中,对网络的拓扑结构和节点的属性信息进行划分,得到网络G1,该划分过程即得到粒化模型的过程,G1为网络G0的粒化模型,重复粒化模型的过程得到Gi+1,从而得到一系列网络规模逐渐减小的层次属性网络Gi+1,所以步骤S2是一个迭代的过程,步骤得到粒化模型的过程如下:
S21、获取基于结构的社团划分结果;
本实施例中,根据网络Gi的拓扑结构,使用任意一种快速的非重叠社团划分方法(本实施例中使用Louvain算法),将拓扑结构相似的节点划分到同一个社团,同一个社团内的节点更相似,获得一个基于结构的社团划分结果:
Figure BDA0002644703060000091
其中,Vi/S表示结构相似的社团划分结果,即为基于结构的社团集合,S为Structure(结构)的缩写,
Figure BDA0002644703060000092
表示根据结构划分的第j1个社团,j1∈(s1、s2...),s1、s2...表示整数;
需要说明的是,社团划分的方法的选择比较灵活,任意的快速非重叠的社团发现方法都可以用于步骤S21;
S22、利用K-Means算法,选取与节点的标签个数相同的中心节点,节点的属性信息作为每一个节点的表示,计算节点到中心节点的距离,将节点加入到距离最近的中心节点所在社团,获取基于属性的社团划分结果
Figure BDA0002644703060000093
其中,Vi表示网络Gi节点的集合,Vi/A表示属性相似的社团划分结果,即属性相似的社团集合,A为Attribute(属性),
Figure BDA0002644703060000094
表示根据节点属性信息划分的第j个社团;j2为(a1、a2...)中的任意整数,a1、a2...表示整数。
S23、根据基于结构的社团划分结果、基于属性的社团划分结果,获取超点集;
在真实的网络中,具有相同标签的节点一般具有相似的结构与属性信息,进行节点分类时在相同社团的内的节点更容易分为同一类。
本实施例中,利用公式
Figure BDA0002644703060000095
获取既结构相似又属性相似的社团,Vi/(S∩A)表示将Vi/S中每个社团分别与Vi/A中每个社团求交集,每一个非空的交集作一个新的社团,从而得到既结构相似又属性相似的社团划分结果;
在Vi/(S∩A)中,将每一个社团作为超点(即新的节点)vi+1,所以超点集为
Figure BDA0002644703060000096
S24、根据超点集
Figure BDA0002644703060000097
利用公式(1)对节点的属性信息粒化形成超点的属性信息;
Figure BDA0002644703060000098
其中,P为任意整数,
Figure BDA0002644703060000099
为超点
Figure BDA00026447030600000910
的属性信息,x为整数,P为1-x之间的整数;
划分到同一个社团的节点具有相似的属性信息,因此可将它们属性的平均值作为整个社团的属性信息。
步骤S24中对原始网络的属性信息进行粒化,获得超点的属性信息,这样能够构建属性网络,且属性网络中,最粗层的网络保留原始网络的主干结构和属性信息以求解出原始网络的节点表示的近似解,充分的利用原始网络的属性信息,使得相似的节点的表示更相近,更易将相似的节点分到相同的类别中。
S25、根据超点集
Figure BDA00026447030600000911
对超点集中节点的连边粒化形成超点的连边,得到超边,从而获取超边集Ei+1
如果两个社团中存在节点连边,那么两个社团之间存在连边,对于任意超点
Figure BDA0002644703060000101
Figure BDA0002644703060000102
则超边
Figure BDA0002644703060000103
利用公式(2)判断超边
Figure BDA0002644703060000104
是否存在,
Figure BDA0002644703060000105
其中,q、p、w、s表示整数;超边
Figure BDA0002644703060000106
表示超点
Figure BDA0002644703060000107
的连边,
Figure BDA0002644703060000108
表示任意两个节点;
Figure BDA0002644703060000109
为超点集;
若超边
Figure BDA00026447030600001010
超点
Figure BDA00026447030600001011
Figure BDA00026447030600001012
之间存在超边
Figure BDA00026447030600001013
反之,不存在超边,通过公式(2)得到超点集
Figure BDA00026447030600001014
中的所有超边,即可获得超边集Es i+1
示例性的,超点
Figure BDA00026447030600001015
中包含网络Gi中的节点集为{a1,b1,c1},超点
Figure BDA00026447030600001016
中包网络含Gi中的节点集为{a2,b2,c2,d},如果a1和b2之间、c1和d之间均存在连边,即,(a1,b2)∈Es i且权重wa1b2=1,(c1,d)∈Es i且权重wc1d=2,其余节点间不存在边,则
Figure BDA00026447030600001017
且权重wpq=3。
S26、根据超点集Vi+1,超边集Ei+1以及超点的属性信息Xi+1构建粒化模型Gi+1=(Vi +1,Ei+1,Xi+1),且
Figure BDA00026447030600001021
S27、基于粒化模型,构建一系列网络规模逐渐减小的层次属性网络
Figure BDA00026447030600001022
k为0至i+1之间的整数,且Gk为最粗层网络。
k为层次属性网络的层数,本实施例中以Citeseer为对象,所以层数k设置为3,将G=G0输入到粒化模型生成G1,重复步骤S21至S26依次迭代,可获得层次的属性网络
Figure BDA00026447030600001023
其中:
|V0|=3312>|V1|=1614>|V2|=938>|V3|=661,
|E0|=4660>|E1|=3338>|E2|=1843>|E3|=1137。
S3、利用无监督网络表示学习方法学习最粗层属性网络的低维向量表示;
Figure BDA00026447030600001018
为已有的无监督的网络表示学习方法,并判断
Figure BDA00026447030600001019
为基于结构的网络表示学习方法或者为一种属性网络表示学习方法;当
Figure BDA00026447030600001020
为基于结构的网络表示学习方法,执行步骤S31;当
Figure BDA0002644703060000111
为一种属性网络表示学习方法,执行步骤S32;
S31、利用公式(3)获取所有层次属性网络中节点的低维向量表示:Zk
Figure BDA0002644703060000112
其中,
Figure BDA0002644703060000113
d代表低维向量的维度,
Figure BDA0002644703060000114
为采用已有的无监督的网络表示方法进行学习最粗层节点的低维向量,
Figure BDA0002644703060000115
表示拼接操作,将网络的属性信息与结构信息相融合,α是一个超参数,用于调节属性信息与结构的权重,PCA(principal componentanalysis,主成分分析)是一种基于主成分分析的降维技术,在降维过程中保留了数据最重要的部分,ViVk表示网络Gk的节点集合,Xk表示网络Gk中节点的属性信息;Zk为最粗层属性网络的低维向量表示;
S32、利用公式(4)获取所有层次属性网络中节点的低维向量表示:Zk
Figure BDA0002644703060000116
其中Zk为最粗层属性网络的低维向量表示;
需要说明的是,本实施例中,
Figure BDA0002644703060000117
的选择是非常灵活的,仅基于结构的或基于属性的网络表示学习方法均可适用于步骤S3。
此外,因为本实施例中K为3,所以
Figure BDA0002644703060000118
d=128代表低维向量的维度。
S4、获取GCN模型,并利用最粗层节点的低维向量表示构建目标函数,训练GCN模型中的权重矩阵
S41、获取GCN模型包括:并利用最粗层节点的低维向量表示构建目标函数,训练GCN模型中的权重矩阵;
S42、计算GCN模型H(·),快速无监督的GCN模型是一个由多个H(·)堆叠构建,GCN模型H(·)的第jc,jc∈[0,s]层的计算公式为:
Figure BDA0002644703060000119
其中,
Figure BDA00026447030600001110
作为激活函数,
Figure BDA00026447030600001111
是指定层次的可训练权重矩阵,
Figure BDA00026447030600001112
是网络Gk的度矩阵,Dk(p,p)=∑qMk(p,q),λ∈[0,1]是一个用于控制self-loop的超参数,
Figure BDA00026447030600001113
是度矩阵;jc为整数;
Figure BDA0002644703060000121
是指定层次的可训练权重矩阵,
Figure BDA0002644703060000122
是网络G3的度矩阵,D3(p,p)=∑qM3(p,q)。λ∈[0,1]是一个用于控制self-loop的超参数,
Figure BDA0002644703060000123
是标准度矩阵。
S42、构建目标函数包括;
本实施例中,将最粗层网络Gk=(Vk,Ek,Xk)的节点特征表示为Zk,并利用快速无监督的GCN模型构建目标函数,用H(·)表示一种能够快速运算的简单的层次线性快速无监督的GCN模型,可堆叠多层来实现高容量运算,H为每一层的特征表示,记s为GCN模型堆叠的层,即GCN模型的隐层层的个数。
网络Gk的邻接矩阵为Mk,Mk是一个|Vk|×|Vk|的矩阵,GCN模型是一个多层的模型,后一层是根据前一层的输出来学习的,本发明中,直接使用邻接矩阵作为第一层的输出H0,所以令第一层GCN学习到的输出表示为H0(Zk,Mk)=Mk,根据Zk和GCN模型构建的目标函数L;
Figure BDA0002644703060000124
其中,L为目标函数,||||为范数符号,范数是一种数学的基本概念,是一种函数,本实施例为2-范数,Mk为网络Gk的邻接矩阵,Mk是一个|Vk|×|Vk|的矩阵,且H0(Zk,Mk)=Mk,即GCN模型的第0层等于Mk,S为GCN的隐藏层层数;
示例性的,令第一层GCN学习到的表示为H0(Z3,M3)=M3,其中,M3为网络G3的邻接矩阵,M3是一个661×661的矩阵;H0表示表示第一层GCN网络,Hs(Z3,M3)为第S层GCN学习到的表示;
利用公式(5)构建目标函数L,包括:
令第一层GCN学习到的表示为H0(Z3,M3)=M3
S43、训练GCN模型中的权重矩阵包括:利用AdamOptimizer优化算法来更新Δj使目标函数取值最小,GCN有s层隐藏层,利用目标函数L训练得到s个权重矩阵Δj,将权重矩阵Δj返回步骤S42中从而优化GCN模型,GCN模型是多层的,且每层都有一个权重矩阵。
本实施例中,训练学习得到哪个权重矩阵,然后再细化过程中直接使用,并不需要每一层都训练一次GCN模型。
S5、使用GCN模型学习层次属性网络,并迭代执行获得层次属性网络的节点特征表示。
步骤S5是一个迭代的过程,具体包括:
S51、利用公式(7)将网络Gi+1的节点特征表示Zi+1分配给Gi的节点来实现跨粒度的学习,将节点细化,在粒化过程中,哪些节点粒化形成该超节点,在细化的过程中就把该超节点的表示分配给(赋给)相对应的节点作为初向量(即细化过程),即把超节点的表示分配给粒化形成该超节点的细节点。
Z″i=Assign(Zi+1,Gi) (7)
其中,跨粒度学习是指从粗层网络到较细层网络间的学习,Z″i是由网络Gi+1细化回来的低维向量表示,Assign(·)表示把超节点的表示分别分配给粒化成超节点的细节点,Zi+1表示网络Gi+1的低维向量表示。
示例性的,超节点
Figure BDA0002644703060000131
是由社团
Figure BDA0002644703060000132
粒化形成的,已知
Figure BDA0002644703060000133
是超点
Figure BDA0002644703060000134
的低维向量表示,则:
Figure BDA0002644703060000135
其中,u、v、w表示整数;
S52、融合网络Gi的属性信息Xi作为结构信息的补充,并将其作为网络Gi的节点的初始向量Z′i
Figure BDA0002644703060000136
这里
Figure BDA0002644703060000137
表示拼接操作,Xi为网络Gi的属性信息,将结构信息与属性信息进一步的融合;
S53、利用GCN模型对初始向量Z′i进行更新学习得到网络Gi的节点特征表示Zi,计算公式如下:
Zi=H(Z′i,Mi) (9)
其中
Figure BDA0002644703060000138
是Gi的邻接矩阵。
S54、从最粗到最细,依次逐层执行步骤S51-S53,得到每一层网络G中节点特征表示;
结合实例Citeseer,首先将最粗层网络G3的节点特征表示Z3输入到细化模型中输出Z2,然后迭代的将输出的节点特征表示送到细化模型中,得到每一层的节点特征表示Z3,Z2,Z1,Z0
S55、利用公式(10)计算得到网络节点的低维向量表示;
Figure BDA0002644703060000141
其中
Figure BDA0002644703060000142
表示拼接操作,将结构信息与属性信息进一步的融合,PCA是主成分分析的降维方法,可保留数据的最重要的信息;
该步骤能够融合原始网络的属性信息来补充学习过程中的损失。
S6、将节点的节点特征表示Z和网络G节点的标签送入到节点分类模型中,预测未知类别的节点的标签。
需要说明的是,本发明中所提到的节点分类模型是非常常见的一种分类模型,比如使用SVM分类器,本申请并未对分类模型进行改进。
步骤S6根据低维向量表示Z和网络G节点的标签,利用SVM分类器,预测出未知标签的节点的标签,标签相同的节点分为同一类。
实施例2
如图3,图3为本发明实施例2提供的基于快速的层次属性网络表示学习的节点分类装置的结构示意图,包括:
构建模块301,用于以引文网络库为基础,将引文网络库编号并获取节点的标签,再构建网络Gi,其中i为整数;还用于:
步骤A、将引文网络库中的文章进行编号;且所述引文网络库包括n1篇文章,每篇文章为网络的节点,n1篇文章之间的引用或被引用关系作为网络的连边,连边数量为n2
步骤B、将引文网络库中的文章进行分为若干类别,且每个节点的标签为类别的编号;
网络G=(V,E,X),其中,V表示n1个节点的集合,E表示n2个连边的集合,X为一个n1·l的多维矩阵,n1、n2为任意整数,G=(V,E,X)=G0
划分模块302,用于对网络Gi的拓扑结构和节点的属性信息进行划分,粒化得到网络Gi+1,重复粒化过程,从而得到一系列网络规模逐渐减小的层次属性网络:Go、G1、G2…Gi、Gi +1、…Gk,其中i、k为整数,i为0-k之间的整数;还用于:
S21、基于任一个网络Gi,使用非重叠社团划分方法对网络Gi进行社团划分,获取基于结构的社团划分结果:
Figure BDA0002644703060000151
其中,Vi/S表示结构相似的社团划分结果,
Figure BDA0002644703060000152
表示根据结构划分的第j1个社团,j1∈(s1、s2...),s1、s2...表示整数;
S22、选取与网络Gi中节点的标签个数相同的中心节点,网络Gi中节点的属性信息作为每一个节点的表示,计算节点到中心节点的距离,将节点加入到距离最近的中心节点所在社团,从而获取基于属性的社团划分结果
Figure BDA0002644703060000153
其中,Vi表示网络Gi节点的集合,Vi/A表示属性相似的社团划分结果,
Figure BDA0002644703060000154
表示根据节点属性信息划分的第j2个社团;j2为(a1、a2...)中的任意整数,a1、a2...表示整数;
S23、根据基于结构的社团划分结果、基于属性的社团划分结果,获取超点集;
利用公式
Figure BDA0002644703060000155
获取既结构相似又属性相似的社团划分结果,Vi/(S∩A)表示将Vi/S中每个社团分别与Vi/A中每个社团求交集,每一个非空的交集作一个新的社团;
在Vi/(S∩A)中,将每一个新的社团作为超点vi+1,进而获得超点集
Figure BDA0002644703060000156
S24、根据超点集
Figure BDA0002644703060000157
利用公式(1)对节点的属性信息粒化形成超点的属性信息;
Figure BDA0002644703060000158
其中,P为任意整数,
Figure BDA0002644703060000159
为超点
Figure BDA00026447030600001510
的属性信息,x为整数,P为1-x之间的整数;
S25、根据超点集
Figure BDA00026447030600001511
对超点集中节点的连边粒化形成超点的连边,得到超边,并获取超边集Ei+1
利用公式(2)判断超边
Figure BDA00026447030600001512
是否存在,
Figure BDA0002644703060000161
其中,q、p、w、s表示整数;超边
Figure BDA0002644703060000162
表示超点
Figure BDA0002644703060000163
的连边,
Figure BDA0002644703060000164
表示任意两个节点;
若超边
Figure BDA0002644703060000165
超点
Figure BDA0002644703060000166
Figure BDA0002644703060000167
之间存在超边
Figure BDA0002644703060000168
反之,不存在超边,通过公式(2)得到超点集
Figure BDA0002644703060000169
中的所有超边,即可获得超边集Es i+1
S26、根据超点集Vi+1,超边集Ei+1以及超点的属性信息Xi+1,构建新的网络Gi+1=(Vi +1,Ei+1,Xi+1),且
Figure BDA00026447030600001615
S27、迭代训练得到一系列网络规模逐渐减小的层次属性网络,Go、G1、G2…Gi、Gi+1;且
Figure BDA00026447030600001616
k即为i+1,Gk为最粗层属性网络,>表示粒子的粗细关系,
Figure BDA00026447030600001617
表示Gk-1的粒子比Gk的粒子更细。
获取模块303,获取最粗层网络Gk的节点低维向量表示;还用于:
Figure BDA00026447030600001621
为已有的无监督的网络表示学习方法,并判断
Figure BDA00026447030600001618
为基于结构的网络表示学习方法或者为一种属性网络表示学习方法;当
Figure BDA00026447030600001619
为基于结构的网络表示学习方法,执行步骤S31;当
Figure BDA00026447030600001620
为一种属性网络表示学习方法,执行步骤S32;
S31、利用公式(3)获取所有层次属性网络中节点的低维向量表示:Zk
Figure BDA00026447030600001610
其中,
Figure BDA00026447030600001611
d代表低维向量的维度,
Figure BDA00026447030600001612
为采用已有的无监督的网络表示方法进行学习最粗层节点的低维向量,
Figure BDA00026447030600001613
表示拼接操作,将网络的属性信息与结构信息相融合,α是一个超参数,用于调节属性信息与结构的权重,PCA(principal componentanalysis,主成分分析)是一种基于主成分分析的降维技术,在降维过程中保留了数据最重要的部分,ViVk表示网络Gk的节点集合,Xk表示网络Gk中节点的属性信息;Zk为最粗层属性网络的低维向量表示;
S32、利用公式(4)获取所有层次属性网络中节点的低维向量表示:Zk
Figure BDA00026447030600001614
其中Zk为最粗层属性网络的低维向量表示。
优化模块304,获取GCN模型,并利用最粗层节点的低维向量表示构建目标函数,训练GCN模型中的权重矩阵;
计算GCN模型H(·);
GCN模型H(·)的第jc,jc∈[0,s]层的计算公式为:
Figure BDA0002644703060000171
其中,
Figure BDA0002644703060000172
作为激活函数,
Figure BDA0002644703060000173
是指定层次的可训练权重矩阵,
Figure BDA0002644703060000174
是网络Gk的度矩阵,Dk(p,p)=∑qMk(p,q),λ∈[0,1]是一个用于控制self-loop的超参数,
Figure BDA0002644703060000175
是度矩阵,jc为常数;
Figure BDA0002644703060000176
其中,L为目标函数,||||为范数符号,Mk为网络Gk的邻接矩阵,Mk是一个|Vk|×|Vk|的矩阵,且Mk=H0(Zk,Mk);
更新权重矩阵Δj使目标函数L取值最小,GCN模型有s层隐藏层,就训练得到s个可训练的权重矩阵Δj,并返回优化GCN模型。
层次属性网络节点特征模块305,用于使用GCN模型学习层次属性网络的低维向量表示,得到细化模型,并迭代执行细化模型,得到层次属性网络节点的低维向量表示,即为层次属性网络节点特征;
还用于:利用公式(7)将网络Gi+1的节点特征表示Zi+1分配给Gi的节点来实现跨粒度的学习,
Z″i=Assign(Zi+1,Gi) (7)
其中,Z″i是网络Gi+1细化回来的低维向量表示,Assign(·)表示把超节点的表示分别分配给粒化成超节点细节点,Zi+1表示网络Gi+1的低维向量表;
获取初始向量;
融合网络Gi的属性信息Xi作为结构信息的补充,并将其作为网络Gi的节点的初始向量Z′i,计算公式如下:
Figure BDA0002644703060000181
Figure BDA0002644703060000182
表示拼接操作,Xi为网络Gi属性信息;
利用GCN模型对初始向量Z″i进行更新学习得到网络Gi的节点特征表示Zi,计算公式如下:
Zi=H(Z′i,Mi) (9)
其中
Figure BDA0002644703060000183
是Gi的邻接矩阵,R为实数集。
S54、从最粗到最细,逐层执行步骤S51-s54,直至得到每一层的节点特征表示后,并执行步骤S55;
S55、利用公式(10)计算得到网络节点的低维向量表示;
Figure BDA0002644703060000184
其中
Figure BDA0002644703060000185
表示拼接操作,将结构信息与属性信息进一步的融合,PCA是主成分分析的降维方法,可保留数据的最重要的信息。
分类模块306,用于将层次属性网络节点特征和标签送入到分类器中,预测未知类别的节点的标签,标签相同的节点分为同一类,完成节点分类。
示例性的,为验证本发明提出技术方案的有效性和先进性,选取几种已有的节点分类方法进行对比:DeepWalk、LINE、Node2vec、GraRep、NodeSketch、STNE、CAN、HARP、MILE和GraphZoom。其中DeepWalk、LINE、Node2vec、GraRep、NodeSketch、HARP和MILE都是仅基于结构的方法,先学习每个节点的低维表示在进行节点分类,本发明(记为HANE)和STNE,CAN及GraphZoom(缩写为GZ)都是融合了属性信息来学习低维节点的表示,然后进行节点分类的方法。在本发明中,GCN的隐藏层层数s设置为2,维度d设置为128,层数k分别设置为1,2,3,最粗层使用DeepWalk来学习节点的表示。通过Micro-F1和Macro-F1对上述方法在Citeseer引文网络集上不同训练集比例上的节点分类结果进行评价,最好的结果已加粗,结果如表1所示。从表1可以看出,本发明在所有的比例上的分类都取得最优的结果。
为验证本发明提出技术方案的快速性,在数据集Cora、Citeseer、DBLP、PubMed引文网络上使用本发明的方法做了节点分类。同样选取几种已有的节点分类方法进行对比:DeepWalk、LINE、Node2vec、GraRep、STNE、CAN、HARP、MILE和GraphZoom。在本发明(HANE)中,GCN的隐藏层层数s设置为2,维度设置为128,层数k分别设置为1,2,3,最粗层使用DeepWalk来学习节点的表示,节点分类消耗时间的比较如表2。
从表2中可以看出,本发明在时间上的提升也是非常的明显,且平均提升也很大。在Citeseer数据集上本发明的方法在时间上略差于HARP方法,因为本发明在学习节点的过程充分的融合了属性信息,而HARP是仅基于结构的方法
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
表1.在Citeseer数据集上的节点分类的结果
Figure BDA0002644703060000191
表2.在不同数据集上节点分类的时间
Figure BDA0002644703060000201
表3.针对本发明的最粗层网络表示学习模块,不同方法节点分类的结果
Figure BDA0002644703060000202

Claims (10)

1.一种基于快速的层次属性网络表示学习的节点分类方法,其特征在于,包括以下步骤:
S1、以引文网络库为基础,将引文网络库编号并获取节点的标签,再构建网络G0
S2、对网络G0中的拓扑结构和节点的属性信息进行划分得到网络G1,重复划分过程,得到一系列网络规模逐渐减小的层次属性网络:Go、G1、G2…Gi、Gi+1、…Gk,其中i、k为整数,i为0-k之间的整数;
S3、获取最粗层属性网络Gk的节点低维向量表示;
S4、获取GCN模型,并利用最粗层节点的低维向量表示构建目标函数,训练GCN模型中的权重矩阵;
S5、使用GCN模型学习层次属性网络,并迭代执行获得层次属性网络的节点特征表示;
S6、将层次属性网络的节点特征和标签送入到分类器中,预测未知类别的节点的标签,标签相同的节点分为同一类,完成节点分类。
2.根据权利要求1所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述步骤S1包括:
S11、处理所述引文网络库,包括:
步骤A、将引文网络库中的文章进行编号;且所述引文网络库包括n1篇文章,每篇文章为网络的节点,n1篇文章之间的引用或被引用关系作为网络的连边,连边数量为n2
步骤B、将引文网络库中的文章进行分为若干类别,且每个节点的标签为类别的编号;
S12、根据处理后引文网络库的数据,构建网络G0
网络G=(V,E,X),其中,V表示n1个节点的集合,E表示n2个连边的集合,X为一个n1·l的多维矩阵,l代表节点属性的维度,n1、n2为任意整数,G=(V,E,X)=G0
3.根据权利要求2所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述划分过程包括:
S21、基于任一个网络Gi,使用非重叠社团划分方法对网络Gi进行社团划分,获取基于结构的社团划分结果:
Figure FDA0002644703050000011
其中,Vi/S表示结构相似的社团划分结果,
Figure FDA0002644703050000012
表示根据结构划分的第j1个社团,j1∈(s1、s2...),s1、s2...表示整数;
S22、选取与网络Gi中节点的标签个数相同的中心节点,网络Gi中节点的属性信息作为每一个节点的表示,计算节点到中心节点的距离,将节点加入到距离最近的中心节点所在社团,从而获取基于属性的社团划分结果
Figure FDA0002644703050000021
其中,Vi表示网络Gi节点的集合,Vi/A表示属性相似的社团划分结果,
Figure FDA0002644703050000022
表示根据节点属性信息划分的第j2个社团;j2为(a1、a2...)中的任意整数,a1、a2...表示整数;
S23、根据基于结构的社团划分结果、基于属性的社团划分结果,获取超点集;
利用公式
Figure FDA0002644703050000023
获取既结构相似又属性相似的社团划分结果,Vi/(S∩A)表示将Vi/S中每个社团分别与Vi/A中每个社团求交集,每一个非空的交集作一个新的社团;
在Vi/(S∩A)中,将每一个新的社团作为超点vi+1,进而获得超点集
Figure FDA0002644703050000024
S24、根据超点集
Figure FDA0002644703050000025
利用公式(1)对节点的属性信息粒化形成超点的属性信息;
Figure FDA0002644703050000026
其中,P为任意整数,
Figure FDA0002644703050000027
为超点
Figure FDA0002644703050000028
的属性信息,x为整数,P为1-x之间的整数;
S25、根据超点集
Figure FDA0002644703050000029
对超点集中节点的连边粒化形成超点的连边,得到超边,基于超边即可获取超边集Ei+1
利用公式(2)判断超边
Figure FDA00026447030500000210
是否存在,
Figure FDA00026447030500000211
其中,q、p、w、s表示整数;超边
Figure FDA00026447030500000212
表示超点
Figure FDA00026447030500000213
的连边,
Figure FDA00026447030500000214
表示表示网络Gi中任意两个节点;
若超边
Figure FDA00026447030500000215
超点
Figure FDA00026447030500000216
Figure FDA00026447030500000217
之间存在超边
Figure FDA00026447030500000218
反之,不存在超边,通过公式(2)得到超点集
Figure FDA0002644703050000031
中的所有超边,即可获得超边集Ei+1
S26、根据超点集Vi+1,超边集Ei+1以及超点的属性信息Xi+1,构建新的网络Gi+1=(Vi+1,Ei +1,Xi+1),且Gi>Gi+1
S27、迭代训练得到一系列网络规模逐渐减小的层次属性网络,Go、G1、G2…Gi、Gi+1…Gk;且G0>G1>···>Gk;>表示粒子的粗细关系,Gk-1>Gk表示Gk-1的粒子比Gk的粒子更细。
4.根据权利要求3所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述网络Gk为最粗层属性网络。
5.根据权利要求3所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述步骤S3包括:
Figure FDA0002644703050000032
为已有的无监督的网络表示学习方法,并判断
Figure FDA0002644703050000033
为基于结构的网络表示学习方法或者为一种属性网络表示学习方法;当
Figure FDA0002644703050000034
为基于结构的网络表示学习方法,执行步骤S31;当
Figure FDA0002644703050000035
为一种属性网络表示学习方法,执行步骤S32;
S31、利用公式(3)获取最粗层属性网络Gk中节点的低维向量表示Zk
Figure FDA0002644703050000036
其中,
Figure FDA0002644703050000037
d代表低维向量的维度,
Figure FDA0002644703050000038
为采用已有的无监督的网络表示方法进行学习最粗层节点的低维向量,
Figure FDA0002644703050000039
表示拼接操作,将网络的属性信息与结构信息相融合,α是一个超参数,PCA为基于主成分分析的降维技术,Vk表示网络Gk的节点集合,Xk表示网络Gk中节点的属性信息;Zk为最粗层属性网络的低维向量表示;
S32、利用公式(4)获取所有层次属性网络中节点的低维向量表示:Zk
Figure FDA00026447030500000310
其中Zk为最粗层属性网络的低维向量表示。
6.根据权利要求5所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,
所述获取GCN模型包括:GCN模型H(·)的第jc,jc∈[0,s]层的计算公式为:
Figure FDA0002644703050000041
其中,
Figure FDA0002644703050000042
作为激活函数,
Figure FDA0002644703050000043
是指定层次的可训练权重矩阵,
Figure FDA0002644703050000044
是网络Gk的度矩阵,Dk(p,p)=∑qMk(p,q),λ∈[0,1]是一个用于控制self-loop的超参数,
Figure FDA0002644703050000045
是度矩阵,jc为整数。
7.根据权利要求6所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述构建目标函数包括:利用公式(6)构建目标函数:
Figure FDA0002644703050000046
其中,L为目标函数,||||为范数符号,Mk为网络Gk的邻接矩阵,Mk是一个|Vk|×|Vk|的矩阵,且H0(Zk,Mk)=Mk,即GCN模型的第0层等于Mk
8.根据权利要求7所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述训练GCN模型中的权重矩阵包括:
更新权重矩阵Δj使目标函数L取值最小,GCN模型有s层隐藏层,就训练得到s个可训练的权重矩阵Δj,并返回步骤S42优化GCN模型。
9.根据权利要求8所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述步骤S5包括:
S51、利用公式(7)将网络Gi+1的节点特征表示Zi+1分配给Gi的节点来实现跨粒度的学习,
Z″i=Assign(Zi+1,Gi) (7)
其中,Z″i是由网络Gi+1细化回来的低维向量表示,Assign(·)表示把超节点的表示分别分配给细节点,Zi+1表示网络Gi+1的低维向量表示;
S52、获取初始向量;
融合网络Gi的属性信息Xi作为结构信息的补充,并将其作为网络Gi的节点的初始向量Z′i,计算公式如下:
Figure FDA0002644703050000051
Figure FDA0002644703050000052
表示拼接操作,Xi为网络Gi属性信息;
S53、利用GCN模型对初始向量Z′i进行更新学习得到网络Gi的节点特征表示Zi,计算公式如下:
Zi=H(Z′i,Mi) (9)
其中
Figure FDA0002644703050000053
是Gi的邻接矩阵,
Figure FDA0002644703050000054
为实数集。
S54、从最粗到最细,逐层执行步骤S51-s54,直至得到每一层网络Gi的节点特征表示后,并执行步骤S55;
S55、利用公式(10)计算得到网络节点的低维向量表示;
Figure FDA0002644703050000055
其中
Figure FDA0002644703050000056
表示拼接操作,将结构信息与属性信息进一步的融合,PCA是主成分分析的降维方法。
10.一种基于权利要求1-9任一所述的基于快速的层次属性网络表示学习的节点分类方法的分类装置,其特征在于,包括:
构建模块,用于以引文网络库为基础,将引文网络库编号并获取节点的标签,再构建网络Gi,其中i为整数;
划分模块,用于对网络Gi的拓扑结构和节点的属性信息进行划分,粒化得到网络Gi+1,重复粒化过程,从而得到一系列网络规模逐渐减小的层次属性网络:Go、G1、G2…Gi、Gi+1、…Gk,其中i、k为整数;
获取模块,用于基于层次属性网络,获取最粗层节点的低维向量表示;
优化模块,利用低维向量表以及GCN模型构建目标函数并进行优化;
层次属性网络节点特征模块,使用GCN模型学习层次属性网络,并迭代执行获得层次属性网络的节点特征表示;
分类模块,用于将层次属性网络节点特征和标签送入到分类器中,预测未知类别的节点的标签,标签相同的节点分为同一类,完成节点分类。
CN202010850921.2A 2020-08-21 2020-08-21 基于快速的层次属性网络表示学习的节点分类方法及装置 Active CN111831758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010850921.2A CN111831758B (zh) 2020-08-21 2020-08-21 基于快速的层次属性网络表示学习的节点分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010850921.2A CN111831758B (zh) 2020-08-21 2020-08-21 基于快速的层次属性网络表示学习的节点分类方法及装置

Publications (2)

Publication Number Publication Date
CN111831758A true CN111831758A (zh) 2020-10-27
CN111831758B CN111831758B (zh) 2022-09-16

Family

ID=72918242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010850921.2A Active CN111831758B (zh) 2020-08-21 2020-08-21 基于快速的层次属性网络表示学习的节点分类方法及装置

Country Status (1)

Country Link
CN (1) CN111831758B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529168A (zh) * 2020-12-29 2021-03-19 中国人民解放军国防科技大学 一种基于gcn的属性多层网络表示学习方法
CN112990364A (zh) * 2021-04-22 2021-06-18 中国人民解放军军事科学院国防科技创新研究院 一种图数据节点分类方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120005154A1 (en) * 2010-06-28 2012-01-05 Johann George Efficient recovery of transactional data stores
CN109117943A (zh) * 2018-07-24 2019-01-01 中国科学技术大学 利用多属性信息增强网络表征学习的方法
CN110020023A (zh) * 2018-12-19 2019-07-16 大连理工大学 基于融合结构特征的属性网络表示学习方法
CN110879859A (zh) * 2019-11-23 2020-03-13 安徽大学 一种保存序列关联关系的属性网络表示学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120005154A1 (en) * 2010-06-28 2012-01-05 Johann George Efficient recovery of transactional data stores
CN109117943A (zh) * 2018-07-24 2019-01-01 中国科学技术大学 利用多属性信息增强网络表征学习的方法
CN110020023A (zh) * 2018-12-19 2019-07-16 大连理工大学 基于融合结构特征的属性网络表示学习方法
CN110879859A (zh) * 2019-11-23 2020-03-13 安徽大学 一种保存序列关联关系的属性网络表示学习方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JIE CHEN 等: "Marc: Multi-Granular Representation Learning for Networks Based on the 3-Clique", 《IEEE ACCESS》 *
MAHSA GHORBANI 等: "MGCN: Semi-supervised Classification in Multi-layer Graphs with Graph Convolutional Networks", 《2019 IEEE/ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING (ASONAM)》 *
武文茂: "基于深度模型的网络表示学习方法的研究与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
赵姝 等: "基于社团结构的多粒度结构洞占据者发现及分析", 《智能系统学报》 *
陈洁 等: "利用多粒度属性网络表示学习进行引文推荐", 《计算机科学与探索》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529168A (zh) * 2020-12-29 2021-03-19 中国人民解放军国防科技大学 一种基于gcn的属性多层网络表示学习方法
CN112990364A (zh) * 2021-04-22 2021-06-18 中国人民解放军军事科学院国防科技创新研究院 一种图数据节点分类方法及装置
CN112990364B (zh) * 2021-04-22 2021-08-03 中国人民解放军军事科学院国防科技创新研究院 一种图数据节点分类方法及装置

Also Published As

Publication number Publication date
CN111831758B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
Mukhopadhyay et al. A survey of multiobjective evolutionary algorithms for data mining: Part I
Zhu et al. An integrated feature selection and cluster analysis techniques for case-based reasoning
Laohakiat et al. A clustering algorithm for stream data with LDA-based unsupervised localized dimension reduction
CN112529168A (zh) 一种基于gcn的属性多层网络表示学习方法
de Castro et al. Applying biclustering to perform collaborative filtering
IndiraPriya et al. A survey on different clustering algorithms in data mining technique
CN111831758B (zh) 基于快速的层次属性网络表示学习的节点分类方法及装置
Yu et al. Binary set embedding for cross-modal retrieval
Barros et al. Decision-tree induction
CN115577283A (zh) 一种实体分类方法、装置、电子设备及存储介质
Wan et al. ICGT: A novel incremental clustering approach based on GMM tree
CN108984551A (zh) 一种基于多类别联合软聚类的推荐方法及系统
CN116595197B (zh) 一种专利分类号关联知识图谱的链路预测方法及系统
Alshamiri et al. A novel ELM K-means algorithm for clustering
Li et al. SRTM: a supervised relation topic model for multi-classification on large-scale document network
Huang et al. Building hierarchical class structures for extreme multi-class learning
Bordogna et al. Soft clustering for information retrieval applications
Meng et al. Adaptive resonance theory (ART) for social media analytics
Nürnberger et al. Weighted self-organizing maps: Incorporating user feedback
Pavithra et al. A review article on semi-supervised clustering framework for high dimensional data
Mirajkar et al. Content-based image retrieval using integrated dual deep convolutional neural network
Singh et al. Applications of clustering algorithms and self organizing maps as data mining and business intelligence tools on real world data sets
Huang et al. Clustering ensembles based on multi-classifier fusion
Manne et al. A Query based Text Categorization using K-nearest neighbor Approach
Aromal et al. Semi Supervised Learning Using Graph Data Structure–A Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230515

Address after: 100084 603a, 6th floor, building 6, yard 1, Zhongguancun East Road, Haidian District, Beijing

Patentee after: Beijing Zhipu Huazhang Technology Co.,Ltd.

Address before: 230000 No.3 Feixi Road, Shushan District, Hefei City, Anhui Province

Patentee before: ANHUI University