CN111831758A - 基于快速的层次属性网络表示学习的节点分类方法及装置 - Google Patents
基于快速的层次属性网络表示学习的节点分类方法及装置 Download PDFInfo
- Publication number
- CN111831758A CN111831758A CN202010850921.2A CN202010850921A CN111831758A CN 111831758 A CN111831758 A CN 111831758A CN 202010850921 A CN202010850921 A CN 202010850921A CN 111831758 A CN111831758 A CN 111831758A
- Authority
- CN
- China
- Prior art keywords
- network
- node
- attribute
- representation
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 239000013598 vector Substances 0.000 claims abstract description 72
- 230000008569 process Effects 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 17
- 238000000513 principal component analysis Methods 0.000 claims description 16
- 238000005469 granulation Methods 0.000 claims description 12
- 230000003179 granulation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 239000002245 particle Substances 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 8
- 238000000638 solvent extraction Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 5
- 239000013589 supplement Substances 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 70
- 235000019580 granularity Nutrition 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 1
- 206010019860 Hereditary angioedema Diseases 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于快速的层次属性网络表示学习的节点分类方法及装置,包括以下步骤:S1、构建网络G0;S2、得到一系列网络规模逐渐减小的层次属性网络;S3、获取低维向量表示;S4、获取层次属性网络节点特征;S6、将层次属性网络节点特征和标签送入到分类器中,预测未知类别的节点的标签。本发明先构建网络G0,并网络G0中的拓扑结构和节点的属性信息进行划分得到网络G1,重复划分过程,得到一系列网络规模逐渐减小的层次属性网络,层次属性网络表示方法能够很好的保留网络结构和属性信息及不同粒度的信息,从而提高节点分类的性能。
Description
技术领域
本发明涉及网络表示学习技术领域,尤其涉及基于快速的层次属性网络表示学习的节点分类方法及装置。
背景技术
网络是探索和建模现实世界中复杂装置的重要数据结构,如社交网络,引文网络和电子商务网络等都能通过构建复杂网络模型的方法来对其进行一系列数据挖掘分析。节点和边是组成网络的基本部分,如在社交网络中,每一个节点就代表一个社交实体用户,边代表用户之间的关系,通过对用户的类型预测分类,能够实现个性化的推荐。再如引文网络中,每一个节点代表一篇文章,连边代表文章间的引用关系,通过对文章的标签进行预测,能够为研究者推荐相关的引文。因此,对节点的类型、标签进行预测即节点分类的问题研究在数据挖掘分析中具有至关重要的作用。
目前节点分类方法主要基于网络表示学习方法,通过学习节点的低维向量表示来计算节点之间的相似性来进一步对节点的标签进行预测。他们通过不同策略来仅保留结构,在单粒度下保留属性信息与结构,保留层次的结构信息来实现节点的低维映射,然后再进行节点分类。基于单层的表示学习的节点分类方法比较耗时,且不能捕获到更深层次网络的结构信息和属性信息,进而不能在节点分类问题上体现出更大的优越性。仅基于结构的网络表示学习的节点分类方法是不能很好的利用节点的属性信息来获得更高效的分类结果。
如申请号为“CN201710608234.8”的发明专利申请公开了一种基于表示学习的知识库实体分类的计算装置,涉及文本分类和知识库补全领域。所述方法包括步骤:对于知识库中的实体,构造包含不同层次信息的共现网络,将词语or词语,实体or词语,类别or词语,实体or类别之间的共现信息编码到网络中;基于构造的共现网络,利用基于网络的表示学习方法,学习实体和类别的向量表示;基于学习得到的向量表示,利用学习排序算法,为实体和类别学习映射矩阵,语义上相关的实体和类别在语义空间中接近;利用自顶向下的搜索方法,为知识库中的实体自动分配类别,得到一条类别的路径。但是该专利方案中是利用构造包含不同层次信息的共现网络来识别网络,仅仅是基于构造的特定构建识别网络,并未解决仅基于结构的网络表示学习的节点分类方法不能获得更高效的分类结果的问题。
发明内容
本发明所要解决的技术问题在于克服仅基于结构的网络表示学习的节点分类方法不能获得更高效的分类结果的问题。
本发明通过以下技术手段实现解决上述技术问题的:
一种基于快速的层次属性网络表示学习的节点分类方法,包括以下步骤:
S1、以引文网络库为基础,将引文网络库编号并获取节点的标签,再构建网络G0;
S2、对网络G0中的拓扑结构和节点的属性信息进行划分得到网络G1,重复划分过程,得到一系列网络规模逐渐减小的层次属性网络:G0、G1、G2…Gi、Gi+1、…Gk,其中i、k为整数,i为0-k之间的整数;
S3、获取最粗层属性网络Gk的节点低维向量表示;
S4、获取GCN模型,并利用最粗层节点的低维向量表示构建目标函数,训练GCN模型中的权重矩阵;
S5、使用GCN模型学习层次属性网络,并迭代执行获得层次属性网络的节点特征表示;
S6、将层次属性网络的节点特征表示和标签送入到分类器中,预测未知类别的节点的标签,标签相同的节点分为同一类,完成节点分类。
先构建网络G0,并对网络G0中的拓扑结构和节点的属性信息进行划分得到网络G1,重复划分过程,得到一系列网络规模逐渐减小的层次属性网络,层次属性网络表示方法能够很好的保留网络结构和属性信息及不同粒度的信息,从而提高节点分类的性能,克服了仅基于结构的网络表示学习的节点分类方法不能获得更高效的分类结果的问题。
作为本发明进一步的方案:所述步骤S1包括:
S11、处理所述引文网络库,包括:
步骤A、将引文网络库中的文章进行编号;且所述引文网络库包括n1篇文章,每篇文章为网络的节点,n1篇文章之间的引用或被引用关系作为网络的连边,连边数量为n2;
步骤B、将引文网络库中的文章进行分为若干类别,且每个节点的标签为类别的编号;
S12、根据处理后引文网络库的数据,构建网络G:
网络G=(V,E,X),其中,V表示n1个节点的集合,E表示n2个连边的集合,X为一个n1·l的多维矩阵,l代表节点属性的维度,G=(V,E,X)=G0。
作为本发明进一步的方案:所述划分过程包括:
S22、选取与网络Gi中节点的标签个数相同的中心节点,网络Gi中节点的属性信息作为每一个节点的表示,计算节点到中心节点的距离,将节点加入到距离最近的中心节点所在社团,从而获取基于属性的社团划分结果其中,Vi表示网络Gi节点的集合,Vi/A表示属性相似的社团划分结果,表示根据节点属性信息划分的第j2个社团;j2为(a1、a2...)中的任意整数,a1、a2...表示整数;
S23、根据基于结构的社团划分结果、基于属性的社团划分结果,获取超点集;
作为本发明进一步的方案:所述网络Gk为最粗层属性网络。
作为本发明进一步的方案:所述步骤S3包括:
是使用无监督的网络表示学习方法学习最粗层属性网络Gk中的低维向量表示:
S31、利用公式(3)获取最粗层属性网络Gk中节点的低维向量表示Zk;
其中,d代表低维向量的维度,为采用已有的无监督的网络表示方法进行学习最粗层节点的低维向量,表示拼接操作,将网络的属性信息与结构信息相融合,α是一个超参数,PCA为基于主成分分析的降维技术,Vk表示网络Gk的节点集合,Xk表示网络Gk中节点的属性信息;Zk为最粗层属性网络的低维向量表示;
S32、利用公式(4)获取所有层次属性网络中节点的低维向量表示:Zk;
作为本发明进一步的方案:所述获取GCN模型包括:GCN模型H(·)的第jc,jc∈[0,s]层的计算公式为:
作为本发明进一步的方案:
所述构建目标函数包括:利用公式(6)构建目标函数:
作为本发明进一步的方案:所述训练GCN模型中的权重矩阵包括:
更新Δjc使目标函数L取值最小,GCN模型有s层隐藏层,就训练得到s个可训练的权重矩阵Δjc,并返回步骤S42优化GCN模型。
作为本发明进一步的方案:所述步骤S5包括:
S51、利用公式(7)将网络Gi+1的节点特征表示Zi+1分配给Gi的节点来实现跨粒度的学习,
Z″i=Assign(Zi+1,Gi) (7)
其中,跨粒度学习是指从粗层网络到较细层网络间的学习,Z″i是由网络Gi+1细化回来的低维向量表示,Assign(·)表示把超节点的表示分别分配给粒化成超节点细节点,Zi+1表示网络Gi+1的低维向量表示;
S52、获取初始向量;
融合网络Gi的属性信息Xi作为结构信息的补充,并将其作为网络Gi的节点的初始向量Z′i,计算公式如下:
S53、利用GCN模型对初始向量Z′i进行更新学习得到网络Gi的节点特征表示Zi,计算公式如下:
Zi=H(Z′i,Mi) (9)
S54、从最粗到最细,逐层执行步骤S51-s54,直至得到每一层的节点特征表示后,并执行步骤S55;
S55、利用公式(10)计算得到网络节点的低维向量表示;
一种基于所述的基于快速的层次属性网络表示学习的节点分类方法的分类装置,包括:
构建模块,用于以引文网络库为基础,将引文网络库编号并获取节点的标签,再构建网络Gi,其中i为整数;
划分模块,用于对网络Gi的拓扑结构和节点的属性信息进行划分,粒化得到网络Gi +1,重复粒化过程,从而得到一系列网络规模逐渐减小的层次属性网络:Go、G1、G2…Gi、Gi +1、…Gk,其中i、k为整数;;
获取模块,用于基于层次属性网络,获取最粗层节点的低维向量表示;
优化模块,利用低维向量表以及GCN模型构建目标函数并进行优化;
层次属性网络节点特征模块,用于使用GCN模型学习层次属性网络的低维向量表示,得到细化模型,并迭代执行细化模型,得到层次属性网络节点特征;
分类模块,用于将层次属性网络节点特征和标签送入到分类器中,预测未知类别的节点的标签,标签相同的节点分为同一类,完成节点分类。
本发明的优点在于:
1、本发明中,先构建网络G0,并对网络G0中的拓扑结构和节点的属性信息进行划分得到网络G1,重复划分过程,得到一系列网络规模逐渐减小的层次属性网络,层次属性网络表示方法能够很好的保留网络结构和属性信息及不同粒度的信息,从而提高节点分类的性能,克服了仅基于结构的网络表示学习的节点分类方法不能获得更高效的分类结果的问题。
2、本发明中,通过快速的划分得到粒化模型来缩小网络规模,并快速的学习节点的表示,进而加快的节点分类的速度。
3、本发明可以灵活的使用已有的无监督的仅基于结构或者基于属性的网络表示学习方法学习最粗层得到节点特征表示,体现了本发明节点分类方法的灵活性。
附图说明
图1为本发明实施例1提供的基于快速的层次属性网络表示学习的节点分类方法的流程方框示意图。
图2为本发明实施例1提供的基于快速的层次属性网络表示学习的节点分类方法的框架图。
图3为本发明实施例2提供的基于快速的层次属性网络表示学习的节点分类装置的结构示意图。
图中,301-构建模块,302-划分模块,303-获取模块,304-优化模块,305-层次属性网络节点特征模块,306-分类模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先对CiteSeer(又名ResearchIndex)进行简单的介绍,CiteSeer是NEC研究院在自动引文索引(Autonomous Citation Indexing,ACI)机制的基础上建设的一个学术论文数字图书馆。
实施例1
如图1及图2,图1为本发明实施例1提供的基于快速的层次属性网络表示学习的节点分类方法的流程方框示意图,图2为本发明实施例1提供的基于快速的层次属性网络表示学习的节点分类方法的框架图,包括以下步骤:
S1、以引文网络库为基础,构建网络G;
S11、处理所述引文网络库,具体包括以下步骤:
A、将引文网络库中的文章进行编号;且所述引文网络库包括n1篇文章,每篇文章为网络的节点,n1篇文章之间的引用或被引用关系作为网络的连边,连边数量为n2
将所述引文网络库中的文章按照顺序编号0,1,2···,n1,
具体的,本发明以Citeseer为例,Citeseer是一个引文网络库,包含3312篇文章,可分为六大类,Agents(装置)、AI(Artificial Intelligence,人工智能)、DB(Database,数据库)、IR(Information Retrieval,信息检索)、ML(Machine Learning,机器学习)和HCL(HCL表示(Human-Computer Interaction人机交互),且每篇文章之间包含4660个引用或被引用关系,每篇文章包含标题和摘要,且所述Citeseer中的每一篇文章为网络中的节点,并按顺序连续编号0,1,2···,3311,引用或被引用关系为网络的连边,数量为n2;
B、将引文网络库中的文章进行分类;
本实施例中,把Citeseer中文章的类别进行编号0,1···,5,作为每个节点的标签;将每一篇文章的标题和摘要,去除停用词和在文档中出现频率低于10次的低频词后整理得到3703个词,平均每篇文档包含32个词,作为文章的属性信息,并利用TfidfVectorizer得到属性信息的3703维的向量表示;
将实体的属性信息去除停止词和低频词后转换为TF-IDF向量表示,该向量作为节点的属性信息。
S12、根据处理后引文网络库的数据,构建网络G0;
网络G=(V,E,X),其中,V表示n1个节点的集合,E表示n2个连边的集合,X为一个n1·l的多维矩阵,l代表节点属性的维度,l通常为已知的,且G=(V,E,X)=G0。
本实施例中,因为Citeseer中有3312个节点、4660条连边,所以本实施例中,V表示3312个节点的集合,V={v0,v1,···v3311};
E表示网络中4660条连边的集合;E={e1,e2,···e4660},其中,e=(u,v)∈E,表示节点v和节点u之间存在连边(即存在引用关系),v、u表示V={v0,v1,···v3311}中的任意两个不同的节点;
X是一个3312×3703维的矩阵,3703为Citeseer中的节点属性的维度,该矩阵中第i行表示第i个节点vi的属性信息,用xi表示;
S2、对网络G0中的拓扑结构和节点的属性信息进行划分,利用社团发现方法分别对网络的拓扑结构和节点的属性信息进行划分得到网络G1,重复划分过程得到网络Gk;即得到一系列网络规模逐渐减小的层次属性网络:Go、G1、G2…Gi、Gi+1、…Gk,其中i、k为整数;且i为0-k之间的整数;
且Gi表示第i次迭代粒化过程后得到的网络Gi,i为整数,>表示粒子的粗细关系,表示Gi的粒子比Gi+1的粒子更细,也就是说,|Vi|>|Vi+1|,Vi表示网络Gi中节点的集合,所以网络Gk为最粗层网络。
步骤S2中,对网络的拓扑结构和节点的属性信息进行划分,得到网络G1,该划分过程即得到粒化模型的过程,G1为网络G0的粒化模型,重复粒化模型的过程得到Gi+1,从而得到一系列网络规模逐渐减小的层次属性网络Gi+1,所以步骤S2是一个迭代的过程,步骤得到粒化模型的过程如下:
S21、获取基于结构的社团划分结果;
本实施例中,根据网络Gi的拓扑结构,使用任意一种快速的非重叠社团划分方法(本实施例中使用Louvain算法),将拓扑结构相似的节点划分到同一个社团,同一个社团内的节点更相似,获得一个基于结构的社团划分结果:其中,Vi/S表示结构相似的社团划分结果,即为基于结构的社团集合,S为Structure(结构)的缩写,表示根据结构划分的第j1个社团,j1∈(s1、s2...),s1、s2...表示整数;
需要说明的是,社团划分的方法的选择比较灵活,任意的快速非重叠的社团发现方法都可以用于步骤S21;
S22、利用K-Means算法,选取与节点的标签个数相同的中心节点,节点的属性信息作为每一个节点的表示,计算节点到中心节点的距离,将节点加入到距离最近的中心节点所在社团,获取基于属性的社团划分结果其中,Vi表示网络Gi节点的集合,Vi/A表示属性相似的社团划分结果,即属性相似的社团集合,A为Attribute(属性),表示根据节点属性信息划分的第j个社团;j2为(a1、a2...)中的任意整数,a1、a2...表示整数。
S23、根据基于结构的社团划分结果、基于属性的社团划分结果,获取超点集;
在真实的网络中,具有相同标签的节点一般具有相似的结构与属性信息,进行节点分类时在相同社团的内的节点更容易分为同一类。
本实施例中,利用公式获取既结构相似又属性相似的社团,Vi/(S∩A)表示将Vi/S中每个社团分别与Vi/A中每个社团求交集,每一个非空的交集作一个新的社团,从而得到既结构相似又属性相似的社团划分结果;
划分到同一个社团的节点具有相似的属性信息,因此可将它们属性的平均值作为整个社团的属性信息。
步骤S24中对原始网络的属性信息进行粒化,获得超点的属性信息,这样能够构建属性网络,且属性网络中,最粗层的网络保留原始网络的主干结构和属性信息以求解出原始网络的节点表示的近似解,充分的利用原始网络的属性信息,使得相似的节点的表示更相近,更易将相似的节点分到相同的类别中。
示例性的,超点中包含网络Gi中的节点集为{a1,b1,c1},超点中包网络含Gi中的节点集为{a2,b2,c2,d},如果a1和b2之间、c1和d之间均存在连边,即,(a1,b2)∈Es i且权重wa1b2=1,(c1,d)∈Es i且权重wc1d=2,其余节点间不存在边,则且权重wpq=3。
|V0|=3312>|V1|=1614>|V2|=938>|V3|=661,
|E0|=4660>|E1|=3338>|E2|=1843>|E3|=1137。
S3、利用无监督网络表示学习方法学习最粗层属性网络的低维向量表示;
S31、利用公式(3)获取所有层次属性网络中节点的低维向量表示:Zk;
其中,d代表低维向量的维度,为采用已有的无监督的网络表示方法进行学习最粗层节点的低维向量,表示拼接操作,将网络的属性信息与结构信息相融合,α是一个超参数,用于调节属性信息与结构的权重,PCA(principal componentanalysis,主成分分析)是一种基于主成分分析的降维技术,在降维过程中保留了数据最重要的部分,ViVk表示网络Gk的节点集合,Xk表示网络Gk中节点的属性信息;Zk为最粗层属性网络的低维向量表示;
S32、利用公式(4)获取所有层次属性网络中节点的低维向量表示:Zk;
S4、获取GCN模型,并利用最粗层节点的低维向量表示构建目标函数,训练GCN模型中的权重矩阵
S41、获取GCN模型包括:并利用最粗层节点的低维向量表示构建目标函数,训练GCN模型中的权重矩阵;
S42、计算GCN模型H(·),快速无监督的GCN模型是一个由多个H(·)堆叠构建,GCN模型H(·)的第jc,jc∈[0,s]层的计算公式为:
S42、构建目标函数包括;
本实施例中,将最粗层网络Gk=(Vk,Ek,Xk)的节点特征表示为Zk,并利用快速无监督的GCN模型构建目标函数,用H(·)表示一种能够快速运算的简单的层次线性快速无监督的GCN模型,可堆叠多层来实现高容量运算,H为每一层的特征表示,记s为GCN模型堆叠的层,即GCN模型的隐层层的个数。
网络Gk的邻接矩阵为Mk,Mk是一个|Vk|×|Vk|的矩阵,GCN模型是一个多层的模型,后一层是根据前一层的输出来学习的,本发明中,直接使用邻接矩阵作为第一层的输出H0,所以令第一层GCN学习到的输出表示为H0(Zk,Mk)=Mk,根据Zk和GCN模型构建的目标函数L;
其中,L为目标函数,||||为范数符号,范数是一种数学的基本概念,是一种函数,本实施例为2-范数,Mk为网络Gk的邻接矩阵,Mk是一个|Vk|×|Vk|的矩阵,且H0(Zk,Mk)=Mk,即GCN模型的第0层等于Mk,S为GCN的隐藏层层数;
示例性的,令第一层GCN学习到的表示为H0(Z3,M3)=M3,其中,M3为网络G3的邻接矩阵,M3是一个661×661的矩阵;H0表示表示第一层GCN网络,Hs(Z3,M3)为第S层GCN学习到的表示;
利用公式(5)构建目标函数L,包括:
令第一层GCN学习到的表示为H0(Z3,M3)=M3;
S43、训练GCN模型中的权重矩阵包括:利用AdamOptimizer优化算法来更新Δj使目标函数取值最小,GCN有s层隐藏层,利用目标函数L训练得到s个权重矩阵Δj,将权重矩阵Δj返回步骤S42中从而优化GCN模型,GCN模型是多层的,且每层都有一个权重矩阵。
本实施例中,训练学习得到哪个权重矩阵,然后再细化过程中直接使用,并不需要每一层都训练一次GCN模型。
S5、使用GCN模型学习层次属性网络,并迭代执行获得层次属性网络的节点特征表示。
步骤S5是一个迭代的过程,具体包括:
S51、利用公式(7)将网络Gi+1的节点特征表示Zi+1分配给Gi的节点来实现跨粒度的学习,将节点细化,在粒化过程中,哪些节点粒化形成该超节点,在细化的过程中就把该超节点的表示分配给(赋给)相对应的节点作为初向量(即细化过程),即把超节点的表示分配给粒化形成该超节点的细节点。
Z″i=Assign(Zi+1,Gi) (7)
其中,跨粒度学习是指从粗层网络到较细层网络间的学习,Z″i是由网络Gi+1细化回来的低维向量表示,Assign(·)表示把超节点的表示分别分配给粒化成超节点的细节点,Zi+1表示网络Gi+1的低维向量表示。
其中,u、v、w表示整数;
S52、融合网络Gi的属性信息Xi作为结构信息的补充,并将其作为网络Gi的节点的初始向量Z′i:
S53、利用GCN模型对初始向量Z′i进行更新学习得到网络Gi的节点特征表示Zi,计算公式如下:
Zi=H(Z′i,Mi) (9)
S54、从最粗到最细,依次逐层执行步骤S51-S53,得到每一层网络G中节点特征表示;
结合实例Citeseer,首先将最粗层网络G3的节点特征表示Z3输入到细化模型中输出Z2,然后迭代的将输出的节点特征表示送到细化模型中,得到每一层的节点特征表示Z3,Z2,Z1,Z0。
S55、利用公式(10)计算得到网络节点的低维向量表示;
该步骤能够融合原始网络的属性信息来补充学习过程中的损失。
S6、将节点的节点特征表示Z和网络G节点的标签送入到节点分类模型中,预测未知类别的节点的标签。
需要说明的是,本发明中所提到的节点分类模型是非常常见的一种分类模型,比如使用SVM分类器,本申请并未对分类模型进行改进。
步骤S6根据低维向量表示Z和网络G节点的标签,利用SVM分类器,预测出未知标签的节点的标签,标签相同的节点分为同一类。
实施例2
如图3,图3为本发明实施例2提供的基于快速的层次属性网络表示学习的节点分类装置的结构示意图,包括:
构建模块301,用于以引文网络库为基础,将引文网络库编号并获取节点的标签,再构建网络Gi,其中i为整数;还用于:
步骤A、将引文网络库中的文章进行编号;且所述引文网络库包括n1篇文章,每篇文章为网络的节点,n1篇文章之间的引用或被引用关系作为网络的连边,连边数量为n2;
步骤B、将引文网络库中的文章进行分为若干类别,且每个节点的标签为类别的编号;
网络G=(V,E,X),其中,V表示n1个节点的集合,E表示n2个连边的集合,X为一个n1·l的多维矩阵,n1、n2为任意整数,G=(V,E,X)=G0
划分模块302,用于对网络Gi的拓扑结构和节点的属性信息进行划分,粒化得到网络Gi+1,重复粒化过程,从而得到一系列网络规模逐渐减小的层次属性网络:Go、G1、G2…Gi、Gi +1、…Gk,其中i、k为整数,i为0-k之间的整数;还用于:
S22、选取与网络Gi中节点的标签个数相同的中心节点,网络Gi中节点的属性信息作为每一个节点的表示,计算节点到中心节点的距离,将节点加入到距离最近的中心节点所在社团,从而获取基于属性的社团划分结果其中,Vi表示网络Gi节点的集合,Vi/A表示属性相似的社团划分结果,表示根据节点属性信息划分的第j2个社团;j2为(a1、a2...)中的任意整数,a1、a2...表示整数;
S23、根据基于结构的社团划分结果、基于属性的社团划分结果,获取超点集;
获取模块303,获取最粗层网络Gk的节点低维向量表示;还用于:
S31、利用公式(3)获取所有层次属性网络中节点的低维向量表示:Zk;
其中,d代表低维向量的维度,为采用已有的无监督的网络表示方法进行学习最粗层节点的低维向量,表示拼接操作,将网络的属性信息与结构信息相融合,α是一个超参数,用于调节属性信息与结构的权重,PCA(principal componentanalysis,主成分分析)是一种基于主成分分析的降维技术,在降维过程中保留了数据最重要的部分,ViVk表示网络Gk的节点集合,Xk表示网络Gk中节点的属性信息;Zk为最粗层属性网络的低维向量表示;
S32、利用公式(4)获取所有层次属性网络中节点的低维向量表示:Zk;
优化模块304,获取GCN模型,并利用最粗层节点的低维向量表示构建目标函数,训练GCN模型中的权重矩阵;
计算GCN模型H(·);
GCN模型H(·)的第jc,jc∈[0,s]层的计算公式为:
更新权重矩阵Δj使目标函数L取值最小,GCN模型有s层隐藏层,就训练得到s个可训练的权重矩阵Δj,并返回优化GCN模型。
层次属性网络节点特征模块305,用于使用GCN模型学习层次属性网络的低维向量表示,得到细化模型,并迭代执行细化模型,得到层次属性网络节点的低维向量表示,即为层次属性网络节点特征;
还用于:利用公式(7)将网络Gi+1的节点特征表示Zi+1分配给Gi的节点来实现跨粒度的学习,
Z″i=Assign(Zi+1,Gi) (7)
其中,Z″i是网络Gi+1细化回来的低维向量表示,Assign(·)表示把超节点的表示分别分配给粒化成超节点细节点,Zi+1表示网络Gi+1的低维向量表;
获取初始向量;
融合网络Gi的属性信息Xi作为结构信息的补充,并将其作为网络Gi的节点的初始向量Z′i,计算公式如下:
利用GCN模型对初始向量Z″i进行更新学习得到网络Gi的节点特征表示Zi,计算公式如下:
Zi=H(Z′i,Mi) (9)
S54、从最粗到最细,逐层执行步骤S51-s54,直至得到每一层的节点特征表示后,并执行步骤S55;
S55、利用公式(10)计算得到网络节点的低维向量表示;
分类模块306,用于将层次属性网络节点特征和标签送入到分类器中,预测未知类别的节点的标签,标签相同的节点分为同一类,完成节点分类。
示例性的,为验证本发明提出技术方案的有效性和先进性,选取几种已有的节点分类方法进行对比:DeepWalk、LINE、Node2vec、GraRep、NodeSketch、STNE、CAN、HARP、MILE和GraphZoom。其中DeepWalk、LINE、Node2vec、GraRep、NodeSketch、HARP和MILE都是仅基于结构的方法,先学习每个节点的低维表示在进行节点分类,本发明(记为HANE)和STNE,CAN及GraphZoom(缩写为GZ)都是融合了属性信息来学习低维节点的表示,然后进行节点分类的方法。在本发明中,GCN的隐藏层层数s设置为2,维度d设置为128,层数k分别设置为1,2,3,最粗层使用DeepWalk来学习节点的表示。通过Micro-F1和Macro-F1对上述方法在Citeseer引文网络集上不同训练集比例上的节点分类结果进行评价,最好的结果已加粗,结果如表1所示。从表1可以看出,本发明在所有的比例上的分类都取得最优的结果。
为验证本发明提出技术方案的快速性,在数据集Cora、Citeseer、DBLP、PubMed引文网络上使用本发明的方法做了节点分类。同样选取几种已有的节点分类方法进行对比:DeepWalk、LINE、Node2vec、GraRep、STNE、CAN、HARP、MILE和GraphZoom。在本发明(HANE)中,GCN的隐藏层层数s设置为2,维度设置为128,层数k分别设置为1,2,3,最粗层使用DeepWalk来学习节点的表示,节点分类消耗时间的比较如表2。
从表2中可以看出,本发明在时间上的提升也是非常的明显,且平均提升也很大。在Citeseer数据集上本发明的方法在时间上略差于HARP方法,因为本发明在学习节点的过程充分的融合了属性信息,而HARP是仅基于结构的方法
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
表1.在Citeseer数据集上的节点分类的结果
表2.在不同数据集上节点分类的时间
表3.针对本发明的最粗层网络表示学习模块,不同方法节点分类的结果
Claims (10)
1.一种基于快速的层次属性网络表示学习的节点分类方法,其特征在于,包括以下步骤:
S1、以引文网络库为基础,将引文网络库编号并获取节点的标签,再构建网络G0;
S2、对网络G0中的拓扑结构和节点的属性信息进行划分得到网络G1,重复划分过程,得到一系列网络规模逐渐减小的层次属性网络:Go、G1、G2…Gi、Gi+1、…Gk,其中i、k为整数,i为0-k之间的整数;
S3、获取最粗层属性网络Gk的节点低维向量表示;
S4、获取GCN模型,并利用最粗层节点的低维向量表示构建目标函数,训练GCN模型中的权重矩阵;
S5、使用GCN模型学习层次属性网络,并迭代执行获得层次属性网络的节点特征表示;
S6、将层次属性网络的节点特征和标签送入到分类器中,预测未知类别的节点的标签,标签相同的节点分为同一类,完成节点分类。
2.根据权利要求1所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述步骤S1包括:
S11、处理所述引文网络库,包括:
步骤A、将引文网络库中的文章进行编号;且所述引文网络库包括n1篇文章,每篇文章为网络的节点,n1篇文章之间的引用或被引用关系作为网络的连边,连边数量为n2;
步骤B、将引文网络库中的文章进行分为若干类别,且每个节点的标签为类别的编号;
S12、根据处理后引文网络库的数据,构建网络G0:
网络G=(V,E,X),其中,V表示n1个节点的集合,E表示n2个连边的集合,X为一个n1·l的多维矩阵,l代表节点属性的维度,n1、n2为任意整数,G=(V,E,X)=G0。
3.根据权利要求2所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述划分过程包括:
S22、选取与网络Gi中节点的标签个数相同的中心节点,网络Gi中节点的属性信息作为每一个节点的表示,计算节点到中心节点的距离,将节点加入到距离最近的中心节点所在社团,从而获取基于属性的社团划分结果其中,Vi表示网络Gi节点的集合,Vi/A表示属性相似的社团划分结果,表示根据节点属性信息划分的第j2个社团;j2为(a1、a2...)中的任意整数,a1、a2...表示整数;
S23、根据基于结构的社团划分结果、基于属性的社团划分结果,获取超点集;
S26、根据超点集Vi+1,超边集Ei+1以及超点的属性信息Xi+1,构建新的网络Gi+1=(Vi+1,Ei +1,Xi+1),且Gi>Gi+1;
S27、迭代训练得到一系列网络规模逐渐减小的层次属性网络,Go、G1、G2…Gi、Gi+1…Gk;且G0>G1>···>Gk;>表示粒子的粗细关系,Gk-1>Gk表示Gk-1的粒子比Gk的粒子更细。
4.根据权利要求3所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述网络Gk为最粗层属性网络。
5.根据权利要求3所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述步骤S3包括:
S31、利用公式(3)获取最粗层属性网络Gk中节点的低维向量表示Zk;
其中,d代表低维向量的维度,为采用已有的无监督的网络表示方法进行学习最粗层节点的低维向量,表示拼接操作,将网络的属性信息与结构信息相融合,α是一个超参数,PCA为基于主成分分析的降维技术,Vk表示网络Gk的节点集合,Xk表示网络Gk中节点的属性信息;Zk为最粗层属性网络的低维向量表示;
S32、利用公式(4)获取所有层次属性网络中节点的低维向量表示:Zk;
8.根据权利要求7所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述训练GCN模型中的权重矩阵包括:
更新权重矩阵Δj使目标函数L取值最小,GCN模型有s层隐藏层,就训练得到s个可训练的权重矩阵Δj,并返回步骤S42优化GCN模型。
9.根据权利要求8所述的基于快速的层次属性网络表示学习的节点分类方法,其特征在于,所述步骤S5包括:
S51、利用公式(7)将网络Gi+1的节点特征表示Zi+1分配给Gi的节点来实现跨粒度的学习,
Z″i=Assign(Zi+1,Gi) (7)
其中,Z″i是由网络Gi+1细化回来的低维向量表示,Assign(·)表示把超节点的表示分别分配给细节点,Zi+1表示网络Gi+1的低维向量表示;
S52、获取初始向量;
融合网络Gi的属性信息Xi作为结构信息的补充,并将其作为网络Gi的节点的初始向量Z′i,计算公式如下:
S53、利用GCN模型对初始向量Z′i进行更新学习得到网络Gi的节点特征表示Zi,计算公式如下:
Zi=H(Z′i,Mi) (9)
S54、从最粗到最细,逐层执行步骤S51-s54,直至得到每一层网络Gi的节点特征表示后,并执行步骤S55;
S55、利用公式(10)计算得到网络节点的低维向量表示;
10.一种基于权利要求1-9任一所述的基于快速的层次属性网络表示学习的节点分类方法的分类装置,其特征在于,包括:
构建模块,用于以引文网络库为基础,将引文网络库编号并获取节点的标签,再构建网络Gi,其中i为整数;
划分模块,用于对网络Gi的拓扑结构和节点的属性信息进行划分,粒化得到网络Gi+1,重复粒化过程,从而得到一系列网络规模逐渐减小的层次属性网络:Go、G1、G2…Gi、Gi+1、…Gk,其中i、k为整数;
获取模块,用于基于层次属性网络,获取最粗层节点的低维向量表示;
优化模块,利用低维向量表以及GCN模型构建目标函数并进行优化;
层次属性网络节点特征模块,使用GCN模型学习层次属性网络,并迭代执行获得层次属性网络的节点特征表示;
分类模块,用于将层次属性网络节点特征和标签送入到分类器中,预测未知类别的节点的标签,标签相同的节点分为同一类,完成节点分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010850921.2A CN111831758B (zh) | 2020-08-21 | 2020-08-21 | 基于快速的层次属性网络表示学习的节点分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010850921.2A CN111831758B (zh) | 2020-08-21 | 2020-08-21 | 基于快速的层次属性网络表示学习的节点分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111831758A true CN111831758A (zh) | 2020-10-27 |
CN111831758B CN111831758B (zh) | 2022-09-16 |
Family
ID=72918242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010850921.2A Active CN111831758B (zh) | 2020-08-21 | 2020-08-21 | 基于快速的层次属性网络表示学习的节点分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111831758B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529168A (zh) * | 2020-12-29 | 2021-03-19 | 中国人民解放军国防科技大学 | 一种基于gcn的属性多层网络表示学习方法 |
CN112990364A (zh) * | 2021-04-22 | 2021-06-18 | 中国人民解放军军事科学院国防科技创新研究院 | 一种图数据节点分类方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120005154A1 (en) * | 2010-06-28 | 2012-01-05 | Johann George | Efficient recovery of transactional data stores |
CN109117943A (zh) * | 2018-07-24 | 2019-01-01 | 中国科学技术大学 | 利用多属性信息增强网络表征学习的方法 |
CN110020023A (zh) * | 2018-12-19 | 2019-07-16 | 大连理工大学 | 基于融合结构特征的属性网络表示学习方法 |
CN110879859A (zh) * | 2019-11-23 | 2020-03-13 | 安徽大学 | 一种保存序列关联关系的属性网络表示学习方法 |
-
2020
- 2020-08-21 CN CN202010850921.2A patent/CN111831758B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120005154A1 (en) * | 2010-06-28 | 2012-01-05 | Johann George | Efficient recovery of transactional data stores |
CN109117943A (zh) * | 2018-07-24 | 2019-01-01 | 中国科学技术大学 | 利用多属性信息增强网络表征学习的方法 |
CN110020023A (zh) * | 2018-12-19 | 2019-07-16 | 大连理工大学 | 基于融合结构特征的属性网络表示学习方法 |
CN110879859A (zh) * | 2019-11-23 | 2020-03-13 | 安徽大学 | 一种保存序列关联关系的属性网络表示学习方法 |
Non-Patent Citations (5)
Title |
---|
JIE CHEN 等: "Marc: Multi-Granular Representation Learning for Networks Based on the 3-Clique", 《IEEE ACCESS》 * |
MAHSA GHORBANI 等: "MGCN: Semi-supervised Classification in Multi-layer Graphs with Graph Convolutional Networks", 《2019 IEEE/ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING (ASONAM)》 * |
武文茂: "基于深度模型的网络表示学习方法的研究与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
赵姝 等: "基于社团结构的多粒度结构洞占据者发现及分析", 《智能系统学报》 * |
陈洁 等: "利用多粒度属性网络表示学习进行引文推荐", 《计算机科学与探索》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529168A (zh) * | 2020-12-29 | 2021-03-19 | 中国人民解放军国防科技大学 | 一种基于gcn的属性多层网络表示学习方法 |
CN112990364A (zh) * | 2021-04-22 | 2021-06-18 | 中国人民解放军军事科学院国防科技创新研究院 | 一种图数据节点分类方法及装置 |
CN112990364B (zh) * | 2021-04-22 | 2021-08-03 | 中国人民解放军军事科学院国防科技创新研究院 | 一种图数据节点分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111831758B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mukhopadhyay et al. | A survey of multiobjective evolutionary algorithms for data mining: Part I | |
Zhu et al. | An integrated feature selection and cluster analysis techniques for case-based reasoning | |
Laohakiat et al. | A clustering algorithm for stream data with LDA-based unsupervised localized dimension reduction | |
CN112529168A (zh) | 一种基于gcn的属性多层网络表示学习方法 | |
de Castro et al. | Applying biclustering to perform collaborative filtering | |
IndiraPriya et al. | A survey on different clustering algorithms in data mining technique | |
CN111831758B (zh) | 基于快速的层次属性网络表示学习的节点分类方法及装置 | |
Yu et al. | Binary set embedding for cross-modal retrieval | |
Barros et al. | Decision-tree induction | |
CN115577283A (zh) | 一种实体分类方法、装置、电子设备及存储介质 | |
Wan et al. | ICGT: A novel incremental clustering approach based on GMM tree | |
CN108984551A (zh) | 一种基于多类别联合软聚类的推荐方法及系统 | |
CN116595197B (zh) | 一种专利分类号关联知识图谱的链路预测方法及系统 | |
Alshamiri et al. | A novel ELM K-means algorithm for clustering | |
Li et al. | SRTM: a supervised relation topic model for multi-classification on large-scale document network | |
Huang et al. | Building hierarchical class structures for extreme multi-class learning | |
Bordogna et al. | Soft clustering for information retrieval applications | |
Meng et al. | Adaptive resonance theory (ART) for social media analytics | |
Nürnberger et al. | Weighted self-organizing maps: Incorporating user feedback | |
Pavithra et al. | A review article on semi-supervised clustering framework for high dimensional data | |
Mirajkar et al. | Content-based image retrieval using integrated dual deep convolutional neural network | |
Singh et al. | Applications of clustering algorithms and self organizing maps as data mining and business intelligence tools on real world data sets | |
Huang et al. | Clustering ensembles based on multi-classifier fusion | |
Manne et al. | A Query based Text Categorization using K-nearest neighbor Approach | |
Aromal et al. | Semi Supervised Learning Using Graph Data Structure–A Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230515 Address after: 100084 603a, 6th floor, building 6, yard 1, Zhongguancun East Road, Haidian District, Beijing Patentee after: Beijing Zhipu Huazhang Technology Co.,Ltd. Address before: 230000 No.3 Feixi Road, Shushan District, Hefei City, Anhui Province Patentee before: ANHUI University |