CN117421671A - 面向引文网络的频率自适应静态异质图节点分类方法 - Google Patents
面向引文网络的频率自适应静态异质图节点分类方法 Download PDFInfo
- Publication number
- CN117421671A CN117421671A CN202311732766.4A CN202311732766A CN117421671A CN 117421671 A CN117421671 A CN 117421671A CN 202311732766 A CN202311732766 A CN 202311732766A CN 117421671 A CN117421671 A CN 117421671A
- Authority
- CN
- China
- Prior art keywords
- vertex
- vector
- formula
- attention
- heterogeneous graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003068 static effect Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 98
- 239000011159 matrix material Substances 0.000 claims abstract description 36
- 230000007246 mechanism Effects 0.000 claims abstract description 32
- 238000013507 mapping Methods 0.000 claims abstract description 29
- 230000007704 transition Effects 0.000 claims abstract description 17
- 238000005295 random walk Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000002776 aggregation Effects 0.000 claims description 11
- 238000004220 aggregation Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 8
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 7
- 150000001875 compounds Chemical class 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 238000009792 diffusion process Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000005251 gamma ray Effects 0.000 claims description 2
- 238000013138 pruning Methods 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 238000007619 statistical method Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000009966 trimming Methods 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 abstract description 2
- 239000010931 gold Substances 0.000 description 30
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 6
- 229910052737 gold Inorganic materials 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007433 macroscopic evaluation Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向引文网络的频率自适应静态异质图节点分类方法,首先从引文网络数据中提取出特征,构建静态异质图;再忽略静态异质图的顶点类型和边类型,通过受约束的马尔可夫过程得到转移状态矩阵收敛时图的稳定的转移状态,再将随机游走概率大于给定阈值的顶点对作为新的类型的边加入到静态异质图中;再通过空间线性映射将不同的顶点类型从原始空间映射到同一向量空间中,再对每个顶点来自一阶邻居的信号分离高频和低频信号,并通过个性化注意力机制为每个顶点聚合高低频信号;最后,通过空间线性映射将顶点的表示向量映射回原始空间,通过加权交叉熵和受约束的注意力机制训练模型,再通过分类器将引文网络数据的顶点进行分类。
Description
技术领域
本发明属于大数据下的图数据处理领域,具体是一种面向引文网络的频率自适应静态异质图节点分类方法。
背景技术
随着大数据时代的到来,静态异质图(heterogeneous graph)上的顶点分类问题已成为热门研究领域。静态异质图包含多种类型的顶点,每个顶点均携带着特征,并且顶点之间存在各种复杂关系,可以被用来建模各种复杂的交互场景。分类问题作为一个基本方法,在各种场景下都有着广泛的应用,例如:社交网络中的用户分类、学术网络中的顶点分类、化学分子分类、推荐系统中的商品分类以及异常检测等实际问题。
大多数静态异质图顶点分类的图神经网络框架都是继承自静态同质图神经网络的基本框架,基于邻居采样、消息传递和消息聚合这一范式。然而,该框架在处理静态异质图时存在一些局限性,如该框架本质上是根据相似度传递邻居的特征,本质上是一个低频滤波器(只利用相似的特征),不能利用顶点之间的差异特征;此外,该框架在捕获高阶邻居的信息时会存在过拟合的现象。为了克服这些困难,一些研究提出了很多改进的静态异质图顶点分类方法,如异质图注意力网络(HAN)和异质图卷积注意力网络(HAGCN)等都是从注意力机制的角度从邻居顶点获得信息。
基于上述描述,设计一种频率自适应的异质图神经网络,并为每个顶点个性化地选择自身所需的高、低频信号并完成顶点分类任务,具有重要的研究意义和应用价值。
发明内容
针对现有技术的不足,本发明拟解决的技术问题是,提供一种面向引文网络的频率自适应静态异质图节点分类方法。
本发明解决所述技术问题的技术方案是,提供一种面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,该方法包括以下步骤:
步骤1、从引文网络数据中提取出每个顶点的特征向量X,第c种顶点类型的顶点特征向量记为Xc;同时建立静态异质图;再将静态异质图中所有的顶点划分为训练集、验证集和测试集;
步骤2、利用受约束的马尔可夫过程对静态异质图进行处理,得到稳定的转移状态;
步骤3、结合步骤2得到稳定的转移状态,过滤出指定顶点类型的顶点集合,并且选择该顶点集合内的随机游走概率大于给定阈值θ的顶点对,θ为超参数;再将这些顶点对作为新的类型的边加入到步骤1得到的静态异质图中,得到含稳态边的静态异质图;
步骤4、空间线性映射:对含稳态边的静态异质图中的每种顶点类型分别各自学习一个线性函数,将不同的顶点类型从原始空间映射到同一向量空间中,如式(3)所示:
(3)
式(3)中,第c种顶点类型的顶点特征向量Xc通过式(3)映射到同一向量空间中,记为Hc;Wc和Bc分别表示第c种顶点类型的权重矩阵和偏移矩阵,它们是可学习的参数;σ是sigmoid激活函数;
步骤5、在线性映射后的同一向量空间内对每个顶点来自一阶邻居的信号依次进行高低频信号分离和个性化注意力机制聚合,得到每个顶点在线性映射后的空间中的向量表示;
步骤6、通过线性变换将任意一个顶点i在线性映射后的空间中的向量表示映射回同一向量空间中,再引入残差连接,得到顶点i的新向量表示/>;
步骤7、在受约束的注意力机制下进行分类:
S7.1、经过步骤6映射回同一向量空间后,根据每个顶点i的新向量表示进行分类,得到顶点i的新向量表示/>的预测顶点类别/>;
S7.2、通过受约束的注意力机制增强注意机制中高频信号和低频信号之间的差异,受约束的注意力机制的损失函数Lα如式(12)所示:
(12)
式(12)中,cu和cv表示顶点u和顶点v的标签;N(v)表示与顶点v具有相同顶点类型的邻居,表示异或操作;γv表示与顶点v的标签不同的邻居的比例;/>和/>是超参数;V是所有顶点个数,/>是顶点v的低频注意力分数;/>是顶点v的高频注意力分数;
S7.3、结合加权交叉熵损失函数和受约束的注意力机制Lα得到在进行分类时的损失函数L,如式(13)所示:
(13)
式(13)中,为加权交叉熵损失函数,wi是顶点i在损失函数L中的权重,yi顶点i的真实顶点类别;β是用来平衡损失函数Lα的超参数;
S7.4、利用损失函数L在训练集上对模型进行一次迭代训练,当在验证集上预测类别的准确率超过M次都没有提升时,M为超参数,返回步骤4;直至模型收敛,然后对于测试集中的第m个顶点,利用步骤6得到它的新向量表示,再通过步骤S7.1来预测测试集中顶点的顶点类别。
与现有技术相比,本发明的有益效果在于:
(1)本发明首次提出了在静态异质图上使用马尔可夫过程来发现拓扑连接紧密的高阶邻居并加以应用,在避免过平滑的情况下来捕获高阶的邻居;并且首次提出了在静态异质图上使用高频信号的思路,通过共享注意力机制的方式为每个顶点分离来自它邻居的高低频信号,之后再为每个顶点个性化地聚合高低频信号。
(2)本发明首先从输入的数据集中,提取出实体的特征、类型以及实体之间复杂的关系,构建一个静态异质图;再忽略静态异质图的顶点类型和边类型,通过受约束的马尔可夫过程得到转移状态矩阵收敛时图的稳定的转移状态,再将随机游走概率大于给定阈值θ的顶点对作为新的类型的边加入到静态异质图中,得到含稳态边的静态异质图;再通过空间线性映射将不同的顶点类型从原始空间映射到同一向量空间中,再对每个顶点来自一阶邻居的信号分离高频和低频信号,并通过个性化注意力机制为每个顶点聚合高低频信号;最后,通过空间线性映射将顶点的表示向量映射回原始空间,通过加权交叉熵和受约束的注意力机制训练模型,再通过分类器将顶点进行分类。
(3)本发明不仅可以自适应地利用高频和低频信号,从而可以更准确地分类具有更灵活拓扑结构的顶点,而且在静态异质图中捕获高阶邻居信息时不会发生过平滑现象。
(4)本发明解决了静态异质图上的顶点分类任务,是一种半监督学习算法,即利用已知的部分顶点的标签,通过训练模型来预测剩余顶点的类别。
(5)本发明提可以避免在对高频信号的需求较少时退化为低频信号,以提高分类准确性和泛化能力。
(6)在引文网络的两个真实数据集中,本发明在顶点分类的各项指标上明显优于现有的方法。
附图说明
图1为本发明的整体分类流程图;
图2为本发明实施例2中的受约束的马尔可夫过程和现有技术中的元路径处理静态异质图的效果对比图。
具体实施方式
下面给出本发明的具体实施例。具体实施例仅用于进一步详细说明本发明,不限制本发明权利要求的保护范围。
本发明提供了一种面向引文网络的频率自适应静态异质图节点分类方法(简称方法,如图1所示),其特征在于,该方法用于引文网络的顶点分类,包括以下步骤:
步骤1、对输入数据进行预处理:从引文网络数据中提取出每个顶点的特征向量X,第c种顶点类型的顶点特征向量记为Xc;同时建立静态异质图;再将静态异质图中所有的顶点划分为训练集、验证集和测试集;
优选地,步骤1具体是:将引文网络数据中的实体携带的多模态信息进行统计分析,提取出每个顶点的特征向量X;引文网络数据的顶点类型为作者、论文、术语和会场这四种类型,其中第c种类型的顶点的特征向量记为Xc;同时利用引文网络数据中的顶点类型和交互关系(即顶点之间不同的边类型)建立一个静态异质图;再将静态异质图中所有的顶点按照比例随机划分为训练集、验证集和测试集。
优选地,步骤1中,引文网络数据采用DBLP数据集或ACM数据集。当采用DBLP数据集时,边类型为作者(源顶点)-论文(目标顶点)、论文-术语、论文-会场、论文-作者、术语-论文、会场-论文这六种边类型;当采用ACM数据集时,边类型为作者-论文、论文-主题、论文-术语、论文-会场、论文-作者、术语-论文、会场-论文、主题-论文这八种边类型。边类型的形式为源顶点-目标顶点,例如作者-论文,即作者为源顶点、论文为目标顶点。
优选地,步骤1中,当采用DBLP数据集时对作者顶点进行分类,将作者顶点划分为数据库、数据挖掘、人工智能和信息检索四种标签;当采用ACM数据集时对论文顶点进行分类,将论文顶点划分为数据库、无线通讯和数据挖掘三种标签。
优选地,步骤1中,所述多模态信息包括学术论文的文本及照片、论文作者的照片及视频、术语和会场的相关描述信息。
优选地,步骤1中,为了便于计算,通过作者-论文-作者的桥接模式下采样得到引文网络的子静态异质图。
步骤2、利用受约束的马尔可夫过程对静态异质图进行处理,得到转移状态矩阵收敛时的图的稳定的转移状态:
S2.1、忽略静态异质图的顶点类型和边类型,得到一个加权邻接矩阵A,加权邻接矩阵A中的每一个元素表示顶点i和顶点j之间的边数;再根据加权邻接矩阵A,得到度矩阵D,度矩阵D中的每一个元素/>;
S2.2、根据加权邻接矩阵A和度矩阵D,得到状态转移矩阵M(即顶点之间的随机游走概率)的初始状态转移矩阵,M0中的每一个元素M0[i,j]表示从顶点i到顶点j的随机游走概率;
S2.3、根据初始状态转移矩阵M0利用广义图扩散获得每一次迭代后的顶点之间的随机游走概率Mk,k=1,2,3…N,k表示迭代次数;同时对每一次迭代后得到的Mk依次进行扩张操作和修剪操作来控制随机游走过程,以发现紧密连接的社区,直至Mk不再发生变化,保留此时的Mk作为稳定的转移状态;
优选地,步骤S2.3中,广义图扩散的计算公式为;;/>表示前一次迭代的随机游走概率;
优选地,步骤S2.3中,扩张操作通过矩阵的Hadamard幂来优化拓扑结构,如式(1)所示;扩张操作增大了较大的随机游走概率,减少了较小的随机游走概率,有助于发现拓扑结构上紧密相关的顶点:
(1)
式(1)中,r是扩张因子,它是一个非线性操作。
优选地,步骤S2.3中,修剪操作是移除随机游走概率≤给定阈值θ的边,使静态异质图变得稀疏,有助于发现紧密相关的高阶邻居,如式(2)所示:
(2)
式(2)中,θ为超参数,尝试不同的值后,选择效果最好的结果作为该参数的取值。
步骤3、静态异质图中稳态边的构建:结合步骤2得到稳定的转移状态(即S2.3得到的不再变化的Mk),过滤出指定顶点类型的顶点集合,并且选择该顶点集合内的随机游走概率大于给定阈值θ的顶点对;再将这些顶点对作为新的类型的边加入到步骤1得到的静态异质图中,得到含稳态边的静态异质图;
步骤4、空间线性映射:对含稳态边的静态异质图中的每种顶点类型分别各自学习一个线性函数,将不同的顶点类型从原始空间映射到同一向量空间中(即将引文网络中的作者、论文、术语和会场四种顶点类型从原始空间映射到同一向量空间中),如式(3)所示:
(3)
式(3)中,第c种顶点类型的顶点特征向量Xc通过式(3)映射到同一向量空间中,记为Hc;Wc和Bc分别表示第c种顶点类型的权重矩阵和偏移矩阵,它们是可学习的参数;σ是sigmoid激活函数;
步骤5、在线性映射后的同一向量空间内对每个顶点来自一阶邻居的信号依次进行高低频信号分离和个性化注意力机制聚合,得到每个顶点在线性映射后的空间中的向量表示;
S5.1、首先通过注意力机制计算一个顶点(即源顶点s)与它的一阶邻居(即目标顶点t)之间的权重系数ωst;再将权重系数ωst利用Softmax进行归一化,得到源顶点s和目标顶点t之间注意力权重αst;
优选地,步骤S5.1中,权重系数ωst的计算公式如式(4)所示:
(4)
式(4)中,ωst为源顶点s和目标顶点t之间的权重系数;K(s)表示源顶点s的关键词向量,Q(t)表示目标顶点t的查询向量,本质上是一个可学习向量;是用于区分每个边类型的不同矩阵,每个边类型/>都有一个可学习的矩阵/>;μ是一个先验张量,用于自适应缩放注意力;τ(s)为源顶点s的顶点类型;/>为源顶点s和目标顶点t之间的边e的边类型;τ(t)为目标顶点t的顶点类型;d是当前顶点向量表示的维数;N(s)表示源顶点s的一阶邻居集合,目标顶点t应该属于该集合,即/>;
优选地,步骤S5.1中,注意力权重αst的计算公式如式(5)所示:
(5)
S5.2、高低频信号分离:经过步骤S5.1的注意力机制使得特征相似的顶点之间权重大,不相似的顶点之间权重小,本质上是聚合相似信息(即低频信号)得到特征,但是忽略了不相似的信息(高频信号),因此本发明通过共享的注意力机制分离来自一阶邻居的高低频信号;
优选地,步骤S5.2具体是:先计算获取源顶点s和目标顶点t之间的低频信号的注意力权重和高频信号的注意力权重/>,其中/>等于源顶点s和目标顶点t之间的注意力权重αst,/>等于权重系数ωst依次进行取倒数和Softmax归一化;然后通过源顶点s的向量表示hs加上源顶点s的一阶邻居集合N(s)中的向量表示的加权平均值,得到源顶点s的低频信号的向量表示/>;同时通过源顶点s的向量表示hs减去源顶点s的一阶邻居集合N(s)中的所有向量表示的加权平均值,得到源顶点s的高频信号的向量表示/>。
优选地,步骤S5.2中,注意力权重和/>的计算公式如式(6)所示:
(6)
优选地,步骤S5.2中,源顶点s的低频信号的向量表示以及源顶点s的高频信号的向量表示/>的计算公式如式(7)所示:
(7)
式(7)中,hs为源顶点s的向量表示,已知其顶点类型c,进而从步骤4得到的Hc中得到源顶点s的向量表示hs;ht为目标顶点t的向量表示,已知其顶点类型c,进而从步骤4得到的Hc中得到目标顶点t的向量表示ht;
S5.3、个性化注意力机制聚合:由于每个顶点对高频信号和低频信号的需求是不同的,因此需要为每个顶点将步骤S5.2的从一阶邻居中分离的高频信号和低频信号进行个性化聚合,得到该顶点在线性映射后的空间中的向量表示;
优选地,步骤S5.3具体是:先对于任一顶点i,已知其顶点类型c,进而从步骤4得到的Hc中得到顶点i的向量表示hi;再分别计算出顶点i在低频信号时的注意力权重以及在高频信号时的注意力权重,然后利用Softmax进行归一化,分别得到顶点i在低频信号上的注意力系数以及顶点i在高频信号上的注意力系数/>;再通过式(9)对顶点i从邻居中分离的低频信号和高频信号进行加权聚合,得到顶点i在线性映射后的空间中的向量表示/>。
优选地,步骤S5.3中,顶点i在低频信号上的注意力系数以及顶点i在高频信号上的注意力系数/>的计算公式如式(8)所示:
(8)
式(8)中,是一个共享的注意力向量,/>和表示权重矩阵,/>为顶点i的低频信号,/>为顶点i的高频信号,Softmax为归一化函数;
优选地,步骤S5.3中,加权聚合的计算公式如式(9)所示:
(9)
步骤6、映射回同一向量空间:通过线性变换将任意一个顶点i在线性映射后的空间中的向量表示映射回同一向量空间中,再引入残差连接,得到顶点i的新向量表示/>;
优选地,步骤6的具体过程如式(10)所示:
(10)
式(10)中,是每个顶点类型的线性变换,σ是sigmoid激活函数,res是残差连接。
步骤7、在受约束的注意力机制下进行分类:
S7.1、经过步骤6映射回同一向量空间后,根据每个顶点i的新向量表示利用线性分类器进行分类,得到顶点i的新向量表示/>的预测顶点类别/>;
优选地,步骤S7.1中,顶点i的新向量表示的预测顶点类别/>的计算公式如式(11)所示:
(11)
式(11)中,MLP是进行分类的线性分类器,是顶点i的新向量表示/>的预测顶点类别。
S7.2、由于在静态异质图数据集中,需要高频信号的顶点通常很少,而注意力机制可能会过度拟合低频信号,因此本发明通过受约束的注意力机制增强注意机制中高频信号和低频信号之间的差异,受约束的注意力机制的损失函数Lα如式(12)所示:
(12)
式(12)中,cu和cv表示顶点u和顶点v的标签;N(v)表示与顶点v具有相同顶点类型的邻居,表示异或操作,如果顶点u和顶点v的标签不同,则/>,否则/>;γv表示与顶点v的标签不同的邻居的比例;/>和/>是超参数;V是所有顶点个数,/>是顶点v的低频注意力分数;/>是顶点v的高频注意力分数;
S7.3、结合加权交叉熵损失函数和受约束的注意力机制Lα得到在进行分类时的损失函数L,如式(13)所示:
(13)
式(13)中,为加权交叉熵损失函数,wi是顶点i在损失函数L中的权重,yi顶点i的真实顶点类别;β是用来平衡损失函数Lα的超参数;
S7.4、利用损失函数L在训练集上对模型进行一次迭代训练,当线性分类器在验证集上预测类别的准确率超过M次都没有提升时,M为超参数(根据数据集的大小与特点进行调整),返回步骤4;直至模型收敛(即达到指定的迭代次数或者损失函数L变为最小),然后对于测试集中的第m个顶点,利用步骤6得到它的新向量表示,再通过步骤S7.1来预测测试集中顶点的顶点类别。
实施例1:本实施例中,首先对本发明的方法进行有效性验证:分别在DBLP和ACM两个公开的引文网络数据集上进行顶点分类任务;所使用的数据集的基本统计属性和同质化的宏观评价指标(H.R.Macro)的描述信息如表1所示:
由表1可以看出,所使用的2个数据集包含多种顶点类型,以及不同的同质化的宏观评价指标可以从不同维度验证静态异质图顶点分类模型的表现。
然后,采用两个常用的评价指标F1-Macro(宏平均F1,每个类别下顶点F1的平均值)和F1-Micro(微平均F1,也等于准确率),每组实验均重复5次,表2是本发明的方法和其他方法在DBLP和ACM两个数据集上的引文网络的静态异质图顶点分类实验结果。
由表2可以看出,本发明方法相比于以往效果最好的方法,不同实验设置下,在性能上有不同程度的提升,对比结果充分说明了本发明提出的方法在静态异质图上的顶点分类任务上取得了优秀的效果。
实施例2:本实施例中,以DBLP引文网络中作者分类为例,引文网络是一种典型的异质图网络,有作者Au、论文P、术语T以及会场Ven四种顶点类型,有作者-论文、论文-术语、论文-会场、论文-作者、术语-论文、会场-论文六种边类型,每种顶点类型包含多个顶点,也就是每个Au中包含多个作者名,任务是对作者Au类型顶点进行分类,共有四个标签分别是数据库L1、数据挖掘L2、人工智能L3、信息检索L4;基于此设定,对比本发明的受约束的马尔可夫过程和现有技术中的元路径处理静态异质图的区别:由图2可以看出,引文网络的静态异质图中共有16个顶点,其中Au1、Au2是标签为L1的作者顶点,Au3、Au4、Au5、Au6、Au7是标签为L2的作者顶点,标签相同为同质顶点,标签不同为异质顶点。P1、P2、P3、P4是论文顶点。Ven1、Ven2是会场顶点,T1、T2、T3、T4是术语顶点。通过多种边类型连接得到引文网络的静态异质图。以作者-论文-作者的桥接模式为例分离出引文网络的子静态异质图,得到多个异质作者顶点Au之间更简洁的关联关系。在引文网络的子静态异质图中,顶点Au3和Au4的拓扑关联并不紧密,而顶点Au4和Au7的拓扑关联很紧密。
使用元路径连接,会导致Au3和Au4 两个顶点直接连接,但是Au4和Au7没有直接连接。利用受约束的马尔可夫过程得到的连接拓扑结构关联紧密的顶点(Au4和Au7),并且删除事实上关联不紧密的顶点(Au3和Au4)。本发明还可以应用于社交网络群组分类、多模态图片分类、推荐系统中的商品分类任务。
实施例3:本实施例中,以ACM引文网络为例,有作者Au、论文P、术语T以及会场Ven四种顶点类型,有作者-论文、论文-主题、论文-术语、论文-会场、论文-作者、术语-论文、会场-论文、主题-论文八种边类型,每种顶点类型包含多个顶点,也就是每个P中包含多个论文名,任务是对论文P类型顶点进行分类,共有三个标签分别是数据库、无线通讯、数据挖掘。
本发明未述及之处适用于现有技术。
Claims (10)
1.一种面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,该方法包括以下步骤:
步骤1、从引文网络数据中提取出每个顶点的特征向量X,第c种顶点类型的顶点特征向量记为Xc;同时建立静态异质图;再将静态异质图中所有的顶点划分为训练集、验证集和测试集;
步骤2、利用受约束的马尔可夫过程对静态异质图进行处理,得到稳定的转移状态;
步骤3、结合步骤2得到稳定的转移状态,过滤出指定顶点类型的顶点集合,并且选择该顶点集合内的随机游走概率大于给定阈值θ的顶点对,θ为超参数;再将这些顶点对作为新的类型的边加入到步骤1得到的静态异质图中,得到含稳态边的静态异质图;
步骤4、空间线性映射:对含稳态边的静态异质图中的每种顶点类型分别各自学习一个线性函数,将不同的顶点类型从原始空间映射到同一向量空间中,如式(3)所示:
(3)
式(3)中,第c种顶点类型的顶点特征向量Xc通过式(3)映射到同一向量空间中,记为Hc;Wc和Bc分别表示第c种顶点类型的权重矩阵和偏移矩阵,它们是可学习的参数;σ是sigmoid激活函数;
步骤5、在线性映射后的同一向量空间内对每个顶点来自一阶邻居的信号依次进行高低频信号分离和个性化注意力机制聚合,得到每个顶点在线性映射后的空间中的向量表示;
步骤6、通过线性变换将任意一个顶点i在线性映射后的空间中的向量表示映射回同一向量空间中,再引入残差连接,得到顶点i的新向量表示/>;
步骤7、在受约束的注意力机制下进行分类:
S7.1、经过步骤6映射回同一向量空间后,根据每个顶点i的新向量表示进行分类,得到顶点i的新向量表示/>的预测顶点类别/>;
S7.2、通过受约束的注意力机制增强注意机制中高频信号和低频信号之间的差异,受约束的注意力机制的损失函数Lα如式(12)所示:
(12)
式(12)中,cu和cv表示顶点u和顶点v的标签;N(v)表示与顶点v具有相同顶点类型的邻居,表示异或操作;γv表示与顶点v的标签不同的邻居的比例;/>和/>是超参数;V是所有顶点个数,/>是顶点v的低频注意力分数;/>是顶点v的高频注意力分数;
S7.3、结合加权交叉熵损失函数和受约束的注意力机制Lα得到在进行分类时的损失函数L,如式(13)所示:
(13)
式(13)中,为加权交叉熵损失函数,wi是顶点i在损失函数L中的权重,yi顶点i的真实顶点类别;β是用来平衡损失函数Lα的超参数;
S7.4、利用损失函数L在训练集上对模型进行一次迭代训练,当在验证集上预测类别的准确率超过M次都没有提升时,M为超参数,返回步骤4;直至模型收敛,然后对于测试集中的第m个顶点,利用步骤6得到它的新向量表示,再通过步骤S7.1来预测测试集中顶点的顶点类别。
2.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤1具体是:将引文网络数据中的实体携带的多模态信息进行统计分析,提取出每个顶点的特征向量X;引文网络数据的顶点类型为作者、论文、术语和会场,其中第c种类型的顶点的特征向量记为Xc;同时利用引文网络数据中的顶点类型和顶点之间不同的边类型建立一个静态异质图;再将静态异质图中所有的顶点按照比例随机划分为训练集、验证集和测试集;
引文网络数据采用DBLP数据集或ACM数据集;当采用DBLP数据集时,边类型为作者-论文、论文-术语、论文-会场、论文-作者、术语-论文以及会场-论文;当采用ACM数据集时,边类型为作者-论文、论文-主题、论文-术语、论文-会场、论文-作者、术语-论文、会场-论文以及主题-论文。
3.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤2具体是:
S2.1、忽略静态异质图的顶点类型和边类型,得到一个加权邻接矩阵A,加权邻接矩阵A中的每一个元素表示顶点i和顶点j之间的边数;再根据加权邻接矩阵A,得到度矩阵D,度矩阵D中的每一个元素/>;
S2.2、根据加权邻接矩阵A和度矩阵D,得到状态转移矩阵M的初始状态转移矩阵,M0中的每一个元素M0[i,j]表示从顶点i到顶点j的随机游走概率;
S2.3、根据初始状态转移矩阵M0利用广义图扩散获得每一次迭代后的顶点之间的随机游走概率Mk,k表示迭代次数;再对每一次迭代后得到的Mk依次进行扩张操作和修剪操作,直至Mk不再发生变化,保留此时的Mk作为稳定的转移状态。
4.根据权利要求3所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤S2.3中,广义图扩散的计算公式为;/>表示前一次迭代的随机游走概率;
步骤S2.3中,扩张操作通过矩阵的Hadamard幂来优化拓扑结构,如式(1)所示:
(1)
式(1)中,r是扩张因子,它是一个非线性操作;
步骤S2.3中,修剪操作是移除随机游走概率≤给定阈值θ的边,如式(2)所示:
(2)
式(2)中,θ为超参数。
5.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤5具体是:
S5.1、首先通过注意力机制计算源顶点s与它的一阶邻居即目标顶点t之间的权重系数ωst;再将权重系数ωst利用Softmax进行归一化,得到源顶点s和目标顶点t之间注意力权重αst;
S5.2、通过共享的注意力机制分离来自一阶邻居的高低频信号;
S5.3、个性化注意力机制聚合:为每个顶点将步骤S5.2的从一阶邻居中分离的高频信号和低频信号进行个性化聚合,得到该顶点在线性映射后的空间中的向量表示。
6.根据权利要求5所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤S5.1中,权重系数ωst的计算公式如式(4)所示:
(4)
式(4)中,ωst为源顶点s和目标顶点t之间的权重系数;K(s)表示源顶点s的关键词向量,Q(t)表示目标顶点t的查询向量,是一个可学习向量;是用于区分每个边类型的不同矩阵;μ是一个先验张量,用于自适应缩放注意力;τ(s)为源顶点s的顶点类型;/>为源顶点s和目标顶点t之间的边e的边类型;τ(t)为目标顶点t的顶点类型;d是当前顶点向量表示的维数;N(s)表示源顶点s的一阶邻居集合,目标顶点t应该属于该集合,即/>;
步骤S5.1中,注意力权重αst的计算公式如式(5)所示:
(5)。
7.根据权利要求5所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤S5.2具体是:先计算获取源顶点s和目标顶点t之间的低频信号的注意力权重和高频信号的注意力权重/>,其中/>等于源顶点s和目标顶点t之间的注意力权重αst,/>等于权重系数ωst依次进行取倒数和Softmax归一化;然后通过源顶点s的向量表示hs加上源顶点s的一阶邻居集合N(s)中的向量表示的加权平均值,得到源顶点s的低频信号的向量表示/>;同时通过源顶点s的向量表示hs减去源顶点s的一阶邻居集合N(s)中的所有向量表示的加权平均值,得到源顶点s的高频信号的向量表示/>;
步骤S5.3具体是:先对于任一顶点i,已知其顶点类型c,进而从步骤4得到的Hc中得到顶点i的向量表示hi;再分别计算出顶点i在低频信号时的注意力权重以及在高频信号时的注意力权重,然后利用Softmax进行归一化,分别得到顶点i在低频信号上的注意力系数以及顶点i在高频信号上的注意力系数/>;再对顶点i从邻居中分离的低频信号和高频信号进行加权聚合,得到顶点i在线性映射后的空间中的向量表示/>。
8.根据权利要求7所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤S5.2中,注意力权重和/>的计算公式如式(6)所示:
(6)
步骤S5.2中,源顶点s的低频信号的向量表示以及源顶点s的高频信号的向量表示/>的计算公式如式(7)所示:
(7)
式(7)中,hs为源顶点s的向量表示,已知其顶点类型c,进而从步骤4得到的Hc中得到源顶点s的向量表示hs;ht为目标顶点t的向量表示,已知其顶点类型c,进而从步骤4得到的Hc中得到目标顶点t的向量表示ht;
步骤S5.3中,顶点i在低频信号上的注意力系数以及顶点i在高频信号上的注意力系数/>的计算公式如式(8)所示:
(8)
式(8)中,是一个共享的注意力向量,/>和/>表示权重矩阵,/>为顶点i的低频信号,/>为顶点i的高频信号,Softmax为归一化函数;
步骤S5.3中,加权聚合的计算公式如式(9)所示:
(9)。
9.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤6的具体过程如式(10)所示:
(10)
式(10)中,是每个顶点类型的线性变换,σ是sigmoid激活函数,res是残差连接。
10.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤S7.1中,顶点i的新向量表示的预测顶点类别/>的计算公式如式(11)所示:
(11)
式(11)中,MLP是进行分类的线性分类器,是顶点i的新向量表示/>的预测顶点类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311732766.4A CN117421671B (zh) | 2023-12-18 | 2023-12-18 | 面向引文网络的频率自适应静态异质图节点分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311732766.4A CN117421671B (zh) | 2023-12-18 | 2023-12-18 | 面向引文网络的频率自适应静态异质图节点分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117421671A true CN117421671A (zh) | 2024-01-19 |
CN117421671B CN117421671B (zh) | 2024-03-05 |
Family
ID=89523345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311732766.4A Active CN117421671B (zh) | 2023-12-18 | 2023-12-18 | 面向引文网络的频率自适应静态异质图节点分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117421671B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4084103A (en) * | 1977-06-07 | 1978-04-11 | Burns Iii William Wesley | System-state and operating condition sensitive control method and apparatus for electric power delivery systems |
CN113139902A (zh) * | 2021-04-23 | 2021-07-20 | 深圳大学 | 一种高光谱图像超分辨率重建方法、装置及电子设备 |
WO2021179838A1 (zh) * | 2020-03-10 | 2021-09-16 | 支付宝(杭州)信息技术有限公司 | 一种基于异构图神经网络模型进行预测的方法和系统 |
CN113515634A (zh) * | 2021-07-09 | 2021-10-19 | 福州大学 | 基于分层异质图神经网络的社交媒体谣言检测方法及系统 |
CN114328923A (zh) * | 2021-12-29 | 2022-04-12 | 杭州电子科技大学 | 一种基于多任务双边分支网络的引文意图分类方法 |
US20220414792A1 (en) * | 2021-06-24 | 2022-12-29 | Jinan University | Social recommendation method based on multi-feature heterogeneous graph neural networks |
CN117093928A (zh) * | 2023-10-18 | 2023-11-21 | 南开大学 | 基于谱域图神经网络的自适应图节点异常检测方法 |
-
2023
- 2023-12-18 CN CN202311732766.4A patent/CN117421671B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4084103A (en) * | 1977-06-07 | 1978-04-11 | Burns Iii William Wesley | System-state and operating condition sensitive control method and apparatus for electric power delivery systems |
WO2021179838A1 (zh) * | 2020-03-10 | 2021-09-16 | 支付宝(杭州)信息技术有限公司 | 一种基于异构图神经网络模型进行预测的方法和系统 |
CN113139902A (zh) * | 2021-04-23 | 2021-07-20 | 深圳大学 | 一种高光谱图像超分辨率重建方法、装置及电子设备 |
US20220414792A1 (en) * | 2021-06-24 | 2022-12-29 | Jinan University | Social recommendation method based on multi-feature heterogeneous graph neural networks |
CN113515634A (zh) * | 2021-07-09 | 2021-10-19 | 福州大学 | 基于分层异质图神经网络的社交媒体谣言检测方法及系统 |
CN114328923A (zh) * | 2021-12-29 | 2022-04-12 | 杭州电子科技大学 | 一种基于多任务双边分支网络的引文意图分类方法 |
CN117093928A (zh) * | 2023-10-18 | 2023-11-21 | 南开大学 | 基于谱域图神经网络的自适应图节点异常检测方法 |
Non-Patent Citations (2)
Title |
---|
LIN ZHANG 等: "Dynamic heterogeneous graph representation learning with neighborhood type modeling", 《NEUROCOMPUTING》, 2 March 2023 (2023-03-02), pages 46 - 60 * |
郭佳雯 等: "基于非递减时序随机游走的动态异质网络嵌入", 《计算机研究与发展》, 31 December 2021 (2021-12-31), pages 1624 - 1639 * |
Also Published As
Publication number | Publication date |
---|---|
CN117421671B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263227B (zh) | 基于图神经网络的团伙发现方法和系统 | |
CN112508085B (zh) | 基于感知神经网络的社交网络链路预测方法 | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
Zhou et al. | Deep forest hashing for image retrieval | |
CN107491782B (zh) | 利用语义空间信息的针对少量训练数据的图像分类方法 | |
CN110263236B (zh) | 基于动态多视图学习模型的社交网络用户多标签分类方法 | |
WO2022252458A1 (zh) | 一种分类模型训练方法、装置、设备及介质 | |
CN113554100B (zh) | 异构图注意力网络增强的Web服务分类方法 | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN112861976B (zh) | 一种基于孪生图卷积哈希网络的敏感图像识别方法 | |
Tang et al. | Re-thinking the relations in co-saliency detection | |
Rey et al. | Untrained graph neural networks for denoising | |
CN112784118A (zh) | 一种对三角形结构敏感的图中的社区发现方法和装置 | |
CN115983351A (zh) | 一种基于对比学习的自监督图神经网络方法 | |
CN113887698B (zh) | 基于图神经网络的整体知识蒸馏方法和系统 | |
CN116090504A (zh) | 图神经网络模型训练方法及装置、分类方法、计算设备 | |
CN117473315A (zh) | 一种基于多层感知机的图分类模型构建方法和图分类方法 | |
CN109934281B (zh) | 一种二分类网络的非监督训练方法 | |
CN117421671B (zh) | 面向引文网络的频率自适应静态异质图节点分类方法 | |
CN116630816A (zh) | 基于原型对比学习的sar目标识别方法、装置、设备及介质 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 | |
CN114265954B (zh) | 基于位置与结构信息的图表示学习方法 | |
CN115577283A (zh) | 一种实体分类方法、装置、电子设备及存储介质 | |
CN115272696A (zh) | 一种基于自适应卷积和局部几何信息的点云语义分割方法 | |
Sun et al. | Reinforced contrastive graph neural networks (RCGNN) for anomaly detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |