CN114611668A - 一种基于异质信息网络随机游走的向量表示学习方法及系统 - Google Patents

一种基于异质信息网络随机游走的向量表示学习方法及系统 Download PDF

Info

Publication number
CN114611668A
CN114611668A CN202210230949.5A CN202210230949A CN114611668A CN 114611668 A CN114611668 A CN 114611668A CN 202210230949 A CN202210230949 A CN 202210230949A CN 114611668 A CN114611668 A CN 114611668A
Authority
CN
China
Prior art keywords
meta
path
node
vector representation
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210230949.5A
Other languages
English (en)
Inventor
楼晓俊
李剑
张天荣
冯海林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang A&F University ZAFU
Original Assignee
Zhejiang A&F University ZAFU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang A&F University ZAFU filed Critical Zhejiang A&F University ZAFU
Priority to CN202210230949.5A priority Critical patent/CN114611668A/zh
Publication of CN114611668A publication Critical patent/CN114611668A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异质信息网络随机游走的向量表示学习方法及系统,包括:多次随机游走获得多个元路径实例,挑选k条元路径实例;对k条的元路径实例中包含的节点进行维度统一,获得该节点的特征向量表示;输入到bi LSTM网络,学习到元路径实例的向量表示;输入注意力层,先学习到每一条元路径实例对于节点的影响因子,然后通过注意力机制将影响因子和元路径实例的向量进行聚合,得到节点的嵌入向量表示;将节点的嵌入向量,输入到损失函数中,得到损失值,通过优化器多次优化,得到最终的节点向量。本发明可以在链路预测、节点分类、节点聚类以及推荐的任务上取得很好的效果。

Description

一种基于异质信息网络随机游走的向量表示学习方法及系统
技术领域
本发明涉及图神经网络领域,特别涉及一种基于异质信息网络随机游走的向量表示学习方法及系统。
背景技术
近些年来,由于卷积神经网络在图像处理领域取得了卓越的成就,许多研究人员将卷积的思想应用到了图结构上,形成了同质图卷积神经网络,但是由于同质图神经网络在面对异质图结构时,不能区分不同的节点种类和边的种类,所以它在异质图结构上并不能发挥良好的效果。针对这个问题,许多异质图神经网络涌现了出来,但是他们都具有一些缺陷:1、需要人为预定义元路径的类型;2、不能同时考虑所有存在于图结构中的元路径。3、一些模型打乱了异质图中客观存在的序列,所以丢失了可解释性。
因此,需要一种可以自动为每一个节点收集元路径同时不人为定义元路径类型的异质图神经模型。
发明内容
本发明针对传统异质图神经网络需要人为预定义元路径,不能考虑所有元路径对节点影响的问题,提出了一种基于异质信息网络随机游走的向量表示学习方法及系统,基于随机游走的自适应元路径选择的异质图神经网络模型,该模型可以在链路预测、节点分类、节点聚类以及推荐的任务上取得很好的效果。
一种基于异质信息网络随机游走的向量表示学习方法,其特征在于,包括以下步骤:
1)异质信息网络预处理构造多个三元组;
2)多次随机游走获得多个元路径实例,挑选k条元路径实例;
3)对步骤2)获得k条的元路径实例中包含的节点进行维度统一,获得该节点的特征向量表示;
4)将步骤3)获得的节点的特征向量输入到bi LSTM网络,学习到元路径实例的向量表示;
5)将步骤4)获得的元路径实例的向量输入注意力层,先学习到每一条元路径实例对于节点的影响因子,然后通过注意力机制将影响因子和步骤4)获得的元路径实例的向量进行聚合,得到节点的嵌入向量表示;
6)将步骤5)获得的节点的嵌入向量,输入到损失函数中,得到损失值,通过优化器多次优化,得到最终的节点向量。
步骤1)中,所述的预处理包括:
通过随机负采样的方式构造多个三元组,所述的三元组包括:目标节点、正样本节点、负样本节点。
步骤2)中,多次随机游走获得多个元路径实例,挑选k条元路径实例,具体包括:
2.1)从异质信息网络三元组的节点开始随机游走,当游走到和开始节点类型相同,停止这一次的随机游走,并记录该元路径实例;
2.2)重复步骤2.1),得到多个元路径实例(200~2000,优选1000个);
2.3)从步骤2.2)中的多个元路径实例挑选k(3~10,优选5~6)条;
挑选包括:从出现频率中挑选出最高的k条。
步骤3)中,维度统一包括:将具有不同长度和不同特征的节点映射到相同的语义空间。
步骤4)中,学习公式为:
v1,v2,v3∈P
F=concat(f(v1),f(v2),f(v3))
Figure BDA0003540493050000021
其中,(v1,v2,v3)代表了元路径实例P上的节点,f(v1)、f(v2)、f(v3)代表了节点的特征向量,concat为拼接函数,F为拼接后的向量,LSTM为一种神经网络结构,embedding为学习得到的元路径实例向量表示。
基于异质信息网络随机游走的向量表示学习系统,包括:
元路径采集模块,用于从异质信息网络三元组的节点开始随机游走到和开始节点类型相同,记录该元路径实例,重复得到多个元路径实例,从多个元路径实例挑选k条;
节点特征聚合模块,用于对k条的元路径实例中包含的节点进行维度统一获得该节点的特征向量表示;
元路径实例聚合模块,用于将节点的特征向量输入到bi LSTM网络,学习到元路径实例的向量表示;
注意力层模块,用于将获得的元路径实例的向量输入注意力层,先学习到每一条元路径实例对于节点的影响因子,然后通过注意力机制将影响因子和元路径实例的向量进行聚合,得到节点的嵌入向量表示。
基于随机游走的自适应元路径选择的异质图神经网络模型(即基于异质信息网络随机游走的向量表示学习系统)主要包括以下模块:
元路径采集模块:在复杂的异构网络图中,每个节点都有大量的邻居节点和边,其中包含了节点的嵌入信息。为了挖掘每个节点周围的结构信息,我们设计了一种基于随机游走的方法,可以自适应地找到每个节点的“强关联”元路径实例,从而挖掘出隐藏在图结构中的节点嵌入信息。同时,我们不需要预定义多个元路径。
节点特征聚合模块:不同类型的节点含有不同类型的特征,这种特性使得每个节点的特征维度各不相同,换而言之,不同类型的节点存在于不同的语义空间之中。我们通过使用CNN来预处理节点的图像特征,ParVec来预处理节点的文本数据。再通过bi-LSTM网络将这些特征聚合在一起,通过128维度的向量进行表示。
元路径实例聚合模块:由于每条元路径都包含了不同的节点,同时不同的元路径包含的节点数量可能不相同,所以我们通过bi-LSTM来得到每一条元路径实例的嵌入表示。
注意力层模块:由于在异质信息网络具有不均衡性,不同的元路径实例对不同节点的影响都不相同,所以我们通过注意力机制来自动学习每条元路径对于目标节点的注意力系数,从而获得更加准确的节点聚合表示。
与现有技术相比,本发明具有如下优点:
与传统的现有方法相比,本发明方法不需要人为定义元路径的类型,可以自动且自适应的为每一个节点寻找对应的关联路径,同时在学习节点的嵌入表达时,本发明方法也保留了元路径的客观逻辑序列。本发明方法可以广泛的应用于许多异质信息网络相关的下游任务,如:链路预测,推荐以及节点分类,在这些任务场景中,通过实验结果表明,本发明方法均比现有的方法具有更高的准确率。
附图说明
图1为本发明基于异质信息网络随机游走的向量表示学习方法的流程示意图;
图2为本发明基于随机游走的自适应元路径采样的异质图神经网络模型流程图。
具体实施方式
为了使得本发明的方案、目的、使用场景更加明晰,接下来将结合实施方式和附图,对本发明进行进一步详细描述。
如图1所示,一种基于异质信息网络随机游走的向量表示学习方法,包括以下步骤:
1)异质信息网络预处理构造多个三元组;
2)多次随机游走获得多个元路径实例,挑选k条元路径实例;
3)对步骤2)获得k条的元路径实例中包含的节点进行维度统一,获得该节点的特征向量表示;
4)将步骤3)获得的节点的特征向量输入到bi LSTM网络,学习到元路径实例的向量表示;
5)将步骤4)获得的元路径实例的向量输入注意力层,先学习到每一条元路径实例对于节点的影响因子,然后通过注意力机制将影响因子和步骤4)获得的元路径实例的向量进行聚合,得到节点的嵌入向量表示;
6)将步骤5)获得的节点的嵌入向量,输入到损失函数中,得到损失值,通过优化器多次优化,得到最终的节点向量。
本发明实现了一种基于随机游走的自适应元路径采样的异质图神经网络模型,包括元路径采集模块、节点特征聚合模块、元路径实例聚合模块以及注意力层模块。其中元路径采集模块对于输入的异质图为每一个节点采集周围的元路径实例,节点特征聚合模块通过神经网络网络来得到这些元路径实例中节点的嵌入表示,元路径实例聚合模块通过bi-LSTM将拼接在一起的节点表示学习得到元路径实例的向量表表示,最后通过注意力层模块学习得到每条元路径实例的注意力系数然后他们聚合得到最终的节点表示。
如图2所示,其中,Academicdataset代表了原始的学术数据集,分别有作者(Author)节点,文章(Paper)节点以及期刊(Venue)节点,meta-pathinstancecollection代表了元路径采集模块,nodefeatureaggregation代表了节点特征聚合模块,meta-pathinstanceembedding代表了元路径实例聚合模块,Attention Layer代表了注意力层模块。接下来我将结合附图以及公式详细介绍模型的工作流程:
我们通过输入的异质神经网络,通过随机负采样的方式构造一定数量的三元组,将三元组输入到我们的模型当中。
1、元路径采集模块
对于输入的三元组,我们遍历所有节点,并以他们为目标节点进行随机游走。当我们使用随机行走到达与目标节点类型相同的节点时,我们将记录此元路径实例,然后从目标节点开始另一个新的随机行走。为了确保收集到的元路径实例能够准确地表达目标节点的空间和结构信息,我们需要多次重复此步骤。例如,对于学术数据集,我们必须为每个节点重复此步骤1000次,这意味着为每个节点存储1000个元路径实例。对于每个节点通过随机游走收集的元路径实例,我们选择出现频率最高的K个实例作为节点的“强关联”元路径实例。
这种策略可以解决问题,因为这种方法具有以下特点:1。在漫游过程中,中间节点将被序列化存储,这部分信息不会被丢弃,这一特性最大限度地保留了网络的秩序和结构,从而可以更好地挖掘网络的结构信息;2.随机游走方法可以自动选择目标节点周围“强关联”的元路径实例。此外,在该方法中,每个节点所选择的元路径实例是不同的,这也保留了网络结构的异构性。此功能确保所挖掘的信息丰富且异构。
2、节点特征聚合模块
每个元路径实例上有不同类型的节点,每种类型的节点具有不同的特征,特征的维度也不同,这意味着不同类型的节点位于不同的语义空间中。因此,我们需要一些方法来聚合它们的特征并统一维度。
具体来说,首先需要对网络中节点的特征进行预处理。例如,使用CNN处理图像特征,使用ParVec处理文本特征,将特征维度更改为128维,并将这些特征存储在三维矩阵F中,然后使用bi LSTM网络聚合这些特征,以获得长度维度为128维的节点特征向量。这一步骤可以理解为将具有不同长度和不同特征的节点映射到相同的语义空间。聚合的公式为:
Figure BDA0003540493050000051
其中LSTM网络的计算公式为:
zi=σ(μzf(xi)+wzhi-1+bz)
qi=σ(μqf(xi)+wqhi-1+bq)
oi=σ(μof(xi)+wohi-1+bo)
Figure BDA0003540493050000061
Figure BDA0003540493050000062
Figure BDA0003540493050000063
3、元路径实例聚合模块
我们发现,异构网络中的信息表达是双向的。例如,在学术数据集中,有一个元路径实例(A1-P1-A2),在这个序列中,A1在一定程度上通过P1影响A2,而A2也以这种方式影响A1。我们希望这种双向信息也能反映在元路径实例的聚合中。因此,与前一步一样,我们仍然选择bi LSTM。这种双向LSTM网络可以在两个方向上训练语义信息。与传统方法不同,它们在发现节点无序后输入LSTM,并且在输入时保留异构网络的原始结构。这种自然结构的保存使我们的模型更具说服力。
元路径的聚合公式为:
v1,v2,v3∈P
F=concat(f(v1),f(v2),f(v3))
Figure BDA0003540493050000064
在使用bi LSTM时,我们将元路径实例理解为具有语义的句子,节点是句子中的单词。与之前的节点向量聚合不同,之前的步骤是平均每个单元的输出。当聚合元路径时,因为我们想要得到该路径的表示,所以我们需要LSTM网络的最后一个单元的输出值。我们需要LSTM网络最后一个单元的输出作为元路径实例的嵌入。
4、注意力层模块
在获得每个路径的向量表示之后,我们还需要聚合这些路径以获得目标节点的最终表示。此时,我们必须考虑异构网络的不平衡,这意味着不同的元路径实例对目标节点的影响是完全不同的。因此,我们参考以前的实践,使用注意层来完成聚合操作的这一步。注意力层可以自动学习到每条元路径实例和目标节点之间的注意力系数,从而得到更加精准的节点表示。
在得到了节点表示之后,对于每一个三元组的三个节点,通过最大化邻居节点的概率来进行损失值计算,然后使用随机梯度下降的方法对损失值进行优化。再经过30次迭代之后,得到了所有节点的向量表示。针对这些向量表示,我们可以进行许多下游任务如:链路预测、推荐和节点分类。
与传统的现有方法相比,本发明的方法不需要人为定义元路径的类型,可以自动且自适应的为每一个节点寻找对应的关联路径,同时在学习节点的嵌入表达时,本发明的方法也保留了元路径的客观逻辑序列。
在链路预测的任务场景中,我们的方法要优于现有的技术,数据如表1所示:
表1
Figure BDA0003540493050000071
其中,我们使用了AUC和F1两种评估指标,得到的的结果均表示我们的方法优于现有方法。
在推荐的任务场景中,本发明的方法要优于现有的技术,数据如表2所示:
表2
Figure BDA0003540493050000072
其中本发明使用了REC、PRE以及F1作为评估指标,得到的结果均表示我们方法优于现有方法。
在节点分类的任务场景中,本发明的方法要优于现有的技术,数据如表3所示:
表3
Figure BDA0003540493050000081

Claims (9)

1.一种基于异质信息网络随机游走的向量表示学习方法,其特征在于,包括以下步骤:
1)异质信息网络预处理构造多个三元组;
2)多次随机游走获得多个元路径实例,挑选k条元路径实例;
3)对步骤2)获得k条的元路径实例中包含的节点进行维度统一,获得该节点的特征向量表示;
4)将步骤3)获得的节点的特征向量输入到bi LSTM网络,学习到元路径实例的向量表示;
5)将步骤4)获得的元路径实例的向量输入注意力层,先学习到每一条元路径实例对于节点的影响因子,然后通过注意力机制将影响因子和步骤4)获得的元路径实例的向量进行聚合,得到节点的嵌入向量表示;
6)将步骤5)获得的节点的嵌入向量,输入到损失函数中,得到损失值,通过优化器多次优化,得到最终的节点向量。
2.根据权利要求1所述的基于异质信息网络随机游走的向量表示学习方法,其特征在于,步骤1)中,所述的预处理包括:
通过随机负采样的方式构造多个三元组,所述的三元组包括:目标节点、正样本节点、负样本节点。
3.根据权利要求1所述的基于异质信息网络随机游走的向量表示学习方法,其特征在于,步骤2)中,多次随机游走获得多个元路径实例,挑选k条元路径实例,具体包括:
2.1)从异质信息网络三元组的节点开始随机游走,当游走到和开始节点类型相同,停止这一次的随机游走,并记录该元路径实例;
2.2)重复步骤2.1),得到多个元路径实例;
2.3)从步骤2.2)中的多个元路径实例挑选k条;
4.根据权利要求3所述的基于异质信息网络随机游走的向量表示学习方法,其特征在于,步骤2.2)中,多个元路径实例为200~2000个。
5.根据权利要求3所述的基于异质信息网络随机游走的向量表示学习方法,其特征在于,步骤2.3)中,k为3~10。
6.根据权利要求3所述的基于异质信息网络随机游走的向量表示学习方法,其特征在于,步骤2.3)中,挑选包括:从出现频率中从高到低挑选出最高的k条。
7.根据权利要求1所述的基于异质信息网络随机游走的向量表示学习方法,其特征在于,步骤3)中,维度统一包括:将具有不同长度和不同特征的节点映射到相同的语义空间。
8.根据权利要求1所述的基于异质信息网络随机游走的向量表示学习方法,其特征在于,步骤4)中,学习公式为:
v1,v2,v3∈P
F=concat(f(v1),f(v2),f(v3))
Figure FDA0003540493040000021
其中,(v1,v2,v3)代表了元路径实例P上的节点,f(v1)、f(v2)、f(v3)代表了节点的特征向量,concat为拼接函数,F为拼接后的向量,LSTM为一种神经网络结构,embedding为学习得到的元路径实例向量表示。
9.一种基于异质信息网络随机游走的向量表示学习系统,其特征在于,包括:
元路径采集模块,用于从异质信息网络三元组的节点开始随机游走到和开始节点类型相同,记录该元路径实例,重复得到多个元路径实例,从多个元路径实例挑选k条;
节点特征聚合模块,用于对k条的元路径实例中包含的节点进行维度统一获得该节点的特征向量表示;
元路径实例聚合模块,用于将节点的特征向量输入到biLSTM网络,学习到元路径实例的向量表示;
注意力层模块,用于将获得的元路径实例的向量输入注意力层,先学习到每一条元路径实例对于节点的影响因子,然后通过注意力机制将影响因子和元路径实例的向量进行聚合,得到节点的嵌入向量表示。
CN202210230949.5A 2022-03-10 2022-03-10 一种基于异质信息网络随机游走的向量表示学习方法及系统 Pending CN114611668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210230949.5A CN114611668A (zh) 2022-03-10 2022-03-10 一种基于异质信息网络随机游走的向量表示学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210230949.5A CN114611668A (zh) 2022-03-10 2022-03-10 一种基于异质信息网络随机游走的向量表示学习方法及系统

Publications (1)

Publication Number Publication Date
CN114611668A true CN114611668A (zh) 2022-06-10

Family

ID=81862009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210230949.5A Pending CN114611668A (zh) 2022-03-10 2022-03-10 一种基于异质信息网络随机游走的向量表示学习方法及系统

Country Status (1)

Country Link
CN (1) CN114611668A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958997A (zh) * 2023-09-19 2023-10-27 南京大数据集团有限公司 一种基于异质图神经网络的图文摘要方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958997A (zh) * 2023-09-19 2023-10-27 南京大数据集团有限公司 一种基于异质图神经网络的图文摘要方法及系统
CN116958997B (zh) * 2023-09-19 2024-01-23 南京大数据集团有限公司 一种基于异质图神经网络的图文摘要方法及系统

Similar Documents

Publication Publication Date Title
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN108388651B (zh) 一种基于图核和卷积神经网络的文本分类方法
CN109783582B (zh) 一种知识库对齐方法、装置、计算机设备及存储介质
CN109063724B (zh) 一种增强型生成式对抗网络以及目标样本识别方法
Garreta et al. Learning scikit-learn: machine learning in python
CN109615014B (zh) 一种基于kl散度优化的3d物体数据分类系统与方法
CN112380435B (zh) 基于异构图神经网络的文献推荐方法及推荐系统
CN109816032B (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
CN111709518A (zh) 一种基于社区感知和关系注意力的增强网络表示学习的方法
CN111382283B (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
CN102117411B (zh) 用于构建多级别分类模型的方法和系统
CN114565053B (zh) 基于特征融合的深层异质图嵌入模型
CN112199536A (zh) 一种基于跨模态的快速多标签图像分类方法和系统
CN109829065B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN113378913A (zh) 一种基于自监督学习的半监督节点分类方法
CN112241456B (zh) 基于关系网络与注意力机制的假新闻预测方法
KR20210102039A (ko) 전자 디바이스 및 이의 제어 방법
CN113297429B (zh) 一种基于神经网络架构搜索的社交网络链路预测方法
CN107491782A (zh) 利用语义空间信息的针对少量训练数据的图像分类方法
CN110674326A (zh) 一种基于多项式分布学习的神经网络结构检索方法
CN110830291B (zh) 一种基于元路径的异质信息网络的节点分类方法
CN115577283A (zh) 一种实体分类方法、装置、电子设备及存储介质
CN114611668A (zh) 一种基于异质信息网络随机游走的向量表示学习方法及系统
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
CN115130663B (zh) 基于图神经网络和注意力机制的异质网络属性补全方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination