CN113228059A - 面向跨网络的表示学习算法 - Google Patents
面向跨网络的表示学习算法 Download PDFInfo
- Publication number
- CN113228059A CN113228059A CN202080005540.2A CN202080005540A CN113228059A CN 113228059 A CN113228059 A CN 113228059A CN 202080005540 A CN202080005540 A CN 202080005540A CN 113228059 A CN113228059 A CN 113228059A
- Authority
- CN
- China
- Prior art keywords
- network
- layer
- node
- expression
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims abstract description 24
- 239000013604 expression vector Substances 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 59
- 230000002776 aggregation Effects 0.000 claims description 15
- 238000004220 aggregation Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims 2
- 102220039964 rs139282091 Human genes 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提出一种面向跨网络的表示学习算法,包括:S1,生成包括源网络和目标网络的网络数据;S2,分别从源网络和目标网络随机采样设定数量的节点,并整理成满足算法输入的数据格式;S3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失;S4,将从L层的神经网络中得到的源网络节点的表达向量进行分类预测概率计算,通过交叉熵损失函数计算分类损失,并且结合距离损失,通过反向传播算法更新神经网络参数;S5,重复步骤S2‑S4,直至整个算法收敛。本公开有效地解决了跨网络表示学习问题,在现实中有着广阔的应用空间。
Description
技术领域
本公开属于计算机技术领域,尤其涉及一种面向跨网络的表示学习算法。
背景技术
网络结构数据因其能够自然地表达对象与对象之间的关系而广泛存在于众多的应用场景中。比如在社交领域(微信或者微博),用户与用户的友好关系能够以社交网络的形式表达;在科研领域,作者和论文之间的关系,论文与论文之间的关系,可以分别用发表网络和引用网络进行表达;在电商领域,用户与商品之间的点击关系形成的网络。正因为网络结构数据的普遍性以及重要性,近年来,针对网络中的节点如何进行有效的向量化表达(即网络嵌入表达)成为一个重要的研究问题。节点的向量化,指的是希望通过算法将网络中的节点映射到一个低维空间。在这个低维的向量空间,节点与节点之间的距离能够反映彼此之间在原始网络中的关系。学习得到的节点向量可以被应用到多个任务,比如推荐、链路预测等等。
现有的网络嵌入表示算法主要可以分为两类:一是直推式的表示学习算法。给定一个目标网络,直推式的表示算法直接通过节点的属性以及网络关系去优化每个节点的表达向量,比如DeepWalk和Node2vec。二是归纳式的表示学习算法。归纳式的表示算法往往是学习出一个映射函数,只要给定输入节点的属性以及其邻居,就可以通过映射函数推断出节点的表达向量,比如GCN,GraphSAGE和GAT。
在现实的应用中,我们面临的可能是多个网络,每个网络可能来自不同的时刻或者不同的数据源。这些网络数据的分布可能不同。我们往往是希望从已知的网络中总结出有用的知识,将总结的知识应用到未知的网络中去。比如,在论文的引用网络中,即使不同时刻发表的论文主题热点不同,我们仍然可以借助由过去多年发表的论文形成的网络去帮助推断最近发表的论文与论文之间的关系。因此,在面对多个不同网络的时候,如何解决网络与网络之间分布不同的问题,使得算法能够充分利用已知的网络数据,来提升未知网络数据的表示学习向量的质量是本技术研究的重点。
然而,现有的算法都不能够很好地解决跨网络的表示学习问题。具体来讲:
(1)对于直推式的算法而言,由于直推式算法是直接去优化网络中的节点表达向量,因此对于一个新的网络,直推式算法无法直接去推断新网络中节点的表达向量。因此直推式算法没有任何可用的知识可以被用来进行跨网络的学习。
(2)对于归纳式的算法而言,尽管其在建模的时候考虑的是学习一个节点属性和结构信息的映射函数,这样可以自然地进行跨网络的推断,但是归纳式的算法并没有考虑到网络与网络之间的数据分布是不同的,从一个网络中归纳出来的模式或者知识可能并不能很好地适用于另一个网络,因此归纳式算法在跨网络表示学习的问题上也存在着一定的缺陷。
因此,现有技术需要改进。
上述背景技术内容仅用于帮助理解本公开,而并不代表承认或认可所提及的任何内容属于相对于本公开的公知常识的一部分。
发明内容
为解决上述技术问题,本公开提出了一种面向跨网络的表示学习算法。
基于本公开实施例的一个方面,公开一种面向跨网络的表示学习算法,包括:
S1,生成包括源网络和目标网络的网络数据,每个网络数据包含网络的拓扑结构信息和节点属性信息,所述目标网络为所要推断表征的网络;
S2,分别从源网络和目标网络随机采样设定数量的节点,并整理成满足算法输入的数据格式;
S3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失;
S4,将从L层的神经网络中得到的源网络节点的表达向量进行分类预测概率计算,通过交叉熵损失函数计算分类损失,并且结合距离损失,通过反向传播算法更新网络参数;
S5,重复步骤S2-S4,直至整个算法收敛。
基于本公开的面向跨网络的表示学习算法的另一个实施例中,所述步骤S3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失包括:
S30,将源网络和目标网络的节点特征输入到L层的神经网络中;
S31,在L层神经网络的每一层中,每个网络的节点特征表达向量经过一个消息路由模块产生结构特征;
S32,结构特征经过消息聚合模块得到当前节点的新的表达特征向量;
S33,通过跨网络对齐模块,计算当前层来自源网络和目标网络之间的结构特征距离损失和表达特征距离损失;
S34,重复步骤S31至S33进行L次,得到最终源网络和目标网络的节点特征向量和L层累积的结构特征距离损失和表达特征距离损失。
基于本公开的面向跨网络的表示学习算法的另一个实施例中,所述步骤S31,在L层神经网络的每一层中,每个网络的节点特征表达向量经过一个消息路由模块产生结构特征包括:
每一层的消息路由模块表示为:
式中,ri (l)为节点i在L层神经网络中第l层计算的源网络和目标网络的结构特征向量,为L层神经网络中第l-1层的源网络和目标网络的表达特征向量,第0层的表达特征向量由节点的原始特征向量xi表示,为第l层的消息路由模块涉及的参数矩阵,a(l)T为第l层的消息路由模块涉及的参数向量,σ为激活函数,||为两个向量的直接相连操作,N(v)为节点v直接相连的邻居集合,为节点u传向节点v的消息权重。
基于本公开的面向跨网络的表示学习算法的另一个实施例中,所述步骤S32,结构特征经过消息聚合模块得到当前节点的新的表达特征向量包括:
每一层的消息聚合模块表示为:
基于本公开的面向跨网络的表示学习算法的另一个实施例中,所述步骤S33,通过跨网络对齐模块,计算当前层来自源网络和目标网络之间的结构特征距离损失和表达特征距离损失包括:
当前层来自源网络和目标网络之间的结构特征距离损失为:
当前层来自源网络和目标网络之间的表达特征距离损失为:
基于本公开的面向跨网络的表示学习算法的另一个实施例中,所述步骤S34,重复步骤S31至S33进行L次,得到最终源网络和目标网络的节点特征向量和L层累积的结构特征距离损失和表达特征距离损失包括:
源网络和目标网络的节点特征向量和L层累积的结构特征距离损失为:
源网络和目标网络的节点特征向量和L层累积的表达特征距离损失为:
基于本公开的面向跨网络的表示学习算法的另一个实施例中,所述步骤S4,将从L层的神经网络中得到的源网络节点的表达向量进行分类预测概率计算,通过交叉熵损失函数计算分类损失,并且结合距离损失,通过反向传播算法更新网络参数包括:
交叉熵损失函数表示为:
与现有技术相比,本公开具有如下优点:
采用本公开的面向跨网络的表示学习算法可以提取出网络中的结构信息以及节点的属性信息,同时该算法又考虑到了不同网络数据之间分布不一致的问题,通过最小化特征距离来弥补由于不一致导致的信息损失,有效地解决了跨网络表示学习问题,在现实中有着广阔的应用空间。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开提出的面向跨网络的表示学习算法的一个实施例的流程图;
图2为本公开提出的面向跨网络的表示学习算法的另一个实施例的流程图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例只是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
下面结合附图和实施例对本公开提供的一种面向跨网络的表示学习算法进行更详细的说明。
图1为本公开提出的面向跨网络的表示学习算法的一个实施例的流程图,如图1所示,所述面向跨网络的表示学习算法:
S1,生成包括源网络和目标网络的网络数据,每个网络数据包含网络的拓扑结构信息和节点属性信息,所述目标网络为所要推断表征的网络;源网络的表达式为Gs,目标网络的表达式为Gt,拓扑结构信息的表达式为G=(V,E),式中,V表示节点,E表示边,节点属性信息的表达式为xv,v∈V;
S2,分别从源网络和目标网络随机采样设定数量的节点,并整理成满足算法输入的数据格式;将采集到的节点对应的节点属性xv作为算法的输入数据;
S3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失;
S4,将从L层的神经网络中得到的源网络节点的表达向量进行分类预测概率计算,通过交叉熵损失函数计算分类损失,并且结合距离损失,通过反向传播算法更新网络参数;
S5,重复步骤S2-S4,直至整个算法收敛。
图2为本公开提出的面向跨网络的表示学习算法的另一个实施例的流程图,如图2所示,所述步骤S3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失包括:
S33,通过跨网络对齐模块,计算当前层来自源网络和目标网络之间的结构特征距离损失和表达特征距离损失;
S34,重复步骤S31至S33进行L次,得到最终源网络和目标网络的节点特征向量和L层累积的结构特征距离损失和表达特征距离损失。最终源网络和目标网络的节点特征向量为和L层累积的结构特征距离损失值为Lmra,表达特征距离损失值为Lmaa。
所述步骤S31,在L层神经网络的每一层中,每个网络的节点特征表达向量经过一个消息路由模块产生结构特征包括:
每一层的消息路由模块表示为:
式中,为节点i在L层神经网络中第l层计算的源网络和目标网络的结构特征向量,为L层神经网络中第l-1层的源网络和目标网络的表达特征向量,第0层的表达特征向量由节点的原始特征向量xi表示,为第l层的消息路由模块涉及的参数矩阵,a(l)T为第l层的消息路由模块涉及的参数向量,σ为激活函数,||为两个向量的直接相连操作,N(v)为节点v直接相连的邻居集合,为节点u传向节点v的消息权重。
所述步骤S32,结构特征经过消息聚合模块得到当前节点的新的表达特征向量包括:
每一层的消息聚合模块表示为:
所述步骤S33,通过跨网络对齐模块,计算当前层来自源网络和目标网络之间的结构特征距离损失和表达特征距离损失包括:
当前层来自源网络和目标网络之间的结构特征距离损失为:
当前层来自源网络和目标网络之间的表达特征距离损失为:
所述步骤S34,重复步骤S31至S33进行L次,得到最终源网络和目标网络的节点特征向量和L层累积的结构特征距离损失和表达特征距离损失包括:
源网络和目标网络的节点特征向量和L层累积的结构特征距离损失为:
源网络和目标网络的节点特征向量和L层累积的表达特征距离损失为:
所述步骤S4,将从L层的神经网络中得到的源网络节点的表达向量进行分类预测概率计算,通过交叉熵损失函数计算分类损失,并且结合距离损失,通过反向传播算法更新网络参数包括:
交叉熵损失函数表示为:
对于本领域技术人员而言,显然本公开实施例不限于上述示范性实施例的细节,而且在不背离本公开实施例的精神或基本特征的情况下,能够以其他的具体形式实现本公开实施例。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本公开实施例的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本公开实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施方式仅用以说明本公开实施例的技术方案而非限制,尽管参照以上较佳实施方式对本公开实施例进行了详细说明,本领域的普通技术人员应当理解,可以对本公开实施例的技术方案进行修改或等同替换都不应脱离本公开实施例的技术方案的精神和范围。
Claims (7)
1.一种面向跨网络的表示学习算法,其特征在于,包括:
S1,生成包括源网络和目标网络的网络数据,每个网络数据包含网络的拓扑结构信息和节点属性信息,所述目标网络为所要推断表征的网络;
S2,分别从源网络和目标网络随机采样设定数量的节点,并整理成满足算法输入的数据格式;
S3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失;
S4,将从L层的神经网络中得到的源网络节点的表达向量进行分类预测概率计算,通过交叉熵损失函数计算分类损失,并且结合距离损失,通过反向传播算法更新网络参数;
S5,重复步骤S2-S4,直至整个算法收敛。
2.根据权利要求1所述的面向跨网络的表示学习算法,其特征在于,所述步骤S3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失包括:
S30,将源网络和目标网络的节点特征输入到L层的神经网络中;
S31,在L层神经网络的每一层中,每个网络的节点特征表达向量经过一个消息路由模块产生结构特征;
S32,结构特征经过消息聚合模块得到当前节点的新的表达特征向量;
S33,通过跨网络对齐模块,计算当前层来自源网络和目标网络之间的结构特征距离损失和表达特征距离损失;
S34,重复步骤S31至S33进行L次,得到最终源网络和目标网络的节点特征向量和L层累积的结构特征距离损失和表达特征距离损失。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2020/083378 WO2021196240A1 (zh) | 2020-04-03 | 2020-04-03 | 面向跨网络的表示学习算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113228059A true CN113228059A (zh) | 2021-08-06 |
Family
ID=77086007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080005540.2A Pending CN113228059A (zh) | 2020-04-03 | 2020-04-03 | 面向跨网络的表示学习算法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113228059A (zh) |
WO (1) | WO2021196240A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115913971B (zh) * | 2022-03-09 | 2024-05-03 | 中国人民解放军63891部队 | 一种网络dna特征表示与提取方法 |
CN114826921B (zh) * | 2022-05-05 | 2024-05-17 | 苏州大学应用技术学院 | 基于抽样子图的网络资源动态分配方法、系统及介质 |
CN117151279A (zh) * | 2023-08-15 | 2023-12-01 | 哈尔滨工业大学 | 一种基于线图神经网络的同构网络链路预测方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8868477B2 (en) * | 2012-03-29 | 2014-10-21 | International Business Machines Coproration | Multi-compartment neurons with neural cores |
CN109241321A (zh) * | 2018-07-19 | 2019-01-18 | 杭州电子科技大学 | 基于深度领域适应的图像和模型联合分析方法 |
CN110489567B (zh) * | 2019-08-26 | 2022-03-22 | 重庆邮电大学 | 一种基于跨网络特征映射的节点信息获取方法及其装置 |
CN110751214A (zh) * | 2019-10-21 | 2020-02-04 | 山东大学 | 一种基于轻量级可变形卷积的目标检测方法及系统 |
-
2020
- 2020-04-03 CN CN202080005540.2A patent/CN113228059A/zh active Pending
- 2020-04-03 WO PCT/CN2020/083378 patent/WO2021196240A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2021196240A1 (zh) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan et al. | One2multi graph autoencoder for multi-view graph clustering | |
CN110263280B (zh) | 一种基于多视图的动态链路预测深度模型及应用 | |
CN112529168B (zh) | 一种基于gcn的属性多层网络表示学习方法 | |
Chen et al. | Personalized federated learning with graph | |
Chen et al. | Personalized QoS-aware web service recommendation and visualization | |
Alderson | OR FORUM—Catching the “network science” bug: Insight and opportunity for the operations researcher | |
Nie et al. | Network traffic prediction based on deep belief network and spatiotemporal compressive sensing in wireless mesh backbone networks | |
CN113228059A (zh) | 面向跨网络的表示学习算法 | |
CN110533253B (zh) | 一种基于异构信息网络的科研合作关系预测方法 | |
CN113191530B (zh) | 一种具有隐私保护的区块链节点可靠性预测方法及系统 | |
CN111274485A (zh) | 一种基于社区发现的个性化推荐方法 | |
Saxena et al. | NodeSim: node similarity based network embedding for diverse link prediction | |
CN112862092A (zh) | 一种异构图卷积网络的训练方法、装置、设备和介质 | |
WO2021184367A1 (zh) | 基于度分布生成模型的社交网络图生成方法 | |
CN112784118A (zh) | 一种对三角形结构敏感的图中的社区发现方法和装置 | |
CN111985623A (zh) | 基于最大化互信息和图神经网络的属性图群组发现方法 | |
CN110717116B (zh) | 关系网络的链接预测方法及系统、设备、存储介质 | |
Ben Amma et al. | The existence and uniqueness of intuitionistic fuzzy solutions for intuitionistic fuzzy partial functional differential equations | |
Janssen et al. | Nonuniform distribution of nodes in the spatial preferential attachment model | |
CN111429175B (zh) | 稀疏特征场景下进行点击转化预测的方法 | |
CN115827996B (zh) | 一种具有共享约束的社区查询方法及系统 | |
CN116992307A (zh) | 基于图网络特征快速聚合的社交网络用户匹配方法及装置 | |
CN114840775A (zh) | 一种融合多空间特征的网络对齐模型及其应用 | |
CN115168653A (zh) | 基于领域间和领域内关系的跨领域推荐方法及系统 | |
CN113626657A (zh) | 一种多值属性图结构发现密集连接的子网络的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210806 |