CN109902203A

CN109902203A - 基于边的随机游走的网络表示学习方法和装置

Info

Publication number: CN109902203A
Application number: CN201910074183.4A
Authority: CN
Inventors: 卢美莲; 叶丹娜
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-06-18
Anticipated expiration: 2039-01-25
Also published as: CN109902203B

Abstract

本发明公开了一种基于边的随机游走的网络表示学习方法和装置，所述方法包括：根据网络的每个节点的主题向量和边的关联时间戳，计算所述网络中边与边的相似度；根据计算的边与边的相似度计算边到边的转移概率；基于所述元路径的指导，根据计算的转移概率进行随机游走生成节点序列；根据得到的节点序列进行节点的表示学习，得到节点的低维表示。本发明能够诠释出语义信息和时间信息以获得更为丰富的网络内容，从而有助于能够更真实且有效地挖掘现实世界的潜在信息；且能针对随着时间推移而发生变化的网络进行更为适当、贴合实际的表示。

Description

基于边的随机游走的网络表示学习方法和装置

技术领域

本发明涉及网络表示学习技术领域，特别是指一种基于边的随机游走的网络表示学习方法和装置。

背景技术

现实生活中的很多应用都可以抽象为网络，而网络能够用图进行表示，因此大多数研究利用一些研究图的方法来帮助分析网络，从而解决各种实际场景的需求和问题。图是一种重要的数据表示，并广泛应用于计算机科学和生物等相关领域。社交网络、公路网、学术网络、生物蛋白质网络以及通信网络等现实生活中的实际应用都可以建模为图。通过将实体之间的交互行为建模为图形，研究人员能够以系统的方式理解各种网络。有效的图分析可以让用户对数据背后的内容有更深入的了解，因此可以从节点分类、节点推荐、链接预测等许多有用的应用中获益。大量的机器学习方法试图通过以图结构数据作为特征信息来挖掘或预测网络潜在的模式。而基于图的机器学习的一个关键问题是找到一种方法，将图的信息融入到机器学习模型中。

在信息网络的快速发展下，研究者致力于设计各种快速有效的算法来满足网络发展带来的更高需求。在这方面的研究中，首先会面临的一个重要问题就是怎样有效地对网络进行表示。虽然基于图的网络表示方法已经存在，但大多数方法都有较高的计算和空间成本。为了从网络中提取重要的信息，传统基于图的表示方法通常依赖于原始图的邻接矩阵、邻接表或精心设计的特征。然而，由于这些人工设计的特征不灵活，这些方法对深入分析网络是有限的，并且设计这些特征可能是一个耗时且昂贵的过程。针对这个问题，最近大量的研究专注于学习网络的低维向量表示。即学习到一个映射，可以将图中的节点或者子图甚至整个图作为低维向量空间的点来表示，从而最大化地保留原始网络的结构或者信息。学习到的低维向量空间可以直接作为下游机器学习任务，如分类、聚类等的网络特征输入。

早期的网络表示学习主要针对静态的同构网络，能够实现对网络拓扑结构的有效表示，但是缺乏细致的语义信息；而且，现如今网络数据量日益增长，网络的规模和形态随时间的推移发生着显著的变化，主要针对静态的同构网络的现有的网络表示学习也缺乏时间信息，不能针对网络由于时间推移而发生的变化而对网络表示进行适当的调整；因此，现有技术的网络表示学习方法无法对网络蕴含的丰富内容进行诠释，不能针对随着时间推移而发生变化的网络进行更为适当、贴合实际的表示。

鉴于网络表示学习对于网络分析的重要性，对现实世界的强大表现能力，因此，本发明有必要提供一种基于边的随机游走的网络表示学习方法和装置，能够诠释出语义信息和时间信息以获得更为丰富的网络内容，从而有助于能够更真实且有效地挖掘现实世界的潜在信息；且能针对随着时间推移而发生变化的网络进行更为适当、贴合实际的表示。

发明内容

本发明提出了一种基于边的随机游走的网络表示学习方法和装置，能够诠释出语义信息和时间信息以获得更为丰富的网络内容，从而有助于能够更真实且有效地挖掘现实世界的潜在信息；且能针对随着时间推移而发生变化的网络进行更为适当、贴合实际的表示。

基于上述目的，本发明提供一种基于边的随机游走的网络表示学习方法，包括：

根据网络的每个节点的主题向量和边的关联时间戳，计算所述网络中边与边的相似度；

根据计算的边与边的相似度计算边到边的转移概率；

基于所述元路径的指导，根据计算的转移概率进行随机游走生成节点序列；

根据得到的节点序列进行节点的表示学习，得到节点的低维表示。

其中，所述根据网络的每个节点的主题向量和边的关联时间戳，计算所述网络中边与边的相似度，具体包括：

根据网络的每个节点的主题向量和边的关联时间戳，计算所述网络中节点间的相似度；

根据计算的节点间的相似度计算所述边与边的相似度。

其中，所述计算所述网络中节点间的相似度，具体为：

根据如下公式一计算节点间的相似度：

公式一中，a表示所述网络中所有与节点a_m相连的中心类型节点，a′表示所述网络中所有与节点a_n相连的中心类型节点，t_c表示当前时间戳，Topic(a)表示中心类型节点a的主题向量，Topic(a′)表示中心类型节点a′的主题向量，η是时间衰减因子(η＝0.62)。t_a表示节点a与a_m构成的边的关联时间戳，t_a′表示节点a′与a_n构成的边的关联时间戳；type(a)＝Cnode表示节点a的类型为中心类型节点；type(a′)＝Cnode表示节点a′的类型为中心类型节点；(a,a_m)∈E表示a与a_m构成的边是所述网络中真实存在的一条边，(a′,a_n)∈E表示a′与a_n构成的边是所述网络中真实存在的一条边。

其中，所述根据计算的节点间的相似度计算所述边与边的相似度，具体为：

根据如下公式五计算边与边的相似度：

s(r_i,r_i-1)＝s(a_i-1,a_i+1)+s(a_i,a_i+1)+s(a_i-1,a_i) (公式五)

公式五中，r_i-1表示节点a_i-1与节点a_i构成的边；r_i表示节点a_i与节点a_i+1构成的边；s(a_i-1,a_i+1)表示节点a_i-1与节点a_i+1的相似度；s(a_i,a_i+1)表示节点a_i与节点a_i+1的相似度；s(a_i-1,a_i)表示节点a_i-1与节点a_i的相似度；s(r_i,r_i-1)表示边r_i-1与边r_i的相似度。

其中，所述根据计算的边与边的相似度计算边到边的转移概率，具体包括：

根据如下公式六计算边到边的转移概率：

公式六中，p(r_i|r_i-1)表示边r_i-1到边r_i的转移概率，s(r_i,r_i-1)表示边r_i和边r_i-1的相似度，E(r_i-1)表示与边r_i-1存在枢纽节点的下一跳邻居边集合，e是E(r_i-1)集合中的一个元素，而e∈E(r_i-1)；s(r_i-1,e)表示边e和边r_i-1的相似度；α用来衡量两跳内所有节点间的相似度对该转移概率的重要性，为设定的第一权值；β用来衡量网络的拓扑结构对该转移概率的重要性，为设定的第二权值。

较佳地，在所述基于所述元路径的指导，根据计算的边到边的转移概率进行随机游走之前，还包括：确定基于该元路径的随机游走的采样次数：

将本次随机游走的源边的关联时间戳与当前时间戳进行比较；若两者差值小于设定的时间阈值，则设置所述采样次数为λ；否则，设置所述采样次数为其中，

以及所述基于所述元路径的指导，根据计算的边到边的转移概率进行随机游走，具体为：

基于所述元路径的指导，根据计算的边到边的转移概率和确定的采样次数进行随机游走。

较佳地，所述基于所述元路径的指导，根据计算的边到边的转移概率进行随机游走，具体包括：

对于每次随机游走，若根据边到边的转移概率随机游走到的当前边的关联时间戳与此次随机游走的源边的关联时间戳的差值大于停止阈值γ时，结束此次随机游走。

较佳地，所述网络的元路径具体根据如下方法确定：

根据指定的源节点的类型、目标节点的类型，生成所述网络的原始元路径；

对所述原始元路径中的对称元路径，进行至少一次正向游走，直到所得元路径的长度达到或者超过最大长度值maxLength时，将所得元路径作为最终延长得到的元路径；

对所述原始元路径中首尾节点类型相同的非对称元路径，先进行一次逆向游走，得到对称元路径；将得到的对称元路径进行至少一次正向游走，直到所得元路径的长度达到或者超过最大长度值maxLength时，将所得元路径作为最终延长得到的元路径；

对所述原始元路径中首尾节点类型不同的非对称元路径，先进行一次逆向游走，得到首尾节点类型相同的非对称元路径；将得到的首尾节点类型相同的非对称元路径再进行一次逆向游走，得到对称元路径；将得到的对称元路径进行至少一次正向游走，直到所得元路径的长度达到或者超过最大长度值maxLength时，将所得元路径作为最终延长得到的元路径。

本发明还提供一种基于边的随机游走的网络表示学习装置，包括：

相似度计算模块，用于根据网络的每个节点的主题向量和边的关联时间戳，计算所述网络中边与边的相似度；

转移概率计算模块，用于根据所述相似度计算模块计算的边与边的相似度计算边到边的转移概率；

节点序列生成模块，用于基于所述元路径的指导，根据所述转移概率计算模块计算的转移概率进行随机游走生成节点序列；

表示学习模块，用于根据得到的节点序列进行节点的表示学习，得到节点的低维表示。

进一步，所述装置还包括：

元路径确定模块，用于确定所述网络的原始元路径；对所述原始元路径进行延长，得到所述网络的最终的元路径。

本发明的技术方案中，由于计算边到边转移概率时，不仅仅考虑网络的拓扑结构，还考虑了文本信息以及时间信息；基于这样得到的转移概率值进行随机游走得到的节点序列进而得到的网络表示学习的结果可以进一步反映网络隐含的语义信息和时间信息，从而能够诠释出更为丰富的网络内容，从而有助于能够更真实且有效地挖掘现实世界的潜在信息，更能有效地贴合实际需求。

进一步，本发明技术方案中，在所述基于所述元路径的指导，根据计算的边到边的转移概率进行随机游走之前，还确定基于该元路径的随机游走的采样次数；对于每次随机游走，若根据边到边的转移概率游走到的当前边的关联时间戳与此次随机游走的源边的关联时间戳的差值大于停止阈值γ时，结束此次随机游走。这样，通过这两个策略能够动态调整节点序列的数量和长度，以更有效地构造出特定时间点下异构信息网络的节点序列，为后续异构型SKIP-GRAM提供更高质量的输入，从而学习到更优的网络表示。

进一步，本发明技术方案中，对原始的短元路径进行延长处理，使其能指导更大深度的游走，挖掘网络更高阶的关系；且针对不同类型的元路径本发明分别给出了相应的延长处理，使其能保证不会增加或减少元路径原本蕴含的语义信息，因此不会改变原始元路径的语义。

附图说明

图1为本发明实施例提供的一种基于边的随机游走的网络表示学习方法的流程图；

图2为本发明实施例提供的一种异构学术网络的示意图；

图3为本发明实施例提供的一种确定网络的元路径的方法流程图；

图4为本发明实施例提供的一种确定网络的原始元路径的方法流程图；

图5为本发明实施例提供的异构学术网络中最终确定的原始元路径示意图；

图6a为本发明实施例提供的对称元路径的延长示意图；

图6b为本发明实施例提供的首尾节点类型相同的非对称元路径的延长示意图；

图6c为本发明实施例提供的首尾节点类型不同的非对称元路径的延长示意图；

图7为本发明实施例提供的一种基于边的随机游走的网络表示学习装置的内部结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

本发明的技术方案中，根据网络的每个节点的主题向量和边的关联时间戳，计算所述网络中边与边的相似度；根据计算的边与边的相似度计算边到边的转移概率；基于所述元路径的指导，根据计算的转移概率进行随机游走生成节点序列；根据得到的节点序列进行节点的表示学习，得到节点的低维表示。由于本发明技术方案中利用网络拓扑结构和反映文本信息的主题向量，以及关联时间戳计算边到边的相似度，从而在计算边到边的转移概率时，不仅仅考虑网络的拓扑结构，还考虑了文本信息以及时间因素；这样，基于边的随机游走得到的节点序列可以进一步反映网络的时间动态性和隐含的文本语义信息，从而能够诠释出语义信息和时间信息以获得更为丰富的网络内容，有助于能够更真实且有效地挖掘现实世界的潜在信息；且因反映网络的时间动态性，所以能针对随着时间推移而发生变化的网络进行更为适当、贴合实际的表示。

下面结合附图详细说明本发明实施例的技术方案。

本发明实施例提供的一种基于边的随机游走的网络表示学习方法，流程如图1所示，包括如下步骤：

步骤S101：确定网络的每个节点的主题向量和边的关联时间戳，以及网络的元路径。

具体地，所述网络可以是学术网络、社交网络、多媒体网络、生物网络等。给定一个网络G_T＝(V,E,A,R,T)，其中V是节点集合，v∈V代表网络中的一个实体，一个实体在网络模式图中以节点表示；E是边集合，e＝(v,v′)∈E代表网络中两个实体的关系，具有关系的两个实体在网络模式图中以边表示；A是实体类型集合，A_i∈A代表网络中的一种实体类型；R是边类型集合，R_i∈R代表网络中的一种关系类型；T是时间戳集合，t∈T代表网络中的一个时间戳。存在两个类型映射函数Φ:V→A和Ψ:E→R，其中有Φ(v)∈A和Ψ(e)∈R。存在时间映射函数Υ:E→T，有Υ(e)∈T，即任何一条边(一个关系)都与一个时间戳关联，该时间戳是关系的发生时间。一般认为异构信息网络满足|A|＞1或者|R|＞1。

本文中将包含文本信息的节点类型定义为该网络的中心类型节点Cnode，网络中剩余的其他类型节点称为边缘类型节点Enode。例如学术网络的中心类型节点为论文，传统社交网络的中心类型节点为博文，LBSN(Location-based Social Network，基于地理位置社交网络)的中心类型节点为签到点评记录，EBSN(Event-based Social Networks，基于事件社交网络)的中心类型节点为活动等。

若网络中存在边e＝(a,b)和e′＝(b,c)，则节点b称为节点a和节点c的枢纽节点。枢纽节点可以为其左右邻居节点提供可达路径，是完成基于边的随机游走的重要因子。

本步骤中，根据输入网络类型的不同，构建不同的网络模式图，并提取其络中的节点和边的信息；例如，如图2所示，当输入的是异构学术网络Microsoft时，中心类型节点为论文P，边缘类型节点为作者A、期刊会议C；需要提取的节点包括作者A、论文P、期刊会议C、关键词K；提取的边包括作者-论文PA、论文-论文PP、期刊会议-论文PV、论文-主题PT；节点间的关系则包括：PA、AP、PP、PV、VP、PT、TP。

在提取节点信息时，主要提取节点的文本信息，如异构学术网络中论文的摘要和关键词信息等，这些文本信息经主题模型提取到topN个主题后用于后续生成节点的主题向量和度量节点的相似性。具体地，根据设定的主题个数N，应用主题模型对每个中心类型节点生成其对应的topN(前N)个主题的特征向量，使得每个中心类型节点都具有其对应主题的特征向量；由于每个边缘类型节点都存在一个或者多个关联的中心类型节点，把这些中心类型节点的主题向量求和得到该边缘类型节点的主题向量。例如，设定主题的个数为100，对论文的摘要和关键词进行分词、去停用词后输入LDA(Latent DirichletAllocation，隐含狄利克雷分布)主题模型进行训练，得到论文的主题分布，提取其前100个主题作为主题向量，即TS_j＝(w_j1,w_j2,...,w_jv,...,w_jk)，且式中，w_jv是第j个论文文本在第v个主题下的权值，自然数下标v是主题序号，其最大值为k，即主题模型训练的设定主题个数100。每个边缘类型节点都存在其关联的中心类型节点，把这些中心类型节点的主题向量求和得到该边缘类型节点的主题向量。

对于由一个中心类型节点与一个边缘类型节点构成的边，该边的关联时间戳是由该中心类型节点的出现时间决定；比如，图2所示网络中，中心类型节点论文P与边缘类型节点作者A所构成的边，该边的关联时间戳则是由论文P的发表时间决定。对于由两个中心类型节点构成的边，则该边的关联时间戳是由这两个中心类型节点之间发生关系的时间决定。

给定网络模式T_G＝(A,R)，元路径是由一系列实体类型组成的关系序列，可以用来描绘异构信息网络的特征。形式上，可以用来描述一条元路径。其中表示节点类型A₁到A_l+1之间的复合关系，其中表示复合运算符。元路径可以分为对称和非对称元路径两大类，对称元路径由对称的关系类型组成，可以表示为对应的，非对称元路径由不对称的关系类型组成，可分为首尾实体类型相同的非对称元路径，如异构学术网络中的PPVP，和首尾实体类型不同的非对称元路径，如异构学术网络中的APV，分别表示为和

本步骤中确定网络的元路径的具体方法将在后续详细介绍。

步骤S102：根据网络的每个节点的主题向量和边的关联时间戳，计算所述网络中节点间的相似度。

具体地，可以根据如下公式一计算网络中节点间的相似度：

公式一中，a表示所述网络中所有与节点a_m相连的中心类型节点，a′表示所述网络中所有与节点a_n相连的中心类型节点，t_c表示当前时间戳，Topic(a)表示中心类型节点a的主题向量，Topic(a′)表示中心类型节点a′的主题向量，η是时间衰减因子(η＝0.62)。t_a表示节点a与a_m构成的边的关联时间戳，t_a′表示节点a′与a_n构成的边的关联时间戳；type(a)＝Cnode表示节点a的类型为中心类型节点；type(a′)＝Cnode表示节点a′的类型为中心类型节点；(a,a_m)∈E表示a与a_m构成的边是网络中真实存在的一条边，(a′,a_n)∈E表示a′与a_n构成的边是网络中真实存在的一条边。

更优地，考虑到异构信息网络节点类型的多样性，根据边缘节点类型的不同，相似度的计算又可以分成以下三种情况：

第一种情况：网络中两个边缘类型节点A、D可以通过其关联的中心类型节点的主题向量，根据如下公式二计算相似度s(A,D)：

公式二中，m表示所述网络中所有与节点A相连的中心类型节点，m′表示所述网络中所有与节点D相连的中心类型节点，t_c表示当前时间戳，Topic(m)表示中心类型节点m的主题向量，Topic(m′)表示中心类型节点m′的主题向量，η是时间衰减因子(η＝0.62)。t_m表示所述网络中与节点A相连的中心类型节点m与A构成的边的关联时间戳，t_m′表示所述网络中与节点D相连的中心类型节点m′与D构成的边的关联时间戳；type(m)＝Cnode表示节点m的类型为中心类型节点；type(m′)＝Cnode表示节点m′的类型为中心类型节点；(m,A)∈E表示m与A构成的边是网络中真实存在的一条边，(m′,D)∈E表示m′与D构成的边是网络中真实存在的一条边。

第二种情况：网络中边缘类型节点A与中心类型节点M，可以通过边缘类型节点A关联的中心类型节点集合的主题向量与M的主题向量，根据如下公式三计算其相似度：

公式三中，m表示所述网络中所有与节点A相连的中心类型节点，t_c表示当前时间戳，Topic(m)表示中心类型节点m的主题向量，Topic(M)表示中心类型节点M的主题向量，η是时间衰减因子(η＝0.62)。t_m表示所述网络中与节点A相连的中心类型节点m与A构成的边的关联时间戳，t_M表示中心类型节点M与其相连的任意一个边缘节点构成的边的关联时间戳；type(m)＝Cnode表示节点m的类型为中心类型节点；type(M)＝Cnode表示节点M的类型为中心类型节点；(m,A)∈E表示m与A构成的边是网络中真实存在的一条边。

第三种情况：网络中两个中心类型节点M、M′，若存在枢纽节点，则可以通过其各自的主题向量根据如下公式四计算其相似度s(M′,M)：

公式四中，Topic(M)表示中心类型节点M的主题向量，Topic(M′)表示中心类型节点M′的主题向量，η是时间衰减因子(η＝0.62)；t_M表示枢纽节点与中心类型节点M构成的边的关联时间戳；t_M′表示枢纽节点与中心类型节点M′构成的边的关联时间戳。

步骤S103：根据计算的节点间的相似度计算所述网络中边与边的相似度。

具体地，可以根据如下公式五计算边与边的相似度：

s(r_i,r_i-1)＝s(a_i-1,a_i+1)+s(a_i,a_i+1)+s(a_i-1,a_i) (公式五)

步骤S104：根据计算的边与边的相似度计算边到边的转移概率。

具体地，边r_i-1到边r_i的转移概率p(r_i|r_i-1)，可以根据如下公式六计算：

公式六中，p(r_i|r_i-1)表示边r_i-1到边r_i的转移概率，s(r_i,r_i-1)表示边r_i和边r_i-1的相似度，E(r_i-1)表示与边r_i-1存在枢纽节点的下一跳邻居边集合，e是E(r_i-1)集合中的一个元素，而e∈E(r_i-1)；s(r_i-1,e)表示边e和边r_i-1的相似度；V(a_i)是节点a_i的下一跳邻居节点，代表边r_i和边r_i-1的枢纽节点，而v∈V(a_i)；s(a_i-1,v)表示节点a_i-1和节点v的相似度，s(a_i,v)表示节点a_i和节点v的相似度；α用来衡量两跳内所有节点间的相似度对该转移概率的重要性，为设定的第一权值；β用来衡量网络的拓扑结构对该转移概率的重要性，为设定的第二权值。α、β通常设定在0-1，0＜β＜α＜1,α+β＝1。分母是归一化处理，使概率的取值范围控制在0到1之间。

从上式可以看出，计算的转移概率考虑了网络结构、语义以及时间因素，其中时间因素体现在相似度的度量上。

步骤S105：基于所述元路径的指导，根据计算的转移概率进行随机游走生成节点序列。

较佳地，在本步骤基于所述元路径的指导，根据计算的转移概率进行随机游走生成节点序列之前，还可以先确定基于该元路径的随机游走的采样次数：将本次随机游走的源边(即本次随机游走的第一条边)的关联时间戳与当前时间戳进行比较；若两者差值小于设定的时间阈值，说明该源边属于当前时间的近期关系比较重要，但是由于存在的时间较短导致其在网络中的信息不充分，需要更多的采样样本来加强其重要性，则可以设置较多的采样次数，比如设置所述采样次数为λ；否则，说明该源边属于当前时间的早期关系比较不重要，但是由于存在的时间较长导致其信息充分，需要削弱其采样样本数量来降低其影响，则可以设置较少的采样次数，比如设置所述采样次数为其中，例如，λ和的关系可以满足：κ＞1。

与现有的基于节点的随机游走不同，本发明技术方案提出基于边进行随机游走。现有的随机游走方法只利用到节点与节点的关系，而本发明技术方案利用了边与边的关系，提高了游走的可靠性。

本步骤中，在基于所述元路径的指导，根据计算的边到边的转移概率进行随机游走时，可以根据如下策略决定是否结束此次随机游走：对于每次随机游走，若根据边到边的转移概率游走到的当前边的关联时间戳与此次随机游走的源边(即此次随机游走的第一条边)的关联时间戳的差值大于停止阈值γ时，说明游走到的当前边与源边的相似度很小，应停止游走，结束此次随机游走，否则会生成噪音数据，从而达到抑制不相似节点对形成的目的。

边与边的相似度主要由两者关联时间戳的差值的长短决定，差值小即说明边与边是短期关系，也就是说，两条边如果相隔时间段较短，即关联时间戳差值小则认为互为短期关系，否则互为长期关系；短期关系的边比长期关系的边相似度更大。

上述的停止阈值γ可以是设定的，也可以是根据如下公式七计算得到的：

γ＝EXP(-a/(x+b))a＞0,b＞0 (公式七)

公式七中，x表示此次随机游走过程中到目前为止长期关系出现的次数，考虑到x等于0时会出现异常情况，因此可以利用设置值a和b对x进行平滑处理，比如设置a＝1、b＝2，最终停止阈值γ∈(0,1)，随出现长期关系次数的增大而增大。

这样，通过本步骤中的上述两个策略，可以对节点序列的数量和长度进行优化，以更有效地构造出特定时间点下异构信息网络的节点序列，为后续异构型SKIP-GRAM提供更高质量的输入，从而学习到更优的网络表示。

步骤S106：根据得到的节点序列进行节点的表示学习，得到节点的低维表示。

具体地，可以使用异构型的SKIP-GRAM模型(自然语言处理里word2vec——词语转向量算法的一个模型)来学习得到的节点序列，得到节点的低维表示。本发明在学习目标节点时不是利用整个网络的所有节点，而是基于元路径取相应的邻居节点来训练模型，该方法可以增强网络的表示学习。

上述步骤S101中提到的网络的元路径的确定方法可以采用现有的方法；然而，作为一种更优的实施方式，本发明的技术方案中，可以对原始的短元路径进行延长处理，使其能指导更大深度的游走，挖掘网络更高阶的关系；且针对不同类型的元路径本发明分别给出了相应的延长处理，使其能保证不会增加或减少元路径原本蕴含的语义信息，因此不会改变原始元路径的语义。由此，本发明实施例提供的一种确定网络的元路径的具体方法，流程如图3所示，包括如下步骤：

步骤S301：确定所述网络的原始元路径。

本步骤中，可以根据指定的源节点的类型、目标节点的类型生成非对称的异构的原始元路径。具体地，可以根据如图4所示的流程方法确定所述网络的原始元路径，包括如下子步骤：

子步骤S401：初始化第一边集firstedge_set。

具体地，对于指定的源节点的类型，将该类型的源节点的所有关系初始化为firstedge_set中的路径。比如，指定的源节点的类型为A，则图2所示的网络中，初始化的firstedge_set中包含的路径有：AP。

子步骤S402：根据firstedge_set构成第二边集Secondedge_Set。

具体地，将firstedge_set中所有路径的目标节点作为源节点，将所述源节点的所有关系作为Secondedge_Set中的路径。

比如，图2所示的网络中，初始化的firstedge_set中包含AP，则以AP的目标节点P作为源节点，则源节点P的所有关系包括：PC、PK、PA；因此，Secondedge_Set中包括的路径有PC、PK、PA。

子步骤S403：拼接firstedge_set和Secondedge_Set中的路径，将得到的路径用于更新firstedge_set。

比如，将上述firstedge_set中的AP和Secondedge_Set中的PC、PK、PA进行拼接后得到：APC、APK、APA；从而更新后的firstedge_set包括：APC、APK、APA。

子步骤S404：判断firstedge_set中的路径是否满足设定条件；若是，则输出到元路径集合PathSet中作为确定的原始元路径。

具体地，判断firstedge_set中的路径是否满足设定条件；所示设定条件包括：路径的长度达到设定长度，或路径的目标节点的类型为指定的目标节点的类型；若firstedge_set中的某个路径满足了上述的设定条件，则将该路径输出到元路径集合PathSet中。

比如，指定的目标节点的类型为A，设定长度为4，则上述更新后的firstedge_set中的路径APC、APK、APA中，满足设定条件的路径为APA，则将APA从firstedge_set输出至PathSet中。

子步骤S405：判断firstedge_set中的路径的个数是否为0；若是，执行子步骤S406将PathSet中的路径作为确定的原始元路径后结束；若否，跳转到子步骤S402。

具体地，若firstedge_set为空，则执行子步骤S406将PathSet中的路径作为确定的原始元路径后结束；若否，跳转到子步骤S402。

子步骤S406：将PathSet中的路径作为确定的原始元路径。

例如，图2所示的网络中，最终确定的原始元路径如图5所示。

步骤S302：对所述原始元路径进行延长，得到所述网络的最终的元路径。

具体地，对于根据上述步骤S301的方法得到的原始元路径，针对原始元路径的三种不同类型，分别进行不同的延长处理：

如图6a所示，将对称元路径进行一次正向游走后，变成

重复进行这样的延长操作，直到元路径的长度达到或者超过最大长度值maxLength。即将对称元路径进行至少一次正向游走，直到所得元路径的长度达到或者超过最大长度值maxLength时，将所得元路径作为最终延长得到的元路径。

如图6b所示，将首尾节点类型相同的非对称元路径首先进行一次逆向游走，得到对称元路径：

之后按照对称元路径的延长处理方式，得到延长的元路径。

也就是说，将首尾节点类型相同的非对称元路径先进行一次逆向游走，得到对称元路径；将得到的对称元路径进行至少一次正向游走，直到所得元路径的长度达到或者超过最大长度值maxLength时，将所得元路径作为最终延长得到的元路径。

如图6c所示，针对首尾节点类型不同的非对称元路径先进行一次逆向游走，得到首尾节点类型相同的非对称元路径然后，与对待首尾节点类型相同的非对称元路径一样，按照对称元路径的延长方式进行延长处理。

也就是说，将首尾节点类型不同的非对称元路径先进行一次逆向游走，得到首尾节点类型相同的非对称元路径；将得到的首尾节点类型相同的非对称元路径再进行一次逆向游走，得到对称元路径；将得到的对称元路径进行至少一次正向游走，直到所得元路径的长度达到或者超过最大长度值maxLength时，将所得元路径作为最终延长得到的元路径。

基于上述基于边的随机游走的网络表示学习方法，本发明实施例提供的一种基于边的随机游走的网络表示学习装置，内部结构框如图7所示，包括：相似度计算模块701、转移概率计算模块702、节点序列生成模块703、表示学习模块704。

相似度计算模块701用于根据网络的每个节点的主题向量和边的关联时间戳，计算所述网络中边与边的相似度。具体地，相似度计算模块701根据网络的每个节点的主题向量和边的关联时间戳，可以根据上述公式一或公式二、公式三、公式四计算所述网络中节点间的相似度；进而根据上述公式五计算的节点间的相似度计算所述边与边的相似度。

转移概率计算模块702用于根据所述相似度计算模块701计算的边与边的相似度计算边到边的转移概率。具体地，转移概率计算模块702可以根据上述公式六计算边到边的转移概率。

节点序列生成模块703用于基于所述元路径的指导，根据所述转移概率计算模块702计算的转移概率进行随机游走生成节点序列。

具体地，节点序列生成模块703在基于所述元路径的指导，根据计算的边到边的转移概率进行随机游走之前，可以先确定基于该元路径的随机游走的采样次数：将本次随机游走的源边的关联时间戳与当前时间戳进行比较；若两者差值小于设定的时间阈值，则设置所述采样次数为λ；否则，设置所述采样次数为其中，

进而，节点序列生成模块703基于所述元路径的指导，根据计算的边到边的转移概率和确定的采样次数进行随机游走；且节点序列生成模块703在进行随机游走时，对于每次随机游走，若根据边到边的转移概率游走到的当前边的关联时间戳与此次随机游走的源边的关联时间戳的差值大于停止阈值γ时，结束此次随机游走。

表示学习模块704用于根据得到的节点序列进行节点的表示学习，得到节点的低维表示。

进一步，本发明实施例提供的一种基于边的随机游走的网络表示学习装置还包括：元路径确定模块705。

元路径确定模块705用于确定所述网络的原始元路径；对所述原始元路径进行延长，得到所述网络的最终的元路径。具体地，元路径确定模块705可以根据指定的源节点的类型、目标节点的类型，生成所述网络的原始元路径；进而对所述原始元路径中对称元路径进行至少一次正向游走，直到所得元路径的长度达到或者超过最大长度值maxLength时，将所得元路径作为最终延长得到的元路径；或者将所述原始元路径中首尾节点类型相同的非对称元路径先进行一次逆向游走，得到对称元路径；将得到的对称元路径进行至少一次正向游走，直到所得元路径的长度达到或者超过最大长度值maxLength时，将所得元路径作为最终延长得到的元路径；或者将所述原始元路径中首尾节点类型不同的非对称元路径先进行一次逆向游走，得到首尾节点类型相同的非对称元路径；将得到的首尾节点类型相同的非对称元路径再进行一次逆向游走，得到对称元路径；将得到的对称元路径进行至少一次正向游走，直到所得元路径的长度达到或者超过最大长度值maxLength时，将所得元路径作为最终延长得到的元路径。

本发明实施例提供的一种基于边的随机游走的网络表示学习装置中的各模块的功能的具体实现方法可参考上述图1、3、4所示的流程步骤中的方法，此处不再赘述。

进一步，本发明技术方案中，在所述基于所述元路径的指导，根据计算的边到边的转移概率进行随机游走之前，还确定基于该元路径的随机游走的采样次数；对于每次随机游走，若根据边到边的转移概率随机游走到的当前边的关联时间戳与此次随机游走的源边的关联时间戳的差值大于停止阈值γ时，结束此次随机游走。这样，通过这两个策略能够动态调整节点序列的长度和数量，以更有效地构造出特定时间点下异构信息网络的节点序列，为后续异构型SKIP-GRAM提供更高质量的输入，从而学习到更优的网络表示。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于边的随机游走的网络表示学习方法，其特征在于，包括：

根据计算的边与边的相似度计算边到边的转移概率；

2.根据权利要求1所述的方法，其特征在于，所述根据网络的每个节点的主题向量和边的关联时间戳，计算所述网络中边与边的相似度，具体包括：

根据计算的节点间的相似度计算所述边与边的相似度。

3.根据权利要求2所述的方法，其特征在于，所述计算所述网络中节点间的相似度，具体为：

根据如下公式一计算节点间的相似度：

公式一中，a表示所述网络中所有与节点a_m相连的中心类型节点，a'表示所述网络中所有与节点a_n相连的中心类型节点，t_c表示当前时间戳，Topic(a)表示中心类型节点a的主题向量，Topic(a′)表示中心类型节点a'的主题向量，η是时间衰减因子(η＝0.62)。t_a表示节点a与a_m构成的边的关联时间戳，t_a'表示节点a'与a_n构成的边的关联时间戳；type(a)＝Cnode表示节点a的类型为中心类型节点；type(a′)＝Cnode表示节点a'的类型为中心类型节点；(a,a_m)∈E表示a与a_m构成的边是所述网络中真实存在的一条边，(a′,a_n)∈E表示a'与a_n构成的边是所述网络中真实存在的一条边。

4.根据权利要求3所述的方法，其特征在于，所述根据计算的节点间的相似度计算所述边与边的相似度，具体为：

根据如下公式五计算边与边的相似度：

s(r_i,r_i-1)＝s(a_i-1,a_i+1)+s(a_i,a_i+1)+s(a_i-1,a_i) (公式五)

5.根据权利要求4所述的方法，其特征在于，所述根据计算的边与边的相似度计算边到边的转移概率，具体包括：

根据如下公式六计算边到边的转移概率：

6.根据权利要求1-5任一所述的方法，其特征在于，在所述基于所述元路径的指导，根据计算的边到边的转移概率进行随机游走之前，还包括：确定基于该元路径的随机游走的采样次数：

7.根据权利要求6所述的方法，其特征在于，所述基于所述元路径的指导，根据计算的边到边的转移概率进行随机游走，具体包括：

8.根据权利要求1-5任一所述的方法，其特征在于，所述网络的元路径具体根据如下方法确定：

9.一种基于边的随机游走的网络表示学习装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，还包括：