CN112632731A - 一种基于类型与节点约束随机游走的异构网络表示学习方法 - Google Patents

一种基于类型与节点约束随机游走的异构网络表示学习方法 Download PDF

Info

Publication number
CN112632731A
CN112632731A CN202011550983.8A CN202011550983A CN112632731A CN 112632731 A CN112632731 A CN 112632731A CN 202011550983 A CN202011550983 A CN 202011550983A CN 112632731 A CN112632731 A CN 112632731A
Authority
CN
China
Prior art keywords
node
type
nodes
probability
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011550983.8A
Other languages
English (en)
Inventor
陈晓
郭景峰
郝童
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Hebei Normal University of Science and Technology
Original Assignee
Yanshan University
Hebei Normal University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University, Hebei Normal University of Science and Technology filed Critical Yanshan University
Priority to CN202011550983.8A priority Critical patent/CN112632731A/zh
Publication of CN112632731A publication Critical patent/CN112632731A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/18Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/02CAD in a network environment, e.g. collaborative CAD or distributed simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于类型与节点约束随机游走的异构网络表示学习方法,包括:步骤一,确定基于类型和节点约束的随机游走策略,并由此构建转移概率模型;步骤二,通过随机游走得到游走序列W;步骤三,将得到的游走序列W与Skip‑Gram模型相结合以对游走序列W进行训练与学习;步骤四,通过优化基于Skip‑Gram模型的神经网络目标函数以学习到网络中节点的向量表示。从而能够通过采用节点类型的共现概率作为节点类型的选取策略和采用节点间的邻接关系约束节点的选取,并控制节点的回溯、广度和深度游走,从而将节点间的邻接关系作为节点的游走策略与节点选取的策略,进而实现了异构网络中各类节点间灵活的游走和节点采样的均匀性。

Description

一种基于类型与节点约束随机游走的异构网络表示学习方法
技术领域
本发明涉及表示学习技术领域,尤其涉及一种基于类型与节点约束随机游走的异构网络表示学习方法。
背景技术
现实世界中许多系统都可以建模为异构信息网络(简称异构网络),例如文献科技网络、社交媒体网络和医疗信息网络,等等。其中,最经典的DBLP文献科技网络(简称DBLP网络)。异构网络同时包含了多种类型的实体和关系,比同构网络蕴含了更丰富的语义信息,因此,异构网络在各领域得到了广泛应用。随着网络规模的不断增加,传统方法(如基于邻接矩阵的方法)成为阻碍网络分析和挖掘任务的瓶颈。随着网络中语义和结构信息的不断增加,现有同构网络的理论和方法要么无法直接使用,要么复杂度大大增加。为了解决上述问题,异构网络表示学习成为当前的研究热点。
异构网络表示学习就是学习给定异构网络G=(V,E,A,R)的一个映射函数f:V→X∈R|V|×d,d<<|V|,从而得到网络中节点的向量表示。这些向量表示能够捕捉网络中节点之间的结构和语义关系。与同构网络表示学习不同,异构网络中节点的向量表示不仅可以同时保留网络中的关键结构属性(例如节点邻近性)和节点间的语义属性,还可基于该向量表示挖掘网络中潜在的语义信息。这对于完成节点分类、节点聚类和链路预测等网络应用任务也具有重要意义。
目前,已经提出一些关于异构网络表示学习的方法,主要分为三类:基于分解的方法、基于深度学习的方法和基于随机游走的方法。其中,基于随机游走的异构网络表示学习方法是经典且应用比较广泛的一种方法。该类方法大多依赖于给定的元路径引导随机游走。元路径本质上是异构网络中语义的体现,网络中存在大量的元路径。虽然不同的元路径可以捕获不同的语义信息,但是,随着元路径长度的增加,元路径的数量呈指数级增长。这为基于元路径的随机游走方法在实际应用中带来挑战,而且,元路径的选取要么需要领域专家指导,要么需要将一组基于特定任务的预定义的元路径进行优化组合。无论单一路径的选取还是多条路径的组合,均要进行大量不同情况的尝试,而且确定的元路径限定了游走的灵活性。
针对元路径中存在的问题,已经有人提出了首个非元路径的异构网络随机游走模型JUST(Jump&Stay)。该模型在随机游走选取下一节点时应用Jump/Stay(跳转到其他类型/停留在当前节点类型)策略,但在JUST模型中,无论是停留还是跳转都仅从节点类型的数量出发进行考虑,忽略了网络模式中各节点类型间关系以及影响,体现出了很大的局限性。
发明内容
为此,本发明提供一种基于类型与节点约束随机游走的异构网络表示学习方法,通过将节点类型的共现概率作为节点类型的选取策略,实现了异构网络中各类节点间灵活的游走,通过将节点间的邻接关系作为节点的游走策略与节点选取的策略,实现了节点采样的均匀性。
为实现上述目的,本发明提供一种基于类型与节点约束随机游走的异构网络表示学习方法,包括:
步骤一,确定基于类型和节点约束的随机游走策略,并由此构建转移概率模型;
步骤二,通过随机游走得到游走序列W;
步骤三,将得到的游走序列W与Skip-Gram模型相结合以对游走序列W进行训练与学习;
步骤四,通过优化基于Skip-Gram模型的神经网络目标函数以学习到网络中节点的向量表示;
其中,所述基于Skip-Gram模型的神经网络目标函数如式(1)所示:
Figure BDA0002857173410000021
式(1)中,
Figure BDA0002857173410000022
表示节点vi与节点vj之间的共现概率,
Figure BDA0002857173410000023
表示sigmoid函数,
Figure BDA0002857173410000024
表示节点vi的向量,K表示负采样的个数。
进一步地,在所述步骤一中,所述基于类型和节点约束的随机游走策略包括:
步骤a,根据网络模式和研究目标,将节点类型划分为主类和辅类;
步骤b,根据游走路径中连续三个节点类型的共现概率值,选取概率值最大的组合确定下一节点的类型;
步骤c,根据连续三个节点之间拓扑结构中的邻接关系,以及回溯、深度或广度优先游走的概率值以确定节点的选取。
进一步地,在所述步骤a中,将所述网络模式记为TG=(A,R),包括带有实体类型映射φ:V→A和实体关系类型映射ψ:E→R的异构网络G=(V,E,A,R)的元模板;
其中,在异构网络G=(V,E,A,R)中,
V={v1,v2,…,vi,…,vl}表示节点的集合;
E={e1,e2,…,ej,…,eJ}表示边的集合;
A={A1,A2,…,An,…,AN}(N≤I)表示节点类型的集合;
R={R1,R2,…,Rm,…,RM}(M≤J)表示边类型的集合;
|V|=I表示节点的数量,|E|=J表示边的数量,|A|=N表示节点类型的数量,|R|=M表示边类型的数量,所述异构网络G=(V,E,A,R)满足|R|=M>1或|A|=N>1;
各所述节点vi∈V均表示一个特定的节点类型,记为φ(vi)=An∈A;
各所述边ej=(vi,vj)∈E均表示一个特定的关系类型,记为ψ(ej)=Rm∈R。
进一步地,在所述步骤a中,所述主类为被研究对象的类型,记为O;其余为辅类,记为
Figure BDA0002857173410000031
此时,节点类型的集合记为
Figure BDA0002857173410000032
Figure BDA0002857173410000033
其中,主类
Figure BDA00028571734100000311
辅类
Figure BDA0002857173410000034
所述主类和辅类还能够通过下式进行表达:
O={A1,A2,…,An},
Figure BDA0002857173410000035
其中,n1+n2=N,n1=n,n2=N-n,n1≥1且n2≥1;
在所述异构网络G=(V,E,A,R)中,
Figure BDA0002857173410000036
若φ(vi)∈O,则节点vi的类型为主类O,记为Type(vi)∈O;若
Figure BDA00028571734100000312
则节点vi的类型为辅类
Figure BDA0002857173410000037
记为
Figure BDA0002857173410000038
在随机游走时,节点将在主辅类之间进行跳转,节点类型的停留概率如式(2)所示:
Figure BDA0002857173410000039
式(2)中,α表示节点停留在O类型的概率,α∈[0,1],1-α表示节点停留在
Figure BDA00028571734100000310
类型的概率。
进一步地,所述转移概率模型包括节点vi+1类型的转移概率PType和节点vi+1的转移概率PInner;
给定异构网络G=(V,E,A,R),起始节点v0和游走长度L进行随机游走,vi-1和vi分别表示随机游走序列W中的第i-1个节点和第i个节点,用以计算第i+1个节点vi+1的转移概率,节点vi+1的转移概率如式(3)所示:
P(vi+1|vi,vi-1)=PType(Type(vi+1)|Type(vi),Type(vi-1))PInner(vi+1|vi,vi-1) (3)
式(3)中,vi-1、vi和vi+1分别表示上一节点、当前节点和下一节点,Type(vi-1)、Type(vi)和Type(vi+1)分别表示上一节点类型、当前节点类型和下一节点类型。
进一步地,在随机游走的过程中,给定异构网络G=(V,E,A,R),当已知当前节点类型Type(vi)和上一节点类型Type(vi-1)时,下一节点类型Type(vi+1)的概率如式(4)所示:
Figure BDA0002857173410000041
式(4)中,α表示第一参数,k表示第二参数;
在计算下一节点类型的转移概率时,通过按照上一节点、当前节点以及下一节点的排列顺序并根据所述三个节点的类型分布选取对应的计算公式计算下一节点类型的转移概率,
当所述三个节点的类型分布为OOO时,Type(vi+1)∈O的概率为α3
当所述三个节点的类型分布为
Figure BDA0002857173410000042
时,
Figure BDA0002857173410000043
的概率为α2(1-α);
当所述三个节点的类型分布为
Figure BDA0002857173410000044
时,Type(vi+1)∈O的概率为(1-α)α2
当所述三个节点的类型分布为
Figure BDA0002857173410000045
时,Type(vi+1)∈O的概率为α(1-α)α;
当所述三个节点的类型分布为
Figure BDA0002857173410000046
时,
Figure BDA0002857173410000047
的概率为(1-α)α(1-α)。
进一步地,在所述式(4)中,当
Figure BDA0002857173410000048
Figure BDA0002857173410000049
时,第二参数k用于调节
Figure BDA00028571734100000410
类型对Type(vi+1)选取的影响,具体取值如式(5)所示:
Figure BDA00028571734100000411
式(5)中,当N=|A|=2时,网络中有两种类型的节点,令k=1;
当N>2时,
Figure BDA0002857173410000051
类型中包含两种子类型,包括Type(vi-1)=Type(vi+1)和Type(vi-1)≠Type(vi+1),
当Type(vi-1)=Type(vi+1)时,令k=k1,k1∈(0,+∞),当Type(vi-1)≠Type(vi+1)时,令k=1/k1
进一步地,确定节点类型后,根据下一节点vi+1与当前节点vi和上一节点vi-1之间的邻接关系以及最短距离、结合第五参数h、第四参数p和第三参数q控制节点的回溯、深度或广度优先游走,下一节点vi+1的转移概率PInner的计算方式如式(6)所示:
Figure BDA0002857173410000052
式(6)中,d(vi-1,vi+1)表示上一节点vi-1到下一节点vi+1的最短距离;
当d(vi-1,vi+1)=2时,上一节点vi+1为当前节点vi的邻居但非上一节点vi-1邻居的概率为1/q;其中,第三参数q∈(0,+∞)表示控制深度或广度优先游走的参数,当第三参数q>1时,进行广度优先游走,当第三参数q≤1时,进行深度优先游走;
当d(vi-1,vi+1)=1时,下一节点vi+1为当前节点vi与上一节点vi-1共同邻居的概率为1;
当d(vi-1,vi+1)=0时,下一节点vi+1为上一节点vi-1的概率为h/p;其中,第四参数p∈(0,+∞)和第五参数h∈{0,1}均表示返回参数,控制返回到上一节点vi-1的概率,当第四参数p>max(q,1)时,不返回到上一节点vi-1,当第四参数p<min(q,1)时,返回到上一节点vi-1
进一步地,所述第五参数h的值的设置如式(7)所示:
Figure BDA0002857173410000053
式(7)中,当所述三个节点的类型分布为OOO且Type(vi-1)=Type(vi+1)或所述三个节点的类型分布为
Figure BDA0002857173410000054
且Type(vi-1)=Type(vi+1)时,h=1,表示下一节点vi+1为上一节点vi-1;当所述三个节点的类型分布不属于上述情况时,h=0,表示下一节点vi+1不为上一节点vi-1
与现有技术相比,本发明的有益效果在于本发明实施例中基于类型与节点约束随机游走策略采用节点类型的共现概率作为节点类型的选取策略,使其不能长期停留在同一类型中,同时,采用节点间的邻接关系约束节点的选取,并控制节点的回溯、广度和深度游走,从而将节点间的邻接关系作为节点的游走策略与节点选取的策略,进而实现了异构网络中各类节点间灵活的游走和节点采样的均匀性。
进一步地,本发明实施例通过构建基于类型与节点约束随机游走策略的转移概率模型,在类型中,采用不同的参数来分别控制节点类型间的跳转概率和控制节点回溯、深度或广度的游走概率,进而实现了异构网络中各类节点间灵活的游走和节点采样的均匀性。
附图说明
图1为本发明基于类型与节点约束随机游走的异构网络表示学习方法的流程示意图;
图2为本发明基于类型与节点约束随机游走的异构网络表示学习方法的基于类型和节点约束的随机游走策略的流程示意图;
图3为本发明基于类型与节点约束随机游走的异构网络表示学习方法的随机游走模型图;
图4为本发明基于类型与节点约束随机游走的异构网络表示学习方法的节点类型跳转情况图;
图5为本发明基于类型与节点约束随机游走的异构网络表示学习方法的DBLP网络模式图;
图6为本发明基于类型与节点约束随机游走的异构网络表示学习方法的DBLP网络实例图;
图7为本发明基于类型与节点约束随机游走的异构网络表示学习方法的第一参数α的影响性质分析图;
图8为本发明基于类型与节点约束随机游走的异构网络表示学习方法的第二参数k的影响性质分析图;
图9为本发明基于类型与节点约束随机游走的异构网络表示学习方法的第三参数q的影响性质分析图;
图10为本发明基于类型与节点约束随机游走的异构网络表示学习方法的第四参数p的影响性质分析图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1、图2和图3所示,图1为本发明基于类型与节点约束随机游走的异构网络表示学习方法的流程示意图,图2为本发明基于类型与节点约束随机游走的异构网络表示学习方法的基于类型和节点约束的随机游走策略的流程示意图,图3为本发明基于类型与节点约束随机游走的异构网络表示学习方法的随机游走模型图,本发明提供一种基于类型与节点约束随机游走的异构网络表示学习方法,包括:
步骤一,确定基于类型和节点约束的随机游走策略,并由此构建转移概率模型;
步骤二,通过随机游走得到游走序列W;
步骤三,将得到的游走序列W与Skip-Gram模型相结合以对游走序列W进行训练与学习;
步骤四,通过优化基于Skip-Gram模型的神经网络目标函数以学习到网络中节点的向量表示;
其中,所述基于Skip-Gram模型的神经网络目标函数如式(1)所示:
Figure BDA0002857173410000081
式(1)中,
Figure BDA0002857173410000082
表示节点vi与节点vj之间的共现概率,
Figure BDA0002857173410000083
表示sigmoid函数,
Figure BDA0002857173410000084
表示节点vi的向量,K表示负采样的个数。
本发明所述实施例中的Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线;一种基于类型和节点约束的随机游走策略也成称为基于Type和Inner约束的随机游走策略。
具体而言,在所述步骤一中,所述基于类型和节点约束的随机游走策略包括:
步骤a,根据网络模式和研究目标,将节点类型划分为主类和辅类;
步骤b,根据游走路径中连续三个节点类型的共现概率值,选取概率值最大的组合确定下一节点的类型;
步骤c,根据连续三个节点之间拓扑结构中的邻接关系,以及回溯、深度或广度优先游走的概率值以确定节点的选取。
本发明所述实施例中的研究目标也称为具体应用背景;
具体而言,在所述步骤a中,将所述网络模式记为TG=(A,R),包括带有实体类型映射φ:V→A和实体关系类型映射ψ:E→R的异构网络G=(V,E,A,R)的元模板;
其中,在异构网络G=(V,E,A,R)中,
V={v1,v2,…,vi,…,vl}表示节点的集合;
E={e1,e2,…,ej,…,eJ}表示边的集合;
A={A1,A2,…,An,…,AN}(N≤I)表示节点类型的集合;
R={R1,R2,…,Rm,…,RM}(M≤J)表示边类型的集合;
|V|=I表示节点的数量,|E|=J表示边的数量,|A|=N表示节点类型的数量,|R|=M表示边类型的数量,所述异构网络G=(V,E,A,R)满足|R|=M>1或|A|=N>1;
各所述节点vi∈V均表示一个特定的节点类型,记为φ(vi)=An∈A;
各所述边ej=(vi,vj)∈E均表示一个特定的关系类型,记为ψ(ej)=Rm∈R。
本发明所述实施例中的异构网络为无符号的异构网络。
具体而言,在所述步骤a中,所述主类为被研究对象的类型,记为O;其余为辅类,记为
Figure BDA0002857173410000091
此时,节点类型的集合记为
Figure BDA0002857173410000092
Figure BDA0002857173410000093
其中,主类
Figure BDA0002857173410000094
辅类
Figure BDA0002857173410000095
所述主类和辅类还能够通过下式进行表达:
O={A1,A2,…,An},
Figure BDA0002857173410000096
其中,n1+n2=N,n1=n,n2=N-n,n1≥1且n2≥1:
在所述异构网络G=(V,E,A,R)中,
Figure BDA00028571734100000911
若φ(vi)∈O,则节点vi的类型为主类O,记为Type(vi)∈O;若
Figure BDA00028571734100000912
则节点vi的类型为辅类
Figure BDA0002857173410000097
记为
Figure BDA0002857173410000098
在随机游走时,节点将在主辅类之间进行跳转,节点类型的停留概率如式(2)所示:
Figure BDA0002857173410000099
式(2)中,α表示节点停留在O类型的概率,α∈[0,1],1-α表示节点停留在
Figure BDA00028571734100000910
类型的概率。
本发明所述实施例中若希望节点停留在O类型,可将α的值设置的大一些;若希望节点在不同类型之间跳转,可将α的值设置的小一些。所述主类还可以为网络中与大多数类都相连的类型;
具体而言,所述转移概率模型包括节点vi+1类型的转移概率PType和节点vi+1的转移概率PInner;
给定异构网络G=(V,E,A,R),起始节点v0和游走长度L进行随机游走,vi-1和vi分别表示随机游走序列W中的第i-1个节点和第i个节点,用以计算第i+1个节点vi+1的转移概率,节点vi+1的转移概率如式(3)所示:
P(vi+1|vi,vi-1)=PType(Type(vi+1)|Type(vi),Type(vi-1))PInner(vi+1|vi,vi-1) (3)
式(3)中,vi-1、vi和vi+1分别表示上一节点、当前节点和下一节点,Type(vi-1)、Type(vi)和Type(vi+1)分别表示上一节点类型、当前节点类型和下一节点类型。
本发明所述实施例中的转移概率也称为选取概率。
具体而言,在随机游走的过程中,给定异构网络G=(V,E,A,R),当已知当前节点类型Type(vi)和上一节点类型Type(vi-1)时,下一节点类型Type(vi+1)的概率如式(4)所示:
Figure BDA0002857173410000101
式(4)中,α表示第一参数,k表示第二参数;
在计算下一节点类型的转移概率时,通过按照上一节点、当前节点以及下一节点的排列顺序并根据所述三个节点的类型分布选取对应的计算公式计算下一节点类型的转移概率,
当所述三个节点的类型分布为OOO时,Type(vi+1)∈O的概率为α3
当所述三个节点的类型分布为
Figure BDA0002857173410000102
时,
Figure BDA0002857173410000103
的概率为α2(1-α);
当所述三个节点的类型分布为
Figure BDA0002857173410000104
时,Type(vi+1)∈O的概率为(1-α)α2
当所述三个节点的类型分布为
Figure BDA0002857173410000105
时,Type(vi+1)∈O的概率为α(1-α)α;
当所述三个节点的类型分布为
Figure BDA0002857173410000106
时,
Figure BDA0002857173410000107
的概率为(1-α)α(1-α)。
本发明所述实施例中式(4)中各类型间的跳转情况,如图4所示。由式(4)和图4可知,本文给出了五种情况下,Type(vi+1)概率的计算方法。当Type(vi)∈O时,分为四种情况;当
Figure BDA0002857173410000108
时,仅有一种情况。由于在目前研究的异构网络中,
Figure BDA0002857173410000109
类型之间无法直接跳转,因此,当
Figure BDA00028571734100001010
时,Type(vi+1)只能是O类型。
具体而言,在所述式(4)中,当
Figure BDA00028571734100001011
Figure BDA00028571734100001012
时,第二参数k用于调节
Figure BDA00028571734100001013
类型对Type(vi+1)选取的影响,具体取值如式(5)所示:
Figure BDA00028571734100001014
式(5)中,当N=|A|=2时,网络中有两种类型的节点,令k=1;
当N>2时,
Figure BDA00028571734100001015
类型中包含两种子类型,包括Type(vi-1)=Type(vi+1)和Type(vi-1)≠Type(vi+1),
当Type(vi-1)=Type(vi+1)时,令k=k1,k1∈(0,+∞),当Type(vi-1)≠Type(vi+1)时,令k=1/k1
具体而言,确定节点类型后,根据下一节点vi+1与当前节点vi和上一节点vi-1之间的邻接关系以及最短距离、结合第五参数h、第四参数p和第三参数q控制节点的回溯、深度或广度优先游走,下一节点vi+1的转移概率PInner的计算方式如式(6)所示:
Figure BDA0002857173410000111
式(6)中,d(vi-1,vi+1)表示上一节点vi-1到下一节点vi+1的最短距离;
当d(vi-1,vi+1)=2时,上一节点vi+1为当前节点vi的邻居但非上一节点vi-1邻居的概率为1/q;其中,第三参数q∈(0,+∞)表示控制深度或广度优先游走的参数,当第三参数q>1时,进行广度优先游走,当第三参数q≤1时,进行深度优先游走;
当d(vi-1,vi+1)=1时,下一节点vi+1为当前节点vi与上一节点vi-1共同邻居的概率为1;
当d(vi-1,vi+1)=0时,下一节点vi+1为上一节点vi-1的概率为h/p;其中,第四参数p∈(0,+∞)和第五参数h∈{0,1}均表示返回参数,控制返回到上一节点vi-1的概率,当第四参数p>max(q,1)时,不返回到上一节点vi-1,当第四参数p<min(q,1)时,返回到上一节点vi-1
本发明所述实施例中结合第五参数h、第四参数p和第三参数q还可以控制节点的回溯优先游走。
具体而言,所述第五参数h的值的设置如式(7)所示:
Figure BDA0002857173410000112
式(7)中,当所述三个节点的类型分布为OOO且Type(vi-1)=Type(vi+1)或所述三个节点的类型分布为
Figure BDA0002857173410000113
且Type(vi-1)=Type(vi+1)时,h=1,表示下一节点vi+1为上一节点vi-1;当所述三个节点的类型分布不属于上述情况时,h=0,表示下一节点vi+1不为上一节点vi-1
本发明所述实施例中构建转移概率模型后,得到第一参数α、第二参数k、第四参数p、第三参数q和第五参数h与Type(vi+1)和vi+1选取的相关性质如下:
性质1,当
Figure BDA0002857173410000121
和Type(vi)∈O时,随着第一参数α∈[0,1]值的增加,Type(vi+1)的选取倾向于从
Figure BDA0002857173410000122
变为O。
由性质1可知,当节点类型划分后,第一参数α控制节点类型的选择偏向于停留在O还是跳转到
Figure BDA0002857173410000123
在式(4)中,不考虑第二参数k的影响时,第一参数α的取值对于Type(vi+1)的类型选取影响如图7所示。
1)当Type(vi-1)∈O时,α<0.5时,Type(vi+1)偏向于跳转到
Figure BDA0002857173410000124
α>0.5时,Type(vi+1)偏向于停留在O。
2)当
Figure BDA0002857173410000125
时,α<0.5时,Type(vi+1)偏向于跳转到
Figure BDA0002857173410000126
α>0.5时,Type(vi+1)偏向于停留在O。
3)当α=0.5时,Type(vi+1)随机选择。
性质2,当Type(vi-1)Type(vi)Type(vi+1)为
Figure BDA0002857173410000127
且N>2时,随着k∈(0,+∞)值的增加,Type(vi-1)和Type(vi+1)趋向于由不同变为相同。
由性质2可知,参数k控制着
Figure BDA0002857173410000128
中子类型的选择,在式(5)中,k的取值对Type(vi-1)和Type(vi+1)的关系的影响如图8所示。
1)当0<k1<1时,Type(vi-1)和Type(vi+1)的关系偏向于Type(vi-1)≠Type(vi+1);
2)当k1>1时,Type(vi-1)和Type(vi+1)的关系偏向于Type(vi-1)=Type(vi+1);
3)当k1=1时,Type(vi-1)和Type(vi+1)的关系随机选择。
性质3,随着q∈(0,+∞)值的增加,vi+1的选择趋向于由深度优先变为广度优先。
性质4,随着p∈(0,+∞)值的增加,vi+1的选择趋向于由回溯变为非回溯。
由性质3和4可知,在不考虑参数h的影响时,综合考虑vi-1、vi和vi+1的邻接关系,第三参数q控制着向深度或者广度优先选择;第四参数p控制着节点是否回溯。在式(6)中,第三参数p和第三参数q的取值对vi+1的影响如图9和图10所示。
1)当0<q<1时,vi+1偏向于深度优先搜索选择;当q>1时,vi+1偏向于广度优先搜索选择。
2)当p>max(q,1)时,偏向于不返回vi-1;当p<min(q,1)时,偏向于返回vi-1。3)当p=1和q=1时,vi+1被随机选择。
性质5,当d(vi-1,vi+1)=0时,第五参数h控制是否有vi-1可以返回;当h=0时,不可以返回vi-1;当h=1时,有可能返回vi-1。
实施例1
以DBLP网络为例,对上述转移概率模型进行详细的说明,包括O和
Figure BDA0002857173410000131
类型的划分,节点类型的选取,节点的选取三部分内容。
(a)DBLP网络中O和
Figure BDA0002857173410000132
类型的划分
参阅图5所示,分析出P类型可以向其他类型跳转,而A、C、T只能向P类型跳转,彼此之间不能跳转,因此,令P为O类型,A、C、T为
Figure BDA0002857173410000133
类型,根据公式(2),由此,P类型的停留概率为α,A、C或者T类型的停留概率为1-α。
(b)DBLP网络中节点类型的选取
参阅图6所示,当Type(p0)=P,Type(p1)=P时,选取Type(vi+1),根据公式(4),三个节点类型的组合有以下两种情况:PPP或者
Figure BDA0002857173410000134
若令α=0.8,PPP的概率值是0.8×0.8×0.8=0.512,
Figure BDA0002857173410000135
的值是0.8×0.8×0.2=0.128,可见PPP的概率大,因此,令Type(vi+1)=P。
(c)DBLP网络中节点的选取
继续参阅图6所示,当vi=p0,vi-1=p1时,选取vi+1,根据公式(6)可知:
当d=0时,vi+1的候选集为:{p1(=vi-1)};
当d=1时,vi+1的候选集为{p2};
当d=2时,vi+1的候选集为{p3,a0,t0}。
由(b)可知,此时Type(vi+1)=P,vi+1候选集的范围缩小为:{p1,p2,p3}。
因为PPP,所以h=1。
若令p=1且q=1,则三个节点的PInner值均为1,此时随机选择;
若令p=2且q=0.5,则三个节点的PInner值分别为1/2、1和2,此时选取最大概率值2对应的节点p3
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于类型与节点约束随机游走的异构网络表示学习方法,其特征在于,包括:
步骤一,确定基于类型和节点约束的随机游走策略,并由此构建转移概率模型;
步骤二,通过随机游走得到游走序列W;
步骤三,将得到的游走序列W与Skip-Gram模型相结合以对游走序列W进行训练与学习;
步骤四,通过优化基于Skip-Gram模型的神经网络目标函数以学习到网络中节点的向量表示;
其中,所述基于Skip-Gram模型的神经网络目标函数如式(1)所示:
Figure FDA0002857173400000011
式(1)中,
Figure FDA0002857173400000012
表示节点vi与节点vj之间的共现概率,
Figure FDA0002857173400000013
表示sigmoid函数,
Figure FDA0002857173400000014
表示节点vi的向量,K表示负采样的个数。
2.根据权利要求1所述的基于类型与节点约束随机游走的异构网络表示学习方法,其特征在于,在所述步骤一中,所述基于类型和节点约束的随机游走策略包括:
步骤a,根据网络模式和研究目标,将节点类型划分为主类和辅类;
步骤b,根据游走路径中连续三个节点类型的共现概率值,选取概率值最大的组合确定下一节点的类型;
步骤c,根据连续三个节点之间拓扑结构中的邻接关系,以及回溯、深度或广度优先游走的概率值以确定节点的选取。
3.根据权利要求2所述的基于类型与节点约束随机游走的异构网络表示学习方法,其特征在于,在所述步骤a中,将所述网络模式记为TG=(A,R),包括带有实体类型映射φ:V→A和实体关系类型映射ψ:E→R的异构网络G=(V,E,A,R)的元模板;
其中,在异构网络G=(V,E,A,R)中,
V={v1,v2,…,vi,…,vI}表示节点的集合;
E={e1,e2,…,ej,…,eJ}表示边的集合;
A={A1,A2,…,An,…,AN}(N≤I)表示节点类型的集合;
R={R1,R2,…,Rm,…,RM}(M≤J)表示边类型的集合;
|V|=l表示节点的数量,|E|=J表示边的数量,|A|=N表示节点类型的数量,|R|=M表示边类型的数量,所述异构网络G=(V,E,A,R)满足|R|=M>1或|A|=N>1;
各所述节点vi∈V均表示一个特定的节点类型,记为φ(vi)=An∈A;
各所述边ej=(vi,vj)∈E均表示一个特定的关系类型,记为ψ(ej)=Rm∈R。
4.根据权利要求3所述的基于类型与节点约束随机游走的异构网络表示学习方法,其特征在于,在所述步骤a中,所述主类为被研究对象的类型,记为O;其余为辅类,记为
Figure FDA0002857173400000021
此时,节点类型的集合记为
Figure FDA0002857173400000022
Figure FDA0002857173400000023
其中,主类
Figure FDA0002857173400000024
辅类
Figure FDA0002857173400000025
所述主类和辅类还能够通过下式进行表达:
O={A1,A2,…,An},
Figure FDA0002857173400000026
其中,n1+n2=N,n1=n,n2=N-n,n1≥1且n2≥1:
在所述异构网络G=(V,E,A,R)中,
Figure FDA0002857173400000027
若φ(vi)∈O,则节点vi的类型为主类O,记为Type(vi)∈O;若
Figure FDA00028571734000000212
则节点vi的类型为辅类
Figure FDA0002857173400000028
记为
Figure FDA0002857173400000029
在随机游走时,节点将在主辅类之间进行跳转,节点类型的停留概率如式(2)所示:
Figure FDA00028571734000000210
式(2)中,α表示节点停留在O类型的概率,α∈[0,1],1-α表示节点停留在
Figure FDA00028571734000000211
类型的概率。
5.根据权利要求4所述的基于类型与节点约束随机游走的异构网络表示学习方法,其特征在于,所述转移概率模型包括节点vi+1类型的转移概率PType和节点vi+1的转移概率Plnner;
给定异构网络G=(V,E,A,R),起始节点v0和游走长度L进行随机游走,vi-1和vi分别表示随机游走序列W中的第i-1个节点和第i个节点,用以计算第i+1个节点vi+1的转移概率,节点vi+1的转移概率如式(3)所示:
P(vi+1|vi,vi-1)=PTvpe(Type(vi+1)|Type(vi),Type(vi-1))PInner(vi+1|vi,vi-1) (3)
式(3)中,vi-1、vi和vi+1分别表示上一节点、当前节点和下一节点,Type(vi-1)、Type(vi)和Type(vi+1)分别表示上一节点类型、当前节点类型和下一节点类型。
6.根据权利要求5所述的基于类型与节点约束随机游走的异构网络表示学习方法,其特征在于,在随机游走的过程中,给定异构网络G=(V,E,A,R),当已知当前节点类型Type(vi)和上一节点类型Type(vi-1)时,下一节点类型Type(vi+1)的概率如式(4)所示:
Figure FDA0002857173400000031
式(4)中,α表示第一参数,k表示第二参数;
在计算下一节点类型的转移概率时,通过按照上一节点、当前节点以及下一节点的排列顺序并根据所述三个节点的类型分布选取对应的计算公式计算下一节点类型的转移概率,
当所述三个节点的类型分布为OOO时,Type(vi+1)∈O的概率为α3
当所述三个节点的类型分布为
Figure FDA0002857173400000032
时,
Figure FDA0002857173400000033
的概率为α2(1-α);
当所述三个节点的类型分布为
Figure FDA0002857173400000034
时,Type(vi+1)∈O的概率为(1-α)α2
当所述三个节点的类型分布为
Figure FDA0002857173400000035
时,Type(vi+1)∈O的概率为α(1-α)α;
当所述三个节点的类型分布为
Figure FDA0002857173400000036
时,
Figure FDA0002857173400000037
的概率为(1-α)α(1-α)。
7.根据权利要求6所述的基于类型与节点约束随机游走的异构网络表示学习方法,其特征在于,在所述式(4)中,当
Figure FDA0002857173400000038
Figure FDA0002857173400000039
时,第二参数k用于调节
Figure FDA00028571734000000310
类型对Type(vi+1)选取的影响,具体取值如式(5)所示:
Figure FDA00028571734000000311
式(5)中,当N=|A|=2时,网络中有两种类型的节点,令k=1;
当N>2时,
Figure FDA00028571734000000312
类型中包含两种子类型,包括Type(vi-1)=Type(vi+1)和Type(vi-1)≠Type(vi+1),
当Type(vi-1)=Type(vi+1)时,令k=k1,k1∈(0,+∞),当Type(vi-1)≠Type(vi+1)时,令k=1/k1
8.根据权利要求7所述的基于类型与节点约束随机游走的异构网络表示学习方法,其特征在于,确定节点类型后,根据下一节点vi+1与当前节点vi和上一节点vi-1之间的邻接关系以及最短距离、结合第五参数h、第四参数p和第三参数q控制节点的回溯、深度或广度优先游走,下一节点vi+1的转移概率PInner的计算方式如式(6)所示:
Figure FDA0002857173400000041
式(6)中,d(vi-1,vi+1)表示上一节点vi-1到下一节点vi+1的最短距离;
当d(vi-1,vi+1)=2时,上一节点vi+1为当前节点vi的邻居但非上一节点vi-1邻居的概率为1/q;其中,第三参数q∈(0,+∞)表示控制深度或广度优先游走的参数,当第三参数q>1时,进行广度优先游走,当第三参数q≤1时,进行深度优先游走;
当d(vi-1,vi+1)=1时,下一节点vi+1为当前节点vi与上一节点vi-1共同邻居的概率为1;
当d(vi-1,vi+1)=0时,下一节点vi+1为上一节点vi-1的概率为h/p;其中,第四参数p∈(0,+∞)和第五参数h∈{0,1}均表示返回参数,控制返回到上一节点vi-1的概率,当第四参数p>max(q,1)时,不返回到上一节点vi-1,当第四参数p<min(q,1)时,返回到上一节点vi-1
9.根据权利要求8所述的基于类型与节点约束随机游走的异构网络表示学习方法,其特征在于,所述第五参数h的值的设置如式(7)所示:
Figure FDA0002857173400000042
式(7)中,当所述三个节点的类型分布为OOO且Type(vi-1)=Type(vi+1)或所述三个节点的类型分布为
Figure FDA0002857173400000043
且Type(vi-1)=Type(vi+1)时,h=1,表示下一节点vi+1为上一节点vi-1;当所述三个节点的类型分布不属于上述情况时,h=0,表示下一节点vi+1不为上一节点vi-1
CN202011550983.8A 2020-12-24 2020-12-24 一种基于类型与节点约束随机游走的异构网络表示学习方法 Pending CN112632731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011550983.8A CN112632731A (zh) 2020-12-24 2020-12-24 一种基于类型与节点约束随机游走的异构网络表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011550983.8A CN112632731A (zh) 2020-12-24 2020-12-24 一种基于类型与节点约束随机游走的异构网络表示学习方法

Publications (1)

Publication Number Publication Date
CN112632731A true CN112632731A (zh) 2021-04-09

Family

ID=75324522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011550983.8A Pending CN112632731A (zh) 2020-12-24 2020-12-24 一种基于类型与节点约束随机游走的异构网络表示学习方法

Country Status (1)

Country Link
CN (1) CN112632731A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053468A (zh) * 2021-05-31 2021-06-29 之江实验室 一种融合患者画像信息的药物新适应症发现方法及系统
CN114707066A (zh) * 2022-04-01 2022-07-05 福州大学 基于社区感知和自适应随机游走的景点推荐方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053468A (zh) * 2021-05-31 2021-06-29 之江实验室 一种融合患者画像信息的药物新适应症发现方法及系统
CN113053468B (zh) * 2021-05-31 2021-09-03 之江实验室 一种融合患者画像信息的药物新适应症发现方法及系统
CN114707066A (zh) * 2022-04-01 2022-07-05 福州大学 基于社区感知和自适应随机游走的景点推荐方法及系统

Similar Documents

Publication Publication Date Title
Ma et al. Learning to iteratively solve routing problems with dual-aspect collaborative transformer
CN110930274B (zh) 一种基于认知诊断的实践效果评估及学习路径推荐系统和方法
Nam et al. All-in text: Learning document, label, and word representations jointly
CN112632731A (zh) 一种基于类型与节点约束随机游走的异构网络表示学习方法
Zhao et al. Progressive privileged knowledge distillation for online action detection
Detwarasiti et al. Influence diagrams for team decision analysis
Bansal et al. A coverage-based utility model for identifying unknown unknowns
Yang et al. Graph pointer neural networks
Pio et al. Exploiting causality in gene network reconstruction based on graph embedding
Goel et al. Hybrid bio-inspired techniques for land cover feature extraction: A remote sensing perspective
CN113611356B (zh) 一种基于自监督图表征学习的药物重定位预测方法
CN111178543B (zh) 一种基于元学习的概率域泛化学习方法
Yu et al. Tulsn: siamese network for trajectory-user linking
Salama et al. Ant colony algorithms for constructing Bayesian multi-net classifiers
CN112311608A (zh) 一种多层异质网络空间节点表征方法
CN115964459B (zh) 基于食品安全认知图谱的多跳推理问答方法及系统
Wang et al. Restricted Bayesian classification networks
Kareem et al. Falcon optimization algorithm for bayesian network structure learning
Ajoodha et al. Learning the influence structure between partially observed stochastic processes using iot sensor data
CN108664607A (zh) 一种基于迁移学习的电力通信网数据质量提升方法
Sultana et al. Learning to optimise routing problems using policy optimisation
Christoforidis et al. Recommending points of interest in LBSNs using deep learning techniques
Nguyen et al. An approach to pattern recognition based on hierarchical granular computing
Zhao An ant colony clustering algorithm
CN113392279A (zh) 基于主观逻辑和前馈神经网络的相似有向子图搜索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination