CN112311608A - 一种多层异质网络空间节点表征方法 - Google Patents

一种多层异质网络空间节点表征方法 Download PDF

Info

Publication number
CN112311608A
CN112311608A CN202011333946.1A CN202011333946A CN112311608A CN 112311608 A CN112311608 A CN 112311608A CN 202011333946 A CN202011333946 A CN 202011333946A CN 112311608 A CN112311608 A CN 112311608A
Authority
CN
China
Prior art keywords
node
nodes
network
distance
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011333946.1A
Other languages
English (en)
Other versions
CN112311608B (zh
Inventor
杨国利
康元基
王国升
吴长宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pla 66136 Unit
Original Assignee
Pla 66136 Unit
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pla 66136 Unit filed Critical Pla 66136 Unit
Priority to CN202011333946.1A priority Critical patent/CN112311608B/zh
Publication of CN112311608A publication Critical patent/CN112311608A/zh
Application granted granted Critical
Publication of CN112311608B publication Critical patent/CN112311608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种多层异质网络空间节点表征方法,包括以下步骤:S1:根据结构重连规则重构网络,基于主要层和辅助层生成融合图;S2:对融合图设计节点对之间相邻距离、结构距离和属性距离的算法;S3:结合以上算法,得到融合图中任意两个节点之间的相似度;S4:完成融合图中所有节点对的相似度计算后,开始构造上下文网络图,进一步生成无向无权图;S5:基于上下文网络进行随机游走采样路径后,通过skip‑gram模型训练节点表征向量。由于本发明重构了多层异质网络,且考虑的相似性较为全面,因此相比其它表征算法,具有更好的效果。

Description

一种多层异质网络空间节点表征方法
技术领域
本发明涉及一种网络空间智能认知领域的不完全信息条件下网络空间深层结构挖掘方法,实现了网络隐藏类别以及潜在类别的识别,具体涉及一种多层异质网络空间节点表征方法,包括多层异质网络的信息融合方法、网络节点表征通用生成算法以及基于表征向量的网络空间节点聚类方法。
背景技术
当前在网络流量监控、主动探测技术等网络信息获取手段的支持下,能够初步实现网络空间目标组织结构的识别,但是,首先网络结构的本身非常复杂,多个局部网络嵌套、交叉的情况很普遍;其次由于数据获取手段的不同,网络空间的数据既有网络层的网络流数据、又有物理层的设备数据、业务层的日志、情报数据等,所以亟需智能化的信息融合与知识构建手段,综合运用经验知识,从复杂网络的多层数据中挖掘关键信息。
网络空间是一个由人、物理节点、虚拟节点以及逻辑关系组成的复杂系统,复杂网络可以看作是这个复杂系统的骨架,而异质信息网络模型则更接近真实网络世界的骨架。国内外目前对网络中的特征结构的研究主要针对节点相似性的某个角度进行切入:基于节点紧密度或基于节点属性相似性,缺乏通用性,仅对整体结构符合要求的数据集才能达到较好效果,也无法从业务角度分析网络的多层结构。
在互联网中,信息和数据通过路由器、服务器等在逻辑层、物理层的网络节点流转,形成了复杂的网络,呈现出多层、异质的特点。并且,在该种网络中常常出现星型、链状、树型结构,即一个中心节点连接多个子节点,每个节点都具有各自特有的属性,而且结构差异显著,逻辑层功能的实现依赖物理层数据的可达性。多层网络中,一般层与层之间的节点存在映射关系,即某一层的任意节点都与其它层的某一节点相连,一个双层网络结构如图1所示,通过层与层之间的连接完成数据流转,功能实现。因此,设计一个针对多层异质网络中的节点表征学习算法对于网络认知非常有必要。
当前对多层网络的研究较少,主要针对单层网络。2013年以前,网络节点表征生成主要使用矩阵因式分解、矩阵降维等手段,通过处理图的邻接矩阵,得到节点表征。2014年,Bryan Perozzi等人在论文《DeepWalk:Online Learning of Social Representations》采用自然语言处理中word2vec的思想,将整个图作为语料库,通过随机游走采样节点序列作为句子,使用word2vec中skip-gram模型训练节点表征。2016年,Aditya Grover等人在论文《node2vec:Scalable Feature Learning for Networks》中提出node2vec算法,提出一种新的游走策略,通过两个参数控制游走方向,根据数据集性质的不同,综合考虑广度优先和深度优先以及是否回溯。2017年,William L.Hamilton等人在论文《InductiveRepresentation Learning on Large Graphs》提出一种归纳式表征学习算法,通过采样并聚合邻居的属性信息,获得节点表征,若有未出现过的节点,通过采样聚合邻居的信息即可获得该节点表征,而不必重新训练整个网络的节点表征。
与本发明最接近的技术方案是Leonardo F.R.Ribeiro在论文《struc2vec:Learning Node Representations from Structural Identity》提出的struc2vec算法。该算法仅仅考虑节点的结构相似性,抛弃相邻节点相似的观念,首先构造多层全连接图,每层中节点与原图相同,然后计算所有节点对的不同阶邻居的度序列的差异性,第i层图中的任意两节点间的边权为原图中这两个节点第i层邻居的度序列差异性,层与层之间对应节点都存在边。多层全连接图构造完成后,对于每个节点,进行一次从最底层开始的随机游走,游走的方向由其连接的所有边的权重确定,游走的长度和遍历的次数提前确定好。游走路径生成完成后,使用skip-gram模型生成节点的表征向量。struc2vec算法在蚂蚁金服的风控模型中取得了良好效果,相比node2vec等算法有较大提升。
当前技术主要采用随机游走加skip-gram的模式训练节点表征,然而这些方法主要存在2个问题:(1)这些方法并未考虑多层图的处理方式,如果完全按照单层图来处理,准确率会大大下降;(2)DeepWalk和node2vec等算法仅考虑相邻相似性,struc2vec仅考虑结构相似性,不能综合考虑相邻相似和结构相似,而且无法同时兼顾节点自身的属性对学习表征的影响。
发明内容
本发明提供了一种多层异质网络空间节点表征方法,用于解决实现网络空间目标组织结构的识别问题,其技术方案如下所述:
一种多层异质网络空间节点表征方法,包括以下步骤:
S1:根据结构重连规则重构网络,基于主要层和辅助层生成融合图G;
S2:对融合图G设计表征算法,实现网络节点表征通用生成算法,设计节点对之间相邻距离ND、结构距离SD和属性距离AD的算法;
S3:结合以上算法,得到融合图G中任意两个节点之间的相似度定义为:
Sim(u,v)=wN·σ(ND)+wS·λ(SD)+wA·θ(AD)
其中σ(·)、λ(·)和θ(·)表示将相邻距离、结构距离和属性距离转换为相似度的函数;
S4:完成融合图G中所有节点对的相似度计算后,开始构造用于随机游走的网络,其中仍然保留所有主要层节点,若两个节点之间的相似度大于设定的阈值δ,则在这两个节点间加入一条边,否则不加入连边,因此生成一个无向无权图,即上下文网络;
S5:在无向无权图中训练节点表征是随机游走采样路径后,通过skip-gram模型训练节点表征。
进一步的,步骤S1中,所述结构重连规则满足以下三种情况:(1)两个节点在主要层存在连边;(2)两个节点在辅助层拥有共同邻居;(3)两个节点在辅助层的两个邻居之间也是相邻关系。
进一步的,步骤S2中,表征算法为Info2vec(V,GP,GS,w,δ,d,n,l),其中输入包括:主要层节点V,主要层网络GP,辅助层网络GS,连边阈值δ,权重w,窗口大小c,表征维数d,随机游走次数n,随机游走路径长度l;输出为:表征向量矩阵
Figure BDA0002796605090000042
具体过程如下:
1)生成融合图:G=Aggre(GP,GS)
2)计算节点相邻距离:ND=NearDist(G)
3)计算节点结构距离:SD=StrucDist(G)
4)计算节点属性距离:AD=AttrDist(G)
5)计算节点相似度:Sim=Aggre(SD,DD,PD,w)
6)根据相似度生成上下文网络:GC=percolation(V,Sim,δ)
7)基于随机游走生成节点序列:walks={pathi|pathi=RandomWalk(GC,l)}
8)调用skip-gram模型生成节点表征向量:Φ=Skip-gram(walks,c,d)
其中,ND为相邻距离矩阵,SD为结构距离矩阵,AD为属性距离矩阵,每个矩阵大小为|V|×|V|,所包含元素为各个节点对的相邻距离、结构距离和属性距离,基于上述三种距离能够计算节点之间的综合相似度Sim,另外,GC为基于综合相似度生成的上下文网络,通过该网络产生随机游走节点序列path以及节点序列集合walks。
进一步的,步骤S2中,相邻距离ND表示为:
Figure BDA0002796605090000041
其中SPL(·)表示两个节点的最短距离,V代表融合图G的所有节点的集合,节点u与节点v表示融合图内不同的节点。
步骤S2中,各个节点之间的结构距离SD可表示为:
SD={Sk|k=0,1,...,k*}
其中k*表示计算结构距离时节点邻居的最大阶数。
评估节点之间的结构距离SD的算法过程如下所述:首先定义G的直径为k*,即G中所有节点对间最短距离的最大值,定义节点u第k(k≤k*)阶的邻居为Nk(u),即与节点u的最短距离为k的节点集合,令N0(u)为节点u本身,节点u与节点v在第k阶邻居上的结构距离为:
Figure BDA0002796605090000051
其中,d(·)表示节点集合中所有节点度构成的序列,DTW(Dynamic TimeWarping)方法用来衡量两个序列之间的差异,V代表融合图G的所有节点的集合,节点u与节点v表示融合图内不同的节点,Nk(v)表示节点v的第k阶邻居。
属性距离AD表示为:
Figure BDA0002796605090000052
设每个节点共有p个属性,第m个属性距离的计算方法为
Figure BDA0002796605090000053
V代表融合图G的所有节点的集合,节点u与节点v表示融合图内不同的节点,
进一步的,步骤S5中,随机游走中,定义以某节点vi作为起点的路径为
Figure BDA0002796605090000054
若游走路径长度为l,那么有
Figure BDA0002796605090000055
其中vk+1为在vk的邻居中随机选择的节点,在上下文网络图的每轮随机游走中,以全图所有节点作为起点得到路径,若轮数为n,那么采样的路径数共|V|×n条。
步骤S5中,所述skip-gram模型的公式如下:
Figure BDA0002796605090000056
其中Voc为节点空间,c表示窗口大小,c越大,上下文考虑的节点范围就越大,共现关系就越“远”,训练时间也会增加。Skip-gram就是通过训练神经网络尽可能地让同一窗口内节点wt+i和wt的共现概率p(wt+i|wt)变大,不在同一窗口内节点的共现概率变小。
本发明首先设计为多层异质网络融合为单层网络的方法,然后综合考虑相邻相似、结构相似、属性相似等方面,通过构造上下文网络图,设定阈值,保留图中相似度较高的节点对之间的边,使用随机游走算法采样节点路径,结合skip-gram模型训练节点表征,最后使用Jaccard系数、Rand指数、FM指数等指标评估聚类性能。由于本发明重构了多层异质网络,且考虑的相似性较为全面,因此相比其它表征算法,聚类效果更好。
与现有技术相比,本发明的优点在于:
1.本发明设计了多层异质网络的融合方法,区分主要层、辅助层,当主要层本身的边不足以完全表示节点关系时,通过引入辅助层的结构关系,扩充主要层节点间关系,提高节点表征效果。
2.本发明构造了能够综合考量相邻相似性、结构相似性、属性相似性的节点表征生成模型,提出了通用算法,通过调整相似性生成算法和相似性权重可针对数据集特点和训练目标生成较好的节点表征。
附图说明
图1是多层异质网络结构示意图;
图2是多层异质网络结构重连规则示意图;
图3是多层异质网络信息融合过程示意图;
图4是Info2vec模型通用框架图;
图5为逻辑-物理双层网络空间结构图。
具体实施方式
如图1所示,对于多层异质网络,将各层之间的节点无差异对待,将其看作单层网络进行游走不仅效果较差,且由于节点和边的个数增多,性能大幅下降。因此,有必要根据任务(例如节点分类、链路预测等)区分多层异质网络中的节点,任务节点所在的层级为主要层,其他层为辅助层。
本发明为更好聚焦主要层特性,同时融合辅助层有效信息,需重构网络,基于主要层和辅助层生成融合图,实现多层异质网络的信息融合。在融合图中,保留主要层的全部节点,若要在两个节点之间构建连边,需基于结构重连规则满足以下三种情况:(1)两个节点在主要层存在连边;(2)两个节点在辅助层拥有共同邻居;(3)两个节点在辅助层的两个邻居之间也是相邻关系。因此,如图2所示,基于结构重连规则,能够将主要层和辅助层生成如图3所示的融合图G。
然后,对融合图G设计表征算法,实现网络节点表征通用生成算法,可以综合考虑相邻相似、结构相似、属性相似三种情况,伪代码如下:
Figure BDA0002796605090000071
其中,ND为相邻距离矩阵,SD为结构距离矩阵,AD为属性距离矩阵,每个矩阵大小为|V|×|V|,所包含元素为各个节点对的相邻距离、结构距离和属性距离,基于上述三种距离能够计算节点之间的综合相似度Sim。另外,GC为基于综合相似度生成的上下文网络,通过该网络产生随机游走节点序列path以及节点序列集合walks。
接下来,在融合图G中,设计节点对之间相邻距离ND、结构距离SD和属性距离AD的算法:
(1)首先计算所有节点对之间的相邻距离矩阵,本发明中两个节点之间的最短距离用以评估节点间的相邻相似性,节点间的相邻距离ND可表示为:
Figure BDA0002796605090000072
其中SPL(·)表示两个节点的最短距离,V代表融合图G的所有节点的集合,节点u与节点v表示融合图内不同的节点。
(2)评估节点之间的结构距离,采用与struc2vec类似的方法,定义G的直径为k*,即G中所有节点对间最短距离的最大值,定义节点u第k(k≤k*)阶的邻居为Nk(u),即与节点u的最短距离为k的节点集合,令N0(u)为节点u本身,节点u与节点v在第k阶邻居上的结构距离为:
Figure BDA0002796605090000081
其中,d(·)表示节点集合中所有节点度构成的序列,DTW(Dynamic TimeWarping)方法用来衡量两个序列之间的差异。Nk(v)表示节点v的第k阶邻居。
那么,各个节点之间的结构距离SD可表示为:
SD={Sk|k=0,1,...,k*}
其中k*表示计算结构距离时节点邻居的最大阶数。
(3)评估节点间的属性距离需考虑彼此之间相同属性的数量,设每个节点共有p个属性,第m个属性距离的计算方法为
Figure BDA0002796605090000082
那么节点之间的属性距离AD表示为:
Figure BDA0002796605090000083
由于网络结构、任务不同,计算最终相似度时需要对最短距离、结构距离和属性距离设置不同权重,令相邻距离权重为
Figure BDA0002796605090000084
结构距离权重为
Figure BDA0002796605090000085
属性距离权重为
Figure BDA0002796605090000086
那么任意两个节点之间的相似度定义为:
Sim(u,v)=wN·σ(ND)+wS·λ(SD)+wA·θ(AD)
其中σ(·)、λ(·)和θ(·)表示将相邻距离、结构距离和属性距离转换为相似度的函数。R+,Rk*,Rp分别表示各个权重的取值范围。
三种距离都是在融合图中计算,已经将主要层和辅助层的信息融合完毕,因此不需要考虑主要层和辅助层了;K层指的就是融合图的直径;上述的邻居是广义的邻居,比如与节点U最短距离为1的节点集合是通常所指的邻居,最短距离为2的节点集合是2阶邻居,以此类推。
完成所有节点对的相似度计算后,开始构造上下文网络图,体现基于表征向量的网络空间节点聚类方法。上下文网络中仍然保留所有主要层节点,若两个节点之间的相似度大于设定的阈值δ,则在这两个节点间加入一条边,否则不加入连边,因此生成一个无向无权图,即上下文网络。在该图中训练节点表征的方法是随机游走采样路径后,通过skip-gram模型训练节点表征,下面分别对随机游走和skip-gram模型进行介绍。
在随机游走中,定义以某节点vi作为起点的路径为
Figure BDA0002796605090000091
若游走路径长度为l,那么有
Figure BDA0002796605090000092
其中vk+1为在vk的邻居中随机选择的节点。
在DeepWalk中也采用了随机游走,但DeepWalk并未对图网络进行任何处理,因此只能得到相邻相似性,在本发明构造的上下文网络图中,节点之间的边代表这两个节点相邻相似、结构相似和属性相似的综合考量。在每轮随机游走中,以全图所有节点作为起点得到路径,若轮数为n,那么采样的路径数共|V|×n条。
skip-gram是一个语言模型,通过最大化语料库中所有节点与其上下文节点的共现概率来训练节点表征向量,对上下文的定义一般由“窗口”来指定长度,如窗口大小为5,那么该节点游走路径上前后5个节点即为其上下文。用公式可表示为最大化:
Figure BDA0002796605090000093
其中Voc为节点空间,c表示窗口大小,c越大,上下文考虑的节点范围就越大,共现关系就越“远”,训练时间也会增加。简单来说,skip-gram模型就是尽可能地让同一窗口内节点wt+i和wt的共现概率p(wt+i|wt)变大,不在同一窗口内节点的共现概率变小。
本发明中,通过随机游走获得了上下文网络图中节点路径,调用skip-gram模型,设定样本窗口大小,让出现在同一窗口的节点间的表征向量尽可能接近。
如图4所示,基于上述多层异质空间节点表征方法,以下为本发明的具体实施例:
以某地区网络终端逻辑交互关系及底层物理通信链路结构关系数据集为例,根据上文所述方法设计Info2vec的具体实现算法。逻辑终端属性主要包括节点编号、子网掩码、端口类别、软件类型、路由属性、数据来源和所属网络,且每个逻辑终端都有一个与之对应的物理节点。
如图5所示,需要分析的网络空间数据集中,逻辑层共41142个节点、51693条边,物理层共36751个节点、49088条边,逻辑层和物理层的节点代表一个终端,边代表两个终端之间可以进行数据传输。该网络是典型的多层异质网络,因此本发明用该数据集验证多层异质网络的融合和表征生成算法。
在该数据集中,每个逻辑终端都有所属网络,以此作为分类标签,因此以逻辑层作为主要层,物理层作为辅助层。首先需构造融合图,其以逻辑层节点作为融合图节点,同时在节点中加入终端属性,融合图中任意两个节点之间存在连边需满足以下条件(1)两个节点在逻辑层存在连边;(2)两个节点在物理层拥有共同邻居;(3)两个节点在物理层的两个邻居之间也是相邻关系。
融合图构造完成后,计算所有节点对在新融合图中的相邻距离ND,用来评估相邻相似性;经过分析,在网络空间中节点结构相似性主要取决于第1层结构距离
Figure BDA0002796605090000101
其中d(·)表示节点度(即节点1阶邻居数目),DTW(d(u),d(v))=|d(u)-d(v)|,即仅考虑两个节点1阶邻居数(通常意义的邻居)之差;计算属性距离时,主要分析两个节点的子网掩码、端口类别、软件类型、路由属性、数据来源共五个属性的相似性,在本例中,为每个节点对设置一个五维的属性向量,分别代表上述五个属性,若这两个节点的某个属性相等,则将其对应位置设为1,否则为0,即
Figure BDA0002796605090000111
其中
Figure BDA0002796605090000112
代表节点u的第k个属性,
Figure BDA0002796605090000113
代表节点v的第k个属性,其中:
Figure BDA0002796605090000114
完成相邻距离ND、结构距离SD和属性距离AD的计算后,要根据数据集特点,定义距离转换为相似度的方法σ(·)、λ(·)和θ(·),并设置相似度权重。
定义相邻相似性为:
Figure BDA0002796605090000115
定义结构相似性为:
Figure BDA0002796605090000116
定义属性相似性为:
Figure BDA0002796605090000117
在相邻相似性中,由于节点之间最短路径长度相差不大,故彼此相邻相似性差异较小,但是指数函数下降速度较快,因此需引入一定的延迟系数。通过分析数据集特点,节点间关系更偏向相邻相似。在结构相似性中,由于节点度之差(即两个节点的邻居数之差)最小可以取到0,同时由于该数据集中,度之差的变化对分类结果影响较大。在属性相似性中,子网掩码和路由属性与所属网络分类的相关性最高,因此设定相邻相似度权重wN=2,结构相似度权重wS=1,属性相似度权重wA=[1,0.5,0.1,0.1,0.1],分别对应子网掩码、路由属性、端口类别、软件类型、数据来源的权重,最终可得到任意两个节点间的综合相似度Sim。
完成节点之间的综合相似度计算后,构造上下文网络图,以逻辑层的节点作为该图节点,设置阈值为2,在相似度大于等于2的节点对之间加入边,生成上下文网络,用于形成游走节点序列。
其中阈值为2是超参数,过大就没有筛选性,过小会删掉过多的边,此数值是通过反复试验得到;其值就介于删掉所有边和一条边都没删掉两种极端情况之间,数据范围取决于数据集本身。
接下来,在上下文网络中使用随机游走采样路径,本例中使用两种游走参数设置:第一种是每轮将所有节点作为起点生成路径,共100轮,路径长度为15;第二种是每个节点作为起点的路径个数正比于上下文网络图中该节点的度的开平方,设置总路径个数大约800万条,路径长度也为15。生成路径后,取窗口大小为10(以某个点为中心时,其游走序列前后各5个节点作为共现节点),调用Skip-gram模型生成所有节点表征。最后采用K-means聚类算法,将所有节点分为10类,并分别用Jaccard系数、FM指数和Rand指数结合逻辑层节点的所属网络标签评估各种节点表征方法的聚类性能。
Figure BDA0002796605090000121
在上表中,DeepWalk、node2vec和struc2vec均对所有节点生成100轮长度为15的路径,其中node2vec中设置参数p=4,q=0.25。GraphSAGE中取K=2,S1=25,S2=10,并为每个节点构造属性向量,构造方式如下:以子网掩码为例,共14类,设置子网掩码属性向量为14维的0-1向量,用来代表节点子网掩码的类别,在类别对应的向量索引设为1,其它为0。
通过上表可以得出以下几个结论:(1)在同一图中,Info2vec的性能明显好于其它几种算法,由于数据集中相邻相似性对最终分类结果影响最大,并且节点分布偏向树状结构,因此除了Info2vec,DeepWalk性能最好,由于属性对最终分类结果影响较小,因此GraphSAGE的性能较差;(2)对比融合前后的图,可以看出,除了Info2vec以外的算法性能相差不大,但由于融合后的图增强了原图信息的聚合性,因此Info2vec的性能有所上升。
以上是对本发明进行了示例性描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用其它场合的,均在本发明的保护范围内。

Claims (9)

1.一种多层异质网络空间节点表征方法,包括以下步骤:
S1:根据结构重连规则重构网络,基于主要层和辅助层生成融合图G;
S2:对融合图G设计表征算法,实现网络节点表征通用生成算法,设计节点对之间相邻距离ND、结构距离SD和属性距离AD的算法;
S3:结合以上算法,得到融合图G中任意两个节点之间的相似度定义为:
Sim(u,v)=wN·σ(ND)+wS·λ(SD)+wA·θ(AD)
其中σ(·)、λ(·)和θ(·)表示将相邻距离、结构距离和属性距离转换为相似度的函数;
S4:完成融合图G中所有节点对的相似度计算后,开始构造用于随机游走的网络,图中仍然保留所有主要层节点,若两个节点之间的相似度大于设定的阈值δ,则在这两个节点间加入一条边,否则不加入连边,因此生成一个无向无权图,即上下文网络;
S5:在上下文网络图中训练节点表征是随机游走采样路径后,通过skip-gram模型训练节点表征。
2.根据权利要求1所述的多层异质网络空间节点表征方法,其特征在于:步骤S1中,所述结构重连需满足以下三种情况:(1)两个节点在主要层存在连边;(2)两个节点在辅助层拥有共同邻居;(3)两个节点在辅助层的两个邻居之间也是相邻关系。
3.根据权利要求1所述的多层异质网络空间节点表征方法,其特征在于:步骤S2中,表征算法为Info2vec(V,GP,GS,w,δ,d,n,l),其中输入包括:主要层节点V,主要层网络GP,辅助层网络GS,连边阈值δ,权重w,窗口大小c,表征维数d,随机游走次数n,随机游走路径长度l;输出为:表征向量矩阵Φ∈R|V|×d,具体过程如下:
1)生成融合图:G=Aggre(GP,GS)
2)计算节点相邻距离:ND=NearDist(G)
3)计算节点结构距离:SD=StrucDist(G)
4)计算节点属性距离:AD=AttrDist(G)
5)计算节点相似度:Sim=Aggre(SD,DD,PD,w)
6)根据相似度生成上下文网络:GC=percolation(V,Sim,δ)
7)基于随机游走生成节点序列:walks={pathi|pathi=RandomWalk(GC,l)}
8)调用skip-gram模型生成节点表征向量:Φ=Skip-gram(walks,c,d)
其中,ND为相邻距离矩阵,SD为结构距离矩阵,AD为属性距离矩阵,每个矩阵大小为|V|×|V|,所包含元素为各个节点对的相邻距离、结构距离和属性距离,基于上述三种距离能够计算节点之间的综合相似度Sim,另外,GC为基于综合相似度生成的上下文网络,通过该网络产生随机游走节点序列path以及节点序列集合walks。
4.根据权利要求1所述的多层异质网络空间节点表征方法,其特征在于:步骤S2中,相邻距离ND表示为:
Figure FDA0002796605080000021
其中SPL(·)表示两个节点的最短距离,V代表融合图G的所有节点的集合,节点u与节点v表示融合图内不同的节点。由于构造融合图时,主要层节点完全映射到融合图中,二者节点一一对应。
5.根据权利要求1所述的多层异质网络空间节点表征方法,其特征在于:步骤S2中,各个节点之间的结构距离SD可表示为:
SD={Sk|k=0,1,…,k*}
其中k*表示计算结构距离时节点邻居的最大阶数。
6.根据权利要求5所述的多层异质网络空间节点表征方法,其特征在于:评估节点之间的结构距离SD的算法过程如下所述:首先定义G的直径为k*,即G中所有节点对间最短距离的最大值,定义节点u第k(k≤k*)阶的邻居为Nk(u),即与节点u的最短距离为k的节点集合,令N0(u)为节点u 本身,节点u与节点v在第k阶邻居上的结构距离为:
Figure FDA0002796605080000031
其中,d(·)表示节点集合中所有节点度构成的序列,DTW(Dynamic Time Warping)方法用来衡量两个序列之间的差异,V代表融合图G的所有节点的集合,节点u与节点v表示融合图内不同的节点,Nk(v)表示节点v的第k阶邻居。
7.根据权利要求1所述的多层异质网络空间节点表征方法,其特征在于:属性距离AD表示为:
Figure FDA0002796605080000032
设每个节点共有p个属性,第m个属性距离的计算方法为
Figure FDA0002796605080000033
V代表融合图G的所有节点的集合,节点u与节点v表示融合图内不同的节点。
8.根据权利要求1所述的多层异质网络空间节点表征方法,其特征在于:步骤S5中,随机游走中,定义以某节点vi作为起点的路径为
Figure FDA0002796605080000034
若游走路径长度为l,那么有
Figure FDA0002796605080000035
其中vk+1为在vk的邻居中随机选择的节点,在上下文网络图的每轮随机游走中,以全图所有节点作为起点得到路径,若轮数为n,那么采样的路径数共|V|×n条。
9.根据权利要求1所述的多层异质网络空间节点表征方法,其特征在于:步骤S5中,所述skip-gram模型的公式如下:
Figure FDA0002796605080000036
其中Voc为节点空间,c表示窗口大小,c越大,上下文考虑的节点范围就越大,共现关系就越“远”,训练时间也会增加。Skip-gram就是通过训练神经网络尽可能地让同一窗口内的节点wt+i和wt的共现概率p(wt+i|wt)变大,不在同一窗口内的节点共现概率变小。
CN202011333946.1A 2020-11-25 2020-11-25 一种多层异质网络空间节点表征方法 Active CN112311608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011333946.1A CN112311608B (zh) 2020-11-25 2020-11-25 一种多层异质网络空间节点表征方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011333946.1A CN112311608B (zh) 2020-11-25 2020-11-25 一种多层异质网络空间节点表征方法

Publications (2)

Publication Number Publication Date
CN112311608A true CN112311608A (zh) 2021-02-02
CN112311608B CN112311608B (zh) 2022-09-23

Family

ID=74335601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011333946.1A Active CN112311608B (zh) 2020-11-25 2020-11-25 一种多层异质网络空间节点表征方法

Country Status (1)

Country Link
CN (1) CN112311608B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907334A (zh) * 2021-03-24 2021-06-04 杭州网易再顾科技有限公司 一种对象推荐方法及装置
CN113240005A (zh) * 2021-05-11 2021-08-10 燕山大学 基于静态网络表示的电力系统复杂网络虚假数据检测方法
CN113347384A (zh) * 2021-08-06 2021-09-03 北京电信易通信息技术股份有限公司 一种基于时序表征学习的视频会议流量预测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109743196A (zh) * 2018-12-13 2019-05-10 杭州电子科技大学 一种基于跨双层网络随机游走的网络表征方法
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法
CN111737535A (zh) * 2020-06-22 2020-10-02 复旦大学 一种基于元结构和图神经网络的网络表征学习方法
WO2020199524A1 (zh) * 2019-04-02 2020-10-08 长安大学 一种基于网络表示学习的网约共享出行人员匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109743196A (zh) * 2018-12-13 2019-05-10 杭州电子科技大学 一种基于跨双层网络随机游走的网络表征方法
WO2020199524A1 (zh) * 2019-04-02 2020-10-08 长安大学 一种基于网络表示学习的网约共享出行人员匹配方法
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法
CN111737535A (zh) * 2020-06-22 2020-10-02 复旦大学 一种基于元结构和图神经网络的网络表征学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴瑶等: "多元图融合的异构信息网嵌入", 《计算机研究与发展》 *
李亚莹: "基于异构信息网络表征学习的推荐方法", 《现代计算机》 *
鲁军豪等: "信息网络表示学习方法综述", 《河北科技大学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907334A (zh) * 2021-03-24 2021-06-04 杭州网易再顾科技有限公司 一种对象推荐方法及装置
CN112907334B (zh) * 2021-03-24 2024-04-26 杭州网易再顾科技有限公司 一种对象推荐方法及装置
CN113240005A (zh) * 2021-05-11 2021-08-10 燕山大学 基于静态网络表示的电力系统复杂网络虚假数据检测方法
CN113240005B (zh) * 2021-05-11 2022-09-20 燕山大学 基于静态网络表示的电力系统复杂网络虚假数据检测方法
CN113347384A (zh) * 2021-08-06 2021-09-03 北京电信易通信息技术股份有限公司 一种基于时序表征学习的视频会议流量预测方法及系统
CN113347384B (zh) * 2021-08-06 2021-11-05 北京电信易通信息技术股份有限公司 一种基于时序表征学习的视频会议流量预测方法及系统

Also Published As

Publication number Publication date
CN112311608B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN112311608B (zh) 一种多层异质网络空间节点表征方法
CN112925989B (zh) 一种属性网络的群体发现方法及系统
CN112508085B (zh) 基于感知神经网络的社交网络链路预测方法
Yin et al. DHNE: Network representation learning method for dynamic heterogeneous networks
CN111737535B (zh) 一种基于元结构和图神经网络的网络表征学习方法
CN106960390A (zh) 基于节点聚合度的重叠社区划分方法
CN111949885B (zh) 一种面向旅游景点的个性化推荐方法
JP7393060B2 (ja) 注意メカニズムを融合したパーソナライズド検索方法及び検索システム
CN113268993B (zh) 基于互信息的属性异构信息网络无监督网络表示学习方法
CN113255895A (zh) 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法
CN109921936A (zh) 基于memetic框架的多目标动态网络社区划分方法
CN110263236A (zh) 基于动态多视图学习模型的社交网络用户多标签分类方法
CN116416478B (zh) 一种基于图结构数据特征的生物信息学分类模型
CN115828143A (zh) 基于图卷积和自注意力机制实现异构图元路径聚合的节点分类方法
Yu et al. Unsupervised euclidean distance attack on network embedding
CN115858919A (zh) 基于项目领域知识和用户评论的学习资源推荐方法及系统
CN116757262B (zh) 图神经网络的训练方法、分类方法、装置、设备及介质
CN113792110A (zh) 一种基于社交物联网的设备信任值评估方法
Zhang et al. Multi-component Similarity Graphs for Cross-network Node Classification
Christoforidis et al. Recommending points of interest in LBSNs using deep learning techniques
CN115456093A (zh) 一种基于注意力图神经网络的高性能图聚类方法
Shapira et al. BGP2Vec: Unveiling the Latent Characteristics of Autonomous Systems
CN115238073A (zh) 一种融合异构信息网络与生成对抗网络的服务分类方法
CN114297498A (zh) 一种基于关键传播结构感知的意见领袖识别方法和装置
CN114529096A (zh) 基于三元闭包图嵌入的社交网络链路预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant