CN110677284B - 一种基于元路径的异构网络链路预测的方法 - Google Patents

一种基于元路径的异构网络链路预测的方法 Download PDF

Info

Publication number
CN110677284B
CN110677284B CN201910904558.5A CN201910904558A CN110677284B CN 110677284 B CN110677284 B CN 110677284B CN 201910904558 A CN201910904558 A CN 201910904558A CN 110677284 B CN110677284 B CN 110677284B
Authority
CN
China
Prior art keywords
meta
path
node
nodes
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910904558.5A
Other languages
English (en)
Other versions
CN110677284A (zh
Inventor
段大高
尹丹琪
韩忠明
杨伟杰
刘文文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201910904558.5A priority Critical patent/CN110677284B/zh
Publication of CN110677284A publication Critical patent/CN110677284A/zh
Application granted granted Critical
Publication of CN110677284B publication Critical patent/CN110677284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于元路径的异构网络链路预测的方法,利用元路径处理异构网络丰富且复杂的语义,从网络中抽取元路径实例并学习网络节点权重,综合网络拓扑特征以更新网络节点嵌入,利用更新的网络节点嵌入,可以做分类、聚类及链路预测等工作,在实际生活中应用性高,能够有效提高异构网络的分类、聚类及链路预测等工作的准确率。

Description

一种基于元路径的异构网络链路预测的方法
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种基于元路径的异构网络链路预测的方法。
背景技术
随着科技的发展和大数据时代的来临,推荐系统应运而生,其旨在帮助用户在海量数据中更便捷的找到用户最感兴趣的内容。链路预测是复杂网络与信息科技之间的桥梁,它可以有效恢复缺失链接和预测即将出现的链接,且是实现推荐系统的一个重要方法。现实生活中的网络交错复杂,给链路预测的准确度带来了很大挑战,一个有效的链路预测方法可以为用户提供准确的预测结果,有重要的应用价值。然而现有的网络链路预测方法往往忽略网络的异构性给链路预测带来的影响,现有方法大多针对的是同构网络,但大部分现实网络都是异构的。异构网络由于节点及其连边具有极大的复杂性,包含丰富的语义信息,进行有效的网络链路预测较为困难,且同构网络中的大多数方法并不能直接应用于异构网络中,所以针对异构网络提出有效的网络链路预测方法是非常必要的。
发明内容
本发明的目的是提供一种基于元路径的异构网络链路预测的方法,以解决上述现有技术存在的问题,使用户在海量数据中更便捷的找到用户最感兴趣的内容并且准确性更高。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于元路径的异构网络链路预测的方法,包括如下步骤:
步骤一、确定是否为异构网络,所述异构网络为:如果一个网络中节点对象的类型|A|>1或关系类型|R|>1,根据节点类型连接而成不同关系类型,不同的关系类型加节点组建成的即为异构网络,所述节点类型为不同类型的节点,所述关系类型为不同类型的边;
构建异构网络具体方法为:将同一类节点排成一列,有几种类型的节点就排几列,在节点列与节点列之间实现连边,构建出异构网络G=(V,E),,在异构网络中,不同类型节点间组建成一条元路径P,
Figure BDA0002212894740000021
定义为元路径,其中Vi∈V,i∈{1,2,…,k},Ri∈R,i∈{1,2,…,k-1},R是节点间关系的集合,即R=(R1,R2,…,Rk-1);从异构网络中提取出包含不同关系类型的元路径,所述元路径将异构网络的多种类型的节点和边建立起联系,表达出节点的网络拓扑结构特征;
步骤二、从网络中提取元路径:元路径有不同长度,一条元路径包含几个节点即长度为几,利用栈这种数据结构,枚举生成所有路径长度小于5的元路径;
具体方法为:输入异构网络的节点数列V=(v1,v2,…,vn)和邻接矩阵A,设定合理的元路径长度为限制条件,给定起始节点类型,初始化栈,在栈里存放元路径,若两个类型节点之间可以存在连边,将后者压入栈,不断向里压入合理节点,最长到元路径长度l<5,(即每条元路径包含不超过四个节点对象) 时结束,栈满时将站内节点元素组成的元路径添加到元路径集合P中,最后输出给定起始节点的所有的元路径集合P,则给定两类起始节点,两次栈运算输出每一类起始节点引导的所有的元路径集合P=(P1,P2,…,Pn),生成的元路径是在有效长度范围内所有的元路径,即理论上合理的元路径;
步骤三、元路径处理:对获取到的元路径做进一步处理,将获取到的长度小于5的元路径按长度分类,分为长度为2、3、4的三类元路径;然后从真实网络G=(V,E)中获取符合元路径的网络元路径实例I=(I1,I2,…,In);一类元路径包含多个元路径实例,一个网络的元路径实例包含这个网络的语义信息;起始节点类型已给定,对于长度为2的所有元路径实例,提取起始节点的一阶邻居;对于长度为3的所有元路径实例,提取起始节点的二阶及以下邻居;对于长度为4的所有元路径实例,提取起始节点的三阶及以下邻居;
步骤四、统一节点特征空间:对于网络中的所有节点做嵌入,向向量表示转换,从语义空间到向量空间做映射,同时在向量空间保持原样本在语义空间的关系;
步骤五、计算节点权重:针对不同长度的元路径计算路径上邻居节点的权重,判断邻居节点对起始节点的影响力,用节点度数计算出权重α,邻居节点的向量表示乘对应的权重α,元路径所有邻居节点表示再聚合起来成为这条元路径起始节点的向量表示;最后,同一个起始节点的不同长度的元路径实例有多条,起始节点向量表示来自于每一条元路径,将所有元路径的聚合起来就得到最后的起始节点的向量表示;
步骤六、聚合邻居节点嵌入:同一个起始节点有多条元路径,考虑邻居节点的权重,一层层聚合邻居节点嵌入,得到一条元路径的起始节点的嵌入,得到每一条元路径的起始节点嵌入后,再聚合所有起始节点嵌入得到这一起始节点的最终嵌入。具体来说,同样长度的同一个起始节点的元路径实例有多条,每一条都得到一个起始节点的向量表示,聚合所有来自不同元路径实例的同一个起始节点嵌入,得到这种长度的元路径的一个起始节点嵌入,最后将不同长度元路径得到的起始节点嵌入再聚合,就得到最终这一起始节点的嵌入;
步骤七:计算基于元路径的特征值:基于元路径的异构信息网络拓扑特征,主要提取网络中的结构特征信息;
步骤八:构建链路预测模型,计算链接概率:预测节点x,y之间可能链接的概率公式如下:
Figure BDA0002212894740000031
其中,Zx,Zy是通过聚合获得的起始节点x,y的最终嵌入,Hxy是包含四种基于元路径的异构信息网络拓扑特征的元路径综合特征值,f(·)是只有一个输出的MLP层,sigmoid(·)是sigmoid层神经网络的激活函数,将变量映射到 0-1之间,
Figure BDA0002212894740000032
是嵌入连接操作;
将节点x的最终嵌入,节点y的最终嵌入和节点间元路径网络拓扑综合特征值的嵌入连接起来融合;最后,将融合嵌入输入到MLP神经网络中获得预测分数
Figure BDA0002212894740000033
步骤九、预测分数
Figure BDA0002212894740000041
范围在0-1之间,越高则越有可能连接,则通过分数值大小准确地为用户提供出感兴趣的内容。
优选地,步骤四具体为:对于每种类型的节点设定特定类型转换矩阵,以将不同类型的节点映射到相同的特征空间中。
优选地,转换矩阵设计的过程如下:根据异构网络中节点one-hot编码后给出的初始嵌入表示hi,不同类型的节点其向量表示hi维度不同,为了使不同维度的向量表示变为相同维度的,设定特定类型的转换矩阵
Figure BDA0002212894740000042
以将不同类型的节点的特征映射到相同的特征空间中、one-hot编码后给出的初始特征向量表示hi中最大维度为转换矩阵
Figure BDA0002212894740000043
的最大维度、设定one-hot编码后给出的初始特征向量表示hi中维度数最大的向量的维度为各类型节点转换后节点投影特征向量表示hi′的维度,即各类型节点维度统一到最大维度数上,统一维度、方便后续计算并处理任意类型的节点,经转换矩阵
Figure BDA0002212894740000044
转换后得到维度统一的投影特征hi′,hi′的公式如下:
Figure BDA0002212894740000045
优选地,步骤五具体为:节点对之间的权重系数αxy的计算公式如下:
Figure BDA0002212894740000046
其中dx和dy分别是节点x和y的度数,权重系数αxy的大小范围在0到1 之间。
优选地,步骤六的具体过程为:对于长度为2的元路径公式如下:
Figure BDA0002212894740000047
其中g(·)是聚合函数,采用平均函数,φl=2是长度为2的元路径实例,
Figure BDA0002212894740000048
是起始节点x的嵌入,
Figure BDA0002212894740000049
是以x节点开头的长度为2的元路径实例上的节点,hy′是一阶相邻邻居节点的投影特征表示,αxy是x和y之间的权重;
对于长度为3的元路径公式如下:
Figure BDA00022128947400000410
Figure BDA00022128947400000411
其中,
Figure BDA0002212894740000059
是二阶邻居节点的投影特征表示,
Figure BDA0002212894740000051
是由带权重的二阶邻居节点嵌入聚合得到的一阶邻居节点嵌入,再由一阶邻居节点嵌入聚合得到起始节点x的嵌入;
对于长度为4的元路径公式如下:
Figure BDA0002212894740000052
Figure BDA0002212894740000053
Figure BDA0002212894740000054
其中,
Figure BDA00022128947400000510
是三阶邻居节点的投影特征表示,
Figure BDA0002212894740000055
是由三阶邻居节点嵌入聚合得到的二阶邻居节点嵌入,
Figure BDA0002212894740000056
是由二阶邻居节点嵌入聚合得到的一阶邻居节点嵌入,再由一阶邻居节点嵌入聚合得到起始节点x的嵌入;
起始节点由不同长度得到的起始节点嵌入聚合得到,最终嵌入公式如下:
Figure BDA0002212894740000057
优选地,步骤七的具体过程如下:元路径综合拓扑特征包含四种, PCR(ai,aj)是元路径路径计数,是给定元路径后节点对象ai,aj之间元路径实例数目,R-1代表R的反向关系,R代表一条元路径的关系,如R关系表示为 User-Movie-Director,则R-1关系表示为Director-Movie-User,PCR(ai,·) 表示R关系中从起点ai出发的所有路径,PCR(·,aj)表示R关系中以aj为终点的所有路径,
Figure BDA00022128947400000511
是元路径的反向关系R-1引导下,对象ai,aj之间元路径实例数目;
NPCR(ai,aj)是标准路径计数,即通过网络的整体连通性来计算的两个对象之间的路径数,公式如下:
Figure BDA0002212894740000058
标准化路径计数通过网络的整体连通性来计算两个对象之间的路径数,R 是元路径定义的对象间的关系,即元路径的关系表达;
RWR(ai,aj)随机游走是对于对象ai,在以ai开始的所有R关系的路径中,以aj为终点的路径所占比例,公式如下:
Figure BDA0002212894740000061
SRWR(ai,aj)对称随机游走是两个对象之间两个方向随机游走的和,公式如下:
Figure BDA0002212894740000063
则包含四种特征的元路径综合特征值为:
HR(ai,aj)=(PCR(ai,ai),NPCR(ai,aj),RWR(ai,aj),SRWR(ai,aj))
其中,HR(ai,aj)是元路径综合特征值。
优选地,步骤八中链路预测MLP模型使用监督学习,神经网络由一个输入层,一个隐藏层和一个输出层组成,具体构建方法如下:输入层将融合嵌入作为神经网络的输入,包含待预测节点对嵌入和节点对间的元路径网络拓扑综合特征值的嵌入;
使用监督学习,神经网络由一个输入层、一个隐藏层和一个输出层组成;神经网络使用反向传播,随机梯度下降法迭代,每次选择200batch size为训练样本训练网络,计算出实际输出Y,将实际输出Y与期望值进行比较,并将期望值和实际输出结果Y之间的差值称为误差D,使用误差D来表示损失函数 loss,并根据误差通过优化方法更新神经网络的链路权重以最小化损失函数 loss,对每个批次重复上述过程,直到对整个样本集来说,损失函数最小,最终得到算法模型;
输出层,输出待预测节点对连接可能的预测分数
Figure BDA0002212894740000062
本发明公开了以下技术效果:先构建异构网络数据集,为保留异构网络中丰富且复杂的语义,以及为了方便表达出不同类型的节点和链接关系,本方法采用基于元路径的方法来实现。当元路径长度大于5后影响变得非常小,因此选取长度小于5的元路径;将元路径分为长度为2、3、4三类,并从网络中找到元路径实例。而网络中各个节点的影响力不同,本方法学习元路径上邻居节点的权重,构建权重系数,在元路径引导的基础上,通过元路径找到待预测对象节点的一阶邻居、二阶邻居、三阶邻居,一步步将邻居节点的表示结合权重聚合起来,推出元路径的起始节点嵌入,即待预测对象的最终向量表示。异构网络数据集有大量公开数据集容易获取,预处理过程使用元路径简化网络简单有效,结合邻居信息表达节点,并融合网络拓扑特征,最后利用神经网络输出预测分数结果,算法效率和准确度都相对较高,可以有效应用于社会网络中的用户推荐系统。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图;
图2为本发明步骤八建立的异构网络链路预测模型结构图;
图3为本发明的构建异构网络方式的流程图;
图4为本发明的输入的网络节点数列转换为邻接矩阵过程示意图;
图5为本发明具体实施方式中构建的简单网络实例示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提供一种基于元路径的异构网络链路预测的方法,具体包括如下步骤:
步骤一、构建异构网络
从现实中构建异构网络数据集或者直接使用公开数据集(如以电影数据分析(MovieLens)为例下载地址为:
https://grouplens.org/datasets/movielens/。此数据集发布于2015年 4月,包含五类节点数据,分别为用户(User)、年龄(Age)、职业(Occupation)、电影(Movie)、类型(Genre)。本方法借用此数据来计算和预测链路链接;构建异构网络具体方法为:将同一类节点排成一列,有几种类型的节点就排几列,在节点列与节点列之间实现连边,构建出异构网络G=(V,E),,在异构网络中,不同类型节点间组建成一条元路径P,
Figure BDA0002212894740000081
定义为元路径,其中Vi∈V,i∈{1,2,…,k},Ri∈R,i∈{1,2,…,k-1},R是节点间关系的集合, 即R=(R1,R2,…,Rk-1);从异构网络中提取出包含不同关系类型的元路径,所述元路径将异构网络的多种类型的节点和边建立起联系,表达出节点的网络拓扑结构特征。
步骤二:从网络中提取元路径
以一个简单网络为例,网络中包含三类节点,分别为用户、电影、电影类型,用户有U1和U2两个节点,电影有M1、M2和M3三个节点,电影类型有G1和 G2,U1和M1、M2有连边,U2和M3有连边,M1和G1、G2有连边,M2和G1有连边, M3和G2有连边。如预测的对象为用户U1和电影M3之间是否存在未知链接,即为用户推荐电影。以用户为起始节点选取元路径,有U-M、U-M-G,则在网络中以用户U1为起始节点的元路径实例为U1-M1、U1-M2、U1-M1-G1、U1-M1-G2、 U1-M2-G1。再以电影为起始节点选取元路径,有M-G、M-U、M-U-M、M-G-M,则在网络中以电影M3为起始节点的元路径实例为M3-U2、M3-G2、M3-U2-M1、 M3-G2-M1。以此为例,在更加复杂的网络中,可以提取更长的元路径;简单网络图如图5所示。
步骤三:元路径处理
获取以用户U1为起始节点的长度分别为2、3的所有元路径,再获取以电影 M3为起始节点的长度分别为2、3的所有元路径(构建的简单网络中获取的最长元路径实例长度为3,在复杂网络中可以提取更长的元路径,仅以此简单网络为例);长度为2的所有元路径实例可以提取用户U1和电影M3的一阶邻居,长度为3的所有元路径实例可以提取用户U1和电影M3的二阶及一阶邻居;
步骤四:统一节点特征空间
由于异构网络中节点类型多样,不同类型的节点具有不同的特征空间。因此,对于这三类节点用户(User)、电影(Movie)、类型(Genre),使用one-hot 编码给出各节点初始特征向量表示hi,再用特定类型的转换矩阵
Figure BDA0002212894740000091
转换到统一维度,转换矩阵
Figure BDA0002212894740000092
实例如下所示,此处特定转换矩阵是设计过程如下:根据异构网络中节点one-hot编码后给出的初始特征向量表示,不同类型的节点其向量表示维度不同,为了使不同维度的向量表示变为相同维度的,设计 one-hot编码后给出的初始特征向量表示hi中最大维度为转换矩阵
Figure BDA0002212894740000093
的最大维度,设定one-hot编码后给出的初始特征向量表示hi中维度数最大的向量的维度为各类型节点转换后节点投影特征向量表示hi′的维度,即各类型节点维度统一到最大维度数上,统一维度可以方便后续计算并处理任意类型的节点,经转换矩阵转换后得到维度统一的投影特征hi′。在本实例中,one-hot编码后,用户节点U1和U2初始特征向量表示为
Figure BDA0002212894740000094
电影节点M1、M2和M3初始特征向量表示为
Figure BDA0002212894740000095
电影类型节点 G1和G2初始特征向量表示为
Figure BDA0002212894740000096
为了使它们映射到相同的特征空间中,电影节点初始特征向量表示Mi为1×3的矩阵维度最高,则设定
Figure BDA0002212894740000097
的最大维度为3,Ui为1×2矩阵,要变为一个1×3的矩阵,需要乘一个 2×3的矩阵
Figure BDA0002212894740000098
Mi为1×3矩阵,一个1×3的矩阵为了维持1×3,需要乘一个3×3的矩阵
Figure BDA0002212894740000099
Gi为1×2矩阵,要变为一个1×3的矩阵,需要乘一个 2×3的矩阵
Figure BDA00022128947400000910
并且在维度统一后,为了区分它们的类型不同,为
Figure BDA00022128947400000911
设定不同的数值,如下所示,至此将不同类型的节点的特征映射到统一的特征空间中,得到相同维度的投影特征hi′,公式如下:
Figure BDA00022128947400000912
Figure BDA00022128947400000913
Figure BDA0002212894740000101
Figure BDA0002212894740000102
步骤五:计算节点权重
网络中节点重要性不同,如电影数据分析网络,度数大的电影节点对用户吸引力更大,用户更可能去观看。每两个节点之间的权重公式如下:
Figure BDA0002212894740000103
其中,dx和dy分别是节点用户x和电影y的度数,权重αxy的大小范围在 0到1之间。
以用户U1为起始节点的元路径实例为U1-M1、U1-M2、U1-M1-G1、 U1-M1-G2、U1-M2-G1,以电影M3为起始节点的元路径实例为M3-U2、M3-G2、 M3-U2-M1、M3-G2-M1
Figure BDA0002212894740000104
Figure BDA0002212894740000105
Figure BDA0002212894740000106
Figure BDA0002212894740000107
Figure BDA0002212894740000108
Figure BDA0002212894740000109
Figure BDA0002212894740000111
Figure BDA0002212894740000112
Figure BDA0002212894740000113
步骤六:聚合邻居节点嵌入
上一步计算了节点对之间的权重系数,则计算U1、M3嵌入如下:
Figure BDA0002212894740000114
Figure BDA0002212894740000115
最后得到U1、M3在元路径引导下的嵌入,以此为例,可以得到网络中任意一个节点在元路径引导下的嵌入。
步骤七:计算基于元路径的特征值
ai,aj分别为用户U1和电影M3节点,提取用户和电影节点对象间网络拓扑结构信息,其包含用户和电影对象U1,M3四种基于元路径的异构信息网络拓扑特征,主要提取网络中两类节点间的结构特征信息。其中PCR(U1,M3)路径计数是给在定元路径后,用户和电影对象U1,M3之间元路径实例数目, NPCR(U1,M3)是标准路径计数,公式如下,现观察U1到M3的路径,给定元路径 R为U-M-U-M,R-1为M-U-M-U:
PCR(U1,M3)=1 (14)
PCR(U1,·)=2 (15)
PCR(·,M3)=1 (16)
Figure BDA0002212894740000128
Figure BDA0002212894740000121
标准化路径计数通过网络的整体连通性来减少网络中两个对象之间的路径数。R是元路径定义的对象间的关系,其中R-1是与R相反的关系,PCR(U1,·) 是从用户U1节点开始的R关系的路径计数,同理PCR(·,M3)是电影M3节点结束的R关系的路径计数。
RWR(U1,M3)随机游走是对于对象用户ai,在以它开始的所有R关系的路径中,以电影aj为终点的路径所占比例,公式如下:
Figure BDA0002212894740000122
SRWR(U1,M3)对称随机游走是用户U1和电影M3两个节点对象之间两个方向随机游走的和,公式如下:
SRWR(U1,M3)=RWR(U1,M3)+RWR-1(U1,M3)=1 (20)
则U1,M3的综合网络拓扑特征值表示为 MR(U1,M3)=(1,0.67,0.5,1)。
步骤八:构建链路预测模型,计算链接概率
预测节点U1,M3之间可能链接的概率公式如下:
Figure BDA0002212894740000123
Figure BDA0002212894740000127
是获得的U1,M3的融合嵌入,
Figure BDA0002212894740000126
是包含四种基于元路径的异构网络拓扑特征的元路径综合特征值,其中f(·)是只有一个输出的MLP层, sigmoid(·)是sigmoid层,将变量映射到0-1之间,
Figure BDA0002212894740000124
是嵌入连接操作。将节点 U1的最终嵌入,节点M3的最终嵌入和他们的元路径网络拓扑综合特征值的嵌入连接起来融合它们。最后,将融合嵌入输入到MLP层中获得预测分数
Figure BDA0002212894740000125
链路预测MLP模型使用监督学习,神经网络由一个输入层,一个隐藏层和一个输出层组成,构建具体方法如下:
(1)输入层,输入层将融合嵌入(包含待预测的用户节点和电影节点的嵌入和它们基于元路径的网络拓扑综合特征值的嵌入)作为神经网络的输入;
(2)神经网络由一个输入层,一个隐藏层和一个输出层组成。神经网络使用反向传播,随机梯度下降法迭代500次,每次选择batch size为200个训练样本训练网络,计算出实际输出Y,将实际输出Y与期望值进行比较,并将期望值和实际输出结果Y之间的差值称为误差D,使用误差D来表示损失函数loss,并根据误差通过优化方法更新神经网络的链路权重以最小化损失函数loss,对每个批次重复上述过程,直到对整个样本集来说,损失函数最小,最终得到算法模型;实验表示在模型迭代500次左右基本收敛,较之传统机器学习算法有很大提升;
(3)输出层,输出待预测节点对连接可能的预测分数
Figure BDA0002212894740000131
将节点U1,M3融合最终嵌入和它们的网络拓扑特征值的嵌入连接起来融合它们,输入神经网络得出预测分数
Figure BDA0002212894740000132
的公式如下:
Figure BDA0002212894740000133
Figure BDA0002212894740000134
Figure BDA0002212894740000135
预测分数
Figure BDA0002212894740000136
为0.304,所以用户U1和电影M3可能连接的预测分数为 0.304。预测分数范围在0-1之间,越高则越有可能连接,本发明中设置阈值为0.5,大于0.5表示会有连接,小于0.5表示没有连接的可能。0.304在0-1 之间小于0.5,因此认为用户U1和电影M3未来没有产生连接的可能,即在推荐系统,则无需为用户U1推荐电影M3
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (7)

1.一种基于元路径的异构网络链路预测的方法,其特征在于,包括如下步骤:
步骤一、确定是否为异构网络,所述异构网络为:如果一个网络中节点对象的类型|A|>1或关系类型|R|>1,根据节点类型连接而成不同关系类型,不同的关系类型加节点组建成的即为异构网络,所述节点类型为不同类型的节点,所述关系类型为不同类型的边;
构建异构网络具体方法为:将同一类节点排成一列,有几种类型的节点就排几列,在节点列与节点列之间实现连边,构建出异构网络G=(V,E),在异构网络中,不同类型节点间组建成一条元路径Pi
Figure FDA0003589316430000011
定义为元路径,其中Vi∈V,i∈{1,2,…,k},Ri∈R,i∈{1,2,…,k-1},R是节点间关系的集合,即R=(R1,R2,…,Rk-1);从异构网络中提取出包含不同关系类型的元路径,所述元路径将异构网络的多种类型的节点和边建立起联系,表达出节点的网络拓扑结构特征;
步骤二、从网络中提取元路径:元路径有不同长度,一条元路径包含几个节点即长度为几,利用栈这种数据结构,枚举生成所有路径长度小于5的元路径;
具体方法为:输入异构网络的节点数列V=(v1,v2,…,vn)和邻接矩阵A,设定合理的元路径长度为限制条件,给定起始节点类型,初始化栈,在栈里存放元路径,若两个类型节点之间存在连边,将后者压入栈,不断向里压入合理节点,最长到元路径长度l<5,即每条元路径包含不超过四个节点对象时结束,栈满时将站内节点元素组成的元路径添加到元路径集合P中,最后输出给定起始节点的所有的元路径集合P,则,给定两类起始节点,两次栈运算输出每一类起始节点引导的所有的元路径集合P=(P1,P2,…,Pn),生成的元路径是在有效长度范围内所有的元路径,即理论上合理的元路径;
步骤三、元路径处理:对获取到的元路径做进一步处理,将获取到的长度小于5的元路径按长度分类,分为长度为2、3、4的三类元路径;然后从真实网络G=(V,E)中获取符合元路径的网络元路径实例I=(I1,I2,…,In);一类元路径包含多个元路径实例,一个网络的元路径实例包含这个网络的语义信息;起始节点类型已给定,对于长度为2的所有元路径实例,提取起始节点的一阶邻居;对于长度为3的所有元路径实例,提取起始节点的二阶及以下邻居;对于长度为4的所有元路径实例,提取起始节点的三阶及以下邻居;
步骤四、统一节点特征空间:对于网络中的所有节点做嵌入,向向量转换,从语义空间到向量空间做映射,同时在向量空间保持原样本在语义空间的关系;
步骤五、计算节点权重:针对不同长度的元路径计算路径上邻居节点的权重,判断邻居节点对起始节点的影响力,用节点度数计算出权重α,邻居节点的向量表示乘对应的权重α,元路径上所有邻居节点表示再聚合起来成为这条元路径起始节点的向量表示;最后,同一个起始节点的不同长度的元路径实例有多条,起始节点向量表示来自于每一条元路径,将所有元路径的聚合起来就得到最后的起始节点的向量表示;
步骤六、聚合邻居节点嵌入:同一个起始节点有多条元路径,考虑邻居节点的权重,一层层聚合邻居节点嵌入,得到一条元路径的起始节点的嵌入,得到每一条元路径的起始节点嵌入后,再聚合所有起始节点嵌入,得到这一起始节点的最终嵌入;具体来说,同样长度的同一个起始节点的元路径实例有多条,每一条都得到一个起始节点的向量表示,聚合所有来自不同元路径实例的同一个起始节点嵌入,得到这种长度的元路径的一个起始节点嵌入,最后将不同长度元路径得到的起始节点嵌入再聚合,就得到最终这一起始节点的嵌入;
步骤七:计算基于元路径的特征值:基于元路径的异构信息网络拓扑特征,主要提取网络中的结构特征信息;
步骤八:构建链路预测模型,计算链接概率:预测节点x,y之间可能链接的概率公式如下:
Figure FDA0003589316430000031
其中,Zx,Zy是通过聚合获得的起始节点x,y的最终嵌入,Hxy是包含四种基于元路径的异构网络拓扑特征的元路径综合特征值,f(·)是只有一个输出的MLP层,sigmoid(·)是sigmoid层神经网络的激活函数,将变量映射到0-1之间,
Figure FDA0003589316430000032
是嵌入连接操作;
将节点x的最终嵌入,节点y的最终嵌入和节点间元路径网络拓扑特征值的嵌入连接起来融合;最后,将融合嵌入输入到MLP神经网络中获得预测分数
Figure FDA0003589316430000033
步骤九、预测分数
Figure FDA0003589316430000034
范围在0-1之间,越高则越有可能连接,则通过分数值大小准确地为用户提供出感兴趣的内容。
2.根据权利要求1所述的基于元路径的异构网络链路预测的方法,其特征在于:步骤四具体为:对于每种类型的节点设定特定类型转换矩阵,以将不同类型的节点映射到相同的特征空间中。
3.根据权利要求2所述的基于元路径的异构网络链路预测的方法,其特征在于:转换矩阵设计的过程如下:根据异构网络中节点one-hot编码后给出的初始嵌入表示hi,不同类型的节点one-hot编码后给出的初始嵌入表示hi维度不同,为了使不同维度的向量表示,变为相同维度,设定特定类型的转换矩阵
Figure FDA0003589316430000041
以将不同类型的节点的特征映射到相同的特征空间中、one-hot编码后给出的初始嵌入表示hi中最大维度为转换矩阵
Figure FDA0003589316430000042
的最大维度、one-hot编码后给出的初始嵌入表示hi中维度数最大的向量的维度为各类型节点经转换矩阵
Figure FDA0003589316430000043
转换后得到维度统一的投影特征表示hi'的维度,即各类型节点维度统一到最大维度数上,统一维度方便后续计算并处理任意类型的节点,经转换矩阵
Figure FDA0003589316430000044
转换后得到维度统一的投影特征表示hi',hi'的公式如下:
Figure FDA0003589316430000045
4.根据权利要求1所述的基于元路径的异构网络链路预测的方法,其特征在于:步骤五具体为:节点对之间的权重系数αxy的计算公式如下:
Figure FDA0003589316430000046
其中dx和dy分别是节点x和y的度数,权重系数αxy的大小范围在0到1之间。
5.根据权利要求1所述的基于元路径的异构网络链路预测的方法,其特征在于:步骤六的具体过程为:对于长度为2的元路径公式如下:
Figure FDA0003589316430000051
其中g(·)是聚合函数,采用平均函数,φl=2是长度为2的元路径实例,
Figure FDA0003589316430000052
是起始节点x的嵌入,
Figure FDA0003589316430000053
是以x节点开头的长度为2的元路径实例上的节点,hy′是一阶相邻邻居节点的投影特征表示,αxy是x和y之间的权重;
对于长度为3的元路径公式如下:
Figure FDA0003589316430000054
Figure FDA0003589316430000055
其中,
Figure FDA00035893164300000513
是二阶邻居节点的投影特征表示,
Figure FDA0003589316430000056
是由带权重的二阶邻居节点嵌入聚合得到的一阶邻居节点嵌入,再由一阶邻居节点嵌入聚合得到起始节点x的嵌入;
对于长度为4的元路径公式如下:
Figure FDA0003589316430000057
Figure FDA0003589316430000058
Figure FDA0003589316430000059
其中,
Figure FDA00035893164300000510
是三阶邻居节点的投影特征表示,
Figure FDA00035893164300000511
是由三阶邻居节点嵌入聚合得到的二阶邻居节点嵌入,
Figure FDA00035893164300000512
是由二阶邻居节点嵌入聚合得到的一阶邻居节点嵌入,再由一阶邻居节点嵌入聚合得到起始节点x的嵌入;
起始节点最终嵌入由不同长度得到的起始节点嵌入聚合得到,公式如下:
Figure FDA0003589316430000061
6.根据权利要求1所述的基于元路径的异构网络链路预测的方法,其特征在于:步骤七的具体过程如下:元路径综合拓扑特征包含四种,PCR(ai,aj)是元路径路径计数,是给定元路径后节点对象ai,aj之间元路径实例数目,R-1代表R的反向关系,R代表一条元路径的关系,R关系表示为User-Movie-Director,则R-1关系表示为Director-Movie-User,PCR(ai,·)表示R关系中从起点ai出发的所有路径计数,PCR(·,aj)表示R关系中以aj为终点的所有路径计数,PCR-1(ai,aj)是元路径的反向关系R-1引导下,对象ai,aj之间元路径实例数目;
NPCR(ai,aj)是标准路径计数,即通过网络的整体连通性来计算的两个对象之间的路径数,公式如下:
Figure FDA0003589316430000062
标准化路径计数通过网络的整体连通性来计算两个对象之间的路径数,R是元路径定义的对象间的关系,即元路径的关系表达;
RWR(ai,aj)随机游走是对于对象ai,在以ai开始的所有R关系的路径中,以aj为终点的路径所占比例,公式如下:
Figure FDA0003589316430000063
SRWR(ai,aj)对称随机游走是两个对象之间两个方向随机游走的和,公式如下:
Figure FDA0003589316430000064
则包含四种特征的元路径综合特征值为:
HR(ai,aj)=(PCR(ai,aj),NPCR(ai,aj),RWR(ai,aj),SRWR(ai,aj))
其中,HR(ai,aj)是元路径综合特征值。
7.根据权利要求1所述的基于元路径的异构网络链路预测的方法,其特征在于:步骤八中链路预测MLP模型使用监督学习,神经网络由一个输入层,一个隐藏层和一个输出层组成,具体构建方法如下:输入层将融合嵌入作为神经网络的输入,包含待预测节点对嵌入和节点对间的元路径网络拓扑综合d特征值的嵌入;
使用监督学习,神经网络由一个输入层、一个隐藏层和一个输出层组成;神经网络使用反向传播,随机梯度下降法迭代,每次选择200batch size为训练样本训练网络,计算出实际输出Y,将实际输出Y与期望值进行比较,并将期望值和实际输出结果Y之间的差值称为误差D,使用误差D来表示损失函数loss,并根据误差通过优化方法更新神经网络的链路权重以最小化损失函数loss,对每个批次重复上述过程,直到对整个样本集来说,损失函数最小,最终得到算法模型;
输出层,输出待预测节点对连接可能的预测分数
Figure FDA0003589316430000071
CN201910904558.5A 2019-09-24 2019-09-24 一种基于元路径的异构网络链路预测的方法 Active CN110677284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910904558.5A CN110677284B (zh) 2019-09-24 2019-09-24 一种基于元路径的异构网络链路预测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910904558.5A CN110677284B (zh) 2019-09-24 2019-09-24 一种基于元路径的异构网络链路预测的方法

Publications (2)

Publication Number Publication Date
CN110677284A CN110677284A (zh) 2020-01-10
CN110677284B true CN110677284B (zh) 2022-06-17

Family

ID=69077359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910904558.5A Active CN110677284B (zh) 2019-09-24 2019-09-24 一种基于元路径的异构网络链路预测的方法

Country Status (1)

Country Link
CN (1) CN110677284B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325258B (zh) * 2020-02-14 2023-10-24 腾讯科技(深圳)有限公司 特征信息获取方法、装置、设备及存储介质
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法
CN111368074B (zh) * 2020-02-24 2022-06-10 西安电子科技大学 一种基于网络结构和文本信息的链路预测方法
CN111400560A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和系统
CN112364245B (zh) * 2020-11-20 2021-12-21 浙江工业大学 基于异构信息网络嵌入的Top-K电影推荐方法
CN112887143B (zh) * 2021-01-27 2023-03-24 武汉理工大学 一种基于元搜索的仿生控制方法
CN113297500B (zh) * 2021-06-23 2023-07-25 哈尔滨工程大学 一种社交网络孤立节点链接预测方法
CN113762334B (zh) * 2021-07-26 2022-03-01 南昌航空大学 一种采用深度强化学习评估异质社交网络关键节点的方法
CN116383446A (zh) * 2023-04-06 2023-07-04 哈尔滨工程大学 一种基于异构引文网络的作者分类方法
CN117151279A (zh) * 2023-08-15 2023-12-01 哈尔滨工业大学 一种基于线图神经网络的同构网络链路预测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778894A (zh) * 2016-12-29 2017-05-31 大连理工大学 一种学术异构信息网络中作者合作关系预测的方法
CN107145527A (zh) * 2017-04-14 2017-09-08 东南大学 对齐异构社交网络中基于元路径的链路预测方法
CN109522954A (zh) * 2018-11-14 2019-03-26 南京邮电大学 异构信息网络链接预测装置
CN109543114A (zh) * 2018-11-14 2019-03-29 南京邮电大学 异构信息网络链接预测方法、可读存储介质和终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778894A (zh) * 2016-12-29 2017-05-31 大连理工大学 一种学术异构信息网络中作者合作关系预测的方法
CN107145527A (zh) * 2017-04-14 2017-09-08 东南大学 对齐异构社交网络中基于元路径的链路预测方法
CN109522954A (zh) * 2018-11-14 2019-03-26 南京邮电大学 异构信息网络链接预测装置
CN109543114A (zh) * 2018-11-14 2019-03-29 南京邮电大学 异构信息网络链接预测方法、可读存储介质和终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
引入一种基于元路径的链路预测机制的好友推荐算法;杨家红 等;《小型微型计算机系统》;20170523;全文 *

Also Published As

Publication number Publication date
CN110677284A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110677284B (zh) 一种基于元路径的异构网络链路预测的方法
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN111325326A (zh) 一种基于异质网络表示学习的链路预测方法
CN110413704B (zh) 基于加权邻居信息编码的实体对齐方法
CN112559764A (zh) 一种基于领域知识图谱的内容推荐方法
CN113254716B (zh) 视频片段检索方法、装置、电子设备和可读存储介质
CN116340646A (zh) 一种基于超图基序优化多元用户表示的推荐方法
CN112667920A (zh) 基于文本感知的社交影响力预测方法、装置及设备
CN112784118A (zh) 一种对三角形结构敏感的图中的社区发现方法和装置
CN114254093A (zh) 多空间知识增强的知识图谱问答方法及系统
CN115270007A (zh) 一种基于混合图神经网络的poi推荐方法及系统
CN113849725B (zh) 一种基于图注意力对抗网络的社会化推荐方法及系统
CN114528971A (zh) 一种基于异质图神经网络的图谱频繁关系模式挖掘方法
Zhang et al. End‐to‐end generation of structural topology for complex architectural layouts with graph neural networks
CN112529057A (zh) 一种基于图卷积网络的图相似性计算方法及装置
CN116932923A (zh) 一种结合行为特征与三角协作度量的项目推荐方法
CN116821519A (zh) 一种基于图结构的系统过滤和降噪的智能推荐方法
CN115544307A (zh) 基于关联矩阵的有向图数据特征提取与表达方法和系统
CN114863119A (zh) 基于三重视图神经网络的多样化社区检测方法
CN109639469A (zh) 一种联合学习稀疏属性网络表征方法及系统
CN113065321B (zh) 基于lstm模型和超图的用户行为预测方法及系统
CN112148998B (zh) 一种基于多核图卷积网络的在线社交平台用户好友推荐方法
Manoju et al. Conductivity based agglomerative spectral clustering for community detection
WO2016187898A1 (zh) 代谢物ms/ms质谱计算机仿真方法
CN114037008A (zh) 基于属性连边的多粒度属性网络嵌入的节点分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant