CN113051440A

CN113051440A - 一种基于超图结构的链路预测方法及系统

Info

Publication number: CN113051440A
Application number: CN202110389061.1A
Authority: CN
Inventors: 龙水彬; 李荣华; 秦宏超; 王国仁
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-06-29

Abstract

本发明涉及一种基于超图结构的链路预测方法，所述预测方法包括如下步骤：获取待预测网络的原始超图；将所述原始超图转换为二分图；基于变分自编码器预测所述二分图中的节点间存在边的概率，构建类邻接矩阵；基于所述类邻接矩阵还原出包含链路预测结果的预测超图。本发明根据超图和二分图的一一对应关系，首先将超图转换为二分图，然后基于变分自编码器预测所述二分图中的链路，最后将该预测结果还原至超图上，该方式在无需将超图转化成一边只关联两个节点的普通图的基础上，实现了对超图中的链路的预测，进而实现了具有时序超图结构的社交网络中的链路预测。

Description

一种基于超图结构的链路预测方法及系统

技术领域

本发明涉及网络结构分析技术领域，特别是涉及一种基于超图结构的链路预测方法及系统。

背景技术

构建社交网络知识图谱，需要从在线社交网络中收集海量的用户数据(用户属性、兴趣、社交和行为数据等)从多维度画像描述用户实体。用户属性和用户兴趣是通常用户画像中包含的两个维度。前者刻画用户的静态属性特征，例如用户的身份信息(性别、年龄、受教育程度、学校、工作单位……)，后者则用于刻画用户在信息筛选方面的倾向(例如用户的兴趣标签、能力标签等)。社交维度是从社交关系及信息传播的角度来刻画用户的。在社交媒体中，用户不再仅仅是一个个体，用户以及用户之间的社交关系构成了一张网络，信息在这张网络中高速流动，但是这种流动并不是无差别的，信息的起始点，所经历的关键节点以及这些节点构成的关系圈都是影响信息流动的重要因素。社交维度就是要量化这些因素以及其影响程度。行为维度是一个比较新的研究方向，目的是发现影响用户属性、信息变化的行为因素，分析典型用户群体的行为模式。一方面可以通过行为模式的复用来促进用户在社交平台的成长；另一方面也有利于平台认识用户，和发现新的或异常的用户行为。接着针对不同用户实体构建各自的属性和实体间的关系。

传统的链路预测算法包括基于相似性的链路预测和基于似然分析的链路预测。基于相似性的链路预测指标包括共同邻居的相似性指标和基于路径的相似性指标。基于共同邻居的相似性指标，即两个节点如果有很多共同的邻居节点则倾向于连边。基于路径的相似性指标包括局部路径指标、Katz指标和LHN-II指标，局部路径指标考虑图的邻接矩阵A，使用Sⁿ＝A²+α·A³+α³·A⁴+…+α^n-2·Aⁿ刻画图的局部路径相似度指标，其中α是可调参数，而Katz指标在考虑节点u,v之间相似性时，使用

其中α是可调参数，而LHN-II指标则基于一般等价定义下的相似，考虑关系图中两个节点是否处于同样的角色，即使它们没有相同的邻居节点，但因为各邻居节点间本身相似而使这两个节点也相似，即S_u，v＝φ∑_wA_u，wS_w,v+φδ_u,v，其中第一项表示节点u的邻居节点w对相似度的贡献，第二项表示节点u和v本身的相似性。基于似然分析的链路预测考虑的是网络的层次模型，假设真实的网络都存在某种层次性，网络的连接则可看作是这种内在层次结构的反映。一个N个节点的网络可以用一个包含N个叶子节点的族谱树表示，这N个叶子节点将由N-1个非叶子节点连接起来，其中每个非叶子节点都有一个概率值，则两个叶子节点连接的概率就等于他们最近共同祖先节点的概率值。给定一个族谱树，将网络的似然值最大化，就可以得到非叶子节点的概率值，并由此计算出这一个族谱树所对应的网络最大的似然值。在族谱树中计算原图未连边节点中节点间的连边概率平均值，其中似然概率大的点对即为预测的新边。

基于已经构建的社交网络知识图谱来以预测社交网络图中节点的链路关系，而过去的链路预测只在普通图上进行，没有拓展到超图这一高维数据结构上，因此只能基于超图本身的特征将其中超边所关联节点更换为两两相连，即使用普通图结构描述超图结构信息，使用机器学习方法进行链路预测工作，然而该方式代价过高且规模量大。

可见，现有的链路预测算法并没有应用在超图这样数据结构中，传统图的边集中一条边只关联两个节点，而在社交网络知识图谱的时序超图中，一条超边可能关联两个或以上的节点，然而现有的链路预测方法无法直接应用于该超图上，且将超图重新拆分成普通图代价过高且规模量大而无法接受。如何实现具有时序超图结构的社交网络中的链路预测成为一个亟待解决的技术问题。

发明内容

本发明的目的是提供一种基于超图结构的链路预测方法及系统，以实现具有时序超图结构的社交网络中的链路预测。

为实现上述目的，本发明提供了如下方案：

本发明提供一种基于超图结构的链路预测方法，所述预测方法包括如下步骤：

获取待预测网络的原始超图；

将所述原始超图转换为二分图；

基于变分自编码器预测所述二分图中的节点间存在边的概率，构建类邻接矩阵；

基于所述类邻接矩阵还原出包含链路预测结果的预测超图。

可选的，所述变分自编码器包括编码器和解码器，所述编码器包括两层图卷集网络，所述解码器包括两层卷积网络。

可选的，所述基于变分自编码器预测所述二分图中的节点间存在边的概率，构建类邻接矩阵，具体包括：

获取所述二分图的图邻接矩阵和图特征矩阵；

将所述图邻接矩阵和所述图特征矩阵输入所述编码器，获得所述二分图中的各个节点在低维特征空间的向量表示，构建二分图的低维向量表示；

将二分图的低维向量表示输入所述解码器，获得二分图中的节点间存在边的概率，构建类邻接矩阵。

可选的，所述变分自编码器的损失函数为：L＝E_q(Z|X,A)[log p(A'|Z)]-KL[q(Z|X,A)||p(Z)]；

其中，L为变分自编码器的损失，E_q(Z|X,A)[log p(A'|Z)]是交叉熵函数,p(A'|Z)为解码器输出的节点间存在边的概率分布，p(A'|Z)＝Π_i∈X'Π_j∈Y'p(A'_ij|z_i,z_j)，A'为类邻接矩阵，Z为编码器输出的二分图的低维向量表示，X'表示二分图左侧的节点集合，Y'表示二分图右侧的节点集合，i和j分别表示二分图中的左侧和右侧的节点，A'_ij表示类邻接矩阵中的第i行第j列的元素，z_i和z_j分别表示节点i和节点j的低维向量表示，KL为二分图中各节点独立正态分布和标准正态分布的KL散度，q(Z|X,A)表示编码器输出的二分图的低维向量表示的概率分布，

A表示图邻接矩阵，N表示二分图中节点的数量，q(z_i|X,A)表示节点i的低维向量表示的概率分布，

μ_i表示节点i的均值，σ_i表示节点i的方差，p(Z)表示二分图的低维向量表示遵循的概率分布，p(Z)＝Π_i N(0,I)，

d为分布中隐变量的维度。

可选的，所述基于所述类邻接矩阵还原出包含链路预测结果的预测超图，具体包括：

基于所述类邻接矩阵构建二分图中的链路预测结果；

基于二分图中的链路预测结果还原出包含链路预测结果的预测超图。

可选的，所述基于所述类邻接矩阵构建二分图中的链路预测结果，具体包括：

清空所述二分图中的所有边，获得只包含节点的二分图；

扫描所述类邻接矩阵，若所述类邻接矩阵中的第i行第j列的元素为1，则在只包含节点的二分图中的节点i和节点j之间连一条边，得到二分图中的链路预测结果。

一种基于超图结构的链路预测系统，所述预测系统包括：

超图获取模块，用于获取待预测网络的原始超图；

二分图转换模块，用于将所述原始超图转换为二分图；

链路预测模块，用于基于变分自编码器预测所述二分图中的节点间存在边的概率，构建类邻接矩阵；

超图还原模块，用于基于所述类邻接矩阵还原出包含链路预测结果的预测超图。

可选的，所述链路预测模块，具体包括：

特征获取子模块，用于获取所述二分图的图邻接矩阵和图特征矩阵；

编码预测子模块，用于将所述图邻接矩阵和所述图特征矩阵输入所述编码器，获得所述二分图中的各个节点在低维特征空间的向量表示，构建二分图的低维向量表示；

解码预测子模块，用于将二分图的低维向量表示输入所述解码器，获得二分图中的节点间存在边的概率，构建类邻接矩阵。

d为分布中隐变量的维度。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种基于超图结构的链路预测方法，所述预测方法包括如下步骤：获取待预测网络的原始超图；将所述原始超图转换为二分图；基于变分自编码器预测所述二分图中的节点间存在边的概率，构建类邻接矩阵；基于所述类邻接矩阵还原出包含链路预测结果的预测超图。本发明根据超图和二分图的一一对应关系，首先将超图转换为二分图，然后基于变分自编码器预测所述二分图中的链路，最后将该预测结果还原至超图上，该方式在无需将超图转化成一边只关联两个节点的普通图的基础上，实现了对超图中的链路的预测，进而实现了具有时序超图结构的社交网络中的链路预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于超图结构的链路预测方法的流程图；

图2为本发明提供的超图转换为二分图的原理图；

图3为本发明提供的变分自编码器的原理图；

图4为本发明提供的变分自编码器的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

对本发明中的技术方案中出现的名词的解释如下：

超图：图论中的一种高维数据结构，由顶点和边组成，超图H用有序二元组(V,E)表示，其中V描述超图中的顶点集合，E描述超图中的边集合，也称为超边，每条超边可关联2个及以上的顶点。

二分图：二分图又称作二部图，是图论中的一种特殊模型。设G＝(V,E)是一个无向图，如果顶点V可分割为两个互不相交的子集(A,B)，并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集i∈A,j∈B，则称图G为一个二分图。

图神经网络：传统的机器学习是基于由规则的欧式数据(1D的序列、2D的图片)进行的，而图神经网络则是在非欧式的图结构上进行，借鉴卷积网络、循环网络和深度自编码器的思想，定义设计了用于处理图数据的神经网络结构。

图邻接矩阵：对于由N个节点组成的图G，它的邻接矩阵A是一个N阶方阵，其中主对角元素均为1，若在图G中节点i和节点j之间存在连边(i,j)则矩阵A中第i行第j个元素A[i,j]＝1，其它元素均为0。

图特征矩阵：对于由N个节点组成的图G，它的特征矩阵X是一个N×F维的矩阵，其中F为特征维度，矩阵中第i行由F个特征表示X_i＝{x₁,x₂,…,x_F}是描述节点i的特征向量，通常为实数。特征矩阵构建并描述整个图网络的特征属性。

编辑距离：描述从一个图结构变化到另一个图结构所需要修改的次数，体现图的差异性。

链路预测：链路预测是通过已知图网络的节点和图网络的结构等信息预测图网络中未产生连边的连个节点之间产生连接的可能性。

如图1所示，本发明提供本发明提供一种基于超图结构的链路预测方法，所述预测方法包括如下步骤：

步骤101，获取待预测网络的原始超图。

步骤102，将所述原始超图转换为二分图。

如图2所示，把超图网络中所有节点看作集合X，把所有超边看作集合Y，某节点属于超边则在相应节点之间连一条边，则每一个超图网络都可以唯一对应一个二分图网络，同理把二分图网络的X集合中的节点看作超图网络中的节点，Y集合中的节点看作超图网络中的超边，也可以有二分图网络唯一得到一个超图网络，而二分图网络中的边只具备二元关系，是一种传统的图结构。

步骤103，基于变分自编码器预测所述二分图中的节点间存在边的概率，构建类邻接矩阵。

如图3所示，变分自编码器(Variational Auto-Encoders)是神经网络中的一种，由编码器和解码器组成。其中编码器通过神经网络，得到原始数据的低维向量表示的分布；接着从低维向量表示的分布中采样得到低维向量表示，并使用解码器这一神经网络还原为原始数据样本，而损失函数用以衡量生成样本和真实样本之间的差异。

如图4所示，所述变分自编码器包括编码器和解码器，所述编码器包括两层图卷集网络，所述解码器包括两层卷积网络。

通过编码器(图卷积网络)输入二分图的图邻接矩阵A和图特征矩阵X，学习节点低维向量表示的均值μ和方差σ，然后用解码器(链路预测)生成新图。

步骤103所述基于变分自编码器预测所述二分图中的节点间存在边的概率，构建类邻接矩阵，具体包括：

获取所述二分图的图邻接矩阵和图特征矩阵。

其中，计算图邻接矩阵A方法为：初始化为N×N的方阵，其中主对角线元素为1，其余元素为0，接着扫描二分图G的边集E，对于每一条边集(u,v)在矩阵A的第u行第v列的元素置为1，最终得到的就是二分图G的图邻接矩阵。二分图的图特征矩阵X是一个N×F维的矩阵，其中F为特征维度，矩阵中第i行由F个特征表示X_i＝{x₁,x₂,…,x_F}是描述节点i的特征向量，通常为实数。图特征矩阵构建并描述整个二分图网络的特征属性。

将所述图邻接矩阵和所述图特征矩阵输入所述编码器，获得所述二分图中的各个节点在低维特征空间的向量表示，构建二分图的低维向量表示。

其中，本发明的编码器是一个简单的两层图卷积网络，输入二分图G的邻接矩阵A和特征矩阵X，输出二分图在低维特征空间的向量表示，即二分图的低维向量表示Z，且

其中

即每个节点i在特征空间中存在各自分布的均值μ_i和方差σ_i，而μ＝GCN_μ(X,A)是二分图G中所有节点向量表示的均值，logσ＝GCN_σ(X,A)是二分图G中所有节点向量表示的方差。

其中，本发明的解码器的两层卷积网络定义为

其中

是对称标准化邻接矩阵，其中D计算出来的使A对称标准化的正定矩阵，而W₀和W₁为学习的权值矩阵。在解码器中计算二分图中X侧节点和Y侧节点存在边的概率来重构新的“超边”，即p(A|Z)＝Π_i∈XΠ_j∈Yp(A_ij|z_i,z_j)，其中

本发明的变分自编码器的损失函数包括生成图和原始图之间的距离度量，以及节点表示向量分布和正态分布的散度，即L＝E_q(Z|X,A)[log p(A|Z)]-KL[q(Z|X,A)||p(Z)]，其中，E_q(Z|X,A)[log p(A|Z)]是交叉熵函数，p(Z)＝Π_i N(0,I)，KL为各节点独立正态分布和标准正态分布的KL散度，它可以约束网络输出的新图

和原图G的分布相似性，即

其中d为分布中隐变量的维度。

具体的，所述变分自编码器的损失函数为：L＝E_q(Z|X,A)[log p(A'|Z)]-KL[q(Z|X,A)||p(Z)]；

d为分布中隐变量的维度。

步骤104，基于所述类邻接矩阵还原出包含链路预测结果的预测超图。

步骤104所述基于所述类邻接矩阵还原出包含链路预测结果的预测超图，具体包括：基于所述类邻接矩阵构建二分图中的链路预测结果；基于二分图中的链路预测结果还原出包含链路预测结果的预测超图。其中，所述基于所述类邻接矩阵构建二分图中的链路预测结果，具体包括：清空所述二分图中的所有边，获得只包含节点的二分图；扫描所述类邻接矩阵，若所述类邻接矩阵中的第i行第j列的元素为1，则在只包含节点的二分图中的节点i和节点j之间连一条边，得到二分图中的链路预测结果。

即，本发明基于解码器的卷积网络计算节点间存在边的概率输出预测的类邻接矩阵A'，基于该类邻接矩阵重新构建出新的二分图网络并还原成新的超图网络，完成超图链路预测工作。其中从邻接矩阵还原图网络的方法如下，对于N阶方阵A对应二分图G中存在N个节点，初始节点间并没有边相连，类邻接矩阵A'，若第i行第j列元素为1则在二分图G中从节点i向节点j连一条边，最终获得与类邻接矩阵A'等价的二分图G即为所求的。

本发明还提供一种基于超图结构的链路预测系统，所述预测系统包括：

超图获取模块，用于获取待预测网络的原始超图；

二分图转换模块，用于将所述原始超图转换为二分图；

链路预测模块，用于基于变分自编码器预测所述二分图中的节点间存在边的概率，构建类邻接矩阵。

所述链路预测模块，具体包括：特征获取子模块，用于获取所述二分图的图邻接矩阵和图特征矩阵；编码预测子模块，用于将所述图邻接矩阵和所述图特征矩阵输入所述编码器，获得所述二分图中的各个节点在低维特征空间的向量表示，构建二分图的低维向量表示；解码预测子模块，用于将二分图的低维向量表示输入所述解码器，获得二分图中的节点间存在边的概率，构建类邻接矩阵。

所述变分自编码器包括编码器和解码器，所述编码器包括两层图卷集网络，所述解码器包括两层卷积网络。

所述变分自编码器的损失函数为：L＝E_q(Z|X，A)[log p(A'|Z)]-KL[q(Z|X，A)||p(Z)]；

其中，L为变分自编码器的损失，E_q(Z|X,A)[log p(A'|Z)]是交叉熵函数,p(A'|Z)为解码器输出的节点间存在边的概率分布，p(A'|Z)＝Π_i∈X'Π_j∈Y'p(A'_ij|z_i，z_j)，A'为类邻接矩阵，Z为编码器输出的二分图的低维向量表示，X'表示二分图左侧的节点集合，Y'表示二分图右侧的节点集合，i和j分别表示二分图中的左侧和右侧的节点，A'_ij表示类邻接矩阵中的第i行第j列的元素，z_i和z_j分别表示节点i和节点j的低维向量表示，KL为二分图中各节点独立正态分布和标准正态分布的KL散度，q(Z|X，A)表示编码器输出的二分图的低维向量表示的概率分布，

A表示图邻接矩阵，N表示二分图中节点的数量，q(z_i|X，A)表示节点i的低维向量表示的概率分布，

μ_i表示节点i的均值，σ_i表示节点i的方差，p(Z)表示二分图的低维向量表示遵循的概率分布，p(Z)＝Π_iN(0,I)，

d为分布中隐变量的维度。

本发明致力于将链路预测引入超图结构中，用以预测超图中潜在的超边，即给定超图结构预测超图中节点间新的超边关系，例如在社交网络时序图谱所构建的超图中，可以根据已经存在的用户画像和行为信息，预测出新的超边即未来用户的兴趣领域以及社交圈的变化关系等，可用以促进用户成长以及推荐系统网络的良态发展。

本发明基于社交网络知识图谱构建的时序超图结构，基于社交网络超图上节点(用户)所关联超边(社交行为)数据，使用超图上的深度学习链路预测算法预测可能潜在的新超边，即基于存在的超边关系(即用户社交圈)推理出新的超边关系(即向用户推荐适合它的新社交群体)。本发明不仅可以应用于社交网络的链路预测，还应用于有超图结构的任意其它网络，本发明实施例中只是针对社交网络进行说明，并不限定本发明的保护范围。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。