CN106899433A

CN106899433A - 网络链接预测方法及装置

Info

Publication number: CN106899433A
Application number: CN201710046489.XA
Authority: CN
Inventors: 张日崇; 孙佩源; 李建欣; 胡春明
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-01-18
Filing date: 2017-01-18
Publication date: 2017-06-27
Anticipated expiration: 2037-01-18
Also published as: CN106899433B

Abstract

本发明实施例提供一种网络链接预测方法及装置，该方法包括：根据用户输入的主题个数和网络节点个数，构建扩散网络，扩散网络包括多个网络节点和多个主题，各网络节点对应主动向量和被动向量，主动向量和被动向量中包括待求解参数；根据各网络节点的主动向量，生成扩散数据；获取预设时长内、扩散数据在扩散网络中扩散的统计数据；根据统计数据，确定待求解参数的参数值；根据待求解参数的参数值，确定第一网络节点的主动向量和第二网络的被动向量，根据第一网络节点的主动向量和第二网络节点的被动向量，确定第一网络节点和第二网络节点之间发生网络链接的概率。用于提高网络链接预测的准确性。

Description

网络链接预测方法及装置

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种网络链接预测方法及装置。

背景技术

随着社交网络(如微博等)的兴起，人们越来越倾向于使用在线社交网络平台沟通和交换信息。例如，用户在社交平台上进行发布一条消息之后，该用户的社交平台上的朋友也可能转发这条消息，这个过程重复迭代就会出现社交网络上的扩散现象。

网络链接预测是指通过已知的网络结构等信息预测网络中尚未产生连边的两个网络节点之间产生网络链接的概率。网络链接预测在不同的场景中有不同的应用和价值。例如，在犯罪份子网络中，链接预测可用来发现潜在的犯罪分子；在社交网络中，链接预测可指示用户间建立好友关系的可能性，为用户提供好友推荐。在现有技术中，通常采用基于连续时间模型、或者基于点过程的模型确定两个网络节点之间产生网络链接的概率。

然而，在现有的网络模型中，均假设网络中节点间的链接关系单层同质，这种假设与网络的多层异质结构相悖等，导致现有的网络模型与实际网络相差较多，导致根据现有的网络模型进行网络链接预测的准确性较低。

发明内容

本发明实施例提供一种网络链接预测方法及装置，提高了网络链接预测的准确性。

第一方面，本发明实施例提供一种网络链接预测方法，包括：

根据用户输入的主题个数和网络节点个数，构建扩散网络，所述扩散网络包括多个网络节点和多个主题，各所述网络节点对应主动向量和被动向量，所述主动向量和所述被动向量中包括待求解参数；

根据各所述网络节点的主动向量，生成扩散数据；

获取预设时长内、所述扩散数据在所述扩散网络中扩散的统计数据；

根据所述统计数据，确定所述待求解参数的参数值；

根据所述待求解参数的参数值，确定第一网络节点的主动向量和第二网络的被动向量，所述第一网络节点和所述第二网络节点为所述扩散网络中的任意两个节点；

根据所述第一网络节点的主动向量和所述第二网络节点的被动向量，确定所述第一网络节点和所述第二网络节点之间发生网络链接的概率。

在一种可能的实施方式中，根根据用户输入的主题个数和网络节点个数，构建扩散网络，包括：

接收用户输入的主题个数；

根据所述主题个数，创建多个主题，并生成主题活跃度向量；

接收用户输入的网络节点个数；

根据所述网络节点个数，创建多个网络节点；

生成各所述网络节点的主动向量和被动向量；

根据所述多个主题和所述多个网络节点，构建所述扩散网络。

在另一种可能的实施方式中，获取预设时长内、所述扩散数据在所述扩散网络中扩散的统计数据，包括：

确定所述扩散数据的主题分布向量；

根据所述主题分布向量，确定所述扩散数据的传播通道；

根据所述传播通道，确定所述转发所述扩散数据的次数、及转发所述扩散数据的时刻；

根据所述预设时长内、转发所述扩散数据的次数、及转发所述扩散数据的时刻，确定所述统计数据。

在另一种可能的实施方式中，根据所述统计数据，确定所述待求解参数的参数值，包括：

根据Metropolis-within-gibbs算法、及所述统计数据，对所述待求解参数进行求解，得到所述参数值。

在另一种可能的实施方式中，根据所述第一网络节点的主动向量和所述第二网络节点的被动向量，确定所述第一网络节点和所述第二网络节点之间发生网络链接的概率，包括：

根据如下公式一，确定所述第一网络节点和所述第二网络节点之间发生网络链接的概率P：

P＝A_ik×S_jk×π_k 公式一；

其中，所述A_ik为用户i的主动向量中的第k个分量，所述S_jk为用户j的被动向量中的第k个分量，所述π_k为第k主题的活跃度。

第二方面，本发明实施例提供一种网络链接预测装置，包括构建模块、生成模块、获取模块、第一确定模块、第二确定模块和第三确定模块，其中，

所述构建模块用于，根据用户输入的主题个数和网络节点个数，构建扩散网络，所述扩散网络包括多个网络节点和多个主题，各所述网络节点对应主动向量和被动向量，所述主动向量和所述被动向量中包括待求解参数；

所述生成模块用于，根据各所述网络节点的主动向量，生成扩散数据；

所述获取模块用于，获取预设时长内、所述扩散数据在所述扩散网络中扩散的统计数据；

所述第一确定模块用于，根据所述统计数据，确定所述待求解参数的参数值；

所述第二确定模块用于，根据所述待求解参数的参数值，确定第一网络节点的主动向量和第二网络的被动向量，所述第一网络节点和所述第二网络节点为所述扩散网络中的任意两个节点；

所述第三确定模块用于，根据所述第一网络节点的主动向量和所述第二网络节点的被动向量，确定所述第一网络节点和所述第二网络节点之间发生网络链接的概率。

在一种可能的实施方式中，所述构建模块具体用于：

接收用户输入的主题个数；

接收用户输入的网络节点个数；

根据所述网络节点个数，创建多个网络节点；

生成各所述网络节点的主动向量和被动向量；

在另一种可能的实施方式中，所述获取模块具体用于：

确定所述扩散数据的主题分布向量；

根据所述主题分布向量，确定所述扩散数据的传播通道；

在另一种可能的实施方式中，所述第一确定模块具体用于：

在另一种可能的实施方式中，所述第三确定模块具体用于：

P＝A_ik×S_jk×π_k 公式一；

本发明实施例提供的网络链接预测方法及装置，在进行网络链接预测的过程中，先基于预设条件假设，构建与实际网络情况相符合的扩散网络，该扩散网络中包括多个节点，每一个节点有其对应的主动向量和被动向量，该主动向量和被动向量中包括待求解参数。然后，生成用于在扩散网络上进行扩散的扩散数据。根据扩散数据及该扩散网络中每一个网络节点的主动向量和被动向量，可以确定扩散数据在扩散网络中进行扩散的统计数据。根据该统计数据可以求解得到主动向量和被动向量中的待求解参数的参数值，根据待求解参数的参数值可以确定第一网络节点的主动向量和第二网络节点的被动向量，并根据第一网络节点的主动向量和第二网络节点的被动向量，确定第一网络节点和第二网络节点之间发生网络链接的概率。由于构建的扩散网络的特性与实际应用中的网络的特性相符合，且扩散数据也与实际应用中传输的数据相符合，以使根据本申请所示的方法可以准确的确定两个网络节点之间产生网络链接的概率，进而提高网络链接预测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的网络链接预设方法的应用场景示意图；

图2为本发明实施例提供的网络链接预测方法的流程示意图；

图3为本发明实施例提供的构建扩散网络方法的流程示意图；

图4为本发明实施例提供的确定统计数据方法的流程示意图；

图5为本发明实施例提供的网络链接预测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的网络链接预设方法的应用场景示意图。请参见图1，在扩散网络中包括多个网络节点(图1中简称节点)，该扩散网络为本发明实施例构建的网络，每一个网络节点有其对应的主动向量和被动向量，该主动向量和被动向量中包括预设条件对应的假设参数。在本申请中，生成扩散数据，并根据扩散数据及该扩散网络中每一个网络节点的主动向量和被动向量，可以确定扩散数据在扩散网络中的传输情况。根据扩散数据在扩散网络中的传输情况，可以求解得到主动向量和被动向量中的假设参数。在得到假设参数之后，可以确定每一个网络节点的主动向量和被动向量。当需要确定两个网络节点之间产生网络链接的概率时，根据该两个网络节点的主动向量和被动向量即可确定该两个网络节点之间产生网络链接的概率。

在本申请中，由于构建的扩散网络的特性与实际应用中的网络的特性相符合，且扩散数据也与实际应用中传输的数据相符合，以使根据本申请所示的方法可以准确的确定两个网络节点之间产生网络链接的概率，进而提高网络链接预测的准确性。

下面，通过具体实施例，对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容在不同的实施例中不再进行赘述。

图2为本发明实施例提供的网络链接预测方法的流程示意图。请参见图2，该方法可以包括：

S201、根据用户输入的主题个数和网络节点个数，构建扩散网络，扩散网络包括多个网络节点和多个主题，各网络节点对应主动向量和被动向量，主动向量和被动向量中包括待求解参数。

本发明实施例的执行主体可以为网络链接预测装置(下文检测预测装置)。可选的，该预测装置可以通过软件和/或硬件实现。

当用户需要构建扩散网络时，用户可以在预测装置中输入主题个数和网络节点个数，相应的，预测装置可以创建多个网络节点、并确定多个主题。预测装置还生成每一个网络节点的主动向量和被动向量，并根据多个网络节点和该多个主题构建扩散网络。具体的，构建扩散网络的过程可以参见图3所示的实施例。

在本发明实施例中，主动向量是指网络节点在各主题上的主动性活跃程度，被动向量是指网络节点在各主题上的被动活跃程度。主动向量中各数据之和为1，被动向量中的各数据之和也为1。可选的，当扩散网络为与微博相关网络时，扩散网络的主题可以包括经济、科技、八卦、人文等。

例如，主动向量可以为用户在各主题上主动发布微博的概率。被动向量可以为用户在各主题上转发微博的概率。假设扩散网络中包括三个主题，分别记为主题1-主题3。则网络节点的主动向量可以为(P1,P2,P3)，其中，P1、P2、及P3之和为1，P1表示该网络节点对应的用户在主题1上发布微博的概率，P2表示该网络节点对应的用户在主题2上发布微博的概率，P3表示该网络节点对应的用户在主题3上发布微博的概率。

在本申请中，由于构建的网络时基于预设假设构建的，因此，主动向量和被动向量中包括待求解参数。

S202、根据各网络节点的主动向量，生成扩散数据。

在预测装置确定得到扩散网络之后，预测装置根据可以根据网络节点的主动向量，生成扩散数据。例如，假设扩散网络为与微博相关网络时，预测装置可以根据各网络节点对应的用户发布各类微博的频率，生成扩散数据，相应的，扩散数据可以为发布的微博。

需要说明的是，扩散数据的个数可以为1个，也可以为多个。可以根据实际需要确定扩散数据的个数。

S203、获取预设时长内、扩散数据在扩散网络中扩散的统计数据。

在确定得到扩散网络和扩散数据之后，可以根据各网络节点的主动向量、被动向量、以及扩散数据，确定扩散数据在扩散网络中的扩散情况，并根据预设时长内扩散数据在扩散网络中的扩散情况，得到统计数据。

可选的，统计数据中可以转发扩散数据的节点标识、及转发时刻。例如，统计数据可以如表1所示：

表1

网络节点的标识	转发时刻
		节点2	1:10:10
节点4	1:10:30
		节点3	1:10:45
节点5	1:11:12
		……	……

需要说明的是，表1只是以示例的形式示意统计数据中包括的内容。当然，在实际应用过程中，可以根据实际需要设置统计数据中包括的内容，本发明实施例对此不作具体限定。

S204、根据统计数据，确定待求解参数的参数值。

可选的，预测装置可以根据Metropolis-within-gibbs算法、及统计数据，对待求解参数进行求解，得到参数值。

例如，预测装置可以每一次从Dirichlet分布中使用随机游走采样一个数据点，计算其Hastings ratio,然后以min{1,HastingRatio}的概率接受该点，经过足够长的迭代过程后，可以证明，采样到的点接近真实的概率分布。

S205、根据待求解参数的参数值，确定第一网络节点的主动向量和第二网络的被动向量，第一网络节点和第二网络节点为扩散网络中的任意两个节点。

当需要确定第一网络节点和第二网络节点之间的发生网络链接的概率时，可以将待求解参数的参数值代入第一网络节点的主动向量、及第二网络节点的被动向量，以确定得到第一网络节点的主动向量和第二网络的被动向量。

S206、根据第一网络节点的主动向量和第二网络节点的被动向量，确定第一网络节点和第二网络节点之间发生网络链接的概率。

可选的，可以根据如下公式一，确定第一网络节点和第二网络节点之间发生网络链接的概率P：

P＝A_ik×S_jk×π_k 公式一；

其中，A_ik为用户i的主动向量中的第k个分量，S_jk为用户j的被动向量中的第k个分量，π_k为第k主题的活跃度。

本发明实施例提供的网络链接预测方法，在进行网络链接预测的过程中，先基于预设条件假设，构建与实际网络情况相符合的扩散网络，该扩散网络中包括多个节点，每一个节点有其对应的主动向量和被动向量，该主动向量和被动向量中包括待求解参数。然后，生成用于在扩散网络上进行扩散的扩散数据。根据扩散数据及该扩散网络中每一个网络节点的主动向量和被动向量，可以确定扩散数据在扩散网络中进行扩散的统计数据。根据该统计数据可以求解得到主动向量和被动向量中的待求解参数的参数值，根据待求解参数的参数值可以确定第一网络节点的主动向量和第二网络节点的被动向量，并根据第一网络节点的主动向量和第二网络节点的被动向量，确定第一网络节点和第二网络节点之间发生网络链接的概率。由于构建的扩散网络的特性与实际应用中的网络的特性相符合，且扩散数据也与实际应用中传输的数据相符合，以使根据本申请所示的方法可以准确的确定两个网络节点之间产生网络链接的概率，进而提高网络链接预测的准确性。

在图2所示实施例的基础上，可选的，可以通过如下可行的实现方式根据用户输入的主题个数和网络节点个数，构建扩散网络(图2所示实施例中的S201)，具体的，请参见图3所示的实施例。

图3为本发明实施例提供的构建扩散网络方法的流程示意图。请参见图3，该方法可以包括：

S301、接收用户输入的主题个数。

可选的，主题个数可以为大于2的正整数。

S302、根据主题个数，创建多个主题，并生成主题活跃度向量。

可选的，预测装置可以根据狄利克雷函数Dir(x)，随机生成多个主题。其中，生成的主题个数与用户输入的主题个数相同。

可选的，预测装置可以根据狄利克雷函数Dir(x)，生成主题活跃度向量，该主题活跃度向量为n维向量，主题活跃度向量的各分量之和为1，n为主题个数。例如，若主题个数为3，则主体活跃度向量可以为(0.5，0.3,0.2)。

S303、接收用户输入的网络节点个数。

可选的，网络节点个数可以为大于2的正整数。

S304、根据网络节点个数，创建多个网络节点。

可选的，预测装置可以根据狄利克雷函数Dir(x)，创建多个网络节点。

S305、生成各网络节点的主动向量和被动向量。

可选的，预测装置可以根据狄利克雷函数Dir(x)，生成各网络节点的主动向量和被动向量。

例如，预测装置可以根据如下公式二生成主动向量：

其中，k为主题的个数，α_i为第i个待求解参数，x_i为主动向量中第i个分向量。

S306、根据多个主题和多个网络节点，构建扩散网络。

构建得到的扩散网络的似然度如公式三所示：

其中，G_ijk表示扩散网络中第i个节点与第j个节点之间在第k个主题上是否存在边。当G_ijk为1时，表示第i个节点与第j个节点之间在第k个主题上存在边，当G_ijk为0时，表示第i个节点与第j个节点之间在第k个主题上不存在边。

在上述任意一个实施例的基础上，可选的，可以通过如下可行的实现方式获取预设时长内、扩散数据在扩散网络中扩散的统计数据(图2所示实施例中的S203)，具体的，请参见图4所示的实施例。

图4为本发明实施例提供的确定统计数据方法的流程示意图。请参见图4，该方法可以包括：

S401、确定扩散数据的主题分布向量。

可选的，预测装置可以根据狄利克雷函数Dir(x)确定扩散数据的主题分布向量。该主题分布向量为n维向量，主题分布向量的各分量之和为1，n为主题个数。

S402、根据主题分布向量，确定扩散数据的传播通道。

可选的，预测装置可以根据k′～Discrete(θ_k′·S_vk′)函数，确定扩散数据的传播通道。

S403、根据传播通道，确定转发扩散数据的次数、及转发扩散数据的时刻。

可选的，对于任意一个传播通道，可以根据n′～poisson(W_uvk)确定转发扩散数据的次数。可选的，可以根据t～lognormal(0,1)确定转发扩散数据的时刻。

其中，lognormal函数为对数正太分布函数，类似于random函数，本模型利用该函数采样0与1之间的一个随机数，特点是可以调整其参数，使得概率在接近0或者1时比较小，在设定的峰值处概率较大。

S404、根据预设时长内、转发扩散数据的次数、及转发扩散数据的时刻，确定统计数据。

在上述过程中，扩散数据的似然度可以如公式四所示：

其中，s_m为扩散数据被转发的时间，c_m为扩散数据被转发的网络节点，ω_m为第m次被转发扩散数据，λ_ku为第u个节点在第k个主题上发布扩散数据的频率，W_uvk为第u个网络节点发布扩散数据，第v个网络节点在k个主题上转发的概率，I[x]为示性函数，当括号内数据为真时返回1，否则返回0。h(x)提到的lognormal函数，θ_m为第m次转发扩散数据的主题向量，G_uvk为扩散网络中第u个网络节点与第v个网络节点之间在第k个主题上是否存在边，1表示存在，0表示不存在，A_u为第u个网络节点的主动向量，S_v为第v个网络节点的被动向量，π_k为各个主题的活跃程度向量，A_uk为第u个网络节点的主动向量中的第k个分量，S_vk为第v个网络节点的被动向量中的第k个分量。

其中，上述公式四中，等号后边的第一行对应生成的扩散网络的似然度，第二行对应发布扩散数据的似然度，第三到第五行对应转发扩散数据的似然度。其中的补偿项和为在积分上下限的时间段内没有发生事件的似然度。

图5为本发明实施例提供的网络链接预测装置的结构示意图。请参见图5，该装置可以包括构建模块11、生成模块12、获取模块13、第一确定模块14、第二确定模块15和第三确定模块16，其中，

所述构建模块11用于，根据用户输入的主题个数和网络节点个数，构建扩散网络，所述扩散网络包括多个网络节点和多个主题，各所述网络节点对应主动向量和被动向量，所述主动向量和所述被动向量中包括待求解参数；

所述生成模块12用于，根据各所述网络节点的主动向量，生成扩散数据；

所述获取模块13用于，获取预设时长内、所述扩散数据在所述扩散网络中扩散的统计数据；

所述第一确定模块14用于，根据所述统计数据，确定所述待求解参数的参数值；

所述第二确定模块15用于，根据所述待求解参数的参数值，确定第一网络节点的主动向量和第二网络的被动向量，所述第一网络节点和所述第二网络节点为所述扩散网络中的任意两个节点；

所述第三确定模块16用于，根据所述第一网络节点的主动向量和所述第二网络节点的被动向量，确定所述第一网络节点和所述第二网络节点之间发生网络链接的概率。

本发明实施例提供的网络链接预测装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的实施方式中，所述构建模块11具体用于：

接收用户输入的主题个数；

接收用户输入的网络节点个数；

根据所述网络节点个数，创建多个网络节点；

生成各所述网络节点的主动向量和被动向量；

在另一种可能的实施方式中，所述获取模块13具体用于：

确定所述扩散数据的主题分布向量；

根据所述主题分布向量，确定所述扩散数据的传播通道；

在另一种可能的实施方式中，所述第一确定模块14具体用于：

在另一种可能的实施方式中，所述第三确定模块16具体用于：

P＝A_ik×S_jk×π_k 公式一；

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例方案的范围。

Claims

1.一种网络链接预测方法，其特征在于，包括：

根据各所述网络节点的主动向量，生成扩散数据；

根据所述统计数据，确定所述待求解参数的参数值；

2.根据要求1所述的方法，其特征在于，根根据用户输入的主题个数和网络节点个数，构建扩散网络，包括：

接收用户输入的主题个数；

接收用户输入的网络节点个数；

根据所述网络节点个数，创建多个网络节点；

生成各所述网络节点的主动向量和被动向量；

3.根据权利要求1或2所述的方法，其特征在于，获取预设时长内、所述扩散数据在所述扩散网络中扩散的统计数据，包括：

确定所述扩散数据的主题分布向量；

根据所述主题分布向量，确定所述扩散数据的传播通道；

4.根据权利要求1或2所述的方法，其特征在于，根据所述统计数据，确定所述待求解参数的参数值，包括：

5.根据权利要求1或2所述的方法，其特征在于，根据所述第一网络节点的主动向量和所述第二网络节点的被动向量，确定所述第一网络节点和所述第二网络节点之间发生网络链接的概率，包括：

P＝A_ik×S_jk×π_k 公式一；

6.一种网络链接预测装置，其特征在于，包括构建模块、生成模块、获取模块、第一确定模块、第二确定模块和第三确定模块，其中，

7.根据要求6所述的装置，其特征在于，所述构建模块具体用于：

接收用户输入的主题个数；

接收用户输入的网络节点个数；

根据所述网络节点个数，创建多个网络节点；

生成各所述网络节点的主动向量和被动向量；

8.根据权利要求6或7所述的装置，其特征在于，所述获取模块具体用于：

确定所述扩散数据的主题分布向量；

根据所述主题分布向量，确定所述扩散数据的传播通道；

9.根据权利要求6或7所述的装置，其特征在于，所述第一确定模块具体用于：

10.根据权利要求6或7所述的装置，其特征在于，所述第三确定模块具体用于：

P＝A_ik×S_jk×π_k 公式一；