CN111064603B

CN111064603B - 一种网络链路确定方法、装置及设备

Info

Publication number: CN111064603B
Application number: CN201911227127.6A
Authority: CN
Inventors: 廖好; 李鑫; 吴佼; 毛睿; 陆克中; 周明洋; 王毅
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2022-12-23
Anticipated expiration: 2039-12-04
Also published as: CN111064603A

Abstract

本发明公开了一种网络链路确定方法、装置及设备，该方法包括获取目标领域网络中的多个网络节点，根据获取的多个网络节点中目标网络节点的度，生成相应的随机游走序列，根据随机游走序列，得到网络嵌入矩阵，将网络嵌入矩阵输入到目标预测模型，得到目标网络链路。该方法基于网络节点间的关联性，采用多个网络节点的度生成随机游走序列，提高了网络链路预测结果的准确性。

Description

一种网络链路确定方法、装置及设备

技术领域

本发明涉及通信网络领域，具体涉及一种网络链路确定方法、装置及设备。

背景技术

近年来，随着各种复杂应用领域网络的大量出现，对网络中网络链路预测越来越受到重视，在实际应用领域具有重要价值。比如在社交网络中，通过预测网络链路可以提高获取的用户社会属性信息的准确度。

现有技术中，通常采用基于局部信息的相似性算法、基于矩阵分解的链路预测算法、谱聚类算法、机器学习算法来预测网络链路，但采用现有技术进行网络链路预测时，未考虑到网络节点间的关联性，导致网络链路预测结果准确度低。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中无法基于网络节点间的关联性预测网络链路的缺陷，从而提供一种网络链路确定方法、装置及设备。

根据第一方面，本发明实施例提供了一种网络链路确定方法，包括：获取目标领域网络中的多个网络节点；根据所述多个网络节点中目标网络节点的度，生成相应的随机游走序列；根据所述随机游走序列，得到网络嵌入矩阵；将所述网络嵌入矩阵输入到目标预测模型，得到目标网络链路。

结合第一方面，在第一方面的第一实施方式中，所述根据所述多个网络节点的度，生成相应的随机游走序列之前，所述方法还包括：对网络节点数据进行数据清洗；将剩余的网络节点数据转化为相同的数据形式，合并得到网络节点数据集；将所述网络节点数据集中的所有网络节点划分为训练集和测试集，将所述训练集中包含的网络节点作为所述目标网络节点。

结合第一方面，在第一方面的第二实施方式中，所述根据所述多个网络节点中目标网络节点的度，生成相应的随机游走序列，包括：获取所述目标领域网络中多个目标网络节点中的任一目标网络节点；在所述目标领域网络中，获取所述目标网络节点的第一关联节点；当所述第一关联节点包括多个时，获取每一个所述第一关联节点的度；将所述目标网络节点与满足目标条件的第一关联节点相连，得到组成目标网络节点对应的随机游走序列中的第一子序列；根据获取所述第一子序列的方法，将所述第一关联节点与满足所述目标条件的第二关联节点相连，得到组成目标网络节点对应的随机游走序列中的第二子序列，直至遍历所有网络节点，得到所述目标网络节点对应的随机游走序列。

结合第一方面第二实施方式，在第一方面的第三实施方式中，所述目标条件为节点的度最大或节点的度处于目标范围，所述在所述目标领域网络中，获取与所述目标网络节点的第一关联节点，包括：当所述目标网络节点中，与其相关联的网络节点满足所述目标条件，将与所述目标网络节点关联的度第二大的网络节点作为第一关联节点。

根据第二方面，本发明实施例提供了一种网络链路确定装置，包括：获取模块，用于获取目标领域网络中的多个网络节点；生成模块，用于根据所述多个网络节点中目标网络节点的度，生成相应的随机游走序列；矩阵确定模块，用于根据所述随机游走序列，得到网络嵌入矩阵；网络链路确定模块，用于将所述网络嵌入矩阵输入到目标预测模型，得到目标网络链路。

结合第二方面，在第二方面的第一实施方式中，所述生成模块之前，所述装置还包括：处理模块，用于对网络节点数据进行数据清洗；合并模块，用于将剩余的网络节点数据转化为相同的数据形式，合并得到网络节点数据集；划分模块，用于将所述网络节点数据集中的所有网络节点划分为训练集和测试集，将所述训练集中包含的网络节点作为所述目标网络节点。

结合第二方面，在第二方面的第二实施方式中，所述生成模块，包括：第一获取子模块，用于获取所述目标领域网络中多个目标网络节点中的任一目标网络节点；第二获取子模块，用于在所述目标领域网络中，获取所述目标网络节点的第一关联节点；第三获取子模块，用于当所述第一关联节点包括多个时，获取每一个所述第一关联节点的度；组成子模块，用于将所述目标网络节点与满足目标条件的第一关联节点相连，得到组成目标网络节点对应的随机游走序列中的第一子序列；生成子模块，用于根据获取所述第一子序列的方法，将所述第一关联节点与满足所述目标条件的第二关联节点相连，得到组成目标网络节点对应的随机游走序列中的第二子序列，直至遍历所有网络节点，得到所述目标网络节点对应的随机游走序列。

结合第二方面第二实施方式，在第二方面的第三实施方式中，所述目标条件为节点的度最大或节点的度处于目标范围，所述第二获取子模块，包括：确定子模块，用于当所述目标网络节点中，与其相关联的网络节点满足所述目标条件，将与所述目标网络节点关联的度第二大的网络节点作为第一关联节点。

根据第三方面，本发明实施提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如第一方面或第一方面任一实施方式中所述的网络链路确定方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如第一方面或第一方面任一实施方式中所述的网络链路确定方法。

本发明技术方案，具有如下优点：

本发明提供的网络链路确定方法，通过获取目标领域网络中的多个网络节点，根据获取的多个网络节点中目标网络节点的度，生成相应的随机游走序列，根据该随机游走序列，得到网络嵌入矩阵，将网络嵌入矩阵输入到目标预测模型，得到目标网络链路。该方法基于网络节点间的关联性，采用多个网络节点的度生成随机游走序列，提高了网络链路预测结果的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中网络链路确定方法的流程图；

图2A为本发明实施例中度值最大随机游走的方法示意图；

图2B为本发明实施例中度值等差概率随机游走的方法示意图；

图2C为本发明实施例中度值概率随机游走的方法示意图；

图3为本发明实施例中度值最大随机游走方法的评价指标对比图；

图4为本发明实施例中度值前10％随机游走方法的评价指标对比图；

图5为本发明实施例中度值等差概率随机游走方法的评价指标对比图；

图6为本发明实施例中度值概率随机游走方法的评价指标对比图；

图7为本发明实施例中网络链路确定装置的原理框图；

图8为本发明实施例中电子设备的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本实施例提供一种网络链路确定方法，可用于社交网络、二分网络、生物网络等无向无权的真实网路，以社交网络为例，如图1所示，包括：

S11，获取目标领域网络中的多个网络节点。

示例性地，目标领域网络为无向无权网络，包括社交网络、科学家合作网络、蛋白质互作用网络、语言学网络等复杂真实网络。以社交网络为例进行说明，选取社交网络作为目标领域网络，该社交网络具有多个网络节点，每个节点携带社交网络的局部信息，可以映射到向量空间中以向量进行特征表示，采集该社交网络各个节点的向量特征，即获取社交网络的多个网络节点。

S12，根据多个网络节点中目标网络节点的度，生成相应的随机游走序列。

示例性地，目标网络节点的度表示与该节点相关联的边的条数，可以表征节点之间相互连接的关联度。从多个网络节点中选择任意一个节点作为初始节点，计算初始节点相邻节点的度，将初始节点连接至满足随机游走条件的下一相邻节点，依次计算当前节点对应的相邻节点的度，将选择的随机游走的初始节点作为目标网络节点。每个目标网络节点按照随机游走条件，进行多次随机游走，生成对应的随机游走序列。

S13，根据随机游走序列，得到网络嵌入矩阵。

示例性地，目标领域网络中的每个目标网络节点可以映射到向量空间中，以向量进行特征表示，每个目标网络节点按照节点的度生成对应的随机游走序列，使用该随机游走序列不断更新各目标网络节点的特征表示，将各目标网络节点的特征表示组合成为一个矩阵，以矩阵的形式进行表达该目标领域网络，将该矩阵作为网络嵌入矩阵。

S14，将网络嵌入矩阵输入到目标预测模型，得到目标网络链路。

示例性地，根据各个目标网络节点的向量特征生成网络嵌入矩阵，使用目标预测模型计算目标网络链路的评价指标。选取目标预测模型，以网络节点的网络嵌入矩阵作为输入，以网络链路的评价指标作为输出，根据目标预测模型的计算规则，得到网络链路的评价指标的值，以网络链路的评价指标作为评价网络链路的准确度，根据网络链路的评价指标的值，得到目标网络链路。

本实施例提供的网络链路确定方法，通过获取目标领域网络中的多个网络节点，根据获取的多个网络节点中目标网络节点的度，生成相应的随机游走序列，根据该随机游走序列，得到网络嵌入矩阵，将网络嵌入矩阵输入到目标预测模型，得到目标网络链路。该方法基于网络节点间的关联性，采用多个网络节点的度生成随机游走序列，提高了网络链路预测结果的准确性。

作为本申请一个可选的实施方式，在步骤S12之前，该方法还包括：

首先，对网络节点数据进行数据清洗。

示例性地，将获取的目标领域网络中的网络节点进行错误消除、冗余消除以及去除数据噪音等数据清洗操作。以社交网络为例，获取的社交网络中存在N个网络节点，识别这N个网络节点中是否存在孤立的网络节点，如果存在M个孤立的网络节点，则去除M个孤立的网络节点，使剩余的N-M个网络节点之间能够连接构成一个社交网络连通图。

其次，将剩余的网络节点数据转化为相同的数据形式，合并得到网络节点数据集。

示例性地，按照用户需求将经过处理的各网络节点数据集转化为统一的数据形式，将多个数据集中的数据进行数据合并，并将合并的数据进行一致的数据存储，存放至数据库中。以社交网络为例，经过处理后剩余n个网络节点，各网络节点对应相应的网络节点数据集，按照用户需求将各网络节点对应的数据集转化为统一的社交网络数据形式，将具有统一社交网络形式的各网络节点对应的数据集进行合并，并将合并之后的数据集存放至与社交网络一致对应的数据库中。

再次，将网络节点数据集中的所有网络节点划分为训练集和测试集，将测试集中包含的网络节点作为目标网络节点。

示例性地，对合成的网络节点数据集中所有的网络节点进行随机划分，可以按照9:1的比例将其划分为训练集和测试集。将测试集中包含的网络节点作为目标网络节点，将训练集中的网络节点数据作为已知的网络信息，可以并将训练集中包含的网络节点数据用于训练得到目标预测模型，通过构建的目标预测模型得到各目标网络节点间的相似度，得到每一个目标网络节点对应的目标网络链路。

作为本申请一个可选的实施方式，步骤S12，包括：

首先，获取目标领域网络中多个目标网络节点中的任一目标网络节点。

示例性地，将训练集中的网络节点作为目标网络节点，对于获取目标网络节点的具体说明参见上述实施例的相关说明。从处于目标领域网络的训练集中的多个目标网络节点中任选一个目标网络节点作为初始节点，依次根据节点的度，选择与其相连的下一相邻节点。

其次，在目标领域网络中，获取与目标网络节点的第一关联节点。

示例性地，目标网络节点的第一关联节点为目标网络节点具有关联关系的相邻节点，该相邻节点可以有一个，也可以有多个。与目标网络节点相连的第一关联节点，可以根据通过获取的目标领域网络中的网络节点的连通图获取，本申请对获取第一关联节点的方式不作限定，本领域技术人员可以根据实际需要确定。若目标网络节点的相邻节点只有一个，则将该相邻节点即为第一关联节点，若目标网络节点的相邻节点有多个，则需要计算节点的度，根据节点的度确定第一关联节点。

再次，当第一关联节点包括多个时，获取每一个第一关联节点的度。

示例性地，若目标网络节点的相邻节点有多个，即第一关联节点包括多个时，计算第一关联节点的度。对节点的度的具体说明参见上述实施例的相关描述。通过计算与每一个第一关联节点相关联的边的条数，得到对应的每一个第一关联节点的度。本申请对第一关联节点的度的获取方式不作限定，本领域技术人员可以根据实际需要确定。

再次，将目标网络节点与满足目标条件的第一关联节点相连，得到组成目标网络节点对应的随机游走序列中的第一子序列。

示例性地，目标网络节点对应的随机游走序列中的第一子序列可以按照目标网络节点的度值最大随机游走原则获取，可以根据度值前10％随机游走原则获取，或者根据度值等差概率随机游走原则获取，或者根据度值概率随机游走原则获取。将符合随机游走原则的下一节点作为第一关联节点，将目标网络节点与满足随机游走原则的第一关联节点相连，得到目标网络节点对应的随机游走序列中的第一子序列。

度值最大游走原则为选取度最大的相邻节点作为游走的下一节点。如图2A所示，首先，找到度最大的邻居节点集{t,x2},由于t为游走的上一个节点，则选取x2作为游走的下一个节点。

度值前10％随机游走原则为：按照相邻节点的度的大小进行排序，随机选取度值处于前10％的相邻节点中的一个作为下一节点，若相邻节点超过一个，且处于度前10％的邻居节点只有一个，则该处于度前10％的邻居节点即为游走的下一节点。

度值等差概率随机游走原则为：按照相邻节点的度的大小进行排序，以等差概率分布对下一节点进行随机选择。假设相邻节点个数有n个，将相邻节点按度由大到小的顺序排列得到{v₁,…,v_n}序列，每个相邻节点被选取到的概率为：

如图2B所示，按度值等差概率随机游走原则随机游走，目标网络节点v随机游走到x1的概率为1/15，随机游走到x2的概率为4/15，随机游走到x3的概率为5/15，随机游走到x4的概率为3/15，随机游走到x5的概率为2/15，p表示各个邻居节点被选取到的概率，该游走原则使得相邻节点中度越大的节点被选取到的概率越大，并使度较小的邻居节点也有一定概率被选取到。

按度值等差概率随机游走的方法中，该方法先对各个相邻节点的度进行排列，然后再按它们在序列中的位置进行等差概率分配，使它们被选取到的概率与它们在序列中的位置相关，并且度大的节点被选取到的概率更大。这样既保证了游走的随机性，也使节点之间被选取到的概率具有差异性，但又不会相差太大，且保证了邻居节点中度大的节点被选取到的概率更大。

度值概率随机游走原则为：每一个相邻节点被选取到的概率与该节点的度成正比，相邻节点中度较大的节点被选取到的概率也较大。假设相邻节点个数有n个，相邻节点v的度为k(v)，则每个节点被选取到的概率为：

如图2C所示，按度值概率随机游走原则随机游走，目标网络节点v随机游走到x1的概率为4/kn，随机游走到x2的概率为5/kn，随机游走到x3的概率为7/kn，随机游走到x4的概率为2/kn。其中，kn表示节点v的n个邻居节点的度之和，p表示各个邻居节点被选取到的概率。按度值概率随机游走的方法中，该方法既保证了游走的随机性，也使度大的邻居被选取到的概率越大。同时，与按度值等差概率随机游走的方法相比，度的大小与被选取到的概率具有直接相关性。

再次，根据获取第一子序列的方法，将第一关联节点与满足目标条件的第二关联节点相连，得到组成目标网络节点对应的随机游走序列中的第二子序列，直至遍历所有网络节点，得到目标网络节点对应的随机游走序列。

示例性地，获取第一子序列的方法的具体说明参见上述实施方式中的相关描述。根据该方法依次生成第二子序列，第三子序列，直至遍历目标领域网络中处于训练集中的所有网络节点，生成所有目标网络节点对应的随机游走序列。

作为本申请一个可选的实施方式，当目标条件为节点的度最大或节点的度处于目标范围，在所述目标领域网络中，获取与目标网络节点的第一关联节点，包括：当目标网络节点中，与其相关联的网络节点满足目标条件，将与目标网络节点关联的度第二大的网络节点作为第一关联节点。

示例性地，当符合度值随机游走原则的下一节点有多个时，则获取每个第一关联节点的度，根据第一关联节点的度确定随机游走的下一节点。按照度值最大游走原则进行随机游走，为了防止游走序列在两个节点之间来回游走，考虑上一步随机游走的边(t,v)，如果度最大的节点为上一个节点，则选取度第二大的邻居节点。对于n个相邻节点，节点顺序按照度由大到小排列得到{v₁,…,v_n}。选取下一节点x的公式如下：

按照度值前10％随机游走原则进行随机游走，为了防止游走序列在两个节点之间来回游走，考虑上一步随机游走的边(t,v)，其该邻居节点为上一个节点，则选取度第二大的邻居节点。假设邻居节点个数为n个，度前10％的邻居节点个数有m个，节点顺序按度由大到小排列得到{v₁,…,v_n}。选取下一个节点x的公式如下：

以真实网络数据为例进行说明，利用本申请提出的网络链路确定算法应用于真实网络，确定网络链路的预测评价指标的值，该评价指标可以为AUC(Area Under Curve，曲线下与坐标轴围成的面积),AP(average precision,曲线与x轴围成的图形面积)。

根据度值最大随机游走原则随机游走，首先选择Dolphin数据库和ucidata(University of CaliforniaIrvine，机器学习数据库)两个真实网络数据，对这两个真实网络数据进行清洗、合并以及划分，然后根据度值最大随机游走的方法生成游走序列，设置度值最大随机游走序列长度为80，特征向量的维度为128，窗口大小为10，更新节点的特征表示，得到网络嵌入矩阵，计算测试集按照度值最大随机游走的方法得到的网络链路的评价指标的值，计算测试集基于局部信息的相似性算法，该相似性算法可以包括：AA(Admic-Adar)相似性算法、JC(Jaccardr)相似性算法、PA相似性算法(Perferential Attachment)、基于SC(Spectral Clustering,矩阵分解的谱聚类)链路预测算法、机器学习算法，如Deepwalk、Node2vec、LINE，得到的网络链路的评价指标的值，如图3所示为各个链路预测算法在dolphin数据库和ucidata数据库网络中的AUC,AP值比较。

根据度值前10％随机游走原则随机游走，首先选择pris数据库，smfw数据库和ucidata数据库三个真实网络数据，对这三个真实网络数据进行清洗、合并以及划分，然后根据度值前10％随机游走的方法生成游走序列，设置随机游走序列长度均为80，特征向量的维度为128，窗口大小为10，更新节点的特征表示，得到网络嵌入矩阵，计算训练集按照度值前10％随机游走的方法得到的网络链路的评价指标的值，计算测试集基于局部信息的相似性算法，该相似性算法可以包括：AA(Admic-Adar)相似性算法、JC(Jaccardr)相似性算法、PA相似性算法(Perferential Attachment)、基于SC(Spectral Clustering,矩阵分解的谱聚类)链路预测算法、机器学习算法，如Deepwalk、Node2vec、LINE，得到的网络链路的评价指标的值，如图4所示为各个链路预测算法在pris数据库，smfw数据库和ucidata数据库网络中的AUC,AP值比较。

根据度值等差概率随机游走原则随机游走，首先选择ecoli数据库，email数据库，health数据库，infectious数据库和petste_hamster数据库五个真实网络数据，对这五个真实网络数据进行清洗、合并以及划分，然后根据度值等差概率随机游走的方法生成游走序列，设置随机游走序列长度均为80，特征向量的维度为128，窗口大小为10，更新节点的特征表示，得到网络嵌入矩阵，计算训练集按照度值等差概率随机游走的方法得到的网络链路的评价指标的值，计算测试集基于局部信息的相似性算法，该相似性算法可以包括：AA(Admic-Adar)相似性算法、JC(Jaccardr)相似性算法、PA相似性算法(PerferentialAttachment)、基于SC(Spectral Clustering,矩阵分解的谱聚类)链路预测算法、机器学习算法，如Deepwalk、Node2vec、LINE，得到的网络链路的评价指标的值，如图5所示为各个链路预测算法在ecoli数据库，email数据库，health数据库，infectious数据库和petste_hamster数据库网络中的AUC,AP值比较。

根据度值概率随机游走原则随机游走，首先选择ecoli数据库，email数据库，health数据库，infectious数据库，petste_hamster数据库和tap数据库六个真实网络数据，对这六个真实网络数据进行清洗、合并以及划分，然后根据度值概率随机游走的方法生成游走序列，设置随机游走序列长度均为80，特征向量的维度为128，窗口大小为10，更新节点的特征表示，得到网络嵌入矩阵，计算训练集按照度值概率随机游走的方法得到的网络链路的评价指标的值，计算测试集基于局部信息的相似性算法，该相似性算法可以包括：AA(Admic-Adar)相似性算法、JC(Jaccardr)相似性算法、PA相似性算法(PerferentialAttachment)、基于SC(Spectral Clustering,矩阵分解的谱聚类)链路预测算法、机器学习算法，如Deepwalk、Node2vec、LINE，得到的网络链路的评价指标的值，如图6所示为各个链路预测算法在ecoli数据库，email数据库，health数据库，infectious数据库，petste_hamster数据库和tap数据库网络中的AUC,AP值比较。

通过实验结果分析得出，度值最大随机游走方法和度值前10％随机游走方法在小规模的、具有稠密性的无标度网络中的预测精确度较其他链路预测算法有提高，AUC的提高在0.3％～9.2％之间，AP的提高在-7％～11.8％之间。其中，度值最大随机游走方法在Dolphin数据库和ucidata数据库中的预测性能比其他链路预测算法会有提高。对比AA，SC，PA，JC，DeepWalk，node2vec，LINE链路预测算法，度值最大随机游走方法在dolphin网络中AUC值至少提升了2.7％，AP值至少提升了1.3％；在ucidata网络中AUC值至少提升了5.1％，AP值至少提升了2.9％。度值前10％随机游走方法在pris数据库，smfw数据库和ucidata数据库中的预测性能比其他链路预测算法会有提高。其中，对比AA，SC，PA，JC，DeepWalk，node2vec，LINE链路预测算法，度值前10％随机游走方法在pris网络中AUC指标至少提高了0.3％，但AP指标比node2vec算法降低了7％；在smfw网络中AUC指标至少提高了1.2％，但AP指标比node2vec算法降低了2.9％；在ucidata网络中AUC指标至少提高了9.2％，AP指标至少提高了11.8％。

按度值等差概率随机游走方法和按度值概率随机游走方法在具有稀疏性、度负关联性的无标度网络中预测精确度较其他链路预测算法有提高，AUC的提高在0～2.4％之间，AP的提高在-1％～2.2％之间。其中，按度值等差概率随机游走方法在ecoli数据库，email数据库，health数据库，infectious数据库和petste_hamster数据库中的AUC、AP指标比其他链路预测算法都有提高。其中，对比AA，SC，PA，JC，DeepWalk，node2vec，LINE链路预测算法，按度值等差概率随机游走方法在ecoli网络中AUC指标至少提高了2.3％，AP指标至少提高了0.7％；在email网络中AUC指标至少提高了2.2％，AP指标至少提高了2.2％；在health网络中AUC指标至少提高了0.5％，AP指标至少提高了0.3％；在infectious网络中，按度值等差概率随机游走方法的AUC指标与准确度最高的AA算法的指标一样高，AP指标比AA算法降低了0.6％；在petster_hamster网络中AUC指标至少提高了2.3％，AP指标至少提高了0.4％。按度值概率随机游走方法在ecoli网络中AUC指标与准确度最高的SC算法的指标一样高，AP指标较node2vec算法下降了1.6％；在email网络中AUC指标至少提高了2.4％，AP指标至少提高了2.0％；在health网络中AUC指标至少提高了0.4％，AP指标至少提高了0.5％；在infectious网络中，AUC指标较AA算法下降了0.3％，AP指标较AA算法下降了1.0％；在petster_hamster网络中AUC指标至少提高了1.5％，AP指标至少提高了0.5％；在tap网络中AUC指标至少提高了0.1％，AP指标与准确度最高的DeepWalk算法的指标一样高。由此可见，根据经典的链路预测算法和基于节点度的随机游走的网络嵌入链路预测算法在不同网络中的AUC和AP值比较，基于节点度的随机游走的网络嵌入链路预测算法能取得更好的结果。

本申请实施例还提供了一种网络链路确定装置，如图7所示，包括：

获取模块21，用于获取目标领域网络中的多个网络节点。

生成模块22，用于根据多个网络节点中目标网络节点的度，生成相应的随机游走序列。

矩阵确定模块23，用于根据随机游走序列，得到网络嵌入矩阵。

网络链路确定模块24，用于将网络嵌入矩阵输入到目标预测模型，得到目标网络链路。

本实施例提供的网络链路确定装置，通过获取模块获取目标领域网络中的多个网络节点，生成模块根据获取的多个网络节点中目标网络节点的度，生成相应的随机游走序列，矩阵确定模块可以根据该随机游走序列，得到网络嵌入矩阵，网络链路确定模块可以将网络嵌入矩阵输入到目标预测模型，得到目标网络链路。该装置基于网络节点间的关联性，采用多个网络节点的度生成随机游走序列，提高了网络链路预测结果的准确性。

作为本申请一个可选的实施方式，在生成模块22之前，该装置还包括：

处理模块，用于对网络节点数据进行数据清洗。

合并模块，用于将剩余的网络节点数据转化为相同的数据形式，合并得到网络节点数据集。

划分模块，用于将网络节点数据集中的所有网络节点划分为训练集和测试集，将训练集中包含的网络节点作为目标网络节点。

作为本申请一个可选的实施方式，生成模块22，包括：

第一获取子模块，用于获取目标领域网络中多个目标网络节点中的任一目标网络节点。

第二获取子模块，用于在目标领域网络中，获取目标网络节点的第一关联节点。

第三获取子模块，用于当第一关联节点包括多个时，获取每一个第一关联节点的度。

组成子模块，用于将目标网络节点与满足目标条件的第一关联节点相连，得到组成目标网络节点对应的随机游走序列中的第一子序列。

生成子模块，用于根据获取第一子序列的方法，将第一关联节点与满足目标条件的第二关联节点相连，得到组成目标网络节点对应的随机游走序列中的第二子序列，直至遍历所有网络节点，得到目标网络节点对应的随机游走序列。

作为本申请一个可选的实施方式，当目标条件为节点的度最大或节点的度处于目标范围，第二获取子模块，包括：

确定子模块，用于当目标网络节点中，与其相关联的网络节点满足目标条件，将与目标网络节点关联的度第二大的网络节点作为第一关联节点。

本发明实施例还提供了一种电子设备，如图8所示，该电子设备可以包括处理器31和存储器32，其中处理器31和存储器32可以通过总线或者其他方式连接，图8中以通过总线连接为例。

处理器31可以为中央处理器(Central Processing Unit，CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器32作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的网络链路确定方法对应的程序指令/模块(例如，图7所示的获取模块21、生成模块22、矩阵确定模块23和网络链路确定模块24)。处理器31通过运行存储在存储器32中的非暂态软件程序以及指令，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的网络链路确定方法。

存储器32可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器31所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器32可选包括相对于处理器31远程设置的存储器，这些远程存储器可以通过网络连接至处理器31。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器32中，当被所述处理器31执行时，执行如图1-6所示实施例中的网络链路确定方法。本申请实施例提供的网络链路确定方法，通过获取目标领域网络中的多个网络节点，根据获取的多个网络节点中目标网络节点的度，生成相应的随机游走序列，根据该随机游走序列，得到网络嵌入矩阵，将网络嵌入矩阵输入到目标预测模型，得到目标网络链路。该方法基于网络节点间的关联性，采用多个网络节点的度生成随机游走序列，提高了网络链路预测结果的准确性。

上述电子设备具体细节可以对应参阅图1至图7所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种网络链路确定方法，其特征在于，包括：

获取目标领域网络中的多个网络节点；

根据所述多个网络节点中目标网络节点的度，生成相应的随机游走序列；

根据所述随机游走序列，得到网络嵌入矩阵；

将所述网络嵌入矩阵输入到目标预测模型，得到目标网络链路；

其中，所述根据所述多个网络节点中目标网络节点的度，生成相应的随机游走序列，包括：获取所述目标领域网络中多个目标网络节点中的任一目标网络节点；在所述目标领域网络中，获取所述目标网络节点的第一关联节点；当所述第一关联节点包括多个时，获取每一个所述第一关联节点的度；将所述目标网络节点与满足目标条件的第一关联节点相连，得到组成目标网络节点对应的随机游走序列中的第一子序列；根据获取所述第一子序列的方法，将所述第一关联节点与满足所述目标条件的第二关联节点相连，得到组成目标网络节点对应的随机游走序列中的第二子序列，直至遍历所有网络节点，得到所述目标网络节点对应的随机游走序列。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个网络节点中目标网络节点的度，生成相应的随机游走序列之前，所述方法还包括：

对网络节点数据进行数据清洗；

将剩余的网络节点数据转化为相同的数据形式，合并得到网络节点数据集；

将所述网络节点数据集中的所有网络节点划分为训练集和测试集，将所述测试集中包含的网络节点作为所述目标网络节点。

3.根据权利要求1所述的方法，所述目标条件为节点的度最大或节点的度处于目标范围，所述在所述目标领域网络中，获取所述目标网络节点的第一关联节点，包括：

当所述目标网络节点中，与其相关联的网络节点满足所述目标条件，将与所述目标网络节点关联的度第二大的网络节点作为第一关联节点。

4.一种网络链路确定装置，其特征在于，包括：

获取模块，用于获取目标领域网络中的多个网络节点；

生成模块，用于根据所述多个网络节点中目标网络节点的度，生成相应的随机游走序列；

矩阵确定模块，用于根据所述随机游走序列，得到网络嵌入矩阵；

网络链路确定模块，用于将所述网络嵌入矩阵输入到目标预测模型，得到目标网络链路；

其中，所述生成模块，包括：

第一获取子模块，用于获取所述目标领域网络中多个目标网络节点中的任一目标网络节点；

第二获取子模块，用于在所述目标领域网络中，获取所述目标网络节点的第一关联节点；

第三获取子模块，用于当所述第一关联节点包括多个时，获取每一个所述第一关联节点的度；

组成子模块，用于将所述目标网络节点与满足目标条件的第一关联节点相连，得到组成目标网络节点对应的随机游走序列中的第一子序列；

生成子模块，用于根据获取所述第一子序列的方法，将所述第一关联节点与满足所述目标条件的第二关联节点相连，得到组成目标网络节点对应的随机游走序列中的第二子序列，直至遍历所有网络节点，得到所述目标网络节点对应的随机游走序列。

5.根据权利要求4所述的装置，其特征在于，所述生成模块之前，所述装置还包括：

处理模块，用于对网络节点数据进行数据清洗；

合并模块，用于将剩余的网络节点数据转化为相同的数据形式，合并得到网络节点数据集；

划分模块，用于将所述网络节点数据集中的所有网络节点划分为训练集和测试集，将所述训练集中包含的网络节点作为所述目标网络节点。

6.根据权利要求5所述的装置，其特征在于，所述目标条件为节点的度最大或节点的度处于目标范围，所述第二获取子模块，包括：

确定子模块，用于当所述目标网络节点中，与其相关联的网络节点满足所述目标条件，将与所述目标网络节点关联的度第二大的网络节点作为第一关联节点。

7.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1-3中任一项所述的网络链路确定方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1-3中任一项所述的网络链路确定方法。