CN112347369A

CN112347369A - 基于网络表征的集成学习动态社会网络链路预测方法

Info

Publication number: CN112347369A
Application number: CN202011084705.8A
Authority: CN
Inventors: 江逸楠; 刘家琛; 王亚珅; 朱小伶; 王迎雪; 金昊
Original assignee: Electronic Science Research Institute of CTEC
Current assignee: Electronic Science Research Institute of CTEC
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-02-09
Anticipated expiration: 2040-10-12
Also published as: CN112347369B

Abstract

本发明公开了一种基于网络表征的集成学习动态社会网络链路预测方法。所述方法包括：基于预设时间周期划分所采集的动态网络数据，以获得T个子网络快照；从T个子网络快照中抽取训练集和测试集；针对前T‑1个子网络快照，采用网络表示学习方法构建节点特征，并将节点特征转化为第一节点对特征；针对前T‑1个子网络快照，提取基于局部网络结构相似性指标的第二节点对特征；合并第一节点对特征以及第二节点对特征，以获得第三节点对特征；构建集成学习模型，并基于训练集和第三节点对特征，训练集成学习模型；将测试集输入完成训练的集成学习模型，以实现链路预测。采用本发明，可以在不同场景下保持稳定的高精度结果，还可以降低计算复杂度。

Description

基于网络表征的集成学习动态社会网络链路预测方法

技术领域

本发明涉及链路预测技术领域，尤其涉及一种基于网络表征的集成学习动态社会网络链路预测方法。

背景技术

随着网络信息技术的进步，现实生活中的各类复杂系统呈现出网络化特点，一个典型的例子就是社交网络——用户可以看作网络中的节点而用户间的交互关系可以看作网络中的边/链路。在对这类网络的分析应用中，链路预测是其中基础且重要的问题之一。链路预测是指利用网络的己知信息，预测网络中未知链路出现的可能性。在社交网络中一个典型的应用场景是通过已知的网络部分信息，推测用户可能认识的人。

经典的链路预测方法是基于网络拓扑结构的相似性方法，其最常见的做法是依据网络拓扑结构计算所有节点对的相似性得分，通过对得分从高到低排序来进行节点间的链路预测。但这类方法一般只考虑网络的拓扑结构特征而未考虑节点特征。

发明内容

本发明实施例提供一种基于网络表征的集成学习动态社会网络链路预测方法，用以解决现有技术中链路预测方法中只考虑网络的拓扑结构特征而未考虑节点特征问题。

根据本发明实施例的基于网络表征的集成学习动态社会网络链路预测方法，包括：

基于预设时间周期划分所采集的动态网络数据，以获得T个子网络快照；

从所述T个子网络快照中抽取训练集和测试集；

针对前T-1个所述子网络快照，采用网络表示学习方法构建节点特征，并将所述节点特征转化为第一节点对特征；

针对前T-1个所述子网络快照，提取基于局部网络结构相似性指标的第二节点对特征；

合并所述第一节点对特征以及所述第二节点对特征，以获得第三节点对特征；

构建集成学习模型，并基于所述训练集和所述第三节点对特征，训练所述集成学习模型；

将所述测试集输入完成训练的集成学习模型，以实现链路预测。

根据本发明的一些实施例，所述从所述T个子网络快照中抽取训练集和测试集，包括：

获取第T个子网络快照中的所有正样本，以及与所述正样本数量相同的负样本，以构建形成所述第T个子网络快照对应的数据集合，其中，所述正样本表示连接的节点对，所述负样本表示未连接的节点对；

按照预设比例将所述第T个子网络快照对应的数据集合划分为训练集和测试集。

根据本发明的一些实施例，所述针对前T-1个所述子网络快照，采用网络表示学习方法构建节点特征，包括：

采用Node2Vec方法学习每个所述子网络快照中各节点的上下文信息，以构建每个所述子网络快照中各节点的节点特征。

根据本发明的一些实施例，所述将所述节点特征转化为第一节点对特征，包括：

采用Hadamard积的方式，将所述节点特征转化为第一节点对特征。

根据本发明的一些实施例，所述第二节点对特征，包括：Common Neighbors、Preferential Attachment、Jaccard’s Coefficient、以及Adamic-Adar。

根据本发明的一些实施例，所述构建集成学习模型，包括：

基于LightGBM算法模型，构建集成学习模型。

根据本发明的一些实施例，所述基于LightGBM算法模型，构建集成学习模型，包括：

基于LightGBM算法模型，采用直方图算法.基于梯度的单边采样算法.以及互斥特征捆绑算法，构建集成学习模型。

根据本发明实施例的基于网络表征的集成学习动态社会网络链路预测系统，包括：

预处理模块，用于基于预设时间周期划分所采集的动态网络数据，以获得T个子网络快照；并从所述T个子网络快照中抽取训练集和测试集；

第一节点对特征提取模块，用于针对前T-1个所述子网络快照，采用网络表示学习方法构建节点特征，并将所述节点特征转化为第一节点对特征；

第二节点对特征提取模块，用于针对前T-1个所述子网络快照，提取基于局部网络结构相似性指标的第二节点对特征；

第三节点对特征提取模块，用于合并所述第一节点对特征以及所述第二节点对特征，以获得第三节点对特征；

算法模块，用于构建集成学习模型，并基于所述训练集和所述第三节点对特征，训练所述集成学习模型；将所述测试集输入完成训练的集成学习模型，以实现链路预测。

根据本发明实施例的计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如上所述的基于网络表征的集成学习动态社会网络链路预测方法的步骤。

采用本发明实施例，通过融合网络结构特征和节点特征，可以提高预测结果的准确率，通过集成学习的方法，可以对多个模型进行集成，使得算法可以在不同场景下保持稳定的高精度结果。而且通过网络表征以低维表示向量来高效表示网络中的有用信息，可以降低了计算复杂度，因此适用于大规模网络的链路预测。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。在附图中：

图1是本发明实施例中基于网络表征的集成学习动态社会网络链路预测方法流程图；

图2是本发明实施例中基于网络表征的集成学习动态社会网络链路预测方法流程图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

随着机器学习方法的深入研究应用，利用无监督方法获取节点特征来进行链路预测的方法成为研究热点。其中一个具有较好预测效果的方法是基于矩阵分解的方法，其思路是利用矩阵分解获取节点的潜在向量然后重构邻接矩阵来进行链路预测，或利用得到的潜在向量实现链路预测。但是矩阵分解的方法计算复杂度较高，不适用于大规模网络。

由此，本发明实施例提出一种基于网络表征的集成学习动态社会网络链路预测方法。如图1所示，本发明实施例的基于网络表征的集成学习动态社会网络链路预测方法，包括：

S1，基于预设时间周期划分所采集的动态网络数据，以获得T个子网络快照；

S2，从所述T个子网络快照中抽取训练集和测试集；

S3，针对前T-1个所述子网络快照，采用网络表示学习方法构建节点特征，并将所述节点特征转化为第一节点对特征；

S4，针对前T-1个所述子网络快照，提取基于局部网络结构相似性指标的第二节点对特征；

S5，合并所述第一节点对特征以及所述第二节点对特征，以获得第三节点对特征；

S6，构建集成学习模型，并基于所述训练集和所述第三节点对特征，训练所述集成学习模型；

S7，将所述测试集输入完成训练的集成学习模型，以实现链路预测。

需要说明的是，单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

在上述实施例的基础上，进一步提出各变型实施例，在此需要说明的是，为了使描述简要，在各变型实施例中仅描述与上述实施例的不同之处。

需要说明的是，采用Node2Vec方法进行网络表示学习仅仅是本发明的一种可行实施例，并不是对本发明的限定。在本发明中，还可以选用LINE算法进行网络表示学习。

根据本发明的一些实施例，所述构建集成学习模型，包括：

基于LightGBM算法模型，构建集成学习模型。

下面参照图2以一个具体的实施例详细描述根据本发明实施例的基于网络表征的集成学习动态社会网络链路预测方法。值得理解的是，下述描述仅是示例性说明，而不是对本发明的具体限制。凡是采用本发明的相似结构及其相似变化，均应列入本发明的保护范围。

如图2所示，本发明实施例实施例的基于网络表征的集成学习动态社会网络链路预测方法包括以下步骤：

步骤1、对原始数据进行预处理。

将获取的动态网络数据划分为固定时间窗的子网络快照集合，并抽取训练集和测试集。

为了充分利用所获取的网络的时间信息，本发明实施例将历史时间划分为T个时间窗，从而将总网络G均分为T个连续的网络快照，每个子网络代表了相应时间窗内存在的节点与连边。Gm表示第m个时间窗内所形成的子网络，则网络的时间序列表示为：S＝{G1，G2，Gt，…，GT}。

在网络中，连接的节点对被视为正样本，而未连接的节点对被视为负样本。考虑到不连通节点对的数目远大于连通边的数目，因此需要减少候选节点对的数目以优化计算过程。基于欠采样的思想，本发明实施例调整了训练集和测试集中正负样本的比例。降采样策略是从已知的数据集E中存在连接边的节点对，计算其数量，再从数据集E中不存在连接边的节点对中随机抽取相同数量的节点对，将这两部分数据集合拼接在一起组成新的数据集合Enew。从网络快照GT中抽出10％的链路作为测试集中的正样本，另10％作为验证集用于超参数调节，余下的含有原始网络80％链路的网络作为训练集。在抽取测试集中的过程时，应该保证训练集中的网络始终连通。

步骤2、通过网络表示学习方法构建节点特征。

本发明实施例采用Node2Vec表示学习方法学习网络中各节点的上下文信息，从而得到网络中各节点的向量表示。Node2vec通过引入两个参数p和q，将宽度优先搜索和深度优先搜索引入了随机游走序列的生成过程。宽度优先搜索注重邻近的节点并刻画了相对局部的一种网络表示，宽度优先中的节点一般会出现很多次，从而降低刻画中心节点的邻居节点的方差；深度优先搜索反应了更高层面上的节点间的同质性。两个参数p和q定义了不同的邻居的跳转概率，p控制跳向上一个节点的邻居的概率，q控制跳向上一个节点的非邻居的概率。本发明实施例中首先将训练集中多个网络快照S＝{G1，G2，Gt，…，GT-1}独立作为Node2Vec算法的输入，设置维度为64，则算法会输出网络中每个节点的64维的向量表示。

步骤3、提取基于局部网络结构相似性指标的节点对特征。

本发明实施例选取Common Neighbors(CN)、Preferential Attachment(PA)、Jaccard's Coefficient(JC)和Adamic-Adar(AA)作为人工提取的网络节点对特征。

步骤4、将节点特征与网络结构特征进行组合获得总特征集。

将步骤2中的节点特征通过Hadamard积的方式转化为节点对特征，并与步骤3中获得的节点对特征合并作为网络快照中节点对的总特征集，此时会得到节点对的特征时间序列(F1,F2,…,FT-1)。特征序列被串联作为数据集中节点对的特征，从而得到特征向量的长度为(T-1)*N，其中T为网络快照的个数，N为单个快照中节点对特征的长度。

步骤5、通过集成学习方法实现链路预测。

本发明实施例采用LightGBM模型作为集成学习模型。LightGBM是一种基于决策树算法的梯度提升框架，优化了基学习器也就是决策树的分割点寻找过程以及树的生长方式，具有训练效率快、内存占用低等优点。本发明实施例采用了直方图算法、基于梯度的单边采样算法以及互斥特征捆绑算法。直方图算法首先将浮点数特征划分到不同bin中，同时构造一个相应的直方图，会使得数据的表达更加简化，降低了内存占用率，有一定正则化效果。基于梯度的单边采样算法通过保留具有较大梯度的样本，在较小梯度样本上进行随机采样从而降低数据量。互斥特征捆绑算法则在高维稀疏特征空间中，将许多互斥特征绑定为单一特征，可以有效减少特征数量。使用以上改进方法，使得LightGBM模型在保持较高精确度的同时，加快了训练速度，降低了稀疏数据处理的时间复杂度。

本发明实施例提出的基于网络表征的集成学习动态社会网络链路预测方法，具有以下有益效果：

(1)提高预测结果的准确率。

本发明实施例融合了网络结构特征和节点特征，因此更贴合实际情况且具有较好的预测效果。在USAir和Hamster数据集上与其它基于机器学习的方法进行对比实验，结果显示本发明实施例所提出的方法在预测准确率上获得4％-11％的提升。

(2)提高预测结果的稳定性。

基于单一机器学习的链路预测方法对于不同应用场景结果可能时好时坏，不具有稳定性，不能一直保持高精度的预测。而本发明实施例提出的基于集成学习的方法，通过对多个模型的集成，可以在不同场景下保持稳定的高精度结果。

(3)适用于针对大规模网络的工程化应用。

本发明实施例通过网络表征以低维表示向量来高效表示网络中的有用信息，从而降低了计算复杂度，因此适用于大规模网络的链路预测。

需要说明的是，以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

根据本发明的一些实施例，所述预处理模块，用于：

根据本发明的一些实施例，所述第一节点对特征提取模块，用于：

根据本发明的一些实施例，所述算法模块，用于：

基于LightGBM算法模型，构建集成学习模型。

根据本发明的一些实施例，所述算法模块，用于：

本实施例所述计算机可读存储介质包括但不限于为：ROM、RAM、磁盘或光盘等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

需要说明的是，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。

Claims

1.一种基于网络表征的集成学习动态社会网络链路预测方法，其特征在于，包括：

从所述T个子网络快照中抽取训练集和测试集；

2.如权利要求1所述的方法，其特征在于，所述从所述T个子网络快照中抽取训练集和测试集，包括：

3.如权利要求1所述的方法，其特征在于，所述针对前T-1个所述子网络快照，采用网络表示学习方法构建节点特征，包括：

4.如权利要求3所述的方法，其特征在于，所述将所述节点特征转化为第一节点对特征，包括：

5.如权利要求1所述的方法，其特征在于，所述第二节点对特征，包括：CommonNeighbors、Preferential Attachment、Jaccard’s Coefficient、以及Adamic-Adar。

6.如权利要求1所述的方法，其特征在于，所述构建集成学习模型，包括：

基于LightGBM算法模型，构建集成学习模型。

7.如权利要求6所述的方法，其特征在于，所述基于LightGBM算法模型，构建集成学习模型，包括：

基于LightGBM算法模型，采用直方图算法、基于梯度的单边采样算法、以及互斥特征捆绑算法，构建集成学习模型。

8.一种基于网络表征的集成学习动态社会网络链路预测系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如权利要求1至7中任一项所述的基于网络表征的集成学习动态社会网络链路预测方法的步骤。