CN112347369A - 基于网络表征的集成学习动态社会网络链路预测方法 - Google Patents

基于网络表征的集成学习动态社会网络链路预测方法 Download PDF

Info

Publication number
CN112347369A
CN112347369A CN202011084705.8A CN202011084705A CN112347369A CN 112347369 A CN112347369 A CN 112347369A CN 202011084705 A CN202011084705 A CN 202011084705A CN 112347369 A CN112347369 A CN 112347369A
Authority
CN
China
Prior art keywords
network
node
sub
node pair
snapshots
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011084705.8A
Other languages
English (en)
Other versions
CN112347369B (zh
Inventor
江逸楠
刘家琛
王亚珅
朱小伶
王迎雪
金昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronic Science Research Institute of CTEC
Original Assignee
Electronic Science Research Institute of CTEC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronic Science Research Institute of CTEC filed Critical Electronic Science Research Institute of CTEC
Priority to CN202011084705.8A priority Critical patent/CN112347369B/zh
Publication of CN112347369A publication Critical patent/CN112347369A/zh
Application granted granted Critical
Publication of CN112347369B publication Critical patent/CN112347369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于网络表征的集成学习动态社会网络链路预测方法。所述方法包括:基于预设时间周期划分所采集的动态网络数据,以获得T个子网络快照;从T个子网络快照中抽取训练集和测试集;针对前T‑1个子网络快照,采用网络表示学习方法构建节点特征,并将节点特征转化为第一节点对特征;针对前T‑1个子网络快照,提取基于局部网络结构相似性指标的第二节点对特征;合并第一节点对特征以及第二节点对特征,以获得第三节点对特征;构建集成学习模型,并基于训练集和第三节点对特征,训练集成学习模型;将测试集输入完成训练的集成学习模型,以实现链路预测。采用本发明,可以在不同场景下保持稳定的高精度结果,还可以降低计算复杂度。

Description

基于网络表征的集成学习动态社会网络链路预测方法
技术领域
本发明涉及链路预测技术领域,尤其涉及一种基于网络表征的集成学习动态社会网络链路预测方法。
背景技术
随着网络信息技术的进步,现实生活中的各类复杂系统呈现出网络化特点,一个典型的例子就是社交网络——用户可以看作网络中的节点而用户间的交互关系可以看作网络中的边/链路。在对这类网络的分析应用中,链路预测是其中基础且重要的问题之一。链路预测是指利用网络的己知信息,预测网络中未知链路出现的可能性。在社交网络中一个典型的应用场景是通过已知的网络部分信息,推测用户可能认识的人。
经典的链路预测方法是基于网络拓扑结构的相似性方法,其最常见的做法是依据网络拓扑结构计算所有节点对的相似性得分,通过对得分从高到低排序来进行节点间的链路预测。但这类方法一般只考虑网络的拓扑结构特征而未考虑节点特征。
发明内容
本发明实施例提供一种基于网络表征的集成学习动态社会网络链路预测方法,用以解决现有技术中链路预测方法中只考虑网络的拓扑结构特征而未考虑节点特征问题。
根据本发明实施例的基于网络表征的集成学习动态社会网络链路预测方法,包括:
基于预设时间周期划分所采集的动态网络数据,以获得T个子网络快照;
从所述T个子网络快照中抽取训练集和测试集;
针对前T-1个所述子网络快照,采用网络表示学习方法构建节点特征,并将所述节点特征转化为第一节点对特征;
针对前T-1个所述子网络快照,提取基于局部网络结构相似性指标的第二节点对特征;
合并所述第一节点对特征以及所述第二节点对特征,以获得第三节点对特征;
构建集成学习模型,并基于所述训练集和所述第三节点对特征,训练所述集成学习模型;
将所述测试集输入完成训练的集成学习模型,以实现链路预测。
根据本发明的一些实施例,所述从所述T个子网络快照中抽取训练集和测试集,包括:
获取第T个子网络快照中的所有正样本,以及与所述正样本数量相同的负样本,以构建形成所述第T个子网络快照对应的数据集合,其中,所述正样本表示连接的节点对,所述负样本表示未连接的节点对;
按照预设比例将所述第T个子网络快照对应的数据集合划分为训练集和测试集。
根据本发明的一些实施例,所述针对前T-1个所述子网络快照,采用网络表示学习方法构建节点特征,包括:
采用Node2Vec方法学习每个所述子网络快照中各节点的上下文信息,以构建每个所述子网络快照中各节点的节点特征。
根据本发明的一些实施例,所述将所述节点特征转化为第一节点对特征,包括:
采用Hadamard积的方式,将所述节点特征转化为第一节点对特征。
根据本发明的一些实施例,所述第二节点对特征,包括:Common Neighbors、Preferential Attachment、Jaccard’s Coefficient、以及Adamic-Adar。
根据本发明的一些实施例,所述构建集成学习模型,包括:
基于LightGBM算法模型,构建集成学习模型。
根据本发明的一些实施例,所述基于LightGBM算法模型,构建集成学习模型,包括:
基于LightGBM算法模型,采用直方图算法.基于梯度的单边采样算法.以及互斥特征捆绑算法,构建集成学习模型。
根据本发明实施例的基于网络表征的集成学习动态社会网络链路预测系统,包括:
预处理模块,用于基于预设时间周期划分所采集的动态网络数据,以获得T个子网络快照;并从所述T个子网络快照中抽取训练集和测试集;
第一节点对特征提取模块,用于针对前T-1个所述子网络快照,采用网络表示学习方法构建节点特征,并将所述节点特征转化为第一节点对特征;
第二节点对特征提取模块,用于针对前T-1个所述子网络快照,提取基于局部网络结构相似性指标的第二节点对特征;
第三节点对特征提取模块,用于合并所述第一节点对特征以及所述第二节点对特征,以获得第三节点对特征;
算法模块,用于构建集成学习模型,并基于所述训练集和所述第三节点对特征,训练所述集成学习模型;将所述测试集输入完成训练的集成学习模型,以实现链路预测。
根据本发明实施例的计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如上所述的基于网络表征的集成学习动态社会网络链路预测方法的步骤。
采用本发明实施例,通过融合网络结构特征和节点特征,可以提高预测结果的准确率,通过集成学习的方法,可以对多个模型进行集成,使得算法可以在不同场景下保持稳定的高精度结果。而且通过网络表征以低维表示向量来高效表示网络中的有用信息,可以降低了计算复杂度,因此适用于大规模网络的链路预测。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在附图中:
图1是本发明实施例中基于网络表征的集成学习动态社会网络链路预测方法流程图;
图2是本发明实施例中基于网络表征的集成学习动态社会网络链路预测方法流程图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
随着机器学习方法的深入研究应用,利用无监督方法获取节点特征来进行链路预测的方法成为研究热点。其中一个具有较好预测效果的方法是基于矩阵分解的方法,其思路是利用矩阵分解获取节点的潜在向量然后重构邻接矩阵来进行链路预测,或利用得到的潜在向量实现链路预测。但是矩阵分解的方法计算复杂度较高,不适用于大规模网络。
由此,本发明实施例提出一种基于网络表征的集成学习动态社会网络链路预测方法。如图1所示,本发明实施例的基于网络表征的集成学习动态社会网络链路预测方法,包括:
S1,基于预设时间周期划分所采集的动态网络数据,以获得T个子网络快照;
S2,从所述T个子网络快照中抽取训练集和测试集;
S3,针对前T-1个所述子网络快照,采用网络表示学习方法构建节点特征,并将所述节点特征转化为第一节点对特征;
S4,针对前T-1个所述子网络快照,提取基于局部网络结构相似性指标的第二节点对特征;
S5,合并所述第一节点对特征以及所述第二节点对特征,以获得第三节点对特征;
S6,构建集成学习模型,并基于所述训练集和所述第三节点对特征,训练所述集成学习模型;
S7,将所述测试集输入完成训练的集成学习模型,以实现链路预测。
需要说明的是,单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
采用本发明实施例,通过融合网络结构特征和节点特征,可以提高预测结果的准确率,通过集成学习的方法,可以对多个模型进行集成,使得算法可以在不同场景下保持稳定的高精度结果。而且通过网络表征以低维表示向量来高效表示网络中的有用信息,可以降低了计算复杂度,因此适用于大规模网络的链路预测。
在上述实施例的基础上,进一步提出各变型实施例,在此需要说明的是,为了使描述简要,在各变型实施例中仅描述与上述实施例的不同之处。
根据本发明的一些实施例,所述从所述T个子网络快照中抽取训练集和测试集,包括:
获取第T个子网络快照中的所有正样本,以及与所述正样本数量相同的负样本,以构建形成所述第T个子网络快照对应的数据集合,其中,所述正样本表示连接的节点对,所述负样本表示未连接的节点对;
按照预设比例将所述第T个子网络快照对应的数据集合划分为训练集和测试集。
根据本发明的一些实施例,所述针对前T-1个所述子网络快照,采用网络表示学习方法构建节点特征,包括:
采用Node2Vec方法学习每个所述子网络快照中各节点的上下文信息,以构建每个所述子网络快照中各节点的节点特征。
需要说明的是,采用Node2Vec方法进行网络表示学习仅仅是本发明的一种可行实施例,并不是对本发明的限定。在本发明中,还可以选用LINE算法进行网络表示学习。
根据本发明的一些实施例,所述将所述节点特征转化为第一节点对特征,包括:
采用Hadamard积的方式,将所述节点特征转化为第一节点对特征。
根据本发明的一些实施例,所述第二节点对特征,包括:Common Neighbors、Preferential Attachment、Jaccard’s Coefficient、以及Adamic-Adar。
根据本发明的一些实施例,所述构建集成学习模型,包括:
基于LightGBM算法模型,构建集成学习模型。
根据本发明的一些实施例,所述基于LightGBM算法模型,构建集成学习模型,包括:
基于LightGBM算法模型,采用直方图算法.基于梯度的单边采样算法.以及互斥特征捆绑算法,构建集成学习模型。
下面参照图2以一个具体的实施例详细描述根据本发明实施例的基于网络表征的集成学习动态社会网络链路预测方法。值得理解的是,下述描述仅是示例性说明,而不是对本发明的具体限制。凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围。
如图2所示,本发明实施例实施例的基于网络表征的集成学习动态社会网络链路预测方法包括以下步骤:
步骤1、对原始数据进行预处理。
将获取的动态网络数据划分为固定时间窗的子网络快照集合,并抽取训练集和测试集。
为了充分利用所获取的网络的时间信息,本发明实施例将历史时间划分为T个时间窗,从而将总网络G均分为T个连续的网络快照,每个子网络代表了相应时间窗内存在的节点与连边。Gm表示第m个时间窗内所形成的子网络,则网络的时间序列表示为:S={G1,G2,Gt,…,GT}。
在网络中,连接的节点对被视为正样本,而未连接的节点对被视为负样本。考虑到不连通节点对的数目远大于连通边的数目,因此需要减少候选节点对的数目以优化计算过程。基于欠采样的思想,本发明实施例调整了训练集和测试集中正负样本的比例。降采样策略是从已知的数据集E中存在连接边的节点对,计算其数量,再从数据集E中不存在连接边的节点对中随机抽取相同数量的节点对,将这两部分数据集合拼接在一起组成新的数据集合Enew。从网络快照GT中抽出10%的链路作为测试集中的正样本,另10%作为验证集用于超参数调节,余下的含有原始网络80%链路的网络作为训练集。在抽取测试集中的过程时,应该保证训练集中的网络始终连通。
步骤2、通过网络表示学习方法构建节点特征。
本发明实施例采用Node2Vec表示学习方法学习网络中各节点的上下文信息,从而得到网络中各节点的向量表示。Node2vec通过引入两个参数p和q,将宽度优先搜索和深度优先搜索引入了随机游走序列的生成过程。宽度优先搜索注重邻近的节点并刻画了相对局部的一种网络表示,宽度优先中的节点一般会出现很多次,从而降低刻画中心节点的邻居节点的方差;深度优先搜索反应了更高层面上的节点间的同质性。两个参数p和q定义了不同的邻居的跳转概率,p控制跳向上一个节点的邻居的概率,q控制跳向上一个节点的非邻居的概率。本发明实施例中首先将训练集中多个网络快照S={G1,G2,Gt,…,GT-1}独立作为Node2Vec算法的输入,设置维度为64,则算法会输出网络中每个节点的64维的向量表示。
步骤3、提取基于局部网络结构相似性指标的节点对特征。
本发明实施例选取Common Neighbors(CN)、Preferential Attachment(PA)、Jaccard's Coefficient(JC)和Adamic-Adar(AA)作为人工提取的网络节点对特征。
步骤4、将节点特征与网络结构特征进行组合获得总特征集。
将步骤2中的节点特征通过Hadamard积的方式转化为节点对特征,并与步骤3中获得的节点对特征合并作为网络快照中节点对的总特征集,此时会得到节点对的特征时间序列(F1,F2,…,FT-1)。特征序列被串联作为数据集中节点对的特征,从而得到特征向量的长度为(T-1)*N,其中T为网络快照的个数,N为单个快照中节点对特征的长度。
步骤5、通过集成学习方法实现链路预测。
本发明实施例采用LightGBM模型作为集成学习模型。LightGBM是一种基于决策树算法的梯度提升框架,优化了基学习器也就是决策树的分割点寻找过程以及树的生长方式,具有训练效率快、内存占用低等优点。本发明实施例采用了直方图算法、基于梯度的单边采样算法以及互斥特征捆绑算法。直方图算法首先将浮点数特征划分到不同bin中,同时构造一个相应的直方图,会使得数据的表达更加简化,降低了内存占用率,有一定正则化效果。基于梯度的单边采样算法通过保留具有较大梯度的样本,在较小梯度样本上进行随机采样从而降低数据量。互斥特征捆绑算法则在高维稀疏特征空间中,将许多互斥特征绑定为单一特征,可以有效减少特征数量。使用以上改进方法,使得LightGBM模型在保持较高精确度的同时,加快了训练速度,降低了稀疏数据处理的时间复杂度。
本发明实施例提出的基于网络表征的集成学习动态社会网络链路预测方法,具有以下有益效果:
(1)提高预测结果的准确率。
本发明实施例融合了网络结构特征和节点特征,因此更贴合实际情况且具有较好的预测效果。在USAir和Hamster数据集上与其它基于机器学习的方法进行对比实验,结果显示本发明实施例所提出的方法在预测准确率上获得4%-11%的提升。
(2)提高预测结果的稳定性。
基于单一机器学习的链路预测方法对于不同应用场景结果可能时好时坏,不具有稳定性,不能一直保持高精度的预测。而本发明实施例提出的基于集成学习的方法,通过对多个模型的集成,可以在不同场景下保持稳定的高精度结果。
(3)适用于针对大规模网络的工程化应用。
本发明实施例通过网络表征以低维表示向量来高效表示网络中的有用信息,从而降低了计算复杂度,因此适用于大规模网络的链路预测。
需要说明的是,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
根据本发明实施例的基于网络表征的集成学习动态社会网络链路预测系统,包括:
预处理模块,用于基于预设时间周期划分所采集的动态网络数据,以获得T个子网络快照;并从所述T个子网络快照中抽取训练集和测试集;
第一节点对特征提取模块,用于针对前T-1个所述子网络快照,采用网络表示学习方法构建节点特征,并将所述节点特征转化为第一节点对特征;
第二节点对特征提取模块,用于针对前T-1个所述子网络快照,提取基于局部网络结构相似性指标的第二节点对特征;
第三节点对特征提取模块,用于合并所述第一节点对特征以及所述第二节点对特征,以获得第三节点对特征;
算法模块,用于构建集成学习模型,并基于所述训练集和所述第三节点对特征,训练所述集成学习模型;将所述测试集输入完成训练的集成学习模型,以实现链路预测。
采用本发明实施例,通过融合网络结构特征和节点特征,可以提高预测结果的准确率,通过集成学习的方法,可以对多个模型进行集成,使得算法可以在不同场景下保持稳定的高精度结果。而且通过网络表征以低维表示向量来高效表示网络中的有用信息,可以降低了计算复杂度,因此适用于大规模网络的链路预测。
在上述实施例的基础上,进一步提出各变型实施例,在此需要说明的是,为了使描述简要,在各变型实施例中仅描述与上述实施例的不同之处。
根据本发明的一些实施例,所述预处理模块,用于:
获取第T个子网络快照中的所有正样本,以及与所述正样本数量相同的负样本,以构建形成所述第T个子网络快照对应的数据集合,其中,所述正样本表示连接的节点对,所述负样本表示未连接的节点对;
按照预设比例将所述第T个子网络快照对应的数据集合划分为训练集和测试集。
根据本发明的一些实施例,所述第一节点对特征提取模块,用于:
采用Node2Vec方法学习每个所述子网络快照中各节点的上下文信息,以构建每个所述子网络快照中各节点的节点特征。
根据本发明的一些实施例,所述第一节点对特征提取模块,用于:
采用Hadamard积的方式,将所述节点特征转化为第一节点对特征。
根据本发明的一些实施例,所述第二节点对特征,包括:Common Neighbors、Preferential Attachment、Jaccard’s Coefficient、以及Adamic-Adar。
根据本发明的一些实施例,所述算法模块,用于:
基于LightGBM算法模型,构建集成学习模型。
根据本发明的一些实施例,所述算法模块,用于:
基于LightGBM算法模型,采用直方图算法.基于梯度的单边采样算法.以及互斥特征捆绑算法,构建集成学习模型。
根据本发明实施例的计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如上所述的基于网络表征的集成学习动态社会网络链路预测方法的步骤。
采用本发明实施例,通过融合网络结构特征和节点特征,可以提高预测结果的准确率,通过集成学习的方法,可以对多个模型进行集成,使得算法可以在不同场景下保持稳定的高精度结果。而且通过网络表征以低维表示向量来高效表示网络中的有用信息,可以降低了计算复杂度,因此适用于大规模网络的链路预测。
本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
需要说明的是,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。

Claims (9)

1.一种基于网络表征的集成学习动态社会网络链路预测方法,其特征在于,包括:
基于预设时间周期划分所采集的动态网络数据,以获得T个子网络快照;
从所述T个子网络快照中抽取训练集和测试集;
针对前T-1个所述子网络快照,采用网络表示学习方法构建节点特征,并将所述节点特征转化为第一节点对特征;
针对前T-1个所述子网络快照,提取基于局部网络结构相似性指标的第二节点对特征;
合并所述第一节点对特征以及所述第二节点对特征,以获得第三节点对特征;
构建集成学习模型,并基于所述训练集和所述第三节点对特征,训练所述集成学习模型;
将所述测试集输入完成训练的集成学习模型,以实现链路预测。
2.如权利要求1所述的方法,其特征在于,所述从所述T个子网络快照中抽取训练集和测试集,包括:
获取第T个子网络快照中的所有正样本,以及与所述正样本数量相同的负样本,以构建形成所述第T个子网络快照对应的数据集合,其中,所述正样本表示连接的节点对,所述负样本表示未连接的节点对;
按照预设比例将所述第T个子网络快照对应的数据集合划分为训练集和测试集。
3.如权利要求1所述的方法,其特征在于,所述针对前T-1个所述子网络快照,采用网络表示学习方法构建节点特征,包括:
采用Node2Vec方法学习每个所述子网络快照中各节点的上下文信息,以构建每个所述子网络快照中各节点的节点特征。
4.如权利要求3所述的方法,其特征在于,所述将所述节点特征转化为第一节点对特征,包括:
采用Hadamard积的方式,将所述节点特征转化为第一节点对特征。
5.如权利要求1所述的方法,其特征在于,所述第二节点对特征,包括:CommonNeighbors、Preferential Attachment、Jaccard’s Coefficient、以及Adamic-Adar。
6.如权利要求1所述的方法,其特征在于,所述构建集成学习模型,包括:
基于LightGBM算法模型,构建集成学习模型。
7.如权利要求6所述的方法,其特征在于,所述基于LightGBM算法模型,构建集成学习模型,包括:
基于LightGBM算法模型,采用直方图算法、基于梯度的单边采样算法、以及互斥特征捆绑算法,构建集成学习模型。
8.一种基于网络表征的集成学习动态社会网络链路预测系统,其特征在于,包括:
预处理模块,用于基于预设时间周期划分所采集的动态网络数据,以获得T个子网络快照;并从所述T个子网络快照中抽取训练集和测试集;
第一节点对特征提取模块,用于针对前T-1个所述子网络快照,采用网络表示学习方法构建节点特征,并将所述节点特征转化为第一节点对特征;
第二节点对特征提取模块,用于针对前T-1个所述子网络快照,提取基于局部网络结构相似性指标的第二节点对特征;
第三节点对特征提取模块,用于合并所述第一节点对特征以及所述第二节点对特征,以获得第三节点对特征;
算法模块,用于构建集成学习模型,并基于所述训练集和所述第三节点对特征,训练所述集成学习模型;将所述测试集输入完成训练的集成学习模型,以实现链路预测。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至7中任一项所述的基于网络表征的集成学习动态社会网络链路预测方法的步骤。
CN202011084705.8A 2020-10-12 2020-10-12 基于网络表征的集成学习动态社会网络链路预测方法 Active CN112347369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011084705.8A CN112347369B (zh) 2020-10-12 2020-10-12 基于网络表征的集成学习动态社会网络链路预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011084705.8A CN112347369B (zh) 2020-10-12 2020-10-12 基于网络表征的集成学习动态社会网络链路预测方法

Publications (2)

Publication Number Publication Date
CN112347369A true CN112347369A (zh) 2021-02-09
CN112347369B CN112347369B (zh) 2023-09-08

Family

ID=74361785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011084705.8A Active CN112347369B (zh) 2020-10-12 2020-10-12 基于网络表征的集成学习动态社会网络链路预测方法

Country Status (1)

Country Link
CN (1) CN112347369B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151279A (zh) * 2023-08-15 2023-12-01 哈尔滨工业大学 一种基于线图神经网络的同构网络链路预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019014894A1 (zh) * 2017-07-20 2019-01-24 深圳大学 网络链路预测方法及装置
CN109347697A (zh) * 2018-10-10 2019-02-15 南昌航空大学 机会网络链路预测方法、装置及可读存储介质
CN110138595A (zh) * 2019-04-12 2019-08-16 中国科学院深圳先进技术研究院 动态加权网络的时间链路预测方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019014894A1 (zh) * 2017-07-20 2019-01-24 深圳大学 网络链路预测方法及装置
CN109347697A (zh) * 2018-10-10 2019-02-15 南昌航空大学 机会网络链路预测方法、装置及可读存储介质
CN110138595A (zh) * 2019-04-12 2019-08-16 中国科学院深圳先进技术研究院 动态加权网络的时间链路预测方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘嘉琪;邹俊韬;: "一种基于深度RTRBM的动态网络链路预测方法", 计算机技术与发展 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151279A (zh) * 2023-08-15 2023-12-01 哈尔滨工业大学 一种基于线图神经网络的同构网络链路预测方法及系统

Also Published As

Publication number Publication date
CN112347369B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN110263280B (zh) 一种基于多视图的动态链路预测深度模型及应用
CN111737535B (zh) 一种基于元结构和图神经网络的网络表征学习方法
CN108734223A (zh) 基于社区划分的社交网络好友推荐方法
CN107391542A (zh) 一种基于文件知识图谱的开源软件社区专家推荐方法
CN113988464A (zh) 基于图神经网络的网络链路属性关系预测方法及设备
Selvarajah et al. Dynamic network link prediction by learning effective subgraphs using CNN-LSTM
CN112767186A (zh) 一种基于7-子图拓扑结构的社交网络链接预测方法
CN112347369A (zh) 基于网络表征的集成学习动态社会网络链路预测方法
CN111382318B (zh) 一种基于信息动力学的动态社团检测方法
CN112910680A (zh) 一种融合多粒度社区信息的网络嵌入方法
CN116758349A (zh) 基于多尺度超像素节点聚合图卷积残差网络的高光谱图像分类方法
CN111126443A (zh) 基于随机游走的网络表示学习方法
CN115544307A (zh) 基于关联矩阵的有向图数据特征提取与表达方法和系统
CN106911512B (zh) 在可交换图中基于博弈的链接预测方法及系统
CN115456093A (zh) 一种基于注意力图神经网络的高性能图聚类方法
CN106815653B (zh) 一种基于距离博弈的社交网络关系预测方法及系统
CN113392279A (zh) 基于主观逻辑和前馈神经网络的相似有向子图搜索方法及系统
CN114169449A (zh) 一种跨社交网络用户身份匹配的方法
CN110874406B (zh) 一种为预印本网络中拟投稿的论文推荐合适期刊及审稿人的方法
CN113077003A (zh) 基于图采样的图注意力网络归纳学习方法
CN114494643A (zh) 基于网络划分的疾病传播控制方法
CN114154024A (zh) 一种基于动态网络属性表示的链接预测方法
CN109918659B (zh) 一种基于不保留最优个体遗传算法优化词向量的方法
Lin et al. A genetic algorithm approach for detecting hierarchical and overlapping community structure in dynamic social networks
CN106506183A (zh) 网络社区的发现方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant