CN110705045A - 一种利用网络拓扑特性构建加权网络的链路预测方法 - Google Patents

一种利用网络拓扑特性构建加权网络的链路预测方法 Download PDF

Info

Publication number
CN110705045A
CN110705045A CN201910869223.4A CN201910869223A CN110705045A CN 110705045 A CN110705045 A CN 110705045A CN 201910869223 A CN201910869223 A CN 201910869223A CN 110705045 A CN110705045 A CN 110705045A
Authority
CN
China
Prior art keywords
network
edge
nodes
constructing
link prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910869223.4A
Other languages
English (en)
Other versions
CN110705045B (zh
Inventor
宋玉蓉
袁榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910869223.4A priority Critical patent/CN110705045B/zh
Publication of CN110705045A publication Critical patent/CN110705045A/zh
Application granted granted Critical
Publication of CN110705045B publication Critical patent/CN110705045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开了一种利用网络拓扑特性构建加权网络的链路预测方法,可用于研究复杂网络中边的拓扑权重对链路预测精度的影响。其实现步骤为:根据输入的数据集构建网络,计算网络中每条边的聚类特性,其大小用JC(exy)来衡量和扩散特性,其大小用KD(exy)来衡量。一条边的聚类特性是指以这条边形成三角形的数目,一条边的扩散特性是指这条边的两个节点x,y的邻居节点集合中去除节点x,y后不能和这条边构成三角形的节点的集合,反应一条边的扩散能力。综合定义边的聚类和扩散特性CD(exy),并将其作为边的拓扑权重。把拓扑权重的值带入WCN,WAA,WRA和WLP中,生成新的相似性指标WCD‑CN,WCD‑AA,WCD‑RA和WCD‑LP。根据公式计算被预测节点对x,y的相似度分数Sxy,最后计算出各个指标的AUC值。

Description

一种利用网络拓扑特性构建加权网络的链路预测方法
技术领域
本发明涉及一种复杂网络中的链路预测,尤其是一种利用网络拓扑特性构建加权网络的链路预测方法,属于网络信息挖掘技术领域。
背景技术
复杂网络中的链路预测问题越来越受到各个领域的关注。链路预测是指预测网络中缺失的链接或者将来可能出现的链接,它可用于提取缺失信息,识别虚假交互,评估网络演化机制,帮助提高生物实验的效率,微博中的关注对象推荐,商品推荐系统中为其推荐满意的商品等。目前复杂网络链路预测已经取得了很多成果。链路预测算法主要分为四类:基于节点属性相似性的方法、基于网络结构的方法、基于最大似然估计的方法和机器学习方法。其中基于网络结构相似性的方法因其计算复杂度低,精度高,受到广泛的关注。Gao等人提出了一种结合节点度和节点聚类系数的链路预测算法,充分利用了网络局部结构信息,还体现出了共同邻居节点之间的差异性。Fan等人将共同邻居节点的聚类系数归一化后的平均值考虑在内,提高了链路预测的精度。
随着复杂网络研究的深入,一些简单的无向无权网络已经不能涵盖网络的大部分特征,在真实网络中链接大部分都是带有权重的,Murata等人首次将网络中连边的权重考虑在内,提出加权的相似性指标,实验证明,链接权重在链路预测的过程中起到了积极作用。Qian等人提出WFR算法,利用真实社交网络好友推荐策略,在FR算法的基础上,增加了可以有效区分候选节点与中介节点的权重,预测效果优于FR算法。Chen等人提出一种改进的加权网络链接预测方法,该方法基于这一假设:当链接xz为强关系而链接zy为弱关系时,链路<x,z,y>对节点x和y之间形成链接的贡献最低,该方法在AUC指标上具有一定的优势。
然而现有的加权网络链路预测方法大都根据网络中链接的自然权重进行研究,考虑到一些网络权重信息很难获取,即使获取也通常伴随着噪音,使得链路预测水平提升较小。
发明内容
该方法考虑网络中边的聚类和扩散两大特性,并将其设置为网络中边的拓扑权重值,基于WCN,WAA,WRA,WLP这四个局部结构相似性指标,提出了一种新的链路预测方法。在四个权威数据集上进行实验,仿真结果表明,提出的预测方法使预测精度明显提升。
一种利用网络拓扑特性构建加权网络的链路预测方法,包括以下步骤:
步骤1),将输入的数据集转换成相应的网络的邻接矩阵;
步骤2),计算网络中每条边的聚类特性JC(exy)和扩散特性KD(exy),其中JC(exy)=|{△xyk:△xyk∈△G}|,式中△xyk表示以x,y,k为顶点组成的三角形,△G表示网络中所有的三角形构成的集合,JC(exy)表示以节点x,y为顶点组成三角形的数目。
Figure BDA0002202268360000021
其中Γ(x,y)表示节点x,y的邻居节点集合,Γ(x,y)\x,y表示节点x,y的邻居节点集合中去除节点x,y后构成的集合,
Figure BDA0002202268360000022
指在集合Γ(x,y)\x,y中不能和节点x,y构成三角形的节点的集合;
步骤3),根据边的聚类和扩散特性,定义综合指标CD(exy)=α×JC(exy)+(1-α)×KD(exy),α∈(0,1),并将其作为网络中边的拓扑权重值,其中参数α用来衡量边聚类和扩散特性的相对重要程度;
步骤4),生成带权的邻接矩阵,并将其按随机抽样的方法划分为训练集和测试集,划分后应保证训练集网络的连通性,划分比例为9:1;保证训练集网络的连通性的方法为,随机选择一条边,判断去掉这条边之后,所选边的两端节点是否可以通过网络中的其他边相连,若两端节点可达,则把这条边放入测试集,否则从新选边;
步骤5),将权重CD(exy)应用到WCN,WAA,WRA,WLP指标中,生成相对应指标WCD-CN,WCD-AA,WCD-RA,WCD-LP,其定义如下所示:
Figure BDA0002202268360000024
Figure BDA0002202268360000025
Figure BDA0002202268360000026
步骤6),根据公式(1)-(4),计算被预测节点对x,y的相似度分数Sxy,并生成相应的sim矩阵;
步骤7),根据相似度矩阵,测试集和不存在边集合,计算各个指标的AUC值。
附图说明
图1是本发明的方法流程图;
图2是在USAir,Bibble,Pblogs,Dolphins四个真实网络中,参数α从0到1取不同值时,WCD-CN,WCD-AA,WCD-RA,WCD-LP四个预测指标AUC值的变化曲线。
图3是在USAir,Bibble,Pblogs,Dolphins四个真实网络中,训练集占整个数据集比例分别为50%,60%,70%,80%,90%时,对实验结果的影响。
图4为本发明中步骤2的示意图。
图5为本发明中步骤4的示意图,其中(a)为完整的网络,(b)中虚线表示测试集,实线表示训练集。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1示,该方法包括以下步骤:
步骤1),将输入的数据集转换成相应的网络的邻接矩阵。该步骤是网络的输入与构建,将网络的边列表linklist文件格式转换成网络的邻接矩阵。
步骤2),计算网络中每条边的聚类特性JC(exy)和扩散特性KD(exy),其中JC(exy)=|{△xyk:△xyk∈△G}|,式中△xyk表示以x,y,k为顶点组成的三角形,△G表示网络中所有的三角形构成的集合,JC(exy)表示以节点x,y为顶点组成三角形的数目。
Figure BDA0002202268360000031
其中Γ(x,y)表示节点x,y的邻居节点集合,Γ(x,y)\x,y表示节点x,y的邻居节点集合中去除节点x,y后构成的集合,
Figure BDA0002202268360000032
指在集合Γ(x,y)\x,y中不能和节点x,y构成三角形的节点的集合。
如图4所示,以边e12组成了3个三角形,所以JC(e12)=3,节点1,2的邻居节点有8个,去掉能和节点1,2构成三角形的节点,剩下的5个节点代表了边e12的扩散能力,信息可以通过这些节点扩散到其他节点,所以KD(e12)=5。
步骤3),根据边的聚类和扩散特性,定义综合指标CD(exy)=α×JC(exy)+(1-α)×KD(exy),α∈(0,1),并将其作为网络中边的拓扑权重值,其中参数α用来衡量边聚类和扩散特性的相对重要程度。这一步骤是网络拓扑权重的设置,网络中一条边的重要性与这条边的信息传播过程有关,我们在定义一条边的权重时,综合应用边的聚类特性和扩散特性,并引入参数α来调节聚类特性和扩散特性所占的比重。
步骤4),生成带权的邻接矩阵,并将其划分为训练集和测试集,划分比例为9:1。将步骤3中生成的权重赋值给每一条边,生成带权重的邻接矩阵,接着按随机抽样的方法将网络划分成训练集和测试集,划分后应保证训练集网络的连通性,图5所示,(a)为完整的网络,(b)图中虚线表示测试集,实线表示训练集,按照9:1的比例进行划分。
步骤5),将权重CD(exy)应用到WCN,WAA,WRA,WLP指标中,生成相对应指标WCD-CN,WCD-AA,WCD-RA,WCD-LP,其定义如下所示:
Figure BDA0002202268360000041
Figure BDA0002202268360000042
Figure BDA0002202268360000043
Figure BDA0002202268360000044
步骤6),根据公式(1)-(4),计算被预测节点对x,y的相似度分数Sxy,并生成相应的相似度矩阵(sim矩阵)。
步骤7),根据相似度矩阵,测试集和不存在边集合,计算各个指标的AUC值。AUC作为精度测量,从整体上衡量算法的准确度。其定义如下所示:
Figure BDA0002202268360000045
通过在四个真实网络中进行仿真验证,各个网络的参数如下表:
表1:
Figure BDA0002202268360000046
其中N代表网络的节点数,M代表网络连边数,<k>表示网络的平均度,ρ为网络密度,<d>表示网络的平均距离,C是网络的聚类系数。
在图2中,我们可以明显的看出,当α值逐渐增大的时候,聚类特性所占比例逐渐增加,扩散特性所占比例逐渐较少,AUC值也随之波动,并且产生了最大值,在USAir网络中,我们取α值为0.4,在Bibble网络中,α取值为0.6,在Pblogs网络中,α取值为0.6,在Dolphins网络中,α取值为0.7。这也证明了在定义网络连边的拓扑权重时,聚类特性和扩散特性都是不可或缺的,从而证明了我们方法的有效性。在图3中,我们比较了不同训练集比例对实验结果的影响,我们可以看到,随着训练集比例的增加,预测精确度也相应的提高,这是因为训练集比例增加,能够利用的网络拓扑信息就越多,对聚类和扩散特性的计算就越准确,所以基于链接拓扑权重的WCD含权预测指标的精确度就越高。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种利用网络拓扑特性构建加权网络的链路预测方法,包括以下步骤:
步骤1、将输入的数据集转换成相应的网络的邻接矩阵;
步骤2、计算网络中每条边的聚类特性JC(exy)和扩散特性KD(exy);
步骤3、根据前述步骤中每条边的聚类特性和扩散特性,定义综合指标CD(exy)=α×JC(exy)+(1-α)×KD(exy),α∈(0,1),并将其作为网络中边的拓扑权重值,其中参数α用来衡量边聚类和扩散特性的相对重要程度;
步骤4、生成带权的邻接矩阵,并将其按随机抽样的方法划分为训练集和测试集,划分后应保证训练集网络的连通性,划分比例为9:1;
步骤5、将拓扑权重值CD(exy)应用到WCN,WAA,WRA,WLP指标中,生成相对应指标WCD-CN,WCD-AA,WCD-RA,WCD-LP,其定义如下所示:
Figure FDA0002202268350000012
Figure FDA0002202268350000013
Figure FDA0002202268350000014
步骤6、根据公式(1)-(4),计算被预测节点对x,y的相似度分数Sxy,并生成相应的sim矩阵;
步骤7、根据相似度矩阵,测试集和不存在边集合,计算各个指标的AUC值。
2.根据权利要求1所述的利用网络拓扑特性构建加权网络的链路预测方法,其特征在于:所述步骤1是网络的输入与构建,将网络的边列表linklist文件格式转换成网络的邻接矩阵。
3.根据权利要求1所述的利用网络拓扑特性构建加权网络的链路预测方法,其特征在于:所述步骤2中,聚类特性JC(exy)=|{△xyk:△xyk∈△G}|,式中△xyk表示以x,y,k为顶点组成的三角形,△G表示网络中所有的三角形构成的集合,JC(exy)表示以节点x,y为顶点组成三角形的数目。
4.根据权利要求1所述的利用网络拓扑特性构建加权网络的链路预测方法,其特征在于:所述步骤2中,扩散特性
Figure FDA0002202268350000015
其中Γ(x,y)表示节点x,y的邻居节点集合,Γ(x,y)\x,y表示节点x,y的邻居节点集合中去除节点x,y后构成的集合,
Figure FDA0002202268350000021
指在集合Γ(x,y)\x,y中不能和节点x,y构成三角形的节点的集合。
5.根据权利要求1所述的利用网络拓扑特性构建加权网络的链路预测方法,其特征在于:所述步骤4中,将步骤3中生成的权重赋值给每一条边,生成带权重的邻接矩阵,接着将网络划分成训练集和测试集。
6.根据权利要求1所述的利用网络拓扑特性构建加权网络的链路预测方法,其特征在于:所述步骤4中,保证训练集网络的连通性的方法为,随机选择一条边,判断去掉这条边之后,所选边的两端节点是否可以通过网络中的其他边相连,若两端节点可达,则把这条边放入测试集,否则从新选边。
7.根据权利要求1所述的利用网络拓扑特性构建加权网络的链路预测方法,其特征在于:所述步骤7中,AUC作为精度测量,从整体上衡量算法的准确度。其定义如下所示:
Figure FDA0002202268350000022
CN201910869223.4A 2019-09-16 2019-09-16 一种利用网络拓扑特性构建加权网络的链路预测方法 Active CN110705045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910869223.4A CN110705045B (zh) 2019-09-16 2019-09-16 一种利用网络拓扑特性构建加权网络的链路预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910869223.4A CN110705045B (zh) 2019-09-16 2019-09-16 一种利用网络拓扑特性构建加权网络的链路预测方法

Publications (2)

Publication Number Publication Date
CN110705045A true CN110705045A (zh) 2020-01-17
CN110705045B CN110705045B (zh) 2023-09-12

Family

ID=69195386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910869223.4A Active CN110705045B (zh) 2019-09-16 2019-09-16 一种利用网络拓扑特性构建加权网络的链路预测方法

Country Status (1)

Country Link
CN (1) CN110705045B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815442A (zh) * 2020-06-19 2020-10-23 中汇信息技术(上海)有限公司 一种链接预测的方法、装置和电子设备
CN112765491A (zh) * 2021-04-07 2021-05-07 中国人民解放军国防科技大学 考虑节点局域链接紧密度的链路预测方法和装置
CN115037630A (zh) * 2022-04-29 2022-09-09 电子科技大学长三角研究院(湖州) 一种基于结构扰动模型的加权网络链路预测方法
CN116757278A (zh) * 2023-08-21 2023-09-15 之江实验室 一种预测模型的训练方法、装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106533759A (zh) * 2016-11-11 2017-03-22 南京理工大学 一种多层网络中的基于路径熵的链路预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106533759A (zh) * 2016-11-11 2017-03-22 南京理工大学 一种多层网络中的基于路径熵的链路预测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815442A (zh) * 2020-06-19 2020-10-23 中汇信息技术(上海)有限公司 一种链接预测的方法、装置和电子设备
CN111815442B (zh) * 2020-06-19 2023-08-08 中汇信息技术(上海)有限公司 一种链接预测的方法、装置和电子设备
CN112765491A (zh) * 2021-04-07 2021-05-07 中国人民解放军国防科技大学 考虑节点局域链接紧密度的链路预测方法和装置
CN115037630A (zh) * 2022-04-29 2022-09-09 电子科技大学长三角研究院(湖州) 一种基于结构扰动模型的加权网络链路预测方法
CN115037630B (zh) * 2022-04-29 2023-10-20 电子科技大学长三角研究院(湖州) 一种基于结构扰动模型的加权网络链路预测方法
CN116757278A (zh) * 2023-08-21 2023-09-15 之江实验室 一种预测模型的训练方法、装置、存储介质及电子设备
CN116757278B (zh) * 2023-08-21 2024-01-09 之江实验室 一种预测模型的训练方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN110705045B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN110705045B (zh) 一种利用网络拓扑特性构建加权网络的链路预测方法
KR102061987B1 (ko) 위험 평가 방법 및 시스템
Zhang et al. Modularity optimization in community detection of complex networks
CN105447525A (zh) 一种数据预测分类方法及装置
CN109034562B (zh) 一种社交网络节点重要性评估方法及系统
CN107784598A (zh) 一种网络社区发现方法
Chakraborty et al. On the categorization of scientific citation profiles in computer science
CN105893637A (zh) 大规模微博异构信息网络中的链接预测方法
CN110110529B (zh) 一种基于复杂网络的软件网络关键节点挖掘方法
CN108540327B (zh) 一种动态网络异常链接行为检测方法及系统
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN105760649A (zh) 一种面向大数据的可信度量方法
JP7119820B2 (ja) 予測プログラム、予測方法および学習装置
CN105162654A (zh) 一种基于局部社团信息的链路预测方法
CN102857525A (zh) 基于随机游走策略的社区发现方法
CN107276843B (zh) 一种基于Spark平台的多目标进化社区检测方法
CN107357886A (zh) 一种基于局部h‑index的信息传播关键节点识别方法
CN104715034A (zh) 基于中心人物的有权图重叠社区发现方法
CN104750828A (zh) 一种基于6w规则的归纳演绎知识无意识自学习方法
CN108629418A (zh) 用于训练因果模型的方法和设备
CN109918444A (zh) 模型结果的训练/验证/管理方法/系统、介质及设备
CN114329867B (zh) 一种基于模体的无标度网络鲁棒性度量方法
CN106911512B (zh) 在可交换图中基于博弈的链接预测方法及系统
Sharma et al. Community mining in signed social networks-an automated approach
Guisheng et al. A new link prediction algorithm: node link strength algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant