CN108449209A - 基于路径信息和节点信息融合的社交网络好友推荐方法 - Google Patents

基于路径信息和节点信息融合的社交网络好友推荐方法 Download PDF

Info

Publication number
CN108449209A
CN108449209A CN201810232469.6A CN201810232469A CN108449209A CN 108449209 A CN108449209 A CN 108449209A CN 201810232469 A CN201810232469 A CN 201810232469A CN 108449209 A CN108449209 A CN 108449209A
Authority
CN
China
Prior art keywords
link
path length
node
value
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810232469.6A
Other languages
English (en)
Inventor
杨新武
尚雨薇
张煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201810232469.6A priority Critical patent/CN108449209A/zh
Publication of CN108449209A publication Critical patent/CN108449209A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Mathematical Optimization (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于路径信息和节点信息融合的社交网络好友推荐方法,链接预测是根据现有网络拓扑结构和节点属性信息等去预测两点间存在连接可能性的大小。现有的大部分节点相似性算法只考虑了共同邻居节点的信息,即路径长度为2的拓扑结构,没有考虑路径长度和节点信息的融合,根据六度分割理论和复杂网络小世界性,大多数复杂网络的两节点间都存在一条相当短的路径,针对这些不足,本发明提出一种基于路径的融合节点信息的相似性的好友推荐算法,通过在社交网络Facebook的实验,比较分析了本发明算法与传统节点相似性算法的准确性,证实了该算法的可用性。

Description

基于路径信息和节点信息融合的社交网络好友推荐方法
技术领域
本发明属于复杂网络链路预测领域。具体是引入路径信息和节点信息的融合的节点相似性算法用在社交网络好友推荐中的一种新方法。
背景技术
复杂网络指的是节点间连接结构复杂,节点数量大的网络。复杂网络具有自组织、自相似、吸引子、小世界、无标度等特性。在现实生活中,许多系统都可以被描述为复杂网络,如电力网络,交通运输网络,生物网络,文献引用网络,社交网络等都可以从复杂网络的角度和方法来描述。这样可以更准确地分析现实生活中的网络结构和结构演化。
链接预测问题是复杂网络研究方向之一,它是利用已知网络信息(节点及其拓扑结构)预测可能发生的链接。链接预测包括两方面内容:(1)此刻不存在但未来可能发生的链接(2)此刻已存在但由于数据不完整而未被识别的链接。当前的研究方法主要有以下几种:(1)基于有监督学习的分类模型,如决策树、朴素贝叶斯、神经网络、SVM、KNN以及集成方法中的bagging、boosting和随机森林等。把链接预测问题转换为二分类问题,有链接为1,无链接为0,训练一个二分类器。(2)基于相似性的链路预测,又细分为基于局部信息的相似性指标、基于路径的相似性、基于随机游走的相似性指标。(3)基于最大似然估计的链路预测,又细分为层次结构模型和随机分块模型。(4)概率模型。
链接预测可以被应用在生物学研究领域,通过已存在的分子结构预测一些潜在链接结构,同时,链接预测也被广泛应用在社交网络的好友关系推荐(如新浪微博、人人网、腾讯好友的好友关系预测)、推荐系统等领域中,本发明将其应用在好友关系预测上,将可能是朋友的用户发送给当前用户,如推荐准确,显然可以提升网站在用户心目中的地位。
现有的链接预测方法中,多数基于节点相似性,这是一种最早被提出且简单有效的方法,其中,共同邻居(CN)是一种最常用的算法,计算共同邻居节点个数;如有一些方法考虑了对两个节点各自共同邻居的集合进行操作,引入了余弦相似度提出了SALTON指标,其它常用基于节点相似性的测量方法如表1所示:
表1节点相似性
发明内容
现有的大部分节点相似性算法只考虑了共同邻居节点的信息,即路径长度为2的拓扑结构,没有考虑路径长度和节点信息的融合,为了保持基于节点相似性链接预测算法的快捷有效的特性,并对针对这些不足,本发明提出一种基于路径的融合节点信息的相似性的链接预测算法(Path with pagerank Attraction index,PPA)。
本发明采用的技术方案如下:
本发明采用的技术方案为基于路径信息和节点信息融合的社交网络好友推荐方法,现有的大部分节点相似性算法只考虑了共同邻居节点的信息,即路径长度为2的拓扑结构,没有考虑路径长度和节点信息的融合,根据六度分割理论和复杂网络小世界性,大多数复杂网络的两节点间都存在一条相当短的路径,针对这些不足,本发明提出一种基于路径的融合节点信息的相似性的链接预测算法。
基于路径的融合节点信息的相似性的链接预测算法,其特征包括以下步骤:
S1对网络结构中节点和链接进行表示,方法如下:
获取所有节点N和链接E的信息,用一种数据结构表示为原图G,如能够用邻接矩阵表示,邻接矩阵大小为N×N,每一位是0或1,0表示没有边,1表示有边,其中邻接矩阵中的N代表网络中节点个数。
S2区分测试集和训练集:将所有链接随机划分为训练边集Ep和测试边集Eq,比例为9:1,将所有节点N和训练边集Ep表示为训练图Gp
S3获取所有原图G中所有不存在链接的集合:把邻接矩阵中所有值为0的边进行提取,用一个边集En进行保存,边集En中保存所有原图G不存在的边。
S4节点相似性计算,方法如下:
S4.1基于训练图Gp,随机选取测试边集Eq中一条边,计算这条边两端节点相似性Sp
对于计算xy之间的相似度时,现在存在链接x->C->y,x->D->y,x->E->y,D->E,x->A->B->y,可以发现,共有7个顶点,xy之间有路径长度为2的链接3条,路径长度为3的链接一条,即x->A->B->y,AB两点是连接xy两点的两个中转节点,现在设AB为一个点,对于新点A’,A’融合了AB两点的影响力的值。
其中,W2表示路径长度为2的xy间相似性值,如描述的x->C->y,x->D->y,x->E->y,W3表示路径长度为3的xy间相似性值,如描述的x->A->B->y。e(z)表示为节点z与其他共同邻居之间及与节点X和Y的链接数,k(z)表示z节点的度,β1和β2是权重系数。
S=β1W22W3 (1)
S4.2基于图Gp,随机选取边集En中的一条边,计算该条边两端节点相似性Sn
如计算xy之间的相似度时,现在存在链接x->C->y,x->D->y,x->E->y,D->E,x->A->B->y,可以发现,共有7个顶点,xy之间有路径长度为2的链接3条,路径长度为3的链接一条,把AB看成一个点,对于新点A’,A’融合了AB两点的影响力的值。
其中,W2表示路径长度为2的xy间相似性值,如描述的x->C->y,x->D->y,x->E->y,W3表示路径长度为3的xy间相似性值,如描述的x->A->B->y。e(z)表示为节点z与其他共同邻居之间及与节点X和Y的链接数,k(z)表示z节点的度,β1和β2是权重系数
S=β1W22W3 (1)
S4.3记录Sp和Sn的值
S4.4重复步骤S4.1、S4.2、S4.3完成一定量的抽样比较工作。
S4.5得到AUC的值,方法如下:
AUC表示的是测试边集Eq中的边的分数比随机从不存在边的集合En选取的一个边的相似性值高的概率,即每次随机从测试边集Eq中选取一条边与随机选择的不存在的边进行比较,如果测试边的相似性值大于不存在边的值,就加一分,如果两个数值相等,就加0.5分,独立地比较n次,如果n′次测试集中的边的值大于不存在的边的数值,n″次两个数值相等,定义AUC为:
根据S4保存的Sp和Sn数值,计算AUC值。其中,n是总共比较的次数,n′表示测试集AUC值优于不存在边的次数,n″表示测试集AUC和不存在边相同的次数。
本发明针对基于节点相似性的不足,融合了路径长度为3的节点相似性计算过程,既保证了基于节点相似性链接预测的简单易实现的特点,又兼顾了更大的网络拓扑结构给节点相似性带来的影响;同时采用数学方法对路径上的节点做信息融合,有效提取了节点的重要特征,使得该算法在不同规模的真实世界网络上取得了不错的效果。
附图说明
图1为本发明方法的流程图。
图2为本发明原始网络拓扑图。
图3为本发明改进网络拓扑图。
图4为本发明实验结果图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
图1为基于路径信息和节点信息融合的社交网络好友推荐方法,该方法包括以下步骤:
步骤一,对网络结构中节点和链接进行表示
步骤二,区分测试集和训练集
步骤三,获取所有原图G中所有不存在链接的集合
步骤四,节点相似性计算
步骤五,得到AUC的值
本发明将改进过的好友推荐算法用在美国东北大学Facebook数据集上进行测试,将CN,RA,IA,PPA4种算法在现实网络中进行实验,并比较预测准确率。每个实验结果是通过对原始数据集进行随机划分形成的训练集(含90%的链接数)和测试集(含10%的链接数)进行预测和评估得到的平均值。其中在A U C评估方法中,进行了10次随机抽取比较。
通过这四种算法在美国东北大学Facebook数据集上的AUC表现,可以认为,PPA节点相似性的好友推荐方法取得了很好的效果,根据人际交往中的六度分割理论,人和人之间的连接不会多于6,但是考虑的链接长度过长会影响计算效率,所以本发明考虑了路径长度为3的特征,相比于IA而言,增加了路径的因素和多节点信息融合的因素,使推荐准确率有了大幅提升,可以有效减少无效推荐。

Claims (1)

1.基于路径信息和节点信息融合的社交网络好友推荐方法,其特征在于:该方法包括以下步骤:
S1对网络结构中节点和链接进行表示,方法如下:
获取所有节点N和链接E的信息,用一种数据结构表示为原图G,如能够用邻接矩阵表示,邻接矩阵大小为N×N,每一位是0或1,0表示没有边,1表示有边,其中邻接矩阵中的N代表网络中节点个数;
S2区分测试集和训练集:将所有链接随机划分为训练边集Ep和测试边集Eq,比例为9:1,将所有节点N和训练边集Ep表示为训练图Gp
S3获取所有原图G中所有不存在链接的集合:把邻接矩阵中所有值为0的边进行提取,用一个边集En进行保存,边集En中保存所有原图G不存在的边;
S4节点相似性计算,方法如下:
S4.1基于训练图Gp,随机选取测试边集Eq中一条边,计算这条边两端节点相似性Sp
对于计算xy之间的相似度时,现在存在链接x->C->y,x->D->y,x->E->y,D->E,x->A->B->y,可以发现,共有7个顶点,xy之间有路径长度为2的链接3条,路径长度为3的链接一条,即x->A->B->y,AB两点是连接xy两点的两个中转节点,现在设AB为一个点,对于新点A’,A’融合了AB两点的影响力的值;
其中,W2表示路径长度为2的xy间相似性值,如描述的x->C->y,x->D->y,x->E->y,W3表示路径长度为3的xy间相似性值,如描述的x->A->B->y;e(z)表示为节点z与其他共同邻居之间及与节点X和Y的链接数,k(z)表示z节点的度,β1是权重系数,
S=β1W22W3 (1)
S4.2基于图Gp,随机选取边集En中的一条边,计算该条边两端节点相似性Sn
如计算xy之间的相似度时,现在存在链接x->C->y,x->D->y,x->E->y,D->E,x->A->B->y,共有7个顶点,xy之间有路径长度为2的链接3条,路径长度为3的链接一条,把AB看成一个点,对于新点A’,A’融合了AB两点的影响力的值;
其中,W2表示路径长度为2的xy间相似性值,如描述的x->C->y,x->D->y,x->E->y,W3表示路径长度为3的xy间相似性值,如描述的x->A->B->y;e(z)表示为节点z与其他共同邻居之间及与节点X和Y的链接数,k(z)表示z节点的度,β1是权重系数,
S=β1W22W3
S4.3记录Sp和Sn的值
S4.4重复步骤S4.1、S4.2、S4.3完成一定量的抽样比较工作;
S4.5得到AUC的值,方法如下:
AUC表示的是测试边集Eq中的边的分数比随机从不存在边的集合En选取的一个边的相似性值高的概率,即每次随机从测试边集Eq中选取一条边与随机选择的不存在的边进行比较,如果测试边的相似性值大于不存在边的值,就加一分,如果两个数值相等,就加0.5分,独立地比较n次,如果n′次测试集中的边的值大于不存在的边的数值,n″次两个数值相等,定义AUC为:
根据S4保存的Sp和Sn数值,计算AUC值;其中,n是总共比较的次数,n′表示测试集AUC值优于不存在边的次数,n″表示测试集AUC和不存在边相同的次数。
CN201810232469.6A 2018-03-17 2018-03-17 基于路径信息和节点信息融合的社交网络好友推荐方法 Pending CN108449209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810232469.6A CN108449209A (zh) 2018-03-17 2018-03-17 基于路径信息和节点信息融合的社交网络好友推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810232469.6A CN108449209A (zh) 2018-03-17 2018-03-17 基于路径信息和节点信息融合的社交网络好友推荐方法

Publications (1)

Publication Number Publication Date
CN108449209A true CN108449209A (zh) 2018-08-24

Family

ID=63195959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810232469.6A Pending CN108449209A (zh) 2018-03-17 2018-03-17 基于路径信息和节点信息融合的社交网络好友推荐方法

Country Status (1)

Country Link
CN (1) CN108449209A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109245952A (zh) * 2018-11-16 2019-01-18 大连理工大学 一种基于mpa模型的消失链路预测方法
CN109766940A (zh) * 2018-12-29 2019-05-17 北京天诚同创电气有限公司 评估多个污水处理系统间的相似度的方法和装置
CN110135102A (zh) * 2019-05-24 2019-08-16 哈尔滨工业大学 面向碎片化建模的相似度量方法
CN110175299A (zh) * 2019-05-28 2019-08-27 腾讯科技(上海)有限公司 一种推荐信息确定的方法及服务器
CN110837602A (zh) * 2019-11-05 2020-02-25 重庆邮电大学 基于表示学习和多模态卷积神经网络的用户推荐方法
CN111159768A (zh) * 2019-12-31 2020-05-15 广西师范大学 社交网络链接隐私保护效果的评价方法
CN113297500A (zh) * 2021-06-23 2021-08-24 哈尔滨工程大学 一种社交网络孤立节点链接预测方法
CN114660997A (zh) * 2020-12-22 2022-06-24 中国科学院沈阳自动化研究所 一种基于链路预测的安全一体化中两安冲突预测方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109245952A (zh) * 2018-11-16 2019-01-18 大连理工大学 一种基于mpa模型的消失链路预测方法
CN109766940A (zh) * 2018-12-29 2019-05-17 北京天诚同创电气有限公司 评估多个污水处理系统间的相似度的方法和装置
CN109766940B (zh) * 2018-12-29 2024-02-02 北京天诚同创电气有限公司 评估多个污水处理系统间的相似度的方法和装置
CN110135102B (zh) * 2019-05-24 2020-07-07 哈尔滨工业大学 面向碎片化建模的相似度量方法
CN110135102A (zh) * 2019-05-24 2019-08-16 哈尔滨工业大学 面向碎片化建模的相似度量方法
CN110175299A (zh) * 2019-05-28 2019-08-27 腾讯科技(上海)有限公司 一种推荐信息确定的方法及服务器
CN110175299B (zh) * 2019-05-28 2023-06-06 腾讯科技(上海)有限公司 一种推荐信息确定的方法及服务器
CN110837602B (zh) * 2019-11-05 2022-10-04 重庆邮电大学 基于表示学习和多模态卷积神经网络的用户推荐方法
CN110837602A (zh) * 2019-11-05 2020-02-25 重庆邮电大学 基于表示学习和多模态卷积神经网络的用户推荐方法
CN111159768A (zh) * 2019-12-31 2020-05-15 广西师范大学 社交网络链接隐私保护效果的评价方法
CN114660997A (zh) * 2020-12-22 2022-06-24 中国科学院沈阳自动化研究所 一种基于链路预测的安全一体化中两安冲突预测方法
CN114660997B (zh) * 2020-12-22 2024-05-10 中国科学院沈阳自动化研究所 一种基于链路预测的安全一体化中两安冲突预测方法
CN113297500A (zh) * 2021-06-23 2021-08-24 哈尔滨工程大学 一种社交网络孤立节点链接预测方法

Similar Documents

Publication Publication Date Title
CN108449209A (zh) 基于路径信息和节点信息融合的社交网络好友推荐方法
Rahman Fahim et al. Microgrid fault detection and classification: Machine learning based approach, comparison, and reviews
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
CN111881350B (zh) 一种基于混合图结构化建模的推荐方法与系统
CN112861967B (zh) 基于异构图神经网络的社交网络异常用户检测方法及设备
CN108734223A (zh) 基于社区划分的社交网络好友推荐方法
CN109948000A (zh) 异质网络的异常目标检测方法、装置、设备及存储介质
CN113065974A (zh) 一种基于动态网络表示学习的链路预测方法
Matić et al. Oscillating Adriatic temperature and salinity regimes mapped using the Self-Organizing Maps method
Selvarajah et al. Dynamic network link prediction by learning effective subgraphs using CNN-LSTM
Fang et al. Learning decomposed spatial relations for multi-variate time-series modeling
Arram et al. Spam detection using hybrid Artificial Neural Network and Genetic algorithm
da F Costa et al. A pattern recognition approach to complex networks
Tapia et al. Recurrent convolutional neural network-based assessment of power system transient stability and short-term voltage stability
Abadeh et al. A differential machine learning approach for trust prediction in signed social networks
CN109194509A (zh) 一种基于路径强弱关系和社区信息的预测网络连边的方法
WO2023143570A1 (zh) 一种连接关系预测方法及相关设备
CN115759183B (zh) 一种多结构文本图神经网络的相关方法和相关装置
Shapira et al. BGP2Vec: Unveiling the Latent Characteristics of Autonomous Systems
CN111090781A (zh) 一种动态社交网络中的链路预测方法
Sharma et al. Comparative analysis of different algorithms in link prediction on social networks
CN113297500B (zh) 一种社交网络孤立节点链接预测方法
Lai et al. Learning graph convolution filters from data manifold
Ko et al. Learning disentangled representations in signed directed graphs without social assumptions
CN107862073A (zh) 一种基于节点重要度和分离度的Web社区划分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180824