CN111090781A - 一种动态社交网络中的链路预测方法 - Google Patents

一种动态社交网络中的链路预测方法 Download PDF

Info

Publication number
CN111090781A
CN111090781A CN201911285769.1A CN201911285769A CN111090781A CN 111090781 A CN111090781 A CN 111090781A CN 201911285769 A CN201911285769 A CN 201911285769A CN 111090781 A CN111090781 A CN 111090781A
Authority
CN
China
Prior art keywords
node
network
time
nodes
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911285769.1A
Other languages
English (en)
Inventor
曹燕
董一鸿
邬少清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201911285769.1A priority Critical patent/CN111090781A/zh
Publication of CN111090781A publication Critical patent/CN111090781A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种动态社交网络中的链路预测方法,包括以下步骤:将t时刻网络中的节点映射到低维嵌入空间中,并写成每个节点的低维表示向量;之后分别计算t时刻网络中节点的局部特征、二阶相似性和保持网络演化平滑性对应的损失函数,最后根据最小化总损失函数得到节点最佳的低维表示向量;从而使用最佳低维表示向量方法得到测试集中的所有节点低维表示向量,并依次将每个节点对的低维表示向量输入到逻辑回归分类器中进行训练,得到训练完成的逻辑回归分类器;将T时刻网络中每个节点对的低维表示向量输入到训练完成的逻辑回归分类器中,得到T+1时刻的网络信息。该链路预测方法降低了网络中的数据存储空间且链路预测准确性更高。

Description

一种动态社交网络中的链路预测方法
技术领域
本发明涉及链路预测领域,特别涉及一种动态社交网络中的链路预测方法。
背景技术
随着海量数据在社交、通信、生物等网络中不断聚集,这种网络结构化的数据非常有效地模拟了现实世界中各种类型的链接数据。其中,节点表示实体,边表示实体之间的链接。对网络信息尤其是链接信息的挖掘成为了一个新兴的研究方向。链接预测是根据社会网络现有的结构,预测隐含的链接或将来可能产生的链接。链接预测除了具有很高的学术研究价值,还具有许多重要的商业应用。例如,Facebook等社交网站中推荐朋友;淘宝等电子商务网站中给用户推荐感兴趣的商品;医学研究者根据基因网络中的不规则联系找到导致疾病的基因;网络安全领域,链接预测亦可实现对垃圾邮件的检测,对实际的舆情监控系统中有着十分重要的作用。
提高应用价值的关键是如何有效的挖掘到网络结构中隐含的丰富信息,提高链接预测的准确性。网络信息的有效学习方法之一是网络表示学习,旨在根据相关的优化目标,将大规模、高维度的网络嵌入到低维度的空间中,用低维稠密的向量表示网络中的节点,并且这些节点表示隐含着丰富的网络信息。利用这种网络嵌入的方法被证明在链接预测中非常有效,但目前的研究大多关注于静态网络,忽略网络的动态演化。
但是,现实世界的网络是实时动态更新的,其节点和边时刻发生变化。例如,社交网络中新用户的加入、新好友关系的产生,会导致网络中出现新的节点和边;用户离开表现为节点的消失。这些时序信息是网络的重要部分,是网络的演化机制和其动力学的体现。动态网络表示学习需要同时对网络的结构及时序信息进行建模,尽可能挖掘出网络中隐含的丰富信息,是一项困难但十分重要的任务。
链接预测的本质是预测节点之间是否存在链接。目前研究大多忽略网络的时间信息,获得的节点向量表示仅捕捉到当前时刻下网络的结构信息,无法捕捉到网络结构中隐含的演化趋势信息,这大大降低了链接预测的准确性。
发明内容
本发明所要解决的技术问题是针对现有技术的现状,提供一种数据存储空间更小且链路预测准确性更高的动态社交网络中的链路预测方法。
本发明解决上述技术问题所采用的技术方案为:一种动态社交网络中的链路预测方法,用于根据动态社交网络中1到T时刻的网络信息预测T+1时刻的网络信息,将动态社交网络中T个时刻的网络用G表示,G={G1,...,GT},t时刻的网络表示为Gt=(V,Et,Wt),1≤t≤T,其中V表示t时刻网络中的节点集,Et为t时刻网络中任意两节点之间存在的边的集合,Wt为t时刻网络中任意两节点之间存在的边之间的权重集合,其特征在于:包括以下步骤:
步骤1、将t时刻网络中的节点Vi映射到低维嵌入空间中,表达式为:ft:Vi→Rd
其中,Vi∈V,d为预设的低维嵌入空间的维数,d远小于节点集V中节点的个数,Rd为d维实数空间;
步骤2、将t时刻网络中任意节点Vi的低维表示向量记为
Figure BDA0002317940710000027
其中
Figure BDA0002317940710000028
i=1,2,3...N,N为t时刻网络对应节点集中的节点总数;
步骤3、选择出t时刻网络中任意两节点间具有边的所有节点对,并计算出所有节点对之间的局部特征对应的损失函数
Figure BDA0002317940710000029
步骤4、在t时刻网络中选择出满足以下条件的节点m和节点n:任意两个不同节点m和节点n之间没有边,节点m和节点n之间具有一个或多个共同的邻居节点,则计算满足该条件的所有节点m和节点n之间的二阶相似性对应的损失函数;具体包括以下步骤:
步骤4-1、在t时刻的网络中,假设任意两个不同节点m和节点n之间没有边,节点m和节点n之间具有一个或多个共同的邻居节点,将其中一个共同邻居节点记为k,计算t时刻网络中节点m和节点n受共同邻居节点k的影响程度,记为
Figure BDA0002317940710000021
计算公式为:
Figure BDA0002317940710000022
其中,
Figure BDA0002317940710000023
表示节点m和节点n对共同邻居节点k的影响程度,
Figure BDA0002317940710000024
ωmk为t时刻网络中节点m和节点k之间边的权重,ωnk为t时刻网络中节点n和节点k之间边的权重,emk为t时刻网络中节点m和节点k之间的边,enk为t时刻网络中节点n和节点k之间的边;
Figure BDA0002317940710000025
为节点m和节点k之间的亲密程度,
Figure BDA0002317940710000026
为节点m在t时刻网络中的影响因子,
Figure BDA0002317940710000031
为t时刻网络中节点m的低维表示向量,
Figure BDA0002317940710000032
为t时刻网络中节点k的低维表示向量;
Figure BDA0002317940710000033
为节点n和节点k之间的亲密程度,
Figure BDA0002317940710000034
为节点n在t时刻网络中的影响因子,
Figure BDA0002317940710000035
为t时刻网络中节点n的低维表示向量;
步骤4-2、计算t+1时刻,节点m和节点n受其共同邻居节点k的影响建立新边的概率,以及不受其共同邻居节点k的影响,继续保持原来社交状态的概率,并将t+1时刻,节点m和节点n受其共同邻居节点k影响的概率记为
Figure BDA0002317940710000036
Figure BDA0002317940710000037
其中,σ(.)为逻辑回归函数,即
Figure BDA0002317940710000038
θd为节点m和节点n之间是否确定建立边的实数向量,该向量与节点低维表示向量的维度数相同;y=1表示t+1时刻网络中节点m和节点n之间受其共同邻居节点k的影响建立新边;y=0表示t+1时刻网络中节点m和节点n不受其共同邻居节点k的影响未形成新边;
步骤4-3、合并步骤4-2中的两个公式,得到:
Figure BDA0002317940710000039
其中
Figure BDA00023179407100000310
表示t+1时刻的网络中,节点m和节点n之间是否受其邻居节点k影响的概率,y=0或1;
步骤4-4、当节点m和节点n之间具有多个共同邻居节点,将节点m和节点n在t时刻网络中的所有共同邻居节点集记为Nt(m,n);将节点m和节点n是否受某个共同邻居节点k1的影响在未来时刻是否建立新边的函数记为
Figure BDA00023179407100000311
或0;
Figure BDA00023179407100000312
表示节点m和节点n受某个共同邻居节点k1的影响在未来t+1时刻建立新边;
Figure BDA00023179407100000313
表示节点m和节点n不受某个共同邻居节点k1的影响在未来t+1时刻不建立新边;
步骤4-5、根据步骤4-3中的计算公式,计算出t+1时刻的网络中,节点m和节点n受所有共同邻居节点的影响建立新边的概率
Figure BDA00023179407100000314
为:
Figure BDA0002317940710000041
其中,II为连乘符号,
Figure BDA0002317940710000042
以及计算出t+1时刻的网络中,节点m和节点n不受所有共同邻居节点的影响未建立新边的概率
Figure BDA0002317940710000043
为:
Figure BDA0002317940710000044
步骤4-6、在t+1时刻网络中,分为两种情况,分别对应为:节点m和节点n在t时刻的网络中无连接,在t+1时刻网络中建立连接,将满足上述条件的节点m和节点n的集合记为
Figure BDA0002317940710000045
节点m和节点n在t时刻网络中无连接且在t+1时刻仍没有建立连接,将满足该条件的节点m和节点n的集合记为
Figure BDA0002317940710000046
步骤4-7、计算t时刻网络中对应的损失函数
Figure BDA0002317940710000047
计算公式为:
Figure BDA0002317940710000048
步骤5、计算保持网络演化平滑性对应的损失函数
Figure BDA0002317940710000049
Figure BDA00023179407100000410
其中1≤t≤T;
步骤6、计算节点特征对应的总损失函数L,并根据最小化总损失函数得到最佳的实数参数θd和节点最佳的低维表示向量
Figure BDA00023179407100000411
总损失函数L的计算公式为:
Figure BDA00023179407100000412
Figure BDA00023179407100000413
其中,a、b和λ均为预设的权值;
步骤7、找出所有从
Figure BDA00023179407100000414
Figure BDA00023179407100000415
时任意两节点之间新形成边的节点对,并将该节点对作为正样本,记为集合A,其中2≤t1≤T;找出所有从G1,
Figure BDA00023179407100000416
Figure BDA00023179407100000417
时任意两节点之间边消失的节点对作为负样本,记为集合B;从集合A和B中随机选取数目相等的节点对共同组成测试集,并使用步骤6中的最佳低维表示向量方法得到测试集中的所有节点低维表示向量,并依次将每个节点对的低维表示向量输入到逻辑回归分类器中进行训练,得到训练完成的逻辑回归分类器;
步骤8、将T时刻网络中每个节点对的低维表示向量输入到训练完成的逻辑回归分类器中,得到T+1时刻的网络信息。
具体的,所述步骤3中具体包括以下步骤:
步骤3-1、计算t时刻网络中任意两节点Vi和Vj之间的相似度分布p1(Vi,Vj);计算公式为:
Figure BDA0002317940710000051
其中,
Figure BDA0002317940710000052
为t时刻网络中节点Vi的低维表示向量的转置,
Figure BDA0002317940710000053
为t时刻网络中节点Vj的低维表示向量;
步骤3-2、计算t时刻网络中任意两节点Vi和Vj之间的边权重分布
Figure BDA0002317940710000054
计算公式为:
Figure BDA0002317940710000055
其中,eij为t时刻网络中节点Vi和节点Vj之间的边,wij为t时刻网络中节点Vi和节点Vj之间边的权重;
步骤3-3、计算步骤3-1中任意两节点Vi和Vj之间的相似度分布与步骤3-2中该两节点之间的边权重分布之间的距离;并将该距离记为o;
步骤3-4、将步骤3-3中计算出的距离o作为权值,计算t时刻网络中局部特征的损失函数
Figure BDA0002317940710000056
计算公式为:
Figure BDA0002317940710000057
其中,eik为t时刻网络中节点Vi和节点Vk之间的边,
Figure BDA0002317940710000058
为t时刻网络中节点Vi和节点Vj之间的欧几里得距离,||.||2为二范数,
Figure BDA0002317940710000059
为t时刻网络中节点Vi和节点Vk之间的欧几里得距离。
具体的,所述步骤3-3中将相似度分布和边权重分布之间KL散度的最小值作为相似度分布和边权重分布之间的距离。
与现有技术相比,本发明的优点在于:一方面,通过将节点映射到低维嵌入空间中,降低了网络中的数据存储空间;另一方面,计算节点对的拓扑相似性使在节点在嵌入空间中保存网络结构的近邻性,计算节点的二阶相似性用来捕捉网络动态演化特性以及计算网络的时间演化平滑性保持网络的平稳演化特性,最后根据最小化总损失函数计算出节点最佳的低维表示向量,从而该方法能够有效的对网络的动态变化过程中的结构特征进行学习和表示,因此该方法的链路预测准确性更高。
附图说明
图1为本发明实施例中链路预测方法的流程图;
图2为本发明实施例中t时刻和t+1时刻的动态网络示意图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
如图1所示,一种动态社交网络中的链路预测方法,用于根据动态社交网络中1到T时刻的网络信息预测T+1时刻的网络信息,其中,预测T+1时刻的网络信息中的节点之间存在边即对应在动态社交网络中存在链路,所以预测T+1时刻的网络信息中包括节点之间边的信息,将动态社交网络中T个时刻的网络用G表示,G={G1,...,GT},t时刻的网络表示为Gt=(V,Et,Wt),1≤t≤T,其中V表示t时刻网络中的节点集,Et为t时刻网络中任意两节点之间存在的边的集合,Wt为t时刻网络中任意两节点之间存在的边之间的权重集合,包括以下步骤:
步骤1、将t时刻网络中的节点Vi映射到低维嵌入空间中,表达式为:ft:Vi→Rd
其中,Vi∈V,d为预设的低维嵌入空间的维数,d远小于节点集V中节点的个数,Rd为d维实数空间;
步骤2、将t时刻网络中任意节点Vi的低维表示向量记为
Figure BDA0002317940710000061
其中
Figure BDA0002317940710000062
i=1,2,3...N,N为t时刻网络对应节点集中的节点总数;
步骤3、选择出t时刻网络中任意两节点间具有边的所有节点对,并计算出所有节点对之间的局部特征对应的损失函数
Figure BDA0002317940710000063
具体步骤如下:
步骤3-1、计算t时刻网络中任意两节点Vi和Vj之间的相似度分布p1(Vi,Vj);计算公式为:
Figure BDA0002317940710000064
其中,
Figure BDA0002317940710000065
为t时刻网络中节点Vi的低维表示向量的转置,
Figure BDA0002317940710000066
为t时刻网络中节点Vj的低维表示向量;
步骤3-2、计算t时刻网络中任意两节点Vi和Vj之间的边权重分布
Figure BDA0002317940710000071
计算公式为:
Figure BDA0002317940710000072
其中,eij为t时刻网络中节点Vi和节点Vj之间的边,wij为t时刻网络中节点Vi和节点Vj之间边的权重;
步骤3-3、计算步骤3-1中任意两节点Vi和Vj之间的相似度分布与步骤3-2中该两节点之间的边权重分布之间的距离;并将该距离记为o;本实施例中,将相似度分布和边权重分布之间KL散度的最小值作为相似度分布和边权重分布之间的距离;
步骤3-4、将步骤3-3中计算出的距离o作为权值,计算t时刻网络中局部特征的损失函数
Figure BDA0002317940710000073
计算公式为:
Figure BDA0002317940710000074
其中,eik为t时刻网络中节点Vi和节点Vk之间的边,
Figure BDA0002317940710000075
为t时刻网络中节点Vi和节点Vj之间的欧几里得距离,||.||2为二范数,
Figure BDA0002317940710000076
为t时刻网络中节点Vi和节点Vk之间的欧几里得距离;
步骤4、在t时刻网络中选择出满足以下条件的节点m和节点n:任意两个不同节点m和节点n之间没有边,节点m和节点n之间具有一个或多个共同的邻居节点,则计算满足该条件的所有节点m和节点n之间的二阶相似性对应的损失函数;具体包括以下步骤:
步骤4-1、在t时刻的网络中,假设任意两个不同节点m和节点n之间没有边,节点m和节点n之间具有一个或多个共同的邻居节点,将其中一个共同邻居节点记为k,计算t时刻网络中节点m和节点n受共同邻居节点k的影响程度,记为
Figure BDA0002317940710000077
计算公式为:
Figure BDA0002317940710000078
其中,
Figure BDA0002317940710000079
表示节点m和节点n对共同邻居节点k的影响程度,
Figure BDA00023179407100000710
其中该
Figure BDA00023179407100000711
计算公式的分母中是对所有满足上述条件的节点m和节点k之间的权重进行累加,分子中为其中一个满足条件的节点m、节点n和节点k之间的权重;ωmk为t时刻网络中节点m和节点k之间边的权重,ωnk为t时刻网络中节点n和节点k之间边的权重,emk为t时刻网络中节点m和节点k之间的边,enk为t时刻网络中节点n和节点k之间的边;
Figure BDA0002317940710000081
为节点m和节点k之间的亲密程度,
Figure BDA0002317940710000082
为节点m在t时刻网络中的影响因子,
Figure BDA0002317940710000083
同样的,该
Figure BDA0002317940710000084
的计算公式分母中指的是对所有满足上述条件的节点m和节点k之间的权重进行累加,分子中为其中一个满足条件的节点m、节点k之间的权重;
Figure BDA0002317940710000085
为t时刻网络中节点m的低维表示向量,
Figure BDA0002317940710000086
为t时刻网络中节点k的低维表示向量;
Figure BDA0002317940710000087
为节点n和节点k之间的亲密程度,
Figure BDA0002317940710000088
为节点n在t时刻网络中的影响因子,
Figure BDA0002317940710000089
为t时刻网络中节点n的低维表示向量;
步骤4-2、计算t+1时刻,节点m和节点n受其共同邻居节点k的影响建立新边的概率,以及不受其共同邻居节点k的影响,继续保持原来社交状态的概率,并将t+1时刻,节点m和节点n受其共同邻居节点k影响的概率记为
Figure BDA00023179407100000810
Figure BDA00023179407100000811
其中,σ(.)为逻辑回归函数,即
Figure BDA00023179407100000812
为节点m和节点n之间是否确定建立边的实数向量,该向量与节点低维表示向量的维度数相同;y=1表示t+1时刻网络中节点m和节点n之间受其共同邻居节点k的影响建立新边;y=0表示t+1时刻网络中节点m和节点n不受其共同邻居节点k的影响未形成新边;
步骤4-3、合并步骤4-2中的两个公式,得到:
Figure BDA00023179407100000813
其中
Figure BDA00023179407100000814
表示t+1时刻的网络中,节点m和节点n之间是否受其邻居节点k影响的概率,y=0或1;
步骤4-4、当节点m和节点n之间具有多个共同邻居节点,将节点m和节点n在t时刻网络中的所有共同邻居节点集记为Nt(m,n);将节点m和节点n是否受某个共同邻居节点k1的影响在未来时刻是否建立新边的函数记为
Figure BDA0002317940710000091
或0;
Figure BDA0002317940710000092
表示节点m和节点n受某个共同邻居节点k1的影响在未来t+1时刻建立新边;
Figure BDA0002317940710000093
表示节点m和节点n不受某个共同邻居节点k1的影响在未来t+1时刻不建立新边;
步骤4-5、根据步骤4-3中的计算公式,计算出t+1时刻的网络中,节点m和节点n受所有共同邻居节点的影响建立新边的概率
Figure BDA0002317940710000094
为:
Figure BDA0002317940710000095
其中,II为连乘符号,
Figure BDA0002317940710000096
以及计算出t+1时刻的网络中,节点m和节点n不受所有共同邻居节点的影响未建立新边的概率
Figure BDA0002317940710000097
为:
Figure BDA0002317940710000098
步骤4-6、在t+1时刻网络中,分为两种情况,分别对应为:节点m和节点n在t时刻的网络中无连接,在t+1时刻网络中建立连接,将满足上述条件的节点m和节点n的集合记为
Figure BDA0002317940710000099
节点m和节点n在t时刻网络中无连接且在t+1时刻仍没有建立连接,将满足该条件的节点m和节点n的集合记为
Figure BDA00023179407100000910
步骤4-7、计算t时刻网络中对应的损失函数
Figure BDA00023179407100000911
计算公式为:
Figure BDA00023179407100000912
步骤5、计算保持网络演化平滑性对应的损失函数
Figure BDA00023179407100000913
Figure BDA00023179407100000914
其中1≤t≤T;
步骤6、计算节点特征对应的总损失函数L,并根据最小化总损失函数得到最佳的实数参数θd和节点最佳的低维表示向量
Figure BDA00023179407100000915
计算公式为:
Figure BDA0002317940710000101
Figure BDA0002317940710000102
其中,α、β和λ均为预设的权值;
由于总损失函数中的每个变量复杂,因此为了减少计算量,可以先分别对损失函数
Figure BDA0002317940710000103
和损失函数
Figure BDA0002317940710000104
进行优化,其中,对损失函数
Figure BDA0002317940710000105
进行优化的具体步骤为:
根据扩展结构平衡理论,对于任意节点组(Vi,Vj,Vk)∈V,为了尽量满足平衡理论,且对于有连接的节点对根据权重分布使用KL散度度量其相似度,对于
Figure BDA0002317940710000106
进一步可化为:
Figure BDA0002317940710000107
对损失函数
Figure BDA0002317940710000108
进行优化的具体步骤为:
由于在t+1时刻网络中,节点m和节点n在t时刻的网络中无连接,在t+1时刻网络中受共同邻居节点的影响建立连接的可能性较大,因此,
Figure BDA0002317940710000109
进一步的,
Figure BDA00023179407100001010
Figure BDA00023179407100001011
代入到上述公式中,得到
Figure BDA00023179407100001012
得到:
Figure BDA00023179407100001013
步骤7、找出所有从G1,
Figure BDA00023179407100001014
Figure BDA00023179407100001015
时任意两节点之间新形成边的节点对,并将该节点对作为正样本,记为集合A,其中2≤t1≤T;找出所有从G1,
Figure BDA00023179407100001016
Figure BDA00023179407100001017
时任意两节点之间边消失的节点对作为负样本,记为集合B;从集合A和B中随机选取数目相等的节点对共同组成测试集,并使用步骤6中的最佳低维表示向量方法得到测试集中的所有节点低维表示向量,并依次将每个节点对的低维表示向量输入到逻辑回归分类器中进行训练,得到训练完成的逻辑回归分类器;
步骤8、将T时刻网络中每个节点对的低维表示向量输入到训练完成的逻辑回归分类器中,得到T+1时刻的网络信息。
为了方便理解和描述本发明中链路预测过程,如图2所示,在t时刻的网络中,节点1与9以及节点1与3之间有边相连接,节点1与4之间无边;所以节点1与9以及1与3具有比节点1与4具有更高的拓扑相似性,即在嵌入空间中的位置接近。更近一步来说,节点1与节点9之间边上的权重大于节点1与节点3之间边上的权重,因此节点1与节点9比节点1与节点4具有更高的相似性。因此,在嵌入空间中,节点1和9的位置最接近,节点1和3的位置次之,节点1和4的位置相对较远。另一方面,尽管节点1和6之间没有边,但是他们拥有许多共同的邻居(如节点2、7),他们具有高的二阶相似性,在嵌入空间中的位置接近。同时受这些共同邻居的影响,在t+1时刻中心节点1和6更倾向于建立连接关系,并且这些邻居节点对链接形成的影响由其与中心节点的链接强弱程度决定。
对于一个节点个数为|V|的大规模网络来说,其存储空间为|V|×|V|,由于本发明中采用的是存储网络中节点的低维表示的d维向量,所以需要的存储空间为|V|×d,对于大规模网络来说,d《|V|,这样可以大大减少数据存储空间。
另外本方法中保存了原始网络中节点对之间的相似性,量化节点对邻域内节点的影响程度,使用动态逻辑回归分类器从节点的二阶相似性捕捉网络的动态演化模式,从过去时间戳的快照网络中获得网络的时间信息和结构特征联合学习网络中节点低维表示向量。在提出的方法中,目标损失函数结合网络的内部结构以及动态演化结构,最小化嵌入空间中相似节点的近邻性。此外,实验证明所提出的模型在许多真实动态网络上的链接预测性能明显优于现有的链接预测方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种动态社交网络中的链路预测方法,用于根据动态社交网络中1到T时刻的网络信息预测T+1时刻的网络信息,将动态社交网络中T个时刻的网络用G表示,G={G1,...,GT},t时刻的网络表示为Gt=(V,Et,Wt),1≤t≤T,其中V表示t时刻网络中的节点集,Et为t时刻网络中任意两节点之间存在的边的集合,Wt为t时刻网络中任意两节点之间存在的边之间的权重集合,其特征在于:包括以下步骤:
步骤1、将t时刻网络中的节点Vi映射到低维嵌入空间中,表达式为:ft:Vi→Rd
其中,Vi∈V,d为预设的低维嵌入空间的维数,d远小于节点集V中节点的个数,Rd为d维实数空间;
步骤2、将t时刻网络中任意节点Vi的低维表示向量记为
Figure FDA0002317940700000011
其中
Figure FDA0002317940700000012
i=1,2,3...N,N为t时刻网络对应节点集中的节点总数;
步骤3、选择出t时刻网络中任意两节点间具有边的所有节点对,并计算出所有节点对之间的局部特征对应的损失函数
Figure FDA0002317940700000013
步骤4、在t时刻网络中选择出满足以下条件的节点m和节点n:任意两个不同节点m和节点n之间没有边,节点m和节点n之间具有一个或多个共同的邻居节点,则计算满足该条件的所有节点m和节点n之间的二阶相似性对应的损失函数;具体包括以下步骤:
步骤4-1、在t时刻的网络中,假设任意两个不同节点m和节点n之间没有边,节点m和节点n之间具有一个或多个共同的邻居节点,将其中一个共同邻居节点记为k,计算t时刻网络中节点m和节点n受共同邻居节点k的影响程度,记为
Figure FDA0002317940700000014
计算公式为:
Figure FDA0002317940700000015
其中,
Figure FDA0002317940700000016
表示节点m和节点n对共同邻居节点k的影响程度,
Figure FDA0002317940700000017
ωmk为t时刻网络中节点m和节点k之间边的权重,ωnk为t时刻网络中节点n和节点k之间边的权重,emk为t时刻网络中节点m和节点k之间的边,enk为t时刻网络中节点n和节点k之间的边;
Figure FDA0002317940700000018
为节点m和节点k之间的亲密程度,
Figure FDA0002317940700000019
Figure FDA00023179407000000110
为节点m在t时刻网络中的影响因子,
Figure FDA0002317940700000021
Figure FDA0002317940700000022
为t时刻网络中节点m的低维表示向量,
Figure FDA0002317940700000023
为t时刻网络中节点k的低维表示向量;
Figure FDA0002317940700000024
为节点n和节点k之间的亲密程度,
Figure FDA0002317940700000025
Figure FDA0002317940700000026
为节点n在t时刻网络中的影响因子,
Figure FDA0002317940700000027
Figure FDA0002317940700000028
为t时刻网络中节点n的低维表示向量;
步骤4-2、计算t+1时刻,节点m和节点n受其共同邻居节点k的影响建立新边的概率,以及不受其共同邻居节点k的影响,继续保持原来社交状态的概率,并将t+1时刻,节点m和节点n受其共同邻居节点k影响的概率记为
Figure FDA0002317940700000029
Figure FDA00023179407000000210
其中,σ(.)为逻辑回归函数,即
Figure FDA00023179407000000211
θd为节点m和节点n之间是否确定建立边的实数向量,该向量与节点低维表示向量的维度数相同;y=1表示t+1时刻网络中节点m和节点n之间受其共同邻居节点k的影响建立新边;y=0表示t+1时刻网络中节点m和节点n不受其共同邻居节点k的影响未形成新边;
步骤4-3、合并步骤4-2中的两个公式,得到:
Figure FDA00023179407000000212
其中
Figure FDA00023179407000000213
表示t+1时刻的网络中,节点m和节点n之间是否受其邻居节点k影响的概率,y=0或1;
步骤4-4、当节点m和节点n之间具有多个共同邻居节点,将节点m和节点n在t时刻网络中的所有共同邻居节点集记为Nt(m,n);将节点m和节点n是否受某个共同邻居节点k1的影响在未来时刻是否建立新边的函数记为
Figure FDA00023179407000000214
k1∈Nt(m,n);
Figure FDA00023179407000000215
或0;
Figure FDA00023179407000000216
表示节点m和节点n受某个共同邻居节点k1的影响在未来t+1时刻建立新边;
Figure FDA00023179407000000217
表示节点m和节点n不受某个共同邻居节点k1的影响在未来t+1时刻不建立新边;
步骤4-5、根据步骤4-3中的计算公式,计算出t+1时刻的网络中,节点m和节点n受所有共同邻居节点的影响建立新边的概率
Figure FDA0002317940700000031
为:
Figure FDA0002317940700000032
其中,II为连乘符号,
Figure FDA0002317940700000033
以及计算出t+1时刻的网络中,节点m和节点n不受所有共同邻居节点的影响未建立新边的概率
Figure FDA0002317940700000034
为:
Figure FDA0002317940700000035
步骤4-6、在t+1时刻网络中,分为两种情况,分别对应为:节点m和节点n在t时刻的网络中无连接,在t+1时刻网络中建立连接,将满足上述条件的节点m和节点n的集合记为
Figure FDA0002317940700000036
节点m和节点n在t时刻网络中无连接且在t+1时刻仍没有建立连接,将满足该条件的节点m和节点n的集合记为
Figure FDA0002317940700000037
步骤4-7、计算t时刻网络中对应的损失函数
Figure FDA0002317940700000038
计算公式为:
Figure FDA0002317940700000039
步骤5、计算保持网络演化平滑性对应的损失函数
Figure FDA00023179407000000310
Figure FDA00023179407000000311
其中1≤t≤T;
步骤6、计算节点特征对应的总损失函数L,并根据最小化总损失函数得到最佳的实数参数θd和节点最佳的低维表示向量
Figure FDA00023179407000000312
总损失函数L的计算公式为:
Figure FDA00023179407000000313
Figure FDA00023179407000000314
其中,α、b和λ均为预设的权值;
步骤7、找出所有从
Figure FDA00023179407000000315
Figure FDA00023179407000000316
时任意两节点之间新形成边的节点对,并将该节点对作为正样本,记为集合A,其中2≤t1≤T;找出所有从
Figure FDA00023179407000000317
Figure FDA00023179407000000318
时任意两节点之间边消失的节点对作为负样本,记为集合B;从集合A和B中随机选取数目相等的节点对共同组成测试集,并使用步骤6中的最佳低维表示向量方法得到测试集中的所有节点低维表示向量,并依次将每个节点对的低维表示向量输入到逻辑回归分类器中进行训练,得到训练完成的逻辑回归分类器;
步骤8、将T时刻网络中每个节点对的低维表示向量输入到训练完成的逻辑回归分类器中,得到T+1时刻的网络信息。
2.根据权利要求1所述的链路预测方法,其特征在于:所述步骤3中具体包括以下步骤:
步骤3-1、计算t时刻网络中任意两节点Vi和Vj之间的相似度分布p1(Vi,Vj);计算公式为:
Figure FDA0002317940700000041
其中,
Figure FDA0002317940700000042
为t时刻网络中节点Vi的低维表示向量的转置,
Figure FDA0002317940700000043
为t时刻网络中节点Vj的低维表示向量;
步骤3-2、计算t时刻网络中任意两节点Vi和Vj之间的边权重分布
Figure FDA0002317940700000044
计算公式为:
Figure FDA0002317940700000045
其中,eij为t时刻网络中节点Vi和节点Vj之间的边,wij为t时刻网络中节点Vi和节点Vj之间边的权重;
步骤3-3、计算步骤3-1中任意两节点Vi和Vj之间的相似度分布与步骤3-2中该两节点之间的边权重分布之间的距离;并将该距离记为o;
步骤3-4、将步骤3-3中计算出的距离o作为权值,计算t时刻网络中局部特征的损失函数
Figure FDA0002317940700000046
计算公式为:
Figure FDA0002317940700000047
其中,eik为t时刻网络中节点Vi和节点Vk之间的边,
Figure FDA0002317940700000048
为t时刻网络中节点Vi和节点Vj之间的欧几里得距离,||.||2为二范数,
Figure FDA0002317940700000049
为t时刻网络中节点Vi和节点Vk之间的欧几里得距离。
3.根据权利要求2所述的链路预测方法,其特征在于:所述步骤3-3中将相似度分布和边权重分布之间KL散度的最小值作为相似度分布和边权重分布之间的距离。
CN201911285769.1A 2019-12-13 2019-12-13 一种动态社交网络中的链路预测方法 Pending CN111090781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911285769.1A CN111090781A (zh) 2019-12-13 2019-12-13 一种动态社交网络中的链路预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911285769.1A CN111090781A (zh) 2019-12-13 2019-12-13 一种动态社交网络中的链路预测方法

Publications (1)

Publication Number Publication Date
CN111090781A true CN111090781A (zh) 2020-05-01

Family

ID=70396123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911285769.1A Pending CN111090781A (zh) 2019-12-13 2019-12-13 一种动态社交网络中的链路预测方法

Country Status (1)

Country Link
CN (1) CN111090781A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446542A (zh) * 2020-11-30 2021-03-05 西安电子科技大学 基于注意力神经网络的社交网络链路预测方法
CN113807600A (zh) * 2021-09-26 2021-12-17 河南工业职业技术学院 一种动态社交网络中的链路预测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446542A (zh) * 2020-11-30 2021-03-05 西安电子科技大学 基于注意力神经网络的社交网络链路预测方法
CN112446542B (zh) * 2020-11-30 2023-04-07 山西大学 基于注意力神经网络的社交网络链路预测方法
CN113807600A (zh) * 2021-09-26 2021-12-17 河南工业职业技术学院 一种动态社交网络中的链路预测方法
CN113807600B (zh) * 2021-09-26 2023-07-25 河南工业职业技术学院 一种动态社交网络中的链路预测方法

Similar Documents

Publication Publication Date Title
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
CN104462385B (zh) 一种基于用户兴趣模型的电影个性化相似度计算方法
CN112861967B (zh) 基于异构图神经网络的社交网络异常用户检测方法及设备
CN111881350B (zh) 一种基于混合图结构化建模的推荐方法与系统
Ahmed et al. A supervised learning approach to link prediction in Twitter
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及系统
CN108449209A (zh) 基于路径信息和节点信息融合的社交网络好友推荐方法
CN109447110A (zh) 综合邻居标签相关性特征和样本特征的多标签分类的方法
CN111090781A (zh) 一种动态社交网络中的链路预测方法
Zhang et al. Hypergraph label propagation network
Ahmed et al. Enhancing link prediction in Twitter using semantic user attributes
Zhou et al. Betweenness centrality-based community adaptive network representation for link prediction
Qiao et al. Improving collaborative recommendation via location-based user-item subgroup
CN110717116B (zh) 关系网络的链接预测方法及系统、设备、存储介质
CN111737294A (zh) 一种基于动态增量集成模糊的数据流分类方法
Han et al. Robust Plackett–Luce model for k-ary crowdsourced preferences
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
Tripathi et al. Recommending restaurants: A collaborative filtering approach
Zheng et al. Jora: Weakly supervised user identity linkage via jointly learning to represent and align
CN116932923B (zh) 一种结合行为特征与三角协作度量的项目推荐方法
CN112364245B (zh) 基于异构信息网络嵌入的Top-K电影推荐方法
Zhang et al. Graph representation learning with adaptive metric
Le et al. Enhancing Anchor Link Prediction in Information Networks through Integrated Embedding Techniques
Xu et al. An online personalized reputation estimation model for service-oriented systems
Stanhope et al. Group link prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200501