CN109918543A - 一种图流中针对节点的链路预测方法 - Google Patents

一种图流中针对节点的链路预测方法 Download PDF

Info

Publication number
CN109918543A
CN109918543A CN201910141425.7A CN201910141425A CN109918543A CN 109918543 A CN109918543 A CN 109918543A CN 201910141425 A CN201910141425 A CN 201910141425A CN 109918543 A CN109918543 A CN 109918543A
Authority
CN
China
Prior art keywords
node
index
stream
similarity
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910141425.7A
Other languages
English (en)
Other versions
CN109918543B (zh
Inventor
赵峰
肖洋
徐涛
金海�
桂向宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910141425.7A priority Critical patent/CN109918543B/zh
Publication of CN109918543A publication Critical patent/CN109918543A/zh
Application granted granted Critical
Publication of CN109918543B publication Critical patent/CN109918543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图流中针对节点的链路预测方法,包括:持续动态地对图流进行采样以得到样本图,并获得样本图中各节点的邻接点集合的索引结构作为对应节点的索引节点集;若目标节点未被查询过,则过滤掉图流中与其相似度为0的节点,从而得到由剩余节点构成的候选节点集;否则,获得上一查询时刻至当前查询时刻之间与目标节点的相似度增大的所有节点,并加入到上次查询到的节点集合中,从而得到候选节点集;根据样本图及索引节点集,计算候选节点集中各节点与目标节点的相似度,以筛选出与目标节点的相似度最高的top‑k个节点,从而完成针对目标节点的链路预测。本发明能够在图流中实现针对节点的链路预测,并提高链路预测的效率和准确率。

Description

一种图流中针对节点的链路预测方法
技术领域
本发明属于流数据和动态图领域,更具体地,涉及一种图流中针对节点的链路预测方法。
背景技术
在社交网络、推荐系统、生物学等领域,应用可表示为图流,即一种大规模的、高度动态的图结构。在图流中,节点和边以流的形式动态地到达和接收,且到达速度非常快。图流可以看做图和数据流的结合,因此类似于数据流,图流中的每条边只能被处理一次。
在以图流表示的应用中,广泛使用到了链路预测的方法。由于真实世界的图流规模太大,很难存储在内存甚至是硬盘上,并且图流中的边只能被处理一次,传统的链路预测方法在图流场景中遇到了很大的挑战。首先,由于图流规模庞大,不仅会消耗大量的存储空间,在整个图流中进行链路预测会导致链路预测的效率不高,预测时会有一定程度的延迟,不能做到实时的链路预测。为解决由于图流规模庞大而导致的预测效率低的问题,现有的链路预测方法基本上都会对图流进行采样,以减少存储成本,并提升算法效率,但是,采样会丢失图的信息,这会导致在链路预测的准确性得不到保证。此外,现有的链路预测方法都是针对边的预测,即预测在未来最有可能出现的边,而在现实场景中,很多情况下需要针对节点进行预测,即给定一个节点,预测最有可能与该节点发生链接的top-k个节点,在这些应用场景下,传统的链路预测方法并不适用。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种图流中针对节点的链路预测方法,其目的在于,在图流中实现针对节点的链路预测,并提高链路预测的效率和准确率。
为实现上述目的,本发明提供了一种图流中针对节点的链路预测方法,包括:
持续动态地对图流进行采样以得到样本图,并获得样本图中各节点的邻接点集合的索引结构作为对应节点的索引节点集;
对于任意一个待查询的目标节点u,若目标节点u未被查询过,则过滤掉图流中与目标节点u的相似度为0的节点,从而得到由剩余节点构成的候选节点集;否则,获得上一查询时刻t1至当前查询时刻t2之间与目标节点u的相似度增大的所有节点,并加入到上一查询时刻t1查询到的节点集合KFNold中,从而得到候选节点集;
根据时刻t2的样本图及对应的索引节点集,计算候选节点集中各节点与目标节点u的相似度,以从候选节点集中筛选出与目标节点u的相似度最高的top-k个节点(k-future-neighbors,下文简称为KFN),从而完成在时刻t2针对目标节点u的链路预测;
其中,top-k为正整数。
本发明在对图流进行采样得到样本图的同时,利用索引结构记录了图流更多的信息,因此能够在链路预测时更为准确的还原图流的真实情况,从而在提高链路预测效率的同时提高链路预测准确率;针对目标节点构建的候选节点集有效过滤掉了与目标节点的相似度为0的节点,并且基于候选节点集进行链路预测,因此能够有效提高链路预测的效率。
进一步地,持续动态地对图流进行采样以得到样本图,包括:
为每个节点设定一个[0,1]范围内的哈希值以表征各节点的优先级;哈希值越小,对应的优先级越大,且各节点的优先级互不相同;
在任意一个采样时刻t,针对图流中的每一个节点vi,获得节点vi的所有邻接点中优先级最高的一个或多个邻接点,以采样得到节点vi的邻接点集合S(vi);由采样得到的所有节点的邻接点集合构成时刻t的样本图;
其中,邻接点集合S(vi)的元素个数不超过预设的采样阈值L。
进一步地,过滤掉图流中与目标节点u的相似度为0的节点,从而得到由剩余节点构成的候选节点集,包括:
在时刻t2,获得目标节点u的索引节点集I(u);
获得索引节点集I(u)中各节点在样本图中的邻接点集合,并将所获取到的邻接点集合求并集,从而得到候选节点集。
对于未被查询过的目标节点,在针对目标节点构建候选节点集时,仅过滤掉其中与目标节点相似度为0的节点,一方面,由于图流中大部分节点与目标节点的相似度为0,过滤掉这样的节点,就能够过滤掉大部分的节点,有效提高链路预测的效率;另一方面,由于可使用的历史查询信息较少,仅过滤掉与目标节点相似度为0的节点,能够在提高链路预测效率的同时保证链路预测的准确率。
更进一步地,若目标节点u未被查询过,则获取候选节点集的计算表达式为:
cdd(u)={v|v∈S(q),q∈I(u)};
其中,cdd(u)表示候选节点集,S(q)表示节点q在样本图中的邻接点集合。
更进一步地,若目标节点u被查询过,则获取候选节点集的计算表达式为:
其中,cdd(u)表示候选节点集,表示在上一查询时刻t1至当前查询时刻t2之间的时间段(t1,t2)内索引节点集I(u)中保持不变的节点的集合,表示在时间段(t1,t2)内新加入索引节点集I(u)的节点的集合,S(q)表示节点q在样本图中的邻接点集合,表示在时间段(t1,t2)内新加入邻接点集合S(q)的节点的集合。
对于已被查询过的目标节点,上一次查询所得的节点集合中仅包含与目标节点相似度最高top-k个节点,在此基础之上构建当前查询的候选节点集,能够进一步缩小候选节点集,提高链路预测效率。
进一步地,相似度为common neighbor相似度;根据时刻t2的样本图及对应的索引节点集,计算候选节点集中各节点与目标节点u的相似度,包括:
对于候选节点集中的每一个节点wj,在时刻t2,分别获得目标节点u的索引节点集I(u)和节点wj的索引节点集I(wj),并计算索引节点集I(u)的采样率η′(u)以及索引节点集I(wj)的采样率η′(wj),由此计算目标节点u与节点wj的common neighbor相似度为:
其中,索引节点集的采样率为采样过程中索引节点集保存邻接点的比例。
上述计算相似度的方法,以节点之间的Common Neighbor相似度为指标,由于采样图仅包含原始图流的部分信息,本发明利用索引结构和采样率进行计算,能够有效利用索引结构所保留的额外信息,并还原图流的真实情况,从而体高链路预测的准确率。
更进一步地,对于任意一个索引节点集,其采样率为该索引节点集中具有最低优先级的节点所对应的哈希值。
进一步地,相似度为基于节点聚集系数的相似度;根据时刻t2的样本图及对应的索引节点集,计算候选节点集中各节点与目标节点u的相似度,包括:
对于候选节点集中的每一个节点wj,在时刻t2,分别获得目标节点u的索引节点集I(u)和节点wj的索引节点集I(wj);
求索引节点集I(u)和索引节点集I(wj)交集,得到集合I′=I(u)∩I(wj);
计算集合I′中每一个节点的节点聚集系数,以计算目标节点u和节点wj之间基于节点聚集系数的相似度为CCLP(u,wj)=∑v∈I′NCC(v);
其中,NCC(v)表示节点v的节点聚集系数。
上述算相似度的方法,以节点之间基于聚集系数的相似度为指标,由于采样图仅包含原始图流的部分信息,本发明利用索引结构进行计算,能够有效利用索引结构所保留的额外信息,从而体高链路预测的准确率。
更进一步地,节点v的节点聚集系数NCC(v)的计算方式包括:
在时刻t2,获得节点v的索引节点集I(v),以计算在采样图中节点v的所有邻接点之间的最大链路数为allPair=|I(v)|·|I(v)-1|;
若allPair<N,则统计由节点v的邻接点彼此链接形成的链路数count1,以计算节点v的节点聚集系数为否则,从节点v的邻接点中随机选择N个节点对,并统计其中彼此链接的节点对的数量count2,以计算节点v节点聚集系数为
其中,N为预设的链路数量的阈值。
在邻接点较少时,直接统计由邻接点彼此链接形成的链路数来计算节点聚集系数,能够保证链路预测的准确率;在邻接点较多时,则通过随机统计的方式计算节点聚集系数,能够有效提高链路预测的效率;总的来说,本发明中计算聚集系数的方法既保证了链路预测的准确率,又能够提高链路预测的效率。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明实现了图流中针对节点的链路预测方法。
(2)本发明在对图流进行采样得到样本图的同时,利用索引结构记录了图流更多的信息,因此能够在链路预测时更为准确的还原图流的真实情况,从而在提高链路预测效率的同时提高链路预测准确率。
(3)本发明针对目标节点构建候选节点集,并基于候选节点集进行链路预测,由于候选节点集有效过滤掉了与目标节点的相似度为0和与目标节点相似度较低的节点,因此能够有效提高链路预测的效率。
(4)本发明针对不同的目标节点采用不同的方式构建其候选节点集,最大程度上提高了链路预测的效率和准确率。具体地,对于未被查询过的目标节点,在构建候选节点集时仅过滤掉其中与目标节点相似度为0的节点,以过滤掉大部分的节点,提高链路预测的效率,同时保证链路预测的准确率;对于已被查询过的目标节点,在上一次查询所得的节点集合的基础之上构建当前查询的候选节点集,能够进一步过滤掉与目标节点相似度为0以及相似度较低的节点,从而进一步缩小候选节点集,提高链路预测效率。
(5)本发明在以节点之间的Common Neighbor相似度为指标计算节点间的相似度时,利用索引结构和采样率进行计算,能够有效利用索引结构所保留的额外信息,并还原图流的真实情况,从而体高链路预测的准确率。
总的来说,本发明实现了图流中针对节点的链路预测方法,并且有效提高了链路预测的效率和准确率。
附图说明
图1为本发明实施例提供的图流中针对节点的链路预测方法流程图;
图2为本发明实施例提供的对图流进行采样的方法流程图;
图3为本发明实施例提供的以节点之间的Common Neighbor相似度为指标计算节点间的相似度的方法流程图;
图4为本发明实施例提供的以节点之间的聚集系数相似度为指标计算节点之间的相似度的方流程图;
图5为本发明实施例提供的集合KFNold、KFNnow以及KFNnew之间的关系示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了在有限的空间复杂度情况下,实现图流中针对节点的高效、准确、实时、轻量级的链路预测,本发明提供了一种图流中针对节点的链路预测方法,其整体思路在于:在对图流进行动态采样的过程中,利用索引结构记录原始图流更多的信息,并利用这些信息提高链路预测的准确率;过滤掉与目标节点的相似度为0和与目标节点相似度较低的节点,以针对目标节点构建候选节点集,并基于候选节点集进行链路预测,从而有效提高链路预测的效率。
本发明所提供的图流中针对节点的链路预测方法,如图1所示,包括:
持续动态地对图流进行采样以得到样本图,并获得样本图中各节点的邻接点集合的索引结构作为对应节点的索引节点集;
在一个可选的实施方式中,如图2所示,持续动态地对图流进行采样以得到样本图,具体包括:
为每个节点设定一个[0,1]范围内的哈希值以表征各节点的优先级,哈希值越小,对应的优先级越大,且各节点的优先级互不相同;
在任意一个采样时刻t,针对图流中的每一个节点vi,获得节点vi的所有邻接点中优先级最高的一个或多个邻接点,以采样得到节点vi的邻接点集合S(vi);由采样得到的所有节点的邻接点集合构成时刻t的样本图;
其中,邻接点集合S(vi)的元素个数不超过预设的采样阈值L;采样阈值L可根据图流的实际规模和应用的实时性要求设定,以保证采样能够提高链路预测效率的同时,链路预测的准确率能够满足应用需求;在本实施例中,具体设定采样阈值L=100;在本实施例中,采样得到的样本图亦称为graph sketch结构,对应的索引节点集共同成为invertedgraph sketch结构;
对于任意一个待查询的目标节点u,若目标节点u未被查询过,则过滤掉图流中与目标节点u的相似度为0的节点,从而得到由剩余节点构成的候选节点集;否则,获得上一查询时刻t1至当前查询时刻t2之间与目标节点u的相似度增大的所有节点,并加入到上一查询时刻t1查询到的节点集合KFNold中,从而得到候选节点集;
在一个可选的实施方式中,若目标节点u未被查询过,则过滤掉图流中与目标节点u的相似度为0的节点,从而得到由剩余节点构成的候选节点集,包括:
在时刻t2,获得目标节点u的索引节点集I(u);根据集合与其索引结构之间的关系,满足:v∈I(u)当且仅当u∈S(v);
获得索引节点集I(u)中各节点在样本图中的邻接点集合,并将所获取到的邻接点集合求并集,从而得到候选节点集;具体地,获取候选节点集的计算表达式为:
cdd(u)={v|v∈S(q),q∈I(u)};
其中,cdd(u)表示候选节点集,S(q)表示节点q在样本图中的邻接点集合;
对于未被查询过的目标节点,在针对目标节点构建候选节点集时,仅过滤掉其中与目标节点相似度为0的节点,一方面,由于图流中大部分节点与目标节点的相似度为0,过滤掉这样的节点,就能够过滤掉大部分的节点,有效提高链路预测的效率;另一方面,由于可使用的历史查询信息较少,仅过滤掉与目标节点相似度为0的节点,能够在提高链路预测效率的同时保证链路预测的准确率;在本实施例中,若目标节点u未被查询过,则针对目标节点u构建候选节点集的过程称为第一阶段选择;
若目标节点u被查询过,则获取候选节点集的计算表达式为:
其中,表示在上一查询时刻t1至当前查询时刻t2之间的时间段(t1,t2)内索引节点集I(u)中保持不变的节点的集合,表示在时间段(t1,t2)内新加入索引节点集I(u)的节点的集合,表示在时间段(t1,t2)内新加入邻接点集合S(q)的节点的集合;
对于已被查询过的目标节点,上一次查询所得的节点集合中仅包含与目标节点相似度最高top-k个节点,在此基础之上构建当前查询的候选节点集,能够进一步缩小候选节点集,提高链路预测效率;在本实施例中,若目标节点u被查询过,则针对目标节点u构建候选节点集的过程称为第二阶段选择;
根据时刻t2的样本图及对应的索引节点集,计算候选节点集中各节点与目标节点u的相似度,以从候选节点集中筛选出与目标节点u的相似度最高的top-k个节点,从而完成在时刻t2针对目标节点u的链路预测;
其中,top-k为正整数。
本发明在对图流进行采样得到样本图的同时,利用索引结构记录了图流更多的信息,因此能够在链路预测时更为准确的还原图流的真实情况,从而在提高链路预测效率的同时提高链路预测准确率;针对目标节点构建的候选节点集有效过滤掉了与目标节点的相似度为0的节点,并且基于候选节点集进行链路预测,因此能够有效提高链路预测的效率。
在针对目标节点构建候选节点集之后,可根据实际需要采用不同的相似度指标计算候选节点集中各节点与目标节点之间的相似度。
在一个可选的实施方式中,可以节点之间的Common Neighbor相似度为指标计算节点间的相似度,如图3所示,具体地,根据时刻t2的样本图及对应的索引节点集,计算候选节点集中各节点与目标节点u的相似度,包括:
对于候选节点集中的每一个节点wj,在时刻t2,分别获得目标节点u的索引节点集I(u)和节点wj的索引节点集I(wj),并计算索引节点集I(u)的采样率η′(u)以及索引节点集I(wj)的采样率η′(wj),由此计算目标节点u与节点wj的common neighbor相似度为:
其中,索引节点集的采样率为采样过程中索引节点集保存邻接点的比例;在本实施例中,对于任意一个索引节点集,其采样率为该索引节点集中具有最低优先级的节点所对应的哈希值;例如,对于目标节点u的索引节点集I(u),其采样率其中,G(v)表示节点v的哈希值;
上述计算相似度的方法,以节点之间的Common Neighbor相似度为指标,由于采样图仅包含原始图流的部分信息,本发明利用索引结构和采样率进行计算,能够有效利用索引结构所保留的额外信息,并还原图流的真实情况,从而体高链路预测的准确率。
在另一个可选的实施方式中,可以节点之间基于节点聚集系数的相似度为指标计算节点之间的相似度,如图4所示,具体地,根据时刻t2的样本图及对应的索引节点集,计算候选节点集中各节点与目标节点u的相似度,包括:
对于候选节点集中的每一个节点wj,在时刻t2,分别获得目标节点u的索引节点集I(u)和节点wj的索引节点集I(wj);
求索引节点集I(u)和索引节点集I(wj)交集,得到集合I′=I(u)∩I(wj);
计算集合I′中每一个节点的节点聚集系数,以计算目标节点u和节点wj之间基于节点聚集系数的相似度为CCLP(u,wj)=∑v∈I′NCC(v);
其中,NCC(v)表示节点v的节点聚集系数,在本实施例中,节点v的节点聚集系数NCC(v)的计算方式包括:
在时刻t2,获得节点v的索引节点集I(v),以计算在样本图中节点v的所有邻接点之间的最大链路数为allPair=|I(v)|·|I(v)-1|;
若allPair<N,则统计由节点v的邻接点彼此链接形成的链路数count1,以计算节点v的节点聚集系数为否则,从节点v的邻接点中随机选择N个节点对,并统计其中彼此链接的节点对的数量count2,以计算节点v的节点聚集系数为
其中,N为预设的链路数量的阈值,其取值可根据图流的实际规模和应用的实时性要求设定,以保证能够在提高计算效率的同时,计算的准确率能够满足应用需求;在本实施例中,具体设定链路阈值N=1000;
在邻接点较少时,直接统计由邻接点彼此链接形成的链路数来计算节点聚集系数,能够保证链路预测的准确率;在邻接点较多时,则通过随机统计的方式计算节点聚集系数,能够有效提高链路预测的效率;总的来说,本发明中计算节点聚集系数的方法既保证了链路预测的准确率,又能够提高链路预测的效率;
上述算相似度的方法,以节点之间的基于节点聚集系数的相似度为指标,由于采样图仅包含原始图流的部分信息,本发明利用索引结构进行计算,能够有效利用索引结构所保留的额外信息,从而体高链路预测的准确率。
在其他实施方式中,也可采用其他指标计算节点之间的相似度,例如Admic-Adar相似度等,采用不同指标时,可采用相应的计算方法,在此不一一列举。
下面以图3所示节点之间的Common Neighbor相似度为指标计算节点之间的相似度为例,来说明本发明中候选节点集的构建思路。
若目标节点u未被查询过,由于采样得到的样本图不能准确地计算原始图流中该指标的值,因此只能通过样本图去估计或者说还原全图中该指标的真实值,具体地,目标节点u和节点v之间的Common Neighbor相似度为:
显然,如果式(1)的结果为0,也就是目标节点u和节点v之间的相似度为0,那么节点v不可能成为节点u的KFN。所以,只需要找出那些的节点即可,对应的候选节点集的表达式如下:
根据邻接点集合和索引节点集之间的关系,即v∈I(u)当且仅当u∈S(v);假设节点v是目标节点u的候选集成员,根据式(2),一定存在某个节点q,使得
q∈I(u)∩I(v) (3)
于是,
q∈I(u) (4)
q∈I(v)→v∈S(q) (5)
根据式(4)和(5),推导出目标节点的候选节点集的表达式如下:
Cdd(u)={v|v∈S(q),q∈I(u)} (6)
根据式(6)可知,为获得目标节点u的候选节点集,需要遍历I(u)中的所有节点,对于每个节点,获得其邻接点集合S(q),然后对所获得邻接点集合求并集;举个例子说明,假设I(u)包含三个节点,分别是v1、v2、v3,则
Cdd(u)=S(v1)∪S(v2)∪S(v3) (7)
若目标节点u在之前的某个时刻t1被查询过,在当前查询时刻t2再次查询其KFN时,可在上一次查询的查询结果的基础之上,进一步减小候选节点集中节点的数目;假设节点u在时刻t1被查询的查询结果为KFNold;在当前查询时刻t2,记查询结果为KFNnow。如果是静态图,那么每个节点的KFN都会保持不变,而图流的结构随着时间迅速变化,根据式(1),节点对之间的相似度也在发生变化,导致其KFN也在发生变化。因此,在时间段(t1,t2)内,KFNold中的某些节点可能会被一些新的节点代替,而其他节点保持不变,记这部分新加入的节点为KFNnew,如果用集合语言来描述,KFNnew=KFNnow-KFNold,这里减号表示集合的差。显然,为了得到KFNnow,我们只需求出KFNnew,也就是这部分新加入的节点即可,集合KFNold、KFNnow以及KFNnew之间的具体关系之间的关系如图5所示;假设某个节点v∈KFNnew,其相似度指标在时间段(t1,t2)必须要增加,否则它不可能淘汰KFNold中的元素,因此KFNnew可表示为:
其中上标t2表示t2时刻的值,上标t1表示t1时刻的值。根据图5可知,KFNnow中的元素只可能从KFNnew或者KFNold当中取。于是,在t2时刻的候选节点集可以写成下式:
KFNnow=KFNold∪KFNnew (9)
为了更方便的求出KFNnew,将邻接点集合S(u)划分成两部分,其中表示在时刻t1、t2都在节点u的邻接点集合中的节点,表示在时间段(t1,t2)新加入到节点u的邻接点集合中的节点,采用同样的划分方式,将候选节点集I(u)划分成两部分。于是,I(u)∩I(v)可以写成下式:
如果式(10)的后面两项合并,可以得到
由于根据式(8)、(9)和(11),候选节点集可以表示为:
进一步可以得到
记候选节点集的大小为|cdd(u)|,原始图流中的节点节点数目为|V|,相比于传统的链路预测方法,本发明通过构建构建节点集,在计算节点之间的相似度时,可将预测效率提高倍
应用实例1
在社交网络中,以用户为图流节点,如果用户A与用户B之间发生了发送消息、加好友等互动关系,则在对应的节点A和节点B之间会出现一条边;利用本发明所提供的针对节点的链路预测方法,可预测出对于给定的用户节点,哪些其他用户节点最有可能与该用户发生链接,即预测对于给定的用户,哪些其他用户最有可能成为该用户的好友,从而向用户提供好友推荐信息。
应用实例2
在电商领域,以商品为图流节点,如果商品A和商品B被共同购买,那么对应的节点A和B之间会出现一条边,按照这种方式构建的图流记为商品的共同购买网络。利用本发明所提供的针对节点的链路预测方法,可挖掘商品的共同购买网络中的共同购买关系,即给定一个目标商品,可以预测哪些其他商品最有可能与该商品一起被购买,从而可以给用户提供一些商品推荐信息。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种图流中针对节点的链路预测方法,其特征在于,包括:
持续动态地对图流进行采样以得到样本图,并获得所述样本图中各节点的邻接点集合的索引结构作为对应节点的索引节点集;
对于任意一个待查询的目标节点u,若所述目标节点u未被查询过,则过滤掉所述图流中与所述目标节点u的相似度为0的节点,从而得到由剩余节点构成的候选节点集;否则,获得上一查询时刻t1至当前查询时刻t2之间与所述目标节点u的相似度增大的所有节点,并加入到上一查询时刻t1查询到的节点集合KFNold中,从而得到候选节点集;
根据所述时刻t2的样本图及对应的索引节点集,计算所述候选节点集中各节点与所述目标节点u的相似度,以从所述候选节点集中筛选出与所述目标节点u的相似度最高的top-k个节点,从而完成在所述时刻t2针对所述目标节点u的链路预测;
其中,top-k为正整数。
2.如权利要求1所述的图流中针对节点的链路预测方法,其特征在于,持续动态地对图流进行采样以得到样本图,包括:
为每个节点设定一个[0,1]范围内的哈希值以表征各节点的优先级;哈希值越小,对应的优先级越大,且各节点的优先级互不相同;
在任意一个采样时刻t,针对所述图流中的每一个节点vi,获得所述节点vi的所有邻接点中优先级最高的一个或多个邻接点,以采样得到所述节点vi的邻接点集合S(vi);由采样得到的所有节点的邻接点集合构成所述时刻t的样本图;
其中,所述邻接点集合S(vi)的元素个数不超过预设的采样阈值L。
3.如权利要求1所述的图流中针对节点的链路预测方法,其特征在于,过滤掉所述图流中与所述目标节点u的相似度为0的节点,从而得到由剩余节点构成的候选节点集,包括:
在所述时刻t2,获得所述目标节点u的索引节点集I(u);
获得所述索引节点集I(u)中各节点在所述样本图中的邻接点集合,并将所获取到的邻接点集合求并集,从而得到所述候选节点集。
4.如权利要求3所述的图流中针对节点的链路预测方法,其特征在于,若所述目标节点u未被查询过,则获取所述候选节点集的计算表达式为:
cdd(u)={v|v∈S(q),q∈I(u)};
其中,cdd(u)表示所述候选节点集,S(q)表示节点q在所述样本图中的邻接点集合。
5.如权利要求3所述的图流中针对节点的链路预测方法,其特征在于,若所述目标节点u被查询过,则获取所述候选节点集的计算表达式为:
其中,cdd(u)表示所述候选节点集,表示在上一查询时刻t1至当前查询时刻t2之间的时间段(t1,t2)内所述索引节点集I(u)中保持不变的节点的集合,表示在所述时间段(t1,t2)内新加入所述索引节点集I(u)的节点的集合,S(q)表示节点q在所述样本图中的邻接点集合,表示在所述时间段(t1,t2)内新加入所述邻接点集合S(q)的节点的集合。
6.如权利要求1所述的图流中针对节点的链路预测方法,其特征在于,
所述相似度为common neighbor相似度;根据所述时刻t2的样本图及对应的索引节点集,计算所述候选节点集中各节点与所述目标节点u的相似度,包括:
对于所述候选节点集中的每一个节点wj,在所述时刻t2,分别获得所述目标节点u的索引节点集I(u)和所述节点wj的索引节点集I(wj),并计算所述索引节点集I(u)的采样率η′(u)以及所述索引节点集I(wj)的采样率η′(wj),由此计算所述目标节点u与所述节点wj的common neighbor相似度为:
其中,索引节点集的采样率为采样过程中索引节点集保存邻接点的比例。
7.如权利要求6所述的图流中针对节点的链路预测方法,其特征在于,对于任意一个索引节点集,其采样率为该索引节点集中具有最低优先级的节点所对应的哈希值。
8.如权利要求1所述的图流中针对节点的链路预测方法,其特征在于,
所述相似度为基于节点聚集系数的相似度;根据所述时刻t2的样本图及对应的索引节点集,计算所述候选节点集中各节点与所述目标节点u的相似度,包括:
对于所述候选节点集中的每一个节点wj,在所述时刻t2,分别获得所述目标节点u的索引节点集I(u)和所述节点wj的索引节点集I(wj);
求所述索引节点集I(u)和所述索引节点集I(wj)交集,得到集合I′=I(u)∩I(wj);
计算所述集合I′中每一个节点的节点聚集系数,以计算所述目标节点u和所述节点wj之间基于节点聚集系数的相似度为CCLP(u,wj)=∑v∈I′NCC(v);
其中,NCC(v)表示节点v的节点聚集系数。
9.如权利要求8所述的图流中针对节点的链路预测方法,其特征在于,节点v的节点聚集系数NCC(v)的计算方式包括:
在所述时刻t2,获得所述节点v的索引节点集I(v),以计算在所述采样图中所述节点v的所有邻接点之间的最大链路数为allPair=|I(v)|·|I(v)-1|;
若allPair<N,则统计由所述节点v的邻接点彼此链接形成的链路数count1,以计算所述节点v的节点聚集系数为否则,从所述节点v的邻接点中随机选择N个节点对,并统计其中彼此链接的节点对的数量count2,以计算所述节点v的节点聚集系数为
其中,N为预设的链路数量的阈值。
CN201910141425.7A 2019-02-26 2019-02-26 一种图流中针对节点的链路预测方法 Active CN109918543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910141425.7A CN109918543B (zh) 2019-02-26 2019-02-26 一种图流中针对节点的链路预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910141425.7A CN109918543B (zh) 2019-02-26 2019-02-26 一种图流中针对节点的链路预测方法

Publications (2)

Publication Number Publication Date
CN109918543A true CN109918543A (zh) 2019-06-21
CN109918543B CN109918543B (zh) 2021-01-05

Family

ID=66962286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910141425.7A Active CN109918543B (zh) 2019-02-26 2019-02-26 一种图流中针对节点的链路预测方法

Country Status (1)

Country Link
CN (1) CN109918543B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148989A (zh) * 2020-10-16 2020-12-29 重庆理工大学 基于局部节点以及度折扣的社交网络节点影响力推荐系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150317376A1 (en) * 2014-05-01 2015-11-05 International Business Machines Corporation Method, system and computer program product for automating expertise management using social and enterprise data
CN105893481A (zh) * 2016-03-29 2016-08-24 国家计算机网络与信息安全管理中心 一种基于马尔可夫聚类的实体间关系消解方法
CN107018020A (zh) * 2017-03-31 2017-08-04 东北大学 基于半懒惰学习的图流链路预测方法
CN107248923A (zh) * 2017-04-20 2017-10-13 西安电子科技大学 一种基于局部拓扑信息和社团相关性的链路预测方法
CN109241412A (zh) * 2018-08-17 2019-01-18 深圳先进技术研究院 一种基于网络表示学习的推荐方法、系统及电子设备
CN105760503B (zh) * 2016-02-23 2019-02-05 清华大学 一种快速计算图节点相似度的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150317376A1 (en) * 2014-05-01 2015-11-05 International Business Machines Corporation Method, system and computer program product for automating expertise management using social and enterprise data
CN105760503B (zh) * 2016-02-23 2019-02-05 清华大学 一种快速计算图节点相似度的方法
CN105893481A (zh) * 2016-03-29 2016-08-24 国家计算机网络与信息安全管理中心 一种基于马尔可夫聚类的实体间关系消解方法
CN107018020A (zh) * 2017-03-31 2017-08-04 东北大学 基于半懒惰学习的图流链路预测方法
CN107248923A (zh) * 2017-04-20 2017-10-13 西安电子科技大学 一种基于局部拓扑信息和社团相关性的链路预测方法
CN109241412A (zh) * 2018-08-17 2019-01-18 深圳先进技术研究院 一种基于网络表示学习的推荐方法、系统及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SATYA KATRAGADDA等: "Distributed Real Time Link Prediction on Graph Streams", 《2018 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》 *
朱旭振: "复杂网络下基于链路预测的推荐技术研究", 《中国博士学位论文全文数据库 信息科技辑(月刊)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148989A (zh) * 2020-10-16 2020-12-29 重庆理工大学 基于局部节点以及度折扣的社交网络节点影响力推荐系统
CN112148989B (zh) * 2020-10-16 2021-08-24 重庆理工大学 基于局部节点以及度折扣的社交网络节点影响力推荐系统

Also Published As

Publication number Publication date
CN109918543B (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
Ljubić Solving Steiner trees: Recent advances, challenges, and perspectives
CN105678054B (zh) 一种基于a星策略的最优多会合点路径搜索方法及装置
Wang et al. Pre-training graph neural network for cross domain recommendation
Broutin et al. Asymptotics of trees with a prescribed degree sequence and applications
Gouveia et al. Layered graph approaches for combinatorial optimization problems
CN103345526A (zh) 一种云环境下高效的隐私保护密文查询方法
CN103440341B (zh) 信息推荐方法及装置
CN102880657A (zh) 基于搜索者的专家推荐方法
Bistaffa et al. Recommending fair payments for large-scale social ridesharing
Cutler et al. Extremal graphs for homomorphisms
Stai et al. A hyperbolic space analytics framework for big network data and their applications
Cohen et al. Subdivisions of oriented cycles in digraphs with large chromatic number
Casey et al. Critical review of time-dependent shortest path algorithms: A multimodal trip planner perspective
CN109918543A (zh) 一种图流中针对节点的链路预测方法
Pandey et al. Minimizing the communication cost of aggregation in publish/subscribe systems
Luo et al. A relationship matrix resolving model for identifying vital nodes based on community in opportunistic social networks
Abedalla et al. Mtrecs-dlt: Multi-modal transport recommender system using deep learning and tree models
CN107730306A (zh) 基于多维偏好模型的电影评分预测与偏好估计方法
Liu et al. An improved dijkstra-based algorithm for resource constrained shortest path
CN114399124B (zh) 路径数据处理、路径规划方法、装置和计算机设备
CN116166875A (zh) 基于元路径增强的异质图神经网络的双向跨域推荐方法
CN102710596A (zh) 基于QoE的路由选择方法
Martínez-Romero et al. A genetic algorithms-based approach for optimizing similarity aggregation in ontology matching
Yamani et al. A fuzzy TOPSIS approach for finding shortest path in multimodal transportation networks
Liu et al. Real-time graph partition and embedding of large network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant