CN112929445B - 一种面向推荐系统的链路预测方法、系统及介质 - Google Patents
一种面向推荐系统的链路预测方法、系统及介质 Download PDFInfo
- Publication number
- CN112929445B CN112929445B CN202110192701.XA CN202110192701A CN112929445B CN 112929445 B CN112929445 B CN 112929445B CN 202110192701 A CN202110192701 A CN 202110192701A CN 112929445 B CN112929445 B CN 112929445B
- Authority
- CN
- China
- Prior art keywords
- network node
- link
- network
- node
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 80
- 230000008602 contraction Effects 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000008034 disappearance Effects 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001595 contractor effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向推荐系统的链路预测方法,包括以下步骤:获取社交网络数据集;根据社交网络数据集划分若干社区结构;辨别所述社交网络数据集的活跃的网络节点;设定第一距离参数及第二距离参数,根据拉伸收缩算法预测所述活跃的网络节点的链路状态;执行所述社交网络数据集的链路生成,并执行所述活跃的网络节点的链路状态准确度验证,通过上述方式,本发明能够提升算法性能、可扩展性、降低算法复杂性。此外,通过将有效的链路预测算法嵌入到推荐系统中,发掘用户建模模块和推荐对象建模模块之间的深层次内在关联,建立准确可靠的用户与推荐对象的映射法则,解决推荐系统的冷启动问题,提升推荐系统的性能。
Description
技术领域
本发明涉及大数据预测技术领域,特别是涉及一种面向推荐系统的链路预测方法、系统及介质。
背景技术
推荐系统是一种帮助用户快速发现有用信息的工具,它根据用户的个性化设置,提供满足用户需求的内容,然而现有的推荐系统面临数据稀疏性、冷启动和系统本身性能等方面的问题,这些问题对推荐系统造成了较大的影响,降低了推荐系统的准确性;
链路预测的原理是利用现有已知的网络拓扑结构以及网络用户节点的属性信息,尽可能精确的预测网络节点之间连结关系的演化趋势;
所以提出一种新型链路预测算法与推荐系统相结合,用以提高推荐系统的性能和精度。
发明内容
本发明主要解决的是推荐系统的数据稀疏性、冷启动和系统本身性能等方面的问题,以及有效解决链路预测问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种面向推荐系统的链路预测方法,包括以下步骤:
获取社交网络数据集;
根据社交网络数据集划分若干社区结构;
辨别所述社交网络数据集的活跃的网络节点;
设定第一距离参数及第二距离参数,根据拉伸收缩算法预测所述活跃的网络节点的链路状态;
执行所述社交网络数据集的链路生成,并执行所述活跃的网络节点的链路状态准确度验证。
进一步,所述辨别所述社交网络数据集的活跃的网络节点的步骤进一步包括:计算所述网络节点的节点平均阈值及其所在社区的社区平均阈值,若所述网络节点的所述节点平均阈值大于等于所述社区平均阈值,则判定该网络节点为活跃的网络节点。
进一步,所述设定第一距离参数及第二距离参数,根据拉伸收缩算法预测所述活跃的网络节点的链路状态的步骤进一步包括:t=0时刻,所述活跃的网络节点与第一网络节点存在链路,当t+1时刻,所述活跃的网络节点与第一网络节点之间的距离大于所述第一距离参数,则根据拉伸收缩算法预测所述活跃的网络节点与第一网络节点之间的链路将会消失;
t=0时刻,所述活跃的网络节点与第二网络节点不存在链路,当t+1时刻,所述活跃的网络节点与第二网络节点的距离小于所述第二距离参数,则根据拉伸收缩算法预测所述活跃的网络节点与第二网络节点之间的链路将会生成。
进一步,所述根据社交网络数据集划分若干社区结构的步骤进一步包括:使用GN算法和Newman算法将所述社交网络数据集划分为C1,C2,…,Ck社区结构。
进一步,所述计算所述网络节点的节点平均阈值及其所在社区的社区平均阈值的步骤进一步包括:所述节点平均阈值表示为γ(v)=|Nout(v)|/|N(v)|,其中N(v)为所述网络节点的链路数量,Nout(v)表示为所述网络节点除所述网络节点所在的所述社区结构的链路数量;
若所述网络节点的γ(v)≥θ(Ci),则判定所述网络节点为活跃的网络节点。
进一步,所述拉伸收缩算法表示为dt+1(u,v)=dt(u,v)+β·ENEt+(1-β)·CNEt,其中u为第一网络节点,v为第二网络节点,其中dt(u,v)为t时刻所述第一网络节点与所述第二网络节点之间的距离,β表示为t时刻ENE指标所占的权重,dt+1(u,v)表示为t+1时刻所述第一网络节点与所述第二网络节点之间的距离。
进一步,所述拉伸收缩算法包括拉伸指标ENE及收缩指标CNE,所述拉伸指标为其中ENu为所述第一网络节点的专属邻居节点集合,ENv为所述第二网络节点的专属邻居节点集合,N(u)为所述第一网络节点的邻居节点集合,N(v)为所述第二网络节点的邻居节点集合,f(x,u)表示所述第一网络节点的专属节点集合与所述第一网络节点的相似度,f(y,v)表示所述第二网络节点的专属节点集合与所述第二网络节点的相似度;
所述收缩指标为其中CNuv为所述第一网络节点与所述第二网络节点的共同邻居集合,d(x,u)表示所述第一网络节点到共同邻居的距离,d(x,v)表示为所述第二网络节点到共同邻居的距离,f(x,u)表示为所述第一网络节点与共享邻居集合的相似度,f(x,v)表示为所述第二网络节点与共享邻居集合的相似度。
进一步,所述执行所述社交网络数据集的链路生成,并执行所述活跃的网络节点的链路状态准确度验证的步骤进一步包括:根据公式 对推测的所述链路状态准确度打分,其中|EA|为所述社交网络数据集实际出现的链路数目,|LA|为预测生成的链路数目,|ED|为所述社交网络数据集实际消失的链路数目,|LD|为预测消失的链路数目。
本发明还提供一种面向推荐系统的链路预测系统,包括:社交网络获取模块、链路预测模块、链路输出模块和对比评价模块;
所述社交网络获取模块用于获取社交网络数据集;
链路预测模块根据所述社交网络数据集生成若干社区结构,并辨别所述社区结构内的活跃点,
所述链路预测模块设定有第一距离参数和第二距离参数,并根据拉伸-收缩距离算法预测所述活跃的网络节点的链路状态;
所述链路输出模块执行所述社交网络数据集的链路生成;
所述对比评价模块对所述预测输出模块的链路生成结果打分。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现所述的面向推荐系统的链路预测方法步骤。
本发明的有益效果是:
1、本发明所述的面向推荐系统的链路预测方法,可以基于相似度的链路预测算法之上,考虑了社交网络的社区结构属性,引入了社区平均阈值和节点平均阈值,进而有效辨别社交网络中的活跃节点,利用这些活跃节点做进一步预测,本发明创新性地提出了拉伸-缩减距离模型用来描述节点间的链路变化趋势,从而给出链路预测的精确结果,根据引入的第一距离参数和第二距离参数,权衡算法的精确性与运行时间,进而提升算性能、可扩展性、降低算法复杂性。此外,通过将有效的链路预测算法嵌入到推荐系统中,发掘用户建模模块和推荐对象建模模块之间的深层次内在关联,建立准确可靠的用户与推荐对象的映射法则,解决推荐系统的冷启动问题,提升推荐系统的性能。
2、本发明所述的面向推荐系统的链路预测系统,可以实现获取初始社交网络数据集,并对初始社交网络数据集进行清洗以及预处理,预设社区发现算法、活跃点辨别算法及拉伸-收缩距离算法,发现社区,辨别活跃点,并对活跃点进行拉伸-收缩距离算法的计算,计算出该网络节点可能出现或者消失的链路,并将预处理后的社交网络运行,并与预测的社交网络进行对比,将链路预测准确率进行反馈,逐步完善拉伸-收缩距离算法。
3、本发明所述的面向推荐系统的链路预测介质,可以实现获取初始社交网络数据集并对其进行清洗,辨别活跃点,设定链路出现或者消失的距离,并预测该社交网络可能出现或者消失的链路数量,执行社交网络的运行并对预测进行打分。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1所述的面向推荐系统的链路预测方法的示意图;
图2是本发明实施例1所述的面向推荐系统的链路预测方法的详细示意图;
图3是本发明实施例1所述的面向推荐系统的链路预测方法的执行链路预测算法示意图;
图4是本发明实施例1所述的面向推荐系统的链路预测方法的社区结构示意图;
图5是本发明实施例1所述的面向推荐系统的链路预测方法的拉伸过程示意图;
图6是本发明实施例1所述的面向推荐系统的链路预测方法的缩减过程示意图;
图7是本发明实施例2所述面向推荐系统的链路预测系统的示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
实施例1
当前,如学习强国、微博、微信、淘宝、京东和Facebook等在线社交网络或者购物网站已经成为用户传递信息和表达心声的不可或缺的组成部分,用户通过在线社交网络获取时事政治,传递新闻、观点、意见和发明创造等社交内容,购买琳琅满目的商品等。
一般来说,社交网络的基本组成单位是网络用户和网络用户之间的关系,网络用户作为节点存在,网络用户之间的关系为边或者链接,社交网络是用户与用户通过边或者链接所构成的大型复杂网络,例如,Facebook为那些网络中没有直接关联的用户提供好友推荐服务,好友推荐成功则表明没有直接关联的用户之间将会产生一条新的链接;再比如,淘宝或者京东为相似的用户提供同类商品推荐服务,方便用户选择商品,提升用户的购物体验。
社交网络的典型特征是具有动态性,即社交网络的结构随着网络用户之间边的出现或者消失而动态演化,所以如何对社交网络的动态演化进行预测,为链路预测所需要的讨论的问题。
基于上述实例不难看出,链路预测问题的核心为,根据现有已知的网络拓扑结构以及网络用户节点的属性等信息,尽可能精确地预测网络节点之间链接关系的演化趋势。
链路预测作为复杂网络分析领域中最经典和最热门的研究主题之一,现在根据链路预测已经催生出了一系列的成果,这些成果被应用到如问题决策、异常检测、商品、谣言控制和隐私保护等诸多领域。
链路预测按照其侧重点的不同,大致可以分为基于相似度的方法、基于网络节点属性的方法、基于最有影响力节点的方法、基于机器学习和深度学习的方法以及基于社区结构的方法。
基于相似度的方法大体上为,首先需要定义节点之间的相似度指标,其次计算节点之间的相似度得分,用以预测节点链接出现或者消失的可能,得分的多或者少反映了节点之间链接消失或者生成的可能性高低,研究表明如果节点之间具有较多的共同邻居节点,他们之间产生新的链接的可能性越高。
基于网络节点属性的方法大体上为,利用网络节点自身具有的一种或者多种属性对节点之间的链接关系作出预测,比如节点A和节点B对同一类别的产品表现出了相同的喜好,那么针对另外一类产品,节点A和节点B表现出的一致性要远超过于随机挑选的其他节点。
基于最有影响力节点的方法大体上为,设定网络节点影响力的评判标准,再根据评判标准去鉴别网络中最具影响力的节点,最后针对这些最具影响力的节点进行链路预测。
基于机器学习和深度学习的方法,例如在深度学习中,引入了受限玻尔曼机的概念解决链路预测的动态推理问题等。
基于社区结构的方法中,社交网络是其中一个重要概念,除了上述所提到的,社交网络的典型特征是具有动态性,社交网络的另一个重要的特征是社区结构特性,即处于同一社区结构内部节点之间的链接关系要比处于不同社区之间的链接关系更为稠密,目前,社区结构还没有一个统一的、精确的定义,而现有的社区结构的大致定义为有某种共同兴趣偏好的用户群体构成的集合,基于社区结构的方法为,处于同一社区结构内部的节点之间具有更高的相似性,这表明链接的产生常见于社区结构内部,链接的消失则常见于不同社区之间。
综上,尽管存在根据预测问题的一系列链路预测算法,但是这些算法都存在一些不足:
第一,算法的普适性较低,现有的链路预测算法往往根据需要解决的问题进行设计,当该链路预测算法移植到其他的数据集上,预测结果往往不尽人意;
第二,基于机器学习或者深度学习的算法精度高,但是训练时间过长,难以满足时效性较强的应用场景;
第三,可扩展性较低,由于链路预测算法本身复杂度高并且需要消耗大量的计算资源,即便在规模较小的网络中进行训练,仍然需要难以接受的时长,因而在更大规模的复杂网络上难以实现有效的扩展。
推荐系统作为一种帮助用户根据需要快速获取信息的工具,它通过用户的个性化,提供满足用户需求的内容,传统的推荐系统主要由用户建模模块、推荐对象建模模块和推荐算法构成,推荐系统把用户建模模块中的兴趣需求信息和推荐对象建模模块中的特征信息匹配,同时使用推荐算法进行筛选,找到用户可能感兴趣的推荐对象,并推荐给用户,但是现有的推荐系统面临着数据稀疏性、冷启动和系统本身性能等方面的问题,这些问题导致推荐系统的准确性降低。
推荐系统把用户建模模块中的兴趣需求信息和推荐对象建模模块中的特征信息匹配为了解决上述问题,提出了社交化的推荐系统框架,所谓社交化的推荐系统框架是将网络用户的社交关系属性特征与推荐系统相结合,利用链路预测算法发掘用户建模模块和推荐对象建模模块之间的深层次内在关联,建立精准可靠的用户与推荐对象的映射关系,解决推荐系统的冷启动问题,提升推荐系统的性能。
为了解决上述问题,本发明实施例提供一种面向推荐系统的链路预测方法,将网络用户的社交关系特征与推荐系统相结合,请参阅图1和图2。
原始社交网络获取:
本实施例所提出的链路预测方法在高质量的社区结构内可以显著的提升预测的准确性,所以在链路预测时,需要优先在社交网络中发现高质量的社区结构,这也是本实施例的理论基础。
现有技术中,例如,可以通过snap网站获取social networks里面的soc-Pokec数据集。它是一个全量的捷克斯洛伐克的一个社交网站数据集,不仅包含了社交网站中点和边的数据;同时包含了user profiledata(即每个用户具备的属性),如性别、注册时间、年龄、工作领域、婚姻和孩子状态等,其丰富程度几乎是公开数据集中能够下载到的最好之一,与此同时,它还包含了整个网站上所有用户的关系,如果凭自己抓取,那只是网站上的部分采样,而这个稳定的全量数据则代表了整个网络的特征,对我们的分析解释和逻辑思维的严谨性是有好处的;或者通过网络爬虫进行数据的采集,基于API的网络爬虫,基于网页的网络爬虫,都可以获取大量的社交网络数据;
而且现在的运营商,例如阿里,百度都拥有大量的社交网络数据;
并且我们还可以通过人工合成,例如随机网络生成算法的方法合成社交网络数据集,所以社区结构的发现并不是我们所需要讨论的问题,但是通过不同种类的方法获取社交网络的好处在于,预测算法在不同种类的社交网络中进行预测,可以验证链路预测算法的有效性,避免单一的社区结构导致的偶然性错误,而且在不同种类的社交网络中执行链路预测,并在预测结束后,对比不同种类社交网络的执行结果,可以验证链路预测算法的普适性及可拓展性。
原始社交网络数据处理:
因通过现有技术手段获取的社交网络数据通常有噪声以及数据格式等问题,所以需要对原始社交网络数据进行数据清洗,将获取到的所有原始社交网络数据转换为链路预测算法所需的数据格式后,便于链路预测算法的测试。
执行链路预测算法:
请参阅图3,该链路预测算法包括四个步骤,社区发现步骤、辨别活跃点步骤、距离迭代计算步骤和链路预测步骤;
请参阅图4至图6,社区发现步骤为:将数据处理过后的原始社交网络进行社区结构检测,本实施例采用GN算法,Newman算法,GN算法通过模块度可以准确的划分网络,但它只适用于中小型规模的网络,Newman算法提出一种基于贪心的快速社区发现算法,算法的基本思想是:首先将网络中的每个顶点设为一个单独社区,然后选出使得模块度Q的增值最大的社区对进行合并;通过这两种算法进行社区结构的发现,本实施例的社区结构为16个节点构成的简单社交网络,通过GN算法或Newman算法,发现了四个社区,C1,C2,C3,C4,通过图我们可以看出,四个社区结构之间没有交叉节点,即不存在同一个节点同时属于不同的社区结构的情况,所以Newman算法,GN算法可以实现社交网络的发现,证明可以在本实施例中使用。
辨别活跃点步骤为:为了表述清晰,我们通过数学公式并结合图进行说明,首先进行定义,本实施例的16节点的社交网络可以表述为无向图G=(V,E),其中V为16节点中任意一个网络节点,E为各个网络节点之间的链接的集合,即(u,v)∈E且无向。
网络节点V的邻居节点表述为N(v)={u∈V|(u,v)∈E}。
网络节点u和节点v的共同邻居节点表述为CNuv=N(v)∩N(u)。
网络节点u的专属邻居节点表述为ENu=N(u)-CNuv。
根据上述公式,提出社区平均阈值关系式,任意给定的一个社交网络G=(V,E),并通过GN及Newman算法得到社区结构C1,C2,…,Ck,社区平均阈值定义为其中Nin(v)表示社区结构Ci中v的邻居集合,N(v)表示G中v的邻居集合,例如在本实施例中的16网络节点的社交网络中,节点4在社区结构C1中,在社区结构C1中总共有四条链路,分别为网络节点4与网络节点3的链路,网络节点3与网络节点1的链路,网络节点4与网络节点2的链路,网络节点1与网络节点2的链路,在社区结构C1与其他的社区结构中同样包括链路,如网络节点4与网络节点5的链路,网络节点4与网络节点9的链路,网络节点4与网络节点10的链路,网络节点3与网络节点14的链路,所以社区结构C1,中4节点共计4条链路,即邻居集合为4,在G中网络节点4的邻居节点为8,所以Nin(v)=4,N(v)=8,网络节点4所在社区C1的社区平均阈值为4/8;
同样,定义节点平均阈值,任意给定的一个社交网络G=(V,E),并通过GN及Newman算法得到社区结构C1,C2,…,Ck,节点平均阈值定义为γ(v)=|Nout(v)|/|N(v)|,Nout(v)表示社区结构Ci以外v的邻居节点集合,还是同样以网络节点4举例,与网络节点4直接进行链路连接的有网络节点5、网络节点9、网络节点10、网络节点3和网络节点2,共计5条链路,而在社区结构C1外共计有3条链路,即网络节点5、网络节点9和网络节点10,所以Nout(v)=3,N(v)=5,即网络节点4的节点平均阈值γ(v)=|Nout(v)|/|N(v)|即为3/5;
综上,定义如果一个节点满足其节点平均阈值大于等于节点所在社区的社区平均阈值,则定义该节点v为活跃的,例如γ(v)≥θ(Ci),可以用同样的算法推理得出节点8也是活跃的。
距离迭代计算步骤为:
为了平衡算法的精度以及算法运行时间,在上述活跃点判断后,执行距离迭代的计算,将本实施例中16网络节点进行活跃点的判断,将活跃的网络节点挑选出来,同时,因为链路的建立需要存在两个节点,所以同样将活跃节点的邻居节点也挑选出来,本实施例定量的描述专属邻居集合对于网络节点u和网络节点v之间的影响指标ENE,拉伸指标其中f(x,u)表示专属节点集合x与网络节点u的相似度,f(y,v)表示专属节点集合y与网络节点v的相似度,ENu为专属邻居集合,N为邻居集合,当t=0时刻,网络节点u与网络节点v的距离为d(x,u),在t时刻,网络节点u与网络节点v的距离为d`(u,v),所以,根据专属邻居与网络节点的相似度,带入拉伸指标中,ENE影响网络节点u与网络节点v,最终d`(u,v)≥d(u,v),综上网络节点的链接的距离将会增加,即本实施例中网络节点8与其邻居节点13之间的距离将会增加。
上述实施例中,阐述了专属邻居集合对于网络节点之间距离的拉伸作用,下面说明一下共同邻居节点对于网络节点之间的距离的收缩作用,定义收缩指标CNuv代表节点u和节点v的共同邻居集合,同样,与ENE公式的表述形式几乎类似,但是收缩指标的加和两项分别乘以网络节点u和网络节点v的交叉项,表明了网络节点x与网络节点v的相似度是影响两者之间距离的关键因素,在t=0时刻,网络节点u与网络节点v的距离为d(u,v),在t时刻网络节点u与网络节点v的距离为d`(u,v),且d`(u,v)≤d(u,v),综上,在共同邻居节点与网络节点u与网络节点v的相似度影响下,网络节点u与网络节点v的距离将会缩减,即网络节点1和网络节点4之间的距离将会减少。
将拉伸指标与收缩指标进行统一,概括为如下形式,dt+1(u,v)=dt(u,v)+β·ENEt+(1-β)·CNEt,其中β表示拉伸模式所占的权重,通过公式可以看出网络节点u与网络节点v在t+1时刻的距离,取决于t时刻网络节点u与网络节点v的距离,与t时刻拉伸指标和收缩指标对于节点u与节点v的影响。
链路预测步骤为:根据上述拉伸指标与收缩指标对网络节点之间的距离进行预测,设定设定第二距离参数ηA和第一距离参数ηD,在t=0时刻网络节点v与网络节点u之间存在链路,在t时刻,网络节点v与网络节点的链路距离大于ηD,则节点u与节点v之间的链路预测将会消失,此ηD可以根据CNE拉伸指标多次预测进行设定,但是数值并不是我们需要讨论的内容。
在t=0时刻网络节点v与网络节点u之间不存在链路,在t时刻,网络节点u与网络节点v的链路距离小于ηA,此ηA可以根据ENE收缩指标多次预测设定,预测网络节点u与网络节点v之间将会产生一条链路。
预测结果生成及反馈:
根据链路预测算法预测生成的链路数目记作|LA|,根据链路预测算法预测消失的链路数目记作|LD|,在社交网络中实际生成的链路记作|EA|,在社交网络中实际消失的链路记作|ED|,对链路预测算法进行打分,确认参数ηA和ηD的精确性,并根据得分做出调整,链路预测结果的评价指标如以下公式: 在该评价公式中链路预测算法预测的消失或者出现的精确性比重各站百分之五十,根据得分对ηA和ηD进行修正,直至得出最精确的参数ηA和ηD。
实施例2
本发明实施例还提供一种面向推荐系统的链路预测系统,请参阅图7,包括:
原始社交网络输入模块、数据清洗和预处理模块、链路预测算法执行模块、预测结果输出模块、结果对比评价模块;
原始社交网络输入模块;用于获取社交网络数据集,可以通过公开的社交网络数据集网站,例如斯坦福大学https://snap.stanford.edu/data/,或者KONECT数据集网站(http://konect.uni-koblenz.de)获取各种类型的社交网络数据集;也可以采用人工的方式进行社交网络数据集的合成。
数据清洗和预处理模块用于对原始社交网络输入模块获取的社交网络数据集进行数据清理和去除噪声,通过数据预处理以及清洗,将原始社交网络数据集转化为算法要求的标准输入格式,并发送至链路预测算法执行模块。
链路预测算法执行模块用于接收清洗完成的社交网络数据集,链路预测算法执行模块设有社区发现算法,例如GN算法、Newman快速算法和辨别活跃点算法、拉伸-收缩距离算法等,将接收到的社交网络数据集进行社交结构发现,并通过辨别活跃点算法将发现的社区结构中活跃的网络节点进行活跃点的判定,根据拉伸-收缩距离,以及设定的距离阈值,预测网络节点在距离多少的情况下,可以断开或者建立链路。
预测结果输出模块用于根据GN算法、Newman快速算法和辨别活跃点算法、拉伸-收缩距离算法对社交网络数据集进行验证测试,并将运行的结果输出。
结果对比评价模块用于将预测结果输出模块输出的实际结果与链路预测算法预测的结果进行比较,并打分,根据打分结果对链路进行改进。
基于与前述实施例中方法同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述公开的一种多操作系统快速切换方法的步骤。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种面向推荐系统的链路预测方法,其特征在于,包括以下步骤:
获取社交网络数据集;
根据社交网络数据集划分若干社区结构;
辨别所述社交网络数据集的活跃的网络节点:
计算所述网络节点的节点平均阈值及其所在社区的社区平均阈值,所述节点平均阈值表示为γ(v)=|Nout(v)|/|N(v)|,其中N(v)为所述网络节点的链路数量,Nout(v)表示为所述网络节点除所述网络节点所在的所述社区结构的链路数量;
若所述网络节点的γ(v)≥θ(Ci),则判定所述网络节点为活跃的网络节点;
设定第一距离参数及第二距离参数,根据拉伸收缩算法预测所述活跃的网络节点的链路状态:
t=0时刻,所述活跃的网络节点与第一网络节点存在链路,当t+1时刻,所述活跃的网络节点与第一网络节点之间的距离大于所述第一距离参数,则根据拉伸收缩算法预测所述活跃的网络节点与第一网络节点之间的链路将会消失;
t=0时刻,所述活跃的网络节点与第二网络节点不存在链路,当t+1时刻,所述活跃的网络节点与第二网络节点的距离小于所述第二距离参数,则根据拉伸收缩算法预测所述活跃的网络节点与第二网络节点之间的链路将会生成;
所述拉伸收缩算法表示为dt+1(u,v)=dt(u,v)+β·ENEt+(1-β)·CNEt,其中u为第一网络节点,v为第二网络节点,其中dt(u,v)为t时刻所述第一网络节点与所述第二网络节点之间的距离,β表示为t时刻ENE指标所占的权重,dt+1(u,v)表示为t+1时刻所述第一网络节点与所述第二网络节点之间的距离,其中ENE为拉伸指标,CNE为收缩指标;
所述拉伸指标为其中ENu为所述第一网络节点的专属邻居节点集合,ENv为所述第二网络节点的专属邻居节点集合,N(u)为所述第一网络节点的邻居节点集合,N(v)为所述第二网络节点的邻居节点集合,f(x,u)表示所述第一网络节点的专属节点集合与所述第一网络节点的相似度,f(y,v)表示所述第二网络节点的专属节点集合与所述第二网络节点的相似度;
所述收缩指标为 其中CNuv为所述第一网络节点与所述第二网络节点的共同邻居集合,d(x,u)表示所述第一网络节点到共同邻居的距离,d(x,v)表示为所述第二网络节点到共同邻居的距离,f(x,u)表示为所述第一网络节点与共享邻居集合的相似度,f(x,v)表示为所述第二网络节点与共享邻居集合的相似度;
执行所述社交网络数据集的链路生成,并执行所述活跃的网络节点的链路状态准确度验证。
2.根据权利要求1所述的面向推荐系统的链路预测方法,其特征在于:所述根据社交网络数据集划分若干社区结构的步骤进一步包括:使用GN算法和Newman算法将所述社交网络数据集划分为C1,C2,…,Ck社区结构。
4.基于权利要求1~3中任一项所述的面向推荐系统的链路预测方法的面向推荐系统的链路预测系统,其特征在于,包括:社交网络获取模块、链路预测模块、链路输出模块和对比评价模块;
所述社交网络获取模块用于获取社交网络数据集;
链路预测模块根据所述社交网络数据集生成若干社区结构,并辨别所述社区结构内的活跃的网络节点,
所述链路预测模块设定有第一距离参数和第二距离参数,并根据拉伸收缩算法预测所述活跃的网络节点的链路状态;
所述链路输出模块执行所述社交网络数据集的链路生成;
所述对比评价模块对所述链路输出模块的链路生成结果打分。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1-3任一项所述的面向推荐系统的链路预测方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110192701.XA CN112929445B (zh) | 2021-02-20 | 2021-02-20 | 一种面向推荐系统的链路预测方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110192701.XA CN112929445B (zh) | 2021-02-20 | 2021-02-20 | 一种面向推荐系统的链路预测方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112929445A CN112929445A (zh) | 2021-06-08 |
CN112929445B true CN112929445B (zh) | 2022-06-07 |
Family
ID=76169995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110192701.XA Active CN112929445B (zh) | 2021-02-20 | 2021-02-20 | 一种面向推荐系统的链路预测方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112929445B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104134159A (zh) * | 2014-08-04 | 2014-11-05 | 中国科学院软件研究所 | 一种基于随机模型预测信息最大化传播范围的方法 |
CN104391889A (zh) * | 2014-11-11 | 2015-03-04 | 西安交通大学 | 一种面向有向-加权网络的社区结构发现方法 |
WO2015124424A1 (en) * | 2014-02-24 | 2015-08-27 | Deutsche Telekom Ag | Method and system for link prediction in mobile computing |
CN105159918A (zh) * | 2015-07-23 | 2015-12-16 | 常州大学 | 一种基于信任关联度的微博网络社区发现方法 |
CN105512242A (zh) * | 2015-11-30 | 2016-04-20 | 浙江工业大学 | 一种基于社会网络结构的并行推荐方法 |
CN107145527A (zh) * | 2017-04-14 | 2017-09-08 | 东南大学 | 对齐异构社交网络中基于元路径的链路预测方法 |
CN107346333A (zh) * | 2017-06-27 | 2017-11-14 | 浙江大学 | 一种基于链路预测的在线社交网络好友推荐方法与系统 |
CN107743103A (zh) * | 2017-10-26 | 2018-02-27 | 北京交通大学 | 基于深度学习的mmtc系统的多节点接入检测和信道估计方法 |
CN107833142A (zh) * | 2017-11-08 | 2018-03-23 | 广西师范大学 | 学术社交网络科研合作者推荐方法 |
CN108182640A (zh) * | 2017-12-29 | 2018-06-19 | 山东浪潮云服务信息科技有限公司 | 一种基于用户行为传播模型求解影响力最大化问题的方法 |
CN108304867A (zh) * | 2018-01-24 | 2018-07-20 | 重庆邮电大学 | 面向社交网络的信息流行度预测方法及系统 |
CN108734223A (zh) * | 2018-05-27 | 2018-11-02 | 北京工业大学 | 基于社区划分的社交网络好友推荐方法 |
CN109754113A (zh) * | 2018-11-29 | 2019-05-14 | 南京邮电大学 | 基于动态时间规整与长短时间记忆的负荷预测方法 |
CN110289980A (zh) * | 2019-05-13 | 2019-09-27 | 南昌航空大学 | 采用学习自动机预测口袋交换网络链路的方法及系统 |
CN111241421A (zh) * | 2020-01-14 | 2020-06-05 | 西安电子科技大学 | 基于社交上下文信息的用户转发行为预测方法 |
CN112035545A (zh) * | 2020-08-30 | 2020-12-04 | 哈尔滨工程大学 | 一种考虑非活跃节点和社区边界的竞争影响力最大化方法 |
CN112149000A (zh) * | 2020-09-09 | 2020-12-29 | 浙江工业大学 | 一种基于网络嵌入和节点相似性的在线社交网络用户社区发现方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689452B2 (en) * | 2004-05-17 | 2010-03-30 | Lam Chuck P | System and method for utilizing social networks for collaborative filtering |
US9082082B2 (en) * | 2011-12-06 | 2015-07-14 | The Trustees Of Columbia University In The City Of New York | Network information methods devices and systems |
CN107153713B (zh) * | 2017-05-27 | 2018-02-23 | 合肥工业大学 | 社交网络中基于节点间相似性的重叠社区检测方法及系统 |
-
2021
- 2021-02-20 CN CN202110192701.XA patent/CN112929445B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015124424A1 (en) * | 2014-02-24 | 2015-08-27 | Deutsche Telekom Ag | Method and system for link prediction in mobile computing |
CN104134159A (zh) * | 2014-08-04 | 2014-11-05 | 中国科学院软件研究所 | 一种基于随机模型预测信息最大化传播范围的方法 |
CN104391889A (zh) * | 2014-11-11 | 2015-03-04 | 西安交通大学 | 一种面向有向-加权网络的社区结构发现方法 |
CN105159918A (zh) * | 2015-07-23 | 2015-12-16 | 常州大学 | 一种基于信任关联度的微博网络社区发现方法 |
CN105512242A (zh) * | 2015-11-30 | 2016-04-20 | 浙江工业大学 | 一种基于社会网络结构的并行推荐方法 |
CN107145527A (zh) * | 2017-04-14 | 2017-09-08 | 东南大学 | 对齐异构社交网络中基于元路径的链路预测方法 |
CN107346333A (zh) * | 2017-06-27 | 2017-11-14 | 浙江大学 | 一种基于链路预测的在线社交网络好友推荐方法与系统 |
CN107743103A (zh) * | 2017-10-26 | 2018-02-27 | 北京交通大学 | 基于深度学习的mmtc系统的多节点接入检测和信道估计方法 |
CN107833142A (zh) * | 2017-11-08 | 2018-03-23 | 广西师范大学 | 学术社交网络科研合作者推荐方法 |
CN108182640A (zh) * | 2017-12-29 | 2018-06-19 | 山东浪潮云服务信息科技有限公司 | 一种基于用户行为传播模型求解影响力最大化问题的方法 |
CN108304867A (zh) * | 2018-01-24 | 2018-07-20 | 重庆邮电大学 | 面向社交网络的信息流行度预测方法及系统 |
CN108734223A (zh) * | 2018-05-27 | 2018-11-02 | 北京工业大学 | 基于社区划分的社交网络好友推荐方法 |
CN109754113A (zh) * | 2018-11-29 | 2019-05-14 | 南京邮电大学 | 基于动态时间规整与长短时间记忆的负荷预测方法 |
CN110289980A (zh) * | 2019-05-13 | 2019-09-27 | 南昌航空大学 | 采用学习自动机预测口袋交换网络链路的方法及系统 |
CN111241421A (zh) * | 2020-01-14 | 2020-06-05 | 西安电子科技大学 | 基于社交上下文信息的用户转发行为预测方法 |
CN112035545A (zh) * | 2020-08-30 | 2020-12-04 | 哈尔滨工程大学 | 一种考虑非活跃节点和社区边界的竞争影响力最大化方法 |
CN112149000A (zh) * | 2020-09-09 | 2020-12-29 | 浙江工业大学 | 一种基于网络嵌入和节点相似性的在线社交网络用户社区发现方法 |
Non-Patent Citations (2)
Title |
---|
A Distributed Link Prediction Algorithm Based on Clustering in Dynamic Social Networks;Han Yuan等;《2015 IEEE International Conference on Systems,Man,and Cybernetics》;20160114;全文 * |
可及型消费:共享经济范式下群体消费逻辑演进的分析框架;刘凯强等;《学习与实践》;20181115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112929445A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10115061B2 (en) | Motif recognition | |
Liu et al. | A clustering-and maximum consensus-based model for social network large-scale group decision making with linguistic distribution | |
Xiaojun | An improved clustering-based collaborative filtering recommendation algorithm | |
Ma et al. | A highly accurate prediction algorithm for unknown web service QoS values | |
CN112232925A (zh) | 一种融合知识图谱对商品进行个性化推荐的方法 | |
KR101543780B1 (ko) | 동적 사용자 프로필 및 소셜 네트워크 신뢰성을 이용한 전문가 검색 시스템 및 방법 | |
Xu et al. | TNS-LPA: an improved label propagation algorithm for community detection based on two-level neighbourhood similarity | |
CN112052404A (zh) | 多源异构关系网络的群体发现方法、系统、设备及介质 | |
Yigit et al. | Extended topology based recommendation system for unidirectional social networks | |
CN110659436A (zh) | 网络舆情监控方法、装置和设备 | |
Mehta et al. | Collaborative personalized web recommender system using entropy based similarity measure | |
ASHTARI et al. | A novel user profile-based fuzzy approach for evaluating trust in semantic web | |
Perez-Cervantes et al. | Using link prediction to estimate the collaborative influence of researchers | |
Shirgahi et al. | Trust estimation of the semantic web using semantic web clustering | |
Louati et al. | Trust-based service discovery in multi-relation social networks | |
CN112214684A (zh) | 一种种子扩展的重叠社区发现方法及装置 | |
CN112929445B (zh) | 一种面向推荐系统的链路预测方法、系统及介质 | |
CN112364243B (zh) | 一种基于大数据的信息推荐系统 | |
Sachan et al. | Using abstract information and community alignment information for link prediction | |
Papadakisa et al. | SCoR: a synthetic coordinate based recommender system | |
CN111291182A (zh) | 热点事件发现方法、装置、设备及存储介质 | |
CN111159402A (zh) | 一种基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法 | |
Rajak et al. | FDF-HybridFS: Towards design of a failure detection framework using hybrid feature selection method for IP core networks that connect 5G core in NFV-based test environment | |
Sina et al. | Sami: an algorithm for solving the missing node problem using structure and attribute information | |
Liu et al. | A recommendation system algorithm based on large scale internet environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |