CN103488678B - 一种基于用户签到相似度的好友推荐系统 - Google Patents

一种基于用户签到相似度的好友推荐系统 Download PDF

Info

Publication number
CN103488678B
CN103488678B CN201310336664.0A CN201310336664A CN103488678B CN 103488678 B CN103488678 B CN 103488678B CN 201310336664 A CN201310336664 A CN 201310336664A CN 103488678 B CN103488678 B CN 103488678B
Authority
CN
China
Prior art keywords
user
interest
similarity
theme
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310336664.0A
Other languages
English (en)
Other versions
CN103488678A (zh
Inventor
李巍
蒋江涛
李云春
李国君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongshi Information Technology Co ltd
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201310336664.0A priority Critical patent/CN103488678B/zh
Publication of CN103488678A publication Critical patent/CN103488678A/zh
Application granted granted Critical
Publication of CN103488678B publication Critical patent/CN103488678B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户签到相似度的好友推荐系统,该系统包括兴趣推荐模块、相似度计算模块和主题提取模块。首先经主题提取模块从LBSN数据库中取得以往用户的签到记录,并采用主题提取算法获得提取用户签到记录中潜在的主题;然后利用主题提取模块提取的潜在主题,调用相似度计算模块的计算方法分别计算候选用户集中每个用户在每个主题下与请求用户的相似度;然后每个用户将每个主题下的相似度求和得到最终的相似度。最后由兴趣推荐模块根据请求用户的请求参数设置确定最终的推荐好友,并返回给请求用户。

Description

一种基于用户签到相似度的好友推荐系统
技术领域
本发明涉及一种好友推荐系统,更特别地说,是指一种通过用户以往的签到记录进行计算用户的相似度,并根据用户的相似度进行好友推荐的系统。本发明系统属于基于位置的社交网中的好友推荐技术领域。
背景技术
社交网络服务提供商针对不同的群众,有着不同的定位。比如说最初的社交网站是用于交友,例如美国的Friendster,Linkedin。也有网站专门为商务人士交友提供服务,比如说中国的天极网,德国的OPENBC。有些为商务人士提供的社交网站同时也兼具求职招聘的功能。不过盈利前景最大的网站还是婚恋交友网站。这些网站都已经拥有上百万用户,盈利可观。另外就是面向年轻人及大学生的SNS(Social Networking Services)网站也比较受欢迎,比如说美国的Myspace就被默多克的新闻集团高价收购。针对美国大学生的社交网站facebook在美国大学生中非常流行(如今facebook的用户已更为广泛),中国的模仿者人人网也被千橡互动公司收购,后者是中国很具人气的网站猫扑的母公司。
目前,基于位置的社交网(Location-based Social Networking Services,LBSN)越来越流行。由于快速的第四代移动通信网络的快速发展,以及对地图服务和内嵌GPS模块智能手机强大的接口支持,它很容易为移动用户识别他们的位置,并分享他们在LBSN。在一个LBSN中,用户可以发现和创建兴趣点(point of interest,POI),可以在他们的当前位置进行签到,发表评论和意见以及添加好友等。因此,LBSN,如Foursquare、Facebook Places、新浪微博等,已经采取了不同的机制来吸引用户,并激励签到用户BUb分享他们的签到信息。并且,已经有一些研究开始利用这些有用户产生的带有地理标签签到信息。因为这些数据可以允许研究者可以以数据驱动的方式去分析社会层次的利益问题,并且可以根据签到信息发现用户的移动模式,预测好友关系,更好的理解城市的不同方面。
基于用户的地理位置进行好友预测或推荐的主要有以下两种方式:第一种方式是利用用户产生的GPS轨迹,通过计算GPS轨迹的相似度,表示用户的相似度,进而根据用户的相似度进行好友推荐;第二种方式是通过用户在某些兴趣点共同签到进行推荐好友。第一种方式,通过计算GPS轨迹相似度,进行好友推荐的方法在LBSN中不在适用,因为GPS轨迹是一条连续的轨迹,而LBSN中产生的签到数据是一种离散的轨迹。第二种方式,这是以兴趣点为中心进行好友推荐的,即如果用户在相同的兴趣点签到,则说明推荐用户RUr具有相同的爱好,进而推荐给请求用户Uu。这种方式,没有充分考虑用户整体的兴趣爱好或行为模式。
发明内容
针对以上两种好友推荐方式的不足,本发明提出了一种基于用户签到相似度的好友推荐系统,综合考虑用户在一段时间内所有的签到记录,并利用主题模型进行挖掘签到用户BUb记录中的潜在主题,然后根据提取的潜在的主题计算用户的相似度,最后,将相似度最高的候选用户CUc推荐给将请求用户Uu
本发明的一种基于用户签到相似度的好友推荐系统,该好友推荐系统包括有用户(100)、推荐系统(200)和LBSN数据库(300);其中:所述的推荐系统(200)包括有兴趣推荐模块(201)、相似度计算模块(202)和主题提取模块(203);
用户(100)将自己的推荐请求发送给推荐系统中的兴趣推荐模块(201);所述推荐请求中的Uu表示请求用户,u表示请求用户Uu的标识号;表示好友个数;dist表示签到距离阈值;
LBSN数据库(300)一方面用于为主题提取模块(203)提供签到用户BUb;另一方面用于为相似度计算模块(202)提供签到用户兴趣
兴趣推荐模块(201)第一方面用于接收用户(100)发送的推荐请求 Q = { U u , K U u , dist } ;
兴趣推荐模块(201)第二方面将中的相似度计算请求SQ={Uu,dist}发送给相似度计算模块(202);
兴趣推荐模块(201)第三方面用于接收相似度计算模块(202)发送的带有相似度的候选用户集合CR;
兴趣推荐模块(201)第四方面依据好友个数对带有相似度的候选用户集合CR进行相似度高低排序,得到所有推荐用户RUr,并将前个推荐用户RUr返回给用户(100);
主题提取模块(203)第一方面依据兴趣截取时间CPT从LBSN数据库(300)中检索与之相匹配的签到用户BUb
主题提取模块(203)第二方面依据预设主题数量t和兴趣点数量v,运用隐含狄利克雷分配主题模型,得到主题集合 TH = { th 1 PM BU b , th 2 PM BU b , · · · , th f PM BU b } ;
相似度计算模块(202)第一方面用于接收兴趣推荐模块(201)输出的相似度计算请求SQ={Uu,dist};
相似度计算模块(202)第二方面从LBSN数据库(300)中提取出签到用户BUb的签到兴趣点信息 PM BU b = { pm 1 BU b , pm 2 BU b , · · · , pm q BU b } ;
相似度计算模块(202)第三方面用于接收主题提取模块(203)输出的主题集合TH,即 TH = { th 1 PM BU b , th 2 PM BU b , · · · , th f PM BU b } ;
相似度计算模块(202)第四方面对所述主题集合TH进行权重处理,得到主题权重向量WTH;
相似度计算模块(202)第五方面依据兴趣点的地理位置对主题集合TH中的每一个主题进行最短距离计算,得到主题集合TH下的主题最短距离集合DTH;
相似度计算模块(202)第六方面依据DTH计算两个签到用户之间的距离均值 AD = dth 1 PM BU b + dth 2 PM BU b + · · · + dth f PM BU b f ; 若AD≤dist,则签到用户成为候选用户CUc;若AD>dist,则签到用户不成为候选用户CUc
相似度计算模块(202)第七方面依据签到兴趣比重模型从候选用户CUc中计算出在主题下的兴趣权重向量 WPM f CU c ;
表示候选用户CUc在pmq兴趣点的签到次数;
Tnumf表示候选用户CUc主题下的签到次数;
F(pmq)是一个衰减函数,表示为 F ( pm q ) = 1 - ( Pnum pm q Tnum f ) Pnum pm q if Pnum pm q Tnum f < 1 1 if Pnum pm q Tnum f = 1 ;
相似度计算模块(202)第八方面依据相似度模型 sim = &Sigma; i = 1 f w i &times; cos ( WPM f U u , WPM f CU c ) 计算请求用户Uu与候选用户CUc之间的相似度CR={<CU1,sim1>,<CU2,sim2>,…,<CUc,simc>};表示请求用户Uu在任意f主题下的兴趣权重向量;
相似度计算模块(202)第九方面将CR={<CU1,sim1>,<CU2,sim2>,…,<CUc,simc>}返回给兴趣推荐模块(201)。
本发明用户签到相似度的好友推荐系统的优点在于:
①本发明系统能够对基于位置的社交网(LBSN)采用离散签到记录进行分析,并根据在一段时间内的签到记录来获取签到用户的兴趣相似度,并以兴趣相似度进行好友兴趣点推荐,从而扩展了用户的好友圈。
②本发明利用签到用户的签到记录和主题模型挖掘签到用户在签到中潜在的主题,使得社交网(LBSN)可以更好的理解用户的行为模式、兴趣爱好,进而提高系统推荐的效果。
③采用签到用户真实的签到记录进行推荐,可以将虚拟的社交网的好友关系和现实的好友关系联系在一起,进一步丰富了用户的社交网中的关系网。
附图说明
图1是本发明基于用户签到相似度的好友推荐系统的结构框图。
图2是本发明基于用户签到相似度的好友推荐系统的时序结构图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的详细说明。
如图1所示,本发明的一种基于用户签到相似度的好友推荐系统,该系统包括有用户100、推荐系统200和LBSN数据库300。其中,推荐系统200包括有兴趣推荐模块201、相似度计算模块202和主题提取模块203。本发明的系统旨在改变了LBSN数据库300内部参数的变化,使得供用户使用的LBSN数据库300更加符合个性化(不同兴趣点关注)的需求。
在本发明中,用户100在不同的时序处理阶段中有不同的身份,如请求用户Uu、签到用户BUb、推荐用户RUr、候选用户CUc。不同时序处理阶段中的用户从LBSN数据库300中检索到与之匹配的兴趣点信息为:请求用户Uu的兴趣点信息记为签到用户BUb的兴趣点信息记为推荐用户RUr的兴趣点信息记为候选用户CUc的兴趣点信息记为属于兴趣点信息PM,即PM={pm1,pm2,…,pmq}中。pm1表示第1类兴趣点,pm2表示第2类兴趣点,pmq表示第q类兴趣点,也称为最后一个兴趣点,不失一般性,为了方便说明也称为任意一类兴趣点。对于LBSN数据库300中的兴趣点可以是商场、医院、学校、写字楼等。在本发明中,每个签到记录对应任意一类兴趣点pmq
在本发明中,所述主题提取模块203中采用的主题模型为隐含狄利克雷分配模型(Latent Dirichlet Allocation,LDA)。该LDA的输入是有用户的签到记录组成的文档,其中用户的签到记录是由关键词组成的。
用户100将自己的推荐请求和自己的参数设置发送给推荐系统,兴趣推荐模块201接受到用户的请求后,调用相似度计算模块202;相似度计算模块202首先计算满足用户距离要求的候选用户集合,然后利用本发明中的相似度计算方法计算在候选用户集合中每个候选用户与请求用户之间的相似度,在计算用户相似度之前,相似度计算模块需要获取用主题提取模块提取的用户签到记录中潜在的主题。通过相似度计算模块计算出候选集合中每个用户与请求用户之间的相似度后,将候选用户集合以及计算获得的相似度返回给推荐模块,推荐模块根据用户的设置的推荐好友数量,将相似度高的用户返回给请求用户。
本发明的一种基于用户签到相似度的好友推荐系统中的各个模块所实现的功能为下述说明:
(一)LBSN数据库300
在本发明中,LBSN数据库300里不但包含有SNS,至少增加了用户100的签到记录,以及兴趣点信息PM={pm1,pm2,…,pmq},pm1表示第1类兴趣点,pm2表示第2类兴趣点,pmq表示第q类兴趣点,也称为最后一个兴趣点,不失一般性,为了方便说明也称为任意一类兴趣点。对于LBSN数据库300中的兴趣点可以是商场、医院、学校、写字楼等。在本发明中,每个签到记录对应任意一类兴趣点pmq
在本发明中,当用户100登录一次社交网时,LBSN数据库300就记录一次该用户100的签到记录。不同用户登录社交网时,LBSN数据库300就记录多个用户的签到记录,从而构成本发明所需用的签到记录数据。
在本发明的好友推荐系统中的LBSN数据库300一方面用于为主题提取模块203提供签到用户BUb;另一方面用于为相似度计算模块202提供签到用户BUb的签到兴趣点信息记为(简称为签到用户兴趣);所述签到用户兴趣 PM BU b = { pm 1 BU b , pm 2 BU b , &CenterDot; &CenterDot; &CenterDot; , pm q BU b } 中的表示签到用户BUb的第1类兴趣点,表示签到用户BUb的第2类兴趣点,表示签到用户BUb的第q类兴趣点,也称为签到用户BUb的最后一个兴趣点,不失一般性,为了方便说明也称为签到用户BUb的任意一类兴趣点。
(二)用户100
在本发明中,用户100将自己的推荐请求发送给推荐系统中的兴趣推荐模块201。所述推荐请求中的Uu表示请求用户,u表示请求用户Uu的标识号;表示为请求用户Uu设置的推荐好友个数(简称为好友个数);dist表示用户设置的签到距离阈值(简称为签到距离阈值)。
(三)兴趣推荐模块201
兴趣推荐模块201第一方面用于接收用户100发送的推荐请求 Q = { U u , K U u , dist } ;
兴趣推荐模块201第二方面将中的请求用户Uu和签到距离阈值dist发送给相似度计算模块202;为了方便说明,将请求用户Uu和签到距离阈值dist统称为相似度计算请求SQ={Uu,dist};
兴趣推荐模块201第三方面用于接收相似度计算模块202发送的带有相似度的候选用户集合CR;
兴趣推荐模块201第四方面依据好友个数对带有相似度的候选用户集合CR进行相似度高低排序,得到所有推荐用户RUr,并将前个推荐用户RUr返回给用户100。
(四)主题提取模块203
主题提取模块203第一方面依据兴趣截取时间CPT从LBSN数据库300中检索与之相匹配的签到用户BUb
主题提取模块203第二方面依据预设主题数量t和兴趣点数量v,运用隐含狄利克雷分配主题模型,得到主题集合 TH = { th 1 PM BU b , th 2 PM BU b , &CenterDot; &CenterDot; &CenterDot; , th f PM BU b } , 表示签到兴趣点信息的第1个主题,表示签到兴趣点信息的第2个主题,表示签到兴趣点信息的第f个主题,也是签到兴趣点信息的最后一个主题,不失一般性,也称为签到兴趣点信息的任意一个主题。
所述主题集合TH是指从签到序列集合中提取出的签到用户BUb在LBSN数据库300中的签到记录。
在本发明中,每个签到记录对应任意一类兴趣点pmq
在本发明中,签到序列是指由签到记录按照时间顺序构成的序列。多个用户的签到序列构成签到序列集合 EUQ = { UQ 1 Bu b , UQ 2 BU b , &CenterDot; &CenterDot; &CenterDot; , UQ e BU b } , 表示签到用户BUb的第1个签到序列,表示签到用户BUb的第2个签到序列,表示签到用户BUb的第e个签到序列,也是签到序列集合中的最后一个签到序列;不失一般性,也称为签到用户BUb的任意一个签到序列。
在本发明中,任意一个签到序列中包括有不同的兴趣点。
(五)相似度计算模块202
相似度计算模块202第一方面用于接收兴趣推荐模块201输出的相似度计算请求SQ={Uu,dist};
相似度计算模块202第二方面从LBSN数据库300中提取出签到用户BUb的签到兴趣点信息 PM BU b = { pm 1 BU b , pm 2 BU b , &CenterDot; &CenterDot; &CenterDot; , pm q BU b } ;
相似度计算模块202第三方面用于接收主题提取模块203输出的主题集合TH,即 TH = { th 1 PM BU b , th 2 PM BU b , &CenterDot; &CenterDot; &CenterDot; , th f PM BU b } ;
相似度计算模块202第四方面对所述主题集合TH进行权重处理,得到主题权重向量WTH,即WTH={w1,w2,…wi,…,wf}中的w1表示签到用户在第1个主题下签到所占的比重,w2表示签到用户在第2个主题下签到所占的比重,wi表示签到用户在第i个主题下签到所占的比重,wf表示签到用户在第f个主题下签到所占的比重,也称为最后一个主题下签到所占的比重,不失一般性,为了方便说明,也称为签到用户在任意一主题下签到所占的比重。在本发明中,签到所占比重是指签到用户在某个主题下的签到次数除以签到用户的所有签到次数。
相似度计算模块202第五方面依据兴趣点的地理位置对主题集合TH中的每一个主题进行最短距离计算,得到主题集合TH下的主题最短距离集合DTH,即 DTH = { dth 1 PM BU b , dth 2 PM BU b , &CenterDot; &CenterDot; &CenterDot; , dth f PM BU b } 中的表示的最短距离,表示的最短距离,表示的最短距离;
相似度计算模块202第六方面依据DTH计算两个签到用户之间的距离均值 AD = dth 1 PM BU b + dth 2 PM BU b + &CenterDot; &CenterDot; &CenterDot; + dth f PM BU b f ; 若AD≤dist,则签到用户成为候选用户CUc;若AD>dist,则签到用户不成为候选用户CUc
相似度计算模块202第七方面依据签到兴趣比重模型从候选用户CUc中计算出在主题下的兴趣权重向量 WPM f CU c = { tpw pm 1 , tpw pm 2 , &CenterDot; &CenterDot; &CenterDot; , tpw pm q } 中的表示在f主题、pm1兴趣点下的兴趣权重,表示在f主题、pm2兴趣点下的兴趣权重,表示在f主题、pmq兴趣点下的兴趣权重;
其中表示候选用户CUc在pmq兴趣点的签到次数,Tnumf表示候选用户CUc主题下的签到次数,F(pmq)是一个衰减函数,表示为 F ( pm q ) = 1 - ( Pnum pm q Tnum f ) Pnum pm q if Pnum pm q Tnum f < 1 1 if Pnum pm q Tnum f = 1 . 在本发明中,使用衰减函数的目的是为了防止仅使用签到权重而造成忽略签到次数的基数的不同,例如一个签到用户在某兴趣点签到次数为10次,所占比重为0.5,而另一个签到用户在该地点签到次数为100次,并且所占的比重也是0.5,如果仅从权重上看两个签到用户对该兴趣点签到频度是一样的,但事实上,签到100次的签到用户有可能更经常关注该兴趣点。
相似度计算模块202第八方面依据相似度模型 sim = &Sigma; i = 1 f w i &times; cos ( WPM f U u , WPM f CU c ) 计算请求用户Uu与候选用户CUc之间的相似度;表示请求用户Uu在任意f主题下的兴趣权重向量;
在本发明中,每个候选用户都将计算出一个相似度,所有候选用户以及他们的相似度组成一个带有相似度的候选用户集合,即CR={<CU1,sim1>,<CU2,sim2>,…,<CUc,simc>},CU1表示第1个候选用户,sim1表示Uu与CU1的第1个相似度;CU2表示第2个候选用户,sim2表示Uu与CU2的第2个相似度;CUc表示第c个候选用户,simc表示Uu与CUc的第c个相似度;
相似度计算模块202第九方面将CR={<CU1,sim1>,<CU2,sim2>,…,<CUc,simc>}返回给兴趣推荐模块201。
本发明中,相似度计算模块202主要是完成候选用户的相似度的计算,在相似度计算的过程中引入了“隐含狄利克雷分配模型”,从而提取签到用户签到记录中潜在的主题,再根据签到用户在每个主题、每个兴趣点共同签到相似度。
参见图2所示,本发明的一种基于用户签到相似度的好友推荐处理步骤为:
步骤一:请求用户发出请求信息
任意请求用户Uu将请求信息发送给推荐系统中的兴趣推荐模块201。
步骤二:候选用户的计算
步骤201:兴趣推荐模块201在接受到请求用户Uu的请求信息后,首先,将请求用户Uu和签到距离阈值dist发送给相似度计算模块202,即相似度计算请求SQ={Uu,dist}发送给相似度计算模块202。
步骤202:相似度计算模块202接受到兴趣推荐模块201发送的相似度计算请求SQ={Uu,dist}信息后,首先是从LBSN数据库300中提取出签到用户BUb的签到兴趣点信息 PM BU b = { pm 1 BU b , pm 2 BU b , &CenterDot; &CenterDot; &CenterDot; , pm q BU b } ; 然后相似度计算模块202获取主题提取模块203输出的主题集合TH,即 TH = { th 1 PM BU b , th 2 PM BU b , &CenterDot; &CenterDot; &CenterDot; , th f PM BU b } , 同时对所述主题集合TH进行权重处理,得到主题权重向量WTH,即WTH={w1,w2,…wi,…,wf};最后依据兴趣点的地理位置对主题集合TH中的每一个主题进行最短距离计算,得到每个签到用户BUb与请求用户在主题集合TH下的主题最短距离集合DTH,即 DTH = { dth 1 PM BU b , dth 2 PM BU b , &CenterDot; &CenterDot; &CenterDot; , dth f PM BU b } , 并依据DTH计算两个签到用户之间的距离均值 AD = dth 1 PM BU b + dth 2 PM BU b + &CenterDot; &CenterDot; &CenterDot; + dth f PM BU b f ; 若AD≤dist,则签到用户成为候选用户CUc;若AD>dist,则签到用户不成为候选用户CUc,这样便获得了候选用户CUc
步骤三:带相似度的候选用户集合计算
步骤301:相似度计算模块202在计算出候选用户CUc后,相似度计算模块202依据签到兴趣比重模型从候选用户CUc中计算出在主题下的兴趣权重向量 WPM f CU c = { tpw pm 1 , tpw pm 2 , &CenterDot; &CenterDot; &CenterDot; , tpw pm q } .
步骤302:相似度计算模块202依据相似度模型 sim = &Sigma; i = 1 f w i &times; cos ( WPM f U u , WPM f CU c ) 计算请求用户Uu与候选用户CUc之间的相似度;表示请求用户Uu在任意f主题下的兴趣权重向量,每个候选用户都将计算出一个相似度,所有候选用户以及他们的相似度组成一个带有相似度的候选用户集合,即CR={<CU1,sim1>,<CU2,sim2>,…,<CUc,simc>}。这样便产生了带相似度的候选用户集合CR。
步骤四:最终推荐好友集合的计算
相似度计算模块202将计算获得的带相似度的候选用户集合CR返回给兴趣推荐模块201,兴趣推荐模块201首先依据好友个数对带有相似度的候选用户集合CR进行相似度高低排序,得到所有推荐用户RUr,并将前个推荐用户RUr返回给请求用户Uu
本发明提出的一种基于用户签到相似度的好友推荐系统,该系统属于基于位置的社交网中的好友推荐技术领域。首先推荐系统运行主题提取模块,经主题提取模块从LBSN数据库中取得以往用户的签到记录,并采用主题提取算法获得提取用户签到记录中潜在的主题;然后推荐系统的兴趣推荐模块接受用户的好友推荐请求,根据用户设置的推荐相应参数,调用相似度计算模块;相似度计算模块首先根据用户参数设置,计算满足要求的用户作为候选用户集,然后利用主题提取模块提取的主题,分别计算候选用户集中每个用户在每个主题下与请求用户的相似度,最后,每个用户将每个主题下的相似度求和得到最终的相似度;得到候选用户集中每个用户的最终的相似度后,相似度计算模块,将候选用户集中每个用户以及他们的最终相似度返回给兴趣推荐模块,兴趣推荐模块根据请求用户的请求参数设置确定最终的推荐好友,并返回给请求用户。
实施例
参见图1、图2所示,假设在LBSN数据库300中有4个(即b=4)签到用户,即用户BU1、用户BU2、用户BU3、用户BU4,并且这些签到用户在未进行兴趣推荐之前都不是好友。LBSN数据库中的pm1为医院兴趣点,pm2为大学兴趣点,pm3为写字楼兴趣点,pm4为商场兴趣点,pm5为停车场兴趣点,pm6为酒店兴趣点,即q=6。每个兴趣点也是一个主题,在预设主题数量t=2和兴趣点数量v=3的条件下,采用本发明系统进行基于用户签到相似度的好友推荐。
签到用户BU1签到的兴趣点有pm1、pm2、pm3、pm4、pm5,签到用户BU1的签到次数分别为2次、3次、1次、4次、5次。
签到用户BU2签到的兴趣点有pm1、pm3、pm6,签到用户BU1的签到次数分别为2次、4次、4次。
签到用户BU3签到的兴趣点有pm2、pm3、pm4、pm5,签到用户BU1的签到次数分别为3次、5次、4次、2次。
签到用户BU4签到的兴趣点有pm1、pm2、pm3、pm6,签到用户BU1的签到次数分别为3次、3次、6次、5次。
主题提取模块203根据签到用户BU1、BU2、BU3、BU4产生的主题集合分别记为其中所述的 th 1 PM BU 1 = th 1 PM BU 2 = th 1 PM BU 3 = th 1 PM BU 4 = { pm 1 , pm 3 , pm 6 } , th 2 PM BU 1 = th 2 PM BU 2 = th 2 PM BU 3 = th 2 PM BU 4 = { pm 2 , pm 4 , pm 5 } . 并且所涉及的签到点的距离关系如下表:
单位(米) pm1 pm2 pm3 pm4 pm5 pm6
pm1 0 500 1000 5000 1000 2000
pm2 500 0 2500 10000 500 1000
pm3 1000 2500 0 800 3000 2500
pm4 5000 10000 800 0 2000 1500
pm5 1000 500 3000 2000 0 1000
pm6 2000 1000 2500 1500 1000 0
假设请求用户U1发出好友推荐请求时,推荐系统的运行过程如下:
步骤1:请求用户U1的推荐请求信息为Q={U1,2,2000},若签到用户BU1接收该好友推荐请求信息,则有 Q = { BU 1 , K U 1 , dist } = { U 1 , 2,2000 } 给推荐系统的兴趣推荐模块201。同理可得:
若签到用户BU2接收该好友推荐请求信息,则有 Q = { BU 2 , k U 1 , dist } = { U 1 , 2,2000 } 给推荐系统的兴趣推荐模块201。
若签到用户BU3接收该好友推荐请求信息,则有 Q = { BU 3 , k U 1 , dist } = { U 1 , 2,2000 } 给推荐系统的兴趣推荐模块201。
若签到用户BU4接收该好友推荐请求信息,则有 Q = { BU 4 , K U 1 , dist } = { U 1 , 2,2000 } 给推荐系统的兴趣推荐模块201。
步骤2:兴趣推荐模块201在接受到请求用户U1的请求信息后,首先,将请求用户U1和签到距离阈值dist=2000发送给相似度计算模块202,即相似度计算请求SQ={U1,2000}发送给相似度计算模块。
步骤3:相似度计算模块202接受到兴趣推荐模块201发送的相似度计算请求SQ={U1,2000}信息后,首先是从LBSN数据库300中提取出签到用户BU1、BU2、BU3、BU4的签到兴趣点信息分别为然后相似度计算模块获取主题提取模块输出的主题集合 TH = { th 1 PM BU 1 , th 2 PM BU 1 } = { th 1 PM BU 2 , th 2 PM BU 2 } = { th 1 PM BU 3 , th 2 PM BU 3 } = { th 1 PM BU 4 , th 2 PM BU 4 } ,同时对所述主题集合TH进行权重处理,得到每个签到用户主题权重向量WTH,其中,签到用户BU1、BU2、BU3、BU4主题权重向量分别为:{0.2,0.8}、{1,0}、{0.36,0.64}、{0.82,0.18};最后依据兴趣点的地理位置对每个签到、主题集合TH中的每一个主题进行最短距离计算,得到每个签到用户与请求用户U1在主题集合TH下的主题最短距离集合DTH,其中,签到用户BU2、BU3、BU4与请求用户U1,主题集合TH下的主题最短距离集合DTH分别为:{800,1000}、{800,2000}{800,1000},并依据DTH计算签到用户BU2、BU3、BU4与请求用户U1之间的距离均值分别为900,1400,900;由于900≤2000和1400≤2000,因此,签到用户BU2、BU3、BU4均成为候选用户,即身份替换为候选用户CU2、CU3、CU4
步骤3:相似度计算模块202在计算出候选用户,相似度计算模块依据签到兴趣比重模型从候选用户CU2、CU3、CU4中计算出在主题下的兴趣权重向量分别为: WPM 1 CU 2 = { 0.19,0.32,0.39 } , WPM 2 CU 2 = { 0,0,0 } , WPM 1 CU 3 = { 0,1,0 } , WPM 2 CU 3 = { 0.32,0.43,0.21 } , WPM 1 CU 4 = { 0.21,0.43,0.36 } , 且请求用户U1在主题下的兴趣权重向量为: WPM 1 CU 1 = { 0.37,0.22,0 } , WPM 2 CU 1 = { 0.25,0.32,0.39 } .
步骤4:相似度计算模块依据相似度模型 sim = &Sigma; i = 1 f w i &times; cos ( WPM f U u , WPM f CU c ) 计算请求用户U1与候选用户CU2、CU3、CU4之间的相似度,分别为:0.03122、0.16918、0.06414。每个候选用户都将计算出一个相似度,所有候选用户以及他们的相似度组成一个带有相似度的候选用户集合,即CR={<CU2,0.03122>,<CU3,0.16918>,<CU4,0.06414>}。
步骤5:相似度计算模块将计算获得的带相似度的候选用户集合CR返回给兴趣推荐模块,兴趣推荐模块首先兴趣推荐模块依据请求用户U1好友个数对带有相似度的候选用户集合CR进行相似度高低排序,得到所有推荐用户,并将前2个推荐用户返回给请求用户U1。即将推荐用户CU3和CU4返回给请求用户U1
为了验证实施例1给出的基于用户签到相似度的好友推荐系统的推荐性能,引用了作者D.Manning,P.Raghavan and H.Schutze,题目“Introduction to InformationRetrieval”,2008年7月出版在《Cambridge University Press》上,第21章节和第22章节的内容。该内容能够获知评估搜索引擎性能的指标。
本发明系统将好友推荐转化成信息搜索,对于LBSN数据库300中的相似度推荐应用“Introduction to Information Retrieval”来评价,充分体现了本发明系统的性能。

Claims (4)

1.一种基于用户签到相似度的好友推荐系统,该好友推荐系统包括有用户(100)、推荐系统(200)和LBSN数据库(300);其特征在于:所述的推荐系统(200)包括有兴趣推荐模块(201)、相似度计算模块(202)和主题提取模块(203);
用户(100)将自己的推荐请求发送给推荐系统中的兴趣推荐模块(201);所述推荐请求中的Uu表示请求用户,u表示请求用户Uu的标识号;表示好友个数;dist表示签到距离阈值;
LBSN数据库(300)一方面用于为主题提取模块(203)提供签到用户BUb;另一方面用于为相似度计算模块(202)提供签到兴趣点信息
兴趣推荐模块(201)第一方面用于接收用户(100)发送的推荐请求
兴趣推荐模块(201)第二方面将中的相似度计算请求SQ={Uu,dist}发送给相似度计算模块(202);
兴趣推荐模块(201)第三方面用于接收相似度计算模块(202)发送的带有相似度的候选用户集合CR;
兴趣推荐模块(201)第四方面依据好友个数对带有相似度的候选用户集合CR进行相似度高低排序,得到所有推荐用户RUr,并将推荐用户RUr返回给用户(100);
主题提取模块(203)第一方面依据兴趣截取时间CPT从LBSN数据库(300)中检索与之相匹配的签到用户BUb
主题提取模块(203)第二方面依据预设主题数量t和兴趣点数量v,运用隐含狄利克雷分配主题模型,得到主题集合 表示签到兴趣点信息的第1个主题,表示签到兴趣点信息的第2个主题,表示签到兴趣点信息的第f个主题;
相似度计算模块(202)第一方面用于接收兴趣推荐模块(201)输出的相似度计算请求SQ={Uu,dist};
相似度计算模块(202)第二方面从LBSN数据库(300)中提取出签到用户BUb的签到兴趣点信息 表示签到用户BUb的第1类兴趣点,表示签到用户BUb的第2类兴趣点,表示签到用户BUb的第q类兴趣点;
相似度计算模块(202)第三方面用于接收主题提取模块(203)输出的主题集合TH,即
相似度计算模块(202)第四方面对所述主题集合TH进行权重处理,得到主题权重向量WTH,即WTH={w1,w2,…wi,…,wf},w1表示签到用户在第1个主题下签到所占的比重,w2表示签到用户在第2个主题下签到所占的比重,wi表示签到用户在第i个主题下签到所占的比重,wf表示签到用户在第f个主题下签到所占的比重;
相似度计算模块(202)第五方面依据兴趣点的地理位置对主题集合TH中的每一个主题进行最短距离计算,得到主题集合TH下的主题最短距离集合DTH;
相似度计算模块(202)第六方面依据DTH计算两个签到用户之间的距离均值若AD≤dist,则签到用户成为候选用户CUc;若AD>dist,则签到用户不成为候选用户CUc表示的最短距离,表示的最短距离,表示的最短距离;
相似度计算模块(202)第七方面依据签到兴趣比重模型从候选用户CUc中计算出在主题下的兴趣权重向量
表示候选用户CUc在pmq兴趣点的签到次数;
Tnumf表示候选用户CUc主题下的签到次数;
F(pmq)是一个衰减函数,表示为
相似度计算模块(202)第八方面依据相似度模型计算请求用户Uu与候选用户CUc之间的相似度CR={<CU1,sim1>,<CU2,sim2>,…,<CUc,simc>};表示请求用户Uu在任意f主题下的兴趣权重向量;CU1表示第1个候选用户,sim1表示Uu与CU1的第1个相似度;CU2表示第2个候选用户,sim2表示Uu与CU2的第2个相似度;CUc表示第c个候选用户,simc表示Uu与CUc的第c个相似度;
中的表示在f主题、pm1兴趣点下的兴趣权重,表示在f主题、pm2兴趣点下的兴趣权重,表示在f主题、pmq兴趣点下的兴趣权重;表示请求用户Uu在任意f主题下的兴趣权重向量;
相似度计算模块(202)第九方面将CR={<CU1,sim1>,<CU2,sim2>,…,<CUc,simc>}返回给兴趣推荐模块(201)。
2.根据权利要求1所述的一种基于用户签到相似度的好友推荐系统,其特征在于:所述的用户(100)在不同的时序处理阶段中有不同的身份,包括有请求用户Uu、签到用户BUb、推荐用户RUr、或者候选用户CUc
3.根据权利要求1所述的一种基于用户签到相似度的好友推荐系统,其特征在于:所述的LBSN数据库(300)里不但包含有SNS,至少还增加了用户(100)的签到记录,以及兴趣点信息PM={pm1,pm2,…,pmq},pm1表示第1类兴趣点,pm2表示第2类兴趣点,pmq表示第q类兴趣点。
4.根据权利要求1所述的一种基于用户签到相似度的好友推荐系统,其特征在于:所述基于用户签到相似度的好友推荐系统进行的推荐处理步骤为:
步骤一:请求用户发出请求信息
任意请求用户Uu将请求信息发送给推荐系统中的兴趣推荐模块(201);
步骤二:候选用户的计算
步骤201:兴趣推荐模块(201)在接受到请求用户Uu的请求信息后,首先,将相似度计算请求SQ={Uu,dist}发送给相似度计算模块(202);
步骤202:相似度计算模块(202)接受到兴趣推荐模块(201)发送的相似度计算请求SQ={Uu,dist}信息后,首先是从LBSN数据库(300)中提取出签到用户BUb的签到兴趣点信息然后相似度计算模块(202)获取主题提取模块(203)输出的主题集合TH,即同时对所述主题集合TH进行权重处理,得到主题权重向量WTH,即WTH={w1,w2,…wi,…,wf};最后依据兴趣点的地理位置对主题集合TH中的每一个主题进行最短距离计算,得到每个签到用户BUb与请求用户在主题集合TH下的主题最短距离集合DTH,即并依据DTH计算两个签到用户之间的距离均值若AD≤dist,则签到用户成为候选用户CUc;若AD>dist,则签到用户不成为候选用户CUc,这样便获得了候选用户CUc;w1表示签到用户在第1个主题下签到所占的比重,w2表示签到用户在第2个主题下签到所占的比重,wi表示签到用户在第i个主题下签到所占的比重,wf表示签到用户在第f个主题下签到所占的比重;
步骤三:带相似度的候选用户集合计算
步骤301:相似度计算模块(202)在计算出候选用户CUc后,相似度计算模块(202)依据签到兴趣比重模型从候选用户CUc中计算出在主题下的兴趣权重向量
步骤302:相似度计算模块(202)依据相似度模型计算请求用户Uu与候选用户CUc之间的相似度;表示请求用户Uu在任意f主题下的兴趣权重向量,每个候选用户都将计算出一个相似度,所有候选用户以及他们的相似度组成一个带有相似度的候选用户集合,即CR={<CU1,sim1>,<CU2,sim2>,…,<CUc,simc>};这样便产生了带相似度的候选用户集合CR;
步骤四:最终推荐好友集合的计算
相似度计算模块(202)将计算获得的带相似度的候选用户集合CR返回给兴趣推荐模块(201),兴趣推荐模块(201)首先依据好友个数对带有相似度的候选用户集合CR进行相似度高低排序,得到所有推荐用户RUr,并将推荐用户RUr返回给请求用户Uu
CN201310336664.0A 2013-08-05 2013-08-05 一种基于用户签到相似度的好友推荐系统 Expired - Fee Related CN103488678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310336664.0A CN103488678B (zh) 2013-08-05 2013-08-05 一种基于用户签到相似度的好友推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310336664.0A CN103488678B (zh) 2013-08-05 2013-08-05 一种基于用户签到相似度的好友推荐系统

Publications (2)

Publication Number Publication Date
CN103488678A CN103488678A (zh) 2014-01-01
CN103488678B true CN103488678B (zh) 2017-02-08

Family

ID=49828906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310336664.0A Expired - Fee Related CN103488678B (zh) 2013-08-05 2013-08-05 一种基于用户签到相似度的好友推荐系统

Country Status (1)

Country Link
CN (1) CN103488678B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942310B (zh) * 2014-04-18 2018-12-21 厦门雅迅网络股份有限公司 基于时空模式的用户行为相似性挖掘方法
CN103995859B (zh) * 2014-05-15 2017-07-21 北京航空航天大学 一种应用于lbsn网络的基于地理标签的热点区域事件探测系统
CN104021206A (zh) * 2014-06-19 2014-09-03 江苏威盾网络科技有限公司 一种人联网系统
CN104184654A (zh) * 2014-07-30 2014-12-03 小米科技有限责任公司 一种基于用户标识的匹配方法及装置
CN104268171B (zh) * 2014-09-11 2017-09-19 东北大学 基于活动相似和社交信任的社交网好友推荐系统及方法
US10379708B2 (en) 2014-09-26 2019-08-13 Mickael Pic Graphical user interface for a common interest social network
CN104572937B (zh) * 2014-12-30 2017-12-22 杭州云象网络技术有限公司 一种基于室内生活圈的线下好友推荐方法
CN105049325A (zh) * 2015-06-17 2015-11-11 北京乐动卓越科技有限公司 一种基于时间匹配度的目标用户展现方法及系统
CN106897602B (zh) * 2015-12-21 2021-06-11 北京奇虎科技有限公司 账号推荐方法和装置
CN105589966A (zh) * 2015-12-24 2016-05-18 中山大学深圳研究院 一种基于综合得分的好友推荐方法
CN107274503A (zh) * 2016-04-06 2017-10-20 青岛大学 一种基于轨迹与传感器数据的考勤方法
CN106022931A (zh) * 2016-04-19 2016-10-12 李麟飞 公益社交推荐方法
CN106484764A (zh) * 2016-08-30 2017-03-08 江苏名通信息科技有限公司 基于人群画像技术的用户相似度计算方法
CN108733692A (zh) * 2017-04-18 2018-11-02 腾讯科技(深圳)有限公司 一种社交信息推荐方法和装置
CN107169088B (zh) * 2017-05-12 2020-05-12 中国矿业大学 一种基于时空交互的用户社交关系强度计算方法及系统
CN107679053B (zh) * 2017-06-12 2020-02-18 平安科技(深圳)有限公司 地点推荐方法、装置、计算机设备及存储介质
CN108173746A (zh) * 2017-12-26 2018-06-15 东软集团股份有限公司 好友推荐方法、装置和计算机设备
CN110515981B (zh) * 2018-05-21 2022-04-12 国家计算机网络与信息安全管理中心 一种基于时空轨迹的用户识别方法及装置
CN109087141B (zh) * 2018-08-07 2021-12-21 北京真之聘创服管理咨询有限公司 一种提升身份属性的方法
CN111859163B (zh) * 2020-06-16 2023-09-29 珠海高凌信息科技股份有限公司 基于用户兴趣主题的微博网络链路预测方法、装置及介质
CN112650932B (zh) * 2021-01-04 2022-09-23 重庆邮电大学 一种融合社交和位置关系的神经协同过滤poi推荐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102594905A (zh) * 2012-03-07 2012-07-18 南京邮电大学 一种基于场景的社交网络位置兴趣点推荐方法
CN102880719A (zh) * 2012-10-16 2013-01-16 四川大学 基于位置社交网络的用户轨迹相似性挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130117292A1 (en) * 2011-11-09 2013-05-09 Microsoft Corporation Connection of users by geolocation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102594905A (zh) * 2012-03-07 2012-07-18 南京邮电大学 一种基于场景的社交网络位置兴趣点推荐方法
CN102880719A (zh) * 2012-10-16 2013-01-16 四川大学 基于位置社交网络的用户轨迹相似性挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Mining User Similarity Based on Users Trajectories";Wei Li 等;《2013 International Conference on Cloud Computing and Big Data》;20131219;557-562 *

Also Published As

Publication number Publication date
CN103488678A (zh) 2014-01-01

Similar Documents

Publication Publication Date Title
CN103488678B (zh) 一种基于用户签到相似度的好友推荐系统
CN102594905B (zh) 一种基于场景的社交网络位置兴趣点推荐方法
CN103795613B (zh) 一种在线社交网络中朋友关系预测的方法
CN103700018B (zh) 一种移动社会网络中的人群划分方法
CN102622396A (zh) 一种基于标签的web服务聚类方法
CN103116611A (zh) 社交网络意见领袖识别方法
CN101770520A (zh) 基于用户浏览行为的用户兴趣建模方法
CN105554704A (zh) 推荐系统中基于假轨迹的位置隐私保护方法
CN103617279A (zh) 基于Pagerank方法的微博信息传播影响力评估模型的实现方法
CN103995859B (zh) 一种应用于lbsn网络的基于地理标签的热点区域事件探测系统
CN103578007A (zh) 用于智能设备的混合推荐系统及其方法
CN103295145A (zh) 一种基于用户消费特征向量的手机广告投放方法
Zhang Investigation of e‐commerce in China in a geographical perspective
CN102855333A (zh) 一种基于组推荐的服务选取系统及其选取方法
Ju et al. Relationship strength estimation based on Wechat Friends Circle
CN105630946A (zh) 一种基于大数据的领域交叉推荐方法及装置
CN105550275A (zh) 一种微博转发量预测方法
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN103631946A (zh) 一种基于地理位置的内容推送系统
CN106446149B (zh) 一种通知信息的过滤方法及装置
CN104035987A (zh) 一种微博网络用户影响力排名方法
CN107123055A (zh) 一种基于PageRank的社交大数据信息最大化方法
CN102664744A (zh) 网络消息通信中群发推荐的方法
Shafik et al. Recommendation system comparative analysis: internet of things aided networks
CN103761246B (zh) 一种基于链接网络的用户领域识别方法及其装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210428

Address after: 100193 room 402, floor 4, block B, building 12, east yard, No. 10, northwest Wangdong Road, Haidian District, Beijing

Patentee after: BEIJING ZHONGSHI INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 100191 Haidian District, Xueyuan Road, No. 37,

Patentee before: BEIHANG University

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170208