CN111324816A - 一种基于区域划分和上下文影响的兴趣点推荐方法 - Google Patents

一种基于区域划分和上下文影响的兴趣点推荐方法 Download PDF

Info

Publication number
CN111324816A
CN111324816A CN202010148082.XA CN202010148082A CN111324816A CN 111324816 A CN111324816 A CN 111324816A CN 202010148082 A CN202010148082 A CN 202010148082A CN 111324816 A CN111324816 A CN 111324816A
Authority
CN
China
Prior art keywords
user
score
distance
region
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010148082.XA
Other languages
English (en)
Other versions
CN111324816B (zh
Inventor
曾骏
唐浩然
于扬
姚娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010148082.XA priority Critical patent/CN111324816B/zh
Publication of CN111324816A publication Critical patent/CN111324816A/zh
Application granted granted Critical
Publication of CN111324816B publication Critical patent/CN111324816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于区域划分和上下文影响的兴趣点推荐方法,包括如下步骤:基于K‑means对位置进行聚类,得到区域集合R;计算用户u对未知位置l的协同分数cf(u,l);计算该位置的区域分数
Figure DDA00024545694500000110
和基于区域的协同分数
Figure DDA0002454569450000011
采用幂律分布来模拟用户访问下一个位置的距离可能性p(l|ao);计算用户访问未知位置l的综合距离得分
Figure DDA0002454569450000012
计算用户访问未知位置l的综合类别分数
Figure DDA0002454569450000013
Figure DDA0002454569450000014
Figure DDA0002454569450000015
进行加权计算,得到上下文分数
Figure DDA0002454569450000016
Figure DDA0002454569450000017
Figure DDA0002454569450000018
进行加权计算,得到未知位置l的最终分数
Figure DDA0002454569450000019
按照分数的大小进行排序,将排名靠前的K个位置生成推荐列表recu。该方法一方面缓解了协同过滤中普遍存在的数据稀疏问题,另一方面使得推荐结果具有合理而充分的可解释性。

Description

一种基于区域划分和上下文影响的兴趣点推荐方法
技术领域
本发明涉及兴趣点推荐方法,尤其涉及一种基于区域划分和上下文影响的兴趣点推荐方法。
背景技术
近几年,基于位置的社交网络得到迅速的普及,如大众点评。它们通过实时地向用户推荐附近的感兴趣的位置(统称兴趣点),极大地方便了人们的户外活动。然而,兴趣点推荐作为推荐系统中的重要组成部分,它的意义已经不是局限于完成推荐服务,它更多的是挖掘用户潜在的行为模式和规律,这对于学术界和工业界的未来启发都至关重要。大多基于位置的社交网络鼓励用户通过签到的形式,分享它们的经历和位置信息。这些信息蕴藏了用户对位置的丰富暗示,不仅可以帮助用户探索新的位置,也可以为第三方如广告商带来更多利益。因此,无论是过去的发展期,还是现在的成熟期,兴趣点推荐依然是一门热门的研究内容。
协同过滤是推荐系统中经典的、时至今日都被工业界广泛应用的方法。它基于一个简单而有理的假设,假如两个用户在过去有相似的评分记录,那么在未来对某一个新的产品极有可能做出同样的评分。在真实的互联网应用中,存在大量的用户和位置,而一个用户往往只会访问其中少数的位置,这就造成了一直以来研究者都致力于解决的数据稀疏难题。矩阵分解,无论是结合深度学习技术还是其他辅助技术,都是强有力的解决数据稀疏的有效手段。同时,它也是很多研究者聚焦的重点。但该方法过度地从数学的角度去阐述推荐系统会可能忽略掉推荐的本质,那就是接近现实生活。
发明内容
针对现有技术存在的上述问题,本发明的要解决的技术问题是:提供一种可以有效缓解数据稀疏问题的兴趣点推荐方法。
为解决上述技术问题,本发明采用如下技术方案:一种基于区域划分和上下文影响的兴趣点推荐方法,包括如下步骤:
S101:获取用户的签到数据,每条签到数据由用户ID、位置ID、时间戳、位置的经纬度(lon,lat)以及位置类别c构成;
S102:对所有已获取的位置,通过经典的K-means聚类算法以距离为标准进行区域的划分,得到区域集合R,R={r1,r2,…rq},每个r代表一个区域;
S103:基于用户原始的位置向量uL并以余弦相似度的方式计算其相似用户群体SU(u),继而计算用户对未知位置l的协同过滤分数cf(u,l),
Figure BDA0002401463110000021
表示用户u访问位置lj的次数;
S104:基于用户的区域向量uR
Figure BDA0002401463110000022
计算用户访问某个区域的分数
Figure BDA0002401463110000023
|R|要远远小于|L|,并用该区域的分数去加强位置的协同过滤分数cf(u,l),得到基于区域划分的协调同过滤分数
Figure BDA0002401463110000024
S105:基于全体签到数据中的每相邻两点之间的地理距离,采用幂律分布来模拟用户访问下一个位置的距离可能性p(l|ao);
S106:基于距离可能性p(l|ao)以未知位置l的所属区域为准,计算用户访问未知位置l的综合距离得分
Figure BDA0002401463110000025
S107:基于全体签到数据的类别信息,整合得到类别转移矩阵T,继而计算用户访问未知位置l的类别分数
Figure BDA0002401463110000026
S108:基于距离分数
Figure BDA0002401463110000027
和类别分数
Figure BDA0002401463110000028
计算位置的上下文分数
Figure BDA0002401463110000029
S109:基于上下文分数
Figure BDA00024014631100000210
和区域划分下的协同过滤分数
Figure BDA00024014631100000211
计算用户访问未知位置的最终分数
Figure BDA00024014631100000212
按照分数的大小进行排序,将排名靠前的K个位置生成推荐列表recu
作为改进,所述S102包含如下步骤:
定义区域的数量q,采用K-means,基于目标函数(1)动态地进行区域的划分:
Figure BDA00024014631100000213
其中,dis()函数根据两个位置的经纬度求距离,μi是K-means动态产生的聚类中心。
作为改进,所述S103包含如下步骤:
基于余弦相似度计算用户在区域上的访问情况与大众的匹配程度sim(u,R),得到与用户相似用户群体SU(ui),通过公式(5)计算用户对未知位置l的协同过滤分数cf(ui,lj);
Figure BDA00024014631100000214
Figure BDA00024014631100000215
SU(ui)={uj|sorted by sim(ui,uj),uj∈U,num} (4);
Figure BDA00024014631100000216
其中,cnt(rz)是全体用户在区域rz上的经过归一化处理的签到数量,
Figure BDA0002401463110000031
是用户自身在区域rz上的经过归一化处理的签到数量,num是相似用户个数。
作为改进,所述S104包含如下步骤:
采用公式(6)计算用户访问某个区域的分数
Figure BDA0002401463110000032
再利用公式(7)计算基于区域划分的协调同过滤分数
Figure BDA0002401463110000033
Figure BDA0002401463110000034
Figure BDA0002401463110000035
其中,rz是lj对应的区域。
作为改进,S105包含如下具体步骤:
定义距离的幂律概率为公式(8);
p(li|lj)=a×(dis(li,lj)) (8);
其中,li和lj为用户真实的签到数据集中相邻的两个签到位置,a和b分别为幂律分布的参数;为求解未知参数,将公式(8)转化为如下线性模型:
log p(li|lj)=log a+blogdis(li,lj) (9);
y(x,w)=a′+bx (10);
其中,w是参数集合,a′是log a,x表示li和lj
基于目标函数即公式(11),采用梯度下降的方式对参数进行更新:
Figure BDA0002401463110000036
其中,x表示li和lj,D是使用的真实数据集,t(x)是根据D导出的真实距离概率,λ表示正则化项的权重系数;
计算距离可能性p(l|ao)的公式如公式(12);
Figure BDA0002401463110000037
计算未知位置l与活动范围ao内的全体已经访问过的位置的综合距离可能性p(l|ao)。
作为改进,所述S106包含如下具体步骤:
处于同一活动范围内的候选位置进行归一化处理,然后根据活动范围内的签到数量与区域内的最大活动范围签到数量之比赋予权重,计算基于地理距离的上下文分数
Figure BDA0002401463110000038
Figure BDA0002401463110000039
其中,count(ao)计算的是用户在活动范围ao内的签到总数的函数,count(ax)计算的是用户在活动范围ax内的签到总数,p(lj|ao)是基于公式(10)计算的lj的距离可能性,p(lx|ao)是基于公式(10)计算的lx的距离可能性,
Figure BDA0002401463110000041
是用户在区域下的活动范围集合。
作为改进,所述S107包含如下具体步骤:
构建类别转移矩阵T,Tij表示的是类别ci和类别cj的转移次数,即包含这一对类别的用户数量,由于对称性的存在,故Tij=Tji
对于未知位置l的类别c,如果用户曾经在该区域内访问过该类别,则使用公式(14)表示其类别分数
Figure BDA0002401463110000042
否则,使用公式(15)表示其类别分数
Figure BDA0002401463110000043
Figure BDA0002401463110000044
Figure BDA0002401463110000045
其中,Cu是用户在该区域下已经访问过的类别的集合,ci∈Cu,而cj是该用户没有访问过的类别。
作为改进,所述S108包含如下具体步骤:
采用加权的形式利用公式(16)计算上下文分数:
Figure BDA0002401463110000046
其中,
Figure BDA0002401463110000047
已提前进行过归一化处理,β∈[0,1]。
作为改进,所述S109包含如下具体步骤:
采用加权的形式公式(17)计算未知位置l的最终分数:
Figure BDA0002401463110000048
其中,α∈[0,1]。
相对于现有技术,本发明至少具有如下优点:
本发明方法,一方面缓解了协同过滤中普遍存在的数据稀疏问题,另一方面使得推荐结果具有合理而充分的可解释性。同时,本发明方法的性能优于目前主流的推荐算法,可以运用至实际的生活场景,为基于位置的社交服务做出贡献。
附图说明
图1为本发明方法的流程简图。
图2为本发明方法的整体框架图。
图3a和图3b,为基于F1指标下参数α对结果的影响;图3c和图3d为基于F1指标下参数β对结果的影响;图3e和图3f为基于F1指标下参数Q对结果的影响。
图4a和图4b为基于准确率的实验效果对比;图4c和图4d为基于召回率的实验效果对比。
具体实施方式
下面结合附图对本发明作进一步详细说明。
兴趣点推荐的关键在于有效地利用用户上下文,因为它很大程度上影响着用户访问某个位置的决定。地理上的距离是一项极为重要且直观的上下文,相比那些较远的位置,用户倾向于访问距离当前位置较近的地方。例如用户想看正在上映的一部电影时,可能会选择就近的电影院,而非离自己有20公里远的电影院。除了距离,位置的类别上下文往往容易被人忽视。然而,用户日常的位置活动通常显示出具有类别转移的模式,例如一个舞台剧爱好者可能经常去类别为剧场的地方。
区域对于分布广泛的位置而言,是一个重要的特征,而且区域之间往往存在明显的不同。例如一般商业密集的地方是一座城市的核心中心区域,在这个区域内不会有太多住宅和学校。基于区域特征,且在上下文影响以及协同过滤的启发下,本发明描述了一种基于区域划分和上下文影响的兴趣点推荐方法。该发明从现实的角度出发,去模拟用户访问地点的真实情形。本发明使用区域划分来缓解了协同过滤中存在的不足,接着引入上下文的影响去进一步加强推荐结果,从而使得推荐具有可解释性。
在本发明中,一条实时的位置签到是指用户访问某个位置的记录,其由用户ID、时间戳、位置信息构成。位置信息由经纬度和所属类别表示,例如类别为c,经纬度分别为lon和lat,位置l可以描述为l=(lon,lat,c)。区域是根据距离的远近对全体用户的签到位置进行聚类的结果,即R={r1,r2,…rq}。每个r代表一个区域,区域中的位置在地理上都互为近邻。
本发明的兴趣点推荐是指根据用户的历史位置访问记录uL,从基于区域的协同过滤和结合类别与距离的上下文角度出发,为其推荐符合其偏好的位置,从而产生一个推荐列表recu
实施例:一种基于区域划分和上下文影响的兴趣点推荐方法,包括如下步骤:
S101:获取用户的签到数据,每条签到数据由用户ID、位置ID、时间戳、位置的经纬度(lon,lat)以及位置类别c构成;对于分布广泛的位置,将其聚类成区域有利于缓解数据稀疏性,因为区域中存在大量的位置。我们定义用户集为U,U={u1,u2,…um},定义一组位置L,{L=L1,L2,…Ln},定义一组类别C,C={c1,c2,…cp},每个位置l可以描述为l=(lon,lat,c),类别为c,经纬度分别为lon和lat。
S102:对所有已获取的位置,通过经典的K-means聚类算法以距离为标准进行区域的划分,得到区域集合R,R={r1,r2,…rq},每个r代表一个区域;区域是根据距离的远近对全体用户的签到位置进行聚类的结果,区域中的位置在地理上都互为近邻。
所述S102包含如下步骤:
定义区域的数量q,采用K-means,基于目标函数(1)动态地进行区域的划分:
Figure BDA0002401463110000061
其中,dis()函数根据两个位置的经纬度求距离,μi是K-means动态产生的聚类中心。
根据距离将位置聚集起来是直观和现实的。两个位置越接近,它们就越有可能聚集在一个区域。因此,本发明采用经典的K-means均值算法,因为K-means均值算法的目标正是最小化距离之和。假设存在q个区域R,R={r1,r2,…rq},μi是区域ri的聚类中心,该聚类中心通过K-means均值动态更新。
S103:基于用户原始的位置向量uL并以余弦相似度的方式计算其相似用户群体SU(u),继而计算用户对未知位置l的协同过滤分数cf(u,l),
Figure BDA0002401463110000062
表示用户u访问位置lj的次数。
所述S103包含如下步骤:
基于余弦相似度计算用户在区域上的访问情况与大众的匹配程度sim(u,R),得到与用户相似用户群体SU(ui),通过公式(5)计算用户对未知位置l的协同过滤分数cf(ui,lj);
Figure BDA0002401463110000063
Figure BDA0002401463110000064
SU(ui)={uj|sorted by sim(ui,uj),uj∈U,num} (4);
Figure BDA0002401463110000065
其中,cnt(rz)是全体用户在区域rz上的经过归一化处理的签到数量,
Figure BDA0002401463110000066
是用户自身在区域rz上的经过归一化处理的签到数量,num是相似用户个数。
S104:基于用户的区域向量uR
Figure BDA0002401463110000067
计算用户访问某个区域的分数
Figure BDA0002401463110000068
|R|要远远小于|L|,并用该区域的分数去加强位置的协同过滤分数cf(u,l),得到基于区域划分的协调同过滤分数
Figure BDA0002401463110000069
所述S104包含如下步骤:
采用公式(6)计算用户访问某个区域的分数
Figure BDA0002401463110000071
再利用公式(7)计算基于区域划分的协调同过滤分数
Figure BDA0002401463110000072
Figure BDA0002401463110000073
Figure BDA0002401463110000074
其中,rz是lj对应的区域。
S105:基于全体签到数据中的每相邻两点之间的地理距离,采用幂律分布来模拟用户访问下一个位置的距离可能性p(l|ao)。
S105包含如下具体步骤:
定义距离的幂律概率为公式(8);
p(li|lj)=a×(dis(li,lj)) (8);
其中,li和lj为用户真实的签到数据集中相邻的两个签到位置,a和b分别为幂律分布的参数;为求解未知参数,将公式(8)转化为如下线性模型:
log p(li|lj)=log a+blog dis(li,lj) (9);
y(x,w)=a′+bx (10);
其中,w是参数集合,a′是log a,x表示li和lj
基于目标函数即公式(11),采用梯度下降的方式对参数进行更新:
Figure BDA0002401463110000075
其中,x表示li和lj,D是使用的真实数据集,t(x)是根据D导出的真实距离概率,λ表示正则化项的权重系数;
计算距离可能性p(l|ao)的公式如公式(12);
Figure BDA0002401463110000076
计算未知位置l与活动范围ao内的全体已经访问过的位置的综合距离可能性p(l|ao)。
S106:基于距离可能性p(l|ao)以未知位置l的所属区域为准,计算用户访问未知位置l的综合距离得分
Figure BDA0002401463110000077
所述S106包含如下具体步骤:
在某个区域内,为了减少候选的推荐位置数量,以用户已经访问过的位置为圆心,0.5千米为半径构成的圆看作是用户的活动范围,若多个圆有重叠,则合并成一个活动范围。因此,只在活动范围内寻找推荐目标。
处于同一活动范围内的候选位置进行归一化处理,然后根据活动范围内的签到数量与区域内的最大活动范围签到数量之比赋予权重,计算基于地理距离的上下文分数
Figure BDA0002401463110000081
Figure BDA0002401463110000082
其中,count(ao)计算的是用户在活动范围ao内的签到总数的函数,count(ax)计算的是用户在活动范围ax内的签到总数,p(lj|ao)是基于公式(10)计算的lj的距离可能性,p(lx|ao)是基于公式(10)计算的lx的距离可能性,
Figure BDA0002401463110000083
是用户在区域下的活动范围集合。
S107:基于全体签到数据的类别信息,整合得到类别转移矩阵T,继而计算用户访问未知位置l的类别分数
Figure BDA0002401463110000084
所述S107包含如下具体步骤:
类别是地点语义的一种提炼,如果用户同时访问过ci和cj,那这两个类别存在转移关系,且这种转移是对称的。
构建类别转移矩阵T,Tij表示的是类别ci和类别cj的转移次数,即包含这一对类别的用户数量,由于对称性的存在,故Tij=Tji
对于未知位置l的类别c,如果用户曾经在该区域内访问过该类别,则使用公式(14)表示其类别分数
Figure BDA0002401463110000085
否则,使用公式(15)表示其类别分数
Figure BDA0002401463110000086
Figure BDA0002401463110000087
Figure BDA0002401463110000088
其中,Cu是用户在该区域下已经访问过的类别的集合,ci∈Cu,而cj是该用户没有访问过的类别。
基于T,
Figure BDA0002401463110000089
Cu是用户在该区域下已经访问过的类别的集合,特别注意上式的ci∈Cu,而cj是该用户没有访问过的类别。此时计算得到的f(c)即可代表类别分数
Figure BDA00024014631100000810
S108:基于距离分数
Figure BDA00024014631100000811
和类别分数
Figure BDA00024014631100000812
计算位置的上下文分数
Figure BDA00024014631100000813
所述S108包含如下具体步骤:
采用加权的形式利用公式(16)计算上下文分数:
Figure BDA00024014631100000814
其中,已提前进行过归一化处理,β∈[0,1]。
S109:基于上下文分数
Figure BDA0002401463110000091
和区域划分下的协同过滤分数
Figure BDA0002401463110000092
计算用户访问未知位置的最终分数
Figure BDA0002401463110000093
按照分数的大小进行排序,将排名靠前的K个位置生成推荐列表recu
所述S109包含如下具体步骤:
采用加权的形式公式(17)计算未知位置l的最终分数:
Figure BDA0002401463110000094
其中,α∈[0,1]。
该方法的工作原理:本发明公开了一种基于区域划分的协同过滤与上下文影响的兴趣点推荐方法,从而完成对用户的位置推荐服务。包括如下步骤:基于K-means对位置进行聚类,得到区域集合R;基于经典的余弦相似度计算用户u对未知位置l的协同分数cf(u,l);计算该位置的区域分数ur′并结合协同分数得到基于区域的协同分数
Figure BDA0002401463110000095
基于整个签到数据采用幂律分布来模拟用户访问下一个位置的距离可能性p(l);进一步计算用户访问未知位置l的综合距离得分
Figure BDA0002401463110000096
基于整个签到数据得到类别转移矩阵T,继而计算用户访问未知位置l的综合类别分数
Figure BDA0002401463110000097
Figure BDA0002401463110000098
Figure BDA0002401463110000099
进行加权计算,得到上下文分数
Figure BDA00024014631100000910
Figure BDA00024014631100000911
Figure BDA00024014631100000912
进行加权计算,得到未知位置l的最终分数
Figure BDA00024014631100000913
按照分数的大小进行排序,将排名靠前的K个位置生成推荐列表recu
对比试验:
本发明选择的数据集来自网站Foursquare,包含两个城市:洛杉矶和伦敦。洛杉矶数据集包括4746个用户,7135个位置,共计48460条签到记录,用户的平均签到数量为10。伦敦数据集包括3470个用户,7941个位置,共计43912条签到记录,用户的平均签到数量为12。两个数据集都含有189个位置类别。从平均签到数量来看,两个数据集都较为稀疏。
随机选取每个用户去过的位置的70%为训练数据,剩下30%为测试数据。为了实验的有效性,本发明删除了访问少于5个位置的用户和被少于5个用户访问的位置。
评价指标为准确率Precision@K、召回率Recall@K、和F1-score@K。准确率基于公式
Figure BDA00024014631100000914
计算,recu是为用户u生成的推荐列表,U是用户集合,testu是指用户u的测试数据(真实的感兴趣的目标位置)。同理,召回率基于公式
Figure BDA00024014631100000915
计算,其中的符号含义同准确率计算公式中的一致。F1值基于公式F1-score@K=2(Pre×Re)/(Pre+Re),其中Pre和Re分别是准确率Precision@K和召回率Recall@K的缩写。上述所有公式中的K都指的是推荐位置的数量。
为了使得本发明的性能达到最优,首先对其自身的三个参数Q、α和β进行优化和选择。Q决定了如何将位置划分成区域,α权衡了基于区域的协同和上下文的影响,β权衡了地理距离和位置类别的作用。
从图3a和图3b可以看出:
洛杉矶数据集和伦敦数据集在α方面基本保持一致的趋势,即都是先上升后下降,这说明增大基于区域的协同在可以提升模型的性能,但是随后过度地忽略掉上下文,反而会使得模型性能下降。相比伦敦数据集0.6的最优α,洛杉矶数据集0.7的最优α表明其更加依赖于基于区域的协同。α=0.0时代表只参考上下文影响,而α=1.0时代表只参考基于区域的协同。因此,无论是洛杉矶还是伦敦,只考虑基于区域的协同都优于只考虑上下文影响。这充分揭示了将区域因素纳入到推荐系统是有效的。
从图3c和图3d可以看出:
在β方面,洛杉矶数据集在β=0.5之前,有着明显的上升趋势,但在这之后逐渐趋于平缓,这揭示了地理距离对该数据集提升的作用有限。在β=1.0时,无论K值多少,都出现了小幅度的趋势下降,即只考虑地理距离上下文,会带来一定的负面影响。而伦敦数据集则是在K=10和K=15时有明显上升和下降,尤其是K=10,这说明地理距离和上下文在这两个推荐数目下对伦敦数据集都发挥着同等重要的作用。无论是洛杉矶还是伦敦,只考虑地理上下文即β=1.0都优于只考虑地点类别即β=0.0,这也证明了地理距离是影响兴趣点推荐最重要的上下文。
从图3e和图3f可以看出:
在Q方面,洛杉矶和伦敦存在明显的差异。当Q=2时,洛杉矶数据集出现了比较明显的落差。这是因为当Q=1时,没有划分区域,此时是协同过滤结合上下文,已经可以达到一个很好的效果。但是当Q=2时,即突然开始划分区域的时候,由于区域数量太少导致对地点的划分不够精细,反而带来致命的负面影响。之后随着Q的上升,可以开始弥补这种负面影响并且区域的优势就逐渐显现出来。相反,Q=2并没有破坏伦敦数据集上的模型性能,这纯粹是数据集的特性导致的,因为不同城市存在不同的地点分布、地点属性而且人们出行访问的情况也大不相同。总的来看,洛杉矶和伦敦在随着Q的上升都有一些波动,并且存在局部最优,这是因为每一次K-means算法都是动态地划分区域。但无论怎样,相比划分的区域太少或者不划分区域,两者在区域数量较多时都能实现性能的提升。
通过对所有的参数组合进行实验,找到了最优的参数值选择。对于洛杉矶数据集而言,最优的参数值是Q=11,α=0.7和β=0.9。对于伦敦数据集而言,最优的参数值是Q=16,α=0.6和β=0.5。
为了进一步验证本发明的有效性,将其与热门主流的推荐算法进行了对比,它们分别如下:
POP:将热门的位置推荐给用户。
CF:经典的基于用户的协同过滤算法。
NMF:非负矩阵分解。
BPR:基于贝叶斯的随机游走,其对兴趣点推荐产生了很大影响。
DMF:一种新的基于深度学习的矩阵分解,旨在降低维度以求相似度。
RCF:基于区域划分的协同过滤。
本发明提出的基于区域划分和上下文影响的推荐方法称作RCFC。
从图4a和图4b可以看出:
在准确率方面,本发明在两个数据集上的表现都明显优于其他的推荐算法,这说明了本发明提出的结合上下文影响和基于区域的协同过滤的模型是有效的。中间算法RCF只考虑了区域因素,在洛杉矶数据集上,只有在K=10时优于BPR,其他时候各方面都略差于BPR。而伦敦数据集上,RCF均差于BPR,可见BPR在兴趣点推荐领域中依旧发挥巨大的作用。DMF算法是一个较新的基于深度学习的推荐算法,但其性能在所有算法中处于中下水平,不如CF算法,只优于NMF和POP,极有可能是因为DMF很大程度上依赖于其定义的神经结构和损失函数的计算,而且对于不同的数据集,其性能存在巨大的差异。此外,DMF并没有考虑兴趣点推荐中独有的一些特征,如地理距离。在伦敦数据集上,POP不如NMF说明了矩阵分解技术在该数据集上更能发挥作用。
从图4c和图4d可以看出:
在召回率方面,本发明在两个数据集上的表现同样优于其他的推荐算法,证明了将用户上下文引入基于区域的协同过滤中是可以实现较为满意的推荐结果。与准确率不一样,召回率是随着K值的增加而逐渐增大。因此,所有算法均呈现上升趋势。在洛杉矶数据集上,RCF略差于BPR,没有成功地展示基于区域的协同过滤的优越性。在伦敦数据集上,只有当K=20时,RCF才在召回率方面略优于BPR。DMF在两个数据集上都明显优于NMF和POP,但依旧不如CF。本发明在基于区域的协同过滤基础上,加入了用户的上下文,因此使得RCF的召回率得到显著提升。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于区域划分和上下文影响的兴趣点推荐方法,其特征在于,包括如下步骤:
S101:获取用户的签到数据,每条签到数据由用户ID、位置ID、时间戳、位置的经纬度(lon,lat)以及位置类别c构成;
S102:对所有已获取的位置,通过经典的K-means聚类算法以距离为标准进行区域的划分,得到区域集合R,R={r1,r2,...rq},每个r代表一个区域;
S103:基于用户原始的位置向量uL并以余弦相似度的方式计算其相似用户群体SU(u),继而计算用户对未知位置l的协同过滤分数cf(u,l),
Figure FDA0002401463100000011
Figure FDA0002401463100000012
表示用户u访问位置lj的次数;
S104:基于用户的区域向量uR
Figure FDA0002401463100000013
计算用户访问某个区域的分数
Figure FDA0002401463100000014
|R|要远远小于|L|,并用该区域的分数去加强位置的协同过滤分数cf(u,l),得到基于区域划分的协调同过滤分数
Figure FDA0002401463100000015
S105:基于全体签到数据中的每相邻两点之间的地理距离,采用幂律分布来模拟用户访问下一个位置的距离可能性p(l|ao);
S106:基于距离可能性p(l|ao)以未知位置l的所属区域为准,计算用户访问未知位置l的综合距离得分
Figure FDA0002401463100000016
S107:基于全体签到数据的类别信息,整合得到类别转移矩阵T,继而计算用户访问未知位置l的类别分数
Figure FDA0002401463100000017
S108:基于距离分数
Figure FDA0002401463100000018
和类别分数
Figure FDA0002401463100000019
计算位置的上下文分数
Figure FDA00024014631000000110
S109:基于上下文分数
Figure FDA00024014631000000111
和区域划分下的协同过滤分数
Figure FDA00024014631000000112
计算用户访问未知位置的最终分数
Figure FDA00024014631000000113
按照分数的大小进行排序,将排名靠前的K个位置生成推荐列表recu
2.如权利要求1所述的基于区域划分和上下文影响的兴趣点推荐方法,其特征在于,所述S102包含如下步骤:
定义区域的数量q,采用K-means,基于目标函数(1)动态地进行区域的划分:
Figure FDA00024014631000000114
其中,dis()函数根据两个位置的经纬度求距离,μi是K-means动态产生的聚类中心。
3.如权利要求2所述的基于区域划分和上下文影响的兴趣点推荐方法,其特征在于,所述S103包含如下步骤:
基于余弦相似度计算用户在区域上的访问情况与大众的匹配程度sim(u,R),得到与用户相似用户群体SU(ui),通过公式(5)计算用户对未知位置l的协同过滤分数cf(ui,lj);
Figure FDA0002401463100000021
Figure FDA0002401463100000022
SU(ui)={uj|sorted by sim(ui,uj),uj∈U,num} (4);
Figure FDA0002401463100000023
其中,cnt(rz)是全体用户在区域rz上的经过归一化处理的签到数量,
Figure FDA0002401463100000024
是用户自身在区域rz上的经过归一化处理的签到数量,num是相似用户个数。
4.如权利要求3所述的基于区域划分和上下文影响的兴趣点推荐方法,其特征在于,所述S104包含如下步骤:
采用公式(6)计算用户访问某个区域的分数
Figure FDA0002401463100000025
再利用公式(7)计算基于区域划分的协调同过滤分数
Figure FDA0002401463100000026
Figure FDA0002401463100000027
Figure FDA0002401463100000028
其中,rz是lj对应的区域。
5.如权利要求4所述的基于区域划分和上下文影响的兴趣点推荐方法,其特征在于,S105包含如下具体步骤:
定义距离的幂律概率为公式(8);
p(li|lj)=a×(dis(li,lj))b (8);
其中,li和lj为用户真实的签到数据集中相邻的两个签到位置,a和b分别为幂律分布的参数;为求解未知参数,将公式(8)转化为如下线性模型:
log p(li|lj)=log a+blogdis(li,lj) (9);
y(x,w)=a′+bx (10);
其中,w是参数集合,a'是log a,x表示li和lj
基于目标函数即公式(11),采用梯度下降的方式对参数进行更新:
Figure FDA0002401463100000029
其中,x表示li和lj,D是使用的真实数据集,t(x)是根据D导出的真实距离概率,λ表示正则化项的权重系数;
计算距离可能性p(l|ao)的公式如公式(12);
Figure FDA0002401463100000031
计算未知位置l与活动范围ao内的全体已经访问过的位置的综合距离可能性p(l|ao)。
6.如权利要求5所述的基于区域划分和上下文影响的兴趣点推荐方法,其特征在于,所述S106包含如下具体步骤:
处于同一活动范围内的候选位置进行归一化处理,然后根据活动范围内的签到数量与区域内的最大活动范围签到数量之比赋予权重,计算基于地理距离的上下文分数
Figure FDA0002401463100000032
Figure FDA0002401463100000033
其中,count(ao)计算的是用户在活动范围ao内的签到总数的函数,count(ax)计算的是用户在活动范围ax内的签到总数,p(lj|ao)是基于公式(10)计算的lj的距离可能性,p(lx|ao)是基于公式(10)计算的lx的距离可能性,
Figure FDA0002401463100000034
是用户在区域下的活动范围集合。
7.如权利要求6所述的基于区域划分和上下文影响的兴趣点推荐方法,其特征在于,所述S107包含如下具体步骤:
构建类别转移矩阵T,Tij表示的是类别ci和类别cj的转移次数,即包含这一对类别的用户数量,由于对称性的存在,故Tij=Tji
对于未知位置l的类别c,如果用户曾经在该区域内访问过该类别,则使用公式(14)表示其类别分数
Figure FDA0002401463100000035
否则,使用公式(15)表示其类别分数
Figure FDA0002401463100000036
Figure FDA0002401463100000037
Figure FDA0002401463100000038
其中,Cu是用户在该区域下已经访问过的类别的集合,ci∈Cu,而cj是该用户没有访问过的类别。
8.如权利要求7所述的基于区域划分和上下文影响的兴趣点推荐方法,其特征在于,所述S108包含如下具体步骤:
采用加权的形式利用公式(16)计算上下文分数:
Figure FDA0002401463100000039
其中,
Figure FDA0002401463100000041
已提前进行过归一化处理,β∈[0,1]。
9.如权利要求8所述的基于区域划分和上下文影响的兴趣点推荐方法,其特征在于,所述S109包含如下具体步骤:
采用加权的形式公式(17)计算未知位置l的最终分数:
Figure FDA0002401463100000042
其中,α∈[0,1]。
CN202010148082.XA 2020-03-05 2020-03-05 一种基于区域划分和上下文影响的兴趣点推荐方法 Active CN111324816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010148082.XA CN111324816B (zh) 2020-03-05 2020-03-05 一种基于区域划分和上下文影响的兴趣点推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010148082.XA CN111324816B (zh) 2020-03-05 2020-03-05 一种基于区域划分和上下文影响的兴趣点推荐方法

Publications (2)

Publication Number Publication Date
CN111324816A true CN111324816A (zh) 2020-06-23
CN111324816B CN111324816B (zh) 2023-04-07

Family

ID=71167472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010148082.XA Active CN111324816B (zh) 2020-03-05 2020-03-05 一种基于区域划分和上下文影响的兴趣点推荐方法

Country Status (1)

Country Link
CN (1) CN111324816B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008411A (zh) * 2019-04-17 2019-07-12 重庆大学 一种基于用户签到稀疏矩阵的深度学习兴趣点推荐方法
CN112905905A (zh) * 2021-01-22 2021-06-04 杭州电子科技大学 一种位置社交网络中兴趣点-区域联合推荐方法
CN113536109A (zh) * 2021-06-01 2021-10-22 重庆大学 一种基于神经网络和移动上下文的兴趣点推荐方法
CN114792110A (zh) * 2021-01-25 2022-07-26 南京意博软件科技有限公司 兴趣点数据的生成方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060266830A1 (en) * 2005-05-31 2006-11-30 Horozov Tzvetan T Location-based recommendation system
EP3035255A1 (en) * 2014-12-19 2016-06-22 HERE Global B.V. Method and apparatus for providing context-related point-of-interest recommendations
US20180165590A1 (en) * 2016-12-09 2018-06-14 Adobe Systems Incorporated Techniques for providing sequential recommendations to users
CN108874877A (zh) * 2018-05-03 2018-11-23 浙江大学城市学院 一种面向位置社交网络的基于图链接分析的兴趣点推荐方法
CN109460520A (zh) * 2019-01-21 2019-03-12 宿州学院 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法
CN109726336A (zh) * 2018-12-21 2019-05-07 长安大学 一种结合出行兴趣与社交偏好的poi推荐方法
CN110083767A (zh) * 2019-04-28 2019-08-02 广东工业大学 一种基于元路径的兴趣点推荐方法及相关装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060266830A1 (en) * 2005-05-31 2006-11-30 Horozov Tzvetan T Location-based recommendation system
EP3035255A1 (en) * 2014-12-19 2016-06-22 HERE Global B.V. Method and apparatus for providing context-related point-of-interest recommendations
US20180165590A1 (en) * 2016-12-09 2018-06-14 Adobe Systems Incorporated Techniques for providing sequential recommendations to users
CN108874877A (zh) * 2018-05-03 2018-11-23 浙江大学城市学院 一种面向位置社交网络的基于图链接分析的兴趣点推荐方法
CN109726336A (zh) * 2018-12-21 2019-05-07 长安大学 一种结合出行兴趣与社交偏好的poi推荐方法
CN109460520A (zh) * 2019-01-21 2019-03-12 宿州学院 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法
CN110083767A (zh) * 2019-04-28 2019-08-02 广东工业大学 一种基于元路径的兴趣点推荐方法及相关装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUOQIONG LIAO等: ""POI Recommendation of Location-Based Social Networks Using Tensor Factorization"", 《2018 19TH IEEE INTERNATIONAL CONFERENCE ON MOBILE DATA MANAGEMENT (MDM)》 *
HONGZHI YIN等: ""Joint Modeling of User Check-in Behaviors for Real-time Point-of-Interest Recommendation"" *
田继伟等: ""基于聚类和时间权重的协同过滤位置预测算法"", 《万方》 *
苏畅等: ""基于用户兴趣和地理因素的兴趣点推荐方法"" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008411A (zh) * 2019-04-17 2019-07-12 重庆大学 一种基于用户签到稀疏矩阵的深度学习兴趣点推荐方法
CN112905905A (zh) * 2021-01-22 2021-06-04 杭州电子科技大学 一种位置社交网络中兴趣点-区域联合推荐方法
CN114792110A (zh) * 2021-01-25 2022-07-26 南京意博软件科技有限公司 兴趣点数据的生成方法及装置
CN114792110B (zh) * 2021-01-25 2024-02-13 南京意博软件科技有限公司 兴趣点数据的生成方法及装置
CN113536109A (zh) * 2021-06-01 2021-10-22 重庆大学 一种基于神经网络和移动上下文的兴趣点推荐方法
CN113536109B (zh) * 2021-06-01 2022-10-21 重庆大学 一种基于神经网络和移动上下文的兴趣点推荐方法

Also Published As

Publication number Publication date
CN111324816B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111324816B (zh) 一种基于区域划分和上下文影响的兴趣点推荐方法
CN111428147B (zh) 结合社交和兴趣信息的异源图卷积网络的社交推荐方法
Yin et al. Joint modeling of user check-in behaviors for real-time point-of-interest recommendation
Xing et al. Points-of-interest recommendation based on convolution matrix factorization
CN102880719A (zh) 基于位置社交网络的用户轨迹相似性挖掘方法
Jiao et al. A novel next new point-of-interest recommendation system based on simulated user travel decision-making process
CN106960044B (zh) 一种基于张量分解及加权hits的时间感知个性化poi推荐方法
US11490220B2 (en) System and method for accurately and efficiently generating ambient point-of-interest recommendations
CN108804551A (zh) 一种兼顾多样性与个性化的空间兴趣点推荐方法
CN101620596A (zh) 一种面向查询的多文档自动摘要方法
CN107038184B (zh) 一种基于分层隐变量模型的新闻推荐方法
CN109902235A (zh) 基于蝙蝠优化的用户偏好聚类协同过滤推荐算法
CN111538916B (zh) 一种基于神经网络和地理影响的兴趣点推荐方法
CN115408618B (zh) 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法
CN114036376A (zh) 一种基于k均值聚类的时间感知自适应兴趣点推荐方法
CN114528480A (zh) 一种基于k均值聚类的时间感知自适应兴趣点推荐方法
CN111475744B (zh) 一种基于集成学习的个性化位置推荐方法
Ghane’i-Ostad et al. Detecting overlapping communities in LBSNs by fuzzy subtractive clustering
Vahidnia Point-of-interest recommendation in location-based social networks based on collaborative filtering and spatial kernel weighting
Kotzias et al. Addressing the Sparsity of Location Information on Twitter.
Krumm et al. Learning likely locations
Cao et al. Local experts finding using user comments in location‐based social networks
CN114048380A (zh) 一种基于图神经网络的兴趣点推荐方法
CN114065024A (zh) 基于用户个性化生活模式的poi推荐方法
CN114491313A (zh) 公共地图服务平台中访问兴趣主题提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant