CN107515949A - 兴趣点预测和推荐中的用户时空相似性度量方法 - Google Patents
兴趣点预测和推荐中的用户时空相似性度量方法 Download PDFInfo
- Publication number
- CN107515949A CN107515949A CN201710825071.9A CN201710825071A CN107515949A CN 107515949 A CN107515949 A CN 107515949A CN 201710825071 A CN201710825071 A CN 201710825071A CN 107515949 A CN107515949 A CN 107515949A
- Authority
- CN
- China
- Prior art keywords
- user
- time
- timepoi
- space
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及位置预测和推荐领域,具体涉及兴趣点预测和推荐中的用户时空相似性度量方法。兴趣点预测和推荐中的用户时空相似性度量方法,其步骤包括:步骤一:预处理数据;步骤二:度量时空同现模式相似性;步骤三:度量用户时空相似性。本发明提出一种用户时空相似性度量方法,通过签到时间贴近度和兴趣点位置贴近度,定义时空同现模式及其相似性,进而定义用户的时空同现模式及其相似性,通过用户的签到兴趣点的最相似时空同现模式及其相似性,以及基于兴趣点签到频率的权重,定义用户之间的时空相似性,为兴趣点预测和推荐中基于用户的协同过滤方法,提供一种用户时空相似性度量方法。
Description
技术领域
本发明涉及位置预测和推荐领域,具体涉及兴趣点预测和推荐中的用户时空相似性度量方法。
背景技术
随着移动终端、无线通信、移动互联网等技术的发展,用户可以随时随地记录自己的行踪,并上传至基于位置的社交网络(如Foursquare、Gowalla),社交网络中的用户签到数据急剧膨胀。签到数据蕴含着信息“谁(用户)于何时(时间)访问了何地(兴趣点)”,通过分析签到数据,可以发现用户的行为特性、活动规律,揭示用户的兴趣偏好,进而为用户提供基于位置的服务(如预测和推荐兴趣点、路线),协助服务商和用户从海量签到数据中选取所需信息,提高服务商的市场占有率,提升用户的使用体验。因此,基于用户签到数据分析的兴趣点预测和推荐备受关注。
兴趣点预测,是指分析用户的历史签到数据,预测用户将来可能访问的兴趣点。兴趣点推荐,是指分析用户的历史签到数据,推荐用户以前没有访问过但是将来可能访问的兴趣点。兴趣点预测和推荐的主要区别在于是否向用户提供曾经访问过的兴趣点。兴趣点预测和推荐中,基于用户的协同过滤方法(User-based Collaborative Filtering),是指首先根据用户的历史签到数据及用户相似性度量方法,计算用户之间的相似性,然后根据相似用户的历史签到数据,估算当前用户对兴趣点的评分,并将k个评分最高的兴趣点作为预测和推荐兴趣点。其中,用户相似性度量方法是基于用户的协同过滤方法的基础。
目前公知的兴趣点预测和推荐方法主要包括基于内容的方法、基于链路分析的方法、基于协同过滤的方法等,其中协同过滤方法主要包括基于兴趣点的协同过滤方法、基于用户的协同过滤方法、基于模型的协同过滤方法等。在基于模型的协同过滤方法中,高榕等(<计算机研究与发展>,2016,53(4):752-763)在基于矩阵分解的协同过滤中融合兴趣点的评论信息、用户的社交关联和地理信息。余永红等(<计算机研究与发展>,2016,53(8):1651-1663)使用泊松分布建模用户的签到行为,利用Bayesian personalized ranking标准优化泊松矩阵分解的损失函数,利用包含地域影响力的正则化因子约束泊松矩阵分解的过程,提出基于Ranking的泊松矩阵分解兴趣点推荐算法。任星怡等(<计算机学报>,2017,40(1):28-51)提出一种联合概率生成模型有效融合地理影响、时间效应、社会关系、内容信息以及流行度影响,模拟用户签到行为,通过离线模型和在线推荐支持本地和异地两种推荐场景。任星怡等(<计算机学报>,2017,40(4):824-841)利用潜在狄利克雷分配模型生成兴趣相关分数,采用自适应带宽核评估方法生成地理相关分数,通过用户社会关系的幂律分布生成社会相关分数,结合用户的分类偏好与兴趣点的流行度生成分类相关分数,利用概率矩阵分解模型将兴趣、地理、社会、分类的相关分数有效融合,生成推荐列表。赵朋朋等(<专利CN106126615A>,2016)根据GeoMF算法及TopicMF算法将地理信息、评论信息及签到信息融合到矩阵分解中得到目标函数,更新签到次数信息参数、评论文本集参数、转化峰度系数、主题编号参数、用户活动区域矩阵参数,计算用户对兴趣点的喜好程度。彭舰等(<专利CN106056413A>,2016)考虑用户不同时段兴趣特征、出行规律、距离影响,引入签到主题和中心区域两个隐变量,采用4个Dirichlet-Multinomial共轭结构描述兴趣点概率生成过程,包括主题-区域隐变量对的后验概率及共轭结构中每个多项分布的参数更新公式。同理,在基于兴趣点/用户的协同过滤方法中,也可融合用户的社会关系、兴趣点的地理影响、签到的时间因素等多种影响因素以提升兴趣点的预测和推荐效果。余正生等(<专利CN105718581A>,2016)考虑兴趣点之间相似度受空间距离影响,给出适合特定签到数据集的空间衰减函数并预设参数,用含有预设参数的空间衰减函数对传统兴趣点相似度进行加权。张卫丰等(<专利CN102594905B>,2014)根据用户当前位置及活动范围、好友在此范围的兴趣点历史,利用贝叶斯概率模型,计算用户访问兴趣点的联合概率。Josh Jia-ChingYing等(<ACM LBSN’10>,2010:19-26)采用序列模式挖掘算法获得用户的极大语义轨迹模式集,采用最长公共序列定义模式相似性,通过加权定义用户相似性。Mao Ye等(<SIGIR’11>,2011:325-334)采用基于用户的协同过滤方法计算兴趣偏好,采用基于好友的协同过滤方法计算社会影响,采用幂律分布和朴素贝叶斯方法计算地理影响,最后线性融合兴趣偏好、社会影响和地理影响。Quan Yuan等(<SIGIR’13>,2013:363-372)在计算兴趣偏好时考虑签到的时间因素,并采用相似时间片进行平滑,在计算地理影响时线性融合签到的时间因素,最后线性融合兴趣偏好、地理影响。但是,上述基于兴趣点/用户的协同过滤方法,没有将签到的时间因素、兴趣点的地理影响、兴趣点签到的频度/流行度融合在用户相似性度量方法中,而主要在推荐结果中采用线性方法进行融合。然而,用户相似性度量方法是基于用户的协同过滤方法的基础,签到的时间因素、兴趣点的地理影响、兴趣点签到的频度/流行度必定影响用户之间的相似性。
发明内容
针对现有技术的不足,本发明公开了兴趣点预测和推荐中的用户时空相似性度量方法,目的在于为兴趣点预测和推荐中基于用户的协同过滤方法,提供一种用户时空相似性度量方法。通过签到时间贴近度和兴趣点位置贴近度,定义时空同现模式及其相似性,进而定义用户的时空同现模式及其相似性。通过用户的签到兴趣点的最相似时空同现模式及其相似性,以及基于兴趣点签到频率的权重,定义用户之间的时空相似性。更进一步,基于时空相似用户,即可实现兴趣点预测和推荐中基于用户的协同过滤方法。本发明在度量用户相似性时,通过签到之间的时间贴近度,融合了签到在时间上的聚集和衰减影响,通过兴趣点之间的位置贴近度,融合了兴趣点在地理上的聚集和衰减影响,利用兴趣点签到频率,融合了兴趣点签到的频度/流行度,为兴趣点预测和推荐中基于用户的协同过滤方法,提供一种用户时空相似性度量方法。
具体技术方案如下:
兴趣点预测和推荐中的用户时空相似性度量方法,其步骤包括:
步骤一:预处理数据;
步骤二:度量时空同现模式相似性;
步骤三:度量用户时空相似性;
优选的,所述预处理数据的步骤包括:
步骤一:分组计数用户签到数据;
步骤二:形成签到频度方体CheckinCube;
优选的,所述度量时空同现模式相似性的步骤包括:
步骤一:投影(降维)签到频度方体CheckinCube,得到签到频度数组TimePoi;
步骤二:计算签到之间的时间贴近度TimeSimilarity(t,s)和兴趣点之间的位置贴近度LocationSimilarity(p,q);
步骤三:判断数组TimePoi元素之间是否是一对时空同现模式;
步骤四:计算时空同现模式的相似性PatternSimilarity(TimePoi(t,p),TimePoi(s,q));
优选的,所述度量用户时空相似性的步骤包括:
步骤一:选择(切片)签到频度方体CheckinCube,得到用户u的签到频度数组TimePoi(u);
步骤二:判断数组TimePoi(u)和TimePoi(v)元素之间是否是用户u和用户v的一对时空同现模式,并得到时空同现模式的相似性PatternSimilarity(TimePoi(u)(t,p),TimePoi(v)(s,q));
步骤三:计算用户u和用户v的签到兴趣点的最相似时空同现模式及其相似性MaxPatternSimilarity(TimePoi(u)(t,p),TimePoi(v))和MaxPatternSimilarity(TimePoi(v)(s,q),TimePoi(u));
步骤四:计算用户u和用户v的签到兴趣点的最相似时空同现模式的权重MaxPatternWeight(TimePoi(u)(t,p),TimePoi(v))和MaxPatternWeight(TimePoi(v)(s,q),TimePoi(u));
步骤五:计算用户u和用户v的时空相似性UserSimilarity(u,v),得到用户相似矩阵UserUser;
优选的,所述预处理数据,根据用户编号User_ID、签到时间Checkin_Time、兴趣点编号POI_ID,将用户签到数据分组计数,得到每个用户在某个时间对某个兴趣点的签到频度数据,形成一个包括用户、签到时间、兴趣点三个维度的签到频度方体CheckinCube,方体中的每个非零元素CheckinCube(u,t,p)=i>0表示用户u在时间t对兴趣点p签到了i次;
优选的,所述度量时空同现模式相似性,将签到频度方体CheckinCube在签到时间维和兴趣点维进行投影(降维),得到所有用户在某个时间对某个兴趣点的签到频度数据,形成一个包括签到时间、兴趣点两个维度的签到频度数组TimePoi,数组中的每个非零元素TimePoi(t,p)=i>0表示所有用户在时间t对兴趣点p共计签到了i次。根据时间阈值tt(0<tt≤12),计算两个签到时间t和s的时间贴近度TimeSimilarity(t,s)。根据距离阈值dt(dt>0),计算两个兴趣点p和q的位置贴近度LocationSimilarity(p,q)。基于签到时间贴近度和兴趣点位置贴近度,判断两个非零元素(模式)TimePoi(t,p)和TimePoi(s,q)是否是一对时空同现模式。如果TimePoi(t,p)和TimePoi(s,q)是一对时空同现模式,计算它们的相似性PatternSimilarity(TimePoi(t,p),TimePoi(s,q));
优选的,所述度量用户时空相似性,将签到频度方体CheckinCube在用户维进行选择(切片),得到用户u在某个时间对某个兴趣点的签到频度数据,形成一个包括签到时间、兴趣点两个维度的用户u的签到频度数组TimePoi(u),数组中的每个非零元素TimePoi(u)(t,p)=i>0表示用户u在时间t对兴趣点p签到了i次。根据TimePoi(u)(t,p)对应的元素(模式)TimePoi(t,p)和TimePoi(v)(s,q)对应的元素(模式)TimePoi(s,q)是否是一对时空同现模式,判断两个元素(模式)TimePoi(u)(t,p)和TimePoi(v)(s,q)是否是用户u和用户v的一对时空同现模式。如果TimePoi(u)(t,p)和TimePoi(v)(s,q)是用户u和用户v的一对时空同现模式,计算它们的相似性PatternSimilarity(TimePoi(u)(t,p),TimePoi(v)(s,q))。根据用户u和用户v的时空同现模式及其相似性,计算用户u和用户v的签到兴趣点的最相似时空同现模式及其相似性MaxPatternSimilarity(TimePoi(u)(t,p),TimePoi(v))和MaxPatternSimilarity(TimePoi(v)(s,q),TimePoi(u))。根据用户u和用户v的兴趣点签到频率,计算用户u和用户v的签到兴趣点的最相似时空同现模式的权重MaxPatternWeight(TimePoi(u)(t,p),TimePoi(v))和MaxPatternWeight(TimePoi(v)(s,q),TimePoi(u))。最后,基于用户u和用户v的所有签到兴趣点的最相似时空同现模式的相似性和权重,计算用户u和用户v的时空相似性UserSimilarity(u,v),得到用户相似矩阵UserUser。
有益效果:
本发明考虑了签到在时间上的聚集和衰减影响,定义签到之间的时间贴近度TimeSimilarity(t,s),考虑了兴趣点在地理上的聚集和衰减影响,定义兴趣点之间的位置贴近度LocationSimilarity(p,q),基于二者,定义时空同现模式及其相似性PatternSimilarity(TimePoi(t,p),TimePoi(s,q))以及用户u和用户v的时空同现模式及其相似性PatternSimilarity(TimePoi(u)(t,p),TimePoi(v)(s,q)),进而定义用户u和用户v的签到兴趣点的最相似时空同现模式及其相似性MaxPatternSimi larity(TimePoi(u)(t,p),TimePoi(v))和MaxPatternSimi larity(TimePoi(v)(s,q),TimePoi(u)),以及用户u和用户v的时空相似性UserSimilarity(u,v),即如果两个用户在越接近的时间对距离越近的兴趣点签到越多,则他们就越相似。与公知技术相比,本发明在度量用户相似性时,融合了时间和地理的聚集和衰减影响,更符合用户签到数据的时空特点。同时,也在一定程度上,缓解了数据稀疏问题。
本发明考虑了兴趣点签到的频度/流行度,利用兴趣点签到频率,定义用户u和用户v的签到兴趣点的最相似时空同现模式的权重MaxPatternWeight(TimePoi(u)(t,p),TimePoi(v))和MaxPatternWeight(TimePoi(v)(s,q),TimePoi(u)),对用户u和用户v的签到兴趣点的最相似时空同现模式相似性MaxPatternSimi larity(TimePoi(u)(t,p),TimePoi(v))和MaxPatternSimi larity(TimePoi(v)(s,q),TimePoi(u))进行加权,进而定义用户u和用户v的时空相似性UserSimi larity(u,v),即如果一个模式在两个用户的签到数据中频度/流行度越高,这个模式在这两个用户的相似性度量中就越重要。与公知技术相比,本发明在度量用户相似性时,融合了兴趣点签到的频度/流行度,更好地度量了兴趣点签到对用户的重要性和区分性。
总之,通过签到之间的时间贴近度,融合了时间的聚集和衰减影响,通过兴趣点之间的位置贴近度,融合了地理的聚集和衰减影响,反映了用户签到数据的时空特点,缓解了数据稀疏问题。利用兴趣点签到频率,融合了兴趣点签到的频度/流行度,反映了兴趣点签到对用户的重要性和区分性。为兴趣点预测和推荐中基于用户的协同过滤方法,提供一种用户时空相似性度量方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1:兴趣点预测和推荐中的用户时空相似性度量方法流程图;
图2:兴趣点预测和推荐中的用户时空相似性度量方法签到频度方体CheckinCube;
图3:兴趣点预测和推荐中的用户时空相似性度量方法用户相似矩阵UserUser。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一、预处理数据
根据用户编号User_ID、签到时间Checkin_Time、兴趣点编号POI_ID,将用户签到数据分组计数,得到每个用户在某个时间对某个兴趣点的签到频度数据,格式如下:
其中,Checkin_Time是按0-23小时提取的签到时间,Coordinate是兴趣点经纬度坐标,Checkin_Count是签到频度,例如,
1 | 22 | 1 | 102.8610096,24.83011851 | 30 |
表示“编号为1的用户,晚上22时在位于(102.8610096,24.83011851)的编号为1的兴趣点签到了30次”。
用户签到频度数据可以形成如图2所示的一个包括用户、签到时间、兴趣点三个维度的签到频度方体CheckinCube,方体中的每个非零元素CheckinCube(u,t,p)=i>0表示用户u在时间t对兴趣点p签到了i次,其中u∈UserSet(用户集合),t∈T={0,1,…,23}(签到时间集合),p∈POISet(兴趣点集合),p隐式附带其经纬度坐标。
二、度量时空同现模式相似性
(2.1)定义时空同现模式
将签到频度方体CheckinCube在签到时间维和兴趣点维进行投影(降维),得到所有用户在某个时间对某个兴趣点的签到频度数据,形成一个包括签到时间、兴趣点两个维度的签到频度数组TimePoi,数组中的每个非零元素TimePoi(t,p)=i>0表示所有用户在时间t对兴趣点p共计签到了i次,其中t∈T,p∈POISet。
给定时间阈值tt(0<tt≤12),两个签到时间t和s的时间贴近度TimeSimilarity(t,s)定义为:
其中,|t-s|是签到时间t和s的差的绝对值。
给定距离阈值dt(dt>0),两个兴趣点p和q的位置贴近度LocationSimilarity(p,q)定义为:
其中,Distance(p,q)是根据兴趣点p和q的经纬度坐标计算的p和q之间的距离。
数组TimePoi中的两个非零元素(模式)TimePoi(t,p)和TimePoi(s,q)是一对时空同现模式,当且仅当同时满足:
(2.2)度量时空同现模式相似性
如果数组TimePoi中的两个非零元素(模式)TimePoi(t,p)和TimePoi(s,q)是一对时空同现模式,则它们的相似性PatternSimilarity(TimePoi(t,p),TimePoi(s,q))定义为:
PatternSimilarity(TimePoi(t,p),TimePoi(s,q))
=α×TimeSimilarity(t,s)+(1-α)×LocationSimilarity(p,q) (4)
其中,0≤α≤1是一个参数,用于调节签到时间贴近度和兴趣点位置贴近度的重要性,通常α=0.5。
三、度量用户时空相似性
(3.1)度量用户的时空同现模式相似性
将签到频度方体CheckinCube在用户维进行选择(切片),得到用户u在某个时间对某个兴趣点的签到频度数据,形成一个包括签到时间、兴趣点两个维度的用户u的签到频度数组TimePoi(u),数组中的每个非零元素TimePoi(u)(t,p)=i>0表示用户u在时间t对兴趣点p签到了i次,其中u∈UserSet,t∈T,p∈POISet。需要注意的是,数组TimePoi(u)中的任意一个非零元素(模式)TimePoi(u)(t,p)必定对应数组TimePoi中的一个非零元素(模式)TimePoi(t,p)。
给定两个用户u和v,如果数组TimePoi(u)中TimePoi(u)(t,p)对应的元素(模式)TimePoi(t,p)和数组TimePoi(v)中TimePoi(v)(s,q)对应的元素(模式)TimePoi(s,q)是一对时空同现模式,则称TimePoi(u)(t,p)和TimePoi(v)(s,q)为用户u和用户v的一对时空同现模式,它们的相似性PatternSimilarity(TimePoi(u)(t,p),TimePoi(v)(s,q))定义为:
PatternSimilarity(TimePoi(u)(t,p),TimePoi(v)(s,q))
=PatternSimilarity(TimePoi(t,p),TimePoi(s,q)) (5)
(3.2)度量用户签到兴趣点的最相似时空同现模式相似性及权重
给定两个用户u和v,数组TimePoi(u)中的非零元素(模式)TimePoi(u)(t,p)关于数组TimePoi(v)中非零元素(模式)的最相似时空同现模式集合MaxPatternSet(TimePoi(u)(t,p),TimePoi(v))定义为:
给定两个用户u和v,数组TimePoi(u)中的非零元素(模式)
TimePoi(u)(t,p)关于数组TimePoi(v)中非零元素(模式)的最相似时空同现模式相似性MaxPatternSimilarity(TimePoi(u)(t,p),TimePoi(v))定义为:
给定用户u,数组TimePoi(u)中的非零元素(模式)TimePoi(u)(t,p)的权重weight(u)(t,p)定义为:
给定两个用户u和v,数组TimePoi(u)中的非零元素(模式)
TimePoi(u)(t,p)关于数组TimePoi(v)中非零元素(模式)的最相似时空同现模式的权重MaxPatternWeight(TimePoi(u)(t,p),TimePoi(v))定义为:
(3.3)度量用户时空相似性
给定两个用户u和v,他们的时空相似性UserSimilarity(u,v)定义为:
其中,
根据步骤一到三,可以得到如图3所示的一个用户相似矩阵UserUser,矩阵中的每个元素UserUser(u,v)=a表示用户u和用户v的时空相似性为a,其中u,v∈UserSet,a≥0。
图1为本发明的技术流程,包括三个步骤:(1)预处理数据;(2)度量时空同现模式相似性;(3)度量用户时空相似性。
图2为预处理用户签到数据之后形成的用户签到频度方体CheckinCube,包括三个维度:(1)用户维UserSet(用户集合);(2)签到时间维T={0,1,…,23}(签到时间集合);(3)兴趣点维POISet(兴趣点集合)。方体中的每个非零元素CheckinCube(u,t,p)=i>0表示用户u在时间t对兴趣点p签到了i次。
图3为本发明得到的用户相似矩阵UserUser,矩阵中的每个元素UserUser(u,v)=a表示用户u和用户v的时空相似性为a,其中u,v∈UserSet(用户集合),a≥0。
实施例:兴趣点预测和推荐中的用户时空相似性度量方法
假设用户签到数据如表1所示。
表1用户签到数据(部分)
User_ID | Checkin_Time(hour) | POI_ID | Coordinate(x,y) |
0 | 0 | 2 | 102.858617,24.82837548 |
0 | 7 | 4 | 102.8500432,24.83327369 |
0 | 12 | 5 | 102.8504501,24.83473428 |
… | … | … | … |
1 | 10 | 0 | 102.8553877,24.83056643 |
1 | 13 | 1 | 102.8610096,24.83011851 |
1 | 18 | 6 | 102.8587458,24.82941741 |
… | … | … | … |
2 | 7 | 1 | 102.8610096,24.83011851 |
2 | 12 | 6 | 102.8587458,24.82941741 |
2 | 20 | 0 | 102.8553877,24.83056643 |
… | … | … | … |
3 | 10 | 0 | 102.8553877,24.83056643 |
3 | 13 | 3 | 102.8585419,24.82949531 |
3 | 12 | 5 | 102.8504501,24.83473428 |
… | … | … | … |
(1)预处理数据
根据用户编号User_ID、签到时间Checkin_Time、兴趣点编号POI_ID,将表1中的用户签到数据分组计数,得到每个用户在某个时间对某个兴趣点的签到频度数据,形成包括用户、签到时间、兴趣点三个维度的签到频度方体CheckinCube,方体中非零元素CheckinCube(u,t,p)=i>0如表2所示。
表2 CheckinCube(u,t,p)
(2)度量时空同现模式相似性
将签到频度方体CheckinCube在签到时间维和兴趣点维进行投影(降维),形成包括签到时间、兴趣点两个维度的签到频度数组TimePoi,数组中非零元素TimePoi(t,p)=i>0如表3所示。
表3 TimePoi(t,p)
t | p | TimePoi(t,p) |
0 | 1 | 60 |
0 | 2 | 6 |
0 | 3 | 30 |
0 | 4 | 5 |
7 | 1 | 60 |
7 | 2 | 6 |
7 | 3 | 30 |
7 | 4 | 5 |
8 | 5 | 21 |
8 | 6 | 99 |
10 | 0 | 38 |
12 | 5 | 32 |
12 | 6 | 80 |
13 | 1 | 60 |
13 | 2 | 5 |
13 | 3 | 30 |
15 | 0 | 30 |
18 | 5 | 12 |
18 | 6 | 92 |
20 | 0 | 68 |
22 | 1 | 52 |
设时间阈值tt=1.5(hour),距离阈值dt=0.5(km),签到时间贴近度和兴趣点位置贴近度的调节参数α=0.5,根据公式(1)-(4),计算时空同现模式及其相似性如表4所示,其中省略了对称模式及其相似性,例如,表4给出了PatternSimilarity(TimePoi(0,1),TimPoi(0,2))=0.690400,没有给出对称的PatternSimilarity(TimePoi(0,2),TimPoi(0,1))=0.690400。
表4 PatternSimilarity(TimePoi(t,p),TimePoi(s,q))
(3)度量用户时空相似性
将签到频度方体CheckinCube在用户维进行选择(切片),形成包括签到时间、兴趣点两个维度的用户u的签到频度数组TimePoi(u),数组中非零元素TimePoi(u)(t,p)=i>0如表5所示。
表5 TimePoi(u)(t,p)和Weight(u)(t,p)
根据公式(5),可以通过查询表4,判断用户u的TimePoi(u)(t,p)和用户v的TimePoi(v)(s,q)是否是一对时空同现模式并得到时空同现模式的相似性。例如,用户0的TimePoi(0)(0,2)和用户1的TimePoi(1)(7,1)不是一对时空同现模式,因为查询表4得知TimePoi(0,2)和TimePoi(7,1)不是一对时空同现模式。而用户0的TimePoi(0)(0,2)和用户1的TimePoi(1)(0,1)是一对时空同现模式,其相似性为:
PatternSimilarity(TimePoi(0)(0,2),TimPoi(1)(0,1))
=PatternSimilarity(TimePoi(0,2),TimPoi(0,1))
=PatternSimilarity(TimPoi(0,1),TimePoi(0,2))
=0.690400
根据公式(6)和(7),计算用户u的TimePoi(u)(t,p)关于用户v的TimePoi(v)的最相似时空同现模式集合和最相似时空同现模式相似性。例如,用户0和用户1之间的最相似时空同现模式集合及模式相似性如表6所示。
表6用户0和用户1之间的MaxPatternSet、MaxPatternSimilarity、MaxPatternWeight
TimePoi(0)(t,p) | (0,2) | (0,4) | (7,2) | (7,4) | (8,5) |
MaxPatternSet | (0,1) | (7,1) | |||
MaxPatternSimilarity | 0.6904 | 0 | 0.6904 | 0 | 0 |
MaxPatternWeight | 0.083437 | 0.049505 | 0.083437 | 0.049505 | 0.207921 |
TimePoi(0)(t,p) | (8,6) | (12,5) | (12,6) | (13,2) | (18,5) |
MaxPatternSet | (8,6) | (12,6) | (13,1) | ||
MaxPatternSimilarity | 1 | 0 | 1 | 0.6904 | 0 |
MaxPatternWeight | 0.102189 | 0.09901 | 0.117997 | 0.076167 | 0.118812 |
TimePoi(0)(t,p) | (18,6) | ||||
MaxPatternSet | (18,6) | ||||
MaxPatternSimilarity | 1 | ||||
MaxPatternWeight | 0.107716 | ||||
TimePoi(1)(t,p) | (0,1) | (7,1) | (8,6) | (10,0) | (12,6) |
MaxPatternSet | (0,2) | (7,2) | (8,6) | (12,6) | |
MaxPatternSimilarity | 0.6904 | 0.6904 | 1 | 0 | 1 |
MaxPatternWeight | 0.083437 | 0.083437 | 0.102189 | 0.03125 | 0.117997 |
TimePoi(1)(t,p) | (13,1) | (15,0) | (18,6) | (20,0) | (22,1) |
MaxPatternSet | (13,2) | (18,6) | |||
MaxPatternSimilarity | 0.6904 | 0 | 1 | 0 | 0 |
MaxPatternWeight | 0.076167 | 0.03125 | 0.107716 | 0.117188 | 0.117188 |
根据公式(8),计算用户u的TimePoi(u)(t,p)的权重weight(u)(t,p)如表5所示。
根据公式(9),计算用户u的TimePoi(u)(t,p)关于用户v的TimePoi(v)的最相似时空同现模式权重。例如,用户0和用户1之间的最相似时空同现模式权重如表6所示。
最后,根据公式(10),计算用户u和用户v的时空相似性UserSimilarity(u,v),得到用户相似矩阵UserUser如表7所示。
表7UserUser
UserSimilarity(u,v) | 0 | 1 | 2 | 3 |
0 | 1.000000 | 0.504908 | 0.534499 | 0.611408 |
1 | 0.504908 | 1.000000 | 0.968699 | 0.787693 |
2 | 0.534499 | 0.968699 | 1.000000 | 0.682807 |
3 | 0.611408 | 0.787693 | 0.682807 | 1.000000 |
更进一步,基于时空相似用户,即可实现兴趣点预测和推荐中基于用户的协同过滤方法。例如,选取用户2的最相似用户1,估算用户2在时间t对兴趣点p的签到频度,得到:用户2除了在习惯的时间访问熟悉的兴趣点外,可以推荐他在时间10或15访问兴趣点0。
本发明提出一种用户时空相似性度量方法,通过签到时间贴近度和兴趣点位置贴近度,定义时空同现模式及其相似性,进而定义用户的时空同现模式及其相似性。通过用户的签到兴趣点的最相似时空同现模式及其相似性,以及基于兴趣点签到频率的权重,定义用户之间的时空相似性。更进一步,基于时空相似用户,即可实现兴趣点预测和推荐中基于用户的协同过滤方法。本发明在度量用户相似性时,通过签到之间的时间贴近度,融合了签到在时间上的聚集和衰减影响,通过兴趣点之间的位置贴近度,融合了兴趣点在地理上的聚集和衰减影响,利用兴趣点签到频率,融合了兴趣点签到的频度/流行度,为兴趣点预测和推荐中基于用户的协同过滤方法,提供一种用户时空相似性度量方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.兴趣点预测和推荐中的用户时空相似性度量方法,包括以下步骤:
步骤一:预处理数据;
步骤二:度量时空同现模式相似性;
步骤三:度量用户时空相似性。
2.根据权利要求1所述的兴趣点预测和推荐中的用户时空相似性度量方法,所述预处理数据的步骤包括:
步骤一:分组计数用户签到数据;
步骤二:形成签到频度方体CheckinCube。
3.根据权利要求1所述的兴趣点预测和推荐中的用户时空相似性度量方法,所述度量时空同现模式相似性的步骤包括:
步骤一:投影(降维)签到频度方体CheckinCube,得到签到频度数组TimePoi;
步骤二:计算签到之间的时间贴近度TimeSimilarity(t,s)和兴趣点之间的位置贴近度LocationSimilarity(p,q);
步骤三:判断数组TimePoi元素之间是否是一对时空同现模式;
步骤四:计算时空同现模式的相似性PatternSimilarity(TimePoi(t,p),TimePoi(s,q))。
4.根据权利要求1所述的兴趣点预测和推荐中的用户时空相似性度量方法,所述度量用户时空相似性的步骤包括:
步骤一:选择(切片)签到频度方体CheckinCube,得到用户u的签到频度数组TimePoi(u);
步骤二:判断数组TimePoi(u)和TimePoi(v)元素之间是否是用户u和用户v的一对时空同现模式,并得到时空同现模式的相似性PatternSimilarity(TimePoi(u)(t,p),TimePoi(v)(s,q));
步骤三:计算用户u和用户v的签到兴趣点的最相似时空同现模式及其相似性MaxPatternSimilarity(TimePoi(u)(t,p),TimePoi(v))和MaxPatternSimilarity(TimePoi(v)(s,q),TimePoi(u));
步骤四:计算用户u和用户v的签到兴趣点的最相似时空同现模式的权重MaxPatternWeight(TimePoi(u)(t,p),TimePoi(v))和MaxPatternWeight(TimePoi(v)(s,q),TimePoi(u));
步骤五:计算用户u和用户v的时空相似性UserSimilarity(u,v),得到用户相似矩阵UserUser。
5.根据权利要求1所述的兴趣点预测和推荐中的用户时空相似性度量方法,其特征在于:所述预处理数据,根据用户编号User_ID、签到时间Checkin_Time、兴趣点编号POI_ID,将用户签到数据分组计数,得到每个用户在某个时间对某个兴趣点的签到频度数据,形成一个包括用户、签到时间、兴趣点三个维度的签到频度方体CheckinCube,方体中的每个非零元素CheckinCube(u,t,p)=i>0表示用户u在时间t对兴趣点p签到了i次。
6.根据权利要求1所述的兴趣点预测和推荐中的用户时空相似性度量方法,其特征在于:所述度量时空同现模式相似性,将签到频度方体CheckinCube在签到时间维和兴趣点维进行投影(降维),得到所有用户在某个时间对某个兴趣点的签到频度数据,形成一个包括签到时间、兴趣点两个维度的签到频度数组TimePoi,数组中的每个非零元素TimePoi(t,p)=i>0表示所有用户在时间t对兴趣点p共计签到了i次。根据时间阈值tt(0<tt≤12),计算两个签到时间t和s的时间贴近度TimeSimilarity(t,s)。根据距离阈值dt(dt>0),计算两个兴趣点p和q的位置贴近度LocationSimilarity(p,q)。基于签到时间贴近度和兴趣点位置贴近度,判断两个非零元素(模式)TimePoi(t,p)和TimePoi(s,q)是否是一对时空同现模式。如果TimePoi(t,p)和TimePoi(s,q)是一对时空同现模式,计算它们的相似性PatternSimilarity(TimePoi(t,p),TimePoi(s,q))。
7.根据权利要求1所述的兴趣点预测和推荐中的用户时空相似性度量方法,其特征在于:所述度量用户时空相似性,将签到频度方体CheckinCube在用户维进行选择(切片),得到用户u在某个时间对某个兴趣点的签到频度数据,形成一个包括签到时间、兴趣点两个维度的用户u的签到频度数组TimePoi(u),数组中的每个非零元素TimePoi(u)(t,p)=i>0表示用户u在时间t对兴趣点p签到了i次。根据TimePoi(u)(t,p)对应的元素(模式)TimePoi(t,p)和TimePoi(v)(s,q)对应的元素(模式)TimePoi(s,q)是否是一对时空同现模式,判断两个元素(模式)TimePoi(u)(t,p)和TimePoi(v)(s,q)是否是用户u和用户v的一对时空同现模式。如果TimePoi(u)(t,p)和TimePoi(v)(s,q)是用户u和用户v的一对时空同现模式,计算它们的相似性PatternSimilarity(TimePoi(u)(t,p),TimePoi(v)(s,q))。根据用户u和用户v的时空同现模式及其相似性,计算用户u和用户v的签到兴趣点的最相似时空同现模式及其相似性MaxPatternSimilarity(TimePoi(u)(t,p),TimePoi(v))和MaxPatternSimilarity(TimePoi(v)(s,q),TimePoi(u))。根据用户u和用户v的兴趣点签到频率,计算用户u和用户v的签到兴趣点的最相似时空同现模式的权重MaxPatternWeight(TimePoi(u)(t,p),TimePoi(v))和MaxPatternWeight(TimePoi(v)(s,q),TimePoi(u))。最后,基于用户u和用户v的所有签到兴趣点的最相似时空同现模式的相似性和权重,计算用户u和用户v的时空相似性UserSimilarity(u,v),得到用户相似矩阵UserUser。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710825071.9A CN107515949B (zh) | 2017-09-14 | 2017-09-14 | 兴趣点预测和推荐中的用户时空相似性度量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710825071.9A CN107515949B (zh) | 2017-09-14 | 2017-09-14 | 兴趣点预测和推荐中的用户时空相似性度量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107515949A true CN107515949A (zh) | 2017-12-26 |
CN107515949B CN107515949B (zh) | 2021-01-15 |
Family
ID=60724039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710825071.9A Active CN107515949B (zh) | 2017-09-14 | 2017-09-14 | 兴趣点预测和推荐中的用户时空相似性度量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107515949B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222278A (zh) * | 2019-06-18 | 2019-09-10 | 东北大学 | 综合因素下用户位置的获取方法 |
CN111756832A (zh) * | 2020-06-22 | 2020-10-09 | 百度在线网络技术(北京)有限公司 | 推送信息的方法、装置、电子设备及计算机可读存储介质 |
CN112232845A (zh) * | 2019-07-15 | 2021-01-15 | 中国移动通信集团重庆有限公司 | 一种基于用户位置预测用户行为偏好的方法及装置 |
CN112650932A (zh) * | 2021-01-04 | 2021-04-13 | 重庆邮电大学 | 一种融合社交和位置关系的神经协同过滤poi推荐方法 |
CN114003825A (zh) * | 2021-12-31 | 2022-02-01 | 垒途智能教科技术研究院江苏有限公司 | 一种基于poi序列的vr交互方法 |
CN115687801A (zh) * | 2022-09-27 | 2023-02-03 | 南京工业职业技术大学 | 一种基于位置时效特征和时间感知动态相似性的位置推荐方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942310A (zh) * | 2014-04-18 | 2014-07-23 | 厦门雅迅网络股份有限公司 | 基于时空模式的用户行为相似性挖掘方法 |
US20150332124A1 (en) * | 2011-06-20 | 2015-11-19 | Microsoft Technology Licensing, Llc | Near-duplicate video retrieval |
CN105389332A (zh) * | 2015-10-13 | 2016-03-09 | 广西师范学院 | 一种地理社交网络下的用户相似性计算方法 |
CN105404890A (zh) * | 2015-10-13 | 2016-03-16 | 广西师范学院 | 一种顾及轨迹时空语义的犯罪团伙判别方法 |
JP2017033198A (ja) * | 2015-07-30 | 2017-02-09 | 日本電信電話株式会社 | 時空間変数予測装置及びプログラム |
CN106844585A (zh) * | 2017-01-10 | 2017-06-13 | 广东精规划信息科技股份有限公司 | 一种基于多源物联网位置感知的时空关系分析系统 |
CN107133263A (zh) * | 2017-03-31 | 2017-09-05 | 百度在线网络技术(北京)有限公司 | Poi推荐方法、装置、设备及计算机可读存储介质 |
-
2017
- 2017-09-14 CN CN201710825071.9A patent/CN107515949B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150332124A1 (en) * | 2011-06-20 | 2015-11-19 | Microsoft Technology Licensing, Llc | Near-duplicate video retrieval |
CN103942310A (zh) * | 2014-04-18 | 2014-07-23 | 厦门雅迅网络股份有限公司 | 基于时空模式的用户行为相似性挖掘方法 |
JP2017033198A (ja) * | 2015-07-30 | 2017-02-09 | 日本電信電話株式会社 | 時空間変数予測装置及びプログラム |
CN105389332A (zh) * | 2015-10-13 | 2016-03-09 | 广西师范学院 | 一种地理社交网络下的用户相似性计算方法 |
CN105404890A (zh) * | 2015-10-13 | 2016-03-16 | 广西师范学院 | 一种顾及轨迹时空语义的犯罪团伙判别方法 |
CN106844585A (zh) * | 2017-01-10 | 2017-06-13 | 广东精规划信息科技股份有限公司 | 一种基于多源物联网位置感知的时空关系分析系统 |
CN107133263A (zh) * | 2017-03-31 | 2017-09-05 | 百度在线网络技术(北京)有限公司 | Poi推荐方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
SHRIPAD KONDRA等: ""Self-similarity and points of interest in textured images"", 《PERMIN 12:PROCEEDINGS OF THE FIRST INDO-JAPAN CONFERENCE ON PERCEPTION AND MACHINE INTELLIGENCE》 * |
肖飞: ""时空数据中群组用户关联度评价模型与位置推荐算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222278A (zh) * | 2019-06-18 | 2019-09-10 | 东北大学 | 综合因素下用户位置的获取方法 |
CN110222278B (zh) * | 2019-06-18 | 2022-05-17 | 东北大学 | 综合因素下用户位置的获取方法 |
CN112232845A (zh) * | 2019-07-15 | 2021-01-15 | 中国移动通信集团重庆有限公司 | 一种基于用户位置预测用户行为偏好的方法及装置 |
CN112232845B (zh) * | 2019-07-15 | 2023-12-19 | 中国移动通信集团重庆有限公司 | 一种基于用户位置预测用户行为偏好的方法及装置 |
CN111756832A (zh) * | 2020-06-22 | 2020-10-09 | 百度在线网络技术(北京)有限公司 | 推送信息的方法、装置、电子设备及计算机可读存储介质 |
CN112650932A (zh) * | 2021-01-04 | 2021-04-13 | 重庆邮电大学 | 一种融合社交和位置关系的神经协同过滤poi推荐方法 |
CN112650932B (zh) * | 2021-01-04 | 2022-09-23 | 重庆邮电大学 | 一种融合社交和位置关系的神经协同过滤poi推荐方法 |
CN114003825A (zh) * | 2021-12-31 | 2022-02-01 | 垒途智能教科技术研究院江苏有限公司 | 一种基于poi序列的vr交互方法 |
CN115687801A (zh) * | 2022-09-27 | 2023-02-03 | 南京工业职业技术大学 | 一种基于位置时效特征和时间感知动态相似性的位置推荐方法 |
CN115687801B (zh) * | 2022-09-27 | 2024-01-19 | 南京工业职业技术大学 | 基于位置时效特征和时间感知动态相似性的位置推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107515949B (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515949A (zh) | 兴趣点预测和推荐中的用户时空相似性度量方法 | |
Gao et al. | Exploring social-historical ties on location-based social networks | |
Liu et al. | Characterizing mixed-use buildings based on multi-source big data | |
CN108460101B (zh) | 面向位置社交网络基于地理位置正则化的兴趣点推荐方法 | |
US10332150B2 (en) | Location event advertising | |
Shi et al. | Human mobility patterns in different communities: a mobile phone data-based social network approach | |
Li et al. | Multi-layered friendship modeling for location-based mobile social networks | |
CN109948066B (zh) | 一种基于异构信息网络的兴趣点推荐方法 | |
CN106162544B (zh) | 一种地理围栏的生成方法和设备 | |
CN109918573A (zh) | 一种基于位置社交网络的个性化线路推荐系统和方法 | |
CN108804551A (zh) | 一种兼顾多样性与个性化的空间兴趣点推荐方法 | |
CN109726336A (zh) | 一种结合出行兴趣与社交偏好的poi推荐方法 | |
CN104699818A (zh) | 一种多源异构的多属性poi融合方法 | |
CN102594905A (zh) | 一种基于场景的社交网络位置兴趣点推荐方法 | |
Bwambale et al. | Modelling long-distance route choice using mobile phone call detail record data: a case study of Senegal | |
CN107341261A (zh) | 一种面向位置社交网络的兴趣点推荐方法 | |
EP3014491B1 (en) | Displaying demographic data | |
CN106776959A (zh) | 一种基于线上线下双重社交关系的活动推荐系统及方法 | |
US20150006255A1 (en) | Determining demographic data | |
Yao | Exploiting human mobility patterns for point-of-interest recommendation | |
CN110322067A (zh) | 基于因子图模型的移动用户位置预测方法 | |
CN109284449A (zh) | 兴趣点的推荐方法和装置 | |
Mondschein | Five-star transportation: using online activity reviews to examine mode choice to non-work destinations | |
Kang et al. | How urban places are visited by social groups? Evidence from matrix factorization on mobile phone data | |
Jin et al. | Metro passengers’ route choice model and its application considering perceived transfer threshold |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |