CN107515949A

CN107515949A - 兴趣点预测和推荐中的用户时空相似性度量方法

Info

Publication number: CN107515949A
Application number: CN201710825071.9A
Authority: CN
Inventors: 陈红梅; 王丽珍; 周丽华; 肖清; 杨培忠
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2017-12-26
Anticipated expiration: 2037-09-14
Also published as: CN107515949B

Abstract

本发明涉及位置预测和推荐领域，具体涉及兴趣点预测和推荐中的用户时空相似性度量方法。兴趣点预测和推荐中的用户时空相似性度量方法，其步骤包括：步骤一：预处理数据；步骤二：度量时空同现模式相似性；步骤三：度量用户时空相似性。本发明提出一种用户时空相似性度量方法，通过签到时间贴近度和兴趣点位置贴近度，定义时空同现模式及其相似性，进而定义用户的时空同现模式及其相似性，通过用户的签到兴趣点的最相似时空同现模式及其相似性，以及基于兴趣点签到频率的权重，定义用户之间的时空相似性，为兴趣点预测和推荐中基于用户的协同过滤方法，提供一种用户时空相似性度量方法。

Description

兴趣点预测和推荐中的用户时空相似性度量方法

技术领域

本发明涉及位置预测和推荐领域，具体涉及兴趣点预测和推荐中的用户时空相似性度量方法。

背景技术

随着移动终端、无线通信、移动互联网等技术的发展，用户可以随时随地记录自己的行踪，并上传至基于位置的社交网络(如Foursquare、Gowalla)，社交网络中的用户签到数据急剧膨胀。签到数据蕴含着信息“谁(用户)于何时(时间)访问了何地(兴趣点)”，通过分析签到数据，可以发现用户的行为特性、活动规律，揭示用户的兴趣偏好，进而为用户提供基于位置的服务(如预测和推荐兴趣点、路线)，协助服务商和用户从海量签到数据中选取所需信息，提高服务商的市场占有率，提升用户的使用体验。因此，基于用户签到数据分析的兴趣点预测和推荐备受关注。

兴趣点预测，是指分析用户的历史签到数据，预测用户将来可能访问的兴趣点。兴趣点推荐，是指分析用户的历史签到数据，推荐用户以前没有访问过但是将来可能访问的兴趣点。兴趣点预测和推荐的主要区别在于是否向用户提供曾经访问过的兴趣点。兴趣点预测和推荐中，基于用户的协同过滤方法(User-based Collaborative Filtering)，是指首先根据用户的历史签到数据及用户相似性度量方法，计算用户之间的相似性，然后根据相似用户的历史签到数据，估算当前用户对兴趣点的评分，并将k个评分最高的兴趣点作为预测和推荐兴趣点。其中，用户相似性度量方法是基于用户的协同过滤方法的基础。

目前公知的兴趣点预测和推荐方法主要包括基于内容的方法、基于链路分析的方法、基于协同过滤的方法等，其中协同过滤方法主要包括基于兴趣点的协同过滤方法、基于用户的协同过滤方法、基于模型的协同过滤方法等。在基于模型的协同过滤方法中，高榕等(<计算机研究与发展>，2016，53(4)：752-763)在基于矩阵分解的协同过滤中融合兴趣点的评论信息、用户的社交关联和地理信息。余永红等(<计算机研究与发展>，2016，53(8)：1651-1663)使用泊松分布建模用户的签到行为，利用Bayesian personalized ranking标准优化泊松矩阵分解的损失函数，利用包含地域影响力的正则化因子约束泊松矩阵分解的过程，提出基于Ranking的泊松矩阵分解兴趣点推荐算法。任星怡等(<计算机学报>，2017，40(1)：28-51)提出一种联合概率生成模型有效融合地理影响、时间效应、社会关系、内容信息以及流行度影响，模拟用户签到行为，通过离线模型和在线推荐支持本地和异地两种推荐场景。任星怡等(<计算机学报>，2017，40(4)：824-841)利用潜在狄利克雷分配模型生成兴趣相关分数，采用自适应带宽核评估方法生成地理相关分数，通过用户社会关系的幂律分布生成社会相关分数，结合用户的分类偏好与兴趣点的流行度生成分类相关分数，利用概率矩阵分解模型将兴趣、地理、社会、分类的相关分数有效融合，生成推荐列表。赵朋朋等(<专利CN106126615A>，2016)根据GeoMF算法及TopicMF算法将地理信息、评论信息及签到信息融合到矩阵分解中得到目标函数，更新签到次数信息参数、评论文本集参数、转化峰度系数、主题编号参数、用户活动区域矩阵参数，计算用户对兴趣点的喜好程度。彭舰等(<专利CN106056413A>，2016)考虑用户不同时段兴趣特征、出行规律、距离影响，引入签到主题和中心区域两个隐变量，采用4个Dirichlet-Multinomial共轭结构描述兴趣点概率生成过程，包括主题-区域隐变量对的后验概率及共轭结构中每个多项分布的参数更新公式。同理，在基于兴趣点/用户的协同过滤方法中，也可融合用户的社会关系、兴趣点的地理影响、签到的时间因素等多种影响因素以提升兴趣点的预测和推荐效果。余正生等(<专利CN105718581A>，2016)考虑兴趣点之间相似度受空间距离影响，给出适合特定签到数据集的空间衰减函数并预设参数，用含有预设参数的空间衰减函数对传统兴趣点相似度进行加权。张卫丰等(<专利CN102594905B>，2014)根据用户当前位置及活动范围、好友在此范围的兴趣点历史，利用贝叶斯概率模型，计算用户访问兴趣点的联合概率。Josh Jia-ChingYing等(<ACM LBSN’10>，2010：19-26)采用序列模式挖掘算法获得用户的极大语义轨迹模式集，采用最长公共序列定义模式相似性，通过加权定义用户相似性。Mao Ye等(<SIGIR’11>，2011：325-334)采用基于用户的协同过滤方法计算兴趣偏好，采用基于好友的协同过滤方法计算社会影响，采用幂律分布和朴素贝叶斯方法计算地理影响，最后线性融合兴趣偏好、社会影响和地理影响。Quan Yuan等(<SIGIR’13>，2013：363-372)在计算兴趣偏好时考虑签到的时间因素，并采用相似时间片进行平滑，在计算地理影响时线性融合签到的时间因素，最后线性融合兴趣偏好、地理影响。但是，上述基于兴趣点/用户的协同过滤方法，没有将签到的时间因素、兴趣点的地理影响、兴趣点签到的频度/流行度融合在用户相似性度量方法中，而主要在推荐结果中采用线性方法进行融合。然而，用户相似性度量方法是基于用户的协同过滤方法的基础，签到的时间因素、兴趣点的地理影响、兴趣点签到的频度/流行度必定影响用户之间的相似性。

发明内容

针对现有技术的不足，本发明公开了兴趣点预测和推荐中的用户时空相似性度量方法，目的在于为兴趣点预测和推荐中基于用户的协同过滤方法，提供一种用户时空相似性度量方法。通过签到时间贴近度和兴趣点位置贴近度，定义时空同现模式及其相似性，进而定义用户的时空同现模式及其相似性。通过用户的签到兴趣点的最相似时空同现模式及其相似性，以及基于兴趣点签到频率的权重，定义用户之间的时空相似性。更进一步，基于时空相似用户，即可实现兴趣点预测和推荐中基于用户的协同过滤方法。本发明在度量用户相似性时，通过签到之间的时间贴近度，融合了签到在时间上的聚集和衰减影响，通过兴趣点之间的位置贴近度，融合了兴趣点在地理上的聚集和衰减影响，利用兴趣点签到频率，融合了兴趣点签到的频度/流行度，为兴趣点预测和推荐中基于用户的协同过滤方法，提供一种用户时空相似性度量方法。

具体技术方案如下：

兴趣点预测和推荐中的用户时空相似性度量方法，其步骤包括：

步骤一：预处理数据；

步骤二：度量时空同现模式相似性；

步骤三：度量用户时空相似性；

优选的，所述预处理数据的步骤包括：

步骤一：分组计数用户签到数据；

步骤二：形成签到频度方体CheckinCube；

优选的，所述度量时空同现模式相似性的步骤包括：

步骤一：投影(降维)签到频度方体CheckinCube，得到签到频度数组TimePoi；

步骤二：计算签到之间的时间贴近度TimeSimilarity(t,s)和兴趣点之间的位置贴近度LocationSimilarity(p,q)；

步骤三：判断数组TimePoi元素之间是否是一对时空同现模式；

步骤四：计算时空同现模式的相似性PatternSimilarity(TimePoi(t,p),TimePoi(s,q))；

优选的，所述度量用户时空相似性的步骤包括：

步骤一：选择(切片)签到频度方体CheckinCube，得到用户u的签到频度数组TimePoi^(u)；

步骤二：判断数组TimePoi^(u)和TimePoi^(v)元素之间是否是用户u和用户v的一对时空同现模式，并得到时空同现模式的相似性PatternSimilarity(TimePoi^(u)(t,p),TimePoi^(v)(s,q))；

步骤三：计算用户u和用户v的签到兴趣点的最相似时空同现模式及其相似性MaxPatternSimilarity(TimePoi^(u)(t,p),TimePoi^(v))和MaxPatternSimilarity(TimePoi^(v)(s,q),TimePoi^(u))；

步骤四：计算用户u和用户v的签到兴趣点的最相似时空同现模式的权重MaxPatternWeight(TimePoi^(u)(t,p),TimePoi^(v))和MaxPatternWeight(TimePoi^(v)(s,q),TimePoi^(u))；

步骤五：计算用户u和用户v的时空相似性UserSimilarity(u,v)，得到用户相似矩阵UserUser；

优选的，所述预处理数据，根据用户编号User_ID、签到时间Checkin_Time、兴趣点编号POI_ID，将用户签到数据分组计数，得到每个用户在某个时间对某个兴趣点的签到频度数据，形成一个包括用户、签到时间、兴趣点三个维度的签到频度方体CheckinCube，方体中的每个非零元素CheckinCube(u,t,p)＝i>0表示用户u在时间t对兴趣点p签到了i次；

优选的，所述度量时空同现模式相似性，将签到频度方体CheckinCube在签到时间维和兴趣点维进行投影(降维)，得到所有用户在某个时间对某个兴趣点的签到频度数据，形成一个包括签到时间、兴趣点两个维度的签到频度数组TimePoi，数组中的每个非零元素TimePoi(t,p)＝i>0表示所有用户在时间t对兴趣点p共计签到了i次。根据时间阈值tt(0<tt≤12)，计算两个签到时间t和s的时间贴近度TimeSimilarity(t,s)。根据距离阈值dt(dt>0)，计算两个兴趣点p和q的位置贴近度LocationSimilarity(p,q)。基于签到时间贴近度和兴趣点位置贴近度，判断两个非零元素(模式)TimePoi(t,p)和TimePoi(s,q)是否是一对时空同现模式。如果TimePoi(t,p)和TimePoi(s,q)是一对时空同现模式，计算它们的相似性PatternSimilarity(TimePoi(t,p),TimePoi(s,q))；

优选的，所述度量用户时空相似性，将签到频度方体CheckinCube在用户维进行选择(切片)，得到用户u在某个时间对某个兴趣点的签到频度数据，形成一个包括签到时间、兴趣点两个维度的用户u的签到频度数组TimePoi^(u)，数组中的每个非零元素TimePoi^(u)(t,p)＝i>0表示用户u在时间t对兴趣点p签到了i次。根据TimePoi^(u)(t,p)对应的元素(模式)TimePoi(t,p)和TimePoi^(v)(s,q)对应的元素(模式)TimePoi(s,q)是否是一对时空同现模式，判断两个元素(模式)TimePoi^(u)(t,p)和TimePoi^(v)(s,q)是否是用户u和用户v的一对时空同现模式。如果TimePoi^(u)(t,p)和TimePoi^(v)(s,q)是用户u和用户v的一对时空同现模式，计算它们的相似性PatternSimilarity(TimePoi^(u)(t,p),TimePoi^(v)(s,q))。根据用户u和用户v的时空同现模式及其相似性，计算用户u和用户v的签到兴趣点的最相似时空同现模式及其相似性MaxPatternSimilarity(TimePoi^(u)(t,p),TimePoi^(v))和MaxPatternSimilarity(TimePoi^(v)(s,q),TimePoi^(u))。根据用户u和用户v的兴趣点签到频率，计算用户u和用户v的签到兴趣点的最相似时空同现模式的权重MaxPatternWeight(TimePoi^(u)(t,p),TimePoi^(v))和MaxPatternWeight(TimePoi^(v)(s,q),TimePoi^(u))。最后，基于用户u和用户v的所有签到兴趣点的最相似时空同现模式的相似性和权重，计算用户u和用户v的时空相似性UserSimilarity(u,v)，得到用户相似矩阵UserUser。

有益效果：

本发明考虑了签到在时间上的聚集和衰减影响，定义签到之间的时间贴近度TimeSimilarity(t,s)，考虑了兴趣点在地理上的聚集和衰减影响，定义兴趣点之间的位置贴近度LocationSimilarity(p,q)，基于二者，定义时空同现模式及其相似性PatternSimilarity(TimePoi(t,p),TimePoi(s,q))以及用户u和用户v的时空同现模式及其相似性PatternSimilarity(TimePoi^(u)(t,p),TimePoi^(v)(s,q))，进而定义用户u和用户v的签到兴趣点的最相似时空同现模式及其相似性MaxPatternSimi larity(TimePoi^(u)(t,p),TimePoi^(v))和MaxPatternSimi larity(TimePoi^(v)(s,q),TimePoi^(u))，以及用户u和用户v的时空相似性UserSimilarity(u,v)，即如果两个用户在越接近的时间对距离越近的兴趣点签到越多，则他们就越相似。与公知技术相比，本发明在度量用户相似性时，融合了时间和地理的聚集和衰减影响，更符合用户签到数据的时空特点。同时，也在一定程度上，缓解了数据稀疏问题。

本发明考虑了兴趣点签到的频度/流行度，利用兴趣点签到频率，定义用户u和用户v的签到兴趣点的最相似时空同现模式的权重MaxPatternWeight(TimePoi^(u)(t,p),TimePoi^(v))和MaxPatternWeight(TimePoi^(v)(s,q),TimePoi^(u))，对用户u和用户v的签到兴趣点的最相似时空同现模式相似性MaxPatternSimi larity(TimePoi^(u)(t,p),TimePoi^(v))和MaxPatternSimi larity(TimePoi^(v)(s,q),TimePoi^(u))进行加权，进而定义用户u和用户v的时空相似性UserSimi larity(u,v)，即如果一个模式在两个用户的签到数据中频度/流行度越高，这个模式在这两个用户的相似性度量中就越重要。与公知技术相比，本发明在度量用户相似性时，融合了兴趣点签到的频度/流行度，更好地度量了兴趣点签到对用户的重要性和区分性。

总之，通过签到之间的时间贴近度，融合了时间的聚集和衰减影响，通过兴趣点之间的位置贴近度，融合了地理的聚集和衰减影响，反映了用户签到数据的时空特点，缓解了数据稀疏问题。利用兴趣点签到频率，融合了兴趣点签到的频度/流行度，反映了兴趣点签到对用户的重要性和区分性。为兴趣点预测和推荐中基于用户的协同过滤方法，提供一种用户时空相似性度量方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1：兴趣点预测和推荐中的用户时空相似性度量方法流程图；

图2：兴趣点预测和推荐中的用户时空相似性度量方法签到频度方体CheckinCube；

图3：兴趣点预测和推荐中的用户时空相似性度量方法用户相似矩阵UserUser。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一、预处理数据

根据用户编号User_ID、签到时间Checkin_Time、兴趣点编号POI_ID，将用户签到数据分组计数，得到每个用户在某个时间对某个兴趣点的签到频度数据，格式如下：

其中，Checkin_Time是按0-23小时提取的签到时间，Coordinate是兴趣点经纬度坐标，Checkin_Count是签到频度，例如，

1

22

1

102.8610096,24.83011851

30

表示“编号为1的用户，晚上22时在位于(102.8610096,24.83011851)的编号为1的兴趣点签到了30次”。

用户签到频度数据可以形成如图2所示的一个包括用户、签到时间、兴趣点三个维度的签到频度方体CheckinCube，方体中的每个非零元素CheckinCube(u,t,p)＝i>0表示用户u在时间t对兴趣点p签到了i次，其中u∈UserSet(用户集合)，t∈T＝{0,1,…,23}(签到时间集合)，p∈POISet(兴趣点集合)，p隐式附带其经纬度坐标。

二、度量时空同现模式相似性

(2.1)定义时空同现模式

将签到频度方体CheckinCube在签到时间维和兴趣点维进行投影(降维)，得到所有用户在某个时间对某个兴趣点的签到频度数据，形成一个包括签到时间、兴趣点两个维度的签到频度数组TimePoi，数组中的每个非零元素TimePoi(t,p)＝i>0表示所有用户在时间t对兴趣点p共计签到了i次，其中t∈T，p∈POISet。

给定时间阈值tt(0<tt≤12)，两个签到时间t和s的时间贴近度TimeSimilarity(t,s)定义为：

其中，|t-s|是签到时间t和s的差的绝对值。

给定距离阈值dt(dt>0)，两个兴趣点p和q的位置贴近度LocationSimilarity(p,q)定义为：

其中，Distance(p,q)是根据兴趣点p和q的经纬度坐标计算的p和q之间的距离。

数组TimePoi中的两个非零元素(模式)TimePoi(t,p)和TimePoi(s,q)是一对时空同现模式，当且仅当同时满足：

(2.2)度量时空同现模式相似性

如果数组TimePoi中的两个非零元素(模式)TimePoi(t,p)和TimePoi(s,q)是一对时空同现模式，则它们的相似性PatternSimilarity(TimePoi(t,p),TimePoi(s,q))定义为：

PatternSimilarity(TimePoi(t,p),TimePoi(s,q))

＝α×TimeSimilarity(t,s)+(1-α)×LocationSimilarity(p,q) (4)

其中，0≤α≤1是一个参数，用于调节签到时间贴近度和兴趣点位置贴近度的重要性，通常α＝0.5。

三、度量用户时空相似性

(3.1)度量用户的时空同现模式相似性

将签到频度方体CheckinCube在用户维进行选择(切片)，得到用户u在某个时间对某个兴趣点的签到频度数据，形成一个包括签到时间、兴趣点两个维度的用户u的签到频度数组TimePoi^(u)，数组中的每个非零元素TimePoi^(u)(t,p)＝i>0表示用户u在时间t对兴趣点p签到了i次，其中u∈UserSet，t∈T，p∈POISet。需要注意的是，数组TimePoi^(u)中的任意一个非零元素(模式)TimePoi^(u)(t,p)必定对应数组TimePoi中的一个非零元素(模式)TimePoi(t,p)。

给定两个用户u和v，如果数组TimePoi^(u)中TimePoi^(u)(t,p)对应的元素(模式)TimePoi(t,p)和数组TimePoi^(v)中TimePoi^(v)(s,q)对应的元素(模式)TimePoi(s,q)是一对时空同现模式，则称TimePoi^(u)(t,p)和TimePoi^(v)(s,q)为用户u和用户v的一对时空同现模式，它们的相似性PatternSimilarity(TimePoi^(u)(t,p),TimePoi^(v)(s,q))定义为：

PatternSimilarity(TimePoi^(u)(t,p),TimePoi^(v)(s,q))

＝PatternSimilarity(TimePoi(t,p),TimePoi(s,q)) (5)

(3.2)度量用户签到兴趣点的最相似时空同现模式相似性及权重

给定两个用户u和v，数组TimePoi^(u)中的非零元素(模式)TimePoi^(u)(t,p)关于数组TimePoi^(v)中非零元素(模式)的最相似时空同现模式集合MaxPatternSet(TimePoi^(u)(t,p),TimePoi^(v))定义为：

给定两个用户u和v，数组TimePoi^(u)中的非零元素(模式)

TimePoi^(u)(t,p)关于数组TimePoi^(v)中非零元素(模式)的最相似时空同现模式相似性MaxPatternSimilarity(TimePoi^(u)(t,p),TimePoi^(v))定义为：

给定用户u，数组TimePoi^(u)中的非零元素(模式)TimePoi^(u)(t,p)的权重weight^(u)(t,p)定义为：

给定两个用户u和v，数组TimePoi^(u)中的非零元素(模式)

TimePoi^(u)(t,p)关于数组TimePoi^(v)中非零元素(模式)的最相似时空同现模式的权重MaxPatternWeight(TimePoi^(u)(t,p),TimePoi^(v))定义为：

(3.3)度量用户时空相似性

给定两个用户u和v，他们的时空相似性UserSimilarity(u,v)定义为：

其中，

根据步骤一到三，可以得到如图3所示的一个用户相似矩阵UserUser，矩阵中的每个元素UserUser(u,v)＝a表示用户u和用户v的时空相似性为a，其中u,v∈UserSet，a≥0。

图1为本发明的技术流程，包括三个步骤：(1)预处理数据；(2)度量时空同现模式相似性；(3)度量用户时空相似性。

图2为预处理用户签到数据之后形成的用户签到频度方体CheckinCube，包括三个维度：(1)用户维UserSet(用户集合)；(2)签到时间维T＝{0,1,…,23}(签到时间集合)；(3)兴趣点维POISet(兴趣点集合)。方体中的每个非零元素CheckinCube(u,t,p)＝i>0表示用户u在时间t对兴趣点p签到了i次。

图3为本发明得到的用户相似矩阵UserUser，矩阵中的每个元素UserUser(u,v)＝a表示用户u和用户v的时空相似性为a，其中u,v∈UserSet(用户集合)，a≥0。

实施例：兴趣点预测和推荐中的用户时空相似性度量方法

假设用户签到数据如表1所示。

表1用户签到数据(部分)

User_ID	Checkin_Time(hour)	POI_ID	Coordinate(x,y)
				0	0	2	102.858617,24.82837548
0	7	4	102.8500432,24.83327369
				0	12	5	102.8504501,24.83473428
…	…	…	…
				1	10	0	102.8553877,24.83056643
1	13	1	102.8610096,24.83011851
				1	18	6	102.8587458,24.82941741
…	…	…	…
				2	7	1	102.8610096,24.83011851
2	12	6	102.8587458,24.82941741
				2	20	0	102.8553877,24.83056643
…	…	…	…
				3	10	0	102.8553877,24.83056643
3	13	3	102.8585419,24.82949531
				3	12	5	102.8504501,24.83473428
…	…	…	…

(1)预处理数据

根据用户编号User_ID、签到时间Checkin_Time、兴趣点编号POI_ID，将表1中的用户签到数据分组计数，得到每个用户在某个时间对某个兴趣点的签到频度数据，形成包括用户、签到时间、兴趣点三个维度的签到频度方体CheckinCube，方体中非零元素CheckinCube(u,t,p)＝i>0如表2所示。

表2 CheckinCube(u,t,p)

(2)度量时空同现模式相似性

将签到频度方体CheckinCube在签到时间维和兴趣点维进行投影(降维)，形成包括签到时间、兴趣点两个维度的签到频度数组TimePoi，数组中非零元素TimePoi(t,p)＝i>0如表3所示。

表3 TimePoi(t,p)

t	p	TimePoi(t,p)
			0	1	60
0	2	6
			0	3	30
0	4	5
			7	1	60
7	2	6
			7	3	30
7	4	5
			8	5	21
8	6	99
			10	0	38
12	5	32
			12	6	80
13	1	60
			13	2	5
13	3	30
			15	0	30
18	5	12
			18	6	92
20	0	68
			22	1	52

设时间阈值tt＝1.5(hour)，距离阈值dt＝0.5(km)，签到时间贴近度和兴趣点位置贴近度的调节参数α＝0.5，根据公式(1)-(4)，计算时空同现模式及其相似性如表4所示，其中省略了对称模式及其相似性，例如，表4给出了PatternSimilarity(TimePoi(0,1),TimPoi(0,2))＝0.690400，没有给出对称的PatternSimilarity(TimePoi(0,2),TimPoi(0,1))＝0.690400。

表4 PatternSimilarity(TimePoi(t,p),TimePoi(s,q))

(3)度量用户时空相似性

将签到频度方体CheckinCube在用户维进行选择(切片)，形成包括签到时间、兴趣点两个维度的用户u的签到频度数组TimePoi^(u)，数组中非零元素TimePoi^(u)(t,p)＝i>0如表5所示。

表5 TimePoi^(u)(t,p)和Weight^(u)(t,p)

根据公式(5)，可以通过查询表4，判断用户u的TimePoi^(u)(t,p)和用户v的TimePoi^(v)(s,q)是否是一对时空同现模式并得到时空同现模式的相似性。例如，用户0的TimePoi⁽⁰⁾(0,2)和用户1的TimePoi⁽¹⁾(7,1)不是一对时空同现模式，因为查询表4得知TimePoi(0,2)和TimePoi(7,1)不是一对时空同现模式。而用户0的TimePoi⁽⁰⁾(0,2)和用户1的TimePoi⁽¹⁾(0,1)是一对时空同现模式，其相似性为：

PatternSimilarity(TimePoi⁽⁰⁾(0,2)，TimPoi⁽¹⁾(0,1))

＝PatternSimilarity(TimePoi(0,2)，TimPoi(0,1))

＝PatternSimilarity(TimPoi(0,1)，TimePoi(0,2))

＝0.690400

根据公式(6)和(7)，计算用户u的TimePoi^(u)(t，p)关于用户v的TimePoi^(v)的最相似时空同现模式集合和最相似时空同现模式相似性。例如，用户0和用户1之间的最相似时空同现模式集合及模式相似性如表6所示。

表6用户0和用户1之间的MaxPatternSet、MaxPatternSimilarity、MaxPatternWeight

TimePoi⁽⁰⁾(t，p)	(0,2)	(0,4)	(7,2)	(7,4)	(8,5)
						MaxPatternSet	(0,1)		(7,1)
MaxPatternSimilarity	0.6904	0	0.6904	0	0
						MaxPatternWeight	0.083437	0.049505	0.083437	0.049505	0.207921
TimePoi⁽⁰⁾(t，p)	(8,6)	(12,5)	(12,6)	(13,2)	(18,5)
						MaxPatternSet	(8,6)		(12,6)	(13,1)
MaxPatternSimilarity	1	0	1	0.6904	0
						MaxPatternWeight	0.102189	0.09901	0.117997	0.076167	0.118812
TimePoi⁽⁰⁾(t，p)	(18,6)
						MaxPatternSet	(18,6)
MaxPatternSimilarity	1
						MaxPatternWeight	0.107716
TimePoi⁽¹⁾(t，p)	(0,1)	(7,1)	(8,6)	(10,0)	(12,6)
						MaxPatternSet	(0,2)	(7,2)	(8,6)		(12,6)
MaxPatternSimilarity	0.6904	0.6904	1	0	1
						MaxPatternWeight	0.083437	0.083437	0.102189	0.03125	0.117997
TimePoi⁽¹⁾(t，p)	(13,1)	(15,0)	(18,6)	(20,0)	(22,1)
						MaxPatternSet	(13,2)		(18,6)
MaxPatternSimilarity	0.6904	0	1	0	0
						MaxPatternWeight	0.076167	0.03125	0.107716	0.117188	0.117188

根据公式(8)，计算用户u的TimePoi^(u)(t，p)的权重weight^(u)(t，p)如表5所示。

根据公式(9)，计算用户u的TimePoi^(u)(t,p)关于用户v的TimePoi^(v)的最相似时空同现模式权重。例如，用户0和用户1之间的最相似时空同现模式权重如表6所示。

最后，根据公式(10)，计算用户u和用户v的时空相似性UserSimilarity(u,v)，得到用户相似矩阵UserUser如表7所示。

表7UserUser

UserSimilarity(u,v)	0	1	2	3
					0	1.000000	0.504908	0.534499	0.611408
1	0.504908	1.000000	0.968699	0.787693
					2	0.534499	0.968699	1.000000	0.682807
3	0.611408	0.787693	0.682807	1.000000

更进一步，基于时空相似用户，即可实现兴趣点预测和推荐中基于用户的协同过滤方法。例如，选取用户2的最相似用户1，估算用户2在时间t对兴趣点p的签到频度，得到：用户2除了在习惯的时间访问熟悉的兴趣点外，可以推荐他在时间10或15访问兴趣点0。

本发明提出一种用户时空相似性度量方法，通过签到时间贴近度和兴趣点位置贴近度，定义时空同现模式及其相似性，进而定义用户的时空同现模式及其相似性。通过用户的签到兴趣点的最相似时空同现模式及其相似性，以及基于兴趣点签到频率的权重，定义用户之间的时空相似性。更进一步，基于时空相似用户，即可实现兴趣点预测和推荐中基于用户的协同过滤方法。本发明在度量用户相似性时，通过签到之间的时间贴近度，融合了签到在时间上的聚集和衰减影响，通过兴趣点之间的位置贴近度，融合了兴趣点在地理上的聚集和衰减影响，利用兴趣点签到频率，融合了兴趣点签到的频度/流行度，为兴趣点预测和推荐中基于用户的协同过滤方法，提供一种用户时空相似性度量方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.兴趣点预测和推荐中的用户时空相似性度量方法，包括以下步骤：

步骤一：预处理数据；

步骤二：度量时空同现模式相似性；

步骤三：度量用户时空相似性。

2.根据权利要求1所述的兴趣点预测和推荐中的用户时空相似性度量方法，所述预处理数据的步骤包括：

步骤一：分组计数用户签到数据；

步骤二：形成签到频度方体CheckinCube。

3.根据权利要求1所述的兴趣点预测和推荐中的用户时空相似性度量方法，所述度量时空同现模式相似性的步骤包括：

步骤三：判断数组TimePoi元素之间是否是一对时空同现模式；

步骤四：计算时空同现模式的相似性PatternSimilarity(TimePoi(t,p),TimePoi(s,q))。

4.根据权利要求1所述的兴趣点预测和推荐中的用户时空相似性度量方法，所述度量用户时空相似性的步骤包括：

步骤五：计算用户u和用户v的时空相似性UserSimilarity(u,v)，得到用户相似矩阵UserUser。

5.根据权利要求1所述的兴趣点预测和推荐中的用户时空相似性度量方法，其特征在于：所述预处理数据，根据用户编号User_ID、签到时间Checkin_Time、兴趣点编号POI_ID，将用户签到数据分组计数，得到每个用户在某个时间对某个兴趣点的签到频度数据，形成一个包括用户、签到时间、兴趣点三个维度的签到频度方体CheckinCube，方体中的每个非零元素CheckinCube(u,t,p)＝i>0表示用户u在时间t对兴趣点p签到了i次。

6.根据权利要求1所述的兴趣点预测和推荐中的用户时空相似性度量方法，其特征在于：所述度量时空同现模式相似性，将签到频度方体CheckinCube在签到时间维和兴趣点维进行投影(降维)，得到所有用户在某个时间对某个兴趣点的签到频度数据，形成一个包括签到时间、兴趣点两个维度的签到频度数组TimePoi，数组中的每个非零元素TimePoi(t,p)＝i>0表示所有用户在时间t对兴趣点p共计签到了i次。根据时间阈值tt(0<tt≤12)，计算两个签到时间t和s的时间贴近度TimeSimilarity(t,s)。根据距离阈值dt(dt>0)，计算两个兴趣点p和q的位置贴近度LocationSimilarity(p,q)。基于签到时间贴近度和兴趣点位置贴近度，判断两个非零元素(模式)TimePoi(t,p)和TimePoi(s,q)是否是一对时空同现模式。如果TimePoi(t,p)和TimePoi(s,q)是一对时空同现模式，计算它们的相似性PatternSimilarity(TimePoi(t,p),TimePoi(s,q))。

7.根据权利要求1所述的兴趣点预测和推荐中的用户时空相似性度量方法，其特征在于：所述度量用户时空相似性，将签到频度方体CheckinCube在用户维进行选择(切片)，得到用户u在某个时间对某个兴趣点的签到频度数据，形成一个包括签到时间、兴趣点两个维度的用户u的签到频度数组TimePoi^(u)，数组中的每个非零元素TimePoi^(u)(t,p)＝i>0表示用户u在时间t对兴趣点p签到了i次。根据TimePoi^(u)(t,p)对应的元素(模式)TimePoi(t,p)和TimePoi^(v)(s,q)对应的元素(模式)TimePoi(s,q)是否是一对时空同现模式，判断两个元素(模式)TimePoi^(u)(t,p)和TimePoi^(v)(s,q)是否是用户u和用户v的一对时空同现模式。如果TimePoi^(u)(t,p)和TimePoi^(v)(s,q)是用户u和用户v的一对时空同现模式，计算它们的相似性PatternSimilarity(TimePoi^(u)(t,p),TimePoi^(v)(s,q))。根据用户u和用户v的时空同现模式及其相似性，计算用户u和用户v的签到兴趣点的最相似时空同现模式及其相似性MaxPatternSimilarity(TimePoi^(u)(t,p),TimePoi^(v))和MaxPatternSimilarity(TimePoi^(v)(s,q),TimePoi^(u))。根据用户u和用户v的兴趣点签到频率，计算用户u和用户v的签到兴趣点的最相似时空同现模式的权重MaxPatternWeight(TimePoi^(u)(t,p),TimePoi^(v))和MaxPatternWeight(TimePoi^(v)(s,q),TimePoi^(u))。最后，基于用户u和用户v的所有签到兴趣点的最相似时空同现模式的相似性和权重，计算用户u和用户v的时空相似性UserSimilarity(u,v)，得到用户相似矩阵UserUser。