CN114048391A - 一种基于地理格网的兴趣活动推荐方法 - Google Patents

一种基于地理格网的兴趣活动推荐方法 Download PDF

Info

Publication number
CN114048391A
CN114048391A CN202210034325.6A CN202210034325A CN114048391A CN 114048391 A CN114048391 A CN 114048391A CN 202210034325 A CN202210034325 A CN 202210034325A CN 114048391 A CN114048391 A CN 114048391A
Authority
CN
China
Prior art keywords
user
activity
time
preference
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210034325.6A
Other languages
English (en)
Other versions
CN114048391B (zh
Inventor
仇阿根
赵习枝
张志然
陶坤旺
张福浩
陈颂
陈才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Surveying and Mapping
Original Assignee
Chinese Academy of Surveying and Mapping
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Surveying and Mapping filed Critical Chinese Academy of Surveying and Mapping
Priority to CN202210034325.6A priority Critical patent/CN114048391B/zh
Publication of CN114048391A publication Critical patent/CN114048391A/zh
Application granted granted Critical
Publication of CN114048391B publication Critical patent/CN114048391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于地理格网的兴趣活动推荐方法,该方法包括将研究区域划分为规则格网,通过签到频率和偏好偏差比参数为每个用户建立个人兴趣格网区域,以此来推断用户的空间活动偏好;采用非负的张量分解方法捕获其他相似的用户活动偏好,协同建立用户的时间活动偏好;采用上下文感知的融合方法将空间活动偏好和时间活动偏好进行融合,共同确定向用户推荐的兴趣活动。该模型基于地理格网和张量分解方法改善了用户签到数据的稀疏性,对用户兴趣活动进行了定量分析,提高了兴趣活动推荐的精准度,使得推荐结果满足用户的个性化需求。

Description

一种基于地理格网的兴趣活动推荐方法
技术领域
本申请属于位置推荐技术领域,具体涉及一种基于地理格网的兴趣活动推荐方法。
背景技术
随着基于位置的社交网络(Location-based Social Network, LBSN)、移动端设备的快速发展,从积累的海量用户数据和签到数据中挖掘潜在的用户个人偏好、活动轨迹和生活模式成为位置服务的一个核心环节。位置推荐成为该环节的一个重要的技术手段。目前,由于数据稀疏性和冷启动等问题的影响,针对兴趣点的推荐算法得到的推荐结果可能准确度较低。同时,在很多情况下,人们通常不需要非常精确的位置。由此,兴趣活动推荐算法和应用的研究应运而生,目的是更好地理解用户的移动行为,预测用户可能参与的活动,进而满足用户个性化和智能化的服务需求。
用户的签到行为呈现出特定的时空分布模式,基于用户在位置社交网络的历史签到数据对用户的时空行为建模是具有挑战性的,主要表现在以下几个方面。首先,签到数据通常是高维且稀疏的,表现为用户-时间-位置-活动四个维度的四元组,直接从稀疏的高维数据中发现其规律性是复杂且困难的;其次,用户在社交媒体的签到行为受用户自身的影响,这与连续采样的用户活动数据不同,其签到行为不是等间隔的连续采样,在空间和时间上是复杂多变的;用户的签到活动和其所处的上下文情景相关,即用户的签到行为通常受其所在地点和时间的影响。因此,如何结合用户的时间和空间上下文挖掘用户活动偏好成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种基于地理格网的兴趣活动推荐方法,发现用户兴趣活动,提高推荐性能。利用地理格网和张量分解等技术,分别对用户的空间活动偏好和时间活动偏好建模,从而降低问题的复杂度。
一种基于地理格网的兴趣活动推荐方法,包括如下步骤:
基于地理格网构建用户空间活动偏好模型步骤S110:
将城市区域划分为若干个地理格网,映射用户签到信息,计算用户在每个格网的签到频率和类别偏好偏差比,获取用户的兴趣网格集合,推断用户在位置
Figure 615121DEST_PATH_IMAGE001
的空间活动偏好,计算用户的空间活动偏好分布,并利用所述空间活动偏好分布,计算空间活动偏好模型在格网上的推荐成功率,构建空间成功率矩阵;
利用非负张量分解方法构建用户时间活动偏好模型步骤S120:
根据用户签到记录构建一个用户-时间-类别的三维张量,张量中的元素表示用户在时间段
Figure 684708DEST_PATH_IMAGE002
选择活动
Figure 7105DEST_PATH_IMAGE003
签到的频率,根据所述三维张量,基于非负张量分解算法,获得恢复张量描述用户的时间活动偏好;根据张量分解结果,推断计算用户在当前时间下的活动偏好分布;基于时间活动偏好分布,计算时间活动偏好模型在格网上的推荐成功率,构建时间成功率矩阵;
时间偏好和空间偏好融合步骤S130:
推荐列表生成子步骤S131:根据成功率矩阵推断用户活动偏好,对比空间成功率矩阵和时间成功率矩阵中的元素值,选择值较高的模型结果作为最终的推荐结果。
可选的,所述基于地理格网构建用户空间活动偏好模型步骤S110包括如下子步骤:
用户签到信息映射子步骤S111:将城市区域划分为若干个大小相同的规则格网,将用户的签到信息映射到这些格网中,获得所在格网编号属性;
用户兴趣格网获取子步骤S112:
计算用户在每个格网的签到频率
Figure 820340DEST_PATH_IMAGE005
和类别偏好偏差比
Figure 364323DEST_PATH_IMAGE007
,使用签到频率
Figure 463866DEST_PATH_IMAGE005
和类别偏好偏差比
Figure 414505DEST_PATH_IMAGE007
来表征用户在格网的偏好度,通过设置频率阈值
Figure 641218DEST_PATH_IMAGE009
和偏好偏差比阈值
Figure 462543DEST_PATH_IMAGE011
筛选获得用户的兴趣格网集合,
其中,所述签到频率
Figure 732988DEST_PATH_IMAGE005
表示为用户
Figure 639764DEST_PATH_IMAGE012
Figure 374895DEST_PATH_IMAGE013
中的签到数量占总签到数量的比例,
Figure 175361DEST_PATH_IMAGE015
式中,
Figure 23231DEST_PATH_IMAGE017
表示用户
Figure 292669DEST_PATH_IMAGE012
Figure 985819DEST_PATH_IMAGE018
的签到数量,
Figure 109633DEST_PATH_IMAGE019
表示用户访问过的格网集合;
所述偏好偏差比
Figure 236726DEST_PATH_IMAGE007
用于衡量用户
Figure 852516DEST_PATH_IMAGE012
在格网
Figure 473990DEST_PATH_IMAGE013
中的类别偏好度,假设格网
Figure 124414DEST_PATH_IMAGE013
中共有
Figure 923874DEST_PATH_IMAGE021
个类别的POI,用户访问了其中
Figure 292538DEST_PATH_IMAGE022
个类别
Figure 452124DEST_PATH_IMAGE023
的POI,计算公式如下:
Figure 957055DEST_PATH_IMAGE025
式中,
Figure 417162DEST_PATH_IMAGE021
表示格网
Figure 7543DEST_PATH_IMAGE013
中存在的POI总类别数,
Figure 970820DEST_PATH_IMAGE027
表示用户在
Figure 392574DEST_PATH_IMAGE028
的签到次数占
Figure 737099DEST_PATH_IMAGE013
中总签到次数的比值,
Figure 611514DEST_PATH_IMAGE029
表示用户在签到类别的最大熵,最大熵假定用户在所有类别
Figure 316165DEST_PATH_IMAGE030
签到的可能性是相同的,
Figure 592426DEST_PATH_IMAGE032
表示用户
Figure 29223DEST_PATH_IMAGE012
在格网
Figure 968098DEST_PATH_IMAGE013
签到过的类别;
在计算每个格网的签到频率和偏好偏差比后,通过引入频率阈值
Figure 148544DEST_PATH_IMAGE009
和偏好偏差比阈值
Figure 872786DEST_PATH_IMAGE011
获得用户感兴趣的格网集合
Figure 480485DEST_PATH_IMAGE034
,格网集合
Figure 142541DEST_PATH_IMAGE034
形成的区域为用户感兴趣区域;
空间活动偏好计算子步骤S113:
在已知用户当前位置
Figure 126678DEST_PATH_IMAGE001
的情况下,利用空间邻近性评估格网
Figure 705427DEST_PATH_IMAGE035
Figure 484027DEST_PATH_IMAGE001
的影响,采用以下权重函数:
Figure 134845DEST_PATH_IMAGE036
式中,
Figure 657093DEST_PATH_IMAGE037
表示用户当前位置
Figure 90348DEST_PATH_IMAGE001
和格网
Figure 39850DEST_PATH_IMAGE035
的中心点的距离,
然后利用加权方法计算用户在
Figure 676498DEST_PATH_IMAGE001
对所有类别的活动偏好,假设用户
Figure 2438DEST_PATH_IMAGE012
Figure 290199DEST_PATH_IMAGE038
个兴趣格网
Figure 676181DEST_PATH_IMAGE039
,则用户
Figure 298662DEST_PATH_IMAGE012
在位置
Figure 162712DEST_PATH_IMAGE001
处的空间活动偏好为:
Figure 570560DEST_PATH_IMAGE041
式中,
Figure 861864DEST_PATH_IMAGE042
表示用户
Figure 473105DEST_PATH_IMAGE012
Figure 140847DEST_PATH_IMAGE013
内对
Figure 403201DEST_PATH_IMAGE028
的签到频率,
Figure 865406DEST_PATH_IMAGE003
表示所有的活动类别,用户在
Figure 465408DEST_PATH_IMAGE001
处对
Figure 936841DEST_PATH_IMAGE028
的空间活动偏好为用户在
Figure 53701DEST_PATH_IMAGE034
的签到偏好在
Figure 686808DEST_PATH_IMAGE001
处的地理影响力的和;
空间成功率矩阵构建子步骤S114:
基于空间活动偏好分布,计算空间活动偏好模型在格网上的推荐成功率,进而为每一个用户构建空间成功率矩阵
Figure 272641DEST_PATH_IMAGE044
,矩阵的每一行代表一个时间范围
Figure 282186DEST_PATH_IMAGE045
,每一列代表格网
Figure 253553DEST_PATH_IMAGE046
,利用签到记录,基于子步骤S113中的空间活动偏好的计算方法,计算空间活动偏好模型在格网上的推荐成功率。
可选的,空间成功率矩阵构建子步骤S114具体为:
为每一个用户构建空间成功率矩阵
Figure 323140DEST_PATH_IMAGE044
,初始化矩阵
Figure 629225DEST_PATH_IMAGE047
,将矩阵元素赋值为0,对于任意用户
Figure 442460DEST_PATH_IMAGE012
,依次从验证数据集中取出
Figure 268334DEST_PATH_IMAGE012
的签到
Figure 508822DEST_PATH_IMAGE048
表示签到记录,其中,
Figure 6931DEST_PATH_IMAGE001
表示经纬度
Figure 155015DEST_PATH_IMAGE049
Figure 100975DEST_PATH_IMAGE002
表示时间戳,
Figure 512365DEST_PATH_IMAGE003
表示活动类别
Figure 999234DEST_PATH_IMAGE050
Figure 278906DEST_PATH_IMAGE035
表示用户当前所在格网,基于子步骤S113中的空间活动偏好的计算方法,计算
Figure 954738DEST_PATH_IMAGE012
在当前位置
Figure 333766DEST_PATH_IMAGE001
对所有类别的空间偏好得分,依据得分从大到小对类别排序,得到得分最高的类别
Figure 603205DEST_PATH_IMAGE051
,当
Figure 296354DEST_PATH_IMAGE035
位于兴趣格网集合
Figure 216906DEST_PATH_IMAGE052
中时,如果
Figure 704519DEST_PATH_IMAGE051
等于
Figure 959789DEST_PATH_IMAGE003
,将
Figure 456629DEST_PATH_IMAGE053
中对相应元素
Figure 434949DEST_PATH_IMAGE054
增加1,
Figure 234409DEST_PATH_IMAGE002
表示
Figure 603074DEST_PATH_IMAGE053
的第
Figure 762660DEST_PATH_IMAGE002
行,
Figure 533169DEST_PATH_IMAGE035
表示第
Figure 219977DEST_PATH_IMAGE035
列,以此类推,计算所有用户的空间成功率矩阵。
可选的,所述利用非负张量分解方法构建用户时间活动偏好模型步骤S120具体包括:
三维张量构建子步骤S121:
根据用户签到记录构建一个用户-时间-活动的三维张量,表示为
Figure DEST_PATH_IMAGE056
,张量中的元素表示用户
Figure 403833DEST_PATH_IMAGE012
在时间段
Figure 117842DEST_PATH_IMAGE002
选择活动
Figure 742859DEST_PATH_IMAGE003
签到的次数;
用户时间活动偏好获取子步骤S122:
利用非负张量分解方法获得用户-时间-类别的偏好值,对于给定张量
Figure 398968DEST_PATH_IMAGE056
Figure 211066DEST_PATH_IMAGE057
中每个元素的值计算如下:
Figure 227302DEST_PATH_IMAGE059
式中,
Figure 441245DEST_PATH_IMAGE060
表示用户、时间、类别的因子矩阵,矩阵大小分别为
Figure 268256DEST_PATH_IMAGE061
Figure 833229DEST_PATH_IMAGE062
为潜在空间维数,控制分解过程中所涉及到的特征数量,
Figure 889041DEST_PATH_IMAGE063
分别为
Figure 223071DEST_PATH_IMAGE060
的元素,
在CP分解模型中将非负约束添加到基于最小二乘的分解算法中,获得了一个恢复张量来描述用户的时间活动偏好;
活动偏好推断子步骤S123:
基于张量分解结果推断计算用户在当前时间下的活动偏好,将
Figure 955403DEST_PATH_IMAGE057
从活动维度进行标准化:
Figure 7673DEST_PATH_IMAGE064
对于给定的用户
Figure 368640DEST_PATH_IMAGE012
和时间
Figure 557176DEST_PATH_IMAGE002
,所有类别偏好度量的总和被标准化为1,恢复张量中所有元素的取值范围为
Figure 194831DEST_PATH_IMAGE065
,标准化后的元素值
Figure 999976DEST_PATH_IMAGE067
视为用户
Figure 600853DEST_PATH_IMAGE012
在时间
Figure 34108DEST_PATH_IMAGE002
访问类别
Figure 249189DEST_PATH_IMAGE068
的概率,用户
Figure 853214DEST_PATH_IMAGE012
在时间
Figure 38208DEST_PATH_IMAGE002
的时间活动偏好表示为:
Figure 466915DEST_PATH_IMAGE070
时间成功率矩阵构建子步骤S124:
基于时间活动偏好分布,计算时间活动偏好模型在格网上的推荐成功率,进而构建时间成功率矩阵
Figure 728263DEST_PATH_IMAGE072
,矩阵的每一行代表一个时间范围
Figure 976842DEST_PATH_IMAGE073
,每一列代表格网
Figure 965527DEST_PATH_IMAGE074
,利用签到记录,基于子步骤S123中的时间活动偏好的计算方法,计算时间活动偏好模型在格网上的推荐成功率。
可选的,时间成功率矩阵构建子步骤S124具体为:
初始化矩阵
Figure 248741DEST_PATH_IMAGE076
,将矩阵元素赋值为0,在验证数据集中,对于任意用户
Figure 916876DEST_PATH_IMAGE012
,依次取出
Figure 652751DEST_PATH_IMAGE012
的签到记录,表示为
Figure DEST_PATH_IMAGE077
,其中,
Figure 913968DEST_PATH_IMAGE001
表示经纬度
Figure 927054DEST_PATH_IMAGE078
Figure 389259DEST_PATH_IMAGE002
表示时间戳,
Figure 737064DEST_PATH_IMAGE003
表示活动类别
Figure 942918DEST_PATH_IMAGE050
Figure 309046DEST_PATH_IMAGE035
表示用户当前所在格网,利用子步骤S123中的时间活动偏好的计算方法,计算
Figure 207732DEST_PATH_IMAGE012
在当前时间
Figure 246095DEST_PATH_IMAGE002
对所有类别的时间偏好得分,依据得分从大到小对类别排序,得到得分最高的类别
Figure DEST_PATH_IMAGE079
,当
Figure 334268DEST_PATH_IMAGE035
位于兴趣格网集合
Figure DEST_PATH_IMAGE081
中时,如果时间偏好模型预测出的
Figure 40055DEST_PATH_IMAGE079
等于
Figure 220894DEST_PATH_IMAGE003
,将
Figure 684237DEST_PATH_IMAGE076
中对相应元素
Figure 356527DEST_PATH_IMAGE082
增加1,
Figure 323346DEST_PATH_IMAGE002
表示
Figure 439200DEST_PATH_IMAGE076
的第
Figure 186576DEST_PATH_IMAGE002
行,
Figure 334661DEST_PATH_IMAGE035
表示第
Figure 733150DEST_PATH_IMAGE035
列,以此类推,计算所有用户的时间成功率矩阵。
可选的,在推荐列表生成子步骤S131之后,还具有
精度验证子步骤S132:
根据所述推荐列表,使用精确度对推荐模型的性能进行评估,对于测试数据集
Figure DEST_PATH_IMAGE083
,精确度的计算公式如下:
Figure 738015DEST_PATH_IMAGE084
式中,
Figure DEST_PATH_IMAGE085
表示推荐列表长度,
Figure 988999DEST_PATH_IMAGE086
表示用户在测试数据集中的一条签到记录,
Figure 878458DEST_PATH_IMAGE088
表示用户
Figure 944503DEST_PATH_IMAGE012
在时间
Figure 526794DEST_PATH_IMAGE002
和地点
Figure 285978DEST_PATH_IMAGE001
的得分最高的前k项(Top-k)活动组成的推荐列表,
Figure DEST_PATH_IMAGE089
表示测试数据集中的签到记录数。
可选的,本方法将用户签到数据集进行划分,将每个用户的签到历史记录按照签到时间排序,并按照一定的比例分别划分到训练数据集、验证数据集和测试数据集中,步骤S111、S112、S113、S121、S122和S123采用训练数据集进行模型构建,步骤S114和S124采用验证数据集进行成功率计算,步骤S131和S132使用测试数据集进行模型验证。
可选的,在三维张量构建子步骤S121中,三维张量的三个维度分别为用户维度、时间维度和活动维度,用户维度将每个用户表示为独立的一个维度,活动维度用POI的类别表示,时间维度表示为按照一定时间间隔划分的时间段。
可选的,在用户时间活动偏好获取子步骤S122中,张量分解参数包括潜在空间维度,所述潜在空间维数的大小影响张量分解时间和推荐精度。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行上述的基于地理格网的兴趣点活动推荐方法。
本发明分别考虑位置社交网络中用户签到活动的空间和时间特征,降低问题的复杂度。基于地理格网和张量分解方法改善用户签到数据的稀疏性,通过计算用户的空间和时间活动分布,根据时间分布的预测概率和空间分布的预测概率共同确定向用户推荐的兴趣活动,对用户兴趣区域进行了定量分析,提高了位置社交网络中兴趣活动推荐的准确性,使得推荐结果满足用户的个性化需求。
附图说明
图1根据本发明具体实施例的基于地理格网的兴趣活动推荐方法的流程图;
图2是根据本发明具体实施例的基于地理格网的兴趣活动推荐方法的具体的流程图;
图3是根据本发明具体实施例在NCP(NonnegativeCandecamp/Parafac)模型中不同潜在维数下的推荐精度;
图4是根据本发明具体实施例的基于NCP分解模型的用户时间活动偏好计算的示例。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明在于:利用位置社交网络中用户的签到历史记录对用户的签到活动进行建模,提出个性化城市兴趣活动推荐方法。该方法基于地理格网将用户对城市区域的地理偏好和时间偏好相融合,分析用户在城市签到的时空行为,推荐更合适的兴趣活动给目标用户。
参见图1示出了基于地理格网的兴趣活动推荐方法的流程图,而图2,示出了该推荐方法的具体的流程图。
一种基于地理格网的兴趣活动推荐方法,包括如下步骤:
基于地理格网构建用户空间活动偏好模型步骤S110:
将城市区域划分为若干个地理格网,映射用户签到信息,计算用户在每个格网的签到频率和类别偏好偏差比,获取用户的兴趣网格集合,推断用户在位置
Figure 572603DEST_PATH_IMAGE001
的空间活动偏好,计算用户的空间活动偏好分布,并利用所述空间活动偏好分布,计算空间活动偏好模型在格网上的推荐成功率,构建空间成功率矩阵。
具体的,该步骤S110可以包括如下子步骤:
用户签到信息映射子步骤S111:将城市区域划分为若干个大小相同的规则格网,将用户的签到信息映射到这些格网中,获得所在格网编号属性。
具体的,获得研究区域的最大、最小经度和纬度值,按照
Figure 102942DEST_PATH_IMAGE090
米间隔将研究区域划分为若干个大小相同的规则格网,并对所有格网进行编号,编号从0开始。获取用户的任意一条签到记录,将签到位置匹配到格网中,判断签到点所在格网及其编号
Figure DEST_PATH_IMAGE091
实验数据采用Foursquare数据,空间范围从(40.54085247,-74.28476645)到(40.99833172,-73.6738252)。所述签到记录表示为
Figure 200342DEST_PATH_IMAGE092
,其中,
Figure DEST_PATH_IMAGE093
表示用户编号,
Figure 675186DEST_PATH_IMAGE094
表示POI编号,
Figure DEST_PATH_IMAGE095
表示纬度,
Figure 280348DEST_PATH_IMAGE096
表示经度,
Figure DEST_PATH_IMAGE097
表示签到时间,
Figure 524248DEST_PATH_IMAGE098
表示POI类别。给签到记录添加
Figure 261391DEST_PATH_IMAGE091
属性,则签到记录表示为
Figure 754689DEST_PATH_IMAGE099
具体的,Foursquare数据中记录了纽约的用户从2012年4月到2013年2月的签到记录,为了缓解数据稀疏性的影响,移除了签到次数少于10次的用户和被访问次数少于10次的兴趣点。经过数据预处理,得到的Foursquare数据集共有1083个用户,38333个兴趣点,总签到次数为227428。兴趣点分为9个大类,215个子类,本发明采用子类别作为活动类别。
本发明可以将用户签到数据集进行划分,将每个用户的签到历史记录按照签到时间排序,并按照一定的比例,例如8:1:1,分别划分到训练数据集、验证数据集和测试数据集中。
用户兴趣格网获取子步骤S112:
计算用户在每个格网的签到频率
Figure 789641DEST_PATH_IMAGE101
和类别偏好偏差比
Figure 936982DEST_PATH_IMAGE103
,使用签到频率
Figure 766398DEST_PATH_IMAGE101
和类别偏好偏差比
Figure 746992DEST_PATH_IMAGE103
来表征用户在格网的偏好度,通过设置频率阈值
Figure 585635DEST_PATH_IMAGE105
和偏好偏差比阈值
Figure 820438DEST_PATH_IMAGE107
筛选获得用户的兴趣格网集合。
首先,用户在格网内签到频率是格网欢迎程度的一个直接评估指标,一个区域被签到次数越多,说明该区域内的兴趣点对用户越具有吸引力。同时,由于用户在经常签到的区域中通常只访问其中的几个类别,而不是所有类别,说明用户在格网的签到具有多样性。
因此,本发明主要通过签到频率
Figure 86335DEST_PATH_IMAGE101
和类别偏好偏差比
Figure 288646DEST_PATH_IMAGE103
来评估用户在网格的偏好度,
签到频率
Figure 196559DEST_PATH_IMAGE101
表示为用户
Figure 784404DEST_PATH_IMAGE012
Figure 486781DEST_PATH_IMAGE013
中的签到数量占总签到数量的比例,
Figure 910809DEST_PATH_IMAGE109
式中,
Figure 356834DEST_PATH_IMAGE111
表示用户
Figure 566229DEST_PATH_IMAGE012
Figure 173928DEST_PATH_IMAGE018
的签到数量,
Figure 350832DEST_PATH_IMAGE019
表示用户访问过的格网集合;
偏好偏差比
Figure 69389DEST_PATH_IMAGE103
用于衡量用户
Figure 900335DEST_PATH_IMAGE012
在格网
Figure 678935DEST_PATH_IMAGE013
中的类别偏好度,假设格网
Figure 343135DEST_PATH_IMAGE013
中共有
Figure 865383DEST_PATH_IMAGE112
个类别的POI(Pointof Interest),用户访问了其中
Figure 19677DEST_PATH_IMAGE022
个类别
Figure 93812DEST_PATH_IMAGE023
的POI,偏好偏差比
Figure 432259DEST_PATH_IMAGE103
衡量了
Figure 758198DEST_PATH_IMAGE012
Figure 45960DEST_PATH_IMAGE018
的签到类别分布熵
Figure DEST_PATH_IMAGE113
和类别分布最大熵之间的分数差,计算公式如下:
Figure DEST_PATH_IMAGE115
式中,
Figure 244991DEST_PATH_IMAGE117
表示格网
Figure 883783DEST_PATH_IMAGE013
中存在的POI总类别数,
Figure 339646DEST_PATH_IMAGE119
表示用户在
Figure 357280DEST_PATH_IMAGE028
的签到次数占
Figure 38797DEST_PATH_IMAGE013
中总签到次数的比值,
Figure 774672DEST_PATH_IMAGE029
表示用户在签到类别的最大熵,最大熵假定用户在所有类别
Figure 583359DEST_PATH_IMAGE030
签到的可能性是相同的,
Figure 189921DEST_PATH_IMAGE121
表示用户
Figure 307919DEST_PATH_IMAGE012
在格网
Figure 531090DEST_PATH_IMAGE013
签到过的类别。
在计算每个格网的签到频率和偏好偏差比后,通过引入频率阈值
Figure 110844DEST_PATH_IMAGE105
和偏好偏差比阈值
Figure 103071DEST_PATH_IMAGE107
获得用户感兴趣的格网集合
Figure 126391DEST_PATH_IMAGE122
,格网集合
Figure 571279DEST_PATH_IMAGE122
形成的区域为用户感兴趣区域。
获取用户感兴趣区域的具体方法为:首先计算用户在所有区域的签到数量,获得用户签到所在的格网集合
Figure DEST_PATH_IMAGE123
,然后依次扫描用户访问的格网
Figure 925031DEST_PATH_IMAGE124
,计算签到频率
Figure DEST_PATH_IMAGE125
,如果该格网是用户频繁访问的格网(即签到频率大于或等于阈值
Figure 630819DEST_PATH_IMAGE126
),计算偏好偏差比
Figure 811658DEST_PATH_IMAGE127
;如果
Figure 743841DEST_PATH_IMAGE127
大于或等于
Figure 416131DEST_PATH_IMAGE128
,则
Figure 382950DEST_PATH_IMAGE129
将作为用户的兴趣格网,加入到兴趣格网集合
Figure 233226DEST_PATH_IMAGE130
中;依次遍历用户所有的签到格网,得到用户的兴趣格网集合
Figure 918285DEST_PATH_IMAGE130
Figure 394266DEST_PATH_IMAGE131
决定了用户在格网的活跃度,
Figure 215591DEST_PATH_IMAGE132
表示用户在格网中的活动偏好偏差度。
Figure 882DEST_PATH_IMAGE131
Figure 704396DEST_PATH_IMAGE132
值越大,
Figure 593855DEST_PATH_IMAGE130
集合越小。
空间活动偏好计算子步骤S113:
基于兴趣格网集合
Figure 659900DEST_PATH_IMAGE130
推断用户在当前位置的空间活动偏好。在已知用户当前位置
Figure 976611DEST_PATH_IMAGE001
的情况下,首先计算集合中的单个格网的影响,即利用空间邻近性评估格网
Figure 246050DEST_PATH_IMAGE035
Figure 939199DEST_PATH_IMAGE001
的影响,然后利用加权方法计算所有格网的活动偏好。
具体的,在已知用户当前位置
Figure 594172DEST_PATH_IMAGE001
的情况下,利用空间邻近性评估格网
Figure 347364DEST_PATH_IMAGE035
Figure 605563DEST_PATH_IMAGE001
的影响,根据已有研究得出的结论,采用以下权重函数:
Figure 836825DEST_PATH_IMAGE036
式中,
Figure 611883DEST_PATH_IMAGE037
表示用户当前位置
Figure 535976DEST_PATH_IMAGE001
和格网
Figure 780007DEST_PATH_IMAGE035
的中心点的距离,距离越远,
Figure 611697DEST_PATH_IMAGE133
值越小,表明格网对用户的空间吸引力越小。
然后利用加权方法计算用户在
Figure 116627DEST_PATH_IMAGE001
对所有类别的活动偏好,假设用户
Figure 336256DEST_PATH_IMAGE012
Figure 192217DEST_PATH_IMAGE038
个兴趣格网
Figure 139182DEST_PATH_IMAGE134
,则用户
Figure 764198DEST_PATH_IMAGE012
在位置
Figure 889149DEST_PATH_IMAGE001
处的空间活动偏好为:
Figure 966826DEST_PATH_IMAGE135
式中,
Figure 484527DEST_PATH_IMAGE136
表示用户
Figure 964050DEST_PATH_IMAGE012
Figure 197585DEST_PATH_IMAGE013
内对
Figure 887192DEST_PATH_IMAGE028
的签到频率,
Figure 802058DEST_PATH_IMAGE003
表示所有的活动类别,用户在
Figure 778498DEST_PATH_IMAGE001
处对
Figure 386197DEST_PATH_IMAGE028
的空间活动偏好为用户在
Figure 563100DEST_PATH_IMAGE137
的签到偏好在
Figure 281658DEST_PATH_IMAGE001
处的地理影响力的和。
空间成功率矩阵构建子步骤S114:
基于所述空间活动偏好分布,使用验证数据集计算空间活动偏好模型在格网上的推荐成功率,进而为每一个用户构建空间成功率矩阵
Figure 611139DEST_PATH_IMAGE138
,矩阵的每一行代表一个时间范围
Figure 124160DEST_PATH_IMAGE045
,每一列代表格网
Figure 788359DEST_PATH_IMAGE046
,利用验证集中的签到记录,基于子步骤S113中的空间活动偏好的计算方法,计算空间活动偏好模型在格网上的推荐成功率。
具体的,用
Figure 310608DEST_PATH_IMAGE139
表示用户
Figure 993131DEST_PATH_IMAGE012
的空间成功率矩阵,矩阵的每一行代表一个时间戳
Figure 942632DEST_PATH_IMAGE002
,每一列代表格网
Figure 500652DEST_PATH_IMAGE140
。考虑到用户签到点在每日签到、工作日和非工作日签到的周期性,将时间按照1小时为间隔,将每天划分为24个时间段,将每星期划分为168个时间间隔,每个时间间隔表示一个时间戳
Figure 951225DEST_PATH_IMAGE002
。给定时间
Figure 114353DEST_PATH_IMAGE141
Figure 110122DEST_PATH_IMAGE002
的计算方式见下式:
Figure 624280DEST_PATH_IMAGE142
式中,
Figure DEST_PATH_IMAGE143
表示对应的星期,分别用
Figure 816227DEST_PATH_IMAGE144
表示星期一到星期日,
Figure DEST_PATH_IMAGE145
表示小时。例如,时间2012-04-23 07:10:18,
Figure 667816DEST_PATH_IMAGE143
为1,
Figure 349333DEST_PATH_IMAGE145
为7。
首先初始化矩阵
Figure 85208DEST_PATH_IMAGE146
,将矩阵元素赋值为0。在验证数据集中,对于任意用户
Figure 362736DEST_PATH_IMAGE012
,依次取出
Figure 500457DEST_PATH_IMAGE012
的签到,表示为
Figure DEST_PATH_IMAGE147
,为了便于表达,用
Figure 821716DEST_PATH_IMAGE148
表示签到记录(其中,
Figure 153210DEST_PATH_IMAGE001
表示经纬度
Figure DEST_PATH_IMAGE149
Figure 218117DEST_PATH_IMAGE002
表示时间戳,根据
Figure 210344DEST_PATH_IMAGE141
计算得到;
Figure 718817DEST_PATH_IMAGE003
表示活动类别
Figure 429284DEST_PATH_IMAGE150
Figure 563462DEST_PATH_IMAGE035
表示用户当前所在格网)。基于子步骤S113中的空间活动偏好的计算方法,计算
Figure 410196DEST_PATH_IMAGE012
在当前位置
Figure 856614DEST_PATH_IMAGE001
对所有类别的空间偏好得分,依据得分从大到小对类别排序,得到得分最高的类别
Figure DEST_PATH_IMAGE151
,当
Figure 382273DEST_PATH_IMAGE035
位于兴趣格网集合
Figure 195508DEST_PATH_IMAGE152
中时,如果
Figure 37693DEST_PATH_IMAGE151
等于
Figure 12603DEST_PATH_IMAGE003
,将
Figure DEST_PATH_IMAGE153
中对相应元素
Figure 556717DEST_PATH_IMAGE154
增加1,
Figure 16386DEST_PATH_IMAGE002
表示
Figure 103290DEST_PATH_IMAGE153
的第
Figure 373735DEST_PATH_IMAGE002
行,
Figure 280511DEST_PATH_IMAGE035
表示第
Figure 310915DEST_PATH_IMAGE035
列,以此类推,计算所有用户的空间成功率矩阵。
利用非负张量分解方法构建用户时间活动偏好模型步骤S120:
根据用户签到记录构建一个用户-时间-类别的三维张量,张量中的元素表示用户在时间段
Figure 986747DEST_PATH_IMAGE002
选择活动
Figure 693672DEST_PATH_IMAGE003
签到的频率,根据所述三维张量,基于非负张量分解算法,获得恢复张量描述用户的时间活动偏好;根据所述张量分解结果,推断用户在当前时间下的活动偏好分布;基于时间活动偏好分布,计算时间活动偏好模型在格网上的推荐成功率,进而构建时间成功率矩阵。
具体的,包括如下子步骤:
三维张量构建子步骤S121:
根据用户签到记录构建一个用户-时间-活动的三维张量,表示为
Figure 87744DEST_PATH_IMAGE156
,在时间维度,考虑到用户签到点在每日签到、工作日和非工作日签到的周期性,将时间按照1小时为间隔,将每天划分为24个时间段,将每星期划分为168个时间间隔。在活动维度,采用POI的251个子类别表示用户活动。本实施例中共有1083个有效用户,215个类别。因此,张量表示为
Figure DEST_PATH_IMAGE157
。张量中的元素表示用户
Figure 360987DEST_PATH_IMAGE012
在时间段
Figure 547117DEST_PATH_IMAGE002
选择活动
Figure 34731DEST_PATH_IMAGE003
签到的次数,若用户未在时间段
Figure 791465DEST_PATH_IMAGE158
访问过活动
Figure DEST_PATH_IMAGE159
,则
Figure DEST_PATH_IMAGE161
为0。张量分解的目的是,将
Figure 85043DEST_PATH_IMAGE162
中的0值通过分解算法均赋予一定的值。
因此,该子步骤中,三维张量的三个维度分别为用户维度、时间维度和活动维度,用户维度将每个用户表示为一个维度,活动维度用POI的类别表示,时间维度表示为按照一定时间间隔划分的时间段。
用户时间活动偏好获取子步骤S122:
由于用户签到概率不可能为负值,因此恢复张量中的负值对于用户偏好来说是没有意义的,因此采用非负CP分解模型将构建的张量分解成三个一阶张量和。
利用非负张量分解方法获得用户-时间-类别的偏好值,对于给定张量
Figure 374948DEST_PATH_IMAGE156
Figure 33462DEST_PATH_IMAGE162
中每个元素的值计算如下:
Figure DEST_PATH_IMAGE163
式中,
Figure 995602DEST_PATH_IMAGE060
表示用户、时间、类别的因子矩阵,矩阵大小分别为
Figure 905921DEST_PATH_IMAGE061
Figure 410851DEST_PATH_IMAGE062
为潜在空间维数,控制分解过程中所涉及到的特征数量,
Figure 630480DEST_PATH_IMAGE063
分别为
Figure 220861DEST_PATH_IMAGE060
的元素。
在CP分解模型中将非负约束添加到基于最小二乘的分解算法中,获得了一个恢复张量来描述用户的时间活动偏好。
优选的,CP分解(CANDECOMP/PARAFAC)将张量分解为三个因子矩阵(即用户、时间和类别因子矩阵),并使用交替最小二乘法优化张量
Figure 436335DEST_PATH_IMAGE162
与原始
Figure 326931DEST_PATH_IMAGE164
张量之间的损失函数。
张量分解参数包括潜在空间维度,所述潜在空间维数会显著影响推荐性能,具体为影响张量分解时间和推荐精度。本实施例还考虑了潜在空间维数对推荐精度的影响。如图3给出了潜在空间维数从8到128的变化过程中推荐性能的变化。可以看出,维数越大,推荐性能越好,但增长速度逐渐变缓慢。
在一个示例中,按照上述的模型构建思路得到还原后的张量,可以利用Python的Tensorly开源代码包来完成非负张量分解。其中,Tensorly是一个可以执行张量分解、张量学习和张量代数的开放源代码包,其提供的non_negative_parafac函数可以实现NCP分解。
活动偏好推断子步骤S123:
基于张量分解结果推断用户在当前时间下的活动偏好。为了推断用户
Figure 451882DEST_PATH_IMAGE012
在时间
Figure 795138DEST_PATH_IMAGE002
的类别偏好,即用户在
Figure 781680DEST_PATH_IMAGE002
时刻访问类别
Figure 526782DEST_PATH_IMAGE003
的可能性,将
Figure 88214DEST_PATH_IMAGE162
从活动维度进行标准化:
Figure DEST_PATH_IMAGE165
因此,对于给定的用户
Figure 495930DEST_PATH_IMAGE012
和时间
Figure 676376DEST_PATH_IMAGE002
,所有类别偏好度量的总和被标准化为1,恢复张量中所有元素的取值范围为
Figure 135039DEST_PATH_IMAGE065
,标准化使得时间偏好与空间偏好能够融合,标准化后的元素值
Figure DEST_PATH_IMAGE167
视为用户
Figure 352525DEST_PATH_IMAGE012
在时间
Figure 873636DEST_PATH_IMAGE002
访问类别
Figure 982406DEST_PATH_IMAGE068
的概率,用户
Figure 436521DEST_PATH_IMAGE012
在时间
Figure 869250DEST_PATH_IMAGE002
的时间活动偏好表示为:
Figure 143237DEST_PATH_IMAGE168
如图4示出了基于NCP分解模型的用户时间活动偏好计算示例,显示了用户
Figure 790119DEST_PATH_IMAGE012
在任意时间段
Figure 833161DEST_PATH_IMAGE002
内访问活动
Figure 658029DEST_PATH_IMAGE003
的概率。
时间成功率矩阵构建子步骤S124:
基于所述时间活动偏好分布,使用验证数据集计算时间活动偏好模型在格网上的推荐成功率,进而构建时间成功率矩阵
Figure 684891DEST_PATH_IMAGE170
,矩阵的每一行代表一个时间范围
Figure 135464DEST_PATH_IMAGE073
,每一列代表格网
Figure 298592DEST_PATH_IMAGE074
,利用验证集中的签到记录,基于子步骤S123中的时间活动偏好的计算方法,计算时间活动偏好模型在格网上的推荐成功率。
Figure 58475DEST_PATH_IMAGE172
表示用户
Figure 41475DEST_PATH_IMAGE012
的时间成功率矩阵。同S114中所述
Figure DEST_PATH_IMAGE173
,矩阵的每一行代表一个时间戳
Figure 499001DEST_PATH_IMAGE002
,每一列代表格网
Figure 923160DEST_PATH_IMAGE074
首先初始化矩阵
Figure 214464DEST_PATH_IMAGE172
,将矩阵元素赋值为0,在验证数据集中,对于任意用户
Figure 74973DEST_PATH_IMAGE012
,依次取出
Figure 742714DEST_PATH_IMAGE012
的签到记录,表示为
Figure 460528DEST_PATH_IMAGE077
(其中,
Figure 47367DEST_PATH_IMAGE001
表示经纬度
Figure 270538DEST_PATH_IMAGE078
Figure 617337DEST_PATH_IMAGE002
表示时间戳;
Figure 609564DEST_PATH_IMAGE003
表示活动类别
Figure 367304DEST_PATH_IMAGE050
Figure 77771DEST_PATH_IMAGE035
表示用户当前所在格网)。利用子步骤S123中的时间活动偏好的计算方法,计算
Figure 461217DEST_PATH_IMAGE012
在当前时间
Figure 307950DEST_PATH_IMAGE002
对所有类别的时间偏好得分,依据得分从大到小对类别排序,得到得分最高的类别
Figure 502171DEST_PATH_IMAGE079
。当
Figure 434355DEST_PATH_IMAGE035
位于兴趣格网集合
Figure 122957DEST_PATH_IMAGE174
中时,如果时间偏好模型预测出的
Figure 620934DEST_PATH_IMAGE079
等于
Figure 861422DEST_PATH_IMAGE003
,将
Figure 405536DEST_PATH_IMAGE172
中对相应元素
Figure 756883DEST_PATH_IMAGE082
增加1,
Figure 955040DEST_PATH_IMAGE002
表示
Figure 366429DEST_PATH_IMAGE172
的第
Figure 397839DEST_PATH_IMAGE002
行,
Figure 631506DEST_PATH_IMAGE035
表示第
Figure 104075DEST_PATH_IMAGE035
列,以此类推,计算所有用户的时间成功率矩阵。
时间偏好和空间偏好融合步骤S130:
在给定用户的空间和时间上下文的情况下,需要采用一种融合方式将时间和空间活动偏好进行融合,线性加权、相乘等方法是常用的融合方式。然而,由于空间和时间模型的性能随时间和地点的变化而变化,难以根据用户上下文动态地分配这两个权重。
推荐列表生成子步骤S131:根据成功率矩阵推断用户活动偏好,对比空间成功率矩阵和时间成功率矩阵中的元素值,选择值较高的模型结果作为最终的推荐结果。
具体的,在测试数据集中,依次取出用户签到记录
Figure 14263DEST_PATH_IMAGE077
,做如下判断:首先对于给定用户
Figure 408335DEST_PATH_IMAGE012
及其上下文(即时间
Figure 475386DEST_PATH_IMAGE002
和位置
Figure 271303DEST_PATH_IMAGE001
)。对比
Figure 883550DEST_PATH_IMAGE175
Figure 764919DEST_PATH_IMAGE177
的大小,选择值较高的模型作为最终偏好。如果两者相等时,采用空间活动偏好模型预测出的结果。
实验结果表明,空间活动偏好模型能更好捕捉用户的活动偏好。
进一步的,本发明还通过实验对本发明的基于地理格网的兴趣活动推荐方法进行了精确度验证。
精度验证子步骤S132:
根据所述推荐列表,使用精确度对推荐模型的性能进行评估,对于测试数据集
Figure 137125DEST_PATH_IMAGE178
,精确度的计算公式如下:
Figure DEST_PATH_IMAGE179
式中,
Figure 381025DEST_PATH_IMAGE180
表示推荐列表长度,
Figure DEST_PATH_IMAGE181
表示用户在测试集中的一条签到记录,
Figure 150791DEST_PATH_IMAGE182
表示用户
Figure 253876DEST_PATH_IMAGE012
在时间
Figure 413462DEST_PATH_IMAGE002
和地点
Figure 183972DEST_PATH_IMAGE001
的得分最高的前k项(Top-k)活动组成的推荐列表,
Figure DEST_PATH_IMAGE183
表示测试集中的签到记录数。
本实验还考虑到了推荐数量对精确度的影响,表1给出了推荐数量为时1、5和10时,几种推荐方法推荐精确度的变化。所述对比方法包括MFT(时间段内最频繁访问的活动)、CP(CP分解)、NCP(非负的CP分解)、MFA(用户访问最频繁的活动)、SPM(空间偏好模型)、STUAP(基于地理格网的兴趣活动推荐方法)。可以看出,在推荐数量相同的情况下,本发明的兴趣活动推荐方法精确度最高。
表1推荐性能对比实验
Figure 888754DEST_PATH_IMAGE184
本发明的实验数据集包括训练集、验证集和测试集,步骤S111、S112、S113、S121、S122和S123采用训练数据集进行模型构建,步骤S114和S124采用验证数据集进行成功率计算,步骤S131和S132使用测试数据集进行模型验证。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的基于地理格网的兴趣点活动推荐方法。
综上,本发明分别考虑位置社交网络中用户签到活动的空间和时间特征,降低问题的复杂度。基于地理格网和张量分解方法改善用户签到数据的稀疏性,通过计算用户的空间和时间活动分布,根据时间分布的预测概率和空间分布的预测概率共同确定向用户推荐的兴趣活动,对用户兴趣区域进行了定量分析,提高了位置社交网络中兴趣活动推荐的准确性,使得推荐结果满足用户的个性化需求。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (10)

1.一种基于地理格网的兴趣活动推荐方法,包括如下步骤:
基于地理格网构建用户空间活动偏好模型步骤S110:
将城市区域划分为若干个地理格网,映射用户签到信息,计算用户在每个格网的签到频率和类别偏好偏差比,获取用户的兴趣网格集合,推断用户在位置
Figure 542874DEST_PATH_IMAGE001
的空间活动偏好,计算用户的空间活动偏好分布,并利用所述空间活动偏好分布,计算空间活动偏好模型在格网上的推荐成功率,构建空间成功率矩阵;
利用非负张量分解方法构建用户时间活动偏好模型步骤S120:
根据用户签到记录构建用户-时间-类别的三维张量,张量中的元素表示用户在时间段
Figure 991172DEST_PATH_IMAGE002
选择活动
Figure 302068DEST_PATH_IMAGE003
签到的频率,根据所述三维张量,基于非负张量分解算法,获得恢复张量描述用户的时间活动偏好;根据张量分解结果,推断计算用户在当前时间下的活动偏好分布;基于时间活动偏好分布,计算时间活动偏好模型在格网上的推荐成功率,构建时间成功率矩阵;
时间偏好和空间偏好融合步骤S130:
推荐列表生成子步骤S131:根据成功率矩阵推断用户活动偏好,对比空间成功率矩阵和时间成功率矩阵中的元素值,选择值较高的模型结果作为最终的推荐结果。
2.根据权利要求1所述的兴趣活动推荐方法,其特征在于:
所述基于地理格网构建用户空间活动偏好模型步骤S110包括如下子步骤:
用户签到信息映射子步骤S111:将城市区域划分为若干个大小相同的规则格网,将用户的签到信息映射到这些格网中,获得所在格网编号属性;
用户兴趣格网获取子步骤S112:
计算用户在每个格网的签到频率
Figure 494015DEST_PATH_IMAGE005
和类别偏好偏差比
Figure 842475DEST_PATH_IMAGE007
,使用所述签到频率
Figure 196096DEST_PATH_IMAGE005
和所述类别偏好偏差比
Figure 259867DEST_PATH_IMAGE007
来表征用户在格网的偏好度,通过设置频率阈值
Figure 989926DEST_PATH_IMAGE009
和偏好偏差比阈值
Figure 189963DEST_PATH_IMAGE011
筛选获得用户的兴趣格网集合,
其中,所述签到频率
Figure 714485DEST_PATH_IMAGE005
表示为用户
Figure 999973DEST_PATH_IMAGE012
Figure 268143DEST_PATH_IMAGE013
中的签到数量占总签到数量的比例,
Figure 588266DEST_PATH_IMAGE015
式中,
Figure 283690DEST_PATH_IMAGE017
表示用户
Figure 322053DEST_PATH_IMAGE012
Figure 128335DEST_PATH_IMAGE019
的签到数量,
Figure 302964DEST_PATH_IMAGE021
表示用户访问过的格网集合;
所述偏好偏差比
Figure 169289DEST_PATH_IMAGE007
用于衡量用户
Figure 429369DEST_PATH_IMAGE012
在格网
Figure 30553DEST_PATH_IMAGE013
中的类别偏好度,假设格网
Figure 59689DEST_PATH_IMAGE013
中共有
Figure 362494DEST_PATH_IMAGE023
个类别的POI(Pointof Interest),用户访问了其中
Figure 844291DEST_PATH_IMAGE024
个类别
Figure 257955DEST_PATH_IMAGE025
的POI,计算公式如下:
Figure 407177DEST_PATH_IMAGE027
式中,
Figure 880883DEST_PATH_IMAGE023
表示格网
Figure 849976DEST_PATH_IMAGE013
中存在的POI总类别数,
Figure 801752DEST_PATH_IMAGE029
表示用户在
Figure 71059DEST_PATH_IMAGE030
的签到次数占
Figure 715667DEST_PATH_IMAGE013
中总签到次数的比值,
Figure 172056DEST_PATH_IMAGE031
表示用户在签到类别的最大熵,最大熵假定用户在所有类别
Figure 927523DEST_PATH_IMAGE032
签到的可能性是相同的,
Figure 520178DEST_PATH_IMAGE034
表示用户
Figure 335687DEST_PATH_IMAGE012
在格网
Figure 547881DEST_PATH_IMAGE013
签到过的类别;
在计算每个格网的签到频率和偏好偏差比后,通过引入频率阈值
Figure 372618DEST_PATH_IMAGE009
和偏好偏差比阈值
Figure 85359DEST_PATH_IMAGE011
获得用户感兴趣的格网集合
Figure 806190DEST_PATH_IMAGE035
,格网集合
Figure 237172DEST_PATH_IMAGE035
形成的区域为用户感兴趣区域;
空间活动偏好计算子步骤S113:
在已知用户当前位置
Figure 600020DEST_PATH_IMAGE001
的情况下,利用空间邻近性评估格网
Figure 432847DEST_PATH_IMAGE036
Figure 324579DEST_PATH_IMAGE001
的影响,采用以下权重函数:
Figure 242857DEST_PATH_IMAGE038
式中,
Figure 409396DEST_PATH_IMAGE039
表示用户当前位置
Figure 831150DEST_PATH_IMAGE001
和格网
Figure 159363DEST_PATH_IMAGE036
的中心点的距离,
然后利用加权方法计算用户在
Figure 33778DEST_PATH_IMAGE001
对所有类别的活动偏好,设用户
Figure 4008DEST_PATH_IMAGE012
Figure 280269DEST_PATH_IMAGE040
个兴趣格网
Figure 47892DEST_PATH_IMAGE042
,则用户
Figure 675183DEST_PATH_IMAGE012
在位置
Figure 917945DEST_PATH_IMAGE001
处的空间活动偏好为:
Figure 314291DEST_PATH_IMAGE044
式中,
Figure 984307DEST_PATH_IMAGE045
表示用户
Figure 98894DEST_PATH_IMAGE012
Figure 879768DEST_PATH_IMAGE013
内对
Figure 396200DEST_PATH_IMAGE030
的签到频率,
Figure 237117DEST_PATH_IMAGE003
表示所有的活动类别,用户在
Figure 839000DEST_PATH_IMAGE001
处对
Figure 423565DEST_PATH_IMAGE030
的空间活动偏好为用户在
Figure 794503DEST_PATH_IMAGE047
的签到偏好在
Figure 806322DEST_PATH_IMAGE001
处的地理影响力的和;
空间成功率矩阵构建子步骤S114:
基于空间活动偏好分布,计算空间活动偏好模型在格网上的推荐成功率,进而为每一个用户构建空间成功率矩阵
Figure 629921DEST_PATH_IMAGE049
,矩阵的每一行代表一个时间范围
Figure 752598DEST_PATH_IMAGE050
,每一列代表格网
Figure 246552DEST_PATH_IMAGE051
,利用签到记录,基于子步骤S113中的空间活动偏好的计算方法,计算空间活动偏好模型在格网上的推荐成功率。
3.根据权利要求2所述的兴趣活动推荐方法,其特征在于:
空间成功率矩阵构建子步骤S114具体为:
为每一个用户构建空间成功率矩阵
Figure 429271DEST_PATH_IMAGE049
,初始化矩阵
Figure 5746DEST_PATH_IMAGE052
,将矩阵元素赋值为0,对于任意用户
Figure 932114DEST_PATH_IMAGE012
,依次从验证数据集中取出
Figure 12065DEST_PATH_IMAGE012
的签到记录,用
Figure 631266DEST_PATH_IMAGE053
表示,其中,
Figure 429457DEST_PATH_IMAGE001
表示经纬度
Figure 159516DEST_PATH_IMAGE054
Figure 93974DEST_PATH_IMAGE002
表示时间戳,
Figure 884075DEST_PATH_IMAGE003
表示活动类别
Figure 169563DEST_PATH_IMAGE055
Figure 437733DEST_PATH_IMAGE036
表示用户当前所在格网,基于子步骤S113中的空间活动偏好的计算方法,计算
Figure 492277DEST_PATH_IMAGE012
在当前位置
Figure 453280DEST_PATH_IMAGE001
对所有类别的空间偏好得分,依据得分从大到小对类别排序,得到得分最高的类别
Figure 960485DEST_PATH_IMAGE056
,当
Figure 32346DEST_PATH_IMAGE036
位于兴趣格网集合
Figure 221624DEST_PATH_IMAGE057
中时,如果
Figure 87948DEST_PATH_IMAGE056
等于
Figure 348028DEST_PATH_IMAGE003
,将
Figure 958001DEST_PATH_IMAGE058
中对相应元素
Figure 987137DEST_PATH_IMAGE059
增加1,
Figure 24363DEST_PATH_IMAGE002
表示
Figure 37319DEST_PATH_IMAGE058
的第
Figure 450983DEST_PATH_IMAGE002
行,
Figure 334625DEST_PATH_IMAGE036
表示
Figure 808332DEST_PATH_IMAGE036
第列,以此类推,计算所有用户的空间成功率矩阵。
4.根据权利要求3所述的兴趣活动推荐方法,其特征在于:
所述利用非负张量分解方法构建用户时间活动偏好模型步骤S120具体包括:
三维张量构建子步骤S121:
根据用户签到记录构建用户-时间-活动的三维张量,表示为
Figure 777425DEST_PATH_IMAGE061
,张量中的元素表示用户
Figure 729200DEST_PATH_IMAGE012
在时间段
Figure 732928DEST_PATH_IMAGE002
选择活动
Figure 111957DEST_PATH_IMAGE003
签到的次数;
用户时间活动偏好获取子步骤S122:
利用非负张量分解方法获得用户-时间-类别的偏好值,对于给定张量
Figure 568346DEST_PATH_IMAGE061
Figure 323812DEST_PATH_IMAGE062
中每个元素的值计算如下:
Figure 184977DEST_PATH_IMAGE064
式中,
Figure 266065DEST_PATH_IMAGE065
分别表示用户、时间、类别的因子矩阵,矩阵大小分别为
Figure 209750DEST_PATH_IMAGE066
Figure 503329DEST_PATH_IMAGE067
为潜在空间维数,控制分解过程中所涉及到的特征数量,
Figure 216070DEST_PATH_IMAGE068
分别为
Figure 202480DEST_PATH_IMAGE065
的元素,
在CP分解模型中将非负约束添加到基于最小二乘的分解算法中,获得了一个恢复张量来描述用户的时间活动偏好;
活动偏好推断子步骤S123:
基于张量分解结果推断计算用户在当前时间下的活动偏好,将
Figure 633462DEST_PATH_IMAGE062
从活动维度进行标准化:
Figure 730731DEST_PATH_IMAGE069
对于给定的用户
Figure 297978DEST_PATH_IMAGE012
和时间
Figure 455290DEST_PATH_IMAGE002
,所有类别偏好度量的总和被标准化为1,恢复张量中所有元素的取值范围为
Figure 373567DEST_PATH_IMAGE070
,标准化后的元素值
Figure 274527DEST_PATH_IMAGE072
视为用户
Figure 696281DEST_PATH_IMAGE012
在时间
Figure 24495DEST_PATH_IMAGE002
访问类别
Figure 164489DEST_PATH_IMAGE073
的概率,用户
Figure 872069DEST_PATH_IMAGE012
在时间
Figure 413909DEST_PATH_IMAGE002
的时间活动偏好表示为:
Figure 913024DEST_PATH_IMAGE075
时间成功率矩阵构建子步骤S124:
基于时间活动偏好分布,计算时间活动偏好模型在格网上的推荐成功率,进而构建时间成功率矩阵
Figure 805893DEST_PATH_IMAGE077
,矩阵的每一行代表一个时间范围
Figure DEST_PATH_IMAGE078
,每一列代表格网
Figure 314235DEST_PATH_IMAGE079
,利用签到记录,基于子步骤S123中的时间活动偏好的计算方法,计算时间活动偏好模型在格网上的推荐成功率。
5.根据权利要求4所述的兴趣活动推荐方法,其特征在于:
时间成功率矩阵构建子步骤S124具体为:
初始化矩阵
Figure 976160DEST_PATH_IMAGE081
,将矩阵元素赋值为0,在验证数据集中,对于任意用户
Figure 646176DEST_PATH_IMAGE012
,依次取出
Figure 760763DEST_PATH_IMAGE012
的签到记录,表示为
Figure 807216DEST_PATH_IMAGE082
,其中,
Figure 323648DEST_PATH_IMAGE001
表示经纬度
Figure 164565DEST_PATH_IMAGE083
Figure 766448DEST_PATH_IMAGE002
表示时间戳,
Figure 351013DEST_PATH_IMAGE003
表示活动类别
Figure 721951DEST_PATH_IMAGE055
Figure 2279DEST_PATH_IMAGE036
表示用户当前所在格网,利用子步骤S123中的时间活动偏好的计算方法,计算
Figure 91457DEST_PATH_IMAGE012
在当前时间
Figure 479713DEST_PATH_IMAGE002
对所有类别的时间偏好得分,依据得分从大到小对类别排序,得到得分最高的类别
Figure DEST_PATH_IMAGE084
,当
Figure 767475DEST_PATH_IMAGE036
位于兴趣格网集合
Figure 950195DEST_PATH_IMAGE085
中时,如果时间偏好模型预测出的
Figure 792249DEST_PATH_IMAGE084
等于
Figure 984196DEST_PATH_IMAGE003
,将
Figure 64147DEST_PATH_IMAGE081
中对相应元素
Figure DEST_PATH_IMAGE086
增加1,
Figure 480085DEST_PATH_IMAGE002
表示
Figure 543856DEST_PATH_IMAGE081
的第
Figure 265126DEST_PATH_IMAGE002
行,
Figure 465163DEST_PATH_IMAGE036
表示
Figure 520844DEST_PATH_IMAGE036
第列,以此类推,计算所有用户的时间成功率矩阵。
6.根据权利要求5所述的兴趣活动推荐方法,其特征在于:
在推荐列表生成子步骤S131之后,还具有
精度验证子步骤S132:
根据所述推荐列表,使用精确度对推荐模型的性能进行评估,对于测试数据集
Figure 540752DEST_PATH_IMAGE087
,精确度的计算公式如下:
Figure DEST_PATH_IMAGE088
式中,
Figure 871239DEST_PATH_IMAGE089
表示推荐列表长度,
Figure DEST_PATH_IMAGE090
表示用户在测试数据集中的一条签到记录,
Figure DEST_PATH_IMAGE092
表示用户
Figure 253679DEST_PATH_IMAGE012
在时间
Figure 214682DEST_PATH_IMAGE002
和地点
Figure 987466DEST_PATH_IMAGE001
的得分最高的前k项(Top-k)活动组成的推荐列表,
Figure 324906DEST_PATH_IMAGE093
表示测试数据集中的签到记录数。
7.根据权利要求5所述的兴趣活动推荐方法,其特征在于:
所述兴趣活动推荐方法将用户签到数据集进行划分,将每个用户的签到历史记录按照签到时间排序,并按照一定的比例分别划分到训练数据集、验证数据集和测试数据集中,步骤S111、S112、S113、S121、S122和S123采用训练数据集进行模型构建,步骤S114和S124采用验证数据集进行成功率计算,步骤S131和S132使用测试数据集进行模型验证。
8.根据权利要求5所述的兴趣活动推荐方法,其特征在于:
在三维张量构建子步骤S121中,三维张量的三个维度分别为用户维度、时间维度和活动维度,用户维度将每个用户表示为一个维度,活动维度用POI的类别表示,时间维度表示为按照一定时间间隔划分的时间段。
9.根据权利要求5所述的兴趣活动推荐方法,其特征在于:
在用户时间活动偏好获取子步骤S122中,张量分解参数包括潜在空间维度,所述潜在空间维数的大小影响张量分解时间和推荐精度。
10.一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行权利要求1-9中任意一项所述的基于地理格网的兴趣点活动推荐方法。
CN202210034325.6A 2022-01-13 2022-01-13 一种基于地理格网的兴趣活动推荐方法 Active CN114048391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210034325.6A CN114048391B (zh) 2022-01-13 2022-01-13 一种基于地理格网的兴趣活动推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210034325.6A CN114048391B (zh) 2022-01-13 2022-01-13 一种基于地理格网的兴趣活动推荐方法

Publications (2)

Publication Number Publication Date
CN114048391A true CN114048391A (zh) 2022-02-15
CN114048391B CN114048391B (zh) 2022-04-19

Family

ID=80196433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210034325.6A Active CN114048391B (zh) 2022-01-13 2022-01-13 一种基于地理格网的兴趣活动推荐方法

Country Status (1)

Country Link
CN (1) CN114048391B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495665A (zh) * 2022-11-16 2022-12-20 中南大学 地表覆盖更新众包任务推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110276565A1 (en) * 2010-05-04 2011-11-10 Microsoft Corporation Collaborative Location and Activity Recommendations
CN108460101A (zh) * 2018-02-05 2018-08-28 山东师范大学 面向位置社交网络基于地理位置正则化的兴趣点推荐方法
CN109492166A (zh) * 2018-08-06 2019-03-19 北京理工大学 基于签到时间间隔模式的连续兴趣点推荐方法
CN112905905A (zh) * 2021-01-22 2021-06-04 杭州电子科技大学 一种位置社交网络中兴趣点-区域联合推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110276565A1 (en) * 2010-05-04 2011-11-10 Microsoft Corporation Collaborative Location and Activity Recommendations
CN108460101A (zh) * 2018-02-05 2018-08-28 山东师范大学 面向位置社交网络基于地理位置正则化的兴趣点推荐方法
CN109492166A (zh) * 2018-08-06 2019-03-19 北京理工大学 基于签到时间间隔模式的连续兴趣点推荐方法
CN112905905A (zh) * 2021-01-22 2021-06-04 杭州电子科技大学 一种位置社交网络中兴趣点-区域联合推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
廖国琼等: "基于位置社会网络的双重细粒度兴趣点推荐", 《计算机研究与发展》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495665A (zh) * 2022-11-16 2022-12-20 中南大学 地表覆盖更新众包任务推荐方法

Also Published As

Publication number Publication date
CN114048391B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
Du et al. Predicting activity attendance in event-based social networks: Content, context and social influence
US20190197570A1 (en) Location-based analytic platform and methods
US10235683B2 (en) Analyzing mobile-device location histories to characterize consumer behavior
Cheng et al. A unified point-of-interest recommendation framework in location-based social networks
CN110191416A (zh) 用于分析目标实体的移动的装置、系统和方法
CN107230108A (zh) 业务数据的处理方法及装置
Wu et al. Density-based place clustering using geo-social network data
Zhang et al. Simulation optimization using the particle swarm optimization with optimal computing budget allocation
CN110516476B (zh) 基于频繁位置分类的地理不可区分性位置隐私保护方法
Hu et al. Nonnegative matrix tri-factorization with user similarity for clustering in point-of-interest
Rahimi et al. Behavior-based location recommendation on location-based social networks
CN114048391B (zh) 一种基于地理格网的兴趣活动推荐方法
Chen et al. A temporal recommendation mechanism based on signed network of user interest changes
CN113158038A (zh) 基于sta-tcn神经网络框架的兴趣点推荐方法及系统
Farjami et al. A genetic-fuzzy algorithm for spatio-temporal crime prediction
EP3192061B1 (en) Measuring and diagnosing noise in urban environment
Tanton Spatial microsimulation: developments and potential future directions
CN111259268A (zh) Poi推荐模型的构建方法及系统
CN116188052A (zh) 共享车辆的投放方法、装置、计算机设备和存储介质
CN115952355A (zh) 基于时空幂律注意力的下一兴趣点推荐系统
Zeng et al. LGSA: A next POI prediction method by using local and global interest with spatiotemporal awareness
CN115455276A (zh) 推荐对象的方法、装置、计算机设备和存储介质
CN112883292A (zh) 用户行为推荐模型建立及基于时空信息的位置推荐方法
Mazzamurro et al. Dynamic spatial cluster process model of geo-tagged tweets in london
Su et al. Point-of-interest recommendation based on geographical influence and extended pairwise ranking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant