CN107909498B - 基于最大化接受者操作特征曲线下方面积的推荐方法 - Google Patents

基于最大化接受者操作特征曲线下方面积的推荐方法 Download PDF

Info

Publication number
CN107909498B
CN107909498B CN201711012863.0A CN201711012863A CN107909498B CN 107909498 B CN107909498 B CN 107909498B CN 201711012863 A CN201711012863 A CN 201711012863A CN 107909498 B CN107909498 B CN 107909498B
Authority
CN
China
Prior art keywords
interest
matrix
user
place
visited
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711012863.0A
Other languages
English (en)
Other versions
CN107909498A (zh
Inventor
朱顺痣
李建敏
钟瑛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University of Technology
Original Assignee
Xiamen University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University of Technology filed Critical Xiamen University of Technology
Priority to CN201711012863.0A priority Critical patent/CN107909498B/zh
Publication of CN107909498A publication Critical patent/CN107909498A/zh
Application granted granted Critical
Publication of CN107909498B publication Critical patent/CN107909498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Abstract

基于最大化接受者操作特征曲线下方面积的推荐方法,包括如下步骤:1)构建用户的兴趣地点对集合和签到矩阵;2)构建最大化接受者操作特征曲线下方面积的目标方程;3)对目标方程进行优化,再采用随机梯度下降的方法进行求解,迭代结束后,得到最终的用户隐矩阵和兴趣地点隐矩阵;4)计算集合中的所有兴趣点对的距离,根据该距离计算邻接矩阵N;5)计算地理上下文的排序矩阵;6)根据用户隐矩阵和兴趣地点隐矩阵得到预测的排序矩阵,将其与地理上下文排序矩阵分别进行加权后相加得到最后的推荐结果。本发明的方法可以很好的应对数据稀疏问题、计算量少,具有很好的扩展性、能达到最高水平的结果。

Description

基于最大化接受者操作特征曲线下方面积的推荐方法
技术领域
本发明涉及地点推荐,特别是一种基于最大化接受者操作特征曲线下方面积的推荐方法。
背景技术
当用户去访问一个喜欢的地点时,基于地点的社交网络允许用户在当前地点签到并分享他们的在当前地点的经历。随着这种社交网络的流行和不同平台的兴起,例如BrightKite、Foursquare和Gowalla,用户的签到数据规模正以前所未有的速度增长。例如2016年一年,Foursquare有超过5千万的活跃用户创造了超过80亿的签到数据。
大量的签到数据可以让很多推荐系统的研究能够更好地提高用户体验,例如位置推荐、好友推荐以及活动推荐。在这些应用当中,兴趣地点推荐在过去几年中获得了大量的研究关注,很多算法被开发出来。
兴趣地点推荐的目标是通过对用户签到历史和其他因素的学习,从而推荐给用户可能感兴趣但没有访问过的地点列表。有很多因素导致兴趣地点推荐很困难,其中最重要的因素是签到数据特别稀疏,即被每一个用户访问过的兴趣地点只占了所有地点的极其少的一部分。例如在实验中的一个数据集,一个用户平均只访问了15.9个兴趣地点,而在那个城市当中一共有46617个兴趣地点。这让兴趣地点推荐比其他推荐任务遭受更严重的数据稀疏问题。举例来说,用来电影推荐的Netflix的数据库的数据密度为1.2%,这远远比兴趣推荐的签到数据的密度高。同时,签到数据是一种隐反馈数据,即签到数据只提供了正样本和没有标签的样本,这些没有标签的样本可能是负样本也可能是没有被发现的正样本。
现存的很多研究,他们的目标方程的主要部分是关于签到矩阵和模型推荐的差的弗罗贝尼乌斯范数。然而,弗罗贝尼乌斯范数并不是设计来处理稀疏问题的,而且当不设计特别复杂的模型时,很难在稀疏数据集上得到比较好的结果。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种利用地理上下文信息和用户的签到频率,基于最大化接受者操作特征曲线下方面积的推荐方法。
本发明采用如下技术方案:
基于最大化接受者操作特征曲线下方面积的推荐方法,其特征在于:包括如下步骤:
1)通过用户签到数据构建用户的兴趣地点对集合和签到矩阵,该集合中包括该用户所有访问过和未访问的兴趣地点对;
2)根据集合构建最大化接受者操作特征曲线下方面积的目标方程;
3)对目标方程进行优化,再采用随机梯度下降的方法进行求解,迭代结束后,得到最终的用户隐矩阵和兴趣地点隐矩阵;
4)计算集合中的所有兴趣点对的距离,根据该距离计算邻接矩阵N;
5)对于每个用户的每个兴趣地点,根据步骤3)得到的用户隐矩阵P和兴趣地点隐矩阵Q,并结合邻接矩阵和签到矩阵计算地理上下文的排序矩阵;
6)根据用户隐矩阵和兴趣地点隐矩阵得到预测的排序矩阵,将其与地理上下文排序矩阵分别进行加权后相加得到最后的推荐结果。
优选的,预先定义:U代表用户集合,L来代表兴趣地点的集合;对于一个目标用户u,定义
Figure BDA0001445851250000021
表示访问过的兴趣地点,
Figure BDA0001445851250000022
表示未访问过的兴趣地点,所有的用户-兴趣地点的交互集合为
Figure BDA0001445851250000023
在步骤2)中根据下式得到所述的目标方程
Figure BDA0001445851250000024
其中:|x|表示的是集合x的基数,πui表示访问过的兴趣地点i在目标用户u的推荐列表里的排列位置,πuj表示未访问的兴趣地点j在目标用户u的推荐列表里的排列位置,
Figure BDA00014458512500000214
是一个指示函数,当条件x满足时输出1,否则输出0。
优选的,在步骤3)中,所述的对目标方程进行优化包括采用非平滑函数排序,再定义所述目标方程对于参数的导数:
Figure BDA0001445851250000025
其中qi,qj为兴趣地点隐向量,pu为用户隐向量,
Figure BDA0001445851250000026
为损失函数且
Figure BDA0001445851250000027
Figure BDA0001445851250000028
为预测得分是用户u对未访问的兴趣地点的j的倾向指数,
Figure BDA0001445851250000029
为正常数。
优选的,在步骤3)中,增加一个弗罗贝尼乌斯范数来作为正则项P和Q,即为用户隐矩阵P和兴趣地点隐矩阵Q,则得到新的损失函数:
Figure BDA00014458512500000210
α是平衡正则项的权重,对于任意的(u,i)∈D和
Figure BDA00014458512500000211
有:
Figure BDA00014458512500000212
优选的,在步骤3)中,对于任意的(u,i)∈D和
Figure BDA00014458512500000213
定义
Figure BDA0001445851250000031
Figure BDA0001445851250000032
表示访问过的兴趣地点i对于目标用户u的排序,
Figure BDA0001445851250000033
表述未访问的兴趣地点j对于目标用户u的排序,ΔAUC表示交换两个兴趣地点后的AUC差的绝对值。
优选的,在步骤3)中,对于每一个访问过的兴趣地点,随机选取一个未访问过的兴趣地点组成兴趣地点对,以减少计算时间。
优选的,对于m个用户和n个兴趣地点,定义稀疏矩阵
Figure BDA0001445851250000034
来表示训练集,其中第u行表示用户u访问过的兴趣地点,第i列表示谁访问过兴趣地点i,如果用户u访问过兴趣地点i,则设置Rui=1,否则Rui=0;在步骤4)中,使用高斯距离来测量两个兴趣地点的距离
Figure BDA0001445851250000035
xi是访问过的兴趣地点i的坐标,xj是未访问过的兴趣地点j的坐标,σ是一个常数;所述邻接矩阵为K近邻矩阵
Figure BDA0001445851250000036
Figure BDA0001445851250000037
其中k=10,N(li)是兴趣地点i的k个最近邻的集合;
优选的,定义签到矩阵为
Figure BDA0001445851250000038
Fu,j是用户u访问访问过的兴趣地点i的次数;在步骤5)中,采用Ni和Fi来表示N和F第i行,所述地理上下文的排序矩阵
Figure BDA0001445851250000039
根据下式计算:
Figure BDA00014458512500000310
Figure BDA00014458512500000311
代表了两个向量的点积和,pi是用户隐矩阵P的第i行。
优选的,在步骤6)中所述预测的排序矩阵Rpre=PQT
优选的,在步骤6)中所述最后的推荐结果:
Figure BDA00014458512500000312
其中:μ∈[0,1]是控制地理影响的系数。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明的方法,为了优化AUC,将推荐问题转换成为一个分类问题,其中被访问过的地点作为正样本,反之作为负样本。因此签到数据的稀疏问题便变成了数据分布的不平衡问题,从而能够被优化AUC来解决。然而,AUC是一个非平滑函数,如何优化AUC本身便是一个比较难的问题。过去的工作有将AUC替换为例如岭损失函数的,但这种方法不能够容易地推广到其他非平滑函数上。因此,本发明利用了LambdaMF的框架,这个框架将基于lambda的方法和在协同过滤中广泛使用的矩阵分解算法结合起来。特别的是,使用AUC作为目标方程并定义了一个新的lambda,从而更够更好的在本发明方法的框架AUC-MF中利用AUC的特性。本发明的实验结果表明AUC-MF可以达到最高水准的准确率。
除了二元的签到数据,各种各样的上下文信息都可以提高兴趣地点推荐的准确率,例如兴趣地点的地理坐标,签到数据的时间戳,以及用户之间的关系等等。作为兴趣地点推荐系统,AUC-MF也具有一定的拓展性,从而有效利用这些上下文信息。
为了利用地理上下文信息和用户的签到频率,本发明提出了一种可泛化的优化AUC-MF结果的方法。假设用户会访问曾经访问过的地点的附近的地点,那对于任何一个兴趣地点,本发明将所有附近访问过的兴趣地点的结果的和加权加在这个兴趣地垫上。权重是通过计算兴趣地点之间的地理距离得到的。实验结果表面这种整合上下文信息的方法进一步提高了算法的准确率。其他类型的上下文信息也可以通过相似的方法整合到实验结果中。值得注意的是,大多数的算法是在训练过程中利用上下文信息,这会导致训练过程特别耗时。因为AUC-MF可以作为优化结果的方式来利用上下文信息,因此会方便很多。
本发明还具有如下优势:
1、本发明提出了一种叫做AUC-MF的新的用来做兴趣地点推荐的框架,这个框架可以很好的应对数据稀疏问题。
2、本发明提出了一种泛化的利用上下文信息优化推荐结果的方法。因为作为结果优化过程,上下文信息整合到推荐系统里不会有过多的计算。
3、在Gowalla上两个数据集的实验可以表明AUC-MF在兴趣地点推荐上显著超过其他最高水准的方法。
附图说明
图1为本发明的流程图;
图2为不同设定的μ对最终结果的影响(柏林);
图3为不同设定的μ对最终结果的影响(纽约);
图4为本发明AUC-MF的收敛速率(柏林);
图5为本发明AUC-MF的收敛速率(纽约)。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
基于最大化接受者操作特征曲线下方面积的推荐方法,最大化接受者操作特征曲线下方面积(Area Under the ROC curve,AUC),简称为AUC,是一种广泛用来评价不平衡数据分布的分类准确率的评价指标。参见图1,其主要包括如下步骤:
1)通过用户签到数据构建用户的兴趣地点对集合和签到矩阵,该集合中包括该用户所有访问过和未访问的兴趣地点对。
2)根据集合构建最大化接受者操作特征曲线下方面积的目标方程,目的是让所有的兴趣地点对中,用户访问过的兴趣地点的分值要大于未访问过的兴趣地点分值。
3)对目标方程进行如下优化,为了解决计算溢出问题,添加了弗罗贝尼乌斯范数作为正则项来限制参数;定义每一个兴趣地点对的lambda,从而来解决目标方程为非平滑方程而无法求导的问题。再采用随机梯度下降的方法进行求解,迭代结束后,得到最终的用户隐矩阵和兴趣地点隐矩阵。为了降低计算时间,对于每一个访问过的兴趣地点,随机选取一个未访问的兴趣地点组成兴趣地点对。
4)计算集合中的所有兴趣点对的距离,根据该距离计算邻接矩阵N;
5)对于每个用户的每个兴趣地点,根据步骤3)得到的用户隐矩阵P和兴趣地点隐矩阵Q,并结合邻接矩阵和签到矩阵计算地理上下文的排序矩阵。
6)根据用户隐矩阵和兴趣地点隐矩阵得到预测的排序矩阵,将其与地理上下文排序矩阵分别进行加权后相加得到最后的推荐结果。
本发明的方法,各个步骤中的具体细节如下:
给予m个用户和n个兴趣地点的历史交互数据,兴趣地点推荐的目的是推荐给目标用户u一个兴趣地点的列表,同时兴趣地点推荐列表里的兴趣地点是目标用户u之前没有访问过的。在很多现实场景中,兴趣地点推荐是基于用户的隐倾向反馈,即一个用户是否访问过某个兴趣地点。这种反馈通常被一组二元变量yui∈{0,1}的集合表示。如果一个用户u访问过兴趣地点i,则yui被设置成为1,反之设置成为0。值得注意的是,yui=0并不是显示地表示u对i并不感兴趣,也可能是u并不知道i的存在。本发明使用U来代表用户集合,用L来代表兴趣地点的集合。对于一个用户u,用
Figure BDA0001445851250000051
来表示他访问过的兴趣地点,用
Figure BDA0001445851250000052
来表示用户未访问过的兴趣地点。然后,定义所有的用户-兴趣地点的交互集合为
Figure BDA0001445851250000053
1.AUC评价指标
AUC是一个阈值决定评价指标,从而使随机选取的正样本的概率要比要比随机选取的负样本有更高的决定值。根据为二分类定义的AUC,定义兴趣地点推荐的AUC即最大化接受者操作特征曲线下方面积的目标方程为:
Figure BDA0001445851250000054
Figure BDA0001445851250000061
在上式中,|x|表示的是集合x的基数,πui表示的是已访问的兴趣地点i在u的推荐列表里的排列位置,πuj表示的是未访问的兴趣地点j在u的推荐列表里的排列位置,这个排列是根据预测得分
Figure BDA0001445851250000062
的降序排列得到的。其中预测得分
Figure BDA0001445851250000063
是用户u对兴趣地点的i的倾向指数,由下文公式(9)得出。
Figure BDA0001445851250000064
是一个指示函数,当条件x满足时输出1,否则输出0。因此最大化AUC就等同于最小化
Figure BDA0001445851250000065
对于任意的(u,i)∈D和
Figure BDA0001445851250000066
定义损失函数
Figure BDA0001445851250000067
Figure BDA0001445851250000068
因此
Figure BDA0001445851250000069
然而,指示函数
Figure BDA00014458512500000610
是非平滑函数,这意味着它相对于模型参数的导数要么是0,要么就是无意义。下一步,将研究如何对
Figure BDA00014458512500000611
相对于模型参数求导。
2.使用非平滑函数排序
LambdaRank提出了一种可以扩展到任意非平滑多变量的损失函数的方法。这是基于RankNet的思想,将成对排序问题转变成梯队下降问题。LambdaRank公式化了成对排序的梯度,并命名为λ。拿兴趣地点推荐作为例子,对于用户u,一个隐损失函数
Figure BDA00014458512500000612
相对于兴趣地点j的评分
Figure BDA00014458512500000613
的导数可以写为
Figure BDA00014458512500000614
在这里,
Figure BDA00014458512500000615
是用户u对于兴趣地点i的标签。为了让引损失函数存在并且为凸,有两个条件必须满足。首先,雅可比矩阵必须是对称的,这意味着
Figure BDA00014458512500000616
其次,雅可比矩阵在每一处都是半正定的。值得注意的是,对于任意的常数λ,上面两个条件都可以被满足。
下面将给出对于兴趣地点推荐的λ的可泛化形式。对于任意的(u,i)∈D和
Figure BDA0001445851250000071
Figure BDA0001445851250000072
Figure BDA0001445851250000073
被设置成为正常数,兴趣地点i需要提高自己的分数来减少损失函数的值,兴趣地点j需要降低自己的分数来减少损失函数的值。因此损失函数
Figure BDA0001445851250000074
相对于模型参数w的导数为
Figure BDA0001445851250000075
得到导数后,就可以将他们应用于基于矩阵分解的模型来解决兴趣地点推荐的任务。
3.矩阵分解中的λ
基于矩阵分解的算法是推荐系统中最流行和重要的算法。给予m个用户和n个兴趣地点,本发明方法使用稀疏矩阵
Figure BDA0001445851250000076
来表示训练集,其中第u行表示用户u访问过的兴趣地点,第i列表示谁访问过兴趣地点i。如果用户u访问过兴趣地点i,那么设置Rui=1,否则Rui=0。矩阵分解的思想是将R分解成两个隐矩阵
Figure BDA0001445851250000077
Figure BDA0001445851250000078
其中d是本发明定义的因子维度。P中第u行隐向量
Figure BDA0001445851250000079
表示用户u,Q中第i行隐向量
Figure BDA00014458512500000710
表示兴趣地点i。那么用户u对于兴趣地点i的倾向分数可以近似表示为:
Figure BDA00014458512500000711
LambdaMF提出了一种利用随机梯度下降的方法来学习模型参数,本发明利用它的理论并重新定义了优化P和Q的梯度。首先,在兴趣地点推荐任务里,对于任意的(u,i)∈D和
Figure BDA00014458512500000712
应该更新兴趣地点隐向量qi和qj和用户隐向量pu。因此有
Figure BDA00014458512500000713
因此梯度可以被计算为:
Figure BDA00014458512500000714
Figure BDA00014458512500000715
λ的定义是本发明方法的关键。为了让本发明方法能够有效且快速,本发明定义了一种简单且可泛化的λ,在介绍λ之前,首先要解决隐变量的溢出问题。
4.正则项
当使用基于λ的方法时,被访问比较多的兴趣地点会导致严重的溢出问题。假设有一个特别受欢迎的兴趣地点
Figure BDA0001445851250000081
被所有的用户访问,那么关于
Figure BDA0001445851250000082
的分数就会在训练过程中持续增长。因为
Figure BDA0001445851250000083
对于每一个用户u的分数
Figure BDA0001445851250000084
的导数
Figure BDA0001445851250000085
是负的:这会让分数
Figure BDA0001445851250000086
一直增加。更多的是,如果所有用户的隐向量都相似,那么所有用户关于兴趣地点
Figure BDA0001445851250000087
的分数增长不会导致其他用户对于兴趣地点
Figure BDA0001445851250000088
的预测分数的下降。因此,兴趣地点
Figure BDA0001445851250000089
的隐向量会持续增长然后导致溢出。
为了解决这个问题,一种经常使用的方法是增加一个正则项。在本发明中,使用弗罗贝尼乌斯范数来作为正则项,从而能够很容易地在本发明的框架中被优化。通过添加正则项P和Q,可以得到新的损失函数
Figure BDA00014458512500000810
这里α是平衡正则项的权重。然后对于任意的(u,i)∈D和
Figure BDA00014458512500000811
Figure BDA00014458512500000812
Figure BDA00014458512500000813
接着,将介绍λ的表达式。
5.AUCλ
在前文中,给出了λ的一般形式的定义,现在来讨论如何去选择λ。为了保证隐损失函数存在且为凸,有两个条件需要被满足。首先,隐损失函数相对于评分的雅可比矩阵必须是对称的。这代表着存在一个损失函数使λ是它的导数。一旦满足了存在条件,应该保证隐损失函数是凸的。这就意味着,雅可比矩阵必须是处处半正定的。正如之前讨论的,常数λ满足上面两个条件。考虑到要最小化损失函数,λ必须为正。因此,对于任意的(u,i)∈D和
Figure BDA00014458512500000814
设置
Figure BDA00014458512500000815
在这里,
Figure BDA00014458512500000816
表示兴趣地点i对于用户u的排序,ΔAUC表示交换两个兴趣地点后的AUC差的绝对值。
本发明的AUC-MF的程序实现过程中的步骤1)-步骤3)在表格1中给出。
表格1
Figure BDA0001445851250000091
6.子取样
对于地点推荐,训练过程并不需要无标签的数据。和这个不同,使用AUC的兴趣地点推荐需要将所有的兴趣地点对放在优化过程中。这样会让优化过程非常耗时。为了解决这个问题,对于每一对(u,i)∈D,在
Figure BDA0001445851250000101
中以概率为
Figure BDA0001445851250000102
的均匀分布随机选择一个兴趣地点
Figure BDA0001445851250000103
这也是为什么
Figure BDA0001445851250000104
没有出现在参数λ的更新过程中了。因为本发明方法中的倒数的期望等于所有
Figure BDA0001445851250000105
中兴趣地点的倒数的和的期望:
Figure BDA0001445851250000106
这里E(f(x))代表的是f(x)的期望。
7.使用地理上下文扩展AUC-MF
AUC-MF可以很容易的将上下文因子通过优化推荐结果的方式融合进来。本发明使用地理上下文和签到频率来展示如何扩展AUC-MF,即为步骤4)-5)。其他的上下文信息也可以相似地融入到AUC-MF里面。
地理上下文已经被证实在兴趣地点推荐里可以起作用。然而,大多数的工作是在训练过程中使用地理上下文信息,这让优化和调参都变得既耗时又困难。本发明提出了一种优化结果的方式来利用上下文信息。这种方法可以通过利用不同的上下文因子来优化AUC-MF的推荐结果。
为了整合地理上下文,假设用户会更加愿意光顾之前光顾过的兴趣地点周围的地点。本发明使用高斯距离来测量两个兴趣地点的距离:
Figure BDA0001445851250000107
在这里xi是兴趣地点i的坐标,即经度和纬度,σ是一个常数,根据经验设为0.1。本发明定义了k近邻矩阵
Figure BDA0001445851250000108
其中k=10:
Figure BDA0001445851250000109
在这里N(li)是兴趣地点i的k个最近邻的集合。
然后,本发明定义了一个签到矩阵
Figure BDA00014458512500001010
来表示用户的签到频率,其中Fu,j是用户u访问兴趣地点i的次数。使用Ni和Fi来表示N和F第i行。给予AUC-MF预测的排序矩阵Rpre=PQT,计算使用地理上下文的排序矩阵
Figure BDA0001445851250000111
为:
Figure BDA0001445851250000112
其中
Figure BDA0001445851250000113
代表了两个向量的点积和,pi是用户隐矩阵P的第i行。
为了适应地理上下文在不同数据集上的重要性,将Rpre和Rgeo线性组合起来得到最后的推荐结果:
Figure BDA0001445851250000114
在这里,μ∈[0,1]是控制地理影响的系数。利用地理上下文的过程在表格2中给出。
表格2
Figure BDA0001445851250000115
实验部分
接下来将对比AUC-MF和相同设定的其他先进的算法。本发明也研究了不同参数对AUC-MF的影响。
表格3数据统计
Figure BDA0001445851250000116
1.实验设定
1.1数据集
本发明使用了Gowalla从2010年11月份到2011年7月份的签到数据。这里面一共有36001959次签到,319063个用户和2844076个兴趣地点。每一个签到包含用户id,地点id和时间戳。每个地点的经度和纬度都可以获得。为了检验本发明框架的准确率,使用reverse-geocoder在数据集中提取出了两个城市的数据。关于这两个城市的数据统计在表格3中给出。
在实验中,所有的数据集被分成三个部分,对于每一个用户,将他的签到按照时间戳排序然后取前70%作为训练集,中间10%作为调试集,最后20%作为测试集。
1.2测试标准
使用准确率(Pr)和召回率(Re)两个度量指标来检验本发明推荐方法的性能。给定一个用户u,
Figure BDA0001445851250000121
代表对应测试集的未访问的地点,
Figure BDA0001445851250000122
代表算法推荐的地点。那么准确率和召回率的定义为:
Figure BDA0001445851250000123
Figure BDA0001445851250000124
其中UT是测试集中用户的集合,并且设置K=10。
1.3对比方法
本发明和三个基于矩阵分解的算法进行比较。其中两个利用了地理上下文信息并且在最新的评测中获得了头两名的成绩。
IRenMF:这个模型使用了从位置角度的地理上的特性,从而将相邻地点建模成两个层次。
WRMF:这个是不使用地理特征的IRenMF的特殊版本。
RankGeoFM:这是一个基于排序的矩阵分解模型,首先学习了用户的排名倾向,然后包含了相近地点的地理上的影响。
AUC-MF:本发明提出的方法。添加地理影响的标记为AUC-MF+Geo。
表格4实验结果
Figure BDA0001445851250000125
Figure BDA0001445851250000131
2.实验结果
首先给出了和其他基准算法的比较,本本发明还给出了地理上下文对算法的影响以及收敛速率。
2.1兴趣地点推荐结果
表格4给出了兴趣地点推荐的比较结果。可以观察到AUC-MF要比其他的在准确率和召回率上要高。当融合了地理上下文AUC-MF+Geo在柏林数据集上提高了准确率。特别的,在柏林数据集上,本发明的方法要超过WSMF、IRenMF、RankGeoFM和LRT分别有31%、21%、29%和48%。然而,地理上下文信息在纽约数据集上并不是特别有效,。接下来,分析地理上下文的影响。
2.2地理上下文的影响
在AUC-MF+Geo中,地理上下午的影响被权重μ控制。图2、图3,给出了不同设定的μ对最终结果的影响。值得注意的是,在柏林数据集上,当μ=0.8左右时达到最好结果。在纽约数据集上,不使用上下文信息得到最好结果。
2.3收敛速率
AUC-MF的收敛速率在图4、图5,中给出。在柏林数据集上,AUC最大化大约需要50回合收敛,但在纽约数据集上只需要不到10回合。这是因为纽约数据集里的数据比柏林数据集多,从而每回合被更新的次数多。
总结
本发明提出了一种基于最大化接受者操作特征曲线下方面积的推荐方法来进行兴趣地点推荐。为了优化AUC,使用了基于兰姆达(Lambda)的方法来产生一个隐损失函数。为了满足这种方法的两个条件,本发明定义了一个新的常数兰姆达,从而确保隐损失函数的存在和为凸函数。接着将兰姆达方法和矩阵分解方法结合。本发明使用了随机梯度下降来最优化损失函数。本发明的方法具有很好的扩展性从而利用各种上下文信息。实验结果表明,本发明的方法能达到最高水平的结果。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (3)

1.基于最大化接受者操作特征曲线下方面积的推荐方法,其特征在于:包括如下步骤:
1)通过用户签到数据构建用户的兴趣地点对集合和签到矩阵,该集合中包括该用户所有访问过和未访问的兴趣地点对;
2)根据集合构建最大化接受者操作特征曲线下方面积的目标方程;
预先定义:U代表用户集合,L来代表兴趣地点的集合;对于一个目标用户u,定义
Figure FDA0002476469820000011
表示访问过的兴趣地点,
Figure FDA0002476469820000012
表示未访问过的兴趣地点,所有的用户一兴趣地点的交互集合为
Figure FDA0002476469820000013
在步骤2)中根据下式得到所述的目标方程
Figure FDA0002476469820000014
其中:x表示的是集合x的基数,πui表示访问过的兴趣地点i在目标用户u的推荐列表里的排列位置,πuj表示未访问的兴趣地点j在目标用户u的推荐列表里的排列位置,
Figure FDA0002476469820000015
是一个指示函数,当条件x满足时输出1,否则输出0;
3)对目标方程进行优化,再采用随机梯度下降的方法进行求解,迭代结束后,得到最终的用户隐矩阵和兴趣地点隐矩阵;
所述的对目标方程进行优化包括采用非平滑函数排序,再定义所述目标方程对于参数的导数:
Figure FDA0002476469820000016
其中qj为兴趣地点隐向量,pu为用户隐向量,
Figure FDA0002476469820000017
为损失函数且
Figure FDA0002476469820000018
Figure FDA0002476469820000019
为预测得分是用户u对未访问的兴趣地点的j的倾向指数,
Figure FDA00024764698200000110
为正常数;
增加一个弗罗贝尼乌斯范数来作为正则项P和Q,即为用户隐矩阵P和兴趣地点隐矩阵Q,则得到新的损失函数:
Figure FDA00024764698200000111
α是平衡正则项的权重,对于任意的(u,i)∈D和
Figure FDA00024764698200000112
有:
Figure FDA00024764698200000113
对于任意的(u,i)∈D和
Figure FDA00024764698200000114
定义
Figure FDA00024764698200000115
Figure FDA0002476469820000021
表示访问过的兴趣地点i对于目标用户u的排序,
Figure FDA0002476469820000022
表述未访问的兴趣地点j对于目标用户u的排序,ΔAUC表示交换两个兴趣地点后的AUC差的绝对值;
4)计算集合中的所有兴趣点对的距离,根据该距离计算邻接矩阵N;
对于m个用户和n个兴趣地点,定义稀疏矩阵
Figure FDA0002476469820000023
来表示训练集,其中第u行表示用户u访问过的兴趣地点,第i列表示谁访问过兴趣地点i,如果用户u访问过兴趣地点i,则设置Rui=1,否则Rui=0;
使用高斯距离来测量两个兴趣地点的距离
Figure FDA0002476469820000024
xi是访问过的兴趣地点i的坐标,xj是未访问过的兴趣地点j的坐标,σ是一个常数;所述邻接矩阵为K近邻矩阵
Figure FDA0002476469820000025
Figure FDA0002476469820000026
其中k=10,N(li)是兴趣地点i的k个最近邻的集合;
定义签到矩阵为
Figure FDA0002476469820000027
Fu,j是用户u访问访问过的兴趣地点i的次数;
5)对于每个用户的每个兴趣地点,根据步骤3)得到的用户隐矩阵P和兴趣地点隐矩阵Q,并结合邻接矩阵和签到矩阵计算地理上下文的排序矩阵;
定义签到矩阵为
Figure FDA0002476469820000028
Fu,j是用户u访问访问过的兴趣地点i的次数,采用Ni和Fi来表示N和F第i行,所述地理上下文的排序矩阵
Figure FDA0002476469820000029
根据下式计算:
Figure FDA00024764698200000210
Figure FDA00024764698200000211
代表了两个向量的点积和,pi是用户隐矩阵P的第i行;
6)根据用户隐矩阵和兴趣地点隐矩阵得到预测的排序矩阵,将其与地理上下文排序矩阵分别进行加权后相加得到最后的推荐结果,所述预测的排序矩阵Rpre=pQT
2.如权利要求1所述的基于最大化接受者操作特征曲线下方面积的推荐方法,其特征在于:在步骤3)中,对于每一个访问过的兴趣地点,随机选取一个未访问过的兴趣地点组成兴趣地点对,以减少计算时间。
3.如权利要求1所述的基于最大化接受者操作特征曲线下方面积的推荐方法,其特征在于:在步骤6)中所述最后的推荐结果:
Figure FDA00024764698200000212
其中:μ∈[0,1]是控制地理影响的系数。
CN201711012863.0A 2017-10-26 2017-10-26 基于最大化接受者操作特征曲线下方面积的推荐方法 Active CN107909498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711012863.0A CN107909498B (zh) 2017-10-26 2017-10-26 基于最大化接受者操作特征曲线下方面积的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711012863.0A CN107909498B (zh) 2017-10-26 2017-10-26 基于最大化接受者操作特征曲线下方面积的推荐方法

Publications (2)

Publication Number Publication Date
CN107909498A CN107909498A (zh) 2018-04-13
CN107909498B true CN107909498B (zh) 2020-07-28

Family

ID=61840826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711012863.0A Active CN107909498B (zh) 2017-10-26 2017-10-26 基于最大化接受者操作特征曲线下方面积的推荐方法

Country Status (1)

Country Link
CN (1) CN107909498B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395551A (zh) * 2019-08-15 2021-02-23 上海游昆信息技术有限公司 一种逻辑回归的优化方法
CN112784171B (zh) * 2021-01-21 2022-11-04 重庆邮电大学 一种基于上下文典型性的电影推荐方法
CN113254811B (zh) * 2021-06-23 2021-09-24 佛山市墨纳森智能科技有限公司 一种基于大数据的兴趣地点推荐方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679866A (zh) * 2015-03-04 2015-06-03 重庆理工大学 基于图一致性模型的半监督学习的推荐方法
CN105956089A (zh) * 2016-05-03 2016-09-21 桂林电子科技大学 一种针对具备项目的分类信息的推荐方法
CN106651519A (zh) * 2016-12-23 2017-05-10 广州赛宝认证中心服务有限公司 基于标签信息的个性化推荐方法和系统
CN107193456A (zh) * 2017-05-08 2017-09-22 上海交通大学 基于滑动式交互操作的推荐系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679866A (zh) * 2015-03-04 2015-06-03 重庆理工大学 基于图一致性模型的半监督学习的推荐方法
CN105956089A (zh) * 2016-05-03 2016-09-21 桂林电子科技大学 一种针对具备项目的分类信息的推荐方法
CN106651519A (zh) * 2016-12-23 2017-05-10 广州赛宝认证中心服务有限公司 基于标签信息的个性化推荐方法和系统
CN107193456A (zh) * 2017-05-08 2017-09-22 上海交通大学 基于滑动式交互操作的推荐系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于核学习的非均衡数据分类算法;钟瑛等;《厦门大学学报(自然科学版)》;20120331;全文 *
基于Dyna-CLUE的厦门市土地利用变化模拟;章欣欣等;《厦门理工学院学报》;20150630;全文 *

Also Published As

Publication number Publication date
CN107909498A (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
Xu et al. Incentive mechanism for multiple cooperative tasks with compatible users in mobile crowd sensing via online communities
Li et al. Point-of-interest recommendations: Learning potential check-ins from friends
CN109508428B (zh) 基于兴趣点真流行度与隐式信任挖掘的兴趣点推荐方法
Yuan et al. Joint geo-spatial preference and pairwise ranking for point-of-interest recommendation
CN109948066B (zh) 一种基于异构信息网络的兴趣点推荐方法
CN109284417A (zh) 视频推送方法、装置、计算机设备和存储介质
CN110503531A (zh) 时序感知的动态社交场景推荐方法
Han et al. AUC-MF: point of interest recommendation with AUC maximization
Li et al. Point-of-interest recommender systems: A separate-space perspective
CN108460101A (zh) 面向位置社交网络基于地理位置正则化的兴趣点推荐方法
CN109460520B (zh) 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法
CN107256241B (zh) 基于网格与差异替换改进多目标遗传算法的电影推荐方法
CN107909498B (zh) 基于最大化接受者操作特征曲线下方面积的推荐方法
Eliyas et al. Recommendation systems: Content-based filtering vs collaborative filtering
CN110222838B (zh) 文档排序方法、装置、电子设备及存储介质
Chen et al. Next POI recommendation based on location interest mining with recurrent neural networks
CN104239496A (zh) 一种结合模糊权重相似性度量和聚类协同过滤的方法
Bagci et al. Random walk based context-aware activity recommendation for location based social networks
CN116244513B (zh) 随机群组poi推荐方法、系统、设备及存储介质
Xin et al. A location-context awareness mobile services collaborative recommendation algorithm based on user behavior prediction
CN111104607A (zh) 基于签到数据的地点推荐方法及装置
CN109684561B (zh) 基于用户签到行为变化的深层语义分析的兴趣点推荐方法
Özsoy et al. Multi-objective optimization based location and social network aware recommendation
Ahmadlou et al. A new framework to deal with the class imbalance problem in urban gain modeling based on clustering and ensemble models
CN110825978B (zh) 一种基于近邻用户特征共享的多任务协同过滤方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant