CN106021456A - 将文本和地理信息融合在局部协同排列的兴趣点推荐方法 - Google Patents

将文本和地理信息融合在局部协同排列的兴趣点推荐方法 Download PDF

Info

Publication number
CN106021456A
CN106021456A CN201610326185.4A CN201610326185A CN106021456A CN 106021456 A CN106021456 A CN 106021456A CN 201610326185 A CN201610326185 A CN 201610326185A CN 106021456 A CN106021456 A CN 106021456A
Authority
CN
China
Prior art keywords
user
point
interest
poi
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610326185.4A
Other languages
English (en)
Other versions
CN106021456B (zh
Inventor
刘威
骆金昌
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU INFINITE WISDOM ASPECT INFORMATION TECHNOLOGY Co Ltd
Guangzhou Zhongda Nansha Technology Innovation Industrial Park Co Ltd
National Sun Yat Sen University
Original Assignee
GUANGZHOU INFINITE WISDOM ASPECT INFORMATION TECHNOLOGY Co Ltd
Guangzhou Zhongda Nansha Technology Innovation Industrial Park Co Ltd
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU INFINITE WISDOM ASPECT INFORMATION TECHNOLOGY Co Ltd, Guangzhou Zhongda Nansha Technology Innovation Industrial Park Co Ltd, National Sun Yat Sen University filed Critical GUANGZHOU INFINITE WISDOM ASPECT INFORMATION TECHNOLOGY Co Ltd
Priority to CN201610326185.4A priority Critical patent/CN106021456B/zh
Publication of CN106021456A publication Critical patent/CN106021456A/zh
Application granted granted Critical
Publication of CN106021456B publication Critical patent/CN106021456B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种将文本和地理信息融合在局部协同排列的兴趣点推荐方法,包括以下步骤:S1.输入训练集,随机生成锚点;S2.根据隐特征向量、空间特征和主题特征计算出用户POI与锚点的相似度;S3.每个锚点代表一个子矩阵,根据上一步得到相似度,找到与锚点之间相似度大于预设阈值的(用户‑兴趣点)对作为子矩阵中的成员,为每个子矩阵随机初始化用户特征向量和POI特征向量;S4.采集用户、位置点;S5.计算梯度,更新用户特征向量和POI特征向量;S6.判断是否满足终止迭代条件,满足跳转到步骤S7;不满足终止迭代条件,跳转到步骤S4;S7.根据用户特征向量和POI特征向量,估计用户对POI的喜好值;S8.对喜好值进行排序,为用户生成推荐列表。

Description

将文本和地理信息融合在局部协同排列的兴趣点推荐方法
技术领域
本发明涉及信息推送领域,更具体地,涉及一种将文本和地理信息融合在局部协同排列的兴趣点推荐方法。
背景技术
在基于位置服务的社交网络中,有大量的兴趣点(point of interest,POI,或位置点)存在,如餐馆、酒店、景点等,用户经常需要面对数以万计的位置点来做出选择。如何帮助用户过滤掉无用的信息,找出用户可能最关心或喜欢的兴趣点,并推荐给用户,这是兴趣点推荐系统所要完成的工作。
在兴趣点推荐方面,主要面对的是,如何解决数据稀疏所带来的推荐效果并不好的问题。以及面临多源的异构数据,如地理信息和文本信息,如何将他们融入到现有的兴趣点推荐系统中,达到提高推荐效果是非常有必要的。
目前相关领域主要采用的技术是协同过滤,包括基于内存的协同过滤,和基于模型的协同过滤。基于内存的协同过滤方法,是根据用户与用户之间的相似性,向用户推荐相似用户也可能喜欢的兴趣点。但是在学习的数据集-用户的签到数据中,数据是十分稀疏的,数据稀疏度在0.01%左右,这会造成很多用户之间没有共同的签到数据,以致于计算出的用户相似性并不准确,从而导致推荐效果并不好。基于模型的协同过滤方法,如矩阵分解方法,将原有的用户对兴趣点的签到矩阵转化为评分矩阵,然后分解出用户特征隐向量和兴趣点特征隐向量,接着根据学习到的特征向量相乘来预测用户对兴趣点的喜好值,并将喜好值最高的K个兴趣点推荐给用户。这种方法仅考虑了用户签到数据,地理和文本数据并没有很好的融入到模型中。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),提供一种将文本和地理信息融合在局部协同排列的兴趣点推荐方法。
为解决上述技术问题,本发明的技术方案如下:
一种将文本和地理信息融合在局部协同排列的兴趣点推荐方法,包括以下步骤:
S1.输入训练集Ds,随机生成锚点,每个锚点由结构为(用户-兴趣点POI)的数据组成的对(pair);
S2.根据隐特征向量、空间特征和主题特征计算出(用户-兴趣点POI)对与锚点的相似度;
S3.基于锚点选出一个子矩阵,具体是根据上一步得到相似度,找到与锚点之间相似度大于预设阈值的结构(用户-兴趣点POI)作为子矩阵中的成员,为每个子矩阵随机初始化用户特征向量和POI特征向量;
S4.从训练集Ds中采样用户u,用户u去过的兴趣点vi和用户u没有去过的兴趣点vj
S5.计算梯度,更新用户特征向量和POI特征向量;
S6.判断是否满足终止迭代条件,如果满足,跳转到步骤S7;如果不满足终止迭代条件,则跳转到步骤S4;
S7.根据每个子矩阵中的用户特征向量和POI特征向量,估计用户对POI的喜好值;
S8.对喜好值进行排序,为用户生成推荐列表。
优选的,所述步骤S2中根据隐特征向量、空间特征和主题特征计算出(用户-兴趣点POI)对与锚点的相似度,其中:
隐特征向量是通过矩阵分解得到的一个向量,通过余弦值计算出用户特征向量与锚点的用户特征向量之间的隐特征相似度d(u,ut);
d ( u , u t ) = a r cos ( < u , u t > | | u | | &CenterDot; | | u t | | )
其中:u是指一用户u对应的用户特征向量,ut是指锚点中用户ut对应的的用户特征向量;
同理,通过余弦值计算出兴趣点特征向量与锚点的兴趣点特征向量之间的隐特征相似度d(v,vt);
d ( v , v t ) = a r cos ( < v , v t > | | v | | &CenterDot; | | v t | | )
其中:v是指一兴趣点v对应的兴趣点特征向量,vt是指锚点中的兴趣点vt对应的兴趣点特征向量;
空间特征是指用户或兴趣点POI在空间分布情况,基于越近的事物,相似的可能性越大的原则,计算出用户与用户的空间相似度,POI与POI之间的空间相似度;
s ( u , u t ) = 1 2 &pi; h * e - | | l - l t | | 2 2 h * 2
s(u,ut)表示用户u,ut之间的空间相似度,l,lt分别是用户u,ut的经纬度坐标,l,lt选取用户去过的所有地方的经纬度坐标的平均值作为用户的经纬度坐标,h*是带宽值;
s ( v , v t ) = 1 2 &pi; h * e - | | l - l t | | 2 2 h * 2
s(v,vt)表示兴趣点v,vt之间的空间相似度,l,lt分别是兴趣点v,vt的经纬度坐标,h*是带宽值,
主题特征是指用户的喜好的主题分布、兴趣点POI的主题分布,计算用户与用户之间的主题相似度,POI与POI的主题相似度;
t s ( u , u t ) = 1 - ( 1 2 D ( &theta; | | M ) + 1 2 D ( &theta; t | | M ) )
通过LDA(Latent Dirichlet Allocation,一种文本主题生成模型)得到用户的主题分布θ和θt;ts(u,ut)代表用户u,ut之间的主题相似度,D(·||·)是Kullback-Leibler距离,
t s ( v , v t ) = 1 - ( 1 2 D ( &phi; | | M ) + 1 2 D ( &phi; t | | M ) )
同理,通过LDA得到POI的主题分布φ和φt,ts(v,vt)代表兴趣点v,vt之间的主题相似度;
然后对这三类相似度加权求和得到一个综合的相似度;
dmix(u,ut)=(1-α-β)d(u,ut)+αs(u,ut)+βts(u,ut)
dmix(u,ut)是得到的用户的混合相似度,α是空间相似度的权重值,β是主题相似度权重值。
dmix(v,vt)=(1-α-β)d(v,vt)+αs(v,vt)+βts(v,vt)
dmix(v,vt)是得到的兴趣点的混合相似度,α是空间相似度的权重值,β是主题相似度权重值;
最后,计算每个(用户-兴趣点POI)对与锚点的相似度,同时这里用核函数K(·,·)对相似度进行光滑处理;
K h ( ( u , v ) , ( u t , v t ) ) = K h 1 ( u , u t ) K &prime; h 2 ( v , v t )
(用户-兴趣点POI)对与锚点的相似度是由用户相似度与兴趣点相似度的乘积组成,Kh(·,·)表示带宽为h的核函数;
K h 1 ( u , u t ) &Proportional; ( 1 - d m i x ( u , u t ) 2 ) 1 &lsqb; d m i x ( u , u t ) < h 1 &rsqb;
通过上式核函数,对用户相似度进行光滑处理,h1是带宽值,1[·]表示满足中括号内的条件则为1,否则为0;针对不同的相似度会有不同的带宽值,这里通过下标进行区分;
K h 2 ( v , v t ) &Proportional; ( 1 - d m i x ( v , v t ) 2 ) 1 &lsqb; d m i x ( v , v t ) < h 2 &rsqb;
通过上式核函数,对兴趣点相似度进行光滑处理,h2是带宽值。
优选的,所述步骤S5中,计算梯度,更新用户特征向量和POI特征向量,具体方式如下:
采用下式计算梯度:
&part; M A P &part; &Theta; = &Sigma; ( u , v i , v j ) &Element; D s &part; &part; &Theta; ln &sigma; ( x ^ uv i v j ) - &lambda; &Theta; &part; &part; &Theta; | | &Theta; | | 2 &Proportional; &Sigma; ( u , i , j ) &Element; D s - e - x ^ uv i v j 1 + e - x ^ uv i v j &part; &part; &Theta; x ^ uv i v j - &lambda; &Theta; &Theta;
x ^ uv i v j : = x ^ uv i - x ^ uv j
其中,MAP是最大似然值,σ()是sigmod函数;λΘ是正则项系数,防止学习中过拟合;是用户u对兴趣点vi喜好的估计值;同理用户u对兴趣点vj喜好的估计值;是用户u对兴趣点vi优于兴趣点vj的喜好估计值;Θ代指用户特征向量和POI特征向量;
再利用下式更新用户特征向量和POI特征向量:
&Theta; &LeftArrow; &Theta; - &alpha; ( e - x ^ uv i v j 1 + e - x ^ uv i v j &CenterDot; &part; &part; &Theta; x ^ uv i v j + &lambda; &Theta; &Theta; )
&part; &part; &Theta; x ^ uv i v j = v v i - v v j , i f &Theta; = u u u u , i f &Theta; = v v i - u u , i f &Theta; = v v j 0 , e l s e
其中,uu是用户u的用户特征向量,是兴趣点vi的兴趣点特征向量,是兴趣点vj的兴趣点特征向量,α是迭代的步长。
优选的,所述步骤S7根据用户特征向量和POI特征向量,基于下式估计用户对POI的喜好值:
x ^ u , i = &Sigma; t = 1 q K ( ( u t , v t ) , ( u , v ) ) &Sigma; s = 1 q K ( ( u s , v s ) , ( u , v ) ) &lsqb; U t V t T &rsqb; u , i
Ut代表由锚点(ut,vt)构造的子矩阵学习得到的用户特征向量矩阵,是由用户特征向量构成的用户特征向量矩阵;Vt代表由锚点(ut,vt)构造的子矩阵学习得到的POI特征向量矩阵,是由POI特征向量构成的POI特征向量矩阵;通过每个子矩阵学习到用户u对兴趣点i的喜好值,然后乘以根据相似度得到的权重,对它们进行累加就是最终的用户对兴趣点的喜好值
优选的,所述步骤S8是对喜好值进行排序,选择最大的k个喜好值,并将这k个喜好值对应的POI推荐给用户。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出的一种将文本和地理信息融合在局部协同排列的兴趣点推荐方法,它采用排序学习的方法来进行学习用户对兴趣点的喜好,同时它假设用户和兴趣点具有局部特性,于是采用局部协同排序学习的方法来进行兴趣点推荐。它一方面能够表现出用户和兴趣点的局部特性,它是根据用户间的相似性,兴趣点间的相似性,将相似的用户划分在一起,将相似的兴趣点划分在一起,并以此将原有的全局矩阵划分为局部的子矩阵;另一方面能够通过划分为局部子矩阵,缓解数据的稀疏性,从而提高推荐的效果。同时该方法还能够很好的将多源异构数据融入到模型中,如在划分局部子矩阵时,一般是通过签到数据计算相似性的。而当有文本数据,如用户对兴趣点的评分数据时,就可以通过LDA等主题模型方法,计算用户间、兴趣点间的主题相似度,将其融入到原来通过签到数据得到的相似度中,从而可以发现更多潜在的相似用户、兴趣点,然后能够提高局部子矩阵的数据稀疏性,使其更加稠密,利于更好的提高推荐效果。
附图说明
图1为本发明的流程图。
图2为矩阵划分图,将原有矩阵转化成若干个子矩阵。
图3为原矩阵中值的学习图,原矩阵中的每个值通过子矩阵的学习得到。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1,一种将文本和地理信息融合在局部协同排列的兴趣点推荐方法,包括以下步骤:
S1.输入训练集Ds,随机生成锚点,每个锚点由结构为(用户-兴趣点POI)的数据组成的对(pair);
S2.根据隐特征向量、空间特征和主题特征计算出(用户-兴趣点POI)对与锚点的相似度;
S3.基于锚点选出一个子矩阵,具体是根据上一步得到相似度,找到与锚点之间相似度大于预设阈值的结构(用户-兴趣点POI)作为子矩阵中的成员,为每个子矩阵随机初始化用户特征向量和POI特征向量;
S4.从训练集Ds中采样用户u,用户u去过的兴趣点vi和用户u没有去过的兴趣点vj
S5.计算梯度,更新用户特征向量和POI特征向量;
S6.判断是否满足终止迭代条件,如果满足,跳转到步骤S7;如果不满足终止迭代条件,则跳转到步骤S4;
S7.根据每个子矩阵中的用户特征向量和POI特征向量,估计用户对POI的喜好值;
S8.对喜好值进行排序,为用户生成推荐列表。
上述步骤S2中根据隐特征向量、空间特征和主题特征计算出(用户-兴趣点POI)对与锚点的相似度,其中:
隐特征向量是通过矩阵分解得到的一个向量,通过余弦值计算出用户特征向量与锚点的用户特征向量之间的隐特征相似度d(u,ut);
d ( u , u t ) = a r cos ( < u , u t > | | u | | &CenterDot; | | u t | | )
其中:u是指一用户u对应的用户特征向量,ut是指锚点中用户ut对应的的用户特征向量;
同理,通过余弦值计算出兴趣点特征向量与锚点的兴趣点特征向量之间的隐特征相似度d(v,vt);
d ( v , v t ) = a r cos ( < v , v t > | | v | | &CenterDot; | | v t | | )
其中:v是指一兴趣点v对应的兴趣点特征向量,vt是指锚点中的兴趣点vt对应的兴趣点特征向量;
空间特征是指用户或兴趣点POI在空间分布情况,基于越近的事物,相似的可能性越大的原则,计算出用户与用户的空间相似度,POI与POI之间的空间相似度;
s ( u , u t ) = 1 2 &pi; h * e - | | l - l t | | 2 2 h * 2
s(u,ut)表示用户u,ut之间的空间相似度,l,lt分别是用户u,ut的经纬度坐标,l,lt选取用户去过的所有地方的经纬度坐标的平均值作为用户的经纬度坐标,h*是带宽值;
s ( v , v t ) = 1 2 &pi; h * e - | | l - l t | | 2 2 h * 2
s(v,vt)表示兴趣点v,vt之间的空间相似度,l,lt分别是兴趣点v,vt的经纬度坐标,h*是带宽值,
主题特征是指用户的喜好的主题分布、兴趣点POI的主题分布,计算用户与用户之间的主题相似度,POI与POI的主题相似度;
t s ( u , u t ) = 1 - ( 1 2 D ( &theta; | | M ) + 1 2 D ( &theta; t | | M ) )
通过LDA(Latent Dirichlet Allocation,一种文本主题生成模型)得到用户的主题分布θ和θt;ts(u,ut)代表用户u,ut之间的主题相似度,D(·||·)是Kullback-Leibler距离,
t s ( v , v t ) = 1 - ( 1 2 D ( &phi; | | M ) + 1 2 D ( &phi; t | | M ) )
同理,通过LDA得到POI的主题分布φ和φt,ts(v,vt)代表兴趣点v,vt之间的主题相似度;
然后对这三类相似度加权求和得到一个综合的相似度;
dmix(u,ut)=(1-α-β)d(u,ut)+αs(u,ut)+βts(u,ut)
dmix(u,ut)是得到的用户的混合相似度,α是空间相似度的权重值,β是主题相似度权重值。
dmix(v,vt)=(1-α-β)d(v,vt)+αs(v,vt)+βts(v,vt)
dmix(v,vt)是得到的兴趣点的混合相似度,α是空间相似度的权重值,β是主题相似度权重值;
最后,计算每个(用户-兴趣点POI)对与锚点的相似度,同时这里用核函数K(·,·)对相似度进行光滑处理;
K h ( ( u , v ) , ( u t , v t ) ) = K h 1 ( u , u t ) K &prime; h 2 ( v , v t )
(用户-兴趣点POI)对与锚点的相似度是由用户相似度与兴趣点相似度的乘积组成,Kh(·,·)表示带宽为h的核函数;
K h 1 ( u , u t ) &Proportional; ( 1 - d m i x ( u , u t ) 2 ) 1 &lsqb; d m i x ( u , u t ) < h 1 &rsqb;
通过上式核函数,对用户相似度进行光滑处理,h1是带宽值,针对不同的相似度会有不同的带宽值,这里通过下标进行区分;
K h 2 ( v , v t ) &Proportional; ( 1 - d m i x ( v , v t ) 2 ) 1 &lsqb; d m i x ( v , v t ) < h 2 &rsqb;
通过上式核函数,对兴趣点相似度进行光滑处理,h2是带宽值。
1[·]表示满足中括号内的条件则为1,否则为0,对进行光滑处理后的相似度进行选取,并作为子矩阵中的成员对。
优选的,所述步骤S5中,计算梯度,更新用户特征向量和POI特征向量,具体方式如下:
采用下式计算梯度:
&part; M A P &part; &Theta; = &Sigma; ( u , v i , v j ) &Element; D s &part; &part; &Theta; ln &sigma; ( x ^ uv i v j ) - &lambda; &Theta; &part; &part; &Theta; | | &Theta; | | 2 &Proportional; &Sigma; ( u , i , j ) &Element; D s - e - x ^ uv i v j 1 + e - x ^ uv i v j &part; &part; &Theta; x ^ uv i v j - &lambda; &Theta; &Theta;
x ^ uv i v j : = x ^ uv i - x ^ uv j
其中,MAP是最大似然值,σ()是sigmod函数;λΘ是正则项系数,防止学习中过拟合;是用户u对兴趣点vi喜好的估计值;同理用户u对兴趣点vj喜好的估计值;是用户u对兴趣点vi优于兴趣点vj的喜好估计值;Θ代指用户特征向量和POI特征向量;
再利用下式更新用户特征向量和POI特征向量:
&Theta; &LeftArrow; &Theta; - &alpha; ( e - x ^ uv i v j 1 + e - x ^ uv i v j &CenterDot; &part; &part; &Theta; x ^ uv i v j + &lambda; &Theta; &Theta; )
&part; &part; &Theta; x ^ uv i v j = v v i - v v j , i f &Theta; = u u u u , i f &Theta; = v v i - u u , i f &Theta; = v v j 0 , e l s e
其中,uu是用户u的用户特征向量,是兴趣点vi的兴趣点特征向量,是兴趣点vj的兴趣点特征向量,α是迭代的步长。
上述步骤S7根据用户特征向量和POI特征向量,基于下式估计用户对POI的喜好值:
x ^ u , i = &Sigma; t = 1 q K ( ( u t , v t ) , ( u , v ) ) &Sigma; s = 1 q K ( ( u s , v s ) , ( u , v ) ) &lsqb; U t V t T &rsqb; u , i
Ut代表由锚点(ut,vt)构造的子矩阵学习得到的用户特征向量矩阵,是由用户特征向量构成的用户特征向量矩阵;Vt代表由锚点(ut,vt)构造的子矩阵学习得到的POI特征向量矩阵,是由POI特征向量构成的POI特征向量矩阵;通过每个子矩阵学习到用户u对兴趣点i的喜好值,然后乘以根据相似度得到的权重,对它们进行累加就是最终的用户对兴趣点的喜好值
上述步骤S8是对喜好值进行排序,选择最大的k个喜好值,并将这k个喜好值对应的POI推荐给用户。
本发明提出了针对兴趣点推荐的融合文本和地理信息于局部协同排序方法,它采用排序学习的方法来进行学习用户对兴趣点的喜好,同时它假设用户和兴趣点具有局部特性,于是采用局部协同排序学习的方法来进行兴趣点推荐。它一方面能够表现出用户和兴趣点的局部特性,它是根据用户间的相似性,兴趣点间的相似性,将相似的用户划分在一起,将相似的兴趣点划分在一起,并以此将原有的全局矩阵划分为局部的子矩阵;另一方面能够通过划分为局部子矩阵,缓解数据的稀疏性,从而提高推荐的效果。同时该方法还能够很好的将多源异构数据融入到模型中,如在划分局部子矩阵时,一般是通过签到数据计算相似性的。而当有文本数据,如用户对兴趣点的评分数据时,就可以通过LDA等主题模型方法,计算用户间、兴趣点间的主题相似度,将其融入到原来通过签到数据得到的相似度中,从而可以发现更多潜在的相似用户、兴趣点,然后能够提高局部子矩阵的数据稀疏性,使其更加稠密,利于更好的提高推荐效果。
图2中,对于矩阵M中的每个元素s,在原来的矩阵M中它的邻居s′,即{s′:d(s,s′)<h},d(s,s′)是元素s和s′的距离,h是带宽值,可以通过相应的低秩矩阵T(s)中的元素近似表示(M中的阴影区域通过连线与T(s)的区域相对应),如果d(s,r)足够小,那么T(s)就与T(r)相似,如图中所示它们在空间R(n1×n2)中是空间相近的。
图3中,原始矩阵M(位于下方的)通过两个低秩矩阵T(t)(与t相近)和T(r)(与r相近);连线连接的三个矩阵等价于相同项。Mt=Tt(t)和Mr=Tr(r),上方右边的公式表示连接三个模式项的关系。当d(t,r)足够小时,e=Tr(t)-Tr(r)=Tr(t)-Mr(r)也同样小。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种将文本和地理信息融合在局部协同排列的兴趣点推荐方法,其特征在于,包括以下步骤:
S1.输入训练集Ds,随机生成锚点,每个锚点由结构为(用户-兴趣点POI)的数据组成的对(pair);
S2.根据隐特征向量、空间特征和主题特征计算出(用户-兴趣点POI)对与锚点的相似度;
S3.基于锚点选出一个子矩阵,具体是根据上一步得到相似度,找到与锚点之间相似度大于预设阈值的结构(用户-兴趣点POI)作为子矩阵中的成员,为每个子矩阵随机初始化用户特征向量和POI特征向量;
S4.从训练集Ds中采样用户u,用户u去过的兴趣点vi和用户u没有去过的兴趣点vj
S5.计算梯度,更新用户特征向量和POI特征向量;
S6.判断是否满足终止迭代条件,如果满足,跳转到步骤S7;如果不满足终止迭代条件,则跳转到步骤S4;
S7.根据每个子矩阵中的用户特征向量和POI特征向量,估计用户对POI的喜好值;
S8.对喜好值进行排序,为用户生成推荐列表。
2.根据权利要求1所述的兴趣点推荐方法,其特征在于,所述步骤S2中根据隐特征向量、空间特征和主题特征计算出(用户-兴趣点POI)对与锚点的相似度,其中:
隐特征向量是通过矩阵分解得到的一个向量,通过余弦值计算出用户特征向量与锚点的用户特征向量之间的隐特征相似度d(u,ut);
d ( u , u t ) = a r cos ( < u , u t > | | u | | &CenterDot; | | u t | | )
其中:u是指一用户u对应的用户特征向量,ut是指锚点中用户ut对应的的用户特征向量;
同理,通过余弦值计算出兴趣点特征向量与锚点的兴趣点特征向量之间的隐特征相似度d(v,vt);
d ( v , v t ) = a r cos ( < v , v t > | | v | | &CenterDot; | | v t | | )
其中:v是指一兴趣点v对应的兴趣点特征向量,vt是指锚点中的兴趣点vt对应的兴趣点特征向量;
空间特征是指用户或兴趣点POI在空间分布情况,基于越近的事物,相似的可能性越大的原则,计算出用户与用户的空间相似度,POI与POI之间的空间相似度;
s ( u , u t ) = 1 2 &pi; h * e - | | l - l t | | 2 2 h * 2
s(u,ut)表示用户u,ut之间的空间相似度,l,lt分别是用户u,ut的经纬度坐标,l,lt选取用户去过的所有地方的经纬度坐标的平均值作为用户的经纬度坐标,h*是带宽值;
s ( v , v t ) = 1 2 &pi; h * e - | | l - l t | | 2 2 h * 2
s(v,vt)表示兴趣点v,vt之间的空间相似度,l,lt分别是兴趣点v,vt的经纬度坐标,h*是带宽值,
主题特征是指用户的喜好的主题分布、兴趣点POI的主题分布,计算用户与用户之间的主题相似度,POI与POI的主题相似度;
t s ( u , u t ) = 1 - ( 1 2 D ( &theta; | | M ) + 1 2 D ( &theta; t | | M ) )
通过文本主题生成模型LDA得到用户的主题分布θ和θt;ts(u,ut)代表用户u,ut之间的主题相似度,D(·||·)是Kullback-Leibler距离,
t s ( v , v t ) = 1 - ( 1 2 D ( &phi; | | M ) + 1 2 D ( &phi; t | | M ) )
同理,通过LDA得到POI的主题分布φ和φt,ts(v,vt)代表兴趣点v,vt之间的主题相似度;
然后对这三类相似度加权求和得到一个综合的相似度;
dmix(u,ut)=(1-α-β)d(u,ut)+αs(u,ut)+βts(u,ut)
dmix(u,ut)是得到的用户的混合相似度,α是空间相似度的权重值,β是主题相似度权重值;
dmix(v,vt)=(1-α-β)d(v,vt)+αs(v,vt)+βts(v,vt)
dmix(v,vt)是得到的兴趣点的混合相似度,α是空间相似度的权重值,β是主题相似度权重值;
最后,计算每个(用户-兴趣点POI)对与锚点的相似度,同时这里用核函数K(·,·)对相似度进行光滑处理;
K h ( ( u , v ) , ( u t , v t ) ) = K h 1 ( u , u t ) K &prime; h 2 ( v , v t )
(用户-兴趣点POI)对与锚点的相似度是由用户相似度与兴趣点相似度的乘积组成,Kh(·,·)表示带宽为h的核函数;
K h 1 ( u , u t ) &Proportional; ( 1 - d m i x ( u , u t ) 2 ) 1 &lsqb; d m i x ( u , u t ) < h 1 &rsqb;
通过上式核函数,对用户相似度进行光滑处理,h1是带宽值,针对不同的相似度会有不同的带宽值,这里通过下标进行区分;1[·]表示满足中括号内的条件则为1,否则为0;
K h 2 ( v , v t ) &Proportional; ( 1 - d m i x ( v , v t ) 2 ) 1 &lsqb; d m i x ( v , v t ) < h 2 &rsqb;
通过上式核函数,对兴趣点相似度进行光滑处理,h2是带宽值。
3.根据权利要求1所述的兴趣点推荐方法,其特征在于,所述步骤S5中,计算梯度,更新用户特征向量和POI特征向量,具体方式如下:
采用下式计算梯度:
&PartialD; MAP &PartialD; &Theta; = &Sigma; ( u , v i , v j ) &Element; D s &PartialD; &PartialD; &Theta; ln &sigma; ( x ^ uv i v j ) - &lambda; &Theta; &PartialD; &PartialD; &Theta; | | &Theta; | | 2 &Proportional; &Sigma; ( u , i , j ) &Element; D s - e - x ^ uv i v j 1 + e x ^ uv i v j &PartialD; &PartialD; &Theta; x ^ uv i v j - &lambda; &Theta; &Theta;
x ^ uv i v j : = x ^ uv i - x ^ uv j
其中,MAP是最大似然值,σ()是sigmod函数;λΘ是正则项系数,防止学习中过拟合;是用户u对兴趣点vi喜好的估计值;同理用户u对兴趣点vj喜好的估计值;是用户u对兴趣点vi优于兴趣点vj的喜好估计值;Θ代指用户特征向量和POI特征向量;
再利用下式更新用户特征向量和POI特征向量:
&Theta; &LeftArrow; &Theta; - &alpha; ( e - x ^ uv i v j 1 + e - x ^ uv i v j &CenterDot; &part; &part; &Theta; x ^ uv i v j + &lambda; &Theta; &Theta; )
&part; &part; &Theta; x ^ uv i v j = v v i - v v j , i f &Theta; = u u u u , i f &Theta; = v v i - u u , i f &Theta; = v v j 0 , e l s e
其中,uu是用户u的用户特征向量,是兴趣点vi的兴趣点特征向量,是兴趣点vj的兴趣点特征向量,α是迭代的步长。
4.根据权利要求1所述的兴趣点推荐方法,其特征在于,所述步骤S7根据用户特征向量和POI特征向量,基于下式估计用户对POI的喜好值:
x ^ u , i = &Sigma; t = 1 q K ( ( u t , v t ) , ( u , v ) ) &Sigma; s = 1 q K ( ( u s , v s ) , ( u , v ) ) &lsqb; U t V t T &rsqb; u , i
Ut代表由锚点(ut,vt)构造的子矩阵学习得到的用户特征向量矩阵,是由用户特征向量构成的用户特征向量矩阵;Vt代表由锚点(ut,vt)构造的子矩阵学习得到的POI特征向量矩阵,是由POI特征向量构成的POI特征向量矩阵;通过每个子矩阵学习到用户u对兴趣点i的喜好值,然后乘以根据相似度得到的权重,对它们进行累加就是最终的用户对兴趣点的喜好值
5.根据权利要求1所述的兴趣点推荐方法,其特征在于,所述步骤S8是对喜好值进行排序,选择最大的k个喜好值,并将这k个喜好值对应的POI推荐给用户。
CN201610326185.4A 2016-05-17 2016-05-17 将文本和地理信息融合在局部协同排列的兴趣点推荐方法 Expired - Fee Related CN106021456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610326185.4A CN106021456B (zh) 2016-05-17 2016-05-17 将文本和地理信息融合在局部协同排列的兴趣点推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610326185.4A CN106021456B (zh) 2016-05-17 2016-05-17 将文本和地理信息融合在局部协同排列的兴趣点推荐方法

Publications (2)

Publication Number Publication Date
CN106021456A true CN106021456A (zh) 2016-10-12
CN106021456B CN106021456B (zh) 2020-02-21

Family

ID=57098035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610326185.4A Expired - Fee Related CN106021456B (zh) 2016-05-17 2016-05-17 将文本和地理信息融合在局部协同排列的兴趣点推荐方法

Country Status (1)

Country Link
CN (1) CN106021456B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600360A (zh) * 2016-11-11 2017-04-26 北京小度信息科技有限公司 推荐对象的排序方法及装置
CN106777169A (zh) * 2016-12-21 2017-05-31 北京车网互联科技有限公司 一种基于车联网数据的用户出行喜好分析方法
CN108491425A (zh) * 2018-02-07 2018-09-04 中山大学 一种对长尾兴趣点进行扩展的模型构建方法
CN109218769A (zh) * 2018-09-30 2019-01-15 武汉斗鱼网络科技有限公司 一种直播间的推荐方法以及相关设备
CN111090630A (zh) * 2019-12-16 2020-05-01 中科宇图科技股份有限公司 基于多源空间点数据的数据融合处理方法
CN112801749A (zh) * 2021-02-04 2021-05-14 重庆邮电大学 融合用户连续签到行为序列上下文特征的兴趣点推荐方法
CN113626697A (zh) * 2021-08-05 2021-11-09 辽宁工程技术大学 一种基于anchor-LDA和卷积神经网络的兴趣点推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763502A (zh) * 2008-12-24 2010-06-30 中国科学院自动化研究所 一种高效的敏感图像检测方法及其系统
CN103605729A (zh) * 2013-11-19 2014-02-26 段炼 一种基于局部随机词汇密度模型poi中文文本分类的方法
US20140222755A1 (en) * 2011-09-08 2014-08-07 Telefonaktiebolaget L M Ericsson (Publ) Assigning Tags to Media Files
CN104699818A (zh) * 2015-03-25 2015-06-10 武汉大学 一种多源异构的多属性poi融合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763502A (zh) * 2008-12-24 2010-06-30 中国科学院自动化研究所 一种高效的敏感图像检测方法及其系统
US20140222755A1 (en) * 2011-09-08 2014-08-07 Telefonaktiebolaget L M Ericsson (Publ) Assigning Tags to Media Files
CN103605729A (zh) * 2013-11-19 2014-02-26 段炼 一种基于局部随机词汇密度模型poi中文文本分类的方法
CN104699818A (zh) * 2015-03-25 2015-06-10 武汉大学 一种多源异构的多属性poi融合方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600360A (zh) * 2016-11-11 2017-04-26 北京小度信息科技有限公司 推荐对象的排序方法及装置
CN106777169A (zh) * 2016-12-21 2017-05-31 北京车网互联科技有限公司 一种基于车联网数据的用户出行喜好分析方法
CN108491425A (zh) * 2018-02-07 2018-09-04 中山大学 一种对长尾兴趣点进行扩展的模型构建方法
CN108491425B (zh) * 2018-02-07 2020-10-27 中山大学 一种对长尾兴趣点进行扩展的模型构建方法
CN109218769A (zh) * 2018-09-30 2019-01-15 武汉斗鱼网络科技有限公司 一种直播间的推荐方法以及相关设备
CN109218769B (zh) * 2018-09-30 2021-01-01 武汉斗鱼网络科技有限公司 一种直播间的推荐方法以及相关设备
CN111090630A (zh) * 2019-12-16 2020-05-01 中科宇图科技股份有限公司 基于多源空间点数据的数据融合处理方法
CN112801749A (zh) * 2021-02-04 2021-05-14 重庆邮电大学 融合用户连续签到行为序列上下文特征的兴趣点推荐方法
CN113626697A (zh) * 2021-08-05 2021-11-09 辽宁工程技术大学 一种基于anchor-LDA和卷积神经网络的兴趣点推荐方法

Also Published As

Publication number Publication date
CN106021456B (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN106021456A (zh) 将文本和地理信息融合在局部协同排列的兴趣点推荐方法
Yang et al. Travel cost inference from sparse, spatio temporally correlated time series using markov models
Chen et al. Personalized itinerary recommendation: Deep and collaborative learning with textual information
CN104935963B (zh) 一种基于时序数据挖掘的视频推荐方法
CN103971161B (zh) 基于柯西分布量子粒子群的混合推荐方法
CN104199818B (zh) 一种基于分类的社会化推荐方法
Raveau et al. Practical and empirical identifiability of hybrid discrete choice models
Ying et al. A temporal-aware POI recommendation system using context-aware tensor decomposition and weighted HITS
Song et al. Detecting arbitrarily shaped clusters in origin-destination flows using ant colony optimization
CN107330461A (zh) 基于情感与信任的协同过滤推荐方法
CN108256914A (zh) 一种基于张量分解模型的兴趣点种类预测方法
US11490220B2 (en) System and method for accurately and efficiently generating ambient point-of-interest recommendations
CN103023977A (zh) 基于位置信息的推荐系统及推荐方法
Chen et al. Predicting next locations with object clustering and trajectory clustering
CN106156333A (zh) 一种融合社会化信息的改进单类协同过滤方法
CN109508428A (zh) 基于兴趣点真流行度与隐式信任挖掘的兴趣点推荐方法
CN110795571A (zh) 基于深度学习和知识图谱的文化旅游资源推荐方法
CN106126615A (zh) 一种兴趣点推荐的方法及系统
CN104850645B (zh) 一种基于矩阵分解的主动学习评分引导方法及系统
CN103870604A (zh) 旅游推荐方法和装置
Zhu et al. A group-oriented recommendation algorithm based on similarities of personal learning generative networks
Zhang et al. FM-based: algorithm research on rural tourism recommendation combining seasonal and distribution features
CN108628967A (zh) 一种基于学习生成网络相似度的网络学习群组划分方法
CN105761154A (zh) 一种社会化推荐方法及装置
CN111143539A (zh) 基于知识图谱的教学领域问答方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200221