CN109213938B - 一种基于异构网络的poi推荐方法 - Google Patents
一种基于异构网络的poi推荐方法 Download PDFInfo
- Publication number
- CN109213938B CN109213938B CN201810901159.9A CN201810901159A CN109213938B CN 109213938 B CN109213938 B CN 109213938B CN 201810901159 A CN201810901159 A CN 201810901159A CN 109213938 B CN109213938 B CN 109213938B
- Authority
- CN
- China
- Prior art keywords
- user
- poi
- parameter
- community
- poiv
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000008569 process Effects 0.000 claims abstract description 23
- 230000008451 emotion Effects 0.000 claims description 50
- 238000005070 sampling Methods 0.000 claims description 10
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 239000004744 fabric Substances 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 230000004087 circulation Effects 0.000 claims description 3
- 239000013604 expression vector Substances 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 33
- 230000000694 effects Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000001550 time effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于异构网络的POI推荐方法,涉及POI推荐技术领域,建立了一种新的评论语句概率生成模型,该模型可处理跨网站的异构数据,同时考虑了地理区域划分、用户社区划分、评论内容以及用户交互行为对POI预测结果的影响,解决了推荐过程中出现的数据稀疏问题和用户信任度低的问题,可显著提高POI推荐的准确性。
Description
技术领域
本发明涉及POI推荐技术领域,特别是涉及一种基于异构网络的POI推荐方法。
背景技术
随着社会化媒体的兴起,例如基于位置的社交网络服务(LBSN)、微博以及各种移动端社会化媒体(比如微信、街旁等)的出现,使得互联网越来越真实化,线上的数据和线下的人们的活动已经开始走向融合。推荐系统一方面能够帮助用户做出选择,发现他们感兴趣的、有价值的物品和线下服务,改善用户体验;另外一方面让物品和服务通过社会化媒体平台展现给对它们感兴趣的用户面前,从而实现用户和物品提供商的双赢。
然而,POI推荐存在诸多难题,以下两个最为显著:首先,就是数据稀疏问题。数据中存在大量的POI和大量的用户,但是每个用户访问过的POI却是有限的。通过深度挖掘用户签到信息和评论文本可以在一定程度上克服该问题。其次,是用户信任度低的问题。LBSN中的用户拥有不同的生活背景和兴趣爱好,彼此之间形成的好友关系是暂时性的和松散的,单纯利用LBSN数据进行推荐往往具有片面性。而以新浪微博、Facebook等为代表的社交网络则被称为基于通信的社交网络(Communication-Based Social Networks,简写为CBSN)。CBSN中的好友往往具有线下的真实好友关系,并且这种关系更加紧密,信任度更高,相互推荐的POI更容易被采纳。此外,CBSN中的用户交互行为具有多样性,比如原创、转发、回复都可以产生文本信息。
已有的个性化POI推荐方法没有采用CBSN中多种因素的影响,更没有准确整合上述所有方面的影响,因此,对推荐过程中出现的数据稀疏问题和用户信任度低的问题未能解决,导致对用户的POI的推荐准确性不高。
发明内容
为了解决上述问题,本发明提供一种基于异构网络的POI推荐方法,建立了一种新的评论语句概率生成模型,该模型同时考虑了地理区域划分、用户社区划分、评论内容以及用户交互行为对POI预测结果的影响,可显著提高POI推荐的准确性。为此,本发明采用的技术方案是:
提供一种基于异构网络的POI推荐方法,该方法包括以下步骤:
S1、从基于位置的社交网络LBSN(例如Foursquare等)和基于通信的社交网络CBSN(例如Twitter、Facebook等)服务网站采集数据,利用其中部分用户在这两个网站中都拥有账号,从而使两个网站发生关联,形成异构网络;
S2、利用位置聚类算法对LBSN中的所有POI划分区域,形成多个地理区域r,并利用社区划分算法,根据CBSN中用户间的好友关系对所有用户进行划分,形成多个社区c,并且同一个用户可以属于多个社区;
S3、根据概率图模型理论,构建概率生成模型;
S4、利用采样的方法计算概率生成模型中各分布参数的值,得到参数赋值后的概率生成模型;
S5、利用参数赋值后的概率生成模型计算用户选择的每个POI的概率;
S6、将S5计算出的概率进行排序,并将概率排序靠前的多个POI推荐给用户;
所述的POI即为兴趣点。
这里步骤S1所述的构建异构网络就是利用用户在两个网站上的关联性(比如在这两个网站中都拥有账号)形成的网络。
进一步的是,步骤S1中采集的数据包括:CBSN中的用户ID、用户名、用户交互时间、产生的文本,用户好友关系;LBSN中的用户ID、用户名、POI的ID、POI的名称、POI的类型、POI的位置;同一个用户在CBSN和LBSN中ID的对应关系。
进一步的是,所述步骤S2中,位置聚类算法为DBSCAN聚类算法,社区划分算法为Girvan-Newman算法。但位置聚类算法不限于DBSCAN算法,还可以是其它常规的聚类算法。社区划分算法同样不限于Girvan-Newman算法,还可以是其它常规的社区划分算法。
进一步的是,在步骤S3中,所述概率生成模型包括以下组件:
1)社区-行为组件:在该组件中,用户u属于多个社区c,并能通过多种行为b与社区c中的其他用户发生交互,产生文本内容;对用户u,每个社区c的出现次数和社区c中每个行为b的出现次数分别看作服从参数为ψ和σ的多项分布;
2)区域-POI组件:在该组件中,用户u可选择的每个地理区域r的出现次数和地理区域r内的每个POIv的出现次数分别看作服从参数为和φ的多项分布;每个POIv所处的位置都服从地理区域r上的高斯分布,该分布拥有均值μ与方差Σ;
3)情感-词语组件:该组件表示,通过所述社区-行为组件中的某种行为b对所述区域-POI组件中的某个POIv发表评论,其中包含若干词语及其所属情感;具体地,行为b对POIv产生的多条评论中,第m条评论的第n个词语属于某种潜在情感,这些情感出现次数服从参数为θ的多项分布,而某个情感z中的词语出现次数服从参数为的多项分布。
需要说明的是,上述的各种符号只是指代作用,也可以用其它符号代替。所述的出现的次数与出现的概率成正比。
进一步的是,所述ψ服从超参数为η的Dirichlet分布,所述服从超参数为γ的Dirichlet分布,所述σ服从超参数为π的Dirichlet分布,φ服从超参数为τ的Dirichlet分布,所述θ服从超参数为α的Dirichlet分布,所述服从超参数为β的Dirichlet分布。
进一步的是,在步骤S4中,利用Gibbs采样方法(也可以采用其他采样方法)计算分布参数的值,计算过程如下:
所述分布参数包括ψ,σ,φ,θ,
其中Dirichlet的超参数取预设值为:α=50/K,γ=50/R,η=50/C,β=τ=π=0.01;其中,K表示情感z的种类的数量,R表示地理区域r的数量,C表示社区c的数量。
S41、为每一条评论文本随机赋予一个初始社区c索引、地理区域r索引,以及情感z索引;
S42、将所有分布参数赋值为0;
S43、利用以下公式(2)和(3)对每条评论文本所属社区c索引和地理区域r索引执行更新操作:
其中,表示除了当前社区以外的所有社区,表示除了当前地理区域以外的所有地理区域;v′,b′,u′为求和过程的中间变量;nu,c和nu,r是采样到的用户u位于社区c和地理区域r的次数,nb,c是采样到的社区c中出现行为b的次数,nv,r是采样到的地理区域r中出现POIv的次数;nu′,c和nu′,r是采样到的用户u′选择社区c和地理区域r的次数,nb′,c是采样到的社区c中出现行为b′的次数,nv′,r是采样到的地理区域r中出现POIv′的次数,表示除当前项以外的数量(当前项是指当前用户、地理区域、社区、行为和POI的组合所得的次数,例如nb,c是采样到的社区c中出现行为b的次数,则表示组合(b,c)以外的组合产生的次数);lv表示POIv的坐标位置;μr表示地理区域r中POIv位置的平均值;Σr表示地理区域r中POIv位置的方差;
S44、按以下两个公式(4)和(5)更新地理区域r的均值和方差:
其中,Sr表示区域r中的POI数量;T表示向量的转置;
S45、按以下式子更新情感z:
其中表示除当前情感外,POIv的评论中所包含的其他情感,表示除当前项以外的数量(表示),nv,b,z是采样到的行为b对POIv产生评论文本中包含情感z的次数,nw,z是从情感z中采样出词语w的次数,wv,b表示行为b对POIv产生的词语集合,nv′,b′,z是采样到的行为b′对POIv′产生评论文本中包含情感z的次数,nw′,z是从情感z中采样出单词w′的次数,v′,b′,w′为求和过程的中间变量;
S46、重复执行步骤S43-S45的更新过程,直至收敛;
S47、取得各分布参数的值,即得到参数赋值后的概率生成模型。
进一步的是,在步骤S5中,具体步骤如下:
S51、利用以下公式(7)计算指定用户u选择POIv的概率:
其中,v′,b′,w′,u′为求和过程的中间变量;是用户u′所在地理区域r的分布参数,是地理区域r内POIv的分布参数,是用户u选择社区c时的概率分布参数,是社区c中发生用户u行为b的概率分布参数;是用户u采用行为b对POIv产生的评论中情感z分布参数;是情感z中词语的概率分布参数;
S52、对用户u,计算每个POI的概率。
进一步的是,在步骤S46中,忽略前500-800次的循环操作,解决冷启动问题。
进一步的是,在采样过程中,以40-60次循环作为间隔进行采样,以解决样本关联的问题。
本发明的概率生成模型的构建过程如下:
针对步骤S1采集的数据,以及步骤S2中进行的区域和用户的划分,当用户u同时属于多个社区时,用户u首先从所属的多个社区中选取一个社区c,用户u与该社区c中其他用户交互时,先从多个行为(包括原创、转发、回复和提及等)中选择一个行为b,然后使用该行为b以产生文本内容。针对用户u,每个社区c的出现次数和社区c中每个行为b的出现次数分别看作服从参数为ψ和σ的多项分布,所述ψ服从超参数为η的Dirichlet分布,所述σ服从超参数为π的Dirichlet分布,根据概率图模型理论,形成社区-行为组件,作为概率生成模型的一部分。
同时,用户u可以从多个地理区域中选择POI:用户u首先从多个地理区域中选择一个感兴趣的地理区域r,然后在该地理区域r中选择一个POIv,作为评论对象。用户u可选择的每个地理区域的出现次数和选择的地理区域r内的每个POIv的出现次数分别看作服从参数为和φ的多项分布,所述服从超参数为γ的Dirichlet分布,φ服从超参数为τ的Dirichlet分布;每个POIv所处的位置都服从地理区域r上的高斯分布,该分布拥有均值μ与方差Σ,根据概率图模型理论,形成区域-POI组件,作为概率生成模型的一部分。
最后,通过所述社区-行为组件中的某种行为b对所述区域-POI组件中的某个POIv产生一些列文本,其中包含若干词语及其所属情感,这些文本的集合用评论集Mv,b来表示。具体地,行为b对POIv产生的多条文本中,第m条评论的第n个词语属于某种潜在情感,设这些情感出现次数服从参数为θ的多项分布,所述θ服从超参数为α的Dirichlet分布;而某个情感z中的词语w出现次数服从参数为的多项分布,所述服从超参数为β的Dirichlet分布。这样就利用概率图模型原理,形成包括情感z以及情感z中的词语w的情感-词语组件,且将社区-行为组件、区域-POI组件和情感-词语组件结合起来,形成概率生成模型。
这里的社区-行为组件、区域-POI组件和情感-词语组件是对概率生成模型中的组成部分的命名而已。
通过采样的方法对分布参数ψ,σ,φ,θ,进行赋值(计算得到),即可形成赋值后的概率生成模型。
采用本技术方案的有益效果:
第一,本发明利用基于异构网络(即LBSN-CBSN)建立了一种新的评论语句概率生成模型,该模型同时考虑了地理区域划分、评论内容和用户之间交互行为对POI预测结果的影响,CBSN中的好友则紧密得多,他们往往具有线下的真实好友关系,其信任度更高,相互推荐的POI更容易被采纳解决了数据稀疏和用户信任度低的问题,显著提高POI推荐的准确性。
第二,本发明方法忽略前几百次的循环操作以解决冷启动问题,并且以一定间隔进行采样以解决样本关联的问题。
第三,CBSN中用户之间交互具有行为多样性,比如原创、转发、回复都可以产生文本信息。将用户行为的多样性因素引入到兴趣点推荐,有利于改善推荐的效果。
附图说明
下面结合附图对本发明作进一步详细说明。
图1是本发明方法的流程图;
图2是本发明方法的概率生成模型结构图;
图3是本发明方法的概率生成模型构建过程流程图;
图4是本发明方法的实施例中本地用户和外地用户在Foursquare-Facebook网络上的top-k推荐性能;
图5是本发明方法的实施例中本地用户和外地用户在Foursquare-Twitter网络上的top-k推荐性能。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明作进一步阐述。
在本实施例中,如图1-5所示,一种基于异构网络的POI推荐方法,该方法包括以下步骤:
S1、从基于位置的社交网络LBSN(Foursquare)和基于通信的社交网络CBSN(Twitter、Facebook)服务网站采集数据,利用其中部分用户在这两个网站中都拥有账号,从而使两个网站发生关联,构建异构网络;
S2、利用DBSCAN聚类算法对LBSN中的所有POI划分区域,形成多个地理区域r,并利用Girvan-Newman算法,根据CBSN中用户间的好友关系对所有用户进行划分,形成多个社区c;并且同一个用户可以属于多个社区;
S3、根据概率图模型理论,构建概率生成模型,所述概率生成模型包括以下组件:
1)社区-行为组件:在该组件中,用户u属于多个社区c,并能通过多种行为b与社区c中的其他用户发生交互,产生文本内容;对用户u,每个社区c的出现次数和社区c中每个行为b的出现次数分别看作服从参数为ψ和σ的多项分布;
2)区域-POI组件:在该组件中,用户u可选择的每个地理区域r的出现次数和地理区域r内的每个POIv的出现次数分别看作服从参数为和φ的多项分布;每个POIv所处的位置都服从地理区域r上的高斯分布,该分布拥有均值μ与方差Σ;
3)情感-词语组件:该组件表示,通过所述社区-行为组件中的某种行为b对所述区域-POI组件中的某个POIv发表评论,其中包含若干词语及其所属情感;具体地,行为b对POIv产生的多条评论中,第m条评论的第n个词语属于某种潜在情感,这些情感出现次数服从参数为θ的多项分布,而某个情感z中的词语出现次数服从参数为的多项分布。
所述ψ服从超参数为η的Dirichlet分布,所述服从超参数为γ的Dirichlet分布,所述σ服从超参数为π的Dirichlet分布,φ服从超参数为τ的Dirichlet分布,所述θ服从超参数为α的Dirichlet分布,所述服从超参数为β的Dirichlet分布。
S4、利用采样的方法计算概率模型中各分布参数的值,得到参数赋值后的概率模型:
利用Gibbs采样方法计算分布参数的值,计算过程如下:
所述分布参数包括ψ,σ,φ,θ,
其中Dirichlet的超参数取预设值为:α=50/K,γ=50/R,η=50/C,β=τ=π=0.01;其中,K表示情感z的种类的数量,R表示地理区域r的数量,C表示社区c的数量。
S41、为每一条评论文本随机赋予一个初始社区c索引、地理区域r索引,以及情感z索引;
S42、将所有分布参数赋值为0;
S43、利用以下公式(2)和(3)对每条评论文本所属社区c索引和地理区域r索引执行更新操作:
其中,表示除了当前社区以外的所有社区,表示除了当前地理区域以外的所有地理区域;v′,b′,u′为求和过程的中间变量;nu,c和nu,r是采样到的用户u位于社区c和地理区域r的次数,nb,c是采样到的社区c中出现行为b的次数,nv,c是采样到的地理区域r中出现POIv的次数;nu′,c和nu′,r是采样到的用户u′选择社区c和地理区域r的次数,nb′,c是采样到的社区c中出现行为b′的次数,nv′,r是采样到的地理区域r中出现POIv′的次数,表示除当前项以外的数量;lv表示POIv的坐标位置;μr表示地理区域r中POIv位置的平均值;∑r表示地理区域r中POIv位置的方差;
S44、按以下两个公式(4)和(5)更新地理区域r的均值和方差:
其中,Sr表示区域r中的POI数量;T表示向量的转置;
S45、按以下式子更新情感z:
其中表示除当前情感外,POIv的评论中所包含的其他情感,表示除当前项以外的数量,nv,b,z是采样到的行为b对POIv产生评论文本中包含情感z的次数,nw,z是从情感z中采样出词语w的次数,wv,b表示行为b对POIv产生的词语集合,nv′,b′,z是采样到的行为b′对POIv′产生评论文本中包含情感z的次数,nw′,z是从情感z中采样出单词w′的次数,v′,b′,w′为求和过程的中间变量;
S46、重复执行步骤S43-S45的更新过程,直至收敛;更新过程中忽略前800次的循环操作,解决冷启动问题;以50次循环作为间隔进行采样,以解决样本关联的问题。
S47、取得各分布参数的值,即得到参数赋值后的概率模型。
S5、利用参数赋值后的概率模型计算用户选择的POI的概率:
S51、利用以下公式(7)计算指定用户u选择POIv的概率:
其中,v′,b′,w′,u′为求和过程的中间变量;是用户u′的区域r分布参数,是区域r内POIv的分布参数,是用户u选择社区c时的概率分布参数,是社区c中发生用户行为b的概率分布参数;是用户采用行为b对POIv产生的评论中情感分布参数;是情感z中词语的概率分布参数;
S52、对用户u,计算所有POI的概率。
S6、将S5计算出的概率进行排序,并将概率排序靠前的多个POI推荐给用户。
下面以一个具体的实施例来做进一步的说明。
本发明方法是利用机器学习实现的,本实施例的运行环境为:Java(JDK 1.7),Windows 10,CPU(Core i7(7500U)),8GB RAM。
本实施例数据采集自流行的LBSN和CBSN网站,LBSN表示基于位置的社交网络,CBSN表示基于通信的社交网络。
Foursquare数据集。Foursquare是一个基于地理位置的社交网络,可以提供多种基于位置的服务,比如签到和评论。该数据集收集了居住在美国加州旧金山地区的75,140名用户,包含用户的签到信息,具体包括用户ID、姓名以及签到时间、位置(以纬度和经度表示)。
Twitter的数据集。作为一个微博客类门户网站,Twitter吸引了大量来自互联网的用户,成为交流信息和增进友谊的平台。用户可以在Twitter上与他们的朋友分享去过的地方或喜欢的食物。该Twitter数据集包含28,553个用户及其相关的186,589条评论。
Facebook的数据集。Facebook是另一个热门CBSN门户网站,在2018年第一季度拥有超过21.9亿月度活跃用户。它为用户提供了多种交流的功能,包括用户消息、聊天和状态更新等。该Facebook数据集中用户数量和POI相关评论的数量分别为52,772和378,117。
收集的数据的基本信息如表1所示。
利用以上三个数据集,创建了两个带有锚链接的异构网络:Foursquare-Twitter网络和Foursquare-Facebook网络。
表1收集的数据集的基本信息
Foursquare | |||
POI数量 | 45,322 | - | - |
评论数量 | 634,088 | 186,589 | 378,117 |
用户数量 | 75,140 | 28,553 | 52,772 |
为了验证本发明方法的有效性和有益效果,我们将本发明提出的POI推荐方法与以下现有的POI推荐方法进行比较。所述的现有的POI推荐方法包括以下几种:
UPS-CF是一种基于LBSN的为异地用户推荐POI的协同过滤方法。推荐结果取决于用户的偏好、社会影响力以及地理位置;该方法已公开的出处为“Locationrecommendation for out-of-town users in location-based social networks”(G.Ference,M.Ye,and W.C.Lee,in ACM International Conference on Informationand Knowledge Management,2013,pp.721–726.)
ST-LDA(H.Yin,X.Zhou,B.Cui,H.Wang,K.Zheng,and Q.V.H.Nguyen,“Adaptingto user interest drift for poi recommendation,”IEEE Transactions on Knowledgeand Data Engineering,vol.28,no.10,pp.2566–2581,2016)是一种潜在概率生成模型,通过综合考虑个人兴趣因素和人群偏好,模拟用户兴趣的漂移。它考虑了社会和地理的相关性,解决了异地推荐时的数据稀疏性问题。
JIM(H.Yin,X.Zhou,Y.Shao,H.Wang,and S.Sadiq,“Joint modeling of usercheck-in behaviors for point-of-interest recommendation,”Acm Transactions onInformation Systems,vol.35,no.2,2016.)是一个联合的概率生成模型,它综合分析用户签到行为与时间、内容、地理位置和口碑的关系。与本发明相比,JIM没有考虑到人群的情感,只考虑了时间效应。
UCGT(H.Yin,Z.Hu,X.Zhou,H.Wang,K.Zheng,Q.V.H.Nguyen,and S.Sadiq,“Discovering interpretable geo-social communities for user behaviorprediction,”in IEEE International Conference on Data Engineering,2016,pp.942–953)通过将用户的时空和语义信息整合到用户的社会群体中。然而,该模型不涉及地理效应,因此不是一种较为理性的推荐方法。
LSARS(H.Wang,Y.Fu,Q.Wang,H.Yin,C.Du,and H.Xiong,“A location-sentiment-aware recommender system for both home-town and out-of-town users,”in Proceedings of the 23rd ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining.ACM,2017,pp.1135–1143.)是一个潜在概率生成模型,将用户的签到活动模拟综合考虑个人兴趣漂移和群体情绪后的决策过程,同时适用于本地场景和异地场景。然而,LSARS在生成评论时未考虑地理位置的影响。
下面采用指标Accuracy@k评估推荐效率和有效性。具体来说,对于测试集中的每条评论(u,v,b,Wv,b):
1)计算所有POI的排名分数;
2)根据排名分数对所有POI排名,得到POI排名列表,其中p表示POI v在列表中的排名位置。最好的结果是POI v排在所有未访问的POI之前;
3)将该列表排名靠前的k个POI推荐给用户,即top-k推荐。如果p≤k,就会发生预测成功;否则预测失败。Accuracy@k按以下方法计算:
其中,|hit@k|和|Dtest|分别表示测试集中预测成功的次数和测试用例的数量。
图4和图5分别展示了在Foursquare-Facebook网络和Foursquare-Twitter网络中k取不同值时各种POI推荐方法的效果。
从图4-5可以看出,本发明的POI推荐方法在两个网络上都优于现有POI推荐方法,并且差异范围为0.9%~36.9%,显著提高了推荐的准确性。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种基于异构网络的POI推荐方法,其特征在于,该方法包括以下步骤:
S1、从基于位置的社交网络LBSN和基于通信的社交网络CBSN的服务网站采集数据,形成异构网络;
S2、利用位置聚类算法对LBSN中的所有POI划分区域,形成多个地理区域r,并利用社区划分算法,根据CBSN中用户间的好友关系对所有用户进行划分,形成多个社区c;所述的POI即为兴趣点;
S3、根据概率图模型理论,构建概率生成模型;
S4、利用采样的方法计算概率生成模型中各分布参数的值,得到参数赋值后的概率生成模型;
S5、利用参数赋值后的概率生成模型计算用户选择的每个POI的概率;
S6、将步骤S5计算出的概率进行排序,并将概率排序靠前的多个POI推荐给用户;
在步骤S3中,所述概率生成模型包括以下组件:
1)社区-行为组件:在该组件中用户u属于多个社区c,并能通过多种行为b与社区c中的其他用户发生交互,产生文本内容;对用户u,每个社区c的出现次数和社区c中每个行为b的出现次数分别看作服从参数为ψ和σ的多项分布;
2)区域-POI组件:在该组件中,用户u可选择的每个地理区域r的出现次数和地理区域r内的每个POIv的出现次数分别看作服从参数为和φ的多项分布;每个POIv所处的位置都服从地理区域上的高斯分布,该分布拥有均值μ与方差Σ;
3)情感-词语组件:该组件表示,通过所述社区-行为组件中的行为b中的某种行为对所述区域-POI组件中的某个POIv发表评论,其中包含若干词语及其所属情感;具体地,行为b对POIv产生的多条评论中,第m条评论的第n个词语属于某种潜在情感,这些情感出现次数服从参数为θ的多项分布,而某个情感z中的词语出现次数服从参数为的多项分布;
所述参数ψ服从超参数为η的Dirichlet分布,所述服从超参数为γ的Dirichlet分布,所述参数σ服从超参数为π的Dirichlet分布,所述参数φ服从超参数为τ的Dirichlet分布,所述参数θ服从超参数为α的Dirichlet分布,所述服从超参数为β的Dirichlet分布;
在步骤S4中,利用Gibbs采样方法计算分布参数的值,所述分布参数包括ψ,σ,φ,θ,计算过程如下:
其中Dirichlet的超参数取预设值为:α=50/K,γ=50/R,η=50/C,β=τ=π=0.01;其中,K表示情感z的种类的数量,R表示地理区域r的数量,C表示社区c的数量;
S41、为每一条评论文本随机赋予一个初始社区c索引、地理区域r索引,以及情感z索引;
S42、将所有分布参数赋值为0;
S43、利用以下公式(2)和(3)对每条评论文本所属社区c索引和地理区域r索引执行更新操作:
其中,表示除了当前社区以外的所有社区,表示除了当前地理区域以外的所有地理区域;v′,b′,u′为求和过程的中间变量;nu,c和nu,r是采样到的用户u位于社区c和地理区域r的次数,nb,c是采样到的社区c中出现行为b的次数,nv,r是采样到的地理区域r中出现POIv的次数;nu′,c和nu′,r是采样到的用户u′选择社区c和地理区域r的次数,nb′,c是采样到的社区c中出现行为b′的次数,nv′,r是采样到的地理区域r中出现POIv′的次数,表示除当前项以外的数量;lv表示POIv的坐标位置;μr表示地理区域r中POIv位置的平均值;∑r表示地理区域r中POIv位置的方差;
S44、按以下两个公式(4)和(5)更新地理区域r的均值和方差:
其中,Sr表示区域r中的POI数量;T表示向量的转置;
S45、按以下式子更新情感z:
其中表示除当前情感外,POIv的评论中所包含的其他情感,表示除当前项以外的数量,nv,b,z是采样到的行为b对POIv产生评论文本中包含情感z的次数,nw,z是从情感z中采样出词语w的次数,wv,b表示行为b对POIv产生的词语集合,nv′,b′,z是采样到的行为b′对POIv′产生评论文本中包含情感z的次数,nw′,z是从情感z中采样出单词w′的次数,v′,b′,w′为求和过程的中间变量;
S46、重复执行步骤S43-S45的更新过程,直至收敛;
S47、取得各分布参数的值,即得到参数赋值后的概率生成模型;
在步骤S5中,具体步骤如下:
S51、利用以下公式(7)计算指定用户u选择POIv的概率:
其中,v′,b′,w′,u′为求和过程的中间变量;是用户u′所在地理区域r的分布参数,是地理区域r内POIv的分布参数,是用户u选择社区c时的概率分布参数,是社区c中发生用户u行为b的概率分布参数;是用户u采用行为b对POIv产生的评论中情感z分布参数;是情感z中词语的概率分布参数;
S52、对用户u,计算每个POI的概率。
2.根据权利要求1所述的一种基于异构网络的POI推荐方法,其特征在于,步骤S1中,从CBSN中采集的数据包括:用户ID、用户名、用户交互时间、产生的文本和用户好友关系;从LBSN中采集的数据包括:用户ID、用户名、POI的ID、POI的名称、POI的类型和POI的位置;同一个用户在CBSN和LBSN中ID的对应关系。
3.根据权利要求1所述的一种基于异构网络的POI推荐方法,其特征在于:步骤S2中,位置聚类算法为DBSCAN聚类算法,社区划分算法为Girvan-Newman算法。
4.根据权利要求1所述的一种基于异构网络的POI推荐方法,其特征在于:在步骤S46中,忽略前500-800次的循环操作。
5.根据权利要求1所述的一种基于异构网络的POI推荐方法,其特征在于:在采样过程中,以40-60次循环作为间隔进行采样。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810901159.9A CN109213938B (zh) | 2018-08-09 | 2018-08-09 | 一种基于异构网络的poi推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810901159.9A CN109213938B (zh) | 2018-08-09 | 2018-08-09 | 一种基于异构网络的poi推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109213938A CN109213938A (zh) | 2019-01-15 |
CN109213938B true CN109213938B (zh) | 2019-07-12 |
Family
ID=64988631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810901159.9A Active CN109213938B (zh) | 2018-08-09 | 2018-08-09 | 一种基于异构网络的poi推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109213938B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460044B (zh) * | 2019-01-21 | 2023-06-30 | 阿里巴巴集团控股有限公司 | 地理位置数据处理方法及装置 |
CN110119475B (zh) * | 2019-01-29 | 2020-01-07 | 成都信息工程大学 | 一种poi推荐方法及推荐系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056455A (zh) * | 2016-06-02 | 2016-10-26 | 南京邮电大学 | 一种基于位置和社交关系的群组与地点推荐方法 |
CN107194560A (zh) * | 2017-05-12 | 2017-09-22 | 东南大学 | Lbsn中基于好友聚类的社交搜索评价方法 |
-
2018
- 2018-08-09 CN CN201810901159.9A patent/CN109213938B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056455A (zh) * | 2016-06-02 | 2016-10-26 | 南京邮电大学 | 一种基于位置和社交关系的群组与地点推荐方法 |
CN107194560A (zh) * | 2017-05-12 | 2017-09-22 | 东南大学 | Lbsn中基于好友聚类的社交搜索评价方法 |
Non-Patent Citations (2)
Title |
---|
Context-aware probabilistic matrix factorization modeling for point-of-interest recommendation;XingyiRen等;《Neurocomputing》;20170209;第241卷;第40-42页的第3节,第45、49页的第4节 |
基于LBSN的时空敏感的景点推荐;翁承豪;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第03期);全文 |
Also Published As
Publication number | Publication date |
---|---|
CN109213938A (zh) | 2019-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11704366B2 (en) | Methods and systems for associating internet devices | |
Yin et al. | Modeling location-based user rating profiles for personalized recommendation | |
Yin et al. | LCARS: A spatial item recommender system | |
Bagci et al. | Context-aware friend recommendation for location based social networks using random walk | |
Yin et al. | Discovering interpretable geo-social communities for user behavior prediction | |
Yin et al. | Lcars: a location-content-aware recommender system | |
Kong et al. | Spot: Locating social media users based on social network context | |
Xiong et al. | Where to go: An effective point-of-interest recommendation framework for heterogeneous social networks | |
García-Gavilanes et al. | Twitter ain't without frontiers: economic, social, and cultural boundaries in international communication | |
Guy | People recommendation on social media | |
Liu et al. | Spatio-temporal topic models for check-in data | |
CN110134883B (zh) | 一种异构社交网络位置实体锚链接识别方法 | |
CN103218400A (zh) | 基于链接与文本内容的网络社区用户群划分方法 | |
Jiang et al. | Predicting the evolution of hot topics: A solution based on the online opinion dynamics model in social network | |
Chen et al. | Understanding the user behavior of foursquare: A data-driven study on a global scale | |
CN109213938B (zh) | 一种基于异构网络的poi推荐方法 | |
Qiao et al. | Recommending nearby strangers instantly based on similar check-in behaviors | |
Ullah et al. | Identification of influential nodes based on temporal-aware modeling of multi-hop neighbor interactions for influence spread maximization | |
CN107346333B (zh) | 一种基于链路预测的在线社交网络好友推荐方法与系统 | |
Liu et al. | VGMF: visual contents and geographical influence enhanced point‐of‐interest recommendation in location‐based social network | |
Yang et al. | Modeling user preferences on spatiotemporal topics for point-of-interest recommendation | |
CN107784095B (zh) | 一种基于移动学习的学习资源自动推荐方法 | |
Papadimitriou et al. | Geo-social recommendations | |
Lu et al. | Identification of key nodes in microblog networks | |
Dhekane et al. | Talash: Friend Finding In Federated Social Networks. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221118 Address after: Room 501, 502, 503, 504, Building 6, Building 6, No. 200, Tianfu 5th Street, High-tech Zone, Chengdu 610000, Sichuan Province Patentee after: CHENGDU JIZHISHENGHUO TECHNOLOGY Co.,Ltd. Address before: 610225, No. 24, Section 1, Xuefu Road, Southwest Economic Development Zone, Chengdu, Sichuan Patentee before: CHENGDU University OF INFORMATION TECHNOLOGY |