CN112883292B - 用户行为推荐模型建立及基于时空信息的位置推荐方法 - Google Patents
用户行为推荐模型建立及基于时空信息的位置推荐方法 Download PDFInfo
- Publication number
- CN112883292B CN112883292B CN202110176267.6A CN202110176267A CN112883292B CN 112883292 B CN112883292 B CN 112883292B CN 202110176267 A CN202110176267 A CN 202110176267A CN 112883292 B CN112883292 B CN 112883292B
- Authority
- CN
- China
- Prior art keywords
- user
- behavior
- time
- data
- check
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000006399 behavior Effects 0.000 claims abstract description 199
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 238000005295 random walk Methods 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 13
- 230000002068 genetic effect Effects 0.000 claims description 7
- 230000036962 time dependent Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 abstract description 6
- 238000004220 aggregation Methods 0.000 abstract description 6
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Physiology (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Mathematical Analysis (AREA)
- Genetics & Genomics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据挖掘以及推荐系统技术领域,公开了一种用户行为推荐模型建立及基于时空信息的位置推荐方法。首先学习不同位置类型的时间层面影响程度;其次,将签到数据映射到多个时间段内并构建融合时间相关性的行为数据集;然后实时的更新用户与行为之间的偏好关系;最后研究同一类型位置在地理空间上的聚集现象对用户的吸引程度,融合用户行为的时空信息构建个性化的位置推荐模型,并向每一个用户推荐最合适的位置。本发明的新颖之处在于模型考虑了用户访问行为的时间相关性,此外模型提供了一种实时的行为预测方法,并提供一种新的角度研究位置聚集现象对用户的吸引程度,最终通过融合时空信息提高了个性化位置推荐的准确率。
Description
技术领域
本发明属于数据挖掘以及推荐系统技术领域,具体涉及一种用户行为推荐模型建立及基于时空信息的位置推荐方法。
背景技术
社交媒体数据是用户在社交媒体平台中分享的访问签到数据构成,每一条签到数据由必要的五个元素<用户标识、位置标识、访问时间戳、位置经纬度、位置类别>组成,社交媒体数据可以有效地记录用户在某一段时间内的行为习惯模式。随着定位技术不断革新以及智能手机的普及,一大批基于位置服务(LBS)的社交媒体平台融入我们的生活。比如,微博、微信、大众点评、Foursquare、Twitter、Facebook等。这些媒体平台的兴起使得用户可以在互联网中分享带有位置标签的信息,比如文字、视频、图片。然而,随着新用户及新位置源源不断地涌入系统,使得用户可能会陷入到数据海洋中,很难做出正确的决定,影响了用户的消费、访问体验。因此急需一种融合时间、空间信息的个性化位置推荐方法将用户不感兴趣的信息进行过滤,减少用户面临的数据负担。
在过去的二十年里,随着数据的大量井喷,针对性的推荐问题一直是一个热门的研究领域。现有的推荐方法大都采用传统的协同过滤算法进行推荐,然而由于用户的社交媒体签到数据是一种稀疏数据,此时协同过滤算法并不能很好的捕获用户和行为之间的关系。此外协同过滤的思想很难对全局性的用户行为关系进行估计,导致了推荐结果的准确率较低。目前有一些采用随机游走的方法可以对用户行为的全局关系进行建模,但是这些方法缺乏对用户实时行为的应对机制,导致推荐的结果往往是过时的行为。此外,现有的方法在建模时忽略了用户行为在时间层面上的相关性,并且由于不同位置类型的签到数据对时间层面的影响各不相同,因此需要一种学习方法去确定不同位置类型时间层面的影响程度,而现有的方法忽略了不同位置类型的不同影响。用户的签到数据除了包含时间信息,还包含用户访问行为的地理空间信息,比如经纬度数据。地理空间的约束确定了用户行为的可达性,而现有的方法往往通过研究用户访问行为在空间层面上的分布情况来估计用户访问位置的可能性。然而,现有的方法都忽略了同一类别的位置在空间上的聚集现象对用户空间访问行为的影响。
综上所述,基于社交媒体数据的行为推荐方法在如下方面有待研究:1.考虑不同位置类型在时间层面上影响程度;考虑用户行为的时间相关性;考虑实时的行为推荐策略;考虑同一类型的位置在地理空间上的聚集现象对用户行为的吸引程度。
发明内容
本发明的目的在于提供一种基于时空信息的用户位置预测模型建立、预测方法及系统,用以解决现有技术中基于社交媒体数据的行为推荐方法未考虑时空信息相关性的问题。
为了实现上述任务,本发明采用以下技术方案:
用户行为推荐模型建立方法,包括如下步骤:
步骤1:获取用户签到数据集,删除用户签到数据集中属于冷启动的签到数据后,得到签到数据集,所述签到数据集中的每条签到数据包括用户、位置、位置类型和签到时间;
步骤2:采用遗传算法计算步骤1得到的签到数据集中的每条签到数据的位置类型对于该签到数据中签到时间的影响程度,得到每种位置类型的时间影响程度;
步骤3:根据步骤2得到的每种位置类型的时间影响程度采用模糊分派方法将每条签到数据映射到多个时间段得到多条行为,获得行为数据集,每条行为包括时间段和位置类型;根据模糊隶属度方程计算每条行为的时间相关概率;
步骤4:构建用户行为矩阵,将步骤1的签到数据集中的所有用户和步骤3的行为数据集中的所有行为作为用户行为矩阵的行,将步骤1的签到数据集中的所有用户和步骤3的行为数据集中的所有行为作为用户行为矩阵的列,将步骤3得到的每条行为的时间相关概率填入用户行为矩阵的对应位置;
步骤5:采用带重启的随机游走算法对用户行为矩阵进行迭代更新,至用户行为矩阵收敛时迭代结束,获得迭代完成的用户行为矩阵Q,判断用户签到数据集是否需要更新,若需要更新则执行步骤6,若不需要更新则将Q作为用户行为推荐模型;
步骤6:获取更新的用户签到数据,采用模糊分派方法将更新的用户签到数据映射到多个时间段得到多条更新行为,根据模糊隶属度方程计算每条更新行为的时间相关概率,将每条更新行为的时间相关概率作为新的元素采用增量式的随机游走算法对Q进行扩充,将扩充后的Q作为用户行为推荐模型。
基于时空信息的位置推荐方法,包括如下步骤:
步骤一:获取访问用户和实时访问时刻,将访问用户和实时访问时刻输入所述的用户行为预测模型建立方法所得到的用户行为预测模型中,得到k个推荐行为,其中k为正整数,所述的每个推荐行为包括推荐时间段、推荐位置类型和该推荐位置类型的时间相关概率Pb;
步骤二:对包含步骤一中所有推荐行为的地理空间进行聚类,获得多个区域;
步骤三:根据步骤一获得的推荐行为和步骤二得到的区域,获取每个区域中满足各推荐行为的位置的空间吸引力值Ab;
步骤四:获取步骤一中访问用户的历史签到数据,根据访问用户的历史签到数据和步骤二中得到的区域,获取访问用户对每个区域中满足推荐时间段的位置的空间吸引力值Au;
步骤五:获取访问用户在推荐时间段内对每一区域中满足推荐行为的位置的偏好概率P,P=Pb*Ab*Au,对P进行从大到小的排序,将前k个P所对应的位置作为访问用户在该实时访问时刻下的推荐位置。
进一步的,步骤三中,每个区域中满足各推荐行为的位置的空间吸引力值Ab如式Ⅰ所示:
其中,Ab(l|α,b)表示区域α中位置l的满足推荐行为b的空间吸引值,L表示区域α中满足推荐行为b的位置数据集,L-l表示位置数据集L中除位置l外的位置集合,l’表示区域α中除l外满足推荐行为b的任一位置,cl表示位置l被访问的次数。
更进一步的,访问用户对每个区域中满足推荐时间段的位置的空间吸引力值Au如式Ⅱ所示:
Au(l|u,α,ti)表示了区域α内在ti时间段内,用户u对位置l的个性化偏好程度,其中,Avisited(l|u,α,ti)为用户u对访问过的位置l的个性化偏好程度,Aunvisited(l|u,α,ti)为用户u对未访问过的位置l的个性化偏好程度。
更进一步的,Avisited(l|u,α,ti)和Aunvisited(l|u,α,ti)采用式Ⅲ计算:
其中,cu,l表示用户u对位置l的访问的次数,cu,l'表示用户u对位置l’的访问的次数,e-dist(l,l')表示距离衰减函数。
本发明与现有技术相比具有以下技术特点:
(1)本发明考虑了用户行为在时间层面的相关性,并且融合了不同位置类型的时间影响力。
(2)本发明考虑了实时的用户访问行为变化,并且提供了实时的用户-行为偏好更新机制用以应对用户不断变化的行为习惯。
(3)本发明考虑了用户访问行为在地理空间中分布模式,并融合实时的用户行为偏好关系构建个性化的位置推荐模型。
附图说明
图1为实施例中融合时空信息的个性化位置推荐方法的框架图;
图2为个性化位置推荐的准确率对比图;
图3为个性化位置推荐的召回率对比图;
图4为实时行为推荐的准确率对比图;
图5为基于吸引力空间模型的性能对比图;
图6为构建用户行为二分图的示意图;
图7为签到数据的模糊分派的示意图;
具体实施方式
以下结合附图和实施例对本发明作进一步的说明。
首先对本发明涉及的技术词汇进行解释:
签到记录(check-in,c):社交媒体数据集是由用户活动产生的签到记录构成的,每一条签到记录代表用户的一次访问活动。
签到数据(c):签到数据是一个由三个元素组成的拓扑结构,其中包含的信息有用户的唯一标识(user,u)、位置的唯一标识(location,l)以及用户访问该位置对应的时间信息(timestamp,t),其中c=(u,l,t)
行为(behavior,b):行为数据是由两个元素组成的拓扑结构,其中包含签到记录发生的时间段(time interval,ti)以及所访问位置对应的位置类型(category,ctgy),则行为被表示为:b=(ctgy,ti)。
在本发明中,将所有的签到数据从一个三维拓扑结构转化为包含时间和位置类型的二维拓扑关系。表示为:c=(u,l,t)转化为c=(u,b),通过将原始的签到数据转化为包含时间和位置类型的二维拓扑结构,可以缓解推荐问题中存在的稀疏性问题,此外也可以帮助推荐系统更好的挖掘隐含的用户行为模式。
带权重的用户-行为图(User-Behavior Graph,UBG):将用户所有的签到数据转化为用户行为二分图,表示为UBG=(U,E,B)。该二分图中包含两类节点集合:用户节点集合和访问行为节点集合;除了节点集合外,还包含了连接用户节点和访问行为节点的边集合。若用户节点ui与访问行为节点bj之间有边连接,则说明用户ui曾经执行过行为bj,而边<ui,bj>上的权重值为历史数据中用户ui访问行为bj的次数。因此带权重的用户行为图表示了历史中用户对访问行为的偏好程度。
实施例1
本实施例中公开了一种用户行为推荐模型建立方法,包括如下步骤:
步骤1:获取用户签到数据集,删除用户签到数据集中属于冷启动的签到数据后,得到签到数据集,所述签到数据集中的每条签到数据包括用户、位置、位置类型和签到时间;
步骤2:采用遗传算法计算步骤1得到的签到数据集中的每条签到数据的位置类型对于该签到数据中签到时间的影响程度,得到每种位置类型的时间影响程度;
步骤3:根据步骤2得到的每种位置类型的时间影响程度采用模糊分派方法将每条签到数据映射到多个时间段得到多条行为,获得行为数据集,所述行为数据集中的每条行为有一个对应的用户,且每条行为包括时间段和位置类型;根据模糊隶属度方程计算每条行为的时间相关概率;
步骤4:构建用户行为矩阵,将步骤1的签到数据集中的所有用户和步骤3的行为数据集中的所有行为作为用户行为矩阵的行,将步骤1的签到数据集中的所有用户和步骤3的行为数据集中的所有行为作为用户行为矩阵的列,将步骤3得到的每条行为的时间相关概率填入用户行为矩阵的对应位置;
步骤5:采用带重启的随机游走算法对用户行为矩阵进行迭代更新,至用户行为矩阵收敛时迭代结束,获得迭代完成的用户行为矩阵Q,判断用户签到数据集是否需要更新,若需要更新则执行步骤6,若不需要更新则将Q作为用户行为推荐模型;
步骤6:获取更新的用户签到数据,采用模糊分派方法将更新的用户签到数据映射到多个时间段得到多条更新行为,根据模糊隶属度方程计算每条更新行为的时间相关概率,将每条更新行为的时间相关概率作为新的元素采用增量式的随机游走算法对Q进行扩充,将扩充后的Q作为用户行为推荐模型。
具体的,步骤1中所述的冷启动用户定义为总访问次数少于五次的用户,冷启动位置的定义为被访问次数少于十次的位置。
具体的,步骤2中所述的遗传算法可以确定不同位置类型对邻近的时间段的影响程度,获得每一个位置类型在时间层面具有的不同影响程度,将遗传算法的结果表示为sigma={σ1,σ2,...,σ|CTGY|}。其中σi表示第i个位置类型在时间层面的影响程度;社交媒体数据集中的位置类型集合表示为CTGY={ctgy1,ctgy2,…,ctgy|CTGY|}。首先将每一个位置类型进行浮点数编码,编码后的集合为sigma={σ1,σ2,...,σ|CTGY|}。其中|CTGY|表示数据集中位置类型的总数目。
具体的,步骤3中,行为数据集定义为B={b1,b2,...,bm},其中每一个行为b都是包含两个元素<时间段、位置类型>的拓扑结构,即b=(ti,ctgy),m表示行为数据集的长度。
具体的,步骤3中,所述时间段为按照小时划分的24个时间段,采用模糊分派方法(Fuzzy assignment)将用户所有的签到数据映射到多个时间段。签到数据的模糊分派方法认为用户的签到数据满足在时间层面的正态分布。
具体的,给定一个签到数据c,用户u在t0时刻访问了位置类型为ctgy的位置。该位置类型ctgy的时间层面影响程度为σctgy=sigma(ctgy)。则模糊隶属度方程pc(t)表示了签到数据c在任意时刻t的发生的概率大小;
给定一个时间段[ta,tb],则Fc{ta<t<tb}表示签到数据c属于该时间段的概率值。
最终签到数据c属于时间段[ta,tb]的概率值(即某一用户对应的每条行为的时间相关概率)等于模糊隶属度方程pc(t)与直线ta=0和tb=0以及X轴围成的面积大小。
具体的,所述的用户行为矩阵W对应一个用户行为二分图UBG,其中二分图左边子集为用户数据集U,右边子集为行为数据集B,若用户节点ui与行为节点bj存在边连接,则说明该用户ui曾经执行过行为bj,用二分图的形式可以更直观的描述用户-行为-时间相关概率之间的关系,对用户行为矩阵W采用随机游走算法进行迭代的过程实际上是对于图寻优的过程。
具体的,步骤5中提到的带重启的随机游走算法为一种现有算法,此处提供该算法的一种具体实现步骤,包括如下子步骤:
步骤5.1:所述的用户行为矩阵W的规模为(m+n)*(m+n),m表示访问行为的个数,n表示用户的个数,m、n为正整数,W如下所示:
步骤5.2:采用带重启的随机游走算法对用户行为矩阵W进行迭代更新,如下式所示:
Q2step-1表示第2step-1步迭代时的用户行为矩阵,Q0表示初始预设矩阵,Q0的规模与M相同且Q0中左半部分主对角线上元素为1其余元素均为0,μ为重启概率且μ=0.2;
不断迭代上述过程直至满足以下条件即为矩阵收敛:
Q=Q2step-1where|Q2step-1-Q2(step-1)-1|<θ
其中,Q为迭代完成的用户行为矩阵,θ=10-6。
根据Q可以向用户数据集U中的每一个用户推荐时间相关概率较高的k个访问行为。
具体的,存在新的签到数据时,对用户行为推荐模型进行更新中采用的增量式的随机游走算法为一种现有算法,此处提供该算法的一种具体实现步骤,包括如下子步骤:
步骤a:获取新的用户签到数据,所述的更新的用户为ui,i为正整数;
步骤b:采用步骤3中的模糊分派方法将新的用户签到数据映射到多个时间段得到多条新行为,所述新行为是bj,j∈{1,2,3...},根据步骤3的模糊隶属度方程计算每条新行为的时间相关概率fj;
步骤c:将每条新行为的时间相关概率作为新的元素加入迭代完成的用户行为矩阵Q中,获得包含新行为的Q;
步骤d:采用增量式的随机游走算法对包含新行为的Q进行扩充,将扩充完成后的矩阵作为用户行为推荐模型。
所述的扩充包括:对包含新行为的Q进行列扩充获得Q’,将Q’进行转置得到Q’T,然后将Q’T再次进行列扩充,得到(Q’T)’,对(Q’T)’再次进行转置,获得扩充后的Q即Q”;
所述对Q进行列扩充如式Ⅲ所示:
[Q]*,q=[Q]*,q+(1-μ)*γ*y 式Ⅲ
本实施例中还公开了一种基于时空信息的位置推荐方法,包括如下步骤:
步骤一:获取访问用户和实时访问时刻,将访问用户和实时访问时刻输入权利要求1所述的用户行为预测模型建立方法所得到的用户行为预测模型中,得到k个推荐行为,其中k为正整数,所述的每个推荐行为包括推荐时间段、推荐位置类型和该推荐位置类型的时间相关概率Pb,Pb∈(0,1);
步骤二:对包含步骤一中所有推荐行为的地理空间进行聚类,获得多个区域;
步骤三:根据步骤一获得的推荐行为和步骤二得到的区域,获取每个区域中满足各推荐行为的位置的空间吸引力值Ab,Au∈(0,1);
步骤四:获取步骤一中访问用户的历史签到数据,根据访问用户的历史签到数据和步骤二中得到的区域,获取访问用户对每个区域中满足推荐时间段的位置的空间吸引力值Au,Au∈(0,1);
步骤五:获取访问用户在推荐时间段内对每一区域中满足推荐行为的位置的偏好概率P,P=Pb*Ab*Au,对P进行从大到小的排序,将前k个P所对应的位置作为访问用户在该实时访问时刻下的推荐位置。
具体的,步骤三中,每个区域中满足各推荐行为的位置的空间吸引力值Ab如式Ⅰ所示:
其中,Ab(l|α,b)表示区域α中位置l的满足推荐行为b的空间吸引值,L表示区域α中满足推荐行为b的位置数据集,L-l表示位置数据集L中除位置l外的位置集合,l’表示区域α中除l外满足推荐行为b的任一位置,cl表示位置l被访问的次数。
优选的,步骤四中,访问用户对每个区域中满足推荐时间段的位置的空间吸引力值Au如式Ⅱ所示:
Au(l|u,α,ti)表示了区域α内在ti时间段内,用户u对位置l的个性化偏好程度,其中,Avisited(l|u,α,ti)为用户u对访问过的位置l的个性化偏好程度,Aunvisited(l|u,α,ti)为用户u对未访问过的位置l的个性化偏好程度。
优选的,步骤四中,Avisited(l|u,α,ti)和Aunvisited(l|u,α,ti)采用式Ⅲ计算:
其中,cu,l表示用户u对位置l的访问的次数,cu,l'表示用户u对位置l’的访问的次数,e-dist(l,l')表示距离衰减函数。
具体的,步骤二中,使用Optics聚类方法对地理空间根据分布密度进行聚类,将地理空间划分为多个用户可达的小区域。
具体的,步骤三中,当位置集合L中所有的位置l的吸引力程度计算完成后,将所有位置的吸引力值归一化至0至1之间,即Ab(l|α,b)表示位置l对用户基于位置类型的空间吸引力概率。步骤四,当位置集合L中每一个位置l的吸引力程度计算完成后,将所有位置的吸引力值归一化到0至1之间。即Au(l|u,α,ti)表示了位置l对用户u个性化的空间吸引概率。
具体的,步骤二中所述的空间聚类方法中包含了两个参数ε和radius由DBSCAN方法中的参数确定的方法决定。
实施例2:
本实施例中提供了一种融合时空信息的个性化位置推荐方法,整体框架如图1,主要分为三大模块:实时行为推荐模型、基于吸引力的空间模型以及融合时空信息的个性化位置推荐模型。本方法的具体实施步骤如下:
第一部分实时行为推荐模型:
本方法主要考虑用户的历史访问行为在时间层面的相关性,首先使用基于基因算法的学习模型确定不同位置类型对时间层面的影响程度;然后使用模糊隶属度分派算法将用户的历史签到数据映射为多个用户行为,并构建融合了时间相关性的行为数据集;此外使用一种增量式随机游走算法更新用户与行为之间的偏好关系,并向每位用户推荐最合适的k个行为。
步骤1.1,通过遗传算法确定每一个位置类型对时间层面的影响程度,表示为sigma={σ1,σ2,...,σ|CTGY|}。
步骤1.2,对每一条签到数据c进行模糊隶属分派,将其映射到多个时间段内。如在图7中,显示了一条签到数据的模糊分派的示意图。对于用户u1产生的签到数据c1=(u1,星巴克,12:20),该签到数据c1表示用户在12:20分访问了星巴克,星巴克对应的位置类型为“咖啡店”。假设咖啡店的时间影响程度σ咖啡店=7.5,则通过模糊分派可以将签到数据映射到三个时间段:11:30至12:00、12:00至12:30、12:30至13:00;此外,签到数据c1在这三个时间段的隶属程度分别为0.05、0.6、0.35。
步骤1.3,对每一条签到数据重复执行步骤1.2,然后可以得到一个行为数据集B,B={b1,b2,…,b|B|},其中每一个行为bi是包含时间段和位置类型的二元组。一个具体的例子为b1=(12:00-12:30,咖啡店),它标识的含义是在12点至12点30分之间访问咖啡店的行为,数据集中符合行为b1的签到数据可以被转化为用户行为数据。以步骤1.2中给出的签到数据c1为例,将c1转化为用户行为数据的过程如下:
c1=(u1,咖啡店,12:20)→(u1,b1)
将所有的签到数据都转化为用户行为数据后,便可以构建一个用户行为二分图,其中包含用户节点集合和行为节点集合,此外还包含连接用户节点和行为节点的边集合,其中边上的数据表示用户访问对应行为的归一化访问次数。具体的例子如图6,图中以一个小规模签到数据集为例,构建用户行为二分图。
步骤1.4,使用增量式随机游走算法更新用户与行为之间的偏好关系,将用户与行为的偏好关系保存在一个规模为n*m的矩阵Q中。当用户ui发出位置推荐请求时,实时行为推荐模型将首先根据用户发出请求的时间ti向用户预测最合适的k个行为。具体的结果表示如下:
行为推荐的结果分别包含了行为编号以及推荐的概率。
第二部分,基于吸引力的空间模型:
本方法主要考虑了同一类型的位置在地理空间上存在的聚集现象对用户的吸引程度。首先采用Optics空间聚类算法将地理空间划分为多个用户可达的小区域;然后构建两个子空间模型:基于位置类型的吸引力空间模型和用户个性化的吸引力空间模型,这两个模型分别用来学习用户大众的空间访问模式和用户个性化的空间访问模式。
步骤2.1,首先使用DBSCAN中的方法确定空间聚类的参数ε和radius,在本实例中ε和radius的值分别为4和500。然后使用Optics将地理空间划分为多个小区域。
步骤2.2,如步骤1.3中行为包含了位置类型,因此步骤1.4中行为推荐的含义是向用户在该时间段推荐k个可能访问的位置类型。基于此,构建基于位置类型的吸引力空间模型,筛选与步骤1.4推荐的行为匹配的签到记录,此时可以从签到记录中抽取位置集合L,然后计算集合L中每一个位置l对用户的吸引力值。具体的计算方法如下:
在计算集合L中每一个位置l对用户的吸引力值后,将吸引力值归一化到0至1之间。因此在推荐过程中可以得到一系列位置以及各自对用户的基于位置类型的吸引力概率。具体表示为:
步骤2.3,构建用户个性化的吸引力空间模型,当用户ui在ti时间段发出位置推荐请求时,在每一个可达区域内计算位置对用户的个性化吸引程度。此时位置分为两类:用户访问过的位置和用户未访问过的位置。
在计每一个位置l对用户u的吸引力值后,将吸引力值归一化到0至1之间。因此在推荐过程中可以得到一系列位置以及各自对用户个性化的吸引力概率。具体表示为:
步骤2.4,融合基于位置类型的吸引力空间模型和用户个性化的吸引力空间模型。最终的吸引力空间模式表示为:
Ps(l|u,α,b,ti)=Ab(l|α,b)*Au(l|u,α,ti)
本步骤输出的结果为一系列位置以及其对应的对用户的总体空间吸引概率。具体的表示为:
第三部分,融合时空信息的个性化位置推荐模型:
本方法主要是将用户的时空信息进行融合并构建个性化的位置推荐模型。当用户发出位置推荐请求时,模型将根据位置推荐请求发出的时间向用户推荐最合适的k个位置。
第三部分输出的推荐结果为一系列位置以及其对应的对用户的总体空间吸引概率。具体的表示为:
为了验证本文方法的有效性,本实施例中面向的研究对象为三个城市中公开的社交媒体数据集,这三个城市分别为东京、纽约、伦敦。数据的详细情况如下表:
数据集中信息包含了用户标识、位置标识、用户访问位置的时间戳、位置的经纬度和类别的信息。度量模型性能时,本文使用如下指标:
Precision@k和Recall@k分别表示了推荐前k个位置达到的准确率和召回率。Precision@k的含义为推荐前k个位置时,模型推荐的位置与用户实际访问的位置之间的比例;Recall@k的含义为推荐前k个位置时,有多少用户的位置推荐结果包含了该用户实际访问得到位置。
本发明对比的基线方法有GeoMF++、BLR,本发明提出的融合时空信息的个性化位置推荐模型用GeoRTGA表示。如图2所示,GeoRTGA在图2(a)、图2(b)、图2(c)三个数据集上的位置推荐准确率要高于基线方法,其中在东京数据集上位置推荐准确率的范围为0.0303-0.2018,比BLR的性能提高了48.29%-62.17%;在纽约数据集上位置推荐准确率的范围为0.0349-0.2445,比BLR的性能提高了36.97%-65.16%;在伦敦数据集上位置推荐准确率的范围为0.0282-0.1741,比BLR的性能提高了34.82%-71.75%;GeoRTGA在三个数据集位置推荐的准确率比GeoMF++方法提高了81%-173%。
此外,如图3所示,GeoRTGA在图3(a)、图3(b)、图3(c)三个数据集上位置推荐的召回率分别比BLR方法提高了48.25%-62.34%、37.1%-65.55%、35.9%-71.93%;对比GeoMF++方法,GeoRTGA在三个数据集上的位置推荐召回率上分别提升了99.34%-145.5%、44.34%-93.77%、47.87%-87.68%。
通过性能比较,体现了融合时空信息的位置推荐模型要优于基线方法。
本发明的核心内容包含了两个模块:实时行为推荐模型、基于吸引力的空间模型。因此下文中将分别设计实验以验证这两个模块的有效性。为了验证实时行为推荐模型的有效性,提出如下指标衡量方法之间的性能:
Precision@k的含义为模型推荐前k个位置时,有多少位置满足用户真实访问的位置类型。
如图4所示,GeoRTGA在图4(a)、图4(b)、图4(c)三个数据集上行为推荐的准确率分别为0.1234-0.3131、0.1308-0.3328、0.1068-0.2355;行为推荐的性能分别比两个基线方法提高了31.84%-39.93%、36.85%-57.03%、22.18%-37.95%。通过性能比较证明了实时行为推荐模型很好的融合了用户行为的时间相关性,并提供更有效的行为推荐结果。
为了衡量基于吸引力的空间模型的性能,提出如下指标用以衡量不同方法之间的空间模型性能:
空间模型衡量的结果如图5所示,GeoRTGA的空间模型性能比BLR提升了16.94%-27.00%;GeoRTGA的空间模型性能比GeoMF++提升了41.75%-77.64%。通过性能比较证明了同一类型位置的聚集现象的确对用户有更大的吸引程度。
Claims (2)
1.用户行为推荐模型建立方法,其特征在于,包括如下步骤:
步骤1:获取用户签到数据集,删除用户签到数据集中属于冷启动的签到数据后,得到签到数据集,所述签到数据集中的每条签到数据包括用户、位置、位置类型和签到时间;
步骤2:采用遗传算法计算步骤1得到的签到数据集中的每条签到数据的位置类型对于该签到数据中签到时间的影响程度,得到每种位置类型的时间影响程度;
步骤3:根据步骤2得到的每种位置类型的时间影响程度采用模糊分派方法将每条签到数据映射到多个时间段得到多条行为,获得行为数据集,每条行为包括时间段和位置类型;根据模糊隶属度方程计算每条行为的时间相关概率;
步骤4:构建用户行为矩阵,将步骤1的签到数据集中的所有用户和步骤3的行为数据集中的所有行为作为用户行为矩阵的行,将步骤1的签到数据集中的所有用户和步骤3的行为数据集中的所有行为作为用户行为矩阵的列,将步骤3得到的每条行为的时间相关概率填入用户行为矩阵的对应位置;
步骤5:采用带重启的随机游走算法对用户行为矩阵进行迭代更新,至用户行为矩阵收敛时迭代结束,获得迭代完成的用户行为矩阵,将迭代完成的用户行为矩阵作为用户行为推荐模型;
存在新的签到数据时,采用如下步骤对用户行为推荐模型进行更新:
步骤a:获取新的用户签到数据;
步骤b:采用步骤3中的模糊分派方法将新的用户签到数据映射到多个时间段得到多条新行为,根据步骤3的模糊隶属度方程计算每条新行为的时间相关概率;
步骤c:将每条新行为的时间相关概率作为新的元素加入迭代完成的用户行为矩阵Q中,获得包含新行为的Q;
步骤d:采用增量式的随机游走算法对包含新行为的Q进行扩充,将扩充完成后的矩阵作为用户行为推荐模型。
2.基于时空信息的位置推荐方法,其特征在于,包括如下步骤:
步骤一:获取访问用户和实时访问时刻,将访问用户和实时访问时刻输入权利要求1所述的用户行为预测模型建立方法所得到的用户行为预测模型中,得到k个推荐行为,其中k为正整数,所述的每个推荐行为包括推荐时间段、推荐位置类型和该推荐位置类型的时间相关概率Pb,Pb∈(0,1);
步骤二:对包含步骤一中所有推荐行为的地理空间进行聚类,获得多个区域;
步骤三:根据步骤一获得的推荐行为和步骤二得到的区域,获取每个区域中满足各推荐行为的位置的空间吸引力值Ab,Au∈(0,1);
步骤四:获取步骤一中访问用户的历史签到数据,根据访问用户的历史签到数据和步骤二中得到的区域,获取访问用户对每个区域中满足推荐时间段的位置的空间吸引力值Au,Au∈(0,1);
步骤五:获取访问用户在推荐时间段内对每一区域中满足推荐行为的位置的偏好概率P,P=Pb*Ab*Au,对P进行从大到小的排序,将前k个P所对应的位置作为访问用户在该实时访问时刻下的推荐位置;
步骤三中,每个区域中满足各推荐行为的位置的空间吸引力值Ab如式Ⅰ所示:
其中,Ab(l|α,b)表示区域α中位置l的满足推荐行为b的空间吸引值,L表示区域α中满足推荐行为b的位置数据集,L-l表示位置数据集L中除位置l外的位置集合,l’表示区域α中除l外满足推荐行为b的任一位置,cl表示位置l被访问的次数;
步骤四中,访问用户对每个区域中满足推荐时间段的位置的空间吸引力值Au如式Ⅱ所示:
Au(l|u,α,ti)表示了区域α内在ti时间段内,用户u对位置l的个性化偏好程度,其中,Avisited(l|u,α,ti)为用户u对访问过的位置l的个性化偏好程度,Aunvisited(l|u,α,ti)为用户u对未访问过的位置l的个性化偏好程度;
步骤四中,Avisited(l|u,α,ti)和Aunvisited(l|u,α,ti)采用式Ⅲ计算:
其中,cu,l表示用户u对位置l的访问的次数,cu,l'表示用户u对位置l’的访问的次数,e-dist(l,l')表示距离衰减函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110176267.6A CN112883292B (zh) | 2021-02-06 | 2021-02-06 | 用户行为推荐模型建立及基于时空信息的位置推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110176267.6A CN112883292B (zh) | 2021-02-06 | 2021-02-06 | 用户行为推荐模型建立及基于时空信息的位置推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112883292A CN112883292A (zh) | 2021-06-01 |
CN112883292B true CN112883292B (zh) | 2023-04-18 |
Family
ID=76056265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110176267.6A Active CN112883292B (zh) | 2021-02-06 | 2021-02-06 | 用户行为推荐模型建立及基于时空信息的位置推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883292B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114579892B (zh) * | 2022-05-06 | 2022-07-22 | 南京航空航天大学 | 一种基于跨城市兴趣点匹配的用户异地访问位置预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106997389A (zh) * | 2017-03-30 | 2017-08-01 | 浙江鸿程计算机系统有限公司 | 一种基于多数据集和协同张量分解的旅游景点推荐方法 |
CN110334293A (zh) * | 2019-07-12 | 2019-10-15 | 吉林大学 | 一种面向位置社交网络基于模糊聚类的具有时间感知位置推荐方法 |
WO2020224128A1 (zh) * | 2019-05-08 | 2020-11-12 | 平安科技(深圳)有限公司 | 基于用户短期兴趣的新闻推荐方法及装置、电子设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416686B (zh) * | 2018-01-30 | 2021-10-19 | 中国矿业大学 | 一种基于煤炭资源开发的生态地质环境类型划分方法 |
-
2021
- 2021-02-06 CN CN202110176267.6A patent/CN112883292B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106997389A (zh) * | 2017-03-30 | 2017-08-01 | 浙江鸿程计算机系统有限公司 | 一种基于多数据集和协同张量分解的旅游景点推荐方法 |
WO2020224128A1 (zh) * | 2019-05-08 | 2020-11-12 | 平安科技(深圳)有限公司 | 基于用户短期兴趣的新闻推荐方法及装置、电子设备及介质 |
CN110334293A (zh) * | 2019-07-12 | 2019-10-15 | 吉林大学 | 一种面向位置社交网络基于模糊聚类的具有时间感知位置推荐方法 |
Non-Patent Citations (4)
Title |
---|
"Location Estimation Using Crowdsourced Spatial Relations";Georgios Skoumas;《ACM Transactions on Spatial Algorithms and SystemsVolume》;20160731;1-15页 * |
"Recommending Nearby Strangers Instantly Based on Similar Check-In Behaviors";Xiuquan Qiao et al.;《IEEE》;20150731;1114-1124页 * |
基于Ranking的泊松矩阵分解兴趣点推荐算法;余永红等;《计算机研究与发展》;20160815(第08期);6-18页 * |
融合时空上下文信息的兴趣点推荐;徐前方等;《北京邮电大学学报》;20180215(第01期);41-46页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112883292A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829761B (zh) | 一种兴趣点推荐方法、系统、介质及设备 | |
CN105532030B (zh) | 用于分析目标实体的移动的装置、系统和方法 | |
CN110119475B (zh) | 一种poi推荐方法及推荐系统 | |
CN109948066B (zh) | 一种基于异构信息网络的兴趣点推荐方法 | |
CN109062962A (zh) | 一种融合天气信息的门控循环神经网络兴趣点推荐方法 | |
CN108829766B (zh) | 一种兴趣点推荐方法、系统、设备及计算机可读存储介质 | |
CN108804551A (zh) | 一种兼顾多样性与个性化的空间兴趣点推荐方法 | |
CN108804646B (zh) | 一种融合深度学习和因子分解机的兴趣点签到预测方法 | |
Chen et al. | Next POI recommendation based on location interest mining with recurrent neural networks | |
CN113610265A (zh) | 一种基于超图卷积网络的时空行为预测方法及系统 | |
Rahimi et al. | Behavior-based location recommendation on location-based social networks | |
CN111738447B (zh) | 基于时空关系学习的移动社交网络用户关系推断方法 | |
CN115545758A (zh) | 城市服务设施自适应增量选址的方法和系统 | |
CN111104607A (zh) | 基于签到数据的地点推荐方法及装置 | |
CN112883292B (zh) | 用户行为推荐模型建立及基于时空信息的位置推荐方法 | |
US10444062B2 (en) | Measuring and diagnosing noise in an urban environment | |
CN115952355A (zh) | 基于时空幂律注意力的下一兴趣点推荐系统 | |
CN117010537A (zh) | 目标区域预测方法、装置、计算机设备和存储介质 | |
CN113689052A (zh) | 一种基于张量积神经网络的出行需求预测方法 | |
Shafizadeh‐Moghadam et al. | On the spatiotemporal generalization of machine learning and ensemble models for simulating built‐up land expansion | |
Quan et al. | An optimized task assignment framework based on crowdsourcing knowledge graph and prediction | |
CN113269379A (zh) | 房屋资产等级的确定方法、装置、存储介质和计算机设备 | |
CN116049887A (zh) | 基于轨迹预测的隐私轨迹发布方法和装置 | |
CN115827898A (zh) | 一种面向用户意图的时空知识图谱构建方法 | |
CN114048391B (zh) | 一种基于地理格网的兴趣活动推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |