CN107562947B - 一种移动时空感知下动态即时推荐服务模型建立方法 - Google Patents

一种移动时空感知下动态即时推荐服务模型建立方法 Download PDF

Info

Publication number
CN107562947B
CN107562947B CN201710883100.7A CN201710883100A CN107562947B CN 107562947 B CN107562947 B CN 107562947B CN 201710883100 A CN201710883100 A CN 201710883100A CN 107562947 B CN107562947 B CN 107562947B
Authority
CN
China
Prior art keywords
user
interest
mobile
topic
subtopic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710883100.7A
Other languages
English (en)
Other versions
CN107562947A (zh
Inventor
崔琳
汪材印
张志伟
宋启祥
吴孝银
李玉林
戚溪溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201710883100.7A priority Critical patent/CN107562947B/zh
Publication of CN107562947A publication Critical patent/CN107562947A/zh
Application granted granted Critical
Publication of CN107562947B publication Critical patent/CN107562947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种移动时空感知下动态即时推荐服务模型建立方法。该方法包括:对所采集的移动用户情景日志数据集进行预处理;采用CIT‑LDA主题模型,抽取每个时间片下的移动时空感知信息和用户行为偏好变化信息进行语义建模;采用对称KL散度计算用户兴趣主题的漂移概率,确定用户兴趣变化点;将用户兴趣子主题漂移轨迹的演化分为三种类型;根据用户的长期兴趣、短期兴趣以及每个兴趣所具有的权重,确定用户行为偏好模型;确定基于Top‑K的个性化动态即时推荐服务模型。本发明在Hadoop并行分布式计算环境下,使用CIT‑LDA主题模型、构建用户行为偏好变化的模型和基于Top‑K的个性化推荐方法对移动互联下基于情景感知和用户兴趣变化的个性化推荐服务进行探索性研究。

Description

一种移动时空感知下动态即时推荐服务模型建立方法
技术领域
本发明涉及移动互联网领域,更具体的涉及一种移动时空感知下动态即时推荐服务模型建立方法。
背景技术
随着移动互联网爆炸式增长、电子商务的迅猛发展以及智能手机的快速普及,尤其是基于位置的社交网络的盛行和O2O商业模式的出现,使“移动互联新生态”在全球范围内迅速成长,极大地加快了移动信息产业向社会经济各个层面、大众日常生活的渗透。与传统PC互联网相比,移动互联网最大的区别在于“移动”二字,而“移动”所提供的信息服务,又因为人的移动而渗透到现实世界,与真实的社会形成了更强互动,基于移动设备的应用和服务己经成为用户信息获取、休闲娱乐的主要方式。与此同时,这些移动应用和服务也产生了海量的历史数据,为深入探索移动互联环境下的潜在价值、开发全新的移动应用和服务提供了充分的机遇。但是,如何从浩瀚的移动网络环境中发现用户真正感兴趣的信息资源,丰富并满足移动用户对信息的个性化需求,逐渐成为移动互联网中个性化服务领域亟待解决的技术难题。
目前,对移动环境下的个性化推荐问题虽有一定程度的研究,但是,由于在移动时空情景下,用户的行为偏好会经常随时间发生变化,另外,移动会带来时空情景的切换,不同情景信息会对用户需求产生不同的影响,而传统推荐算法大都采用静态的研究方法,忽略了用户评分项目的时间因素,没有考虑移动时空下用户行为偏好变化的问题,并且针对移动推荐过程中情景信息考虑不足,以及没有充分考虑用户行为偏好变化,从而不能准确、迅速地从海量的移动应用和服务中找到用户感兴趣的内容实现个性化推荐服务。
综上所述,现有技术中,存在针对移动推荐过程中情景信息考虑不足,以及没有充分考虑用户行为偏好变化,不能准确、迅速地从海量的移动应用和服务中找到用户感兴趣的内容实现个性化推荐服务的问题。
发明内容
本发明实施例提供一种移动时空感知下动态即时推荐服务模型建立方法,用以解决现有技术中存在针对移动推荐过程中情景信息考虑不足,以及没有充分考虑用户行为偏好变化,不能准确、迅速地从海量的移动应用和服务中找到用户感兴趣的内容实现个性化推荐服务的问题。
本发明实施例提供一种移动时空感知下动态即时推荐服务模型建立方法,包括:
采集移动用户情景日志数据集,搭建Hadoop并行分布式处理环境,对所采集的移动用户情景日志数据集进行预处理,并根据预先设定的HDFS中每个数据块大小对移动用户情景日志数据集进行分割;
使用每个Map处理一个划分好的数据块,在每一个Map下,按照等时段划分预处理好的移动用户情景日志数据集,进行键值对映射,采用CIT-LDA主题模型,抽取每个时间片下的移动时空感知信息和用户行为偏好变化信息进行语义建模;
通过Shuffle对键值对执行排序,并合并具有相同主题键的多个记录;通过Reduce对键值对执行最后一次合并操作;采用对称KL散度计算用户兴趣主题的漂移概率,确定用户兴趣变化点;
根据用户兴趣子主题与前向关联子主题和后向关联子主题间的关系,将用户兴趣子主题漂移轨迹的演化分为新兴趣产生、兴趣保持和兴趣消失三种类型;当用户行为偏好发生变化时,分析所对应的用户兴趣变化点,挖掘用户所具有的长期兴趣和短期兴趣;
计算用户行为偏好在整个生命周期中绝对强度和相对强度,构建用户行为偏好变化轨迹的强度走势,挖掘每个兴趣所具有的权重;
根据用户的长期兴趣、短期兴趣以及每个兴趣所具有的权重,确定用户行为偏好变化模型;
根据用户行为偏好变化模型,结合移动时空感知信息,确定基于Top-K的个性化动态即时推荐服务模型。
较佳地,所述对所采集的移动用户情景日志数据集进行预处理,包括:
对所采集到的移动用户情景日志数据集使用汉语分词器ICTCLAS进行分词,将切分出的词进行停用词过滤形成关键词集合;为保证所抽取关键词的质量,对每个关键词计算TF-IDF值,保留大于给定阈值的关键词,使用统一向量表示所采集的移动用户情景日志文件,形成训练语料库。
较佳地,所述CIT-LDA主题模型,包括:
用户u在时刻t选择服务v的概率,通过下式确定:
P(v|θ,β,u,t,θ′,C,λ)=λP(v|θ,β,u,t)+(1-λ)P(v|θ′,C,t)
其中,P(v|θ,β,u,t)表示用户u根据自身在时刻t的兴趣分布θ和主题分布β选择服务v的概率;P(v|θ′,C,t)表示服务v被时刻t的移动情景C和移动情景分布θ′生成的概率,t表示当前时间片;参数λ为CIT-LDA模型的混合权重,表示用户自身行为偏好影响的概率,1-λ表示用户受当时移动时空情景影响的概率;
对于当前时间片t,以时间片t-1中子主题分布和服务分布的加权作为时间片t中相应分布的先验;时间片t中用户兴趣子主题分布和服务分布的Dirichlet先验满足下式:
φt=φt-1w
其中,φt中的每一列对应时间片t-1中的一个兴趣子主题-服务分布,w为权重矩阵。
较佳地,所述采用对称KL散度计算用户兴趣主题的漂移概率,判断用户兴趣变化点,包括:
用户兴趣通过使用移动用户情景日志中特征词汇的出现概率表示,判断不同时期用户兴趣主题间的语义相似性对应于度量两个概率分布间的近似程度;令滑动窗口包含N个时间片,把时间片t中的用户所具有的兴趣j记作
Figure BDA00014195824000000428
原KL散度是不对称的,但不同时期用户兴趣主题间的语义相似性是对称的,即对于任意用户兴趣主题
Figure BDA00014195824000000422
Figure BDA00014195824000000423
Figure BDA00014195824000000424
Figure BDA00014195824000000425
的相似性与
Figure BDA00014195824000000426
Figure BDA00014195824000000427
的相似性相等,改进原KL散度,确定基于对称KL散度的用户兴趣子主题相似度为:
Figure BDA0001419582400000041
其中,p(w)和q(w)分别表示特征词汇w在用户兴趣子主题
Figure BDA00014195824000000429
Figure BDA00014195824000000430
中的出现概率,V代表一个词汇字典的集合。
较佳地,
所述前向关联用户兴趣子主题为:滑窗内各时间片i(i=t-N,…,t-1)中与
Figure BDA0001419582400000042
相似度最大的用户兴趣子主题,记作
Figure BDA0001419582400000043
所述后向关联用户兴趣子主题为:滑窗内各时间片i(i=t+1,…,t+N)中与
Figure BDA0001419582400000044
相似度最大的用户兴趣子主题,记作
Figure BDA0001419582400000045
较佳地,
所述新兴趣产生,包括:对于用户兴趣子主题
Figure BDA0001419582400000046
若不存在前向关联兴趣子主题
Figure BDA0001419582400000047
使得
Figure BDA0001419582400000048
Figure BDA0001419582400000049
的相似度大于阈值ε,既不满足
Figure BDA00014195824000000410
Figure BDA00014195824000000411
是在时间片t中产生的新兴趣主题;
所述兴趣保持,包括:对于用户兴趣子主题
Figure BDA00014195824000000412
若存在前向关联兴趣子主题
Figure BDA00014195824000000413
使得
Figure BDA00014195824000000414
Figure BDA00014195824000000415
的相似度大于阈值ε,既
Figure BDA00014195824000000416
并且
Figure BDA00014195824000000417
也是
Figure BDA00014195824000000418
的后向关联兴趣子主题,即
Figure BDA00014195824000000419
Figure BDA00014195824000000420
Figure BDA00014195824000000421
的后继,用户的兴趣没有发生太大变化;
所述兴趣消失,包括:对于用户兴趣子主题
Figure BDA0001419582400000051
若不存在后向关联子主题
Figure BDA0001419582400000052
使得
Figure BDA0001419582400000053
Figure BDA0001419582400000054
的相似度大于阈值ε,既不满足
Figure BDA0001419582400000055
则主题
Figure BDA0001419582400000056
在时间片t中消亡,用户已不再具有此兴趣。
较佳地,
所述绝对强度包括:设di={di1…diM}表示移动用户情景日志di的单词序列,M表示用户情景日志di所包含的单词个数,i表示用户情景日志di所表达的用户兴趣主题;用户兴趣主题i在时间t的绝对强度采用如下公式:
Figure BDA0001419582400000057
所述相对强度包括:用户兴趣主题i在时间t的相对强度采用如下公式:
Figure BDA0001419582400000058
其中,t′为t-N与t-1之间的任一时间片,K为用户兴趣主题的个数,p为用户兴趣主题K中的其中任意一个主题。
较佳地,所述基于Top-K的个性化动态即时推荐服务模型,包括:
根据用户行为偏好变化模型,建立移动用户评分的情景模型;
设推荐系统中的移动时空情景信息C=(C1,C2),其中,C1表示时间情景,C2表示空间情景;设用户兴趣信息有m种,表示为I=(I1,I2,…Im);以向量形式化描述项目评分的情景模型为:
ItemScoreCI=(Item,C1,C2,I1,I2,…Im)
其中,Item表示具体的评分项目,Ck(k=1,2)和It(t=1,2,…m)分别为向量中的分量;
采用Pearson相关系数计算目标用户与其他用户的相似度,目标用户的情景信息和已体验过项目并做出评分的用户评分情景信息都采用ItemScoreCI的方式表示,采用Pearson相似性度量公式得出最终的预测评分,根据预测评分的高低对未评分项目进行排序,并取出排名最靠前的K个项目作为推荐集推荐给用户。
本发明实施例提供的移动时空感知下动态即时推荐服务模型建立方法,还包括:采用四种评价指标对个性化推荐服务模型进行性能评测,并根据评测结果完善个性化推荐服务模型;其中,四种评价指标包括:准确率Precision@K、排序度量指标NDCG@K、平均绝对误差MAE和均方根误差RMSE;所述四种评价指标分别定义如下:
Figure BDA0001419582400000061
Figure BDA0001419582400000062
Figure BDA0001419582400000063
Figure BDA0001419582400000064
其中,在Precision@K指标和NDCG@K指标中,test表示测试集,K表示被推荐给用户u的项目数,如果在位置j的项目是被推荐的项目,rj的值取1,否则取0,ZK被用来作归一化,保证NDCG@K是一个0到1之间的数;在MAE和RMSE指标中,N表示测试集中用户u对项目i的评分对数,ru,i表示用户u对项目i的真实评分,
Figure BDA0001419582400000065
表示用户u对项目i的预测评分。
本发明实施例中,提供一种移动时空感知下动态即时推荐服务模型建立方法,与现有技术相比,其有益效果为:本发明以所收集的移动用户情景日志为研究对象,通过提出的CIT-LDA主题建模方法、基于兴趣点POI(Point of Interest)发现的用户兴趣轨迹漂移分析方法以及Top-K个性化推荐方法对移动互联下基于情景感知和用户兴趣变化的个性化推荐服务进行探索性研究,即基于移动时空感知和用户行为偏好变化的双重视角深入开展动态推荐的相关研究,探讨移动用户行为偏好随时间发生变化下的情景即时推荐的相关研究,本发明的研究工作具有广泛的应用前景,一方面能够为现有的移动应用和服务提供支持,为移动情景感知下的个性化推荐研究提供重要补充,另一方面能够满足用户体验,促进移动应用和服务智能领域的进一步发展。
附图说明
图1为本发明实施例提供的一种移动时空感知下动态即时推荐服务模型建立方法流程图;
图2为本发明实施例提供的CIT-LDA主题模型示意图;
图3为本发明实施例提供的用户兴趣子主题产生示意图;
图4为本发明实施例提供的用户兴趣子主题继承示意图;
图5为本发明实施例提供的用户兴趣子主题消亡示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种移动时空感知下动态即时推荐服务模型建立方法。如图1所示,该方法包括:
步骤S101,采集移动用户情景日志数据集,搭建Hadoop并行分布式处理环境,对所采集的移动用户情景日志数据集进行预处理,并根据预先设定的HDFS中每个数据块大小(64MB)对移动用户情景日志数据集进行分割。
需要说明的是,由于在移动情景感知下,所获得的情景信息的种类非常多样化,如果对于不同种类的情景信息使用不同的建模方式单独建模,将会导致工作量非常庞大,而且会给情景感知使用带来困难,导致整个情景感知推荐系统的复杂度显著增加。因此需要建立一个统一的情景信息模型,以形成训练语料库。
步骤S102,使用每个Map处理一个划分好的数据块(Split),在每一个Map下,按照等时段划分预处理好的移动用户情景日志数据集,进行键值对映射,采用CIT-LDA(Contextand Interest based on Time-Latent Dirichlet Allocation)主题模型,抽取每个时间片下的移动时空感知信息和用户行为偏好变化信息进行语义建模。
针对移动时空感知下用户行为偏好随时间发生变化的问题,基于LDA主题模型,本发明提出个性化情景感知CIT-LDA主题混合模型,对移动时空情景信息和用户行为偏好变化信息进行语义建模,挖掘移动用户在不同移动时空情景下的个性化偏好。CIT-LDA模型的构建思路如图2所示。由图2知,CIT-LDA主题模型充分考虑了用户所处时空情景、用户行为偏好随时间发生变化的情况。初步构思用户u在时刻t选择服务v的概率为:
P(v|θ,β,u,t,θ′,C,λ)=λP(v|θ,β,u,t)+(1-λ)P(v|θ′,C,t) (1)
其中,P(v|θ,β,u,t)表示用户u根据自身在时刻t的兴趣分布θ和主题分布β选择服务v的概率;P(v|θ′,C,t)表示服务v被时刻t的移动情景C和移动情景分布θ′生成的概率,t表示当前时间片;参数λ为CIT-LDA模型的混合权重,表示用户自身行为偏好影响的概率,1-λ表示用户受当时移动时空情景影响的概率。
由于已出现的行为偏好主题可能在后续时间片中再次出现,因此利用历史时间片中的词分布的后验为当前时间片的子主题发现提供先验知识。对于当前时间片t,以时间片t-1中子主题分布和服务分布的加权作为时间片t中相应分布的先验,即时间片t中用户兴趣子主题分布和服务分布的Dirichlet先验满足:
φt=φt-1w (2)
其中,φt中的每一列对应时间片t-1中的一个兴趣子主题-服务分布,w为权重矩阵。
需要说明的是,所提出的CIT-LDA模型还要涉及到对参数θ,β,φ,θ′,λ的估计,采用了基于马尔科夫链蒙特卡洛(Markov chain Monte Carlo,MCMC)方法的Gibbs采样来训练模型、估计参数。
步骤S103,通过Shuffle对键值对(key-value)执行排序,并合并具有相同主题键的多个记录;再通过Reduce对键值对执行最后一次合并操作;然后采用对称KL散度计算用户兴趣主题的漂移概率,确定用户兴趣变化点。
尽管用户的行为偏好会随着时间和所处情景发生变化,但不同时期的用户的兴趣主题之间存在一定的关联,这种关联反映为不同时期用户兴趣主题间的语义相似性。因此,用户兴趣通过使用移动用户情景日志中特征词汇的出现概率表示,判断不同时期用户兴趣主题间的语义相似性对应于度量两个概率分布间的近似程度。令滑动窗口包含N个时间片,把时间片t中的用户所具有的兴趣j记作
Figure BDA0001419582400000094
原KL散度是不对称的,但不同时期用户兴趣主题间的语义相似性是对称的,即对于任意用户兴趣主题
Figure BDA0001419582400000095
Figure BDA0001419582400000096
Figure BDA0001419582400000097
的相似性与
Figure BDA0001419582400000098
Figure BDA0001419582400000099
的相似性相等,改进原KL散度,初步构思基于对称KL散度的用户兴趣子主题相似度为:
Figure BDA0001419582400000091
其中,p(w)和q(w)分别表示特征词汇w在用户兴趣子主题
Figure BDA0001419582400000092
Figure BDA0001419582400000093
中的出现概率。
步骤S104,根据用户兴趣子主题与前向关联子主题和后向关联子主题间的关系,将用户兴趣子主题漂移轨迹的演化分为新兴趣产生、兴趣保持和兴趣消失三种类型;当用户行为偏好发生变化时,分析所对应的用户兴趣变化点,挖掘用户所具有的长期兴趣和短期兴趣。
用户兴趣主题具有一定的生命周期,由一组相互关联的用户兴趣子主题组成。令N是时间滑动窗口的大小,对于时间片t中的用户兴趣子主题
Figure BDA0001419582400000101
与时间片t相邻滑窗内用户兴趣子主题间存在关联。滑窗内各时间片i(i=t-N,…,t-1)中与
Figure BDA0001419582400000102
相似度最大的用户兴趣子主题称为
Figure BDA0001419582400000103
的前向关联子主题,记作
Figure BDA0001419582400000104
时间片i(i=t+1,…,t+N)中与
Figure BDA0001419582400000105
相似度最大的子主题称为
Figure BDA0001419582400000106
的后向关联子主题,记作
Figure BDA0001419582400000107
根据用户兴趣子主题与其前向和后向关联子主题间的关系,将用户兴趣子主题漂移轨迹的演化分为新兴趣产生、兴趣保持和兴趣消失三种类型进行研究,分别介绍如下:
用户兴趣子主题产生——新兴趣产生
对于用户兴趣子主题
Figure BDA0001419582400000108
若不存在前向关联兴趣子主题
Figure BDA0001419582400000109
使得
Figure BDA00014195824000001010
Figure BDA00014195824000001011
的相似度大于阈值ε,既不满足
Figure BDA00014195824000001012
Figure BDA00014195824000001013
是在时间片t中产生的新兴趣主题,如图3所示。
用户兴趣子主题继承——兴趣保持
对于用户兴趣子主题
Figure BDA00014195824000001014
若存在前向关联兴趣子主题
Figure BDA00014195824000001015
使得
Figure BDA00014195824000001016
Figure BDA00014195824000001017
的相似度大于阈值ε,既
Figure BDA00014195824000001018
并且
Figure BDA00014195824000001019
也是
Figure BDA00014195824000001020
的后向关联兴趣子主题,即
Figure BDA00014195824000001021
Figure BDA00014195824000001022
Figure BDA00014195824000001023
的后继,如图4所示。这一现象说明用户的兴趣没有发生太大变化。
用户兴趣子主题消亡——兴趣消失
对于用户兴趣子主题
Figure BDA00014195824000001024
若不存在后向关联子主题
Figure BDA00014195824000001025
使得
Figure BDA00014195824000001026
Figure BDA00014195824000001027
的相似度大于阈值ε,既不满足
Figure BDA00014195824000001028
Figure BDA00014195824000001029
是在时间片t中消亡,如图5所示,说明用户已不再具有此兴趣。
步骤S105,计算用户行为偏好在整个生命周期中绝对强度和相对强度,构建用户行为偏好变化轨迹的强度走势,挖掘每个兴趣所具有的权重。
步骤S106,根据用户的长期兴趣、短期兴趣以及每个兴趣所具有的权重,确定用户行为偏好变化模型。
随着时间的发展,伴随着用户行为偏好发生变化的同时,用户兴趣主题强度也会发生变化。本发明通过计算用户所具有的每个兴趣的绝对强度和相对强度,来挖掘每个兴趣的权重,以判断用户感兴趣的程度是否发生变化。
设di={di1…diM}表示移动用户情景日志di的单词序列,M表示用户情景日志di所包含的单词个数,i表示用户情景日志di所表达的用户兴趣主题。用户兴趣主题i在时间t的绝对强度拟采用如下计算方法:
Figure BDA0001419582400000111
在t′时间片内,当单词|dij|t′属于用户兴趣主题i时,δ(|dij|t′,i)=1,否则δ(|dij|t′,i)=0。
用户兴趣主题i在时间t的相对强度拟采用如下计算方法:
Figure BDA0001419582400000112
其中,t′为t-N与t-1之间的任一时间片,K为用户兴趣主题的个数,p为用户兴趣主题K中的其中任意一个主题。因此,用户的每一个行为偏好的强度变化可以通过在整个主题生命周期内迭代计算用户兴趣主题i的绝对强度和相对强度进行实现,从而判断每个兴趣的感兴趣的程度是否发生变化。
基于以上分析,在挖掘用户的长期兴趣和短期兴趣以及每个兴趣的权重基础之上,就可以构建用户行为偏好变化模型。
步骤S107,根据用户行为偏好变化模型,结合移动时空感知信息,确定基于Top-K的个性化动态即时推荐服务模型。
基于所构建的用户行为偏好变化模型,建立移动用户评分的情景模型。设推荐系统中的移动时空情景信息C=(C1,C2),其中,C1表示时间情景,C2表示空间情景。设用户兴趣信息有m种,表示为I=(I1,I2,…Im)。以向量形式化描述项目评分情景模型为:
ItemScoreCI=(Item,C1,C2,I1,I2,…Im) (6)
公式(6)中,Item表示具体的评分项目,Ck(k=1,2)和It(t=1,2,…m)分别为向量中的分量。
本发明采用Pearson相关系数计算目标用户与其他用户的相似度,目标用户的情景信息和已体验过项目并做出评分的用户评分情景信息都采用ItemScoreCI的方式表示。采用Pearson相似性度量公式得出最终的预测评分,根据预测评分的高低对未评分项目进行排序,并取出排名最靠前的K个项目作为推荐集推荐给用户。
本发明还采用四种评价指标对基于Top-K的个性化动态即时推荐服务模型进行性能评测,并根据评测结果完善个性化推荐服务模型;其中,四种评价指标包括:准确率Precision@K、排序度量指标(Normalized discounted cumulative gain)NDCG@K、平均绝对误差(Mean Absolute Error)MAE和均方根误差(Root Mean Square Error)RMSE,四种评价指标分别定义如下:
Figure BDA0001419582400000121
Figure BDA0001419582400000122
Figure BDA0001419582400000123
Figure BDA0001419582400000124
其中,在Precision@K指标和NDCG@K指标中,test表示测试集,K表示被推荐给用户u的项目数,如果在位置j的项目是被推荐的项目,rj的值取1,否则取0,ZK被用来作归一化,保证NDCG@K是一个0到1之间的数。在MAE和RMSE指标中,N表示测试集中用户u对项目i的评分对数,ru,i表示用户u对项目i的真实评分,
Figure BDA0001419582400000131
表示用户u对项目i的预测评分。
实施例:
(1)为验证本发明推荐模型与方法的有效性,加快算法的运行速度,使用Hadoop搭建并行分布式处理环境,对推荐模型进行部署,采用MapReduce的工作方式对本发明所涉及的任务实施分布式并行处理。
(2)采集DoubanEvent站点和Foursquare站点上的移动用户情景日志,对所采集到的移动用户情景日志数据集使用汉语分词器ICTCLAS进行分词,将切分出的词进行停用词过滤形成关键词集合;为保证所抽取关键词的质量,对每个关键词计算TF-IDF值,保留大于给定阈值的关键词,使用统一向量表示所采集的移动用户情景日志文件,形成训练语料库。
(3)使用CIT-LDA模型对移动情景感知信息和用户兴趣变化信息进行显式建模,其中,通过Gibbs抽样进行参数估计时,使用相应的开源包。
(4)使用对称KL散度方法计算用户兴趣变化点,把用户兴趣变化细分为新兴趣出现、兴趣维持和兴趣消失三种类型;并计算用户兴趣主题的绝对强度变化和相对强度变化,以挖掘出用户所具有的长期兴趣和短期兴趣以及每个兴趣的权重。
(5)基于所构建的用户行为偏好模型,建立移动用户评分的情景模型,采用Pearson相关系数计算目标用户与其他用户的相似度,根据预测评分的高低对未评分项目进行排序,并取出排名最靠前的K个项目作为推荐集推荐给用户。
(6)使用四种评价指标(准确率Precision@K、排序度量指标NDCG@K、平均绝对误差MAE和均方根误差RMSE)评测本发明所提出的个性化推荐方法的性能,并根据评测结果,进一步完善本发明所提出的个性化推荐服务模型。
综上所述,本发明以所收集的移动用户情景日志为研究对象,在Hadoop并行分布式处理环境下,通过提出的CIT-LDA主题建模方法、基于兴趣点发现的用户兴趣轨迹漂移分析方法以及Top-K个性化推荐方法对移动互联下基于情景感知和用户兴趣变化的个性化推荐服务进行探索性研究;虽然国内外文献对移动互联环境下的个性化推荐问题有一定程度上的探讨,但很少有基于移动时空感知和用户行为偏好的双重视角深入开展移动用户即时偏好的相关研究,更极少有探讨用户行为偏好随时间发生变化下的移动情景推荐问题的相关研究;本发明的研究工作具有广泛的应用前景,一方面能够为现有的移动应用和服务提供支持,为移动情景感知下的个性化推荐研究提供重要补充,另一方面能够满足用户体验,促进移动应用和服务智能领域的进一步发展。
需要说明的是,本发明提出移动时空感知下一种基于用户行为偏好分析的动态即时推荐服务方法,以研究用户在不同移动情景下的用户行为偏好变化,了解用户在不同时空情景下的个性化偏好,并根据当前时刻的情景信息和用户自身兴趣,从浩瀚的移动网络环境中发现用户真正感兴趣的信息资源,满足移动用户对信息的个性化需求,切实地提升用户体验,实现个性化兴趣需求与即时推荐服务的匹配;本发明的研究对提高个性化服务的应用效果和寻求移动互联网络环境下个性化信息服务技术的突破具有重要价值,以期推动移动应用和服务向智能化进一步发展。
以上公开的仅为本发明的几个具体实施例,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种移动时空感知下动态即时推荐服务模型建立方法,其特征在于,包括:
采集移动用户情景日志数据集,搭建Hadoop并行分布式处理环境,对所采集的移动用户情景日志数据集进行预处理,并根据预先设定的HDFS中每个数据块大小对移动用户情景日志数据集进行分割;
使用每个Map处理一个划分好的数据块,在每一个Map下,按照等时段划分预处理好的移动用户情景日志数据集,进行键值对映射,采用CIT-LDA主题模型,抽取每个时间片下的移动时空感知信息和用户行为偏好变化信息进行语义建模;
所述CIT-LDA主题模型,包括:
用户u在时刻t选择服务v的概率,通过下式确定:
P(v|θ,β,u,t,θ′,C,λ)=λP(v|θ,β,u,t)+(1-λ)P(v|θ′,C,t)
其中,P(v|θ,β,u,t)表示用户u根据自身在时刻t的兴趣分布θ和主题分布β选择服务v的概率;P(v|θ′,C,t)表示服务v被时刻t的移动情景C和移动情景分布θ′生成的概率,t表示当前时间片;参数λ为CIT-LDA模型的混合权重,表示用户自身行为偏好影响的概率,1-λ表示用户受当时移动时空情景影响的概率;
对于当前时间片t,以时间片t-1中子主题分布和服务分布的加权作为时间片t中相应分布的先验;时间片t中用户兴趣子主题分布和服务分布的Dirichlet先验满足下式:
φt=φt-1w
其中,φt中的每一列对应时间片t-1中的一个兴趣子主题-服务分布,w为权重矩阵;
通过Shuffle对键值对执行排序,并合并具有相同主题键的多个记录;通过Reduce对键值对执行最后一次合并操作;采用对称KL散度计算用户兴趣主题的漂移概率,确定用户兴趣变化点;
根据用户兴趣子主题与前向关联子主题和后向关联子主题间的关系,将用户兴趣子主题漂移轨迹的演化分为新兴趣产生、兴趣保持和兴趣消失三种类型;当用户行为偏好发生变化时,分析所对应的用户兴趣变化点,挖掘用户所具有的长期兴趣和短期兴趣;
前向关联用户兴趣子主题为:滑窗内各时间片t′中与
Figure FDA0003020360680000021
相似度最大的用户兴趣子主题,记作
Figure FDA0003020360680000022
其中,t′=t-N,…,t-1,N为整数;
后向关联用户兴趣子主题为:滑窗内各时间片t′中与
Figure FDA0003020360680000023
相似度最大的用户兴趣子主题,记作
Figure FDA0003020360680000024
其中,t′=t+1,…,t+N,N为整数;
所述新兴趣产生,包括:对于用户兴趣子主题
Figure FDA0003020360680000025
若不存在前向关联兴趣子主题Tl m使得
Figure FDA0003020360680000026
和Tl m的相似度大于阈值ε,即不满足
Figure FDA0003020360680000027
Figure FDA0003020360680000028
是在时间片t中产生的新兴趣主题;
所述兴趣保持,包括:对于用户兴趣子主题
Figure FDA0003020360680000029
若存在前向关联兴趣子主题
Figure FDA00030203606800000210
使得
Figure FDA00030203606800000211
和Tl m的相似度大于阈值ε,即
Figure FDA00030203606800000212
并且
Figure FDA00030203606800000213
也是Tl m的后向关联兴趣子主题,即
Figure FDA00030203606800000214
Figure FDA00030203606800000215
是Tl m的后继,用户的兴趣没有发生太大变化;
所述兴趣消失,包括:对于用户兴趣子主题
Figure FDA00030203606800000216
若不存在后向关联子主题Tl m使得
Figure FDA00030203606800000217
和Tl m的相似度大于阈值ε,即不满足
Figure FDA00030203606800000218
则主题
Figure FDA00030203606800000219
在时间片t中消亡,用户已不再具有此兴趣;
计算用户行为偏好在整个生命周期中绝对强度和相对强度,构建用户行为偏好变化轨迹的强度走势,挖掘每个兴趣所具有的权重;
所述绝对强度包括:设di={di1…diM}表示移动用户情景日志di的单词序列,M表示用户情景日志di所包含的单词个数,i表示用户情景日志di所表达的用户兴趣主题;用户兴趣主题i在时间片t的绝对强度采用如下公式:
Figure FDA0003020360680000031
所述相对强度包括:用户兴趣主题i在时间片t的相对强度采用如下公式:
Figure FDA0003020360680000032
其中,t′为t-N与t-1之间的任一时间片,K为用户兴趣主题的个数,p为用户兴趣主题K中的其中任意一个主题;
根据用户的长期兴趣、短期兴趣以及每个兴趣所具有的权重,确定用户行为偏好变化模型;
根据用户行为偏好变化模型,结合移动时空感知信息,确定基于Top-K的个性化动态即时推荐服务模型。
2.如权利要求1所述的移动时空感知下动态即时推荐服务模型建立方法,其特征在于,所述对所采集的移动用户情景日志数据集进行预处理,包括:
对所采集到的移动用户情景日志数据集使用汉语分词器ICTCLAS进行分词,将切分出的词进行停用词过滤形成关键词集合;为保证所抽取关键词的质量,对每个关键词计算TF-IDF值,保留大于给定阈值的关键词,使用统一向量表示所采集的移动用户情景日志文件,形成训练语料库。
3.如权利要求1所述的移动时空感知下动态即时推荐服务模型建立方法,其特征在于,所述采用对称KL散度计算用户兴趣主题的漂移概率,判断用户兴趣变化点,包括:
用户兴趣通过使用移动用户情景日志中特征词汇的出现概率表示,判断不同时期用户兴趣主题间的语义相似性对应于度量两个概率分布间的近似程度;令滑动窗口包含N个时间片,把时间片t中的用户所具有的兴趣j记作
Figure FDA0003020360680000033
原KL散度是不对称的,但不同时期用户兴趣主题间的语义相似性是对称的,即对于任意用户兴趣主题
Figure FDA0003020360680000034
和Tl m
Figure FDA0003020360680000035
和Tl m的相似性与Tl m
Figure FDA0003020360680000036
的相似性相等,改进原KL散度,确定基于对称KL散度的用户兴趣子主题相似度为:
Figure FDA0003020360680000041
其中,p(w)和q(w)分别表示特征词汇w在用户兴趣子主题
Figure FDA0003020360680000042
和Tl m中的出现概率,V代表一个词汇字典的集合。
4.如权利要求1所述的移动时空感知下动态即时推荐服务模型建立方法,其特征在于,所述基于Top-K的个性化动态即时推荐服务模型,包括:
根据用户行为偏好变化模型,建立移动用户评分的情景模型;
设推荐系统中的移动时空情景信息C=(C1,C2),其中,C1表示时间情景,C2表示空间情景;设用户兴趣信息有m种,表示为I=(I1,I2,…Im);以向量形式化描述项目评分的情景模型为:
ItemScoreCI=(Item,C1,C2,I1,I2,…Im)
其中,Item表示具体的评分项目,Ck(k=1,2)和It(t=1,2,…m)分别为向量中的分量;
采用Pearson相关系数计算目标用户与其他用户的相似度,目标用户的情景信息和已体验过项目并做出评分的用户评分情景信息都采用ItemScoreCI的方式表示,采用Pearson相似性度量公式得出最终的预测评分,根据预测评分的高低对未评分项目进行排序,并取出排名最靠前的K个项目作为推荐集推荐给用户。
5.如权利要求1所述的移动时空感知下动态即时推荐服务模型建立方法,其特征在于,还包括:采用四种评价指标对个性化推荐服务模型进行性能评测,并根据评测结果完善个性化推荐服务模型;其中,四种评价指标包括:准确率Precision@K、排序度量指标NDCG@K、平均绝对误差MAE和均方根误差RMSE;所述四种评价指标分别定义如下:
Figure FDA0003020360680000051
Figure FDA0003020360680000052
Figure FDA0003020360680000053
Figure FDA0003020360680000054
其中,在Precision@K指标和NDCG@K指标中,test表示测试集,K表示被推荐给用户u的项目数,如果在位置j的项目是被推荐的项目,rj的值取1,否则取0,ZK被用来作归一化,保证NDCG@K是一个0到1之间的数;在MAE和RMSE指标中,N表示测试集中用户u对项目i的评分对数,ru,i表示用户u对项目i的真实评分,
Figure FDA0003020360680000055
表示用户u对项目i的预测评分。
CN201710883100.7A 2017-09-26 2017-09-26 一种移动时空感知下动态即时推荐服务模型建立方法 Active CN107562947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710883100.7A CN107562947B (zh) 2017-09-26 2017-09-26 一种移动时空感知下动态即时推荐服务模型建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710883100.7A CN107562947B (zh) 2017-09-26 2017-09-26 一种移动时空感知下动态即时推荐服务模型建立方法

Publications (2)

Publication Number Publication Date
CN107562947A CN107562947A (zh) 2018-01-09
CN107562947B true CN107562947B (zh) 2021-07-02

Family

ID=60982993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710883100.7A Active CN107562947B (zh) 2017-09-26 2017-09-26 一种移动时空感知下动态即时推荐服务模型建立方法

Country Status (1)

Country Link
CN (1) CN107562947B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684561B (zh) * 2018-12-24 2021-06-08 宿州学院 基于用户签到行为变化的深层语义分析的兴趣点推荐方法
CN109933720B (zh) * 2019-01-29 2023-03-10 汕头大学 一种基于用户兴趣自适应演化的动态推荐方法
CN110059141A (zh) * 2019-04-22 2019-07-26 珠海网博信息科技股份有限公司 一种通过日志轨迹对不同采集特征进行关系分析的方法
CN111104383B (zh) * 2019-05-10 2023-06-20 清华大学 一种检测事件日志突发漂移变化的方法及装置
CN110134878B (zh) * 2019-05-16 2022-12-16 哈尔滨工业大学 基于用户偏好与服务变化双向感知的移动服务推荐方法
CN111191117A (zh) * 2019-12-11 2020-05-22 中国地质大学(武汉) 一种用于政务地图服务的精准性用户兴趣检测方法及系统
CN111310033B (zh) * 2020-01-23 2023-05-30 山西大学 基于用户兴趣漂移的推荐方法及推荐装置
CN113495991A (zh) * 2020-04-03 2021-10-12 北京沃东天骏信息技术有限公司 一种推荐方法和装置
CN111695020A (zh) * 2020-06-15 2020-09-22 广东工业大学 一种基于Hadoop平台的信息推荐方法及系统
CN113468413B (zh) * 2021-06-07 2023-05-16 南京邮电大学 一种面向多用户共享的多媒体网络视频推荐方法
CN114780855B (zh) * 2022-05-05 2022-11-25 穗保(广州)科技有限公司 一种基于互联网安全性的信息共享系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10740415B2 (en) * 2015-11-02 2020-08-11 Oath Inc. Content recommendation

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
个性化混合推荐算法的研究;张腾季;《中国优秀硕士学位论文全文数据库 信息科技辑》;中国学术期刊(光盘版)电子杂志社;20140215;第2014年卷(第02期);第47,48页 *
基于Hadoop海量日志文件的网站并发性能分析;赵莹映;《中国优秀硕士学位论文全文数据库 信息科技辑》;中国学术期刊(光盘版)电子杂志社;20150515;第2015年卷(第05期);第15-16,19-23,26-27,33-34页 *
基于主题模型的混合推荐算法研究;卢洋;《中国优秀硕士学位论文全文数据库 信息科技辑》;中国学术期刊(光盘版)电子杂志社;20160315;第2016年卷(第03期);第15-19,49-52页 *
基于存储系统的重复数据删除技术的研究;陈琳;《中国优秀硕士学位论文全文数据库 信息科技辑》;中国学术期刊(光盘版)电子杂志社;20170215;第2017年卷(第02期);第20,22页 *
基于用户-兴趣-项目三部图的推荐算法;张艳梅等;《模式识别与人工智能》;20151031;第28卷(第10期);第913-921页 *
混合模型的用户兴趣漂移算法;郭新明、弋改珍;《智能系统学报》;20100430;第5卷(第2期);第181-184页 *

Also Published As

Publication number Publication date
CN107562947A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107562947B (zh) 一种移动时空感知下动态即时推荐服务模型建立方法
CN111177575B (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
CN108304439B (zh) 一种语义模型优化方法、装置及智能设备、存储介质
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
CN108446964B (zh) 一种基于移动流量dpi数据的用户推荐方法
CN106610970A (zh) 基于协同过滤的内容推荐系统与方法
Díaz-Morales Cross-device tracking: Matching devices and cookies
CN112749330B (zh) 信息推送方法、装置、计算机设备和存储介质
CN115878841B (zh) 一种基于改进秃鹰搜索算法的短视频推荐方法及系统
CN105760499A (zh) 一种基于lda主题模型来分析和预测网络舆情的方法
Wang et al. A multidimensional nonnegative matrix factorization model for retweeting behavior prediction
Zhao et al. Text sentiment analysis algorithm optimization and platform development in social network
Liu et al. Multi-perspective User2Vec: Exploiting re-pin activity for user representation learning in content curation social network
Huang et al. Information fusion oriented heterogeneous social network for friend recommendation via community detection
CN116244513A (zh) 随机群组poi推荐方法、系统、设备及存储介质
Daouadi et al. Organization vs. Individual: Twitter User Classification.
Song et al. Recommending hashtags to forthcoming tweets in microblogging
KR101910424B1 (ko) 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치
Zhu et al. MMLUP: Multi-Source & Multi-Task Learning for User Profiles in Social Network.
CN112464106A (zh) 对象推荐方法及装置
Dasondi et al. An implementation of graph based text classification technique for social media
Batura Methods of social networks analysis
CN107609786B (zh) 一种在线社会网络下构建用户行为偏好变化模型的方法
Liu et al. ICE: Information credibility evaluation on social media via representation learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant