CN112182398A - 考虑用户的长期偏好与短期偏好的景点推荐方法和系统 - Google Patents
考虑用户的长期偏好与短期偏好的景点推荐方法和系统 Download PDFInfo
- Publication number
- CN112182398A CN112182398A CN202011087437.5A CN202011087437A CN112182398A CN 112182398 A CN112182398 A CN 112182398A CN 202011087437 A CN202011087437 A CN 202011087437A CN 112182398 A CN112182398 A CN 112182398A
- Authority
- CN
- China
- Prior art keywords
- term
- tourist
- short
- sequences
- tourists
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000007774 longterm Effects 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 230000009193 crawling Effects 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/587—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种考虑用户的长期偏好与短期偏好的景点推荐方法和系统,利用注意力机制关注整个序列行为中的重要信息,得到长期偏好;BiLSTM学习短期序列中的顺序信息,得到短期偏好;同时考虑长短期偏好为游客动态推荐下一个景点,提高推荐结果的准确度。其避免了数据稀疏和独立假设问题,同时进一步解决目前景点推荐方法中推荐精度不高和推荐结果个性化程度低等问题。该方法考虑了景点之间的关联性,且同时考虑游客长短期偏好,可有效为游客偏好建模,使得推荐性能得以提升。
Description
技术领域
本发明属于信息学、数据处理与推送领域,尤其涉及一种考虑用户的长期偏好与短期偏好的景点推荐方法和系统。
背景技术
近年来,随着移动设备和基于位置的社交网络(LBSN)服务的快速增长,照片分享网站(如:Instagram、Flickr等)用户量日益增加,已共享的照片数据集达到PB级,其中约40%的照片带有地理位置信息。这些地理标记照片隐式地记录了游客的位置信息,可重建游客旅游轨迹,挖掘游客行为偏好,为游客提供高时效性、高个性化的旅游景点推荐服务创造了可行性条件。
目前,旅游景点推荐方法通常是基于协同过滤或基于内容的方法,推荐系统在建立用户-景点矩阵会出现数据稀疏问题;基于马尔科夫模型的方法通过观察用户的行为数据生成状态转移矩阵,可根据该矩阵预测用户下一行为,可有效利用用户的短期偏好信息,但此类方法具有很强的假设性,无法为用户复杂的序列行为进行有效建模。此外,用户的旅行偏好可能会随着时间发生变化,而现有的方法推荐方法大多未同时考虑用户的长期偏好与短期偏好,或仅将用户的最近一次访问作为用户的短期偏好,会降低推荐的准确度。如何构建一个充分考虑用户偏好动态变化的个性化景点推荐方法满足用户需求是目前旅游推荐服务中亟需解决的问题。
此外,景点的特征信息是反映用户旅行偏好和景点之间相似性的重要信息,在推荐过程中没有考虑景点特征信息会导致推荐准确度和推荐结果个性化程度不高的问题。
发明内容
为了填补现有技术的空白,本发明提出一种考虑用户的长期偏好与短期偏好的景点推荐方法和系统,或者说基于主题模型和用户偏好的个性化景点推荐方案。本发明首先利用Flickr API等工具获取旅游城市范围内的地理标记照片数据集;使用主题模型挖掘景点的主题特征信息,获得游客的兴趣分布;将每个游客的历史游览景点序列进行编码转换得到游客和景点序列信息的低维稠密向量;将长期序列作为注意力层的输入进行训练,学习每个景点对不同游客的重要程度,将短期序列作为BiLSTM层的输入进行训练,学习景点的序列信息,获得游客的长期偏好和短期偏好,结合长短期偏好为游客推荐合适的旅游景点。避免了数据稀疏和独立假设问题,同时进一步解决目前景点推荐方法中推荐精度不高和推荐结果个性化程度低等问题。该方法考虑了景点之间的关联性,且同时考虑游客长短期偏好,可有效为游客偏好建模,使得推荐性能得以提升。
本发明具体采用以下技术方案:
一种考虑用户的长期偏好与短期偏好的景点推荐方法,其特征在于,包括以下步骤:
步骤S21:将游客历史游览景点序列作为长期序列,最近m个景点序列作为短期序列;
步骤S22:将景点序列及景点的主题特征信息输入嵌入层进行编码转换为低维稠密向量;
步骤S23:将长期序列对应的低维稠密向量输入注意力层,学习每个景点对不同游客的权重,将权重与景点序列及景点的主题特征信息构成的向量相乘后累加得到游客的长期偏好;
步骤S24:将短期序列对应的低维稠密向量输入BiLSTM网络训练获得游客的短期偏好;
步骤S25:将游客的长期偏好和短期偏好进行加权融合得到游客的最终偏好,计算并输出每个景点游客下一次访问的概率,按概率由高到低生成推荐列表。
优选地,所述景点序列和景点的主题特征信息通过以下步骤获得:
步骤S11:获取地理标记照片数据集,包括:照片的ID、用户名、经纬度、拍摄时间及标签文本;
步骤S12:对所述地理标记照片数据集进行预处理;
步骤S13:利用基于游客密度的聚类算法识别旅游热点区域得到景点集合V;
步骤S14:将旅游热点区域以内的数据按时间排序重建游客旅游轨迹,获取游客的游览景点序列。
步骤S15:利用LDA主题模型根据景点区域内的照片标签文本提取景点的主题特征信息,得到景点的主题数据集T。
优选地,步骤S12:对所述地理标记照片数据集进行预处理具体包括:
步骤S121:用户名、经纬度以及拍摄时间都相同的数据仅保留一条;
步骤S122:利用基于熵的流动性方法滤除非游客数据:
步骤S123:删除用户名和拍摄时间相同但经纬度不同的数据;
在步骤S14之后,对景点序列进行滤除,具体步骤如下:
步骤S141:过滤景点序列长度为1的数据;s
步骤S142:同一游客的景点序列中景点之间时间间隔若超过七天,将其视为两次旅游数据。
优选地,在步骤S11中,所述地理标记照片数据集通过Flickr网站提供的API爬取获得;
在步骤S13中,所述聚类算法为P-DBSCAN;
在步骤S15中,采用Gibbs采样算法实现LDA,并通过计算主题的一致性确定最优的主题数量。
优选地,步骤S122:利用基于熵的流动性方法滤除非游客数据具体包括:
步骤S122A:对所述地理标记照片数据集进行标注,区分旅游数据与非旅游数据;
步骤S122B:按照片拍摄时间的统计每个用户不同月份的照片数量,第i个月的照片数量表示为Di(u),用户u在旅游城市中拍摄照片的月份数量表示为Mon(u),根据信息熵的原理计算熵值E(u),计算公式如下:
步骤S122C:采用阈值Ethreshold区分居民和游客,如果E(u)>Ethreshold,则将用户u视为居民;反之,将用户u视为游客;假设用户一年的照片分布在n个月,根据公式计算不同n时的E(u),选择准确率最高的阈值作为区分游客和居民的条件,并对整个数据集进行分类,删除非旅游数据;
在步骤S15中,通过计算主题的一致性确定最优的主题数量具体包括:
其中,Ct表示主题的一致性,|K|表示景点主题的数量,m表示景点主题c中频率最高单词的数量,D(c,wi)表示包含词wi的文档数量,D(c,wi,wj)表示同时包含词wi和词wj的文档数量;
将Ct取最大值时作为最佳阈值,并建立景点的主题数据集T。
优选地,步骤S22的计算过程为:
步骤S23的计算过程为:
其中,uT是用户的隐藏向量,oi表示第i个景点的权重。pl表示游客u的长期偏好;
步骤S24中所述BiLSTM层包括正向LSTM和反向LSTM,其中,正向LSTM的计算过程为:
i=σ(Wixt+Uiht-1)
f=σ(Wfxt+Ufht-1)
o=σ(Woxt+Uoht-1)
g=tanh(Wgxt+Ught-1)
st=f⊙st-1+i⊙g
ht=o⊙tanh(st)
其中,i用于控制是否更新当前输入的信息,f用于控制是否遗忘记忆中的信息,o用于控制是否将记忆中的信息给输出,σ表示sigmoid函数,tanh表示双曲正切函数,Wi、Ui表示输入门权重矩阵,Wf、Uf表示遗忘门权重矩阵,Wo、Uo表示输出门权重矩阵,Wg、Ug表示更新门权重矩阵,xt表示输入的序列,g表示新的候选值向量,ht-1表示上一时刻的输出,st-1表示上一时刻的状态,st表示当前时刻的状态,ht表示当前时刻的输出,⊙表示哈达玛积;
反向LSTM的计算过程与前向的类似,区别在于输入的景点序列是反向的。将正向LSTM的输出ht与反向LSTM的输出hb进行拼接,获得游客短期偏好ps:
在步骤S25中,将经过注意力层和BiLSTM层训练后的数据输入融合层进行合并:
其中,W是控制游客长期偏好和短期偏好的权重,ph表示游客的最终偏好;
对于候选景点的评分函数,将游客的最终偏好向量与候选景点向量进行点积操作,再利用softmax函数进行归一化,计算每个景点下一次访问的概率计算如下:
最后,按概率从高到低对景点进行排序,将前K个景点推荐给用户。
以及,一种考虑用户的长期偏好与短期偏好的景点推荐系统,其特征在于,包括:
处理模块,用于获取游客的历史游览景点序列和景点对应的主题特征信息,将景点序列处理为长期景点序列和短期景点序列;
计算模块,用于利用嵌入层将景点序列及景点对应的主题特征信息转化为低维稠密向量,再将游客的长期序列输入注意力层、游客的短期序列输入BiLSTM网络,将经过注意力层和BiLSTM层训练后的数据输入全连接层进行合并,得到游客当前的旅游偏好;
推荐模块,用于计算每个景点下一次访问的概率,按概率从高到低对景点进行排序,将前K个景点生成最终的推荐列表推荐给用户。
优选地,所述处理模块将游客历史游览景点序列作为长期序列,最近m个景点序列作为短期序列。
优选地,所述处理模块通过Flickr网站提供的API爬取获得地理标记照片数据集,利用基于游客密度的聚类算法识别旅游热点区域得到景点集合,将旅游热点区域以内的数据按时间排序重建游客旅游轨迹,获取游客的游览景点序列,利用LDA主题模型根据景点区域内的照片标签文本提取景点的主题特征信息,得到景点的主题数据集。
与现有技术相比,本发明及其优选方案有如下有益效果:
(1)目前的景点推荐方法仅对游客的序列信息建模,忽略了景点之间的相关性,本发明利用主题模型挖掘景点的特征信息,能进一步为游客旅行偏好建模;
(2)在基于深度学习的推荐方法中大多只考虑用户的长期偏好,或考虑长短期偏好但仅将用户的最近一次序列行为作为短期偏好。本发明利用注意力机制关注整个序列行为中的重要信息,得到长期偏好;BiLSTM学习短期序列中的顺序信息,得到短期偏好;最后同时考虑长短期偏好为游客动态推荐下一个景点,提高推荐结果的准确度。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1为本发明实施例获取数据集信息的流程示意图;
图2为本发明实施例基于主题模型和用户偏好的个性化景点推荐方法框架示意图;
图3为本发明实施例推荐装置系统结构示意图;
图4为本发明实施例整体流程示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
本实施例方案整体流程如图4所示,下面结合具体实例将本发明的内容作进一步阐述,该实例仅说明本发明的原理,其保护范围并不仅限于此。具体实施例如下:
步骤1,数据采集与处理,如图1所示:
1.1)利用Flickr网站提供的API爬取旅游城市的地理标记照片数据集,包括照片的ID、用户名、经纬度、拍摄时间及标签文本;
1.2)利用以下3步对数据集进行预处理,具体步骤如下:
1.2.1)用户名、经纬度以及拍摄时间都相同的数据仅保留一条;
1.2.2)利用基于熵的流动性方法滤除非游客数据:
(A)结合照片内容与经验对照片数据集进行标注,区分旅游数据与非旅游数据;
(B)按照片拍摄时间的统计每个用户不同月份的照片数量,第i个月的照片数量表示为Di(u),用户u在旅游城市中拍摄照片的月份数量表示为Mon(u),根据信息熵的原理计算熵值E(u),计算公式如下:
(C)当E(u)的值较高时,用户更有可能成为居民。使用阈值Ethreshold来区分居民和游客,如果E(u)>Ethreshold,则将用户u视为居民;反之,将用户u视为游客。假设用户一年的照片分布在n个月,根据公式计算不同n时的E(u),选择准确率最高的阈值作为区分游客和居民的条件,并对整个数据集进行分类,删除非旅游数据。
1.2.3)由于存在拍照设备定位错误的情况,删除用户名和拍摄时间相同但经纬度不同的数据。
1.3)利用基于游客密度的聚类算法(P-DBSCAN)识别旅游热点区域得到景点集合V;
1.4)将旅游热点区域以内的数据按时间排序重建游客旅游轨迹,获取游客的游览景点序列,并对景点序列进行滤除,具体步骤如下:
1.4.1)过滤景点序列长度为1的数据;
1.4.2)同一游客的景点序列中景点与景点之间时间间隔若超过七天,将其分割为两次旅游数据。
1.5)利用LDA主题模型根据景点区域范围内的照片标签文本挖掘景点的主题特征信息,得到景点的主题数据集T;
为了降低LDA的时间复杂度,在本实施例中使用Gibbs采样算法来实现LDA,并通过计算主题的一致性来确定最优的主题数量:
其中,Ct表示主题的一致性,|K|表示景点主题的数量,m表示景点主题c中频率最高单词的数量,D(c,wi)表示包含词wi的文档数量,D(c,wi,wj)表示同时包含词wi和词wj的文档数量;
将Ct取最大值时作为最佳阈值,并建立景点的主题数据集T。
步骤2,个性化景点推荐,如图2所示:
2.1)将游客的整个历史游览景点序列视为长期序列,最近m个景点序列视为短期序列;
2.2)将游客的景点序列及景点的主题特征信息输入Embedding层进行编码转换为低维稠密向量,其计算公式为:
2.3)将游客的长期序列输入注意力层,学习每个景点对不同游客的重要程度(权重),将权重与景点向量相乘累加得到游客的长期偏好pl:
其中,uT是用户的隐藏向量,oi表示第i个景点的权重。pl表示游客u的长期偏好;
2.4)将游客短期序列输入BiLSTM层训练数据,BiLSTM层包括正向LSTM和反向LSTM,其中,正向LSTM的计算过程为:
i=σ(Wixt+Uiht-1)
f=σ(Wfxt+Ufht-1)
o=σ(Woxt+Uoht-1)
g=tanh(Wgxt+Ught-1)
st=f⊙st-1+i⊙g
ht=o⊙tanh(st)
其中,i用于控制是否更新当前输入的信息,f用于控制是否遗忘记忆中的信息,o用于控制是否将记忆中的信息给输出,σ表示sigmoid函数,tanh表示双曲正切函数,Wi、Ui表示输入门权重矩阵,Wf、Uf表示遗忘门权重矩阵,Wo、Uo表示输出门权重矩阵,Wg、Ug表示更新门权重矩阵,xt表示输入的序列,g表示新的候选值向量,ht-1表示上一时刻的输出,st-1表示上一时刻的状态,st表示当前时刻的状态,ht表示当前时刻的输出,⊙表示哈达玛积;
反向LSTM的计算过程与前向的类似,区别在于输入的景点序列是反向的。将正向LSTM的输出ht与反向LSTM的输出hb进行拼接,获得游客短期偏好ps:
2.5)将经过注意力层和BiLSTM层训练后的数据输入融合层进行合并:
其中,W是控制游客长期偏好和短期偏好的权重,ph表示游客的最终偏好;
对于候选景点的评分函数,将游客的最终偏好向量与候选景点向量进行点积操作:
2.7)最后,按概率从高到低对景点进行排序,将前K个景点推荐给用户。
本实施例相对于最大改进之处在于:现有的推荐方法大多未同时考虑用户的长期偏好与短期偏好,或仅将用户的最近一次访问作为用户的短期偏好,而本发明利用注意力机制关注整个序列行为中的重要信息,得到长期偏好;BiLSTM学习短期序列中的顺序信息,得到短期偏好;同时考虑长短期偏好为游客动态推荐下一个景点,提高推荐结果的准确度。
此外,本发明利用LDA主题模型对用户照片元数据中的文本信息进行聚类,挖掘景点的特征信息,获得景点之间的隐藏关联,通过将特征信息融入用户景点序列中进一步提高推荐准确度和推荐结果个性化程度。
图3为根据本发明一个实施例的基于主题模型和用户偏好的个性化景点推荐装置系统结构示意图,包括:
处理模块,用于获取游客的历史游览景点序列和景点对应的主题特征信息,将景点序列处理为长期景点序列和短期景点序列;
计算模块,利用嵌入层将景点序列及景点对应的主题特征信息转化为低维稠密向量,再将游客的长期序列输入注意力层、游客的短期序列输入BiLSTM网络,将经过注意力层和BiLSTM层训练后的数据输入全连接层进行合并,得到游客当前的旅游偏好;
推荐模块,计算每个景点下一次访问的概率,按概率从高到低对景点进行排序,将前K个景点生成最终的推荐列表推荐给用户。
本实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。本领域相关技术人员在实践中可以使用微处理器或者数字信号处理器等来实现根据本发明实施例的个性化景点推荐装置中的部分或者全部功能。本发明还可以实现用于执行上述方法的部分或者全部的装置程序,包括计算机程序代码(如源代码形式、可执行文件或其他形式)和计算机程序产品(如存储卡、软盘和硬盘之类的计算机程序载体)。
本实施例还提供一种电子设备,该电子设备包括存储器和处理器。存储器可以是随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、闪存、光盘、软盘或机械硬盘等,用于存储数据和计算机程序;处理器可以是中央处理器(Center Processing Unit,CPU)、微处理器或数字信号处理器等,用于执行实现上述方法的计算机程序。本领域相关技术人员可以理解到,本发明所述的装置及电子设备还可以通过其他方式实现,此处不再赘述。
在本实施例中,对模块进行了具体划分,本领域的技术人员在实践中可以将本说明书中描述的模块进行不同的组合或修改来完成上文所述的方法和装置/电子设备。例如,上述实施例的模块的划分仅仅是示意性的,仅为逻辑功能的一种划分,在实际应用过程中,可以有其他的划分方式。在不互相影响的前提下可以对实施例的电子设备的模块进行组合或改变,可以设置在一个或多个电子硬件设备中。例如多个单元或组件可以结合或者可以集成到另一个系统,或忽略某些特征,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储器中。另外,需要说明的是,实现上述的部分功能或全部功能不受特定编程语言的限制。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的考虑用户的长期偏好与短期偏好的景点推荐方法和系统,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。
Claims (9)
1.一种考虑用户的长期偏好与短期偏好的景点推荐方法,其特征在于,包括以下步骤:
步骤S21:将游客历史游览景点序列作为长期序列,最近m个景点序列作为短期序列;
步骤S22:将景点序列及景点的主题特征信息输入嵌入层进行编码转换为低维稠密向量;
步骤S23:将长期序列对应的低维稠密向量输入注意力层,学习每个景点对不同游客的权重,将权重与景点序列及景点的主题特征信息构成的向量相乘后累加得到游客的长期偏好;
步骤S24:将短期序列对应的低维稠密向量输入BiLSTM网络训练获得游客的短期偏好;
步骤S25:将游客的长期偏好和短期偏好进行加权融合得到游客的最终偏好,计算并输出每个景点游客下一次访问的概率,按概率由高到低生成推荐列表。
2.根据权利要求1所述的考虑用户的长期偏好与短期偏好的景点推荐方法,其特征在于:所述景点序列和景点的主题特征信息通过以下步骤获得:
步骤S11:获取地理标记照片数据集,包括:照片的ID、用户名、经纬度、拍摄时间及标签文本;
步骤S12:对所述地理标记照片数据集进行预处理;
步骤S13:利用基于游客密度的聚类算法识别旅游热点区域得到景点集合V;
步骤S14:将旅游热点区域以内的数据按时间排序重建游客旅游轨迹,获取游客的游览景点序列。
步骤S15:利用LDA主题模型根据景点区域内的照片标签文本提取景点的主题特征信息,得到景点的主题数据集T。
3.根据权利要求2所述的考虑用户的长期偏好与短期偏好的景点推荐方法,其特征在于:
步骤S12:对所述地理标记照片数据集进行预处理具体包括:
步骤S121:用户名、经纬度以及拍摄时间都相同的数据仅保留一条;
步骤S122:利用基于熵的流动性方法滤除非游客数据:
步骤S123:删除用户名和拍摄时间相同但经纬度不同的数据;
在步骤S14之后,对景点序列进行滤除,具体步骤如下:
步骤S141:过滤景点序列长度为1的数据;
步骤S142:同一游客的景点序列中景点之间时间间隔若超过七天,将其视为两次旅游数据。
4.根据权利要求3所述的考虑用户的长期偏好与短期偏好的景点推荐方法,其特征在于:在步骤S11中,所述地理标记照片数据集通过Flickr网站提供的API爬取获得;
在步骤S13中,所述聚类算法为P-DBSCAN;
在步骤S15中,采用Gibbs采样算法实现LDA,并通过计算主题的一致性确定最优的主题数量。
5.根据权利要求4所述的考虑用户的长期偏好与短期偏好的景点推荐方法,其特征在于:步骤S122:利用基于熵的流动性方法滤除非游客数据具体包括:
步骤S122A:对所述地理标记照片数据集进行标注,区分旅游数据与非旅游数据;
步骤S122B:按照片拍摄时间的统计每个用户不同月份的照片数量,第i个月的照片数量表示为Di(u),用户u在旅游城市中拍摄照片的月份数量表示为Mon(u),根据信息熵的原理计算熵值E(u),计算公式如下:
步骤S122C:采用阈值Ethreshold区分居民和游客,如果E(u)>Ethreshold,则将用户u视为居民;反之,将用户u视为游客;假设用户一年的照片分布在n个月,根据公式计算不同n时的E(u),选择准确率最高的阈值作为区分游客和居民的条件,并对整个数据集进行分类,删除非旅游数据;
在步骤S15中,通过计算主题的一致性确定最优的主题数量具体包括:
其中,Ct表示主题的一致性,|K|表示景点主题的数量,m表示景点主题c中频率最高单词的数量,D(c,wi)表示包含词wi的文档数量,D(c,wi,wj)表示同时包含词wi和词wj的文档数量;
将Ct取最大值时作为最佳阈值,并建立景点的主题数据集T。
6.根据权利要求1所述的考虑用户的长期偏好与短期偏好的景点推荐方法,其特征在于:
步骤S22的计算过程为:
步骤S23的计算过程为:
其中,uT是用户的隐藏向量,oi表示第i个景点的权重。pl表示游客u的长期偏好;
步骤S24中所述BiLSTM层包括正向LSTM和反向LSTM,其中,正向LSTM的计算过程为:
i=σ(Wixt+Uiht-1)
f=σ(Wfxt+Ufht-1)
o=σ(Woxt+Uoht-1)
g=tanh(Wgxt+Ught-1)
st=f⊙st-1+i⊙g
ht=o⊙tanh(st)
其中,i用于控制是否更新当前输入的信息,f用于控制是否遗忘记忆中的信息,o用于控制是否将记忆中的信息给输出,σ表示sigmoid函数,tanh表示双曲正切函数,Wi、Ui表示输入门权重矩阵,Wf、Uf表示遗忘门权重矩阵,Wo、Uo表示输出门权重矩阵,Wg、Ug表示更新门权重矩阵,xt表示输入的序列,g表示新的候选值向量,ht-1表示上一时刻的输出,st-1表示上一时刻的状态,st表示当前时刻的状态,ht表示当前时刻的输出,⊙表示哈达玛积;
反向LSTM的计算过程与正向LSTM的区别在于输入的景点序列是反向的;
将正向LSTM的输出ht与反向LSTM的输出hb进行拼接,获得游客短期偏好ps:
在步骤S25中,将经过注意力层和BiLSTM层训练后的数据输入融合层进行合并:
其中,W是控制游客长期偏好和短期偏好的权重,ph表示游客的当前偏好;
对于候选景点的评分函数,将游客的当前偏好向量与候选景点向量进行点积操作,再利用softmax函数进行归一化,计算每个景点下一次访问的概率计算如下:
最后,按概率从高到低对景点进行排序,将前K个景点推荐给用户。
7.一种考虑用户的长期偏好与短期偏好的景点推荐系统,其特征在于,包括:
处理模块,用于获取游客的历史游览景点序列和景点对应的主题特征信息,将景点序列处理为长期景点序列和短期景点序列;
计算模块,用于利用嵌入层将景点序列及景点对应的主题特征信息转化为低维稠密向量,再将游客的长期序列输入注意力层、游客的短期序列输入BiLSTM网络,将经过注意力层和BiLSTM层训练后的数据输入全连接层进行合并,得到游客当前的旅游偏好;
推荐模块,用于计算每个景点下一次访问的概率,按概率从高到低对景点进行排序,将前K个景点生成最终的推荐列表推荐给用户。
8.根据权利要求7所述的考虑用户的长期偏好与短期偏好的景点推荐系统,其特征在于:所述处理模块将游客历史游览景点序列作为长期序列,最近m个景点序列作为短期序列。
9.根据权利要求7所述的考虑用户的长期偏好与短期偏好的景点推荐系统,其特征在于:所述处理模块通过Flickr网站提供的API爬取获得地理标记照片数据集,利用基于游客密度的聚类算法识别旅游热点区域得到景点集合,将旅游热点区域以内的数据按时间排序重建游客旅游轨迹,获取游客的游览景点序列,利用LDA主题模型根据景点区域内的照片标签文本提取景点的主题特征信息,得到景点的主题数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011087437.5A CN112182398B (zh) | 2020-10-13 | 2020-10-13 | 考虑用户的长期偏好与短期偏好的景点推荐方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011087437.5A CN112182398B (zh) | 2020-10-13 | 2020-10-13 | 考虑用户的长期偏好与短期偏好的景点推荐方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182398A true CN112182398A (zh) | 2021-01-05 |
CN112182398B CN112182398B (zh) | 2022-05-10 |
Family
ID=73951139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011087437.5A Active CN112182398B (zh) | 2020-10-13 | 2020-10-13 | 考虑用户的长期偏好与短期偏好的景点推荐方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182398B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158086A (zh) * | 2021-04-06 | 2021-07-23 | 浙江贝迩熊科技有限公司 | 一种基于深度强化学习的个性化客户推荐系统和方法 |
CN113407842A (zh) * | 2021-06-28 | 2021-09-17 | 携程旅游信息技术(上海)有限公司 | 模型训练方法、主题推荐理由的获取方法及系统、电子设备 |
CN113486250A (zh) * | 2021-07-28 | 2021-10-08 | 中移(杭州)信息技术有限公司 | 内容推荐方法、装置、设备及计算机可读存储介质 |
CN113505311A (zh) * | 2021-07-12 | 2021-10-15 | 中国科学院地理科学与资源研究所 | 一种可根据“潜在语义空间”的旅游景点交互推荐方法 |
CN116883048A (zh) * | 2023-07-12 | 2023-10-13 | 广州朝辉智能科技有限公司 | 基于人工智能的客户数据处理方法、装置及计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032480A1 (en) * | 2015-08-02 | 2017-02-02 | Chi Him Wong | Personalized travel planning and guidance system |
CN109359287A (zh) * | 2018-07-12 | 2019-02-19 | 福州大学 | 交互式文化旅游景区景点在线推荐系统及方法 |
CN110163772A (zh) * | 2019-04-19 | 2019-08-23 | 杭州电子科技大学 | 一种基于BiLSTM-CRF的旅游行程路线生成方法 |
CN110377840A (zh) * | 2019-07-29 | 2019-10-25 | 电子科技大学 | 一种基于用户长短期偏好的音乐列表推荐方法及系统 |
-
2020
- 2020-10-13 CN CN202011087437.5A patent/CN112182398B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032480A1 (en) * | 2015-08-02 | 2017-02-02 | Chi Him Wong | Personalized travel planning and guidance system |
CN109359287A (zh) * | 2018-07-12 | 2019-02-19 | 福州大学 | 交互式文化旅游景区景点在线推荐系统及方法 |
CN110163772A (zh) * | 2019-04-19 | 2019-08-23 | 杭州电子科技大学 | 一种基于BiLSTM-CRF的旅游行程路线生成方法 |
CN110377840A (zh) * | 2019-07-29 | 2019-10-25 | 电子科技大学 | 一种基于用户长短期偏好的音乐列表推荐方法及系统 |
Non-Patent Citations (1)
Title |
---|
关鹏飞: ""注意力增强的双向LSTM 情感分析"", 《中文信息学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158086A (zh) * | 2021-04-06 | 2021-07-23 | 浙江贝迩熊科技有限公司 | 一种基于深度强化学习的个性化客户推荐系统和方法 |
CN113407842A (zh) * | 2021-06-28 | 2021-09-17 | 携程旅游信息技术(上海)有限公司 | 模型训练方法、主题推荐理由的获取方法及系统、电子设备 |
CN113407842B (zh) * | 2021-06-28 | 2024-03-22 | 携程旅游信息技术(上海)有限公司 | 模型训练方法、主题推荐理由的获取方法及系统、电子设备 |
CN113505311A (zh) * | 2021-07-12 | 2021-10-15 | 中国科学院地理科学与资源研究所 | 一种可根据“潜在语义空间”的旅游景点交互推荐方法 |
CN113505311B (zh) * | 2021-07-12 | 2022-03-11 | 中国科学院地理科学与资源研究所 | 一种可根据“潜在语义空间”的旅游景点交互推荐方法 |
CN113486250A (zh) * | 2021-07-28 | 2021-10-08 | 中移(杭州)信息技术有限公司 | 内容推荐方法、装置、设备及计算机可读存储介质 |
CN113486250B (zh) * | 2021-07-28 | 2023-09-05 | 中移(杭州)信息技术有限公司 | 内容推荐方法、装置、设备及计算机可读存储介质 |
CN116883048A (zh) * | 2023-07-12 | 2023-10-13 | 广州朝辉智能科技有限公司 | 基于人工智能的客户数据处理方法、装置及计算机设备 |
CN116883048B (zh) * | 2023-07-12 | 2024-03-15 | 卓盛科技(广州)有限公司 | 基于人工智能的客户数据处理方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112182398B (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112182398B (zh) | 考虑用户的长期偏好与短期偏好的景点推荐方法和系统 | |
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
Denton et al. | User conditional hashtag prediction for images | |
Jiang et al. | Author topic model-based collaborative filtering for personalized POI recommendations | |
Li et al. | GPS estimation for places of interest from social users' uploaded photos | |
Sun et al. | Building a model-based personalised recommendation approach for tourist attractions from geotagged social media data | |
Subramaniyaswamy et al. | Intelligent travel recommendation system by mining attributes from community contributed photos | |
US20180357211A1 (en) | Constructing a Narrative Based on a Collection of Images | |
CN111339404B (zh) | 基于人工智能的内容热度预测方法、装置和计算机设备 | |
May Petry et al. | MARC: a robust method for multiple-aspect trajectory classification via space, time, and semantic embeddings | |
US20100205176A1 (en) | Discovering City Landmarks from Online Journals | |
Jiang et al. | Travel recommendation via author topic model based collaborative filtering | |
Kim et al. | Joint photo stream and blog post summarization and exploration | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN113515669A (zh) | 基于人工智能的数据处理方法和相关设备 | |
CN112015928A (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
Sharif et al. | Vision to language: Methods, metrics and datasets | |
Lamba et al. | From camera to deathbed: Understanding dangerous selfies on social media | |
CN117173497B (zh) | 一种图像生成方法、装置、电子设备及存储介质 | |
Van Canneyt et al. | Categorizing events using spatio-temporal and user features from Flickr | |
Huang et al. | Placepedia: Comprehensive place understanding with multi-faceted annotations | |
CN111814488B (zh) | 一种诗词生成方法、装置、电子设备及可读存储介质 | |
CN113656560A (zh) | 情感类别的预测方法和装置、存储介质及电子设备 | |
Seymour et al. | Multi-label triplet embeddings for image annotation from user-generated tags |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |