CN116738066B - 乡村旅游服务推荐方法、装置、电子设备及存储介质 - Google Patents
乡村旅游服务推荐方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116738066B CN116738066B CN202311023803.4A CN202311023803A CN116738066B CN 116738066 B CN116738066 B CN 116738066B CN 202311023803 A CN202311023803 A CN 202311023803A CN 116738066 B CN116738066 B CN 116738066B
- Authority
- CN
- China
- Prior art keywords
- tourist
- resource
- similarity
- travel
- portrait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000011159 matrix material Substances 0.000 claims abstract description 103
- 230000008451 emotion Effects 0.000 claims abstract description 81
- 238000004458 analytical method Methods 0.000 claims abstract description 61
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 27
- 230000006399 behavior Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 13
- 230000009193 crawling Effects 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 10
- 230000004308 accommodation Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000010276 construction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000001914 filtration Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000007405 data analysis Methods 0.000 description 6
- 239000002131 composite material Substances 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/12—Hotels or restaurants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种乡村旅游服务推荐方法、装置、电子设备及存储介质,包括:获取旅游资源及游客数据;构建旅游资源画像;对反馈数据进行情感分析,得到情感分析结果;根据反馈数据、旅游资源画像确定评分矩阵,依据基本数据和旅游资源画像构建游客画像,游客画像包括基本特征标签和特征偏好标签;根据评分矩阵、游客画像的基本特征标签和特征偏好标签,计算第一游客的潜在相似度、基本相似度和偏好相似度,通过加权融合三种相似度生成第一游客的相似度矩阵;根据相似度矩阵确定与第二游客相似的第一游客,为第二游客推荐旅游资源。本发明的有益效果为:实现旅游资源相关数据的可靠性和准确性;为游客提供更为精准的乡村旅游资源推荐服务。
Description
技术领域
本发明涉及计算机人工智能技术领域,尤其涉及一种乡村旅游服务推荐方法、装置、电子设备及存储介质。
背景技术
“乡村旅游推荐”是针对于乡村旅游资源的推荐,首先要构建乡村旅游信息资源库,然后将乡村旅游资源推荐给用户。现有技术主要包括:
(1)基于用户情境数据进行情境聚类,将游客的情境信息进行K-means聚类分析来提取游客的特征,再利用形式化的标签表示方法来构建扩展的用户画像概念模型。根据群体用户画像反映的用户特征,结合情境标签设置个体用户情境特征属性,再融合Apriori算法进行关联规则和相似度计算为用户提供个性化的TOP-N景点推荐。
(2)基于协同过滤算法的旅游推荐。协同过滤算法是推荐算法中比较经典常用的一种,它主要包括基于内存的协同过滤和基于模型的协同过滤两种算法。例如基于MUI框架乡村旅游APP,应用基于用户的协同过滤算法,分析推荐用户与其他用户的兴趣爱好,过滤不相关的用户,筛选出与推荐用户相似度较高的用户集合,分别计算集合中推荐用户没旅游过的景点的期望评分,最后通过对评分排序进行个性化推荐。
(3)混合推荐算法。常见的混合推荐算法是将协同过滤推荐算法同其他推荐算法相结合,混合的方式有瀑布型、权重型、特征递增型以及特征递增型等。例如基于Spark框架的瀑布型融合旅游推荐系统,利用爬虫技术对各大旅游网站景点信息进行爬取和整理,搭建Spark框架读取数据并进行数据清洗和预处理,构建了SimHash算法和余弦相似度算法两个过滤层,经过SimHash算法对海量数据进行降维操作,在首层过滤所得数据的基础上,再选择余弦相似度算法和TF-IDF算法进行第二次过滤,通过程序执行窗口,用户可以输入自己想去做的事情,系统会反馈给用户TOP-100个推荐结果。使用混合推荐算法的目的是各种推荐算法的优势互补,以提高推荐的精确程度。研究证明,采用混合推荐算法,其推荐精确程度要比单纯采用协同过滤推荐算法高近30个百分点。
在个性化乡村推荐中,需要解决的是游客需求和乡村旅游资源匹配度的问题。一种方法是由排行榜和推荐功能两个部分组成,排行榜解决推荐系统启动之初的冷启动问题,为推荐功能做铺垫,推荐采用基于用户的协同旅游信息过滤算法,通过分析与被推荐用户有关联的用户收藏和评分数据,向用户提供个性化推荐。但该方法只考虑用游客的收藏和评分数据等显式反馈来刻画游客的特征,显式反馈数据量少,单独使用显式反馈会导致数据的稀疏度较高,且不能反映出游客的隐藏需求,使推荐结果不理想。另一种方法利用基于用户的协同过滤推荐算法,在算法中加入热门项目的惩罚因子,以加权系数来调节相似度计算的结果,并遵循人的时间遗忘规律,运用加权的方式在相似度计算中添加时间影响因子,监控用户兴趣变化。
现有技术对于用户画像的描述均不够准确,这导致后续的旅游服务推荐也存在不准确的问题。
发明内容
本发明实施例的主要目的在于提出一种乡村旅游服务推荐方法、装置、电子设备及存储介质,实现了对用户的准确旅游服务推荐。
本发明的一方面提供一种乡村旅游服务推荐方法,包括:
根据服务推荐请求,获取旅游资源及游客数据,所述游客数据包括基本数据及反馈数据;
根据所述旅游资源构建旅游资源画像;
对所述反馈数据进行情感分析,得到情感分析结果;
根据所述反馈数据和所述旅游资源确定第一游客与所述旅游资源的评分矩阵,根据所述基本数据和所述旅游资源画像构建游客画像,根据所述基本数据确定所述游客画像的基本特征标签,根据所述旅游资源画像、所述反馈数据及所述情感分析结果确定所述游客画像的特征偏好标签;
根据所述评分矩阵、所述游客画像的基本特征标签和所述游客画像的特征偏好标签,计算第一游客的潜在相似度、基本相似度和偏好相似度,通过加权融合三种相似度生成第一游客的相似度矩阵;
根据所述相似度矩阵确定与第二游客相似的第一游客,得到近邻游客集合,对所述近邻游客集合中的所述旅游资源进行评分预测,根据评分预测结果为第二游客推荐所述旅游资源。
根据所述的乡村旅游服务推荐方法,其中根据服务推荐请求,获取旅游资源及游客数据,包括:
通过爬虫在第三方网络平台在预设时间间隔对旅游资源进行爬取,所述旅游资源包括乡村标识、住宿、餐饮及景点中的至少一种;
获取第一游客注册时的性别、职业、出生日期及手机号码作为基础数据,获取第一用户对旅游资源的显式反馈信息和隐式反馈信息,其中显式反馈信息包括第一用户对旅游资源的评价,隐式反馈信息包括第一用户对旅游资源的浏览、搜索、收藏及下单中的至少一种,以显式反馈信息和隐式反馈信息作为所述反馈数据。
根据所述的乡村旅游服务推荐方法,其中根据所述旅游资源构建旅游资源画像,包括:
对所述旅游资源构建旅游标签;
获取每个旅游标签的初始数据集并进行标注,将初始数据集划分为第一训练集和第一测试集,对第一训练集及第一测试集进行jieba分词处理;
采用TF-IDF算法对第一训练集及第一测试集的文本特征执行TF词频、倒文档频率IDF及TF-IDF值计算,得到文本特征权重;
采用朴素贝叶斯分类模型对文本特征权重进行预测,得到每种旅游标签的出现的条件概率,以条件概率最高的文本特征作为旅游标签预测结果;
根据旅游标签预测结果生成旅游资源画像。
根据所述的乡村旅游服务推荐方法,其中对所述反馈数据进行情感分析,得到情感分析结果,包括:
将所述反馈数据划分第二训练集和第二测试集,采用jieba分词进行中文分词处理,并去除停用词;
对所述反馈数据中情感词及情感词数量进行统计,根据程度副词的种类赋予情感词不同的权重,对句子进行程度词及否定词加权计算,得到分句情感;
将分句情感进行汇总,得到所述反馈数据中每段文本的情感分值。
根据所述的乡村旅游服务推荐方法,其中根据所述反馈数据和所述旅游资源确定第一游客与所述旅游资源的评分矩阵,根据所述基本数据和所述旅游资源画像构建游客画像,根据所述基本数据确定所述游客画像的基本特征标签,根据所述旅游资源画像、所述反馈数据及所述情感分析结果确定所述游客画像的特征偏好标签,包括:
根据所述反馈数据,为第一游客的隐式反馈行为分配权重并根据第一游客的反馈行为次数,确定第一游客的隐式反馈评分,通过为隐式反馈评分和显式反馈评分赋予权重确定第一游客的反馈信息,根据反馈信息确定评分矩阵;
根据所述基本数据及所述旅游资源画像构建游客画像,游客画像包括基本特征标签和特征偏好标签;根据所述基本数据确定所述游客画像的基本特征标签,根据所述旅游资源画像、所述反馈数据及所述情感分析结果确定游客画像的特征偏好标签。
根据所述的乡村旅游服务推荐方法,其中所述评分矩阵、所述游客画像的基本特征标签和所述游客画像的特征偏好标签,计算第一游客的潜在相似度、基本相似度和偏好相似度,通过加权融合三种相似度生成第一游客的相似度矩阵,包括:
对特征偏好标签为分配权重,计算第一游客之间特征偏好标签的皮尔逊相似度,根据皮尔逊相似度确定第一游客之间的偏好相似度;
将所述评分矩阵分解为游客矩阵和旅游资源矩阵的乘积,采用梯度下降算法进行计算,得到第一游客对旅游资源的预估评分,根据预估评分与真实评分的平方差构建损失函数,通过损失函数确定第一游客间的潜在相似度;
获取第一游客的基本特征标签,采用余弦相似度计算第一游客的基本相似度;
根据偏好相似度、潜在相似度及基本相似度生成所述相似度矩阵。
根据所述的乡村旅游服务推荐方法,其中根据所述相似度矩阵确定与第二游客相似的第一游客,得到近邻游客集合,对所述近邻游客集合中的所述旅游资源进行评分预测,根据评分预测结果为第二游客推荐所述旅游资源,包括:
将与第二游客相似的第一游客根据相似度大小进行排序,得到近邻游客集合;
从近邻游客集合中查找第一游客具有反馈行为且第二游客没有反馈行为的旅游资源;
根据第二游客的近邻游客集合、第二游客对旅游资源的平均综合评分及第一游客对旅游资源的综合评分对旅游进行综合预测评分,得到推荐旅游资源列表;
将推荐旅游资源列表发送至第二游客。
本发明实施例的另一方面提供了一种乡村旅游服务推荐装置,包括:
第一单元,用于根据服务推荐请求,获取旅游资源及游客数据,所述游客数据包括基本数据及反馈数据;
第二单元,用于根据所述旅游资源构建旅游资源画像;
第三单元,用于对所述反馈数据进行情感分析,得到情感分析结果;
第四单元,用于根据所述反馈数据和所述旅游资源确定第一游客与所述旅游资源的评分矩阵,根据所述基本数据和所述旅游资源画像构建游客画像,根据所述基本数据确定所述游客画像的基本特征标签,根据所述旅游资源画像、所述反馈数据及所述情感分析结果确定所述游客画像的特征偏好标签;
第五单元,用于根据所述评分矩阵、所述游客画像的基本特征标签和所述游客画像的特征偏好标签,计算第一游客的潜在相似度、基本相似度和偏好相似度,通过加权融合三种相似度生成第一游客的相似度矩阵;
第六单元,用于根据所述相似度矩阵确定与第二游客相似的第一游客,得到近邻游客集合,对所述近邻游客集合中的所述旅游资源进行评分预测,根据评分预测结果为第二游客推荐所述旅游资源。
本发明实施例的另一方面提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前文所描述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文所描述的方法。
本发明的有益效果为:
本发明对互联网上广泛的多模态乡村旅游资源进行爬取和整合,训练分类模型提取旅游资源标签并构建旅游资源画像。依据旅游资源画像,结合显式反馈信息、隐式反馈信息、游客基本信息来构建游客画像。通过对旅游资源画像和游客画像进行匹配度分析,实现向游客精准推荐乡村旅游服务资源。同时,通过支持乡村用户在系统中进行注册并对所属于其的旅游资源进行管理,可以确保旅游资源相关数据的可靠性和准确性。
为了给游客提供更为精准的乡村旅游资源推荐,本发明整合多方面的游客显式反馈信息和隐式反馈信息,并综合使用情感分析技术来补充和完善对于游客间相似度的计算,构建全面、完整的游客画像。然后,分析游客的显式和隐式反馈数据来计算出游客画像的特征偏好标签,并基于特征偏好标签来计算游客间的偏好相似度;利用游客注册的基本信息计算游客间的基本相似度,以应对冷启动问题;使用矩阵分解技术来计算游客间的潜在相似度,以应对数据稀疏的问题。通过加权融合偏好相似度、基本相似度和潜在相似度三种相似度得到最终的游客相似度矩阵。最后,根据游客相似度矩阵预测游客对乡村旅游资源的综合评分,得出最终的资源推荐列表。给游客提供更为精准的乡村旅游资源推荐服务。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例的乡村旅游服务推荐设备示意图。
图2是本发明实施例的乡村旅游服务推荐系统模块示意图。
图3是本发明实施例的乡村旅游服务推荐流程示意图。
图4是本发明实施例的旅游资源和游客数据获取流程示意图。
图5是本发明实施例的游资源画像构建流程示意图。
图6是本发明实施例的游客情感分析流程示意图。
图7是本发明实施例的游客特征偏好流程示意图。
图8是本发明实施例的游客之间相似度分析流程示意图。
图9是本发明实施例的旅游资源推荐流程示意图。
图10是本发明实施例的乡村旅游服务推荐装置示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。“第一”、“第二”等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本后续的描述中,对方法步骤的连续标号是为了方便审查和理解,结合本发明的整体技术方案以及各个步骤之间的逻辑关系,调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照图1,其中图1是本发明乡村旅游服务推荐设备示意图,其包括第一客户端100、第一服务器200、第二服务器300及第二客户端400,其中第一客户端100为管理人员客户端,用于管理人员的注册及数据管理,其中第二客户端400为游客客户端,用于发出推荐请求或者接收旅游资源的推荐结果,第一服务器200用于用户数据爬取、采集及画像生成,其中第二服务器300用于游客数据的反馈分析及旅游服务推荐。其中,根据服务推荐请求,通过第一服务器200获取旅游资源及游客数据,游客数据包括基本数据及反馈数据;通过第一服务器200根据旅游资源构建旅游资源画像;通过第二服务器300对反馈数据进行情感分析,得到情感分析结果;第二服务器300根据反馈数据和旅游资源确定第一游客与旅游资源的评分矩阵,根据基本数据和旅游资源画像构建游客画像,根据基本数据确定游客画像的基本特征标签,根据旅游资源画像、反馈数据及情感分析结果确定游客画像的特征偏好标签;第二服务器300根据评分矩阵、游客画像的基本特征标签和游客画像的特征偏好标签,计算第一游客的潜在相似度、基本相似度和偏好相似度,通过加权融合三种相似度生成第一游客的相似度矩阵;第二服务器300根据相似度矩阵确定与第二游客相似的第一游客,得到近邻游客集合,对近邻游客集合中的旅游资源进行评分预测,根据评分预测结果为第二游客推荐旅游资源,并发送至第二客户端400。
在一些实施例中,其中第一客户端100和第二客户端400包括个人电脑(PC)、智能手机、平板电脑等。
在一些实施例中,参考图2,其中图2是本发明实施例的乡村旅游服务推荐系统模块示意图,其包括旅游资源爬取模块、旅游资源画像构建模块、乡村共建模块、游客数据采集模块、游客情感分析模块、游客反馈数据分析模块、游客相似度计算模块及游客旅游资源推荐模块。
在一些实施例中,其中旅游资源爬取模块用于在平台开发初期及使用过程中自动定时地从互联网上爬取多模态的乡村、住宿、餐饮、景点等多种旅游资源。将爬取得到的资源的名称、地址、图片、介绍等信息作为旅游资源信息。该模块将旅游资源信息将传递到旅游资源画像构建模块,并存储到旅游资源数据库,以便进行重复使用,其中平台包括旅游服务相关的网站,数据库等。
在一些实施例中,旅游资源画像构建模块用于接收旅游资源爬取模块传递过来的旅游资源信息,使用旅游资源标签分类模型从旅游资源信息中提取该旅游资源的标签,构建旅游资源画像。最后将旅游资源画像存储到旅游资源数据库,以便进行重复使用。
乡村共建模块:乡村的相关联系人(以下简称乡村用户)可以通过该模块进行注册和认证,经系统管理员审核通过后,乡村用户可以新增或更新其相关的旅游资源信息,并依据这些信息新建或更新其乡村的旅游资源画像。该模块中和新增或更新的旅游资源信息和旅游资源画像存储到旅游资源数据库,以便进行重复使用。
在一些实施例中,乡村共建模块用于“乡村用户”进行注册和认证,经系统管理员审核通过后,可以登录平台并对该乡村的“旅游资源信息”进行新增或更新。“乡村用户”注册时,该模块从“旅游资源数据库”中查找是否存在属于该乡村的“旅游资源信息”,若存在可在原有信息的基础上进行新增和修改。“乡村用户”填写需要新建或更新的“旅游资源信息”,包括资源名称、地址、图片、介绍等,并选择与该旅游资源相关的标签,可选的标签即对应于“旅游资源画像”的标签。模块将依据这些信息新建或更新该乡村的“旅游资源信息”和“旅游资源画像”。该模块的“旅游资源信息”和“旅游资源画像”存储到“旅游资源数据库”,以便进行重复使用。
游客数据采集模块:该模块用于采集游客的个人信息、游客对乡村旅游资源的多种反馈信息。游客的个人信息包括游客注册时填写的性别、职业、出生日期、手机号码等基本信息,将其作为游客基本属性。游客对乡村旅游资源的多种反馈信息包括显式反馈信息(即游客对乡村旅游资源的评分、游客发布的游记、评论等文本信息)和隐式反馈信息(即游客对乡村旅游资源的浏览、搜索、收藏、下单等操作信息),将其作为游客反馈信息。将游客反馈信息中游客发布的游记、评论等文本信息作为游客发布文本信息,并将其传递到游客情感分析模块进行文本分析。将游客基本属性和游客反馈信息传递给游客反馈数据分析模块构建游客画像。
游客情感分析模块:该模块接收来自游客数据采集模块的游客发布文本信息。对游客发布文本信息进行文本情感分析,计算游客对于该旅游资源的情感分值。该分值在[0,1]区间内,喜爱程度和积极情绪随分值升高而递增。再使用旅游资源标签分类模型提取游客发布文本信息中包含的标签,如自然风光。该模块将游客发布文本信息的情感分值和标签作为文本分析数据传递到游客反馈数据分析模块。
游客反馈数据分析模块:该模块从旅游资源数据库提取旅游资源画像,并接收来自游客情感分析模块的文本分析数据、来自游客数据采集模块的游客基本属性和游客反馈信息。首先,该模块通过融合游客反馈信息中游客对旅游资源的显式反馈信息和隐式反馈信息,构造出游客-旅游资源综合评分矩阵。其次,该模块依据旅游资源画像来建立游客标签模型,从而构建游客画像,使用游客基本属性为游客画像的基本特征标签赋值;结合旅游资源画像、游客反馈信息和文本分析数据计算游客画像的特征偏好标签。该模块将游客画像和游客-旅游资源综合评分矩阵存储在游客信息数据库,将进行重复使用。
游客相似度计算模块:该模块从游客信息数据库中读取游客画像和游客-旅游资源综合评分矩阵。模块首先基于游客画像的特征偏好标签计算游客间的偏好相似度;其次考虑到数据稀疏的情况,模块采用矩阵分解对游客-旅游资源综合评分矩阵进行缺失值填补,并在填补后的矩阵计算游客间的潜在相似度;最后考虑在游客冷启动没有游客反馈信息的数据极度稀疏的情况下,基于游客画像的基本特征标签计算游客间的基本相似度。通过加权融合偏好相似度、基本相似度和潜在相似度三种相似度得到最终的游客相似度矩阵。该模块将计算得出的游客相似度矩阵传递到游客旅游资源推荐模块。
游客旅游资源推荐模块:该模块接收来自游客相似度计算模块的游客相似度矩阵,从游客信息数据库中读取游客-旅游资源综合评分矩阵,从旅游资源数据库中提取旅游资源信息。将游客相似度由大到小进行排序,找到目标游客的前Top-K个近邻游客,确定近邻游客集合U k 。先找出近邻游客曾有过反馈行为且目标游客未对其产生过反馈行为的旅游资源,对这些旅游资源进行综合评分预测,随后将综合评分结果按由大至小进行排序。该模块将最后得出Top-N的旅游资源作为目标游客的推荐旅游资源列表。
参考图3,其中图3是本发明实施例的乡村旅游服务推荐流程示意图,其包括但不限于步骤S100~S600:
S100,根据服务推荐请求,获取旅游资源及游客数据,游客数据包括基本数据及反馈数据。
在一些实施例中,参考图4的旅游资源和游客数据获取流程示意图,其包括但不限于步骤S110~S120:
S110,通过爬虫在第三方网络平台在预设时间间隔对旅游资源进行爬取,旅游资源包括乡村标识、住宿、餐饮及景点中的至少一种;
S120,获取第一游客注册时的性别、职业、出生日期及手机号码作为基础数据,获取第一用户对旅游资源的显式反馈信息和隐式反馈信息,其中显式反馈信息包括第一用户对旅游资源的评价,隐式反馈信息包括第一用户对旅游资源的浏览、搜索、收藏及下单中的至少一种,以显式反馈信息和隐式反馈信息作为反馈数据。
示例性地,结合图2所示的实施例,本发明实施例用于新建和更新系统中的旅游资源信息,包括旅游资源的名称、地址、图片等信息。当系统设定的1个月定时周期到达时,系统中部署的爬虫开始工作,它们从指定的网络平台上爬取乡村、住宿、餐饮、景点等多种旅游资源。对于系统中已经存在的旅游资源,将进行信息更新。如果爬取到系统中不存在的旅游资源的信息,将新建并存储这些信息。该模块将旅游资源信息传递到旅游资源画像构建模块,并存储到旅游资源数据库,以便进行重复使用。
示例性地,结合图2所示的实施例,本发明实施例用于采集游客的个人信息、游客对乡村旅游资源的多种反馈信息。游客进入注册模块后,填写个人基本信息,如性别、职业、出生日期、手机号码等,游客的个人信息将作为游客基本属性。已注册游客进入本系统后,模块将会采集游客对乡村旅游资源的评分、游客发布的游记、评论等文本信息作为游客的显式反馈信息,以及游客对乡村旅游资源的浏览、搜索、收藏、下单等操作信息作为游客的隐式反馈信息。将游客的显式反馈信息和隐式反馈信息作为游客反馈信息。将游客反馈信息中游客发布的游记、评论等文本信息作为游客发布文本信息,将其传递到游客情感分析模块进行文本分析。将游客基本属性和游客反馈信息传递给游客反馈数据分析模块构建游客画像。
S200,根据旅游资源构建旅游资源画像。
在一些实施例中,参考图5所示的旅游资源画像构建流程示意图,其包括但不限于步骤S210~S250:
S210,对旅游资源构建旅游标签;
S220,获取每个旅游标签的初始数据集并进行标注,将初始数据集划分为第一训练集和第一测试集,对第一训练集及第一测试集进行jieba分词处理;
S230,采用TF-IDF算法对第一训练集及第一测试集的文本特征执行TF词频、倒文档频率IDF及TF-IDF值计算,得到文本特征权重;
S240,采用朴素贝叶斯分类模型对文本特征权重进行预测,得到每种旅游标签的出现的条件概率,以条件概率最高的文本特征作为旅游标签预测结果;
S250,根据旅游标签预测结果生成旅游资源画像。
示例性地,结合图2所示的实施例,旅游资源画像构建模块接收旅游资源爬取模块传递过来的旅游资源信息,构建旅游资源画像。以景点旅游资源为例,首先构建一级标签,包括适宜人群、游玩季节、组织方式、游玩类型等;再构建二级标签,如游玩类型标签包括红色经典、登山徒步、自然风光等。画像框架建立后,读取旅游资源信息,使用旅游资源标签分类模型确定该旅游资源的标签。以游玩类型标签为例,该模型的工作过程分为四个步骤:
步骤一:构造并标注数据集,爬取各游玩类型相应的景点/活动的介绍文本,作为初始数据集。
步骤二:数据预处理,读取数据集,划分训练集和测试集。再借助jieba分词工具进行中文分词处理,并去除停用词。
步骤三:利用TF-IDF进行文本特征表示,根据以下公式计算TF词频,计算的结果即为某个特征词的词频。TF词频的计算公式如下:
(1)
上式中,为当前特征词在训练文本中出现的次数,分母是文本中所有特征词的出现次数之和,其中 、 、k在本实施例中分别为当前特征词序号、训练文本序号及所有特征词序号。
再计算倒文档频率IDF,用于计算特征词在整个语料中出现该特征项的文档数。倒文档频率IDF的计算公式如下:
(2)
上式中,参数表示语料的文本总数,表示文本所包括特征词的数量。
最后计算TF-IDF,TF-IDF值越大则该特征词对这个文本的重要程度越高。TF-IDF计算公式如下:
(3)
TF-IDF值采用矩阵数组的形式存储,每一行数据代表一个文本语料,每一行的每一列都代表其中一个特征对应的权重。
步骤四,构建朴素贝叶斯分类模型,计算公式如下:
(4)
上式中,为d维特征,特征有个类别,即代表在所属类别下特征出现的条件概率,取得概率最大的类别即是预测值最有可能出现的游玩类型。
类似上述的方法,确定所有的旅游资源的标签(即适宜人群、游玩季节、组织方式、游玩类型等)后,将旅游资源画像存储到旅游资源数据库,以便进行重复使用。
S300,对反馈数据进行情感分析,得到情感分析结果。
在一些实施例中,参考图6的旅游资源画像构建流程示意图,其包括但不限于步骤S310~S330:
S310,将反馈数据划分第二训练集和第二测试集,采用jieba分词进行中文分词处理,并去除停用词;
S320,对反馈数据中情感词及情感词数量进行统计,根据程度副词的种类赋予情感词不同的权重,对句子进行程度词及否定词加权计算,得到分句情感;
S330,将分句情感进行汇总,得到反馈数据中每段文本的情感分值。
示例性地,结合图2所示的实施例,参考游客情感分析模块它接收来自游客数据采集模块的游客发布文本信息,对游客发布文本信息进行文本情感分析,计算游客对于该旅游资源的情感分值。工作过程分为以下三个步骤:
步骤一:数据预处理,读取数据集,划分训练集和测试集。再借助jieba分词工具进行中文分词处理,并去除停用词。
步骤二:分句情感分析,统计句子中的情感词数目及其位置,再根据程度副词的种类赋予不同的权重,对句子进行程度词和否定词的加权计算,若存在表情符号、反问句、感叹句,需做一定处理。例如,结尾为感叹号或者问号,表示句子结束,并且倒序查找感叹号前的情感词,权重适当增加。
步骤三:分句求和,统计计算每个句子的情感值,取均值得到该段文本的情感分值。
使用与旅游资源画像构建模块中类似的旅游资源标签分类模型提取文本中包括的标签(即对应于旅游资源画像的标签),如自然风光。该模块将游客发布文本信息的情感分值和标签作为文本分析数据传递到游客反馈数据分析模块。
S400,根据反馈数据和旅游资源确定第一游客与旅游资源的评分矩阵,根据基本数据和旅游资源画像构建游客画像,根据基本数据确定游客画像的基本特征标签,根据旅游资源画像、反馈数据及情感分析结果确定游客画像的特征偏好标签。
在一些实施例中,参考图7游客特征偏好分析流程示意图,其包括但不限于步骤S410~S420:
S410,根据反馈数据,为第一游客的隐式反馈行为分配权重并根据第一游客的反馈行为次数,确定第一游客的隐式反馈评分,通过为隐式反馈评分和显式反馈评分赋予权重确定第一游客的反馈信息,根据反馈信息确定评分矩阵;
S420,根据基本数据及旅游资源画像构建游客画像,游客画像包括基本特征标签和特征偏好标签,根据基本数据确定游客画像的基本特征标签,根据旅游资源画像、反馈数据及情感分析结果确定游客画像的特征偏好标签。
示例性地,结合图2所示的实施例,接收来自游客数据采集模块的游客反馈信息,为不同的隐式反馈行为赋予不同权重并结合游客相应的反馈行为次数得出游客隐式反馈评分,然后通过为隐式反馈评分和显式反馈评分赋予不同权重来融合游客反馈信息,由此得出游客对某旅游资源的喜爱程度,并将此作为游客对该旅游资源的综合评分,构造出游客-旅游资源综合评分矩阵。计算综合评分公式如下:
(5)
上式中,表示游客A对资源的综合评分,K表示隐式反馈行为数目,表示隐式反馈行为k的权重,表示游客对旅游资源发生隐式反馈行为k的次数。表示游客对旅游资源的游客评分。,分别为隐式反馈评分和显式反馈评分的权重。
步骤一:接受来自游客数据采集模块的游客基本属性,从旅游资源数据库提取旅游资源画像,依据旅游资源画像来建立游客标签模型,从而构建游客画像。首先构建一级标签,包括基本特征标签和特征偏好标签。再构建二级标签,游客画像中的基本特征标签的二级标签对应于来自游客数据采集模块的游客基本属性;特征偏好标签的二级标签对应旅游资源画像的一级标签。再构建三级标签,基本特征标签无三级标签;特征偏好标签的三级标签对应旅游资源画像的二级标签,即对旅游资源画像中各类旅游资源标签的偏好信息。游客画像的示例构建如表1所示,该游客画像的示例构建所对应的旅游资源画像示例构建如表2所示。
表1 游客画像示例
表2 旅游资源画像示例
步骤二:接收来自游客情感分析模块的文本分析数据并读取旅游资源数据库中的旅游资源画像,计算游客画像的特征偏好标签。以计算游客A对特征偏好标签的三级标签的评分为例,1)在所有旅游资源的旅游资源画像中,寻找包括与特征偏好标签的三级标签相应旅游资源画像的二级标签的旅游资源。然后,在游客A的游客反馈信息中,寻找游客对这些旅游资源的反馈信息。2)遍历寻找到的旅游资源,通过为不同的隐式反馈行为赋予不同权重并结合游客相应的反馈行为次数得到游客对旅游资源的隐式反馈评分,将游客对旅游资源的隐式反馈评分逐个相加。对寻找到的旅游资源的游客评分(来自游客反馈信息的显式反馈信息)求取平均值得到游客对旅游资源的显式反馈评分。最后按相应权重将处理后的显隐式反馈融合。3)提取文本分析数据中游客A发布文本信息的情感分值和标签,计算包括与特征偏好标签的三级标签相应标签的情感分值的平均值。最后按相应权重结合反馈数据和情感分析得出游客A对特征偏好标签的三级标签的评分。计算公式如下:
(6)
上式中,表示游客A对特征偏好标签的三级标签的评分,表示包括与特征偏好标签的三级标签相应旅游资源画像的二级标签的所有旅游资源,K表示隐式反馈行为数目,表示隐式反馈行为k的权重,表示游客对旅游资源发生隐式反馈行为k的次数。表示游客对包括与特征偏好标签的三级标签相应旅游资源画像的二级标签的所有旅游资源的游客评分平均数,表示包括与特征偏好标签的三级标签相应标签的情感分值的平均值。,,分别为隐式反馈评分、显式反馈评分和情感分值的权重。
最后,该模块将游客画像和游客-旅游资源综合评分矩阵存储在游客信息数据库,将进行重复使用。
S500,根据评分矩阵、游客画像的基本特征标签和游客画像的特征偏好标签,计算第一游客的潜在相似度、基本相似度和偏好相似度,通过加权融合三种相似度生成第一游客的相似度矩阵。
在一些实施例中,参考图8所示的游客之间相似度分析流程示意图,其包括但不限于步骤S510~S540:
S510,对特征偏好标签为分配权重,计算第一游客之间特征偏好标签的皮尔逊相似度,根据皮尔逊相似度确定第一游客之间的偏好相似度;
S520,将评分矩阵分解为游客矩阵和旅游资源矩阵的乘积,采用梯度下降算法进行计算,得到第一游客对旅游资源的预估评分,根据预估评分与真实评分的平方差构建损失函数,通过损失函数确定第一游客间的潜在相似度;
S530,获取第一游客的基本特征标签,采用余弦相似度计算第一游客的基本相似度;
S540,根据偏好相似度、潜在相似度及基本相似度生成相似度矩阵。
在一些实施例中,可以理解的是第一游客为已产生旅游服务消费并且产生了旅游服务反馈的旅客,其中第二游客为目标旅游服务推荐对象,其也有可能已产生旅游服务消费并且产生了旅游服务反馈的旅客。
示例性地,结合图2所示的实施例,本实施例游客相似度分析流程包括:
步骤一:从游客信息数据库中读取游客画像的特征偏好标签,基于游客画像的特征偏好标签计算游客间的偏好相似度。游客画像的特征偏好标签有二级标签和三级标签,如二级标签为游玩季节偏好,三级标签为春季、夏季、秋季、冬季。模块通过特征偏好标签的二级标签的影响程度为每个二级标签分配权重,然后分别计算游客间基于每个特征偏好标签的二级标签的皮尔逊相似度,最后将其按特征偏好标签的二级标签的权重进行结合得到游客间的偏好相似度。游客间的偏好相似度的计算公式如下:
(7)
上式中,表示特征偏好标签中所有的二级标签,表示特征偏好标签的二级标签对应的权重,表示游客A和游客B基于二级标签的皮尔逊相似度。
游客间基于二级标签的皮尔逊相似度的计算公式如下:
(8)
上式中,表示特征偏好标签的二级标签包括的所有三级标签。表示游客A对特征偏好标签的三级标签的评分,表示游客B对特征偏好标签的三级标签的评分,表示游客A对的平均评分。
步骤二:从游客信息数据库提取游客-旅游资源综合评分矩阵。基于该矩阵,使用矩阵分解方法计算游客间的潜在相似度。将游客-旅游资源综合评分矩阵进行分解,将(m× n)维的共现矩阵R分解为(m×k)维的游客矩阵P和(k×n)维的旅游资源矩阵Q相乘的形式,即 。其中,m是用户数量,n是项目数量,k是隐向量的维度。采用梯度下降算法进行求解,计算公式如下:
(9)
上式中是游客u对旅游资源的预估评分,是游客u在矩阵P中的对应行向量的第维,是项目在矩阵Q中的对应列向量的第维,k表示隐向量维度。
矩阵分解的标准是减少预测评分与真实评分之间的误差,利用平方差构建损失函数为:
(10)
上式中,R为游客-旅游资源综合评分矩阵,是游客u对旅游资源的真实综合评分,是游客u在矩阵P中的对应行向量,是项目在矩阵Q中的对应列向量,是正则化系数,是向量维数,k是隐向量的维度。
由此,游客间的潜在相似度计算方法如下:
(11)
上式中,是游客A在矩阵P中的对应行向量的第维,是游客B在矩阵P中的对应行向量表示和的余弦相似度,是游客A在矩阵P中的对应行向量的第维,是游客B在矩阵P中的对应行向量的第维,k表示隐向量维度。
步骤三:从游客信息数据库中读取游客画像的基本特征标签。基于游客画像中基本特征标签来计算游客间的基本相似度。将基本特征标签看做一个向量,使用余弦相似度计算游客间的基本相似度。游客间的基本相似度计算公式如下:
(12)
上式中,表示基本特征标签所有的二级标签。表示游客A的游客画像的基本特征标签二级标签的值,表示游客B的游客画像的基本特征标签二级标签的值。
步骤四:接收上述步骤中计算出的三种不同的游客相似度,加权融合计算游客A和游客B的综合游客相似度。计算公式如下:
(13)
上式中,、、分别为游客间的偏好相似度、潜在相似度和基本相似度的权重值,其取值,可由游客进行自定义。
该模块计算得出的游客间的综合相似度,所有游客间的综合相似度就构成了一个游客相似度矩阵,将该矩阵传递到游客旅游资源推荐模块。
S600,根据相似度矩阵确定与第二游客相似的第一游客,得到近邻游客集合,对近邻游客集合中的旅游资源进行评分预测,根据评分预测结果为第二游客推荐旅游资源。
S610,将与第二游客相似的第一游客根据相似度大小进行排序,得到近邻游客集合;
S620,从近邻游客集合中查找第一游客具有反馈行为且第二游客没有反馈行为的旅游资源;
S630,根据第二游客的近邻游客集合、第二游客对旅游资源的平均综合评分及第一游客对旅游资源的综合评分对旅游进行综合预测评分,得到推荐旅游资源列表;
S640,将推荐旅游资源列表发送至第二游客。
示例性地,结合图2所示的实施例,本实施例的推荐旅游流程包括:游客旅游资源推荐模块接收来自游客相似度计算模块的游客相似度矩阵,从游客信息数据库中读取游客-旅游资源综合评分矩阵,从旅游资源数据库中读取旅游资源信息。将游客相似度由大到小进行排序,找到目标游客的前Top-K个近邻游客,确定近邻游客集合。先找出近邻游客曾有过反馈行为,且目标游客从未对其产生过反馈行为的旅游资源,对这些旅游资源进行综合评分预测,随后将综合评分结果按由大至小进行排序。综合评分预测公式如下:
(14)
上式中,为游客A对旅游资源的预测综合评分,表示游客A的前Top-K近邻游客集合,表示游客A的平均综合评分,表示游客B对旅游资源的综合评分,表示游客B的平均综合评分。
最后得出Top-N的旅游资源作为目标游客的推荐旅游资源列表。
参考图10,图10是本发明实施例的乡村旅游服务推荐装置示意图,其包括第一单元1010、第二单元1020、第三单元1030、第四单元1040、第五单元1050、第六单元1060。
其中,第一单元1010,用于根据服务推荐请求,获取旅游资源及游客数据,游客数据包括基本数据及反馈数据;第二单元1020,用于根据旅游资源构建旅游资源画像;第三单元1030,用于对反馈数据进行情感分析,得到情感分析结果;第四单元1040,用于根据反馈数据和旅游资源确定第一游客与旅游资源的评分矩阵,根据基本数据和旅游资源画像构建游客画像,根据基本数据确定游客画像的基本特征标签,根据旅游资源画像、反馈数据及情感分析结果确定游客画像的特征偏好标签;第五单元1050,用于根据评分矩阵、游客画像的基本特征标签和游客画像的特征偏好标签,计算第一游客的潜在相似度、基本相似度和偏好相似度,通过加权融合三种相似度生成第一游客的相似度矩阵;第六单元1060,用于根据相似度矩阵确定与第二游客相似的第一游客,得到近邻游客集合,对近邻游客集合中的旅游资源进行评分预测,根据评分预测结果为第二游客推荐旅游资源。
示例性地,在装置中的第一单元1010、第二单元1020、第三单元1030、第四单元1040、第五单元1050及第六单元1060合作下,实施例装置可以实现前述的任意一种乡村旅游服务推荐方法,即根据服务推荐请求,获取旅游资源及游客数据,游客数据包括基本数据及反馈数据;根据旅游资源构建旅游资源画像;对反馈数据进行情感分析,得到情感分析结果;根据反馈数据和旅游资源确定第一游客与旅游资源的评分矩阵,根据基本数据和旅游资源画像构建游客画像,根据基本数据确定游客画像的基本特征标签,根据旅游资源画像、反馈数据及情感分析结果确定游客画像的特征偏好标签;根据评分矩阵、游客画像的基本特征标签和游客画像的特征偏好标签,计算第一游客的潜在相似度、基本相似度和偏好相似度,通过加权融合三种相似度生成第一游客的相似度矩阵;根据相似度矩阵确定与第二游客相似的第一游客,得到近邻游客集合,对近邻游客集合中的旅游资源进行评分预测,根据评分预测结果为第二游客推荐旅游资源。本发明的有益效果为:对互联网上广泛的多模态乡村旅游资源进行爬取和整合,训练分类模型提取旅游资源标签并构建旅游资源画像。依据旅游资源画像,结合显式反馈信息、隐式反馈信息、游客基本信息来构建游客画像。通过对旅游资源画像和游客画像进行匹配度分析,实现向游客精准推荐乡村旅游服务资源。同时,通过支持乡村用户在系统中进行注册并对所属于其的旅游资源进行管理,可以确保旅游资源相关数据的可靠性和准确性。整合多方面的游客显式反馈信息和隐式反馈信息,并综合使用情感分析技术来补充和完善对于游客间相似度的计算,构建全面、完整的游客画像。然后,分析游客的显式和隐式反馈数据来计算出游客画像的特征偏好标签,并基于特征偏好标签来计算游客间的偏好相似度;利用游客注册的基本信息计算游客间的基本相似度,以应对冷启动问题;使用矩阵分解技术来计算游客间的潜在相似度,以应对数据稀疏的问题。通过加权融合偏好相似度、基本相似度和潜在相似度三种相似度得到最终的游客相似度矩阵。最后,根据游客相似度矩阵预测游客对乡村旅游资源的综合评分,得出最终的资源推荐列表。给游客提供更为精准的乡村旅游资源推荐服务。
本发明实施例还提供了一种电子设备,该电子设备包括处理器以及存储器;
存储器存储有程序;
处理器执行程序以执行前述的乡村旅游服务推荐方法;该电子设备具有搭载并运行本发明实施例提供的乡村旅游服务推荐的软件系统的功能,例如,个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的乡村旅游服务推荐方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述的乡村旅游服务推荐方法。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种乡村旅游服务推荐方法,其特征在于,包括:
根据服务推荐请求,获取旅游资源及游客数据,所述游客数据包括基本数据及反馈数据;
根据所述旅游资源构建旅游资源画像;
对所述反馈数据进行情感分析,得到情感分析结果;
根据所述反馈数据和所述旅游资源确定第一游客与所述旅游资源的评分矩阵,根据所述基本数据和所述旅游资源画像构建游客画像,根据所述基本数据确定所述游客画像的基本特征标签,根据所述旅游资源画像、所述反馈数据及所述情感分析结果确定所述游客画像的特征偏好标签;
根据所述评分矩阵、所述游客画像的基本特征标签和所述游客画像的特征偏好标签,计算第一游客的潜在相似度、基本相似度和偏好相似度,通过加权融合三种相似度生成第一游客的相似度矩阵,将所述评分矩阵分解为游客矩阵和旅游资源矩阵的乘积,采用梯度下降算法进行计算,得到第一游客对旅游资源的预估评分,根据预估评分与真实评分的平方差构建损失函数,通过损失函数确定第一游客间的潜在相似度;
根据所述相似度矩阵确定与第二游客相似的第一游客,得到近邻游客集合,对所述近邻游客集合中的所述旅游资源进行评分预测,根据评分预测结果为第二游客推荐所述旅游资源。
2.根据权利要求1所述的乡村旅游服务推荐方法,其特征在于,所述根据服务推荐请求,获取旅游资源及游客数据,包括:
通过爬虫在第三方网络平台在预设时间间隔对旅游资源进行爬取,所述旅游资源包括乡村标识、住宿、餐饮及景点中的至少一种;
获取第一游客注册时的性别、职业、出生日期及手机号码作为基础数据,获取第一用户对旅游资源的显式反馈信息和隐式反馈信息,其中显式反馈信息包括第一用户对旅游资源的评价,隐式反馈信息包括第一用户对旅游资源的浏览、搜索、收藏及下单中的至少一种,以显式反馈信息和隐式反馈信息作为所述反馈数据。
3.根据权利要求1所述的乡村旅游服务推荐方法,其特征在于,所述根据所述旅游资源构建旅游资源画像,包括:
对所述旅游资源构建旅游标签;
获取每个旅游标签的初始数据集并进行标注,将初始数据集划分为第一训练集和第一测试集,对第一训练集及第一测试集进行jieba分词处理;
采用TF-IDF算法对第一训练集及第一测试集的文本特征执行TF词频、倒文档频率IDF及TF-IDF值计算,得到文本特征权重;
采用朴素贝叶斯分类模型对文本特征权重进行预测,得到每种旅游标签的出现的条件概率,以条件概率最高的文本特征作为旅游标签预测结果;
根据旅游标签预测结果生成旅游资源画像。
4.根据权利要求1所述的乡村旅游服务推荐方法,其特征在于,所述对所述反馈数据进行情感分析,得到情感分析结果,包括:
将所述反馈数据划分第二训练集和第二测试集,采用jieba分词进行中文分词处理,并去除停用词;
对所述反馈数据中情感词及情感词数量进行统计,根据程度副词的种类赋予情感词不同的权重,对句子进行程度词及否定词加权计算,得到分句情感;
将分句情感进行汇总,得到所述反馈数据中每段文本的情感分值。
5.根据权利要求4所述的乡村旅游服务推荐方法,其特征在于,所述根据所述反馈数据和所述旅游资源确定第一游客与所述旅游资源的评分矩阵,根据所述基本数据和所述旅游资源画像构建游客画像,根据所述基本数据确定所述游客画像的基本特征标签,根据所述旅游资源画像、所述反馈数据及所述情感分析结果确定所述游客画像的特征偏好标签,包括:
根据所述反馈数据,为第一游客的隐式反馈行为分配权重并根据第一游客的反馈行为次数,确定第一游客的隐式反馈评分,通过为隐式反馈评分和显式反馈评分赋予权重确定第一游客的反馈信息,根据反馈信息确定评分矩阵;
根据所述基本数据及所述旅游资源画像构建游客画像,游客画像包括基本特征标签和特征偏好标签;根据所述基本数据确定所述游客画像的基本特征标签,根据所述旅游资源画像、所述反馈数据及所述情感分析结果确定游客画像的特征偏好标签。
6.根据权利要求5所述的乡村旅游服务推荐方法,其特征在于,根据所述评分矩阵、所述游客画像的基本特征标签和所述游客画像的特征偏好标签,计算第一游客的潜在相似度、基本相似度和偏好相似度,通过加权融合三种相似度生成第一游客的相似度矩阵,包括:
对特征偏好标签分配权重,计算第一游客之间特征偏好标签的皮尔逊相似度,根据皮尔逊相似度确定第一游客之间的偏好相似度;
获取第一游客的基本特征标签,采用余弦相似度计算第一游客的基本相似度;
根据偏好相似度、潜在相似度及基本相似度生成所述相似度矩阵。
7.根据权利要求6所述的乡村旅游服务推荐方法,其特征在于,所述根据所述相似度矩阵确定与第二游客相似的第一游客,得到近邻游客集合,对所述近邻游客集合中的所述旅游资源进行评分预测,根据评分预测结果为第二游客推荐所述旅游资源,包括:
将与第二游客相似的第一游客根据相似度大小进行排序,得到近邻游客集合;
从近邻游客集合中查找第一游客具有反馈行为且第二游客没有反馈行为的旅游资源;
根据第二游客的近邻游客集合、第二游客对旅游资源的平均综合评分及第一游客对旅游资源的综合评分对旅游进行综合预测评分,得到推荐旅游资源列表;
将推荐旅游资源列表发送至第二游客。
8.一种乡村旅游服务推荐装置,其特征在于,包括:
第一单元,用于根据服务推荐请求,获取旅游资源及游客数据,所述游客数据包括基本数据及反馈数据;
第二单元,用于根据所述旅游资源构建旅游资源画像;
第三单元,用于对所述反馈数据进行情感分析,得到情感分析结果;
第四单元,用于根据所述反馈数据和所述旅游资源确定第一游客与所述旅游资源的评分矩阵,根据所述基本数据和所述旅游资源画像构建游客画像,根据所述基本数据确定所述游客画像的基本特征标签,根据所述旅游资源画像、所述反馈数据及所述情感分析结果确定所述游客画像的特征偏好标签;还用于将所述评分矩阵分解为游客矩阵和旅游资源矩阵的乘积,采用梯度下降算法进行计算,得到第一游客对旅游资源的预估评分,根据预估评分与真实评分的平方差构建损失函数,通过损失函数确定第一游客间的潜在相似度;
第五单元,用于根据所述评分矩阵、所述游客画像的基本特征标签和所述游客画像的特征偏好标签,计算第一游客的潜在相似度、基本相似度和偏好相似度,通过加权融合三种相似度生成第一游客的相似度矩阵;
第六单元,用于根据所述相似度矩阵确定与第二游客相似的第一游客,得到近邻游客集合,对所述近邻游客集合中的所述旅游资源进行评分预测,根据评分预测结果为第二游客推荐所述旅游资源。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1-7中任一项所述的乡村旅游服务推荐方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1-7中任一项所述的乡村旅游服务推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311023803.4A CN116738066B (zh) | 2023-08-15 | 2023-08-15 | 乡村旅游服务推荐方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311023803.4A CN116738066B (zh) | 2023-08-15 | 2023-08-15 | 乡村旅游服务推荐方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116738066A CN116738066A (zh) | 2023-09-12 |
CN116738066B true CN116738066B (zh) | 2023-10-31 |
Family
ID=87911921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311023803.4A Active CN116738066B (zh) | 2023-08-15 | 2023-08-15 | 乡村旅游服务推荐方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116738066B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237061B (zh) * | 2023-11-13 | 2024-03-19 | 贵州优特云科技有限公司 | 基于跨业态的旅游产品自动生成方法、装置及存储介质 |
CN117788224B (zh) * | 2023-12-28 | 2024-07-19 | 广州松麓圣方电子科技有限公司 | 5g+云融合的全域旅游数据管理系统 |
CN118377970B (zh) * | 2024-06-24 | 2024-08-16 | 贵州师范大学 | 一种基于大数据的民宿旅游推荐方法、系统及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107527303A (zh) * | 2017-07-20 | 2017-12-29 | 中国农业大学 | 一种乡村旅游可视化推荐方法及系统 |
KR101871747B1 (ko) * | 2017-04-07 | 2018-06-27 | 주식회사 화성 | 유사성향 기반 사용자-관광상품 추천 방법 및 시스템 |
CN109345348A (zh) * | 2018-09-30 | 2019-02-15 | 重庆誉存大数据科技有限公司 | 基于旅行社用户的多维信息画像的推荐方法 |
CN110968766A (zh) * | 2018-09-28 | 2020-04-07 | 广州威阿科技有限公司 | 基于游客画像及lbs数据的出游方案推荐算法 |
CN113158023A (zh) * | 2021-02-05 | 2021-07-23 | 杭州码全信息科技有限公司 | 基于混合推荐算法的公共数字生活精准分类服务方法 |
CN114240528A (zh) * | 2021-10-29 | 2022-03-25 | 天津理工大学 | 一种用于乡村旅游的交互式景区导视系统 |
CN114782222A (zh) * | 2022-02-25 | 2022-07-22 | 西南石油大学 | 一种基于多源异构大数据的乡村旅游刻画系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9972042B2 (en) * | 2013-03-15 | 2018-05-15 | Sears Brands, L.L.C. | Recommendations based upon explicit user similarity |
-
2023
- 2023-08-15 CN CN202311023803.4A patent/CN116738066B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101871747B1 (ko) * | 2017-04-07 | 2018-06-27 | 주식회사 화성 | 유사성향 기반 사용자-관광상품 추천 방법 및 시스템 |
CN107527303A (zh) * | 2017-07-20 | 2017-12-29 | 中国农业大学 | 一种乡村旅游可视化推荐方法及系统 |
CN110968766A (zh) * | 2018-09-28 | 2020-04-07 | 广州威阿科技有限公司 | 基于游客画像及lbs数据的出游方案推荐算法 |
CN109345348A (zh) * | 2018-09-30 | 2019-02-15 | 重庆誉存大数据科技有限公司 | 基于旅行社用户的多维信息画像的推荐方法 |
CN113158023A (zh) * | 2021-02-05 | 2021-07-23 | 杭州码全信息科技有限公司 | 基于混合推荐算法的公共数字生活精准分类服务方法 |
CN114240528A (zh) * | 2021-10-29 | 2022-03-25 | 天津理工大学 | 一种用于乡村旅游的交互式景区导视系统 |
CN114782222A (zh) * | 2022-02-25 | 2022-07-22 | 西南石油大学 | 一种基于多源异构大数据的乡村旅游刻画系统 |
Non-Patent Citations (3)
Title |
---|
个性化旅游推荐技术研究及发展综述;牛俊洁;崔忠伟;赵晨洁;王永金;吴恋;;物联网技术(第03期);全文 * |
基于协同过滤的个性化民宿推荐系统的设计与实现;路丹;陈占芳;;现代计算机(专业版)(第32期);全文 * |
基于用户画像的旅游情境化推荐服务研究;刘海鸥;孙晶晶;苏妍;张亚明;;情报理论与实践(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116738066A (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
Zhao et al. | Personalized location recommendation by fusing sentimental and spatial context | |
Wang et al. | Urban2vec: Incorporating street view imagery and pois for multi-modal urban neighborhood embedding | |
CN116738066B (zh) | 乡村旅游服务推荐方法、装置、电子设备及存储介质 | |
Li et al. | Using text mining and sentiment analysis for online forums hotspot detection and forecast | |
Turner et al. | An algorithmic definition of the axial map | |
CN111061946A (zh) | 场景化内容推荐方法、装置、电子设备及存储介质 | |
Xu et al. | A personalized information recommendation system for R&D project opportunity finding in big data contexts | |
Sun et al. | Towards massive data and sparse data in adaptive micro open educational resource recommendation: a study on semantic knowledge base construction and cold start problem | |
Huang et al. | Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow | |
CN108897750B (zh) | 融合多元上下文信息的个性化地点推荐方法及设备 | |
Duan et al. | Personalized service recommendations for travel using trajectory pattern discovery | |
Li et al. | Towards knowledge-based tourism Chinese question answering system | |
KR102449602B1 (ko) | 멀티미디어 콘텐츠 내 상품 정보 처리 장치 및 그 방법 | |
CN114358807A (zh) | 基于可预测用户特征属性的用户画像方法及系统 | |
Sai et al. | Identifying and predicting the expenditure level characteristics of car-sharing users based on the empirical data | |
Zhou et al. | Learning with self-attention for rental market spatial dynamics in the Atlanta metropolitan area | |
CN116992124A (zh) | 标签的排序方法、装置、设备、介质及程序产品 | |
Xu et al. | Selection and visiting sequence of daily attractions: Multi-day travel itinerary recommendation based on multi-source online data | |
Xu et al. | [Retracted] Tourist Attraction Recommendation Method and Data Management Based on Big Data Analysis | |
Wang et al. | Intelligent Crowdsourced Testing | |
Zeng et al. | Model-Stacking-based network user portrait from multi-source campus data | |
Trieu et al. | A computer vision-based concept model to recommend domestic overseas-like travel experiences: A design science study | |
Aloia et al. | AIMH Research Activities 2022 | |
Pradani et al. | A Proposed Crowdsourcing Engine for Indonesian Cultural Heritage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |