CN113536155B - 一种基于多源数据的旅游路线可视分析与规划方法 - Google Patents
一种基于多源数据的旅游路线可视分析与规划方法 Download PDFInfo
- Publication number
- CN113536155B CN113536155B CN202110833819.6A CN202110833819A CN113536155B CN 113536155 B CN113536155 B CN 113536155B CN 202110833819 A CN202110833819 A CN 202110833819A CN 113536155 B CN113536155 B CN 113536155B
- Authority
- CN
- China
- Prior art keywords
- route
- destination
- formula
- emotion
- view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000000007 visual effect Effects 0.000 title claims abstract description 56
- 238000004458 analytical method Methods 0.000 title claims abstract description 51
- 230000008451 emotion Effects 0.000 claims abstract description 96
- 238000009826 distribution Methods 0.000 claims abstract description 43
- 238000013507 mapping Methods 0.000 claims abstract description 38
- 230000009467 reduction Effects 0.000 claims abstract description 26
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 238000005065 mining Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 60
- 238000010586 diagram Methods 0.000 claims description 51
- 238000012800 visualization Methods 0.000 claims description 29
- 230000007935 neutral effect Effects 0.000 claims description 27
- 238000012937 correction Methods 0.000 claims description 26
- 239000003086 colorant Substances 0.000 claims description 17
- 150000001875 compounds Chemical class 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 238000013016 damping Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 210000004027 cell Anatomy 0.000 claims description 4
- 230000002068 genetic effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 235000019633 pungent taste Nutrition 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims 1
- 238000011160 research Methods 0.000 description 14
- 230000003993 interaction Effects 0.000 description 11
- 238000013461 design Methods 0.000 description 3
- 238000012356 Product development Methods 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000000265 homogenisation Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多源数据的旅游路线可视分析与规划方法,采集旅游评论、地理信息等多源数据,对旅游路线进行主题分类,并计算目的地热度、评分等评价指标;设计主题路线降维可视化映射,对路线集合进行主题降维,用于查看路线主题分布,选择路线集合;设计频繁路线可视化映射,对频繁挖掘结果、频繁路线可视化编码;设计目的地情感可视化映射,表示目的地的情感变化与关键词;设计路线规划可视化映射,表示详细的路线规划结果;实现主题路线降维视图、频繁路线视图、目的地情感视图、路线规划视图的可视化布局。本发明可以帮助旅游服务提供商挖掘个性旅游路线,对路线进行多层次、不同粒度分析,短时间内规划完整的旅游路线方案。
Description
技术领域
本发明涉及信息可视化与可视分析领域,具体是一种基于多源数据的旅游路线可视分析与规划方法。
背景技术
近年来我国旅游人数持续增加,旅游产业收入也随之增长迅猛,2020年疫情后国内游客出游意愿明显,增幅逐步增大。然而大多旅游产品存在路线相似、同质化严重等问题,这不但会导致景区拥挤、游客体验雷同,而且会增加潜在的疫情扩散风险。因此旅游服务商需要创新开发各类旅游路线,避免人群大量集中带来的潜在风险,实现旅游差异化与个性化,从而提高旅游服务和产品的质量,推进旅游产业的健康发展。
传统的旅游产品开发流程分为市场调研调查、明确线路主题、策划旅游线路、充实活动内容、修改完善五个步骤,产品开发人员需要实地考察收集信息,经过基于经验的讨论得出线路和日程安排。此种方式成本较高、周期较长,难以实现跨城市和地区的长路线规划,且调研人员收集的信息有限,容易受到产品开发人员主观判断的影响。
随着移动互联网的发展,越来越多的游客选择利用互联网平台定制个人旅行、发布旅游经验和出游攻略、基于位置搜索或导航。这些活动积累了大量旅游相关数据,这些数据具有用户自主生成、规模大、种类多等特点,可以较为全面且真实地反映旅游路线及目的地信息。目前已经有许多研究利用相关数据进行营销策略推荐,路线、景点推荐,旅游目的地形象可视分析,路线规划等相关研究。相关研究的主要目的是推荐旅游路线、景点,存在以下不足之处:
1)旅游数据相关研究未充分将相关数据融合,建立全面的分析框架。同时,研究结论地域特点较强,可拓展性差,不具备良好的可解释性。
2)旅游数据可视分析相关研究虽能够增强数据的可解释性,但现有的可视分析研究大多以景点选择为分析目标,以单一景点为分析对象,缺乏对路线整体的形象感知和对比,分析效率较低,情感分析方法也较为单一,没有将情感与具体形象建立联系。
3)现有旅游路线规划研究方法中,一类是设计算法为用户推荐路线规划方案,该类方法主要目标是扩大计算规模、提升计算速度,通常存在可交互性较差,难以调整现有方案;另一类是为用户提供交互手段让其自行规划完整路线方案,这样虽然对用户友好,但往往缺乏相关的数据指导。以上两类工作的面向对象均为游客,缺乏数据支撑和交互分析,无法为旅游产品开发人员提供路线规划服务。
发明内容
本发明所要解决的技术问题是提供一种基于多源数据的旅游路线可视分析与规划方法,基于旅游路线、旅游目的地评论、地理信息等多源数据,提出频繁路线的挖掘与分析、旅游目的地情感形象分析、路线规划分析等分析方法,有助于旅游产品开发人员规划优质个性化旅游路线,分析并完成详细清晰的路线规划,从而减少产品开发的调研成本,为旅游业产品和服务的创新提供新的方法与思路。
为解决上述技术问题,本发明采用的技术方案是:
一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,包括以下步骤:
S1:数据采集
获取三类数据:旅游路线数据、旅游评论文本数据和旅游目的地地理信息数据;
S2:数据处理
对步骤S1中采集的数据进行以下处理:
路线主题分类:用路线经过的目的地的评论文本对路线进行主题分类;
目的地热度与评分:计算旅游目的地的热度指标和评分指标;
S3:可视化映射
设计主题路线降维可视化映射:对路线集合进行主题降维,可视化降维结果用于查看路线主题分布,选择路线集合;
设计频繁路线可视化映射:对频繁挖掘结果、频繁路线可视化编码,用于频繁模式和路线的分析;
设计目的地情感可视化映射:表示目的地的情感变化与关键词,用于分析目的地形象的时序变化和关键情感信息;
设计路线规划可视化映射:表示详细的路线规划结果,用于分析各景点和城市的时间和游玩类型的规划安排与分布;
S4:可视化布局
将步骤S3定义好的映射规则进行具体的可视化布局及绘制实现:
先根据路线类型、时间和空间约束过滤路线数据,然后基于主题分类结果降维,将降维后的结果以散点形式绘制在视图中,构成主题路线降维视图;
将每条路线的目的地按照顺序排列绘制在地图上,并在周围绘制主题构成、热度、评分的关键信息,构成频繁路线视图;
提取选择的目的地评论集合的关键词与关键词的共现关系,利用力引导布局计算其坐标位置,将词语绘制在视图中,构成目的地情感关键词视图;
对加入计划的路线进行路径优化,优化后路线计算其层次关系并绘制在视图中,构成路线规划视图。
进一步的,在步骤S1中,所述数据采集具体为:
S1.1:采集旅游路线分享页的网页内容,包括各旅游路线内容和计划详情的页面链接集合;
S1.2:访问并解析计划详情页面,获取路线计划的计划时间、访问城市、访问景点、停留时间;
S1.3:在旅游评论网页检索路线访问的所有景点,采集景点的评论内容、评分、评论时间;
S1.4:在地图网页检索路线访问的所有城市、景点的地理坐标、标准名称;
S1.5:建立路线-城市-景点-评论的数据结构索引。
更进一步的,在步骤S2中,所述数据处理具体为:
S2.1:对于景点路线,将路线访问的所有景点的评论文本聚合,对于城市路线,将路线访问的所有城市的所有景点的评论文本聚合,聚合后的长文本作为路线的文本,然后利用主题分类方法从路线文本中抽取主题,每个主题包含若干关键词,最后以主题概率的形式表示每个路线,得到路线的主题构成;
S2.2:对于目的地热度计算:统计各目的地评论文本数量,景点本文数量为该景点下评论数量总和,城市文本数量为该城市下所有景点评论数量之和,分别将城市和景点的本文数量值归一化处理后,得到在1~5区间内的归一化热度值
其中,Hi代表第i个城市或景点的热度值,n代表城市或景点的数量,Hmin为最小热度,Hmax为最大热度;再取其平均值得到各城市和景点的访问热度;
其中,Hvisit为访问热度指标,Hroute为路线热度;Hcomment为评论热度;
对于目的地评分计算:城市和景点的访问评分为网络评分和评论评分的平均值;
其中,Svisit为访问评分指标,Sweb为网络评分,Scomment为评论评分。
更进一步的,在步骤S3中,所述主题路线降维可视化映射具体为:旅游路线使用圆点进行编码,圆点的二维坐标为该路线的主题概率分布的降维结果,点与点之间的距离代表它们的主题概率相似程度,相近代表相似程度较高,远离则代表相似程度较低;圆点的填充颜色表示该路线的主题概率组成,使用不同颜色编码不同主题,圆点的颜色由其所属的每个主题概率与该主题的颜色的乘积叠加计算所得。
更进一步的,在步骤S3中,所述频繁路线可视化映射具体为:
使用柱状图编码不同节点数的频繁路线数量,供用户通过交互手段选择频繁路线集合,并通过路线概览视图列表展示;
所述路线概览视图包括由外到内排布的环状面积图、环形图和圆形的地理视图;
对于路线集合中的每一个频繁路线,将途经的目的地按照其经纬度将带有序号的标识符标注在地理视图上,并用直线连接相邻的目的地;
所述地理视图的外侧采用环形图表示该路线的来源路线集合的主题分布和比例,每个主题环形的角度对应该主题在所有主题概率中所占比例;
环形图左右两侧布局两个半圆环状面积图,分别编码路线中各目的地的热度和评分,图中每个极轴对应一个热度或评分的数值,每个极轴刻度通过贝塞尔曲线连接,构成半圆环面积图。
更进一步的,在步骤S3中,所述目的地情感可视化映射具体为:
对于目的地情感时序变化,采用不同的颜色对积极情感、中性情感和消极情感进行编码,纵向高度表示不同类型情感评论在该时间段内所有评论中所占比例,所有时间横向排列构成时序面积图,供用户在其中刷选时段,过滤探索情感关键词的评论数据;
对于目的地情感关键词,采用不同的颜色对积极情感、中性情感和消极情感进行编码,关键词大小代表词语在集合中出现的频率;布局共分为两个部分,第一部分是情感比例,按照集合中统计的各情感类型的句子数量将画布按比例分为积极、中性和消极区域,关键词只允许在对应的区域内绘制;第二部分是力引导布局,根据关键词在集合中句子的共现关系定义关键词之间的引力,共现次数越多引力越大,布局越接近,词语间通过电荷斥力与碰撞检测规则使词语保持基本距离。
更进一步的,在步骤S3中,所述路线规划可视化映射具体为:对加入规划的路线进行路径优化,优化完成后的路线分为日期、城市、景点三个层级,日期为最大层级,使用纵向排列的单列表格表示,每个单元格内部有横向排列的左右两个柱形,左边的柱形表示当日游玩城市,右边的柱形表示对应城市的游玩景点,景点柱形的长度由其计划游玩时间决定,颜色由该景点的类型编码,城市柱形长度则为其对应景点柱形长度之和,颜色由其所有景点游玩世间最长的景点类型编码。
更进一步的,所述路径优化方法具体分为三个步骤:
S3a:遍历每一个目的地作为一个可行解序列C的起点,并将目的地按照游玩时间降序排序得到队列P,计算其他各点到起点的弧度,升序排序得到队列Q,对于每一个可行解序列C执行下一步;
S3b:查找当前目的地g在Q中的位置,分别按顺时针和逆时针查找是否有符合约束的下一个目的地:如果在的顺时针方向存在目的地,而逆时针方向没有符合约束的目的地,则直接将顺时针结果设为当前目的地g;如果在的顺时针方向没有符合约束的目的地而逆时针方向存在目的地,将逆时针结果设为当前目的地g;如果两个方向上均存在目的地,则比较二者到当前目的地的行驶时间,选择时间更短的作为当前目的地g;如果在两个方向上均不存在符合约束的目的地,则取出队列P的第一个元素作为当前目的地,并计算其他各点到当前点的弧度更新队列Q;将当前目的地g加入解序列C,并从队列P和Q中将该目的地删除,如果队列P中仍存在目的地,重复执行上述步骤;否则,将得到的解序列C作为染色体加入初始种群集合;
S3c:对初始种群进行遗传算法迭代优化,收敛后的最优子代作为最终序列输出。
更进一步的,所述步骤S4中,主题路线降维可视化布局实现包含以下步骤:
S4.1.1:对于路线主题概率数据,通过各数据点之间的欧式距离,计算得到表达相似性的条件概率,计算公式如下:
式中,pj|i是xi按照以其自身为中心的正态分布选择邻居时,选择xj为邻居的概率;σi是以xi为中心的正态分布的方差,xk是除了xi以外的所有数据点;
S4.1.2:对于低维数据点,计算公式如下:
式中,qj|i是yi按照以其自身为中心的正态分布选择邻居时,选择yj为邻居的概率;yk是除了yi以外的所有数据点;
S4.1.3:使用梯度下降使数据点K-L散度之和最小,联合概率分布来映射相似度以解决代价函数不对称的问题,对称代价函数对应的梯度计算公式如下:
式中,E为对称代价函数,表现为概率分布的K-L散度总和;
S4.1.4:利用t分布代替正态分布以解决正态分布映射导致的“拥挤问题”,最终的低维联合概率分布公式如下,使用该公式获得各路线降维后的二维坐标;
S4.1.5:图中点的颜色由RGB三个颜色通道组成,每个颜色通道值计算公式如下:
式中,cr是路线点r的各颜色通道值,tk是路线属于第k个主题的概率,ct是主题t的各颜色通道值,Kt为主题的总数量。
更进一步的,所述步骤S4中,频繁路线可视化布局实现包含以下步骤:
S4.2.1:实现左侧柱状图的布局,柱形元素按照平行坐标的纵轴排列分布,垂直宽度映射不同频繁路线集合中包含的路线节点数,宽度值统一且平均分布在纵轴,计算公式如下:
式中,barHeight是柱状图垂直宽度,totalHeight是视图总高度,padHeight是预设垂直间隔宽度,S表示集合的总个数;
S4.2.2:柱状图中每个柱形元素的水平宽度表示该集合中包含的频繁路线数量的值,计算公式如下:
式中,rb表示第b个柱形的宽度与视图总宽度的比值,sumb为第b个柱形对应的频繁路线集合中的路线数量,summin是所有频繁路线集合路线数量最小值,summax为所有频繁路线集合路线数量最大值,barWidthb是第b个柱形的水平宽度,totalWidth是视图的总宽度,S为集合的总个数;
S4.2.3:布局路线概览视图中的外层环状面积图中极轴的位置公式如下:
S4.2.4:环状面积图中极轴的有效长度范围通过固定内圆半径和外圆半径确定,将各目的地的热度Hvisit和评分Svisit通过下式线性映射到极轴上;使用二次贝塞尔曲线按照顺序连接各部分的极径顶点,与内圆共同构成面积图:
式中,表示评分面积图中第a个极径的长度,/>表示热度面积图中第a个极径的长度,outerRadiusarea是面积图外圆半径,innerRadiusarea是面积图内圆半径,/>为评分面积图中第a个目的地的评分值,/>是热度面积图中第a个目的地的热度值,d是该路线包含目的地的总个数;
S4.2.5:布局路线概览视图中间部分的环形图,环形图中各子圆环弧代表路线中对应主题的分布及比例;每一个子圆环弧的极径长度统一,为环形外圆半径与环形内圆半径之差,计算公式如下:
式中,outerRadiusdc代表环形图外圆半径,paddingRadius为预设间隔宽度;
innerRadiusarea为面积图内圆半径,innerRadiusdc为环形图内圆半径,ringWidth为环形图内圆半径;
S4.2.6:环形图中第k个主题的圆环弧的角度θk为该频繁路线涉及的所有路线集合中该主题的概率和占比,计算公式如下所示:
S4.2.7:布局路线概览视图最里层的地理视图,将目的地按照其经纬坐标,将其在路线中的顺序标注在地图上,用直线连接相邻的目的地,并将地图图片进行遮罩处理,圆形遮罩层半径计算公式如下:
radiusgeo=innerRadiusdc-paddingRadius
式中,radiusgeo是地理图半径。
更进一步的,所述步骤S4中,所述目的地情感可视化布局实现包含以下步骤:
S4.3.1:实现上部分情感时序图布局,首先分别对三类评论的数量集合进行标准化,公式如下:
S4.3.2:情感时序图每个时间单位上分别有三个纵向长度,代表积极、中性和消极评论的占比,计算公式如下:
式中,sentimentRatio*为各情感的比例,sentiment*为各情感的标准评论数值,sentimentSum为各情感的标准评论数值之和,flowLength*为各情感的纵向长度,Height为视图总高度;
S4.3.3:实现中间部分情感关键词视图布局,使用不同的颜色区分积极、中性和消极词汇,绿色代表积极词汇,蓝色代表中性词汇,红色代表消极词汇;
S4.3.4:情感关键词视图中词语的尺寸大小与词频相关,词频高的词语尺寸越大,具体计算公式如下:
式中,wordSizeu是第u个词语尺寸大小,frequentu是第u个词语的词频,frequentmin是词语集合中词频的最小值,frequentmax是词语集合中词频的最大值,minSize是预设的最小词语尺寸,maxSize是预设的最大词语尺寸;
S4.3.5:情感关键词视图中各关键词的布局计算基于力引导,假设在初始空间中,每个词语节点的初始位置随机,每个节点均带有q个单位的正电荷,则电荷力公式如下:
式中,Fk为电荷力,ke为库伦常数,q为节点的带电量,r为节点之间的距离;
S4.3.6:根据词汇共现矩阵中各词语的共现数值,在各词语节点之间添加引力,引力的大小与词语的共现次数呈正比,引力公式如下:
S4.3.7:为不同类型的词语节点添加画布中心弹力,减少情感比例约束布局计算的成本,积极、中性和消极词语的弹力中心的纵坐标均是Height/2,横坐标分别为posWidth/2、posWidth+midWidth/2、posWidth+midWidth+negWidth/2,引力计算公式如下:
Fc=K·X
式中,posWidth、midWidth和negWidth分别为积极、中性和消极词汇根据其所占比例计算得到的视觉宽度;Fc为中心弹力,K为弹性系数,X为弹性绳的拉伸长度;
S4.3.8:根据能量守恒定律,添加阻尼力使节点系统达到平衡,阻尼力的计算公式如下:
Fz=-kz·V
式中,Fz为阻尼力,kz为阻尼系数,V为节点的运动速度;
S4.3.10:对于各类不同情感的词语,计算其是否在期望的情感区域中,若该词语节点的中心坐标越界,则进行坐标修正,下面两式分别对词语的横纵坐标进行左右边界和上下边界修正,以此保证大部分词语在规定的情感区域中,从而表达不同情感分句的比例;
式中,为第u个词语节点修正后的横坐标,xu为第u个词语节点修正前的横坐标,wordWidthu为第u个词语的宽度,paddingAreax为预设区域横向间隔,leftBorder为区域左边界,rightBorder为区域右边界;
式中,为第u个词语节点修正后的纵坐标,yu为第u个词语节点修正前的纵坐标,wordHeightu为第u个词语的高度,paddingAreax为预设区域纵向间隔,upBorder为区域上边界,bottomBorder为区域下边界;
S4.3.11:对发生重合的词语,添加碰撞修正,横坐标修正公式如下式所示,当实际横向距离|xu-xv|小于预设距离wordWidthu+wordWidthv+paddingx时,将左边节点向左移动重叠长度,右边节点同样向右移动重叠长度;
式中,是第u个词语节点和第v个词语节点的横向重叠长度,/>是第v个词语节点修正后的横坐标,xv是第v个词语节点修正前的横坐标,wordWidthv为第v个词语的宽度,paddingx是预设词语横向间隔;
纵坐标修正公式如公下式所示,布局调整过程与横坐标相同;
式中,是第u个词语节点和第v个词语节点的纵向重叠长度;/>为第v个词语节点修正后的纵坐标,yv为第v个词语节点修正前的纵坐标;wordHeightv为第v个词语的高度;paddingy为预设词语纵向间隔。
更进一步的,所述路线规划可视化布局实现包含以下步骤:
S4.4.1:路线规划视图中单日计划采用表格从上至下排列表示,宽度为视图宽度,其中各柱形宽度相同,每个景点的柱形高度由该景点的活动时长计算获得;而每个城市的柱形高度为该城市内当天的景点高度之和,每天的表格高度则是由当天城市的柱形高度相加得出,具体计算公式如下:
式中,poiHeighth为第h个景点计划的柱形高度,unitHeight为单个小时的柱形高度,Th为第h个景点的活动小时数,cityHeighti为第i个城市计划的柱形高度,dayHeightz为第z天的表格高度,ni为第i个城市计划的活动计划总数,mz为第z天的城市计划总数;
S4.4.2:路线规划视图中分别用不同的颜色标注各类型景点的柱形。。
与现有技术相比,本发明的有益效果是:
1、针对已有研究中未充分融合相关数据和可拓展性差等问题,本发明方法融合了多种不同结构的数据,建立了旅游路线数据相关的较为全面的分析框架,数据范围覆盖国内城市级、POI级旅游路线,并可融入更大范围的数据拓展应用。
2、针对已有旅游可视化研究缺乏路线整体分析、效率较低和情感分析方法单一等问题,本发明方法包括路线频繁挖掘与分析部分,实现对大规模路线数据由概览到细节的多层次分析流程,可提高分析效率;同时提供目的地情感分析功能,建立不同情感形象的联系,获取更为准确的目的地情感形象。
3、针对已有旅游路线规划研究中,规划算法类方法存在可交互性差,基于交互类方法缺乏数据支撑,且大多研究面向对象为游客等问题,本发明方法通过提供基于真实数据且有丰富交互的可视化视图辅助路线规划分析,用户可在其中完成完整的分析和交互调整路线的功能,并融合路径优化方法提高路线规划质量。
附图说明
图1为基于多源数据的旅游路线可视分析与规划方法框架。
图2为主题路线降维可视分析方法示意图。
图3为频繁路线可视分析方法示意图。
图4是目的地情感可视分析方法示意图。
图5是路线规划可视分析方法示意图。
图6为各视图的交互联动流程如图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细说明。
本发明通过有效的信息可视化与可视分析方法,结合多视图联动策略、灵活的交互手段以及路径优化方法,实现基于多源数据的旅游路线可视分析与规划方法,包括:数据采集与预处理、可视化映射、可视化布局实现、交互及联动设计,具体如下:
一、数据采集与预处理
1)数据采集流程如下:
a)采集旅游路线分享页的网页内容,包括各旅游路线内容和计划详情的页面链接集合;
b)访问并解析计划详情页面,获取路线计划的计划时间、访问城市、访问景点、停留时间,共采集3万条城市路线数据,7万条各城市内景点路线数据;
c)在地图网页检索路线访问的所有城市、景点的地理坐标、标准名称,共采集2千个城市数据,3万个景点数据。
d)在旅游评论网页检索路线访问的所有景点,采集景点的评论内容、评分、评论时间,共采集141万条景点评论数据。
2)数据处理过程主要包含路线主题分类和景点热度与评分指标计算两个部分,具体详述如下:
a)路线主题分类过程分为路线文本聚合,文本主题分类两个部分,首先将路线相关的目的地评论全部聚合在一起作为该路线的文本,然后提取所有路线文本的主题,再将路线文本使用各主题概率表示,得到路线主题分类结果,实际处理过程如下:
i.路线文本聚合:对于景点路线,将路线访问的所有景点的评论文本聚合,对于城市路线,将路线访问的所有城市的所有景点的评论文本聚合,聚合后的长文本作为路线的文本。
ii.文本主题分类:利用隐含狄利克雷分布方法分别从城市路线和景点路线文本集合中抽取主题,每个主题包含若干关键词,以主题概率的形式表示每个路线文本,得到“词语—主题—文本”概率模型,最终每个路线都以10个主题概率表达。
b)对于旅游目的地,频繁路线视图的可视化编码需要访问热度与评分两个评估指标,两个指标的计算过程分别如下:
i.访问热度计算:访问热度指标Hvisit由路线热度Hroute和评论热度Hcomment两部分组成。对于城市,路线热度是指经过该城市的城市路线数量,评论热度是指该城市下所有景点的评论数量;对于景点,路线热度是指经过该景点的景点路线数量,评论热度是指该景点下所有评论的数量;由于二者数量级差距较大,因此在统计完成后需对路线热度和评论热度分别归一化,取数值范围[0,5],如公式(1)所示,Hi代表第i个城市或景点的热度值,n代表城市或景点的数量,Hmin为最小热度,Hmax为最大热度,再取其平均值得到各城市和景点的访问热度,如公式(2)所示。
ii.访问评分计算:访问评分指标Svisit由网络评分Sweb和评论评分Scomment两部分组成。对于城市,网络评分是指其所有景点评分的平均值,评论评分是指该城市下所有景点的评论评分的平均值;对于景点,网络评分直接来源景点介绍页面的评分数据,评论评分是指该景点下所有评论的评分均值,二者的取值范围均为[0,5],最终网络评分和评论评分的平均值得出各城市和景点的访问评分。
二、可视化映射
1)主题路线降维可视化映射
如图2所示,主题分类后的路线数据集中,每个路线拥有10个主题概率维度,对其采用降维操作,每个路线降维后得到一个二维坐标,在数据选择视图中的直角坐标系中绘制。
为了区分不同的主题,每个主题都用不同的颜色表示,图2中在坐标系的右侧列出。对于图中每一个路线点,其颜色由该路线属于各主题的概率与主题颜色的乘积叠加计算得出。点的二维坐标代表该路线的降维结果,路线点之间的距离代表它们主题概率组成的相似度。
2)频繁路线可视化映射
如图3所示,将路线挖掘的结果按节点数量分组统计,使用柱形图表示,用户可以查看不同长度频繁路线的数量差异和分布情况,选择路线长度集合后,会在柱形图右侧展示路线概览视图列表。
频繁路线概览是指对每一条路线的基本信息进行总结和概括,包括频繁路线的地理模式、涉及的主题、途径地热度和评分的变化等,从而让用户在短时间内了解路线的整体情况,对比不同路线模式,评估继续探索的方向。视图由三部分组成,最外层的部分是展示目的地热度和评分变化的环状面积图,使用极坐标系的半径坐标表达评分高低,角度坐标表达该目的地的序号。使用不同的颜色区分两种面积图,并分别布局在左右两侧,热度面积图布局在左边,评分面积图布局在右边;中间的部分是环形图,代表该频繁路线来源路线集合的主题分布及比例,环形的颜色与主题路线降维可视化映射中的主题颜色映射一致,环形的角度大小代表该主题路线在所有路线中所占的比例;最里层的部分是地理图,使用缩略的地图展示频繁路线的地理特征和游览顺序,其在地理信息系统上将旅游目的地按照其经纬度,将该目的地的序号采用醒目的颜色标注在地图上,并按照路线顺序用直线连接相邻的目的地。
当用户点击选择某一路线的概览视图后,该路线将会布局在概览图右侧的地理视图上,标注目的地名称和访问顺序,并以直线连接各目的地。
3)目的地情感可视化映射
如图4所示,视图最上部分的情感时序图中,从左至右按时间顺序排列各情感类别的数量,数量采用三种不同的颜色表示,其中积极评价采用绿色,中性评价采用黄色,消极评价采用红色。每一种不同的颜色纵向高度为该种类型评价在时间区间内所有评论的占比。
在时序图中可选择部分数据提取关键词,绘制图4中中间部分的情感关键词视图,对不同情感类型的关键词,采用不同的颜色标识,积极关键词为绿色,中性关键词为蓝色,消极关键词为红色。关键词大小表示该关键词在集合中出现的频率。关键词的布局共有两个约束,第一个约束是情感比例约束,按照集合中统计的不同情感的比例在画布上分别布局积极区域、中性区域和消极区域,各类关键词只允许在对应的区域内绘制;第二个约束是力引导布局,根据词汇共现矩阵定义不同词语间的引力,并加入各词语间的电荷斥力和碰撞检测以保证布局美观。两个约束的共同平衡结果为最终的关键词布局。
在情感关键词视图可选择关键词,查询相关评论绘制图4中最下部分的原始评论视图,视图中按顺序将评论排列列表,每一行内容包括评论内容、发表时间和评分。
4)路线规划可视化映射
路线规划视图的可视化设计分为两步,首先使用基于极线扫描遗传算法的路径优化方法对旅游目的地顺序进行优化调整,然后绘制对应的层次路线规划视图。具体过程如下:
路径优化方法:该方法具体分为三个步骤,第一步,遍历每一个目的地作为一个可行解序列C的起点,并将目的地按照游玩时间降序排序得到队列P,计算其他各点到起点的弧度,升序排序得到队列Q,对于每一个可行解序列C执行第二步;第二步,查找当前目的地g在Q中的位置,分别按顺时针和逆时针查找是否有符合约束的下一个目的地;如果在的顺时针方向存在目的地,而逆时针方向没有符合约束的目的地,则直接将顺时针结果设为当前目的地g;如果在的顺时针方向没有符合约束的目的地而逆时针方向存在目的地,将逆时针结果设为当前目的地g;如果两个方向上均存在目的地,则比较二者到当前目的地的行驶时间,选择时间更短的作为当前目的地g;如果在两个方向上均不存在符合约束的目的地,则取出队列P的第一个元素作为当前目的地,并计算其他各点到当前点的弧度更新队列Q;将当前目的地g加入解序列C,并从队列P和Q中将该目的地删除,如果队列P中仍存在目的地,重复执行第二步;否则,将得到的解序列C作为染色体加入初始种群集合;第三步,对初始种群进行遗传算法迭代优化,收敛后的最优子代作为最终序列输出。
视觉编码:如图5所示,图中展示的一个单元格代表一天日程安排,单元格中使用纵向布局两层堆叠柱形图代表各目的地安排,左边的柱形代表城市,右边则对应各城市的景点,城市的柱形上边缘与其所包含的景点柱形最上边缘平行,下边缘则与其包含景点柱形下边缘平行,中间的景点按照当天游玩顺序从上至下排列。以一小时为最小长度单位,计算各景点柱形的长度,将同一城市的所有景点柱形长度加和得到城市层级柱形长度。每一个柱形都标识有不同的颜色,代表不同的景点类型,风景为绿色、美食为橙色、交通为蓝色、住宿为黄色,城市层级的柱形颜色为其所包含最多的景点类型。
三、可视化布局实现
1、主题路线降维可视化布局实现包含以下步骤:
步骤1:对于路线主题概率数据,通过各数据点之间的欧式距离,计算得到表达相似性的条件概率,计算公式如下:
式中,pj|i是按照以xi为中心的正态分布选择其邻居,选择xj为邻居的概率,σi是以xi为中心的正态分布的方差,xk是除了xi以外的所有数据点。
步骤2:对于低维数据点,计算公式如下:
式中,qj|i是按照以yi为中心的正态分布选择yi的邻居,选择yj为邻居的概率;yk是除了yi以外的所有数据点。
步骤3:K-L散度可以衡量不同概率分布的差异,使用梯度下降使数据点K-L散度之和最小,联合概率分布来映射相似度可以解决代价函数不对称的问题,对称代价函数对应的梯度计算公式如下:
式中,E为对称代价函数,表现为概率分布的K-L散度总和;
步骤4:利用t分布代替正态分布以解决正态分布映射导致的“拥挤问题”,最终的低维联合概率分布公式如下,使用该公式获得各路线降维后的二维坐标。
步骤5:图中每一个点代表一个路线,使用不同颜色代表不同主题,点的颜色由RGB三个颜色通道组成,将每个颜色通道值计算公式如下:
式中,cr是路线点r的各颜色通道值,tk是路线属于第k个主题的概率,ct是主题t的各颜色通道值。
2、频繁路线可视化布局实现包含以下步骤:
步骤1:实现左侧柱状图的布局,柱形元素按照平行坐标的纵轴排列分布,垂直宽度映射不同频繁路线集合中包含的路线节点数,宽度值统一且平均分布在纵轴,计算公式如下:
式中,barHeight是柱状图垂直宽度,totalHeight是视图总高度,padHeight是预设垂直间隔宽度,S表示集合的总个数。
步骤2:柱状图中每个柱形元素的水平宽度表示该集合中包含的频繁路线数量的值,计算公式如下:
式中,rb表示第b个柱形的宽度与视图总宽度的比值,sumb为第b个柱形对应的频繁路线集合中的路线数量,summin是所有频繁路线集合路线数量最小值,summax为所有频繁路线集合路线数量最大值,barWidthb是第b个柱形的水平宽度,totalWidth是视图的总宽度,S为集合的总个数。
步骤3:布局路线概览视图中的外层环状面积图,其分为左右两个部分,分别代表路线途经目的地的热度和评分。各部分的每一个极轴表示一个目的地,极轴的位置均匀分布在半圆上,位置公式如下。
步骤4:环状面积图中极轴的有效长度范围通过固定内圆半径和外圆半径确定,将各目的地的热度Hvisit和评分Svisit通过公式(11)线性映射到极轴上。使用二次贝塞尔曲线按照顺序连接各部分的极径顶点,与内圆共同构成面积图,两个不同的面积图分别用不同的颜色标注,明显区分边界。
式中,表示评分面积图中第a个极径的长度,/>表示热度面积图中第a个极径的长度,outerRadiusarea是面积图外圆半径,innerRadiusarea是面积图内圆半径,/>为评分面积图中第a个目的地的评分值,/>是热度面积图中第a个目的地的热度值,d是该路线包含目的地的总个数。
步骤5:布局路线概览视图中间部分的环形图,环形图一般分为10个子圆环弧,分别代表路线中10个主题的分布及比例。每一个子圆环弧的极径长度统一,为环形外圆半径与环形内圆半径之差,计算公式如下:
式中,outerRadiusdc代表环形图外圆半径,paddingRadius为预设间隔宽度;innerRadiusarea为面积图内圆半径,innerRadiusdc为环形图内圆半径,ringWidth为环形图内圆半径。
步骤6:环形图中第k个主题的圆环弧的角度θk为该频繁路线涉及的所有路线集合中该主题的概率和占比,计算公式如下所示。
步骤7:布局路线概览视图最里层的地理视图,将目的地按照其经纬坐标,将其在路线中的顺序标注在地图上,用直线连接相邻的目的地,并将地图图片进行遮罩处理,圆形遮罩层半径计算公式如下:
radiusgeo=innerRadiusdc-paddingRadius(14)
式中,innerRadiusdc是环形图内圆半径,paddingRadius是预设间隔宽度,radiusgeo是地理图半径。
3、目的地情感可视化布局实现包含以下步骤:
步骤1:实现上部分情感时序图布局,由于各时间段的评论数差距较大,为了观察变化趋势,首先分别对三类评论的数量集合进行标准化,公式如下:
步骤2:情感时序图每个时间单位上分别有三个纵向长度,代表积极、中性和消极评论的占比,计算公式如下:
式中,sentimentRatio*为各情感的比例,sentiment*为各情感的标准评论数值,sentimentSum为各情感的标准评论数值之和,flowLength*为各情感的纵向长度,Height为视图总高度。
步骤3:实现中间部分情感关键词视图布局,使用不同的颜色区分积极、中性和消极词汇,按照视觉认知通识,绿色代表积极词汇,蓝色代表中性词汇,红色代表消极词汇。
步骤4:情感关键词视图中词语的尺寸大小与词频相关,词频高的词语尺寸越大,具体计算公式如下:
式中,wordSizeu是第u个词语尺寸大小,frequentu是第u个词语的词频,frequentmin是词语集合中词频的最小值,frequentmax是词语集合中词频的最大值,minSize是预设的最小词语尺寸,maxSize是预设的最大词语尺寸。
步骤5:情感关键词视图中各关键词的布局计算基于力引导,空间力共有四种,分别是节点之间的电荷力,引力以及中心弹力和阻尼力。电荷力是各节点之间的基本力,假设在初始空间中,每个词语节点的初始位置随机,每个节点均带有q个单位的正电荷,根据库仑定律,这些词语节点之间会互相产生电荷力,互相排斥,最终分散在空间的各角落,电荷力公式如下:
式中,Fk为电荷力,ke为库伦常数,q为节点的带电量,r为节点之间的距离。
步骤6:情感关键词视图为了呈现各词语之间的关系,根据词汇共现矩阵中各词语的共现数值,在各词语节点之间添加引力,引力的大小与词语的共现次数呈正比,引力公式如下:
步骤7:在此基础上,为不同类型的词语节点添加画布中心弹力,减少情感比例约束布局计算的成本,积极、中性和消极词语的弹力中心的纵坐标均是Height/2,横坐标分别为posWidth/2、posWidth+midWidth/2、posWidth+midWidth+negWidth/2,引力计算公式如下:
Fc=K·X (20)
式中,posWidth、midWidth和negWidth分别为积极、中性和消极词汇根据其所占比例计算得到的视觉宽度;Fc为中心弹力,K为弹性系数,X为弹性绳的拉伸长度。
步骤8:物理模拟计算中,电荷力、各节点之间的引力均在做功,其速度会不断增加,无法达到平衡。根据能量守恒定律,需要添加阻尼力使节点系统达到平衡,阻尼力的计算公式如下:
Fz=-kz·V (21)
式中,Fz为阻尼力,kz为阻尼系数,V为节点的运动速度。
步骤9:完成了力引导计算后,需要进行各约束的布局计算,对于各类不同情感的词语,计算其是否在期望的情感区域中,若该词语节点的中心坐标越界,则进行坐标修正,公式(23)和公式(24)分别对词语的横纵坐标进行左右边界和上下边界修正,以此保证大部分词语在规定的情感区域中,从而表达不同情感分句的比例。
式中,为第u个词语节点修正后的横坐标,xu为第u个词语节点修正前的横坐标,wordWidthu为第u个词语的宽度,paddingAreax为预设区域横向间隔,leftBorder为区域左边界,rightBorder为区域右边界。
式中,为第u个词语节点修正后的纵坐标,yu为第u个词语节点修正前的纵坐标,wordHeightu为第u个词语的高度,paddingAreax为预设区域纵向间隔,upBorder为区域上边界,bottomBorder为区域下边界。
步骤10:关键词布局时需检查每个关键词与周围词语节点的距离情况,对发生重合的词语,添加碰撞修正,横坐标修正公式如公式(24)所示,当实际横向距离|xu-xv|小于预设距离wordWidthu+wordWidthv+paddingx时,将左边节点(xu<xv时为xi,xu>xv时则为xj)向左移动重叠长度,右边节点同样向右移动重叠长度。纵坐标修正公式如公式(25)所示,布局调整过程与横坐标相同。
式中,是第u个词语节点和第v个词语节点的横向重叠长度,/>是第v个词语节点修正后的横坐标,xv是第v个词语节点修正前的横坐标,wordWidthv为第v个词语的宽度,paddingx是预设词语横向间隔。
式中,是第u个词语节点和第v个词语节点的纵向重叠长度;/>为第v个词语节点修正后的纵坐标,yv为第v个词语节点修正前的纵坐标;wordHeightv为第v个词语的高度;paddingy为预设词语纵向间隔。
4、路线规划可视化布局实现包含以下步骤:
步骤1:路线规划视图中单日计划采用表格从上至下排列表示,宽度为视图宽度,其中各柱形宽度相同,每个景点的柱形高度由该景点的活动时长计算获得;而每个城市的柱形高度为该城市内当天的景点高度之和,每天的表格高度则是由当天城市的柱形高度相加得出,具体计算公式如下:
式中,poiHeighth为第h个景点计划的柱形高度,unitHeight为单个小时的柱形高度,Th为第h个景点的活动小时数,cityHeighti为第i个城市计划的柱形高度,dayHeightz为第z天的表格高度,ni为第i个城市计划的活动计划总数,mz为第z天的城市计划总数。
步骤2:路线规划视图中分别用不同的颜色标注各类型景点的柱形,其中风景类为绿色,美食类为橙色,住宿类为黄色,交通类为蓝色,城市的柱形颜色为由该城市包括的景点活动时间最多的类型对应颜色。
四、交互及联动
每个视图都配置有相关的交互功能,各视图的交互联动流程如图6所示,分为路线分析交互、路线规划交互、目的地分析交互三个部分。
a)路线分析交互:用户首先通过时空约束和路线选择视图,交互选择路线集合进行频繁挖掘,之后交互选择感兴趣的频繁路线集合,对比分析集合中不同路线的各类指标和地理空间环境,选择理想的路线进行自动路径优化,加入路线规划。
b)路线规划交互:在路线规划视图中,为用户提供增加目的地、拖动调整目的地顺序,删除目的地,将路线添加至地图显示,修改目的地游玩时长等各类交互手段,让用户能够详细分析规划路线,对路线交互调整。
c)目的地分析交互:在路线规划调整过程中,对于需要进一步分析的目的地,可以进行地理空间分析,或选择进入时序情感分析环节分析其情感趋势。之后刷选需要进行情感关键词分析的时段数据,分析关键词的频率和共现关系。接着选择感兴趣的关键词,查询相关的原始评论,详细分析真实的评论,决策目的地是否加入或保留在路线规划中。
Claims (12)
1.一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,包括以下步骤:
S1:数据采集
获取三类数据:旅游路线数据、旅游评论文本数据和旅游目的地地理信息数据;
S2:数据处理
对步骤S1中采集的数据进行以下处理:
路线主题分类:用路线经过的目的地的评论文本对路线进行主题分类;
目的地热度与评分:计算旅游目的地的热度指标和评分指标;
S3:可视化映射
设计主题路线降维可视化映射:对路线集合进行主题降维,可视化降维结果用于查看路线主题分布,选择路线集合;
设计频繁路线可视化映射:对频繁挖掘结果、频繁路线可视化编码,用于频繁模式和路线的分析;
设计目的地情感可视化映射:表示目的地的情感变化与关键词,用于分析目的地形象的时序变化和关键情感信息;
设计路线规划可视化映射:表示详细的路线规划结果,用于分析各景点和城市的时间和游玩类型的规划安排与分布;
S4:可视化布局
将步骤S3定义好的映射规则进行具体的可视化布局及绘制实现:
先根据路线类型、时间和空间约束过滤路线数据,然后基于主题分类结果降维,将降维后的结果以散点形式绘制在视图中,构成主题路线降维视图;
将每条路线的目的地按照顺序排列绘制在地图上,并在周围绘制主题构成、热度、评分的关键信息,构成频繁路线视图;
提取选择的目的地评论集合的关键词与关键词的共现关系,利用力引导布局计算其坐标位置,将词语绘制在视图中,构成目的地情感关键词视图;
对加入计划的路线进行路径优化,优化后路线计算其层次关系并绘制在视图中,构成路线规划视图。
2.根据权利要求1所述的基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤S1中,所述数据采集具体为:
S1.1:采集旅游路线分享页的网页内容,包括各旅游路线内容和计划详情的页面链接集合;
S1.2:访问并解析计划详情页面,获取路线计划的计划时间、访问城市、访问景点、停留时间;
S1.3:在旅游评论网页检索路线访问的所有景点,采集景点的评论内容、评分、评论时间;
S1.4:在地图网页检索路线访问的所有城市、景点的地理坐标、标准名称;
S1.5:建立路线-城市-景点-评论的数据结构索引。
3.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤S2中,所述数据处理具体为:
S2.1:对于景点路线,将路线访问的所有景点的评论文本聚合,对于城市路线,将路线访问的所有城市的所有景点的评论文本聚合,聚合后的长文本作为路线的文本,然后利用主题分类方法从路线文本中抽取主题,每个主题包含若干关键词,最后以主题概率的形式表示每个路线,得到路线的主题构成;
S2.2:对于目的地热度计算:统计各目的地评论文本数量,景点本文数量为该景点下评论数量总和,城市文本数量为该城市下所有景点评论数量之和,分别将城市和景点的本文数量值归一化处理后,得到在1~5区间内的归一化热度值Hi *:
其中,Hi代表第i个城市或景点的热度值,n代表城市或景点的数量,Hmin为最小热度,Hmax为最大热度;再取其平均值得到各城市和景点的访问热度:
其中,Hvisit为访问热度指标,Hroute为路线热度;Hcomment为评论热度;
对于目的地评分计算:城市和景点的访问评分为网络评分和评论评分的平均值;
其中,Svisit为访问评分指标,Sweb为网络评分,Scomment为评论评分。
4.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤S3中,所述主题路线降维可视化映射具体为:旅游路线使用圆点进行编码,圆点的二维坐标为该路线的主题概率分布的降维结果,点与点之间的距离代表它们的主题概率相似程度,相近代表相似程度较高,远离则代表相似程度较低;圆点的填充颜色表示该路线的主题概率组成,使用不同颜色编码不同主题,圆点的颜色由其所属的每个主题概率与该主题的颜色的乘积叠加计算所得。
5.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤S3中,所述频繁路线可视化映射具体为:
使用柱状图编码不同节点数的频繁路线数量,供用户通过交互手段选择频繁路线集合,并通过路线概览视图列表展示;
所述路线概览视图包括由外到内排布的环状面积图、环形图和圆形的地理视图;
对于路线集合中的每一个频繁路线,将途经的目的地按照其经纬度将带有序号的标识符标注在地理视图上,并用直线连接相邻的目的地;
所述地理视图的外侧采用环形图表示该路线的来源路线集合的主题分布和比例,每个主题环形的角度对应该主题在所有主题概率中所占比例;
环形图左右两侧布局两个半圆环状面积图,分别编码路线中各目的地的热度和评分,图中每个极轴对应一个热度或评分的数值,每个极轴刻度通过贝塞尔曲线连接,构成半圆环面积图。
6.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤S3中,所述目的地情感可视化映射具体为:
对于目的地情感时序变化,采用不同的颜色对积极情感、中性情感和消极情感进行编码,纵向高度表示不同类型情感评论在该时间段内所有评论中所占比例,所有时间横向排列构成时序面积图,供用户在其中刷选时段,过滤探索情感关键词的评论数据;
对于目的地情感关键词,采用不同的颜色对积极情感、中性情感和消极情感进行编码,关键词大小代表词语在集合中出现的频率;布局共分为两个部分,第一部分是情感比例,按照集合中统计的各情感类型的句子数量将画布按比例分为积极、中性和消极区域,关键词只允许在对应的区域内绘制;第二部分是力引导布局,根据关键词在集合中句子的共现关系定义关键词之间的引力,共现次数越多引力越大,布局越接近,词语间通过电荷斥力与碰撞检测规则使词语保持基本距离。
7.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤S3中,所述路线规划可视化映射具体为:对加入规划的路线进行路径优化,优化完成后的路线分为日期、城市、景点三个层级,日期为最大层级,使用纵向排列的单列表格表示,每个单元格内部有横向排列的左右两个柱形,左边的柱形表示当日游玩城市,右边的柱形表示对应城市的游玩景点,景点柱形的长度由其计划游玩时间决定,颜色由该景点的类型编码,城市柱形长度则为其对应景点柱形长度之和,颜色由其所有景点游玩世间最长的景点类型编码。
8.根据权利要求7所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,所述路径优化方法具体分为三个步骤:
S3a:遍历每一个目的地作为一个可行解序列C的起点,并将目的地按照游玩时间降序排序得到队列P,计算其他各点到起点的弧度,升序排序得到队列Q,对于每一个可行解序列C执行下一步;
S3b:查找当前目的地g在Q中的位置,分别按顺时针和逆时针查找是否有符合约束的下一个目的地:如果在的顺时针方向存在目的地,而逆时针方向没有符合约束的目的地,则直接将顺时针结果设为当前目的地g;如果在的顺时针方向没有符合约束的目的地而逆时针方向存在目的地,将逆时针结果设为当前目的地g;如果两个方向上均存在目的地,则比较二者到当前目的地的行驶时间,选择时间更短的作为当前目的地g;如果在两个方向上均不存在符合约束的目的地,则取出队列P的第一个元素作为当前目的地,并计算其他各点到当前点的弧度更新队列Q;将当前目的地g加入解序列C,并从队列P和Q中将该目的地删除,如果队列P中仍存在目的地,重复执行上述步骤;否则,将得到的解序列C作为染色体加入初始种群集合;
S3c:对初始种群进行遗传算法迭代优化,收敛后的最优子代作为最终序列输出。
9.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,所述步骤S4中,主题路线降维可视化布局实现包含以下步骤:
S4.1.1:对于路线主题概率数据,通过各数据点之间的欧式距离,计算得到表达相似性的条件概率,计算公式如下:
式中,pj|i是xi按照以其自身为中心的正态分布选择邻居时,选择xj为邻居的概率;σi是以xi为中心的正态分布的方差,xk是除了xi以外的所有数据点;
S4.1.2:对于低维数据点,计算公式如下:
式中,qj|i是yi按照以其自身为中心的正态分布选择邻居时,选择yj为邻居的概率;yk是除了yi以外的所有数据点;
S4.1.3:使用梯度下降使数据点K-L散度之和最小,联合概率分布来映射相似度以解决代价函数不对称的问题,对称代价函数对应的梯度计算公式如下:
式中,E为对称代价函数,表现为概率分布的K-L散度总和;
S4.1.4:利用t分布代替正态分布以解决正态分布映射导致的“拥挤问题”,最终的低维联合概率分布公式如下,使用该公式获得各路线降维后的二维坐标;
S4.1.5:图中点的颜色由RGB三个颜色通道组成,每个颜色通道值计算公式如下:
式中,cr是路线点r的各颜色通道值,tk是路线属于第k个主题的概率,ct是主题t的各颜色通道值,Kt为主题的总数量。
10.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,所述步骤S4中,频繁路线可视化布局实现包含以下步骤:
S4.2.1:实现左侧柱状图的布局,柱形元素按照平行坐标的纵轴排列分布,垂直宽度映射不同频繁路线集合中包含的路线节点数,宽度值统一且平均分布在纵轴,计算公式如下:
式中,barHeight是柱状图垂直宽度,totalHeight是视图总高度,padHeight是预设垂直间隔宽度,S表示集合的总个数;
S4.2.2:柱状图中每个柱形元素的水平宽度表示该集合中包含的频繁路线数量的值,计算公式如下:
式中,rb表示第b个柱形的宽度与视图总宽度的比值,sumb为第b个柱形对应的频繁路线集合中的路线数量,summin是所有频繁路线集合路线数量最小值,summax为所有频繁路线集合路线数量最大值,barWidthb是第b个柱形的水平宽度,totalWidth是视图的总宽度,S为集合的总个数;
S4.2.3:布局路线概览视图中的外层环状面积图中极轴的位置公式如下:
S4.2.4:环状面积图中极轴的有效长度范围通过固定内圆半径和外圆半径确定,将各目的地的热度Hvisit和评分Svisit通过下式线性映射到极轴上;使用二次贝塞尔曲线按照顺序连接各部分的极径顶点,与内圆共同构成面积图:
式中,表示评分面积图中第a个极径的长度,/>表示热度面积图中第a个极径的长度,outerRadiusarea是面积图外圆半径,innerRadiusarea是面积图内圆半径,/>为评分面积图中第a个目的地的评分值,/>是热度面积图中第a个目的地的热度值,d是该路线包含目的地的总个数;
S4.2.5:布局路线概览视图中间部分的环形图,环形图中各子圆环弧代表路线中对应主题的分布及比例;每一个子圆环弧的极径长度统一,为环形外圆半径与环形内圆半径之差,计算公式如下:
式中,outerRadiusdc代表环形图外圆半径,paddingRadius为预设间隔宽度;innerRadiusarea为面积图内圆半径,innerRadiusdc为环形图内圆半径,ringWidth为环形图内圆半径;
S4.2.6:环形图中第k个主题的圆环弧的角度θk为该频繁路线涉及的所有路线集合中该主题的概率和占比,计算公式如下所示:
S4.2.7:布局路线概览视图最里层的地理视图,将目的地按照其经纬坐标,将其在路线中的顺序标注在地图上,用直线连接相邻的目的地,并将地图图片进行遮罩处理,圆形遮罩层半径计算公式如下:
radiusgeo=innerRadiusdc-paddingRadius
式中,radiusgeo是地理图半径。
11.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,所述步骤S4中,所述目的地情感可视化布局实现包含以下步骤:
S4.3.1:实现上部分情感时序图布局,首先分别对三类评论的数量集合进行标准化,公式如下:
S4.3.2:情感时序图每个时间单位上分别有三个纵向长度,代表积极、中性和消极评论的占比,计算公式如下:
式中,sentimentRatio*为各情感的比例,sentiment*为各情感的标准评论数值,sentimentSum为各情感的标准评论数值之和,flowLength*为各情感的纵向长度,Height为视图总高度;
S4.3.3:实现中间部分情感关键词视图布局,使用不同的颜色区分积极、中性和消极词汇,绿色代表积极词汇,蓝色代表中性词汇,红色代表消极词汇;
S4.3.4:情感关键词视图中词语的尺寸大小与词频相关,词频高的词语尺寸越大,具体计算公式如下:
式中,wordSizeu是第u个词语尺寸大小,frequentu是第u个词语的词频,frequentmin是词语集合中词频的最小值,frequentmax是词语集合中词频的最大值,minSize是预设的最小词语尺寸,maxSize是预设的最大词语尺寸;
S4.3.5:情感关键词视图中各关键词的布局计算基于力引导,假设在初始空间中,每个词语节点的初始位置随机,每个节点均带有q个单位的正电荷,则电荷力公式如下:
式中,Fk为电荷力,ke为库伦常数,q为节点的带电量,r为节点之间的距离;
S4.3.6:根据词汇共现矩阵中各词语的共现数值,在各词语节点之间添加引力,引力的大小与词语的共现次数呈正比,引力公式如下:
S4.3.7:为不同类型的词语节点添加画布中心弹力,减少情感比例约束布局计算的成本,积极、中性和消极词语的弹力中心的纵坐标均是Height/2,横坐标分别为posWidth/2、posWidth+midWidth/2、posWidth+midWidth+negWidth/2,引力计算公式如下:
Fc=K·X
式中,posWidth、midWidth和negWidth分别为积极、中性和消极词汇根据其所占比例计算得到的视觉宽度;Fc为中心弹力,K为弹性系数,X为弹性绳的拉伸长度;
S4.3.8:根据能量守恒定律,添加阻尼力使节点系统达到平衡,阻尼力的计算公式如下:
Fz=-kz·V
式中Fz为阻尼力,kz为阻尼系数,V为节点的运动速度;
S4.3.9:对于各类不同情感的词语,计算其是否在期望的情感区域中,若该词语节点的中心坐标越界,则进行坐标修正,下面两式分别对词语的横纵坐标进行左右边界和上下边界修正,以此保证大部分词语在规定的情感区域中,从而表达不同情感分句的比例;
式中为第u个词语节点修正后的横坐标,xu为第u个词语节点修正前的横坐标,wordWidthu为第u个词语的宽度,paddingAreax为预设区域横向间隔,leftBorder为区域左边界,rightBorder为区域右边界;
式中为第u个词语节点修正后的纵坐标,yu为第u个词语节点修正前的纵坐标,wordHeightu为第u个词语的高度,paddingAreax为预设区域纵向间隔,upBorder为区域上边界,bottomBorder为区域下边界;
S4.3.10:对发生重合的词语,添加碰撞修正,横坐标修正公式如下式所示,当实际横向距离|xu-xv|小于预设距离wordWidthu+wordWidthv+paddingx时,将左边节点向左移动重叠长度,右边节点同样向右移动重叠长度;
式中,是第u个词语节点和第v个词语节点的横向重叠长度,/>是第v个词语节点修正后的横坐标,xv是第v个词语节点修正前的横坐标,wordWidthv为第v个词语的宽度,paddingx是预设词语横向间隔;
纵坐标修正公式如公下式所示,布局调整过程与横坐标相同;
12.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,路线规划可视化布局实现包含以下步骤:
S4.4.1:路线规划视图中单日计划采用表格从上至下排列表示,宽度为视图宽度,其中各柱形宽度相同,每个景点的柱形高度由该景点的活动时长计算获得;而每个城市的柱形高度为该城市内当天的景点高度之和,每天的表格高度则是由当天城市的柱形高度相加得出,具体计算公式如下:
式中,poiHeighth为第h个景点计划的柱形高度,unitHeight为单个小时的柱形高度,Th为第h个景点的活动小时数,cityHeighti为第i个城市计划的柱形高度,dayHeightz为第z天的表格高度,ni为第i个城市计划的活动计划总数,mz为第z天的城市计划总数;
S4.4.2:路线规划视图中分别用不同的颜色标注各类型景点的柱形。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110833819.6A CN113536155B (zh) | 2021-07-23 | 2021-07-23 | 一种基于多源数据的旅游路线可视分析与规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110833819.6A CN113536155B (zh) | 2021-07-23 | 2021-07-23 | 一种基于多源数据的旅游路线可视分析与规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536155A CN113536155A (zh) | 2021-10-22 |
CN113536155B true CN113536155B (zh) | 2023-03-28 |
Family
ID=78088743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110833819.6A Active CN113536155B (zh) | 2021-07-23 | 2021-07-23 | 一种基于多源数据的旅游路线可视分析与规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536155B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443783B (zh) * | 2022-04-11 | 2022-06-24 | 浙江大学 | 一种供应链数据分析和增强处理方法及装置 |
CN115937480B (zh) * | 2023-01-06 | 2023-07-04 | 河南开放大学 | 一种基于人工势场的虚拟现实去中心化重定向系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998035311A1 (en) * | 1997-02-06 | 1998-08-13 | Delorme Publishing Company, Inc. | Travel reservation and information planning system |
WO2009154484A2 (en) * | 2008-06-20 | 2009-12-23 | Business Intelligence Solutions Safe B.V. | Methods, apparatus and systems for data visualization and related applications |
CN106254219A (zh) * | 2016-08-15 | 2016-12-21 | 蔡宏铭 | 基于路线计划的智能出行方法及系统 |
CN109316781A (zh) * | 2018-11-02 | 2019-02-12 | 四川大学 | 一种气泡层次可视化中气泡分离方法 |
CN110750745A (zh) * | 2019-10-16 | 2020-02-04 | 四川大学 | 基于旅游ugc的目的地形象可视化方法 |
WO2020167945A1 (en) * | 2019-02-12 | 2020-08-20 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Systems and methods for route computing for destination-oriented navigation |
CN112749339A (zh) * | 2021-01-18 | 2021-05-04 | 陕西师范大学 | 一种基于旅游知识图谱的旅游路线推荐方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8397177B2 (en) * | 1999-07-22 | 2013-03-12 | Tavusi Data Solutions Llc | Graphic-information flow method and system for visually analyzing patterns and relationships |
US8909771B2 (en) * | 2011-09-15 | 2014-12-09 | Stephan HEATH | System and method for using global location information, 2D and 3D mapping, social media, and user behavior and information for a consumer feedback social media analytics platform for providing analytic measurements data of online consumer feedback for global brand products or services of past, present or future customers, users, and/or target markets |
US11532245B2 (en) * | 2019-10-01 | 2022-12-20 | Warner Bros. Entertainment Inc. | Technical solutions for customized tours |
-
2021
- 2021-07-23 CN CN202110833819.6A patent/CN113536155B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998035311A1 (en) * | 1997-02-06 | 1998-08-13 | Delorme Publishing Company, Inc. | Travel reservation and information planning system |
WO2009154484A2 (en) * | 2008-06-20 | 2009-12-23 | Business Intelligence Solutions Safe B.V. | Methods, apparatus and systems for data visualization and related applications |
CN106254219A (zh) * | 2016-08-15 | 2016-12-21 | 蔡宏铭 | 基于路线计划的智能出行方法及系统 |
CN109316781A (zh) * | 2018-11-02 | 2019-02-12 | 四川大学 | 一种气泡层次可视化中气泡分离方法 |
WO2020167945A1 (en) * | 2019-02-12 | 2020-08-20 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Systems and methods for route computing for destination-oriented navigation |
CN110750745A (zh) * | 2019-10-16 | 2020-02-04 | 四川大学 | 基于旅游ugc的目的地形象可视化方法 |
CN112749339A (zh) * | 2021-01-18 | 2021-05-04 | 陕西师范大学 | 一种基于旅游知识图谱的旅游路线推荐方法及系统 |
Non-Patent Citations (5)
Title |
---|
Fei Wang等.Adaptively Exploring Population Mobility Patterns in Flow Visualization.《IEEE Transactions on Intelligent Transportation Systems》.2017,2250 - 2259. * |
Sreedevi K M等.Frequent subgraph mining on bigdata.《2018 Second International Conference on Intelligent Computing and Control Systems (ICICCS)》.2018,555-560. * |
杨飞 ; 查宇亮 ; .我国城市民族社区研究热点知识图谱分析――基于CSSCI(2008-2017)数据.西南民族大学学报(人文社科版).2017,(第10期),240-245. * |
梁嘉祺 ; 姜珊 ; 陶犁 ; .基于网络游记语义分析和GIS可视化的游客时空行为与情绪关系实证研究――以北京市为例.人文地理.2020,(第02期),158-166. * |
邵隽 ; 常雪松 ; 赵雅敏 ; .基于游记大数据的华山景区游客行为模式研究.中国园林.2018,(第03期),23-29. * |
Also Published As
Publication number | Publication date |
---|---|
CN113536155A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11568012B2 (en) | Method and system for analyzing educational big data on basis of maps | |
Grinberger et al. | Typologies of tourists' time–space consumption: A new approach using GPS data and GIS tools | |
CN113536155B (zh) | 一种基于多源数据的旅游路线可视分析与规划方法 | |
Zheng et al. | GeoLife: A collaborative social networking service among user, location and trajectory. | |
Jabbari et al. | Combining multi-criteria and space syntax analysis to assess a pedestrian network: The case of Oporto | |
Xu et al. | Towards sustainable heritage tourism: a space syntax-based analysis method to improve tourists’ spatial cognition in Chinese historic districts | |
Weng et al. | Homefinder revisited: Finding ideal homes with reachability-centric multi-criteria decision making | |
CN104881472B (zh) | 一种基于网络数据收集的旅游线路景点组合推荐方法 | |
CN106776928A (zh) | 基于内存计算框架、融合社交环境及时空数据的位置推荐方法 | |
CN111291243A (zh) | 一种人物事件的时空信息不确定性的可视化推理方法 | |
CN106777169A (zh) | 一种基于车联网数据的用户出行喜好分析方法 | |
CN110647692A (zh) | 一种基于大数据的多维文旅数据监测及呈现方法 | |
Zheng et al. | Research on urban public green space planning based on taxi data: A case study on three districts of Shenzhen, China | |
CN110413855A (zh) | 一种基于出租车下客点的区域出入口动态提取方法 | |
CN108897750A (zh) | 融合多元上下文信息的个性化地点推荐方法及设备 | |
Natera Orozco et al. | Quantifying life quality as walkability on urban networks: The case of Budapest | |
CN110532464B (zh) | 一种基于多旅游上下文建模的旅游推荐方法 | |
Qiu et al. | RPSBPT: A route planning scheme with best profit for taxi | |
Liu et al. | The places children go: Understanding spatial patterns and formation mechanism for children’s commercial activity space in changchun city, china | |
Pirdavani et al. | A multiple criteria decision‐making approach for prioritizing accident hotspots in the absence of crash data | |
CN113077102A (zh) | 一种景观路线优化方法 | |
CN114372671A (zh) | 一种考虑出行环境的公共交通站点站域可达性评价方法 | |
Ma et al. | Quantitative Evaluation of Friendliness in Streets’ Pedestrian Networks Based on Complete Streets: A Case Study in Wuhan, China | |
Dong et al. | The spectral dimension of human mobility | |
Beck | Guidelines for a participatory urban cycling dashboard: A case study for Münster, Germany |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |