CN114742131A - 基于模式挖掘的城市过度旅游区域识别方法 - Google Patents

基于模式挖掘的城市过度旅游区域识别方法 Download PDF

Info

Publication number
CN114742131A
CN114742131A CN202210260861.8A CN202210260861A CN114742131A CN 114742131 A CN114742131 A CN 114742131A CN 202210260861 A CN202210260861 A CN 202210260861A CN 114742131 A CN114742131 A CN 114742131A
Authority
CN
China
Prior art keywords
grid
tourism
excessive
urban
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210260861.8A
Other languages
English (en)
Inventor
孔祥杰
黄志强
沈国江
刘志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210260861.8A priority Critical patent/CN114742131A/zh
Publication of CN114742131A publication Critical patent/CN114742131A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/14Travel agencies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于模式挖掘的城市过度旅游区域识别方法,首先将城市区域进行网格划分,结合城市旅游POI数据,筛选出城市旅游区域网格。然后对出租车轨迹数据进行处理,计算出城市旅游网格平均拥堵指数和城市旅游网格出租车到达数量,并将此二者定义为城市旅游网格过度旅游模式。利用马氏距离筛选出异常网格过度旅游模式,然后筛选出因过度旅游而造成的异常网格过度旅游模式。最后使用K‑means算法对网格过度旅游模式的异常程度值进行聚类,得到过度旅游等级。本发明利用多源城市数据来识别城市过度旅游区域和划分城市过度旅游等级,能够区别过度旅游与区域内一般的交通拥堵和一般的出租车到达数量增加,实现更准确的城市过度旅游区域识别。

Description

基于模式挖掘的城市过度旅游区域识别方法
技术领域
本发明涉及智慧城市中的智慧旅游领域,尤其涉及一种基于模式挖掘的城市过度旅游区域识别方法。
背景技术
旅游业依托于旅游地的自然环境或人文景观,通过吸引众多游客,为旅游目的地创造了投资、就业机会和经济效益,显而易见地带来了新的经济增长点。但在繁荣之外,旅游衍生出的负面效应更值得人们思考,如“过度旅游(Over-tourism)”现象。
“过度旅游”是指特定旅游地的游客数量过度增长,一方面对景点当地生态环境、社会秩序等方面产生了负面效应,另一方面,旅游地过高的人口密度造成拥堵,破坏了游客的旅游体验,甚至引起游客行程取消、旅游地口碑受损等抑制旅游需求的问题。同时需要强调的是,过度旅游现象不仅仅专指旅游景区内,过度旅游所造成的危害影响是包括旅游景区及城市旅游景区周边的区域。如此爆发式增长的游客人数使得政府的管理难度升级,居民日用品店被改造成迎合游客的纪念品店,物价被旅游市场哄抬,导致生活成本提高,环境恶化、复杂人群造成交通拥堵和社会不安全现象,严重影响了当地居民的正常生活。
近年来已经有越来越多的学者关注到过度旅游问题。一些研究人员提出通过寻找“通用POI”来缓解过度旅游问题,所谓“通用POI”就是从全世界找与著名景点类似的地方,然后希望通过那些“通用POI”来分流游客。然而事实上,游客显然会选择真正有名的景点,而不是那些仅仅看起来像的景点。一些研究人员使用基于代理的方法来建模游客对于拥堵信息的反应,还有一些研究人员利用博弈论中的“哈定悲剧”模型和“囚徒困境”模型等来研究过度旅游问题。
目前,现有的对于过度旅游问题的研究存在以下主要问题:1)现有的研究主要致力于对过度旅游问题定性的分析,缺少对于过度旅游问题定量的分析。2)缺少对于城市过度旅游区域的识别方法。3)缺少对于过度旅游的等级划分。
本方法采用了城市出租车轨迹数据和城市旅游POI数据,旨在利用多源城市数据来识别城市过度旅游区域,并划分城市过度旅游区域的过度旅游等级。在城市中,过度旅游最直观的体现就是会造成交通拥堵和人群聚集,因此,本发明提出包含网格拥堵指数和网格出租车到达数量的网格过度旅游模式(Grid Over-tourism Mode)来识别城市过度旅游区域和划分城市过度旅游等级,为旅游景区和城市管理部门提供行动依据,从而降低过度旅游问题造成的影响。
发明内容
为解决现有技术的不足,本发明提供一种基于模式挖掘的城市过度旅游区域识别方法,使得能够识别出城市潜在过度旅游区域,并划分城市过度旅游等级。
本发明公开了一种基于模式挖掘的城市过度旅游区域识别方法,首先将城市区域进行网格划分,结合城市旅游POI数据,筛选出城市旅游区域网格。然后对出租车轨迹数据进行处理,计算出城市旅游网格平均拥堵指数和城市旅游网格出租车到达数量,并将此二者定义为城市旅游网格过度旅游模式。利用马氏距离筛选出异常网格过度旅游模式,然后筛选出因过度旅游而造成的异常网格过度旅游模式。最后使用K-means算法对网格过度旅游模式的异常程度值进行聚类,得到过度旅游等级。本发明利用多源城市数据来识别城市过度旅游区域和划分城市过度旅游等级,能够区别过度旅游与网格内一般的交通拥堵和一般的出租车到达数量增加,实现更准确的过度旅游识别。
本发明是通过以下技术方案达到上述目的:一种基于模式挖掘的城市过度旅游区域识别方法,具体的实施步骤如下:
S1:对原始数据进行预处理,并进行时间,区域划分;
S2:根据步骤S1所述数据,筛选城市旅游区域网格;
S3:根据步骤S1和S2所述数据,计算在每个时间片下,城市旅游区域的网格过度旅游模式;
S4:根据步骤S3所述数据,筛选因过度旅游造成的异常城市网格过度旅游模式;
S5:根据步骤S4所述数据,对异常城市网格过度旅游模式的异常程度值进行过度旅游等级划分。
其中步骤S1具体包括如下步骤:
S1.1:对出租车数据进行清洗,包括清除缺失值、异常值、噪声数据等,以及出租车基础数据的规范化处理;
S1.2:对出租车数据进行时间片划分,划分为tn个时间片;
S1.3:根据城市研究区域的经度和纬度的最大值和最小值,将城市研究区域划分为R个网格单元;
S1.4:在高德地图开放平台申请web服务的密钥,基于高德地图提供的数据接口,爬取城市旅游景点POI数据,每条数据包括旅游景点的名称、旅游景点的经度和纬度。
其中步骤S2具体包括如下步骤:
S2.1:根据步骤S1所述城市旅游POI数据的经度和纬度,计算出每个城市旅游POI所在的城市网格编号;
S2.2:根据每个城市旅游POI所对应的城市网格编号,筛选出含有旅游POI的网格作为城市旅游区域网格。
其中步骤S3具体包括如下步骤:
S3.1:根据步骤S1和S2所述数据,计算城市旅游网格内道路平均速度,给定某辆车一组连续的时间戳(t1,t2,...,tn),对应的定位点
Figure BDA0003550082120000021
计算公式如下所示(其中,
Figure BDA0003550082120000022
表示定位点
Figure BDA0003550082120000023
和定位点
Figure BDA0003550082120000024
之间的欧式距离,vi表示第i辆车的平均速度,Vj表示第j条道路上所有车辆的平均速度):
Figure BDA0003550082120000031
Figure BDA0003550082120000032
S3.2:根据S3.1中道路实际平均速度和该条道路的限速,计算当前时间片道路的拥堵指数,计算公式如下所示(其中Vj,t表示第t个时间片下第j条道路的平均速度,Vj,std表示第j条道路的限速,cj,t表示t时刻下第j条道路的拥堵指数):
Figure BDA0003550082120000033
S3.3:根据步骤S3.2中道路拥堵指数,计算城市旅游网格中所有道路的平均拥堵指数作为该城市旅游网格在该时间片下的拥堵指数,计算公式如下(其中ci,t表示第i条道路在第t个时间片中的拥堵指数,Cr,t表示网格r在第t个时间片下的拥堵指数):
Figure BDA0003550082120000034
S3.4:根据步骤S1和S2所述数据,计算每个城市旅游网格在每个时间片的出租车到达数量,记为Nr,t,表示第r个网格中在第t个时间片中出租车到达数量。
S3.5:根据步骤S3.3和S3.4所述数据,定义城市网格过度旅游模式(Grid Over-tourism Mode)为二维向量GOMt<N,C>,其中,N是指特定时间步长范围内,在此网格的出租车到达数量,C是指网格的拥堵指数。对于每一个城市旅游网格共有tn个网格过度旅游模式
Figure BDA0003550082120000035
其中步骤S4具体包括如下步骤:
S4.1:利用马氏距离计算城市网格过度旅游模式中的异常程度值。
S4.1具体包括步骤如下:
S4.1.1:计算tn个时间片,网格平均出租车到达数量和平均拥堵指数,计算公式如下(其中
Figure BDA0003550082120000036
Figure BDA0003550082120000037
分别表示第ti个时间片下,网格出租车到达数量和网格拥堵指数):
Figure BDA0003550082120000038
Figure BDA0003550082120000039
S4.1.2:计算tn个时间片,网格过度旅游模式全样本的均值,计算公式如下:
Figure BDA0003550082120000041
S4.1.3:计算所有网格过度旅游模式与tn个时间片网格过度旅游模式全样本均值的马氏距离,计算公式如下:
Figure BDA0003550082120000042
其中S是全样本
Figure BDA0003550082120000043
的协方差矩阵,计算公式如下
Figure BDA0003550082120000044
其中
Figure BDA0003550082120000045
表示在第ti个时间片下,网格的出租车到达数量,
Figure BDA0003550082120000046
表示在第ti个时间片下,网格的拥堵指数。
Figure BDA0003550082120000047
Figure BDA0003550082120000048
分别指tn个时间片内,网格内平均出租车到达数量和平均拥堵指数。
S4.1.4:根据步骤S4.1.3中所述数据,筛选出异常网格过度旅游模式,计算公式如下:
Figure BDA0003550082120000049
其中GOMavg是指tn个时间片内,网格过度旅游模式全样本的均值。公式左边表示第ti个时间片下,网格过度旅游模式与tn个时间片内平均网格过度旅游模式GOMavg之间的马氏距离,右边表示所有tn个时间片内网格过度旅游模式与网格过度旅游模式均值之间差异的平均水平。λ为异常程度值,是网格过度旅游模式异常程度的判定依据,其中,λ值越大则异常越严重。
S4.2:异常网格过度旅游模式包括四种情况,分别为
Figure BDA00035500821200000410
表示过度旅游,
Figure BDA00035500821200000411
表示交通拥堵,
Figure BDA00035500821200000412
表示出租车到达数量增加但未造成过度旅游,
Figure BDA00035500821200000413
表示畅通。筛选出异常网格过度旅游模式中
Figure BDA00035500821200000414
的时间片,得到对应时间片下网格过度旅游模式异常程度值集合λ={λ12,...λm}。
其中步骤S5具体包括如下步骤:
S5.1:根据步骤S4所述数据,使用K-means算法对网格过度旅游模式异常程度值进行聚类,假设簇划分为S={S1,S2,...Sk},目标是最小化平方误差E,计算公式如下(其中μi代表Si的均值向量):
Figure BDA0003550082120000051
Figure BDA0003550082120000052
本发明的优点是:本发明利用多源城市数据来识别城市过度旅游区域和划分城市过度旅游等级,将网格拥堵指数和网格出租车到达数量相结合,能够区别过度旅游与网格内一般的交通拥堵和一般的出租车到达数量增加,实现更准确的过度旅游识别。提出网格过度旅游模式(Grid Over-tourism Mode)来识别城市过度旅游区域和划分城市过度旅游等级,填补了识别和量化过度旅游问题等方面方法的空白。
附图说明
图1是本发明方法的总体流程图。
图2是一种基于模式挖掘的城市过度旅游区域识别方法的数据处理流程图。
图3是四种异常网格过度旅游模式情况示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将对本发明的具体实施方式作进一步的详细描述。
本发明实施例提供了一种基于模式挖掘的城市过度旅游区域识别方法,系统流程如图1所示,数据处理流程如图2所示,该方法包括:
S1:在原始数据集的基础上提取出有用的数据,并进行时间,区域划分,步骤如下:
S1.1:对出租车数据进行清洗,包括清除缺失值、异常值、噪声数据等,以及出租车基础数据的规范化处理。其中出租车轨迹数据的清洗针对的是2017年9月18日至2017年10月17日共30天的杭州出租车轨迹数据。我们首先需要出租车的OD数据,因此需要从原始数据集中提取出载客的出租车上下车时间,上下车地点经纬度,OD数据所拥有的属性包括:
Figure BDA0003550082120000053
Figure BDA0003550082120000061
表1
S1.2:对出租车数据进行时间片划分,将出租车到达时间按照10分钟进行划分,共得到4320个时间片。
S1.3:根据城市研究区域的经度和纬度的最大值和最小值,将城市研究区域划分为R个网格单元。我们的研究区域为东经119°683′-120°599′,北纬29°794′-30°525′。网格边长为2000米,划分后得到45*41共1845个网格。同时将出租车OD数据中乘客下车经纬度对应到网格中,之后数据中增加了以下属性:
编号 名称 注释
8 Eloncol 网格横坐标
9 Elatcol 网格纵坐标
表2
S1.4:在高德地图开放平台申请web服务的密钥,基于高德地图提供的数据接口,爬取城市旅游POI数据,每条数据所拥有的属性包括:
编号 名称 注释
1 Longitude 经度
2 Latitude 纬度
3 Name 名称
表3
S2:根据步骤S1所得数据,筛选出城市旅游区域网格,步骤如下:
S2.1:根据步骤S1所得城市旅游POI数据的经度和纬度,计算出每个城市旅游POI所在的城市网格编号,之后数据中增加了以下属性:
编号 名称 注释
4 Eloncol 网格横坐标
5 Elatcol 网格纵坐标
表4
S2.2:根据每个城市旅游POI所对应的城市网格编号,筛选出含有旅游POI的城市研究区域网格作为城市旅游区域网格。
S3:根据步骤S1和S2所述数据,计算在每个时间片下,城市旅游区域的网格过度旅游模式,步骤如下:
S3.1:根据步骤S1和S2所述数据,计算城市旅游网格内道路平均速度,给定某辆车一组连续的时间戳(t1,t2,...,tn),对应的定位点
Figure BDA0003550082120000071
计算公式如下所示(其中,
Figure BDA0003550082120000072
表示定位点
Figure BDA0003550082120000073
和定位点
Figure BDA0003550082120000074
之间的欧式距离,vi表示第i辆车的平均速度,Vj表示第j条道路上所有车辆的平均速度):
Figure BDA0003550082120000075
Figure BDA0003550082120000076
S3.2:根据S3.1中道路实际平均速度和该条道路的限速,计算当前时间片道路的拥堵指数,计算公式如下所示(其中Vj,t表示第t个时间片下第j条道路的平均速度,Vj,std表示第j条道路的限速,cj,t表示t时刻下第j条道路的拥堵指数):
Figure BDA0003550082120000077
S3.3:根据步骤S3.2中道路拥堵指数,计算城市旅游网格中所有道路的平均拥堵指数作为该城市旅游网格在该时间片下的拥堵指数,计算公式如下(其中ci,t表示第i条道路在第t个时间片中的拥堵指数,Cr,t表示网格r在第t个时间片下的拥堵指数):
Figure BDA0003550082120000078
S3.4:根据步骤S1和S2所述数据,计算每个城市旅游网格在每个时间片的出租车到达数量,记为Nr,t,表示第r个网格中在第t个时间片中出租车到达数量。
S3.5:根据步骤S3.3和S3.4所述数据,定义城市网格过度旅游模式(Grid Over-tourism Mode)为二维向量GOM t<N,C>,其中,N是指特定时间步长范围内,在此网格的出租车到达数量,C是指网格的拥堵指数。对于每一个城市旅游网格共有4320个网格过度旅游模式
Figure BDA0003550082120000079
S4:根据步骤S3所述数据,筛选城市网格过度旅游模式,步骤如下:
S4.1:利用马氏距离计算城市网格过度旅游模式中的异常程度值。S4.1具体步骤如下:
S4.1.1:计算4320个时间片,网格平均出租车到达数量和平均拥堵指数,计算公式如下(其中
Figure BDA00035500821200000710
Figure BDA00035500821200000711
分别表示第ti个时间片下,网格到达人数和网格拥堵指数):
Figure BDA0003550082120000081
Figure BDA0003550082120000082
S4.1.2:计算4320个时间片,网格过度旅游模式全样本的均值,计算公式如下:
Figure BDA0003550082120000083
S4.1.3:计算所有网格过度旅游模式与4320个时间片网格过度旅游模式全样本均值的马氏距离,计算公式如下:
Figure BDA0003550082120000084
其中S是全样本
Figure BDA0003550082120000085
的协方差矩阵,计算公式如下
Figure BDA0003550082120000086
其中
Figure BDA0003550082120000087
表示在第ti个时间片下,网格的出租车到达数量,
Figure BDA0003550082120000088
表示在第ti个时间片下,网格的拥堵指数。
Figure BDA0003550082120000089
Figure BDA00035500821200000810
分别指4320个时间片内,网格内平均出租车到达数量和平均拥堵指数。
S4.1.4:根据步骤S4.1.3中所述数据,筛选出异常网格过度旅游模式,计算公式如下:
Figure BDA00035500821200000811
其中GOMavg是指4320个时间片内,网格过度旅游模式全样本的均值。公式左边表示第ti个时间片下,网格过度旅游模式与4320个时间片内平均网格过度旅游模式GOMavg之间的马氏距离,右边表示所有4320个时间片内网格过度旅游模式与网格过度旅游模式均值之间差异的平均水平。λ为异常程度值,是网格过度旅游模式异常程度的判定依据,其中,λ值越大则异常越严重。
S4.2:异常网格过度旅游模式包括四种情况如图3所示,分别为
Figure BDA00035500821200000812
表示过度旅游,
Figure BDA00035500821200000813
表示交通拥堵,
Figure BDA00035500821200000814
表示出租车到达数量增加但未造成过度旅游,
Figure BDA00035500821200000815
表示畅通。筛选出异常网格过度旅游模式中
Figure BDA00035500821200000816
的时间片,在统计学中通常使用3倍得标准差值来过滤异常值,因此这里我们筛选出λ=3得集合,得到对应时间片下网格过度旅游模式异常程度值集合λ={λ12,...λm}。
S5:根据步骤S4所述数据,对城市网格过度旅游模式进行过度旅游等级划分,步骤如下:
S5.1:根据步骤S4所述数据,使用K-means算法对网格过度旅游模式异常程度值进行聚类,假设簇划分为3个等级(轻微过度旅游,一般过度旅游,严重过度旅游),目标是最小化平方误差E,计算公式如下(其中μi代表Si的均值向量):
Figure BDA0003550082120000091
Figure BDA0003550082120000092
实施应用案例表明,本发明所提出的基于模式挖掘的城市过度旅游区域识别方法是有效的,相对于其他设计方法,本发明利用多源城市数据来识别城市过度旅游区域和划分城市过度旅游等级,将网格拥堵指数和网格出租车到达数量相结合,能够区别过度旅游与网格内一般的交通拥堵和一般的出租车到达数量增加,实现更准确的过度旅游识别。提出网格过度旅游模式(Grid Over-tourism Mode)来识别城市过度旅游区域和划分城市过度旅游等级,填补了识别和量化过度旅游问题等方面方法的空白。
以上的所述乃是本发明的具体实施应用案例及所运用的技术原理,本发明的保护范围不应当被视为仅限于实施应用案例所陈述的具体形式,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (6)

1.一种基于模式挖掘的城市过度旅游区域识别方法,其特征在于,包括以下步骤:
S1:对原始数据进行预处理,并进行时间,区域划分;
S2:根据步骤S1所述数据,筛选城市旅游区域网格;
S3:根据步骤S1和S2所述数据,计算在每个时间片下,城市旅游区域的网格过度旅游模式;
S4:根据步骤S3所述数据,筛选因过度旅游造成的异常城市网格过度旅游模式;
S5:根据步骤S4所述数据,对异常城市网格过度旅游模式的异常程度值进行过度旅游等级划分。
2.如权利要求1所述的一种基于模式挖掘的城市过度旅游区域识别方法,其特征在于:所述步骤S1具体包括如下步骤:
S1.1:对出租车数据进行清洗,包括清除缺失值、异常值、噪声数据,以及规范化处理出租车基础数据;
S1.2:对出租车数据进行时间片划分,划分为tn个时间片;
S1.3:根据城市研究区域的经度和纬度的最大值和最小值,将城市研究区域划分为R个网格单元;
S1.4:在高德地图开放平台申请web服务的密钥,基于高德地图提供的数据接口,爬取城市旅游景点POI数据,每条数据包括旅游景点的名称、旅游景点的经度和纬度。
3.如权利要求1所述的一种基于模式挖掘的城市过度旅游区域识别方法,其特征在于:所述步骤S2具体包括如下步骤:
S2.1:根据步骤S1所述城市旅游POI数据的经度和纬度,计算出每个城市旅游POI所在的城市网格编号;
S2.2:根据每个城市旅游POI所对应的城市网格编号,筛选出含有旅游POI的网格作为城市旅游区域网格。
4.如权利要求1所述的一种基于模式挖掘的城市过度旅游区域识别方法,其特征在于:所述步骤S3具体包括如下步骤:
S3.1:根据步骤S1和S2所述数据,计算城市旅游网格内道路平均速度,给定某辆车一组连续的时间戳(t1,t2,...,tn),对应的定位点
Figure FDA0003550082110000011
计算公式如下所示(其中,
Figure FDA0003550082110000012
表示定位点
Figure FDA0003550082110000013
和定位点
Figure FDA0003550082110000014
之间的欧式距离,vi表示第i辆车的平均速度,Vj表示第j条道路上所有车辆的平均速度):
Figure FDA0003550082110000015
Figure FDA0003550082110000016
S3.2:根据S3.1中道路实际平均速度和该条道路的限速,计算当前时间片道路的拥堵指数,计算公式如下所示,其中Vj,t表示第t个时间片下第j条道路的平均速度,Vj,std表示第j条道路的限速,cj,t表示t时刻下第j条道路的拥堵指数:
Figure FDA0003550082110000021
S3.3:根据步骤S3.2中道路拥堵指数,计算城市旅游网格中所有道路的平均拥堵指数作为该城市旅游网格在该时间片下的拥堵指数,计算公式如下,其中ci,t表示第i条道路在第t个时间片中的拥堵指数,Cr,t表示网格r在第t个时间片下的拥堵指数:
Figure FDA0003550082110000022
S3.4:根据步骤S1和S2所述数据,计算每个城市旅游网格在每个时间片的出租车到达数量,记为Nr,t,表示第r个网格中在第t个时间片中出租车到达数量;
S3.5:根据步骤S3.3和S3.4所述数据,定义城市网格过度旅游模式(Grid Over-tourism Mode)为二维向量GOMt<N,C>,其中,N是指特定时间步长范围内,在此网格的出租车到达数量,C是指网格的拥堵指数。对于每一个城市旅游网格共有tn个网格过度旅游模式
Figure FDA0003550082110000023
5.如权利要求1所述的一种基于模式挖掘的城市过度旅游区域识别方法,其特征在于:所述步骤S4具体包括如下步骤:
S4.1:利用马氏距离计算城市网格过度旅游模式中的异常程度值;
S4.1具体包括步骤如下:
S4.1.1:计算tn个时间片,网格平均出租车到达数量和平均拥堵指数,计算公式如下,其中
Figure FDA0003550082110000024
Figure FDA0003550082110000025
分别表示第ti个时间片下,网格出租车到达数量和网格拥堵指数:
Figure FDA0003550082110000026
Figure FDA0003550082110000027
S4.1.2:计算tn个时间片,网格过度旅游模式全样本的均值,计算公式如下:
Figure FDA0003550082110000028
S4.1.3:计算所有网格过度旅游模式与tn个时间片网格过度旅游模式全样本均值的马氏距离,计算公式如下:
Figure FDA0003550082110000031
其中S是全样本
Figure FDA0003550082110000032
的协方差矩阵,计算公式如下:
Figure FDA0003550082110000033
其中
Figure FDA0003550082110000034
表示在第ti个时间片下,网格的出租车到达数量,
Figure FDA0003550082110000035
表示在第ti个时间片下,网格的拥堵指数。
Figure FDA0003550082110000036
Figure FDA0003550082110000037
分别指tn个时间片内,网格内平均出租车到达数量和平均拥堵指数;
S4.1.4:根据步骤S4.1.3中所述数据,筛选出异常网格过度旅游模式,计算公式如下:
Figure FDA0003550082110000038
其中GOMavg是指tn个时间片内,网格过度旅游模式全样本的均值。公式左边表示第ti个时间片下,网格过度旅游模式与tn个时间片内平均网格过度旅游模式GOMavg之间的马氏距离,右边表示所有tn个时间片内网格过度旅游模式与网格过度旅游模式均值之间差异的平均水平。λ为异常程度值,是网格过度旅游模式异常程度的判定依据,其中,λ值越大则异常越严重;
S4.2:异常网格过度旅游模式包括四种情况,分别为
Figure FDA0003550082110000039
表示过度旅游,
Figure FDA00035500821100000310
表示交通拥堵,
Figure FDA00035500821100000311
表示出租车到达数量增加但未造成过度旅游,
Figure FDA00035500821100000312
表示畅通。筛选出异常网格过度旅游模式中
Figure FDA00035500821100000313
的时间片,得到对应时间片下网格过度旅游模式异常程度值集合λ={λ12,...λm}。
6.如权利要求1所述的一种基于模式挖掘的城市过度旅游区域识别方法,其特征在于:
所述步骤S5具体包括:
根据步骤S4所述数据,使用K-means算法对网格过度旅游模式异常程度值进行聚类,假设簇划分为S={S1,S2,...Sk},目标是最小化平方误差E,计算公式如下,其中μi代表Si的均值向量:
Figure FDA0003550082110000041
Figure FDA0003550082110000042
CN202210260861.8A 2022-03-16 2022-03-16 基于模式挖掘的城市过度旅游区域识别方法 Pending CN114742131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210260861.8A CN114742131A (zh) 2022-03-16 2022-03-16 基于模式挖掘的城市过度旅游区域识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210260861.8A CN114742131A (zh) 2022-03-16 2022-03-16 基于模式挖掘的城市过度旅游区域识别方法

Publications (1)

Publication Number Publication Date
CN114742131A true CN114742131A (zh) 2022-07-12

Family

ID=82276829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210260861.8A Pending CN114742131A (zh) 2022-03-16 2022-03-16 基于模式挖掘的城市过度旅游区域识别方法

Country Status (1)

Country Link
CN (1) CN114742131A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611678A (zh) * 2023-07-21 2023-08-18 北京阿帕科蓝科技有限公司 数据处理方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611678A (zh) * 2023-07-21 2023-08-18 北京阿帕科蓝科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN116611678B (zh) * 2023-07-21 2023-12-01 北京阿帕科蓝科技有限公司 数据处理方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
WO2018214675A1 (zh) 一种量化分析城市建成环境对道路行程时间影响的方法
CN110298500B (zh) 一种基于出租车数据和城市路网的城市交通轨迹数据集生成方法
KR101668753B1 (ko) 대기 오염 관리 시스템
CN110390349A (zh) 基于XGBoost模型的公交车客流量预测建模方法
CN103956050A (zh) 基于车辆行程数据的道路网运行评价方法
CN114969007A (zh) 一种基于功能混合度和集成学习的城市功能区识别方法
CN110853156B (zh) 融合公交gps轨迹与ic卡数据的乘客od识别方法
CN111814596A (zh) 一种遥感影像与出租车轨迹融合的自动城市功能分区方法
CN112258029A (zh) 地铁站周边共享单车的需求预测方法
CN117238126A (zh) 一种连续流道路场景下的交通事故风险评估方法
CN111582601A (zh) 一种公交站点选址方法及装置
CN114742131A (zh) 基于模式挖掘的城市过度旅游区域识别方法
CN114723596A (zh) 一种基于多源交通出行数据和主题模型的城市功能区识别方法
CN108681741B (zh) 基于ic卡和居民调查数据的地铁通勤人群信息融合方法
CN116227791B (zh) 基于语义融合模型探索城市功能区动态划分的可视分析方法
CN110610446A (zh) 一种基于两步聚类思路的县域城镇分类方法
CN114861975A (zh) 基于吸引强度的城市旅游交通需求联合预测方法
CN112988855A (zh) 一种基于数据挖掘的地铁乘客分析方法及系统
CN111833229A (zh) 一种基于地铁依赖度的出行行为时空分析方法及装置
Osaragi Estimation of Transient Occupants on Weekdays and Weekends for Risk Exposure Analysis.
CN113850295B (zh) 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法
CN113723761B (zh) 一种基于运行数据的多维度城市公交运行服务可靠度评价方法
Tajmajer et al. Predicting annual average daily highway traffic from large data and very few measurements
CN113343781B (zh) 使用遥感数据和出租车轨迹数据的城市功能区识别方法
CN112733891B (zh) 对出行链断链时公交ic卡乘客进行下车站点识别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination