CN111710157A - 一种出租车热点区域的提取方法 - Google Patents
一种出租车热点区域的提取方法 Download PDFInfo
- Publication number
- CN111710157A CN111710157A CN202010450369.8A CN202010450369A CN111710157A CN 111710157 A CN111710157 A CN 111710157A CN 202010450369 A CN202010450369 A CN 202010450369A CN 111710157 A CN111710157 A CN 111710157A
- Authority
- CN
- China
- Prior art keywords
- grid
- dense
- grid unit
- dense grid
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 16
- 230000029305 taxis Effects 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 abstract description 82
- 238000012545 processing Methods 0.000 abstract description 6
- 238000002474 experimental method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 230000014759 maintenance of location Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000000725 suspension Substances 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- YVPYQUNUQOZFHG-UHFFFAOYSA-N amidotrizoic acid Chemical compound CC(=O)NC1=C(I)C(NC(C)=O)=C(I)C(C(O)=O)=C1I YVPYQUNUQOZFHG-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种出租车热点区域的提取方法,所述方法具体包括如下步骤:S1、对于原始位置数据进行停留点的识别及过滤;S2、对过滤后的位置数据进行网格映射形成网格单元,识别网格单元中的密集网格单元及非密集网格单元;S3、识别非密集网格单元中的次密集网格单元及噪声网格单元;S4、基于次密集网格单元与密集网格单元构成若干聚类簇,即完成网格聚类。将位置数据空间划分成矩形网格单元,根据所定义的密度阈值判断出每个网格单元是否为密集网格单元,并在非密集网格单元中判断出聚类边界点和噪声点,避免将正常数据识别为噪声,提高了的噪声数据处理的精确度;连接相关联的密集网格单元构成聚类簇,由于面向网格单元进行聚类所以相较于传统算法更加高效。
Description
技术领域
本发明属于数据聚类技术领域,提供了一种出租车热点区域的提取方法。
背景技术
随着GPS(Global Positioning System,GPS)设备的广泛应用,大量移动 位置数据被记录,从GPS数据中提取的城市热点区域可以应用于旅游推荐、兴 趣点定位等基于位置的服务(Location Based Services,LBS)中,还可以为人 口迁移分布分析以及土地利用和规划等研究提供决策支持。但是出租车GPS位 置数据的数据量大且存在稀疏点,如何避免噪声影响以及高效挖掘城市热点区 域已成为急需解决的问题。
基于密度的噪声应用空间聚类(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)是一种经典的基于密度的算法,已经有一 些科学研究改进了该算法来挖掘城市热点区域。由于DBSCAN密度聚类方法 可以准确的提取位置数据集中高密度的点,被有效应用于热点区域中。为了探 究聚类簇对于道路网络结构影响,使用经典DBSCAN聚类算法对于里雅斯特 (意大利)市区进行了聚类分析,以便从位置点的“密集”地区更好地了解道 路网络的结构,但是该算法聚类结果是否对真实用户有意义没有经过系统的经 验评估。针对此问题,提出了一种改进的基于密度和连接的聚类算法DBSCAN算法DJ-Cluster,用于挖掘对于个人有意义的热点区域,并且通过收集真实用 户数据证明该算法具有实际意义,但是该方法仅考虑空间尺寸,而忽略了时间 序列特征。有学者将时空特性纳入考虑范围,使用线性插值填补不满足空间密 度和持续时间衡量标准的位置点,提出了一种考虑了时间标准和间隔DBSCAN 空间聚类算法检测城市热点区域。在计算GPS点的密度时,很多数基于聚类的 算法都会考虑给定距离内的GPS点数量,而不是考虑其相应的特征。有人使用 由距当前点一定距离内的点数来衡量密度的高斯函数,代替DBSCAN算法中 当前点的密度计算方法,提出基于混合特征DBSCAN聚类算法,该方法首先 定义了移动能力的新概念,聚类簇区域应具有较低的移动能力和较高的GPS点 密度,每个位置点将受到其他点的交互影响,可以获得更准确的聚类结果。但 是上述传统的基于密度的聚类方法在处理大量位置采样点数据时,直接在数据 点上执行聚类任务,计算量大,算法执行效率偏低。
发明内容
本发明提供了一种出租车热点区域的提取方法,旨在提高聚类效率及精准 度。
本发明是这样实现的,一种出租车热点区域的提取方法,所述方法具体包 括如下步骤:
S1、对于原始位置数据进行停留点的识别及过滤;
S2、对过滤后的位置数据进行网格映射形成网格单元,识别网格单元中的 密集网格单元及非密集网格单元;
S3、识别非密集网格单元中的次密集网格单元及噪声网格单元;
S4、基于次密集网格单元与密集网格单元构成若干聚类簇,完成网格聚类, 即获取了出租车热点区域。
进一步的,所述停留点的识别并过滤具体如下:
定义出租车的停留事件及对应的停留时间;
基于停留点阈值来确定各停留点对应的停留地理范围;
基于停留时间对停留点进行停留事件的分类,过滤无用停留事件的相关停 留点。
进一步的,密集网格单元是指采样点密度大于或等于密度阈值的网格单元, 非密集网格单元是指采样点密度小于密度阈值的网格单元。
进一步的,次密集网格单元及噪声网格单元获取过程具体如下:
将与密集网格单元直接关联的非密集网格单元直接设置为次密集网格单元 一;
对于不与密集网格单元直接关联的非密集网格单元,则将网格中心点移动 到网格的数据中心点,且保持网格边长不变,形成新网格单元,重新计算新网 格单元的密度,若密度大于或等于密度阈值,则将新网格单元置为次密集网格 单元二,否则将该网格单元设置为噪声网格单元。
进一步的,次密集网格单元及密集网格单元组成聚类网格集,聚类簇的形 成方法具体如下:
S41、从聚类网格集中随机选择一个网格单元,所属的聚类标识为S;
S42、若随机选择的网格单元为密集网格单元,则直接执行步骤S45;
S43、若随机选择的网格单元为次密集网格单元一,则查找与该次密集网 格单元一直接关联的密集网格单元及次密集网格单元二,查找到的网格单元所 属聚类标识为S,执行步骤S45;
S44、若随机选择的网格单元为次密集网格单元二,则查找与之直接关联 的次密集网格单元一,查找到的网格单元所属聚类标识为S,再查找与该次密 集网格单元一直接关联的密集网格单元及次密集网格单元二,查找到的网格单 元所属聚类标识为S,执行步骤S45;
S45、以密集网格单元为中心进行下一层的深度遍历;
S46、基于指定的次序查找与之直接关联的下一个密集网格单元或次密集 网格单元一,查找到的网格单元所属聚类标识为S;
S47、若下一个网格单元为次密集网格单元一,则确定该次密集网格单元 一是否存在与之直接关联的次密集网格单元二,若存在,则将聚类标识S赋予 次密集网格单元二,若不存在,则返回上一层的密集网格单元,执行步骤S46, 若下一个网格单元为密集网格单元,执行步骤S45,直至遍历完毕,则生成一 个聚类簇。
本发明提出的出租车热点区域提取方法具有如下有益技术效果:
1)提出了基于停留点分类以及停留点阈值的过滤预处理算法,可以来避免 由于车辆停留而造成部分地区网格密度过高而导致的聚类结果不准确的问题;
2)将位置数据空间划分成矩形网格单元,根据所定义的密度阈值判断出每 个网格单元是否为密集网格单元,并在非密集网格单元中判断出聚类边界点和 噪声点,避免将正常数据识别为噪声,提高了的噪声数据处理的精确度;
3)连接相关联的密集网格单元构成聚类簇,由于面向网格单元进行聚类所 以相较于传统算法更加高效。
附图说明
图1为本发明实施例提供的出租车热点区域提取方法的流程图;
图2为本发明实施例提供的数据中心点与网格中心点计算示意图;
图3为本发明实施例提供的网格中心平移过程示意图;
图4为本发明实施例提供的聚类边界点的判断示意图;
图5为本发明实施例提供的聚类过程示意图;
图6为本发明实施例提供的停留点阈值对于单个网格单元密度的影响对比 图,其中(a)为1-10网格的对比图,(b)为11-20网格的对比图,(c)为 21-30网格的对比图,(d)为31-40网格的对比图;
图7为本发明实施例提供的聚类网格单元与原始位置点分布结合图,其中, (a)为DS1组实验数据图,(b)为DS2组实验数据图,(c)为DS3组实验 数据图,(d)为DS4组实验数据图;
图8为本发明实施例提供的算法执行时间对比图。
具体实施方式
下面对照附图,通过对实施例的描述,对本发明的具体实施方式作进一步 详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完 整、准确和深入的理解。
首先给出发明中部分术语的定义,
网格单元:给出一个n维空间D,将空间D中的每一维D1,D2,…,Dn分别 划分成m1,m2,m3,…,mn个区间,每个区间的边长相等,空间D就被划分成 m1*m2*m3*…*mn个网格单元。空间D的每一个网格单元di就可以表示成:
其中是网格单元di在Dj维上一个前闭后开的区间且满足 1≤j≤n,为该区间的左右端点,区间长度即为网格单元边长。由于发明 研究的是出租车位置采样点的聚类分析,这里的数据源是落于二维平面上,因 此这里的坐标空间维度n为2,因此网格单元可以形象化的表示为方形网格。
网格单元密度:划分空间之后,落入某个网格单元的数据点的数量就是该 网格单元的密度。设输入的数据点集为:
V={v1,v2,v3,…,vn} (3-2)
其中分别为区间的最小值和最大值。如果数据点在n个维度上均落 于一个网格单元di中,则该网格单元密度计数加1。在二维位置采样点集中,V 通常为经纬度点的集合,因此只需要判断每个采样点在经度、纬度两个指标上 是否落入对应网格单元的区间内即可进行密度计数。
网格中心点:网格单元的中心点是指每个网格单元最中间的一个位置点, 一个网格单元di的中心点:
其中分别为区间的最小值和最大值。其中在本发明的聚类研究中网格 数据维度为2,即经度和纬度。因此这里的n为2,网格单元di的中心点 gridci=(longitude,latitude),其中经度计算方式即为网格单元经度最小值与最大 值的平均值,纬度计算方式亦然。
数据中心点:指网格单元中包含的数据点的中心位置点,一个网格单元di中 有k个数据点V={v1,v2,v3,…,vk},则该网格单元的数据中心点:
根据上文网格中心点所述,本发明所使用的维度n为2,因此数据中心点 的形式化表示依旧为gridci=(longitude,latitude),其中经度计算方式为该网格单 元中所有数据点的经度平均值,纬度计算方式亦然。
直接关联网格单元:两个网格单元至少在一个维度上有交集,就称这两个 网格单元是直接关联。
图1为本发明实施例提供的出租车热点区域提取方法的流程图,该方法具 体包括如下步骤:
S1、对于原始位置数据进行停留点的识别并过滤;
原始位置数据集中会因为现实因素产生多余的停留点,比如在某些地点停 留等待客人,在路口停留等。但是位置传感器依旧会定时上传GPS信息造成该 区域采样点个数过多,这些停留的点会带来聚类结果的不准确,本发明提出了 停留点过滤的预处理方法;定义常见的出租车停留事件及其停留时间,本发明 提出了五种停留事件如表1所示,Δt表示停留时间,按照所定义停留事件,可 以对原始位置数据中的停留点进行分类和提取。
表1停留点类别与停留时间
此外,由于GPS定位会存在一些精度上的误差,即使在同一个地点两次上 传的经纬度也可能存在误差。因此,本发明提出停留点阈值来解决这种定位误 差。当从纬度的角度,停留点距离阈值取值为0.0001、0.001、0.01,根据全球 各地经纬网图,纬度1°的间隔长度都相等(因为所有经线的长度都相等),根 据经纬度计算相关距离标准,所对应的实际距离分别代表0.0111km、0.111km、 1.11km;
根据停留事件对出租车GPS数据集的不同类别停留点进行不同级别过滤 的数据预处理方法,更贴近真实世界,准确性更高,而且灵活性更强,可以个 性化设置。例如,将采样间隔定义在一分钟以内,并且经纬度基本不变化的采 样点,从数据集中提取和过滤过多的由于出租车等候红绿灯而造成停留点,可 以解决由于等候红绿灯而造成的网格单元密度过高导致聚类结果不准确的问题
S2、对过滤后的位置数据进行网格映射形成网格单元,识别网格单元中的 密集网格单元及非密集网格单元;
在过滤掉停留点的预处理阶段之后,本发明需要进行网格映射阶段,该阶 段主要任务是将原始位置点进行网格划分,并且计算对应的网格单元密度。
首先找到数据集中经纬度最小点作为原点,按照预先定义的网格单元边长 对整个数据空间划分网格单元。其次对所有网格进行筛选判断其是否为密集网 格,根据原始位置点的GPS坐标确定其属于哪一个具体的网格之中,计算采样 点个数来确定网格单元密度。对于网格内数据点密度大于或等于密度阈值的直 接判断为密集网格单元,否则为非密集网格单元。
S3、识别非密集网格单元中的次密集网格单元及噪声网格单元,次密集网 格单元包括:次密集网格单元一及次密集网格单元二;
现有的很多聚类方法直接将非密集单元设置为噪声点,这样会造成很多边 界点被当成噪音点,带来聚类结果的不准确。而本发明在通过进一步细化非密 集网格单元,找出包含边界数据的次密集网格单元及包括稀疏噪声数据的噪声 网格单元。
本发明将非密集单元分为两类:
一类是与密集网格单元直接关联的非密集网格,直接设置为次密集网格单 元一;另一类是不与密集单元直接关联的非密集网格单元,基于网格单元中心 平移法来区分出次密集网格单元二和噪声网格单元,该方法平移针对不与密集 网格单元关联的非密集网格单元,其中,网格单元中心平移过程具体如下:
将网格中心点移动到网格的数据中心点,且保持网格边长不变,形成新网 格单元,重新计算新网格单元密度,若密度大于或等于密度阈值,则将新网格 单元置为次密集网格单元二;若密度依旧小于密度阈值,则将该网格单设置为 噪声网格单元。
网格中心和数据中心的计算如图2所示,网格单元中心平移过程如图3所 示;图2中,实线方框为一个网格单元,该网格单元密度为3即其中有三个数 据采样点。网格中心点的计算方式为[(0+1)/2,(0+1)/2]=(0.5,0.5)。数据中心点即 三个黑色的数据采样点的横纵坐标平均值。图3表示了本发明网格单元移动过 程,首先以网格中心点p为中心的网格单元为初始网格单元,此时网格单元内 有三个数据采样点,网格单元的密度为3。在边界点判断过程中需要将网格中 心移动到p’点,即网格的数据中心点。此时构建出来的新网格单元包括了新的 四个采样点,因此网格单元的密度为7。
在经过以上网格移动过程后,重新计算新网格单元密度,如果满足密度阈 值,则将新网格单元置为次密集网格单元二,否则设置为噪声网格单元,噪声 网格单元内所有的采样点均为噪声数据,算法1详细描述了聚类边界点的判断 步骤,算法执行过程实例如图4所示。
图4中,网格边长设为1,密度阈值为3;网格单元划分好之后,根据网格 单元前闭后开原则和密度阈值,判断出编号为E、G的网格为密集网格单元, 编号为J、C、D、A、B、H、F、I的网格为非密集网格单元。由于网格单元B、 D、F、H与密集网格单元直接关联,所以将这些非密集网格单元设置成次密集 网格单元一。再对编号为C、J、A、I的网格单元进一步判断是否为次密集网 格单元二。如图中的虚线框所示,网格单元的中心点移动到数据中心点生成一 个新网格单元,重新计算网格密度,如果新网格单的密度大于或等于满足密度 阈值,则将新网格单元设为次密集网格单元二,如果密度小于密度阈值,则将 原来的网格单元设置为噪声网格单元,网格单元内的数据点作为“噪音”处理。 图4中编号为I的网格单元经过移动得到的新网格单元密度满足密度阈值,所 以I号网格单元用新网格单元代替,且被设置成次密集网格单元二;编号为C、 J、A的非密集网格单元经过移动之后的新网格单元不满足密度阈值,为噪音网 格单元,最终这些噪音网格单元中的数据点将被当做“噪音”处理。
S4、基于次密集网格单元与密集网格单元构成若干聚类簇,即完成网格聚 类。
次密集网格单元中的数据点为边界点,在边界点判断完成之后,需要进行 网格聚类,形成多个聚类簇。基于密集单元和次密集单元进行聚类,因此,将 密集单元和次密集单元均放入聚类网格集中,需要将聚类网格集中所有直接关 联网格单元聚类为一个簇,噪声点不参与聚类过程。
聚类过程采用深度优先的方式找出相关联的密集网格单元及次密集网格单 元,将这些关联的密集网格单元和次密集网格组合到同一个网格集合中,最后 将数据点映射到相应的聚类簇。密集网格单元聚类算法2伪代码描述如下:
实例如图5所示;假设从D网格单元开始遍历,D网格单元所属聚类编号 为1,E网格单元是与D网格单元直接关联的密集网格单元,E所属的聚类编 号也为1;以E网格单元为中心继续深度遍历,B网格单元是与E网格单元直 接关联的次密集网格单元一,B网格单元所属的聚类编号为1,退回到E网格 单元,F网格单元是与E网格单元直接关联次密集网格单元一,F网格单元所 属的聚类编号也为1,退回到E网格单元;G网格单元是与E网格单元直接关联的密集网格单元,G网格单元所属的聚类编号也为1,以G网格单元为中心 继续深度遍历,H网格单元是与G网格单元直接关联的次密集网单元一,H网 格单元的聚类编号也为1,I网格单元是与H网格单元直接关联的次密集网格 单元二,因此I网格单元的聚类编号也为1,完成1号聚类的网格单元在图中 以粗线网格标出,其中A、C、J网格单元中数据点为“噪音”数据。
本发明提出的出租车热点区域提取方法具有如下有益技术效果:
1)提出了基于停留点分类以及停留点阈值的过滤预处理算法,可以来避免 由于车辆停留而造成部分地区网格密度过高而导致的聚类结果不准确的问题;
2)将位置数据空间划分成矩形网格单元,根据所定义的密度阈值判断出每 个网格单元是否为密集网格单元,并在非密集网格单元中判断出聚类边界点和 噪声点,避免将正常数据识别为噪声,提高了的噪声数据处理的精确度;
3)连接相关联的密集网格单元构成聚类簇,由于面向网格单元进行聚类所 以相较于传统算法更加高效;
此外,通过在真实数据集的实验验证本发明所提出的出租车热点区域提取 方法不但减少了聚类的时间成本并且提高了聚类效果;
实验从原始T-drive位置数据集中随机截取了部分数据,生成数据量不同的 四组实验数据集,如表2所示。其中DS1为编号7、13的2组出租车位置数据, DS2为编号36、37、112、114的4组出租车位置数据,DS3为编号137、138、 140、231、267、351、419、427、501的9组出租车位置数据,DS4为编号3090、 8249、9174、9500、9837的5组出租车位置数据。
表2数据集采样点数量
实验环境为:Windows 10 64bit操作系统、Inter Core i5-5350U处理器、8G 内存,使用Visual C#语言实现,基于Mircrosoft Visual Studio 2015集成开发环 境和SQLServer 2014数据库上进行实验结果分析。
停留点过滤分析:由于定位误差,停留点的实际数据不一定完全不变,会 在小的定位不准确范围内变化,本发明定义了停留点阈值,来减少这种停留点 定位误差对聚类的影响,即在比较车辆移动的过程中允许停留点的位置在小范 围内偏移。
为了分析本发明实验数据集中停留点阈值的影响,我们对四个数据量不同 数据集上分析了停留点过滤预处理中停留点阈值的影响。根据表1中定义的停 留点事件,实验停留点时间设置如下:DS1停留时间15分钟,其余数据集停 留时间30分钟。
实验对比了原始数据在停留点阈值分别为0、0.0001、0.001、0.01时采样 点留存数量情况,结果如表3所示。
表3停留点过滤后的采样点留存
从表3可知四个数据集中均存在大量由于出租车停留产生的重复采样数据 点。当停留点阈值为0时,四组数据集均存在一些完全不移动的数据点,当停 留点阈值为0.0001、0.001、0.01时,停留点阈值增大时更多停留点被过滤,留 存点减少。停留点阈值分别为0、0.0001、0.001时的差别不大,但是为0.01时, 数据留存量受到较大的影响,尤其是DS3和DS4,去掉的点过多,不适合取这 样大的阈值。因此,停留点过滤过程中停留点阈值需要根据实际情况来判断和 确定。
根据表1分类,我们对本发明实验中的等待红绿灯、上下客、堵车、有事 暂停营业、停业休息五种停留点事件,分别在四个数据集上进行了分析,停留 点过滤时停留点阈值设置为0,在经纬度判断的时候是判断经纬度相差为0的 采样点,因此只针对基本不位移的车辆。实验结果如表4所示。
表4不同停留点事件分析结果
由表4可知,四组数据集中,停留时间小于30分钟的出租车停留点出现的 占据了大多数,这说明了停留事件主要由于等候红绿灯、上下客以及堵车造成, 有事暂停营业以及停业休息事件所过滤的停留点较少,从表4可知本文的停留 点事件定义的方法考虑了真实场景,这种停留点过滤的预处理方法更符合实际、 更准确。
网格映射分析:在DS3数据集上分析了停留点阈值对于单个网格单元密度 的影响,实验网格单元一共有137个,1-40号网格单元实验结果如图6所示, 为横坐标为网格单元编号,纵坐标表示网格映射后每个网格单元内的轨迹采样 点个数,其中,(a)为1-10号网格,(b)为11-20号网格,(c)为21-30号网格, (d)为31-40号网格,是判断网格单元是否密集的根据。
由图6可以看出在随着停留点阈值的增加,为0、0.0001、0.001、0.01时, 每个网格单元的密度呈现减少趋势,这说明在网格映射阶段停留点阈值与网格 单元密度为反比关系,而密度的减少表示聚类过程中可用数据采样点的减少。
同时可以看出在停留点取值为0.01时,大部分网格单元密度较其他 取值下降的更快,而网格单元密度作为聚类中重要的衡量指标,直接关 系到该网格单元是否为密集网格单元。密度下降过快会导致在后续聚类 过程中,没有足够的网格单元符合密集网格的判断标准,使得可用的聚 类网格过少,而影响聚类结果。因此,本发明停留点阈值不适合取0.01 这样较大的值。
密集网格聚类结果可视分析:本组实验在预处理阶段,设置停留点 阈值为0,设置DS1堵车停留时间Δt为15分钟以内,设置DS2、DS3、 DS4堵车的停留时间Δt为30分钟以内。在网格映射阶段中为了呈现不同 的网格边长对于聚类结果的影响,DS1和DS4网格边长设置为0.01, DS2和DS3网格边长设置为0.05。网格单元密度阈值设置为10,即当 某网格单元中采样点数目为10时,判断为密集网格单元。
本发明密集网格聚类的直观可视化结果如图7所示。图7为密集网 格单元与原始位置点分布结合图,该图首先以前景色显示出由密集网格 单元构成的聚类簇,其次再以背景色的形式显示出数据采样点分布。位 于聚类簇中密集网格单元的数据采样点的为该簇内数据点,不存在于任 意网格单元内的采样点为稀疏噪声点。
图7中浅灰色点为数据采样点,即过滤停留点后不同数据集中位置 点的分布,黑色和深灰色点表示聚类簇网格点。由于本组实验网格单元 边长已给出,再根据任意一个网格端点即可唯一确定该网格单元,因此 为了简化图形显示,用网格单元左下方的端点表示网格单元
图7表明本发明聚类方法可以有效判断出稀疏的噪声点。例如,在 7(b)图DS2结果中,北纬115.5-116.1度,东经39.7-40.05度存在大量 的稀疏点,没有将其包含于任意聚类簇中。而且,在其他数据集实验结 果也表明类似的稀疏点没有对聚类结果造成影响。例如,图7(a)DS1聚 类结果中,两个聚类簇周边以及联合处的采样点等。同时,图7(a)-(d) 四组实验结果表明,本文方法可以精准的判断采样点高密度区域的聚类 簇,代表着出租车分布的高密度区域,对城市热点区域提取有着较高的 价值。
图7中还显示了网格单元边长对于网格映射的影响,图7(a)和(d)中, DS1和DS4的网格单元较密集,图7(b)和(c)中,DS2和DS3的网格单 元较稀疏,这是因为DS1和DS4网格边长设置为0.01而DS2和DS3为 0.05。这四组数据均采集于北京市出租车,因此数据空间变化不大,是 网格边长不一样导致的网格密集和稀疏程度不同。
本发明将基于停留点与网格密度聚类算法与基于混合特征 DBSCAN聚类算法(Hybrid Feature based DBSCAN,HF_DBSCAN)、基于 参数选择的DBSCAN聚类算法(Effective Parameter Selection Process for the DBSCAN,PS_DBSCAN)进行了比较。
(1)HF_DBSCAN算法:HF_DBSCAN是Luo等人在2017年提出 的一种基于改进DBSCAN的算法。DBSCAN是一种经典的基于密度的 算法,用于发现空间中的高密度区域,并且已经提出了该算法的不同衍 生方法来找到轨迹的城市热点区域,DBSCAN算法中当前点的密度由距 当前点一定距离内的点数来衡,HF_DBSCAN算法采用高斯函数来作为 点的密度,计算方法如下:
其中pi(i=1,2,3...,n)表示轨迹点,dij表示轨迹点pi,pj之间的欧式距 离,σ1表示标准偏差。本文实验中标准偏差取值为0.3。
(2)PS_DBSCAN算法:PS_DBSCAN是Huang等人在2019年在 ACM Trans上提出的一种改进算法,针对原始DBSCAN算法在选择半 径长度和密度阈值两个参数上没有一个严格的指标确定导致了聚类结果 不准确,作者改进了这两组参数的确定方法,步骤如下:首先,确定一 个较大的半径长度,然后,逐步减小半径长度,并且观察每一组半径长 度下聚类簇数量与密度阈值的对比结果,找到随着密度阈值上升时聚类 簇数量刚好降低时的密度阈值,将其设置为该组半径长度下合适的密度 阈值。并且,最后一组出现上述变化的密度阈值为最终的取值。在上一 步中得到的合适密度阈值下观察聚类簇数量与半径长度的对比结果,对 应于聚类簇数量较大的半径长度为合适取值。
本发明先在DS4数据集,按照PS_DBSCAN算法中的参数选择方法 实验,找出合适的半径长度和密度阈值。首先确定一个较大的半径长度 0.025,随后依次减少为0.01、0.005。这三组半径长度下密度阈值与聚类 簇数量的变化对比结果如下表5-7所示。
表7半径长度=0.025
首先判断三组数据中密度阈值增加而聚类簇数量下降的有三组:半 径长度0.005密度阈值60、半径长度0.01密度阈值110、半径长度0.025 密度阈值150。这三组数据中密度阈值150最大,是最后变化的关键值, 因此作为合适的密度阈值参数。
随后判断三组数据中密度阈值为150的数据有:半径长度0.025下 的密度阈值150其聚类簇数量为4、半径长度0.005下的密度阈值150 其聚类簇数量为3、半径长度0.025下的密度阈值150其聚类簇数量为7。 因此可以得到基于参数选择的DBSCAN算法在DS4下的合适半径长度 为0.025,密度阈值为150。同理可得DS1、DS2、DS3的合适半径长度 均为0.005、0.025、0.025,密度阈值分别为10、30、50。
聚类精确度对比分析
本发明与HF_DBSCAN和PS_DBSCAN在四组数据集聚类结果实 验如表5-7所示。表中属性No表示聚类的编号,m表示聚类簇中数据 点的个数,Longitude、Latitude是该聚类簇的聚类中心坐标,即该聚类 中所有点到该点的距离和最小;LoadLength表示该聚类的聚集距离,所 有点到聚类中心的距离和。其计算公式如下:
Loadlength=∑p∈cluster dis(p,center) (3-9)
其中p表示该聚类簇cluster中的簇内元素,center表示该簇的聚类 中心即Longitude、Latitude坐标。Avg则表示每个点的平均聚集距离, 计算方式如下:
No值代表聚类簇的个数,m代表了簇中点的个数,m越大,说明 参与聚类的点越多,舍弃的噪声点越少。Avg代表簇中点多平均密集程 度,Avg越大,说明簇中点越密集。若聚类簇中点越多,而且越密集, 则每个簇的聚集效果越好。
表8 DS1数据集下本文算法的聚类结果
表9 DS1数据集下HF_DBSCAN聚类结果
表10 DS1数据集下PS_DBSCAN的聚类结果
表11 DS2数据集下本文算法的聚类结果
表12 DS2数据集下HF_DBSCAN聚类结果
表13 DS2数据集下PS_DBSCAN聚类结果
表14 DS3数据集下本文算法的聚类结果
表15 DS3数据集下HF_DBSCAN聚类结果
表16 DS3数据集下PS_DBSCAN聚类结果
表17 DS4数据集下本文算法的聚类结果
表18 DS4数据集下HF_DBSCAN聚类结果
表19 DS4数据集下PS_DBSCAN聚类结果
表8-10显示,DS1数据集下本文算法和PS_DBSCAN算法在m值 比HF_DBSCAN算法少,说明了在小规模数据集中,本文算法和 PS_DBSCAN算法会存在较多的聚类采样点丢失。其次,该组表 LoadLength以及Avg值显示HF_DBSCAN算法产生的聚类簇簇内距离 较大,说明其在聚类精确度质量上不如本文算法和PS_DBSCAN算法。 在DS2、DS3、DS4数据集下三种算法的m值相差不大,说明了三组算 法在聚类结果采样点数量上基本一致,表8-13显示,本文算法在LoadLength以及Avg指标上较对比算法高一些,说明了簇内距离上本文 算法聚类精确度结果差一些,这是因为本文聚类的网格映射过程会带来 一定的精度损失。
表8-19显示,HF_DBSCAN算法虽然产生了较多的簇,但是大部分 簇内点稀疏、元素个数较少,而本文聚类算法和PS_DBSCAN算法聚类 的簇中数据结果较为均匀。例如,表3.14-3.16显示,本文聚类方法和 PS_DBSCAN算法分别产生2、3个聚类簇而HF_DBSCAN算法产生了 9个聚类簇,但是根据m值可知,HF_DBSCAN算法簇编号为2、3、4、 5、6、7、9的聚类簇仅有一个数据点,这一类实验数据可以作为噪声而 被剔除或者归并到其他聚类簇中,在其他数据及上也有类似的结果,说 明本文聚类算法和PS_DBSCAN算法形成的簇更加合理、均衡、稳定。 但是在PS_DBSCAN算法中,通过对参数进行了调优选择使得其聚类结 果较为均匀,算法实现相对复杂。因此,本文在形成合理的簇时,实现 起来更简单、高效。
综上,在聚类效果上,对比PS_DBSCAN算法,本文算法更简单, 丢弃的噪声点更少,对比HF_DBSCAN算法,本文方法形成的簇更加均 匀、合理。
运行时间对比分析:实验还对比分析了本文算法与HF_DBSCAN以 及PS_DBSCAN算法执行时间,在四组数据集上的实验结果如图8所示。
图8表明本文聚类算法在处理相同规模数据集时的运行时间消耗远 远低于对比算法。并且随着数据对象集中的数量不断增加,对比算法的 运行时间急剧增加,本文以网格单元为运行单位的基于网格与密度聚类 算法运行时间增加幅度远远小于对比算法,这表明本文算法在处理大规 模数据集时比对比算法更有优势。
这是因为本算法采用了网格聚类算法划分网格的方法,使得处理的 对象不是数据点,而是划分后的网格单元,而基于改进DBSCAN聚类 算法是对数据对象进行操作,所以本实验聚类算法大大缩减了算法的运 行时间,使得算法的效率高于HF_DBSCAN和PS_DBSCAN算法;
本实验以网格单元为单位进行聚类,空间被划分后的网格单元的个 数和非密集单元的数量也会影响了本实验的效率,同时对非密集网格单 元进行进一步判断也需要消耗额外的计算影响时间效率,但是综合效率 依旧明显优于对比算法。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并 不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的 各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用 于其它场合的,均在本发明的保护范围之内。
Claims (5)
1.一种出租车热点区域的提取方法,其特征在于,所述方法具体包括如下步骤:
S1、对于原始位置数据进行停留点的识别及过滤;
S2、对过滤后的位置数据进行网格映射形成网格单元,识别网格单元中的密集网格单元及非密集网格单元;
S3、识别非密集网格单元中的次密集网格单元及噪声网格单元;
S4、基于次密集网格单元与密集网格单元构成若干聚类簇,即完成网格聚类。
2.如权利要求1所述出租车热点区域的提取方法,其特征在于,所述停留点的识别并过滤具体如下:
定义出租车的停留事件及对应的停留时间;
基于停留点阈值来确定各停留点对应的停留地理范围;
基于停留时间对停留点进行停留事件的分类,过滤无用停留事件的相关停留点。
3.如权利要求1所述出租车热点区域的提取方法,其特征在于,密集网格单元是指采样点密度大于或等于密度阈值的网格单元,非密集网格单元是指采样点密度小于密度阈值的网格单元。
4.如权利要求1所述出租车热点区域的提取方法,其特征在于,次密集网格单元及噪声网格单元获取过程具体如下:
将与密集网格单元直接关联的非密集网格单元直接设置为次密集网格单元一;
对于不与密集网格单元直接关联的非密集网格单元,则将网格中心点移动到网格的数据中心点,且保持网格边长不变,形成新网格单元,重新计算新网格单元的密度,若密度大于或等于密度阈值,则将新网格单元置为次密集网格单元二,否则将该网格单元设置为噪声网格单元。
5.如权利要求1所述出租车热点区域的提取方法,其特征在于,次密集网格单元及密集网格单元组成聚类网格集,聚类簇的形成方法具体如下:
S41、从聚类网格集中随机选择一个网格单元,所属的聚类标识为S;
S42、若随机选择的网格单元为密集网格单元,则直接执行步骤S45;
S43、若随机选择的网格单元为次密集网格单元一,则查找与该次密集网格单元一直接关联的密集网格单元及次密集网格单元二,查找到的网格单元所属聚类标识为S,执行步骤S45;
S44、若随机选择的网格单元为次密集网格单元二,则查找与之直接关联的次密集网格单元一,查找到的网格单元所属聚类标识为S,再查找与该次密集网格单元一直接关联的密集网格单元及次密集网格单元二,查找到的网格单元所属聚类标识为S,执行步骤S45;
S45、以密集网格单元为中心进行下一层的深度遍历;
S46、基于指定的次序查找与之直接关联的下一个密集网格单元或次密集网格单元一,查找到的网格单元所属聚类标识为S;
S47、若下一个网格单元为次密集网格单元一,则确定该次密集网格单元一是否存在与之直接关联的次密集网格单元二,若存在,则将聚类标识S赋予次密集网格单元二,若不存在,则返回上一层的密集网格单元,执行步骤S46,若下一个网格单元为密集网格单元,执行步骤S45,直至遍历完毕,则生成一个聚类簇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010450369.8A CN111710157B (zh) | 2020-05-25 | 2020-05-25 | 一种出租车热点区域的提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010450369.8A CN111710157B (zh) | 2020-05-25 | 2020-05-25 | 一种出租车热点区域的提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111710157A true CN111710157A (zh) | 2020-09-25 |
CN111710157B CN111710157B (zh) | 2021-06-08 |
Family
ID=72537932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010450369.8A Active CN111710157B (zh) | 2020-05-25 | 2020-05-25 | 一种出租车热点区域的提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111710157B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131149A (zh) * | 2023-10-26 | 2023-11-28 | 四川国蓝中天环境科技集团有限公司 | 一种基于运渣车gps轨迹的土石方点位和运输网络识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104167092A (zh) * | 2014-07-30 | 2014-11-26 | 北京市交通信息中心 | 一种确定出租车上下客热点区域中心的方法以及装置 |
CN107481511A (zh) * | 2017-08-16 | 2017-12-15 | 深圳先进技术研究院 | 一种计算候选公交站点的方法及系统 |
CN110728305A (zh) * | 2019-09-16 | 2020-01-24 | 南京信息工程大学 | 基于网格信息熵聚类算法的出租车载客热点区域挖掘方法 |
-
2020
- 2020-05-25 CN CN202010450369.8A patent/CN111710157B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104167092A (zh) * | 2014-07-30 | 2014-11-26 | 北京市交通信息中心 | 一种确定出租车上下客热点区域中心的方法以及装置 |
CN107481511A (zh) * | 2017-08-16 | 2017-12-15 | 深圳先进技术研究院 | 一种计算候选公交站点的方法及系统 |
CN110728305A (zh) * | 2019-09-16 | 2020-01-24 | 南京信息工程大学 | 基于网格信息熵聚类算法的出租车载客热点区域挖掘方法 |
Non-Patent Citations (4)
Title |
---|
吕绍仟,等: "基于轨迹结构的移动对象热点区域发现", 《计算机应用》 * |
桂智明,等: "基于出租车轨迹的并行城市热点区域发现", 《华中科技大学学报(自然科学版)》 * |
韩利钊,等: "基于区域划分的DBSCAN多密度聚类算法", 《计算机应用研究》 * |
黄子赫,等: "基于快速密度聚类的载客热点可视化分析方法", 《系统仿真学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131149A (zh) * | 2023-10-26 | 2023-11-28 | 四川国蓝中天环境科技集团有限公司 | 一种基于运渣车gps轨迹的土石方点位和运输网络识别方法 |
CN117131149B (zh) * | 2023-10-26 | 2024-01-23 | 四川国蓝中天环境科技集团有限公司 | 一种基于运渣车gps轨迹的土石方点位和运输网络识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111710157B (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959466B (zh) | 基于bcs-dbscan的出租车载客热点可视化方法及系统 | |
CN111651545A (zh) | 一种基于多源数据融合的城市边缘区提取方法 | |
WO2016141753A1 (zh) | 基于路网和兴趣点的声环境功能区划分方法 | |
CN111489008B (zh) | 一种交通事故影响因素空间效应分析方法及其应用 | |
CN108427965A (zh) | 一种基于路网聚类的热点区域挖掘方法 | |
CN110555544B (zh) | 一种基于gps导航数据的交通需求估计方法 | |
CN110836675B (zh) | 一种基于决策树的自动驾驶搜索决策方法 | |
CN111652198B (zh) | 一种城市边缘区识别方法及系统 | |
CN102163214A (zh) | 一种数字地图生成装置及方法 | |
CN106845536B (zh) | 一种基于图像缩放的并行聚类方法 | |
CN114238542A (zh) | 多源交通gis路网多层级实时融合更新方法 | |
CN116013084B (zh) | 交通管控场景确定方法、装置、电子设备及存储介质 | |
CN111984701A (zh) | 乡村聚落演化的预测方法、装置、设备及存储介质 | |
CN108038734B (zh) | 基于点评数据的城市商业设施空间分布探测方法及系统 | |
CN111814528B (zh) | 一种连通性分析的夜光影像城市等级分类方法 | |
CN112365595A (zh) | 基于报警数据点要素的鉴别交通事故多发点的分析方法 | |
CN114661393B (zh) | 基于流动人口数据特征聚类的城市集聚效应可视分析方法 | |
CN110659774B (zh) | 大数据方法驱动的停车需求预测方法 | |
CN111710157B (zh) | 一种出租车热点区域的提取方法 | |
CN117036939A (zh) | 一种基于图卷积网络的多源数据协同的城市功能区识别方法 | |
CN112559909B (zh) | 一种基于gcn嵌入空间聚类模型的商业区发现方法 | |
CN112052405B (zh) | 一种基于司机经验的寻客区域推荐方法 | |
CN106815320B (zh) | 基于拓展三维直方图的调研大数据可视化建模方法及系统 | |
Hu et al. | An effective selecting approach for social media big data analysis—Taking commercial hotspot exploration with Weibo check-in data as an example | |
CN116957280A (zh) | 基于供需平衡的山地村镇社区生活圈公服设施配置方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |