CN111710157A

CN111710157A - 一种出租车热点区域的提取方法

Info

Publication number: CN111710157A
Application number: CN202010450369.8A
Authority: CN
Inventors: 汪小寒; 罗永龙; 张泽培; 何增宇; 胡王悟
Original assignee: Anhui Normal University
Current assignee: Anhui Normal University
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-09-25
Anticipated expiration: 2040-05-25
Also published as: CN111710157B

Abstract

本发明公开了一种出租车热点区域的提取方法，所述方法具体包括如下步骤：S1、对于原始位置数据进行停留点的识别及过滤；S2、对过滤后的位置数据进行网格映射形成网格单元，识别网格单元中的密集网格单元及非密集网格单元；S3、识别非密集网格单元中的次密集网格单元及噪声网格单元；S4、基于次密集网格单元与密集网格单元构成若干聚类簇，即完成网格聚类。将位置数据空间划分成矩形网格单元，根据所定义的密度阈值判断出每个网格单元是否为密集网格单元，并在非密集网格单元中判断出聚类边界点和噪声点，避免将正常数据识别为噪声，提高了的噪声数据处理的精确度；连接相关联的密集网格单元构成聚类簇，由于面向网格单元进行聚类所以相较于传统算法更加高效。

Description

一种出租车热点区域的提取方法

技术领域

本发明属于数据聚类技术领域，提供了一种出租车热点区域的提取方法。

背景技术

随着GPS(Global Positioning System，GPS)设备的广泛应用，大量移动位置数据被记录，从GPS数据中提取的城市热点区域可以应用于旅游推荐、兴趣点定位等基于位置的服务(Location Based Services，LBS)中，还可以为人口迁移分布分析以及土地利用和规划等研究提供决策支持。但是出租车GPS位置数据的数据量大且存在稀疏点，如何避免噪声影响以及高效挖掘城市热点区域已成为急需解决的问题。

基于密度的噪声应用空间聚类(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)是一种经典的基于密度的算法，已经有一些科学研究改进了该算法来挖掘城市热点区域。由于DBSCAN密度聚类方法可以准确的提取位置数据集中高密度的点，被有效应用于热点区域中。为了探究聚类簇对于道路网络结构影响，使用经典DBSCAN聚类算法对于里雅斯特 (意大利)市区进行了聚类分析，以便从位置点的“密集”地区更好地了解道路网络的结构，但是该算法聚类结果是否对真实用户有意义没有经过系统的经验评估。针对此问题，提出了一种改进的基于密度和连接的聚类算法DBSCAN算法DJ-Cluster，用于挖掘对于个人有意义的热点区域，并且通过收集真实用户数据证明该算法具有实际意义，但是该方法仅考虑空间尺寸，而忽略了时间序列特征。有学者将时空特性纳入考虑范围，使用线性插值填补不满足空间密度和持续时间衡量标准的位置点，提出了一种考虑了时间标准和间隔DBSCAN 空间聚类算法检测城市热点区域。在计算GPS点的密度时，很多数基于聚类的算法都会考虑给定距离内的GPS点数量，而不是考虑其相应的特征。有人使用由距当前点一定距离内的点数来衡量密度的高斯函数，代替DBSCAN算法中当前点的密度计算方法，提出基于混合特征DBSCAN聚类算法，该方法首先定义了移动能力的新概念，聚类簇区域应具有较低的移动能力和较高的GPS点密度，每个位置点将受到其他点的交互影响，可以获得更准确的聚类结果。但是上述传统的基于密度的聚类方法在处理大量位置采样点数据时，直接在数据点上执行聚类任务，计算量大，算法执行效率偏低。

发明内容

本发明提供了一种出租车热点区域的提取方法，旨在提高聚类效率及精准度。

本发明是这样实现的，一种出租车热点区域的提取方法，所述方法具体包括如下步骤：

S1、对于原始位置数据进行停留点的识别及过滤；

S2、对过滤后的位置数据进行网格映射形成网格单元，识别网格单元中的密集网格单元及非密集网格单元；

S3、识别非密集网格单元中的次密集网格单元及噪声网格单元；

S4、基于次密集网格单元与密集网格单元构成若干聚类簇，完成网格聚类，即获取了出租车热点区域。

进一步的，所述停留点的识别并过滤具体如下：

定义出租车的停留事件及对应的停留时间；

基于停留点阈值来确定各停留点对应的停留地理范围；

基于停留时间对停留点进行停留事件的分类，过滤无用停留事件的相关停留点。

进一步的，密集网格单元是指采样点密度大于或等于密度阈值的网格单元，非密集网格单元是指采样点密度小于密度阈值的网格单元。

进一步的，次密集网格单元及噪声网格单元获取过程具体如下：

将与密集网格单元直接关联的非密集网格单元直接设置为次密集网格单元一；

对于不与密集网格单元直接关联的非密集网格单元，则将网格中心点移动到网格的数据中心点，且保持网格边长不变，形成新网格单元，重新计算新网格单元的密度，若密度大于或等于密度阈值，则将新网格单元置为次密集网格单元二，否则将该网格单元设置为噪声网格单元。

进一步的，次密集网格单元及密集网格单元组成聚类网格集，聚类簇的形成方法具体如下：

S41、从聚类网格集中随机选择一个网格单元，所属的聚类标识为S；

S42、若随机选择的网格单元为密集网格单元，则直接执行步骤S45；

S43、若随机选择的网格单元为次密集网格单元一，则查找与该次密集网格单元一直接关联的密集网格单元及次密集网格单元二，查找到的网格单元所属聚类标识为S，执行步骤S45；

S44、若随机选择的网格单元为次密集网格单元二，则查找与之直接关联的次密集网格单元一，查找到的网格单元所属聚类标识为S，再查找与该次密集网格单元一直接关联的密集网格单元及次密集网格单元二，查找到的网格单元所属聚类标识为S，执行步骤S45；

S45、以密集网格单元为中心进行下一层的深度遍历；

S46、基于指定的次序查找与之直接关联的下一个密集网格单元或次密集网格单元一，查找到的网格单元所属聚类标识为S；

S47、若下一个网格单元为次密集网格单元一，则确定该次密集网格单元一是否存在与之直接关联的次密集网格单元二，若存在，则将聚类标识S赋予次密集网格单元二，若不存在，则返回上一层的密集网格单元，执行步骤S46，若下一个网格单元为密集网格单元，执行步骤S45，直至遍历完毕，则生成一个聚类簇。

本发明提出的出租车热点区域提取方法具有如下有益技术效果：

1)提出了基于停留点分类以及停留点阈值的过滤预处理算法，可以来避免由于车辆停留而造成部分地区网格密度过高而导致的聚类结果不准确的问题；

2)将位置数据空间划分成矩形网格单元，根据所定义的密度阈值判断出每个网格单元是否为密集网格单元，并在非密集网格单元中判断出聚类边界点和噪声点，避免将正常数据识别为噪声，提高了的噪声数据处理的精确度；

3)连接相关联的密集网格单元构成聚类簇，由于面向网格单元进行聚类所以相较于传统算法更加高效。

附图说明

图1为本发明实施例提供的出租车热点区域提取方法的流程图；

图2为本发明实施例提供的数据中心点与网格中心点计算示意图；

图3为本发明实施例提供的网格中心平移过程示意图；

图4为本发明实施例提供的聚类边界点的判断示意图；

图5为本发明实施例提供的聚类过程示意图；

图6为本发明实施例提供的停留点阈值对于单个网格单元密度的影响对比图，其中(a)为1-10网格的对比图，(b)为11-20网格的对比图，(c)为 21-30网格的对比图，(d)为31-40网格的对比图；

图7为本发明实施例提供的聚类网格单元与原始位置点分布结合图，其中， (a)为DS1组实验数据图，(b)为DS2组实验数据图，(c)为DS3组实验数据图，(d)为DS4组实验数据图；

图8为本发明实施例提供的算法执行时间对比图。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明的具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

首先给出发明中部分术语的定义，

网格单元：给出一个n维空间D，将空间D中的每一维D₁,D₂,…,D_n分别划分成m₁,m₂,m₃，…,m_n个区间，每个区间的边长相等，空间D就被划分成 m₁*m₂*m₃*…*m_n个网格单元。空间D的每一个网格单元d_i就可以表示成：

其中

是网格单元d_i在D_j维上一个前闭后开的区间且满足 1≤j≤n，

为该区间的左右端点，区间长度即为网格单元边长。由于发明研究的是出租车位置采样点的聚类分析，这里的数据源是落于二维平面上，因此这里的坐标空间维度n为2，因此网格单元可以形象化的表示为方形网格。

网格单元密度：划分空间之后，落入某个网格单元的数据点的数量就是该网格单元的密度。设输入的数据点集为：

V＝{v₁,v₂,v₃,…,v_n} (3-2)

其中

其中

是数据点集V中数据点v_i在D_j维上的分量。如果一个数据点v_i在D_j维上落入一个网格单元d_i中，则需满足条件：

其中

分别为区间的最小值和最大值。如果数据点

在n个维度上均落于一个网格单元d_i中，则该网格单元密度计数加1。在二维位置采样点集中，V 通常为经纬度点的集合，因此只需要判断每个采样点在经度、纬度两个指标上是否落入对应网格单元的区间内即可进行密度计数。

网格中心点：网格单元的中心点是指每个网格单元最中间的一个位置点，一个网格单元d_i的中心点：

其中

为网格单元d_i在D_j维上的数学中心点，其计算公式为

其中

分别为区间的最小值和最大值。其中在本发明的聚类研究中网格数据维度为2，即经度和纬度。因此这里的n为2，网格单元d_i的中心点 gridc_i＝(longitude,latitude)，其中经度计算方式即为网格单元经度最小值与最大值的平均值，纬度计算方式亦然。

数据中心点：指网格单元中包含的数据点的中心位置点，一个网格单元d_i中有k个数据点V＝{v₁,v₂,v₃,…,v_k}，则该网格单元的数据中心点：

其中，

为k个数据点V在D_j维上的投影分量的算术平均值，其计算方式如下

根据上文网格中心点所述，本发明所使用的维度n为2，因此数据中心点的形式化表示依旧为gridc_i＝(longitude,latitude)，其中经度计算方式为该网格单元中所有数据点的经度平均值，纬度计算方式亦然。

直接关联网格单元：两个网格单元至少在一个维度上有交集，就称这两个网格单元是直接关联。

图1为本发明实施例提供的出租车热点区域提取方法的流程图，该方法具体包括如下步骤：

S1、对于原始位置数据进行停留点的识别并过滤；

原始位置数据集中会因为现实因素产生多余的停留点，比如在某些地点停留等待客人，在路口停留等。但是位置传感器依旧会定时上传GPS信息造成该区域采样点个数过多，这些停留的点会带来聚类结果的不准确，本发明提出了停留点过滤的预处理方法；定义常见的出租车停留事件及其停留时间，本发明提出了五种停留事件如表1所示，Δt表示停留时间，按照所定义停留事件，可以对原始位置数据中的停留点进行分类和提取。

表1停留点类别与停留时间

此外，由于GPS定位会存在一些精度上的误差，即使在同一个地点两次上传的经纬度也可能存在误差。因此，本发明提出停留点阈值来解决这种定位误差。当从纬度的角度，停留点距离阈值取值为0.0001、0.001、0.01，根据全球各地经纬网图，纬度1°的间隔长度都相等(因为所有经线的长度都相等)，根据经纬度计算相关距离标准，所对应的实际距离分别代表0.0111km、0.111km、 1.11km；

根据停留事件对出租车GPS数据集的不同类别停留点进行不同级别过滤的数据预处理方法，更贴近真实世界，准确性更高，而且灵活性更强，可以个性化设置。例如，将采样间隔定义在一分钟以内，并且经纬度基本不变化的采样点，从数据集中提取和过滤过多的由于出租车等候红绿灯而造成停留点，可以解决由于等候红绿灯而造成的网格单元密度过高导致聚类结果不准确的问题

在过滤掉停留点的预处理阶段之后，本发明需要进行网格映射阶段，该阶段主要任务是将原始位置点进行网格划分，并且计算对应的网格单元密度。

首先找到数据集中经纬度最小点作为原点，按照预先定义的网格单元边长对整个数据空间划分网格单元。其次对所有网格进行筛选判断其是否为密集网格，根据原始位置点的GPS坐标确定其属于哪一个具体的网格之中，计算采样点个数来确定网格单元密度。对于网格内数据点密度大于或等于密度阈值的直接判断为密集网格单元，否则为非密集网格单元。

S3、识别非密集网格单元中的次密集网格单元及噪声网格单元，次密集网格单元包括：次密集网格单元一及次密集网格单元二；

现有的很多聚类方法直接将非密集单元设置为噪声点，这样会造成很多边界点被当成噪音点，带来聚类结果的不准确。而本发明在通过进一步细化非密集网格单元，找出包含边界数据的次密集网格单元及包括稀疏噪声数据的噪声网格单元。

本发明将非密集单元分为两类：

一类是与密集网格单元直接关联的非密集网格，直接设置为次密集网格单元一；另一类是不与密集单元直接关联的非密集网格单元，基于网格单元中心平移法来区分出次密集网格单元二和噪声网格单元，该方法平移针对不与密集网格单元关联的非密集网格单元，其中，网格单元中心平移过程具体如下：

将网格中心点移动到网格的数据中心点，且保持网格边长不变，形成新网格单元，重新计算新网格单元密度，若密度大于或等于密度阈值，则将新网格单元置为次密集网格单元二；若密度依旧小于密度阈值，则将该网格单设置为噪声网格单元。

网格中心和数据中心的计算如图2所示，网格单元中心平移过程如图3所示；图2中，实线方框为一个网格单元，该网格单元密度为3即其中有三个数据采样点。网格中心点的计算方式为[(0+1)/2,(0+1)/2]＝(0.5,0.5)。数据中心点即三个黑色的数据采样点的横纵坐标平均值。图3表示了本发明网格单元移动过程，首先以网格中心点p为中心的网格单元为初始网格单元，此时网格单元内有三个数据采样点，网格单元的密度为3。在边界点判断过程中需要将网格中心移动到p’点，即网格的数据中心点。此时构建出来的新网格单元包括了新的四个采样点，因此网格单元的密度为7。

在经过以上网格移动过程后，重新计算新网格单元密度，如果满足密度阈值，则将新网格单元置为次密集网格单元二，否则设置为噪声网格单元，噪声网格单元内所有的采样点均为噪声数据，算法1详细描述了聚类边界点的判断步骤，算法执行过程实例如图4所示。

图4中，网格边长设为1，密度阈值为3；网格单元划分好之后，根据网格单元前闭后开原则和密度阈值，判断出编号为E、G的网格为密集网格单元，编号为J、C、D、A、B、H、F、I的网格为非密集网格单元。由于网格单元B、 D、F、H与密集网格单元直接关联，所以将这些非密集网格单元设置成次密集网格单元一。再对编号为C、J、A、I的网格单元进一步判断是否为次密集网格单元二。如图中的虚线框所示，网格单元的中心点移动到数据中心点生成一个新网格单元，重新计算网格密度，如果新网格单的密度大于或等于满足密度阈值，则将新网格单元设为次密集网格单元二，如果密度小于密度阈值，则将原来的网格单元设置为噪声网格单元，网格单元内的数据点作为“噪音”处理。图4中编号为I的网格单元经过移动得到的新网格单元密度满足密度阈值，所以I号网格单元用新网格单元代替，且被设置成次密集网格单元二；编号为C、 J、A的非密集网格单元经过移动之后的新网格单元不满足密度阈值，为噪音网格单元，最终这些噪音网格单元中的数据点将被当做“噪音”处理。

S4、基于次密集网格单元与密集网格单元构成若干聚类簇，即完成网格聚类。

次密集网格单元中的数据点为边界点，在边界点判断完成之后，需要进行网格聚类，形成多个聚类簇。基于密集单元和次密集单元进行聚类，因此，将密集单元和次密集单元均放入聚类网格集中，需要将聚类网格集中所有直接关联网格单元聚类为一个簇，噪声点不参与聚类过程。

聚类过程采用深度优先的方式找出相关联的密集网格单元及次密集网格单元，将这些关联的密集网格单元和次密集网格组合到同一个网格集合中，最后将数据点映射到相应的聚类簇。密集网格单元聚类算法2伪代码描述如下:

实例如图5所示；假设从D网格单元开始遍历，D网格单元所属聚类编号为1，E网格单元是与D网格单元直接关联的密集网格单元，E所属的聚类编号也为1；以E网格单元为中心继续深度遍历，B网格单元是与E网格单元直接关联的次密集网格单元一，B网格单元所属的聚类编号为1，退回到E网格单元，F网格单元是与E网格单元直接关联次密集网格单元一，F网格单元所属的聚类编号也为1，退回到E网格单元；G网格单元是与E网格单元直接关联的密集网格单元，G网格单元所属的聚类编号也为1，以G网格单元为中心继续深度遍历，H网格单元是与G网格单元直接关联的次密集网单元一，H网格单元的聚类编号也为1，I网格单元是与H网格单元直接关联的次密集网格单元二，因此I网格单元的聚类编号也为1，完成1号聚类的网格单元在图中以粗线网格标出，其中A、C、J网格单元中数据点为“噪音”数据。

3)连接相关联的密集网格单元构成聚类簇，由于面向网格单元进行聚类所以相较于传统算法更加高效；

此外，通过在真实数据集的实验验证本发明所提出的出租车热点区域提取方法不但减少了聚类的时间成本并且提高了聚类效果；

实验从原始T-drive位置数据集中随机截取了部分数据，生成数据量不同的四组实验数据集，如表2所示。其中DS1为编号7、13的2组出租车位置数据， DS2为编号36、37、112、114的4组出租车位置数据，DS3为编号137、138、 140、231、267、351、419、427、501的9组出租车位置数据，DS4为编号3090、 8249、9174、9500、9837的5组出租车位置数据。

表2数据集采样点数量

实验环境为：Windows 10 64bit操作系统、Inter Core i5-5350U处理器、8G 内存，使用Visual C#语言实现，基于Mircrosoft Visual Studio 2015集成开发环境和SQLServer 2014数据库上进行实验结果分析。

停留点过滤分析：由于定位误差，停留点的实际数据不一定完全不变，会在小的定位不准确范围内变化，本发明定义了停留点阈值，来减少这种停留点定位误差对聚类的影响，即在比较车辆移动的过程中允许停留点的位置在小范围内偏移。

为了分析本发明实验数据集中停留点阈值的影响，我们对四个数据量不同数据集上分析了停留点过滤预处理中停留点阈值的影响。根据表1中定义的停留点事件，实验停留点时间设置如下：DS1停留时间15分钟，其余数据集停留时间30分钟。

实验对比了原始数据在停留点阈值分别为0、0.0001、0.001、0.01时采样点留存数量情况，结果如表3所示。

表3停留点过滤后的采样点留存

从表3可知四个数据集中均存在大量由于出租车停留产生的重复采样数据点。当停留点阈值为0时，四组数据集均存在一些完全不移动的数据点，当停留点阈值为0.0001、0.001、0.01时，停留点阈值增大时更多停留点被过滤，留存点减少。停留点阈值分别为0、0.0001、0.001时的差别不大，但是为0.01时，数据留存量受到较大的影响，尤其是DS3和DS4，去掉的点过多，不适合取这样大的阈值。因此，停留点过滤过程中停留点阈值需要根据实际情况来判断和确定。

根据表1分类，我们对本发明实验中的等待红绿灯、上下客、堵车、有事暂停营业、停业休息五种停留点事件，分别在四个数据集上进行了分析，停留点过滤时停留点阈值设置为0，在经纬度判断的时候是判断经纬度相差为0的采样点，因此只针对基本不位移的车辆。实验结果如表4所示。

表4不同停留点事件分析结果

由表4可知，四组数据集中，停留时间小于30分钟的出租车停留点出现的占据了大多数，这说明了停留事件主要由于等候红绿灯、上下客以及堵车造成，有事暂停营业以及停业休息事件所过滤的停留点较少，从表4可知本文的停留点事件定义的方法考虑了真实场景，这种停留点过滤的预处理方法更符合实际、更准确。

网格映射分析：在DS3数据集上分析了停留点阈值对于单个网格单元密度的影响，实验网格单元一共有137个，1-40号网格单元实验结果如图6所示，为横坐标为网格单元编号，纵坐标表示网格映射后每个网格单元内的轨迹采样点个数，其中，(a)为1-10号网格，(b)为11-20号网格，(c)为21-30号网格， (d)为31-40号网格，是判断网格单元是否密集的根据。

由图6可以看出在随着停留点阈值的增加，为0、0.0001、0.001、0.01时，每个网格单元的密度呈现减少趋势，这说明在网格映射阶段停留点阈值与网格单元密度为反比关系，而密度的减少表示聚类过程中可用数据采样点的减少。

同时可以看出在停留点取值为0.01时，大部分网格单元密度较其他取值下降的更快，而网格单元密度作为聚类中重要的衡量指标，直接关系到该网格单元是否为密集网格单元。密度下降过快会导致在后续聚类过程中，没有足够的网格单元符合密集网格的判断标准，使得可用的聚类网格过少，而影响聚类结果。因此，本发明停留点阈值不适合取0.01 这样较大的值。

密集网格聚类结果可视分析：本组实验在预处理阶段，设置停留点阈值为0，设置DS1堵车停留时间Δt为15分钟以内，设置DS2、DS3、 DS4堵车的停留时间Δt为30分钟以内。在网格映射阶段中为了呈现不同的网格边长对于聚类结果的影响，DS1和DS4网格边长设置为0.01， DS2和DS3网格边长设置为0.05。网格单元密度阈值设置为10，即当某网格单元中采样点数目为10时，判断为密集网格单元。

本发明密集网格聚类的直观可视化结果如图7所示。图7为密集网格单元与原始位置点分布结合图，该图首先以前景色显示出由密集网格单元构成的聚类簇，其次再以背景色的形式显示出数据采样点分布。位于聚类簇中密集网格单元的数据采样点的为该簇内数据点，不存在于任意网格单元内的采样点为稀疏噪声点。

图7中浅灰色点为数据采样点，即过滤停留点后不同数据集中位置点的分布，黑色和深灰色点表示聚类簇网格点。由于本组实验网格单元边长已给出，再根据任意一个网格端点即可唯一确定该网格单元，因此为了简化图形显示，用网格单元左下方的端点表示网格单元

图7表明本发明聚类方法可以有效判断出稀疏的噪声点。例如，在 7(b)图DS2结果中，北纬115.5-116.1度，东经39.7-40.05度存在大量的稀疏点，没有将其包含于任意聚类簇中。而且，在其他数据集实验结果也表明类似的稀疏点没有对聚类结果造成影响。例如，图7(a)DS1聚类结果中，两个聚类簇周边以及联合处的采样点等。同时，图7(a)-(d) 四组实验结果表明，本文方法可以精准的判断采样点高密度区域的聚类簇，代表着出租车分布的高密度区域，对城市热点区域提取有着较高的价值。

图7中还显示了网格单元边长对于网格映射的影响，图7(a)和(d)中， DS1和DS4的网格单元较密集，图7(b)和(c)中，DS2和DS3的网格单元较稀疏，这是因为DS1和DS4网格边长设置为0.01而DS2和DS3为 0.05。这四组数据均采集于北京市出租车，因此数据空间变化不大，是网格边长不一样导致的网格密集和稀疏程度不同。

本发明将基于停留点与网格密度聚类算法与基于混合特征 DBSCAN聚类算法(Hybrid Feature based DBSCAN,HF_DBSCAN)、基于参数选择的DBSCAN聚类算法(Effective Parameter Selection Process for the DBSCAN,PS_DBSCAN)进行了比较。

(1)HF_DBSCAN算法：HF_DBSCAN是Luo等人在2017年提出的一种基于改进DBSCAN的算法。DBSCAN是一种经典的基于密度的算法，用于发现空间中的高密度区域，并且已经提出了该算法的不同衍生方法来找到轨迹的城市热点区域，DBSCAN算法中当前点的密度由距当前点一定距离内的点数来衡，HF_DBSCAN算法采用高斯函数来作为点的密度，计算方法如下：

其中p_i(i＝1，2，3...，n)表示轨迹点，d_ij表示轨迹点p_i，p_j之间的欧式距离，σ₁表示标准偏差。本文实验中标准偏差取值为0.3。

(2)PS_DBSCAN算法：PS_DBSCAN是Huang等人在2019年在 ACM Trans上提出的一种改进算法，针对原始DBSCAN算法在选择半径长度和密度阈值两个参数上没有一个严格的指标确定导致了聚类结果不准确，作者改进了这两组参数的确定方法，步骤如下：首先，确定一个较大的半径长度，然后，逐步减小半径长度，并且观察每一组半径长度下聚类簇数量与密度阈值的对比结果，找到随着密度阈值上升时聚类簇数量刚好降低时的密度阈值，将其设置为该组半径长度下合适的密度阈值。并且，最后一组出现上述变化的密度阈值为最终的取值。在上一步中得到的合适密度阈值下观察聚类簇数量与半径长度的对比结果，对应于聚类簇数量较大的半径长度为合适取值。

本发明先在DS4数据集，按照PS_DBSCAN算法中的参数选择方法实验，找出合适的半径长度和密度阈值。首先确定一个较大的半径长度 0.025，随后依次减少为0.01、0.005。这三组半径长度下密度阈值与聚类簇数量的变化对比结果如下表5-7所示。

表7半径长度＝0.025

首先判断三组数据中密度阈值增加而聚类簇数量下降的有三组：半径长度0.005密度阈值60、半径长度0.01密度阈值110、半径长度0.025 密度阈值150。这三组数据中密度阈值150最大，是最后变化的关键值，因此作为合适的密度阈值参数。

随后判断三组数据中密度阈值为150的数据有：半径长度0.025下的密度阈值150其聚类簇数量为4、半径长度0.005下的密度阈值150 其聚类簇数量为3、半径长度0.025下的密度阈值150其聚类簇数量为7。因此可以得到基于参数选择的DBSCAN算法在DS4下的合适半径长度为0.025，密度阈值为150。同理可得DS1、DS2、DS3的合适半径长度均为0.005、0.025、0.025，密度阈值分别为10、30、50。

聚类精确度对比分析

本发明与HF_DBSCAN和PS_DBSCAN在四组数据集聚类结果实验如表5-7所示。表中属性No表示聚类的编号，m表示聚类簇中数据点的个数，Longitude、Latitude是该聚类簇的聚类中心坐标，即该聚类中所有点到该点的距离和最小；LoadLength表示该聚类的聚集距离，所有点到聚类中心的距离和。其计算公式如下：

Loadlength＝∑_p∈cluster dis(p，center) (3-9)

其中p表示该聚类簇cluster中的簇内元素，center表示该簇的聚类中心即Longitude、Latitude坐标。Avg则表示每个点的平均聚集距离，计算方式如下：

No值代表聚类簇的个数，m代表了簇中点的个数，m越大，说明参与聚类的点越多，舍弃的噪声点越少。Avg代表簇中点多平均密集程度，Avg越大，说明簇中点越密集。若聚类簇中点越多，而且越密集，则每个簇的聚集效果越好。

表8 DS1数据集下本文算法的聚类结果

表9 DS1数据集下HF_DBSCAN聚类结果

表10 DS1数据集下PS_DBSCAN的聚类结果

表11 DS2数据集下本文算法的聚类结果

表12 DS2数据集下HF_DBSCAN聚类结果

表13 DS2数据集下PS_DBSCAN聚类结果

表14 DS3数据集下本文算法的聚类结果

表15 DS3数据集下HF_DBSCAN聚类结果

表16 DS3数据集下PS_DBSCAN聚类结果

表17 DS4数据集下本文算法的聚类结果

表18 DS4数据集下HF_DBSCAN聚类结果

表19 DS4数据集下PS_DBSCAN聚类结果

表8-10显示，DS1数据集下本文算法和PS_DBSCAN算法在m值比HF_DBSCAN算法少，说明了在小规模数据集中，本文算法和 PS_DBSCAN算法会存在较多的聚类采样点丢失。其次，该组表 LoadLength以及Avg值显示HF_DBSCAN算法产生的聚类簇簇内距离较大，说明其在聚类精确度质量上不如本文算法和PS_DBSCAN算法。在DS2、DS3、DS4数据集下三种算法的m值相差不大，说明了三组算法在聚类结果采样点数量上基本一致，表8-13显示，本文算法在LoadLength以及Avg指标上较对比算法高一些，说明了簇内距离上本文算法聚类精确度结果差一些，这是因为本文聚类的网格映射过程会带来一定的精度损失。

表8-19显示，HF_DBSCAN算法虽然产生了较多的簇，但是大部分簇内点稀疏、元素个数较少，而本文聚类算法和PS_DBSCAN算法聚类的簇中数据结果较为均匀。例如，表3.14-3.16显示，本文聚类方法和 PS_DBSCAN算法分别产生2、3个聚类簇而HF_DBSCAN算法产生了 9个聚类簇，但是根据m值可知，HF_DBSCAN算法簇编号为2、3、4、 5、6、7、9的聚类簇仅有一个数据点，这一类实验数据可以作为噪声而被剔除或者归并到其他聚类簇中，在其他数据及上也有类似的结果，说明本文聚类算法和PS_DBSCAN算法形成的簇更加合理、均衡、稳定。但是在PS_DBSCAN算法中，通过对参数进行了调优选择使得其聚类结果较为均匀，算法实现相对复杂。因此，本文在形成合理的簇时，实现起来更简单、高效。

综上，在聚类效果上，对比PS_DBSCAN算法，本文算法更简单，丢弃的噪声点更少，对比HF_DBSCAN算法，本文方法形成的簇更加均匀、合理。

运行时间对比分析：实验还对比分析了本文算法与HF_DBSCAN以及PS_DBSCAN算法执行时间，在四组数据集上的实验结果如图8所示。

图8表明本文聚类算法在处理相同规模数据集时的运行时间消耗远远低于对比算法。并且随着数据对象集中的数量不断增加，对比算法的运行时间急剧增加，本文以网格单元为运行单位的基于网格与密度聚类算法运行时间增加幅度远远小于对比算法，这表明本文算法在处理大规模数据集时比对比算法更有优势。

这是因为本算法采用了网格聚类算法划分网格的方法，使得处理的对象不是数据点，而是划分后的网格单元，而基于改进DBSCAN聚类算法是对数据对象进行操作，所以本实验聚类算法大大缩减了算法的运行时间，使得算法的效率高于HF_DBSCAN和PS_DBSCAN算法；

本实验以网格单元为单位进行聚类，空间被划分后的网格单元的个数和非密集单元的数量也会影响了本实验的效率，同时对非密集网格单元进行进一步判断也需要消耗额外的计算影响时间效率，但是综合效率依旧明显优于对比算法。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种出租车热点区域的提取方法，其特征在于，所述方法具体包括如下步骤：

S1、对于原始位置数据进行停留点的识别及过滤；

2.如权利要求1所述出租车热点区域的提取方法，其特征在于，所述停留点的识别并过滤具体如下：

定义出租车的停留事件及对应的停留时间；

基于停留点阈值来确定各停留点对应的停留地理范围；

3.如权利要求1所述出租车热点区域的提取方法，其特征在于，密集网格单元是指采样点密度大于或等于密度阈值的网格单元，非密集网格单元是指采样点密度小于密度阈值的网格单元。

4.如权利要求1所述出租车热点区域的提取方法，其特征在于，次密集网格单元及噪声网格单元获取过程具体如下：

5.如权利要求1所述出租车热点区域的提取方法，其特征在于，次密集网格单元及密集网格单元组成聚类网格集，聚类簇的形成方法具体如下：

S45、以密集网格单元为中心进行下一层的深度遍历；