CN110728305A

CN110728305A - 基于网格信息熵聚类算法的出租车载客热点区域挖掘方法

Info

Publication number: CN110728305A
Application number: CN201910869878.1A
Authority: CN
Inventors: 毕硕本; 万蕾; 贺文武; 那泽; 盛宇裕
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2020-01-24
Anticipated expiration: 2039-09-16
Also published as: CN110728305B

Abstract

本发明公开了一种基于网格信息熵聚类算法挖掘出租车载客热点区域的新方法，针对基于密度的聚类算法对输入的数据较为敏感，导致受到计算空间的限制且时效性较差的不足，因此，本发明受网格划分思想和信息熵方法的启发，利用信息熵以及聚集度的变化情况对载客点的分布状况进行分析。算法使用网格替代原始轨迹点数据进行计算，克服了基于密度的聚类算法受计算空间限制且时效性较差的不足，减少了所需处理的数据的规模，提高了计算的速度，算法的灵活性较大，能够处理分析海量数据。

Description

基于网格信息熵聚类算法的出租车载客热点区域挖掘方法

技术领域

本发明属于交通信息技术领域，尤其涉及一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法。

背景技术

近年来，随着GPS定位技术以及无线通讯技术等相关技术的发展，配备有GPS定位的移动终端得到了广泛的应用。通过这些移动定位设备不仅可以记录人们日常出行的空间位置，同时还具有时间轴信息，能够在三维空间分析通过定位得到的时空轨迹数据。轨迹数据中蕴含移动对象的经度和纬度等空间位置、当前的时刻、瞬时速度以及载客的状态等重要的信息。人们可以用数据分析和数据挖掘等手段分析轨迹数据，发现研究对象的移动模式和规律等，挖掘市民外出的热点地区以及市民外出的时间和空间特点，并将得到的有价值的知识用于实际场景中。时空数据挖掘技术的不断成熟也为海量移动轨迹数据的研究提供了技术支撑。

出租车作为公共出行的主要的构成部分，一直是城市规划、建设的重点。通过挖掘出租车GPS数据，可以体现以下两方面的内容：从出租车司机来说，常年累计的驾驶经验使他们对城市的交通状况有了深入的了解，在选择一条行驶路线时，他们往往会考虑到当前的交通状况、距离以及通行时间等多个因素，因此出租车司机在行驶中的轨迹信息能够反映其驾驶的规律和经验；从乘客来说，大量的出租车OD(Origin Destination)数据能够反映人们乘坐出租车出行的需求分布，从而间接地揭露城市居民的日常出行规律。

传统的基于密度的DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)算法对轨迹点聚类，由于该算法采用了数据驱动，且对轨迹点挖掘时会对输入的数据较为敏感，受到计算空间的限制且时效性较差，具体表现在以下两个方面：

(1)DBSCAN算法对于邻域半径Eps和最小数目阈值MinPts较为敏感。不同的参数组合对聚类的结果会产生较大的影响，而一般通过经验确定这两个值。如果MinPts不变，Eps过大，则会导致大多数的载客点都聚集在同一个簇中，而Eps过小又会导致载客点的聚类过细，不具有代表性；如果Eps不变，MinPts的值过大，则会导致过多的载客点被标志为离群点，而MinPts的值过小又会划分过多的核心点。

(2)若载客点的分布不均匀，聚类间距相差很大时，则会导致聚类的质量变差。

OPTICS(Ordering Points to identify the clustering structure)算法克服了DBSCAN聚类分析中使用全局参数的缺点，算法不显式地产生聚类结果，通过输出簇排序提取基本的聚类信息，但由于算法自身的时间复杂度过高，其在数据密集型计算环境下效率较低。针对现有OPTICS算法时间复杂度高且不适用于数据密集型环境的问题，安建瑞等人提出了CP-OPTICS算法，该算法是一种基于网格与加权信息熵策略的OPTICS改进算法。算法通过将数据集合划分为一定数量的网格单元，并引入加权信息熵，自适应计算每个网格单元的最小密度阈值。对满足最小密度阈值的网格单元定义密集格的概念，利用质心点代替网格数据点集的方法对数据点进行压缩，算法的关键是识别不同的质心点。周悦来等人提出来GICM(Grid-based and Information entropy-based Clustering Algorithm forMulti-density)聚类算法。该算法通过不同密度的网格所携带的信息熵，自动计算出密度阈值，然后分离出不同密度区域的核心网格，再使用广度优先的搜索方式和边界处理技术进行聚类，找出在多密度数据集中不同的类。该算法是基于多维的数据进行聚类，并通过计算信息熵识别核心网格，最终从核心网格开始，按照广度优先的搜索方式将所有密度可达的网格归为一类，算法的关键是识别核心网格并建设性地提出来边界处理技术。

出租车轨迹点具有数据量大，局部密集等特征，基于网格划分的方法通过对研究范围划分为多个规则的网格，利用网格代替原始的空间数据对象进行分析。这类方式由于独立于原始的数据对象，且对只依赖于网格的数量，对输入的数据不具有敏感性，所以，这类方法能辨别噪音数据且速率快。同时引入信息熵的概念，信息熵可以量化载客点分布的均衡程度，利用信息熵以及聚集度的变化情况对载客点的分布状况进行分析。通过挖掘出租车载客的热点区域，能够为城市管理和规划提供参考依据，改善道路交通的运行服务水平，还可以在一定程度上缓解城市目前的“打车难”现状。

发明内容

发明目的：针对基于密度的聚类算法对输入的数据较为敏感，导致受到计算空间的限制且时效性较差的问题，受网格划分思想和信息熵方法的启发，本发明提出一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法，在GSCAN(Grid SpatialClustering of Applications with Noise)算法的基础上引入了信息熵的概念，利用信息熵以及聚集度的变化情况对载客点的分布状况进行分析。使用网格替代原始的轨迹点数据进行计算，克服了基于密度的聚类算法受计算空间限制且时效性较差的问题，减少了所需处理的数据的规模，提高了计算的速度，算法的灵活性较大，能够处理分析海量数据。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法，包括以下步骤：

步骤A，获取原始的出租车轨迹数据，确定研究区域范围，对原始的轨迹数据进行预处理并提取载客点，得到载客点数据集合；

步骤B，确定网格的大小k和网格密度阈值λ，网格密度阈值λ表示每个网格单元中落入的载客点的密度，遍历研究区域范围内的载客点数据集合，对研究区域进行网格划分；所述网格的大小k和网格密度阈值λ可通过多次的实验选择合适的参数值；

步骤C，将载客点数据映射到划分后的网格单元，计算每个网格单元的信息熵和聚集度，并对信息熵由大到小进行排序，根据网格密度阈值λ选择热点网格单元，得到热点网格单元集合；

步骤D，遍历热点网格单元集合，通过聚集度划分热点区域；将划分到热点区域的热点网格单元移出热点网格单元集合，直到热点网格单元集合为空，则输出热点区域集合，出租车载客热点区域挖掘完成。

进一步，所述步骤A中对原始的出租车轨迹数据进行预处理，包括数据的清洗和地图匹配，对预处理后的轨迹数据提取出租车的载客点，具体为：

A-1，对原始的出租车轨迹数据进行清洗。

原始的出租车GPS数据由于设备故障以及人为的操作原因都会存在一定的误差，所以在对原始轨迹数据进行热点挖掘研究之前需要清洗原始的轨迹数据。本发明针对研究区域的出租车GPS轨迹数据，清洗以下四类数据：

(1)清洗不在研究区域内的数据，将不属于研究区域范围内的数据删除。

(2)清洗静止数据；由于定位终端设备的故障导致出租车持续上传无效的数据，以及静止状态的出租车持续上传同一个位置的数据，这些数据需要全部删除。

(3)清洗始终保持载客或者空载状态的数据；由于司机不打表或者GPS定位设备故障原因，可能导致某辆出租车在一天内或一定的时间段的载客状态都是不变的，而这些数据会影响轨迹数据挖掘的精度，需要全部删除。

(4)清洗漂移点数据；车辆经过隧道或者行驶速度低于一定值时会造成GPS定位不准，记录的轨迹数据发生漂移；有些数据的漂移在误差允许的范围之内，通过地图匹配可以进行纠正；但是有的漂移数据超出了误差允许的范围，如果对这些漂移的数据进行挖掘分析，会影响数据挖掘的精度，甚至导致处理结果的不正确。本发明通过设置速度阈值筛选漂移点，而速度可以通过轨迹点之间的距离和时间计算求得。

A-2，通过地图匹配对误差允许范围之内的GPS轨迹数据进行纠正。

地图匹配是轨迹数据挖掘分析的前提条件，GPS定位终端设备在采集数据时由于机器的故障原因或者数据采集系统的坐标存在偏差，最终获取到的GPS轨迹数据并不能很好地匹配到相应的道路上，所以必须进行地图匹配。

本发明采用的是几何分析法匹配轨迹数据。

几何分析法可以分为点到点的匹配以及点到线的匹配。

点到点的匹配方法是通过计算GPS点与路网上每一个节点之间的距离的远近，根据计算得到的距离将GPS点落入最近的路段上。

点到线的匹配方法将路网中所有的路段都作为候选的路段，首先计算GPS点投影到每个路段的距离，根据投影得到的距离大小选择距GPS点最近的路段匹配，将相应的投影点作为匹配到路段上的节点。

A-3，对预处理之后的出租车GPS轨迹数据提取载客点，即提取出租车在运行的过程中搭载乘客的地点。

本发明将出租车的状态分为载客和空载两种，载客状态字段的属性值为1说明出租车当前是载客的状态，而载客状态字段的属性值为0则表示出租车处于空载。

通过判断载客状态字段的属性值是从0变为1，或是从1变为0，来判断当前轨迹点是上客点或下客点。当载客状态字段的属性值由0变为1，表明此时有乘客上车，将当前轨迹点定义为一个载客点；当载客状态字段的属性值由1变为0，表明此时有乘客下车，将当前轨迹点定义为一个下客点。

本发明通过提取出租车轨迹中的载客点数据，用于后续对出租车载客的热点区域进行挖掘。

进一步，所述步骤C中计算网格单元的信息熵和聚集度，根据网格密度阈值λ选择热点网格单元，得到热点网格单元集合，具体为：

C-1，利用映射函数将提取的出租车载客点数据映射到所属网格单元；

C-2，计算每个网格单元的信息熵H以及网格的聚集度I，并按照网格聚集度的值对信息熵由大到小进行排序；

C-3，根据网格密度阈值λ的值选择热点网格单元，将信息熵H大于或者等于网格密度阈值λ的网格作为热点网格单元，信息熵H小于网格密度阈值λ的网格不作为热点网格单元，遍历所有网格单元，最终得到热点网格单元集合。

进一步，所述步骤C-2计算每个网格单元的信息熵H以及网格的聚集度I，具体如下：

信息熵是一个物理学的概念，可以用熵值的大小反映对象的均衡度以及复杂性。

设网格映射之后的网格单元G_j存在一组随机载客点变量{x₀，x₁，...，x_m}，相应的载客点变量出现的几率为p(x_i)，信息量为I(x_i)；通过计算网格单元G_j信息熵H(x)可以衡量该网格单元载客点分布的随机性。计算网格单元G_j的信息熵值公式如下：

其中，b是对数所用的底，通常取值为2，10或者是自然常数e。

载客点变量出现概率的大小可以用信息熵反映，一般存在如下两种边界状况：

其一，若只有一个变量出现，则该变量出现的概率是一定的，此时计算得到的网格单元信息熵的值最小，即信息熵的值为0，表示该网格单元载客点分布的随机性最小；

其二，若所有的变量等概率出现，此时计算得到的网格单元信息熵的值最大，即信息熵的值为1，表示该网格单元载客点分布的随机性最大。

将计算得到的信息熵进行标准化处理，根据网格单元载客点的信息熵和最大信息熵值构造出租车载客点分布的聚集度指标I，聚集度可以用来衡量出租车载客点在网格范围内聚集分布的程度，聚集度计算公式如下：

I＝1-H_i/H_max (2)

H_i为第i个网格信息熵的值，H_max为最大的信息熵。

进一步，所述步骤D中根据网格单元的聚集度划分热点区域，具体为：

D-1，根据得到的网格单元内出租车载客点分布的聚集度，将聚集度分为T类；

D-2，任意选择热点网格单元集合中的一个热点网格单元，将该热点网格单元前后左右四个方向上的聚集度类型相同且具有连通性的热点网格单元划分为一个热点区域，并将划分为一个热点区域的热点网格单元移出热点网格单元集合；

D-3，判断热点网格单元集合中是否还存在热点网格单元，若该集合已空，则输出热点区域集合，出租车载客热点区域挖掘完成；否则，进入步骤D-4；

D-4，重复执行步骤D-2～D-3，遍历热点网格单元集合，直到集合内所有的热点网格单元划分完毕，最终实现将单一、独立的热点网格单元划分为块状的热点区域。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

本发明针对传统的基于密度的聚类算法在对大规模的轨迹数据进行聚类时存在的问题，如该类算法采用了数据驱动，且对输入的参数较为敏感，导致易受到计算空间的限制且时效性较差等问题。受网格划分思想和信息熵方法的启发，在GSCAN算法的基础上引入了信息熵的概念，利用信息熵以及聚集度的变化情况对载客点的分布状况进行分析。算法使用网格替代原始的轨迹点数据进行计算，克服了基于密度的聚类算法受计算空间限制且时效性较差的不足，减少了所需处理的数据的规模，提高了计算的速度，且算法的灵活性较大，同CP-OPTICS算法和GICM算法相比运行时间更快，能够处理分析海量数据。

对网格信息熵聚类算法的效率进行评价分析，通过将网格信息熵聚类算法和DBSCAN算法以及TR-OPTICS算法进行对比，结果发现，在数据量较大的情况下，网格信息熵聚类算法的计算效率要远远高于DBSCAN算法以及TR-OPTICS算法。同时计算网格信息熵聚类算法的时间复杂度为0(n+m²)，n表示原始的载客点的数目，m为经过网格划分后的网格数目，发现其在数据量较大的情况下要远低于DBSCAN算法的时间复杂度O(n²)。

附图说明

图1是本发明的方法流程图；

图2是一段轨迹的示意图；

图3是算法的性能对比图；

图4是算法的参数分析图；

图5是地图匹配算法流程图；

图6是等时段载客热点分布图；

图7是南京市秦淮区早晚高峰期载客热点的分布图；

图8是南京市鼓楼区早晚高峰期载客热点的分布图；

图9是南京市栖霞区早晚高峰期载客热点的分布图；

图10是南京市玄武区早晚高峰期载客热点的分布图；

图11是南京市建邺区早晚高峰期载客热点的分布图；

图12是南京市雨花台区早晚高峰期载客热点的分布图。

具体实施方式

下面结合附图和实施案例对本发明的技术方案作进一步的说明。

本发明所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法，针对传统的基于密度的聚类算法的不足，本发明受网格划分思想和信息熵方法的启发，在GSCAN算法的基础上引入了信息熵的概念，利用信息熵以及聚集度的变化情况对载客点的分布状况进行分析；如图1所示，包括以下步骤：

步骤A，获取原始的出租车轨迹数据，确定研究区域范围，对原始的轨迹数据进行预处理并提取载客点，得到载客点数据集合。

本实施例的轨迹数据为数据堂(https://www.datatang.com/index.html)提供的南京市八千余量出租车的每天产生的轨迹数据，数据每15s-30s上传一次，并以天为单位时间存储在SQL Server数据库的表中，每张表都包含轨迹信息中的车辆编号、经度和纬度、载客状态、时间以及方向7个重要字段。本发明分析轨迹数据中的载客状态字段，即描述出租车是否有搭载乘客。载客状态字段有两个值：“0”和“1”，分别表示车辆属于空载和载客状态。表1为部分轨迹数据示例。

表1出租车轨迹数据示例

ID	时间	经度	纬度	速度	方向	载客状态
							11051847361	7:00:08	118.797247	32.098116	0	250	0
11051847361	7:00:47	118.797212	32.09815	0	0	0
							11051847361	7:01:24	118.797218	32.098146	0	160	1
11051847361	7:02:02	118.797186	32.098137	35	160	1
							11051847361	7:02:39	118.797245	32.098119	40	160	1

在挖掘出租车的载客热点区域之前，首先需要对原始的轨迹数据进行预处理，包括数据清洗、地图匹配以及载客点提取这三个部分。

A-1、数据清洗；

原始的出租车GPS数据由于设备故障以及人为的操作原因都会存在一定的误差，所以在对原始轨迹数据进行热点挖掘研究之前需要清洗原始的轨迹数据，本实施例针对南京市的出租车GPS轨迹数据，清洗以下四类数据：

(1)不在研究区域内的数据

本实施例将整个南京市作为研究的区域，经纬度为：31°14'N至32°36'N、118°22'E至119°14'E，将不属于这个范围内的数据都删除。

(2)静止数据

导致静止状态的数据有以下两种原因：定位终端设备的故障导致持续上传无效的数据，以及静止状态的出租车仍持续上传同一个位置的数据。这些数据在后续的研究中都是无意义的，需要全部删除。

(3)始终保持载客或者空载状态的数据

造成出租车持续空载或载客的原因是由于司机不打表或者GPS定位设备故障原因，可能导致某辆出租车在一天内或一定的时间段的载客状态都是不变的，而这类数据的研究意义不大，甚至会影响轨迹数据挖掘的精度，需要全部删除。

(4)漂移点数据

车辆经过隧道或者行驶速度低于一定值时会造成GPS定位不准，记录的轨迹数据发生漂移。有些数据的漂移会在合理的范围之内，通过地图匹配可以进行纠正，但是有的漂移数据严重超出了误差允许的范围，如果对这些漂移的数据进行挖掘分析，会影响数据挖掘的精度，甚至导致处理结果的不正确。本发明通过设置速度阈值筛选漂移点，而速度可以通过轨迹点之间的距离和时间计算求得。

A-2、地图匹配；

目前对于地图匹配算法的研究已经较为成熟，本发明采用的是应用较为广泛、算法简单的几何分析法匹配轨迹数据。

几何分析法可以分为点到点的匹配以及点到线的匹配两种。点到点的算法是通过计算GPS点与路网上每一个节点之间的距离的远近，根据计算得到的距离将GPS点落入最近的路段上。而点到线的算法将路网中所有的路段都作为候选的路段，算法首先计算GPS点投影到每个路段的距离，根据投影得到的距离大小选择距GPS点最近的路段匹配，将相应的投影点作为匹配到路段上的节点。

本实施例采用的是点到线的匹配算法匹配南京市的出租轨迹点数据。图5是本实施例中使用的地图匹配算法的流程图。

A-3、载客点提取；

本发明对预处理之后的出租车GPS数据提取载客点，也就是出租车在运行的过程中经常搭载乘客的地点，方便进行后续的研究。

在本发明的研究中，出租车的状态分为载客和空载两种，载客状态字段的属性值为1说明出租车当前是载客的状态，而载客状态字段的属性值为0则表示出租车处于空载。

如图2所示，P1,P2,P3,……P8为8个轨迹点，组成一条轨迹线段，属性OS表示车辆的载客状态，当OS的值为0时，出租车当前并没有搭载乘客，为空载状态；当OS的值为1时，出租车当前有搭载乘客，为载客状态。从图中可以看出在P3和P8点有载客状态的变化，在P3处OS由“0”变为“1”，表明此时有乘客上车，将P3定义为一个载客点；在P8处OS由“1”变为“0”，表明此时有乘客下车，将P8定义为一个下客点。本发明通过提取出租车轨迹中的载客点数据，用于后续对出租车载客的热点区域进行挖掘。

步骤B，确定网格的大小k和网格密度阈值λ，网格密度阈值λ表示每个网格单元中落入的载客点的密度，遍历研究区域范围内的载客点数据集合，对研究区域进行网格划分。

本发明中，需提前给定网格信息熵聚类算法中的两个重要的参数值：网格的大小k(cm)以及网格密度阈值λ，不同因子的细微差别往往会对聚类的结果产生很大的影响。大量的实验分析证明，网格划分因子

时是一个理想的输入参数，适用于多数聚类算法，其中N为载客点数据集中数据点的个数。

因此本实施例中对于网格大小参数k，首先通过公式

确定一个合理的值k_a，然后在此基础上分别向数值小的方向和数值大的方向扩展选取n个参数k的值，即k₁,k₂,…,k_a-1,k_a+1,…,k_n，并分别将这些值代入到网格信息熵聚类算法中计算，验证最终的聚类效果。

本实施例通过分析不同的网格大小k下网格信息熵算法的聚类结果，手动选择相应的n个合理的λ值，通过多次实验对比分析不同的λ值对应不同的网格大小k的聚类效果，最后通过实验对比的结果，从中选择在网格大小为k时聚类效果最合理的λ值。

本发明的参数选择是通过多次的实验选择合适的参数。如图4所示，不同的参数值会对算法精度造成影响。图4(a)是载客热点随参数的变化情况，图4(b)是载客点累计分布变化情况。从4(a)中可以看出，网格大小一定时，λ的值越小，产生的热点区域就越多，同时网格大小k在100到150之间时，会生成更多的载客热点区域。从图4(b)中可以看出，当λ较小的时候，会形成小范围热点区域，而这些热点区域内落入的轨迹点的数据量较少，并不具有代表性。所以λ的值需要设置在一个合理的范围内，既不会因为过小而导致生成的载客热点区域不具有代表性，也不会因为λ的值过大导致生成的热点区域过少。再结合图4(a)发现λ＝130和λ＝150的变化状况趋于一致，且波动的幅度较为平稳，具有较高的参考意义，因此在选择参数时，最终选取k＝140，λ＝130的情况进行实验。

步骤C，将载客点数据映射到划分后的网格单元，计算每个网格单元的信息熵和聚集度，并对信息熵由大到小进行排序，根据网格密度阈值λ选择热点网格单元，得到热点网格单元集合；具体为：

本实施例中，最关键的是计算网格的信息熵和聚集度，用于对整个南京市范围内的出租车载客热点范围的分布状况进行分析。信息熵是一个物理学的概念，可以用熵值的大小反映对象的均衡度以及复杂性。香农于1948年首次在信息论当中引入熵的概念，所以又可以将其称为香农熵。

所述步骤C-2计算每个网格单元的信息熵H以及网格的聚集度I，具体如下：

设网格映射之后的网格单元G_j存在一组随机载客点变量{x₀，x₁，..，x_m}，相应的载客点变量出现的几率为p(x_i)，信息量为I(x_i)；通过计算网格单元G_j信息熵H(x)可以衡量该网格单元载客点分布的随机性。计算网格单元G_j的信息熵值公式如下：

I＝1-H_i/H_max (2)

H_i为第i个网格信息熵的值，H_max为最大的信息熵。

步骤D，遍历热点网格单元集合，通过聚集度划分热点区域；将划分到热点区域的热点网格单元移出热点网格单元集合，直到热点网格单元集合为空，则输出热点区域集合，出租车载客热点区域挖掘完成。具体如下：

D-1，根据得到的网格单元内出租车载客点分布的聚集度，将聚集度分为5类；

本实施例为验证网格信息熵聚类算法的有效性，将网格信息熵聚类算法和DBSCAN算法以及的TR-OPTICS算法进行对比，如图3所示，分析DBSCAN算法、TR-OPTICS算法和网格信息熵聚类算法这三种聚类算法在不同的数据量下的运行效率。从图中可以看出，当数据量小于40000时，DBSCAN算法和TR-OPTICS算法的运行时间略低于网格信息熵聚类算法的运行时间，因为网格信息熵聚类算法在计算的过程中需要进行数据的映射，在数据量较小的情况下，会额外耗损一些时间，所以运算的时间要长于DBSCAN算法和TR-OPTICS算法。但是，随着数据不断的增大，网格信息熵聚类算法相对于DBSCAN算法和TR-OPTICS算法而言计算的时间更短，这是因为网格信息熵聚类算法利用网格替代大量的空间数据，减少了数据的规模，加快了计算的效率。同时可以计算得到网格信息熵聚类算法的时间复杂度为O(n+m²)，n表示原始的载客点的数目，m为经过网格划分后的网格数目。通常m的值要远小于n的值，通过网格单元代替原始轨迹点进行聚类可以精简数据的规模，提高计算的效益，算法的时间复杂度相对于DBSCAN算法的时间复杂度O(n²)来说更低。

本实施例选取四个时间段的出租车载客热点进行分析，第一个阶段是早上8点至10点，此时属于上班的早高峰，乘车的需求量大，将其定义为T1阶段；第二个阶段为中午的12点到14点，此时为午间出行阶段，出行分布较为均匀，将其定义为T2阶段；第三个阶段为晚上18点到20点，此时属于晚高峰阶段，与早高峰相对应，将其定义为T3阶段；最后一个阶段是晚上22点到24点，是人们下班后参加夜晚活动的集中时段，将其定义为T4阶段。结果如图6所示。

其中，图6(a)展示了08：00至10:00的载客热点区域，图6(b)展示了12:00至14:00的载客热点区域，图6(c)展示了18:00至20:00的载客热点区域，图6(d)展示了22:00至24:00的载客热点区域。每幅子图中左侧图是对整个南京市进行热点分析的结果，右侧图是将热点范围放大显示后得到的效果图。从图中可以明显地看出，出租车载客的热点区域多位于鼓楼区、玄武区、雨花台区、栖霞区、秦淮区和建邺区。相对于其他三个时段来说，T3时间段的热点区域数量更多、范围更大，T1和T2时间段为白天时间，居民居于工作状态，出行的地点往往位于住宅区以及办公场所汇集的区域，T3时间段为下班时间，居民活动更加自由，热点区域的分布也更加的分散，T4时间段接近凌晨，居民第二天还需要上班，所以居民的出行量开始减少，热点区域的范围也相应地缩小。同时发现火车站、高铁站以及机场附近在这四个时间段内热点区域的聚集度都保持在一个较高的水平，这是因为这些地区是南京市人流出行较大的区域，且一天24小时都有火车和飞机的到达，对出租车的需求量大。

对图6进一步分析可以发现，T1时间段为一天中居民出行的早高峰，聚集度最高的热点区域位于火车站、高铁站以及机场这些人流较大的区域，以及莫愁湖以及湖南路一带，这些区域住宅区密集，出租车出行方式的需求较大，所以载客点的聚集程度较高。其次出租车出行的热点区域位于新街口-大行宫-夫子庙-鼓楼一带以及龙江，这里分布有南京市的大型商业中心以及办公大厦，是人们早上出门上班集中分布的地区，出租车的出行的需求量大，如图6(a)所示；在T2时间段属于午休时间段，热点区域集中在新街口-大行宫-夫子庙-湖南路等商业及办公中心，且热点的聚集程度相对于T1时间段来说有明显的增加。同时在雨花台和紫金山等文化风景区也成为了出行热点，如图6(b)所示；在T3时间段属于下班的晚高峰，热点范围进一步扩大，且各热点的聚集程度都有所增加，热点区域集中在一些商业贸易集中的场所以及住宅区分布广泛的地区。同时，新街口的中央商场、大洋百货等商业中心以及大行宫的新世纪广场、夫子庙、珠江路和鼓楼周边的休闲娱乐、餐饮购物集中的场所成为人们活动的主要区域，如图6(c)所示；在T4时间段，因为此时的时间已经靠近后半夜，居民的出行活动开始减少，同时大多数的公共交通工具相继开始停运，而出租车为人们外出的主要方式。新街口、大行宫等休闲娱乐场所成为主要的出行热点区域，如图6(d)所示。

通过前面对南京市整体的载客热点区域挖掘，发现出租车载客的热点区域多位于玄武区、鼓楼区、雨花台区、秦淮区、栖霞区和建邺区这6个区。接下来利用网格信息熵聚类算法分别对这6个区的早高峰和晚高峰的出租车载客热点区域的分布状况进行聚类挖掘研究。

图7为秦淮区早晚高峰时间段出租车载客热点区域。秦淮区位于南京东南部，面积49.11平方公里，常住人口102.6万，是南京市的中心城区之一。从图中可以看出，由于该区域人口众多，所以秦淮区出租车的载客热点区域分布十分广泛。载客热点区域最为集中的地区位于新街口-夫子庙一带及其周边的居民区，夫子庙是南京传统商业中心之一，分布大量的仿古街市，以餐饮和娱乐为主要的特色。这里人流量大，出租车出行的需求量也较大，所以载客热点区域分布也较为集中。其次聚集程度较高的载客热点区域有南京航空航天大学周边，这里分布有明故宫、月牙湖公园等风景旅游区以及众多的住宅小区，一天中的人流量较大，所以对出租车出行方式的需求量也大。对比早晚高峰的载客热点区域分布情况，可以发现早晚高峰的载客热点区域分布区域大致相似，只有部分区域的载客热点的聚集程度存在差异。晚高峰的载客热点区域分布范围更加广泛且聚集的程度较高，这是因为下班时间居民的活动相对较为自由且部分居民下班后会集中在一些购物、娱乐以及餐饮集中的区域，所以热点分布范围较广，部分区域聚集程较高。

图8为鼓楼区早晚高峰时间段出租车载客热点的分布状况。鼓楼区位于南京城区西北部，总面积54.18平方公里，常住人口129.32万。从图中可以看出，鼓楼区的出租车载客热点区域同样分布广泛。且出租车的载客热点区域集中于鼓楼-新街口向西北方向延伸的区域，这些区域分布有湖南路、鼓楼等南京市重要商圈，是居民主要的休闲、餐饮、购物中心，同时又分布有虎踞大厦、三牌楼小区等办公场所和居民住宅区，所以出租车的载客热点区域集中分布于这些区域。同时可以发现在龙江和中央门立交桥等商业场所以及交通枢纽地区也都分别形成了一个聚集程度较高的载客热点区域。对比早晚高峰的载客热点区域分布情况，可以发现早高峰的载客热点区域分布更加广泛但是聚集程度相对于晚高峰来说较低，这是因为鼓楼区为南京市的老城区，人多口分布众多、住宅小区较多，所以住宅小区较为集中的区域都会相应地生成一些热点区域，而晚高峰时间段，居民大多会分布于一些商业、办公、贸易以及餐饮中心的附近，人口分布较为集中，所以出租车的载客热点区域也较为集中，聚集程度较高。

图9为栖霞区早晚高峰时间段出租车载客热点的分布状况。栖霞区位于南京城区东北部，面积395.44平方公里，常住人口66.8万人。栖霞区分布多达40家的科研机构以及高等学府，是南京市重要的石化、电子、建材以及资金、技术、人才集中型的区域。从图中可以看出，栖霞区的出租车载客热点区域分布较为分散，载客热点区域主要沿钟山风景区周边分布，如迈皋桥附近以及和燕路沿线载客热点区域的聚集程度较高，该地区位于迈皋桥地铁站附近，和燕路周边居民住宅区分布较为集中，基础设施完善，邻近南京站以及长途汽车东站等南京市重要交通枢纽，所以该地区出租车载客热点区域的聚集程度相对较高。同时载客热点区域聚集程度相对较高的还有马群附近，该地区建有马群科技园，人口也较为集中，出租车出行的需求量大。对比早晚高峰的载客热点区域分布情况，栖霞区的晚高峰载客热点区域分布较早高峰的载客热点区域分布更为广泛，特别是迈皋桥周边的载客热点范围进一步扩大。迈皋桥周边居民区众多，且周边分布有大型的超市、商场，是居民下班活动的主要区域。

图10为玄武区早晚高峰时间段出租车载客热点的分布状况。玄武区位于南京城区东北部，面积75.46平方公里，常住人口60.02万，为南京市的中心城区之一。从图中可以看出玄武区的早晚高峰载客热点区域可以分为三部分，分别是珠江路-新街口-大行宫-鸡鸣寺周边、南京站以及南京长途汽车站附近的地区，其中南京站和长途汽车站为南京市主要的交通枢纽，人流量较大，对出租车的需求量也较大，而珠江路-新街口-大行宫一带为南京市经济贸易、商业活动最频繁的中央商务区，基础设施完善，人流量大，出租车的载客热点区域的聚集程度一直处于一个较高的水平。

图11为建邺区早晚高峰时间段出租车载客热点的分布状况。建邺区位于南京城区西南部，区域面积83平方公里，总人口约60万人，是南京的中心城区之一。从图中可以看出建邺区早晚高峰时间段的出租车载客热点区域主要分布在集庆门大街的周边区域，集庆门大街主要为住宅用地，其西边的江东门商业区为南京市的五大商业区之一，且集庆门大街周边分布有河西万达、乐基广场等大型的商场，是建邺区主要的休闲、购物、娱乐及餐饮中心。其次，河西CBD作为华东地区仅次于上海陆家嘴的第二大中央商务区，其周边的出租车载客热点区域的聚集程度也处于一个较高的水平。同时发现晚高峰时间段奥体中心的聚集程度明显增加，南京奥体中心是一个多功能复合型的国家级体育馆，包括体育场、体育馆、游泳馆、网球馆、体育科技中心和文体创业中心，经常举办各种体育赛事、科技以及文化活动，是建邺区居民下班活动的主要场所。

图12为雨花台区早晚高峰时间段出租车载客热点区域的分布状况。雨花台区位于南京主城南部，面积134.6平方公里，常住人口41.3万，是中国最大的通讯软件研发基地，中国软件名城核心区。其出租车载客热点区域主要位于各个地铁站附近，如中华门、小行、软件大道等地。同时中兴、华为等软件研发中心的载客热点区域的聚集程度也保持在一个较高的水平。这些地区都是雨花台区人口集中分布、人流量大的地区，出租车出行需求量也保持在较高的水平。对比早晚高峰的载客热点区域分布情况，由于早高峰时间段一些地铁站附近的住宅小区较为集中，所以载客热点区域在这些区域的聚集程度较高；而晚高峰时间段由于居民的活动更加自由，所以相对于早高峰时间段，载客热点区域的分布范围更加广泛，但聚集程度相对较低。

Claims

1.一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法，其特征在于：该方法包括以下步骤：

步骤B，确定网格的大小k和网格密度阈值λ，网格密度阈值λ表示每个网格单元中落入的载客点的密度，遍历研究区域范围内的载客点数据集合，对研究区域进行网格划分；

2.根据权利要求1所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法，其特征在于：所述步骤A中对原始的出租车轨迹数据进行预处理并提取载客点，具体如下：

A-1，对原始的出租车轨迹数据进行清洗，清除由于设备故障或者人为操作导致的误差数据；

A-2，通过地图匹配对误差允许范围之内的轨迹数据进行纠正，使轨迹数据匹配到相应的道路上；

A-3，对经过步骤A-1和A-2预处理之后的出租车轨迹数据提取载客点，即提取出租车在运行的过程中搭载乘客的地点。

3.根据权利要求2所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法，其特征在于：所述步骤A-1清洗以下四类数据：

(1)清洗不在研究区域内的数据，即将不属于研究区域范围内的数据删除；

(2)清洗静止数据，即删除由于定位终端设备的故障导致出租车持续上传的无效数据，以及静止状态的出租车持续上传的同一个位置的数据；

(3)清洗始终保持载客或者空载状态的数据，即删除由于司机不打表或者GPS定位设备故障原因导致出租车在一天内或一定时间段的载客状态都是不变的数据；

(4)清洗漂移点数据，即删除由于车辆经过隧道或者行驶速度低于一定值时导致GPS定位不准所记录的漂移超出了误差允许范围的轨迹数据。

4.根据权利要求2所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法，其特征在于：所述步骤A-2中，采用几何分析法匹配轨迹数据，包括点到点的匹配以及点到线的匹配。

5.根据权利要求2所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法，其特征在于：所述步骤A-3对预处理之后的出租车轨迹数据提取载客点，方法如下：

将出租车的状态分为载客和空载两种状态，载客状态字段的属性值为1表示出租车当前是载客的状态，载客状态字段的属性值为0则表示出租车处于空载状态；

通过判断载客状态字段的属性值变化来判断当前轨迹点是上客点或下客点；

当载客状态字段的属性值由0变为1，表明有乘客上车，将当前轨迹点定义为一个载客点；当载客状态字段的属性值由1变为0，表明有乘客下车，将当前轨迹点定义为一个下客点。

6.根据权利要求1-5任一所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法，其特征在于：所述步骤C中计算网格单元的信息熵和聚集度，根据网格密度阈值λ选择热点网格单元，得到热点网格单元集合，具体为：

7.根据权利要求6所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法，其特征在于：所述步骤C-2计算每个网格单元的信息熵H以及网格的聚集度I，具体如下：

设网格映射之后的网格单元G_j存在一组随机载客点变量{x₀，x₁，...，x_m}，相应的载客点变量出现的几率为p(x_i)，信息量为I(x_i)；通过计算网格单元G_j信息熵H(x)衡量该网格单元载客点分布的随机性；

计算网格单元G_j的信息熵值公式如下：

其中，b是对数所用的底；

载客点变量出现概率的大小通过信息熵反映，存在如下两种边界状况：

其二，若所有的变量等概率出现，此时计算得到的网格单元信息熵的值最大，即信息熵的值为1，表示该网格单元载客点分布的随机性最大；

将计算得到的信息熵进行标准化处理，根据网格单元载客点的信息熵和最大信息熵值构造出租车载客点分布的聚集度指标I，聚集度用来衡量出租车载客点在网格范围内聚集分布的程度，聚集度计算公式如下：

I＝1-H_i/H_max (2)

其中，H_i为第i个网格信息熵的值，H_max为最大的信息熵。

8.根据权利要求7所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法，其特征在于：所述步骤D中根据网格单元的聚集度划分热点区域，具体为：

9.根据权利要求3所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法，其特征在于：所述步骤A-1中通过设置速度阈值筛选漂移点，通过轨迹点之间的距离和时间计算求得速度。