CN107481511A

CN107481511A - 一种计算候选公交站点的方法及系统

Info

Publication number: CN107481511A
Application number: CN201710700577.7A
Authority: CN
Inventors: 肖露艳; 范小朋; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2017-12-15

Abstract

本发明涉及智能公共交通技术领域，特别涉及一种计算候选公交站点的方法及系统。所述发掘方法包括：步骤a：提取出租车上下客数据；步骤b：对提取的出租车上下客数据进行聚类，生成城市交通热点区域；步骤c：计算所述城市交通热点区域的中心点，将所述中心点作为所述城市交通热点区域的候选公交站点。本发明利用真实的大规模出租车轨迹数据发掘候选公交站点，大幅度降低时间、人力、金钱成本，具备较高的效率；同时，本发明考虑了划分城市交通热点区域的整体性以及城市公交站点的服务半径，为现阶段城市公交站点选址提供非常宝贵的参考依据。

Description

一种计算候选公交站点的方法及系统

技术领域

本发明涉及智能公共交通技术领域，特别涉及一种计算候选公交站点的方法及系统。

背景技术

随着我国城市化建设进程的不断提速，城市人口规模日益扩大，越来越多的人们需要在夜里进行工作或生活活动，导致城市夜间公共交通面临着需求飞速增加与资源严重供应不足的严峻挑战。因此如何设计既能够满足大部分人群夜间出行和活动需求，又能够通过运载较多的乘客使公交运营收支平衡的夜间公交线路成为解决问题的关键。

一般而言，公交站点位置确定是进行城市公交线路规划的前提条件。现有的公交站点选址方法主要分为两大类：一类是利用小规模的居民出行意愿抽样调查数据或者时间消耗长、时效性不足的人口普查结果来分析居民的出行需求，从而获得公交的客流量，进而设计公交站点和线路的(Aslam J,Lim S,Pan X,et al.City-scale traffic estimationfrom a roving sensor network[C]//ACM Conference on Embedded Network SensorSystems.ACM,2012:141-154.)，这类方法被实践证明是可行且有效的，但该方法主要考虑的是环境因素，如人口密度、交通条件等，缺乏考虑城市人群的出行模式，费时费力效率低下，无法适应频繁变化的城市道路结构和交通需求。

另一类是基于出租车GPS数据确定公交站点位置(Wang W,Tao L,Gao C,et al.AC-DBSCAN Algorithm for Determining Bus-Stop Locations Based on Taxi GPS Data[M]//Advanced Data Mining and Applications.Springer International Publishing,2014:293-304；Liu Y,Jia G,Tao X,et al.A Stop Planning Method over Big TrafficData for Airport Shuttle Bus[C]//IEEE Fourth International Conference on BigData and Cloud Computing.IEEE,2014:63-70.)。该方法首先对出租车GPS数据进行数据清洗操作，其次基于预处理后数据通过有效方法提取出出租车上下客数据，然后对得到的上下客点信息通过几何划分法或者聚类方法发掘城市交通热点区域，发现到的每一个交通热点区域即代表一个公交站点。基于出租车GPS数据的公交站点选址方法客服了传统方法获取居民出行需求不准确的缺陷，为后续公交线路的规划工作提供了一个更好的基础，另外在一定程度上也大大减少时间、人力和金钱花销，但现有基于出租车GPS数据的公交站点选址方法未考虑划分交通热点区域的整体性，或未考虑公交站点的服务半径。

发明内容

本发明提供了一种计算候选公交站点的方法，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本发明提供了如下技术方案：

一种计算候选公交站点的方法，包括：

步骤a：提取出租车上下客数据；

步骤b：对提取的出租车上下客数据进行聚类，生成城市交通热点区域；

步骤c：计算所述城市交通热点区域的中心点，将所述中心点作为所述城市交通热点区域的候选公交站点。

本发明实施例采取的技术方案还包括：在所述步骤a中，所述提取出租车上下客数据具体为：从出租车轨迹数据中提取出租车上下客数据；其中，所述出租车轨迹数据包括GPS数据和交易数据。

本发明实施例采取的技术方案还包括：在所述步骤a中，所述提取出租车上下客数据具体包括：

步骤a1：加载出租车GPS数据和交易数据；

步骤a2：将所述GPS数据按照GPS汇报时间升序排列；

步骤a3：从所述升序排列的GPS数据和交易数据中找到GPS汇报时间与乘客上车时间或乘客下车时间相对应的GPS记录和交易记录，并将该GPS记录的经度和纬度坐标作为该交易记录的出租车上下客数据。

本发明实施例采取的技术方案还包括：在所述步骤a1中，所述加载出租车GPS数据和交易数据具体包括：将出租车GPS数据和交易数据读入内存，从所述出租车GPS数据中获取TGR数据，从所述交易数据中获取TTR数据；所述TGR数据中的每一条TGR记录分别包含车牌号码、经度、纬度和GPS汇报时间，所述TTR数据中的每一条TTR记录分别包含车牌号码、乘客上车时间和乘客下车时间，所述TTR数据中的乘客上车时间和乘客下车时间与TGR数据中的GPS汇报时间相对应。

本发明实施例采取的技术方案还包括：在所述步骤a2中，所述将GPS数据按照GPS汇报时间升序排列具体包括：将TGR数据和TTR数据分别按照车牌号码进行聚合，返回以车牌号码为key，“经度+纬度+GPS汇报时间”为value的TGR记录，以及以车牌号码为key，“乘客上车时间+乘客下车时间”为value的TTR记录，并将聚合后的TGR数据根据车牌号码按照GPS汇报时间升序排列。

本发明实施例采取的技术方案还包括：在所述步骤a3中，所述从升序排列的GPS数据和交易数据中找到GPS汇报时间与乘客上车时间或乘客下车时间相对应的GPS记录和交易记录具体包括：将所述TTR数据和TGR数据根据车牌号码进行连接操作，对TTR数据中的每条TTR记录，使用二分查找法从所述TGR数据中找到GPS汇报时间与该TTR记录的乘客上车时间或乘客下车时间靠近或相同的TGR记录，并判断该TTR记录的乘客上车时间或乘客下车时间与该TGR记录的GPS汇报时间之间的时间差是否大于预定阀值，如果该TTR记录的乘客上车时间或乘客下车时间与该TGR记录的GPS汇报时间之间的时间差不大于预定阈值，则将该TGR记录的经纬度坐标作为该条TTR记录的出租车上下客数据。

本发明实施例采取的技术方案还包括：在所述步骤b中，所述对提取的出租车上下客数据进行聚类具体包括：

步骤b1：判断所述出租车上下客数据集合中是否存在未归类对象，如果存在未归类对象，执行步骤b2；

步骤b2：判断所述未归类对象是否是核心对象，如果未归类对象不是核心对象，执行步骤b3；否则执行步骤b4；

步骤b3：标记所述未归类对象为离群数据，并返回步骤b1；

步骤b4：检测所述未归类对象的邻域，如果所述未归类对象的邻域内拥有的数据对象总数满足最小阈值，则新建一个类簇，并将所述未归类对象的邻域内所有的数据对象加入候选集合中；

步骤b5：判断所述候选集合是否为空，如果候选集合为空，返回步骤b1，否则执行步骤b6；

步骤b6：检测所述候选集合内未被处理的数据对象的邻域，如果所述未被处理的数据对象的邻域内拥有的数据对象总数满足最小阈值，则将所述未被处理的数据对象的邻域内的所有数据对象添加到候选集合内；如果所述未被处理的数据对象未被归入任一类簇，并且加入所述未被处理的数据对象不会使得类簇超过范围约束阈值，则将所述未被处理的数据对象加入步骤b4所述的新建类簇。

本发明实施例采取的技术方案还包括：在所述步骤c中，所述计算城市交通热点区域的中心点具体为：计算任一类簇中所有数据对象之间的相互距离，并将该类簇内与其他数据对象距离之和最少的数据对象作为该类簇的中心点，该中心点即为所述城市交通热点区域的中心点。

本发明实施例采取的另一技术方案为：一种计算候选公交站点的系统，包括：

数据提取模块：用于提取出租车上下客数据；

聚类模块：用于对提取的出租车上下客数据进行聚类，生成城市交通热点区域；

中心点计算模块：用于计算所述城市交通热点区域的中心点，将所述中心点作为所述城市交通热点区域的候选公交站点。

本发明实施例采取的技术方案还包括：所述数据提取模块提取出租车上下客数据的方式具体为：从出租车轨迹数据中提取出租车上下客数据；其中，所述出租车轨迹数据包括GPS数据和交易数据。

本发明实施例采取的技术方案还包括：所述数据提取模块包括：

数据加载单元：用于加载出租车GPS数据和交易数据；

数据排序单元：用于将所述GPS数据按照GPS汇报时间升序排列；

数据查找单元：用于从所述升序排列的GPS数据和交易数据中找到GPS汇报时间与乘客上车时间或乘客下车时间相对应的GPS记录和交易记录，并将该GPS记录的经度和纬度坐标作为该交易记录的出租车上下客数据。

本发明实施例采取的技术方案还包括：所述数据加载单元加载出租车GPS数据和交易数据具体为：将出租车GPS数据和交易数据读入内存，从所述出租车GPS数据中获取TGR数据，从所述交易数据中获取TTR数据；所述TGR数据中的每一条TGR记录分别包含车牌号码、经度、纬度和GPS汇报时间，所述TTR数据中的每一条TTR记录分别包含车牌号码、乘客上车时间和乘客下车时间，所述TTR数据中的乘客上车时间和乘客下车时间与TGR数据中的GPS汇报时间相对应。

本发明实施例采取的技术方案还包括：所述数据排序单元将GPS数据按照GPS汇报时间升序排列具体为：将TGR数据和TTR数据分别按照车牌号码进行聚合，返回以车牌号码为key，“经度+纬度+GPS汇报时间”为value的TGR记录，以及以车牌号码为key，“乘客上车时间+乘客下车时间”为value的TTR记录，并将聚合后的TGR数据根据车牌号码按照GPS汇报时间升序排列。

本发明实施例采取的技术方案还包括：所述数据查找单元从升序排列的GPS数据和交易数据中找到GPS汇报时间与乘客上车时间或乘客下车时间相对应的GPS记录和交易记录具体为：将所述TTR数据和TGR数据根据车牌号码进行连接操作，对TTR数据中的每条TTR记录，使用二分查找法从所述TGR数据中找到GPS汇报时间与该TTR记录的乘客上车时间或乘客下车时间靠近或相同的TGR记录，并判断该TTR记录的乘客上车时间或乘客下车时间与该TGR记录的GPS汇报时间之间的时间差是否大于预定阀值，如果该TTR记录的乘客上车时间或乘客下车时间与该TGR记录的GPS汇报时间之间的时间差不大于预定阈值，则将该TGR记录的经纬度坐标作为该条TTR记录的出租车上下客数据。

本发明实施例采取的技术方案还包括：所述聚类模块包括归类判断单元、核心对象判断单元、第一邻域检测单元、候选集合判断单元和第二邻域检测单元；

所述归类判断单元用于判断所述出租车上下客数据集合中是否存在未归类对象，如果存在未归类对象，通过所述核心对象判断单元判断未归类对象是否是核心对象；否则算法结束；

所述核心对象判断单元用于判断所述未归类对象是否是核心对象，如果所述未归类对象不是核心对象，标记所述未归类对象为离群数据；否则通过所述第一邻域检测单元检测未归类对象的邻域；

所述第一邻域检测单元用于检测所述未归类对象的邻域，如果所述未归类对象的邻域内拥有的数据对象总数满足最小阈值，则新建一个类簇，并将所述未归类对象的邻域内所有的数据对象加入候选集合中；

所述候选集合判断单元用于判断候选集合是否为空，如果候选集合为空，通过所述归类判断单元继续判断出租车上下客数据集合中是否存在未归类对象，否则通过所述第二邻域检测单元检测候选集合内还未被处理的数据对象的邻域；

所述第二邻域检测单元用于检测所述候选集合内未被处理的数据对象的邻域，如果所述未被处理的数据对象的邻域内拥有的数据对象总数满足最小阈值，则将所述未被处理的数据对象的邻域内的所有数据对象添加到候选集合内；如果所述未被处理的数据对象未被归入任一类簇，并且加入所述未被处理的数据对象不会使得类簇超过范围约束阈值，则将所述未被处理的数据对象加入所述新建类簇。

本发明实施例采取的技术方案还包括：所述中心点计算模块计算城市交通热点区域的中心点的计算方式为：计算任一类簇中所有数据对象之间的相互距离，并将该类簇内与其他数据对象距离之和最少的数据对象作为该类簇的中心点，该中心点即为所述城市交通热点区域的中心点。

本发明实施例采取的又一技术方案为：一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的计算候选公交站点的方法的以下操作：

提取出租车上下客数据；

对提取的出租车上下客数据进行聚类，生成城市交通热点区域；

计算所述城市交通热点区域的中心点，将所述中心点作为所述城市交通热点区域的候选公交站点。

相对于现有技术，本发明实施例产生的有益效果在于：本发明实施例的计算候选公交站点的方法及系统基于大规模出租车轨迹数据来感知城市交通动态和人群的移动出行规律，在考虑公交站点服务范围的基础上，利用真实的大规模出租车轨迹数据发掘候选公交站点；本发明克服了传统出行调查费时费力效率低下、无法适应频繁变化的城市道路结构和交通需求的缺点，大幅度降低时间、人力、金钱成本，具备较高的效率；并能对城市公交站点的布设进行合理且高效地设计，在降低运营成本的同时还可以方便市民出行，能够较好地反映城市整体交通需求分布；同时，本发明考虑了划分城市交通热点区域的整体性以及城市公交站点的服务半径，为现阶段城市公交站点选址提供非常宝贵的参考依据。

附图说明

图1是本发明第一实施例的计算候选公交站点的方法的流程图；

图2是本发明第二实施例的计算候选公交站点的方法的流程图；

图3是本发明实施例的出租车上下客数据提取流程图；

图4是本发明实施例使用DC-DBSCAN算法生成城市交通热点区域的流程图；

图5是本发明实施例的计算候选公交站点的系统的结构示意图；

图6是本发明实施例提供的计算候选公交站点的方法的硬件设备结构示意图；

图7为每半小时内出租车上/下客事件发生次数统计图；

图8为生成的类簇数目随参数Eps和MinPts的变化图；

图9为生成的类簇内平均上/下客点数目随参数Eps和MinPts的变化图；

图10为DC-DBSCAN算法聚类结果部分示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

请参阅图1，是本发明第一实施例的计算候选公交站点的方法的流程图。本发明第一实施例的计算候选公交站点的方法包括以下步骤：

步骤a：提取出租车上下客数据；

在步骤a中，提取出租车上下客数据的方式为：从出租车轨迹数据中提取出租车上下客数据；出租车轨迹数据包括GPS数据和交易数据，GPS数据中包括每一条GPS记录对应的车牌号码、经度、纬度和GPS汇报时间，交易数据中包括每一条交易记录对应的车牌号码、乘客上车时间和乘客下车时间。其中，乘客上车时间和乘客下车时间与GPS汇报时间靠近或一致。

在步骤b中，出租车上下客数据的聚类算法包括但不限于DC-BSCAN聚类算法、基于划分的聚类算法、以及基于空间网格划分的统计算法等。

步骤c：计算城市交通热点区域的中心点，将所述中心点作为所述城市交通热点区域的候选公交站点。

作为本发明第一实施例的计算候选公交站点的方法的一种优化，在一种可选的实现方案中，请一并参阅图2，是本发明第二实施例的计算候选公交站点的方法的流程图。本发明第二实施例的计算候选公交站点的方法包括以下步骤：

步骤100：采用查找算法从出租车轨迹数据中提取出租车上下客数据；

在步骤100中，出租车轨迹数据包括出租车GPS数据和交易数据，用于提取出租车上下客数据的计算框架包括但不限于Spark、Hadoop等，所用程序语言包括但不限于Scala、Python、Java等。由于出租车返回的GPS数据每天约有7千万条(约8G)，如果在本地用单机对这些GPS数据进行上下客点信息提取及分析，将会非常耗时，效率比较低下，本发明通过使用Spark、Hadoop等计算框架从经过预处理后的大规模出租车轨迹数据中提取和分析出租车上下客数据，进而提高计算效率，为城市夜间候选公交站点的发掘奠定基础。以下实施例中，本发明以使用分布式大数据计算框架Spark提取和分析出租车上下客数据为例进行具体说明。

具体请参阅图3，是本发明实施例的使用分布式大数据计算框架Spark提取出租车上下客数据的流程图。本发明实施例的使用分布式大数据计算框架Spark提取出租车上下客数据的方法包括以下步骤；

步骤101：加载出租车GPS数据(TGR)和交易数据(TTR)；

该步骤中，加载出租车GPS数据和交易数据的方式为：首先采用分布式大数据计算框架Spark的textFile函数将存储在HDFS(Hadoop Distribute File System，Hadoop的一个分布式文件系统)上的出租车GPS数据和交易数据读入内存，然后利用Spark的union算子和map算子从GPS数据中获取TGR数据，并从交易数据中获取TTR数据。TGR数据中的每一条TGR记录分别包含车牌号码、经度、纬度和GPS汇报时间，TTR数据中的每一条TTR记录分别包含车牌号码、乘客上车时间和乘客下车时间，TTR数据中的乘客上车时间和乘客下车时间与TGR数据中的GPS汇报时间靠近或相同。

步骤102：将TGR数据按时间顺序排序；

该步骤中，将TGR数据按时间顺序排序的方式为：首先利用Spark的groupByKey算子将TGR数据按照车牌号码进行聚合，即返回以车牌号码为key，“经度+纬度+GPS汇报时间”为value的TGR记录；然后利用map算子和sortBy算子将聚合的TGR数据根据车牌号码按照GPS汇报时间升序排列。此外，利用Spark的groupByKey算子将TTR数据按照车牌号码进行聚合，即返回以车牌号码为key，“乘客上车时间+乘客下车时间”为value的TTR记录。

步骤103：用二分查找法得到每一条与TTR记录(i)对应的TGR记录(j)；

该步骤中，用二分查找法得到每一条与TTR记录对应的TGR记录的方式为：首先利用Spark的join算子将TTR数据和TGR数据根据车牌号码进行join(连接)操作，然后利用flatMap算子对每条TTR记录(i)使用二分查找从按时间排好序的TGR数据中找到与TTR(i)的乘客上车时间或乘客下车时间靠近或相同的TGR记录(j)(GPS汇报时间与乘客上/下车时间靠近或一致)，并判断该TTR记录的乘客上车时间或乘客下车时间与该TGR记录的GPS汇报时间之间的时间差是否大于预定阀值MaxDuration，如果该TTR记录的乘客上车时间或乘客下车时间与该TGR记录的GPS汇报时间之间的时间差不大于预定阈值，则将该TGR记录(j)的经纬度坐标作为该TTR记录(i)的出租车上下客数据，最后利用Spark的saveAsTextFile函数将得到的出租车上下客数据存入HDFS；上述中，本发明仅以二分查找算法作为优选算法，在本发明其他实施例中，查找算法还包括顺序查找法、插值查找法等。

步骤200：采用聚类算法对提取的出租车上下客数据进行聚类，生成城市交通热点区域；

在步骤200中，本发明通过对出租车上下客数据进行聚类，便于发掘出租车上下客事件发生次数超过设定阈值的聚集区域(即城市交通热点区域)，这些被发掘的城市交通热点区域能够有效体现城市的交通密度分布情况，可以近似看成是候选公交站点的乘客聚集区域。

基于密度的聚类算法以数据对象在空间中的密集程度作为聚类准则，还能识别噪声数据和离群点，因此本发明使用改进的基于密度聚类的方法(DC-BSCAN聚类算法)发掘城市交通热点区域，进而确定候选公交站点。DBSCAN是一个经典的基于密度的聚类算法，其目标在于检测出聚类对象在空间中的密集程度，从而识别出比较密集的簇，忽略空间中的离群数据。和层次聚类算法的不同之处在于，该算法能够识别出任何不规则形状的簇。本发明实施例中的DC-DBSCAN算法是在DBSCAN算法的基础上，在类簇扩充过程中增加了范围约束，下面结合本发明实际应用给出DC-DBSCAN算法的主要概念定义：

(1)、空间距离计算定义

目前，经典的两点间距离计算公式有很多，如欧氏距离、切比雪夫距离、曼哈顿距离及马氏距离等，然而这些距离公式计算的结果并不能代表地球上两个GPS轨迹点间的实际距离，本发明采用球面距离表示两个GPS轨迹点间的相似性，计算公式如下：

Dist＝Δσ*R(1)

上述公式中，R代表地球的平均半径，约为6378137m，Δlat表示两GPS轨迹点的纬度差，Δlng表示两GPS轨迹点间的经度差，Dist可以近似表示两个GPS轨迹点间的真实球面距离。

(2)、Εps邻域

数据对象a的Εps邻域表示的是以a所在位置作为圆心，以Εps大小为半径的圆形邻域。本发明中两个GPS轨迹点间的距离使用球面距离表示，由公式(1)计算可得。在本发明其他实施例中，GPS轨迹点间的距离还可以使用欧式距离、曼哈顿距离等表示。

(3)、核心对象

假若在数据对象a的Εps邻域范围内，数据对象的总数满足一个最小阈值MinPts，则可以定义数据对象a为核心对象。

(4)、直接密度可达

给定数据集合D，假若数据对象a₂在数据对象a₁的Εps邻域内，同时a₁为核心对象，则数据对象a₂从数据对象a₁直接密度可达。

(5)、密度可达

给定数据对象集合D及该数据对象集合中的一串数据对象(a₁,a₂,a₃,…,a_n),设定a＝a₁,b＝a_n,假若数据对象a_i从数据对象a_i-1直接密度可达，则数据对象b从数据对象a密度可达。

(6)、密度相连

给定数据对象集合D及该数据对象集合内的三个数据对象a、b、c，假若数据对象a到数据对象b与数据对象c均为密度可达，那么数据对象b和数据对象c密度相连。

(7)、范围约束阈值DC

给定数据对象集合D，在类簇扩充的时候判断要加入的数据对象是否会使得该类簇范围超过设定的范围约束阈值DC，如果超过设定的范围约束阈值DC，就停止对该数据对象的扩充。

结合上述DC-DBSCAN算法核心定义的说明，请一并参阅图4，是本发明实施例使用DC-DBSCAN算法生成城市交通热点区域的流程图，本发明实施例使用DC-DBSCAN算法生成城市交通热点区域的方法包括以下步骤：

步骤201：初始化出租车上下客数据集合D中的所有数据对象为未归类状态；

步骤202：判断出租车上下客数据集合D中是否存在未归类对象a，如果存在未归类对象a，执行步骤203；否则算法结束；

在步骤202中，未归类对象a是指没有被归为一类簇或者标记成离群数据(噪声点)的数据对象。

步骤203：判断未归类对象a是否是核心对象，如果未归类对象a不是核心对象，执行步骤204；否则执行步骤205；

步骤204：标记未归类对象a为离群数据，并返回步骤202；

步骤205：检测未归类对象a的邻域，如果邻域内拥有的数据对象数量满足最小阈值MinPts，则新建一个类簇C，并将邻域内所有的数据对象加入候选集合N中；

步骤206：判断候选集合N是否为空，如果候选集合N为空，返回步骤202，否则执行步骤207；

步骤207：对于候选集合N内还未被处理的数据对象b，首先检测其邻域，如果邻域内拥有的数据对象总数满足最小阈值MinPts，则将邻域内的所有数据对象添加到候选集合N内；此外，如果数据对象b未被归入任何一个类簇，并且加入数据对象b并不会使得类簇超过范围约束阈值DC，则将数据对象b加入类簇C，并返回步骤206，直到候选集合N为空。

可以理解，在本发明其他实施例中，还可以使用基于划分的聚类算法、基于空间网格划分的统计方法等发掘城市交通热点区域。

步骤300：计算城市交通热点区域的中心点，将中心点作为该城市交通热点区域的候选公交站点。

在步骤300中，基于DC-DBSCAN算法生成的交通热点区域能够有效体现城市夜间的交通密度分布情况，为了获得候选公交站点的具体位置，本发明通过计算城市交通热点区域的中心点，并以此作为候选公交站点的具体位置。计算公式如下：

在公式(3)中，n为某一类簇C中所有数据对象的总数量；Dist(i,j)为数据对象i和数据对象j之间的相互距离，该距离可以通过公式(1)和公式(2)计算得到。对于任一类簇，本发明通过计算该类簇中所有数据对象之间的相互距离，并将该类簇内与其他数据对象距离之和最少的数据对象作为该类簇的中心点，该中心点即代表候选公交站点的位置。即：通过公式(3)计算得到的中心点经纬度坐标即为候选公交站点的经纬度坐标。

请参阅图5，是本发明实施例的计算候选公交站点的系统的结构示意图。本发明实施例的计算候选公交站点的系统包括数据提取模块、聚类模块和中心点计算模块。

数据提取模块：用于从出租车轨迹数据中提取出租车上下客数据；其中，出租车轨迹数据包括出租车GPS数据和交易数据。用于提取出租车上下客数据的计算框架包括但不限于Spark、Hadoop等，所用程序语言包括但不限于Scala、Python、Java等。由于出租车返回的GPS数据每天约有7千万条(约8G)，如果在本地用单机对这些GPS数据进行上下客点信息提取及分析，将会非常耗时，效率比较低下，本发明通过使用Spark、Hadoop等计算框架从经过预处理后的大规模出租车轨迹数据中提取和分析出租车上下客数据，进而提高计算效率，为城市夜间候选公交站点的发掘奠定基础。

具体地，以使用分布式大数据计算框架Spark提取和分析出租车上下客数据为例，数据提取模块包括数据加载单元、数据排序单元和数据查找单元；其中，

数据加载单元：用于加载出租车GPS数据(TGR)和交易数据(TTR)；加载方式为：首先采用分布式大数据计算框架Spark的textFile函数将存储在HDFS上的出租车GPS数据和交易数据读入内存，然后利用Spark的union算子和map算子从GPS数据中获取TGR数据，并从交易数据中获取TTR数据。TGR数据中的每一条TGR记录分别包含车牌号码、经度、纬度和GPS汇报时间，TTR数据中的每一条TTR记录分别包含车牌号码、乘客上车时间和乘客下车时间，，TTR数据中的乘客上车时间和乘客下车时间与TGR数据中的GPS汇报时间靠近或相同。

数据排序单元：用于将TGR数据按时间顺序排序；排序方式具体为：首先利用Spark的groupByKey算子将TGR数据按照车牌号码进行聚合，即返回以车牌号码为key，“经度+纬度+GPS汇报时间”为value的TGR记录；然后利用map算子和sortBy算子将聚合的TGR数据根据车牌号码按照GPS汇报时间升序排列。此外，利用Spark的groupByKey算子将TTR数据按照车牌号码进行聚合，即返回以车牌号码为key，“乘客上车时间+乘客下车时间”为value的TTR记录。

数据查找单元：用于采用查找算法得到每一条与TTR记录(i)对应的TGR记录(j)；查找方式为：首先利用Spark的join算子将TTR数据和TGR数据根据车牌号码进行join(连接)操作，然后利用flatMap算子对每条TTR记录(i)使用二分查找法从按时间排好序的TGR数据中找到与TTR(i)的乘客上车时间或乘客下车时间靠近或相同的TGR记录(j)(GPS汇报时间与乘客上/下车时间靠近或一致)，并判断该TTR记录的乘客上车时间或乘客下车时间与该TGR记录的GPS汇报时间之间的时间差是否大于预定阀值MaxDuration，如果该TTR记录的乘客上车时间或乘客下车时间与该TGR记录的GPS汇报时间之间的时间差不大于预定阈值，则将该TGR记录(j)的经纬度坐标作为该TTR记录(i)的出租车上下客数据，最后利用Spark的saveAsTextFile函数将得到的出租车上下客数据存入HDFS。上述中，本发明仅以二分查找算法作为优选算法，在本发明其他实施例中，查找算法还包括顺序查找法、插值查找法等。

聚类模块：用于对提取的出租车上下客数据进行聚类，生成城市交通热点区域；其中，本发明通过对出租车上下客数据进行聚类，便于发掘出租车上下客事件发生次数超过设定阈值的聚集区域(即城市交通热点区域)，这些被发掘的城市交通热点区域能够有效体现城市的交通密度分布情况，可以近似看成是候选公交站点的乘客聚集区域。

(1)、空间距离计算定义

Dist＝Δσ*R(1)

(2)、Εps邻域

(3)、核心对象

(4)、直接密度可达

(5)、密度可达

(6)、密度相连

(7)、范围约束阈值DC

结合上述DC-DBSCAN算法核心定义的说明，聚类模块具体包括初始化单元、归类判断单元、核心对象判断单元、第一邻域检测单元、候选集合判断单元和第二邻域检测单元；具体地，

初始化单元：用于初始化出租车上下客数据集合D中的所有数据对象为未归类状态；

归类判断单元：用于判断出租车上下客数据集合D中是否存在未归类对象a，如果存在未归类对象a，通过核心对象判断单元判断未归类对象a是否是核心对象；否则算法结束；

核心对象判断单元：用于判断未归类对象a是否是核心对象，如果未归类对象a不是核心对象，标记未归类对象a为离群数据，并通过归类判断单元继续判断出租车上下客数据集合D中是否存在未归类对象；否则通过第一邻域检测单元检测未归类对象a的邻域；

第一邻域检测单元：用于检测未归类对象a的邻域，如果邻域内拥有的数据对象数量满足最小阈值MinPts，则新建一个类簇C，并将邻域内所有的数据对象加入候选集合N中；

候选集合判断单元：用于判断候选集合N是否为空，如果候选集合N为空，通过归类判断单元继续判断出租车上下客数据集合D中是否存在未归类对象，否则通过第二邻域检测单元检测候选集合N内还未被处理的数据对象b的邻域；

第二邻域检测单元：用于检测候选集合N内还未被处理的数据对象b的邻域，如果数据对象b的邻域内拥有的数据对象总数满足最小阈值MinPts，则将数据对象b的邻域内的所有数据对象添加到候选集合N内；此外，如果数据对象b未被归入任一类簇，并且加入数据对象b并不会使得类簇超过范围约束阈值DC，则将数据对象b加入类簇C，并通过候选集合判断单元继续判断候选集合N是否为空，直到候选集合N为空。

中心点计算模块：用于计算城市交通热点区域的中心点，将中心点作为该城市交通热点区域的候选公交站点；其中，基于DC-DBSCAN算法生成的交通热点区域能够有效体现城市的交通密度分布情况，为了获得候选公交站点的具体位置，本发明通过计算城市交通热点区域的中心点，并以此作为候选公交站点的具体位置。计算公式如下：

在公式(3)中，n为某一类簇C中所有数据对象的总数量；Dist(i,j)为数据对象i和数据对象j之间的相互距离，该距离可以通过公式(1)和公式(2)计算得到。对于任何一个类簇，本发明通过中心点计算模块计算该类簇中所有数据对象之间的相互距离，并将该类簇内与其他数据对象距离之和最少的数据对象作为该类簇的中心点，该中心点即代表候选公交站点的位置。即：通过公式(3)计算得到的中心点经纬度坐标即为候选公交站点的经纬度坐标。

图6是本发明实施例提供的计算候选公交站点的方法的硬件设备结构示意图，如图6所示，该设备包括一个或多个处理器以及存储器。以一个处理器为例，该设备还可以包括：输入装置和输出装置。

处理器、存储器、输入装置和输出装置可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的处理方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置可接收输入的数字或字符信息，以及产生信号输入。输出装置可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任一方法实施例的以下操作：

提取出租车上下客数据；

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例提供的方法。

本发明实施例提供了一种非暂态(非易失性)计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行以下操作：

提取出租车上下客数据；

本发明实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行以下操作：

提取出租车上下客数据；

本发明尤其适用于夜间候选公交站点或高峰候选公交站点的发掘，具体可根据站点类型选取不同时间段的出租车轨迹数据，例如，对于夜间候选公交站点的发掘，可选取夜间出租车轨迹数据，对于高峰候选公交站点的发掘，可选取高峰时间段的出租车轨迹数据等。为了进一步验证本发明的可行性和有效性，本发明采用深圳市真实的大规模夜间出租车轨迹数据作为实验数据(深圳市约15000辆出租车某月产生的全部GPS数据和交易数据)进行城市夜间候选公交站点的发掘，具体实验结果如下：

1、出租车上下客数据实验结果分析：

本发明采用分布式大数据计算框架Spark进行出租车上下客数据的提取，在Spark上采用Scala编程语言实现海量出租车数据的处理，将参数MaxDuration设为1分钟，从22:30～05:30每半小时内出租车上/下客事件发生次数如图7所示，为每半小时内出租车上/下客事件发生次数统计图。从该图中可以观察到以下信息：

(1)在22:30～05:30时间段内，出租车上/下客事件发生次数的规模非常大，这表明民众深夜出行的需求是巨大的；

(2)在不同时间段内出租车上/下客事件发生次数呈现非常明显的波动趋势：在22:30～00:30内出租车上/下客事件发生次数随着时间的推移不断增长，在00:00～00:30内达到了最大值。在00:30以后，出租车上/下客事件的发生次数出现显著下降趋势。在凌晨1点到1点半，出租车上/下客事件的数目迅速降为不到最大值的一半。

因此，本发明选择22:30～02:00时间段内的出租车上下客数据近似模拟民众夜间出行需要。

2、候选公交站点生成实验结果分析：

本发明提出的DC-DBSCAN算法包含如下3个输入参数：Eps,MinPts和DC。参数Eps表示邻域的最大半径，参数MinPts是对象Εps邻域内的最少数据对象数目，用来判断是否为核心对象，参数DC可以用来近似代表公交车站的服务半径。参数取不同的值会影响聚类结果，《中国城市道路交通规划设计规范》建议公交车站的服务区域在半径为500m-800m的圆形范围内，因此本发明将参数DC取值为500m。下面讨论当参数Eps和参数MinPts设置为多种数值时对DC-DBSCAN算法运算结果的影响。

如图8所示，为生成的类簇数目随参数Eps和MinPts的变化图。图中横坐标为Eps邻域的取值，不同颜色的折线代表取不同MinPts值时所产生的结果中类簇个数随Eps邻域变化的情况。当MinPts一定时，随着邻域Eps的增大，类簇个数先减少后呈缓慢上升趋势；当Eps一定的情况下，类簇个数随MinPts的增加而减少。如图9所示，为生成的类簇内平均上/下客点数目随参数Eps和MinPts的变化图。图中横坐标为Eps邻域的取值，不同颜色的折线代表取不同MinPts值时所产生的结果中类簇平均上/下客点数目随Eps邻域变化的情况。当MinPts一定时，随着邻域Eps的增大，类簇平均乘客上/下客点数目先增大后呈缓慢下降趋势；当Eps一定时，平均每个类簇中乘客上/下客点数目随MinPts的增大而增大。这是因为当MinPts一定时，Eps越大，对其继续扩展类簇的限制越宽松，所以产生的类簇个数越少，类簇平均上/下客点数目越多，但因为类簇存在距离约束，所以当Eps邻域大到一定程度，类簇平均上/下客点数目平缓减少，类簇个数缓慢增加。

已知目前深圳市已有将近400个夜间公交站点，所以根据多次实验结果及结合已有夜间公交站点布站的实际情况，本发明选择Eps＝450,MinPts＝30这组参数。最后产生的聚类结果如图10所示，为DC-DBSCAN算法聚类结果部分示例图。图中不同的颜色代表出租车上/下客点所属的不同类簇。

本发明实施例的计算候选公交站点的方法及系统基于大规模出租车轨迹数据来感知城市交通动态和人群的移动出行规律，在考虑公交站点服务范围的基础上，利用真实的大规模出租车轨迹数据发掘候选公交站点；本发明克服了传统出行调查费时费力效率低下、无法适应频繁变化的城市道路结构和交通需求的缺点，大幅度降低时间、人力、金钱成本，具备较高的效率；并能对城市公交站点的布设进行合理且高效地设计，在降低运营成本的同时还可以方便市民出行，能够较好地反映城市整体交通需求分布；同时，本发明考虑了划分城市交通热点区域的整体性以及城市公交站点的服务半径，为现阶段城市公交站点选址提供非常宝贵的参考依据。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种计算候选公交站点的方法，其特征在于，包括：

步骤a：提取出租车上下客数据；

2.根据权利要求1所述的计算候选公交站点的方法，其特征在于，在所述步骤a中，所述提取出租车上下客数据具体为：从出租车轨迹数据中提取出租车上下客数据；其中，所述出租车轨迹数据包括GPS数据和交易数据。

3.根据权利要求2所述的计算候选公交站点的方法，其特征在于，在所述步骤a中，所述提取出租车上下客数据具体包括：

步骤a1：加载出租车GPS数据和交易数据；

步骤a2：将所述GPS数据按照GPS汇报时间升序排列；

4.根据权利要求3所述的计算候选公交站点的方法，其特征在于，在所述步骤a1中，所述加载出租车GPS数据和交易数据具体包括：将出租车GPS数据和交易数据读入内存，从所述出租车GPS数据中获取TGR数据，从所述交易数据中获取TTR数据；所述TGR数据中的每一条TGR记录分别包含车牌号码、经度、纬度和GPS汇报时间，所述TTR数据中的每一条TTR记录分别包含车牌号码、乘客上车时间和乘客下车时间，所述TTR数据中的乘客上车时间和乘客下车时间与TGR数据中的GPS汇报时间相对应。

5.根据权利要求4所述的计算候选公交站点的方法，其特征在于，在所述步骤a2中，所述将GPS数据按照GPS汇报时间升序排列具体包括：将TGR数据和TTR数据分别按照车牌号码进行聚合，返回以车牌号码为key，“经度+纬度+GPS汇报时间”为value的TGR记录，以及以车牌号码为key，“乘客上车时间+乘客下车时间”为value的TTR记录，并将聚合后的TGR数据根据车牌号码按照GPS汇报时间升序排列。

6.根据权利要求5所述的计算候选公交站点的方法，其特征在于，在所述步骤a3中，所述从升序排列的GPS数据和交易数据中找到GPS汇报时间与乘客上车时间或乘客下车时间相对应的GPS记录和交易记录具体包括：将所述TTR数据和TGR数据根据车牌号码进行连接操作，对TTR数据中的每条TTR记录，使用二分查找法从所述TGR数据中找到GPS汇报时间与该TTR记录的乘客上车时间或乘客下车时间靠近或相同的TGR记录，并判断该TTR记录的乘客上车时间或乘客下车时间与该TGR记录的GPS汇报时间之间的时间差是否大于预定阀值，如果该TTR记录的乘客上车时间或乘客下车时间与该TGR记录的GPS汇报时间之间的时间差不大于预定阈值，则将该TGR记录的经纬度坐标作为该条TTR记录的出租车上下客数据。

7.根据权利要求1所述的计算候选公交站点的方法，其特征在于，在所述步骤b中，所述对提取的出租车上下客数据进行聚类具体包括：

步骤b3：标记所述未归类对象为离群数据，并返回步骤b1；

8.根据权利要求7所述的计算候选公交站点的方法，其特征在于，在所述步骤c中，所述计算城市交通热点区域的中心点具体为：计算任一类簇中所有数据对象之间的相互距离，并将该类簇内与其他数据对象距离之和最少的数据对象作为该类簇的中心点，该中心点即为所述城市交通热点区域的中心点。

9.一种计算候选公交站点的系统，其特征在于，包括：

数据提取模块：用于提取出租车上下客数据；

10.根据权利要求9所述的计算候选公交站点的系统，所述数据提取模块提取出租车上下客数据的方式具体为：从出租车轨迹数据中提取出租车上下客数据；其中，所述出租车轨迹数据包括GPS数据和交易数据。

11.根据权利要求10所述的计算候选公交站点的系统，其特征在于，所述数据提取模块包括：

数据加载单元：用于加载出租车GPS数据和交易数据；

12.根据权利要求11所述的计算候选公交站点的系统，其特征在于，所述数据加载单元加载出租车GPS数据和交易数据具体为：将出租车GPS数据和交易数据读入内存，从所述出租车GPS数据中获取TGR数据，从所述交易数据中获取TTR数据；所述TGR数据中的每一条TGR记录分别包含车牌号码、经度、纬度和GPS汇报时间，所述TTR数据中的每一条TTR记录分别包含车牌号码、乘客上车时间和乘客下车时间，所述TTR数据中的乘客上车时间和乘客下车时间与TGR数据中的GPS汇报时间相对应。

13.根据权利要求12所述的计算候选公交站点的系统，其特征在于，所述数据排序单元将GPS数据按照GPS汇报时间升序排列具体为：将TGR数据和TTR数据分别按照车牌号码进行聚合，返回以车牌号码为key，“经度+纬度+GPS汇报时间”为value的TGR记录，以及以车牌号码为key，“乘客上车时间+乘客下车时间”为value的TTR记录，并将聚合后的TGR数据根据车牌号码按照GPS汇报时间升序排列。

14.根据权利要求13所述的计算候选公交站点的系统，其特征在于，所述数据查找单元从升序排列的GPS数据和交易数据中找到GPS汇报时间与乘客上车时间或乘客下车时间相对应的GPS记录和交易记录具体为：将所述TTR数据和TGR数据根据车牌号码进行连接操作，对TTR数据中的每条TTR记录，使用二分查找法从所述TGR数据中找到GPS汇报时间与该TTR记录的乘客上车时间或乘客下车时间靠近或相同的TGR记录，并判断该TTR记录的乘客上车时间或乘客下车时间与该TGR记录的GPS汇报时间之间的时间差是否大于预定阀值，如果该TTR记录的乘客上车时间或乘客下车时间与该TGR记录的GPS汇报时间之间的时间差不大于预定阈值，则将该TGR记录的经纬度坐标作为该条TTR记录的出租车上下客数据。

15.根据权利要求9所述的计算候选公交站点的系统，其特征在于，所述聚类模块包括归类判断单元、核心对象判断单元、第一邻域检测单元、候选集合判断单元和第二邻域检测单元；

16.根据权利要求15所述的计算候选公交站点的系统，其特征在于，所述中心点计算模块计算城市交通热点区域的中心点的计算方式为：计算任一类簇中所有数据对象之间的相互距离，并将该类簇内与其他数据对象距离之和最少的数据对象作为该类簇的中心点，该中心点即为所述城市交通热点区域的中心点。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述1至8任一项所述的计算候选公交站点的方法的以下操作：

提取出租车上下客数据；