CN112069229A

CN112069229A - 一种面向移动轨迹大数据的最佳候车点推荐方法及系统

Info

Publication number: CN112069229A
Application number: CN202010877514.0A
Authority: CN
Inventors: 夏大文; 白宇; 郑永玲; 杨楠; 蒋顺英; 李华青; 孟庆欣; 冯夫健; 蔡静; 余江浩; 王林
Original assignee: Guizhou Minzu University
Current assignee: Guizhou Minzu University
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-12-11
Anticipated expiration: 2040-08-27
Also published as: CN112069229B

Abstract

本发明公开了一种面向移动轨迹大数据的最佳候车点推荐方法及系统，其中方法包括以下步骤：S1：获取车辆的移动轨迹数据；S2：对移动轨迹数据进行预处理，获得车辆上下客热点数据；S3:根据上下客热点数据构建并行SP‑DBSCAN算法；S4：使用SP‑DBSCAN算法进行聚类分析，获得多个候车点推荐区域；S5:根据多个候车点推荐区域，获取每个候车点推荐区域的多个质心；S6:根据多个质心以及乘客的位置推荐最佳候车点，最佳候车点为多个质心中的一个或多个，构建并行SP‑DBSCAN算法，并使用SP‑DBSCAN算法进行聚类分析，获得候车点推荐区域，以及根据候车点推荐区域获得最佳候车点，解决了基于移动轨迹大数据的最佳候车点推荐的分布式存储和并行计算的技术问题，处理大规模移动轨迹数据效率高。

Description

一种面向移动轨迹大数据的最佳候车点推荐方法及系统

技术领域

本发明涉及面向移动轨迹大数据的候车位置推荐领域，尤其涉及一种面向移动轨迹大数据的最佳候车点推荐方法及系统。

背景技术

伴随数据技术(DT,Data Technology)的迅猛发展，移动轨迹大数据挖掘分析已成为解决交通拥堵等城市问题的新理念和新实践，应用大数据方法和技术有助于实现人-自然-环境的和谐发展，提高城市的宜居程度，为政府实施智能交通精准管理提供基于数据证据的综合决策。但随着交通大数据呈指数级增长，传统方法和技术已不能满足大规模交通数据的存储和计算需求。近年来，并行分布式计算为移动轨迹大数据的深度挖掘和高效分析提供了新途径。

传统的最佳候车点推荐方法并未考虑乘客流动性等特点，尤其是随着交通大数据的爆炸式增长，现有串行算法在基于传统单机集中式挖掘平台的最佳候车点推荐时存在“内存消耗与I/O开销高、处理效率低和可扩展性能差”的技术问题，无法有效解决基于移动轨迹大数据的最佳候车点推荐的分布式存储和并行计算的技术问题。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种面向移动轨迹大数据的最佳候车点推荐方法及系统，有效解决基于移动轨迹大数据的最佳候车点推荐的分布式存储和并行计算的技术问题。

本发明解决上述技术问题的技术方案如下：一种面向移动轨迹大数据的最佳候车点推荐方法，包括以下步骤：

S1:获取车辆的移动轨迹数据；

S2:对所述移动轨迹数据进行预处理，获得车辆上下客热点数据；

S3:根据所述上下客热点数据构建并行SP-DBSCAN算法；

S4：使用所述SP-DBSCAN算法进行聚类分析，获得多个候车点推荐区域；

S5:根据所述多个候车点推荐区域，获取每个候车点推荐区域的多个质心；

S6:根据所述多个质心以及乘客的位置推荐最佳候车点，所述最佳候车点为所述多个质心中的一个或多个。

本发明的有益效果是，构建并行SP-DBSCAN算法，并使用SP-DBSCAN算法进行聚类分析，获得候车点推荐区域，以及根据候车点推荐区域获得最佳候车点，解决了基于移动轨迹大数据的最佳候车点推荐的分布式存储和并行计算的技术问题，处理大规模移动轨迹数据效率高，候车点位置推荐准确。

进一步，在Hadoop分布式计算平台下，基于Spark并行处理框架，所述S2具体包括：

S201:根据所述移动轨迹数据提取运营状态连续为011的轨迹数据，其中空车状态记为0，载客状态记为1；

S202:对所述运营状态连续为011的轨迹数据进行数据剔除，仅保留经度和纬度数据；

S203:根据所述经度和纬度数据，建立N×2的稠密矩阵的RDD弹性分布数据集作为所述上下客热点数据。

采用上述进一步方案的有益效果是，将移动轨迹数据进行了数据提取、数据过滤以及构建N×2的稠密矩阵的RDD弹性分布数据集，通过在Hadoop分布式计算平台下，基于Spark并行处理框架解决了移动轨迹大数据的分布式存储和并行计算的技术问题，此外选择状态为011的轨迹数据而不是直接采用状态为01的数据，进一步降低乘客由于上错车等短时间上车又下车的情况而造成的误差。

进一步，所述S201具体包括：

S2011:读取HDFS文件中的移动轨迹数据，并转化为Spark中的RDD弹性分布数据集；

S2012:对所述RDD弹性分布数据集进行分片并过滤掉GPS状态为0的数据，获得第一保留数据，所述第一保留数据包括车辆ID、运营状态、时间、经度和纬度信息；

S2013:将所述第一保留数据按照车辆ID排序，查找相同车辆ID运营状态连续为011的轨迹数据；

S2014:保留所述运营状态连续为011的轨迹数据。

采用上述进一步方案的有益效果是，将移动轨迹数据中GPS状态为0的数据去除，减少运算量，加快运算速率。

进一步，所述S3具体包括:

S301:根据所述上下客热点数据和DBSCAN算法得出聚类上客率，更新MinPts的选值；

S302:将更新后的MinPts带入轮廓系数，并设置Eps增值范围,获得最优Eps参数；

S303:根据所述最优Eps参数构建并行SP-DBSCAN算法。

采用上述进一步方案的有益效果是，先通过聚类上客率对MinPts进行更新，降低低密度聚类出现的概率，确保聚类所得区域内的上客率较高；其次，提出一定区域的Eps增加值，结合更新后的MinPts和轮廓系数对其Eps进行更新，解决基于Spark的RDD数据集进行数据分区时，由于聚类边界点未被正确识别而造成最终聚类结果不理想的问题。

进一步，获得所述S301中更新MinPts的选值具体过程为：

将所述聚类上客率进行排序并构建折线图，选取所述折线图中转折处明显向下的两个聚类，并计算所述两个聚类的均值，所述均值为更新MinPts的选值。

进一步，所述S302中最优Eps参数为使得所述轮廓系数得分最高的Eps参数。

进一步，所述S5具体包括：

S501:使用K-means算法对所述多个候车点推荐区域进行再次聚类，获得每个候车点推荐区域的多个质心。

采用上述进一步方案的有益效果是，由于街道的形态通常有“L”型或者“U”型，若乘客位于“L”型或者“U”型左端时，由于高楼等建筑物遮挡，如果为其推荐右端候车，乘客可能需要行走一段较长很长距离才能到达右端候车点，显然不够合理，针对不同初始位置的乘客，提供适合于该乘客的候车点才是最佳候车点；先通过使用SP-DBSCAN算法进行聚类求得候车点推荐区域后，由于此时聚类结果已排除噪声点，再使用K-Means求质心得出最佳候车点效果较为理想。

进一步，所述质心的数量为两个。

进一步，所述最佳候车点为距离乘客位置的直线距离最近的一个或多个质心。

一种面向移动轨迹大数据的最佳候车点推荐系统，包括：数据获取模块、数据预处理模块、算法构建模块、候车点推荐模块；

所述数据获取模块，用于获取车辆的移动轨迹数据并发送至所述数据预处理模块；

所述数据预处理模块，用于对所述移动轨迹数据进行预处理，获得车辆上下客热点数据并发送至所述算法构建模块；

所述算法构建模块用于根据所述上下客热点数据构建并行SP-DBSCAN算法，并且使用所述SP-DBSCAN算法进行聚类分析，获得多个候车点推荐区域并发送至所述候车点推荐模块；

所述候车点推荐模块用于根据所述多个候车点推荐区域，获取每个候车点推荐区域的多个质心，根据所述多个质心以及乘客的位置推荐最佳候车点，所述最佳候车点为所述多个质心中的一个或多个。

进一步，所述数据预处理模块包括数据过滤单元、数据提取单元和数据建立单元，在Hadoop分布式计算平台下，基于Spark并行处理框架获得上下客热点数据的过程为：

所述数据过滤单元用于根据所述移动轨迹数据提取运营状态连续为011的轨迹数据，其中空车状态记为0，载客状态记为1，并发送至所述数据提取单元；

所述数据提取单元用于对所述运营状态连续为011的轨迹数据进行数据剔除，仅保留经度和纬度数据并发送至所述数据建立单元；

所述数据建立单元用于根据所述经度和纬度数据，建立N×2的稠密矩阵的RDD弹性分布数据集作为所述上下客热点数据。

进一步，所述数据过滤单元提取运营状态连续为011的轨迹数据的过程为：

读取HDFS文件中的移动轨迹数据，并转化为Spark中的RDD弹性分布数据集；

对所述RDD弹性分布数据集进行分片并过滤掉GPS状态为0的数据，获得第一保留数据，所述第一保留数据包括车辆ID、运营状态、时间、经度和纬度信息；

将所述第一保留数据按照车辆ID排序，查找相同车辆ID运营状态连续为011的轨迹数据；保留所述运营状态连续为011的轨迹数据。

进一步，所述算法构建模块根据所述上下客热点数据构建并行SP-DBSCAN算法的过程为:

根据所述上下客热点数据和DBSCAN算法得出聚类上客率，更新MinPts的选值；

将更新后的MinPts带入轮廓系数，并设置Eps增值范围,获得最优Eps参数；

根据所述最优Eps参数构建并行SP-DBSCAN算法。

采用上述进一步方案的有益效果是，先通过聚类上客率对MinPts进行更新，降低低密度聚类出现的概率，确保聚类所得区域内的上客率较高；其次，提出一定区域的Eps增加值，结合更新后的MinPts以及轮廓系数对其Eps进行更新，解决在Spark的RDD数据集下进行数据分区时，由于聚类的边界点未被正确识别而造成最终聚类结果不理想的问题。

进一步，所述SP-DBSCAN算法更新MinPts的选值具体过程为：

进一步，所述Eps最优参数为使得所述轮廓系数得分最高的Eps参数。

进一步，所述最佳候车点推荐模块获取每个候车点推荐区域的多个质心，的具体过程为：使用K-means算法对所述多个候车点推荐区域进行再次聚类，获得每个候车点推荐区域的多个质心。

采用上述进一步方案的有益效果是，由于街道的形态常常有“L”型或者“U”型，若乘客位于“L”型或者“U”型左端时，由于高楼等建筑物遮挡，如果为其推荐右端候车，乘客可能需要行走一段较长距离才能到达右端候车点，显然不合理，针对不同初始位置的乘客，提供适合于该乘客的候车点才是最佳候车点；先通过使用SP-DBSCAN算法进行聚类求得候车点推荐区域后，由于此时聚类结果已排除噪声点，再使用K-Means求质心得出最佳候车点效果较为理想。

进一步，所述质心的数量为两个。

进一步，所述最佳候车点为距离乘客的位置的直线距离最近的一个或多个质心。

本发明中名词解释如表1所示：

表1

附图说明

图1为本发明一种面向移动轨迹大数据的最佳候车点推荐方法流程图；

图2为本发明一个实施例流程图；

图3为本发明一种面向移动轨迹大数据的最佳候车点推荐系统框架图；

图4为本发明一个实施例中Hadoop通过HDFS、Spark分别实现分布式存储和并行计算的功能图；

图5为本发明HDFS进程通信框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参照图1，一种面向移动轨迹大数据的最佳候车点推荐方法，包括以下步骤：

S1:获取车辆的移动轨迹数据；

S2:对移动轨迹数据进行预处理，获得车辆上下客热点数据；

S3:根据上下客热点数据构建并行SP-DBSCAN算法；

S4：使用SP-DBSCAN算法进行聚类分析，获得多个候车点推荐区域；

S5:根据多个候车点推荐区域，获取每个候车点推荐区域的多个质心；

S6:根据多个质心以及乘客的位置推荐最佳候车点，最佳候车点为多个质心中的一个或多个。

构建并行SP-DBSCAN算法，并使用SP-DBSCAN算法进行聚类分析，获得候车点推荐区域，以及根据候车点推荐区域获得最佳候车点，解决了基于移动轨迹大数据的最佳候车点推荐的分布式存储和并行计算的技术问题，处理大规模移动轨迹数据效率高，候车点位置推荐准确。

在本实施例中，采用出租车GPS轨迹数据，对数据进行提取，过滤之后，利用并行SP-DBSCAN算法得出多个候车点推荐区域，确保乘客在区域游走时搭车成功率仍然较大。

在Hadoop分布式计算平台下，基于Spark并行处理框架，S2具体包括：

S201:根据移动轨迹数据提取运营状态连续为011的轨迹数据，其中空车状态记为0，载客状态记为1；

S202:对运营状态连续为011的轨迹数据进行数据剔除，仅保留经度和纬度数据；

S203:根据经度和纬度数据，建立N×2的稠密矩阵的RDD弹性分布数据集作为上下客热点数据。

将移动轨迹数据进行了数据提取、数据过滤以及构建N×2的稠密矩阵的RDD弹性分布数据集，通过在Hadoop分布式计算平台下，基于Spark并行处理框架解决了移动轨迹大数据的分布式存储和并行计算的技术问题，此外选择状态为011的轨迹数据而不是直接采用状态为01的数据，进一步降低乘客由于上错车等短时间上车又下车的情况而造成的误差。在本实施例中，仅需使用经度和纬度数据即可得出较好效果，因此去除其余数据信息。

S201具体包括：

S2012:对RDD弹性分布数据集进行分片并过滤掉GPS状态为0的数据，获得第一保留数据，第一保留数据包括车辆I D、运营状态、时间、经度和纬度信息；

S2013:将第一保留数据按照车辆I D排序，查找相同车辆I D运营状态连续为011的轨迹数据；

S2014:保留运营状态连续为011的轨迹数据。

将移动轨迹数据中GPS状态为0的数据去除，减少运算量，加快运算速率。在本实施例中，数据分片是指：所谓分布式系统，通俗的理解就是利用多个独立的计算机来解决单个计算机无法处理的存储、计算问题，是非常典型的分而治之的思想。每台计算机只负责整个系统需要完成的任务的一个子集，那么整个系统需要完成的任务如何拆分到多台计算机，为此在分布式存储系统中，数据需要被拆分并交由多个任务执行。

ApacheHadoop架构：

ApacheHadoop是一种可靠、可扩展的开源分布式计算架构，能在由大量廉价硬件所组成的集群中为应用程序提供稳定可靠的接口。它充分利用集群的计算与存储能力，构建可靠性高、容错性强、可伸缩和可扩展的大数据批量处理架构，实现大规模数据的分布式存储与并行计算。

HDFS和MapReduce是Hadoop架构的核心组件，也是基于GFS(GoogleFileSystem,谷歌文件系统)和GoogleMapReduce的开源实现。Hadoop通过HDFS、MapReduce分别实现分布式存储和并行计算，并由NameNode和DataNode完成HDFS功能、JobTracker和TaskTracker完成MapReduce功能。此外，Hadoop还包括HadoopCommon、HadoopYARN、Ambari、Avro、Cassandra、Chukwa、HBase、Hive、Mahout、Pig、Spark、Tez和ZooKeeper等。

Hadoop分布式文件系统(HDFS)：

HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)是一种可部署在廉价硬件上实现高吞吐量并行数据访问的分布式文件系统，能提供高性能、强容错、可靠的存储大规模数据。参照图5，HDFS采用Master(服务器)/Slave(客户端)运行模式，由一个NameNode(管理者)节点、多个DataNode(工作者)节点和HDFSClient组成，并通过Hadoop的RPC机制实现NameNode、DataNode与HDFSClient进程之间的通信。

Spark并行编程模型：

Spark是一种能处理大规模数据集的并行编程模型(常称为“Spark并行处理框架”)，能在由成百上千台服务器所组成的Hadoop集群上执行并行计算任务参照图4。其主要思想就是RDD(ResilientDistributedDataset)，把所有计算的数据保存在分布式的内存中。主要通过ClusterManager在集群上获取资源的外部服务；利用WorkerNode运行集群中应用代码的节点；Executor是在一个workernode上为启动应用的一个进程，负责运行任务，以及负责将数据存于内存或磁盘，每个应用都有各自独立的executors。执行完Task后，将结果返回至Driver端。

S3具体包括:

S301:根据上下客热点数据和DBSCAN算法得出聚类上客率，更新MinPts的选值；

S303:根据最优Eps参数构建并行SP-DBSCAN算法。

先通过聚类上客率对MinPts进行更新，降低低密度聚类出现的概率，确保聚类所得区域内的上客率较高；其次，提出一定区域的Eps增加值，结合更新后的MinPts以及轮廓系数对其Eps进行更新，解决基于Spark的RDD数据集进行数据分区时，由于聚类的边界点未被正确识别而造成最终聚类结果不理想的问题。

获得S301中更新MinPts的选值具体过程为：

将聚类上客率进行排序并构建折线图，选取折线图中转折处明显向下的两个聚类，并计算两个聚类的均值，均值为更新MinPts的选值。

S302中最优Eps参数为使得轮廓系数得分最高的Eps参数。

S5具体包括：

S501:使用K-means算法对多个候车点进行再次聚类，获得每个候车点推荐区域的多个质心。

由于街道的形态常常有“L”型或者“U”型，若乘客位于“L”型或者“U”型左端时，由于高楼等建筑物遮挡，如果为其推荐右端候车，乘客可能需要行走一段较长距离才能到达右端候车点，显然不合理，针对不同初始位置的乘客，提供适合于该乘客的候车点才是最佳候车点；先通过使用SP-DBSCAN算法进行聚类求得候车点推荐区域后，由于此时聚类结果已排除噪声点，再使用K-Means求质心得出最佳候车点效果较为理想。

质心的数量为两个。

最佳候车点为距离乘客位置的直线距离最近的一个或多个质心。

DBSCAN聚类算法根据密度对数据进行聚类。优势在于不需要对聚类数目进行设置，且聚类形状不受约束。DBSCAN算法包括以下4个定义：

1:参数Eps：确定点p搜索领域半径；MinPts：点p领域半径内所包含点数必须大于MinPts。

2:核心点：若点p满足在Eps领域内所包含的点大于MinPts，则点p为核心点。

3:边缘点：该点与核心点距离等于Eps，但其本身并不属于核心点，即该点Eps领域内的点小于MinPts。

4:离群点：该点又称为噪声点，即此点在Eps领域内的点小于MinPts，但是此点并非由核心点关联得到，而是一个单独点。

传统DBSCAN算法采用欧氏距离进行两点间距离计算，虽然此距离公式应用广泛，但在移动轨迹大数据中，测量效果并不理想。在本实施例中采用带有球面距离的DBSCAN算法，球面距离公式假设地球是一个球体，球面两点间的距离等于这两点间的一段劣弧长度。对于球面两点A(x₁,y₁)、B(x₂,y₂)，根据球面距离公式可得出两点间距离，具体公式如(1)所示。

其中，S表示A、B两点间的距离，a为A，B两点间的纬度之差，b为A，B两点间的经度之差，R为地球半径。

DBSCAN算法存在的另一个问题是敏感于参数设置，尤其是对于具有一定条件的区域而言参数设置更为苛刻。在本实施例中，针对具有一定流动性的乘客，参数选取条件应为：Eps一定范围内的MinPts最大化。对此，在本申请中，基于Spark并行的SP-DBSCAN算法，可根据聚类上客率与轮廓系数实现参数Eps与MinPts更新，得出理想聚类区域，即候车点推荐区域。Eps变化范围应设为正向小范围增加，原因在于：(1)MinPts值变化后，初始的Eps值并不一定是最优，且初始Eps值为根据需求而进行设置，若更新前后数值过大，则与理想值差距过远；(2)由于该算法基于Spark框架，必然面对数据分区，在各个分区聚类时，由于Eps的限制，边界点的查找会直接影响最终的聚类结果。

本实施例的实施原理：参照图2，通过将HDFS中移动轨迹数据依次进行数据过滤、数据提取和数据选择后再建立N×2的稠密矩阵的RDD弹性分布数据集作为上下客热点数据，再根据上下客热点数据和DBSCAN算法得出聚类上客率，更新MinPts的选值，将更新后的MinPts带入轮廓系数，获得最优Eps参数，构建并行SP-DBSCAN算法，再进行聚类分析获得多个更新局部聚类，即候车点推荐区域，再获得每个候车点推荐区域内的多个质心，最后根据客户的位置选择直线距离最近的质心作为最佳候车推荐点。

实施例2

参照图3，在实施例1的基础上，一种面向移动轨迹大数据的最佳候车点推荐系统，包括：数据获取模块、数据预处理模块、算法构建模块、候车点推荐模块；

数据获取模块，用于获取车辆的移动轨迹数据并发送至数据预处理模块；

数据预处理模块，用于对移动轨迹数据进行预处理，获得车辆上下客热点数据并发送至算法构建模块；

算法构建模块用于根据上下客热点数据构建并行SP-DBSCAN算法，并且使用SP-DBSCAN算法进行聚类分析，获得多个候车点推荐区域并发送至候车点推荐模块；

候车点推荐模块用于根据多个候车点推荐区域，获取每个候车点推荐区域的多个质心，根据多个质心以及乘客的位置推荐最佳候车点，最佳候车点为多个质心中的一个或多个。

数据预处理模块包括数据过滤单元、数据提取单元和数据建立单元，在Hadoop分布式计算平台下，基于Spark并行处理框架获得上下客热点数据的过程为：

数据过滤单元用于根据移动轨迹数据提取运营状态连续为011的轨迹数据，其中空车状态记为0，载客状态记为1，并发送至数据提取单元；

数据提取单元用于对运营状态连续为011的轨迹数据进行数据剔除，仅保留经度和纬度数据并发送至数据建立单元；

数据建立单元用于根据经度和纬度数据，建立N×2的稠密矩阵的RDD弹性分布数据集作为上下客热点数据。

将移动轨迹数据进行了数据提取、数据过滤以及构建N×2的稠密矩阵的RDD弹性分布数据集，通过在Hadoop分布式计算平台下，基于Spark并行处理框架解决了移动轨迹大数据的分布式存储和并行计算的技术问题，此外选择状态为011的轨迹数据而不是直接采用状态为01的数据，进一步降低乘客由于上错车等短时间上车又下车的情况而造成的误差。

数据过滤单元提取运营状态连续为011的轨迹数据的过程为：

对RDD弹性分布数据集进行分片并过滤掉GPS状态为0的数据，获得第一保留数据，第一保留数据包括车辆ID、运营状态、时间、经度和纬度信息；

将第一保留数据按照车辆ID排序，查找相同车辆ID运营状态连续为011的轨迹数据；保留运营状态连续为011的轨迹数据。

将移动轨迹数据中GPS状态为0的数据去除，减少运算量，加快运算速率。

算法构建模块根据上下客热点数据构建并行SP-DBSCAN算法的过程为:

根据上下客热点数据和DBSCAN算法得出聚类上客率，更新MinPts的选值；

根据最优Eps参数构建并行SP-DBSCAN算法。

先通过聚类上客率对MinPts进行更新，降低低密度聚类出现的概率，确保聚类所得区域内的上客率较高；其次，提出一定区域的Eps增加值，结合更新后的MinPts和轮廓系数对其Eps进行更新，解决基于Spark的RDD数据集进行数据分区时，由于聚类的边界点未被正确识别而造成最终聚类结果不理想的问题。

SP-DBSCAN算法更新MinPts的选值具体过程为：

Eps最优参数为使得轮廓系数得分最高的Eps参数。

最佳候车点推荐模块获取每个候车点推荐区域的多个质心的具体过程为：使用K-means算法对多个候车点进行再次聚类，获得每个候车点推荐区域的多个质心。

质心的数量为两个。最佳候车点为距离乘客位置的直线距离最近的一个或多个质心。

以上对本发明实施例所提供的技术方案进行了详细介绍，本专利中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明实施例的原理；同时，对于本领域的一般技术人员，依据本发明实施例，在具体实施方式以及应用范围上均会有改变之处，即应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。

Claims

1.一种面向移动轨迹大数据的最佳候车点推荐方法，其特征在于，包括以下步骤：

S1:获取车辆的移动轨迹数据；

S3:根据所述上下客热点数据构建并行SP-DBSCAN算法；

2.根据权利要求1所述的方法，其特征在于，在Hadoop分布式计算平台下，基于Spark并行处理框架，所述S2具体包括：

3.根据权利要求2所述的方法，其特征在于，所述S201具体包括：

S2014:保留所述运营状态连续为011的轨迹数据。

4.根据权利要求1所述的方法，其特征在于，所述S3具体包括:

S303:根据所述最优Eps参数构建并行SP-DBSCAN算法。

5.根据权利要求4所述的方法，其特征在于，获得所述S301中更新MinPts的选值具体过程为：

6.根据权利要求4所述的方法，其特征在于，所述S302中最优Eps参数为使得所述轮廓系数得分最高的Eps参数。

7.根据权利要求1-6任一所述的方法，其特征在于，所述S5具体包括：

8.根据权利要求7所述的方法，其特征在于，所述质心的数量为两个。

9.根据权利要求1-6任一所述的方法，其特征在于,所述最佳候车点为距离乘客位置的直线距离最近的一个或多个质心。

10.一种面向移动轨迹大数据的最佳候车点推荐系统，其特征在于，包括：数据获取模块、数据预处理模块、算法构建模块、候车点推荐模块；