CN112069229A - 一种面向移动轨迹大数据的最佳候车点推荐方法及系统 - Google Patents
一种面向移动轨迹大数据的最佳候车点推荐方法及系统 Download PDFInfo
- Publication number
- CN112069229A CN112069229A CN202010877514.0A CN202010877514A CN112069229A CN 112069229 A CN112069229 A CN 112069229A CN 202010877514 A CN202010877514 A CN 202010877514A CN 112069229 A CN112069229 A CN 112069229A
- Authority
- CN
- China
- Prior art keywords
- data
- waiting point
- moving track
- optimal
- waiting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 68
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000007621 cluster analysis Methods 0.000 claims abstract description 10
- 238000001914 filtration Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 230000000717 retained effect Effects 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 16
- 238000013075 data extraction Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000000638 solvent extraction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 240000000797 Hibiscus cannabinus Species 0.000 description 1
- 235000002905 Rumex vesicarius Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Remote Sensing (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Fuzzy Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种面向移动轨迹大数据的最佳候车点推荐方法及系统,其中方法包括以下步骤:S1:获取车辆的移动轨迹数据;S2:对移动轨迹数据进行预处理,获得车辆上下客热点数据;S3:根据上下客热点数据构建并行SP‑DBSCAN算法;S4:使用SP‑DBSCAN算法进行聚类分析,获得多个候车点推荐区域;S5:根据多个候车点推荐区域,获取每个候车点推荐区域的多个质心;S6:根据多个质心以及乘客的位置推荐最佳候车点,最佳候车点为多个质心中的一个或多个,构建并行SP‑DBSCAN算法,并使用SP‑DBSCAN算法进行聚类分析,获得候车点推荐区域,以及根据候车点推荐区域获得最佳候车点,解决了基于移动轨迹大数据的最佳候车点推荐的分布式存储和并行计算的技术问题,处理大规模移动轨迹数据效率高。
Description
技术领域
本发明涉及面向移动轨迹大数据的候车位置推荐领域,尤其涉及一种面向移动轨迹大数据的最佳候车点推荐方法及系统。
背景技术
伴随数据技术(DT,Data Technology)的迅猛发展,移动轨迹大数据挖掘分析已成为解决交通拥堵等城市问题的新理念和新实践,应用大数据方法和技术有助于实现人-自然-环境的和谐发展,提高城市的宜居程度,为政府实施智能交通精准管理提供基于数据证据的综合决策。但随着交通大数据呈指数级增长,传统方法和技术已不能满足大规模交通数据的存储和计算需求。近年来,并行分布式计算为移动轨迹大数据的深度挖掘和高效分析提供了新途径。
传统的最佳候车点推荐方法并未考虑乘客流动性等特点,尤其是随着交通大数据的爆炸式增长,现有串行算法在基于传统单机集中式挖掘平台的最佳候车点推荐时存在“内存消耗与I/O开销高、处理效率低和可扩展性能差”的技术问题,无法有效解决基于移动轨迹大数据的最佳候车点推荐的分布式存储和并行计算的技术问题。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种面向移动轨迹大数据的最佳候车点推荐方法及系统,有效解决基于移动轨迹大数据的最佳候车点推荐的分布式存储和并行计算的技术问题。
本发明解决上述技术问题的技术方案如下:一种面向移动轨迹大数据的最佳候车点推荐方法,包括以下步骤:
S1:获取车辆的移动轨迹数据;
S2:对所述移动轨迹数据进行预处理,获得车辆上下客热点数据;
S3:根据所述上下客热点数据构建并行SP-DBSCAN算法;
S4:使用所述SP-DBSCAN算法进行聚类分析,获得多个候车点推荐区域;
S5:根据所述多个候车点推荐区域,获取每个候车点推荐区域的多个质心;
S6:根据所述多个质心以及乘客的位置推荐最佳候车点,所述最佳候车点为所述多个质心中的一个或多个。
本发明的有益效果是,构建并行SP-DBSCAN算法,并使用SP-DBSCAN算法进行聚类分析,获得候车点推荐区域,以及根据候车点推荐区域获得最佳候车点,解决了基于移动轨迹大数据的最佳候车点推荐的分布式存储和并行计算的技术问题,处理大规模移动轨迹数据效率高,候车点位置推荐准确。
进一步,在Hadoop分布式计算平台下,基于Spark并行处理框架,所述S2具体包括:
S201:根据所述移动轨迹数据提取运营状态连续为011的轨迹数据,其中空车状态记为0,载客状态记为1;
S202:对所述运营状态连续为011的轨迹数据进行数据剔除,仅保留经度和纬度数据;
S203:根据所述经度和纬度数据,建立N×2的稠密矩阵的RDD弹性分布数据集作为所述上下客热点数据。
采用上述进一步方案的有益效果是,将移动轨迹数据进行了数据提取、数据过滤以及构建N×2的稠密矩阵的RDD弹性分布数据集,通过在Hadoop分布式计算平台下,基于Spark并行处理框架解决了移动轨迹大数据的分布式存储和并行计算的技术问题,此外选择状态为011的轨迹数据而不是直接采用状态为01的数据,进一步降低乘客由于上错车等短时间上车又下车的情况而造成的误差。
进一步,所述S201具体包括:
S2011:读取HDFS文件中的移动轨迹数据,并转化为Spark中的RDD弹性分布数据集;
S2012:对所述RDD弹性分布数据集进行分片并过滤掉GPS状态为0的数据,获得第一保留数据,所述第一保留数据包括车辆ID、运营状态、时间、经度和纬度信息;
S2013:将所述第一保留数据按照车辆ID排序,查找相同车辆ID运营状态连续为011的轨迹数据;
S2014:保留所述运营状态连续为011的轨迹数据。
采用上述进一步方案的有益效果是,将移动轨迹数据中GPS状态为0的数据去除,减少运算量,加快运算速率。
进一步,所述S3具体包括:
S301:根据所述上下客热点数据和DBSCAN算法得出聚类上客率,更新MinPts的选值;
S302:将更新后的MinPts带入轮廓系数,并设置Eps增值范围,获得最优Eps参数;
S303:根据所述最优Eps参数构建并行SP-DBSCAN算法。
采用上述进一步方案的有益效果是,先通过聚类上客率对MinPts进行更新,降低低密度聚类出现的概率,确保聚类所得区域内的上客率较高;其次,提出一定区域的Eps增加值,结合更新后的MinPts和轮廓系数对其Eps进行更新,解决基于Spark的RDD数据集进行数据分区时,由于聚类边界点未被正确识别而造成最终聚类结果不理想的问题。
进一步,获得所述S301中更新MinPts的选值具体过程为:
将所述聚类上客率进行排序并构建折线图,选取所述折线图中转折处明显向下的两个聚类,并计算所述两个聚类的均值,所述均值为更新MinPts的选值。
进一步,所述S302中最优Eps参数为使得所述轮廓系数得分最高的Eps参数。
进一步,所述S5具体包括:
S501:使用K-means算法对所述多个候车点推荐区域进行再次聚类,获得每个候车点推荐区域的多个质心。
采用上述进一步方案的有益效果是,由于街道的形态通常有“L”型或者“U”型,若乘客位于“L”型或者“U”型左端时,由于高楼等建筑物遮挡,如果为其推荐右端候车,乘客可能需要行走一段较长很长距离才能到达右端候车点,显然不够合理,针对不同初始位置的乘客,提供适合于该乘客的候车点才是最佳候车点;先通过使用SP-DBSCAN算法进行聚类求得候车点推荐区域后,由于此时聚类结果已排除噪声点,再使用K-Means求质心得出最佳候车点效果较为理想。
进一步,所述质心的数量为两个。
进一步,所述最佳候车点为距离乘客位置的直线距离最近的一个或多个质心。
一种面向移动轨迹大数据的最佳候车点推荐系统,包括:数据获取模块、数据预处理模块、算法构建模块、候车点推荐模块;
所述数据获取模块,用于获取车辆的移动轨迹数据并发送至所述数据预处理模块;
所述数据预处理模块,用于对所述移动轨迹数据进行预处理,获得车辆上下客热点数据并发送至所述算法构建模块;
所述算法构建模块用于根据所述上下客热点数据构建并行SP-DBSCAN算法,并且使用所述SP-DBSCAN算法进行聚类分析,获得多个候车点推荐区域并发送至所述候车点推荐模块;
所述候车点推荐模块用于根据所述多个候车点推荐区域,获取每个候车点推荐区域的多个质心,根据所述多个质心以及乘客的位置推荐最佳候车点,所述最佳候车点为所述多个质心中的一个或多个。
本发明的有益效果是,构建并行SP-DBSCAN算法,并使用SP-DBSCAN算法进行聚类分析,获得候车点推荐区域,以及根据候车点推荐区域获得最佳候车点,解决了基于移动轨迹大数据的最佳候车点推荐的分布式存储和并行计算的技术问题,处理大规模移动轨迹数据效率高,候车点位置推荐准确。
进一步,所述数据预处理模块包括数据过滤单元、数据提取单元和数据建立单元,在Hadoop分布式计算平台下,基于Spark并行处理框架获得上下客热点数据的过程为:
所述数据过滤单元用于根据所述移动轨迹数据提取运营状态连续为011的轨迹数据,其中空车状态记为0,载客状态记为1,并发送至所述数据提取单元;
所述数据提取单元用于对所述运营状态连续为011的轨迹数据进行数据剔除,仅保留经度和纬度数据并发送至所述数据建立单元;
所述数据建立单元用于根据所述经度和纬度数据,建立N×2的稠密矩阵的RDD弹性分布数据集作为所述上下客热点数据。
采用上述进一步方案的有益效果是,将移动轨迹数据进行了数据提取、数据过滤以及构建N×2的稠密矩阵的RDD弹性分布数据集,通过在Hadoop分布式计算平台下,基于Spark并行处理框架解决了移动轨迹大数据的分布式存储和并行计算的技术问题,此外选择状态为011的轨迹数据而不是直接采用状态为01的数据,进一步降低乘客由于上错车等短时间上车又下车的情况而造成的误差。
进一步,所述数据过滤单元提取运营状态连续为011的轨迹数据的过程为:
读取HDFS文件中的移动轨迹数据,并转化为Spark中的RDD弹性分布数据集;
对所述RDD弹性分布数据集进行分片并过滤掉GPS状态为0的数据,获得第一保留数据,所述第一保留数据包括车辆ID、运营状态、时间、经度和纬度信息;
将所述第一保留数据按照车辆ID排序,查找相同车辆ID运营状态连续为011的轨迹数据;保留所述运营状态连续为011的轨迹数据。
采用上述进一步方案的有益效果是,将移动轨迹数据中GPS状态为0的数据去除,减少运算量,加快运算速率。
进一步,所述算法构建模块根据所述上下客热点数据构建并行SP-DBSCAN算法的过程为:
根据所述上下客热点数据和DBSCAN算法得出聚类上客率,更新MinPts的选值;
将更新后的MinPts带入轮廓系数,并设置Eps增值范围,获得最优Eps参数;
根据所述最优Eps参数构建并行SP-DBSCAN算法。
采用上述进一步方案的有益效果是,先通过聚类上客率对MinPts进行更新,降低低密度聚类出现的概率,确保聚类所得区域内的上客率较高;其次,提出一定区域的Eps增加值,结合更新后的MinPts以及轮廓系数对其Eps进行更新,解决在Spark的RDD数据集下进行数据分区时,由于聚类的边界点未被正确识别而造成最终聚类结果不理想的问题。
进一步,所述SP-DBSCAN算法更新MinPts的选值具体过程为:
将所述聚类上客率进行排序并构建折线图,选取所述折线图中转折处明显向下的两个聚类,并计算所述两个聚类的均值,所述均值为更新MinPts的选值。
进一步,所述Eps最优参数为使得所述轮廓系数得分最高的Eps参数。
进一步,所述最佳候车点推荐模块获取每个候车点推荐区域的多个质心,的具体过程为:使用K-means算法对所述多个候车点推荐区域进行再次聚类,获得每个候车点推荐区域的多个质心。
采用上述进一步方案的有益效果是,由于街道的形态常常有“L”型或者“U”型,若乘客位于“L”型或者“U”型左端时,由于高楼等建筑物遮挡,如果为其推荐右端候车,乘客可能需要行走一段较长距离才能到达右端候车点,显然不合理,针对不同初始位置的乘客,提供适合于该乘客的候车点才是最佳候车点;先通过使用SP-DBSCAN算法进行聚类求得候车点推荐区域后,由于此时聚类结果已排除噪声点,再使用K-Means求质心得出最佳候车点效果较为理想。
进一步,所述质心的数量为两个。
进一步,所述最佳候车点为距离乘客的位置的直线距离最近的一个或多个质心。
本发明中名词解释如表1所示:
表1
附图说明
图1为本发明一种面向移动轨迹大数据的最佳候车点推荐方法流程图;
图2为本发明一个实施例流程图;
图3为本发明一种面向移动轨迹大数据的最佳候车点推荐系统框架图;
图4为本发明一个实施例中Hadoop通过HDFS、Spark分别实现分布式存储和并行计算的功能图;
图5为本发明HDFS进程通信框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参照图1,一种面向移动轨迹大数据的最佳候车点推荐方法,包括以下步骤:
S1:获取车辆的移动轨迹数据;
S2:对移动轨迹数据进行预处理,获得车辆上下客热点数据;
S3:根据上下客热点数据构建并行SP-DBSCAN算法;
S4:使用SP-DBSCAN算法进行聚类分析,获得多个候车点推荐区域;
S5:根据多个候车点推荐区域,获取每个候车点推荐区域的多个质心;
S6:根据多个质心以及乘客的位置推荐最佳候车点,最佳候车点为多个质心中的一个或多个。
构建并行SP-DBSCAN算法,并使用SP-DBSCAN算法进行聚类分析,获得候车点推荐区域,以及根据候车点推荐区域获得最佳候车点,解决了基于移动轨迹大数据的最佳候车点推荐的分布式存储和并行计算的技术问题,处理大规模移动轨迹数据效率高,候车点位置推荐准确。
在本实施例中,采用出租车GPS轨迹数据,对数据进行提取,过滤之后,利用并行SP-DBSCAN算法得出多个候车点推荐区域,确保乘客在区域游走时搭车成功率仍然较大。
在Hadoop分布式计算平台下,基于Spark并行处理框架,S2具体包括:
S201:根据移动轨迹数据提取运营状态连续为011的轨迹数据,其中空车状态记为0,载客状态记为1;
S202:对运营状态连续为011的轨迹数据进行数据剔除,仅保留经度和纬度数据;
S203:根据经度和纬度数据,建立N×2的稠密矩阵的RDD弹性分布数据集作为上下客热点数据。
将移动轨迹数据进行了数据提取、数据过滤以及构建N×2的稠密矩阵的RDD弹性分布数据集,通过在Hadoop分布式计算平台下,基于Spark并行处理框架解决了移动轨迹大数据的分布式存储和并行计算的技术问题,此外选择状态为011的轨迹数据而不是直接采用状态为01的数据,进一步降低乘客由于上错车等短时间上车又下车的情况而造成的误差。在本实施例中,仅需使用经度和纬度数据即可得出较好效果,因此去除其余数据信息。
S201具体包括:
S2011:读取HDFS文件中的移动轨迹数据,并转化为Spark中的RDD弹性分布数据集;
S2012:对RDD弹性分布数据集进行分片并过滤掉GPS状态为0的数据,获得第一保留数据,第一保留数据包括车辆I D、运营状态、时间、经度和纬度信息;
S2013:将第一保留数据按照车辆I D排序,查找相同车辆I D运营状态连续为011的轨迹数据;
S2014:保留运营状态连续为011的轨迹数据。
将移动轨迹数据中GPS状态为0的数据去除,减少运算量,加快运算速率。在本实施例中,数据分片是指:所谓分布式系统,通俗的理解就是利用多个独立的计算机来解决单个计算机无法处理的存储、计算问题,是非常典型的分而治之的思想。每台计算机只负责整个系统需要完成的任务的一个子集,那么整个系统需要完成的任务如何拆分到多台计算机,为此在分布式存储系统中,数据需要被拆分并交由多个任务执行。
ApacheHadoop架构:
ApacheHadoop是一种可靠、可扩展的开源分布式计算架构,能在由大量廉价硬件所组成的集群中为应用程序提供稳定可靠的接口。它充分利用集群的计算与存储能力,构建可靠性高、容错性强、可伸缩和可扩展的大数据批量处理架构,实现大规模数据的分布式存储与并行计算。
HDFS和MapReduce是Hadoop架构的核心组件,也是基于GFS(GoogleFileSystem,谷歌文件系统)和GoogleMapReduce的开源实现。Hadoop通过HDFS、MapReduce分别实现分布式存储和并行计算,并由NameNode和DataNode完成HDFS功能、JobTracker和TaskTracker完成MapReduce功能。此外,Hadoop还包括HadoopCommon、HadoopYARN、Ambari、Avro、Cassandra、Chukwa、HBase、Hive、Mahout、Pig、Spark、Tez和ZooKeeper等。
Hadoop分布式文件系统(HDFS):
HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)是一种可部署在廉价硬件上实现高吞吐量并行数据访问的分布式文件系统,能提供高性能、强容错、可靠的存储大规模数据。参照图5,HDFS采用Master(服务器)/Slave(客户端)运行模式,由一个NameNode(管理者)节点、多个DataNode(工作者)节点和HDFSClient组成,并通过Hadoop的RPC机制实现NameNode、DataNode与HDFSClient进程之间的通信。
Spark并行编程模型:
Spark是一种能处理大规模数据集的并行编程模型(常称为“Spark并行处理框架”),能在由成百上千台服务器所组成的Hadoop集群上执行并行计算任务参照图4。其主要思想就是RDD(ResilientDistributedDataset),把所有计算的数据保存在分布式的内存中。主要通过ClusterManager在集群上获取资源的外部服务;利用WorkerNode运行集群中应用代码的节点;Executor是在一个workernode上为启动应用的一个进程,负责运行任务,以及负责将数据存于内存或磁盘,每个应用都有各自独立的executors。执行完Task后,将结果返回至Driver端。
S3具体包括:
S301:根据上下客热点数据和DBSCAN算法得出聚类上客率,更新MinPts的选值;
S302:将更新后的MinPts带入轮廓系数,并设置Eps增值范围,获得最优Eps参数;
S303:根据最优Eps参数构建并行SP-DBSCAN算法。
先通过聚类上客率对MinPts进行更新,降低低密度聚类出现的概率,确保聚类所得区域内的上客率较高;其次,提出一定区域的Eps增加值,结合更新后的MinPts以及轮廓系数对其Eps进行更新,解决基于Spark的RDD数据集进行数据分区时,由于聚类的边界点未被正确识别而造成最终聚类结果不理想的问题。
获得S301中更新MinPts的选值具体过程为:
将聚类上客率进行排序并构建折线图,选取折线图中转折处明显向下的两个聚类,并计算两个聚类的均值,均值为更新MinPts的选值。
S302中最优Eps参数为使得轮廓系数得分最高的Eps参数。
S5具体包括:
S501:使用K-means算法对多个候车点进行再次聚类,获得每个候车点推荐区域的多个质心。
由于街道的形态常常有“L”型或者“U”型,若乘客位于“L”型或者“U”型左端时,由于高楼等建筑物遮挡,如果为其推荐右端候车,乘客可能需要行走一段较长距离才能到达右端候车点,显然不合理,针对不同初始位置的乘客,提供适合于该乘客的候车点才是最佳候车点;先通过使用SP-DBSCAN算法进行聚类求得候车点推荐区域后,由于此时聚类结果已排除噪声点,再使用K-Means求质心得出最佳候车点效果较为理想。
质心的数量为两个。
最佳候车点为距离乘客位置的直线距离最近的一个或多个质心。
DBSCAN聚类算法根据密度对数据进行聚类。优势在于不需要对聚类数目进行设置,且聚类形状不受约束。DBSCAN算法包括以下4个定义:
1:参数Eps:确定点p搜索领域半径;MinPts:点p领域半径内所包含点数必须大于MinPts。
2:核心点:若点p满足在Eps领域内所包含的点大于MinPts,则点p为核心点。
3:边缘点:该点与核心点距离等于Eps,但其本身并不属于核心点,即该点Eps领域内的点小于MinPts。
4:离群点:该点又称为噪声点,即此点在Eps领域内的点小于MinPts,但是此点并非由核心点关联得到,而是一个单独点。
传统DBSCAN算法采用欧氏距离进行两点间距离计算,虽然此距离公式应用广泛,但在移动轨迹大数据中,测量效果并不理想。在本实施例中采用带有球面距离的DBSCAN算法,球面距离公式假设地球是一个球体,球面两点间的距离等于这两点间的一段劣弧长度。对于球面两点A(x1,y1)、B(x2,y2),根据球面距离公式可得出两点间距离,具体公式如(1)所示。
其中,S表示A、B两点间的距离,a为A,B两点间的纬度之差,b为A,B两点间的经度之差,R为地球半径。
DBSCAN算法存在的另一个问题是敏感于参数设置,尤其是对于具有一定条件的区域而言参数设置更为苛刻。在本实施例中,针对具有一定流动性的乘客,参数选取条件应为:Eps一定范围内的MinPts最大化。对此,在本申请中,基于Spark并行的SP-DBSCAN算法,可根据聚类上客率与轮廓系数实现参数Eps与MinPts更新,得出理想聚类区域,即候车点推荐区域。Eps变化范围应设为正向小范围增加,原因在于:(1)MinPts值变化后,初始的Eps值并不一定是最优,且初始Eps值为根据需求而进行设置,若更新前后数值过大,则与理想值差距过远;(2)由于该算法基于Spark框架,必然面对数据分区,在各个分区聚类时,由于Eps的限制,边界点的查找会直接影响最终的聚类结果。
本实施例的实施原理:参照图2,通过将HDFS中移动轨迹数据依次进行数据过滤、数据提取和数据选择后再建立N×2的稠密矩阵的RDD弹性分布数据集作为上下客热点数据,再根据上下客热点数据和DBSCAN算法得出聚类上客率,更新MinPts的选值,将更新后的MinPts带入轮廓系数,获得最优Eps参数,构建并行SP-DBSCAN算法,再进行聚类分析获得多个更新局部聚类,即候车点推荐区域,再获得每个候车点推荐区域内的多个质心,最后根据客户的位置选择直线距离最近的质心作为最佳候车推荐点。
实施例2
参照图3,在实施例1的基础上,一种面向移动轨迹大数据的最佳候车点推荐系统,包括:数据获取模块、数据预处理模块、算法构建模块、候车点推荐模块;
数据获取模块,用于获取车辆的移动轨迹数据并发送至数据预处理模块;
数据预处理模块,用于对移动轨迹数据进行预处理,获得车辆上下客热点数据并发送至算法构建模块;
算法构建模块用于根据上下客热点数据构建并行SP-DBSCAN算法,并且使用SP-DBSCAN算法进行聚类分析,获得多个候车点推荐区域并发送至候车点推荐模块;
候车点推荐模块用于根据多个候车点推荐区域,获取每个候车点推荐区域的多个质心,根据多个质心以及乘客的位置推荐最佳候车点,最佳候车点为多个质心中的一个或多个。
构建并行SP-DBSCAN算法,并使用SP-DBSCAN算法进行聚类分析,获得候车点推荐区域,以及根据候车点推荐区域获得最佳候车点,解决了基于移动轨迹大数据的最佳候车点推荐的分布式存储和并行计算的技术问题,处理大规模移动轨迹数据效率高,候车点位置推荐准确。
数据预处理模块包括数据过滤单元、数据提取单元和数据建立单元,在Hadoop分布式计算平台下,基于Spark并行处理框架获得上下客热点数据的过程为:
数据过滤单元用于根据移动轨迹数据提取运营状态连续为011的轨迹数据,其中空车状态记为0,载客状态记为1,并发送至数据提取单元;
数据提取单元用于对运营状态连续为011的轨迹数据进行数据剔除,仅保留经度和纬度数据并发送至数据建立单元;
数据建立单元用于根据经度和纬度数据,建立N×2的稠密矩阵的RDD弹性分布数据集作为上下客热点数据。
将移动轨迹数据进行了数据提取、数据过滤以及构建N×2的稠密矩阵的RDD弹性分布数据集,通过在Hadoop分布式计算平台下,基于Spark并行处理框架解决了移动轨迹大数据的分布式存储和并行计算的技术问题,此外选择状态为011的轨迹数据而不是直接采用状态为01的数据,进一步降低乘客由于上错车等短时间上车又下车的情况而造成的误差。
数据过滤单元提取运营状态连续为011的轨迹数据的过程为:
读取HDFS文件中的移动轨迹数据,并转化为Spark中的RDD弹性分布数据集;
对RDD弹性分布数据集进行分片并过滤掉GPS状态为0的数据,获得第一保留数据,第一保留数据包括车辆ID、运营状态、时间、经度和纬度信息;
将第一保留数据按照车辆ID排序,查找相同车辆ID运营状态连续为011的轨迹数据;保留运营状态连续为011的轨迹数据。
将移动轨迹数据中GPS状态为0的数据去除,减少运算量,加快运算速率。
算法构建模块根据上下客热点数据构建并行SP-DBSCAN算法的过程为:
根据上下客热点数据和DBSCAN算法得出聚类上客率,更新MinPts的选值;
将更新后的MinPts带入轮廓系数,并设置Eps增值范围,获得最优Eps参数;
根据最优Eps参数构建并行SP-DBSCAN算法。
先通过聚类上客率对MinPts进行更新,降低低密度聚类出现的概率,确保聚类所得区域内的上客率较高;其次,提出一定区域的Eps增加值,结合更新后的MinPts和轮廓系数对其Eps进行更新,解决基于Spark的RDD数据集进行数据分区时,由于聚类的边界点未被正确识别而造成最终聚类结果不理想的问题。
SP-DBSCAN算法更新MinPts的选值具体过程为:
将聚类上客率进行排序并构建折线图,选取折线图中转折处明显向下的两个聚类,并计算两个聚类的均值,均值为更新MinPts的选值。
Eps最优参数为使得轮廓系数得分最高的Eps参数。
最佳候车点推荐模块获取每个候车点推荐区域的多个质心的具体过程为:使用K-means算法对多个候车点进行再次聚类,获得每个候车点推荐区域的多个质心。
由于街道的形态常常有“L”型或者“U”型,若乘客位于“L”型或者“U”型左端时,由于高楼等建筑物遮挡,如果为其推荐右端候车,乘客可能需要行走一段较长距离才能到达右端候车点,显然不合理,针对不同初始位置的乘客,提供适合于该乘客的候车点才是最佳候车点;先通过使用SP-DBSCAN算法进行聚类求得候车点推荐区域后,由于此时聚类结果已排除噪声点,再使用K-Means求质心得出最佳候车点效果较为理想。
质心的数量为两个。最佳候车点为距离乘客位置的直线距离最近的一个或多个质心。
以上对本发明实施例所提供的技术方案进行了详细介绍,本专利中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述,以上实施例的说明只适用于帮助理解本发明实施例的原理;同时,对于本领域的一般技术人员,依据本发明实施例,在具体实施方式以及应用范围上均会有改变之处,即应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。
Claims (10)
1.一种面向移动轨迹大数据的最佳候车点推荐方法,其特征在于,包括以下步骤:
S1:获取车辆的移动轨迹数据;
S2:对所述移动轨迹数据进行预处理,获得车辆上下客热点数据;
S3:根据所述上下客热点数据构建并行SP-DBSCAN算法;
S4:使用所述SP-DBSCAN算法进行聚类分析,获得多个候车点推荐区域;
S5:根据所述多个候车点推荐区域,获取每个候车点推荐区域的多个质心;
S6:根据所述多个质心以及乘客的位置推荐最佳候车点,所述最佳候车点为所述多个质心中的一个或多个。
2.根据权利要求1所述的方法,其特征在于,在Hadoop分布式计算平台下,基于Spark并行处理框架,所述S2具体包括:
S201:根据所述移动轨迹数据提取运营状态连续为011的轨迹数据,其中空车状态记为0,载客状态记为1;
S202:对所述运营状态连续为011的轨迹数据进行数据剔除,仅保留经度和纬度数据;
S203:根据所述经度和纬度数据,建立N×2的稠密矩阵的RDD弹性分布数据集作为所述上下客热点数据。
3.根据权利要求2所述的方法,其特征在于,所述S201具体包括:
S2011:读取HDFS文件中的移动轨迹数据,并转化为Spark中的RDD弹性分布数据集;
S2012:对所述RDD弹性分布数据集进行分片并过滤掉GPS状态为0的数据,获得第一保留数据,所述第一保留数据包括车辆ID、运营状态、时间、经度和纬度信息;
S2013:将所述第一保留数据按照车辆ID排序,查找相同车辆ID运营状态连续为011的轨迹数据;
S2014:保留所述运营状态连续为011的轨迹数据。
4.根据权利要求1所述的方法,其特征在于,所述S3具体包括:
S301:根据所述上下客热点数据和DBSCAN算法得出聚类上客率,更新MinPts的选值;
S302:将更新后的MinPts带入轮廓系数,并设置Eps增值范围,获得最优Eps参数;
S303:根据所述最优Eps参数构建并行SP-DBSCAN算法。
5.根据权利要求4所述的方法,其特征在于,获得所述S301中更新MinPts的选值具体过程为:
将所述聚类上客率进行排序并构建折线图,选取所述折线图中转折处明显向下的两个聚类,并计算所述两个聚类的均值,所述均值为更新MinPts的选值。
6.根据权利要求4所述的方法,其特征在于,所述S302中最优Eps参数为使得所述轮廓系数得分最高的Eps参数。
7.根据权利要求1-6任一所述的方法,其特征在于,所述S5具体包括:
S501:使用K-means算法对所述多个候车点推荐区域进行再次聚类,获得每个候车点推荐区域的多个质心。
8.根据权利要求7所述的方法,其特征在于,所述质心的数量为两个。
9.根据权利要求1-6任一所述的方法,其特征在于,所述最佳候车点为距离乘客位置的直线距离最近的一个或多个质心。
10.一种面向移动轨迹大数据的最佳候车点推荐系统,其特征在于,包括:数据获取模块、数据预处理模块、算法构建模块、候车点推荐模块;
所述数据获取模块,用于获取车辆的移动轨迹数据并发送至所述数据预处理模块;
所述数据预处理模块,用于对所述移动轨迹数据进行预处理,获得车辆上下客热点数据并发送至所述算法构建模块;
所述算法构建模块用于根据所述上下客热点数据构建并行SP-DBSCAN算法,并且使用所述SP-DBSCAN算法进行聚类分析,获得多个候车点推荐区域并发送至所述候车点推荐模块;
所述候车点推荐模块用于根据所述多个候车点推荐区域,获取每个候车点推荐区域的多个质心,根据所述多个质心以及乘客的位置推荐最佳候车点,所述最佳候车点为所述多个质心中的一个或多个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010877514.0A CN112069229B (zh) | 2020-08-27 | 2020-08-27 | 一种面向移动轨迹大数据的最佳候车点推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010877514.0A CN112069229B (zh) | 2020-08-27 | 2020-08-27 | 一种面向移动轨迹大数据的最佳候车点推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112069229A true CN112069229A (zh) | 2020-12-11 |
CN112069229B CN112069229B (zh) | 2024-02-27 |
Family
ID=73659667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010877514.0A Active CN112069229B (zh) | 2020-08-27 | 2020-08-27 | 一种面向移动轨迹大数据的最佳候车点推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069229B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114061604A (zh) * | 2021-10-12 | 2022-02-18 | 贵州民族大学 | 基于移动轨迹大数据的载客路线推荐方法、装置及系统 |
CN114782115A (zh) * | 2022-06-20 | 2022-07-22 | 深圳联友科技有限公司 | 一种专营店选址推荐方法、系统和终端设备 |
CN114822046A (zh) * | 2022-04-07 | 2022-07-29 | 青岛海信网络科技股份有限公司 | 一种短途出租车管理方法、设备及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160004762A1 (en) * | 2014-07-07 | 2016-01-07 | Edward-Robert Tyercha | Hilbert Curve Partitioning for Parallelization of DBSCAN |
CN108415975A (zh) * | 2018-02-08 | 2018-08-17 | 淮阴工学院 | 基于bdch-dbscan的出租车载客热点识别方法 |
CN108876136A (zh) * | 2018-06-11 | 2018-11-23 | 北京工商大学 | 基于位置推荐改进算法的恐怖袭击事件风险评估方法 |
CN109189806A (zh) * | 2018-09-07 | 2019-01-11 | 广东智信信息科技股份有限公司 | 一种校园安全物联网感知平台 |
WO2020001096A1 (zh) * | 2018-06-29 | 2020-01-02 | 京东方科技集团股份有限公司 | 商品推荐方法和商品推荐设备 |
-
2020
- 2020-08-27 CN CN202010877514.0A patent/CN112069229B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160004762A1 (en) * | 2014-07-07 | 2016-01-07 | Edward-Robert Tyercha | Hilbert Curve Partitioning for Parallelization of DBSCAN |
CN108415975A (zh) * | 2018-02-08 | 2018-08-17 | 淮阴工学院 | 基于bdch-dbscan的出租车载客热点识别方法 |
CN108876136A (zh) * | 2018-06-11 | 2018-11-23 | 北京工商大学 | 基于位置推荐改进算法的恐怖袭击事件风险评估方法 |
WO2020001096A1 (zh) * | 2018-06-29 | 2020-01-02 | 京东方科技集团股份有限公司 | 商品推荐方法和商品推荐设备 |
CN109189806A (zh) * | 2018-09-07 | 2019-01-11 | 广东智信信息科技股份有限公司 | 一种校园安全物联网感知平台 |
Non-Patent Citations (4)
Title |
---|
ZIHAN HONG,YING CHEN: "Commuter ride-sharing using topology-based vehicle trajectory clustering: Methodology, application and impact evaluation", 《 TRANSPORTATION RESEARCH PART C: EMERGING TECHNOLOGIES》, 24 October 2017 (2017-10-24) * |
白宇: "基于移动轨迹大数据的候车地点推荐与等待时间预测研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, 15 March 2022 (2022-03-15) * |
赵苗苗: "基于出租车轨迹数据挖掘的推荐模型研究", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》, 15 February 2016 (2016-02-15) * |
陆小楠: "基于移动轨迹大数据的乘客出行特征与车辆运行特性分析", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》, 15 February 2020 (2020-02-15) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114061604A (zh) * | 2021-10-12 | 2022-02-18 | 贵州民族大学 | 基于移动轨迹大数据的载客路线推荐方法、装置及系统 |
CN114822046A (zh) * | 2022-04-07 | 2022-07-29 | 青岛海信网络科技股份有限公司 | 一种短途出租车管理方法、设备及装置 |
CN114822046B (zh) * | 2022-04-07 | 2023-04-28 | 青岛海信网络科技股份有限公司 | 一种短途出租车管理方法、设备及装置 |
CN114782115A (zh) * | 2022-06-20 | 2022-07-22 | 深圳联友科技有限公司 | 一种专营店选址推荐方法、系统和终端设备 |
CN114782115B (zh) * | 2022-06-20 | 2022-09-13 | 深圳联友科技有限公司 | 一种专营店选址推荐方法、系统和终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112069229B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112069229A (zh) | 一种面向移动轨迹大数据的最佳候车点推荐方法及系统 | |
CN107615787B (zh) | 用于管理运动对象的系统和方法 | |
Boettcher et al. | Extremal optimization for graph partitioning | |
CN106649656B (zh) | 一种面向数据库的时空轨迹大数据存储方法 | |
US9683852B2 (en) | Dispatching map matching tasks by a cluster server | |
US9599483B2 (en) | Region guided and change tolerant fast shortest path algorithm and graph preprocessing framework | |
CN109117265A (zh) | 在集群中调度作业的方法、装置、设备及存储介质 | |
CN113906716A (zh) | 雾节点资源的分配 | |
Zhang et al. | Distributed shortest path query processing on dynamic road networks | |
US20230215272A1 (en) | Information processing method and apparatus, computer device and storage medium | |
CN106897374B (zh) | 一种基于轨迹大数据最近邻查询的个性化推荐方法 | |
CN102810118A (zh) | 一种变权网k近邻搜索方法 | |
CN105491529B (zh) | 移动终端位置数据的内存映射处理方法及大数据平台 | |
US10769140B2 (en) | Concept expansion using tables | |
CN109446385B (zh) | 一种建立网络资源设备图谱的方法及设备图谱的使用方法 | |
CN105554132B (zh) | 一种Hadoop在线扩容的方法 | |
CN108536704A (zh) | 一种轨迹查询方法、系统及装置 | |
Lv | Construction of marine ship automatic identification system data mining platform based on big data | |
Garzó et al. | Real-time streaming mobility analytics | |
CN111860621A (zh) | 一种数据驱动的分布式交通流量预测方法及系统 | |
CN113779105B (zh) | 分布式轨迹流伴随模式挖掘方法 | |
CN109087219B (zh) | 一种旅游云计算系统及方法、终端 | |
CN114253975A (zh) | 一种负载感知的路网最短路径距离计算方法及装置 | |
He et al. | GLAD: A Grid and Labeling Framework with Scheduling for Conflict-Aware $ k $ k NN Queries | |
Boutsis et al. | Efficient event detection by exploiting crowds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |