CN108959466A - 基于bcs-dbscan的出租车载客热点可视化方法及系统 - Google Patents

基于bcs-dbscan的出租车载客热点可视化方法及系统 Download PDF

Info

Publication number
CN108959466A
CN108959466A CN201810633142.XA CN201810633142A CN108959466A CN 108959466 A CN108959466 A CN 108959466A CN 201810633142 A CN201810633142 A CN 201810633142A CN 108959466 A CN108959466 A CN 108959466A
Authority
CN
China
Prior art keywords
cluster
point
hot spot
data
dbscan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810633142.XA
Other languages
English (en)
Other versions
CN108959466B (zh
Inventor
高尚兵
黄子赫
朱全银
周君
李文婷
陈超
李胜东
潘志庚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201810633142.XA priority Critical patent/CN108959466B/zh
Publication of CN108959466A publication Critical patent/CN108959466A/zh
Application granted granted Critical
Publication of CN108959466B publication Critical patent/CN108959466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Traffic Control Systems (AREA)
  • Navigation (AREA)

Abstract

本发明公开了一种基于BCS‑DBSCAN的出租车载客热点可视化方法及系统,该方法首先对大量出租车GPS数据轨迹进行清洗,提取GPS数据轨迹中的上车数据点或下车数据点;对提取的数据点进行多线程分块聚类,根据两点之间的曲面距离找出扫描半径内的邻居节点,找出每个簇中的最大密度点,作为簇心,并对簇心集合再次循环聚类直至集合数量、精度满足要求。迭代聚类结束后,根据标记统计查询出该各类簇中样本点数量。最终结合各类簇簇心和样本点数量,通过移动热力图模型决策阈值,对载客热点热力图渲染从而达到可视化效果。本发明可以适应大规模轨迹数据,便于识别城市出租车载客热点,多线程并行聚类速度快、精确度高,可视化效果好。

Description

基于BCS-DBSCAN的出租车载客热点可视化方法及系统
技术领域
本发明涉及交通大数据领域,尤其涉及一种基于BCS-DBSCAN(Big-data Clusterheart Statistics-DBSCAN)的出租车载客热点可视化方法及系统。
背景技术
随着城市化交通的发展,可视化分析技术在城市交通热点区域分析过程中起着关重要的作用。搭建合理的可视化模型可以有效的展示城市热点的时空分布特征,进而为城市规划等提供重要的决策信息。
DBSCAN是最常用的一种基于密度的聚类方法。传统的DBSCAN算法在聚类海量出租车行车轨迹数据点具有无法适应大规模数据、无法识别类簇中心、过程式单线程聚类速度慢等局限性。
现有技术中,基于交通数据的出租车热点可视化包括三种方式:(1)直接可视化:该可视化是最基本的可视化方法,如JindongZhang等通过对预处理后的GPS轨迹数据进行道路路口类型匹配,并生成相应的路径映射来合成整个地图。(2)聚集可视化:对海量数据可视化时,若采用直接可视化会导致结果杂乱无章,很难直接观察出真正的热点区域。故冯琦森等采用VSC Douglas-Peucker轨迹压缩算法和聚类算法将数据点以聚集的方式展示出来。(3)特征可视化:如赵利刚等在数据可视化的过程中引入一个轨迹颜色饱和度a来编码每一个聚类子集中轨迹的亮度,其中a越大表明交通状况越差。通过轨迹颜色的深浅判断交通状况进而实现区域热点的可视化。
无论是直接可视化方法还是通过进一步处理的聚集可视化、特征可视化方法,这些算法在聚类热点区域中,均取得较好的检测效果,将热点和热点路段成功聚类。但在可视化方面,这些算法只是简单的将聚类结果匹配在地图上进行显示,没有直观的将热点区域或者热点路段根据密度显示在地图,无法判断热点区域之间的热力关系。
发明内容
发明目的:针对现有技术存在的问题,本发明目的在于提供一种基于BCS-DBSCAN的出租车载客热点可视化方法及系统,既适用于大规模数据又能高效准确的找出类簇簇心并提供可视化效果。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
一种基于BCS-DBSCAN的出租车载客热点可视化方法,包括以下步骤:
(1)对数据进行清洗,提取GPS数据轨迹中的上车数据点和下车数据点;
(2)将提取的上车数据点或下车数据点写入轨迹点队列并分组后放入线程池中进行聚类,根据设定的扫描半径和最小簇点数采用DBSCAN算法聚类,并对每个类簇内的相关样本点的簇号属性标记簇序号;
(3)对每个簇内各点进行密度计算,找出簇中密度最大点的作为簇心;
(4)清空轨迹点队列,并将簇心集合重新写入轨迹点队列中再次分组聚类、找出簇心,直到最终簇心集合数量达到设定的载客热点数量范围;
(5)遍历最后一次轨迹点队列中的所有轨迹点,通过各类簇序号标记,分别统计出各类簇中的样本点数量,得到相应类簇中心对应的区域热力;所述热力指在热力图可视化中反应当前高亮区域颜色的指数;
(6)对各类簇样本点数量进行聚类,选取聚类中心结果中最大值作为全局热力图最高热力值;
(7)设定热力图最高热力值,结合各类簇簇心和样本点数量对城市地图中载客热点热力图进行渲染,实现出租车上车或下车热点可视化。
作为优选,所述可视化方法还包括:通过POI逆地址解析,将簇心集合转化为相应的实际真实地理位置数据集,结合各载客热点热力值,输出至Excel表格。
作为优选,步骤(1)中对数据进行清洗包括剔除干扰数据,方法为:设定出租车最大行驶速度为Vmax;在GPS数据轨迹中提取一段时间内的GPS数据数据点,记为GPS轨迹序列{p1,p2,...,pk},k为序列中的轨迹点数;选择保留满足下式的GPS数据轨迹点:
式中:distance(pi+1,pi)表示pi+1到pi的地球曲面距离;tpi表示采集pi轨迹点的时间,(tpi+1-tpi)表示pi+1点到pi点之间的时间差;
若pi不满足上式,则pi为跳变点,剔除该GPS数据轨迹点。
作为优选,步骤(3)找出簇心的方法为:在获取类簇操作时,记录每一簇内节点的邻居点集中点的个数;对每一簇内的点进行密度计算,所述密度为该点的邻居点个数占簇内总点数的比例;找出簇中密度最大即所含邻居节点数最多的点,作为该簇的簇心。
作为优选,步骤(3)中根据两个数据点之间的曲面距离来发现扫描半径内的邻居节点;其中确定两个数据点之间的曲面距离的方法为:
设两个数据点之间的曲面距离为L,则:
a=lat1-lat2
b=lon1-lon2
式中,lat1表示第一个数据点的纬度,lat2表示第二个数据点的纬度,lat1表示第一个轨迹点的经度,lat2表示第二个轨迹点的经度,R表示地球半径。
作为优选,GPS数据点设有簇号属性和簇心属性;所述簇号为类簇编号,是每一类簇唯一的标识,用于区分各个类簇;所述簇心属性用于标记计算出的类簇中心点。
作为优选,步骤(6)中采用K-Means++算法对各类簇样本点数量进行聚类。
一种基于BCS-DBSCAN的出租车载客热点可视化系统,包括:
预处理模块,用于对数据进行清洗,提取GPS数据轨迹中的上车数据点和下车数据点;
多线程分块循环聚类模块,用于将提取的上车数据点或下车数据点写入轨迹点队列并分组后放入线程池中进行聚类,根据设定的扫描半径和最小簇点数采用DBSCAN算法聚类,并对每个类簇内的相关样本点的簇号属性标记簇序号;对每个簇内各点进行密度计算,找出簇中密度最大点的作为簇心;以及,清空轨迹点队列,并将簇心集合重新写入轨迹点队列中再次分组聚类、找出簇心,直到最终簇心集合数量达到设定的载客热点数量范围;
热点区域及热力确定模块,用于遍历最后一次轨迹点队列中的所有轨迹点,通过各类簇序号标记,分别统计出各类簇中的样本点数量,得到相应类簇中心对应的区域热力;所述热力指在热力图可视化中反应当前高亮区域颜色的指数;
最高热力值确定模块,用于对各类簇样本点数量进行聚类,选取聚类中心结果中最大值作为全局热力图最高热力值;
以及,热力图渲染模块,用于设定热力图最高热力值,结合各类簇簇心和样本点数量对城市地图中载客热点热力图进行渲染,实现出租车上车或下车热点可视化。
作为优选,所述可视化系统还包括数据导出模块,用于通过POI逆地址解析,将簇心集合转化为相应的实际真实地理位置数据集,结合各载客热点热力值,输出至Excel表格。
有益效果:本发明提供一种基于BCS-DBSCAN的出租车载客热点可视化方法,相比较现有技术,克服了直接显示在地图上因载客热点多、密度大,而无法显示热点对应载客数量多少的问题。本方法可以直观有效的展示城市各地区载客热力大小并结合热力大小输出精确化后的载客热点实际地理位置表格。进而方便有关部门对出租车的运营调度决策以及帮助司机更快的寻找热点地区等待的乘客。同时,根据出租车GPS数据的分布特征,将簇心引入传统的DBSCAN算法中,便于识别类簇中心;并行计算,降维分块式处理,可以适应大规模数据、聚类速度快;将簇心与多线程并行分块聚类加入至DBSCAN算法中,克服了现有技术在出租车载客热点区域提取中无法适应海量数据、精确度不足的问题。
附图说明
图1为本发明实施例的方法总体流程图;
图2为本发明实施例中上车数据点、下车数据点的载客状态变化图;
图3为本发明实施例中簇心识别流程图;
图4为本发明实施例中分块聚类流程图;
图5为本发明实施例的实验中的可视化效果图;
图6为本发明实施例的实验中的载客热力的POI逆地址解析输出表格结果示意图;
图7为使用DBSCAN算法、C-DBSCAN和BCS-DBSCAN算法聚类后的时间复杂度对比图;
图8为本发明实施例的实验中利用率示意图;其中(a)为采用单线程聚类;(b)为采用多线程聚类;
图9为本发明实施例的实验中使用不同算法的得到的热力图;其中(a)为使用DBSCAN算法聚类;(b)为使用C-DBSCAN算法聚类;(c)为使用BCS-DBSCAN算法聚类;
图10为本发明实施例的实验中不同算法的热区可视化效果图;其中(a)为使用GBADBSCAN算法聚类后的郊区热点示意图;(b)为使用LCS-BASED DBSCAN算法聚类后的市区热点示意图;(c)为使用BCS-DBSCAN算法聚类后的市区热点示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
如图1所示,本发明实施例公开的一种基于BCS-DBSCAN的出租车载客热点可视化方法,包括以下步骤:
(1)对获取的大量出租车GPS数据进行清洗,提取GPS数据轨迹中的上车数据点和下车数据点。
本实施例采用的GPS数据轨迹为淮安市2016~2017年出租车GPS轨迹数据,数据大小约为200G,采样时间间隔在30~60秒。每个GPS数据轨迹包括多个GPS数据点,每个GPS数据点包括出租车的车牌号、当前采样点的采样时间、载客状态、经度、纬度;以及本发明算法添加的属性字段:簇号(0:未分类,-1:噪声点,正数:序号)、簇心标识参数(0:非簇中心,1:簇中心);其中簇号为类簇编号,是每一类簇唯一的标识,用于区分各个类簇;簇心标识参数为标记计算出的类簇中心点。
从这些大量的初始数据中剔除干扰数据的方法为:设定出租车最大行驶速度为Vmax;在GPS数据轨迹中提取一段时间内的GPS轨迹数据点,记为GPS轨迹序列{p1,p2,...,pk},k为序列中的轨迹点数;选择保留满足下式的GPS数据轨迹点:
式中:distance(pi+1,pi)表示pi+1到pi的地球曲面距离;tpi表示采集pi轨迹点的时间,(tpi+1-tpi)表示pi+1点到pi点之间的时间差;
若pi不满足上式,则pi为跳变点,剔除该GPS数据轨迹点。
由于轨迹数据量巨大,而且受到GPS设备的精准度以及环境等因素的影响,初始的GPS数据点中夹杂了一些异常点,而这些异常点会直接影响后续轨迹处理的准确度,故首先对数据进行一定的预处理,然后再将其进行聚类,可以避免干扰信息的影响。
去除数据中的异常点后,提取GPS数据轨迹中的上车数据点和下车数据点,如图2所示,若在某点之前的GPS数据点的载客状态为空载状态,在该点之后的GPS数据点的载客状态为载客状态,则判断该点为上车数据点;若在某点之前的GPS数据点的载客状态为载客状态,在该点之后的GPS数据点的载客状态为空载状态,则判断该点为下车数据点。
(2)对提取的上车数据点或下车数据点写入轨迹点队列并分组后放入线程池中进行聚类。本步骤将所有的上车数据点或下车数据点以5000个为一组放入线程池中进行聚类,聚类设定扫描半径Eps和最小簇点数MinPts,采用DBSCAN算法分离出核心点,并获取核心点的邻居节点集,所述邻居节点集是以核心点为中心在半径Eps范围内的所有点的集合,邻居节点集中的点为邻居节点,对核心点进行扩展簇操作,扩展簇指对核心点的邻居节点进行类簇划分(将每个点分配到对应点集内,由此形成一个个簇),类簇划分指将每个点分配到对应点集内,由此形成一个个簇,并将大于MinPts的邻居节点及其领域添加进簇中。根据DBSCAN算法的聚类结果,对每个类簇内的相关样本点的簇号属性标记簇序号。
(3)找出簇心:根据上车数据点和下车数据点的经度、纬度,确定两个数据点之间的曲面距离用来发现扫描半径Eps内的邻居节点;对每一个簇内点P进行密度计算,点P的邻居节点个数占簇内总点数的比例记为P点密度;最后找出该簇中密度最大即所含邻居节点数最多的点作为该簇的簇心。
之所以根据GPS数据点的经度、纬度,确定两个数据点之间的距离,是因为地球面是一个曲面,所以在计算两个地理位置的距离时,不能用简单的欧式距离来计算,而需要考虑实际的曲面距离,才能使结果更加准确,设两个数据点之间的曲面距离为L,两个数据点之间的曲面距离的计算方法为:
a=lat1-lat2
b=lon1-lon2
式中,lat1表示第一个数据点的纬度,lat2表示第二个数据点的纬度,lat1表示第一个轨迹点的经度,lat2表示第二个轨迹点的经度,R表示地球半径。
如图3所示,找出簇心的方法具体为:在获取类簇操作时,记录每一簇内节点的邻居点集中点的个数;对每一簇内的点进行密度计算,所述密度为该点的邻居点个数占簇内总点数的比例;找出簇中密度最大即所含邻居节点数最多的点,作为该簇的簇心。
(4)找出簇心后,将簇心集合重新写入轨迹点队列中再次分组聚类、找出簇心,直到最终簇心集合数量即载客热点数量达到设定的范围。
分块聚类的方法流程如图4所示,本方法将数据以5000个为一组放入最大线程数为50的阻塞队列线程池中进行聚类。在聚类过程中对线程池每秒进行监控。当线程池为空时,将聚类结果重新写入轨迹点队列GPSList中以便再次聚类。该聚类以每组5000个数据集、Eps(扫描半径)=30、MinPts(最小簇点数)=3为参数的BCS-DBSCAN聚类方法进行聚类。多次实验表明当MinPts设置为2时,会导致结果簇中点数较多。而当MinPts设置为4或更高时,会导致结果簇中点数过少,故本文设定的MinPts值为3。
(5)将输出的结果点数压缩到1000以内,则满足输出要求。遍历最后一次轨迹点队列中的所有轨迹点,通过各类簇序号标记,分别统计出各类簇中的样本点数量,即该区域热力。热力指在热力图可视化中反应当前高亮区域颜色的指数。最后将各类簇簇心及样本点数量写入数据库。
(6)通过K-Means++算法,对各类簇样本点数量进行聚类,选取聚类中心结果中最大值作为全局热力图最高热力值为热力图模型全局最大决策阈值,提升热力图模型泛化能力。
(7)设定热力图最高热力值,结合各类簇簇心和样本点数量对城市地图中载客热点热力图进行渲染,实现出租车上车或下车热点可视化。通过对簇心进行WGS-84转化为GCJ-02坐标系,结合各类簇簇心和样本点数量对各热区参数进行设定,最终对城市地图中载客热点热力图进行渲染从而达到可视化效果。图5为基于BCS-DBSCAN算法的总体可视化效果图。
(8)为了便于查看研究,通过POI逆地址解析,将经过GCJ-02坐标系转化过的簇心集合转化为相应的实际真实地理位置数据集,结合各载客热点热力值,输出至Excel表格。POI,指Point of Interest,即兴趣点,这里是指载客热点簇心的集合。逆地址解析,指逆地址编码,可以实现数据由经纬度信息到结构化地址信息的转变,例如:“lat:31.325152,lng:120.558957”逆地址解析的结果是“江苏省苏州市虎丘区塔园路318号”。导出表格数据能够方便相关部门对出租车的运营调度决策及帮助司机更快的寻找热点地区等待的乘客。图6为基于BCS-DBSCAN算法结合载客热力的POI逆地址解析输出表格。
本发明实施例公开的一种基于BCS-DBSCAN的出租车载客热点可视化系统,包括:预处理模块,用于对数据进行清洗,提取GPS数据轨迹中的上车数据点和下车数据点;多线程分块循环聚类模块,用于将提取的上车数据点或下车数据点写入轨迹点队列并分组后放入线程池中进行聚类,根据设定的扫描半径和最小簇点数采用DBSCAN算法聚类,并对每个类簇内的相关样本点的簇号属性标记簇序号;对每个簇内各点进行密度计算,找出簇中密度最大点的簇心属性标记为簇的簇心;以及,清空轨迹点队列,并将簇心集合重新写入轨迹点队列中再次分组聚类、找出簇心,直到最终簇心集合数量达到设定的载客热点数量范围;热点区域及热力确定模块,用于遍历最后一次轨迹点队列中的所有轨迹点,通过各类簇序号标记,分别统计出各类簇中的样本点数量,得到相应类簇中心对应的区域热力;所述热力指在热力图可视化中反应当前高亮区域颜色的指数;最高热力值确定模块,用于对各类簇样本点数量进行聚类,选取聚类中心结果中最大值作为全局热力图最高热力值;热力图渲染模块,用于设定热力图最高热力值,结合各类簇簇心和样本点数量对城市地图中载客热点热力图进行渲染,实现出租车上车或下车热点可视化;以及数据导出模块,用于通过POI逆地址解析,将簇心集合转化为相应的实际真实地理位置数据集,结合各载客热点热力值,输出至Excel表格。该系统可用于实现上述基于BCS-DBSCAN的出租车载客热点可视化,属于同一发明构思,具体细节参考上述方法实施例,此处不再赘述。
为了验证本方法的技术效果,进行以下实验对比分析:
实验环境为Intel(R)Core(TM)i7-4700MQ CPU,8GB DDR3 1600内存的PC机。实验数据来自淮安市2016-2017年出租车GPS数据轨迹资源。实验过程中需要提供网络服务。本实验与现有技术中的DBCSCAN算法、基于海量GPS数据的公共交通站点及路线优化研究中的C-DBSCAN(Cannot-Link-DBSCAN)算法进行比较。实验结果主要是从以下四个方面进行分析:
1、时间复杂度:
DBSCAN聚类算法采用单线程操作,而单线程在程序执行时,运行的程序路径是连续顺序的,必须前面的处理好,后面的才会执行到。因此,所消耗时间也较长。DBSCAN算法的基本时间复杂度是O(n2)。C-DBSCAN算法的时间复杂度是O(nlog(n))。BCS-DBSCAN算法采用先分块聚类,后对结果再次聚类的方案。时间复杂度为O(n)。
实验证明,通过多线程分块循环聚类的方案,算法的时间复杂度从O(n2)的指数关系降至O(n)的线性关系,极大的缩短了大规模数据的聚类时间,对一个月150多万条数据从估计时间(5*90000=450000秒)缩短为780秒。图7为三个方法的时间复杂度对比。
2、资源利用率
为了充分发挥电脑的性能,提高运算效率,本方法引入了线程池技术,将大数据以5000为一组放入最大线程数为50的线程池中进行聚类。在采用了线程池聚类情况下,明显改善了系统资源利用率低的情况,充分利用了CPU最大性能。实验表明,在采用了多线程聚类后,CPU性能越强,聚类时间越短。而在此之前,由于未充分开发系统资源,硬件性能的影响并不明显。
如图8,采用单线程时,资源利用率为22%,未能充分利用系统资源;采用为多线程时,资源利用率几乎100%,效率大大提升。
3、聚类精确度
DBSCAN聚类算法的结果是以簇的形式呈现的。因此,热点在地图上往往显示的是一块区域,而不是某一个精确的位置。甚至在某些热点区域,聚类结果会覆盖整条街道。而且DBCSAN算法的聚类结果受到参数MinPts的影响,往往会忽略稀疏偏远地区的热点。
而C-DBSCAN算法则是简单的以取簇中的经纬度平均值作为簇心,会导致簇心不准确的情况出现。
由BCS-DBSCAN算法处理过的数据集是选取每个簇中密度最高的点作为簇心呈现出来的,簇心具有较高的精确度和代表性。在程序进行再次聚类时,会根据初次聚类后数据集点数设定不同的MinPts值。在聚类结果中,一些郊区热点也可以被发现。
图8分别是使用DBSCAN算法、C-DBSCAN和BDCH-DBSCAN算法聚类后的热点图。可以看出,DBSCAN和C-DBSCAN算法无法覆盖学校门口的热点,而BCS-DBSCAN算法可以覆盖到。而且在定位淮安汽车南站附近热点时可以更加精确的显示热点位置。
实验表明聚类后的精度明显提高,且覆盖了很多小规模数据无法得到的热点。
4、可视化效果
基于GPS的出租车可视化算法,主要有:如赵利刚等提出的GBADBSCAN算法在数据可视化上采用图标的方式;如冯琪森等提出的一种LCS-BASED DBSCAN聚类算法,在处理数据可视化上采用的是不同热点载客地区采用不同的颜色加以区分;如赵鹏祥等提出的基于时间轴的载客热点区域,在数据可视化上采用不同的颜色对不同时间段的载客热点区域加以标记。这些算法在聚类热点区域中,均取得较好的检测效果,将热点和热点路段成功聚类。但在可视化方面,这些算法只是简单的将聚类结果杂乱无章的匹配在地图上进行显示,或是用不同颜色将不同的热点区域加以区分,但都无法判断各热点区域之间的热力关系,进而有关部门不能方便的对出租车的运营调度进行决策以及出租车司机更快的寻找热点地区等待乘客。
图9分别是使用GBADBSCAN算法、LCS-BASED DBSCAN和BCS-DBSCAN算法聚类后的热力图对比。
实验证明BCS-DBSCAN算法在时间复杂度、资源利用率、聚类精确度和可视化效果上都具有一定的优势,对出租车载客热点区域的精确提取方面具有更好的效果,能更好地反映道路的载客热度。

Claims (9)

1.一种基于BCS-DBSCAN的出租车载客热点可视化方法,其特征在于,包括以下步骤:
(1)对数据进行清洗,提取GPS数据轨迹中的上车数据点和下车数据点;
(2)将提取的上车数据点或下车数据点写入轨迹点队列并分组后放入线程池中进行聚类,根据设定的扫描半径和最小簇点数采用DBSCAN算法聚类,并对每个类簇内的相关样本点的簇号属性标记簇序号;
(3)对每个簇内各点进行密度计算,找出簇中密度最大点的作为簇心;
(4)清空轨迹点队列,并将簇心集合重新写入轨迹点队列中再次分组聚类、找出簇心,直到最终簇心集合数量达到设定的载客热点数量范围;
(5)遍历最后一次轨迹点队列中的所有轨迹点,通过各类簇序号标记,分别统计出各类簇中的样本点数量,得到相应类簇中心对应的区域热力;所述热力指在热力图可视化中反应当前高亮区域颜色的指数;
(6)对各类簇样本点数量进行聚类,选取聚类中心结果中最大值作为全局热力图最高热力值;
(7)设定热力图最高热力值,结合各类簇簇心和样本点数量对城市地图中载客热点热力图进行渲染,实现出租车上车或下车热点可视化。
2.根据权利要求1所述的基于BCS-DBSCAN的出租车载客热点可视化方法,其特征在于,还包括:通过POI逆地址解析,将簇心集合转化为相应的实际真实地理位置数据集,结合各载客热点热力值,输出至Excel表格。
3.根据权利要求1所述的基于BCS-DBSCAN的出租车载客热点可视化方法,其特征在于,步骤(1)中对数据进行清洗包括剔除干扰数据,方法为:设定出租车最大行驶速度为Vmax;在GPS数据轨迹中提取一段时间内的GPS数据轨迹点,记为GPS轨迹序列{p1,p2,...,pk},k为序列中的轨迹点数;选择保留满足下式的GPS数据轨迹点:
式中:distance(pi+1,pi)表示pi+1到pi的地球曲面距离;tpi表示采集pi轨迹点的时间,(tpi+1-tpi)表示pi+1点到pi点之间的时间差;
若pi不满足上式,则pi为跳变点,剔除该GPS数据轨迹点。
4.根据权利要求1所述的基于BCS-DBSCAN的出租车载客热点可视化方法,其特征在于,步骤(3)找出簇心的方法为:在获取类簇操作时,记录每一簇内节点的邻居点集中点的个数;对每一簇内的点进行密度计算,所述密度为该点的邻居点个数占簇内总点数的比例;找出簇中密度最大即所含邻居节点数最多的点,作为该簇的簇心。
5.根据权利要求1所述的基于BCS-DBSCAN的出租车载客热点可视化方法,其特征在于,步骤(3)中根据两个数据点之间的曲面距离来发现扫描半径内的邻居节点;其中确定两个数据点之间的曲面距离的方法为:
设两个数据点之间的曲面距离为L,则:
a=lat1-lat2
b=lon1-lon2
式中,lat1表示第一个数据点的纬度,lat2表示第二个数据点的纬度,lat1表示第一个轨迹点的经度,lat2表示第二个轨迹点的经度,R表示地球半径。
6.根据权利要求1所述的基于BCS-DBSCAN的出租车载客热点可视化方法,其特征在于,GPS数据点设有簇号属性和簇心属性;所述簇号为类簇编号,是每一类簇唯一的标识,用于区分各个类簇;所述簇心属性用于标记计算出的类簇中心点。
7.根据权利要求1所述的基于BCS-DBSCAN的出租车载客热点可视化方法,其特征在于,步骤(6)中采用K-Means++算法对各类簇样本点数量进行聚类。
8.一种基于BCS-DBSCAN的出租车载客热点可视化系统,其特征在于,包括:
预处理模块,用于对数据进行清洗,提取GPS数据轨迹中的上车数据点和下车数据点;
多线程分块循环聚类模块,用于将提取的上车数据点或下车数据点写入轨迹点队列并分组后放入线程池中进行聚类,根据设定的扫描半径和最小簇点数采用DBSCAN算法聚类,并对每个类簇内的相关样本点的簇号属性标记簇序号;对每个簇内各点进行密度计算,找出簇中密度最大点的作为簇心;以及,清空轨迹点队列,并将簇心集合重新写入轨迹点队列中再次分组聚类、找出簇心,直到最终簇心集合数量达到设定的载客热点数量范围;
热点区域及热力确定模块,用于遍历最后一次轨迹点队列中的所有轨迹点,通过各类簇序号标记,分别统计出各类簇中的样本点数量,得到相应类簇中心对应的区域热力;所述热力指在热力图可视化中反应当前高亮区域颜色的指数;
最高热力值确定模块,用于对各类簇样本点数量进行聚类,选取聚类中心结果中最大值作为全局热力图最高热力值;
以及,热力图渲染模块,用于设定热力图最高热力值,结合各类簇簇心和样本点数量对城市地图中载客热点热力图进行渲染,实现出租车上车或下车热点可视化。
9.根据权利要求8所述的基于BCS-DBSCAN的出租车载客热点可视化系统,其特征在于,还包括数据导出模块,用于通过POI逆地址解析,将簇心集合转化为相应的实际真实地理位置数据集,结合各载客热点热力值,输出至Excel表格。
CN201810633142.XA 2018-06-20 2018-06-20 基于bcs-dbscan的出租车载客热点可视化方法及系统 Active CN108959466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810633142.XA CN108959466B (zh) 2018-06-20 2018-06-20 基于bcs-dbscan的出租车载客热点可视化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810633142.XA CN108959466B (zh) 2018-06-20 2018-06-20 基于bcs-dbscan的出租车载客热点可视化方法及系统

Publications (2)

Publication Number Publication Date
CN108959466A true CN108959466A (zh) 2018-12-07
CN108959466B CN108959466B (zh) 2020-06-02

Family

ID=64491676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810633142.XA Active CN108959466B (zh) 2018-06-20 2018-06-20 基于bcs-dbscan的出租车载客热点可视化方法及系统

Country Status (1)

Country Link
CN (1) CN108959466B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711451A (zh) * 2018-12-20 2019-05-03 成都四方伟业软件股份有限公司 一种数据处理方法、装置、电子设备及存储介质
CN109948701A (zh) * 2019-03-19 2019-06-28 太原科技大学 一种基于轨迹间时空关联性的数据聚类方法
CN110188818A (zh) * 2019-05-28 2019-08-30 南京中孚信息技术有限公司 热点区域聚类方法、装置及电子设备
CN110705394A (zh) * 2019-09-18 2020-01-17 广东外语外贸大学南国商学院 一种基于卷积神经网络的景区人群行为分析方法
CN110866554A (zh) * 2019-11-11 2020-03-06 交通运输部公路科学研究所 一种基于卫星定位数据的不良驾驶行为多发区域检测方法
CN110866559A (zh) * 2019-11-14 2020-03-06 上海中信信息发展股份有限公司 一种家禽的行为分析方法及装置
CN111382765A (zh) * 2018-12-29 2020-07-07 中国移动通信集团四川有限公司 投诉热点区域聚类方法、装置、设备、介质
CN111380541A (zh) * 2018-12-29 2020-07-07 沈阳美行科技有限公司 兴趣点确定方法、装置、计算机设备和存储介质
WO2020186770A1 (zh) * 2019-03-21 2020-09-24 江苏智通交通科技有限公司 可视化的出租车上下车特征分析方法
CN111881930A (zh) * 2020-06-09 2020-11-03 广州市城市规划勘测设计研究院 一种热力图生成方法、装置、存储介质及设备
CN111881243A (zh) * 2020-07-30 2020-11-03 河北工程大学 一种出租车轨迹热点区域分析方法及系统
CN112182408A (zh) * 2020-10-28 2021-01-05 广东小天才科技有限公司 一种行动轨迹的呈现方法、系统、终端设备和存储介质
CN112269844A (zh) * 2020-09-24 2021-01-26 桂林电子科技大学 基于大规模轨迹数据的通用伴随模式分布式挖掘方法
CN112328718A (zh) * 2020-10-31 2021-02-05 武汉中海庭数据技术有限公司 一种基于车辆动态轨迹跟踪的道路拓扑构建系统和方法
CN112380302A (zh) * 2020-10-23 2021-02-19 北京建筑大学 基于轨迹数据的热力图生成方法、装置、电子设备以及存储介质
CN112686327A (zh) * 2021-01-05 2021-04-20 重庆邮电大学 一种基于轨迹三重特征聚类的方法
CN113392338A (zh) * 2021-06-11 2021-09-14 中国联合网络通信集团有限公司 热点区域定位方法、装置、设备及存储介质
CN113739814A (zh) * 2021-08-27 2021-12-03 南通大学 一种基于出租车轨迹序列的乘客下客点提取优化方法
CN114119840A (zh) * 2022-01-24 2022-03-01 清研捷运(天津)智能科技有限公司 一种海量轨迹数据的热力流向图生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160153788A1 (en) * 2003-06-19 2016-06-02 Here Global B.V. Method and System for Representing Traffic Signals in a Road Network Database
CN107577725A (zh) * 2017-08-22 2018-01-12 长安大学 一种城市出租车乘客出行特征可视化分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160153788A1 (en) * 2003-06-19 2016-06-02 Here Global B.V. Method and System for Representing Traffic Signals in a Road Network Database
CN107577725A (zh) * 2017-08-22 2018-01-12 长安大学 一种城市出租车乘客出行特征可视化分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张明月: "基于出租车轨迹的载客点与热点区域推荐", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711451A (zh) * 2018-12-20 2019-05-03 成都四方伟业软件股份有限公司 一种数据处理方法、装置、电子设备及存储介质
CN111382765A (zh) * 2018-12-29 2020-07-07 中国移动通信集团四川有限公司 投诉热点区域聚类方法、装置、设备、介质
CN111380541A (zh) * 2018-12-29 2020-07-07 沈阳美行科技有限公司 兴趣点确定方法、装置、计算机设备和存储介质
CN109948701A (zh) * 2019-03-19 2019-06-28 太原科技大学 一种基于轨迹间时空关联性的数据聚类方法
WO2020186770A1 (zh) * 2019-03-21 2020-09-24 江苏智通交通科技有限公司 可视化的出租车上下车特征分析方法
CN110188818A (zh) * 2019-05-28 2019-08-30 南京中孚信息技术有限公司 热点区域聚类方法、装置及电子设备
CN110705394A (zh) * 2019-09-18 2020-01-17 广东外语外贸大学南国商学院 一种基于卷积神经网络的景区人群行为分析方法
CN110705394B (zh) * 2019-09-18 2022-11-18 广东外语外贸大学南国商学院 一种基于卷积神经网络的景区人群行为分析方法
CN110866554A (zh) * 2019-11-11 2020-03-06 交通运输部公路科学研究所 一种基于卫星定位数据的不良驾驶行为多发区域检测方法
CN110866554B (zh) * 2019-11-11 2022-05-24 交通运输部公路科学研究所 一种基于卫星定位数据的不良驾驶行为多发区域检测方法
CN110866559A (zh) * 2019-11-14 2020-03-06 上海中信信息发展股份有限公司 一种家禽的行为分析方法及装置
CN111881930A (zh) * 2020-06-09 2020-11-03 广州市城市规划勘测设计研究院 一种热力图生成方法、装置、存储介质及设备
CN111881243A (zh) * 2020-07-30 2020-11-03 河北工程大学 一种出租车轨迹热点区域分析方法及系统
CN111881243B (zh) * 2020-07-30 2024-04-02 河北工程大学 一种出租车轨迹热点区域分析方法及系统
CN112269844A (zh) * 2020-09-24 2021-01-26 桂林电子科技大学 基于大规模轨迹数据的通用伴随模式分布式挖掘方法
CN112269844B (zh) * 2020-09-24 2021-08-06 桂林电子科技大学 基于大规模轨迹数据的通用伴随模式分布式挖掘方法
CN112380302A (zh) * 2020-10-23 2021-02-19 北京建筑大学 基于轨迹数据的热力图生成方法、装置、电子设备以及存储介质
CN112380302B (zh) * 2020-10-23 2023-07-21 北京建筑大学 基于轨迹数据的热力图生成方法、装置、电子设备以及存储介质
CN112182408A (zh) * 2020-10-28 2021-01-05 广东小天才科技有限公司 一种行动轨迹的呈现方法、系统、终端设备和存储介质
CN112328718A (zh) * 2020-10-31 2021-02-05 武汉中海庭数据技术有限公司 一种基于车辆动态轨迹跟踪的道路拓扑构建系统和方法
CN112686327A (zh) * 2021-01-05 2021-04-20 重庆邮电大学 一种基于轨迹三重特征聚类的方法
CN113392338A (zh) * 2021-06-11 2021-09-14 中国联合网络通信集团有限公司 热点区域定位方法、装置、设备及存储介质
CN113739814A (zh) * 2021-08-27 2021-12-03 南通大学 一种基于出租车轨迹序列的乘客下客点提取优化方法
CN113739814B (zh) * 2021-08-27 2023-09-26 南通大学 一种基于出租车轨迹序列的乘客下客点提取优化方法
CN114119840A (zh) * 2022-01-24 2022-03-01 清研捷运(天津)智能科技有限公司 一种海量轨迹数据的热力流向图生成方法
CN114119840B (zh) * 2022-01-24 2022-04-08 清研捷运(天津)智能科技有限公司 一种海量轨迹数据的热力流向图生成方法

Also Published As

Publication number Publication date
CN108959466B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN108959466A (zh) 基于bcs-dbscan的出租车载客热点可视化方法及系统
CN108415975B (zh) 基于bdch-dbscan的出租车载客热点识别方法
Zhan et al. Citywide traffic volume estimation using trajectory data
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
CN108629978B (zh) 一种基于高维路网和循环神经网络的交通轨迹预测方法
CN105788273B (zh) 基于低精度时空轨迹数据的城市交叉口自动识别的方法
CN105206057B (zh) 基于浮动车居民出行热点区域的检测方法及系统
CN105740904B (zh) 一种基于dbscan聚类算法的出行与活动模式识别方法
CN106383868A (zh) 一种基于道路网络的时空轨迹聚类方法
CN105489004B (zh) 面向道路实时速度计算的卡口与浮动车数据融合方法
CN108427965A (zh) 一种基于路网聚类的热点区域挖掘方法
CN105718946A (zh) 一种基于地铁刷卡数据的乘客出行行为分析方法
CN110389982A (zh) 一种基于空气质量数据的时空模式可视分析系统及方法
Li et al. Knowledge-based trajectory completion from sparse GPS samples
CN105046688A (zh) 一种三维点云中的多平面自动识别方法
Tang et al. Exploring urban travel patterns using density-based clustering with multi-attributes from large-scaled vehicle trajectories
CN113806419B (zh) 基于时空大数据的城市区域功能识别模型及识别方法
CN110688958A (zh) 基于GoogLeNet神经网络的交叉路口识别方法
CN109767615A (zh) 路网交通流关键流向和关键路径分析方法
Shi et al. Detecting spatiotemporal extents of traffic congestion: A density-based moving object clustering approach
CN107230350A (zh) 一种基于卡口与手机流量话单数据的城市交通量获取方法
Wu et al. Traffic sign detection based on SSD combined with receptive field module and path aggregation network
CN111242223B (zh) 一种基于街景影像多特征融合的街道空间品质评价方法
CN106529391B (zh) 一种鲁棒的限速交通标志检测与识别方法
Shi et al. A sequential pattern mining based approach to adaptively detect anomalous paths in floating vehicle trajectories

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181207

Assignee: Yunhua (Nanjing) Intelligent Technology Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2020980010080

Denomination of invention: Visualization method and system of taxi hot spots based on bcs-dbscan

Granted publication date: 20200602

License type: Common License

Record date: 20201229

EE01 Entry into force of recordation of patent licensing contract