CN113095393B - 一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质 - Google Patents

一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质 Download PDF

Info

Publication number
CN113095393B
CN113095393B CN202110366325.1A CN202110366325A CN113095393B CN 113095393 B CN113095393 B CN 113095393B CN 202110366325 A CN202110366325 A CN 202110366325A CN 113095393 B CN113095393 B CN 113095393B
Authority
CN
China
Prior art keywords
track
taxi
lat
points
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110366325.1A
Other languages
English (en)
Other versions
CN113095393A (zh
Inventor
陈京荣
兰晓伟
吴建清
吕斌
侯文斌
宋修广
张昱
吕琛
庄绪彩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU RESEARCH INSTITUTE SHANDONG UNIVERSITY
Lanzhou Jiaotong University
Original Assignee
SUZHOU RESEARCH INSTITUTE SHANDONG UNIVERSITY
Lanzhou Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU RESEARCH INSTITUTE SHANDONG UNIVERSITY, Lanzhou Jiaotong University filed Critical SUZHOU RESEARCH INSTITUTE SHANDONG UNIVERSITY
Priority to CN202110366325.1A priority Critical patent/CN113095393B/zh
Publication of CN113095393A publication Critical patent/CN113095393A/zh
Application granted granted Critical
Publication of CN113095393B publication Critical patent/CN113095393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质,本发明基于出租车轨迹数据,按时段和载客状态将轨迹数据进行划分,通过计算行驶里程、时间、收入等对出租车司机收入进行初步判断,进一步的,根据拥堵区域的分布使用轨迹样条法对司机类型进行二次判断,使用基于交叉口坐标的轨迹插值法快速恢复筛选到的高收入司机的相应轨迹,将提取到的行驶轨迹路线作为样本集,通过空间网格化分析,映射到轨迹分布直方图中,形成轨迹分布的图像表达方式。

Description

一种高收入出租车司机及其经验轨迹的提取方法、设备及存 储介质
技术领域
本发明涉及一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质,属于导航系统技术领域。
背景技术
随着城市交通的发展,通勤高峰时段路段的拥堵指数在不断增长。出租车作为城市公共交通的重要组成部分,在高峰时段发挥着重要的服务功能。但由于不同区域发生的拥堵,致使其调度功能受限,居民在高峰时段出行往往会遇到“打车难”或“无车打”的问题。而高收入出租车司机却能在高峰时段通过自己的驾驶经验,制定合适的驾驶策略,对拥堵区域作出绕行并挖掘高价值的载客点,降低了高峰时段的运营成本,提高了出租车的服务水平。研究人员意识到,可以通过安装在出租车内车载GPS定位终端所采集到出租车当日大量的轨迹点信息,包括轨迹点的经纬度、定位时间、载客状态等,挖掘高收入和经验丰富司机的轨迹数据,分析其驾驶经验路线和区域为其他司机的行驶策略提供指导以提高司机收入。但在采集过程中,由于设备技术问题、建筑物遮挡和电磁干扰等,造成了部分路段轨迹信息点的缺失和稀疏,导致轨迹的空间特征不足,同时,轨迹数据中并没有可直观反映出租车司机收入和经验丰富程度的因素,应如何从巨量的轨迹中挖掘高收入司机的有效轨迹特征并进行轨迹提取,这成了研究人员亟待解决的问题。
目前,针对该类问题的解决方案主要是通过路网匹配算法进行轨迹恢复,然后计算出租车在对应道路上的行驶频率,构建部分路段的经验等级指标或数据库,依托出租车司机收入情况对高收入司机的特征分布进行聚类分析。这种方案在轨迹恢复上未充分考虑出租车轨迹数据量巨大、恢复精度要求不高、恢复时要与路网基本匹配的特点,对高收入司机行驶轨迹的特征的挖掘和时空关联度的考虑还不够,不完整不均匀的轨迹信息也会对目标的筛选和结果的输出造成一定误差,且通常的直接聚类方法得到的区域往往缺少空间分布的具体特征,对出租车司机出行路线的指导意义不足。
发明内容
针对现有技术的不足,本发明提供了一种高收入出租车司机及其经验轨迹的提取方法;
本发明还提供了一种计算机设备及计算机存储介质;
本发明基于出租车轨迹数据,按时段和载客状态将轨迹数据进行划分,通过计算行驶里程、时间、收入等对出租车司机收入进行初步判断,进一步的,根据拥堵区域的分布使用轨迹样条法对司机类型进行二次判断,使用基于交叉口坐标的轨迹插值法快速恢复筛选到的高收入司机的相应轨迹,将提取到的行驶轨迹路线作为样本集,通过空间网格化分析,映射到轨迹分布直方图中,形成轨迹分布的图像表达方式。
本发明通过分析运营里程、收入、时间等因素之间的关系初步筛选出高收入司机,并考虑了出租车司机轨迹和拥堵区域的相关性对数据进行了二次筛选,大幅提升了高质量的高收入司机数据的占比。在此基础上,基于交叉口坐标点,该发明可对原始轨迹数据进行快速补充和插值,解决了原始轨迹数据点部分缺失和稀疏的问题,使轨迹点达到均匀,丰富了轨迹的空间特征。通过对提取到的轨迹数据进行网格化分析,利用轨迹分布直方图可直观的得到高收入司机早高峰时段在整个工作区域的空间分布相似性及差异,为出租车公司及司机提供了更加合理的调度和行驶方案。
术语解释:
1、DBSCAN算法,DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
2、K-MEANS算法,是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准k个聚类的一种算法。K-MEANS算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足;同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。
3、半正矢公式,半正矢公式(Haversine公式)用来计算球面上两点之间的最短距离,在设定好地球半径后,可直接从所述两个点的纬度和经度来计算二者之间的距离。
本发明的技术方案为:
一种高收入出租车司机及其经验轨迹的提取方法,包括以下步骤:
步骤S1:出租车轨迹点数据预处理;
步骤S2:按时段(高峰和平峰)和载客状态(载客和空载)对步骤S1预处理后的出租车轨迹点数据进行划分;
步骤S3:根据行驶里程和运营时间等指标,对各出租车司机的经验系数进行计算;
步骤S4:对高峰时段的数据进行聚类,得到拥堵区域的分布情况,使用轨迹样条法对各出租车司机的轨迹自由度进行计算;
步骤S5:将经验系数和轨迹自由度高者组成高收入出租车数据集合,通过交叉口坐标点插值法恢复轨迹;
步骤S6:对地图进行网格分割,计算每个网格内各车辆轨迹点的平均占比,映射到轨迹分布直方图中,形成轨迹分布的图像表达方式。
进一步优选的,步骤S1中,是指:统计当日整个城市各出租车提供的出租车轨迹点的数量,确定出租车轨迹点的分布情况,剔除分析区域范围外的和出租车轨迹点的数量小于800的出租车轨迹点,剩余出租车轨迹点集用Vdata表示,data表示出租车轨迹点的采集日期。
进一步优选的,步骤S2中,是指:
选取7:00——8:30为早高峰时段,对Vdata进行第一次划分,分成早高峰时段的出租车轨迹点集Vdata,peak和非早高峰时段的出租车轨迹点集即其他时段的出租车轨迹点集Vdata,low,peak和low分别表示高峰和其他时段;
对Vdata,peak和Vdata,low分别按车牌号和载客状态进行二次划分,先从Vdata,peak和Vdata,low中根据车牌号提取到每辆出租车对应的出租车轨迹点集vdata,peak,car_no和vdata,low,car_no,car_no表示出租车的车辆编号;
接着,对出租车轨迹点集vdata,peak,car_no和vdata,low,car_no根据载客状态进行划分,每个轨迹点集划分为若干个载客和空载的子轨迹,即vdata,peak,car_no={traj1,status,traj2,status...traji,status},vdata,low,car_no={traj1,status,traj2,status...trajj,status},status表示载客状态,status=0表示空载,status=1表示载客;traj表示一段轨迹,由轨迹点组成,traj={p1,status,p2,status...pn,status},p1,status,p2,status表示轨迹点,对于每辆出租车,得空载轨迹n段,载客轨迹m段。
进一步优选的,步骤S3中,计算每辆出租车不同轨迹段的行驶里程、载客时间和空载时间,得到每辆车的经验系数Ecar_no,具体步骤为:
步骤S3-1:根据车辆全天的轨迹数据和载客状态,计算出租车司机全天的空载里程dempty,car_no和载客里程dpass,car_no
通过式(1)求取两个出租车轨迹点pi与pi+1之间的纬度之差;通过式(2)求取两个出租车轨迹点pi与pi+1之间的经度之差;通过式(3)求取两个出租车轨迹点pi与pi+1之间的距离;通过式(4)求取整段轨迹的长度;
dlat=lati+1-lati (1)
dlon=loni+1-loni (2)
Figure BDA0003007694940000031
Figure BDA0003007694940000032
式(1)、式(2)中,dlat表示两个出租车轨迹点间的纬度之差;dlon表示两个出租车轨迹点间经度之差;pi(loni,lati)即pi表示当前的出租车轨迹点,pi+1(loni+1,lati+1)即pi+1表示与pi邻接的下一个出租车轨迹点,loni与loni+1分别表示两个出租车轨迹点pi与pi+1的经度,lati与lati+1分别表示两个出租车轨迹点pi与pi+1的纬度,i+1表示当前轨迹中出租车轨迹点的数目;
式(3)、式(4)中,式(3)为半正矢公式的变形,d(pi,pi+1)表示出租车轨迹点pi与pi+1之间的距离,
Figure BDA0003007694940000041
表示轨迹traj的长度,轨迹中共有i+1个轨迹点;
则对于每个司机,其全天的空载里程dempty,car_no和载客里程dpass,car_no分别如式(5)、式(6)所示:
Figure BDA0003007694940000042
Figure BDA0003007694940000043
式(5)、式(6)中,
Figure BDA0003007694940000044
表示每段空载轨迹的长度,由i+1个轨迹点构成,共n段,每段status=0;
Figure BDA0003007694940000045
表示每段载客轨迹的长度,由i+1个轨迹点构成,共m段,此时status=1;
步骤S3-2:根据步骤S3-1计算的轨迹的长度d,d为空载里程dempty,car_no和载客里程dpass,car_no之和,进一步得出出租车司机每段载客轨迹的收入,出租车计费一般采用分段计费的形式,计算公式如式(7)所示:
Figure BDA0003007694940000046
式(7)中,rcar_no(d,xi)表示轨迹长度为d的收入,xi为0-1变量,当xi=0时,表示载客;当xi=1时,表示空载,Rstart表示出租车起步价,λ表示每公里的租价,
Figure BDA0003007694940000047
表示加收的空驶费率,c表示其他支出(例如,折旧、油耗等),dist1,dist2,dist3表示当地物价局或运营公司设置的里程计费节点;
则出租车载客时的收益Rcar_no的计算如式(8)所示:
Figure BDA0003007694940000048
式(8)中,di表示载客每段载客轨迹的长度,载客轨迹共有m段;
步骤S3-3:计算出租车司机的经验系数Ecar_no,如式(9)、式(10)所示:
ttraj=tend,i+1-tstart,1 (9)
Figure BDA0003007694940000051
式(9)至式(10)中,ttraj表示traj段轨迹的行驶时长,tstart,1表示当前轨迹中第一个轨迹点的生成时间,tend,i+1表示当前轨迹中最后一个轨迹点的生成时间;ttraj,data,car_no表示该出租车在data日期内的总行驶时长;
步骤S3-4:重复步骤S3-1、步骤S3-2、步骤S3-3,依次计算出各个出租车司机的经验系数Ecar_no。将所得数据写入到数据库表中进行存储;
进一步优选的,步骤S4中,对步骤S2中所得的Vdata,peak进行两次聚类,具体步骤如下:
步骤S4-1:通过DBSCAN算法对Vdata,peak进行初步聚类:读取高峰时段的所有出租车轨迹点的经纬度字段数据,输入ε、MinPts,ε表示半径参数,MinPts表示邻域集合中轨迹点的最小数目,遍历数据点,得到n个聚类簇Ci,i=1,2,3…n;
步骤S4-2:通过K-Means算法计算步骤S4-1得到的每个聚类簇Ci的经纬度的聚类中心、每个聚类簇Ci的速度的聚类中心:每次聚类设定K值为1,多次迭代计算后,聚类中心不再发生变化,得到每个聚类簇Ci的经纬度的聚类中心ci及聚类簇Ci的对应的速度聚类中心vi,i=1,2...n;
步骤S4-3:根据步骤S4-2得到的速度聚类中心vi,当vi<ξ时,判断该聚类簇Ci为拥堵区域,ξ表示高峰时段出租车速度阈值,否则,判断该聚类簇Ci为非拥堵区域;剔除非拥堵区域后,得到拥堵区域的中心坐标集合Cong,Cong={c′1,c′2...c′m},m≤n;
步骤S4-4:使用轨迹样条法分析各出租车轨迹点和中心坐标集合Cong中元素的位置关系,将每一个vdata,peak,car_no划分为m+l段,对于车牌编号为car_no的轨迹点数据集,具体步骤如下:
将轨迹点集按时间排列,首个轨迹点为p1(lon1,lat1),最末轨迹点为pi+1(loni+1,lati+1),轨迹点数为i+1,进行分段,得到每段中轨迹点的数量k,如式(11)所示:
Figure BDA0003007694940000052
式(11)中,k表示每段中轨迹点的数量,并向下取整;
则出租车每个轨迹点集划分为m+1段子轨迹集,即vdata,peak,car_no={point1,k,pointk,2k...point(m-1)k,mk,pointmk,i+1};point1,k表示排序后的vdata,peak,car_no的轨迹点集中第1个点到第k个轨迹点组成的集合;pointk,2k表示第k个点到第2k个轨迹点组成的集合;以此类推;
对于上一步得到的每个集合pointx,y,得出第x个坐标点px(lonx,latx)和第y个坐标点py(lony,laty),从px、py中选取经度和纬度的最大值、最小值,组合构成定位区域S,定位点分别为:px(lonx,latx)、py(lony,laty)、psupply1(lony,latx)、psupply2(lonx,laty);
若第1至第m个定位区域内每个定位区域内应包含的轨迹点数
Figure BDA0003007694940000061
则为有效区域,判断定位区域S的经纬度范围中是否存在Cong中的元素,如存在,则表示该段子轨迹经过拥堵区域,统计pointx,y中元素的频数fm;反之,遍历下一个集合;
若第1至第m个定位区域内每个定位区域内应包含的轨迹点数
Figure BDA0003007694940000062
则为无效区域,对于无效区域,则计算两点纬度之差,如式(12)所示:
Difflat=max{latx,laty}-max{latx,laty} (12)
Difflat表示两点纬度之差,若latx>laty,定位区域S的定位点更新为:
psupply1(lonx,latx-2Difflat),psupply2(lony,laty+2Difflat),psupply3(lony,laty-Difflat),psupply4(lonx,latx+Difflat)
若latx<laty,定位区域S的定位点更新为:
psupply1(lonx,latx+2Difflat),psupply2(lony,laty-2Difflat),psupply3(lony,laty+Difflat),psupply4(lonx,latx-Difflat)
若latx=laty,则对下一个集合进行计算;
步骤S4-5:重复S4-4步骤,计算车辆轨迹的自由度即非拥堵区域点所占轨迹点比例,如式(13)所示:
Figure BDA0003007694940000063
式(13)中,fm表示每个拥堵区域内点频数,P表示拥堵区域的数目,K表示轨迹共经过的区域数目,每类频数为fi
步骤S4-6:司机的收入和经验情况为:
EAFcar_no=Ecar_no+Freecar_no (14)
依次计算所有司机的EAFcar_no值,对每个EAFcar_no进行离差标准化处理,映射到[0,1]区间。
进一步优选的,步骤S5中,基于交叉口的轨迹插值法对轨迹路线进行恢复,具体步骤如下:
步骤S5-1:依次遍历轨迹点,在轨迹点pi(loni,lati)和pi+1(loni+1,lati+1)间建立矩形搜索区域,矩形搜索区域中四个矩形点坐标分别为:
psearch1,i(loni+1,lati,)、psearch2,i(loni,lati+1)、psearch3,i(loni,lati)、psearch4,i(loni+1,lati+1);
步骤S5-2:根据上一步骤得到的坐标点,确定经纬度范围为:min{loni,loni+1}≤lon≤max{loni,loni+1}且min{lati,lati+1}≤lat≤max{lati,lati+1};通过打断城市路网交点的方法获取城市交叉口坐标坐标集C,在C中遍历其中的交叉口坐标点,根据经纬度范围判断该矩形搜索区域内是否存在交叉口坐标点,如果存在,则提取矩形搜索区域内的城市交叉口点组成坐标集M,依次计算M中坐标点mj与pi的距离d(pi,mj),j=1,2...n,选取d(pi,mj)中的最小值对应的交叉口坐标点mj加入到轨迹点集P中,形成新的轨迹点;
步骤S5-3:从新加入的轨迹点mj开始,重复步骤S5-1、步骤S5-2,直至遍历至轨迹点集P中最后一个点,迭代完成,交叉口坐标插值结束,进入步骤S5-4;
步骤S5-4:重新遍历轨迹点,计算pi和pi+1的经纬度之差的绝对值是否超过0.0005,i=1,2...n-1,若超过,说明二者距离过大,将pi和pi+1之间的中点坐标作为新的坐标点加入到轨迹点集P中,反之则不插入;
步骤S5-5:遍历新的轨迹点数据,直至相邻两点之间的经纬度之差的绝对值小于0.0005。
步骤S5-6:对所有出租车的高峰时段轨迹进行插值,重复步骤S5-1、步骤S5-2、步骤S5-3、步骤S5-4、步骤S5-5,得到插值后的轨迹点集v′data,peak,car_no{p1,p2...pi};依次对筛选到的司机的轨迹点数据进行恢复。
进一步优选的,步骤S6中,对地图进行网格分割,分析高收入司机轨迹的空间特征,具体步骤如下:
步骤S6-1:将地图区域进行网格化处理,按照经纬度范围,根据网格行、列数等分切割坐标区域,得到m×n的网格,按照序号生成对应网格的ID;
步骤S6-2:将v′data,peak,car_no中的pi导入到地图网格中,根据每个网格的经纬度范围,得到每个网格内的轨迹点数量nid,i
步骤S6-3:计算出nid,i占当前轨迹总数目的比值,如式(15)所示:
Figure BDA0003007694940000071
式(15)中,cid,i表示第i辆出租车的轨迹点中在第id个网格中轨迹点数量占总数目的比值,Npi表示第i辆出租车的轨迹点总数目;
步骤S6-4:遍历v′data,peak,car_no,重复步骤S6-2、步骤S6-3;对每个网格的cid,i进行累加并求均值,得到各个网格应达到的轨迹点的指标cid,如式(16)所示:
Figure BDA0003007694940000081
式(16)中,n表示经过该网格区域的出租车数量,将地图划分为空间网格结构,每个网格中对应一个单独的ID,同时网格中存储着早高峰时期出租车在该区域的轨迹点的比例,体现高收入出租车轨迹的空间分布特征,也代表着出租车在本区域内的行驶频率,cid高则代表高收入出租车司机在该区域行驶频率较高,反之则在此区域行驶频率低。
步骤S6-5:将步骤S6-4所得各网格cid映射为轨迹点分布直方图,建立轨迹数据的图像表达方式;轨迹点分布直方图中,横坐标代表每个网格ID,纵坐标为对应的cid或cid,i。即对于日平均(高峰时段)或当日每辆出租车轨迹点数据都可以用轨迹直方图表示其轨迹点在各个网格中出现的频率,建立轨迹数据的图像化表达方式。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现高收入出租车司机及其经验轨迹的提取方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现高收入出租车司机及其经验轨迹的提取方法的步骤。
本发明的有益效果为:
1、本发明结合出租车轨迹数据的实际应用,提出了一种基于交叉口坐标的轨迹点插值的方法,解决了出租车轨迹点部分路段缺失和稀疏性的问题,该方法是将图网络、城市路网数据与出租车轨迹点的一次应用融合,相较于其他方法,避免了先进行插值后进行路网匹配的问题,并使出租车轨迹点达到基本均匀,丰富了轨迹信息的空间特征,计算速度快,操作简便,实用性强,轨迹还原度高;
2、本发明对高峰时段的高收入出租车轨迹数据进行了充分的提取,通过两次筛选,从收入、里程和驾驶行为等多个维度,剔除了低收入司机轨迹点对样本数据的影响;其中的轨迹样条法可将出租车轨迹与拥堵区域分布进行关联性分析,得到了高收入司机的轨迹数据点和轨迹分布特征,为高峰时段出租车司机运营区域的选择及运营策略提供参考借鉴。
3.本发明利用恢复后的轨迹数据,建立了高收入司机轨迹数据从空间网格分布到空间分布直方图的映射,对轨迹数据的特征及分布情况作出了进一步的描述,形成了轨迹数据分布的图像化表达方式。
附图说明
图1为本发明高收入出租车司机及其经验轨迹的提取方法的流程示意图;
图2为本发明对出租车轨迹数据划分示意图;
图3为本发明划分载客段和空载段轨迹示意图;
图4为本发明基于轨迹样条法通过拥堵区域对司机轨迹自由度进行计算的流程示意图。
图5为基于交叉口坐标点的轨迹插值法的插值的流程示意图;
图6利用基于交叉口坐标点的轨迹插值法恢复出租车行驶轨迹的流程示意图;
图7为利用基于交叉口坐标的轨迹插值法插值前后效果示意图;
图8为本发明对地图进行网格分割提取高收入司机轨迹的空间特征的流程示意图;
图9为本发明得到的轨迹特征示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种高收入出租车司机及其经验轨迹的提取方法,如图1所示,包括以下步骤:
步骤S1:出租车轨迹点数据预处理;
步骤S2:按时段(高峰和平峰)和载客状态(载客和空载)对步骤S1预处理后的出租车轨迹点数据进行划分;
步骤S3:根据行驶里程和运营时间等指标,对各出租车司机的经验系数进行计算;
步骤S4:对高峰时段的数据进行聚类,得到拥堵区域的分布情况,使用轨迹样条法对各出租车司机的轨迹自由度进行计算;
步骤S5:将经验系数和轨迹自由度高者组成高收入出租车数据集合,通过交叉口坐标点插值法恢复轨迹;
步骤S6:对地图进行网格分割,计算每个网格内各车辆轨迹点的平均占比,映射到轨迹分布直方图中,形成轨迹分布的图像表达方式。
实施例2
根据实施例1所述的一种高收入出租车司机及其经验轨迹的提取方法,其区别在于:
步骤S1中,是指:统计当日整个城市各出租车提供的出租车轨迹点的数量,确定出租车轨迹点的分布情况,剔除分析区域范围外的和出租车轨迹点的数量小于800的出租车轨迹点,剩余出租车轨迹点集用Vdata表示,data表示出租车轨迹点的采集日期。
表1为出租车的轨迹数据信息示例。
表1
Figure BDA0003007694940000101
实施例3
根据实施例1所述的一种高收入出租车司机及其经验轨迹的提取方法,其区别在于:
步骤S2中,是指:
选取7:00——8:30为早高峰时段,对Vdata进行第一次划分,分成早高峰时段的出租车轨迹点集Vdata,peak和非早高峰时段的出租车轨迹点集即其他时段的出租车轨迹点集Vdata,low,peak和low分别表示高峰和其他时段;
对Vdata,peak和Vdata,low分别按车牌号和载客状态进行二次划分,先从Vdata,peak和Vdata,low中根据车牌号提取到每辆出租车对应的出租车轨迹点集vdata,peak,car_no和vdata,low,car_no,car_no表示出租车的车辆编号;
接着,对出租车轨迹点集vdata,peak,car_no和vdata,low,car_no根据载客状态进行划分,每个轨迹点集划分为若干个载客和空载的子轨迹,即vdata,peak,car_no={traj1,status,traj2,status...traji,status},vdata,low,car_no={traj1,status,traj2,status...trajj,status},status表示载客状态,status=0表示空载,status=1表示载客;traj表示一段轨迹,由轨迹点组成,traj={p1,status,p2,status...pn,status},p1,status,p2,status表示轨迹点,对于每辆出租车,得空载轨迹n段,载客轨迹m段。
上述过程如图2所示,图2中,先按时段对Vdata进行划分,得到早高峰时段的出租车轨迹点集Vdata,peak和其他时段的出租车轨迹点集Vdata,low,后根据车牌号提取到每辆出租车对应的轨迹点集vdata,peak,car_no和vdata,low,car_no,进一步根据载客状态每个点集可划分为若干个载客段和空载段的子轨迹。
实施例4
根据实施例1所述的一种高收入出租车司机及其经验轨迹的提取方法,其区别在于:
步骤S3中,计算每辆出租车不同轨迹段的行驶里程、载客时间和空载时间,得到每辆车的经验系数Ecar_no,具体步骤为:
步骤S3-1:根据车辆全天的轨迹数据和载客状态,计算出租车司机全天的空载里程dempty,car_no和载客里程dpass,car_no
通过式(1)求取两个出租车轨迹点pi与pi+1之间的纬度之差;通过式(2)求取两个出租车轨迹点pi与pi+1之间的经度之差;通过式(3)求取两个出租车轨迹点pi与pi+1之间的距离;通过式(4)求取两个出租车轨迹点pi与pi+1之间的距离;
dlat=lati+1-lati (1)
dlon=loni+1-loni (2)
Figure BDA0003007694940000111
Figure BDA0003007694940000112
式(1)、式(2)中,dlat表示两个出租车轨迹点间的纬度之差;dlon表示两个出租车轨迹点间经度之差;pi(loni,lati)即pi表示当前的出租车轨迹点,pi+1(loni+1,lati+1)即pi+1表示与pi邻接的下一个出租车轨迹点,lati与lati+1分别表示两个出租车轨迹点pi与pi+1的纬度,loni与loni+1分别表示两个出租车轨迹点pi与pi+1的经度;i+1表示当前轨迹中出租车轨迹点的数目;
式(3)、式(4)中,式(3)为半正矢公式的变形,d(pi,pi+1)表示出租车轨迹点pi与pi+1之间的距离,
Figure BDA0003007694940000113
表示轨迹traj的长度,轨迹中共有i+1个轨迹点;
对于每个司机,其全天的空载里程dempty,car_no和载客里程dpass,car_no分别如式(5)、式(6)所示:
Figure BDA0003007694940000114
Figure BDA0003007694940000115
式(5)、式(6)中,
Figure BDA0003007694940000116
表示每段空载轨迹的长度,由i+1个轨迹点构成,共n段,每段status=0;
Figure BDA0003007694940000117
表示每段载客轨迹的长度,由i+1个轨迹点构成,共m段,此时status=1;
步骤S3-2:根据步骤S3-1计算的轨迹的长度d,d为空载里程dempty,car_no和载客里程dpass,car_no之和,进一步得出出租车司机每段载客轨迹的收入,出租车计费一般采用分段计费的形式,计算公式如式(7)所示:
Figure BDA0003007694940000118
式(7)中,
Figure BDA0003007694940000119
表示轨迹长度为d的收入,xi为0-1变量,当xi=0时,表示载客;当xi=1时,表示空载,Rstart表示出租车起步价,λ表示每公里的租价,
Figure BDA0003007694940000121
表示加收的空驶费率,c表示其他支出(例如,折旧、油耗等),dist1,dist2,dist3表示当地物价局或运营公司设置的里程计费节点;
则出租车载客时的收益Rcar_no的计算如式(8)所示:
Figure BDA0003007694940000122
式(8)中,di表示载客每段载客轨迹的长度,载客轨迹共有m段;
图3为本发明划分载客段和空载段轨迹示意图;图3中,载客段和空载段轨迹可根据STATUS字段进行划分,当STATUS=0时为空载段轨迹,当STATUS=1时为载客段轨迹,当STATUS发生变化时即终止当前轨迹段的划分。
步骤S3-3:计算出租车司机的经验系数Ecar_no,如式(9)、式(10)所示:
ttraj=tend,i+1-tstart,1 (9)
Figure BDA0003007694940000123
式(9)至式(10)中,ttraj表示第j段轨迹出租车的行驶时长,tstart,1表示当前轨迹中第一个轨迹点的生成时间,tend,i+1表示当前轨迹中最后一个轨迹点的生成时间;ttraj,data,car_no表示该出租车在data日期内的总行驶时长;
步骤S3-4:重复步骤S3-1、步骤S3-2、步骤S3-3,依次计算出各个出租车司机的经验系数Ecar_no。将所得数据写入到数据库表中进行存储。
表2为在对当前司机的各项数据计算后,存储到数据库得到的对应表示例,可根据表格数据计算司机经验系数。
表2
车辆编号 总载客里程/km 总空载里程/km 总收益/元 载客时间/min 空载时间/min 经验系数
甘A80001 364.11 45.836 300.45 928 152 2.69129
甘A80002 187.456 30.7425 171.372 659 98 2.643839
实施例5
根据实施例1所述的一种高收入出租车司机及其经验轨迹的提取方法,其区别在于:
如图4所示,步骤S4中,对步骤S2中所得的Vdata,peak进行两次聚类,具体步骤如下:
步骤S4-1:通过DBSCAN算法对Vdata,peak进行初步聚类:读取高峰时段的所有出租车轨迹点的经纬度字段数据,输入ε、MinPts,ε表示半径参数,MinPts表示邻域集合中轨迹点的最小数目,遍历数据点,得到n个聚类簇Ci,i=1,2,3…n;
步骤S4-2:通过K-Means算法计算步骤S4-1得到的每个聚类簇Ci的经纬度的聚类中心、每个聚类簇Ci的速度的聚类中心:每次聚类设定K值为1,多次迭代计算后,聚类中心不再发生变化,得到每个聚类簇Ci的经纬度的聚类中心ci及聚类簇Ci的对应的速度聚类中心vi,i=1,2...n;
步骤S4-3:根据步骤S4-2得到的速度聚类中心vi,当vi<ξ时,判断该聚类簇Ci为拥堵区域,ξ表示高峰时段出租车速度阈值,否则,判断该聚类簇Ci为非拥堵区域;剔除非拥堵区域后,得到拥堵区域的中心坐标集合Cong,Cong={c′1,c′2...c′m},m≤n;
步骤S4-4:使用轨迹样条法分析各出租车轨迹点和中心坐标集合Cong中元素的位置关系,将每一个vdata,peak,car_no划分为m+1段,对于车牌编号为car_no的轨迹点数据集,划分步骤如下:
将轨迹点集按时间排列,首个轨迹点为p1(lon1,lat1),最末轨迹点为pi+1(loni+1,lati+1),轨迹点数为i+1,得到每段中轨迹点的数量k,如式(11)所示:
Figure BDA0003007694940000131
式(11)中,k表示每段中轨迹点的数量,并向下取整;
则出租车每个轨迹点集划分为m+1段子轨迹集,即vdata,peak,car_no={point1,k,pointk,2k...point(m-1)k,mk,pointmk,i+1};point1,k表示排序后的vdata,peak,car_no的轨迹点集中第1个点到第k个轨迹点组成的集合;pointk,2k表示第k个点到第2k个轨迹点组成的集合;以此类推;
对于上一步得到的每个集合pointx,y,得出第x个坐标点px(lonx,latx)和第y个坐标点py(lony,laty),从px、py中选取经度和纬度的最大值、最小值,组合构成定位区域S,定位点分别为:px(lonx,latx)、py(lony,laty)、psupply1(lony,latx)、psupply2(lonx,laty);
若第1至第m个定位区域内每个定位区域内应包含的轨迹点数
Figure BDA0003007694940000132
则为有效区域,判断定位区域S的经纬度范围中是否存在Cong中的元素,如存在,则表示该段子轨迹经过拥堵区域,统计pointx,y中元素的频数fm;反之,遍历下一个集合;
若第1至第m个定位区域内每个定位区域内应包含的轨迹点数
Figure BDA0003007694940000133
则为无效区域,对于无效区域,则计算两点纬度之差,如式(12)所示:
Difflat=max{latx,laty}-max{latx,laty} (12)
Difflat表示两点纬度之差,若latx>laty,定位区域S的定位点更新为:
psupply1(lonx,latx-2Difflat),psupply2(lony,laty+2Difflat),psupply3(lony,laty-Difflat),psupply4(lonx,latx+Difflat)
若latx<laty,定位区域S的定位点更新为:
psupply1(lonx,latx+2Difflat),psupply2(lony,laty-2Difflat),psupply3(lony,laty+Difflat),psupply4(lonx,latx-Difflat)
若latx=latv,则对下一个集合进行计算;
步骤S4-5:重复S4-4步骤,计算车辆轨迹的自由度即非拥堵区域点所占轨迹点比例,如式(13)所示:
Figure BDA0003007694940000141
式(13)中,fm表示每个拥堵区域内点频数,P表示拥堵区域的数目,K表示轨迹共经过的区域数目,每类频数为fi
步骤S4-6:司机的收入和经验情况为:
EAFcar_no=Ecar_no+Freecar_no (14)
依次计算所有司机的EAFcar_no值,对每个EAFcar_no进行离差标准化处理,映射到[0,1]区间。
图4中,对于任意一条轨迹点集vdata,peak,car_no,可根据m个拥堵区域将轨迹划分为m+1个子轨迹集,在每个子轨迹上可根据子轨迹的起始、终止点建立包含半数以上中间轨迹点的定位区域,根据定位区域的范围判断是否包含聚类得到的拥堵区域中心,进而判断该段轨迹与拥堵区域的位置关系。
实施例6
根据实施例1所述的一种高收入出租车司机及其经验轨迹的提取方法,其区别在于:
步骤S5中,基于交叉口的轨迹插值法对轨迹路线进行恢复,如图5、图6所示,具体步骤如下:
步骤S5-1:依次遍历轨迹点,在轨迹点pi(loni,lati)和pi+1(loni+1,lati+1)间建立矩形搜索区域,矩形搜索区域中四个矩形点坐标分别为:
psearch1,i(loni+1,lati,)、psearch2,i(loni,lati+1)、psearch3,i(loni,lati)、psearch4,i(loni+1,lati+1);
步骤S5-2:根据上一步骤得到的坐标点,确定经纬度范围为:min{loni,loni+1}≤lon≤max{loni,loni+1}且min{lati,lati+1}≤lat≤max{lati,lati+1};通过打断城市路网交点的方法获取城市交叉口坐标坐标集C,在C中遍历其中的交叉口坐标点,根据经纬度范围判断该矩形搜索区域内是否存在交叉口坐标点,如果存在,则提取矩形搜索区域内的城市交叉口点组成坐标集M,依次计算M中坐标点mj与pi的距离d(pi,mj),j=1,2...n,选取d(pi,mj)中的最小值对应的交叉口坐标点mj加入到轨迹点集P中,形成新的轨迹点;
步骤S5-3:从新加入的轨迹点mj开始,重复步骤S5-1、步骤S5-2,直至遍历至轨迹点集P中最后一个点,迭代完成,交叉口坐标插值结束,进入步骤S5-4;
步骤S5-4:重新遍历轨迹点,计算pi和pi+1的经纬度之差的绝对值是否超过0.0005,i=1,2...n-1,若超过,说明二者距离过大,将pi和pi+1之间的中点坐标作为新的坐标点加入到轨迹点集P中,反之则不插入;
步骤S5-5:遍历新的轨迹点数据,直至相邻两点之间的经纬度之差的绝对值小于0.0005。
步骤S5-6:对所有出租车的高峰时段轨迹进行插值,重复步骤S5-1、步骤S5-2、步骤S5-3、步骤S5-4、步骤S5-5,得到插值后的轨迹点集v′data,peak,car_no{p1,p2...pi};依次对筛选到的司机的轨迹点数据进行恢复。
图5中,在两个轨迹点之间建立矩形区域,根据矩形区域的经纬度判断是否存在城市交叉口,如存在则将取距离最短者,将坐标加入到轨迹点数据中,之后从新加入的轨迹点开始,再次建立矩形区域进行判断,直至两轨迹点之间区域无城市交叉口。遍历新的轨迹点数据,判断连续两点之间的经纬度之差的绝对值是否超过0.0005,如超过则取二者中点坐标加入到轨迹点数据中,直至轨迹中连续两点之间的经纬度之差的绝对值小于或等于0.0005。图7为利用基于交叉口坐标的轨迹插值法插值前后效果示意图。图7中,左图为原始轨迹点,右图为经过插值后的新轨迹点数据。
实施例7
根据实施例1所述的一种高收入出租车司机及其经验轨迹的提取方法,其区别在于:
步骤S6中,对地图进行网格分割,分析高收入司机轨迹的空间特征,如图8所示,具体步骤如下:
步骤S6-1:将地图区域进行网格化处理,按照经纬度范围,根据网格行、列数等分切割坐标区域,得到m×n的网格,按照序号生成对应网格的ID;
步骤S6-2:将v′data,peak,car_no中的pi导入到地图网格中,根据每个网格的经纬度范围,得到每个网格内的轨迹点数量nid,i
步骤S6-3:计算出当前网格中轨迹点数量占当前轨迹总数目的比值,如式(15)所示:
Figure BDA0003007694940000151
式(15)中,cid,i表示第i辆出租车的轨迹点中在第id个网格中轨迹点数量占总数目的比值,Npi表示第i辆出租车的轨迹点总数目;
步骤S6-4:遍历v′data,peak,car_no,重复步骤S6-2、步骤S6-3,对每个网格的cid,i进行累加并求均值,得到各个网格应达到的轨迹点的指标cid,如图9所示,如式(16)所示:
Figure BDA0003007694940000161
式(16)中,n表示经过该网格区域的出租车数量,将地图划分为空间网格结构,每个网格中对应一个单独的ID,同时网格中存储着早高峰时期出租车在该区域的轨迹点的比例,体现高收入出租车轨迹的空间分布特征,也代表着出租车在本区域内的行驶频率,cid高则代表高收入出租车司机在该区域行驶频率较高,若低则在此区域行驶频率低。
步骤S6-5:将步骤S6-4所得各网格cid映射为轨迹点分布直方图,建立轨迹数据的图像表达方式;轨迹点分布直方图中,横坐标代表每个网格ID,纵坐标为对应的cid或cid,i。即对于日平均(高峰时段)或当日每辆出租车轨迹点数据都可以用轨迹直方图表示其轨迹点在各个网格中出现的频率,建立轨迹数据的图像化表达方式。
图8中,通过前期步骤完成了对高收入司机的筛选和轨迹点的补充,通过对地图的网格切割,计算出每个出租车早高峰轨迹点在各个网格中的占总轨迹点的比例,进而求得全部高收入司机在各个网格中的平均占比,得到高收入司机轨迹的空间特征。
图9中,将所得占比映射到轨迹数据直方图中,形成了轨迹分布的图像表达方式。
实施例8
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1-7任一所述高收入出租车司机及其经验轨迹的提取方法的步骤。
实施例9
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1-7任一所述高收入出租车司机及其经验轨迹的提取方法的步骤。

Claims (8)

1.一种高收入出租车司机及其经验轨迹的提取方法,其特征在于,包括以下步骤:
步骤S1:出租车轨迹点数据预处理;
步骤S2:按时段和载客状态对步骤S1预处理后的出租车轨迹点数据进行划分;
步骤S3:对各出租车司机的经验系数进行计算;
步骤S4:对高峰时段的数据进行聚类,得到拥堵区域的分布情况,使用轨迹样条法对各出租车司机的轨迹自由度进行计算;
选取早高峰时段,对Vdata进行第一次划分,分成早高峰时段的出租车轨迹点集Vdata,peak和非早高峰时段的出租车轨迹点集即其他时段的出租车轨迹点集Vdata,low;peak和low分别表示高峰和其他时段;
对Vdata,peak进行两次聚类,具体步骤如下:
步骤S4-1:通过DBSCAN算法对Vdata,peak进行初步聚类:读取高峰时段的所有出租车轨迹点的经纬度字段数据,输入ε、MinPts,ε表示半径参数,MinPts表示邻域集合中轨迹点的最小数目,遍历数据点,得到n个聚类簇Ci,i=1,2,3…n;
步骤S4-2:通过K-Means算法计算步骤S4-1得到的每个聚类簇Ci的经纬度的聚类中心、每个聚类簇Ci的速度的聚类中心:每次聚类设定K值为1,多次迭代计算后,聚类中心不再发生变化,得到每个聚类簇Ci的经纬度的聚类中心ci及聚类簇Ci的对应的速度聚类中心vi,i=1,2...n;
步骤S4-3:根据步骤S4-2得到的速度聚类中心vi,当vi<ξ时,判断该聚类簇Ci为拥堵区域,ξ表示高峰时段出租车速度阈值,否则,判断该聚类簇Ci为非拥堵区域;剔除非拥堵区域后,得到拥堵区域的中心坐标集合Cong,Cong={c′1,c′2...c′m},m≤n;
步骤S4-4:使用轨迹样条法分析各出租车轨迹点和中心坐标集合Cong中元素的位置关系,将每一个vdata,peak,car_no划分为m+1段,对于车牌编号为car_no的轨迹点数据集,划分步骤如下:
将轨迹点集按时间排列,首个轨迹点为p1(lon1,lat1),最末轨迹点为pi+1(loni+1,lati+1),轨迹点数为i+1,得到每段中轨迹点的数量k,如式(11)所示:
Figure FDA0003564376790000011
式(11)中,k表示每段中轨迹点的数量,并向下取整;
则出租车每个轨迹点集划分为m+1段子轨迹集,即vdata,peak,car_no={point1,k,pointk,2k...point(m-1)k,mk,pointmk,i+1};point1,k表示排序后的vdata,peak,car_no的轨迹点集中第1个点到第k个轨迹点组成的集合;pointk,2k表示第k个点到第2k个轨迹点组成的集合;
对于上一步得到的每个集合pointx,y,得出第x个坐标点px(lonx,latx)和第y个坐标点py(lony,laty),从px、py中选取经度和纬度的最大值、最小值,组合构成定位区域S,定位点分别为:px(lonx,latx)、py(lony,laty)、psupply1(lony,latx)、psupply2(lonx,laty);
若第1至第m个定位区域内每个定位区域内应包含的轨迹点数
Figure FDA0003564376790000021
则为有效区域,判断定位区域S的经纬度范围中是否存在Cong中的元素,如存在,则表示该段子轨迹经过拥堵区域,统计pointx,y中元素的频数fm;反之,遍历下一个集合;
若第1至第m个定位区域内每个定位区域内应包含的轨迹点数
Figure FDA0003564376790000022
则为无效区域,对于无效区域,则计算两点纬度之差,如式(12)所示:
Difflat=max{latx,laty}-max{latx,laty} (12)
Difflat表示两点纬度之差,若latx>laty,定位区域S的定位点更新为:
psupply1(lonx,latx-2Difflat),psupply2(lony,laty+2Difflat),psupply3(lony,laty-Difflat),psupply4(lonx,latx+Difflat)
若latx<laty,定位区域S的定位点更新为:
psupply1(lonx,latx+2Difflat),psupply2(lony,laty-2Difflat),psupply3(lony,laty+Difflat),psupply4(lonx,latx-Difflat)
若latx=laty,则对下一个集合进行计算;
步骤S45:重复S44步骤,计算车辆轨迹的自由度即非拥堵区域点所占轨迹点比例,如式(13)所示:
Figure FDA0003564376790000023
式(13)中,fm表示每个拥堵区域内点频数,P表示拥堵区域的数目,K表示轨迹共经过的区域数目,每类频数为fi
步骤S46:司机的收入和经验情况为:
EAFcar_no=Ecar_no+Freecar_no (14)
依次计算所有司机的EAFcar_no值,对每个EAFcar_no进行离差标准化处理,映射到[0,1]区间;
步骤S5:将经验系数和轨迹自由度高者组成高收入出租车数据集合,通过交叉口坐标点插值法恢复轨迹;
步骤S6:对地图进行网格分割,计算每个网格内各车辆轨迹点的平均占比,映射到轨迹分布直方图中,形成轨迹分布的图像表达方式。
2.根据权利要求1所述的一种高收入出租车司机及其经验轨迹的提取方法,其特征在于,步骤S1中,是指:统计当日整个城市各出租车提供的出租车轨迹点的数量,确定出租车轨迹点的分布情况,剔除分析区域范围外的和出租车轨迹点的数量小于800的出租车轨迹点,剩余出租车轨迹点集用Vdata表示,data表示出租车轨迹点的采集日期。
3.根据权利要求2所述的一种高收入出租车司机及其经验轨迹的提取方法,其特征在于,步骤S2中,是指:
对Vdata,peak和Vdata,low分别按车牌号和载客状态进行二次划分,先从Vdata,peak和Vdata,low中根据车牌号提取到每辆出租车对应的出租车轨迹点集vdata,peak,car_no和vdata,low,car_no,car_no表示出租车的车辆编号;
接着,对出租车轨迹点集vdata,peak,car_no和vdata,low,car_no根据载客状态进行划分,每个轨迹点集划分为若干个载客和空载的子轨迹,即vdata,peak,car_no={traj1,status,traj2, status...traji,status},vdata,low,car_no={traj1,status,traj2,status...trajj,status},status表示载客状态,status=0表示空载,status=1表示载客;traj表示一段轨迹,由轨迹点组成,traj={p1,status,p2,status...pn,status},p1,status,p2,status表示轨迹点,对于每辆出租车,得空载轨迹n段,载客轨迹m段。
4.根据权利要求1所述的一种高收入出租车司机及其经验轨迹的提取方法,其特征在于,步骤S3中,计算每辆出租车不同轨迹段的行驶里程、载客时间和空载时间,得到每辆车的经验系数Ecar_no,具体步骤为:
步骤S31:根据车辆全天的轨迹数据和载客状态,计算出租车司机全天的空载里程dempty,car_no和载客里程dpass,car_no
通过式(1)求取两个出租车轨迹点pi与pi+1之间的纬度之差;通过式(2)求取两个出租车轨迹点pi与pi+1之间的经度之差;通过式(3)求取两个出租车轨迹点pi与pi+1之间的距离;通过式(4)求取两个出租车轨迹点pi与pi+1之间的距离;
dlat=lati+1-lati (1)
dlon=loni+1-loni (2)
Figure FDA0003564376790000041
Figure FDA0003564376790000042
式(1)、式(2)中,dlat表示两个出租车轨迹点间的纬度之差;dlon表示两个出租车轨迹点间经度之差;pi(loni,lati)即pi表示当前的出租车轨迹点,pi+1(loni+1,lati+1)即pi+1表示与pi邻接的下一个出租车轨迹点,lati与lati+1分别表示两个出租车轨迹点pi与pi+1的纬度,loni与loni+1分别表示两个出租车轨迹点pi与pi+1的经度;i+1表示当前轨迹中出租车轨迹点的数目;
式(3)、式(4)中,d(pi,pi+1)表示出租车轨迹点pi与pi+1之间的距离,
Figure FDA0003564376790000043
表示轨迹traj的长度,轨迹中共有i+1个轨迹点;
则对于每个司机,其全天的空载里程dempty,car_no和载客里程dpass,car_no分别如式(5)、式(6)所示:
Figure FDA0003564376790000044
Figure FDA0003564376790000045
式(5)、式(6)中,
Figure FDA0003564376790000046
表示每段空载轨迹的长度,由i+1个轨迹点构成,共n段,每段status=0:
Figure FDA0003564376790000047
表示每段载客轨迹的长度,由i+1个轨迹点构成,共m段,此时status=1;
步骤S3-2:根据步骤S31计算的轨迹的长度d,d为空载里程dempty,car_no和载客里程dpass,car_no之和,进一步得出出租车司机每段载客轨迹的收入,计算公式如式(7)所示:
Figure FDA0003564376790000048
式(7)中,
Figure FDA00035643767900000411
表示轨迹长度为d的收入,xi为0-1变量,当xi=0时,表示载客;当xi=1时,表示空载,Rstart表示出租车起步价,λ表示每公里的租价,
Figure FDA0003564376790000049
表示加收的空驶费率,c表示其他支出,dist1,dist2表示当地物价局或运营公司设置的里程计费节点;
则出租车载客时的收益Rcar_no的计算如式(8)所示:
Figure FDA00035643767900000410
式(8)中,di表示载客每段载客轨迹的长度,载客轨迹共有m段;
步骤S3-3:计算出租车司机的经验系数Ecar_no,如式(9)、式(10)所示:
ttraj=tend,i+1-tstart,1(9)
Figure FDA0003564376790000051
式(9)至式(10)中,ttraj表示第j段轨迹出租车的行驶时长,tstart,1表示当前轨迹中第一个轨迹点的生成时间,tend,i+1表示当前轨迹中最后一个轨迹点的生成时间;ttraj,data,car_no表示该出租车在data日期内的总行驶时长;
步骤S3-4:重复步骤S3-1、步骤S3-2、步骤S3-3,依次计算出各个出租车司机的经验系数Ecar_no
5.根据权利要求4所述的一种高收入出租车司机及其经验轨迹的提取方法,其特征在于,步骤S5中,基于交叉口的轨迹插值法对轨迹路线进行恢复,具体步骤如下:
步骤S5-1:依次遍历轨迹点,在轨迹点pi(loni,lati)和pi+1(loni+1,lati+1)间建立矩形搜索区域,矩形搜索区域中四个矩形点坐标分别为:
psearch1,i(loni+1,lati,)、psearch2,i(loni,lati+1)、psearch3,i(loni,lati)、psearch4,i(loni+1,lati+1);
步骤S5-2:根据上一步骤得到的坐标点,确定经纬度范围为:min{loni,loni+1}≤lon≤max{loni,loni+1}且min{lati,lati+1}≤lat≤max{lati,lati+1};通过打断城市路网交点的方法获取城市交叉口坐标坐标集C,在C中遍历其中的交叉口坐标点,根据经纬度范围判断该矩形搜索区域内是否存在交叉口坐标点,如果存在,则提取矩形搜索区域内的城市交叉口点组成坐标集M,依次计算M中坐标点mj与pi的距离d(pi,mj),j=1,2...n,选取d(pi,mj)中的最小值对应的交叉口坐标点mj加入到轨迹点集P中,形成新的轨迹点;
步骤S5-3:从新加入的轨迹点mj开始,重复步骤S5-1、步骤S5-2,直至遍历至轨迹点集P中最后一个点,迭代完成,交叉口坐标插值结束,进入步骤S5-4;
步骤S5-4:重新遍历轨迹点,计算pi和pi+1的经纬度之差的绝对值是否超过0.0005,i=1,2...n-1,若超过,说明二者距离过大,将pi和pi+1之间的中点坐标作为新的坐标点加入到轨迹点集P中,反之则不插入;
步骤S5-5:遍历新的轨迹点数据,直至相邻两点之间的经纬度之差的绝对值小于0.0005;
步骤S5-6:对所有出租车的高峰时段轨迹进行插值,重复步骤S5-1、步骤S5-2、步骤S5-3、步骤S5-4、步骤S5-5,得到插值后的轨迹点集v′data,peak,car_no{p1,p2…pi};依次对筛选到的司机的轨迹点数据进行恢复。
6.根据权利要求5所述的一种高收入出租车司机及其经验轨迹的提取方法,其特征在于,步骤S6中,对地图进行网格分割,分析高收入司机轨迹的空间特征,具体步骤如下:
步骤S6-1:将地图区域进行网格化处理,按照经纬度范围,根据网格行、列数等分切割坐标区域,得到m×n的网格,按照序号生成对应网格的ID;
步骤S6-2:将v′data,peak,car_no中的pi导入到地图网格中,根据每个网格的经纬度范围,得到每个网格内的轨迹点数量nid,i
步骤S63:计算出当前网格中轨迹点数量占当前轨迹总数目的比值,如式(15)所示:
Figure FDA0003564376790000061
式(15)中,cid,i表示第i辆出租车的轨迹点中在第id个网格中轨迹点数量占总数目的比值,Npi表示第i辆出租车的轨迹点总数目;
步骤S6-4:遍历v′data,peak,car_no,重复步骤S6-2、步骤S6-3,对每个网格的cid,i进行累加并求均值,得到各个网格应达到的轨迹点的指标cid,如式(16)所示:
Figure FDA0003564376790000062
式(16)中,n表示经过该网格区域的出租车数量,将地图划分为空间网格结构,cid高则代表高收入出租车司机在该区域行驶频率较高,若低则在此区域行驶频率低;
步骤S6-5:将步骤S6-4所得各网格cid映射为轨迹点分布直方图,建立轨迹数据的图像表达方式;轨迹点分布直方图中,横坐标代表每个网格ID,纵坐标为对应的cid或cid,i
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6任一所述高收入出租车司机及其经验轨迹的提取方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一所述高收入出租车司机及其经验轨迹的提取方法的步骤。
CN202110366325.1A 2021-04-06 2021-04-06 一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质 Active CN113095393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110366325.1A CN113095393B (zh) 2021-04-06 2021-04-06 一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110366325.1A CN113095393B (zh) 2021-04-06 2021-04-06 一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113095393A CN113095393A (zh) 2021-07-09
CN113095393B true CN113095393B (zh) 2022-06-03

Family

ID=76673764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110366325.1A Active CN113095393B (zh) 2021-04-06 2021-04-06 一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113095393B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673571A (zh) * 2021-07-22 2021-11-19 华设设计集团股份有限公司 一种基于密度聚类方法的出租车异常订单识别方法
CN118195177A (zh) * 2024-05-16 2024-06-14 天津市城市规划设计研究总院有限公司 一种空间数据治理领域基于od数据的动态区域划分方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739615A (zh) * 2009-11-30 2010-06-16 交通部公路科学研究院 出租车智能综合监管与服务系统
CN112463901A (zh) * 2020-11-18 2021-03-09 浙江工业大学 一种高密度群体轨迹数据的微观可视分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8878695B2 (en) * 2011-06-27 2014-11-04 Stc, Inc. Signal light priority system utilizing estimated time of arrival
US10417469B2 (en) * 2016-05-07 2019-09-17 Morgan E. Davidson Navigation using self-describing fiducials
CN108597251A (zh) * 2018-04-02 2018-09-28 昆明理工大学 一种基于车联网的交通路口分布式车辆碰撞预警方法
CN110332942A (zh) * 2019-04-07 2019-10-15 武汉理工大学 一种空载出租车行驶路径优化方法
CN110728305B (zh) * 2019-09-16 2024-01-05 南京信息工程大学 基于网格信息熵聚类算法的出租车载客热点区域挖掘方法
CN110696818A (zh) * 2019-10-12 2020-01-17 深圳市布谷鸟科技有限公司 一种基于最优路径的自动泊车方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739615A (zh) * 2009-11-30 2010-06-16 交通部公路科学研究院 出租车智能综合监管与服务系统
CN112463901A (zh) * 2020-11-18 2021-03-09 浙江工业大学 一种高密度群体轨迹数据的微观可视分析方法

Also Published As

Publication number Publication date
CN113095393A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN113095393B (zh) 一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质
CN110298500B (zh) 一种基于出租车数据和城市路网的城市交通轨迹数据集生成方法
Zhang et al. A framework for passengers demand prediction and recommendation
CN109670277A (zh) 一种基于多模态数据融合与多模型集成的旅行时间预测方法
CN109544929B (zh) 一种基于大数据的车辆低碳控制与诱导方法、系统、设备和存储介质
CN113327418B (zh) 一种快速路拥堵风险分级实时预测方法
CN110634299B (zh) 基于多源轨迹数据的城市交通状态精细划分与识别方法
CN109308804B (zh) 基于张量分解的旅行时间估计方法
CN108961758A (zh) 一种基于梯度提升决策树的路口展宽车道探测方法
CN112784000B (zh) 基于出租车轨迹数据的寻客方法
CN110836675A (zh) 一种基于决策树的自动驾驶搜索决策方法
CN112579921B (zh) 基于倒排序索引及前缀树的轨迹索引和查询方法及系统
CN107798440B (zh) 一种基于线路候选集的地铁接驳巴士线路规划方法
DE112021001926T5 (de) System und verfahren zur filterlosen drosselung vonfahrzeugereignisdatenverarbeitung zum identifizieren von parkbereichen
CN116542709A (zh) 一种基于交通态势感知的电动汽车充电站规划分析方法
CN114839984A (zh) 一种班车路径规划方法、装置、设备及存储介质
CN113888867B (zh) 一种基于lstm位置预测的车位推荐方法及系统
CN113570860B (zh) 针对轨迹数据的城市道路交通状态精细划分与识别的方法
CN111428154A (zh) 基于四叉树划分优化的单车gps数据多视图可视交互分析方法
CN112052405B (zh) 一种基于司机经验的寻客区域推荐方法
CN112559909B (zh) 一种基于gcn嵌入空间聚类模型的商业区发现方法
CN111723871B (zh) 一种公交车实时车厢满载率的估算方法
CN109979198A (zh) 基于大规模浮动车数据的城市快速道路车速离散辨识方法
CN114743050A (zh) 一种驾驶员人像预分类方法、图像分类装置以及存储介质
CN114692015A (zh) 一种基于密度聚类的乘车点推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant