CN113095393B

CN113095393B - 一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质

Info

Publication number: CN113095393B
Application number: CN202110366325.1A
Authority: CN
Inventors: 陈京荣; 兰晓伟; 吴建清; 吕斌; 侯文斌; 宋修广; 张昱; 吕琛; 庄绪彩
Original assignee: SUZHOU RESEARCH INSTITUTE SHANDONG UNIVERSITY; Lanzhou Jiaotong University
Current assignee: SUZHOU RESEARCH INSTITUTE SHANDONG UNIVERSITY; Lanzhou Jiaotong University
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2022-06-03
Anticipated expiration: 2041-04-06
Also published as: CN113095393A

Abstract

本发明涉及一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质，本发明基于出租车轨迹数据，按时段和载客状态将轨迹数据进行划分，通过计算行驶里程、时间、收入等对出租车司机收入进行初步判断，进一步的，根据拥堵区域的分布使用轨迹样条法对司机类型进行二次判断，使用基于交叉口坐标的轨迹插值法快速恢复筛选到的高收入司机的相应轨迹，将提取到的行驶轨迹路线作为样本集，通过空间网格化分析，映射到轨迹分布直方图中，形成轨迹分布的图像表达方式。

Description

一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质

技术领域

本发明涉及一种高收入出租车司机及其经验轨迹的提取方法、设备及存储介质，属于导航系统技术领域。

背景技术

随着城市交通的发展，通勤高峰时段路段的拥堵指数在不断增长。出租车作为城市公共交通的重要组成部分，在高峰时段发挥着重要的服务功能。但由于不同区域发生的拥堵，致使其调度功能受限，居民在高峰时段出行往往会遇到“打车难”或“无车打”的问题。而高收入出租车司机却能在高峰时段通过自己的驾驶经验，制定合适的驾驶策略，对拥堵区域作出绕行并挖掘高价值的载客点，降低了高峰时段的运营成本，提高了出租车的服务水平。研究人员意识到，可以通过安装在出租车内车载GPS定位终端所采集到出租车当日大量的轨迹点信息，包括轨迹点的经纬度、定位时间、载客状态等，挖掘高收入和经验丰富司机的轨迹数据，分析其驾驶经验路线和区域为其他司机的行驶策略提供指导以提高司机收入。但在采集过程中，由于设备技术问题、建筑物遮挡和电磁干扰等，造成了部分路段轨迹信息点的缺失和稀疏，导致轨迹的空间特征不足，同时，轨迹数据中并没有可直观反映出租车司机收入和经验丰富程度的因素，应如何从巨量的轨迹中挖掘高收入司机的有效轨迹特征并进行轨迹提取，这成了研究人员亟待解决的问题。

目前，针对该类问题的解决方案主要是通过路网匹配算法进行轨迹恢复，然后计算出租车在对应道路上的行驶频率，构建部分路段的经验等级指标或数据库，依托出租车司机收入情况对高收入司机的特征分布进行聚类分析。这种方案在轨迹恢复上未充分考虑出租车轨迹数据量巨大、恢复精度要求不高、恢复时要与路网基本匹配的特点，对高收入司机行驶轨迹的特征的挖掘和时空关联度的考虑还不够，不完整不均匀的轨迹信息也会对目标的筛选和结果的输出造成一定误差，且通常的直接聚类方法得到的区域往往缺少空间分布的具体特征，对出租车司机出行路线的指导意义不足。

发明内容

针对现有技术的不足，本发明提供了一种高收入出租车司机及其经验轨迹的提取方法；

本发明还提供了一种计算机设备及计算机存储介质；

本发明基于出租车轨迹数据，按时段和载客状态将轨迹数据进行划分，通过计算行驶里程、时间、收入等对出租车司机收入进行初步判断，进一步的，根据拥堵区域的分布使用轨迹样条法对司机类型进行二次判断，使用基于交叉口坐标的轨迹插值法快速恢复筛选到的高收入司机的相应轨迹，将提取到的行驶轨迹路线作为样本集，通过空间网格化分析，映射到轨迹分布直方图中，形成轨迹分布的图像表达方式。

本发明通过分析运营里程、收入、时间等因素之间的关系初步筛选出高收入司机，并考虑了出租车司机轨迹和拥堵区域的相关性对数据进行了二次筛选，大幅提升了高质量的高收入司机数据的占比。在此基础上，基于交叉口坐标点，该发明可对原始轨迹数据进行快速补充和插值，解决了原始轨迹数据点部分缺失和稀疏的问题，使轨迹点达到均匀，丰富了轨迹的空间特征。通过对提取到的轨迹数据进行网格化分析，利用轨迹分布直方图可直观的得到高收入司机早高峰时段在整个工作区域的空间分布相似性及差异，为出租车公司及司机提供了更加合理的调度和行驶方案。

术语解释：

1、DBSCAN算法，DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

2、K-MEANS算法，是输入聚类个数k，以及包含n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法。K-MEANS算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足；同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。

3、半正矢公式，半正矢公式(Haversine公式)用来计算球面上两点之间的最短距离，在设定好地球半径后，可直接从所述两个点的纬度和经度来计算二者之间的距离。

本发明的技术方案为：

一种高收入出租车司机及其经验轨迹的提取方法，包括以下步骤：

步骤S1：出租车轨迹点数据预处理；

步骤S2：按时段(高峰和平峰)和载客状态(载客和空载)对步骤S1预处理后的出租车轨迹点数据进行划分；

步骤S3：根据行驶里程和运营时间等指标，对各出租车司机的经验系数进行计算；

步骤S4：对高峰时段的数据进行聚类，得到拥堵区域的分布情况，使用轨迹样条法对各出租车司机的轨迹自由度进行计算；

步骤S5：将经验系数和轨迹自由度高者组成高收入出租车数据集合，通过交叉口坐标点插值法恢复轨迹；

步骤S6：对地图进行网格分割，计算每个网格内各车辆轨迹点的平均占比，映射到轨迹分布直方图中，形成轨迹分布的图像表达方式。

进一步优选的，步骤S1中，是指：统计当日整个城市各出租车提供的出租车轨迹点的数量，确定出租车轨迹点的分布情况，剔除分析区域范围外的和出租车轨迹点的数量小于800的出租车轨迹点，剩余出租车轨迹点集用V_data表示，data表示出租车轨迹点的采集日期。

进一步优选的，步骤S2中，是指：

选取7:00——8:30为早高峰时段，对V_data进行第一次划分，分成早高峰时段的出租车轨迹点集V_data，peak和非早高峰时段的出租车轨迹点集即其他时段的出租车轨迹点集V_data，low，peak和low分别表示高峰和其他时段；

对V_data，peak和V_data，low分别按车牌号和载客状态进行二次划分，先从V_data，peak和V_data，low中根据车牌号提取到每辆出租车对应的出租车轨迹点集v_{data，peak，car_no}和v_{data，low，car_no}，car_no表示出租车的车辆编号；

接着，对出租车轨迹点集v_{data，peak，car_no}和v_{data，low，car_no}根据载客状态进行划分，每个轨迹点集划分为若干个载客和空载的子轨迹，即v_{data，peak，car_no}＝{traj_1，status，traj_2，status...traj_i，status}，v_{data，low，car_no}＝{traj_1，status，traj_2，status...traj_j，status}，status表示载客状态，status＝0表示空载，status＝1表示载客；traj表示一段轨迹，由轨迹点组成，traj＝{p_1，status，p_2，status...p_n，status}，p_1，status，p_2，status表示轨迹点，对于每辆出租车，得空载轨迹n段，载客轨迹m段。

进一步优选的，步骤S3中，计算每辆出租车不同轨迹段的行驶里程、载客时间和空载时间，得到每辆车的经验系数E_{car_no}，具体步骤为：

步骤S3-1：根据车辆全天的轨迹数据和载客状态，计算出租车司机全天的空载里程d_{empty，car_no}和载客里程d_{pass，car_no}；

通过式(1)求取两个出租车轨迹点p_i与p_i+1之间的纬度之差；通过式(2)求取两个出租车轨迹点p_i与p_i+1之间的经度之差；通过式(3)求取两个出租车轨迹点p_i与p_i+1之间的距离；通过式(4)求取整段轨迹的长度；

dlat＝lat_i+1-lat_i (1)

dlon＝lon_i+1-lon_i (2)

式(1)、式(2)中，dlat表示两个出租车轨迹点间的纬度之差；dlon表示两个出租车轨迹点间经度之差；p_i(lon_i，lat_i)即p_i表示当前的出租车轨迹点，p_i+1(lon_i+1，lat_i+1)即p_i+1表示与p_i邻接的下一个出租车轨迹点，lon_i与lon_i+1分别表示两个出租车轨迹点p_i与p_i+1的经度，lat_i与lat_i+1分别表示两个出租车轨迹点p_i与p_i+1的纬度，i+1表示当前轨迹中出租车轨迹点的数目；

式(3)、式(4)中，式(3)为半正矢公式的变形，d(p_i，p_i+1)表示出租车轨迹点p_i与p_i+1之间的距离，

表示轨迹traj的长度，轨迹中共有i+1个轨迹点；

则对于每个司机，其全天的空载里程d_{empty，car_no}和载客里程d_{pass，car_no}分别如式(5)、式(6)所示：

式(5)、式(6)中，

表示每段空载轨迹的长度，由i+1个轨迹点构成，共n段，每段status＝0；

表示每段载客轨迹的长度，由i+1个轨迹点构成，共m段，此时status＝1；

步骤S3-2：根据步骤S3-1计算的轨迹的长度d，d为空载里程d_{empty，car_no}和载客里程d_{pass，car_no}之和，进一步得出出租车司机每段载客轨迹的收入，出租车计费一般采用分段计费的形式，计算公式如式(7)所示：

式(7)中，r_{car_no}(d，x_i)表示轨迹长度为d的收入，x_i为0-1变量，当x_i＝0时，表示载客；当x_i＝1时，表示空载，R_start表示出租车起步价，λ表示每公里的租价，

表示加收的空驶费率，c表示其他支出(例如，折旧、油耗等)，dist1，dist2，dist3表示当地物价局或运营公司设置的里程计费节点；

则出租车载客时的收益R_{car_no}的计算如式(8)所示：

式(8)中，d_i表示载客每段载客轨迹的长度，载客轨迹共有m段；

步骤S3-3：计算出租车司机的经验系数E_{car_no}，如式(9)、式(10)所示：

t_traj＝t_end，i+1-t_start，1 (9)

式(9)至式(10)中，t_traj表示traj段轨迹的行驶时长，t_start，1表示当前轨迹中第一个轨迹点的生成时间，t_end，i+1表示当前轨迹中最后一个轨迹点的生成时间；t_{traj，data，car_no}表示该出租车在data日期内的总行驶时长；

步骤S3-4：重复步骤S3-1、步骤S3-2、步骤S3-3，依次计算出各个出租车司机的经验系数E_{car_no}。将所得数据写入到数据库表中进行存储；

进一步优选的，步骤S4中，对步骤S2中所得的V_data，peak进行两次聚类，具体步骤如下：

步骤S4-1：通过DBSCAN算法对V_data，peak进行初步聚类：读取高峰时段的所有出租车轨迹点的经纬度字段数据，输入ε、MinPts，ε表示半径参数，MinPts表示邻域集合中轨迹点的最小数目，遍历数据点，得到n个聚类簇Ci，i＝1，2，3…n；

步骤S4-2：通过K-Means算法计算步骤S4-1得到的每个聚类簇Ci的经纬度的聚类中心、每个聚类簇Ci的速度的聚类中心：每次聚类设定K值为1，多次迭代计算后，聚类中心不再发生变化，得到每个聚类簇Ci的经纬度的聚类中心c_i及聚类簇Ci的对应的速度聚类中心v_i，i＝1，2...n；

步骤S4-3：根据步骤S4-2得到的速度聚类中心v_i，当v_i＜ξ时，判断该聚类簇Ci为拥堵区域，ξ表示高峰时段出租车速度阈值，否则，判断该聚类簇Ci为非拥堵区域；剔除非拥堵区域后，得到拥堵区域的中心坐标集合Cong，Cong＝{c′₁，c′₂...c′_m}，m≤n；

步骤S4-4：使用轨迹样条法分析各出租车轨迹点和中心坐标集合Cong中元素的位置关系，将每一个v_{data，peak，car_no}划分为m+l段，对于车牌编号为car_no的轨迹点数据集，具体步骤如下：

将轨迹点集按时间排列，首个轨迹点为p₁(lon₁，lat₁)，最末轨迹点为p_i+1(lon_i+1，lat_i+1)，轨迹点数为i+1，进行分段，得到每段中轨迹点的数量k，如式(11)所示：

式(11)中，k表示每段中轨迹点的数量，并向下取整；

则出租车每个轨迹点集划分为m+1段子轨迹集，即v_{data，peak，car_no}＝{point_1，k，point_k，2k...point_(m-1)k，mk，point_mk，i+1}；point_1，k表示排序后的v_{data，peak，car_no}的轨迹点集中第1个点到第k个轨迹点组成的集合；point_k，2k表示第k个点到第2k个轨迹点组成的集合；以此类推；

对于上一步得到的每个集合point_x，y，得出第x个坐标点p_x(lon_x，lat_x)和第y个坐标点p_y(lon_y，lat_y)，从p_x、p_y中选取经度和纬度的最大值、最小值，组合构成定位区域S，定位点分别为：p_x(lon_x，lat_x)、p_y(lon_y，lat_y)、p_supply1(lon_y，lat_x)、p_supply2(lon_x，lat_y)；

若第1至第m个定位区域内每个定位区域内应包含的轨迹点数

则为有效区域，判断定位区域S的经纬度范围中是否存在Cong中的元素，如存在，则表示该段子轨迹经过拥堵区域，统计point_x，y中元素的频数f_m；反之，遍历下一个集合；

若第1至第m个定位区域内每个定位区域内应包含的轨迹点数

则为无效区域，对于无效区域，则计算两点纬度之差，如式(12)所示：

Diff_lat＝max{lat_x，lat_y}-max{lat_x，lat_y} (12)

Diff_lat表示两点纬度之差，若lat_x＞lat_y，定位区域S的定位点更新为：

p_supply1(lon_x，lat_x-2Diff_lat)，p_supply2(lon_y，lat_y+2Diff_lat)，p_supply3(lon_y，lat_y-Diff_lat)，p_supply4(lon_x，lat_x+Diff_lat)

若lat_x＜lat_y，定位区域S的定位点更新为：

p_supply1(lon_x，lat_x+2Diff_lat)，p_supply2(lon_y，lat_y-2Diff_lat)，p_supply3(lon_y，lat_y+Diff_lat)，p_supply4(lon_x，lat_x-Diff_lat)

若lat_x＝lat_y，则对下一个集合进行计算；

步骤S4-5：重复S4-4步骤，计算车辆轨迹的自由度即非拥堵区域点所占轨迹点比例，如式(13)所示：

式(13)中，f_m表示每个拥堵区域内点频数，P表示拥堵区域的数目，K表示轨迹共经过的区域数目，每类频数为f_i；

步骤S4-6：司机的收入和经验情况为：

EAF_{car_no}＝E_{car_no}+Free_{car_no} (14)

依次计算所有司机的EAF_{car_no}值，对每个EAF_{car_no}进行离差标准化处理，映射到[0，1]区间。

进一步优选的，步骤S5中，基于交叉口的轨迹插值法对轨迹路线进行恢复，具体步骤如下：

步骤S5-1：依次遍历轨迹点，在轨迹点p_i(lon_i，lat_i)和p_i+1(lon_i+1，lat_i+1)间建立矩形搜索区域，矩形搜索区域中四个矩形点坐标分别为：

p_search1，i(lon_i+1，lat_i，)、p_search2，i(lon_i，lat_i+1)、p_search3，i(lon_i，lat_i)、p_search4，i(lon_i+1，lat_i+1)；

步骤S5-2：根据上一步骤得到的坐标点，确定经纬度范围为：min{lon_i，lon_i+1}≤lon≤max{lon_i，lon_i+1}且min{lat_i，lat_i+1}≤lat≤max{lat_i，lat_i+1}；通过打断城市路网交点的方法获取城市交叉口坐标坐标集C，在C中遍历其中的交叉口坐标点，根据经纬度范围判断该矩形搜索区域内是否存在交叉口坐标点，如果存在，则提取矩形搜索区域内的城市交叉口点组成坐标集M，依次计算M中坐标点m_j与p_i的距离d(p_i，m_j)，j＝1，2...n，选取d(p_i，m_j)中的最小值对应的交叉口坐标点m_j加入到轨迹点集P中，形成新的轨迹点；

步骤S5-3：从新加入的轨迹点m_j开始，重复步骤S5-1、步骤S5-2，直至遍历至轨迹点集P中最后一个点，迭代完成，交叉口坐标插值结束，进入步骤S5-4；

步骤S5-4：重新遍历轨迹点，计算p_i和p_i+1的经纬度之差的绝对值是否超过0.0005，i＝1，2...n-1，若超过，说明二者距离过大，将p_i和p_i+1之间的中点坐标作为新的坐标点加入到轨迹点集P中，反之则不插入；

步骤S5-5：遍历新的轨迹点数据，直至相邻两点之间的经纬度之差的绝对值小于0.0005。

步骤S5-6：对所有出租车的高峰时段轨迹进行插值，重复步骤S5-1、步骤S5-2、步骤S5-3、步骤S5-4、步骤S5-5，得到插值后的轨迹点集v′_{data，peak，car_no}{p₁，p₂...p_i}；依次对筛选到的司机的轨迹点数据进行恢复。

进一步优选的，步骤S6中，对地图进行网格分割，分析高收入司机轨迹的空间特征，具体步骤如下：

步骤S6-1：将地图区域进行网格化处理，按照经纬度范围，根据网格行、列数等分切割坐标区域，得到m×n的网格，按照序号生成对应网格的ID；

步骤S6-2：将v′_{data，peak，car_no}中的p_i导入到地图网格中，根据每个网格的经纬度范围，得到每个网格内的轨迹点数量n_id，i；

步骤S6-3：计算出n_id，i占当前轨迹总数目的比值，如式(15)所示：

式(15)中，c_id，i表示第i辆出租车的轨迹点中在第id个网格中轨迹点数量占总数目的比值，N_pi表示第i辆出租车的轨迹点总数目；

步骤S6-4：遍历v′_{data，peak，car_no}，重复步骤S6-2、步骤S6-3；对每个网格的c_id，i进行累加并求均值，得到各个网格应达到的轨迹点的指标c_id，如式(16)所示：

式(16)中，n表示经过该网格区域的出租车数量，将地图划分为空间网格结构，每个网格中对应一个单独的ID，同时网格中存储着早高峰时期出租车在该区域的轨迹点的比例，体现高收入出租车轨迹的空间分布特征，也代表着出租车在本区域内的行驶频率，c_id高则代表高收入出租车司机在该区域行驶频率较高，反之则在此区域行驶频率低。

步骤S6-5：将步骤S6-4所得各网格c_id映射为轨迹点分布直方图，建立轨迹数据的图像表达方式；轨迹点分布直方图中，横坐标代表每个网格ID，纵坐标为对应的c_id或c_id，i。即对于日平均(高峰时段)或当日每辆出租车轨迹点数据都可以用轨迹直方图表示其轨迹点在各个网格中出现的频率，建立轨迹数据的图像化表达方式。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现高收入出租车司机及其经验轨迹的提取方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现高收入出租车司机及其经验轨迹的提取方法的步骤。

本发明的有益效果为：

1、本发明结合出租车轨迹数据的实际应用，提出了一种基于交叉口坐标的轨迹点插值的方法，解决了出租车轨迹点部分路段缺失和稀疏性的问题，该方法是将图网络、城市路网数据与出租车轨迹点的一次应用融合，相较于其他方法，避免了先进行插值后进行路网匹配的问题，并使出租车轨迹点达到基本均匀，丰富了轨迹信息的空间特征，计算速度快，操作简便，实用性强，轨迹还原度高；

2、本发明对高峰时段的高收入出租车轨迹数据进行了充分的提取，通过两次筛选，从收入、里程和驾驶行为等多个维度，剔除了低收入司机轨迹点对样本数据的影响；其中的轨迹样条法可将出租车轨迹与拥堵区域分布进行关联性分析，得到了高收入司机的轨迹数据点和轨迹分布特征，为高峰时段出租车司机运营区域的选择及运营策略提供参考借鉴。

3.本发明利用恢复后的轨迹数据，建立了高收入司机轨迹数据从空间网格分布到空间分布直方图的映射，对轨迹数据的特征及分布情况作出了进一步的描述，形成了轨迹数据分布的图像化表达方式。

附图说明

图1为本发明高收入出租车司机及其经验轨迹的提取方法的流程示意图；

图2为本发明对出租车轨迹数据划分示意图；

图3为本发明划分载客段和空载段轨迹示意图；

图4为本发明基于轨迹样条法通过拥堵区域对司机轨迹自由度进行计算的流程示意图。

图5为基于交叉口坐标点的轨迹插值法的插值的流程示意图；

图6利用基于交叉口坐标点的轨迹插值法恢复出租车行驶轨迹的流程示意图；

图7为利用基于交叉口坐标的轨迹插值法插值前后效果示意图；

图8为本发明对地图进行网格分割提取高收入司机轨迹的空间特征的流程示意图；

图9为本发明得到的轨迹特征示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种高收入出租车司机及其经验轨迹的提取方法，如图1所示,包括以下步骤：

步骤S1：出租车轨迹点数据预处理；

实施例2

根据实施例1所述的一种高收入出租车司机及其经验轨迹的提取方法，其区别在于：

步骤S1中，是指：统计当日整个城市各出租车提供的出租车轨迹点的数量，确定出租车轨迹点的分布情况，剔除分析区域范围外的和出租车轨迹点的数量小于800的出租车轨迹点，剩余出租车轨迹点集用V_data表示，data表示出租车轨迹点的采集日期。

表1为出租车的轨迹数据信息示例。

表1

实施例3

步骤S2中，是指：

上述过程如图2所示，图2中，先按时段对V_data进行划分，得到早高峰时段的出租车轨迹点集V_data，peak和其他时段的出租车轨迹点集V_data，low，后根据车牌号提取到每辆出租车对应的轨迹点集v_{data，peak，car_no}和v_{data，low，car_no}，进一步根据载客状态每个点集可划分为若干个载客段和空载段的子轨迹。

实施例4

步骤S3中，计算每辆出租车不同轨迹段的行驶里程、载客时间和空载时间，得到每辆车的经验系数E_{car_no}，具体步骤为：

通过式(1)求取两个出租车轨迹点p_i与p_i+1之间的纬度之差；通过式(2)求取两个出租车轨迹点p_i与p_i+1之间的经度之差；通过式(3)求取两个出租车轨迹点p_i与p_i+1之间的距离；通过式(4)求取两个出租车轨迹点p_i与p_i+1之间的距离；

dlat＝lat_i+1-lat_i (1)

dlon＝lon_i+1-lon_i (2)

式(1)、式(2)中，dlat表示两个出租车轨迹点间的纬度之差；dlon表示两个出租车轨迹点间经度之差；p_i(lon_i，lat_i)即p_i表示当前的出租车轨迹点，p_i+1(lon_i+1，lat_i+1)即p_i+1表示与p_i邻接的下一个出租车轨迹点，lat_i与lat_i+1分别表示两个出租车轨迹点p_i与p_i+1的纬度，lon_i与lon_i+1分别表示两个出租车轨迹点p_i与p_i+1的经度；i+1表示当前轨迹中出租车轨迹点的数目；

表示轨迹traj的长度，轨迹中共有i+1个轨迹点；

对于每个司机，其全天的空载里程d_{empty，car_no}和载客里程d_{pass，car_no}分别如式(5)、式(6)所示：

式(5)、式(6)中，

式(7)中，

表示轨迹长度为d的收入，x_i为0-1变量，当x_i＝0时，表示载客；当x_i＝1时，表示空载，R_start表示出租车起步价，λ表示每公里的租价，

则出租车载客时的收益R_{car_no}的计算如式(8)所示：

图3为本发明划分载客段和空载段轨迹示意图；图3中，载客段和空载段轨迹可根据STATUS字段进行划分，当STATUS＝0时为空载段轨迹，当STATUS＝1时为载客段轨迹，当STATUS发生变化时即终止当前轨迹段的划分。

t_traj＝t_end，i+1-t_start，1 (9)

式(9)至式(10)中，t_traj表示第j段轨迹出租车的行驶时长，t_start，1表示当前轨迹中第一个轨迹点的生成时间，t_end，i+1表示当前轨迹中最后一个轨迹点的生成时间；t_{traj，data，car_no}表示该出租车在data日期内的总行驶时长；

步骤S3-4：重复步骤S3-1、步骤S3-2、步骤S3-3，依次计算出各个出租车司机的经验系数E_{car_no}。将所得数据写入到数据库表中进行存储。

表2为在对当前司机的各项数据计算后，存储到数据库得到的对应表示例，可根据表格数据计算司机经验系数。

表2

车辆编号	总载客里程/km	总空载里程/km	总收益/元	载客时间/min	空载时间/min	经验系数
							甘A80001	364.11	45.836	300.45	928	152	2.69129
甘A80002	187.456	30.7425	171.372	659	98	2.643839

实施例5

如图4所示，步骤S4中，对步骤S2中所得的V_data，peak进行两次聚类，具体步骤如下：

步骤S4-4：使用轨迹样条法分析各出租车轨迹点和中心坐标集合Cong中元素的位置关系，将每一个v_{data，peak，car_no}划分为m+1段，对于车牌编号为car_no的轨迹点数据集，划分步骤如下：

将轨迹点集按时间排列，首个轨迹点为p₁(lon₁，lat₁)，最末轨迹点为p_i+1(lon_i+1，lat_i+1)，轨迹点数为i+1，得到每段中轨迹点的数量k，如式(11)所示：

式(11)中，k表示每段中轨迹点的数量，并向下取整；

若第1至第m个定位区域内每个定位区域内应包含的轨迹点数

若第1至第m个定位区域内每个定位区域内应包含的轨迹点数

Diff_lat＝max{lat_x，lat_y}-max{lat_x，lat_y} (12)

若lat_x＜lat_y，定位区域S的定位点更新为：

若lat_x＝lat_v，则对下一个集合进行计算；

步骤S4-6：司机的收入和经验情况为：

EAF_{car_no}＝E_{car_no}+Free_{car_no} (14)

图4中，对于任意一条轨迹点集v_{data，peak，car_no}，可根据m个拥堵区域将轨迹划分为m+1个子轨迹集，在每个子轨迹上可根据子轨迹的起始、终止点建立包含半数以上中间轨迹点的定位区域，根据定位区域的范围判断是否包含聚类得到的拥堵区域中心，进而判断该段轨迹与拥堵区域的位置关系。

实施例6

步骤S5中，基于交叉口的轨迹插值法对轨迹路线进行恢复，如图5、图6所示，具体步骤如下：

图5中，在两个轨迹点之间建立矩形区域，根据矩形区域的经纬度判断是否存在城市交叉口，如存在则将取距离最短者，将坐标加入到轨迹点数据中，之后从新加入的轨迹点开始，再次建立矩形区域进行判断，直至两轨迹点之间区域无城市交叉口。遍历新的轨迹点数据，判断连续两点之间的经纬度之差的绝对值是否超过0.0005，如超过则取二者中点坐标加入到轨迹点数据中，直至轨迹中连续两点之间的经纬度之差的绝对值小于或等于0.0005。图7为利用基于交叉口坐标的轨迹插值法插值前后效果示意图。图7中，左图为原始轨迹点，右图为经过插值后的新轨迹点数据。

实施例7

步骤S6中，对地图进行网格分割，分析高收入司机轨迹的空间特征，如图8所示，具体步骤如下：

步骤S6-3：计算出当前网格中轨迹点数量占当前轨迹总数目的比值，如式(15)所示：

步骤S6-4：遍历v′_{data，peak，car_no}，重复步骤S6-2、步骤S6-3，对每个网格的c_id，i进行累加并求均值，得到各个网格应达到的轨迹点的指标c_id，如图9所示，如式(16)所示：

式(16)中，n表示经过该网格区域的出租车数量，将地图划分为空间网格结构，每个网格中对应一个单独的ID，同时网格中存储着早高峰时期出租车在该区域的轨迹点的比例，体现高收入出租车轨迹的空间分布特征，也代表着出租车在本区域内的行驶频率，c_id高则代表高收入出租车司机在该区域行驶频率较高，若低则在此区域行驶频率低。

图8中，通过前期步骤完成了对高收入司机的筛选和轨迹点的补充，通过对地图的网格切割，计算出每个出租车早高峰轨迹点在各个网格中的占总轨迹点的比例，进而求得全部高收入司机在各个网格中的平均占比，得到高收入司机轨迹的空间特征。

图9中，将所得占比映射到轨迹数据直方图中，形成了轨迹分布的图像表达方式。

实施例8

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1-7任一所述高收入出租车司机及其经验轨迹的提取方法的步骤。

实施例9

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1-7任一所述高收入出租车司机及其经验轨迹的提取方法的步骤。

Claims

1.一种高收入出租车司机及其经验轨迹的提取方法，其特征在于，包括以下步骤：

步骤S1：出租车轨迹点数据预处理；

步骤S2：按时段和载客状态对步骤S1预处理后的出租车轨迹点数据进行划分；

步骤S3：对各出租车司机的经验系数进行计算；

选取早高峰时段，对V_data进行第一次划分，分成早高峰时段的出租车轨迹点集V_data，peak和非早高峰时段的出租车轨迹点集即其他时段的出租车轨迹点集V_data，low；peak和low分别表示高峰和其他时段；

对V_data，peak进行两次聚类，具体步骤如下：

式(11)中，k表示每段中轨迹点的数量，并向下取整；

则出租车每个轨迹点集划分为m+1段子轨迹集，即v_{data，peak，car_no}＝{point_1，k，point_k，2k...point_(m-1)k，mk，point_mk，i+1}；point_1，k表示排序后的v_{data，peak，car_no}的轨迹点集中第1个点到第k个轨迹点组成的集合；point_k，2k表示第k个点到第2k个轨迹点组成的集合；

对于上一步得到的每个集合point_x，y，得出第x个坐标点p_x(lon_x，lat_x)和第y个坐标点py(lon_y，lat_y)，从p_x、p_y中选取经度和纬度的最大值、最小值，组合构成定位区域S，定位点分别为：p_x(lon_x，lat_x)、p_y(lon_y，lat_y)、p_supply1(lon_y，lat_x)、p_supply2(lon_x，lat_y)；

若第1至第m个定位区域内每个定位区域内应包含的轨迹点数

若第1至第m个定位区域内每个定位区域内应包含的轨迹点数

Diff_lat＝max{lat_x，lat_y}-max{lat_x，lat_y} (12)

若lat_x＜lat_y，定位区域S的定位点更新为：

若lat_x＝lat_y，则对下一个集合进行计算；

步骤S45：重复S44步骤，计算车辆轨迹的自由度即非拥堵区域点所占轨迹点比例，如式(13)所示：

步骤S46：司机的收入和经验情况为：

EAF_{car_no}＝E_{car_no}+Free_{car_no} (14)

依次计算所有司机的EAF_{car_no}值，对每个EAF_{car_no}进行离差标准化处理，映射到[0，1]区间；

2.根据权利要求1所述的一种高收入出租车司机及其经验轨迹的提取方法，其特征在于，步骤S1中，是指：统计当日整个城市各出租车提供的出租车轨迹点的数量，确定出租车轨迹点的分布情况，剔除分析区域范围外的和出租车轨迹点的数量小于800的出租车轨迹点，剩余出租车轨迹点集用V_data表示，data表示出租车轨迹点的采集日期。

3.根据权利要求2所述的一种高收入出租车司机及其经验轨迹的提取方法，其特征在于，步骤S2中，是指：

接着，对出租车轨迹点集v_{data，peak，car_no}和v_{data，low，car_no}根据载客状态进行划分，每个轨迹点集划分为若干个载客和空载的子轨迹，即v_{data，peak，car_no}＝{traj_1，status，traj_2， _status...traj_i，status}，v_{data，low，car_no}＝{traj_1，status，traj_2，status...traj_j，status}，status表示载客状态，status＝0表示空载，status＝1表示载客；traj表示一段轨迹，由轨迹点组成，traj＝{p_1，status，p_2，status...p_n，status}，p_1，status，p_2，status表示轨迹点，对于每辆出租车，得空载轨迹n段，载客轨迹m段。

4.根据权利要求1所述的一种高收入出租车司机及其经验轨迹的提取方法，其特征在于，步骤S3中，计算每辆出租车不同轨迹段的行驶里程、载客时间和空载时间，得到每辆车的经验系数E_{car_no}，具体步骤为：

步骤S31：根据车辆全天的轨迹数据和载客状态，计算出租车司机全天的空载里程d_{empty，car_no}和载客里程d_{pass，car_no}；

dlat＝lat_i+1-lat_i (1)

dlon＝lon_i+1-lon_i (2)

式(3)、式(4)中，d(p_i，p_i+1)表示出租车轨迹点pi与pi₊₁之间的距离，

表示轨迹traj的长度，轨迹中共有i+1个轨迹点；

式(5)、式(6)中，

表示每段空载轨迹的长度，由i+1个轨迹点构成，共n段，每段status＝0：

步骤S3-2：根据步骤S31计算的轨迹的长度d，d为空载里程d_{empty，car_no}和载客里程d_{pass，car_no}之和，进一步得出出租车司机每段载客轨迹的收入，计算公式如式(7)所示：

式(7)中，

表示加收的空驶费率，c表示其他支出，dist1，dist2表示当地物价局或运营公司设置的里程计费节点；

则出租车载客时的收益R_{car_no}的计算如式(8)所示：

t_traj＝t_end，i+1-t_start，1(9)

步骤S3-4：重复步骤S3-1、步骤S3-2、步骤S3-3，依次计算出各个出租车司机的经验系数E_{car_no}。

5.根据权利要求4所述的一种高收入出租车司机及其经验轨迹的提取方法，其特征在于，步骤S5中，基于交叉口的轨迹插值法对轨迹路线进行恢复，具体步骤如下：

步骤S5-5：遍历新的轨迹点数据，直至相邻两点之间的经纬度之差的绝对值小于0.0005；

步骤S5-6：对所有出租车的高峰时段轨迹进行插值，重复步骤S5-1、步骤S5-2、步骤S5-3、步骤S5-4、步骤S5-5，得到插值后的轨迹点集v′_{data，peak，car_no}{p₁，p₂…p_i}；依次对筛选到的司机的轨迹点数据进行恢复。

6.根据权利要求5所述的一种高收入出租车司机及其经验轨迹的提取方法，其特征在于，步骤S6中，对地图进行网格分割，分析高收入司机轨迹的空间特征，具体步骤如下：

步骤S63：计算出当前网格中轨迹点数量占当前轨迹总数目的比值，如式(15)所示：

步骤S6-4：遍历v′_{data，peak，car_no}，重复步骤S6-2、步骤S6-3，对每个网格的c_id，i进行累加并求均值，得到各个网格应达到的轨迹点的指标c_id，如式(16)所示：

式(16)中，n表示经过该网格区域的出租车数量，将地图划分为空间网格结构，c_id高则代表高收入出租车司机在该区域行驶频率较高，若低则在此区域行驶频率低；

步骤S6-5：将步骤S6-4所得各网格c_id映射为轨迹点分布直方图，建立轨迹数据的图像表达方式；轨迹点分布直方图中，横坐标代表每个网格ID，纵坐标为对应的c_id或c_id，i。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6任一所述高收入出租车司机及其经验轨迹的提取方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任一所述高收入出租车司机及其经验轨迹的提取方法的步骤。