CN112784000A

CN112784000A - 基于出租车轨迹数据的寻客方法

Info

Publication number: CN112784000A
Application number: CN202110112526.9A
Authority: CN
Inventors: 郝威; 于文雅; 张兆磊; 吕能超; 王正武; 吴伟; 邢璐; 龚野; 戎栋磊
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-11
Anticipated expiration: 2041-01-27
Also published as: CN112784000B

Abstract

本发明公开了一种基于出租车轨迹数据的寻客方法，获取研究区域内出租车的GPS历史数据，形成出租车GPS原始数据集；对出租车GPS原始数据集进行预处理，获得出租车有效数据集；对研究区域进行网格化处理，将网格化处理后每个单元格定义为一个子区域；基于出租车有效数据集，通过区域内客户搜索或跨区域客户搜索，确定寻客子区域；从出租车有效数据集中提取寻客子区域内出租车的GPS历史数据，在确定的寻客子区域内进行上客热点挖掘；提取出租车所在位置与寻客子区域内所有上客热点间的载客路径形成候选路径集，并基于效用函数在候选路径集中选择效用最大的候选路径为最佳寻客路径。为空载出租车司机提供了载客地点和出行线路的引导。

Description

基于出租车轨迹数据的寻客方法

技术领域

本发明属于城市机动车道路诱导和流量分配技术领域，涉及一种基于出租车轨迹数据的寻客方法。

背景技术

出租车具有出行便捷、快速和舒适等特性，在城市交通出行中承担着主要的出行需求，已成为城市中必不可少的出行方式。然而，随着城市人口密度的增加，出租车需求和供应不均衡的问题日益突出，出租车与客户之间信息不匹配使得出租车空载率居高不下，空载出租车寻客行为分析成为当前研究热点。

国内外对此展开了一系列的研究，从出租车巡航线路优化方面出发，Miao F等基于当前的供需关系以及出租车的位置及载客状态提出一种用于出租车调度的RHC框架；Zhang L等基于用户的旅行历史采用贝叶斯框架来对用户目的地的分布进行建模，旨在最大程度地提高载客成功率，从而优化整体出行效率，增强用户体验；Camille等设计了用于出租车在机场高效载客的程序。此外，一些研究从政府监管政策，经济政策，奖惩规则角度出发，实施一些管控措施以达到提高出租车系统的效率。但这类研究是基于传统经济分析的理想市场而展开的，忽略了市场空间结构。为解决以上方法的缺陷，Wong和Yang通过考虑出租车用户的OD分布模式、交通状况、需求和供应是否均衡，以及市场空间结构的影响，构建了各种网络模型；Lee等提出参数持续期模型，考虑运营特征，天气、土地利用、人口统计、社会经济变量等影响因素以期通过减少在空置状态下花费的时间来帮助提高出租车运营效率；Tang等提出了一个模型框架研究出租车司机的路线选择行为学习过程，并模拟由于交通和乘客信息的更新路径选择随时间的变化。

发明内容

本发明实施例的目的在于提供一种基于出租车轨迹数据的寻客方法，以解决现有的基于区域或单元的出租车寻客方法无法准确描述真正的客户搜索行为的问题，以及现有的出租车寻客方法提供的寻客候选路径存在重叠导致难以实现路径选择的问题。

本发明实施例所采用的技术方案是：基于出租车轨迹数据的寻客方法，包括如下步骤：

获取研究区域内出租车的GPS历史数据，形成出租车GPS原始数据集，出租车GPS原始数据集中的每条GPS轨迹点数据包括车牌号、经纬度、运营状态、时间，运营状态用0表示空载，用1表示载客；

对出租车GPS原始数据集进行预处理，获得出租车有效数据集；

对研究区域进行网格化处理，将网格化处理后每个单元格定义为一个子区域；

基于出租车有效数据集，通过区域内客户搜索或跨区域客户搜索，确定寻客子区域；

从出租车有效数据集中提取寻客子区域内出租车的GPS历史数据，基于寻客子区域内出租车的GPS历史数据，在确定的寻客子区域内进行上客热点挖掘；

提取出租车所在位置与寻客子区域内所有上客热点间的载客路径形成候选路径集，并基于效用函数在候选路径集中选择效用最大的候选路径为最佳寻客路径。

本发明实施例的有益效果是：从区域、路径两个层面对出租车驾驶员寻客行为进行建模，在区域寻客层面上，将寻客行为划分为区域内搜索和跨区域搜索，通过建立基于Logit模型的区域寻客模型即累计寻客成功概率，为空载巡航司机提供目标寻客区域；在路径寻客层面上，综合考虑各寻客候选路径一般特征以及效益特征，在MNL模型的基础上构建基于PS-Logit模型的载客路径选择模型，并利用构建的基于PS-Logit模型的载客路径选择模型进行最佳路径选择，解决了寻客过程中存在路径重叠的难题，从而为空载出租车司机提供了载客地点和出行线路的引导，解决了现有的基于区域或单元的出租车寻客方法无法准确描述真正的客户搜索行为的问题，以及现有的出租车寻客方法提供的寻客候选路径存在重叠导致难以实现路径选择的问题，最大程度提高出租车驾驶员载客效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的寻客流程图。

图2是根据上客点的K-距离集合绘制的K-距离曲线图。

图3是上客点不同DBSCAN参数的聚类结果曲线图。

图4是成都市区域网格划分示意图。

图5是客户搜寻成功累积概率分布图。

图6是跨区域客户搜寻行驶网格数累积概率分布图。

图7是成都东站→春熙路商业圈中的蜀都大道水碾河路的样本行程时间分布图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前的研究缺乏面向实际交通网络下的空载出租车司机寻客搜索行为建模，无法为空载出租车寻客提供指导。因此，近年来一些学者对空载出租车寻客行为展开研究，将驾驶员经验、交通环境、热点区域挖掘等作为影响因素进行路径推荐。但是仍存在以下不足点：(1)基于区域或单元的方法无法准确描述真正的客户搜索行为，该类方法仅假设候选路径在区域或单元格中。(2)在出租车司机的路径选择行为中，提供的寻客候选路径存在重叠，使得各寻客候选路径不再相互独立，导致难以实现路径选择，而传统的MNL模型无法解决这一问题。

基于上述问题，本发明实施例提出一种基于出租车轨迹数据的寻客方法，如图1所示，按照以下步骤进行：

在研究区域内采集出租车的GPS数据，形成出租车GPS原始数据集，出租车GPS原始数据集中的每条GPS轨迹点数据包括车牌号、经纬度、运营状态、时间，运营状态用0表示空载，用1表示载客。

随着交通智能化的普及，为了方便利车辆的管理，国内众多私家车辆和绝大部分公交车辆都已经普遍装备了GPS设备。出租车是公共交通的一种重要工具，车载GPS用户端根据汇集的时间进行了聚合，借助于基站和通信网络将车辆的信息上传到出后台数据管理中心，最终生成出租车状态数据。每条出租车数据都较为详细的记录了出租车时间、车牌号、经纬坐标、高程、行驶方向、瞬时速度及承载状态等诸多属性。出租车GPS数据覆盖面广，数据规模大，可实现对出租车的实时轨迹点采集，能够更好地反映出城市对租车的实时需要和轨迹分布特征，近年来在地理信息系统、智能交通和行为地理等多个领域得到了广泛的应用。

本发明实施例采用了2014年8月份成都市四环内约1.35万辆出租车的GPS数据(2014年8月18日至8月30日)。为了降低由于样本随机选择引起的结果误差，将一天的时间分成六个时间段进行研究：第一阶段，从6:00-9:00；第二阶段，从9:00-12:00；第三阶段，从12:00-15:00；第四阶段，从15:00-18:00；第五阶段，从18:00-21:00；第六阶段，从21:00-24:00。出租车GPS原始数据集中的每条GPS轨迹点数据包括：车牌号，经纬度，运营状态，其中运营状态一栏，0表示空载，1表示载客，时间(车辆在每个位置点的时间)。这些特征值能准确描述一天中某个时刻车辆的具体位置和其运行状况，并能为后来的研究提供更客观和全面的数据支持，如下表1所示。

表1成都市出租车GPS数据字段解释

字段	说明
		ID	车牌号
LONGITUDE	经度
		LATITUDE	纬度
CAR_STAT	运营状态
		Time	时间

对出租车GPS原始数据集进行预处理，获得出租车有效数据集。

出租车GPS数据具有分布广泛、实时性强、精度高且更新速度快等特点，但是其对配备装置、上传数据环境的要求较高，在实际采集出租车GPS数据的过程中，经常会受到高楼、地面隧道、立交桥等复杂地形的影响，或者GPS设备出现通讯故障的情况下，会产生数据漂移、数据缺失以及数据异常的情况。本发明实施例依据出租车GPS原始数据集中每条GPS轨迹点数据的车牌号和时间两个字段对出租车GPS原始数据集中所有的GPS轨迹点数据进行重复值、缺失值和异常值处理，以及坐标变换和地图匹配，获得出租车有效数据集。主要包括以下几个方面：

(1)经纬度越界数据处理：对经度和纬度超过轨迹订单区域的经度和纬度数据范围的GPS轨迹点数据进行删除；

成都市经纬度数据范围为东经102°54～104°53′，北纬30°05～31°26′之间，针对经度、纬度两个字段，检查超过此范围的数据记录，并对超过此范围的数据记录予以删除。

(2)重复数据处理：对于同一车牌号，删除同一时刻出现的两条GPS轨迹点数据中的一条，并删除连续时间范围内经纬度没有发生变化的GPS轨迹点数据；

若同一辆车(车牌号相同)在同一个时刻出现两条数据记录，该种数据属于重复无效数据，需要剔除其中某一条数据以保证后续数据处理分析的准确性。若在连续时间范围内，同一车辆的经纬度没有发生变化，经过ArcGIS可视化后发现其在该时间范围内没有移动轨迹的生成，则认为这一连续时间范围内的GPS轨迹点数据为重复无效数据，应予以删除。

(3)无效数据处理：删除车辆号码、经纬度、时间和运营状态记录异常的GPS轨迹点数据，车辆号码、经纬度、时间和运营状态记录异常包括车辆号码、经纬度、时间和运营状态等属性值为null，运营状态栏的数据出现0和1以外的其他属性值记录，同一车辆在连续时间内出现0-1，1-0的变化；

在出租车GPS原始数据集中，出现了车辆号码、经纬度、时间和运营状态等属性值为null的数据记录，在研究过程中不能使用，应予以删除；运营状态栏的数据出现0和1以外的其他属性值记录视为无效数据，以及同一车辆在连续时间内出现0-1，1-0的变化，此类记录无法对其状态的实际意义做出合理解释的也视为无效数据。

车辆GPS数据坐标系变换：

为了使轨迹数据与路网模型相匹配以确保轨迹可视化的效果，需使构建的路网模型与车辆GPS数据坐标系相一致。在Arcgis中，不同坐标系采用的椭圆体是不同的，相应投影方法也有差异。本实施例收集的成都市出租车GPS数据系统采用火星坐标系，而构建的路网模型沿用的是OSM地图的WSG-84坐标系统，为了确保坐标系统的一致性，借助编程语言Python将火星坐标系(GCJ02)转为WSG-84坐标系。

地图匹配：

地图匹配的目的在于将预处理及坐标转换后的出租车GPS轨迹点与现实道路网关联起来，使得出租车轨迹能够映射到实际路网中，以便后续依据GPS轨迹点获取的车辆路径处于路网上，进而为获取路径所经的道路数据(车辆路径所经节点数量、各道路类型的长度等信息)提供基础，地图匹配是为了纠正轨迹点飘移的情况。

地图匹配通常分为两个阶段：第一，确定出租车的轨迹点在哪一段；第二步，确定出租车轨迹点所处的具体位置。本发明实施例采用基于几何的地图匹配算法进行地图匹配。

本发明实施例在OSM(Open Street Map)开源地图网站的原始路网数据基础上，借助Arcgis对原始路网数据中经纬度越界数据、重复数据、无效数据等进行了剔除。步骤S1采集的出租车GPS原始数据集的预处理结果表明，重复数据占数据总量0.02％，数据错误占数据总量0.05％，且无数据缺失的情况出现，表明该出租车GPS原始数据集整体质量较好。

对研究区域进行网格化处理，将网格化处理后每个单元格定义为一个子区域：

目前，我国推进城市设施现代化以及城市规划建设过程中的许多国家发展性重点城市交通路径线路已经变成了纵横交错的一条纵横，呈现出"网络"状态的结构，车辆对达到同一交通目的地的交通路径往往有了更多样的选择，这也就使得通过线路网格化技术研究解决出租车交通路径问题具有重大现实意义。为了更好的为出租车司机提供路径决策，本发明实施例将城市路网网格化处理，将每个单元格定义为一个区域。

基于出租车有效数据集，通过区域内客户搜索或跨区域客户搜索，确定寻客子区域：

本发明实施例从区域尺度以及路径尺度两个方面对出租车司机客户搜寻的行为进行模型的构建。当一个空闲的出租车司机在基于单元的网络中搜寻他/她的下一个客户时，他/她在每个单元中有两类选项，一类是区域内客户搜寻；另一类是跨区域客户搜寻。区域内客户搜寻，顾名思义，司机决定在其当前所处的单元格内进行客户搜寻，此种情况不涉及周边单元格的交通需求与交通供给；跨区域客户搜寻，沿着所处单元格的上、下、左、右四个方向进行移动。

(1)区域内客户搜索

通常，空载出租车倾向于向下一位顾客产生概率更高的区域巡航，空载出租车寻客行为与区域的乘客生成概率直接相关。因此，采用寻客成功概率S_k作为变量来描述寻客行为，S_k指一个空载出租车在单元格k内成功载客的概率，可运用其对应的历史数据计算单元格k内的寻客成功概率S_k，即统计在研究时段内该单元格k的空载出租车成功接到乘客的概率，如式(1)：

其中，O_count表示在当前单元格k内成功载客的出租车总数，在当前单元格k内成功载客的出租车即为出租车有效数据集中在当前单元格k内运营状态存在由0变为1的出租车；N_all表示在当前单元格k内的空驶出租车总数，在当前单元格k内的空驶出租车即为出租车有效数据集中在当前单元格k内运营状态不存在由0变为1的出租车。

出租车司机依据当前所在单元格k的寻客成功概率S_k，选择是否进行区域内客户搜索，如确定进行区域内客户搜索，则当前所在单元格k即为寻客子区域。

(2)跨区域客户搜寻

跨区域寻客即空载出租车司机选择所在网格外的区域进行寻客，根据其所在网格的可用搜寻选项做出另一个搜寻决策。司机在当前区域做出寻客决策的方向不是盲目的，是基于历史数据计算出的结果。本发明实施例将L作为区域寻客步长，即途经的单元格个数，决策步长L从1开始逐步增大，且决策步长L为正整数。

跨区域客户搜索时，基于累计寻客成功概率确定寻客子区域，累计寻客成功概率按照下式计算：

P＝max(P_cs)； (3)

其中，P_cs为空载出租车在当前所在单元格k成功载客的概率S_k与在后续途经单元格中成功载客的概率之和也即累计寻客成功概率，m表示目标单元格，M表示目标单元格的集合，目标单元格集合M即司机做出决策步长L后所有可进行客户搜索的单元格集合，跨区域客户搜索时，决策步长L从1开始逐步增大；P^L-1(m|k)表示司机在当前网格k选择网格m的条件概率，

表示司机在目标单元格m内成功载客的概率；P表示最大累计寻客成功概率。

当决策步长L＝1时，目标单元格的集合M包含位于当前所在单元格k的上下左右四个方向的单元格，当前目标单元格的集合M中累计寻客成功概率最大的目标单元格即为确定的寻客子区域，若当前确定的寻客子区域仍不能满足空驶出租车的寻客需求，司机再次以L＝2步长进行寻客，并在L＝2时对应的寻客成功概率S_k最大的网格中进行寻客，重复此过程，直至满足空驶出租车的寻客需求。当决策步长L＞1时，目标单元格的集合M包含位于决策步长为L-1时确定的寻客子区域的上左右三个方向的单元格，当前目标单元格的集合M中累计寻客成功概率最大的目标单元格即为确定的寻客子区域。

从出租车有效数据集中提取寻客子区域内出租车的GPS历史数据，然后基于寻客子区域内出租车的GPS历史数据，在确定的寻客子区域内进行上客热点挖掘，具体是在从出租车有效数据集中提取寻客子区域内出租车的GPS历史数据后，按照如下步骤进行：

步骤1、基于寻客子区域内出租车的GPS历史数据中每条GPS轨迹点数据的运营状态变化，进行上客点识别，得到出租车上客数据集；

首先，从寻客子区域内出租车的GPS历史数据中分别提取出车牌号相同的GPS轨迹点数据，并按照时间对车牌号相同的GPS轨迹点数据按时间进行升序处理，得到按时间排列的车牌号相同的GPS轨迹点数据集；

然后，对按时间排列的车牌号相同的GPS轨迹点数据集中两相邻时刻t_i、t_i+1轨迹点的运营状态值即CAR_STAT进行差值计算，计算结果用Δ表示，即：

Δ＝CAR_STAT_t+1-CAR_STAT_t； (5)

其中，CAR_STAT_t+1为t+1时刻轨迹点的运营状态值，CAR_STAT_t为t时刻轨迹点的运营状态值；

若Δ为1即表示车辆的运营状态由空载变为载客，则该两相邻时刻t_i、t_i+1轨迹点对应的纬度和经度表示的点为上客点。

步骤2、基于出租车上客数据集，采用DBSCAN空间聚类法进行出租车上客热点区域挖掘，得到上客热点聚类簇。

DBSCAN空间聚类法是一种基于密度聚类理论的算法，其大体上是：选择点p，判断以该点p为圆心、Eps为半径的圆域中，数据点也即临近点数是否大于等于设定的最小密度阈值Minpts，如果小于，则将该点p标记为噪声点，否则将该点p标记为中心点，然后判断分别以点p为圆心、Eps为半径的圆域中的每个临近点为圆心，以Eps为半径的圆域中邻近点的个数是否大于等于设定的最小密度阈值Minpts，如大于，则继续判断以当前圆域中的每个临近点为圆心，以Eps为半径的圆域中邻近点的个数是否大于等于设定的最小密度阈值Minpts，直到判断邻近点的个数小于最小密度阈值Minpts为止，将前期判断的所有临近点定位同一个簇。DBSCAN空间聚类算法有两个重要的参数：最小密度阈值MinPts和聚类邻域半径Eps。在出租车下客热点区域识别中，聚类邻域半径Eps表征了各个聚类簇的空间范围，过大的Eps将使数据集内关联性比较低的数据对象被聚集到同一个簇中，而较小的Eps将造成聚类簇数量过多，导致将噪音点归纳进来，使聚类簇内进行出行路径选择研究的路径数量有限。最小密度阈值MinPts表征了各聚类簇内数据分布强度或密度，过小的MinPts将使关联性较低的数据对象被聚到同一个簇中，而过大的MinPts将造成聚类簇内的下客点过少，致使出行路径选择研究时可用的路径数量有限。

采用DBSCAN空间聚类法进行出租车上客热点区域挖掘，得到上客热点聚类簇的具体过程如下：

基于K-距离法，确定聚类邻域半径Eps的取值，具体步骤如下：

(1)对于含有n个上客点的出租车上客数据集，选取任意上客点p_i(x,y)，x为该点的纬度，y表示该点的经度，计算该点p_i(x,y)与出租车上客数据集内其他上客点的欧氏距离；

(2)对计算的任意上客点p_i(x,y)与出租车上客数据集内其他上客点的欧氏距离进行升序排列，得到排序后的距离集合

k＝1,2,3…n-1，则

为上客点p_i(x,y)的K-距离，得到所有上客点的K-距离集合E为：

(3)对得到的所有上客点的K-距离集合E进行升序排序，得到K-距离集合E’，拟合K-距离集合E’中K-距离的变化曲线，得到K-距离曲线，将K-距离曲线中拐点位置对应的距离确定为出租车上客数据集的聚类邻域半径Eps；

基于确定的聚类邻域半径Eps，通过对聚类邻域半径Eps以及最小密度阈值MinPts进行联合调参，观察不同聚类邻域半径Eps和最小密度阈值MinPts参数组合下的聚类结果，将聚类所得上客热点聚类簇的数量稳定时对应的最小密度阈值MinPts作为出租车上客数据集的最小密度阈值MinPts；

基于确定的出租车上客数据集的聚类邻域半径Eps以及最小密度阈值MinPts，采用基于DBSCAN空间聚类法，对出租车上客数据集内的上客点进行聚类，得到上客热点聚类簇，所有上客热点聚类簇对应的区域即为寻客子区域内的所有上客热点。

本发明实施例以2014年8月18日10am-11am的出租车下客点数据为研究对象，选择任意上客点p_i(x,y)与出租车上客数据集内其他上客点的欧氏距离的最短距离作为K-距离值，获取该时间段内所有下客点间的K-距离集合D，并绘制K-距离曲线，如图2所示。依据图2所示的k-距离曲线，我们可知k-距离大致在0.0017处发生明显的变化，此后图线的斜率发生急剧增加，据此，本实施例选取0.0017作为聚类的Eps参数值，通过对聚类邻域半径Eps以及最小密度阈值MinPts进行联合调参，观察不同聚类邻域半径Eps和最小密度阈值MinPts参数组合下的聚类结果，如图3所示，当对于给定的MinPts，簇数在第一阶段随着Eps的增加而逐渐增加，其值达到峰值，然后在第二阶段增加Eps时减小。原因是Eps值较小会导致群集分离，如果Eps太大，群集将合并为较大的群集。另一个重要参数MinPts也会影响到给定Eps的聚类结果。随着MinPts的增加，簇的数量减少MinPts值越小，则可以提取出更多的聚类；值越大，意味着随着Eps半径的增加，聚类到该区域的点数越多。Minpts等于12和14时的簇数曲线具有相似的分布模式，意味着簇数变得稳定，因此将Eps设置为0.0017，Minpts设置为12。

提取出租车所在位置与寻客子区域内所有上客热点间的载客路径，得到候选路径集，并基于效用函数在候选路径集中选择效用最大的候选路径为最佳寻客路径。

为了保证确定的OD对之间的路径数量不会过少，我们采用多个研究日轨迹数据叠加的方法来获取OD对间的路径信息，即采用多个研究日的数据在路网上进行映射，得到候选路径集，再结合原始路网获取具体的OD对间路径信息，并利用Arcgis可视化剔除了部分异常路径，包括：在较长时间段内没有轨迹点以及轨迹点一直保持同一个经纬度，轨迹点不连续等。

在确定寻客子区域后，需要确定单元格区域内详细的行驶路径。目前，大部分研究在司机路径选择的模拟过程中只考虑路径的一般属性，如路径距离，通行时间，道路等级等，忽略了实际情况下路径效益这一关键属性。因此，本发明实施例从出租车寻客的实际行为理论出发，提取路径的一般属性以及路径效益属性。其中一般属性包括：路径行程时间T_j，路径行程距离D_j，交通拥堵C_j；路径的效益特征：路径乘客的产生概率R_j，其中，j表示候选路径集中的任意路径。

(1)路径行程时间

路径行程时间是指出租车通过路径j的时间T_j，计算如式(7)所示：

其中，N_sec表示组成路径j的路段数量，l_i表示路径j上的路段i在地图上的长度，N_taxi表示经过路段i的所有出租车总数，

表示在研究时段内经过路段i的所有出租车瞬时速度的平均值，v_n表示在研究时段内第n辆出租车经过路段i的瞬时速度，在获取到路段i在研究时段内行驶的所有出租车轨迹数据的瞬时速度后通过多天的历史数据对其进行修正；通过采集在研究时段内经过路段i的所有出租车瞬时速度的平均值，根据速度与距离的关系，估计出该路段的平均行驶时间，最后，路径行程时间是一条路径中所有路段的平均行驶时间的累积结果。

(2)路径行程距离D_j

一般而言，路径行程距离D_j与驾驶员的路径选择之间有着密不可分的关系，不同出行距离下驾驶员在面对可接受延误时间，可接受的节点数量都会发生明显的变化。结合区域推荐，将历史数据映射到OSM地图上，经过统计，得到所有被出租车司机选择过的从当前位置到寻客子区域中每个上客热点的路径的集合，得到候选路径集C_n，再由OSM地图可以计算候选路径集C_n中每条路径的长度，即为每条路径对应的路径行程距离D_j。

(3)交通拥堵指数C_j

交通拥堵指数C_j可以综合地评价道路网络畅通或拥堵状况，交通拥堵指数值越大代表该区域的交通情况越差，道路通畅能力越低。为直观的体现拥挤程度，将城市路网的拥堵情况数字化，如式(8)所示：

其中，W_i为路径j上的路段i的交通流量，即每小时内经过路径j上的路段i的车辆数；v_{free_n}为第n辆出租车在路段i的自由流速度；v_n为第n辆出租车在路段i的实际速度；t_true为第n辆出租车在路段i的实际旅行时间，t_free为第n辆出租车在路段i的自由流状态下的旅行时间。

(4)路径乘客的产生概率R_j

路段的载客概率不但可以反映出城市客流的时空分布特性同时也体现出空驶出租车在道路网络上的分布情况。为保证空驶出租车从当前位置驶向与之邻近的载客累积成功概率最大的网格间的路径能够遇到潜在的乘客概率最大，则：

其中，n_occupied表示在路径j的某一路段成功载客的出租车总数，n_all表示经过路径j的该路段的空载出租车总数，n_occupied、n_all分别通过出租车的运营状态得出。

(5)空载出租车路径决策模型

综合考虑四个影响空载出租车司机路径选择的因素，构建效用函数评估每条路径的效益值，效用函数如式(10)所示：

U_j＝β₁T_j+β₂D_j+β₃C_j+β₄R_j+β₅ln(PS_j)+ε_j； (10)

其中，U_j表示候选路径集中的路径j的效用；β₁、β₂、β₃、β₄、β₅均为影响因素参数，利用极大似然函数求解；ε_j表示效用函数的随机项，PS_j表示路径j的路径长度修正项。

候选路径集中各路径的效用函数的随机效用项ε_j均是服从同一个参数、且独立的Gambel分布，假定各ε_j的密度函数的分布函数为

η是表示ε_j可以任意取得的实数，通常令η＝0，ω是与ε_j的方差相对应的参数，ω＝1。根据已有对MNL模型的研究，候选路径集中各路径的效用函数的随机效用项ε_j服从同一分布时，在最终的路径选择概率模型中将会被消去，而固定效用项与路径特征紧密相关，本实施例从路径的一般特征与效益特征及修正项三个方面进行基于PS-Logit模型的载客路径选择模型解释变量的选取，因此有：

路径j的路径长度PS_j的计算方法如下：

其中，V_j表示候选路径集中路径j的固定效用项，P_j表示在候选路径集中选择路径j的概率即基于PS-Logit模型的载客路径选择模型，C_n表示候选路径集；l_i表示路径j上的路段i的长度，τ表示路径j中所有路段的集合，δ_ij为0-1之间的变量，若路段i在路径j上则该值为1，否则为0；如果路径j不与路径集合C_n内的任意一条路径相重合，则PS_j的值等于1，如果重叠的路径越多，则该值越小。当路径的共线系数较高时，说明各路径之间存在大量共用路段，而传统的路径选择模型难以反映候选路径集中不同路径之间的相似程度，PS-Logit模型通过在路径效用函数中加入路径长度修正项PS_j来反应候选路径集中不同路径之间的相似程度，体现路径之间部分区段共用道路对本路径效用值的影响，解决了路径重叠问题对路径选择的影响。

最后，将候选路径集C_n中效用最大的路径即P_j最大的路径作为空载出租车选择的最佳寻客路径。

实验过程与实验结论

1.区域客户搜寻模拟过程与结果

(1)实验数据说明

所用实验数据来自成都市四环内500辆出租车在2014年8月3日到8月9日早上7:00-9:00一周的GPS数据，根据步骤S51将研究区域共划分成899个有效单元网格(1KM*1KM)，如图4所示。经过统计，发现出租车区域内客户搜寻行为共发生17250次，则区域内客户搜寻成功的概率分布如图5所示。从图5可以看出有30.25％的网格内没有客户搜寻成功即这些网格在研究时间段内没有出现搜寻成功的记录，大约有80％以上的网格的客户搜寻成功的概率达到40％。将这些网格所在区域与百度地图进行比较发现，没有客户搜寻成功记录的区域主要分布在四环与三环之间的区域，地图上显示这些区域主要是成都市的一些公园以及人文景点，而累积概率达到80％以上的区域主要在二环以内，二环内布有学校，行政大楼，居民住宅小区以及交通站点，符合早高峰通勤出行的特征。此外，还发现大约有14个网格出现出租车到达这些网格就一定搜寻乘客成功，这些特殊的网格意味着乘客的出行频率高，空载出租车司机的成功概率大，主要在成都站以及蜀都大道总府路两侧。

图6描述在跨区域客户搜寻过程中空驶出租车司机行驶的网格数累积概率分布情况，从图上我们可以发现累积概率随着行驶的网格数增加而增大。此外，图上还显示出行驶经过的网格数达到4个时，有80％以上的概率载客成功超过这一水平之后曲线的变化趋势开始变得平缓，当网格数超过8个时，累积概率小于3％，即存在很少一部分司机会空载巡航超过8km进行客户搜寻。

2.路径客户搜寻模拟过程与结果

为了验证前述出租车载客路径选择模型的有效性，分别从定性及定量角度验证。发现某些OD对之间存在无效路径，表明司机很少选择这些路径进行客户搜寻，经过Arcgis可视化后删除这些无效路径。选择成都市的四个下车聚类簇(D)和与其相对应上车点聚类簇(O)之间的有效路径共计134条作为候选路径集进行载客路径模型的校验，实验过程如下：

(1)行程时间

为研究行程时间的分布，以OD成都东站→春熙路商业圈中的蜀都大道水碾河路为研究对象，以5分钟为时间间隔，分别收集6:00-9:00，9:00-12:00，12:00-15:00，15:00-18:00，18:00-21:00共计五个时间段，共计大约1500个样本，每个样本的行程时间由式(7)计算，具体分布如图7所示。从图7我们可以看出，时段1的平均行程时间，相对于其他四个时段平均行程时间是最低的，大约为47秒，因为此时道路上行驶的车辆较少，车辆大都可以以自由流速度行驶；然后在时段2和时段3随着通过该条路径的交通量不断增加，车辆行驶速度降低，平均行程时间也不断增大，最后处于晚间时段4和时段5交通量相对降低，因为此时道路上的交通状态得到缓解，平均行程时间增大。这种变化与一天中行程时间的变化是一致的。

(2)城市交通拥堵指数

根据实验OD对连续一周的轨迹数据作为交通拥堵识别的数据来源，并且以一小时为间隔，对全路网中899个网格分别在早晚高峰分时段提取常发拥堵的区域，在所选取的候选路径集每条路径的交通拥堵指数可根据公式(8)进行估算。通过总结整个成都市常发拥堵区域变化过程我们可以发现，成都市中心以及西部，西南，南部，西北及北部区域是拥堵较为严重的区域，东部区域是较为通畅的，很少出现拥堵的情况。而且，在早高峰时段，整个成都市的拥堵呈现由环外向环内“推进”的演变态势，而晚高峰时段则呈现出相反的趋势，这与人们通勤的出行特征是相一致的。

(3)路径乘客的产生概率

基于历史出租车的载客数据，根据式(9)统计每条路径乘客的产生概率，得到路径乘客的产生概率分布图。路径乘客的产生概率分布图展示了部分路径乘客产生概率分布情况，通过对成都市路网文件和路径乘客的产生概率分布图结果的分析，可以发现：乘客产生的概率最高的路段即线段为红色的主要分布于以下三个地区：1)两侧是大面积的居民区，或者出入口设在路段内，如顺江路、滨江中路等地区两侧是大学城，以及许多住宅区。这一地区的居民可以选择搭乘出租汽车完成上下班的通勤。2)公共交通枢纽、医院、办公楼等大型场所周围都有交通枢纽、医院、办公楼等，比如成都双流国际机场，成都站，成都南站等交通枢纽站以及东城根上街与蜀都大道交叉口附近的成都文联大厦，四川省版权局等办公场所；3)连接旅游景区或者热门场所等路径，比如武侯祠博物馆，春熙路，成都宽窄巷子等。从理论上讲，数据的结果也符合现实性，因为这三类道路周围客流和出游需求都比较多，对出租汽车的需要也比较多。

模拟结果

本实施例从出租车司机的行为理论角度出发，在对出租车司机客户搜寻路径选择建模时，不仅考虑到路径的一般特征还考虑了路径的效益特征，使路径选择建模过程更加符合司机真实的行为。由于效用函数中采用的所有时空因素都是从实用道路网络上的出租车GPS轨迹中提取，因此有必要探讨不同因素组合对路径选择建模精度的影响。所以选取了早高峰6:00-9:00，晚高峰5:00-8:00定义了以下三种组合方式：def1)行程时间、行程距离；def2)行程时间、行程距离、路径乘客的产生概率；def3)行程时间、行程距离、路径乘客的产生概率、交通拥堵指数。分别采用MNL模型与PS-Logit模型进行检验，得到模型的结果ρ²如表2和表3所示。

表2早高峰实验结果

类别	MNL(def1)	MNL(def2)	MNL(def3)	PSL
					路径总数	3024	3024	3024	3024
影响因素	2	3	4	5
					调整后的ρ<sup>2</sup>	0.317	0.32	0.324	0.329

表3晚高峰实验结果

类别	MNL(def1)	MNL(def2)	MNL(def3)	PSL
					路径总数	4591	4591	4591	4591
影响因素	2	3	4	5
					调整后的ρ<sup>2</sup>	0.286	0.291	0.298	0.351

通过对比在不同影响因素组合下MNL模型与PS-Logit模型的结果，发现在早晚高峰都出现，组合方式1的ρ²值小于组合方式2的ρ²值，即增加了路径乘客的产生概率这一特性后模型的性能得到提升，而且这一规律也与符合实际情况相符合，空载出租车司机在进行空载巡航时路径乘客的产生概率实际上是影响其路线选择一个重要因素，此外，在早晚高峰增加交通拥堵指数这一特性之后，调整后的ρ²也随之增加，这说明在高峰时期，道路交通流量的急剧加大对出租车司机路径的选择也是至关重要的影响因素之一。

此外，还研究在同一起终点内路径的一般特征中不同因素的组合对路径选择的影响。选取成都东站→春熙路商业圈在在6:00am-9:00am时间段作为数据来源，一般特征选用行程时间、行程距离、支路占比、主干路占比，具体参数校验结果如表4所示：

表4成都东站→春熙路商业圈载客路径选择模型标定结果

其中，Coef表示各影响因素对应的影响因素参数，作用与公式(10)中的β₁、β₂、等相同；t-stat即t检验值，用来表征变量与选择结果之间的可靠度，即行程时间、行程距离、支路占比、主干路占比等影响因素对路径选择的影响程度。在成都东站→春熙路商业圈内我们共统计得到98次有效出行。从上表我们可以看出，依据t值检验表，当样本量为100时，t-stat的绝对值大于等于1.660时，90％的可靠度认为该变量与选择结果相关。据此认为，MNL模型与PS-Logit模型中，解释变量中行程时间，支路占比，主路占比的t检验值都是符合要求的。此外我们可以发现在同一OD对下，因为待候选路径集内的每条路径的长度不会有明显的区别，所以在对路径选择结果的产生不会有显著的影响，司机更倾向于选择行程时间短的路径。而且，我们还发现，在早高峰时段，司机更倾向于选择待选路径集合内支路占比较高的路径，因为这些路径的拥堵指数整体是低于主干路占比高的路径。在PS-Logit模型中，路径共线系数修正项Ln(PS)为正，符合路径选择模型的基本原理，表明在早高峰驾驶员更倾向于选择一些重合度较高的路径，这些路径也为驾驶员进行实时线路调整提供了其他备选方案。在实际运用中，若调整优度比能达到0.2～0.4之间，则认为模型的精度较好，从表4我们可以发现，与MNL模型相比，PS-Logit模型的调整优度更好，说明PS-Logit模型能够更好地描述出租车载客出行路径选择行为。

从区域与路径两个层面对模型进行了分析，在区域层面上，通过计算区域内客户搜寻成功的累积概率分布得知约有80％以上的网格的客户搜寻成功的概率达到40％，在跨区域客户搜寻过程中当空驶出租车司机行驶的网格数超过8个网格载客成功超过这之后概率趋近于零；在路径层面上，从同一下车点与不同上车点间的路径选择，同一起终点的路径选择两个角度对模型进行验证分析，选取调整后的ρ²作为评判指标。结果表明，在同一起终点影响空驶出租车路径选择的主要因素是路径的一般属性，而在同一下车点与不同上车点间的路径选择过程中，路径的效益特征对客户搜寻时的路径选择有着更为重要的影响。此外，通过对MNL及PS-Logit路径选择模型的差异性分析，发现，PS-Logit模型的调整优度优于MNL模型。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于出租车轨迹数据的寻客方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于出租车轨迹数据的寻客方法，其特征在于，所述对出租车GPS原始数据集进行预处理，包括删除重复值、缺失值和异常值，并进行坐标转换和地图匹配。

3.根据权利要求1所述的基于出租车轨迹数据的寻客方法，其特征在于，基于寻客成功概率进行区域内客户搜索，寻客成功概率按照下式计算：

其中，S_k表示空载出租车在单元格k内成功载客的概率也即寻客成功概率；O_count表示在当前单元格k内成功载客的出租车总数，在当前单元格k内成功载客的出租车即为出租车有效数据集中在当前单元格k内运营状态存在由0变为1的出租车；N_all表示在当前单元格k内的空驶出租车总数，在当前单元格k内的空驶出租车即为出租车有效数据集中在当前单元格k内运营状态不存在由0变为1的出租车；

4.根据权利要求1所述的基于出租车轨迹数据的寻客方法，其特征在于，所述跨区域客户搜索时，基于累计寻客成功概率确定寻客子区域，累计寻客成功概率按照下式计算：

P＝max(P_cs)； (3)

表示司机在目标单元格m内成功载客的概率；P表示最大累计寻客成功概率；

决策步长L＝1时，目标单元格的集合M包含位于当前所在单元格k的上下左右四个方向的单元格，当前目标单元格的集合M中累计寻客成功概率最大的目标单元格即为确定的寻客子区域；决策步长L＞1时，目标单元格的集合M包含位于决策步长为L-1时确定的寻客子区域的上左右三个方向的单元格，当前目标单元格的集合M中累计寻客成功概率最大的目标单元格即为确定的寻客子区域。

5.根据权利要求1所述的基于出租车轨迹数据的寻客方法，其特征在于，所述基于寻客子区域内出租车的GPS历史数据，在确定的寻客子区域内进行上客热点挖掘的具体实现过程如下：

6.根据权利要求5所述的基于出租车轨迹数据的寻客方法，其特征在于，所述步骤1的具体实现过程如下：

然后，对按时间排列的车牌号相同的GPS轨迹点数据集中两相邻时刻t_i、t_i+1轨迹点的运营状态值进行差值计算，计算结果用Δ表示，即：

Δ＝CAR_STAT_t+1-CAR_STAT_t； (5)

7.根据权利要求5所述的基于出租车轨迹数据的寻客方法，其特征在于，所述步骤2的具体实现过程如下：

则

为上客点p_i(x,y)的K-距离，得到所有上客点的K-距离集合E为：

8.根据权利要求1～7任一项所述的基于出租车轨迹数据的寻客方法，其特征在于，所述基于效用函数在候选路径集中选择效用最大的候选路径为最佳寻客路径的具体实现过程如下：

首先，采用下述效用函数计算候选路径集中每条路径的效用：

U_j＝β₁T_j+β₂D_j+β₃C_j+β₄R_j+β₅ln(PS_j)+ε_j； (10)

其中，U_j表示候选路径集中的路径j的效用，T_j为出租车通过路径j的时间，D_j为路径j对应的路径行程距离，C_j为路径j的交通拥堵指数，R_j为路径j上乘客的产生概率，PS_j表示路径j的路径长度修正项；β₁、β₂、β₃、β₄、β₅均为影响因素参数，利用极大似然函数求解；ε_j表示路径j的效用函数的随机项；

然后，按照下式计算在候选路径集中选择路径j的概率：

路径j的路径长度PS_j的计算方法如下：

其中，V_j表示候选路径集中路径j的固定效用项，P_j表示在候选路径集中选择路径j的概率，C_n表示候选路径集；l_i表示路径j上的路段i的长度，τ表示路径j中所有路段的集合，δ_ij为0-1之间的变量，若路段i在路径j上则该值为1，否则为0；如果路径j不与路径集合C_n内的任意一条路径相重合，则PS_j的值等于1；

9.根据权利要求8所述的基于出租车轨迹数据的寻客方法，其特征在于，所述出租车通过路径j的时间T_j通过下述公式确定：

其中，N_sec表示组成路径j的路段数量，N_taxi表示在研究时段内经过路段i的所有出租车总数，

表示在研究时段内经过路段i的所有出租车瞬时速度的平均值，v_n表示在研究时段内第n辆出租车经过路段i的瞬时速度；

所述路径j对应的路径行程距离D_j即为路径j的长度。

10.根据权利要求8所述的基于出租车轨迹数据的寻客方法，其特征在于，所述路径j的交通拥堵指数C_j通过下式计算得到：

其中，W_i为路径j上的路段i的交通流量，即每小时内经过路径j上的路段i的车辆数；v_{free_n}为第n辆出租车在路段i的自由流速度；v_n为第n辆出租车在路段i的实际速度；t_true为第n辆出租车在路段i的实际旅行时间，t_free为第n辆出租车在路段i的自由流状态下的旅行时间；

所述路径j上乘客的产生概率R_j通过下式计算得到：

其中，n_occupied表示在路径j的某一路段成功载客的出租车总数，n_all表示经过路径j的该路段的空载出租车总数。