CN112601187B

CN112601187B - 基于手机信令的公交常乘客预测方法与系统

Info

Publication number: CN112601187B
Application number: CN202011455634.8A
Authority: CN
Inventors: 李永军; 赵海燕; 马荣叶; 王幸; 戴培; 杨旭
Original assignee: Jiangsu Xinwang Video Signal Software Technology Co ltd
Current assignee: Jiangsu Xinwang Video Signal Software Technology Co ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2022-03-08
Anticipated expiration: 2040-12-10
Also published as: CN112601187A

Abstract

本发明提供一种基于手机信令的公交常乘客预测方法与系统，首先基于手机信令数据获取城市范围内的用户公交出行数据，从而确定对应手机用户以及其上下车站点信息；在此基础上分析出公交常乘客数据，建表入库；然后在获得的公交常乘客的基础上，获取每条线路多个统计时段常乘客占比数据，从而可以提取和获得同一个公交线路上的不同日期相同时段的常乘客数量以及不同时段常乘客数量，从而获得影响日期和时段范围(K1和K2)，最后可根据影响日期和时段范围预测未来时间的公交出行常乘客。

Description

基于手机信令的公交常乘客预测方法与系统

技术领域

本发明涉及智慧交通技术领域，尤其是手机信令数据在智慧交通领域的应用，具体而言涉及一种基于手机信令的公交常乘客预测方法与系统。

背景技术

城市公交系统具有覆盖面广、快捷、灵活、方便的特点，近年来客流量只增不减，公交系统在通勤时段处于严重的拥挤状态，为公交运营公司的运营组织管理提出新的管理问题。借用航空领域中对常乘客的定义，“经常乘坐城市公交出行，并熟悉使用城市公交，具备一定出行习惯的乘客”称为公交常乘客。公交常乘客与公交系统的经营息息相关，常乘客对公交系统的运营安全隐患、服务质量更加关注，也能积极及时向公交公司进行反馈，并能在公交出行中为其他乘客提供咨询服务。

常规统计公交常乘客的方式是基于交通一卡通的数据来实现的，其数据只覆盖了交通卡用户，其他支付方式的用户未被涵盖，数据准确度大打折扣。

发明内容

本发明目的在于提供一种基于手机信令数据实现的公交常客的统计以及预测，为公交系统的智慧运营提供科学的依据。

为实现本发明目的的第一方面提出一种基于手机信令的公交常乘客预测方法，包括以下步骤：

步骤1、提取预定历史时间周期T0范围内的所有用户公交出行数据，公交出行数据包括根据信令数据与大数据分析得到公交出行上下车站点信息以及用户号码信息；

步骤2、根据上车站点和下车站点信息，从公交线路站点关系表(TN_BUS_LINE_STA_INFO)计算一次公交出行距离；

步骤3、剔除一次公交出行距离小于预设值最小值的极短出行用户的出行数据；

步骤4、将步骤3处理后的出行数据，按照自然周进行分组，不足周的进行补齐，计算每周的时间段内个体用户的出行次数以及自然月个体用户的出行次数；

步骤5、响应于个体用户每周出行次数大于第一阈值且每月出行次数大于第二阈值，判定个体用户为公交常乘客，对该个体用户赋予常客标签，并将数据存入公交常乘客数据表(TD_BUS_FREQ_PASSG_INFO)；

步骤6、基于公交常乘客数据表中赋予常客标签的用户，获取每条线路在多个统计时段的常乘客占比，存入公交常乘客数量占比表(TD_BUS_FREQ_PASSG_VOLUME_RATIO)

步骤7、基于公交常乘客数据表中的公交常乘客数量以及每条线路的常乘客占比，提取预设时间周期 T2范围内第x条线路Lx在每个统计时段的常乘客数量，x＝1,2,……,m，m表示预测地区的公交线路的总数目；

步骤8、基于步骤7提取的数据，获取在一个自然月内设定的时段的常乘客数量V，并计算任意两个不同日期相同时段常乘客数量Vi与Vj之间的欧氏距离：

其中，i＝1,2,……,30，j＝1,2,……,30；

步骤9、在步骤8获得欧氏距离基础上，基于K近邻算法(KNN)遍历k值，确定影响日期范围k1；

步骤10、获取第x条线路Lx单日多个统计时段的常乘客数量Q，并计算同一线路在单日任意两个不同时段常乘客数量Qi和Qj之间的欧氏距离：

其中，i＝1,2,……,24，j＝1,2,……,24；

步骤11、在步骤10获得欧氏距离基础上，基于K近邻算法(KNN)遍历k值，确定影响时段范围k2；

步骤12、在获得的影响日期范围k1和影响时段范围k2的基础上，对未来某一日期对应时段的常乘客数量预测输出。

优选地，计算一次公交出行距离的处理包括以下步骤：

步骤2.1、根据上车站点从公交线路站点关系表中获取距离首站的距离(origin_dist)，记为L1；

步骤2.2、以下车站点从公交线路站点关系表中获取距离首站的距离(origin_dist)，记为L2；

步骤2.3、以两站之间的出行距离L作为一次公交出行距离，L＝L2-L1。

优选地，获取每条线路在多个统计时段的常乘客占比的操作包括以下步骤：

步骤5.1、对赋予常客标签的用户，从公交上下车站点表提取用户前一天乘坐的线路ID和上车时间；

步骤5.2、设定统计时段长度，将相同线路ID的常乘客按照上车时间所处统计时段进行分组统计，得到每条线路在各个统计时段的常乘客数量N；

步骤5.3、从公交上下车站点表提取所有用户前一天乘坐的线路ID和上车时间；

步骤5.4、按照步骤5.2的统计时段长度和分组方式，获得每条线路在各个统计时段的乘客量M；

步骤5.5、计算每条线路在各个统计时段的常乘客占比，即N/M。

优选地，基于影响值k1、k2，对于未来某个日期Date某个统计时段T的预测，以该日期Date前k1 天的统计时段T的前后共k2个时刻的常乘客数量(k1*k2)求均值，作为预测值。

优选地，所述公交出行数据的获取具体包括：

基于城市边界GIS数据，获取城市范围内的用户移动通信终端上报的信令数据，所述信令数据为移动通信终端进行基站扇区切换时上报的包含终端号码、时间以及基站经纬度的数据；然后根据某个用户移动通信终端单日的信令数据获得对应的信令轨迹点集合P_cid，P_cid＝{(P₁,T₁),(P₂,T₃),(P₃,T₃)…(P_n,T_n)},其中P_i表示T_i时刻的基站的经纬度坐标，i表示获得的信令数据的序号，n表示某个移动终端上报的信令数据的总数量；

根据信令轨迹点集合进行停留点识别，并确定信令轨迹点集合中的行程中间点和行程结束点，识别出用户的连续出行，构造出用户的信令轨迹，并对信令轨迹进行平滑处理；

基于停留点为关键点，将平滑后的用户的信令轨迹分为多个以出行结束点为终点的OD链；

将OD链中对应的信令轨迹点与GIS路网数据进行路网匹配，得到多个对应的子路段信息，即路段轨迹；

计算匹配路径后在每个子路段上对应的出行特征值，然后利用出行方式识别模型，得出某个用户每个子路段及OD链的出行模式；

提取出行模式组合中的所有包含公交出行模式下的OD链；提取OD链中的基站序列，记为{(T_i,Ci)}；

利用所提取的OD链中的基站序列结合公交运行线路筛选出城市目标空间区域，提取目标空间区域内经过的公交线路，以筛选出各公交线路上的车辆物联网卡并获得公交车在运动过程中通过物联网卡返回的数据，从而获得物联网卡轨迹，并从公交车物联网卡轨迹提取得到物联网卡轨迹基站序列{(T_j,Cj)}；

利用基于动态距离的相似度度量方法，将OD链中的基站序列{(T_i,Ci)}与车辆物联网卡反馈的物联网卡轨迹基站序列{(T_j,Cj)}进行匹配，获得某个用户的OD链匹配到的线路编号数据；

利用线路编号数据下各站点与基站的关系，根据线路站点对应的基站序列，得出用户轨迹的上车站点和下车站点。

如此，通过本发明的上述基于信令分析方式获取的公交乘客数据，融合了投币、手机移动端支付、特殊免费证、刷卡、银联支付等多种公交乘客支付方式对应的用户，避免传统仅仅依赖于刷卡数据带来的数据失真和缺陷，更加全面、整体上反应公交运行和常客的实际情况，统计公交常乘客，数据更全面，精准度更高。基于此基础计算的公交常客预测，通过对当天后续时刻常乘客数量的预测，及占比的预测，可以使得公交运营更加科学、运力调配合理，及时调整车辆类型，避免浪费。而且利于合理调整班次发车间隔，合理平衡运营成本与运营服务水平。

例如传统的公交运营以早上7点-9点、下午5点-7点作为高峰期，在车型一致的情况下，通过缩短发车时间间隔来提高运力，缓解交通高峰期的压力。而以早上5：00作为公交运行的起点时间，下午9点作为公交运行的终点时间(下班时间)。在此期间，除了高峰期之外，按照预定时长的发车间隔来发车。

但在实际运行过程中发现，早上5点-6点，甚至在更长的时间段内以及在一天中的其他时间段内，公交的乘坐人数非常少，而在一地区和对应线路上来说，公交乘坐人数通常具有一定的稳定性和确定性，是由常客决定的。此时，如果能够预测出常客数量，即可根据实际对应常客人数以及合理的随机乘客的数量来安排小型、或者中型公交车，减少运力浪费和成本。而在很多城市中已经存在这样的小型和中型公交车与大型公交车同时存在的情况，但目前这些小型和中型公交车的运行时根据线路的历史人数所确定的，并按照设定的发车间隔运行，依然存在运力浪费的问题。

而同时，针对发车时间来说，可通过本发明的预测方法进行提前预测和自动智能地安排对应的车型发车，并将对应的发车信息(车型、时间)发布到公交运行平台，通过公共运行平台对外发布，使得交通出行数据可被各个随机乘客用户收到和知悉，合理安排时间，而对于常乘客来说，仅仅是需要按照日常的规律出行即可，实现可预测性和稳定性。如此，既满足常乘客和随机乘客的出行需求，保持公交出行的可预测性和稳定，同时合理科学地安排发车，减少公交资源和道路资源的占用，减少公交系统的运行成本。

根据本发明的第二方面还提出一种基于手机信令的公交常乘客预测系统，包括：

用于从公交上下车站点表(TD_BUS_UP_DOWN_STATION)提取预定历史时间周期T0范围内的出行数据的模块，包括公交出行的用户号码(msisdn)、上车站点(up_station)以及下车站点(down_station)；

用于根据上车站点和下车站点信息，从公交线路站点关系表(TN_BUS_LINE_STA_INFO)计算一次公交出行距离的模块；

用于剔除一次公交出行距离小于预设值最小值的极短出行用户的出行数据的模块；

用于将剔除处理后的出行数据，按照自然周进行分组，不足周的进行补齐，计算每周的时间段内个体用户的出行次数以及自然月个体用户的出行次数的模块；

用于响应于个体用户每周出行次数大于第一阈值且每月出行次数大于第二阈值，判定个体用户为公交常乘客，对该个体用户赋予常客标签，并将数据存入公交常乘客数据表(TD_BUS_FREQ_PASSG_INFO)的模块；

用于基于公交常乘客数据表中赋予常客标签的用户，获取每条线路在多个统计时段的常乘客占比，存入公交常乘客数量占比表(TD_BUS_FREQ_PASSG_VOLUME_RATIO)的模块

用于基于公交常乘客数据表中的公交常乘客数量以及每条线路的常乘客占比，提取预设时间周期T2 范围内第x条线路Lx在每个统计时段的常乘客数量的模块，x＝1,2,……,m，m表示预测地区的公交线路的总数目；

用于基于提取的常乘客数量数据，获取在一个自然月内设定的时段的常乘客数量V，并计算任意两个不同日期相同时段常乘客数量Vi与Vj之间的欧氏距离的模块，任意两个不同日期相同时段常乘客数量Vi 与Vj之间的欧氏距离表示为：

其中，i＝1,2,……,30，j＝1,2,……,30；

用于在任意两个不同日期相同时段常乘客数量Vi与Vj之间的欧氏距离基础上，基于K近邻算法(KNN) 遍历k值，确定影响日期范围k1的模块；

用于获取第x条线路Lx单日多个统计时段的常乘客数量Q，并计算同一线路在单日任意两个不同时段常乘客数量Qi和Qj之间的欧氏距离的模块，同一线路在单日任意两个不同时段常乘客数量Qi和Qj之间的欧氏距离表示为：

其中，i＝1,2,……,24，j＝1,2,……,24；

用于在同一线路在单日任意两个不同时段常乘客数量Qi和Qj之间的欧氏距离基础上，基于K近邻算法(KNN)遍历k值，确定影响时段范围k2的模块；

用于在获得的影响日期范围k1和影响时段范围k2的基础上，对未来某一日期对应时段的常乘客数量预测输出的模块。

根据本发明的第三方面还提出一种基于手机信令的公交常乘客预测系统，包括：

一个或多个处理器；

存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括所述前述公交常乘客预测方法的过程。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是本发明示例性实施例的公交常乘客预测方法的示意图。

图2是本发明示例性实施例的公交常乘客预测系统的示意图。

图3是本发明示例性实施例的公交常乘客预测方法中确定影响日期范围k1的示意图。

图4是本发明示例性实施例的公交常乘客预测方法中确定影响时间段范围k2的示意图。

图5是本发明示例性实施例的公交常乘客预测过程的其中一个具体应用的示意图。

图6是本发明示例性实施例的基于用户手机信令得到的信令轨迹的示例图。

图7是本发明示例性实施例的平滑后的信令轨迹的示例图。

图8是本发明示例性实施例的通过滑动窗口获得的基于路网信息的用户轨迹示意图，其中的每个路段对应的点(例如A-G)表示基站位置。

图9是本发明示例性实施例的提取基站序列的示意图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

结合图1-图5所示，根据本发明示例性实施例的基于手机信令的公交常乘客预测方法，首先基于手机信令数据获取城市范围内的用户公交出行数据，从而确定对应手机用户以及其上下车站点信息；在此基础上分析出公交常乘客数据，建表入库；然后在获得的公交常乘客的基础上，获取每条线路多个统计时段常乘客占比数据，从而可以提取和获得同一个公交线路上的不同日期相同时段的常乘客数量以及不同时段常乘客数量，从而获得影响日期和时段范围(k1和k2)，最后可根据影响日期和时段范围预测未来时间的公交出行常乘客。

在具体的一个实施例中，预测方法的具体实现包括以下步骤：

其中，i＝1,2,……,30，j＝1,2,……,30；

其中，i＝1,2,……,24，j＝1,2,……,24；

其中，所述步骤2中，计算一次公交出行距离的处理包括以下步骤：

其中，在步骤6中，获取每条线路在多个统计时段的常乘客占比的操作包括以下步骤：

其中，所述步骤12中，基于影响值k1、k2，对于未来某个日期Date某个统计时段T的预测，以该日期Date前k1天的统计时段T的前后共k2个时刻的常乘客数量(k1*k2)求均值，作为预测值。

其中，所述公交出行数据的获取方式包括：

基于乘客的手机信令数据得到的轨迹数据进行路网匹配，并在得到的路段信息基础上进行出行方式识别，在识别出行方式的基础上提取出其中的公交出行轨迹段，再利用乘客的手机信令数据得到的轨迹以及公交车车载物联网卡反馈数据的基站轨迹进行轨迹匹配，获得用户轨迹匹配到的线路编号信息，再由用户出行轨迹的首末基站与线路站点基站序列进行匹配即可得到上下车站点。

尤其优选地，公交出行数据的获取具体包括：

下面结合说明书附图6-9所示，更加具体的说明本发明的前述步骤1中关于公交出行数据中的上下车站点的识别。

结合图示，根据本发明示例性实施例的基于信令数据识别公交出行上下车站点，是基于乘客的手机信令数据得到的轨迹数据(基站轨迹)实现的。首先，基于乘客的手机信令数据得到的轨迹数据进行路网匹配，并在得到的路段信息基础上进行出行方式识别，在提取出的出行特征的基础上识别出出行方式并提取出其中的公交出行轨迹段，再利用乘客的手机信令数据得到的轨迹以及公交车车载物联网卡反馈数据的基站轨迹进行轨迹匹配，获得用户轨迹匹配到的线路编号信息，再由用户出行轨迹的首末基站与线路站点基站序列进行匹配即可得到上下车站点。

通过由用户出行轨迹的首末基站与线路站点基站序列进行匹配识别的上下车站点，覆盖度高，得到的数据更加全面。

公交车车载的物联网卡，提供基础的数据通信功能和公交车运行状态反馈功能，例如建立与无线网络的数据通信，并将公交车的运行状态、时间、位置、站点信息等反馈至公交网络监控或者管理后台系统，实现智能化识别、定位、跟踪、监控和管理。本发明借助于手机信令、公交物联网卡信令数据，结合基站时间变换的序列，使得公交线路、公交上下车站点的推测更加准确可信，而且不需要长期采集历史数据，进行大量概率计算并推测，而是由真实轨迹进行匹配获取，准确度更高，识别过程简单。

作为可选的示例的基于信令数据实现的公交出行上下车站点的识别，其实施过程包括以下步骤：

步骤1-1、基于城市边界GIS数据，获取城市范围内的用户移动通信终端上报的信令数据，所述信令数据为移动通信终端进行基站扇区切换时上报的包含终端号码、时间以及基站经纬度的数据；然后根据某个用户移动通信终端单日的信令数据获得对应的信令轨迹点集合P_cid，P_cid＝{(P₁,T₁),(P₂,T₃),(P₃,T₃)…(P_n,T_n)}, 其中P_i表示T_i时刻的基站的经纬度坐标，i表示获得的信令数据的序号，n表示某个移动终端上报的信令数据的总数量；

步骤1-2、根据信令轨迹点集合进行停留点识别，并确定信令轨迹点集合中的行程中间点和行程结束点，识别出用户的连续出行，构造出用户的信令轨迹，并对信令轨迹进行平滑处理；

步骤1-3、基于停留点为关键点，将平滑后的用户的信令轨迹分为多个以出行结束点为终点的OD链；

步骤1-4、将OD链中对应的信令轨迹点与GIS路网数据进行路网匹配，得到多个对应的子路段信息，即路段轨迹；

步骤1-5、计算匹配路径后在每个子路段上对应的出行特征值，然后利用出行方式识别模型，得出某个用户每个子路段及OD链的出行模式；

步骤1-6、提取出行模式组合中的所有在公交出行模式下的OD链；提取OD链中的基站序列，记为 {(T_i,Ci)}；Ci表示OD链中的基站序列中的第i个基站；

步骤1-7、利用所提取的OD链中的基站序列结合公交运行线路筛选出城市目标空间区域，提取目标空间区域内经过的公交线路，以筛选出各公交线路上的车辆物联网卡并获得公交车在运动过程中通过物联网卡返回的数据，从而获得物联网卡轨迹，并从公交车物联网卡轨迹提取得到物联网卡轨迹基站序列 {(T_j,Cj)}；Cj表示物联网卡轨迹基站序列中的第j个基站；

步骤1-8、利用基于动态距离的相似度度量方法，将OD链中的基站序列{(T_i,Ci)}与车辆物联网卡反馈的物联网卡轨迹基站序列{(T_j,Cj)}进行匹配，获得某个用户的OD链匹配到的线路编号数据；

步骤1-9、利用线路编号数据下各站点与基站的关系，根据线路站点对应的基站序列，得出用户轨迹的上车站点和下车站点。

本发明在实施过程中，基于城市边界GIS数据，筛选处于城市范围内的用户手机信令数据进行采集，手机信令数据包含了丰富的信息，本发明使用了其中的终端号码(即在运营商处登记的手机通信号码信息)、时间以及对应基站经纬度的数据。其中，用户的终端号码采用脱敏处理。

由此，通过某一个用户一个周期范围(如一天24h)的手机信令数据，获得其关于基站的信令轨迹，即由基站构成的轨迹序列，获得对应的信令轨迹点集合P_cid，P_cid＝{(P₁,T₁),(P₂,T₃),(P₃,T₃)…(P_n,T_n)},其中P_i表示T_i时刻的基站的经纬度坐标，i表示获得的信令数据的序号，n表示某个移动终端上报的信令数据的总数量。

在可选的实施例中，由于移动通信终端(也称为用户终端)进行基站扇区切换时，由于基站的实际覆盖等原因，会存在比较多的噪声数据，例如ABA、ABC等方式的乒乓切换或者数据漂移。对此，我们在本发明中对信令数据需要进行预处理，即对信令轨迹点进行优化处理，尤其是指乒乓切换优化和过滤漂移点。本发明的实施过程中，可采用现有技术中的处理方式对信令数据进行乒乓切换优化和过滤漂移点，对信令数据进行预处理。

接下来中，利用停留点识别算法，识别个体用户每天信令轨迹中的停留点，结合停留点发生的时间、 POI信息，进一步增强停留点识别的可靠性。

具体地，根据信令轨迹点集合进行停留点识别，并确定信令轨迹点集合中的行程中间点和行程结束点，识别出用户的连续出行，构造出用户的信令轨迹。

例如，图6示例性的表示了某一用户一段时间内的出行轨迹点示意。

在出行链分析之前，要先识别用户的每次连续出行轨迹，然后再对每次连续出行轨迹进行细化分析。用户的出行轨迹识别包括3个部分：起始点识别、出行持续状态识别、结束点识别。

优选地，根据信令轨迹点集合按照下述方式构造用户的信令轨迹，具体包括：对信令轨迹点集合采用 DBSCAN密度聚类算法，根据预设的距离范围阈值Dis以及预设时间阈值Tpre进行停留识别以识别出停留点，并根据停留点确定信令轨迹点集合中的行程中间点和行程结束点，基于行程结束点从而确定出用户每段行程的开始时间、开始位置、结束时间以及结束位置，构造用户的信令轨迹。

在可选的实施例中，本发明的实施例中采用下述方式进行停留点识别。

定义用户出行起始点

用户开始持续运动状态，在指定时间T中，离开指定范围A，则范围A为用户出行开始区域。

用户离开区域的时间，即在区域A最后一次上报的时间，为用户的出行开始时间。

而用户实际出行位置，则通过权重算法模型进行计算。计算用户在区域A的位置重心坐标：

选取距离重心最近的位置上报点作为出行起始点，即：

P＝min{(lng(P)-lng(G))²+(lat(P)-lat(G))²}。

定义用户持续出行

对于用户轨迹中任意的位置点P，从P点的时间开始，在指定时间T中，用户活动范围超出P周围指定范围A，则认为用户保持持续运动状态。

定义用户出行结束点

用户结束持续运动状态，在指定时间T中，持续停留在指定范围A，则范围A为用户出行结束区域。

用户到达A区域的时间，即用户在区域A首次出现的时间，为用户的出行结束时间。

选取距离重心最近的位置上报点作为出行结束点，即：

P＝min{(lng(P)-lng(G))²+(lat(P)-lat(G))²}。

结合图1、图2所示，其中的每个点表示对应时刻的信令轨迹点位置。

可选地，按照上述定义，在指定时间T(例如30分钟)内，指定范围A(例如500米)的条件下，图 1所示的轨迹中，圈内的轨迹点形成了停留状态，如p3,p4,p5是一个停留，如果停留时间＝T5-T3小于30 分钟，且未超过A范围，则该停留属于短暂停留。形成短暂停留现象的原因非常多，例如出行中交通方式切换时的换乘等待，或者是交通堵塞导致的停滞不前，亦或者是散步中的短暂休息，等等。又如 p8,p9,……,p12，如果停留时间＝T12-T8大于30分钟，且未超过A范围，则该停留可能是一次出行的结束点。

本发明基于密度聚类DBSCAN算法，参数eps＝500，minPts＝5，进行停留识别，并通过计算停留时长、停留范围，将停留点识别为行程中间点，行程结束点。继而，按照上述定义推算每个行程的开始时间，开始位置，结束时间，结束位置。

通过上述处理，在获得的信令轨迹基础上，对于停留点集采用停留点集的质心(O1、O2)进行替代，平滑用户的信令轨迹，使得轨迹变得平滑且简洁，如图7所示。

图7所示为实际根据用户上报的信令数据进行平滑后得到的轨迹的示例，此处的轨迹是指信令轨迹，是基于基站位置进行连线形成的轨迹，其可能穿过实际GIS路网中的道路路段或者偏离路段，并非是指用户实际出行的轨迹。

接下来，结合图7所示，基于识别出来的停留点为关键点，将平滑后的用户的信令轨迹分为多个以出行结束点为终点的OD链。

例如，利用停留点p3,p5,p8,p12，将某个个体用户的每天的信令轨迹切分为以出行目的地为终点的OD 链，例如p1,p2,p3；p5,p6,p7,p8；p12,p13,p14,p15为三段出行段，数据存在表dm_travel_user_detail_day。

在步骤1-4中，将OD链中对应的信令轨迹点与GIS路网数据进行路网匹配，得到多个对应的子路段信息，即路段轨迹。

优选地，所述步骤1-4中，利用路网的GIS数据及OD链中对应的信令数据中的基站的位置，计算基站位置对应映射到路网的道路上的所有可能的路段信息，并取基站到路网道路上距离最短的路段信息作为 OD链匹配到路网中的匹配结果，输出对应的子路段信息。

通过路网匹配，获得了基站位置(即信令轨迹点)对应到实际路网中的路段信息。

所述步骤1-5中，基于匹配路径后在每个子路段信息计算对应的出行特征值，然后利用出行方式识别模型，得出某个用户每个子路段及OD链的出行模式，其具体处理包括：

对某个用户每天的路网匹配结果按照时间字段排序，然后按照预设的窗口时长和滑动步长进行时间窗口切割；

基于切割的时间窗口内子路段对应的各信令轨迹点获取出行特征值，所述出行特征值包括用户的个人年龄和性别信息以及时间窗口的各信令轨迹点的最大瞬时速度、平均速度、速度方差与移动位移；

将出行特征值输入训练好的基于SVM二分类器的出行方式识别模型中，识别出用户的出行方式。

在步骤1-5中，本发明的出行方式识别所采用的出行特征值包括用户年龄，性别，最大瞬时速度，平均速度，速度方差和移动距离。

其中，出行特征值的获取，基于用户的信令数据构造的OD链，并通过滑动窗口切割后的方式计算获得。

作为可选的方式，在步骤1-5中，窗口切割过程首先对个体用户的路网匹配结果按照time字段排序，并剔除speed异常的轨迹点(例如设定为速度小于0.3m/s、大于40m/s的异常点)，然后以窗口时长为基础 (例如选择为1200s)，以滑动步长(例如选择为120s)作为滑动间隔进行窗口滑动处理。

本发明的示例性的滑动窗口切割过程如下：

St4.1.对停留时长和滑动间隔时间进行参数配置

St4.2.假设停留时长设置为1200s，滑动间隔120s，例如某个用户的轨迹为A-B-C-D-E-F-G

A:2020-08-24 11:00:00

B:2020-08-24 11:01:00

C:2020-08-24 11:05:00

D:2020-08-24 11:15:00

E:2020-08-24 11:20:00

F:2020-08-24 11:35:00

G:2020-08-24 11:40:00

第一次切割直接从起始点开始，每次进行时间间隔的累加

step1轨迹点A停留时长为0

step2轨迹点B停留时长为0+60＝60<＝1200s

step3轨迹点C停留时长为0+60+240＝300<＝1200s

step4轨迹点D停留时长为0+60+240+600＝900<＝1200s

step5轨迹点E停留时长为0+60+240+900+300＝1200<＝1200s

step6轨迹点F停留时长为0+60+240+600+300+900＝2100>1200s

则第一段时间窗口为A-B-C-D-E。

第二次切割的开始时间为：A的时间+滑动间隔120s则开始时间为2020-08-24 11:02:00；

step1轨迹点B时间为2020-08-24 11:01:00<2020-08-24 11:02:00直接跳过；

step2轨迹点C时间为2020-08-24 11:05:00>＝2020-08-24 11:02:00停留时长为0；

step3轨迹点D停留时长为0+600＝600<＝1200s；

step4轨迹点E停留时长为0+600+300＝900<＝1200s；

step5轨迹点F停留时长为0+600+300+900＝1800>1200s，

则第二段时间窗口为C-D-E。

第三次切割的开始时间为：C的时间+滑动间隔120s则开始时间为2020-08-24 11:07:00；

同上过程，第三段时间窗口为D-E-F。

第四次切割的开始时间为：D的时间+滑动间隔120s则开始时间为2020-08-24 11:17:00：

step1轨迹点E时间2020-08-24 11:20:00>2020-08-24 11:17:00停留时长为0；

step2轨迹点F停留时长为0+900＝900<＝1200s；

step3轨迹点G停留时长为0+900+300＝1200<＝1200s,且到达最后一个轨迹点；

则第四段时间窗口为E-F-G，切割结束。

最后切割为四段时间窗口：

A-B-C-D；C-D-E；D-E-F；E-F-G。

结合以上实施过程，在时间窗口切割过程中，针对的是信令轨迹点进行处理，也即基站信息进行处理。信令轨迹点已经在前面的步骤中进行路网匹配处理，获得相应的子路段信息。

然后，计算出行特征值，包括：

(1)利用用户终端号码msisdn从用户资料表提取匹配获取年龄与性别信息；

(2)最大瞬时速度，取值为时间窗口中各信令轨迹点的speed字段最大值；

(3)平均速度，取值为时间窗口中各信令轨迹点的speed字段的平均值；

(4)速度方差，取值为时间窗口中各信令轨迹点的speed字段的方差；

(5)移动位移，取值为时间窗口内各信令轨迹点对应子路段的距离、上一子路段终点与下一子路段起始点之间的距离以及最后一段子路段的剩余距离。

在可选的实施例中，上述出行特征值的获取具体包括以下步骤：

最大瞬时速度＝max(speed_i)

speed_i＝窗口内轨迹点的speed

N表示时间窗口内的信令轨迹点的个数。

例如，结合图8所示的示意，如果时间窗口为A-B-C-D，则移动距离等于A.distance+A的终点与B 的起点之间的路段距离+B.distance+B的终点与C的起点之间的路段距离+C.distance+C的终点与D的起点之间的路段距离+D.distance+D的剩余的时间*D.speed，其中D的剩余时间为：(A.time+时间窗口时长–D.time)，如果A.time为2020-08-24 11:00:00，时间窗口时长为20min，D.time为2020-08-24 11:19:00，则剩余时间为60s。移动位移为所有连线的线路长度。

由此，通过上述方式提取获得每个子路段上对应的出行特征值。

在出行方式识别模型的选取上，本发明使用基于SVM二分类器的出行方式识别。在具体的识别过程中，基于用户的OD链，可首先进行专用交通出行方式的识别，例如基于城市专有场景交通基础设施数据及其专有场景专用基站，采用基站经纬度匹配识别OD链中高铁、动车、轻轨以及轨道交通四种专有出行方式，然后从OD链中提出，对剩下的OD链进行识别，识别其出行方式，并且提取和筛选出其中采用公交出行的OD链。

基于SVM二分类器的出行方式识别模型，被设置成根据用户年龄，性别，最大瞬时速度，平均速度，速度方差和移动距离进行训练获得识别模型。

作为可选的实施例，基于SVM二分类器的出行方式识别模型被设置成根据以下方式进行训练生成：

采用SVM二分类器进行出行方式识别模型训练，获得识别模型的具体操作包括：构建多个SVM二分类器，并根据用户上传的出行数据和信令数据历史样本提取出行特征值，对步行、出租车、私家车和公交车四种出行方式进行模型训练，输出出行方式识别模型，具体训练过程包括：

(1)对四种出行方式分别赋予类别标识，步行0，出租车为1，私家车为2，公交车为3；

(2)构造6个二分类器，并确定每个二分类的决策函数；

(3)将特征值输入6个二分类器中，并基于投票机制进行训练，计算哪种出行方式的二分配器预测出现的方式最多，即为哪种出行方式；若出现每种出行方式预测出现的测试次数相同，则获取对应出行方式组合的二分配器再进行训练，直到二分配器只有一个出行方式次数最多，或者每种出行方式预测出来都等于1，则随机分配；或者每种出行方式预测出来的结果都相同，则随机分配；

(4)将特征值训练得到的模型作为测试对象，将样本数据进行k等分，分成训练集和测试机，将训练集训练得到的模型用测试集进行k交叉测试，与实际上报的出行方式进行对比，计算k个对比结果进行验证，如果验证结果的预测准确性达到预设值，则输出模型，否则调整二分类器决策函数的惩罚系数和核函数进行重新训练，直到满足预测准确性的预设值标准。

可选地，每个二分类的决策函数为：

其中参数选择过程中，惩罚系数C(0.1，50)，以及核函数参数σ(0.1，50)，通过参数选择调整模型训练的效果。

在另外的实施例，本发明的出行方式识别还可以基于其他预设或者现有的识别模型进行识别，其目的旨在基于用户的信令轨迹数据识别出其出行方式即可，然后可筛选出其中采用公交出行的OD链。

由此，我们在用户的一天的信令轨迹数据中获得了其公交出行的OD链。在此基础上，进一步提取这些OD链中的基站序列，记为{(T_i，Ci)}。

例如，结合图9示例所示，以某一用户的一段公交出行OD链提取的基站序列为{(t1，c1)，(t2，c2)，(t3，c5)，(t4，c7)，......，(t18，c30)}进行示例性说明。

在步骤1-7中，进一步基于公交车车载物联网卡反馈的基站序列信息，获取物联网卡轨迹，并从公交车物联网卡轨迹提取得到物联网卡轨迹基站序列{(T_j，Cj)}。

例如，我们可以利用用户出行轨迹基站序列筛选出分析的城市目标空间区域，利用线路GIS数据与地图匹配提取该区域内经过的公交线路，进一步选出各线路上的车辆物联网卡号进行分析。例如，该区域内某一公交车物联网卡轨迹提取基站序列{(T_j，Cj)}，如图8所示获得的物联网卡轨迹基站序列为 {(t1，c1)，(t2，c2)，(t3，c4)，(t4，c6)，......，(t20，c32)}进行示例性说明。

接下来，我们在步骤1-8中基于动态距离的相似度度量方法进行OD链中的基站序列{(T_i，Ci)}与物联网卡轨迹基站序列{(T_j，Cj)}进行匹配，推导出用户轨迹匹配到的线路编号信息，公交车辆与线路编号关系表TN_BUS_VEH_INFO，其具体过程包括：

对于任意两个轨迹，分别为轨迹A和轨迹B，则两条轨迹之间的相似距离定义为：

d(A，B)＝max{D_AB，D_BA}

D_AB＝max{min(d_ij)，i＝1，...，m_A；j＝1，...m_B}

D_BA＝max{min(d_ij)，i＝1，...，m_B；j＝1，...m_A}

其中，m_A表示轨迹A中轨迹点的最大数目，m_B表示轨迹B中轨迹点的最大数目；d_ij表示第i个轨迹点到第j个轨迹点的欧几里得距离；

St8.1：以轨迹A的第一个轨迹点开始，与轨迹B的所有轨迹点计算欧几里得距离，取最小距离，即： d₁＝min(d_1j)；

St8.2：将轨迹A的每一个轨迹点i，与轨迹B的所有的轨迹点计算欧几里得距离，取最小距离，即 d_i＝min(d_ij)；

St8.3：则D_AB＝max{d₁，d₂，d₃，...，d_i}；

St8.4：以轨迹B的第一个轨迹点开始，与轨迹A的所有点计算欧几里得距离，取最小距离，即： d₁＝min(d_1j)；

St8.5：将轨迹B的每一个轨迹点i，与轨迹A的所有的轨迹点计算欧几里得距离，取最小距离，即： d_i＝min(d_ij)；

St8.6：则D_BA＝max{d₁，d₂，d₃，d₄，...，d_i}；

St8.7：则轨迹A和轨迹B之间的相似度量为d(A，B)＝max{D_AB，D_BA}；

由此，将某一个用户的出行OD链与目标空间区域内公交物联网卡卡中的一个公交物联网卡出行轨迹进行匹配，得到用户OD链匹配到的公交车辆与线路编号关系。

例如，以图3所示示例所提取的两端基站轨迹为例。

物联网卡轨迹基站序列为{(t1，c1)，(t2，c2)，(t3，c4)，(t4，c6)，......，(t20，c32)}

OD链提取的基站序列为{(t1，c1)，(t2，c2)，(t3，c5)，(t4，c7)，......，(t18，c30)}

轨迹A：traA＝{(t1，c1)，(t2，c2)，(t3，c5)，(t4，c7)，......，(t18，c30)}；

轨迹B：traB＝{(t1，c1)，(t2，c2)，(t3，c4)，(t4，c6)，......，(t20，c32)}；

其中ci＝(lat，lng)，lat为基站的经度，lng为基站的纬度。

以traA的第一个轨迹(t1，c1)开始，与traB的所有点计算欧氏距离：

……

则：d₁＝min(d_1j)＝0

St8.2：将轨迹A的每一个轨迹点i，与轨迹B的所有的轨迹点计算欧几里得距离，取最小值：

d_i＝min(d_ij)，同理可得：d_i＝min(di_j)；

St8.3：则D_AB＝max{d₁，...，d_i，...，d₂₀}；

St8.4：以轨迹B的第一个轨迹点开始，与轨迹的所有点计算欧几里得距离，取最小值：

d₁＝min(d_1j)。

以前述两条轨迹A、B为例，进行说明。

traA＝{(t1，c1)，(t2，c2)，(t3，c5)，(t4，c7)，......，(t18，c30)}；

traB＝{(t1，c1)，(t2，c2)，(t3，c4)，(t4，c6)，......，(t20，c32)}；

其中ci＝(lat，lng)，lat为基站经度，lng为基站纬度。

以traB的第一个轨迹(t1，c1)开始，与traA的所有点计算欧氏距离：

……

则：d₁＝min(d_1j)＝0

St8.5：将轨迹B的每一个轨迹点i，与轨迹A的所有的轨迹点计算欧几里得距离，取最小值：

d_i＝min(d_ij)；

St8.6：则D_BA＝max{d₁，...，d_i，...，d₁₈}；

St8.7：则轨迹A和轨迹B之间的相似度量为d(A.B)＝max{D_AB，D_BA}。

由此，通过上述两端基站序列的提取以及相似度处理，将某一条用户的出行OD链(即出行轨迹)与城市目标区域范围内众多公交物联卡中的一个公交物联网卡出行轨迹进行匹配，再可在步骤9中由用户出行轨迹的首末基站与线路站点基站序列进行匹配即可得到上下车站点。

在步骤1-9中，利用线路编号下各站点与基站的关系DIM_BTS_TRAFFIC_COORIDOR，线路站点对应的基站序列{(s1，c1)，(s2，c2，c3)，(s3，c4，c5)，......，(s15，c30)，......}，得出用户轨迹的上车站点s1，和下车站点s15，存储在表TD_BUS_UP_DOWN_STATION中，得到该单一用户的上下车站点的信息。

结合图1-5所示以及以上具体实施方式，本发明还可以被设置成按照以下方式实施。

基于手机信令的公交常乘客预测系统

根据本发明实施例的一种基于手机信令的公交常乘客预测系统，其包括：

用于从公交上下车站点表(TD_BUS_UP_DOWN_STATION)提取预定历史时间周期T0范围内的所有用户公交出行数据的模块，公交出行数据包括公交出行的用户号码(msisdn)、上车站点(up_station)以及下车站点(down_station)；

其中，i＝1,2,……,30；j＝1,2,……,30；

其中，i＝1,2,……,24；j＝1,2,……,24；

其中，基于影响值k1、k2，对于未来某个日期Date某个统计时段T的预测，以该日期Date前k1天的统计时段T的前后共k2个时刻的常乘客数量(k1*k2)求均值，作为预测值输出。

基于手机信令的公交常乘客预测系统

根据本发明实施例的一种基于手机信令的公交常乘客预测系统，包括：

一个或多个处理器；

存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括前述的公交常乘客预测方法的过程。尤其是附图1所示的示例性实施例的过程。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于手机信令的公交常乘客预测方法，其特征在于，包括以下步骤：

步骤7、基于公交常乘客数据表中的公交常乘客数量以及每条线路的常乘客占比，提取预设时间周期T2范围内第x条线路Lx在每个统计时段的常乘客数量，x＝1,2,……,m，m表示预测地区的公交线路的总数目；

其中，i＝1,2,……,30；j＝1,2,……,30；

其中，i＝1,2,……,24；j＝1,2,……,24；

2.根据权利要求1所述的基于手机信令的公交常乘客预测方法，其特征在于，所述步骤2中，计算一次公交出行距离的处理包括以下步骤：

3.根据权利要求1所述的基于手机信令的公交常乘客预测方法，其特征在于，所述步骤6中，获取每条线路在多个统计时段的常乘客占比的操作包括以下步骤：

4.根据权利要求1所述的基于手机信令的公交常乘客预测方法，其特征在于，所述步骤12中，基于影响值k1、k2，对于未来某个日期Date某个统计时段T的预测，以该日期Date前k1天的统计时段T的前后共k2个时刻的常乘客数量(k1*k2)求均值，作为预测值。

5.根据权利要求1所述的基于手机信令的公交常乘客预测方法，其特征在于，所述公交出行数据的获取方式包括：

6.根据权利要求1或5所述的基于手机信令的公交常乘客预测方法，其特征在于，所述公交出行数据的获取具体包括：

提取出行模式组合中的所有包含公交出行模式下的OD链；提取OD链中的基站序列，记为{(T_i,Ci)}；其中Ci表示OD链中的基站序列的第i个基站；

利用所提取的OD链中的基站序列结合公交运行线路筛选出城市目标空间区域，提取目标空间区域内经过的公交线路，以筛选出各公交线路上的车辆物联网卡并获得公交车在运动过程中通过物联网卡返回的数据，从而获得物联网卡轨迹，并从公交车物联网卡轨迹提取得到物联网卡轨迹基站序列{(T_j,Cj)}；其中Cj表示物联网卡轨迹基站序列中的第j个基站；

7.一种基于手机信令的公交常乘客预测系统，其特征在于，包括：

用于基于公交常乘客数据表中的公交常乘客数量以及每条线路的常乘客占比，提取预设时间周期T2范围内第x条线路Lx在每个统计时段的常乘客数量的模块，x＝1,2,……,m，m表示预测地区的公交线路的总数目；

用于基于提取的常乘客数量数据，获取在一个自然月内设定的时段的常乘客数量V，并计算任意两个不同日期相同时段常乘客数量Vi与Vj之间的欧氏距离的模块，任意两个不同日期相同时段常乘客数量Vi与Vj之间的欧氏距离表示为：

其中，i＝1,2,……,30，j＝1,2,……,30；

用于在任意两个不同日期相同时段常乘客数量Vi与Vj之间的欧氏距离基础上，基于K近邻算法(KNN)遍历k值，确定影响日期范围k1的模块；

其中，i＝1,2,……,24，j＝1,2,……,24；

8.根据权利要求7所述的基于手机信令的公交常乘客预测系统，其特征在于，基于影响值k1、k2，对于未来某个日期Date某个统计时段T的预测，以该日期Date前k1天的统计时段T的前后共k2个时刻的常乘客数量(k1*k2)求均值，作为预测值输出。

9.根据权利要求7所述的基于手机信令的公交常乘客预测系统，其特征在于，所述公交出行数据的获取具体包括：

10.一种基于手机信令的公交常乘客预测系统，其特征在于，包括：

一个或多个处理器；

存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括权利要求1-6中任意一项所述的公交常乘客预测方法的过程。