CN110459050B

CN110459050B - 一种基于混合决策树的短期公交客流预测方法

Info

Publication number: CN110459050B
Application number: CN201910447297.9A
Authority: CN
Inventors: 巫威眺; 靳文舟; 李鹏; 朱子轩
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2021-07-20
Anticipated expiration: 2039-05-27
Also published as: CN110459050A

Abstract

本发明涉及一种基于混合决策树的短期公交客流预测方法，包括：S1，获取一段时间内搭乘线路的乘客刷卡数据；S2，根据所述乘客刷卡数据获取每个乘客的身份信息，并统计每个乘客的周均刷卡次数和周刷卡次数标准差，得到乘客出行的模式数据集；S3，根据每个乘客的身份信息、周均刷卡次数和周刷卡次数标准差对乘客进行分类和分时段统计，得到分类分时段的统计数据集；S4，将所述分类分时段的统计数据集和影响因素数据集(IF)按时间进行连接，获取训练数据集和测试数据集。本发明不仅能得到精度较高的客流总量预测，同时能得到客流结构预测。

Description

一种基于混合决策树的短期公交客流预测方法

技术领域

本发明涉及公交客流预测技术领域，特别是涉及一种基于混合决策树的短期公交客流预测方法。

背景技术

公共交通是城市居民出行的主要出行方式之一，承担了大量的城市客运任务。公交客流量预测是公交系统规划、运营和管理的数据基础，是长期和短期运力投放和调配的重要参考依据。

但是现有的公交客流量预模型均将时段客流总量作为一个数值参与预测模型的建立。但是客流作为一个复杂的群体，对乘客总量进行预测容易忽视乘客群体的复杂性。针对时间序列模型，不同类型类乘客随时间的变化规律是不同的，如通勤客流有明显的早晚高峰，老人客流则一般不存在如此明显的早晚高峰，将两类乘客的量叠加在一起进行时间序列预测容易忽视每类乘客特有的时段波动规律，造成时间序列的不稳定性和不规律性增加，从而降低预测精度。针对基于影响因素的机器学习模型，每类乘客对不同影响因素的响应模式是不一样的，以乘客总量作为预测对象忽视了乘客群体的复杂性，如通勤客流对节假日非常敏感，相反，老人客流对节假日不敏感，将两类乘客量之和作为训练用数据，容易造成影响因素与乘客量之间的相关性降低，从而总体降低模型的预测精度。

总的来说在线路层面的短时客流量预测中现阶段的研究和模型存在以下问题：(1)线路客流类型组成复杂，各种类型的客流的出行模式，以及对于各种影响因素变化的响应模式有很大差别，集计的预测方式会产生很大的误差，如果能在乘客分类的基础上进行预测，则预测精度很可能会有较大提高。(2)客流量的影响因素众多且异构，基于外在影响因素的预测模型和基于时间序列的预测模型各有优势与局限性，缺少一个统一的模型各类数据进行有效兼容，对IF数据和TS数据进行有效耦合。(3)缺少对客流组成结构的预测，而这些信息有利于改进公交服务水平。

发明内容

针对现有技术存在的上述问题，本发明提供一种基于混合决策树的短期公交客流预测方法。

本申请的具体方案如下：

一种基于混合决策树的短期公交客流预测方法，包括：

S1，获取一段时间内搭乘线路的乘客刷卡数据；

S2，根据所述乘客刷卡数据获取每个乘客的身份信息，并统计每个乘客的周均刷卡次数和周刷卡次数标准差，得到乘客出行的模式数据集；

S3，根据每个乘客的身份信息、周均刷卡次数和周刷卡次数标准差对乘客进行分类和分时段统计，得到分类分时段的统计数据集；

S4，将所述分类分时段的统计数据集和影响因素数据集(IF)按时间进行连接，获取训练数据集和测试数据集；

S5，将训练数据集和测试数据集输入混合决策树模型，根据决策树路径将训练数据集和测试数据集被划分入相应的叶节点数据集，获取每个叶节点的训练数据集的时间序列数据和测试数据集的时间序列数据；

S6，根据训练数据集的时间序列数据和测试数据集的时间序列数据利用循环神经网络模型进行时间序列预测，获取每个时间段的每个乘客类别的预测量；对每个时段不同类别的乘客预测量进行汇总，获取每个时段最终的乘客总量预测数据；

S7，根据每个时段最终的乘客总量预测数据计算乘客总量的平均绝对误差与平均绝对百分比误差，以对公交客流进行预测。

优选地，步骤S4和S5之间包括：利用影响因素数据集建立决策树，将历史数据划分入叶节点，将叶节点的历史数据按时间先后顺序排列，整理为时间序列数据，得到将时间序列预测模型嵌入到决策树的叶节点中的混合决策树模型。混合决策树模型是一种简单高效的机器学习算法，其利用历史客流对应的影响因素为依据建立决策树，每个影响因素都可以在决策树中对应一个决策路径，每个决策路径对应一个叶节点，叶节点中历史数据的回归值即为影响因素的预测值。决策树方法快速高效，善于处理异构的影响因素属性。另一方面，基于时间序列的预测模型善于挖掘历史数据中的复杂规律，对数值型的时间序列预测有较精确的预测结果，但是时间序列预测算法容易被外在影响因素干扰，存在异常的数据波动，只能准确预测外在影响条件稳定的情况下的时间序列。

混合决策树模型结合了决策树模型和基于时间序列预测模型的优势。此模型首先利用影响因素IF信息建立决策树，将历史数据划分入叶节点，每个叶节点中的数据有着相似的影响因素。每个数据子集中的数据分布较集中，保证了接下来的预测不会出现较大的误差。数据子集中的数据可以按时间先后顺序排列，整理为时间序列数据，由于每个叶节点中的影响因素相近，所以每个叶节点中的时间序列数据具有较高的稳定性和规律性。混合决策树模型将时间序列预测模型嵌入到决策树的叶节点中，利用叶节点中的时间序列数据进行进一步精确预测。由此建立的混合决策树模型可以较好的耦合基于影响因素的决策树模型和基于时间序列的预测模型，模型预测精度较高。具体如图3混合决策树预测模型框架示意图所示。

优选地，所述混合决策树模型包括上层决策树子模型和下层叶节点时间序列预测子模型，其中，分类回归树classification and regression tree，CART)算法是决策树回归算法的一种，是一种通过递归划分特征空间，在每个划分空间中建立回归模型进行预测的方法。模型的划分过程是建立决策树的过程，每个进行建立回归模型(上层决策树子模型)的子空间为决策树中的一个叶节点。上层决策树子模型的基本思路为：

(一)选择最优的划分特征与对应的特征值，对数据集进行二分。对于可量化的影响因素，模型根据VR下降最大原则寻找最优的划分值对数据集进行二分。在乘客量的影响因素中，对于难以量化的影响因素包括一些符号化的影响因素，如乘客类型、节假日工作日、学时属性和/或极端天气状况，在对离散型的特征进行二分时，将某一特征值的数据划分入左子集，将其他特征值的数据划入右子集，最优划分的特征值的选择根据VR最大的选择原则。

在决策树建立的过程中对特征空间进行分割，每次分割的依据为最优的分割特征j和最优特征值v，使分割后的数据集VR最大。最优目标函数如公式(3)所示，公式(4)和公式(5)表示了不同类型特征向量的分割方法。公式(4)和公式(5)为优化模型的约束条件。

(j^*，v^*)＝argmax(VR(D，D_left，D_right)) (3)

j∈J (6)

v∈T_j (7)

其中arg表示满足最优目标函数时变量j^*和v^*的取值，j^*，v^*分别指最优的分割特征和最优的分割特征值，J表示分割特征的集合，T_j表示分割特征j的属性值集合。

(二)对划分获取的数据子集进行递归划分，直到符合终止条件。

(三)对于测试数据集，根据测试数据的特征向量寻找CART模型中匹配的路径，寻找对应的叶节点，利用此叶节点中的回归模型对此测试数据进行预测。

为防止回归模型出现过拟合现象或防止叶节点包含的数据量过少致使下层模型训练不足，需要制定决策树停止生长的条件，一般有两个指标：

1.最大树枝深度

CART模型为一树状结构，树深度即为特征空间的最大分割次数。如果特征空间分割次数过多，会出现叶节点包含训练数据过少，下层回归模型训练数据不足的情况。特征空间数量过多容易出现过拟合现象，降低预测精度。应用CART模型过程中，可以根据实际问题设定特征空间的最大分割次数。

2.叶节点包含的最小数据量

CART模型首先对特征空间进行分割，当某最小分割空间的回归误差小于一定阈值的情况下停止分割并对此分割空间进行进一步回归预测，如果某分割空间(叶节点)中的历史数据点数量过少，则回归预测的可靠性较差，可以设定每个叶节点包含的最小训练数据量，如再次分割后的任一节点包含的数据量小于最小训练数据量阈值，则停止分割并生成叶节点。

最大树深度和叶节点包含的最小数据量，这两个参数都可以作为混合决策树模型的上层决策树生长的终止条件，但是设定最大树深度很可能使得叶节点之间的数据量不均衡，部分叶节点包含的数据量过少，使得相应叶节点的模型训练不足，部分叶节点包含数据量过大，使得训练数据分布分散，不能使得相应叶节点的回归模型有较高的训练精度。而叶节点包含的最小数据量直接决定了叶节点的数据量，方便控制下层模型的训练数据量，本发明采用叶节点包含的最小数据量这个参数对决策树生长进行控制。

表1混合决策树上层决策树子模型算法伪代码

下层叶节点时间序列预测子模型的构建方法为：将叶节点数据按时间先后顺序进行排列，形成新的时间序列，其中取预测目标日期的前n个日期的历史数据个数作为输入层节点个数，取目标日期的数据个数为输出层节点个数。具体示意如图4输入层与输出层数据设定示意图所示。

上面中利用影响因素训练数据集建立了混合决策树的上层决策树子模型，每个叶节点中包含训练数据集为训练数据集的子集。下面需要将训练数据集和测试数据集，将IF信息和决策树的决策路径相匹配，将数据集划分到对应的叶节点，在每个叶节点组成时间序列数据，利用时间序列模型进行预测。由于天气，假期属性等影响因素参与了决策树的构建过程，叶节点的时间序列数据不一定在日期上连续，所以本发明将叶节点数据按时间先后顺序进行排列，形成新的时间序列。由于IF属性进行决策树回归之后，时间序列数据中，每天的数据个数相同。将叶节点数据按时间先后顺序进行排列，形成新的时间序列，其中取预测目标日期的前n个日期的历史数据个数作为输入层节点个数，取目标日期的数据个数为输出层节点个数。具体示意如图4输入层与输出层数据设定示意图所示。

循环神经网络模型(RNN)是适用于时间序列预测的神经网络模型，时间递归神经网络可以描述动态时间行为，因为和前馈神经网络接受较特定结构的输入不同，RNN将状态在自身网络中循环传递，因此可以接受更广泛的时间序列结构输入，当涉及到连续的、与上下文相关的任务时，它比其他人造神经网络具有更大的优势。

由于每个叶节点数据集的数据分布不同，适用的RNN时间序列预测算法的参数也不尽相同。由于叶节点训练数据集的规模较小，单次训练速度较快，同时为保证算法效率，叶节点机器学习模型的参数采用网格法进行优化。相关参数取值空间如表2。

表2下层基于RNN的时间序列预测模型取值空间

优选地，步骤S3包括：分别根据每个乘客的身份信息、周均刷卡次数和周刷卡次数标准差对乘客进行分类，生成案例数据集；将案例数据集中每个类别的乘客根据设置的统计时间间隔进行刷卡量统计，得到分类分时段的统计数据集。

优选地，分别根据每个乘客的身份信息、周均刷卡次数和周刷卡次数标准差对乘客进行分类，生成案例数据集包括：根据周均刷卡次数利用kmeans算法将乘客分为高频乘客和低频乘客，根据周刷卡次数标准差利用kmeans算法将乘客分为高连续乘客和低连续乘客，根据IC卡持有人的身份信息将乘客分为普通卡、老人卡、学生卡和其它卡。

优选地，根据所述乘客刷卡数据获取乘客的身份信息包括：根据所述乘客刷卡数据提取乘客的标识ID，根据乘客的标识ID在乘客信息数据库中提取对应的身份信息。

优选地，根据每个时段最终的乘客总量预测数据计算乘客总量的平均绝对误差(Mean Absolute Error，MAE)的公式为：

根据每个时段最终的乘客总量预测数据计算乘客总量的平均绝对百分比误差(Mean Absolute Percentage Error，MAPE)的公式为：

其中

表示第i个预测值，y_i表示第i个预测值对应的真实值，n为预测值总量。

与现有技术相比，本发明具有如下有益效果：

本发明首先利用IC卡持有者信息及其出行模式对乘客进行分类，对客流量进行分类统计。对分类统计数据的时间序列模式、乘客量与影响因素的相互关系进行分析，论证不同类型客流的出行模式及其与各影响因素之间响应模式的差别，说明乘客分类对提高预测精度的必要性。在此基础上，提出了一种基于混合决策树模型的公交线路客流量的预测方法，并对模型进行改进，综合了基于机器学习的预测方法和基于时间序列模型的预测方法。此模型的上层决策树子模型根据乘客类型和影响因素对数据集进行划分，使得每个数据子集组成的时间序列模型的影响因素相似，时间序列模型更加稳定且规律；对叶节点中的时间序列数据利用循环神经网络进行进一步的预测。该方法不仅能得到精度较高的客流总量预测，同时能得到客流结构预测。且该基于混合决策树的短期公交客流预测方法还具有以下优点：(1)训练过程直观易解释，在构建决策树的过程中自然将预测问题划分为多影响因素约束下的客流时间序列预测问题。(2)可以有效耦合基于影响因素的预测模型和基于时间序列的预测模型进行有效的训练，综合两类预测模型的优势，提高模型预测精确度。(3)在上层决策树构建过程可以兼容离散型和连续型的影响因素信息。

附图说明

图1为本发明的基于混合决策树的短期公交客流预测方法的详细示意性流程图；

图2为本发明的基于混合决策树的短期公交客流预测方法的简略示意性流程图；

图3为本发明的混合决策树预测模型框架示意图。

图4为本发明的在n＝2时下层叶节点时间序列预测子模型的输入层与输出层数据设定示意图。

图5(a)为实施例的281路公交线路的空间分布图。

图5(b)为实施例的不同类型乘客刷卡次数占比见图。

图6为实施例的乘客分类分时段统计数据的处理流程图。

图7为实施例的乘客分类分时段统计数据-训练数据&测试数据的处理流程图。

图8为实施例的HDT算法数据处理流程图。

图9为实施例的分类预测的结果展示图。其中上图显示了方案8，2014年12月15日的实际客流量及客流组成，下图显示了决策树模型预测的预测客流量及客流组成。

图10为乘客类别的实际值预测值分布示意图(方案8)，图10展示了方案8，16类乘客类型的实际客流量和预测客流量的对比图，其中每副子图的每个点表示一个预测结果，对应的横轴值为预测客流量，对应的纵轴值为实际客流量；不同叶节点的数据利用不同的颜色予以区分；红色直线为理想预测线，即在此线上的点预测客流量与实际客流量相等；每副子图的标题表示乘客类别的描述。观察可见每个类别的预测值均稳定的分布在理想预测线周围，每个类别的误差均较小，且同一叶节点的数据分布较集中。

图11(a)为本发明HDT模型的预测图。

图11(b)为以IF为预测依据的决策树模型的预测结果图。

图11(c)为以时间序列数据为基础的神经网络模型的预测结果图。

图12为各预测方法预测误差的累积概率分布图。

具体实施方式

实施例

参见图1、2，一种基于混合决策树的短期公交客流预测方法，包括：

S1，获取一段时间内搭乘线路的乘客刷卡数据；

S4，将所述分类分时段的统计数据集和影响因素数据集按时间进行连接，获取训练数据集和测试数据集；

步骤S4和S5之间包括：

利用影响因素数据集建立决策树，将历史数据划分入叶节点，将叶节点的历史数据按时间先后顺序排列，整理为时间序列数据，得到将时间序列预测模型嵌入到决策树的叶节点中的混合决策树模型。其中，下层叶节点时间序列预测子模型的构建方法为：将叶节点数据按时间先后顺序进行排列，形成新的时间序列，其中取预测目标日期的前n个日期的历史数据个数作为输入层节点个数，取目标日期的数据个数为输出层节点个数。

本实施例以广州市281路刷卡数据为例，利用2014年8月1日至2014年11月30日的数据为训练数据，2014年12月1日至2014年12月31日的数据为测试数据，对本发明所提算法进行验证。281路横跨广州佛山两市，终点站为广卫路总站和保利紫山国际花园总站，沿途经过居住区、商业区、学校、医院、重要交通枢纽等众多城市功能区，乘客组成结构复杂。281路每日刷卡率平均95％以上，日均刷卡量约40455次。IC刷卡客流数据能够较完整有效的反应客流规律。本发明所使用的原始客流数据为广州281路公交线路刷卡数据集。另外，日期属性数据集，法定节假日，校历，历史天气等可通过相关部门网站和实地调研获取。281路公交线路的空间分布图见图5(a)，不同类型乘客刷卡次数占比见图5(b)，其中乘客编码顺序为(Class_type，Class_means，Class_std)。

本发明对乘客分类采用了乘客身份类型，乘客周均刷卡次数和乘客周刷卡次数标准差三个维度，表3展示了在不同乘客分类方法。方案1为未进行乘客分类的预测方案；方案2为单独利用乘车频次指标进行乘客分类的预测方案；方案3为单独利用乘车连续型指标进行乘客分类的预测方案；方案4为单独利用IC卡类型进行乘客分类的预测方案；方案5利用乘车频次和连续型两个指标的笛卡尔积进行乘客分类的预测方案；方案6为利用乘车频次和IC卡类型的笛卡尔积进行乘客分类的预测方案；方案7为利用连续性和IC卡类型的笛卡尔积进行乘客分类的预测方案；方案8为利用乘车频次、连续性和IC卡类型三个指标的笛卡尔积进行乘客分类的预测方案；方案9将出行模式比较特殊的学生卡和老人卡各单独分为一类，将其余的卡类型利用较有效的连续性指标的笛卡尔乘积进行分类；方案10将乘客进行随机分类，即在乘客分类阶段随机的将乘客分为6类，然后统计每个类别的乘客量，以此数据集作为为实验对照组。

表3不同乘客分类方案

其中，对于数据处理流程，由于本实施例数据处理过程较为繁琐，本实施例详细描述了原始数据的提取方式以及每个步骤的数据处理过程，并利用UML图展示了数据处理过程，具体如图6乘客分类分时段统计数据的处理流程。

对于乘客分类数据处理流程，乘客分类阶段的原始基础数据为乘客信息数据和乘客刷卡历史记录数据。乘客信息数据记录了卡的唯一标识ID和乘客身份信息，分为普通卡，老人卡，学生卡和少量其他卡。乘客刷卡历史记录数据记录了乘客自办理IC卡以来乘车的信息，包括卡的唯一标识ID，上车时间，搭乘线路，搭乘车辆ID，扣费等信息。

1)提取搭乘线路为281路，刷卡时间为2014年8月1日至2014年12月31日每日06:00:00至24:00:00的乘客刷卡数据。

2)在第一步取得的数据集中提取所有乘客唯一标识ID，并在乘客信息数据库中提取每个乘客的身份信息。

3)在第一步取得的数据集中，统计每个乘客的周均刷卡次数和周刷卡次数标准差，获取数据集乘客出行模式数据集。

4)以周刷卡次数为基础，利用kmeans算法分为高频/低频两类乘客；以周刷卡次数标准差为基础，利用kmeans算法分为高连续/低连续两类乘客；根据IC卡持有人信息将乘客分为普通卡/老人卡/学生卡/其他卡几个类别。确定几个分类标签后，依据表3的分类方案生成十个案例数据集。

5)本实施例将统计时间间隔定为一小时，即从运营时间起始时间开始，以运营时间内每个整点为分割点将运营时段划分，对每个时段每个类别的乘客进行刷卡量统计。将第四步所获得的十个案例数据集进行分时段客流统计，获取乘客十个分类分时段统计数据集。

对于HDT模型训练与测试，通过上面的数据处理，获取了乘客分类分时段的统计数据。将其他多源数据集通过时间信息与客流量数据进行连接，获取模型的训练和测试数据集。相关流程如图7乘客分类分时段统计数据-训练数据&测试数据的处理流程、图8HDT算法数据处理流程所示。

1)将乘客量分类统计数据集和影响因素数据集(IF)按时间进行连接，获取训练和测试数据集。

2)利用训练数据集用以训练混合决策树模型的上层模型。将训练数据集和测试数据集输入训练所得的决策树模型，根据决策树路径数据集被划分入相应的叶节点数据集。获取每个叶节点的训练和测试数据集的时间序列数据。

3)对每个叶节点的数据集按照时间排序，利用RNN模型进行时间序列预测，获取每个时间段的每个乘客类别的预测量。

4)对每个时段每个类别的乘客预测量进行汇总，获取每个时段最终的乘客总量预测数据，用以计算乘客总量的MAE与MAPE。

下面对模型分析：

本实施例算法相比于其他算法能提供预测时段内的客流组成信息。图9的上图显示了方案8，2014年12月15日的实际客流量及客流组成，下图显示了决策树模型预测的预测客流量及客流组成。类别编号第一位表示IC卡类型，1普通卡，2老人卡，3学生卡，4其他卡，第二位表示0低频次/1高频次，第三位表示0低连续性/1高连续性。相比于传统的客流预测，本发明所提算法可以有效预测时段客流量及时段客流组成，在提高客流预测精度的同时，可以为差异化的服务提供参考。

图10展示了方案8，16类乘客类型的实际客流量和预测客流量的对比图，其中每副子图的每个点表示一个预测结果，对应的横轴值为预测客流量，对应的纵轴值为实际客流量；不同叶节点的数据利用不同的颜色予以区分；红色直线为理想预测线，即在此线上的点预测客流量与实际客流量相等；每副子图的标题表示乘客类别的描述。观察可见每个类别的预测值均稳定的分布在理想预测线周围，每个类别的误差均较小，且同一叶节点的数据分布较集中。

不同分类方案结果的对比：

每个分类方案对应的预测结果如图11(a)、图11(b)和11(c)所示，其中图11(a)为本发明HDT模型的预测结果，图11(b)为以IF为预测依据的决策树模型的预测结果，图11(c)为以时间序列数据为基础的神经网络模型的预测结果。

所有方案中，方案2 3 4的分类依据为单独的某一个乘客分类特征，方案5 6 7的分类依据为某两个分类特征的笛卡尔积，方案8的分类依据为三个分类特征的笛卡尔积，方案9为根据实际经验的自定义分类方案，方案10为随机分类的对照实验。

观察图11(a)可知，其中方案2-9相比于集计预测方案1，预测误差均有较大下降，方案10的预测误差有所升高。观察可知，方案7和方案9的误差均较低，其中方案9是在方案7的基础上通过专家经验改良而来，因而方案9的预测误差最低。

通过对方案2 3 4的对比发现方案2的预测误差最小，方案4的预测误差最大，方案3的预测误差介于两者之间，可见当分类依据的特征数量为1时，频率作为单独的分类依据对预测模型的改进是最大的，连续性的改进次之，IC卡类型相比于其他两个分类特征对预测模型的改进最小。

方案5 6 7的预测误差相比于方案2 3 4的预测误差均有不同程度的下降，而方案5 6 7的分类依据数量为2，说明更加精细的乘客分类可能更加有助于预测误差的降低。但是方案8的预测误差有所回升，说明乘客分类数量并不是越多越好，过多的乘客分类数量可能会增加预测误差。对照组将乘客随机分类，预测误差明显高于不分类时的预测误差，所以，无效的乘客分类反而会增加预测误差。实验结果证明了，有效的乘客分类可以有效的降低预测误差，但无效或者过多的乘客分类反而会使预测误差升高。

观察图11(b)可知，有效乘客分类方案对于以影响因素为预测依据的决策树模型的预测结果也有较好的改善，这是因为不同的乘客类型对于不同的影响因素的响应模式不同，将乘客分类信息作为一个维度的特征加入决策树模型的训练过程可以有效的将不同类型的乘客划分入不同的叶节点，从而有效的识别不同类型的乘客对不同影响因素的响应模式，从而提高模型预测精度。

观察图11(c)可知，对于基于时间序列的预测模型，乘客分类对于模型的改良比较有限，仅有部分方案的预测误差有所下降，如方案3，方案4，方案6，方案8，方案9，其他分类方案的预测误差均有不同程度的上升，这是因为乘客分类一方面使得不同乘客类型的客流曲线更加平稳，另一方面影响因素对客流曲线的影响依然存在，客流曲线受外界因素影响的情况没有改变。基于时间序列的客流预测模型受影响因素的影响较大，此类模型的局限性并没有因为乘客分类而发生改变。

客流预测模型对比：

为验证混合决策树方法针对分类客流预测问题的适用性，本发明采用其他机器学习预测方法，包括基于时间序列的方法和基于IF的方法，进行了预测并对结果进行了对比。表4显示了采用不同的预测方法，2014年12月预测客流量的MAE和MAPE。本发明算法的创新点主要在于两点，1，对乘客进行分类预测；2，利用HDT模型综合运用基于IF的决策树模型和基于TS的RNN时间序列预测模型。不同类别的乘客对于不同IF的响应模式不同，不同类别的乘客在不同IF影响下的客流时间序列的波动规律不同。针对本发明算例，基于时间序列的算法中ARIMA算法结果最优，MAE和MAPE分别为289和0.1853，基于IF的算法中RF算法结果最优，MAE和MAPE分别为178和0.1113，HDT算法相比于此二种算法的MAE分别提升144和33，MAPE分别提升0.1084和0.0344。因此，可以发现混合决策树方法相比于其他的预测算法具有更优的精度。为了更加深入分析各种方法预测结果质量，本发明计算了预测方法预测误差的累积概率分布图(图12)，横轴表示误差值，纵轴表示低于对应横轴误差值的预测结果占预测结果总量的比值。可见，本发明HDT的方法相比于其他方法，预测结果更加集中于低误差范围，且最差结果的误差低于其他方法。

表4不同预测方法精度

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于混合决策树的短期公交客流预测方法，其特征在于，包括：

S1，获取一段时间内搭乘线路的乘客刷卡数据；

S7，根据每个时段最终的乘客总量预测数据计算乘客总量的平均绝对误差与平均绝对百分比误差，以对公交客流进行预测；

所述混合决策树模型包括上层决策树子模型和下层叶节点时间序列预测子模型，其中，上层决策树子模型的构造方法为：

选择最优的划分特征与对应的特征值，对数据集进行二分；对于可量化的影响因素，模型根据VR下降最大原则寻找最优的划分值对数据集进行二分；对于难以量化的影响因素包括乘客类型、节假日工作日、学时属性和/或极端天气状况，在对离散型的特征进行二分时，将某一特征值的数据划分入左子集，将其他特征值的数据划入右子集，最优划分的特征值的选择根据VR最大的选择原则；

随后对划分获取的数据子集进行递归划分，直到符合终止条件；

对于测试数据集，则根据测试数据的特征向量寻找CART模型中匹配的路径，寻找对应的叶节点，利用此叶节点中的回归模型对此测试数据进行预测；

其中，下层叶节点时间序列预测子模型的构建方法为：

将叶节点数据按时间先后顺序进行排列，形成新的时间序列，其中取预测目标日期的前n个日期的历史数据个数作为输入层节点个数，取目标日期的数据个数为输出层节点个数；

VR为方差缩减。

2.根据权利要求1所述的基于混合决策树的短期公交客流预测方法，其特征在于，步骤S4和S5之间包括：

利用影响因素数据集建立决策树，将历史数据划分入叶节点，将叶节点的历史数据按时间先后顺序排列，整理为时间序列数据，得到将时间序列预测模型嵌入到决策树的叶节点中的混合决策树模型。

3.根据权利要求1所述的基于混合决策树的短期公交客流预测方法，其特征在于，步骤S3包括：

分别根据每个乘客的身份信息、周均刷卡次数和周刷卡次数标准差对乘客进行分类，生成案例数据集；

将案例数据集中每个类别的乘客根据设置的统计时间间隔进行刷卡量统计，得到分类分时段的统计数据集。

4.根据权利要求1所述的基于混合决策树的短期公交客流预测方法，其特征在于，根据所述乘客刷卡数据获取乘客的身份信息包括：

根据所述乘客刷卡数据提取乘客的标识ID，根据乘客的标识ID在乘客信息数据库中提取对应的身份信息。

5.根据权利要求1所述的基于混合决策树的短期公交客流预测方法，其特征在于，根据每个时段最终的乘客总量预测数据计算乘客总量的平均绝对误差的公式为：

根据每个时段最终的乘客总量预测数据计算乘客总量的平均绝对百分比误差的公式为：

其中