CN112434843A

CN112434843A - 一种新建轨道开通前沿线公交乘客转移预测方法及系统

Info

Publication number: CN112434843A
Application number: CN202011244866.9A
Authority: CN
Inventors: 王成; 张哲�; 高悦尔
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-03-02

Abstract

本发明涉及一种新建轨道开通前沿线公交乘客转移预测方法及系统，获取每个公交乘客在新建轨道开通前后影响公交乘客转移的历史影响因素数据，判断每个公交乘客在新建轨道开通前后的出行交通工具是否发生了转移，获得每个公交乘客的历史转移数据，以历史影响因素数据作为自变量，以历史转移数据作为因变量建立样本数据集，利用样本数据集对基于分类决策树的公交乘客转移预测模型进行训练，将待预测的沿线公交乘客在新建轨道开通前的影响因素数据输入训练后的公交乘客转移预测模型，获得待预测的沿线公交乘客在新建轨道开通后的转移数据。本发明实现了在新建轨道开通前，对沿线公交乘客的转移做出准确预测。

Description

一种新建轨道开通前沿线公交乘客转移预测方法及系统

技术领域

本发明涉及交通行为预测技术领域，特别是涉及一种新建轨道开通前沿线公交乘客转移预测方法及系统。

背景技术

随着越来越多的轨道交通建设并投入运营，其与现存的常规公交的竞争与合作关系成为一个重要的研究问题。新建轨道交通运营后，由于出行效用的降低，沿线的常规公交的乘客可能会被吸引转移到轨道交通上来，对于常规公交乘客转移行为的准确预测可为常规公交的线路调整和发车间隔优化提供参考并为地铁线路的规划设计方案的制定提供帮助。

目前，对于轨道开通后，常规公交客流转移预测的研究较少，大部分的研究停留在轨道开通后，乘客单次出行的出行方式选择问题上，无法为拟建轨道交通的规划设计提供参考。与此同时，相关研究大多数都是基于问卷调查数据，数据样本的数量和准确性难以保证。

发明内容

本发明的目的是提供一种新建轨道开通前沿线公交乘客转移预测方法及系统，以实现在新建轨道交通开通前，准确预测沿线公交乘客的转移。

为实现上述目的，本发明提供了如下方案：

一种新建轨道开通前沿线公交乘客转移预测方法，所述转移预测方法包括：

获取每个公交乘客在新建轨道开通前后影响公交乘客转移的历史影响因素数据；

判断每个所述公交乘客在新建轨道开通前后的出行交通工具是否发生了转移，获得每个公交乘客的历史转移数据；所述历史转移数据包括转移和不转移；

以所述历史影响因素数据作为自变量，以所述历史转移数据作为因变量，建立样本数据集；

建立基于分类决策树的公交乘客转移预测模型；

利用所述样本数据集对所述基于分类决策树的公交乘客转移预测模型进行训练，获得训练后的公交乘客转移预测模型；

将待预测的沿线公交乘客在新建轨道开通前的影响因素数据输入所述训练后的公交乘客转移预测模型，获得待预测的沿线公交乘客在新建轨道开通后的转移数据。

可选的，所述获取每个公交乘客在新建轨道开通前后影响公交乘客转移的历史影响因素数据，具体包括：

获取每个公交乘客的乘车IC卡在新建轨道开通前后的历史出行数据；

根据所述历史出行数据，获取每个公交乘客在新建轨道开通前后影响公交乘客转移的历史影响因素数据；所述历史影响因素数据包括影响因素以及影响因素的数值，所述影响因素包括卡类型、月刷卡次数、平均乘车时间、平均乘车距离、是否经常高峰出行、出行空间距离、出行时段是否为高峰、转移后乘坐地铁站数、转移后增加费用、转移后节约的时间、转移后总的步行距离和转移后需要的换乘次数。

可选的，所述利用所述样本数据集对所述基于分类决策树的公交乘客转移预测模型进行训练，获得训练后的公交乘客转移预测模型，具体包括：

获取分类决策树中待确定节点的样本数据集；

计算所述样本数据集中每个影响因素为每个取值时的基尼指数；

选取基尼指数最小的影响因素作为所述待确定节点，并将所述基尼指数最小的影响因素的取值作为所述待确定节点的切分点；

判断此时的分类决策树是否满足停止建树条件，获得判断结果；

若所述判断结果表示是，则输出所述分类决策树；

若所述判断结果表示否，则根据所述待确定节点的切分点确定下一个待确定节点，返回步骤“获取分类决策树中待确定节点的样本数据集”。

可选的，所述计算所述样本数据集中每个影响因素为每个取值时的基尼指数，具体包括：

利用公式

计算在影响因素A的取值为a条件下，所述样本数据集的基尼指数；

其中，Gini()为基尼指数，D为样本数据集，Gini(D,A＝a)为在影响因素A的取值为a条件下样本数据集D的基尼指数，D1、D2分别为样本数据集被取值a分成的两个子集，Gini(D1)为子集D1的基尼指数，

为子集D1中第k₁个影响因素所占的比例，Gini(D2)为子集D2的基尼指数，

为子集D2中第k₂个影响因素所占的比例，|D1|为子集D1的样本个数，|D2|为子集D2的样本个数，|D|为样本数据集D的样本个数。

可选的，所述停止建树条件为所有分裂节点的样本都属于同一类、所有分裂节点的样本数小于预设最小数量阈值、分类决策树的高度达到了预设最大高度阈值或者所有分裂节点的数量达到了预设最大数量阈值。

一种新建轨道开通前沿线公交乘客转移预测系统，所述转移预测系统包括：

历史影响因素数据获取模块，用于获取每个公交乘客在新建轨道开通前后影响公交乘客转移的历史影响因素数据；

历史转移数据获得模块，用于判断每个所述公交乘客在新建轨道开通前后的出行交通工具是否发生了转移，获得每个公交乘客的历史转移数据；所述历史转移数据包括转移和不转移；

样本数据集建立模块，用于以所述历史影响因素数据作为自变量，以所述历史转移数据作为因变量，建立样本数据集；

公交乘客转移预测模型建立模块，用于建立基于分类决策树的公交乘客转移预测模型；

训练后的公交乘客转移预测模型建立模块，用于利用所述样本数据集对所述基于分类决策树的公交乘客转移预测模型进行训练，获得训练后的公交乘客转移预测模型；

转移数据获取模块，用于将待预测的沿线公交乘客在新建轨道开通前的影响因素数据输入所述训练后的公交乘客转移预测模型，获得待预测的沿线公交乘客在新建轨道开通后的转移数据。

可选的，所述历史影响因素数据获取模块，具体包括：

历史出行数据获取子模块，用于获取每个公交乘客的乘车IC卡在新建轨道开通前后的历史出行数据；

历史影响因素数据获取子模块，用于根据所述历史出行数据，获取每个公交乘客在新建轨道开通前后影响公交乘客转移的历史影响因素数据；所述历史影响因素数据包括影响因素以及影响因素的数值，所述影响因素包括卡类型、月刷卡次数、平均乘车时间、平均乘车距离、是否经常高峰出行、出行空间距离、出行时段是否为高峰、转移后乘坐地铁站数、转移后增加费用、转移后节约的时间、转移后总的步行距离和转移后需要的换乘次数。

可选的，所述训练后的公交乘客转移预测模型建立模块，具体包括：

样本数据集获取子模块，用于获取分类决策树中待确定节点的样本数据集；

基尼指数计算子模块，用于计算所述样本数据集中每个影响因素为每个取值时的基尼指数；

切分点确定子模块，用于选取基尼指数最小的影响因素作为所述待确定节点，并将所述基尼指数最小的影响因素的取值作为所述待确定节点的切分点；

判断结果获得子模块，用于判断此时的分类决策树是否满足停止建树条件，获得判断结果；

分类决策树输出子模块，用于若所述判断结果表示是，则输出所述分类决策树；

下一个待确定节点确定子模块，用于若所述判断结果表示否，则根据所述待确定节点的切分点确定下一个待确定节点，返回步骤“获取分类决策树中待确定节点的样本数据集”。

可选的，所述基尼指数计算子模块，具体包括：

样本数据集的基尼指数计算单元，用于利用公式

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种新建轨道开通前沿线公交乘客转移预测方法及系统，获取每个公交乘客在新建轨道开通前后影响公交乘客转移的历史影响因素数据，判断每个公交乘客在新建轨道开通前后的出行交通工具是否发生了转移，获得每个公交乘客的历史转移数据，以历史影响因素数据作为自变量，以历史转移数据作为因变量，建立样本数据集，建立基于分类决策树的公交乘客转移预测模型，利用样本数据集对基于分类决策树的公交乘客转移预测模型进行训练，获得训练后的公交乘客转移预测模型，将待预测的沿线公交乘客在新建轨道开通前的影响因素数据输入训练后的公交乘客转移预测模型，获得待预测的沿线公交乘客在新建轨道开通后的转移数据。本发明实现了在新建轨道开通前，对沿线公交乘客的转移做出准确预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种新建轨道开通前沿线公交乘客转移预测方法的流程图；

图2为本发明提供的一种新建轨道开通前沿线公交乘客转移预测方法的原理图；

图3为本发明提供的一种新建轨道开通前沿线公交乘客转移预测方法的简要原理图；

图4为本发明提供的基于分类决策树的公交乘客转移预测模型的训练原理图；

图5为本发明实施例提供的轨道交通与沿线公交线路的共线关系图；

图6为本发明实施例提供的不同模型的准确率图；

图7为本发明实施例提供的不同模型的精确率图；

图8为本发明实施例提供的不同模型的召回率图；

图9为本发明实施例提供的不同模型的F1score图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

一种新建轨道开通前沿线公交乘客转移预测方法，如图1-3所示，转移预测方法包括以下步骤：

S101，获取每个公交乘客在新建轨道开通前后影响公交乘客转移的历史影响因素数据。

S102，判断每个所述公交乘客在新建轨道开通前后的出行交通工具是否发生了转移，获得每个公交乘客的历史转移数据；所述历史转移数据包括转移和不转移。

S103，以所述历史影响因素数据作为自变量，以所述历史转移数据作为因变量，建立样本数据集。

S104，建立基于分类决策树的公交乘客转移预测模型。

S105，利用所述样本数据集对所述基于分类决策树的公交乘客转移预测模型进行训练，获得训练后的公交乘客转移预测模型。

S106，将待预测的沿线公交乘客在新建轨道开通前的影响因素数据输入所述训练后的公交乘客转移预测模型，获得待预测的沿线公交乘客在新建轨道开通后的转移数据。

S101步骤，具体包括：

分类决策树的构造过程为：

获取分类决策树中待确定节点的样本数据集；

若所述判断结果表示是，则输出所述分类决策树；

图4为本发明提供的基于分类决策树的公交乘客转移预测模型的训练原理图。如图4所示，待确定节点包括根节点和分裂节点，具体构造过程为：

计算样本数据集中每个影响因素的基尼指数；

选取基尼指数最小的影响因素作为分类决策树的根节点，并将基尼指数最小的影响因素的取值作为根节点的切分点；

获取按照根节点的切分点划分的每个分支下的分支样本数据集；

计算分支样本数据集的影响因素为每个取值时的分支样本数据集的基尼指数；

选取基尼指数最小的影响因素作为每个分支的分裂节点，并将基尼指数最小的影响因素的取值作为分裂节点的切分点；

若判断结果表示是，则输出分类决策树；

若判断结果表示否，则将分裂节点作为根节点，返回步骤“获取按照根节点的切分点划分的每个分支下的分支样本数据集”。

S105步骤中，计算所述样本数据集中每个影响因素为每个取值时的基尼指数，具体包括：利用公式

计算在影响因素A的取值为a条件下，所述样本数据集的基尼指数。

S105步骤中，停止建树条件为所有分裂节点的样本都属于同一类、所有分裂节点的样本数小于预设最小数量阈值、分类决策树的高度达到了预设最大高度阈值或者所有分裂节点的数量达到了预设最大数量阈值。

S105步骤中，对分类决策树设置不同超参数分析得到模型的预测准确率、精确率、召回率、F1score，从而得到最合适的超参数。各指标公式为：

准确率：

精确率：

召回率：

F1score：

其中，TP为True Positive，表示预测为正，实际也为正的样本；FP为FalsePositive，表示预测为正，实际为负的样本；FN为FalseNegative，表示预测与负、实际为正的样本；TN为TrueNegative，表示预测为负、实际也为负的样本。

选择最合适的超参数，能够对模型进一步优化，提升最终的预测效果。

本发明提供的新建轨道开通后沿线公交乘客转移预测方法通过以下实验验证方法的预测效果：

1、验证方法

本发明的实验通过训练集与测试集比较计算多个评价指标，来验证基于CART决策树的新建轨道开通后沿线公交乘客转移预测方法的效果。

2、评价指标

选择四种分类问题常用的的评价指标，包括准确率、精确率、召回率以及F1score。

本发明提供了一种新建轨道开通后沿线公交乘客转移预测方法的具体实施例。

涉及的部分术语，解释如下：

(1)OD的定义：出行的起点和终点。

(2)客流转移的定义：对于轨道开通前乘客在某一时段的一次公交出行OD，若在轨道开通后，乘客在相同时段借助轨道完成过该OD(包括单纯轨道完成，轨道+公交完成，公交加轨道完成，或者公交+轨道+公交完成)，那么就认为该乘客在该时段对这一OD发生过向轨道的转移。如果轨道开通后，在相同时段，依然只乘坐原来公交线路完成该OD，则认为该乘客在该时段对这一OD没有发生过转移。

本发明的研究对象为：轨道开通前仅通过乘坐一次公交就完成整个出行的乘客公交出行OD。由于轨道沿线的公交线路与轨道交通存在共线线段(如图1所示)，所以新建轨道开通运营后，沿线常规公交乘客可能会转移到轨道交通，通过乘坐轨道交通完成出行活动。如图5所示，对于原来公交出行OD在AA段和CC段的乘客，理论来说不会发生转移。因此我们的研究目标为原来公交出行OD在BB、AB、BC、AC段的乘客。对于BB段乘客，将会通过乘坐一段轨道完成转移(Metro)；对于AB段的乘客，将会通过先乘坐一段公交，再换乘到轨道完成转移(Bus-Metro)；对于BC段的乘客，将会通过先乘坐一段轨道，再换乘到公交完成转移(Metro-Bus)；对于AC段的乘客，将会通过先乘坐一段公交，再换乘到轨道，然后换乘到公交完成转移(Bus-Metro-Bus)。

1、数据集

本发明使用厦门市轨道1号线开通前2017年11月的乘客IC卡出行数据和轨道1号线开通后乘客IC卡出行数据构建了乘客转移数据集，如表1所示。通过构建的公交乘客转移数据集，提取12个影响公交乘客转移的影响因素作为输入，乘客是否转移作为输出，其中，每个乘客的12个影响因素取值和是否转移对应一条样本记录，建立包含5817条样本记录的实验数据集，如表2所示。各输入影响因素的取值说明，如表3所示。

表1公交乘客转移数据集

表2实验数据集

表3各输入影响因素的取值说明

2、实验设计

设计了五组实验，比较了基于CART决策树的新建轨道开通后沿线公交乘客转移预测方法和其他四种对比算法(Logit、

Bayesian、Support Vector Machine、Artificial Neural Network)在同一数据集上的实验效果差异。

评价指标为准确率、精确率、召回率以及F1score。

实验结果如表4和图6-9所示。

表4各组实验的预测结果

3、实验结果分析

参照表4和图6，就模型的准确性而言，CART模型取得了最高的准确率，Logit、NB和SVM的预测准确率接近都在0.8左右，ANN模型的预测效果最差，仅为0.7，这可能与ANN模型参数复杂，较难调节有关。

参照表4和图7，就模型的精确率而言，CART模型无论是’switch’精确率，’notswitch’精确率还是平均精确率，均取得了最好的预测效果。SVM模型的表现略优于Logit和NB模型。最后依然是ANN模型的预测精确率最低，平均精确率为0.70，而’switch’精确率仅为0.67。

参照表4和图8，就模型的召回率而言，CART模型依然取得了最好的效果。我们还发现了一个有趣的现象，所有模型的’switch’召回率均高于’notswitch’召回率，说明模型偏向于将样本预测为’switch’。ANN模型的表现最为明显，它的’switch’召回率为0.81而’notswitch’召回率仅为0.58。

参照表4和图9，就模型的F1-score而言，CART模型取得了最好的预测效果，平均F1-score为0.84。Logit、NB和SVM的F1-score接近，在0.78左右。ANN模型的表现最差，平均F1-score仅为0.69。

综上而言，CART模型在各个评价指标上均取得了最好的预测效果，Logit、NB和SVM的预测效果整体接近，ANN模型的表现最差。

本发明所述的基于基于CART决策树的新建轨道开通后沿线公交乘客转移预测方法在预测准确率、精确率、召回率以及F1score上优于其他对比方法。该方法基于海量IC刷卡数据，相较于问卷数据具有更大的数据量和更强的可靠性。能够有效提升公交乘客转移行为的预测精度，有效预测在轨道开通后的沿线公交乘客的出行行为变化。

本发明还提供了一种新建轨道开通前沿线公交乘客转移预测系统，所述转移预测系统包括：历史影响因素数据获取模块、历史转移数据获得模块、样本数据集建立模块、公交乘客转移预测模型建立模块、训练后的公交乘客转移预测模型建立模块和转移数据获取模块。

历史影响因素数据获取模块，用于获取每个公交乘客在新建轨道开通前后影响公交乘客转移的历史影响因素数据。

历史转移数据获得模块，用于判断每个所述公交乘客在新建轨道开通前后的出行交通工具是否发生了转移，获得每个公交乘客的历史转移数据；所述历史转移数据包括转移和不转移。

样本数据集建立模块，用于以所述历史影响因素数据作为自变量，以所述历史转移数据作为因变量，建立样本数据集。

公交乘客转移预测模型建立模块，用于建立基于分类决策树的公交乘客转移预测模型。

训练后的公交乘客转移预测模型建立模块，用于利用所述样本数据集对所述基于分类决策树的公交乘客转移预测模型进行训练，获得训练后的公交乘客转移预测模型。

所述历史影响因素数据获取模块，具体包括：历史出行数据获取子模块和历史影响因素数据获取子模块。

历史出行数据获取子模块，用于获取每个公交乘客的乘车IC卡在新建轨道开通前后的历史出行数据。

所述训练后的公交乘客转移预测模型建立模块，具体包括：样本数据集获取子模块、基尼指数计算子模块、切分点确定子模块、判断结果获得子模块、分类决策树输出子模块和下一个待确定节点确定子模块。

样本数据集获取子模块，用于获取分类决策树中待确定节点的样本数据集。

基尼指数计算子模块，用于计算所述样本数据集中每个影响因素为每个取值时的基尼指数。

切分点确定子模块，用于选取基尼指数最小的影响因素作为所述待确定节点，并将所述基尼指数最小的影响因素的取值作为所述待确定节点的切分点。

判断结果获得子模块，用于判断此时的分类决策树是否满足停止建树条件，获得判断结果。

分类决策树输出子模块，用于若所述判断结果表示是，则输出所述分类决策树。

所述基尼指数计算子模块，具体包括：样本数据集的基尼指数计算单元。

样本数据集的基尼指数计算单元，用于利用公式

所述停止建树条件为所有分裂节点的样本都属于同一类、所有分裂节点的样本数小于预设最小数量阈值、分类决策树的高度达到了预设最大高度阈值或者所有分裂节点的数量达到了预设最大数量阈值。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种新建轨道开通前沿线公交乘客转移预测方法，其特征在于，所述转移预测方法包括：

建立基于分类决策树的公交乘客转移预测模型；

2.根据权利要求1所述的新建轨道开通前沿线公交乘客转移预测方法，其特征在于，所述获取每个公交乘客在新建轨道开通前后影响公交乘客转移的历史影响因素数据，具体包括：

3.根据权利要求1所述的新建轨道开通前沿线公交乘客转移预测方法，其特征在于，所述利用所述样本数据集对所述基于分类决策树的公交乘客转移预测模型进行训练，获得训练后的公交乘客转移预测模型，具体包括：

获取分类决策树中待确定节点的样本数据集；

若所述判断结果表示是，则输出所述分类决策树；

4.根据权利要求3所述的新建轨道开通前沿线公交乘客转移预测方法，其特征在于，所述计算所述样本数据集中每个影响因素为每个取值时的基尼指数，具体包括：

利用公式

5.根据权利要求3所述的新建轨道开通前沿线公交乘客转移预测方法，其特征在于，所述停止建树条件为所有分裂节点的样本都属于同一类、所有分裂节点的样本数小于预设最小数量阈值、分类决策树的高度达到了预设最大高度阈值或者所有分裂节点的数量达到了预设最大数量阈值。

6.一种新建轨道开通前沿线公交乘客转移预测系统，其特征在于，所述转移预测系统包括：

7.根据权利要求6所述的新建轨道开通前沿线公交乘客转移预测系统，其特征在于，所述历史影响因素数据获取模块，具体包括：

8.根据权利要求6所述的新建轨道开通前沿线公交乘客转移预测系统，其特征在于，所述训练后的公交乘客转移预测模型建立模块，具体包括：

9.根据权利要求8所述的新建轨道开通前沿线公交乘客转移预测系统，其特征在于，所述基尼指数计算子模块，具体包括：

样本数据集的基尼指数计算单元，用于利用公式

10.根据权利要求8所述的新建轨道开通前沿线公交乘客转移预测方法，其特征在于，所述停止建树条件为所有分裂节点的样本都属于同一类、所有分裂节点的样本数小于预设最小数量阈值、分类决策树的高度达到了预设最大高度阈值或者所有分裂节点的数量达到了预设最大数量阈值。