CN115018454A

CN115018454A - 一种基于出行模式识别的乘客出行时间价值计算方法

Info

Publication number: CN115018454A
Application number: CN202210570303.1A
Authority: CN
Inventors: 刘晓冰; 马斯玮; 王蕊; 闫学东; 高自友
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-09-06
Anticipated expiration: 2042-05-24
Also published as: CN115018454B

Abstract

本发明提供了一种基于出行模式识别的乘客出行时间价值计算方法。该方法包括：构建出租车及地铁乘客的时空需求矩阵；根据所述时空需求矩阵识别出出租车乘客的出行模式；根据所述出租车乘客的出行模式对各地铁站间出租车乘客的出行模式进行划分；根据各地铁站间出租车乘客的出行模式构建出租车与地铁乘客出行方式选择方程，对所述出租车与地铁乘客出行方式选择方程进行求解，得到出租车及地铁乘客的出行时间价值。本发明实施例方法提供了更加合理的乘客划分方法，有效避免了人工划分所产生的误差，提高了模型计算结果的准确性，乘客出行时间价值的计算可作为出行方式选择研究中重要的输入参数，展现了其在实际应用中的作用。

Description

一种基于出行模式识别的乘客出行时间价值计算方法

技术领域

本发明涉及交通出行信息技术领域，具体涉及一种基于出行模式识别的乘客出行时间价值计算方法。

背景技术

乘客的出行时间价值是计算广义出行成本时的重要参数，对该参数的研究不仅有利于运营管理者提高既有交通方式的服务水平、调节票价结构，而且能够帮助规划者设计更具吸引力、更符合乘客需求的服务模式。

目前对乘客出行时间价值的研究主要分为两个思路：一是利用居民单位时间内的收入或产值进行估算；二是从非集计角度，基于随机效用理论，利用乘客的交通方式选择结果来进行计算。在缺少实际的出行选择数据时，前一种思路简单有效；当出行数据满足研究条件时，第二种思路更加严谨，得到的时间价值更加符合实际。采用第二种思路的既有研究中，现有乘客方式选择的数据收集多依赖于人工调查或网络问卷的方式。基于调查数据的分析存在两个主要问题，一是数据规模有限，导致计算结果误差较大；二是调查中乘客的表述真实性难以保证。尤其在意向调查中，乘客的意向与其真实行为存在的偏差同样会引起较大的误差。

为了解决上述问题，现有技术中有方案开始利用实际出行产生的交通数据进行出行时间价值的测算。该方案的缺点为：由于交通数据只能记录乘客实际选择了哪种方式，因此无法确定某个个体面对多种方式的选择概率。为此，通常将乘客划分为不同类型，认为同一类型的乘客其选择特性相同，属于均匀的整体，将非集计模型进行集计处理。但由于人为的划分并不具有统一的标准，划分的乘客其选择特性是否相同也较难判断，因此还需要探究更加有效的乘客分类方法。

发明内容

本发明的实施例提供了一种基于出行模式识别的乘客出行时间价值计算方法，以实现有效地计算出租车和地铁乘客的出行时间价值。

为了实现上述目的，本发明采取了如下技术方案。

一种基于出行模式识别的乘客出行时间价值计算方法，包括：

步骤1，构建出租车及地铁乘客的时空需求矩阵；

步骤2，根据所述时空需求矩阵识别出出租车乘客的出行模式；

步骤3，根据所述出租车乘客的出行模式对各地铁站间出租车乘客的出行模式进行划分；

步骤4，根据各地铁站间出租车乘客的出行模式构建出租车与地铁乘客出行方式选择方程，对所述出租车与地铁乘客出行方式选择方程进行求解，得到出租车及地铁乘客的出行时间价值。

上述方案中，步骤1所述的构建出租车及地铁乘客的时空需求矩阵，包括：

在空间维度上，通过搜索出租车行程的起终点对应的映射地铁站点，将出租车出行需求集计到地铁网络；

在时间维度上，通过划分时间窗，将出发时间处于同一时间窗的乘客进行集计；

建立出租车乘客时空需求矩阵P_m×h，该出租车乘客时空需求矩阵P_m×h的每一行代表一个地铁站点对，储存出行需求的空间维度信息；每一列代表一个时间窗，储存出行需求的时间维度信息；

其中，p表示出租车乘客数量；v_n表示第n个地铁站点；d表示第d天；h为时间窗个数；m为站点对个数，矩阵中第(v_iv_j)行，第(h)列的元素表示行程起点映射到地铁站点v_i，行程终点映射到站点v_j，且出发时间在h时间窗内的出租车乘客数量。

上述方案中，步骤2所述的根据所述时空需求矩阵识别出出租车乘客的出行模式，包括：

将乘客时空需求作为原始矩阵，基于步骤2.1-步骤2.6的NMF求解方法，求解公式(2)

P_m×h≈S_m×δB_δ×h(δ＜＜min(m,h)) (2)

式中，δ表示特征个数；

步骤2.1：在NMF算法中输入乘客时空需求矩阵P_m×h，特征个数k和容差e；

步骤2.2：随机生成初始化的基矩阵S和特征矩阵B；

步骤2.3：计算损失函数欧几里得范数的平方值||P_m×h-SB||²；

步骤2.4：当||P_m×h-SB||²＞e，转至步骤2.5，否则转至步骤2.6；

步骤2.5：按照乘法更新规则更新矩阵S和B，矩阵表达式如下，其中i,j分别代表矩阵的第i行和j列，B_ij代表特征矩阵B中第i行和j列对应的元素，其他矩阵下标含义相同：

步骤2.6：返回S和B。

出租车乘客时空需求矩阵P中的任意行向量

表示为行向量

与特征矩阵B的乘积，如公式(4)，矩阵B提取了出租车乘客在某个时间维度h上潜在的δ个出行模式；矩阵S为不同地铁站点之间，各出行模式对应的权重系数，其中权重系数最大的模式为地铁站点之间出租车乘客的主要出行模式B_l(l∈[1,δ])，将求得的特征矩阵B_l在时间维度上展开，在不同的出行模式数量l取值下，制作横轴为时间纵轴为特征矩阵元素值的折线图，根据l个出行模式折线图的峰值分布和分离情况，确定合理的出行模式数量，若l取3，表示该案例下的出行模式具体有3种类型；

上述方案中，步骤3所述的根据所述出租车乘客的出行模式对各地铁站间出租车乘客出行模式进行划分，包括：

在特征矩阵B中，搜索具有相同出行模式的出租车乘客，将搜索得到的出租车乘客聚合到映射地铁站点，建立映射地铁站点OD集合，在地铁站点OD集合中，各个站点对的权重系数代表不同出租车乘客出行模式的占比大小；

在基矩阵S中，每个元素代表地铁站点对之间不同出行模式的权重系数，搜索映射地铁站点OD集合中任一地铁站点对的权重系数，当某个地铁站点对之间的出行模式B_l对应的权重系数S_od,l最大时，则将出行模式B_l确定为所述某个地铁站点对之间的出租车乘客出行模式，仅保留该地铁站点对，更新映射地铁站点OD集合，实现了利用地铁站点间出租车乘客的出行模式划分对应地铁站点OD集合类别。

上述方案中，步骤4所述的根据各地铁站间出租车乘客的出行模式构建出租车与地铁乘客出行方式选择方程，包括：

根据乘客自身属性、出行费用和随机误差项建立乘客出行效用的数学表达式如下：

U_i,od(k)＝V_i,od(k)+ε_i,od(k) (5)

式中，U_i,od(k)表示乘客i从o点到d点选择出行方式k的效用；V_i,od(k)表示出行方式k的效用固定项，为广义出行成本，ε_i,od(k)为随机误差项；

根据效用最大化理论，乘客i从o点到d点选择k_m的概率的计算公式如下：

式中K表示备选出行方式的集合；

假设随机误差项ε相互独立，且服从二重指数分布，推导得到Logit形式的选择概率，表达式为：

进一步地，得到乘客i选择出租车和地铁两种交通方式的概率之比如下：

上式表明乘客在备选集中选定哪种交通方式取决于各交通方式的广义成本之差，即各影响因素差值的线性组合；

上述方程(8)就是出租车与地铁乘客出行方式选择方程，所述出租车与地铁乘客出行方式选择方程基于各地铁站间出租车乘客的出行模式，划分对应地铁站点OD集合的类别，以每一类别的站点对集合中每个OD为单位，该OD上的乘客作为一个整体，进行集计处理，建立并求解方程(8)，即可得到乘客的出行时间价值。

上述方案中，步骤4所述的对所述出租车与地铁乘客出行方式选择方程进行求解，得到出租车及地铁乘客的出行时间价值，包括：

通过NMF-Logit算法求解上述公式(8)的表达式，筛选出具有相似出行模式的乘客以及相应的映射站点对，进而计算乘客出行时间价值；

所述NMF-Logit算法的计算过程如下：

步骤4.1：构建出租车与地铁乘客的广义成本，表达式如下：

V_i,od(k)＝a₁T_ivt,i,od(k)+a₂T_change,i,od(k)+a₃F_i,od(k)+b_i,od(k) (9)

式中，T_ivt,i,od(k)为从起点o到终点d，乘客i使用方式k出行的在车时间；T_change,i,od为换乘时间；F_i,od表示费用；b_i,od为常数项；a₁,a₂,a₃为各项系数；

步骤4.2：以站点对集合中每个OD为单位，该OD上的乘客作为一个整体，进行集计处理，建立如下方程：

其中，

步骤4.3：将式(9)代入式(10)，则有

式中，

表示从站点v_o到站点v_d，乘客群体选择出行方式k_m的概率；

表示两种交通方式行程时间差值的平均值；

表示换乘时间差值的平均值；

表示费用差值的平均值；

为常数；a₁,a₂,a₃为待标定系数；

步骤4.4：以公式(11)中

为因变量，以在车时间差、换乘时间差和费用差为自变量，构建多元线性回归方程，利用最小二乘法求解所述多元线性回归方程，标定各项系数，具体计算过程包括：

步骤4.4.1：计算出租车和地铁乘客的在车时间，出租车在车时间通过出行数据中起终点对应时间直接可得，地铁在车时间根据进出站刷卡时间及换乘时间进行估算；

步骤4.4.2：计算出租车和地铁乘客的换乘时间，出租车的换乘时间为0，地铁的换乘时间计算步骤如下：

步骤4.4.2.1：利用Dijkstra算法求解两地铁站之间的最短路径，此时最短路径的定义为时间最短；

步骤4.4.2.2：确定最短路径经过的换乘站点；

步骤4.4.2.3：通过查阅北京地铁换乘站步行时间，叠加得到最短路径上的总换乘时间；

步骤4.4.3：利用最小二乘法求解方程，标定各项系数；

步骤4.5：出租车及地铁乘客的出行时间价值计算；

通过求解公式(11)，得到乘客在车时间以及换乘时间的出行价值，具体计算表达式如下：

式中，VOT_ivt为乘客在车时间的出行价值，VOT_change为乘客换乘时间的出行价值，V(k)为乘客选择出行方式k的广义成本，F(k)为出行方式k的费用，T_ivt(k)为出行方式k的在车时间，T_change(k)为出行方式k的换乘时间。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例方法提出的NMF-Logit算法提供了更加合理的乘客划分方法，有效避免了人工划分所产生的误差，提高了模型计算结果的准确性，乘客出行时间价值的计算可作为出行方式选择研究中重要的输入参数，展现了其在实际应用中的作用。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于出行模式识别的出行时间价值估算方法的实现原理图；

图2为本发明实施例提供的一种NMF-Logit算法的流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供一种基于出行模式识别的出行时间价值估算方法，以出租车与地铁乘客为例，能够在缺少乘客个人属性信息的条件下，通过交通大数据本身将乘客及相应空间位置进行相似性划分，更加准确、可靠地估算乘客在面对出租车与地铁时的出行时间价值。

本发明实施例提供的一种基于出行模式识别的出行时间价值估算方法的实现原理如图1所示，该方法包括以下步骤：

步骤1：构建出租车及地铁乘客的时空需求矩阵。

在空间维度上，获取出租车起终点数据和地铁刷卡数据，通过搜索出租车行程起终点对应的映射地铁站点，将出租车出行需求集计到地铁网络。

在时间维度上，通过划分时间窗，将出发时间处于同一时间窗的乘客进行集计。

建立出租车乘客时空需求矩阵P_m×h，如公式(1)，矩阵每一行代表一个地铁站点对，储存出行需求的空间维度信息；每一列代表一个时间窗，储存出行需求的时间维度信息。矩阵中第(v_iv_j)行，第(h)列的元素表示行程起点映射到地铁站点v_i，行程终点映射到站点v_j，且出发时间在h时间窗内的出租车乘客数量。

其中，p表示出租车乘客数量；v_n表示第n个地铁站点；d表示第d天；h为时间窗个数；m为站点对个数。

步骤2：利用NMF(Nonnegative Matrix Factorization，非负矩阵分解)算法对乘客时空需求矩阵P_m×h进行识别，获取出租车乘客的出行模式。

P_m×h≈S_m×δB_δ×h(δ＜＜min(m,h)) (2)

式中，δ表示特征个数，具体取值根据工程实际问题确定，目前没有固定的选择规则和方法。本例在确定特征个数时，基于已有研究成果，依次选择δ＝[2,3,4,5]，针对不同取值逐一开展实验，分析不同δ值下的特征矩阵表现，最终确定δ值。

步骤2.2：随机生成初始化的基矩阵S和特征矩阵B；

步骤2.3：计算损失函数欧几里得范数的平方值||P_m×h-SB||²

步骤2.4：当||P_m×h-SB||²＞e，转至步骤2.5，否则转至步骤2.6；

步骤2.6：返回S和B。

出租车乘客时空需求矩阵P中的任意行向量P_(vivj)可以表示为行向量S_(vivj)与特征矩阵B的乘积，如公式(4)。矩阵B提取了出租车乘客在某个时间维度h上潜在的δ个出行模式；矩阵S为不同地铁站点之间，各出行模式对应的权重系数，其中权重系数最大的模式为地铁站点之间出租车乘客的主要出行模式B_l(l∈[1,δ])。结合实际案例，将求得的特征矩阵B_l在时间维度上展开，在不同的出行模式数量l取值下，制作横轴为时间纵轴为特征矩阵元素值的折线图，根据l个出行模式折线图的峰值分布和分离情况，确定合理的出行模式数量，若l取3，表示该案例下的出行模式具体有3种类型。

步骤3：根据出租车乘客的出行模式对各地铁站间出租车乘客的出行模式进行划分。

步骤3.1：在特征矩阵B中，搜索具有相同出行模式的出租车乘客，将搜索得到的出租车乘客聚合到映射地铁站点，建立映射地铁站点OD集合；在所得地铁站点OD集合中，各个站点对的权重系数代表不同出租车乘客出行模式的占比大小。

步骤3.2：在基矩阵S中，搜索站点OD集合中任一站点对的权重系数，当出行模式B_l对应的权重系数S_od,l最大时，仅保留该站点对，更新映射站点对集合。

在基矩阵S的行向量中，每个元素代表地铁站点OD间不同出行模式的权重系数。当某个出行模式的权重系数为0时，代表该站点OD之间，极少乘客属于该类出行模式；当某个模式的权重系数最大且不为0时，代表该站点OD之间，该出行模式的乘客最多。则将出行模式B_l确定为所述某个地铁站点对之间的出租车乘客出行模式，仅保留该地铁站点对，更新映射地铁站点OD集合，基于此实现了利用地铁站点间出租车乘客的出行模式划分对应地铁站点OD集合类别。

步骤4：根据各地铁站间出租车乘客的出行模式构建出租车与地铁乘客出行方式选择方程，对出租车与地铁乘客出行方式选择方程进行求解，得到出租车及地铁乘客的出行时间价值。

根据随机效用理论，乘客在进行出行方式决策时会选择对自身而言效用最大的方案。所谓效用通常将其转换为货币价值来表征，而评估效用的过程恰恰体现了乘客对于出行时间价值的主观判断。

出行方式选择的影响因素主要有两类，一是乘客自身属性，包括收入、出行目的、出行偏好等；二是出行方式属性，通常考虑总行程时间(包括在车时间和换乘时间)和出行费用。这些影响因素构成了出行效用中的固定效用部分，除此之外还包括随机误差项，最终乘客出行效用的数学表达式如下：

U_i,od(k)＝V_i,od(k)+ε_i,od(k) (5)

式中，U_i,od(k)表示乘客i从o点到d点选择出行方式k的效用；V_i,od(k)表示出行方式k的效用固定项，通常为广义出行成本；ε_i,od(k)为随机误差项。

根据效用最大化理论，乘客i从o点到d点选择k_m的概率表示为：

式中K表示备选出行方式的集合。

上式表明乘客在备选集中选定哪种交通方式取决于各交通方式的广义成本之差，即各影响因素差值的线性组合。上述方程(8)就是出租车与地铁乘客出行方式选择方程，通过求解方程(8)，即可得到乘客的出行时间价值。

上述出租车与地铁乘客出行方式选择方程首先基于各地铁站间出租车乘客的出行模式，划分对应地铁站点OD集合的类别，在此基础上，以每一类别的站点对集合中每个OD为单位，该OD上的乘客作为一个整体，进行集计处理，建立并求解方程(8)

为了求解上述表达式，通过建立NMF-Logit算法，将非负矩阵分解与Logit模型相结合，筛选出具有相似出行模式的乘客以及相应的映射站点对，基于此进行Logit模型集计化，进而计算乘客出行时间价值。

本发明实施例提供的一种NMF-Logit算法的流程图如图2所示，包括如下的处理步骤：

步骤4.1：构建出租车与地铁乘客的广义成本，表达式如下：

V_i,od(k)＝a₁T_ivt,i,od(k)+a₂T_change,i,od(k)+a₃F_i,od(k)+b_i,od(k) (9)

式中，T_ivt,i,od(k)为从起点o到终点d，乘客i使用方式k出行的在车时间；T_change,i,od为换乘时间；F_i,od表示费用；b_i,od为常数项；a₁,a₂,a₃为各项系数。

其中，

步骤4.3：将式(9)代入式(10)，则有

式中，

表示从站点v_o到站点v_d，乘客群体选择出行方式k_m的概率；

表示两种交通方式行程时间差值的平均值；

表示换乘时间差值的平均值；

表示费用差值的平均值；

为常数；a₁,a₂,a₃为待标定系数。

步骤4.4：以公式(11)中

为因变量，以在车时间差、换乘时间差和费用差为自变量，构建多元线性回归方程，利用最小二乘法求解方程，标定各项系数。

步骤4.4.1：计算出租车和地铁乘客的在车时间。出租车在车时间通过出行数据中起终点对应时间直接可得，地铁在车时间根据进出站刷卡时间及换乘时间进行估算。

步骤4.4.2：计算出租车和地铁乘客的换乘时间。出租车的换乘时间为0，地铁的换乘时间计算步骤如下：

步骤4.4.2.2：确定最短路径经过的换乘站点；

步骤4.4.2.3：通过查阅北京地铁换乘站步行时间，叠加得到最短路径上的总换乘时间。

步骤4.4.3：利用最小二乘法求解方程，标定各项系数。

步骤4.5：出租车及地铁乘客的出行时间价值计算。

综上所述，本发明实施例提供的基于出行模式识别的出行时间价值估算方法，在基于NMF的分解结果，将具有相同出行模式的乘客作为一个整体，以出行模式表现最强为原则，选取适当的站点OD，考虑在车时间、换乘时间和费用三个主要因素，进行Logit模型集计化。通过求解多元线性方程，计算得到出租车和地铁乘客的出行时间价值。本发明在技术方面提供了更加合理的乘客划分方法，有效避免了人工划分所产生的误差，提高了模型计算结果的准确性。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。