CN112836996A

CN112836996A - 一种识别乘客潜在购票需求的方法

Info

Publication number: CN112836996A
Application number: CN202110259342.5A
Authority: CN
Inventors: 孙湛博; 杨林川; 刘帆洨; 陈莹
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-05-25
Anticipated expiration: 2041-03-10
Also published as: CN112836996B

Abstract

本发明提供一种识别乘客潜在购票需求的方法。该方法包括：获取目标列车的相关数据，并进行处理；建立余票更新机制；根据乘客购票行为及各等级列车席位的余票情况，将乘客的购票意愿分为确定性意愿和非确定性意愿，将乘客购票数据分为确定性意愿的乘客购票数据和非确定性意愿的乘客购票数据；对经过处理后的目标列车的相关数据进行特征提取，得到与列车席位等级相关性高的特征；基于确定性意愿的乘客购票数据构建用于识别乘客的潜在购票需求的支持向量机模型；用所构建的该支持向量机模型识别每位非确定性意愿的乘客的潜在购票需求。通过该方法能够挖掘出隐藏在不确定需求背后的潜在购票需求，为区间票额分配提供更可靠的依据。

Description

一种识别乘客潜在购票需求的方法

技术领域

本发明涉及铁路运输领域，特别是针对乘客的不确定购票需求进行需求重新识别提出了一种识别乘客潜在购票需求的方法。

背景技术

高速铁路在我国交通运输系统中扮演着重要的角色，2019年运输的乘客比例占所有运输方式的64.1％，但是即便如此，很少线路能够既满足乘客的需求又达到铁路期望的收入水平。要解决该问题，一般有两种方法：一种是调整价格策略，另一种则是合理规划利用列车的运输能力。前者要在我国实施并不容易，因为铁路票价由政府调控，受外界的影响太小，所以合理利用列车的运输能力就成了一个重要的研究方向，在合理分配列车能力的时候不仅要有优化方法同时要充分考虑旅客的需求才能实现双赢。

乘客的潜在购票需求在某种程度上可以根据购票行为来确定，但是有些乘客的购票行为并不能反映其潜在购票需求，因为部分乘客发生购票行为时受到了一些限制条件(如某种类型的票已经售罄)。因此，对这类不能反映乘客潜在购票需求的购票行为，我们设计了一种识别其潜在购票需求的方法，从而为票额分配提供强有力的支撑，进而提高列车的上座率。

发明内容

本发明的发明目的：针对乘客不确定的购票需求进行需求重新识别提出一种识别乘客潜在购票需求的方法，从而为票额分配提供强有力的支撑，进而提高列车的上座率、收入等。

本发明为实现其发明目的所采取的技术方案：一种识别乘客潜在购票需求的方法，所述方法包括以下步骤：

S1、获取目标列车的相关数据，并对目标列车的相关数据进行处理；

S2、建立余票更新机制；

S3、根据乘客购票行为及各等级列车席位的余票情况，将乘客的购票意愿分为确定性意愿和非确定性意愿，因此将乘客购票数据分为确定性意愿的乘客购票数据(即通过乘客的购票行为能够确定乘客的潜在购票需求的乘客购票数据)和非确定性意愿的乘客购票数据(即通过乘客的购票行为无法确定乘客的潜在购票需求的乘客数据)；

所述确定性意愿：在各等级列车席位的余票数量都能够满足乘客需求的情况下，若乘客选择购买其中一种等级列车席位的车票，则认定乘客的购票行为与其潜在购票需求是一致的，此时通过乘客的购票行为能够确定乘客的潜在购票需求，将这种情况下的乘客购票意愿称为确定性意愿；

所述非确定性意愿：在不同等级列车席位中有一种以上等级列车席位的余票数量不能够满足乘客需求的情况下，若乘客选择购买其中一种等级列车席位余票数量能够满足乘客需求的车票，则认定乘客的购票行为与其潜在购票需求之间的关系是不确定的，此时通过乘客的购票行为无法确定乘客的潜在购票需求，将这种情况下的乘客购票意愿称为非确定性意愿；

S4、对经过步骤S1处理后的所述目标列车的相关数据进行特征提取，得到与列车席位等级相关性高的特征；

S5、基于所述确定性意愿的乘客购票数据构建用于识别乘客潜在购票需求的支持向量机模型；

S6、用所构建的用于识别乘客潜在购票需求的支持向量机模型对输入的每位乘客的购票数据进行分析并划分列车席位需求等级，进而识别出每位非确定性意愿的乘客的潜在购票需求。

进一步，所述目标列车的相关数据包括：目标列车的发车日期，目标列车的席位等级分布，目标列车各等级席位的定员，目标列车运行的OD区间，目标列车运行的OD区间的距离，乘客购票提前天数，乘客的购票渠道，乘客所购车票的起点站，乘客所购车票的终点站，乘客所购车票的起点站和终点站所在城市的行政等级，乘客购票数量，乘客所购车票的席位等级。

进一步，所述步骤S2，建立余票更新机制，具体包括：

用c表示目标列车席位等级编号，i表示不同OD区间的起点站编号，j表示不同OD区间的终点站编号；用矩阵

描述目标列车运行在OD区间(i,j)的c等级列车席位的余票数量；用

表示乘客购买起点站为i、终点站为j，且列车席位等级为c的车票数量；设置各等级列车席位的余票数量的初始值为目标列车对应等级席位的定员；当发生乘客购票行为并且购票行为成立时，所涉及的列车运行的OD区间对应等级的列车席位的余票数量立即更新，具体步骤包括：

S2-1、初始化矩阵

S2-2、乘客要购买

张车票，若

则售卖出满足乘客需求的车票给乘客，此时乘客的购票行为成立；若

则拒绝售卖车票给乘客，此时乘客的购票行为不成立；

S2-3、一旦发生售票行为，立即更新矩阵

S2-4、判断更新后的矩阵

若

则返回步骤S2-2继续执行，否则终止售票。

进一步，所述步骤S4，对经过步骤S1处理后的所述目标列车的相关数据进行特征提取，得到与列车席位等级相关性高的特征，具体包括：

判断列车席位等级与其余特征之间的关系，并分别计算出列车席位等级与任一其余特征之间的相关系数，依据计算出的相关系数提取与列车席位等级相关性高的特征；所述其余特征是指不包括列车席位等级在内的经过步骤S1处理后的所述目标列车的相关数据；

计算相关系数的公式为：

公式中，r_m表示列车席位等级与任一其余特征之间的相关系数；n表示样本容量，k≤n；y表示列车席位等级；x_m表示任一其余特征。

进一步，所述步骤S5和所述步骤S6，具体包括：

定义已购票乘客样本数据集、训练集、测试集，如下：

所述已购票乘客样本数据集是由所述确定性意愿的乘客购票数据和所述非确定性意愿的乘客购票数据共同组成，记为

所述训练集是由所述确定性意愿的乘客购票数据组成，记为S，用于进行数据分析并构建用于识别乘客潜在购票需求的支持向量机模型；

所述测试集是由所述非确定性意愿的乘客购票数据组成，记为T，用于测试所构建的用于识别乘客潜在购票需求的支持向量机模型在实际应用中的预测表现情况，同时识别出每位所述非确定性意愿的乘客的潜在购票需求；

令

其中N表示乘客提前购买的车票总数；

令

其中，

为任一子训练集,表示第h次购票信息对应的数据；

表示第h次购票的属性特征，且

y_h表示对应属性条件下实际购票的列车席位等级的标签，且y_h∈{0,1}，其中数值0和1代表两种不同的列车席位等级；h＝1,2,…,l；l代表子训练集的总量；

因此，

采用所述训练集构造特征空间中的超平面：基于所述训练集获得的信息，根据列车席位等级种类将特征空间分为两种，用于描述所述超平面的函数表达式为f(x)＝ωx+b，ω为所述超平面的法向量，b为所述超平面的一个变量；

基于所述训练集，求解得到ω和b的最优解可以用于解决如下优化问题：

0≤α_s≤C，s＝1,2,…,l，

式中，α＝(α₁,α₂,…,α_l)^T是拉格朗日乘子向量；K是内核函数；C是手动设置的惩罚因子；X_s和X_t是任一两个子训练集的输入，y_s和y_t分别是对应的两个子训练集的标签，y_s∈{0,1}，y_t∈{0,1}；

基于上述优化问题求解得到ω和b的最优解，分别用

和

表示，如下：

所述非线性分类器函数的表达式为

进一步，所述与列车席位等级相关性高的特征包括：目标列车运行的OD区间，目标列车运行的OD区间的距离，乘客购票提前天数，乘客所购车票的起点站，乘客所购车票的终点站，乘客所购车票的起点站和终点站所在城市的行政等级。

与现有技术相比，本发明具有的有益效果：

(1)本发明是针对非确定性意愿的乘客购票需求进行需求重新识别提出的一种识别乘客潜在购票需求的方法，首先通过数据处理将其按照确定需求和不确定需求进行分类(分为确定性意愿的乘客购票数据和非确定性意愿的乘客购票数据)，然后经过一系列特征处理和提取，最后构建用于识别乘客潜在购票需求的支持向量机模型，并利用该支持向量机模型识别隐藏在不确定需求(即非确定性意愿)背后的潜在购票需求。

(2)由本发明方法得到的乘客的潜在购票需求数据(即隐藏在不确定需求背后的潜在购票需求数据)能够为区间票额分配提供更可靠的依据，进而提高列车的上座率、收入等。

(3)本发明对所获得数据进行特征提取，分析各特征与列车席位等级的相关性，并且确定了与列车席位等级高度相关的特征，这为之后针对各区间进行不同等级列车席位的票额分配提供了强有力的依据。

(4)本发明建立的余票更新机制，有助于相关管理人员了解票额出售的实时状态，同时方便乘客实时查阅不同预售天数下不同列车席位等级的票额剩余情况，通过对大量数据的分析，可以得出乘客的购票规律。

下面通过具体实施方式及附图对本发明作进一步详细说明，但并不意味着对本发明保护范围的限制。

附图说明

图1为本发明实施例的余票更新流程图。

图2为本发明实施例列车席位等级与其余特征之间的相关性分析图。

图3为本发明实施例六个相关性较高的特征的贡献情况图。

图4为本发明实施例通过交叉验证得到的拟合轮廓图。

图5为本发明实施例对一等座中的非确定性意愿的预测结果图。

图6为本发明实施例对二等座中的非确定性意愿的预测结果图。

具体实施方式

实施例

本例给出的一种识别乘客潜在购票需求的方法，首先通过数据处理将其按照确定需求和不确定需求进行分类(分为确定性意愿的乘客购票数据和非确定性意愿的乘客购票数据)，然后经过一系列特征处理和提取，最后构建用于识别乘客潜在购票需求的支持向量机模型，并利用该支持向量机模型识别隐藏在不确定需求(即非确定性意愿)背后的潜在购票需求。

本例所涉及的数据来自编号为D2818的列车(即目标列车)，该列车服务18个站点，但本例所采用的数据仅涉及其中12个站点；另外，本例只考虑该列车席位等级为一等座和二等座的情况。因此，用c表示目标列车席位等级编号，且c∈{1,2}；用i表示不同OD区间的起点站编号，j表示不同OD区间的终点站编号；用矩阵

表示乘客购买起点站为i、终点站为j，且列车席位等级为c的车票数量；设置各等级列车席位的余票数量的初始值为目标列车对应等级席位的定员；当发生乘客购票行为并且购票行为成立时，所涉及的列车运行的OD区间对应等级的列车席位的余票数量立即更新。现按步骤对本例进行具体描述如下：

S1、获取目标列车的相关数据，并对目标列车的相关数据进行处理。

本例目标列车的相关数据包括：目标列车的发车日期，目标列车的席位等级分布，目标列车各等级席位的定员，目标列车运行的OD区间，目标列车运行的OD区间的距离，乘客购票提前天数，乘客的购票渠道，乘客所购车票的起点站，乘客所购车票的终点站，乘客所购车票的起点站和终点站所在城市的行政等级，乘客购票数量，乘客所购车票的席位等级级。

对已获得的数据进行梳理，明确始发站、终点站及经停站，然后确定各个站所在城市的行政等级，用以下公式计算所涉及的不同行政等级组合的OD区间：

其中，

为总的组合数，n为涉及的行政等级，m为每个OD区间涉及的城市数量。

S2、建立余票更新机制，具体包括：

S2-1、初始化矩阵

S2-2、乘客要购买

张车票，若

则拒绝售卖车票给乘客，此时乘客的购票行为不成立；

S2-3、一旦发生售票行为，立即更新矩阵

S2-4、判断更新后的矩阵

若

则返回步骤S2-2继续执行，否则终止售票。

图1为本例的余票更新流程图。首先，对一等座和二等座的余票矩阵初始化，列车一等座和二等座的余票数量的初始值均为该列车对应等级席位总数(在流程最初的时候因为还没有车票被售出，初始化时即所有运行区间的余票数量均为列车相对席位的定员)；然后，当有票售出时，比较对应的余票数量与乘客所购票数的大小，如果对应的余票数量大于乘客所购票数，则乘客的购票行为成立，同时更新对应的矩阵；最后，判断更新后的余票数量是否大于0，若大于0则继续执行售票流程，否则终止售票。

S3、根据乘客购票行为及各等级列车席位的余票情况，将乘客的购票意愿分为确定性意愿和非确定性意愿，因此将乘客购票数据分为确定性意愿的乘客购票数据和非确定性意愿的乘客购票数据。

确定性意愿：在各等级列车席位的余票数量都能够满足乘客需求的情况下，若乘客选择购买其中一种等级列车席位的车票，则认定乘客的购票行为与其潜在购票需求是一致的，此时通过乘客的购票行为能够确定乘客的潜在购票需求，将这种情况下的乘客购票意愿称为确定性意愿。

非确定性意愿：在不同等级列车席位中有一种以上等级列车席位的余票数量不能够满足乘客需求的情况下，若乘客选择购买其中一种等级列车席位余票数量能够满足乘客需求的车票，则认定乘客的购票行为与其潜在购票需求之间的关系是不确定的，此时通过乘客的购票行为无法确定乘客的潜在购票需求，将这种情况下的乘客购票意愿称为非确定性意愿。

表1为根据乘客购票行为及各等级列车席位的余票情况来判断乘客的购票意愿是确定性意愿还是非确定性意愿。如表中编号为1和2所示，在一等座和二等座的余票数量都能够满足乘客需求的情况下，乘客选择购买其中一种等级列车席位的车票，此时乘客的购票行为均能反映其潜购票需求，此时将乘客的购票意愿为确定性意愿；但是，如表中编号为3和4所示，在一等座和二等座中有一种等级列车席位的余票数量不能够满足乘客需求的情况下，乘客选择购买其中一种等级列车席位的车票，此时我们就无法判断该乘客的购票行为是否反映了其潜在购票需求，此时将乘客的购票意愿为非确定性意愿。

表1根据乘客购票行为及各等级列车席位的余票情况来判断乘客的购票意愿情况

S4、对经过步骤S1处理后的目标列车的相关数据进行特征提取，得到与列车席位等级相关性高的特征，具体包括：

判断列车席位等级与其余特征之间的关系，并分别计算出列车席位等级与任一其余特征之间的相关系数，依据计算出的相关系数提取与列车席位等级相关性高的特征；其余特征是指不包括列车席位等级在内的经过步骤S1处理后的目标列车的相关数据；

计算相关系数的公式为：

本例与列车席位等级相关性高的特征包括：目标列车运行的OD区间，目标列车运行的OD区间的距离，乘客购票提前天数，乘客所购车票的起点站，乘客所购车票的终点站，乘客所购车票的起点站和终点站所在城市的行政等级。

图2是本例的列车席位等级与其余特征之间的相关性分析图。通过图2可以发现：起点站(即乘客所购车票的起点站)、终点站(即乘客所购车票的终点站)、OD区间(即目标列车运行所经过的各个OD区间)、OD区间距离(即目标列车运行所经过的各个OD区间的距离)、行政等级(即乘客所购车票的起点站和终点站所在城市的行政等级)以及购票提前天数(即乘客购票提前天数)，这六个特征都与列车席位等级之间存在较高的相关性。

表2是对图2中展示的与列车席位等级相关度较高的六个特征以及列车席位等级的解释，包括各个特征值的取值范围，以及各个特征所属类型。

表2与列车席位等级相关度较高的特征以及列车席位等级的解释

图3是本例的六个相关性较高的特征的贡献情况图，即给出了起点站(即乘客所购车票的起点站)、终点站(即乘客所购车票的终点站)、OD区间(即目标列车运行所经过的各个的OD区间)、OD区间距离(即目标列车运行所经过的各个OD区间的距离)、行政等级(即乘客所购车票的起点站和终点站所在城市的行政等级)以及购票提前天数(即乘客购票提前天数)，这六个相关性较高的特征的贡献值。为了避免反常样本的干扰，在整个过程中，我们都对数据进行了清洗。从图3中可以看出，购票提前天数及OD区间的贡献值相较其他特征来说都很小，所以我们进一步将这两种特征从所提取的六个特征中剔除。

S5、基于确定性意愿的乘客购票数据构建用于识别乘客潜在购票需求的支持向量机模型。

本例步骤S5和步骤S6，具体包括：

定义已购票乘客样本数据集、训练集、测试集，如下：

已购票乘客样本数据集是由确定性意愿的乘客购票数据和非确定性意愿的乘客购票数据共同组成，记为

训练集是由确定性意愿的乘客购票数据组成，记为S，用于进行数据分析并构建用于识别乘客潜在购票需求的支持向量机模型；

测试集是由非确定性意愿的乘客购票数据组成，记为T，用于测试所构建的用于识别乘客潜在购票需求的支持向量机模型在实际应用中的预测表现情况，同时识别出每位非确定性意愿的乘客的潜在购票需求；

令

其中N表示乘客提前购买的车票总数；

令

其中，

为任一子训练集,表示第h次购票信息对应的数据；

表示第h次购票的属性特征，且

因此，

采用训练集构造特征空间中的超平面：基于训练集获得的信息，根据列车席位等级种类将特征空间分为两种，用于描述超平面的函数表达式为f(x)＝ωx+b，ω为该超平面的法向量，b为该超平面的一个变量；

基于训练集，求解得到ω和b的最优解可以用于解决如下优化问题：

0≤α_s≤C，s＝1,2,…,l，

基于上述优化问题求解得到ω和b的最优解，分别用

和

表示，如下：

非线性分类器函数的表达式为

由前文的分析可知，我们可以将乘客的购票意愿分类为确定性意愿和非确定性意愿。现为了进一步验证所构建的用于识别乘客潜在购票需求的支持向量机模型的有效性，拟用已知的确定性意愿数据进行测试。(补充说明：后文中的训练集和测试集有别于前文所述的，将后文中训练集和测试集记为训练集E和测试集F进行区分。因为前文所述的训练集和测试集是按照确定性意愿和非确定性意愿对数据进行划分，而后文是为了验证模型的有效性，而采用确定性意愿数据来测试，所以是将确定性意愿数据分为训练集E和测试集F。)具体如下：

采集数据为2017年11月21日至11月27日列车运行过程的购票信息，因此数据集以天为单位进行分类。训练集E是由这7天数据中任意6天中的确定性意愿数据组成的，而剩余的1天中的确定性意愿数据则组成测试集F。预测集是由这7天数据中的非确定性意愿数据组成的。为了能够得到更加准确的预测结果，我们通过调整所构建的用于识别乘客潜在购票需求的支持向量机模型的相关参数的取值来获得不同参数下的拟合准确度，从而选择拟合准确度最高的参数组用于预测，得到同等条件下最准确的预测结果。由此，我们对这7天的数据通过调整所构建的用于识别乘客潜在购票需求的支持向量机模型中内核函数K的关键参数值σ和γ进行交叉验证，得到不同参数下的拟合轮廓图，如图4所示。从图4中可以看出，拟合度最高的可达94％，这也为机器学习模型的参数选取提供了有力的依据。图5是对一等座中的非确定性意愿的预测结果图，表示乘客的潜在购票需求是二等座，但实际购票结果是一等座的分布情况，结果表明这部分乘客通常是长距离或短距离旅程的乘客。图6是对二等座中的非确定性意愿的预测结果图，表示乘客的潜在购票需求是一等座，但实际购票结果是二等座的分布情况，结果表明这部分乘客主要为中长距离或短距离的乘客。从图5和图6的结果可以看出，购买了一等座的乘客有较多人实际想购买二等座；有少部分购买二等座的乘客希望购买一等座，显然该部分乘客即为未被满足的具有更高消费能力的乘客。

同理，乘客购买其他列车席位等级的车票(如无座或商务座)的情况也可以根据本例方式进行，此处不再重复。

上述结合附图对本发明进行了示例性描述，显然本发明的具体实现并不受本文所示的实施例的限制。

Claims

1.一种识别乘客潜在购票需求的方法，其特征在于，所述方法包括以下步骤：

S2、建立余票更新机制；

S3、根据乘客购票行为及各等级列车席位的余票情况，将乘客的购票意愿分为确定性意愿和非确定性意愿，因此将乘客购票数据分为确定性意愿的乘客购票数据和非确定性意愿的乘客购票数据；

S4、对经过步骤S1处理后的所述目标列车的相关数据进行特征题取，得到与列车席位等级相关性高的特征；

S6、用所构建的用于识别乘客潜在购票需求的支持向量机模型对输入输入的每位乘客的购票数据进行分析并划分列车席位需求等级，进而识别出每位非确定性意愿的乘客的潜在购票需求。

2.根据权利要求1所述的一种识别乘客潜在购票需求的方法，其特征在于，所述目标列车的相关数据包括：目标列车的发车日期，目标列车的席位等级分布，目标列车各等级席位的定员，目标列车运行的OD区间，目标列车运行的OD区间的距离，乘客购票提前天数，乘客的购票渠道，乘客所购车票的起点站，乘客所购车票的终点站，乘客所购车票的起点站和终点站所在城市的行政等级，乘客购票数量，乘客所购车票的席位等级。

3.根据权利要求1所述的一种识别乘客潜在购票需求的方法，其特征在于，所述步骤S2，建立余票更新机制，具体包括：