CN110866775A

CN110866775A - 一种基于机器学习的用户空铁联程城际出行信息处理方法

Info

Publication number: CN110866775A
Application number: CN201910966218.5A
Authority: CN
Inventors: 张聪伟; 杨敏; 贺正冰; 刘冬梅; 华雪东
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-03-06

Abstract

本发明公开了一种基于机器学习的用户空铁联程城际出行信息处理方法。本发明的方法步骤如下：步骤一，采集空铁联程城际出行用户的个人属性数据以及用户历史出行数据；步骤二，对采集到的数据进行预处理；步骤三，对经过预处理后的数据根据城际出行频率分为A和B两类；步骤四，分别建立预测A类用户出行方案的logistics模型以及预测B类用户的概率模型；步骤五，使用步骤四中标定好的logistics模型为A类用户提出城际出行服务推荐方案，使用步骤四中标定好的概率模型为B类用户推荐城际出行服务方案。本发明能简化用户联程出行的复杂决策过程，提供个性化的出行服务，方便用户出行，高效利用现有交通资源，有利于交通的可持续发展。

Description

一种基于机器学习的用户空铁联程城际出行信息处理方法

技术领域

本发明涉及综合交通运输与智能交通领域，特别是涉及一种基于机器学习的用户空铁联程城际出行信息处理方法。

背景技术

由于城市不断扩大，城市之间的交流变得频繁，使得用户对城际出行的需求得以提升，然而，由于城市间交通系统发展不平衡，并不是所有的城市间都拥有直达的城际出行服务，另外，由于交通系统的复杂性，城际出行交通工具往往不止一种，用户在使用交通服务时不但需要考虑各种交通方式的时间、花费、舒适性多方面因素，还需要考虑各种交通方式之间的衔接，这就需要用户进行一系列复杂的决策。交通产业作为服务业的一种，应该尽可能为用户提供省心、高效、舒适的出行体验。对于多方式联程出行的信息决策服务，当下几乎没有。因此，有必要发明一种联程出行信息处理方法，使得能够简化用户联程出行的决策过程，为用户营造更好的出行体验。

用户作为具有多元属性的个体，其在微观层面上具有一定独特性、也在宏观整体层面上具有一定的相似性。近年来，随着机器学习在交通领域的不断应用，使得一些先进算法能够应用到用户城际出行的信息处理之中，根据用户的自身属性及其总体的宏观属性去实现自动化决策，从而成为了简化用户城际出行复杂信息决策过程的关键。

城际出行选择的典型交通方式往往是飞机与铁路两种，本发明基于机器学习提出了一种用户空铁联程城际出行信息处理方法，充分考虑了用户自身属性，为用户出行提供更便捷有效地个性化服务。该方法不但有助于用户城际出行，还便于推进现有空铁联程出行服务发展，高效利用现有交通资源，实现交通系统的良性运行。

发明内容

为了解决以上问题，本发明提供一种基于机器学习的用户空铁联程城际出行信息处理方法，能够简化用户出行的多阶段信息决策过程，具有高度人性化特点，为达此目的，本发明提供一种基于机器学习的用户空铁联程城际出行信息处理方法，基于多个机器学习模型产生针对不同的出行服务用户群体的有效信息处理方法，该方法能够针对各个用户生成个性化城际出行服务推荐方案，包括以下步骤：

步骤1，采集空铁联程城际出行用户的个人属性数据以及用户历史出行数据，其中个人属性数据包含性别、年龄、收入、学历、工作，用户历史出行数据包含用户最近一年内是否使用过空铁联程、用户最近一年内城际出行频率次数、用户最近一年内城际出行的首要目的、用户最近一年内城际出行最常用方式、用户最近一年内平均每次城际出行费用、用户最近一年内城际出行的体验评分，其中用户最近一年内城际出行的体验评分为0到100的整数，数字越大则体验越好；

步骤2，对采集到的数据进行预处理，首先将用户最近一年内是否使用过空铁联程为否的用户数据剔除，之后的分析处理都是针对使用过空铁联程的用户来进行，对每一个用户的个人属性数据以及用户历史出行数据中的缺失数据进行填补：当用户的数据存在缺失且缺失的数据项小于等于5项时，使用采集到的全体用户在该缺失数据上的出现次数最多的数据值填补该缺失数据；若单一用户缺失的数据项大于5项，则判定该用户样本为无效样本，直接删除；

步骤3，对经过预处理后的数据根据城际出行频率分为A和B两类，A类为曾经使用过空铁联程出行服务，城际出行频率大于等于5次且采集到的数据是完整有效的用户类别；B类为整体用户类别中除去A类用户类别后剩余的用户类别，之后分别针对两类用户数据划分出训练数据与测试数据，为了更好地配合后续留出法操作过程以及便于参数标定，将总体数据划分为5份，其中训练数据与测试数据量之比为4:1；

步骤4，分别建立预测A类用户出行方案的logistics模型以及预测B类用户的概率模型，对于A类用户，直接使用采集到的数据进行logistics模型标定；对于B类用户，为了更精准地预测B类用户出行方案，先使用聚类方法根据个人属性数据确定B类所属的总体，再对聚类后的每类总体进行概率模型标定；

步骤5，使用步骤四中标定好的logistics模型为A类用户提出城际出行服务推荐方案，使用步骤4中标定好的概率模型为B类用户推荐城际出行服务方案。

本发明的进一步改进，步骤4中，建立预测A类用户出行方案的logistics模型以及预测B类用户的概率模型的步骤分别为：

步骤41，对于A类用户，先使用训练数据进行logistics模型标定，得到一个初始模型；

步骤42，使用测试数据进行检验，使用误差平方和作为模型检验拟合度，模型检验拟合度越小，预测模型越好，误差平方和公式如下：

其中，ε为误差平方和，y_i为测试数据的真实值，

为测试数据的估计值；

步骤43，使用留出法对数据进行调整，再进行新一轮的模型标定与模型检验，直到所有的数据既有作为训练数据的情况也有作为检验数据的情况；

步骤44，最终使用模型检验拟合度ε最小的模型参数，最终模型如下：

其中：σ(x)为预测分类结果即本专利提出方法的城际出行服务推荐方案，x为一个向量，指代用户的相关信息数据，包括前述的用户性别、年龄及其他用户个人属性数据以及以年为单位的城际出行频率等用户历史出行数据两大类，θ为模型检验拟合度最小时x向量的每个分量的标定参数；

步骤45，对于B类用户，先使用聚类方法，根据个人属性数据，筛选出总体中与该B类用户特征相同的相似总体P，然后统计在相似总体P中使用第i种出行方式的使用人数mi,最后使用基于总体相似用户出行方式频率来标定概率模型，标定好的模型如下：

此处定义：k代表mi/P最大的出行方式。

本发明的进一步改进，步骤43中留出法的数据划分方式如下：

1)基于用户的个人属性数据即性别、收入、年龄、学历、工作进行分层抽样；

2)为了更好地配合后续留出法操作过程以及便于参数标定，将总体数据划分为5份；

3)针对各层用户样本按常用的4：1的比例划分训练数据与测试数据。

本申请一种基于机器学习的用户空铁联程城际出行信息处理方法，有益效果如下：

1)前瞻性地研究空铁联程出行服务，采集相应的数据，可建立对应的数据库，可以为后续相关研究打下良好的数据基础；

2)将机器学习算法应用到交通联程出行新领域，可以解决使用传统人工方法的耗时耗力等弊端，同时精度较高；

3)针对用户个体，本专利提出的方法不但可以简化用户联程出行的复杂决策过程，还可以提供个性化的出行服务，并随着使用次数的增加而愈加精确；

4)空铁联程服务是多方式联程出行服务的典型代表，使用信息服务系统去改善空铁联程出行服务，能够吸引更多用户使用空铁联程服务出行，不但可以方便用户出行，还可以高效利用现有交通资源，有利于交通的可持续发展；

5)本专利虽然着眼在空铁联程角度，但是方法具有良好的可扩展性，对于未来广义多方式联程出行的推广有极强的借鉴意义。

6)基于本专利提出的方法可以用于软件系统设计，能直接投入使用。

附图说明

图1为一种基于机器学习的用户空铁联程城际出行信息处理方法的系统框架图；

图2为A类用户标定logistics模型过程流程图；

图3为B类用户标定概率模型过程流程图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供一种基于机器学习的用户空铁联程城际出行信息处理方法，能够简化用户出行的多阶段信息决策过程，具有高度人性化特点。

实施例一：

如图1所示是一种基于机器学习的用户空铁联程城际出行信息处理方法的系统框架图，主要包括：

步骤1，采集空铁联程城际出行用户的个人属性数据以及用户历史出行数据，其中个人属性数据包含性别、年龄、收入、学历、工作，用户历史出行数据包含用户最近一年内是否使用过空铁联程、用户最近一年内城际出行频率次数、用户最近一年内城际出行的首要目的、用户最近一年内城际出行最常用方式、用户最近一年内平均每次城际出行费用、用户最近一年内城际出行的体验评分，其中用户最近一年内城际出行的体验评分为0到100的整数，数字越大则体验越好。可前往空铁枢纽站使用传统的居民出行调查方法采集空铁联程城际出行用户的个人属性数据以及历史出行数据，也可以通过与相关服务运营商沟通来得到。然后将采集到的信息规格化存储，数据量小的时候可以使用EXCEL存储数据，数据量大的时候可以使用SQL数据库存储数据。

步骤2，对数据进行预处理，由于本方法的提出主要针对的是空铁联程出行用户，因此要将非空铁联程出行用户的数据剔除，之后对空铁联程出行用户的数据进行处理。用户的个人属性数据以及历史出行数据会存在一定程度的缺失现象，当用户的数据存在缺失且缺失的数据项小于等于5项时，使用采集到的全体用户在该缺失数据上的出现次数最多的数据值填补该缺失数据；若单一用户缺失的数据项大于5项，则判定该用户样本为无效样本，直接删除。

步骤3，数据分类以及训练数据与测试数据划分，使用空铁联程出行服务的用户可分为A和B两类，A类为曾经使用过空铁联程出行服务，城际出行频率大于等于5次且采集到的数据是完整有效的用户类别；B类为整体用户类别中除去A类用户类别后剩余的用户类别，为了能够更好地提供信息处理服务，针对两类用户需要分别采用不同的模型去进行预测。因此，需要先将两类用户的数据进行分类，然后针对各类数据进行建模与预测。分别针对两类用户数据划分出训练数据与测试数据，为了更好地配合后续留出法操作过程以及便于参数标定，将总体数据划分为5份，其中训练数据与测试数据量之比为4:1。

步骤4，对于A类用户，使用logistics模型；对于B类用户，使用概率模型。对于A类用户，可以直接使用预处理好的A类数据进行logistics模型参数标定；对于B类用户，为了更为精准地预测B类用户的出行方案，先使用聚类方法根据个人属性确定B类所属的总体，再对聚类后的每类总体进行概率模型标定。

步骤4的两个模型的具体标定过程如下：

对于A类用户的logistics模型，先使用训练数据进行logistics模型标定，得到一个初始模型；然后使用测试数据进行检验，使用误差平方和作为模型检验拟合度，模型检验拟合度越小，预测模型越好，误差平方和公式如下：

其中，ε为误差平方和，y_i为测试数据的真实值，

为测试数据的估计值；

然后使用留出法对数据进行调整，再进行新一轮的模型标定与模型检验，知道所有的数据既有作为训练数据的情况，也有作为检验数据的情况。最终使用模型检验拟合度最小的模型参数，最终模型通式如下：

其中：为预测分类结果即本专利提出方法的城际出行服务推荐方案，x为一个向量，指代用户的相关信息数据，包括前述的用户性别、年龄等用户个人属性数据以及以年为单位的城际出行频率等用户历史出行数据两大类，θ为模型检验拟合度最小时x向量的每个分量的标定参数；

对于B类用户的概率模型，先使用聚类方法，根据个人属性数据，筛选出总体中与B类用户特征相同的相似总体P，然后统计在相似总体P中使用第i种出行方式的使用人数mi,最后使用基于总体相似用户出行方式频率来标定概率模型，标定好的模型如下：

此处定义：k代表mi/P最大的出行方式。

步骤5，针对A类用户，使用标定好的logistics模型为A类用户提出城际出行服务推荐方案；针对B类用户，使用标定好的概率模型为B类用户推荐城际出行服务方案。

实施例二：

下面结合某市实例，结合数据对本发明做进一步说明：

步骤1，在某市联程枢纽进行实地调查，采集到初始数据如下所示：

其中，X0表示用户ID，为统计员后续添加的字段；X1为性别名义变量，1代表男性，0代表女性；X2为年龄，为整数连续变量；X3为收入，0代表收入小于等于3000，1代表收入大于3000小于等于8000，2代表收入大于8000；X4代表学历，0代表本科及以下，1代表硕士，2代表博士及以上；X5代表工作，0代表学生，1代表公务员，2代表私营职员；X6代表最近一年是否使用过空铁联程，0代表无，1代表有；X7代表最近一年内使用空铁联程出行频率次数，为整数连续变量；X8为最近一年内使用空铁联程出行的首要目的，0代表出差，1代表上学/返家，2代表旅游；X9代表最近一年内使用空铁联程服务的常用方式，0代表火车，1代表飞机；X10代表最近一年内使用空铁联程服务的单次平均出行费用，0代表0-500元，1代表500-1000元，2代表大于1000元；X11代表用户最近一年内城际出行的体验评分为0到100的整数，为连续变量。

步骤2，对数据进行预处理。0003号样本的X6的值为0，代表该样本在该空铁联程枢纽不使用空铁联程出行服务，因此，该样本不适用于本方法，进行剔除，同理剔除所有X6为0的样本；0004号样本的用户历史出行数据缺失数据，该样本的数据缺失项大于5项，因此0004号样本也采取删除的操作，同理对其他所有缺失数据项大于5项的样本进行删除；0998号样本的缺失数据项为两项，因此，使用采集到的全体用户在该缺失数据上的出现次数最多的数据值填补对应缺失数据。数据预处理后，对样本编号X0进行更新得到如下数据情况：

由于经过预处理后的所有数据都是使用空铁联程出行服务的样本，因此变量X6在后续的模型标定中不需要考虑。

步骤3，针对变量X7(出行频率)，把数据划分为A类和B类数据，A类为X7对应的值大于等于5的样本集，B类为X7对应的值小于5的样本集，经过处理的两类数据集如下所示：

A类数据集：

B类数据集：

关于训练数据与测试数据的划分，针对A类数据集与B类数据集分别五等分即可，若各类总数不是5的整数倍，由于数据量较多，可删除一些。

步骤4，使用A类数据集去建立针对A类用户的logistics模型，使用B类数据集去建立针对B类用户的概率模型。由于在参数标定过程中涉及到多次迭代优化过程，因此使用计算机来进行标定，可以自行编程实现标定过程，也可以使用统计分析软件如SPSS，STATA等来进行标定。

对于logistics模型，使用X9(最近一年内使用空铁联程服务的常用方式)作为训练因变量，其他变量作为自变量，最终标定模型如下：

Logit(P)＝-0.253+0.083*X1-0.001*X2-0.042*X3+0.051*X4-0.012*X5

+0.026*X7-0.067*X8-0.047*X10+0.003*X11

化为通式形式如下：

其中：

θ＝[-0.253 0.083 -0.001 -0.042 0.051 -0.012 0.026 -0.067 -0.0470.003]

x＝[1 X1 X2 X3 X4 X5 X7 X8 X10 X11]^T

分析结果可见，使用该模型预测，使用火车(X9＝0)的正确预测率为76.6％；使用飞机(X9＝1)的正确预测率为69.3％；模型整体的正确预测率为72.5％，效果较好。

对于概率模型，首先根据用户个人属性数据使用聚类方法划分相似总体，由于本实例使用的数据集中，

B类用户样本数较少，因此此处将聚类数划分为两类，具体使用可灵活调整。聚类结果如下所示：

最后一列(Class)代表各样本所属类别。

之后统计在两类相似总体P中使用第i种出行方式的使用人数mi,最后使用基于总体相似用户出行方式频率来标定概率模型，标定好的模型如下：

步骤5，使用步骤四中标定好的logistics模型为A类用户提出城际出行服务推荐方案，使用步骤4中标定好的概率模型为B类用户推荐城际出行服务方案，示例结果如下：

预测用户	真实值	预测值
			1(B)	1	1
2(A)	1	1
			3(A)	0	0
4(B)	1	1
			5(A)	1	0
6(A)	1	1
			7(A)	0	1
8(B)	0	0
			9(A)	1	1
10(A)	0	0

预测结果显示，在10次随机对A类用户和B类用户进行预测中，只有两次的预测结果与真实结果不同，因此由此可知，在该实例中，采集到的数据与被方法契合度较好，最终标定的模型正确度较高，方法有效。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于机器学习的用户空铁联程城际出行信息处理方法，其特征在于：基于多个机器学习模型产生针对不同的出行服务用户群体的有效信息处理方法，该方法能够针对各个用户生成个性化城际出行服务推荐方案，包括以下步骤：

2.根据权利要求1所述的一种基于机器学习的用户空铁联程城际出行信息处理方法，其特征在于：步骤4中，建立预测A类用户出行方案的logistics模型以及预测B类用户的概率模型的步骤分别为：

其中，ε为误差平方和，y_i为测试数据的真实值，

为测试数据的估计值；

此处定义：k代表mi/P最大的出行方式。

3.根据权利要求2所述的一种基于机器学习的用户空铁联程城际出行信息处理方法，其特征在于：步骤43中留出法的数据划分方式如下：