CN110619422A

CN110619422A - 一种智能车站客流状况预测方法和系统

Info

Publication number: CN110619422A
Application number: CN201910718235.7A
Authority: CN
Inventors: 吴宗泽; 李俊彬; 李建中; 张兴斌; 黄昌演
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2019-12-27

Abstract

本发明公开一种智能车站客流状况预测方法和系统，方法包括步骤：S1：对高铁站客流数据进行采集；S2：大数据平台对原始客流数据预处理，按天统计高铁站的客流量后保存至数据库；S3：从数据库中获取高铁站历史的客流量数据，生成对应的时间序列，训练FOA‑Elman神经网络，所述FOA‑Elman神经网络输出为下一天的客流量预测结果；利用训练完毕的模型预测出次日客流量，并将结果保存至数据库；S4：根据预测出的次日客流量及高铁站的管理部门设定的最大承载客流量、不同客流状况等级的临界阀值，对次日客流状况进行定级，评估出客流的拥挤程度。本发明对预测的客流量进行了客流状况进行评估，以便高铁站管理部门能够提前了解客流状况，拟定客流疏导方案，合理调度人员。

Description

一种智能车站客流状况预测方法和系统

技术领域

本发明涉及智能交通领域，更具体地，涉及一种智能车站客流状况预测方法和系统。

背景技术

随着铁路运输和国民经济的发展，人们的出行需求日益增长，越来越多的居民选择搭乘动车、高铁出行。而高铁站作为人员密集场所，尽管车站在设计初期已经考虑其最大承载客流量，但在运营过程中，仍可能面临高峰客流、突发性大客流等情况。当出现大客流现象时，铁路部门有必要及时了解产生突发客流的原因、规模及其持续的时间等，作出相应的措施疏导人群，防止发生拥挤踩踏事件。目前，高铁站点应对大客流仍较为被动，不能提前准确对客流状况进行预测，并根据客流规模制定合理有效的客流疏导方案。

Spark是近年来流行的分布式计算框架，由加州大学伯克利分校AMP实验室所开发作为下一代的大数据处理引擎，具备高效处理海量数据的能力，在业界广泛使用。Hive最初是由Facebook开发，后来由Apache软件基金会开发，能够将SQL语句转换成MapReduce任务运行，查询和分析方便，适合大数据场景下的统计分析。

Elman神经网络是一种带反馈的神经网络，它在BP神经网络的基础上增加了一层承接层作为一步延时的算子，因此Elman神经网络具有较好的动态记忆能力，适用于时间序列数据的预测问题。而客流量数据作为典型的时间序列数据，特别适合利用Elman神经网络进行预测。但是，Elman神经网络也存在收敛过程不稳定、收敛速度慢、预测精度有待提高等缺点，因此需要进一步地优化。中国台湾学者潘文超于2011年提出果蝇优化算法(FruitFly Optimization Algorithm， FOA)，是基于果蝇的觅食行为推演出全局最优的算法，具有编程简单、收敛稳定、运行速度快等显著特点。采用FOA算法对Elman网络的权值、阈值进行优化，能进一步提高模型的预测精度。目前，FOA-Elman神经网络在微网短期负荷预测、光伏电站短期出力预测等方面已经取得不错的效果。

发明内容

本发明的首要目的是提供一种智能车站客流状况预测方法，通过预测高铁站次日客流量，并结合高铁站实际情况，对客流量划分不同客流状况等级，以便高铁站管理部门提前制定客流疏导方案。

本发明的进一步目的是提供一种智能车站客流状况预测系统。

为解决上述技术问题，本发明的技术方案如下：

一种智能车站客流状况预测方法，包括以下步骤：

S1：数据采集模块对高铁站客流数据进行采集，通过高铁检票进站的方式采集记录旅客进站数据，通过检票出站的方式采集记录旅客出站数据，得到原始客流数据，数据采集模块将采集到的原始客流数据发送至大数据平台进行处理；

S2：大数据平台对原始客流数据预处理，按天统计高铁站的客流量后保存至数据库；

S3：从数据库中获取高铁站历史的客流量数据，生成对应的时间序列，将相邻L天的高铁站客流量作为一组训练样本，训练FOA-Elman神经网络，所述 FOA-Elman神经网络的输入为相邻L天的高铁站客流量，输出为下一天的客流量预测结果；之后，利用训练完毕的模型预测出次日客流量，并将结果保存至数据库；

S4：根据预测出的次日客流量及高铁站的管理部门设定的最大承载客流量、不同客流状况等级的临界阀值，对次日客流状况进行定级，评估出客流的拥挤程度。

优选地，步骤S1中数据采集模块通过MQTT传输协议发送原始客流数据。

优选地，所述大数据平台采用Spark和Hive大数据技术构建，步骤S2中对原始客流数据处理的具体步骤包括：

使用Spark分布式计算框架对MQTT协议传输的原始客流数据进行数据清洗，规整后存入Hive中，以便后续查询统计，同时，采用Hive统计出高铁站每天的客流量，并将结果存入数据库中，以供其他模块调用。

优选地，步骤S3中L为3。

优选地，步骤S3具体包括以下步骤：

S3.1：从数据库中读取客流量数据，生成对应的时间序列，将相邻3天的高铁站客流量作为一组训练样本，神经网络的输入是前3天的客流量，神经网络的输出则是下一天的客流量预测结果；

S3.2：对训练样本的输入输出数据进行归一化，计算公式如下所示：

其中x′_i为经过归一化后的数据，x_i为原始数据，x_max为原始数据的最大值， x_min为原始数据的最小值，l为训练样本数；

S3.3：确定Elman神经网络结构，初始化网络的权值和阈值；对于结构为 m-r-n的Elman网络，m为输入层节点数，r为隐含层节点数，n为输出层节点数，定义w₁为输入层到隐含层的连接权值矩阵，其矩阵维数为r×m；w₂为隐含层到输出层的连接权值矩阵，其矩阵维数为n×r；w₃为网络承接层到隐含层的连接权值矩阵，其矩阵维数为r×r；b₁为输出层神经元的阈值矩阵，其矩阵维数为 n×1；b₂为隐含层神经元的阈值矩阵，其矩阵维数为r×1；

S3.4：利用FOA算法优化Elman网络的权值和阈值，需要优化的参数共有 k个，即在FOA算法优化Elman网络过程中，每只果蝇个体的维度为k，其计算公式如下所示：

k＝r×m+r×r+n×r+r+n；

其中，m为网络输入层节点数，r为网络隐含层节点数，n为网络输出层节点数；

S3.5：训练完成后将得到的FOA-Elman模型的参数存入到数据库当中；

S3.6：采用训练完毕的FOA-Elman模型预测高铁站次日客流量，并将最终结果存入到数据库中，以供其他模块调用。

优选地，步骤S3.4中利用FOA算法优化Elman网络，具体包括以下步骤：

S3.4.1：对FOA算法的参数初始化，包括最大迭代次数maxgen、种群规模 sizepop、果蝇初始位置(X_axis,Y_axis)及固定步长R；

S3.4.2：开始寻优，赋予果蝇个体利用嗅觉搜索食物的随机方向和距离，计算公式如下所示：

X_i＝X_axis+R×rand()

Y_i＝Y_axis+R×rand()

其中，rand()为随机数；

S3.4.3：计算果蝇个体当前位置与原点的距离Dist_i，并取其倒数作为味道浓度判定值S_i，计算公式如下所示：

S3.4.4：用味道浓度判定值表示Elman神经网络的相关优化参数，可得 FOA-Elman模型，将模型预测值和实际值的均方误差e_MSE作为适应度函数，即果蝇个体的味道浓度值Smell_i，计算公式如下所示：

其中，n为预测样本数量，分别为实际值和预测值；

S3.4.5：评价所有果蝇个体，找出味道浓度值最低(即e_MSE最小)的果蝇个体，并判断味道浓度是否优于前一迭代味道浓度，若是，更新记录果蝇的初始位置坐标、最佳味道浓度值，即：

X_axis＝X_bestIndex

Y_axis＝Y_bestIndex

Smell_best＝bestSmell

S3.4.6：判断是否达到最大迭代次数，若是，则结束寻优，否则转至步骤S3.4.2 迭代寻优。

优选地，步骤S3.6包括以下步骤：

S3.6.1：从数据库中读取最近3天的客流量数据和模型参数，对客流量数据归一化后作为模型的输入，用训练完毕的FOA-Elman模型得出模型预测值，其中，输入数据归一化计算公式与步骤S3.2相同，x_max、x_min与模型训练时相同；

S3.6.2：由于训练模型时对输出数据也进行了归一化，因此需要对模型预测值进行反归一化，并四舍五入取整得到实际预测值。反归一化计算公式如下所示：

y′＝(x_max-x_min)×y+x_min

其中，x_max、x_min与模型训练时相同，y为模型预测值，y′为实际预测值

S3.6.3：将预测结果存入数据库中。

优选地，步骤S4包括以下步骤：

S4.1：从数据库中读取高铁站最大承载客流量max_num、不同客流状况等级的临界阀值(a1、a2、a3)、预测客流量pred_num；

S4.2：计算预测客流状况阀值ax，计算公式如下：

S4.3：判断ax是否大于等于a2，若是，则跳转至步骤S4.4，否则，跳转至步骤S4.5；

S4.4：判断ax是否大于等于a3，若是，则客流状况等级为Ⅳ级(大客流状态)，否则，则客流状况等级为Ⅲ级(拥挤状态)；跳转至步骤S4.6；

S4.5：判断ax是否大于等于a1，若是，则客流状况等级为Ⅱ级(常规状态)，否则，则客流状况等级为Ⅰ级(清闲状态)；跳转至步骤S4.6；

S4.6：将结果存入到数据库当中。

客流状况等级按照客流量从小到大的次序，分为Ⅰ、Ⅱ、Ⅲ、Ⅳ四个等级，其中Ⅰ级为清闲状态，此时高铁站旅客相对较少，进出站畅通无阻；Ⅱ级为常规状态，此时旅客能够有序进出站，不会出现拥堵的情况；Ⅲ级为拥挤状态，此时高铁站旅客进出站比较拥挤，高铁站的管理部门应及时对客流进行疏导，保证旅客有序进出站；Ⅳ级为大客流状态，此时高铁站面临客流高峰，应做好防范措施，防止发生安全事故。客流状况定级后，将结果存入到数据库中，以供其他模块调用。

一种智能车站客流状况预测系统，所述系统实现上述所述的预测方法，包括：

数据采集模块，所述数据采集模块对高铁站客流数据进行采集，并将采集到的原始客流数据通过MQTT传输协议发送至大数据平台进行处理；

数据库，所述数据库用于存储高铁站客流数据及其它相关数据，为其它模块提供数据；

大数据平台，所述大数据平台完成客流数据的预处理工作，并按天统计高铁站的客流量后将结果存储至数据库；

客流量预测模块，所述客流量预测模块从数据库中获取高铁站历史的客流量数据，生成对应的时间序列，通过对FOA-Elman神经网络进行训练，由前三天的客流量数据预测出下一天高铁站客流量；

客流状况评估模块，所述客流状况评估模块根据预测出的次日客流量及高铁站的管理部门通过交互系统设定的最大承载客流量、不同客流状况等级的临界阀值，对次日客流状况进行定级，评估出客流的拥挤程度。

优选地，还包括交互系统，所述交互系统提供WEB操作界面，高铁站的管理部门根据高铁站的规模合理地设置客流状况评估的相关参数，包括最大承载客流量及不同客流状况等级的临界阀值，临界阀值的范围在0～1.0之间；同时，高铁站的管理部门能够通过交互系统获取高铁站的客流信息，包括历史客流量及未来客流状况。

与现有技术相比，本发明技术方案的有益效果是：

①本发明考虑到高铁站客流数据的数据量庞大，对系统处理性能要求较高，采用Spark和Hive大数据相关技术构建大数据平台，并通过MQTT协议接收数据采集模块的数据，能够高效处理海量高并发的客流数据，并统计出高铁站每天的客流量，存储到数据库中，以便其他模块调用。

②本发明采用FOA-Elman模型对高铁站次日客流量进行预测，由现有的客流量数据生成时间序列数据，对数据归一化处理后，将相邻三天的客流量数据作为一组训练样本，前三天的客流量作为网络的输入，下一天的客流量预测结果作为网络的输出。由现有数据对模型训练后，选取前三天的客流量数据作为输入预测出高铁站次日客流量。FOA算法具有编程简单、收敛稳定、运行速度快等特点。采用FOA算法优化Elman神经网络的权值和阈值，解决了Elman神经网络学习过程中收敛速度慢、网络训练容易陷入局部最优解等问题，提高了Elman 神经网络的稳定性和泛化能力。实验结果表明FOA-Elman神经网络对于时间序列数据的预测效果优于Elman神经网络。

③本发明对预测的客流量进行了客流状况进行评估，根据高铁站管理部门通过交互系统设定好的最大承载客流量和不同客流状况等级的临界阀值(范围在 0～1.0之间)评估客流的拥挤程度。客流状况评估模块将客流状况分为四个等级，以便高铁站管理部门能够提前了解客流状况，拟定客流疏导方案，合理调度人员。同时，高铁站管理部门可以通过交互系统方便地查询历史客流量及未来客流状况。

附图说明

图1为本发明的预测方法流程图。

图2为本发明的预测系统示意图。

图3为客流量预测模块工作流程图。

图4为客流状况评估模块工作流程图。

图5为实施例中仿真结果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种智能车站客流状况预测方法，如图1，包括以下步骤：

步骤S1中数据采集模块通过MQTT传输协议发送原始客流数据。

步骤S2中所述大数据平台采用Spark和Hive大数据技术构建，步骤S2中对原始客流数据处理的具体步骤包括：

使用Spark分布式计算框架对MQTT协议传输的原始客流数据进行数据清洗，规整后存入Hive中，同时，采用Hive统计出高铁站每天的客流量，并将结果存入数据库中。

步骤S3中L为3。

步骤S3具体包括以下步骤：

S3.3：确定Elman神经网络结构，初始化网络的权值和阈值；

k＝r×m+r×r+n×r+r+n；

S3.6：采用训练完毕的FOA-Elman模型预测高铁站次日客流量。

步骤S3.4中利用FOA算法优化Elman网络，具体包括以下步骤：

X_i＝X_axis+R×rand()

Y_i＝Y_axis+R×rand()

其中，rand()为随机数；

其中，n为预测样本数量，分别为实际值和预测值；

X_axis＝X_bestIndex

Y_axis＝Y_bestIndex

Smell_best＝bestSmell

步骤S3.6包括以下步骤：

y′＝(x_max-x_min)×y+x_min

其中，x_max、x_min与模型训练时相同，y为模型预测值，y′为实际预测值；

S3.6.3：将预测结果存入数据库中。

步骤S4包括以下步骤：

S4.2：计算预测客流状况阀值ax，计算公式如下：

S4.4：判断ax是否大于等于a3，若是，则客流状况等级为IV级(大客流状态)，否则，则客流状况等级为III级(拥挤状态)；跳转至步骤S4.6；

S4.5：判断ax是否大于等于a1，若是，则客流状况等级为II级(常规状态)，否则，则客流状况等级为I级(清闲状态)；跳转至步骤S4.6；

S4.6：将结果存入到数据库当中。

为了验证FOA-Elman神经网络在具体实施过程中对客流数据的预测效果，采用公开的数据集，将列车K11车次2015年8月1日-2015年11月30日的载客量作为样本数据，仿真测试FOA-Elman神经网络对客流量时间序列数据的预测效果。网络的输入是前三天的载客量，网络的输出是下一天的载客量预测结果。共有119组样本，选取前104组作为训练样本，后15组作为测试样本，部分原始数据如表1所示。

表1

序号	第一天客流量	第二天客流量	第三天客流量	第四天客流量
					1	3463	3899	3247	3328
2	3899	3247	3328	3198
					3	3247	3328	3198	3522
4	3328	3198	3522	4043
					5	3198	3522	4043	3684
......	......	......	......	......

对于FOA-Elman神经网络，选取结构为3-9-1，maxgen＝160、sizepop＝50、R＝20。同时，采用Elman神经网络对比预测效果。对于Elman网络，选取结构为3-9-1，学习率和动量因子分别为0.1和0.8，最大允许误差为ε＝10^-5。

预测结果和实际值对比结果如图5所示，其中FOA-Elman神经网络的平均相对误差为12.2％，Elman神经网络的平均相对误差为24.15％，FOA-Elman神经网络的预测效果更好。在实际应用中，可调整相关参数进一步降低平均相对误差，提高预测精度。

实施例2

本实施例提供一种智能车站客流状况预测系统，如图2，所述系统实现实施例1所述的预测方法，包括：

客流量预测模块，所述客流量预测模块从数据库中获取高铁站历史的客流量数据，生成对应的时间序列，通过对FOA-Elman神经网络进行训练，由前三天的客流量数据预测出下一天高铁站客流量；客流量预测模块工作流程如图3，包括以下步骤：

k＝r×m+r×r+n×r+r+n；

步骤S3.4包括以下步骤：

X_i＝X_axis+R×rand()

Y_i＝Y_axis+R×rand()

其中，rand()为随机数；

其中，n为预测样本数量，分别为实际值和预测值；

X_axis＝X_bestIndex

Y_axis＝Y_bestIndex

Smell_best＝bestSmell

步骤S3.6包括以下步骤：

y′＝(x_max-x_min)×y+x_min

S3.6.3：将预测结果存入数据库中。

客流状况评估模块，所述客流状况评估模块根据预测出的次日客流量及高铁站的管理部门通过交互系统设定的最大承载客流量、不同客流状况等级的临界阀值，对次日客流状况进行定级，评估出客流的拥挤程度。客流状况评估模块的工作流程如图4，包括以下步骤：

S4.2：计算预测客流状况阀值ax，计算公式如下：

S4.6：将结果存入到数据库当中。

交互系统，所述交互系统提供WEB操作界面，根据高铁站的规模合理地设置客流状况评估的相关参数，包括最大承载客流量及不同客流状况等级的临界阀值，临界阀值的范围在0～1.0之间；同时，高铁站的管理部门能够通过交互系统获取高铁站的客流信息，包括历史客流量及未来客流状况。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种智能车站客流状况预测方法，其特征在于，包括以下步骤：

S3：从数据库中获取高铁站历史的客流量数据，生成对应的时间序列，将相邻L天的高铁站客流量作为一组训练样本，训练FOA-Elman神经网络，所述FOA-Elman神经网络的输入为相邻L天的高铁站客流量，输出为下一天的客流量预测结果；利用训练完毕的模型预测出次日客流量，并将结果保存至数据库；

2.根据权利要求1所述的智能车站客流状况预测方法，其特征在于，步骤S1中数据采集模块通过MQTT传输协议发送原始客流数据。

3.根据权利要求2所述的智能车站客流状况预测方法，其特征在于，所述大数据平台采用Spark和Hive大数据技术构建，步骤S2中对原始客流数据处理的具体步骤包括：

4.根据权利要求1所述的智能车站客流状况预测方法，其特征在于，步骤S3中L为3。

5.根据权利要求4所述的智能车站客流状况预测方法，其特征在于，步骤S3具体包括以下步骤：

其中x′_i为经过归一化后的数据，x_i为原始数据，x_max为原始数据的最大值，x_min为原始数据的最小值，l为训练样本数；

S3.3：确定Elman神经网络结构，初始化网络的权值和阈值；

S3.4：利用FOA算法优化Elman网络参数的权值和阈值，需要优化的参数共有k个，即在FOA算法优化Elman网络过程中，每只果蝇个体的维度为k，其计算公式如下所示：

k＝r×m+r×r+n×r+r+n

其中，m为网络输入层节点数，r为网络隐含层节点数，n为网络输出层节点数。

S3.6：采用训练完毕的FOA-Elman模型预测高铁站次日客流量。

6.根据权利要求5所述的智能车站客流状况预测方法，其特征在于，步骤S3.4中利用FOA算法优化的Elman网络，具体包括以下步骤：

S3.4.1：对FOA算法的参数初始化，包括最大迭代次数maxgen、种群规模sizepop、果蝇初始位置(X_axis，Y_axis)及固定步长R；

X_i＝X_axis+R×rand()

Y_i＝Y_axis+R×rand()

其中，rand()为随机数；

S3.4.4：用味道浓度判定值表示Elman神经网络的相关优化参数，可得FOA-Elman模型，将模型预测值和实际值的均方误差e_MSE作为适应度函数，即果蝇个体的味道浓度值Smell_i，计算公式如下所示：

其中，n为预测样本数量，分别为实际值和预测值；

X_axis＝X_bestIndex

Y_axis＝Y_bestIndex

Smell_best＝bestSmell

S3.4.6：判断是否达到最大迭代次数，若是，则结束寻优，否则转至步骤S3.4.2迭代寻优。

7.根据权利要求6所述的智能车站客流状况预测方法，其特征在于，步骤S3.6包括以下步骤：

S3.6.2：由于训练模型时对输出数据也进行了归一化，因此需要对模型预测值进行反归一化，并四舍五入取整得到实际预测值，反归一化计算公式如下所示：

y′＝(x_max-x_min)×y+x_min

S3.6.3：将预测结果存入数据库中。

8.根据权利要求1所述的智能车站客流状况预测方法，其特征在于，步骤S4包括以下步骤：

S4.2：计算预测客流状况阀值ax，计算公式如下：

S4.6：将结果存入到数据库当中。

9.一种智能车站客流状况预测系统，其特征在于，所述系统实现权利要求1至8任一项所述的预测方法，包括：

大数据平台，所述大数据平台完成客流数据的预处理工作，并按天统计高铁站的客流量后存储至数据库；

10.根据权利要求9所述的智能车站客流状况预测系统，其特征在于，还包括交互系统，所述交互系统提供WEB操作界面，根据高铁站的规模合理地设置客流状况评估的相关参数，包括最大承载客流量及不同客流状况等级的临界阀值，临界阀值的范围在0～1.0之间；同时，高铁站的管理部门能够通过交互系统获取高铁站的客流信息，包括历史客流量及未来客流状况。