CN114757447B - 一种多模型混合的客运枢纽站客流量预测方法及系统 - Google Patents

一种多模型混合的客运枢纽站客流量预测方法及系统 Download PDF

Info

Publication number
CN114757447B
CN114757447B CN202210638225.4A CN202210638225A CN114757447B CN 114757447 B CN114757447 B CN 114757447B CN 202210638225 A CN202210638225 A CN 202210638225A CN 114757447 B CN114757447 B CN 114757447B
Authority
CN
China
Prior art keywords
data
passenger
train number
passenger flow
daily
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210638225.4A
Other languages
English (en)
Other versions
CN114757447A (zh
Inventor
黄婉玲
周韦岐
陈扬航
卢洁楚
傅惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210638225.4A priority Critical patent/CN114757447B/zh
Publication of CN114757447A publication Critical patent/CN114757447A/zh
Application granted granted Critical
Publication of CN114757447B publication Critical patent/CN114757447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本发明涉及交通客流预测的技术领域,并公开了一种多模型混合的客运枢纽站客流量预测方法及系统,方法中,结合运行区段日客流量预测模型和车次客流量预测模型的模型,首先预测各运行区段间的日总客流量,之后将区段间的总流量分配到区段间的各车次上,以提高客流预测的精度。同时将预测值结合旅客的进站规律,将预测结果落实到更小的时间单位,输出预测目标日每个小时的进站客流量预测值,为客运枢纽站提供定点的数据支持,以制定更优的客流管制方案。

Description

一种多模型混合的客运枢纽站客流量预测方法及系统
技术领域
本发明涉及交通数据预测的技术领域,尤其涉及到一种多模型混合的客运枢纽站客流量预测方法及系统。
背景技术
近年来,随着我国高速铁路网络的逐渐完善,生产要素在交通圈内的流动日益频繁,进一步助推了新型城镇化发展进程的不断加快。在此过程中,都市圈内的同城化效应开始显现,高速铁路城际客流规模不断扩大,并随之出现高密度、通勤化、随机性的新特征。
现如今,影响铁路客流量的因素多,节假日、疫情状态等都会导致客流量的较大波动,从而加大了高铁站场客流预测的难度。对客运站场管理而言,以往仅依靠人工观测、经验推断的方法预测客流量,得到的结果准确度不高,因此迫切需要一套智能化、精细化的旅客数据分析流程与基于大数据的精确客流预测方法作为技术支撑,为铁路客运枢纽规划建设和运营管理提供直观、定量、科学的辅助决策工具。
目前常用的客流预测方法可大致分为两类,第一类方法是参数模型,包括指数平滑模型、灰色预测模型、自回归综合移动平均模型(ARIMA)等。第二类方法是非参数模型,包括支持向量机与神经网络模型等。其中,神经网络模型因其具有自适应性、非线性、任意函数性和映射能力等特点,在近年的铁路客流短期预测中得到了大量应用,成为研究的热点。
通过对现有的客运枢纽站客流预测方法的总结与归纳,得到以下两点问题:①铁路客流预测的短期预测一般以月份、星期、日为时间单位进行,但其预测结果无法落实到更具体的时间段。②影响铁路客运站客流量的因素多,造成客流波动性大、随机性强的特点,预测结果的准确性不高。
发明内容
本发明的目的在于克服现有技术的不足,提供一种多模型混合的客运枢纽站客流量预测方法,该方法基于多模型混合的客流量预测与车次客流量预测模型,模型的输入为历史客票数据、历史旅客轨迹数据和实时客票数据,输出为未来的日客流量水平及未来车次客流量水平,并结合旅客到站规律输出未来的小时客流量水平。
为实现上述目的,本发明所提供的技术方案为:
一种多模型混合的客运枢纽站客流量预测方法,包括以下步骤:
S1、收集客运枢纽站客票数据、日车次数据、探针数据、车次检票口数据并上传至大数据平台;
S2、基于大数据平台,查询客票数据及日车次数据,并对查询得到的数据进行预处理;
S3、基于大数据平台,形成运行区段日客流量预测模型的训练数据集以及车次客流量预测模型的训练数据集;
S4、对运行区段日客流量预测模型和车次客流量预测模型的训练数据集中的非数值字段进行编码操作,转化为数值;
S5、将步骤S4得到的训练数据集按比例随机拆分为机器学习的训练集和测试集;
S6、结合步骤S5得到的训练集和测试集,从包括有多个机器学习算法的算法池中找出最优的模型算法,分别作为运行区段日客流量预测模型和车次客流量预测模型的模型;
S7、结合运行区段日客流量预测模型和车次客流量预测模型的模型,经运行区段客流量预测-车次客流量预测的递阶预测,输出目标预测日期下各车次的预测出行人数;
S8、对探针数据进行处理,得到旅客的进站规律;
S9、将步骤S7得到的目标预测日期下各车次的预测出行人数和步骤S8得到的旅客的进站规律结合,从而得到目标预测日期下每小时的进站人数预测值。
进一步地,客票数据包含交易时间、票状态、票号、印票标记、车厢、席位、起始站、终点站在内的字段;
日车次数据包括车次号、开车时间、运行区段、列车定员数、售出合计在内的字段;
探针数据是由多个Wifi探针放置在站场内经过多天收集到的旅客设备数据,一条数据记录一个旅客设备,数据字段包含探针设备Id、旅客设备唯一标识码、旅客设备距离探针设备的距离、数据的采集时间;
车次检票口数据包括车次、检票口、起始站、终点站、开车时间在内的字段。
进一步地,对查询得到的数据进行预处理,包括:
结合客票数据及日车次数据,取两者相交的时间段,并提取两者中的有效字段;
对数据中包括时间、车次、席位在内的数据字段作统一规范化的处理;
识别客票数据中的被退票的记录,并进行清洗:对相同日期相同车次相同车厢相同席位的多条交易记录,仅保留交易时间最晚的一条记录;
日车次数据中,对存在车次信息模糊的情况,通过数据的联表操作,判断车次的正确编号,并予以纠正。
进一步地,形成运行区段日客流量预测模型的训练数据集的过程包括:
基于大数据平台,从客票数据及日车次数据中获取各日期下,各运行区段已售车票数量、各运行区段间车次运能总和、各运行区段所属线路的参数,匹配同一日期下的星期特征及节假日特征,形成运行区段日客流量预测模型的训练数据集;其中,星期特征标识着一个星期周期内的每一个特征日,星期一为1,星期二为2,以此类推;节日假特征标识着法定节假日,若为法定节假日则为1,否则为0;
形成车次客流量预测模型的训练数据集的过程包括:
基于大数据平台,从客票数据及日车次数据中获取各日期下,各运行区段的日客流量、各运行区段间发车次数、车次、各车次发车时间的参数,形成车次客流量预测模型的训练数据集。
进一步地,步骤S6包括:
对算法池里的多个模型算法,通过交叉验证,进行模型的自动调参,分别输出多个模型算法的最优结果和参数;
基于测试集,使用解释方差分和拟合优度决定系数评价多个模型的预测效果:
其中,解释方差分
Figure 29167DEST_PATH_IMAGE002
衡量的是所有预测值和样本之间的差的分散程度与样本本身的分散程度的相近程度,计算公式如下:
Figure 523733DEST_PATH_IMAGE003
(1)
拟合优度决定系数
Figure 446559DEST_PATH_IMAGE005
衡量的是预测值对于真值的拟合好坏程度,计算公式如下:
Figure 678082DEST_PATH_IMAGE006
(2)
式(1)和式(2)中,
Figure 707480DEST_PATH_IMAGE007
为预测结果,y为真实值,
Figure 920418DEST_PATH_IMAGE008
为样本均值;n为样本数据量;
接着求出多个模型对应的评价值
Figure 596119DEST_PATH_IMAGE009
,输出评价值最接近1的模型,分别作为运行区段日客流量预测模型和车次客流量预测模型。
进一步地,运行区段客流量预测-车次客流量预测的递阶预测包括:
将日期、星期特征、节假日特征、运行区段、已售车票数量、运能总和、所属线路输入至运行区段日客流量预测模型,预测得到对应的日期-运行区段-区段日流量数据;
接着将得到的对应的日期-运行区段-区段日流量数据以及对应的各运行区段间发车频次、各车次发车时间输入至车次客流量预测模型的模型,预测得到目标预测日期下各车次的预测出行人数。
进一步地,探针数据包括测试数据及旅客数据;测试数据为现场测试记录的客运枢纽站内各检票口的探测特征数据;
步骤S8具体包括:
S8-1、对测试数据进行处理,输出检票口探测特征数据:检票口-可接收的探针设备Id-有效探测范围;
S8-2、利用旅客的唯一标识码,对旅客数据分组,一组数据为一位旅客的探测信息;
当一组数据同时满足以下三个筛选条件时,保留该组旅客信息;
三个筛选条件分别为:①首次出现的信息是被安检口处的设备捕捉到的;②一组数据包含不止一条的数据;③首次出现的时间与最后一次出现的时间间隔小于设定小时数。
S8-3、基于S8-1输出的检票口探测特征数据对S8-2保留的旅客信息进行特征匹配,包括可接收设备Id号的匹配以及探测距离的匹配,旅客取其最后5分钟的逗留数据,最终输出旅客-检票口的对应关系;
其中,探测距离采取方差的计算方式,记旅客A在检票口B被设备C探测到的距离为x,而检票口B被设备C探测到的有效距离范围为
Figure 5234DEST_PATH_IMAGE010
Figure 59778DEST_PATH_IMAGE012
指旅客在检票口B被设备C探测到的最小有效距离值,
Figure 178038DEST_PATH_IMAGE014
指旅客在检票口B被设备C探测到的最大有效距离值;当x∈
Figure 91767DEST_PATH_IMAGE015
时,认为旅客可能与该检票口B对应,则存在一个旅客对应多个检票口的情况,此时取探测距离方差最小的检票口;
探测距离方差D的计算方式如下:
Figure 288262DEST_PATH_IMAGE016
(3)
S8-4、结合车次检票口数据对得到的旅客-检票口的对应关系进行校验,当满足检票口相同,且最后一条数据的时间与检票时间相匹配时,将旅客与车次联系,最终输出旅客-车次的对应关系;
S8-5、结合车次-线路的对应关系,最终输出旅客在站场内逗留的时间,拟合得到各线路旅客提前到站时间的规律。
进一步地,算法池中的机器学习算法包括Adaboost、K-Nearest Neighbor、Gradient BoostRegression Tree、Support Vector Machine、Bagging、RandomForest。
为实现上述目的,本发明另外提供一种多模型混合的客运枢纽站客流量预测系统,其包括包括数据收集模块、大数据平台、数据查询及预处理模块、数据匹配模块、数据编码模块、数据拆分模块、模型选择模块、递阶预测模块、探针数据处理模块、进站人数预测模块;
其中,
所述数据收集模块,用于收集客运枢纽站客票数据、日车次数据、探针数据、车次检票口数据并上传至大数据平台;
所述大数据平台,用于存储数据;
所述数据查询及预处理模块,用于查询客票数据及日车次数据,并对查询得到的数据进行预处理;
所述数据匹配模块,用于形成运行区段日客流量预测模型的训练数据集以及车次客流量预测模型的训练数据集;
所述数据编码模块,用于对运行区段日客流量预测模型和车次客流量预测模型的训练数据集中的非数值字段进行编码操作,转化为数值;
所述数据拆分模块,用于将训练数据集按比例随机拆分为机器学习的训练集和测试集;
所述模型选择模块,用于从包括有多个机器学习算法的算法池中找出最优的模型算法,分别作为运行区段日客流量预测模型和车次客流量预测模型的模型;
所述递阶预测模块,用于结合运行区段日客流量预测模型和车次客流量预测模型的模型,进行运行区段客流量预测-车次客流量预测的递阶预测,输出目标预测日期下各车次的预测出行人数;
所述探针数据处理模块,用于对探针数据进行处理,得到旅客的进站规律;
所述进站人数预测模块,用于将得到的目标预测日期下各车次的预测出行人数和得到的旅客的进站规律结合,得到目标预测日期下每小时的进站人数预测值。
与现有技术相比,本方案原理及优点如下:
从模型的结构特征来看,本方案有以下两个优点,①采用运行区段客流量预测-车次客流量预测的递阶预测方法,首先预测目标日各运行区段间的客流量,再将各运行区段间的客流量根据历史数据规律,预测目标日各车次的客流量。比起直接预测各车次的客流量,模型的预测效果大大提高。其中运行区段客流量预测模型的综合得分为0.964,车次客流量预测模型的综合得分为0.857。②从储存有多个机器学习算法的算法池中选出效果最优的模型,提高了模型预测的精准度。
从模型的应用场景来看,本方案的优点有:①运行区段日客流量预测模型的输入中加入星期特征和节假日特征,提高了运行区段日客流量的预测精度。②根据该客运枢纽站截至开车前一天凌晨,各车次累计的已售票数据,预测发车当天的各车次客流量,提出以“已售票数量”预测“最终出行人数”的机制,提高了预测的精准度,且使预测结果能够落实到每一车次上。③车次客流量预测值,结合旅客的提前到站时间分布,预测结果的时间单位可具体到目标日期下各小时的客流量。为铁路方制定客流管制计划提供精准定点的数据支撑,提升运营的稳定度,减少站场的运营浪费。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种多模型混合的客运枢纽站客流量预测方法中生成最优预测模型的原理流程图;
图2为本发明一种多模型混合的客运枢纽站客流量预测方法中步骤S7-S9的原理流程图;
图3为本发明一种多模型混合的客运枢纽站客流量预测方法中探针数据的处理流程图;
图4为本发明一种多模型混合的客运枢纽站客流量预测系统的结构示意图。
附图标记:
1-数据收集模块;2-大数据平台;3-数据查询及预处理模块;4-数据匹配模块;5-数据编码模块;6-数据拆分模块;7-模型选择模块;8-递阶预测模块;9-探针数据处理模块;10-进站人数预测模块。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
如图1至图3所示,本实施例所述的一种多模型混合的客运枢纽站客流量预测方法,包括以下步骤:
S1、收集客运枢纽站客票数据、日车次数据、探针数据、车次检票口数据并上传至大数据平台;
本步骤中,客票数据包含交易时间、票状态、票号、印票标记、车厢、席位、起始站、终点站在内的字段;日车次数据包括车次号、开车时间、运行区段、列车定员数、售出合计在内的字段;探针数据是由6个Wifi探针放置在站场内经过20天收集到的旅客设备数据,一条数据记录一个旅客设备,数据字段包含探针设备Id、旅客设备唯一标识码、旅客设备距离探针设备的距离、数据的采集时间;车次检票口数据包括车次、检票口、起始站、终点站、开车时间在内的字段。
S2、基于大数据平台,查询客票数据及日车次数据,并对查询得到的数据进行预处理;
本步骤中,对查询得到的数据进行预处理,包括:
结合客票数据及日车次数据,取两者相交的时间段,并提取两者中的有效字段;对数据中包括时间、车次、席位在内的数据字段作统一规范化的处理;识别客票数据中的被退票的记录,并进行清洗:对相同日期相同车次相同车厢相同席位的多条交易记录,仅保留交易时间最晚的一条记录;日车次数据中,对存在车次信息模糊的情况,如“G6309/12/01”,针对此部分数据,通过数据的联表操作,判断车次的正确编号,并予以纠正。
S3、基于大数据平台,形成运行区段日客流量预测模型的训练数据集以及车次客流量预测模型的训练数据集;
形成运行区段日客流量预测模型的训练数据集的过程包括:
基于大数据平台,从客票数据及日车次数据中获取各日期下,各运行区段已售车票数量、各运行区段间车次运能总和、各运行区段所属线路的参数,匹配同一日期下的星期特征及节假日特征,形成运行区段日客流量预测模型的训练数据集;其中,星期特征标识着一个星期周期内的每一个特征日,星期一为1,星期二为2,以此类推;节日假特征标识着法定节假日,若为法定节假日则为1,否则为0;
形成车次客流量预测模型的训练数据集的过程包括:
基于大数据平台,从客票数据及日车次数据中获取各日期下,各运行区段的日客流量、各运行区段间发车次数、车次、各车次发车时间的参数,形成车次客流量预测模型的训练数据集。
S4、对运行区段日客流量预测模型和车次客流量预测模型的训练数据集中的非数值字段进行编码操作,转化为数值;
S5、将步骤S4得到的训练数据集按9:1的比例随机拆分为机器学习的训练集和测试集;
S6、结合步骤S5得到的训练集和测试集,从包括有6个机器学习算法的算法池中找出最优的模型算法,分别作为运行区段日客流量预测模型和车次客流量预测模型的模型;
算法池中的机器学习算法包括Adaboost、K-Nearest Neighbor、GradientBoostRegression Tree、Support Vector Machine、Bagging、RandomForest。
本步骤包括:
对算法池里的多个模型算法,通过交叉验证,进行模型的自动调参,分别输出多个模型算法的最优结果和参数;
基于测试集,使用解释方差分和拟合优度决定系数评价多个模型的预测效果:
其中,解释方差分
Figure 603837DEST_PATH_IMAGE018
衡量的是所有预测值和样本之间的差的分散程度与样本本身的分散程度的相近程度,计算公式如下:
Figure 735741DEST_PATH_IMAGE019
(1)
拟合优度决定系数
Figure 153078DEST_PATH_IMAGE021
衡量的是预测值对于真值的拟合好坏程度,计算公式如下:
Figure 169576DEST_PATH_IMAGE022
(2)
式(1)和式(2)中,
Figure 854504DEST_PATH_IMAGE007
为预测结果,y为真实值,
Figure 298255DEST_PATH_IMAGE023
为样本均值;n为样本数据量;
接着求出多个模型对应的评价值
Figure 191169DEST_PATH_IMAGE024
,输出评价值最接近1的模型,分别作为运行区段日客流量预测模型和车次客流量预测模型。
S7、结合运行区段日客流量预测模型和车次客流量预测模型的模型,经运行区段客流量预测-车次客流量预测的递阶预测,输出目标预测日期下各车次的预测出行人数;
本步骤的具体过程为:
将日期、星期特征、节假日特征、运行区段、已售车票数量、运能总和、所属线路输入至运行区段日客流量预测模型,预测得到对应的日期-运行区段-区段日流量数据;
接着将得到的对应的日期-运行区段-区段日流量数据以及对应的各运行区段间发车频次、各车次发车时间输入至车次客流量预测模型的模型,预测得到目标预测日期下各车次的预测出行人数。
S8、对探针数据进行处理,得到旅客的进站规律;
探针数据包括测试数据及旅客数据;测试数据为现场测试记录的客运枢纽站内各检票口的探测特征数据;
本步骤的具体过程如下:
S8-1、对测试数据进行处理,输出检票口探测特征数据:检票口-可接收的探针设备Id-有效探测范围;
S8-2、利用旅客的唯一标识码,对旅客数据分组,一组数据为一位旅客的探测信息;
当一组数据同时满足以下三个筛选条件时,保留该组旅客信息;
三个筛选条件分别为:①首次出现的信息是被安检口处的设备捕捉到的;②一组数据包含不止一条的数据;③首次出现的时间与最后一次出现的时间间隔小于设定小时数。
S8-3、基于S8-1输出的检票口探测特征数据对S8-2保留的旅客信息进行特征匹配,包括可接收设备Id号的匹配以及探测距离的匹配,旅客取其最后5分钟的逗留数据,最终输出旅客-检票口的对应关系;
其中,探测距离采取方差的计算方式,记旅客A在检票口B被设备C探测到的距离为x,而检票口B被设备C探测到的有效距离范围为
Figure 135992DEST_PATH_IMAGE010
Figure 504787DEST_PATH_IMAGE026
指旅客在检票口B被设备C探测到的最小有效距离值,
Figure DEST_PATH_IMAGE027
指旅客在检票口B被设备C探测到的最大有效距离值;当x∈
Figure 650598DEST_PATH_IMAGE015
时,认为旅客可能与该检票口B对应,则存在一个旅客对应多个检票口的情况,此时取探测距离方差最小的检票口;
探测距离方差D的计算方式如下:
Figure 511369DEST_PATH_IMAGE016
(3)
S8-4、结合车次检票口数据对得到的旅客-检票口的对应关系进行校验,当满足检票口相同,且最后一条数据的时间与检票时间相匹配时,将旅客与车次联系,最终输出旅客-车次的对应关系;
S8-5、结合车次-线路的对应关系,最终输出旅客在站场内逗留的时间,拟合得到各线路旅客提前到站时间的规律。
S9、将步骤S7得到的目标预测日期下各车次的预测出行人数和步骤S8得到的旅客的进站规律结合,从而得到目标预测日期下每小时的进站人数预测值。
如图4所示,本实施例还另外涉及到一种多模型混合的客运枢纽站客流量预测系统,其包括数据收集模块1、大数据平台2、数据查询及预处理模块3、数据匹配模块4、数据编码模块5、数据拆分模块6、模型选择模块7、递阶预测模块8、探针数据处理模块9、进站人数预测模块10;
其中,
所述数据收集模块1,用于收集客运枢纽站客票数据、日车次数据、探针数据、车次检票口数据并上传至大数据平台;
所述大数据平台2,用于存储数据;
所述数据查询及预处理模块3,用于查询客票数据及日车次数据,并对查询得到的数据进行预处理;
所述数据匹配模块4,用于形成运行区段日客流量预测模型的训练数据集以及车次客流量预测模型的训练数据集;
所述数据编码模块5,用于对运行区段日客流量预测模型和车次客流量预测模型的训练数据集中的非数值字段进行编码操作,转化为数值;
所述数据拆分模块6,用于将训练数据集按比例随机拆分为机器学习的训练集和测试集;
所述模型选择模块7,用于从包括有多个机器学习算法的算法池中找出最优的模型算法,分别作为运行区段日客流量预测模型和车次客流量预测模型的模型;
所述递阶预测模块8,用于结合运行区段日客流量预测模型和车次客流量预测模型的模型,进行运行区段客流量预测-车次客流量预测的递阶预测,输出目标预测日期下各车次的预测出行人数;
所述探针数据处理模块9,用于对探针数据进行处理,得到旅客的进站规律;
所述进站人数预测模块10,用于将得到的目标预测日期下各车次的预测出行人数和得到的旅客的进站规律结合,得到目标预测日期下每小时的进站人数预测值。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (8)

1.一种多模型混合的客运枢纽站客流量预测方法,其特征在于,包括以下步骤:
S1、收集客运枢纽站客票数据、日车次数据、探针数据、车次检票口数据并上传至大数据平台;
S2、基于大数据平台,查询客票数据及日车次数据,并对查询得到的数据进行预处理;
S3、基于大数据平台,将步骤S2已经过预处理的查询得到的客票数据及日车次数据形成运行区段日客流量预测模型的训练数据集以及车次客流量预测模型的训练数据集;
S4、对运行区段日客流量预测模型和车次客流量预测模型的训练数据集中的非数值字段进行编码操作,转化为数值;
S5、将步骤S4得到的训练数据集按比例随机拆分为机器学习的训练集和测试集;
S6、结合步骤S5得到的训练集和测试集,从包括有多个机器学习算法的算法池中找出最优的模型算法,分别作为运行区段日客流量预测模型和车次客流量预测模型的模型;
S7、结合运行区段日客流量预测模型和车次客流量预测模型的模型,经运行区段客流量预测-车次客流量预测的递阶预测,输出目标预测日期下各车次的预测出行人数;
S8、对探针数据进行处理,得到旅客的进站规律;
S9、将步骤S7得到的目标预测日期下各车次的预测出行人数和步骤S8得到的旅客的进站规律结合,从而得到目标预测日期下每小时的进站人数预测值;
探针数据包括测试数据及旅客数据;测试数据为现场测试记录的客运枢纽站内各检票口的探测特征数据;旅客数据包括由多个Wifi探针放置在站场内经过多天收集到的旅客设备数据,一条旅客数据记录一个旅客设备,数据字段包含探针设备Id、旅客设备唯一标识码、旅客设备距离探针设备的距离、数据的采集时间;
运行区段客流量预测-车次客流量预测的递阶预测包括:
将日期、星期特征、节假日特征、运行区段、已售车票数量、运能总和、所属线路输入至运行区段日客流量预测模型,预测得到对应的日期-运行区段-区段日流量数据;
接着将得到的对应的日期-运行区段-区段日流量数据以及对应的各运行区段间发车频次、各车次发车时间输入至车次客流量预测模型的模型,预测得到目标预测日期下各车次的预测出行人数。
2.根据权利要求1所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,客票数据包含交易时间、票状态、票号、印票标记、车厢、席位、起始站、终点站在内的字段;
日车次数据包括车次号、开车时间、运行区段、列车定员数、售出合计在内的字段;
车次检票口数据包括车次、检票口、起始站、终点站、开车时间在内的字段。
3.根据权利要求2所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,对查询得到的数据进行预处理,包括:
结合客票数据及日车次数据,取两者相交的时间段,并提取两者中的有效字段;
对数据中包括时间、车次、席位在内的数据字段作统一规范化的处理;
识别客票数据中的被退票的记录,并进行清洗:对相同日期相同车次相同车厢相同席位的多条交易记录,仅保留交易时间最晚的一条记录;
日车次数据中,对存在车次信息模糊的情况,通过数据的联表操作,判断车次的正确编号,并予以纠正。
4.根据权利要求1所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,形成运行区段日客流量预测模型的训练数据集的过程包括:
基于大数据平台,从客票数据及日车次数据中获取各日期下,各运行区段已售车票数量、各运行区段间车次运能总和、各运行区段所属线路的参数,匹配同一日期下的星期特征及节假日特征,形成运行区段日客流量预测模型的训练数据集;其中,星期特征标识着一个星期周期内的每一个特征日,星期一为1,星期二为2,以此类推;节日假特征标识着法定节假日,若为法定节假日则为1,否则为0;
形成车次客流量预测模型的训练数据集的过程包括:
基于大数据平台,从客票数据及日车次数据中获取各日期下,各运行区段的日客流量、各运行区段间发车次数、车次、各车次发车时间的参数,形成车次客流量预测模型的训练数据集。
5.根据权利要求1所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,步骤S6包括:
对算法池里的多个模型算法,通过交叉验证,进行模型的自动调参,分别输出多个模型算法的最优结果和参数;
基于测试集,使用可解释方差Evar和拟合优度决定系数R2评价多个模型的预测效果:
其中,可解释方差Evar衡量的是所有预测值和样本之间的差的分散程度与样本本身的分散程度的相近程度,其计算公式如下:
Figure FDA0003809101960000031
拟合优度决定系数R2衡量的是预测值对于真值的拟合好坏程度,其计算公式如下:
Figure FDA0003809101960000032
式(1)和式(2)中,
Figure FDA0003809101960000041
为预测结果,y为真实值,
Figure FDA0003809101960000042
为样本均值,n为样本数据量;
接着求出多个模型对应的评价值Evar*0.5+R2*0.5,输出评价值最接近1的模型,分别作为运行区段日客流量预测模型和车次客流量预测模型。
6.根据权利要求1所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,步骤S8具体包括:
S8-1、对测试数据进行处理,输出处理后的测试数据,即处理后的检票口探测特征数据,该处理后的检票口探测特征数据为:检票口-可接收的探针设备Id-有效探测范围;
S8-2、利用旅客设备唯一标识码,对旅客数据分组,一组数据为一位旅客的探测信息;
当一组数据同时满足以下三个筛选条件时,保留该组数据,即保留对应的旅客信息;
三个筛选条件分别为:①首次出现的信息是被安检口处的设备捕捉到的;②一组数据包含不止一条的数据;③首次出现的时间与最后一次出现的时间间隔小于设定小时数;
S8-3、基于S8-1输出的检票口探测特征数据对S8-2保留的旅客信息进行特征匹配,包括可接收设备Id号的匹配以及探测距离的匹配,旅客取其最后5分钟的逗留数据,最终输出旅客-检票口的对应关系;
其中,探测距离采取方差的计算方式,记旅客A在检票口B被设备C探测到的距离为x,而检票口B被设备C探测到的有效距离范围为[Cy0,Cy1],Cy0指旅客在检票口B被设备C探测到的最小有效距离值,Cy1指旅客在检票口B被设备C探测到的最大有效距离值;当x∈[Cy0,Cy1]时,认为旅客可能与该检票口B对应,则存在一个旅客对应多个检票口的情况,此时取探测距离方差最小的检票口;
探测距离方差D的计算方式如下:
Figure FDA0003809101960000051
S8-4、结合车次检票口数据对得到的旅客-检票口的对应关系进行校验,当满足检票口相同,且最后一条数据的时间与检票时间相匹配时,将旅客与车次联系,最终输出旅客-车次的对应关系;
S8-5、结合车次-线路的对应关系,最终输出旅客在站场内逗留的时间,拟合得到各线路旅客提前到站时间的规律。
7.根据权利要求1或5所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,算法池中的机器学习算法包括Adaboost、K-Nearest Neighbor、GradientBoostRegression Tree、Support Vector Machine、Bagging、RandomForest。
8.一种多模型混合的客运枢纽站客流量预测系统,其特征在于,包括数据收集模块、大数据平台、数据查询及预处理模块、数据匹配模块、数据编码模块、数据拆分模块、模型选择模块、递阶预测模块、探针数据处理模块、进站人数预测模块;
其中,
所述数据收集模块,用于收集客运枢纽站客票数据、日车次数据、探针数据、车次检票口数据并上传至大数据平台;
探针数据包括测试数据及旅客数据;测试数据为现场测试记录的客运枢纽站内各检票口的探测特征数据;旅客数据包括由多个Wifi探针放置在站场内经过多天收集到的旅客设备数据,一条旅客数据记录一个旅客设备,数据字段包含探针设备Id、旅客设备唯一标识码、旅客设备距离探针设备的距离、数据的采集时间;
所述大数据平台,用于存储数据;
所述数据查询及预处理模块,用于查询客票数据及日车次数据,并对查询得到的数据进行预处理;
所述数据匹配模块,用于将已经过预处理的查询得到的客票数据及日车次数据形成运行区段日客流量预测模型的训练数据集以及车次客流量预测模型的训练数据集;
所述数据编码模块,用于对运行区段日客流量预测模型和车次客流量预测模型的训练数据集中的非数值字段进行编码操作,转化为数值;
所述数据拆分模块,用于将训练数据集按比例随机拆分为机器学习的训练集和测试集;
所述模型选择模块,用于从包括有多个机器学习算法的算法池中找出最优的模型算法,分别作为运行区段日客流量预测模型和车次客流量预测模型的模型;
所述递阶预测模块,用于结合运行区段日客流量预测模型和车次客流量预测模型的模型,进行运行区段客流量预测-车次客流量预测的递阶预测,输出目标预测日期下各车次的预测出行人数;
运行区段客流量预测-车次客流量预测的递阶预测包括:
将日期、星期特征、节假日特征、运行区段、已售车票数量、运能总和、所属线路输入至运行区段日客流量预测模型,预测得到对应的日期-运行区段-区段日流量数据;
接着将得到的对应的日期-运行区段-区段日流量数据以及对应的各运行区段间发车频次、各车次发车时间输入至车次客流量预测模型的模型,预测得到目标预测日期下各车次的预测出行人数;
所述探针数据处理模块,用于对探针数据进行处理,得到旅客的进站规律;所述进站人数预测模块,用于将得到的目标预测日期下各车次的预测出行人数和得到的旅客的进站规律结合,得到目标预测日期下每小时的进站人数预测值。
CN202210638225.4A 2022-06-08 2022-06-08 一种多模型混合的客运枢纽站客流量预测方法及系统 Active CN114757447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210638225.4A CN114757447B (zh) 2022-06-08 2022-06-08 一种多模型混合的客运枢纽站客流量预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210638225.4A CN114757447B (zh) 2022-06-08 2022-06-08 一种多模型混合的客运枢纽站客流量预测方法及系统

Publications (2)

Publication Number Publication Date
CN114757447A CN114757447A (zh) 2022-07-15
CN114757447B true CN114757447B (zh) 2022-10-11

Family

ID=82337204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210638225.4A Active CN114757447B (zh) 2022-06-08 2022-06-08 一种多模型混合的客运枢纽站客流量预测方法及系统

Country Status (1)

Country Link
CN (1) CN114757447B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115796620A (zh) * 2022-12-16 2023-03-14 南京大学 一种基于节点-场所模型的高铁站影响区规模预测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324128A (zh) * 2011-05-24 2012-01-18 北京交通大学 基于ic卡记录的公交站间od客流预测方法及装置
CN103473620A (zh) * 2013-09-26 2013-12-25 青岛海信网络科技股份有限公司 综合客运枢纽多交通方式预测方法及系统
EP2784729A1 (en) * 2013-03-25 2014-10-01 Amadeus Method and system for detecting anomaly in passenger flow
CN104376624A (zh) * 2014-07-22 2015-02-25 西南交通大学 一种基于afc客票数据的城市轨道交通客流分析方法
CN106897838A (zh) * 2017-01-24 2017-06-27 北京万相融通科技股份有限公司 一种车站客流压力预测与统计分析方法及其系统
CN110458325A (zh) * 2019-07-03 2019-11-15 青岛海信网络科技股份有限公司 一种交通区域短时客流预测方法及装置
CN110545558A (zh) * 2019-09-06 2019-12-06 山东省交通规划设计院 基于Wi-Fi数据的高速服务区人群密度估计系统
CN111695722A (zh) * 2020-05-13 2020-09-22 南京理工大学 一种城市轨道交通车站节假日短时客流预测方法
CN112418518A (zh) * 2020-11-20 2021-02-26 佳都新太科技股份有限公司 基于时间特征权重和线网拓扑的客流预测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190026796A1 (en) * 2017-07-21 2019-01-24 Veniam, Inc. Systems and methods for trading data in a network of moving things, for example including a network of autonomous vehicles

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324128A (zh) * 2011-05-24 2012-01-18 北京交通大学 基于ic卡记录的公交站间od客流预测方法及装置
EP2784729A1 (en) * 2013-03-25 2014-10-01 Amadeus Method and system for detecting anomaly in passenger flow
CN103473620A (zh) * 2013-09-26 2013-12-25 青岛海信网络科技股份有限公司 综合客运枢纽多交通方式预测方法及系统
CN104376624A (zh) * 2014-07-22 2015-02-25 西南交通大学 一种基于afc客票数据的城市轨道交通客流分析方法
CN106897838A (zh) * 2017-01-24 2017-06-27 北京万相融通科技股份有限公司 一种车站客流压力预测与统计分析方法及其系统
CN110458325A (zh) * 2019-07-03 2019-11-15 青岛海信网络科技股份有限公司 一种交通区域短时客流预测方法及装置
CN110545558A (zh) * 2019-09-06 2019-12-06 山东省交通规划设计院 基于Wi-Fi数据的高速服务区人群密度估计系统
CN111695722A (zh) * 2020-05-13 2020-09-22 南京理工大学 一种城市轨道交通车站节假日短时客流预测方法
CN112418518A (zh) * 2020-11-20 2021-02-26 佳都新太科技股份有限公司 基于时间特征权重和线网拓扑的客流预测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Performance improvement for metro passenger flow forecast using spatio-temporal deep neural network;Mulerikkal Jaison,etal;《Neural Computing and Applications》;20210927;第34卷(第2期);983-994 *
公交车到站时间预测模型研究;吴少健 等;《机电工程技术》;20200220;第49卷(第2期);33-36 *
北京公联(西苑)交通枢纽客流量预测系统的设计与实现;孙令闻;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315(第3期);I138-4187 *

Also Published As

Publication number Publication date
CN114757447A (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN105374209B (zh) 一种城市区域路网运行状态特征信息提取方法
CN105405293B (zh) 一种道路旅行时间短期预测方法和系统
CN102324128A (zh) 基于ic卡记录的公交站间od客流预测方法及装置
CN112053558A (zh) 一种交通拥堵状态识别方法及装置和设备
CN111063204B (zh) 一种基于收费站流量的高速公路车速预测模型训练方法
CN114596700B (zh) 一种基于门架数据的高速公路路段实时流量估计方法
CN112507624B (zh) 一种城际公路出行方式识别模型构建、识别方法及装置
CN115691120A (zh) 一种基于高速公路流水数据的拥堵识别方法及系统
CN114757447B (zh) 一种多模型混合的客运枢纽站客流量预测方法及系统
CN112767684A (zh) 一种基于收费数据的高速公路交通拥堵检测方法
CN114328675A (zh) 基于双注意力机制和双向双层lstm的公交行程时间预测方法
CN115995149A (zh) 一种基于多源数据的停车供需特征动态评估方法及系统
CN113095387B (zh) 基于联网车载adas的道路风险识别方法
CN114912689A (zh) 基于地图网格索引和xgboost的超限车辆目的地预测方法及系统
CN114549075A (zh) 一种基于停车和视频大数据的区域停车评价方法
CN111723871B (zh) 一种公交车实时车厢满载率的估算方法
CN112102613A (zh) 一种高速公路客货运输量预测方法及系统
CN112101132A (zh) 一种基于图嵌入模型和度量学习的交通状况预测方法
CN115497306A (zh) 一种基于gis数据的速度区间权重计算方法
CN103700264B (zh) 基于etc收费数据的高速公路路段行程速度计算方法
CN113420960B (zh) 一种高速公路收费站工作人员调度方法、系统及存储介质
CN109255956A (zh) 一种收费站交通流量异常检测方法
CN113450592A (zh) 一种基于循环神经网络的停车场占有率预测方法
CN114444795A (zh) 一种单线路公交乘客出行数据生成方法
CN114331181A (zh) 基于大数据的车辆驾驶行为风险分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant