CN114757447A - 一种多模型混合的客运枢纽站客流量预测方法及系统 - Google Patents
一种多模型混合的客运枢纽站客流量预测方法及系统 Download PDFInfo
- Publication number
- CN114757447A CN114757447A CN202210638225.4A CN202210638225A CN114757447A CN 114757447 A CN114757447 A CN 114757447A CN 202210638225 A CN202210638225 A CN 202210638225A CN 114757447 A CN114757447 A CN 114757447A
- Authority
- CN
- China
- Prior art keywords
- data
- passenger
- train number
- model
- passenger flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims description 45
- 239000000523 sample Substances 0.000 claims description 44
- 238000004422 calculation algorithm Methods 0.000 claims description 41
- 238000001514 detection method Methods 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 18
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013480 data collection Methods 0.000 claims description 6
- 239000006185 dispersion Substances 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims 2
- 238000011084 recovery Methods 0.000 claims 1
- 238000007726 management method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Train Traffic Observation, Control, And Security (AREA)
Abstract
本发明涉及交通客流预测的技术领域,并公开了一种多模型混合的客运枢纽站客流量预测方法及系统,方法中,结合运行区段日客流量预测模型和车次客流量预测模型的模型,首先预测各运行区段间的日总客流量,之后将区段间的总流量分配到区段间的各车次上,以提高客流预测的精度。同时将预测值结合旅客的进站规律,将预测结果落实到更小的时间单位,输出预测目标日每个小时的进站客流量预测值,为客运枢纽站提供定点的数据支持,以制定更优的客流管制方案。
Description
技术领域
本发明涉及交通数据预测的技术领域,尤其涉及到一种多模型混合的客运枢纽站客流量预测方法及系统。
背景技术
近年来,随着我国高速铁路网络的逐渐完善,生产要素在交通圈内的流动日益频繁,进一步助推了新型城镇化发展进程的不断加快。在此过程中,都市圈内的同城化效应开始显现,高速铁路城际客流规模不断扩大,并随之出现高密度、通勤化、随机性的新特征。
现如今,影响铁路客流量的因素多,节假日、疫情状态等都会导致客流量的较大波动,从而加大了高铁站场客流预测的难度。对客运站场管理而言,以往仅依靠人工观测、经验推断的方法预测客流量,得到的结果准确度不高,因此迫切需要一套智能化、精细化的旅客数据分析流程与基于大数据的精确客流预测方法作为技术支撑,为铁路客运枢纽规划建设和运营管理提供直观、定量、科学的辅助决策工具。
目前常用的客流预测方法可大致分为两类,第一类方法是参数模型,包括指数平滑模型、灰色预测模型、自回归综合移动平均模型(ARIMA)等。第二类方法是非参数模型,包括支持向量机与神经网络模型等。其中,神经网络模型因其具有自适应性、非线性、任意函数性和映射能力等特点,在近年的铁路客流短期预测中得到了大量应用,成为研究的热点。
通过对现有的客运枢纽站客流预测方法的总结与归纳,得到以下两点问题:①铁路客流预测的短期预测一般以月份、星期、日为时间单位进行,但其预测结果无法落实到更具体的时间段。②影响铁路客运站客流量的因素多,造成客流波动性大、随机性强的特点,预测结果的准确性不高。
发明内容
本发明的目的在于克服现有技术的不足,提供一种多模型混合的客运枢纽站客流量预测方法,该方法基于多模型混合的客流量预测与车次客流量预测模型,模型的输入为历史客票数据、历史旅客轨迹数据和实时客票数据,输出为未来的日客流量水平及未来车次客流量水平,并结合旅客到站规律输出未来的小时客流量水平。
为实现上述目的,本发明所提供的技术方案为:
一种多模型混合的客运枢纽站客流量预测方法,包括以下步骤:
S1、收集客运枢纽站客票数据、日车次数据、探针数据、车次检票口数据并上传至大数据平台;
S2、基于大数据平台,查询客票数据及日车次数据,并对查询得到的数据进行预处理;
S3、基于大数据平台,形成运行区段日客流量预测模型的训练数据集以及车次客流量预测模型的训练数据集;
S4、对运行区段日客流量预测模型和车次客流量预测模型的训练数据集中的非数值字段进行编码操作,转化为数值;
S5、将步骤S4得到的训练数据集按比例随机拆分为机器学习的训练集和测试集;
S6、结合步骤S5得到的训练集和测试集,从包括有多个机器学习算法的算法池中找出最优的模型算法,分别作为运行区段日客流量预测模型和车次客流量预测模型的模型;
S7、结合运行区段日客流量预测模型和车次客流量预测模型的模型,经运行区段客流量预测-车次客流量预测的递阶预测,输出目标预测日期下各车次的预测出行人数;
S8、对探针数据进行处理,得到旅客的进站规律;
S9、将步骤S7得到的目标预测日期下各车次的预测出行人数和步骤S8得到的旅客的进站规律结合,从而得到目标预测日期下每小时的进站人数预测值。
进一步地,客票数据包含交易时间、票状态、票号、印票标记、车厢、席位、起始站、终点站在内的字段;
日车次数据包括车次号、开车时间、运行区段、列车定员数、售出合计在内的字段;
探针数据是由多个Wifi探针放置在站场内经过多天收集到的旅客设备数据,一条数据记录一个旅客设备,数据字段包含探针设备Id、旅客设备唯一标识码、旅客设备距离探针设备的距离、数据的采集时间;
车次检票口数据包括车次、检票口、起始站、终点站、开车时间在内的字段。
进一步地,对查询得到的数据进行预处理,包括:
结合客票数据及日车次数据,取两者相交的时间段,并提取两者中的有效字段;
对数据中包括时间、车次、席位在内的数据字段作统一规范化的处理;
识别客票数据中的被退票的记录,并进行清洗:对相同日期相同车次相同车厢相同席位的多条交易记录,仅保留交易时间最晚的一条记录;
日车次数据中,对存在车次信息模糊的情况,通过数据的联表操作,判断车次的正确编号,并予以纠正。
进一步地,形成运行区段日客流量预测模型的训练数据集的过程包括:
基于大数据平台,从客票数据及日车次数据中获取各日期下,各运行区段已售车票数量、各运行区段间车次运能总和、各运行区段所属线路的参数,匹配同一日期下的星期特征及节假日特征,形成运行区段日客流量预测模型的训练数据集;其中,星期特征标识着一个星期周期内的每一个特征日,星期一为1,星期二为2,以此类推;节日假特征标识着法定节假日,若为法定节假日则为1,否则为0;
形成车次客流量预测模型的训练数据集的过程包括:
基于大数据平台,从客票数据及日车次数据中获取各日期下,各运行区段的日客流量、各运行区段间发车次数、车次、各车次发车时间的参数,形成车次客流量预测模型的训练数据集。
进一步地,步骤S6包括:
对算法池里的多个模型算法,通过交叉验证,进行模型的自动调参,分别输出多个模型算法的最优结果和参数;
基于测试集,使用解释方差分和拟合优度决定系数评价多个模型的预测效果:
进一步地,运行区段客流量预测-车次客流量预测的递阶预测包括:
将日期、星期特征、节假日特征、运行区段、已售车票数量、运能总和、所属线路输入至运行区段日客流量预测模型,预测得到对应的日期-运行区段-区段日流量数据;
接着将得到的对应的日期-运行区段-区段日流量数据以及对应的各运行区段间发车频次、各车次发车时间输入至车次客流量预测模型的模型,预测得到目标预测日期下各车次的预测出行人数。
进一步地,探针数据包括测试数据及旅客数据;测试数据为现场测试记录的客运枢纽站内各检票口的探测特征数据;
步骤S8具体包括:
S8-1、对测试数据进行处理,输出检票口探测特征数据:检票口-可接收的探针设备Id-有效探测范围;
S8-2、利用旅客的唯一标识码,对旅客数据分组,一组数据为一位旅客的探测信息;
当一组数据同时满足以下三个筛选条件时,保留该组旅客信息;
三个筛选条件分别为:①首次出现的信息是被安检口处的设备捕捉到的;②一组数据包含不止一条的数据;③首次出现的时间与最后一次出现的时间间隔小于设定小时数。
S8-3、基于S8-1输出的检票口探测特征数据对S8-2保留的旅客信息进行特征匹配,包括可接收设备Id号的匹配以及探测距离的匹配,旅客取其最后5分钟的逗留数据,最终输出旅客-检票口的对应关系;
其中,探测距离采取方差的计算方式,记旅客A在检票口B被设备C探测到的距离为x,而检票口B被设备C探测到的有效距离范围为, 指旅客在检票口B被设备C探测到的最小有效距离值, 指旅客在检票口B被设备C探测到的最大有效距离值;当x∈时,认为旅客可能与该检票口B对应,则存在一个旅客对应多个检票口的情况,此时取探测距离方差最小的检票口;
探测距离方差D的计算方式如下:
S8-4、结合车次检票口数据对得到的旅客-检票口的对应关系进行校验,当满足检票口相同,且最后一条数据的时间与检票时间相匹配时,将旅客与车次联系,最终输出旅客-车次的对应关系;
S8-5、结合车次-线路的对应关系,最终输出旅客在站场内逗留的时间,拟合得到各线路旅客提前到站时间的规律。
进一步地,算法池中的机器学习算法包括Adaboost、K-Nearest Neighbor、Gradient BoostRegression Tree、Support Vector Machine、Bagging、RandomForest。
为实现上述目的,本发明另外提供一种多模型混合的客运枢纽站客流量预测系统,其包括包括数据收集模块、大数据平台、数据查询及预处理模块、数据匹配模块、数据编码模块、数据拆分模块、模型选择模块、递阶预测模块、探针数据处理模块、进站人数预测模块;
其中,
所述数据收集模块,用于收集客运枢纽站客票数据、日车次数据、探针数据、车次检票口数据并上传至大数据平台;
所述大数据平台,用于存储数据;
所述数据查询及预处理模块,用于查询客票数据及日车次数据,并对查询得到的数据进行预处理;
所述数据匹配模块,用于形成运行区段日客流量预测模型的训练数据集以及车次客流量预测模型的训练数据集;
所述数据编码模块,用于对运行区段日客流量预测模型和车次客流量预测模型的训练数据集中的非数值字段进行编码操作,转化为数值;
所述数据拆分模块,用于将训练数据集按比例随机拆分为机器学习的训练集和测试集;
所述模型选择模块,用于从包括有多个机器学习算法的算法池中找出最优的模型算法,分别作为运行区段日客流量预测模型和车次客流量预测模型的模型;
所述递阶预测模块,用于结合运行区段日客流量预测模型和车次客流量预测模型的模型,进行运行区段客流量预测-车次客流量预测的递阶预测,输出目标预测日期下各车次的预测出行人数;
所述探针数据处理模块,用于对探针数据进行处理,得到旅客的进站规律;
所述进站人数预测模块,用于将得到的目标预测日期下各车次的预测出行人数和得到的旅客的进站规律结合,得到目标预测日期下每小时的进站人数预测值。
与现有技术相比,本方案原理及优点如下:
从模型的结构特征来看,本方案有以下两个优点,①采用运行区段客流量预测-车次客流量预测的递阶预测方法,首先预测目标日各运行区段间的客流量,再将各运行区段间的客流量根据历史数据规律,预测目标日各车次的客流量。比起直接预测各车次的客流量,模型的预测效果大大提高。其中运行区段客流量预测模型的综合得分为0.964,车次客流量预测模型的综合得分为0.857。②从储存有多个机器学习算法的算法池中选出效果最优的模型,提高了模型预测的精准度。
从模型的应用场景来看,本方案的优点有:①运行区段日客流量预测模型的输入中加入星期特征和节假日特征,提高了运行区段日客流量的预测精度。②根据该客运枢纽站截至开车前一天凌晨,各车次累计的已售票数据,预测发车当天的各车次客流量,提出以“已售票数量”预测“最终出行人数”的机制,提高了预测的精准度,且使预测结果能够落实到每一车次上。③车次客流量预测值,结合旅客的提前到站时间分布,预测结果的时间单位可具体到目标日期下各小时的客流量。为铁路方制定客流管制计划提供精准定点的数据支撑,提升运营的稳定度,减少站场的运营浪费。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种多模型混合的客运枢纽站客流量预测方法中生成最优预测模型的原理流程图;
图2为本发明一种多模型混合的客运枢纽站客流量预测方法中步骤S7-S9的原理流程图;
图3为本发明一种多模型混合的客运枢纽站客流量预测方法中探针数据的处理流程图;
图4为本发明一种多模型混合的客运枢纽站客流量预测系统的结构示意图。
附图标记:
1-数据收集模块;2-大数据平台;3-数据查询及预处理模块;4-数据匹配模块;5-数据编码模块;6-数据拆分模块;7-模型选择模块;8-递阶预测模块;9-探针数据处理模块;10-进站人数预测模块。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
如图1至图3所示,本实施例所述的一种多模型混合的客运枢纽站客流量预测方法,包括以下步骤:
S1、收集客运枢纽站客票数据、日车次数据、探针数据、车次检票口数据并上传至大数据平台;
本步骤中,客票数据包含交易时间、票状态、票号、印票标记、车厢、席位、起始站、终点站在内的字段;日车次数据包括车次号、开车时间、运行区段、列车定员数、售出合计在内的字段;探针数据是由6个Wifi探针放置在站场内经过20天收集到的旅客设备数据,一条数据记录一个旅客设备,数据字段包含探针设备Id、旅客设备唯一标识码、旅客设备距离探针设备的距离、数据的采集时间;车次检票口数据包括车次、检票口、起始站、终点站、开车时间在内的字段。
S2、基于大数据平台,查询客票数据及日车次数据,并对查询得到的数据进行预处理;
本步骤中,对查询得到的数据进行预处理,包括:
结合客票数据及日车次数据,取两者相交的时间段,并提取两者中的有效字段;对数据中包括时间、车次、席位在内的数据字段作统一规范化的处理;识别客票数据中的被退票的记录,并进行清洗:对相同日期相同车次相同车厢相同席位的多条交易记录,仅保留交易时间最晚的一条记录;日车次数据中,对存在车次信息模糊的情况,如“G6309/12/01”,针对此部分数据,通过数据的联表操作,判断车次的正确编号,并予以纠正。
S3、基于大数据平台,形成运行区段日客流量预测模型的训练数据集以及车次客流量预测模型的训练数据集;
形成运行区段日客流量预测模型的训练数据集的过程包括:
基于大数据平台,从客票数据及日车次数据中获取各日期下,各运行区段已售车票数量、各运行区段间车次运能总和、各运行区段所属线路的参数,匹配同一日期下的星期特征及节假日特征,形成运行区段日客流量预测模型的训练数据集;其中,星期特征标识着一个星期周期内的每一个特征日,星期一为1,星期二为2,以此类推;节日假特征标识着法定节假日,若为法定节假日则为1,否则为0;
形成车次客流量预测模型的训练数据集的过程包括:
基于大数据平台,从客票数据及日车次数据中获取各日期下,各运行区段的日客流量、各运行区段间发车次数、车次、各车次发车时间的参数,形成车次客流量预测模型的训练数据集。
S4、对运行区段日客流量预测模型和车次客流量预测模型的训练数据集中的非数值字段进行编码操作,转化为数值;
S5、将步骤S4得到的训练数据集按9:1的比例随机拆分为机器学习的训练集和测试集;
S6、结合步骤S5得到的训练集和测试集,从包括有6个机器学习算法的算法池中找出最优的模型算法,分别作为运行区段日客流量预测模型和车次客流量预测模型的模型;
算法池中的机器学习算法包括Adaboost、K-Nearest Neighbor、GradientBoostRegression Tree、Support Vector Machine、Bagging、RandomForest。
本步骤包括:
对算法池里的多个模型算法,通过交叉验证,进行模型的自动调参,分别输出多个模型算法的最优结果和参数;
基于测试集,使用解释方差分和拟合优度决定系数评价多个模型的预测效果:
S7、结合运行区段日客流量预测模型和车次客流量预测模型的模型,经运行区段客流量预测-车次客流量预测的递阶预测,输出目标预测日期下各车次的预测出行人数;
本步骤的具体过程为:
将日期、星期特征、节假日特征、运行区段、已售车票数量、运能总和、所属线路输入至运行区段日客流量预测模型,预测得到对应的日期-运行区段-区段日流量数据;
接着将得到的对应的日期-运行区段-区段日流量数据以及对应的各运行区段间发车频次、各车次发车时间输入至车次客流量预测模型的模型,预测得到目标预测日期下各车次的预测出行人数。
S8、对探针数据进行处理,得到旅客的进站规律;
探针数据包括测试数据及旅客数据;测试数据为现场测试记录的客运枢纽站内各检票口的探测特征数据;
本步骤的具体过程如下:
S8-1、对测试数据进行处理,输出检票口探测特征数据:检票口-可接收的探针设备Id-有效探测范围;
S8-2、利用旅客的唯一标识码,对旅客数据分组,一组数据为一位旅客的探测信息;
当一组数据同时满足以下三个筛选条件时,保留该组旅客信息;
三个筛选条件分别为:①首次出现的信息是被安检口处的设备捕捉到的;②一组数据包含不止一条的数据;③首次出现的时间与最后一次出现的时间间隔小于设定小时数。
S8-3、基于S8-1输出的检票口探测特征数据对S8-2保留的旅客信息进行特征匹配,包括可接收设备Id号的匹配以及探测距离的匹配,旅客取其最后5分钟的逗留数据,最终输出旅客-检票口的对应关系;
其中,探测距离采取方差的计算方式,记旅客A在检票口B被设备C探测到的距离为x,而检票口B被设备C探测到的有效距离范围为, 指旅客在检票口B被设备C探测到的最小有效距离值, 指旅客在检票口B被设备C探测到的最大有效距离值;当x∈时,认为旅客可能与该检票口B对应,则存在一个旅客对应多个检票口的情况,此时取探测距离方差最小的检票口;
探测距离方差D的计算方式如下:
S8-4、结合车次检票口数据对得到的旅客-检票口的对应关系进行校验,当满足检票口相同,且最后一条数据的时间与检票时间相匹配时,将旅客与车次联系,最终输出旅客-车次的对应关系;
S8-5、结合车次-线路的对应关系,最终输出旅客在站场内逗留的时间,拟合得到各线路旅客提前到站时间的规律。
S9、将步骤S7得到的目标预测日期下各车次的预测出行人数和步骤S8得到的旅客的进站规律结合,从而得到目标预测日期下每小时的进站人数预测值。
如图4所示,本实施例还另外涉及到一种多模型混合的客运枢纽站客流量预测系统,其包括数据收集模块1、大数据平台2、数据查询及预处理模块3、数据匹配模块4、数据编码模块5、数据拆分模块6、模型选择模块7、递阶预测模块8、探针数据处理模块9、进站人数预测模块10;
其中,
所述数据收集模块1,用于收集客运枢纽站客票数据、日车次数据、探针数据、车次检票口数据并上传至大数据平台;
所述大数据平台2,用于存储数据;
所述数据查询及预处理模块3,用于查询客票数据及日车次数据,并对查询得到的数据进行预处理;
所述数据匹配模块4,用于形成运行区段日客流量预测模型的训练数据集以及车次客流量预测模型的训练数据集;
所述数据编码模块5,用于对运行区段日客流量预测模型和车次客流量预测模型的训练数据集中的非数值字段进行编码操作,转化为数值;
所述数据拆分模块6,用于将训练数据集按比例随机拆分为机器学习的训练集和测试集;
所述模型选择模块7,用于从包括有多个机器学习算法的算法池中找出最优的模型算法,分别作为运行区段日客流量预测模型和车次客流量预测模型的模型;
所述递阶预测模块8,用于结合运行区段日客流量预测模型和车次客流量预测模型的模型,进行运行区段客流量预测-车次客流量预测的递阶预测,输出目标预测日期下各车次的预测出行人数;
所述探针数据处理模块9,用于对探针数据进行处理,得到旅客的进站规律;
所述进站人数预测模块10,用于将得到的目标预测日期下各车次的预测出行人数和得到的旅客的进站规律结合,得到目标预测日期下每小时的进站人数预测值。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (9)
1.一种多模型混合的客运枢纽站客流量预测方法,其特征在于,包括以下步骤:
S1、收集客运枢纽站客票数据、日车次数据、探针数据、车次检票口数据并上传至大数据平台;
S2、基于大数据平台,查询客票数据及日车次数据,并对查询得到的数据进行预处理;
S3、基于大数据平台,形成运行区段日客流量预测模型的训练数据集以及车次客流量预测模型的训练数据集;
S4、对运行区段日客流量预测模型和车次客流量预测模型的训练数据集中的非数值字段进行编码操作,转化为数值;
S5、将步骤S4得到的训练数据集按比例随机拆分为机器学习的训练集和测试集;
S6、结合步骤S5得到的训练集和测试集,从包括有多个机器学习算法的算法池中找出最优的模型算法,分别作为运行区段日客流量预测模型和车次客流量预测模型的模型;
S7、结合运行区段日客流量预测模型和车次客流量预测模型的模型,经运行区段客流量预测-车次客流量预测的递阶预测,输出目标预测日期下各车次的预测出行人数;
S8、对探针数据进行处理,得到旅客的进站规律;
S9、将步骤S7得到的目标预测日期下各车次的预测出行人数和步骤S8得到的旅客的进站规律结合,从而得到目标预测日期下每小时的进站人数预测值。
2.根据权利要求1所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,客票数据包含交易时间、票状态、票号、印票标记、车厢、席位、起始站、终点站在内的字段;
日车次数据包括车次号、开车时间、运行区段、列车定员数、售出合计在内的字段;
探针数据是由多个Wifi探针放置在站场内经过多天收集到的旅客设备数据,一条数据记录一个旅客设备,数据字段包含探针设备Id、旅客设备唯一标识码、旅客设备距离探针设备的距离、数据的采集时间;
车次检票口数据包括车次、检票口、起始站、终点站、开车时间在内的字段。
3.根据权利要求2所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,对查询得到的数据进行预处理,包括:
结合客票数据及日车次数据,取两者相交的时间段,并提取两者中的有效字段;
对数据中包括时间、车次、席位在内的数据字段作统一规范化的处理;
识别客票数据中的被退票的记录,并进行清洗:对相同日期相同车次相同车厢相同席位的多条交易记录,仅保留交易时间最晚的一条记录;
日车次数据中,对存在车次信息模糊的情况,通过数据的联表操作,判断车次的正确编号,并予以纠正。
4.根据权利要求1所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,形成运行区段日客流量预测模型的训练数据集的过程包括:
基于大数据平台,从客票数据及日车次数据中获取各日期下,各运行区段已售车票数量、各运行区段间车次运能总和、各运行区段所属线路的参数,匹配同一日期下的星期特征及节假日特征,形成运行区段日客流量预测模型的训练数据集;其中,星期特征标识着一个星期周期内的每一个特征日,星期一为1,星期二为2,以此类推;节日假特征标识着法定节假日,若为法定节假日则为1,否则为0;
形成车次客流量预测模型的训练数据集的过程包括:
基于大数据平台,从客票数据及日车次数据中获取各日期下,各运行区段的日客流量、各运行区段间发车次数、车次、各车次发车时间的参数,形成车次客流量预测模型的训练数据集。
5.根据权利要求1所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,步骤S6包括:
对算法池里的多个模型算法,通过交叉验证,进行模型的自动调参,分别输出多个模型算法的最优结果和参数;
基于测试集,使用解释方差分和拟合优度决定系数评价多个模型的预测效果:
6.根据权利要求4所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,运行区段客流量预测-车次客流量预测的递阶预测包括:
将日期、星期特征、节假日特征、运行区段、已售车票数量、运能总和、所属线路输入至运行区段日客流量预测模型,预测得到对应的日期-运行区段-区段日流量数据;
接着将得到的对应的日期-运行区段-区段日流量数据以及对应的各运行区段间发车频次、各车次发车时间输入至车次客流量预测模型的模型,预测得到目标预测日期下各车次的预测出行人数。
7.根据权利要求1所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,探针数据包括测试数据及旅客数据;测试数据为现场测试记录的客运枢纽站内各检票口的探测特征数据;
步骤S8具体包括:
S8-1、对测试数据进行处理,输出检票口探测特征数据:检票口-可接收的探针设备Id-有效探测范围;
S8-2、利用旅客的唯一标识码,对旅客数据分组,一组数据为一位旅客的探测信息;
当一组数据同时满足以下三个筛选条件时,保留该组数据,即保留对应的旅客信息;
三个筛选条件分别为:①首次出现的信息是被安检口处的设备捕捉到的;②一组数据包含不止一条的数据;③首次出现的时间与最后一次出现的时间间隔小于设定小时数;
S8-3、基于S8-1输出的检票口探测特征数据对S8-2保留的旅客信息进行特征匹配,包括可接收设备Id号的匹配以及探测距离的匹配,旅客取其最后5分钟的逗留数据,最终输出旅客-检票口的对应关系;
其中,探测距离采取方差的计算方式,记旅客A在检票口B被设备C探测到的距离为x,而检票口B被设备C探测到的有效距离范围为,指旅客在检票口B被设备C探测到的最小有效距离值,指旅客在检票口B被设备C探测到的最大有效距离值;当x∈时,认为旅客可能与该检票口B对应,则存在一个旅客对应多个检票口的情况,此时取探测距离方差最小的检票口;
探测距离方差D的计算方式如下:
S8-4、结合车次检票口数据对得到的旅客-检票口的对应关系进行校验,当满足检票口相同,且最后一条数据的时间与检票时间相匹配时,将旅客与车次联系,最终输出旅客-车次的对应关系;
S8-5、结合车次-线路的对应关系,最终输出旅客在站场内逗留的时间,拟合得到各线路旅客提前到站时间的规律。
8.根据权利要求1或5所述的一种多模型混合的客运枢纽站客流量预测方法,其特征在于,算法池中的机器学习算法包括Adaboost、K-Nearest Neighbor、GradientBoostRegression Tree、Support Vector Machine、Bagging、RandomForest。
9.一种多模型混合的客运枢纽站客流量预测系统,其特征在于,包括数据收集模块、大数据平台、数据查询及预处理模块、数据匹配模块、数据编码模块、数据拆分模块、模型选择模块、递阶预测模块、探针数据处理模块、进站人数预测模块;
其中,
所述数据收集模块,用于收集客运枢纽站客票数据、日车次数据、探针数据、车次检票口数据并上传至大数据平台;
所述大数据平台,用于存储数据;
所述数据查询及预处理模块,用于查询客票数据及日车次数据,并对查询得到的数据进行预处理;
所述数据匹配模块,用于形成运行区段日客流量预测模型的训练数据集以及车次客流量预测模型的训练数据集;
所述数据编码模块,用于对运行区段日客流量预测模型和车次客流量预测模型的训练数据集中的非数值字段进行编码操作,转化为数值;
所述数据拆分模块,用于将训练数据集按比例随机拆分为机器学习的训练集和测试集;
所述模型选择模块,用于从包括有多个机器学习算法的算法池中找出最优的模型算法,分别作为运行区段日客流量预测模型和车次客流量预测模型的模型;
所述递阶预测模块,用于结合运行区段日客流量预测模型和车次客流量预测模型的模型,进行运行区段客流量预测-车次客流量预测的递阶预测,输出目标预测日期下各车次的预测出行人数;
所述探针数据处理模块,用于对探针数据进行处理,得到旅客的进站规律;
所述进站人数预测模块,用于将得到的目标预测日期下各车次的预测出行人数和得到的旅客的进站规律结合,得到目标预测日期下每小时的进站人数预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210638225.4A CN114757447B (zh) | 2022-06-08 | 2022-06-08 | 一种多模型混合的客运枢纽站客流量预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210638225.4A CN114757447B (zh) | 2022-06-08 | 2022-06-08 | 一种多模型混合的客运枢纽站客流量预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114757447A true CN114757447A (zh) | 2022-07-15 |
CN114757447B CN114757447B (zh) | 2022-10-11 |
Family
ID=82337204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210638225.4A Active CN114757447B (zh) | 2022-06-08 | 2022-06-08 | 一种多模型混合的客运枢纽站客流量预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114757447B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115796620A (zh) * | 2022-12-16 | 2023-03-14 | 南京大学 | 一种基于节点-场所模型的高铁站影响区规模预测方法 |
CN118365092A (zh) * | 2024-06-17 | 2024-07-19 | 中南大学 | 一种基于预测数据的地铁拥挤缓解方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324128A (zh) * | 2011-05-24 | 2012-01-18 | 北京交通大学 | 基于ic卡记录的公交站间od客流预测方法及装置 |
CN103473620A (zh) * | 2013-09-26 | 2013-12-25 | 青岛海信网络科技股份有限公司 | 综合客运枢纽多交通方式预测方法及系统 |
EP2784729A1 (en) * | 2013-03-25 | 2014-10-01 | Amadeus | Method and system for detecting anomaly in passenger flow |
CN104376624A (zh) * | 2014-07-22 | 2015-02-25 | 西南交通大学 | 一种基于afc客票数据的城市轨道交通客流分析方法 |
CN106897838A (zh) * | 2017-01-24 | 2017-06-27 | 北京万相融通科技股份有限公司 | 一种车站客流压力预测与统计分析方法及其系统 |
US20190026796A1 (en) * | 2017-07-21 | 2019-01-24 | Veniam, Inc. | Systems and methods for trading data in a network of moving things, for example including a network of autonomous vehicles |
CN110458325A (zh) * | 2019-07-03 | 2019-11-15 | 青岛海信网络科技股份有限公司 | 一种交通区域短时客流预测方法及装置 |
CN110545558A (zh) * | 2019-09-06 | 2019-12-06 | 山东省交通规划设计院 | 基于Wi-Fi数据的高速服务区人群密度估计系统 |
CN111695722A (zh) * | 2020-05-13 | 2020-09-22 | 南京理工大学 | 一种城市轨道交通车站节假日短时客流预测方法 |
CN112418518A (zh) * | 2020-11-20 | 2021-02-26 | 佳都新太科技股份有限公司 | 基于时间特征权重和线网拓扑的客流预测方法及装置 |
-
2022
- 2022-06-08 CN CN202210638225.4A patent/CN114757447B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324128A (zh) * | 2011-05-24 | 2012-01-18 | 北京交通大学 | 基于ic卡记录的公交站间od客流预测方法及装置 |
EP2784729A1 (en) * | 2013-03-25 | 2014-10-01 | Amadeus | Method and system for detecting anomaly in passenger flow |
CN103473620A (zh) * | 2013-09-26 | 2013-12-25 | 青岛海信网络科技股份有限公司 | 综合客运枢纽多交通方式预测方法及系统 |
CN104376624A (zh) * | 2014-07-22 | 2015-02-25 | 西南交通大学 | 一种基于afc客票数据的城市轨道交通客流分析方法 |
CN106897838A (zh) * | 2017-01-24 | 2017-06-27 | 北京万相融通科技股份有限公司 | 一种车站客流压力预测与统计分析方法及其系统 |
US20190026796A1 (en) * | 2017-07-21 | 2019-01-24 | Veniam, Inc. | Systems and methods for trading data in a network of moving things, for example including a network of autonomous vehicles |
CN110458325A (zh) * | 2019-07-03 | 2019-11-15 | 青岛海信网络科技股份有限公司 | 一种交通区域短时客流预测方法及装置 |
CN110545558A (zh) * | 2019-09-06 | 2019-12-06 | 山东省交通规划设计院 | 基于Wi-Fi数据的高速服务区人群密度估计系统 |
CN111695722A (zh) * | 2020-05-13 | 2020-09-22 | 南京理工大学 | 一种城市轨道交通车站节假日短时客流预测方法 |
CN112418518A (zh) * | 2020-11-20 | 2021-02-26 | 佳都新太科技股份有限公司 | 基于时间特征权重和线网拓扑的客流预测方法及装置 |
Non-Patent Citations (3)
Title |
---|
MULERIKKAL JAISON,ETAL: "Performance improvement for metro passenger flow forecast using spatio-temporal deep neural network", 《NEURAL COMPUTING AND APPLICATIONS》 * |
吴少健 等: "公交车到站时间预测模型研究", 《机电工程技术》 * |
孙令闻: "北京公联(西苑)交通枢纽客流量预测系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115796620A (zh) * | 2022-12-16 | 2023-03-14 | 南京大学 | 一种基于节点-场所模型的高铁站影响区规模预测方法 |
CN118365092A (zh) * | 2024-06-17 | 2024-07-19 | 中南大学 | 一种基于预测数据的地铁拥挤缓解方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114757447B (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114757447B (zh) | 一种多模型混合的客运枢纽站客流量预测方法及系统 | |
CN105374209B (zh) | 一种城市区域路网运行状态特征信息提取方法 | |
CN102324128A (zh) | 基于ic卡记录的公交站间od客流预测方法及装置 | |
CN110807919A (zh) | 基于过车数据的城市路网交通运行态势评价方法 | |
CN110853156B (zh) | 融合公交gps轨迹与ic卡数据的乘客od识别方法 | |
CN111063204B (zh) | 一种基于收费站流量的高速公路车速预测模型训练方法 | |
CN111144446B (zh) | 一种基于时空网格的司机身份识别方法和系统 | |
CN109903555B (zh) | 一种基于大数据的公交乘客下车数据预测方法及系统 | |
CN115691120A (zh) | 一种基于高速公路流水数据的拥堵识别方法及系统 | |
CN112767684A (zh) | 一种基于收费数据的高速公路交通拥堵检测方法 | |
CN112507624B (zh) | 一种城际公路出行方式识别模型构建、识别方法及装置 | |
CN114328675A (zh) | 基于双注意力机制和双向双层lstm的公交行程时间预测方法 | |
CN114549075A (zh) | 一种基于停车和视频大数据的区域停车评价方法 | |
CN112101132A (zh) | 一种基于图嵌入模型和度量学习的交通状况预测方法 | |
CN115995149A (zh) | 一种基于多源数据的停车供需特征动态评估方法及系统 | |
CN113450592B (zh) | 一种基于循环神经网络的停车场占有率预测方法 | |
CN113095387B (zh) | 基于联网车载adas的道路风险识别方法 | |
CN111723871B (zh) | 一种公交车实时车厢满载率的估算方法 | |
CN112102613A (zh) | 一种高速公路客货运输量预测方法及系统 | |
CN117523900A (zh) | 一种停车场占有率预测方法及系统 | |
CN113420960B (zh) | 一种高速公路收费站工作人员调度方法、系统及存储介质 | |
CN109255956A (zh) | 一种收费站交通流量异常检测方法 | |
CN115497306A (zh) | 一种基于gis数据的速度区间权重计算方法 | |
CN112858915B (zh) | 一种基于大数据的新能源汽车充电提醒分析系统 | |
CN114444795A (zh) | 一种单线路公交乘客出行数据生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |