CN110796301B - 一种基于ic卡数据的乘客流量预测方法及装置 - Google Patents
一种基于ic卡数据的乘客流量预测方法及装置 Download PDFInfo
- Publication number
- CN110796301B CN110796301B CN201911014939.2A CN201911014939A CN110796301B CN 110796301 B CN110796301 B CN 110796301B CN 201911014939 A CN201911014939 A CN 201911014939A CN 110796301 B CN110796301 B CN 110796301B
- Authority
- CN
- China
- Prior art keywords
- data
- data sets
- riding
- freq
- rand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 14
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 238000003064 k means clustering Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 244000290333 Vanilla fragrans Species 0.000 description 1
- 235000009499 Vanilla fragrans Nutrition 0.000 description 1
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于IC卡数据的乘客流量预测方法及装置。所述方法包括:对获取的原始交通数据进行预处理,得到交通数据;对交通数据进行特征工程处理;其中,特征工程处理包括:根据IC卡类型,对乘车数据进行划分,得到多个第一数据集,根据统计乘车数据得到的乘车频次,分别对所述第一数据集进行划分,得到多个第二数据集,根据乘车数据对应的时间,分别对所述第二数据集进行划分,得到多个第三数据集,分别统计所述第三数据集在车辆线路的历史乘客流量和实时乘客流量;融合所有初始模型,得到目标模型;将所述历史乘客流量和所述实时乘客流量输入所述目标模型,得到预测乘客流量。本发明能够克服现有技术的缺陷,提高乘客流量的预测准确度。
Description
技术领域
本发明涉及智能交通技术领域,尤其涉及一种基于IC卡数据的乘客流量预测方法及装置。
背景技术
随着城市公共交通行业的不断发展,越来越多的人选择乘坐公交、地铁等公共交通工具。但在特定的时间段,比如在上下班高峰期,某些线路的公交车特别拥挤,某些线路的公交车却基本空载,这就要求了公交公司合理调度公交车。乘客流量作为影响公交车运行效率的重要因素,公交公司通常根据乘客流量的变化情况调度公交车,以节省运营成本,乘客也可以参考不同线路的乘客流量信息制定出行计划,以节省出行时间。因此,如何准确预测未来时段的乘客流量成为当前所要解决的一大问题。
现有技术主要采用PageRank算法,Vanilla LSTM序列预测模型,CNN-GRU预测模型等方式对乘客的交通出行数据进行处理分析,实现预测未来时段的乘客流量。在现有技术中,并未充分考虑上下班高峰期、节假日、天气等其他因素对乘客流量的影响,导致在某些情况下,比如节假日期间,预测结果误差较大,使得公交公司难以根据预测的乘客流量合理调度公交车。
发明内容
本发明提供一种基于IC卡数据的乘客流量预测方法及装置,能够克服现有技术中的缺陷,提高乘客流量的预测准确度。
为了解决上述技术问题,本发明提供一种基于IC卡数据的乘客流量预测方法,包括:
对获取的原始交通数据进行预处理,得到交通数据;其中,所述原始交通数据包括车辆线路、乘客的IC卡类型和乘车数据;
对所述交通数据进行特征工程处理;其中,所述特征工程处理包括:根据所述IC卡类型,对所述乘车数据进行划分,得到多个第一数据集,根据统计所述乘车数据得到的乘车频次,分别对所述第一数据集进行划分,得到多个第二数据集,根据所述乘车数据对应的时间,分别对所述第二数据集进行划分,得到多个第三数据集,分别统计所述第三数据集在所述车辆线路的历史乘客流量和实时乘客流量;
融合所有初始模型,得到目标模型;其中,所述初始模型是通过所述第三数据集训练CNN-LSTM模型得到的;
将所述历史乘客流量和所述实时乘客流量输入所述目标模型,得到预测乘客流量。
进一步地,所述预处理,包括:异常数据删除、缺失数据填补、重复数据去重、标准化处理、归一化处理和量化处理。
进一步地,所述缺失数据填补,包括:
使用所述原始交通数据的均值或众数填补所述原始交通数据中的缺失数据。
进一步地,所述对所述交通数据进行特征工程处理,还包括:
根据所述乘车数据对应的气象数据,构建多个第四数据集;
分别对所述第四数据集进行量化处理,并通过K均值聚类算法进行聚类,得到多个气象等级。
进一步地,所述对所述交通数据进行特征工程处理,还包括:
根据所述乘车数据对应的气象等级,设定所述气象等级与所述第三数据集的相关系数。
本发明还提供一种基于IC卡数据的乘客流量预测装置,包括:
数据预处理模块,用于对获取的原始交通数据进行预处理,得到交通数据;其中,所述原始交通数据包括车辆线路、乘客的IC卡类型和乘车数据;
特征工程处理模块,用于对所述交通数据进行特征工程处理;其中,所述特征工程处理包括:根据所述IC卡类型,对所述乘车数据进行划分,得到多个第一数据集,根据统计所述乘车数据得到的乘车频次,分别对所述第一数据集进行划分,得到多个第二数据集,根据所述乘车数据对应的时间,分别对所述第二数据集进行划分,得到多个第三数据集,分别统计所述第三数据集在所述车辆线路的历史乘客流量和实时乘客流量;
初始模型融合模块,用于融合所有初始模型,得到目标模型;其中,所述初始模型是通过所述第三数据集训练CNN-LSTM模型得到的;
乘客流量预测模块,用于将所述历史乘客流量和所述实时乘客流量输入所述目标模型,得到预测乘客流量。
进一步地,所述预处理,包括:异常数据删除、缺失数据填补、重复数据去重、标准化处理、归一化处理和量化处理。
进一步地,所述缺失数据填补,包括:
使用所述原始交通数据的均值或众数填补所述原始交通数据中的缺失数据。
进一步地,所述特征工程处理模块,还用于,
根据所述乘车数据对应的气象数据,构建多个第四数据集;
分别对所述第四数据集进行量化处理,并通过K均值聚类算法进行聚类,得到多个气象等级。
进一步地,所述特征工程处理模块,还用于根据所述乘车数据对应的气象等级,设定所述气象等级与所述第三数据集的相关系数。
本发明的实施例,具有如下有益效果:
通过对交通数据进行特征工程处理,即根据乘客的IC卡类型,将所有乘客的乘车数据划分为多个第一数据集;根据乘客的乘车频次,将第一数据集中乘客的乘车数据划分为多个第二数据集;根据乘客的乘车时间,将第二数据集中乘客的乘车数据划分为多个第三数据集;统计第三数据集在各个车辆线路的历史乘客流量和实时乘客流量,使得可通过第三数据集训练CNN-LSTM模型,从而得到目标模型,通过目标模型预测乘客流量。本发明综合考虑乘客类型、乘客乘坐频次及乘客乘坐时间,将乘客的乘车数据划分至不同的数据集以训练CNN-LSTM模型,并对不同数据集训练得到的初始模型进行融合,得到目标模型,使得通过目标模型能够预测不同时间段的乘客流量,实现预测多种情况下的乘客流量,从而提高乘客流量的预测精确度。
附图说明
图1为本发明第一实施例中的一种基于IC卡数据的乘客流量预测方法的流程示意图;
图2为本发明第二实施例中的一种基于IC卡数据的乘客流量预测装置的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行,且下文均以服务器作为执行主体为例进行说明。
如图1所示,第一实施例提供一种基于IC卡数据的乘客流量预测方法,包括步骤S1~S4:
S1、对获取的原始交通数据进行预处理,得到交通数据;其中,所述原始交通数据包括车辆线路、乘客的IC卡类型和乘车数据。
S2、对所述交通数据进行特征工程处理;其中,所述特征工程处理包括:根据所述IC卡类型,对所述乘车数据进行划分,得到多个第一数据集,根据统计所述乘车数据得到的乘车频次,分别对所述第一数据集进行划分,得到多个第二数据集,根据所述乘车数据对应的时间,分别对所述第二数据集进行划分,得到多个第三数据集,分别统计所述第三数据集在所述车辆线路的历史乘客流量和实时乘客流量。
S3、融合所有初始模型,得到目标模型;其中,所述初始模型是通过所述第三数据集训练CNN-LSTM模型得到的。
S4、将所述历史乘客流量和所述实时乘客流量输入所述目标模型,得到预测乘客流量。
需要说明的是,所述车辆线路包括但不限于线路名称及对应站数,所述IC卡类型包括但不限于学生卡、成人卡和老人卡,所述乘车数据包括但不限于乘车线路和乘车时间。
可以理解的是,通过对交通数据进行特征工程处理,即根据乘客的IC卡类型,将所有乘客的乘车数据划分为多个第一数据集;根据乘客的乘车频次,将第一数据集中乘客的乘车数据划分为多个第二数据集;根据乘客的乘车时间,将第二数据集中乘客的乘车数据划分为多个第三数据集;统计第三数据集在各个车辆线路的历史乘客流量和实时乘客流量,使得可通过第三数据集训练CNN-LSTM模型,从而得到目标模型,通过目标模型预测乘客流量。
本实施例综合考虑乘客类型、乘客乘坐频次及乘客乘坐时间,将乘客的乘车数据划分至不同的数据集以训练CNN-LSTM模型,并对不同数据集训练得到的初始模型进行融合,得到目标模型,使得通过目标模型能够预测不同时间段的乘客流量,实现预测多种情况下的乘客流量,从而提高乘客流量的预测精确度。
以获取最近一年的原始交通数据为例。
获取最近一年的原始交通数据,即获取车辆线路、乘客的IC卡类型和乘车数据,并对获取的原始交通数据进行预处理,得到交通数据。
根据乘客的IC卡类型,对乘客的乘车数据进行划分,比如将学生卡对应的乘车数据划分至学生数据集、将成人卡对应的乘车数据划分至成人数据集,将老人卡对应的数据集划分至老人数据集,得到学生数据集、成人数据集和老人数据集,即多个第一数据集。
分别统计第一数据集中乘客的乘车数据,得到乘客的乘车频次。根据乘客的乘车频次,分别对第一数据集进行划分,比如将乘车频次大于预设阈值的乘车数据划分至固定客数据集,将乘车频次小于预设阈值的乘车数据划分至随机客数据集,得到学生固定客数据集、学生随机客数据集、成人固定客数据集、成人随机客数据集、老人固定客数据集和老人随机客数据集,即多个第二数据集。其中,可只统计第一数据集中乘客的部分乘车数据,比如统计最近两个月乘客的乘车数据,可针对不同的群体设定不同阈值,比如针对学生的阈值设置为x1,针对成人的阈值设置为x2,针对老人的阈值设置为x3。
根据第二数据集中乘客的乘车时间,分别对第二数据集进行划分,比如将乘车时间在工作日的乘车数据划分至工作日数据集,将乘车时间在节假日的乘车数据划分至节假日数据集,得到学生固定客工作日数据集、学生固定客节假日数据集、学生随机客工作日数据集、学生随机客节假日数据集、成人固定客工作日数据集、成人固定客节假日数据集、成人随机客工作日数据集、成人随机客节假日数据集、老人固定客工作日数据集、老人固定客节假日数据集、老人随机客工作日数据集、老人随机客节假日数据集,即多个第三数据集。
分别统计第三数据集在各个车辆线路的历史乘客流量和实时乘客流量。
根据CNN-LSTM算法,建立CNN-LSTM模型,并分别使用第三数据集训练CNN-LSTM模型,得到多个初始模型,进而融合所有初始模型,得到目标模型。
当需要预测某一车辆线路的乘客流量时,将该车辆线路的历史乘客流量和实时乘客流量输入目标模型,得到该车辆线路的预测乘客流量。
可以理解的是,通过将乘客的乘车数据划分为多个第三数据集,获取不同类乘客在不同时间段的乘车数据,并根据车辆线路分别统计乘客流量,能够统计各个车辆线路在不同时间段的乘客流量,即各类乘客的乘客流量总和。
用户可根据实际需要,确定时间的划分依据,比如划分工作日和节假日、或者划分上下班高峰期等,实现预测多种情况下的乘客流量。
CNN(Convolutional Neural Networks卷积神经网络)算法和LSTM(Long Short-Term Memory时间递归神经网络)算法均是机器学习算法,能够对大量交通数据进行处理和建模,有利于提高乘客流量的预测准确度。
在优选的实施例当中,所述预处理,包括:异常数据删除、缺失数据填补、重复数据去重、标准化处理、归一化处理和量化处理。
可以理解的是,删除原始交通数据中的异常数据,比如乘车线路异常(不符合车辆线路或线路站数)的数据、乘车时间异常(不在运营时间内或存在缺失)的数据等,填补原始交通数据中的缺失数据,删除原始交通数据中的重复数据,对原始交通数据进行标准化处理、归一化处理和量化处理,能够保证交通数据的准确性和完整性,有利于提高乘客流量的预测准确度和后续数据处理的效率。
在优选的实施例当中,所述缺失数据填补,包括:使用所述原始交通数据的均值或众数填补所述原始交通数据中的缺失数据。
可以理解的是,使用原始交通数据的均值或众数填补原始交通数据中的缺失数据,能够缩小与缺失数据真实值的误差,有利于提高乘车流量的预测准确度。
在优选的实施例当中,所述步骤S2,还包括:根据所述乘车数据对应的气象数据,构建多个第四数据集;分别对所述第四数据集进行量化处理,并通过K均值聚类算法进行聚类,得到多个气象等级。
需要说明的是,气象数据包括但不限于天气状况(比如雨雪晴)、温度、湿度和风力风向。
以气象数据为雨天、雪天、晴天为例。
根据乘客的乘车数据对应的气象数据,对乘客的乘车数据进行划分,比如将雨天的乘车数据划分至雨天数据集,将雪天的乘车数据划分至雪天数据集,将晴天的乘车数据划分至晴天数据集,即多个第四数据集。
分别对第四数据集中的气象数据进行量化处理,比如雨雪晴根据类型可量化为1、2、3等,并通过K均值聚类算法进行聚类,将气象数据按恶劣程度分为良好或恶劣两个等级,即多个气象等级。
在优选的实施例当中,所述步骤S2,还包括:根据所述乘车数据对应的气象等级,设定所述气象等级与所述第三数据集的相关系数。
例如,工作日和节假日的乘客流量预测公式分别如下所示。
Ywork=a1,freqY1,freq+a1,randY1,rand+a2,freqY2,freq+a2,randY2,rand+a3,freqY3,freq+a3, randY3,rand
Yholiday=a1,freqY1,freq+a1,randY1,rand+a2,freqY2,freq+a2,randY2,rand+a3,freqY3,freq+a3, randY3,rand
其中,Ywork表示工作日的总乘客流量,Yholiday表示节假日的总乘客流量,Y1,freq、Y1,rand、Y2,freq、Y2,rand、Y3,freq、Y3,rand分别表示学生固定客、学生随机客、成人固定客、成人随机客、老人固定客和老人随机客的乘客流量,a1,freq、a1,rand、a2,freq、a2,rand、a3,freq、a3,rand分别表示气象等级与学生固定客、学生随机客、成人固定客、成人随机客、老人固定客和老人随机客的相关系数。
需要说明的是,a系数可由天气特征及是否节假日工作日特征维度确定,该过程的实现可以由有两层全连接层的人工神经网络训练实现人工神经网络的的权重。
可以理解的是,通过综合考虑不同天气对各类乘客的乘客流量的影响程度,实现预测多种情况下的乘客流量,从而提高乘客流量的预测精确度。
如图2所示,第二实施例提供一种基于IC卡数据的乘客流量预测装置,包括:数据预处理模块21,用于对获取的原始交通数据进行预处理,得到交通数据;其中,所述原始交通数据包括车辆线路、乘客的IC卡类型和乘车数据;特征工程处理模块22,用于对所述交通数据进行特征工程处理;其中,所述特征工程处理包括:根据所述IC卡类型,对所述乘车数据进行划分,得到多个第一数据集,根据统计所述乘车数据得到的乘车频次,分别对所述第一数据集进行划分,得到多个第二数据集,根据所述乘车数据对应的时间,分别对所述第二数据集进行划分,得到多个第三数据集,分别统计所述第三数据集在所述车辆线路的历史乘客流量和实时乘客流量;初始模型融合模块23,用于融合所有初始模型,得到目标模型;其中,所述初始模型是通过所述第三数据集训练CNN-LSTM模型得到的;乘客流量预测模块24,用于将所述历史乘客流量和所述实时乘客流量输入所述目标模型,得到预测乘客流量。
需要说明的是,所述车辆线路包括但不限于线路名称及对应站数,所述IC卡类型包括但不限于学生卡、成人卡和老人卡,所述乘车数据包括但不限于乘车线路和乘车时间。
可以理解的是,通过特征工程处理模块22对交通数据进行特征工程处理,即根据乘客的IC卡类型,将所有乘客的乘车数据划分为多个第一数据集;根据乘客的乘车频次,将第一数据集中乘客的乘车数据划分为多个第二数据集;根据乘客的乘车时间,将第二数据集中乘客的乘车数据划分为多个第三数据集;统计第三数据集在各个车辆线路的历史乘客流量和实时乘客流量,使得可通过第三数据集训练CNN-LSTM模型,从而通过初始模型融合模块23得到目标模型,通过乘客流量预测模块24预测乘客流量。
本实施例通过特征工程处理模块22,综合考虑乘客类型、乘客乘坐频次及乘客乘坐时间,将乘客的乘车数据划分至不同的数据集以训练CNN-LSTM模型,并通过初始模型融合模块23对不同数据集训练得到的初始模型进行融合,得到目标模型,使得通过乘客流量预测模块24能够预测不同时间段的乘客流量,实现预测多种情况下的乘客流量,从而提高乘客流量的预测精确度。
以获取最近一年的原始交通数据为例。
通过数据预处理模块21获取最近一年的原始交通数据,即获取车辆线路、乘客的IC卡类型和乘车数据,并对获取的原始交通数据进行预处理,得到交通数据。
通过特征工程处理模块22,根据乘客的IC卡类型,对乘客的乘车数据进行划分,比如将学生卡对应的乘车数据划分至学生数据集、将成人卡对应的乘车数据划分至成人数据集,将老人卡对应的数据集划分至老人数据集,得到学生数据集、成人数据集和老人数据集,即多个第一数据集。
分别统计第一数据集中乘客的乘车数据,得到乘客的乘车频次。根据乘客的乘车频次,分别对第一数据集进行划分,比如将乘车频次大于预设阈值的乘车数据划分至固定客数据集,将乘车频次小于预设阈值的乘车数据划分至随机客数据集,得到学生固定客数据集、学生随机客数据集、成人固定客数据集、成人随机客数据集、老人固定客数据集和老人随机客数据集,即多个第二数据集。其中,可只统计第一数据集中乘客的部分乘车数据,比如统计最近两个月乘客的乘车数据,可针对不同的群体设定不同阈值,比如针对学生的阈值设置为x1,针对成人的阈值设置为x2,针对老人的阈值设置为x3。
根据第二数据集中乘客的乘车时间,分别对第二数据集进行划分,比如将乘车时间在工作日的乘车数据划分至工作日数据集,将乘车时间在节假日的乘车数据划分至节假日数据集,得到学生固定客工作日数据集、学生固定客节假日数据集、学生随机客工作日数据集、学生随机客节假日数据集、成人固定客工作日数据集、成人固定客节假日数据集、成人随机客工作日数据集、成人随机客节假日数据集、老人固定客工作日数据集、老人固定客节假日数据集、老人随机客工作日数据集、老人随机客节假日数据集,即多个第三数据集。
分别统计第三数据集在各个车辆线路的历史乘客流量和实时乘客流量。
通过初始模型融合模块23,根据CNN-LSTM算法,建立CNN-LSTM模型,并分别使用第三数据集训练CNN-LSTM模型,得到多个初始模型,进而融合所有初始模型,得到目标模型。
通过乘客流量预测模块24,当需要预测某一车辆线路的乘客流量时,将该车辆线路的历史乘客流量和实时乘客流量输入目标模型,得到该车辆线路的预测乘客流量。
可以理解的是,通过将乘客的乘车数据划分为多个第三数据集,获取不同类乘客在不同时间段的乘车数据,并根据车辆线路分别统计乘客流量,能够统计各个车辆线路在不同时间段的乘客流量,即各类乘客的乘客流量总和。
用户可根据实际需要,确定时间的划分依据,比如划分工作日和节假日、或者划分上下班高峰期等,实现预测多种情况下的乘客流量。
CNN(Convolutional Neural Networks卷积神经网络)算法和LSTM(Long Short-Term Memory时间递归神经网络)算法均是机器学习算法,能够对大量交通数据进行处理和建模,有利于提高乘客流量的预测准确度。
在优选的实施例当中,所述预处理,包括:异常数据删除、缺失数据填补、重复数据去重、标准化处理、归一化处理和量化处理。
可以理解的是,删除原始交通数据中的异常数据,比如乘车线路异常(不符合车辆线路或线路站数)的数据、乘车时间异常(不在运营时间内或存在缺失)的数据等,填补原始交通数据中的缺失数据,删除原始交通数据中的重复数据,对原始交通数据进行标准化处理、归一化处理和量化处理,能够保证交通数据的准确性和完整性,有利于提高乘客流量的预测准确度和后续数据处理的效率。
在优选的实施例当中,所述缺失数据填补,包括:使用所述原始交通数据的均值或众数填补所述原始交通数据中的缺失数据。
可以理解的是,使用原始交通数据的均值或众数填补原始交通数据中的缺失数据,能够缩小与缺失数据真实值的误差,有利于提高乘车流量的预测准确度。
在优选的实施例当中,所述特征工程处理模块22,还用于根据所述乘车数据对应的气象数据,构建多个第四数据集;分别对所述第四数据集进行量化处理,并通过K均值聚类算法进行聚类,得到多个气象等级。
需要说明的是,气象数据包括但不限于天气状况(比如雨雪晴)、温度、湿度和风力风向。
以气象数据为雨天、雪天、晴天为例。
根据乘客的乘车数据对应的气象数据,对乘客的乘车数据进行划分,比如将雨天的乘车数据划分至雨天数据集,将雪天的乘车数据划分至雪天数据集,将晴天的乘车数据划分至晴天数据集,即多个第四数据集。
分别对第四数据集中的气象数据进行量化处理,比如雨雪晴根据类型可量化为1、2、3等,并通过K均值聚类算法进行聚类,将气象数据按恶劣程度分为良好或恶劣两个等级,即多个气象等级。
在优选的实施例当中,所述特征工程处理模块22,还用于根据所述乘车数据对应的气象等级,设定所述气象等级与所述第三数据集的相关系数。
例如,工作日和节假日的乘客流量预测公式分别如下所示:
Ywork=a1,freqY1,freq+a1,randY1,rand+a2,freqY2,freq+a2,randY2,rand+a3,freqY3,freq+a3, randY3,rand;
Yholiday=a1,freqY1,freq+a1,randY1,rand+a2,freqY2,freq+a2,randY2,rand+a3,freqY3,freq+a3, randY3,rand;
其中,Ywork表示工作日的总乘客流量,Yholiday表示节假日的总乘客流量,Y1,freq、Y1,rand、Y2,freq、Y2,rand、Y3,freq、Y3,rand分别表示学生固定客、学生随机客、成人固定客、成人随机客、老人固定客和老人随机客的乘客流量,a1,freq、a1,rand、a2,freq、a2,rand、a3,freq、a3,rand分别表示气象等级与学生固定客、学生随机客、成人固定客、成人随机客、老人固定客和老人随机客的相关系数。
需要说明的是,a系数可由天气特征及是否节假日工作日特征维度确定,该过程的实现可以由有两层全连接层的人工神经网络训练实现人工神经网络的的权重。
可以理解的是,通过综合考虑不同天气对各类乘客的乘客流量的影响程度,实现预测多种情况下的乘客流量,从而提高乘客流量的预测精确度。
综上所述,本实施例具有如下有益效果:
通过对交通数据进行特征工程处理,即根据乘客的IC卡类型,将所有乘客的乘车数据划分为多个第一数据集;根据乘客的乘车频次,将第一数据集中乘客的乘车数据划分为多个第二数据集;根据乘客的乘车时间,将第二数据集中乘客的乘车数据划分为多个第三数据集;统计第三数据集在各个车辆线路的历史乘客流量和实时乘客流量,使得可通过第三数据集训练CNN-LSTM模型,从而得到目标模型,通过目标模型预测乘客流量。本实施例综合考虑乘客类型、乘客乘坐频次及乘客乘坐时间,将乘客的乘车数据划分至不同的数据集以训练CNN-LSTM模型,并对不同数据集训练得到的初始模型进行融合,得到目标模型,使得通过目标模型能够预测不同时间段的乘客流量,实现预测多种情况下的乘客流量,从而提高乘客流量的预测精确度。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
Claims (6)
1.一种基于IC卡数据的乘客流量预测方法,其特征在于,包括:
对获取的原始交通数据进行预处理,得到交通数据;其中,所述原始交通数据包括车辆线路、乘客的IC卡类型和乘车数据,所述车辆线路包括线路名称及对应站数,所述IC卡类型包括学生卡、成人卡和老人卡,所述乘车数据包括乘车线路和乘车时间;
对所述交通数据进行特征工程处理;其中,所述特征工程处理包括:根据所述IC卡类型,对所述乘车数据进行划分,将学生卡对应的乘车数据划分至学生数据集、将成人卡对应的乘车数据划分至成人数据集,将老人卡对应的数据集划分至老人数据集,得到学生数据集、成人数据集和老人数据集,得到多个第一数据集,根据统计所述乘车数据得到的乘车频次,分别对所述第一数据集进行划分,将乘车频次大于预设阈值的乘车数据划分至固定客数据集,将乘车频次小于预设阈值的乘车数据划分至随机客数据集,得到学生固定客数据集、学生随机客数据集、成人固定客数据集、成人随机客数据集、老人固定客数据集和老人随机客数据集,得到多个第二数据集,根据所述乘车数据对应的时间,分别对所述第二数据集进行划分,将乘车时间在工作日的乘车数据划分至工作日数据集,将乘车时间在节假日的乘车数据划分至节假日数据集,得到学生固定客工作日数据集、学生固定客节假日数据集、学生随机客工作日数据集、学生随机客节假日数据集、成人固定客工作日数据集、成人固定客节假日数据集、成人随机客工作日数据集、成人随机客节假日数据集、老人固定客工作日数据集、老人固定客节假日数据集、老人随机客工作日数据集、老人随机客节假日数据集,得到多个第三数据集,分别统计所述第三数据集在所述车辆线路的历史乘客流量和实时乘客流量;
融合所有初始模型,得到目标模型;其中,所述初始模型是通过所述第三数据集训练CNN-LSTM模型得到的;
将所述历史乘客流量和所述实时乘客流量输入所述目标模型,得到预测乘客流量;
其中,所述对所述交通数据进行特征工程处理,还包括:
根据所述乘车数据对应的气象数据,对乘客的乘车数据进行划分,将雨天的乘车数据划分至雨天数据集,将雪天的乘车数据划分至雪天数据集,将晴天的乘车数据划分至晴天数据集,构建多个第四数据集;所述气象数据包括天气状况、温度、湿度和风力风向;
分别对所述第四数据集进行量化处理,雨雪晴根据类型可量化为1、2、3,并通过K均值聚类算法进行聚类,将气象数据按恶劣程度分为良好或恶劣两个等级,得到多个气象等级;
所述对所述交通数据进行特征工程处理,还包括:
根据所述乘车数据对应的气象等级,设定所述气象等级与所述第三数据集的相关系数,工作日和节假日的乘客流量预测公式分别如下所示:
Ywork =a1,freqY1,freq+a1,randY1,rand+a2,freqY2,freq+a2,randY2,rand+a3,freqY3,freq +a3,randY3,rand
Yholiday=a1,freqY1,freq+a1,randY1,rand+a2,freqY2,freq+a2,randY2,rand+a3,freqY3,freq+a3,randY3,rand
其中,Ywork 表示工作日的总乘客流量,Yholiday表示节假日的总乘客流量,Y1,freq、Y1,rand、Y2,freq、Y2,rand、Y3,freq 、Y3,rand分别表示学生固定客、学生随机客、成人固定客、成人随机客、老人固定客和老人随机客的乘客流量,a1,freq、a1,rand、a2,freq、a2,rand、a3,freq、a3,rand分别表示气象等级与学生固定客、学生随机客、成人固定客、成人随机客、老人固定客和老人随机客的相关系数;
其中,所述相关系数的确定包括由天气特征及是否节假日工作日特征维度确定。
2.如权利要求1所述的基于IC卡数据的乘客流量预测方法,其特征在于,所述预处理,包括:异常数据删除、缺失数据填补、重复数据去重、标准化处理、归一化处理和量化处理。
3.如权利要求2所述的基于IC卡数据的乘客流量预测方法,其特征在于,所述缺失数据填补,包括:
使用所述原始交通数据的均值或众数填补所述原始交通数据中的缺失数据。
4.一种基于IC卡数据的乘客流量预测装置,其特征在于,包括:
数据预处理模块,用于对获取的原始交通数据进行预处理,得到交通数据;其中,所述原始交通数据包括车辆线路、乘客的IC卡类型和乘车数据,所述车辆线路包括线路名称及对应站数,所述IC卡类型包括学生卡、成人卡和老人卡,所述乘车数据包括乘车线路和乘车时间;
特征工程处理模块,用于对所述交通数据进行特征工程处理;其中,所述特征工程处理包括:根据所述IC卡类型,对所述乘车数据进行划分,将学生卡对应的乘车数据划分至学生数据集、将成人卡对应的乘车数据划分至成人数据集,将老人卡对应的数据集划分至老人数据集,得到学生数据集、成人数据集和老人数据集,得到多个第一数据集,根据统计所述乘车数据得到的乘车频次,分别对所述第一数据集进行划分,将乘车频次大于预设阈值的乘车数据划分至固定客数据集,将乘车频次小于预设阈值的乘车数据划分至随机客数据集,得到学生固定客数据集、学生随机客数据集、成人固定客数据集、成人随机客数据集、老人固定客数据集和老人随机客数据集,得到多个第二数据集,根据所述乘车数据对应的时间,分别对所述第二数据集进行划分,将乘车时间在工作日的乘车数据划分至工作日数据集,将乘车时间在节假日的乘车数据划分至节假日数据集,得到学生固定客工作日数据集、学生固定客节假日数据集、学生随机客工作日数据集、学生随机客节假日数据集、成人固定客工作日数据集、成人固定客节假日数据集、成人随机客工作日数据集、成人随机客节假日数据集、老人固定客工作日数据集、老人固定客节假日数据集、老人随机客工作日数据集、老人随机客节假日数据集,得到多个第三数据集,分别统计所述第三数据集在所述车辆线路的历史乘客流量和实时乘客流量;
初始模型融合模块,用于融合所有初始模型,得到目标模型;其中,所述初始模型是通过所述第三数据集训练CNN-LSTM模型得到的;
乘客流量预测模块,用于将所述历史乘客流量和所述实时乘客流量输入所述目标模型,得到预测乘客流量;
其中,所述特征工程处理模块,还用于,
根据所述乘车数据对应的气象数据,对乘客的乘车数据进行划分,将雨天的乘车数据划分至雨天数据集,将雪天的乘车数据划分至雪天数据集,将晴天的乘车数据划分至晴天数据集,构建多个第四数据集;所述气象数据包括天气状况、温度、湿度和风力风向;
分别对所述第四数据集进行量化处理,雨雪晴根据类型可量化为1、2、3,并通过K均值聚类算法进行聚类,将气象数据按恶劣程度分为良好或恶劣两个等级,得到多个气象等级;
所述特征工程处理模块,还用于根据所述乘车数据对应的气象等级,设定所述气象等级与所述第三数据集的相关系数,工作日和节假日的乘客流量预测公式分别如下所示:
Ywork =a1,freqY1,freq+a1,randY1,rand+a2,freqY2,freq+a2,randY2,rand+a3,freqY3,freq +a3,randY3,rand
Yholiday=a1,freqY1,freq+a1,randY1,rand+a2,freqY2,freq+a2,randY2,rand+a3,freqY3,freq+a3,randY3,rand
其中,Ywork 表示工作日的总乘客流量,Yholiday表示节假日的总乘客流量,Y1,freq、Y1,rand、Y2,freq、Y2,rand、Y3,freq 、Y3,rand分别表示学生固定客、学生随机客、成人固定客、成人随机客、老人固定客和老人随机客的乘客流量,a1,freq、a1,rand、a2,freq、a2,rand、a3,freq、a3,rand分别表示气象等级与学生固定客、学生随机客、成人固定客、成人随机客、老人固定客和老人随机客的相关系数;
其中,所述相关系数的确定包括由天气特征及是否节假日工作日特征维度确定。
5.如权利要求4所述的基于IC卡数据的乘客流量预测装置,其特征在于,所述预处理,包括:异常数据删除、缺失数据填补、重复数据去重、标准化处理、归一化处理和量化处理。
6.如权利要求5所述的基于IC卡数据的乘客流量预测装置,其特征在于,所述缺失数据填补,包括:
使用所述原始交通数据的均值或众数填补所述原始交通数据中的缺失数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911014939.2A CN110796301B (zh) | 2019-10-23 | 2019-10-23 | 一种基于ic卡数据的乘客流量预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911014939.2A CN110796301B (zh) | 2019-10-23 | 2019-10-23 | 一种基于ic卡数据的乘客流量预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110796301A CN110796301A (zh) | 2020-02-14 |
CN110796301B true CN110796301B (zh) | 2022-11-11 |
Family
ID=69441089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911014939.2A Active CN110796301B (zh) | 2019-10-23 | 2019-10-23 | 一种基于ic卡数据的乘客流量预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110796301B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111354212A (zh) * | 2020-03-11 | 2020-06-30 | 青岛海信网络科技股份有限公司 | 应用于车站机场的出租车调度方法、服务器以及调度设备 |
CN111754025B (zh) * | 2020-05-25 | 2024-06-25 | 苏州大学文正学院 | 基于cnn+gru的公交短时客流预测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513337A (zh) * | 2015-11-12 | 2016-04-20 | 中国科学院深圳先进技术研究院 | 一种客流量的预测方法及装置 |
CN106779196A (zh) * | 2016-12-05 | 2017-05-31 | 中国航天系统工程有限公司 | 一种基于旅游大数据的游客流量预测及峰值调控方法 |
CN107220724A (zh) * | 2017-04-21 | 2017-09-29 | 北京航空航天大学 | 客流量预测方法及装置 |
CN108197739A (zh) * | 2017-12-29 | 2018-06-22 | 中车工业研究院有限公司 | 一种城市轨道交通乘客流量预测方法 |
CN109034449A (zh) * | 2018-06-14 | 2018-12-18 | 华南理工大学 | 基于深度学习和乘客行为模式的短期公交客流预测方法 |
CN109886444A (zh) * | 2018-12-03 | 2019-06-14 | 深圳市北斗智能科技有限公司 | 一种交通短时客流预测方法、装置、设备和存储介质 |
CN110245788A (zh) * | 2019-05-30 | 2019-09-17 | 河海大学 | 一种基于刷卡数据的地铁客流短期预测方法 |
-
2019
- 2019-10-23 CN CN201911014939.2A patent/CN110796301B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513337A (zh) * | 2015-11-12 | 2016-04-20 | 中国科学院深圳先进技术研究院 | 一种客流量的预测方法及装置 |
CN106779196A (zh) * | 2016-12-05 | 2017-05-31 | 中国航天系统工程有限公司 | 一种基于旅游大数据的游客流量预测及峰值调控方法 |
CN107220724A (zh) * | 2017-04-21 | 2017-09-29 | 北京航空航天大学 | 客流量预测方法及装置 |
CN108197739A (zh) * | 2017-12-29 | 2018-06-22 | 中车工业研究院有限公司 | 一种城市轨道交通乘客流量预测方法 |
CN109034449A (zh) * | 2018-06-14 | 2018-12-18 | 华南理工大学 | 基于深度学习和乘客行为模式的短期公交客流预测方法 |
CN109886444A (zh) * | 2018-12-03 | 2019-06-14 | 深圳市北斗智能科技有限公司 | 一种交通短时客流预测方法、装置、设备和存储介质 |
CN110245788A (zh) * | 2019-05-30 | 2019-09-17 | 河海大学 | 一种基于刷卡数据的地铁客流短期预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110796301A (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107045788B (zh) | 交通路况预测方法及装置 | |
CN110570678B (zh) | 一种公交车辆从起点到终点总行驶时间预测方法及装置 | |
CN110738523B (zh) | 一种维修订单量预测方法及装置 | |
CN104298881A (zh) | 一种基于贝叶斯网络模型的公交环境动态变化预报方法 | |
CN110348601A (zh) | 一种基于双向长短期记忆网络的地铁短期客流量预测方法 | |
CN110675626B (zh) | 基于多维数据的交通事故黑点预测方法、装置及介质 | |
CN110796301B (zh) | 一种基于ic卡数据的乘客流量预测方法及装置 | |
CN115953186B (zh) | 一种网约车需求模式识别与短时需求预测方法 | |
CN111126868B (zh) | 一种道路交通事故发生风险确定方法及系统 | |
CN112507624B (zh) | 一种城际公路出行方式识别模型构建、识别方法及装置 | |
CN110889558A (zh) | 路况预测方法及装置 | |
CN108415885A (zh) | 基于近邻回归的实时公交客流预测方法 | |
Wang et al. | Prediction and Analysis of Train Passenger Load Factor of High‐Speed Railway Based on LightGBM Algorithm | |
CN111461489A (zh) | 路线生成方法、装置、电子设备及可读存储介质 | |
CN116206451A (zh) | 一种智慧交通车流数据分析方法 | |
CN113221472B (zh) | 一种基于lstm的客流预测方法 | |
CN117115562B (zh) | 一种基于深度学习的进站铁路货运列车车厢计数方法 | |
Rasaizadi et al. | Short‐Term Prediction of Traffic State for a Rural Road Applying Ensemble Learning Process | |
CN114418606A (zh) | 基于时空卷积网络的网约车订单需求预测方法 | |
CN116128160B (zh) | 一种铁路车站高峰客流预测方法、系统及设备和介质 | |
Dimara et al. | Mlp for spatio-temporal traffic volume forecasting | |
CN114463978B (zh) | 一种基于轨道交通信息处理终端的数据监测方法 | |
Yuan et al. | A gray prediction method for economic loss of road traffic accidents based on Logistic model. | |
Kusonkhum et al. | Using a Machine Learning Approach to Predict the Thailand Underground Train’s Passenger | |
Qi et al. | Short-term inbound rail transit passenger flow prediction based on BILSTM model and influence factor analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |