CN113159364A - 一种大型交通场站的客流预测方法及系统 - Google Patents
一种大型交通场站的客流预测方法及系统 Download PDFInfo
- Publication number
- CN113159364A CN113159364A CN202011609188.1A CN202011609188A CN113159364A CN 113159364 A CN113159364 A CN 113159364A CN 202011609188 A CN202011609188 A CN 202011609188A CN 113159364 A CN113159364 A CN 113159364A
- Authority
- CN
- China
- Prior art keywords
- passenger flow
- data
- model
- station
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 230000008569 process Effects 0.000 claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000009826 distribution Methods 0.000 claims abstract description 16
- 238000012544 monitoring process Methods 0.000 claims abstract description 16
- 238000012937 correction Methods 0.000 claims abstract description 8
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 56
- 238000004422 calculation algorithm Methods 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 36
- 238000007637 random forest analysis Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 26
- 238000003066 decision tree Methods 0.000 claims description 25
- 238000005070 sampling Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 15
- 238000013500 data storage Methods 0.000 claims description 12
- 238000007726 management method Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000012843 least square support vector machine Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 4
- 206010021703 Indifference Diseases 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000003203 everyday effect Effects 0.000 claims description 3
- 238000005111 flow chemistry technique Methods 0.000 claims description 3
- 238000009472 formulation Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000004044 response Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 235000019580 granularity Nutrition 0.000 description 4
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 241000755937 Corinna Species 0.000 description 1
- 241000973887 Takayama Species 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
一种大型交通场站的客流预测方法及系统,方法包括:采集与场站客流相关的历史数据;将采集到的历史数据分别使用Adaboost、Bagging、ExtraTree、KNN、RF、SVM、XGboost模型进行客流预测;对各个模型预测出的误差值通过AHP层次分析法进行分配权重修正,获得一个最优的客流预测结果,建立客流综合预测模型;根据实时监控数据,对客流综合预测模型进行更新。本发明能够实现大型场站客流的实时监测、系统分析、精准预测,有助于大型场站的车辆、人员的管理优化、应急预案和实时调度,保障场站通行服务的高质量、快响应、需求匹配、科学合理;并能服务于市内、市际接驳线路的设置和优化,扩大场站服务范围、提高乘客满意度、提升客流吸引力。
Description
技术领域
本发明涉及客流预测技术领域,具体是涉及一种大型交通场站的客流预测方法及系统。
背景技术
大型交通场站是各种客运交通方式相互衔接和转换的设施,是交通系统不可或缺的重要组成部分。其主要职能是满足全市公路、铁路、航空、水路四大运输方式等公共交通方式的有效衔接,实现高效、安全、有序的客流集散和旅客换乘。
大型交通场站客流受节假日、时段、天气等多种因素影响,到达客流波动性大且各交通方式客流分担不平衡,而针对枢纽客流波动性大和分担不平衡现象,缺乏对客流量信息统计以及科学的预测,导致部分交通方式运力资源准备不足,以及旅客对各公共交通方式的空闲或者拥挤情况无法获知,进而造成个别公共交通方式人满为患,旅客需要排队很时司,而另外一些公共交通方式出现空载现象,特别是在发生突发事件时,严重影响枢纽客流集散效率和运营安全。
基于当前交通建设形势和未来的发展趋势,结合目前面临的技术瓶颈,如何依托大型场站客流分析预测技术,整合运营商、行业、互联网厂商数据,构建一种大型交通场站的客流预测方法,并基于此构造一套交通客流大数据预测分析服务系统平台,成为当前技术发展的一个方向。
发明内容
本发明的目的在于针对上述存在问题和不足,提供一种能够实现大型场站客流的实时监测、系统分析、精准预测,有助于大型场站的车辆、人员的管理优化、应急预案和实时调度,保障场站通行服务的高质量、快响应、需求匹配、科学合理的大型交通场站的客流预测方法及系统。
本发明的技术方案是这样实现的:
本发明所述的大型交通场站的客流预测方法,其特点是包括以下步骤:
步骤一、采集与场站客流相关的历史数据;
步骤二、将采集到的历史数据分别使用Adaboost、Bagging、ExtraTree、KNN、RF、SVM、XGboost模型进行客流预测;
步骤三、对各个模型预测出的误差值通过AHP层次分析法进行分配权重修正,获得一个最优的客流预测结果,建立客流综合预测模型;
步骤四、根据实时监控数据,对客流综合预测模型进行更新,并将客流综合预测模型更新后获得的实时客流预测结果传输给MySql数据库制作成API接口供其他系统远程调用。
进一步的,所述Adaboost模型进行客流预测的方法如下:
步骤一、根据站场客流和路段客流的历史数据,计算样本积分图,获得矩形特征原型;
步骤二、根据矩形特征原型计算矩形特征值,以建立矩形特征集;
步骤三、确定阀值,由矩形特征集生成对应的弱分类器,建立弱分类器集;
步骤四、挑选最优弱分类器,调用Adaboost算法训练强分类器,并建立强分类器集;
步骤五、根据强分类器集构建级联分类器,从而得到客流预测结果;
训练数据集上的误差率公式如下:
计算的系数:
其中,i为时间序列,x为客流数据(真实标记),y为示例,W2i为权值分布,G2(x)为分类器结果。
进一步的,所述Bagging模型进行客流预测的方法如下:
步骤一、通过随机采样法提取N个小时客流主体不同时期的客流模型数据,得到初始模型数据样本Si(i=1、2、3...N),该随机采样法为自助采样法(Bootstap sampling),即对于N个样本的原始训练集,每次先随机采集一个样本放入采样集,接着把该样本放回,这样采集N次,直到得到N个样本的采样集为止;
步骤二:对各个初始模型数据样本Si(i=1、2、3...n)分别使用bagging机器学习方法,相对应地训练出N个独立的个体弱学习器Hi(i=1、2、3...N);bagging机器学习方法如下:
设单模型的期望为μ,则Bagging的期望预测为:
Bagging的抽样是有放回抽样,这样数据集之间会有重复的样本,则模型均值的方差为:
步骤三:通过stacking结合策略将步骤二中所述的个体弱学习器Hi(i=1、2、3...N)结合成一个强学习器H;stacking结合策略包括如下步骤:
先从路段客流模型数据集中随机抽取45%-55%数据样本作为训练集,同时从小时客流模型数据集中随机抽取20%-30%数据样本作为测试集;再训练一个次级学习器,在训练次级学习器的过程中将各个体弱学习器Hi(i=1、2、3...N)的学习结果作为次级学习器的输入,将训练集的结果作为次级学习器的输出;最后用初级学习器对测试集预测一次,得到次级学习器的输入样本,再用次级学习器对测试集预测一次得到预测样本,同时对输入样本和预测样本之间的数据关联匹配关系的不断训练,达到最优输出结果下的最佳模型输入以及过程参数取值范围,从而得到强学习器H;其中,所述的数据关联匹配关系包括小时客流模型输入数据、过程参数、和输出结果三者之间的关联匹配关系,所述的过程参数为小时客流模型数据中各指标的权重或者划分客户类别指标的取值范围,所述的输出结果为客户的价值标签或客户细分规则,所述的小时客流模型数据包括指标体系中的数据字段、指标权重、模型算法和模型结果;
步骤四:将步骤三得到的强学习器H作为最优模型规则,并将当前路段客流模型数据样本输入到强学习器H,强学习器H得出的结果为最优客流预测结果模型。
进一步的,所述ExtraTree模型进行客流预测的方法如下:
步骤一、随机选取与场站客流相关的历史数据样本,并随机地选择特征,生成N棵决策树;
步骤二、根据N棵决策树进行投票或者平均得出最终客流预测结果;
随机森林对于回归问题公式:
其中,其中,f(x)为输出结果,m为向上边界,Tj(x)为训练集、j为类别、x为数量,H(x)为最终结果,hi为第i个决策树分类结果,Y为类别,I为度量函数,N为决策树的数量。
进一步的,所述KNN模型进行客流预测的方法如下:
步骤一、对目标数据进行预处理,该目标数据为场站客流的历史数据;
步骤二、计算目标数据与训练数据集每条记录的距离;
步骤三、采用回归算法找出目标数据的k最近邻数据;
步骤四、计算目标数据最邻近的权值,获得客流预测结果;
回归算法公式:
样本坐标(x,y),然后给定一个测试点坐标 x1,求回归曲线上对应的 y1 值,是取k 个离 x1 最近的样本坐标,然后对他们的 y1 值求平均,寻找一个最优的k,通过遍历k进行迭代。
进一步的,所述RF模型进行客流预测的方法如下:
步骤一、搭建基于改进深度随机森林算法的客流预测系统模型;
步骤二、从场站营运产生的历史路段及小时粒度数据中选取样本数据;
步骤三、确定预测模型输入变量和输出变量;
步骤四、对每一个样本数据进行加权处理;
步骤五、通过一个长度为k的采样窗口对样本数据进行滑动采样,得到子样本向量;
步骤六、每个子样本由级联模块中的完全随机森林和随机森林训练分别生成一个表征向量H(x),叠加两个森林的输出得到特征向量Zi作为输入,用于训练深度,获得客流预测结果。
进一步的,所述SVM模型进行客流预测的方法如下:
步骤一、采集一段时间的场站交通历史数据,该数据可以看作是客流记录的集合,其中每条记录包括客流的起始站点、目的站点,进站时刻和出站时刻;所述采集一段时间的场站交通历史数据,可以通过场站的票务系统获取;
步骤二、基于历史数据,统计客流比例,针对场站,统计客流由该站进入去往其它站的比例;
步骤三、利用统计得到的出行比例数据训练最小二乘支持向量机(LSSVM);最小二乘支持向量机的训练数据样本可以表示为:(x1,y1),(x2,y2),… (xn,yn);其中, yi 是目标值,xi 是输入向量;
非线性回归问题可以描述为求解下面问题:
约束条件为:
其中,是核空间映射函数,权矢量ω∈ Rnh,误差变量ξ∈ R,b 是偏差量,γ是可调参数;核函数可以将原始空间中的样本映射为高维特征空间中的一个向量,已解决线性不可分问题,可以用拉格朗日求解这个优化问题,得到预测值K 为核函数,选择径向基函数其中at,i=1,… n 是拉格朗日乘子,b 是偏差量,σ为核函数的调整参数,参数at、b、σ、γ是以统计得到的出行比例为训练数据,通过训练支持向量机而自动得到;
步骤四、存储预测得到的路段客流预测值,供实时客流预测模块使用;所述存储预测得到客流预测值,可以以文件的形式存储在磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM),也可以以关系数据的形式存储在关系数据库系统中;
步骤五、获取在步骤四中存储的路段客流预测值,结合路段客预测值预测场站的客流,获得客流预测结果。
进一步的,所述XGboost模型进行客流预测的方法如下:
步骤一、根据小时客流数据,计算每天每个时段每个路段的客流,并考虑天气因素采用Xgboost模型预测未来场站客流量;
步骤二、利用路段客流的上下波动的频率走势,预测下车站点客流分布,从而获得客流预测结果;
Xgboost添加正则项后的模型:
Yi是整个累加模型的输出,正则化项Ft是复杂度的函数值越小复杂度越低泛化能力越强,假设第k次生成的CART树(也可以称为残差树),则经过T轮之后(也就是一共有T棵树),最终模型对于样本i的预测值为CART树的叶子节点对应的值(Xi为第i个样本的输入值,T代表树的数量)。
进一步的,所述AHP层次分析法的步骤如下:
步骤一、根据Adaboost、Bagging、ExtraTree、KNN、RF、SVM、XGboost模型分别获得的客流预测结果建立系统的递阶层次结构;
步骤二、构造两两比较判断矩阵;
成对比较矩阵:
步骤三、针对某一个标准,计算各备选元素的权重;
步骤四、计算当前一层元素关于总目标的排序权重;
步骤五、进行一致性检验;
步骤六、进行权重分配,建立客流综合预测模型。
本发明所述的大型交通场站的客流预测系统,其特点是包括:
数据采集处理层,用于采集与场站客流相关的历史数据,且该数据采集处理层既包括传统的ETL离线采集,也包括实时采集、互联网爬虫解析,并能根据数据处理场景要求不同,可以划分为HADOOP、ETL、流处理;
数据存储层,用于存储数据采集处理层获得的数据,且该数据存储层能够通过Elastiscesarch、Mysql、Redis集群化存储达到高吞吐的数据存储功能并实现读写分离,将偏向应用的查询等能力与计算能力剥离;
算法层,用于调用数据存储层中由数据采集处理层获得的历史数据分别使用Adaboost、Bagging、ExtraTree、KNN、RF、SVM、XGboost模型进行客流预测,并对各个模型预测出的误差值通过AHP层次分析法进行分配权重修正,建立客流综合预测模型,并将客流综合预测模型获得的实时客流预测结果传输给数据存储层中的MySql数据库制作成API接口供其他系统远程调用;
业务层,用于将客流预测结果生成业务报表,并进行数据监听和数据推送;
应用层,用于对客流进行实时监控、预测预警服务,以及提供具体的分析服务,从而为客流综合预测模型提供数据更新;
管理层,用于实现数据的管理和运维,并对整个系统进行统一管理。
本发明具有如下优点:
1、本发明基于场站运营数据、移动信令数据以及客流相关因素等数据,能够实现大型场站客流的实时监测、系统分析、精准预测,有助于大型场站的车辆、人员的管理优化、应急预案和实时调度,保障场站通行服务的高质量、快响应、需求匹配、科学合理;并能服务于市内、市际接驳线路的设置和优化,扩大场站服务范围、提高乘客满意度、提升客流吸引力;
2、针对多场景下在节假日期间各重要交通场站、重点路段等都面临重大客流压力,为更好的服务于节假日出行,打造面向路段、场站等方面的客流预测模型,提前制定科学合理的分流引导方案尤为重要,而本发明能够根据应用场景需求,进行多类型预测,预测模型类型主要分为面向路段、场站及其他场景相关预测模型:
(1)面向路段的客流预测:根据场站运营商数据,综合考虑外部环境因素(如天气、周边道路通行情况)建立客流预测模型,实现不同时间粒度客流量预测,从而建立大型场站主要客流统计和预测,分析客流态势,提前预判客流高峰,给快速疏散客流提供辅助决策应急方案,客流疏散方案,周边运力调整方案等,让管理和应急工作提前规划和部署;
(2)面向重点区域的客流预测:根据运营商数据和重要区域监测数据,对重点景区的历史客流情况进行综合分析,建立客流预测模型,并对未来一段时间的客流量做出预测,对客流高峰进行预警;
(3)面向场站的客流预测:融合场站客票数据、运营商数据,对路段流量实时监测统计,建立客流预测模型,并且结合场站承载量、气象条件、路段的客流、滞留时长等指标进行综合预警;
(4)节假日跨市出行分析及预测:利用交通大数据和移动运营商用户位置数据,分析假期跨市出行人群的迁徙规律,包括:跨市出行热门输出地、跨市出行热门目的地、跨市出行迁徙路线、跨市出行人群画像分析等,并预测未来一段时间跨市出行客流态势;
(5)节假日市内出行分析及预测:利用交通大数据和通信运营商手机用户位置数据,分析预测市内重要区域,景区的客流数量,客流画像,各地市的市内人口分析,流动与常驻人口分析等,监测市内出行态势。
下面结合附图对本发明作进一步的说明。
附图说明
图1为本发明所述大型交通场站的客流预测系统的框架图。
图2为本发明所述AdaBoost模型流程图。
图3为本发明所述Adaboost模型预测结果图。
图4为本发明所述Bagging模型流程图。
图5为本发明所述Bagging模型预测结果图。
图6为本发明所述ExtraTree模型预测结果图。
图7为本发明所述KNN模型流程图。
图8为本发明所述KNN模型预测结果图。
图9为本发明所述RF模型流程示意图。
图10为本发明所述RF模型预测结果图。
图11为本发明所述SVM模型流程图。
图12为本发明所述SVM模型预测结果图。
图13为本发明所述XGBoost模型流程示意图。
图14为本发明所述XGboost模型预测结果图。
图15为本发明所述各模型预测结果图。
图16为本发明所述AHP层次分析法流程图。
具体实施方式
如图1所示,本发明所述的大型交通场站的客流预测系统,包括:
数据采集处理层,用于采集与场站客流相关的历史数据,且该数据采集处理层既包括传统的ETL离线采集,也包括实时采集、互联网爬虫解析,并能根据数据处理场景要求不同,可以划分为HADOOP、ETL、流处理;
数据存储层,用于存储数据采集处理层获得的数据,且该数据存储层能够通过Elastiscesarch、Mysql、Redis集群化存储达到高吞吐的数据存储功能并实现读写分离,将偏向应用的查询等能力与计算能力剥离;
算法层,用于调用数据存储层中由数据采集处理层获得的历史数据分别使用Adaboost、Bagging、ExtraTree、KNN、RF、SVM、XGboost模型进行客流预测,并对各个模型预测出的误差值通过AHP层次分析法进行分配权重修正,建立客流综合预测模型,并将客流综合预测模型获得的实时客流预测结果传输给数据存储层中的MySql数据库制作成API接口供其他系统远程调用;
业务层,用于将客流预测结果生成业务报表,并进行数据监听和数据推送;
应用层,用于对客流进行实时监控、预测预警服务,以及提供具体的分析服务,从而为客流综合预测模型提供数据更新;
管理层,用于实现数据的管理和运维,并对整个系统进行统一管理。
如图2-图16所示,本发明所述的大型交通场站的客流预测方法,以场站客票数据为中心,采取趋势分析法、对比分析法、分组分析法、单因素相关性分析法、多因素相关性分析法等方法分析了场站客票数据的自身规律和与其他数据的相关性,通过对场站客票历史数据分析以及运营商客流数据相关性分析建模,模型在应用时使用决策树、均方差以及分类器等技术便于相应的逻辑表达式和误差计算以及参数修正。
具体包括以下步骤:
步骤一、采集与场站客流相关的历史数据,包括历史标签数据、场站客流数据、网络爬虫数据、移动信令数据、气象监测数据,并分析外部因素(包括:节假日、周数、星期、最高温度、最低温度、风向、风力)和内部因素(场站进出要道、场站票务数据、可直达场站的区域客流)对大型场站客流数据的影响;
步骤二、将采集到的历史数据分别使用Adaboost、Bagging、ExtraTree、KNN、RF、SVM、XGboost模型进行客流预测;
步骤三、对各个模型预测出的误差值(即预测值与实际值之间形成的误差值)通过AHP层次分析法进行分配权重修正,获得一个最优的客流预测结果,建立客流综合预测模型;
步骤四、根据实时监控数据,对客流综合预测模型进行更新,并将客流综合预测模型更新后获得的实时客流预测结果传输给MySql数据库制作成API接口供其他系统远程调用。
针对步骤二的各种算法模型,其中Adaboost算法已被证明是一种有效而实用的Boosting算法。该算法是Freund和Schapire于1995年对Boosting算法的改进得到的,其算法原理是通过调整样本权重和弱分类器权值,从训练出的弱分类器中筛选出权值系数最小的弱分类器组合成一个最终强分类器。基于训练集训练弱分类器,每次下一个弱分类器都是在样本的不同权值集上训练获得的。每个样本被分类的难易度决定权重,而分类的难易度是经过前面步骤中的分类器的输出估计得到的。Aadboost 算法系统具有较高的检测速率,且不易出现过适应现象。但是该算法在实现过程中为取得更高的检测精度则需要较大的训练样本集,在每次迭代过程中,训练一个弱分类器则对应该样本集中的每一个样本,每个样本具有很多特征,因此从庞大的特征中训练得到最优弱分类器的计算量增大。典型的Adaboost 算法采用的搜索机制是回溯法,虽然在训练弱分类器时每一次都是由贪心算法来获得局部最佳弱分类器,但是却不能确保选择出来加权后的是整体最佳。在选择具有最小误差的弱分类器之后,对每个样本的权值进行更新,增大错误分类的样本对应的权值,相对地减小被正确分类的样本权重。且执行效果依赖于弱分类器的选择,搜索时间随之增加,故训练过程使得整个系统的所用时间非常大,也因此限制了该算法的广泛应用。另一方面,在算法实现过程中,从检测率和对正样本的误识率两个方面向预期值逐渐逼近来构造级联分类器,迭代训练生成大量的弱分类器后才能实现这一构造过程。由此推出循环逼近的训练分类器需要消耗更多的时间。
如图2所示,Adaboost模型进行客流预测的方法如下:
步骤一、根据站场客流和路段客流的历史数据,计算样本积分图,获得矩形特征原型;
步骤二、根据矩形特征原型计算矩形特征值,以建立矩形特征集;
步骤三、确定阀值,由矩形特征集生成对应的弱分类器,建立弱分类器集;
步骤四、挑选最优弱分类器,调用Adaboost算法训练强分类器,并建立强分类器集;
步骤五、根据强分类器集构建级联分类器,从而得到客流预测结果。
训练数据集上的误差率公式如下:
计算的系数:
其中,i为时间序列,x为客流数据(真实标记),y为示例,W2i为权值分布,G2(x)为分类器结果。
例如:在港珠澳大桥珠海口岸枢纽客流预测预警实现中,通过i为时间序列、x为港珠澳大桥客流数据、类别标签分别路段客流、人工岛客流、W2i权值分布、G2(x)分类器结果。
为了可以对不同观测尺度的数据进行进一步的跟踪对比以交通路段的自然小时粒度为单位对交通流序列不进行累加,以最大程度地保留周期内表征交通流序列的变化规律的信息计算。表示交通流时间序列i具有长期的记忆性质,表明交通流x变化的整体方向将继承过去的整体趋势,过去的增加(减少)趋势预示未来的增加(减少)趋势,预测结果如图3所示。
如图4所示,Bagging是通过结合几个模型降低泛化误差的技术。主要想法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子,被称为模型平均(model averaging)。采用这种策略的技术被称为集成方法。模型平均(model averaging)奏效的原因是不同的模型通常不会在测试集上产生完全相同的误差。模型平均是一个减少泛化误差的非常强大可靠的方法。
其特征包括:
1)Bagging通过降低基分类器的方差,改善了泛化误差;
2)其性能依赖于基分类器的稳定性;如果基分类器不稳定,bagging有助于降低训练数据的随机波动导致的误差;如果稳定,则集成分类器的误差主要由基分类器的偏倚引起;
3)由于每个样本被选中的概率相同,因此bagging并不侧重于训练数据集中的任何特定实例。
设单模型的期望为μ,则Bagging的期望预测为:
Bagging的抽样是有放回抽样,这样数据集之间会有重复的样本,则模型均值的方差为:
Bagging模型进行客流预测的方法如下:
步骤一、通过随机采样法提取N个小时客流主体不同时期的客流模型数据,得到初始模型数据样本Si(i=1、2、3...N),该随机采样法为自助采样法(Bootstap sampling),即对于N个样本的原始训练集,每次先随机采集一个样本放入采样集,接着把该样本放回,这样采集N次,直到得到N个样本的采样集为止;
步骤2:对各个初始模型数据样本Si(i=1、2、3...n)分别使用bagging机器学习方法,相对应地训练出N个独立的个体弱学习器Hi(i=1、2、3...N);bagging机器学习方法如下:
步骤三:通过stacking结合策略将步骤二中所述的个体弱学习器Hi(i=1、2、3...N)结合成一个强学习器H;stacking结合策略包括如下步骤:
先从路段客流模型数据集中随机抽取45%-55%数据样本作为训练集,同时从小时客流模型数据集中随机抽取20%-30%数据样本作为测试集;再训练一个次级学习器,在训练次级学习器的过程中将各个体弱学习器Hi(i=1、2、3...N)的学习结果作为次级学习器的输入,将训练集的结果作为次级学习器的输出;最后用初级学习器对测试集预测一次,得到次级学习器的输入样本,再用次级学习器对测试集预测一次得到预测样本,同时对输入样本和预测样本之间的数据关联匹配关系的不断训练,达到最优输出结果下的最佳模型输入以及过程参数取值范围,从而得到强学习器H;其中,所述的数据关联匹配关系包括小时客流模型输入数据、过程参数、和输出结果三者之间的关联匹配关系,所述的过程参数为小时客流模型数据中各指标的权重或者划分客户类别指标的取值范围,所述的输出结果为客户的价值标签或客户细分规则,所述的小时客流模型数据包括指标体系中的数据字段、指标权重、模型算法和模型结果。
步骤四:将步骤三得到的强学习器H作为最优模型规则,并将当前路段客流模型数据样本输入到强学习器H,强学习器H得出的结果为最优结果模型,预测结果如图5所示。
Extra Tree是随机森林(RF)的一个变种,原理基本和随机森林一样,区别如下:
1)RF会随机采样来作为子决策树的训练集,而Extra Tree每个子决策树采用原始数据集训练;
2)RF在选择划分特征点的时候会和传统决策树一样,会基于信息增益、信息增益率、均方差等原则来选择最优的特征值。Extra Tree则是随机选择一个特征值来划分决策树。
由于Extra Tree是随机选择特征点进行划分,所以最后得到的决策树规模会大于RF生成的决策树,Extra Tree决策树的方差会减少,泛化能力比RF更强。
随机森林对于回归问题公式:
其中,其中,f(x)为输出结果,m为向上边界,Tj(x)为训练集、j为类别、x为数量,H(x)为最终结果,hi为第i个决策树分类结果,Y为类别,I为度量函数,N为决策树的数量。
例如:在港珠澳大桥珠海口岸枢纽客流预测预警实现中,H(x)为最终结果,hi为第i个决策树分类结果,Y为类别(人工岛、路段),I为度量函数,N为决策树的数量。
生成n棵决策树,然后这n棵决策树进行投票或者平均得出最终结果。而每棵树生成的方式为随机选取样本、随机地选择特征。是一种并行学习算法(因为每次取样和建模都是独立的),即基分类器可同时训练。该模型相对随机森林模型,在对连续变量特征选取最优分裂值时,不会计算所有分裂值的效果,来选择分裂特征。而是对每一个特征,在它的特征取值范围内,随机生成一个split value,再计算看选取哪一个特征来进行分裂。
ExtraTree模型进行客流预测的方法如下:
步骤一、随机选取与场站客流相关的历史数据样本,并随机地选择特征,生成N棵决策树;
步骤二、根据N棵决策树进行投票或者平均得出最终客流预测结果,预测结果如图6所示。
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。Cover和Hart在1968年提出了最初的邻近算法。KNN是一种分类(classification)算法,它输入基于实例的学习(instance-based learning),属于懒惰学习(lazy learning)即KNN没有显式的学习过程,也就是说没有训练阶段,数据集事先已有了分类和特征值,待收到新样本后直接进行处理。与急切学习(eager learning)相对应。
如图7所示,KNN模型进行客流预测的方法如下:
步骤一、对目标数据进行预处理,该目标数据为场站客流的历史数据;
步骤二、计算目标数据与训练数据集每条记录的距离;
步骤三、采用回归算法找出目标数据的k最近邻数据;
步骤四、计算目标数据最邻近的权值,获得客流预测结果;
回归算法公式:
样本坐标(x,y),然后给定一个测试点坐标 x1,求回归曲线上对应的 y1 值。是取k 个离 x1 最近的样本坐标,然后对他们的 y1 值求平均,寻找一个最优的k,通过遍历k进行迭代。
与分类预测类似,KNN算法用于回归预测时,同样是寻找新来的预测实例的k近邻,然后对这k个样本的目标值去均值即可作为新样本的预测值。
交通状态向量的构造交通状态向量是由与被测路段某时刻交通状态相关的各影响因素组成的向量,用于描述被测路段某一时刻的交通状况。对于复杂的城市交通路网,影响被测路段交通状态的因素很多,如交通流量、平均行驶速度、区间密度、占有率、天气情况、路面状况、上下游流量和驾驶员行车习惯等,并且各影响因素之间还可能存在相关性,从而增加了问题分析的复杂性。交通状态向量包含的影响因素越多,预测精度相对越高,但同时也造成了状态向量过于复杂,增加了算法复杂度,降低了执行效率。
利用主成份分析方法对交通状态进行分析,从时间、空间和交通状态元数据3个维度探讨交通流状态的主要影响因素。从时间上看,k路段下一时刻的交通状态受到前m个时段交通状态的影响;从空间上看,k路段下一时刻的交通状态不仅与当前路段的交通状态有关,还受到其上下游路段交通状态的影响;而对于交通状态的具体考察指标,即交通状态元数据,则主要表示为交通流量、平均行车速度和客流占有率。
例如:在港珠澳大桥珠海口岸枢纽客流预测预警实现中,以k为大桥路段t时刻交通状态元向量表示为
其中ck(t)表示k大桥路段t时刻的交通流量,vk(t)表示k大桥路段t时刻的平均行车速度,ok(t)表示k大桥路段t时刻的客流占有率。k大桥路段t时刻的上下游交通状态元向量分别表示为
k大桥路段t时刻交通状态的空间向量可表示为
则k大桥路段交通状态时间向量,即最终的交通状态向量可表示为
如图9所示,随机森林是一种有监督学习算法。就像你所看到的它的名字一样,它创建了一个森林,并使它拥有某种方式随机性。所构建的“森林”是决策树的集成,大部分时候都是用“bagging”方法训练的。bagging方法,即bootstrap aggregating,采用的是随机有放回的选择训练数据然后构造分类器,最后组合学习到的模型来增加整体的效果。
RF模型进行客流预测的方法如下:
步骤一、搭建基于改进深度随机森林算法的客流预测系统模型;
步骤二、从场站营运产生的历史路段及小时粒度数据中选取样本数据;
步骤三、确定预测模型输入变量和输出变量;
步骤四、对每一个样本数据进行加权处理;
步骤五、通过一个长度为k的采样窗口对样本数据进行滑动采样,得到子样本向量;
步骤六、每个子样本由级联模块中的完全随机森林和随机森林训练分别生成一个表征向量H(x),叠加两个森林的输出得到特征向量Zi作为输入,用于训练深度,预测结果如图10所示。
SVM是由模式识别中广义肖像算法(generalized portrait algorithm)发展而来的分类器,其早期工作来自苏联学者Vladimir N. Vapnik和Alexander Y. Lerner在1963年发表的研究。1964年,Vapnik和Alexey Y. Chervonenkis对广义肖像算法进行了进一步讨论并建立了硬边距的线性SVM 。此后在二十世纪70-80年代,随着模式识别中最大边距决策边界的理论研究、基于松弛变量(slack variable)的规划问题求解技术的出现,和VC维(Vapnik-Chervonenkis dimension, VC dimension)的提出,SVM被逐步理论化并成为统计学习理论的一部分。1992年,Bernhard E. Boser、Isabelle M. Guyon和Vapnik通过核方法得到了非线性SVM。1995年,Corinna Cortes和Vapnik提出了软边距的非线性SVM并将其应用于手写字符识别问题,这份研究在发表后得到了关注和引用,为SVM在各领域的应用提供了参考。
如图11所示,SVM模型进行客流预测的方法如下:
步骤一、采集一段时间的场站交通历史数据,该数据可以看作是客流记录的集合,其中每条记录包括客流的起始站点、目的站点,进站时刻和出站时刻;所述采集一段时间的场站交通历史数据,可以通过场站的票务系统获取;
步骤二、基于历史数据,统计客流比例,针对场站,统计客流由该站进入去往其它站的比例;
步骤三、利用统计得到的出行比例数据训练最小二乘支持向量机(LSSVM);最小二乘支持向量机的训练数据样本可以表示为:(x1,y1),(x2,y2),… (xn,yn);其中, yi 是目标值,xi 是输入向量;
非线性回归问题可以描述为求解下面问题:
约束条件为:
其中,是核空间映射函数,权矢量ω∈ Rnh,误差变量ξ∈ R,b 是偏差量,γ是可调参数;核函数可以将原始空间中的样本映射为高维特征空间中的一个向量,已解决线性不可分问题,可以用拉格朗日求解这个优化问题,得到预测值K 为核函数,选择径向基函数其中at,i=1,…n 是拉格朗日乘子,b 是偏差量,σ为核函数的调整参数,参数at、b、σ、γ是以统计得到的出行比例为训练数据,通过训练支持向量机而自动得到;
步骤四、存储预测得到的路段客流预测值,供实时客流预测模块使用;所述存储预测得到客流预测值,可以以文件的形式存储在磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM),也可以以关系数据的形式存储在关系数据库系统中;
步骤五、获取在步骤四中存储的路段客流预测值,结合路段客预测值预测场站的客流,预测结果如图12所示。
xgboost是一种集成学习算法,属于3类常用的集成方法(bagging,boosting,stacking)中的boosting算法类别。它是一个加法模型,基模型一般选择树模型,但也可以选择其它类型的模型如逻辑回归等。xgboost属于梯度提升树(GBDT)模型这个范畴,GBDT的基本想法是让新的基模型(GBDT以CART分类回归树为基模型)去拟合前面模型的偏差,从而不断将加法模型的偏差降低。相比于经典的GBDT,xgboost做了一些改进,从而在效果和性能上有明显的提升。
如图13所示,XGboost模型进行客流预测的方法如下:
步骤一、根据小时客流数据,计算每天每个时段每个路段的客流,并考虑天气因素采用Xgboost模型预测未来场站客流量;
步骤二、利用路段客流的上下波动的频率走势,预测下车站点客流分布;
Xgboost添加正则项后的模型:
Yi是整个累加模型的输出,正则化项Ft是复杂度的函数值越小复杂度越低泛化能力越强,假设第k次生成的CART树(也可以称为残差树),则经过T轮之后(也就是一共有T棵树),最终模型对于样本i的预测值为CART树的叶子节点对应的值(Xi为第i个样本的输入值,T代表树的数量),预测结果如图14所示。
AHP层次分析法:
1、建立层次结构模型。在深入分析实际问题的基础上,将有关的各个因素按照不同属性自上而下地分解成若干层次,同一层的诸因素从属于上一层的因素或对上层因素有影响,同时又支配下一层的因素或受到下层因素的作用。最上层为目标层,通常只有1个因素,最下层通常为方案或对象层,中间可以有一个或几个层次,通常为准则或指标层。当准则过多时(譬如多于9个)应进一步分解出子准则层。
2、构造成对比较阵。从层次结构模型的第2层开始,对于从属于(或影响)上一层每个因素的同一层诸因素,用成对比较法和1—9比较尺度构造成对比较阵,直到最下层。
3、计算权向量并做一致性检验。对于每一个成对比较阵计算最大特征根及对应特征向量,利用一致性指标、随机一致性指标和一致性比率做一致性检验。若检验通过,特征向量(归一化后)即为权向量:若不通过,需重新构造成对比较阵。
4、计算组合权向量并做组合一致性检验。计算最下层对目标的组合权向量,并根据公式做组合一致性检验,若检验通过,则可按照组合权向量表示的结果进行决策,否则需要重新考虑模型或重新构造那些一致性比率较大的成对比较阵。
如图16所示,AHP层次分析法的步骤如下:
步骤一、根据Adaboost、Bagging、ExtraTree、KNN、RF、SVM、XGboost模型分别获得的客流预测结果建立系统的递阶层次结构;
步骤二、构造两两比较判断矩阵;
成对比较矩阵:
步骤三、针对某一个标准,计算各备选元素的权重;
步骤四、计算当前一层元素关于总目标的排序权重;
步骤五、进行一致性检验;
步骤六、进行权重分配,建立客流综合预测模型。
各模型预测误差指标如下:
解释方差分 | 平均绝对误差 | 均方误差 | 中位数绝对误差 | 决定系数、R方 | |
Adaboost | 0.809948068 | 50.20737631 | 5107.864 | 36.87037037 | 0.801820752 |
Bagging | 0.880477863 | 38.21689421 | 3123.466 | 26.19360113 | 0.878813126 |
ExtraTree | 0.668964479 | 52.52913753 | 8560.268 | 26 | 0.667871453 |
KNN | 0.779797269 | 50.51982929 | 5689.465 | 34.36090067 | 0.779255307 |
RF | 0.921085913 | 27.52777738 | 2073.01 | 13.89651587 | 0.919569589 |
SVM | 0.496187633 | 72.25641026 | 14383.2 | 36 | 0.44194847 |
XGboost | 0.864635713 | 38.90166633 | 3505.967 | 25.80244446 | 0.863972532 |
本发明是通过实施例来描述的,但并不对本发明构成限制,参照本发明的描述,所公开的实施例的其他变化,如对于本领域的专业人士是容易想到的,这样的变化应该属于本发明权利要求限定的范围之内。
Claims (10)
1.一种大型交通场站的客流预测方法,其特征在于包括以下步骤:
步骤一、采集与场站客流相关的历史数据;
步骤二、将采集到的历史数据分别使用Adaboost、Bagging、ExtraTree、KNN、RF、SVM、XGboost模型进行客流预测;
步骤三、对各个模型预测出的误差值通过AHP层次分析法进行分配权重修正,获得一个最优的客流预测结果,建立客流综合预测模型;
步骤四、根据实时监控数据,对客流综合预测模型进行更新,并将客流综合预测模型更新后获得的实时客流预测结果传输给MySql数据库制作成API接口供其他系统远程调用。
2.根据权利要求1所述的大型交通场站的客流预测方法,其特征在于,所述Adaboost模型进行客流预测的方法如下:
步骤一、根据站场客流和路段客流的历史数据,计算样本积分图,获得矩形特征原型;
步骤二、根据矩形特征原型计算矩形特征值,以建立矩形特征集;
步骤三、确定阀值,由矩形特征集生成对应的弱分类器,建立弱分类器集;
步骤四、挑选最优弱分类器,调用Adaboost算法训练强分类器,并建立强分类器集;
步骤五、根据强分类器集构建级联分类器,从而得到客流预测结果;
训练数据集上的误差率公式如下:
计算的系数:
其中,i为时间序列,x为客流数据(真实标记),y为示例,W2i为权值分布,G2(x)为分类器结果。
3.根据权利要求1所述的大型交通场站的客流预测方法,其特征在于,所述Bagging模型进行客流预测的方法如下:
步骤一、通过随机采样法提取N个小时客流主体不同时期的客流模型数据,得到初始模型数据样本Si(i=1、2、3...N),该随机采样法为自助采样法(Bootstap sampling),即对于N个样本的原始训练集,每次先随机采集一个样本放入采样集,接着把该样本放回,这样采集N次,直到得到N个样本的采样集为止;
步骤2:对各个初始模型数据样本Si(i=1、2、3...n)分别使用bagging机器学习方法,相对应地训练出N个独立的个体弱学习器Hi(i=1、2、3...N);bagging机器学习方法如下:
设单模型的期望为μ,则Bagging的期望预测为:
Bagging的抽样是有放回抽样,这样数据集之间会有重复的样本,则模型均值的方差为:
步骤三:通过stacking结合策略将步骤二中所述的个体弱学习器Hi(i=1、2、3...N)结合成一个强学习器H;stacking结合策略包括如下步骤:
先从路段客流模型数据集中随机抽取45%-55%数据样本作为训练集,同时从小时客流模型数据集中随机抽取20%-30%数据样本作为测试集;再训练一个次级学习器,在训练次级学习器的过程中将各个体弱学习器Hi(i=1、2、3...N)的学习结果作为次级学习器的输入,将训练集的结果作为次级学习器的输出;最后用初级学习器对测试集预测一次,得到次级学习器的输入样本,再用次级学习器对测试集预测一次得到预测样本,同时对输入样本和预测样本之间的数据关联匹配关系的不断训练,达到最优输出结果下的最佳模型输入以及过程参数取值范围,从而得到强学习器H;其中,所述的数据关联匹配关系包括小时客流模型输入数据、过程参数、和输出结果三者之间的关联匹配关系,所述的过程参数为小时客流模型数据中各指标的权重或者划分客户类别指标的取值范围,所述的输出结果为客户的价值标签或客户细分规则,所述的小时客流模型数据包括指标体系中的数据字段、指标权重、模型算法和模型结果;
步骤四:将步骤三得到的强学习器H作为最优模型规则,并将当前路段客流模型数据样本输入到强学习器H,强学习器H得出的结果为最优客流预测结果模型。
6.根据权利要求1所述的大型交通场站的客流预测方法,其特征在于,所述RF模型进行客流预测的方法如下:
步骤一、搭建基于改进深度随机森林算法的客流预测系统模型;
步骤二、从场站营运产生的历史路段及小时粒度数据中选取样本数据;
步骤三、确定预测模型输入变量和输出变量;
步骤四、对每一个样本数据进行加权处理;
步骤五、通过一个长度为k的采样窗口对样本数据进行滑动采样,得到子样本向量;
步骤六、每个子样本由级联模块中的完全随机森林和随机森林训练分别生成一个表征向量H(x),叠加两个森林的输出得到特征向量Zi作为输入,用于训练深度,获得客流预测结果。
7.根据权利要求1所述的大型交通场站的客流预测方法,其特征在于,所述SVM模型进行客流预测的方法如下:
步骤一、采集一段时间的场站交通历史数据,该数据可以看作是客流记录的集合,其中每条记录包括客流的起始站点、目的站点,进站时刻和出站时刻;所述采集一段时间的场站交通历史数据,可以通过场站的票务系统获取;
步骤二、基于历史数据,统计客流比例,针对场站,统计客流由该站进入去往其它站的比例;
步骤三、利用统计得到的出行比例数据训练最小二乘支持向量机(LSSVM);最小二乘支持向量机的训练数据样本可以表示为:(x1,y1),(x2,y2),… (xn,yn);其中, yi 是目标值,xi 是输入向量;
非线性回归问题可以描述为求解下面问题:
约束条件为:
其中,是核空间映射函数,权矢量ω∈ Rnh,误差变量ξ∈ R,b 是偏差量,γ是可调参数;核函数可以将原始空间中的样本映射为高维特征空间中的一个向量,已解决线性不可分问题,可以用拉格朗日求解这个优化问题,得到预测值K 为核函数,选择径向基函数其中at,i=1,… n 是拉格朗日乘子,b 是偏差量,σ为核函数的调整参数,参数at、b、σ、γ是以统计得到的出行比例为训练数据,通过训练支持向量机而自动得到;
步骤四、存储预测得到的路段客流预测值,供实时客流预测模块使用;所述存储预测得到客流预测值,可以以文件的形式存储在磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM),也可以以关系数据的形式存储在关系数据库系统中;
步骤五、获取在步骤四中存储的路段客流预测值,结合路段客预测值预测场站的客流,获得客流预测结果。
8.根据权利要求1所述的大型交通场站的客流预测方法,其特征在于,所述XGboost模型进行客流预测的方法如下:
步骤一、根据小时客流数据,计算每天每个时段每个路段的客流,并考虑天气因素采用Xgboost模型预测未来场站客流量;
步骤二、利用路段客流的上下波动的频率走势,预测下车站点客流分布,从而获得客流预测结果;
Xgboost添加正则项后的模型:
Yi是整个累加模型的输出,正则化项Ft是复杂度的函数值越小复杂度越低泛化能力越强,假设第k次生成的CART树(也可以称为残差树),则经过T轮之后(也就是一共有T棵树),最终模型对于样本i的预测值为CART树的叶子节点对应的值(Xi为第i个样本的输入值,T代表树的数量)。
10.一种大型交通场站的客流预测系统,其特征在于包括:
数据采集处理层,用于采集与场站客流相关的历史数据,且该数据采集处理层既包括传统的ETL离线采集,也包括实时采集、互联网爬虫解析,并能根据数据处理场景要求不同,可以划分为HADOOP、ETL、流处理;
数据存储层,用于存储数据采集处理层获得的数据,且该数据存储层能够通过Elastiscesarch、Mysql、Redis集群化存储达到高吞吐的数据存储功能并实现读写分离,将偏向应用的查询等能力与计算能力剥离;
算法层,用于调用数据存储层中由数据采集处理层获得的历史数据分别使用Adaboost、Bagging、ExtraTree、KNN、RF、SVM、XGboost模型进行客流预测,并对各个模型预测出的误差值通过AHP层次分析法进行分配权重修正,建立客流综合预测模型,并将客流综合预测模型获得的实时客流预测结果传输给数据存储层中的MySql数据库制作成API接口供其他系统远程调用;
业务层,用于将客流预测结果生成业务报表,并进行数据监听和数据推送;
应用层,用于对客流进行实时监控、预测预警服务,以及提供具体的分析服务,从而为客流综合预测模型提供数据更新;
管理层,用于实现数据的管理和运维,并对整个系统进行统一管理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609188.1A CN113159364A (zh) | 2020-12-30 | 2020-12-30 | 一种大型交通场站的客流预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609188.1A CN113159364A (zh) | 2020-12-30 | 2020-12-30 | 一种大型交通场站的客流预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113159364A true CN113159364A (zh) | 2021-07-23 |
Family
ID=76878115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011609188.1A Pending CN113159364A (zh) | 2020-12-30 | 2020-12-30 | 一种大型交通场站的客流预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159364A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627761A (zh) * | 2021-07-30 | 2021-11-09 | 中铁一局集团第二工程有限公司 | 一种岩土工程涌突水概率预测的并行评价方法 |
CN113792938A (zh) * | 2021-09-29 | 2021-12-14 | 上海华力微电子有限公司 | 生产周期时间的预测方法 |
CN113886372A (zh) * | 2021-09-08 | 2022-01-04 | 天元大数据信用管理有限公司 | 一种基于改进层次分析法的用户画像构建方法 |
CN114091026A (zh) * | 2021-11-25 | 2022-02-25 | 云南电网有限责任公司信息中心 | 一种基于集成学习的网络异常入侵检测方法和系统 |
CN114240174A (zh) * | 2021-12-16 | 2022-03-25 | 通控研究院(安徽)有限公司 | 基于动态客流的城轨线网行车调度辅助决策系统 |
CN114881359A (zh) * | 2022-06-02 | 2022-08-09 | 招商局重庆交通科研设计院有限公司 | 融合GBDT和XGBoost的路面IRI预测方法 |
CN114897205A (zh) * | 2022-03-07 | 2022-08-12 | 中国民航工程咨询有限公司 | 一种目标机场特征值预测方法和计算机设备 |
CN115688588A (zh) * | 2022-11-04 | 2023-02-03 | 自然资源部第一海洋研究所 | 一种基于改进xgb方法的海表面温度日变化振幅预测方法 |
CN116432871A (zh) * | 2023-06-13 | 2023-07-14 | 北京化工大学 | 一种基于AdaBoost算法的公交调度优化方法 |
CN117035696A (zh) * | 2023-10-09 | 2023-11-10 | 天津致新轨道交通运营有限公司 | 一种用于地铁客运服务的智慧客运管理方法 |
CN117236646A (zh) * | 2023-11-10 | 2023-12-15 | 杭州一喂智能科技有限公司 | 车辆调度方法、装置、电子设备和计算机可读介质 |
CN117473300A (zh) * | 2023-11-08 | 2024-01-30 | 广州筑鼎建筑与规划设计院有限公司 | 一种基于大数据的城市建设规划方法 |
CN117494295A (zh) * | 2024-01-03 | 2024-02-02 | 江苏安防科技有限公司 | 一种基于bim的轨道交通运维方法、系统、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512741A (zh) * | 2014-09-26 | 2016-04-20 | 山西云智慧科技股份有限公司 | 一种公交客流组合预测方法 |
CN107730893A (zh) * | 2017-11-30 | 2018-02-23 | 大连理工大学 | 一种基于乘客出行多维特征的共享巴士站点客流预测方法 |
CN107895283A (zh) * | 2017-11-07 | 2018-04-10 | 重庆邮电大学 | 一种基于时间序列分解的商家客流量大数据预测方法 |
CN108171369A (zh) * | 2017-12-21 | 2018-06-15 | 国家电网公司 | 基于客户用电差异化特性的短期负荷组合预测方法 |
CN110222873A (zh) * | 2019-05-14 | 2019-09-10 | 重庆邮电大学 | 一种基于大数据的地铁站客流量预测方法 |
CN110443314A (zh) * | 2019-08-08 | 2019-11-12 | 中国工商银行股份有限公司 | 基于机器学习的景区客流量预测方法及装置 |
-
2020
- 2020-12-30 CN CN202011609188.1A patent/CN113159364A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512741A (zh) * | 2014-09-26 | 2016-04-20 | 山西云智慧科技股份有限公司 | 一种公交客流组合预测方法 |
CN107895283A (zh) * | 2017-11-07 | 2018-04-10 | 重庆邮电大学 | 一种基于时间序列分解的商家客流量大数据预测方法 |
CN107730893A (zh) * | 2017-11-30 | 2018-02-23 | 大连理工大学 | 一种基于乘客出行多维特征的共享巴士站点客流预测方法 |
CN108171369A (zh) * | 2017-12-21 | 2018-06-15 | 国家电网公司 | 基于客户用电差异化特性的短期负荷组合预测方法 |
CN110222873A (zh) * | 2019-05-14 | 2019-09-10 | 重庆邮电大学 | 一种基于大数据的地铁站客流量预测方法 |
CN110443314A (zh) * | 2019-08-08 | 2019-11-12 | 中国工商银行股份有限公司 | 基于机器学习的景区客流量预测方法及装置 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627761B (zh) * | 2021-07-30 | 2024-03-01 | 中铁一局集团第二工程有限公司 | 一种岩土工程涌突水概率预测的并行评价方法 |
CN113627761A (zh) * | 2021-07-30 | 2021-11-09 | 中铁一局集团第二工程有限公司 | 一种岩土工程涌突水概率预测的并行评价方法 |
CN113886372A (zh) * | 2021-09-08 | 2022-01-04 | 天元大数据信用管理有限公司 | 一种基于改进层次分析法的用户画像构建方法 |
CN113792938A (zh) * | 2021-09-29 | 2021-12-14 | 上海华力微电子有限公司 | 生产周期时间的预测方法 |
CN114091026A (zh) * | 2021-11-25 | 2022-02-25 | 云南电网有限责任公司信息中心 | 一种基于集成学习的网络异常入侵检测方法和系统 |
CN114240174A (zh) * | 2021-12-16 | 2022-03-25 | 通控研究院(安徽)有限公司 | 基于动态客流的城轨线网行车调度辅助决策系统 |
CN114897205A (zh) * | 2022-03-07 | 2022-08-12 | 中国民航工程咨询有限公司 | 一种目标机场特征值预测方法和计算机设备 |
CN114881359A (zh) * | 2022-06-02 | 2022-08-09 | 招商局重庆交通科研设计院有限公司 | 融合GBDT和XGBoost的路面IRI预测方法 |
CN114881359B (zh) * | 2022-06-02 | 2024-05-14 | 招商局重庆交通科研设计院有限公司 | 融合GBDT和XGBoost的路面IRI预测方法 |
CN115688588A (zh) * | 2022-11-04 | 2023-02-03 | 自然资源部第一海洋研究所 | 一种基于改进xgb方法的海表面温度日变化振幅预测方法 |
CN116432871A (zh) * | 2023-06-13 | 2023-07-14 | 北京化工大学 | 一种基于AdaBoost算法的公交调度优化方法 |
CN117035696B (zh) * | 2023-10-09 | 2024-02-06 | 天津致新轨道交通运营有限公司 | 一种用于地铁客运服务的智慧客运管理方法 |
CN117035696A (zh) * | 2023-10-09 | 2023-11-10 | 天津致新轨道交通运营有限公司 | 一种用于地铁客运服务的智慧客运管理方法 |
CN117473300A (zh) * | 2023-11-08 | 2024-01-30 | 广州筑鼎建筑与规划设计院有限公司 | 一种基于大数据的城市建设规划方法 |
CN117473300B (zh) * | 2023-11-08 | 2024-09-03 | 广州筑鼎建筑与规划设计院有限公司 | 一种基于大数据的城市建设规划方法 |
CN117236646A (zh) * | 2023-11-10 | 2023-12-15 | 杭州一喂智能科技有限公司 | 车辆调度方法、装置、电子设备和计算机可读介质 |
CN117236646B (zh) * | 2023-11-10 | 2024-03-12 | 杭州一喂智能科技有限公司 | 车辆调度方法、装置、电子设备和计算机可读介质 |
CN117494295A (zh) * | 2024-01-03 | 2024-02-02 | 江苏安防科技有限公司 | 一种基于bim的轨道交通运维方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113159364A (zh) | 一种大型交通场站的客流预测方法及系统 | |
Zhang et al. | A framework for passengers demand prediction and recommendation | |
CN110570651A (zh) | 一种基于深度学习的路网交通态势预测方法及系统 | |
CN111539454B (zh) | 一种基于元学习的车辆轨迹聚类方法及系统 | |
CN105374209B (zh) | 一种城市区域路网运行状态特征信息提取方法 | |
CN107845260B (zh) | 一种用户公交出行方式的识别方法 | |
CN112183605B (zh) | 一种基于运行特征的民航管制扇区分类方法 | |
Yang et al. | Daily metro origin-destination pattern recognition using dimensionality reduction and clustering methods | |
CN112270355A (zh) | 基于大数据技术与sae-gru的主动安全预测方法 | |
CN116681176B (zh) | 一种基于聚类和异构图神经网络的交通流预测方法 | |
CN110836675A (zh) | 一种基于决策树的自动驾驶搜索决策方法 | |
CN112101132B (zh) | 一种基于图嵌入模型和度量学习的交通状况预测方法 | |
Zhao et al. | Short-term traffic flow intensity prediction based on CHS-LSTM | |
CN114117903B (zh) | 一种基于bp神经网络的轨道交通短时客流预测方法 | |
CN116797274A (zh) | 一种基于Attention-LSTM-LightGBM的共享单车需求量预测方法 | |
Lu et al. | Flight delay prediction using gradient boosting machine learning classifiers | |
CN112926809B (zh) | 一种基于聚类和改进的xgboost的航班流量预测方法及系统 | |
Rasaizadi et al. | Short‐Term Prediction of Traffic State for a Rural Road Applying Ensemble Learning Process | |
Rodríguez-Rueda et al. | Origin–Destination matrix estimation and prediction from socioeconomic variables using automatic feature selection procedure-based machine learning model | |
CN108171367A (zh) | 一种公交车服务水平可靠性预测方法 | |
Rasaizadi et al. | The ensemble learning process for short-term prediction of traffic state on rural roads | |
Sambo et al. | Integration of GPS and satellite images for detection and classification of fleet hotspots | |
CN114463978B (zh) | 一种基于轨道交通信息处理终端的数据监测方法 | |
Widhalm et al. | Robust road link speed estimates for sparse or missing probe vehicle data | |
Mao et al. | Naive Bayesian algorithm classification model with local attribute weighted based on KNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210723 |