CN110648010A - 一种基于小样本数据的公交客流预测方法 - Google Patents
一种基于小样本数据的公交客流预测方法 Download PDFInfo
- Publication number
- CN110648010A CN110648010A CN201910683646.7A CN201910683646A CN110648010A CN 110648010 A CN110648010 A CN 110648010A CN 201910683646 A CN201910683646 A CN 201910683646A CN 110648010 A CN110648010 A CN 110648010A
- Authority
- CN
- China
- Prior art keywords
- passenger flow
- bus
- data
- bus passenger
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000012706 support-vector machine Methods 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims description 16
- 230000009977 dual effect Effects 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000009795 derivation Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于小样本数据的公交客流预测方法,包括以下步骤:首先将杭州某线路的公交客流刷卡数据和扫码数据进行统计,得出公交客流变化规律。然后利用公交客流数据特性,提取公交客流数据特征。根据公交客流数据特征,建立公交客流支持向量机模型。最后求出客流预测值和客流实际值的均方误差验证客流预测模型的有效性。本发明通过利用某公交线路三日的扫码数据和刷卡数据,基于支持向量机模型,对第四日的公交客流进行预测,实例结果表明该预测结果具有较高的预测精度。
Description
技术领域
本发明为一种基于小样本数据的公交客流预测方法。
背景技术
影响短时公交客流的相关因素难以捕捉分析,而且其相关因素的短期数据难以实时获取,当快速公交系统并不普及,采集数据类型单一,数据量少时,采用数据自动学习获取特征的方法无法实现,采用深度学习等自学习预测方法具有一定的局限性。且在公交动态调度应用时对预测结果的实时性要求高,深度学习的训练时间长,实现繁琐复杂。因此有必要研究一种所需数据量小,训练时间短,实现方便简单,准确性高的短时公交客流预测方法。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于小样本数据的公交客流预测方法。支持向量机是一种通过寻求结构化通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。
本发明为一种基于小样本数据的公交客流预测方法。首先将杭州某线路的公交客流刷卡数据和扫码数据进行统计,得出公交客流变化规律。然后利用公交客流数据特性,提取公交客流数据特征。根据公交客流数据特征,建立公交客流支持向量机模型。最后求出客流预测值和客流实际值的均方误差验证客流预测模型的有效性。
一种基于小样本数据的公交客流预测方法,包括以下步骤:
(1)公交客流数据统计;
将短期内的公交客流刷卡数据与扫码数据进行统计,统计公交线路每小时的客流量。
(2)提取公交客流特征;
根据短时公交客流的周期性将前三日同一时段内的公交客流作为特征变量,然后提取公交当日是否雨雪天气作为特征变量之一,最后提取是否节假日作为特征变量之一。式中:y为训练集实际值,n为训练样本数。
(3)支持向量机客流预测模型建模;
f(x)=xTβ+β0(1)
式中:x为特征变量,β为支持向量机模型参数。
(4)求解参数;
式中:yi为客流实际值,f(xi)为客流预测值,λ为正则化参数,N为训练样本个数。
(5)参数求解的对偶问题;
根据拉格朗日乘子法,可得原始优化问题的对偶优化问题:
(6)求解对偶优化问题;
(7)求解原始优化问题;
通过对偶优化问题的解可以求解出原始优化问题的解为:
(8)得出预测模型;
将求解出的参数代入式(1)得出客流预测模型:
(9)预测性能评价;
选择预测性能的评价指标为决定系数R2
本发明的优点是:
(1)所需数据量小。
(2)训练时间短。
(3)实现方便简单,具备较高准确率。
附图说明
图1为是本发明的公交客流时间序列图。
具体实施方式
以下结合附图和实际客流数据,进一步说明本发明的具体实施方式。
(1)首先将杭州某线路的公交客流刷卡数据和支付宝扫码数据进行统计,得出公交客流变化规律:
表1.小样本客流数据表格
(2)如图1公交客流时间序列图所示,公交客流的小样本数据可以得出公交客流具有一定的周期性。根据公交客流数据特性,对公交客流进行特征提取。
由公交客流数据周期为一天,如表2训练样本数据所示将公交客流数据进行特征提取。
表2.训练数据样本
(3)支持向量机客流预测模型建模
f(x)=xTβ+β0 (1)
(4)根据拉格朗日乘子法可求解出
β=[-0.077,0.887,0.177]
β0=0.19
(5)进而可以求解出预测模型
f(x)=-0.077×x1+0.887×x2+0.177×x3+0.19
(6)测试集数据为
表3.测试数据样本
可以通过x1,x2,x3求出预测值,得出预测值与实际值对比表格:
表4.预测值实际值对比表格
(7)预测性能评价
由预测性能的评价指标决定系数R2
得出
R2=0.966
验证了基于小样本的公交客流预测方法具有均较高预测性能。
Claims (1)
1.基于小样本数据的公交客流预测方法,包括以下步骤:
(1)统计公交客流数据;
将短期内的公交客流刷卡数据与扫码数据进行统计,统计公交线路每小时的客流量。
(2)提取公交客流特征;
根据短时公交客流的周期性将前三日同一时段内的公交客流作为特征变量,然后提取公交当日是否雨雪天气作为特征变量之一,最后提取是否节假日作为特征变量之一。式中:y为训练集实际值,n为训练样本数。
(3)支持向量机客流预测模型建模;
f(x)=xTβ+β0 (1)
式中:x为特征变量,β为支持向量机模型参数。
(4)求解参数;
式中:yi为客流实际值,f(xi)为客流预测值,λ为正则化参数,N为训练样本个数。
(5)参数求解的对偶问题;
根据拉格朗日乘子法,可得原始优化问题的对偶优化问题:
(6)求解对偶优化问题;
(7)求解原始优化问题;
通过对偶优化问题的解可以求解出原始优化问题的解为:
(8)得出预测模型;
将求解出的参数代入式(1)得出客流预测模型:
(9)预测性能评价;
选择预测性能的评价指标为决定系数R2
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910683646.7A CN110648010A (zh) | 2019-07-26 | 2019-07-26 | 一种基于小样本数据的公交客流预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910683646.7A CN110648010A (zh) | 2019-07-26 | 2019-07-26 | 一种基于小样本数据的公交客流预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110648010A true CN110648010A (zh) | 2020-01-03 |
Family
ID=69009501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910683646.7A Pending CN110648010A (zh) | 2019-07-26 | 2019-07-26 | 一种基于小样本数据的公交客流预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110648010A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1281130A1 (en) * | 2000-04-11 | 2003-02-05 | Telstra New Wave Pty Ltd | A gradient based training method for a support vector machine |
CN103310287A (zh) * | 2013-07-02 | 2013-09-18 | 北京航空航天大学 | 基于svm预测乘客出行概率的轨道交通客流预测方法 |
-
2019
- 2019-07-26 CN CN201910683646.7A patent/CN110648010A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1281130A1 (en) * | 2000-04-11 | 2003-02-05 | Telstra New Wave Pty Ltd | A gradient based training method for a support vector machine |
CN103310287A (zh) * | 2013-07-02 | 2013-09-18 | 北京航空航天大学 | 基于svm预测乘客出行概率的轨道交通客流预测方法 |
Non-Patent Citations (2)
Title |
---|
刘雪琴: "基于交通一卡通大数据的公交客流分析与预测", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
演克武 等: "基于支持向量机回归算法的航空公司客流量预测研究", 《企业经济》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104981B (zh) | 一种基于机器学习的水文预报精度评价方法及系统 | |
CN107220648B (zh) | 理赔单据的字符识别方法及服务器 | |
CN109522304A (zh) | 异常对象识别方法及装置、存储介质 | |
CN106951925A (zh) | 数据处理方法、装置、服务器及系统 | |
CN109271374A (zh) | 一种基于机器学习的数据库健康度打分方法和打分系统 | |
CN102508907A (zh) | 一种基于训练集优化的推荐系统的动态推荐方法 | |
CN110263827A (zh) | 基于交易规律识别的异常交易检测方法及装置 | |
CN108021773B (zh) | 基于dss数据库的分布式水文模型多场次洪水参数率定方法 | |
CN110726898B (zh) | 一种配电网故障类型识别方法 | |
CN110852476A (zh) | 客流预测方法、装置、计算机设备和存储介质 | |
CN107132266A (zh) | 一种基于随机森林的水质分类方法及系统 | |
CN115423163A (zh) | 一种流域短期洪水事件预测方法、装置及终端设备 | |
CN113362913A (zh) | 一种基于随机森林回归的汽油辛烷值损失预测及优化方法 | |
CN115131557A (zh) | 一种基于活性污泥图像的轻量化分割模型构建方法及系统 | |
CN112199862A (zh) | 纳米粒子运移的预测方法、其影响因子分析方法及系统 | |
CN104217088A (zh) | 运营商移动业务资源的优化方法与系统 | |
CN110648010A (zh) | 一种基于小样本数据的公交客流预测方法 | |
CN110751400B (zh) | 一种风险评估方法及装置 | |
CN116884435A (zh) | 一种基于音频提示学习的声音事件检测方法及装置 | |
CN109697630B (zh) | 一种基于稀疏回归的商家客流量多因素分析与预测方法 | |
CN112579847A (zh) | 生产数据的处理方法和装置、存储介质及电子设备 | |
CN109614999A (zh) | 一种数据处理方法、装置、设备及计算机可读存储介质 | |
Liu et al. | Quality assessment for inspection images of power lines based on spatial and sharpness evaluation | |
CN109840566A (zh) | 出行模式识别方法及装置 | |
CN115358473A (zh) | 基于深度学习的电力负荷预测方法及预测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200103 |
|
RJ01 | Rejection of invention patent application after publication |