CN111143768A - 一种基于arima-svm组合模型的空气质量预测算法 - Google Patents

一种基于arima-svm组合模型的空气质量预测算法 Download PDF

Info

Publication number
CN111143768A
CN111143768A CN201911089421.5A CN201911089421A CN111143768A CN 111143768 A CN111143768 A CN 111143768A CN 201911089421 A CN201911089421 A CN 201911089421A CN 111143768 A CN111143768 A CN 111143768A
Authority
CN
China
Prior art keywords
data
arima
svm
model
air quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911089421.5A
Other languages
English (en)
Inventor
彭艺
杨涛锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201911089421.5A priority Critical patent/CN111143768A/zh
Publication of CN111143768A publication Critical patent/CN111143768A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于ARIMA‑SVM组合模型的空气质量预测算法,属于数据挖掘领域。该算法首先对空气质量数据进行平稳性检验,若非平稳通过差分处理使数据平稳,接着根据数据yt特点进行ARIMA建模分析,得到预测结果
Figure DDA0002266415880000011
接着对预测结果
Figure DDA0002266415880000012
的残差Nt使用SVM模型进行预测分析得到结果
Figure DDA0002266415880000013
把两个模型的预测结果相加即得到ARIMA‑SVM组合模型的预测结果。本发明提出的组合模型能够改进现有的单一模型在对空气质量数据进行分析预测的时候不能同时挖掘数据的线性以及非线性特征信息造成预测精度的下降的问题,大幅度提高预测精度。

Description

一种基于ARIMA-SVM组合模型的空气质量预测算法
技术领域
本发明涉及一种数据挖掘领域,具体的涉及一种基于ARIMA-SVM组合模型的空气质量预测算法。
背景技术
近年来,随着工业生产的发展与人类活动的增加,造成大量能源消耗与废物排放,空气质量问题日益突出,尤其是可吸入颗粒物(PM2.5)严重影响人体健康。因此空气质量的精准预测对人们的生产、生活、培养保护环境意识等具有重要的指导意义。
PM2.5浓度受多个因素影响同时兼具线性和非线性的特点,目前对PM2.5的预测主要有神经网络、灰色预测、时空数据模型、支持向量机等方法。以上的这些现有的单一模型在对空气质量数据进行分析预测的时候不能同时挖掘数据的线性以及非线性特征信息造成预测精度的下降。
发明内容
为了弥补先有技术的不足,本发明提供了一种能同时挖掘数据线性以及非线性信息从而提高预测精度的一种基于基于ARIMA-SVM组合模型的空气质量预测算法。
为实现上述目的,设计了三个部分:ARIMA模型预测、SVM模型预测、确定组合模型的预测结果。
其各个部分的方法如下:
所述ARIMA(p,d,q)模型预测,ARIMA模型只能对严平稳数据进行预测分析,对数据进行平稳性检验,若是严平稳则不对数据进行处理,若是非严平稳怎对数据进行d阶差分处理使数据变为严平稳。
对ARIMA(p,d,q)模型进行定阶主要是确定(p,d,q)的值,其中d的值在第一步中已经确认。在ARIMA的数学模型中,一般把时间序列在某时刻的值视为过去若干时间值与一组白噪声的线性叠加。即:
Figure BDA0002266415860000011
式(1)中yt是待分析的平稳时间序列,εt为白噪声序列。通过对序列自相关系数图以及偏自相关系数图的观察可以确定自回归阶数p和移动平均阶数q,模型完成定阶后,可确定系数γi、γi
ARIMA模型定阶完成后,对浓度数据yt进行ARIMA建模得到预测结果
Figure BDA0002266415860000021
所述的SVM模型预测主要的工作是:支持向量机(SVM)最初被提出来用来解决分类问题,后来随着理论的发展通过非线性映射把数据映射到高维空间完成线性回归以此来解决原来样本空间的非线性回归问题。设训练集
Figure BDA0002266415860000022
xi∈RD,yi∈R,则设SVM的回归方程为:
Figure BDA0002266415860000023
式中w是权向量,b是拟合偏差,“·”表示内积,f(x)是x的非线性函数,同时f(x)又是
Figure BDA0002266415860000024
的线性函数,这样就把问题由原本空间的非线性回归转化为了高维空间的线性回归。为了减少计算量,引入核函数取代高维空间中的内积运算将其转化为原样本空间运算,得到SVM的非线性拟合函数:
Figure BDA0002266415860000025
式中
Figure BDA0002266415860000026
为权值,根据Mercer定理K(xi,xj)为满足
Figure BDA0002266415860000027
的核函数。
把对浓度数据yt进行ARIMA建模得到预测结果
Figure BDA0002266415860000028
与实际空气浓度数据yt进行作差处理得到残差
Figure BDA0002266415860000029
根据公式3对残差Nt进行预测分析得到预测结果
Figure BDA00022664158600000210
在确定ARIMA-SVM组合模型预测结果部分:把两个模型的预测结果相加即得到ARIMA-SVM组合模型的预测结果:
Figure BDA00022664158600000211
本发明的与现有的主流相关滤波跟踪算法相比,其优点在于:
本发明提出的一种基于基于基于ARIMA-SVM组合模型的空气质量预测算法与现有的单一模型预测算法相比能同时挖掘数据线性以及非线性信息从而提高预测精度。
附图说明
图1是本发明的算法流程图。
图2是本发明的ARIMA模型预测流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
图1是本发明的算法流程图:
第一步:ARIMA(p,d,q)模型的分析对象是平稳序列,首先对空气质量数据进行平稳性检验,若是严平稳则不对数据进行处理,若是非严平稳怎对数据进行差分处理使数据变为严平稳。
第二步:平稳的空气质量数据进行分析根据分析结果对ARIMA模型进行定阶,对ARIMA(p,d,q)模型进行定阶主要是确定(p,d,q)的值,其中d的值在第一步中已经确认。在ARIMA的数学模型中,一般把时间序列在某时刻的值视为过去若干时间值与一组白噪声的线性叠加。即:
Figure BDA0002266415860000031
式(1)中yt是待分析的平稳时间序列,εt为白噪声序列。通过对序列自相关系数图以及偏自相关系数图的观察可以确定自回归阶数p和移动平均阶数q,模型完成定阶后,可确定系数γi、γi
第三步:把对浓度数据yt进行ARIMA建模得到预测结果
Figure BDA0002266415860000032
第四步:把对浓度数据yt进行ARIMA建模得到预测结果
Figure BDA0002266415860000033
与实际空气浓度数据yt进行作差处理得到残差
Figure BDA0002266415860000034
第五步:支持向量机(SVM)最初被提出来用来解决分类问题,后来随着理论的发展通过非线性映射把数据映射到高维空间完成线性回归以此来解决原来样本空间的非线性回归问题。设训练集
Figure BDA0002266415860000035
xi∈RD,yi∈R,则设SVM的回归方程为:
Figure BDA0002266415860000036
式中w是权向量,b是拟合偏差,“·”表示内积,f(x)是x的非线性函数,同时f(x)又是
Figure BDA0002266415860000041
的线性函数,这样就把问题由原本空间的非线性回归转化为了高维空间的线性回归。为了减少计算量,引入核函数取代高维空间中的内积运算将其转化为原样本空间运算,得到SVM的非线性拟合函数:
Figure BDA0002266415860000042
式中
Figure BDA0002266415860000043
为权值,根据Mercer定理K(xi,xj)为满足
Figure BDA0002266415860000044
的核函数。
根据公式3对残差Nt进行预测分析得到预测结果
Figure BDA0002266415860000045
第六步:把两个模型的预测结果相加即得到ARIMA-SVM组合模型的预测结果:
Figure BDA0002266415860000046
图2是本发明的ARIMA模型预测流程图。
第一步:对获取的空气质量数据进行检测,若平稳则进行零均值化,若非平稳则进行d次差分使其平稳。
第二步:计算序列自相关函数(ACF)和自相关函数(PACF),若序列在上一步中进行差分处理,则计算差分序列的自相关函数以及偏自相关函数。
第三步:根据上一步的计算结果确定ARIMA模型中p、q的值,完成模型的定阶,这里的定阶标准选取BIC(Bayesian InformationCriterion)贝叶斯信息准。
第四步:对模型进行检验,这里检验进行两个,首先是检验参数的显著性(t检测),检验通过后接着选取一部分训练集,使用模型进行预测,求出预测结果的残差,对预测结果的残差进行随机性检验,检验残差是否是独立的。两个检验都通过证明模型是有效的。
第五步:使用得到的模型进行预测分析。

Claims (6)

1.一种基于ARIMA-SVM组合模型的空气质量预测算法,其特征在于,所述一种基于ARIMA-SVM空气质量预测算法的具体步骤如下:
第一步:首先对空气质量数据进行平稳性检验,若是严平稳则不对数据进行处理,若是非严平稳怎对数据进行差分处理使数据变为严平稳;
第二步:对平稳的空气质量数据进行分析根据分析结果对ARIMA模型进行定阶;
第三步:使用定阶后的ARIMA模型对空气质量数据进行预测;
第四步:求实际数值与ARIMA模型预测数值的残差;
第五步:使用SVM模型对残差进行回归分析,求得残差的预测结果;
第六步:把残差的预测分析结果与ARIMA模型的预测结果相加即为ARIMA-SVM组合模型的预测结果。
2.根据权利要求1所述的一种基于ARIMA-SVM组合模型的空气质量预测算法,其特征在于:所述的第一步中对数据进行平稳性检验,若是严平稳则不对数据进行处理,若是非严平稳怎对数据进行差分处理使数据变为严平稳。ARIMA(p,d,q)模型的分析对象是平稳序列,若序列非平稳则通过d阶差分的方法使其平稳。
3.根据权利要求1所述的一种基于ARIMA-SVM组合模型的空气质量预测算法,其特征在于:所述第二步的具体步骤如下:
对ARIMA(p,d,q)模型进行定阶主要是确定(p,d,q)的值,其中d的值在第一步中已经确认。在ARIMA的数学模型中,一般把时间序列在某时刻的值视为过去若干时间值与一组白噪声的线性叠加。即:
Figure FDA0002266415850000011
式(1)中yt是待分析的平稳时间序列,εt为白噪声序列。通过对序列自相关系数图以及偏自相关系数图的观察可以确定自回归阶数p和移动平均阶数q,模型完成定阶后,可确定系数γi、γi
4.根据权利要求1所述的一种基于ARIMA-SVM组合模型的空气质量预测算法,其特征在于:在第三步中,把对浓度数据yt进行ARIMA建模得到预测结果
Figure FDA0002266415850000021
与实际空气浓度数据yt进行作差处理得到残差
Figure FDA0002266415850000022
5.根据权利要求1所述的一种基于ARIMA-SVM组合模型的空气质量预测算法,其特征在于:在第五步中,支持向量机(SVM)最初被提出来用来解决分类问题,后来随着理论的发展通过非线性映射把数据映射到高维空间完成线性回归以此来解决原来样本空间的非线性回归问题。设训练集
Figure FDA0002266415850000023
xi∈RD,yi∈R,则设SVM的回归方程为:
Figure FDA0002266415850000024
式中w是权向量,b是拟合偏差,“·”表示内积,f(x)是x的非线性函数,同时f(x)又是
Figure FDA0002266415850000025
的线性函数,这样就把问题由原本空间的非线性回归转化为了高维空间的线性回归。为了减少计算量,引入核函数取代高维空间中的内积运算将其转化为原样本空间运算,得到SVM的非线性拟合函数:
Figure FDA0002266415850000026
式中
Figure FDA0002266415850000027
为权值,根据Mercer定理K(xi,xj)为满足
Figure FDA0002266415850000028
的核函数。
根据公式3对残差Nt进行预测分析得到预测结果
Figure FDA0002266415850000029
6.根据权利要求1所述的一种基于ARIMA-SVM组合模型的空气质量预测算法,其特征在于:在第六步中,把两个模型的预测结果相加即得到ARIMA-SVM组合模型的预测结果:
Figure FDA00022664158500000210
CN201911089421.5A 2019-11-08 2019-11-08 一种基于arima-svm组合模型的空气质量预测算法 Pending CN111143768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911089421.5A CN111143768A (zh) 2019-11-08 2019-11-08 一种基于arima-svm组合模型的空气质量预测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911089421.5A CN111143768A (zh) 2019-11-08 2019-11-08 一种基于arima-svm组合模型的空气质量预测算法

Publications (1)

Publication Number Publication Date
CN111143768A true CN111143768A (zh) 2020-05-12

Family

ID=70517067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911089421.5A Pending CN111143768A (zh) 2019-11-08 2019-11-08 一种基于arima-svm组合模型的空气质量预测算法

Country Status (1)

Country Link
CN (1) CN111143768A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906941A (zh) * 2021-01-21 2021-06-04 哈尔滨工程大学 面向动态相关空气质量时间序列的预测方法及系统
CN113011455A (zh) * 2021-02-02 2021-06-22 北京数汇通信息技术有限公司 一种空气质量预测svm模型构建方法
CN113139673A (zh) * 2020-11-04 2021-07-20 西安天和防务技术股份有限公司 一种预测空气质量的方法、装置、终端及存储介质
CN117219284A (zh) * 2023-09-11 2023-12-12 广东德澳智慧医疗科技有限公司 一种具有时序性智慧医疗大数据管理的系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139673A (zh) * 2020-11-04 2021-07-20 西安天和防务技术股份有限公司 一种预测空气质量的方法、装置、终端及存储介质
CN112906941A (zh) * 2021-01-21 2021-06-04 哈尔滨工程大学 面向动态相关空气质量时间序列的预测方法及系统
CN113011455A (zh) * 2021-02-02 2021-06-22 北京数汇通信息技术有限公司 一种空气质量预测svm模型构建方法
CN113011455B (zh) * 2021-02-02 2024-01-05 北京数汇通信息技术有限公司 一种空气质量预测svm模型构建方法
CN117219284A (zh) * 2023-09-11 2023-12-12 广东德澳智慧医疗科技有限公司 一种具有时序性智慧医疗大数据管理的系统
CN117219284B (zh) * 2023-09-11 2024-05-07 湖北中医药大学 一种具有时序性智慧医疗大数据管理的系统

Similar Documents

Publication Publication Date Title
CN111143768A (zh) 一种基于arima-svm组合模型的空气质量预测算法
Harmel et al. Evaluating, interpreting, and communicating performance of hydrologic/water quality models considering intended use: A review and recommendations
CN111104981A (zh) 一种基于机器学习的水文预报精度评价方法及系统
CN107169205B (zh) 一种铁矿石的分类建模方法
CN105334185A (zh) 基于光谱投影判别的近红外模型维护方法
CN110837921A (zh) 基于梯度提升决策树混合模型的房地产价格预测研究方法
CN103018177A (zh) 基于随机采样一致集的谱图异常样本点检测方法
CN110569566A (zh) 一种板带力学性能预测方法
TW201717057A (zh) 製程異因分析方法與製程異因分析系統
CN111367959A (zh) 一种零时滞非线性扩展Granger因果分析方法
CN110555235A (zh) 基于向量自回归模型的结构局部缺陷检测方法
CN114991757A (zh) 一种随钻地层压力测录一体化监测方法及系统
Akkerhuis et al. The statistical evaluation of binary tests without gold standard: Robustness of latent variable approaches
Liu et al. A data‐driven combined deterministic‐stochastic subspace identification method for condition assessment of roof structures subjected to strong winds
CN110308713A (zh) 一种基于k近邻重构的工业过程故障变量识别方法
Sun et al. A classification and location of surface defects method in hot rolled steel strips based on YOLOV7
CN117233347A (zh) 一种碳钢球化等级测量方法、系统及设备
CN104504265A (zh) 一种在役桥梁监测信息安全评估的方法
CN111260029A (zh) 一种面向空气质量数据的可信度分析方法
CN111783308A (zh) 一种精确预测隧道围岩位移的方法
CN108920428B (zh) 一种基于联合模糊扩张原理的模糊距离判别方法
CN109840386A (zh) 基于因子分析的损伤识别方法
Zhang et al. Multivariate discrete grey model base on dummy drivers
Iwata et al. AI-aided Hammering Test System to Automatically Generate Anomaly Maps.
CN113707240B (zh) 基于半监督非线性变分贝叶斯混合模型的成分参数鲁棒软测量方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200512