CN104008278A - 一种基于特征向量和最小二乘支持向量机的pm25浓度预测方法 - Google Patents
一种基于特征向量和最小二乘支持向量机的pm25浓度预测方法 Download PDFInfo
- Publication number
- CN104008278A CN104008278A CN201410201739.9A CN201410201739A CN104008278A CN 104008278 A CN104008278 A CN 104008278A CN 201410201739 A CN201410201739 A CN 201410201739A CN 104008278 A CN104008278 A CN 104008278A
- Authority
- CN
- China
- Prior art keywords
- concentration
- data
- proper vector
- vector
- meteorological index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012843 least square support vector machine Methods 0.000 title abstract 2
- 238000012549 training Methods 0.000 claims abstract description 65
- 239000003344 environmental pollutant Substances 0.000 claims abstract description 35
- 231100000719 pollutant Toxicity 0.000 claims abstract description 35
- 238000010219 correlation analysis Methods 0.000 claims abstract description 11
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims description 48
- 230000001419 dependent effect Effects 0.000 claims description 23
- 230000008034 disappearance Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 abstract description 7
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 26
- 229910002091 carbon monoxide Inorganic materials 0.000 description 26
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 description 13
- JCXJVPUVTGWSNB-UHFFFAOYSA-N nitrogen dioxide Inorganic materials O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 13
- 230000007613 environmental effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 101100323157 Arabidopsis thaliana LAP1 gene Proteins 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001808 coupling effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,属于环境污染预测领域。本发明首先收集与PM2.5浓度相关的污染物浓度数据进行预处理;然后计算综合气象指数;再对与PM2.5浓度相关的污染物浓度数据、综合气象指数进行相关性分析,得到包含综合气象指数的特征向量构成特征向量A和得到去除综合气象指数的特征向量构成特征向量B;最后通过特征向量A、特征向量B构成训练样本训练LS-SVM模型并对预测结果进行评价。本发明结合环境监测数据和实际情况,将空气湿度、风力、温度三个因素与PM2.5的形成机理相结合,提出综合气象指数公式这一新的概念;预测精度较高。
Description
技术领域
本发明涉及一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,属于环境污染预测领域。
背景技术
PM2.5是指环境空气中空气动力学当量直径小于等于2.5μm(微米)的颗粒物,其数值越高,代表颗粒物浓度越高,意味着空气污染越严重。虽然PM2.5只是地球大气成分中含量很少的组成部分,但是它对空气质量和能见度等指标有重要影响。近期,我国多地出现雾霾天气,严重影响了人们的生活。二氧化硫、氮氧化物和PM2.5是雾霾的主要构成物质,PM2.5是其中加重雾霾污染天气的罪魁祸首,成为了影响人们正常生活的重要指标,准确预测PM2.5的浓度(浓度量纲为ug/m 3 ,后文中提及的浓度均以此单位计)变得越来越重要。
影响PM2.5数值的因素包括空气中二氧化硫(SO2)、二氧化氮(NO2)、一氧化碳(CO)、PM10含量和气象因素等。预测PM2.5浓度值变化规律对未来空气质量监测有重要意义。预测PM2.5的浓度,最重要的是分析各个影响因素与PM2.5之间复杂关系。近年来,专家学者开展了一些相关的研究工作,得到了一些常用的方法如人工神经网络、支持向量机等等。这些方法是通过研究个别因素对大气污染物浓度的影响提出的。但是实质上气象因素对于PM2.5浓度的影响是十分复杂的,实际情况中往往是不同气象因素交互影响的结果,如果分别考虑各个因素,则不能很好地体现多个因素相互作用对PM2.5浓度产生的耦合效应,也就不能准确建立预测PM2.5浓度的方法。
本发明旨在引入综合气象指数这一概念并用与PM2.5浓度相关性较强的工业污染物因素组成特征向量对LS-SVM模型进行训练,得到准确度较高的预测PM2.5浓度模型。
发明内容
本发明提供了一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,以用于解决PM2.5浓度预测及PM2.5浓度预测精度问题。
本发明的技术方案是:一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,首先收集与PM2.5浓度相关的污染物浓度数据进行预处理;然后计算综合气象指数;再对与PM2.5浓度相关的污染物浓度数据、综合气象指数进行相关性分析,得到包含综合气象指数的特征向量构成特征向量A和得到去除综合气象指数的特征向量构成特征向量B;最后通过特征向量A、特征向量B构成训练样本训练LS-SVM模型并对预测结果进行评价。
所述方法的具体步骤如下:
Step1、收集与PM2.5浓度相关的污染物浓度数据进行预处理:选取与PM2.5浓度相关的污染物浓度数据进行汇总;其中对于有缺失的数据,则采用平均值法将其补全;
Step2、计算综合气象指数:将空气湿度、风力、温度三个因素与PM2.5的形成机理相结合,提出综合气象指数:
D=1.8×T+0.55(1-H)+3.2W 1/2+27
式中,D为综合气象指数,无量纲;T为平均气温,量纲为℃;H为平均相对湿度,量纲为%;W为平均风速,量纲为m/s;
Step3、相关性分析:采用皮尔逊相关系数方法确定相关的污染物浓度数据、综合气象指数与PM2.5浓度相关性的大小,得出与PM2.5浓度呈正相关、呈负相关的数据,选择相关系数绝对值大于0.6的因素构成特征向量;其中,包含综合气象指数的特征向量构成特征向量A,去除综合气象指数的特征向量构成特征向量B;
Step4、预测模型的预测结果评价:将收集的PM2.5浓度值y i 、特征向量A数据x i1,x i2,x i2,x i3,x i4,…,x in 、特征向量B数据x i1,x i2,x i2,x i3,x i4,…,x im 分为两组,一组数据为训练组,另一组数据为测试组:通过训练组的PM2.5的浓度真实值分别与训练组的特征向量A、训练组的特征向量B构成训练样本A和训练样本B训练LS-SVM模型,得到PM2.5预测模型A、PM2.5预测模型B;使用PM2.5预测模型A、测试组的特征向量A和PM2.5预测模型B、测试组的特征向量B分别对测试组的PM2.5的浓度值进行预测;再通过测试组的PM2.5的浓度预测值与测试组的PM2.5浓度真实值分别选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价;
其中,i表示收集数据的天数,n表示特征向量A的样本容量,m表示特征向量B的样本容量,m=n-1。
所述平均值法为采用缺失数据前v个与后v个数据取平均值的方法填补缺失数据。
所述正相关为相关系数为正。
所述负相关为相关系数为负。
所述LS-SVM模型为以径向基函数为核函数的最小二乘支持向量机模型。
本发明的工作原理是:
收集并整理环境监测数据中与PM2.5浓度相关的污染物浓度数据,采用平均值法对缺失数据进行补全。本发明通过结合PM2.5形成机理提出了综合气象指数公式D=1.8×T+0.55(1-H)+3.2W 1/2+27;式中,D为综合气象指数,无量纲;T为平均气温,量纲为℃;H为平均相对湿度,量纲为%;W为平均风速,量纲为m/s。
通过上述公式,计算出综合气象指数。本发明通过计算各气象指标(如湿度、风力、温度)与PM2.5浓度的皮尔逊相关系数,验证本发明提出综合气象指数的有效性,其结果见表1。各因素与PM2.5浓度的相关性用相关系数表示,绝对值大的因素相关性大。可以看出本发明提出的综合气象指数与PM2.5浓度的相关性最强,证明了综合气象指数的有效性。
为了确定特征向量的构成,本发明采用皮尔逊相关系数法确定相关的污染物浓度数据、综合气象指数与PM2.5浓度相关性的大小,得出与PM2.5浓度呈正相关的数据,呈负相关的数据。选择相关系数绝对值大于0.6的因素构成特征向量,其中,特征向量A和B的区别在于前者包含综合气象指数。通过上述特征向量A和特征向量B与PM2.5浓度构成训练样本,训练PM2.5浓度预测模型。
在LS-SVM模型算法中,输入空间的函数估计可转换为如下的最优问题:
其中:为输入空间函数估计,w为权值向量,C为惩罚因子,为松弛变量,l为m或者n,s.t.表示使得,y i 估计参数的真实值(即为训练组的PM2.5的浓度真实值),为多维空间向特征空间的映射,z i 为污染物浓度多维空间的数据,i为收集数据的天数,b为偏差值。
基于结构风险最小化原则确定决策函数参数w、b,可等效为求解以下优化问题:
其中,R为期望风险,e i 为模型对训练组中样本的预测误差,i为收集数据的天数。
在引入Lagrange函数后,根据Mercer条件和KKT定理可以得到矩阵方程:
其中:为每日训练组的PM2.5的浓度真实值,i为收集数据的天数,为模型的参数,中的元素为本文数据样本中的特征向量的数据(即为特征向量A:x i1,x i2,x i2,x i3,x i4,…,x in 或特征向量B:x i1,x i2,x i2,x i3,x i4,…,x im ,n表示特征向量A的样本容量,m表示特征向量B的样本容量,m=n-1),;其中,x s ,x t 为特征向量A或B中的污染物浓度数据的映射。求解式矩阵方程后得到LS-SVM的函数估计为:
其中,K()为径向基函数(RBF)。
将数据分成两部分,训练组和测试组。通过训练组的PM2.5的浓度真实值分别与训练组的特征向量A、训练组的特征向量B构成训练样本A和训练样本B训练LS-SVM模型,得到PM2.5预测模型A、PM2.5预测模型B;使用PM2.5预测模型A、测试组的特征向量A和PM2.5预测模型B、测试组的特征向量B分别对测试组的PM2.5的浓度值进行预测;再通过测试组的PM2.5的浓度预测值与测试组的PM2.5浓度真实值分别选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价。
其中均方误差MSE公式:
绝对误差ABS公式:
式中y i 为测试组的PM2.5浓度真实值,为测试组的PM2.5浓度的预测值。
本发明在预测PM2.5浓度时采用LS-SVM模型,它将SVM中的不等式约束转换成等式约束,极大地简化了计算,提高了模型的训练效率。该模型具有非线性和高维模式识别能力,可以识别影响PM2.5产生及演变的因素之间的复杂关系;针对PM2.5浓度及其相关的监测数据较少的情况,可以发挥LS-SVM模型在解决小样本问题上的优势;该模型泛化能力强,在模型训练完毕后,对于新的样本也能完成输入到输出的映射。
本发明的有益效果是:
1、本发明结合环境监测数据和实际情况,将空气湿度、风力、温度三个因素与PM2.5的形成机理相结合,提出综合气象指数公式这一新的概念;
2、基于特征向量A的LS-SVM预测方法的预测值更趋近于真实值,验证了使用特征向量A训练LS-SVM模型能很好的反映PM2.5的产生及演变规律,并说明该发明可以提高预测精度;
3、该发明具有较强泛化能力,本发明选取城市a和b进行PM2.5浓度预测,观察两城市的预测结果,发现本发明提出的方法预测精度较高。
附图说明
图1为本发明的方法流程示意图;
图2为本发明中影响PM2.5浓度各因素相关性分析;
图3为本发明中城市a的PM2.5浓度预测模型A,B结果分别与PM2.5真实值对比;
图4为本发明中城市b的PM2.5浓度预测模型A,B结果分别与PM2.5真实值对比。
具体实施方式
实施例1:如图1-4所示,一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,首先收集与PM2.5浓度相关的污染物浓度数据进行预处理;然后计算综合气象指数;再对与PM2.5浓度相关的污染物浓度数据、综合气象指数进行相关性分析,得到包含综合气象指数的特征向量构成特征向量A和得到去除综合气象指数的特征向量构成特征向量B;最后通过特征向量A、特征向量B构成训练样本训练LS-SVM模型并对预测结果进行评价。
所述方法的具体步骤如下:
Step1、收集与PM2.5浓度相关的污染物浓度数据进行预处理:选取与PM2.5浓度相关的污染物浓度数据进行汇总;其中对于有缺失的数据,则采用平均值法将其补全(即用缺失数据前两个与后两个数据取平均值的方法填补缺失数据):
选取城市a环境监测站官方网站2013年1月1日—2013年9月19日的PM2.5浓度数据和中国天气网的气象数据;其中与PM2.5浓度相关的污染物浓度数据包括:二氧化硫(SO2)浓度、二氧化氮(NO2)浓度,一氧化碳(CO)浓度、PM10浓度、O3一小时平均浓度、O3八小时平均浓度;
Step2、计算综合气象指数:将空气湿度、风力、温度三个因素与PM2.5的形成机理相结合,提出综合气象指数:
D=1.8×T+0.55(1-H)+3.2W 1/2+27
式中,D为综合气象指数,无量纲;T为平均气温,量纲为℃;H为平均相对湿度,量纲为%;W为平均风速,量纲为m/s;
Step3、相关性分析:采用皮尔逊相关系数方法确定相关的污染物浓度数据、综合气象指数与PM2.5浓度相关性的大小,得出与PM2.5浓度呈正相关、呈负相关的数据,选择相关系数绝对值大于0.6的因素构成特征向量;其中,包含综合气象指数的特征向量构成特征向量A,去除综合气象指数的特征向量构成特征向量B:
所述正相关为相关系数为正;所述负相关为相关系数为负:呈正相关的数据为二氧化硫(SO2)浓度、二氧化氮(NO2)浓度、一氧化碳(CO)浓度和PM10浓度,呈负相关的数据为O3一小时平均浓度、O3八小时平均浓度和综合气象指数;
特征向量A包括二氧化硫(SO2)浓度、二氧化氮(NO2)浓度、一氧化碳(CO)浓度、PM10浓度和综合气象指数;
特征向量B包括二氧化硫(SO2)浓度、二氧化氮(NO2)浓度、一氧化碳(CO)浓度、PM10浓度;
Step4、预测模型的预测结果评价:将收集的PM2.5浓度值y i 、特征向量A数据x i1,x i2,x i2,x i3,x i4,x i5、特征向量B数据x i1,x i2,x i2,x i3,x i4分为两组,一组数据为训练组,另一组数据为测试组:通过训练组的PM2.5的浓度真实值分别与训练组的特征向量A、训练组的特征向量B构成训练样本A和训练样本B训练LS-SVM模型,得到PM2.5预测模型A、PM2.5预测模型B;使用PM2.5预测模型A、测试组的特征向量A和PM2.5预测模型B、测试组的特征向量B分别对测试组的PM2.5的浓度值进行预测;再通过测试组的PM2.5的浓度预测值与测试组的PM2.5浓度真实值分别选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价;
训练样本A为x i1,x i2,x i2,x i3,x i4,x i5,y i 的样本,分别对应二氧化硫(SO2)浓度、二氧化氮(NO2)浓度、一氧化碳(CO)浓度、PM10浓度、综合气象指数和PM2.5浓度;
训练样本B为x i1,x i2,x i2,x i3,x i4,y i 的样本,分别对应二氧化硫(SO2)浓度、二氧化氮(NO2)浓度、一氧化碳(CO)浓度、PM10浓度和PM2.5浓度;其中,i表示收集数据的天数。
所述LS-SVM模型为以径向基函数为核函数的最小二乘支持向量机模型。
将所得数据分成训练组(180天)和测试组(30天)。使用训练组数据对LS-SVM模型训练分别得到模型A和B,再用测试数据进行测试,得到测试组的PM2.5的浓度预测值,将预测的结果与测试组的PM2.5浓度真实值对比,即得到对模型A和B的预测结果进行对比分析,如图3所示,虚线为真实值实线为预测值,模型A、模型B均可以相对准确的预测PM2.5浓度。选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价,得出模型A比模型B的MSE和ABS分别降低了29%和27%,如表2所示。
实施例2:如图1-4所示,一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,首先收集与PM2.5浓度相关的污染物浓度数据进行预处理;然后计算综合气象指数;再对与PM2.5浓度相关的污染物浓度数据、综合气象指数进行相关性分析,得到包含综合气象指数的特征向量构成特征向量A和得到去除综合气象指数的特征向量构成特征向量B;最后通过特征向量A、特征向量B构成训练样本训练LS-SVM模型并对预测结果进行评价。
所述方法的具体步骤如下:
Step1、收集与PM2.5浓度相关的污染物浓度数据进行预处理:选取与PM2.5浓度相关的污染物浓度数据进行汇总;其中对于有缺失的数据,则采用平均值法将其补全(即用缺失数据前两个与后两个数据取平均值的方法填补缺失数据):
选取与城市a地理位置、气候条件不同的城市b环境监测站官方网站2013年1月1日—2013年9月19日的PM2.5浓度数据和中国天气网的气象数据;其中与PM2.5浓度相关的污染物浓度数据包括:二氧化硫(SO2)浓度、二氧化氮(NO2)浓度,一氧化碳(CO)浓度、PM10浓度、O3一小时平均浓度、O3八小时平均浓度;
Step2、计算综合气象指数:将空气湿度、风力、温度三个因素与PM2.5的形成机理相结合,提出综合气象指数:
D=1.8×T+0.55(1-H)+3.2W 1/2+27
式中,D为综合气象指数,无量纲;T为平均气温,量纲为℃;H为平均相对湿度,量纲为%;W为平均风速,量纲为m/s;
Step3、相关性分析:采用皮尔逊相关系数方法确定相关的污染物浓度数据、综合气象指数与PM2.5浓度相关性的大小,得出与PM2.5浓度呈正相关、呈负相关的数据,选择相关系数绝对值大于0.6的因素构成特征向量;其中,包含综合气象指数的特征向量构成特征向量A,去除综合气象指数的特征向量构成特征向量B:
所述正相关为相关系数为正;所述负相关为相关系数为负:呈正相关的数据为二氧化硫(SO2)浓度、二氧化氮(NO2)浓度、一氧化碳(CO)浓度和PM10浓度,呈负相关的数据为O3一小时平均浓度、O3八小时平均浓度和综合气象指数;
特征向量A包括二氧化硫(SO2)浓度、二氧化氮(NO2)浓度、一氧化碳(CO)浓度、PM10浓度和综合气象指数;
特征向量B包括二氧化硫(SO2)浓度、二氧化氮(NO2)浓度、一氧化碳(CO)浓度、PM10浓度;
Step4、预测模型的预测结果评价:将收集的PM2.5浓度值y i 、特征向量A数据x i1,x i2,x i2,x i3,x i4,x i5、特征向量B数据x i1,x i2,x i2,x i3,x i4分为两组,一组数据为训练组,另一组数据为测试组:通过训练组的PM2.5的浓度真实值分别与训练组的特征向量A、训练组的特征向量B构成训练样本A和训练样本B训练LS-SVM模型,得到PM2.5预测模型A、PM2.5预测模型B;使用PM2.5预测模型A、测试组的特征向量A和PM2.5预测模型B、测试组的特征向量B分别对测试组的PM2.5的浓度值进行预测;再通过测试组的PM2.5的浓度预测值与测试组的PM2.5浓度真实值分别选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价;
训练样本A为x i1,x i2,x i2,x i3,x i4,x i5,y i 的样本,分别对应二氧化硫(SO2)浓度、二氧化氮(NO2)浓度、一氧化碳(CO)浓度、PM10浓度、综合气象指数和PM2.5浓度;
训练样本B为x i1,x i2,x i2,x i3,x i4,y i 的样本,分别对应二氧化硫(SO2)浓度、二氧化氮(NO2)浓度、一氧化碳(CO)浓度、PM10浓度和PM2.5浓度;其中,i表示收集数据的天数。
所述LS-SVM模型为以径向基函数为核函数的最小二乘支持向量机模型。
将所得数据分成训练组(180天)和测试组(30天)。使用训练组数据对LS-SVM模型训练分别得到模型A和B,再用测试数据进行测试,得到测试组的PM2.5的浓度预测值,将预测的结果与测试组的PM2.5浓度真实值对比,即得到对模型A和B的预测结果进行对比分析,如图4所示,虚线为真实值实线为预测值,模型A、模型B均可以相对准确的预测PM2.5浓度。选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价,得出模型A比模型B的MSE和ABS分别降低了68%和47%,如表3所示。
实施例3:如图1-4所示,一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,首先收集与PM2.5浓度相关的污染物浓度数据进行预处理;然后计算综合气象指数;再对与PM2.5浓度相关的污染物浓度数据、综合气象指数进行相关性分析,得到包含综合气象指数的特征向量构成特征向量A和得到去除综合气象指数的特征向量构成特征向量B;最后通过特征向量A、特征向量B构成训练样本训练LS-SVM模型并对预测结果进行评价。
所述方法的具体步骤如下:
Step1、收集与PM2.5浓度相关的污染物浓度数据进行预处理:选取与PM2.5浓度相关的污染物浓度数据进行汇总;其中对于有缺失的数据,则采用平均值法将其补全;
Step2、计算综合气象指数:将空气湿度、风力、温度三个因素与PM2.5的形成机理相结合,提出综合气象指数:
D=1.8×T+0.55(1-H)+3.2W 1/2+27
式中,D为综合气象指数,无量纲;T为平均气温,量纲为℃;H为平均相对湿度,量纲为%;W为平均风速,量纲为m/s;
Step3、相关性分析:采用皮尔逊相关系数方法确定相关的污染物浓度数据、综合气象指数与PM2.5浓度相关性的大小,得出与PM2.5浓度呈正相关、呈负相关的数据,选择相关系数绝对值大于0.6的因素构成特征向量;其中,包含综合气象指数的特征向量构成特征向量A,去除综合气象指数的特征向量构成特征向量B;
Step4、预测模型的预测结果评价:将收集的PM2.5浓度值y i 、特征向量A数据x i1,x i2,x i2,x i3,x i4,…,x in 、特征向量B数据x i1,x i2,x i2,x i3,x i4,…,x im 分为两组,一组数据为训练组,另一组数据为测试组:通过训练组的PM2.5的浓度真实值分别与训练组的特征向量A、训练组的特征向量B构成训练样本A和训练样本B训练LS-SVM模型,得到PM2.5预测模型A、PM2.5预测模型B;使用PM2.5预测模型A、测试组的特征向量A和PM2.5预测模型B、测试组的特征向量B分别对测试组的PM2.5的浓度值进行预测;再通过测试组的PM2.5的浓度预测值与测试组的PM2.5浓度真实值分别选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价;
其中,i表示收集数据的天数,n表示特征向量A的样本容量,m表示特征向量B的样本容量,m=n-1。
所述平均值法为采用缺失数据前v个与后v个数据取平均值的方法填补缺失数据。
所述正相关为相关系数为正。
所述负相关为相关系数为负。
所述LS-SVM模型为以径向基函数为核函数的最小二乘支持向量机模型。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,其特征在于:首先收集与PM2.5浓度相关的污染物浓度数据进行预处理;然后计算综合气象指数;再对与PM2.5浓度相关的污染物浓度数据、综合气象指数进行相关性分析,得到包含综合气象指数的特征向量构成特征向量A和得到去除综合气象指数的特征向量构成特征向量B;最后通过特征向量A、特征向量B构成训练样本训练LS-SVM模型并对预测结果进行评价。
2.根据权利要求1所述的基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,其特征在于:所述方法的具体步骤如下:
Step1、收集与PM2.5浓度相关的污染物浓度数据进行预处理:选取与PM2.5浓度相关的污染物浓度数据进行汇总;其中对于有缺失的数据,则采用平均值法将其补全;
Step2、计算综合气象指数:将空气湿度、风力、温度三个因素与PM2.5的形成机理相结合,提出综合气象指数:
D=1.8×T+0.55(1-H)+3.2W 1/2+27
式中,D为综合气象指数,无量纲;T为平均气温,量纲为℃;H为平均相对湿度,量纲为%;W为平均风速,量纲为m/s;
Step3、相关性分析:采用皮尔逊相关系数方法确定相关的污染物浓度数据、综合气象指数与PM2.5浓度相关性的大小,得出与PM2.5浓度呈正相关、呈负相关的数据,选择相关系数绝对值大于0.6的因素构成特征向量;其中,包含综合气象指数的特征向量构成特征向量A,去除综合气象指数的特征向量构成特征向量B;
Step4、预测模型的预测结果评价:将收集的PM2.5浓度值y i 、特征向量A数据x i1,x i2,x i2,x i3,x i4,…,x in 、特征向量B数据x i1,x i2,x i2,x i3,x i4,…,x im 分为两组,一组数据为训练组,另一组数据为测试组:通过训练组的PM2.5的浓度真实值分别与训练组的特征向量A、训练组的特征向量B构成训练样本A和训练样本B训练LS-SVM模型,得到PM2.5预测模型A、PM2.5预测模型B;使用PM2.5预测模型A、测试组的特征向量A和PM2.5预测模型B、测试组的特征向量B分别对测试组的PM2.5的浓度值进行预测;再通过测试组的PM2.5的浓度预测值与测试组的PM2.5浓度真实值分别选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价;
其中,i表示收集数据的天数,n表示特征向量A的样本容量,m表示特征向量B的样本容量,m=n-1。
3.根据权利要求2所述的基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,其特征在于:所述平均值法为采用缺失数据前v个与后v个数据取平均值的方法填补缺失数据。
4.根据权利要求2所述的基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,其特征在于:所述正相关为相关系数为正。
5.根据权利要求2所述的基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,其特征在于:所述负相关为相关系数为负。
6.根据权利要求2所述的基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法,其特征在于:所述LS-SVM模型为以径向基函数为核函数的最小二乘支持向量机模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410201739.9A CN104008278B (zh) | 2014-05-14 | 2014-05-14 | 一种基于特征向量和最小二乘支持向量机的pm2.5浓度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410201739.9A CN104008278B (zh) | 2014-05-14 | 2014-05-14 | 一种基于特征向量和最小二乘支持向量机的pm2.5浓度预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104008278A true CN104008278A (zh) | 2014-08-27 |
CN104008278B CN104008278B (zh) | 2017-02-15 |
Family
ID=51368930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410201739.9A Expired - Fee Related CN104008278B (zh) | 2014-05-14 | 2014-05-14 | 一种基于特征向量和最小二乘支持向量机的pm2.5浓度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008278B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184012A (zh) * | 2015-09-28 | 2015-12-23 | 宁波大学 | 一种区域空气pm2.5浓度预测方法 |
CN105488317A (zh) * | 2014-09-17 | 2016-04-13 | 日本电气株式会社 | 用于预测空气质量的系统和方法 |
CN105488316A (zh) * | 2014-09-17 | 2016-04-13 | 日本电气株式会社 | 用于预测空气质量的系统和方法 |
WO2016155372A1 (zh) * | 2015-03-27 | 2016-10-06 | 北京奇虎科技有限公司 | 预测空气质量指数的方法与装置 |
CN106055904A (zh) * | 2016-06-04 | 2016-10-26 | 上海大学 | 基于varx模型的大气pm2.5浓度预测方法 |
CN108491953A (zh) * | 2018-01-31 | 2018-09-04 | 国网山东省电力公司电力科学研究院 | 一种基于非线性理论的pm2.5预测与预警方法及系统 |
CN108701274A (zh) * | 2017-05-24 | 2018-10-23 | 北京质享科技有限公司 | 一种城市小尺度空气质量指数预测方法与系统 |
CN109146161A (zh) * | 2018-08-07 | 2019-01-04 | 河海大学 | 融合栈式自编码和支持向量回归的pm2.5浓度预测方法 |
CN109242223A (zh) * | 2018-11-26 | 2019-01-18 | 武汉理工光科股份有限公司 | 城市公共建筑火灾风险的量子支持向量机评估与预测方法 |
CN109615082A (zh) * | 2018-11-26 | 2019-04-12 | 北京工业大学 | 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 |
CN109785293A (zh) * | 2018-12-22 | 2019-05-21 | 昆明理工大学 | 一种基于全局和局部活动轮廓模型的超声图像病灶自动分割的方法 |
CN109784553A (zh) * | 2018-12-29 | 2019-05-21 | 沈阳建筑大学 | 一种室内pm2.5浓度预估方法 |
CN109902881A (zh) * | 2019-03-19 | 2019-06-18 | 武汉乐易创想科技有限公司 | 基于多元统计分析和lstm融合的pm2.5浓度预测方法 |
WO2020044127A1 (zh) * | 2018-08-25 | 2020-03-05 | 山东诺方电子科技有限公司 | 一种大气污染预测的方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103234883A (zh) * | 2013-04-30 | 2013-08-07 | 中南大学 | 一种基于道路交通流量实时估算中心城区pm2.5浓度的方法 |
-
2014
- 2014-05-14 CN CN201410201739.9A patent/CN104008278B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103234883A (zh) * | 2013-04-30 | 2013-08-07 | 中南大学 | 一种基于道路交通流量实时估算中心城区pm2.5浓度的方法 |
Non-Patent Citations (3)
Title |
---|
W.F.IP等: "Least Squares Support Vector Prediction for Daily Atmospheric Pollutant Level", 《COMPUTER AND INFORMATION SCIENCE,2010 IEEE/ACIS 9TH INTERNATIONAL CONFERENCE ON》 * |
柳春等: "最小二乘支持向量机在API预测中的应用", 《沈阳师范大学学报(自然科学版)》 * |
陈俏等: "支持向量机应用于大气污染物浓度预测", 《计算机技术与发展》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488317A (zh) * | 2014-09-17 | 2016-04-13 | 日本电气株式会社 | 用于预测空气质量的系统和方法 |
CN105488316A (zh) * | 2014-09-17 | 2016-04-13 | 日本电气株式会社 | 用于预测空气质量的系统和方法 |
CN105488316B (zh) * | 2014-09-17 | 2018-11-16 | 日本电气株式会社 | 用于预测空气质量的系统和方法 |
CN105488317B (zh) * | 2014-09-17 | 2018-11-16 | 日本电气株式会社 | 用于预测空气质量的系统和方法 |
WO2016155372A1 (zh) * | 2015-03-27 | 2016-10-06 | 北京奇虎科技有限公司 | 预测空气质量指数的方法与装置 |
CN105184012B (zh) * | 2015-09-28 | 2017-12-22 | 宁波大学 | 一种区域空气pm2.5浓度预测方法 |
CN105184012A (zh) * | 2015-09-28 | 2015-12-23 | 宁波大学 | 一种区域空气pm2.5浓度预测方法 |
CN106055904B (zh) * | 2016-06-04 | 2019-02-01 | 上海大学 | 基于varx模型的大气pm2.5浓度预测方法 |
CN106055904A (zh) * | 2016-06-04 | 2016-10-26 | 上海大学 | 基于varx模型的大气pm2.5浓度预测方法 |
CN108701274A (zh) * | 2017-05-24 | 2018-10-23 | 北京质享科技有限公司 | 一种城市小尺度空气质量指数预测方法与系统 |
CN108701274B (zh) * | 2017-05-24 | 2021-10-08 | 北京质享科技有限公司 | 一种城市小尺度空气质量指数预测方法与系统 |
CN108491953A (zh) * | 2018-01-31 | 2018-09-04 | 国网山东省电力公司电力科学研究院 | 一种基于非线性理论的pm2.5预测与预警方法及系统 |
CN108491953B (zh) * | 2018-01-31 | 2022-02-25 | 国网山东省电力公司电力科学研究院 | 一种基于非线性理论的pm2.5预测与预警方法及系统 |
CN109146161A (zh) * | 2018-08-07 | 2019-01-04 | 河海大学 | 融合栈式自编码和支持向量回归的pm2.5浓度预测方法 |
WO2020044127A1 (zh) * | 2018-08-25 | 2020-03-05 | 山东诺方电子科技有限公司 | 一种大气污染预测的方法 |
GB2591886A (en) * | 2018-08-25 | 2021-08-11 | Nova Fitness Co Ltd | Atmospheric pollution forecasting method |
CN109242223A (zh) * | 2018-11-26 | 2019-01-18 | 武汉理工光科股份有限公司 | 城市公共建筑火灾风险的量子支持向量机评估与预测方法 |
CN109615082A (zh) * | 2018-11-26 | 2019-04-12 | 北京工业大学 | 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 |
CN109615082B (zh) * | 2018-11-26 | 2023-05-12 | 北京工业大学 | 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 |
CN109785293A (zh) * | 2018-12-22 | 2019-05-21 | 昆明理工大学 | 一种基于全局和局部活动轮廓模型的超声图像病灶自动分割的方法 |
CN109785293B (zh) * | 2018-12-22 | 2022-09-27 | 昆明理工大学 | 基于全局和局部活动轮廓模型的超声图像病灶分割方法 |
CN109784553A (zh) * | 2018-12-29 | 2019-05-21 | 沈阳建筑大学 | 一种室内pm2.5浓度预估方法 |
CN109784553B (zh) * | 2018-12-29 | 2022-12-02 | 沈阳建筑大学 | 一种室内pm2.5浓度预估方法 |
CN109902881A (zh) * | 2019-03-19 | 2019-06-18 | 武汉乐易创想科技有限公司 | 基于多元统计分析和lstm融合的pm2.5浓度预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104008278B (zh) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104008278A (zh) | 一种基于特征向量和最小二乘支持向量机的pm25浓度预测方法 | |
Yılmaz et al. | A statistical approach to estimate the wind speed distribution: the case of Gelibolu region | |
CN103023065B (zh) | 一种基于相对误差熵值法的风电短期功率预测方法 | |
CN106651036A (zh) | 空气质量预报系统 | |
CN103268572B (zh) | 一种千万千瓦级大型风电基地测风网络的微观选址方法 | |
CN103514341A (zh) | 基于数值天气预报和计算流体动力学的风资源评估方法 | |
CN109522627B (zh) | 基于scada数据的风机叶片结冰预测方法 | |
CN104036121B (zh) | 基于概率分布转移的测风数据风速订正方法 | |
CN102184337A (zh) | 一种受气象信息影响的新能源发电能力动态组合分析方法 | |
CN103679263A (zh) | 基于粒子群支持向量机的雷电临近预测方法 | |
CN104932035A (zh) | 一种台风强度预报方法及系统 | |
CN103400039B (zh) | 一种基于大风气象分类的风功率爬坡预测模型切换方法 | |
CN103488869A (zh) | 一种最小二乘支持向量机的风力发电短期负荷预测方法 | |
CN109325633A (zh) | 一种天气预报集合成员选取方法和系统 | |
CN105760970A (zh) | 空气质量指数的预测方法 | |
CN106682381A (zh) | 一种面向环境空气质量的动态数据模拟预报方法 | |
CN103631681A (zh) | 一种在线修复风电场异常数据的方法 | |
CN105825294A (zh) | 基于气象因素的电网电力负荷预测方法及系统 | |
CN107748940B (zh) | 一种节电潜力量化预测方法 | |
CN106372801A (zh) | 一种风电场风区划分方法及该风电场风区测风塔位置的选择方法 | |
CN106919645A (zh) | 复杂地貌大景区的景点气象要素智能精细预测方法 | |
CN106096246B (zh) | 基于pm2.5和pm10的气溶胶光学厚度估计方法 | |
CN109376863A (zh) | 基于miv-bp神经网络的光伏功率短期分类预测方法 | |
CN113886928A (zh) | 一种建筑力学模拟系统 | |
CN109190839A (zh) | 一种融合风向的铁路沿线风速智能滚动预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170215 |
|
CF01 | Termination of patent right due to non-payment of annual fee |