CN104008278A

CN104008278A - 一种基于特征向量和最小二乘支持向量机的pm25浓度预测方法

Info

Publication number: CN104008278A
Application number: CN201410201739.9A
Authority: CN
Inventors: 贺建峰; 李龙; 马磊; 邵党国; 易三莉; 相艳; 刘立芳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2014-05-14
Filing date: 2014-05-14
Publication date: 2014-08-27
Anticipated expiration: 2034-05-14
Also published as: CN104008278B

Abstract

本发明涉及一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，属于环境污染预测领域。本发明首先收集与PM2.5浓度相关的污染物浓度数据进行预处理；然后计算综合气象指数；再对与PM2.5浓度相关的污染物浓度数据、综合气象指数进行相关性分析，得到包含综合气象指数的特征向量构成特征向量A和得到去除综合气象指数的特征向量构成特征向量B；最后通过特征向量A、特征向量B构成训练样本训练LS-SVM模型并对预测结果进行评价。本发明结合环境监测数据和实际情况，将空气湿度、风力、温度三个因素与PM2.5的形成机理相结合，提出综合气象指数公式这一新的概念；预测精度较高。

Description

一种基于特征向量和最小二乘支持向量机的PM25浓度预测方法

技术领域

本发明涉及一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，属于环境污染预测领域。

背景技术

PM2.5是指环境空气中空气动力学当量直径小于等于2.5μm（微米）的颗粒物，其数值越高，代表颗粒物浓度越高，意味着空气污染越严重。虽然PM2.5只是地球大气成分中含量很少的组成部分，但是它对空气质量和能见度等指标有重要影响。近期，我国多地出现雾霾天气，严重影响了人们的生活。二氧化硫、氮氧化物和PM2.5是雾霾的主要构成物质，PM2.5是其中加重雾霾污染天气的罪魁祸首，成为了影响人们正常生活的重要指标，准确预测PM2.5的浓度（浓度量纲为ug/m ³，后文中提及的浓度均以此单位计）变得越来越重要。

影响PM2.5数值的因素包括空气中二氧化硫（SO₂）、二氧化氮（NO₂）、一氧化碳（CO）、PM10含量和气象因素等。预测PM2.5浓度值变化规律对未来空气质量监测有重要意义。预测PM2.5的浓度，最重要的是分析各个影响因素与PM2.5之间复杂关系。近年来，专家学者开展了一些相关的研究工作，得到了一些常用的方法如人工神经网络、支持向量机等等。这些方法是通过研究个别因素对大气污染物浓度的影响提出的。但是实质上气象因素对于PM2.5浓度的影响是十分复杂的，实际情况中往往是不同气象因素交互影响的结果，如果分别考虑各个因素，则不能很好地体现多个因素相互作用对PM2.5浓度产生的耦合效应，也就不能准确建立预测PM2.5浓度的方法。

本发明旨在引入综合气象指数这一概念并用与PM2.5浓度相关性较强的工业污染物因素组成特征向量对LS-SVM模型进行训练，得到准确度较高的预测PM2.5浓度模型。

发明内容

本发明提供了一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，以用于解决PM2.5浓度预测及PM2.5浓度预测精度问题。

本发明的技术方案是：一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，首先收集与PM2.5浓度相关的污染物浓度数据进行预处理；然后计算综合气象指数；再对与PM2.5浓度相关的污染物浓度数据、综合气象指数进行相关性分析，得到包含综合气象指数的特征向量构成特征向量A和得到去除综合气象指数的特征向量构成特征向量B；最后通过特征向量A、特征向量B构成训练样本训练LS-SVM模型并对预测结果进行评价。

所述方法的具体步骤如下：

Step1、收集与PM2.5浓度相关的污染物浓度数据进行预处理：选取与PM2.5浓度相关的污染物浓度数据进行汇总；其中对于有缺失的数据，则采用平均值法将其补全；

Step2、计算综合气象指数：将空气湿度、风力、温度三个因素与PM2.5的形成机理相结合，提出综合气象指数：

D=1.8×T+0.55(1-H)+3.2W ^1/2+27

式中，D为综合气象指数，无量纲；T为平均气温，量纲为℃；H为平均相对湿度，量纲为%；W为平均风速，量纲为m/s；

Step3、相关性分析：采用皮尔逊相关系数方法确定相关的污染物浓度数据、综合气象指数与PM2.5浓度相关性的大小，得出与PM2.5浓度呈正相关、呈负相关的数据，选择相关系数绝对值大于0.6的因素构成特征向量；其中，包含综合气象指数的特征向量构成特征向量A，去除综合气象指数的特征向量构成特征向量B；

Step4、预测模型的预测结果评价：将收集的PM2.5浓度值y _i、特征向量A数据x _i1,x _i2,x _i2,x _i3,x _i4,…,x _in、特征向量B数据x _i1,x _i2,x _i2,x _i3,x _i4,…,x _im分为两组，一组数据为训练组，另一组数据为测试组：通过训练组的PM2.5的浓度真实值分别与训练组的特征向量A、训练组的特征向量B构成训练样本A和训练样本B训练LS-SVM模型，得到PM2.5预测模型A、PM2.5预测模型B；使用PM2.5预测模型A、测试组的特征向量A和PM2.5预测模型B、测试组的特征向量B分别对测试组的PM2.5的浓度值进行预测；再通过测试组的PM2.5的浓度预测值与测试组的PM2.5浓度真实值分别选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价；

其中，i表示收集数据的天数，n表示特征向量A的样本容量，m表示特征向量B的样本容量，m=n-1。

所述平均值法为采用缺失数据前v个与后v个数据取平均值的方法填补缺失数据。

所述正相关为相关系数为正。

所述负相关为相关系数为负。

所述LS-SVM模型为以径向基函数为核函数的最小二乘支持向量机模型。

本发明的工作原理是：

收集并整理环境监测数据中与PM2.5浓度相关的污染物浓度数据，采用平均值法对缺失数据进行补全。本发明通过结合PM2.5形成机理提出了综合气象指数公式D=1.8×T+0.55(1-H)+3.2W ^1/2+27；式中，D为综合气象指数，无量纲；T为平均气温，量纲为℃；H为平均相对湿度，量纲为%；W为平均风速，量纲为m/s。

通过上述公式，计算出综合气象指数。本发明通过计算各气象指标（如湿度、风力、温度）与PM2.5浓度的皮尔逊相关系数，验证本发明提出综合气象指数的有效性，其结果见表1。各因素与PM2.5浓度的相关性用相关系数表示，绝对值大的因素相关性大。可以看出本发明提出的综合气象指数与PM2.5浓度的相关性最强，证明了综合气象指数的有效性。

为了确定特征向量的构成，本发明采用皮尔逊相关系数法确定相关的污染物浓度数据、综合气象指数与PM2.5浓度相关性的大小，得出与PM2.5浓度呈正相关的数据，呈负相关的数据。选择相关系数绝对值大于0.6的因素构成特征向量，其中，特征向量A和B的区别在于前者包含综合气象指数。通过上述特征向量A和特征向量B与PM2.5浓度构成训练样本，训练PM2.5浓度预测模型。

在LS-SVM模型算法中，输入空间的函数估计可转换为如下的最优问题：

其中：为输入空间函数估计，w为权值向量，C为惩罚因子，为松弛变量，l为m或者n，s.t.表示使得，y _i估计参数的真实值（即为训练组的PM2.5的浓度真实值），为多维空间向特征空间的映射，z _i为污染物浓度多维空间的数据，i为收集数据的天数，b为偏差值。

基于结构风险最小化原则确定决策函数参数w、b，可等效为求解以下优化问题:

其中，R为期望风险，e _i为模型对训练组中样本的预测误差，i为收集数据的天数。

在引入Lagrange函数后，根据Mercer条件和KKT定理可以得到矩阵方程：

其中：为每日训练组的PM2.5的浓度真实值，i为收集数据的天数，为模型的参数，中的元素为本文数据样本中的特征向量的数据（即为特征向量A：x _i1,x _i2,x _i2,x _i3,x _i4,…,x _in或特征向量B：x _i1,x _i2,x _i2,x _i3,x _i4,…,x _im，n表示特征向量A的样本容量，m表示特征向量B的样本容量，m=n-1），；其中，x _s,x _t为特征向量A或B中的污染物浓度数据的映射。求解式矩阵方程后得到LS-SVM的函数估计为：

其中，K()为径向基函数（RBF）。

将数据分成两部分，训练组和测试组。通过训练组的PM2.5的浓度真实值分别与训练组的特征向量A、训练组的特征向量B构成训练样本A和训练样本B训练LS-SVM模型，得到PM2.5预测模型A、PM2.5预测模型B；使用PM2.5预测模型A、测试组的特征向量A和PM2.5预测模型B、测试组的特征向量B分别对测试组的PM2.5的浓度值进行预测；再通过测试组的PM2.5的浓度预测值与测试组的PM2.5浓度真实值分别选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价。

其中均方误差MSE公式：

绝对误差ABS公式：

式中y _i为测试组的PM2.5浓度真实值，为测试组的PM2.5浓度的预测值。

本发明在预测PM2.5浓度时采用LS-SVM模型，它将SVM中的不等式约束转换成等式约束，极大地简化了计算，提高了模型的训练效率。该模型具有非线性和高维模式识别能力，可以识别影响PM2.5产生及演变的因素之间的复杂关系；针对PM2.5浓度及其相关的监测数据较少的情况，可以发挥LS-SVM模型在解决小样本问题上的优势；该模型泛化能力强，在模型训练完毕后，对于新的样本也能完成输入到输出的映射。

本发明的有益效果是：

1、本发明结合环境监测数据和实际情况，将空气湿度、风力、温度三个因素与PM2.5的形成机理相结合，提出综合气象指数公式这一新的概念；

2、基于特征向量A的LS-SVM预测方法的预测值更趋近于真实值，验证了使用特征向量A训练LS-SVM模型能很好的反映PM2.5的产生及演变规律，并说明该发明可以提高预测精度；

3、该发明具有较强泛化能力，本发明选取城市a和b进行PM2.5浓度预测，观察两城市的预测结果，发现本发明提出的方法预测精度较高。

附图说明

图1为本发明的方法流程示意图；

图2为本发明中影响PM2.5浓度各因素相关性分析；

图3为本发明中城市a的PM2.5浓度预测模型A,B结果分别与PM2.5真实值对比；

图4为本发明中城市b的PM2.5浓度预测模型A,B结果分别与PM2.5真实值对比。

具体实施方式

实施例1：如图1-4所示，一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，首先收集与PM2.5浓度相关的污染物浓度数据进行预处理；然后计算综合气象指数；再对与PM2.5浓度相关的污染物浓度数据、综合气象指数进行相关性分析，得到包含综合气象指数的特征向量构成特征向量A和得到去除综合气象指数的特征向量构成特征向量B；最后通过特征向量A、特征向量B构成训练样本训练LS-SVM模型并对预测结果进行评价。

所述方法的具体步骤如下：

Step1、收集与PM2.5浓度相关的污染物浓度数据进行预处理：选取与PM2.5浓度相关的污染物浓度数据进行汇总；其中对于有缺失的数据，则采用平均值法将其补全（即用缺失数据前两个与后两个数据取平均值的方法填补缺失数据）：

选取城市a环境监测站官方网站2013年1月1日—2013年9月19日的PM2.5浓度数据和中国天气网的气象数据；其中与PM2.5浓度相关的污染物浓度数据包括：二氧化硫（SO₂）浓度、二氧化氮（NO₂）浓度，一氧化碳（CO）浓度、PM10浓度、O₃一小时平均浓度、O₃八小时平均浓度；

D=1.8×T+0.55(1-H)+3.2W ^1/2+27

Step3、相关性分析：采用皮尔逊相关系数方法确定相关的污染物浓度数据、综合气象指数与PM2.5浓度相关性的大小，得出与PM2.5浓度呈正相关、呈负相关的数据，选择相关系数绝对值大于0.6的因素构成特征向量；其中，包含综合气象指数的特征向量构成特征向量A，去除综合气象指数的特征向量构成特征向量B：

所述正相关为相关系数为正；所述负相关为相关系数为负：呈正相关的数据为二氧化硫（SO₂）浓度、二氧化氮（NO₂）浓度、一氧化碳（CO）浓度和PM10浓度，呈负相关的数据为O₃一小时平均浓度、O₃八小时平均浓度和综合气象指数；

特征向量A包括二氧化硫（SO₂）浓度、二氧化氮（NO₂）浓度、一氧化碳（CO）浓度、PM10浓度和综合气象指数；

特征向量B包括二氧化硫（SO₂）浓度、二氧化氮（NO₂）浓度、一氧化碳（CO）浓度、PM10浓度；

Step4、预测模型的预测结果评价：将收集的PM2.5浓度值y _i、特征向量A数据x _i1,x _i2,x _i2,x _i3,x _i4,x _i5、特征向量B数据x _i1,x _i2,x _i2,x _i3,x _i4分为两组，一组数据为训练组，另一组数据为测试组：通过训练组的PM2.5的浓度真实值分别与训练组的特征向量A、训练组的特征向量B构成训练样本A和训练样本B训练LS-SVM模型，得到PM2.5预测模型A、PM2.5预测模型B；使用PM2.5预测模型A、测试组的特征向量A和PM2.5预测模型B、测试组的特征向量B分别对测试组的PM2.5的浓度值进行预测；再通过测试组的PM2.5的浓度预测值与测试组的PM2.5浓度真实值分别选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价；

训练样本A为x _i1,x _i2,x _i2,x _i3,x _i4,x _i5,y _i的样本，分别对应二氧化硫（SO₂）浓度、二氧化氮（NO₂）浓度、一氧化碳（CO）浓度、PM10浓度、综合气象指数和PM2.5浓度；

训练样本B为x _i1,x _i2,x _i2,x _i3,x _i4,y _i的样本，分别对应二氧化硫（SO₂）浓度、二氧化氮（NO₂）浓度、一氧化碳（CO）浓度、PM10浓度和PM2.5浓度；其中，i表示收集数据的天数。

将所得数据分成训练组（180天）和测试组（30天）。使用训练组数据对LS-SVM模型训练分别得到模型A和B，再用测试数据进行测试，得到测试组的PM2.5的浓度预测值，将预测的结果与测试组的PM2.5浓度真实值对比，即得到对模型A和B的预测结果进行对比分析，如图3所示，虚线为真实值实线为预测值，模型A、模型B均可以相对准确的预测PM2.5浓度。选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价，得出模型A比模型B的MSE和ABS分别降低了29%和27%，如表2所示。

实施例2：如图1-4所示，一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，首先收集与PM2.5浓度相关的污染物浓度数据进行预处理；然后计算综合气象指数；再对与PM2.5浓度相关的污染物浓度数据、综合气象指数进行相关性分析，得到包含综合气象指数的特征向量构成特征向量A和得到去除综合气象指数的特征向量构成特征向量B；最后通过特征向量A、特征向量B构成训练样本训练LS-SVM模型并对预测结果进行评价。

所述方法的具体步骤如下：

选取与城市a地理位置、气候条件不同的城市b环境监测站官方网站2013年1月1日—2013年9月19日的PM2.5浓度数据和中国天气网的气象数据；其中与PM2.5浓度相关的污染物浓度数据包括：二氧化硫（SO₂）浓度、二氧化氮（NO₂）浓度，一氧化碳（CO）浓度、PM10浓度、O₃一小时平均浓度、O₃八小时平均浓度；

D=1.8×T+0.55(1-H)+3.2W ^1/2+27

将所得数据分成训练组（180天）和测试组（30天）。使用训练组数据对LS-SVM模型训练分别得到模型A和B，再用测试数据进行测试，得到测试组的PM2.5的浓度预测值，将预测的结果与测试组的PM2.5浓度真实值对比，即得到对模型A和B的预测结果进行对比分析，如图4所示，虚线为真实值实线为预测值，模型A、模型B均可以相对准确的预测PM2.5浓度。选用均方误差MSE和绝对误差ABS分别对PM2.5预测模型A、PM2.5预测模型B预测的PM2.5的浓度预测值进行评价，得出模型A比模型B的MSE和ABS分别降低了68%和47%，如表3所示。

实施例3：如图1-4所示，一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，首先收集与PM2.5浓度相关的污染物浓度数据进行预处理；然后计算综合气象指数；再对与PM2.5浓度相关的污染物浓度数据、综合气象指数进行相关性分析，得到包含综合气象指数的特征向量构成特征向量A和得到去除综合气象指数的特征向量构成特征向量B；最后通过特征向量A、特征向量B构成训练样本训练LS-SVM模型并对预测结果进行评价。

所述方法的具体步骤如下：

D=1.8×T+0.55(1-H)+3.2W ^1/2+27

所述正相关为相关系数为正。

所述负相关为相关系数为负。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，其特征在于：首先收集与PM2.5浓度相关的污染物浓度数据进行预处理；然后计算综合气象指数；再对与PM2.5浓度相关的污染物浓度数据、综合气象指数进行相关性分析，得到包含综合气象指数的特征向量构成特征向量A和得到去除综合气象指数的特征向量构成特征向量B；最后通过特征向量A、特征向量B构成训练样本训练LS-SVM模型并对预测结果进行评价。

2.根据权利要求1所述的基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，其特征在于：所述方法的具体步骤如下：

D=1.8×T+0.55(1-H)+3.2W ^1/2+27

3.根据权利要求2所述的基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，其特征在于：所述平均值法为采用缺失数据前v个与后v个数据取平均值的方法填补缺失数据。

4.根据权利要求2所述的基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，其特征在于：所述正相关为相关系数为正。

5.根据权利要求2所述的基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，其特征在于：所述负相关为相关系数为负。

6.根据权利要求2所述的基于特征向量和最小二乘支持向量机的PM2.5浓度预测方法，其特征在于：所述LS-SVM模型为以径向基函数为核函数的最小二乘支持向量机模型。