CN113281229B

CN113281229B - 一种基于小样本下多模型自适应大气pm2.5浓度预测方法

Info

Publication number: CN113281229B
Application number: CN202110179054.9A
Authority: CN
Inventors: 李晓理; 李济瀚; 王康; 王富强
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-11-29
Anticipated expiration: 2041-02-09
Also published as: CN113281229A

Abstract

本发明公开了一种基于小样本下多模型自适应大气PM_2.5浓度预测方法，通过自身的太阳能供电系统、户外监测探头和云端网络实时在线对校园一年四季的大气污染物浓度进行数据采集，对采集到的大气污染物等进行数据归一化处理，用最小二乘支持向量回归方法对采集的四季的大气污染物数据进行训练得到不同季节的大气PM_2.5浓度预测模型，将采集的数据作为预测模型的输入变量，不同预测模型根据自身算法计算得到不同季节的大气PM_2.5浓度预测值，将预测值与实际的采集的数据进行预测比较，所得误差性能指标在几种模型中最小者，采用误差小者的预测模型对当前的状态下大气污染物PM_2.5浓度进行预测，满足单一模型不能应对当前状态下模型预测大气PM_2.5浓度的能力。

Description

一种基于小样本下多模型自适应大气PM2.5浓度预测方法

技术领域

本发明涉及特征提取，机器学习，多模型自适应，PM_2.5浓度预测。

背景技术

目前技术比较成熟且应用较为广泛的预测方法大致为时间序列方法，多元线性回归方法，神经网络等方法。这些方法大多通过建立当前状态下线性或者非线性大气PM_2.5浓度预测模型，从而实现PM_2.5浓度预测。但是在实际的大气环境中，PM_2.5浓度很容易受到环境影响变化，往往建立的当前状态下的单个预测模型难以满足大气环境下PM_2.5浓度变化，进而导致所建立的模型预测精度下降甚至失效。

而上述这些方法甚至在建立模型时需要大量的历史数据进行训练。因此，计算时间被增加，并且在实际中有时没有足够数据可采集。

目前大气监测大多都停留在混合模型及多模型融合。而针对不同环境下建立相应的预测模型进行自适应的切换达到对PM_2.5浓度预测的方法还没被广泛应用。

发明内容

本发明提出一种基于小样本下多模型自适应大气PM_2.5浓度预测方法，该方法以北京市某校园大气监测系统平台采集到的大气污染物浓度及气象条件的数据作为输入变量，利用主元成分分析提取贡献率较大的数据变量，通过所建立的多个不同季节的预测模型对大气中细颗粒物PM_2.5浓度预测，然后通过误差的性能指标判断，从而实现多模型自适应大气PM_2.5浓度预测。

描述下图1的结构组成以及连接关系。

该大气监测系统平台由软件及硬件两部分组成。软件包括上位机大气污染监测系统，客户端APP。客户可以通过上位机实时监测大气污染物及气象条件等因素的变化趋势。其中包括：污染物趋势图、空气质量情况及监测区域等。客户也可以通过手机APP实时任何地点监测周围空气质量情况及污染物趋势变化等。硬件包括室外监测探测器，该探测器由室外探头、太阳能供电板及配电箱组成。该大气监测系统利用室外监测设备采集到的污染物数据通过4/5G网络上传到云端服务器然后，客户端利用上位机及移动客户端上的APP等实时对周围空气质量的监测及查看。

包括以下步骤：

步骤1：大气监测系统在北京市某校园环境中，通过网络云端及硬件支持，对大气PM_2.5浓度全年(四季)不间断实时监测和数据采集。

步骤2：通过主元成分分析方法对采集到的大气污染物进行贡献率分析得到 PM_2.5浓度累积贡献率最高。并分析与大气PM_2.5浓度有关系的因素，进而对大气 PM_2.5浓度进行预测。

步骤3：将分析得到的与PM_2.5有关系的一组变量作为预测模型的输入变量。

步骤4：对输入变量进行数据归一化处理，使量纲一致，从而达到预测更准确。

步骤5：将归一化的不同季节的数据分别进行训练建立相应季节的LS-SVR (最小二乘支持向量回归)预测模型。

步骤6：通过测试数据对预测模型进行PM_2.5浓度进行验证。

步骤7：当采集新的数据输入当前预测模型时，预测模型预测与实际值进行比较。

步骤8：通过对预测误差性能指标的比较，判断当前预测模型是否适合当前的季节的采集数据，如果误差较大，切换相对应的误差较小的预测模型预测未来 PM_2.5浓度值。

本发明实施例的基于小样本下多模型自适应大气PM_2.5浓度预测方法，以北京市某校园大气图监测数据PM₁₀,PM_2.5,NO₂,SO₂,O₃及气象条件(温度，湿度) 作为输入变量，利用输入变量建立多个季节的不同预测模型，对大气PM_2.5浓度预测，再根据误差的性能指标判定，选择合适的预测模型进行自适应切换实现对 PM_2.5浓度的预测。该方法使用小样本下多模型自适应大气PM_2.5浓度预测方法很好地解决了不需要大量的历史数据，减小了计算量及时间，克服了单一模型无法满足当前系统状态的性能要求，实现了不同季节的预测模型切换，从而达到准确预测大气中细颗粒物PM_2.5浓度。

另外，根据本实施例的基于小样本多模型自适应大气PM_2.5浓度预测方法还具有如下附加的技术特征：

在步骤2中需要对数据进行标准化然后通过累积贡献率进行分析和提取，其中累积贡献率为85％-95％以上的前面的变量为主要变量。

在步骤4中需要对输入变量进行归一化，其公式如下所示：

在步骤5中预测模型为LS-SVR,其计算和推倒过程如下：

给定一组监测的当前季节的大气污染物的数据T＝{(x₁,y₁),…(x_n,y_n)}，x_n为输入，y_n为输出。匹配函数公式为：

y＝f(x)＝(ω·Φ(x))+b (4)

式中，Φ(·)为匹配函数。ω为权矩阵，b为偏差。核函数可以根据实际情况选取。核函数公式如下：

K(x_i,x_j)＝(Φ(x_i)^T·Φ(x_j)) (5)

然后根据结构风险最小化原则转化为约束限制问题，其公式如下所示：

s.t.y_i＝ω^TΦ(x_i)+b+ψ_i

式中，ψ_i为随机误差。通过引入拉格朗日问题解决限制优化问题，其公式如下：

式中，α_i为拉格朗日乘子。根据KKT条件可以推倒出ω,α,b,ψ偏微分方程为：

从公式(8)可以转化为线性方程公式为：

式中，α＝[α₁,α₂…,α_n]^T，y＝[y₁,y₂,…y_n]。由公式(9)可以得出决策函数如下所示：

选择高斯径向基函数为核函数，其计算公式如下所示：

在步骤8中通过误差的性能指标J_i(k)进行判断和多个模型的切换，其表达式如下所示：

式中：α+β＝1，e(k)为预测误差。

附图说明

图1是某校园大气监测系统。

图2是基于小样本下多模型自适应大气PM_2.5浓度预测方法的流程图。

图3预测模型流程图。

图2、3中的彩色填充请去掉，黑字白底的形式。

具体实施方式

下面详细说明本发明的实施例，本实施例在本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

步骤1：大气监测系统在北京市某校园环境中，通过云端网络及硬件支持，对大气PM_2.5浓度全年(四季)不间断实时监测和数据采集。

步骤2：利用主元成分分析方法对采集到的大气污染物进行贡献率分析得到 PM_2.5浓度累积贡献率最高。并分析与大气PM_2.5浓度有关系的因素。因此，对大气PM_2.5浓度进行预测。

步骤3：将分析与PM_2.5有密切关系的变量作为预测模型的输入变量。

步骤5：将归一化不同季节的数据分别进行训练建立相应季节的LS-SVR预测模型。

步骤6：通过测试数据对预测模型进行PM_2.5浓度进行验证。

步骤7：当采集新的数据输入当前预测模型时，预测模型输出预测值与实际值进行比较。

步骤8：通过预测PM_2.5浓度值与当前状态下的PM_2.5浓度比较，由最小误差性能指标判断当前预测模型是否适合当前的季节的采集数据，如果误差性能指标最小者，切换相对应的预测模型预测未来时刻PM_2.5浓度。

Claims

1.一种基于小样本下多模型自适应大气PM_2.5浓度预测的方法，其特征在于，包括以下步骤：

步骤1：大气监测系统，通过云端网络及硬件支持，对大气PM_2.5浓度全年不间断实时监测和数据采集；

步骤2：利用主元成分分析方法对采集到的大气污染物数据进行贡献率分析得到PM_2.5浓度累积贡献率最高；并分析与大气PM_2.5浓度有关系的因素，进而对大气PM_2.5浓度进行预测；

步骤3：将分析与PM_2.5有重要影响关系的一组变量作为预测模型的输入变量；

步骤4：对输入变量进行不同季节数据的归一化处理，使量纲一致；

步骤5：将归一化的不同季节的数据分别进行训练建立相应季节的LS-SVR最小二乘支持向量回归预测模型；

步骤6：通过测试数据对预测模型进行PM_2.5浓度进行验证；

步骤7：当采集新的全年数据输入当前预测模型时，预测模型预测相对应的PM_2.5浓度值与实际值进行比较；

步骤8：通过对预测误差性能指标函数的比较，判断当前预测模型是否适合当前的季节的采集数据，如果四种模型中误差性能指标为最小者，切换相对应的较小预测模型预测下一时刻PM_2.5浓度值；其切换准则为：

式中,J_i(k)为指标函数；l＝1,2,3,4，i＝1,2,3,4；

该误差性能指标函数J_i(k)为：

式中，e_i为预测误差，α,β＞0，α+β＝1；

将采集全年的四季大气污染物和气象条件数据进行划分四季数据，采集的数据为PM₁₀、PM_2.5、SO₂、NO₂、CO、O₃、温度和湿度；

通过对预测误差性能指标的比较，判断模型是否符合当前情况下的状态，误差是所有预测模型中最小者，自适应切换到相应的预测模型进行大气PM_2.5浓度预测；

利用主元成分分析的方法对采集的大气污染物浓度数据和气象数据进行特征提取；其观测数据矩阵为：

x₁₁…x_n1为样本数据中PM₁₀,PM_2.5,NO₂,SO₂,O₃及气象条件的时间序列；然后将这些采集数据进行标准化处理，其公式如下：

式中，r_ij为相关系数，i＝1,2,...,n，j＝1,2,...,p，

为变量X_i，X_j的观测值的平均值；

通过分析得到主元成分的变量累积贡献率和累积贡献率，其公式为：

式中，Cr为贡献率，累计贡献率达到85％—95％以上，确定为所对应的主成分个数；λ为相关系数矩阵的特征值；利用主元成分分析方法提取不同季节的与PM_2.5关系密切的污染物和气象数据，建立最小二乘支持向量回归预测模型；

预测模型为最小二乘支持向量回归，该方法通过构建决策函数实现非线性转化为线性问题的特征对PM_2.5浓度进行预测；给定一组监测的当前季节的大气污染物的数据T＝{(x₁,y₁),…(x_n,y_n)}，x_n为输入，y_n为输出；匹配函数公式为：

y＝f(x)＝(ω·Φ(x))+b (6)

式中，Φ(·)为匹配函数；ω为权矩阵，b为偏差；核函数根据实际情况选取；核函数K(x_i,x_j)公式计算如下：

K(x_i,x_j)＝(Φ(x_i)^T·Φ(x_j)) (7)

s.t.y_i＝ω^TΦ(x_i)+b+ψ_i

式中，ψ_i为随机误差；通过引入拉格朗日问题解决限制优化问题，其公式如下：

式中，α_i为拉格朗日乘子；根据KKT条件特征推倒出ω,α,b,ψ偏微分方程为：

从公式(10)特征转化为线性方程公式为：

式中，α＝[α₁,α₂…,α_n]^T，y＝[y₁,y₂,…y_n]；由公式(11)特征得出决策函数如下所示：

选择高斯径向基函数(RBF)为核函数，其计算公式如下所示：

式中，σ为样本间相似性的特征长度尺度。

2.根据权利要求1所述的一种基于小样本下多模型自适应大气PM_2.5浓度预测的方法，其特征在于：最后通过交叉验证方法对C和σ优化求解。

3.根据权利要求1所述的一种基于小样本下多模型自适应大气PM_2.5浓度预测的方法，其特征在于：利用最小二乘支持向量回归LS-SVR方法所建立的决策函数方程预测不同季节下大气PM_2.5浓度；其预测输出为[y₁,y₂,…,y_n]，其中输入变量[x₁,x₂…,x_n]与其一一对应。

4.根据权利要求1所述的一种基于小样本多模型自适应大气PM_2.5浓度预测的方法，其特征在于：建立不同季节模型对当前大气PM_2.5浓度预测，预测值与实际值进行比较，误差性能指标中最小的预测模型作为下一时刻预测模型对PM_2.5浓度进行预测，从而实现模型切换。

5.根据权利要求1所述的一种基于小样本多模型自适应大气PM_2.5浓度预测的方法，其特征在于：通过多个预测模型在不同的季节状态下进行切换，达到自适应预测PM_2.5浓度。