CN116307212A

CN116307212A - 一种新型空气质量预测方法及系统

Info

Publication number: CN116307212A
Application number: CN202310295951.5A
Authority: CN
Inventors: 宋世豪; 彭甜; 王业琴; 孙文; 张凯诚; 张楚; 索雷明; 李正波
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-23
Anticipated expiration: 2043-03-24
Also published as: CN116307212B

Abstract

本发明公开了一种新型空气质量预测方法及系统，具体步骤如下：收集某地区的化工园区空气质量数据集利用其空气质量数据（PM2.5、PM10、SO₂、NO₂、O₃和CO）和气象数据（湿度、温度、风速、能见度和气压）以及相邻站点的AQI作为输入，AQI作为输出；对采集到的数据使用主成分分析法PCA进行特征选择；将处理好的数据送入空气质量预测模型中进行训练；构建基于图卷积网络GCN和随机向量函数链神经网络RVFL的图卷积随机向量函数链神经网络GCRVFL；利用改进均衡优化算法IEO对GCRVFL模型参数进行寻优，找到模型参数最优解。并通过云平台展示历史数据以及预测结果。与现有技术相比，本发明能够得到高精度、泛化能力强的空气质量预测模型，提高了空气质量预测精度。

Description

一种新型空气质量预测方法及系统

技术领域

本发明属于空气质量预测技术领域，尤其涉及一种全新的空气质量预测方法及系统。

背景技术

目前的空气质量预测主要有数值模拟与人工智能算法两种方法。数值模拟方法在考虑大气中多种污染物质之间的在大气中的转化作用基础上对气象排放化学变化建立模型，通过建立复杂的数值模型对物质之间转化进行模拟，在可模拟范围内考虑各种污染物浓度对大气变化的影响，模型利用大气中的动态过程，找出大气中污染物的积累和消散机制，利用大量空气质量变化实时信息来监控污染物的在区域内产生、交换、扩散和排出过程。常见的有通用多尺度空气质量模型、天气研究与预测模型等，这种方法适应性强，专业性强，但需要大量的先验知识对大气变化规律进行模拟。且由于污染物数据不规则、基础大气条件复杂、理论信息不足，导致预测精度不高。

人工智能算法使用统计建模方法预测空气质量，利用历史数据训练预测模型，常用的有支持向量机、人工神经网络等。然而，空气质量过程的空间分布和时间趋势受大气污染物排放和沉降、天气条件、人类活动等多种因素的影响，过程复杂，并且不同站点之间存在空间联系。传统机器学习模型在处理复杂、庞大的空气质量数据时存在一定的局限性，无法有效的捕获空气质量数据集中的特征分布，导致使用传统机器学习模型来完成预测空气质量的难度增加。

因此，本发明将深度学习应用到空气质量预测中，利用图卷积神经网络(GCN)提取空气质量数据中的空间特征，挖掘不同站点之间的内在联系，再利用随机向量函数链神经网络(RVFL)强大的非线性拟合能力，提出GCRVFL这种高精度的预测模型。

发明内容

发明目的：针对背景技术中指出的问题，本发明公开了一种新型空气质量预测方法及系统，使用GCRVFL对空气质量进行预测，并且使用智能算法对模型参数进行寻优，最终能够得到高精度、泛化能力强的空气质量预测模型。

技术方案：本发明提供一种新型空气质量预测方法，包括如下步骤：

步骤1：收集某地区空气质量数据，并对数据异常点、缺失点进行合理的优化，得到完整的空气质量数据集，利用某地区的空气质量数据和气象数据以及相邻站点的AQI作为输入，AQI作为输出；所述空气质量数据包括PM2.5、PM10、SO₂、NO₂、O₃和CO；所述气象数据包括湿度、温度、风速、能见度和气压；

步骤2：对原始数据使用主成分分析法PCA特征选择，最终确定每个分量的输入维度，为接下来模型的搭建做好准备；

步骤3：建立图卷积随机向量函数链神经网络GCRVFL的空气质量预测模型，所述空气质量预测模型利用改进的均衡优化算法优化GCRVFL的权值、阈值，所述改进的均衡优化算法包括利用混沌初始化替换原本的随机初始化、多元学习提高均衡优化算法的全局搜索能力、利用混沌局部搜索对最优解进一步优化；

步骤4：通过步骤2的空气质量历史数据与改进的均衡优化算法对建立的基于GCRVFL的空气质量预测模型进行训练，求出模型最优参数、最小化损失函数误差；

步骤5：利用训练好的的模型对未来数据进行预测，并输出预测结果。

进一步地，所述步骤2中主成分分析法PCA特征选择对数据矩阵的协方差矩阵进行特征值分解，PCA主要分为4个步骤：

原始数据矩阵如式(1)所示：

式中：n为数据个数；p为特征数。

1)数据标准化(中心化)的矩阵X*表示如式(2)：

式中：

为X^*的第i行第j列的数据；

2)计算标准化后的协方差矩阵R，如式(3)所示：

3)求R的特征值和特征向量；

根据特征方程|λI-R|＝0,得到特征值并排序:λ₁≥λ₂≥…≥λ_p≥0。求出海个特征值的特征向量e_i(i＝1,2,…,p),要求||e_i||＝1；

4)计算主成分贡献率及累计贡献率，贡献率计算如式(4)，累计贡献率计算如式(5)所示：

选取累积方差贡献率在75％～95％时，对应的前q个主成分包含原始p个变量所能提供的绝大部分信息。

进一步地，所述步骤3中图卷积随机向量函数链神经网络GCRVFL将RVFL扩展到非欧几里得域，首先通过考虑相邻关系将常规欧几里得数据转换为图数据，然后由图卷积诱导的嵌入层和回归层嵌入；其具体步骤如下：

将RVFL的随机映射和回归相应地转换为RGConv嵌入和GConv回归层；

1)RGConv层的目标是为输入

生成随机嵌入矩阵H；/>

是包含L个过滤器的滤波器参数矩阵，W的所有元素都是根据随机概率分布生成，因此，定义RGConv嵌入如下：

这里A＝D^-1/2AD^-1/2表示归一化的相邻矩阵，σ是一个非线性激活函数：

根据谱图理论，

的非零元素可以通过/>

计算得到，其中D_ii表示第i个对角元素D；因此，RGConv嵌入可以进一步表示为：

h_i是嵌入的第i个节点，依赖于i节点特征向量本身；直观地说，这些相邻节点具有相当高的概率属于同一类，h_i通过RGConv嵌入被嘈杂数据损坏的风险较小；

2)基于RGConv嵌入矩阵H，在GCRVFL模型中引入了GConv回归层，将输出层权重矩阵表示为β，GConv回归可以写成如下：

方程(9)的解可以通过求解最小范数问题来获得，即

这里H和Y包含已标记和未标记的条目；让

进一步修改方程(10)，将两者除法/>

和Y分为两部分，即指/>

和Y_T作为标记的条目,/>

和Y_U作为未标记的条目，这将获得以下可解决的问题：

通过计算方程(11)关于β，很容易证明方程(11)具有全局最优解，方程(11)的闭式解可以表示如下：

然后，将输入层与输出层的直连结构也替换成GConv回归结构。

进一步地，步骤3中改进的均衡优化算法步骤如下所示：

1)在均衡优化算法中加入了混沌初始化；使用迭代映射来初始化EO：

X(i)＝sin(0.7π/X(i-1)) (13)

X＝((X(i)-a)×(d-c))/(b-a) (14)

其中a＝-1b＝1c＝0d＝1，X是通过混沌初始化获得的粒子群；

2)引入多元学习策略来更新粒子群中每个粒子的位置；具体改进如下：

粒子群随机分为两部分，一部分粒子从当前种群和历史种群中学习，其余粒子从当前粒子群中的最优粒子中学习，如方程(15)所示：

其中h是小于粒子群大小的正整数，并且h≠i；X_h,j表示当前粒子群中h个粒子的第j个变量；a和b是从0到1的随机数；C_best,j是当前粒子群最优解的第j个变量；

3)使用混沌局部搜索来获得最优解，通过围绕混沌序列生成新的解来进一步优化粒子群中的最优粒子；利用方程(16)和方程(17)搜索最佳粒子附近的位置，然后，如果新粒子的适应度值低于原始粒子的适应值，则用新粒子替换旧粒子：

z_m+1＝4×z_m(1-z_m) (16)

其中，z_m是第m次迭代的结果；z₀其初始值是范围为[0，1]的随机生成值；t_current和t_max并且分别表示当前迭代和最大迭代；X_best,j表示最优解的第j个元素。

本发明还公开一种新型空气质量预测系统，包括数据采集模块、数据处理模块、模型训练模块、智能优化模块、云平台模块；

数据采集模块，用于收集空气质量中的数据，包括PM2.5、PM10、SO₂、NO₂、O₃和CO；

数据处理模块，用于对采集到的空气质量数据进行特征选择；将原始数据作为主成分分析PCA模型的输入，通过PCA对重构的高维度数据集进行特征降维，确定模型的输入；

模型训练模块，将GCN与RVFL模型相结合，建立基于GCRVFL的空气质量预测模型，并通过空气质量的历史数据与智能优化模块对建立的GCRVFL模型进行训练，得到最优网络参数；

智能优化模块，利用多元学习、混沌局部搜索、混沌初始化对于均衡优化算法EO进行改进，提出一种全新的改进均衡优化算法IEO用于模型参数寻优；

云平台模块，通过云平台实时显示历史数据以及未来一段时间的空气质量预测结果。

有益效果：

(1)本发明通过对空气质量指数(Air Quality Index,简称AQI)序列与湿度、温度、风速、能见度和相邻站点AQI等因素使用PCA特征选择，从而得到了AQI与气象因素之间的关联程度，确定模型输入维度，能够在不减少预测精度的前提下简化计算。

(2)本发明所提GCRVFL结合了GCN和RVFL各自的优点，GCN处理图数据非常有效，能够对同时学习图结构的结构信息和节点的属性信息，考虑到了节点之间的关联性，进而能够挖掘数据的空间信息，RVFL拥有良好的泛化能力，并且其设计简单、训练效率高。

(3)本发明提出IEO-GCRVFL模型对于空气质量进行预测研究。首先建立图卷积随机向量函数链神经网络(GCRVFL)模型，然后对EO算法进行改进，并利用改进EO算法对GCRVFL中的权值和偏置进行优化，最后为了充分的验证模型的优越性，本文对单站点和多站点数据进行预测。

附图说明

图1是空气质量预测流程图；

图2是GCRVFL结构图；

图3是空气质量预测模型与系统流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明公开了一种新型空气质量预测方法，以化工园区空气质量预测为例进行说明，参见图3，具体包括如下步骤：

步骤1：收集某地区空气质量数据，并对数据异常点、缺失点进行合理的优化，得到完整的空气质量数据集，利用某地区的空气质量数据(PM2.5、PM10、SO₂、NO₂、O₃和CO)和气象数据(湿度、温度、风速、能见度和气压)以及相邻站点的AQI作为输入，AQI作为输出。

步骤2：对收集到的空气质量原始数据使用PCA特征选择，最终确定每个分量的输入维度，为接下来模型的搭建做好准备。

主成分分析是处理高维数据的1种统计学习方法，对数据矩阵的协方差矩阵进行特征值分解，达到降维的目的。PCA主要分为4个步骤：

原始数据矩阵如式(1)所示：

式中：n为数据个数；p为特征数。

1)数据标准化(中心化)的矩阵X*表示如式(2)：

式中：

为X^*的第i行第j列的数据。

2)计算标准化后的协方差矩阵R，如式(3)所示：

3)求R的特征值和特征向量。

根据特征方程|λI-R|＝0，得到特征值并排序:λ₁≥λ₂≥…≥λ_p≥0。求出海个特征值的特征向量e_i(i＝1,2,…,p),要求||e_i||＝1。

4)计算主成分贡献率及累计贡献率。贡献率计算如式(4)，累计贡献率计算如式(5)所示：

步骤3：建立GCRVFL的空气质量预测模型，利用改进的均衡优化算法优化GCRVFL的模型参数。其中改进的均衡优化算法包括，混沌初始化替换原本的随机初始化、多元学习来提高算法的全局搜索能力、混沌局部搜索对最优解进一步优化。

本发明提出了一种基于图表示学习的新型RVFL模型，即图卷积随机向量函数链神经网络(GCRVFL)。该模型背后的核心思想是将RVFL扩展到非欧几里得域。从技术上讲，首先通过考虑相邻关系将常规欧几里得数据转换为图数据，然后由图卷积诱导的嵌入层和回归层嵌入。GCRVFL框架不仅继承了经典RVFL和GCN的优点，而且还赋予RVFL处理图形结构化数据的能力。图卷积随机向量函数链神经网络的具体步骤如下：

GCRVFL方法的关键是在图域中重塑经典RVFL，但保留其骨干。为此，将RVFL的随机映射和回归相应地转换为RGConv嵌入和GConv回归层。参见图2，GCRVFL模型的细节如下所述。

RGConv层的目标是为输入

生成随机嵌入矩阵H。/>

是包含L个过滤器的滤波器参数矩阵。W的所有元素都是根据随机概率分布生成。因此，定义RGConv嵌入如下：

根据谱图理论，

的非零元素可以通过/>

计算得到，其中D_ii表示第i个对角元素D。因此，RGConv嵌入可以进一步表示为：

可以看出，h_i是嵌入的第i个节点，依赖于i节点特征向量本身。直观地说，这些相邻节点具有相当高的概率属于同一类。因此h_i通过RGConv嵌入被嘈杂数据损坏的风险较小。

与经典RVFL相比，随机映射和RGConv嵌入之间存在一些差异。首先，RGConv嵌入同时利用邻域关系和节点特征，使其能够对图结构化数据进行操作。而随机映射认为数据点彼此独立。得益于图结构不容易受到噪声数据点的影响，RGConv嵌入往往会产生更健壮的转换。其次，方程(6)可以看作是一个随机映射乘以成对样本权重矩阵

并忽略偏见。因此，RGConv嵌入在理论上不会降低随机映射的性能。

基于RGConv嵌入矩阵H，在GCRVFL模型中引入了GConv回归层。将输出层权重矩阵表示为β，GConv回归可以写成如下：

方程(9)的解可以通过求解最小范数问题来获得，即

这里H和Y包含已标记和未标记的条目。但是，未标记的目标在训练阶段不可用。为了规避困境，让

进一步修改方程(10)，将两者除法/>

和Y分为两部分，即指/>

和Y_T作为标记的条目,/>

和Y_U作为未标记的条目。这将获得以下可解决的问题：

在均衡优化算法中加入了混沌初始化。在原始EO中，粒子浓度是通过随机初始化产生的。随机性太大，导致颗粒浓度分布不均匀。基于混沌理论的混沌序列具有随机性和边界性。本文使用迭代映射来初始化EO：

X(i)＝sin(0.7π/X(i-1)) (13)

X＝((X(i)-a)×(d-c))/(b-a) (14)

其中a＝-1b＝1c＝0d＝1。X是通过混沌初始化获得的粒子群。

引入了多元学习策略来更新粒子群中每个粒子的位置。具体改进如下，粒子群随机分为两部分，一部分粒子从当前种群和历史种群中学习，其余粒子从当前粒子群中的最优粒子中学习，如方程(15)所示。

其中h是小于粒子群大小的正整数，并且h≠i。X_h,j表示当前粒子群中h个粒子的第j个变量。a和b是从0到1的随机数。C_best,j是当前粒子群最优解的第j个变量。

为了进一步提高最优解的质量，使用混沌局部搜索来获得最优解。该方法通过围绕混沌序列生成新的解来进一步优化粒子群中的最优粒子。因此，在本文中，方程(16)和方程(17)用于搜索最佳粒子附近的位置。然后，如果新粒子的适应度值低于原始粒子的适应值，则用新粒子替换旧粒子。

z_m+1＝4×z_m(1-z_m) (16)

其中z_m是第m次迭代的结果；z₀其初始值是范围为[0，1]的随机生成值；t_current和t_max并且分别表示当前迭代和最大迭代；X_best,j表示最优解的第j个元素。

步骤4：通过空气质量的历史数据与上述改进的均衡优化算法对建立的基于GCRVFL的空气质量预测模型进行训练，求出模型最优参数、最小化损失函数误差。

步骤5：利用训练好的的模型对未来数据进行预测，并将预测结果显示到云平台。

针对上述的新型空气质量预测方法，本发明公开了新型空气质量预测系统，包括数据采集模块、数据处理模块、模型训练模块、智能优化模块、云平台模块。

数据采集模块，用于收集空气质量中的数据，包括PM2.5、PM10、SO₂、NO₂、O₃和CO。

数据处理模块，用于对采集到的空气质量数据进行特征选择；将原始数据作为主成分分析(PCA)模型的输入，通过PCA对重构的高维度数据集进行特征降维，确定模型的输入。

模型训练模块，将GCN与RVFL模型相结合，建立基于GCRVFL的空气质量预测模型，并通过空气质量的历史数据与智能优化模块对建立的GCRVFL模型进行训练，得到最优网络参数。

智能优化模块，利用多元学习，混沌局部搜索，混沌初始化对于均衡优化算法(EO)进行改进，提出一种全新的改进型均衡优化算法(IEO)用于模型参数寻优。

本发明并不局限于上述具体实施案例，在本领域技术人员所具备的知识范围内，任何根据本发明的技术方案及其发明构思加以等同替换或改变，均应包含在本发明保护范围之内。

Claims

1.一种新型空气质量预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的新型空气质量预测方法，其特征在于，所述步骤2中主成分分析法PCA特征选择对数据矩阵的协方差矩阵进行特征值分解，PCA主要分为4个步骤：

原始数据矩阵如式(1)所示：

式中：n为数据个数；p为特征数。

1)数据标准化(中心化)的矩阵X*表示如式(2)：

式中：

为X^*的第i行第j列的数据；

2)计算标准化后的协方差矩阵R，如式(3)所示：

3)求R的特征值和特征向量；

3.根据权利要求1所述的新型空气质量预测方法，其特征在于，所述步骤3中图卷积随机向量函数链神经网络GCRVFL将RVFL扩展到非欧几里得域，首先通过考虑相邻关系将常规欧几里得数据转换为图数据，然后由图卷积诱导的嵌入层和回归层嵌入；其具体步骤如下：

1)RGConv层的目标是为输入

生成随机嵌入矩阵H；/>

根据谱图理论，

的非零元素可以通过/>

2)基于RGConv嵌入矩阵H，在GCRVFL模型中引入了GConv回归层；将输出层权重矩阵表示为β，GConv回归可以写成如下：

方程(9)的解可以通过求解最小范数问题来获得，即

这里H和Y包含已标记和未标记的条目；让

进一步修改方程(10)，将两者除法/>

和Y分为两部分，即指/>

和Y_T作为标记的条目,/>

和Y_U作为未标记的条目，这将获得以下可解决的问题：

4.根据权利要求1所述的新型空气质量预测方法，其特征在于，步骤3中改进的均衡优化算法步骤如下所示：

X(i)＝sin(0.7π/X(i-1))(13)

X＝((X(i)-a)×(d-c))/(b-a) (14)

其中a＝-1b＝1c＝0d＝1，X是通过混沌初始化获得的粒子群；

z_m+1＝4×z_m(1-z_m) (16)

5.一种新型空气质量预测系统，其特征在于，包括数据采集模块、数据处理模块、模型训练模块、智能优化模块、云平台模块；