CN115796402B

CN115796402B - 一种基于组合模型的空气质量指数预测方法

Info

Publication number: CN115796402B
Application number: CN202310076823.1A
Authority: CN
Inventors: 高嵩; 张恒升; 何卓骏; 刘子岳
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-05-12
Anticipated expiration: 2043-02-08
Also published as: CN115796402A; US11816556B1

Abstract

本发明公开了一种基于组合模型的空气质量指数预测方法，提出了基于RF和CLA的差异融合季节性预测模型DF‑SPM，在预测过程中，在不同季节使用最佳阈值区间搜寻算法，学习搜寻到四个季节的最佳阈值区间，并在此基础上，从RF和CLA预测值中选择得到最终预测结果。该模型充分考虑了AQI的季节性周期特征，以四季作为时间尺度划分每一年的数据集，来搜寻最佳阈值区间，可精细得到不同时段的阈值区间，以获得更高的预测精度。该模型使用最佳阈值区间的确定策略优于单一阈值策略，减少最优解搜寻难度，用于提取AQI历史波动特征，实现更高精度的预测。

Description

一种基于组合模型的空气质量指数预测方法

技术领域

本发明属于空气污染技术领域，具体涉及一种基于组合模型的空气质量指数预测方法。

背景技术

近年来，中国严重的空气污染事件因其负面影响而受到越来越多的关注，在如此严峻的背景下，研究探索空气质量邻域的相关问题，寻求污染控制措施，已成为人与自然和谐发展的重要课题。

空气质量指数(Air Quality Index, AQI)是定量描述空气质量状况的无量纲指标，它能够直观评价大气的环境污染水平，在预防和减少空气污染方面发挥着至关重要的作用。在中国，空气质量指数被分为六个不同级别（I~VI），对应于六个不同的空气质量类别。AQI的等级和数值越大，空气中污染物浓度就越高，对健康的伤害就越大，人体舒适程度就越低。空气质量指数预测可以为减少环境污染和向旅行者发出预警提供有价值的理论依据。受人类活动和气象因素的重大影响，大气是一个复杂的多层次系统，这使得AQI预测的准确性难以保证。因此，人们已经提出了一些统计模型和机器学习模型来解决空气质量指数和空气污染物预测带来的困难。

现有的利用机器学习模型来进行空气质量指数预测的方法包括：

（1）基于空气质量和气象数据利用基于门控单元的循环神经网络进行预测，该方法采用了单一的模型，其预测能力对时间序列的处理存在瓶颈，无法提升预测准确率，其在预测过程中仅考虑时间序列数据间的依赖关系，未考虑AQI序列空间特征，模型对于不同地区预测，泛化能力弱，预测性能不足，无法应用多地区检测，实用性受到限制；另一方面，该方法局限于短期预测，无法针对长期空气质量指数序列进行预测。

（2）基于注意力的图卷积神经网络和长短期记忆神经网络结合的预测方法，该方法中网络训练与预测能力之间存在矛盾，容易导致过度拟合的问题，当达到极限时，预测能力会随着训练能力的提高而下降；另外，网络模型的层数本身有限，特征提取和权重分配效果可能不佳，预测精度提升受到限制；两种模型的输入变量的参数较多，在预测过程中存在较大的运算压力。

（3）基于卷积神经网络、门控循环单元和注意力机制结合建立的空气质量指数预测模型，该预测方法与前面一样，仅考虑时间序列数据间的依赖关系，未考虑AQI序列空间特征，模型对于不同地区预测泛化能力较弱，预测性能不足，无法应用多地区预测，实用性限制；同时，该方法局限于短期预测，无法针对长期空气质量指数序列进行预测。

发明内容

针对现有技术中的上述不足，本发明提供的基于组合模型的空气质量指数预测方法解决了现有的预测方法中采用单一模型预测精度不足、预测过程中容易受到各种随机因素的干扰、未充分考虑空气质量指数的时间和空间特征，使得预测模型局限于特定地区和短期预测的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于组合模型的空气质量指数预测方法，包括以下步骤：

S1、采集历史空气质量数据，并进行预处理；

其中，空气质量数据包括空气质量指数AQI和污染物项目指标；

S2、构建差异融合季节性预测模型，利用历史空气质量数据对其进行训练，并确定各季节的AQI最佳阈值区间；

所述差异融合季节性预测模型包括并列的RF模型和CLA模型；

S3、将待预测日之前的污染物项目指标作为差异融合季节性预测模型的输入，根据待预测日所在季节的AQI最佳阈值区间选择RF模型或CLA模型的预测空气质量指数AQI作为差异融合季节性预测模型的输出，得到待预测日的空气质量指数AQI预测结果；

所述步骤S2中，对差异融合季节性预测模型进行训练的方法具体为：

S2-1、将预处理的数据划分为训练集和测试集；

S2-2、利用训练集对RF模型和CLA模型分别进行训练；

S2-3、利用训练的RF模型和CLA模型对测试集进行AQI预测，得到对应的预测结果；

S2-4、将RF模型预测结果、CLA模型预测结果与测试集中真实AQI数据按季节进行分类；

S2-5、基于各季节的数据，利用最佳阈值区间搜索方法确定每个季节的AQI最佳阈值区间；

所述步骤S2-5中，确定任一季节的AQI最佳阈值区间的方法为：

S2-51、初始化阈值区间[Down,Up]，并设置最大阈值区间及变化步长，Down为区间最小值，Up为区间最大值；

S2-52、遍历同一季节下RF模型预测结果、CLA模型预测结果与测试集中真实AQI数据；

当和均在当前阈值区间内时，将作为当前模型预测结果；

当和同时比Up大或比Down小时，将作为当前模型预测结果；

S2-53、将当前模型预测结果存入当前阈值区间下的预测集合中，并在遍历结束后，计算的MAE值存入集合；

S2-54、按设置变化步长修改阈值区间，并返回步骤S2-52，直到满足最大阈值区间；

S2-55、在集合中选择最小MAE值，将其对应的阈值区间作为当前季节的AQI最佳阈值区间；

所述步骤S3中，确定差异融合季节性预测模型的输出的方法具体为：

当RF模型和CLA模型的预测空气质量指数AQI均在AQI最佳阈值区间内时，选择CLA模型的预测空气质量指数AQI作为差异融合季节性预测模型的输出；

当RF模型和CLA模型的预测空气质量指数AQI均不在AQI最佳阈值区间内时，选择RF模型的预测空气质量指数AQI作为差异融合季节性预测模型的输出；

当RF模型和CLA模型的预测空气质量指数AQI中任意一个处于AQI最佳阈值区间内，另一个处于AQI最佳阈值外时，根据待预测日所处区域中AQI变化特点分析的模型置信度，选择模型置信度更高的一个预测空气质量指数AQI作为差异融合季节性预测模型的输出。

进一步地，所述步骤S1中污染物项目指标包括CO、NO₂、O₃、PM10、PM2.5和SO₂的每日平均监测浓度数据；

所述步骤S1中，对历史空气质量数据进行预处理为补全缺失数据，补全缺失数据的方法为：

当缺少连续 i日的空气质量数据时，将前 i日和后 i日空气质量数据的平均值 X _AVG作为缺失数据 X _M；当 i=1时，缺失数据 X _M= X _AVG/2，当2≤ i≤5时，缺失数据 X _M=( X _M-1+ X _AVG)/2；其中，， X _P为前 i日空气质量数据， X _N为后 i日空气质量数据，下标 M= n,…, n+ i-1， P= n- i,…, n-1， N= n+ i,…, n+2 i-1。

进一步地，所述步骤S2中，所述RF模型和CLA模型的输入数据均为前7日的空气质量数据，输出标签为后一日的空气质量指数AQI；

所述CLA模型包括依次连接的CNN模块、LSTM模块、ATTENTION模块以及全连接层；

所述CNN模块用于提取输入数据的特征，并将其展平成一维的时间序列；

所述LSTM模块用于分析输入时间序列的时间序列特征；

所述ATTENTION模块用于分析并突出输入时间序列特征中的关键信息。

进一步地，所述CNN模块输出时间序列的公式为：

式中，为输出时间序列的第i行第j列中的值，为输入矩阵的行i和列j中的值，为ReLU激活函数，为卷积核的行m和列n中的权重，b为卷积核的偏差；

所述LSTM模块为双向长短期记忆模型Bi-LSTM，其对输入时间序列的分析公式为：

式中，参数上的左右箭头表示输入时间序列的正向和反向顺序；为CNN模块的输出在LSTM模块的表达形式；为输入门，为Sigmoid激活函数，分别为输入门的当前时刻输入和上一时刻输出的权重矩阵，为上一时刻输出结果，为输入门的偏置；为遗忘门，分别为遗忘门的当前时刻输入和上一时刻输出的权重矩阵，为遗忘门偏置；为输出门，分别为输出门的当前时刻输入和上一时刻输出的权重矩阵，为输出门偏置；为神经元，为激活函数，分别为自循环状态的当前时刻输入和上一时刻输出的权重矩阵，为自循环状态偏置；为LSTM模块的最终隐藏元素，为前向输出和后向输出的连接向量；符号为相乘运算符；

所述LSTM模块的正反输出结果通过乘法连接得到其输出的时间序列特征；

所述ATTENTION模块嵌入所述LSTM模块的时间序列特征分析过程中，采用Softmax激活函数突出时间序列特征中的关键信息。

进一步地，所述步骤S2-1中，对RF模型或CLA模型进行训练时，将MAE值最小时对应的模型参数作为RF模型或CLA模型的最佳参数；

所述MAE值的计算公式为：

式中，为第i日的AQI实际值，为第i日的AQI预测值。

本发明的有益效果为：

本发明技术将两种模型预测技术融合，结合最佳的选择策略，主要针对空气质量指数进行精准预测，具体有益效果包括：

（1）本发明中的基于组合模型的预测方法解决了单一模型预测精度不足问题，有效地提取单个预测模型的样本信息，综合利用CNN-LSTM-ATTENTION模型和RF模型的优势，从而提高预测模型的预测精度。同时，该融合模型预测提供两种模型预测值，增加模型容错性，减少了单个CNN-LSTM-ATTENTION模型和RF预测模型容易受各种随机因素的干扰，以及本身存在的问题，从而提高预测模型的预测精度。

（2）本发明中的差异融合季节性预测模型参数减少，且单一模型CNN-LSTM-ATTENTION的设计引入了dropout和注意力机制，对数据中的关键信息给予足够的关注，提高模型预测效率，降低了卷积计算压力和对模型运行时的算力需求。

（3）本发明是一种适用于多地区的长期空气质量指数预测方法，融合预测有效利用RF和CNN-LSTM-ATTENTION具有的预测性能的差异性，适用于AQI表现不同的多个空间站点的预测，同时充分考虑空气质量指数的季节性特征，季节性预测又保证了融合模型在长期预测中的性能。

（4）本发明方法中考虑了AQI四季有明显变化特征，将全年数据按四季分成四段时序数据，使得不同季节能够获得最好的最佳阈值区间。以往模型融合策略采用单一阈值方法，受AQI波动的影响大，往往最优解无法正确判断最终AQI预测结果或者甚至无法搜寻到最优解，本发明采用最佳阈值空间的方法能够有效解决该问题，提升预测精度。

附图说明

图1为本发明提供的基于组合模型的空气质量指数预测方法流程图。

图2为本发明提供的CLA模型示意图。

图3为本发明提供的DF-SPM和基线模型的MAE值在中国珠海市的预测对比图；(a)冬；(b)春；(c)夏；(d)秋。

图5为本发明提供的DF-SPM和基准模型的MAE在264个城市的预测对比图。

图6为本发明提供的DF-SPM和消融模型的MAE在264个城市的预测对比图。

图7为本发明提供的DF-SPM与RF、CLA模型在8个AQI不同区域的MAE评估结果统计图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1：

本发明实施例提供了一种基于组合模型的空气质量指数预测方法，如图1所示，包括以下步骤：

S1、采集历史空气质量数据，并进行预处理；

所述差异融合季节性预测模型包括并列的RF模型和CLA模型；

S3、将待预测日前的污染物项目指标作为差异融合季节性预测模型的输入，根据待预测日所在季节的AQI最佳阈值区间选择RF模型或CLA模型的预测空气质量指数AQI作为差异融合季节性预测模型的输出，得到待预测日的空气质量指数AQI预测结果。

本发明实施例的步骤S1中污染物项目指标包括CO、NO₂、O₃、PM10、PM2.5和SO₂的每日平均监测浓度数据；

当缺少连续 i日的空气质量数据时，将前 i日和后 i日空气质量数据的平均值 X _AVG作为缺失数据 X _M；当 i=1时，缺失数据 X _M= X _AVG/2，当2≤ i≤5时，缺失数据 X _M =(X _M-1 + X _AVG )/2；其中，， X _P为前 i日空气质量数据， X _N为后 i日空气质量数据，下标 M=n,…, n+ i-1， P= n-i,…, n-1， N=n+i,…, n+2 i-1。

本发明实施例的步骤S2中，所述RF模型和CLA模型的输入数据均为前7日的空气质量数据，输出标签为后一日的空气质量指数AQI。

本实施例中的RF（随机森林）模型是一种集成监督学习算法，基于其有集成学习思想，故RF模型能很好防止过度拟合问题，建模难度小，成本低，且预测结果稳定有效。本实施例中的RF模型相较于传统的Naïve Bayes, Logistic Regression, single decisiontree and ANN学习模型具有更高的精度。

RF模型将决策树用作bagging中的模型，首先用bootstrap方法生成m个训练集，然后，对于每个训练集，构造一颗决策树，在节点寻找特征进行分裂时，不针对所有特征找到能使得指标（如信息增益）最大的，而是在特征中随机抽取一部分特征，在抽到的特征中间找到最优解，应用于节点，进行分裂。随机森林采用了bagging方法，也就是集成的思想，实际上相当于对于样本和特征都进行了采样，所以可以避免过拟合。

本实施例中的CLA(CNN-LSTM-ATTENTION,基于注意力机制的卷积神经网络和长短期记忆力模型)模型如图2所示，包括依次连接的CNN模块、LSTM模块、ATTENTION模块以及全连接层；

其中，CNN模块用于提取输入数据的特征，并将其展平成一维的时间序列；LSTM模块用于分析输入时间序列的时间序列特征；ATTENTION模块用于分析并突出输入时间序列特征中的关键信息；本实施例中的CLA模型中还设置了Dropout，其作用是防止模型训练过拟合。

具体地，在本实施例中，CNN模块输出时间序列的公式为：

式中，为输出时间序列的第 i行第 j列中的值，为输入矩阵的行 i和列 j中的值，为ReLU激活函数，为卷积核的行 m和列 n中的权重， b为卷积核的偏差；其中，ReLU激活函数的表达式为 ReLU=max(0, x)；

本实施例中的CNN模块中，输入数据使用64个一维卷积核进行卷积运算，且采用dropout操作；每个一维卷积核将从输入矩阵中提取特征并生成一维特征向量。

本实施例中LSTM模块为双向长短期记忆模型Bi-LSTM，其同样加入了dropout操作；传统LSTM的一个缺点是它们只能利用序列数据的先前上下文，双向LSTM可以通过两个独立的隐藏层同时处理两个方向上的时间序列数据。这些数据被级联并转发到输出层，这种方式可以为网络提供额外的上下文，并导致更快、更充分的学习问题。基于此，本实施例中的LSTM模块对输入时间序列的分析公式为：

式中，参数上的左右箭头表示输入时间序列的正向和反向顺序，正向中LSTM 模块使用遗忘门 f _t、输入门 i _t、输出门 o _t来控制长期状态 S， S将决定什么信息会被留下来或是被遗忘；为CNN模块的输出在LSTM模块的表达形式；为输入门，用于决定应传输到下一时间步或输出的信息量，为Sigmoid激活函数，分别为输入门的当前时刻输入和上一时刻输出的权重矩阵，为上一时刻输出结果，为输入门的偏置；为遗忘门，确定当前单元状态 S _t中有多少是上一时刻单元状态 S _t-1中传递过来的，并且由和 S_t-1共同决定丢失什么信息，分别为遗忘门的当前时刻输入和上一时刻输出的权重矩阵，为遗忘门偏置；为输出门，分别为输出门的当前时刻输入和上一时刻输出的权重矩阵，为输出门偏置；为神经元，具有类似RNN的自循环细胞，为激活函数，分别为自循环状态的当前时刻输入和上一时刻输出的权重矩阵，为自循环状态偏置；表示LSTM模块的最终隐藏元素，为前向输出和后向输出的连接向量。

本实施例中的ATTENTION模块嵌入所述LSTM模块的时间序列特征分析过程中，采用Softmax激活函数突出时间序列特征中的关键信息。

基于上述过程，LSTM模块的正反输出结果通过乘法连接得到其输出的时间序列特征；映射关系为，其中 S _t为Bi-LSTM分析得出的时间序列特征。

最后，将时间序列特征展平成一维特征， Q _t =flatten( S _t)， Q _t接入全连接层（激活函数为Sigmoid），得到CLA模型最后的输出。

本发明实施例的步骤S2中，对差异融合季节性预测模型进行训练的方法具体为：

S2-1、将预处理的数据划分为训练集和测试集；

S2-2、利用训练集对RF模型和CLA模型分别进行训练；

S2-5、基于各季节的数据，利用最佳阈值区间搜索方法确定每个季节的AQI最佳阈值区间。

在本实施例的步骤S2-1中，对RF模型或CLA模型进行训练时，将MAE值最小时对应的模型参数作为RF模型或CLA模型的最佳参数；

本实施例中将MAE值作为衡量指标，通过随机搜索确定MAE值最小时RF模型的最佳参数，随机搜索表示以随机的方式在参数空间中进行采样搜索；对于连续变量的参数，随机搜索会进行分布式采样，采样完成后进行交叉验证(cross validation, CV)，通过比较每一种设置的参数下的训练器精度，最终选择最优的参数值。在训练时，初始树的最大深度设置为20，允许分枝时一个节点必须包含的最小训练样本数值设置为20，分枝后的子节点的训练样本数的最低数目设置为5。

本实施例中的CLA模型训练采用Adma优化器，初始学习率设置0.001，其同样采用MAE值作为模型训练衡量指标（即模型的损失函数）。

本实施例中的MAE值的计算公式为：

式中，为第 i日的AQI实际值，为第 i日的AQI预测值。

本发明实施例的步骤S2-5中，确定任一季节的AQI最佳阈值区间的方法为：

当和均在当前阈值区间内时，将作为当前模型预测结果；

当和同时比Up大或比Down小时，将作为当前模型预测结果；

S2-55、在集合中选择最小MAE值，将其对应的阈值区间作为当前季节的AQI最佳阈值区间。

本发明实施例的步骤S3中，在确定四个季节时间段的AQI最佳阈值区间后，通过已知的季节性最佳阈值区间进行选择，产生最终差异融合季节性预测模型的输出，即通过比较每日的RF和CLA模型预测值处于最佳阈值区间内外情况，从RF和CLA模型预测值中选择一种作为当日的预测结果；基于此，本实施例步骤S3中确定融合预测模型的输出的方法具体为：

实施例2：

本发明实施例提供了利用实施例1中方法与单一模型(RF模型和CLA模型)进行空气质量指数预测对比的具体实例：

图3为采用本发明中的差异融合季节性预测(DF-SPM，Differential fusionseasonal forecasting model)方法对中国珠海市2020-2021年日AQI数据进行长期预测，为了更直观清晰的进行数据分析，图3中分别对4个季节（分别为(a)冬,(b)春,(c)夏,(d)秋）的预测过程进行展示，同时采用最佳阈值搜索方法事先搜索得到AQI最佳阈值区间分别为冬季[44，70]，春季[28，38]，夏季[12，38]，秋季区间[30，46]；然后进一步将三种模型在每个季节OTI（最佳阈值区间）内外的预测点分类统计，并计算它们的MAE值（见表1）。

在图3中各图的最佳阈值区间内，DF-SPM的日AQI预测值与CLA模型的日AQI预测值相同；相反在最佳阈值区间外，与RF模型的日AQI预测值相同。 DF-SPM每个季节时区预测结果由RF和CLA预测融合形成。因此，本发明提供的DF-SPM是以季节性和多模型融合预测为机理运作的新型预测模型。

表1：三种模型在每个季节OTI内外的预测点MAE分类统计

观测图3的(a),(b),(c),(d)可知，DF-SPM预测中大部分的点，均通过OTI成功的选择了此时的最佳模型预测值，从数据上反映，四个季节DF-SPM的MAE均小于RF与CNN-LSTM-Attention模型的MAE；更进一步，从表1中可知，同一季节OTI内的预测点，CLA的MAE均小于RF，OTI外的预测点，RF的MAE均小于CLA，完全符合基准模型预测性能差异的特点，而DF-SPM不论是在OTI内还是之外的点，其MAE均与两种基准模型中的最佳MAE数据相近似。最后，珠海全年使用DF-SPM预测的MAE相较于CNN-LSTM-Attention下降了6.3%，相较于RF下降了18.12%。这表明运用OTISA算法得出OTI的预测机制有效利用了不同模型的优势，取得良好融合预测效果。

实施例3：

本发明实施例提供了利用实施例1中方法进行中国264个城市的AQI预测结果评估实例：

本实施例旨在得出DF-SPM的普适性，所以搜集了中国264个城市的空气质量数据，同时采用聚类分析方法分析了中国264个城市的空气质量时空分布特征，并使用实施例1中方法对这些城市进行长期AQI预测测试。

本实施例中对数据样本进行了空间特征和时间特征分析；对于空间特征分析，我们通过计算264个研究城市的数据样本的总体AQI均值和六个污染物均值作为表征空气质量的变量，运用K-Means聚类算法对中国264个处于不同空间区域城市进行空气质量聚类，聚类结果如表2所示；

表2：中国264个城市空气质量聚类结果

对于时间特征分析，本实施例中对八个区域的城市空气质量分析了时间的分布特征；中国处于北半球，冬季是从12月到次年2月，次年的3-5月为春季，6-8月为夏季，9-11月为秋季。我们将某一个区域所有城市的每一年度AQI数据分成四季，分别计算四季的AQI季节均值，并用折线将四季的AQI季节均值连接起来，得到一年的AQI总体变化趋势，分析结果如图4(a)~(c)，分别是2019-2021年的年度AQI季节均值变化曲线。

由此，我们得到研究区域的时空分布特征为：空间维度上，8个不同聚类之间的空气质量水平存在明显差异，其空气质量水平按照从低到高顺序排列，分别为北部沿海, 黄河中游，东北，西北，长江中游，西南，东部沿海，南部沿海地区（区域1-区域8），同时同一区域中的城市间拥有相似的空气质量表现，在空气质量数据表征上具有相似性。

时间维度上，发现这些区域内城市的2019-2021年AQI均值具有明显特征，即AQI季节均值以年为周期循环，每年从春季先下降至夏季，夏、秋季基本平稳，秋季后急剧上升至冬季，总体趋势呈左低右高的倾斜浴盆状。

基于以上264个城市时空特征分析结果，我们对提出的预测方法进行了相应的基准实验和消融实验。

将DF-SPM与基准模型RF，CNN-LSTM-Attention对264个城市测试集预测结果的MAE制作成图5，而将DF-SPM与消融模型DFA（差异融合分Differential fusion analysis），DF-PM（差异融合预测模型Differential fusion prediction model）对264个城市测试集预测结果的MAE制作成图6。其中，横坐标是264个城市，按照测试集的AQI年均值从小到大排列，纵坐标是MAE值。同时将DFA 、DF-PM、DF-SPM与基准模型RF，CNN-LSTM-Attention的MAE对比统计的结果制作成表3。

基准实验结果：

从图5中可以看出，DF-SPM随着AQI均值增加，所有模型的MAE呈现逐渐增加的趋势，AQI均值较低的城市（左下角矩形框），所有模型的MAE较小，预测精度均较高，且DF-SPM、CNN-LSTM-Attention、RF的MAE从小到大排列；AQI均值较高的城市（右上角矩形框），所有模型的MAE相对较大，预测精度降低，且DF-SPM、CNN-LSTM-Attention、RF的MAE从小到大排列。因此，对于空气质量差异明显地区的AQI预测，DF-SPM有效的融合了RF与CNN-LSTM-Attention显著差异特征，均获得了更高精度的预测，而从总体上看，黑色点（DF-SPM）基本处于所有散点条带的下边缘，从数据上反映，在264个城市中，有186个城市DF-SPM的MAE最小，占比约70.5%，仅有30个城市CLA的MAE误差最小，占比约11.3%，有48个城市RF模型MAE误差最小，占比约18.2%。基准实验表明DF-SPM较基准模型，对全国大多数城市具有更高的预测精度，因此具有更好的适用性。

结合图5，本实施例中观察了DF-SPM与RF、CNN-LSTM-Attention三种模型对分布在八个区域的264个城市的预测效果，对每个区域的三种模型的MAE评估结果区别统计，制作了柱状图（图7）以进一步评估模型性能。横坐标是区域-1到区域-8的空气质量水平差异明显的八个区域，左侧纵轴是城市数目，右侧纵轴是DF-SPM预测MAE最低（结果为最优）城市的占比。不同灰度的柱形分别表示RF、CLA、DF-SPM三种模型预测结果最优的城市数目，圆点为某一区域DF-SPM预测MAE最低（结果为最优）城市的占比。

由图7中8个区域的柱形看出，DF-SPM预测MAE为最低的城市数目均明显多于基准模型RF与CNN-LSTM-Attention的数目，从折线看到8个区域样本城市DF-SPM预测MAE为最低的城市数目占比从62.5%～83.3%，其平均占比为70.5% ，这表明DF-SPM对于不同空气质量水平区域中样本城市的AQI预测，其显著性能具有空间均匀性，进一步验证了DF-SPM对多地区预测具有较高的适用性。

消融实验结果：

从图6中可以看出，DFA、DF-PM、DF-SPM三种模型预测有效的城市数目从少到多排列，结果分别是49、132、264。其原因如下：DFA模型采用了单一阈值搜寻算法，当应用于大量样本城市预测时，不能通过训练成功搜寻到该城市的最佳阈值（最优解），故选择预测结果时只能固定为某单一模型的值。DF-PM模型使用了阈值区间策略，相较于使用单一阈值的DFA模型，选择预测结果更合理有效，一定程度上增加了模型的稳定性，但是该模型未考虑AQI季节分布的特征（先验结果表明不同季节AQI水平差异明显），在全年预测时未做季节性预测，数据集内只有单一阈值区间，导致算法对AQI波动趋势衡量不准确，难以搜寻到最优解，故其也在部分城市中未成功搜寻到相应城市的OTI。因此，针对大量样本城市的预测，DF-SPM模型的有效性明显高于DF-PM和DFA模型。

表3：消融实验——三种模型MAE值统计结果

表3是通过消融实验，DFA、DF-PM、DF-SPM三种模型的预测MAE值的统计结果，在264个样本城市中，DFA、DF-PM、DF-SPM模型有效预测且优于基准模型（MAE小于基准模型）的城市数目分别有27个、88个、186个，占比分别为10.20%、33.33%、70.50%，从该结果对比分析可知，DF-SPM采用最佳阈值区间确定模型选择的策略和根据季节性特征分时区进行预测的方法都取得了显著效果，对于大量的不同城市进行AQI预测，其有效性和准确性显著优于消融模型。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims

1.一种基于组合模型的空气质量指数预测方法，其特征在于，包括以下步骤：

S1、采集历史空气质量数据，并进行预处理；

所述差异融合季节性预测模型包括并列的RF模型和CLA模型；

S2-1、将预处理的数据划分为训练集和测试集；

S2-2、利用训练集对RF模型和CLA模型分别进行训练；

所述步骤S2-5中，确定任一季节的AQI最佳阈值区间的方法为：

当和均在当前阈值区间内时，将作为当前模型预测结果；

当和同时比Up大或比Down小时，将作为当前模型预测结果；

2.根据权利要求1所述的基于组合模型的空气质量指数预测方法，其特征在于，所述步骤S1中污染物项目指标包括CO、NO₂、O₃、PM10、PM2.5和SO₂的每日平均监测浓度数据；

当缺少连续i日的空气质量数据时，将前i日和后i日空气质量数据的平均值X _AVG作为缺失数据X _M；当i=1时，缺失数据X _M=X _AVG/2，当2≤i≤5时，缺失数据X _M=(X _M-1+ X _AVG)/2；其中，，X _P为前i日空气质量数据，X _N为后i日空气质量数据，下标M=n,…,n+i-1，P=n-i,…,n-1，N=n+i,…,n+2i-1。

3.根据权利要求2所述的基于组合模型的空气质量指数预测方法，其特征在于，所述步骤S2中，所述RF模型和CLA模型的输入数据均为前7日的空气质量数据，输出标签为后一日的空气质量指数AQI；

所述LSTM模块用于分析输入时间序列的时间序列特征；

4.根据权利要求3所述的基于组合模型的空气质量指数预测方法，其特征在于，所述CNN模块输出时间序列的公式为：

5.根据权利要求1所述的基于组合模型的空气质量指数预测方法，其特征在于，所述步骤S2-1中，对RF模型或CLA模型进行训练时，将MAE值最小时对应的模型参数作为RF模型或CLA模型的最佳参数；

所述MAE值的计算公式为：

式中，为第i日的AQI实际值，为第i日的AQI预测值。