CN116151469A

CN116151469A - 一种预报空气质量的模型

Info

Publication number: CN116151469A
Application number: CN202310223388.0A
Authority: CN
Inventors: 满超; 云雅如; 温锦辉
Original assignee: Beijing Minghe Environmental Protection Energy Technology Co ltd
Current assignee: Beijing Minghe Environmental Protection Energy Technology Co ltd
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-05-23

Abstract

本发明公开了一种预报空气质量的模型，属于环境空气质量技术领域，具体方法如下：根据污染物的特点与需要预测的时间长度确定输入特征；使用过去若干年的污染物和气象的实测数据，建立各种污染物未来N小时的机器学习预测模型；将机器学习模型部署到服务器，根据输入特征从数据库中获取最近一段时间的污染物和气象实测数据，将其输入到机器学习模型以获得未来N小时的污染物预测值；从第N+1小时开始到所设定的结束时间，使用Prophet算法计算污染物预测值。通过该模型进行空气质量的预测，解决了数值模型的计算量异常巨大，时间过长，稳定性低、普遍性低的劣势；还解决了统计学模型在提高预测准确度和对突发或非常规现象的预测上较为无力的缺点。

Description

一种预报空气质量的模型

技术领域

本发明属于环境空气质量技术领域，具体地说，涉及一种预报空气质量的模型。

背景技术

空气质量模型是基于人类对大气物理和化学过程科学认识的基础上，运用气象学原理及数学方法，从水平和垂直方向在大尺度范围内对空气质量进行仿真模拟，再现污染物在大气中输送、反应、清除等过程的数学工具，是分析大气污染时空演变规律、内在机理、成因来源、建立“污染物减排”与“空气质量改善”间定量关系及推进我国环境规划和管理向定量化、精细化过渡的重要技术方法。

现在能收集到的空气质量预报方法有两种：一种是较为传统的空气质量预测方法，可统称为数值模拟方法，数值方法的核心是以大气动力学、大气环境化学为基础，用数学方法来模拟影响大气污染物的扩散和反应的物理和化学过程。基于输入的气象数据和污染源信息，模拟直接排入大气的一次污染物和由于复杂的化学反应形成的二次污染物，但是，数值模型计算量异常巨大，即使是超级计算机，也需要很长时间，同时大量应用事实证明，数值模型在大空间范围和长时间尺度上更具优势，小尺度、高分辨需要的巨量计算代价成为数据模型最大的劣势；且大气污染物排放源数据的收集也很难做到全面、真实；在大气这个混沌系统中，哪怕是微小的数据偏差也会导致结果的巨大差异，巨大的计算量对硬件的要求极大限制了这种方式的普遍性；另一种是近年来更热门的方法，是以统计学为基础，建立污染物浓度与气象场的联系，从而预测未来一段时间内的空气质量的统计学方法；

上述两种方案需要以大量历史空气质量数据为模型训练基础来提高预测准确度，在训练过程中，数值模型的计算量可能较为巨大，耗费的时间也较长，同时上述方案中空气质量预测的准确度和突发或非常规的预测性能有待进一步提高。

技术方案

为解决上述问题，本发明采用如下的技术方案。

一种预报空气质量的模型，具体如下所示：

步骤一、确定机器学习模型的输入特征：根据不同污染物的特点与需要预测的时间长度，确定输入特征中所需要包含哪些时间段的浓度值，并根据与气象条件的关系，确定输入特征是否需要包含气象数据，此外，所有机器学习模型的输入特征都应包含月份、日期、小时、星期等时间数据；

步骤二、建立机器学习模型：将过去四年的污染物和气象的小时级实测数据划分成训练集和验证集，每种污染物都根据步骤一确定的输入特征，建立机器学习模型，每种污染物模型的个数，与要预测的小时数相同，例如要预测未来8小时的PM_2.5浓度，则需要建立8个模型，每个模型分别用于预测某个具体时间的浓度，每个模型的输入特征有哪些，按照步骤一的方式确定；

步骤三、机器学习预测：将步骤二中得到的机器学习模型部署到服务器，根据污染物的种类与预测的时间长度，确定对应的输入特征有哪些，并按输入特征从数据库中获得数据，对数据进行处理后输入到机器学习模型中，获得未来N个小时的污染物浓度预测值；

步骤四、时间序列预测：使用Prophet算法计算未来若干天的各种污染物预测值；

步骤五、算法整合：将机器学习的预测结果与Prophet的预测结果进行拼接，未来N小时用机器学习的预测结果，从第N+1小时开始使用Prophet的预测结果。

优选地，所述步骤二中建立机器学习模型前，将2018年1月1日1点至2021年12月31日24点的污染物和气象的小时级实测数据按8：2的比例划分训练集与验证集，训练集用于建立机器学习模型，验证集用于验证模型的准确性。

进一步地，所述步骤三中，数据输入到机器学习模型前，需要对缺失值进行填充，具体处理步骤如下：

对于污染物实测值，从数据库中查询的时候是一次性获得过去60个小时的所有实测值，形成一张表，如果是表的第一行和最后一行存在缺失，则用缺失值所在列的平均值进行填充，如果中间存在缺失，则可以通过插值法进行填充；

对于气象数据缺失，则直接使用0填充；

时间数据可以通过程序运行时指定，不存在缺失的情况。

更进一步地，所述机器学习模型包括随机森林模型和梯度提升森林模型。

再进一步地，所述模型对空气质量的预测范围包括PM_2.5、PM₁₀、CO、O₃。

具体实施方式

实施例1：

一种预报空气质量的模型，具体如下所示：

步骤一、确定机器学习模型的输入特征：根据PM_2.5的特点及要预测的时间长度，结合调参实验，得到预测不同时间的模型所需的输入特征(令要预测的时间点为第0小时，例如要预测1小时后的数据，则1小时后为第0时，当前时间为第-1小时)：

模型1(预测1小时后的PM_2.5)的输入特征：第0小时的月、日、时、星期等时间数据，第-1小时的温度、风速、风向角、大气压、湿度等气象数据，第-24h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h、-1h小时的PM_2.5实测值；

模型2(预测2小时后的PM_2.5)的输入特征：第0小时的月、日、时、星期等时间数据，第-2小时的温度、风速、风向角、大气压、湿度等气象数据，第-24h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h小时的PM_2.5实测值；

模型3(预测3小时后的PM_2.5)的输入特征：第0小时的月、日、时、星期等时间数据，第-60h、-48h、-36h、-24h、-23h、-20h、-17h、-14h、-11h、-8h、-5h、-3h、-2h小时的PM_2.5实测值；

模型4(预测4小时后的PM_2.5)的输入特征：第0小时的月、日、时、星期等时间数据，第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h小时的PM_2.5实测值；

模型5(预测5小时后的PM_2.5)的输入特征：第0小时的月、日、时、星期等时间数据，第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h、-5h小时的PM_2.5实测值；

模型6(预测6小时后的PM_2.5)的输入特征：第0小时的月、日、时、星期等时间数据，第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h、-5h、-4h小时的PM_2.5实测值；

模型7(预测7小时后的PM_2.5)的输入特征：第0小时的月、日、时、星期等时间数据，第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h、-5h小时的PM_2.5实测值；

模型8(预测8小时后的PM_2.5)的输入特征：第0小时的月、日、时、星期等时间数据，第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h小时的PM_2.5实测值；

步骤二、建立机器学习模型：将2018年1月1日1点至2021年12月31日24点的污染物和气象的小时级实测数据按8：2的比例划分训练集与验证集，分别从训练集和验证集中，为模型1-8获取对应的输入特征与目标值(PM_2.5的浓度)，建立机器学习模型，模型1-8的参数与评价指标如下：

模型1：包含300棵决策树的随机森林模型，每棵决策树的最大深度为10，在训练集上的R²为0.978，验证集上的R²为0.957；

模型2：包含200棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.958，验证集上的R²为0.921；

模型3：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.962，验证集上的R²为0.906；

模型4：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.946，验证集上的R²为0.868；

模型5：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为8，在训练集上的R²为0.990，验证集上的R²为0.853；

模型6：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为8，在训练集上的R²为0.990，验证集上的R²为0.855；

模型7：包含200棵决策树的随机森林模型，每棵决策树的最大深度为15，在训练集上的R²为0.954，验证集上的R²为0.821；

模型8：包含300棵决策树的随机森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.906，验证集上的R²为0.802；

步骤三、机器学习预测：将步骤二中得到的机器学习模型部署到服务器，从数据库中获取模型1-8对应的输入特征数据，对数据进行处理后(缺失值替换)输入到机器学习模型中，获得未来8个小时的PM_2.5预测值。

后面的模型在计算的时候，可能需要使用模型1和模型2的预测结果作为输入特征，具体如下：模型3输入特征中的第-2小时的PM_2.5实测值由模型1的计算结果得到；模型4输入特征中的第-3小时的PM_2.5实测值由模型1的计算结果得到；模型6输入特征中的第-5h、-4h的PM_2.5实测值分别由模型1和模型2的计算结果得到；模型7输入特征中的第-6h、-5h的PM_2.5实测值分别由模型1和模型2的计算结果得到；模型8输入特征中的第-7h、-6h的PM_2.5实测值分别由模型1和模型2的计算结果得到。

步骤四、时间序列预测：使用Prophet算法计算未来若干天的PM_2.5预测值；

步骤五、算法整合：将机器学习的预测结果与Prophet的预测结果进行拼接，未来8小时用机器学习的预测结果，从第9小时开始使用Prophet的预测结果。

该模型通过Prophet算法做长时间预测，同时使用机器学习算法对未来8小时做精度优化，解决了数值模型的计算量异常巨大，时间过长，稳定性低、普遍性低的劣势；还解决了统计学模型在提高预测准确度和对突发或非常规现象的预测上较为无力的缺点。

实施例2：

一种预报空气质量的模型，具体如下所示：

步骤一、确定机器学习模型的输入特征：根据PM₁₀的特点及要预测的时间长度，结合调参实验，得到预测不同时间的模型所需的输入特征(令要预测的时间点为第0小时，例如要预测1小时后的数据，则1小时后为第0时，当前时间为第-1小时)：

模型1(预测1小时后的PM₁₀)的输入特征：第0小时的月、日、时、星期等时间数据，第-1小时的温度、风速、风向角、大气压、湿度等气象数据，第-24h、-1h小时的PM₁₀实测值；

模型2(预测2小时后的PM₁₀)的输入特征：第0小时的月、日、时、星期等时间数据，第-2小时的温度、风速、风向角、大气压、湿度等气象数据，第-24h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h、-1h小时的PM₁₀实测值；

模型3(预测3小时后的PM₁₀)的输入特征：第0小时的月、日、时、星期等时间数据，第-60h、-48h、-36h、-24h、-23h、-20h、-17h、-14h、-11h、-8h、-5h、-3h、-2h小时的PM₁₀实测值；

模型4(预测4小时后的PM₁₀)的输入特征：第0小时的月、日、时、星期等时间数据，第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h小时的PM₁₀实测值；

模型5(预测5小时后的PM₁₀)的输入特征：第0小时的月、日、时、星期等时间数据，第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h小时的PM₁₀实测值；

步骤二、建立机器学习模型：将2018年1月1日1点至2021年12月31日24点的污染物和气象的小时级实测数据按8：2的比例划分训练集与验证集，分别从训练集和验证集中，为模型1-5获取对应的输入特征与目标值(PM₁₀的浓度)，建立机器学习模型，模型1-5的参数与评价指标如下：

模型1：包含200棵决策树的梯度提升森林模型，每棵决策树的最大深度为7，在训练集上的R²为0.976，验证集上的R²为0.938；

模型2：包含200棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.965，验证集上的R²为0.928；

模型3：包含200棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.916，验证集上的R²为0.868；

模型4：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为6，在训练集上的R²为0.938，验证集上的R²为0.833；

模型5：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为6，在训练集上的R²为0.938，验证集上的R²为0.833；

模型4与模型5为同一模型，因此R²相同，但部署后模型5输入的数据比模型4整体滞后一个小时。

步骤三、机器学习预测：将步骤二中得到的机器学习模型部署到服务器，从数据库中获取模型1-5对应的输入特征数据，对数据进行处理后(缺失值替换)输入到机器学习模型中，获得未来5个小时的PM₁₀预测值。

后面的模型在计算的时候，可能需要使用模型1和模型2的预测结果作为输入特征，具体如下：模型2输入特征中的第-1小时的PM₁₀实测值由模型1的计算结果得到；模型3输入特征中的第-2小时的PM₁₀实测值由模型1的计算结果得到；模型4输入特征中的第-3小时的PM₁₀实测值由模型1的计算结果得到；模型5输入特征中的第-4、-3小时的PM₁₀实测值分别由模型1和模型2的计算结果得到。

步骤四、时间序列预测：使用Prophet算法计算未来若干天的PM₁₀预测值；

步骤五、算法整合：将机器学习的预测结果与Prophet的预测结果进行拼接，未来5小时用机器学习的预测结果，第6、8、7共三个小时的PM₁₀预测数据，使用PM_2.5的预测结果乘以系数1.5得到，从第9小时开始使用Prophet的PM₁₀预测结果。

该模型通过Prophet算法做长时间预测，同时使用机器学习算法对未来5小时做精度优化，第6、7、8小时使用PM_2.5的预测结果乘以系数1.5以防止PM_2.5与PM₁₀产生数据倒挂，解决了数值模型的计算量异常巨大，时间过长，稳定性低、普遍性低的劣势；还解决了统计学模型在提高预测准确度和对突发或非常规现象的预测上较为无力的缺点。

实施例3：

一种预报空气质量的模型，具体如下所示：

步骤一、确定机器学习模型的输入特征：根据CO的特点及要预测的时间长度，结合调参实验，得到预测不同时间的模型所需的输入特征(令要预测的时间点为第0小时，例如要预测1小时后的数据，则1小时后为第0时，当前时间为第-1小时)：

模型1(预测1小时后的CO)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h、-1h小时的CO实测值；

模型2(预测2小时后的CO)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h小时的CO实测值；

模型3(预测3小时后的CO)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h小时的CO实测值；

模型4(预测4小时后的CO)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h小时的CO实测值；

模型5(预测5小时后的CO)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h小时的CO实测值；

步骤二、建立机器学习模型：将2018年1月1日1点至2021年12月31日24点的污染物和气象的小时级实测数据按8：2的比例划分训练集与验证集，分别从训练集和验证集中，为模型1-5获取对应的输入特征与目标值(CO的浓度)，建立机器学习模型，模型1-5的参数与评价指标如下：

模型1：包含300棵决策树的随机森林模型，每棵决策树的最大深度为8，在训练集上的R²为0.916，验证集上的R²为0.881；

模型2：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为8，在训练集上的R²为0.978，验证集上的R²为0.773；

模型3：包含100棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.772，验证集上的R²为0.680；

模型4：包含100棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.716，验证集上的R²为0.631；

模型5：包含100棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.683，验证集上的R²为0.570；

步骤三、机器学习预测：将步骤二中得到的机器学习模型部署到服务器，从数据库中获取模型1-5对应的输入特征数据，对数据进行处理后(缺失值替换)输入到机器学习模型中，获得未来5个小时的CO预测值。

步骤四、时间序列预测：使用Prophet算法计算未来若干天的CO预测值；

步骤五、算法整合：将机器学习的预测结果与Prophet的预测结果进行拼接，未来5小时用机器学习的预测结果，从第6小时开始使用Prophet的预测结果。

该模型通过Prophet算法做长时间预测，同时使用机器学习算法对未来5小时做精度优化，解决了数值模型的计算量异常巨大，时间过长，稳定性低、普遍性低的劣势；还解决了统计学模型在提高预测准确度和对突发或非常规现象的预测上较为无力的缺点。

实施例4：

一种预报空气质量的模型，具体如下所示：

步骤一、确定机器学习模型的输入特征：根据O₃的特点及要预测的时间长度，结合调参实验，得到预测不同时间的模型所需的输入特征(令要预测的时间点为第0小时，例如要预测1小时后的数据，则1小时后为第0时，当前时间为第-1小时)：

模型1(预测1小时后的O₃)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h、-1h小时的O₃实测值；

模型2(预测2小时后的O₃)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h小时的O₃实测值；

模型3(预测3小时后的O₃)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h小时的O₃实测值；

模型4(预测4小时后的O₃)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h小时的O₃实测值；

模型5(预测5小时后的O₃)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h小时的O₃实测值；

模型6(预测6小时后的O₃)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h小时的O₃实测值；

模型7(预测7小时后的O₃)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h小时的O₃实测值；

模型8(预测8小时后的O₃)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h小时的O₃实测值；

模型9(预测9小时后的O₃)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h小时的O₃实测值；

模型10(预测10小时后的O₃)的输入特征：第0小时的月、日、时、星期等时间数据，第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h小时的O₃实测值；

步骤二、建立机器学习模型：将2018年1月1日1点至2021年12月31日24点的污染物和气象的小时级实测数据按8：2的比例划分训练集与验证集，分别从训练集和验证集中，为模型1-10获取对应的输入特征与目标值(O₃的浓度)，建立机器学习模型，模型1-10的参数与评价指标如下：

模型1：包含300棵决策树的随机森林模型，每棵决策树的最大深度为8，在训练集上的R²为0.967，验证集上的R²为0.961；

模型2：包含300棵决策树的随机森林模型，每棵决策树的最大深度为8，在训练集上的R²为0.917，验证集上的R²为0.895；

模型3：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.916，验证集上的R²为0.872；

模型4：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.895，验证集上的R²为0.838；

模型5：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.877，验证集上的R²为0.809；

模型6：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.865，验证集上的R²为0.799；

模型7：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.852，验证集上的R²为0.789；

模型8：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.844，验证集上的R²为0.776；

模型9：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.835，验证集上的R²为0.765；

模型10：包含300棵决策树的梯度提升森林模型，每棵决策树的最大深度为5，在训练集上的R²为0.835，验证集上的R²为0.765；

模型9与模型10为同一模型，因此R²相同，但部署后模型10输入的数据比模型9整体滞后一个小时。

步骤三、机器学习预测：将步骤二中得到的机器学习模型部署到服务器，从数据库中获取模型1-10对应的输入特征数据，对数据进行处理后(缺失值替换)输入到机器学习模型中，获得未来10个小时的O₃预测值；另外，模型10在计算的时候，其输入特征中的第-9小时的O₃实测值由模型1的计算结果得到。

步骤四、时间序列预测：使用Prophet算法计算未来若干天的O₃预测值；

步骤五、算法整合：将机器学习的预测结果与Prophet的预测结果进行拼接，未来10小时用机器学习的预测结果，从第11小时开始使用Prophet的预测结果。

该模型通过Prophet算法做长时间预测，同时使用机器学习算法对未来10小时做精度优化，解决了数值模型的计算量异常巨大，时间过长，稳定性低、普遍性低的劣势；还解决了统计学模型在提高预测准确度和对突发或非常规现象的预测上较为无力的缺点。

Claims

1.一种预报空气质量的模型，其特征在于，具体如下所示：

步骤二、建立机器学习模型：将过去四年的污染物和气象的小时级实测数据划分成训练集和验证集，每种污染物都根据步骤一确定的输入特征，建立机器学习模型，每种污染物模型的个数，与要预测的小时数相同，例如要预测未来8小时的PM_2.5浓度，则需要建立8个模型，每个模型分别用于预测某个具体时间的浓度，每个模型的输入特征按照步骤一的方式确定；

2.根据权利要求1所述的一种预报空气质量的模型，其特征在于：所述步骤二中建立机器学习模型前，将2018年1月1日1点至2021年12月31日24点的污染物和气象的小时级实测数据按8：2的比例划分训练集与验证集，训练集用于建立机器学习模型，验证集用于验证模型的准确性。

3.根据权利要求2所述的一种预报空气质量的模型，其特征在于：所述步骤三中，数据输入到机器学习模型前，需要对缺失值进行填充，具体处理步骤如下：

对于污染物实测值，从数据库中一次性获得过去60个小时的所有实测值，并形成一张表，当表的第一行和最后一行存在缺失，则用缺失值所在列的平均值进行填充，当中间存在缺失，则可以通过插值法进行填充；

对于气象数据缺失，则直接使用0填充；

时间数据可以通过程序运行时指定，不存在缺失的情况。

4.根据权利要求3所述的一种预报空气质量的模型，其特征在于：所述机器学习模型包括随机森林模型和梯度提升森林模型。

5.根据权利要求4所述的一种预报空气质量的模型，其特征在于：所述模型对空气质量的预测范围包括PM_2.5、PM₁₀、CO、O₃。