CN116151469A - 一种预报空气质量的模型 - Google Patents
一种预报空气质量的模型 Download PDFInfo
- Publication number
- CN116151469A CN116151469A CN202310223388.0A CN202310223388A CN116151469A CN 116151469 A CN116151469 A CN 116151469A CN 202310223388 A CN202310223388 A CN 202310223388A CN 116151469 A CN116151469 A CN 116151469A
- Authority
- CN
- China
- Prior art keywords
- model
- machine learning
- predicted
- data
- hours
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开了一种预报空气质量的模型,属于环境空气质量技术领域,具体方法如下:根据污染物的特点与需要预测的时间长度确定输入特征;使用过去若干年的污染物和气象的实测数据,建立各种污染物未来N小时的机器学习预测模型;将机器学习模型部署到服务器,根据输入特征从数据库中获取最近一段时间的污染物和气象实测数据,将其输入到机器学习模型以获得未来N小时的污染物预测值;从第N+1小时开始到所设定的结束时间,使用Prophet算法计算污染物预测值。通过该模型进行空气质量的预测,解决了数值模型的计算量异常巨大,时间过长,稳定性低、普遍性低的劣势;还解决了统计学模型在提高预测准确度和对突发或非常规现象的预测上较为无力的缺点。
Description
技术领域
本发明属于环境空气质量技术领域,具体地说,涉及一种预报空气质量的模型。
背景技术
空气质量模型是基于人类对大气物理和化学过程科学认识的基础上,运用气象学原理及数学方法,从水平和垂直方向在大尺度范围内对空气质量进行仿真模拟,再现污染物在大气中输送、反应、清除等过程的数学工具,是分析大气污染时空演变规律、内在机理、成因来源、建立“污染物减排”与“空气质量改善”间定量关系及推进我国环境规划和管理向定量化、精细化过渡的重要技术方法。
现在能收集到的空气质量预报方法有两种:一种是较为传统的空气质量预测方法,可统称为数值模拟方法,数值方法的核心是以大气动力学、大气环境化学为基础,用数学方法来模拟影响大气污染物的扩散和反应的物理和化学过程。基于输入的气象数据和污染源信息,模拟直接排入大气的一次污染物和由于复杂的化学反应形成的二次污染物,但是,数值模型计算量异常巨大,即使是超级计算机,也需要很长时间,同时大量应用事实证明,数值模型在大空间范围和长时间尺度上更具优势,小尺度、高分辨需要的巨量计算代价成为数据模型最大的劣势;且大气污染物排放源数据的收集也很难做到全面、真实;在大气这个混沌系统中,哪怕是微小的数据偏差也会导致结果的巨大差异,巨大的计算量对硬件的要求极大限制了这种方式的普遍性;另一种是近年来更热门的方法,是以统计学为基础,建立污染物浓度与气象场的联系,从而预测未来一段时间内的空气质量的统计学方法;
上述两种方案需要以大量历史空气质量数据为模型训练基础来提高预测准确度,在训练过程中,数值模型的计算量可能较为巨大,耗费的时间也较长,同时上述方案中空气质量预测的准确度和突发或非常规的预测性能有待进一步提高。
技术方案
为解决上述问题,本发明采用如下的技术方案。
一种预报空气质量的模型,具体如下所示:
步骤一、确定机器学习模型的输入特征:根据不同污染物的特点与需要预测的时间长度,确定输入特征中所需要包含哪些时间段的浓度值,并根据与气象条件的关系,确定输入特征是否需要包含气象数据,此外,所有机器学习模型的输入特征都应包含月份、日期、小时、星期等时间数据;
步骤二、建立机器学习模型:将过去四年的污染物和气象的小时级实测数据划分成训练集和验证集,每种污染物都根据步骤一确定的输入特征,建立机器学习模型,每种污染物模型的个数,与要预测的小时数相同,例如要预测未来8小时的PM2.5浓度,则需要建立8个模型,每个模型分别用于预测某个具体时间的浓度,每个模型的输入特征有哪些,按照步骤一的方式确定;
步骤三、机器学习预测:将步骤二中得到的机器学习模型部署到服务器,根据污染物的种类与预测的时间长度,确定对应的输入特征有哪些,并按输入特征从数据库中获得数据,对数据进行处理后输入到机器学习模型中,获得未来N个小时的污染物浓度预测值;
步骤四、时间序列预测:使用Prophet算法计算未来若干天的各种污染物预测值;
步骤五、算法整合:将机器学习的预测结果与Prophet的预测结果进行拼接,未来N小时用机器学习的预测结果,从第N+1小时开始使用Prophet的预测结果。
优选地,所述步骤二中建立机器学习模型前,将2018年1月1日1点至2021年12月31日24点的污染物和气象的小时级实测数据按8:2的比例划分训练集与验证集,训练集用于建立机器学习模型,验证集用于验证模型的准确性。
进一步地,所述步骤三中,数据输入到机器学习模型前,需要对缺失值进行填充,具体处理步骤如下:
对于污染物实测值,从数据库中查询的时候是一次性获得过去60个小时的所有实测值,形成一张表,如果是表的第一行和最后一行存在缺失,则用缺失值所在列的平均值进行填充,如果中间存在缺失,则可以通过插值法进行填充;
对于气象数据缺失,则直接使用0填充;
时间数据可以通过程序运行时指定,不存在缺失的情况。
更进一步地,所述机器学习模型包括随机森林模型和梯度提升森林模型。
再进一步地,所述模型对空气质量的预测范围包括PM2.5、PM10、CO、O3。
具体实施方式
实施例1:
一种预报空气质量的模型,具体如下所示:
步骤一、确定机器学习模型的输入特征:根据PM2.5的特点及要预测的时间长度,结合调参实验,得到预测不同时间的模型所需的输入特征(令要预测的时间点为第0小时,例如要预测1小时后的数据,则1小时后为第0时,当前时间为第-1小时):
模型1(预测1小时后的PM2.5)的输入特征:第0小时的月、日、时、星期等时间数据,第-1小时的温度、风速、风向角、大气压、湿度等气象数据,第-24h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h、-1h小时的PM2.5实测值;
模型2(预测2小时后的PM2.5)的输入特征:第0小时的月、日、时、星期等时间数据,第-2小时的温度、风速、风向角、大气压、湿度等气象数据,第-24h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h小时的PM2.5实测值;
模型3(预测3小时后的PM2.5)的输入特征:第0小时的月、日、时、星期等时间数据,第-60h、-48h、-36h、-24h、-23h、-20h、-17h、-14h、-11h、-8h、-5h、-3h、-2h小时的PM2.5实测值;
模型4(预测4小时后的PM2.5)的输入特征:第0小时的月、日、时、星期等时间数据,第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h小时的PM2.5实测值;
模型5(预测5小时后的PM2.5)的输入特征:第0小时的月、日、时、星期等时间数据,第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h、-5h小时的PM2.5实测值;
模型6(预测6小时后的PM2.5)的输入特征:第0小时的月、日、时、星期等时间数据,第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h、-5h、-4h小时的PM2.5实测值;
模型7(预测7小时后的PM2.5)的输入特征:第0小时的月、日、时、星期等时间数据,第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h、-5h小时的PM2.5实测值;
模型8(预测8小时后的PM2.5)的输入特征:第0小时的月、日、时、星期等时间数据,第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h小时的PM2.5实测值;
步骤二、建立机器学习模型:将2018年1月1日1点至2021年12月31日24点的污染物和气象的小时级实测数据按8:2的比例划分训练集与验证集,分别从训练集和验证集中,为模型1-8获取对应的输入特征与目标值(PM2.5的浓度),建立机器学习模型,模型1-8的参数与评价指标如下:
模型1:包含300棵决策树的随机森林模型,每棵决策树的最大深度为10,在训练集上的R2为0.978,验证集上的R2为0.957;
模型2:包含200棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.958,验证集上的R2为0.921;
模型3:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.962,验证集上的R2为0.906;
模型4:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.946,验证集上的R2为0.868;
模型5:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为8,在训练集上的R2为0.990,验证集上的R2为0.853;
模型6:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为8,在训练集上的R2为0.990,验证集上的R2为0.855;
模型7:包含200棵决策树的随机森林模型,每棵决策树的最大深度为15,在训练集上的R2为0.954,验证集上的R2为0.821;
模型8:包含300棵决策树的随机森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.906,验证集上的R2为0.802;
步骤三、机器学习预测:将步骤二中得到的机器学习模型部署到服务器,从数据库中获取模型1-8对应的输入特征数据,对数据进行处理后(缺失值替换)输入到机器学习模型中,获得未来8个小时的PM2.5预测值。
后面的模型在计算的时候,可能需要使用模型1和模型2的预测结果作为输入特征,具体如下:模型3输入特征中的第-2小时的PM2.5实测值由模型1的计算结果得到;模型4输入特征中的第-3小时的PM2.5实测值由模型1的计算结果得到;模型6输入特征中的第-5h、-4h的PM2.5实测值分别由模型1和模型2的计算结果得到;模型7输入特征中的第-6h、-5h的PM2.5实测值分别由模型1和模型2的计算结果得到;模型8输入特征中的第-7h、-6h的PM2.5实测值分别由模型1和模型2的计算结果得到。
步骤四、时间序列预测:使用Prophet算法计算未来若干天的PM2.5预测值;
步骤五、算法整合:将机器学习的预测结果与Prophet的预测结果进行拼接,未来8小时用机器学习的预测结果,从第9小时开始使用Prophet的预测结果。
该模型通过Prophet算法做长时间预测,同时使用机器学习算法对未来8小时做精度优化,解决了数值模型的计算量异常巨大,时间过长,稳定性低、普遍性低的劣势;还解决了统计学模型在提高预测准确度和对突发或非常规现象的预测上较为无力的缺点。
实施例2:
一种预报空气质量的模型,具体如下所示:
步骤一、确定机器学习模型的输入特征:根据PM10的特点及要预测的时间长度,结合调参实验,得到预测不同时间的模型所需的输入特征(令要预测的时间点为第0小时,例如要预测1小时后的数据,则1小时后为第0时,当前时间为第-1小时):
模型1(预测1小时后的PM10)的输入特征:第0小时的月、日、时、星期等时间数据,第-1小时的温度、风速、风向角、大气压、湿度等气象数据,第-24h、-1h小时的PM10实测值;
模型2(预测2小时后的PM10)的输入特征:第0小时的月、日、时、星期等时间数据,第-2小时的温度、风速、风向角、大气压、湿度等气象数据,第-24h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h、-1h小时的PM10实测值;
模型3(预测3小时后的PM10)的输入特征:第0小时的月、日、时、星期等时间数据,第-60h、-48h、-36h、-24h、-23h、-20h、-17h、-14h、-11h、-8h、-5h、-3h、-2h小时的PM10实测值;
模型4(预测4小时后的PM10)的输入特征:第0小时的月、日、时、星期等时间数据,第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h小时的PM10实测值;
模型5(预测5小时后的PM10)的输入特征:第0小时的月、日、时、星期等时间数据,第-60h、-48h、-36h、-24h、-23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h小时的PM10实测值;
步骤二、建立机器学习模型:将2018年1月1日1点至2021年12月31日24点的污染物和气象的小时级实测数据按8:2的比例划分训练集与验证集,分别从训练集和验证集中,为模型1-5获取对应的输入特征与目标值(PM10的浓度),建立机器学习模型,模型1-5的参数与评价指标如下:
模型1:包含200棵决策树的梯度提升森林模型,每棵决策树的最大深度为7,在训练集上的R2为0.976,验证集上的R2为0.938;
模型2:包含200棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.965,验证集上的R2为0.928;
模型3:包含200棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.916,验证集上的R2为0.868;
模型4:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为6,在训练集上的R2为0.938,验证集上的R2为0.833;
模型5:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为6,在训练集上的R2为0.938,验证集上的R2为0.833;
模型4与模型5为同一模型,因此R2相同,但部署后模型5输入的数据比模型4整体滞后一个小时。
步骤三、机器学习预测:将步骤二中得到的机器学习模型部署到服务器,从数据库中获取模型1-5对应的输入特征数据,对数据进行处理后(缺失值替换)输入到机器学习模型中,获得未来5个小时的PM10预测值。
后面的模型在计算的时候,可能需要使用模型1和模型2的预测结果作为输入特征,具体如下:模型2输入特征中的第-1小时的PM10实测值由模型1的计算结果得到;模型3输入特征中的第-2小时的PM10实测值由模型1的计算结果得到;模型4输入特征中的第-3小时的PM10实测值由模型1的计算结果得到;模型5输入特征中的第-4、-3小时的PM10实测值分别由模型1和模型2的计算结果得到。
步骤四、时间序列预测:使用Prophet算法计算未来若干天的PM10预测值;
步骤五、算法整合:将机器学习的预测结果与Prophet的预测结果进行拼接,未来5小时用机器学习的预测结果,第6、8、7共三个小时的PM10预测数据,使用PM2.5的预测结果乘以系数1.5得到,从第9小时开始使用Prophet的PM10预测结果。
该模型通过Prophet算法做长时间预测,同时使用机器学习算法对未来5小时做精度优化,第6、7、8小时使用PM2.5的预测结果乘以系数1.5以防止PM2.5与PM10产生数据倒挂,解决了数值模型的计算量异常巨大,时间过长,稳定性低、普遍性低的劣势;还解决了统计学模型在提高预测准确度和对突发或非常规现象的预测上较为无力的缺点。
实施例3:
一种预报空气质量的模型,具体如下所示:
步骤一、确定机器学习模型的输入特征:根据CO的特点及要预测的时间长度,结合调参实验,得到预测不同时间的模型所需的输入特征(令要预测的时间点为第0小时,例如要预测1小时后的数据,则1小时后为第0时,当前时间为第-1小时):
模型1(预测1小时后的CO)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h、-1h小时的CO实测值;
模型2(预测2小时后的CO)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h小时的CO实测值;
模型3(预测3小时后的CO)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h小时的CO实测值;
模型4(预测4小时后的CO)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h小时的CO实测值;
模型5(预测5小时后的CO)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h小时的CO实测值;
步骤二、建立机器学习模型:将2018年1月1日1点至2021年12月31日24点的污染物和气象的小时级实测数据按8:2的比例划分训练集与验证集,分别从训练集和验证集中,为模型1-5获取对应的输入特征与目标值(CO的浓度),建立机器学习模型,模型1-5的参数与评价指标如下:
模型1:包含300棵决策树的随机森林模型,每棵决策树的最大深度为8,在训练集上的R2为0.916,验证集上的R2为0.881;
模型2:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为8,在训练集上的R2为0.978,验证集上的R2为0.773;
模型3:包含100棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.772,验证集上的R2为0.680;
模型4:包含100棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.716,验证集上的R2为0.631;
模型5:包含100棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.683,验证集上的R2为0.570;
步骤三、机器学习预测:将步骤二中得到的机器学习模型部署到服务器,从数据库中获取模型1-5对应的输入特征数据,对数据进行处理后(缺失值替换)输入到机器学习模型中,获得未来5个小时的CO预测值。
步骤四、时间序列预测:使用Prophet算法计算未来若干天的CO预测值;
步骤五、算法整合:将机器学习的预测结果与Prophet的预测结果进行拼接,未来5小时用机器学习的预测结果,从第6小时开始使用Prophet的预测结果。
该模型通过Prophet算法做长时间预测,同时使用机器学习算法对未来5小时做精度优化,解决了数值模型的计算量异常巨大,时间过长,稳定性低、普遍性低的劣势;还解决了统计学模型在提高预测准确度和对突发或非常规现象的预测上较为无力的缺点。
实施例4:
一种预报空气质量的模型,具体如下所示:
步骤一、确定机器学习模型的输入特征:根据O3的特点及要预测的时间长度,结合调参实验,得到预测不同时间的模型所需的输入特征(令要预测的时间点为第0小时,例如要预测1小时后的数据,则1小时后为第0时,当前时间为第-1小时):
模型1(预测1小时后的O3)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h、-1h小时的O3实测值;
模型2(预测2小时后的O3)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h、-2h小时的O3实测值;
模型3(预测3小时后的O3)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h、-3h小时的O3实测值;
模型4(预测4小时后的O3)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h、-4h小时的O3实测值;
模型5(预测5小时后的O3)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h、-5h小时的O3实测值;
模型6(预测6小时后的O3)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h、-6h小时的O3实测值;
模型7(预测7小时后的O3)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h、-7h小时的O3实测值;
模型8(预测8小时后的O3)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h、-8h小时的O3实测值;
模型9(预测9小时后的O3)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h小时的O3实测值;
模型10(预测10小时后的O3)的输入特征:第0小时的月、日、时、星期等时间数据,第-30h、-29h、-28h、-27h、-26h、-25h、-24h、23h、-22h、-21h、-20h、-19h、-18h、-17h、-16h、-15h、-14h、-13h、-12h、-11h、-10h、-9h小时的O3实测值;
步骤二、建立机器学习模型:将2018年1月1日1点至2021年12月31日24点的污染物和气象的小时级实测数据按8:2的比例划分训练集与验证集,分别从训练集和验证集中,为模型1-10获取对应的输入特征与目标值(O3的浓度),建立机器学习模型,模型1-10的参数与评价指标如下:
模型1:包含300棵决策树的随机森林模型,每棵决策树的最大深度为8,在训练集上的R2为0.967,验证集上的R2为0.961;
模型2:包含300棵决策树的随机森林模型,每棵决策树的最大深度为8,在训练集上的R2为0.917,验证集上的R2为0.895;
模型3:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.916,验证集上的R2为0.872;
模型4:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.895,验证集上的R2为0.838;
模型5:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.877,验证集上的R2为0.809;
模型6:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.865,验证集上的R2为0.799;
模型7:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.852,验证集上的R2为0.789;
模型8:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.844,验证集上的R2为0.776;
模型9:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.835,验证集上的R2为0.765;
模型10:包含300棵决策树的梯度提升森林模型,每棵决策树的最大深度为5,在训练集上的R2为0.835,验证集上的R2为0.765;
模型9与模型10为同一模型,因此R2相同,但部署后模型10输入的数据比模型9整体滞后一个小时。
步骤三、机器学习预测:将步骤二中得到的机器学习模型部署到服务器,从数据库中获取模型1-10对应的输入特征数据,对数据进行处理后(缺失值替换)输入到机器学习模型中,获得未来10个小时的O3预测值;另外,模型10在计算的时候,其输入特征中的第-9小时的O3实测值由模型1的计算结果得到。
步骤四、时间序列预测:使用Prophet算法计算未来若干天的O3预测值;
步骤五、算法整合:将机器学习的预测结果与Prophet的预测结果进行拼接,未来10小时用机器学习的预测结果,从第11小时开始使用Prophet的预测结果。
该模型通过Prophet算法做长时间预测,同时使用机器学习算法对未来10小时做精度优化,解决了数值模型的计算量异常巨大,时间过长,稳定性低、普遍性低的劣势;还解决了统计学模型在提高预测准确度和对突发或非常规现象的预测上较为无力的缺点。
Claims (5)
1.一种预报空气质量的模型,其特征在于,具体如下所示:
步骤一、确定机器学习模型的输入特征:根据不同污染物的特点与需要预测的时间长度,确定输入特征中所需要包含哪些时间段的浓度值,并根据与气象条件的关系,确定输入特征是否需要包含气象数据,此外,所有机器学习模型的输入特征都应包含月份、日期、小时、星期等时间数据;
步骤二、建立机器学习模型:将过去四年的污染物和气象的小时级实测数据划分成训练集和验证集,每种污染物都根据步骤一确定的输入特征,建立机器学习模型,每种污染物模型的个数,与要预测的小时数相同,例如要预测未来8小时的PM2.5浓度,则需要建立8个模型,每个模型分别用于预测某个具体时间的浓度,每个模型的输入特征按照步骤一的方式确定;
步骤三、机器学习预测:将步骤二中得到的机器学习模型部署到服务器,根据污染物的种类与预测的时间长度,确定对应的输入特征有哪些,并按输入特征从数据库中获得数据,对数据进行处理后输入到机器学习模型中,获得未来N个小时的污染物浓度预测值;
步骤四、时间序列预测:使用Prophet算法计算未来若干天的各种污染物预测值;
步骤五、算法整合:将机器学习的预测结果与Prophet的预测结果进行拼接,未来N小时用机器学习的预测结果,从第N+1小时开始使用Prophet的预测结果。
2.根据权利要求1所述的一种预报空气质量的模型,其特征在于:所述步骤二中建立机器学习模型前,将2018年1月1日1点至2021年12月31日24点的污染物和气象的小时级实测数据按8:2的比例划分训练集与验证集,训练集用于建立机器学习模型,验证集用于验证模型的准确性。
3.根据权利要求2所述的一种预报空气质量的模型,其特征在于:所述步骤三中,数据输入到机器学习模型前,需要对缺失值进行填充,具体处理步骤如下:
对于污染物实测值,从数据库中一次性获得过去60个小时的所有实测值,并形成一张表,当表的第一行和最后一行存在缺失,则用缺失值所在列的平均值进行填充,当中间存在缺失,则可以通过插值法进行填充;
对于气象数据缺失,则直接使用0填充;
时间数据可以通过程序运行时指定,不存在缺失的情况。
4.根据权利要求3所述的一种预报空气质量的模型,其特征在于:所述机器学习模型包括随机森林模型和梯度提升森林模型。
5.根据权利要求4所述的一种预报空气质量的模型,其特征在于:所述模型对空气质量的预测范围包括PM2.5、PM10、CO、O3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310223388.0A CN116151469A (zh) | 2023-03-09 | 2023-03-09 | 一种预报空气质量的模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310223388.0A CN116151469A (zh) | 2023-03-09 | 2023-03-09 | 一种预报空气质量的模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116151469A true CN116151469A (zh) | 2023-05-23 |
Family
ID=86361881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310223388.0A Pending CN116151469A (zh) | 2023-03-09 | 2023-03-09 | 一种预报空气质量的模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116151469A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117291319A (zh) * | 2023-11-27 | 2023-12-26 | 新禾数字科技(无锡)有限公司 | 一种基于机器学习的o3余量预测方法 |
-
2023
- 2023-03-09 CN CN202310223388.0A patent/CN116151469A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117291319A (zh) * | 2023-11-27 | 2023-12-26 | 新禾数字科技(无锡)有限公司 | 一种基于机器学习的o3余量预测方法 |
CN117291319B (zh) * | 2023-11-27 | 2024-02-20 | 新禾数字科技(无锡)有限公司 | 一种基于机器学习的o3余量预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674604B (zh) | 基于多维时序帧卷积lstm的变压器dga数据预测方法 | |
CN106022521B (zh) | 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法 | |
CN111563706A (zh) | 一种基于lstm网络的多变量物流货运量预测方法 | |
CN109920248B (zh) | 一种基于gru神经网络的公交到站时间预测方法 | |
CN107346459B (zh) | 一种基于遗传算法改进的多模式污染物集成预报方法 | |
CN114742460B (zh) | 一种确定待管控企业的方法、装置、电子设备及存储介质 | |
CN111639783A (zh) | 一种基于lstm神经网络的线损预测方法及系统 | |
CN111127246A (zh) | 一种输电线路工程造价的智能预测方法 | |
CN110261547B (zh) | 一种空气质量预报方法和设备 | |
CN112381673B (zh) | 一种基于数字孪生的园区用电信息分析方法及装置 | |
CN112884236B (zh) | 一种基于vdm分解与lstm改进的短期负荷预测方法及系统 | |
CN116151469A (zh) | 一种预报空气质量的模型 | |
CN112991091A (zh) | 一种基于Stacking算法的短期电力负荷预测方法及装置 | |
CN115860214A (zh) | 一种pm2.5排放浓度的预警方法和装置 | |
Chen et al. | Proactive quality control: Observing system simulation experiments with the Lorenz’96 model | |
CN110807508A (zh) | 计及复杂气象影响的母线峰值负荷预测方法 | |
Tong et al. | Research on a grey prediction model of population growth based on a logistic approach | |
CN117543544A (zh) | 一种负荷预测方法、装置、设备及存储介质 | |
CN116861256A (zh) | 一种固废焚烧过程的炉温预测方法、系统、设备及介质 | |
CN112101612A (zh) | 一种城镇燃气用量的预测方法、存储介质及终端设备 | |
CN116316600A (zh) | 基于季节分型的面向风电功率日前预测自适应滤波方法 | |
CN110648023A (zh) | 基于二次指数平滑改进gm(1,1)的数据预测模型的建立方法 | |
CN114741972A (zh) | 一种空气污染物浓度季节性预测模型的构建方法 | |
CN112581311B (zh) | 一种多风电场聚合后出力长期波动特性预测方法及系统 | |
CN109447231A (zh) | 蚁群算法求解共享经济背景下多属性双边匹配问题的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |