CN109116444A - 基于PCA-kNN的空气质量模式PM2.5预报方法 - Google Patents
基于PCA-kNN的空气质量模式PM2.5预报方法 Download PDFInfo
- Publication number
- CN109116444A CN109116444A CN201810774695.7A CN201810774695A CN109116444A CN 109116444 A CN109116444 A CN 109116444A CN 201810774695 A CN201810774695 A CN 201810774695A CN 109116444 A CN109116444 A CN 109116444A
- Authority
- CN
- China
- Prior art keywords
- data
- knn
- training
- model
- pca
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/10—Devices for predicting weather conditions
Landscapes
- Environmental & Geological Engineering (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Atmospheric Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Ecology (AREA)
- Environmental Sciences (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及气象技术领域,基于PCA‑kNN的空气质量模式PM2.5预报方法,包括以下步骤:(1)、样本数据收集;(2)、数据质量控制;(3)、标准化及PCA处理;(4)、将训练数据分成训练集、验证集、测试集;(5)、训练kNN模型,参数优化;(6)、基于待订正的模式产品得出订正预报。本发明有效提高了空气质量PM2.5预报的精度和准确度。
Description
技术领域
本发明涉及气象技术领域,具体是指基于PCA-kNN的空气质量模式PM2.5预报方法。
背景技术
主成分分析(PCA)最初是由Pearson(1901)在非随机变量的讨论中介绍的,后来由Hotelling(1933)扩展到随机变量[22-24]。PCA的目的是将相关性较强的多维变量转化为彼此不相关的新变量。PCA方法的优点在于:(1)仅以方差衡量信息量,不受数据集以外的因素影响;(2)各主成分之间正交,可消除原始数据成分间相互影响的因素。在实际应用中,经过PCA处理后,前几个主成分已经包含了大部分原始变量的变异信息,选取累计贡献率达到90%的主成分进行分析,达到降维的效果。
k近邻(kNN)是一种常用的监督学习算法。kNN方法在水文学研究中得到广泛应用,后来被Wu等 (2012)应用到降尺度季节天气预报上去。kNN的工作机制是:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。在回归任务中一般使用平均法,即将这k个样本标记的平均值作为预测结果,也可以基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。kNN算法的优点是精度高、对异常值不敏感、无数据输入假定,缺点是计算复杂度高、空间复杂度高。
广州地处珠江三角洲中心地带,随着近些年快速经济发展和城市化发展,空气污染、灰霾事件频发,空气质量预报日益成为政府和公众关注的焦点问题。2013年开始中国气象局要求全国所有省会城市开展空气质量预报。环境气象数值预报模式GRAPES-CMAQ为开展空气质量预报提供了核心支撑,为了进一步提高客观预报水平,需要进行数值预报产品释用。相较于模式输出统计、线性回归等常用方法,机器学习算法处理海量数据更便捷、构建模型更灵活、预报准确性更高,有必要结合机器学习算法研发环境气象预报产品释用技术,提高PM2.5预报水平。
发明内容
本发明要解决的技术问题是克服上述技术的缺陷,提供基于PCA-kNN的空气质量模式PM2.5预报方法。
为解决上述技术问题,本发明提供的技术方案为基于PCA-kNN的空气质量模式PM2.5预报方法,包括以下步骤:(1)、样本数据收集。起报日期为t,最佳历史数据天数为d,则收集某市各站点t-d至t日CMAQ 20时(北京时)起报的1-72h逐时污染物浓度预报数据、GRAPES-MESO 20时(北京时)起报的1-72h逐时气象要素数据以及起报时间(t日20时)以前相应时次的PM2.5观测数据。
(2)、数据质量控制。去掉步骤(1)中所得数据里的缺测数值和异常值。
(3)、标准化及PCA处理。根据步骤(2)得到的数据,以CMAQ和GRAPES-MESO模式预报数据为自变量,PM2.5观测数据为因变量。根据应用kNN等机器学习算法的需要,对自变量进行标准化处理(即原数据减去其平均值,再除以标准偏差)。把标准化后的结果进行PCA处理,选择累计贡献率达到90%的主成分。
(4)、将训练数据分成训练集、验证集、测试集。将t-d至t-1日的历史数据作为训练数据,将训练数据按时次随机排列,选择70%的数据作为训练集,20%的数据作为验证集,10%的数据作为测试集。
(5)、训练kNN模型,参数优化。以自变量和因变量为输入,训练kNN回归模型。kNN回归模型的主要参数是邻近样本个数即k值,采用交叉验证和网格搜索,选择验证误差和测试误差最小的k值。
(6)、基于待订正的模式产品得出订正预报。将t日起报的模式数据作为输入,以上述最佳的k值作为参数进行kNN回归预报,得到t日起报的订正预报。
作为改进,在步骤(1)中,污染物浓度数据包括PM2.5、PM10、O3、NO2、SO2、CO等6种污染物浓度,气象要素数据包括气温、相对湿度、气压、降水、风速、位势高度、垂直速度(含地面、1000hPa、 925hPa、850hPa、700hPa、500hPa等层次)等气象要素。
作为改进,在步骤(4)中,训练集,后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个分类器;验证集,作用是当通过训练集训练出多个模型后,为了能找出效果最佳的模型,使用各个模型对验证集数据进行预测,并记录模型准确率;测试集,通过训练集和验证集得出最优模型后,使用测试集进行模型预测。
本发明基于PCA-kNN的空气质量模式PM2.5预报方法具有如下优点:有效的提高了空气质量预报的精度和准确度。
附图说明
图1是本发明基于PCA-kNN的空气质量模式PM2.5预报方法的示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明。
结合附图1,基于PCA-kNN的空气质量模式PM2.5预报方法,包括以下步骤:(1)、样本数据收集。起报日期为t,最佳历史数据天数为d,则收集某市各站点t-d至t日CMAQ 20时(北京时)起报的1-72h逐时污染物浓度预报数据、GRAPES-MESO 20时(北京时)起报的1-72h逐时气象要素数据以及起报时间(t 日20时)以前相应时次的PM2.5观测数据。
(2)、数据质量控制,去掉步骤(1)中所得数据里的缺测数值和异常值。
(3)、标准化及PCA处理。根据步骤(2)得到的数据,以CMAQ和GRAPES-MESO模式预报数据为自变量,PM2.5观测数据为因变量。根据应用kNN等机器学习算法的需要,对自变量进行标准化处理(即原数据减去其平均值,再除以标准偏差)。把标准化后的结果进行PCA处理,选择累计贡献率达到90%的主成分。
(4)、将训练数据分成训练集、验证集、测试集。将t-d至t-1日的历史数据作为训练数据,将训练数据按时次随机排列,选择70%的数据作为训练集,20%的数据作为验证集,10%的数据作为测试集。
(5)、训练kNN模型,参数优化。以自变量和因变量为输入,训练kNN回归模型。kNN回归模型的主要参数是邻近样本个数即k值,采用交叉验证和网格搜索,选择验证误差和测试误差最小的k值。
(6)、基于待订正的模式产品得出订正预报。将t日起报的模式数据作为输入,以上述最佳的k值作为参数进行kNN回归预报,得到t日起报的订正预报。
在步骤(1)中,污染物浓度数据包括PM2.5、PM10、O3、NO2、SO2、CO等6种污染物浓度,气象要素数据包括气温、相对湿度、气压、降水、风速、位势高度、垂直速度(含地面、1000hPa、925hPa、850hPa、 700hPa、500hPa等层次)等气象要素。
在步骤(4)中,训练集,后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个模型;验证集,作用是当通过训练集训练出多个模型后评估模型的效果,使用各个模型对验证集数据进行预测,并记录模型准确率;测试集,使用测试集评估模型的泛化能力;综合考虑验证误差和测试误差选出最佳模型。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (3)
1.基于PCA-kNN的空气质量模式PM2.5预报方法,其特征在于,包括以下步骤:
(1)、样本数据收集。起报日期为t,最佳历史数据天数为d,则收集某市各站点t-d至t日CMAQ 20时(北京时)起报的1-72h逐时污染物浓度预报数据、GRAPES-MESO 20时(北京时)起报的1-72h逐时气象要素数据以及起报时间(t日20时)以前相应时次的PM2.5观测数据。
(2)、数据质量控制。去掉步骤(1)中所得数据里的缺测数值和异常值。
(3)、标准化及PCA处理。根据步骤(2)得到的数据,以CMAQ和GRAPES-MESO模式预报数据为自变量,PM2.5观测数据为因变量。根据应用kNN等机器学习算法的需要,对自变量进行标准化处理(即原数据减去其平均值,再除以标准偏差)。把标准化后的结果进行PCA处理,选择累计贡献率达到90%的主成分。
(4)、将训练数据分成训练集、验证集、测试集。将t-d至t-1日的历史数据作为训练数据,将训练数据按时次随机排列,选择70%的数据作为训练集,20%的数据作为验证集,10%的数据作为测试集。
(5)、训练kNN模型,参数优化。以自变量和因变量为输入,训练kNN回归模型。kNN回归模型的主要参数是邻近样本个数即k值,采用交叉验证和网格搜索,选择验证误差和测试误差最小的k值。
(6)、基于待订正的模式产品得出订正预报。将t日起报的模式数据作为输入,以上述最佳的k值作为参数进行kNN回归预报,得到t日起报的订正预报。
2.根据权利要求1所述的基于PCA-kNN的空气质量模式PM2.5预报方法,其特征在于:在步骤(1)中,污染物浓度数据包括PM2.5、PM10、O3、NO2、SO2、CO等6种污染物浓度,气象要素数据包括气温、相对湿度、气压、降水、风速、位势高度、垂直速度(含地面、1000hPa、925hPa、850hPa、700hPa、500hPa等层次)等气象要素。
3.根据权利要求1所述的基于PCA-kNN的空气质量模式PM2.5预报方法,其特征在于:在步骤(4)中,训练集,后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个模型;验证集,作用是当通过训练集训练出多个模型后评估模型的效果,使用各个模型对验证集数据进行预测,并记录模型准确率;测试集,使用测试集评估模型的泛化能力;综合考虑验证误差和测试误差选出最佳模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810774695.7A CN109116444B (zh) | 2018-07-16 | 2018-07-16 | 基于PCA-kNN的空气质量模式PM2.5预报方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810774695.7A CN109116444B (zh) | 2018-07-16 | 2018-07-16 | 基于PCA-kNN的空气质量模式PM2.5预报方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109116444A true CN109116444A (zh) | 2019-01-01 |
CN109116444B CN109116444B (zh) | 2021-01-12 |
Family
ID=64862147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810774695.7A Active CN109116444B (zh) | 2018-07-16 | 2018-07-16 | 基于PCA-kNN的空气质量模式PM2.5预报方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109116444B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110045714A (zh) * | 2019-04-08 | 2019-07-23 | 沈阳化工大学 | 一种基于权重近邻规则的工业过程监控方法 |
CN110059766A (zh) * | 2019-04-26 | 2019-07-26 | 兰州大学 | 一种运用k临近算法进行降水类型分类的方法 |
CN110261547A (zh) * | 2019-07-04 | 2019-09-20 | 北京思路创新科技有限公司 | 一种空气质量预报方法和设备 |
CN110263392A (zh) * | 2019-06-01 | 2019-09-20 | 邯郸市气象局 | 基于多模式分区误差检验的风场预报方法及其系统 |
CN110334732A (zh) * | 2019-05-20 | 2019-10-15 | 北京思路创新科技有限公司 | 一种基于机器学习的空气质量预报方法和装置 |
CN111256745A (zh) * | 2020-02-28 | 2020-06-09 | 芜湖职业技术学院 | 一种便携式空气质量监测仪数据校准方法 |
CN117174197A (zh) * | 2023-08-17 | 2023-12-05 | 广东省生态气象中心(珠江三角洲环境气象预报预警中心) | 基于动态有监督机器学习的臭氧污染风险预报方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8452537B2 (en) * | 2008-01-10 | 2013-05-28 | Baron Services, Inc. | System and method for predicting tornado activity |
CN105631537A (zh) * | 2015-12-23 | 2016-06-01 | 南京信息工程大学 | 基于气象服务平台的空气质量预报业务系统 |
CN106055904A (zh) * | 2016-06-04 | 2016-10-26 | 上海大学 | 基于varx模型的大气pm2.5浓度预测方法 |
-
2018
- 2018-07-16 CN CN201810774695.7A patent/CN109116444B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8452537B2 (en) * | 2008-01-10 | 2013-05-28 | Baron Services, Inc. | System and method for predicting tornado activity |
CN105631537A (zh) * | 2015-12-23 | 2016-06-01 | 南京信息工程大学 | 基于气象服务平台的空气质量预报业务系统 |
CN106055904A (zh) * | 2016-06-04 | 2016-10-26 | 上海大学 | 基于varx模型的大气pm2.5浓度预测方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110045714A (zh) * | 2019-04-08 | 2019-07-23 | 沈阳化工大学 | 一种基于权重近邻规则的工业过程监控方法 |
CN110059766A (zh) * | 2019-04-26 | 2019-07-26 | 兰州大学 | 一种运用k临近算法进行降水类型分类的方法 |
CN110334732A (zh) * | 2019-05-20 | 2019-10-15 | 北京思路创新科技有限公司 | 一种基于机器学习的空气质量预报方法和装置 |
CN110263392A (zh) * | 2019-06-01 | 2019-09-20 | 邯郸市气象局 | 基于多模式分区误差检验的风场预报方法及其系统 |
CN110261547A (zh) * | 2019-07-04 | 2019-09-20 | 北京思路创新科技有限公司 | 一种空气质量预报方法和设备 |
CN111256745A (zh) * | 2020-02-28 | 2020-06-09 | 芜湖职业技术学院 | 一种便携式空气质量监测仪数据校准方法 |
CN117174197A (zh) * | 2023-08-17 | 2023-12-05 | 广东省生态气象中心(珠江三角洲环境气象预报预警中心) | 基于动态有监督机器学习的臭氧污染风险预报方法 |
CN117174197B (zh) * | 2023-08-17 | 2024-02-13 | 广东省生态气象中心(珠江三角洲环境气象预报预警中心) | 基于动态有监督机器学习的臭氧污染风险预报方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109116444B (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109116444A (zh) | 基于PCA-kNN的空气质量模式PM2.5预报方法 | |
CN109615226B (zh) | 一种运营指标异常监测方法 | |
Araghinejad | Data-driven modeling: using MATLAB® in water resources and environmental engineering | |
CN115578015B (zh) | 基于物联网的污水处理全过程监管方法、系统及存储介质 | |
CN106951984A (zh) | 一种系统健康度动态分析预测方法及装置 | |
Chen et al. | Multi‐model ensemble for short‐term traffic flow prediction under normal and abnormal conditions | |
CN109767084A (zh) | 一种企业环境行为分析处理的方法及设备 | |
CN115860727B (zh) | 一种智慧园区运维系统 | |
CN117389236B (zh) | 一种环氧丙烷生产过程优化方法及系统 | |
KR102540257B1 (ko) | Esg 경영을 위한 인공지능 기반 환경설비 및 산업플랜트 관리 서비스 시스템 | |
CN114037140A (zh) | 预测模型训练、数据预测方法、装置、设备及存储介质 | |
Gove et al. | Control charts for improved decisions in environmental management: a case study of catchment water supply in south‐west W estern A ustralia | |
CN116013426A (zh) | 一种高时空分辨率的站点臭氧浓度预测方法 | |
Manoj et al. | FWS-DL: forecasting wind speed based on deep learning algorithms | |
KR100736033B1 (ko) | 비즈니스 프로세스의 자동 성장 장치 및 방법 | |
Ribeiro et al. | A comparative study on predicting algae blooms in Douro River, Portugal | |
CN110533213A (zh) | 基于支持向量机的输电线路缺陷风险建模及其预测方法 | |
Mascali et al. | A machine learning-based Anomaly Detection Framework for building electricity consumption data | |
KR20210042709A (ko) | 기업 관계 데이터를 이용한 주가 예측 방법 및 서버 | |
CN113688506B (zh) | 基于微站等多维数据的潜在大气污染源识别方法 | |
EP4027277A1 (en) | Method, system and computer program product for drift detection in a data stream | |
CN115271154A (zh) | 一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法 | |
Tin et al. | Incoming work-in-progress prediction in semiconductor fabrication foundry using long short-term memory | |
KR101859410B1 (ko) | 지역별 식재료 안전지수 산출방법, 그 장치 및 그 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체 | |
Gebresellase et al. | Evaluation of CMIP6 Climate Models for Climate Change Impact Assessments in Upper Awash Basin, Ethiopia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |