CN109116444A - 基于PCA-kNN的空气质量模式PM2.5预报方法 - Google Patents

基于PCA-kNN的空气质量模式PM2.5预报方法 Download PDF

Info

Publication number
CN109116444A
CN109116444A CN201810774695.7A CN201810774695A CN109116444A CN 109116444 A CN109116444 A CN 109116444A CN 201810774695 A CN201810774695 A CN 201810774695A CN 109116444 A CN109116444 A CN 109116444A
Authority
CN
China
Prior art keywords
data
knn
training
model
pca
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810774695.7A
Other languages
English (en)
Other versions
CN109116444B (zh
Inventor
汤静
王春林
谭浩波
邓雪娇
邓涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810774695.7A priority Critical patent/CN109116444B/zh
Publication of CN109116444A publication Critical patent/CN109116444A/zh
Application granted granted Critical
Publication of CN109116444B publication Critical patent/CN109116444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions

Landscapes

  • Environmental & Geological Engineering (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Atmospheric Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Ecology (AREA)
  • Environmental Sciences (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及气象技术领域,基于PCA‑kNN的空气质量模式PM2.5预报方法,包括以下步骤:(1)、样本数据收集;(2)、数据质量控制;(3)、标准化及PCA处理;(4)、将训练数据分成训练集、验证集、测试集;(5)、训练kNN模型,参数优化;(6)、基于待订正的模式产品得出订正预报。本发明有效提高了空气质量PM2.5预报的精度和准确度。

Description

基于PCA-kNN的空气质量模式PM2.5预报方法
技术领域
本发明涉及气象技术领域,具体是指基于PCA-kNN的空气质量模式PM2.5预报方法。
背景技术
主成分分析(PCA)最初是由Pearson(1901)在非随机变量的讨论中介绍的,后来由Hotelling(1933)扩展到随机变量[22-24]。PCA的目的是将相关性较强的多维变量转化为彼此不相关的新变量。PCA方法的优点在于:(1)仅以方差衡量信息量,不受数据集以外的因素影响;(2)各主成分之间正交,可消除原始数据成分间相互影响的因素。在实际应用中,经过PCA处理后,前几个主成分已经包含了大部分原始变量的变异信息,选取累计贡献率达到90%的主成分进行分析,达到降维的效果。
k近邻(kNN)是一种常用的监督学习算法。kNN方法在水文学研究中得到广泛应用,后来被Wu等 (2012)应用到降尺度季节天气预报上去。kNN的工作机制是:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。在回归任务中一般使用平均法,即将这k个样本标记的平均值作为预测结果,也可以基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。kNN算法的优点是精度高、对异常值不敏感、无数据输入假定,缺点是计算复杂度高、空间复杂度高。
广州地处珠江三角洲中心地带,随着近些年快速经济发展和城市化发展,空气污染、灰霾事件频发,空气质量预报日益成为政府和公众关注的焦点问题。2013年开始中国气象局要求全国所有省会城市开展空气质量预报。环境气象数值预报模式GRAPES-CMAQ为开展空气质量预报提供了核心支撑,为了进一步提高客观预报水平,需要进行数值预报产品释用。相较于模式输出统计、线性回归等常用方法,机器学习算法处理海量数据更便捷、构建模型更灵活、预报准确性更高,有必要结合机器学习算法研发环境气象预报产品释用技术,提高PM2.5预报水平。
发明内容
本发明要解决的技术问题是克服上述技术的缺陷,提供基于PCA-kNN的空气质量模式PM2.5预报方法。
为解决上述技术问题,本发明提供的技术方案为基于PCA-kNN的空气质量模式PM2.5预报方法,包括以下步骤:(1)、样本数据收集。起报日期为t,最佳历史数据天数为d,则收集某市各站点t-d至t日CMAQ 20时(北京时)起报的1-72h逐时污染物浓度预报数据、GRAPES-MESO 20时(北京时)起报的1-72h逐时气象要素数据以及起报时间(t日20时)以前相应时次的PM2.5观测数据。
(2)、数据质量控制。去掉步骤(1)中所得数据里的缺测数值和异常值。
(3)、标准化及PCA处理。根据步骤(2)得到的数据,以CMAQ和GRAPES-MESO模式预报数据为自变量,PM2.5观测数据为因变量。根据应用kNN等机器学习算法的需要,对自变量进行标准化处理(即原数据减去其平均值,再除以标准偏差)。把标准化后的结果进行PCA处理,选择累计贡献率达到90%的主成分。
(4)、将训练数据分成训练集、验证集、测试集。将t-d至t-1日的历史数据作为训练数据,将训练数据按时次随机排列,选择70%的数据作为训练集,20%的数据作为验证集,10%的数据作为测试集。
(5)、训练kNN模型,参数优化。以自变量和因变量为输入,训练kNN回归模型。kNN回归模型的主要参数是邻近样本个数即k值,采用交叉验证和网格搜索,选择验证误差和测试误差最小的k值。
(6)、基于待订正的模式产品得出订正预报。将t日起报的模式数据作为输入,以上述最佳的k值作为参数进行kNN回归预报,得到t日起报的订正预报。
作为改进,在步骤(1)中,污染物浓度数据包括PM2.5、PM10、O3、NO2、SO2、CO等6种污染物浓度,气象要素数据包括气温、相对湿度、气压、降水、风速、位势高度、垂直速度(含地面、1000hPa、 925hPa、850hPa、700hPa、500hPa等层次)等气象要素。
作为改进,在步骤(4)中,训练集,后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个分类器;验证集,作用是当通过训练集训练出多个模型后,为了能找出效果最佳的模型,使用各个模型对验证集数据进行预测,并记录模型准确率;测试集,通过训练集和验证集得出最优模型后,使用测试集进行模型预测。
本发明基于PCA-kNN的空气质量模式PM2.5预报方法具有如下优点:有效的提高了空气质量预报的精度和准确度。
附图说明
图1是本发明基于PCA-kNN的空气质量模式PM2.5预报方法的示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明。
结合附图1,基于PCA-kNN的空气质量模式PM2.5预报方法,包括以下步骤:(1)、样本数据收集。起报日期为t,最佳历史数据天数为d,则收集某市各站点t-d至t日CMAQ 20时(北京时)起报的1-72h逐时污染物浓度预报数据、GRAPES-MESO 20时(北京时)起报的1-72h逐时气象要素数据以及起报时间(t 日20时)以前相应时次的PM2.5观测数据。
(2)、数据质量控制,去掉步骤(1)中所得数据里的缺测数值和异常值。
(3)、标准化及PCA处理。根据步骤(2)得到的数据,以CMAQ和GRAPES-MESO模式预报数据为自变量,PM2.5观测数据为因变量。根据应用kNN等机器学习算法的需要,对自变量进行标准化处理(即原数据减去其平均值,再除以标准偏差)。把标准化后的结果进行PCA处理,选择累计贡献率达到90%的主成分。
(4)、将训练数据分成训练集、验证集、测试集。将t-d至t-1日的历史数据作为训练数据,将训练数据按时次随机排列,选择70%的数据作为训练集,20%的数据作为验证集,10%的数据作为测试集。
(5)、训练kNN模型,参数优化。以自变量和因变量为输入,训练kNN回归模型。kNN回归模型的主要参数是邻近样本个数即k值,采用交叉验证和网格搜索,选择验证误差和测试误差最小的k值。
(6)、基于待订正的模式产品得出订正预报。将t日起报的模式数据作为输入,以上述最佳的k值作为参数进行kNN回归预报,得到t日起报的订正预报。
在步骤(1)中,污染物浓度数据包括PM2.5、PM10、O3、NO2、SO2、CO等6种污染物浓度,气象要素数据包括气温、相对湿度、气压、降水、风速、位势高度、垂直速度(含地面、1000hPa、925hPa、850hPa、 700hPa、500hPa等层次)等气象要素。
在步骤(4)中,训练集,后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个模型;验证集,作用是当通过训练集训练出多个模型后评估模型的效果,使用各个模型对验证集数据进行预测,并记录模型准确率;测试集,使用测试集评估模型的泛化能力;综合考虑验证误差和测试误差选出最佳模型。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (3)

1.基于PCA-kNN的空气质量模式PM2.5预报方法,其特征在于,包括以下步骤:
(1)、样本数据收集。起报日期为t,最佳历史数据天数为d,则收集某市各站点t-d至t日CMAQ 20时(北京时)起报的1-72h逐时污染物浓度预报数据、GRAPES-MESO 20时(北京时)起报的1-72h逐时气象要素数据以及起报时间(t日20时)以前相应时次的PM2.5观测数据。
(2)、数据质量控制。去掉步骤(1)中所得数据里的缺测数值和异常值。
(3)、标准化及PCA处理。根据步骤(2)得到的数据,以CMAQ和GRAPES-MESO模式预报数据为自变量,PM2.5观测数据为因变量。根据应用kNN等机器学习算法的需要,对自变量进行标准化处理(即原数据减去其平均值,再除以标准偏差)。把标准化后的结果进行PCA处理,选择累计贡献率达到90%的主成分。
(4)、将训练数据分成训练集、验证集、测试集。将t-d至t-1日的历史数据作为训练数据,将训练数据按时次随机排列,选择70%的数据作为训练集,20%的数据作为验证集,10%的数据作为测试集。
(5)、训练kNN模型,参数优化。以自变量和因变量为输入,训练kNN回归模型。kNN回归模型的主要参数是邻近样本个数即k值,采用交叉验证和网格搜索,选择验证误差和测试误差最小的k值。
(6)、基于待订正的模式产品得出订正预报。将t日起报的模式数据作为输入,以上述最佳的k值作为参数进行kNN回归预报,得到t日起报的订正预报。
2.根据权利要求1所述的基于PCA-kNN的空气质量模式PM2.5预报方法,其特征在于:在步骤(1)中,污染物浓度数据包括PM2.5、PM10、O3、NO2、SO2、CO等6种污染物浓度,气象要素数据包括气温、相对湿度、气压、降水、风速、位势高度、垂直速度(含地面、1000hPa、925hPa、850hPa、700hPa、500hPa等层次)等气象要素。
3.根据权利要求1所述的基于PCA-kNN的空气质量模式PM2.5预报方法,其特征在于:在步骤(4)中,训练集,后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个模型;验证集,作用是当通过训练集训练出多个模型后评估模型的效果,使用各个模型对验证集数据进行预测,并记录模型准确率;测试集,使用测试集评估模型的泛化能力;综合考虑验证误差和测试误差选出最佳模型。
CN201810774695.7A 2018-07-16 2018-07-16 基于PCA-kNN的空气质量模式PM2.5预报方法 Active CN109116444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810774695.7A CN109116444B (zh) 2018-07-16 2018-07-16 基于PCA-kNN的空气质量模式PM2.5预报方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810774695.7A CN109116444B (zh) 2018-07-16 2018-07-16 基于PCA-kNN的空气质量模式PM2.5预报方法

Publications (2)

Publication Number Publication Date
CN109116444A true CN109116444A (zh) 2019-01-01
CN109116444B CN109116444B (zh) 2021-01-12

Family

ID=64862147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810774695.7A Active CN109116444B (zh) 2018-07-16 2018-07-16 基于PCA-kNN的空气质量模式PM2.5预报方法

Country Status (1)

Country Link
CN (1) CN109116444B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110045714A (zh) * 2019-04-08 2019-07-23 沈阳化工大学 一种基于权重近邻规则的工业过程监控方法
CN110059766A (zh) * 2019-04-26 2019-07-26 兰州大学 一种运用k临近算法进行降水类型分类的方法
CN110261547A (zh) * 2019-07-04 2019-09-20 北京思路创新科技有限公司 一种空气质量预报方法和设备
CN110263392A (zh) * 2019-06-01 2019-09-20 邯郸市气象局 基于多模式分区误差检验的风场预报方法及其系统
CN110334732A (zh) * 2019-05-20 2019-10-15 北京思路创新科技有限公司 一种基于机器学习的空气质量预报方法和装置
CN111256745A (zh) * 2020-02-28 2020-06-09 芜湖职业技术学院 一种便携式空气质量监测仪数据校准方法
CN117174197A (zh) * 2023-08-17 2023-12-05 广东省生态气象中心(珠江三角洲环境气象预报预警中心) 基于动态有监督机器学习的臭氧污染风险预报方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452537B2 (en) * 2008-01-10 2013-05-28 Baron Services, Inc. System and method for predicting tornado activity
CN105631537A (zh) * 2015-12-23 2016-06-01 南京信息工程大学 基于气象服务平台的空气质量预报业务系统
CN106055904A (zh) * 2016-06-04 2016-10-26 上海大学 基于varx模型的大气pm2.5浓度预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452537B2 (en) * 2008-01-10 2013-05-28 Baron Services, Inc. System and method for predicting tornado activity
CN105631537A (zh) * 2015-12-23 2016-06-01 南京信息工程大学 基于气象服务平台的空气质量预报业务系统
CN106055904A (zh) * 2016-06-04 2016-10-26 上海大学 基于varx模型的大气pm2.5浓度预测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110045714A (zh) * 2019-04-08 2019-07-23 沈阳化工大学 一种基于权重近邻规则的工业过程监控方法
CN110059766A (zh) * 2019-04-26 2019-07-26 兰州大学 一种运用k临近算法进行降水类型分类的方法
CN110334732A (zh) * 2019-05-20 2019-10-15 北京思路创新科技有限公司 一种基于机器学习的空气质量预报方法和装置
CN110263392A (zh) * 2019-06-01 2019-09-20 邯郸市气象局 基于多模式分区误差检验的风场预报方法及其系统
CN110261547A (zh) * 2019-07-04 2019-09-20 北京思路创新科技有限公司 一种空气质量预报方法和设备
CN111256745A (zh) * 2020-02-28 2020-06-09 芜湖职业技术学院 一种便携式空气质量监测仪数据校准方法
CN117174197A (zh) * 2023-08-17 2023-12-05 广东省生态气象中心(珠江三角洲环境气象预报预警中心) 基于动态有监督机器学习的臭氧污染风险预报方法
CN117174197B (zh) * 2023-08-17 2024-02-13 广东省生态气象中心(珠江三角洲环境气象预报预警中心) 基于动态有监督机器学习的臭氧污染风险预报方法

Also Published As

Publication number Publication date
CN109116444B (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN109116444A (zh) 基于PCA-kNN的空气质量模式PM2.5预报方法
CN109615226B (zh) 一种运营指标异常监测方法
Araghinejad Data-driven modeling: using MATLAB® in water resources and environmental engineering
CN115578015B (zh) 基于物联网的污水处理全过程监管方法、系统及存储介质
CN106951984A (zh) 一种系统健康度动态分析预测方法及装置
Chen et al. Multi‐model ensemble for short‐term traffic flow prediction under normal and abnormal conditions
CN109767084A (zh) 一种企业环境行为分析处理的方法及设备
CN115860727B (zh) 一种智慧园区运维系统
CN117389236B (zh) 一种环氧丙烷生产过程优化方法及系统
KR102540257B1 (ko) Esg 경영을 위한 인공지능 기반 환경설비 및 산업플랜트 관리 서비스 시스템
CN114037140A (zh) 预测模型训练、数据预测方法、装置、设备及存储介质
Gove et al. Control charts for improved decisions in environmental management: a case study of catchment water supply in south‐west W estern A ustralia
CN116013426A (zh) 一种高时空分辨率的站点臭氧浓度预测方法
Manoj et al. FWS-DL: forecasting wind speed based on deep learning algorithms
KR100736033B1 (ko) 비즈니스 프로세스의 자동 성장 장치 및 방법
Ribeiro et al. A comparative study on predicting algae blooms in Douro River, Portugal
CN110533213A (zh) 基于支持向量机的输电线路缺陷风险建模及其预测方法
Mascali et al. A machine learning-based Anomaly Detection Framework for building electricity consumption data
KR20210042709A (ko) 기업 관계 데이터를 이용한 주가 예측 방법 및 서버
CN113688506B (zh) 基于微站等多维数据的潜在大气污染源识别方法
EP4027277A1 (en) Method, system and computer program product for drift detection in a data stream
CN115271154A (zh) 一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法
Tin et al. Incoming work-in-progress prediction in semiconductor fabrication foundry using long short-term memory
KR101859410B1 (ko) 지역별 식재료 안전지수 산출방법, 그 장치 및 그 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
Gebresellase et al. Evaluation of CMIP6 Climate Models for Climate Change Impact Assessments in Upper Awash Basin, Ethiopia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant