CN113537515A - Pm2.5预测方法、系统、装置及存储介质 - Google Patents
Pm2.5预测方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN113537515A CN113537515A CN202110851247.4A CN202110851247A CN113537515A CN 113537515 A CN113537515 A CN 113537515A CN 202110851247 A CN202110851247 A CN 202110851247A CN 113537515 A CN113537515 A CN 113537515A
- Authority
- CN
- China
- Prior art keywords
- prediction model
- data
- pollution
- prediction
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 239000003344 environmental pollutant Substances 0.000 claims abstract description 103
- 231100000719 pollutant Toxicity 0.000 claims abstract description 103
- 230000007613 environmental effect Effects 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000012216 screening Methods 0.000 claims abstract description 18
- 238000004140 cleaning Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 239000000443 aerosol Substances 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 230000008020 evaporation Effects 0.000 claims description 4
- 238000001704 evaporation Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 230000005855 radiation Effects 0.000 claims description 4
- 230000015654 memory Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 9
- 238000010801 machine learning Methods 0.000 abstract description 9
- 239000000809 air pollutant Substances 0.000 abstract description 6
- 231100001243 air pollutant Toxicity 0.000 abstract description 6
- 238000011156 evaluation Methods 0.000 description 9
- JCXJVPUVTGWSNB-UHFFFAOYSA-N Nitrogen dioxide Chemical compound O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 7
- RAHZWNYVWXNFOC-UHFFFAOYSA-N sulfur dioxide Inorganic materials O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 6
- 238000003915 air pollution Methods 0.000 description 5
- 238000013277 forecasting method Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 229910002089 NOx Inorganic materials 0.000 description 3
- MWUXSHHQAYIFBG-UHFFFAOYSA-N Nitric oxide Chemical compound O=[N] MWUXSHHQAYIFBG-UHFFFAOYSA-N 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000356 contaminant Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003912 environmental pollution Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/06—Investigating concentration of particle suspensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Chemical & Material Sciences (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Dispersion Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Educational Administration (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种PM2.5预测方法、系统、装置及计算机可读存储介质,包括:获取污染物数据及环境特征因子;利用预先建立的污染预测模型对污染物数据及环境特征因子进行检测,得到污染预测报告;其中,污染预测模型的训练过程包括:利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型;对多个原始预测模型进行筛选,得到最优预测模型;对最优预测模型进行优化,得到污染预测模型。本申请利用机器学习算法和大数据构建污染预测模型,使得污染预测模型能够结合大数据深度挖掘影响污染物浓度的各因子之间内在的数据关系,建立起能够更为准确的反应空气污染物浓度与影响因子之间复杂机制的预测模型,提高了污染预测的准确度。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种PM2.5预测方法、系统、装置及计算机可读存储介质。
背景技术
近年来,随着我国可持续发展理念认知的不断深入,在大力开展经济建设的同时,生态文明建设也日益加强,环境污染的防治成为国家发展建设中的一项重要工作,其中的大气污染防治更是成为重中之重,成为了国家发展战略中的一个重大课题。因此为了更好地反映环境污染变化趋势,为环境管理决策提供及时、全面的环境质量信息,预防严重污染事件发生,开展城市空气污染预报研究是十分必要的。
PM2.5作为我国首要空气污染物之一,组成成分复杂多变,其形成,转化及沉降过程都十分复杂,这给PM2.5的预测带来了很大困难。此外,大气环境是一个典型的复杂巨系统,难以对系统的各个细节进行全局的掌握和分析,且大气中的化学成分会随着大气状态的改变不断发生变化。尽管空气污染预报方法在近几十年取得了长远的发展,对我国的空气污染物的预测以及防治有着重大贡献,但传统的预测方法仍存在一定的不足。
现有技术中的,数值预报方法存在以下不足:(1)数值预报方法往往适合区域性的空气污染预测,而对于城市范围的空气污染预测,由于复杂的地面流场和湍流结构,难以准确估计城市边界层大气的物化过程,使得预测效果并不尽如人意;(2)数值预报需要十分翔实的污染源资料,由于实际中难以获得,通常采用简单假设或者忽略的方式,导致数值预报准确性受限;(3)数值预报方法计算复杂度高,预测计算耗时较长(通常需要6-12h),致使预报时效性不强。由于理论上的不足以及应用条件的高要求,数值预报方法有待进一步的完善。
统计预报方法存在以下不足:(1)时间序列分析法和多元线性回归模型法由于对空气污染变化做了较多的假设,并简化了较多的影响因子,使得方法的预报准确性不高;(2)无法对多来源的数据(结构化、非结构化)进行有效融合与分析,无法实现对海量数据的有效全量分析;(3)传统的统计方法由于无法捕获到复杂的非线性关系,其使用场景往往也受限于简单的线性关系。
为此需要一种预测准确度更高的PM2.5预测方法。
发明内容
有鉴于此,本发明的目的在于提供一种PM2.5预测方法、系统、装置及计算机可读存储介质,提高PM2.5预测准确度。其具体方案如下:
一种PM2.5预测方法,包括:
获取污染物数据及环境特征因子;
利用预先建立的污染预测模型对所述污染物数据及所述环境特征因子进行检测,得到污染预测报告;
其中,所述污染预测模型的训练过程包括:
预先利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型;
对多个原始预测模型进行评估筛选,得到最优预测模型;
对所述最优预测模型进行迭代优化,得到所述污染预测模型。
可选的,所述获取污染物数据及环境特征因子的过程,包括:
获取原始污染物数据及原始环境特征因子;
对所述原始污染物数据及所述原始环境特征因子中缺测数据进行插值处理,得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子。
可选的,所述对所述原始污染物数据及所述原始环境特征因子中缺测数据进行插值处理,得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子的过程,包括:
对所述原始污染物数据及所述原始环境特征因子中缺测的连续数据进行插值处理,得到第一插值污染物数据及第一插值环境特征因子;
对所述原始环境特征因子中非连续值的类别数据利用OneHot方法处理,得到第二插值环境特征因子;
综合所述第一插值污染物数据、所述第一插值环境特征因子及所述第二插值环境特征因子,得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子。
可选的,所述综合所述第一插值污染物数据、所述第一插值环境特征因子及所述第二插值环境特征因子,得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子的过程,包括:
综合所述第一插值污染物数据、所述第一插值环境特征因子及所述第二插值环境特征因子,得到数据清洗后的清洗污染物数据及清洗环境特征因子;
对所述清洗污染物数据及所述清洗环境特征因子进行数据缩放,得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子。
可选的,所述污染物数据,包括NOx、NO2、SO2和O3;
所述环境特征因子,包括蒸发量和/或气温和/或相对湿度和/或风速和/或风向和/或气压和/或降雨量和/或太阳辐射和/或能见度和/或大气边界层高度和/或气溶胶光学厚度和/或季节和/或月份和/或交通密度。
可选的,所述对多个原始预测模型进行评估筛选,得到最优预测模型的过程,包括:
利用RMSE与R2评价指标,对多个原始预测模型进行评估筛选,得到最优预测模型。
可选的,所述对所述最优预测模型进行迭代优化,得到所述污染预测模型的过程,包括:
利用GridSearchCV方法对所述最优预测模型进行迭代优化,得到所述污染预测模型。
本发明还公开了一种PM2.5预测系统,包括:
污染数据获取模块,用于获取污染物数据及环境特征因子;
污染检测模块,用于利用预先建立的污染预测模型对所述污染物数据及所述环境特征因子进行检测,得到污染预测报告;
其中,所述污染预测模型为预先利用样本污染物数据及样本环境特征因子进行训练得到的。
本发明还公开了一种PM2.5预测装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如前述的PM2.5预测方法。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的PM2.5预测方法。
本发明中,PM2.5预测方法,包括:获取污染物数据及环境特征因子;利用预先建立的污染预测模型对污染物数据及环境特征因子进行检测,得到污染预测报告;其中,污染预测模型的训练过程包括:预先利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型;对多个原始预测模型进行评估筛选,得到最优预测模型;对最优预测模型进行迭代优化,得到污染预测模型。
本发明利用机器学习算法和大数据构建污染预测模型,使得污染预测模型能够结合大数据深度挖掘影响污染物浓度的各因子之间内在的数据关系,建立起能够更为准确的反应空气污染物浓度与影响因子之间复杂机制的预测模型,提高了污染预测的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种PM2.5预测方法流程示意图;
图2为本发明实施例公开的另一种PM2.5预测方法流程示意图;
图3为本发明实施例公开的一种PM2.5预测系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种PM2.5预测方法,参见图1所示,该方法包括:
S11:获取污染物数据及环境特征因子;
S12:利用预先建立的污染预测模型对污染物数据及环境特征因子进行检测,得到污染预测报告;
其中,污染预测模型的训练过程包括:
预先利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型;
对多个原始预测模型进行评估筛选,得到最优预测模型;
对最优预测模型进行迭代优化,得到污染预测模型。
具体的,为了提高预测精准度,利用机器学习技术,构建针对PM2.5的污染预测模型,预先利用样本污染物数据及样本环境特征因子对原始的数学模型上进行训练,得到污染预测模型。
具体的,在得到最终的污染预测模型前,可以利用多种机器学习算法分别构建不同的原始预测模型,并分别进行训练,然后再利用相应的评估方法,针对多个原始预测模型的污染预测报告进行评价,从中挑选出评价最高,即准确度最高的原始预测模型作为最优预测模型,此时得到的最优预测模型仅是相对多个原始预测模型最优,在该模型下此时的预测准确度并不一定是最高,因此,继续利用样本污染物数据及样本环境特征因子对最优预测模型进行多次迭代优化,优化最优预测模型中的参数设置,直到达到最优状态,得到污染预测模型。
其中,可以利用RandomForest(随机森林)、LSTM(Long Short-Term Memory,长短期记忆网络)和XGBoost等机器学习算法分别训练处相应的原始预测模型,以便后续筛选。
具体的,在训练过程中利用大量连续的不同时间的样本污染物数据及样本环境特征因子,对原始的数学模型进行训练,使得训练后的污染预测模型,能够根据当前空气中的污染物数据及环境特征因子,结合历史污染物数据、历史环境特征因子、样本污染物数据及样本环境特征因子对接下来空气中PM2.5的变化情况进行预测,从而得到相应的污染预测报告。
具体的,在实际应用中通过采集当前空气中的污染物数据及环境特征因子,并将采集到的污染物数据及环境特征因子输入至污染预测模型进行预测,污染预测模型便可以根据当前的空气中的污染物数据及环境特征因子,预测出接下来空气中PM2.5的污染变化趋势,例如,是污染加重还是污染减轻。
可见,本发明实施例利用机器学习算法和大数据构建污染预测模型,使得污染预测模型能够结合大数据深度挖掘影响污染物浓度的各因子之间内在的数据关系,建立起能够更为准确的反应空气污染物浓度与影响因子之间复杂机制的预测模型,提高了污染预测的准确度。
进一步的,上述污染物数据,可以具体包括NOx(氮氧化物)、NO2(二氧化氮)、SO2(二氧化硫)和O3(臭氧)等;上述环境特征因子,则可以包括气象因子和其它因子,其中,气象因子可以包括蒸发量和/或气温和/或相对湿度和/或风速和/或风向和/或气压和/或降雨量和/或太阳辐射等;其它因子可以包括能见度和/或大气边界层高度和/或气溶胶光学厚度和/或季节和/或月份和/或交通密度等。
具体的,环境特征因子可以影响到污染物在检测时的数值以及随着时间变化的趋势,例如,交通密度大,则污染物大概率会增加,风速高,则污染物容易扩散,PM2.5预测会变低,气溶胶光学密度,可以预测污染物浓度是否会增加等。
可以理解的是,对原始预测模型的初始训练与评估筛选和后续的对最优预测模型进行迭代优化,所采用的数据可以均为样本污染物数据及样本环境特征因子,通过对样本污染物数据及样本环境特征因子划分为训练集和测试集可以有效地完成对模型的训练任务。
本发明实施例公开了一种具体的PM2.5预测方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。参见图2所示,具体的:
S21:获取原始污染物数据及原始环境特征因子;
S22:对原始污染物数据及原始环境特征因子中缺测的连续数据进行插值处理,得到第一插值污染物数据及第一插值环境特征因子。
具体的,不同时间采集到的空气中污染物数据以及环境特征因子不同,有时个别数据或因子甚至采集不到,或成分较低,难以满足污染预测模型能够进行评估的要求,致使污染物数据以及环境特征因子形成的输入数据达不到污染预测模型能够进行有效评估的状态,为了使原始污染物数据及原始环境特征因子能够有效地输入至污染预测模型进行评估,对原始污染物数据及原始环境特征因子中缺测的连续数据进行插值处理,例如,当一列数据大多数数值都为缺测值,则删除缺测列或对缺侧位进行插补,选用临近值插值,如选取前一个值、选取后一个值或选取前后值的均值,使整个输入数据完整与污染预测模型所需的格式切合。
S23:对原始环境特征因子中非连续值的类别数据利用OneHot方法处理,得到第二插值环境特征因子。
具体的,在对连续数据的插值处理的基础上,还可以进一步采用OneHot方法处理非连续值的类别数据,进一步提高模型的稳定性和运行速度,由于利用污染预测模型对原始数据提取出的特征并不总是连续值,而有可能是类型变量。考虑到计算机的运作方式,通过利用OneHot方法处理非连续值的类别数据将上述特征用数字表示,以便提高效率。
S24:综合第一插值污染物数据、第一插值环境特征因子及第二插值环境特征因子,得到数据清洗后的清洗污染物数据及清洗环境特征因子。
具体的,通过将处理后的第一插值污染物数据、第一插值环境特征因子及第二插值环境特征因子合并,得到整体的污染预测模型能够评估的污染物数据及环境特征因子,经过处理后的污染物数据及环境特征因子将更加符合计算机运行方式,提高系统运行效率。
S25:对清洗污染物数据及清洗环境特征因子进行数据缩放,得到污染预测模型能够评估的污染物数据及环境特征因子。
具体的,在面对多维特征问题的时,有时特征数据的数据值相差过大,例如在运用多变量线性回归预测臭氧浓度模型中,温度和湿度这俩个特征之间数值相差大,此时就要保证这些特征都具有相近的尺度,为此在完成插值与类别数据的处理后,相当于对原始数据进行预先的数据清洗,数据清洗之后就要进行特征缩放。特征缩放思想是确保这些特征都处在一个相近的范围。
具体的,可以采用归一化特征缩放(0-1缩放),x=(x–xmin)/(xmax-xmin);或标准化特征缩放x=(x–μ)/σ,其中,μ是平均值,σ是标准差,等缩放方法,本发明实施例可以优先采用归一化特征缩放(0-1缩放)。
S26:利用预先建立的污染预测模型对污染物数据及环境特征因子进行检测,得到污染预测报告;
其中,污染预测模型的训练过程包括S261至S263;其中,
S261:预先利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型;
S262:对多个原始预测模型进行评估筛选,得到最优预测模型;
S263:对最优预测模型进行迭代优化,得到污染预测模型。
具体的,上述S262对多个原始预测模型进行评估筛选,得到最优预测模型的过程,可以具体为利用RMSE与R2评价指标,对多个原始预测模型进行评估筛选,得到最优预测模型。
具体的,在训练过程中,利用RMSE(Root Mean Squared Error,均方根误差)与R2(R2,Coefficient of determination,决定系数)评价指标分别对每个原始预测模型的样本污染预测报告进行评价,在得到每个原始预测模型的样本污染预测报告额评价结果后,从多个原始预测模型中筛选出评价指标最高的原始预测模型作为最优预测模型,以提高模型精准度。
具体的,在使用机器学习算法过程中,针对不同的问题需要不用的模型评估标准。在机器学习中,主要以两大类分类与回归评价指标为主。本发明实施例的污染预测模型属于回归模型,为此,可以采用平均绝对误差MAE(Mean Absolute Error)、平均平方误差MSE(Mean Squared Error)、解释变异(Explained variance)、RMSE和/或R2等评价指标,其中,本发明实施例优先选用RMSE和R2评价指标。
具体的,上述对最优预测模型进行迭代优化,得到污染预测模型的过程,可以具体为利用GridSearchCV方法对最优预测模型进行迭代优化,得到污染预测模型。
具体的,通过GridSearchCV(网格搜索),实现自动调参,只要把参数输进去,就能给出最优化的结果和参数。相当于一种贪心算法:通过对当前模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。
相应的,本发明实施例还公开了一种PM2.5预测系统,参见图2所示,该系统包括:
污染数据获取模块11,用于获取污染物数据及环境特征因子;
污染检测模块12,用于利用预先建立的污染预测模型对污染物数据及环境特征因子进行检测,得到污染预测报告;
其中,污染预测模型的训练过程包括:
预先利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型;
对多个原始预测模型进行评估筛选,得到最优预测模型;
对最优预测模型进行迭代优化,得到污染预测模型。
可见,本发明实施例利用机器学习算法和大数据构建污染预测模型,使得污染预测模型能够结合大数据深度挖掘影响污染物浓度的各因子之间内在的数据关系,建立起能够更为准确的反应空气污染物浓度与影响因子之间复杂机制的预测模型,提高了污染预测的准确度。
具体的,上述污染数据获取模块11,可以包括原始污染数据获取子模块和数据插值子模块;其中,
原始污染数据获取子模块,用于获取原始污染物数据及原始环境特征因子;
数据插值子模块,用于对原始污染物数据及原始环境特征因子中缺测数据进行插值处理,得到污染预测模型能够评估的污染物数据及环境特征因子。
具体的,上述数据插值子模块,可以包括数据插值单元和类别数据处理单元;其中,
连续数据插值单元,用于对原始污染物数据及原始环境特征因子中缺测的连续数据进行插值处理,得到第一插值污染物数据及第一插值环境特征因子;
非连续数据插值单元,用于对原始环境特征因子中非连续值的类别数据利用OneHot方法处理,得到第二插值环境特征因子;
类别数据处理单元,用于综合第一插值污染物数据、第一插值环境特征因子及第二插值环境特征因子,得到污染预测模型能够评估的污染物数据及环境特征因子。
具体的,上述类别数据处理单元,可以包括类别数据处理子单元和数据缩放子单元;其中,
类别数据处理子单元,用于综合第一插值污染物数据、第一插值环境特征因子及第二插值环境特征因子,得到数据清洗后的清洗污染物数据及清洗环境特征因子;
数据缩放子单元,用于对清洗污染物数据及清洗环境特征因子进行数据缩放,得到污染预测模型能够评估的污染物数据及环境特征因子。
其中,污染物数据,包括NOx、NO2、SO2和O3;环境特征因子,包括蒸发量和/或气温和/或相对湿度和/或风速和/或风向和/或气压和/或降雨量和/或太阳辐射和/或能见度和/或大气边界层高度和/或气溶胶光学厚度和/或季节和/或月份和/或交通密度。
具体的,上述对多个原始预测模型进行评估筛选,得到最优预测模型的过程,包括:
利用RMSE与R2评价指标,对多个原始预测模型进行评估筛选,得到最优预测模型。
具体的,上述对最优预测模型进行迭代优化,得到污染预测模型的过程,包括:
利用GridSearchCV方法对最优预测模型进行迭代优化,得到污染预测模型。
此外,本发明实施例还公开了一种PM2.5预测装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序以实现如前述的PM2.5预测方法。
另外,本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述的PM2.5预测方法。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本发明所提供的技术内容进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种PM2.5预测方法,其特征在于,包括:
获取污染物数据及环境特征因子;
利用预先建立的污染预测模型对所述污染物数据及所述环境特征因子进行检测,得到污染预测报告;
其中,所述污染预测模型的训练过程包括:
预先利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型;
对多个原始预测模型进行评估筛选,得到最优预测模型;
对所述最优预测模型进行迭代优化,得到所述污染预测模型。
2.根据权利要求1所述的PM2.5预测方法,其特征在于,所述获取污染物数据及环境特征因子的过程,包括:
获取原始污染物数据及原始环境特征因子;
对所述原始污染物数据及所述原始环境特征因子中缺测数据进行插值处理,得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子。
3.根据权利要求2所述的PM2.5预测方法,其特征在于,所述对所述原始污染物数据及所述原始环境特征因子中缺测数据进行插值处理,得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子的过程,包括:
对所述原始污染物数据及所述原始环境特征因子中缺测的连续数据进行插值处理,得到第一插值污染物数据及第一插值环境特征因子;
对所述原始环境特征因子中非连续值的类别数据利用OneHot方法处理,得到第二插值环境特征因子;
综合所述第一插值污染物数据、所述第一插值环境特征因子及所述第二插值环境特征因子,得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子。
4.根据权利要求3所述的PM2.5预测方法,其特征在于,所述综合所述第一插值污染物数据、所述第一插值环境特征因子及所述第二插值环境特征因子,得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子的过程,包括:
综合所述第一插值污染物数据、所述第一插值环境特征因子及所述第二插值环境特征因子,,得到数据清洗后的清洗污染物数据及清洗环境特征因子;
对所述清洗污染物数据及所述清洗环境特征因子进行数据缩放,得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子。
5.根据权利要求1至4任一项所述的PM2.5预测方法,其特征在于,所述污染物数据,包括NOx、NO2、SO2和O3;
所述环境特征因子,包括蒸发量和/或气温和/或相对湿度和/或风速和/或风向和/或气压和/或降雨量和/或太阳辐射和/或能见度和/或大气边界层高度和/或气溶胶光学厚度和/或季节和/或月份和/或交通密度。
6.根据权利要求1至4任一项所述的PM2.5预测方法,其特征在于,所述对多个原始预测模型进行评估筛选,得到最优预测模型的过程,包括:
利用RMSE与R2评价指标,对多个原始预测模型进行评估筛选,得到最优预测模型。
7.根据权利要求6所述的PM2.5预测方法,其特征在于,所述对所述最优预测模型进行迭代优化,得到所述污染预测模型的过程,包括:
利用GridSearchCV方法对所述最优预测模型进行迭代优化,得到所述污染预测模型。
8.一种PM2.5预测系统,其特征在于,包括:
污染数据获取模块,用于获取污染物数据及环境特征因子;
污染检测模块,用于利用预先建立的污染预测模型对所述污染物数据及所述环境特征因子进行检测,得到污染预测报告;
其中,所述污染预测模型的训练过程包括:
预先利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型;
对多个原始预测模型进行评估筛选,得到最优预测模型;
对所述最优预测模型进行迭代优化,得到所述污染预测模型。
9.一种PM2.5预测装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7任一项所述的PM2.5预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的PM2.5预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110851247.4A CN113537515A (zh) | 2021-07-27 | 2021-07-27 | Pm2.5预测方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110851247.4A CN113537515A (zh) | 2021-07-27 | 2021-07-27 | Pm2.5预测方法、系统、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113537515A true CN113537515A (zh) | 2021-10-22 |
Family
ID=78089237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110851247.4A Pending CN113537515A (zh) | 2021-07-27 | 2021-07-27 | Pm2.5预测方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537515A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239943A (zh) * | 2021-12-09 | 2022-03-25 | 中国建筑科学研究院天津分院 | 一种气溶胶浓度预测方法 |
CN115656446A (zh) * | 2022-12-26 | 2023-01-31 | 沃客森信息科技(常州)有限公司 | 一种基于物联网的空气质量检测系统及方法 |
CN116976146A (zh) * | 2023-09-22 | 2023-10-31 | 中国石油大学(华东) | 耦合物理驱动和数据驱动的压裂井产量预测方法与系统 |
CN117828992A (zh) * | 2024-01-04 | 2024-04-05 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种高时空分辨ccn数浓度精准预测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330300A (zh) * | 2017-08-24 | 2017-11-07 | 中国科学技术大学 | 一种基于支持向量回归的车辆尾气浓度反演方法 |
CN110009042A (zh) * | 2019-04-08 | 2019-07-12 | 中诚信征信有限公司 | 一种数据预测方法、装置、电子设备及存储介质 |
CN110334732A (zh) * | 2019-05-20 | 2019-10-15 | 北京思路创新科技有限公司 | 一种基于机器学习的空气质量预报方法和装置 |
CN111027771A (zh) * | 2019-12-10 | 2020-04-17 | 浙江力石科技股份有限公司 | 景区客流量预估方法、系统、装置及可存储介质 |
CN111489015A (zh) * | 2020-03-20 | 2020-08-04 | 天津大学 | 基于多种模型对比和优化的大气o3浓度预测方法 |
CN111861274A (zh) * | 2020-08-03 | 2020-10-30 | 生态环境部南京环境科学研究所 | 一种水环境风险预测预警方法 |
CN112732691A (zh) * | 2021-01-07 | 2021-04-30 | 云南电网有限责任公司电力科学研究院 | 一种基于多种模型对比的大气环境预测方法 |
-
2021
- 2021-07-27 CN CN202110851247.4A patent/CN113537515A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330300A (zh) * | 2017-08-24 | 2017-11-07 | 中国科学技术大学 | 一种基于支持向量回归的车辆尾气浓度反演方法 |
CN110009042A (zh) * | 2019-04-08 | 2019-07-12 | 中诚信征信有限公司 | 一种数据预测方法、装置、电子设备及存储介质 |
CN110334732A (zh) * | 2019-05-20 | 2019-10-15 | 北京思路创新科技有限公司 | 一种基于机器学习的空气质量预报方法和装置 |
CN111027771A (zh) * | 2019-12-10 | 2020-04-17 | 浙江力石科技股份有限公司 | 景区客流量预估方法、系统、装置及可存储介质 |
CN111489015A (zh) * | 2020-03-20 | 2020-08-04 | 天津大学 | 基于多种模型对比和优化的大气o3浓度预测方法 |
CN111861274A (zh) * | 2020-08-03 | 2020-10-30 | 生态环境部南京环境科学研究所 | 一种水环境风险预测预警方法 |
CN112732691A (zh) * | 2021-01-07 | 2021-04-30 | 云南电网有限责任公司电力科学研究院 | 一种基于多种模型对比的大气环境预测方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239943A (zh) * | 2021-12-09 | 2022-03-25 | 中国建筑科学研究院天津分院 | 一种气溶胶浓度预测方法 |
CN115656446A (zh) * | 2022-12-26 | 2023-01-31 | 沃客森信息科技(常州)有限公司 | 一种基于物联网的空气质量检测系统及方法 |
CN116976146A (zh) * | 2023-09-22 | 2023-10-31 | 中国石油大学(华东) | 耦合物理驱动和数据驱动的压裂井产量预测方法与系统 |
CN116976146B (zh) * | 2023-09-22 | 2024-01-05 | 中国石油大学(华东) | 耦合物理驱动和数据驱动的压裂井产量预测方法与系统 |
CN117828992A (zh) * | 2024-01-04 | 2024-04-05 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种高时空分辨ccn数浓度精准预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363347B (zh) | 基于决策树索引的神经网络预测空气质量的方法 | |
CN113537515A (zh) | Pm2.5预测方法、系统、装置及存储介质 | |
CN112529240B (zh) | 一种大气环境数据的预测方法、系统、装置及存储介质 | |
CN110531030B (zh) | 一种基于物联网大数据大气污染物分析的方法及装置 | |
CN110716512A (zh) | 一种基于燃煤电站运行数据的环保装备性能预测方法 | |
CN106651036A (zh) | 空气质量预报系统 | |
CN109146161A (zh) | 融合栈式自编码和支持向量回归的pm2.5浓度预测方法 | |
CN111626518A (zh) | 基于深度学习神经网络的城市天级需水量在线预测方法 | |
Lu et al. | Using improved neural network model to analyze RSP, NO x and NO 2 levels in urban air in Mong Kok, Hong Kong | |
CN111339092B (zh) | 一种基于深度学习的多尺度空气质量预报方法 | |
CN110766222B (zh) | 基于粒子群参数优化和随机森林的pm2.5浓度预测方法 | |
CN101826090A (zh) | 基于最优模型的web舆情趋势预测方法 | |
CN111489015A (zh) | 基于多种模型对比和优化的大气o3浓度预测方法 | |
CN111369057A (zh) | 一种基于深度学习的空气质量预测优化方法及系统 | |
CN112732691A (zh) | 一种基于多种模型对比的大气环境预测方法 | |
CN113987912A (zh) | 一种基于地理信息的污染物在线监测系统 | |
CN115860286A (zh) | 一种基于时序门机制的空气质量预测方法及系统 | |
Li et al. | Research on air quality prediction based on machine learning | |
Cui et al. | Deep learning methods for atmospheric PM2. 5 prediction: A comparative study of transformer and CNN-LSTM-attention | |
Jia et al. | Regional air quality forecast using a machine learning method and the WRF model over the Yangtze River Delta, east China | |
CN112990531B (zh) | 一种基于特征增强ConvLSTM的雾霾预测方法 | |
CN112766581A (zh) | 一种计算机自动识别预报人工防雹作业潜势的方法 | |
CN117370813A (zh) | 一种基于k线模式匹配算法的大气污染深度学习预测方法 | |
Manukova-Marinova et al. | An approach to developing a monitoring and control of pollution from industrial processes | |
CN116662935A (zh) | 基于空气质量监测网络的大气污染物空间分布预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |