CN115510763A - 一种基于数据驱动探索的空气污染物浓度预测方法及系统 - Google Patents
一种基于数据驱动探索的空气污染物浓度预测方法及系统 Download PDFInfo
- Publication number
- CN115510763A CN115510763A CN202211300871.6A CN202211300871A CN115510763A CN 115510763 A CN115510763 A CN 115510763A CN 202211300871 A CN202211300871 A CN 202211300871A CN 115510763 A CN115510763 A CN 115510763A
- Authority
- CN
- China
- Prior art keywords
- data
- control equation
- fitting
- air
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000809 air pollutant Substances 0.000 title claims abstract description 71
- 231100001243 air pollutant Toxicity 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 49
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000004069 differentiation Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 85
- 230000009466 transformation Effects 0.000 claims description 33
- 239000000356 contaminant Substances 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 239000003344 environmental pollutant Substances 0.000 claims description 13
- 231100000719 pollutant Toxicity 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000009411 base construction Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 2
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 abstract description 11
- 238000010801 machine learning Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012896 Statistical algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003915 air pollution Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000003912 environmental pollution Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005610 quantum mechanics Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/06—Investigating concentration of particle suspensions
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
- G01N33/0009—General constructional details of gas analysers, e.g. portable test equipment
- G01N33/0062—General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method or the display, e.g. intermittent measurement or digital display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biochemistry (AREA)
- Mathematical Analysis (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Biomedical Technology (AREA)
- Analytical Chemistry (AREA)
- Computational Linguistics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Medicinal Chemistry (AREA)
- Food Science & Technology (AREA)
- Operations Research (AREA)
- Combustion & Propulsion (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Dispersion Chemistry (AREA)
- Feedback Control In General (AREA)
Abstract
本发明属于空气质量监测技术领域,具体涉及一种基于数据驱动探索的空气污染物浓度预测方法及系统;该方法包括:采集空气质量数据并对其进行预处理;采用深度神经网络对预处理后的空气质量数据进行数据拟合,并对数据拟合结果进行自动微分,得到影响因素微分项;根据影响因素微分项构建候选函数库;根据候选函数库中的函数项构建控制方程模型;获取待预测时间段的气象因子数据并将其输入到控制方程模型中,得到空气污染物浓度预测结果;本发明预测精度高,其可解释性良好,实用性高。
Description
技术领域
本发明属于空气质量监测技术领域,具体涉及一种基于数据驱动探索的空气污染物浓度预测方法及系统。
背景技术
控制方程在许多学科中都发挥着重要作用,控制方程的确定有助于我们对各类工程学科中系统的建模、模拟和理解。然而,传统上,控制方程都是基于一些原理在数学或物理上推导出来的,例如从量子力学中的薛定谔方程到分子动力学模型,从玻尔兹曼方程到纳维-斯托克斯方程等,这需要具备全面的物理及数学知识。随着最近十年传感器的计算能力和数据存储的快速发展,现在可以轻松收集、存储和处理大量数据。庞大的数据量为数据驱动探索的控制方程发现提供了新的机会。
伴随着城市化和工业化的进程,越来越多的环境污染问题也引起了大众的关注。空气污染是影响居民健康的一个重要环境污染源。为了监测与防治大气污染物,许多城市都建立了自己的空气质量监测站点,监测站点将会实时的获取城市的空气污染物浓度。通过分析与研究城市的大气污染物浓度,科研机构可以有效的辅助政府制定符合公众利益的环保政策。
网格化监测需要获取监测区域完整的空间数据。由于空气质量监测站点只能覆盖一定的监测区域,稀疏的空气质量监测站点无法完全覆盖一个城市,因此往往我们获取到的空气质量数据都是稀疏的,并且在时间及空间上也不具有连续性。现实中往往采用各种空间插值算法来将稀疏的站点监测数据推广到整个城市平面,这个过程被称作空间分辨率提高。这些算法主要分为两类,一类是统计学算法,包括Kriging插值和反距离加权(Inverse Distance Weighted)等;另一类是机器学习算法,包括随机森林(RandomForest)、多层感知机(Multilayer Perceptron)和神经网络等。距离与空气污染物浓度具有相关性是统计学算法的一个基本的假设,这种简单的假设不能很好的反映空气污染物空间分布的机理,并且往往无法考虑空气污染物浓度的时变特征。机器学习算法可以结合空气污染物的历史浓度,以及融合多种空气污染物浓度来提高空气污染物浓度的空间分辨率。但由于机器学习算法注重于拟合数据以及其不直观的内部机理,使得机器学习模型中的计算复杂度较高,并且机器学习算法结合空气污染物的历史数据往往只是简单的作为模型的输入,空气污染物的时变规律无法被直接描述,这使得提高空气污染物浓度的空间分辨率和分析空气污染物浓度的时变特性成为相互独立的两个问题。
发明内容
针对现有技术存在的不足,本发明提出了一种基于数据驱动探索的空气污染物浓度预测方法及系统,该方法包括:
S1:采集空气质量数据并对其进行预处理,空气质量数据包括空气污染物浓度数据和气象因子数据;
S2:采用深度神经网络对预处理后的空气质量数据进行数据拟合,并对数据拟合结果进行自动微分,得到影响因素微分项;
S3:根据影响因素微分项构建候选函数库;
S4:根据候选函数库中的函数项构建控制方程模型;
S5:获取待预测时间段的气象因子数据并将其输入到控制方程模型中,得到空气污染物浓度预测结果。
优选的,对空气质量数据进行预处理的过程包括:
S11:对气象因子数据进行坐标变换,得到坐标变换后的气象因子数据;
S12:采用卡尔曼滤波对空气污染物浓度数据进行平滑去噪处理。
优选的,得到影响因素微分项的过程包括:将深度神经网络作为空气污染物浓度的逼近函数并对空气质量数据进行数据拟合,定义拟合损失函数,根据拟合损失函数进行神经网络反向传输并对数据拟合结果进行自动微分,得到影响因素微分项。
进一步的,拟合损失函数为:
其中,Ld(δ;Du)表示拟合损失函数,xi表示每种气象因子的第i个数据,ti表示ti时刻,δ表示神经网络第一优化参数,N表示数据点个数;表示输入神经网络的数据点,u(xi,ti)表示输入神经网络的第i个数据点,NN(xi,ti;δ)表示神经网络训练后拟合的第i个数据点。
优选的,构建控制方程模型的过程包括:
S41:删除候选函数库中的一个函数项,计算删除前后空气污染物浓度关于时间的导数,并根据删除前后空气污染物浓度关于时间的导数计算第一均方误差;
S42:重复步骤41,直到所有函数项均被计算过,选择均方误差最大的一项作为控制方程第一项;
S43:增加函数库中剩下的函数项中的一项,计算增加前后空气污染物浓度关于时间的导数,并根据增加前后空气污染物浓度关于时间的导数计算第二均方误差;
S44:重复步骤43,直到所有函数项均被计算过;
S45:设置超参数ε根据第二均方误差值以其从小到大的顺序依次将对应的函数项加入到控制方程,直到加入函数项后的第二均方误差大于超参数ε,得到初始控制方程;
S46:构建总损失函数,计算使得总损失值最小的优化参数,将优化参数代入初始控制方程,得到中间控制方程模型;
S47:采用链式法则对空气质量数据进行处理,得到还原的控制方程参数;根据还原的控制方程参数对中间控制方程模型进行处理,得到完整的控制方程模型。
进一步的,总损失函数为:
L(δ,θ,Λ;Du,Dc)=Ld(δ;Du)+αLp(θ,Λ;Dc)+β||Λ||0
其中,L(δ,θ,Λ;Du,Dc)表示总损失,Ld(δ;Du)表示拟合损失,Lp(θ,Λ;Dc)表示学习损失,α表示相对权重,β表示正则参数,Λ表示方程的系数矩阵;δ,θ分别表示神经网络第一优化参数和第二优化参数,表示输入神经网络的数据点,表示神经网络拟合后的数据点,||·||0表示0范数。
进一步的,采用链式法则对空气质量数据进行处理的公式为:
其中,U表示神经网络拟合后的空气污染物浓度,τ表示坐标变换后的时间变量,t表示原时间变量,σ(t)表示原时间变量的标准差,ξ表示坐标变换后的气象因子数据,x表示原气象因子数据,σ(x)表示原气象因子数据的标准差,Ut表示污染物浓度对原时间变量的微分,Uτ表示污染物浓度对坐标变换后的时间变量的微分,Ux表示污染物浓度对原气象因子变量的微分,Uξ表示污染物浓度对坐标变换后的气象因子变量的微分,Uxx表示污染物浓度对原气象因子变量的二阶微分,Uξξ表示污染物浓度对坐标变换后的气象因子变量的二阶微分。
一种基于数据驱动探索的空气污染物浓度预测系统,包括:数据采集模块、数据预处理模块、数据拟合模块、函数库构建模块、控制方程构建模块以及预测模块;
所述数据采集模块用于采集空气质量数据;
所述数据预处理模块用于对空气质量数据进行坐标变换和平滑去噪处理,得到预处理后的空气质量数据;
所述数据拟合模块用于采用神经网络对空气质量数据进行数据拟合和自动微分处理,得到影响因素微分项;
所述函数库构建模块用于根据影响因素微分项构建候选函数库;
所述控制方程构建模块用于根据候选函数库构建控制方程模型;
所述预测模块用于采集待预测时间段的气象因子数据并将其输入到控制方程模型中,得到空气污染物浓度预测结果。
本发明的有益效果为:本发明通过运用机器学习对数据进行拟合,发现其中存在的潜在规律,明晰变量之间的关系,并采用控制方程直观的反映变量之间的关系,通过控制方程反映的关系能够精准预测测量数据范围之外的数据量。本发明挖掘空气污染物浓度与其影响因素之间的关系,以控制方程的形式给出。现有的空气污染物预测模型大多为时序预测,需要严格的时序数据,而真实数据中含有大量缺失值及异常值,这对于此类模型是十分不友好的,且模型为黑盒子模型,不具备可解释性;而本发明的输入数据可以是稀疏数据,通过历史数据学习出污染物浓度与气象因子之间的潜在规律,从而预测污染物浓度,预测精度高,且具有良好的可解释性,对于实际研究大气环境也能提供良好的参考意见。
附图说明
图1为本发明中基于数据驱动探索的空气污染物浓度预测方法流程图;
图2为本发明中基于数据驱动探索的空气污染物浓度预测方法结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于数据驱动探索的空气污染物浓度预测方法及系统,如图1、图2所示,所述方法包括:
S1:采集空气质量数据并对其进行预处理,空气质量数据包括空气污染物浓度数据和气象因子数据。
采集当前时刻以及过去一段时间内的空气质量数据,空气质量数据包括空气污染物浓度的时间序列数据和影响空气污染物浓度的影响因素数据即气象因子数据,例如,空气污染物可以是PM10、臭氧或PM2.5等污染物的时间序列数据。气象因子数据包括温度、湿度、降雨量、风速等气象因子的时间序列数据。
对采集的空气质量数据进行预处理,包括:
S11:对气象因子数据进行坐标变换,得到坐标变换后的气象因子数据。
由于获取的空气质量数据尺度不一并且含有大量噪声,因此需要对数据进行坐标变换及去噪处理,坐标变换主要是对原始数据进性线性变换:
其中,τ表示坐标变换后的时间变量,t表示原时间变量;ξ表示坐标变换后的气象因子数据,ξ=[ξ1,...,ξS];x表示原气象因子数据,x=[x1,...,xS]。表示对应数据的均值,σ(·)表示标准差。
上述变换没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将每组数据变为均值为0、标准差为1的数据,便于后续模型处理。
S12:采用卡尔曼滤波对空气污染物浓度数据进行平滑去噪处理。
原始的空气污染物浓度数据含有大量噪声,需要对其进行去噪处理;经过坐标变换的缩放处理和平滑去噪处理后,得到预处理好的空气质量数据。
S2:采用深度神经网络对预处理后的空气质量数据进行数据拟合,并对数据拟合结果进行自动微分,得到影响因素微分项。
将深度神经网络作为空气污染物浓度的逼近函数并对空气质量数据进行拟合,定义拟合损失函数,根据拟合损失函数进行神经网络反向传输并对数据拟合结果进行自动微分,得到影响因素微分项;
拟合损失函数为:
其中,Ld(δ;Du)表示拟合损失函数;x=[x1,...,xm],m表示气象因子的种类数量,xi表示每种气象因子的第i个数据;ti表示ti时刻,δ表示神经网络第一优化参数;N表示数据点个数;表示输入神经网络的数据点,u(xi,ti)表示输入神经网络的第i个数据点,NN(xi,ti;δ)表示神经网络训练后拟合的第i个数据点。
使用Adam优化器来迭代优化上述损失函数。同时,利用神经网络的反向传播多数据进行自动微分得到污染物浓度与变量(时间和气象因子)之间的导数,用于下一步候选函数库的构建。相对于数值微分,利用神经网络进行自动微分可以降低数据噪声的干扰,并且其扩展性及稳定性更好。
S3:根据影响因素微分项构建候选函数库。
候选函数库用于选出可能会出现在控制方程中的函数项,以描述污染物浓度与各项影响因素之间可能会出现的潜在关系;可通过先验知识从影响因素微分项中筛选一部分,在没有先验知识时也可枚举,候选函数库的构建可表示为φ=φ(U)∈R1×s,包含关于空间变量的多项式,三角函数项等,φ={1,U2,U3,Ux,Uy,Uxx,...,sin(U),cos(U),...},U表示神经网络拟合后的空气污染物浓度,s为函数库中候选函数的个数,其中每一项代表污染物浓度与各项影响因素可能存在的潜在关系。
S4:根据候选函数库中的函数项构建控制方程模型。
控制方程的形式一般为:
其中,U表示神经网络拟合后的空气污染物浓度;Ut为U关于时间的一阶导数;t∈[0,T]为时间变量;x∈Ω为空气污染浓度影响因素变量,即气象因子;为梯度算子;F[·]为关于U及其影响因素变量导数的复杂非线性函数,λ为各函数项的系数向量,通过控制方程可以直观的表示出其中的潜在关系及趋势。
通过评估产生的回归误差和模型复杂性,递归地检查函数库中每一项的重要性,最重要的项被逐步识别并添加到控制方程模型中,直到添加更多项的效果减弱,确定控制方程的形式;控制方程的形式是逐步确定的。首先依次删除候选列表中的每一项,比较删除后的误差来确定最具有贡献的一项,然后在依次加入其他项直到差值大于ε时,停止加入即在依次加入其他项直到不再显著提高精度为止;具体过程如下:
S41:删除候选函数库中的一个函数项,计算删除前后空气污染物浓度关于时间的导数,并根据删除前后空气污染物浓度关于时间的导数计算第一均方误差。
根据控制方程的一般形式,采用最小二乘回归评估回归误差,计算第一均方误差的公式为:
删除候选函数库中的一个函数项后的第一均方误差值越大,则说明该项的贡献度越大。
S42:重复步骤41,直到所有函数项均被计算过,选择均方误差最大的一项作为控制方程第一项。
S43:增加函数库中剩下的函数项中的一项,计算增加前后空气污染物浓度关于时间的导数,并根据增加前后空气污染物浓度关于时间的导数计算第二均方误差;计算公式为:
若加入该项后差值越小,则说明该项贡献度相比其他项大,则将该项加入方程中。
S44:重复步骤43,直到所有函数项均被计算过。
S45:设置超参数ε;根据第二均方误差值以其从小到大的顺序依次将对应的函数项加入到控制方程,直到加入函数项后的第二均方误差大于超参数ε,得到初始控制方程。
S46:构建总损失函数,计算使得总损失值最小的优化参数,将优化参数代入初始控制方程,得到中间控制方程模型。
为了确认方程中函数项的系数即优化参数,构建总损失函数,该总损失函数包括三项,第一项为拟合损失,其在神经网络拟合数据用来近似潜在解的过程中产生的,表示为Ld(δ;Du);第二项为学习损失,其在构造控制方程中学习候选函数系数产生的,表示为:
其中,θ表示神经网络第二优化参数,表示神经网络拟合后的数据点,U表示神经网络拟合后的空气污染物浓度,Ut表示U关于时间的一阶导数,φ表示候选函数库,Λ表示方程的系数矩阵,F[·]为关于U及其影响因素变量导数的复杂非线性函数。
第三项为正则化项;整体的总损失函数表示为:
L(δ,θ,Λ;Du,Dc)=Ld(δ;Du)+αLp(θ,Λ;Dc)+β||Λ||0
其中,L(δ,θ,Λ;Du,Dc)表示总损失,Ld(δ;Du)表示拟合损失,Lp(θ,Λ;Dc)表示学习损失,α表示相对权重,β表示正则参数,Λ表示方程的系数矩阵;δ,θ分别表示神经网络第一优化参数和第二优化参数,表示输入神经网络的数据点,表示神经网络拟合后的数据点,||·||0表示0范数。{δ,θ,Λ}为需要优化的参数,即{δ*,θ*,Λ*}:=argmin{δ,θ,Λ}[L(δ,θ,Λ;Du,Dc)],通过多次迭代找到一组系数参数{δ,θ,Λ},使得上述函数值最小,得到优化参数(第一优化参数δ、第二优化参数θ和系数矩阵Λ);将该优化参数代入控制方程,得到中间控制方程模型。
S47:采用链式法则对空气质量数据进行处理,得到还原的控制方程参数;根据还原的控制方程参数对中间控制方程模型进行处理,得到完整的控制方程模型。
由于坐标变换会改变控制方程的最终形式,因此,在坐标变换下拟合神经网络,需要通过链式法则对控制方程进行还原,公式为:
其中,U表示神经网络拟合后的空气污染物浓度,τ表示坐标变换后的时间变量,t表示原时间变量,σ(t)表示原时间变量的标准差,ξ表示坐标变换后的气象因子数据,x表示原气象因子数据,σ(x)表示原气象因子数据的标准差,Ut表示污染物浓度对原时间变量的微分,Uτ表示污染物浓度对坐标变换后的时间变量的微分,Ux表示污染物浓度对原气象因子变量的微分,Uξ表示污染物浓度对坐标变换后的气象因子变量的微分,Uxx表示污染物浓度对原气象因子变量的二阶微分,Uξξ表示污染物浓度对坐标变换后的气象因子变量的二阶微分。涉及到其他微分项,处理方法同理。
根据还原的控制方程参数将中间控制方程模型还原,得到完整的控制方程模型。
S5:获取待预测时间段的气象因子数据并将其输入到控制方程模型中,得到空气污染物浓度预测结果。
获取待预测时间段的气象因子数据,将其输入到控制方程模型中,可得到空气污染物浓度预测结果;可将得到的预测结果与测试数据进行比较,通过均方根误差(RMSE),平均绝对误差(MAE)和平均绝对百分比误差(MAPE)等评价指标来检验预测的效果。
均方根误差公式为:
平均绝对误差公式为:
平均绝对百分比误差公式为:
通过对预测结果效果进行检测,可发现采用本发明预测的结果较为理想,体现了本发明的合理性,精度高,实用性好。
本发明还提供了一种基于数据驱动探索的空气污染物浓度预测系统,该系统用于执行上述一种基于数据驱动探索的空气污染物浓度预测方法,包括:数据采集模块、数据预处理模块、数据拟合模块、函数库构建模块、控制方程构建模块以及预测模块;
所述数据采集模块用于采集空气质量数据;包括从气象监测设备获得气象数据和从空气监测设备获取空气污染物浓度数据;
所述数据预处理模块用于对空气质量数据进行坐标变换和平滑去噪处理,得到预处理后的空气质量数据;
所述数据拟合模块用于采用神经网络对空气质量数据进行数据拟合和自动微分处理,得到影响因素微分项;
所述函数库构建模块用于根据影响因素微分项构建候选函数库;
所述控制方程构建模块用于根据候选函数库构建控制方程模型;
所述预测模块用于采集待预测时间段的气象因子数据并将其输入到控制方程模型中,得到空气污染物浓度预测结果。
利用本发明,相关环保组织可根据空气污染物浓度预测结果制定及时的措施以减少污染物的产生,保护环境。
本发明通过运用机器学习对数据进行拟合,可以发现其中存在的潜在规律,明晰变量之间的关系,而控制方程可以直观反映这种关系。通过这种关系能够精准预测测量数据范围之外的数据量。本发明挖掘空气污染物浓度与其影响因素之间的关系,以控制方程的形式给出,不同于目前机器学习中许多黑盒子模型,本发明的预测模型带有良好的可解释性。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于数据驱动探索的空气污染物浓度预测方法,其特征在于,包括:
S1:采集空气质量数据并对其进行预处理,空气质量数据包括空气污染物浓度数据和气象因子数据;
S2:采用深度神经网络对预处理后的空气质量数据进行数据拟合,并对数据拟合结果进行自动微分,得到影响因素微分项;
S3:根据影响因素微分项构建候选函数库;
S4:根据候选函数库中的函数项构建控制方程模型;
S5:获取待预测时间段的气象因子数据并将其输入到控制方程模型中,得到空气污染物浓度预测结果。
2.根据权利要求1所述的一种基于数据驱动探索的空气污染物浓度预测方法,其特征在于,对空气质量数据进行预处理的过程包括:
S11:对气象因子数据进行坐标变换,得到坐标变换后的气象因子数据;
S12:采用卡尔曼滤波对空气污染物浓度数据进行平滑去噪处理。
3.根据权利要求1所述的一种基于数据驱动探索的空气污染物浓度预测方法,其特征在于,得到影响因素微分项的过程包括:将深度神经网络作为空气污染物浓度的逼近函数并对空气质量数据进行数据拟合,定义拟合损失函数,根据拟合损失函数进行神经网络反向传输并对数据拟合结果进行自动微分,得到影响因素微分项。
5.根据权利要求1所述的一种基于数据驱动探索的空气污染物浓度预测方法,其特征在于,构建控制方程模型的过程包括:
S41:删除候选函数库中的一个函数项,计算删除前后空气污染物浓度关于时间的导数,并根据删除前后空气污染物浓度关于时间的导数计算第一均方误差;
S42:重复步骤41,直到所有函数项均被计算过,选择均方误差最大的一项作为控制方程第一项;
S43:增加函数库中剩下的函数项中的一项,计算增加前后空气污染物浓度关于时间的导数,并根据增加前后空气污染物浓度关于时间的导数计算第二均方误差;
S44:重复步骤43,直到所有函数项均被计算过;
S45:设置超参数ε;根据第二均方误差值以其从小到大的顺序依次将对应的函数项加入到控制方程,直到加入函数项后的第二均方误差大于超参数ε,得到初始控制方程;
S46:构建总损失函数,计算使得总损失值最小的优化参数,将优化参数代入初始控制方程,得到中间控制方程模型;
S47:采用链式法则对空气质量数据进行处理,得到还原的控制方程参数;根据还原的控制方程参数对中间控制方程模型进行处理,得到完整的控制方程模型。
6.根据权利要求5所述的一种基于数据驱动探索的空气污染物浓度预测方法,其特征在于,总损失函数为:
L(δ,θ,Λ;Du,Dc)=Ld(δ;Du)+αLp(θ,Λ;Dc)+β||Λ||0
其中,L(δ,θ,Λ;Du,Dc)表示总损失,Ld(δ;Du)表示拟合损失,Lp(θ,Λ;Dc)表示学习损失,α表示相对权重,β表示正则参数,Λ表示方程的系数矩阵;δ,θ分别表示神经网络第一优化参数和第二优化参数,Du表示输入神经网络的数据点,Dc表示神经网络拟合后的数据点,||·||0表示0范数。
7.根据权利要求5所述的一种基于数据驱动探索的空气污染物浓度预测方法,其特征在于,采用链式法则对空气质量数据进行处理的公式为:
其中,U表示神经网络拟合后的空气污染物浓度,τ表示坐标变换后的时间变量,t表示原时间变量,σ(t)表示原时间变量的标准差,ξ表示坐标变换后的气象因子数据,x表示原气象因子数据,σ(x)表示原气象因子数据的标准差,Ut表示污染物浓度对原时间变量的微分,Uτ表示污染物浓度对坐标变换后的时间变量的微分,Ux表示污染物浓度对原气象因子变量的微分,Uξ表示污染物浓度对坐标变换后的气象因子变量的微分,Uxx表示污染物浓度对原气象因子变量的二阶微分,Uξξ表示污染物浓度对坐标变换后的气象因子变量的二阶微分。
8.一种基于数据驱动探索的空气污染物浓度预测系统,其特征在于,包括:数据采集模块、数据预处理模块、数据拟合模块、函数库构建模块、控制方程构建模块以及预测模块;
所述数据采集模块用于采集空气质量数据;
所述数据预处理模块用于对空气质量数据进行坐标变换和平滑去噪处理,得到预处理后的空气质量数据;
所述数据拟合模块用于采用神经网络对空气质量数据进行数据拟合和自动微分处理,得到影响因素微分项;
所述函数库构建模块用于根据影响因素微分项构建候选函数库;
所述控制方程构建模块用于根据候选函数库构建控制方程模型;
所述预测模块用于采集待预测时间段的气象因子数据并将其输入到控制方程模型中,得到空气污染物浓度预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211300871.6A CN115510763A (zh) | 2022-10-24 | 2022-10-24 | 一种基于数据驱动探索的空气污染物浓度预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211300871.6A CN115510763A (zh) | 2022-10-24 | 2022-10-24 | 一种基于数据驱动探索的空气污染物浓度预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115510763A true CN115510763A (zh) | 2022-12-23 |
Family
ID=84513230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211300871.6A Pending CN115510763A (zh) | 2022-10-24 | 2022-10-24 | 一种基于数据驱动探索的空气污染物浓度预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115510763A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117007476A (zh) * | 2023-10-08 | 2023-11-07 | 江苏卓正环保科技有限公司 | 一种基于物联网的环保智能终端数据采集系统 |
-
2022
- 2022-10-24 CN CN202211300871.6A patent/CN115510763A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117007476A (zh) * | 2023-10-08 | 2023-11-07 | 江苏卓正环保科技有限公司 | 一种基于物联网的环保智能终端数据采集系统 |
CN117007476B (zh) * | 2023-10-08 | 2023-12-15 | 江苏卓正环保科技有限公司 | 一种基于物联网的环保智能终端数据采集系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mishchuk et al. | Missing data imputation through SGTM neural-like structure for environmental monitoring tasks | |
Li et al. | Comparative analysis of BPNN, SVR, LSTM, Random Forest, and LSTM-SVR for conditional simulation of non-Gaussian measured fluctuating wind pressures | |
CN110309609B (zh) | 一种基于粗糙集和wnn的建筑室内空气品质评价方法 | |
Kişi | Evolutionary fuzzy models for river suspended sediment concentration estimation | |
US20220341996A1 (en) | Method for predicting faults in power pack of complex equipment based on a hybrid prediction model | |
CN114004137A (zh) | 一种多源气象数据融合与预处理方法 | |
Bai et al. | Novel hybrid extreme learning machine and multi-objective optimization algorithm for air pollution prediction | |
Shoaib et al. | Input selection of wavelet-coupled neural network models for rainfall-runoff modelling | |
CN110533239A (zh) | 一种智慧城市空气品质高精度测量方法 | |
CN114676822A (zh) | 一种基于深度学习的多属性融合空气质量预报方法 | |
CN115629160A (zh) | 一种基于时空图的空气污染物浓度预测方法及系统 | |
Precup et al. | Processing, neural network-based modeling of biomonitoring studies data and validation on Republic of Moldova data | |
CN115510763A (zh) | 一种基于数据驱动探索的空气污染物浓度预测方法及系统 | |
Peña et al. | A novel imputation method for missing values in air pollutant time series data | |
Kapadia et al. | Prediction of tropospheric ozone using artificial neural network (ANN) and feature selection techniques | |
Abd Rahman et al. | Artificial neural network forecasting performance with missing value imputations | |
Kocjančič et al. | Modelling of the river flowrate: the influence of the training set selection | |
CN116401962A (zh) | 水质模型最优特征方案的推求方法 | |
CN114970745B (zh) | 物联网智能安防与环境大数据系统 | |
CN115049026A (zh) | 基于gsnnr的空间非平稳性关系的回归分析方法 | |
Lu et al. | Meteorologically adjusted trends of daily maximum ozone concentrations in Taipei, Taiwan | |
CN113688506B (zh) | 基于微站等多维数据的潜在大气污染源识别方法 | |
CN108764583A (zh) | 森林蓄积量的无偏预估方法 | |
Ramlan et al. | Rainfall prediction in flood prone area using deep learning approach | |
CN114862032A (zh) | 一种基于XGBoost-LSTM的电网负荷预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |