CN116796291A - 一种基于lstm-mea-svr空气质量预报的系统 - Google Patents

一种基于lstm-mea-svr空气质量预报的系统 Download PDF

Info

Publication number
CN116796291A
CN116796291A CN202310461162.4A CN202310461162A CN116796291A CN 116796291 A CN116796291 A CN 116796291A CN 202310461162 A CN202310461162 A CN 202310461162A CN 116796291 A CN116796291 A CN 116796291A
Authority
CN
China
Prior art keywords
data
model
analysis
mea
svr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310461162.4A
Other languages
English (en)
Inventor
邹堉莹
项衍
杨建文
刘岳阳
路然
王继云
陈奕佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202310461162.4A priority Critical patent/CN116796291A/zh
Publication of CN116796291A publication Critical patent/CN116796291A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/95Lidar systems specially adapted for specific applications for meteorological use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Electromagnetism (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Probability & Statistics with Applications (AREA)
  • Atmospheric Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Ecology (AREA)
  • Environmental Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于LSTM‑MEA‑SVR空气质量预报的系统,包括数据处理、预测系统和模型分析,所述数据处理包括网络数据、数据预处理、数据特征分析、回归模型筛选数据和影响因子相关性分析,所述预测系统包括数据整理分析、数据预测和模型参数优化,所述模型分析包括拟合优度分析、召回率分析和数据输出。本发明新型涉及大气质量预报技术领域,具体为一种基于LSTM‑MEA‑SVR空气质量预报的系统。

Description

一种基于LSTM-MEA-SVR空气质量预报的系统
技术领域
本发明新型涉及大气质量预报技术领域,具体为一种基于LSTM-MEA-SVR空气质量预报的系统。
背景技术
近年来,空气污染日益严重,对人们的生产生活造成了极大的影响。在此背景下,国家大力推进空气质量预报发展,但目前相关技术仍有较大发展空间。所以空气质量预报对于响应国家号召、保护生态环境等方面都有着至关重要的作用。
目前大气气溶胶污染的研究工具是地面台站监测(如地基激光雷达观测)、卫星数据反演和数值模型。然而,由于地面观测站点分布不均匀、站点数量有限、观测结果误差大、地面监测系统建设成本高等原因,观测数据在研究污染物空间分布特征方面存在一定的局限性。因此,仅靠地面观测对大气污染进行综合研究是困难的。卫星遥感技术最近有了长足的进步。与传统观测技术相比,卫星遥感监测覆盖地域大,信息获取速度快。这些特性在一定程度上弥补了地面观测在空间和时间上的不足,成为大气环境研究的重要技术手段。随着计算机技术的不断发展,数值模型在大气污染研究中得到了广泛的应用。
发明新型内容
针对上述情况,为弥补上述现有缺陷,本方案提供了一种基于LSTM-MEA-SVR空气质量预报的系统。
一种基于LSTM-MEA-SVR空气质量预报的系统,包括数据处理、预测系统和模型分析,所述数据处理包括网络数据、数据预处理、数据特征分析、回归模型筛选数据和影响因子相关性分析,所述数据预处理与网络数据之间设有数据通道一,所述回归模型筛选数据与网络数据之间设有数据通道二,所述数据预处理与数据特征分析之间设有数据通道三,所述回归模型筛选数据与影响因子相关性分析之间设有数据通道四;所述预测系统包括数据整理分析、数据预测和模型参数优化,所述数据整理分析与数据特征分析和影响因子相关性分析之间均设有数据通道五,所述数据整理分析与数据预测之间设有数据通道六,所述数据预测与模型参数优化之间设有数据通道七;所述模型分析包括拟合优度分析、召回率分析和数据输出,所述拟合优度分析与模型参数优化之间设有数据通道八,所述召回率分析与模型参数优化之间设有数据通道九,所述数据输出与拟合优度分析和召回率分析之间均设有数据通道十;
所述数据预处理对收集到的空气质量数据进行预处理,并将数据进行标准化处理。
所述数据的获得采用激光雷达,通过建立了区域激光雷达立体探测网、地面常规监测网、卫星平台等多源观测的数据质量控制体系
建立数据预处理的模型以及通过MEA-SVR来进行模型参数的优化来克服过拟合问题的模型。
所述数据预处理中包括除去异常值、使用全局化的插值方法以及标准化处理数据,对收集到的空气质量数据进行预处理,并将数据进行标准化处理,使数据稳定在某一合理范围内,从而有利于深度学习模型的拟合,可以提升拟合优度,从而提升预测的精准度。为了帮助本研究中研究的预测模型的训练过程,可以使用以下等式将数据归一化作为预处理方法:
其中,xi是预测值,xrefi是观测值,是事件的所有观察到的规范化值i随机处理是基于统计和概率形成的建模理论,用于分析数据,在大多数情况下,随机进程按时间编制索引。
所述MEA是一种学习方法,通过收敛和异化操作不断迭代优化。个体在解决方案空间中随机生成,所有个体形成一个组。其中几个小组被选为上级组,其他组被保留为临时组。每个人的分数是根据适应度函数计算的。上组和临时亚组的数量为5个。在亚组中选择收敛,而在整个组中进行异化。算法执行时,收敛和异化同时进行,相互补充,共同提高了整体搜索效率。当优势组的子组全部成熟(分数不再增加)时,将不需要收敛操作。在临时亚组中,如果最高亚组得分低于任何高级亚组,则无需执行异化操作。此时,系统达到全局最优值。
通过极小化目标函数使学习模型达到最合理的拟合优度,通过建立MEA-SVR来进行模型参数的优化,来克服了过拟合问题,可以有效解决底层优化问题,因此该方法的泛化能力较高,在SVR中非线性映射用于映射数据Xi进入高维特
征空间,将多维非线性问题表述为高维线性问题,其中回归函数如下:
优化问题以最小化结构风险函数:
其中,约束条件:
其中,w∈Rn,b∈R和φ表示从空间到特征空间的高维特征映射。其中,(*)表示矢量符号。
采用拉格朗日函数的对偶优化问题可以写成如下:
其中,约束条件:
其中,k(xi,xj)是对偶问题的解决方案所依赖的内核函数,C称为正则化参数,ε是错误敏感度参数,σ控制模型非线性水平。在MEA-SVR算法中,最佳惩罚因子C、阈值ε和RBF核的方差σ2等参数只能对算法性能有很大的影响。因此,引入MEA算法来优化这些参数。
在对LSTM-MEA-SVR定义后,使用学习模型输出预测的结果,是将数据集划分为训练集、验证集与测试集,分别占60%,20%,20%的比例,训练通过初始的深度学习模型得到预测结果。
所述拟合优度分析,通过计算模型的结果与测试集数据的平均绝对误差MAE和均方根误差RMSE和一致性指数IA,来判断拟合优度,具体函数如下:
其中,pi为预测值,oi为实际值,n为样本数,和/>是平均值。
本发明还公开了一种基于LSTM-MEA-SVR的空气质量预报系统模型,使用方法:
S1:第一步先建立多源污染物分布模型,提出基于生成对抗网络的垂直廓线立体遥测数据生成方法,并以此生成对抗网络的训练数据,得到插值后垂直廊线分解结果,其次,在大气污染物的预报方面,运用深度神经网络对数据进行深度分析,其可以对模型反演数据中的不确定性部分和随机性部分进行建模,即以有限点位的观测数据中挖掘出内蕴的变化规律,具体地,从城市观测数据中挖掘得到同一时段不同位置的数据变化规律,从观测数据中挖掘得到相邻区域不同时间的数据变化规律,在深度数据挖掘的过程中,将地理信息、气象信息等可能影响观测结果的数据一并输入网络进行综合分析。其中,运用4D-Var,在考虑到时间维度的同时,同时考虑了多个时间的观测结果。公式如下:
其中X是模型控制变量,Xb是背景字段,B是是背景字段误差协方差矩阵,Hm是观察运算符,Mm(X)是模型预测,Ym是第m个观测值,O是观测值误差协方差矩阵,F是观测值算子协方差矩阵。
(O+F)-1(Hm(Mm(X))-Ym)是在TM矩阵添加到伴随模型变量中的强制项。
其中4D-Var目标函数的梯度为:
其中,是数值预测模型的伴随模型算子由时间t的积分计算得出m到时间T0.R等于(O+F)。4D-Var可以直接同化间接观测,例如温度和降水,并同时全局同化不同的观测值,并增加了动态和数学附加约束的灵活性。4D-Var还可以有效地利用时间密集观测中包含的大气动力场信息。
S2:收集所有要预测区域的空气质量数据以及影响空气质量的因素数据集。数据集的时间范围可实时更新至预测当天的前一天甚至前一个小时,并将收集到的数据集为训练集,验证集以及测试集三个部分,训练集用于用于训练模型(拟合参数),验证集用于确定网络结构或者控制模型复杂程度的超参数(拟合超参数),测试集用来评估模最终模型的性能如何。最后根据样本集的规模数量将训练集,验证集和测试集按照常用的60:20:20比例进行划分。
S3:由于收集数据集规模较大,各个数据之间的差异也较大,这些差异的影响会导致模型的拟合过程困难,所以需要将这些原始数据集进行预处理,使用数据归一化等常见预处理操作将原始数据控制在更小的特定区间范围,进而更好地训练和拟合深度学习模型。
S4:采用的相关模型进行数据分析,本系统选用的深度学习模型为Long short-term memory(LSTM)模型、向量回归(SVR,Support Vector Regression)和思维进化算法(MEA,Mind Evolutionary Algorithm)模型来相互结合。其中LSTM通过网络中节点之间的信息传递的方式来获取图中的依存关系,得到污染物的空间特征。SVR模型参数的估计被表述为二次优化问题,其目标是最小化结构风险。这克服了过拟合问题,可以有效解决底层优化问题。
S4:在完成LSTM-MEA-SVR模型定义之后,需要使用数据集对模型进行拟合。对于拟合度较低模型进行神经网络优化权参数,减少正则化参数,添加多项式污染物特征。对于过拟合的模型采用增大数据训练量和正则化参数,最终达到模型拟合效果。
S5:预测结束后,采用K折交叉验证方法进行敏感性分析,即将原始得预测数据分成K组,将每个子集数据分别作为一次验证集,其余的K-1组子集数据则作为训练集,由此可得到K个模型,用这K个模型最终的验证集的分类准确性评价指标作为模型的敏感性分析性能指标。并计算召回率来进行辅助验证预测的合理性。
采用上述结构本发明新型取得的有益效果如下:采用深度学习的神经网络,具有更高的预测精度以及预测速度;通过极小化目标函数使学习模型达到最合理的拟合优度,使用MEA-SVR来进行模型参数的优化,克服了过拟合问题,可以有效解决底层优化问题,通过建立融合污染物分布模型,生成对抗网络的训练数据,使得数据更加的精确,预测准确度更高;通过激光雷达来获取数据,避免了卫星观测数据的缺失,扩展垂直廓线的遥感观测,收集多源数据,实现观测与模式的融合,实现高精度、高质量的预报数据汇报。
附图说明
附图用来提供对本发明新型的进一步理解,并且构成说明书的一部分,与本发明新型的实施例一起用于解释本发明新型,并不构成对本发明新型的限制。在附图中:
图1为本发明整体结构图;
图2为本发明数据样本预处理图;
图3为本发明参数优化方法图。
具体实施方式
下面将结合本发明新型实施例中的附图,对本发明新型实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明新型一部分实施例,而不是全部的实施例;基于本发明新型中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明新型保护的范围。
如图1至图3所示,发明新型采取的技术方案如下:包括数据处理、预测系统和模型分析,所述数据处理包括网络数据、数据预处理、数据特征分析、回归模型筛选数据和影响因子相关性分析,所述数据预处理与网络数据之间设有数据通道一,所述回归模型筛选数据与网络数据之间设有数据通道二,所述数据预处理与数据特征分析之间设有数据通道三,所述回归模型筛选数据与影响因子相关性分析之间设有数据通道四;所述预测系统包括数据整理分析、数据预测和模型参数优化,所述数据整理分析与数据特征分析和影响因子相关性分析之间均设有数据通道五,所述数据整理分析与数据预测之间设有数据通道六,所述数据预测与模型参数优化之间设有数据通道七;所述模型分析包括拟合优度分析、召回率分析和数据输出,所述拟合优度分析与模型参数优化之间设有数据通道八,所述召回率分析与模型参数优化之间设有数据通道九,所述数据输出与拟合优度分析和召回率分析之间均设有数据通道十;
所述数据预处理对收集到的空气质量数据进行预处理,并将数据进行标准化处理。
所述数据的获得采用激光雷达,通过建立了区域激光雷达立体探测网、地面常规监测网、卫星平台等多源观测的数据质量控制体系。
建立数据预处理的模型以及通过MEA-SVR来进行模型参数的优化来克服过拟合问题的模型。
所述数据预处理中包括除去异常值、使用全局化的插值方法以及标准化处理数据,对收集到的空气质量数据进行预处理,并将数据进行标准化处理,使数据稳定在某一合理范围内,从而有利于深度学习模型的拟合,可以提升拟合优度,从而提升预测的精准度。为了帮助本研究中研究的预测模型的训练过程,可以使用以下等式将数据归一化作为预处理方法:
其中,xi是预测值,xrefi是观测值,是事件的所有观察到的规范化值i随机处理是基于统计和概率形成的建模理论,用于分析数据,在大多数情况下,随机进程按时间编制索引。
所述MEA是一种学习方法,通过收敛和异化操作不断迭代优化。个体在解决方案空间中随机生成,所有个体形成一个组。其中几个小组被选为上级组,其他组被保留为临时组。每个人的分数是根据适应度函数计算的。上组和临时亚组的数量为5个。在亚组中选择收敛,而在整个组中进行异化。算法执行时,收敛和异化同时进行,相互补充,共同提高了整体搜索效率。当优势组的子组全部成熟(分数不再增加)时,将不需要收敛操作。在临时亚组中,如果最高亚组得分低于任何高级亚组,则无需执行异化操作。此时,系统达到全局最优值。
通过极小化目标函数使学习模型达到最合理的拟合优度,通过建立MEA-SVR来进行模型参数的优化,来克服了过拟合问题,可以有效解决底层优化问题,因此该方法的泛化能力较高,在SVR中非线性映射用于映射数据Xi进入高维特
征空间,将多维非线性问题表述为高维线性问题,其中回归函数如下:
优化问题以最小化结构风险函数:
其中,约束条件:
其中,w∈Rn,b∈R和φ表示从空间到特征空间的高维特征映射。其中,(*)表示矢量符号。
采用拉格朗日函数的对偶优化问题可以写成如下:
其中,约束条件:
其中,k(xi,xj)是对偶问题的解决方案所依赖的内核函数,C称为正则化参数,ε是错误敏感度参数,σ控制模型非线性水平。在MEA-SVR算法中,最佳惩罚因子C、阈值ε和RBF核的方差σ2等参数只能对算法性能有很大的影响。因此,引入MEA算法来优化这些参数。
在对LSTM-MEA-SVR定义后,使用学习模型输出预测的结果,是将数据集划分为训练集、验证集与测试集,分别占60%,20%,20%的比例,训练通过初始的深度学习模型得到预测结果。
所述拟合优度分析,通过计算模型的结果与测试集数据的平均绝对误差MAE和均方根误差RMSE和一致性指数IA,来判断拟合优度,具体函数如下:
其中,pi为预测值,oi为实际值,n为样本数,和/>是平均值。
一种基于LSTM-MEA-SVR空气质量预报的系统,使用方法:
S1:第一步先建立多源污染物分布模型,提出基于生成对抗网络的垂直廓线立体遥测数据生成方法,并以此生成对抗网络的训练数据,得到插值后垂直廊线分解结果,其次,在大气污染物的预报方面,运用深度神经网络对数据进行深度分析,其可以对模型反演数据中的不确定性部分和随机性部分进行建模,即以有限点位的观测数据中挖掘出内蕴的变化规律,具体地,从城市观测数据中挖掘得到同一时段不同位置的数据变化规律,从观测数据中挖掘得到相邻区域不同时间的数据变化规律,在深度数据挖掘的过程中,将地理信息、气象信息等可能影响观测结果的数据一并输入网络进行综合分析。其中,运用4D-Var,在考虑到时间维度的同时,同时考虑了多个时间的观测结果。公式如下:
其中X是模型控制变量,Xb是背景字段,B是是背景字段误差协方差矩阵,Hm是观察运算符,Mm(X)是模型预测,Ym是第m个观测值,O是观测值误差协方差矩阵,F是观测值算子协方差矩阵。
(O+F)-1(Hm(Mm(X))-Ym)是在TM矩阵添加到伴随模型变量中的强制项。
其中4D-Var目标函数的梯度为:
其中,是数值预测模型的伴随模型算子由时间t的积分计算得出m到时间T0.R等于(O+F)。4D-Var可以直接同化间接观测,例如温度和降水,并同时全局同化不同的观测值,并增加了动态和数学附加约束的灵活性。4D-Var还可以有效地利用时间密集观测中包含的大气动力场信息。
S2:收集所有要预测区域的空气质量数据以及影响空气质量的因素数据集。数据集的时间范围可实时更新至预测当天的前一天甚至前一个小时,并将收集到的数据集为训练集,验证集以及测试集三个部分,训练集用于用于训练模型(拟合参数),验证集用于确定网络结构或者控制模型复杂程度的超参数(拟合超参数),测试集用来评估模最终模型的性能如何。最后根据样本集的规模数量将训练集,验证集和测试集按照常用的60:20:20比例进行划分。
S3:由于收集数据集规模较大,各个数据之间的差异也较大,这些差异的影响会导致模型的拟合过程困难,所以需要将这些原始数据集进行预处理,使用数据归一化等常见预处理操作将原始数据控制在更小的特定区间范围,进而更好地训练和拟合深度学习模型。
S4:采用的相关模型进行数据分析,本系统选用的深度学习模型为Long short-term memory(LSTM)模型、向量回归(SVR,Support Vector Regression)和思维进化算法(MEA,Mind Evolutionary Algorithm)模型来相互结合。其中LSTM通过网络中节点之间的信息传递的方式来获取图中的依存关系,得到污染物的空间特征。SVR模型参数的估计被表述为二次优化问题,其目标是最小化结构风险。这克服了过拟合问题,可以有效解决底层优化问题。
S4:在完成LSTM-MEA-SVR模型定义之后,需要使用数据集对模型进行拟合。对于拟合度较低模型进行神经网络优化权参数,减少正则化参数,添加多项式污染物特征。对于过拟合的模型采用增大数据训练量和正则化参数,最终达到模型拟合效果。
S5:预测结束后,采用K折交叉验证方法进行敏感性分析,即将原始得预测数据分成K组,将每个子集数据分别作为一次验证集,其余的K-1组子集数据则作为训练集,由此可得到K个模型,用这K个模型最终的验证集的分类准确性评价指标作为模型的敏感性分析性能指标。并计算召回率来进行辅助验证预测的合理性。
要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物料或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物料或者设备所固有的要素。
尽管已经示出和描述了本发明新型的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明新型的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明新型的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于LSTM-MEA-SVR空气质量预报的系统,其特征在于:包括数据处理、预测系统和模型分析,所述数据处理包括获得数据、网络数据、数据预处理、数据特征分析、回归模型筛选数据和影响因子相关性分析,所述数据预处理与网络数据之间设有数据通道一,所述回归模型筛选数据与网络数据之间设有数据通道二,所述数据预处理与数据特征分析之间设有数据通道三,所述回归模型筛选数据与影响因子相关性分析之间设有数据通道四;所述预测系统包括数据整理分析、数据预测和模型参数优化,所述数据整理分析与数据特征分析和影响因子相关性分析之间均设有数据通道五,所述数据整理分析与数据预测之间设有数据通道六,所述数据预测与模型参数优化之间设有数据通道七;所述模型分析包括拟合优度分析、召回率分析和数据输出,所述拟合优度分析与模型参数优化之间设有数据通道八,所述召回率分析与模型参数优化之间设有数据通道九,所述数据输出与拟合优度分析和召回率分析之间均设有数据通道十;
所述数据预处理对收集到的空气质量数据进行预处理,并将数据进行标准化处理。
2.根据权利要求1所述的一种基于LSTM-MEA-SVR空气质量预报的系统,其特征在于:所述数据的获得采用激光雷达,通过建立了区域激光雷达立体探测网、地面常规监测网、卫星平台等多源观测的数据质量控制体系。
3.根据权利要求2所述的一种基于LSTM-MEA-SVR空气质量预报的系统,其特征在于:建立数据预处理的模型以及通过MEA-SVR来进行模型参数的优化来克服过拟合问题的模型。
4.根据权利要求3所述的一种基于LSTM-MEA-SVR空气质量预报的系统,其特征在于:所述数据预处理中包括除去异常值、使用全局化的插值方法以及标准化处理数据,对收集到的空气质量数据进行预处理,并将数据进行标准化处理,使数据稳定在某一合理范围内,从而有利于深度学习模型的拟合,可以提升拟合优度,从而提升预测的精准度。为了帮助本研究中研究的预测模型的训练过程,可以使用以下等式将数据归一化作为预处理方法:
其中,xi是预测值,xrefi是观测值,是事件的所有观察到的规范化值i随机处理是基于统计和概率形成的建模理论,用于分析数据,在大多数情况下,随机进程按时间编制索引。
5.根据权利要求4所述的一种基于LSTM-MEA-SVR空气质量预报的系统,其特在于:所述MEA是一种学习方法,通过收敛和异化操作不断迭代优化。个体在解决方案空间中随机生成,所有个体形成一个组。其中几个小组被选为上级组,其他组被保留为临时组。每个人的分数是根据适应度函数计算的。上组和临时亚组的数量为5个。在亚组中选择收敛,而在整个组中进行异化。算法执行时,收敛和异化同时进行,相互补充,共同提高了整体搜索效率。当优势组的子组全部成熟(分数不再增加)时,将不需要收敛操作。在临时亚组中,如果最高亚组得分低于任何高级亚组,则无需执行异化操作。此时,系统达到全局最优值。
6.根据权利要求5所述的一种基于LSTM-MEA-SVR空气质量预报的系统,其特在于:通过极小化目标函数使学习模型达到最合理的拟合优度,通过建立MEA-SVR来进行模型参数的优化,来克服了过拟合问题,可以有效解决底层优化问题,因此该方法的泛化能力较高,在SVR中非线性映射用于映射数据Xi进入高维特征空间,将多维非线性问题表述为高维线性问题,其中回归函数如下:
优化问题以最小化结构风险函数:
其中,约束条件:
其中,w∈Rn,b∈R和φ表示从空间到特征空间的高维特征映射。其中,(*)表示矢量符号。
采用拉格朗日函数的对偶优化问题可以写成如下:
其中,约束条件:
其中,k(xi,xj)是对偶问题的解决方案所依赖的内核函数,C称为正则化参数,ε是错误敏感度参数,σ控制模型非线性水平。在MEA-SVR算法中,最佳惩罚因子C、阈值ε和RBF核的方差σ2等参数只能对算法性能有很大的影响。因此,引入MEA算法来优化这些参数。
7.根据权利要求6所述的一种基于LSTM-MEA-SVR空气质量预报的系统,其特在于:在对LSTM-MEA-SVR定义后,使用学习模型输出预测的结果,是将数据集划分为训练集、验证集与测试集,分别占60%,20%,20%的比例,训练通过初始的深度学习模型得到预测结果。
8.根据权利要求7所述的一种基于LSTM-MEA-SVR空气质量预报的系统,其特在于:所述拟合优度分析,通过计算模型的结果与测试集数据的平均绝对误差MAE和均方根误差RMSE和一致性指数IA,来判断拟合优度,具体函数如下:
其中,pi为预测值,oi为实际值,n为样本数,和/>是平均值。
9.根据权利要求求1~8所述所述的一种基于LSTM-MEA-SVR空气质量预报的系统,使用方法:
S1:第一步先建立多源污染物分布模型,提出基于生成对抗网络的垂直廓线立体遥测数据生成方法,并以此生成对抗网络的训练数据,得到插值后垂直廊线分解结果,其次,在大气污染物的预报方面,运用深度神经网络对数据进行深度分析,其可以对模型反演数据中的不确定性部分和随机性部分进行建模,即以有限点位的观测数据中挖掘出内蕴的变化规律,具体地,从城市观测数据中挖掘得到同一时段不同位置的数据变化规律,从观测数据中挖掘得到相邻区域不同时间的数据变化规律,在深度数据挖掘的过程中,将地理信息、气象信息等可能影响观测结果的数据一并输入网络进行综合分析。其中,运用4D-Var,在考虑到时间维度的同时,同时考虑了多个时间的观测结果。公式如下:
其中X是模型控制变量,Xb是背景字段,B是是背景字段误差协方差矩阵,Hm是观察运算符,Mm(X)是模型预测,Ym是第m个观测值,O是观测值误差协方差矩阵,F是观测值算子协方差矩阵。
(O+F)-1(Hm(Mm(X))-Ym)是在TM矩阵添加到伴随模型变量中的强制项。
其中4D-Var目标函数的梯度为:
其中,是数值预测模型的伴随模型算子由时间t的积分计算得出m到时间T0.R等于(O+F)。4D-Var可以直接同化间接观测,例如温度和降水,并同时全局同化不同的观测值,并增加了动态和数学附加约束的灵活性。4D-Var还可以有效地利用时间密集观测中包含的大气动力场信息。
S2:收集所有要预测区域的空气质量数据以及影响空气质量的因素数据集。数据集的时间范围可实时更新至预测当天的前一天甚至前一个小时,并将收集到的数据集为训练集,验证集以及测试集三个部分,训练集用于用于训练模型(拟合参数),验证集用于确定网络结构或者控制模型复杂程度的超参数(拟合超参数),测试集用来评估模最终模型的性能如何。最后根据样本集的规模数量将训练集,验证集和测试集按照常用的60:20:20比例进行划分。
S3:由于收集数据集规模较大,各个数据之间的差异也较大,这些差异的影响会导致模型的拟合过程困难,所以需要将这些原始数据集进行预处理,使用数据归一化等常见预处理操作将原始数据控制在更小的特定区间范围,进而更好地训练和拟合深度学习模型。
S4:采用的相关模型进行数据分析,本系统选用的深度学习模型为Long short-termmemory(LSTM)模型、向量回归(SVR,Support Vector Regression)和思维进化算法(MEA,Mind Evolutionary Algorithm)模型来相互结合。其中LSTM通过网络中节点之间的信息传递的方式来获取图中的依存关系,得到污染物的空间特征。SVR模型参数的估计被表述为二次优化问题,其目标是最小化结构风险。这克服了过拟合问题,可以有效解决底层优化问题。
S4:在完成LSTM-MEA-SVR模型定义之后,需要使用数据集对模型进行拟合。对于拟合度较低模型进行神经网络优化权参数,减少正则化参数,添加多项式污染物特征。对于过拟合的模型采用增大数据训练量和正则化参数,最终达到模型拟合效果。
S5:预测结束后,采用K折交叉验证方法进行敏感性分析,即将原始得预测数据分成K组,将每个子集数据分别作为一次验证集,其余的K-1组子集数据则作为训练集,由此可得到K个模型,用这K个模型最终的验证集的分类准确性评价指标作为模型的敏感性分析性能指标。并计算召回率来进行辅助验证预测的合理性。
CN202310461162.4A 2023-04-26 2023-04-26 一种基于lstm-mea-svr空气质量预报的系统 Pending CN116796291A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310461162.4A CN116796291A (zh) 2023-04-26 2023-04-26 一种基于lstm-mea-svr空气质量预报的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310461162.4A CN116796291A (zh) 2023-04-26 2023-04-26 一种基于lstm-mea-svr空气质量预报的系统

Publications (1)

Publication Number Publication Date
CN116796291A true CN116796291A (zh) 2023-09-22

Family

ID=88041109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310461162.4A Pending CN116796291A (zh) 2023-04-26 2023-04-26 一种基于lstm-mea-svr空气质量预报的系统

Country Status (1)

Country Link
CN (1) CN116796291A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591835A (zh) * 2024-01-18 2024-02-23 南京信息工程大学 一种基于协方差矩阵与dcn-lstm模型的大气温度廓线生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591835A (zh) * 2024-01-18 2024-02-23 南京信息工程大学 一种基于协方差矩阵与dcn-lstm模型的大气温度廓线生成方法
CN117591835B (zh) * 2024-01-18 2024-04-19 南京信息工程大学 一种基于协方差矩阵与dcn-lstm模型的大气温度廓线生成方法

Similar Documents

Publication Publication Date Title
CN113962364B (zh) 一种基于深度学习的多因素用电负荷预测方法
CN109919353B (zh) 一种基于空间相关性的arima模型的分布式光伏预测方法
CN110263866B (zh) 一种基于深度学习的电力用户负荷区间预测方法
CN109492822B (zh) 空气污染物浓度时空域关联预测方法
Jalalkamali Using of hybrid fuzzy models to predict spatiotemporal groundwater quality parameters
CN115376317B (zh) 一种基于动态图卷积和时序卷积网络的交通流预测方法
CN114169434A (zh) 一种负荷预测方法
CN108764527B (zh) 一种土壤有机碳库时空动态预测最优环境变量筛选方法
CN114723149A (zh) 土壤墒情预测方法、装置、电子设备及存储介质
CN115629160A (zh) 一种基于时空图的空气污染物浓度预测方法及系统
CN116796291A (zh) 一种基于lstm-mea-svr空气质量预报的系统
CN117993305B (zh) 一种流域土地利用与土壤侵蚀关系动态评估方法
CN118470550B (zh) 一种自然资源资产数据采集方法及平台
CN116796168A (zh) 一种基于多头注意力机制的CNN-BiLSTM高海拔多因素输电线路可听噪声预测方法
CN116205508A (zh) 一种分布式光伏发电异常诊断方法和系统
CN113688506B (zh) 基于微站等多维数据的潜在大气污染源识别方法
CN114882373A (zh) 基于深度神经网络的多特征融合沙尘暴预测方法
CN118228923A (zh) 基于多尺度和多维度的水域污染预测方法
CN116885703B (zh) 一种高维多元气象数据融合的短期风光功率预测方法
CN117131654A (zh) 基于预分析初猜值条件非线性最优扰动的目标观测方法
CN117370813A (zh) 一种基于k线模式匹配算法的大气污染深度学习预测方法
CN116663404A (zh) 一种耦合人工智能和贝叶斯理论的洪水预报方法及系统
CN116090696A (zh) 适用于山区铁路沿线的滑坡地质灾害风险分类预测方法
CN114444763A (zh) 基于afsa-gnn的风电功率预测方法
CN118132964B (zh) 土壤空间温湿度预测方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication