CN115526298A - 一种高鲁棒性的大气污染物浓度综合预测方法 - Google Patents
一种高鲁棒性的大气污染物浓度综合预测方法 Download PDFInfo
- Publication number
- CN115526298A CN115526298A CN202211269650.7A CN202211269650A CN115526298A CN 115526298 A CN115526298 A CN 115526298A CN 202211269650 A CN202211269650 A CN 202211269650A CN 115526298 A CN115526298 A CN 115526298A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- attribute
- prediction
- concentration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 239000003344 environmental pollutant Substances 0.000 title claims abstract description 48
- 231100000719 pollutant Toxicity 0.000 title claims abstract description 48
- 238000012544 monitoring process Methods 0.000 claims abstract description 67
- 238000003066 decision tree Methods 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000007637 random forest analysis Methods 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000002159 abnormal effect Effects 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000004140 cleaning Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 24
- 238000003062 neural network model Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012958 reprocessing Methods 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 abstract description 6
- 238000012216 screening Methods 0.000 abstract 1
- 239000000809 air pollutant Substances 0.000 description 7
- 231100001243 air pollutant Toxicity 0.000 description 7
- 238000003915 air pollution Methods 0.000 description 7
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 description 4
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 4
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 4
- JCXJVPUVTGWSNB-UHFFFAOYSA-N nitrogen dioxide Inorganic materials O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- MWUXSHHQAYIFBG-UHFFFAOYSA-N nitrogen oxide Inorganic materials O=[N] MWUXSHHQAYIFBG-UHFFFAOYSA-N 0.000 description 3
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 2
- 229910002091 carbon monoxide Inorganic materials 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 241001494479 Pecora Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229930195733 hydrocarbon Natural products 0.000 description 1
- 150000002430 hydrocarbons Chemical class 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011133 lead Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- XTQHKBHJIVJGKJ-UHFFFAOYSA-N sulfur monoxide Chemical class S=O XTQHKBHJIVJGKJ-UHFFFAOYSA-N 0.000 description 1
- 229910052815 sulfur oxide Inorganic materials 0.000 description 1
- 239000012855 volatile organic compound Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Biomedical Technology (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Combustion & Propulsion (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种高鲁棒性的大气污染物浓度综合预测方法,属于污染物浓度预测技术领域。本发明以气象环境监测站获取的多种环境数据为原始数据,采用K‑means思想和平滑填补法处理缺失值和异常值,使数据在填补影响下依然具备高准确性;采用特征工程进行训练数据的特征筛选;并行训练神经网络算法和具有随机性的随机森林、迭代决策树算法并产生初始预测结果;以真实数据为标准,动态搜索随机森林、迭代决策树、神经网络预测结果的最优组合权重;以最优组合权重组合预测结果,得到最后综合预测模型的污染物预测结果。本发明可以保证在原始数据质量存在缺失污染时,通过数据清洗和组合方法仍可以产生一个高精度的预测结果。
Description
技术领域
本发明涉及污染物浓度预测技术领域,尤其涉及一种高鲁棒性的大气污染物浓度综合预测方法。
背景技术
城市是一个复杂的整体,其中工业生产是城市空气污染的主要源头。近年来工业生产量的加大,使得工业污染物排放成为空气污染的罪魁祸首,污染物成分主要以二氧化硫和烟尘为主。城市空气污染的另一来源为燃煤小锅炉,特别在我国北方地区,冬季的取暖主要依靠燃煤锅炉来供暖,而且呈低空排放的状态,对城市的空气质量有着直接的影响。此外,随着城市经济的发展,机动车的数量急剧增加,机动车尾气排放量呈现出逐年增长的发展趋势。在城市中,机动车数量集中,汽车尾气中的污染物主要有固体悬浮微粒、一氧化碳、碳氢化合物、氮氧化合物、铅及硫氧化合物等,尾气的排放已经成为城市空气污染的主要来源之一。
目前,主流的智能监控技术可以依靠传感器和多种计算机技术对产生较多大气污染物的工业园区完成相关区域的空气监测,做到有问题及时发现并预警处理。但是这种监测到异常才发现并处理的模式,往往是对大气环境恶化之后的亡羊补牢,已然错过了最佳的污染物治理时机,不利于环境长久健康发展。因此,需要可以预测未来大气中的污染物浓度来提前采取相应措施加以控制。在现有技术中,关于大气污染物浓度预测的方案中,有以下两个方面的问题:一是预测污染物浓度的模型算法预测效果不好,导致预测精度不够高;二是原始数据质量依赖性较高,没有合适且高效的处理原始残缺及污染数据的方法。这些问题都导致大气污染物预测模型无法做到准确预测,无法为大气治理提供高效助力。
经检索,中国专利申请号2021110221848,申请日为2021年09月01日,发明专利名称为:一种空气污染物浓度预测方法及系统,该申请案获取待测区域中至少两个空气监测站点的空间关系参数,并获取各个所述空气监测站点的当前时刻的监测指标信息;其中,所述监测指标信息包括空气污染物浓度监测值;基于所述空间关系参数以及所述当前时刻的监测指标信息,预先训练好的特征提取模型进行计算得到当前时刻的空气质量特征;将所述当前时刻的空气质量特征输入至预先训练好的污染物浓度预测模型,得到所述污染物浓度预测模型输出的下一时刻的待测区域空气污染物浓度预测结果。该申请案通过提取空气监测站点的空间特征信息,并综合时序和空间特征信息对空气污染物进行预测,提高了空气污染物浓度的预测精度。但该申请案对原始数据质量的依赖性较高,仍需进一步改进。
发明内容
1.发明要解决的技术问题
鉴于上述现有技术中存在的问题,本发明提供了一种高鲁棒性的大气污染物浓度综合预测方法,本发明对原始数据采取有效处理并在一定的权重调整后将训练的随机森林、迭代决策树、神经网络组合从而形成最终的预测模型,应用于污染物浓度预测,相对于传统预测方法能够减小对数据质量的依赖性并且明显提高大气污染物浓度的预测精度。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的一种高鲁棒性的大气污染物浓度综合预测方法,其步骤为:
步骤1、获取预测空间范围内的环境属性原始数据,一个时间点对应一条数据,每一条数据用P=[p1,p2,……,pn]表示,其中n为数据中属性个数,p1到pn为具体属性;
步骤2、清洗原始数据,采用不同方法处理原始数据中异常值和缺失值;
步骤3、在经过数据清洗后,计算数据中所有属性特征的方差值,移除方差低于指定阈值的属性特征,得到每一条数据为m个属性的数据集P=[p1,p2,……,pm],其中m<n;
步骤4、使用步骤3得到的训练集并行训练随机森林、迭代决策树、神经网络模型,确定模型参数并产生初步预测结果;
步骤5、选取真实数据为数据标准,绝对平均误差为评判标准,以最小化绝对平均误差为目标进行由权重0到1的权重网格搜索,从而确定随机森林、迭代决策树、神经网络模型各自组合权重;
步骤6、按照网格搜索到的最优权重对随机森林、迭代决策树和神经网络进行组合,从而产生综合预测模型下的预测结果。
更进一步地,所述步骤2中,将数据属性值中小范围的异常值,使用线性平滑方法进行修正;对于同一监测站点的大片异常值分布,通过线性映射函数将其修正至正常范围;对于小范围的空缺值,采用临近值填补和回归填补两种方法完成对数据的补充。
更进一步地,所述步骤2中,采用k均值聚类算法处理连续大片空缺值和异常值的情况,具体过程为:对于任意监测点的一个空缺属性,取该监测点其他存在值的属性作为一个高维向量,并由该向量代表该时间下的监测点记录,向量记为其中t代表记录时间,j代表监测点ID;随后对所有其余监测站点均生成一个对应向量,记为计算出待补记录对应的向量和其他监测站同时间记录的向量的欧式距离其公式如下:
在计算完待补记录和所有其他监测点的欧式距离后,将其从小到大排序,并选取10%到20%监测点数量的欧式距离最小的其他监测点,计算这些监测点同时间记录下待补属性值的求和并取平均的结果,此时若有个别监测点在待补属性上也有空缺则舍弃或拿其他欧式距离较小的候补监测点进行替换,最后以该结果作为填补的数值。
更进一步地,所述步骤4中,训练随机森林的过程为:
在训练集中有放回的随机选择N个数据样本,利用该N个样本来训练一个决策树,作为决策树根节点处的样本;每个样本有Q个属性,在决策树的每个节点需要分裂时,随机从这Q个属性中选取出q个属性,满足条件q<<Q;然后从这q个属性选择1个信息增益大的属性作为该节点的分裂属性,信息增益的程度用信息熵的变化程度来衡量;选取在该节点上的最优特征进行分裂,从而对训练集不断分裂直至生成一颗完整的决策树;重复上述步骤,直到产生指定数量的决策树,将这些树组合便形成了最后的随机森林模型。
更进一步地,所述步骤4中,训练迭代决策树模型的过程为:
在训练集中初始化f0(x)的取值,这个值可以使得第0步模型的损失函数取最小值;在决策树个数从1到T过程中计算残差Rt,在得到残差Rt后,拟合学习出一颗决策回归树,得到第t个决策树的参数θt,使得损失函数最小化;不断更新模型,直到产生T个决策树;得到最后的迭代决策模型。
更进一步地,所述步骤4中,训练神经网络模型的过程为:
将训练数据传入BN层进行处理,接着数据由输出层传入隐含层的线性层,其包含12个神经元,对应数据预处理过程后数据保留的特征数量;采用ReLU激活函数层对数据进行处理,之后连接了一个包含60个神经元的线性层,输出层获得隐含层传入的三维数据并使用ReLU激活函数进行再处理,输出预测结果。
更进一步地,所述步骤4中,对随机森林和迭代决策树模型采用网格搜索方法找到效果最好的树的数量和单棵树的深度参数设置。
更进一步地,所述步骤5中,确定随机森林、决策迭代树、神经网络模型各自权重,使用真实数据对三种模型的加权权重在0-1范围进行动态搜索,并在每次对三种模型取好权重后,计算该次权重分配下的平均绝对误差MAE,确定MAE分数最低的权重为综合预测模型的权重组成。
更进一步地,所述步骤6中,将随机森林、决策迭代树、神经网络模型组合,按照搜索到的最优权重配比进行加权,综合预测模型公式表达为:
H=w1h1+w2h2+w3h3
其中,h1为随机森林模型,h2为迭代决策树模型,h3为神经网络模型,w1、w2、w3为模型各自的权重。
3.有益效果
采用本发明提供的技术方案,与已有的公知技术相比,具有如下显著效果:
(1)本发明的一种高鲁棒性的大气污染物浓度综合预测方法,在气象污染问题上使用综合预测方法,即在一定的权重调整后将训练的随机森林、迭代决策树、神经网络组合从而形成最终的预测模型,应用于污染物浓度预测,相对于传统预测模型能够在一定程度上提升对大气污染物的预测准度,本发明可以预测一定区域内大气污染物的变化情况,为有关部门采取相关气象防治措施提供了准确可靠的数据支持。
(2)本发明的一种高鲁棒性的大气污染物浓度综合预测方法,保证了各模型未产生较好的预测结果或未合适训练时集成模型依旧可以提供一个相对准确的结果,另外,合适的权重分配方法也在一定程度上降低了误差,二者整体上保证了综合预测方法相对于传统预测方法有更高的预测精度。
(3)本发明的一种高鲁棒性的大气污染物浓度综合预测方法,鉴于原始数据存在数据空缺、异常等问题,而数据异常和数据缺失是影响数据质量的重要因素,如果处理不好缺失和异常数据,就会直接影响结果的可靠性;对上述问题本发明采用不同方法对原始数据进行有效处理,从而取得更准确的预测结果。
附图说明
图1为本发明高鲁棒性的大气污染物浓度综合预测方法的流程示意图;
图2为本发明的神经网络结构图;
图3为本发明的实现效果图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。
实施例1
在当前环境污染越发加重,导致空气质量不断恶化,空气污染物的浓度越来越高的情况下。目前主流的空气质量监测技术可以做到有问题及时发现并预警处理,但是预测的精度不够高。本实施例可以实现对区域内的环境监控,提高臭氧、二氧化氮和PM10等空气污染物浓度的预测精度,为后续空气污染治理提供有效助力。
具体到本实施例中,首先获取预测空间范围内过去的环境属性原始数据,取某市100个气象监测站点在2020年1月1日至2020年10月6日的气象数据,共计670000条,同一监测站点相邻监测记录的时间间隔为1小时。其中,1月1日至10月3日之间的数据作为各模型的训练集,10月4日数据用于确定综合预测模型的权重构成,10月5日和10月6日的数据用于验证几种预测模型的预测效果,且待预测的污染物为以下三类:臭氧、二氧化氮和PM10。
而数据属性主要包含监测站点信息、污染物浓度信息、气象环境信息和指标信息共四类。监测站点信息包含监测时间和监测站ID这两个,用以表达记录采集的属性。污染物浓度信息包含了常见的大气污染物浓度,例如臭氧、一氧化碳、二氧化氮、二氧化硫、PM10、PM2.5等污染物的浓度信息。气象环境信息涵盖了多种实用的环境信息,其中主要有风速、风向、降水量、露点温度、气温、气压、水汽压、能见度、相对湿度等属性。指标信息则是几种人为划定的用以描述大气污染情况的指数指标,例如空气质量指数,总挥发性有机化合物和总悬浮颗粒物。
原始数据中每一条数据由多个属性构成,一个时间点对应一条数据,每一条数据用P=[p1,p2,……,pn]表示,其中n为数据中属性个数,p1到pn为具体属性;但是原始数据的数据质量并不理想。数据中存在以下几种问题:气象环境信息取值范围异常,例如在本实施例中绝对湿度属性数据存在44838条负值数据,而湿度属性是没有负值的;小范围数据空缺,所有监测站的属性数据均存在一定空缺,但可以通过传统数据填补方法进行修复;大范围数据空缺,例如在本实施例中部分监测站九月和十月部分天数下的环境数据存在大片的连续缺失,传统数据填补方法难以找到合适的数据支持进行填补。
数据异常和数据缺失是影响数据质量的重要因素,如果处理不好缺失和异常数据,就会直接影响结果的可靠性。对上述问题本实施例做出不同的处理。将数据属性值中小范围的异常值,使用线性平滑方法进行修正;对于同一监测站点的大片的异常值分布,通过线性映射函数将其修正至正常范围。对于小范围的空缺值,采用临近值填补和回归填补两种方法完成对数据的补充修正。临近值填补是对每一条数据的缺失值采用临近位置上下两个值的平均值来补充修正,回归填补是将已知特征值代入回归模型来估计未知特征值,以此估计值来进行填补,其中回归模型即回归方程,是利用最小二乘函数对已知特征值之间关系进行建模。
采用k均值聚类算法的思想处理连续大片空缺值和异常值的情况,具体过程为:对于任意监测点的一个空缺属性,取该监测点其他存在值的属性作为一个高维向量,并由该向量代表该时间下的监测点记录,向量记为其中t代表该记录的记录时间,而j代表监测点ID。随后对所有其余监测站点均生成一个对应向量,记为根据k均值聚类算法的思想,在高维空间上欧式距离近的样本可以被划分成一类,因此可以计算出待补记录对应的向量和其他监测站同时间记录的向量的欧式距离其公式如下:
式中,和为两个向量同一属性下的数值。在计算完待补记录和所有其他监测点的欧式距离后,将其从小到大排序,并选取10%到20%监测点数量的欧式距离最小的其他监测点,计算这些监测点同时间记录下待补属性值的求和并取平均的结果,此时若有个别监测点在待补属性上也有空缺则舍弃或拿其他欧式距离较小的候补监测点进行替换,最后以该结果作为填补的数值。
在经过数据清洗过程后,对数据中所有属性进行方差值的计算,一个属性的方差值越小,则表明该特征的离散程度越小,那么其对待预测污染物变化的影响就越小,因而可以剔除这些方差值较小的属性特征。具体到本实施例中,移除方差低于指定阈值的属性特征,这里的阈值需要根据具体场景进行设定,得到每一条数据为m个属性的数据集P=[p1,p2,……,pm],其中m<n,此训练集作为模型训练的训练集。通过该方法,计算得出气压属性其方差较小,近99%的气压属性值都在标准大气压左右波动(±0.5hPa),故剔除气压属性。
其后对于存在大量空缺值且数据填补效果不佳的属性,包括衡量环境的评价指标和几种污染物浓度属性,将其一并删去。为保证时间属性的有效性,将其原本的时间字符串拆分转化为月份、日期、小时三个数字属性加入原数据。同时,为考察是否为工作日对模型训练的影响,对比加入该特征前后模型的预测准确性,未取得更好的效果,故放弃该新增特征。此外,考虑到每个监测点的地理位置等其他条件有差异,故针对一个监测点建立一个单独的预测模型,从而取得更准确的预测结果。
训练随机森林,在2020年1月1日到2020年10月3日的训练集中有放回的随机选择N个样本(每次随机选择一个样本,然后返回继续选择)。选择好了的N个样本用来训练一个决策树,作为决策树根节点处的样本。每个样本有Q个属性,在决策树的每个节点需要分裂时,随机从这Q个特征中选取出q个属性,满足条件q<<Q,这里取q是Q的平方根,然后从这q个属性中依据信息增益来选择1个信息增益大的属性作为该节点的分裂属性,信息增益的程度用信息熵的变化程度来衡量。信息熵的公式如下:
其中,p(zi)是分类zi出现的概率,n是分类的数目。可以看出,熵的大小只和变量的概率分布有关。对于在X的条件下Y的条件熵,是指在X的信息之后,Y这个变量的信息量(不确定性)的大小,计算公式如下:
当Entropy最大为1的时候,是分类效果最差的状态,当它最小为0的时候,是完全分类的状态。因为熵等于零是理想状态,一般实际情况下,熵介于0和1之间。选取在该节点上的最优特征进行分裂,从而对训练集Si不断分裂直至生成一颗完整的决策树。重复上述步骤,直到产生指定数量的决策树,将这些树组合便形成了最后的随机森林模型。
训练迭代决策树模型。首先同样在2020年1月1日到2020年10月3日的训练集中初始化f0(x)的取值,这个值可以使得第0步模型的损失函数取最小值。接着在t从1逐渐增大到T(最大值)的过程中先计算残差Rt,残差定义为:
Rt=yi-ft-1(x)
其中,yi为训练集内第i个样本对应的标签值,ft-1(x)为第t-1个决策树的预测值。在得到残差Rt后,拟合学习出一颗决策回归树,得到第t个决策树的参数θt,使得损失函数最小化。不断更新模型,直到产生T个决策树。得到最后的提升树模型:
神经网络训练过程:采用的神经网络设计如图2所示。将2020年10月1日至10月3日之间的训练数据传入BN(Batch Normalization)层进行处理,接着数据由输出层传入隐含层的线性层,其包含12个神经元,对应数据预处理过程后数据保留的特征数量。之后采用ReLU(Rectified Linear Unit)激活函数层对数据进行处理。之后连接了一个包含60个神经元的线性层。输出层获得隐含层传入的三维数据并使用ReLU激活函数进行再处理,从而一次完成对三种污染物浓度的预测结果输出。针对一个监测点训练一个神经网络模型,共计训练100个模型。
接着使用网格搜索方法找到针对随机森林和迭代决策树模型效果最好的参数设置。对于单个监测站,上述两个模型生成并预测结果,平均需要约15分钟。对于短期气象预测,神经网络的训练集大小多控制在一周左右。因此针对神经网络的训练集大小,为防止过拟合我们对迭代次数进行控制,最终综合预测模型选择了效果最好的临近3天大小下的神经网络模型作为基模型。在以上三种模型的并行训练完成后,确定随机森林、迭代决策树、神经网络模型各自权重,对三种模型在0-1范围内动态搜寻最优权重组合,并在每次对三种模型取好权重后,以2020年10月4日到10月5日的真实数据计算该次权重分配下的平均绝对误差MAE(Mean Absolute Error),最后选择MAE分数最低的权重作为单个监测站下单个污染物属性的综合预测模型的权重组成。MAE公式为:
其中,ui为污染物的模型预测值,vi为污染物的真实值。
H=w1h1+w2h2+w3h3
其中,h1为随机森林算法模型,h2为迭代决策树算法模型,h3为神经网络算法模型,其中的w1、w2、w3为算法模型各自的权重。
通过实践,综合预测模型和随机森林模型、迭代决策树、神经网络模型对三种污染物的预测情况如表1至4所示。从表格中不难发现,多数情况下综合预测模型的预测准度较三种基模型有一定提升。综合三种污染物浓度的预测情况而言,综合预测模型的MAE得分为10.79,对比随机森林、迭代决策树和神经网络模型误差分别降低了20.1%,23.0%和68.6%。
表1预测模型的MAE得分(三种污染物)
模型 | 随机森林 | 迭代决策树 | 神经网络 | 综合预测模型 |
MAE得分 | 13.51 | 14.02 | 34.38 | 10.79 |
表2不同训练数据大小下各预测模型的MAE得分(臭氧)
模型 | 随机森林 | 迭代决策树 | 神经网络 | 综合预测模型 |
MAE得分 | 22.89 | 23.46 | 41.67 | 16.30 |
表3不同训练数据大小下各预测模型的MAE得分(二氧化氮)
模型 | 随机森林 | 迭代决策树 | 神经网络 | 综合预测模型 |
MAE得分 | 9.82 | 9.81 | 23.86 | 9.74 |
表4不同训练数据大小下各预测模型的MAE得分(PM10)
模型 | 随机森林 | 迭代决策树 | 神经网络 | 综合预测模型 |
MAE得分 | 10.18 | 10.70 | 37.61 | 7.39 |
图3为发明实现效果图,总的来说,本发明通过将随机森林、迭代决策树、神经网络三个基模型通过最优权重组合,在数据质量优化的基础上有效地提升了大气污染物浓度地预测精度,弥补了传统模型预测精度不高的问题,为城市空气污染物的浓度预测和防止提供了有效方法。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (9)
1.一种高鲁棒性的大气污染物浓度综合预测方法,其特征在于,其步骤为:
步骤1、获取预测空间范围内的环境属性原始数据,一个时间点对应一条数据,每一条数据用P=[p1,p2,……,pn]表示,其中n为数据中属性个数,p1到pn为具体属性;
步骤2、清洗原始数据,采用不同方法处理原始数据中异常值和缺失值;
步骤3、在经过数据清洗后,计算数据中所有属性特征的方差值,移除方差低于指定阈值的属性特征,得到每一条数据为m个属性的数据集P=[p1,p2,……,pm],其中m<n;
步骤4、使用步骤3得到的训练集并行训练随机森林、迭代决策树、神经网络模型,确定模型参数并产生初步预测结果;
步骤5、选取真实数据为数据标准,绝对平均误差为评判标准,以最小化绝对平均误差为目标进行由权重0到1的权重网格搜索,从而确定随机森林、迭代决策树、神经网络模型各自组合权重;
步骤6、按照网格搜索到的最优权重对随机森林、迭代决策树和神经网络进行组合,从而产生综合预测模型下的预测结果。
2.根据权利要求1所述的一种高鲁棒性的大气污染物浓度综合预测方法,其特征在于:所述步骤2中,将数据属性值中小范围的异常值,使用线性平滑方法进行修正;对于同一监测站点的大片异常值分布,通过线性映射函数将其修正至正常范围;对于小范围的空缺值,采用临近值填补和回归填补两种方法完成对数据的补充。
3.根据权利要求1或2所述的一种高鲁棒性的大气污染物浓度综合预测方法,其特征在于:所述步骤2中,采用k均值聚类算法处理连续大片空缺值和异常值的情况,具体过程为:对于任意监测点的一个空缺属性,取该监测点其他存在值的属性作为一个高维向量,并由该向量代表该时间下的监测点记录,向量记为其中t代表记录时间,j代表监测点ID;随后对所有其余监测站点均生成一个对应向量,记为计算出待补记录对应的向量和其他监测站同时间记录的向量的欧式距离其公式如下:
4.根据权利要求3所述的一种高鲁棒性的大气污染物浓度综合预测方法,其特征在于:所述步骤4中,训练随机森林的过程为:
在训练集中有放回的随机选择N个数据样本,利用该N个样本来训练一个决策树,作为决策树根节点处的样本;每个样本有Q个属性,在决策树的每个节点需要分裂时,随机从这Q个属性中选取出q个属性,满足条件q<<Q;然后从这q个属性选择1个信息增益大的属性作为该节点的分裂属性,信息增益的程度用信息熵的变化程度来衡量;选取在该节点上的最优特征进行分裂,从而对训练集不断分裂直至生成一颗完整的决策树;重复上述步骤,直到产生指定数量的决策树,将这些树组合便形成了最后的随机森林模型。
5.根据权利要求4所述的一种高鲁棒性的大气污染物浓度综合预测方法,其特征在于:所述步骤4中,训练迭代决策树模型的过程为:
在训练集中初始化f0(x)的取值,这个值可以使得第0步模型的损失函数取最小值;在决策树个数从1到T过程中计算残差Rt,在得到残差Rt后,拟合学习出一颗决策回归树,得到第t个决策树的参数θt,使得损失函数最小化;不断更新模型,直到产生T个决策树;得到最后的迭代决策模型。
6.根据权利要求5所述的一种高鲁棒性的大气污染物浓度综合预测方法,其特征在于:所述步骤4中,训练神经网络模型的过程为:
将训练数据传入BN层进行处理,接着数据由输出层传入隐含层的线性层,其包含12个神经元,对应数据预处理过程后数据保留的特征数量;采用ReLU激活函数层对数据进行处理,之后连接了一个包含60个神经元的线性层,输出层获得隐含层传入的三维数据并使用ReLU激活函数进行再处理,输出预测结果。
7.根据权利要求6所述的一种高鲁棒性的大气污染物浓度综合预测方法,其特征在于:所述步骤4中,对随机森林和迭代决策树模型采用网格搜索方法找到效果最好的树的数量和单棵树的深度参数设置。
8.根据权利要求7所述的一种高鲁棒性的大气污染物浓度综合预测方法,其特征在于:所述步骤5中,确定随机森林、决策迭代树、神经网络模型各自权重,使用真实数据对三种模型的加权权重在0-1范围进行动态搜索,并在每次对三种模型取好权重后,计算该次权重分配下的平均绝对误差MAE,确定MAE分数最低的权重为综合预测模型的权重组成。
9.根据权利要求8所述的一种高鲁棒性的大气污染物浓度综合预测方法,其特征在于:所述步骤6中,将随机森林、决策迭代树、神经网络模型组合,按照搜索到的最优权重配比进行加权,综合预测模型公式表达为:
H=w1h1+w2h2+w3h3
其中,h1为随机森林模型,h2为迭代决策树模型,h3为神经网络模型,w1、w2、w3为模型各自的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211269650.7A CN115526298A (zh) | 2022-10-18 | 2022-10-18 | 一种高鲁棒性的大气污染物浓度综合预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211269650.7A CN115526298A (zh) | 2022-10-18 | 2022-10-18 | 一种高鲁棒性的大气污染物浓度综合预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115526298A true CN115526298A (zh) | 2022-12-27 |
Family
ID=84703495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211269650.7A Pending CN115526298A (zh) | 2022-10-18 | 2022-10-18 | 一种高鲁棒性的大气污染物浓度综合预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115526298A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116011561A (zh) * | 2023-03-28 | 2023-04-25 | 武汉大学 | 基于神经网络的信息外推方法、装置、设备及存储介质 |
CN116165353A (zh) * | 2023-04-26 | 2023-05-26 | 江西拓荒者科技有限公司 | 一种工业污染物监测数据处理方法及系统 |
CN117093832A (zh) * | 2023-10-18 | 2023-11-21 | 山东公用环保集团检测运营有限公司 | 一种用于空气质量数据缺失的数据插补方法及系统 |
CN117789038A (zh) * | 2024-02-26 | 2024-03-29 | 聊城莱柯智能机器人有限公司 | 一种基于机器学习的数据处理与识别模型的训练方法 |
-
2022
- 2022-10-18 CN CN202211269650.7A patent/CN115526298A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116011561A (zh) * | 2023-03-28 | 2023-04-25 | 武汉大学 | 基于神经网络的信息外推方法、装置、设备及存储介质 |
CN116165353A (zh) * | 2023-04-26 | 2023-05-26 | 江西拓荒者科技有限公司 | 一种工业污染物监测数据处理方法及系统 |
CN117093832A (zh) * | 2023-10-18 | 2023-11-21 | 山东公用环保集团检测运营有限公司 | 一种用于空气质量数据缺失的数据插补方法及系统 |
CN117093832B (zh) * | 2023-10-18 | 2024-01-26 | 山东公用环保集团检测运营有限公司 | 一种用于空气质量数据缺失的数据插补方法及系统 |
CN117789038A (zh) * | 2024-02-26 | 2024-03-29 | 聊城莱柯智能机器人有限公司 | 一种基于机器学习的数据处理与识别模型的训练方法 |
CN117789038B (zh) * | 2024-02-26 | 2024-05-10 | 聊城莱柯智能机器人有限公司 | 一种基于机器学习的数据处理与识别模型的训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363347B (zh) | 基于决策树索引的神经网络预测空气质量的方法 | |
CN115526298A (zh) | 一种高鲁棒性的大气污染物浓度综合预测方法 | |
CN113919448A (zh) | 一种任意时空位置二氧化碳浓度预测影响因素分析方法 | |
CN106779223B (zh) | 一种光伏系统发电功率实时预测方法及装置 | |
CN106920007B (zh) | 基于二阶自组织模糊神经网络的pm2.5智能预测方法 | |
CN110782658B (zh) | 一种基于LightGBM算法的交通量预测方法 | |
CN109615082B (zh) | 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 | |
CN113610243B (zh) | 基于耦合机器学习和相关性分析的大气污染物溯源方法 | |
CN110766222B (zh) | 基于粒子群参数优化和随机森林的pm2.5浓度预测方法 | |
CN110020712B (zh) | 一种基于聚类的优化粒子群bp网络预测方法和系统 | |
CN110674947B (zh) | 基于Stacking集成框架的光谱特征变量选择与优化方法 | |
CN109377440B (zh) | 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法 | |
CN113435707A (zh) | 基于深度学习和计权型多因子评价的测土配方施肥方法 | |
CN111784023A (zh) | 一种短时邻近雾能见度预测方法 | |
CN113836808A (zh) | 一种基于重污染特征约束的pm2.5深度学习预测方法 | |
CN114169434A (zh) | 一种负荷预测方法 | |
CN113033910B (zh) | 一种光伏发电功率的预测方法、存储介质及终端设备 | |
CN114882373A (zh) | 基于深度神经网络的多特征融合沙尘暴预测方法 | |
CN111985782B (zh) | 基于环境感知的自动驾驶有轨电车运行风险评估方法 | |
CN113435068A (zh) | 一种基于对数变分同化的放射性核素同化预报方法 | |
CN117370813A (zh) | 一种基于k线模式匹配算法的大气污染深度学习预测方法 | |
CN116090710B (zh) | 一种企业排污许可的管理方法、系统、电子设备及介质 | |
CN112598050A (zh) | 生态环境数据质量控制方法 | |
CN110175639B (zh) | 一种基于特征选取的短期风电功率预测方法 | |
CN117171678B (zh) | 一种微生物修复过程中土壤微生物菌群调控方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |