CN115526298A

CN115526298A - 一种高鲁棒性的大气污染物浓度综合预测方法

Info

Publication number: CN115526298A
Application number: CN202211269650.7A
Authority: CN
Inventors: 陶陶; 汪福生; 张思涵; 孙晨; 郑啸; 薛希玲
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2022-12-27

Abstract

本发明公开了一种高鲁棒性的大气污染物浓度综合预测方法，属于污染物浓度预测技术领域。本发明以气象环境监测站获取的多种环境数据为原始数据，采用K‑means思想和平滑填补法处理缺失值和异常值，使数据在填补影响下依然具备高准确性；采用特征工程进行训练数据的特征筛选；并行训练神经网络算法和具有随机性的随机森林、迭代决策树算法并产生初始预测结果；以真实数据为标准，动态搜索随机森林、迭代决策树、神经网络预测结果的最优组合权重；以最优组合权重组合预测结果，得到最后综合预测模型的污染物预测结果。本发明可以保证在原始数据质量存在缺失污染时，通过数据清洗和组合方法仍可以产生一个高精度的预测结果。

Description

一种高鲁棒性的大气污染物浓度综合预测方法

技术领域

本发明涉及污染物浓度预测技术领域，尤其涉及一种高鲁棒性的大气污染物浓度综合预测方法。

背景技术

城市是一个复杂的整体，其中工业生产是城市空气污染的主要源头。近年来工业生产量的加大，使得工业污染物排放成为空气污染的罪魁祸首，污染物成分主要以二氧化硫和烟尘为主。城市空气污染的另一来源为燃煤小锅炉，特别在我国北方地区，冬季的取暖主要依靠燃煤锅炉来供暖，而且呈低空排放的状态，对城市的空气质量有着直接的影响。此外，随着城市经济的发展，机动车的数量急剧增加，机动车尾气排放量呈现出逐年增长的发展趋势。在城市中，机动车数量集中，汽车尾气中的污染物主要有固体悬浮微粒、一氧化碳、碳氢化合物、氮氧化合物、铅及硫氧化合物等，尾气的排放已经成为城市空气污染的主要来源之一。

目前，主流的智能监控技术可以依靠传感器和多种计算机技术对产生较多大气污染物的工业园区完成相关区域的空气监测，做到有问题及时发现并预警处理。但是这种监测到异常才发现并处理的模式，往往是对大气环境恶化之后的亡羊补牢，已然错过了最佳的污染物治理时机，不利于环境长久健康发展。因此，需要可以预测未来大气中的污染物浓度来提前采取相应措施加以控制。在现有技术中，关于大气污染物浓度预测的方案中，有以下两个方面的问题：一是预测污染物浓度的模型算法预测效果不好，导致预测精度不够高；二是原始数据质量依赖性较高，没有合适且高效的处理原始残缺及污染数据的方法。这些问题都导致大气污染物预测模型无法做到准确预测，无法为大气治理提供高效助力。

经检索，中国专利申请号2021110221848，申请日为2021年09月01日，发明专利名称为：一种空气污染物浓度预测方法及系统，该申请案获取待测区域中至少两个空气监测站点的空间关系参数，并获取各个所述空气监测站点的当前时刻的监测指标信息；其中，所述监测指标信息包括空气污染物浓度监测值；基于所述空间关系参数以及所述当前时刻的监测指标信息，预先训练好的特征提取模型进行计算得到当前时刻的空气质量特征；将所述当前时刻的空气质量特征输入至预先训练好的污染物浓度预测模型，得到所述污染物浓度预测模型输出的下一时刻的待测区域空气污染物浓度预测结果。该申请案通过提取空气监测站点的空间特征信息，并综合时序和空间特征信息对空气污染物进行预测，提高了空气污染物浓度的预测精度。但该申请案对原始数据质量的依赖性较高，仍需进一步改进。

发明内容

1.发明要解决的技术问题

鉴于上述现有技术中存在的问题，本发明提供了一种高鲁棒性的大气污染物浓度综合预测方法，本发明对原始数据采取有效处理并在一定的权重调整后将训练的随机森林、迭代决策树、神经网络组合从而形成最终的预测模型，应用于污染物浓度预测，相对于传统预测方法能够减小对数据质量的依赖性并且明显提高大气污染物浓度的预测精度。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的一种高鲁棒性的大气污染物浓度综合预测方法，其步骤为：

步骤1、获取预测空间范围内的环境属性原始数据，一个时间点对应一条数据，每一条数据用P＝[p₁,p₂,……,p_n]表示，其中n为数据中属性个数，p₁到p_n为具体属性；

步骤2、清洗原始数据，采用不同方法处理原始数据中异常值和缺失值；

步骤3、在经过数据清洗后，计算数据中所有属性特征的方差值，移除方差低于指定阈值的属性特征，得到每一条数据为m个属性的数据集P＝[p₁,p₂,……,p_m]，其中m<n；

步骤4、使用步骤3得到的训练集并行训练随机森林、迭代决策树、神经网络模型，确定模型参数并产生初步预测结果；

步骤5、选取真实数据为数据标准，绝对平均误差为评判标准，以最小化绝对平均误差为目标进行由权重0到1的权重网格搜索，从而确定随机森林、迭代决策树、神经网络模型各自组合权重；

步骤6、按照网格搜索到的最优权重对随机森林、迭代决策树和神经网络进行组合，从而产生综合预测模型下的预测结果。

更进一步地，所述步骤2中，将数据属性值中小范围的异常值，使用线性平滑方法进行修正；对于同一监测站点的大片异常值分布，通过线性映射函数将其修正至正常范围；对于小范围的空缺值，采用临近值填补和回归填补两种方法完成对数据的补充。

更进一步地，所述步骤2中，采用k均值聚类算法处理连续大片空缺值和异常值的情况，具体过程为：对于任意监测点的一个空缺属性，取该监测点其他存在值的属性作为一个高维向量，并由该向量代表该时间下的监测点记录，向量记为

其中t代表记录时间，j代表监测点ID；随后对所有其余监测站点均生成一个对应向量，记为

计算出待补记录对应的向量

和其他监测站同时间记录的向量

的欧式距离

其公式如下：

式中，

和

为两个向量同一属性下的数值；

在计算完待补记录和所有其他监测点的欧式距离

后，将其从小到大排序，并选取10％到20％监测点数量的欧式距离最小的其他监测点，计算这些监测点同时间记录下待补属性值的求和并取平均的结果，此时若有个别监测点在待补属性上也有空缺则舍弃或拿其他欧式距离较小的候补监测点进行替换，最后以该结果作为填补的数值。

更进一步地，所述步骤4中，训练随机森林的过程为：

在训练集中有放回的随机选择N个数据样本，利用该N个样本来训练一个决策树，作为决策树根节点处的样本；每个样本有Q个属性，在决策树的每个节点需要分裂时，随机从这Q个属性中选取出q个属性，满足条件q<<Q；然后从这q个属性选择1个信息增益大的属性作为该节点的分裂属性，信息增益的程度用信息熵的变化程度来衡量；选取在该节点上的最优特征进行分裂，从而对训练集不断分裂直至生成一颗完整的决策树；重复上述步骤，直到产生指定数量的决策树，将这些树组合便形成了最后的随机森林模型。

更进一步地，所述步骤4中，训练迭代决策树模型的过程为：

在训练集中初始化f₀(x)的取值，这个值可以使得第0步模型的损失函数取最小值；在决策树个数从1到T过程中计算残差R_t，在得到残差R_t后，拟合学习出一颗决策回归树，得到第t个决策树的参数θ_t，使得损失函数最小化；不断更新模型，直到产生T个决策树；得到最后的迭代决策模型。

更进一步地，所述步骤4中，训练神经网络模型的过程为：

将训练数据传入BN层进行处理，接着数据由输出层传入隐含层的线性层，其包含12个神经元，对应数据预处理过程后数据保留的特征数量；采用ReLU激活函数层对数据进行处理，之后连接了一个包含60个神经元的线性层，输出层获得隐含层传入的三维数据并使用ReLU激活函数进行再处理，输出预测结果。

更进一步地，所述步骤4中，对随机森林和迭代决策树模型采用网格搜索方法找到效果最好的树的数量和单棵树的深度参数设置。

更进一步地，所述步骤5中，确定随机森林、决策迭代树、神经网络模型各自权重，使用真实数据对三种模型的加权权重在0-1范围进行动态搜索，并在每次对三种模型取好权重后，计算该次权重分配下的平均绝对误差MAE，确定MAE分数最低的权重为综合预测模型的权重组成。

更进一步地，所述步骤6中，将随机森林、决策迭代树、神经网络模型组合，按照搜索到的最优权重配比进行加权，综合预测模型公式表达为：

H＝w₁h₁+w₂h₂+w₃h₃

其中，h₁为随机森林模型，h₂为迭代决策树模型，h₃为神经网络模型，w₁、w₂、w₃为模型各自的权重。

3.有益效果

采用本发明提供的技术方案，与已有的公知技术相比，具有如下显著效果：

(1)本发明的一种高鲁棒性的大气污染物浓度综合预测方法，在气象污染问题上使用综合预测方法，即在一定的权重调整后将训练的随机森林、迭代决策树、神经网络组合从而形成最终的预测模型，应用于污染物浓度预测，相对于传统预测模型能够在一定程度上提升对大气污染物的预测准度，本发明可以预测一定区域内大气污染物的变化情况，为有关部门采取相关气象防治措施提供了准确可靠的数据支持。

(2)本发明的一种高鲁棒性的大气污染物浓度综合预测方法，保证了各模型未产生较好的预测结果或未合适训练时集成模型依旧可以提供一个相对准确的结果，另外，合适的权重分配方法也在一定程度上降低了误差，二者整体上保证了综合预测方法相对于传统预测方法有更高的预测精度。

(3)本发明的一种高鲁棒性的大气污染物浓度综合预测方法，鉴于原始数据存在数据空缺、异常等问题，而数据异常和数据缺失是影响数据质量的重要因素，如果处理不好缺失和异常数据，就会直接影响结果的可靠性；对上述问题本发明采用不同方法对原始数据进行有效处理，从而取得更准确的预测结果。

附图说明

图1为本发明高鲁棒性的大气污染物浓度综合预测方法的流程示意图；

图2为本发明的神经网络结构图；

图3为本发明的实现效果图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

实施例1

在当前环境污染越发加重，导致空气质量不断恶化，空气污染物的浓度越来越高的情况下。目前主流的空气质量监测技术可以做到有问题及时发现并预警处理，但是预测的精度不够高。本实施例可以实现对区域内的环境监控，提高臭氧、二氧化氮和PM10等空气污染物浓度的预测精度，为后续空气污染治理提供有效助力。

具体到本实施例中，首先获取预测空间范围内过去的环境属性原始数据，取某市100个气象监测站点在2020年1月1日至2020年10月6日的气象数据，共计670000条，同一监测站点相邻监测记录的时间间隔为1小时。其中，1月1日至10月3日之间的数据作为各模型的训练集，10月4日数据用于确定综合预测模型的权重构成，10月5日和10月6日的数据用于验证几种预测模型的预测效果，且待预测的污染物为以下三类：臭氧、二氧化氮和PM10。

而数据属性主要包含监测站点信息、污染物浓度信息、气象环境信息和指标信息共四类。监测站点信息包含监测时间和监测站ID这两个，用以表达记录采集的属性。污染物浓度信息包含了常见的大气污染物浓度，例如臭氧、一氧化碳、二氧化氮、二氧化硫、PM10、PM2.5等污染物的浓度信息。气象环境信息涵盖了多种实用的环境信息，其中主要有风速、风向、降水量、露点温度、气温、气压、水汽压、能见度、相对湿度等属性。指标信息则是几种人为划定的用以描述大气污染情况的指数指标，例如空气质量指数，总挥发性有机化合物和总悬浮颗粒物。

原始数据中每一条数据由多个属性构成，一个时间点对应一条数据，每一条数据用P＝[p₁,p₂,……,p_n]表示，其中n为数据中属性个数，p₁到p_n为具体属性；但是原始数据的数据质量并不理想。数据中存在以下几种问题：气象环境信息取值范围异常，例如在本实施例中绝对湿度属性数据存在44838条负值数据，而湿度属性是没有负值的；小范围数据空缺，所有监测站的属性数据均存在一定空缺，但可以通过传统数据填补方法进行修复；大范围数据空缺，例如在本实施例中部分监测站九月和十月部分天数下的环境数据存在大片的连续缺失，传统数据填补方法难以找到合适的数据支持进行填补。

数据异常和数据缺失是影响数据质量的重要因素，如果处理不好缺失和异常数据，就会直接影响结果的可靠性。对上述问题本实施例做出不同的处理。将数据属性值中小范围的异常值，使用线性平滑方法进行修正；对于同一监测站点的大片的异常值分布，通过线性映射函数将其修正至正常范围。对于小范围的空缺值，采用临近值填补和回归填补两种方法完成对数据的补充修正。临近值填补是对每一条数据的缺失值采用临近位置上下两个值的平均值来补充修正，回归填补是将已知特征值代入回归模型来估计未知特征值，以此估计值来进行填补，其中回归模型即回归方程，是利用最小二乘函数对已知特征值之间关系进行建模。

采用k均值聚类算法的思想处理连续大片空缺值和异常值的情况，具体过程为：对于任意监测点的一个空缺属性，取该监测点其他存在值的属性作为一个高维向量，并由该向量代表该时间下的监测点记录，向量记为

其中t代表该记录的记录时间，而j代表监测点ID。随后对所有其余监测站点均生成一个对应向量，记为

根据k均值聚类算法的思想，在高维空间上欧式距离近的样本可以被划分成一类，因此可以计算出待补记录对应的向量

和其他监测站同时间记录的向量

的欧式距离

其公式如下：

式中，

和

为两个向量同一属性下的数值。在计算完待补记录和所有其他监测点的欧式距离

在经过数据清洗过程后，对数据中所有属性进行方差值的计算，一个属性的方差值越小，则表明该特征的离散程度越小，那么其对待预测污染物变化的影响就越小，因而可以剔除这些方差值较小的属性特征。具体到本实施例中，移除方差低于指定阈值的属性特征，这里的阈值需要根据具体场景进行设定，得到每一条数据为m个属性的数据集P＝[p₁,p₂,……,p_m]，其中m<n，此训练集作为模型训练的训练集。通过该方法，计算得出气压属性其方差较小，近99％的气压属性值都在标准大气压左右波动(±0.5hPa)，故剔除气压属性。

其后对于存在大量空缺值且数据填补效果不佳的属性，包括衡量环境的评价指标和几种污染物浓度属性，将其一并删去。为保证时间属性的有效性，将其原本的时间字符串拆分转化为月份、日期、小时三个数字属性加入原数据。同时，为考察是否为工作日对模型训练的影响，对比加入该特征前后模型的预测准确性，未取得更好的效果，故放弃该新增特征。此外，考虑到每个监测点的地理位置等其他条件有差异，故针对一个监测点建立一个单独的预测模型，从而取得更准确的预测结果。

训练随机森林，在2020年1月1日到2020年10月3日的训练集中有放回的随机选择N个样本(每次随机选择一个样本，然后返回继续选择)。选择好了的N个样本用来训练一个决策树，作为决策树根节点处的样本。每个样本有Q个属性，在决策树的每个节点需要分裂时，随机从这Q个特征中选取出q个属性，满足条件q<<Q，这里取q是Q的平方根，然后从这q个属性中依据信息增益来选择1个信息增益大的属性作为该节点的分裂属性，信息增益的程度用信息熵的变化程度来衡量。信息熵的公式如下：

其中，p(z_i)是分类z_i出现的概率，n是分类的数目。可以看出，熵的大小只和变量的概率分布有关。对于在X的条件下Y的条件熵，是指在X的信息之后，Y这个变量的信息量(不确定性)的大小，计算公式如下：

当Entropy最大为1的时候，是分类效果最差的状态，当它最小为0的时候，是完全分类的状态。因为熵等于零是理想状态，一般实际情况下，熵介于0和1之间。选取在该节点上的最优特征进行分裂，从而对训练集S_i不断分裂直至生成一颗完整的决策树。重复上述步骤，直到产生指定数量的决策树，将这些树组合便形成了最后的随机森林模型。

训练迭代决策树模型。首先同样在2020年1月1日到2020年10月3日的训练集中初始化f₀(x)的取值，这个值可以使得第0步模型的损失函数取最小值。接着在t从1逐渐增大到T(最大值)的过程中先计算残差R_t，残差定义为：

R_t＝y_i-f_t-1(x)

其中，y_i为训练集内第i个样本对应的标签值，f_t-1(x)为第t-1个决策树的预测值。在得到残差R_t后，拟合学习出一颗决策回归树，得到第t个决策树的参数θ_t，使得损失函数最小化。不断更新模型，直到产生T个决策树。得到最后的提升树模型：

神经网络训练过程：采用的神经网络设计如图2所示。将2020年10月1日至10月3日之间的训练数据传入BN(Batch Normalization)层进行处理，接着数据由输出层传入隐含层的线性层，其包含12个神经元，对应数据预处理过程后数据保留的特征数量。之后采用ReLU(Rectified Linear Unit)激活函数层对数据进行处理。之后连接了一个包含60个神经元的线性层。输出层获得隐含层传入的三维数据并使用ReLU激活函数进行再处理，从而一次完成对三种污染物浓度的预测结果输出。针对一个监测点训练一个神经网络模型，共计训练100个模型。

接着使用网格搜索方法找到针对随机森林和迭代决策树模型效果最好的参数设置。对于单个监测站，上述两个模型生成并预测结果，平均需要约15分钟。对于短期气象预测，神经网络的训练集大小多控制在一周左右。因此针对神经网络的训练集大小，为防止过拟合我们对迭代次数进行控制，最终综合预测模型选择了效果最好的临近3天大小下的神经网络模型作为基模型。在以上三种模型的并行训练完成后，确定随机森林、迭代决策树、神经网络模型各自权重，对三种模型在0-1范围内动态搜寻最优权重组合，并在每次对三种模型取好权重后，以2020年10月4日到10月5日的真实数据计算该次权重分配下的平均绝对误差MAE(Mean Absolute Error)，最后选择MAE分数最低的权重作为单个监测站下单个污染物属性的综合预测模型的权重组成。MAE公式为：

其中，u_i为污染物的模型预测值，v_i为污染物的真实值。

将随机森林、决策迭代树、神经网络模型组合，使用加权平均法

将综合预测模型公式表达为公式：

H＝w₁h₁+w₂h₂+w₃h₃

其中，h₁为随机森林算法模型，h₂为迭代决策树算法模型，h₃为神经网络算法模型，其中的w₁、w₂、w₃为算法模型各自的权重。

通过实践，综合预测模型和随机森林模型、迭代决策树、神经网络模型对三种污染物的预测情况如表1至4所示。从表格中不难发现，多数情况下综合预测模型的预测准度较三种基模型有一定提升。综合三种污染物浓度的预测情况而言，综合预测模型的MAE得分为10.79，对比随机森林、迭代决策树和神经网络模型误差分别降低了20.1％，23.0％和68.6％。

表1预测模型的MAE得分(三种污染物)

模型	随机森林	迭代决策树	神经网络	综合预测模型
					MAE得分	13.51	14.02	34.38	10.79

表2不同训练数据大小下各预测模型的MAE得分(臭氧)

模型	随机森林	迭代决策树	神经网络	综合预测模型
					MAE得分	22.89	23.46	41.67	16.30

表3不同训练数据大小下各预测模型的MAE得分(二氧化氮)

模型	随机森林	迭代决策树	神经网络	综合预测模型
					MAE得分	9.82	9.81	23.86	9.74

表4不同训练数据大小下各预测模型的MAE得分(PM10)

模型	随机森林	迭代决策树	神经网络	综合预测模型
					MAE得分	10.18	10.70	37.61	7.39

图3为发明实现效果图，总的来说，本发明通过将随机森林、迭代决策树、神经网络三个基模型通过最优权重组合，在数据质量优化的基础上有效地提升了大气污染物浓度地预测精度，弥补了传统模型预测精度不高的问题，为城市空气污染物的浓度预测和防止提供了有效方法。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于，其步骤为：

步骤1、获取预测空间范围内的环境属性原始数据，一个时间点对应一条数据，每一条数据用P＝[p₁，p₂，……，p_n]表示，其中n为数据中属性个数，p₁到p_n为具体属性；

步骤3、在经过数据清洗后，计算数据中所有属性特征的方差值，移除方差低于指定阈值的属性特征，得到每一条数据为m个属性的数据集P＝[p₁，p₂，……，p_m]，其中m＜n；

2.根据权利要求1所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤2中，将数据属性值中小范围的异常值，使用线性平滑方法进行修正；对于同一监测站点的大片异常值分布，通过线性映射函数将其修正至正常范围；对于小范围的空缺值，采用临近值填补和回归填补两种方法完成对数据的补充。

3.根据权利要求1或2所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤2中，采用k均值聚类算法处理连续大片空缺值和异常值的情况，具体过程为：对于任意监测点的一个空缺属性，取该监测点其他存在值的属性作为一个高维向量，并由该向量代表该时间下的监测点记录，向量记为

计算出待补记录对应的向量

和其他监测站同时间记录的向量

的欧式距离

其公式如下：

式中，

和

为两个向量同一属性下的数值；

在计算完待补记录和所有其他监测点的欧式距离

4.根据权利要求3所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤4中，训练随机森林的过程为：

5.根据权利要求4所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤4中，训练迭代决策树模型的过程为：

6.根据权利要求5所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤4中，训练神经网络模型的过程为：

7.根据权利要求6所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤4中，对随机森林和迭代决策树模型采用网格搜索方法找到效果最好的树的数量和单棵树的深度参数设置。

8.根据权利要求7所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤5中，确定随机森林、决策迭代树、神经网络模型各自权重，使用真实数据对三种模型的加权权重在0-1范围进行动态搜索，并在每次对三种模型取好权重后，计算该次权重分配下的平均绝对误差MAE，确定MAE分数最低的权重为综合预测模型的权重组成。

9.根据权利要求8所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤6中，将随机森林、决策迭代树、神经网络模型组合，按照搜索到的最优权重配比进行加权，综合预测模型公式表达为：

H＝w₁h₁+w₂h₂+w₃h₃