CN110378520A

CN110378520A - 一种pm2.5浓度预测和预警方法

Info

Publication number: CN110378520A
Application number: CN201910562230.XA
Authority: CN
Inventors: 王博丞; 刘胜娟
Original assignee: Zhejiang University of Media and Communications
Current assignee: Zhejiang University of Media and Communications
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-25

Abstract

本发明涉及大气环境监测技术领域，具体涉及一种PM2.5浓度预测和预警方法，包括以下步骤：获取多个城市的多个因由特征和PM2.5浓度的历史数据集；对每个因由特征进行影响度分析以及相关性检验；从多个因由特征中筛选出多个相关因由特征；根据多个相关因由特征和PM2.5浓度的历史数据，对多个分类模型进行训练和测试，筛选出性能最优的目标分类模型；根据目标地的历史数据和目标分类模型对目标地的PM2.5浓度进行预测，若PM2.5浓度达到阈值则发出预警。通过影响度分析和相关性检验，排除不相关因由特征，通过从对多种分类模型筛选出性能最优的分类模型进行预测，提高了预测的准确度和效率，为大气污染的防治工作提供了科学、可靠的参考。

Description

一种PM2.5浓度预测和预警方法

技术领域

本发明涉及大气环境监测领域，具体涉及一种PM2.5浓度预测和预警方法。

背景技术

中国年复一年的空气污染严重影响人们的生命和健康。污染天气经常席卷全国大部分地区，特别是在华北，长江三角洲和中国中部。这些地区人口密集、经济发达，对自然资源的需求远远高于中国其他地区。随着工厂和私家车化石燃料消耗的增加，排放到空气中的二氧化硫和氮氧化物不仅对人类和植物造成直接危害，而且还会造成酸雨、雾霾、温室效应和光化学烟雾等二次污染。许多发达国家也出现过严重的烟雾污染，例如1955年和1970年洛杉矶的光化学烟雾事件，以及1952年在伦敦发生烟雾事件，造成大量人员死亡。在众多空气污染物中，悬浮颗粒(Particulate Matters，简称PM)是最致命的一种。直径小于或等于2.5微米的悬浮颗粒可以进入肺部深处，进入血管，导致DNA突变和癌症、中枢神经系统损伤，甚至过早死亡。

为了监测空气质量，许多国家都建立了监测站。实时记录和分析空气成分。但是，对于那些没有空气监测站的地区，如何准确预测空气质量并向公众报告仍然是一个难题。此外，生物医学研究表明，PM2.5很难被免疫系统清除，所以准确地监测和预测PM2.5污染物浓度变得非常重要。如果可以准确的预测污染事件，公民和政府可以及时作出适当的决策，例如关闭学校或减少室外运动等，从而减少污染带来的损害。

发明内容

本发明要解决的技术问题是：目前的PM2.5浓度预测方法效率低或准确度差的技术问题。提出了一种通过影响度进行输入参数筛选的预测模型更精简的预测效率高且准确度好的PM2.5浓度预测和预警方法。

为解决上述技术问题，本发明所采取的技术方案为：一种PM2.5浓度预测和预警方法，包括以下步骤：获取多个城市的多个因由特征和PM2.5浓度的历史数据集，所述多个因由特征包括多个污染物特征和多个气象特征，所述历史数据集包括预设历史时间长度内的每日PM2.5浓度数据和对应的所述多个因由特征数据；根据采集的所述历史数据集，建立PM2.5浓度和每一个因由特征的影响度模型，影响度模型输出用于指示因由特征对PM2.5浓度的影响程度的影响度值；根据每个因由特征和PM2.5浓度的影响度模型，对每个因由特征的影响度结果进行相关性检验，根据相关性检验结果从所述多个因由特征中选出多个相关因由特征；根据所述多个相关因由特征的历史数据和PM2.5浓度的历史数据，对多个分类模型进行训练和测试，从所述多个分类模型中选出目标分类模型，所述目标分类模型为所述多个分类模型中性能最优的分类模型；根据目标地的历史数据和所述目标分类模型对所述目标地的PM2.5浓度进行预测；当所述目标地的PM2.5浓度达到预警阈值时，对所述目标地进行大气污染预警。

作为优选，根据采集的所述历史数据集，建立PM2.5浓度和每一个因由特征的影响度模型，包括：针对每一个因由特征执行以下步骤：根据所述因由特征历史数据和相应PM2.5浓度历史数据的时间序列，建立所述因由特征和PM2.5浓度的第一联合回归模型；将所述因由特征历史数据和相应PM2.5浓度历史数据进行预设长度的延迟处理，根据二者延迟后的时间序列建立所述因由特征和PM2.5浓度的第二联合回归模型；根据所述第一联合回归模型和所述第二联合回归模型，建立所述因由特征和PM2.5浓度的影响度模型。

作为优选，因由特征F和PM2.5之间的影响度模型公式如下：

其中，表示因由特征F对PM2.5浓度的影响度值，m表示预设长度，N表示时间序列长度，a_11,j、a_21,j、a_22,j为联合回归模型的拟合系数，η_1,t为噪声项。

作为优选，采用如下公式确定所述预设长度：

R(m)＝Nlog(det(∑cov(η₁,η₂))+8m

其中，m表示所述预设长度，N是历史数据集的时间序列长度，cov(η₁,η₂)表示因由特征和PM2.5联合回归模型中噪声项的协方差，当R取值最小时得到最合适的m值。

作为优选，根据每一个因由特征和PM2.5浓度的影响度模型，对每一个因由特征的影响度结果进行相关性检验，根据相关性检验结果从所述多个因由特征中选出相关因由特征，包括：针对每一个因由特征，执行以下步骤：按照所述因由特征历史数据的时间序列，根据所述因由特征对应的影响度模型，计算所述因由特征对PM2.5浓度的正序影响度值；将所述因由特征的历史数据进行预设次数的时间乱序处理，得到所述因由特征的预设次数个乱序时间序列；对于每一个乱序时间序列，根据所述因由特征的影响度模型计算所述因由特征对PM2.5浓度的影响度值，得到预设次数个乱序影响度值；将所述正序影响度值和所述预设次数个乱序影响度值进行比较，当所述预设次数个乱序影响度值的数值小于所述正序影响度值的比例超出预设比例时，将该因由特征确定为相关因由特征。

作为优选，根据所述相关因由特征的历史数据和PM2.5浓度的历史数据，从所述多个分类模型中选出目标分类模型，包括：将每个相关因由特征的每条数据记录和对应的PM2.5浓度关联作为一个实例，为每个实例关联空气质量等级标签，作为相关因由特征的特征样本集；根据实例对应的影响度值，采用预设算法对所述多个相关因由特征进行重要性排序；按照重要性从高到低的顺序选取相关因由特征的特征样本集，利用选取的特征样本集对所述多个分类模型进行训练和测试，并在训练过程中计算分类模型的准确度、灵敏度、特异性、阳性预测值以及阴性预测值；根据每个分类模型的准确度、灵敏度、特异性、阳性预测值以及阴性预测值，确定所述分类模型的性能，将性能最优的分类模型确定为所述目标分类模型。

作为优选，按照重要性从高到低的顺序选取相关因由特征的特征样本集，利用选取的特征样本集对所述多个分类模型进行训练和测试，包括：针对每个分类模型执行以下步骤：按照重要性从高到底的顺序，依次添加并联合已添加的相关因由特征的特征样本集，对所述分类模型进行训练和测试，每次训练均以预设目标函数的取值达到最优为结束条件。

作为优选，利用选取的特征样本集对所述多个分类模型进行训练和测试，包括：将所述特征样本集划分为多个样本子集；对于所述多个样本子集中的每一个样本子集，依次执行如下步骤：将所述样本子集确定为测试样本子集，对于每一个分类模型，利用划分出的其余样本子集对所述分类模型进行训练；利用所述测试样本子集对训练后的分类模型进行测试。

作为优选，根据目标地的历史数据和所述目标分类模型对所述目标地的PM2.5浓度进行预测，包括：确定需要预测的未来时间；根据所述未来时间，获取所述目标地的历史数据和所述未来时间的大气预报，所述大气预报包括多个气象特征的预报；将所述目标地的历史数据和所述大气预报输入所述目标分类模型，得到所述目标地的PM2.5浓度的预测值。

作为优选，所述多个气象特征包括平均气压、大气温度、相对湿度、风速、降水量、蒸发量、日照量以及地表温度中的若干个；所述多个污染物特征包括二氧化氮、二氧化硫、一氧化碳以及臭氧中的若干个。

本发明的实质性效果是：通过多个气象特征和多个污染物特征综合进行影响度分析和相关性检验，从众多可能对PM2.5浓度有影响的因素中选出影响大气污染的主导因素，即相关因由特征，减少了输入参数维度，提高了PM2.5浓度预测的效率；而后利用相关因由特征和PM2.5的历史数据，对多种分类模型进行训练和测试，将性能最优的分类模型作为最终进行预测的目标分类模型，结合目标地的历史数据对目标地的PM2.5浓度进行预测，提高了预测的准确度，辅助判断PM2.5的污染来源，为大气污染的防治工作提供了科学、可靠的参考。

附图说明

图1为实施例一PM2.5浓度预测和预警方法流程框图。

图2为实施例二PM2.5浓度预测和预警方法流程框图。

图3为实施例二PM2.5浓度预测和预警方法的整体流程图。

具体实施方式

下面通过具体实施例，并结合附图，对本发明的具体实施方式作进一步具体说明。

实施例一：

一种PM2.5浓度预测和预警方法，如图1所示，本实施例包括以下步骤：

101、获取多个城市的多个因由特征和PM2.5浓度的历史数据集，该多个因由特征包括多个污染物特征和多个气象特征，该历史数据集包括预设历史时间长度内的每日PM2.5浓度数据和对应的该多个因由特征数据。

102、根据采集的该历史数据集，建立PM2.5浓度和每一个因由特征的影响度模型，影响度模型用于指示因由特征对PM2.5浓度的影响程度。

103、根据每一个因由特征和PM2.5浓度的影响度模型，对每一个因由特征的影响度结果进行相关性检验，根据相关性检验结果从该多个因由特征中选出多个相关因由特征。

其中，相关因由特征是指对PM2.5浓度的影响程度依赖于历史数据时间序列的因由特征。

104、根据该多个相关因由特征的历史数据和PM2.5浓度的历史数据，对多个分类模型进行训练和测试，从该多个分类模型中选出目标分类模型。

其中，该目标分类模型为该多个分类模型中性能最优的分类模型。

105、根据目标地的历史数据和该目标分类模型对该目标地的PM2.5浓度进行预测。

106、当目标地的PM2.5浓度达到预警阈值时，对目标地进行大气污染预警。

在本实施例中，根据采集的该历史数据集，建立PM2.5浓度和每一个因由特征的影响度模型，包括：

针对每一个因由特征执行以下步骤：

根据该因由特征历史数据和相应PM2.5浓度历史数据的时间序列，建立该因由特征和PM2.5浓度的第一联合回归模型；

将该因由特征历史数据和相应PM2.5浓度历史数据进行预设长度的延迟处理，根据二者延迟后的时间序列建立该因由特征和PM2.5浓度的第二联合回归模型；

根据该第一联合回归模型和该第二联合回归模型，建立该因由特征和PM2.5浓度的影响度模型。

因由特征F和PM2.5之间的影响度模型公式如下：

采用如下公式确定该预设长度：

R(m)＝Nlog(det(∑cov(η₁,η₂))+8m

其中，m表示该预设长度，N是历史数据集的时间序列长度，cov(η₁,η₂)表示因由特征和PM2.5联合回归模型中噪声项的协方差，当R取值最小时得到最合适的m值。

根据每一个因由特征和PM2.5浓度的影响度模型，对每一个因由特征的影响度结果进行相关性检验，根据相关性检验结果从该多个因由特征中选出相关因由特征，包括：

针对每一个因由特征，执行以下步骤：

按照该因由特征历史数据的时间序列，根据该因由特征对应的影响度模型，计算该因由特征对PM2.5浓度的正序影响度值；

将该因由特征的历史数据进行预设次数的时间乱序处理，得到该因由特征的预设次数个乱序时间序列；

对于每一个乱序时间序列，根据该因由特征的影响度模型计算该因由特征对PM2.5浓度的影响度值，得到预设次数个乱序影响度值；

将该正序影响度值和预设次数个乱序影响度值进行比较，当该预设次数个乱序影响度值的数值小于该正序影响度值的比例超出预设比例时，将该因由特征确定为相关因由特征。

根据相关因由特征的历史数据和PM2.5浓度的历史数据，从多个分类模型中选出目标分类模型，包括：

将每个相关因由特征的每条数据记录和对应的PM2.5浓度关联作为一个实例，为每个实例关联空气质量等级标签，作为相关因由特征的特征样本集；

根据实例对应的影响度值，采用预设算法对该多个相关因由特征进行重要性排序；

按照重要性从高到低的顺序选取相关因由特征的特征样本集，利用选取的特征样本集对该多个分类模型进行训练和测试，并在训练过程中计算分类模型的准确度、灵敏度、特异性、阳性预测值以及阴性预测值；

根据每个分类模型的准确度、灵敏度、特异性、阳性预测值以及阴性预测值，确定该分类模型的性能，将性能最优的分类模型确定为目标分类模型。

按照重要性从高到低的顺序选取特征样本集，利用选取的特征样本集对该多个分类模型进行训练和测试，包括：

针对每个分类模型执行以下步骤：

按照重要性从高到底的顺序，依次添加并联合已添加的相关因由特征的特征样本集，对该分类模型进行训练，每次训练均以预设目标函数的取值达到最优为结束条件。

利用选取的特征样本集对该多个分类模型进行训练和测试，包括：

将该特征样本集划分为多个样本子集；

对于该多个样本子集中的每一个样本子集，依次执行如下步骤：

将该样本子集确定为测试样本子集，对于每一个分类模型，利用划分出的其余样本子集对该分类模型进行训练；利用该测试样本子集对训练后的分类模型进行测试。

根据目标地的历史数据和该目标分类模型对该目标地的PM2.5浓度进行预测，包括：确定需要预测的未来时间；

根据该未来时间，获取该目标地的历史数据和该未来时间的大气预报，大气预报包括多个气象特征的预报；

将目标地的历史数据和该大气预报输入该目标分类模型，得到目标地的PM2.5浓度的预测值。

其中，多个气象特征包括平均气压、大气温度、相对湿度、风速、降水量、蒸发量、日照量以及地表温度中的若干个；多个污染物特征包括二氧化氮、二氧化硫、一氧化碳以及臭氧中的若干个。

实施例一提供的方法，通过多个气象特征和多个污染物特征综合进行影响度分析和相关性检验，从众多可能对PM2.5浓度有影响的因素中筛选出影响大气污染的主导因素，即相关因由特征。进而利用相关因由特征和PM2.5的历史数据，对多种分类模型进行训练和测试，将性能最优的分类模型作为最终进行预测的目标分类模型，并结合目标地的历史数据和大气预报对目标地的PM2.5浓度进行预测，提高了预测的准确度，为大气污染的防治工作提供了科学、可靠的参考。

实施例二：

一种PM2.5浓度预测和预警方法，如图2所示，本实施例包括以下步骤：

201、获取多个城市的多个因由特征和PM2.5浓度的历史数据集，该多个因由特征包括多个污染物特征和多个气象特征。

其中，历史数据集包括预设历史时间长度内的每日PM2.5浓度(μg/m³)数据和对应的该多个因由特征数据。多个气象特征至少包括平均气压，大气温度，相对湿度，风速，降水量，蒸发量，日照量，地表温度；多个污染物特征至少包括二氧化氮，二氧化硫，一氧化碳和臭氧。需要说明的是，本发明获取的历史数据不仅包括气象特征，还包括由于经济发展社会生产所导致的污染物特征，通过结合气象特征和污染物特征，可以更加全面、科学地分析究竟哪些因素是影响PM2.5浓度的主导因素。

其中，预设历史长度可以根据大气污染的实际情况进行设定，也可以根据预测需要进行设定，例如，我国雾霾天气从2013年开始爆发为全国性现象，因此预设历史时间长度的起始时间可以设为2013年1月1日，截止时间可以设为“至今”；或者预设历史长度设为“近3年”、“近5年”等，本实施例获取的历史数据集时间跨度一般比较长，长跨度的历史数据有利于更加全面的分析导致雾霾的原因，进而提高后续模型预测的准确度。

为了提高预测模型的普适性和准确度，本发明对全国三线及以上城市的历史数据进行统计分析，共计119个城市，表1所示为本实施例研究的三线及以上城市列表。综上，本发明获取多个城市的历史数据集的过程可以为：获取如表1所示的三线及以上城市2013年1月1日至今每天的平均气压，大气温度，相对湿度，风速，降水量，蒸发量，日照量，地表温度等气象特征数据，和二氧化氮，二氧化硫，一氧化碳和臭氧等污染物特征数据。本发明的中国气象局气象数据中心，污染物特征数据来源为中国空气质量在线监测分析平台。其中，日照量是指每日日照时数。

其中，无论是气象特征还是污染物特征，每一个城市内都设置有一个或多个监测站进行监测，通常气象监测站可以对上述所有气象特征进行监测。当城市内监测站为多个时，对该多个监测站的数据进行处理后作为该城市的特征数据。例如，北京有20个气象监测站，则将该20个气象监测站的数值求平均后作为北京气象特征的最终数据。

本实施例中，获得沿时间序列的离散数据，作为因由特征和PM2.5浓度的历史原始数据集。对获取到的原始数据集进行预处理，该预处理包括对数据格式的统一、数据筛选、归一化等。在具体实施过程中，根据数据预处理结果，对城市进行筛选，例如，当某个城市的历史数据不完整时，则该城市便不作为研究对象。

表1本实施例获取的三线及以上城市列表。

202、根据采集的历史数据集，建立PM2.5浓度和每一个因由特征的影响度模型。

其中，影响度模型用于指示因由特征对PM2.5浓度的影响程度，其输出为影响度值。PM2.5是形成雾霾、造成大气污染的罪魁祸首，弄清哪些因素是导致PM2.5浓度升高的主导因素是至关重要的。本实施例通过分析PM2.5和多个因由特征之间的影响度值，来确定影响PM2.5浓度的主导因素，详细流程如下：

针对每一个因由特征执行以下步骤A1至步骤A3：

步骤A1、根据该因由特征历史数据和相应PM2.5浓度历史数据的时间序列，建立该因由特征和PM2.5浓度的第一联合回归模型。

时间序列的处理对历史数据的分析是非常重要的，为了解决时间序列，本实施例用变量的历史值来预估它的当前值，采用联合自回归模型衡量多变量的回归特性。在PM2.5和因由特征的分析当中，假设序列时间长度为N，则变量的当前值和前N时刻的时间序列线性相关。

其中，该第一联合回归模型如公式1所示。

其中，SingleFeature代表一个气象特征或者污染物特征；a₁₁、a₁₂、a₂₁、a₂₂为联合回归模型的拟合系数；η_1,t和η_2,t为噪声项，描述了回归模型中的误差情况，限定该项为时间无关且满足均值为0的高斯白噪声，N为历史数据的时间序列长度。

步骤A2、将该因由特征历史数据和相应PM2.5浓度历史数据进行预设长度的延迟处理，根据二者延迟后的时间序列建立该因由特征和PM2.5浓度的第二联合回归模型。

对于长期数据的研究，变量的过去值序列对于建立回归模型来说显得非常庞大，在实际计算过程中，将时间序列进行一定的延迟处理，可在一定程度上降低计算成本。假设将历史数据进行预设长度为m的延迟处理，即变量的当前值和前m时刻的时间序列线性相关，则根据延迟后的时间序列建立因由特征和PM2.5浓度的第二联合回归模型如公式2所示。

其中，SingleFeature代表一个气象特征或者污染物特征；a_m11、a_m12、a_m21、a_m22为联合回归模型的拟合系数；η_1,t-m+1和η_2,t-m+1为噪声项，描述了回归模型中的误差情况，限定该项为时间无关且满足均值为0的高斯白噪声，N为历史数据的时间序列长度，m为预设长度。

其中，采用如下公式3确定该预设长度m：

R(m)＝Nlog(det(∑cov(η₁,η₂))+8m (3)

步骤A3、根据该第一联合回归模型和该第二联合回归模型，建立该因由特征和PM2.5浓度的影响度模型。

结合第一联合回归模型和第二联合回归模型，将所有与SingleFeature的相关项的和作为分子，可得到一个因由特征和PM2.5之间的影响度模型，如公式4所示。

其中，F代表一个因由特征，表示因由特征对PM2.5浓度的影响度值，m表示预设长度，N表示时间序列长度，a_11,j、a_21,j、a_22,j为联合回归模型的拟合系数，η_1,t为噪声项。

本实施例中，针对8种气象特征平均气压，大气温度，相对湿度，风速，降水量，蒸发量，日照量，地表温度，和4种污染物特征——二氧化氮，二氧化硫，一氧化碳和臭氧，利用公式4分别建立因由特征和PM2.5之间的影响度模型。利用建立的影响度模型，计算每一种因由特征对PM2.5的影响度值。其中，因由特征的影响值是指多个城市影响度值的平均值。例如，本实施例对119个城市进行分析，则每一个因由特征的影响度值是119个城市影响度值的平均值。

203、根据每一个因由特征和PM2.5浓度的影响度模型，对每一个因由特征的影响度结果进行相关性检验，根据相关性检验结果从该多个因由特征中选出多个相关因由特征。

为了验证影响度实验结果的有效性，本实施例对影响度结果进行相关性检验，具体地，针对每一个因由特征，执行以下步骤B1至步骤B4：

步骤B1、按照该因由特征历史数据的时间序列，根据该因由特征对应的影响度模型，计算该因由特征对PM2.5浓度的正序影响度值。

需要说明的是，本发明中的“时间序列”默认为按照时间先后顺序排列而成的数列。进行乱序处理之后的时间序列称为“乱序时间序列”。

步骤B2、将该因由特征的历史数据进行预设次数的时间乱序处理，得到该因由特征的预设次数个乱序时间序列。

其中，为了保证相关性检验的准确性，预设次数由时间序列的长度确定，时间序列越长预设次数越大，该预设次数可在数据处理前进行设定或修改。

步骤B3、对于每一个乱序时间序列，根据该因由特征的影响度模型计算该因由特征对PM2.5浓度的影响度值，得到预设次数个乱序影响度值。

在本实施例中，正序影响度值和乱序影响度值均采用上述公式4来计算。

步骤B4、将该正序影响度值和该预设次数个乱序影响度值进行比较，当该预设次数个乱序影响度值中超出预设比例的数值小于该正序影响度值时，确定该因由特征为相关因由特征。

其中，预设比例可以在数据处理前进行设定或修改，比如，预设比例可以为0.95、或0.9、或0.85等，本实施例对此不作限定。其中，相关因由特征是指对PM2.5浓度的影响程度依赖于历史数据时间序列的因由特征。

下面以污染物特征二氧化氮为例，解释步骤B1至B4的过程：利用二氧化氮和PM2.5的正常时间序列，根据公式4计算二氧化氮对PM2.5的正序影响度值。将二氧化氮的历史数据进行200次随机乱序处理，并根据公式4利用乱序时间序列计算二氧化氮对PM2.5的乱序影响度值。如果二氧化氮的正序影响度值高于95％以上的乱序影响度值，则确定二氧化氮为相关因由特征。通过影响度分析和相关性检验，确定日照量、降水量、地表温度和蒸发量这4个特征为不相关因由特征，也即这4个特征对PM2.5浓度没有影响。通过影响度分析和相关性检验在众多对PM2.5可能有影响的因素中，筛选出真正对PM2.5有影响的因素，排除非相关因素，不仅可以降低时间成本，还能提高后续PM2.5浓度预测的准确度。

进一步地，为了更加准确的排除非相关特征，还可以结合如下条件来确定相关因由特征：根据对因由特征和PM2.5浓度的影响度分析结果，确定达到该因由特征影响度均值的城市数量占比；当城市数量占比高于预设占比时，确定该因由特征为相关因由特征。也即，结合步骤B4当该预设次数个乱序影响度值中超出预设比例的数值小于该正序影响度值、且城市数量占比高于预设占比时，确定该因由特征为相关因由特征。其中，预设占比可预先设定，比如0.6等，本实施例对此不作限定。

实施例中，在确定好相关因由特征之后，用机器学习方法对相关因由特征的历史数据进行处理，以确定PM2.5浓度的预测模型，也即根据步骤203筛选出的多个相关因由特征的历史数据和PM2.5浓度的历史数据，对多个分类模型进行训练和测试，从该多个分类模型中选出目标分类模型。其中，目标分类模型为多个分类模型中性能最优的分类模型，目标分类模型即为PM2.5浓度的预测模型。下面通过步骤204至步骤207对这个过程进行详细介绍：204、将每个相关因由特征的每条数据记录和对应PM2.5浓度关联作为一个实例，为每个实例关联空气质量等级标签，作为每个相关因由特征的特征样本集。

在本实施例中，通过预处理后的每日数据以实例为基本单位进行格式统一，具体格式如表2所示，表2以特征二氧化氮为例示出，其中时间(日)可为20130101，表示2013年1月1日；站点为城市名称或代码，例如“北京”或“110000”。其中，空气质量等级标签是指每日数据对应的空气质量指数(Air Quality Index，简称AQI)的等级，例如，可以按照常规划分方法将AQI等级划分为5或6个等级，当然为了进一步提高预测的准确度，还可以更加细粒度的划分AQI等级，比如划分8～10个等级等，不同等级对应的PM2.5浓度范围不同。需要说明的是，在步骤201获取历史数据集的过程中，可以一并获取每日AQI数据。

表2

特征(NO2)

时间(日)

站点(城市)

PM2.5浓度

AQI等级

以获取119个三线及以上城市“近三年”的历史数据为例，对于每一个相关因由特征，其对应的实例数至少为119*1095个，其中“*”表示乘号，119为城市数，1095为三年的天数。对筛选出来的二氧化氮、平均气压、二氧化硫、一氧化碳、大气温度、臭氧、相对湿度和风速这8个相关因由特征的历史数据，均采用诸如表2的形式进行关联，分别得到每一个相关因由特征的特征样本集。

205、根据实例对应的影响度值，采用预设算法对该多个相关因由特征进行重要性排序。

由步骤204可知，每一个相关因由特征的实例数至少为119*1095个，实例数远远超出相关特征数，因此，如何选取特征进行后续的分类模型训练以确保模型预测的准确度是十分重要的。本实施例进行重要性排序的过程如下：将相关因由特征对应所有实例的影响度平均值作为该相关因由特征的影响度值；按照相关因由特征的影响度值从高到低的排列顺序，针对每个相关因由特征依次进行如下处理——从特征样本集A中随机选择一个样本X，然后从和X同类的样本中寻找最近邻样本Y，从和X不同类的样本中寻找最近邻样本Z，然后根据以下规则更新每个相关因由特征的权重：如果X和Y在某个相关因由特征上的距离小于X和Z上的距离，则说明该相关因由特征对区分同类和不同类的最近邻是有益的，则增加该相关因由特征的权重；反之，如果X和Y在某个相关因由特征的距离大于X和Z上的距离，说明该相关因由特征对区分同类和不同类的最近邻起负面作用，则降低该相关因由特征的权重。以上过程重复M次，最后得到各特征的权重。相关因由特征的权重越大，表示该相关因由特征的分类能力越强，反之，表示该相关因由特征分类能力越弱。权重越大，说明该相关因由特征的重要性越高。其中，M为相关因由特征数。

206、按照重要性从高到低的顺序选取相关因由特征的特征样本集，利用选取的特征样本集对该多个分类模型进行空气质量识别训练和测试，并在训练过程中计算每一个分类模型的准确度、灵敏度、特异性、阳性预测值以及阴性预测值。

本实施例中，按照重要性从高到低的顺序选取特征样本集，利用选取的特征样本集对该多个分类模型进行训练和测试的过程包括：

针对每一个分类模型执行以下步骤：按照重要性从高到底的顺序，依次添加并联合相关因由特征的特征样本集对分类模型进行训练和测试，每次训练均以预设目标函数的取值达到最优为结束条件。具体地，按照重要性从高到底的顺序，首先选取排序第一的相关因由特征的特征样本集A对该分类模型进行训练和测试，直到预设目标函数的取值达到最优；然后，选取排序第二的相关因由特征的特征样本集B，联合该特征样本集B和该特征样本集A对该分类模型进行训练和测试，直到该预设目标函数的取值达到最优；依此类推，直到所有相关因由特征均被选取为止。

其中，预设目标函数的一种形式可以如公式5所示。

公式5中s.t.表示受限于，w为分类垂直参考面，z是样本标签，x是特征样本向量，N为样本数，当确定w和b使公式5中函数取值最小时，该预设目标函数的取值达到最优。

另外，仅基于单个测试数据集或预测结果来推断分类器的适应性是不够的，本实施例还采用多交叉验证方法来增强分类器的适应性，具体地利用选取的特征样本集对该多个分类模型进行空气质量识别训练和测试还包括：将该特征样本集划分为多个样本子集；对于多个样本子集中的每一个样本子集，依次执行如下步骤：将该样本子集确定为测试样本子集，对于每一个分类模型，利用划分出的其余样本子集对该分类模型进行训练；利用该测试样本子集对训练后的分类模型进行测试。

目前没有一个统一的分类模型用来进行空气质量的识别和预测，本实施例通过综合气象特征、污染物特征，对多种机器学习分类模型——K近邻法，决策树，集成学习和支持向量机等模型进行训练和预测性能对比，找到能在空气质量识别和预测领域实现能够统一应用的预测模型。其中，本实施例对集成学习中的两种分类模型提升树和装袋树进行研究，支持向量机选取两种不同的核函数Linear和Gaussian的分类模型进行研究。综上，本实施例对上述六种常用的分类模型进行训练和测试，从中选取对空气质量预测性能最优的分类模型。

本实施例引入五个统计指标来评估分类模型的性能：准确度，灵敏度，特异性，阳性预测值和阴性预测值。

207、根据每一个分类模型的准确度、灵敏度、特异性、阳性预测值以及阴性预测值，确定分类模型的性能，将性能最优的分类模型确定为该目标分类模型。

由于不同统计指标的侧重点不同，为了保证预测模型的准确度，本实施例对评估分类模型的5个统计指标分别设定了不同的权重。为了优先保证预测准确度，其中准确度的权重最高，不小于0.4；5个统计指标的权重值和为1。

根据每一个分类模型的准确度、灵敏度、特异性、阳性预测值、阴性预测值，确定分类模型性能的过程为：根据该分类模型准确度、灵敏度、特异性、阳性预测值、阴性预测值的统计值和权重，将五个统计指标的加权平均值，作为该分类模型的性能统计值，性能统计值越大对应性能越高。当然也可以将五个统计指标的加权和作为分类模型的性能统计值，本实施例对此不作限定。

例如，设准确度的权重为0.5，其余4个统计指标的权重分别0.2、0.1、0.1、0.1，则分类模型的性能统计值＝0.5*准确度+0.2*灵敏度+0.1*特异性+0.1*阳性预测值+0.1*阴性预测值。本发明通过对模型的评估确定集成学习中提升树模型为性能最优的分类模型，即目标分类模型。

需要说明的是，目前还没有一个统一的模型来预测PM2.5浓度，本发明确定的目标分类模型采用了大量的、多方面的历史数据进行训练、且从多个常用的分类模型中脱颖而出的，可作为一个参考模型用于PM2.5浓度的预测。

208、根据目标地的历史数据和该目标分类模型对该目标地的PM2.5浓度进行预测。

其中，目标地是指要进行PM2.5浓度预测的对象，这里目标地不单单局限于城市；还可以是区、县、乡、镇；或者为某个具体的场所(如亚运村、奥运场馆等)，本实施例对目标地的范围大小和行政区域不作限定。

本实施例根据目标地的历史数据和该目标分类模型对该目标地的PM2.5浓度进行预测的过程包括：确定需要预测的未来时间；根据该未来时间，获取该目标地的历史数据和该未来时间的大气预报，该大气预报包括多个气象特征的预报；将该目标地的历史数据和大气预报输入目标分类模型，得到该目标地的PM2.5浓度的预测值。

其中，未来时间可以是未来1天、未来2天、未来一周等，可根据实际预测需求进行设定或修改。未来时间用于确定该目标地历史数据和大气预报的时间跨度，未来时间距当前时间越远，则目标历史数据和大气预报的时间跨度越长。例如，未来时间是未来1天的，则获取未来一天的大气预报数据和过去1个月的历史数据；未来时间是未来2天的，则获取未来两天的大气预报数据和过去2个月的历史数据等。

其中，大气预报涉及到的特征可以包括气象方面的多个相关因由特征，如步骤203中从多个气象特征中筛选出平均气压、大气温度、相对湿度和风速为相关因由特征，则直接排除其他气象因素的干扰，本步骤中直接选取气象特征平均气压、大气温度、相对湿度和风速相关因由特征为大气预报特征。本步骤中的历史数据包括目标地的相关因由特征的历史数据和PM2.5浓度历史数据，其中相关因由特征包括平均气压、大气温度、相对湿度、风速、二氧化氮、二氧化硫、一氧化碳和臭氧这8个特征。

209、当目标地的PM2.5浓度达到预警阈值时，对目标地进行大气污染预警。

其中，预警阈值可以包括多个等级，例如，一级预警、二级预警、三级预警等，等级越高说明污染程度越大。根据实际的生产生活需求，可针对不同的区域设置个性化的预警阈值，例如，医院、景区、中小学等区域预警阈值可以低一些，工厂等区域预警阈值可高一些等。

为了有效传达大气污染预警消息，本实施例的方法在PM2.5浓度达到预警阈值时还可向指定平台推送大气污染预警消息。指定平台可包括微信公众号、政务网站、天气预报应用等。

本发明通过大气污染预警有利于大气污染的提前防治，为政府和人们的生产生活提供有效的决策依据，例如，人们可以根据大气污染预警减少外出活动等。

为了更加简洁、清楚地介绍本发明所提供的PM2.5浓度预测和预警方法，图3示出了PM2.5浓度预测和预警的整体流程图，图3中包括数据采集、数据预处理、确定相关因由特征、分类模型筛选和预测等几个部分。

本实施例通过对三线及以上城市的多个气象特征和多个污染物特征综合进行影响度分析和相关性检验，从众多可能对PM2.5浓度有影响的因素中筛选出影响大气污染的主导因素，即相关因由特征。进而利用相关因由特征和PM2.5的历史数据，对多种分类模型进行训练和测试，将性能最优的分类模型作为最终进行预测的目标分类模型，并结合目标地的历史数据和大气预报对目标地的PM2.5浓度进行预测，提高了预测的准确度，为大气污染的防治工作提供了科学、可靠的参考。

此外，本实施例还具有以下有益效果：

通过对三线及以上城市的多个气象特征和多个污染物特征综合进行影响度分析和相关性检验，从众多影响PM2.5浓度的因素中剔除不相关特征，准确的选出影响PM2.5浓度的主导因素，能够辅助判断PM2.5的污染来源，并且减少了后续分类模型的输入维度，提高了后续分类模型训练和预测的效率和准确度。进而利用相关因由特征和PM2.5的历史数据，对多种分类模型进行训练和测试，将性能最优的分类模型作为最终进行预测的目标分类模型，并结合目标地的历史数据和大气预报特征对目标地的PM2.5浓度进行预测，提高了预测的准确度，为大气污染的防治工作提供了科学、可靠的参考。

另外，通过相关性检验避免了影响度分析结果的偶然性，保证了相关因由特征的正确性，将影响度理论从经济学和脑电科学成功应用到气象领域。

另外，通过结合多种气象特征和污染物特征对多种常用分类模型进行训练和测试，通过性能对此筛选出性能最优的目标分类模型，为空气质量预测提供了一个可统一应用的分类模型。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种PM2.5浓度预测和预警方法，其特征在于，

包括以下步骤：

获取多个城市的多个因由特征和PM2.5浓度的历史数据集，所述多个因由特征包括多个污染物特征和多个气象特征，所述历史数据集包括预设历史时间长度内的每日PM2.5浓度数据和对应的所述多个因由特征数据；

根据采集的所述历史数据集，建立PM2.5浓度和每一个因由特征的影响度模型，影响度模型输出用于指示因由特征对PM2.5浓度的影响程度的影响度值；

根据每个因由特征和PM2.5浓度的影响度模型，对每个因由特征的影响度结果进行相关性检验，根据相关性检验结果从所述多个因由特征中选出多个相关因由特征；

根据所述多个相关因由特征的历史数据和PM2.5浓度的历史数据，对多个分类模型进行训练和测试，从所述多个分类模型中选出目标分类模型，所述目标分类模型为所述多个分类模型中性能最优的分类模型；

根据目标地的历史数据和所述目标分类模型对所述目标地的PM2.5浓度进行预测；

当所述目标地的PM2.5浓度达到预警阈值时，对所述目标地进行大气污染预警。

2.根据权利要求1所述的一种PM2.5浓度预测和预警方法，其特征在于，

根据采集的所述历史数据集，建立PM2.5浓度和每一个因由特征的影响度模型，包括：

针对每一个因由特征执行以下步骤：

根据所述因由特征历史数据和相应PM2.5浓度历史数据的时间序列，建立所述因由特征和PM2.5浓度的第一联合回归模型；

将所述因由特征历史数据和相应PM2.5浓度历史数据进行预设长度的延迟处理，根据二者延迟后的时间序列建立所述因由特征和PM2.5浓度的第二联合回归模型；

根据所述第一联合回归模型和所述第二联合回归模型，建立所述因由特征和PM2.5浓度的影响度模型。

3.根据权利要求1或2所述的一种PM2.5浓度预测和预警方法，其特征在于，

因由特征F和PM2.5之间的影响度模型公式如下：

4.根据权利要求2所述的一种PM2.5浓度预测和预警方法，其特征在于，

采用如下公式确定所述预设长度：

R(m)＝Nlog(det(∑cov(η₁，η₂)))+8m

5.根据权利要求1所述的一种PM2.5浓度预测和预警方法，其特征在于，

根据每一个因由特征和PM2.5浓度的影响度模型，对每一个因由特征的影响度结果进行相关性检验，根据相关性检验结果从所述多个因由特征中选出相关因由特征，包括：

针对每一个因由特征，执行以下步骤：

按照所述因由特征历史数据的时间序列，根据所述因由特征对应的影响度模型，计算所述因由特征对PM2.5浓度的正序影响度值；

将所述因由特征的历史数据进行预设次数的时间乱序处理，得到所述因由特征的预设次数个乱序时间序列；

对于每一个乱序时间序列，根据所述因由特征的影响度模型计算所述因由特征对PM2.5浓度的影响度值，得到预设次数个乱序影响度值；

将所述正序影响度值和所述预设次数个乱序影响度值进行比较，当所述预设次数个乱序影响度值的数值小于所述正序影响度值的比例超出预设比例时，将该因由特征确定为相关因由特征。

6.根据权利要求1所述的一种PM2.5浓度预测和预警方法，其特征在于，

根据所述相关因由特征的历史数据和PM2.5浓度的历史数据，从所述多个分类模型中选出目标分类模型，包括：

根据实例对应的影响度值，采用预设算法对所述多个相关因由特征进行重要性排序；

按照重要性从高到低的顺序选取相关因由特征的特征样本集，利用选取的特征样本集对所述多个分类模型进行训练和测试，并在训练过程中计算分类模型的准确度、灵敏度、特异性、阳性预测值以及阴性预测值；

根据每个分类模型的准确度、灵敏度、特异性、阳性预测值以及阴性预测值，确定所述分类模型的性能，将性能最优的分类模型确定为所述目标分类模型。

7.根据权利要求6所述的一种PM2.5浓度预测和预警方法，其特征在于，

按照重要性从高到低的顺序选取相关因由特征的特征样本集，利用选取的特征样本集对所述多个分类模型进行训练和测试，包括：

针对每个分类模型执行以下步骤：

按照重要性从高到底的顺序，依次添加并联合已添加的相关因由特征的特征样本集，对所述分类模型进行训练和测试，每次训练均以预设目标函数的取值达到最优为结束条件。

8.根据权利要求6或7所述的一种PM2.5浓度预测和预警方法，其特征在于，

利用选取的特征样本集对所述多个分类模型进行训练和测试，包括：

将所述特征样本集划分为多个样本子集；

对于所述多个样本子集中的每一个样本子集，依次执行如下步骤：

将所述样本子集确定为测试样本子集，对于每一个分类模型，利用划分出的其余样本子集对所述分类模型进行训练；利用所述测试样本子集对训练后的分类模型进行测试。

9.根据权利要求1所述的一种PM2.5浓度预测和预警方法，其特征在于，

根据目标地的历史数据和所述目标分类模型对所述目标地的PM2.5浓度进行预测，包括：

确定需要预测的未来时间；

根据所述未来时间，获取所述目标地的历史数据和所述未来时间的大气预报，所述大气预报包括多个气象特征的预报；

将所述目标地的历史数据和所述大气预报输入所述目标分类模型，得到所述目标地的PM2.5浓度的预测值。

10.根据权利要求1所述的一种PM2.5浓度预测和预警方法，其特征在于，

所述多个气象特征包括平均气压、大气温度、相对湿度、风速、降水量、蒸发量、日照量以及地表温度中的若干个；所述多个污染物特征包括二氧化氮、二氧化硫、一氧化碳以及臭氧中的若干个。