CN111461423B

CN111461423B - 一种高精度网格化空气质量推断方法、系统、终端设备及存储介质

Info

Publication number: CN111461423B
Application number: CN202010235603.5A
Authority: CN
Inventors: 韩科; 唐彬童
Original assignee: Sichuan Guolan Zhongtian Environmental Technology Group Co ltd
Current assignee: Sichuan Guolan Zhongtian Environmental Technology Group Co ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-12-18
Anticipated expiration: 2040-03-30
Also published as: CN111461423A

Abstract

本发明公开了一种高精度网格化空气质量推断方法，包括：多元特征获取；部分单元数据获取；推断模型训练；未知单元数据推断。通过对固定+移动式“双网监测”所提供的实测空气质量数据、与之高度相关或隐式相关的城市基础和动态特征（包括地理、土地利用、基础设施、交通、人口动态、气象环境等）、研究区域以外的空气质量信息等进行特征工程，并输入到XGBoost和全卷积神经网络的集成模型之中训练模型，从而补全网格化空气质量的空间信息（即推断整个城市的空气质量趋势面）。对于城市空气质量的全面域监测、空气污染溯源和治理都有重要的现实意义。旨在解决现有技术中存在的推断模型对数据噪声的鲁棒性与捕捉特征的空间相关性不能兼顾的技术问题。

Description

一种高精度网格化空气质量推断方法、系统、终端设备及存储介质

技术领域

本发明涉及涉及环境空气质量监测领域，尤其涉及一种高精度网格化空气质量推断方法、系统、终端设备及存储介质。

背景技术

随着大数据、云计算、人工智能、物联网等技术的高速发展，固定/移动双网融合+智能数据模型/决策支持使大气环境高密度、高精度监测以及科学溯源和政策指引成为可能。

在本领域中使用的常规方法包括XGBoost模型和全卷积网络模型，单独使用XGBoost梯度曾江并行树模型对数据噪声的鲁棒性优于神经网络，但因为结构的原因无法捕捉特征的空间相关性；而全卷积网络可以很好地捕捉特征内部、特征间的时空相关性，但在对噪声的鲁棒性上较弱。现有技术中没有一种能够兼顾两者优点的方法实现高精度的空气质量推断。

发明内容

本发明的主要目的在于提供一种高精度网格化空气质量推断方法、系统、终端设备及存储介质，旨在解决现有技术中存在的推断模型对数据噪声的鲁棒性与捕捉特征的空间相关性不能兼顾的技术问题。

为实现上述目的，本发明提出一种高精度网格化空气质量推断方法，包括如下步骤：

多元特征获取：获取预设时间戳内和预设网格区域范围内所代表单元的多元特征，将该多元特征生成第一特征工程；

部分单元数据获取：对所代表的数据已知的单元所对应的空气质量数据，即标签进行采集，将该空气质量数据生成第二特征工程；

推断模型训练：将第一特征工程与第二特征工程分别代入机器学习算法 XGBoost模型和深度学习算法全卷积网络模型进行模型训练；

未知单元数据推断：将所代表的数据未知的单元所对应的特征数据代入模型，集成XGBoost模型和全卷积网络模型的输出结果得到对应数据未知单元的空气质量数据。

优选的，所述多元特征获取包括如下子步骤：

A1：将该城市的动态特征进行时空3维均值卷积处理生成新的特征，所述新的特征用于作为XGBoost算法模型的第一输入；

A2：将该城市的动态特征进行空间2维均值卷积处理生成新的特征，所述新的特征用于作为XGBoost算法模型的第二输入；

A3：将研究区域以外的空气质量信息经逆向预设时间T的时间位移后作为XGBoost算法模型的第三输入；

A4：将研究区域以内的空气质量取小时平均值经逆向预设时间T的时间位移后作为XGBoost算法模型的第四输入。

优选的，所述多元特征获取还包括填补缺失值的步骤A0：通过均值插值法填补特征中的缺失值。

优选的，所述城市的动态特征包括该城市的气象特征和城市的交通特征。

优选的，在所述步骤A2中还包括一个预测值生成步骤：使用一个神经网络和一个线性回归模型的集成模型将新生成的特征与标签之间建立映射关系，并输出该集成模型的预测值作为新特征，所述新特征用于作为作为XGBoost算法模型的第二输入。

优选的，部分单元数据获取包括如下步骤：

B1：将研究区域以外的空气质量信息经逆向预设时间T的时间位移后作为全卷积网络的第一输入；

B2：将研究区域内的空气质量取平均值经逆向预设时间T的时间位移后作为全卷积网络的第二输入。

优选的，部分单元数据获取还包括填补缺失值的步骤B0：通过均值插值法填补特征中的缺失值。

优选的，所述推断模型训练中对XGBoost模型的训练包括如下子步骤：

C1：对XGBoost模型接收的数据集进行4:1随机划分，获得5份数据子集，所述5份数据子集用于XGBoost调参的交叉验证；

C2：基于XGBoost模型的多参数进行模型调参，所述参数包括‘min_child_weight’，‘gamma’，‘subsample’，‘colsample_bytree’，‘reg_alpha’，‘reg_lambda’，‘learning_rate’，‘max_depth’，‘n_estimators’；

C3：选择出一组能使模型在5份测试集上表现最好的原始超参数，并对训练模型进行重新训练。

优选的，所述推断模型训练中对全卷积网络模型的训练包括如下子步骤：

D1：利用n×n的接收野大小对输入的多元特征进行2维卷积，所述多元特征为包括时间戳、城市多元特征种类、行、列的4维形状特征；

D2：对卷积处理后的多元特征做基于全连接层的线性变化，即对特征维进行三层线性变换；

D3：将进行三层线性变换的特征维数据与形状为(b，1)广义特征进行加法广播运算并输出结果，所述广义特征为包括时间戳、广义特征种类的2维形状特征；

D4：根据标签所对应的网格号筛选出模型输出结果与标签计算损失并进行反向传播。

优选的，所述未知单元数据推断的方法为：分别将XGBoost和全卷积网络模型在测试集上的输出结果和与之对应的标签转化为空气质量指数，按输出结果的空气质量指数数值大小将计算结果分段，分别计算模型在每个分段的 smape，并用2-smape代表模型在每个分段的得分，即score，最终集成模型的输出等于：

为进一步实现上述目的，本发明还提出一种高精度网格化空气质量推断系统，包括：

多元特征获取模块：获取预设时间戳内和预设网格区域范围内所代表单元的多元特征，将该多元特征生成第一特征工程；

部分单元数据获取模块：对所代表的数据已知的单元所对应的空气质量数据，即标签进行采集，将该空气质量数据生成第二特征工程；

推断模型训练模块：将第一特征工程与第二特征工程分别代入机器学习算法XGBoost模型和深度学习算法全卷积网络模型进行模型训练；

未知单元数据推断模块：将所代表的数据未知的单元所对应的特征数据代入模型，集成XGBoost模型和全卷积网络模型的输出结果得到对应数据未知单元的空气质量数据。

为进一步实现上述目的，本发明还提出一种高精度网格化空气质量推断终端设备，所述终端设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述的高精度网格化空气质量推断方法。

为进一步实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，该指令被处理器执行时实现如上述的高精度网格化空气质量推断方法。

本发明中，通过在固定/移动的双网监测背景下提出一个智能的城市高精度大气微环境感知平台，利用网格化多源城市大数据和城际间污染区域传输数据以及机器学习、深度学习模型挖掘空气质量(污染物)排放、聚集、传输和消散的机理，并且准确可靠地推断城市局部空气质量情况。结合了多元化的城市动静态大数据等“内生”相关因素以及城际间污染物的区域传输信息等“外生”相关因素，从而全面地反应了城市空气污染从发生、扩散、传递到消散的机理，极大提高了模型的准确性和结果的可解释性，并且为空气污染溯源提供了坚实的数据和模型基础。旨在解决现有技术中存在的推断模型对数据噪声的鲁棒性与捕捉特征的空间相关性不能兼顾的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明提出的高精度网格化空气质量推断方法的流程示意图；

图2为本发明提出的XGBoost模型训练流程示意图；

图3为本发明提出的全卷积网络模型训练流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当人认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出了一种实施例，参照图1，图1为本发明提出一种高精度网格化空气质量推断方法的流程示意图。

如图1所示，在本实施例中，一种高精度网格化空气质量推断方法，包括如下步骤：

需要说明的是，本实施例中：

网格表示空间网格，是对研究区域进行网格化划分(如1×1千米，500× 500米)以后形成的正方形区域；

时间戳表示时间片，是将时间离散化后的时间区间(如一小时)；

单元表示网格与时间戳的笛卡尔乘积；每一个网格在每一特定时间戳称为一个单元。每一个单元内空气质量是定值；

特征表示对每一个单元的城市多源数据的格式化表达，分为静态特征和动态特征，所述静态特征为城市网格化基础特征，包括海拔、道路长度、工厂数量、其他基础设施、兴趣点数量、面积等；所述动态特征包括地理、土地利用、基础设施、交通、人口动态、气象环境等；

标签表示每一个单元的空气质量(含PM2.5,PM10,SO2,NO2,CO,O3)的信息。

在本实施中，

具体的，该实施例具体实现包括如下处理过程：

一、数据预处理：

读取数据，并把格式转换为Pandas DataFrame，处理数据的异常值，清理特征和标签的异常高值和异常低值，对于特征的空值，取上一个时间戳和下一个时间戳的均值填充。

二、第一特征工程(针对XGBoost)：

时空3维卷积动态特征：将动态特征的数据格式转换为Numpy array四维张量，形状为(时间戳，动态特征种类，行，列)，使用opencv-python的filter 函数，对每个城市动态特征分别进行2次时空3维均值卷积，第一次时空3维均值卷积的由1维的3×1时间卷积和二维的3×3空间卷积组成，第二次由1 维的5×1时间卷积和二维的5×5空间卷积组成，卷积完成后，将数据格式转换为Pandas DataFrame，合并入特征中.

空间2维卷积反向传播动态特征：将动态特征的数据格式转换为Numpy array四维张量，形状为(时间戳，动态特征种类，行，列)，使用opencv-python 的filter函数，对每个城市动态特征分别进行2次空间2维均值卷积，第一次空间2维均值卷积的卷积核为3×3，第二次为5×5，卷积完成后，合并卷积动态特征和原始动态特征，转换数据集格式为torchTensor，与标签一起带入一个神经网络和一个线性回归模型的集成模型(wide and deep)中进行训练(使用 pytorch)，神经网络由4层全连接组成，第一层为22个神经元，第二层为14 个，第三层为6个，第四层为1个，前三层后接ELU激活函数和dropout，取神经网络和线性回归的均值作为输出，将输出作为新特征合并入特征中。

外部广义特征：将研究区域以外的空气质量信息经逆向0-9h的时间位移后 (以下午14点的成都为例，将绵阳、遂宁等邻近城市下午14点、13点、…直至上午5点的空气质量信息作为特征加入数据集中)合并入特征中，比如对于时间间隔为2h的外部广义特征，即把当前时间前两小时的空气质量信息加入特征之中，以此类推；

内部广义特征：将研究区域内国控站的空气质量取平均值，经逆向0-9h的时间位移后合并入特征中，方法同上。

第一特征工程输出的数据格式为Pandas DataFrame，是2维的，第1维为样本的个数，第二维为标签+特征，可以直接用于XGBoost模型的训练。

三、第二特征工程：

外部广义特征：同第一特征工程。

内部广义特征：同第一特征工程。

转换特征和标签为需要的格式。

第二特征工程输出的数据格式为Torch tensor，有三种，一种为城市多元特征，形状为4维(时间戳，城市多元特征种类，行，列)；第二种是广义特征，形状为2维(时间戳，广义特征种类)；第三种为标签，是二维张量，维度分别为时间戳、3(包括行号、列号和标签值)。

四、训练XGBoost模型，如图2所示：

使用python-xgboost包训练XGBoost模型，选择mse为目标损失函数。

划分数据集：对第一特征工程处理后的数据集随机划分为5份，分别按照 4:1合并为训练集和测试集，一共5种分法(即交叉验证)。由于任意时间戳内，标签有限且空间分布不均匀(尤其是移动检测终端的位置分布不均匀)，为了保证训练集和测试集都能在空间上具有代表性，提出如下划分方法：以研究区域中心为原点将区域分为8个象限(如8个方向)，将每一个时间戳内每个象限的标签按80％、20％划分进入训练集、测试集。

XGBoost模型调参：使用网格搜索调参法对以下参数进行调参，涉及参数包括：‘min_child_weight’，‘gamma’，‘subsample’，‘colsample_bytree’，‘reg_alpha’，‘reg_lambda’，‘learning_rate’，‘max_depth’，‘n_estimators’。选择出一组能使模型在5份测试集上表现最好(1/2mse+smape+mape最小即表现最好)的超参数作为模型的超参数。

训练模型：使用调参选出的超参数重新训练模型，并作为最终模型。

五、训练全卷积网络模型，如图3所示：

使用pytorch包建模并进行训练。

划分数据集：将经过第二特征工程处理的数据集，按照上述XGBoost数据集划分方法进行划分，同样划分为5份训练集和测试集。

训练模型：按批次输入城市多元特征和广义特征至模型，计算出推断值，按训练集中标签的行号和列号筛选出推断值与标签计算mse损失，并进行反向传播。经过若干次迭代，直至模型在测试集上的表现(1/2mse+smape+mape 越小越好)不再提升即终止训练。取表现最好周期模型的参数作为最终模型的参数。

六、模型集成方法：

分别将XGBoost和全卷积网络模型在测试集上的输出结果和与之对应的标签转化为空气质量指数，按输出结果的空气质量指数数值大小将计算结果分段，分别计算模型在每个分段的smape，并用2-smape代表模型在每个分段的得分，即score，最终集成模型的输出等于：

在本实施例中，通过提取城市内部、外部空气质量作为广义特征加入模型，城市内部广义特征可以理解为城市背景污染值，外部广义特征可以理解为外来污染物。内外广义特征的主要作用是防止模型欠拟合、过拟合，城市污染物的产生机制极其复杂，其来源不止是交通、工厂、气象等城市多元特征，还有各种突发事件、不可解释的因素和外来传输。城市多源大数据(如地理、气象、交通、兴趣点等)虽然可以一定程度上反映污染源的时空分布，但是量化能力不足且难免在污染源统计性描述上存在盲点和选择性偏倚，并且不能很好地捕捉和概括城市突发事件、不可解释性因素和外来污染物传输。因此单用城市多源大数据容易导致模型既“欠拟合”又“过拟合”：

“欠拟合”表现在模型不能捕捉和概括城市突发事件及诸多不可解释性因素。而内部广义特征(城市背景污染值)可以反映城市突发污染事件甚至是部分不可解释性因素，帮助模型更好地收敛。

“过拟合”表现在模型总是在“内生”因素中强行拟合特征与空气质量的映射关系而忽视了外来因素(如污染入侵)。外部广义特征可以为模型提供外来污染传输的信息，起到“正则化”的作用。

实验结果证明了以上猜想，加入内外广义特征后，模型的准确率上升了 19％。

用3维均值卷积捕捉动态特征的时空信息，并用空间2维卷积和反向传播捕捉动态特征的空间信息和特征间的内在联系，弥补XGBoost在性能上的缺陷。 XGBoost由于其多层并行树的特点，使得模型在应对噪声时表现出优秀的鲁棒性能，在数据挖掘领域有着天然的优势。然而，网格化空气质量推断不同于其他数据挖掘场景，动态特征数据本身存在强的时间相关性，特征与特征间也有较强的时空相关性，XGBoost的架构不能适应数据的以上两个特点，而3维均值卷积可以捕捉数据的时空相关性，通过简单的线性模型和神经网络的集成，可以捕捉特征与特征间的线性相关性和高维相关性，弥补了XGBoost的不足。实验结果证明，加入经3维均值卷积和2维卷积反向传播的动态特征后，模型的准确率上升了3％。

用卷积网络的结构捕捉特征的空间相关性，并用线性变换捕捉特征间的相关性。XGBoost对数据的噪声具有鲁棒性，但因为树模型没有局部接受野且树模型分叉时只使用一个特征，使其没有对空间的捕捉和感知能力，且对特征的交叉关系不敏感。因此本研究用1×1、3×3、5×5、7×7感受野的2维卷积inception结构去捕捉同一特征内或不同特征间的空间相关性，在输出时用三层线性变换去捕捉特征间的相关性。最后令广义特征乘上初始化权重和偏置(可学习)，并通过广播运算与线性变换后的卷积图相结合，起到修正结果并节省内存的作用。

通过分段计算不同模型的得分，并以得分为权重加权计算得到最终推断结果，集成XGBoost和全卷积网络模型。不同模型在不同的样本分布下有不同的表现，因此分段计算模型正确率，通过加权求和的方式，可以最大化模型的优势，充分利用树模型对噪声的鲁棒性和全卷积网络对特征相关性的感知能力，提升推断的准确率。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种高精度网格化空气质量推断方法，其特征在于，包括如下步骤：

多元特征获取：获取待计算空气质量城市预设时间戳内和预设网格区域范围内所代表单元的多元特征，将该多元特征生成第一特征工程；

推断模型训练：将第一特征工程与第二特征工程分别代入机器学习算法XGBoost模型和深度学习算法全卷积网络模型进行模型训练；

未知单元数据推断：将所代表的数据未知的单元所对应的特征数据代入模型，集成XGBoost模型和全卷积网络模型的输出结果得到对应数据未知单元的空气质量数据；其中：

所述网格表示空间网格，是对研究区域进行网格化划分以后形成的正方形区域；所述时间戳表示时间片，是将时间离散化后的时间区间；所述单元表示网格与时间戳的笛卡尔乘积，每一个网格在每一特定时间戳称为一个单元，每个单元内空气质量是定值；所述特征表示每一个单元的城市多源数据的格式化表达，分为静态特征和动态特征；所述标签表示每一个单元的空气质量的信息。

2.如权利要求1所述的一种高精度网格化空气质量推断方法，其特征在于，所述多元特征获取包括如下子步骤：

A0：通过均值插值法填补特征中的缺失值；

A1：将该城市包括气象特征与交通特征的动态特征进行时空3维均值卷积处理生成新的特征，所述新的特征用于作为XGBoost算法模型的第一输入；

A2：将该城市包括气象特征与交通特征的动态特征进行空间2维均值卷积处理生成新的特征，所述新的特征用于作为XGBoost算法模型的第二输入；

3.如权利要求2所述的一种高精度网格化空气质量推断方法，其特征在于，在所述步骤A2中还包括一个预测值生成步骤：使用一个神经网络和一个线性回归模型的集成模型将新生成的特征与标签之间建立映射关系，并输出该集成模型的预测值作为新特征，所述新特征用于作为XGBoost算法模型的第二输入。

4.如权利要求1所述的一种高精度网格化空气质量推断方法，其特征在于，部分单元数据获取包括如下步骤：

B0：通过均值插值法填补特征中的缺失值；

5.如权利要求1所述的一种高精度网格化空气质量推断方法，其特征在于，所述推断模型训练中对XGBoost模型的训练包括如下子步骤：

6.如权利要求1所述的一种高精度网格化空气质量推断方法，其特征在于，所述推断模型训练中对全卷积网络模型的训练包括如下子步骤：

D1：利用n×n的接收野大小对第二特征工程输出的城市多元特征进行2维卷积，所述城市多元特征为包括时间戳、城市多元特征种类、行、列的4维形状特征；

D2：对卷积处理后的城市多元特征做基于全连接层的线性变化，即对特征维进行三层线性变换；

7.如权利要求1所述的一种高精度网格化空气质量推断方法，其特征在于，所述未知单元数据推断的方法为：分别将XGBoost和全卷积网络模型在测试集上的输出结果和与之对应的标签转化为空气质量指数，按输出结果的空气质量指数数值大小将计算结果分段，分别计算模型在每个分段的smape，并用2-smape代表模型在每个分段的得分，即score，最终集成模型的输出等于：

8.一种高精度网格化空气质量推断系统，其特征在于，包括：

未知单元数据推断模块：将所代表的数据未知的单元所对应的特征数据代入模型，集成XGBoost模型和全卷积网络模型的输出结果得到对应数据未知单元的空气质量数据；其中：

9.一种高精度网格化空气质量推断终端设备，其特征在于，所述终端设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任意所述的高精度网格化空气质量推断方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，该指令被处理器执行时实现如权利要求1-7任意所述的高精度网格化空气质量推断方法。