CN117909931A

CN117909931A - 一种空气质量的推断方法、终端及储存介质

Info

Publication number: CN117909931A
Application number: CN202410079610.9A
Authority: CN
Inventors: 宋俊; 许轶博; 潘泽文; 冉茂壕; 万政霖; 严晓云; 郭毅可
Original assignee: Jiangsu Zhilun Digital Technology Research Co ltd
Current assignee: Jiangsu Zhilun Digital Technology Research Co ltd
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-04-19

Abstract

本发明属于空气质量检测技术领域，具体涉及一种空气质量的空间推断方法，通过对来自固定式和移动式传感器所提供的实测空气质量数据，结合与之强相关或间接相关的城市基础环境特征和动态时间特征，进行特征工程，并输入到基于深度神经网络特征提取和Li ghtGBM树模型回归预测的混合模型中，从而基于此做空气质量指标的空间推断；本发明对于区域空气质量的全面域感知反演、空气污染溯源及治理有重要意义，并显著解决现有技术中存在的对数据噪声的鲁棒性欠佳以及对多维特征信息吸收的不到位等问题。

Description

一种空气质量的推断方法、终端及储存介质

技术领域

本发明涉及环境空气质量监测技术领域，尤其涉及一种空气质量的推断方法、终端及储存介质。

背景技术

随着大数据、人工智能等技术的高速发展，超级计算资源支持下的深度学习模型的强大表征能力能够给特定的任务提供更有力的特征提取功能，使得精准的空气质量全面域高精度反演推断变得现实。

在本领域中使用的常规方法包括传统的统计模型(如线性回归)和传统的机器学习模型(如SVM)都无法有效地捕捉空间推断中不同特征复杂的交互关系，而基于深度学习的神经网络相关模型由于其独特的模型架构和大数据集支撑下的庞大参数量，能够有效捕捉多维时空特征共同作用下的复杂特征和标签的关系，具有强大的表征能力，但对数据的鲁棒性较弱。与此同时，基于树模型的LightGBM对数据噪声具有强大的鲁棒性，本发明旨在结合这两种方法，互补其不足，发挥其优势，能够实现高精度的空气质量全面域反演推断。

发明内容

本发明的目的在于克服现有技术中的不足之处，提供一种空气质量的推断方法、系统、终端设备及储存介质，旨在为空气质量的时空反演提供有意义的技术解决方案，并显著解决传统预测方法鲁棒性较弱且多维特征与标签的复合依赖性捕捉效果不佳的问题。

为实现本发明的目的，我们将以如下所述的技术方案加以实施。

一种空气质量的空间推断方法，该方法包括：

步骤1、采集特定时间范围和地域内所有网格的多维度特征，同时收集部分有监测站网格中的监测站空气质量监测数据；其中，所述多维度特征包括基础特征以及时间特征；

步骤2、对所述多维度特征进行第一特征工程以及特征映射，以获取多元特征；

步骤3、对作为标签的所述空气质量监测数据进行第二特征工程，以获取标签数据；

步骤4、使用多元特征和标签数据训练由深度神经网络特征提取模型和LightGBM回归预测模型构成的混合模型；其中，在深度神经网络特征提取模型训练结束后，提取深度神经网络特征提取模型倒数第二层的神经元作为深度神经网络特征提取模型提取到的高阶特征输入lightGBM回归预测模型进行训练；

步骤5、将采集的未知标签网格的多维度特征通过步骤2获得的多元特征输入深度神经网络特征提取模型，经深度神经网络特征提取模型提取的高阶特征输入所述lightGBM回归预测模型来推断未知标签网格的标签预测值；

其中：

所述第一特征工程包括对时间特征进行独热编码的过程；

所述深度神经网络特征提取模型包括设置在每两层中间的批归一化层，并保存该层的参数、设置在每两层中间的随机失活层以及设置在每两层线性映射层中间的非线性激活函数层；

使用adam优化器调优深度神经网络特征提取模型的参数，参数包括：批量大小、learning_rate、n_layers以及activation_function；

使用网格搜索法优lightGBM回归预测模型的参数，参数包括：num_leaves、max_depth、learning_rate、feature_fraction、bagging_fraction以及bagging_freq。

作为本发明的优选方案，所述的第一特征工程以及特征映射包括如下所述的步骤：

S21、通过线性插值法填补特征中的缺失值；

S22、对于同一个时间点的同一个网格的不同传感器的监测数据，使用正态分布3σ方法去除噪音数据，并对剩余监测站数据取平均代表当前网格当前时间点数据；

S23、对同一个特征的所有网格所有时间点的数据进行0-1归一化；

S24、保存归一化放缩器，以便于在实际应用中作用于新的数据；

S25、将所有网格在所有时间点的时间特征(年、月、星期几等)进行独热编码，代替原有的时间特征以将时间离散特征连续化，生成新的静态特征；

S26、根据预设选定训练地区和测试地区，并收集训练地区的网格编号和测试地区的网格编号；

S27、将不同大小尺度的特征映射到同样的大小尺度，以便后续模型训练。

作为本发明的优选方案，所述S22的具体操作过程：将数据用pandas导入为Dataframe格式，使用groupby函数获得每一个单元不同监测站的数据，然后用stats库里面的正态分布异常值检测法去除异常值，并对每一个监测站取平均得到该单元的数据。

作为本发明的优选方案，所述S24的具体操作：使用pandas内置函数get_dummies将离散特征独热编码，并使用sklearn里的preprocessing包对数据进行归一化操作并保存scaler。

作为本发明的优选方案，在S24中，需要说明，数据缩放只能完全依赖于训练数据，这意味着测试数据经过训练数据的缩放器作用之后可能出现<0或>1的情况，这通常是合理的。

作为本发明的优选方案，在S25中还包含一个“去除第一列“的步骤，以防止多重共线性导致的模型不稳定。需要明确，多重共线性问题会导致模型不稳定、模型可解释性降低等问题。

举例说明：如月份特征(有1，2，3……12这12个值)，在独热编码之后便为12列，每一列只能为0或1，此时我们需要去除第一列，因为第一列可以用后面的11列唯一表示。

作为本发明的优选方案，所述的第二特征工程包括如下所述的步骤：

S51、对于同一个时间点的同一个网格的不同传感器的数据，使用正态分布3σ方法去除噪音数据，并对剩余传感器的数据取平均代表当前网格当前时间点标签数据；

S52、对于同一个网格，去除无标签或是特征不完整的数据，以便于训练集中的数据完整性，并确保噪声尽可能低；

S53、对同一个空气质量指标进行0-1归一化，并保存缩放器。

作为本发明的优选方案，所述的深度神经网络特征提取模型的训练过程：

S61、将所有网格数据根据空间划分，取80％的网格作为训练网格，取剩下20％的网格作为测试网格，取训练网格的所有单元数据作为训练数据，取测试网格数据的所有单元数据作为测试数据，其中，所述单元数据包括多元特征和标签数据；

S62、使用pytorch.nn模块设置模型每一层的神经元个数和模型层数；

S63、设置模型的输入为[批量大小,特征维度]的数组，其中，批量大小为每一批输入数据的条数，特征维度为上述总特征的维度数；

S64、设置模型的输出为[批量大小,1]，其中，批量大小为每一批输出数据的条数，每一条输出即为对应的输入数据经过模型得到的当天的标签预测值；

若倒数第二层有m个神经元，则模型的输出为[批量大小，m]；

S65、使用adam优化器调优模型参数，模型参数包括：批量大小、learning_rate、n_layers以及activation_function；

S66、选择MSE作为模型的损失函数，用模型的输出值和预先准备的真实值进行比较，生成损失，并进行反向传播训练；

S67、选用RMSE,SMAPE,MAE,R²作为测试集上的模型评估指标。

作为本发明的优选方案，所述S61的具体操作：按照预设区域所有网格4：1的比例划分训练网格和测试网格，并得到训练数据集和测试数据集，转换dataframe数据为torch.tensor格式，并实例化Dataloader。

作为本发明的优选方案，所述数据集的制作过程：使用pytorch.utils.Data包中的Dataset类作为父类，构建时间序列数据集，并使用Dataloader类制作数据加载器，使得每一次输入的数据和输出的数据符合要求。

作为本发明的优选方案，所述的深度神经网络特征提取模型包括如下设计：

将该任务视为只使用深度神经网络进行回归预测的有监督学习任务，即：令深度神经网络的最后一层输出为神经网络模型对大气污染物浓度的预测值，使用有标签的单元的数据对深度神经网络进行训练；

在每两层中间设置批归一化层让训练更稳定，并保存该层的参数；

在每两层中间设置随机失活层防止过拟合；

在每两层线性映射层中间设置非线性激活函数层捕捉复杂非线性关系；

在模型训练结束后，提取模型倒数第二层的神经元作为深度神经网络特征提取模型提取到的特征代替原有特征输入lightGBM回归预测模型。

作为本发明的优选方案，所述的LightGBM回归预测模型的训练过程：

使用深度神经网络特征提取模型的训练过程中划分的训练集和测试集提取到的特征重新对应地制作所述的LightGBM回归预测模型的训练集和测试集，并将提取到的特征等价地视为所述的LightGBM回归预测模型使用的特征；

使用网格搜索调优lightGBM回归预测模型的参数，参数包括：num_leaves、max_depth、learning_rate、feature_fraction、bagging_fraction以及bagging_freq。

LightGBM的核心原理和特点可以概括如下：

LightGBM是一种基于决策树的集成学习方法，通过构建多个决策树来进行预测,它采用梯度提升框架，其中每个新树的建立都是为了减小前面树预测的残差。每一步的目标是找到最佳的树，使得加入这棵树后整个模型的损失最小；

LightGBM使用直方图算法进行特征分割，这意味着它把连续的特征值分布划分为离散的bins，从而减少计算成本；

不同于传统的基于深度优先的树生长策略，LightGBM采用叶子优先策略，选择最大损失减少的叶子进行生长，这能更快地减少误差，但也可能导致过拟合；

LightGBM优化了内存使用和计算效率，使其能够快速处理大规模数据,LightGBM能够利用多核处理器进行并行计算，以及支持GPU加速，大幅提高训练速度,本发明中，由于数据集较大，采用GPU加速提高了效率；

LightGBM能有效处理稀疏数据，即使在存在大量未观测值的情况下，仍能维持良好的性能。

需要明确，深度神经网络可能在某些情况下过度拟合训练数据。通过将深度神经网络提取的特征输入到LightGBM，可以利用LightGBM的正则化机制减少过拟合风险。

作为本发明的优选方案，所述的步骤5中的未知单元的标签推断过程：

将采集的未知标签网格的多维度特征通过步骤2获得的多元特征；

将所述多元特征数据输入深度神经网络特征提取模型，获得深度神经网络的特征提取结果，然后将提取到的特征输入训练好的LightGBM模型获得未知单元的标签预测值。

未来时间未知单元的标签预测具体包括：

用先前保存的标签缩放器对未知单元的特征进行缩放；

按照训练阶段的数据准备方法处理未知单元的数据；

输入深度神经网络特征提取器，获得有利于预测标签的高阶特征；

将高阶特征输入LightGBM回归预测器获得未知单元的预测值。

需要注意的是，在此发明中，我们首先假设只使用深度神经网络进行回归预测，但只在调参阶段(即优化模型阶段)使用它的预测值，当模型确定后，我们只使用它的倒数第二层提取到的特征作为高阶特征输入LightGBM模型。

作为本发明的优选方案，本发明分为深度神经网络特征提取器和LightGBM回归预测两个独立的阶段，首先训练深度神经网络特征提取器，然后基于它给出的高阶特征训练LightGBM回归预测器。

一种终端，其特征在于，所述终端包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1-7中的任一所述的一种空气质量的空间推断方法。

一种存储介质，用于存储指令，其特征在于，所述指令被处理器执行时实现权利要求1-7中的任一所述的一种空气质量的空间推断方法。

有益效果

本发明提出的一个空气质量的空间推断方法，利用网格化多源大数据捕捉特征和深度学习模型挖掘空气质量和大气污染和城市基础特征以及时间特征的复杂关系，可以准确可靠地推断推断未知单元的空气质量情况，为大气污染监管和溯源治理提供坚实可靠的模型理论基础，通过结合两种方法互补其缺陷，解决现有技术中无法准确捕获多维特征和标签的复杂交互关系以及对噪声鲁棒性差，容易过拟合等问题。

附图说明

为了更清楚地说明本发明的技术方案，下面将对现有技术描述中所需要的附图作简单介绍。

图1为本发明所述的空气质量的空间推断方法的流程图；

图2为数据处理和实验过程的流程图；

图3为深度神经网络特征提取模型及混合模型训练过程的流程图。

具体实施方式

下面结合实施例和附图，对本发明的技术方案作进一步地说明。

作为本发明的实施例，如图1所述，一种空气质量的空间推断方法，该方法包括：

步骤2、对所述多维度特征进行第一特征工程以及特征映射，以获取多元特征；此处特征映射具体指：将不同大小尺度的特征映射到同样的大小尺度，以便后续模型训练；

步骤4、使用多元特征和标签数据训练由深度神经网络特征提取模型和LightGBM回归预测模型构成的混合模型；其中，在深度神经网络特征提取模型训练结束后，提取深度神经网络特征提取模型倒数第二层的神经元作为深度神经网络特征提取模型提取到的特征输入lightGBM回归预测模型；需要注意：若倒数第二层有m个神经元，则提取出的特征数组维度为[批量大小，m]；

步骤5、将采集的未知标签网格的多维度特征通过步骤2获得的多元特征输入深度神经网络特征提取模型，经深度神经网络特征提取模型提取的特征输入所述lightGBM回归预测模型来推断未知标签网格的标签预测值。

需要说明，本实施例中：

网格代表空间网格，是对预设区域进行网格化划分(如300m×300m)以后形成的正方形区域；

时间戳是将时间离散化之后的时间区间(一个时间戳长度为一小时，同一个网格的不同数据即为不同时间戳的数据)

每一个单元表示每一个网格在特定的时间戳的状态，每一个单元的特征和空气污染物浓度值都是定值。

特征是对每一个单元的状态的格式化表达，分为基础特征和时间特征。所述基础特征包括经纬度，海拔，温度湿度，绿化面积等，时间特征包括年份，月份，日期，小时，星期几等，考虑到时间序列的周期性，这种‘静态’时间特征对空气污染物浓度值会有显著影响。

标签表示每一个单元的空气污染物浓度值，例如pm_2.5,pm₁₀,co,o₃,so₂,no_2。

在本实施例中，具体操作包括如下过程：

1.数据预处理：将数据用pandas导入为Dataframe格式，使用groupby函数获得每一个单元不同监测站的数据，然后用stats库里面的正态分布异常值检测法去除异常值，并对么一个监测站取平均得到该单元的数据；

2.特征工程：使用pandas内置函数get_dummies将离散特征独热编码，并使用sklearn里的preprocessing包对数据进行归一化操作并保存scaler；

3.数据集制作：使用pytorch.utils.Data包中的Dataset类作为父类，构建时间序列数据集，并使用Dataloader类制作数据加载器，使得每一次输入的数据和输出的数据符合前文提到的要求。按照预设区域所有网格4：1的比例划分训练网格和测试网格，并得到训练集和测试集，转换dataframe数据为torch.tensor格式，并实例化Dataloader；

4.训练深度神经网络特征提取器，如图3所示；

该提取器分为多层提取，层数为模型复杂度的体现，层数过高容易过拟合以及提取特征的过渡平滑，层数过低容易表征能力不足；

每一层包含一个线性特征映射，批归一化，随机失活层，非线性激活函数；

需要注意的是，这里的批归一化让每一层的每一个特征的尺度一致，起到让训练更稳定的效果。

深度神经网络特征提取器调参，需要调整的参数有：{n_layers:特征提取器映射层数，批量大小：每一批数据量大小，activation_func:激活函数，optimizer:优化器，learning_rate:学习率，n_neural_unit：每一个线性隐藏层的神经元个数，drop_out:随机失活率}

需要注意，drop_out(随机失活)层是一种强有力的防止过拟合的手段，随机失活率设置太高容易欠拟合，设置太低或设置为0会容易过拟合。

训练模型：本实例使用googlecolabA100显卡训练模型，直到损失函数下降到收敛(连续n轮没有明显下降)为止。

测试和预测：将测试集数据输入模型产生模型的预测值，与测试集的真实值对比，获得RMSE,MAE,SMAPE,R²四个指标。

LightGBM回归推测训练调参，需要调整的参数有：{num_leaves,max_depth,learning_rate,feature_fraction,bagging_fraction,bagging_freq}

需要明确，在实际应用中做空间推断时，需要未知单元的特征数据，然后将其特征数据输入深度神经网络特征提取器，然后将得到的高阶特征输入LightGBM中得到标签推测值。即：应用推断阶段的过程和训练过程类似。

需要说明，本发明采用的技术，实质上为迁移学习。本发明中的迁移学习的好处在于：深度学习模型特别擅长从大量数据中提取复杂的特征。将这些特征用于其他机器学习模型，如LightGBM，可以提高这些模型的性能，尤其是在它们单独处理原始数据时可能不够有效的情况下。并且，使用从大型数据集中学习到的特征可以提高模型对新数据的泛化能力，因为这些特征可能包含了更多的一般性信息，而不仅仅是针对特定数据集的信息。

在实际应用中，一个可能的实施示例为：采集城市网格的基础特征：

lat-纬度，lon-经度，TMP_P0_L1_GLL0-地表温度，SPFH_P0_2L108_GLL0-比湿，RH_P0_L4_GLL0-相对湿度，PWAT_P0_L200_GLL0-总降水量，UGRD_P0_L6_GLL0-风向分量，GUST_P0_L1_GLL0-风力，PRES_P0_L7_GLL0-气压，CultivatedLand-耕地面积，WoodLand-林地面积，GrassLand-草地面积，Waters-水域面积，UrbanRural-城乡面积，UnusedLand-未利用地，Ocean-海洋面积，ELEVATION-海拔高度，AOD-气溶胶光学厚度，以及不同时间的时刻特征：weekday-星期几，day-日期(日)，year-年份，month-月份，作为多维度时空特征，同时收集部分有监测站的网格的监测站空气质量监测数据：pm2.5，pm10，o3，no2，co等大气污染物浓度。使用本发明中的深度神经网络特征提取器基于已知污染排放量的单元进行有监督训练，提取中间层特征后使用LightGBM进行回归训练。模型训练完毕后讲模型作用于没有标签的单元，实现空间推断。

上面结合实施例/附图对本发明的技术方案作了详细说明，但是本发明并不限于上述技术方案，对于本技术领域的普通技术人员来说，在获知本发明中记载内容后，在不脱离本发明原理的前提下，还可以对其作出若干同等变换和替代，这些同等变换和替代也应视为属于本发明的保护范围。

Claims

1.一种空气质量的空间推断方法，该方法包括：

其特征在于，还包括：

步骤4、使用多元特征和标签数据训练由深度神经网络特征提取模型和LightGBM回归预测模型构成的混合模型；其中，在深度神经网络特征提取模型训练结束后，提取深度神经网络特征提取模型倒数第二层的所有神经元作为深度神经网络特征提取模型提取到的特征输入lightGBM回归预测模型进行训练；

其中：

所述第一特征工程包括对时间特征进行独热编码的过程；

使用adam优化器并调优深度神经网络特征提取模型的参数，参数包括：批量大小、learning_rate、n_layers以及activation_function；

使用网格搜索法调优lightGBM回归预测模型的参数，参数包括：num_leaves、max_depth、learning_rate、feature_fraction、bagging_fraction以及bagging_freq。

2.根据权利要求1所述的一种空气质量的空间推断方法，其特征在于，所述的第一特征工程以及特征映射包括如下所述的步骤：

S21、通过线性插值法填补特征中的缺失值；

S25、将每一个网格在每一个时间点的时间特征进行独热编码，代替原有的时间特征以将时间特征连续化，生成新的静态特征；

3.根据权利要求2所述的一种空气质量的空间推断方法，其特征在于，所述S22的具体操作过程：将数据用pandas导入为Dataframe格式，使用groupby函数获得每一个单元不同监测站的数据，然后用stats库里面的正态分布异常值检测法去除异常值，并对每一个监测站取平均得到该单元的数据。

4.根据权利要求2所述的一种空气质量的空间推断方法，其特征在于，所述S24的具体操作：使用pandas内置函数get_dummies将离散特征独热编码，并使用sklearn里的preprocessing包对数据进行归一化操作并保存scaler。

5.根据权利要求1所述的一种空气质量的空间推断方法，其特征在于，所述的第二特征工程包括如下所述的步骤：

S53、对同一个空气质量指标进行0-1归一化，并保存缩放器。

6.根据权利要求1所述的一种空气质量的空间推断方法，其特征在于，所述的深度神经网络特征提取模型的训练过程：

S64、设置模型的输出为[批量大小,1]，其中，批量大小为每一批输出数据的条数，每一条输出即为对应的输入数据经过模型得到的当天的标签预测值，若倒数第二层有m个神经元，则模型的输出为[批量大小，m]；

S65、使用adam优化器调优模型参数，模型参数包括：批量大小、learnin g_rate、n_layers以及activation_function；

S67、选用RMSE,SMAPE,MAE,R²作为测试集上的模型评估指标。

7.根据权利要求6所述的一种空气质量的空间推断方法，其特征在于，所述S61的具体操作：按照预设区域所有网格4：1的比例划分训练网格和测试网格，并得到训练数据集和测试数据集，转换dataframe数据为torch.tensor格式，并实例化Dataloader。

8.根据权利要求7所述的一种空气质量的空间推断方法，其特征在于，所述数据集的制作过程：使用pytorch.utils.Data包中的Dataset类作为父类，构建时间序列数据集，并使用Dataloader类制作数据加载器，使得每一次输入的数据和输出的数据符合要求。

9.根据权利要求6所述的一种空气质量的空间推断方法，其特征在于，所述的深度神经网络特征提取模型包括如下设计：

首先将该任务视为只使用深度神经网络进行回归预测的有监督学习任务，即：令深度神经网络的最后一层输出为神经网络模型对大气污染物浓度的预测值，使用有标签的单元的数据对深度神经网络进行训练；

在每两层中间设置随机失活层防止过拟合；

在模型训练结束后，提取模型倒数第二层的神经元作为深度神经网络特征提取模型提取到的高阶特征代替原有特征输入lightGBM回归预测模型。

10.根据权利要求1所述的一种空气质量的空间推断方法，其特征在于，所述的LightGBM回归预测模型的训练过程：

11.根据权利要求1所述的一种空气质量的空间推断方法，其特征在于，所述的步骤5中的未知单元的标签推断过程：

将所述多元特征数据输入深度神经网络特征提取模型，获得深度神经网络的特征提取结果，然后将提取到的高阶特征输入训练好的LightGBM模型获得未知单元的标签预测值。

12.一种终端，其特征在于，所述终端包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

13.一种存储介质，用于存储指令，其特征在于，所述指令被处理器执行时实现权利要求1-7中的任一所述的一种空气质量的空间推断方法。