CN116340863B

CN116340863B - 空气污染物预测方法、装置、电子设备及可读存储介质

Info

Publication number: CN116340863B
Application number: CN202310619031.4A
Authority: CN
Inventors: 黄葵; 余永安; 李吉兵; 王宇翔
Original assignee: Aerospace Hongtu Information Technology Co Ltd
Current assignee: Aerospace Hongtu Information Technology Co Ltd
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-15
Anticipated expiration: 2043-05-30
Also published as: CN116340863A

Abstract

本发明提供了一种空气污染物预测方法、装置、电子设备及可读存储介质，包括：当接收到当前时刻下的污染物数据时，从预先构建的数据仓库读取前一时刻下的每个候选空气污染物对应的污染物特征数据集；基于当前时刻下的污染物数据，和前一时刻下的每个候选空气污染物对应的污染物特征数据集，构建目标训练数据集；利用目标训练数据集对初始污染物预测模型进行训练，以得到目标污染物预测模型；通过目标污染物预测模型，基于当前时刻下的污染物数据进行污染物预测，以从候选空气污染物中确定当前时刻下的目标空气污染物。本发明可以显著提高空气污染物反演的精准性。

Description

空气污染物预测方法、装置、电子设备及可读存储介质

技术领域

本发明涉及污染物反演技术领域，尤其是涉及一种空气污染物预测方法、装置、电子设备及可读存储介质。

背景技术

当前空气污染物（PM2.5\PM10\O3\SO2\CO\NO2）浓度数据获取的主要手段是从环境监测站点获取，环境监测站点的空气污染数据虽精确，但存在着建设与维护成本高、数量有限、空间分布不均衡且覆盖范围集中在城区等局限性，不能有效反映大尺度区域空气污染物的空间分布情况及跨境污染传输特征，而卫星遥感以其成本低、范围广、周期短、长期动态监测等优势，能够显著弥补地面监测站的不足，有效监测长时序、大范围的空气污染物的空间分布情况。

在相关技术手段提供了一种基于卫星遥感反演空气污染物，一般需要先反演AOD或者其他过程参数，实际上过程参数与空气污染物浓度在不同区域又呈现出不同的时空函数表现，增加了空气污染物反演中不可避免的误差传递与累积，导致空气污染物反演结果准确性较低。

发明内容

有鉴于此，本发明的目的在于提供一种空气污染物预测方法、装置、电子设备及可读存储介质，可以显著提高空气污染物反演的精准性。

第一方面，本发明实施例提供了一种空气污染物预测方法，包括：

当接收到当前时刻下的污染物数据时，从预先构建的数据仓库读取前一时刻下的每个候选空气污染物对应的污染物特征数据集；

基于所述当前时刻下的所述污染物数据，和所述前一时刻下的每个所述候选空气污染物对应的污染物特征数据集，构建目标训练数据集；

利用所述目标训练数据集对初始污染物预测模型进行训练，以得到目标污染物预测模型；

通过所述目标污染物预测模型，基于所述当前时刻下的污染物数据进行污染物预测，以从所述候选空气污染物中确定所述当前时刻下的目标空气污染物。

在一种实施方式中，在从预先构建的数据仓库读取前一时刻下的每个候选空气污染物对应的污染物特征数据集之前，所述方法还包括：

获取原始多源数据，并对所述多源数据进行预处理得到目标多源数据；其中，所述目标多源数据包括历史表观反射率、历史亮温数据、历史时空权重数据、历史气象要素数据、历史排放清单数据和历史地理特征数据；

对所述目标多源数据进行空间匹配，以将所述目标多源数据划分为每个第一站点对应的多特征数据集；

对于每个候选空气污染物，确定每个所述第一站点对应的所述多特征数据集相对于该候选空气污染物的特征重要性，并基于所述特征重要性从每个所述第一站点对应的所述多特征数据集中确定该候选空气污染物对应的污染物特征数据集；

基于每个所述候选空气污染物对应的所述污染物特征数据集搭建数据仓库。

在一种实施方式中，基于所述特征重要性从每个所述第一站点对应的所述多特征数据集中确定该候选空气污染物对应的污染物特征数据集，包括：

对每个所述第一站点对应的所述特征重要性进行归一化处理，得到每个所述第一站点对应的归一化特征重要性；

如果所述第一站点对应的所述归一化特征重要性大于预设重要性阈值，确定所述第一站点与该候选空气污染物关联，并将所述第一站点对应的所述多特征数据集，确定为该候选空气污染物对应的污染物特征数据集。

在一种实施方式中，基于所述当前时刻下的所述污染物数据，和所述前一时刻下的每个所述候选空气污染物对应的污染物特征数据集，构建目标训练数据集，包括：

将所述当前时刻下的所述污染物数据，和所述前一时刻下的每个所述候选空气污染物对应的污染物特征数据集，合成为初始近实时训练数据集；

根据所述初始近实时训练数据集的第一数据特征合成训练数据，并将所述训练数据合并至所述初始近实时训练数据集，得到目标近实时训练数据集；

根据所述目标近实时训练数据集的第二数据特征，对所述数据仓库内存储的污染物特征数据集进行采样，得到采样训练数据集；

将所述目标近实时训练数据集和所述采样训练数据集合成为目标训练数据集。

在一种实施方式中，基于所述初始近实时训练数据集的第一数据特征合成训练数据，包括：

对所述初始近实时训练数据集进行空间匹配，以将所述初始近实时训练数据集划分为每个第二站点对应的子训练数据集；

基于每个第二站点关联的候选空气污染物，统计所述子训练数据集中已发生污染的第一数据集数量和未发生污染的第二数据集数量，并将所述第一数据集数量和所述第二数据集数量之前的比例确定为不平衡度；其中，所述第一数据特征包括所述第一数据集数量和所述第二数据集数量；

如果所述不平衡度小于预设不平衡度阈值，则基于已发生污染的子训练数据集与未发生污染的子训练数据集之间的欧式距离，确定已发生污染的目标待合成数据集数量；

在已发生污染的子训练数据集中选择目标子训练数据集，并根据所述目标待合成数据集数量和所述目标子训练数据集合成训练数据。

在一种实施方式中，基于已发生污染的子训练数据集与未发生污染的子训练数据集之间的欧式距离，确定已发生污染的目标待合成数据集数量，包括：

将所述第一数据集数量和所述第二数据集数量之间差值，与预设平衡系数之间的乘积，确定为初始待合成数据集数量；

基于已发生污染的子训练数据集与未发生污染的子训练数据集之间的欧式距离，确定系数调节比例；

将所述初始待合成数据集数量与所述系数调节比例之间的乘积，确定为定已发生污染的目标待合成数据集数量。

在一种实施方式中，根据所述目标近实时训练数据集的第二数据特征，对所述数据仓库内存储的污染物特征数据集进行采样，得到采样训练数据集，包括：

对于每个所述候选空气污染物，如果所述目标近实时训练数据集中的第二站点关联该候选空气污染物，则确定所述第二站点关联的该候选空气污染物属于的污染等级；

将属于所述污染等级的该候选空气污染物关联的第二站点的数量占所述第二站点总数量的比值，确定为该候选空气污染物及所述污染等级对应的采样比例；

根据每个所述候选空气污染物及所述污染等级对应的所述采样比例，对所述数据仓库内存储的污染物特征数据集进行采样，得到采样训练数据集；其中，所述第二数据特征包括每个所述候选空气污染物及所述污染等级对应的所述采样比例。

在一种实施方式中，所述初始污染物预测模型为时空LightGBM模型；

利用所述目标训练数据集对初始污染物预测模型进行训练，以得到目标污染物预测模型，包括：

将所述目标训练数据集划分为第一数据集和第二数据集；

将所述第一数据集作为所述时空LightGBM模型的输入，以及将所述第一数据集中每个第二站点关联的候选空气污染物作为真值，对所述时空LightGBM模型进行训练，且训练过程中逐一增加子模型，以对所述时空LightGBM模型中的每个所述子模型的参数进行调整；

利用所述第二数据集对训练后的所述时空LightGBM模型进行验证；

如果训练后的所述时空LightGBM模型满足预设指标，则将训练后的所述时空LightGBM模型确定为目标污染物预测模型。

第二方面，本发明实施例还提供一种空气污染物预测装置，包括：

数据获取模块，用于当接收到当前时刻下的污染物数据时，从预先构建的数据仓库读取前一时刻下的每个候选空气污染物对应的污染物特征数据集；

训练集构建模块，用于基于所述当前时刻下的所述污染物数据，和所述前一时刻下的每个所述候选空气污染物对应的污染物特征数据集，构建目标训练数据集；

模型训练模块，用于利用所述目标训练数据集对初始污染物预测模型进行训练，以得到目标污染物预测模型；

污染物预测模块，用于通过所述目标污染物预测模型，基于所述当前时刻下的污染物数据进行污染物预测，以从所述候选空气污染物中确定所述当前时刻下的目标空气污染物。

第三方面，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现第一方面提供的任一项所述的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现第一方面提供的任一项所述的方法。

本发明实施例提供的一种空气污染物预测方法、装置、电子设备及可读存储介质，当接收到当前时刻下的污染物数据时，从预先构建的数据仓库读取前一时刻下的每个候选空气污染物对应的污染物特征数据集，然后基于当前时刻下的污染物数据和前一时刻下的每个候选空气污染物对应的污染物特征数据集构建目标训练数据集，再利用目标训练数据集对初始污染物预测模型进行训练，以得到目标污染物预测模型，最后即可通过目标污染物预测模型，基于当前时刻下的污染物数据进行污染物预测，以从候选空气污染物中确定当前时刻下的目标空气污染物。上述方法基于当前时刻下的污染物数据和前一时刻下的每个候选空气污染物对应的污染物特征数据集构建目标训练数据集，并利用该目标训练数据集训练初始污染物预测模型，以便于利用训练得到的目标污染物预测模型对当前时刻的目标空气污染物进行预测，本发明实施例舍弃了过程参数的反演过程，避免了空气污染物反演过程中存在的误差传递与累计的问题，从而可以显著提高空气污染物反演的精准性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种空气污染物预测方法的流程示意图；

图2为本发明实施例提供的另一种空气污染物预测方法的流程示意图；

图3为本发明实施例提供的一种空气污染物预测装置的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，相关技术手段提供的基于卫星遥感反演空气污染物的方案存在空气污染物反演结果准确性较低的问题，基于此，本发明实施提供了一种空气污染物预测方法、装置、电子设备及可读存储介质，可以显著提高空气污染物反演的精准性。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种空气污染物预测方法进行详细介绍，参见图1所示的一种空气污染物预测方法的流程示意图，该方法主要包括以下步骤S102至步骤S108：

步骤S102，当接收到当前时刻下的污染物数据时，从预先构建的数据仓库读取前一时刻下的每个候选空气污染物对应的污染物特征数据集。其中，污染物数据包括当前表观反射率、当前亮温数据和当前气象要素数据，候选空气污染物可以包括PM₁₀、PM_2.5、O₃、SO₂、CO、NO₂，候选空气污染物对应的污染物特征数据集也即候选空气污染物关联的每个站点的多特征数据集合，多特征数据集合将包括历史表观反射率、历史亮温数据、历史时空权重数据、历史气象要素数据、历史排放清单数据和历史地理特征数据。

在一种实施方式中，当接收到当前时刻的卫星数据（也即整点遥感影像数据）时，可以通过几何校正、角度校正等预处理操作从卫星数据中获取当前时刻的当前表观反射率、当前亮温数据和当前气象要素数据。在另一种实施方式中，基于预设的时间间隔确定当前时刻对应的前一时刻，从而在数据仓库中以前一时刻为检索条件，筛选出前一时刻下每个候选空气污染物对应的污染物特征数据集。

步骤S104，基于当前时刻下的污染物数据，和前一时刻下的每个候选空气污染物对应的污染物特征数据集，构建目标训练数据集。在一种实施方式中，可以将当前时刻下的污染物数据，和前一时刻下的每个候选空气污染物对应的污染物特征数据集组合为初始近实时训练数据集，通过分析初始近实时训练数据集的数据特征，采用针对空气污染物的特征改进后的不平衡学习的采样方法合成目标近实时训练数据集，结合基于数据仓库采样得到的采样训练数据集构建目标训练数据集。

步骤S106，利用目标训练数据集对初始污染物预测模型进行训练，以得到目标污染物预测模型。其中，污染物预测模型可以采用时空LightGBM模型。在一种实施方式中，可以基于目标训练数据集训练时空LightGBM模型，直至达到预设的训练次数，即可得到所需的目标污染物预测模型。

步骤S108，通过目标污染物预测模型，基于当前时刻下的污染物数据进行污染物预测，以从候选空气污染物中确定当前时刻下的目标空气污染物。在一种实施方式中，目标污染物预测模型的输入为当前时刻下的污染物数据，输出为目标空气污染物及其浓度，以便于根据目标空气污染物及其浓度获取区域内空气污染物的浓度空间分布。

本发明实施例提供的空气污染物预测方法，基于当前时刻下的污染物数据和前一时刻下的每个候选空气污染物对应的污染物特征数据集构建目标训练数据集，并利用该目标训练数据集训练初始污染物预测模型，以便于利用训练得到的目标污染物预测模型对当前时刻的目标空气污染物进行预测，本发明实施例舍弃了过程参数的反演过程，避免了空气污染物反演过程中存在的误差传递与累计的问题，从而可以显著提高空气污染物反演的精准性。

在一种实施方式中，在执行前述步骤S102之前还需要构建数据仓库，本发明实施例提供了一种构建数据仓库的具体过程，参见如下步骤1至步骤4：

步骤1，获取原始多源数据，并对多源数据进行预处理得到目标多源数据；其中，目标多源数据包括历史表观反射率、历史亮温数据、历史时空权重数据、历史气象要素数据、历史排放清单数据和历史地理特征数据，还可以包括历史卫星天顶角、历史卫星方位角、历史太阳高度角、历史太阳方位角角度数据。

在一例中，对于历史表观反射率和历史亮温数据，可以选择近3年的FY4A-AGRI整点遥感影像数据，通过几何校正、角度校正等预处理操作获取FY4A-AGRI的B01、B02、B03、B04、B05、B06表观反射率通道数据（也即，历史表观反射率）；获取FY4A-AGRI的B07、B08、B09、B10、B11、B12、B13、B14亮温通道数据（也即，历史亮温数据）。进一步的，还可以获取FY4A-AGRI的卫星天顶角（SAZ）、卫星方位角（SAA）；根据FY4A-AGRI的时间戳（YYYYMMDDhhmmss）计算太阳高度角（SOE）、太阳方位角（SOA）角度数据。

在一例中，对于历史时空权重数据，遥感影像数据包括很多个像元，然后根据整个遥感影像数据的时间戳和每个像元的经纬度，计算每个像元的时空特征权重信息。具体的，根据输入的时间戳和经纬度数据生成时空特征权重信息，其中时间权重信息公式如下：

；

其中，day表示该年中的第几天，T表示该年的总天数，x、y为经纬度，t为时间戳。

空间权重信息如下：

；

其中，R为地球半径，为6371 km，其中和/>表示空间中两点的纬度，/>和/>表示空间中两点的经度。逐个计算影像中像元中心点依次到NW（西北）、N（北）、NE（东北）、E（东）、SE（东南）、S（南）、SW（西南）、W（西）、O（中心）的空间权重/>，分别计为/>、/>、/>、/>、、/>、/>、/>、/>。示例性的，假设像元中心的经纬度为（/>，/>），西北方向像元点的经纬度为（/>，/>），基于空间权重信息计算公式得到像元中心到西北方向的空间权重/>。

在一例中，对于历史气象要素数据，可以根据卫星遥感影像数据成像时间选择同期次的ECMWF气象预报数据，解析气象预报数据中的水平10 m风速（WIND_s）、垂直10 m风速（WIND_t）、气温（TEM）、1 h降水（PRE）、相对湿度（RHU）、气压（PRS）、边界层高度（BLH）要素。

进一步的，还可以获取近三年的空气质量环境监测站点数据，数据包含要素PM_2.5、PM₁₀、O₃、SO₂、CO、NO₂，对站点数据进行无效值剔除，采用多元插补MICE方法对缺省值进行插补。

在一例中，对于历史排放清单数据，可以提取排放清单产品MIX中的污染物排放物种，包括SO₂、NO_x、CO、NMVOC、NH₃、PM₁₀、PM_2.5、BC、OC、CO₂。

在一例中，对于历史地理特征数据，可以获取地理特征数据，包含DEM数据、人口密度数据、土地利用数据，对上述地理特征数据集、卫星数据集、气象要素数据集、排放清单物种数据统一重采样至同一分辨率（2 km）。

步骤2，对目标多源数据进行空间匹配，以将目标多源数据划分为每个第一站点对应的多特征数据集。在一种实施方式中，可以将预处理后的FY4A-AGRI历史表观反射率和历史亮温数据、历史时空权重数据、历史气象要素数据、历史排放清单数据、历史地理特征数据构建二维矩阵数据，并基于预处理后的站点数据做空间匹配。具体的，可以基于站点数据的位置，提取上述二维矩阵数据中对应站点位置的像元值，形成包含时间和空间位置的多特征数据集，也即每个站点对应的多特征数据集包括与该站点位置匹配的历史表观反射率和历史亮温数据、历史时空权重数据、历史气象要素数据、历史排放清单数据、历史地理特征数据。

步骤3，对于每个候选空气污染物，确定每个第一站点对应的多特征数据集相对于该候选空气污染物的特征重要性，并基于特征重要性从每个第一站点对应的多特征数据集中确定该候选空气污染物对应的污染物特征数据集。

在一种实施方式中，可以对多特征数据集进行去云、雾处理，得到无云、雾影响的多特征数据集，并在此基础上确定特征重要性。本发明实施例还提供了一种确定特征重要性的实施方式，对无云、雾影响的多特征数据集，针对六种目标空气污染物采用随机森林方法评估和选取某种空气污染物的特征重要性，采用Gini指数计算特征重要性Fim，Gini系数的计算公式如下，

；

k代表k个类别，表示k的样本权重。特征/>在结点m的重要度，定义为在结点m分支前后，Gini指数的变化量，

；

其中，，/>表示结点m分枝后左右结点的Gini系数，k代表有k个类别，/>表示k的样本权重。

在一种实施方式中，本发明实施例还提供了一种基于特征重要性从每个第一站点对应的多特征数据集中确定该候选空气污染物对应的污染物特征数据集的实施方式，参见如下步骤3.1至步骤3.2：

步骤3.1，对每个第一站点对应的特征重要性进行归一化处理，得到每个第一站点对应的归一化特征重要性。

步骤3.2，如果第一站点对应的归一化特征重要性大于预设重要性阈值，确定第一站点与该候选空气污染物关联，并将第一站点对应的多特征数据集，确定为该候选空气污染物对应的污染物特征数据集。在一种实施方式中，根据归一化后的特征重要性Fim，将Fim≥0.1的多特征数据集作为某种空气污染物p（PM_2.5、PM₁₀、O₃、SO₂、CO、NO₂）的污染物特征数据集Rp。例如，某第一站点相对于PM_2.5的归一化特征重要性大于0.1，即可确定该第一站点与PM_2.5关联，并将该第一站点的多特征数据集，确定为PM_2.5对应的污染物特征数据集。

步骤4，基于每个候选空气污染物对应的污染物特征数据集搭建数据仓库。在一种实施方式中，数据仓库记录空气污染物发生严重污染时刻对应的所有多特征数据集，并同步更新至数据仓库。

在前述实施例的基础上，本发明实施例进一步提供了一种步骤S104的实施方式，在执行基于当前时刻下的污染物数据，和前一时刻下的每个候选空气污染物对应的污染物特征数据集，构建目标训练数据集的步骤时，可以参见如下步骤a至步骤d：

步骤a，将当前时刻下的污染物数据，和前一时刻下的每个候选空气污染物对应的污染物特征数据集，合成为初始近实时训练数据集。在一种实施方式中，输入t_n时刻的FY4A-AGRI当前表观反射率、当前亮温数据和当前气象要素数据，根据邻近时刻_tn-1（也即，前一时刻）站点数据中的空气污染物p，从数据仓库中提取空气污染物p的污染物特征数据集Rp，将两者合并以形成t_n时刻的初始近实时训练数据集TrainDst_NRT。

步骤b，根据初始近实时训练数据集的第一数据特征合成训练数据，并将训练数据合并至初始近实时训练数据集，得到目标近实时训练数据集。为便于理解，本发明实施例提供了一种基于初始近实时训练数据集的第一数据特征合成训练数据的实施方式，参见如下步骤b1至步骤b4：

步骤b1，对初始近实时训练数据集进行空间匹配，以将初始近实时训练数据集划分为每个第二站点对应的子训练数据集。在一种实施方式中，并按照前述步骤2对t_n时刻的当前表观反射率、当前亮温数据、当前气象要素数据和邻近时刻_tn-1的空气污染物p的污染物特征数据集Rp进行空间匹配，即可得到t_n时刻下每个第二站点对应的子训练数据集。

步骤b2，基于每个第二站点关联的候选空气污染物，统计子训练数据集中已发生污染的第一数据集数量和未发生污染的第二数据集数量，并将第一数据集数量和第二数据集数量之前的比例确定为不平衡度；其中，第一数据特征包括第一数据集数量和第二数据集数量。在实际应用中，针对空气污染物的特点改进针对不平衡学习的改进后的ADASYN（自适应合成抽样方法）采样算法分析TrainDst_NRT中每个第二站点对应的子训练数据集。

具体的，将每个第二站点对应的子训练数据集记为样本，TrainDst_NRT包含m个样本{(xi,yi),…}，i=1,2,3,m，其中(xi,yi)是n维特征空间中的一个实例，将{m_s}和{m_l}分别定义为空气污染物发生污染（轻度污染等级以上）的样本数量（也即，第一数据集数量）和空气污染未发生污染（优、良等级）的样本数量（也即，第二数据集数量）。计算空气污染物污染等级类m_s和空气污染物未发生污染等级类m_l的不平衡度d：

。

步骤b3，如果不平衡度小于预设不平衡度阈值，则基于已发生污染的子训练数据集与未发生污染的子训练数据集之间的欧式距离，确定已发生污染的目标待合成数据集数量。在一种实施方式中，在TrainDst_NRT中，假设需要空气污染物处于污染等级的训练数据量≥20%的总训练数据量，此时不平衡度的阈值dthreshold为0.25，如果d<dthreshold，则将需要确定已发生污染的目标待合成数据集数量并进行训练数据的拟合。

本发明实施例提供了一种确定已发生污染的目标待合成数据集数量的具体实施方式，参见如下步骤b3.1至步骤b3-3：

步骤b3-1，将第一数据集数量和第二数据集数量之间差值，与预设平衡系数之间的乘积，确定为初始待合成数据集数量。在一种实施方式中，可以按照如下公式计算m_s需要合成的初始待合成数据集数量：

。其中/>[0,1]，是用于在生成合成样本后达到平衡级别的参数，/>=1表示合成之后形成一个完全平衡的数据集。

步骤b3-2，基于已发生污染的子训练数据集与未发生污染的子训练数据集之间的欧式距离，确定系数调节比例。在一种实施方式中，对于m_s类中的样本(xi,yi)，计算与m_l类样本之间的欧式距离，通过欧式距离找k近邻，为k个邻居中属于多数类的样本数目，初始系数调节比例/>的计算方式如下：

；

其中，[0,1]，每个样本(xi,yi)周围m_l类的情况如下：

；其中，/>为最终的系数调节比例。

步骤b3-3，将初始待合成数据集数量与系数调节比例之间的乘积，确定为定已发生污染的目标待合成数据集数量。在一种实施方式，可以按照如下公式计算m_s类中每个样本(xi,yi)需要生成的目标待合成数据集数量M：

。

步骤b4，在已发生污染的子训练数据集中选择目标子训练数据集，并根据目标待合成数据集数量和目标子训练数据集合成训练数据。在一种实施方式中，在m_s类中每个样本周围k个邻居中选择1个m_s类样本，根据下列等式进行合成：

；其中，/>为训练数据，/>、/>均为样本，/>为随机变量，在[0,1]之间。

步骤c，根据目标近实时训练数据集的第二数据特征，对数据仓库内存储的污染物特征数据集进行采样，得到采样训练数据集。在具体实现时，可以参见如下步骤c1至步骤c3：

步骤c1，对于每个候选空气污染物，如果目标近实时训练数据集中的第二站点关联该候选空气污染物，则确定第二站点关联的该候选空气污染物属于的污染等级。示例性的，可以预先配置优、良、轻度、中度、重度等级，以PM_2.5为例，分别对应浓度值为(0,35]，(35,75]，(75,115]，(115,150]，(150,999]的区间，确定第二站点关联的PM_2.5所处的污染等级。

步骤c2，将属于该污染等级的该候选空气污染物关联的第二站点的数量占第二站点总数量的比值，确定为该候选空气污染物及污染等级对应的采样比例。示例性的，假设PM_2.5属于优等级的第二站点数量为w1，第二站点总数量为W，则PM_2.5及优等级对应采样比例为w1/W，以计算不同区间样本数量的比例。

步骤c3，根据每个候选空气污染物及污染等级对应的采样比例，对数据仓库内存储的污染物特征数据集进行采样，得到采样训练数据集；其中，第二数据特征包括每个候选空气污染物及污染等级对应的采样比例。在一种实施方式中，可以基于该采样比例在数据仓库中等比例采样，采样的总数量为合成后的TrainDst_NRT的N倍，一般N为10，采样训练数据集记为TrainDst_Sample。

步骤d，将目标近实时训练数据集和采样训练数据集合成为目标训练数据集。在一种实施方式中，将TrainDst_NRT和TrainDst_Sample训练数据集合成为空气污染物的目标训练数据集TrainDst。

在前述实施例的基础上，可以基于训练数据集训练时空LightGBM模型反演当前时刻的空气污染物浓度。具体的，本发明实施例还提供了一种步骤S106的实施方式，在利用目标训练数据集对初始污染物预测模型进行训练，以得到目标污染物预测模型时，可以参见如下（1）至（4）：

（1）将目标训练数据集划分为第一数据集和第二数据集；（2）将第一数据集作为时空LightGBM模型的输入，以及将第一数据集中每个第二站点关联的候选空气污染物作为真值，对时空LightGBM模型进行训练，且训练过程中逐一增加子模型，以对时空LightGBM模型中的每个子模型的参数进行调整；（3）利用第二数据集对训练后的时空LightGBM模型进行验证；（4）如果训练后的时空LightGBM模型满足预设指标，则将训练后的时空LightGBM模型确定为目标污染物预测模型。

为便于理解，本发明实施例提供了一种基于训练数据集训练时空LightGBM模型反演当前时刻的空气污染物浓度的具体实施方式，参见如下（一）至（五）：

（一）基于步骤3D生成的训练数据集TrainDst，以空气污染物为真值，步骤2C形成的Rp为特征变量集，以PM2.5为例，Rp中包含的特征变量为B01、B03、B04、B06、B08、B09、B11、SAZ、SOE、WIND_s、WIND_t、TEM、RHU、BLH、SO2、NOx、NMVOC、NH3、PM10_mix、PM2.5_mix、BC、DEM、POP、LANDUSE，融入步骤1B的生成的时空权重特征变量、/>、/>、/>、/>、/>、、/>、/>、/>共同构成时空特征变量集。

（二）以（一）处理后的时空特征变量数据集为基础搭建LightGBM模型，LightGBM采用梯度提升框架，同时选择了基于Histogram的决策树算法，其复合模型和损失函数如下：

一次性迭代变量，迭代过程中，逐一增加子模型，并且保证损失函数不断减小。假设为子模型，复合模型为：

损失函数为，每一次加入新的子模型后，使得损失函数不断朝着信息含量次高的变量的梯度减小。

（三）时空LightGBM模型训练，将（一）中的特征标签数据输入到（二）构建的时空LightGBM模型中，采用训练参数自动化调整工具Optuna对模型进行自动调参。调整的参数包括每棵树的叶子数量Num_leaves，学习率Learning_rate，最大学习深度max_depth，一片叶子中数据的最小数量min_data，选择特征占总特征数的比例feature_fraction，选择数据占总数据量的比例Bagging_fraction。采用均方根误差RMSE作为Optuna参数输出误差优化器，同时设置样本的训练次数，输出训练结果，根据训练结果与真实值的误差动态优化参数，获得最优模型参数。

（四）采用十折交叉验证（三）训练的模型，首先将（一）形成的数据集随机分成10个子集，其中9个子集用于训练模型，1个子集用于验证模型。接下来将验证集逐个轮换，每次使用不同的子集作为验证集，重复10次，最终得到10个模型和10个验证指标R2、RMSE、MRE等。计算10个验证指标的平均值，作为模型的最终性能指标。

（五）输入tn时刻的FY4A-AGRI表观反射率、亮温数据和气象要素数据，保留Rp中的污染物特征数据集，将污染物特征数据集一维化后和时空权重特征输入到（三）训练好的时空LightGBM模型中预测得到t_n时刻的空气污染物，获得区域内空气污染物（PM2.5、PM10、O3、SO2、CO、NO2）的浓度空间分布。

本发明实施例提供的空气污染物预测方法，舍弃了过程参数的反演过程，直接基于FY4A-AGRI的表观反射率数据，开创性地加入了亮温和污染物排放清单数据，搭建了支持多线程和多机并行计算的LightGBM模型来反演空气污染物。另外现有的空气污染物反演模型中忽略了时间和空间对于模型结果是否符合地理特征的重要性，因此本发明实施例在模型训练中考虑了时间戳和经纬度数据生成的时空特征权重信息，大幅度提高了本技术反演结果的时空一致性。现有技术最重要的问题表现在模型的训练数据集存在组成方式单一、样本训练数据少并且高污染特征占比少的问题，针对当前训练数据集存在的问题，本发明实施例中首先采集历史数据建立庞大的数据仓库，这个仓库内包含卫星表观反射率、亮温、卫星与太阳角度、气象、时空特征、人口、DEM、土地利用数据、排放清单、空气污染物浓度，并且数据仓库会增加高污染时刻对应的空气污染物数据特征，在数据仓库构建的基础上，针对空气污染物的特点改进了针对不平衡学习的ADASYN采样算法，增强了近实时的训练数据集，在此基础上，按照训练数据集的特征在数据仓库中采样，进一步增强了训练数据集的代表性，提高了近实时空气污染物反演的精准性，为探究空气污染物的动态变化规律和工程化监测提供技术支持。

为便于对前述实施例进行理解，本发明实施例提供了一种空气污染物预测的应用示例，参见图2所示的另一种空气污染物预测方法的流程示意图，本发明实施例的基于静止卫星的空气污染物（PM2.5、PM10、O3、SO2、CO、NO2）监测方法，可以包括以下步骤一至步骤三：

步骤一：搭建反演空气污染物的数据仓库，包括多源数据的标签统一、时空匹配、去云去雾、特征选取、动态更新等。在执行步骤一之前，需要对多源数据预处理，预处理过程包含卫星数据、时空特征数据、地理特征数据、气象要素数据、排放清单物种数据、空气污染物数据的预处理流程。

步骤三：构建训练数据集，通过分析近实时数据的特征，采用针对空气污染物的特征改进后的不平衡学习的采样方法合成训练数据集，结合基于数据仓库采样的数据集得到训练数据集；

步骤四：基于训练数据集训练时空反演当前时刻的空气污染物浓度。

综上所述，本发明实施例综合利用FY4A/ARGI遥感数据，地面站点监测数据、气象数据、地形地貌数据、人口密度、排放清单等数据，提出APHRR（A Model of Air PollutantsRetrieval with High Resolution）模型进行空气污染物浓度反演，获得高精度的时空分辨率的近地面空气污染物浓度分布。基于此，本发明实施例提供的空气污染物预测方法至少具有以下特点：

（1）现有技术基于卫星遥感反演空气污染物，一般需要先反演AOD或者其他过程参数，过程参数的反演过程极其复杂，增加了空气污染物反演中的误差传递与累积。因此在本发明实施例中，舍弃了中间参数的反演过程，直接基于FY4A AGRI的表观反射率数据，开创性地加入了亮温和污染物排放清单数据，并且搭建了数据仓库来反演空气污染物。

（2）现有的空气污染物反演模型忽略了时间和空间对于模型结果是否符合地理特征的必要性，本发明实施例在模型训练中考虑了时间戳和经纬度数据生成的时空特征权重信息，大幅度提高了本技术反演结果的时空一致性。

（3）现有技术在训练数据集的组成方式上较为单一，本发明实施例中首先采集历史数据建立庞大的数据仓库，这个仓库内包含卫星表观反射率、亮温、卫星与太阳角度、气象、时空特征、人口、DEM、土地利用数据、空气污染物浓度，并且数据仓库的数据会增加高污染时刻对应的空气污染物数据，然后针对空气污染物的特点改进了针对不平衡学习的ADASYN采样算法，增强了近实时的训练数据集，在此基础上，按照训练数据集的特征在数据仓库中采样，进一步增强了训练数据集的代表性，提高了近实时空气污染物反演的精准性。

对于前述实施例的空气污染物预测方法，本发明实施例提供了一种空气污染物预测装置，参见图3所示的一种空气污染物预测装置的结构示意图，该装置主要包括以下部分：

数据获取模块302，用于当接收到当前时刻下的污染物数据时，从预先构建的数据仓库读取前一时刻下的每个候选空气污染物对应的污染物特征数据集；

训练集构建模块304，用于基于当前时刻下的污染物数据，和前一时刻下的每个候选空气污染物对应的污染物特征数据集，构建目标训练数据集；

模型训练模块306，用于利用目标训练数据集对初始污染物预测模型进行训练，以得到目标污染物预测模型；

污染物预测模块308，用于通过目标污染物预测模型，基于当前时刻下的污染物数据进行污染物预测，以从候选空气污染物中确定当前时刻下的目标空气污染物。

本发明实施例提供的空气污染物预测装置，基于当前时刻下的污染物数据和前一时刻下的每个候选空气污染物对应的污染物特征数据集构建目标训练数据集，并利用该目标训练数据集训练初始污染物预测模型，以便于利用训练得到的目标污染物预测模型对当前时刻的目标空气污染物进行预测，本发明实施例舍弃了过程参数的反演过程，避免了空气污染物反演过程中存在的误差传递与累计的问题，从而可以显著提高空气污染物反演的精准性。

在一种实施方式中，还包括仓库构建模块，用于：

获取原始多源数据，并对多源数据进行预处理得到目标多源数据；其中，目标多源数据包括历史表观反射率、历史亮温数据、历史时空权重数据、历史气象要素数据、历史排放清单数据和历史地理特征数据；

对目标多源数据进行空间匹配，以将目标多源数据划分为每个第一站点对应的多特征数据集；

对于每个候选空气污染物，确定每个第一站点对应的多特征数据集相对于该候选空气污染物的特征重要性，并基于特征重要性从每个第一站点对应的多特征数据集中确定该候选空气污染物对应的污染物特征数据集；

基于每个候选空气污染物对应的污染物特征数据集搭建数据仓库。

在一种实施方式中，仓库构建模块，还用于：

对每个第一站点对应的特征重要性进行归一化处理，得到每个第一站点对应的归一化特征重要性；

如果第一站点对应的归一化特征重要性大于预设重要性阈值，确定第一站点与该候选空气污染物关联，并将第一站点对应的多特征数据集，确定为该候选空气污染物对应的污染物特征数据集。

在一种实施方式中，训练集构建模块304还用于：

将当前时刻下的污染物数据，和前一时刻下的每个候选空气污染物对应的污染物特征数据集，合成为初始近实时训练数据集；

根据初始近实时训练数据集的第一数据特征合成训练数据，并将训练数据合并至初始近实时训练数据集，得到目标近实时训练数据集；

根据目标近实时训练数据集的第二数据特征，对数据仓库内存储的污染物特征数据集进行采样，得到采样训练数据集；

将目标近实时训练数据集和采样训练数据集合成为目标训练数据集。

在一种实施方式中，训练集构建模块304还用于：

对初始近实时训练数据集进行空间匹配，以将初始近实时训练数据集划分为每个第二站点对应的子训练数据集；

基于每个第二站点关联的候选空气污染物，统计子训练数据集中已发生污染的第一数据集数量和未发生污染的第二数据集数量，并将第一数据集数量和第二数据集数量之前的比例确定为不平衡度；其中，第一数据特征包括第一数据集数量和第二数据集数量；

如果不平衡度小于预设不平衡度阈值，则基于已发生污染的子训练数据集与未发生污染的子训练数据集之间的欧式距离，确定已发生污染的目标待合成数据集数量；

在已发生污染的子训练数据集中选择目标子训练数据集，并根据目标待合成数据集数量和目标子训练数据集合成训练数据。

在一种实施方式中，训练集构建模块304还用于：

将第一数据集数量和第二数据集数量之间差值，与预设平衡系数之间的乘积，确定为初始待合成数据集数量；

将初始待合成数据集数量与系数调节比例之间的乘积，确定为定已发生污染的目标待合成数据集数量。

在一种实施方式中，训练集构建模块304还用于：

对于每个候选空气污染物，如果目标近实时训练数据集中的第二站点关联该候选空气污染物，则确定第二站点关联的该候选空气污染物属于的污染等级；

将属于污染等级的该候选空气污染物关联的第二站点的数量占第二站点总数量的比值，确定为该候选空气污染物及污染等级对应的采样比例；

根据每个候选空气污染物及污染等级对应的采样比例，对数据仓库内存储的污染物特征数据集进行采样，得到采样训练数据集；其中，第二数据特征包括每个候选空气污染物及污染等级对应的采样比例。

在一种实施方式中，初始污染物预测模型为时空LightGBM模型；

模型训练模块306还用于：

将目标训练数据集划分为第一数据集和第二数据集；

将第一数据集作为时空LightGBM模型的输入，以及将第一数据集中每个第二站点关联的候选空气污染物作为真值，对时空LightGBM模型进行训练，且训练过程中逐一增加子模型，以对时空LightGBM模型中的每个子模型的参数进行调整；

利用第二数据集对训练后的时空LightGBM模型进行验证；

如果训练后的时空LightGBM模型满足预设指标，则将训练后的时空LightGBM模型确定为目标污染物预测模型。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图4为本发明实施例提供的一种电子设备的结构示意图，该电子设备100包括：处理器40，存储器41，总线42和通信接口43，所述处理器40、通信接口43和存储器41通过总线42连接；处理器40用于执行存储器41中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非不稳定的存储器（non-volatilememory），例如至少一个磁盘存储器。通过至少一个通信接口43（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41用于存储程序，所述处理器40在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中，或者由处理器40实现。

处理器40可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器40读取存储器41中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见前述方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种空气污染物预测方法，其特征在于，包括：

通过所述目标污染物预测模型，基于所述当前时刻下的污染物数据进行污染物预测，以从所述候选空气污染物中确定所述当前时刻下的目标空气污染物；

在从预先构建的数据仓库读取前一时刻下的每个候选空气污染物对应的污染物特征数据集之前，所述方法还包括：

基于每个所述候选空气污染物对应的所述污染物特征数据集搭建数据仓库；

基于所述当前时刻下的所述污染物数据，和所述前一时刻下的每个所述候选空气污染物对应的污染物特征数据集，构建目标训练数据集，包括：

2.根据权利要求1所述的空气污染物预测方法，其特征在于，基于所述特征重要性从每个所述第一站点对应的所述多特征数据集中确定该候选空气污染物对应的污染物特征数据集，包括：

3.根据权利要求1所述的空气污染物预测方法，其特征在于，基于所述初始近实时训练数据集的第一数据特征合成训练数据，包括：

4.根据权利要求3所述的空气污染物预测方法，其特征在于，基于已发生污染的子训练数据集与未发生污染的子训练数据集之间的欧式距离，确定已发生污染的目标待合成数据集数量，包括：

5.根据权利要求1所述的空气污染物预测方法，其特征在于，根据所述目标近实时训练数据集的第二数据特征，对所述数据仓库内存储的污染物特征数据集进行采样，得到采样训练数据集，包括：

6.根据权利要求1所述的空气污染物预测方法，其特征在于，所述初始污染物预测模型为时空LightGBM模型；

将所述目标训练数据集划分为第一数据集和第二数据集；

7.一种空气污染物预测装置，其特征在于，包括：

污染物预测模块，用于通过所述目标污染物预测模型，基于所述当前时刻下的污染物数据进行污染物预测，以从所述候选空气污染物中确定所述当前时刻下的目标空气污染物；

还包括仓库构建模块，用于：

训练集构建模块，还用于：

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至6任一项所述的方法。