CN113222209B

CN113222209B - 基于域适应的区域尾气迁移预测方法、系统及存储介质

Info

Publication number: CN113222209B
Application number: CN202110330528.5A
Authority: CN
Inventors: 康宇; 刘斌琨; 许镇义; 曹洋; 李兵兵; 夏秀山
Original assignee: Anhui Ecological Environment Monitoring Center Anhui Heavy Pollution Weather Forecast And Early Warning Center; Institute of Advanced Technology University of Science and Technology of China
Current assignee: Anhui Ecological Environment Monitoring Center Anhui Heavy Pollution Weather Forecast And Early Warning Center; Institute of Advanced Technology University of Science and Technology of China
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2022-02-25
Anticipated expiration: 2041-03-25
Also published as: CN113222209A

Abstract

本发明的一种基于域适应的区域尾气迁移预测方法、系统及存储介质，包括获取源区域和目标区域的历史尾气数据以及外部因素数据并处理，对源域数据和目标域数据以监测点为节点，两两相连，把权重为监测点距离的倒数构建图结构数据，并根据源区域和目标区域的尾气浓度变化特性划分时间序列集合；构建尾气时空特征提取模块，对源区域和目标区域的时间序列数据进行浅层特征提取与融合；构建自动编码器，利用编码器将属于不同特征空间的源域和目标域浅层时空特征非线性映射到同一特征空间；对浅层特征进行深度提取，并输出预测结果。本发明通过利用域适应方法实现源域数据的高效利用，从而实现对缺乏数据的目标域更高精度的区域尾气预测。

Description

基于域适应的区域尾气迁移预测方法、系统及存储介质

技术领域

本发明涉及环境检测领域中城市区域尾气污染预测技术领域，具体涉及一种基于域适应的区域尾气迁移预测方法、系统及存储介质。

背景技术

近年来，政府对机动车尾气污染越来越重视，对机动车尾气污染的预测和实时估计可以有效辅助政府对机动车尾气污染的治理以及相关政策的制定。由于交通流具有空间相关性和时间依赖性的特点，而尾气与交通流往往是强相关的，因此机动车尾气同样受到邻近区域尾气浓度和前一时刻该区域尾气浓度的影响。同时尾气浓度也易受气象因素等外部条件的影响。已有方法往往基于大量的尾气数据从而对下一时刻的尾气浓度进行预测，然而对于缺乏数据的地区，一般难以取得比较良好的实验结果。因此可以考虑利用有充足尾气数据的区域辅助缺乏数据的区域进行预测。

考虑到尾气浓度与路网结构、天气变化等因素具有高度相关性，而区域间路网结构，天气因素差别较大，从而导致不同区域间尾气的时空分布存在较大的差异，此外不同区域监测点数量也不相同，导致源域和目标域提取的特征分属不同特征空间，因此无法直接利用源域数据辅助目标域数据学习。针对上述挑战，本发明提出了一种基于域适应的区域尾气迁移学习预测方法旨在克服源区域和目标区域之间的尾气时空分布差异和监测点数目不同带来的影响，从而利用具有丰富数据的源域区域向数据稀缺的目标域区域进行知识迁移，以实现数据稀缺的目标区域的尾气浓度预测。

发明内容

本发明提出的一种基于域适应的区域尾气迁移预测方法、系统及存储介质，可解决现有方法在数据量较少的情况下，误差较大的技术问题。

为实现上述目的，本发明采用了以下技术方案：

一种基于域适应的区域尾气迁移预测方法，包括以下步骤：

S1：获取源区域和目标区域的历史尾气数据以及外部因素数据，并对进行数据预处理得到源域数据和目标域数据；

S2：对源域数据和目标域数据以监测点为节点，两两相连，边权重为监测点距离的倒数构建图结构数据，并根据源区域和目标区域的尾气浓度变化特性划分时间序列集合；

S3：构建尾气时空特征提取模块，对源区域和目标区域的时间序列数据进行浅层特征提取与融合；

S4：构建自动编码器，利用编码器将S3后属于不同特征空间的源域和目标域浅层时空特征非线性映射到同一特征空间，在共同特征空间内对源域和目标域的时空特征差异进行刻画，并利用解码器将源域和目标域特征映射到各自的特征空间；

S5：对解码器映射后的源域和目标域时空特征进行深度提取，并输出预测结果。

进一步的，S1的具体步骤如下：

S11：分别获取源区域和目标区域的历史尾气数据以及相应的外部因素数据；

S12：对源区域和目标区域的历史尾气数据进行插值，异常值处理，归一化化等预处理操作。

进一步的，所述S2具体包括：

S21：根据监测点地理位置信息将源区域和目标区域的数据构建成图数据X_t＝{V,E,W}，X_t表示t时刻的图数据，V,E,W分别表示图的节点，边和权重；对于图X_t，节点是尾气监测站点，任意两个节点都是连通的，图的边权重为两节点之间距离的倒数；

S22：考虑到尾气的时间分布特性，将尾气的历史观测数据按照时间顺序以时间间隔Δt划分成历史观测序列；

根据时间序列长度l，将源区域和目标区域历史观测序列划分成

和

分别用H^s和H^t表示；

S23：对外部因素进行编码，获得外部因素的输入向量

进一步的，所述S3具体包括：

S31:将源域H^s和目标域尾气时间序列H^t分别送入源域时空图卷积网络和目标域时空图卷积网络的特征提取模块进行浅层特征提取；

特征提取模块由单层时空图卷积网络构成，内部结构为两层时间门控卷积层和一层空间图卷积层组的类似三明治的结构：

f^s和f^t是源域和目标域的单层时空图卷积的表示函数，

和

是源域和目标域经过提取的浅层特征；

S32:对于外部因素，利用双层全连接网络

和

对源区域和目标区域的外部因素进行特征提取再利用非线性激活函数tanh获得归一化的外部因素特征

和

源域和目标域全连接网络的输入维度均是24，输出维度分别是源域和目标域的空间节点数；

S33:对外部因素特征

和

浅层特征

和

进行特征融合，获取融合特征

和

⊙代表哈德玛积。

进一步的，所述S4具体包括：

S41：经过浅层特征提取得到的源域和目标域特征，由于源域和目标域拥有不同的空间节点数，源域和目标域特征实际是属于两个不同的特征空间，因此利用自动编码器进行非线性映射到共同特征空间

自动编码器分成编码器和解码器两部分，首先利用编码器将源域和目标域映射到相同的特征空间

源域编码器encoder^s的输入维度为源域的空间节点数，输出维度为共同特征空间的空间维大小；目标域编码器encoder^t的输入维度为目标域的空间节点数，输出维度为共同特征空间的空间维大小；

编码器有三层全连接网络构成，非线性激活函数为LeakyRelu：

S42：在公共特征空间内，对源域特征

和目标域特征

的差异性进行度量，通过最小化差异性度量实现源域和目标域的特征分布大致相同，实现源域到目标域的知识传递；

S43：将特征

和

利用解码器映射到对应的源域和目标域特征空间。源域解码器decoder^s的输入维度为共同特征空间

的空间节点数，输出维度为源域的空间维大小；目标域解码器decoder^t的输入维度为共同特征空间

的空间节点数，输出维度为目标域的空间维大小。解码器同样由三层全连接网络和非线性激活函数LeakyRelu组成。

和

是由解码器重构得到的源域和目标域特征

L_e为重构损失，N为实例数。

进一步的，所述S42具体包括：

基于边缘概率分布的差异性度量Q_m，φ表示核函数，n_s和n_t代表源域和目标域的实例数，i和j表示实例在源域和目标域的顺序；

和

分别表示源域的第i个样本的特征和目标域的第j个样本的特征；

基于条件概率分布的差异性度量Q_c，C为类别数，使用时间点作为类别，则C为24.k表示第k类，

和

表示第k类源域和目标域的实例数，a和b表示当前实例在当前类别下源域和目标域的顺序；

和

分别表示在第k个类别中源域的第a个样本的特征和目标域的第b个样本的特征；

则通过联合边缘概率分布和条件概率分布共同刻画源域和目标域的差异性，从而获得迁移损失L_trans：

通过最小化迁移损失L_trans，源域和目标域的特征分布趋于近似，从而实现源域到目标域的知识传递。

进一步的，所述S5具体包括：

对于源域特征和目标域特征利用单层时空图卷积网络和时间门控卷积层进行特征提取，并利用单层全连接网络进行预测结果输出；

和

分别代表源域和目标域的单层时空图卷积网络、时间门控卷积层、单层全连接网络；X^s和X^t代表源域和目标域的最终预测输出，预测损失L_s和L_t为：

其中Y^s和Y^t分别为源域和目标域的预测真值；

因此总体损失函数为：

L＝L_t+αL_s+βL_e+γL_trans+μ||θ||²

α、β、γ、μ是平衡系数，θ为网络参数的集合，||θ||²意为网络的正则化项。

进一步的，所述S23中仅考虑时间信息对尾气浓度的影响，经过one-hot编码后，时间信息转换成长度为24的向量。

另一方面，本发明还公开一种基于域适应的区域尾气迁移预测系统，包括以下单元，

数据获取单元，用于获取源区域和目标区域的历史尾气数据以及外部因素数据，并对进行数据预处理得到源域数据和目标域数据；

集合划分单元，用于对源域数据和目标域数据以监测点为节点，两两相连，边权重为监测点距离的倒数构建图结构数据，并根据源区域和目标区域的尾气浓度变化特性划分时间序列集合；

特征提取模块，用于构建尾气时空特征提取模块，对源区域和目标区域的时间序列数据进行浅层特征提取与融合；

自动编码器单元，用于构建自动编码器，利用编码器将属于不同特征空间的源域和目标域浅层时空特征非线性映射到同一特征空间，在共同特征空间内对源域和目标域的时空特征差异进行刻画，并利用解码器将源域和目标域特征映射到各自的特征空间；

预测单元，用于对解码器映射后的源域和目标域时空特征进行深度提取，并输出预测结果。

第三方面，本发明的一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述方法的步骤。

由上述技术方案可知，本发明的基于域适应的区域尾气迁移预测方法，克服现有方法的不足，通过利用域适应方法实现源域数据的高效利用，从而实现对缺乏数据的目标域更高精度的区域尾气预测。

本发明通过将尾气时序数据构建成图数据以捕获尾气空间相关性，对外部因素编码以捕获对外部因素尾气分布的影响，在目标域仅有少量尾气数据时，也可以通过利用源域尾气数据，实现目标域尾气的高精度预测。

附图说明

图1是本发明的方法流程图；

图2是本发明的结构原理图；

图3是本发明的实例应用图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1和图2所示，本实施例所述的基于域适应的区域尾气迁移预测方法，包括以下步骤：

S4：由于上述提取到的源域尾气浅层时空特征和目标域尾气浅层时空特征分属不同的特征空间，因此构建自动编码器，利用编码器将属于不同特征空间的源域和目标域浅层时空特征非线性映射到同一特征空间，在共同特征空间内对源域和目标域的时空特征差异进行刻画，并利用解码器将源域和目标域特征映射到各自的特征空间；

以下具体说明：

具体实施步骤如下：

上述步骤S1：获取源区域和目标区域的历史尾气数据以及外部因素数据，对所获数据进行数据预处理，具体包括如下细分步骤S11至S12：

S11：从政府官方网站分别获取源区域和目标区域的历史尾气数据以及相应的外部因素数据。

进一步地，上述步骤S2：对源域数据和目标域数据以监测点为节点，两两相连，边权重为监测点距离的倒数构建图结构数据，并根据源区域和目标区域的尾气浓度变化特性划分时间序列集合。具体包括如下细分步骤S21至S23：

S21：根据监测点地理位置信息将源区域和目标区域的数据构建成图数据X_t＝{V,E,W}，X_t表示t时刻的图数据，V,E,W分别表示图的节点，边和权重。对于图X_t，节点是尾气监测站点，任意两个节点都是连通的，图的边权重为两节点之间距离的倒数，注意：一般情况下源域图和目标域图具有不同的节点数和边权重。

S22：考虑到尾气的时间分布特性，将尾气的历史观测数据按照时间顺序以时间间隔Δt划分成历史观测序列。Δt取15分钟。根据时间序列长度l，将源区域和目标区域历史观测序列划分成

和

分别用H^s和H^t表示。

S23：对外部因素进行编码，获得外部因素的输入向量

本发明仅考虑时间信息对尾气浓度的影响，经过one-hot编码后，时间信息转换成长度为24的向量。

上述步骤S3：构建尾气时空特征提取模块，对源区域和目标区域的时间序列数据进行浅层特征提取与融合，具体包括如下细分步骤S31至S32：

S31:将源域H^s和目标域尾气时间序列H^t分别送入源域时空图卷积网络和目标域时空图卷积网络的特征提取模块进行浅层特征提取。特征提取模块由单层时空图卷积网络构成，内部结构为两层时间门控卷积层和一层空间图卷积层组的类似三明治的结构。

f^s和f^t是源域和目标域的单层时空图卷积的表示函数，

和

是源域和目标域经过提取的浅层特征。

S32:对于外部因素，利用双层全连接网络

和

和

源域和目标域全连接网络的输入维度均是24，输出维度分别是源域和目标域的空间节点数。

S33:对外部因素特征

和

浅层特征

和

进行特征融合，获取融合特征

和

⊙代表哈德玛积。

上述步骤S4：由于上述提取到的源域尾气浅层时空特征和目标域尾气浅层时空特征分属不同的特征空间，因此构建自动编码器，利用编码器将属于不同特征空间的源域和目标域浅层时空特征非线性映射到同一特征空间，在共同特征空间内对源域和目标域的时空特征差异进行刻画，并利用解码器将源域和目标域特征映射到各自的特征空间，具体包括如下细分步骤S41至S42：

源域编码器encoder^s的输入维度为源域的空间节点数，输出维度为共同特征空间的空间维大小；目标域编码器encoder^t的输入维度为目标域的空间节点数，输出维度为共同特征空间的空间维大小。编码器有三层全连接网络构成，非线性激活函数为LeakyRelu。

S42：在公共特征空间内，对源域特征

和目标域特征

的差异性进行度量，通过最小化差异性度量实现源域和目标域的特征分布大致相同，从而实现源域到目标域的知识传递。

基于边缘概率分布的差异性度量Q_m，φ表示核函数，n_s和n_t代表源域和目标域的实例数，i和j表示实例在源域和目标域的顺序。

和

分别表示源域的第i个样本的特征和目标域的第j个样本的特征。

和

表示第k类源域和目标域的实例数.a和b表示当前实例在当前类别下源域和目标域的顺序。

和

分别表示在第k个类别中源域的第a个样本的特征和目标域的第b个样本的特征。

因此本发明通过联合边缘概率分布和条件概率分布共同刻画源域和目标域的差异性。从而获得迁移损失L_trans：

S43：将特征

和

和

是由解码器重构得到的源域和目标域特征

L_e为重构损失，N为实例数。

进一步地，上述步骤S5：对解码器映射后的源域和目标域时空特征进行深度提取，并输出预测结果，具体包括如下：

S51：对于源域特征和目标域特征利用单层时空图卷积网络和时间门控卷积层进行特征提取，并利用单层全连接网络进行预测结果输出。

和

分别代表源域和目标域的单层时空图卷积网络、时间门控卷积层、单层全连接网络。X^s和X^t代表源域和目标域的最终预测输出。预测损失L_s和L_t为：

其中Y^s和Y^t分别为源域和目标域的预测真值。

因此总体损失函数为：

L＝L_t+αL_s+βL_e+γL_trans+μ||θ||²

图3是展示了利用约10周的合肥尾气数据和一周的芜湖尾气数据对芜湖尾气污染预测的结果，并对预测值和真值均进行了归一化处理。可以看出本发明的方法具有较好的拟合效果。

综上所述，本发明的一种基于域适应的区域尾气迁移预测方法可以利用具有充足尾气数据的源区域提高数据不足的目标区域的尾气预测精度。

可理解的是，本发明实施例提供的系统与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。