CN115964621A

CN115964621A - 区域路网尾气排放数据补全方法

Info

Publication number: CN115964621A
Application number: CN202310262591.9A
Authority: CN
Inventors: 康宇; 刘文清; 丁焰; 曹洋; 张玉钧; 尹航; 裴丽红
Original assignee: University of Science and Technology of China USTC; Chinese Research Academy of Environmental Sciences; Hefei Institutes of Physical Science of CAS
Current assignee: University of Science and Technology of China USTC; Chinese Research Academy of Environmental Sciences; Hefei Institutes of Physical Science of CAS
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-04-14
Anticipated expiration: 2043-03-17
Also published as: CN115964621B

Abstract

本发明公开一种区域路网尾气排放数据补全方法，包括：将路网动态尾气排放时间序列和二进制掩码输入至时空编码器进行时空编码，得到路网中尾气排放的时空编码特征序列；对路网中尾气排放的时空编码特征序列进行聚类处理，得到聚类分布结果；基于聚类分布结果，计算路网中尾气动态排放的高度时空相似性；基于高度时空相似性，将所述聚类分布结果聚成若干簇，并采用相同簇中相似的时空特征进行线性插值，获得初始化路网尾气排放数据；利用时空依赖关系，对初始化路网尾气排放数据进行插值细化，得到补全的路网尾气排放数据；本发明可实现更准确有效的路网尾气排放数据插值。

Description

区域路网尾气排放数据补全方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种区域路网尾气排放数据补全方法。

背景技术

随着城市现代化建设的不断推进，机动车的保有量正逐年增加，机动车尾气排放是城市大气污染排放的主要来源，其中，CO、NOx和PM的排放占比超过90%，HC排放占比超过80%。由此可见，移动源排放是空气污染的一个主要来源，因此对移动源大气污染物浓度进行实时监测，对于大气污染治理具有重要意义。

城市移动源排放监测数据是一种通过尾气遥感监测设备、车载尾气检测设备(Portable Emission Measurement System，PEMS)、车载自动诊断系统(On-BoardDiagnostic，OBD)、车辆检测站等多种监测技术手段获取的多源异构高维时空数据。由于现有的监测点位有限，尾气检测数据往往存在空间稀疏问题，已有的检测数据生成方法往往是基于地理统计学的空间插值方法，如样条插值和克里金法等。这些传统的基于地理空间插值模型的数据生成方法仅利用了地理临近特性，而没有考虑交通状况、道路特征、车辆种类分布、城市发展水平、城市功能分区等多种因素的影响，因此生成的监测数据与真实数据在高维空间中的分布存在较大差异。但由于路网中尾气排放是典型的多元时间序列，对于处理带有缺失值的多元时间序列，上述基于深度学习的插补方法没有充分利用表示结构化时空数据的处理框架。

相关技术中，公布号为CN113408629A的中国发明专利申请文献记载了一种基于时空卷积网络的机动车尾气遥测数据的多重补全方法及系统，该方案实现步骤为：分别构建空间路网的拓扑结构图数据和机动车尾气排放浓度时间序列数据；将空间路网的拓扑结构图数据和机动车尾气排放浓度时间序列数据输入到时空图卷积网络进行补全计算，得到最终补全的机动车尾气排放浓度时间序列数据。该方案利用了尾气排放的时空依赖性进行多重插值，仅考虑了局部相邻路段及时刻的影响，忽略了交通状况、城市功能分区等多种因素相似但空间非临近的路段以及排放属性相似但非相邻时刻的尾气排放的影响。

另外，“《基于遥感监测数据的机动车尾气排放估计算法研究》，硕士电子期刊，2019年第09期，张强”一文中设计了改进的基于半监督协同训练回归算法，对不完整或异常尾气数据进行近似补全，数据补全主要通过迭代训练2个基于分歧的KNN回归器来完成。该方案采用基于回归的插值方法，基于回归的插值方法仅适用于对单个缺失数据进行补全，不适用于对同时具有时间依赖性和空间依赖性的多元时序数据进行补全。

发明内容

本发明所要解决的技术问题在于如何有效构建完整的区域路网中尾气监测数据。

本发明通过以下技术手段实现解决上述技术问题的：

本发明提出了一种区域路网尾气排放数据补全方法，所述方法包括：

将路网动态尾气排放时间序列和二进制掩码输入至时空编码器进行时空编码，得到路网中尾气排放的时空编码特征序列；

对所述路网中尾气排放的时空编码特征序列进行聚类处理，得到聚类分布结果；

基于所述聚类分布结果，计算路网中尾气动态排放的高度时空相似性；

基于所述高度时空相似性，将所述聚类分布结果聚成若干簇，并采用相同簇中相似的时空特征进行线性插值，获得初始化路网尾气排放数据；

利用时空依赖关系，利用空间解码器对所述初始化路网尾气排放数据进行插值细化，得到补全的路网尾气排放数据。

进一步地，在所述将路网动态尾气排放时间序列和二进制掩码输入至时空编码器进行时空编码，得到路网中尾气排放的时空编码特征序列之前，所述方法还包括：

以路网中各路段为节点，以路段连通性为边，在每个时间步长上构造带有 N _t个节点的路段连通图，并将路网中的动态尾气排放量建模为每个时间步上的图序列=（，），是节点属性矩阵，第行包含与第个节点相关的维节点属性向量，表示路段中监测的尾气排放污染物数目，表示路段总数，表示连通图的邻接权重矩阵；

对每个时间步长上图序列，定义对应的二进制掩码，每一行表示对应的节点属性在矩阵中是否可用。

进一步地，所述将路网动态尾气排放时间序列和二进制掩码输入至时空编码器进行时空编码，得到路网中尾气排放的时空编码特征序列，包括：

采用基于消息传递门控循环单元的时空编码器按照时间顺序对所述路网动态尾气排放时间序列和所述二进制掩码进行时空编码，其中，在节点级，所述消息传递门控循环单元的元素表示为：

式中：、分别是复位门和更新门，是第个节点在时间步处的隐藏表示，是第个节点在时间步处的隐藏表示，为所述二进制掩码的第行，表示连通图的邻接权重矩阵，是空间解码器在前一个时间步处的输出，符号和||分别表示Hadamard积和拼接算子，表示包含当前节点信息的候选隐藏表示，表示Sigmoid激活函数，tanh()表示激活函数，MPNN（）表示前向传递；

在所述路网动态尾气排放时间序列和所述二进制掩码进行时空编码按照顺序全部编码完成后，得到路网动态尾气排放时空编码序列。

进一步地，所述对所述路网中尾气排放的时空编码特征序列进行聚类处理，得到聚类分布结果，包括：

对所述路网中尾气排放的时空编码特征序列进行K-means聚类初始化，得到初始化聚类中心；

基于所述初始化聚类中心，利用学生分布测量时空相似度，公式表示为：

式中：表示第个路段排放的时空特征和第簇的聚类中心之间的时空相似度，表示路网动态尾气排放的时空编码特征序列的第行元素，表示学生分布的自由度，表示第个初始化聚类中心，表示包括第簇在内的所有簇的聚类中心，表示第簇；

基于所述时空相似度，得到所述聚类分布结果。

进一步地，所述基于所述聚类分布结果，计算路网中尾气动态排放的高度时空相似性，包括：

通过目标分布优化所述聚类分布结果，获得路网中动态尾气排放的高度时空相似性，公式表示为：

式中：表示第个路段排放的时空特征和第簇的聚类中心之间的高度时空相似性，表示第个路段排放的时空特征和第簇聚类中心的时空相似度，表示第个路段排放的时空特征和第 j 簇的聚类中心之间的时空相似性。

进一步地，所述利用时空依赖关系，对所述初始化路网尾气排放数据进行插值细化，得到补全的路网尾气排放数据，包括：

利用空间解码器分别按照向前处理序列和向后处理序列，对所述初始化路网尾气排放数据进行插值细化，得到第一插值结果和第二插值结果；

利用解码多层感知器对所述第一插值结果和所述第二插值结果进行聚合处理，得到所述补全的路网尾气排放数据。

进一步地，所述利用空间解码器分别按照向前处理序列和向后处理序列，对所述初始化路网尾气排放数据进行插值细化，得到第一插值结果和第二插值结果，包括：

分别按照向前处理序列和向后处理序列，线性读出第个节点在上一时间步处的隐藏表示，生成上一时间步的路网动态尾气预测值，应用填充算子将上一时间步的路网动态尾气预测值代替当前节点属性矩阵中缺失的尾气排放数据，得到第一阶段的插值；

将得到的前节点属性矩阵连接到掩码和上一时间步处的隐藏表示，计算每个路段的一个插值；

将由每个路段的一个插值构成的插值表示与上一时间步处的隐藏表示连接起来，并线性读出并应用填充算子生成第二阶段的插值，得到所述第一插值结果和所述第二插值结果。

进一步地，所述利用解码多层感知器对所述第一插值结果和所述第二插值结果进行聚合处理，得到所述补全的路网尾气排放数据，包括：

利用所述解码多层感知器对所述第一插值结果和所述第二插值结果进行聚合处理，得到聚合处理结果，公式表示为：

式中： MLP（）表示聚合处理，||表示拼接算子，表示前向过程中第个节点在时间步处的插值表示，表示前向过程第个节点在-1时刻的隐藏表示，表示后向过程中第个节点在时间步处的插值表示，表示后向过程中第个节点在时间步+1处的隐藏表示；

基于各时间步对应的聚合处理结果，得到所述补全的路网尾气排放数据，公式表示为：

式中：表示经过填充操作符运算后得到的长度为的尾气排放补全时间序列，表示填充运算符，表示时间段内经过插值处理后的尾气排放预测时间序列。

进一步地，在所述将路网动态尾气排放时间序列和二进制掩码输入至时空编码器进行时空编码之前，所述方法还包括：

对所述时空编码器进行预训练，训练时的目标函数表示为：

式中：表示目标函数， KL（）表示散度损失， Q表示聚类分布结果，||表示拼接算子。

对所述空间解码器进行预先训练，训练时的重构误差表示为：

式中：是的重构值，为未知的真实实况节点属性矩阵的第行，和分别是掩码序列和的补集，表示长度为的掩码序列的第行，表示路段总数，是一个基于元素的误差函数，表示标准点积，表示重构误差；是的重构值，为长度为的未知的真实实况节点属性矩阵序列。

本发明的优点在于：

（1）本发明通过描述区域道路网络的内在连通性和它们之间的功能依赖性来引入缺失数据，通过结合来自时间和空间两个维度的信息来重建路网动态尾气排放中缺失的值，采用时空聚类任务与时空插值多元任务相互辅助，时空聚类任务通过度量城市中尾气排放的时空相似度，获取交通状况、城市功能分区等多种因素相似的路段排放集合，在相似影响因素的集合内进行时空插值，充分考虑了路网中时空排放规律的影响，此时利用的时空相似特征是全局的，而非局部的，可以带来更准确的时空相似性度量，实现更准确有效的路网尾气排放数据插值，使得路网尾气排放监测数据更加接近真实数据在高维空间中的分布，如此实现对移动源大气污染物浓度进行实时监测，对大气污染治理具有重要意义。

（2）本发明充分考虑交通状况、道路特征、城市功能分区等多种因素的影响，有效构建完整的城市路网中尾气监测数据。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明一实施例提出的区域路网尾气排放数据补全方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明第一实施例提出了一种区域路网尾气排放数据补全方法，所述方法包括以下步骤：

S10、将路网动态尾气排放时间序列和二进制掩码输入至时空编码器进行时空编码，得到路网中尾气排放的时空编码特征序列；

需要说明的是，本实施例中的路网动态尾气排放时间序列为根据路段的连通性，将路网中的动态尾气排放量建模为每个时间步上的图序列；二进制掩码为针对每个时间步上的序列所定义，用于标记缺失补全目标。

S20、对所述路网中尾气排放的时空编码特征序列进行聚类处理，得到聚类分布结果；

S30、基于所述聚类分布结果，计算路网中尾气动态排放的高度时空相似性；

S40、基于所述高度时空相似性，将所述聚类分布结果聚成若干簇，并采用相同簇中相似的时空特征进行线性插值，获得初始化路网尾气排放数据；

S50、利用时空依赖关系，对所述初始化路网尾气排放数据进行插值细化，得到补全的路网尾气排放数据。

本实施例通过描述区域道路网络的内在连通性和它们之间的功能依赖性来引入缺失数据，通过结合来自时间和空间两个维度的信息来重建路网动态尾气排放中缺失的值，其中插值任务与聚类任务是互相服务的，可以带来更准确的时空相似性度量，实现更准确有效的路网尾气排放数据插值，使得路网尾气排放监测数据更加接近真实数据在高维空间中的分布，实现了对移动源大气污染物浓度进行实时监测，对大气污染治理具有重要意义。

在一实施例中，在所述步骤S10：将路网动态尾气排放时间序列和二进制掩码输入至时空编码器进行时空编码，得到路网中尾气排放的时空编码特征序列之前，所述方法还包括以下步骤：

以路网中各路段为节点，以路段连通性为边，在每个时间步长上构造带有个节点的路段连通图，并将路网中的动态尾气排放量建模为每个时间步上的图序列=（，），是节点属性矩阵，第行包含与第个节点相关的维节点属性向量，表示路段中监测的尾气排放污染物数目，表示路段总数，表示连通图 G _t的邻接权重矩阵；

对每个时间步上图序列，定义对应的二进制掩码，每一行表示对应的节点属性在矩阵中是否可用。

需要说明的是，本实施例中的维表示尾气污染物数目，例如二氧化硫、氮氧化合物、一氧化碳、二氧化碳等。

应当理解的是，数据源有几种具体污染物可根据实际确定，本实施例不作具体限定。

需要说明的是，由于交通状况、道路特征、车辆种类分布、城市发展水平、城市功能分区等多种因素是抽象的，无法获取具体数据的，本实施例通过时空聚类获取相似影响的路段排放集合，也即相似时空排放规律集合，时空排放是受交通状况等等因素的综合影响，外在表现为尾气排放的时序属性及空间属性。

需要说明的是，本实施例对路网中尾气监测数据设置二进制掩码标记缺失补全目标，对于路网中某个时间段内尾气监测数据的缺失，在每一步定义一个二进制掩码，如表示是缺失的，表示存储着尾气监测传感器的读数。

在一实施例中，所述步骤S10：将路网动态尾气排放时间序列和二进制掩码输入至时空编码器进行时空编码，得到路网中尾气排放的时空编码特征序列，具体包括以下步骤：

S11、采用基于消息传递门控循环单元的时空编码器按照时间顺序对所述路网动态尾气排放时间序列和所述二进制掩码进行时空编码，其中，在节点级，所述消息传递门控循环单元(Message-Passing GRU，MPGRU)的元素表示为：

式中：、分别是复位门和更新门，是第个节点在时间步处的隐藏表示，是第个节点在时间步处的隐藏表示，为所述二进制掩码的第行，表示对应的节点属性在节点属性矩阵中是否可用，表示连通图 G _t的邻接权重矩阵，是空间解码器在前一个时间步处的输出，符号和||分别表示Hadamard积和拼接算子，表示包含当前节点信息的候选隐藏表示，表示Sigmoid激活函数，MPNN（）表示前向传递，tanh()表示激活函数，；

S12、在所述路网动态尾气排放时间序列和所述二进制掩码进行时空编码按照顺序全部编码完成后，得到路网动态尾气排放时空编码序列。

需要说明的是，时空编码器在编码过程中，输入路网尾气排放序列和掩码通过一个由消息传递层实现门的递归神经网络，一次一步地顺序处理，原则上可以使用任何消息传递操作符。

特别地，给定，即消息传递神经网络第层的节点特征向量，将一般的MPNNs（消息传递神经网络，Message-Passing Neural Networks）类描述为：

式中：是图 G _t中第个节点的邻居集合，和是泛型的、可微的、更新和消息函数(如MLPs)，是置换不变的、可微的聚合函数(如和或平均值)，是第 k层的第 i个节点特征向量，第 k-1层中第个节点的特征向量。

为简单起见用表示一般层消息传递神经网络的前向传递。为了提取路网动态尾气排放时间序列的时空特征，使用MPNNs作为时空编码器的构建块，利用门控循环单元（GRUs，Gated Recurrent Unit）了解系统的动态，并通过依赖上述定义的消息传递层来实现GRU门。

需要说明的是，初始表示既可以初始化为常量，也可以使用可学习的嵌入。注意，对于缺少输入数据的步骤，时空编码器将使用来自空间解码器的预测。通过执行上述计算时间和节点得到路网动态尾气排放时空编码序列。

本实施例中采用图卷积和GRU结合的时空编码器编码路网动态尾气排放时间序列，将城市路网的交通内在连通性构建为图结构，每一时刻的尾气排放与相邻时刻相关，采用双向网络进行时空编码，可充分提取路网中尾气排放的时空依赖性。

在一实施例中，所述步骤S20：对所述路网中尾气排放的时空编码特征序列进行聚类处理，得到聚类分布结果，具体包括以下细分步骤：

S21、对所述路网中尾气排放的时空编码特征序列进行K-means聚类初始化，得到初始化聚类中心；

S22、基于所述初始化聚类中心，利用学生分布测量时空相似度，公式表示为：

式中：表示第个路段排放的时空特征和第簇的聚类中心之间的时空相似度，表示路网动态尾气排放时空编码 H的第行元素，表示学生分布的自由度，表示用K-means在预训练后的时空特征表示上进行初始化的第个聚类中心，表示包括第簇在内的所有簇的聚类中心，表示第簇；

S23、基于所述时空相似度，得到所述聚类分布结果。

需要说明的是，先聚类初始化聚类中心，初始化对算法效率及效果影响较大，对时空特征进行Kmeans聚类获得初始化聚类中心，而不采用随机数初始化聚类中心，在后续度量路段排放与聚类中心距离进行聚类，再优化聚类中心，不断迭代的聚类任务中，可大大提升聚类效率，最后再利用学生分布进行相似度测量可提高结果的精确度和运算效率。

在一实施例中，所述步骤S30：基于所述聚类分布结果，计算路网中尾气动态排放的高度时空相似性，具体为：

通过目标分布 P优化所述聚类分布结果，获得路网中动态尾气排放的高度时空相似性，公式表示为：

式中：表示第个路段排放的时空特征和第簇的聚类中心之间的高度时空相似性，表示第个路段排放的时空特征和第簇的聚类中心之间的时空相似度，表示第个路段排放的时空特征和第 j 簇的聚类中心之间的时空相似性。

设定一个高聚类纯度的目标分布 P来优化路网尾气排放表示，通过目标分布 P来获得路网中尾气动态排放的高度时空相似性，由于目标分布 P是具有高置信度的delta分布，通过将一个平缓的分布向尖锐的分布优化，可以获取更高的聚类纯度。

进一步地，时空相似性是通过时空聚类任务度量，同簇即可表示具有高度时空相似性，将路网中动态尾气排放根据排放的高度时空相似性，聚成若干簇，并采用相同簇中相似的时空特征进行线性插值，由于路网尾气排放受多种因素影响，但是这些影响因素是无法捕获相应数据的，路网尾气排放外在表现为时间和空间两种数据属性。通过时间和空间编码获取尾气排放的动态的时空依赖性，充分考虑城市功能分区、道路特征等的影响，获得完整的初始化路网排放，结合时间和空间两个维度的信息来重建路网动态尾气排放缺失的值，得到完整的初始化路网尾气排放数据，但此时的结果准确性较低，故通过空间解码器进一步优化时空插值，得到更准确的路网尾气插值。

在一实施例中，所述步骤S50：利用时空依赖关系，对所述初始化路网尾气排放数据进行插值细化，得到补全的路网尾气排放数据，具体包括以下步骤：

S51、利用空间解码器分别按照向前处理序列和向后处理序列，对所述初始化路网尾气排放数据进行插值细化，得到第一插值结果和第二插值结果；

S52、利用解码多层感知器对所述第一插值结果和所述第二插值结果进行聚合处理，得到所述补全的路网尾气排放数据。

需要说明的是，空间解码器是利用学习到的表示来执行两轮连续插值，利用线性读数从表示中获得第一级路网尾气插值，第二阶段利用时间步处可用的关系和空间信息进行路网尾气插值细化，优化第一阶段的插值来学习推断第个路段上的观测值。

在一实施例中，所述步骤S51：利用空间解码器分别按照向前处理序列和向后处理序列，对所述初始化路网尾气排放数据进行插值细化，得到第一插值结果和第二插值结果，具体包括以下步骤：

S511、分别按照向前处理序列和向后处理序列，线性读出第个节点在上一时间步处的隐藏表示，生成上一时间步的路网动态尾气预测值，应用填充算子将上一时间步的路网动态尾气预测值代替当前节点属性矩阵中缺失的尾气排放数据，得到第一阶段的插值；

S512、将得到的前节点属性矩阵连接到掩码和上一时间步处的隐藏表示，计算每个路段的一个插值；

S513、将由每个路段的一个插值构成的插值表示与上一时间步处的隐藏表示连接起来，并线性读出并应用填充算子生成第二阶段的插值，得到所述第一插值结果和所述第二插值结果。

需要说明的是，本实施例采用空间解码器对路网动态尾气排放进行时间上的向前和向后递进处理。然后，前馈网络将前向模型和后向模型学习到的表示形式作为输入，对路网的每个路段和路网尾气排放序列的每一步进行最后的细化插值，最终的插值依赖于两个图递归插值网络模块的输出，它们的学习表示由最后解码多层感知器(Multi-LayerPerceptron,MLP)处理。

具体地，以向前处理序列为例，说明两阶段的插值细化处理过程为：

（1）线性读出第个节点在上一时间步处的隐藏表示，生成上一时间步的路网动态尾气预测值，应用填充算子将上一时间步的路网动态尾气预测值代替节点属性矩阵中缺失的尾气排放数据，得到第一阶段的插值；

具体地，生成上一时间步的路网动态尾气预测值为：

式中：是可学习的权重矩阵，是可学习的偏置向量，是上一时间步的路网动态尾气预测值。

定义填充算子为：

式中：符号表示Hadamard积，表示填充运算符，是的补集，是输入序列中缺失序列的预测值。

填充运算符用中相同位置的值代替中缺失的尾气排放数据，通过将输入到填充算子，得到第一阶段的插值，这样输出为，缺失的值被前一步的预测所取代。

（2）将得到的节点级路网动态尾气预测连接到掩码和隐藏表示，计算每个路段的一个插值，公式表示为：

式中：是第个节点在时间步处的隐藏表示，表示图 G _t中第个节点的邻居集合中去除第个节点，表示第个节点在第一阶段插值中的预测值，表示第个节点在时间步-1处的隐藏表示，为所述二进制掩码的第行，||表示拼接算子，表示通用的、可微的、更新和消息函数，是单层的MPNN，表示独立于第个节点本身的输入特征。

需要说明的是，插值表示只依赖于从相邻节点接收到的消息和上一步的表示，通过只聚合来自邻域的消息，的表示独立于第个节点本身的输入特征。这种约束迫使模型学习如何通过考虑空间依赖性来重构目标输入，这具有一种正则化效果，因为模型被约束为关注局部信息。

（3）将由所述差值构成的插值表示与隐藏表示连接起来，并线性读出并应用填充算子生成第二阶段的插值。

具体地，第二阶段的插值的公式表示为：

式中：作为MPGRU的输入来更新隐藏的表示法，是可学习的权重矩阵，是可学习的偏置向量，是上一时间步的第二阶段路网动态尾气预测值。

在处理完上一输入图后，继续处理下一个输入图，直至图序列中的所有图处理完成后，得到第一插值结果。

具体地，向后处理序列和向前处理过程相似，利用下一个时间步的隐藏表示进行推理，将相关公式中的替换为，此处仅与向前过程方向不同，过程完全相同，该处不再赘述。

在一实施例中，所述步骤S52：利用解码多层感知器对所述第一插值结果和所述第二插值结果进行聚合处理，得到所述补全的路网尾气排放数据，具体包括以下步骤：

S521、利用所述解码多层感知器对所述第一插值结果和所述第二插值结果进行聚合处理，得到聚合处理结果，公式表示为：

式中：MLP（）表示聚合处理，||表示拼接算子，表示前向过程中第个节点在时间步处的插值表示，表示前向过程第个节点在时刻的隐藏表示，表示后向过程中第个节点在时间步处的插值表示，表示后向过程中第个节点在时间步+1处的隐藏表示；

S522、基于各时间步对应的聚合处理结果，得到所述补全的路网尾气排放数据，公式表示为：

式中：表示经过填充操作符运算后得到的尾气排放补全时间序列，表示填充运算符，用中相同位置的值代替中的缺失值，表示时间段内经过插值处理后的尾气排放预测时间序列。

需要说明的是，本实施例基于路网尾气排放时空相似度度量的插值任务，充分利用路网尾气排放序列的时空相似性进行插值，插值任务与聚类任务相互服务，充分利用路网尾气排放序列的时空信息，获得高精度的路网尾气插值。

进一步地，本实施例中对路网动态尾气排放时间序列进行处理，得到补全的路网尾气排放数据的这一过程可以采用新型的图递归插值网络实现，该图递归插值网络是一种基于图的多元时序递归神经网络架构，该图递归插值网络包括空间编码器、空间解码器和解码多层感知器MLP，其中空间编码器的输入为路网动态尾气排放时间序列和二进制掩码序列，输出端与空间解码器连接，空间解码器的输出连接解码多层感知器。

其中，给定一个路网动态尾气排放时间序列和二进制掩码序列，通过空间编码器结合时间和空间两个维度的信息来重建路网动态尾气排放缺失的值。通过空间解码器（是一种双向图递归神经网络）对每个方向进行两阶段的插值，对路网动态尾气排放输入序列进行时间上向前和向后递进处理。并将前向模型和后向模型学习到的表示形式作为输入，对序列图的每个节点和序列的每一步进行最后的细化插值。最终的插值依赖于前向图递归插值网络和后向图递归插值网络两个模块的输出，它们的学习表示由解码多层感知器处理。

采用基于双向图递归插值网络，同时编码时空特征，捕获路网排放的时空依赖性，并引入时空聚类任务，获取相似的路网排放的时空规律，利用全局的时空相似特征进行时空插值。

通过两个图递归插值网络模块迭代地对路网动态尾气排放缺失值进行插值，在每个时间步使用之前插值的值作为输入，本实施例通过描述城市道路网络的内在连通性和它们之间的功能依赖性来引入缺失数据，充分考虑交通状况、道路特征、城市功能分区等多种因素的影响，有效构建完整的城市路网中尾气监测数据。

在一实施例中，在所述步骤S10之前，所述方法还包括以下步骤：

对所述时空编码器进行预训练，训练时采用分布和分布的散度损失的目标函数表示为：

式中：表示散度损失。

式中：是的重构值，为未知的真实实况节点属性矩阵的第行，和分别是掩码序列和的补集，表示长度为的掩码序列的第 i行，表示路段总数，是一个基于元素的误差函数，表示标准点积，表示重构误差；是的重构值，为长度为的未知的真实实况节点属性矩阵序列。

本实施例通过构造图递归插值网络模块，路网动态尾气排放模型可以利用所有可用的相关时空信息，同时它不仅是作为一个自动时空编码器重建输入，而且它是基于插值偏差专门为插值任务量身定制的方法，通过使两个方向上所有插值阶段重构误差最小化来训练模型。

进一步地，结合上述时空特征聚类过程中定义的目标函数和插值细化过程定义的重构误差，可得出利用图递归插值网络进行多元时序插值过程中的损失函数为：

需要说明的是，插值任务为路网排放的时空相似性度量提供监督约束，时空相似性度量为插值任务提供正则化项，插值任务与聚类任务是互相服务的，可以带来更准确的时空相似性度量，实现更准确的路网尾气插值。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种区域路网尾气排放数据补全方法，其特征在于，所述方法包括：

2.如权利要求1所述的区域路网尾气排放数据补全方法，其特征在于，在所述将路网动态尾气排放时间序列和二进制掩码输入至时空编码器进行时空编码，得到路网中尾气排放的时空编码特征序列之前，所述方法还包括：

以路网中各路段为节点，以路段连通性为边，在每个时间步上构造带有个节点的路段连通图，并将路网中的动态尾气排放量建模为每个时间步上的图序列，是节点属性矩阵，其第行包含与第个节点相关的维节点属性向量，表示连通图的邻接权重矩阵；

对每个时间步上图序列，定义对应的二进制掩码，每一行表示对应的节点属性在矩阵中是否可用，表示路段中监测的尾气排放污染物数目，表示路段总数。

3.如权利要求1所述的区域路网尾气排放数据补全方法，其特征在于，所述将路网动态尾气排放时间序列和二进制掩码输入至时空编码器进行时空编码，得到路网中尾气排放的时空编码特征序列，包括：

4.如权利要求1所述的区域路网尾气排放数据补全方法，其特征在于，所述对所述路网中尾气排放的时空编码特征序列进行聚类处理，得到聚类分布结果，包括：

基于所述时空相似度，得到所述聚类分布结果。

5.如权利要求1所述的区域路网尾气排放数据补全方法，其特征在于，所述基于所述聚类分布结果，计算路网中尾气动态排放的高度时空相似性，包括：

通过目标分布P优化所述聚类分布结果，获得路网中动态尾气排放的高度时空相似性，公式表示为：

式中：表示第个路段排放的时空特征和第簇的聚类中心之间的高度时空相似性，表示第个路段排放的时空特征和第簇的聚类中心之间的时空相似度，表示第个路段排放的时空特征和第j 簇的聚类中心之间的时空相似性。

6.如权利要求1所述的区域路网尾气排放数据补全方法，其特征在于，所述利用时空依赖关系，利用空间解码器对所述初始化路网尾气排放数据进行插值细化，得到补全的路网尾气排放数据，包括：

7.如权利要求6所述的区域路网尾气排放数据补全方法，其特征在于，所述利用空间解码器分别按照向前处理序列和向后处理序列，对所述初始化路网尾气排放数据进行插值细化，得到第一插值结果和第二插值结果，包括：

8.如权利要求6所述的区域路网尾气排放数据补全方法，其特征在于，所述利用解码多层感知器对所述第一插值结果和所述第二插值结果进行聚合处理，得到所述补全的路网尾气排放数据，包括：

式中：MLP（）表示聚合处理，||表示拼接算子，表示前向过程中第个节点在时间步t处的插值表示，表示前向过程第个节点在-1时刻的隐藏表示，表示后向过程中第个节点在时间步处的插值表示，表示后向过程中第个节点在时间步+1处的隐藏表示；

9.如权利要求5所述的区域路网尾气排放数据补全方法，其特征在于，在所述将路网动态尾气排放时间序列和二进制掩码输入至时空编码器进行时空编码之前，所述方法还包括：

对所述时空编码器进行预训练，训练时的目标函数表示为：

式中：表示目标函数，表示散度损失，表示聚类分布结果，||表示拼接算子。

10.如权利要求1所述的区域路网尾气排放数据补全方法，其特征在于，在所述将路网动态尾气排放时间序列和二进制掩码输入至时空编码器进行时空编码之前，所述方法还包括：