CN113033619A

CN113033619A - 一种基于dvgae-gan的交通路网数据修复方法

Info

Publication number: CN113033619A
Application number: CN202110238868.5A
Authority: CN
Inventors: 徐东伟; 彭航; 魏臣臣; 商学天; 周磊; 戴宏伟
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-06-25

Abstract

一种基于DVGAE‑GAN的交通路网数据修复方法，根据道路检测器分布构建路网邻接矩阵，获取交通路网数据，利用图变分自编码器(VGAE)提取实际获得的具有缺失路网数据的潜在时空特征，其中图变分自编码器采用降噪自编码器(DAE)架构，即对路网缺失数据进行编码操作，并解码生成原始路网数据。最后将降噪图变分自编码器提取的路网潜在时空特征经过生成对抗网络的对抗训练生成原始路网数据，其中GAN的生成器结构LSTM，因此GAN可以更好的根据时空特征生成完整的原始交通流数据，从而实现道路交通状态数据的修复。本发明有效提高交通路网状态数据修复的精度。

Description

一种基于DVGAE-GAN的交通路网数据修复方法

技术领域

本发明属于智能交通领域，涉及一种基于DVGAE-GAN的交通路网数据修复方法。

背景技术

随着智能交通系统的出现，道路交通流数据在实时监测、预测和控制中的作用越来越重要。但在实际情况中，数据采集设备往往会遇到各种不可预测的中断造成交通流数据缺失问题。缺失值问题不仅降低了数据提供的质量，而且还威胁到参与者可能因信息不完整而做出错误决策，另外道路交通状态检测器布置与维护也需要高昂的成本。

现阶段的道路交通预测方法主要有：历史平均法，K近邻法，降噪自编码器算法，生成对抗网络插补算法等。

发明内容

为了克服已有技术的不足，本发明提出一种基于DVGAE-GAN的交通路网数据修复方法，可以深度挖掘交通路网状态检测器之间的时空特征，长短期记忆神经网络(LSTM)作为生成对抗网络(GAN)的生成器，将提取的潜在时空特征还原成原始交通路网数据，有效提高交通路网状态修复的精度。

本发明解决其技术问题所采用的技术方案是：

一种基于DVGAE-GAN的交通路网数据修复方法，包括以下步骤：

步骤1：获取交通路网状态数据以及路网邻接矩阵

构建0-1矩阵模拟现实中路网观测数据的缺失情况和缺失位置，以此得到实际存在缺失的交通路网数据，与完整情况下交通路网数据和邻接矩阵；

步骤2：采用降噪图变分自编码器(DVGAE)提取路网状态数据与邻接矩阵的潜在时空特征

编码器部分输入实际交通路网数据和邻接矩阵，提取潜在表示，经解码器输出完整的原始路网数据和邻接矩阵，降噪自编码器框架对于潜在时空特征更能反映原始路网数据，实现路网潜在时空特征的提取；

步骤3：分别构建生成器与判别器的内部结构，并构建生成对抗网络进行对抗训练，实现路网状态数据修复

生成器用LSTM层，判别器由全连接层组成，构建起生成对抗网络模型，并将从DVGAE中提取的潜在时空特征作为生成器的输入，生成器的输出即为修复后的路网数据，这里将得到的修复路网数据与原始路网数据进行重新组合，并引入重构误差，分别定义生成器与判别器的损失函数，希望生成对抗网络能针对缺失位置处数据重点训练，达到生成器与判别器相互博弈对抗，实现交通路网状态数据修复；

步骤4：将交通路网状态数据划分为训练集与测试集

将训练集输入DVGAE训练，通过模型优化器不断优化参数，能复现出原始交通数据和路网邻接矩阵，将训练好的参数输入测试集，提取出相应潜在时空特征；将训练集潜在时空特征输入到生成对抗网络中相互对抗，直至模型收敛以此达到修复的效果；然后采用测试集的潜在时空特征作为生成器输入，得到修复后交通状态数据。

进一步，所述步骤1中，构建交通路网采用图的形式表示为：G＝(V,A),其中V＝{v₁,v₂,v₃,...,v_N}，N为路网中检测器的总数目，A表示路网中检测器节点之间的联系，构建路网的邻接矩阵

节点v_i与节点v_r的连边关系表示为：

如上式X(t)为第t时刻检测器测得的T维历史交通数据矩阵，记作原始交通路网状态数据矩阵，x_i(t-jΔt)(j＝0,1,…,T-1)表示第i条路段检测器下第(t-jΔt)时刻的交通数据，

其中N为路段检测器的数目，T为某一检测器记录的交通数据时间特征维度；同时创建0-1矩阵

用于模拟现实中路网观测数据的缺失情况和缺失位置，0-1矩阵为二值矩阵，其中m_i(t-jΔt)记录第i个检测器的第(t-jΔt)个特征元素的值是否缺失，表示如下：

由此实际获得的交通路网数据为

以及邻接矩阵为A。*表示矩阵对应元素相乘。

再进一步，所述步骤2中，降噪图变分自编码器的编码器部分由图卷积神经网络(GCN)构成，根据不同路网节点与节点之间边的联系来实现空间特征聚合，计算公式为：

上式由图卷积网络组成，其中

是路网邻接矩阵，D是根据邻接矩阵得到的度矩阵，Relu激活函数为f(x)＝max(0,x)，W_enc0是GCN第一层学习训练权重参数矩阵，H_enc(t)是第一层隐藏层，W_enc1,W_enc2共同为GCN第二层学习训练权重参数矩阵，分别生成均值μ(t)和方差σ(t)；

由GCN学习到每个节点低维表示的均值μ_i(t)和方差σ_i(t)，从该分布中随机采样，这里Z(t)的采样用了重参数化方法，这样潜在表示清晰可见而且梯度信息也能求出，计算公式为：

Z_i(t)＝μ_i(t)+ε⊙σ_i(t)

其中diag(·)表示对角协方差矩阵，

表示每个检测器节点通过GCN形成的采样分布，由于采样操作无法计算梯度信息，这里用重参数化方法采样一个ε～N(0,I)代替计算,⊙表示矩阵点乘，Z_i(t)表示第i个检测器节点的特征，

为提取的路网潜在时空特征；

解码器部分用来重建路网结构和路网数据，不但重建路网结构

还利用降噪自编码器重建原始路网数据

计算如下：

其中W_dec1,W_dec2和b_dec1,b_dec2分别为解码器两层全连接层的训练权重参数和偏置项，sigmoid是

的激活函数；

训练损失函数计算如下：

L＝α·L₁+L₂

其中L₁是重构图

和原始图A之间的距离度量，采用加权交叉熵函数，w_pos和w_neg分别代表了原始邻接矩阵数据取1或0时候的对应权重，对于处理稀疏的邻接矩阵效果好，L₂是生成数据

与真实数据X(t)的平方误差损失。L则为总损失函数，α表示L1损失函数前置系数。

所述步骤3中，生成器由LSTM组成，生成器输入DVGAE提取的潜在时空特征

E表示降维后的特征维度，Z_e(t)(e＝1,2...,E)表示所有路段检测器第e个LSTM单元的特征，传统的LSTM处理时间序列数据提取特征，这里LSTM相当于解码器将潜在时空特征恢复成原始具有时间序列的交通路网数据，计算公式如下：

其中LSTM层组成有保持隐藏信息的存储单元

以及三个门单元分别为f_e遗忘门，i_e输入门，o_e输出门，Z_e为第e个LSTM单元时所有检测器的交通数据特征，H_e-1为前一单元输出，C_e-1为前一单元状态。C_e是第e单元输出状态，

是第e个LSTM单元层输出；·表示矩阵点乘，⊙表示矩阵乘法运算符，W_f,W_i,W_o,W_c分别是隐藏层输入映射到三个门单元f_e、i_e、o_e和存储单元

的权重矩阵，U_f,U_i,U_o,U_c是上一单元时刻输出连接到三个门单元f_e、i_e、o_e和存储单元

的权重矩阵，b_f,b_i,b_o,b_c是对应偏差向量。

是一个sigmoid激活函数，tanh(.)是双曲正切函数。最后输出

通过一层全连接层扩展为原来的时间维度，

和b_rec是对应权重参数和偏置项；

然后生成器生成的修复交通状态矩阵

与原始交通状态矩阵X(t)重组,重组矩阵Y(t)定义如下：

Y(t)＝X(t)*M(t)+X′(t)*(1-M(t))

其中*表示矩阵对应元素相乘,M(t)为0-1矩阵,M(t)中的值{0，1}，X(t)为原始交通数据，X′(t)为通过生成器生成的修复后交通数据，这里M(t)矩阵对应点相乘1的位置表示该位置检测器数据不缺失，0的位置表示这部分数据缺失。修复后的交通数据矩阵X′(t)提取缺失处数据与原始数据矩阵X(t)未缺失处的数据重组后形成矩阵Y(t)；

生成对抗网络的判别器由多层全连接层组成,计算公式如下：

h_d+1＝W_d·h_d+b_d(d≥1)

其中h₁为输入，当判别器输入原始交通数据时h₁＝X(t)；当判别器输入为合成重组的交通数据时h₁＝Y(t)。W_d和b_d为对应第d层的权重参数和偏置项；

分别定义生成对抗网络中生成器与判别器损失函数，判别器训练目标为区分出输入判别器的数据属于真实数据或者生成数据，而生成器训练目标为让判别器将生成器生成数据判别成真实数据，损失函数定义下：

L_G＝-D[X(t)*M(t)+X′(t)*(1-M(t))]+β·L_cons

L_D＝D[X(t)*M(t)+X′(t)*(1-M(t))]-D[X(t)]

其中L_G为生成器损失函数，L_D为判别器损失函数，L_cons为重建损失，β为重建损失系数，不仅加速生成器的收敛，还可以着重修复缺失位置处的交通数据，p为损失位置的数目总数，即0-1矩阵M中0的个数。

所述步骤4中，将交通路网状态数据划分为训练集与测试集，比例取a，将训练集输入降噪图变分自编码器训练，通过模型优化器不断优化参数，能复现出原始交通数据和路网邻接矩阵，使测试集按照此训练参数输入，能提取出相对应的时空特征；

将提取的潜在时空特征输入到生成对抗网络中，先将训练集提取的特征标准化后进入生成器与原始交通数据相互对抗，直至模型收敛以此达到修复的效果。然后采用测试集的潜在时空特征作为生成器输入，得到修复后的完整交通状态数据，并根据相关指标针对模型修复值与模型真实值之间的误差进行评估，其中采用平均绝对误差(MAE)，均方根误差(RMSE)，平均绝对百分比误差(MAPE)相关指标对模型进行性能评估，计算公式如下：

其中K表示缺失数据的个数，x′^k、x^k分别代表第k个修复后的交通状态数据和真实数据。

本发明根据道路检测器分布构建路网邻接矩阵，获取交通路网数据，利用图变分自编码器(VGAE)提取实际获得的具有缺失路网数据的潜在时空特征，其中图变分自编码器采用降噪自编码器(DAE)架构，即对路网缺失数据进行编码操作，并解码生成原始路网数据。最后将降噪图变分自编码器提取的路网潜在时空特征经过生成对抗网络的对抗训练生成原始路网数据，其中GAN的生成器结构LSTM，因此GAN可以更好的根据时空特征生成完整的原始交通流数据，从而实现道路交通状态数据的修复。

本发明的有益效果主要表现在：

(1)在交通路网状态数据基础上，获取路网邻接矩阵，能够很好的对相邻节点之间的空间特征聚合，输入图变分自编码器提取出反映路网的潜在时空特征，变分结构能泛化模型，因为潜在特征是从分布中采样得到的，防止过拟合的特征出现。

(2)降噪自编码器框架对“损坏”的原始数据编码、解码还原恢复成完整的原始数据，这样的特征提取更能反映原始交通数据信息，有利于后续的修复效果提升。

(3)采用生成对抗网络根据DVGAE提取的潜在时空特征生成完整的交通路网状态数据，通过生成器与判别器的对抗训练，LSTM作为生成器能很好的将时空特征恢复成原始路网数据，以及加入的重建损失，着重对缺失处数据值进行修复，可以更有效提高交通路网状态数据修复的精度。

附图说明

图1是降噪图变分自编码器模型结构图。

图2是DVGAE-GAN网络模型结构图。

图3是数据修复结果实例。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于DVGAE-GAN的交通路网数据修复方法，包括以下步骤：

步骤1：获取交通路网状态数据和路网邻接矩阵

构建交通路网采用图的形式表示为：G＝(V,A),其中V＝{v₁,v₂,v₃,...,v_N}，N为路网中检测器的总数目，A表示路网中检测器节点之间的联系。构建路网的邻接矩阵

节点v_i与节点v_r的连边关系表示为：

如上式X(t)为第t时刻检测器测得的T维历史交通数据矩阵,记作原始交通路网状态数据矩阵，x_i(t-jΔt)(j＝0,1,…,T-1)表示第i条路段检测器下第(t-jΔt)时刻的交通数据，

其中N为路段检测器的数目，T为某一检测器记录的交通数据时间特征维度。同时创建0-1矩阵

由此实际获得的交通路网数据为

以及邻接矩阵为A。*表示矩阵对应元素相乘；

步骤2：构建降噪图变分自编码器提取潜在时空特征

降噪图变分自编码器的编码器部分由图卷积神经网络(GCN)构成，可以根据不同路网节点与节点之间边的联系来实现空间特征聚合，计算公式为：

上式由图卷积网络组成，其中

是路网邻接矩阵，D是根据邻接矩阵得到的度矩阵，Relu激活函数为f(x)＝max(0,x)，W_enc0是GCN第一层学习训练权重参数矩阵，H_enc(t)是第一层隐藏层，W_enc1,W_enc2共同为GCN第二层学习训练权重参数矩阵，分别生成均值μ(t)和方差σ(t)。

Z_i(t)＝μ_i(t)+ε⊙σ_i(t)

其中diag(·)表示对角协方差矩阵，

表示每个检测器节点通过GCN形成的采样分布，由于采样操作无法计算梯度信息，这里用重参数化方法采样一个ε～N(0,I)代替计算，⊙表示矩阵点乘，Z_i(t)表示第i个检测器节点的特征，

为提取的路网潜在时空特征；

还利用降噪自编码器重建原始路网数据

计算如下：

的激活函数。

训练损失函数计算如下：

L＝α·L₁+L₂

其中L₁是重构图

与真实数据X(t)的平方误差损失。L则为总损失函数，α表示L1损失函数前置系数；

步骤3：构建生成对抗网络，生成修复后完整的交通状态数据生成器由LSTM组成，生成器输入DVGAE提取的潜在时空特征

其中LSTM层组成有保持隐藏信息的存储单元

以及三个门单元分别为f_e遗忘门，i_e输入门，o_e输出门。Z_e为第e个LSTM单元时所有检测器的交通数据特征，H_e-1为前一单元输出，C_e-1为前一单元状态。C_e是第e单元输出状态，

是第e个LSTM单元层输出。·表示矩阵点乘，⊙表示矩阵乘法运算符，W_f,W_i,W_o,W_c分别是隐藏层输入映射到三个门单元f_e、i_e、o_e和存储单元

的权重矩阵，b_f,b_i,b_o,b_c是对应偏差向量。

是一个sigmoid激活函数，tanh(.)是双曲正切函数。最后输出

通过一层全连接层扩展为原来的时间维度，

和b_rec是对应权重参数和偏置项。

然后生成器生成的修复交通状态矩阵

与原始交通状态矩阵X(t)重组,重组矩阵Y(t)定义如下：

Y(t)＝X(t)*M(t)+X′(t)*(1-M(t))

其中*表示矩阵对应元素相乘,M(t)为0-1矩阵,M(t)中的值{0，1}，X(t)为原始交通数据，X′(t)为通过生成器生成的修复后交通数据。这里M(t)矩阵对应点相乘1的位置表示该位置检测器数据不缺失，0的位置表示这部分数据缺失。修复后的交通数据矩阵X′(t)提取缺失处数据与原始数据矩阵X(t)未缺失处的数据重组后形成矩阵Y(t)。

生成对抗网络的判别器由多层全连接层组成,计算公式如下：

h_d+1＝W_d·h_d+b_d(d≥1)

其中h₁为输入，当判别器输入原始交通数据时h₁＝X(t)；当判别器输入为合成重组的交通数据时h₁＝Y(t)。W_d和b_d为对应第d层的权重参数和偏置项。

分别定义生成对抗网络中生成器与判别器损失函数，判别器训练目标为区分出输入判别器的数据属于真实数据或者生成数据，而生成器训练目标为让判别器将生成器生成数据判别成真实数据。损失函数定义下：

L_G＝-D[X(t)*M(t)+X′(t)*(1-M(t))]+β·L_cons

L_D＝D[X(t)*M(t)+X′(t)*(1-M(t))]-D[X(t)]

其中L_G为生成器损失函数，L_D为判别器损失函数，L_cons为重建损失，β为重建损失系数，不仅加速生成器的收敛，还可以着重修复缺失位置处的交通数据。p为损失位置的数目总数，即0-1矩阵M中0的个数。

步骤4：训练模型与测试

将交通路网状态数据划分为训练集与测试集，比例取a。将训练集输入降噪图变分自编码器训练，通过模型优化器不断优化参数，能复现出原始交通数据和路网邻接矩阵，使测试集按照此训练参数输入，能提取出相对应的时空特征。

将提取的潜在时空特征输入到生成对抗网络中，先将训练集提取的特征标准化后进入生成器与原始交通数据相互对抗，直至模型收敛以此达到修复的效果。然后采用测试集的潜在时空特征作为生成器输入，得到修复后的完整交通状态数据，并根据相关指标针对模型修复值与模型真实值之间的误差进行评估。其中采用平均绝对误差(MAE)，均方根误差(RMSE)，平均绝对百分比误差(MAPE)相关指标对模型进行性能评估，计算公式如下：

实例：实际实验中的数据，过程如下：

(1)选取实验数据

实验数据选取西雅图2015年采集全年的交通速度数据，高速路网共计323个检测器，数据采样间隔Δt＝5分钟。

(2)参数确定

路网检测器节点个数N＝323，每个节点的特征个数T＝12；降噪图变分自编码器编码部分采用两层图卷积网络层，隐藏单元个数分别为32，8，第二层由不同权重参数训练出μ和σ构成一个约束分布，从中随机采样得到特征Z，Z的每个路网特征维度E＝8；解码部分重构交通数据采用两层全连接层，隐藏单元个数分别为32，12。损失函数中α＝0.0001，自编码器训练优化器为RMSprop优化器。提取的交通状态数据特征输入生成对抗网路，生成器采用一层64隐藏单元个数的LSTM和一层全连接层，输出(None,323,12)为修复后的交通状态数据，判别器网络的隐藏单元个数分别为32，64，32，1，重建损失系数β＝500。训练集与测试集划分比例a＝0.8。

(3)实验结果

这里选取数据缺失类型为完全随机缺失，将数据缺失比例范围设置为0.1至0.7，间隔为0.1。在不同比例下修复的误差如表1，表1为不同缺失比例下模型修复结果分析。

表1。

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims

1.一种基于DVGAE-GAN的交通路网数据修复方法，其特征在于，所述方法包括以下步骤：

步骤1：获取交通路网状态数据以及路网邻接矩阵

步骤2：采用降噪图变分自编码器DVGAE提取路网状态数据与邻接矩阵的潜在时空特征

步骤4：将交通路网状态数据划分为训练集与测试集

2.如权利要求1所述的一种基于DVGAE-GAN的交通路网数据修复方法，其特征在于，所述步骤1中，构建交通路网采用图的形式表示为：G＝(V,A)，其中V＝{v₁,v₂,v₃,…,v_N}，N为路网中检测器的总数目，A表示路网中检测器节点之间的联系，构建路网的邻接矩阵

节点v_i与节点v_r的连边关系表示为：

由此实际获得的交通路网数据为

以及邻接矩阵为A，*表示矩阵对应元素相乘。

3.如权利要求1或2所述的一种基于DVGAE-GAN的交通路网数据修复方法，其特征在于，所述步骤2中，降噪图变分自编码器的编码器部分由图卷积神经网络GCN构成，根据不同路网节点与节点之间边的联系来实现空间特征聚合，计算公式为：

上式由图卷积网络组成，其中

A是路网邻接矩阵，D是根据邻接矩阵得到的度矩阵，Relu激活函数为f(x)＝max(0,x)，W_enc0是GCN第一层学习训练权重参数矩阵，H_enc(t)是第一层隐藏层，W_enc1,W_enc2共同为GCN第二层学习训练权重参数矩阵，分别生成均值μ(t)和方差σ(t)；

Z_i(t)＝μ_i(t)+ε⊙σ_i(t)

其中diag(·)表示对角协方差矩阵，

为提取的路网潜在时空特征；

还利用降噪自编码器重建原始路网数据

计算如下：

的激活函数；

训练损失函数计算如下：

L＝α·L₁+L₂

其中L₁是重构图

与真实数据X(t)的平方误差损失，L则为总损失函数，α表示L1损失函数前置系数。

4.如权利要求1或2所述的一种基于DVGAE-GAN的交通路网数据修复方法，其特征在于，所述步骤3中，生成器由LSTM组成，生成器输入DVGAE提取的潜在时空特征

其中LSTM层组成有保持隐藏信息的存储单元

以及三个门单元分别为f_e遗忘门，i_e输入门，o_e输出门，Z_e为第e个LSTM单元时所有检测器的交通数据特征，H_e-1为前一单元输出，C_e-1为前一单元状态，C_e是第e单元输出状态，

的权重矩阵，b_f,b_i,b_o,b_c是对应偏差向量，

是一个sigmoid激活函数，tanh(.)是双曲正切函数，最后输出

通过一层全连接层扩展为原来的时间维度，

和b_rec是对应权重参数和偏置项；

然后生成器生成的修复交通状态矩阵

与原始交通状态矩阵X(t)重组,重组矩阵Y(t)定义如下：

Y(t)＝X(t)*M(t)+X′(t)*(1-M(t))

其中*表示矩阵对应元素相乘,M(t)为0-1矩阵,M(t)中的值{0，1}，X(t)为原始交通数据，X′(t)为通过生成器生成的修复后交通数据，这里M(t)矩阵对应点相乘1的位置表示该位置检测器数据不缺失，0的位置表示这部分数据缺失，修复后的交通数据矩阵X′(t)提取缺失处数据与原始数据矩阵X(t)未缺失处的数据重组后形成矩阵Y(t)；

生成对抗网络的判别器由多层全连接层组成,计算公式如下：

h_d+1＝W_d·h_d+b_d(d≥1)

其中h₁为输入，当判别器输入原始交通数据时h₁＝X(t)；当判别器输入为合成重组的交通数据时h₁＝Y(t)，W_d和b_d为对应第d层的权重参数和偏置项；

L_G＝-D[X(t)*M(t)+X′(t)*(1-M(t))]+β·L_cons

L_D＝D[X(t)*M(t)+X′(t)*(1-M(t))]-D[X(t)]

5.如权利要求1或2所述的一种基于DVGAE-GAN的交通路网数据修复方法，其特征在于，所述步骤4中，将交通路网状态数据划分为训练集与测试集，比例取a，将训练集输入降噪图变分自编码器训练，通过模型优化器不断优化参数，能复现出原始交通数据和路网邻接矩阵，使测试集按照此训练参数输入，能提取出相对应的时空特征；

将提取的潜在时空特征输入到生成对抗网络中，先将训练集提取的特征标准化后进入生成器与原始交通数据相互对抗，直至模型收敛以此达到修复的效果，然后采用测试集的潜在时空特征作为生成器输入，得到修复后的完整交通状态数据，并根据相关指标针对模型修复值与模型真实值之间的误差进行评估，其中采用平均绝对误差(MAE)，均方根误差(RMSE)，平均绝对百分比误差(MAPE)相关指标对模型进行性能评估，计算公式如下：