CN113033619A - 一种基于dvgae-gan的交通路网数据修复方法 - Google Patents

一种基于dvgae-gan的交通路网数据修复方法 Download PDF

Info

Publication number
CN113033619A
CN113033619A CN202110238868.5A CN202110238868A CN113033619A CN 113033619 A CN113033619 A CN 113033619A CN 202110238868 A CN202110238868 A CN 202110238868A CN 113033619 A CN113033619 A CN 113033619A
Authority
CN
China
Prior art keywords
data
matrix
traffic
network
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110238868.5A
Other languages
English (en)
Inventor
徐东伟
彭航
魏臣臣
商学天
周磊
戴宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110238868.5A priority Critical patent/CN113033619A/zh
Publication of CN113033619A publication Critical patent/CN113033619A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于DVGAE‑GAN的交通路网数据修复方法,根据道路检测器分布构建路网邻接矩阵,获取交通路网数据,利用图变分自编码器(VGAE)提取实际获得的具有缺失路网数据的潜在时空特征,其中图变分自编码器采用降噪自编码器(DAE)架构,即对路网缺失数据进行编码操作,并解码生成原始路网数据。最后将降噪图变分自编码器提取的路网潜在时空特征经过生成对抗网络的对抗训练生成原始路网数据,其中GAN的生成器结构LSTM,因此GAN可以更好的根据时空特征生成完整的原始交通流数据,从而实现道路交通状态数据的修复。本发明有效提高交通路网状态数据修复的精度。

Description

一种基于DVGAE-GAN的交通路网数据修复方法
技术领域
本发明属于智能交通领域,涉及一种基于DVGAE-GAN的交通路网数据修复方法。
背景技术
随着智能交通系统的出现,道路交通流数据在实时监测、预测和控制中的作用越来越重要。但在实际情况中,数据采集设备往往会遇到各种不可预测的中断造成交通流数据缺失问题。缺失值问题不仅降低了数据提供的质量,而且还威胁到参与者可能因信息不完整而做出错误决策,另外道路交通状态检测器布置与维护也需要高昂的成本。
现阶段的道路交通预测方法主要有:历史平均法,K近邻法,降噪自编码器算法,生成对抗网络插补算法等。
发明内容
为了克服已有技术的不足,本发明提出一种基于DVGAE-GAN的交通路网数据修复方法,可以深度挖掘交通路网状态检测器之间的时空特征,长短期记忆神经网络(LSTM)作为生成对抗网络(GAN)的生成器,将提取的潜在时空特征还原成原始交通路网数据,有效提高交通路网状态修复的精度。
本发明解决其技术问题所采用的技术方案是:
一种基于DVGAE-GAN的交通路网数据修复方法,包括以下步骤:
步骤1:获取交通路网状态数据以及路网邻接矩阵
构建0-1矩阵模拟现实中路网观测数据的缺失情况和缺失位置,以此得到实际存在缺失的交通路网数据,与完整情况下交通路网数据和邻接矩阵;
步骤2:采用降噪图变分自编码器(DVGAE)提取路网状态数据与邻接矩阵的潜在时空特征
编码器部分输入实际交通路网数据和邻接矩阵,提取潜在表示,经解码器输出完整的原始路网数据和邻接矩阵,降噪自编码器框架对于潜在时空特征更能反映原始路网数据,实现路网潜在时空特征的提取;
步骤3:分别构建生成器与判别器的内部结构,并构建生成对抗网络进行对抗训练,实现路网状态数据修复
生成器用LSTM层,判别器由全连接层组成,构建起生成对抗网络模型,并将从DVGAE中提取的潜在时空特征作为生成器的输入,生成器的输出即为修复后的路网数据,这里将得到的修复路网数据与原始路网数据进行重新组合,并引入重构误差,分别定义生成器与判别器的损失函数,希望生成对抗网络能针对缺失位置处数据重点训练,达到生成器与判别器相互博弈对抗,实现交通路网状态数据修复;
步骤4:将交通路网状态数据划分为训练集与测试集
将训练集输入DVGAE训练,通过模型优化器不断优化参数,能复现出原始交通数据和路网邻接矩阵,将训练好的参数输入测试集,提取出相应潜在时空特征;将训练集潜在时空特征输入到生成对抗网络中相互对抗,直至模型收敛以此达到修复的效果;然后采用测试集的潜在时空特征作为生成器输入,得到修复后交通状态数据。
进一步,所述步骤1中,构建交通路网采用图的形式表示为:G=(V,A),其中V={v1,v2,v3,...,vN},N为路网中检测器的总数目,A表示路网中检测器节点之间的联系,构建路网的邻接矩阵
Figure BDA0002961378910000021
节点vi与节点vr的连边关系表示为:
Figure BDA0002961378910000031
Figure BDA0002961378910000032
如上式X(t)为第t时刻检测器测得的T维历史交通数据矩阵,记作原始交通路网状态数据矩阵,xi(t-jΔt)(j=0,1,…,T-1)表示第i条路段检测器下第(t-jΔt)时刻的交通数据,
Figure BDA0002961378910000033
其中N为路段检测器的数目,T为某一检测器记录的交通数据时间特征维度;同时创建0-1矩阵
Figure BDA0002961378910000034
用于模拟现实中路网观测数据的缺失情况和缺失位置,0-1矩阵为二值矩阵,其中mi(t-jΔt)记录第i个检测器的第(t-jΔt)个特征元素的值是否缺失,表示如下:
Figure BDA0002961378910000035
由此实际获得的交通路网数据为
Figure BDA0002961378910000036
以及邻接矩阵为A。*表示矩阵对应元素相乘。
再进一步,所述步骤2中,降噪图变分自编码器的编码器部分由图卷积神经网络(GCN)构成,根据不同路网节点与节点之间边的联系来实现空间特征聚合,计算公式为:
Figure BDA0002961378910000037
Figure BDA0002961378910000038
Figure BDA0002961378910000039
上式由图卷积网络组成,其中
Figure BDA00029613789100000310
是路网邻接矩阵,D是根据邻接矩阵得到的度矩阵,Relu激活函数为f(x)=max(0,x),Wenc0是GCN第一层学习训练权重参数矩阵,Henc(t)是第一层隐藏层,Wenc1,Wenc2共同为GCN第二层学习训练权重参数矩阵,分别生成均值μ(t)和方差σ(t);
由GCN学习到每个节点低维表示的均值μi(t)和方差σi(t),从该分布中随机采样,这里Z(t)的采样用了重参数化方法,这样潜在表示清晰可见而且梯度信息也能求出,计算公式为:
Figure BDA0002961378910000041
Zi(t)=μi(t)+ε⊙σi(t)
其中diag(·)表示对角协方差矩阵,
Figure BDA0002961378910000042
表示每个检测器节点通过GCN形成的采样分布,由于采样操作无法计算梯度信息,这里用重参数化方法采样一个ε~N(0,I)代替计算,⊙表示矩阵点乘,Zi(t)表示第i个检测器节点的特征,
Figure BDA0002961378910000043
为提取的路网潜在时空特征;
解码器部分用来重建路网结构和路网数据,不但重建路网结构
Figure BDA0002961378910000044
还利用降噪自编码器重建原始路网数据
Figure BDA0002961378910000045
计算如下:
Figure BDA0002961378910000046
Figure BDA0002961378910000047
其中Wdec1,Wdec2和bdec1,bdec2分别为解码器两层全连接层的训练权重参数和偏置项,sigmoid是
Figure BDA0002961378910000048
的激活函数;
训练损失函数计算如下:
Figure BDA0002961378910000049
Figure BDA00029613789100000410
L=α·L1+L2
其中L1是重构图
Figure BDA0002961378910000051
和原始图A之间的距离度量,采用加权交叉熵函数,wpos和wneg分别代表了原始邻接矩阵数据取1或0时候的对应权重,对于处理稀疏的邻接矩阵效果好,L2是生成数据
Figure BDA0002961378910000052
与真实数据X(t)的平方误差损失。L则为总损失函数,α表示L1损失函数前置系数。
所述步骤3中,生成器由LSTM组成,生成器输入DVGAE提取的潜在时空特征
Figure BDA0002961378910000053
E表示降维后的特征维度,Ze(t)(e=1,2...,E)表示所有路段检测器第e个LSTM单元的特征,传统的LSTM处理时间序列数据提取特征,这里LSTM相当于解码器将潜在时空特征恢复成原始具有时间序列的交通路网数据,计算公式如下:
Figure BDA0002961378910000054
Figure BDA0002961378910000055
Figure BDA0002961378910000056
Figure BDA0002961378910000057
Figure BDA0002961378910000058
Figure BDA0002961378910000059
Figure BDA00029613789100000510
其中LSTM层组成有保持隐藏信息的存储单元
Figure BDA00029613789100000511
以及三个门单元分别为fe遗忘门,ie输入门,oe输出门,Ze为第e个LSTM单元时所有检测器的交通数据特征,He-1为前一单元输出,Ce-1为前一单元状态。Ce是第e单元输出状态,
Figure BDA00029613789100000512
是第e个LSTM单元层输出;·表示矩阵点乘,⊙表示矩阵乘法运算符,Wf,Wi,Wo,Wc分别是隐藏层输入映射到三个门单元fe、ie、oe和存储单元
Figure BDA00029613789100000513
的权重矩阵,Uf,Ui,Uo,Uc是上一单元时刻输出连接到三个门单元fe、ie、oe和存储单元
Figure BDA0002961378910000061
的权重矩阵,bf,bi,bo,bc是对应偏差向量。
Figure BDA0002961378910000062
是一个sigmoid激活函数,tanh(.)是双曲正切函数。最后输出
Figure BDA0002961378910000063
通过一层全连接层扩展为原来的时间维度,
Figure BDA0002961378910000064
和brec是对应权重参数和偏置项;
然后生成器生成的修复交通状态矩阵
Figure BDA0002961378910000065
与原始交通状态矩阵X(t)重组,重组矩阵Y(t)定义如下:
Figure BDA0002961378910000066
Y(t)=X(t)*M(t)+X′(t)*(1-M(t))
其中*表示矩阵对应元素相乘,M(t)为0-1矩阵,M(t)中的值{0,1},X(t)为原始交通数据,X′(t)为通过生成器生成的修复后交通数据,这里M(t)矩阵对应点相乘1的位置表示该位置检测器数据不缺失,0的位置表示这部分数据缺失。修复后的交通数据矩阵X′(t)提取缺失处数据与原始数据矩阵X(t)未缺失处的数据重组后形成矩阵Y(t);
生成对抗网络的判别器由多层全连接层组成,计算公式如下:
hd+1=Wd·hd+bd(d≥1)
其中h1为输入,当判别器输入原始交通数据时h1=X(t);当判别器输入为合成重组的交通数据时h1=Y(t)。Wd和bd为对应第d层的权重参数和偏置项;
分别定义生成对抗网络中生成器与判别器损失函数,判别器训练目标为区分出输入判别器的数据属于真实数据或者生成数据,而生成器训练目标为让判别器将生成器生成数据判别成真实数据,损失函数定义下:
LG=-D[X(t)*M(t)+X′(t)*(1-M(t))]+β·Lcons
LD=D[X(t)*M(t)+X′(t)*(1-M(t))]-D[X(t)]
Figure BDA0002961378910000071
其中LG为生成器损失函数,LD为判别器损失函数,Lcons为重建损失,β为重建损失系数,不仅加速生成器的收敛,还可以着重修复缺失位置处的交通数据,p为损失位置的数目总数,即0-1矩阵M中0的个数。
所述步骤4中,将交通路网状态数据划分为训练集与测试集,比例取a,将训练集输入降噪图变分自编码器训练,通过模型优化器不断优化参数,能复现出原始交通数据和路网邻接矩阵,使测试集按照此训练参数输入,能提取出相对应的时空特征;
将提取的潜在时空特征输入到生成对抗网络中,先将训练集提取的特征标准化后进入生成器与原始交通数据相互对抗,直至模型收敛以此达到修复的效果。然后采用测试集的潜在时空特征作为生成器输入,得到修复后的完整交通状态数据,并根据相关指标针对模型修复值与模型真实值之间的误差进行评估,其中采用平均绝对误差(MAE),均方根误差(RMSE),平均绝对百分比误差(MAPE)相关指标对模型进行性能评估,计算公式如下:
Figure BDA0002961378910000072
Figure BDA0002961378910000073
Figure BDA0002961378910000074
其中K表示缺失数据的个数,x′k、xk分别代表第k个修复后的交通状态数据和真实数据。
本发明根据道路检测器分布构建路网邻接矩阵,获取交通路网数据,利用图变分自编码器(VGAE)提取实际获得的具有缺失路网数据的潜在时空特征,其中图变分自编码器采用降噪自编码器(DAE)架构,即对路网缺失数据进行编码操作,并解码生成原始路网数据。最后将降噪图变分自编码器提取的路网潜在时空特征经过生成对抗网络的对抗训练生成原始路网数据,其中GAN的生成器结构LSTM,因此GAN可以更好的根据时空特征生成完整的原始交通流数据,从而实现道路交通状态数据的修复。
本发明的有益效果主要表现在:
(1)在交通路网状态数据基础上,获取路网邻接矩阵,能够很好的对相邻节点之间的空间特征聚合,输入图变分自编码器提取出反映路网的潜在时空特征,变分结构能泛化模型,因为潜在特征是从分布中采样得到的,防止过拟合的特征出现。
(2)降噪自编码器框架对“损坏”的原始数据编码、解码还原恢复成完整的原始数据,这样的特征提取更能反映原始交通数据信息,有利于后续的修复效果提升。
(3)采用生成对抗网络根据DVGAE提取的潜在时空特征生成完整的交通路网状态数据,通过生成器与判别器的对抗训练,LSTM作为生成器能很好的将时空特征恢复成原始路网数据,以及加入的重建损失,着重对缺失处数据值进行修复,可以更有效提高交通路网状态数据修复的精度。
附图说明
图1是降噪图变分自编码器模型结构图。
图2是DVGAE-GAN网络模型结构图。
图3是数据修复结果实例。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于DVGAE-GAN的交通路网数据修复方法,包括以下步骤:
步骤1:获取交通路网状态数据和路网邻接矩阵
构建交通路网采用图的形式表示为:G=(V,A),其中V={v1,v2,v3,...,vN},N为路网中检测器的总数目,A表示路网中检测器节点之间的联系。构建路网的邻接矩阵
Figure BDA0002961378910000091
节点vi与节点vr的连边关系表示为:
Figure BDA0002961378910000092
Figure BDA0002961378910000093
如上式X(t)为第t时刻检测器测得的T维历史交通数据矩阵,记作原始交通路网状态数据矩阵,xi(t-jΔt)(j=0,1,…,T-1)表示第i条路段检测器下第(t-jΔt)时刻的交通数据,
Figure BDA0002961378910000094
其中N为路段检测器的数目,T为某一检测器记录的交通数据时间特征维度。同时创建0-1矩阵
Figure BDA0002961378910000095
用于模拟现实中路网观测数据的缺失情况和缺失位置,0-1矩阵为二值矩阵,其中mi(t-jΔt)记录第i个检测器的第(t-jΔt)个特征元素的值是否缺失,表示如下:
Figure BDA0002961378910000096
由此实际获得的交通路网数据为
Figure BDA0002961378910000101
以及邻接矩阵为A。*表示矩阵对应元素相乘;
步骤2:构建降噪图变分自编码器提取潜在时空特征
降噪图变分自编码器的编码器部分由图卷积神经网络(GCN)构成,可以根据不同路网节点与节点之间边的联系来实现空间特征聚合,计算公式为:
Figure BDA0002961378910000102
Figure BDA0002961378910000103
Figure BDA0002961378910000104
上式由图卷积网络组成,其中
Figure BDA0002961378910000105
是路网邻接矩阵,D是根据邻接矩阵得到的度矩阵,Relu激活函数为f(x)=max(0,x),Wenc0是GCN第一层学习训练权重参数矩阵,Henc(t)是第一层隐藏层,Wenc1,Wenc2共同为GCN第二层学习训练权重参数矩阵,分别生成均值μ(t)和方差σ(t)。
由GCN学习到每个节点低维表示的均值μi(t)和方差σi(t),从该分布中随机采样,这里Z(t)的采样用了重参数化方法,这样潜在表示清晰可见而且梯度信息也能求出,计算公式为:
Figure BDA0002961378910000106
Zi(t)=μi(t)+ε⊙σi(t)
其中diag(·)表示对角协方差矩阵,
Figure BDA0002961378910000107
表示每个检测器节点通过GCN形成的采样分布,由于采样操作无法计算梯度信息,这里用重参数化方法采样一个ε~N(0,I)代替计算,⊙表示矩阵点乘,Zi(t)表示第i个检测器节点的特征,
Figure BDA0002961378910000108
为提取的路网潜在时空特征;
解码器部分用来重建路网结构和路网数据,不但重建路网结构
Figure BDA0002961378910000111
还利用降噪自编码器重建原始路网数据
Figure BDA0002961378910000112
计算如下:
Figure BDA0002961378910000113
Figure BDA0002961378910000114
其中Wdec1,Wdec2和bdec1,bdec2分别为解码器两层全连接层的训练权重参数和偏置项,sigmoid是
Figure BDA0002961378910000115
的激活函数。
训练损失函数计算如下:
Figure BDA0002961378910000116
Figure BDA0002961378910000117
L=α·L1+L2
其中L1是重构图
Figure BDA0002961378910000118
和原始图A之间的距离度量,采用加权交叉熵函数,wpos和wneg分别代表了原始邻接矩阵数据取1或0时候的对应权重,对于处理稀疏的邻接矩阵效果好,L2是生成数据
Figure BDA0002961378910000119
与真实数据X(t)的平方误差损失。L则为总损失函数,α表示L1损失函数前置系数;
步骤3:构建生成对抗网络,生成修复后完整的交通状态数据生成器由LSTM组成,生成器输入DVGAE提取的潜在时空特征
Figure BDA00029613789100001110
E表示降维后的特征维度,Ze(t)(e=1,2...,E)表示所有路段检测器第e个LSTM单元的特征,传统的LSTM处理时间序列数据提取特征,这里LSTM相当于解码器将潜在时空特征恢复成原始具有时间序列的交通路网数据,计算公式如下:
Figure BDA0002961378910000121
Figure BDA0002961378910000122
Figure BDA0002961378910000123
Figure BDA0002961378910000124
Figure BDA0002961378910000125
Figure BDA0002961378910000126
Figure BDA0002961378910000127
其中LSTM层组成有保持隐藏信息的存储单元
Figure BDA0002961378910000128
以及三个门单元分别为fe遗忘门,ie输入门,oe输出门。Ze为第e个LSTM单元时所有检测器的交通数据特征,He-1为前一单元输出,Ce-1为前一单元状态。Ce是第e单元输出状态,
Figure BDA0002961378910000129
是第e个LSTM单元层输出。·表示矩阵点乘,⊙表示矩阵乘法运算符,Wf,Wi,Wo,Wc分别是隐藏层输入映射到三个门单元fe、ie、oe和存储单元
Figure BDA00029613789100001210
的权重矩阵,Uf,Ui,Uo,Uc是上一单元时刻输出连接到三个门单元fe、ie、oe和存储单元
Figure BDA00029613789100001211
的权重矩阵,bf,bi,bo,bc是对应偏差向量。
Figure BDA00029613789100001212
是一个sigmoid激活函数,tanh(.)是双曲正切函数。最后输出
Figure BDA00029613789100001213
通过一层全连接层扩展为原来的时间维度,
Figure BDA00029613789100001214
和brec是对应权重参数和偏置项。
然后生成器生成的修复交通状态矩阵
Figure BDA00029613789100001215
与原始交通状态矩阵X(t)重组,重组矩阵Y(t)定义如下:
Figure BDA00029613789100001216
Y(t)=X(t)*M(t)+X′(t)*(1-M(t))
其中*表示矩阵对应元素相乘,M(t)为0-1矩阵,M(t)中的值{0,1},X(t)为原始交通数据,X′(t)为通过生成器生成的修复后交通数据。这里M(t)矩阵对应点相乘1的位置表示该位置检测器数据不缺失,0的位置表示这部分数据缺失。修复后的交通数据矩阵X′(t)提取缺失处数据与原始数据矩阵X(t)未缺失处的数据重组后形成矩阵Y(t)。
生成对抗网络的判别器由多层全连接层组成,计算公式如下:
hd+1=Wd·hd+bd(d≥1)
其中h1为输入,当判别器输入原始交通数据时h1=X(t);当判别器输入为合成重组的交通数据时h1=Y(t)。Wd和bd为对应第d层的权重参数和偏置项。
分别定义生成对抗网络中生成器与判别器损失函数,判别器训练目标为区分出输入判别器的数据属于真实数据或者生成数据,而生成器训练目标为让判别器将生成器生成数据判别成真实数据。损失函数定义下:
LG=-D[X(t)*M(t)+X′(t)*(1-M(t))]+β·Lcons
LD=D[X(t)*M(t)+X′(t)*(1-M(t))]-D[X(t)]
Figure BDA0002961378910000131
其中LG为生成器损失函数,LD为判别器损失函数,Lcons为重建损失,β为重建损失系数,不仅加速生成器的收敛,还可以着重修复缺失位置处的交通数据。p为损失位置的数目总数,即0-1矩阵M中0的个数。
步骤4:训练模型与测试
将交通路网状态数据划分为训练集与测试集,比例取a。将训练集输入降噪图变分自编码器训练,通过模型优化器不断优化参数,能复现出原始交通数据和路网邻接矩阵,使测试集按照此训练参数输入,能提取出相对应的时空特征。
将提取的潜在时空特征输入到生成对抗网络中,先将训练集提取的特征标准化后进入生成器与原始交通数据相互对抗,直至模型收敛以此达到修复的效果。然后采用测试集的潜在时空特征作为生成器输入,得到修复后的完整交通状态数据,并根据相关指标针对模型修复值与模型真实值之间的误差进行评估。其中采用平均绝对误差(MAE),均方根误差(RMSE),平均绝对百分比误差(MAPE)相关指标对模型进行性能评估,计算公式如下:
Figure BDA0002961378910000141
Figure BDA0002961378910000142
Figure BDA0002961378910000143
其中K表示缺失数据的个数,x′k、xk分别代表第k个修复后的交通状态数据和真实数据。
实例:实际实验中的数据,过程如下:
(1)选取实验数据
实验数据选取西雅图2015年采集全年的交通速度数据,高速路网共计323个检测器,数据采样间隔Δt=5分钟。
(2)参数确定
路网检测器节点个数N=323,每个节点的特征个数T=12;降噪图变分自编码器编码部分采用两层图卷积网络层,隐藏单元个数分别为32,8,第二层由不同权重参数训练出μ和σ构成一个约束分布,从中随机采样得到特征Z,Z的每个路网特征维度E=8;解码部分重构交通数据采用两层全连接层,隐藏单元个数分别为32,12。损失函数中α=0.0001,自编码器训练优化器为RMSprop优化器。提取的交通状态数据特征输入生成对抗网路,生成器采用一层64隐藏单元个数的LSTM和一层全连接层,输出(None,323,12)为修复后的交通状态数据,判别器网络的隐藏单元个数分别为32,64,32,1,重建损失系数β=500。训练集与测试集划分比例a=0.8。
(3)实验结果
这里选取数据缺失类型为完全随机缺失,将数据缺失比例范围设置为0.1至0.7,间隔为0.1。在不同比例下修复的误差如表1,表1为不同缺失比例下模型修复结果分析。
Figure BDA0002961378910000151
表1。
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims (5)

1.一种基于DVGAE-GAN的交通路网数据修复方法,其特征在于,所述方法包括以下步骤:
步骤1:获取交通路网状态数据以及路网邻接矩阵
构建0-1矩阵模拟现实中路网观测数据的缺失情况和缺失位置,以此得到实际存在缺失的交通路网数据,与完整情况下交通路网数据和邻接矩阵;
步骤2:采用降噪图变分自编码器DVGAE提取路网状态数据与邻接矩阵的潜在时空特征
编码器部分输入实际交通路网数据和邻接矩阵,提取潜在表示,经解码器输出完整的原始路网数据和邻接矩阵,降噪自编码器框架对于潜在时空特征更能反映原始路网数据,实现路网潜在时空特征的提取;
步骤3:分别构建生成器与判别器的内部结构,并构建生成对抗网络进行对抗训练,实现路网状态数据修复
生成器用LSTM层,判别器由全连接层组成,构建起生成对抗网络模型,并将从DVGAE中提取的潜在时空特征作为生成器的输入,生成器的输出即为修复后的路网数据,这里将得到的修复路网数据与原始路网数据进行重新组合,并引入重构误差,分别定义生成器与判别器的损失函数,希望生成对抗网络能针对缺失位置处数据重点训练,达到生成器与判别器相互博弈对抗,实现交通路网状态数据修复;
步骤4:将交通路网状态数据划分为训练集与测试集
将训练集输入DVGAE训练,通过模型优化器不断优化参数,能复现出原始交通数据和路网邻接矩阵,将训练好的参数输入测试集,提取出相应潜在时空特征;将训练集潜在时空特征输入到生成对抗网络中相互对抗,直至模型收敛以此达到修复的效果;然后采用测试集的潜在时空特征作为生成器输入,得到修复后交通状态数据。
2.如权利要求1所述的一种基于DVGAE-GAN的交通路网数据修复方法,其特征在于,所述步骤1中,构建交通路网采用图的形式表示为:G=(V,A),其中V={v1,v2,v3,…,vN},N为路网中检测器的总数目,A表示路网中检测器节点之间的联系,构建路网的邻接矩阵
Figure FDA0002961378900000011
节点vi与节点vr的连边关系表示为:
Figure FDA0002961378900000012
Figure FDA0002961378900000021
如上式X(t)为第t时刻检测器测得的T维历史交通数据矩阵,记作原始交通路网状态数据矩阵,xi(t-jΔt)(j=0,1,…,T-1)表示第i条路段检测器下第(t-jΔt)时刻的交通数据,
Figure FDA0002961378900000022
其中N为路段检测器的数目,T为某一检测器记录的交通数据时间特征维度;同时创建0-1矩阵
Figure FDA0002961378900000023
用于模拟现实中路网观测数据的缺失情况和缺失位置,0-1矩阵为二值矩阵,其中mi(t-jΔt)记录第i个检测器的第(t-jΔt)个特征元素的值是否缺失,表示如下:
Figure FDA0002961378900000024
由此实际获得的交通路网数据为
Figure FDA0002961378900000025
以及邻接矩阵为A,*表示矩阵对应元素相乘。
3.如权利要求1或2所述的一种基于DVGAE-GAN的交通路网数据修复方法,其特征在于,所述步骤2中,降噪图变分自编码器的编码器部分由图卷积神经网络GCN构成,根据不同路网节点与节点之间边的联系来实现空间特征聚合,计算公式为:
Figure FDA0002961378900000026
Figure FDA0002961378900000027
Figure FDA0002961378900000028
上式由图卷积网络组成,其中
Figure FDA0002961378900000029
A是路网邻接矩阵,D是根据邻接矩阵得到的度矩阵,Relu激活函数为f(x)=max(0,x),Wenc0是GCN第一层学习训练权重参数矩阵,Henc(t)是第一层隐藏层,Wenc1,Wenc2共同为GCN第二层学习训练权重参数矩阵,分别生成均值μ(t)和方差σ(t);
由GCN学习到每个节点低维表示的均值μi(t)和方差σi(t),从该分布中随机采样,这里Z(t)的采样用了重参数化方法,这样潜在表示清晰可见而且梯度信息也能求出,计算公式为:
Figure FDA00029613789000000210
Zi(t)=μi(t)+ε⊙σi(t)
其中diag(·)表示对角协方差矩阵,
Figure FDA00029613789000000211
表示每个检测器节点通过GCN形成的采样分布,由于采样操作无法计算梯度信息,这里用重参数化方法采样一个ε~N(0,I)代替计算,⊙表示矩阵点乘,Zi(t)表示第i个检测器节点的特征,
Figure FDA0002961378900000031
为提取的路网潜在时空特征;
解码器部分用来重建路网结构和路网数据,不但重建路网结构
Figure FDA0002961378900000032
还利用降噪自编码器重建原始路网数据
Figure FDA0002961378900000033
计算如下:
Figure FDA0002961378900000034
Figure FDA0002961378900000035
其中Wdec1,Wdec2和bdec1,bdec2分别为解码器两层全连接层的训练权重参数和偏置项,sigmoid是
Figure FDA0002961378900000036
的激活函数;
训练损失函数计算如下:
Figure FDA0002961378900000037
Figure FDA0002961378900000038
L=α·L1+L2
其中L1是重构图
Figure FDA0002961378900000039
和原始图A之间的距离度量,采用加权交叉熵函数,wpos和wneg分别代表了原始邻接矩阵数据取1或0时候的对应权重,对于处理稀疏的邻接矩阵效果好,L2是生成数据
Figure FDA00029613789000000310
与真实数据X(t)的平方误差损失,L则为总损失函数,α表示L1损失函数前置系数。
4.如权利要求1或2所述的一种基于DVGAE-GAN的交通路网数据修复方法,其特征在于,所述步骤3中,生成器由LSTM组成,生成器输入DVGAE提取的潜在时空特征
Figure FDA00029613789000000311
E表示降维后的特征维度,Ze(t)(e=1,2...,E)表示所有路段检测器第e个LSTM单元的特征,传统的LSTM处理时间序列数据提取特征,这里LSTM相当于解码器将潜在时空特征恢复成原始具有时间序列的交通路网数据,计算公式如下:
Figure FDA00029613789000000312
Figure FDA00029613789000000313
Figure FDA00029613789000000314
Figure FDA00029613789000000315
Figure FDA00029613789000000316
Figure FDA00029613789000000317
Figure FDA00029613789000000318
其中LSTM层组成有保持隐藏信息的存储单元
Figure FDA0002961378900000041
以及三个门单元分别为fe遗忘门,ie输入门,oe输出门,Ze为第e个LSTM单元时所有检测器的交通数据特征,He-1为前一单元输出,Ce-1为前一单元状态,Ce是第e单元输出状态,
Figure FDA0002961378900000042
是第e个LSTM单元层输出;·表示矩阵点乘,⊙表示矩阵乘法运算符,Wf,Wi,Wo,Wc分别是隐藏层输入映射到三个门单元fe、ie、oe和存储单元
Figure FDA0002961378900000043
的权重矩阵,Uf,Ui,Uo,Uc是上一单元时刻输出连接到三个门单元fe、ie、oe和存储单元
Figure FDA0002961378900000044
的权重矩阵,bf,bi,bo,bc是对应偏差向量,
Figure FDA0002961378900000045
是一个sigmoid激活函数,tanh(.)是双曲正切函数,最后输出
Figure FDA0002961378900000046
通过一层全连接层扩展为原来的时间维度,
Figure FDA0002961378900000047
和brec是对应权重参数和偏置项;
然后生成器生成的修复交通状态矩阵
Figure FDA0002961378900000048
与原始交通状态矩阵X(t)重组,重组矩阵Y(t)定义如下:
Figure FDA0002961378900000049
Y(t)=X(t)*M(t)+X′(t)*(1-M(t))
其中*表示矩阵对应元素相乘,M(t)为0-1矩阵,M(t)中的值{0,1},X(t)为原始交通数据,X′(t)为通过生成器生成的修复后交通数据,这里M(t)矩阵对应点相乘1的位置表示该位置检测器数据不缺失,0的位置表示这部分数据缺失,修复后的交通数据矩阵X′(t)提取缺失处数据与原始数据矩阵X(t)未缺失处的数据重组后形成矩阵Y(t);
生成对抗网络的判别器由多层全连接层组成,计算公式如下:
hd+1=Wd·hd+bd(d≥1)
其中h1为输入,当判别器输入原始交通数据时h1=X(t);当判别器输入为合成重组的交通数据时h1=Y(t),Wd和bd为对应第d层的权重参数和偏置项;
分别定义生成对抗网络中生成器与判别器损失函数,判别器训练目标为区分出输入判别器的数据属于真实数据或者生成数据,而生成器训练目标为让判别器将生成器生成数据判别成真实数据,损失函数定义下:
LG=-D[X(t)*M(t)+X′(t)*(1-M(t))]+β·Lcons
LD=D[X(t)*M(t)+X′(t)*(1-M(t))]-D[X(t)]
Figure FDA00029613789000000410
其中LG为生成器损失函数,LD为判别器损失函数,Lcons为重建损失,β为重建损失系数,不仅加速生成器的收敛,还可以着重修复缺失位置处的交通数据,p为损失位置的数目总数,即0-1矩阵M中0的个数。
5.如权利要求1或2所述的一种基于DVGAE-GAN的交通路网数据修复方法,其特征在于,所述步骤4中,将交通路网状态数据划分为训练集与测试集,比例取a,将训练集输入降噪图变分自编码器训练,通过模型优化器不断优化参数,能复现出原始交通数据和路网邻接矩阵,使测试集按照此训练参数输入,能提取出相对应的时空特征;
将提取的潜在时空特征输入到生成对抗网络中,先将训练集提取的特征标准化后进入生成器与原始交通数据相互对抗,直至模型收敛以此达到修复的效果,然后采用测试集的潜在时空特征作为生成器输入,得到修复后的完整交通状态数据,并根据相关指标针对模型修复值与模型真实值之间的误差进行评估,其中采用平均绝对误差(MAE),均方根误差(RMSE),平均绝对百分比误差(MAPE)相关指标对模型进行性能评估,计算公式如下:
Figure FDA0002961378900000051
Figure FDA0002961378900000052
Figure FDA0002961378900000053
其中K表示缺失数据的个数,x′k、xk分别代表第k个修复后的交通状态数据和真实数据。
CN202110238868.5A 2021-03-04 2021-03-04 一种基于dvgae-gan的交通路网数据修复方法 Pending CN113033619A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110238868.5A CN113033619A (zh) 2021-03-04 2021-03-04 一种基于dvgae-gan的交通路网数据修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110238868.5A CN113033619A (zh) 2021-03-04 2021-03-04 一种基于dvgae-gan的交通路网数据修复方法

Publications (1)

Publication Number Publication Date
CN113033619A true CN113033619A (zh) 2021-06-25

Family

ID=76466582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110238868.5A Pending CN113033619A (zh) 2021-03-04 2021-03-04 一种基于dvgae-gan的交通路网数据修复方法

Country Status (1)

Country Link
CN (1) CN113033619A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549930A (zh) * 2022-02-21 2022-05-27 合肥工业大学 一种基于轨迹数据的快速路短时车头间距预测方法
CN114925808A (zh) * 2022-04-15 2022-08-19 北京理工大学 一种基于云网端资源中不完整时间序列的异常检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895878A (zh) * 2019-10-09 2020-03-20 浙江工业大学 一种基于ge-gan的交通状态虚拟检测器的生成方法
CN110942624A (zh) * 2019-11-06 2020-03-31 浙江工业大学 一种基于sae-gan-sad的路网交通数据修复方法
CN112309112A (zh) * 2020-09-10 2021-02-02 浙江工业大学 一种基于GraphSAGE-GAN的交通路网数据修复方法
CN112330951A (zh) * 2020-09-11 2021-02-05 浙江工业大学 一种基于生成对抗网络实现路网交通数据修复的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895878A (zh) * 2019-10-09 2020-03-20 浙江工业大学 一种基于ge-gan的交通状态虚拟检测器的生成方法
CN110942624A (zh) * 2019-11-06 2020-03-31 浙江工业大学 一种基于sae-gan-sad的路网交通数据修复方法
CN112309112A (zh) * 2020-09-10 2021-02-02 浙江工业大学 一种基于GraphSAGE-GAN的交通路网数据修复方法
CN112330951A (zh) * 2020-09-11 2021-02-05 浙江工业大学 一种基于生成对抗网络实现路网交通数据修复的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DONGWEI XU等: "Road traffic network state prediction based on a generative adversarial network", 《IET INTELLIGENT TRANSPORT SYSTEMS》, 30 July 2020 (2020-07-30), pages 1 - 9 *
MICHAEL FIGURNOV等: "Implicit Reparameterization Gradients", 《ARXIV:1805.08498V4》, 30 January 2019 (2019-01-30), pages 1 - 17 *
THOMAS N. KIPF等: "Variational Graph Auto-Encoders", 《ARXIV:1611.07308V1》, 21 November 2016 (2016-11-21), pages 1 - 3 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549930A (zh) * 2022-02-21 2022-05-27 合肥工业大学 一种基于轨迹数据的快速路短时车头间距预测方法
CN114549930B (zh) * 2022-02-21 2023-01-10 合肥工业大学 一种基于轨迹数据的快速路短时车头间距预测方法
CN114925808A (zh) * 2022-04-15 2022-08-19 北京理工大学 一种基于云网端资源中不完整时间序列的异常检测方法
CN114925808B (zh) * 2022-04-15 2023-10-10 北京理工大学 一种基于云网端资源中不完整时间序列的异常检测方法

Similar Documents

Publication Publication Date Title
US20230186173A1 (en) Method of analyzing influence factor for predicting carbon dioxide concentration of any spatiotemporal position
CN111540193B (zh) 一种基于图卷积时序生成对抗网络的交通数据修复方法
CN108596902B (zh) 基于选通卷积神经网络的多任务全参考图像质量评价方法
CN112330951B (zh) 一种基于生成对抗网络实现路网交通数据修复的方法
CN110942624B (zh) 一种基于sae-gan-sad的路网交通数据修复方法
CN112309112B (zh) 一种基于GraphSAGE-GAN的交通路网数据修复方法
CN113033619A (zh) 一种基于dvgae-gan的交通路网数据修复方法
CN114970774A (zh) 一种智能变压器故障预测方法和装置
CN111612078A (zh) 一种基于条件变分自动编码器的变压器故障样本增强方法
CN116910463A (zh) 一种空气污染监测数据缺失值填补方法
CN116484740A (zh) 一种基于挖掘电网空间拓扑特征的线路参数辨识方法
CN115526847A (zh) 一种基于半监督学习的主板表面缺陷检测方法
CN114821299A (zh) 一种遥感图像变化检测方法
CN116401516A (zh) 一种基于深度学习的电力负荷异常数据检测与修正方法
CN116844041A (zh) 一种基于双向卷积时间自注意力机制的耕地提取方法
CN116050621A (zh) 一种集成提升模式的多头自注意力海上风电超短时功率预测方法
CN111798531B (zh) 一种应用于植株监测的图像深度卷积压缩感知重构方法
CN117093830A (zh) 一种考虑局部与全局的用户负荷数据修复方法
CN116662866A (zh) 基于数据插补和表征学习的端到端不完整时间序列分类方法
CN117494034A (zh) 基于交通拥堵指数和多源数据融合的空气质量预测方法
CN112035527A (zh) 基于数据挖掘的电压暂降敏感设备故障水平评估方法
CN111309973A (zh) 基于改进马尔可夫模型和改进k最近邻的缺失值填补方法
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
CN113177587B (zh) 基于主动学习和变分自编码器的广义零样本目标分类方法
Gonzalez et al. Robust clustering using tau-scales

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination