CN108805418B

CN108805418B - 一种基于生成式对抗网络的交通数据填充方法

Info

Publication number: CN108805418B
Application number: CN201810496222.5A
Authority: CN
Inventors: 郑海峰; 李智敏; 林凯彤; 冯心欣; 陈忠辉
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2021-08-31
Anticipated expiration: 2038-05-22
Also published as: CN108805418A

Abstract

本发明涉及一种基于生成式对抗网络的交通数据填充方法，将3D卷积神经网络与生成式对抗网络相结合，构造一种3DConvGAN模型，首先利用历史数据训练3DConvGAN模型，并采用3D卷积神经网络对临近时刻的数据进行时空特征提取；其次设置衡量已知点的真实数据和生成数据之间的差异，通过最小化损失函数来获取生成网络的最优输入；最后，使用最优输入通过生成网络获取最优的生成数据，以实现交通数据的恢复。本发明克服了现有技术不能充分利用交通数据的历史信息与时空特征的不足，充分利用历史的交通数据并有效地提取交通数据的时空特性，从而提升了交通数据的恢复精确度。

Description

一种基于生成式对抗网络的交通数据填充方法

技术领域

本发明涉及智能交通领域和深度学习领域，特别是一种基于生成式对抗网络的交通数据填充方法。

背景技术

在智能交通系统中，交通数据采集是一个重要的部分。主要的交通数据采集方式包括：感应线圈检测器、红外线检测器等定点检测器采集，或是利用全球定位系统(GPS)、手机通信等设备动态监测。然而，由于设备损坏、数据传输异常等问题，均会导致采集到的交通数据存在数据缺失的情况。带缺失的交通数据不仅降低了数据的研究价值，而且影响后续的研究工作。如何对缺失的交通数据进行有效地恢复，保证数据的完整性对智能交通系统的工作起着至关重要的作用。

到目前为止，交通数据恢复的主要方法有历史插值法、样条/回归插值法、自回归积分移动平均模型、基于矩阵填充方法和基于张量填充方法等。交通数据具有时间相关性和空间相关性。空间相关性是指某个时刻不同位置的交通数据会相互影响，距离越靠近，其影响程度越大。时间相关性可分为周期性和趋势性，周期性是指不同天同一时刻的交通数据相似，趋势性是指临近时刻的交通数据呈现趋势性变化。在之前的交通数据恢复模型中存在很多缺点，如恢复算法过于简单，无法处理复杂的缺失情况；数据的时刻特征提取不充分或算法无法充分利用历史数据导致恢复精度低。

发明内容

有鉴于此，本发明的目的是提出一种基于生成式对抗网络的交通数据填充方法，可以克服现有技术不能充分利用交通数据的时空特征和数据的历史信息的缺点，利用生成模型可恢复多种缺失数据，并提高恢复的精确度。

本发明采用以下方案实现：一种基于生成式对抗网络的交通数据填充方法，具体包括以下步骤：

步骤S1：构建生成式对抗网络，所述生成式对抗网络包括生成网络与鉴别网络；

步骤S2：将噪声输入通过生成网络获取张量形式的输出数据，其中所述生成网络的输出为生成数据；

步骤S3：使用鉴别网络区分真实数据与生成数据的差异；

步骤S4：使用历史数据训练所述生成式对抗网络；

步骤S5：使用已知点的实际数据和生成网络的输出进行比较，反向更新生成网络的输入，得到最优输入；

步骤S6：采用步骤S5得到的最优输入计算未知点的数据，得到完整的数据。

进一步地，步骤S1中，

所述生成网络的第一层是6144大小的全连接层，后续四层是三维的微步卷积层，其中卷积核大小为2×4×4；

所述鉴别网络的前四层是用于提取数据的时空特征的三维卷积层，随后是全连接层，其中，所述卷积层的卷积核大小为2×4×4。

进一步地，所述步骤S2包括以下步骤：

步骤S21：将100维的噪声作为所述生成网络的输入，所述100维的噪声通过第一层全连接层之后得到一个6144×1的输出，将6144×1的输出重塑成3×2×2×512大小的张量；

步骤S22：将3×2×2×512大小的张量通过每一层三维微步卷积层时，时间维的大小不变，空间维的大小翻倍，通道数减半，最后所述生成网络输出一个3×32×32×1的生成数据。

进一步地，步骤S3为：将数据通过鉴别网络得到一个用于衡量数据的真实度的输出；若输入的是真实数据，则鉴别网络的输出接近1，若输入的是生成数据，则鉴别网络的输出接近0。

进一步地，步骤S4包括以下步骤：

步骤S41：将历史数据输入到鉴别网络中，得到一个二进制值的输出，其中0代表假数据，1代表真数据；在这个过程中鉴别网络不断更新参数以得到最接近1的输出；

步骤S42：生成网络通过更新参数学习历史数据的概率分布，使得输出的生成数据接近真数据；同时，鉴别网络再次更新参数以获得一个最接近0的输出；

其中，所述生成网络与鉴别网络中参数的更新过程为一个二元极小极大博弈的过程，即目标函数最大化和最小化交替的过程，其目标函数公式如下：

式中，p(x)表示真实数据的分布，D(x)表示真实数据通过鉴别网络的输出，z表示生成网络的输入，G(z)表示生成网络的输出数据，D(G(z))表示生成数据通过鉴别网络的输出；

表示鉴别网络D对来自真实分布数据的评分的期望，

表示鉴别网络D对来自生成数据的评分的期望。

进一步地，所述步骤S5包括以下步骤：

步骤S51：设置损失函数，用以衡量已知点的真实数据和生成数据之间的差异，所述损失函数的公式如下：

Lc(z)＝||M⊙G(z)-M⊙y||₁；

式中，⊙表示元素相乘，M是一个只含有0、1元素的张量并用以代表已知点的位置，y表示的是真实数据；

步骤S52：最小化损失函数获取最佳的生成网络输入

即最优输入，其公式如下：

进一步地，步骤S6包括以下步骤：

步骤S61：使用最优输入通过生成网络得到最优的生成数据

步骤S62：将已知点的数据用真实数据填充，未知点的数据使用步骤S61得到的最优的生成数据填充，采用下式得到完整的数据X_reconstant：

与现有技术相比，本发明有以下有益效果：本发明提出的一种基于生成式对抗网络的交通数据填充方法，充分利用历史数据并结合交通数据的时空特征，可提高数据的恢复精度。同时本发明结合生成模型，可恢复多种的缺失数据，提高了模型的适用性。

附图说明

图1为本发明实施例的生成式对抗网络的示意图。

图2为本发明实施例的整体步骤的示意图。

图3为在MCAR缺失情况下，本发明实施例的恢复误差与其他算法的结果对比示意图。

图4为在MAR缺失情况下，本发明实施例的恢复误差与其他算法的结果对比示意图。

图5为在MNAR缺失情况下，本发明实施例的恢复误差与其他算法的结果对比示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1以及图2所示，本实施例提供了一种基于生成式对抗网络的交通数据填充方法，具体包括以下步骤：

步骤S3：使用鉴别网络区分真实数据与生成数据的差异；

步骤S4：使用历史数据训练所述生成式对抗网络；

在本实施例中，步骤S1中，

所述生成网络的第一层是6144大小的全连接层，后续四层是三维的微步卷积层，其中卷积核大小为2×4×4(时间×宽×高)；

所述鉴别网络的前四层是用于提取数据的时空特征的三维卷积层，随后是全连接层，其中，所述卷积层的卷积核大小为2×4×4(时间×宽×高)。

在本实施例中，所述步骤S2包括以下步骤：

在本实施例中，步骤S3为：将数据通过鉴别网络得到一个用于衡量数据的真实度的输出；若输入的是真实数据，则鉴别网络的输出接近1，若输入的是生成数据，则鉴别网络的输出接近0。

在本实施例中，步骤S4包括以下步骤：

表示鉴别网络D对来自真实分布数据的评分的期望，

表示鉴别网络D对来自生成数据的评分的期望。

在本实施例中，所述步骤S5包括以下步骤：

Lc(z)＝||M⊙G(z)-M⊙y||₁；

步骤S52：最小化损失函数获取最佳的生成网络输入

即最优输入，其公式如下：

在本实施例中，步骤S6包括以下步骤：

步骤S61：使用最优输入通过生成网络得到最优的生成数据

特别的，本实施例与其他算法的实验对比过程及结果如下：

步骤一：模拟存在的三种交通数据缺失情况：完全随机缺失(Missing Completelyat Random，MCAR)、随机缺失(Missing at Random，MAR)、不随机缺失(Missing Not atRandom)。

步骤二：设置模型的恢复性能评价指标是相对平方误差(Relative SquareError，RSE)其公式如下：

步骤三：为说明本发明实施例所提出方法的可行性和普适性，将框架恢复精度进一步与现有方法如KNN、TenALS、Bayesian CP factorization、Tmac的恢复精度进行比较，分别如图3、图4以及图5所示，其中，本实施例的生成式对抗网络模型为3DConvGAN模型。

上述分析说明，本实施例所提出的一种基于生成式对抗网络的交通数据填充方法，在三种缺失情况下，均能获得比现有方法更高的恢复精度，具有一定的参考价值和实际经济效益。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于生成式对抗网络的交通数据填充方法，其特征在于：包括以下步骤：

步骤S3：使用鉴别网络区分真实数据与生成数据的差异；

步骤S4：使用历史数据训练所述生成式对抗网络；

步骤S6：采用步骤S5得到的最优输入计算未知点的数据，得到完整的数据；

步骤S1中，

所述鉴别网络的前四层是用于提取数据的时空特征的三维卷积层，随后是全连接层，其中，卷积核大小为2×4×4；

所述步骤S2包括以下步骤：

步骤S22：将3×2×2×512大小的张量通过每一层三维微步卷积层时，时间维的大小不变，空间维的大小翻倍，通道数减半，最后所述生成网络输出一个3×32×32×1的生成数据；

步骤S3为：将数据通过鉴别网络得到一个用于衡量数据的真实度的输出；若输入的是真实数据，则鉴别网络的输出接近1，若输入的是生成数据，则鉴别网络的输出接近0；

步骤S4包括以下步骤：

表示鉴别网络D对来自真实分布数据的评分的期望，

表示鉴别网络D对来自生成数据的评分的期望；

所述步骤S5包括以下步骤：

Lc(z)＝||M⊙G(z)-M⊙y||₁；

步骤S52：最小化损失函数获取最佳的生成网络输入

即最优输入，其公式如下：

步骤S6包括以下步骤：

步骤S61：使用最优输入通过生成网络得到最优的生成数据