CN108898527B

CN108898527B - 一种基于有损测量的生成模型的交通数据填充方法

Info

Publication number: CN108898527B
Application number: CN201810643268.5A
Authority: CN
Inventors: 郑海峰; 李奥奇; 李智敏; 冯心欣
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2021-10-29
Anticipated expiration: 2038-06-21
Also published as: CN108898527A

Abstract

本发明涉及一种基于有损测量的生成模型的交通数据填充方法。考虑到临近时刻交通数据与大量的历史数据有助于提高交通数据的恢复精度，该方法将3D卷积神经网络与基于有损测量的生成模型相结合，构造一种新型网络模型，以实现交通数据的填充；本发明的优势是可以利用残缺数据进行训练，实现交通流丢失数据的恢复；本发明通过衡量已知点的真实数据和生成数据之间的差异，并采用最小化损失函数来获取生成网络的最优输入，从而获取最优的生成数据，以实现交通流数据的恢复；本发明方法克服了传统方法无法利用残缺数据进行训练的缺点，同时充分利用历史的交通流数据并有效地提取交通流数据的时空特性，从而提升了交通流数据的恢复精确度。

Description

一种基于有损测量的生成模型的交通数据填充方法

技术领域

本发明涉及智能交通领域和深度学习领域，特别涉及一种基于有损测量的生成模型的交通数据填充方法。

背景技术

在实际的交通流数据收集过程中，由于信号丢失，传感器损坏等问题，交通流数据时有缺失情况。而利用如何运用这些有缺失的数据，进行填充运用到训练中去，也是交通流研究领域一个十分重要的问题，本发明就这一问题也进行了研究。

在原有的方法中，大多基于向量填充或者基于时间，空间特征填充，这些方法大多不能充分利用数据的时空特征，影响恢复的精度。最新提出了一种基于DCGAN和三维卷积的3D_DCGAN方法来进行交通流数据的修复。但该方法不能利用残缺数据进行训练来得到完整的数据。根据这些现状我们提出了一种基于有损测量的生成模型的算法来利用残缺数据进行网络的训练，同时利用数据内在的时空特征来进行交通流数据的填充。

发明内容

本发明的目的在于提供一种基于有损测量的生成模型的交通数据填充方法，该方法结合基于有损测量的生成模型与3D卷积神经网络，可克服现有方法不能充分利用交通数据的时空特征和数据的历史信息的缺点，利用生成模型可恢复多种缺失数据，并提高恢复的精确度。

为实现上述目的，本发明的技术方案是：一种基于有损测量的生成模型的交通数据填充方法，能利用残缺数据训练网络，包括如下步骤，

步骤S1：使用随机数据来生成交通流数据，得到生成数据；

步骤S2：将生成数据和真实数据用于训练鉴别网络；

步骤S3：对已有的数据进行处理作为数据集；而后，训练基于有损测量的生成模型；

步骤S4：使用已知点的实际数据和生成网络的输出进行比较，反向更新生成网络的输入，得到最优输入；

步骤S5：采用步骤S4得到的最优输入计算未知点的数据，得到完整的数据。

在本发明一实施例中，在所述步骤S1中，生成数据的生成步骤如下：

步骤S11：搭建生成网络，生成网络的第一层是全连接层，后续四层是三维的反卷积层，其中卷积核大小为3×5×5；

步骤S12：生成网络的输入是100*1的随机变量，通过第一层全连接层然后重塑为12×4×4×512大小的张量；

步骤S13：12×4×4×512大小的张量通过每一层反卷积后，深度的大小不变，空间维的大小翻倍，通道数减半；最后，输出12×32×32×1的生成数据。

在本发明一实施例中，在所述步骤S2中，使用鉴别网络区分真实数据与生成数据的差异，步骤如下：

步骤S21：搭建鉴别网络，鉴别网络的前四层是三维卷积层，其卷积核大小为3×5×5，用于提取数据的时空特征，最终经Sigmoid层得到辨别结果；

步骤S22：数据通过鉴别网络得到一个输出用于衡量数据的真实度，若是真实数据，鉴别网络的输出应尽量接近1，若是生成数据，鉴别网络的输出应尽量接近0。

在本发明一实施例中，在所述步骤S3中，训练基于有损测量的生成模型的步骤如下：

步骤S31：将历史数据输入到鉴别网络中，得到一个二进制值，其中，0代表假数据，1代表真数据，在这个过程中鉴别网络需要不断更新参数以得到最接近1的输出；

步骤S32：生成网络通过更新参数学习历史数据的概率分布使得生成数据接近真数据；同时，鉴别网络需要再次更新参数以获得一个最接近0的输出；

步骤S33：基于有损测量的生成模型的参数更新是一个二元极小极大博弈的过程，即目标函数最大化和最小化交替的过程，其目标函数公式如下：

式中，p(x)表示真实数据的分布，D(x)表示真实数据通过鉴别网络的输出，z表示生成网络的输入，G(z)表示生成网络的输出数据，D(G(z))表示生成数据通过鉴别网络的输出；

表示鉴别网络D对来自真实分布数据的评分的期望，

表示鉴别网络D对来自生成数据的评分的期望。

在本发明一实施例中，所述步骤S4具体实现步骤如下：

步骤S41：设置损失函数，用以衡量已知点的真实数据和生成数据之间的差异，所述损失函数的公式如下：

Lc(z)＝||M⊙G(z)-M⊙y||₁；

式中，⊙表示元素相乘，M是一个只含有0、1元素的张量并用以代表已知点的位置，y表示的是真实数据；

步骤S42：最小化损失函数获取最佳的生成网络输入

即最优输入，其公式如下：

在本发明一实施例中，所述步骤S5具体实现步骤如下：

步骤S51：使用最优输入通过生成网络得到最优的生成数据

步骤S52：将已知点的数据用真实数据填充，未知点的数据使用步骤S51得到的最优的生成数据填充，采用下式得到完整的数据X_rec：

相较于现有技术，本发明具有以下有益效果：本发明提出的一种基于有损测量的生成模型的交通数据填充方法，充分利用历史数据并结合交通数据的时空特征，可提高数据的恢复精度。同时本发明结合生成模型，可恢复多种的缺失数据，提高了模型的适用性。

附图说明

图1为本发明实施例中基于有损测量的生成模型的示意图；图1(a)为生成网络结构图，图1(b)为鉴别网络结构图。

图2为本发明实施例中基于有损测量的生成模型的总体结构图。

图3为本发明实施例中整体步骤的示意图。

具体实施方式

下面结合附图1-3，对本发明的技术方案进行具体说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1-3所示，本发明提供了一种基于有损测量的生成模型的交通数据填充方法，能利用残缺数据训练网络，包括如下步骤，

步骤S1：使用随机数据来生成交通流数据，得到生成数据；

步骤S2：将生成数据和真实数据用于训练鉴别网络；

在本实施例中，在所述步骤S1中，生成数据的生成步骤如下：

步骤S11：搭建生成网络，生成网络的第一层是全连接层，后续四层是三维的反卷积层，其中卷积核大小为3×5×5(时间×宽×高)；

在本实施例中，在所述步骤S2中，使用鉴别网络区分真实数据与生成数据的差异，步骤如下：

步骤S21：搭建鉴别网络，鉴别网络的前四层是三维卷积层，其卷积核大小为3×5×5(深度×宽×高)，用于提取数据的时空特征，最终经Sigmoid层得到辨别结果；

在本实施例中，在所述步骤S3中，训练基于有损测量的生成模型的步骤如下：

表示鉴别网络D对来自真实分布数据的评分的期望，

表示鉴别网络D对来自生成数据的评分的期望。

在本实施例中，所述步骤S4具体实现步骤如下：

Lc(z)＝||M⊙G(z)-M⊙y||₁；

步骤S42：最小化损失函数获取最佳的生成网络输入

即最优输入，其公式如下：

在本实施例中，所述步骤S5具体实现步骤如下：

步骤S51：使用最优输入通过生成网络得到最优的生成数据

特别的，本实施例与其他算法的实验对比过程及结果如下：

步骤一：模拟不同的缺失情况。

步骤二：在性能的评价方面，我们采用了Root Mean Square Error(RMSE)作为我们的标注，RMSE的定义如下：

步骤三：为说明本发明实施例所提出方法的可行性和普适性，将框架恢复精度进一步与现有方法如TenALS、Bayesian CP factorization、Tmac的恢复精度进行比较，分别如表1所示，其中，本实施例的基于有损测量的生成模型为3DConvGAN模型。

表1在不同缺失情况时，本发明的恢复误差与其他算法进行结果对比

上述分析说明，本实施例所提出的一种基于有损测量的生成模型的交通数据填充方法，在三种缺失情况下，均能获得比现有方法更高的恢复精度，具有一定的参考价值和实际经济效益。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于有损测量的生成模型的交通数据填充方法，其特征在于，用于利用残缺数据训练网络，包括如下步骤，

步骤S1：使用随机数据来生成交通流数据，得到生成数据；

步骤S2：将生成数据和真实数据用于训练鉴别网络；

步骤S3：将已有的数据作为数据集；而后，训练基于有损测量的生成模型，具体步骤如下：

步骤S32：生成网络通过更新参数学习历史数据的概率分布使得生成数据接近真数据；同时，鉴别网络再次更新参数以获得一个最接近0的输出；

表示鉴别网络D对来自真实分布数据的评分的期望，

表示鉴别网络D对来自生成数据的评分的期望；

步骤S4：使用已知点的实际数据和生成网络的输出进行比较，反向更新生成网络的输入，得到最优输入，具体实现步骤如下：

Lc(z)＝||M⊙G(z)-M⊙y||₁；

步骤S42：最小化损失函数获取最佳的生成网络输入

即最优输入，其公式如下：

2.根据权利要求1所述的一种基于有损测量的生成模型的交通数据填充方法，其特征在于，在所述步骤S1中，生成数据的生成步骤如下：

3.根据权利要求1所述的一种基于有损测量的生成模型的交通数据填充方法，其特征在于，在所述步骤S2中，使用鉴别网络区分真实数据与生成数据的差异，步骤如下：

步骤S22：数据通过鉴别网络得到一个输出用于衡量数据的真实度，若是真实数据，鉴别网络的输出应接近1，若是生成数据，鉴别网络的输出应接近0。

4.根据权利要求1所述的一种基于有损测量的生成模型的交通数据填充方法，其特征在于：所述步骤S5具体实现步骤如下：

步骤S51：使用最优输入通过生成网络得到最优的生成数据