CN111242044A

CN111242044A - 基于ConvLSTM双通道编码网络的夜间无人车场景预测方法

Info

Publication number: CN111242044A
Application number: CN202010042409.5A
Authority: CN
Inventors: 李想; 孙韶媛; 刘训华; 顾立鹏
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-05
Anticipated expiration: 2040-01-15
Also published as: CN111242044B

Abstract

本发明涉及一种基于ConvLSTM双通道编码网络的夜间无人车场景预测方法。本发明根据红外图像的特点对单通道场景预测网络进行了改进，增加了一个编码通道，用于红外图像空间布局、结构信息的提取；利用残差网络进行特征的提取，减轻了因池化操作带来的信息丢失的问题，提高了红外预测图像的准确度和清晰度；利用较少的卷积层进行特征提取，提高了预测图像的预测速度，达到了实时性要求，为无人车驾驶决策提供了足够的决策时间。本发明结合有监督场景预测方案及无监督场景预测方案的优点，兼顾准确性和实时性，在单通道的基础上增加一个编码通道，利用较少的残差层进行特征提取。因此可以实现实时的、准确的夜间无人车场景预测。

Description

基于ConvLSTM双通道编码网络的夜间无人车场景预测方法

技术领域

本发明涉及一种基于ConvLSTM双通道编码网络的夜间无人车场景预测方法，属于机器视觉与智能驾驶汽车领域。

背景技术

随着智能技术的不断发展，人们对无人驾驶的期望越来越高。但目前无人驾驶技术还不成熟，尤其是夜间场景下，无人驾驶决策速度慢，导致无人车在夜间的行车安全性较低，如何提高决策的速度是亟待解决的问题。如果在行驶过程中可以提前预知周围场景的变化，让无人车提前进行决策，无人驾驶的安全性和实时性将会得到很大的提高。

场景预测是根据已知视频序列预测下一帧或几帧图像，让无人车提前进行决策，降低了因决策不及时发生交通事故的风险。现如今，场景预测研究在可见光领域较多，夜视领域很少，但夜间场景下的场景预测、驾驶决策等技术在无人车研究技术中占有重要的地位。目前场景预测算法主要分为两种：有监督场景预测和无监督场景预测。

有监督场景预测，Ting等人利用视频序列及其语义图序列、光流图和多个双通道网络得到了长时间的高清预测图像。Jun等人利用一帧语义图得到首帧图像，然后利用语义图的语义信息、首帧图像以及光流图实现了图像的较准确预测。以上两种方法都是基于语义图的标签信息以及光流法进行分辨率的提升，此类网络得到的预测图像清晰度较高，预测的未来帧数较多，但计算量大，预测速度慢，不适用于有实时性要求的无人驾驶场景预测。

无监督场景预测，Lotter等人基于卷积长短时记忆(Convolutional Long-ShortTerm Memory，ConvLSTM)提出了一个预测编码网络，将图像的预测误差进行前向传播，更新网络中的参数，实现了自然场景下的视频预测。该网络比较好的捕获了动态信息，预测速度比较快，但预测图像清晰度低，预测未来帧数少。

无人车驾驶决策最重要的是实时性和准确性，有监督场景预测虽预测图像清晰度高，但预测速度慢，实时性达不到，无监督学习虽实时性可以实现，但预测图像清晰度低，预测帧数少。目前兼顾实时性和准确性的场景预测研究基本没有。

发明内容

本发明的目的是：针对智能驾驶汽车的夜间场景预测问题，实现实时的、准确的夜间无人车场景预测。

为了达到上述目的，本发明的技术方案是提供了一种基于ConvLSTM双通道编码网络的夜间无人车场景预测方法，其特征在于，包括以下步骤：

步骤1：构建双通道编码夜间场景预测网络，采集红外图像，采集到的红外图像一部分组成红外图像训练集对双通道编码夜间场景预测网络进行训练；

步骤2：实时获取红外视频序列，将红外视频序列的差分图像输入到双通道编码夜间场景预测网络的时间子网络中，时间子网络中利用卷积层和卷积长短时记忆网络提取红外视频序列的时序特征；

步骤3：将步骤2获得的红外视频序列的最后一帧红外图像输入到双通道编码夜间场景预测网络的空间子网络中，空间子网络利用多个残差层提取红外图像的空间特征；

步骤4：双通道编码夜间场景预测网络将时间子网络得到的时序特征和空间子网络得到的空间特征串联起来，输入到残差网络中，进行进一步的特征提取，得到时空特征；

步骤5：双通道编码夜间场景预测网络将得到的时空特征输入到解码网络中，经过多次的反卷积操作得到预测的红外图像；

步骤6：将得到的红外预测图像输入回双通道编码夜间场景预测网络中，替代步骤3中的最后一帧红外图像，重新执行步骤3至步骤5，进行下一帧预测；

步骤7：重复执行步骤3至步骤6实现多帧预测。

优选地，步骤2中，所述时间子网络利用3×3卷积核，提取红外差分图像特征，经最大池化操作得到低维特征图，最后输入到ConvLSTM网络中，得到所述时序特征，在此过程中，通过将多帧红外差分图像输入时间子网络，促使ConvLSTM网络对之前信息进行部分遗忘，对当前信息进行记忆，最终学习到所述时序特征。

优选地，步骤3中，所述空间子网络利用Resnet网络进行特征提取，利用3个残差层对图像的结构信息进行提取，最终得到所述空间特征。

优选地，步骤4中，所述双通道编码夜间场景预测网络利用融合网络将所述时序特征和所述空间特征串联起来，该融合网络通过concat操作得到特征，经过1个残差层，得到所述时空特征。

本发明结合有监督场景预测方案及无监督场景预测方案的优点，兼顾准确性和实时性，在单通道的基础上增加一个编码通道，利用较少的残差层进行特征提取。因此可以实现实时的、准确的夜间无人车场景预测。

本发明提出了基于ConvLSTM双通道编码网络的夜间无人车场景预测方法，同时能够满足场景预测的准确性需求和实时性需求。本发明根据红外图像的特点对单通道场景预测网络进行了改进，增加了一个编码通道，用于红外图像空间布局、结构信息的提取；利用残差网络(Residual Network，Resnet)进行特征的提取，减轻了因池化操作带来的信息丢失的问题，提高了红外预测图像的准确度和清晰度；利用较少的卷积层进行特征提取，提高了预测图像的预测速度，达到了实时性要求，为无人车驾驶决策提供了足够的决策时间。

本发明中双通道夜间无人车场景预测网络是一系列卷积、池化和激活的过程。其中，时间子网络以VGG网络为卷积网络，连接卷积长短时记忆网络，进行时序特征提取；空间子网络以Resnet网络为卷积网络，利用3个残差层进行特征提取，避免了因池化操作丢失部分信息的问题，提高了红外预测图像的清晰度。采用ReLU作为卷积神经网络激活层。

本发明应用于夜间智能驾驶汽车领域，根据红外图像的特点对单通道场景预测网络进行了改进，增加了一个编码通道，用于对红外图像空间布局、结构信息的提取；利用残差网络进行特征的提取，提高了红外预测图像的准确度和清晰度；利用较少的卷积层进行特征提取，在牺牲少量预测图像清晰度的情况下，提高了预测图像的预测速度，达到了实时性要求。本发明兼顾了实时性和准确性，为无人车驾驶决策提供了足够的决策时间，提高了无人车驾驶决策的安全性。

附图说明

图1是双通道编码夜间无人车场景预测结构图。本发明包括四个模块：时间子网络、空间子网络、特征融合网络和解码网络。

图2是时间子网络结构图。本发明的时间子网络负责提取视频序列时序特征，由CNN和ConvLSTM网络构成。

图3是空间子网络结构图。本发明的空间子网络负责提取红外图像的空间特征，由Resnet网络构成。

图4是特征融合网络结构图。本发明的特征融合网络将两个子网络分别提取到的特征进行进一步的融合。

图5是场景预测实验流程图。

图6是部分红外图像场景预测结果。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种基于ConvLSTM双通道编码网络的夜间无人车场景预测方法包括以下步骤：

步骤1：图像采集。因公开的红外图像数据集基本没有，所以采用实验室的汽车搭载红外摄像头模拟自动驾驶环境下采集的实验数据，采集的场地为校园环路和教学区。考虑冗余性，对得到的数据进行抽帧，最终得到的采集图像为6500张，6000张为训练集，500张为测试集。经预处理操作，输入图像的尺寸为128×128×1。

步骤2：构建双通道编码夜间场景预测网络，如图1和5所示。利用步骤1中获取的红外图像对场景预测网络进行训练，其中：整个网络的输入分为两部分：前n帧的视频序列X＝{X₁，X₂，...X_n}和当前时刻图像X_t。相邻序列的红外差分图像循环输入到时间子网络中，提取时序信息；当前时刻图像X_t输入到空间子网络中，提取空间特征；利用特征融合网络融合得到时空特征，然后输入到解码网络中，得到预测图像。最后将预测图像

替换X_t，实现多帧预测。采用Tensorflow框架对模型进行100K轮迭代训练，利用Adam优化器对模型优化，其中学习率为0.0001，批处理量为4。

步骤3：将相邻序列红外差分图像输入到时间子网络中，提取时序信息，如图2所示。利用3×3卷积核，提取红外差分图像特征，经最大池化操作得到低维特征图，最后输入到ConvLSTM网络中，得到16×16×256的时序特征。以上是时间子网络的一个过程，将多帧红外差分图像输入时间子网络，促使ConvLSTM对之前信息进行部分遗忘，对当前信息进行记忆，最终学习到红外视频序列的时序特征。本发明的时间子网络输入为10帧红外图像，即9张差分图像，时间子网络通过9次学习来提取视频序列的时序特征。

步骤4：将红外视频序列最后一帧图像输入到空间子网络中，提取空间信息，如图3所示。考虑到CNN网络存在多个池化阶段，会丢失部分提取的特征信息，在最后解码时一些细节不能恢复，影响预测图像清晰度，因此空间子网络利用Resnet网络进行特征提取，利用3个残差层对图像的结构信息进行提取，最终得到16×16×256的空间特征。

步骤5：将两个子网络分别得到的16×16×256的时序特征和空间特征输入到融合网络中，如图4所示。首先通过concat操作得到16×16×512的特征，经过1个残差层，得到16×16×256的时空特征图。

步骤6：将得到的16×16×256的时空特征图输入到解码网络中进行解码。经过三次反卷积和三次反池化操作得到128×128×1的预测红外图像。将得到的128×128×1的预测红外图像输入回网络，替换步骤4中的输入图像，进行下一帧预测。

步骤7：本发明从峰值信噪比(Peak Signal to Noise Ratio，PSNR)、结构相似性(Structural Similarity，SSIM)和预测一帧的时间这三个方面评价算法的性能。PSNR和SSIM的计算方法如下式所示：

MSE表示预测图像X和实际图像Y的均方误差(Mean Square Error)，H、W分别表示图像的高度和宽度。μ_X、μ_Y分别表示图像X和Y的均值，σ_X、σ_X分别表示图像X和Y的方差，σ_XY表示图像X和Y的协方差，C₁、C₂是维持稳定的常数。

本发明使用实验室采集到的测试数据集，将本发明算法与该领域其他先进算法在PSNR、SSIM和预测一帧时间上进行对比。如表1所示。

表1场景预测不同方法对比结果

从表1可以看出，本发明的网络无论是在PSNR还是SSIM上都要优于其他的方法，预测一帧红外图像的时间为0.02s，达到了实时性要求。

本发明的夜间场景预测网络可以实现预测未来1.2s后的红外图像，预测图像较准确、清晰度高；道路轮廓预测准确、清晰，能合理预测道路中行人和行驶车辆的运动变化，并且能合理填补消失的空缺。

夜间场景预测结果如图6所示，从图中可以看出本发明的场景预测图像接近真实值，预测图像较准确、清晰度高。可以预测未来1.2s后的红外图像。(a)图很好地反映了车辆行驶过程中道路转弯的变化，道路轮廓预测准确、清晰；(b)图能够合理的预测道路中行人的位置变化，并且可以合理填补消失的空缺；(c)图可以反映前方行驶车辆的运动情况。

Claims

1.一种基于ConvLSTM双通道编码网络的夜间无人车场景预测方法，其特征在于，包括以下步骤：

步骤7：重复执行步骤3至步骤6实现多帧预测。

2.如权利要求1所述的一种基于ConvLSTM双通道编码网络的夜间无人车场景预测方法，其特征在于，步骤2中，所述时间子网络利用3×3卷积核，提取红外差分图像特征，经最大池化操作得到低维特征图，最后输入到ConvLSTM网络中，得到所述时序特征，在此过程中，通过将多帧红外差分图像输入时间子网络，促使ConvLSTM网络对之前信息进行部分遗忘，对当前信息进行记忆，最终学习到所述时序特征。

3.如权利要求1所述的一种基于ConvLSTM双通道编码网络的夜间无人车场景预测方法，其特征在于，步骤3中，所述空间子网络利用Resnet网络进行特征提取，利用3个残差层对图像的结构信息进行提取，最终得到所述空间特征。

4.如权利要求1所述的一种基于ConvLSTM双通道编码网络的夜间无人车场景预测方法，其特征在于，步骤4中，所述双通道编码夜间场景预测网络利用融合网络将所述时序特征和所述空间特征串联起来，该融合网络通过concat操作得到特征，经过1个残差层，得到所述时空特征。