CN108520238B

CN108520238B - 一种基于深度预测编码网络的夜视图像的场景预测方法

Info

Publication number: CN108520238B
Application number: CN201810316986.1A
Authority: CN
Inventors: 阮雨; 孙韶媛; 李佳豪; 吴雪平
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2021-08-31
Anticipated expiration: 2038-04-10
Also published as: CN108520238A

Abstract

本发明涉及一种基于深度预测编码网络的夜视图像的场景预测方法，包括如下步骤：步骤1：构建夜视图像数据集；步骤2：构建深度预测编码网络；步骤3：实时获取待处理的图像，将图像输入深度卷积神经网络得到对应的特征图，再将特征图输入深度循环神经网络，将预测误差在网络中进行前向传递，最终输出场景预测图像。本发明实现了夜间模式下自动驾驶的场景预测，能够帮助汽车或驾驶员在夜间行驶时提前了解周围的情况并及时作出相应的决策，提高了自动驾驶汽车的安全性。

Description

一种基于深度预测编码网络的夜视图像的场景预测方法

技术领域

本发明涉及夜视图像处理技术领域，特别是涉及一种基于深度预测编码网络的夜视图像的场景预测方法。

背景技术

自动驾驶汽车是一种自动化载具，具有传统汽车的一般功能。它不需要人为操作就能够感知其周围的环境及实现导航。完全的自动驾驶汽车仍然未全面实现商用化，部分需要依靠技术才下放至量产车型。但关于自动驾驶汽车已经在逐渐成为现实，引起了很多关于行车安全性的讨论。夜间由于光线不充足，人们识别周围场景的能力大大降低。如果汽车在行驶过程中能够提前预知周围场景的变化，就能够帮助驾驶员提前做出相应的调整，那么自动驾驶汽车的安全性可以得到很大的提高。场景预测是自动驾驶汽车理解周围场景变化的重要一环，对自动驾驶汽车的自主导航具有重要意义。在开始或出现之前预测即将发生的对象和动作是计算机视觉领域中的一个难题，一个非常重要的原因是它需要将这个世界上广泛的知识利用起来，而想要把这些知识完全记录下来是非常困难的。有一些研究者认为，可以利用未经过人工标记的视频来学习这种知识。场景预测在近几年受到人们的高度关注，在可见光领域：MichaelMathieu等人提出了三种互补的特征学习策略应用于预测中，可以解决由于不确定因素导致的预测中产生的模糊问题。Vondrick等人利用大量无标记的视频学习视频识别任务和视频生成任务中的场景动态，提出了一个面向视频的生成式对抗网络，可以用于预测静态图片的合理未来。WilliamLotter等人提出一种预测性神经网络结构，利用时间信息在未标记的视频中进行学习，来预测人的行为和对象，其不足在于只能预测大约0.09秒后的驾驶场景图像，对于处理长时间的场景预测任务效果不太好，不利于驾驶员及时作出相应的调整。目前，图像的场景预测多集中于可见光领域，极少研究夜间模式下的场景预测。

发明内容

本发明所要解决的技术问题是提供一种基于深度预测编码网络的夜视图像的场景预测方法，能够帮助汽车或驾驶员在夜间行驶时提前预知周围的场景变化，及时作出相应的决策，提高自动驾驶汽车的安全性。

本发明解决其技术问题所采用的技术方案是：提供一种基于深度预测编码网络的夜视图像的场景预测方法，包括以下步骤：

(1)构建夜视图像数据集，夜视图像数据集中包括训练样本图像及测试样本图像；

(2)构建深度预测编码网络，利用夜视图像数据集训练所述深度预测编码网络，其中：深度预测编码网络包括深度卷积神经网络及深度循环神经网络，通过深度卷积神经网络提取输入的原始图像的特征，再通过深度循环神经网络将每一幅图像预测的误差在网络中进行前向传递，不断更新预测误差，在每一次预测中调整预测结果，得到最终的预测图像；

(3)实时获取待处理的图像，将图像输入深度卷积神经网络后，得到对应的特征图；采用循环神经网络读取得到的特征图，不断调整预测误差，输出场景预测图像。

所述步骤(2)中的深度卷积神经网络为一系列的卷积、激励和池化的过程，其中，采用VGG16作为卷积网络，池化采用最大值池化。

所述步骤(2)中的深度预测编码网络是由一系列重复堆叠的模块构成，这些模块对输入进行局部预测，然后将预测结果减去实际输入，传递给下一层；每个模块由输入卷积层、循环表示层、预测层和误差表示层这四个基本部分组成；其中循环表示层是一个卷积-循环神经网络，它会产生一个预测图像；网络采用输入图像和预测图像之间的差异，并输出一个误差，该误差表示被分解为独立的纠正正负误差群；误差通过卷积层向前传递，成为下一层卷积输入层的输入；循环表示层的输入是误差、和上一时刻的循环表示层输出和网络下一级循环表示层的输出；在运行的第一步，输入卷积层和误差表示层相当于一个标准的深度卷积网络；同时，循环表示层等价于每一阶段具有局部复现的生成反卷积网络。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明通过使用深度学习，采用红外摄像机拍摄的未标记的红外视频，利用了视频中都存在但却容易被忽略的一个重要信息------物体的时间变化特征，采用预测编码网络来构建物体的动态模型，从学习物体在时间上的特征变化来预测视频的变化，无需手工选取特征，即可充分挖掘夜视图像中蕴含的有效信息，生成相应的场景预测图像。由该方法训练得到的场景预测模型，可以直接预测夜间驾驶场景0.4s后的合理未来，预留了足够的时间便于汽车或驾驶员及时作出相应的调整，大大提高了夜间行车的安全性。

附图说明

图1是本发明的流程图；

图2是本发明中深度预测编码网络结构图，其中(a)为模块堆叠示意图，(b)为模块结构示意图；

图3是本发明的夜视图像场景预测实验结果图，其中(a)反应出车辆行驶过程中大门的视觉变化，(b)预测到道路的转弯情况，(c)预测出行人的位置移动，(d)很好地反应来往车辆的运动情况。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

如图1所示，基于深度预测编码网络的夜间模式下自动驾驶的场景预测方法的具体实施如下：

步骤1：图像采集。采用实验室的FLIR红外摄像头模拟自动驾驶环境下采集的实验数据，采集的场地为校园内。经过筛选后得到的采集图像为2282张，图片尺寸为640像素×480像素。

步骤2：构建深度预测编码网络，利用步骤1得到的夜视图像数据集训练该深度预测编码网络，其中：深度预测编码网络主要包括深度卷积神经网络及深度循环神经网络，调整了原始的网络结构，通过深度卷积神经网络提取输入的原始图像的特征，再通过循环神经网络将每一幅图像预测的误差在网络中进行前向传递，不断更新预测误差，在每一次预测中调整预测结果，得到最终的预测图像。

其中，在深度循环神经网络建模中，需要利用到视频中的长时间信息，为了防止产生梯度消失和梯度爆炸的情况，采用了一种经过改进后的深度循环神经网络--长短时记忆网络(LongShort-TermMemory,LSTM)。

如图2所示，整个预测编码网络由一系列重复堆叠的模块构成，这些模块可以对模块的输入进行局部预测，然后将预测结果减去实际输入，传递给下一层。网络的每个模块由四个基本部分组成：输入卷积层(A_l)，循环表示层(R_l)，预测层

和误差表示层(E_l)。表示层R_l是一个卷积-循环神经网络，它会产生一个预测图像

网络采用输入图像A_l和预测图像

之间的差异，并输出一个误差E_l，该误差表示被分解为独立的纠正正负误差群。然后，误差E_l通过卷积层向前传递，成为下一层输入卷积层A_l+1的输入。循环表示层R_l的输入是误差E_l、上一时刻的循环表示层的输出

和网络下一级循环表示层的输出R_l+1。网络的组织是这样的，在运行的第一步，输入卷积层和误差表示层相当于一个标准的深度卷积网络。同时，循环表示层等价于每一阶段具有局部复现的生成反卷积网络。

考虑一系列输入图像x_t，最低层的目标被设置为实际序列本身，即

通过对来自较低层的误差单元

进行卷积，然后整流线性单元(RELU)激活和最大值池化，来计算较高层的目标

由于在前馈中存在池化，根据误差E_l、上一时刻的

和上采样网络下一级循环表示层的R_l+1来更新

预测层

是通过对

执行卷积和RELU操作。对于最低层，

设置一个饱和非线性的最大像素值：SatLU(x；p_max)：＝min(p_max，x)，p_max表示设置的最大像素值，min(p_max,x)表示选取p_max和x中的最小值。最后，误差响应

由

和

之间的差值计算，并被分成沿着特征维度级联的正向和负向预测误差。

具体更新规则如下：

其中，MAXPOOL()表示最大值池化函数，RELU()表示线性整流函数，CONV()表示卷积函数，CONVLSTM()表示卷积-循环函数，UPSAMPLE()表示上采样函数。

方程(1)-(4)中列出了整套更新规则。训练该模型以最小化误差单元的加权总和。在本实施方式中，训练损失在方程(5)中用加权因子按时间λ_t和网络层λ_l形式化，其中n_l代表网络第l层的单元数量。误差单元组成经过减法操作后接RELU激活，每一层的损失相当于一个L_l误差。状态更新发生在两个通道上：一个自上而下的通道，这里会计算R_lt状态，另外一个是前向通道，计算预测结果、误差和更高层的目标。

步骤3：实时获取待处理的大小为640×480×1的图像，将图像输入深度卷积神经网络后，得到大小为20×15×512的特征图。本发明的深度卷积神经网络的详细配置如表1所示。

表1深度卷积神经网络的详细配置

输入	卷积核尺寸	步幅	填充	输出大小
					红外图像	-	-	-	640×480×1
Conv1-1	3×3	1	1	640×480×64
					Conv1-2	3×3	1	1	640×480×64
Pool1	2×2	2	0	320×240×64
					Conv2-1	3×3	1	1	320×240×128
Conv2-2	3×3	1	1	320×240×128
					Pool2	2×2	2	0	160×120×128
Conv3-1	3×3	1	1	160×120×256
					Conv3-2	3×3	1	1	160×120×256
Conv3-3	3×3	1	1	160×120×256
					Pool3	2×2	2	0	80×60×256
Conv4-1	3×3	1	1	80×60×256
					Conv4-2	3×3	1	1	80×60×256
Conv4-3	3×3	1	1	40×30×256
					Pool4	2×2	2	0	40×30×512
Conv5-1	3×3	1	1	40×30×512
					Conv5-2	3×3	1	1	40×30×512
Conv5-3	3×3	1	1	40×30×512
					Pool5	2×2	2	0	20×15×512

(1)输入一幅640×480×1的夜视图像，通过卷积核大小为3×3的Conv1-1和Conv1-2卷积层，再经过池化层pool1，输出为320×240×64的特征图；

(2)将(1)中得到的特征图通过卷积核大小为3×3的Conv2-1和Conv2-2卷积层，再经过池化层pool2，输出为160×120×128的特征图；

(3)将(2)中得到的特征图通过卷积核大小为3×3的Conv3-1、Conv3-2和Conv3-3卷积层，再经过池化层pool3，输出为80×60×256的特征图；

(4)将(3)中得到的特征图通过卷积核大小为3×3的Conv4-1、Conv4-2和Conv4-3卷积层，再经过池化层pool4，输出为40×30×512的特征图；

(5)将(4)中得到的特征图通过卷积核大小为3×3的Conv5-1、Conv5-2和Conv5-3卷积层，再经过池化层pool5，输出为20×15×512的特征图。完成卷积层的操作，实现特征提取。

将得到的20×15×512的特征图输入深度循环神经网络，深度循环神经网络由多个LSTM网络构成，LSTM将图像预测误差在网络中进行前向传递，不断调整产生的预测图像与真实下一幅图像之间的误差，以及不同网络层特征图像的误差，以此来训练网络的预测能力。

图3为本发明的夜视图像场景预测实验结果。可以看出，场景预测图片接近真实值，可以预测当前时刻0.4s后的一帧图像。(a)可以很好地反应出车辆行驶过程中大门的视觉变化，(b)可以预测到道路的转弯情况，(c)能够合理地预测出行人的位置移动，(d)可以很好地反应来往车辆的运动情况。

Claims

1.一种基于深度预测编码网络的夜视图像的场景预测方法，其特征在于，包括以下步骤：

(2)构建深度预测编码网络，利用夜视图像数据集训练所述深度预测编码网络，其中：深度预测编码网络包括深度卷积神经网络及深度循环神经网络，通过深度卷积神经网络提取输入的原始图像的特征，再通过深度循环神经网络将每一幅图像预测的误差在网络中进行前向传递，不断更新预测误差，在每一次预测中调整预测结果，得到最终的预测图像；其中，所述深度预测编码网络是由一系列重复堆叠的模块构成，这些模块对输入进行局部预测，然后将预测结果减去实际输入，传递给下一层；每个模块由输入卷积层、循环表示层、预测层和误差表示层这四个基本部分组成；其中循环表示层是一个卷积-循环神经网络，它会产生一个预测图像；网络采用输入图像和预测图像之间的差异，并输出一个误差，该误差表示被分解为独立的纠正正负误差群；误差通过卷积层向前传递，成为下一层卷积输入层的输入；循环表示层的输入是误差、和上一时刻的循环表示层输出和网络下一级循环表示层的输出；在运行的第一步，输入卷积层和误差表示层相当于一个标准的深度卷积网络；同时，循环表示层等价于每一阶段具有局部复现的生成反卷积网络；

2.根据权利要求1所述的基于深度预测编码网络的夜视图像的场景预测方法，其特征在于，所述步骤(2)中的深度卷积神经网络为一系列的卷积、激励和池化的过程，其中，采用VGG16作为卷积网络，池化采用最大值池化。