CN108520238B - 一种基于深度预测编码网络的夜视图像的场景预测方法 - Google Patents

一种基于深度预测编码网络的夜视图像的场景预测方法 Download PDF

Info

Publication number
CN108520238B
CN108520238B CN201810316986.1A CN201810316986A CN108520238B CN 108520238 B CN108520238 B CN 108520238B CN 201810316986 A CN201810316986 A CN 201810316986A CN 108520238 B CN108520238 B CN 108520238B
Authority
CN
China
Prior art keywords
prediction
network
image
depth
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810316986.1A
Other languages
English (en)
Other versions
CN108520238A (zh
Inventor
阮雨
孙韶媛
李佳豪
吴雪平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201810316986.1A priority Critical patent/CN108520238B/zh
Publication of CN108520238A publication Critical patent/CN108520238A/zh
Application granted granted Critical
Publication of CN108520238B publication Critical patent/CN108520238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Abstract

本发明涉及一种基于深度预测编码网络的夜视图像的场景预测方法,包括如下步骤:步骤1:构建夜视图像数据集;步骤2:构建深度预测编码网络;步骤3:实时获取待处理的图像,将图像输入深度卷积神经网络得到对应的特征图,再将特征图输入深度循环神经网络,将预测误差在网络中进行前向传递,最终输出场景预测图像。本发明实现了夜间模式下自动驾驶的场景预测,能够帮助汽车或驾驶员在夜间行驶时提前了解周围的情况并及时作出相应的决策,提高了自动驾驶汽车的安全性。

Description

一种基于深度预测编码网络的夜视图像的场景预测方法
技术领域
本发明涉及夜视图像处理技术领域,特别是涉及一种基于深度预测编码网络的夜视图像的场景预测方法。
背景技术
自动驾驶汽车是一种自动化载具,具有传统汽车的一般功能。它不需要人为操作就能够感知其周围的环境及实现导航。完全的自动驾驶汽车仍然未全面实现商用化,部分需要依靠技术才下放至量产车型。但关于自动驾驶汽车已经在逐渐成为现实,引起了很多关于行车安全性的讨论。夜间由于光线不充足,人们识别周围场景的能力大大降低。如果汽车在行驶过程中能够提前预知周围场景的变化,就能够帮助驾驶员提前做出相应的调整,那么自动驾驶汽车的安全性可以得到很大的提高。场景预测是自动驾驶汽车理解周围场景变化的重要一环,对自动驾驶汽车的自主导航具有重要意义。在开始或出现之前预测即将发生的对象和动作是计算机视觉领域中的一个难题,一个非常重要的原因是它需要将这个世界上广泛的知识利用起来,而想要把这些知识完全记录下来是非常困难的。有一些研究者认为,可以利用未经过人工标记的视频来学习这种知识。场景预测在近几年受到人们的高度关注,在可见光领域:MichaelMathieu等人提出了三种互补的特征学习策略应用于预测中,可以解决由于不确定因素导致的预测中产生的模糊问题。Vondrick等人利用大量无标记的视频学习视频识别任务和视频生成任务中的场景动态,提出了一个面向视频的生成式对抗网络,可以用于预测静态图片的合理未来。WilliamLotter等人提出一种预测性神经网络结构,利用时间信息在未标记的视频中进行学习,来预测人的行为和对象,其不足在于只能预测大约0.09秒后的驾驶场景图像,对于处理长时间的场景预测任务效果不太好,不利于驾驶员及时作出相应的调整。目前,图像的场景预测多集中于可见光领域,极少研究夜间模式下的场景预测。
发明内容
本发明所要解决的技术问题是提供一种基于深度预测编码网络的夜视图像的场景预测方法,能够帮助汽车或驾驶员在夜间行驶时提前预知周围的场景变化,及时作出相应的决策,提高自动驾驶汽车的安全性。
本发明解决其技术问题所采用的技术方案是:提供一种基于深度预测编码网络的夜视图像的场景预测方法,包括以下步骤:
(1)构建夜视图像数据集,夜视图像数据集中包括训练样本图像及测试样本图像;
(2)构建深度预测编码网络,利用夜视图像数据集训练所述深度预测编码网络,其中:深度预测编码网络包括深度卷积神经网络及深度循环神经网络,通过深度卷积神经网络提取输入的原始图像的特征,再通过深度循环神经网络将每一幅图像预测的误差在网络中进行前向传递,不断更新预测误差,在每一次预测中调整预测结果,得到最终的预测图像;
(3)实时获取待处理的图像,将图像输入深度卷积神经网络后,得到对应的特征图;采用循环神经网络读取得到的特征图,不断调整预测误差,输出场景预测图像。
所述步骤(2)中的深度卷积神经网络为一系列的卷积、激励和池化的过程,其中,采用VGG16作为卷积网络,池化采用最大值池化。
所述步骤(2)中的深度预测编码网络是由一系列重复堆叠的模块构成,这些模块对输入进行局部预测,然后将预测结果减去实际输入,传递给下一层;每个模块由输入卷积层、循环表示层、预测层和误差表示层这四个基本部分组成;其中循环表示层是一个卷积-循环神经网络,它会产生一个预测图像;网络采用输入图像和预测图像之间的差异,并输出一个误差,该误差表示被分解为独立的纠正正负误差群;误差通过卷积层向前传递,成为下一层卷积输入层的输入;循环表示层的输入是误差、和上一时刻的循环表示层输出和网络下一级循环表示层的输出;在运行的第一步,输入卷积层和误差表示层相当于一个标准的深度卷积网络;同时,循环表示层等价于每一阶段具有局部复现的生成反卷积网络。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明通过使用深度学习,采用红外摄像机拍摄的未标记的红外视频,利用了视频中都存在但却容易被忽略的一个重要信息------物体的时间变化特征,采用预测编码网络来构建物体的动态模型,从学习物体在时间上的特征变化来预测视频的变化,无需手工选取特征,即可充分挖掘夜视图像中蕴含的有效信息,生成相应的场景预测图像。由该方法训练得到的场景预测模型,可以直接预测夜间驾驶场景0.4s后的合理未来,预留了足够的时间便于汽车或驾驶员及时作出相应的调整,大大提高了夜间行车的安全性。
附图说明
图1是本发明的流程图;
图2是本发明中深度预测编码网络结构图,其中(a)为模块堆叠示意图,(b)为模块结构示意图;
图3是本发明的夜视图像场景预测实验结果图,其中(a)反应出车辆行驶过程中大门的视觉变化,(b)预测到道路的转弯情况,(c)预测出行人的位置移动,(d)很好地反应来往车辆的运动情况。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
如图1所示,基于深度预测编码网络的夜间模式下自动驾驶的场景预测方法的具体实施如下:
步骤1:图像采集。采用实验室的FLIR红外摄像头模拟自动驾驶环境下采集的实验数据,采集的场地为校园内。经过筛选后得到的采集图像为2282张,图片尺寸为640像素×480像素。
步骤2:构建深度预测编码网络,利用步骤1得到的夜视图像数据集训练该深度预测编码网络,其中:深度预测编码网络主要包括深度卷积神经网络及深度循环神经网络,调整了原始的网络结构,通过深度卷积神经网络提取输入的原始图像的特征,再通过循环神经网络将每一幅图像预测的误差在网络中进行前向传递,不断更新预测误差,在每一次预测中调整预测结果,得到最终的预测图像。
其中,在深度循环神经网络建模中,需要利用到视频中的长时间信息,为了防止产生梯度消失和梯度爆炸的情况,采用了一种经过改进后的深度循环神经网络--长短时记忆网络(LongShort-TermMemory,LSTM)。
如图2所示,整个预测编码网络由一系列重复堆叠的模块构成,这些模块可以对模块的输入进行局部预测,然后将预测结果减去实际输入,传递给下一层。网络的每个模块由四个基本部分组成:输入卷积层(Al),循环表示层(Rl),预测层
Figure BDA0001624104910000031
和误差表示层(El)。表示层Rl是一个卷积-循环神经网络,它会产生一个预测图像
Figure BDA0001624104910000032
网络采用输入图像Al和预测图像
Figure BDA0001624104910000033
之间的差异,并输出一个误差El,该误差表示被分解为独立的纠正正负误差群。然后,误差El通过卷积层向前传递,成为下一层输入卷积层Al+1的输入。循环表示层Rl的输入是误差El、上一时刻的循环表示层的输出
Figure BDA0001624104910000041
和网络下一级循环表示层的输出Rl+1。网络的组织是这样的,在运行的第一步,输入卷积层和误差表示层相当于一个标准的深度卷积网络。同时,循环表示层等价于每一阶段具有局部复现的生成反卷积网络。
考虑一系列输入图像xt,最低层的目标被设置为实际序列本身,即
Figure BDA0001624104910000042
通过对来自较低层的误差单元
Figure BDA0001624104910000043
进行卷积,然后整流线性单元(RELU)激活和最大值池化,来计算较高层的目标
Figure BDA0001624104910000044
由于在前馈中存在池化,根据误差El、上一时刻的
Figure BDA0001624104910000045
和上采样网络下一级循环表示层的Rl+1来更新
Figure BDA0001624104910000046
预测层
Figure BDA0001624104910000047
是通过对
Figure BDA0001624104910000048
执行卷积和RELU操作。对于最低层,
Figure BDA0001624104910000049
设置一个饱和非线性的最大像素值:SatLU(x;pmax):=min(pmax,x),pmax表示设置的最大像素值,min(pmax,x)表示选取pmax和x中的最小值。最后,误差响应
Figure BDA00016241049100000410
Figure BDA00016241049100000411
Figure BDA00016241049100000412
之间的差值计算,并被分成沿着特征维度级联的正向和负向预测误差。
具体更新规则如下:
Figure BDA00016241049100000413
Figure BDA00016241049100000414
Figure BDA00016241049100000415
Figure BDA00016241049100000416
Figure BDA00016241049100000417
其中,MAXPOOL()表示最大值池化函数,RELU()表示线性整流函数,CONV()表示卷积函数,CONVLSTM()表示卷积-循环函数,UPSAMPLE()表示上采样函数。
方程(1)-(4)中列出了整套更新规则。训练该模型以最小化误差单元的加权总和。在本实施方式中,训练损失在方程(5)中用加权因子按时间λt和网络层λl形式化,其中nl代表网络第l层的单元数量。误差单元组成经过减法操作后接RELU激活,每一层的损失相当于一个Ll误差。状态更新发生在两个通道上:一个自上而下的通道,这里会计算Rlt状态,另外一个是前向通道,计算预测结果、误差和更高层的目标。
步骤3:实时获取待处理的大小为640×480×1的图像,将图像输入深度卷积神经网络后,得到大小为20×15×512的特征图。本发明的深度卷积神经网络的详细配置如表1所示。
表1深度卷积神经网络的详细配置
输入 卷积核尺寸 步幅 填充 输出大小
红外图像 - - - 640×480×1
Conv1-1 3×3 1 1 640×480×64
Conv1-2 3×3 1 1 640×480×64
Pool1 2×2 2 0 320×240×64
Conv2-1 3×3 1 1 320×240×128
Conv2-2 3×3 1 1 320×240×128
Pool2 2×2 2 0 160×120×128
Conv3-1 3×3 1 1 160×120×256
Conv3-2 3×3 1 1 160×120×256
Conv3-3 3×3 1 1 160×120×256
Pool3 2×2 2 0 80×60×256
Conv4-1 3×3 1 1 80×60×256
Conv4-2 3×3 1 1 80×60×256
Conv4-3 3×3 1 1 40×30×256
Pool4 2×2 2 0 40×30×512
Conv5-1 3×3 1 1 40×30×512
Conv5-2 3×3 1 1 40×30×512
Conv5-3 3×3 1 1 40×30×512
Pool5 2×2 2 0 20×15×512
(1)输入一幅640×480×1的夜视图像,通过卷积核大小为3×3的Conv1-1和Conv1-2卷积层,再经过池化层pool1,输出为320×240×64的特征图;
(2)将(1)中得到的特征图通过卷积核大小为3×3的Conv2-1和Conv2-2卷积层,再经过池化层pool2,输出为160×120×128的特征图;
(3)将(2)中得到的特征图通过卷积核大小为3×3的Conv3-1、Conv3-2和Conv3-3卷积层,再经过池化层pool3,输出为80×60×256的特征图;
(4)将(3)中得到的特征图通过卷积核大小为3×3的Conv4-1、Conv4-2和Conv4-3卷积层,再经过池化层pool4,输出为40×30×512的特征图;
(5)将(4)中得到的特征图通过卷积核大小为3×3的Conv5-1、Conv5-2和Conv5-3卷积层,再经过池化层pool5,输出为20×15×512的特征图。完成卷积层的操作,实现特征提取。
将得到的20×15×512的特征图输入深度循环神经网络,深度循环神经网络由多个LSTM网络构成,LSTM将图像预测误差在网络中进行前向传递,不断调整产生的预测图像与真实下一幅图像之间的误差,以及不同网络层特征图像的误差,以此来训练网络的预测能力。
图3为本发明的夜视图像场景预测实验结果。可以看出,场景预测图片接近真实值,可以预测当前时刻0.4s后的一帧图像。(a)可以很好地反应出车辆行驶过程中大门的视觉变化,(b)可以预测到道路的转弯情况,(c)能够合理地预测出行人的位置移动,(d)可以很好地反应来往车辆的运动情况。

Claims (2)

1.一种基于深度预测编码网络的夜视图像的场景预测方法,其特征在于,包括以下步骤:
(1)构建夜视图像数据集,夜视图像数据集中包括训练样本图像及测试样本图像;
(2)构建深度预测编码网络,利用夜视图像数据集训练所述深度预测编码网络,其中:深度预测编码网络包括深度卷积神经网络及深度循环神经网络,通过深度卷积神经网络提取输入的原始图像的特征,再通过深度循环神经网络将每一幅图像预测的误差在网络中进行前向传递,不断更新预测误差,在每一次预测中调整预测结果,得到最终的预测图像;其中,所述深度预测编码网络是由一系列重复堆叠的模块构成,这些模块对输入进行局部预测,然后将预测结果减去实际输入,传递给下一层;每个模块由输入卷积层、循环表示层、预测层和误差表示层这四个基本部分组成;其中循环表示层是一个卷积-循环神经网络,它会产生一个预测图像;网络采用输入图像和预测图像之间的差异,并输出一个误差,该误差表示被分解为独立的纠正正负误差群;误差通过卷积层向前传递,成为下一层卷积输入层的输入;循环表示层的输入是误差、和上一时刻的循环表示层输出和网络下一级循环表示层的输出;在运行的第一步,输入卷积层和误差表示层相当于一个标准的深度卷积网络;同时,循环表示层等价于每一阶段具有局部复现的生成反卷积网络;
(3)实时获取待处理的图像,将图像输入深度卷积神经网络后,得到对应的特征图;采用循环神经网络读取得到的特征图,不断调整预测误差,输出场景预测图像。
2.根据权利要求1所述的基于深度预测编码网络的夜视图像的场景预测方法,其特征在于,所述步骤(2)中的深度卷积神经网络为一系列的卷积、激励和池化的过程,其中,采用VGG16作为卷积网络,池化采用最大值池化。
CN201810316986.1A 2018-04-10 2018-04-10 一种基于深度预测编码网络的夜视图像的场景预测方法 Active CN108520238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810316986.1A CN108520238B (zh) 2018-04-10 2018-04-10 一种基于深度预测编码网络的夜视图像的场景预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810316986.1A CN108520238B (zh) 2018-04-10 2018-04-10 一种基于深度预测编码网络的夜视图像的场景预测方法

Publications (2)

Publication Number Publication Date
CN108520238A CN108520238A (zh) 2018-09-11
CN108520238B true CN108520238B (zh) 2021-08-31

Family

ID=63432341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810316986.1A Active CN108520238B (zh) 2018-04-10 2018-04-10 一种基于深度预测编码网络的夜视图像的场景预测方法

Country Status (1)

Country Link
CN (1) CN108520238B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508639B (zh) * 2018-10-12 2021-04-16 浙江科技学院 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN109815846B (zh) * 2018-12-29 2021-08-27 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和电子装置
CN110717248A (zh) * 2019-09-11 2020-01-21 武汉光庭信息技术股份有限公司 自动驾驶仿真场景的生成方法及系统、服务器及介质
CN110850711A (zh) * 2019-12-06 2020-02-28 中国科学院自动化研究所 基于云端的辅助驾驶控制系统及方法
CN111860427B (zh) * 2020-07-30 2022-07-01 重庆邮电大学 基于轻量级类八维卷积神经网络的驾驶分心识别方法
CN113191283B (zh) * 2021-05-08 2022-09-23 河北工业大学 一种基于在途出行者情绪变化的行驶路径决策方法
CN113239901B (zh) * 2021-06-17 2022-09-27 北京三快在线科技有限公司 场景识别方法、装置、设备及存储介质
CN114826983B (zh) * 2022-06-08 2023-11-17 深圳云豹智能有限公司 Virtio网络设备延时定位方法、处理单元及virtio网络设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN107729987A (zh) * 2017-09-19 2018-02-23 东华大学 基于深度卷积‑循环神经网络的夜视图像的自动描述方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9508340B2 (en) * 2014-12-22 2016-11-29 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN107729987A (zh) * 2017-09-19 2018-02-23 东华大学 基于深度卷积‑循环神经网络的夜视图像的自动描述方法

Also Published As

Publication number Publication date
CN108520238A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN108520238B (zh) 一种基于深度预测编码网络的夜视图像的场景预测方法
US11734918B2 (en) Object identification apparatus, moving body system, object identification method, object identification model learning method, and object identification model learning apparatus
CN111738037B (zh) 一种自动驾驶方法及其系统、车辆
CN111208818B (zh) 基于视觉时空特征的智能车预测控制方法
CN113468978B (zh) 基于深度学习的细粒度车身颜色分类方法、装置和设备
Giering et al. Multi-modal sensor registration for vehicle perception via deep neural networks
CN114936605A (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN110281949B (zh) 一种自动驾驶统一分层决策方法
CN111832453A (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN116229452B (zh) 一种基于改进的多尺度特征融合的点云三维目标检测方法
CN115512251A (zh) 基于双分支渐进式特征增强的无人机低照度目标跟踪方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
Ding Lenet: Lightweight and efficient lidar semantic segmentation using multi-scale convolution attention
CN115294548B (zh) 一种基于行方向上位置选择和分类方法的车道线检测方法
CN116912485A (zh) 一种基于热感图像和可见光图像特征融合的场景语义分割方法
CN114782915B (zh) 基于辅助监督和知识蒸馏的智能汽车端到端车道线检测系统及设备
CN115035429A (zh) 一种基于复合主干网络和多预测头的航拍目标检测方法
CN113641875A (zh) 一种基于自查询的用于无人车的多目标跟踪器及跟踪方法
Van Toan et al. Multi-scale synergy approach for real-time semantic segmentation
CN113343817A (zh) 一种面向目标区域的无人车路径检测方法、装置及介质
CN113781444B (zh) 基于多层感知机校正的快速拼接航拍图像的方法和系统
CN113065499B (zh) 基于视觉学习驱动的空中机器人集群控制方法及系统
CN110991337B (zh) 一种基于自适应双路检测网络的车辆检测方法
CN115272814B (zh) 一种远距离空间自适应多尺度的小目标检测方法
CN117689731B (zh) 一种基于改进YOLOv5模型的轻量化新能源重卡电池包识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant