CN110839156A

CN110839156A - 一种基于视频图像的未来帧预测方法及模型

Info

Publication number: CN110839156A
Application number: CN201911089718.1A
Authority: CN
Inventors: 赵志诚; 苏菲; 杜丽
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-02-25

Abstract

本发明提出一种基于视频图像的未来帧预测方法及模型，属于图像模式识别领域。模型包括：记忆回溯模块、记忆精炼模块、特征融合模块以及图像预测模块；方法包括：步骤1、顺序读取视频帧序列，组成固定长度的视频段序列；步骤2、将视频段输入记忆回溯模块，记忆回溯模块对输入的视频段进行空时特征提取；步骤3、对提取的空时特征通过记忆精炼模块，抽象为更高层次的隐含特征；步骤4、将隐含特征与输入的视频段中的最后一帧基于二维神经网络的多通道进行特征融合，最终输出预测的图像帧。本发明通过FFSPRE模型验证了人脑预测未来空间特征的能力，通过实验进一步证明了存在有一个通用的预测机制，能够完成预测短时未来图像的任务。

Description

一种基于视频图像的未来帧预测方法及模型

技术领域

本发明属于图像模式识别领域，尤其涉及基于深度学习的视频图像的生成技术。

背景技术

需要提前思考或预测下一步是什么，是我们日常现实中经常出现的一种状况。这些状况可能会像试图抓住飞向你的球一样微不足道，或是避免被路上的汽车撞到一样重要。无论具体情况如何，研究人员认为人脑中有一种机制，可以让我们看到一系列事件中的下一步。

在测试这个图像“预测”的实验以前仅限于观察动物视觉皮层中发生的事情。现在，荷兰拉德堡德大学的研究人员开发了一项实验，其结果表明了人类的大脑不仅能够快速形成未来运动的形象，而且大脑的视觉皮层也与过去的经验相结合，以预测未来的发展。最有可能的是，它发展出了预测未来的能力，以促进更快的行动，这可能是生与死之间的差异。

未来预测对于实际生活中具有重要的现实意义。特别是对于驾驶辅助领域来说，未来帧预测是高级驾驶辅助(ADAS)/无人驾驶系统功能优化方面的潜在解决方法之一，如果能模拟驾驶员做出驾驶决策之前的基于视觉信息的预测机制并生成未来可能发生的场景图像，就可以在一定程度上指导驾驶辅助/无人驾驶系统做出合理的驾驶决策，从而保证车辆完成正常的驾驶过程(参考文件[1]:Andrea,Palazzi,et al."Predicting theDriver's Focus of Attention:the DR(eye)VE Project."IEEE Transactions onPattern Analysis and Machine Intelligence(2018):1-1.)。

目前，基于深度学习方法主要可以使用两种方法进行研究。一种是生成对抗网络(GAN)，其模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)，两个模型的互相博弈学习产生相当好的输出，但基于GAN的任务模型需要有良好的训练方法，否则可能由于神经网络模型的自由性而导致输出不理想。其次，与单模型网络相比，GAN模型的复杂度较高，计算量偏大。另一种是基于上采样计算的单模型网络，由于其只由一个完整的网络模型组成，因此结构较为简单，但影响输出结果。

在过去几年里，基于深度学习的方法在图像特征学习方面取得了快速的进步，各种预训练卷积网络模型被用于图像特征的提取。这些特征是网络最后几个全连接层的激活值，在迁移学习的任务中表现良好。但是由于缺少对运动信息的建模，这些基于图像的深度特征并不直接适用于基于视频数据完成的任务，不适用于ADAS/无人驾驶系统中未来帧的预测任务。在视频图像生成的时候，由于使用的视频图像中的前背景都处于动态变化过程中，相邻帧之间的差异较小且差异主要体现为驾驶场景中物体种类和尺度的动态变化，因此利用现有技术对单张图片进行二维特征的分析，很容易存在动态特征丢失的情况，导致预测不准确。

发明内容

由于目前深度学习方法提取的图像深度特征并不直接适用于基于视频数据完成的任务以及深度学习方法存在的不足，对视频图像进行二维特征分析存在动态特征丢失，预测不准确的问题，因此，本发明提出一种基于视频图像的未来帧预测模型及方法。本发明使用三维卷积深度网络模型来学习视频段的时空特征；充分利用视频中图像帧的外观信息及帧间的运动信息和三维卷积深度网络模型的优势，通过提出一个由记忆回溯、记忆精炼和预测模块组成的深度学习模型来模拟人脑的预测机制，实现基于视频图像的未来帧预测。

本发明提出的一种基于视频图像的未来帧预测新模型，包括记忆回溯模块、记忆精炼模块、特征融合模块以及图像预测模块。记忆回溯模块利用三维卷积网络的卷积操作部分对输入的视频段进行空时特征提取，空时特征包括视频图像帧的空间特征和帧间时序特征；记忆精炼模块利用三维反卷积层将所述的空时特征抽象为高层空时语义特征；特征融合模块将所述的高层空时语义特征与输入的视频段的最后一帧基于二维神经网络的多通道进行信息融合与推理，输出融合后的空间特征给图像预测模块；图像预测模块进行未来帧空间特征的预测，输出预测图像。

对应地，本发明提出的一种基于视频图像的未来帧预测新方法，包括如下步骤：

步骤1、顺序读取视频帧序列，组成固定长度的视频段序列，相邻的视频段具有重叠区域；

步骤2、将视频段输入记忆回溯模块，记忆回溯模块利用三维卷积网络的卷积操作部分对输入的视频段进行空时特征提取，空时特征包括视频图像帧的空间特征和帧间时序特征；

步骤3、对提取的空时特征通过记忆精炼模块，抽象为更高层次的隐含特征；

所述的记忆精炼模块利用三维反卷积层将空时特征抽象为高层空时语义特征；

步骤4、将隐含特征与输入的视频段中的最后一帧基于二维神经网络的多通道进行特征融合，然后输入到图像预测模块，图像预测模块基于二维卷积网络对输入的视频段的未来帧的空间特征进行预测，最终输出预测的图像帧。

本发明与现有技术相比，具有以下优势和积极效果：

(1)本发明提出的FFSPRE模型验证了人脑预测未来空间特征的能力，通过实验进一步证明了存在有一个通用的预测机制，能够完成预测短时未来图像的任务。

(2)通过对本发明模型及方法的测试验证，本发明所使用的深度学习模型生成的未来图像帧与真实未来图像间的平均结构性相似测量(SSIM)值可达到0.2425，平均均方误差比现有对比基准在相同数据集上提高了10个百分点，量化指标证明了本发明模型及方法的空间特征生成能力。

(3)本发明通过图像的可视化操作，通过人眼观察模型生成的未来图像与真实图像，在视频帧率为25f/s的正常视频数据集中，生成的图像能够基本达到大多数人眼对图像结构性信息保留的标准。

附图说明

图1是本发明提供的端到端训练的深度神经网络模型FFSPRE的示意图；

图2是本发明基于视频图像的未来帧预测新方法的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细和深入描述。

受到现有实验理论及结果的启发，本发明提出的一种基于视频图像的未来帧预测模型及方法，是基于三维卷积深度网络实现的未来帧预测。现有的理论和实际经验表明，采用三维卷积深度网络可以对外观和运动同时建模，使用该方法所学到的特征与简单的线性分类器在各种视频分析任务中效果良好。本发明实施例中以ADAS/无人驾驶系统中的未来帧预测任务来说明本发明的实现。本发明使用深度神经网络来模拟人脑在驾驶车辆状况下的未来预测功能机制，所要完成的预测任务是基于车辆视频数据集完成的。

本发明的未来帧预测模型基于深度神经网络实现，简称为FFSPRE，如图1所示，主要包括记忆回溯模块、记忆精炼模块、特征融合模块以及图像预测模块。

记忆回溯模块基于三维卷积神经网络(3D ConvNets，简称C3D)的下采样实现。记忆回溯模块利用三维卷积网络的卷积操作部分对输入的视频段进行空时特征提取，空时特征即视频图像帧的空间特征分布信息和帧间时序特征分布信息，并将提取的空时特征输入记忆精炼模块。记忆回溯模块是由三维卷积层、三维最大池化层和三维正则化层形成的神经网络，卷积核提取的特征之间没有重叠。

记忆精炼模块基于三维卷积神经网络的上采样实现。记忆精炼模块基于三维反卷积层，将空时特征抽象为高层空时语义特征信息，映射到新的特征空间。记忆精炼模块输出高层空时语义特征给特征融合模块。记忆精炼模块是由三维卷积层和反卷积对形成的神经网络。

特征融合模块将输入的高层空时语义特征和未来帧预测模型FFSPRE输入的视频段的最后一帧按照通道进行级联操作，基于二维神经网络的多通道进行信息融合与推理，实现特征融合。特征融合模块将进行级联操作后得到的多通道特征输出给图像预测模块。

图像预测模块基于输入的多通道空间特征进行未来帧空间特征的预测。

本发明实施例中，未来帧预测模型中各模块的一个具体实现结构如图2所示。记忆回溯模块包含9个三维卷积层，4个三维最大池化(3Dmaxpool)层和9个三维正则化(3Dbatch-normalization)层。所有三维卷积层的卷积核大小为2*3*3且卷积核提取的特征之间没有重叠。所有最大池化层的卷积核大小为1*2*2，第一个和第三个最大池化层的跨度(stride)均为2*2*2，第二个最大池化层的stride为1*2*2，最后一个最大池化层的stride为2*3*3。记忆精炼模块包含6个三维卷积层和反卷积对，其中三维卷积层的核函数大小为3*2*2，三维反卷积核函数大小为1*2*2，且各反卷积层都分别设有固定大小的stride和填充(padding)操作。图像预测模块由4个二维卷积层和3个二维正则化层组成，且前2个卷积层的卷积核大小为3*3，后2个卷积层的卷积核大小为3*2,前3个卷积层的padding(填充)值为1。上述所有卷积层(二维和三维)的输出都由relu(正交线性单元)激活。

对本发明的深度神经网络模型FFSPRE进行训练的主要步骤如下：

(1)采集数据并将数据集分类。为了实现任务，公开数据集是按照任务要求采集的现实场景的视频数据集，并进行整理和标注，将数据集分别按照3:1:1的比例分为训练集、验证集和测试集。

(2)训练模型。将制作好的数据集作为FFSPRE模型的输入，配置好数据集的预处理文件和模型的训练文件，训练模型。训练时，FFSPRE模型的输入是视频段，输出是该视频段的最后一帧图像。

(3)调整模型参数。利用验证集验证深度神经网络模型FFSPRE训练好的效果，度量利用测试集测试模型的效果，不断调整训练文件的参数，使模型FFSPRE在测试集上达到最好的效果。

经训练后的深度神经网络模型FFSPRE能更好的用于本发明预测新方法中，预测效果更好。

本发明基于视频图像的未来帧预测方法，基于端到端训练的深度神经网络模型FFSPRE，通过提取、分析历史和当前时刻视觉信息来模拟人脑预测未来短时空间信息的能力，实现未来帧的预测，如图2所示，下面分4个步骤来说明。

步骤1、顺序读取视频帧序列，组成固定长度的视频段序列，将其顺序输入深度学习模型FFSPRE。

本步骤是对采集的视频进行预处理。预处理包括两个方面：一方面，对于当前处理的视频段，需要将其包含的图像帧的像素值都归一化到[-1,1]，其目的是为了减小视频图像域变化对预测模型收敛训练带来的影响。另一方面，考虑到人脑预测未来的过程、视频信息的连续性，设置了自定义滑动窗视频段之间的重叠帧数量，将完整的视频截取为具有重叠区域的等长视频段，然后连续地将等长的视频段送入FFSPRE模型，进行预测学习。

以在车辆无人驾驶系统的未来帧预测为例，如图1所示，本实例中随时间车辆采集到图像帧f₀,f₁,f₂,…,f_N，设置的滑动窗口大小为3，重叠帧数量为2，依次获得等长的视频段，对视频段内的图像帧的像素值都归一化到[-1,1]的范围。

步骤2、通过模型FFSPRE中的记忆回溯模块，学习和分析视频段中的每帧图像的空间像素点信息以及帧间时序信息，尽可能提取出完备的视频图像帧的空间特征分布和帧间时序特征分布。

本发明实施例中，记忆回溯模块完成从无人驾驶系统采集的视频段中进行空时特征信息提取的过程，生成512个尺度大小为9*15的三维RGB空时特征块，如图2所示。由于实际情况中驾驶场景中的物体往往不会处于完全按照统一的规律进行运动，反应在视频段中即为像素内容的改变，因此在记忆回溯模块中的各层3D卷积层之后，会添加3Dmaxpool(最大池化)和3Dnormalization(正则化)层来提取视频段中图像帧空间特征的最大值，并通过归一化操作加速深度神经网络模型的收敛训练。

步骤3、通过模型FFSPRE中的记忆精炼模块，进一步将步骤2提取的空时特征信息抽象为更高层的隐含特征信息，隐含特征信息即高层空时语义特征信息。

本发明实施例中，考虑到车辆视频空时信息连续变化的特性，主要是通过判断基于连续视频段的帧间空时域特征信息的变换来预测的。其中，对于一般道路场景中的车辆行驶视频而言，其短时间隔内连续变化的视频段中每帧图像的空间特征在时域上的变化具有渐进性和规律性(除特殊情况外)。此外，人脑对短时视频段中的空时信息变化趋势及规律，具有一定的有用信息提取和学习推断能力。由于实际应用中的车辆行驶视频数据集大多数是由固定在采集车辆正前方的摄像头在正常道路行驶情况下拍摄的，因而连续视频图像中的物体的运动具有规则性。通过观测可知，场景中短时间内出现的物体种类和数量较为稳定。

短时间隔内采集到的视频段中图像帧的空间信息变化一般较小，大多数情况为物体相对位置或尺度的变化，因此为了提高预测的可靠性，需有效提取图像帧段的空时历史特征信息并将其抽象为高层空时语义特征，并将其作为预测未来图像帧的信息源。

本发明实施例中，记忆精炼模块将步骤2特征块映射为与输入视频帧大小一样的尺寸为224*360的RGB空间特征。

步骤4、将隐含特征信息与输入视频段中最后一帧相结合并送入图像预测模块，完成输入视频段未来帧空间特征的预测，最终输出预测图像帧。

特征融合模块将隐含特征信息与输入视频段中最后一帧基于二维神经网络的多通道进行信息融合与推理，输出给图像预测模块。图像预测模块完成对输入视频段的未来帧空间特征的预测。根据预测的未来帧图像，可进一步为其他应用，如驾驶决策预测，提供参考依据。对深度神经网络模型提取特征后的预测判决，主要是利用深度神经网络模型输出的预测图像和其对应的真实未来图像间的差异进行量化度量和非量化的可视化分析。量化的差异指标为两个对比图像间的均方误差值和结构相似度测量值，非量化的可视化分析则是对通过多人对模型输出的图像帧与真实图像帧进行主观的分析和判断。通过量化度量和非量化度量可对本发明方法的性能进行评估。

为了进一步加快深度神经网络模型的训练时间和收敛时间，本发明还利用了图形处理器GPU的cuda加速器，使得深度学习模型能够在较短的时间内获得理想的预测能力。

为了进一步说明所提出深度模型的有效性和普适性，本发明依据现有公开的无人驾驶相关课题中数据采集的规则，采集了一套包含20段子视频，每段持续5分钟的数据集，并将其命名为Campus20。利用本发明方法进行图像帧预测，试验结果表明经本发明方法得到的预测图像帧与实际未来图像相似度极高。实验证明：本发明生成的未来帧图像与实际图像间的平均结构性相似测量(SSIM)值达到了0.2425；在相同数据集上，本发明较现有技术的图像预测再在平均均方误差上提高了10个百分点。

通过上面的说明和实验，证明本发明所实现的未来帧预测模型符合人脑预测过程，所预测的未来帧具有可解释性，并且能取得。

为了避免使本说明书的描述限于冗繁，在本发明的描述中，可能对可在上述参考文献或其它现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理，这对于本领域的技术人员来说是可以理解的，并且这不会影响本说明书的公开充分性。同时，本领域的技术人员能够理解，对本发明的上述实施例能够做出各种修改、变型、以及替换，其均落入如所附权利要求限定的本发明的保护范围。

Claims

1.一种基于视频图像的未来帧预测模型，其特征在于，包括：记忆回溯模块、记忆精炼模块、特征融合模块以及图像预测模块；

记忆回溯模块利用三维卷积网络的卷积操作部分对输入的视频段进行空时特征提取，空时特征包括视频图像帧的空间特征和帧间时序特征；记忆精炼模块利用三维反卷积层将所述的空时特征抽象为高层空时语义特征；特征融合模块将所述的高层空时语义特征与输入的视频段的最后一帧基于二维神经网络的多通道进行信息融合与推理，输出融合后的空间特征给图像预测模块；图像预测模块进行未来帧空间特征的预测，输出预测图像。

2.根据权利要求1所述的模型，其特征在于，所述的记忆回溯模块包含三维卷积层、三维最大池化层和三维正则化层，卷积核提取的特征之间没有重叠；所述的记忆精炼模块包含三维卷积层和反卷积对；所述的图像预测模块包含二维卷积层和二维正则化层。

3.根据权利要求2所述的模型，且特征在于，所述的记忆回溯模块包含9个三维卷积层、4个三维最大池化层和9个三维正则化层；所述的记忆精炼模块包含6个三维卷积层和反卷积对；所述的图像预测模块包含4个二维卷积层和3个二维正则化层。

4.根据权利要求2或3所述的模型，其特征在于，所述的记忆回溯模块中，所有三维卷积层的卷积核大小为2*3*3；所有最大池化层的卷积核大小为1*2*2，第一个和第三个最大池化层的跨度均为2*2*2，第二个最大池化层的跨度为1*2*2，最后一个最大池化层的跨度为2*3*3；所述的记忆精炼模块中，三维卷积层的核函数大小为3*2*2，三维反卷积核函数大小为1*2*2，且各反卷积层都分别设有固定大小的跨度和填充操作；所述的图像预测模块中，前2个卷积层的卷积核大小为3*3，后2个卷积层的卷积核大小为3*2，前3个卷积层的填充值为1。

5.一种基于视频图像的未来帧预测方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述的步骤1中，还对各视频段内包含的图像帧的像素值都归一化到[-1,1]的范围内。