CN111064905B

CN111064905B - 面向自动驾驶的视频场景转换方法

Info

Publication number: CN111064905B
Application number: CN201811208117.3A
Authority: CN
Inventors: 朱闻东; 蔡鸿明; 叶聪聪; 姜丽红
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2021-05-11
Anticipated expiration: 2038-10-17
Also published as: CN111064905A

Abstract

一种面向自动驾驶的视频场景转换方法，将所选取的路况视频进行预处理得到关键帧；然后选取一张写实风格的图片作为场景图片，并将关键帧和场景图片依次输入卷积神经网络得到场景转换后的关键帧图片，最后以该图片合成视频。本发明能够得到不同场景的视频所需时间大大减少的同时与真实采集数据相比花费大幅度降低；同时可以设定任意的时间段和天气情况，以获得场景更为丰富的视频。通过本发明获得的视频可以用于汽车自动驾驶的训练。

Description

面向自动驾驶的视频场景转换方法

技术领域

本发明涉及的是一种应用在自动驾驶领域的视频图像人工智能处理技术，具体是一种面向自动驾驶的视频场景转换方法。

背景技术

当前的自动驾驶领域多采用深度学习技术，通过不同场景的视频进行训练，简单的来说，就是汽车所遇到的场景越多，就能在复杂的路况中更快地作出更准确的判断，从而采取更合适的处理方式，保证汽车能在不同的环境下安全行驶。但现有的图像风格转换的方法，对真实图片的处理会发生纹理的扭曲，得到的结果与原图相比风格差异很大，从艺术层面上来说效果很好，但是将处理后的图片合成视频后，其真实性得不到保证，如果用于自动驾驶的训练会导致汽车对视频中的景物或场景识别不准确，并且现有的方法一般只能输入固定尺寸的图像，在每次输入之前需要对图像进行预处理，降低了该方法的可用性。

发明内容

本发明针对现有技术存在的上述不足，提出一种面向自动驾驶的视频场景转换方法，能够得到不同场景的视频所需时间大大减少的同时与真实采集数据相比花费大幅度降低；同时可以设定任意的时间段和天气情况，以获得场景更为丰富的视频。通过本发明获得的视频可以用于汽车自动驾驶的训练。

本发明是通过以下技术方案实现的：

本发明涉及一种面向自动驾驶的视频场景转换方法，先将所选取的路况视频进行预处理得到关键帧；然后选取一张写实风格的图片作为场景图片，并将关键帧和场景图片依次输入卷积神经网络得到场景转换后的关键帧图片，最后以该图片合成视频。

所述的预处理，即将视频逐帧分解，分解完成后提取关键帧。

所述的写实风格是指：图片中的景物必须为真实三维透视对象，比如道路、车辆等，不能是二维图像或3D模型。

所述的卷积神经网络将原VGG-19网络中与全连接层相连的最大池化层改为金字塔池化层(spp)，从而解决了输入图片尺寸大小受限的问题；加入标准损失函数以及对输入图像进行语义分割，得到增强场景损失函数，从而防止场景溢出的情况，保证了生成图片的真实性，该卷积神经网络具体包括：卷积层、最大池化层、金字塔池化层、全连接层。

本发明涉及一种实现上述方法的系统，包括：视频预处理模块、场景选择模块、场景转换模块和视频输出模块，其中：视频预处理模块对输入的视频进行逐帧分解，分解完成后提取关键帧，场景转换模块将提取到的关键帧和选中的一张场景图片输入场景转换模块中的卷积神经网络进行迭代更新得到场景转换后的图像，视频输出模块所得到的场景转换后的图像合成为场景转换后的视频。

所述的系统中进一步设有用于存储场景转换后的图像、关键帧以及场景图片的存储模块，该存储模块包括预处理存储单元和合成图像存储单元。

所述的视频预处理模块将输入的一段视频逐帧分解后提取关键帧，将所提取的一组关键帧图像储存到预处理存储单元中。

所述的场景选择模块从现有的图片集或网站中选择一张场景图片作为场景转换模块的输入。

所述的场景转换模块将一张关键帧图像输入卷积神经网络，然后将内容图片与所选定的场景图片使用进行语义分割，合并相似的类，将内容图片与场景图片中同一类别的景物进行匹配，之后将语义分割后的场景图和原场景图片也输入卷积神经网络N；然后场景转换模块另外单独生成一张新图片初始化为高斯白噪声图片，将该图像也输入同样的卷积神经网络，然后计算损失函数，最后通过反向更新得到场景转换后的图像，将场景转换后的图像储存到合成图像存储单元中并循环处理完所有关键帧图像。

所述的场景转换后的视频可以用做自动驾驶的训练。

技术效果

与现有技术相比，本发明可以处理任意尺寸的图片，不需要再输入之前进行图像预处理，简化了操作步骤；引入了标准损失函数从而保证了关键帧图片再经过场景转换后不会发生失真，经过合成后所得到的视频具有真实性；同时在场景转换前对关键帧图片和场景图片进行语义分割，在关键帧图片融合场景图的场景时保证了景物匹配，比如天空对应天空，道路对应道路。这样可以防止场景溢出(比如天空中出现道路)的状况。

附图说明

图1为本发明的模型示意图；

图2为本发明的实施结构图；

图3为实施例改进后的VGG-19网络示意图。

具体实施方式

如图2所示，本实施例涉及一种面向自动驾驶的视频场景转换系统，包括：视频预处理模块、场景选择模块、场景转换模块、包括预处理存储单元和合成图像存储单元的存储模块以及视频输出模块，其中：视频预处理模块接收输入的路况视频，该模块将视频逐帧分解并提取关键帧得到一组内容图片(关键帧图片)；内容图片储存在预处理存储单元中；场景选择模块从现有的图片集或网站中选择一张场景图片，并按顺序从预处理存储单元中挑选一张内容图片，通过如图3所示场景转换模块中的改进后的VGG-19网络得到内容特征图，同时将内容图像与场景图像进行语义分割，匹配内容图片与场景图片中同一类别的景物，语义分割后的场景图和原场景图片输入卷积神经网络N得到场景特征图，之后该模块会生成一张高斯白噪声图片P同样地通过如图3所示场景转换模块中的改进后的VGG-19网络得到内容特征图与场景特征图，与之前所得到的内容特征图与场景特征图进行对比计算损失函数，通过反向传播不断更新高斯白噪声图片P，最后得到目标图片；通过循环处理直至完成所有内容图片的场景转换，并将转换后的目标图片存入合成图像存储单元中；视频输出模块根据合成图像存储单元中的图片并将其合成一个新的视频以用作自动驾驶的训练。

所述的预处理存储单元中储存的是经过视频预处理模块之后所得到的一组内容图片即关键帧图片，合成图像存储单元中储存的是目标图片即完成场景转换后的内容图片。

本实施例涉及上述系统的场景转换方法，包括以下步骤：

步骤1、视频预处理模块接收的路况视频，将视频逐帧分解后得到图片并进行关键帧提取得到一组关键帧图片，即内容图片，场景选择模块从现有的图片集或网站中选择一张场景图片作为场景转换模块的输入；

所述的路况视频优选为真实拍摄的视频，比如：从录像、电影中截取等同时应该保证视频中的景物比如车、道路等都应该是真实的。通过视频处理软件，例如KMPlayer或者使用OpenCV(所采用的视频处理软件或方法可以将视频逐帧分解均可)。

步骤2、场景转换模块接收一张内容图片

和一张所选定的场景图片G_S，将内容图片

通过经过改进的VGG-19网络N，并将其中的conv4-2层定义为内容提取层，则在该层上得到的内容特征图为

将场景图片G_S输入卷积神经网络N，并将conv1-1、conv2-1、conv3-1、conv4-1、conv5-1定义为场景提取层，所得到的场景特征图为

所述的内容图片

是从视频预处理模块得到的一组内容图片G_C中按顺序获得的)

所述的场景图片G_S可以从现有的图片集中或相应的网站选取任意一张真实图片，即图片中的景物均为真实景物。如果希望取得更好的效果，场景图片中的景物与内容图片中的景物可大致匹配，即选取的场景图片中所包含的景物如汽车、道路等应与路况视频中所包含的景物类型大致相同，这样可以达到最佳效果。

步骤3、将内容图片与场景图片进行语义分割并合并相似的类，将内容图片与场景图片中同一类别的景物进行匹配，然后将语义分割后的场景图也输入卷积神经网络N。

所述的语义分割，优选使用PSPnet(一种用于语义分割的卷积神经网络结构s)。

所述的语义分割，采用的数据集为VOC2012。

步骤4、场景转换模块另外单独生成一张高斯白噪声图片P并输入卷积网络N得到内容场景响应分别为

计算总损失函数并使用L-BFGS-B算法进行迭代训练，通过反向传播不断更新高斯白噪声图片P，在迭代至收敛后生成具有

的内容和G_S的场景的目标图片G’，直到完成所有内容图片的场景转换，并将转换后的目标图片存入合成图像存储单元中。

所述的另外单独生成的方法是：任意选定一张图片，然后按照高斯分布生成一组随机数序列，之后将这个随机数加到源像素值上，并将所得到的值缩放到[0,255]区间即得到高斯白噪声图像。

所述的总损失函数

其中：F为卷积层的个数，λ_f为内容提取层的系数(若该层被选中作为内容提取层则λ_f＝1，未被选中的λ_f＝0)，ω_f为场景提取层数目的倒数，H为增强场景损失函数的权值，Γ为标准损失函数的权值，

为内容损失函数；

为增强场景损失函数，Δ_f,h,O＝Δ_f,OM_f,h,I，Δ_f,h,S＝Δ_f,SM_f,h,S，

为第f个卷积层滤波器的个数，D_f为第f个卷积层得到的特征图向量化后的大小，Δ_f,O-I为第f个卷积层输出图像与输入图像特征矩阵的差值，

为第f个卷积层得到的特征矩阵，H为分割类别数，M_f,h表示第f个卷积层的第h个分割的掩码△_f,s＝N(G_S)_f，△_f,O＝N(P)_f，

为△_f,h的Gram矩阵(Gram矩阵可以表示图片的场景)；

为标准损失函数，δ_c,O为第c个颜色通道输出的图像经过向量化之后的结果，

是Matting LaplaciaN矩阵，它只与输入图像I有关；

所述的内容损失函数采用Gatys等人在2016年发表在CVPR上的“A NeuralAlgorithm of Artist Style”中的方法实现。

所述的Gram矩阵采用Gatys在“A Neural Algorithm of Artist Style”中的方法实现。

所述的增强场景损失函数，保证了内容图片与场景图片中景物类别的匹配，从而防止场景溢出的状况。

所述的标准损失函数用于增加约束限制生成的图片为真实图片，该约束来自于仅在颜色空间中对内容图片进行局部仿射变换，即对于每一个输出区块，存在一个仿射函数将输入图像的RGB值映射到对应的输出对应的位置上去。每个区域的仿射函数都不同，随空间变化。

所述的标准损失函数，可以用来保证场景转换后的图像不失真，从而可以保证最后生成的目标视频的真实性。

本实施例中：

由于选择conv4-2为内容提取层，则该层的λ_f＝1，其余的λ_f＝0；

由于选取的场景提取层为conv1-1、conv2-1、conv3-1、conv4-1、conv5-1，则选中层的权值

其余层的ω_f＝0；

H＝100，Γ＝10⁴。

所述的L-BFGS-B算法是指：该算法比较适合大规模的数值计算中，具备牛顿法收敛速度快的特点，但不需要牛顿法那样存储Hessian矩阵，因此节省了大量的空间以及计算资源。

步骤5、视频输出模块根据已经转换完成场景转换的内容图片，通过视频处理软件，例如Premiere(其他可以将帧图片合成视频的软件或方法均可)合成为一个新的视频V’，以用作自动驾驶的训练。

本方法与现有技术的效果比较见表1

表1发明效果对比

与现有技术相比，本发明可以方便的生成不同场景的视频，并且可以提供场景更为丰富的视频。其目的是经这些视频用于自动驾驶的训练，来提高自动驾驶的安全性，达到更好的效果；网络结构方面，通过对VGG-19网络的改进，解决了输入图片尺寸受限的问题；主要技术方面，在场景转换之前对内容图片和场景图片进行语义分割，然后对内容图片和场景图片中的景物类别进行匹配，提出了增强场景损失函数，可有效防止场景溢出的状况，同时提出了标准损失函数，保证了场景转换后的图像不失真，从而也保证了最后目标视频的真实性。在自动驾驶领域，如果所提供视频中景物真实性不能保证，则会导致汽车对景物类型识别不准确，导致汽车的训练成果没有参考价值。因此，本发明在自动驾驶领域具有很高的参考价值。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种面向自动驾驶的视频场景转换方法，其特征在于，将所选取的路况视频进行预处理得到关键帧；然后选取一张写实风格的图片作为场景图片，并将关键帧和场景图片依次输入卷积神经网络得到场景转换后的关键帧图片，最后以该图片合成视频；

所述的写实风格是指：图片中的景物为非二维图像或3D模型的真实三维透视对象；

所述的卷积神经网络将原VGG-19网络中与全连接层相连的最大池化层改为金字塔池化层(spp)，从而解决了输入图片尺寸大小受限的问题；加入标准损失函数以及对输入图像进行语义分割，得到增强场景损失函数，从而防止场景溢出的情况，保证了生成图片的真实性；

所述的卷积神经网络具体包括：卷积层、最大池化层、金字塔池化层、全连接层；

所述的场景转换后的关键帧图片，通过以下步骤得到：

a)将内容图片

b)将内容图片与场景图片进行语义分割并合并相似的类，将内容图片与场景图片中同一类别的景物进行匹配，然后将语义分割后的场景图也输入卷积神经网络N；

c)另外单独生成一张高斯白噪声图片P并输入卷积网络N得到内容场景响应分别为

的内容和G_S的场景的目标图片G’，直到完成所有内容图片的场景转换。

2.根据权利要求1所述的方法，其特征是，所述的预处理，即将视频逐帧分解，分解完成后提取关键帧。

3.根据权利要求1所述的方法，其特征是，所述的总损失函数

其中：F为卷积层的个数，λ_f为内容提取层的系数，当该层被选中作为内容提取层则λ_f＝1，未被选中的λ_f＝0，ω_f为场景提取层数目的倒数，H_s为增强场景损失函数的权值，Γ为标准损失函数的权值，

为内容损失函数；

为增强场景损失函数，Δ_f，h，O＝Δ_f，OM_f，h，I，Δ_f，h，S＝Δ_f，SM_f，h，S，

为第f个卷积层滤波器的个数，D_f为第f个卷积层得到的特征图向量化后的大小，Δ_f，O-I为第f个卷积层输出图像与输入图像特征矩阵的差值，

为第f个卷积层得到的特征矩阵，H为分割类别数，M_f，h表示第f个卷积层的第h个分割的掩码Δ_f，s＝N(G_S)_f，Δ_f，O＝N(P)_f，g_f，h为Δ_f，h的Gram矩阵；

为标准损失函数，δ_c，O为第c个颜色通道输出的图像经过向量化之后的结果，

是Matting LaplaciaN矩阵，它只与输入图像I有关。

4.一种实现上述任一权利要求所述方法的系统，其特征在于，包括：视频预处理模块、场景选择模块、场景转换模块和视频输出模块，其中：视频预处理模块对输入的视频进行逐帧分解，分解完成后提取关键帧，场景转换模块将提取到的关键帧和选中的一张场景图片输入场景转换模块中的卷积神经网络进行迭代更新得到场景转换后的图像，视频输出模块所得到的场景转换后的图像合成为场景转换后的视频。

5.根据权利要求4所述的系统，其特征是，所述的系统中进一步设有用于存储场景转换后的图像、关键帧以及场景图片的存储模块，该存储模块包括预处理存储单元和合成图像存储单元。