CN111064905B - 面向自动驾驶的视频场景转换方法 - Google Patents
面向自动驾驶的视频场景转换方法 Download PDFInfo
- Publication number
- CN111064905B CN111064905B CN201811208117.3A CN201811208117A CN111064905B CN 111064905 B CN111064905 B CN 111064905B CN 201811208117 A CN201811208117 A CN 201811208117A CN 111064905 B CN111064905 B CN 111064905B
- Authority
- CN
- China
- Prior art keywords
- scene
- picture
- video
- layer
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/268—Signal distribution or switching
Abstract
一种面向自动驾驶的视频场景转换方法,将所选取的路况视频进行预处理得到关键帧;然后选取一张写实风格的图片作为场景图片,并将关键帧和场景图片依次输入卷积神经网络得到场景转换后的关键帧图片,最后以该图片合成视频。本发明能够得到不同场景的视频所需时间大大减少的同时与真实采集数据相比花费大幅度降低;同时可以设定任意的时间段和天气情况,以获得场景更为丰富的视频。通过本发明获得的视频可以用于汽车自动驾驶的训练。
Description
技术领域
本发明涉及的是一种应用在自动驾驶领域的视频图像人工智能处理技术,具体是一种面向自动驾驶的视频场景转换方法。
背景技术
当前的自动驾驶领域多采用深度学习技术,通过不同场景的视频进行训练,简单的来说,就是汽车所遇到的场景越多,就能在复杂的路况中更快地作出更准确的判断,从而采取更合适的处理方式,保证汽车能在不同的环境下安全行驶。但现有的图像风格转换的方法,对真实图片的处理会发生纹理的扭曲,得到的结果与原图相比风格差异很大,从艺术层面上来说效果很好,但是将处理后的图片合成视频后,其真实性得不到保证,如果用于自动驾驶的训练会导致汽车对视频中的景物或场景识别不准确,并且现有的方法一般只能输入固定尺寸的图像,在每次输入之前需要对图像进行预处理,降低了该方法的可用性。
发明内容
本发明针对现有技术存在的上述不足,提出一种面向自动驾驶的视频场景转换方法,能够得到不同场景的视频所需时间大大减少的同时与真实采集数据相比花费大幅度降低;同时可以设定任意的时间段和天气情况,以获得场景更为丰富的视频。通过本发明获得的视频可以用于汽车自动驾驶的训练。
本发明是通过以下技术方案实现的:
本发明涉及一种面向自动驾驶的视频场景转换方法,先将所选取的路况视频进行预处理得到关键帧;然后选取一张写实风格的图片作为场景图片,并将关键帧和场景图片依次输入卷积神经网络得到场景转换后的关键帧图片,最后以该图片合成视频。
所述的预处理,即将视频逐帧分解,分解完成后提取关键帧。
所述的写实风格是指:图片中的景物必须为真实三维透视对象,比如道路、车辆等,不能是二维图像或3D模型。
所述的卷积神经网络将原VGG-19网络中与全连接层相连的最大池化层改为金字塔池化层(spp),从而解决了输入图片尺寸大小受限的问题;加入标准损失函数以及对输入图像进行语义分割,得到增强场景损失函数,从而防止场景溢出的情况,保证了生成图片的真实性,该卷积神经网络具体包括:卷积层、最大池化层、金字塔池化层、全连接层。
本发明涉及一种实现上述方法的系统,包括:视频预处理模块、场景选择模块、场景转换模块和视频输出模块,其中:视频预处理模块对输入的视频进行逐帧分解,分解完成后提取关键帧,场景转换模块将提取到的关键帧和选中的一张场景图片输入场景转换模块中的卷积神经网络进行迭代更新得到场景转换后的图像,视频输出模块所得到的场景转换后的图像合成为场景转换后的视频。
所述的系统中进一步设有用于存储场景转换后的图像、关键帧以及场景图片的存储模块,该存储模块包括预处理存储单元和合成图像存储单元。
所述的视频预处理模块将输入的一段视频逐帧分解后提取关键帧,将所提取的一组关键帧图像储存到预处理存储单元中。
所述的场景选择模块从现有的图片集或网站中选择一张场景图片作为场景转换模块的输入。
所述的场景转换模块将一张关键帧图像输入卷积神经网络,然后将内容图片与所选定的场景图片使用进行语义分割,合并相似的类,将内容图片与场景图片中同一类别的景物进行匹配,之后将语义分割后的场景图和原场景图片也输入卷积神经网络N;然后场景转换模块另外单独生成一张新图片初始化为高斯白噪声图片,将该图像也输入同样的卷积神经网络,然后计算损失函数,最后通过反向更新得到场景转换后的图像,将场景转换后的图像储存到合成图像存储单元中并循环处理完所有关键帧图像。
所述的场景转换后的视频可以用做自动驾驶的训练。
技术效果
与现有技术相比,本发明可以处理任意尺寸的图片,不需要再输入之前进行图像预处理,简化了操作步骤;引入了标准损失函数从而保证了关键帧图片再经过场景转换后不会发生失真,经过合成后所得到的视频具有真实性;同时在场景转换前对关键帧图片和场景图片进行语义分割,在关键帧图片融合场景图的场景时保证了景物匹配,比如天空对应天空,道路对应道路。这样可以防止场景溢出(比如天空中出现道路)的状况。
附图说明
图1为本发明的模型示意图;
图2为本发明的实施结构图;
图3为实施例改进后的VGG-19网络示意图。
具体实施方式
如图2所示,本实施例涉及一种面向自动驾驶的视频场景转换系统,包括:视频预处理模块、场景选择模块、场景转换模块、包括预处理存储单元和合成图像存储单元的存储模块以及视频输出模块,其中:视频预处理模块接收输入的路况视频,该模块将视频逐帧分解并提取关键帧得到一组内容图片(关键帧图片);内容图片储存在预处理存储单元中;场景选择模块从现有的图片集或网站中选择一张场景图片,并按顺序从预处理存储单元中挑选一张内容图片,通过如图3所示场景转换模块中的改进后的VGG-19网络得到内容特征图,同时将内容图像与场景图像进行语义分割,匹配内容图片与场景图片中同一类别的景物,语义分割后的场景图和原场景图片输入卷积神经网络N得到场景特征图,之后该模块会生成一张高斯白噪声图片P同样地通过如图3所示场景转换模块中的改进后的VGG-19网络得到内容特征图与场景特征图,与之前所得到的内容特征图与场景特征图进行对比计算损失函数,通过反向传播不断更新高斯白噪声图片P,最后得到目标图片;通过循环处理直至完成所有内容图片的场景转换,并将转换后的目标图片存入合成图像存储单元中;视频输出模块根据合成图像存储单元中的图片并将其合成一个新的视频以用作自动驾驶的训练。
所述的预处理存储单元中储存的是经过视频预处理模块之后所得到的一组内容图片即关键帧图片,合成图像存储单元中储存的是目标图片即完成场景转换后的内容图片。
本实施例涉及上述系统的场景转换方法,包括以下步骤:
步骤1、视频预处理模块接收的路况视频,将视频逐帧分解后得到图片并进行关键帧提取得到一组关键帧图片,即内容图片,场景选择模块从现有的图片集或网站中选择一张场景图片作为场景转换模块的输入;
所述的路况视频优选为真实拍摄的视频,比如:从录像、电影中截取等同时应该保证视频中的景物比如车、道路等都应该是真实的。通过视频处理软件,例如KMPlayer或者使用OpenCV(所采用的视频处理软件或方法可以将视频逐帧分解均可)。
步骤2、场景转换模块接收一张内容图片和一张所选定的场景图片GS,将内容图片通过经过改进的VGG-19网络N,并将其中的conv4-2层定义为内容提取层,则在该层上得到的内容特征图为将场景图片GS输入卷积神经网络N,并将conv1-1、conv2-1、conv3-1、conv4-1、conv5-1定义为场景提取层,所得到的场景特征图为
所述的场景图片GS可以从现有的图片集中或相应的网站选取任意一张真实图片,即图片中的景物均为真实景物。如果希望取得更好的效果,场景图片中的景物与内容图片中的景物可大致匹配,即选取的场景图片中所包含的景物如汽车、道路等应与路况视频中所包含的景物类型大致相同,这样可以达到最佳效果。
步骤3、将内容图片与场景图片进行语义分割并合并相似的类,将内容图片与场景图片中同一类别的景物进行匹配,然后将语义分割后的场景图也输入卷积神经网络N。
所述的语义分割,优选使用PSPnet(一种用于语义分割的卷积神经网络结构s)。
所述的语义分割,采用的数据集为VOC2012。
步骤4、场景转换模块另外单独生成一张高斯白噪声图片P并输入卷积网络N得到内容场景响应分别为计算总损失函数并使用L-BFGS-B算法进行迭代训练,通过反向传播不断更新高斯白噪声图片P,在迭代至收敛后生成具有的内容和GS的场景的目标图片G’,直到完成所有内容图片的场景转换,并将转换后的目标图片存入合成图像存储单元中。
所述的另外单独生成的方法是:任意选定一张图片,然后按照高斯分布生成一组随机数序列,之后将这个随机数加到源像素值上,并将所得到的值缩放到[0,255]区间即得到高斯白噪声图像。
所述的总损失函数其中:F为卷积层的个数,λf为内容提取层的系数(若该层被选中作为内容提取层则λf=1,未被选中的λf=0),ωf为场景提取层数目的倒数,H为增强场景损失函数的权值,Γ为标准损失函数的权值,为内容损失函数;为增强场景损失函数,Δf,h,O=Δf,OMf,h,I,Δf,h,S=Δf,SMf,h,S,为第f个卷积层滤波器的个数,Df为第f个卷积层得到的特征图向量化后的大小,Δf,O-I为第f个卷积层输出图像与输入图像特征矩阵的差值,为第f个卷积层得到的特征矩阵,H为分割类别数,Mf,h表示第f个卷积层的第h个分割的掩码△f,s=N(GS)f,△f,O=N(P)f,为△f,h的Gram矩阵(Gram矩阵可以表示图片的场景);为标准损失函数,δc,O为第c个颜色通道输出的图像经过向量化之后的结果,是Matting LaplaciaN矩阵,它只与输入图像I有关;
所述的内容损失函数采用Gatys等人在2016年发表在CVPR上的“A NeuralAlgorithm of Artist Style”中的方法实现。
所述的Gram矩阵采用Gatys在“A Neural Algorithm of Artist Style”中的方法实现。
所述的增强场景损失函数,保证了内容图片与场景图片中景物类别的匹配,从而防止场景溢出的状况。
所述的标准损失函数用于增加约束限制生成的图片为真实图片,该约束来自于仅在颜色空间中对内容图片进行局部仿射变换,即对于每一个输出区块,存在一个仿射函数将输入图像的RGB值映射到对应的输出对应的位置上去。每个区域的仿射函数都不同,随空间变化。
所述的标准损失函数,可以用来保证场景转换后的图像不失真,从而可以保证最后生成的目标视频的真实性。
本实施例中:
由于选择conv4-2为内容提取层,则该层的λf=1,其余的λf=0;
H=100,Γ=104。
所述的L-BFGS-B算法是指:该算法比较适合大规模的数值计算中,具备牛顿法收敛速度快的特点,但不需要牛顿法那样存储Hessian矩阵,因此节省了大量的空间以及计算资源。
步骤5、视频输出模块根据已经转换完成场景转换的内容图片,通过视频处理软件,例如Premiere(其他可以将帧图片合成视频的软件或方法均可)合成为一个新的视频V’,以用作自动驾驶的训练。
本方法与现有技术的效果比较见表1
表1发明效果对比
与现有技术相比,本发明可以方便的生成不同场景的视频,并且可以提供场景更为丰富的视频。其目的是经这些视频用于自动驾驶的训练,来提高自动驾驶的安全性,达到更好的效果;网络结构方面,通过对VGG-19网络的改进,解决了输入图片尺寸受限的问题;主要技术方面,在场景转换之前对内容图片和场景图片进行语义分割,然后对内容图片和场景图片中的景物类别进行匹配,提出了增强场景损失函数,可有效防止场景溢出的状况,同时提出了标准损失函数,保证了场景转换后的图像不失真,从而也保证了最后目标视频的真实性。在自动驾驶领域,如果所提供视频中景物真实性不能保证,则会导致汽车对景物类型识别不准确,导致汽车的训练成果没有参考价值。因此,本发明在自动驾驶领域具有很高的参考价值。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (5)
1.一种面向自动驾驶的视频场景转换方法,其特征在于,将所选取的路况视频进行预处理得到关键帧;然后选取一张写实风格的图片作为场景图片,并将关键帧和场景图片依次输入卷积神经网络得到场景转换后的关键帧图片,最后以该图片合成视频;
所述的写实风格是指:图片中的景物为非二维图像或3D模型的真实三维透视对象;
所述的卷积神经网络将原VGG-19网络中与全连接层相连的最大池化层改为金字塔池化层(spp),从而解决了输入图片尺寸大小受限的问题;加入标准损失函数以及对输入图像进行语义分割,得到增强场景损失函数,从而防止场景溢出的情况,保证了生成图片的真实性;
所述的卷积神经网络具体包括:卷积层、最大池化层、金字塔池化层、全连接层;
所述的场景转换后的关键帧图片,通过以下步骤得到:
a)将内容图片通过经过改进的VGG-19网络N,并将其中的conv4-2层定义为内容提取层,则在该层上得到的内容特征图为将场景图片GS输入卷积神经网络N,并将conv1-1、conv2-1、conv3-1、conv4-1、conv5-1定义为场景提取层,所得到的场景特征图为
b)将内容图片与场景图片进行语义分割并合并相似的类,将内容图片与场景图片中同一类别的景物进行匹配,然后将语义分割后的场景图也输入卷积神经网络N;
2.根据权利要求1所述的方法,其特征是,所述的预处理,即将视频逐帧分解,分解完成后提取关键帧。
3.根据权利要求1所述的方法,其特征是,所述的总损失函数 其中:F为卷积层的个数,λf为内容提取层的系数,当该层被选中作为内容提取层则λf=1,未被选中的λf=0,ωf为场景提取层数目的倒数,Hs为增强场景损失函数的权值,Γ为标准损失函数的权值,为内容损失函数;为增强场景损失函数,Δf,h,O=Δf,OMf,h,I,Δf,h,S=Δf,SMf,h,S,为第f个卷积层滤波器的个数,Df为第f个卷积层得到的特征图向量化后的大小,Δf,O-I为第f个卷积层输出图像与输入图像特征矩阵的差值,为第f个卷积层得到的特征矩阵,H为分割类别数,Mf,h表示第f个卷积层的第h个分割的掩码Δf,s=N(GS)f,Δf,O=N(P)f,gf,h为Δf,h的Gram矩阵;为标准损失函数,δc,O为第c个颜色通道输出的图像经过向量化之后的结果,是Matting LaplaciaN矩阵,它只与输入图像I有关。
4.一种实现上述任一权利要求所述方法的系统,其特征在于,包括:视频预处理模块、场景选择模块、场景转换模块和视频输出模块,其中:视频预处理模块对输入的视频进行逐帧分解,分解完成后提取关键帧,场景转换模块将提取到的关键帧和选中的一张场景图片输入场景转换模块中的卷积神经网络进行迭代更新得到场景转换后的图像,视频输出模块所得到的场景转换后的图像合成为场景转换后的视频。
5.根据权利要求4所述的系统,其特征是,所述的系统中进一步设有用于存储场景转换后的图像、关键帧以及场景图片的存储模块,该存储模块包括预处理存储单元和合成图像存储单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811208117.3A CN111064905B (zh) | 2018-10-17 | 2018-10-17 | 面向自动驾驶的视频场景转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811208117.3A CN111064905B (zh) | 2018-10-17 | 2018-10-17 | 面向自动驾驶的视频场景转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111064905A CN111064905A (zh) | 2020-04-24 |
CN111064905B true CN111064905B (zh) | 2021-05-11 |
Family
ID=70296980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811208117.3A Active CN111064905B (zh) | 2018-10-17 | 2018-10-17 | 面向自动驾驶的视频场景转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111064905B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037227B (zh) * | 2020-09-09 | 2024-02-20 | 脸萌有限公司 | 视频拍摄方法、装置、设备及存储介质 |
CN112149545B (zh) * | 2020-09-16 | 2024-04-09 | 珠海格力电器股份有限公司 | 样本生成方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488534A (zh) * | 2015-12-04 | 2016-04-13 | 中国科学院深圳先进技术研究院 | 交通场景深度解析方法、装置及系统 |
CN107277615A (zh) * | 2017-06-30 | 2017-10-20 | 北京奇虎科技有限公司 | 直播风格化处理方法、装置、计算设备及存储介质 |
CN107679489A (zh) * | 2017-09-29 | 2018-02-09 | 北京奇虎科技有限公司 | 基于场景分割的自动驾驶处理方法、装置及计算设备 |
US10049297B1 (en) * | 2017-03-20 | 2018-08-14 | Beihang University | Data driven method for transferring indoor scene layout and color style |
CN108564127A (zh) * | 2018-04-19 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 图像转换方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10147459B2 (en) * | 2016-09-22 | 2018-12-04 | Apple Inc. | Artistic style transfer for videos |
-
2018
- 2018-10-17 CN CN201811208117.3A patent/CN111064905B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488534A (zh) * | 2015-12-04 | 2016-04-13 | 中国科学院深圳先进技术研究院 | 交通场景深度解析方法、装置及系统 |
US10049297B1 (en) * | 2017-03-20 | 2018-08-14 | Beihang University | Data driven method for transferring indoor scene layout and color style |
CN107277615A (zh) * | 2017-06-30 | 2017-10-20 | 北京奇虎科技有限公司 | 直播风格化处理方法、装置、计算设备及存储介质 |
CN107679489A (zh) * | 2017-09-29 | 2018-02-09 | 北京奇虎科技有限公司 | 基于场景分割的自动驾驶处理方法、装置及计算设备 |
CN108564127A (zh) * | 2018-04-19 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 图像转换方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
DeepRoad: GAN-Based Metamorphic Testing and Input Validation Framework for Autonomous Driving Systems;Mengshi Zhang;《IEEE》;20180907;第133-138页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111064905A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Sinnerf: Training neural radiance fields on complex scenes from a single image | |
CN109255831B (zh) | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 | |
CN108986050B (zh) | 一种基于多分支卷积神经网络的图像和视频增强方法 | |
KR102134405B1 (ko) | 적대적 생성망을 이용한 저조도 영상 개선을 위한 장치 및 방법 | |
He et al. | Chipgan: A generative adversarial network for chinese ink wash painting style transfer | |
US8947422B2 (en) | Gradient modeling toolkit for sculpting stereoscopic depth models for converting 2-D images into stereoscopic 3-D images | |
CN110443892B (zh) | 一种基于单张图像的三维网格模型生成方法及装置 | |
CN113658051A (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
CN111986075B (zh) | 一种目标边缘清晰化的风格迁移方法 | |
CN112184585B (zh) | 一种基于语义边缘融合的图像补全方法及系统 | |
Yan et al. | Enhanced network optimized generative adversarial network for image enhancement | |
CN115205544A (zh) | 一种基于前景参考图像的合成图像和谐化方法及系统 | |
CN112686898A (zh) | 一种基于自监督学习的放疗靶区自动分割方法 | |
CN115298708A (zh) | 多视角神经人体渲染 | |
CN113343878A (zh) | 基于生成对抗网络的高保真人脸隐私保护方法和系统 | |
CN111064905B (zh) | 面向自动驾驶的视频场景转换方法 | |
CN115049556A (zh) | 一种基于StyleGAN的人脸图像修复方法 | |
CN113255813A (zh) | 一种基于特征融合的多风格图像生成方法 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
Gupta et al. | Image style transfer using convolutional neural networks based on transfer learning | |
CN116012255A (zh) | 一种基于循环一致性生成对抗网络的低光图像增强方法 | |
Mun et al. | Texture preserving photo style transfer network | |
CN114943894A (zh) | 一种基于ConvCRF的高分遥感影像建筑物提取优化方法 | |
CN112734914A (zh) | 一种增强现实视觉的图像立体重建方法及装置 | |
CN116710962A (zh) | 图像填充方法及装置、解码方法及装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |