CN114119424A - 一种基于光流法和多视角场景的视频修复方法 - Google Patents

一种基于光流法和多视角场景的视频修复方法 Download PDF

Info

Publication number
CN114119424A
CN114119424A CN202111498912.2A CN202111498912A CN114119424A CN 114119424 A CN114119424 A CN 114119424A CN 202111498912 A CN202111498912 A CN 202111498912A CN 114119424 A CN114119424 A CN 114119424A
Authority
CN
China
Prior art keywords
image
optical flow
network
images
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111498912.2A
Other languages
English (en)
Inventor
李恒宇
谢永浩
刘靖逸
岳涛
王曰英
谢少荣
罗均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Publication of CN114119424A publication Critical patent/CN114119424A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,公开了一种基于光流法和多视角场景的视频修复方法,解决了视频中单帧图像不准确和单帧图像中存在噪声的问题。本发明利用多视角场景提供的先验信息,基于条件生成对抗网络进行辅助初步修复;然后将视频修复视为一个像素传播问题,结合视频序列中前后图像帧间信息基于光流法来完成视频序列的修复。本发明可以被应用于智能驾驶车辆视觉系统中,使其可以更好地了解周围环境,辅助智能车辆进行路径选择的决策。

Description

一种基于光流法和多视角场景的视频修复方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于光流法和多视角场景的视频修复方法。
背景技术
随着图像处理和计算机视觉技术的发展,视觉信息在自动化领域发挥了关键作用。由于多视角图像采集系统有视场大、采集的图像信息丰富的特点,多视角图像采集系统已广泛应用于导航、全景图、遮挡处理和车辆分类、目标检测和跟踪中去。然而视频图像信息在采集、处理、压缩、传输和解压缩的过程中受到干扰后,会造成视频图像信息的异常或丢失,进而影响到系统对周围环境的感知和决策。视频修复的目标是利用空间和时间上都一致的内容来填充给定的视频序列中的缺失区域。这项技术已被广泛于受损图像恢复、视频修复以及图像编辑等许多领域。
现有的大多数视频修复算法分为两类:第一类依旧遵循传统的图像修复流程,将修复问题描述为一个基于斑块的优化问题,通过对已知区域的空间进行采样来修复缺失区域;第二类方法主要是基于数据驱动的方式来完成修复任务。本发明能够结合视频序列在时序上的一致性以及多相机系统空间上的图像信息,完成对视频的修复。
发明内容
针对现有技术中存在的问题和不足,本发明的目的在于提供一种基于光流法和多视角场景的视频修复方法。
基于上述目的,本发明采用的技术方案如下:
本发明第一方面提供了一种基于光流法和多视角场景的视频修复方法,包括以下步骤:
(1)采集场景的多视角视频,根据采集的视频制作训练集和测试集,具体操作如下:
(1a)采集原始图像:利用多相机设备获取视频帧数据,收集同时间采集的同一场景中m个视角的视频,得到了m个视角视频;从m个视角视频中随机抽取2个不同视角下的视频,然后按照视频的获取视角,将2个抽取的视频划分为左视角视频和右视角视频,提取左视角视频的图像帧组成左视角图像集,提取右视角视频的图像帧组成右视角图像集,并分别将左视角图像集和右视角图像集中的图像按采集时间先后顺序依次从1到n进行编号,所述左视角图像集和右视角图像集中的图像均为完好图像,且左视角图像与右视角图像有重合;
(1b)制作缺损图像:选择左视角图像集或右视角图像集制作缺损图像,从编号1至编号n,针对每个编号,从选中的左视角图像集或右视角图像集中选择对应编号的无损图像,然后在选中的无损图像上增加随机位置和随机大小的纯色遮挡块,得到缺损图像,每一张无损图像对应一张缺损图像;同时用遮挡块大小的掩码与选中的无损图像的二值图像相乘,得到缺损图像的二进制掩膜图像,每一张缺损图像对应一张二进制掩膜图像;
(1c)划分训练集和测试集:将每张缺损图像、每张缺损图像对应的二进制掩膜图像、每张缺损图像对应的无损图像以及与缺损图像编号相同的另一视角的完好图像组成1组样本,共有n组样本,将n组样本按比例划分为训练集和测试集;
(2)采用空间变换网络对训练集中的完好图像训练进行空间变换处理,得到完好图像的变换图像;所述空间变换网络用于将变换图像和与训练集中所述完好图像编号相同的缺损图像在缺损区域对齐,消除视角偏移;
(3)将步骤(2)得到的完好图像的变换图像和与所述完好图像编号相同的缺损图像组成图像对,采用所述图像对训练条件生成对抗网络,优化条件生成对抗网络的参数,得到训练后的条件生成对抗网络;
(4)将所述训练集中编号连续的一系列无损图像输入光流预测网络进行光流估计运算,得到训练集中无损图像的一系列光流图,将训练集中无损图像的一系列光流图和步骤(1c)得到的训练集中对应的二进制掩膜图像输入光流细化网络进行训练,优化光流细化网络的参数,得到训练后的光流细化网络;
(5)将测试集中完好图像输入空间变换网络,得到测试集中完好图像的变换图像;将所述测试集中完好图像的变换图像和与测试集中所述完好图像编号相同的缺损图像一起输入条件生成对抗网络,得到测试集中缺损图像的初步修复结果图像;
(6)按照步骤(5)依次将测试集中其余缺损图像进行初步修复,得到测试集中所有缺损图像的初步修复结果图像;取测试集中编号连续的缺损图像的初步修复结果图像输入光流预测网络进行光流估计运算,得到所述初步修复结果图像的一系列光流图;将所述初步修复结果图像的一系列光流图和步骤(1c)得到的测试集中对应的二进制掩膜图像一起输入训练后的光流细化网络,得到一系列最终预测结果光流图;
(7)遍历每个最终预测结果光流图,获得最终预测结果光流图中每个点的坐标,将输入光流图中对应坐标点的像素对应到光流图的相应位置,得到测试集中缺损图像的最终修复图像,进而得到测试集中缺损图像对应的最终修复视频。
更加优选地,步骤(1c)中划分训练集和测试集时,训练集和测试集中均含有编号连续的图像。
优选地,所述空间变换网络包含本地网络、网络生成器和采样器;所述本地网络利用4个卷积层提取图片特征,并将所述图片特征通过2个全连接回归层得到θ仿射变换参数;
所述网络生成器用于根据所述θ仿射变换参数构建采样网络,即得到一种映射关系,具体为:
Figure BDA0003401984090000031
其中{xs,ys}表示输入图像的像素点坐标,{xt,yt}表示目标图像的像素点坐标,θ为本地网络得到的θ仿射变换参数;
所述采样器用于根据采样网络所得的映射关系对输入空间变换网络中的图片进行像素级采样复制得到目标图像;若采样网络和输入图像的像素点坐标不能一一对应,采用双线性插值公式进行目标图像的像素填充,所述双线性插值公式为:
Figure BDA0003401984090000032
其中,Pixel(x,y)表示坐标点的像素值。
优选地,所述条件生成对抗网络包括生成器G和判别器D;所述生成器G结构为UNet型网络结构,生成器G包括编码器和解码器,其中,编码器含有9个卷积层,解码器含有7个反卷积层;所述判别器D包含5个卷积层和1个sigmoid层,用于判断图像是否修复完毕;在生成器G和判别器D的建模中均输入与输入的缺损图像编号相同的完好图像,并将所述完好图像作为生成器G和判别器D共同的额外条件变量,通过额外条件变量作为额外输入层导入生成器G和判别器D来实现条件模型。
优选地,所述步骤(3)的具体操作为:将步骤(2)得到的完好图像的变换图像和与所述完好图像编号相同的缺损图像组成图像对,然后将所述图像对输入条件生成对抗网络,条件生成对抗网络下的生成器G将所述图像对一起编码,再解码重构出所述缺损图像的初步修复结果,其重建损失函数具体如式1所示;判别器D判别的是与所述完好图像分别跟所述缺损图像对应的无损图像或所述缺损图像的初步修复结果组成的真或假的图像对;所述生成器G与判别器D不断进行迭代训练,直到目标函数达到0.5,即得到训练后的条件生成网络;条件生成对抗网络构建的目标函数具体如式2所示:
Figure BDA0003401984090000041
Figure BDA0003401984090000042
其中,x表示缺损图像对应的无损图像;y表示与缺损图像编号相同的完好图像;
Figure BDA0003401984090000043
表示缺损图像;G表示生成器,尝试最小化目标;D表示判别器,尝试最大化目标;E[*]表示条件期望函数。
更加优选地,所述生成器G的编码器在编码过程中,卷积层对缺损图像和与缺损图像编号相同的完好图像的变换图像分别进行卷积处理,分组卷积后再互相交换一半的特征通道,然后送入下一层处理。
优选地,所述光流细化网络DFC-Net包括3个光流细化子网络DFC-S,每个光流细化子网络均包括1个残差网络模块ResNet50和1个上采样模块;所述ResNet50为骨干网络,由5个卷积层组成;其中,每个光流细化子网络的ResNet50中的第1个卷积层的输入通道可根据实际情况进行通道数的变换,第4个卷积层和第5个卷积层为空洞卷积;
优选地,所述步骤(4)的具体操作为:
(4a)将所述训练集中编号连续的一系列无损图像输入光流预测网络进行光流估计计算,得到训练集中无损图像的一系列光流图;所述光流预测网络为光流估计FlowNet2.0模型;
(4b)将无损图像的一系列光流图中编号为第i张和第i+1张图像之间的初始光流信息记为
Figure BDA0003401984090000044
然后前后各取k张连续光流图,将所述2k+1张无损图像的光流图在通道维度上的拼接张量记为
Figure BDA0003401984090000045
从步骤(1c)得到的训练集中取对应编号为第i-k张至第i+k张二进制掩膜图像,将所述2k+1张二进制掩膜图像在通道维度上进行拼接的张量记为{M(i-k),...,Mi,...M(i+k)}将
Figure BDA0003401984090000046
和{M(i-k),...,Mi,...M(i+k)}在通道维度上进行拼接的张量输入第一个光流细化子网络,得到第一次光流修复结果f1;
(4c)将第一次光流修复结果f1光流图的前向光流的拼接张量
Figure BDA0003401984090000047
和后向光流的拼接张量
Figure BDA0003401984090000048
以及对应的二进制掩膜图像的拼接张量{M(i-k),...,Mi,...M(i+k)}和{M(i-k+1),...,M(i+1),...,M(i+k+1)}在通道维度上进行拼接的张量输入第二个光流细化子网络,得到第二次光流修复结果
Figure BDA0003401984090000051
(4d)重复步骤(4c),将
Figure BDA0003401984090000052
及其对应的二进制掩膜图像在通道维度上进行拼接的张量输入第三个光流细化子网络,完成光流图的修复,得到训练后的光流细化网络。
优选地,所述步骤(4)中将步骤(4a)得到的训练集中无损图像的一系列光流图的尺寸分别缩小为原尺寸的1/4,然后再进行拼接处理输入第一个光流细化子网络;将步骤(4b)得到的第一次光流修复结果f1中光流图的尺寸分别缩小为原尺寸的1/2,然后进行拼接处理输入第二个光流细化子网络;将步骤(4c)得到的第二次光流修复结果
Figure BDA0003401984090000053
中的光流图按原尺寸大小进行拼接处理,然后再输入第三个光流细化子网络。
更加优选地,步骤(4b)中k表示连续图像帧的长度,如k取5时,第一个光流细化子网络的输入通道数为33。
优选地,所述步骤(7)的具体操作为:遍历步骤(6)得到的每个最终预测结果光流图,获得最终预测结果光流图中每个点的坐标,将输入光流图中对应坐标点的像素对应到光流图的相应位置,若光流图中点的坐标与输入光流图无法精确对应,可采用最邻近或双线性方式获取像素,得到测试集中缺损图像的最终修复图像,进而得到测试集中缺损图像对应的最终修复视频。
本发明第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的基于光流法和多视角场景的视频修复方法。
本发明第三方面提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于光流法和多视角场景的视频修复方法。
与现有技术相比,本发明的有益效果如下:
(1)本发明融合视频序列的时序信息和多视角场景的空间信息进行视频修复,提出了一种基于光流引导和多视角场景的视频修复方法,探索了一种结合空间和时间进行视频修复的新方法。
(2)本发明通过引入空间变换网络完成多视角图像空间上的对齐,能够解决多摄像机系统视场的偏差,更好地融合多视角图像的空间信息;然后将多视角图像的空间信息引入条件生成对抗网络进行单帧图像的修复。
(3)本发明引入深度光流修复网络,利用处理任意形状地缺失区域、复杂地运动,能够保持时间一致性的特点,结合视频序列中图像的帧间信息完成前后图像帧信息的传递,解决时序前后图像帧间信息在传播过程中的丢失问题。
附图说明
图1为本发明的空间变换网络示意图;
图2为本发明实施例1的条件生成对抗网络示意图;
图3为本发明的整体结构示意图;
图4为本发明实施例1的测试过程流程图;
图5为本发明实施例1测试集中部分左视角缺损图像及其修复结果对比图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下通过实施例结合附图,对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
实施例1
本发明实施例提供一种基于光流法和多视角场景的视频修复方法,包括以下步骤:
(1)采集场景的多视角视频,根据采集的视频制作训练集和测试集,具体操作如下:
(1a)采集原始图像:利用多相机设备获取视频帧数据,收集同时间采集的同一场景中m个视角的视频,得到了m个视角视频;从m个视角视频中随机抽取2个不同视角下的视频,然后按照视频的获取视角,将2个抽取的视频划分为左视角视频和右视角视频,提取左视角视频的图像帧组成左视角图像集,提取右视角视频的图像帧组成右视角图像集,并分别将左视角图像集和右视角图像集中的图像按采集时间先后顺序依次从1到n进行编号,所述左视角图像集和右视角图像集中的图像均为完好图像,且左视角图像与右视角图像有重合;
(1b)制作缺损图像:选择左视角图像集制作缺损图像,从编号1至编号n,针对每个编号,从选中的左视角图像集中选择对应编号的无损图像,然后在选中的无损图像上增加随机位置和随机大小的纯色遮挡块,得到缺损图像,每一张无损图像对应一张缺损图像;同时用遮挡块大小的掩码与选中的无损图像的二值图像相乘,得到缺损图像的二进制掩膜图像,每一张缺损图像对应一张二进制掩膜图像;
(1c)划分训练集和测试集:将每张缺损图像、每张缺损图像对应的二进制掩膜图像、每张缺损图像对应的无损图像以及与缺损图像编号相同的右视角的完好图像组成1组样本,共有n组样本,将n组样本按比例划分为训练集和测试集;划分训练集和测试集时,训练集和测试集中均含有至少2k+2张编号连续的图像。
(2)采用空间变换网络对训练集中的完好图像进行空间变换处理,得到完好图像的变换图像;所述空间变换网络用于将变换图像和与训练集中所述完好图像编号相同的缺损图像在缺损区域对齐,消除视角偏移。
所述空间变换网络的网络结构如图1所示,包含本地网络、网络生成器和采样器;所述本地网络利用4个卷积层提取图片特征,并将所述图片特征通过2个全连接回归层得到θ仿射变换参数;
所述网络生成器用于根据所述θ仿射变换参数构建采样网络,即得到一种映射关系,具体为:
Figure BDA0003401984090000071
其中{xs,ys}表示输入图像的像素点坐标,{xt,yt}表示目标图像的像素点坐标,θ为本地网络得到的θ仿射变换参数;
所述采样器用于根据采样网络所得的映射关系对输入空间变换网络中的图片进行像素级采样复制得到目标图像;若采样网络和输入图像的像素点坐标不能一一对应,采用双线性插值公式进行目标图像的像素填充,所述双线性插值公式为:
Figure BDA0003401984090000072
其中,Pixel(x,y)表示坐标点的像素值。
由于发明人已知左右视角图像的θ仿射变换参数,在实际训练过程中直接将训练集中的完好图像(右视角图像)输入空间对抗网络,得到训练集中完好图像的变换图像。空间变换网络在其网络生成器中对右视角完好图像进行空间变换,使得编号相同的左右视角图像在缺损区域对齐,消除多视角场景之间的视场偏移,便于利用右视角图像的图像纹理信息修复左视角缺损图像,将左视角缺损图像和对应的右视角图像结合起来重建修复图像。
(3)将步骤(2)得到的完好图像的变换图像和与所述完好图像编号相同的缺损图像组成图像对,采用所述图像对训练条件生成对抗网络(CGAN),优化条件生成对抗网络的参数,得到训练后的条件生成对抗网络。
所述条件生成对抗网络包括生成器G和判别器D;所述生成器G结构为UNet型网络结构,生成器G包括编码器和解码器,其中,编码器含有9个卷积层,解码器含有7个反卷积层;所述判别器D包含5个卷积层和1个sigmoid层,用于判断图像是否修复完毕;在生成器G和判别器D的建模中均输入与输入的缺损图像编号相同的完好图像,并将所述完好图像作为生成器G和判别器D共同的额外条件变量,通过额外条件变量作为额外输入层导入生成器G和判别器D来实现条件模型。
其中,步骤(3)中训练条件生成对抗网络的具体过程为:将步骤(2)得到的右视角完好图像的变换图像与所述完好图像编号相同的左视角缺损图像组成图像对,然后将所述图像对输入条件生成对抗网络,条件生成对抗网络下的生成器G将所述图像对一起编码,再解码重构出所述缺损图像的初步修复结果,其重建损失函数具体如式1所示;判别器D判别的是与所述完好图像分别跟所述缺损图像对应的无损图像或所述缺损图像的初步修复结果组成的真或假的图像对;所述生成器G与判别器D不断进行迭代训练,直到目标函数达到0.5,即得到训练后的条件生成网络;条件生成对抗网络构建的目标函数具体如式2所示:
Figure BDA0003401984090000081
Figure BDA0003401984090000082
其中,x表示缺损图像对应的无损图像;y表示与缺损图像编号相同的完好图像;
Figure BDA0003401984090000083
表示缺损图像;G表示生成器,尝试最小化目标;D表示判别器,尝试最大化目标;E[*]表示条件期望函数。
所述生成器G的编码器在编码过程中,卷积层对缺损图像和与缺损图像编号相同的完好图像的变换图像分别进行卷积处理,分组卷积后再互相交换一半的特征通道,然后送入下一层处理。所述条件生成对抗网络的具体处理过程如图2所示。
条件生成对抗网络作用为修复大面积受损的图像,在本发明中通过多相机系统引入其他视角的视频图像帧来辅助和约束图像修复过程,本实施例中将左视角缺损图像和对应的右视角图像结合起来重建修复图像。
(4)将所述训练集中编号连续的一系列无损图像输入光流预测网络进行光流估计运算,得到训练集中无损图像的一系列光流图,将训练集中无损图像的一系列光流图和步骤(1c)得到的训练集中对应的二进制掩膜图像输入光流细化网络进行训练,优化光流细化网络的参数,得到训练后的光流细化网络。
所述光流细化网络DFC-Net包括3个光流细化子网络DFC-S(如图3中DFC-S网络所示),每个光流细化子网络均包括1个残差网络模块ResNet50和1个上采样模块;所述ResNet50为骨干网络,由5个卷积层组成;其中,每个光流细化子网络的ResNet50中的第1个卷积层的输入通道可根据实际情况进行通道数的变换,为了扩大卷积网络的感受野,将卷积的步长减少,并在第4个卷积层和第5个卷积层使用空洞卷积,最后添加上采样层upsample来放大最后的预测光流。
其中,所述光流估计运算具体过程为:(4a)将训练集中编号连续的一系列无损图像输入光流预测网络进行光流估计计算,得到训练集中无损图像的一系列光流图;所述光流预测网络为光流估计FlowNet 2.0模型。
所述训练光流细化网络的具体过程(如图3所示)为:
(4b)将无损图像的一系列光流图中编号为第i张和第i+1张图像之间的初始光流信息记为
Figure BDA0003401984090000091
然后前后各取k张连续光流图(其中k表示连续图像帧的长度,例如k取5,则第一个光流细化网络的子网络的输入通道数为33),将所述2k+1张无损图像的光流图在通道维度上的拼接张量记为
Figure BDA0003401984090000092
从步骤(1c)得到的训练集中取对应编号为第i-k张至第i+k张二进制掩膜图像,将所述2k+1张二进制掩膜图像在通道维度上进行拼接的张量记为{M(i-k),...,Mi,...M(i+k)};将
Figure BDA0003401984090000093
和{M(i-k),...,Mi,...M(i+k)}在通道维度上进行拼接的张量输入第一个光流细化子网络(如图4中的光流细化网络1),得到第一次光流修复结果f1
(4c)将第一次光流修复结果f1光流图的前向光流的拼接张量
Figure BDA0003401984090000094
和后向光流的拼接张量
Figure BDA0003401984090000095
(即图3中的forward和backward所示部分)以及对应的二进制掩膜的拼接张量{M(i-k),...,Mi,...M(i+k)}和{M(i-k+1),...,M(i+1),...,M(i+k+1)}在通道维度上进行拼接的张量输入第二个光流细化子网络,得到第二次光流修复结果
Figure BDA0003401984090000101
(4d)重复步骤(4c),将
Figure BDA0003401984090000102
及其对应的二进制掩膜图像在通道维度上进行拼接的张量输入第三个光流细化子网络,完成光流图的修复,得到训练后的光流细化网络。
由于光流中缺失的部分越小,丢失的光流越容易完成修复,所以先将光流图的形状缩小以获得良好的初始化修复的效果,然后再逐渐放大每次输入的光流图大小,进而逐步完成从粗糙到精细的修复。其中,将步骤(4a)得到的训练集中无损图像的一系列光流图的尺寸分别缩小为原尺寸的1/4,然后再进行拼接处理输入第一个光流细化子网络;将步骤(4b)得到的第一次光流修复结果f1中光流图的尺寸分别缩小为原尺寸的1/2,然后再进行拼接处理输入第二个光流细化子网络;将步骤(4c)得到的第二次光流修复结果
Figure BDA0003401984090000103
中的光流图按原尺寸大小进行拼接处理,然后再输入第三个光流细化子网络。
所述光流细化网络结构及其训练过程和训练结束的标准,可具体参见徐瑞等在2019IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)上发表的文章《Deep Flow-Guided Video Inpainting》。
(5)将测试集中右视角完好图像输入空间变换网络,得到测试集中完好图像的变换图像;将所述测试集中完好图像的变换图像和与所述完好图像编号相同的左视角缺损图像一起输入条件生成对抗网络,得到测试集中左视角缺损图像的初步修复结果图像。
(6)按照步骤(5)依次将测试集中其余缺损图像进行初步修复,得到测试集中所有左视角缺损图像的初步修复结果图像;取测试集中编号连续的左视角缺损图像的初步修复结果图像输入光流预测网络(光流估计FlowNet 2.0模型)进行光流估计运算,得到所述初步修复结果图像的一系列光流图;将所述初步修复结果图像的一系列光流图和步骤(1c)得到的测试集中对应的二进制掩膜图像一起输入训练后的光流细化网络,重复步骤(4)中训练光流细化网络时的具体过程,得到一系列最终预测结果光流图,具体过程如图4所示。
(7)由于光流修复网络修复的光流建立了视频序列帧间像素之间的运动关系,可以在光流的引导下进行像素的传播。遍历步骤(6)得到的每个最终预测结果光流图,获得最终预测结果光流图中每个点的坐标,将输入光流图中对应坐标点的像素对应到光流图的相应位置,若光流图中点的坐标与输入光流图无法精确对应,可采用最邻近或双线性方式获取像素,得到测试集中缺损图像的最终修复图像,进而得到测试集中左视角缺损图像对应的最终修复视频。
本发明提供的一种基于光流法和多视角场景的视频修复方法能够结合视频序列在时序上的一致性以及多相机系统空间上的图像信息,完成对视频的修复,整体结构示意图如图3所示。图5展示了本发明实施例1测试集中部分左视角缺损图像的修复结果。其中,图5第1列表示测试集中的左视角缺损图像,第2列表示测试集中与缺损图像编号相同的右视角完好图像,第3列表示测试集中与左视角缺损图像对应的无损图像,第4列表示仅用光流法修复整个过程的结果图像,第5列表示本发明实施例1测试集中部分左视角缺损图像的修复结果图像。结果显示,第5列本发明测试结果跑分更高,测试结果更好。
本发明可以被应用于智能驾驶车辆视觉系统中,使得其可以更好地了解周围环境,辅助智能车辆进行路径选择的决策。
实施例2
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如实施例1所述的基于光流法和多视角场景的视频修复方法。
实施例3
一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如实施例1所述的基于光流法和多视角场景的视频修复方法。
综上所述,本发明有效克服了现有技术中的不足,且具高度产业利用价值。上述实施例的作用在于说明本发明的实质性内容,但并不以此限定本发明的保护范围。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和保护范围。

Claims (10)

1.一种基于光流法和多视角场景的视频修复方法,其特征在于,包括以下步骤:
(1)采集场景的多视角视频,根据采集的视频制作训练集和测试集,具体操作如下:
(1a)采集原始图像:利用多相机设备获取视频帧数据,收集同时间采集的同一场景中m个视角的视频,得到了m个视角视频;从m个视角视频中随机抽取2个不同视角下的视频,然后按照视频的获取视角,将2个抽取的视频划分为左视角视频和右视角视频,提取左视角视频的图像帧组成左视角图像集,提取右视角视频的图像帧组成右视角图像集,并分别将左视角图像集和右视角图像集中的图像按采集时间先后顺序依次从1到n进行编号,所述左视角图像集和右视角图像集中的图像均为完好图像,且左视角图像与右视角图像有重合;
(1b)制作缺损图像:选择左视角图像集或右视角图像集制作缺损图像,从编号1至编号n,针对每个编号,从选中的左视角图像集或右视角图像集中选择对应编号的无损图像,然后在选中的无损图像上增加随机位置和随机大小的纯色遮挡块,得到缺损图像,每一张无损图像对应一张缺损图像;同时用遮挡块大小的掩码与选中的无损图像的二值图像相乘,得到缺损图像的二进制掩膜图像,每一张缺损图像对应一张二进制掩膜图像;
(1c)划分训练集和测试集:将每张缺损图像、每张缺损图像对应的二进制掩膜图像、每张缺损图像对应的无损图像以及与缺损图像编号相同的另一视角的完好图像组成1组样本,共有n组样本,将n组样本按比例划分为训练集和测试集;
(2)采用空间变换网络对训练集中的完好图像进行空间变换处理,得到完好图像的变换图像;所述空间变换网络用于将变换图像和与训练集中所述完好图像编号相同的缺损图像在缺损区域对齐,消除视角偏移;
(3)将步骤(2)得到的完好图像的变换图像和与所述完好图像编号相同的缺损图像组成图像对,采用所述图像对训练条件生成对抗网络,优化条件生成对抗网络的参数,得到训练后的条件生成对抗网络;
(4)将所述训练集中编号连续的一系列无损图像输入光流预测网络进行光流估计运算,得到训练集中无损图像的一系列光流图,将训练集中无损图像的一系列光流图和步骤(1c)得到的训练集中对应的二进制掩膜图像输入光流细化网络进行训练,优化光流细化网络的参数,得到训练后的光流细化网络;
(5)将测试集中完好图像输入空间变换网络,得到测试集中完好图像的变换图像;将所述测试集中完好图像的变换图像和与测试集中所述完好图像编号相同的缺损图像一起输入条件生成对抗网络,得到测试集中缺损图像的初步修复结果图像;
(6)按照步骤(5)依次将测试集中其余缺损图像进行初步修复,得到测试集中所有缺损图像的初步修复结果图像;取测试集中编号连续的缺损图像的初步修复结果图像输入光流预测网络进行光流估计运算,得到所述初步修复结果图像的一系列光流图;将所述初步修复结果图像的一系列光流图和步骤(1c)得到的测试集中对应的二进制掩膜图像一起输入训练后的光流细化网络,得到一系列最终预测结果光流图;
(7)遍历每个最终预测结果光流图,获得最终预测结果光流图中每个点的坐标,将输入光流图中对应坐标点的像素对应到光流图的相应位置,得到测试集中缺损图像的最终修复图像,进而得到测试集中缺损图像对应的最终修复视频。
2.根据权利要求1所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述空间变换网络包含本地网络、网络生成器和采样器;所述本地网络利用4个卷积层提取图片特征,并将所述图片特征通过2个全连接回归层得到θ仿射变换参数;
所述网络生成器用于根据所述θ仿射变换参数构建采样网络,即得到一种映射关系,具体为:
Figure FDA0003401984080000021
其中{x8,y8}表示输入图像的像素点坐标,{xt,yt}表示目标图像的像素点坐标,θ为本地网络得到的θ仿射变换参数;
所述采样器用于根据采样网络所得的映射关系对输入空间变换网络中的图片进行像素级采样复制得到目标图像;若采样网络和输入图像的像素点坐标不能一一对应,采用双线性插值公式进行目标图像的像素填充,所述双线性插值公式为:
Figure FDA0003401984080000022
其中,Pixel(x,y)表示坐标点的像素值。
3.根据权利要求2所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述条件生成对抗网络包括生成器G和判别器D;所述生成器G结构为UNet型网络结构,生成器G包括编码器和解码器,其中,编码器含有9个卷积层,解码器含有7个反卷积层;所述判别器D包含5个卷积层和1个sigmoid层,用于判断图像是否修复完毕;在生成器G和判别器D的建模中均输入与输入的缺损图像编号相同的完好图像,并将所述完好图像作为生成器G和判别器D共同的额外条件变量,通过额外条件变量作为额外输入层导入生成器G和判别器D来实现条件模型。
4.根据权利要求3所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述步骤(3)的具体操作为:将步骤(2)得到的完好图像的变换图像和与所述完好图像编号相同的缺损图像组成图像对,然后将所述图像对输入条件生成对抗网络,条件生成对抗网络下的生成器G将所述图像对一起编码,再解码重构出所述缺损图像的初步修复结果,其重建损失函数具体如式1所示;判别器D判别的是与所述完好图像分别跟所述缺损图像对应的无损图像或所述缺损图像的初步修复结果组成的真或假的图像对;所述生成器G与判别器D不断进行迭代训练,直到目标函数达到0.5,即得到训练后的条件生成网络;条件生成对抗网络构建的目标函数具体如式2所示:
Figure FDA0003401984080000031
Figure FDA0003401984080000032
其中,x表示缺损图像对应的无损图像;y表示与缺损图像编号相同的完好图像;
Figure FDA0003401984080000033
表示缺损图像;G表示生成器,尝试最小化目标;D表示判别器,尝试最大化目标;E[*]表示条件期望函数。
5.根据权利要求4所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述光流细化网络DFC-Net包括3个光流细化子网络DFC-S,每个光流细化子网络均包括1个残差网络模块ResNet50和1个上采样模块;所述ResNet50为骨干网络,由5个卷积层组成;其中,每个光流细化子网络的ResNet50中的第1个卷积层的输入通道可根据实际情况进行通道数的变换,第4个卷积层和第5个卷积层为空洞卷积。
6.根据权利要求5所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述步骤(4)的具体操作为:
(4a)将所述训练集中编号连续的一系列无损图像输入光流预测网络进行光流估计计算,得到训练集中无损图像的一系列光流图;所述光流预测网络为光流估计FlowNet 2.0模型;
(4b)将所述无损图像的一系列光流图中编号为第i张和第i+1张图像之间的初始光流信息记为
Figure FDA0003401984080000034
然后前后各取k张连续光流图,将所述2k+1张无损图像的光流图在通道维度上的拼接张量记为
Figure FDA0003401984080000035
从步骤(1c)得到的训练集中取对应编号为第i-k张至第i+k张二进制掩膜图像,将所述2k+1张二进制掩膜图像在通道维度上进行拼接的张量记为{M(i-k),...,Mi,...M(i+k)};将
Figure FDA0003401984080000041
和{M(i-k),...,Mi,...M(i+k)}在通道维度上进行拼接的张量输入第一个光流细化子网络,得到第一次光流修复结果f1
(4c)将第一次光流修复结果f1光流图的前向光流的拼接张量
Figure FDA0003401984080000042
和后向光流的拼接张量
Figure FDA0003401984080000043
以及对应的二进制掩膜图像的拼接张量{M(i-k),...,Mi,..·M(i+k)}和{M(i-k+1),...,M(i+1),...,M(i+k+1)}在通道维度上进行拼接的张量输入第二个光流细化子网络,得到第二次光流修复结果
Figure FDA0003401984080000044
(4d)重复步骤(4c),将
Figure FDA0003401984080000045
及其对应的二进制掩膜图像在通道维度上进行拼接的张量输入第三个光流细化子网络,完成光流图的修复,得到训练后的光流细化网络。
7.根据权利要求6所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述步骤(4)中将步骤(4a)得到的训练集中无损图像的一系列光流图的尺寸缩小为原尺寸的1/4,然后再进行拼接处理输入第一个光流细化子网络;将步骤(4b)得到的第一次光流修复结果f1中光流图的尺寸缩小为原尺寸的1/2,然后进行拼接处理输入第二个光流细化子网络;将步骤(4c)得到的第二次光流修复结果
Figure FDA0003401984080000046
中光流图按原尺寸大小输入第三个光流细化子网络。
8.根据权利要求7所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述步骤(7)的具体操作为:遍历步骤(6)得到的每个最终预测结果光流图,获得最终预测结果光流图中每个点的坐标,将输入光流图中对应坐标点的像素对应到光流图的相应位置,若光流图中点的坐标与输入光流图无法精确对应,可采用最邻近或双线性方式获取像素,得到测试集中缺损图像的最终修复图像,进而得到测试集中缺损图像对应的最终修复视频。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1~8任意一项所述的基于光流法和多视角场景的视频修复方法。
10.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~8任意一项所述的基于光流法和多视角场景的视频修复方法。
CN202111498912.2A 2021-08-27 2021-12-09 一种基于光流法和多视角场景的视频修复方法 Pending CN114119424A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021109975098 2021-08-27
CN202110997509 2021-08-27

Publications (1)

Publication Number Publication Date
CN114119424A true CN114119424A (zh) 2022-03-01

Family

ID=80363772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111498912.2A Pending CN114119424A (zh) 2021-08-27 2021-12-09 一种基于光流法和多视角场景的视频修复方法

Country Status (1)

Country Link
CN (1) CN114119424A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681604A (zh) * 2023-04-24 2023-09-01 吉首大学 一种基于条件生成对抗网络的秦简文字修复方法
WO2024042705A1 (ja) * 2022-08-26 2024-02-29 日本電気株式会社 映像処理システム、映像処理方法、及び映像処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024042705A1 (ja) * 2022-08-26 2024-02-29 日本電気株式会社 映像処理システム、映像処理方法、及び映像処理装置
CN116681604A (zh) * 2023-04-24 2023-09-01 吉首大学 一种基于条件生成对抗网络的秦简文字修复方法
CN116681604B (zh) * 2023-04-24 2024-01-02 吉首大学 一种基于条件生成对抗网络的秦简文字修复方法

Similar Documents

Publication Publication Date Title
CN110084757B (zh) 一种基于生成对抗网络的红外深度图像增强方法
Alsaiari et al. Image denoising using a generative adversarial network
CN111325693B (zh) 一种基于单视点rgb-d图像的大尺度全景视点合成方法
CN111260560B (zh) 一种融合注意力机制的多帧视频超分辨率方法
CN114119424A (zh) 一种基于光流法和多视角场景的视频修复方法
CN111080776B (zh) 人体动作三维数据采集和复现的处理方法及系统
Yuan et al. Multiview scene image inpainting based on conditional generative adversarial networks
CN109949354B (zh) 一种基于全卷积神经网络的光场深度信息估计方法
CN110766623A (zh) 一种基于深度学习的立体图像修复方法
CN111951195A (zh) 图像增强方法及装置
CN115035235A (zh) 三维重建方法及装置
CN104735351A (zh) 一种高分辨率光场图片重建方法与成像装置
CN113808005A (zh) 一种基于视频驱动的人脸姿态迁移方法及装置
Wang et al. Joint framework for single image reconstruction and super-resolution with an event camera
CN116957931A (zh) 一种基于神经辐射场的相机图像画质提升方法
CN112270701B (zh) 基于分组距离网络的视差预测方法、系统及存储介质
Zhu et al. Occlusion-free scene recovery via neural radiance fields
CN112489103B (zh) 一种高分辨率深度图获取方法及系统
Chen et al. Flow Supervised Neural Radiance Fields for Static-Dynamic Decomposition
CN116402908A (zh) 一种基于异构式成像的密集光场图像重建方法
CN116309163A (zh) 一种黑白图像引导的彩色raw图像联合去噪去马赛克方法
Yan et al. Light field depth estimation based on channel attention and edge guidance
CN115063303A (zh) 一种基于图像修复的图像3d化方法
Evain et al. A lightweight neural network for monocular view generation with occlusion handling
CN114387327A (zh) 基于深度学习视差预测的合成孔径聚焦成像方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination