CN114119424A - 一种基于光流法和多视角场景的视频修复方法 - Google Patents
一种基于光流法和多视角场景的视频修复方法 Download PDFInfo
- Publication number
- CN114119424A CN114119424A CN202111498912.2A CN202111498912A CN114119424A CN 114119424 A CN114119424 A CN 114119424A CN 202111498912 A CN202111498912 A CN 202111498912A CN 114119424 A CN114119424 A CN 114119424A
- Authority
- CN
- China
- Prior art keywords
- image
- optical flow
- network
- images
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 165
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims description 61
- 230000007547 defect Effects 0.000 claims description 58
- 238000012360 testing method Methods 0.000 claims description 57
- 230000008439 repair process Effects 0.000 claims description 47
- 230000002950 deficient Effects 0.000 claims description 44
- 230000009466 transformation Effects 0.000 claims description 32
- 230000000007 visual effect Effects 0.000 claims description 31
- 238000010586 diagram Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 241000287196 Asthenes Species 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 230000010076 replication Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉领域,公开了一种基于光流法和多视角场景的视频修复方法,解决了视频中单帧图像不准确和单帧图像中存在噪声的问题。本发明利用多视角场景提供的先验信息,基于条件生成对抗网络进行辅助初步修复;然后将视频修复视为一个像素传播问题,结合视频序列中前后图像帧间信息基于光流法来完成视频序列的修复。本发明可以被应用于智能驾驶车辆视觉系统中,使其可以更好地了解周围环境,辅助智能车辆进行路径选择的决策。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于光流法和多视角场景的视频修复方法。
背景技术
随着图像处理和计算机视觉技术的发展,视觉信息在自动化领域发挥了关键作用。由于多视角图像采集系统有视场大、采集的图像信息丰富的特点,多视角图像采集系统已广泛应用于导航、全景图、遮挡处理和车辆分类、目标检测和跟踪中去。然而视频图像信息在采集、处理、压缩、传输和解压缩的过程中受到干扰后,会造成视频图像信息的异常或丢失,进而影响到系统对周围环境的感知和决策。视频修复的目标是利用空间和时间上都一致的内容来填充给定的视频序列中的缺失区域。这项技术已被广泛于受损图像恢复、视频修复以及图像编辑等许多领域。
现有的大多数视频修复算法分为两类:第一类依旧遵循传统的图像修复流程,将修复问题描述为一个基于斑块的优化问题,通过对已知区域的空间进行采样来修复缺失区域;第二类方法主要是基于数据驱动的方式来完成修复任务。本发明能够结合视频序列在时序上的一致性以及多相机系统空间上的图像信息,完成对视频的修复。
发明内容
针对现有技术中存在的问题和不足,本发明的目的在于提供一种基于光流法和多视角场景的视频修复方法。
基于上述目的,本发明采用的技术方案如下:
本发明第一方面提供了一种基于光流法和多视角场景的视频修复方法,包括以下步骤:
(1)采集场景的多视角视频,根据采集的视频制作训练集和测试集,具体操作如下:
(1a)采集原始图像:利用多相机设备获取视频帧数据,收集同时间采集的同一场景中m个视角的视频,得到了m个视角视频;从m个视角视频中随机抽取2个不同视角下的视频,然后按照视频的获取视角,将2个抽取的视频划分为左视角视频和右视角视频,提取左视角视频的图像帧组成左视角图像集,提取右视角视频的图像帧组成右视角图像集,并分别将左视角图像集和右视角图像集中的图像按采集时间先后顺序依次从1到n进行编号,所述左视角图像集和右视角图像集中的图像均为完好图像,且左视角图像与右视角图像有重合;
(1b)制作缺损图像:选择左视角图像集或右视角图像集制作缺损图像,从编号1至编号n,针对每个编号,从选中的左视角图像集或右视角图像集中选择对应编号的无损图像,然后在选中的无损图像上增加随机位置和随机大小的纯色遮挡块,得到缺损图像,每一张无损图像对应一张缺损图像;同时用遮挡块大小的掩码与选中的无损图像的二值图像相乘,得到缺损图像的二进制掩膜图像,每一张缺损图像对应一张二进制掩膜图像;
(1c)划分训练集和测试集:将每张缺损图像、每张缺损图像对应的二进制掩膜图像、每张缺损图像对应的无损图像以及与缺损图像编号相同的另一视角的完好图像组成1组样本,共有n组样本,将n组样本按比例划分为训练集和测试集;
(2)采用空间变换网络对训练集中的完好图像训练进行空间变换处理,得到完好图像的变换图像;所述空间变换网络用于将变换图像和与训练集中所述完好图像编号相同的缺损图像在缺损区域对齐,消除视角偏移;
(3)将步骤(2)得到的完好图像的变换图像和与所述完好图像编号相同的缺损图像组成图像对,采用所述图像对训练条件生成对抗网络,优化条件生成对抗网络的参数,得到训练后的条件生成对抗网络;
(4)将所述训练集中编号连续的一系列无损图像输入光流预测网络进行光流估计运算,得到训练集中无损图像的一系列光流图,将训练集中无损图像的一系列光流图和步骤(1c)得到的训练集中对应的二进制掩膜图像输入光流细化网络进行训练,优化光流细化网络的参数,得到训练后的光流细化网络;
(5)将测试集中完好图像输入空间变换网络,得到测试集中完好图像的变换图像;将所述测试集中完好图像的变换图像和与测试集中所述完好图像编号相同的缺损图像一起输入条件生成对抗网络,得到测试集中缺损图像的初步修复结果图像;
(6)按照步骤(5)依次将测试集中其余缺损图像进行初步修复,得到测试集中所有缺损图像的初步修复结果图像;取测试集中编号连续的缺损图像的初步修复结果图像输入光流预测网络进行光流估计运算,得到所述初步修复结果图像的一系列光流图;将所述初步修复结果图像的一系列光流图和步骤(1c)得到的测试集中对应的二进制掩膜图像一起输入训练后的光流细化网络,得到一系列最终预测结果光流图;
(7)遍历每个最终预测结果光流图,获得最终预测结果光流图中每个点的坐标,将输入光流图中对应坐标点的像素对应到光流图的相应位置,得到测试集中缺损图像的最终修复图像,进而得到测试集中缺损图像对应的最终修复视频。
更加优选地,步骤(1c)中划分训练集和测试集时,训练集和测试集中均含有编号连续的图像。
优选地,所述空间变换网络包含本地网络、网络生成器和采样器;所述本地网络利用4个卷积层提取图片特征,并将所述图片特征通过2个全连接回归层得到θ仿射变换参数;
所述网络生成器用于根据所述θ仿射变换参数构建采样网络,即得到一种映射关系,具体为:
其中{xs,ys}表示输入图像的像素点坐标,{xt,yt}表示目标图像的像素点坐标,θ为本地网络得到的θ仿射变换参数;
所述采样器用于根据采样网络所得的映射关系对输入空间变换网络中的图片进行像素级采样复制得到目标图像;若采样网络和输入图像的像素点坐标不能一一对应,采用双线性插值公式进行目标图像的像素填充,所述双线性插值公式为:
其中,Pixel(x,y)表示坐标点的像素值。
优选地,所述条件生成对抗网络包括生成器G和判别器D;所述生成器G结构为UNet型网络结构,生成器G包括编码器和解码器,其中,编码器含有9个卷积层,解码器含有7个反卷积层;所述判别器D包含5个卷积层和1个sigmoid层,用于判断图像是否修复完毕;在生成器G和判别器D的建模中均输入与输入的缺损图像编号相同的完好图像,并将所述完好图像作为生成器G和判别器D共同的额外条件变量,通过额外条件变量作为额外输入层导入生成器G和判别器D来实现条件模型。
优选地,所述步骤(3)的具体操作为:将步骤(2)得到的完好图像的变换图像和与所述完好图像编号相同的缺损图像组成图像对,然后将所述图像对输入条件生成对抗网络,条件生成对抗网络下的生成器G将所述图像对一起编码,再解码重构出所述缺损图像的初步修复结果,其重建损失函数具体如式1所示;判别器D判别的是与所述完好图像分别跟所述缺损图像对应的无损图像或所述缺损图像的初步修复结果组成的真或假的图像对;所述生成器G与判别器D不断进行迭代训练,直到目标函数达到0.5,即得到训练后的条件生成网络;条件生成对抗网络构建的目标函数具体如式2所示:
更加优选地,所述生成器G的编码器在编码过程中,卷积层对缺损图像和与缺损图像编号相同的完好图像的变换图像分别进行卷积处理,分组卷积后再互相交换一半的特征通道,然后送入下一层处理。
优选地,所述光流细化网络DFC-Net包括3个光流细化子网络DFC-S,每个光流细化子网络均包括1个残差网络模块ResNet50和1个上采样模块;所述ResNet50为骨干网络,由5个卷积层组成;其中,每个光流细化子网络的ResNet50中的第1个卷积层的输入通道可根据实际情况进行通道数的变换,第4个卷积层和第5个卷积层为空洞卷积;
优选地,所述步骤(4)的具体操作为:
(4a)将所述训练集中编号连续的一系列无损图像输入光流预测网络进行光流估计计算,得到训练集中无损图像的一系列光流图;所述光流预测网络为光流估计FlowNet2.0模型;
(4b)将无损图像的一系列光流图中编号为第i张和第i+1张图像之间的初始光流信息记为然后前后各取k张连续光流图,将所述2k+1张无损图像的光流图在通道维度上的拼接张量记为从步骤(1c)得到的训练集中取对应编号为第i-k张至第i+k张二进制掩膜图像,将所述2k+1张二进制掩膜图像在通道维度上进行拼接的张量记为{M(i-k),...,Mi,...M(i+k)}将和{M(i-k),...,Mi,...M(i+k)}在通道维度上进行拼接的张量输入第一个光流细化子网络,得到第一次光流修复结果f1;
(4c)将第一次光流修复结果f1光流图的前向光流的拼接张量和后向光流的拼接张量以及对应的二进制掩膜图像的拼接张量{M(i-k),...,Mi,...M(i+k)}和{M(i-k+1),...,M(i+1),...,M(i+k+1)}在通道维度上进行拼接的张量输入第二个光流细化子网络,得到第二次光流修复结果
优选地,所述步骤(4)中将步骤(4a)得到的训练集中无损图像的一系列光流图的尺寸分别缩小为原尺寸的1/4,然后再进行拼接处理输入第一个光流细化子网络;将步骤(4b)得到的第一次光流修复结果f1中光流图的尺寸分别缩小为原尺寸的1/2,然后进行拼接处理输入第二个光流细化子网络;将步骤(4c)得到的第二次光流修复结果中的光流图按原尺寸大小进行拼接处理,然后再输入第三个光流细化子网络。
更加优选地,步骤(4b)中k表示连续图像帧的长度,如k取5时,第一个光流细化子网络的输入通道数为33。
优选地,所述步骤(7)的具体操作为:遍历步骤(6)得到的每个最终预测结果光流图,获得最终预测结果光流图中每个点的坐标,将输入光流图中对应坐标点的像素对应到光流图的相应位置,若光流图中点的坐标与输入光流图无法精确对应,可采用最邻近或双线性方式获取像素,得到测试集中缺损图像的最终修复图像,进而得到测试集中缺损图像对应的最终修复视频。
本发明第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的基于光流法和多视角场景的视频修复方法。
本发明第三方面提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于光流法和多视角场景的视频修复方法。
与现有技术相比,本发明的有益效果如下:
(1)本发明融合视频序列的时序信息和多视角场景的空间信息进行视频修复,提出了一种基于光流引导和多视角场景的视频修复方法,探索了一种结合空间和时间进行视频修复的新方法。
(2)本发明通过引入空间变换网络完成多视角图像空间上的对齐,能够解决多摄像机系统视场的偏差,更好地融合多视角图像的空间信息;然后将多视角图像的空间信息引入条件生成对抗网络进行单帧图像的修复。
(3)本发明引入深度光流修复网络,利用处理任意形状地缺失区域、复杂地运动,能够保持时间一致性的特点,结合视频序列中图像的帧间信息完成前后图像帧信息的传递,解决时序前后图像帧间信息在传播过程中的丢失问题。
附图说明
图1为本发明的空间变换网络示意图;
图2为本发明实施例1的条件生成对抗网络示意图;
图3为本发明的整体结构示意图;
图4为本发明实施例1的测试过程流程图;
图5为本发明实施例1测试集中部分左视角缺损图像及其修复结果对比图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下通过实施例结合附图,对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
实施例1
本发明实施例提供一种基于光流法和多视角场景的视频修复方法,包括以下步骤:
(1)采集场景的多视角视频,根据采集的视频制作训练集和测试集,具体操作如下:
(1a)采集原始图像:利用多相机设备获取视频帧数据,收集同时间采集的同一场景中m个视角的视频,得到了m个视角视频;从m个视角视频中随机抽取2个不同视角下的视频,然后按照视频的获取视角,将2个抽取的视频划分为左视角视频和右视角视频,提取左视角视频的图像帧组成左视角图像集,提取右视角视频的图像帧组成右视角图像集,并分别将左视角图像集和右视角图像集中的图像按采集时间先后顺序依次从1到n进行编号,所述左视角图像集和右视角图像集中的图像均为完好图像,且左视角图像与右视角图像有重合;
(1b)制作缺损图像:选择左视角图像集制作缺损图像,从编号1至编号n,针对每个编号,从选中的左视角图像集中选择对应编号的无损图像,然后在选中的无损图像上增加随机位置和随机大小的纯色遮挡块,得到缺损图像,每一张无损图像对应一张缺损图像;同时用遮挡块大小的掩码与选中的无损图像的二值图像相乘,得到缺损图像的二进制掩膜图像,每一张缺损图像对应一张二进制掩膜图像;
(1c)划分训练集和测试集:将每张缺损图像、每张缺损图像对应的二进制掩膜图像、每张缺损图像对应的无损图像以及与缺损图像编号相同的右视角的完好图像组成1组样本,共有n组样本,将n组样本按比例划分为训练集和测试集;划分训练集和测试集时,训练集和测试集中均含有至少2k+2张编号连续的图像。
(2)采用空间变换网络对训练集中的完好图像进行空间变换处理,得到完好图像的变换图像;所述空间变换网络用于将变换图像和与训练集中所述完好图像编号相同的缺损图像在缺损区域对齐,消除视角偏移。
所述空间变换网络的网络结构如图1所示,包含本地网络、网络生成器和采样器;所述本地网络利用4个卷积层提取图片特征,并将所述图片特征通过2个全连接回归层得到θ仿射变换参数;
所述网络生成器用于根据所述θ仿射变换参数构建采样网络,即得到一种映射关系,具体为:
其中{xs,ys}表示输入图像的像素点坐标,{xt,yt}表示目标图像的像素点坐标,θ为本地网络得到的θ仿射变换参数;
所述采样器用于根据采样网络所得的映射关系对输入空间变换网络中的图片进行像素级采样复制得到目标图像;若采样网络和输入图像的像素点坐标不能一一对应,采用双线性插值公式进行目标图像的像素填充,所述双线性插值公式为:
其中,Pixel(x,y)表示坐标点的像素值。
由于发明人已知左右视角图像的θ仿射变换参数,在实际训练过程中直接将训练集中的完好图像(右视角图像)输入空间对抗网络,得到训练集中完好图像的变换图像。空间变换网络在其网络生成器中对右视角完好图像进行空间变换,使得编号相同的左右视角图像在缺损区域对齐,消除多视角场景之间的视场偏移,便于利用右视角图像的图像纹理信息修复左视角缺损图像,将左视角缺损图像和对应的右视角图像结合起来重建修复图像。
(3)将步骤(2)得到的完好图像的变换图像和与所述完好图像编号相同的缺损图像组成图像对,采用所述图像对训练条件生成对抗网络(CGAN),优化条件生成对抗网络的参数,得到训练后的条件生成对抗网络。
所述条件生成对抗网络包括生成器G和判别器D;所述生成器G结构为UNet型网络结构,生成器G包括编码器和解码器,其中,编码器含有9个卷积层,解码器含有7个反卷积层;所述判别器D包含5个卷积层和1个sigmoid层,用于判断图像是否修复完毕;在生成器G和判别器D的建模中均输入与输入的缺损图像编号相同的完好图像,并将所述完好图像作为生成器G和判别器D共同的额外条件变量,通过额外条件变量作为额外输入层导入生成器G和判别器D来实现条件模型。
其中,步骤(3)中训练条件生成对抗网络的具体过程为:将步骤(2)得到的右视角完好图像的变换图像与所述完好图像编号相同的左视角缺损图像组成图像对,然后将所述图像对输入条件生成对抗网络,条件生成对抗网络下的生成器G将所述图像对一起编码,再解码重构出所述缺损图像的初步修复结果,其重建损失函数具体如式1所示;判别器D判别的是与所述完好图像分别跟所述缺损图像对应的无损图像或所述缺损图像的初步修复结果组成的真或假的图像对;所述生成器G与判别器D不断进行迭代训练,直到目标函数达到0.5,即得到训练后的条件生成网络;条件生成对抗网络构建的目标函数具体如式2所示:
所述生成器G的编码器在编码过程中,卷积层对缺损图像和与缺损图像编号相同的完好图像的变换图像分别进行卷积处理,分组卷积后再互相交换一半的特征通道,然后送入下一层处理。所述条件生成对抗网络的具体处理过程如图2所示。
条件生成对抗网络作用为修复大面积受损的图像,在本发明中通过多相机系统引入其他视角的视频图像帧来辅助和约束图像修复过程,本实施例中将左视角缺损图像和对应的右视角图像结合起来重建修复图像。
(4)将所述训练集中编号连续的一系列无损图像输入光流预测网络进行光流估计运算,得到训练集中无损图像的一系列光流图,将训练集中无损图像的一系列光流图和步骤(1c)得到的训练集中对应的二进制掩膜图像输入光流细化网络进行训练,优化光流细化网络的参数,得到训练后的光流细化网络。
所述光流细化网络DFC-Net包括3个光流细化子网络DFC-S(如图3中DFC-S网络所示),每个光流细化子网络均包括1个残差网络模块ResNet50和1个上采样模块;所述ResNet50为骨干网络,由5个卷积层组成;其中,每个光流细化子网络的ResNet50中的第1个卷积层的输入通道可根据实际情况进行通道数的变换,为了扩大卷积网络的感受野,将卷积的步长减少,并在第4个卷积层和第5个卷积层使用空洞卷积,最后添加上采样层upsample来放大最后的预测光流。
其中,所述光流估计运算具体过程为:(4a)将训练集中编号连续的一系列无损图像输入光流预测网络进行光流估计计算,得到训练集中无损图像的一系列光流图;所述光流预测网络为光流估计FlowNet 2.0模型。
所述训练光流细化网络的具体过程(如图3所示)为:
(4b)将无损图像的一系列光流图中编号为第i张和第i+1张图像之间的初始光流信息记为然后前后各取k张连续光流图(其中k表示连续图像帧的长度,例如k取5,则第一个光流细化网络的子网络的输入通道数为33),将所述2k+1张无损图像的光流图在通道维度上的拼接张量记为从步骤(1c)得到的训练集中取对应编号为第i-k张至第i+k张二进制掩膜图像,将所述2k+1张二进制掩膜图像在通道维度上进行拼接的张量记为{M(i-k),...,Mi,...M(i+k)};将和{M(i-k),...,Mi,...M(i+k)}在通道维度上进行拼接的张量输入第一个光流细化子网络(如图4中的光流细化网络1),得到第一次光流修复结果f1;
(4c)将第一次光流修复结果f1光流图的前向光流的拼接张量和后向光流的拼接张量(即图3中的forward和backward所示部分)以及对应的二进制掩膜的拼接张量{M(i-k),...,Mi,...M(i+k)}和{M(i-k+1),...,M(i+1),...,M(i+k+1)}在通道维度上进行拼接的张量输入第二个光流细化子网络,得到第二次光流修复结果
由于光流中缺失的部分越小,丢失的光流越容易完成修复,所以先将光流图的形状缩小以获得良好的初始化修复的效果,然后再逐渐放大每次输入的光流图大小,进而逐步完成从粗糙到精细的修复。其中,将步骤(4a)得到的训练集中无损图像的一系列光流图的尺寸分别缩小为原尺寸的1/4,然后再进行拼接处理输入第一个光流细化子网络;将步骤(4b)得到的第一次光流修复结果f1中光流图的尺寸分别缩小为原尺寸的1/2,然后再进行拼接处理输入第二个光流细化子网络;将步骤(4c)得到的第二次光流修复结果中的光流图按原尺寸大小进行拼接处理,然后再输入第三个光流细化子网络。
所述光流细化网络结构及其训练过程和训练结束的标准,可具体参见徐瑞等在2019IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)上发表的文章《Deep Flow-Guided Video Inpainting》。
(5)将测试集中右视角完好图像输入空间变换网络,得到测试集中完好图像的变换图像;将所述测试集中完好图像的变换图像和与所述完好图像编号相同的左视角缺损图像一起输入条件生成对抗网络,得到测试集中左视角缺损图像的初步修复结果图像。
(6)按照步骤(5)依次将测试集中其余缺损图像进行初步修复,得到测试集中所有左视角缺损图像的初步修复结果图像;取测试集中编号连续的左视角缺损图像的初步修复结果图像输入光流预测网络(光流估计FlowNet 2.0模型)进行光流估计运算,得到所述初步修复结果图像的一系列光流图;将所述初步修复结果图像的一系列光流图和步骤(1c)得到的测试集中对应的二进制掩膜图像一起输入训练后的光流细化网络,重复步骤(4)中训练光流细化网络时的具体过程,得到一系列最终预测结果光流图,具体过程如图4所示。
(7)由于光流修复网络修复的光流建立了视频序列帧间像素之间的运动关系,可以在光流的引导下进行像素的传播。遍历步骤(6)得到的每个最终预测结果光流图,获得最终预测结果光流图中每个点的坐标,将输入光流图中对应坐标点的像素对应到光流图的相应位置,若光流图中点的坐标与输入光流图无法精确对应,可采用最邻近或双线性方式获取像素,得到测试集中缺损图像的最终修复图像,进而得到测试集中左视角缺损图像对应的最终修复视频。
本发明提供的一种基于光流法和多视角场景的视频修复方法能够结合视频序列在时序上的一致性以及多相机系统空间上的图像信息,完成对视频的修复,整体结构示意图如图3所示。图5展示了本发明实施例1测试集中部分左视角缺损图像的修复结果。其中,图5第1列表示测试集中的左视角缺损图像,第2列表示测试集中与缺损图像编号相同的右视角完好图像,第3列表示测试集中与左视角缺损图像对应的无损图像,第4列表示仅用光流法修复整个过程的结果图像,第5列表示本发明实施例1测试集中部分左视角缺损图像的修复结果图像。结果显示,第5列本发明测试结果跑分更高,测试结果更好。
本发明可以被应用于智能驾驶车辆视觉系统中,使得其可以更好地了解周围环境,辅助智能车辆进行路径选择的决策。
实施例2
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如实施例1所述的基于光流法和多视角场景的视频修复方法。
实施例3
一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如实施例1所述的基于光流法和多视角场景的视频修复方法。
综上所述,本发明有效克服了现有技术中的不足,且具高度产业利用价值。上述实施例的作用在于说明本发明的实质性内容,但并不以此限定本发明的保护范围。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和保护范围。
Claims (10)
1.一种基于光流法和多视角场景的视频修复方法,其特征在于,包括以下步骤:
(1)采集场景的多视角视频,根据采集的视频制作训练集和测试集,具体操作如下:
(1a)采集原始图像:利用多相机设备获取视频帧数据,收集同时间采集的同一场景中m个视角的视频,得到了m个视角视频;从m个视角视频中随机抽取2个不同视角下的视频,然后按照视频的获取视角,将2个抽取的视频划分为左视角视频和右视角视频,提取左视角视频的图像帧组成左视角图像集,提取右视角视频的图像帧组成右视角图像集,并分别将左视角图像集和右视角图像集中的图像按采集时间先后顺序依次从1到n进行编号,所述左视角图像集和右视角图像集中的图像均为完好图像,且左视角图像与右视角图像有重合;
(1b)制作缺损图像:选择左视角图像集或右视角图像集制作缺损图像,从编号1至编号n,针对每个编号,从选中的左视角图像集或右视角图像集中选择对应编号的无损图像,然后在选中的无损图像上增加随机位置和随机大小的纯色遮挡块,得到缺损图像,每一张无损图像对应一张缺损图像;同时用遮挡块大小的掩码与选中的无损图像的二值图像相乘,得到缺损图像的二进制掩膜图像,每一张缺损图像对应一张二进制掩膜图像;
(1c)划分训练集和测试集:将每张缺损图像、每张缺损图像对应的二进制掩膜图像、每张缺损图像对应的无损图像以及与缺损图像编号相同的另一视角的完好图像组成1组样本,共有n组样本,将n组样本按比例划分为训练集和测试集;
(2)采用空间变换网络对训练集中的完好图像进行空间变换处理,得到完好图像的变换图像;所述空间变换网络用于将变换图像和与训练集中所述完好图像编号相同的缺损图像在缺损区域对齐,消除视角偏移;
(3)将步骤(2)得到的完好图像的变换图像和与所述完好图像编号相同的缺损图像组成图像对,采用所述图像对训练条件生成对抗网络,优化条件生成对抗网络的参数,得到训练后的条件生成对抗网络;
(4)将所述训练集中编号连续的一系列无损图像输入光流预测网络进行光流估计运算,得到训练集中无损图像的一系列光流图,将训练集中无损图像的一系列光流图和步骤(1c)得到的训练集中对应的二进制掩膜图像输入光流细化网络进行训练,优化光流细化网络的参数,得到训练后的光流细化网络;
(5)将测试集中完好图像输入空间变换网络,得到测试集中完好图像的变换图像;将所述测试集中完好图像的变换图像和与测试集中所述完好图像编号相同的缺损图像一起输入条件生成对抗网络,得到测试集中缺损图像的初步修复结果图像;
(6)按照步骤(5)依次将测试集中其余缺损图像进行初步修复,得到测试集中所有缺损图像的初步修复结果图像;取测试集中编号连续的缺损图像的初步修复结果图像输入光流预测网络进行光流估计运算,得到所述初步修复结果图像的一系列光流图;将所述初步修复结果图像的一系列光流图和步骤(1c)得到的测试集中对应的二进制掩膜图像一起输入训练后的光流细化网络,得到一系列最终预测结果光流图;
(7)遍历每个最终预测结果光流图,获得最终预测结果光流图中每个点的坐标,将输入光流图中对应坐标点的像素对应到光流图的相应位置,得到测试集中缺损图像的最终修复图像,进而得到测试集中缺损图像对应的最终修复视频。
2.根据权利要求1所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述空间变换网络包含本地网络、网络生成器和采样器;所述本地网络利用4个卷积层提取图片特征,并将所述图片特征通过2个全连接回归层得到θ仿射变换参数;
所述网络生成器用于根据所述θ仿射变换参数构建采样网络,即得到一种映射关系,具体为:
其中{x8,y8}表示输入图像的像素点坐标,{xt,yt}表示目标图像的像素点坐标,θ为本地网络得到的θ仿射变换参数;
所述采样器用于根据采样网络所得的映射关系对输入空间变换网络中的图片进行像素级采样复制得到目标图像;若采样网络和输入图像的像素点坐标不能一一对应,采用双线性插值公式进行目标图像的像素填充,所述双线性插值公式为:
其中,Pixel(x,y)表示坐标点的像素值。
3.根据权利要求2所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述条件生成对抗网络包括生成器G和判别器D;所述生成器G结构为UNet型网络结构,生成器G包括编码器和解码器,其中,编码器含有9个卷积层,解码器含有7个反卷积层;所述判别器D包含5个卷积层和1个sigmoid层,用于判断图像是否修复完毕;在生成器G和判别器D的建模中均输入与输入的缺损图像编号相同的完好图像,并将所述完好图像作为生成器G和判别器D共同的额外条件变量,通过额外条件变量作为额外输入层导入生成器G和判别器D来实现条件模型。
4.根据权利要求3所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述步骤(3)的具体操作为:将步骤(2)得到的完好图像的变换图像和与所述完好图像编号相同的缺损图像组成图像对,然后将所述图像对输入条件生成对抗网络,条件生成对抗网络下的生成器G将所述图像对一起编码,再解码重构出所述缺损图像的初步修复结果,其重建损失函数具体如式1所示;判别器D判别的是与所述完好图像分别跟所述缺损图像对应的无损图像或所述缺损图像的初步修复结果组成的真或假的图像对;所述生成器G与判别器D不断进行迭代训练,直到目标函数达到0.5,即得到训练后的条件生成网络;条件生成对抗网络构建的目标函数具体如式2所示:
5.根据权利要求4所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述光流细化网络DFC-Net包括3个光流细化子网络DFC-S,每个光流细化子网络均包括1个残差网络模块ResNet50和1个上采样模块;所述ResNet50为骨干网络,由5个卷积层组成;其中,每个光流细化子网络的ResNet50中的第1个卷积层的输入通道可根据实际情况进行通道数的变换,第4个卷积层和第5个卷积层为空洞卷积。
6.根据权利要求5所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述步骤(4)的具体操作为:
(4a)将所述训练集中编号连续的一系列无损图像输入光流预测网络进行光流估计计算,得到训练集中无损图像的一系列光流图;所述光流预测网络为光流估计FlowNet 2.0模型;
(4b)将所述无损图像的一系列光流图中编号为第i张和第i+1张图像之间的初始光流信息记为然后前后各取k张连续光流图,将所述2k+1张无损图像的光流图在通道维度上的拼接张量记为从步骤(1c)得到的训练集中取对应编号为第i-k张至第i+k张二进制掩膜图像,将所述2k+1张二进制掩膜图像在通道维度上进行拼接的张量记为{M(i-k),...,Mi,...M(i+k)};将和{M(i-k),...,Mi,...M(i+k)}在通道维度上进行拼接的张量输入第一个光流细化子网络,得到第一次光流修复结果f1;
(4c)将第一次光流修复结果f1光流图的前向光流的拼接张量和后向光流的拼接张量以及对应的二进制掩膜图像的拼接张量{M(i-k),...,Mi,..·M(i+k)}和{M(i-k+1),...,M(i+1),...,M(i+k+1)}在通道维度上进行拼接的张量输入第二个光流细化子网络,得到第二次光流修复结果
8.根据权利要求7所述的基于光流法和多视角场景的视频修复方法,其特征在于,所述步骤(7)的具体操作为:遍历步骤(6)得到的每个最终预测结果光流图,获得最终预测结果光流图中每个点的坐标,将输入光流图中对应坐标点的像素对应到光流图的相应位置,若光流图中点的坐标与输入光流图无法精确对应,可采用最邻近或双线性方式获取像素,得到测试集中缺损图像的最终修复图像,进而得到测试集中缺损图像对应的最终修复视频。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1~8任意一项所述的基于光流法和多视角场景的视频修复方法。
10.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~8任意一项所述的基于光流法和多视角场景的视频修复方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021109975098 | 2021-08-27 | ||
CN202110997509 | 2021-08-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114119424A true CN114119424A (zh) | 2022-03-01 |
Family
ID=80363772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111498912.2A Pending CN114119424A (zh) | 2021-08-27 | 2021-12-09 | 一种基于光流法和多视角场景的视频修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114119424A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681604A (zh) * | 2023-04-24 | 2023-09-01 | 吉首大学 | 一种基于条件生成对抗网络的秦简文字修复方法 |
WO2024042705A1 (ja) * | 2022-08-26 | 2024-02-29 | 日本電気株式会社 | 映像処理システム、映像処理方法、及び映像処理装置 |
-
2021
- 2021-12-09 CN CN202111498912.2A patent/CN114119424A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024042705A1 (ja) * | 2022-08-26 | 2024-02-29 | 日本電気株式会社 | 映像処理システム、映像処理方法、及び映像処理装置 |
CN116681604A (zh) * | 2023-04-24 | 2023-09-01 | 吉首大学 | 一种基于条件生成对抗网络的秦简文字修复方法 |
CN116681604B (zh) * | 2023-04-24 | 2024-01-02 | 吉首大学 | 一种基于条件生成对抗网络的秦简文字修复方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084757B (zh) | 一种基于生成对抗网络的红外深度图像增强方法 | |
Alsaiari et al. | Image denoising using a generative adversarial network | |
CN111325693B (zh) | 一种基于单视点rgb-d图像的大尺度全景视点合成方法 | |
CN111260560B (zh) | 一种融合注意力机制的多帧视频超分辨率方法 | |
CN114119424A (zh) | 一种基于光流法和多视角场景的视频修复方法 | |
CN111080776B (zh) | 人体动作三维数据采集和复现的处理方法及系统 | |
Yuan et al. | Multiview scene image inpainting based on conditional generative adversarial networks | |
CN109949354B (zh) | 一种基于全卷积神经网络的光场深度信息估计方法 | |
CN110766623A (zh) | 一种基于深度学习的立体图像修复方法 | |
CN111951195A (zh) | 图像增强方法及装置 | |
CN115035235A (zh) | 三维重建方法及装置 | |
CN104735351A (zh) | 一种高分辨率光场图片重建方法与成像装置 | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
Wang et al. | Joint framework for single image reconstruction and super-resolution with an event camera | |
CN116957931A (zh) | 一种基于神经辐射场的相机图像画质提升方法 | |
CN112270701B (zh) | 基于分组距离网络的视差预测方法、系统及存储介质 | |
Zhu et al. | Occlusion-free scene recovery via neural radiance fields | |
CN112489103B (zh) | 一种高分辨率深度图获取方法及系统 | |
Chen et al. | Flow Supervised Neural Radiance Fields for Static-Dynamic Decomposition | |
CN116402908A (zh) | 一种基于异构式成像的密集光场图像重建方法 | |
CN116309163A (zh) | 一种黑白图像引导的彩色raw图像联合去噪去马赛克方法 | |
Yan et al. | Light field depth estimation based on channel attention and edge guidance | |
CN115063303A (zh) | 一种基于图像修复的图像3d化方法 | |
Evain et al. | A lightweight neural network for monocular view generation with occlusion handling | |
CN114387327A (zh) | 基于深度学习视差预测的合成孔径聚焦成像方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |