CN111105382B - 视频修复方法 - Google Patents
视频修复方法 Download PDFInfo
- Publication number
- CN111105382B CN111105382B CN201911408552.5A CN201911408552A CN111105382B CN 111105382 B CN111105382 B CN 111105382B CN 201911408552 A CN201911408552 A CN 201911408552A CN 111105382 B CN111105382 B CN 111105382B
- Authority
- CN
- China
- Prior art keywords
- frame
- video
- mask
- slider
- original video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000008439 repair process Effects 0.000 title claims abstract description 29
- 230000003287 optical effect Effects 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 238000005457 optimization Methods 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 36
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 238000005206 flow analysis Methods 0.000 claims description 3
- 230000000149 penetrating effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 238000004891 communication Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000009792 diffusion process Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 244000294611 Punica granatum Species 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101100229963 Drosophila melanogaster grau gene Proteins 0.000 description 1
- 241000533908 Narcissus hispanicus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种视频修复方法,属于通信与信息系统领域,主要通过提取含有缺失区域的原始视频对应的掩膜,基于掩膜提取图像帧序列中的运动信息;设置一立方体滑块,沿着原始视频的帧宽、帧高和帧数这三个维度方向遍历滑动,当滑动到有掩膜区域时,随机初始化一个更大的立方体滑动空间,比对掩膜区域边缘的光流特征信息,在该滑动空间范围内找到最匹配的样本块,填充并重建掩膜区域的像素特征,继续遍历,直到原始视频中所有的掩膜区域得到修复,再输入到前向‑后置神经网络进行优化,输出修复好的完整视频。本方法以最小的计算代价,实现较高质量的视频修复效果。
Description
技术领域
本发明属于通信与信息系统领域,具体涉及一种联合3D图像块填充及深度神经网络优化的新型视频修复方法。
背景技术
视频是多媒体信息传播的重要载体,是人类获取外部信息的重要来源。随着互联网和数字技术的快速发展,数字视频以其存储容易、传输方便等优点,得到了广泛的应用。但是数字视频序列在低信噪比信道传输过程中由于信道噪声等原因,容易导致视频中的某些图像帧丢失部分信息,使视频序列帧出现划痕、斑点、闪烁等问题,从而破坏视频的完整性和可读性,影响信息的准确度。因此,针对缺失的视频数据进行修复,还原视频序列在传输过程中丢失的运动矢量和图像块具有重要的现实意义。视频修复技术主要利用待修复区域的边缘、邻域或受损图像的连续前后帧信息,通过扩散或复制等方式,对视觉输入的缺失区域或指定的待修补区进行填充,使填充后的效果在视觉上真实可信,在语义上正确、合理,并与已知的视频内容在空间和时间维度上保持高度一致,以达到恢复视频完整性的目的。
现有的视频修复方法主要包括三大类型,基于样本块(patch)的修复方法、基于运动目标的修复方法以及基于深度学习的视频帧修复方法。其中,基于样本块的修复方法主要是以块为单位,根据算法设定的优先级,搜索最佳匹配块的方式顺序对缺失区域进行填补。该方法对优先级的设计可以充分利用视频图像的信息,有效保留待修补区域的线性结构,减少与扩散相关的模糊现象,主要适用于缺损区域较大的修复情况。然而该类方法通常不能较好地完成非重复性结构的修复,需要依赖于视频帧的纹理信息,且查找、匹配、填充整个过程耗时较长。其次,基于运动目标的修复方法主要将视频帧分割为两部分,即前景运动目标部分和背景纹理部分。前景运动目标主要利用基于偏微分模型进行修复,背景纹理主要利用类似图像纹理合成的方法来完成填充修复,这两部分内容分别同时进行修复,最后将它们的修复结果合并起来得到修复好的完整视频。这类视频修复方法主要把图像分割、图像修复、纹理合成这三种技术充分结合起来,与单纯使用图像填充或纹理合成的方法相比,可以获得更好的修复效果,但这种方法适合于结构比较清晰且易于提取的情况,因此具有很大的局限性。此外,基于深度学习的视频帧修复方法主要依赖于预训练神经网络模型的“知识”来推测填补视频图像中缺失区域的内容,其对于高维复杂映射具有强大的逼近能力,可以有效地提取一序列图像的语义来指导图像帧的纹理重建。但是如何设计结合语义网络和纹理网络的深度神经网络结构,建立更为普遍的视频图像先验模型的学习网络仍然需要进一步的研究。
视频修复不仅要求恢复各图像帧间缺失区域的信息,同时还要求保持各个连续帧间内容信息的一致性。目前,视频修复技术在数字效果的视频复原,虚拟现实及视频编码和传输等等方面的应用优势日益突出,所以探索并研究高效的视频修复方法,自动化地实现视频中缺失部分的重建,使修复后的视频在空间和时间维度上保持和谐、自然已经成为了现阶段视频研究应用领域亟需解决的重大问题。
发明内容
针对上述问题,本发明提出了一种联合三维块(3D patch)填充及深度神经网络优化的新型视频修复方法,其是目前视频修复研究领域提出的首个结合传统的样本块填充和深度学习神经网络优化的视频修复方法,目标是以最小的计算代价,实现较高质量的视频修复效果。
为实现上述发明目的,本发明采用如下的技术方案:
一种视频修复方法,包括以下步骤:
1)对含有缺失区域的原始视频进行基本的预处理;
2)对原始视频进行图像帧的区域识别分割,得到对应的掩膜,基于掩膜到原始视频的映射,从第一帧至最后一帧依次计算各图像帧顶层至底层的像素特征,并提取图像帧序列中的运动信息;
3)将原始视频视为关于帧数、帧宽和帧高三维的长方体,在该长方体中设置一个立方体滑块,让滑块从长方体的初始点沿着原始视频的帧宽、帧高和帧数这三个维度方向遍历滑动,当滑动到有掩膜区域时,更新当前滑块位置为起始点,以该点为中心随机初始化一个比该滑块更大的立方体滑动空间,比对掩膜区域边缘的光流特征信息,在该滑动空间范围内找到最匹配的样本块,依次填充并重建当前滑块位置中掩膜区域的像素特征,以进行修复;
4)每次更新滑块的位置为起始点时,重复步骤3),直到原始视频中所有的掩膜区域得到修复,然后输出初步修复的视频;
5)将初步修复的视频输入到前向-后置神经网络(Forward-Backward Network,FBN)进行优化,把优化后对应的掩膜区域的内容填充入原始视频对应的位置,完成修复并输出修复好的完整视频。把所有优化帧中对应掩膜区域的像素内容,填充入原始视频的掩膜区域,即完成本方法的视频修复工作。
优选地,原始视频的预处理包括基本的锐化和增加去噪滤镜。
优选地,基于原始视频的预处理,检测视频中每个像素点是运动的还是静止的,从而判断该视频是否属于背景运动或摄像机运动的情况,如是,则通过仿射运动模型重新调整视频后再提取运动信息,如不是,即该视频属于静态背景,则直接提取运动信息。
优选地,运动信息提取方法为:根据像素特征将原始视频的每一对相邻帧做匹配计算,求出运动矢量估计值,剔除估计值中的坏值,得到全局运动矢量观测值;用光流法基于全局运动区域的光流场求取前景目标的稠密运动矢量,结合全局运动矢量观测值的预估,提取运动目标的全局运动模型参数特征。
优选地,像素特征包括图像帧的纹理、边缘、尺度空间、梯度以及角点、局部极值点。
优选地,立方体滑块在原始视频中的遍历方法为:滑块以原始视频的长方体的一个角(如左下角)顶点为起始点(滑块左下角顶点和原始视频长方体左下角顶点重合,滑块的边长即为滑块每次滑动的步长,滑块包含了一个边长长度的帧数),先沿着帧宽(或帧高)的方向依次向长方体内侧滑动,滑到边界便向帧高(或帧宽)方向滑动一个步长,随后又朝着帧宽(或帧高)方向向长方体外侧滑动。即滑块在几帧图像上从左下角开始逐行滑动,每次滑动一个步长,直至滑动至对角上便完成一个步长单位帧的遍历,随后继续沿着原始视频帧数的方向按照相同方式滑动,直到滑动到长方体的右对上角,即完成整个长方体由左边外侧顶点到右边内侧对角顶点的完整遍历。
优选地,每当滑块滑动到包含掩膜区域的位置时,初始化一个边长大于2倍滑块边长的立方体滑动空间,在该立体滑动空间范围内通过ANNsearch方法,找到最匹配的样本块。
优选地,在滑动空间内完成掩膜区域的修复方法为:由运动目标的全局运动模型估测滑动空间内局部运动矢量值,采用Horn-Schunck光流分析法计算滑动空间中掩膜块边缘稠密光流场,由滑动空间中心点的局部运动矢量值和掩膜边缘光流矢量估测沿边缘穿入掩膜块的运动矢量,并以该矢量值向帧数方向扩张进行PQ乘积量化计算,找到最匹配的填充块并依次填入掩膜区域完成修复。
优选地,前向-后置神经网络的优化策略为:通过输入的若干个(如5个)连续图像帧,预测出下一时刻的视频图像帧,然后通过内插计算,在输入的5个连续帧的末帧和预测出的图像帧中间生成一个内插帧,该帧即为优化后的帧,并替代视频中的对应帧。
优选地,前向-后置神经网络的优化方法为:对于初步修复的视频,从第一帧开始查找,依次把每一个被块填充修复的帧作为末帧,该末帧连同其前面(如4个)连续帧输入到前向-后置神经网络中,输出优化后的帧替代初步修复的视频中对应的末帧,完成所有修复帧的优化。
本发明方法主要包括两个部分:1)提出了基于3D块填充的视频修复算法,主要改进了样本块的搜索机制,将光流法引进块搜索和块重建步骤,在输入的不完整视频中迭代地查找和比对最匹配的三维块,并把找到的三维块信息顺序地对缺失区域进行填充,快速实现视频的初步修复,该算法能在保证修复质量的前提下节省整体的修复耗时。2)提出基于光流法的前向-后置神经网络Forward-Backward Network,对1)中缺失区域的修复/填充内容进行进一步优化,使修复好的视频在视觉上保持自然,在语义上正确、合理。
与现有技术相比,本发明具有的优点和积极效果如下:
1、本发明针对现有视频数据在存储、传输过程中容易发生损坏的问题,提出一种高效的视频修复方法,该方法是目前视频修复领域中首次提出的结合传统样本块(patch)填充修复方式和基于学习的神经网络模型的优化来完成视频的修复任务。
2、本发明提出的基于3D样本块的视频填充修复算法,与传统的基于块的视频修复方式相比,能在保障视频修复效果基础上大大减少计算时间。
3、本发明提出的基于ConvLSTM改进的Forward-Backward Network网络,能高效的实现视频序列图像帧的预测和修复优化,输出高质量的修复效果。
4、本发明的方法适合在多种场景中使用,例如特定区域移除后的修复、复杂场景的缺失以及持续大面积的缺损等情况。
附图说明
图1是本发明的视频修复方法结构图。
图2是基于前向-后置神经网络的视频优化结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,下面通过具体的实施例和附图对本发明进行进一步详细阐述。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
本发明主要考虑到传统基于块匹配的视频修复主要关注空间像素块的搜索和匹配,适合大面积缺失区域的内容块快速填充,但其缺乏时间维度信息的考虑,尤其在复杂场景的情况下,不考虑前后帧的上下文信息会导致修复效果不尽如人意。而基于学习的深度神经网络修复方法可以处理在时间维度上一序列高质量像素的逼近、预测和生成,但是遇到大面积缺失或是持续性缺失的不完整视频,其通过预测生成的修复方式计算成本比较高,且修复效果不稳定。所以本发明考虑两者的优缺点,提出联合3D块填充和深度神经网络优化的新型视频修复方法。该方法主要通过提出基于3D样本块的视频填充修复和基于ConvLSTM的深度神经网络的图像帧预测优化。
本视频修复方法的处理流程见图1,步骤包括:
1)初始化定义:定义含有缺失区域的原始视频帧序列Vin(f1,f2,…fn)为一个F*W*H的三维空间长方体,F,W,H分别为Vin的帧数,帧宽和帧高。对Vin进行图像帧的区域识别分割(参考文献:B.J.Quintanilla-Domínguez,Ruelas R,et al.Improvementof the Image Sub-Segmentation for Identification and Differentiation ofAtypical Regions[J].International Journal of Pattern Recognition andArtificial Intelligence,2017.),得到对应的掩膜M(O1,O2,…On)。在Vin中定义一个边长为L(L远小于F,W,H)的三维正立方体滑块P,P每次滑动的步长单位为一个边长长度L,其在Vin的位置点为O(F,W,H),以F=0,W=0,H=0设定滑块在Vin的初始位置起始点为O(0,0,0)。
2)输入不完整的视频Vin及其对应的掩膜M,并对Vin进行f1至fn的预处理,如果Vin属于背景运动或摄像机运动的情况,通过仿射运动模型重新调整视频Vin。如果其属于静态背景的情况,则直接进入下一步骤。
3)基于步骤2)的预处理,在M到Vin的映射过程中从f1至fn计算视频图像帧L至1各层的特征并提取一序列运动信息。
4)让滑块P从起始点依次沿着W,H,F方向遍历滑动,当P滑动到有掩膜区域的时候,更新当前滑块位置为起始点,以该点为中心点,随机初始化边长为R的正立方体滑动空间(R>2L,即滑块P包含于该边长为R的立方体中),比对掩膜区域边缘的光流特征信息,在R空间范围内执行ANNsearch(参考文献Alasdair Newson,Andr′es Almansa,Matthieu Fradet,Yann Gousseau,and Patrick P′erez,“Video inpainting of complex scenes,”SIAMJournal on Imaging Sciences,vol.7,no.4,pp.1993–2019,2014.),找到最匹配的样本块,依次填充并重建当前滑块位置中掩膜区域的像素特征。
5)在Vin中,每次更新滑块的位置为起始点时,重复步骤4)直到Vin中所有的掩膜区域得到修复,然后输出初步完成修复的视频Vout1(f1,f2,…fn)。
6)将Vout1(f1,f2,…fn)输入到前向-后置神经网络进行优化,把优化后对应的掩膜区域的内容填充入Vin(f1,f2,…fn)对应的位置,完成修复并输出Vcomplete(f1,f2,…fn)。
其中,在输入视频Vin和掩膜M时,首先读取两者数据并对Vin进行预处理,包括基本的锐化、增加去噪滤镜。判断Vin和M对应的格式、尺寸、模式、映射匹配参数。其次使用基于光流的掩膜检测该视频中的每个像素点是运动的还是静止的。如果是运动的,即属于背景运动或摄像机运动的情况。此时为了解决运动背景中视频对象的准确提取,通过仿射运动模型剔除目标点和噪声点对全局运动参数估计的影响。
其中,基于M的掩膜区域计算,提取视频Vin中f1至fn图像帧由顶层L至底层1层的金字塔纹理、边缘、尺度空间、梯度以及角点、局部极值点等关键点特征,并根据这些特征将f1至fn帧的每一对相邻帧做匹配计算,求出运动矢量估计值,遍历估计值剔除其中的坏值,得到全局运动矢量观测值。然后用光流法基于全局运动区域的光流场求取前景目标的稠密运动矢量,结合全局运动矢量观测值的预估提取运动目标的全局运动模型参数特征。
其中,让边长和步长均为L的滑块在Vin中遍历,由初始位置O(0,0,0),先沿着长方体块Vin的W-H-W-H方向由外到内滑动,每次滑动一个L的步长,把点(0,W,0),(0,W,H)及(0,0,H)遍历一遍,然后朝F方向继续按相同的方式遍历,直到遍历整个Vin。每滑动一次,判断滑块内是否有缺失区域(任意掩膜块),如果没有,继续滑动。如果滑块中有掩膜块,则以该点为中心点,在随机设定边长为R(R>2L)的立方体滑动空间内执行以下步骤:
a)由运动目标的全局运动模型估测R空间内局部运动矢量值。
b)采用Horn-Schunck光流分析法计算滑块空间中掩膜块边缘稠密光流场。
c)由R空间中心点的局部运动矢量值和掩膜边缘光流矢量估测沿边缘穿入掩膜块的运动矢量,并以该矢量值向F方向扩张进行PQ乘积量化计算,匹配出最佳填充块像素并依次填入掩膜区域的位置。
其中,通过一个深度神经网络—前向-后置神经网络,把完成了块填充的视频Vout1(f1,f2,…fn)进行优化。该优化策略为:输入5个连续的图像帧{fα,fβ,fγ,fδ,fμ},经过神经网络预测出下一时刻的帧fgeneration,然后通过内插计算,在fμ帧和fgeneration帧中间插入一帧fr,该帧即为优化后的帧,并代替视频中对应帧,即在Vout1中,从f1开始,依次把每一个被块填充修复的帧作为fμ帧,加上fμ前面的4个相邻连续帧作为输入,输出的fr帧替代对应的fμ更新入Vout1,当Vout1中所有修复帧都完成优化,即更新为Vout,并把Vout对应掩膜区域M的内容填充入Vin(f1,f2,…fn)对应的位置,并输出Vcomplete(f1,f2,…fn),完成本方法的视频修复工作。
对于上述的视频修复方法,进一步说明如下:
1)基于3D样本块填充的视频填充修复。传统块匹配方法的思路是将某帧图像分割成N×N像素大小的矩阵块,在搜索窗口将当前块与参考帧对应的块进行比较。设计匹配算法查找最佳匹配,得到当前块的替代块。Le等人在2017年提出了将光流法应用到视频的快速修复,以保持连续帧中运动的一致性(参考文献Le T T,Almansa A,Gousseau Y,etal.Motion-consistent video inpainting.In:Proceedings of the IEEEInternational Conference on Image Processing,Beijing,China,2017.2094-2098),本方法将传统图像帧上像素块的搜索修复扩展到连续图像帧的三维样本块的搜索填充,将视频数据定义成连续帧的三维立体长方体块,其对应的x轴即为视频的帧数,y轴为视频图像的宽,z轴是视频图像的高,即为F*W*H的长方体。本方法由一个完整的视频根据输入的掩膜M随机在任意帧上生成对应尺寸的掩膜得到一个有缺失区域的视频Vin(f1,f2,…fn),由于掩膜位置是不确定的,所以需要定义一个滑块P来遍历整个视频长方体块,以定位待修复的区域。当滑块移动到有掩膜区域的时候,需要在一定的空间位置内找到匹配的样本像素进行填充,该方法基于Le等人的基础,提出修改光流法的应用策略,将提取的光流特征矢量应用到三维立体的搜索空间中,即利用局部运动矢量约束滑块P中掩膜区域边缘像素的扩散特征和扩散方向,从而约束R中查找匹配块的有效空间,进而减少搜索成本,提高搜索填充的效率。在R空间内执行搜索匹配块时,联合SSD模型和SSIM模型从图像帧的L层到1层的颜色特征和结构特征两方面对P中包含的掩膜块p2和目标匹配块p1的相似度进行度量,在ANNsearch的m1和m2相似度计算中,由于加入了光流矢量特征,所以对ssd(the Sum ofSquared Differences误差平方和)的计算为:
ssd=ssd+(t*m1+(1-t)*m2)/sumOcc (1)
其中,t为F方向上的位置,sumOcc为p2在y轴和z轴上的面积,m1和m2分别为光流矢量在x轴和y轴方向上的参数,如果掩膜区域包含前景目标特征,其运动矢量可以约束随机搜索区域范围。当在R中搜索匹配到最佳匹配块,并依次将对应的各层像素填充入掩膜区域。
2)基于ConvLSTM改进的前向-后置神经网络。长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络RNN模型,具有较强的时序数据处理能力。ConvLSTM(参考文献Shi X,Chen Z,Wang H,et al.Convolutional LSTM Network:A MachineLearning Approach for Precipitation Nowcasting[J].2015)除了具有LSTM的时序建模能力,而且还能像CNN一样刻画局部特征,具备时空特性。本方法主要基于ConvLSTM实现连续帧序列图像的时空预测,其思想是通过网络结构多种功能的结合,在时空序列预测和生成问题中,既要考虑空间特性spatial character,又要考虑时间序列特性temporalcharacter。所以提出了基于光流运动特征flow-based的ConvLSTM神经网络,名为Forward-Backward Network,即在ConvLSTM网络结构中,使用Ilg E等人提出的方法(参考文献E.Ilg,N.Mayer,T.Saikia,M.Keuper,A.Dosovitskiy,and T.Brox.Flownet 2.0:Evolution of optical flow estimation with deep networks.In IEEE Conference onComputer Vision and Pattern Recognition,volume 2,page 6,2017)把提取到的各帧运动矢量特征编入一个LSTM序列进行模型的训练和预测。在训练本方法的神经网络时,总的损失函数为:
Ltotal=αLr+βLp+γLf (2)
其中Lr为重建损失,即通过计算L1损失函数来指导模型对图像帧像素的预测和重建。Lp损失函数为基于图像结构像素特征的学习,其来源于Granados等人(参考文献M.Granados,J.Tompkin,K.Kim,O.Grau,J.Kautz,and C.Theobalt.How not to be seenobject removal from videos of crowded scenes.In Computer Graphics Forum,volume 31,219–228.2012),Lf为运动矢量评估的损失函数。α,β,γ分别为Lr,,Lp,和Lf的平衡权重。Lr,,Lp和Lf分别为:
其中t,x,y为视频的三维空间F*W*H方向上的坐标,Vt(L→1)为图像帧的运动矢量,Ft和Ft-1为相邻时刻的运动特征参数。
在视频图像预测和优化机制中,由于设定基于块填充好的帧fμ(待优化帧)作为输入的5帧中的末帧进行下一时刻帧的预测,即预测帧fgeneration代表的是fμ的下一时刻帧,所以用内插法在网络的每一次迭代中于fgeneration和fμ间插入一帧来作为生成的优化帧并替代视频中fμ的位置,即网络时序向前forward预测后的backward回退功能,以解决时序网络预测的运动偏差问题。图2即为本方法的前向-后置神经网络的优化结构,主要将完成块填充修复的视频Vout1(f1,f2,…fn)一帧帧的输入网络,通过上文所述的优化策略实现本方法的视频优化工作。
以上对本发明所述的联合3D块填充及深度神经网络优化的新型视频修复方法进行了详细的说明,但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说,在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。
Claims (10)
1.一种视频修复方法,其特征在于,包括以下步骤:
1)对含有缺失区域的原始视频进行预处理;
2)对原始视频进行图像帧的区域识别分割,得到对应的掩膜,基于掩膜到原始视频的映射,从第一帧至最后一帧依次计算各图像帧顶层至底层的像素特征,并提取图像帧序列中的运动信息;
3)将原始视频视为关于帧数、帧宽和帧高三维的长方体,在该长方体中设置一个立方体滑块,让滑块从长方体的初始点沿着原始视频的帧宽、帧高和帧数这三个维度方向遍历滑动,当滑动到有掩膜区域时,更新当前滑块位置为起始点,以该起始点为中心随机初始化一个比该滑块更大的立方体滑动空间,比对掩膜区域边缘的光流特征信息,在该滑动空间范围内找到最匹配的样本块,依次填充并重建当前滑块位置中掩膜区域的像素特征,以进行修复;
4)每次更新滑块的位置为起始点时,重复步骤3),直到原始视频中所有的掩膜区域得到修复,然后输出初步修复的视频;
5)将初步修复的视频输入到前向-后置神经网络进行优化,把优化后对应的掩膜区域的内容填充入原始视频对应的位置,完成修复并输出修复好的完整视频。
2.如权利要求1所述的方法,其特征在于,原始视频的预处理包括锐化和增加去噪滤镜。
3.如权利要求1所述的方法,其特征在于,基于原始视频的预处理,检测视频中每个像素点是运动的还是静止的,判断该视频是否属于背景运动或摄像机运动的情况,如是,则通过仿射运动模型重新调整视频后再提取运动信息,如不是,则判定该视频属于静态背景,直接提取运动信息。
4.如权利要求1所述的方法,其特征在于,运动信息提取方法为:根据像素特征将原始视频的每一对相邻帧做匹配计算,求出运动矢量估计值,剔除估计值中的坏值,得到全局运动矢量观测值;用光流法基于全局运动区域的光流场求取前景目标的稠密运动矢量,结合全局运动矢量观测值的预估,提取运动目标的全局运动模型参数特征。
5.如权利要求1所述的方法,其特征在于,像素特征包括图像帧的纹理、边缘、尺度空间、梯度以及角点、局部极值点。
6.如权利要求1所述的方法,其特征在于,立方体滑块在原始视频中的遍历方法为:滑块以原始视频的长方体的一个角的顶点为起始点,沿着滑块所涵盖的当前若干帧的帧宽或帧高的方向滑动,滑到长方体边界时再向帧高或帧宽方向滑动一个步长,再同样沿着帧宽或帧高的方向滑动,当遍历完当前若干帧后再向前滑动一个步长,对下一步长的若干帧进行遍历。
7.如权利要求1所述的方法,其特征在于,每当滑块滑动到包含掩膜区域的位置时,初始化一个边长大于2倍滑块边长的立方体滑动空间,在该滑动空间范围内通过ANNsearch方法,找到最匹配的样本块。
8.如权利要求1所述的方法,其特征在于,在滑动空间内完成掩膜区域的修复方法为:由运动目标的全局运动模型估测滑动空间内局部运动矢量值,采用Horn-Schunck光流分析法计算滑动空间中掩膜块边缘稠密光流场,由滑动空间中心点的局部运动矢量值和掩膜边缘光流矢量估测沿边缘穿入掩膜块的运动矢量,并以该矢量值向帧数方向扩张进行PQ乘积量化计算,找到最匹配的填充块并依次填入掩膜区域完成修复。
9.如权利要求1所述的方法,其特征在于,前向-后置神经网络的优化策略为:通过输入的若干个连续图像帧,预测出下一时刻的视频图像帧,然后通过内插计算,在输入的若干个连续帧的末帧和预测出的图像帧中间生成一个内插帧,该帧即为优化后的帧,并替代视频中的对应帧。
10.如权利要求9所述的方法,其特征在于,前向-后置神经网络的优化方法为:对于初步修复的视频,从第一帧开始查找,依次把每一个被块填充修复的帧作为末帧,该末帧连同其前面若干个连续帧输入到前向-后置神经网络中,输出优化后的帧替代初步修复的视频中对应的末帧,完成所有修复帧的优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911408552.5A CN111105382B (zh) | 2019-12-31 | 2019-12-31 | 视频修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911408552.5A CN111105382B (zh) | 2019-12-31 | 2019-12-31 | 视频修复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111105382A CN111105382A (zh) | 2020-05-05 |
CN111105382B true CN111105382B (zh) | 2021-11-16 |
Family
ID=70424481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911408552.5A Active CN111105382B (zh) | 2019-12-31 | 2019-12-31 | 视频修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111105382B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112533026A (zh) * | 2020-11-27 | 2021-03-19 | 西安蓝极医疗电子科技有限公司 | 基于卷积神经网络的视频插帧方法 |
CN114972050A (zh) * | 2021-02-27 | 2022-08-30 | 华为技术有限公司 | 一种图像修复方法及装置 |
CN113516006A (zh) * | 2021-04-01 | 2021-10-19 | 广州云硕科技发展有限公司 | 一种用于智能机器人的高效信息处理方法及系统 |
CN113902760B (zh) * | 2021-10-19 | 2022-05-17 | 深圳市飘飘宝贝有限公司 | 视频分割中物体边缘优化方法、系统、装置及存储介质 |
CN114283060B (zh) * | 2021-12-20 | 2024-06-28 | 北京字节跳动网络技术有限公司 | 视频生成方法、装置、设备及存储介质 |
CN115170400A (zh) * | 2022-04-06 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 一种视频修复的方法、相关装置、设备以及存储介质 |
US20230351558A1 (en) * | 2022-04-29 | 2023-11-02 | Microsoft Technology Licensing, Llc | Generating an inpainted image from a masked image using a patch-based encoder |
CN116091329B (zh) * | 2022-08-31 | 2023-10-20 | 荣耀终端有限公司 | 图像处理方法、装置、设备及存储介质 |
CN117058016A (zh) * | 2023-07-14 | 2023-11-14 | 清华大学深圳国际研究生院 | 人体运动序列补全方法及装置、设备、存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021525A (zh) * | 2014-05-30 | 2014-09-03 | 西安交通大学 | 一种道路场景视频图像序列的背景修复方法 |
CN104954780A (zh) * | 2015-07-01 | 2015-09-30 | 南阳师范学院 | 一种适用于高清2d/3d转换的dibr虚拟图像修复方法 |
CN109816611A (zh) * | 2019-01-31 | 2019-05-28 | 北京市商汤科技开发有限公司 | 视频修复方法及装置、电子设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2931288B1 (fr) * | 2008-05-19 | 2010-08-20 | Thierry Prigent | Procede d'enregistrement d'images et de donnees de restauration de ces images |
US8078002B2 (en) * | 2008-05-21 | 2011-12-13 | Microsoft Corporation | Matte-based video restoration |
EP2899689A1 (en) * | 2014-01-23 | 2015-07-29 | Thomson Licensing | Method for inpainting a target area in a target video |
-
2019
- 2019-12-31 CN CN201911408552.5A patent/CN111105382B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021525A (zh) * | 2014-05-30 | 2014-09-03 | 西安交通大学 | 一种道路场景视频图像序列的背景修复方法 |
CN104954780A (zh) * | 2015-07-01 | 2015-09-30 | 南阳师范学院 | 一种适用于高清2d/3d转换的dibr虚拟图像修复方法 |
CN109816611A (zh) * | 2019-01-31 | 2019-05-28 | 北京市商汤科技开发有限公司 | 视频修复方法及装置、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
《Free-form Video Inpainting with 3D Gated Convolution and Temporal PatchGAN 》;Ya-Liang Chang et al;《IEEE》;20191102;第9066-9075页; * |
《Learnable Gated Temporal Shift Module for Deep Video Inpainting》;Ya-Liang Chang et al;;《arXiv:1907.01131v2》;20190709;第1-12页; * |
Also Published As
Publication number | Publication date |
---|---|
CN111105382A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111105382B (zh) | 视频修复方法 | |
Zou et al. | Df-net: Unsupervised joint learning of depth and flow using cross-task consistency | |
US11967083B1 (en) | Method and apparatus for performing segmentation of an image | |
US8798358B2 (en) | Apparatus and method for disparity map generation | |
US11455712B2 (en) | Method and apparatus for enhancing stereo vision | |
KR102709925B1 (ko) | 투영 기반 메시 압축 | |
Meyer et al. | Deep video color propagation | |
US9723296B2 (en) | Apparatus and method for determining disparity of textured regions | |
WO2013178725A1 (en) | Segmentation of a foreground object in a 3d scene | |
Karpov et al. | Exploring efficiency of vision transformers for self-supervised monocular depth estimation | |
Zuo et al. | View synthesis with sculpted neural points | |
CN117745932A (zh) | 一种基于深度融合约束的神经隐式曲面重建方法 | |
CN116958262A (zh) | 一种基于单张RGB图像的6dof物体位姿估计方法 | |
Zhao et al. | Transformer-based self-supervised monocular depth and visual odometry | |
Chen et al. | Improving neural radiance fields with depth-aware optimization for novel view synthesis | |
CN115880419A (zh) | 一种基于体素的神经隐式表面生成和交互方法 | |
WO2012030602A2 (en) | Method and apparatus for performing segmentation of an image | |
Zhang et al. | PMVC: Promoting Multi-View Consistency for 3D Scene Reconstruction | |
Kappel et al. | D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video | |
Puranik et al. | Segmentation of image using watershed and fast level set methods | |
US12131452B1 (en) | Method and apparatus for enhancing stereo vision | |
Frantc et al. | Video inpainting using scene model and object tracking | |
Lu et al. | Monocular Depth and Ego-motion Estimation with Scale Based on Superpixel and Normal Constraints | |
Liang et al. | HFN-SLAM: Hybrid Scene Neural Representation SLAM Based on Frame Alignment and Normal Consistency | |
Umetani et al. | BareSkinNet: De-makeup and De-lighting via 3D Face Reconstruction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |