CN111787187B - 利用深度卷积神经网络进行视频修复的方法、系统、终端 - Google Patents

利用深度卷积神经网络进行视频修复的方法、系统、终端 Download PDF

Info

Publication number
CN111787187B
CN111787187B CN202010747063.9A CN202010747063A CN111787187B CN 111787187 B CN111787187 B CN 111787187B CN 202010747063 A CN202010747063 A CN 202010747063A CN 111787187 B CN111787187 B CN 111787187B
Authority
CN
China
Prior art keywords
training
loss
video
model
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010747063.9A
Other languages
English (en)
Other versions
CN111787187A (zh
Inventor
马然
薄德智
王可可
郑鸿鹤
安平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202010747063.9A priority Critical patent/CN111787187B/zh
Publication of CN111787187A publication Critical patent/CN111787187A/zh
Application granted granted Critical
Publication of CN111787187B publication Critical patent/CN111787187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/21Circuitry for suppressing or minimising disturbance, e.g. moiré or halo
    • H04N5/213Circuitry for suppressing or minimising impulsive noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain

Abstract

本发明提供了一种利用深度卷积神经网络进行视频修复的方法、系统、终端,包括:对原始视频数据集进行预处理,形成训练集;构建特征提取网络模型;构建损失函数;联合利用训练集和损失函数对构建的特征提取网络模型进行训练,通过训练生成的结果,对模型进行调参,得到最终的视频修复模型;利用得到的视频修复模型对视频进行修复。本发明提供的利用深度卷积神经网络进行视频修复的方法、系统、终端,改变了传统方法依靠人工定义和提取特征的弊端,利用深度卷积神经网络强大的特征提取能力,加上帧间的边缘信息作为修复引导,使得视频帧在空域和时域上的特征得到尽可能多的利用,同时提升了视频修复的主、客观质量评价指标。

Description

利用深度卷积神经网络进行视频修复的方法、系统、终端
技术领域
本发明涉及视频修复技术领域,具体地,涉及一种利用深度卷积神经网络进行视频修复的方法、系统、终端。
背景技术
近年来,随着互联网的普及,视频业务得到了繁荣的发展,人们对视频质量的追求也越来越高。然而,目前用户端收到的视频码流大多都是经过高效率视频编码(HighEfficiency Video Coding,HEVC)后通过信道传输到用户端,中间环节信道的不可靠性和部分用户信道带宽的不稳定,导致了部分用户接到的视频码流丢失,从而造成解码出来的视频受损。除此之外,对于一些珍贵视频的受损,或者信道易受干扰的视频,例如监控视频,也经常需要对其进行修复处理。因此,面对这种视觉上的画面受损情况,如何通过技术手段进行修复就显得尤为重要,值得本领域进行深入研究。
传统的视频修复方法根据当前帧能否通过参考帧接受信息,把视频修复分为时域和空域两种情况。时域修复的核心思想在于利用视频帧之间的强相关性,由受损帧已知参考帧的内容来推测当前受损帧丢失的内容。空域修复主要针对切换帧,利用单帧图像中的冗余性来对丢失内容进行修复。另外,还有学者把两种方法结合提出时空域修复,将参考帧和自身冗余信息相结合,在运动大时采用空域修复,运动小时采用时域修复。
传统主流的视频修复方法在时域修复上以外边界匹配算法(Outer BoundaryMatching Algorithm,OBMA)和运动矢量外推(Motion Vector Extrapolation,MVE)最具有代表性。Thaipanich,T.,Wu,P.-H.,Kuo,C.-C.J.,Video error concealment with outerand inner boundary matching algorithms.Proceedings of SPIE–the InternationalSociety for Optical Engineering,2007.公开了利用丢失块周围的已知运动矢量与丢失块原始运动矢量之间存在的运动相似性的方法,但是采用了所有块都参与搜索的穷举法,导致算法复杂度过高。Q.Peng,T.Yang,C.Zhu,Block-based temporal error concealmentfor video packet using motion vector extrapolation.IEEE InternationalConference on Communications,Circuits and Systems and West Sino Expositions,10–14,2002.公开了利用丢失块及其邻域内的运动矢量连续性的方法,该方法解决了边界匹配算法需要穷举的缺点,但是只对匀速运动的视频有效果,非匀速视频效果不尽如人意。
在空域修复上,由于针对单帧进行修复,更多涉及图像修复方面。最经典的算法为块匹配算法(PatchMatch)。C.Barnes,E.Shechtman,A.Finkelstein,andD.Goldman.Patchmatch:Arandomized correspondence algorithm for structuralimage editing.ACM Transactions on Graphics,2009.公开了一种找近似最相邻的方法,核心思想是利用图像的连续性和冗余性,一个图像patch块附近的块与其最相似,利用这种图像的连续性大量减少搜索的范围,通过迭代的方式保证大多数点能尽快收敛,最后利用一个全局性的目标函数求全局最优来完成图像的填充。该方法在空域修复上被证明有着突出的效果,但是只能处理背景简单、具有重复性的纹理信息,面对复杂的背景效果不是很好。
随着深度学习在人脸识别、图像检索、图像超分辨率重建等计算机视觉领域出色的表现,证明了深度卷积神经网络对图像、视频特征有着强大的提取能力。因此,出现了采用深度卷积网络进行视频修复的方法。A.Sankisa,A.Punjabi,A.K.Katsaggelos.Videoerror concealment using deep neural networks.IEEE International Conference onImage Processing(ICIP),2018.公开了一种通过神经网络的光流预测方法,采用一系列光流向量训练网络以学习预测未来流。R.Xu,X.Li,B.Zhou,C.C.Loy,Deep flow-guidedvideo inpainting,arXiv:1905.02884v1[cs.CV]8May 2019.公开了一种同样利用深度光流引导视频修复的方法,使用深度光流场合成神经网络(DFC-Net)在视频帧上合成表示空间与时间关系的光流场,即整个视频图像中各像素点随时间的运动情况,然后将这个光流场作为像素扩充的导向,使其精确填充视频中的缺失区域,取得了很好地修复效果。但是,上述采用深度卷积网络进行视频修复的方法,存在如下技术问题:
1.过度依赖光场信息,对于一些灰度信息不敏感;
2.网络结构相当复杂,需要对过多的光流信息进行跟踪,不易训练。
在图像修复领域,相关研究人员发现图像边缘线条预先修复从而引导后续整幅图的修复能够大幅度提升修复质量,故受到了高度重视。边缘信息是人类视觉体系中极其重要的一个特征,约束着整个视觉的边界和范围,使人注意力得到集中。对于图像本身来说,边缘线条约束着画面的颜色域和基础形状,如果边缘能到得到良好的修复,就可以很好的引导整幅画面的修复,不至于产生颜色混乱和形状扭曲。但是,如果将这种修复方式应用于视频修复中,则会存在如下问题:
1.时域上,前后帧信息相似性的优势不能够得到充分利用;
2.空域上,图像只考虑单张修复,信息量过少。
目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
发明内容
本发明的目的在于克服传统视频修复算法的不足,提出了一种以边缘信息为引导、利用深度卷积神经网络进行视频修复的方法、系统、终端,通过引入时空域信息改进网络进行视频修复。
本发明是通过以下技术方案实现的。
根据本发明的一个方面,提供了一种利用深度卷积神经网络进行视频修复的方法,包括:
对原始视频数据集进行预处理,形成训练集;
构建特征提取网络模型;
构建损失函数;
联合利用训练集和损失函数对构建的特征提取网络模型进行训练,通过训练生成的结果,对模型进行调参,确定各个损失函数的权重,得到最终的视频修复模型;
利用得到的视频修复模型对视频进行修复。
优选地,所述对原始视频数据集进行预处理,包括:
利用随机函数随机产生具有不同丢包率的掩码块,所述掩码块用于模拟受损帧;
提取当前帧的前一帧边缘信息;
将掩码块和边缘信息覆盖在原始视频数据集上,并将所有视频尺寸大小变换为256×256,形成训练集。
优选地,所述原始视频数据集采用YouTube-VOS和YouTube-boundingboxes。
优选地,构建的所述特征提取网络模型,包括前三层下采样卷积层、中间层和后三层上采样卷积层;其中:
所述中间层包括5个残差块,每一个所述残差块中均采用膨胀卷积。
优选地,构建的所述损失函数包括:重建损失、对抗性损失和风格损失;其中:
所述重建损失基于像素差异,用于内容生成训练;
所述对抗性损失对修复结果进行判别,用于纹理信息生成训练;
所述风格损失通过计算特征提取网络模型中间某一层卷积层和原始视频帧在该卷积层的Gram矩阵差值来判断修复的结果在风格上是否接近原始视频,用于视频帧风格训练。
其中:
所述内容是指填充的像素;
所述纹理信息是指图像边缘轮廓信息;
所述风格是指图像色彩等风格信息,类似常见的滤镜。
优选地,所述重建损失为:
Figure BDA0002608738750000041
其中,y为未受损的原始视频帧,x为受损视频帧,f(x)为网络对输入受损帧的修复结果,通过最小化真实值和预测值之间的差值的绝对值的和来完成模型的内容训练;
所述对抗性损失为:
Figure BDA0002608738750000042
其中,D为鉴别器,e为参考帧的边缘信息,
Figure BDA0002608738750000043
为函数期望;所述鉴别器针对基于参考帧边缘信息修复的结果和原始未受损帧进行真假判别,用于模型的纹理细节训练;
所述风格损失为:
Figure BDA0002608738750000044
其中,
Figure BDA0002608738750000045
为特征提取网络模型中间某一层卷积层和原始视频帧在该卷积层的Gram矩阵,F为弗罗贝尼乌斯范数,风格损失定义为矩阵
Figure BDA0002608738750000046
各项元素的绝对值平方的总和;通过迭代不断缩小两个Gram矩阵差值大小,使其修复结果在风格上更加接近原始视频,用于视频帧风格训练;
所述损失函数为:
Figure BDA0002608738750000047
其中,ω1、ω2、ω3分别为对应损失的权重。
优选地,所述联合利用训练集和损失函数对构建的特征提取网络模型进行训练,通过训练生成的结果,对模型进行调参,确定各个损失函数的权重,包括:
将训练集和损失函数共同作为特征提取网络模型的输入,对特征提取网络模型进行训练,通过训练生成的结果,针对三种训练的方向进行分析,对模型进行调参,确定三种损失函数的权重为:ω1=1,ω2=250,ω3=0.1。
优选地,在对所述特征提取网络模型进行训练的过程中,所述重建损失,采用PyTorch内嵌的L1损失。
优选地,在对所述特征提取网络模型进行训练的过程中,所述对抗性损失,采用梯度下降法作为优化算法,学习率设置为0.0001,Adam一阶矩估计的指数衰减率beta1设置为0,二阶矩估计的指数衰减率beta2设置为0.9,批大小设置为8,鉴别器和生成器学习率比例设置为0.1。
优选地,在对所述特征提取网络模型进行训练的过程中,所述风格损失,采用VGG-19网络的relu2_1、relu2_2、relu3_3、relu4_3层计算Gram矩阵。
根据本发明的另一个方面,提供了一种利用深度卷积神经网络进行视频修复的系统,包括:
训练集模块,所述训练集模块提供用于训练特征提取网络模型的训练集;
模型训练模块,所述模型训练模块提供用于训练特征提取网络模型的损失函数;
视频修复模块,所述视频修复模块联合利用训练集和损失函数对特征提取网络模型进行训练,通过训练生成的结果,对模型进行调参,得到用于进行视频修复的视频修复模型。
根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。
由于采用了上述技术方案,本发明与现有技术相比,具有如下有益效果:
本发明提供的利用深度卷积神经网络进行视频修复的方法、系统、终端,改变了传统方法依靠人工定义和提取特征的弊端,利用深度卷积神经网络强大的特征提取能力,加上帧间的边缘信息作为修复引导,使得视频帧在空域和时域上的特征得到尽可能多的利用,同时提升了视频修复的主、客观质量评价指标。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一优选实施例中利用深度卷积神经网络进行视频修复的方法流程框图;
图2为本发明一优选实施例中特征提取网络模型示意图;
图3为本发明一优选实施例中所基于的图像修复中经典的卷积神经网络结构模型示意图;
图4为本发明一优选实施例中模型网络结构图;
图5为本发明一优选实施例中VGG-19网络结构图;
图6为不同算法修复结果对比示意图,其中ours为本发明一优选实施例所提供的方法;
图7为不同算法修复结果客观评价指标对比示意图,其中ours为本发明一优选实施例所提供的方法。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
本发明一实施例提供了一种利用深度卷积神经网络进行视频修复的方法,该方法选择目前图像修复中经典的网络作为基础网络,提取视频帧的特征,用于缺失部分的生成。基础网络输入受损图片,输出修复后的图片,针对单张图片进行,对应视频修复中空域差错隐藏,即单帧修复的情况。而大多数情况下视频帧前后都有着强关联性,可以通过提取帧间可用信息进行引导修复,即时域差错隐藏。该方法改进基础网络,输入受损帧的前后未受损帧的边缘信息和受损帧共同作为输入,通过在YouTube-VOS、YouTube-boundingboxes数据集上训练,完成我们最终的修复模型。
考虑到传统算法主要以结构相似性(Structural Similarity Index,SSIM)、峰值信噪比(Peak Signal to Noise Ratio,PSNR)、平均绝对误差(Mean Absolute Error,MAE)等客观质量评价指标为提升目标,本实施例所提供的方法根据边缘信息对修复很好的引导作用以及深度学习相比传统方法在特征提取方面的优越性,能够同时提升客观评价指标和主观质量评价指标。
本实施例的具体的构思是:
利用当前图像修复中经典的网络框架修改卷积层作为基础模型,在当前流行的生成对抗网络的对抗性损失基础上增加其它损失函数来约束模型进行训练,达到更好的模型性能。在网络框架上,先下采样三次,然后加入残差块,这里采用膨胀卷积代替之前网络的卷积层,最后通过上采样恢复成原图大小,完成修复过程。在训练模型时,在原有的重建损失和对抗性损失基础上加入风格损失,使得修复后的部分与未受损部分风格更加相近,修复后的视频帧在视觉上整体看起来更加协调。在数据集选取方面,选取视频数据集YouTube-VOS和YouTube-boundingboxes,这样能够尽可能多的提取出视频帧基础特征,以应对不同场景下的受损视频修复需求。
基于以上,本实施例所提供的利用深度卷积神经网络进行视频修复的方法,包括如下步骤:
根据本发明的一个方面,提供了一种利用深度卷积神经网络进行视频修复的方法,包括:
步骤1,对原始视频数据集进行预处理,形成训练集;
步骤2,构建特征提取网络模型;
步骤3,构建损失函数;
步骤4,联合利用训练集和损失函数对构建的特征提取网络模型进行训练,通过训练生成的结果,对模型进行调参,得到最终的视频修复模型;
步骤5,利用得到的视频修复模型对视频进行修复。
作为一优选实施例,步骤1,包括:
步骤1.1,利用随机函数随机产生具有不同丢包率的掩码块,掩码块用于模拟受损帧;
步骤1.2,提取当前帧的前一帧边缘信息;
步骤1.3,将掩码块和边缘信息覆盖在原始视频数据集上,并将所有视频尺寸大小变换为256×256,形成训练集。
作为一优选实施例,原始视频数据集采用YouTube-VOS和YouTube-boundingboxes。
作为一优选实施例,步骤2中,构建的特征提取网络模型,包括前三层下采样卷积层、中间层和后三层上采样卷积层;其中:
中间层包括5个残差块,每一个残差块中均采用膨胀卷积。
作为一优选实施例,步骤3中,构建的损失函数包括:重建损失、对抗性损失和风格损失;其中:
重建损失基于像素差异,用于内容生成训练;
对抗性损失对修复结果进行判别,用于纹理信息生成训练;
风格损失通过计算特征提取网络模型中间某一层卷积层和原始视频帧在该卷积层的Gram矩阵差值来判断修复的结果在风格上是否接近原始视频,用于视频帧风格训练。
其中:
内容是指填充的像素;
纹理信息是指图像边缘轮廓信息;
风格是指图像色彩等风格信息,类似常见的滤镜。
作为一优选实施例,重建损失为:
Figure BDA0002608738750000081
其中,y为未受损的原始视频帧,x为受损视频帧,f(x)为网络对输入受损帧的修复结果,通过最小化真实值和预测值之间的差值的绝对值的和来完成模型的内容训练;
对抗性损失为:
Figure BDA0002608738750000082
其中,D为鉴别器,e为参考帧的边缘信息,
Figure BDA0002608738750000083
为函数期望;鉴别器针对基于参考帧边缘信息修复的结果和原始未受损帧进行真假判别,用于模型的纹理细节训练;
风格损失为:
Figure BDA0002608738750000084
其中,
Figure BDA0002608738750000085
为特征提取网络模型中间某一层卷积层和原始视频帧在该卷积层的Gram矩阵,F为弗罗贝尼乌斯范数,风格损失定义为矩阵
Figure BDA0002608738750000086
各项元素的绝对值平方的总和;通过迭代不断缩小两个Gram矩阵差值大小,使其修复结果在风格上更加接近原始视频,用于视频帧风格训练;
损失函数为:
Figure BDA0002608738750000087
其中,ω1、ω2、ω3分别为对应损失的权重。
在视频帧风格训练中,两个Gram矩阵差值越小越好,是个不断优化的过程。训练的迭代过程前后比较,取更小的值,不断缩小两个Gram矩阵之间的差距。
作为一优选实施例,联合利用训练集和损失函数对构建的特征提取网络模型进行训练,通过训练生成的结果,对模型进行调参,确定各个损失函数的权重,包括:
将训练集和损失函数共同作为特征提取网络模型的输入,对特征提取网络模型进行训练,通过训练生成的结果,针对三种训练的方向进行分析,对模型进行调参,确定三种损失函数的权重为:ω1=1,ω2=250,ω3=0.1。
作为一优选实施例,在对特征提取网络模型进行训练的过程中,重建损失,采用PyTorch内嵌的L1损失。
作为一优选实施例,在对特征提取网络模型进行训练的过程中,对抗性损失,采用梯度下降法作为优化算法,学习率设置为0.0001,Adam一阶矩估计的指数衰减率beta1设置为0,二阶矩估计的指数衰减率beta2设置为0.9,批大小设置为8,鉴别器和生成器学习率比例设置为0.1。
作为一优选实施例,在对特征提取网络模型进行训练的过程中,风格损失,采用VGG-19网络的relu2_1、relu2_2、relu3_3、relu4_3层计算Gram矩阵。
下面结合附图,对本实施例所提供的技术方案进一步描述如下。
本实施例的整体特征提取网络模型如图2所示,本实施例可以在Windows10以及PyTorch环境编程仿真。首先,利用如图3所示的图像修复中经典的卷积神经网络结构模型(Context encoder模型),保留网络中前三层下采样卷积层和后三层上采样卷积层,将中间卷积层和反卷积层替换成5个残差块,并用膨胀卷积替换掉残差块中原来的规则卷积,构成本实施例最终的特征提取网络模型。不同于原网络把受损图下采样到4000维向量提取出多维特征,本实施例参考风格转换项目的网络模型,不需要过多的卷积对视频帧进行下采样,而是在中间层用5个残差块代替剩余的卷积层进行特征的抽取,同时将规则卷积换为膨胀卷积,这样的好处是扩大了感受野,能用相同大小的卷积核获得更多的特征。在训练模型方面,在原有网络的重建损失和对抗性损失基础上增加了一个风格损失用于修复的视频帧风格训练,使其修复部分风格更加接近整体,在观感上更加真实。
如图1所示,本实施例提供的方法,具体实施步骤如下:
步骤1.预处理数据集:为了模拟真实的丢包情况,需要对数据进行预处理。用随机函数随机产生不同丢包率的掩码块,然后覆盖在原始训练集上,模拟真实丢包。考虑到视频帧数量太少,作为训练集规模太小,作为训练集需要多次迭代,容易发生过拟合情况,因此采用视频数据集YouTube-VOS和YouTube-boundingboxes作为训练集。然后,提取当前帧的前一帧边缘用于训练。最后,为了模型能够除了不同分辨率视频,要将所有视频转为256×256大小;
步骤2.设计整体特征提取网络模型:本实施例保留Context encoder网络中前三层下采样卷积层和后三层上采样卷积层,将其余中间部分卷积层用成5个残差块替换,同时为了增大感受野,用膨胀卷积替换掉原来的规则卷积,能用相同大小的卷积核获得更多的特征;
步骤3.设计损失函数:考虑到原网络损失函数只针对内容和纹理进行训练,本实施例考虑到风格也对修复结果有着很大的影响,因此,在参考风格转换项目中风格损失函数的设计,增加了风格损失对模型进行训练。最终的损失函数中包含了重建损失、对抗性损失和风格损失。重建损失基于像素差异,用于内容生成训练;对抗性损失试图判别出更真实的修复结果,用于纹理信息生成训练;风格损失通过计算中间某一层卷积层和原始视频帧在该卷积层的Gram矩阵差值来判断修复的结果在风格上是否接近,用于视频帧风格训练。
步骤4.模型训练:根据步骤1预处理得到的训练集,将训练集加上掩码块模拟的受损帧和训练集自身边缘信息经过尺寸变换为256×256,共同作为输入,用步骤3中的三种损失函数对模型进行联合训练,通过训练生成的结果,针对三种训练的方向进行分析,对模型进行调参,确定三种损失函数的权重;
在步骤2中,设计基础网络模型参考图像修复中经典的Context encoder,设计出来的整体网络模型图如图2所示,网络结构图如图4所示。具体步骤为:
步骤2.1.考虑到原有网络前三层下采样卷积层和后三层上采样卷积层的特征提取能力,故将其保留;
步骤2.2.将用于进一步下采样的卷积层用成5个残差块替换,这样的好处就是解决了随着网络加深带来的训练困难问题,残差连接常常用在图像分类中去训练非常深的网络,它们证明了残差连接能让网络更容易的去学习确定的函数;
步骤2.3.同时,为了增大感受野,在残差块中用膨胀卷积替换掉规则卷积,这样的好处就是能用相同大小的卷积核获得更多的特征。
在步骤3中,本实施例损失函数中包含有三项损失:重建损失、对抗性损失和风格损失。三种损失函数的具体含义数学表达式如下:
步骤3.1.重建损失:
Figure BDA0002608738750000101
其中,y为未受损的原始视频帧,x为受损视频帧,f(x)为网络对输入受损帧的修复结果,通过最小化真实值和预测值之间的差值的绝对值的和来完成模型的内容训练。
步骤3.2.对抗性损失:
Figure BDA0002608738750000102
其中,D为鉴别器,e为参考帧的边缘信息图。这里的鉴别器根据GAN中的鉴别器修改得来,针对基于参考帧边缘信息修复的结果和原始未受损帧进行真假判别,用于模型的纹理细节训练,使其看上去更加真实。
步骤3.3.风格损失:
Figure BDA0002608738750000103
其中,
Figure BDA0002608738750000104
为模型中间某一层卷积层和原始视频帧在该卷积层的Gram矩阵,F为弗罗贝尼乌斯范数,风格损失定义为矩阵
Figure BDA0002608738750000105
各项元素的绝对值平方的总和。Gram矩阵可以看做feature之间的偏心协方差矩阵(即没有减去均值的协方差矩阵),在feature map中,每个数字都来自于一个特定滤波器在特定位置的卷积,因此每个数字代表一个特征的强度,而Gram计算的实际上是两两特征之间的相关性,哪两个特征是同时出现的,哪两个是此消彼长的等等,同时,Gram的对角线元素,还体现了每个特征在图像中出现的量,因此,Gram有助于把握整个图像的大体风格。故可以通过衡量两个Gram矩阵差值大小,判断修复结果在风格上是否接近原始视频,用于模型风格训练。
所以,最后的损失函数为:
Figure BDA0002608738750000111
其中,ω1、ω2、ω3分别为对应损失函数的权重,本实施例中ω1=1,ω2=250,ω1=0.1。
在步骤4中,根据步骤3的损失函数对模型进行针对训练:
步骤4.1.重建损失选择L1损失;
步骤4.2.对抗性损失训练模型时,优化算法使用梯度下降法(Adaptive MomentEstimation,Adam),学习率设置为0.0001,Adam一阶矩估计的指数衰减率beta1设置为0,二阶矩估计的指数衰减率beta2设置为0.9,批大小设置为8,鉴别器和生成器学习率比例设置为0.1;
步骤4.2.如图5所示,风格损失训练采用VGG-19网络的relu2_1、relu2_2、relu3_3、relu4_3层,VGG-19网络在图像分类中应用证明了其强大的特征提取能力,本发明在上述所选择层上计算Gram矩阵,用于修复过程的风格训练。
如图6和图7所示,基于以上方案具体实施,训练出本实施例的模型,经过模型验证和测试,视频修复结果比传统方法更好,主、客观评价指标都得到了提升,证明了本实施所提供的方法相比传统视频修复方法的优越性。
基于本发明上述实施例所提供的利用深度卷积神经网络进行视频修复的方法,本发明另一实施例,提供了一种利用深度卷积神经网络进行视频修复的系统,包括:
训练集模块,训练集模块提供用于训练特征提取网络模型的训练集;
模型训练模块,模型训练模块提供用于训练特征提取网络模型的损失函数;
视频修复模块,视频修复模块联合利用训练集和损失函数对特征提取网络模型进行训练,通过训练生成的结果,对模型进行调参,得到用于进行视频修复的视频修复模型。
本发明第三个实施例,提供了一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,处理器执行计算机程序时能够用于执行上述任一项的方法。
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器62用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
本发明上述实施例提供的利用深度卷积神经网络进行视频修复的方法、系统、终端。以边缘信息为引导,选择图像修复中经典的Context encoder卷积神经网络结构模型,保留网络中前三层下采样卷积层和后三层上采样卷积层,将中间卷积层和反卷积层替换成5个残差块,并用膨胀卷积替换掉原来的规则卷积,构成最终的网络结构模型。参考风格转换项目的网络模型,不需要过多的卷积对视频帧进行下采样,而是在中间层用5个残差块代替剩余的卷积层进行特征的抽取,同时将规则卷积换为膨胀卷积,这样的好处是扩大了感受野,能用相同大小的卷积核获得更多的特征。在训练模型时,网络输入端输入受损帧和受损帧的参考帧边缘图,用参考帧的边缘信息引导受损帧的修复。在损失函数方面,在原有网络的重建损失和对抗性损失基础上增加了一个风格损失用于修复的视频帧风格训练,使其修复部分风格更加接近整体,在观感上更加真实。经过模型验证和测试,本发明上述实施例所提供的方法、系统、终端,视频修复结果比传统方法更好,主、客观评价指标都得到了提升,证明了本发明上述实施例所提供的视频修复技术相比传统视频修复方法的优越性。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照系统的技术方案实现方法的步骤流程,即,系统中的实施例可理解为实现方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (8)

1.一种利用深度卷积神经网络进行视频修复的方法,其特征在于,包括:
对原始视频数据集进行预处理,形成训练集;
构建特征提取网络模型;
构建损失函数;
联合利用训练集和损失函数对构建的特征提取网络模型进行训练,通过训练生成的结果,对模型进行调参,确定各个损失函数的权重,得到最终的视频修复模型;
利用得到的视频修复模型对视频进行修复;
构建的所述损失函数包括:重建损失、对抗性损失和风格损失;其中:
所述重建损失基于像素差异,用于内容生成训练;
所述对抗性损失对修复结果进行判别,用于纹理信息生成训练;
所述风格损失通过计算特征提取网络模型中间某一层卷积层和原始视频帧在该卷积层的Gram矩阵差值来判断修复的结果在风格上是否接近原始视频,用于视频帧风格训练;
所述重建损失为:
Figure 646355DEST_PATH_IMAGE001
(1)
其中,
Figure 968752DEST_PATH_IMAGE002
为未受损的原始视频帧,
Figure 781987DEST_PATH_IMAGE003
为受损视频帧,
Figure 748806DEST_PATH_IMAGE004
为网络对输入受损帧的修复结 果,通过最小化真实值和预测值之间的差值来完成模型的内容训练;
所述对抗性损失为:
Figure 130240DEST_PATH_IMAGE005
(2)
其中,
Figure 815300DEST_PATH_IMAGE006
为鉴别器,
Figure 166646DEST_PATH_IMAGE007
为参考帧的边缘信息,
Figure 378185DEST_PATH_IMAGE008
为函数期望;所述鉴别器针对基于参考帧边 缘信息修复的结果和原始未受损帧进行真假判别,用于模型的纹理细节训练;
所述风格损失为:
Figure 789575DEST_PATH_IMAGE009
(3)
其中,
Figure 961930DEST_PATH_IMAGE010
为特征提取网络模型中间某一层卷积层和原始视频帧在该卷积层的Gram矩 阵,
Figure 992334DEST_PATH_IMAGE011
为弗罗贝尼乌斯范数,风格损失定义为矩阵
Figure 668166DEST_PATH_IMAGE012
各项元素的绝对值平 方的总和;通过迭代不断缩小两个Gram矩阵差值大小,使其修复结果在风格上更加接近原 始视频,用于视频帧风格训练;
所述损失函数为:
Figure 640670DEST_PATH_IMAGE013
(4)
其中,
Figure 300322DEST_PATH_IMAGE014
分别为对应损失的权重。
2.根据权利要求1所述的利用深度卷积神经网络进行视频修复的方法,其特征在于,所述对原始视频数据集进行预处理,包括:
利用随机函数随机产生具有不同丢包率的掩码块,所述掩码块用于模拟受损帧;
提取当前帧的前一帧边缘信息;
将掩码块和边缘信息覆盖在原始视频数据集上,并将所有视频尺寸大小变换为256
Figure 993471DEST_PATH_IMAGE015
256,形成训练集。
3.根据权利要求1或2所述的利用深度卷积神经网络进行视频修复的方法,其特征在于,所述原始视频数据集采用YouTube-VOS和YouTube-boundingboxes。
4.根据权利要求1所述的利用深度卷积神经网络进行视频修复的方法,其特征在于,构建的所述特征提取网络模型,包括前三层下采样卷积层、中间层和后三层上采样卷积层;其中:
所述中间层包括5个残差块,每一个所述残差块中均采用膨胀卷积。
5.根据权利要求1所述的利用深度卷积神经网络进行视频修复的方法,其特征在于,所述联合利用训练集和损失函数对构建的特征提取网络模型进行训练,通过训练生成的结果,对模型进行调参,确定各个损失函数的权重,包括:
将训练集和损失函数共同作为特征提取网络模型的输入,对特征提取网络模型进行训 练,通过训练生成的结果,针对三种训练的方向进行分析,对模型进行调参,确定三种损失 函数的权重为:
Figure 393316DEST_PATH_IMAGE016
Figure 412088DEST_PATH_IMAGE017
Figure 559036DEST_PATH_IMAGE018
6.根据权利要求1-5任一项所述的利用深度卷积神经网络进行视频修复的方法,其特征在于,在对所述特征提取网络模型进行训练的过程中,还包括如下任意一项或任意多项:
所述重建损失,采用PyTorch内嵌的L1损失;
所述对抗性损失,采用梯度下降法作为优化算法,学习率设置为0.0001,Adam一阶矩估计的指数衰减率beta1设置为0,二阶矩估计的指数衰减率beta2设置为0.9,批大小设置为8,鉴别器和生成器学习率比例设置为0. 1;
所述风格损失,采用VGG-19网络的relu2_1、relu2_2、relu3_3、relu4_3层计算Gram矩阵。
7.一种利用深度卷积神经网络进行视频修复的系统,其特征在于,包括:
训练集模块,所述训练集模块提供用于训练特征提取网络模型的训练集;
模型训练模块,所述模型训练模块提供用于训练特征提取网络模型的损失函数;
视频修复模块,所述视频修复模块联合利用训练集和损失函数对特征提取网络模型进行训练,通过训练生成的结果,对模型进行调参,得到用于进行视频修复的视频修复模型;
所述损失函数包括:重建损失、对抗性损失和风格损失;其中:
所述重建损失基于像素差异,用于内容生成训练;
所述对抗性损失对修复结果进行判别,用于纹理信息生成训练;
所述风格损失通过计算特征提取网络模型中间某一层卷积层和原始视频帧在该卷积层的Gram矩阵差值来判断修复的结果在风格上是否接近原始视频,用于视频帧风格训练;
所述重建损失为:
Figure 180510DEST_PATH_IMAGE019
(1)
其中,
Figure 96513DEST_PATH_IMAGE002
为未受损的原始视频帧,
Figure 20607DEST_PATH_IMAGE003
为受损视频帧,
Figure 264638DEST_PATH_IMAGE004
为网络对输入受损帧的修复结 果,通过最小化真实值和预测值之间的差值来完成模型的内容训练;
所述对抗性损失为:
Figure 565169DEST_PATH_IMAGE020
(2)
其中,
Figure 460313DEST_PATH_IMAGE006
为鉴别器,
Figure 555308DEST_PATH_IMAGE007
为参考帧的边缘信息,
Figure 676847DEST_PATH_IMAGE008
为函数期望 ;所述鉴别器针对基于参考帧 边缘信息修复的结果和原始未受损帧进行真假判别,用于模型的纹理细节训练;
所述风格损失为:
Figure 390857DEST_PATH_IMAGE021
(3)
其中,
Figure 15873DEST_PATH_IMAGE010
为特征提取网络模型中间某一层卷积层和原始视频帧在该卷积层的Gram矩 阵,
Figure 547348DEST_PATH_IMAGE011
为弗罗贝尼乌斯范数,风格损失定义为矩阵
Figure 749660DEST_PATH_IMAGE022
各项元素的绝对值平 方的总和;通过迭代不断缩小两个Gram矩阵差值大小,使其修复结果在风格上更加接近原 始视频,用于视频帧风格训练;
所述损失函数为:
Figure 657573DEST_PATH_IMAGE023
(4)
其中,
Figure 137096DEST_PATH_IMAGE014
分别为对应损失的权重。
8.一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时能够用于执行权利要求1至6中任一项所述的方法。
CN202010747063.9A 2020-07-29 2020-07-29 利用深度卷积神经网络进行视频修复的方法、系统、终端 Active CN111787187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010747063.9A CN111787187B (zh) 2020-07-29 2020-07-29 利用深度卷积神经网络进行视频修复的方法、系统、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010747063.9A CN111787187B (zh) 2020-07-29 2020-07-29 利用深度卷积神经网络进行视频修复的方法、系统、终端

Publications (2)

Publication Number Publication Date
CN111787187A CN111787187A (zh) 2020-10-16
CN111787187B true CN111787187B (zh) 2021-07-02

Family

ID=72765482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010747063.9A Active CN111787187B (zh) 2020-07-29 2020-07-29 利用深度卷积神经网络进行视频修复的方法、系统、终端

Country Status (1)

Country Link
CN (1) CN111787187B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112601095B (zh) * 2020-11-19 2023-01-10 北京影谱科技股份有限公司 一种视频亮度和色度分数插值模型的创建方法及系统
CN112565628B (zh) * 2020-12-01 2022-03-29 合肥工业大学 一种卡通视频重制方法及系统
CN112541878A (zh) * 2020-12-24 2021-03-23 北京百度网讯科技有限公司 建立图像增强模型与图像增强的方法、装置
CN114972050A (zh) * 2021-02-27 2022-08-30 华为技术有限公司 一种图像修复方法及装置
CN117078564B (zh) * 2023-10-16 2024-01-12 北京网动网络科技股份有限公司 视频会议画面的智能生成方法及其系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104159112A (zh) * 2014-08-08 2014-11-19 哈尔滨工业大学深圳研究生院 基于双重稀疏模型解码的压缩感知视频传输方法及系统
WO2019009447A1 (ko) * 2017-07-06 2019-01-10 삼성전자 주식회사 영상을 부호화/복호화 하는 방법 및 그 장치
CN110443764A (zh) * 2019-08-01 2019-11-12 北京百度网讯科技有限公司 视频修复方法、装置及服务器
CN110827201A (zh) * 2019-11-05 2020-02-21 广东三维家信息科技有限公司 用于高动态范围图像超分辨率重建的生成式对抗网络训练方法及装置
CN111047541A (zh) * 2019-12-30 2020-04-21 北京工业大学 一种基于小波变换注意力模型的图像修复方法
CN111107357A (zh) * 2018-10-25 2020-05-05 杭州海康威视数字技术股份有限公司 一种图像处理的方法、装置及系统
CN111275637A (zh) * 2020-01-15 2020-06-12 北京工业大学 一种基于注意力模型的非均匀运动模糊图像自适应复原方法
CN111696049A (zh) * 2020-05-07 2020-09-22 中国海洋大学 基于深度学习的水下扭曲图像重建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191402B (zh) * 2018-09-03 2020-11-03 武汉大学 基于对抗生成神经网络的图像修复方法和系统
CN109559287A (zh) * 2018-11-20 2019-04-02 北京工业大学 一种基于DenseNet生成对抗网络的语义图像修复方法
CN111275686B (zh) * 2020-01-20 2023-05-26 中山大学 用于人工神经网络训练的医学图像数据的生成方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104159112A (zh) * 2014-08-08 2014-11-19 哈尔滨工业大学深圳研究生院 基于双重稀疏模型解码的压缩感知视频传输方法及系统
WO2019009447A1 (ko) * 2017-07-06 2019-01-10 삼성전자 주식회사 영상을 부호화/복호화 하는 방법 및 그 장치
CN111107357A (zh) * 2018-10-25 2020-05-05 杭州海康威视数字技术股份有限公司 一种图像处理的方法、装置及系统
CN110443764A (zh) * 2019-08-01 2019-11-12 北京百度网讯科技有限公司 视频修复方法、装置及服务器
CN110827201A (zh) * 2019-11-05 2020-02-21 广东三维家信息科技有限公司 用于高动态范围图像超分辨率重建的生成式对抗网络训练方法及装置
CN111047541A (zh) * 2019-12-30 2020-04-21 北京工业大学 一种基于小波变换注意力模型的图像修复方法
CN111275637A (zh) * 2020-01-15 2020-06-12 北京工业大学 一种基于注意力模型的非均匀运动模糊图像自适应复原方法
CN111696049A (zh) * 2020-05-07 2020-09-22 中国海洋大学 基于深度学习的水下扭曲图像重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EdgeConnect: Structure Guided Image Inpainting using Edge Prediction;Kamyar Nazeri 等;《2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW)》;20200305;3265-3274 *
基于时空生成对抗网络的视频修复;于冰 等;《计算机辅助设计与图形学学报》;20200531;769-779 *

Also Published As

Publication number Publication date
CN111787187A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111787187B (zh) 利用深度卷积神经网络进行视频修复的方法、系统、终端
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN113139907A (zh) 视觉分辨率增强的生成方法、系统、装置及存储介质
CN113298818A (zh) 基于注意力机制与多尺度特征的遥感图像建筑物分割方法
CN112541864A (zh) 一种基于多尺度生成式对抗网络模型的图像修复方法
CN110717868B (zh) 视频高动态范围反色调映射模型构建、映射方法及装置
CN111696033B (zh) 基于角点引导级联沙漏网络结构学习的真实图像超分辨率模型及方法
CN111612708A (zh) 一种基于对抗生成网络的图像修复方法
CN113392711A (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN114092824A (zh) 结合密集注意力和并行上采样的遥感图像道路分割方法
CN113850718A (zh) 一种基于帧间特征对齐的视频同步时空超分方法
CN116092190A (zh) 一种基于自注意力高分辨网络的人体姿态估计方法
CN116485934A (zh) 一种基于CNN和ViT的红外图像彩色化方法
Zheng et al. T-net: Deep stacked scale-iteration network for image dehazing
CN114842400A (zh) 基于残差块和特征金字塔的视频帧生成方法及系统
CN116523985B (zh) 一种结构和纹理特征引导的双编码器图像修复方法
Ren et al. A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms
CN117058043A (zh) 一种基于lstm的事件-图像去模糊方法
CN117197627A (zh) 一种基于高阶退化模型的多模态图像融合方法
CN114219738A (zh) 单幅图像多尺度超分辨重建网络结构及方法
Wu et al. Semantic image inpainting based on generative adversarial networks
Li et al. Refined Division Features Based on Transformer for Semantic Image Segmentation
CN114022506B (zh) 一种边缘先验融合多头注意力机制的图像修复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant