CN107734333A - 一种利用生成网络提高视频错误隐藏效果的方法 - Google Patents

一种利用生成网络提高视频错误隐藏效果的方法 Download PDF

Info

Publication number
CN107734333A
CN107734333A CN201710902271.XA CN201710902271A CN107734333A CN 107734333 A CN107734333 A CN 107734333A CN 201710902271 A CN201710902271 A CN 201710902271A CN 107734333 A CN107734333 A CN 107734333A
Authority
CN
China
Prior art keywords
mrow
msub
macro block
network
munderover
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710902271.XA
Other languages
English (en)
Inventor
陈立鑫
颜成钢
张永兵
朱翱宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201710902271.XA priority Critical patent/CN107734333A/zh
Publication of CN107734333A publication Critical patent/CN107734333A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/521Processing of motion vectors for estimating the reliability of the determined motion vectors or motion vector field, e.g. for smoothing the motion vector field or for correcting motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种利用生成网络提高视频错误隐藏效果的方法。本发明基于H.264标准的错误隐藏技术的基础之上,通过构造一个CNN结构的网络G,将修复后16*16大小的宏块经过G处理以实现提高其PSNR的目的。另外我们在G网络中将输入图像直接映射到输出图像之前,将其与网络拟合的残差相加,得到最终的输出,值得注意的是本方法只针对H.264标准,不适合其他视频编码标准。本发明相能够使网络收敛更快,更快更好地得到训练结果。深度神经网络在图像处理中是高效的工具,在帧间隐藏技术基础上加入神经网络能提高修复后宏块的psnr值,使整张图片的质量更高,视频的错误隐藏效果也就越好。

Description

一种利用生成网络提高视频错误隐藏效果的方法
技术领域
本发明涉及深度神经网络领域和基于H.264标准的视频错误隐藏领域,尤其涉及CNN结构网络和残差结构。
技术背景
人们对视频质量的要求在不断提高,伴着信息量的增长和高密度的存储的迫切需求,在传输过程中视频编码压缩技术变得非常重要,视频压缩技术主要利用一定的算法去除视频中的时间和空间等冗余,这样能在一定程度上压缩视频的大小,但是要以一定量的信息丢失为代价。现在主流的视频压缩标准分为H.26X和MPEG.X系列。前者主要注重提高压缩性能,后者追求在应用层面上各种功能的添加。目前H.264压缩标准因为其具有极高的压缩性能而被普遍采用,但是因为丢弃了许多的冗余信息,导致其容错能力大幅降低,任何一个比特的错误不仅可能破坏当前帧,还可能造成错误扩散,导致后续视频帧质量的严重下降。由于信道传输的本身差错和延时性,在视频编码压缩传输过程中数据会不可避免地丢失一部分,因此许多修正错误保障视频质量的方法应运而生。包括自动重传请求方法、在编码端进行错误隐藏等。自动重传请求方法利用接收端与发送端的通信,将出错序列重新发送,不过这样要额外占据一部分的信道,不利于信息的高速传播。另一方面由于解码端错误隐藏技术不需要占据信道且没有延时,格外受到人们重视。解码段错误隐藏是指在解码端将出现错误的帧进行修复,目前分为帧间错误隐藏和帧内错误隐藏,前者利用时间相关性,通过先前已经正确接收到的图像帧来恢复当前丢失的图像帧信息。后者则是利用空间上的相关性,通过一帧内已经接收到的宏块来恢复丢失宏块的信息。帧间隐藏适合于画面变化较慢的视频,解决办法是在参考帧中找到与丢失宏块相同的位置,将该宏块乘上最优运动矢量后拷贝至出错区域,该矢量选自运动矢量集,矢量集中包括①当前帧中丢失宏块的上、下、左、右4个相邻块的运动矢量,4个相邻宏块运动矢量的均值和中值以及零运动矢量②第一参考帧中与当前帧丢失宏块处在相同位置宏块运动矢量以及周围上、下、左、右4 个相邻宏块运动矢量③第二参考帧中与当前帧丢失宏块处在相同位置宏块周围上、下、左、右4个相邻宏块运动矢量中值和均值。从中选择一个使得受损宏块外边界像素与运动补偿块外边界像素误差和最小的向量作为最优向量。帧内隐藏的方法:根据画面中纹理的复杂程度和边缘信息的丰富程度选择基于边缘检测错误隐藏算法或者空间像素加权平均算法。两种帧内隐藏都能获得不错的效果,但是修复质量和正常帧还是由一定的差距。
另外,最近新发明的深度残差学习结构能够解决深度神经网络在训练过程中准确度随网络层数增加而下降的问题,使得网络层数增加的同时错误率减小,也因此提高了网络提取特征的水平。残差网络中最革新的一点是--它没有选择去拟合原始的函数H(x),而是拟合H(x)的残差函数--F(x)=H(x)-x, 这样做能使得拟合过程更简单,解决了梯度问题,最后实现空前的效果。
在神经网络领域,基于对抗生成神经网络的图像超分辨率技术可以得到良好的效果,在《Photo-Realistic Single Image Super-Resolution Using a GenerativeAdversarial Network》这篇论文中,作者构造了SRGAN(超辨率生成对抗神经网络模型),并且通过大量的数据集,使网络学会了将一张低分辨率的图象提高为高分辨率图象,与一般的超分辨率技术相比SRGAN生成图象的PSNR(峰值信噪比)更高,这意味着图片的质量更高。另外传统的以MSE(均方误差)为损失函数的技术所得到的图象像素过于平滑,局部纹理细节较少,虽然在PSNR上较低画质图象有很大提升,但在视觉感受上并没有期望的区别,而在SRGAN中构造了一个对抗鉴别模型,并抛弃了传统的损失函数转而将内容损失函数和对抗损失函数结合为感知损失函数,使得生成的图象纹理细节更多,让人们在视觉感知上有了更强的感受。运用了其中生成网络G被构造成一个前传的CNN网络,将数据集中的高分辨率图象IHR经过高斯滤波之后再经过下采样得到一个对应的低分辨率的图像ILR。将该图像首先经过了一个卷积层,这里用到64个大小为3*3的卷积核,且卷积核的步长为1,得到了64个特征图.接着在经过激活层后,将得到的数据命名为x,传统的网络直接将 x输入后面的网络中得到H(x),但是论文的作者在网络中加入了残差结构,转而将残差F(x)=H(x)-x输入到后续网络中,并定义损失函数,反向传递误差调整并得到最优的F(x),然后将F(x)与x相加得到H(x),经过后续一系列的操作后得到了高分辨率的图象。值得注意的是,在提高图像的PSNR上,单独使用生成网络G比使用对抗生成网络的效果要好。这创新的模型启发了我们借鉴SRGAN中的生成结构G来提高错误隐藏修复图像的质量,以实现更高水平的视频错误隐藏。
发明内容
虽然传统的帧间错误隐藏能够较为完好地修复丢失宏块,使其在很大程度上与真实图像相似,但是修复后的图象质量并没有像人们所期待的那样高,因此我们决定在基于H.264标准的错误隐藏技术的基础之上,通过构造一个 CNN结构的网络G,将修复后16*16大小的宏块经过G处理以实现提高其PSNR 的目的。另外我们在G网络中将输入图像直接映射到输出图像之前,将其与网络拟合的残差相加,得到最终的输出,这样做有利于收敛,更快更好地训练网络。值得注意的是本方法只针对H.264标准,不适合其他视频编码标准。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:根据FMO(编码端宏块重排模式)找到一张图像中丢失的宏块。因为帧内隐藏需要以丢失宏块上下左右的宏块作为参考宏块,为了方便编码码端进行错误隐藏,在H.264编码器JM86中存在一个编码端宏块重排模式--FMO,编码端宏块重排模式将一张图片的不同宏块重排并映射到不同的片组之中,这样一个片组丢失了,传送后的出错图象只会丢失一部份宏块,而丢失宏块附近的参考宏块一般不会丢失。因此我们就能够根据FMO模式知道具体哪一些宏块丢失了。
步骤2:通过改进的边界匹配算法,选取最优的参考帧运动补偿块。
2-1.选取参考帧。
在H.264标准中编码器选取5个帧作为当前帧的参考帧,解码时缓存中也会存储当前帧的参考帧。选取多个参考帧,参考帧越多得到的效果越好;但是过多的参考帧会增加计算的复杂度减慢计算的速度,因此我们选取两个参考帧并命名为第一、第二参考帧,分别在两个参考帧中找到使SAD(详见公式1)最小的运动矢量mv1、mv2,接着比较这两个运动矢量对应的SAD1、SAD2,若SAD1小于SAD2则选取mv1为最优运动矢量,这一过程在图1有抽象表示。
2-2.选取运动矢量集。
矢量集中包括:
①当前帧中丢失宏块的上、下、左、右4个相邻宏块的运动矢量,4个相邻宏块运动矢量的均值和中值以及零运动矢量;
②第一参考帧中与当前帧丢失宏块处在相同位置宏块的运动矢量以及其上、下、左、右4个相邻宏块运动矢量;
③第二参考帧中与当前帧丢失宏块处在相同位置宏块其上、下、左、右 4个相邻宏块运动矢量中值和均值。选取的运动矢量与丢失宏块的关联很大,且矢量集含有大量的运动矢量,得到最优的运动矢量的慨率很大。
2-3.找到运动矢量集中最优的运动矢量对应的运动补偿块。依据(1)式判断运动矢量是否为最优的:
SADk=min(DU+DD+DL+DR) (1)
其中k=1、k=2分别表示第一参考帧和第二参考帧,DU、DD、DL、DR分别代表丢失宏块与运动补偿块的上下左右外边界元素差值总和:
其中m、n分别表示丢失宏块的长和高(这里m=n=16),当j=0表示最邻近的一层外边界,当j=1时表示第二层外边界,如图2所示。f(x,y)和f'(x,y)分别表示丢失宏块(x,y)点的像素值和参考帧对应宏块在(x,y)点的像素值。vx、vy分别表示运动矢量的水平分量和垂直分量。这样在遍历了所有的运动矢量之后,能找到一个使偏差(DU+DD+DL+DR)最小的最优运动矢量。
2-4.在最优运动矢量确定后,找到对应的匹配块。该匹配块是最优匹配块,若直接将其放回损坏帧中,所得到的图像的PSNR值要比零运动矢量算法和传统的边界匹配算法要高。
步骤3:构造生成网络G,将经过错误隐藏的丢失宏块(即最优补偿块)IE 输入到神经网络中并训练,将原始的未损坏视频中的对应宏块IR与网络输出做对比,并将误差反向传播,在多次调整后得到最优的修复效果。具体步骤如下:
3-1.构造一个CNN网络G。
将输入图像映射到网络中最后一个卷积层,然后将其与最后的卷积层元素相加,得到最后的输出。因此,接下来的一个卷积层和激活函数层所处理的并不是输入图像,而是原始宏块与输出宏块的残差。在第一个卷积层用64 个大小为3*3的卷积核,将卷积核的步长设为1,得到64个特征图;接着经过激活层后构造残差板块,残差板块中含有十个残差网络结构,每一个结构中有六层,分别是卷积层、批量归一化层、激活函数层、卷积层、批量归一化层、元素相加层,每一次数据通过一个残差网络结构前,先将数据映射到残差网络结构中的元素相加层,将其与之前层拟合的残差进行元素相加。另外进入残差板块前,先将数据映射到残差板块后的元素相加层,将残差板块拟合的残差经过卷积和归一化之后与之元素相加。然后再将相加后的结果通过卷积,得到16*16*3的卷积层,将其与输入图象相加,从而得到输出。
3-2.定义损失函数LG,该损失函数LG所得结果是原始未损坏宏块IR和经过网络处理后的宏块G(IE)的均方误差,如式(6)所示:
其中,m′、n′分别表示输出宏块的长和高(这里m′=n′=16),分别表示未损坏宏块在(x,y)点的像素值和经过网络处理后的宏块在(x,y)点的像素值。
3-3.根据损失函数反向传播误差调整网络参数θG,这里θG={W1:L;b1:L}表示一层的权重和偏移量,N表示网络中输入宏块的个数,即:
3-4.反复执行步骤3-2和3-3,直至误差变化率不变或小于设定阈值。
步骤4:应用训练好的网络,将错误隐藏的宏块输入网络,得到高质量的宏块,并将处理过的宏块返回到对应帧当中,实现错误隐藏。
本发明有益效果如下:
1.相较于srgan网络中的生成网络,我们在输入图像和输出之间建立跨层连接,此结构能够使网络收敛更快,更快更好地得到训练结果。
2.深度神经网络在图像处理中是高效的工具,在帧间隐藏技术基础上加入神经网络能提高修复后宏块的psnr值,使整张图片的质量更高,视频的错误隐藏效果也就越好。
附图说明
图1:当前帧与参考帧;
图2:丢失块与补偿块的外边界;
图3:生成神经网络结构示意图,其中卷积层中n表示特征图个数,s表示步长。
具体实施方式
下面结合具体实施方式对本发明进行详细的说明。
步骤1:根据FMO(编码端宏块重排模式)找到一张图像中丢失的宏块。因为帧内隐藏需要以丢失宏块上下左右的宏块作为参考宏块,为了方便编码码端进行错误隐藏,在H.264编码器JM86中存在一个编码端宏块重排模式--FMO,编码端宏块重排模式将一张图片的不同宏块重排并映射到不同的片组之中,这样一个片组丢失了,传送后的出错图象只会丢失一部份宏块,而丢失宏块附近的参考宏块一般不会丢失。因此我们就能够根据FMO模式知道具体哪一些宏块丢失了。
步骤2:通过改进的边界匹配算法,选取最优的参考帧运动补偿块。
2-1.选取参考帧。
在H.264标准中编码器选取5个帧作为当前帧的参考帧,解码时缓存中也会存储当前帧的参考帧。选取多个参考帧,参考帧越多得到的效果越好;但是过多的参考帧会增加计算的复杂度减慢计算的速度,因此选取两个参考帧,并命名为第一、第二参考帧,分别在两个参考帧中找到使SAD(详见公式 1)最小的运动矢量mv1、mv2,接着比较这两个运动矢量对应的SAD1、SAD2,若SAD1小于SAD2则选取mv1为最优运动矢量,这一过程在图1有抽象表示。
2-2.选取运动矢量集。
矢量集中包括:
①当前帧中丢失宏块的上、下、左、右4个相邻宏块的运动矢量,4个相邻宏块运动矢量的均值和中值以及零运动矢量;
②第一参考帧中与当前帧丢失宏块处在相同位置宏块的运动矢量以及其上、下、左、右4个相邻宏块运动矢量;
③第二参考帧中与当前帧丢失宏块处在相同位置宏块其上、下、左、右 4个相邻宏块运动矢量中值和均值。选取的运动矢量与丢失宏块的关联很大,且矢量集含有大量的运动矢量,得到最优的运动矢量的慨率很大。
2-3.找到运动矢量集中最优的运动矢量对应的运动补偿块。依据(1)式判断运动矢量是否为最优的:
SADk=min(DU+DD+DL+DR) (1)
其中k=1、k=2分别表示第一参考帧和第二参考帧,DU、DD、DL、DR分别代表丢失宏块与运动补偿块的上下左右外边界元素差值总和:
其中m、n分别表示丢失宏块的长和高(这里m=n=16),当j=0表示最邻近的一层外边界,当j=1时表示第二层外边界,如图2所示。f(x,y)和f'(x,y)分别表示丢失宏块(x,y)点的像素值和参考帧对应宏块在(x,y)点的像素值。vx、vy分别表示运动矢量的水平分量和垂直分量。这样在遍历了所有的运动矢量之后,能找到一个使偏差(DU+DD+DL+DR)最小的最优运动矢量。
2-4.在最优运动矢量确定后,找到对应的匹配块。该匹配块是最优匹配块,若直接将其放回损坏帧中,所得到的图像的PSNR值要比零运动矢量算法和传统的边界匹配算法要高。
步骤3:构造生成网络G,将经过错误隐藏的丢失宏块(即最优补偿块)IE 输入到神经网络中并训练,将原始的未损坏视频中的对应宏块IR与网络输出做对比,并将误差反向传播,在多次调整后得到最优的修复效果。具体步骤如下:
3-1.构造一个CNN网络G。
将输入图象映射到网络中最后一个卷积层,然后将其与最后的卷积层元素相加,得到最后的输出。因此,接下来的一个卷积层和激活函数层所处理的并不是输入图像,而是原始宏块与输出宏块的残差。在第一个卷积层用64 个大小为3*3的卷积核,将卷积核的步长设为1,得到64个特征图;接着经过激活层后构造残差板块,残差板块中含有十个残差网络结构,每一个结构中有六层,分别是卷积层、批量归一化层、激活函数层、卷积层、批量归一化层、元素相加层,每一次数据通过一个残差网络结构前,先将数据映射到残差网络结构中的元素相加层,将其与之前层拟合的残差进行元素相加。另外进入残差板块前,先将数据映射到残差板块后的元素相加层,将残差板块拟合的残差经过卷积和归一化之后与之元素相加。然后再将相加后的结果通过卷积,得到16*16*3的卷积层,将其与输入图象相加,从而得到输出。
3-2.定义损失函数LG,该损失函数LG所得结果是原始未损坏宏块IR和经过网络处理后的宏块G(IE)的均方误差,如式(6)所示:
其中,m′、n′分别表示输出宏块的长和高(这里m′=n′=16),分别表示未损坏宏块在(x,y)点的像素值和经过网络处理后的宏块在(x,y)点的像素值。
3-3.根据损失函数反向传播误差调整网络参数θG,这里θG={W1:L;b1:L}表示一层的权重和偏移量,N表示网络中输入宏块的个数,即:
3-4.反复执行步骤3-2和3-3,直至误差变化率不变或小于一定程度。
步骤4:应用训练好的网络,将错误隐藏的宏块输入网络,得到高质量的宏块,并将处理过的宏块返回到对应帧当中,实现错误隐藏。

Claims (2)

1.一种利用生成网络提高视频错误隐藏效果的方法,其特征在于包括如下步骤:
步骤1:根据FMO找到一张图像中丢失的宏块;
步骤2:通过改进的边界匹配算法,选取最优的参考帧运动补偿块;
步骤3:构造生成网络G,将经过错误隐藏的丢失宏块IE输入到神经网络中并训练,将原始的未损坏视频中的对应宏块IR与网络输出做对比,并将误差反向传播,在多次调整后得到最优的修复效果;
步骤4:应用训练好的网络,将错误隐藏的宏块输入网络,得到高质量的宏块,并将处理过的宏块返回到对应帧当中,实现错误隐藏;
步骤2所述的通过改进的边界匹配算法,选取最优的参考帧运动补偿块,具体实现如下:
2-1.选取参考帧;
在H.264标准中编码器选取5个帧作为当前帧的参考帧,解码时缓存中也会存储当前帧的参考帧;从5个参考帧中选取两个参考帧并命名为第一、第二参考帧,分别在两个参考帧中找到使SAD最小的运动矢量mv1、mv2,比较这两个运动矢量对应的SAD1、SAD2,若SAD1小于SAD2则选取mv1为最优运动矢量;
2-2.选取运动矢量集;
矢量集中包括:
①当前帧中丢失宏块的上、下、左、右4个相邻宏块的运动矢量,4个相邻宏块运动矢量的均值和中值以及零运动矢量;
②第一参考帧中与当前帧丢失宏块处在相同位置宏块的运动矢量以及其上、下、左、右4个相邻宏块运动矢量;
③第二参考帧中与当前帧丢失宏块处在相同位置宏块其上、下、左、右4个相邻宏块运动矢量中值和均值;选取的运动矢量与丢失宏块的关联很大,且矢量集含有大量的运动矢量,得到最优的运动矢量的慨率很大;
2-3.找到运动矢量集中最优的运动矢量对应的运动补偿块;依据(1)式判断运动矢量是否为最优的:
SADk=min(DU+DD+DL+DR) (1)
其中k=1、k=2分别表示第一参考帧和第二参考帧,DU、DD、DL、DR分别代表丢失宏块与运动补偿块的上下左右外边界元素差值总和:
<mrow> <msub> <mi>D</mi> <mi>U</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>1</mn> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> </mrow> <mrow> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mo>|</mo> <mrow> <msub> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>-</mo> <mn>1</mn> <mo>-</mo> <mi>j</mi> <mo>)</mo> </mrow> </msub> <mo>-</mo> <msubsup> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>x</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>-</mo> <mn>1</mn> <mo>-</mo> <mi>j</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;prime;</mo> </msubsup> </mrow> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>D</mi> <mi>D</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>1</mn> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> </mrow> <mrow> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mo>|</mo> <mrow> <msub> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>n</mi> <mo>+</mo> <mi>j</mi> <mo>)</mo> </mrow> </msub> <mo>-</mo> <msubsup> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>x</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>n</mi> <mo>+</mo> <mi>j</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;prime;</mo> </msubsup> </mrow> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>D</mi> <mi>L</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>1</mn> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> </mrow> <mrow> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mo>|</mo> <mrow> <msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>-</mo> <mn>1</mn> <mo>-</mo> <mi>j</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> </msub> <mo>-</mo> <msubsup> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>-</mo> <mn>1</mn> <mo>-</mo> <mi>j</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>x</mi> </msub> <mo>,</mo> <mi>i</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;prime;</mo> </msubsup> </mrow> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>D</mi> <mi>R</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>1</mn> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> </mrow> <mrow> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mo>|</mo> <mrow> <msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>n</mi> <mo>+</mo> <mi>j</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> </msub> <mo>-</mo> <msubsup> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>n</mi> <mo>+</mo> <mi>j</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>x</mi> </msub> <mo>,</mo> <mi>i</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;prime;</mo> </msubsup> </mrow> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
其中m、n分别表示丢失宏块的长和高,当j=0表示最邻近的一层外边界,当j=1时表示第二层外边界,f(x,y)和f'(x,y)分别表示丢失宏块(x,y)点的像素值和参考帧对应宏块在(x,y)点的像素值;vx、vy分别表示运动矢量的水平分量和垂直分量;在遍历了所有的运动矢量之后,能找到一个使偏差(DU+DD+DL+DR)最小的最优运动矢量;
2-4.在最优运动矢量确定后,找到对应的匹配块;该匹配块是最优匹配块,若直接将其放回损坏帧中,所得到的图像的PSNR值要比零运动矢量算法和传统的边界匹配算法要高。
2.根据权利要求1所述的一种利用生成网络提高视频错误隐藏效果的方法,其特征在于步骤3具体实现如下:
3-1.构造一个CNN网络G;
将输入图像映射到网络中最后一个卷积层,然后将其与最后的卷积层元素相加,得到最后的输出;因此,接下来的一个卷积层和激活函数层所处理的并不是输入图像,而是原始宏块与输出宏块的残差;在第一个卷积层用64个大小为3*3的卷积核,将卷积核的步长设为1,得到64个特征图;接着经过激活层后构造残差板块,残差板块中含有十个残差网络结构,每一个结构中有六层,分别是卷积层、批量归一化层、激活函数层、卷积层、批量归一化层、元素相加层,每一次数据通过一个残差网络结构前,先将数据映射到残差网络结构中的元素相加层,将其与之前层拟合的残差进行元素相加;另外进入残差板块前,先将数据映射到残差板块后的元素相加层,将残差板块拟合的残差经过卷积和归一化之后与之元素相加;然后再将相加后的结果通过卷积,得到16*16*3的卷积层,将其与输入图象相加,从而得到输出;
3-2.定义损失函数LG,该损失函数LG所得结果是原始未损坏宏块IR和经过网络处理后的宏块G(IE)的均方误差,如式(6)所示:
<mrow> <msubsup> <mi>l</mi> <mrow> <mi>M</mi> <mi>S</mi> <mi>E</mi> </mrow> <mi>G</mi> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msup> <mi>m</mi> <mo>&amp;prime;</mo> </msup> <mo>&amp;times;</mo> <msup> <mi>n</mi> <mo>&amp;prime;</mo> </msup> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>m</mi> <mo>&amp;prime;</mo> </msup> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>n</mi> <mo>&amp;prime;</mo> </msup> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>I</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mi>R</mi> </msubsup> <mo>-</mo> <msub> <mi>G</mi> <msub> <mi>&amp;theta;</mi> <mi>G</mi> </msub> </msub> <msub> <mrow> <mo>(</mo> <msup> <mi>I</mi> <mi>E</mi> </msup> <mo>)</mo> </mrow> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>
其中,m′、n′分别表示输出宏块的长和高(这里m=n=16),分别表示未损坏宏块在(x,y)点的像素值和经过网络处理后的宏块在(x,y)点的像素值;
3-3.根据损失函数反向传播误差调整网络参数θG,这里θG={W1:L;b1:L}表示一层的权重和偏移量,N表示网络中输入宏块的个数,即:
<mrow> <msub> <mover> <mi>&amp;theta;</mi> <mo>^</mo> </mover> <mi>G</mi> </msub> <mo>=</mo> <mi>arg</mi> <munder> <mi>min</mi> <msub> <mi>&amp;theta;</mi> <mi>G</mi> </msub> </munder> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mi>l</mi> <mi>G</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>G</mi> <msub> <mi>&amp;theta;</mi> <mi>G</mi> </msub> </msub> <mo>(</mo> <msubsup> <mi>I</mi> <mi>n</mi> <mi>E</mi> </msubsup> <mo>)</mo> <mo>,</mo> <msubsup> <mi>I</mi> <mi>n</mi> <mi>R</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>
3-4.反复执行步骤3-2和3-3,直至误差变化率不变或小于设定阈值。
CN201710902271.XA 2017-09-29 2017-09-29 一种利用生成网络提高视频错误隐藏效果的方法 Pending CN107734333A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710902271.XA CN107734333A (zh) 2017-09-29 2017-09-29 一种利用生成网络提高视频错误隐藏效果的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710902271.XA CN107734333A (zh) 2017-09-29 2017-09-29 一种利用生成网络提高视频错误隐藏效果的方法

Publications (1)

Publication Number Publication Date
CN107734333A true CN107734333A (zh) 2018-02-23

Family

ID=61208921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710902271.XA Pending CN107734333A (zh) 2017-09-29 2017-09-29 一种利用生成网络提高视频错误隐藏效果的方法

Country Status (1)

Country Link
CN (1) CN107734333A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388925A (zh) * 2018-03-06 2018-08-10 天津工业大学 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法
CN110351558A (zh) * 2018-04-03 2019-10-18 朱政 一种基于强化学习的视频图像编码压缩效率提升方法
CN110351561A (zh) * 2018-04-03 2019-10-18 朱政 一种用于视频编码优化的高效强化学习训练方法
CN110392264A (zh) * 2019-08-26 2019-10-29 中国科学技术大学 一种基于神经网络的对齐外插帧方法
CN110570877A (zh) * 2019-07-25 2019-12-13 咪咕文化科技有限公司 手语视频生成方法、电子设备及计算机可读存储介质
CN111464815A (zh) * 2020-04-17 2020-07-28 中国科学技术大学 一种基于神经网络的视频编码方法及系统
CN112715027A (zh) * 2018-06-19 2021-04-27 索尼互动娱乐股份有限公司 神经网络驱动型编解码器
CN115100080A (zh) * 2022-08-24 2022-09-23 中南大学 一种视频图像的fmo错误隐藏方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005311512A (ja) * 2004-04-19 2005-11-04 Toshiba Corp エラーコンシールメント方法及び復号器
CN101019437A (zh) * 2004-07-15 2007-08-15 高通股份有限公司 基于帧内预测方向的h.264空间错误隐藏
CN106101726A (zh) * 2016-07-22 2016-11-09 福建师范大学 一种时空域相结合的自适应错误隐藏修复方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005311512A (ja) * 2004-04-19 2005-11-04 Toshiba Corp エラーコンシールメント方法及び復号器
CN101019437A (zh) * 2004-07-15 2007-08-15 高通股份有限公司 基于帧内预测方向的h.264空间错误隐藏
CN106101726A (zh) * 2016-07-22 2016-11-09 福建师范大学 一种时空域相结合的自适应错误隐藏修复方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHRISTIAN LEDIG ETC.: "Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network", 《 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
吴明坤,黄欢,邹坤,陈鸿: "基于H.264/AVC改进的时空域错误掩藏算法", 《云南大学学报(自然科学报)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388925A (zh) * 2018-03-06 2018-08-10 天津工业大学 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法
CN110351558B (zh) * 2018-04-03 2021-05-25 杭州微帧信息科技有限公司 一种基于强化学习的视频图像编码压缩效率提升方法
CN110351558A (zh) * 2018-04-03 2019-10-18 朱政 一种基于强化学习的视频图像编码压缩效率提升方法
CN110351561A (zh) * 2018-04-03 2019-10-18 朱政 一种用于视频编码优化的高效强化学习训练方法
CN110351561B (zh) * 2018-04-03 2021-05-07 杭州微帧信息科技有限公司 一种用于视频编码优化的高效强化学习训练方法
CN112715027B (zh) * 2018-06-19 2022-09-30 索尼互动娱乐股份有限公司 神经网络驱动型编解码器
CN112715027A (zh) * 2018-06-19 2021-04-27 索尼互动娱乐股份有限公司 神经网络驱动型编解码器
CN110570877A (zh) * 2019-07-25 2019-12-13 咪咕文化科技有限公司 手语视频生成方法、电子设备及计算机可读存储介质
CN110570877B (zh) * 2019-07-25 2022-03-22 咪咕文化科技有限公司 手语视频生成方法、电子设备及计算机可读存储介质
CN110392264A (zh) * 2019-08-26 2019-10-29 中国科学技术大学 一种基于神经网络的对齐外插帧方法
CN110392264B (zh) * 2019-08-26 2022-10-28 中国科学技术大学 一种基于神经网络的对齐外插帧方法
CN111464815B (zh) * 2020-04-17 2021-04-23 中国科学技术大学 一种基于神经网络的视频编码方法及系统
CN111464815A (zh) * 2020-04-17 2020-07-28 中国科学技术大学 一种基于神经网络的视频编码方法及系统
CN115100080A (zh) * 2022-08-24 2022-09-23 中南大学 一种视频图像的fmo错误隐藏方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN107734333A (zh) 一种利用生成网络提高视频错误隐藏效果的方法
CN110351568A (zh) 一种基于深度卷积网络的视频环路滤波器
CN107463989B (zh) 一种基于深度学习的图像去压缩伪影方法
CN106683067B (zh) 一种基于残差子图像的深度学习超分辨率重建方法
CN107018422B (zh) 基于深度卷积神经网络的静止图像压缩方法
CN111784619B (zh) 一种红外和可见光图像的融合方法
CN108921910B (zh) 基于可伸缩卷积神经网络的jpeg编码压缩图像复原的方法
CN107613299A (zh) 一种利用生成网络提高帧速率上转换效果的方法
CN111861961A (zh) 单幅图像超分辨率的多尺度残差融合模型及其复原方法
CN107507141A (zh) 一种基于自适应残差神经网络的图像复原方法
CN110136057B (zh) 一种图像超分辨率重建方法、装置及电子设备
CN107481278A (zh) 基于混合框架的图像位深度扩展方法及装置
CN112017116B (zh) 基于非对称卷积的图像超分辨率重建网络及其构建方法
CN107085833A (zh) 基于梯度倒数自适应开关均中值融合的遥感图像滤波方法
CN110084745A (zh) 基于并联的稠密卷积神经网络的图像超分辨率重建方法
WO2023185284A1 (zh) 视频处理方法和装置
CN109118428A (zh) 一种基于特征增强的图像超分辨率重建方法
CN110223224A (zh) 一种基于信息过滤网络的图像超分辨实现算法
CN103903240B (zh) 基于多输出最小二乘支持向量回归的图像超分辨方法
CN116681621A (zh) 一种基于特征融合及复用的人脸图像修复方法
CN103761753B (zh) 基于纹理图像相似性的解压缩方法
CN111723735A (zh) 一种基于卷积神经网络的伪高码率hevc视频检测方法
CN110738616A (zh) 一种具有细节信息学习能力的图像去噪方法
CN106658024A (zh) 一种快速的视频编码方法
CN105915886B (zh) 一种基于视频压缩域的深度图推理算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yan Chenggang

Inventor after: Chen Lixin

Inventor after: Zhang Yongbing

Inventor after: Zhu Aoyu

Inventor before: Chen Lixin

Inventor before: Yan Chenggang

Inventor before: Zhang Yongbing

Inventor before: Zhu Aoyu

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180223

RJ01 Rejection of invention patent application after publication