CN107734333A

CN107734333A - 一种利用生成网络提高视频错误隐藏效果的方法

Info

Publication number: CN107734333A
Application number: CN201710902271.XA
Authority: CN
Inventors: 陈立鑫; 颜成钢; 张永兵; 朱翱宇
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2018-02-23

Abstract

本发明公开了一种利用生成网络提高视频错误隐藏效果的方法。本发明基于H.264标准的错误隐藏技术的基础之上，通过构造一个CNN结构的网络G，将修复后16*16大小的宏块经过G处理以实现提高其PSNR的目的。另外我们在G网络中将输入图像直接映射到输出图像之前，将其与网络拟合的残差相加，得到最终的输出，值得注意的是本方法只针对H.264标准，不适合其他视频编码标准。本发明相能够使网络收敛更快，更快更好地得到训练结果。深度神经网络在图像处理中是高效的工具，在帧间隐藏技术基础上加入神经网络能提高修复后宏块的psnr值，使整张图片的质量更高，视频的错误隐藏效果也就越好。

Description

一种利用生成网络提高视频错误隐藏效果的方法

技术领域

本发明涉及深度神经网络领域和基于H.264标准的视频错误隐藏领域，尤其涉及CNN结构网络和残差结构。

技术背景

人们对视频质量的要求在不断提高，伴着信息量的增长和高密度的存储的迫切需求，在传输过程中视频编码压缩技术变得非常重要，视频压缩技术主要利用一定的算法去除视频中的时间和空间等冗余，这样能在一定程度上压缩视频的大小，但是要以一定量的信息丢失为代价。现在主流的视频压缩标准分为H.26X和MPEG.X系列。前者主要注重提高压缩性能，后者追求在应用层面上各种功能的添加。目前H.264压缩标准因为其具有极高的压缩性能而被普遍采用，但是因为丢弃了许多的冗余信息，导致其容错能力大幅降低，任何一个比特的错误不仅可能破坏当前帧，还可能造成错误扩散，导致后续视频帧质量的严重下降。由于信道传输的本身差错和延时性，在视频编码压缩传输过程中数据会不可避免地丢失一部分，因此许多修正错误保障视频质量的方法应运而生。包括自动重传请求方法、在编码端进行错误隐藏等。自动重传请求方法利用接收端与发送端的通信，将出错序列重新发送，不过这样要额外占据一部分的信道，不利于信息的高速传播。另一方面由于解码端错误隐藏技术不需要占据信道且没有延时，格外受到人们重视。解码段错误隐藏是指在解码端将出现错误的帧进行修复，目前分为帧间错误隐藏和帧内错误隐藏，前者利用时间相关性，通过先前已经正确接收到的图像帧来恢复当前丢失的图像帧信息。后者则是利用空间上的相关性，通过一帧内已经接收到的宏块来恢复丢失宏块的信息。帧间隐藏适合于画面变化较慢的视频，解决办法是在参考帧中找到与丢失宏块相同的位置，将该宏块乘上最优运动矢量后拷贝至出错区域，该矢量选自运动矢量集，矢量集中包括①当前帧中丢失宏块的上、下、左、右4个相邻块的运动矢量，4个相邻宏块运动矢量的均值和中值以及零运动矢量②第一参考帧中与当前帧丢失宏块处在相同位置宏块运动矢量以及周围上、下、左、右4 个相邻宏块运动矢量③第二参考帧中与当前帧丢失宏块处在相同位置宏块周围上、下、左、右4个相邻宏块运动矢量中值和均值。从中选择一个使得受损宏块外边界像素与运动补偿块外边界像素误差和最小的向量作为最优向量。帧内隐藏的方法：根据画面中纹理的复杂程度和边缘信息的丰富程度选择基于边缘检测错误隐藏算法或者空间像素加权平均算法。两种帧内隐藏都能获得不错的效果，但是修复质量和正常帧还是由一定的差距。

另外，最近新发明的深度残差学习结构能够解决深度神经网络在训练过程中准确度随网络层数增加而下降的问题，使得网络层数增加的同时错误率减小，也因此提高了网络提取特征的水平。残差网络中最革新的一点是--它没有选择去拟合原始的函数H(x)，而是拟合H(x)的残差函数--F(x)＝H(x)-x, 这样做能使得拟合过程更简单，解决了梯度问题，最后实现空前的效果。

在神经网络领域，基于对抗生成神经网络的图像超分辨率技术可以得到良好的效果，在《Photo-Realistic Single Image Super-Resolution Using a GenerativeAdversarial Network》这篇论文中，作者构造了SRGAN(超辨率生成对抗神经网络模型)，并且通过大量的数据集，使网络学会了将一张低分辨率的图象提高为高分辨率图象，与一般的超分辨率技术相比SRGAN生成图象的PSNR(峰值信噪比)更高，这意味着图片的质量更高。另外传统的以MSE(均方误差)为损失函数的技术所得到的图象像素过于平滑，局部纹理细节较少，虽然在PSNR上较低画质图象有很大提升，但在视觉感受上并没有期望的区别，而在SRGAN中构造了一个对抗鉴别模型，并抛弃了传统的损失函数转而将内容损失函数和对抗损失函数结合为感知损失函数，使得生成的图象纹理细节更多，让人们在视觉感知上有了更强的感受。运用了其中生成网络G被构造成一个前传的CNN网络，将数据集中的高分辨率图象I^HR经过高斯滤波之后再经过下采样得到一个对应的低分辨率的图像I^LR。将该图像首先经过了一个卷积层，这里用到64个大小为3*3的卷积核，且卷积核的步长为1，得到了64个特征图.接着在经过激活层后，将得到的数据命名为x，传统的网络直接将 x输入后面的网络中得到H(x)，但是论文的作者在网络中加入了残差结构，转而将残差F(x)＝H(x)-x输入到后续网络中，并定义损失函数，反向传递误差调整并得到最优的F(x)，然后将F(x)与x相加得到H(x),经过后续一系列的操作后得到了高分辨率的图象。值得注意的是，在提高图像的PSNR上，单独使用生成网络G比使用对抗生成网络的效果要好。这创新的模型启发了我们借鉴SRGAN中的生成结构G来提高错误隐藏修复图像的质量，以实现更高水平的视频错误隐藏。

发明内容

虽然传统的帧间错误隐藏能够较为完好地修复丢失宏块，使其在很大程度上与真实图像相似，但是修复后的图象质量并没有像人们所期待的那样高，因此我们决定在基于H.264标准的错误隐藏技术的基础之上，通过构造一个 CNN结构的网络G，将修复后16*16大小的宏块经过G处理以实现提高其PSNR 的目的。另外我们在G网络中将输入图像直接映射到输出图像之前，将其与网络拟合的残差相加，得到最终的输出，这样做有利于收敛，更快更好地训练网络。值得注意的是本方法只针对H.264标准，不适合其他视频编码标准。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：根据FMO(编码端宏块重排模式)找到一张图像中丢失的宏块。因为帧内隐藏需要以丢失宏块上下左右的宏块作为参考宏块，为了方便编码码端进行错误隐藏，在H.264编码器JM86中存在一个编码端宏块重排模式--FMO，编码端宏块重排模式将一张图片的不同宏块重排并映射到不同的片组之中，这样一个片组丢失了，传送后的出错图象只会丢失一部份宏块，而丢失宏块附近的参考宏块一般不会丢失。因此我们就能够根据FMO模式知道具体哪一些宏块丢失了。

步骤2：通过改进的边界匹配算法，选取最优的参考帧运动补偿块。

2-1.选取参考帧。

在H.264标准中编码器选取5个帧作为当前帧的参考帧，解码时缓存中也会存储当前帧的参考帧。选取多个参考帧，参考帧越多得到的效果越好；但是过多的参考帧会增加计算的复杂度减慢计算的速度，因此我们选取两个参考帧并命名为第一、第二参考帧，分别在两个参考帧中找到使SAD(详见公式1)最小的运动矢量mv1、mv2，接着比较这两个运动矢量对应的SAD1、SAD2，若SAD1小于SAD2则选取mv1为最优运动矢量，这一过程在图1有抽象表示。

2-2.选取运动矢量集。

矢量集中包括：

①当前帧中丢失宏块的上、下、左、右4个相邻宏块的运动矢量，4个相邻宏块运动矢量的均值和中值以及零运动矢量；

②第一参考帧中与当前帧丢失宏块处在相同位置宏块的运动矢量以及其上、下、左、右4个相邻宏块运动矢量；

③第二参考帧中与当前帧丢失宏块处在相同位置宏块其上、下、左、右 4个相邻宏块运动矢量中值和均值。选取的运动矢量与丢失宏块的关联很大，且矢量集含有大量的运动矢量，得到最优的运动矢量的慨率很大。

2-3.找到运动矢量集中最优的运动矢量对应的运动补偿块。依据(1)式判断运动矢量是否为最优的：

SAD_k＝min(D_U+D_D+D_L+D_R) (1)

其中k＝1、k＝2分别表示第一参考帧和第二参考帧，D_U、D_D、D_L、D_R分别代表丢失宏块与运动补偿块的上下左右外边界元素差值总和：

其中m、n分别表示丢失宏块的长和高(这里m＝n＝16)，当j＝0表示最邻近的一层外边界，当j＝1时表示第二层外边界，如图2所示。f_(x,y)和f'_(x,y)分别表示丢失宏块(x,y)点的像素值和参考帧对应宏块在(x,y)点的像素值。v_x、v_y分别表示运动矢量的水平分量和垂直分量。这样在遍历了所有的运动矢量之后，能找到一个使偏差(D_U+D_D+D_L+D_R)最小的最优运动矢量。

2-4.在最优运动矢量确定后，找到对应的匹配块。该匹配块是最优匹配块，若直接将其放回损坏帧中，所得到的图像的PSNR值要比零运动矢量算法和传统的边界匹配算法要高。

步骤3：构造生成网络G，将经过错误隐藏的丢失宏块(即最优补偿块)IE 输入到神经网络中并训练，将原始的未损坏视频中的对应宏块IR与网络输出做对比，并将误差反向传播，在多次调整后得到最优的修复效果。具体步骤如下：

3-1.构造一个CNN网络G。

将输入图像映射到网络中最后一个卷积层，然后将其与最后的卷积层元素相加，得到最后的输出。因此，接下来的一个卷积层和激活函数层所处理的并不是输入图像，而是原始宏块与输出宏块的残差。在第一个卷积层用64 个大小为3*3的卷积核，将卷积核的步长设为1，得到64个特征图；接着经过激活层后构造残差板块，残差板块中含有十个残差网络结构，每一个结构中有六层，分别是卷积层、批量归一化层、激活函数层、卷积层、批量归一化层、元素相加层，每一次数据通过一个残差网络结构前，先将数据映射到残差网络结构中的元素相加层,将其与之前层拟合的残差进行元素相加。另外进入残差板块前，先将数据映射到残差板块后的元素相加层，将残差板块拟合的残差经过卷积和归一化之后与之元素相加。然后再将相加后的结果通过卷积，得到16*16*3的卷积层，将其与输入图象相加，从而得到输出。

3-2.定义损失函数L^G，该损失函数L^G所得结果是原始未损坏宏块I^R和经过网络处理后的宏块G(I^E)的均方误差，如式(6)所示：

其中，m′、n′分别表示输出宏块的长和高(这里m′＝n′＝16),和分别表示未损坏宏块在(x,y)点的像素值和经过网络处理后的宏块在(x,y)点的像素值。

3-3.根据损失函数反向传播误差调整网络参数θ_G，这里θ_G＝{W_1：L；b_1:L}表示一层的权重和偏移量，N表示网络中输入宏块的个数，即：

3-4.反复执行步骤3-2和3-3，直至误差变化率不变或小于设定阈值。

步骤4：应用训练好的网络，将错误隐藏的宏块输入网络，得到高质量的宏块，并将处理过的宏块返回到对应帧当中，实现错误隐藏。

本发明有益效果如下：

1.相较于srgan网络中的生成网络，我们在输入图像和输出之间建立跨层连接，此结构能够使网络收敛更快，更快更好地得到训练结果。

2.深度神经网络在图像处理中是高效的工具，在帧间隐藏技术基础上加入神经网络能提高修复后宏块的psnr值，使整张图片的质量更高，视频的错误隐藏效果也就越好。

附图说明

图1：当前帧与参考帧；

图2：丢失块与补偿块的外边界；

图3：生成神经网络结构示意图,其中卷积层中n表示特征图个数，s表示步长。

具体实施方式

下面结合具体实施方式对本发明进行详细的说明。

2-1.选取参考帧。

在H.264标准中编码器选取5个帧作为当前帧的参考帧，解码时缓存中也会存储当前帧的参考帧。选取多个参考帧，参考帧越多得到的效果越好；但是过多的参考帧会增加计算的复杂度减慢计算的速度，因此选取两个参考帧，并命名为第一、第二参考帧，分别在两个参考帧中找到使SAD(详见公式 1)最小的运动矢量mv1、mv2，接着比较这两个运动矢量对应的SAD1、SAD2，若SAD1小于SAD2则选取mv1为最优运动矢量，这一过程在图1有抽象表示。

2-2.选取运动矢量集。

矢量集中包括：

SAD_k＝min(D_U+D_D+D_L+D_R) (1)

3-1.构造一个CNN网络G。

将输入图象映射到网络中最后一个卷积层，然后将其与最后的卷积层元素相加，得到最后的输出。因此，接下来的一个卷积层和激活函数层所处理的并不是输入图像，而是原始宏块与输出宏块的残差。在第一个卷积层用64 个大小为3*3的卷积核，将卷积核的步长设为1，得到64个特征图；接着经过激活层后构造残差板块，残差板块中含有十个残差网络结构，每一个结构中有六层，分别是卷积层、批量归一化层、激活函数层、卷积层、批量归一化层、元素相加层，每一次数据通过一个残差网络结构前，先将数据映射到残差网络结构中的元素相加层,将其与之前层拟合的残差进行元素相加。另外进入残差板块前，先将数据映射到残差板块后的元素相加层，将残差板块拟合的残差经过卷积和归一化之后与之元素相加。然后再将相加后的结果通过卷积，得到16*16*3的卷积层，将其与输入图象相加，从而得到输出。

3-4.反复执行步骤3-2和3-3，直至误差变化率不变或小于一定程度。

Claims

1.一种利用生成网络提高视频错误隐藏效果的方法，其特征在于包括如下步骤：

步骤1：根据FMO找到一张图像中丢失的宏块；

步骤2：通过改进的边界匹配算法，选取最优的参考帧运动补偿块；

步骤3：构造生成网络G，将经过错误隐藏的丢失宏块IE输入到神经网络中并训练，将原始的未损坏视频中的对应宏块IR与网络输出做对比，并将误差反向传播，在多次调整后得到最优的修复效果；

步骤4：应用训练好的网络，将错误隐藏的宏块输入网络，得到高质量的宏块，并将处理过的宏块返回到对应帧当中，实现错误隐藏；

步骤2所述的通过改进的边界匹配算法，选取最优的参考帧运动补偿块，具体实现如下：

2-1.选取参考帧；

在H.264标准中编码器选取5个帧作为当前帧的参考帧，解码时缓存中也会存储当前帧的参考帧；从5个参考帧中选取两个参考帧并命名为第一、第二参考帧，分别在两个参考帧中找到使SAD最小的运动矢量mv1、mv2，比较这两个运动矢量对应的SAD1、SAD2，若SAD1小于SAD2则选取mv1为最优运动矢量；

2-2.选取运动矢量集；

矢量集中包括：

③第二参考帧中与当前帧丢失宏块处在相同位置宏块其上、下、左、右4个相邻宏块运动矢量中值和均值；选取的运动矢量与丢失宏块的关联很大，且矢量集含有大量的运动矢量，得到最优的运动矢量的慨率很大；

2-3.找到运动矢量集中最优的运动矢量对应的运动补偿块；依据(1)式判断运动矢量是否为最优的：

SAD_k＝min(D_U+D_D+D_L+D_R) (1)

<mrow> <msub> <mi>D</mi> <mi>U</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>1</mn> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> </mrow> <mrow> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mo>|</mo> <mrow> <msub> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>-</mo> <mn>1</mn> <mo>-</mo> <mi>j</mi> <mo>)</mo> </mrow> </msub> <mo>-</mo> <msubsup> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>x</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>-</mo> <mn>1</mn> <mo>-</mo> <mi>j</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>&prime;</mo> </msubsup> </mrow> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>D</mi> <mi>D</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>1</mn> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> </mrow> <mrow> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mo>|</mo> <mrow> <msub> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>n</mi> <mo>+</mo> <mi>j</mi> <mo>)</mo> </mrow> </msub> <mo>-</mo> <msubsup> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>x</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>n</mi> <mo>+</mo> <mi>j</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>&prime;</mo> </msubsup> </mrow> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>D</mi> <mi>L</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>1</mn> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> </mrow> <mrow> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mo>|</mo> <mrow> <msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>-</mo> <mn>1</mn> <mo>-</mo> <mi>j</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> </msub> <mo>-</mo> <msubsup> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>-</mo> <mn>1</mn> <mo>-</mo> <mi>j</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>x</mi> </msub> <mo>,</mo> <mi>i</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>&prime;</mo> </msubsup> </mrow> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>D</mi> <mi>R</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>1</mn> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> </mrow> <mrow> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mo>|</mo> <mrow> <msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>n</mi> <mo>+</mo> <mi>j</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> </msub> <mo>-</mo> <msubsup> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>n</mi> <mo>+</mo> <mi>j</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>x</mi> </msub> <mo>,</mo> <mi>i</mi> <mo>+</mo> <msub> <mi>v</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>&prime;</mo> </msubsup> </mrow> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中m、n分别表示丢失宏块的长和高，当j＝0表示最邻近的一层外边界，当j＝1时表示第二层外边界，f_(x,y)和f'_(x,y)分别表示丢失宏块(x,y)点的像素值和参考帧对应宏块在(x,y)点的像素值；v_x、v_y分别表示运动矢量的水平分量和垂直分量；在遍历了所有的运动矢量之后，能找到一个使偏差(D_U+D_D+D_L+D_R)最小的最优运动矢量；

2-4.在最优运动矢量确定后，找到对应的匹配块；该匹配块是最优匹配块，若直接将其放回损坏帧中，所得到的图像的PSNR值要比零运动矢量算法和传统的边界匹配算法要高。

2.根据权利要求1所述的一种利用生成网络提高视频错误隐藏效果的方法，其特征在于步骤3具体实现如下：

3-1.构造一个CNN网络G；

将输入图像映射到网络中最后一个卷积层，然后将其与最后的卷积层元素相加，得到最后的输出；因此，接下来的一个卷积层和激活函数层所处理的并不是输入图像，而是原始宏块与输出宏块的残差；在第一个卷积层用64个大小为3*3的卷积核，将卷积核的步长设为1，得到64个特征图；接着经过激活层后构造残差板块，残差板块中含有十个残差网络结构，每一个结构中有六层，分别是卷积层、批量归一化层、激活函数层、卷积层、批量归一化层、元素相加层，每一次数据通过一个残差网络结构前，先将数据映射到残差网络结构中的元素相加层,将其与之前层拟合的残差进行元素相加；另外进入残差板块前，先将数据映射到残差板块后的元素相加层，将残差板块拟合的残差经过卷积和归一化之后与之元素相加；然后再将相加后的结果通过卷积，得到16*16*3的卷积层，将其与输入图象相加，从而得到输出；

<mrow> <msubsup> <mi>l</mi> <mrow> <mi>M</mi> <mi>S</mi> <mi>E</mi> </mrow> <mi>G</mi> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msup> <mi>m</mi> <mo>&prime;</mo> </msup> <mo>&times;</mo> <msup> <mi>n</mi> <mo>&prime;</mo> </msup> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>m</mi> <mo>&prime;</mo> </msup> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>n</mi> <mo>&prime;</mo> </msup> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>I</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mi>R</mi> </msubsup> <mo>-</mo> <msub> <mi>G</mi> <msub> <mi>&theta;</mi> <mi>G</mi> </msub> </msub> <msub> <mrow> <mo>(</mo> <msup> <mi>I</mi> <mi>E</mi> </msup> <mo>)</mo> </mrow> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

其中，m′、n′分别表示输出宏块的长和高(这里m＝n＝16),和分别表示未损坏宏块在(x,y)点的像素值和经过网络处理后的宏块在(x,y)点的像素值；

<mrow> <msub> <mover> <mi>&theta;</mi> <mo>^</mo> </mover> <mi>G</mi> </msub> <mo>=</mo> <mi>arg</mi> <munder> <mi>min</mi> <msub> <mi>&theta;</mi> <mi>G</mi> </msub> </munder> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mi>l</mi> <mi>G</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>G</mi> <msub> <mi>&theta;</mi> <mi>G</mi> </msub> </msub> <mo>(</mo> <msubsup> <mi>I</mi> <mi>n</mi> <mi>E</mi> </msubsup> <mo>)</mo> <mo>,</mo> <msubsup> <mi>I</mi> <mi>n</mi> <mi>R</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>