CN113256521B - 一种数据缺失的错误隐藏方法及装置 - Google Patents
一种数据缺失的错误隐藏方法及装置 Download PDFInfo
- Publication number
- CN113256521B CN113256521B CN202110556448.1A CN202110556448A CN113256521B CN 113256521 B CN113256521 B CN 113256521B CN 202110556448 A CN202110556448 A CN 202110556448A CN 113256521 B CN113256521 B CN 113256521B
- Authority
- CN
- China
- Prior art keywords
- network
- layer
- image
- output
- missing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 230000008439 repair process Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 38
- 230000004913 activation Effects 0.000 claims description 14
- 230000005284 excitation Effects 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明属于数据缺失补全优化技术领域,公开了一种数据缺失的错误隐藏方法及装置。该方法包括:把当前帧缺失数据的图像块和前一帧对应的图像块以及相应的mask掩码输入PV‑GAN网络模型中,生成网络对当前帧缺失数据的图像块中缺失的区域进行生成,输出补全后的图像块,缺失区域为生成网络生成的图像,其余区域不变。该装置包括:PV‑GAN网络模型及损失函数模块;通过损失函数模块对PV‑GAN网络模型进行训练,提高模型预测值的精确度。本发明实现了能够更好的修复有损图像的细节问题,提升全景视频的优化质量。
Description
技术领域
本发明属于数据缺失补全优化技术领域,尤其涉及一种数据缺失的错误隐藏方法及装置。
背景技术
全景视频的出现,是视频领域的重大变革。通过与传统视频不一样的特有的呈现形式,带给人们全新的体验。与传统视频相比,全景视频的优点是全景视频分辨率高,能够提高人们观感体验。随之而来的缺点就是全景视频传输数据量大,传输过程中容易出现数据缺失。因此,对全景视频进行错误隐藏研究十分必要。
众所周知,通过无线网络进行数据通信时,由于种种原因,会产生很高的包错误率。特别是当视频在无线信道、车网或互联网等容易出错的环境下传输时,如果传输过程中出现一个比特错误,则会出现缺失的图像。将这个比特错误传播到所有连续的视频帧上,严重影响人们的观感体验。因此,针对全景视频的错误隐藏技术研究十分重要。错误隐藏技术可以在没有编码器提供的额外信息的情况下,根据已经有损帧正确信息以及有损帧之前帧的相关性,生成和原来视频无损帧十分相似的数据来隐藏受损的数据。
现有的错误隐藏研究大概可以分为两类:帧内错误隐藏(空间错误隐藏)和帧间错误隐藏(时阈错误隐藏)。其中,帧内错误隐藏就是恢复传输过程中一帧内丢失的部分图像信息,利用该帧丢失信息周围的正确的宏块信息加权处理,恢复丢失的图像信息,另一个帧内错误隐藏算法的经典算法是方向内插法。此外,帧间错误隐藏算法则是通过前一帧的相关信息恢复当前帧丢失的图像信息,需要当前帧的运动矢量和残差信息。帧间错误隐藏算法的经典算法之一是边界匹配算法(BMA),另一个帧间错误隐藏算法的经典算法是矢量外推法。
上述是基于H.264/AVC的错误隐藏算法,最新的视频编码标准H.265/HEVC具有非常高的压缩比,较为明显地降低了网络流量负载和带宽要求。然而,HEVC位流对包错误非常敏感。在无线网络上传输视频,特别是在实时应用中,由于网络拥塞、延迟、有限的可用带宽和无线信道易出错的特性,仍然具有挑战性。当出现误码或丢包时,解码器将无法完全恢复视频质量。与H.264/AVC相比,H.265/HEVC在可能的运动向量集合中引入了时间候选向量,增加了后续帧之间的依赖关系,从而在出现错误时导致更大的质量损失。为了恢复丢失的区域,通常在解码器中使用错误隐藏,利用其空间或时间邻域中的可用信息。然而,HEVC不能保证端到端的复制质量,并且不建议在比特流有损时进行任何错误隐藏。
目前,VR市场的重点还是全景视频。因此,全景视频在传输过程中的能否保证质量,成为重中之重的问题。随着多媒体技术的多元发展,视频的更新换代也更加迅速,从标清,高清,超清到4K等模式,分辨率越来越高,高分辨率的全景视频逐渐成为了新的方向。关于全景视频的各种技术也在不断的发展。其中,最影响用户的观看体验,就是全景视频的质量。因为目前全景视频大多使用圆柱形投影,这种格式的全景视频分辨率高,数据量庞大,在传输过程中很容易由于网络等问题出现数据缺失,使得经过HM16.7等商业编解码器编解码后的全景视频质量下降。
发明内容
本发明实施例的目的在于提供一种用于数据缺失的错误隐藏方法及装置,能够更好的修复有损图像的细节问题,提升全景视频的优化质量。
本发明实施例是这样实现的:
一种数据缺失的错误隐藏方法,包括:
把当前帧缺失数据的图像块和前一帧对应的图像块以及相应的mask掩码输入PV-GAN网络模型中,生成网络对当前帧缺失数据的图像块中缺失的区域进行生成,输出补全后的图像块,缺失区域为生成网络生成的图像,其余区域不变;
其中,所述PV-GAN网络模型包括生成网络、全局上下文辨别器网络和局部上下文辨别器网络;生成网络是是一个7层卷积层(conv)、8层反向卷积层(deconv)、1层全连接层(FC)的编码器-解码器的网络结构。先利用池化层向下卷积,得到深层网络的特征;然后利用反卷集向上卷积,还原图像的分辨率,输出一个修复图像;全局上下文辨别器网络是一个6层的卷积层(conv)和1层全连接层(FC)的网络结构,输出一个1024维的向量,局部上下文辨别器网络是一个5层的卷积层(conv)和1层全连接层(FC)的网络结构,输出一个1024维的向量;全局上下文辨别器网络和局部上下文辨别器网络分别输出的两个1024维的向量扁平化连接成2048维的向量,再通过1个全连接层(FC),输出一个数值,代表生成图像是真实图像(Real)的概率;
其中,所述PV-GAN网络模型是经过训练的,其训练步骤包括:
首先,将图像训练集中128×128的图像块(Imggt)和128×128对应缺失信息的mask掩码块(Imgm)输入生成网络,生成网络对缺失部分进行生成,输出修复后的图像(completed image,Imgc),训练迭代10次,并进行L2 Loss优化;
然后,生成网络输出的图像是一个128×128含有补全信息的图像块(Imgc),将该图像块(Imgc)输入全局上下文辨别器网络,进行对抗训练;将该图像块(Imgc)的中心修复区域(Imglocal)输入局部辨别器网络,进行对抗训练;
最后,生成网络修复出来的128×128含有补全信息的图像块(Imgc)和从图像训练集中128×128的图像块(Imggt)进行GAN Loss优化;与此同时,将生成网络对原有64×64缺失区域的生成的修复后的图像块(Imglocal)和原图(Imggt)对应缺失部分进行loss优化;经过以上步骤,PV-GAN网络模型输出一个与原图(Imggt)相似的图像(Imgout);
所述缺失部分为中心区域64×64图像块(Imghole),所述图像训练集中128×128的图像块(Imggt)记为原图(Imggt)。
一种数据缺失的错误隐藏装置,包括:PV-GAN网络模型及损失函数模块;通过损失函数模块对PV-GAN网络模型进行训练,提高模型预测值的精确度;
所述PV-GAN网络模型包括生成网络、全局上下文辨别器网络和局部上下文辨别器网络;生成网络是是一个7层卷积层(conv)、8层反向卷积层(deconv)、1层全连接层(FC)的编码器-解码器的网络结构。先利用池化层向下卷积,得到深层网络的特征;然后利用反卷集向上卷积,还原图像的分辨率,输出一个修复图像;全局上下文辨别器网络是一个6层的卷积层(conv)和1层全连接层(FC)的网络结构,输出一个1024维的向量,局部上下文辨别器网络是一个5层的卷积层(conv)和1层全连接层(FC)的网络结构,输出一个1024维的向量;全局上下文辨别器网络和局部上下文辨别器网络分别输出的两个1024维的向量扁平化连接成2048维的向量,再通过1个全连接层(FC),输出一个数值,代表生成图像是真实图像(Real)的概率;
所述损失函数模块包括两个部分,一个是修复后的图像Imgc和真实图像Imggt的均方误差(Mean Square Error,MSE)损失函数LMSE,另一个是GAN损失函数LGAN。
进一步的,所述生成网络的架构具体参数如下表所示:
卷积层(Type) | 卷积核大小(Kemel) | 步长(Stride) | 输出(Outputs) |
conv1 | 4×4 | 2×2 | 64 |
conv2 | 4×4 | 2×2 | 128 |
conv3 | 4×4 | 2×2 | 256 |
conv4 | 4×4 | 2×2 | 512 |
conv5 | 4×4 | 2×2 | 512 |
conv6 | 4×4 | 2×2 | 512 |
conv7 | 4×4 | 2×2 | 512 |
deconv1 | 4×4 | 2×2 | 512 |
deconv2 | 4×4 | 2×2 | 512 |
deconv3 | 4×4 | 2×2 | 512 |
deconv4 | 4×4 | 2×2 | 512 |
deconv5 | 4×4 | 2×2 | 256 |
deconv6 | 4×4 | 2×2 | 128 |
deconv7 | 4×4 | 2×2 | 64 |
deconv8 | 4×4 | 2×2 | 3 |
其中,conv是标准卷积层,deconv是反卷积层,在每个卷积层之后,除了最后一个deconv8卷积层,还有一个整流线性单元(ReLU)层,最后,输出层先进行批处理归一化,输出层的激活函数为Tanh,其他层使用LeakyRelu激活函数;其中整流线性单元是一种人工神经网络中常用的激励函数,该激励函数是以斜坡函数及其变种为代表的非线性函数;输出指该层的输出通道数。
进一步的,所述全局上下文辨别器网络架构具体参数如下表所示:
卷积层(Type) | 卷积核大小(Kernel) | 步长(Stride) | 输出(Outputs) |
conv1 | 5×5 | 2×2 | 64 |
conv2 | 5×5 | 2×2 | 128 |
conv3 | 5×5 | 2×2 | 256 |
conv4 | 5×5 | 2×2 | 512 |
conv5 | 5×5 | 2×2 | 512 |
conv6 | 5×5 | 2×2 | 512 |
FC | - | - | 1024 |
其中,由6个卷积层(conv)和一个全连接层(FC)组成,将生成网络生成的整个128×128像素图像作为输入,经过多个卷积层下采样后,输出一个1024维向量,所有的卷积层都使用了2×2像素的步长来降低图像分辨率,于此同时,增加输出的过滤器数量,所有的卷积都使用了5×5大小的卷积核。
进一步的,所述局部上下文辨别器网络架构具体参数如下表所示:
卷积层(Type) | 卷积核大小(Kernel) | 步长(Stride) | 输出(Outputs) |
conv1 | 5×5 | 2×2 | 64 |
conv2 | 5×5 | 2×2 | 128 |
conv3 | 5×5 | 2×2 | 256 |
conv4 | 5×5 | 2×2 | 512 |
conv5 | 5×5 | 2×2 | 512 |
FC | - | - | 1024 |
其中,有5个卷积层(conv)和1个单一的全连接层(FC),局部上下文辨别器网络输出是一个1024维的向量。
进一步的,所述全连接层网络架构具体参数如下表所示:
卷积层(Type) | 卷积核大小(Kernel) | 步长(Stride) | 输出(Outputs) |
concat | - | - | 2048 |
FC | - | - | 1 |
其中,全局上下文辨别器网络和局部上下文辨别器网络的输出的两个向量,被扁平化连接成一个2048维向量;接着,通过由一个全连接层(FC),输出一个概率值,使用sigmoid激活函数,使该值在[0,1]范围内,表示图像是真实的。
本发明实施例通过提出一种基于生成对抗网络(GAN)的网络模型PV-GAN,并将其用于全景视频的错误隐藏技术。PV-GAN的生成器网络是一个类似于U-Net的网络,可以将高层级信息和低层级信息进行更好地结合。通过两个辨别器网络,可以更好的修复有损图像的细节问题。
附图说明
图1是本发明用于全景视频中的错误隐藏装置框架图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
本发明基于目前深度学习里先进的网络模型生成对抗网络(GAN)结构,用于全景视频中的错误隐藏。本发明提出的PV-GAN(全景视频-生成对抗网络,Panoramic Video-GAN)的网络结构如图1所示,其网络架构总体分为生成网络和辨别器网络。
其中,生成网络是一个类似于U-Net的网络结构,是一个7层卷积层(conv)、8层反向卷积层(deconv)、1层全连接层(FC)的编码器-解码器的网络结构。先利用池化层向下卷积,得到深层网络的特征;然后利用反卷集向上卷积,还原图像的分辨率,输出一个修复图像。辨别器网络又分为全局上下文辨别器网络和局部上下文辨别器网络。其中,全局上下文辨别器网络是一个6层的卷积层(conv)和1层全连接层(FC)的网络结构,输出一个1024维的向量,局部上下文辨别器网络是一个5层的卷积层(conv)和1层全连接层(FC)的网络结构,输出一个1024维的向量。最后,全局上下文辨别器网络和局部上下文辨别器网络分别输出的两个1024维的向量concat连接成2048维的向量,再通过1个全连接层(FC),输出一个数值,代表生成图像是真实图像(Real)的概率。
现有的基于卷积神经网络模型的图像修复方法都受到结构畸变和可见连通性纹理模糊的影响,在图像修复处理过程中容易出现过拟合和过学习现象,以及边缘模糊现象。为此,针对目前图像修复算法迭代时间长、自适应能力差、修复效果不理想的缺点,提出基于两个辨别器网络深度学习方法的改进生成对抗网络图像修复算法PV-GAN。该方法根据图像生成网络(图像修复网络)、全局上下文辨别器网络和局部上下文辨别器网络建立融合网络,并应用于修复全景视频有损帧的图像缺失区域。在本算法的训练过程中,图像修复算法的生成网络(补全网络)采用类似U-Net网络结构的卷积神经网络的生成方法对图像中的缺失区域进行修复,补全后的图像(Fake)和来自训练集的真实的图像(Real)将作为全局上下文辨别器网络和局部上下文辨别器网络的输入,两个辨别器网络的结构大大提高了图像修复的速度和质量。全局上下文辨别器网络利用具有边缘信息和特征信息的全局结构对完整图像进行判断,即全面实现了视觉连通性。由于局部上下文辨别器网络可以对修复出的图像进行判断,因此,本发明也利用在多幅图像上找到的辅助特征块对其进行训练。该方法提高了图像修复网络的判别能力,解决了图像修复网络中特征过于集中、数量有限而难以处理时容易发生过拟合的问题。
具体地,PV-GAN网络模型的训练步骤包括:
首先,将图像训练集中128×128的图像块(Imggt)和128×128对应缺失信息的mask掩码块(Imgm)输入生成网络(补全网络),生成网络(补全网络)对缺失部分(中心区域64×64图像块Imghole)进行生成,输出修复(补全)后的图像(completed image,Imgc),训练迭代10次,并进行L2 Loss优化;然后,生成网络(补全网络)输出的图像是一个128×128含有补全信息的图像块(Imgc)。将Imgc输入全局上下文辨别器网络,进行对抗训练;将Imgc中心修复区域(Imglocal)输入局部辨别器网络,进行对抗训练;最后,生成网络(补全网络)修复出来的128×128含有补全信息的图像块(Imgc)和从训练集输入的128×128的图像块(Imggt)进行GAN Loss优化。与此同时,将生成网络(补全网络)对原有64×64缺失区域的生成(补全)的修复后的图像块(Imglocal)和原图(Imggt)对应缺失部分进行loss优化。经过以上步骤,PV-GAN输出一个与原图(Imggt)非常相似的图像(Imgout)。
测试PV-GAN网络模型时,全景视频传输过程中,假设当前帧(Cur Frame)出现数据丢失,需要错误隐藏操作。把当前帧(Cur Frame)缺失数据的图像块(Cur Img)和前一帧(Pre Frame)对应的(Pre Img)以及相应的mask掩码(Imgm)输入PV-GAN网络模型中,生成网络(补全网络)对当前帧缺失数据的图像块(Cur Img)中缺失的区域(Crophole)进行生成,输出补全后的图像块(Imgout),缺失区域为生成网络生成的图像,其余区域不变。
下面对本发明用于全景视频中的错误隐藏的装置进行详细说明:
1、生成网络
生成网络G是一个用于生成图像(本文用于补全图像)的网络,它的输入可以是一个随机的噪声n,通过这个噪声可以生成一张图片,称为G(n)。在训练过程中生成网络(补全网络)G的作用就是生成(补全)图片,欺骗辨别器网络D,也就是说生成网络(补全网络)G的反馈是辨别器网络D。
U-Net网络采用了编码器-解码器结构,呈现U型,该网络的优点是恢复出来的图像不仅能够更多的融合低层级网络的特征,还能够融合不同尺度的特征。
因此,本发明采用类似于U-Net网络的网络结构作为PVGAN的生成网络G。生成网络G采用基于U-Net网络模型的编解码器,编码器采用七层卷积网络。在参数数量不变的情况下,增加网络层数,提取更高层的语义特征,提高输出像素的真实性。此外,生成网络G引用了跳跃连接(skip connection)方式。跳跃连接可以融合底层和高层的特征,提高生成网络G的结构预测能力,加速网络的收敛。PV-GAN的生成网络G(用于补全缺失的数据)的具体网络架构如下表所示:
卷积层(Type) | 卷积核大小(Kernel) | 步长(Stride) | 输出(Outputs) |
conv1 | 4×4 | 2×2 | 64 |
conv2 | 4×4 | 2×2 | 128 |
conv3 | 4×4 | 2×2 | 256 |
conv4 | 4×4 | 2×2 | 512 |
conv5 | 4×4 | 2×2 | 512 |
conv6 | 4×4 | 2×2 | 512 |
conv7 | 4×4 | 2×2 | 512 |
deconv1 | 4×4 | 2×2 | 512 |
deconv2 | 4×4 | 2×2 | 512 |
deconv3 | 4×4 | 2×2 | 512 |
deconv4 | 4×4 | 2×2 | 512 |
deconv5 | 4×4 | 2×2 | 256 |
deconv6 | 4×4 | 2×2 | 128 |
deconv7 | 4×4 | 2×2 | 64 |
deconv8 | 4×4 | 2×2 | 3 |
其中,cOnv是标准卷积层,deconv是反卷积层。在每个卷积层之后,除了最后一个(deconv8)卷积层,还有一个整流线性单元(ReLU)层。最后,输出层先进行批处理归一化(batchnormalization),输出层的激活函数为Tanh,其他层使用LeakyRelu激活函数。使用该激活函数将其“输出”,“输出”是指该层输出的输出通道数,整流线性单元是一种人工神经网络中常用的激励函数,该激励函数是以斜坡函数及其变种为代表的非线性函数。
2、辨别器网络
为了解决修复区域的纹理信息不清晰和边缘结构不平滑的问题,本发明在GAN网络的基础上,对原有的辨别器网络增加了一个辨别器网络。两个辨别器网络分别称为全局上下文辨别器网络和局部上下文辨别器网络,双辨别器网络的结构可以使得修复后的图像在全局范围和局部范围都具有良好的视觉体验。全局上下文辨别器网络和局部上下文辨别器网络的目的是识别图像是真实的还是生成网络生成的,两个辨别器网络都是基于多个卷积层。多个向下卷积对图像进行压缩,直到成为小的特征向量。每个辨别器网络的输出被一个连接层连接在一起,该连接层输出一个数值,对应于该辨别器网络输入的图像来源于真实样本的概率。此外,全局上下文辨别器需要对生成的图像,在全局上是否有更好的视觉连贯性进行辨别。局部上下文辨别器需要对受损区域图像生成的结果进行辨别。
全局上下文辨别器网络和局部上下文辨别器网络都使用卷积层来提取输入图像的特征,全局上下文辨别器网络和局部上下文辨别器网络分别基于6个卷积层和5个卷积层,以及1个单一的全连接层,它们分别对图像进行压缩,直至成为小特征向量并分别输出一个概率,一个用于全局辨别器网络的损失函数。另一个用于局部辨别器网络的损失函数,两个辨别器网络所有的卷积层和补全网络一样使用2×2的步长来降维。与补全网络不同的是,两个辨别器网络所有卷积核大小都是5×5。
A.全局上下文辨别器网络
全局上下文辨别器网络架构具体参数如下表所示,有6个卷积层(conv)和一个全连接层(FC)组成。将生成网络(修复网络)生成的整个128×128像素图像作为输入,经过多个卷积层下采样后,输出一个1024维向量。所有的卷积层都使用了2×2像素的步长来降低图像分辨率。于此同时,增加输出的过滤器数量。与生成网络相比,所有的卷积都使用了5×5大小的卷积核。
卷积层(Type) | 卷积核大小(Kernel) | 步长(Stride) | 输出(Outputs) |
conv1 | 5×5 | 2×2 | 64 |
conv2 | 5×5 | 2×2 | 128 |
conv3 | 5×5 | 2×2 | 256 |
conv4 | 5×5 | 2×2 | 512 |
conv5 | 5×5 | 2×2 | 512 |
conv6 | 5×5 | 2×2 | 512 |
FC | - | - | 1024 |
B.局部上下文辨别器网络
局部辨别器网络架构具体参数如下表所示,基于5个卷积层(conv)和1个单一的全连接层(FC)。它的网络结构大体结构上和全局上下文辨别器网络如出一辙,区别是输入是修复的区域(原先数据缺失的区域,值得注意的是,在训练时,补全区域是单一的)。由于局部辨别器网络初始输入的是64×64的图像块,因此,全局上下文辨别器网络中使用的第一层卷积层对局部辨别器网络是没有必要的,和全局上下文辨别器网络一样,局部上下文辨别器网络输出是一个1024维的向量。
卷积层(Type) | 卷积核大小(Kerne1) | 步长(Stride) | 输出(Outputs) |
conv1 | 5×5 | 2×2 | 64 |
conv2 | 5×5 | 2×2 | 128 |
conv3 | 5×5 | 2×2 | 256 |
conv4 | 5×5 | 2×2 | 512 |
conv5 | 5×5 | 2×2 | 512 |
FC | - | - | 1024 |
最后,如下表所示,全连接层网络架构,全局上下文辨别器网络和局部上下文辨别器网络的输出的两个向量,被扁平化连接成一个2048维向量。接着,通过由一个全连接层(FC),输出一个概率值。使用sigmoid激活函数,使该值在[0,1]范围内,表示图像是真实的,而不是生成网络生成的fake图像的概率。
卷积层(Type) | 卷积核大小(Kernel) | 步长(stride) | 输出(outputs) |
concat | - | - | 2048 |
FC | - | - | 1 |
3、损失函数
深度学习通过最小化损失函数(Loss函数),使网络模型达到收敛状态,从而能够减少模型预测值的误差,提高模型预测值的精确度。因此,损失函数的定义,对网络训练出来的模型的影响是重大的。
本发明中使用的损失函数(Loss函数)包括两个部分,一个是修复后的图像Imgc和真实图像Imggt的均方误差(Mean Square Error,MSE)损失函数LMSE,另一个是GAN损失函数LGAN。本发明结合这两种损失函数,对生成网络G(补全网络)模型和两个辨别器网络(全局上下文辨别器网络Dglobal和局部上下文辨别器网络Dlocal)进行训练,从而对输入图像的缺失区域进行修复。为了训练网络能够更真实地修复输入图像,本文使用了以下两个损失函数,即加权的均方误差(Mean Square Error,MSE)损失LMSE函数,生成对抗网络(GAN)损失LGAN函数。前者用于提高训练稳定性,后者用于提高修复后图像的真实性。混合使用两种损失函数可以稳定地训练高性能的网络模型,并已用于图像补全。与此同时,也用于各种图像到图像的转换问题,训练是通过反向传播来完成的。
综上,本发明提出一种基于生成对抗网络(GAN)的网络模型PV-GAN,并将其用于全景视频的错误隐藏技术。PV-GAN的生成器网络是一个类似于U-Net的网络,可以将高层级信息和低层级信息进行更好地结合。通过两个辨别器网络,可以更好的修复有损图像的细节问题。
另外,本发明的图像错误隐藏方法可以应用于各种数据缺失的错误隐藏,一样可以达到生成优化数据的目的。
本发明文中的各种函数解释如下:
1、损失函数LMSE:
2、损失函数LGAN:
4、LeakyRelu激活函数:
y=max(0,x)+leak*min(0,x)
5、sigmoid激活函数:
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种数据缺失的错误隐藏方法,其特征在于,包括:
把当前帧缺失数据的图像块和前一帧对应的图像块以及相应的 mask 掩码输入 PV-GAN 网络模型中,生成网络对当前帧缺失数据的图像块中缺失的区域进行生成,输出补全后的图像块,缺失区域为生成网络生成的图像,其余区域不变;
其中,所述PV-GAN 网络模型包括生成网络、全局上下文辨别器网络和局部上下文辨别器网络,生成网络分别与全局上下文辨别器网络和局部上下文辨别器网络连接;生成网络是一个 7 层卷积层(conv)、8 层反向卷积层(deconv)、1 层全连接层(FC)的编码器-解码器的网络结构;先利用卷积层向下卷积,得到深层网络的特征;然后利用反卷积层向上卷积,还原图像的分辨率,输出一个修复图像;全局上下文辨别器网络是一个 6 层的卷积层(conv)和 1 层全连接层(FC)的网络结构,输出一个 1024 维的向量,局部上下文辨别器网络是一个 5 层的卷积层(conv)和 1 层全连接层(FC)的网络结构,输出一个 1024 维的向量;全局上下文辨别器网络和局部上下文辨别器网络分别输出的两个 1024 维的向量扁平化连接成 2048 维的向量,再通过 1 个全连接层(FC),输出一个数值,代表生成图像是真实图像(Real)的概率;
其中,所述PV-GAN 网络模型是经过训练的,其训练步骤包括:
首先,将图像训练集中 128×128 的图像块(Imggt)和 128×128 对应缺失信息的mask 掩码块(Imgm)输入生成网络,生成网络对缺失部分进行生成,输出修复后的图像(completed image,Imgc),训练迭代 10 次,并进行 L2 Loss 优化;
然后,生成网络输出的图像是一个 128×128 含有补全信息的图像块(Imgc),将该图像块(Imgc )输入全局上下文辨别器网络,进行对抗训练;将该图像块(Imgc)的中心修复区域(Imglocal)输入局部辨别器网络,进行对抗训练;
最后,生成网络修复出来的 128×128 含有补全信息的图像块(Imgc)和从图像训练集中128×128 的图像块(Imggt)进行 GAN Loss 优化;与此同时,将生成网络对原有 64×64缺失区域的生成的中心修复区域(Imglocal)和原图(Imggt)对应缺失部分进行 loss 优化;经过以上步骤,PV-GAN网络模型输出一个与原图(Imggt)相似的图像(Imgout);
所述缺失部分为中心区域 64×64 图像块(Imghole),所述图像训练集中 128×128的图像块(Imggt)记为原图(Imggt)。
2.一种数据缺失的错误隐藏装置,其特征在于,包括:PV-GAN 网络模型及损失函数模块;通过损失函数模块对PV-GAN 网络模型进行训练,提高模型预测值的精确度;
所述PV-GAN 网络模型包括生成网络、全局上下文辨别器网络和局部上下文辨别器网络,生成网络分别与全局上下文辨别器网络和局部上下文辨别器网络连接;生成网络是一个 7 层卷积层(conv)、8 层反向卷积层(deconv)、1 层全连接层(FC)的编码器-解码器的网络结构;先利用卷积层向下卷积,得到深层网络的特征;然后利用反卷积层向上卷积,还原图像的分辨率,输出一个修复图像;全局上下文辨别器网络是一个 6 层的卷积层(conv)和 1 层全连接层(FC)的网络结构,输出一个 1024 维的向量,局部上下文辨别器网络是一个 5 层的卷积层(conv)和 1 层全连接层(FC)的网络结构,输出一个 1024 维的向量;全局上下文辨别器网络和局部上下文辨别器网络分别输出的两个 1024 维的向量扁平化连接成 2048 维的向量,再通过 1 个全连接层(FC),输出一个数值,代表生成图像是真实图像(Real)的概率;
所述损失函数模块包括两个部分,一个是修复后的图像 Imgc 和真实图像 Imggt 的均方误差(Mean Square Error , MSE)损失函数 LMSE,另一个是 GAN 损失函数 LGAN。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110556448.1A CN113256521B (zh) | 2021-05-20 | 2021-05-20 | 一种数据缺失的错误隐藏方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110556448.1A CN113256521B (zh) | 2021-05-20 | 2021-05-20 | 一种数据缺失的错误隐藏方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113256521A CN113256521A (zh) | 2021-08-13 |
CN113256521B true CN113256521B (zh) | 2021-12-21 |
Family
ID=77183591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110556448.1A Active CN113256521B (zh) | 2021-05-20 | 2021-05-20 | 一种数据缺失的错误隐藏方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113256521B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198154A (zh) * | 2018-03-19 | 2018-06-22 | 中山大学 | 图像去噪方法、装置、设备及存储介质 |
CN109886167A (zh) * | 2019-02-01 | 2019-06-14 | 中国科学院信息工程研究所 | 一种遮挡人脸识别方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803347B2 (en) * | 2017-12-01 | 2020-10-13 | The University Of Chicago | Image transformation with a hybrid autoencoder and generative adversarial network machine learning architecture |
US10896535B2 (en) * | 2018-08-13 | 2021-01-19 | Pinscreen, Inc. | Real-time avatars using dynamic textures |
US11049223B2 (en) * | 2019-06-19 | 2021-06-29 | Siemens Healthcare Gmbh | Class-aware adversarial pulmonary nodule synthesis |
-
2021
- 2021-05-20 CN CN202110556448.1A patent/CN113256521B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198154A (zh) * | 2018-03-19 | 2018-06-22 | 中山大学 | 图像去噪方法、装置、设备及存储介质 |
CN109886167A (zh) * | 2019-02-01 | 2019-06-14 | 中国科学院信息工程研究所 | 一种遮挡人脸识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
《Mask Embedding in conditional GAN for Guided Synthesis of High Resolution Images》;Yinhao Ren等;《arXiv》;20190703;全文 * |
《深度学习图像修复方法综述》;强振平 等;《中国图象图形学报》;20181006;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113256521A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751597B (zh) | 基于编码损伤修复的视频超分辨方法 | |
JP2007184942A (ja) | 関心領域基盤の映像符号化、復号化方法及び装置 | |
CN111885280B (zh) | 一种混合卷积神经网络视频编码环路滤波方法 | |
WO2020238439A1 (zh) | 无线自组织网络带宽受限下的视频业务质量增强方法 | |
CN112422989B (zh) | 一种视频编码方法 | |
CN113066022B (zh) | 一种基于高效时空信息融合的视频比特增强方法 | |
CN111031315A (zh) | 基于注意力机制和时间依赖性的压缩视频质量增强方法 | |
JP2024513693A (ja) | ピクチャデータ処理ニューラルネットワークに入力される補助情報の構成可能な位置 | |
CN116156202A (zh) | 一种实现视频错误隐藏的方法、系统、终端及介质 | |
CN113068041B (zh) | 一种智能仿射运动补偿编码方法 | |
Lin et al. | Multiple hypotheses based motion compensation for learned video compression | |
CN113256521B (zh) | 一种数据缺失的错误隐藏方法及装置 | |
WO2023225808A1 (en) | Learned image compress ion and decompression using long and short attention module | |
CN114511485B (zh) | 一种循环可变形融合的压缩视频质量增强方法 | |
CN113691817B (zh) | 一种跨帧信息融合的屏幕内容视频质量增强方法 | |
Yang et al. | Graph-convolution network for image compression | |
CN113822801A (zh) | 基于多分支卷积神经网络的压缩视频超分辨率重建方法 | |
JP2024511587A (ja) | ニューラルネットワークベースのピクチャ処理における補助情報の独立した配置 | |
Jung | Comparison of video quality assessment methods | |
Zheng et al. | Rethinking Video Error Concealment: A Benchmark Dataset | |
CN113507607B (zh) | 一种无需运动补偿的压缩视频多帧质量增强方法 | |
CN114554213B (zh) | 一种运动自适应和关注细节的压缩视频质量增强方法 | |
CN117615148B (zh) | 一种基于多尺度框架的端到端特征图分层压缩方法 | |
CN102905129B (zh) | 静止图像的分布式编码方法 | |
Zhen et al. | A deep learning based distributed compressive video sensing reconstruction algorithm for small reconnaissance uav |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |