CN107392868A

CN107392868A - 基于全卷积神经网络的压缩双目图像质量增强方法及装置

Info

Publication number: CN107392868A
Application number: CN201710600916.4A
Authority: CN
Inventors: 金枝; 罗海丽; 邹文斌; 李霞
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2017-07-21
Filing date: 2017-07-21
Publication date: 2017-11-24

Abstract

本发明适用于图像处理技术领域，提供了一种基于全卷积神经网络的压缩双目图像质量增强方法，包括：将压缩过的原始低质量图像和虚拟视点图像分别通过第1个卷积层进行特征提取，分别得到64个第一特征图和64个包含双目图像高频信息的第二特征图；将64个第一特征图和64个第二特征图同时通过第2个卷积层，使得第二特征图中包含的双目图像高频信息融合到第一特征图中，得到融合后的32个第三特征图；将32个第三特征图通过第3个卷积层进行非线性映射，得到16个第四特征图；将16个第四特征图通过第4个卷积层进行重建，得到质量增强后的低质量图像；本发明在保证了较低传输和储存成本的前提下，使得重建后的低质量图像的质量得到增强。

Description

基于全卷积神经网络的压缩双目图像质量增强方法及装置

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于全卷积神经网络的压缩双目图像质量增强方法及装置。

背景技术

双目图像模仿人眼观看实际场景的形式，为用户带来真实的3D视觉效果以及较好的立体沉浸感，但双目图像在传输和存储成本上是单目图像的2倍，因此，双目图像在传输之前需要压缩。参考基于人类视觉系统的双目抑制理论，可得出在双目视觉系统中，立体画质的感知质量主要由高质量的视点画质决定。因此在保证一定立体画质的情况下，双目图像可以采用不对称的压缩模式，即两个视点图像采用不对称的编码质量，或不对称的分辨率进行编码，以此来减少传输和存储成本。此外，质量不对称的双目图像由于左右视点具有相同的分辨率，因此在接收端更容易生成中间视点图。

图像压缩可分为有损压缩(如JPEG，Joint Photographic Experts Group，国际图像压缩标准)和无损压缩(如PNG，Portable Network Graphic Format，便携式网络图形)两大类，有损压缩会导致不可逆的信息丢失，但与无损压缩相比较，有损压缩可以达到更高的压缩比；例如，JPEG采用基于块的离散余弦变换与粗略量化，降低图像间冗余信息，从而实现高压缩率；然而，图像有损压缩会导致图像内相邻块在块边缘区域像素值不连续，出现边缘伪影和模糊的现象。对一幅压缩图像，传统常用的质量增强方法有自适应离散余弦变换(SA-DCT，Shape-Adaptive Discrete Cosine Transform)，和基于回归树场(RTF，Regression Tree Fields-based)等，利用这些方法对压缩图像进行重建，从而获得较高质量的图像，但这样图像会存在有些区域过度平滑的现象，导致两视点图像间存在视觉差。除了传统的质量增强方法，基于深度学习的方法也有较好的效果，其中，有方法提到利用4层卷积神经网络来学习低质量(LQ，Low Quality)图像和高质量(HQ，High Quality)图像间的端对端映射，其后又有方法利用迁移学习训练5层质量增强的卷积神经网络，在深度学习中，一般训练网络越深，其实验结果会越好；由于训练方式或网络设计的问题，这两种方法都没能通过加深网络层数提高网络输出的图像质量；并且这两种方法都是针对一般的图像进行质量增强，并不是针对双目图像进行质量增强。

对于双目图像，采用不对称的有损压缩模式，可以减少传输和存储成本，达到更高的压缩比，使得双目图像在传输过程中可以节省码流，从而更快速的传输，但是单一视点的高压缩比引起的图像失真会导致双目图像在接收端给观看者带来视觉不舒适感以及合成的中间视点图像的质量受损；因此，在接收端接收到压缩的双目图像后，需要提供一种增强方法来增强接收端的低质量图像。

发明内容

本发明提供一种基于全卷积神经网络的压缩双目图像质量增强方法及装置，旨在针对采用不对称的有损压缩模式压缩的双目图像提供一种质量增强方法。

本发明提供了一种基于全卷积神经网络的压缩双目图像质量增强方法，所述双目图像包括：原始低质量图像、与所述原始低质量图像相邻视点的高质量彩色图和所述高质量彩色图对应的高质量深度图，所述全卷积神经网络包括4层依次连接的卷积层，所述方法包括：

将压缩过的所述原始低质量图像和虚拟视点图像分别通过第1个卷积层进行特征提取，分别得到64个第一特征图和64个包含双目图像高频信息的第二特征图；

所述虚拟视点图像由所述高质量彩色图和所述高质量彩色图对应的高质量深度图生成；

利用第2个卷积层对64个所述第一特征图和64个所述第二特征图进行卷积，使得所述第二特征图中包含的双目图像高频信息融合到所述第一特征图中，得到融合后的32个第三特征图；

将所述32个第三特征图通过第3个卷积层进行非线性映射，得到16个第四特征图；

将所述16个第四特征图通过第4个卷积层进行重建，得到质量增强后的低质量图像。

进一步地，所述将压缩过的所述原始低质量图像和虚拟视点图像分别通过第1个卷积层进行特征提取的步骤之前，包括：

将压缩过的所述原始低质量图像输入所述全卷积神经网络，得到质量初步增强的低质量图像；

所述将压缩过的所述原始低质量图像和虚拟视点图像分别通过第1个卷积层进行特征提取的步骤包括：

将所述质量初步增强的低质量图像和所述虚拟视点图像分别通过第1个卷积层进行特征提取。

进一步地，所述第1个卷积层由64个9×9大小的卷积核组成，所述第2个卷积层由32个7×7大小的卷积核组成，所述第3个卷积层由16个1×1大小的卷积核组成，所述第4个卷积层由1个5×5大小的卷积核组成。

进一步地，所述虚拟视点图像是利用所述高质量彩色图和所述高质量彩色图对应的高质量深度图并结合基于深度图的渲染技术生成。

本发明还提供了一种基于全卷积神经网络的压缩双目图像质量增强装置，所述双目图像包括：原始低质量图像、与所述原始低质量图像相邻视点的高质量彩色图和所述高质量彩色图对应的高质量深度图，所述全卷积神经网络包括4层依次连接的卷积层，所述装置包括：

特征提取模块，用于将压缩过的所述原始低质量图像和虚拟视点图像分别通过第1个卷积层进行特征提取，分别得到64个第一特征图和64个包含双目图像高频信息的第二特征图；

融合模块，用于利用第2个卷积层对64个所述第一特征图和64个所述第二特征图进行卷积，使得所述第二特征图中包含的双目图像高频信息融合到所述第一特征图中，得到融合后的32个第三特征图；

非线性映射模块，用于将所述32个第三特征图通过第3个卷积层进行非线性映射，得到16个第四特征图；

重建模块，用于将所述16个第四特征图通过第4个卷积层进行重建，得到质量增强后的低质量图像。

进一步地，所述压缩双目图像质量增强装置还包括：预处理模块，用于将压缩过的所述原始低质量图像输入所述全卷积神经网络，得到质量初步增强的低质量图像；

所述特征提取模块，具体用于将所述质量初步增强的低质量图像和所述虚拟视点图像分别通过第1个卷积层进行特征提取，得到64个第一特征图和64个包含双目图像高频信息的第二特征图。

本发明与现有技术相比，有益效果在于：本发明提供了一种基于全卷积神经网络的压缩双目图像质量增强方法及装置，其中，方法包括：将压缩过的原始低质量图像和虚拟视点图像分别通过第1个卷积层进行特征提取，分别得到64个第一特征图和64个包含高频信息的第二特征图；利用第2个卷积层对64个所述第一特征图和64个所述第二特征图进行卷积，使得第二特征图中包含的高频信息融合到所述第一特征图中，得到融合后的32个第三特征图；将所述32个第三特征图通过第3个卷积层进行非线性映射，得到16个第四特征图；将所述16个第四特征图通过第4个卷积层进行重建，得到质量增强后的低质量图像。本发明与现有技术相比，通过利用全卷积神经网络从虚拟视点图像中提取包含高频信息的第二特征图，并与从原始低质量图像中提取的第一特征图融合，从而恢复采用不对称的有损压缩模式压缩的双目图像丢失的信息，避免区域过度平滑的问题，在保证了较低传输和储存成本的前提下，使得重建后的低质量图像的质量得到增强，减少视觉差；另外，也扩展了质量不对称双目图像的应用范围。

附图说明

图1是本发明实施例提供的一种基于全卷积神经网络的压缩双目图像质量增强方法的流程示意图；

图2是本发明实施例提供的另一种基于全卷积神经网络的压缩双目图像质量增强方法的流程示意图；

图3是本发明实施例提供的另一种基于全卷积神经网络的压缩双目图像质量增强方法的实现过程示意图；

图4是本发明实施例提供的一种基于全卷积神经网络的压缩双目图像质量增强装置的模块示意图；

图5是本发明实施例提供的另一种基于全卷积神经网络的压缩双目图像质量增强装置的模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

由于现有技术中存在采用不对称的有损压缩模式对双目图像进行压缩后，图像质量受损的问题。

为了解决上述技术问题，本发明提出一种基于全卷积神经网络的压缩双目图像质量增强方法及装置，利用本发明提供的全卷积神经网络提取虚拟视点图像中的高频信息，并融合到原始低质量图像中，从而恢复压缩时双目图像丢失的信息，使得双目图像质量增强。

如图1所示，为本发明实施例提供的一种基于全卷积神经网络的压缩双目图像质量增强方法，所述全卷积神经网络包括4层依次连接的卷积层，其中，第1个卷积层包括64个9×9大小的卷积核，第2个卷积层包括32个7×7大小的卷积核，第3个卷积层包括16个1×1大小的卷积核，第4个卷积层包括1个5×5大小的卷积核。所述双目图像包括：原始低质量图像、与所述原始低质量图像相邻视点的高质量彩色图和所述高质量彩色图对应的高质量深度图；所述方法包括：

步骤S101，将压缩过的所述原始低质量图像和虚拟视点图像分别通过第1个卷积层进行特征提取，分别得到64个第一特征图和64个包含双目图像高频信息的第二特征图；

具体地，在进行双目图像质量增强之前，需要先利用所述高质量彩色图和所述高质量彩色图对应的高质量深度图并结合基于深度图的渲染技术(DIBR，Depth-Image-BasedRendering)生成虚拟视点图像。

其中，DIBR技术是以一幅彩色图像作为参考，利用彩色参考图像对应每个像素的深度信息来合成场景中虚拟视点图像，该方法可以快速生成一定范围内的任意中间视点的图像。因为视点的变化，生成的虚拟视点图像存在部分的信息缺失，但本发明实施例提出的全卷积神经网络在提取了高频信息的同时没有受到丢失信息区域的负面影响。

具体地，通过卷积层后，得到的特征图的数目由通过的卷积层的卷积核数目决定，通过的卷积层有多少个卷积核就得到多少个特征图。

具体地，将所述原始低质量图像通过64个9×9大小的卷积核组成的第1个卷积层进行特征提取，得到64个第一特征图。将所述虚拟视点图像通过64个9×9大小的卷积核组成的第1个卷积层进行特征提取，得到64个第二特征图，64个所述第二特征图中包含双目图像的高频信息。事实上，通过利用所述高质量彩色图和所述高质量彩色图对应的高质量深度图生成所述虚拟视点图像的目的就是为了获取其中的高频信息，以便于后续融合所述高频信息。

步骤S102，利用第2个卷积层对64个所述第一特征图和64个所述第二特征图进行卷积，使得所述第二特征图中包含的双目图像高频信息融合到所述第一特征图中，得到融合后的32个第三特征图；

具体地，通过第2个卷积层后，64个所述第二特征图中包含的高频信息就融合到所述第一特征图中。

步骤S103，将所述32个第三特征图通过第3个卷积层进行非线性映射，得到16个第四特征图；

具体地，将所述32个第三特征图通过16个1×1大小的卷积核组成的第3个卷积层，使得32个所述第三特征图经过激活函数的非线性处理，得到16个第四特征图；所述激活函数是用以增加全卷积神经网络的非线性。

步骤S104，将所述16个第四特征图通过第4个卷积层进行重建，得到质量增强后的低质量图像。

具体地，16个所述第四特征图通过第4个卷积层后，输出一张原始低质量图像的增强版，该原始低质量图像的增强版为经过全卷积神经网络处理后得到的原始低质量图像质量增强后的图像。

本发明实施例提供的一种端到端的基于全卷积神经网络的压缩双目图像质量增强方法，利用了视点间相关性特征来增强质量不对称双目图像的压缩质量，即利用全卷积神经网络对高质量彩色图合成的虚拟视点图像提取相应的高频信息，并与质量不对称双目图像对中的原始低质量图像的像素融合，从而恢复采用不对称的压缩模式压缩时双目图像丢失的信息，在保证了较低传输和储存成本的前提下，使得重建后的压缩图像质量增强，得到高质量的图像，减少了视觉差。另外，也扩展了质量不对称双目图像的应用范围。本发明实施例可用于压缩视频的高清恢复，和3D视频的质量增强等方面。

如图2所示，为本发明实施例提供的另一种基于全卷积神经网络的压缩双目图像质量增强方法，所述全卷积神经网络包括2个FCN(Fully Convolutional Network，全卷积网络)单元，其中一个FCN单元用于预处理，另一个FCN单元用于质量增强，每个所述FCN单元包括4层依次连接的卷积层，其中，第1个卷积层包括64个9×9大小的卷积核，第2个卷积层包括32个7×7大小的卷积核，第3个卷积层包括16个1×1大小的卷积核，第4个卷积层包括1个5×5大小的卷积核。所述双目图像包括：原始低质量图像、与所述原始低质量图像相邻视点的高质量彩色图和所述高质量彩色图对应的高质量深度图；所述方法包括：

步骤S201，将压缩过的所述原始低质量图像输入所述全卷积神经网络，得到质量初步增强的低质量图像；

具体地，先将所述原始低质量图像输入本发明提供的所述全卷积神经网络中的一个FCN单元进行处理，得到质量初步增强的低质量图像后，再继续后续的步骤，具体过程结合图3所示。

步骤S202，将所述质量初步增强的低质量图像和虚拟视点图像分别通过第1个卷积层进行特征提取，分别得到64个第一特征图和64个包含双目图像高频信息的第二特征图；

具体地，将所述质量初步增强的低质量图像通过64个9×9大小的卷积核组成的第1个卷积层进行特征提取，得到64个第二特征图。将所述虚拟视点图像通过64个9×9大小的卷积核组成的第1个卷积层进行特征提取，得到64个第二特征图，64个所述第二特征图中包含双目图像的高频信息。事实上，通过利用所述高质量彩色图和所述高质量彩色图对应的高质量深度图生成所述虚拟视点图像的目的就是为了获取其中的高频信息，以便于后续融合所述高频信息。

步骤S203，利用第2个卷积层对64个所述第一特征图和64个所述第二特征图进行卷积，使得所述第二特征图中包含的双目图像高频信息融合到所述第一特征图中，得到融合后的32个第三特征图；

步骤S204，将所述32个第三特征图通过第3个卷积层进行非线性映射，得到16个第四特征图；

步骤S205，将所述16个第四特征图通过第4个卷积层进行重建，得到质量增强后的低质量图像。

具体地，16个所述第四特征图通过第4个卷积层后，输出一张原始低质量图像的增强版，该原始低质量图像的增强版为经过全卷积神经网络处理后得到的原始低质量图像质量增强后的图像。具体结合图3所示，需要说明的是，图3中的c表示输入图片的通道数，本发明实施例对c都取值为1，即C＝1表示输入\出的图像都是单通道的灰度图。

本发明实施例提供的基于全卷积神经网络的压缩双目图像质量增强方法，先将原始低质量图像通过全卷积神经网络中的一个FCN单元处理，得到质量初步增强的低质量图像，然后再将所述质量初步增强的低质量图像和虚拟视点图像输入全卷积神经网络中的另一个FCN单元，通过利用全卷积神经网络中的另一个FCN单元从虚拟视点图像中提取包含高频信息的第二特征图，并与从质量初步增强的低质量图像中提取的第一特征图融合，从而恢复采用不对称的压缩模式压缩时双目图像丢失的信息，避免区域过度平滑的问题，在保证了较低传输和储存成本的前提下，使得重建后的低质量图像质量增强，减少视觉差；通过先将原始低质量图像输入到全卷积神经网络处理，再继续后续的全卷积神经网络处理步骤，累计采用了8层网络结构，加深了网络层数，可使得重建后的低质量图像质量进一步增强。另外，也扩展了质量不对称双目图像的应用范围。本发明实施例可用于压缩视频的高清恢复，和3D视频的质量增强等方面。

如图4所示，为本发明实施例提供的一种基于全卷积神经网络的压缩双目图像质量增强装置，所述全卷积神经网络包括4层依次连接的卷积层，其中，第1个卷积层包括64个9×9大小的卷积核，第2个卷积层包括32个7×7大小的卷积核，第3个卷积层包括16个1×1大小的卷积核，第4个卷积层包括1个5×5大小的卷积核。所述双目图像包括：原始低质量图像、与所述原始低质量图像相邻视点的高质量彩色图和所述高质量彩色图对应的高质量深度图；所述装置包括：

特征提取模块301，用于将压缩过的所述原始低质量图像和虚拟视点图像分别通过第1个卷积层进行特征提取，分别得到64个第一特征图和64个包含双目图像高频信息的第二特征图；

具体地，在利用本发明实施例提供的该装置进行双目图像质量增强之前，需要先利用所述高质量彩色图和所述高质量彩色图对应的高质量深度图并结合基于深度图的渲染技术(DIBR，Depth-Image-Based Rendering)生成虚拟视点图像。

具体地，将所述原始低质量图像通过64个9×9大小的卷积核组成的第1个卷积层进行特征提取，得到64个第二特征图。将所述虚拟视点图像通过64个9×9大小的卷积核组成的第1个卷积层进行特征提取，得到64个第二特征图，64个所述第二特征图中包含双目图像的高频信息。事实上，通过利用所述高质量彩色图和所述高质量彩色图对应的高质量深度图生成所述虚拟视点图像的目的就是为了获取其中的高频信息，以便于后续融合所述高频信息。

融合模块302，用于利用第2个卷积层对64个所述第一特征图和64个所述第二特征图进行卷积，使得所述第二特征图中包含的双目图像高频信息融合到所述第一特征图中，得到融合后的32个第三特征图；

非线性映射模块303，用于将所述32个第三特征图通过第3个卷积层进行非线性映射，得到16个第四特征图；

重建模块304，用于将所述16个第四特征图通过第4个卷积层进行重建，得到质量增强后的低质量图像。

本发明实施例提供的一种端到端的基于全卷积神经网络的压缩双目图像质量增强装置，利用了视点间相关性特征来增强质量不对称双目图像的压缩质量，在保证了较低传输和储存成本的前提下，使得重建后的压缩图像质量增强，减少视觉差。另外，也扩展了质量不对称双目图像的应用范围。本发明实施例可用于压缩视频的高清恢复，和3D视频的质量增强等方面。

如图5所示，为本发明实施例提供的另一种基于全卷积神经网络的压缩双目图像质量增强装置，所述全卷积神经网络包括2个FCN(Fully Convolutional Network，全卷积网络)单元，其中一个FCN单元用于预处理，另一个FCN单元用于质量增强，每个所述FCN单元包括4层依次连接的卷积层，其中，第1个卷积层包括64个9×9大小的卷积核，第2个卷积层包括32个7×7大小的卷积核，第3个卷积层包括16个1×1大小的卷积核，第4个卷积层包括1个5×5大小的卷积核。所述双目图像包括：原始低质量图像、与所述原始低质量图像相邻视点的高质量彩色图和所述高质量彩色图对应的高质量深度图；所述装置包括：

预处理模块401，用于将压缩过的所述原始低质量图像输入所述全卷积神经网络，得到质量初步增强的低质量图像；

具体地，先将所述原始低质量图像输入本发明提供的所述全卷积神经网络中的一个FCN单元进行处理，得到质量初步增强的低质量图像后，再继续后续的过程。

特征提取模块402，用于将所述质量初步增强的低质量图像和虚拟视点图像分别通过第1个卷积层进行特征提取，分别得到64个第一特征图和64个包含双目图像高频信息的第二特征图。

融合模块403，用于利用第2个卷积层对64个所述第一特征图和64个所述第二特征图进行卷积，使得所述第二特征图中包含的双目图像高频信息融合到所述第一特征图中，得到融合后的32个第三特征图；

非线性映射模块404，用于将所述32个第三特征图通过第3个卷积层进行非线性映射，得到16个第四特征图；

重建模块405，用于将所述16个第四特征图通过第4个卷积层进行重建，得到质量增强后的低质量图像。

本发明实施例提供的基于全卷积神经网络的压缩双目图像质量增强装置，利用了视点间相关性特征来增强质量不对称双目图像的压缩质量，在保证了较低传输和储存成本的前提下，使得重建的压缩图像质量增强，减少视觉差。通过先将原始低质量图像输入到全卷积神经网络处理，再继续后续的全卷积神经网络处理过程，累计采用了8层网络结构，加深了网络层数，可使得重建后的低质量图像质量进一步增强。另外，也扩展了质量不对称双目图像的应用范围。本发明实施例可用于压缩视频的高清恢复，和3D视频的质量增强等方面。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于全卷积神经网络的压缩双目图像质量增强方法，其特征在于，所述双目图像包括：原始低质量图像、与所述原始低质量图像相邻视点的高质量彩色图和所述高质量彩色图对应的高质量深度图，所述全卷积神经网络包括4层依次连接的卷积层，所述方法包括：

2.如权利要求1所述的压缩双目图像质量增强方法，其特征在于，所述将压缩过的所述原始低质量图像和虚拟视点图像分别通过第1个卷积层进行特征提取的步骤之前，包括：

3.如权利要求1或2所述的压缩双目图像质量增强方法，其特征在于，所述第1个卷积层由64个9×9大小的卷积核组成，所述第2个卷积层由32个7×7大小的卷积核组成，所述第3个卷积层由16个1×1大小的卷积核组成，所述第4个卷积层由1个5×5大小的卷积核组成。

4.如权利要求1所述的压缩双目图像质量增强方法，其特征在于，所述虚拟视点图像是利用所述高质量彩色图和所述高质量彩色图对应的高质量深度图并结合基于深度图的渲染技术生成。

5.一种基于全卷积神经网络的压缩双目图像质量增强装置，其特征在于，所述双目图像包括：原始低质量图像、与所述原始低质量图像相邻视点的高质量彩色图和所述高质量彩色图对应的高质量深度图，所述全卷积神经网络包括4层依次连接的卷积层，所述装置包括：

6.如权利要求5所述的压缩双目图像质量增强装置，其特征在于，所述压缩双目图像质量增强装置还包括：预处理模块，用于将压缩过的所述原始低质量图像输入所述全卷积神经网络，得到质量初步增强的低质量图像；

7.如权利要求5或6所述的压缩双目图像质量增强装置，其特征在于，所述第1个卷积层由64个9×9大小的卷积核组成，所述第2个卷积层由32个7×7大小的卷积核组成，所述第3个卷积层由16个1×1大小的卷积核组成，所述第4个卷积层由1个5×5大小的卷积核组成。

8.如权利要求5所述的压缩双目图像质量增强装置，其特征在于，所述虚拟视点图像是利用所述高质量彩色图和所述高质量彩色图对应的高质量深度图并结合基于深度图的渲染技术生成。