CN110728726B

CN110728726B - 一种基于用户交互与深度神经网络的图像压缩方法

Info

Publication number: CN110728726B
Application number: CN201911016450.9A
Authority: CN
Inventors: 吴锦; 肖懿; 朱贤益
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2022-09-23
Anticipated expiration: 2039-10-24
Also published as: CN110728726A

Abstract

近来，深度神经网络在图像压缩领域有着强大的作用。但存在很多问题：某些方法对于一种网络只适用一种压缩率，或者解压缩后的图像损失了图像纹理结构等细节信息。基于此，我们提出了一种基于用户交互与深度神经网络的图像压缩技术，其关键步骤包括模拟用户交互的训练数据，设计可以适当组合不同输入的神经网络模型以及设计适当的损失函数来区分不同用户输入对着色结果的影响；并且我们提出了一种在单个网络中支持可变压缩比的图像压缩方案，方便用户输入我们提供了一种最优的压缩方案以及压缩率计算公式；最后我们的方法仅需少量输入就可以有效且显著地控制彩色化结果，并生成较高图像质量的图像压缩结果。

Description

一种基于用户交互与深度神经网络的图像压缩方法

技术领域

本发明涉及图像处理的图像着色与图像压缩领域，可以通过灰度图像、全局输入以及局部输入信息来进行图像着色，并通过控制灰度图像的压缩率以及局部输入的数量来改变压缩比，对此提出了获取局部输入点的方式，最后提出一种最优的图像压缩方案。

背景技术

图像压缩(Image Compression)是计算机视觉和图像处理中的基本问题。随着高质量多媒体内容的发展和普及，有损图像压缩在节省传输带宽和硬件存储方面变得越来越重要。图像压缩系统通常包括三个组件，即编码器，量化器和解码器，以形成编解码器。而着色可以看作是一种解压缩过程，该过程使用灰度图像和颜色涂鸦来恢复彩色图像。也就是说，对于图像压缩而言，我们只需要存储图像的灰度信息以及额外信息，这也就是实现图像压缩的原理。

典型的图像编码标准，例如JPEG和JPEG 2000，通常依赖于手工制作的图像变换和编解码器上的单独优化，因此对于图像压缩而言是次优的。此外，JPEG和JPEG 2000对低速率图像压缩表现不佳，并且通常不可避免地产生一些视觉伪像，例如模糊，振铃和阻塞。它们应用离散余弦或小波变换来创建稀疏图像表示，而基于扩散的编解码器则在空间域中运行JPEG系列利用人类视觉系统的特性来改善压缩彩色图像的感知保真度：JPEG对YC_bC_r空间中的色度通道进行二次采样，而JPEG2000省略了YUV空间中颜色分量的小尺度小波系数。最近，深度神经网络(DNN)在多功能视觉任务中取得了巨大成功。对于图像编码和解码，通过堆叠若干卷积层可以容易地部署灵活的非线性分析和合成变换；并且深度卷积神经网络允许以端到端的方式联合优化非线性编码器和解码器，所以认为使用DNN来解决图像压缩比JPEG和JPEG 2000更强大。

本发明基于深度神经网络，提出了一种新的基于用户交互的图像压缩技术，该方法允许用户同时或单独地输入全局或局部信息，而以前的深度着色方法不支持这种方法。在我们提出的系统中，其关键步骤包括准备适当的训练数据，设计可以适当组合不同输入的神经网络模型以及设计适当的损失函数来区分不同用户输入对着色结果的影响；并且我们的方法支持在单个网络中支持可变压缩比的图像压缩方案，为此我们还提供了一种最优的压缩方案；最后我们的方法仅需少量输入就可以有效且显著地控制彩色化结果，并生成较高图像质量的压缩结果。

发明内容：

本发明利用图像灰度信息以及用户输入信息，基于深度神经网络来重建原始图像，并通过控制灰度信息的压缩率以及用户局部输入点的数量来改变压缩率(这里我们的网络只需要训练一次就可以适用于任何压缩率)，并且设计了一种最优的压缩方案，除此之外我们还提出了一种获取最优局部输入点的方式，使得我们的网络在压缩率较小时也能保证图像压缩质量。

本发明由三个部分组成，首先是模拟用户输入数据集的生成，然后基于深度神经网络结构的设计，最后根据压缩率设计最优的图像压缩方案。

1.模拟用户输入数据集的生成

对于图像着色或者图像压缩领域的研究，一般使用ImageNet数据集，首先我们需要获取该数据集的灰度信息；而对于用户输入信息我们包括全局输入以为局部输入，全局输入信息为7个颜色主题，这里使用K-means算法从原图中提取，并得到其ab通道的颜色信息；而局部输入是以像素点为单位，这里我们提出两种方式来获取：一是随机输入，在训练过程中产生随机数量的局部输入点，并且这些点的位置也是随机的；二是从误差图中依次选取误差较大的区域的中心点，这里误差图是指只有全局输入的结果与真实图像之间的差异，然后对误差图使用SLIC超像素分割，局部输入点数量对应分割的区域数目。

2.基于深度神经网络的图像压缩网络的搭建

基于深度神经网络的图像压缩网络搭建由两个部分组成：经典U-Net结构的扩展，加入残差网络进行微调，损失函数的设计来减小输出图像与真实图像之间的差异。

2.1经典U-Net结构的扩展

我们的着色网络扩展了U-Net结构，以允许输入其他信息，包括灰度图像(CIE Lab空间中的L通道)，L通道梯度图，全局输入和局部输入。如图1，它主要由四个部分组成：特征提取模块，全局输入模块，扩张卷积模块和重建模块。

2.1.1特征提取模块

该模块输入灰度图像、局部输入、灰度图像梯度图(由Sobel算子计算)。首先我们分别对灰度图、局部输入、灰度图像梯度信息进行3×3卷积，然后将其相加得到张量R^H ^×N×64。然后，进行逐步卷积和下采样层来提取层次结构特征。这里的卷积层使用步长为1的3×3卷积核，而下采样层使用步长为2的1×1卷积核。在进行下采样之后张量的空间大小减半，通道数加倍，整个过程如下：

F₁＝ReLU(W*I+b_I) 式(1)

F₃＝ReLU(W*U+b_U)

其中i属于[2，14]，

是特征图，*表示卷积操作，σ表示激活函数。

2.1.2全局输入模块

该模块接受全局输入信息，这里的全局输入信息由颜色主题的ab通道以及相应的mask组成。为了将其大小与特征提取模块的输出相统一，我们将全局输入reshape为1×1×K*3的张量，然后使用4个卷积层来将其扩展为1×1×512，每个卷积层使用步长为1大小为1×1的卷积核，整个过程如下：

其中

表示第j层卷积层的特征图，*表示卷积操作，j属于[1，4]。最后我们将改模块结果与特征提取模块结果相加作为扩张卷积模块的输入。

2.1.3扩张卷积模块

该模块主要用于融合用户输入与2.1.1中提取的特征层。该模块的目的是为了可以在不增加参数数量的情况下扩大感受野。我们使用6个具有扩张卷积层，每个扩张卷积层使用步长为1的3×3的卷积核，并且扩张率为2。这里每一层都使用了ReLU激活函数，其过程如下：

2.1.4重建模块

网络的最后一部分是重建模块，它使用一组卷积层和反卷积层来处理扩张卷积模块的特征图并重建图像的ab通道。卷积层使用步长为1的3×3的卷积核。反卷积层使用步长为2的4×4的卷积核，这使得张量的大小加倍但尺寸减小一半，其过程如下：

卷积过程为：

反卷积过程为：

**表示反卷积操作。第30层进一步使用1×1滤波器进行卷积，得到一个大小为H×N×2的结果T，并且

其中tanh(·)表示激活函数。

2.2加入残差网络进行微调

2.1中提出的着色网络可以粗略地重建图像ab通道，但我们还设计了一个残差学习网络来微调结果。我们将2.1中着色模型的输出，灰度图像和局部输入相连接并作为残差网络的输入。首先我们使用3×3的卷积核将特征图的维数扩展为64。然后使用8个连接的残差块对特征图进行处理，以提取图像结构和细节，如图1中所示，每个残差块包括两个带3×3卷积核的卷积层和一个将输入与卷积特征图相加的求和层，第i块的运算可表示如下：

R²ⁱ⁺¹＝R^2i-2+R²ⁱ

R^2i-1表示为2i-1层的特征图。之后，使用1×1的过滤器将特征图的维度进一步扩展到256，这里使用ReLU激活函数，然后将256通道的特征图卷积为残差图，这里使用tanh激活函数，最后将其与2.1中的着色网络输出相加来生成最后的ab通道。

最后的着色输出为残差网络的ab通道结果与灰度图像相连接，并将LAB通道转换为RGB通道输出。

2.3损失函数的设计

我们分别对2.1和2.2两个子网络设计了两种不同的损失函数。

在2.1中，损失函数主要是预测颜色通道并区分不同输入的影响；在2.2中损失函数主要是微调颜色通道的细节。在2.1中损失函数表达式如下：

L＝a₁L_GT+a₂L_GL+a₃L_ST 式(6)

其中L_GT是真实图像与生成的ab通过之间的损失，L_GL是输入颜色主题与生成图像的颜色主题之间的差异，L_ST是生成图像与真实图像之间的结构损失即梯度损失。a₁，a₂，a₃是用来平衡这三个损失函数影响的参数。我们固定参数a₃，来改变a₁，a₂，然后通过实验找出最符合的比例，这里我们设置(a₁，a₂)＝(0.1，0.9)，(a₁，a₂)＝(0.3，0.7)，(a₁，a₂)＝(0.5，0.5)，(a₁，a₂)＝(0.7，0.3)，(a₁，a₂)＝(0.9，0.1)。

在2.2残差网络中，我们使用网络ab通道输出结果与真实图像的ab通道之间的均方误差(MSE)作为损失函数。

3.设计一种最优的图像压缩方案

我们提出的图像压缩方案流程图如图2。

3.1全局输入和局部输入的选取

压缩过程中最重要的步骤之一是找到全局输入和局部输入。对于全局输入，我们仅使用K-means聚类从原始图像中提取7种主要颜色。对于局部输入，很难确定局部输入的数量和位置，这将在很大程度上影响图像质量和压缩率。

我们的解压缩网络模型分别并同时支持全局输入和局部输入。当只有全局输入时，网络将使用仅占用几个字节的额外信息进行着色(全局输入仅包含7种颜色)。我们可以计算仅具有全局输入的彩色图像与地面真实图像之间的误差图。误差较大的区域是有问题的区域，需要进一步完善以提高着色质量。因此，我们希望将局部输入放在这些有问题的区域。为此，由于其在运行速度，紧凑性和轮廓保持性方面的综合性能，我们使用经典的SLIC方法对误差图进行了细分。所有分割的中心都用于对原始图像中的颜色进行采样。因此，采样的颜色和中心位置形成局部输入，分割数由压缩率控制。

3.2灰度图压缩

我们可以使用其他灰度图像压缩方法进一步压缩灰度图像。在该发明中，由于其出色的压缩性能，我们直接使用BPG算法对灰度图像进行压缩。我们使用BPG网站上提供的程序。图像质量和压缩率由量化参数(-q选项)控制，范围为[1，51]。随着参数变大，图像质量会变差，但是消耗的空间也会变小。由于我们旨在实现非常低的压缩率，因此将参数控制在[30，51]范围内。

我们使用每像素的比特数(Bits Per Pixel)来测量压缩率。压缩率由局部输入点数量，全局输入中的颜色数以及灰度图像的压缩率来确定。对于局部输入的每个点，我们需要存储两个颜色通道的信息，需要16bits，以及该点的位置信息log(H)+log(N)，所以局部输入总共需要的比特数计算如下：

其中num为局部输入点数量，H和N分别为图像的高和宽。而对于全局输入，我们提供K个颜色主题，每个颜色主题需要存储两个颜色通道也就是16bits，所以全局输入所需比特数如下：

假设灰度图像的压缩率用

表示，则最后的压缩率可以表示如下：

最后，为了得到最优的压缩方案，可以通过控制变量法，在R＝0.1，0.2，0.3，0.4，0.5，0.6，0.8，0.9时，通过调整

和

的比率来找到一个最优的压缩比使得压缩后的图像效果更好，而当R为其他值时，我们可以采用线性插值的方式获得最优比率。

附图说明

图1为图像着色网络模型。

图2为图像压缩方案设计流程图。

具体实施方式

本发明实施分为两个阶段：数据准备阶段，训练阶段和测试阶段。

数据准备阶段：我们从ImageNet数据集中随机选择1000张图像作为测试集，然后使用ImageNet数据集中的其余图像以及Places中的150,000张室外图像来训练我们的模型。为了支持不同类型的输入，5％的训练数据仅包含全局输入，5％的仅包含本地输入，其余90％的则包含两个输入。当前灰度图像没有全局输入时，将K-mean映射替换为地面真实图像。局部点的数量均匀分布在[0,0.07*H*N]中，颜色主题的数量均匀分布在[3,5]中。

训练阶段：由于我们的网络含有大量参数并且由两个子网络组成，因此如果我们从头开始直接训练整个网络，则网络将很难收敛。因此，我们分三步训练网络模型。首先，我们仅使用式(6)中的损失函数对着色网络进行300,000次迭代训练。其次，我们微调着色网络，并使用式(7)中的损失函数训练残差网络进行300,000次迭代。最后，我们使用式(6)中的损失函数加上式(7)中的损失函数联合训练两个网络进行240,000次迭代。批量大小为16。我们从0.0004开始学习，然后通过每10,000步乘以0.7来降低学习率。使用AdamOptimizer训练网络。

测试阶段：使用ImageNet中随机选择1000张图像作为测试集，通过式(8)、式(9)、式(10)来控制图像压缩率，并根据我们提出的最优方案固定式(8)和式(9)的比例以达到最好的效果。

Claims

1.一种基于用户交互与深度神经网络的图像压缩方法，其特征在于：

步骤1、模拟用户输入数据集的生成

首先获取数据集ImageNet的灰度信息；用户输入信息包括全局输入以及局部输入，全局输入信息为7个颜色主题，这里使用K-means算法从原图中提取，并得到其ab通道的颜色信息；而局部输入是以像素点为单位，提出两种方式来获取：一是随机输入，在训练过程中产生随机数量的局部输入点，并且这些点的位置也是随机的；二是从误差图中依次选取误差较大的区域的中心点，所述误差图是指只有全局输入的结果与真实图像之间的差异，然后对所述误差图使用SLIC超像素分割，局部输入点数量对应分割的区域

数目；

步骤2、基于深度神经网络的图像压缩网络的搭建

基于深度神经网络的图像压缩网络搭建由两个部分组成：经典U-Net结构的扩展，加入残差网络进行微调，损失函数的设计来减小输出图像与真实图像之间的差异；

步骤2.1经典U-Net结构的扩展

着色网络扩展了U-Net结构，以允许输入其他信息，包括CIE Lab空间中的L通道，L通道梯度图，全局输入和局部输入；所述着色网络主要由四个部分组成：特征提取模块，全局输入模块，扩张卷积模块和重建模块；

步骤2.1.1特征提取模块

该模块输入灰度图像、局部输入、由Sobel算子计算的灰度图像梯度图；首先分别对灰度图、局部输入、灰度图像梯度信息进行3×3卷积，然后将其相加得到张量R^H×W×64；然后，进行逐步卷积和下采样来提取层次结构特征；卷积层使用步长为1的3×3卷积核，而下采样层使用步长为2的1×1卷积核；在进行下采样之后张量的空间大小减半，通道数加倍，整个过程如下：

F₁＝ReLU(W*I+b_I) 式(1)

F₃＝ReLU(W*U+b_U)

其中i属于[2,14]，

是特征图，*表示卷积操作，σ表示激活函数；

步骤2.1.2全局输入模块

该模块接受全局输入信息，所述的全局输入信息由颜色主题的ab通道以及相应的mask组成；为了将其大小与特征提取模块的输出相统一，将全局输入reshape为1×1×K*3的张量，然后使用4个卷积层来将其扩展为1×1×512，每个卷积层使用步长为1大小为1×1的卷积核，整个过程如下：

其中

表示第j层卷积层的特征图，*表示卷积操作，j属于[1,4]；最后将改模块结果与特征提取模块结果相加作为扩张卷积模块的输入；

步骤2.1.3扩张卷积模块

该模块主要用于融合用户输入与步骤2.1.1中提取的特征层；该模块使用6个扩张卷积层，每个扩张卷积层使用步长为1的3×3的卷积核，并且扩张率为2；每一层都使用了ReLU激活函数，其过程如下：

步骤2.1.4重建模块

所述基于深度神经网络的图像压缩网络的最后一部分是重建模块，该模块使用一组卷积层和反卷积层来处理扩张卷积模块的特征图并重建图像的ab通道；卷积层使用步长为1的3×3的卷积核；反卷积层使用步长为2的4×4的卷积核，这使得张量的大小加倍但尺寸减小一半，其过程如下：

卷积过程为：

反卷积过程为：

**表示反卷积操作；第30层进一步使用1×1滤波器进行卷积，得到一个大小为H×N×2的结果T，并且

其中tanh(·)表示激活函数；

步骤2.2加入残差网络进行微调

将步骤2.1中着色模型的输出，灰度图像和局部输入相连接并作为残差网络的输入；首先使用3×3的卷积核将特征图的维数扩展为64；然后使用8个连接的残差块对特征图进行处理，以提取图像结构和细节，每个残差块包括两个带3×3卷积核的卷积层和一个将输入与卷积特征图相加的求和层，第i块的运算可表示如下：

R²ⁱ⁺¹＝R^2i-2+R²ⁱ

R^2i-1表示为2i-1层的特征图；之后，使用1×1的过滤器将特征图的维度进一步扩展到256，这里使用ReLU激活函数；然后将256通道的特征图卷积为残差图，这里使用tanh

激活函数，最后将其与步骤2.1中的着色网络输出相加来生成最后的ab通道；

最后的着色输出为残差网络的ab通道结果与灰度图像相连接，并将LAB通道转换为RGB通道输出；

步骤2.3损失函数的设计

分别对步骤2.1和步骤2.2中的两个子网络设计了两种不同的损失函数；

在步骤2.1中，损失函数主要是预测颜色通道并区分不同输入的影响；在步骤2.2中损失函数主要是微调颜色通道的细节；在步骤2.1中损失函数表达式如下：

L＝a₁L_GT+a₂L_GL+a₃L_ST 式(6)

其中L_GT是真实图像与生成的ab通过之间的损失，L_GL是输入颜色主题与生成图像的颜色主题之间的差异，L_ST是生成图像与真实图像之间的结构损失即梯度损失；a₁,a₂,a₃是用来平衡这三个损失函数影响的参数；固定参数a₃，改变a₁,a₂，通过实验找出最符合的比例，设置(a₁,a₂)＝(0.1,0.9),(a₁,a₂)＝(0.3,0.7),(a₁,a₂)＝(0.5,0.5),(a₁,a₂)＝(0.7,0.3),(a₁,a₂)＝(0.9,0.1)；

在步骤2.2的残差网络中，使用网络ab通道输出结果与真实图像的ab通道之间的均方误差作为损失函数；

步骤3、设计一种最优的图像压缩方案

步骤3.1全局输入和局部输入的选取

解压缩网络模型分别并同时支持全局输入和局部输入；当只有全局输入时，所述解压缩网络将使用K-means聚类从原始图像中提取的7种颜色进行着色；计算仅具有全局输入的彩色图像与真实图像之间的误差图；误差较大的区域是有问题的区域，需要进一步完善以提高着色质量；因此，使用经典的SLIC方法对误差图进行了细分；所有分割的中心都用于对原始图像中的颜色进行采样；因此，采样的颜色和中心位置形成局部输入，分割数由压缩率控制；

步骤3.2灰度图压缩

使用BPG网站上提供的程序；图像质量和压缩率由量化参数控制，范围为[1，51]，将参数控制在[30，51]范围内；使用每像素的比特数来测量压缩率，压缩率由局部输入点数量、全局输入中的颜色数以及灰度图像的压缩率来确定；对于局部输入的每个点，存储两个颜色通道的信息，需要16bits，以及该点的位置信息log(H)+log(N)，所以局部输入总共需要的比特数计算如下：

其中num为局部输入点数量，H和N分别为图像的高和宽；而对于全局输入，提供K个颜色主题，每个颜色主题需要存储两个颜色通道也就是16bits，所以全局输入所需比特数如下：

灰度图像的压缩率用

表示，则最后的压缩率可以表示如下：

最后，通过控制变量法，在R＝0.1,0.2,0.3,0.4,0.5,0.6,0.8,0.9时，通过调整

和

的比率来找到一个最优的压缩比使得压缩后的图像效果更好，而当R为其他值时，采用线性插值的方式获得最优比率。