CN110517329B

CN110517329B - 一种基于语义分析的深度学习图像压缩方法

Info

Publication number: CN110517329B
Application number: CN201910741565.8A
Authority: CN
Inventors: 王程; 韩逸飞; 赵晓燕; 王卫东; 胡欣
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2021-05-14
Anticipated expiration: 2039-08-12
Also published as: CN110517329A

Abstract

本发明提出一种基于语义分析的深度学习图像压缩方法，属于图像有损压缩技术领域。包括：步骤1，对输入的图像使用卷积神经网络CNN对图像进行特征提取，标识每个像素的语义重要程度；步骤2，将输入图像进行分块，压缩比特分配对每个图像块依据其语义重要程度计算对应的压缩比例；步骤3，使用基于CNN和循环神经网络LSTM的网络结构对图像按照计算好的压缩比例进行压缩和恢复。本发明将深度学习在图像语义分析和图像压缩领域的应用相结合，根据语义重要程度分配图像不同区域的压缩比特，以实现基于语义重要度分析的图像压缩效果，提高图像中人眼关注区域的视觉质量，整张图片占据的空间更小，在物联网图像处理方面有很好的应用价值。

Description

一种基于语义分析的深度学习图像压缩方法

技术领域

本发明涉及图像有损压缩技术领域，具体是一种基于语义分析的深度学习图像压缩方法。

背景技术

物联网的长足发展极大地便利了人们的生活，同时也导致了网络传输数据量的爆炸性提升。网络中的业务种类从原有的文字、语音业务向图像、视频流业务发展，数字图像产品为信息的传递带来了便利，同时也不断提高对数据传输和存储的要求。因此，为了减小图像在传输和存储时的体积以提高网络传输效率，如何通过更小的压缩大小获得更好的恢复质量一直以来都是图像领域研究的重点。

图像压缩的关键在于去除图像中的冗余。图像数据中的冗余有三种，分别为编码冗余、像素冗余和视觉冗余。针对图像冗余的类别，图像压缩可以分为有损压缩和无损压缩，无损压缩技术通过去除图片编码冗余和像素冗余实现压缩的目的，压缩比例一般在2-10之间，被广泛应用在对图像纹理清晰度要求很高的场景，如艺术平电子图像、生物医学图像等，而在对图像质量要求相对较低的物联网中，无损压缩由于其受限的压缩比率并不适用。有损压缩编码技术根据人眼对于某些视觉特征不敏感的原理对图像信息进行压缩，以去除少部分人眼不敏感信息为代价，在不明显降低图像质量的前提下，实现了相对于无损压缩更高的压缩比。常用的有损编码技术有预测编码、矢量编码、位平面编码、JPEG、模型编码、神经网络编码等。

近年来，深度学习理论得益于大规模数据集的产生、强有力模型的发展以及大量可用的计算资源，在图像处理领域取得了优异的进展。在图像压缩领域，深度学习相对于传统方法拥有更多的学习参数，可以通过学习更有效地把握图像地特征和本质，对提高图像压缩比率和图像恢复效果方面具有重要意义。尽管很多深度学习的方法都可以实现很好地图像压缩效果，但是仍然存在一些问题需要解决。一般来说，人眼对于图像每个区域的关注程度是有区别的，例如对于一张人物肖像图片，相对于背景，前景中的人物的清晰度、纹理细节更受人眼关注。在当前的物联网多媒体数据压缩需求中，大多图像明显的存在前景和背景的区分，而现有的压缩方法对于图像的每个像素点都作相同处理，因此在背景重要性低的图像中，并不能使每个压缩比特得到最好的分配。所以，在这种场景下，针对具有明显前景背景区分图像的最优压缩比特分配问题，提出对应的压缩技术具有重要意义。

发明内容

本发明针对物联网中图像数据低尺寸、高质量的压缩需求，以及人眼对于图像中前景的关注度高于背景的特性，提供了一种基于语义分析的深度学习图像压缩方法。本发明方法通过卷积神经网络提取图像的语义重要区域，再根据各区域语义重要程度分级别地对图像进行压缩，为物联网图像有损压缩提供了一种有效解决方案。

本发明的一种基于语义分析的深度学习图像压缩方法，包括如下步骤1～3。

步骤1，对输入的图像使用语义分析网络标识每个像素的语义重要程度。

所述的语义分析网络中在卷积神经网络的最后一个卷积层使用全局平均池化层，将得到的特征图转换为特征向量，将特征向量的加权线性和输入至softmax层得到最终的分类。

其中，设图像经过卷积神经网络得到k个特征图f_u，k为类别数量，对每个特征图进行全局平均池化，设权重

是每个特征图f_u被分类为类别c的概率，将各特征图全局平均池化的结果与对应的类别c的权重

相乘求和得到图像属于类别c的概率P_c；将概率P_c输入softmax层，得到分类得分R_c；选取得分最高的类别作为预测分类结果。

通过对网络训练不断优化权重

得到最终训练完备的权重

后，对输入的图像进行分类，设预测的分类结果为c，将输入图像的各特征图f_u与

相乘求和获得图像H_c，将H_c上采样至原图像的大小，得到输入图像的语义重要性图，语义重要性图为取值为0到255的灰度图，像素的灰度值表示像素属于类别c的概率。

步骤2，将输入图像进行分块，对每个图像块依据其语义重要程度计算对应的压缩比例。

设图像被分为N块，图像的平均压缩等级为

则所有图像块的压缩等级之和为

对每个图像块，根据块内像素点的灰度值之和得到图像块的语义重要性值，则图像块i的语义重要程度L_i的计算方法是：图像块i的语义重要性值/图像的所有图像块的语义重要性值之和；i＝1,2,…,N；得到图像块i的压缩等级

表示向下取整。

步骤3，使用基于CNN和循环神经网络LSTM进行图像压缩。

相对于现有技术，本发明的优点与积极效果在于：

(1)本发明针对人眼对于图像中前景的关注度高于背景的特性，将深度学习在图像语义分析和图像压缩领域的应用相结合，提出了基于语义分析的图像压缩框架，由语义分析网络和图像压缩网路两个神经网络构成。语义分析网络负责使用卷积神经网络提取图像的语义重要区域，并根据每个图像块对应的语义重要程度计算压缩等级。图像压缩网络根据计算好的压缩等级使用循环神经网络对图像进行有区别、分等级的压缩。实验结果有效表明本发明方法可以在同等压缩开销下将更多的压缩比特分配给语义重要区域，提高图像中人眼关注区域的视觉质量，同时也可以在保证前景(语义重要区域)恢复质量相同的情况下，整张图片占据的空间更小，在物联网图像处理方面有很好的应用价值。

(2)本发明基于语义重要程度的压缩比特分配方法，解决了如何根据语义分析网络得到的重要性图计算出图像每个区域对应的压缩等级，该分配方法可以保证在分配空间大小等量的情况下，根据语义重要程度分配图像不同区域的压缩比特，以实现基于语义重要度分析的图像压缩效果。

附图说明

图1是本发明的图像压缩方法实现的总体框架示意图；

图2是语义分析网络结构示意图；

图3是语义分析结果示意图；

图4是单次迭代网络结构；

图5是LSTM单元结构。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提出的基于语义分析的深度学习图像压缩方法的一个实现框架如图1所示，主要包含语义分析、压缩比特分配和图像压缩三部分。其中，语义分析使用卷积神经网络CNN对图像进行特征提取，并标识出每个像素的语义重要程度。压缩比特分配根据生成的语义重要性图计算出每个图像块对应的压缩比例。图像压缩使用基于CNN和循环神经网络LSTM(Long Short-Term Memory，长短期记忆网络)的网络结构对图像按照计算好的压缩比例进行压缩和恢复。

本发明方法使用的语义分析网络的结构如图2所示，采用与VGG16类似的基于分类训练的网络架构。前五个卷积层用来提取输入图像的特征，在最后一层卷积层后使用全局平均池化(GAP)层来代替全连接层(FC)将特征图转换为特征向量，相比于FC，GAP减少了大量的网络参数，防止过拟合，同时最重要的是GAP可以保存图像的空间信息。最后将特征向量与其对应权重的加权线性和输入至softmax层得到最终的类激活映射。

(1)首先，说明本发明使用的语义分析网络标识图像中每个像素的语义重要度的过程。

设给定一张输入图像I及类别集合C，I通过卷积神经网络CNN得到g个特征图f_u，此处g的个数与集合C中类别数量相同，u＝1,2,…g。类别集合C为图像识别的物体类别的集合，本发明实施例中采用的caltech-256数据集，包含256个物体类别。G(·)表示对每个特征图f_u进行全局平均池化操作。

是每个特征图f_u被分类为类别c的概率，即f_u与类c关联的权重，c∈C。设P_c为图像I属于类c的概率，是通过每个特征图f_u的全局平均池化结果与其关联的特定类别c的权重

相乘求和得到，如公式(1)所示。

将P_c输入softmax层，得到分类得分R_c：

选取得分最高的类别作为预测分类结果，将其与图像真实类别标签的交叉熵作为损失函数对网络进行训练，不断优化权重

得到最终训练完备的权重

后，可以使用f_u与

的加权线性和图H_c来可视化图像I中每个像素属于类别c的概率，如公式(3)所示。

将H_c上采样至原图的大小，得到代表语义重要性的灰度图，再将灰度图以热图方式绘制，将绘制好的热图与原图进行叠加，即可利用热力图的方式得到原图I的语义重要性表达。

本步骤中，利用卷积神经网络对一张图片提取到g个特征图，每个特征图提取到的是图片的不同部分或不同属性。因为卷积核数量g与类别集合C的数量相同，所以本发明进行合理估计，认为每个卷积核提取的是图片属于某一特定(或多种)类别的特征。然后采用全局平均池化方法对每个特征图进行处理共得到g个均值，将这些均值与权重

相乘后接softmax做分类处理，利用交叉熵损失函数进行反向传播，以此训练过程不断优化参数

直到分类结果达到最优。

可视化的方法，是在上述训练过程全部结束后，输入一张测试图片，利用训练好的网络得到其分类类别c并提取出g个特征图，将对应的权重

分别与g个特征图进行加权求和，将得到的结果进行上采样到原图大小并与其叠加，即生成表征图像语义重要程度的热力图。如图3所示，对四张图像采用上述语义分析网络进行分析，得到的语义重要程度示意，从图中可以看出，对人眼关注区域的语义重要程度比较高。

(2)其次，说明本发明方法中的压缩比特分配的过程。

为了实现对图像有区分的压缩，需要对其进行分块处理，考虑到较大的块会降低计算速度并且较小的块会影响像素之间的信息熵，效仿JPEG方法，将图像分为8×8的块，对每一个图像块依据其语义重要程度计算对应的压缩比例。在本发明的压缩框架中，使用图像压缩网络的迭代次数来控制压缩比特的分配。

设输入图像大小为H×W，整个图片被分为N块8×8大小的图像块，N＝H×W/8×8。设图像的平均压缩等级为

图像块i的压缩等级为K_i，为了保证压缩比率的一致，所有图像块的压缩等级之和应为：

通过图像语义分析网络可以得到输入图片的语义重要性图，一张取值为0到255的灰度图。每个像素灰度值的高低表征该像素属于人眼关注的某个类别的概率，可以利用此概率计算该像素的语义重要程度。令图像块i的语义重要性值V_i为该图像块中每个像素点对应的灰度值之和，则图像块i的语义重要程度L_i表示为：

由于各图像块压缩等级之和为

图像块i的压缩等级T_i可以表示为：

其中，

表示向下取整函数，目的是保证平均压缩等级不超过

(3)下面说明本发明进行图像压缩的过程。

在得到每个图像块的压缩等级后，可以使用图像压缩网络按对应的迭代次数对每个图像块进行压缩，最后再合并为一张完整的图像。

本发明在图像压缩部分采用了集编码器E、二值化器B、解码器D于一体，可端到端训练的CNN/RNN网络，网络可进行多次迭代，每次迭代过程中，编码器E将图片编码为representation code，二值化器B将representation code变换为二值化编码，解码器D通过二值化编码预测输入的原始图片。该过程将被重复，利用上一次迭代的输出与输入的残差作为下一次迭代的输入，每次迭代过程描述如下：

b_k＝B(E_k(r_k-1)),y_k＝D_k(b_k),r_k＝|y_k-1-y_k| (7)

其中，b_k是第k次迭代中的二值化编码，B是二值化器，E_k表示第k次迭代的编码器，r_k-1是第k-1次迭代输入和输出的残差，D_k表示第k次迭代的解码器，y_k是第k次迭代中预测的输出，r_k是第k次迭代中输出y_k和输入y_k-1的残差。单次迭代的网络结构如图4所示。

编码器和解码器中使用了LSTM单元来记忆每次迭代过程中预测输出与输入的残差，LSTM单元结构如图5所示。其中c_k-1和h_k-1分别是上一次迭代中该LSTM单元的记忆状态和隐层状态，x_k是第k次迭代的LSTM单元的输入向量，它等于本次迭代中上一层网络的输出。每个LSTM单元包含两个卷积神经网络，卷积神经网络Conv_in作用于输入向量x_k，卷积神经网络Conv_hi作用于上一次迭代中该LSTM单元的隐层状态向量h_k-1。对于给定的输入向量x_k，上次迭代的记忆状态c_k-1和隐层状态h_k-1，本次迭代的c_k和h_k计算方法如下：

h_k＝o⊙tanh(c_k) (10)

其中，⊙表示元素级乘法。f是本LSTM单元中遗忘门，i是输入门，

是细胞状态，o是输出门，σ是sigmod激活函数，tanh是tanh激活函数。

二值化器先使用一个卷积神经网络加tanh激活函数，将编码器得到的representation code映射到(-1，1)的区间内，再使用sign函数将区间内的编码二值化为集合{-1，1}。每一次迭代可以将一个输入为H×W×3的向量压缩为(H/16)×(W/16)×32的二值化编码，即每次迭代的bpp(bit per pixel)为1/8，经过k次迭代后的压缩比例为k/192。常用的图像都是RGB三通道图像，所以输入图像对应的向量为H×W×3，3是图像通道数。压缩的二值化编码大小为(H/16)×(W/16)×32，其中的数值16和32是根据卷积神经网络推算得到的。

解码器包含CNN、LSTM结构及Sub-pixel结构，其中Sub-pixel层对特征向量进行上采样，最后还原为输入图片的尺度。网络训练过程中使用损失函数计算每次迭代的输出和输入的残差，整个网络的损失函数可以表示为

显然，所描述的实施例也仅仅是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种基于语义分析的深度学习图像压缩方法，其特征在于，包括如下步骤：

步骤1，对输入的图像使用语义分析网络标识每个像素的语义重要程度；

所述的语义分析网络中在卷积神经网络的最后一个卷积层使用全局平均池化层，将得到的特征图转换为特征向量，将特征向量的加权线性和输入至softmax层得到最终的分类；

其中，设图像经过卷积神经网络得到g个特征图f_u，g为类别数量，对每个特征图进行全局平均池化，设权重

相乘求和得到图像属于类别c的概率P_c；将概率P_c输入softmax层，得到分类得分R_c；选取得分最高的类别作为预测分类结果；

通过对网络训练不断优化权重

得到最终训练完备的权重

相乘求和获得图像H_c，使用图H_c来可视化图像中每个像素属于类别c的概率；将H_c上采样至原图像的大小，得到输入图像的语义重要性图，语义重要性图为取值为0到255的灰度图，像素的灰度值表示像素属于类别c的概率；

步骤2，将输入图像进行分块，对每个图像块依据其语义重要程度计算对应的压缩比例；

设图像被分为N块，图像的平均压缩等级为

则所有图像块的压缩等级之和为

对每个图像块，根据块内像素点的灰度值之和得到图像块的语义重要性值，则图像块i的语义重要程度L_i的计算方法是：图像块i的语义重要性值/图像的所有图像块的语义重要性值之和，表示如下：

其中，图像块i的语义重要性值V_i为该图像块中每个像素点对应的灰度值之和，i＝1,2,…,N；

得到图像块i的压缩等级

表示向下取整；

步骤3，使用基于卷积神经网络CNN和循环神经网络LSTM进行图像压缩。

2.根据权利要求1所述的基于语义分析的深度学习图像压缩方法，其特征在于，所述的步骤3中，对图像压缩时，采用集编码器、二值化器和解码器于一体，端到端训练的神经网络，网络进行一次或多次迭代；每次迭代过程中，编码器对图片编码，二值化器将编码变换为二值化编码，解码器通过二值化编码预测输入的原始图片，进行多次迭代时，迭代过程被重复，利用上一次迭代的输出与输入的残差作为下一次迭代的输入；编码器和解码器中使用了LSTM单元来记忆每次迭代过程中预测输出与输入的残差。