CN111147862A

CN111147862A - 一种基于目标编码的端到端图像压缩方法

Info

Publication number: CN111147862A
Application number: CN202010003469.6A
Authority: CN
Inventors: 马展; 夏琪; 刘浩杰
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-05-12
Anticipated expiration: 2040-01-03
Also published as: CN111147862B

Abstract

本发明公开了一种基于目标编码的图像压缩方法，步骤如下：(1)获得输入图像的语义分割结果；(2)将语义分割结果转化为几组二值化矩阵，分别对应为图像中各个目标和背景区域的掩膜；(3)将图像输入若干个编码器，得到若干个不同码率的特征图；(4)将各掩膜与相应码率的特征图相乘，得到各特定区域的特征图；(5)将各特征图量化；(6)分别计算各量化特征图的信息熵；(7)将所有量化特征图相加得到整幅图像的完整特征图；(8)对特征图进行熵编码和熵解码；(9)将图像特征图输入解码器，得到重建图像；(10)构建损失函数，利用优化器训练图像压缩网络，得到对应于某一码率的最优模型。利用本方法对图像进行压缩，能够有效提升在极低码率情况下重建图像的主观质量。

Description

一种基于目标编码的端到端图像压缩方法

技术领域

本发明涉及图像压缩领域，尤其涉及一种基于目标编码的端到端图像压缩方法。

背景技术

图像压缩在现代数字信号处理和多媒体应用中是一项非常基础且重要的研究工作，该技术使得信息的高效传输和存储成为可能。现有的图像压缩算法包括传统方法和基于深度学习的端到端压缩算法。传统算法例如：JPEG(Joint Photographic ExpertsGroup)、JPEG2000、BPG(Better Portable Graphics)等在低码率时表现不佳，重建图像会有很严重的块效应、模糊、振铃效应等缺陷。基于深度学习的图像压缩方法在主观质量和客观指标上相比于传统算法都取得了相当大的提升，有良好的应用前景。然而，目前大多数算法都采取均匀编码的方式，对图像的每个像素点都分配相同的码率。

对于包含目标物体的图像，人眼往往更关注前景目标，而背景区域的质量对人眼视觉的主观感受影响不大。因此，对前景目标分配更高码率、降低背景区域的码率可以在不增加总体码率消耗的情况下，提升在极低码率条件下重建图像的主观质量以及提升后续计算机视觉任务的精度。然而，由于传统算法对目标特征的提取精度不高以及硬件算力有限等限制，基于目标编码的传统研究方法未能得到实际应用。近年来，随着深度学习的发展，深度神经网络对不规则目标的特征提取精度大大提升，硬件算力也不断增强，基于目标编码的图像压缩问题期望可以得到很好地解决。

发明内容

针对以上现有图像压缩方法中存在的缺陷，本发明的目的在于提出一种可行的基于目标编码的端到端图像压缩方法。

为达上述目的，本发明采用的技术方案如下：

一种基于目标编码的图像压缩方法，包括如下步骤：

步骤1，将待压缩图像输入预训练完成的目标分割神经网络，得到输入图像的语义分割结果；

步骤2，将语义分割结果转化为几组二值化矩阵，矩阵元素为1的区域代表某目标位置，矩阵元素为0的区域代表图像中该目标以外的其他区域，得到图像中各目标区域掩膜和背景区域掩膜；

步骤3，将输入图像分别用若干个具有相同网络结构但不同模型参数的编码器进行编码，得到对应于不同码率的图像特征图；

步骤4，将各目标区域掩膜与相应的高码率图像特征图相乘，得到图像各目标区域的特征图；将背景区域掩膜与相应的低码率图像特征图相乘，得到图像背景区域的特征图；

步骤5，对各目标区域的特征图和背景区域的特征图进行量化操作，得到目标量化特征图和背景量化特征图；

步骤6，利用基于神经网络的信息熵计算网络，分别计算出目标量化特征图和背景量化特征图的信息熵；

步骤7，将各目标量化特征图和背景量化特征图相加，得到图像完整的特征图；

步骤8，利用计算出的信息熵对步骤7得到的图像特征图进行熵编码和熵解码；

步骤9，将熵解码得到的重建特征图输入解码器，得到重建图像；

步骤10，构建损失函数，使用优化器对由编码器、解码器和信息熵计算网络组成的图像压缩模型进行端到端训练优化，使得重建图像各目标区域码率更高，图像背景区域码率较低。

本发明利用目标分割网络分离图像中各目标和背景区域，从而能实现对图像各个目标之间、各目标与背景区域之间分别编码的目的。通过增加目标区域的码率，同时降低背景区域的码率，能够在不增加总体码率消耗的情况下提升图像的主观质量。同时本发明采用基于神经网络的编码器和解码器，能够实现端到端的算法优化。相比于传统算法和基于深度学习的均匀编码图像压缩算法，本方法可以有效提升在极低码率下重建图像的主观质量。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面将结合附图及具体实施例对本发明进行详细描述。

参照图1，本实施例的一种基于目标编码的图像压缩方法，具体步骤如下：

步骤1，将待压缩图像输入目标分割神经网络，得到图像的语义分割结果，具体过程如下：

步骤11，首先完成目标分割神经网络的训练，过程为：将所有目标种类用正整数编号，如1、2......；将训练集的图片输入目标分割网络，得到语义分割结果，该语义分割结果为一个二维矩阵，背景区域元素值为0，各目标区域元素值为相应类别对应的正整数；计算输出的语义分割结果与正确分割标签的误差；利用该误差进行反向传播，优化网络模型参数。本实施例中目标分割网络采用的是论文Chen L C,Papandreou G,Kokkinos I,etal.Deeplab:Semantic image segmentation with deep convolutional nets,atrousconvolution,and fully connected crfs[J].IEEE transactions on pattern analysisand machine intelligence,2017,40(4):834-848.中ResNet101的简化版ResNet34网络，该网络由34个残差块组成，引入了空洞卷积、池化和全卷积CRF(Conditional RandomFields)来提升分割精度。

步骤12，将待压缩图像输入预训练完成的目标分割神经网络，得到输入图像的语义分割结果。

步骤2，将语义分割结果处理为几组二值化矩阵，分别对应为图像的各目标和背景区域的掩膜，具体过程如下：

步骤21，将图像的语义分割结果中为1的元素置为True，不为1的元素置为False；再将布尔型矩阵转为浮点型0、1矩阵，得到类别对应于1的目标的掩膜。

步骤22，将图像语义分割结果中为2的元素置为True，不为2的元素置为False，再将布尔型矩阵转为浮点型0、1矩阵，得到类别对应于2的目标的掩膜。

步骤23，重复上述步骤，可得到所有类别目标的掩膜。

步骤24，用一个与目标掩膜矩阵大小相同、元素值全为1的矩阵减去目标掩膜之和，得到图像背景区域掩膜。

步骤3，将输入图像(维度为H*W*3)分别输入若干个相同网络结构不同模型参数的编码器，得到对应于不同码率的图像特征图(维度为H*W*C)。本实施例中采用的编码器为论文Chen T,Liu H,Ma Z,et al.Neural Image Compression via Non-Local AttentionOptimization and Improved Context Modeling[J].arXiv preprint arXiv:1910.06244,2019.(下简称论文NLAIC)中基于神经网络的编码器，由若干个卷积层和残差块组成，特点在于引入了NLAM(Non-Local Attention Module)模块，能对图像不同位置的特征赋予不同的权重。

步骤4，将各目标掩膜(大小为H*W)与相应的高码率的图像特征图(大小为H*W*C)逐元素相乘，图像特征图每个通道的元素乘以相同的掩膜值，得到图像各目标的特征图。将背景区域掩膜(大小为H*W)与对应于低码率的图像特征图(大小为H*W*C)逐元素相乘，图像特征图每个通道的元素乘以相同的掩膜值，得到图像背景区域的特征图。

步骤5，对目标特征图和背景特征图进行量化操作。

步骤6，利用论文NLAIC中基于神经网络的信息熵计算网络分别计算出各目标量化特征图和背景量化特征图的信息熵。

步骤7，将各目标量化特征图和背景量化特征图相加，得到图像完整的特征图。实现了码率在图像不同区域的不均匀分布。

步骤8，利用计算出的信息熵对步骤7得到的图像特征图进行熵编码和熵解码。

步骤9，将熵解码得到的重建特征图输入解码器，得到重建图像。解码器采用的是论文NLAIC中的基于神经网络的解码器结构。

步骤10，构建损失函数为：

Loss_func＝λ(1-d)+a₁R_bk+a₂R_{obj_1}+a₃R_{obj_2}

其中，d为利用MS-SSIM(Multi-Scale-Structural Similarity Index)计算的压缩图像与输入图像之间的差距。R_bk、R_{obj_1}、R_{obj_2}分别为图像背景区域和目标区域编码的码率。λ、a₁、a₂、a₃为手动设置的参数。使用Adam优化器对由前述编码器、解码器、信息熵计算网络组成的图像压缩模型进行端到端训练优化。设置a₁＞a₂、a₃，使得R_bk＜R_{obj_1}、R_{obj_2}，向目标区域分配更高码率。调节λ、a₁、a₂、a₃的数值大小，得到不同的压缩率结果。

Claims

1.一种基于目标编码的图像压缩方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于目标编码的图像压缩方法，其特征在于，所述步骤2中，处理的具体过程为：

步骤21，将图像的语义分割结果矩阵中为1的元素置为True，不为1的元素置为False；再将该布尔型矩阵转为浮点型0、1矩阵，得到类别对应于1的目标区域掩膜；

步骤22，将图像语义分割结果矩阵中为2的元素置为True，不为2的元素置为False，再将该布尔型矩阵转为浮点型0、1矩阵，得到类别对应于2的目标区域掩膜；

步骤23，重复上述步骤，可得到所有类别的目标区域掩膜；

步骤24，用一个与目标掩膜矩阵大小相同、元素值全为1的矩阵减去目标区域掩膜之和，得到图像背景区域掩膜。