CN110225341B

CN110225341B - 一种任务驱动的码流结构化图像编码方法

Info

Publication number: CN110225341B
Application number: CN201910474710.0A
Authority: CN
Inventors: 陈志波; 何天宇; 孙思萌
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2020-08-28
Anticipated expiration: 2039-06-03
Also published as: CN110225341A

Abstract

本发明涉及一种任务驱动的码流结构化图像编码方法，包括：码流结构化编码器和解码器，码流结构化编码器实现输入图像的结构化表示和压缩，解码器根据压缩得到的特征对输入图像进行重构；所述码流结构化编码器包括：特征提取、目标检测、量化、预测编码过程和基于对象的码流划分过程；本发明对图像进行编码，编码过程中在特征层面检测对象，并基于检测结果进行结构化码流的生成，以实现根据不同的智能分析任务针对性选择部分结构化码流或者全部码流进行解析的目的，使得图像编码传输应用这一过程更为高效和灵活。

Description

一种任务驱动的码流结构化图像编码方法

技术领域

本发明涉及一种任务驱动的码流结构化图像编码方法，属于图像编码和深度学习技术领域。

背景技术

现有的基于学习的图像压缩方法，多从率失真的角度考虑进行优化的。但随着深度学习应用相关研究工作的逐步深入和成熟，图像或者视频信息在越来越多的场合会被用作机器智能分析任务的输入，例如监控视频分析、自动驾驶、远程交互、远程医疗等等。目前的方法都是需要对压缩的图像或者视频二进制码流数据进行传输、储存和解码，恢复成图像视频信号再进行机器智能分析，随着大量图像视频数据的采集和处理，这会需要大量的传输带宽、存储空间和解码运算。随着5G和边缘计算的发展，更多的智能分析可以在边缘服务器进行处理，因此如果能够设计具有结构化码流的图像视频编码方法，实现无需对码流进行解码重建图像，仅仅通过对码流进行部分解析就能实现诸多智能分析任务，将极大地降低所需的传输带宽、存储空间和解码运算，推进未来5G边缘计算与智能多媒体计算的结合和广泛应用。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种任务驱动的码流结构化图像编码方法，对图像进行编码，编码过程中在特征层面检测对象，并基于检测结果进行结构化码流的生成，以实现根据不同的智能分析任务针对性选择部分结构化码流或者全部码流进行解析的目的，使得图像编码传输应用这一过程更为高效和灵活。

本发明技术解决方案：

一种任务驱动的码流结构化图像编码方法，包括：码流结构化编码器和解码器，码流结构化编码器实现输入图像的结构化表示和压缩，解码器根据压缩得到的特征对输入图像进行重构；所述码流结构化编码器包括：特征提取、目标检测、量化、预测编码过程和基于对象的码流划分过程；

特征提取过程，对输入图像进行多尺度特征提取和融合，其输出的特征同时作为量化和目标检测的输入；

目标检测过程，包含一个区域决策模块和对齐模块，对所述特征进行基于对象的检测，输出检测结果辅助结构化编码的实现，实现过程为：输入的所述特征通过区域决策模块得到所有对象可能存在区域的边界框(bounding boxes)，所有可能结果经过对齐模块处理后，进行分类任务，并对每个边界框(bounding boxes)计算损失函数，随后通过阈值处理，判决得到得分最高的结果作为最终输出结果，输出结果包括边界框和类别标签；

量化过程，对输入的所述特征做数字化的处理；

预测编码过程，预测编码模块根据压缩结果即特征提取的输出，预测后续的特征值，根据重建图像内容自适应地调整局部区域码率，生成重要性映射图，从而更好地控制率失真的平衡，得到更好的压缩性能；

基于对象的码流划分过程：将量化后的特征在空间维度上进行基于对象的划分，划分依据为目标检测的输出结果，即边界框和类别标签，划分过程为：在量化后的特征上，根据边界框切割出对象对应的区域，类别标签指明对象的类别信息；经过划分的不同部分特征将依次通过熵编码处理形成结构化的码流，同时，边界框和类别标签将会被编码到头信息中。

所述特征提取过程以及解码器中增加了附加卷积层，当有不同比特率压缩需求时，不再需要训练整个网络，只需要训练附加层的参数即可。

所述预测编码过程具体实现如下：

(1)量化后的特征作为输入，预测编码模块根据已经处理过的输入特征样本，预测出当前的输入特征样本的特征值，根据重建图像内容自适应的调整局部区域码率，生成重要性映射图；

(2)重要性映射图与量化后的特征进行点积操作，对量化后的特征进行基于重建图像内容的自适应调整，降低码率的同时使得重建图像具有更好的重建效果。

所述基于对象的码流划分过程具体实现过程如下：

(1)根据目标检测过程的输出结果——边界框和类别标签，对量化后的特征进行处理，即边界框即归一化的指定了对象所处的位置和所占范围的大小，根据边界框在空间维度上对特征进行切割，得到含有当前对象所有信息的特征，对应的类别标签指明了该对象的类别信息；

(2)对图像中的所有对象进行步骤(1)操作后，得到所有对象对应的特征信息和对象的类别信息，基于对象的特征信息依次经过熵编码后形成码流，同时边界框和类别标签按照同样的顺序依次编码放入头信息中，由此，根据终端不同的任务，选择恢复完整图像，恢复部分图像，或者直接利用部分码流进行机器智能分析任务。

本发明与现有技术相比的优点在于：

(1)本发明对于图像的压缩性能上，表现如图6所示，图中深色虚线对应对完整图片进行编码压缩时的性能，深色实线对应码流结构化图像编码方法的性能，其余点划线对应BPG、JPEG等传统图像编码方法；图中我们可以看出深色实线，也就是本发明的方法在大范围的bpp内性能远好于JPEG、JPEG2000和WebP编码方法的，在高中码率性能优于BPG方法，在低码率略差于BPG方法，但鉴于本发明的功能性和高效性，综合考虑其性能是远远优于上述传统编码方法的。

(2)本发明提出在特征上根据目标检测结果进行在空间维度上基于对象的划分，并且将划分结果结构化编码的方法。由于针对具体对象的部分码流中包含了该对象的全部特征信息，该方法能够达到针对不同的机器智能分析任务，仅传输或者恢复任务所需要的部分信息的效果，而非完整传输图像信息进行机器智能分析任务，以提高任务实现的效率。

(3)本发明中，由于经过基于对象的码流划分过程，结构化码流中包含图像中各个对象的所有信息，所以生成的结构化码流甚至还可以直接输入机器智能分析任务网络中，在保证机器智能分析任务的准确率的同时，省去了解码过程，大大降低了计算的复杂度。

(4)本发明提出了对于不同的目标压缩率仅需要在已有网络基础上训练部分网络参数即可实现的方法。通过对特征提取模块添加附加卷积层，改变压缩率时，不同于传统解决方法中需要训练全新的网络参数，只需要训练附加卷积层即可，大大降低了实现多种码率压缩时，减少了训练时间，整个网络参数需要的存储空间，增加了网络的实用价值。

附图说明

图1为本发明中任务驱动的图像结构化编码框架——码流结构化编码器；

图2为本发明中任务驱动的图像结构化编码框架——解码器及应用；

图3为本发明的结构化码流；

图4为模型共享示意图；

图5为本发明中输入图像，特征，解压缩后图像对齐示意图；

图6为本发明实现的压缩编码性能和传统方法对比结果图。

具体实施方式

如图1所示，本发明的一种任务驱动的码流结构化图像编码方法，分成两个部分，包括码流结构化编码器和解码器，码流结构化编码器实现输入图像的结构化表示和压缩，解码器根据压缩得到的特征对输入图像进行重构。

码流结构化编码器，主要包括特征提取、目标检测、量化、预测编码和基于对象的码流划分过程；特征提取，对输入图像进行多尺度特征提取和融合，其输出同时作为量化和目标检测的输入：输入图像分别经过不同步长的下采样操作，从而得到不同感受野情况下捕获的输入图像特征，将这些特征变换到相同尺寸后连接到一起，得到多尺度融合的特征；目标检测，该部分包含了一个区域决策模块和对齐模块，区域决策模块将多尺度融合的特征作为输入，输出为输入图像中包含的所有对象对应的边界框以及类别标签，该模块的具体实现过程如下：预设若干个不同尺寸的矩形框分别对输入进行空间维度的扫描操作，得到各个对象所有可能存在区域的边界框(bounding boxes)，候选边界框经过置信度的打分筛选得到最终的区域决策建议边界框；随后区域决策建议需要经过对齐处理，变换成相同尺寸，进行分类任务，从而得到对象的类别标签(labels)；量化，对输入特征做数字化的处理，将在幅度上连续的各个像素值映射成预设好的量化值；预测编码，预测编码会和特征提取以及量化进行并行训练，用于根据压缩结果，即特征提取的输出，预测后续的特征值，该模块能够根据重建图像内容自适应地调整局部区域码率，生成重要性映射图(importancemap)，从而更好地控制率失真的平衡。率失真的公示如下：

R指的是比特率，D指的是重建失真，二者呈现相互制约的关系，λ是调整二者关系的超参数。该公式为衡量图像压缩性能的公式，比特率R即压缩一张图像成为二进制码流时，单位像素所需要的比特长度，重建失真D即重建图像与原始输入图像的差异，二者加权和用于表示压缩综合的性能。二者呈现相互制约的关系，即比特率减小时压缩损失的信息多，重建失真变大，反之，压缩损失的信息少，重建失真减少。

输入图像经过上述编码器中各个模块并生成结构化码流的过程简述为：输入图像经过特征提取模块的到特征提取的输出，通过量化和预测编码过程得到的数字化处理和进一步的去冗余处理后，将被在空间维度上进行基于对象的划分，划分依据为目标检测的输出结果——边界框和类别标签。经过划分的不同部分特征将依次通过熵编码处理形成结构化的码流，同时，边界框和类别标签将会被编码到头信息中。由此，根据终端不同的任务，可以选择恢复完整图像，恢复部分图像，或者直接利用部分码流进行机器智能分析任务。

解码器，其功能为根据码流结构化编码器压缩的结果对输入图像整体或局部内容进行解析或者重构。

同时，如图4所示，在码流结构化编码器中特征提取以及解码器中增加了附加卷积层，当有不同比特率压缩需求时，不再需要训练整个网络，只需要训练附加层的参数即可。

如图1所示，任务驱动的图像结构化编码架构的码流结构化编码器框图。对于输入的图像，首先进行特征提取的过程，提取得到的特征一方面通过区域决策网络得到需要的类别标签(Class ID)和边界框(bounding box)；另一方面通过量化过程和重要性映射图(importance map)的处理，得到量化的特征信息，最终根据目标检测网络的输出的边界框信息，对特征信息进行分割，同时类别标签信息和边界框信息被封装到码流的头信息中，供图像检索或者完整码流的恢复使用。

如图2所示，为任务驱动的图像结构化编码架构的解码器框图以及部分机器智能应用的举例。结构化码流全部信息可以用作图片的恢复和机器智能分析任务，同时仅仅截取头信息，由于其包含了类别标签和边界框信息，可以用作检索任务；取其余部分码流可以用作部分解码以及智能分析任务，例如图中的分类任务和姿态估计任务。

如图3所示，为结构化码流(Semantically Structured Bit-stream，SSB)的示意图。

如图4所示，为模型共享的结构图，灰色部分为附加卷积层。针对不同目标压缩比特率仅训练灰色部分网络即可，其余部分在训练过程中固定。

下图5为输入图像，特征和恢复重建图像的对齐关系，对预测坐标进行了归一化的工作，因此在同样经过归一化后的输入图片、特征和解压缩后图片上确定的是同一个位置，完全对应。

对于整个压缩编码框架的网络结构，可以选择采用自编码模型(Autoencoder，AE)等端到端基于学习的压缩模型，其中编码器各个模块的实现举例如下：

特征提取模块可以采用经典的多尺度特征提取网络SPPNet(Spatial PyramidPooling Network)实现，即对输入图像进行不同步长的下采样操作，通常选择提取四个不同尺度的特征，下采样操作采用步长为2的卷积层实现，输入图像分别经过1，2，3，4次该卷积层后得到不同尺度的特征，将提取到的不同尺度特征拼接到一起，得到多尺度融合的特征；

并行训练的预测编码可以选择3D-CNN网络实现，即三维卷积神经网络实现；

目标检测部分，可以选择采用时下经典检测网络——Mask R-CNN中的区域决策网络(Region Proposal Network，RPN)和对齐模块(RoIAlign)实现，得到准确度较高的边界框和类别标签，以使得特征能够准确地基于对象进行划分：

区域决策网络中，首先预设的多种边界框分别对特征进行扫描捕获可能存在对象的区域，对可能区域进行置信度的打分，筛选出最终区域选择建议；

对齐模块，采用对不同尺寸的建议区域进行双线性差值的操作，将区域决策模块输出的不同大小的特征区域变换成为相同大小，便于输入分类网络得到类别标签的输出结果；

量化模块，需要预设若干个量化值，量化过程中将待量化的特征中每个点的值映射成最接近的量化点；

模型共享模块，即附加卷积层，如图4所示，可以选择设置3层左右卷积层，针对高码率训练好完整网络后，当需要针对低码率压缩的压缩编码框架时，只需要固定除附加卷积层以外的所有网络参数，进行训练即可，对于针对不同码率训练好的若干个附加卷积层，根据实际需求替换附加层参数便可实现不同码率的压缩；

解码器的实现通常由若干转置卷积层(Deconvolutional)组成，卷积层层数设置适当即可，最终要将压缩特征恢复到和原始输入图像相同尺寸和通道数。

在网络的训练中，压缩结果的评判标准采用更接近人眼感知系统的衡量指标——多层级结构相似性(Multi-Scale-Structural Similarity Index,MS-SSIM)。

利用训练好的网络，输入图像通过编码器压缩得到结构化码流，针对不同的机器智能分析任务，可以选择提取码流的不同部分完成不同的机器智能分析任务，例如，终端需要实现检索任务，只需要遍历各个码流的头部即可检索出包含目标对象的图像；再者终端需要在监控录像上实现车牌的匹配，只需要提取车辆对应的码流部分，通过解码器进行恢复或者直接进行匹配工作；再或者，终端需要整张图像，取全部码流即可通过解码器恢复完整图。

总之，本发明提出了任务驱动的基于深度学习的码流结构化图像编码方法，编码过程中在特征层面检测对象，并基于检测结果进行结构化码流的生成，以实现对码流进行部分解析就能够实现诸多智能分析任务的目的。该编码结构有利于实现智能分析任务边缘化，为交互性编码的实现提供了一种可行思路。

Claims

1.一种任务驱动的码流结构化图像编码方法，其特征在于，包括：码流结构化编码器和解码器，码流结构化编码器实现输入图像的结构化表示和压缩，解码器根据压缩得到的特征对输入图像进行重构；所述码流结构化编码器包括：特征提取、目标检测、量化、预测编码过程和基于对象的码流划分过程；

量化过程，对输入的所述特征做数字化的处理；

2.根据权利要求1所述的任务驱动的码流结构化图像编码方法，其特征在于：所述特征提取过程以及解码器中增加了附加卷积层，选择设置3层卷积层，针对高码率训练好完整网络后，当有不同比特率压缩需求时，不再需要训练整个网络，只需要训练附加层的参数即可；对于针对不同码率训练好的若干个附加卷积层，根据实际需求替换附加层参数便实现不同码率的压缩。

3.根据权利要求1所述的任务驱动的码流结构化图像编码方法，其特征在于：所述预测编码过程具体实现如下：

4.根据权利要求1所述的任务驱动的码流结构化图像编码方法，其特征在于：所述基于对象的码流划分过程具体实现过程如下：