CN115278246B

CN115278246B - 一种深度图端到端智能压缩编码方法及装置

Info

Publication number: CN115278246B
Application number: CN202210915053.0A
Authority: CN
Inventors: 彭勃; 荆钰滢; 靳登朝; 刘祥瑞; 潘兆庆; 雷建军
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2024-04-16
Anticipated expiration: 2042-08-01
Also published as: CN115278246A

Abstract

本发明公开了一种深度图端到端智能压缩编码方法及装置，所述方法包括：构建基于纹理信息引导的深度图压缩网络，所述深度图压缩网络由基于纹理信息引导的编码器、具有纹理信息引导的熵编码模块和基于纹理信息引导的解码器组成；通过率失真损失函数训练所述深度图压缩网络，基于训练后的深度图压缩网络对深度图进行压缩。所述装置包括：处理器和存储器。本发明利用端到端网络的特征表达能力，挖掘深度图与其对应的纹理图像间的结构和语义相似性，获取纹理上下文引导深度图压缩，有效去除了深度图冗余，提高了深度图压缩效率。

Description

一种深度图端到端智能压缩编码方法及装置

技术领域

本发明涉及深度学习、图像压缩领域，尤其涉及一种深度图端到端智能压缩编码方法及装置。

背景技术

3D视频在人类生活中发挥着重要作用，被广泛应用于3D影院、虚拟现实(VR)、增强现实(AR)等领域，具有巨大的潜在市场。深度图作为三维场景的常见表现形式之一，已经显现出其重要意义，深度图压缩已成为推动三维视频应用的关键技术。为了呈现高质量的合成视点图像、满足3D视频传输的要求，需要研究高效的深度图压缩方法。为了提升深度图的编码效率，3D-HEVC在HEVC(高效视频编码标准)的基础上，引入了一系列针对深度图特性的编码方法。Song等人提出了深度建模模式，通过对深度块的边缘信息进行建模来保存深度边缘。Merkle等人提出了深度楔形和廓形分区，对大面积光滑区域采用平面拟合，对尖锐边缘采用非矩形切割，以适应深度图特性。这些方法通常采用手工设计的工具提升深度图的压缩效率，但是由于整个3D-HEVC框架无法实现端到端联合率失真函数优化，限制了编码性能的进一步提升。

得益于深度学习强大的特征表示能力，近年来，基于变分自编码器结构的彩色图像端到端压缩方法得到了广泛的研究。彩色图像端到端压缩方法主要由编码器、熵模型和解码器组成。编码器利用非线性变换将图像转化为紧凑的潜在表示；熵模型用于估计量化后的潜在表示的概率分布，并进行熵编码；解码器通过非线性变换将量化后的潜在表示恢复为重建图像。Balle等人提出了基于变分自编码器结构的端到端编码框架，引入了超先验模块以捕捉量化后潜在表示中的空间依赖关系。Minnen等人将自回归和分层先验相结合，更好地建模了量化后潜在表示的概率结构。Cheng等人使用离散化的高斯混合似然函数参数化量化后潜在表示的概率分布，提升了熵模型概率估计的准确性。

当前已有的传统深度图压缩方法依赖于传统编码平台，采用手工设计的工具提升深度图的压缩效率，难以实现端到端联合率失真优化，限制了编码性能的进一步提升。现有的端到端图像编码方法都是面向彩色图像的，与彩色图像相比，深度图具有大量平滑区域和物体边界更明显等特点，直接采用彩色图像端到端框架压缩深度图难以取得最优的压缩性能。

发明内容

本发明提供了一种深度图端到端智能压缩编码方法及装置，本发明利用端到端的特征表达能力，挖掘深度图与其对应的纹理图像间的结构和语义相似性，获取纹理上下文引导深度图压缩，有效去除了深度图冗余，提高了深度图压缩效率，详见下文描述：

第一方面，一种深度图端到端智能压缩编码方法，所述方法包括：

构建基于纹理信息引导的深度图压缩网络，所述深度图压缩网络由基于纹理信息引导的编码器、具有纹理信息引导的熵编码模块和基于纹理信息引导的解码器组成；

通过率失真损失函数训练所述深度图压缩网络，基于训练后的深度图压缩网络对深度图进行压缩。

其中，所述基于纹理信息引导的编码器由4个堆叠的纹理引导的变换模块和一个卷积层组成，用于将当前编码深度图x非线性地变换为潜在表示y；

所述变换模块将纹理特征作为上下文引导信息，辅助当前编码深度图x的特征提取，由卷积层生成深度图的紧凑潜在表示y。

进一步地，所述具有纹理信息引导的熵编码模块使用纹理信息辅助的条件熵模型估计量化后的潜在表示的概率分布/>

所述条件熵模型通过提取纹理先验信息，辅助熵参数估计，进行概率估计。

其中，所述基于纹理信息引导的解码器由反卷积层和4个堆叠的纹理引导的逆变换模块组成，用于将由算术解码器根据二进制码流b解码出的量化后的潜在表示非线性地变换为重建深度图/>

所述逆变换模块将纹理特征作为上下文引导信息，辅助深度图的重建过程。

进一步地，所述变换模块具体为：将深度特征和纹理特征F^t作为输入，通过卷积层和广义除数归一化GDN层处理深度特征/>生成初级深度特征F^r：

其中，conv_↓2表示1/2下采样卷积层，在GDN层后应用非局部注意力块，得到增强的深度特征：

F^e＝f(F^r，F^t)，

其中，f(·)表示非局部注意力块；

最后，将增强的深度特征F^e与初级深度特征F^r级联，得到更紧凑的深度特征

其中，表示级联操作，将/>作为下一个纹理引导的变换模块的输入之一。

其中，所述概率分布为：

其中，为/>的第j个通道，C为总通道数，/>为量化后的潜在表示/>的第i个元素，＜i表示的是所有在i之前解码的空域像素点。

所述逆变换模块为：

将深度特征和纹理特征F^t作为输入，通过非局部注意力块得到初级深度特征F^r：

其中，f(·)表示非局部注意力块。

将深度特征与初级深度特征F^r级联，得到增强的深度特征F^e：

通过反卷积层和逆广义除数归一化IGDN层处理F^e，得到放大分辨率的深度特征

其中，conv_↑2表示1/2上采样卷积层，将深度特征被作为下一个纹理引导的逆变换模块的输入之一。

第二方面、一种深度图端到端智能压缩编码装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明提出了一种新的深度图端到端智能压缩编码网络，基于变分自编码器结构，通过纹理信息的引导实现对深度图的高效压缩；

2、本发明设计了一种纹理引导的变换模块，通过将有益的纹理信息作为条件上下文来引导深度图的特征提取，有效去除了深度特征的冗余，从而获得紧凑的深度图潜在表示；

3、本发明设计了一个纹理引导的条件熵模型，从量化后的纹理潜在表示中探索纹理先验，再以纹理先验为条件联合建模量化后的深度潜在表示的概率分布，有效提高了熵模型概率估计的准确性；

4、本发明设计了一种纹理引导的逆变换模块，为深度图的重建提供有益的纹理上下文，提高了深度图的重建质量。

附图说明

图1为一种深度图端到端智能压缩编码方法的流程图；

图2为基于纹理信息引导的深度图压缩网络的结构框图；

图3为纹理引导的变换模块的示意图；

图4为纹理辅助的条件熵模型的示意图；

图5为纹理引导的逆变换模块的示意图；

图6为本发明方法所实现的深度图编码性能提升的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

一、构建基于纹理信息引导的深度图压缩网络

基于纹理信息引导的深度图压缩网络结构如图2所示。该网络主要由基于纹理引导的编码器、具有纹理引导的熵编码模块和基于纹理信息引导的解码器组成。

基于纹理引导变换的编码器由4个堆叠的纹理引导的变换模块和一个卷积层组成，用于将当前编码深度图x非线性地变换为潜在表示y。纹理引导的变换模块将纹理特征作为上下文引导信息，辅助当前编码深度图x的特征提取过程，最后由卷积层生成深度图的紧凑潜在表示y。

在具有纹理引导的熵编码模块中，首先对潜在表示y进行量化，生成量化后的潜在表示然后，使用纹理信息辅助的条件熵模型估计量化后的潜在表示/>的概率分布/>纹理信息辅助的条件熵模型通过提取纹理先验信息，辅助熵参数估计，提高概率估计精度。最后，使用算术编码器根据概率分布/>将量化后的潜在表示/>编码为二进制码流b。

基于纹理信息引导的解码器由反卷积层和4个堆叠的纹理引导的逆变换模块组成，用于将由算术解码器根据二进制码流b解码出的量化后的潜在表示非线性地变换为重建深度图/>纹理引导的逆变换模块将纹理特征作为上下文引导信息，辅助深度图的重建过程，以提高重建深度图的质量。

二、构建纹理引导的变换模块

考虑到深度图及其对应的纹理图像是对同一场景的描述，构建了纹理引导的变化模块，挖掘深度图及其对应的纹理图像之间的结构和语义相似性，以纹理上下文为条件，对输入深度特征进行非线性变换以消除冗余，并输出变换后紧凑的深度特征/>

将深度特征和纹理特征F^t作为纹理引导的变换模块的输入，首先通过卷积层和广义除数归一化GDN层处理深度特征/>生成初级深度特征F^r：

其中，conv_↓2表示1/2下采样卷积层。随后，为了将有益信息从纹理特征传递到深度特征，在GDN层之后应用非局部注意力块，得到增强的深度特征：

F^e＝f(F^r，F^t)，

其中，f(·)表示非局部注意力块。

其中，表示级联操作。同时，/>被作为下一个纹理引导的变换模块的输入之一。

在编码器端采用了4个纹理引导的变换模块来获得深度图的紧凑潜在表示，由于在多个特征尺度上引入了纹理引导的变换模块，深度图的编码冗余被充分减小，从而提高了编码效率。

三、构建纹理辅助的条件熵模型

熵模型用于估计量化后的潜在表示的概率分布，其中适当的条件先验是概率建模的关键。考虑到深度图与对应纹理图像之间的相似性，构建了纹理辅助的条件熵模型，通过将纹理信息作为有效的条件先验来改进概率估计。

首先从量化后的纹理潜在表示中聚合纹理先验/>

其中，为/>的第j个通道，C为总通道数。

随后，作为一个额外的先验，与超先验φ、自回归先验ψ一起用于估计量化后的深度图潜在表示/>的概率分布：

其中，为量化后的潜在表示/>的第i个元素，也就是第i个解码单元，/>分别表示纹理先验、超先验和自回归先验，＜i表示的是所有在i之前解码的空域像素点。此外，/>由高斯条件分布参数化建模：

其中，M为高斯条件模型，μⁱ和σⁱ分别为对应的高斯条件模型的均值参数和方差参数。

高斯模型参数由条件先验估计得到：

其中，v(·)表示由1×1卷积层实现的熵估计器。

四、构建纹理引导的逆变换模块

构建了纹理引导的逆变化模块，以纹理上下文为条件对量化后的深度图潜在表示进行非线性变换，得到最终的重建深度图。

将深度特征和纹理特征F^t作为纹理引导的逆变换模块的输入，首先通过非局部注意力块得到融合了纹理上下文的初级深度特征F^r：

其中，f(·)表示非局部注意力块。

随后，将深度特征与初级深度特征F^r级联，得到增强的深度特征F^e：

其中，表示级联操作。

最后，通过反卷积层和逆广义除数归一化IGDN层处理F^e，得到放大分辨率的深度特征

其中，conv_↑2表示1/2上采样卷积层。同时，放大分辨率的深度特征被作为下一个纹理引导的逆变换模块的输入之一。

在解码器端采用了一系列纹理引导的逆变换模块，并由最后一个纹理引导的逆变换模块输出最终的深度图重建结果，由于在多个特征尺度上引入了纹理引导的逆变换模块，纹理上下文被充分利用，从而提高了深度图重建质量。

五、训练基于纹理信息引导的深度图端到端智能压缩编码网络

该训练过程中，基于纹理信息引导的深度图端到端智能压缩编码网络包括：纹理引导的变换模块、纹理引导的条件熵模型、纹理引导的逆变换模块和率失真损失函数。

该训练过程建立在一般编解码流程的基础上，即编码深度图前，其对应的纹理图像已完成编解码。因此，在压缩深度图时，可以直接获得纹理信息，且不引入额外的比特消耗。该训练过程采用联合自回归模型对纹理图像进行预压缩。

使用率失真损失训练深度图端到端智能压缩编码网络：

L＝R+λD，

其中，R表示根据纹理辅助的条件熵模型估计的概率所计算的比特率，D表示使用均方误差(Mean Square Error，MSE)计算的重建失真，

其中，x表示原始深度图，表示重建深度图。

此外，λ是一个超参数，设置为{32、64、128、256、512}。本发明实施例将BPG(更好的可携式图像)、联合自回归模型与本发明所提方法进行了对比。参见图6，相比于BPG和联合自回归模型，本发明能实现75.965％的比特率节省，而BPG能实现70.631％的性能提升，联合自回归模型能实现69.105％的性能提升，说明本发明所提方案能够有效地去除深度图冗余，提升深度图编码性能。

基于同一发明构思，本发明实施例还提供了一种深度图端到端智能压缩编码装置，该装置包括：处理器和存储器，存储器中存储有程序指令，处理器调用存储器中存储的程序指令以使装置执行实施例中的以下方法步骤：

构建基于纹理信息引导的深度图压缩网络，深度图压缩网络由基于纹理引导的编码器、具有纹理引导的熵编码模块和基于纹理信息引导的解码器组成；

其中，基于纹理引导的编码器由4个堆叠的纹理引导的变换模块和一个卷积层组成，用于将当前编码深度图x非线性地变换为潜在表示y；

变换模块将纹理特征作为上下文引导信息，辅助当前编码深度图x的特征提取，由卷积层生成深度图的紧凑潜在表示y。

进一步地，具有纹理引导的熵编码模块使用纹理信息辅助的条件熵模型估计量化后的潜在表示的概率分布/>

条件熵模型通过提取纹理先验信息，辅助熵参数估计，进行概率估计。

其中，基于纹理信息引导的解码器由反卷积层和4个堆叠的纹理引导的逆变换模块组成，用于将由算术解码器根据二进制码流b解码出的量化后的潜在表示非线性地变换为重建深度图/>

逆变换模块将纹理特征作为上下文引导信息，辅助深度图的重建过程。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种深度图端到端智能压缩编码方法，其特征在于，所述方法包括：

通过率失真损失函数训练所述深度图压缩网络，基于训练后的深度图压缩网络对深度图进行压缩；

所述变换模块将纹理特征作为上下文引导信息，辅助当前编码深度图x的特征提取，由卷积层生成深度图的紧凑潜在表示y；

所述具有纹理信息引导的熵编码模块使用纹理信息辅助的条件熵模型估计量化后的潜在表示的概率分布/>

所述条件熵模型通过提取纹理先验信息，辅助熵参数估计，进行概率估计；

所述基于纹理信息引导的解码器由反卷积层和4个堆叠的纹理引导的逆变换模块组成，用于将由算术解码器根据二进制码流b解码出的量化后的潜在表示非线性地变换为重建深度图/>

所述逆变换模块将纹理特征作为上下文引导信息，辅助深度图的重建过程；

所述变换模块具体为：将深度特征和纹理特征F^t作为输入，通过卷积层和广义除数归一化GDN层处理深度特征/>生成初级深度特征F^r：

F^e＝f(F^r，F^t)，

其中，f(·)表示非局部注意力块；

2.根据权利要求1所述的一种深度图端到端智能压缩编码方法，其特征在于，所述概率分布为：

其中，为/>的第j个通道，C为总通道数，/>为量化后的潜在表示/>的第i个元素，＜i表示的所有在i之前解码的空域像素点。

3.根据权利要求1所述的一种深度图端到端智能压缩编码方法，其特征在于，所述逆变换模块为：

其中，f(·)表示非局部注意力块；

4.一种深度图端到端智能压缩编码装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-3中的任一项所述的方法步骤。