CN115278246A - 一种深度图端到端智能压缩编码方法及装置 - Google Patents

一种深度图端到端智能压缩编码方法及装置 Download PDF

Info

Publication number
CN115278246A
CN115278246A CN202210915053.0A CN202210915053A CN115278246A CN 115278246 A CN115278246 A CN 115278246A CN 202210915053 A CN202210915053 A CN 202210915053A CN 115278246 A CN115278246 A CN 115278246A
Authority
CN
China
Prior art keywords
depth map
texture
depth
feature
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210915053.0A
Other languages
English (en)
Other versions
CN115278246B (zh
Inventor
彭勃
荆钰滢
靳登朝
刘祥瑞
潘兆庆
雷建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210915053.0A priority Critical patent/CN115278246B/zh
Publication of CN115278246A publication Critical patent/CN115278246A/zh
Application granted granted Critical
Publication of CN115278246B publication Critical patent/CN115278246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • H04N19/45Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder performing compensation of the inverse transform mismatch, e.g. Inverse Discrete Cosine Transform [IDCT] mismatch

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Discrete Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种深度图端到端智能压缩编码方法及装置,所述方法包括:构建基于纹理信息引导的深度图压缩网络,所述深度图压缩网络由基于纹理信息引导的编码器、具有纹理信息引导的熵编码模块和基于纹理信息引导的解码器组成;通过率失真损失函数训练所述深度图压缩网络,基于训练后的深度图压缩网络对深度图进行压缩。所述装置包括:处理器和存储器。本发明利用端到端网络的特征表达能力,挖掘深度图与其对应的纹理图像间的结构和语义相似性,获取纹理上下文引导深度图压缩,有效去除了深度图冗余,提高了深度图压缩效率。

Description

一种深度图端到端智能压缩编码方法及装置
技术领域
本发明涉及深度学习、图像压缩领域,尤其涉及一种深度图端到端智能压缩编码方法及装置。
背景技术
3D视频在人类生活中发挥着重要作用,被广泛应用于3D影院、虚拟现实(VR)、增强现实(AR)等领域,具有巨大的潜在市场。深度图作为三维场景的常见表现形式之一,已经显现出其重要意义,深度图压缩已成为推动三维视频应用的关键技术。为了呈现高质量的合成视点图像、满足3D视频传输的要求,需要研究高效的深度图压缩方法。为了提升深度图的编码效率,3D-HEVC在HEVC(高效视频编码标准)的基础上,引入了一系列针对深度图特性的编码方法。Song等人提出了深度建模模式,通过对深度块的边缘信息进行建模来保存深度边缘。Merkle等人提出了深度楔形和廓形分区,对大面积光滑区域采用平面拟合,对尖锐边缘采用非矩形切割,以适应深度图特性。这些方法通常采用手工设计的工具提升深度图的压缩效率,但是由于整个3D-HEVC框架无法实现端到端联合率失真函数优化,限制了编码性能的进一步提升。
得益于深度学习强大的特征表示能力,近年来,基于变分自编码器结构的彩色图像端到端压缩方法得到了广泛的研究。彩色图像端到端压缩方法主要由编码器、熵模型和解码器组成。编码器利用非线性变换将图像转化为紧凑的潜在表示;熵模型用于估计量化后的潜在表示的概率分布,并进行熵编码;解码器通过非线性变换将量化后的潜在表示恢复为重建图像。Balle等人提出了基于变分自编码器结构的端到端编码框架,引入了超先验模块以捕捉量化后潜在表示中的空间依赖关系。Minnen等人将自回归和分层先验相结合,更好地建模了量化后潜在表示的概率结构。Cheng等人使用离散化的高斯混合似然函数参数化量化后潜在表示的概率分布,提升了熵模型概率估计的准确性。
当前已有的传统深度图压缩方法依赖于传统编码平台,采用手工设计的工具提升深度图的压缩效率,难以实现端到端联合率失真优化,限制了编码性能的进一步提升。现有的端到端图像编码方法都是面向彩色图像的,与彩色图像相比,深度图具有大量平滑区域和物体边界更明显等特点,直接采用彩色图像端到端框架压缩深度图难以取得最优的压缩性能。
发明内容
本发明提供了一种深度图端到端智能压缩编码方法及装置,本发明利用端到端的特征表达能力,挖掘深度图与其对应的纹理图像间的结构和语义相似性,获取纹理上下文引导深度图压缩,有效去除了深度图冗余,提高了深度图压缩效率,详见下文描述:
第一方面,一种深度图端到端智能压缩编码方法,所述方法包括:
构建基于纹理信息引导的深度图压缩网络,所述深度图压缩网络由基于纹理信息引导的编码器、具有纹理信息引导的熵编码模块和基于纹理信息引导的解码器组成;
通过率失真损失函数训练所述深度图压缩网络,基于训练后的深度图压缩网络对深度图进行压缩。
其中,所述基于纹理信息引导的编码器由4个堆叠的纹理引导的变换模块和一个卷积层组成,用于将当前编码深度图x非线性地变换为潜在表示y;
所述变换模块将纹理特征作为上下文引导信息,辅助当前编码深度图x的特征提取,由卷积层生成深度图的紧凑潜在表示y。
进一步地,所述具有纹理信息引导的熵编码模块使用纹理信息辅助的条件熵模型估计量化后的潜在表示
Figure BDA0003775368010000021
的概率分布
Figure BDA0003775368010000022
所述条件熵模型通过提取纹理先验信息,辅助熵参数估计,进行概率估计。
其中,所述基于纹理信息引导的解码器由反卷积层和4个堆叠的纹理引导的逆变换模块组成,用于将由算术解码器根据二进制码流b解码出的量化后的潜在表示
Figure BDA0003775368010000023
非线性地变换为重建深度图
Figure BDA0003775368010000024
所述逆变换模块将纹理特征作为上下文引导信息,辅助深度图的重建过程。
进一步地,所述变换模块具体为:将深度特征
Figure BDA0003775368010000025
和纹理特征Ft作为输入,通过卷积层和广义除数归一化GDN层处理深度特征
Figure BDA0003775368010000026
生成初级深度特征Fr
Figure BDA0003775368010000027
其中,conv↓2表示1/2下采样卷积层,在GDN层后应用非局部注意力块,得到增强的深度特征:
Fe=f(Fr,Ft),
其中,f(·)表示非局部注意力块;
最后,将增强的深度特征Fe与初级深度特征Fr级联,得到更紧凑的深度特征
Figure BDA0003775368010000028
Figure BDA0003775368010000029
其中,
Figure BDA00037753680100000210
表示级联操作,将
Figure BDA00037753680100000211
作为下一个纹理引导的变换模块的输入之一。
其中,所述概率分布
Figure BDA00037753680100000212
为:
Figure BDA0003775368010000031
Figure BDA0003775368010000032
其中,
Figure BDA0003775368010000033
Figure BDA0003775368010000034
的第j个通道,C为总通道数,
Figure BDA0003775368010000035
为量化后的潜在表示
Figure BDA0003775368010000036
的第i个元素,<i表示的是所有在i之前解码的空域像素点。
所述逆变换模块为:
将深度特征
Figure BDA0003775368010000037
和纹理特征Ft作为输入,通过非局部注意力块得到初级深度特征Fr
Figure BDA0003775368010000038
其中,f(·)表示非局部注意力块。
将深度特征
Figure BDA0003775368010000039
与初级深度特征Fr级联,得到增强的深度特征Fe
Figure BDA00037753680100000310
通过反卷积层和逆广义除数归一化IGDN层处理Fe,得到放大分辨率的深度特征
Figure BDA00037753680100000311
Figure BDA00037753680100000312
其中,conv↑2表示1/2上采样卷积层,将深度特征
Figure BDA00037753680100000313
被作为下一个纹理引导的逆变换模块的输入之一。
第二方面、一种深度图端到端智能压缩编码装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明提出了一种新的深度图端到端智能压缩编码网络,基于变分自编码器结构,通过纹理信息的引导实现对深度图的高效压缩;
2、本发明设计了一种纹理引导的变换模块,通过将有益的纹理信息作为条件上下文来引导深度图的特征提取,有效去除了深度特征的冗余,从而获得紧凑的深度图潜在表示;
3、本发明设计了一个纹理引导的条件熵模型,从量化后的纹理潜在表示中探索纹理先验,再以纹理先验为条件联合建模量化后的深度潜在表示的概率分布,有效提高了熵模型概率估计的准确性;
4、本发明设计了一种纹理引导的逆变换模块,为深度图的重建提供有益的纹理上下文,提高了深度图的重建质量。
附图说明
图1为一种深度图端到端智能压缩编码方法的流程图;
图2为基于纹理信息引导的深度图压缩网络的结构框图;
图3为纹理引导的变换模块的示意图;
图4为纹理辅助的条件熵模型的示意图;
图5为纹理引导的逆变换模块的示意图;
图6为本发明方法所实现的深度图编码性能提升的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
一、构建基于纹理信息引导的深度图压缩网络
基于纹理信息引导的深度图压缩网络结构如图2所示。该网络主要由基于纹理引导的编码器、具有纹理引导的熵编码模块和基于纹理信息引导的解码器组成。
基于纹理引导变换的编码器由4个堆叠的纹理引导的变换模块和一个卷积层组成,用于将当前编码深度图x非线性地变换为潜在表示y。纹理引导的变换模块将纹理特征作为上下文引导信息,辅助当前编码深度图x的特征提取过程,最后由卷积层生成深度图的紧凑潜在表示y。
在具有纹理引导的熵编码模块中,首先对潜在表示y进行量化,生成量化后的潜在表示
Figure BDA0003775368010000041
然后,使用纹理信息辅助的条件熵模型估计量化后的潜在表示
Figure BDA0003775368010000042
的概率分布
Figure BDA0003775368010000043
纹理信息辅助的条件熵模型通过提取纹理先验信息,辅助熵参数估计,提高概率估计精度。最后,使用算术编码器根据概率分布
Figure BDA0003775368010000044
将量化后的潜在表示
Figure BDA0003775368010000045
编码为二进制码流b。
基于纹理信息引导的解码器由反卷积层和4个堆叠的纹理引导的逆变换模块组成,用于将由算术解码器根据二进制码流b解码出的量化后的潜在表示
Figure BDA0003775368010000046
非线性地变换为重建深度图
Figure BDA0003775368010000047
纹理引导的逆变换模块将纹理特征作为上下文引导信息,辅助深度图的重建过程,以提高重建深度图的质量。
二、构建纹理引导的变换模块
考虑到深度图及其对应的纹理图像是对同一场景的描述,构建了纹理引导的变化模块,挖掘深度图及其对应的纹理图像之间的结构和语义相似性,以纹理上下文为条件,对输入深度特征
Figure BDA0003775368010000051
进行非线性变换以消除冗余,并输出变换后紧凑的深度特征
Figure BDA0003775368010000052
将深度特征
Figure BDA0003775368010000053
和纹理特征Ft作为纹理引导的变换模块的输入,首先通过卷积层和广义除数归一化GDN层处理深度特征
Figure BDA0003775368010000054
生成初级深度特征Fr
Figure BDA0003775368010000055
其中,conv↓2表示1/2下采样卷积层。随后,为了将有益信息从纹理特征传递到深度特征,在GDN层之后应用非局部注意力块,得到增强的深度特征:
Fe=f(Fr,Ft),
其中,f(·)表示非局部注意力块。
最后,将增强的深度特征Fe与初级深度特征Fr级联,得到更紧凑的深度特征
Figure BDA0003775368010000056
Figure BDA0003775368010000057
其中,
Figure BDA0003775368010000058
表示级联操作。同时,
Figure BDA0003775368010000059
被作为下一个纹理引导的变换模块的输入之一。
在编码器端采用了4个纹理引导的变换模块来获得深度图的紧凑潜在表示,由于在多个特征尺度上引入了纹理引导的变换模块,深度图的编码冗余被充分减小,从而提高了编码效率。
三、构建纹理辅助的条件熵模型
熵模型用于估计量化后的潜在表示的概率分布,其中适当的条件先验是概率建模的关键。考虑到深度图与对应纹理图像之间的相似性,构建了纹理辅助的条件熵模型,通过将纹理信息作为有效的条件先验来改进概率估计。
首先从量化后的纹理潜在表示
Figure BDA00037753680100000520
中聚合纹理先验
Figure BDA00037753680100000510
Figure BDA00037753680100000511
其中,
Figure BDA00037753680100000512
Figure BDA00037753680100000513
的第j个通道,C为总通道数。
随后,
Figure BDA00037753680100000514
作为一个额外的先验,与超先验φ、自回归先验ψ一起用于估计量化后的深度图潜在表示
Figure BDA00037753680100000521
的概率分布:
Figure BDA00037753680100000515
其中,
Figure BDA00037753680100000516
为量化后的潜在表示
Figure BDA00037753680100000517
的第i个元素,也就是第i个解码单元,
Figure BDA00037753680100000518
分别表示纹理先验、超先验和自回归先验,<i表示的是所有在i之前解码的空域像素点。此外,
Figure BDA00037753680100000519
由高斯条件分布参数化建模:
Figure BDA0003775368010000061
其中,M为高斯条件模型,μi和σi分别为
Figure BDA0003775368010000062
对应的高斯条件模型的均值参数和方差参数。
高斯模型参数由条件先验估计得到:
Figure BDA0003775368010000063
其中,v(·)表示由1×1卷积层实现的熵估计器。
四、构建纹理引导的逆变换模块
构建了纹理引导的逆变化模块,以纹理上下文为条件对量化后的深度图潜在表示进行非线性变换,得到最终的重建深度图。
将深度特征
Figure BDA0003775368010000064
和纹理特征Ft作为纹理引导的逆变换模块的输入,首先通过非局部注意力块得到融合了纹理上下文的初级深度特征Fr
Figure BDA0003775368010000065
其中,f(·)表示非局部注意力块。
随后,将深度特征
Figure BDA0003775368010000066
与初级深度特征Fr级联,得到增强的深度特征Fe
Figure BDA0003775368010000067
其中,
Figure BDA0003775368010000068
表示级联操作。
最后,通过反卷积层和逆广义除数归一化IGDN层处理Fe,得到放大分辨率的深度特征
Figure BDA0003775368010000069
Figure BDA00037753680100000610
其中,conv↑2表示1/2上采样卷积层。同时,放大分辨率的深度特征
Figure BDA00037753680100000611
被作为下一个纹理引导的逆变换模块的输入之一。
在解码器端采用了一系列纹理引导的逆变换模块,并由最后一个纹理引导的逆变换模块输出最终的深度图重建结果,由于在多个特征尺度上引入了纹理引导的逆变换模块,纹理上下文被充分利用,从而提高了深度图重建质量。
五、训练基于纹理信息引导的深度图端到端智能压缩编码网络
该训练过程中,基于纹理信息引导的深度图端到端智能压缩编码网络包括:纹理引导的变换模块、纹理引导的条件熵模型、纹理引导的逆变换模块和率失真损失函数。
该训练过程建立在一般编解码流程的基础上,即编码深度图前,其对应的纹理图像已完成编解码。因此,在压缩深度图时,可以直接获得纹理信息,且不引入额外的比特消耗。该训练过程采用联合自回归模型对纹理图像进行预压缩。
使用率失真损失训练深度图端到端智能压缩编码网络:
L=R+λD,
其中,R表示根据纹理辅助的条件熵模型估计的概率所计算的比特率,D表示使用均方误差(Mean Square Error,MSE)计算的重建失真,
Figure BDA0003775368010000071
其中,x表示原始深度图,
Figure BDA0003775368010000072
表示重建深度图。
此外,λ是一个超参数,设置为{32、64、128、256、512}。本发明实施例将BPG(更好的可携式图像)、联合自回归模型与本发明所提方法进行了对比。参见图6,相比于BPG和联合自回归模型,本发明能实现75.965%的比特率节省,而BPG能实现70.631%的性能提升,联合自回归模型能实现69.105%的性能提升,说明本发明所提方案能够有效地去除深度图冗余,提升深度图编码性能。
基于同一发明构思,本发明实施例还提供了一种深度图端到端智能压缩编码装置,该装置包括:处理器和存储器,存储器中存储有程序指令,处理器调用存储器中存储的程序指令以使装置执行实施例中的以下方法步骤:
构建基于纹理信息引导的深度图压缩网络,深度图压缩网络由基于纹理引导的编码器、具有纹理引导的熵编码模块和基于纹理信息引导的解码器组成;
通过率失真损失函数训练所述深度图压缩网络,基于训练后的深度图压缩网络对深度图进行压缩。
其中,基于纹理引导的编码器由4个堆叠的纹理引导的变换模块和一个卷积层组成,用于将当前编码深度图x非线性地变换为潜在表示y;
变换模块将纹理特征作为上下文引导信息,辅助当前编码深度图x的特征提取,由卷积层生成深度图的紧凑潜在表示y。
进一步地,具有纹理引导的熵编码模块使用纹理信息辅助的条件熵模型估计量化后的潜在表示
Figure BDA0003775368010000074
的概率分布
Figure BDA0003775368010000073
条件熵模型通过提取纹理先验信息,辅助熵参数估计,进行概率估计。
其中,基于纹理信息引导的解码器由反卷积层和4个堆叠的纹理引导的逆变换模块组成,用于将由算术解码器根据二进制码流b解码出的量化后的潜在表示
Figure BDA0003775368010000076
非线性地变换为重建深度图
Figure BDA0003775368010000075
逆变换模块将纹理特征作为上下文引导信息,辅助深度图的重建过程。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种深度图端到端智能压缩编码方法,其特征在于,所述方法包括:
构建基于纹理信息引导的深度图压缩网络,所述深度图压缩网络由基于纹理信息引导的编码器、具有纹理信息引导的熵编码模块和基于纹理信息引导的解码器组成;
通过率失真损失函数训练所述深度图压缩网络,基于训练后的深度图压缩网络对深度图进行压缩。
2.根据权利要求1所述的一种深度图端到端智能压缩编码方法,其特征在于,所述基于纹理信息引导的编码器由4个堆叠的纹理引导的变换模块和一个卷积层组成,用于将当前编码深度图x非线性地变换为潜在表示y;
所述变换模块将纹理特征作为上下文引导信息,辅助当前编码深度图x的特征提取,由卷积层生成深度图的紧凑潜在表示y。
3.根据权利要求1所述的一种深度图端到端智能压缩编码方法,其特征在于,所述具有纹理信息引导的熵编码模块使用纹理信息辅助的条件熵模型估计量化后的潜在表示
Figure FDA0003775360000000011
的概率分布
Figure FDA0003775360000000012
所述条件熵模型通过提取纹理先验信息,辅助熵参数估计,进行概率估计。
4.根据权利要求2所述的一种深度图端到端智能压缩编码方法,其特征在于,所述基于纹理信息引导的解码器由反卷积层和4个堆叠的纹理引导的逆变换模块组成,用于将由算术解码器根据二进制码流b解码出的量化后的潜在表示
Figure FDA0003775360000000013
非线性地变换为重建深度图
Figure FDA0003775360000000014
所述逆变换模块将纹理特征作为上下文引导信息,辅助深度图的重建过程。
5.根据权利要求2所述的一种深度图端到端智能压缩编码方法,其特征在于,所述变换模块具体为:将深度特征
Figure FDA0003775360000000015
和纹理特征Ft作为输入,通过卷积层和广义除数归一化GDN层处理深度特征
Figure FDA0003775360000000016
生成初级深度特征Fr
Figure FDA0003775360000000017
其中,conv↓2表示1/2下采样卷积层,在GDN层后应用非局部注意力块,得到增强的深度特征:
Fe=f(Fr,Ft),
其中,f(·)表示非局部注意力块;
最后,将增强的深度特征Fe与初级深度特征Fr级联,得到更紧凑的深度特征
Figure FDA0003775360000000018
Figure FDA0003775360000000021
其中,
Figure FDA0003775360000000022
表示级联操作,将
Figure FDA0003775360000000023
作为下一个纹理引导的变换模块的输入之一。
6.根据权利要求1所述的一种深度图端到端智能压缩编码方法,其特征在于,所述概率分布
Figure FDA0003775360000000024
为:
Figure FDA0003775360000000025
Figure FDA0003775360000000026
其中,
Figure FDA0003775360000000027
Figure FDA0003775360000000028
的第j个通道,C为总通道数,
Figure FDA0003775360000000029
为量化后的潜在表示
Figure FDA00037753600000000210
的第i个元素,<i表示的所有在i之前解码的空域像素点。
7.根据权利要求4所述的一种深度图端到端智能压缩编码方法,其特征在于,所述逆变换模块为:
将深度特征
Figure FDA00037753600000000211
和纹理特征Ft作为输入,通过非局部注意力块得到初级深度特征Fr
Figure FDA00037753600000000212
其中,f(·)表示非局部注意力块。
将深度特征
Figure FDA00037753600000000213
与初级深度特征Fr级联,得到增强的深度特征Fe
Figure FDA00037753600000000214
通过反卷积层和逆广义除数归一化IGDN层处理Fe,得到放大分辨率的深度特征
Figure FDA00037753600000000215
Figure FDA00037753600000000216
其中,conv↑2表示1/2上采样卷积层,将深度特征
Figure FDA00037753600000000217
被作为下一个纹理引导的逆变换模块的输入之一。
8.一种深度图端到端智能压缩编码装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-7中的任一项所述的方法步骤。
CN202210915053.0A 2022-08-01 2022-08-01 一种深度图端到端智能压缩编码方法及装置 Active CN115278246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210915053.0A CN115278246B (zh) 2022-08-01 2022-08-01 一种深度图端到端智能压缩编码方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210915053.0A CN115278246B (zh) 2022-08-01 2022-08-01 一种深度图端到端智能压缩编码方法及装置

Publications (2)

Publication Number Publication Date
CN115278246A true CN115278246A (zh) 2022-11-01
CN115278246B CN115278246B (zh) 2024-04-16

Family

ID=83746569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210915053.0A Active CN115278246B (zh) 2022-08-01 2022-08-01 一种深度图端到端智能压缩编码方法及装置

Country Status (1)

Country Link
CN (1) CN115278246B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403415A (zh) * 2017-07-21 2017-11-28 深圳大学 基于全卷积神经网络的压缩深度图质量增强方法及装置
CN111669587A (zh) * 2020-04-17 2020-09-15 北京大学 一种视频图像的拟态压缩方法、装置、存储介质及终端
CN112053408A (zh) * 2020-09-04 2020-12-08 清华大学 基于深度学习的人脸图像压缩方法及装置
CN113079377A (zh) * 2021-04-01 2021-07-06 中国科学技术大学 一种深度图像/视频压缩网络的训练方法
CN113259676A (zh) * 2020-02-10 2021-08-13 北京大学 一种基于深度学习的图像压缩方法和装置
WO2022021938A1 (zh) * 2020-07-30 2022-02-03 华为技术有限公司 图像处理方法与装置、神经网络训练的方法与装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403415A (zh) * 2017-07-21 2017-11-28 深圳大学 基于全卷积神经网络的压缩深度图质量增强方法及装置
CN113259676A (zh) * 2020-02-10 2021-08-13 北京大学 一种基于深度学习的图像压缩方法和装置
CN111669587A (zh) * 2020-04-17 2020-09-15 北京大学 一种视频图像的拟态压缩方法、装置、存储介质及终端
WO2021208247A1 (zh) * 2020-04-17 2021-10-21 北京大学 一种视频图像的拟态压缩方法、装置、存储介质及终端
WO2022021938A1 (zh) * 2020-07-30 2022-02-03 华为技术有限公司 图像处理方法与装置、神经网络训练的方法与装置
CN112053408A (zh) * 2020-09-04 2020-12-08 清华大学 基于深度学习的人脸图像压缩方法及装置
CN113079377A (zh) * 2021-04-01 2021-07-06 中国科学技术大学 一种深度图像/视频压缩网络的训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张新峰;: "基于深度学习的视频编码发展现状与未来展望", 信息通信技术, no. 02, 15 April 2020 (2020-04-15) *
朱俊;高陈强;陈志乾;谌放;: "基于注意力机制和离散高斯混合模型的端到端图像压缩方法", 重庆邮电大学学报(自然科学版), no. 05, 15 October 2020 (2020-10-15) *
马思伟等: "《智能视频编码》", 《人工智能》, no. 02, 10 April 2020 (2020-04-10) *

Also Published As

Publication number Publication date
CN115278246B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
VR An enhanced coding algorithm for efficient video coding
Cheng et al. Learned image compression with discretized gaussian mixture likelihoods and attention modules
Cheng et al. Deep convolutional autoencoder-based lossy image compression
CN113822147B (zh) 一种协同机器语义任务的深度压缩方法
CN111630570A (zh) 图像处理方法、设备及计算机可读存储介质
CN114449276B (zh) 一种基于学习的超先验边信息补偿图像压缩方法
WO2023143101A1 (zh) 一种面部视频编码方法、解码方法及装置
US6917717B2 (en) System and method for image compression using wavelet coding of masked images
CN114374846A (zh) 视频压缩方法、装置、设备及存储介质
US20060215917A1 (en) Decoding apparatus, dequantizing method, and program thereof
Mital et al. Neural distributed image compression with cross-attention feature alignment
Fu et al. An extended hybrid image compression based on soft-to-hard quantification
Yang et al. Learned low bit-rate image compression with adversarial mechanism
Mei et al. Learn a compression for objection detection-vae with a bridge
WO2023143349A1 (zh) 一种面部视频编码方法、解码方法及装置
Zhang et al. Global Priors with Anchored-stripe Attention and MultiScale Convolution for Remote Sensing Images Compression
CN102523454B (zh) 利用3d字典消除3d播放系统中块效应的方法
CN115278246A (zh) 一种深度图端到端智能压缩编码方法及装置
Ma et al. AFEC: adaptive feature extraction modules for learned image compression
Zhu et al. Palette-based compound image compression in HEVC by exploiting non-local spatial correlation
CN115529457A (zh) 基于深度学习的视频压缩方法和装置
Yang et al. Graph-convolution network for image compression
US20230308681A1 (en) End-to-end stereo image compression method and device based on bi-directional coding
Shen et al. Learned image compression with transformers
CN117915107B (zh) 图像压缩系统、图像压缩方法、存储介质与芯片

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant