CN114697632A - 一种基于双向条件编码的端到端立体图像压缩方法及装置 - Google Patents

一种基于双向条件编码的端到端立体图像压缩方法及装置 Download PDF

Info

Publication number
CN114697632A
CN114697632A CN202210310628.6A CN202210310628A CN114697632A CN 114697632 A CN114697632 A CN 114697632A CN 202210310628 A CN202210310628 A CN 202210310628A CN 114697632 A CN114697632 A CN 114697632A
Authority
CN
China
Prior art keywords
viewpoint
inter
bidirectional
stereo image
directional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210310628.6A
Other languages
English (en)
Other versions
CN114697632B (zh
Inventor
雷建军
刘祥瑞
彭勃
靳登朝
潘兆庆
顾竟潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210310628.6A priority Critical patent/CN114697632B/zh
Publication of CN114697632A publication Critical patent/CN114697632A/zh
Priority to US17/866,172 priority patent/US20230308681A1/en
Application granted granted Critical
Publication of CN114697632B publication Critical patent/CN114697632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于双向条件编码的端到端立体图像压缩方法及装置,方法包括:通过神经网络对输入的左右视点图像提取视点间信息,作为先验信息同时送入左右视点编码器对左右视点图像进行联合编码,生成左右视点码流;通过神经网络对生成的左右视点码流提取视点间信息,作为先验信息同时送入左右视点解码器对左右视点码流进行联合解码,生成重建的左右视点图像。装置包括:构建一基于双向条件的编码结构,用于获取双向视点间信息,并基于双向视点间信息使用神经网络对立体图像进行压缩。本发明通过基于深度学习的双向条件编码对立体图像进行压缩,有效地去除了立体图像的视点间冗余。

Description

一种基于双向条件编码的端到端立体图像压缩方法及装置
技术领域
本发明涉及图像压缩领域,尤其涉及一种基于双向条件编码的端到端立体图像压缩方法及装置。
背景技术
图像压缩是数字图像处理领域的关键技术之一,其目标是在保留图像信号的关键视觉信息的前提下尽可能降低描述图像所需的比特数,以实现高效的传输和存储。近年来,立体图像被广泛应用于增强现实、自动驾驶和机器人控制等领域。有鉴于此,研究人员对立体图像编码进行了研究,通过去除立体图像的视点间冗余来提高编码效率。Boulgouris等人提出了一种基于视差补偿预测的立体图像编码方法,通过建立不同视点图像中相应区域的对应关系,利用已编码的视点预测另一视点。Kaaniche等人将提升小波结构与视差补偿预测结合,以高效地编码视点间预测残差。Kadaikar提出了一种基于块的立体图像编码方法,以提高视差补偿预测精度。
随着深度学习的快速发展,基于变分自编码器结构的端到端图像压缩在近年来得到了较为广泛的研究。端到端图像编码框架通常由编码器、解码器、熵模型和其他非学习组件组成。编码器通过非线性变换将输入图像映射到高维特征空间,生成紧凑的隐含表示;熵模型用于估计量化后隐含表示的概率分布以进行熵编码;解码器通过非线性变换将隐含表示映射到图像色彩空间,生成重建图像。Ballé等人提出了一种基于卷积神经网络的端到端图像编码方法,利用卷积神经网络将输入图像非线性地变换为紧凑的隐含表示。Chen等人在编解码器中加入了注意力机制,提升了隐含表示的紧凑性。Ma等人使用提升小波变换结构实现非线性映射,缓解了非线性变换中的信息损失问题。
近年来,研究人员对端到端立体图像编码进行了初步的探索。Liu等人提出了一个深度立体图像编码网络,其使用所提出的参数化跳过函数将左视点信息传递至右视点以去除视点间冗余。Deng等人提出了一种基于单应性矩阵的端到端立体图像编码网络,利用单应性矩阵建立左右视点图像的对应关系,并使用左视点重建图像预测右视点图像。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
现有的传统立体图像编码方法使用手工设计的视差补偿预测方法去除视点间冗余,在具有复杂视差关系的场景下难以获得准确的预测,进而导致编码性能的下降;现有的端到端立体图像编码方法均采用了单向条件编码框架,即独立编码左视点图像,随后利用左视点信息为右视点图像编码提供视点间上下文,以降低右视点图像的比特消耗。然而,单向条件编码框架固定地指定一个视点图像为另一个视点图像提供上下文,无法通过综合两视点图像信息有效提取视点间上下文,难以有效地去除视点间冗余。
发明内容
本发明提供了一种基于双向条件编码的端到端立体图像压缩方法及装置,本发明通过基于深度学习的双向条件编码对立体图像进行压缩,有效地去除了立体图像的视点间冗余,详见下文描述:
第一方面,一种基于双向条件编码的端到端立体图像压缩方法,所述方法包括:
通过神经网络对输入的左右视点图像提取视点间信息,作为先验信息同时送入左右视点编码器对输入的左右视点图像进行联合编码,生成左右视点码流;通过神经网络对生成的左右视点码流提取视点间信息,作为先验信息同时送入左右视点解码器进行联合解码,生成重建的左右视点图像。
第二方面,一种基于双向条件编码的端到端立体图像压缩装置,所述装置包括:构建一基于双向条件的编码结构,
所述编码结构用于获取双向视点间信息,并基于双向视点间信息使用神经网络对立体图像进行压缩。
其中,所述装置包括:基于双向条件的编码结构构建端到端编码网络,网络包括:双向上下文变换模块和双向条件熵编码模型,
基于双向上下文变换模块构建双向上下文变换的编码器、双向上下文变换的解码器;基于双向条件熵编码模型构建具有双向条件熵模型的熵编码模块。
第三方面,一种基于双向条件编码的端到端立体图像压缩装置,所述装置包括:处理器和存储器,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的方法步骤。
本发明提供的技术方案的有益效果是:
1、本方法通过双向条件编码实现了对立体图像进行有效压缩;
2、本方法能够学习立体图像的视点间关系并将其建模为视点间上下文,再以视点间上下文为条件对立体图像进行非线性变换,有效地去除了立体图像的视点间冗余;
3、本方法能够提取左右视点隐含表示的相关性作为视点间条件先验,再以视点间条件先验为条件联合建模左右视点隐含表示的概率分布,有效地提高了左右视点的概率估计精度。
附图说明
图1为一种基于双向条件编码的端到端立体图像压缩方法的流程图;
图2为一种基于双向条件编码的端到端立体图像压缩装置的结构示意图;
图3为基于双向条件编码的立体图像压缩网络结构示意图;
图4为双向上下文变换模块的结构示意图;
图5为双向条件熵模型的结构示意图;
图6为一种基于双向条件编码的端到端立体图像压缩装置的另一结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种基于双向条件编码的端到端立体图像压缩方法,参见图1,该方法包括以下步骤:
101:使用神经网络对输入的左右视点图像进行联合编码,生成左右视点码流;
其中,上述步骤101中的联合编码为:提取左右视点图像间的视点间信息,作为先验信息同时送入左右视点编码器,以消除立体图像的视点间冗余信息。
102:使用神经网络对生成的左右视点码流进行联合解码,生成重建的左右视点图像,流程结束。
其中,上述步骤102中的联合解码为:提取左右视点码流间的视点间信息,作为另一先验信息同时送入左右视点解码器,以恢复立体图像的视点间冗余信息。
综上所述,本发明实施例通过上述步骤101-102实现了对端到端立体图像的压缩,消除了立体图像的视点间冗余信息。
实施例2
本发明实施例提供了一种基于双向条件编码的端到端立体图像压缩装置,参见图2,该装置包括:构建一基于双向条件的编码结构,
编码结构用于获取双向视点间信息,并基于双向视点间信息使用神经网络对立体图像进行压缩。
基于双向条件编码结构构建端到端编码网络,网络包括:双向上下文变换模块和双向条件熵编码模型,
基于双向上下文变换模块构建双向上下文变换的编码器、双向上下文变换的解码器;基于双向条件熵编码模型构建具有双向条件熵模型的熵编码模块。
综上所述,本发明实施例通过上述基于双向条件的编码结构实现了对端到端立体图像的压缩,消除了立体图像的视点间冗余信息。
实施例3
下面结合图3至图5,以及具体的计算公式对实施例2中的方案进行进一步地介绍,详见下文描述:
一、构建基于双向条件编码的立体图像压缩网络
构建了一个基于双向条件编码的立体图像压缩网络,其结构如图3所示。该网络主要包括基于双向上下文变换的编码器、具有双向条件熵模型的熵编码模块和基于双向上下文变换的解码器。
基于双向上下文变换的编码器由卷积层,广义除数归一化(GDN)层和双向上下文变换模块构成,用于将输入的立体图像{IR,IL}非线性地变换为隐含表示{yL,yR}。该编码器使用下采样卷积层和Ballé等人提出的广义除数归一化(GDN)层分别提取左右视点特征,并使用双向上下文变换模块消除视点间冗余。在编码器中,利用双向上下文变换模块建模左右视点特征间相关性为视点间上下文,并使用视点间上下文作为条件,对左右视点特征同时进行非线性变换,以消除左右视点特征间的冗余。在具有双向条件熵模型的熵编码模块中,首先对{yL,yR}进行量化操作生成量化后的隐含表示
Figure BDA0003568046370000041
再使用双向条件熵模型联合估计
Figure BDA0003568046370000042
的概率分布
Figure BDA0003568046370000043
随后使用算术编码器根据
Figure BDA0003568046370000044
Figure BDA0003568046370000045
编码为二进制码流{bL,bR}作为立体图像{IR,IL}的编码输出。其中,双向条件熵模型提取
Figure BDA0003568046370000046
Figure BDA0003568046370000047
间的相关性生成视点间先验,并将视点间先验同时作为概率分布
Figure BDA0003568046370000048
Figure BDA0003568046370000049
的先验,以提高概率估计精度。
基于双向上下文变换的解码器由反卷积层,逆广义除数归一化(IGDN)层和双向上下文变换模块构成,用于将由算术解码器根据{IR,IL}解码出的
Figure BDA0003568046370000051
非线性地变换为重建图像
Figure BDA0003568046370000052
其中,与基于双向上下文变换的编码器对称地,双向上下文变换模块被设置在每个IGDN层后。
二、构建双向上下文变换模块
如图4所示,将左右视点特征{fL,fR}作为双向上下文变换模块的输入,构建双向上下文变换模块,以视点间上下文为条件,对左右视点特征{fL,fR}进行非线性变换以消除视点间冗余,并输出变换后的紧凑特征
Figure BDA0003568046370000053
非线性变换为本领域技术人员所公知,本发明实施例对此不做赘述。
首先,使用两组残差块分别处理左右视点特征{fL,fR},以生成深层特征{f'L,'fR},其中f'L为左视点深层特征,f'R为右视点深层特征,随后,使用两条对称的支路分别对左右视点特征{fL,fR}进行条件非线性变换。
1、在左视点支路,使用一个两阶段的映射为左视点特征生成视点间上下文。
在第一阶段,首先将f'R映射到左视点以生成粗糙的上下文fR→L
fR→L=FL(f'R,f'L), (1)
其中,FL(·)表示映射函数,由Shen等人提出的非局部(Nonlocal)模块实现。
在第二阶段,使用f'L对fR→L进一步筛选,获得精细化的上下文f'R→L
Figure BDA0003568046370000054
其中,SR→L为用于筛选fR→L的注意力图,hL(·)由两层卷积核尺寸为3*3卷积层级联组成,σ(·)表示Sigmoid函数,
Figure BDA0003568046370000055
表示通道维度级联。最后,以视点间上下文f'R→L为条件,对fL进行非线性变换以生成紧凑的左视点特征
Figure BDA0003568046370000056
Figure BDA0003568046370000057
其中,gL(·)由两层卷积核尺寸为3*3卷积层级联组成。
2、在右视点支路,使用一个两阶段的映射为右视点特征生成视点间上下文。
在第一阶段,首先将f'L映射到右视点以生成粗糙的上下文fL→R
fL→R=FR(f'L,f'R), (4)
其中,FR(·)表示映射函数,由Shen等人提出的非局部(Nonlocal)模块实现。
在第二阶段,使用f'R对fL→R进一步筛选,获得精细化的上下文f'L→R
Figure BDA0003568046370000058
其中,SL→R为用于筛选fL→R的注意力图,hR(·)由两层3*3卷积层级联组成,σ(·)表示Sigmoid函数,
Figure BDA0003568046370000061
表示通道维度级联。最后,以视点间上下文f'L→R为条件,对fR进行非线性变换以生成紧凑的左视点特征
Figure BDA0003568046370000062
Figure BDA0003568046370000063
其中,gR(·)由两层卷积核尺寸为3*3卷积层级联组成。
三、构建双向条件熵编码模型
如图5所示,将量化后左右视点隐含表示
Figure BDA0003568046370000064
作为输入,构建双向条件熵编码模型以估计
Figure BDA0003568046370000065
的概率分布
Figure BDA0003568046370000066
具体来说,提取左右视点隐含表示间的相关性生成视点间先验,并将视点间先验与Minnen等人提出的超先验和自回归先验联合建模
Figure BDA0003568046370000067
Figure BDA0003568046370000068
其中,
Figure BDA0003568046370000069
表示
Figure BDA00035680463700000610
中第i个元素,
Figure BDA00035680463700000611
表示
Figure BDA00035680463700000612
中第j个元素,
Figure BDA00035680463700000613
表示
Figure BDA00035680463700000614
的概率分布,
Figure BDA00035680463700000615
表示
Figure BDA00035680463700000616
的概率分布。
Figure BDA00035680463700000617
分别表示
Figure BDA00035680463700000618
的超先验,自回归先验以及视点间先验。类似地,
Figure BDA00035680463700000619
分别表示
Figure BDA00035680463700000620
的超先验,自回归先验以及视点间先验。
超先验和自回归先验由Minnen等人提出的自回归熵模型根据
Figure BDA00035680463700000621
生成。视点间先验根据左右视点的超先验和自回归先验生成。其中,左视点的视点间先验
Figure BDA00035680463700000622
由左右视点的超先验和自回归先验生成。
Figure BDA00035680463700000623
其中,uL(·)由两层掩膜卷积组成,
Figure BDA00035680463700000624
表示
Figure BDA00035680463700000625
的超先验和自回归先验级联后的先验,
Figure BDA00035680463700000626
表示在
Figure BDA00035680463700000627
中与
Figure BDA00035680463700000628
位置相同的元素
Figure BDA00035680463700000629
的超先验和自回归先验级联后的先验,
Figure BDA00035680463700000630
表示表示在
Figure BDA00035680463700000631
中与
Figure BDA00035680463700000632
位置相同的元素
Figure BDA00035680463700000633
的自回归先验。
右视点的视点间先验
Figure BDA00035680463700000634
由左右视点的超先验和自回归先验生成。
Figure BDA0003568046370000071
其中,uR(·)由两层掩膜卷积组成,
Figure BDA0003568046370000072
表示
Figure BDA0003568046370000073
的超先验和自回归先验级联后的先验,
Figure BDA0003568046370000074
表示在
Figure BDA0003568046370000075
中与
Figure BDA0003568046370000076
位置相同的元素
Figure BDA0003568046370000077
的超先验和自回归先验级联后的先验,
Figure BDA0003568046370000078
表示表示在
Figure BDA0003568046370000079
中与
Figure BDA00035680463700000710
位置相同的元素
Figure BDA00035680463700000711
的自回归先验。
此外,使用高斯条件模型对概率
Figure BDA00035680463700000712
进行参数化建模:
Figure BDA00035680463700000713
其中,
Figure BDA00035680463700000714
Figure BDA00035680463700000715
分别为
Figure BDA00035680463700000716
对应的高斯条件模型的均值参数和方差参数,
Figure BDA00035680463700000717
Figure BDA00035680463700000718
分别为
Figure BDA00035680463700000719
对应的高斯条件模型的均值参数和方差参数。
高斯模型参数由先验估计而得:
Figure BDA00035680463700000720
其中,vL(·)和vR(·)分别表示左右视点的高斯模型参数估计函数,并由堆叠的1*1卷积实现。
综上所述,本发明实施例通过上述模块实现了对端到端立体图像的压缩,消除了立体图像的视点间冗余信息。
实施例4
一种基于双向条件编码的端到端立体图像压缩装置,参见图6,该装置包括:处理器和存储器,存储器中存储有程序指令,处理器调用存储器中存储的程序指令以使装置执行实施例1中的方法步骤:
通过神经网络对输入的左右视点图像提取视点间信息,作为先验信息同时送入左右视点编码器对输入的左右视点图像进行联合编码,生成左右视点码流;
通过神经网络对生成的左右视点码流提取视点间信息,作为先验信息同时送入左右视点解码器对生成的左右视点码流进行联合解码,生成重建的左右视点图像。
综上所述,本发明实施例通过上述器件实现了对端到端立体图像的压缩,消除了立体图像的视点间冗余信息。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于双向条件编码的端到端立体图像压缩方法,其特征在于,所述方法包括:
通过神经网络对输入的左右视点图像提取视点间信息,作为先验信息同时送入左右视点编码器对输入的左右视点图像进行联合编码,生成左右视点码流;
通过神经网络对生成的左右视点码流提取视点间信息,作为先验信息同时送入左右视点解码器对生成的左右视点码流进行联合解码,生成重建的左右视点图像。
2.一种基于双向条件编码的端到端立体图像压缩装置,其特征在于,所述装置包括:构建一基于双向条件的编码结构,
所述编码结构用于获取双向视点间信息,并基于双向视点间信息使用神经网络对立体图像进行压缩。
3.根据权利要求2所述的一种基于双向条件编码的端到端立体图像压缩装置,其特征在于,所述装置包括:基于双向条件的编码结构构建端到端编码网络,网络包括:双向上下文变换模块和双向条件熵编码模型,
基于双向上下文变换模块构建双向上下文变换的编码器、双向上下文变换的解码器;基于双向条件熵编码模型构建具有双向条件熵模型的熵编码模块。
4.根据权利要求3所述的一种基于双向条件编码的端到端立体图像压缩装置,其特征在于,所述双向上下文变换模块为:
将左右视点特征作为输入,建模左右视点特征间相关性为视点间上下文,以视点间上下文为条件,对左右视点特征进行非线性变换以消除视点间冗余,并输出变换后的紧凑特征。
5.根据权利要求3所述的一种基于双向条件编码的端到端立体图像压缩装置,其特征在于,所述双向条件熵编码模型为:
提取左右视点隐含表示间的相关性生成视点间先验,并将视点间先验与超先验和自回归先验联合建模概率;使用高斯条件模型对概率进行参数化建模。
6.根据权利要求3所述的一种基于双向条件编码的端到端立体图像压缩装置,其特征在于,所述双向上下文变换的编码器由卷积层,广义除数归一化层和双向上下文变换模块构成,用于将输入的立体图像非线性地变换为隐含表示。
7.根据权利要求3所述的一种基于双向条件编码的端到端立体图像压缩装置,其特征在于,所述熵编码模块对隐含表示进行量化操作生成量化后的隐含表示,再使用双向条件熵模型联合估计量化后的隐含表示
Figure FDA0003568046360000021
的概率分布,使用算术编码器根据概率分布将
Figure FDA0003568046360000022
编码为二进制码流作为立体图像的编码输出。
8.根据权利要求3所述的一种基于双向条件编码的端到端立体图像压缩装置,其特征在于,所述双向上下文变换的解码器由反卷积层,逆广义除数归一化层和双向上下文变换模块构成,用于将由算术解码器根据立体图形解码出的量化后的隐含表示
Figure FDA0003568046360000023
非线性地变换为重建图像。
9.一种基于双向条件编码的端到端立体图像压缩装置,其特征在于,所述装置包括:处理器和存储器,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1中的方法步骤。
CN202210310628.6A 2022-03-28 2022-03-28 一种基于双向条件编码的端到端立体图像压缩方法及装置 Active CN114697632B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210310628.6A CN114697632B (zh) 2022-03-28 2022-03-28 一种基于双向条件编码的端到端立体图像压缩方法及装置
US17/866,172 US20230308681A1 (en) 2022-03-28 2022-07-15 End-to-end stereo image compression method and device based on bi-directional coding

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210310628.6A CN114697632B (zh) 2022-03-28 2022-03-28 一种基于双向条件编码的端到端立体图像压缩方法及装置

Publications (2)

Publication Number Publication Date
CN114697632A true CN114697632A (zh) 2022-07-01
CN114697632B CN114697632B (zh) 2023-12-26

Family

ID=82141452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210310628.6A Active CN114697632B (zh) 2022-03-28 2022-03-28 一种基于双向条件编码的端到端立体图像压缩方法及装置

Country Status (2)

Country Link
US (1) US20230308681A1 (zh)
CN (1) CN114697632B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118317114B (zh) * 2024-06-11 2024-08-16 中国科学技术大学 一种基于局部特征和非局部特征的图像压缩方法
CN118400531B (zh) * 2024-06-28 2024-08-30 中国石油大学(华东) 一种基于多参考熵模型的图像压缩方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101198061A (zh) * 2008-01-08 2008-06-11 吉林大学 基于视点图像映射的立体视频流编码方法
CN101540926A (zh) * 2009-04-15 2009-09-23 南京大学 基于h.264的立体视频编解码方法
CN105306954A (zh) * 2014-05-30 2016-02-03 西安电子科技大学 一种基于视差最小可察觉误差模型的感知立体视频编码
CN112702592A (zh) * 2020-12-28 2021-04-23 北京航空航天大学 端到端双目图像联合压缩方法、装置、设备和介质
CN112929629A (zh) * 2021-02-03 2021-06-08 天津大学 一种智能虚拟参考帧生成方法
CN113347422A (zh) * 2021-05-13 2021-09-03 北京大学 一种粗粒度上下文熵编码方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3340618A1 (en) * 2016-12-22 2018-06-27 Thomson Licensing Geometric warping of a stereograph by positional constraints
WO2021220008A1 (en) * 2020-04-29 2021-11-04 Deep Render Ltd Image compression and decoding, video compression and decoding: methods and systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101198061A (zh) * 2008-01-08 2008-06-11 吉林大学 基于视点图像映射的立体视频流编码方法
CN101540926A (zh) * 2009-04-15 2009-09-23 南京大学 基于h.264的立体视频编解码方法
CN105306954A (zh) * 2014-05-30 2016-02-03 西安电子科技大学 一种基于视差最小可察觉误差模型的感知立体视频编码
CN112702592A (zh) * 2020-12-28 2021-04-23 北京航空航天大学 端到端双目图像联合压缩方法、装置、设备和介质
CN112929629A (zh) * 2021-02-03 2021-06-08 天津大学 一种智能虚拟参考帧生成方法
CN113347422A (zh) * 2021-05-13 2021-09-03 北京大学 一种粗粒度上下文熵编码方法

Also Published As

Publication number Publication date
US20230308681A1 (en) 2023-09-28
CN114697632B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN112866694B (zh) 联合非对称卷积块和条件上下文的智能图像压缩优化方法
CN112203093B (zh) 一种基于深度神经网络的信号处理方法
CN114697632B (zh) 一种基于双向条件编码的端到端立体图像压缩方法及装置
CN111246206B (zh) 一种基于自编码器的光流信息压缩方法及装置
CN113450421B (zh) 一种基于增强深度学习的无人机侦察图像压缩与解压方法
CN114374846B (zh) 视频压缩方法、装置、设备及存储介质
WO2023143349A1 (zh) 一种面部视频编码方法、解码方法及装置
CN115278262A (zh) 一种端到端智能视频编码方法及装置
CN114449276A (zh) 一种基于学习的超先验边信息补偿图像压缩方法
Akbari et al. Learned multi-resolution variable-rate image compression with octave-based residual blocks
CN115294222A (zh) 图像编码方法及图像处理方法、终端及介质
Fu et al. An extended hybrid image compression based on soft-to-hard quantification
CN111343458B (zh) 一种基于重建残差的稀疏灰度图像编解码方法及系统
CN111080729B (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
CN112991169A (zh) 基于图像金字塔和生成对抗网络的图像压缩方法及系统
CN111479286A (zh) 一种边缘计算系统减少通信流量的数据处理方法
CN111107377A (zh) 深度图像压缩方法及其装置、设备和存储介质
Li et al. 3D tensor auto-encoder with application to video compression
CN115239563A (zh) 一种基于神经网络的点云属性有损压缩装置及方法
CN115170682A (zh) 一种处理点云数据的方法和目标处理点云数据模型
CN115278246B (zh) 一种深度图端到端智能压缩编码方法及装置
CN117915107B (zh) 图像压缩系统、图像压缩方法、存储介质与芯片
CN114882133B (zh) 一种图像编解码方法、系统、设备及介质
CN118400531B (zh) 一种基于多参考熵模型的图像压缩方法
CN116016920A (zh) 一种图像编码方法、解码方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant