CN112702592A - 端到端双目图像联合压缩方法、装置、设备和介质 - Google Patents

端到端双目图像联合压缩方法、装置、设备和介质 Download PDF

Info

Publication number
CN112702592A
CN112702592A CN202011582319.1A CN202011582319A CN112702592A CN 112702592 A CN112702592 A CN 112702592A CN 202011582319 A CN202011582319 A CN 202011582319A CN 112702592 A CN112702592 A CN 112702592A
Authority
CN
China
Prior art keywords
image
model
result
super
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011582319.1A
Other languages
English (en)
Other versions
CN112702592B (zh
Inventor
邓欣
杨文哲
徐迈
关振宇
李大伟
段一平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beihang University
Original Assignee
Tsinghua University
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beihang University filed Critical Tsinghua University
Priority to CN202011582319.1A priority Critical patent/CN112702592B/zh
Publication of CN112702592A publication Critical patent/CN112702592A/zh
Application granted granted Critical
Publication of CN112702592B publication Critical patent/CN112702592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开实施例涉及一种端到端双目图像联合压缩方法、装置、设备和介质,其中,该方法包括:将双目图像中第一目图像输入第一编码器,得到第一图像特征;利用第一条件熵模型对第一图像特征进行压缩处理;将第一目图像和双目图像中的第二目图像输入深度网络回归模型,输出单应性透视变换矩阵;基于单应性透视变换矩阵对第一目图像进行透视变换,得到第一变换图像;利用第二编码器确定第二目图像和第一变换图像之间的差异图像数据,并基于差异图像数据得到第二图像特征;利用第二条件熵模型对第二图像特征进行压缩处理。本公开实施例降低了双目图像压缩的计算复杂度,充分挖掘了两幅图像之间的相关性,降低了编码比特率,并且方案适用范围更为广泛。

Description

端到端双目图像联合压缩方法、装置、设备和介质
技术领域
本公开涉及图像处理技术领域,尤其涉及一种端到端双目图像联合压缩方法、装置、设备和介质。
背景技术
双目图像联合压缩(Stereo image compression,SIC)旨在共同压缩一对左右的双目影像,实现两个图像的高质量高效率压缩。在自动驾驶领域、虚拟现实、和视频监视领域,双目图像联合压缩技术已成为最关键的技术之一,也在最近引起了来自学术界和工业界越来越多的关注。通过充分利用两个图像中的互信息,SIC与独立压缩每个图像相比,可以获得更高的压缩率。
与单目图像压缩相比,SIC为更具挑战性,需要充分利用左右双目图像之间的内在联系。现有的SIC方法包括:(1)依靠匹配提取人为设计的特征点,采用传统的优化理论使速率失真损失最小化,但这种压缩方式限制了压缩效率;(2)基于深度学习的双目图像压缩方法(Deepstereo image compression,DSIC),利用双目图像对之间的内容冗余来降低联合比特率,但该方法是密集参数连接的图像匹配方案,具有很高的计算复杂度,而且,该方法要求左右图像必须在同一水平线上,即双目图像拍摄过程中摄像机的水平位置需要保持一致,导致方案只能适用一些特定情况。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种端到端双目图像联合压缩方法、装置、设备和介质。
第一方面,本公开实施例提供了一种端到端双目图像联合压缩方法,基于端到端双目图像联合压缩模型实现,所述压缩模型包括深度网络回归模型、第一编码器、第一条件熵模型、第二编码器和第二条件熵模型,所述第一条件熵模型与所述第二条件熵模型属于相同类型的熵模型,均包括基于混合高斯模型的熵模型或基于上下文的熵模型;所述方法包括:
将双目图像中第一目图像输入所述第一编码器,得到用于表征所述第一目图像的第一图像特征;
利用所述第一条件熵模型对所述第一图像特征进行压缩处理,得到所述第一目图像的压缩码流数据;
将所述第一目图像和所述双目图像中的第二目图像输入所述深度网络回归模型,输出所述第一目图像和所述第二目图像之间的单应性透视变换矩阵;
基于所述单应性透视变换矩阵对所述第一目图像进行透视变换,得到第一变换图像;
利用所述第二编码器确定所述第二目图像和所述第一变换图像之间的差异图像数据,并基于所述差异图像数据,得到用于表征所述第二目图像的第二图像特征;
利用所述第二条件熵模型,基于所述第一图像特征,对所述第二图像特征进行压缩处理,得到所述第二目图像的压缩码流数据。
第二方面,本公开实施例还提供了一种端到端双目图像联合压缩装置,基于端到端双目图像联合压缩模型实现,所述压缩模型包括深度网络回归模型、第一编码器、第一条件熵模型、第二编码器和第二条件熵模型,所述第一条件熵模型与所述第二条件熵模型属于相同类型的熵模型,均包括基于混合高斯模型的熵模型或基于上下文的熵模型,所述装置包括:
第一图像特征确定模块,用于将双目图像中第一目图像输入所述第一编码器,得到用于表征所述第一目图像的第一图像特征;
第一压缩模块,用于利用所述第一条件熵模型对所述第一图像特征进行压缩处理,得到所述第一目图像的压缩码流数据;
变换矩阵输出模块,用于将所述第一目图像和所述双目图像中的第二目图像输入所述深度网络回归模型,输出所述第一目图像和所述第二目图像之间的单应性透视变换矩阵;
第一变换图像确定模块,用于基于所述单应性透视变换矩阵对所述第一目图像进行透视变换,得到第一变换图像;
第二图像特征确定模块,用于利用所述第二编码器确定所述第二目图像和所述第一变换图像之间的差异图像数据,并基于所述差异图像数据,得到用于表征所述第二目图像的第二图像特征;
第二压缩模块,用于利用所述第二条件熵模型,基于所述第一图像特征,对所述第二图像特征进行压缩处理,得到所述第二目图像的压缩码流数据。
第三方面,本公开实施例还提供了一种电子设备,包括存储器和处理器,其中:所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备实现本公开实施例提供任一所述的端到端双目图像联合压缩方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现本公开实施例提供的任一所述的端到端双目图像联合压缩方法。
本公开实施例提供的技术方案与现有技术相比至少具有如下优点:在本公开实施例中,提出了一种用于双目图像联合压缩的端到端可训练的深度网络(Deep Homographyfor Efficient Stereo Image Compression,HESIC),可以利用双分支自动编码器架构,分别对双目图像中的两幅图像进行压缩处理,相比于现有技术降低了计算复杂度,提高了压缩效率,并且本方案对双目图像的位置没有特殊性要求,方案适用范围更为广泛。在具体压缩处理过程中,利用深度回归模型估计双目图像之间的单应性透视变换矩阵(即H矩阵),然后利用条件熵模型对双目图像之间的残余信息进行编码,充分挖掘了两幅图像之间的相关性,降低了编码比特率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种端到端双目图像联合压缩处理的架构示意图;
图2为本公开实施例提供的一种端到端双目图像联合压缩模型的结构示意图;
图3为本公开实施例提供的一种端到端双目图像联合压缩方法的流程图;
图4为本公开实施例提供的另一种端到端双目图像联合压缩模型的结构示意图;
图5为本公开实施例提供的一种基于混合高斯模型的双目熵模型的结构示意图;
图6为本公开实施例提供的另一种端到端双目图像联合压缩模型的结构示意图;
图7为本公开实施例提供的一种基于上下文的双目熵模型的结构示意图;
图8为本公开实施例提供的另一种端到端双目图像联合压缩方法的流程图;
图9为本公开实施例提供的另一种端到端双目图像联合压缩模型的结构示意图;
图10为本公开实施例提供的一种用于双目图像联合压缩的交叉质量增强网络模型的结构示意图;
图11为本公开实施例提供的一种端到端双目图像联合压缩装置的结构示意图;
图12为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1为本公开实施例提供的一种端到端双目图像联合压缩处理的架构示意图,用于对本公开实施例进行示例性说明。如图1所示,在双目图像压缩过程中,利用深度网络回归模型(RegressionModel)输出双目图像之间的单应性透视变换矩阵(即H矩阵),并对双目图像中第一目图像进行H矩阵的空间变换,为第二目图像的压缩补偿先验信息,然后对双目图像之间的残余信息进行编码,得到压缩比特流(Bitstream),以达到节省比特率的效果,在图像解压缩阶段,再次利用H矩阵对解压缩之后的第一目图像进行图像空间变换,用于恢复得到双目图像中的第二目图像。在以下描述中,双目图像中第一目图像可以是左目图像或右目图像,相应的,双目图像中第二目图像可以是右目图像或左目图像,本公开实施例不作具体限定。
图2为本公开实施例提供的一种端到端双目图像联合压缩模型的结构示意图,用于对本公开实施例进行示例性说明。如图2所示,该压缩模型包括深度网络回归模型、第一编码器ENC、第一条件熵模型、第二编码器ENC和第二条件熵模型,第一条件熵模型与第二条件熵模型属于相同类型的熵模型,均包括基于混合高斯模型的熵模型或基于上下文的熵模型,在双目图像压缩过程中可以充分利用双目图像之间的相关性,达到节省比特率的压缩效果。其中,深度网络回归模型用于输出单应性透视变换矩阵,具体网络结构可以参考现有技术实现;第一编码器和第二编码器均基于现有的编码器(Encoder)实现,用于提取图像特征,示例性的,第一编码器和第二编码器均可以采用自编码器实现;第一条件熵模型与第二条件熵模型分别用于对双目图像进行量化和熵编码处理,属于本方案的核心技术之一,具体网络结构可以参见下文中的详细描述。
图3为本公开实施例提供的一种端到端双目图像联合压缩方法的流程图,该方法可以由端到端双目图像联合压缩装置执行,该装置可以采用软件和/或硬件实现,并可集成在任意具有计算能力的电子设备上。以下结合图2和图3对本公开实施例提供的一种端到端双目图像联合压缩方法进行示例性说明。
如图3所示,本公开实施例提供的端到端双目图像联合压缩方法可以包括:
S301、将双目图像中第一目图像输入第一编码器,得到用于表征第一目图像的第一图像特征。
其中,第一目图像即用图2中的输入1(x1)表示。
S302、利用第一条件熵模型对第一图像特征进行压缩处理,得到第一目图像的压缩码流数据。
S303、将第一目图像和双目图像中的第二目图像输入深度网络回归模型,输出第一目图像和第二目图像之间的单应性透视变换矩阵。
其中,第二目图像即用图2中的输入2(x2)表示。
双目图像总是在同一时刻不同角度拍摄,两幅图像上的所有物体存在非常相似的空间变换关系,因此,可以利用单应性透视变换(一种双目图像刚性匹配技术)来匹配双目图像。并且,相比于利用像素级的密集映射连接计算来传递双目图像之间的信息,单应性透视变换可以极大地降低计算复杂度。
单应性透视变换矩阵易于计算,且通过转变为图像的四个角点坐标后也易于传输。具体来说,第一目图像中的任一坐标点(u,v)可以通过H矩阵转化为第二目图像中相应的坐标点(u′,v′),关系如下:
Figure BDA0002866175010000071
深度网络回归模型可以由多个卷积层和全连接层组成,根据两幅输入图像来输出透视变换匹配后对应的图像角点坐标变化值,然后通过角点坐标关系代入上述公式中计算H矩阵。
S304、基于单应性透视变换矩阵对第一目图像进行透视变换,得到第一变换图像。
得到H矩阵后,可以采用可微分的空间变换(Spatial Transformation,ST)模块将第一目图像扭曲为第二目图像的角度,即得到第一变换图像。ST模块主要包含采样网格生成器和图像插值拟合两部分,并且可以通过设计插值函数来提高变换质量。在采样网格生成器中,H矩阵首先进行归一化反变换得到H逆矩阵来生成采样网格,则第二目图像中每个像素(u′,v′)都存在一个第一目图像中对应的反变换后的坐标值(u,v),但这个坐标值通常并不是整数,所以需要插值拟合处理,将第一图像(u,v)周围像素点插值拟合,算出第一目图像对应的像素值,作为对应(u′,v′)的像素值。示例性的,插值拟合处理可以选择双线性插值进行拟合,具体计算公式可以参考如下:
Figure BDA0002866175010000072
其中MI和NI表示左目图像IL(此处以第一目图像为左目图像为例)的高度和宽度,
Figure BDA0002866175010000073
是左目图像通道c中(i,j)处的像素值,而Sc是左目图像扭曲成右目图像角度后所得图像通道c中位置(u′,v′)的像素值。
通过基于单应性透视变换矩阵对第一目图像进行透视变换,得到的第一变换图像与第二目图像属于相同的拍摄角度,进而可以确定出第二目图像和第一变换图像之间的差异图像数据,也即双目图像之间的不同信息,从而降低压缩存储所需的比特数。
S305、利用第二编码器确定第二目图像和第一变换图像之间的差异图像数据,并基于差异图像数据,得到用于表征第二目图像的第二图像特征。
如图2所示,本公开实施例将第二目图像和第一变换图像进行通道合并,然后输入第二编码器,第二编码器可以学习两幅图像之间的不同信息,并基于学到的图像间的不同信息得到用于表征第二目图像的第二图像特征,从而为降低压缩存储所需的比特数奠定基础。
S306、利用第二条件熵模型,基于第一图像特征,对第二图像特征进行压缩处理,得到第二目图像的压缩码流数据。
如图2所示,双目图像中的第一目图像可以单独进行压缩编码,在第二目图像的压缩过程中,第一目图像的第一图像特征作为先验信息,参与第二目图像的压缩,提高第二目图像的抽象表征(即第二图像特征)的概率熵模型的准确性,降低图像压缩失真率。
在本公开实施例中,提出了一种用于双目图像联合压缩的端到端可训练的深度网络,可以利用双分支自动编码器架构,分别对双目图像中的两幅图像进行压缩处理,相比于现有技术降低了计算复杂度,提高了压缩效率,并且本方案对双目图像的位置没有特殊性要求,方案适用范围更为广泛。在具体压缩处理过程中,利用深度回归模型估计双目图像之间的单应性透视变换矩阵,然后利用条件熵模型对双目图像之间的残余信息进行编码,充分挖掘了两幅图像之间的相关性,降低了编码比特率。
图4为本公开实施例提供的另一种端到端双目图像联合压缩模型的结构示意图,具体以基于混合高斯模型(Gaussion Mixture Model,GMM)的熵模型为例,对本公开实施例中的压缩模型进行示例性说明。如图4所示,第一条件熵模型包括第一量化器Q、第一熵编码器、用于生成超先验参数的第一变换网络模块和第一混合高斯模型g1,第二条件熵模型包括第二量化器Q、第二熵编码器、用于生成超先验参数的第二变换网络模块和第二混合高斯模型g2。此时,第一条件熵模型与第二条件熵模型可以合称为基于混合高斯模型的双目熵模型。图4中具体以算术编码为例,各个熵编码器均为算术编码器AE,相应的,各个熵解码器均为算术解码器AD。在实际应用中,可以根据需求合理选择可用的熵计算模型,并不限于算术编码。
图5为本公开实施例提供的一种基于混合高斯模型的双目熵模型的结构示意图,对第一混合高斯模型g1和第二混合高斯模型g2以及第一变换网络模块和第二变换网络模块的网络结构进行了详细的示意。应当理解,可以根据实际需求灵活设计网络结构,并且每个网络层的参数也可以根据需求而定,不应当将图5中给出的示例理解为对本公开实施例的具体限定。同样的,图5中具体以算术编码为例,各个熵编码器均为算术编码器AE,各个熵解码器均为算术解码器AD。
示例性的,如图4或图5所示,用于生成超先验参数的第一变换网络模块可以包括:第一超先验编码器ENCH、第三量化器Q、第三熵编码器和第三熵解码器;用于生成超先验参数的第二变换网络模块可以包括:第二超先验编码器ENCH、第四量化器Q、第四熵编码器和第四熵解码器。第一超先验编码器和第二超先验编码器可以包括输出绝对值的网络层abs、多个卷积层Conv和多个激活层,激活层中的激活函数可以灵活选择,例如可以选择ReLU函数作为激活函数。混合高斯模型可以包括多个卷积层(例如二维卷积层Conv2d)、多个激活层(例如以ReLU函数或LeakyReLU函数作为激活函数的激活层)和池化层(例如二维池化层MaxPool2d),其具体结构可以参考现有网络结构实现,激活层中的激活函数可以包括但不限于ReLU函数或LeakyReLU函数等。第一变换网络模块和第二变换网络模块的具体实现原理可以参考现有技术实现,本公开实例不再赘述。
基于图4或图5,可选的,利用第一条件熵模型对第一图像特征进行压缩处理,得到第一目图像的压缩码流数据,包括:
将第一图像特征y1输入第一量化器,得到第一量化结果
Figure BDA0002866175010000091
将第一图像特征y输入第一变换网络模块,生成第一超先验参数
Figure BDA0002866175010000101
将第一超先验参数
Figure BDA0002866175010000102
输入第一混合高斯模型g1,估计第一量化结果
Figure BDA0002866175010000103
的概率分布(the probability mass function,PMF)
Figure BDA0002866175010000104
基于第一量化结果的概率分布
Figure BDA0002866175010000105
和第一量化结果
Figure BDA0002866175010000106
利用第一熵编码器得到第一目图像x1的压缩码流数据。
其中,第一量化结果的概率分布
Figure BDA0002866175010000107
表示如下:
Figure BDA0002866175010000108
其中,N表示高斯函数的个数,
Figure BDA0002866175010000109
分别为第一混合高斯模型g1的参数,
Figure BDA00028661750100001010
表示第一超先验参数,
Figure BDA00028661750100001011
表示第一量化结果;
进一步的,以算术编码为例,第一目图像x1的压缩码流数据由以下公式得到:
Figure BDA00028661750100001012
其中,E函数表示算术编码中比特数期望值的计算函数,
Figure BDA00028661750100001013
表示与第一量化结果的概率分布
Figure BDA00028661750100001014
对应的真实概率分布。
相应的,利用第二条件熵模型,基于第一图像特征,对第二图像特征进行压缩处理,得到第二目图像的压缩码流数据,包括:
将第二图像特征y2输入第二量化器,得到第二量化结果
Figure BDA00028661750100001015
将第二图像特征y2输入第二变换网络模块,生成第二超先验参数
Figure BDA00028661750100001016
对第二超先验参数
Figure BDA00028661750100001017
进行上采样,并将上采样之后的第二超先验参数和第一量化结果
Figure BDA00028661750100001018
进行合并;第二超先验参数
Figure BDA00028661750100001019
进行上采样之后的维度与第一量化结果的维度相同;
将合并结果输入第二混合高斯模型g2,估计第二量化结果
Figure BDA00028661750100001020
的概率分布
Figure BDA00028661750100001021
基于第二量化结果的概率分布
Figure BDA0002866175010000111
和第二量化结果
Figure BDA0002866175010000112
利用第二熵编码器得到第二目图像x2的压缩码流数据。
其中,第二量化结果的概率分布
Figure BDA0002866175010000113
表示如下:
Figure BDA0002866175010000114
其中,N表示高斯函数的个数,
Figure BDA0002866175010000115
分别为第二混合高斯模型g2的参数,
Figure BDA0002866175010000116
表示第二超先验参数,
Figure BDA0002866175010000117
表示第一量化结果,
Figure BDA0002866175010000118
表示第二量化结果。
进一步的,以算术编码为例,第二目图像x2的压缩码流数据由以下公式得到:
Figure BDA0002866175010000119
其中,E函数表示算术编码中比特数期望值的计算函数,
Figure BDA00028661750100001110
表示与第二量化结果的概率分布
Figure BDA00028661750100001111
对应的真实概率分布。
进而,双目图像的整体压缩码流数据可以表示为R=R1+R2
在本方案中,基于
Figure BDA00028661750100001112
得到第二量化结果
Figure BDA00028661750100001113
的熵编码,由于双目图像中的两幅图像高度相似性,当第一目图像独立编码或解码后,在已知第一量化结果
Figure BDA00028661750100001114
的情况下,第二量化结果
Figure BDA00028661750100001115
的熵值越小,编码后所需的比特数也就越小,因此压缩效果越好。
图6为本公开实施例提供的另一种端到端双目图像联合压缩模型的结构示意图,具体以基于上下文(Context)的熵模型为例,对本公开实施例中的压缩模型进行示例性说明。如图6所示,第一条件熵模型包括第一量化器Q、第一熵编码器、用于生成超先验参数的第一变换网络模块、第一超先验解码器DEC1H、第一上下文预测模块和第一高斯模型c1(或称为第一熵参数模块,此处采用的是单高斯模型),第二条件熵模型包括第二量化器Q、第二熵编码器、用于生成超先验参数的第二变换网络模块、第二超先验解码器DEC2H、第二上下文预测模块和第二高斯模型c2(或称为第二熵参数模块,此处采用的是单高斯模型);其中,第一超先验解码器或第二超先验解码器均包括反卷积层(执行卷积的同时进行上采样),第一上下文预测模块或第二上下文预测模块均包括掩模卷积神经网络层。此时,第一条件熵模型与第二条件熵模型可以合称为基于上下文的双目熵模型。
图7为本公开实施例提供的一种基于上下文的双目熵模型的结构示意图,对基于上下文的双目熵模型的具体结构组成进行详细的示意。应当理解,可以根据实际需求灵活设计网络结构,并且每个网络层的参数也可以根据需求而定,不应当将图7中给出的示例理解为对本公开实施例的具体限定。此外,图6或图7中同样具体以算术编码为例,各个熵编码器均为算术编码器AE,各个熵解码器均为算术解码器AD。在实际应用中,可以根据需求合理选择可用的熵计算模型,并不限于算术编码。
图6与图4或者图7与图5中,功能相同且名称相同的网络模块,具有相同的网络结构,例如用于生成超先验参数的第一变换网络模块和第二变换网络模块,可以参考图5中示出的网络结构实现。
基于图6或图7,可选的,利用第一条件熵模型对第一图像特征进行压缩处理,得到第一目图像的压缩码流数据,包括:
将第一图像特征y1输入第一量化器,得到第一量化结果
Figure BDA0002866175010000121
将第一图像特征y1输入第一变换网络模块,生成第一超先验参数
Figure BDA0002866175010000122
将第一超先验参数
Figure BDA0002866175010000124
输入第一超先验解码器,得到第一上采样结果;
利用第一上下文预测模块,基于第一量化结果
Figure BDA0002866175010000123
分别输出第一目图像中任一像素i与任一像素之前完成编码的在前像素之间的第一依赖结果(或称为依赖关系);数据流处理如图7所示,在第一上下文预测模块中利用循环展开的形式,不断地将当前像素i之前编码/译码完成的像素作为已知内容来预测当前像素i对应的概率分布值,其中涉及的具体实现原理可以参考现有技术中关于基于上下文进行预测的神经网络模型的实现原理;
将第一依赖结果和第一上采样结果进行合并(即通道合并Concat),并将合并结果输入第一高斯模型c1,估计第一量化结果的概率分布
Figure BDA0002866175010000131
即在求解第一量化结果的概率分布过程中,除了考虑超先验参数外还考虑像素之间的依赖关系,如图7所示,第一高斯模型c1的输入包括
Figure BDA0002866175010000132
Figure BDA0002866175010000133
基于第一量化结果的概率分布
Figure BDA0002866175010000134
和第一量化结果
Figure BDA0002866175010000135
利用第一熵编码器得到第一目图像x1的压缩码流数据。
其中,第一量化结果的概率分布
Figure BDA0002866175010000136
表示如下:
Figure BDA0002866175010000137
具体可以通过链式求导法则推导得到;
Figure BDA0002866175010000138
其中,
Figure BDA0002866175010000139
为第一量化结果中对应第一目图像x1中第i个像素的值,
Figure BDA00028661750100001310
表示第一超先验参数,
Figure BDA00028661750100001311
为第一高斯模型c1的参数;
第一目图像x1的压缩码流数据由以下公式得到:
Figure BDA00028661750100001312
其中,E函数表示算术编码中比特数期望值的计算函数,
Figure BDA00028661750100001313
表示与第一量化结果的概率分布
Figure BDA00028661750100001314
对应的真实概率分布。
相应的,利用第二条件熵模型,基于第一图像特征,对第二图像特征进行压缩处理,得到第二目图像的压缩码流数据,包括:
将第二图像特征y2输入第二量化器,得到第二量化结果
Figure BDA00028661750100001315
将第二图像特征y2输入第二变换网络模块,生成第二超先验参数
Figure BDA0002866175010000141
将第二超先验参数
Figure BDA0002866175010000142
输入第二超先验解码器,得到第二上采样结果;
利用第二上下文预测模块,基于第二量化结果,分别输出第二目图像中任一像素与任一像素之前完成编码的在前像素之间的第二依赖结果;数据流处理如图7所示,在第二上下文预测模块中利用循环展开的形式,不断地将当前像素i之前编码/译码完成的像素作为已知内容来预测当前像素i对应的概率分布值,其中涉及的具体实现原理可以参考现有技术中关于基于上下文进行预测的神经网络模型的实现原理;
将第二依赖结果、第一量化结果
Figure BDA0002866175010000143
和第二上采样结果进行合并(即通道合并Concat),并将合并结果输入第二高斯模型c2,估计第二量化结果的概率分布
Figure BDA0002866175010000144
即在求解第二量化结果的概率分布过程中,除了考虑超先验参数外还考虑像素之间的依赖关系以及第一量化结果
Figure BDA0002866175010000145
如图7所示,第二高斯模型c2的输入包括
Figure BDA0002866175010000146
Figure BDA0002866175010000147
由于第一目图像独立计算可作为已知,且不止于当前像素i,可以直接作为条件先验帮助减小第二目图像的概率分布对应的条件熵;
基于第二量化结果的概率分布
Figure BDA0002866175010000148
和第二量化结果
Figure BDA0002866175010000149
利用第二熵编码器得到第二目图像x2的压缩码流数据。
其中,第二量化结果的概率分布
Figure BDA00028661750100001410
表示如下:
Figure BDA00028661750100001411
具体可以通过链式求导法则推导得到;
Figure BDA00028661750100001412
其中,
Figure BDA00028661750100001413
为第二量化结果中对应第二目图像x2中第i个像素的值,
Figure BDA00028661750100001414
表示第二超先验参数,
Figure BDA00028661750100001415
表示第一量化结果,
Figure BDA00028661750100001416
为第二高斯模型c2的参数。
第二目图像x2的压缩码流数据由以下公式得到:
Figure BDA0002866175010000151
其中,E函数表示算术编码中比特数期望值的计算函数,
Figure BDA0002866175010000152
表示与第二量化结果的概率分布
Figure BDA0002866175010000153
对应的真实概率分布。
进而,双目图像的整体压缩码流数据可以表示为R=R1+R2
在本方案中,基于
Figure BDA0002866175010000154
得到第二量化结果
Figure BDA0002866175010000155
的熵编码,由于双目图像中的两幅图像高度相似性,当第一目图像独立编码或解码后,在已知第一量化结果
Figure BDA0002866175010000156
的情况下,第二量化结果
Figure BDA0002866175010000157
的熵值越小,编码后所需的比特数也就越小,因此压缩效果越好。
图8为本公开实施例提供的另一种端到端双目图像联合压缩方法的流程图,基于上述技术方案进一步进行扩展。需要说明的是,图8中各个步骤的执行顺序可以根据实际处理进行调整,不应当将图8中所示出的执行顺序理解为对本公开实施例的具体限定。并且,压缩模型的结构示意可以参考图4或图6,压缩模型中还包括第一解码器DEC和第二解码器DEC。示例性的,第一解码器DEC和第二解码器DEC可以采用自解码器实现。
如图8所示,本公开实施例提供的端到端双目图像联合压缩方法可以包括:
S801、将双目图像中第一目图像输入第一编码器,得到用于表征第一目图像的第一图像特征。
S802、利用第一条件熵模型对第一图像特征进行压缩处理,得到第一目图像的压缩码流数据。
S803、将第一目图像和双目图像中的第二目图像输入深度网络回归模型,输出第一目图像和第二目图像之间的单应性透视变换矩阵。
S804、利用深度网络回归模型输出第一目图像和第二目图像之间预设数量的角点坐标的变化值,并对角点坐标的变化值进行编码,得到角点坐标的变化值的压缩码流数据。
如图4或图6所示,在双目图像联合压缩过程中,H矩阵的传输也是一个需要考虑的问题,如果直接将H矩阵传输到解码端会增加编码比特率。考虑图像上的四个角点坐标变化值与H矩阵可以相互转换,因此可以通过传输四个整数型角点坐标的方式来代替直接传输浮点型3x3的H矩阵。也即角点坐标的变化值的压缩码流数据用于根据角点坐标变化值与单应性透视变换矩阵之间的关系,得到单应性透视变换矩阵,以用于双目图像的解压缩过程。
具体的,可以首先将角点坐标取整,然后进行二进制编码存储,对于512x512大小的图片为例,传输角点只需
Figure BDA0002866175010000161
per pixel(bpp,每像素比特数),根据结果可得,此数量级的比特数额外支出几乎可以忽略不计。
S805、基于单应性透视变换矩阵对第一目图像进行透视变换,得到第一变换图像。
S806、利用第二编码器确定第二目图像和第一变换图像之间的差异图像数据,并基于差异图像数据,得到用于表征第二目图像的第二图像特征。
S807、利用第二条件熵模型,基于第一图像特征,对第二图像特征进行压缩处理,得到第二目图像的压缩码流数据。
S808、利用第一条件熵模型对第一目图像的压缩码流数据进行解压缩处理,并将解压缩处理结果输入第一解码器,得到解压缩之后的第一目图像。
解压缩之后的第一目图像即图4或图6中的示出的输出1。
S809、利用第二条件熵模型对第二目图像的压缩码流数据进行解压缩处理,并将解压缩处理结果输入第二解码器,得到解压缩之后的差异图像数据。
S810、对角点坐标的变化值的压缩码流数据进行解压缩处理,并基于解压缩处理结果得到单应性透视变换矩阵。
如图4或图6所示,角点坐标的变化值的压缩码流数据解压缩之后,可以根据角点坐标变化值与单应性透视变换矩阵之间的关系,恢复得到单应性透视变换矩阵。
S811、利用单应性透视变换矩阵对解压缩之后的第一目图像进行透视变换,得到第二变换图像。
S812、基于解压缩之后的差异图像数据和第二变换图像,得到解压缩之后的第二目图像。
如图4或图6所示,将解压缩之后的差异图像数据和第二变换图像进行通道合并,然后恢复得到解压缩之后的第二目图像,即图4或图6中的示出的输出2。
在本公开实施例中,利用深度回归模型估计双目图像之间的单应性透视变换矩阵,然后利用条件熵模型对双目图像之间的残余信息进行编码,充分挖掘了两幅图像之间的相关性,降低了编码比特率;并且,相比于现有技术降低了计算复杂度,提高了压缩效率,对双目图像的位置没有特殊性要求,方案适用范围更为广泛。
图9为本公开实施例提供的另一种端到端双目图像联合压缩模型的结构示意图,即在上述技术方案的基础上,本公开实施例中的压缩模型还包括交叉质量增强网络模型(Cross Quality Enhancement,CQE),用于对解压缩之后的双目图像进行质量增强,进一步提高解压缩结果。
并且,图9具体是以基于混合高斯模型的熵模型为例,应当理解,在本公开实施例中,同样可以在基于上下文的熵模型的基础上,增加交叉质量增强网络模型,得到本公开实施例中的另一种压缩模型。
图10为本公开实施例提供的一种用于双目图像联合压缩的交叉质量增强网络模型的结构示意图,具体的,交叉质量增强网络模型可以包括第一交叉质量增强子网络模型和第二交叉质量增强子网络模型。其中,第一交叉质量增强子网络或第二交叉质量增强子网络均包括卷积层和残差网络层。如图10所示,第一交叉质量增强子网络模型或第二交叉质量增强子网络模型均可以包括多个卷积层(例如图中所示出卷积核大小为32x1x1的卷积层)和多个残差块(Residual Block,RB),各个残差块结构相同,交叉质量增强网络模型的具体网络结构可以根据需求进行灵活设置,例如卷积层数和残差块数量均可以灵活设置。
结合图9和图10,在上述技术方案的基础上,进一步的,本公开实施例提供的方法还包括:
计算单应性透视变换矩阵的逆变换矩阵H-1
利用逆变换矩阵H-1对解压缩之后的第二目图像
Figure BDA0002866175010000181
进行透视变换(即图10中的图像空间变换),得到第三变换图像;
将第三变换图像和解压缩之后的第一目图像
Figure BDA0002866175010000182
进行合并(即通道合并Concat),并将合并结果输入第一交叉质量增强子网络模型,得到第一目解压增强图像
Figure BDA0002866175010000183
将第二变换图像(即对解压缩之后的第一图像
Figure BDA0002866175010000184
进行透视变换得到的图像)和解压缩之后的第二目图像
Figure BDA0002866175010000185
进行合并,并将合并结果输入第二交叉质量增强子网络模型,得到第二目解压增强图像
Figure BDA0002866175010000186
在本公开实施例中,通过利用交叉质量增强网络模型,基于双目图像内容的相关性,对解压缩之后的双目图像进行增强处理,提高了两幅图解压缩后的输出质量。
在上述技术方案的基础上,进一步的,本公开实施例需要对压缩模型进行预先训练,首先对深度网络回归模型进行训练,通过训练,使得深度网络回归模型具有输出单应性透视变换矩阵的功能;然后对整个压缩模型进行训练,使得压缩模型具有对双目图像进行压缩和解压缩的功能。模型训练的具体原理可以参考现有模型的训练原理,本公开实施例不作具体限定。
在深度网络回归模型的训练过程中,采用以下损失函数:
LH=D(x2,Fs(x1,Fr(x1,x2)));
其中,x1和x2分别表示双目图像中的两张图像,Fr函数表示深度网络回归模型,Fs函数表示透视变换函数,D函数表示失真函数,示例性的,可选择均方差(MSE)作为失真统计标准;
在端到端双目图像联合压缩模型的训练过程中,采用以下损失函数:
Figure BDA0002866175010000191
其中,λd与λr分别表示图像失真和压缩后所需比特数在损失函数中的权重,R表示双目图像联合压缩所需的每像素平均比特数,D函数表示失真函数,
Figure BDA0002866175010000192
Figure BDA0002866175010000193
分别表示与x1和x2对应的解压缩之后的输出图像。具体的,
Figure BDA0002866175010000194
Figure BDA0002866175010000195
可以分别表示在存在交叉质量增强网络模型时双目图像对应的两幅解压缩且质量增强后的图像,当然,不存在交叉质量增强网络模型时,
Figure BDA0002866175010000196
Figure BDA0002866175010000197
可以替换为双目图像对应的两幅解压缩后直接输出的图像。
通过调整λd和λr的比例,便可调整模型训练后压缩效率与重建图像失真率的权衡,即调整双目图像的联合压缩质量。
图11为本公开实施例提供的一种端到端双目图像联合压缩装置的结构示意图,基于端到端双目图像联合压缩模型实现,压缩模型包括深度网络回归模型、第一编码器、第一条件熵模型、第二编码器和第二条件熵模型,第一条件熵模型与第二条件熵模型属于相同类型的熵模型,均包括基于混合高斯模型的熵模型或基于上下文的熵模型。
如图11所示,本公开实施例提供的端到端双目图像联合压缩装置1100可以包括第一图像特征确定模块1101、第一压缩模块1102、变换矩阵输出模块1103、第一变换图像确定模块1104、第二图像特征确定模块1105和第二压缩模块1106,其中:
第一图像特征确定模块1101,用于将双目图像中第一目图像输入第一编码器,得到用于表征第一目图像的第一图像特征;
第一压缩模块1102,用于利用第一条件熵模型对第一图像特征进行压缩处理,得到第一目图像的压缩码流数据;
变换矩阵输出模块1103,用于将第一目图像和双目图像中的第二目图像输入深度网络回归模型,输出第一目图像和第二目图像之间的单应性透视变换矩阵;
第一变换图像确定模块1104,用于基于单应性透视变换矩阵对第一目图像进行透视变换,得到第一变换图像;
第二图像特征确定模块1105,用于利用第二编码器确定第二目图像和第一变换图像之间的差异图像数据,并基于差异图像数据,得到用于表征第二目图像的第二图像特征;
第二压缩模块1106,用于利用第二条件熵模型,基于第一图像特征,对第二图像特征进行压缩处理,得到第二目图像的压缩码流数据。
可选的,如果第一条件熵模型与第二条件熵模型均为基于混合高斯模型的熵模型,则第一条件熵模型包括第一量化器、第一熵编码器、用于生成超先验参数的第一变换网络模块和第一混合高斯模型,第二条件熵模型包括第二量化器、第二熵编码器、用于生成超先验参数的第二变换网络模块和第二混合高斯模型;
相应的,第一压缩模块1102包括:
第一量化单元,用于将第一图像特征输入第一量化器,得到第一量化结果;
第一超先验参数生成单元,用于将第一图像特征输入第一变换网络模块,生成第一超先验参数;
第一估计单元,用于将第一超先验参数输入第一混合高斯模型,估计第一量化结果的概率分布;
第一压缩单元,用于基于第一量化结果的概率分布和第一量化结果,利用第一熵编码器得到第一目图像的压缩码流数据;
相应的,第二压缩模块1106包括:
第二量化单元,用于将第二图像特征输入第二量化器,得到第二量化结果;
第二超先验参数生成单元,用于将第二图像特征输入第二变换网络模块,生成第二超先验参数;
合并单元,用于对第二超先验参数进行上采样,并将上采样之后的第二超先验参数和第一量化结果进行合并;
第二估计单元,用于将合并结果输入第二混合高斯模型,估计第二量化结果的概率分布;
第二压缩单元,用于基于第二量化结果的概率分布和第二量化结果,利用第二熵编码器得到第二目图像的压缩码流数据。
可选的,第一量化结果的概率分布
Figure BDA0002866175010000211
表示如下:
Figure BDA0002866175010000212
其中,N表示高斯函数的个数,
Figure BDA0002866175010000213
分别为第一混合高斯模型的参数,
Figure BDA0002866175010000214
表示第一超先验参数,
Figure BDA0002866175010000215
表示第一量化结果;
第二量化结果的概率分布
Figure BDA0002866175010000216
表示如下:
Figure BDA0002866175010000217
其中,N表示高斯函数的个数,
Figure BDA0002866175010000218
分别为第二混合高斯模型的参数,
Figure BDA0002866175010000219
表示第二超先验参数,
Figure BDA00028661750100002110
表示第一量化结果,
Figure BDA00028661750100002111
表示第二量化结果。
可选的,如果第一条件熵模型与第二条件熵模型均为基于上下文的熵模型,则第一条件熵模型包括第一量化器、第一熵编码器、用于生成超先验参数的第一变换网络模块、第一超先验解码器、第一上下文预测模块和第一高斯模型,第二条件熵模型包括第二量化器、第二熵编码器、用于生成超先验参数的第二变换网络模块、第二超先验解码器、第二上下文预测模块和第二高斯模型;
第一超先验解码器或第二超先验解码器均包括反卷积层,第一上下文预测模块或第二上下文预测模块均包括掩模卷积神经网络层;
相应的,第一压缩模块1102包括:
第一量化单元,用于将第一图像特征输入第一量化器,得到第一量化结果;
第一超先验参数生成单元,用于将第一图像特征输入第一变换网络模块,生成第一超先验参数;
第一上采样结果确定单元,用于将第一超先验参数输入第一超先验解码器,得到第一上采样结果;
第一依赖结果确定单元,用于利用第一上下文预测模块,基于第一量化结果,分别输出第一目图像中任一像素与任一像素之前完成编码的在前像素之间的第一依赖结果;
第一估计单元,用于将第一依赖结果和第一上采样结果进行合并,并将合并结果输入第一高斯模型,估计第一量化结果的概率分布;
第一压缩单元,用于基于第一量化结果的概率分布和第一量化结果,利用第一熵编码器得到第一目图像的压缩码流数据;
相应的,第二压缩模块1106包括:
第二量化单元,用于将第二图像特征输入第二量化器,得到第二量化结果;
第二超先验参数生成单元,用于将第二图像特征输入第二变换网络模块,生成第二超先验参数;
第二上采样结果确定单元,用于将第二超先验参数输入第二超先验解码器,得到第二上采样结果;
第二依赖结果确定单元,用于利用第二上下文预测模块,基于第二量化结果,分别输出第二目图像中任一像素与任一像素之前完成编码的在前像素之间的第二依赖结果;
第二估计单元,用于将第二依赖结果、第一量化结果和第二上采样结果进行合并,并将合并结果输入第二高斯模型,估计第二量化结果的概率分布;
第二压缩单元,用于基于第二量化结果的概率分布和第二量化结果,利用第二熵编码器得到第二目图像的压缩码流数据。
可选的,第一量化结果的概率分布
Figure BDA0002866175010000221
表示如下:
Figure BDA0002866175010000231
Figure BDA0002866175010000232
其中,
Figure BDA0002866175010000233
为第一量化结果中对应第一目图像中第i个像素的值,
Figure BDA00028661750100002318
表示第一超先验参数,
Figure BDA0002866175010000234
为第一高斯模型的参数;
第二量化结果的概率分布
Figure BDA0002866175010000235
表示如下:
Figure BDA0002866175010000236
Figure BDA0002866175010000237
其中,
Figure BDA0002866175010000238
为第二量化结果中对应第二目图像中第i个像素的值,
Figure BDA0002866175010000239
表示第二超先验参数,
Figure BDA00028661750100002310
表示第一量化结果,
Figure BDA00028661750100002311
为第二高斯模型的参数。
可选的,第一目图像的压缩码流数据由以下公式得到:
Figure BDA00028661750100002312
其中,E函数表示算术编码中比特数期望值的计算函数,
Figure BDA00028661750100002313
表示与第一量化结果的概率分布
Figure BDA00028661750100002314
对应的真实概率分布;
第二目图像的压缩码流数据由以下公式得到:
Figure BDA00028661750100002315
其中,E函数表示算术编码中比特数期望值的计算函数,
Figure BDA00028661750100002316
表示与第二量化结果的概率分布
Figure BDA00028661750100002317
对应的真实概率分布。
可选的,本公开实施例提供的装置1100还包括:
角点编码模块,用于利用深度网络回归模型输出第一目图像和第二目图像之间预设数量的角点坐标的变化值,并对角点坐标的变化值进行编码,得到角点坐标的变化值的压缩码流数据;
其中,角点坐标的变化值的压缩码流数据用于根据角点坐标变化值与单应性透视变换矩阵之间的关系,得到单应性透视变换矩阵,以用于双目图像的解压缩过程。
可选的,压缩模型还包括第一解码器和第二解码器,本公开实施例提供的装置1100还包括:
第一解压模块,用于利用第一条件熵模型对第一目图像的压缩码流数据进行解压缩处理,并将解压缩处理结果输入第一解码器,得到解压缩之后的第一目图像;
第二解压模块,用于利用第二条件熵模型对第二目图像的压缩码流数据进行解压缩处理,并将解压缩处理结果输入第二解码器,得到解压缩之后的差异图像数据;
角点变换模块,用于对角点坐标的变化值的压缩码流数据进行解压缩处理,并基于解压缩处理结果得到单应性透视变换矩阵;
第二变换图像确定模块,用于利用单应性透视变换矩阵对解压缩之后的第一目图像进行透视变换,得到第二变换图像;
第二目图像生成模块,用于基于解压缩之后的差异图像数据和第二变换图像,得到解压缩之后的第二目图像。
可选的,压缩模型还包括第一交叉质量增强子网络模型和第二交叉质量增强子网络模型,本公开实施例提供的装置1100还包括:
逆变换矩阵计算模块,用于计算单应性透视变换矩阵的逆变换矩阵;
第三变换图像确定模块,用于利用逆变换矩阵对解压缩之后的第二目图像进行透视变换,得到第三变换图像;
第一图像增强模块,用于将第三变换图像和解压缩之后的第一目图像进行合并,并将合并结果输入第一交叉质量增强子网络模型,得到第一目解压增强图像;
第二图像增强模块,用于将第二变换图像和解压缩之后的第二目图像进行合并,并将合并结果输入第二交叉质量增强子网络模型,得到第二目解压增强图像;
其中,第一交叉质量增强子网络或第二交叉质量增强子网络均包括卷积层和残差网络层。
可选的,在深度网络回归模型的训练过程中,采用以下损失函数:
LH=D(x2,Fs(x1,Fr(x1,x2)));
其中,x1和x2分别表示双目图像中的两张图像,Fr函数表示深度网络回归模型,Fs函数表示透视变换函数,D函数表示失真函数;
在端到端双目图像联合压缩模型的训练过程中,采用以下损失函数:
Figure BDA0002866175010000251
其中,λd与λr分别表示图像失真和压缩后所需比特数在损失函数中的权重,R表示双目图像联合压缩所需的每像素平均比特数,D函数表示失真函数,
Figure BDA0002866175010000252
Figure BDA0002866175010000253
分别表示与x1和x2对应的解压缩之后的输出图像。
本公开实施例所提供的端到端双目图像联合压缩装置可执行本公开实施例所提供的任意端到端双目图像联合压缩方法,具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。
图12为本公开实施例提供的一种电子设备的结构示意图,用于对实现本公开实施例提供的端到端双目图像联合压缩方法的电子设备进行示例性说明。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机、智能家居设备、可穿戴电子设备、服务器等等的固定终端。图12示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和占用范围带来任何限制。
如图12所示,电子设备1200包括一个或多个处理器1201和存储器1202。
处理器1201可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备1200中的其他组件以执行期望的功能。
存储器1202可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1201可以运行程序指令,以实现本公开实施例提供的端到端双目图像联合压缩方法,还可以实现其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备1200还可以包括:输入装置1203和输出装置1204,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置1203还可以包括例如键盘、鼠标等等。
该输出装置1204可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置1204可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图12中仅示出了该电子设备1200中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备1200还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得计算设备实现本公开实施例所提供的任意端到端双目图像联合压缩方法。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上且部分在远程电子设备上执行、或者完全在远程电子设备上执行。
此外,本公开实施例还可以提供一种计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得计算设备实现本公开实施例所提供的任意端到端双目图像联合压缩方法。
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种端到端双目图像联合压缩方法,其特征在于,基于端到端双目图像联合压缩模型实现,所述压缩模型包括深度网络回归模型、第一编码器、第一条件熵模型、第二编码器和第二条件熵模型,所述第一条件熵模型与所述第二条件熵模型属于相同类型的熵模型,均包括基于混合高斯模型的熵模型或基于上下文的熵模型;所述方法包括:
将双目图像中第一目图像输入所述第一编码器,得到用于表征所述第一目图像的第一图像特征;
利用所述第一条件熵模型对所述第一图像特征进行压缩处理,得到所述第一目图像的压缩码流数据;
将所述第一目图像和所述双目图像中的第二目图像输入所述深度网络回归模型,输出所述第一目图像和所述第二目图像之间的单应性透视变换矩阵;
基于所述单应性透视变换矩阵对所述第一目图像进行透视变换,得到第一变换图像;
利用所述第二编码器确定所述第二目图像和所述第一变换图像之间的差异图像数据,并基于所述差异图像数据,得到用于表征所述第二目图像的第二图像特征;
利用所述第二条件熵模型,基于所述第一图像特征,对所述第二图像特征进行压缩处理,得到所述第二目图像的压缩码流数据。
2.根据权利要求1所述的方法,其特征在于,如果所述第一条件熵模型与所述第二条件熵模型均为所述基于混合高斯模型的熵模型,则所述第一条件熵模型包括第一量化器、第一熵编码器、用于生成超先验参数的第一变换网络模块和第一混合高斯模型,所述第二条件熵模型包括第二量化器、第二熵编码器、用于生成超先验参数的第二变换网络模块和第二混合高斯模型;
相应的,所述利用所述第一条件熵模型对所述第一图像特征进行压缩处理,得到所述第一目图像的压缩码流数据,包括:
将所述第一图像特征输入所述第一量化器,得到第一量化结果;
将所述第一图像特征输入所述第一变换网络模块,生成第一超先验参数;
将所述第一超先验参数输入所述第一混合高斯模型,估计所述第一量化结果的概率分布;
基于所述第一量化结果的概率分布和所述第一量化结果,利用所述第一熵编码器得到所述第一目图像的压缩码流数据;
相应的,所述利用所述第二条件熵模型,基于所述第一图像特征,对所述第二图像特征进行压缩处理,得到所述第二目图像的压缩码流数据,包括:
将所述第二图像特征输入所述第二量化器,得到第二量化结果;
将所述第二图像特征输入所述第二变换网络模块,生成第二超先验参数;
对所述第二超先验参数进行上采样,并将上采样之后的第二超先验参数和所述第一量化结果进行合并;
将合并结果输入所述第二混合高斯模型,估计所述第二量化结果的概率分布;
基于所述第二量化结果的概率分布和所述第二量化结果,利用第二熵编码器得到所述第二目图像的压缩码流数据。
3.根据权利要求2所述的方法,其特征在于:
所述第一量化结果的概率分布
Figure FDA0002866173000000021
表示如下:
Figure FDA0002866173000000022
其中,N表示高斯函数的个数,
Figure FDA0002866173000000023
分别为所述第一混合高斯模型的参数,
Figure FDA0002866173000000024
表示所述第一超先验参数,
Figure FDA0002866173000000025
表示所述第一量化结果;
所述第二量化结果的概率分布
Figure FDA0002866173000000031
表示如下:
Figure FDA0002866173000000032
其中,N表示高斯函数的个数,
Figure FDA0002866173000000033
分别为所述第二混合高斯模型的参数,
Figure FDA0002866173000000034
表示所述第二超先验参数,
Figure FDA0002866173000000035
表示所述第一量化结果,
Figure FDA0002866173000000036
表示所述第二量化结果。
4.根据权利要求1所述的方法,其特征在于,如果所述第一条件熵模型与所述第二条件熵模型均为所述基于上下文的熵模型,则所述第一条件熵模型包括第一量化器、第一熵编码器、用于生成超先验参数的第一变换网络模块、第一超先验解码器、第一上下文预测模块和第一高斯模型,所述第二条件熵模型包括第二量化器、第二熵编码器、用于生成超先验参数的第二变换网络模块、第二超先验解码器、第二上下文预测模块和第二高斯模型;
所述第一超先验解码器或所述第二超先验解码器均包括反卷积层,所述第一上下文预测模块或所述第二上下文预测模块均包括掩模卷积神经网络层;
相应的,所述利用所述第一条件熵模型对所述第一图像特征进行压缩处理,得到所述第一目图像的压缩码流数据,包括:
将所述第一图像特征输入所述第一量化器,得到第一量化结果;
将所述第一图像特征输入所述第一变换网络模块,生成第一超先验参数;
将所述第一超先验参数输入所述第一超先验解码器,得到第一上采样结果;
利用所述第一上下文预测模块,基于所述第一量化结果,分别输出所述第一目图像中任一像素与所述任一像素之前完成编码的在前像素之间的第一依赖结果;
将所述第一依赖结果和所述第一上采样结果进行合并,并将合并结果输入所述第一高斯模型,估计所述第一量化结果的概率分布;
基于所述第一量化结果的概率分布和所述第一量化结果,利用所述第一熵编码器得到所述第一目图像的压缩码流数据;
相应的,所述利用所述第二条件熵模型,基于所述第一图像特征,对所述第二图像特征进行压缩处理,得到所述第二目图像的压缩码流数据,包括:
将所述第二图像特征输入所述第二量化器,得到第二量化结果;
将所述第二图像特征输入所述第二变换网络模块,生成第二超先验参数;
将所述第二超先验参数输入所述第二超先验解码器,得到第二上采样结果;
利用所述第二上下文预测模块,基于所述第二量化结果,分别输出所述第二目图像中任一像素与所述任一像素之前完成编码的在前像素之间的第二依赖结果;
将所述第二依赖结果、所述第一量化结果和所述第二上采样结果进行合并,并将合并结果输入所述第二高斯模型,估计所述第二量化结果的概率分布;
基于所述第二量化结果的概率分布和所述第二量化结果,利用所述第二熵编码器得到所述第二目图像的压缩码流数据。
5.根据权利要求4所述的方法,其特征在于:
所述第一量化结果的概率分布
Figure FDA0002866173000000041
表示如下:
Figure FDA0002866173000000042
Figure FDA0002866173000000043
其中,
Figure FDA0002866173000000044
为所述第一量化结果中对应所述第一目图像中第i个像素的值,
Figure FDA0002866173000000045
表示所述第一超先验参数,
Figure FDA0002866173000000046
为所述第一高斯模型的参数;
所述第二量化结果的概率分布
Figure FDA0002866173000000051
表示如下:
Figure FDA0002866173000000052
Figure FDA0002866173000000053
其中,
Figure FDA0002866173000000054
为所述第二量化结果中对应所述第二目图像中第i个像素的值,
Figure FDA0002866173000000055
表示所述第二超先验参数,
Figure FDA0002866173000000056
表示所述第一量化结果,
Figure FDA0002866173000000057
为所述第二高斯模型的参数。
6.根据权利要求3或5所述的方法,其特征在于:
所述第一目图像的压缩码流数据由以下公式得到:
Figure FDA0002866173000000058
其中,E函数表示算术编码中比特数期望值的计算函数,
Figure FDA0002866173000000059
表示与所述第一量化结果的概率分布
Figure FDA00028661730000000510
对应的真实概率分布;
所述第二目图像的压缩码流数据由以下公式得到:
Figure FDA00028661730000000511
其中,E函数表示算术编码中比特数期望值的计算函数,
Figure FDA00028661730000000512
表示与所述第二量化结果的概率分布
Figure FDA00028661730000000513
对应的真实概率分布。
7.根据权利要求1所述的方法,其特征在于,还包括:
利用所述深度网络回归模型输出所述第一目图像和所述第二目图像之间预设数量的角点坐标的变化值,并对所述角点坐标的变化值进行编码,得到所述角点坐标的变化值的压缩码流数据;
其中,所述角点坐标的变化值的压缩码流数据用于根据角点坐标变化值与单应性透视变换矩阵之间的关系,得到所述单应性透视变换矩阵,以用于所述双目图像的解压缩过程。
8.根据权利要求7所述的方法,其特征在于,所述压缩模型还包括第一解码器和第二解码器,所述方法还包括:
利用所述第一条件熵模型对所述第一目图像的压缩码流数据进行解压缩处理,并将解压缩处理结果输入所述第一解码器,得到解压缩之后的第一目图像;
利用所述第二条件熵模型对所述第二目图像的压缩码流数据进行解压缩处理,并将解压缩处理结果输入所述第二解码器,得到解压缩之后的差异图像数据;
对所述角点坐标的变化值的压缩码流数据进行解压缩处理,并基于解压缩处理结果得到所述单应性透视变换矩阵;
利用所述单应性透视变换矩阵对所述解压缩之后的第一目图像进行透视变换,得到第二变换图像;
基于所述解压缩之后的差异图像数据和所述第二变换图像,得到解压缩之后的第二目图像。
9.根据权利要求8所述的方法,其特征在于,所述压缩模型还包括第一交叉质量增强子网络模型和第二交叉质量增强子网络模型,所述方法还包括:
计算所述单应性透视变换矩阵的逆变换矩阵;
利用所述逆变换矩阵对所述解压缩之后的第二目图像进行透视变换,得到第三变换图像;
将所述第三变换图像和所述解压缩之后的第一目图像进行合并,并将合并结果输入所述第一交叉质量增强子网络模型,得到第一目解压增强图像;
将所述第二变换图像和所述解压缩之后的第二目图像进行合并,并将合并结果输入所述第二交叉质量增强子网络模型,得到第二目解压增强图像;
其中,所述第一交叉质量增强子网络或所述第二交叉质量增强子网络均包括卷积层和残差网络层。
10.根据权利要求1所述的方法,其特征在于,还包括:
在所述深度网络回归模型的训练过程中,采用以下损失函数:
LH=D(x2,Fs(x1,Fr(x1,x2)));
其中,x1和x2分别表示双目图像中的两张图像,Fr函数表示所述深度网络回归模型,Fs函数表示透视变换函数,D函数表示失真函数;
在所述端到端双目图像联合压缩模型的训练过程中,采用以下损失函数:
Figure FDA0002866173000000071
其中,λd与λr分别表示图像失真和压缩后所需比特数在损失函数中的权重,R表示双目图像联合压缩所需的每像素平均比特数,D函数表示失真函数,
Figure FDA0002866173000000072
Figure FDA0002866173000000073
分别表示与x1和x2对应的解压缩之后的输出图像。
11.一种端到端双目图像联合压缩装置,其特征在于,基于端到端双目图像联合压缩模型实现,所述压缩模型包括深度网络回归模型、第一编码器、第一条件熵模型、第二编码器和第二条件熵模型,所述第一条件熵模型与所述第二条件熵模型属于相同类型的熵模型,均包括基于混合高斯模型的熵模型或基于上下文的熵模型,所述装置包括:
第一图像特征确定模块,用于将双目图像中第一目图像输入所述第一编码器,得到用于表征所述第一目图像的第一图像特征;
第一压缩模块,用于利用所述第一条件熵模型对所述第一图像特征进行压缩处理,得到所述第一目图像的压缩码流数据;
变换矩阵输出模块,用于将所述第一目图像和所述双目图像中的第二目图像输入所述深度网络回归模型,输出所述第一目图像和所述第二目图像之间的单应性透视变换矩阵;
第一变换图像确定模块,用于基于所述单应性透视变换矩阵对所述第一目图像进行透视变换,得到第一变换图像;
第二图像特征确定模块,用于利用所述第二编码器确定所述第二目图像和所述第一变换图像之间的差异图像数据,并基于所述差异图像数据,得到用于表征所述第二目图像的第二图像特征;
第二压缩模块,用于利用所述第二条件熵模型,基于所述第一图像特征,对所述第二图像特征进行压缩处理,得到所述第二目图像的压缩码流数据。
12.一种电子设备,其特征在于,包括存储器和处理器,其中:
所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备实现权利要求1-10中任一项所述的端到端双目图像联合压缩方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现权利要求1-10中任一项所述的端到端双目图像联合压缩方法。
CN202011582319.1A 2020-12-28 2020-12-28 端到端双目图像联合压缩方法、装置、设备和介质 Active CN112702592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011582319.1A CN112702592B (zh) 2020-12-28 2020-12-28 端到端双目图像联合压缩方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011582319.1A CN112702592B (zh) 2020-12-28 2020-12-28 端到端双目图像联合压缩方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN112702592A true CN112702592A (zh) 2021-04-23
CN112702592B CN112702592B (zh) 2021-10-29

Family

ID=75513053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011582319.1A Active CN112702592B (zh) 2020-12-28 2020-12-28 端到端双目图像联合压缩方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN112702592B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113347422A (zh) * 2021-05-13 2021-09-03 北京大学 一种粗粒度上下文熵编码方法
CN112702592B (zh) * 2020-12-28 2021-10-29 北京航空航天大学 端到端双目图像联合压缩方法、装置、设备和介质
CN114359640A (zh) * 2021-12-20 2022-04-15 深圳云天励飞技术股份有限公司 基于低精度平台的网格生成器的实现方法、装置及设备
CN114697632A (zh) * 2022-03-28 2022-07-01 天津大学 一种基于双向条件编码的端到端立体图像压缩方法及装置
CN114860986A (zh) * 2022-07-06 2022-08-05 西安工业大学 一种计算机非结构化数据存储方法
CN115103191A (zh) * 2022-06-14 2022-09-23 北京字节跳动网络技术有限公司 图像处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9204127B1 (en) * 2012-01-17 2015-12-01 Nextvr Inc. Stereoscopic image processing methods and apparatus
CN109194947A (zh) * 2018-09-13 2019-01-11 广东光阵光电科技有限公司 双目摄像模组及移动终端
CN109257592A (zh) * 2017-07-12 2019-01-22 天津大学 基于深度学习的立体视频质量客观评价方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112702592B (zh) * 2020-12-28 2021-10-29 北京航空航天大学 端到端双目图像联合压缩方法、装置、设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9204127B1 (en) * 2012-01-17 2015-12-01 Nextvr Inc. Stereoscopic image processing methods and apparatus
CN109257592A (zh) * 2017-07-12 2019-01-22 天津大学 基于深度学习的立体视频质量客观评价方法
CN109194947A (zh) * 2018-09-13 2019-01-11 广东光阵光电科技有限公司 双目摄像模组及移动终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
任梦茹等: "基于FPGA的实时双目图像采集与预处理系统设计", 《自动化与仪表》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112702592B (zh) * 2020-12-28 2021-10-29 北京航空航天大学 端到端双目图像联合压缩方法、装置、设备和介质
CN113347422A (zh) * 2021-05-13 2021-09-03 北京大学 一种粗粒度上下文熵编码方法
CN114359640A (zh) * 2021-12-20 2022-04-15 深圳云天励飞技术股份有限公司 基于低精度平台的网格生成器的实现方法、装置及设备
CN114697632A (zh) * 2022-03-28 2022-07-01 天津大学 一种基于双向条件编码的端到端立体图像压缩方法及装置
CN114697632B (zh) * 2022-03-28 2023-12-26 天津大学 一种基于双向条件编码的端到端立体图像压缩方法及装置
CN115103191A (zh) * 2022-06-14 2022-09-23 北京字节跳动网络技术有限公司 图像处理方法、装置、设备及存储介质
CN114860986A (zh) * 2022-07-06 2022-08-05 西安工业大学 一种计算机非结构化数据存储方法
CN114860986B (zh) * 2022-07-06 2022-10-11 西安工业大学 一种计算机非结构化数据存储方法

Also Published As

Publication number Publication date
CN112702592B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN112702592B (zh) 端到端双目图像联合压缩方法、装置、设备和介质
Hu et al. Learning end-to-end lossy image compression: A benchmark
US20240205430A1 (en) Block-Based Predictive Coding For Point Cloud Compression
KR100809354B1 (ko) 복원된 프레임의 프레임율을 업컨버팅하는 장치 및 방법
CN111263161B (zh) 视频压缩处理方法、装置、存储介质和电子设备
CN101584215B (zh) 综合空时预测
JP2021520162A (ja) ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体
JP5130381B2 (ja) 効率的な映像処理のための方法および装置
CN101496412A (zh) 具有域变换的基于网络的视频压缩
Ayzik et al. Deep image compression using decoder side information
CN112866697B (zh) 视频图像编解码方法、装置、电子设备及存储介质
CN110692241B (zh) 使用多种全局运动模型的多样化运动
JP7405989B2 (ja) マシン向け映像符号化における方法及び装置
WO2022100140A1 (zh) 一种压缩编码、解压缩方法以及装置
US20220335560A1 (en) Watermark-Based Image Reconstruction
US10979704B2 (en) Methods and apparatus for optical blur modeling for improved video encoding
WO2023245460A1 (en) Neural network codec with hybrid entropy model and flexible quantization
WO2023225808A1 (en) Learned image compress ion and decompression using long and short attention module
JP2024525273A (ja) コンテキストベース画像コード化
WO2023050433A1 (zh) 视频编解码方法、编码器、解码器及存储介质
CN102948147A (zh) 基于变换系数直方图的视频速率控制
CN111988621A (zh) 视频处理器训练方法、装置、视频处理装置及视频处理方法
US8244071B2 (en) Non-dyadic spatial scalable wavelet transform
Yin et al. Learned distributed image compression with decoder side information
WO2024093627A1 (zh) 一种视频压缩方法、视频解码方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant