CN113014927B - 图像压缩方法和图像压缩装置 - Google Patents

图像压缩方法和图像压缩装置 Download PDF

Info

Publication number
CN113014927B
CN113014927B CN202110231512.9A CN202110231512A CN113014927B CN 113014927 B CN113014927 B CN 113014927B CN 202110231512 A CN202110231512 A CN 202110231512A CN 113014927 B CN113014927 B CN 113014927B
Authority
CN
China
Prior art keywords
feature map
feature
difference
module
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110231512.9A
Other languages
English (en)
Other versions
CN113014927A (zh
Inventor
高歌
尤沛
潘蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung China Semiconductor Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Samsung China Semiconductor Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung China Semiconductor Co Ltd, Samsung Electronics Co Ltd filed Critical Samsung China Semiconductor Co Ltd
Priority to CN202110231512.9A priority Critical patent/CN113014927B/zh
Publication of CN113014927A publication Critical patent/CN113014927A/zh
Priority to KR1020220009943A priority patent/KR20220124622A/ko
Priority to US17/682,581 priority patent/US20220286696A1/en
Application granted granted Critical
Publication of CN113014927B publication Critical patent/CN113014927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Auxiliary Devices For And Details Of Packaging Control (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本公开关于一种图像压缩方法和图像压缩装置,图像压缩方法包括:基于输入图像,利用编码网络获得所述输入图像的隐变量,编码网络是深度学习神经网络,编码网络包括至少一个下采样反向投影模块;基于隐变量执行熵编码,获得压缩图像的比特流文件;编码网络包括的至少一个下采样反向投影模块的每个执行以下操作:对输入到下采样反向投影模块的第一特征图进行下采样变换以获得第二特征图;对第二特征图执行重构,获得与第一特征图相同分辨率的第三特征图;基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图,基于编码网络中的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到隐变量。

Description

图像压缩方法和图像压缩装置
技术领域
本公开涉及图像压缩领域,更具体地说,涉及一种图像压缩方法和图像压缩装置、图像解压方法和图像解压装置。
背景技术
高质量的压缩图像在网络传输和移动平台的存储上,都起着至关重要的作用。然而随着图像传感器的分辨率越来越高,原始图像变得越来越大,这对移动端的存储以及网络传输中的带宽都产生了极大的挑战。对于这一现存问题,当下的图像压缩算法主要分为两类,一类是基于滤波或块预测的传统方法,另一类是通过构建神经网络进行特征提取和压缩的深度学习方法。其中,传统方法依赖于手工设计大量的预测模式,费时费力,并且在高压缩比的情况下极易出现非常明显的块效应,影响压缩图像的质量。而基于深度学习的方法已经取得了一定的进步,但依然存在图像模糊、噪声、压缩伪影的情况。
发明内容
本公开提供一种图像压缩方法和图像压缩装置、图像解压方法和图像解压装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
根据本公开实施例的第一方面,提供一种图像压缩方法,包括:基于输入图像,利用编码网络获得所述输入图像的隐变量,其中,所述编码网络是深度学习神经网络,所述编码网络包括至少一个下采样反向投影模块;基于所述隐变量执行熵编码,获得压缩图像的比特流文件;其中,所述编码网络包括的所述至少一个下采样反向投影模块的每个执行以下操作:对输入到所述下采样反向投影模块的第一特征图进行下采样变换以获得第二特征图;对第二特征图执行重构,获得与第一特征图相同分辨率的第三特征图;基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图,其中,基于所述编码网络中的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述隐变量。
如上所述,本公开在图像压缩任务的下采样阶段使用反向投影方法,通过反馈重构结果给当前操作来实现信息的双向交换,丰富当前特征图的信息量并提升重新采样后特征图的质量,有效减轻了下采样变换所得到的中间特征图因卷积层数少、低分辨率信息不准确等问题所导致的质量下降,同时量化隐变量所导致的重构误差也得到缓解。同时,高度模块化的设计也使得所述反向投影方法易于部署,易于拓展。在实际应用中,可根据模型速度、内存空间、压缩质量等因素选择是否使用多阶段重构以及参数共享机制。
可选地,所述基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图,包括:对第一特征图与第三特征图之间的差值执行优化,并基于优化的差值对第三特征图执行优化,获得优化的第三特征图;对优化的第三特征图执行下采样和优化,获得第四特征图。
如上所述,基于高分辨率中间图像(通过上采样得到的重构图像)执行差值反馈优化,来提升重构图像质量。
可选地,所述基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图,还包括:对获得的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对获得的第四特征图执行优化,获得最终的第四特征图。
如上所述,不仅基于高分辨率中间图像(通过上采样得到的重构图像)执行差值反馈优化,还基于低分辨率中间图像(例如,通过下采样变换得到的第二特征图)执行差值反馈优化,分两次优化当前特征图,实现了多尺度(高分辨率和低分辨率)的差值反馈和特征融合,使得模型在保证特征图整体数值稳定性的基础上更有效地提取并处理新增信息,从而在维持训练的稳定性的同时稳步提升重构图像的质量。
可选地,所述对第二特征图执行重构,获得与第一特征图相同分辨率的第三特征图,包括:通过卷积操作来对第二特征图进行特征处理,对特征处理后的第二特征图进行上采样变换,通过卷积操作来对上采样变换后的特征图进行特征处理,以获得第三特征图。
可选地,所述对第一特征图与第三特征图之间的差值执行优化,并基于优化的差值对第三特征图执行优化,获得优化的第三特征图,包括:将第一特征图和第三特征图相减得到第一差值特征图;通过卷积操作对第一差值特征图进行特征学习;将特征学习后的第一差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第三特征图。
可选地,所述对优化的第三特征图执行下采样和优化,获得第四特征图,包括:通过卷积操作对所述优化的第三特征图进行下采样,并对下采样后的第三特征图进行特征提取,通过卷积操作对特征提取得到的特征图进行特征学习,得到第四特征图。
可选地,所述对获得的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对获得的第四特征图执行优化,获得最终的第四特征图,包括:将获得的第四特征图和第二特征图相减得到第二差值特征图;通过卷积操作对第二差值特征图进行特征学习;将特征学习后的第二差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第三特征图。
可选地,所述对获得的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对第四特征图执行优化,获得最终的第四特征图,包括:将获得的第四特征图和第二特征图相减得到第二差值特征图,通过卷积操作对第二差值特征图进行特征学习,通过注意力机制对特征学习后的第二差值特征图进行特征提取,得到注意力分数,将获得的第四特征图与所述注意力分数相乘,得到第一加权特征图,将第二特征图与(1-所述注意力分数)相乘,得到第二加权特征图,将第一加权特征图与第二加权特征图相加,得到加权特征图,通过卷积操作对所述加权特征图进行特征学习,得到所述最终的第四特征图。
如上所述,基于注意力机制实现差值优化,通过使用软性注意力机制,帮助模块更关注特定的部分并选择性地对特征图进行加权,对差值反馈模块的信息处理和融合能力进行了进一步的增强,从而提升图像压缩的效果与效率。
可选地,所述编码网络包括高频编码子网络和低频编码子网络,所述高频编码子网络和所述低频编码子网络均包括至少一个下采样反向投影模块,所述方法还包括:从所述输入图像提取高频分量和低频分量;所述基于输入图像,利用编码网络获得所述输入图像的隐变量包括:利用所述高频编码子网络获得所述高频分量的隐变量,其中,基于所述高频编码子网络包括的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述高频分量的隐变量;利用所述低频编码子网络获得所述低频分量的隐变量,其中,基于所述低频编码子网络包括的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述低频分量的隐变量;将所述高频分量的隐变量和所述低频分量的隐变量融合,获得所述输入图像的隐变量。
如上所述,可分别对低频和高频分量进行处理和融合,使得网络可以更专注于容易在下采样过程中丢失的高频细节,可以显式地、有效地处理在压缩过程所产生的高频信息的丢失,并使其灵活地根据需要对下采样过后的低频隐变量和高频隐变量进行选择性地增强、处理和融合,从而进一步增强模型在相同码率下重构图像的质量,有效优化所述图像压缩方法的率失真表现。
可选地,将所述高频分量的隐变量和所述低频分量的隐变量融合,获得所述输入图像的隐变量,包括:对所述高频分量的隐变量和所述低频分量的隐变量拼接获得第一拼接隐变量;利用空间注意力机制,对第一拼接隐变量在通道方向上分别进行平均池化和最大池化,对该平均池化后的第一拼接隐变量和该最大池化后的第一拼接隐变量进行拼接获得第二拼接隐变量,并使用卷积操作计算所述第二拼接隐变量的空间注意力分数;利用通道注意力机制,对第一拼接隐变量在空间维度上进行池化,并使用卷积操作计算此池化后的第一拼接隐变量的通道注意力分数;利用所述通道注意力分数和空间注意力分数对所述低频分量的隐变量加权,获得所述低频分量的加权隐变量;利用(1-通道注意力分数)和(1-空间注意力分数)对所述高频分量的隐变量加权,获得所述高频分量的加权隐变量;获得所述低频分量的加权隐变量与所述高频分量的加权隐变量之和,作为所述输入图像的隐变量。
如上所述,在计算空间注意力分数时,通过对特征图进行最大池化和平均池化,有效减少了运算量。此外,通过将低频分量的特征图(即,隐变量)与注意力分数相乘,并将高频分量的特征图与(1-注意力分数)相乘的这种软性融合方式,能够更好地提高融合质量。
根据本公开实施例的第二方面,提供一种图像解压方法,包括:对压缩图像的比特流文件执行熵解码,获得隐变量;基于所述隐变量,利用重构网络获得所述压缩图像的重构图像,其中,所述重构网络是深度学习神经网络,所述重构网络包括至少一个上采样反向投影模块;其中,所述重构网络包括的所述至少一个上采样反向投影模块的每个执行以下操作:对输入到所述上采样反向投影模块的第五特征图执行上采样变换,获得第六特征图;对第六特征图执行重构,获得与第五特征图相同分辨率的第七特征图;基于第五特征图与第七特征图之间的差值,获得作为第六特征图的优化结果的第八特征图,所述重构网络中的至少一个上采样反向投影模块的最后一个上采样反向投影模块获得的第八特征图作为所述重构图像。
如上所述,反向投影方法被应用于重构网络,通过反馈重构结果给当前操作来实现信息的双向交换,丰富当前特征图的信息量并提升重新采样后特征图的质量,减少量化产生的信息损失并缓解上采样过程中的不适定问题。同时,高度模块化的设计也使得所述反向投影方法易于部署,易于拓展。在实际应用中,可根据模型速度、内存空间、压缩质量等因素选择是否使用多阶段重构以及参数共享机制。
可选地,所述基于第五特征图与第七特征图之间的差值,获得作为第六特征图的优化结果的第八特征图,包括:对第五特征图与第七特征图之间的差值执行优化,并基于优化的差值对第七特征图执行优化,获得优化的第七特征图;对优化的第七特征图执行上采样和优化,获得第八特征图。
如上所述,基于高分辨率中间图像(通过上采样得到的重构图像)执行差值反馈优化,来提升重构图像质量。
可选地,所述基于第五特征图与第七特征图之间的差值,获得作为第六特征图的优化结果的第八特征图,还包括:对获得的第八特征图与第六特征图之间的差值执行优化,并基于优化的差值对第六特征图执行优化,获得最终的第八特征图。
如上所述,不仅基于高分辨率中间图像(通过上采样得到的重构图像)执行差值反馈优化,还基于低分辨率中间图像(例如,通过下采样变换得到的第二特征图)执行差值反馈优化,分两次优化当前特征图,实现了多尺度(高分辨率和低分辨率)的差值反馈和特征融合,使得模型在保证特征图整体数值稳定性的基础上更有效地提取并处理新增信息,从而在维持训练的稳定性的同时稳步提升重构图像的质量。
可选地,所述对第六特征图执行重构,获得与第五特征图相同分辨率的第七特征图,包括:通过卷积操作来对第六特征图进行特征处理,对特征处理后的第六特征图进行下采样变换,通过卷积操作来对下采样变换后的第六特征图进行特征处理,以获得第七特征图。
可选地,所述对第五特征图与第七特征图之间的差值执行优化,并基于优化的差值对第七特征图执行优化,获得优化的第七特征图,包括:将第五特征图和第七特征图相减得到第三差值特征图,通过卷积操作来对第三差值特征图进行特征学习,将特征学习后的第三差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作来对所述相加后的特征图进行特征学习,得到所述优化的第七特征图。
可选地,所述对优化的第七特征图执行上采样和优化,获得第八特征图,包括:通过卷积操作来对所述优化的第七特征图进行上采样,并对上采样后的第七特征图进行特征提取,通过卷积操作来对特征提取得到的特征图进行特征学习,得到第八特征图。
可选地,所述对获得的第八特征图与第六特征图之间的差值执行优化,并基于优化的差值对获得的第八特征图执行优化,获得最终的第八特征图,包括:将获得的第八特征图和第六特征图相减得到第四差值特征图;通过卷积操作对第四差值特征图进行特征学习;将特征学习后的第四差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第七特征图。
可选地,所述对获得的第八特征图与第六特征图之间的差值执行优化,并基于优化的差值对获得的第八特征图执行优化,获得最终的第八特征图,包括:将获得的第八特征图和第六特征图相减得到第四差值特征图,通过卷积操作来对第四差值特征图进行特征学习,通过注意力机制来对特征学习后的第四差值特征图进行特征提取,得到注意力分数,将获得的第八特征图与所述注意力分数相乘,得到第三加权特征图,将第六特征图与(1-所述注意力分数)相乘,得到第四加权特征图,将第三加权特征图与第四加权特征图相加,得到加权特征图,通过卷积操作对所述加权特征图进行特征学习,得到所述最终的第八特征图。
如上所述,基于注意力机制实现差值优化,通过使用软性注意力机制,帮助模块更关注特定的部分并选择性地对特征图进行加权,对差值反馈模块的信息处理和融合能力进行了进一步的增强,从而提升图像压缩的效果与效率。
根据本公开实施例的第三方面,提供一种图像压缩装置,包括:编码网络,被配置为:基于输入图像获得所述输入图像的隐变量,其中,所述编码网络是深度学习神经网络,所述编码网络包括至少一个下采样反向投影模块;熵编码网络,被配置为:基于所述隐变量执行熵编码,获得压缩图像的比特流文件;其中,所述下采样反向投影模块包括下采样模块、重构模块和优化模块;其中,所述下采样模块被配置为:对输入到所述下采样模块的第一特征图进行下采样变换以获得第二特征图;重构模块被配置为:对第二特征图执行重构,获得与第一特征图相同分辨率的第三特征图;优化模块被配置为:基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图,其中,基于所述编码网络中的至少一个下采样反向投影模块的最后一个下采样反向投影模块的优化模块获得的第四特征图,得到所述隐变量可选地,优化模块包括第一差值反馈子模块和下采样优化子模块,其中,第一差值反馈子模块被配置为:对第一特征图与第三特征图之间的差值执行优化,并基于优化的差值对第三特征图执行优化,获得优化的第三特征图;下采样优化子模块被配置为:对优化的第三特征图执行下采样和优化,获得第四特征图。
可选地,优化模块还包括第二差值反馈子模块,被配置为:对获得的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对第二特征图执行优化,获得最终的第四特征图。
可选地,重构模块被配置为:通过卷积操作来对第二特征图进行特征处理;对特征处理后的第二特征图进行上采样变换;通过卷积操作来对上采样变换后的特征图进行特征处理,以获得第三特征图。
可选地,第一差值反馈子模块被配置为:将第一特征图和第三特征图相减得到第一差值特征图;通过卷积操作来对第一差值特征图进行特征学习;将特征学习后的第一差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作来对所述相加后的特征图进行特征学习,得到所述优化的第三特征图。
可选地,下采样优化子模块被配置为:通过卷积操作对所述优化的第三特征图进行下采样,并对下采样后的第三特征图进行特征提取;通过卷积操作来对特征提取得到的特征图进行特征学习,得到第四特征图。
可选地,第二差值反馈子模块被配置为:将获得的第四特征图和第二特征图相减得到第二差值特征图;通过卷积操作对第二差值特征图进行特征学习;将特征学习后的第二差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第三特征图。
可选地,第二差值反馈子模块被配置为:将获得的第四特征图和第二特征图相减得到第二差值特征图,通过卷积操作来对第二差值特征图进行特征学习,通过注意力机制来对特征学习后的第二差值特征图进行特征提取,得到注意力分数,将获得的第四特征图与所述注意力分数相乘,得到第一加权特征图,将第二特征图与(1-所述注意力分数)相乘,得到第二加权特征图,将第一加权特征图与第二加权特征图相加,得到加权特征图,通过卷积操作对所述加权特征图进行特征学习,得到所述最终的第四特征图。
可选地,所述图像压缩装置还包括:分频网络;所述编码网络包括高频编码子网络、低频编码子网络和融合网络,其中,所述高频编码子网络和所述低频编码子网络均包括所述至少一个下采样反向投影模块;其中,所述分频网络被配置为:从所述输入图像提取高频分量和低频分量;所述高频编码子网络被配置为:获得所述高频分量的隐变量,其中,基于所述高频编码子网络包括的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述高频分量的隐变量;所述低频编码子网络被配置为:获得所述低频分量的隐变量,其中,基于所述低频编码子网络包括的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述低频分量的隐变量;融合网络被配置为:将所述高频分量的隐变量和所述低频分量的隐变量融合,获得所述输入图像的隐变量。
可选地,融合单元被配置为:对所述高频分量的隐变量和所述低频分量的隐变量拼接获得第一拼接隐变量;利用空间注意力机制,对第一拼接隐变量在通道方向上分别进行平均池化和最大池化,对该平均池化后的第一拼接隐变量和该最大池化后的第一拼接隐变量进行拼接获得第二拼接隐变量,并使用卷积操作计算所述第二拼接隐变量的空间注意力分数;利用通道注意力机制,对第一拼接隐变量在空间维度上进行池化,并使用卷积操作计算池化后的第一拼接隐变量的通道注意力分数;利用所述通道注意力分数和空间注意力分数对所述低频分量的隐变量加权,获得所述低频分量的加权隐变量;利用(1-通道注意力分数)和(1-空间注意力分数)对所述高频分量的隐变量加权,获得所述高频分量的加权隐变量;获得所述低频分量的加权隐变量与所述高频分量的加权隐变量之和,作为所述输入图像的隐变量。
根据本公开实施例的第四方面,提供一种图像解压装置,包括:熵解码网络,被配置为:对压缩图像的比特流文件执行熵解码,获得隐变量;重构网络,被配置为:基于所述隐变量,获得所述压缩图像的重构图像,其中,所述重构网络是深度学习神经网络,所述重构网络包括至少一个上采样反向投影模块;其中,所述上采样反向投影模块包括上采样模块、重构模块和优化模块;其中,上采样模块被配置为:对输入到所述上采样模块的第五特征图执行上采样变换,获得第六特征图;重构模块被配置为:对第六特征图执行重构,获得与第五特征图相同分辨率的第七特征图;优化模块被配置为:基于第五特征图与第七特征图之间的差值,获得作为第六特征图的优化结果的第八特征图,所述重构网络中的至少一个上采样反向投影模块的最后一个上采样反向投影模块的优化模块获得的第八特征图作为所述重构图像。
可选地,优化模块包括第一差值反馈子模块和上采样优化子模块,其中,第一差值反馈子模块被配置为:对第五特征图与第七特征图之间的差值执行优化,并基于优化的差值对第七特征图执行优化,获得优化的第七特征图;上采样优化子模块被配置为:对优化的第七特征图执行上采样和优化,获得第八特征图。
可选地,优化模块还包括第二差值反馈子模块,被配置为:对获得的第八特征图与第六特征图之间的差值执行优化,并基于优化的差值对第八特征图执行优化,获得最终的第八特征图。
可选地,重构模块被配置为:通过卷积操作来对第六特征图进行特征处理;对特征处理后的第六特征图进行下采样变换;通过卷积操作来对下采样变换后的第六特征图进行特征处理,以获得第七特征图。
可选地,第一差值反馈子模块被配置为:将第五特征图和第七特征图相减得到第三差值特征图;通过卷积操作来对第三差值特征图进行特征学习;将特征学习后的第三差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作来对所述相加后的特征图进行特征学习,得到所述优化的第七特征图。
可选地,上采样优化子模块被配置为:通过卷积操作来对所述优化的第七特征图进行上采样,并对上采样后的第七特征图进行特征提取;通过卷积操作来对特征提取得到的特征图进行特征学习,得到第八特征图。
可选地,第第二差值反馈子模块被配置为:将获得的第八特征图和第六特征图相减得到第四差值特征图;通过卷积操作对第四差值特征图进行特征学习;将特征学习后的第四差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第七特征图。
可选地,第二差值反馈子模块被配置为:将获得的第八特征图和第六特征图进行相减得到第四差值特征图;通过卷积操作来对第四差值特征图进行特征学习;通过注意力机制来对特征学习后的第四差值特征图进行特征提取,得到注意力分数;将获得的第八特征图与所述注意力分数相乘,得到第三加权特征图;将第六特征图与(1-所述注意力分数)相乘,得到第四加权特征图;将第三加权特征图与第四加权特征图相加,得到加权特征图;通过卷积操作来对所述加权特征图进行特征学习,得到所述最终的第八特征图。
根据本公开实施例的第五方面,提供一种电子设备,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的图像压缩方法或图像解压方法。
根据本公开实施例的第六方面,提供一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的图像压缩方法或图像解压方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开的图像压缩方法及装置、图像解压方法及装置,创新性地在图像压缩任务上使用反向投影方法,通过反馈重构结果给当前操作来实现信息的双向交换,丰富当前特征图的信息量并提升重新采样后特征图的质量,有效减轻了上/下采样变换所得到的中间特征图因卷积层数少、低分辨率信息不准确等问题所导致的质量下降,同时量化隐变量所导致的重构误差也得到缓解。
此外,本公开提出的反向投影模块(例如,上采样反向投影模块、下采样反向投影模块)高度模块化的设计也使得所述反向投影方法易于部署,易于拓展。在实际应用中,可根据模型速度、内存空间、压缩质量等因素选择是否使用多阶段重构以及参数共享机制。具体地说,根据实际应用中的需要,灵活地对编码网络和/或重构网络的至少一次上/下采样变换应用反向投影模块。此外,由于反向投影模块中反复使用到重构模块、上/下采样优化模块和差值反馈模块,在实际应用中也可让重复使用的模块共享参数,降低模型的复杂度,使训练收敛更快,同时也对模型参数起到一定的正则化效果。
此外,本公开用频域分解和处理的方法分别对原始图像的低频和高频分量进行处理和融合,使得网络可以更专注于容易在下采样过程中丢失的高频细节,并使其灵活地根据需要对处理后的低频和高频信息适应性地进行处理和融合,从而有效优化所述图像压缩方法的率失真表现。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是示出根据本公开的示例性实施例的端到端的图像压缩模型的结构示意图。
图2是示出根据本公开的示例性实施例的端到端的图像压缩流程的示意图。
图3是根据本公开的另一示例性实施例的端到端的图像压缩模型的结构示意图。
图4是示出根据本公开的另一示例性实施例的端到端的图像压缩流程的示意图。
图5是示出根据本公开的示例性实施例的端到端的图像压缩模型的网络示意图。
图6是示出根据本公开的示例性实施例的编码网络中的下采样模块的结构示意图。
图7是示出根据本公开的示例性实施例的编码网络中的重构模块的结构示意图。
图8是示出根据本公开的示例性实施例的编码网络中的第一差值反馈模块的结构示意图。
图9是示出根据本公开的示例性实施例的编码网络中的下采样优化模块的结构示意图。
图10是示出根据本公开的示例性实施例的下采样反向投影模块的结构示意图。
图11是示出根据本公开的另一示例性实施例的下采样反向投影模块的结构示意图。
图12是示出根据本公开的另一示例性实施例的端到端的图像压缩模型的网络示意图。
图13是示出根据本公开的示例性实施例的分频网络的结构示意图。
图14是示出根据本公开的示例性实施例的融合网络的结构示意图。
图15是示出根据本公开的示例性实施例的图像压缩方法的流程图。
图16是出根据本公开的示例性实施例的图像解压方法的流程图。
图17是示出根据本公开的示例性实施例的端到端的图像压缩方法的流程图。
图18是示出根据本公开的示例性实施例的图像压缩装置的框图。
图19是出根据本公开的示例性实施例的图像解压装置的框图。
图20是示出根据本公开的示例性实施例的端到端的图像压缩装置的框图。
图21是根据本公开的示例性实施例的电子设备2100的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
基于深度学习的图像压缩方法使用深度神经网络构建并实现从原始图像到重构图像的映射。使用卷积核可对高分率特征图每个像素点的临近信息(Local ContextualInformation)进行学习,使得网络可以根据像素点周围像素点的数值大小估计量化前该像素点的数值,从而减小量化误差并提升重构图像的质量。基于深度学习的方法可分为两类,一类是在传统方法的基础上,通过增加后处理神经网络,将传统方法的重构图像输入后处理网络,得到后处理重建图。此类后处理神经网络在图像超分辨,图像去噪等方面已经取得了一定的成功,但是由于传统方法的重构图像存在明显的压缩伪影,后处理网络并不能很有效的消除压缩伪影,就会导致重构后的图像依然存在压缩伪影的情况。另一类基于深度学习的方法是端到端的图像压缩,端到端的方法通常会采用变分自编码器(VariationalAutoencoder)或者生成对抗网络(Generative Adversarial Networks),变分自编码器或者生成对抗网络都通过编码神经网络将输入图像处理为表示输入图像的隐变量,隐变量经过量化并经过上下文模型提取分布参数,再使用熵编码生成比特流文件,即为压缩后的图像。比特流经过熵解码得到隐变量,隐变量经过变分自编码器的生成神经网络或者生成对抗网络中的生成器,得到重构后的图像。生成对抗网络的方法更多地关注感知效果,会存在生成图与原图有结构一致性(SSIM)差异的问题;由于拟合能力不足,变分自编码器的方法在高压缩比的情况下,生成的图像较为模糊,并存在噪声、压缩伪影等问题。
现有的方法存在的问题主要体现在未能有效处理压缩过程中的信息损失。在端到端图像压缩中,损失的信息具体包括:(1)隐变量量化所造成的信息损失。例如,在现有端到端深度压缩模型中,为保证熵编码方法可无失真地压缩原始数据,模型需要在压缩前对隐变量进行量化操作。量化导致的信息损失会对图像复原产生负面影响。具体地,量化造成的数值差异会在重构图像的多次上采样过程中逐层被放大,最终导致重构图像与原图像差异大,产生压缩伪影等问题;(2)上/下采样变换的过程中产生的损失信息。基于卷积的下采样操作会造成不可逆的信息损失,以至于从低维的不完全信息中无法很好地还原图像,导致上采样过程中的不适定问题(Ill-posed Problem)。这里,信息损失主要体现在高频细节上的缺失。例如,现有的端到端图像压缩网络主要通过构建深度神经网络,尝试从大量的图像数据中学习并捕捉高分辨率和低分辨率之间的映射关系,并使用跳跃连接、注意力等机制来增强模型的拟合能力,但这些方法并未从本质上解决上/下采样变换所造成的信息损失问题,造成重构图像质量不高,结构不完整等问题。此外,现有的的端到端图像压缩网络还可使用可逆神经网络(Invertible Neural Networks)来保证上/下采样之间的可逆性,但由于可逆神经网络拟合能力相对较差的问题,重构的图像存在边缘模糊、纹理还原度较低等问题。因此,信息损失是降低图像压缩质量的主要原因,缺少行之有效的方法来缓解信息损失在很大程度上限制了端到端神经网络的分布拟合能力,阻碍其更有效地学习压缩和重构过程中不同分辨率特征图(Feature Map)之间的映射关系。
为了更有效地缓解端到端图像压缩过程中的信息损失而造成重构图像质量下降的问题,本公开创新性地提出了一种基于反向投影的图像压缩方法,其对上/下采样过程中的信息损失进行建模,构造不同分辨率下特征图中间的映射误差,并通过优化网络参数缩小这一误差,从而在相同码率下显著提升图像的重建质量,并且根据本公开的高度模块化的设计亦使其易于拓展,在实际应用中可轻易根据需求对该方法进行改动或延伸。此外,本公开的图像压缩方法还提出将图像分解成高频和低频分量并分别对其进行处理,使得图像压缩模型可更好地处理易于在压缩过程丢失的高频信息,减少信息损失,从而优化模型的率失真表现。此外,对高频分量和低频分量处理的两路网络的参数和/结构可相同或不同。例如,可将两路网络的参数不同地设置,使其灵活地根据需要对处理后的低频和高频信息适应性地进行处理和融合,从而有效优化所述图像压缩方法的率失真表现。
下面将参照图1至图21来详细描述根据本公开的图像压缩方法和图像压缩装置、图像解压方法和图像解压装置、端到端的图像压缩方法和端到端的图像压缩装置。
图1是示出根据本公开的示例性实施例的端到端的图像压缩模型的结构示意图。图2是示出根据本公开的示例性实施例的端到端的图像压缩流程的示意图。根据本公开的图像压缩方法可应用于,但不限于,变分自编码器,因此,作为示例,图1和图2是基于变分自编码器的结构来展示本公开的端到端的图像压缩模型和流程,然而根据本公开的基于反向投影的图像压缩方法可应用于任何可能的图像压缩模型。
参照图1和图2,端到端的图像压缩模型可主要由编码网络、熵模型和重构网络构成。其中,熵模型可主要由超参分析网络、超参生成网络和上下文模型构成。首先,可输入原始图像。随后,可通过编码网络将原始图像映射到其低维隐变量表示。随后,可通过超参分析网络将得到的隐变量进行逐步下采样变换并生成补充信息(Side Information)。随后,可通过熵编码对补充信息进行算术编码,得到其比特流文件。随后,可通过熵解码对该比特流文件进行解压以得到重构的补充信息。随后,可通过超参生成网络对重构的补充信息进行处理以生成超参隐变量。随后,可将隐变量和超参隐变量一同传入上下文模型,从而对隐变量的概率分布进行估计以得到隐变量的概率分布参数。随后,可使用隐变量的概率分布参数对隐变量进行熵编码,得到压缩图像的比特流文件。自此,图像压缩端的过程全部完成。在解压缩时,首先,可通过熵解码对压缩图像的比特流文件进行解码,还原隐变量。随后,可通过重构网络将隐变量进行逐步上采样变换,并最终生成重构图像。下面,将示例性地但非限制性地描述端到端的图像压缩模型。
编码网络的输入可以是三通道RGB图像。编码网络可由8个2种不同类型的下采样残差块(Residual Block)交替堆叠而成,并包含2个空间注意力模块来提升模型的表达能力。第一种类型的残差块(称之为短路残差块)可包括卷积核大小为3x3、通道数为128的两个卷积层和短路连接所构成。其中,第一个卷积层可使用LeakyRelu作为激活函数并对输入特征图的分辨率进行2倍下采样。第二个卷积层可对采样过后的特征图进行特征提取,并使用zero padding来保持输出特征图大小不变以及Generalized Divisive Normalization(GDN)作为正则化函数,提升卷积层的特征学习能力。第二种类型的残差块(称之为跳跃残差块)包括卷积核大小为3x3、激活函数为LeakyRelu、使用zero padding保持特征图大小不变的两个卷积层和跳跃连接组成,用于进一步学习有效特征。两种类型的残差块交替堆叠,反复4次,将原始图像下采样到大小为1/16、通道数为128的隐变量。在第二个和第四个跳跃残差块后连接注意力模块来适应性地对特征图进行加权。
超参分析网络可由五个卷积核大小为3x3、使用LeakyRelu作为激活函数的卷积层堆叠而成。其中,第三和第五层卷积将特征图进行2倍下采样,从而得到一个分辨率为隐变量1/4,通道数为128的补充信息。超参生成网络可同样有五个卷积核大小为3x3、激活函数为LeakyRelu的卷积层堆叠而成。其中,第二层和第四层分别使用反卷积(Deconvolution)对特征图进行2倍上采样,第三和第四层卷积的通道数为192,第五层卷积的通道数为256。超参生成网络生成的空间相关性特征图的大小与隐变量相同,通道数是其两倍。
上下文模型可包含一个卷积核大小为5x5的掩膜卷积层和三个卷积核大小为1x1的卷积层。掩膜卷积核将中心点下方和右方的像素点用0掩码,从而模拟真实解码时当前位置数值未知的情况。将空间相关性特征图和隐变量在通道上拼接后输入上下文模型并最终生成大小与隐变量相同,通道数为3NK的特征图。其中,N为隐变量的通道数(即128),K为混合高斯模型分布的数量(在实验中K=3)。将得到的特征图沿通道分成9等份后得到3个高斯分布所对应的权重,均值和方差。混合高斯模型以此生成对隐变量分布的概率估计,实现对隐变量的无损算数编解码。
重构网络与编码网络为镜像结构,同样交替使用跳跃残差块和短路残差块来实现对隐变量的4次2倍上采样。其中,短路残差块的第一个卷积层变为使用通道转空间方法将特征图2倍上采样,并后接IGDN(Inverse Generalized Divisive Normalization)层。重构网络的最后一次上采样卷积层的通道数为3,分别对应重构图像的RGB三通道。
根据本公开的反向投影方法可应用于上述编码网络和重构网络的上/下采样变换的操作中来层次化地提升中间特征的质量,同样的,量化隐变量所导致的重构误差也通过反向投影方法得到缓解。具体地说,在编码网络的下采样过程中,可通过上采样操作(例如,反卷积、子像素卷积(Subpixel Convolution)等)重构高分辨率特征图,提取原始和重构高分辨率特征图之间的差值作为信息损失,并通过可训练的网络结构(例如,卷积层、注意力机制等)对差值进行进一步特征提取。之后,适应性地生成可以更准确重构成原始特征图的低分辨率特征图。在重构网络的上采样过程中,可通过下采样操作(例如,卷积、插值等),从蕴含了更丰富特征的高分辨率特征图中提取信息,再显式地将其与原始低分辨率特征图的差值作为新增的有效信息(Distinctive Information)处理,使用可训练的网络结构对这些有效信息进行进一步的学习并将其融合进当前的低分辨率特征图中,增强低分辨率特征图的有效信息量,使其可以重新上采样成更准确的高分辨率特征图。
上述通过重构特征图将重构误差进行反馈和优化的步骤即为反向投影方法。在图像压缩任务上使用反向投影方法,通过反馈重构结果给当前操作来实现信息的双向交换,丰富当前特征图的信息量并提升重新采样后特征图的质量,有效减轻了每一次上/下采样变换所得到的中间特征图因卷积层数少、低分辨率信息不准确等问题所导致的质量下降。
图3是根据本公开的另一示例性实施例的端到端的图像压缩模型的结构示意图。图4是示出根据本公开的另一示例性实施例的端到端的图像压缩流程的示意图。
参照图3和图4,图3中的端到端的图像压缩模型与图1中的端到端的图像压缩模型的区别在于,图3中的端到端的图像压缩模型还可包括分频网络,编码网络包括高频编码子网络、低频编码子网络和融合网络。其中,高频编码子网络和低频编码子网络的结构和/或参数可相同(例如,与图1中示出的编码网络相同)。当然,高频编码子网络和低频编码子网络的结构和/或参数也可不同。例如,可不同地设置高频编码子网络和低频编码子网络的参数,使其灵活地根据需要对处理后的低频和高频信息适应性地进行处理和融合,从而有效优化所述图像压缩方法的率失真表现。
具体地说,首先,可使用分频网络从原始图像提取出高频分量和低频分量。随后,可通过高频编码子网络和低频编码子网络分别将高频分量和低频分量映射到其低维隐变量,从而获得高频分量的隐变量和低频分量的隐变量。随后,可通过融合网络将高频分量的隐变量和低频分量的隐变量重新融合,生成融合后的隐变量。此外,图3中的端到端的图像压缩模型中的熵模型和重构网络与图1中的端到端的图像压缩模型中的熵模型和重构网络功能相同,在此不再赘述。
本公开进一步使用频域分解方法(如小波变换、平滑滤波等)提取出原始图像的高频分量和低频分量,并分别对低频和高频分量进行处理和融合,使得网络可以更专注于容易在下采样过程中丢失的高频细节,可以显式地、有效地处理在压缩过程所产生的高频信息的丢失。此外,可将处理高频分量和低频分量的两络网络的参数设置为不同,使其灵活地根据需要对下采样过后的低频隐变量和高频隐变量适应性地进行处理和融合,从而进一步增强模型在相同码率下重构图像的质量,有效优化所述图像压缩方法的率失真表现。
图5是示出根据本公开的示例性实施例的端到端的图像压缩模型的网络示意图。
参照图5,首先,输入图像可经过端到端的图像压缩模型的编码网络可获得隐变量。随后,可基于隐变量执行熵编码,获得压缩图像的比特流文件,并可对所述压缩图像的比特流文件执行熵解码,获得解码后的隐变量。这个过程可通过熵模型来实现。例如,熵模型可包括超参分析网络、补充信息熵编码、补充信息熵解码、超参生成网络、上下文模型、隐变量熵编码、隐变量熵解码的功能。这些功能已在上面描述,因此,在此不再赘述。随后,解码后的隐变量可经过端到端的图像压缩模型的重构网络来获得重构图像。下面,将具体描述根据本公开的示例性实施例的编码网络。
编码网络可包括至少一个下采样反向投影模块,用于对输入图像执行至少一次下采样变换以获得隐变量。这里,编码网络可包括与下采样变换次数相应数量的下采样反向投影模块,本公开对下采样变换次数和下采样反向投影模块的数量不作限制。根据本公开的示例性实施例,编码网络可由4个下采样反向投影模块堆叠而成,并同样在第二个和第四个下采样反向投影模块后连接一个空间注意力模块提升其表达能力,但本公开的下采样反向投影模块的数量和空间注意力模块的数量和位置不限于此,例如,可由直接由多个下采样反向投影模块堆叠而成等等。
每个下采样反向投影模块可包括下采样模块、重构模块、优化模块。下采样模块用于对输入的第一特征图进行下采样变换以获得第二特征图。重构模块用于对第二特征图执行重构,获得与第一特征图相同分辨率的第三特征图。优化模块用于基于第一特征图与第三特征图之间的差值执行针对第二特征图的优化,获得第四特征图,作为下采样反向投影模块的输出。下面,将具体地描述下采样反向投影模块的结构。
根据本公开的示例性实施例,下采样模块可如参照图1所述的编码网络中的下采样残差块的结构。一个下采样模块可由2个两种不同类型的残差块交替堆叠,实现特征图的一次2倍下采样功能。例如,图6是示出根据本公开的示例性实施例的编码网络中的下采样模块的结构示意图。参照图6,根据本公开的示例性实施例的下采样模块可由一个短路残差块和一个跳跃残差块堆叠而成。短路残差块可由两个卷积层(例如,两个卷积核大小为3x3、通道数为N的卷积层)和短路连接(虚线)构成,第一个卷积层用于对特征图的分辨率进行2倍下采样,第二个卷积层用于提供卷积层的特征学习能力。跳跃残差块可由两个卷积层(例如,两个卷积核大小为3x3、通道数据为N,激活函数为LeakyRelu、使用zero padding保持特征图大小不变的卷积层)和跳跃连接(实线)组成,用于进一步学习有效特征,得到第二特征图。当然,本公开不限于上述下采样模块的结构。
根据本公开的示例性实施例,重构模块可由多个卷积层按顺序连接组成,还可包含跳跃连接和注意力模块等操作来增强其特征学习能力。例如,图7是示出根据本公开的示例性实施例的编码网络中的重构模块的结构示意图。参照图7,重构模块可由一个卷积核为1x1的卷积层(第一卷积层,Conv 1x1)、一个上采样层、三个卷积核为1x1的卷积层(第二至第四卷积层)按顺序连接组成。第一卷积层用于对第二特征图进行特征处理,并后接LeakyRelu激活函数并使用zero padding来保持卷积后特征图的大小不变。上采样层用于对特征处理后的第二特征图进行上采样变换(例如,反卷积、亚像素卷积,subpixel Conv/Deconv等操作)。第二至第四卷积层用于对上采样变换后的第二特征图进行特征处理,以获得第三特征图,这三个卷积层可使用LeakyRelu作为激活函数并保持输出特征图通道数不变。当然,本公开不限于上述重构模块的结构。
根据本公开的示例性实施例,优化模块可包括第一差值反馈子模块和下采样优化子模块,其中,第一差值反馈子模块可用于将第一特征图和第三特征图进行信息融合和处理,具体地说,用于对第一特征图与第三特征图之间的差值执行优化,并基于优化的差值对第三特征图执行优化,获得优化的第三特征图。下采样优化子模块用于对优化的第三特征图执行下采样和优化,获得第四特征图。
例如,图8是示出根据本公开的示例性实施例的编码网络中的第一差值反馈子模块的结构示意图。参照图8,第一差值反馈子模块可包括减法算子、第一跳跃残差块、加法算子、第二跳跃残差块。其中,减法算子用于将第一特征图和第三特征图相减得到第一差值特征图(也可称为可效信息特征图)。第一跳跃残差块由两个卷积层(例如,两个卷积核为3x3、激活函数为LeakyRelu、使用zero padding来保持输出大小不变的卷积层)和跳跃连接组成,用于对第一差值特征图进行特征学习。加法算子用于将特征学习后的第一差值特征图与被减的特征图相加得到相加后的特征图。第二跳跃残差块由两个卷积层(例如,两个卷积核为3x3、激活函数分别为LeakyRelu和Sigmoid、使用zero padding来保持输出大小不变的卷积层)和跳跃连接组成,用于对所述相加后的特征图进行特征学习,得到所述优化的第三特征图。
例如,图9是示出根据本公开的示例性实施例的编码网络中的下采样优化子模块的结构示意图。参照图9,下采样优化子模块可包括短路残差块、两个连接的卷积层。其中,短路残差块由两个卷积层和短路连接组成,用于对所述优化的第三特征图进行下采样,并对下采样后的第三特征图进行特征提取。例如,第一个卷积层使用卷积对特征图的分辨率进行下采样,第二个卷积层(例如,卷积核大小为1x1的卷积层)用于对下采样后的特征图进行特征提取,并使用zero padding来保持输出特征图大小不变以及Generalized DivisiveNormalization(GDN)作为正则化函数,提升卷积层的特征学习能力。此外,两个连接的卷积层(例如,两个按顺序连接的,卷积核大小为3x3的卷积层)用于对短路残差块的输出进行特征学习,得到第四特征图。
根据本公开的另一示例性实施例,在编码网络中,由于第一差值反馈子模块基于高分辨率中间图像(通过上采样得到的重构图像)执行差值反馈优化,但未基于低分辨率中间图像(例如,通过下采样变换得到的第二特征图)执行差值反馈优化,因此,为了提升优化效果,根据本公开的优化模块还可包括第二差值反馈子模块以用于基于低分辨率中间图像执行差值反馈优化。具体地说,第二差值反馈子模块可用于对下采样优化模块输出的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对第四特征图执行优化,获得最终的第四特征图。因此,根据本公开,在每一次反向投影模块的内部,可分两次优化当前特征图,实现了多尺度(高分辨率和低分辨率)的差值反馈和特征融合,使得模型在保证特征图整体数值稳定性的基础上更有效地提取并处理新增信息,从而在维持训练的稳定性的同时稳步提升重构图像的质量。同时,高度模块化的设计也使得所述反向投影方法易于部署,易于拓展。在实际应用中,可根据模型速度、内存空间、压缩质量等因素选择是否使用多阶段重构以及参数共享机制。
图10是示出根据本公开的示例性实施例的下采样反向投影模块的结构示意图。
参照图10,将第一特征图输入下采样模块,可获得第二特征图。
重构模块Fe可对当前特征图it(即,第二特征图)进行特征提取并重构到与下采样变换前特征图it-1↓相同维度的重构特征图et↓(即,第三特征图)。这里↓表示重构到下采样变换之前的结果,t对应采样变换操作的顺序。上述重构步骤可表示为:
et↓=Fe(it) (1)
第一差值反馈子模块Fr可将生成的重构特征图et↓和上一步生成的优化特征图yt-1↓(即,第一特征图)一同传入差值反馈模块Fr,得到差值特征图ct↓。若t=1,则将重构特征图et↓和原始特征图it-1↓(即,第一特征图)一同传入第一差值反馈子模块,得到差值特征图ct↓(即,优化的第三特征图)。其中,第一差值反馈子模块Fr通过计算两个输入的特征图之间的差值得到有效信息,并通过叠加卷积层和跳跃连接等操作来进一步学习所获得的有效信息。之后,第一差值反馈子模块Fr将有效信息与被减的特征图相加后通过堆叠卷积层和跳跃连接等操作来实现信息融合,从而得到优化的特征图。上述差值反馈优化步骤可以表示为:
ct↓=Fr(et↓,yt-1↓) (2)
下采样优化子模块Fu对重构特征图ct↓进行下采样变换和优化操作,得到优化特征图yt(即,第四特征图)。上述下采样优化步骤可表示为:
yt=Fu(ct↓) (3)
第二差值反馈子模块Fr′的结构可与第一差值反馈子模块的结构相同。因此,可将优化特征图yt和当前原始特征图it共同传入第二差值反馈模块Fr′,得到大小和通道数都与当前特征图it相同的优化特征图yt′。上述差值反馈优化步骤可表示为:
yt′=Fr′(i1,yt) (4)
图11是示出根据本公开的另一示例性实施例的下采样反向投影模块的结构示意图。
参照图11,第二差值反馈子模块的结构与所述第一差值反馈子模块的结构不同。例如,第二差值反馈子模块为基于注意力机制的差值反馈模块,包括:减法算子、第一跳跃残差块、注意力模块、第一乘法算子、第二乘法算子、加法算子、第二跳跃残差块。其中,减法算子用于将下采样优化子模块输出的第四特征图和下采样模块输出的第二特征图进行相减得到第二差值特征图(也称为有效信息特征图)。第一跳跃残差块由两个卷积层(例如,两个卷积核为3x3、激活函数为LeakyRelu、使用zero padding来保持输出大小不变的卷积层)和跳跃连接组成,用于对第二差值特征图进行特征学习。注意力模块用于对特征学习后的第二差值特征图进行特征提取,得到注意力分数W。这里,注意力模块可以为空间注意力模块或者通道注意力模块,例如,可使用Squeeze-Excitation网络作为通道注意力模块。第一乘法算子用于将下采样优化模块输出的第四特征图与W(如实线所示)相乘,得到第一加权特征图。第二乘法算子用于将第二特征图与(1-W)(如虚线所示)相乘,得到第二加权特征图。加法算子用于将第一加权特征图与第二加权特征图相加,得到加权特征图。第二跳跃残差块由两个卷积层(例如,两个卷积核为3x3、激活函数分别为LeakyRelu和Sigmoid、使用zero padding来保持输出大小不变的卷积层)和跳跃连接组成,用于对所述加权特征图进行特征学习,得到所述最终的第四特征图。当然,基于注意力机制的第二差值反馈子模块不限于上述基于注意力机制的结构,还可以是任何可能的基于注意力机制的结构。
当然,第一差值反馈子模块也可实现为上述的基于注意力机制的差值反馈模块。例如,利用上述注意力机制产生权重来对第一特征图像和第三特征图像加权来产生优化的第三特征图。
根据本公开,将编码网络中的差值反馈子模块实现为基于注意力机制的差值反馈子模块,通过使用软性注意力机制,帮助模块更关注特定的部分并选择性地对特征图进行加权,对差值反馈模块的信息处理和融合能力进行了进一步的增强,从而提升图像压缩的效果与效率。
图12是示出根据本公开的另一示例性实施例的端到端的图像压缩模型的网络示意图。
参照图12,图12的端到端的图像压缩模型与图5的端到端的图像压缩模型的区别在于编码网络的结构不同。图12的端到端的图像压缩模型还可包括分频网络,且图12所示的编码网络可包括高频编码子网络、低频编码子网络和融合网络。其中,分频网络用于从输入图像提取高频分量和低频分量。高频编码子网络和低频编码子网络均可包括根据本公开的至少一个下采样反向投影模块。高频编码子网络和低频编码子网络的结构/或参数可相同,例如,与图5的编码网络相同。或者高频编码子网络和低频编码子网络的结构和/或参数可不相同。高频编码子网络可用于对高频分量执行下采样变换以获得高频分量的隐变量,低频编码子网络可用于对低频分量执行下采样变换以获得低频分量的隐变量。融合网络可用于将高频分量的隐变量和低频分量的隐变量融合,获得融合的隐变量,作为最终的隐变量。由于高频编码子网络和低频编码子网络可与图5的编码网络结构相同,因此,在此不再赘述。下面,示例性地描述根据本公开的分频网络和融合网络。
图13是示出根据本公开的示例性实施例的分频网络的结构示意图。参照图13,分频网络可包括三个不同核大小的池化层(A)、三个除法算子、第一至第四拼接层(C)、第一卷积层、第二卷积层、第一跳跃残差块和第二跳跃残差块。其中,所述三个不同核大小的池化层(例如,核大小分别为3x3、5x5和7x7)用于分别从输入图像(例如,三通道RGB图像)提取不同尺度的三个低频分量。三个除法算子用于分别将三个低频分量除以输入图像以获得相应的三个高频分量。第一拼接层用于将三个低频分量拼接成一个低频分量。第一卷积层(例如,一个使用leakyrelu作为激活函数,核大小为3x3的卷积层)用于对拼接后的低频分量进行特征提取。第一跳跃残差块由两个卷积层(例如,两个卷积核大小为3x3、激活函数为LeakyRelu、使用zero padding保持特征图大小不变的卷积层)和跳跃连接组成,用于对特征提取后的低频分量进行特征处理。第二拼接层用于将三个高频分量拼接成一个高频分量。第二卷积层例如,一个使用Leakyrelu作为激活函数,核大小为3x3的卷积层)用于对拼接后的高频分量进行特征提取。第二跳跃残差块由两个卷积层(例如,两个卷积核大小为3x3、激活函数为LeakyRelu、使用zero padding保持特征图大小不变的卷积层)和跳跃连接组成,用于对特征提取后的高频分量进行特征处理。第三拼接层用于将特征处理后的低频分量与输入图像进行拼接,并输出最终的低频分量。第四拼接层用于将特征处理后的高频分量与输入图像进行拼接,并输出最终的高频分量。当然,本公开不限于上述分频网络的结构。
图14是示出根据本公开的示例性实施例的融合网络的结构示意图。参照图14,融合网络可被实现为基于空间注意力机制和通道注意力机制的双注意机制的融合网络,即,可包括空间注意力模块和通道注意力模块,分别使用空间注意力模块和通道注意力模块对低频分量和高频分量进行加权处理并最终拼接成等待压缩的隐变量表示。空间注意力模块通过对特征图(例如,高频分量的隐变量和低频分量的隐变量拼接得到的隐变量)在通道方向上进行池化处理并使用卷积层计算空间注意力分数,其中,空间注意力模块通过对所述拼接得到的隐变量分别执行平均池化和最大池化,再将平均池化后的隐变量和最大池化后的隐变量拼接,并基于拼接后的隐变量计算空间注意力分数,可有效地减小运算量。通道注意力模块通过对特征图在空间维度上的进行池化处理后,使用卷积层生成通道注意力分数。通道注意力模块的池化处理可以是平均池化,也可以是最大池化处理。低频分量先由通道注意力分数Wc加权再由空间注意力分数Ws加权(如实线所示)。不同的是,所述高频分量先由(1-Wc)加权再由(1-Ws)加权(如虚线所示)。将加权后的低频和高频特征图相加即可得到原始图像的隐变量表示。通过这种软性融合可得到质量更好的隐变量。
具体地说,融合网络可包括:拼接层、卷积层、跳跃残差块、空间注意力模块、通道注意力模块、第一至第四乘法算子、加法算子。其中,拼接层用于将高频分量的隐变量和低频分量的隐变量拼接成一个隐变量。卷积层用于对拼接后的隐变量进行特征提取。残差块由一个卷积层和跳跃连接组成,用于对特征提取后的隐变量进行特征处理。空间注意力模块可由平均池化层(A)、最大池化层(M)、拼接层(C)和三个卷积层(例如,三个卷积核大小为3x3,前两个卷积层的激活函数为Leakyrelu,后一个卷积层的激活函数为sigmoid的卷积层)构成,用于将特征处理后的隐变量分别通过所述平均池化层和所述最大池化层,并将所述平均池化层和所述最大池化层的输出通过所述拼接层拼接,从而将所述拼接后的隐变量在通道方向上进行池化处理(图像长*宽*通道数为M*W*2),并将通道池化后的隐变量通过所述三个卷积层进行特征提取以获得空间注意力分数Ws(M*W*1)。通道注意力模块可由池化层(例如,平均池化层A)、第一两个卷积层(例如,两个卷积核大小为3x3,激活函数为leakyrelu,通道数为12的卷积层)和第二两个卷积层(例如,两个卷积核大小为3x3,激活函数分别为leakyrelu和sigmoid,通道数为128的卷积层)构成,用于将特征处理后的隐变量该池化层以将所述拼接后的隐变量在空间维度上进行池化处理(1*1*C),并将空间池化后的隐变量通过所述第一两个卷积层进行通道压缩,并将通道压缩后的隐变量通过第二两个卷积层进行特征提取以获得通道注意力分数Wc(1*1*C)。第一乘法算子和第二乘法算子用于将低频分量的隐变量先由Wc加权再由Ws加权,得到低频分量的加权隐变量。第三乘法算子和所述第四乘法算子用于将高频分量的隐变量先由(1-Wc)加权再由(1-Ws)加权,得到高频分量的加权隐变量。加法算子用于将低频分量的加权隐变量与高频分量的加权隐变量相加,得到最终的隐变量。当然,本公开不限于上述融合网络的结构。
下面将具体描述根据本公开的示例性实施例的重构网络。
返回参照图5和图12,根据本公开的端到端的图像压缩模型的重构网络可与编码网络为镜像结构。重构网络可包括至少一个上采样反向投影模块,用于对解码得到的隐变量执行至少一个上采样变换以获得用于获得重构图像。这里,重构网络可包括与上采样变换次数相应数量的上采样反向投影模块,本公开对上采样变换次数和上采样反向投影模块的数量不作限制。根据本公开的示例性实施例,重构网络可由4个上采样反向投影模块堆叠而成,并同样在第一个和第三个上采样反向投影模块前连接一个空间注意力模块提升其表达能力,但本公开的上采样反向投影模块的数量和空间注意力模块的数量和位置不限于此,例如,可由直接由多个上采样反向投影模块堆叠而成等等。
上采样反向投影模块可包括上采样模块、重构模块、优化模块。上采样模块用于对输入的第一特征图执行上采样变换,获得第二特征图,其中,对于第一个上采样模块,输入的第一特征图为解码得到的隐变量。重构模块用于对第二特征图执行重构,获得与第一特征图相同分辨率的第三特征图。优化模块用于基于第一特征图与第三特征图之间的差值执行针对第二特征图的优化,获得第四特征图,作为上采样变换的最终输出,其中,最后一次上采样变换的最终输出作为重构图像。下面,将具体地描述上采样反向投影模块的结构。
根据本公开的示例性实施例,一个上采样模块可由2个两种不同类型的残差块交替堆叠,实现特征图的一次2倍好采样功能。例如,重构网络中的上采样模块的结构可如图6所示,上采样模块可由一个短路残差块和一个跳跃残差块堆叠而成。短路残差块可由两个卷积层和和短路连接构成,其中,第一个卷积层可通过反卷积或亚像素卷积对特征图的分辨率进行2倍上采样,第二个卷积层用于提供卷积层的特征学习能力。跳跃残差块可由两个卷积层(例如,两个卷积核大小为3x3、通道数据为N,激活函数为LeakyRelu、使用zeropadding保持特征图大小不变的卷积层)和跳跃连接组成,用于进一步学习有效特征。当然,本公开不限于上述上采样模块的结构。
根据本公开的示例性实施例,重构网络中的重构模块可由多个卷积层按顺序连接组成,还可包含跳跃连接和注意力模块等操作来增强其特征学习能力。例如,重构网络中的重构模块的结构可如图7所示,重构模块可由一个卷积核为1x1的卷积层(第一卷积层)、一个下采样层、三个卷积核为1x1的卷积层(第二至第四卷积层)按顺序连接组成。第一卷积层用于对第二特征图进行特征处理,并后接LeakyRelu激活函数并使用zero padding来保持卷积后特征图的大小不变。下采样层用于对特征处理后的第二特征图进行下采样变换(例如,卷积、插值等操作)。第二至第四卷积层用于对下采样变换后的第二特征图进行特征处理,以获得第三特征图,这三个卷积层可使用LeakyRelu作为激活函数并保持输出特征图通道数不变。当然,本公开不限于上述重构模块的结构。
根据本公开的示例性实施例,优化模块可包括第一差值反馈子模块和下采样优化子模块,其中,第一差值反馈子模块可用于将第一特征图和第三特征图进行信息融合和处理,具体地说,用于对第一特征图与第三特征图之间的差值执行优化,并基于优化的差值对第三特征图执行优化,获得优化的第三特征图。上采样优化子模块用于对优化的第三特征图执行上采样和优化,获得第四特征图。
例如,重构网络的第一差值反馈子模块可与如图8所示的编码网络的第一差值反馈子模块具有相同结构。
例如,重构网络中的上采样优化子模块可如图9所示,可包括短路残差块、两个连接的卷积层。其中,短路残差块由两个卷积层和短路连接组成,用于对所述优化的第三特征图进行上采样,并对上采样后的第三特征图进行特征提取。例如,第一个卷积层使用反卷积或亚像素卷积对特征图的分辨率进行上采样,第二个卷积层(例如,卷积核大小为1x1的卷积层)用于对上采样后的特征图进行特征提取,并使用zero padding来保持输出特征图大小不变以及Generalized Divisive Normalization(GDN)作为正则化函数,提升卷积层的特征学习能力。此外,两个连接的卷积层(例如,两个按顺序连接的,卷积核大小为3x3的卷积层)用于对短路残差块的输出进行特征学习,得到第四特征图。
根据本公开的另一示例性实施例,在重构网络中,由于第一差值反馈子模块基于低分辨率中间图像(通过下采样得到的重构图像)执行差值反馈优化,但未基于高分辨率中间图像(例如,通过上采样变换得到的第二特征图)执行差值反馈优化,因此,为了提升优化效果,根据本公开的优化模块还可包括第二差值反馈子模块以用于基于高分辨率中间图像执行差值反馈优化。具体地说,第二差值反馈子模块可用于对上采样优化模块输出的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对第四特征图执行优化,获得最终的第四特征图。因此,根据本公开,在每一次反向投影模块的内部,可分两次优化当前特征图,实现了多尺度(高分辨率和低分辨率)的差值反馈和特征融合,使得模型在保证特征图整体数值稳定性的基础上更有效地提取并处理新增信息,从而在维持训练的稳定性的同时稳步提升重构图像的质量。同时,高度模块化的设计也使得所述反向投影方法易于部署,易于拓展。在实际应用中,可根据模型速度、内存空间、压缩质量等因素选择是否使用多阶段重构以及参数共享机制。
例如,在重构网络中,第二差值反馈子模块的结构可与第一差值反馈子模块的结构相同,如图10所示的下采样反向投影模块中的第一差值反馈子模块和第二差值反馈子模块所示。
又例如,在重构网络中,第二差值反馈子模块的结构可与第一差值反馈子模块的结构不同。例如,如图11所示的下采样反向投影模块中的第一差值反馈子模块和第二差值反馈子模块所示,重构网络中的第二差值反馈子模块可为基于注意力机制的差值反馈模块,包括:减法算子、第一跳跃残差块、注意力模块、第一乘法算子、第二乘法算子、加法算子、第二跳跃残差块。其中,减法算子用于将下采样优化模块输出的第四特征图和第二特征图进行相减得到第二差值特征图(也称为有效信息特征图)。第一跳跃残差块由两个卷积层(例如,两个卷积核为3x3、激活函数为LeakyRelu、使用zero padding来保持输出大小不变的卷积层)和跳跃连接组成,用于对第二差值特征图进行特征学习。注意力模块用于对特征学习后的第二差值特征图进行特征提取,得到注意力分数。这里,注意力模块可以为空间注意力模块或者通道注意力模块Wc,例如,可使用Squeeze-Excitation网络作为通道注意力模块。第一乘法算子用于将下采样优化子模块输出的第四特征图与Wc(如实线所示)相乘,得到第一加权特征图。第二乘法算子用于将第二特征图与(1-Wc)(如虚线所示)相乘,得到第二加权特征图。加法算子用于将第一加权特征图与第二加权特征图相加,得到加权特征图。第二跳跃残差块由两个卷积层(例如,两个卷积核为3x3、激活函数分别为LeakyRelu和Sigmoid、使用zero padding来保持输出大小不变的卷积层)和跳跃连接组成,用于对所述加权特征图进行特征学习,得到所述最终的第四特征图。
根据本公开,将重构网络中的第二差值反馈子模块实现为基于注意力机制的差值反馈模块,通过使用软性注意力机制,帮助模块更关注特定的部分并选择性地对特征图进行加权,对差值反馈模块的信息处理和融合能力进行了进一步的增强,从而提升图像压缩的效果与效率。
图15是示出根据本公开的示例性实施例的图像压缩方法的流程图。图15示出的图像压缩方法适用于图像压缩端或图像编码端。
参照图15,在步骤1501,可基于输入图像,利用编码网络获得所述输入图像的隐变量,其中,所述编码网络是深度学习神经网络,所述编码网络包括至少一个根据本公开的下采样反向投影模块。
根据本公开的示例性实施例,输入图像可以是待压缩的原始图像。输入图像可通过拍摄设备通过,或可根据需要从本地存储器或本地数据库被获取或者通过输入装置或传输媒介而从外部电子设备(例如,计算机设备、智能手机等)或外部数据源(例如,互联网、服务器、数据库等)被接收。
根据本公开的示例性实施例,所述编码网络可以是根据本公开的端到端的图像压缩模型中的编码网络。上面已详细描述所述编码网络,因此,在此不再赘述。
根据本公开的示例性实施例,可通过所述编码网络来对所述输入图像执行至少一个下采样变换以获得所述隐变量。这里,本公开对下采样变换的次数不作限制。具体地说,所述编码网络包括的所述至少一个下采样反向投影模块的每个执行以下操作:对输入到所述下采样反向投影模块的第一特征图进行下采样变换以获得第二特征图;对第二特征图执行重构,获得与第一特征图相同分辨率的第三特征图;基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图对于多次下采样变换,每一次下采样变换对应一个下采样反向投影模块,所述输入图像或所述输入图像经预处理后的特征图作为输入第一个下采样反向投影模块的第一特征图,基于最后一个下采样反向投影模块的输出得到所述隐变量。
根据本公开的示例性实施例,针对基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图,可执行以下操作:对第一特征图与第三特征图之间的差值执行优化,并基于优化的差值对第三特征图执行优化,获得优化的第三特征图;对优化的第三特征图执行下采样和优化,获得第四特征图。
根据本公开的示例性实施例,针对基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图,还可执行以下操作:对获得的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对获得的第四特征图执行优化,获得最终的第四特征图。
根据本公开的示例性实施例,针对对第二特征图执行重构,获得与第一特征图相同分辨率的第三特征图,可执行以下操作:通过所述卷积操作来对第二特征图进行特征处理,对特征处理后的第二特征图进行上采样变换,通过卷积操作来对上采样变换后的特征图进行特征处理,以获得第三特征图。例如,可利用根据本公开的编码网络中的重构模块(例如,图7所示的重构模块)来执行此操作。
根据本公开的示例性实施例,针对对第一特征图与第三特征图之间的差值执行优化,并基于优化的差值对第三特征图执行优化,获得优化的第三特征图,可执行以下操作:将第一特征图和第三特征图相减得到第一差值特征图,通过卷积操作来对第一差值特征图进行特征学习,将特征学习后的第一差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作来对所述相加后的特征图进行特征学习,得到所述优化的第三特征图。例如,可利用根据本公开的编码网络中的第一差值反馈子模块(例如,图8所示的第一差值反馈子模块)来执行此操作。
根据本公开的示例性实施例,针对对优化的第三特征图执行下采样和优化,获得第四特征图,可执行以下操作:通过卷积操作来对所述优化的第三特征图进行下采样,并对下采样后的第三特征图进行特征提取,通过卷积操作来对所述短路残差块的输出进行特征学习,得到第四特征图。例如,可利用根据本公开的编码网络中的下采样优化子模块(例如,图9所示的下采样优化子模块)来执行此操作。
根据本公开的示例性实施例,针对对获得的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对获得的第四特征图执行优化,获得最终的第四特征图,可执行以下操作:将获得的第四特征图和第二特征图相减得到第二差值特征图,通过卷积操作来对第二差值特征图进行特征学习,将特征学习后的第二差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作来对所述相加后的特征图进行特征学习,得到所述最终的第四特征图。例如,可利用根据本公开的编码网络中的类似于第一差值反馈子模块的第二差值反馈子模块(例如,与图10所示的第二差值反馈模块)来执行此操作。
根据本公开的示例性实施例,针对对获得的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对第四特征图执行优化,获得最终的第四特征图,可执行以下操作:将获得的第四特征图和第二特征图进行相减得到第二差值特征图,通过卷积操作来对第二差值特征图进行特征学习,通过卷积操作来对特征学习后的第二差值特征图进行特征提取,得到注意力分数,将获得的第四特征图与所述注意力分数相乘,得到第一加权特征图,将第二特征图与(1-所述注意力分数)相乘,得到第二加权特征图,将第一加权特征图与第二加权特征图相加,得到加权特征图,通过卷积操作来对所述加权特征图进行特征学习,得到所述最终的第四特征图。例如,可利用根据本公开的编码网络中的基于注意力机制的第二差值反馈子模块(例如,与图11所示的第二差值反馈子模块)来执行此操作。
根据本公开的示例性实施例,在所述编码网络包括高频编码子网络和低频编码子网络的情况下,可从所述输入图像提取高频分量和低频分量,例如,可利用根据本公开的分频网络(例如,与图13所示的分频网络)来执行操作;利用所述高频编码子网络获得所述高频分量的隐变量,其中,基于所述高频编码子网络包括的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述高频分量的隐变量;利用所述低频编码子网络获得所述低频分量的隐变量,其中,基于所述低频编码子网络包括的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述低频分量的隐变量;将所述高频分量的隐变量和所述低频分量的隐变量融合,获得所述输入图像的隐变量。
根据本公开的示例性实施例,针对通过所述融合网络来将所述高频分量的隐变量和所述低频分量的隐变量融合,获得所述隐变量,可执行以下操作:对所述高频分量的隐变量和所述低频分量的隐变量拼接获得第一拼接隐变量;利用空间注意力机制,对第一拼接隐变量在通道方向上分别进行平均池化和最大池化,对该平均池化后的第一拼接隐变量和该最大池化后的第一拼接隐变量进行拼接获得第二拼接隐变量,并使用卷积操作计算所述第二拼接隐变量的空间注意力分数;利用通道注意力机制,对第一拼接隐变量在空间维度上进行池化,并使用卷积操作计算池化后的第一拼接隐变量的通道注意力分数;利用所述通道注意力分数和空间注意力分数对所述低频分量的隐变量加权,获得所述低频分量的加权隐变量;利用(1-通道注意力分数)和(1-空间注意力分数)对所述高频分量的隐变量加权,获得所述高频分量的加权隐变量;获得所述低频分量的加权隐变量与所述高频分量的加权隐变量之和,作为所述输入图像的隐变量。例如,可利用根据本公开的融合网络(例如,与图14所示的融合网络)来执行此操作。
在步骤1502,可基于所述隐变量执行熵编码,获得压缩图像的比特流文件。
根据本公开的示例性实施例,熵编码操作可包括用于基于隐变量获得压缩图像的比特流文件的熵编码相关操作,包括,但不限于,超参分析网络、补充信息熵编码、补充信息熵解码、超参生成网络、上下文模型、隐变量熵编码中的至少一个。
图16是出根据本公开的示例性实施例的图像解压方法的流程图。图16示出的图像解压方法适用于图像解压端或图像解码(重构)端。
参照图16,在步骤1601,可对压缩图像的比特流文件执行熵解码,获得隐变量。
根据本公开的示例性实施例,压缩图像的比特流文件可根据需要从本地存储器或本地数据库被获取或者通过输入装置或传输媒介而从外部电子设备(例如,计算机设备、智能手机等)或外部数据源(例如,互联网、服务器、数据库等)被接收。
根据本公开的示例性实施例,熵解码操作可包括用于基于压缩图像的比特流文件获得隐变量的熵解码相关操作,包括,但不限于,隐变量熵解码。
在步骤1602,可基于所述隐变量,利用重构网络获得所述压缩图像的重构图像,其中,所述重构网络是深度学习神经网络,所述重构网络包括至少一个上采样反向投影模块。
根据本公开的示例性实施例,所述重构网络可以是根据本公开的端到端的图像压缩模型中的重构网络。上面已详细描述所述重构网络,因此,在此不再赘述。
根据本公开的示例性实施例,可通过所述重构网络来对所述隐变量执行至少一个上采样变换以获得用于获得所述重构图像。这里,本公开对上采样变换的次数不作限制。具体地说,所述重构网络包括的所述至少一个上采样反向投影模块的每个执行以下操作:对输入到所述上采样反向投影模块的第五特征图执行上采样变换,获得第六特征图;对第六特征图执行重构,获得与第五特征图相同分辨率的第七特征图;基于第五特征图与第七特征图之间的差值,获得作为第六特征图的优化结果的第八特征图。对于多次上采样变换,每一次上采样变换对应一个上采样反向投影模块,基于所述隐变量得到输入第一个上采样反向投影模块的第四特征图,最后一个上采样反向投影模块的输出作为所述重构图像。
根据本公开的示例性实施例,针对基于第五特征图与第七特征图之间的差值,获得作为第六特征图的优化结果的第八特征图,可执行以下操作:对第五特征图与第七特征图之间的差值执行优化,并基于优化的差值对第七特征图执行优化,获得优化的第七特征图;对优化的第七特征图执行上采样和优化,获得第八特征图。
根据本公开的示例性实施例,针对基于第五特征图与第七特征图之间的差值,获得作为第六特征图的优化结果的第八特征图,还可执行以下操作:对获得的第八特征图与第六特征图之间的差值执行优化,并基于优化的差值对第六特征图执行优化,获得最终的第八特征图。
根据本公开的示例性实施例,针对对第六特征图执行重构,获得与第五特征图相同分辨率的第七特征图,可执行以下操作:通过卷积操作来对第六特征图进行特征处理,对特征处理后的第六特征图进行下采样变换,通过卷积操作来对下采样变换后的第六特征图进行特征处理,以获得第七特征图。例如,可利用根据本公开的重构网络中的重构模块来执行此操作。
根据本公开的示例性实施例,针对对第五特征图与第七特征图之间的差值执行优化,并基于优化的差值对第七特征图执行优化,获得优化的第七特征图,可执行以下操作:将第五特征图和第七特征图相减得到第三差值特征图,通过卷积操作来对第三差值特征图进行特征学习,将特征学习后的第三差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作来对所述相加后的特征图进行特征学习,得到所述优化的第七特征图。例如,可利用根据本公开的重构网络中的第一差值反馈子模块来执行此操作。
根据本公开的示例性实施例,针对对优化的第七特征图执行上采样和优化,获得第八特征图,可执行以下操作:通过卷积操作来对所述优化的第七特征图进行上采样,并对上采样后的第七特征图进行特征提取,通过卷积操作来对特征提取得到的特征图进行特征学习,得到第八特征图。例如,可利用根据本公开的重构网络中的上采样优化子模块来执行此操作。
根据本公开的示例性实施例,针对对获得的第八特征图与第六特征图之间的差值执行优化,并基于优化的差值对获得的第八特征图执行优化,获得最终的第八特征图,可执行以下操作:将获得的第八特征图和第六特征图相减得到第四差值特征图;通过卷积操作对第四差值特征图进行特征学习;将特征学习后的第四差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第七特征图。例如,可利用根据本公开的重构网络中的类似于第一差值反馈子模块的第二差值反馈子模块来执行此操作。
根据本公开的示例性实施例,对获得的第八特征图与第六特征图之间的差值执行优化,并基于优化的差值对获得的第八特征图执行优化,获得最终的第八特征图,可执行以下操作:将获得的第八特征图和第六特征图相减得到第四差值特征图,通过卷积操作来对第四差值特征图进行特征学习,通过注意力机制来对特征学习后的第四差值特征图进行特征提取,得到注意力分数,将获得的第八特征图与所述注意力分数相乘,得到第三加权特征图,将第六特征图与(1-所述注意力分数)相乘,得到第四加权特征图,将第三加权特征图与第四加权特征图相加,得到加权特征图,通过卷积操作对所述加权特征图进行特征学习,得到所述最终的第八特征图。例如,可利用根据本公开的重构网络中的基于注意力机制的第二差值反馈子模块来执行此操作。
图17是示出根据本公开的示例性实施例的端到端的图像压缩方法的流程图。
参照图17,在步骤1701,可基于输入图像,利用端到端的图像压缩模型中的编码网络,获得所述输入图像的隐变量。
根据本公开的示例性实施例,输入图像可以是待压缩的原始图像。输入图像可通过拍摄设备通过,或可根据需要从本地存储器或本地数据库被获取或者通过输入装置或传输媒介而从外部电子设备(例如,计算机设备、智能手机等)或外部数据源(例如,互联网、服务器、数据库等)被接收。
根据本公开的示例性实施例,端到端的图像压缩模型可以是如图5或图12所描述的端到端的图像压缩模型。步骤1701可与如图15所述的步骤1501相同,因此在此不再赘述。
在步骤1702,可基于所述隐变量执行熵编码,获得压缩图像的比特流文件。
根据本公开的示例性实施例,熵编码操作可包括用于基于隐变量获得压缩图像的比特流文件的熵编码相关操作,例如,如图5或图12所描述的端到端的图像压缩模型中的熵模型中的熵编码相关操作,包括,但不限于,超参分析网络、补充信息熵编码、补充信息熵解码、超参生成网络、上下文模型、隐变量熵编码中的至少一个。
在步骤1703,可对所述压缩图像的比特流文件执行熵解码,获得解码后的隐变量。
根据本公开的示例性实施例,熵解码操作可包括用于基于压缩图像的比特流文件获得隐变量的熵解码相关操作,例如,如图5或图12所描述的端到端的图像压缩模型中的熵模型中的熵解码相关操作,包括,但不限于,隐变量熵解码。
在步骤1704,可基于所述解码后的隐变量,利用所述端到端的图像压缩模型中的重构网络,获得所述压缩图像的重构图像。步骤1704可与如图16所述的步骤1602相同,因此在此不再赘述。
根据本公开的示例性实施例,如图15至图17所示的根据本公开的图像压缩/解压方法中使用的端到端的图像压缩模型(例如,图5或图12所示的端到端的图像压缩模型)是已经训练好的模型。例如,可通过下述方法来训练根据本公开的端到端的图像压缩模型:获取图像训练集(例如,CLIC2019数据集、Kodak数据集等);将所述图像训练集中的图像作为输入图像,使用如图17所示的图像压缩方法,获得重构图像;基于所述输入图像和所述重构图像的均方误差来计算损失函数;利用计算出的损失函数来调整所述图像压缩模型的参数。例如,但不限于,损失函数可被表示为:
L=R+λD (5)
其中,
其中,L表示所述损失函数,R表示估计出的压缩后的图像大小,λ表示用于控制压缩比率和图像质量的参数,λ越大,压缩比率越小且图像质量越高,N表示图像像素数,I表示所述输入图像,表示所述重构图像。
例如,可对不同的λ使用Adam优化器来优化如公式(5)所示的损失函数,来对根据本公开的端到端的图像压缩模型的参数进行训练。例如,训练的迭代次数为1.5×106,每步使用的batch大小为4,初始的学习率为1×10-4,最后80,000步的学习率调整为1×10-5
图18是示出根据本公开的示例性实施例的图像压缩装置的框图。图18示出的图像压缩装置适用于图像压缩端或图像编码端。
参照图18,根据本公开的示例性实施例的图像压缩装置1800可包括编码网络1801和熵编码网络1802。
编码网络1801可基于输入图像获得所述输入图像的隐变量,其中,所述编码网络是深度学习神经网络,所述编码网络包括至少一个下采样反向投影模块。
根据本公开的示例性实施例,输入图像可以是待压缩的原始图像。输入图像可通过拍摄设备通过,或可根据需要从本地存储器或本地数据库被获取或者通过输入装置或传输媒介而从外部电子设备(例如,计算机设备、智能手机等)或外部数据源(例如,互联网、服务器、数据库等)被接收。
根据本公开的示例性实施例,所述编码网络可以是根据本公开的端到端的图像压缩模型中的编码网络。上面已详细描述所述编码网络,因此,在此不再赘述。
根据本公开的示例性实施例,编码网络1801可通过至少一个下采样反向投影模块来对所述输入图像执行至少一次下采样变换以获得所述隐变量。这里,本公开对下采样变换的次数不作限制。具体地说,每个下采样反向投影模块包括下采样模块、重构模块和优化模块;其中,所述下采样模块被配置为:对输入到所述下采样模块的第一特征图进行下采样变换以获得第二特征图;重构模块被配置为:对第二特征图执行重构,获得与第一特征图相同分辨率的第三特征图;优化模块被配置为:基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图对于多次下采样变换,每一次下采样变换对应一个下采样反向投影模块,所述输入图像或所述输入图像经预处理后的特征图作为输入第一个下采样反向投影模块的第一特征图,基于最后一个下采样反向投影模块的输出得到所述隐变量。根据本公开的示例性实施例,优化模块包括第一差值反馈子模块和下采样优化子模块,其中,第一差值反馈子模块被配置为:对第一特征图与第三特征图之间的差值执行优化,并基于优化的差值对第三特征图执行优化,获得优化的第三特征图;下采样优化子模块被配置为:对优化的第三特征图执行下采样和优化,获得第四特征图。
根据本公开的示例性实施例,优化模块还包括第二差值反馈子模块,被配置为:对获得的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对第二特征图执行优化,获得最终的第四特征图。
根据本公开的示例性实施例,重构模块被配置为:通过卷积操作来对第二特征图进行特征处理;对特征处理后的第二特征图进行上采样变换;通过卷积操作来对上采样变换后的特征图进行特征处理,以获得第三特征图。例如,可利用根据本公开的编码网络中的重构模块(例如,图7所示的重构模块)来执行实现上述重构模块。
根据本公开的示例性实施例,优化模块中的第一差值反馈子模块被配置为:将第一特征图和第三特征图相减得到第一差值特征图;通过卷积操作来对第一差值特征图进行特征学习;将特征学习后的第一差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作来对所述相加后的特征图进行特征学习,得到所述优化的第三特征图。例如,可利用根据本公开的编码网络中的第一差值反馈子模块(例如,图8所示的第一差值反馈子模块)来实现上述第一差值反馈子模块。
根据本公开的示例性实施例,优化模块中的下采样优化子模块被配置为:通过卷积操作对所述优化的第三特征图进行下采样,并对下采样后的第三特征图进行特征提取;通过卷积操作来对特征提取得到的特征图进行特征学习,得到第四特征图。例如,可利用根据本公开的编码网络中的下采样优化子模块(例如,图9所示的下采样优化子模块)来实现上述下采样优化子模块。
根据本公开的示例性实施例,优化模块中的第二差值反馈子模块被配置为:将获得的第四特征图和第二特征图相减得到第二差值特征图;通过卷积操作对第二差值特征图进行特征学习;将特征学习后的第二差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第三特征图。例如,可利用根据本公开的编码网络中的类似于第一差值反馈子模块的第二差值反馈子模块(例如,与图10所示的第二差值反馈子模块)来实现上述第二差值反馈子模块。
根据本公开的示例性实施例,优化模块中的第二差值反馈子模块被配置为:将获得的第四特征图和第二特征图相减得到第二差值特征图,通过卷积操作来对第二差值特征图进行特征学习,通过注意力机制来对特征学习后的第二差值特征图进行特征提取,得到注意力分数,将获得的第四特征图与所述注意力分数相乘,得到第一加权特征图,将第二特征图与(1-所述注意力分数)相乘,得到第二加权特征图,将第一加权特征图与第二加权特征图相加,得到加权特征图,通过卷积操作对所述加权特征图进行特征学习,得到所述最终的第四特征图。例如,可利用根据本公开的编码网络中的基于注意力机制的第二差值反馈子模块(例如,与图11所示的第二差值反馈子模块)来实现上述第二差值反馈子模块。
根据本公开的示例性实施例,所述图像压缩装置还包括:分频网络;所述编码网络包括高频编码子网络、低频编码子网络和融合网络,其中,所述高频编码子网络和所述低频编码子网络均包括所述至少一个下采样反向投影模块;其中,所述分频网络被配置为:从所述输入图像提取高频分量和低频分量,例如,可利用如图13所示的分频网络来实现上述分频网络;所述高频编码子网络被配置为:获得所述高频分量的隐变量,其中,基于所述高频编码子网络包括的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述高频分量的隐变量;所述低频编码子网络被配置为:获得所述低频分量的隐变量,其中,基于所述低频编码子网络包括的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述低频分量的隐变量;融合网络被配置为:将所述高频分量的隐变量和所述低频分量的隐变量融合,获得所述输入图像的隐变量。
根据本公开的示例性实施例,融合网络被配置为:对所述高频分量的隐变量和所述低频分量的隐变量拼接获得第一拼接隐变量;利用空间注意力机制,对第一拼接隐变量在通道方向上分别进行平均池化和最大池化,对该平均池化后的第一拼接隐变量和该最大池化后的第一拼接隐变量进行拼接获得第二拼接隐变量,并使用卷积操作计算所述第二拼接隐变量的空间注意力分数;利用通道注意力机制,对第一拼接隐变量在空间维度上进行池化,并使用卷积操作计算此池化后的第一拼接隐变量的通道注意力分数;利用所述通道注意力分数和空间注意力分数对所述低频分量的隐变量加权,获得所述低频分量的加权隐变量;利用(1-通道注意力分数)和(1-空间注意力分数)对所述高频分量的隐变量加权,获得所述高频分量的加权隐变量;获得所述低频分量的加权隐变量与所述高频分量的加权隐变量之和,作为所述输入图像的隐变量。例如,可利用根据本公开的融合网络(例如,与图14所示的融合网络)来实现上述融合网络。
熵编码网络1802可基于所述隐变量执行熵编码,获得压缩图像的比特流文件。
根据本公开的示例性实施例,熵编码操作可包括用于基于隐变量获得压缩图像的比特流文件的熵编码相关操作,包括,但不限于,超参分析网络、补充信息熵编码、补充信息熵解码、超参生成网络、上下文模型、隐变量熵编码中的至少一个。
图19是出根据本公开的示例性实施例的图像解压装置的框图。图19示出的图像解压装置适用于图像解压端或图像解码(重构)端。
参照图19,根据本公开的示例性实施例的图像解压装置1900可包括熵解码网络1901和重构网络1902。
熵解码网络1901可对压缩图像的比特流文件执行熵解码,获得隐变量。
根据本公开的示例性实施例,压缩图像的比特流文件可根据需要从本地存储器或本地数据库被获取或者通过输入装置或传输媒介而从外部电子设备(例如,计算机设备、智能手机等)或外部数据源(例如,互联网、服务器、数据库等)被接收。
根据本公开的示例性实施例,熵解码操作可包括用于基于压缩图像的比特流文件获得隐变量的熵解码相关操作,包括,但不限于,隐变量熵解码。
重构网络1902可基于所述隐变量,获得所述压缩图像的重构图像,其中,所述重构网络是深度学习神经网络,所述重构网络包括至少一个根据本公开的上采样反向投影模块。
根据本公开的示例性实施例,所述重构网络可以是根据本公开的端到端的图像压缩模型中的重构网络。上面已详细描述所述重构网络,因此,在此不再赘述。
根据本公开的示例性实施例,重构网络1902可通过至少一个上采样反向投影模块。来对所述隐变量执行至少一次上采样变换以获得用于获得所述重构图像。这里,本公开对好采样变换的次数不作限制。具体地说,每个上采样反向投影模块包括上采样模块、重构模块和优化模块;其中,上采样模块被配置为:对输入到所述上采样模块的第五特征图执行上采样变换,获得第六特征图;重构模块被配置为:对第六特征图执行重构,获得与第五特征图相同分辨率的第七特征图;优化模块被配置为:基于第五特征图与第七特征图之间的差值,获得作为第六特征图的优化结果的第八特征图。对于多次上采样变换,每一次上采样变换对应一个上采样反向投影模块,基于所述隐变量得到输入第一个上采样反向投影模块的第五特征图,最后一个上采样反向投影模块的输出作为所述重构图像。
根据本公开的示例性实施例,优化模块包括第一差值反馈子模块和上采样优化子模块,其中,第一差值反馈子模块被配置为:对第五特征图与第七特征图之间的差值执行优化,并基于优化的差值对第七特征图执行优化,获得优化的第七特征图;上采样优化子模块被配置为:对优化的第七特征图执行上采样和优化,获得第八特征图。根据本公开的示例性实施例,优化模块还包括第二差值反馈子模块,被配置为:对获得的第八特征图与第六特征图之间的差值执行优化,并基于优化的差值对第八特征图执行优化,获得最终的第八特征图。根据本公开的示例性实施例,重构模块被配置为:通过卷积操作来对第六特征图进行特征处理;对特征处理后的第六特征图进行下采样变换;通过卷积操作来对下采样变换后的第六特征图进行特征处理,以获得第七特征图。例如,可利用根据本公开的重构网络中的重构模块来实现上述重构模块。
根据本公开的示例性实施例,优化模块中的第一差值反馈子模块被配置为:将第五特征图和第七特征图相减得到第三差值特征图;通过卷积操作来对第三差值特征图进行特征学习;将特征学习后的第三差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作来对所述相加后的特征图进行特征学习,得到所述优化的第七特征图。例如,可利用根据本公开的重构网络中的第一差值反馈子模块来实现上述第一差值反馈子模块。
根据本公开的示例性实施例,优化模块中的上采样优化子模块被配置为:通过卷积操作来对所述优化的第七特征图进行上采样,并对上采样后的第七特征图进行特征提取;通过卷积操作来对特征提取得到的特征图进行特征学习,得到第八特征图。例如,可利用根据本公开的重构网络中的上采样优化子模块来实现上述上采样优化子模块。
根据本公开的示例性实施例,优化模块中的第二差值反馈子模块被配置为:将获得的第八特征图和第六特征图相减得到第四差值特征图;通过卷积操作对第四差值特征图进行特征学习;将特征学习后的第四差值特征图与被减的特征图相加得到相加后的特征图;通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第七特征图。例如,可利用根据本公开的重构网络中的类似于第一差值反馈子模块的第二差值反馈子模块来实现第二差值反馈子模块。
根据本公开的示例性实施例,优化模块中的第二差值反馈子模块被配置为:将获得的第八特征图和第六特征图进行相减得到第四差值特征图;通过卷积操作来对第四差值特征图进行特征学习;通过注意力机制来对特征学习后的第四差值特征图进行特征提取,得到注意力分数;将获得的第八特征图与所述注意力分数相乘,得到第三加权特征图;将第六特征图与(1-所述注意力分数)相乘,得到第四加权特征图;将第三加权特征图与第四加权特征图相加,得到加权特征图;通过卷积操作来对所述加权特征图进行特征学习,得到所述最终的第八特征图。例如,可利用根据本公开的重构网络中的基于注意力机制的第二差值反馈子模块来实现上述第二差值反馈子模块。
图20是示出根据本公开的示例性实施例的端到端的图像压缩装置的框图。
参照图20,根据本公开的示例性实施例的端到端的图像压缩装置2000可包括编码网络2001、熵编码网络2002、熵解码网络2003和重构网络2004。
编码网络2001可基于输入图像获得所述输入图像的隐变量。
根据本公开的示例性实施例,输入图像可以是待压缩的原始图像。输入图像可通过拍摄设备通过,或可根据需要从本地存储器或本地数据库被获取或者通过输入装置或传输媒介而从外部电子设备(例如,计算机设备、智能手机等)或外部数据源(例如,互联网、服务器、数据库等)被接收。
根据本公开的示例性实施例,端到端的图像压缩模型可以是如图5或图12所描述的端到端的图像压缩模型。编码网络2001可与如图18所描述的编码网络1801相同,因此在此不再赘述。
熵编码网络2002可基于所述隐变量执行熵编码,获得压缩图像的比特流文件。
根据本公开的示例性实施例,熵编码操作可包括用于基于隐变量获得压缩图像的比特流文件的熵编码相关操作,例如,如图5或图12所描述的端到端的图像压缩模型中的熵模型中的熵编码相关操作,包括,但不限于,超参分析网络、补充信息熵编码、补充信息熵解码、超参生成网络、上下文模型、隐变量熵编码中的至少一个。
熵解码网络2003可对所述压缩图像的比特流文件执行熵解码,获得解码后的隐变量。
根据本公开的示例性实施例,熵解码操作可包括用于基于压缩图像的比特流文件获得隐变量的熵解码相关操作,例如,如图5或图12所描述的端到端的图像压缩模型中的熵模型中的熵解码相关操作,包括,但不限于,隐变量熵解码。
重构网络2004可基于所述解码后的隐变量,利用所述端到端的图像压缩模型中的重构网络,获得重构图像。重构网络2004可与如图19所描述的重构网络1902相同,因此在此不再赘述。
根据本公开的示例性实施例,如图15至图17所示的根据本公开的图像压缩/解压方法中使用的端到端的图像压缩模型(例如,图5或图12所示的端到端的图像压缩模型)是已经训练好的模型。例如,可通过下述方法来训练根据本公开的端到端的图像压缩模型:获取图像训练集(例如,CLIC2019数据集、Kodak数据集等);将所述图像训练集中的图像作为输入图像,使用如图17所示的图像压缩方法,获得重构图像;基于所述输入图像和所述重构图像的均方误差来计算损失函数;利用计算出的损失函数来调整所述图像压缩模型的参数。例如,损失函数可以是,但不限于,如公式(5)所示的损失函数。例如,可对不同的λ使用Adam优化器来优化如公式(5)所示的损失函数,来对根据本公开的端到端的图像压缩模型的参数进行训练。例如,训练的迭代次数为1.5×106,每步使用的batch大小为4,初始的学习率为1×10-4,最后80,000步的学习率调整为1×10-5
图21是根据本公开的示例性实施例的电子设备2100的框图。
参照图21,电子设备2100包括至少一个存储器2101和至少一个处理器2102,所述至少一个存储器2101中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器2102执行时,执行根据本公开的示例性实施例的图像压缩方法或图像解压方法或端到端的图像压缩方法。
作为示例,电子设备2100可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备2100并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备2100还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备2100中,处理器2102可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器2102可运行存储在存储器2101中的指令或代码,其中,存储器2101还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器2101可与处理器2102集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器2101可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器501和处理器2102可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器2102能够读取存储在存储器中的文件。
此外,电子设备2100还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备2100的所有组件可经由总线和/或网络而彼此连接。
根据本公开的示例性实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的图像压缩方法或图像解压方法或端到端的图像压缩方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的图像压缩方法及装置、图像解压方法及装置、端到端的图像压缩方法及装置,创新性地在图像压缩任务上使用反向投影方法,通过反馈重构结果给当前操作来实现信息的双向交换,丰富当前特征图的信息量并提升重新采样后特征图的质量,有效减轻了上/下采样变换所得到的中间特征图因卷积层数少、低分辨率信息不准确等问题所导致的质量下降,同时量化隐变量所导致的重构误差也得到缓解。
此外,本公开提出的反向投影模块(例如,上采样反向投影模块、下采样反向投影模块)高度模块化的设计也使得所述反向投影方法易于部署,易于拓展。在实际应用中,可根据模型速度、内存空间、压缩质量等因素选择是否使用多阶段重构以及参数共享机制。具体地说,根据实际应用中的需要,灵活地对编码网络和/或重构网络的至少一次上/下采样变换应用反向投影模块。此外,由于反向投影模块中反复使用到重构模块、上/下采样优化模块和差值反馈模块,在实际应用中也可让重复使用的模块共享参数,降低模型的复杂度,使训练收敛更快,同时也对模型参数起到一定的正则化效果。
此外,本公开用频域分解和处理的方法分别对原始图像的低频和高频分量进行处理和融合,使得网络可以更专注于容易在下采样过程中丢失的高频细节,并使其灵活地根据需要对处理后的低频和高频信息适应性地进行处理和融合,从而有效优化所述图像压缩方法的率失真表现。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (26)

1.一种图像压缩方法,其特征在于,包括:
基于输入图像,利用编码网络获得所述输入图像的隐变量,其中,所述编码网络是深度学习神经网络,所述编码网络包括至少一个下采样反向投影模块;
基于所述隐变量执行熵编码,获得压缩图像的比特流文件;
其中,所述编码网络包括的所述至少一个下采样反向投影模块的每个执行以下操作:
对输入到所述下采样反向投影模块的第一特征图进行下采样变换以获得第二特征图;
对第二特征图执行重构,获得与第一特征图相同分辨率的第三特征图;
基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图,其中,基于所述编码网络中的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述隐变量;
其中,所述基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图,包括:
对第一特征图与第三特征图之间的差值执行优化,并基于优化的差值对第三特征图执行优化,获得优化的第三特征图;
对优化的第三特征图执行下采样和优化,获得第四特征图;
其中,所述对第一特征图与第三特征图之间的差值执行优化,并基于优化的差值对第三特征图执行优化,获得优化的第三特征图,包括:
将第一特征图和第三特征图相减得到第一差值特征图;
通过卷积操作对第一差值特征图进行特征学习;
将特征学习后的第一差值特征图与被减的特征图相加得到相加后的特征图;
通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第三特征图;
其中,所述对优化的第三特征图执行下采样和优化,获得第四特征图,包括:
通过卷积操作对所述优化的第三特征图进行下采样,并对下采样后的第三特征图进行特征提取,
通过卷积操作对特征提取得到的特征图进行特征学习,得到第四特征图。
2.如权利要求1所述的图像压缩方法,其特征在于,所述基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图,还包括:
对获得的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对获得的第四特征图执行优化,获得最终的第四特征图。
3.如权利要求1所述的图像压缩方法,其特征在于,所述对第二特征图执行重构,获得与第一特征图相同分辨率的第三特征图,包括:
通过卷积操作来对第二特征图进行特征处理,
对特征处理后的第二特征图进行上采样变换,
通过卷积操作来对上采样变换后的特征图进行特征处理,以获得第三特征图。
4.如权利要求2所述的图像压缩方法,其特征在于,所述对获得的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对获得的第四特征图执行优化,获得最终的第四特征图,包括:
将获得的第四特征图和第二特征图相减得到第二差值特征图;
通过卷积操作对第二差值特征图进行特征学习;
将特征学习后的第二差值特征图与被减的特征图相加得到相加后的特征图;
通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第三特征图。
5.如权利要求2所述的图像压缩方法,其特征在于,所述对获得的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对第四特征图执行优化,获得最终的第四特征图,包括:
将获得的第四特征图和第二特征图相减得到第二差值特征图,
通过卷积操作对第二差值特征图进行特征学习,
通过注意力机制对特征学习后的第二差值特征图进行特征提取,得到注意力分数,
将获得的第四特征图与所述注意力分数相乘,得到第一加权特征图,
将第二特征图与(1-所述注意力分数)相乘,得到第二加权特征图,
将第一加权特征图与第二加权特征图相加,得到加权特征图,
通过卷积操作对所述加权特征图进行特征学习,得到所述最终的第四特征图。
6.如权利要求1至5中任意一项权利要求所述的图像压缩方法,其特征在于,所述编码网络包括高频编码子网络和低频编码子网络,所述高频编码子网络和所述低频编码子网络均包括至少一个下采样反向投影模块,所述方法还包括:从所述输入图像提取高频分量和低频分量;
所述基于输入图像,利用编码网络获得所述输入图像的隐变量包括:
利用所述高频编码子网络获得所述高频分量的隐变量,其中,基于所述高频编码子网络包括的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述高频分量的隐变量;
利用所述低频编码子网络获得所述低频分量的隐变量,其中,基于所述低频编码子网络包括的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述低频分量的隐变量;
将所述高频分量的隐变量和所述低频分量的隐变量融合,获得所述输入图像的隐变量。
7.如权利要求6所述的图像压缩方法,其特征在于,将所述高频分量的隐变量和所述低频分量的隐变量融合,获得所述输入图像的隐变量,包括:
对所述高频分量的隐变量和所述低频分量的隐变量拼接获得第一拼接隐变量;
利用空间注意力机制,对第一拼接隐变量在通道方向上分别进行平均池化和最大池化,对该平均池化后的第一拼接隐变量和该最大池化后的第一拼接隐变量进行拼接获得第二拼接隐变量,并使用卷积操作计算所述第二拼接隐变量的空间注意力分数;
利用通道注意力机制,对第一拼接隐变量在空间维度上进行池化,并使用卷积操作计算池化后的第一拼接隐变量的通道注意力分数;
利用所述通道注意力分数和空间注意力分数对所述低频分量的隐变量加权,获得所述低频分量的加权隐变量;
利用(1-通道注意力分数)和(1-空间注意力分数)对所述高频分量的隐变量加权,获得所述高频分量的加权隐变量;
获得所述低频分量的加权隐变量与所述高频分量的加权隐变量之和,作为所述输入图像的隐变量。
8.一种图像解压方法,其特征在于,包括:
对压缩图像的比特流文件执行熵解码,获得隐变量;
基于所述隐变量,利用重构网络获得所述压缩图像的重构图像,其中,所述重构网络是深度学习神经网络,所述重构网络包括至少一个上采样反向投影模块;
其中,所述重构网络包括的所述至少一个上采样反向投影模块的每个执行以下操作:
对输入到所述上采样反向投影模块的第五特征图执行上采样变换,获得第六特征图;
对第六特征图执行重构,获得与第五特征图相同分辨率的第七特征图;
基于第五特征图与第七特征图之间的差值,获得作为第六特征图的优化结果的第八特征图,所述重构网络中的至少一个上采样反向投影模块的最后一个上采样反向投影模块获得的第八特征图作为所述重构图像;
其中,所述基于第五特征图与第七特征图之间的差值,获得作为第六特征图的优化结果的第八特征图,包括:
对第五特征图与第七特征图之间的差值执行优化,并基于优化的差值对第七特征图执行优化,获得优化的第七特征图;
对优化的第七特征图执行上采样和优化,获得第八特征图;
其中,所述对第五特征图与第七特征图之间的差值执行优化,并基于优化的差值对第七特征图执行优化,获得优化的第七特征图,包括:
将第五特征图和第七特征图相减得到第三差值特征图,
通过卷积操作来对第三差值特征图进行特征学习,
将特征学习后的第三差值特征图与被减的特征图相加得到相加后的特征图;
通过卷积操作来对所述相加后的特征图进行特征学习,得到所述优化的第七特征图;
其中,所述对优化的第七特征图执行上采样和优化,获得第八特征图,包括:
通过卷积操作来对所述优化的第七特征图进行上采样,并对上采样后的第七特征图进行特征提取,
通过卷积操作来对特征提取得到的特征图进行特征学习,得到第八特征图。
9.如权利要求8所述的图像解压方法,其特征在于,
所述基于第五特征图与第七特征图之间的差值,获得作为第六特征图的优化结果的第八特征图,还包括:
对获得的第八特征图与第六特征图之间的差值执行优化,并基于优化的差值对第六特征图执行优化,获得最终的第八特征图。
10.如权利要求8所述的图像解压方法,其特征在于,所述对第六特征图执行重构,获得与第五特征图相同分辨率的第七特征图,包括:
通过卷积操作来对第六特征图进行特征处理,
对特征处理后的第六特征图进行下采样变换,
通过卷积操作来对下采样变换后的第六特征图进行特征处理,以获得第七特征图。
11.如权利要求9所述的图像解压方法,其特征在于,所述对获得的第八特征图与第六特征图之间的差值执行优化,并基于优化的差值对获得的第八特征图执行优化,获得最终的第八特征图,包括:
将获得的第八特征图和第六特征图相减得到第四差值特征图;
通过卷积操作对第四差值特征图进行特征学习;
将特征学习后的第四差值特征图与被减的特征图相加得到相加后的特征图;
通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第七特征图。
12.如权利要求9所述的图像解压方法,其特征在于,所述对获得的第八特征图与第六特征图之间的差值执行优化,并基于优化的差值对获得的第八特征图执行优化,获得最终的第八特征图,包括:
将获得的第八特征图和第六特征图相减得到第四差值特征图,
通过卷积操作来对第四差值特征图进行特征学习,
通过注意力机制来对特征学习后的第四差值特征图进行特征提取,得到注意力分数,
将获得的第八特征图与所述注意力分数相乘,得到第三加权特征图,
将第六特征图与(1-所述注意力分数)相乘,得到第四加权特征图,
将第三加权特征图与第四加权特征图相加,得到加权特征图,
通过卷积操作对所述加权特征图进行特征学习,得到所述最终的第八特征图。
13.一种图像压缩装置,其特征在于,包括:
编码网络,被配置为:基于输入图像获得所述输入图像的隐变量,其中,所述编码网络是深度学习神经网络,所述编码网络包括至少一个下采样反向投影模块;
熵编码网络,被配置为:基于所述隐变量执行熵编码,获得压缩图像的比特流文件;
其中,所述下采样反向投影模块包括下采样模块、重构模块和优化模块;
其中,所述下采样模块被配置为:对输入到所述下采样模块的第一特征图进行下采样变换以获得第二特征图;
重构模块被配置为:对第二特征图执行重构,获得与第一特征图相同分辨率的第三特征图;
优化模块被配置为:基于第一特征图与第三特征图之间的差值,获得作为第二特征图的优化结果的第四特征图,其中,基于所述编码网络中的至少一个下采样反向投影模块的最后一个下采样反向投影模块的优化模块获得的第四特征图,得到所述隐变量;
其中,优化模块包括第一差值反馈子模块和下采样优化子模块,
其中,第一差值反馈子模块被配置为:
对第一特征图与第三特征图之间的差值执行优化,并基于优化的差值对第三特征图执行优化,获得优化的第三特征图;
下采样优化子模块被配置为:对优化的第三特征图执行下采样和优化,获得第四特征图;
其中,所述对第一特征图与第三特征图之间的差值执行优化,并基于优化的差值对第三特征图执行优化,获得优化的第三特征图,包括:
将第一特征图和第三特征图相减得到第一差值特征图;
通过卷积操作对第一差值特征图进行特征学习;
将特征学习后的第一差值特征图与被减的特征图相加得到相加后的特征图;
通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第三特征图;
其中,所述对优化的第三特征图执行下采样和优化,获得第四特征图,包括:
通过卷积操作对所述优化的第三特征图进行下采样,并对下采样后的第三特征图进行特征提取,
通过卷积操作对特征提取得到的特征图进行特征学习,得到第四特征图。
14.如权利要求13所述的图像压缩装置,其特征在于,优化模块还包括第二差值反馈子模块,被配置为:对获得的第四特征图与第二特征图之间的差值执行优化,并基于优化的差值对第二特征图执行优化,获得最终的第四特征图。
15.如权利要求13所述的图像压缩装置,其特征在于,重构模块被配置为:
通过卷积操作来对第二特征图进行特征处理;
对特征处理后的第二特征图进行上采样变换;
通过卷积操作来对上采样变换后的特征图进行特征处理,以获得第三特征图。
16.如权利要求14所述的图像压缩装置,其特征在于,第二差值反馈子模块被配置为:
将获得的第四特征图和第二特征图相减得到第二差值特征图;
通过卷积操作对第二差值特征图进行特征学习;
将特征学习后的第二差值特征图与被减的特征图相加得到相加后的特征图;
通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第三特征图。
17.如权利要求14所述的图像压缩装置,其特征在于,第二差值反馈子模块被配置为:
将获得的第四特征图和第二特征图相减得到第二差值特征图,
通过卷积操作来对第二差值特征图进行特征学习,
通过注意力机制来对特征学习后的第二差值特征图进行特征提取,得到注意力分数,
将获得的第四特征图与所述注意力分数相乘,得到第一加权特征图,
将第二特征图与(1-所述注意力分数)相乘,得到第二加权特征图,
将第一加权特征图与第二加权特征图相加,得到加权特征图,
通过卷积操作对所述加权特征图进行特征学习,得到所述最终的第四特征图。
18.如权利要求13至17中任意一项权利要求所述的图像压缩装置,其特征在于,所述图像压缩装置还包括:分频网络;所述编码网络包括高频编码子网络、低频编码子网络和融合网络,其中,所述高频编码子网络和所述低频编码子网络均包括所述至少一个下采样反向投影模块;
其中,所述分频网络被配置为:从所述输入图像提取高频分量和低频分量;
所述高频编码子网络被配置为:获得所述高频分量的隐变量,其中,基于所述高频编码子网络包括的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述高频分量的隐变量;
所述低频编码子网络被配置为:获得所述低频分量的隐变量,其中,基于所述低频编码子网络包括的至少一个下采样反向投影模块的最后一个下采样反向投影模块获得的第四特征图,得到所述低频分量的隐变量;
融合网络被配置为:将所述高频分量的隐变量和所述低频分量的隐变量融合,获得所述输入图像的隐变量。
19.如权利要求18所述的图像压缩装置,其特征在于,融合网络被配置为:对所述高频分量的隐变量和所述低频分量的隐变量拼接获得第一拼接隐变量;利用空间注意力机制,对第一拼接隐变量在通道方向上分别进行平均池化和最大池化,对该平均池化后的第一拼接隐变量和该最大池化后的第一拼接隐变量进行拼接获得第二拼接隐变量,并使用卷积操作计算所述第二拼接隐变量的空间注意力分数;利用通道注意力机制,对第一拼接隐变量在空间维度上进行池化,并使用卷积操作计算池化后的第一拼接隐变量的通道注意力分数;利用所述通道注意力分数和空间注意力分数对所述低频分量的隐变量加权,获得所述低频分量的加权隐变量;利用(1-通道注意力分数)和(1-空间注意力分数)对所述高频分量的隐变量加权,获得所述高频分量的加权隐变量;获得所述低频分量的加权隐变量与所述高频分量的加权隐变量之和,作为所述输入图像的隐变量。
20.一种图像解压装置,其特征在于,包括:
熵解码网络,被配置为:对压缩图像的比特流文件执行熵解码,获得隐变量;
重构网络,被配置为:基于所述隐变量,获得所述压缩图像的重构图像,其中,所述重构网络是深度学习神经网络,所述重构网络包括至少一个上采样反向投影模块;
其中,所述上采样反向投影模块包括上采样模块、重构模块和优化模块;
其中,上采样模块被配置为:对输入到所述上采样模块的第五特征图执行上采样变换,获得第六特征图;重构模块被配置为:对第六特征图执行重构,获得与第五特征图相同分辨率的第七特征图;优化模块被配置为:基于第五特征图与第七特征图之间的差值,获得作为第六特征图的优化结果的第八特征图,所述重构网络中的至少一个上采样反向投影模块的最后一个上采样反向投影模块的优化模块获得的第八特征图作为所述重构图像;
其中,优化模块包括第一差值反馈子模块和上采样优化子模块,
其中,第一差值反馈子模块被配置为:对第五特征图与第七特征图之间的差值执行优化,并基于优化的差值对第七特征图执行优化,获得优化的第七特征图;
上采样优化子模块被配置为:对优化的第七特征图执行上采样和优化,获得第八特征图;
其中,所述对第五特征图与第七特征图之间的差值执行优化,并基于优化的差值对第七特征图执行优化,获得优化的第七特征图,包括:
将第五特征图和第七特征图相减得到第三差值特征图,
通过卷积操作来对第三差值特征图进行特征学习,
将特征学习后的第三差值特征图与被减的特征图相加得到相加后的特征图;
通过卷积操作来对所述相加后的特征图进行特征学习,得到所述优化的第七特征图;
其中,所述对优化的第七特征图执行上采样和优化,获得第八特征图,包括:
通过卷积操作来对所述优化的第七特征图进行上采样,并对上采样后的第七特征图进行特征提取,
通过卷积操作来对特征提取得到的特征图进行特征学习,得到第八特征图。
21.如权利要求20所述的图像解压装置,其特征在于,优化模块还包括第二差值反馈子模块,被配置为:对获得的第八特征图与第六特征图之间的差值执行优化,并基于优化的差值对第八特征图执行优化,获得最终的第八特征图。
22.如权利要求20所述的图像解压装置,其特征在于,重构模块被配置为:通过卷积操作来对第六特征图进行特征处理;
对特征处理后的第六特征图进行下采样变换;
通过卷积操作来对下采样变换后的第六特征图进行特征处理,以获得第七特征图。
23.如权利要求21所述的图像解压装置,其特征在于,第二差值反馈子模块被配置为:将获得的第八特征图和第六特征图相减得到第四差值特征图;
通过卷积操作对第四差值特征图进行特征学习;
将特征学习后的第四差值特征图与被减的特征图相加得到相加后的特征图;
通过卷积操作对所述相加后的特征图进行特征学习,得到所述优化的第七特征图。
24.如权利要求21所述的图像解压装置,其特征在于,第二差值反馈子模块被配置为:将获得的第八特征图和第六特征图进行相减得到第四差值特征图;
通过卷积操作来对第四差值特征图进行特征学习;
通过注意力机制来对特征学习后的第四差值特征图进行特征提取,得到注意力分数;
将获得的第八特征图与所述注意力分数相乘,得到第三加权特征图;
将第六特征图与(1-所述注意力分数)相乘,得到第四加权特征图;
将第三加权特征图与第四加权特征图相加,得到加权特征图;
通过卷积操作来对所述加权特征图进行特征学习,得到所述最终的第八特征图。
25.一种电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储计算机可执行指令的存储器,
其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的图像压缩方法或者如权利要求8到12中的任一权利要求所述的图像解压方法。
26.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的图像压缩方法或者如权利要求8到12中的任一权利要求所述的图像解压方法。
CN202110231512.9A 2021-03-02 2021-03-02 图像压缩方法和图像压缩装置 Active CN113014927B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110231512.9A CN113014927B (zh) 2021-03-02 2021-03-02 图像压缩方法和图像压缩装置
KR1020220009943A KR20220124622A (ko) 2021-03-02 2022-01-24 이미지 압축 방법 및 이미지 압축 장치
US17/682,581 US20220286696A1 (en) 2021-03-02 2022-02-28 Image compression method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110231512.9A CN113014927B (zh) 2021-03-02 2021-03-02 图像压缩方法和图像压缩装置

Publications (2)

Publication Number Publication Date
CN113014927A CN113014927A (zh) 2021-06-22
CN113014927B true CN113014927B (zh) 2024-01-09

Family

ID=76402645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110231512.9A Active CN113014927B (zh) 2021-03-02 2021-03-02 图像压缩方法和图像压缩装置

Country Status (2)

Country Link
KR (1) KR20220124622A (zh)
CN (1) CN113014927B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11798197B2 (en) * 2021-03-12 2023-10-24 Qualcomm Incorporated Data compression with a multi-scale autoencoder
CN113409377B (zh) * 2021-06-23 2022-09-27 四川大学 一种基于跳跃连接式生成对抗网络的相位展开方法
CN113744169A (zh) * 2021-09-07 2021-12-03 讯飞智元信息科技有限公司 图像增强方法、装置、电子设备和存储介质
CN113920013B (zh) * 2021-10-14 2023-06-16 中国科学院深圳先进技术研究院 一种基于超分辨率的小图像多目标检测方法
CN114501034B (zh) * 2021-12-11 2023-08-04 同济大学 基于离散高斯混合超先验和Mask的图像压缩方法及介质
CN114095728B (zh) * 2022-01-21 2022-07-15 浙江大华技术股份有限公司 一种端到端的视频压缩方法、装置和计算机可读存储介质
KR20230115765A (ko) * 2022-01-27 2023-08-03 한국과학기술연구원 인공 지능을 이용하여 의료 영상에서 병변을 판단하는 방법 및 이를 수행하는 인공 지능 신경망 시스템
CN114598565A (zh) * 2022-05-10 2022-06-07 深圳市发掘科技有限公司 一种厨电设备远程控制系统、方法及计算机设备
CN115272140B (zh) * 2022-09-29 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 红外图像量化和增强方法、系统及存储介质
CN116385267A (zh) * 2023-03-29 2023-07-04 腾讯科技(深圳)有限公司 图像处理方法、装置、程序产品、计算机设备和存储介质
CN117336494B (zh) * 2023-12-01 2024-03-12 湖南大学 一种基于频域特征的双路径遥感影像压缩方法
CN117915107B (zh) * 2024-03-20 2024-05-17 北京智芯微电子科技有限公司 图像压缩系统、图像压缩方法、存储介质与芯片

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013254268A (ja) * 2012-06-05 2013-12-19 Jvc Kenwood Corp 画像処理装置および撮像装置
CN103607591A (zh) * 2013-10-28 2014-02-26 四川大学 结合超分辨率重建的图像压缩方法
CN107181949A (zh) * 2017-06-23 2017-09-19 四川大学 一种结合超分辨率和残差编码技术的图像压缩框架
CN110956671A (zh) * 2019-12-12 2020-04-03 电子科技大学 一种基于多尺度特征编码的图像压缩方法
CN111681166A (zh) * 2020-06-02 2020-09-18 重庆理工大学 一种堆叠注意力机制编解码单元的图像超分辨率重建方法
CN112330542A (zh) * 2020-11-18 2021-02-05 重庆邮电大学 基于crcsan网络的图像重建系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014105385A1 (en) * 2012-12-27 2014-07-03 The Regents Of The University Of California Anamorphic stretch image compression
US10944996B2 (en) * 2019-08-19 2021-03-09 Intel Corporation Visual quality optimized video compression

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013254268A (ja) * 2012-06-05 2013-12-19 Jvc Kenwood Corp 画像処理装置および撮像装置
CN103607591A (zh) * 2013-10-28 2014-02-26 四川大学 结合超分辨率重建的图像压缩方法
CN107181949A (zh) * 2017-06-23 2017-09-19 四川大学 一种结合超分辨率和残差编码技术的图像压缩框架
CN110956671A (zh) * 2019-12-12 2020-04-03 电子科技大学 一种基于多尺度特征编码的图像压缩方法
CN111681166A (zh) * 2020-06-02 2020-09-18 重庆理工大学 一种堆叠注意力机制编解码单元的图像超分辨率重建方法
CN112330542A (zh) * 2020-11-18 2021-02-05 重庆邮电大学 基于crcsan网络的图像重建系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Deep Back-Projection Networks For Super-Resolution;Haris et al;Computer Vision Foundation;1-10 *

Also Published As

Publication number Publication date
CN113014927A (zh) 2021-06-22
KR20220124622A (ko) 2022-09-14

Similar Documents

Publication Publication Date Title
CN113014927B (zh) 图像压缩方法和图像压缩装置
EP3714424A1 (en) Frame-recurrent video super-resolution
US20220286696A1 (en) Image compression method and apparatus
EP3721628B1 (en) Processing signal data using an upsampling adjuster
CN114008663A (zh) 实时视频超分辨率
WO2011092696A1 (en) Method and system for generating an output image of increased pixel resolution from an input image
Singh et al. Survey on single image based super-resolution—implementation challenges and solutions
Rajput et al. A robust facial image super-resolution model via mirror-patch based neighbor representation
Mikaeli et al. Single-image super-resolution via patch-based and group-based local smoothness modeling
Yang et al. Variation learning guided convolutional network for image interpolation
CN115115512A (zh) 一种图像超分网络的训练方法及装置
Zhao et al. Image super‐resolution via adaptive sparse representation and self‐learning
CN116188272B (zh) 适用于多模糊核的两阶段深度网络图像超分辨率重建方法
Wang et al. Image super-resolution method based on attention aggregation hierarchy feature
CN112801883A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
Haris et al. An efficient super resolution based on image dimensionality reduction using accumulative intensity gradient
Wu et al. Wavelet Domain Multidictionary Learning for Single Image Super‐Resolution
CN114008661A (zh) 图像处理方法、装置及其计算机程序产品
Valli Bhasha et al. Image super resolution model enabled by wavelet lifting with optimized deep convolutional neural network
CN112581362A (zh) 用于调整图像细节的图像处理方法和装置
US20240007631A1 (en) Method and data processing system for lossy image or video encoding, transmission and decoding
KR102624154B1 (ko) 이미지 복원 방법 및 장치
CN116168093A (zh) 图像特征变换处理的方法、图像编码方法、图像解码方法
Ye et al. Learning multi-granularity semantic interactive representation for joint low-light image enhancement and super-resolution
CN114170078A (zh) 基于图神经网络的双目图像超分辨率方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant