CN116614627A - 深度学习图像压缩方法及其内容自适应上下文提取方法 - Google Patents
深度学习图像压缩方法及其内容自适应上下文提取方法 Download PDFInfo
- Publication number
- CN116614627A CN116614627A CN202310593759.4A CN202310593759A CN116614627A CN 116614627 A CN116614627 A CN 116614627A CN 202310593759 A CN202310593759 A CN 202310593759A CN 116614627 A CN116614627 A CN 116614627A
- Authority
- CN
- China
- Prior art keywords
- anchor
- anchor point
- hidden variable
- mask
- quantized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 163
- 230000006835 compression Effects 0.000 title claims abstract description 85
- 238000007906 compression Methods 0.000 title claims abstract description 85
- 238000013135 deep learning Methods 0.000 title claims abstract description 66
- 238000000605 extraction Methods 0.000 title claims abstract description 66
- 238000009826 distribution Methods 0.000 claims abstract description 114
- 230000008569 process Effects 0.000 claims description 74
- 230000003044 adaptive effect Effects 0.000 claims description 63
- 238000013139 quantization Methods 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 8
- 238000007667 floating Methods 0.000 claims description 5
- 230000036961 partial effect Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 101000829705 Methanopyrus kandleri (strain AV19 / DSM 6324 / JCM 9639 / NBRC 100938) Thermosome subunit Proteins 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 239000013625 clathrin-independent carrier Substances 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012677 causal agent Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提供了一种深度学习图像压缩方法及其内容自适应上下文提取方法及系统,其中内容自适应上下文提取方法采用两遍编码方法,得到隐变量后,在第一遍编码时提取出内容自适应的锚点,在第二遍编码时从内容自适应的锚点提取上下文信息作为辅助预测信息,用于剩余隐变量的编码;利用分布预测标准差对隐变量不同区域的复杂度进行判断;通过掩膜操作提取出内容自适应分布的锚点位置,并从其中计算上下文信息用于第二遍编码;将两遍编码的结果合并后,输入到解码器得到重建图像。本发明实现了更加高效的参考锚点的选取方案,能够在增加可忽略的计算复杂度的情况下提升整体压缩性能。
Description
技术领域
本发明涉及基于深度学习端到端图像压缩技术领域,具体地,涉及一种深度学习图像压缩方法及其内容自适应上下文提取方法,同时提供了一种相应的系统、计算机终端及计算机可读存储介质。
背景技术
图像压缩是信号处理和计算机视觉中的一项基本任务。互联网上图像通信的增长导致了对具有更高压缩效率和更低编码延迟的方法的搜索。图像压缩的目的是通过减少空间和统计上的冗余,将图像从像素域转换成紧凑的表示。传统的图像压缩方法,如JPEG、JPEG2000和BPG,通常使用手工设计的模块,包括线性变换、量化和熵编码。
如今,基于深度学习的图像处理技术的发展显示出巨大的潜力。越来越多的将深度学习应用于有损图像压缩的尝试已经出现。基于变分自动编码器(VAE)的架构,将像素非线性地转换为隐变量,并在熵模型中压缩量化后的隐变量,已经被许多后续的学习压缩方法所采用。许多研究旨在通过使用更复杂的熵模型或更强大的变换网络来提高压缩效率。并已有研究达到了比目前压缩效率最高的传统图像压缩方法,即VVC帧内编码,能够获得更好的压缩性能。
基于深度学习端到端图像压缩的关键之一是通过熵模型对隐变量中每个位置的概率分布进行建模。如果概率分布的建模足够精确,预测和实际隐变量分布之间的交叉熵就可以进一步减少,从而减少熵编码所需的比特数。熵模型通常使用超先验模型与因果的上下文来协助隐变量的概率预测和建模。
对于空间上下文信息,许多方法以串行自回归方式从先前已解码的隐变量中提取,这种串行操作存在着频繁的数据交换以及多次调用熵编码过程,导致耗时较大。为了解决这个问题,两遍编码的棋盘格上下文模型(CCM)可以解决这个问题,只使用两遍并行的编码来解决大量串行操作耗时的问题。在棋盘格上下文模型中,隐变量在空间维度上以棋盘格方式分为两组,其中一半为锚点,另一半为非锚点。第一遍解码的锚点被用来为第二遍的非锚点编码提供上下文信息。
而在CCM中,简单区域和复杂区域的隐变量的锚点选择策略是固定的。然而,简单区域的隐变量分布是相似的。与复杂区域相比,简单区域中的非锚点只需要较少的锚点来提取上下文。原本的棋盘格上下文模型不能很好地适应隐变量的不同内容。在简单区域的锚点选择中存在冗余。由于锚点的编码只能参考超先验信息,不能使用空间上下文信息,所以冗余的锚点会降低整体的压缩效率。
经过检索发现:
公开号为CN114501034A的中国发明专利申请《基于离散高斯混合超先验和Mask的图像压缩方法及介质》,对待压缩图像进行预处理,获得预处理图像;提取所述预处理图像的特征图,同时基于所述预处理图像的空间特征信息,生成Mask值,将所述特征图和Mask值进行点乘处理,获得隐变量表征;采用多个高斯分布提取隐变量表征的分布情况,生成离散高斯混合超先验值;对所述隐变量表征进行量化,基于所述超先验值对量化后的隐变量表征进行熵编码压缩,获得压缩图像的编码信息;基于所述压缩图像的编码信息解码获得重构图像。该方法具有如下技术问题:
该图像压缩方法,其中的上下文模型为自回归方式,需要从左上方已解码的隐变量中提取上下文。因而在每一遍编码时只能解码当前位置处的隐变量,需要串行进行隐变量的宽乘高次数的解码过程,解码的延时和复杂度非常高。
发明内容
本发明针对现有技术中存在的上述不足,提供了一种深度学习图像压缩方法及其内容自适应上下文提取方法,同时提供了一种相应的系统、计算机终端及计算机可读存储介质。
根据本发明的一个方面,提供了一种用于深度学习图像压缩的内容自适应上下文提取方法,其特征在于,包括:第一遍编码过程和第二遍编码过程;其中:
所述第一遍编码过程,包括:
对于输入图像,将其非线性变换到隐变量后,对所述隐变量进行简单区域和复杂区域的划分,并以此得到记录简单区域位置的掩膜Msimple,随后对所述隐变量进行量化操作得到量化后的隐变量
使用所述掩膜Msimple从量化后的隐变量的简单区域中提取出非锚点/>的位置,并根据所述非锚点/>的位置的索引找到每一个简单区域非锚点的左上位置,将该位置设置为伪锚点/>并使用另一个掩膜Mpa对所述伪锚点/>的位置进行记录;
采用棋盘格分布的掩膜Mckbd,从其中减掉掩膜Mpa,得到自适应于当前输入图像的锚点位置的掩膜Ma;使用所述掩膜Ma从所述量化后的隐变量中提取得到锚点/>该过程中熵解码得到的锚点/>被保存用于第二遍编码中的上下文信息提取;
所述第二遍编码过程,包括:
基于所述第一遍编码过程中解码得到的锚点提取上下文信息,完成深度学习图像压缩中的内容自适应上下文提取。
优选地,所述对所述隐变量进行简单区域和复杂区域的划分,并以此得到记录简单区域位置的掩膜Msimple,包括:
获取所述隐变量的分布预测参数,所述分布预测参数包括:分布预测均值和分布预测标准差;
基于所述分布预测标准差,对所述隐变量进行简单区域和复杂区域的划分:
当所述预测标准差小于设定阈值时,判断该部分区域为简单区域,使用掩膜Msimple进行记录,其中,掩膜Msimple中为1的位置即表明该位置属于简单区域;
否则,该部分区域为复杂区域。
优选地,所述根据所述非锚点的位置的索引找到每一个简单区域非锚点的左上位置,包括:
根据所述掩膜Msimple中记录的简单区域的位置,找到非锚点的位置分布,并使用掩膜Mna进行保存,并根据所述掩膜Mna中记录的所述非锚点/>的位置的索引,将每一个简单区域中非锚点的左上位置设为伪锚点/>并将所述伪锚点/>的位置设定为1,采用掩膜Mpa进行记录;
和/或
所述棋盘格分布的掩膜Mckbd,采用0与1按照棋盘格分布的结构;将所述棋盘格分布的掩膜Mckbd减去记录伪锚点位置的掩膜Mpa,得到自适应于当前输入图像的锚点位置的锚点分布掩膜,即为掩膜Ma;对于去除的伪锚点/>的空缺位置,从所述隐变量的分布预测均值中提取非锚点位置部分的值,并将其填入至所述空缺位置中;
所述掩膜Ma与所述量化后的隐变量做对应元素相乘,提取得到第二遍编码过程中所需的自适应锚点/>
优选地,所述第二遍编码过程中,基于所述第一遍编码过程中熵解码得到的锚点提取上下文信息,包括:
采用卷积网络构建上下文模型为:
其中,gcm(·)表示上下文模型,为第一遍编码中熵解码得到的锚点,μ1为隐变量的分布预测均值,Msimple为掩膜Msimple,记录简单区域非锚点的位置,⊙为对应元素相乘操作;
从已解码的锚点和简单区域中隐变量的分布预测均值中提取出内容自适应上下文信息,完成深度学习图像压缩中的内容自适应上下文提取。
根据本发明的另一个方面,提供了一种用于深度学习图像压缩的内容自适应上下文提取系统,包括:第一遍编码模块和第二遍编码模块;其中:
所述第一遍编码模块,包括:
区域划分单元,该单元用于对于输入图像,将其非线性变换到隐变量后,对所述隐变量进行简单区域和复杂区域的划分,并以此得到记录简单区域位置的掩膜Msimole,随后对所述隐变量进行量化操作得到量化后的隐变量
非锚点和伪锚点设定单元,该单元使用所述掩膜Msimple从量化后的隐变量的简单区域中提取出非锚点/>的位置,并根据所述非锚点/>的位置的索引找到每一个简单区域非锚点的左上位置,将该位置设置为伪锚点/>并使用另一个掩膜Mpa对所述伪锚点/>的位置进行记录;
锚点设定单元,该单元采用棋盘格分布的掩膜Mckbd,从其中减掉掩膜Mpa,得到自适应于当前输入图像的锚点位置的掩膜Ma;使用所述掩膜Ma从所述量化后的隐变量中提取得到锚点/>该过程中熵解码得到的锚点/>被保存用于第二遍编码中的上下文信息提取;
所述第二遍编码模块,包括:
上下文提取单元,该单元基于所述第一遍编码过程中解码得到的锚点提取上下文信息,完成深度学习图像压缩中的内容自适应上下文提取。
根据本发明的第三个方面,提供了一种深度学习图像压缩方法,包括:
基于深度学习的编码器读入输入图像x,将所述输入图像x非线性变换为隐变量y;将所述隐变量y输入到超先验编码器中,得到需要传输的超先验码流并经过超先验解码器得到包含隐变量结构信息的超先验信息;
对得到的所述隐变量y进行量化操作得到量化后的隐变量
提取内容自适应上下文信息,根据所述内容自适应上下文信息获取所述量化后的隐变量进行分布预测参数,并根据所述分布预测参数对所述量化后的隐变量/>进行熵编码,得到量化后隐变量的码流;
根据所述分布预测参数进行熵解码,从所述量化后隐变量的码流中得到量化后的隐变量对所述量化后的隐变量/>进行重建,得到重建后的图像/>完成图像压缩;
其中,所述提取内容自适应上下文信息采用权利要求1-5中任一项所述的内容自适应上下文提取方法,其中:
所述第一遍编码过程对所述量化后的隐变量进行简单区域和复杂区域的划分,并将所述量化后的隐变量/>分为锚点/>伪锚点/>和非锚点/>其中,所述锚点/>用于在第二遍编码过程中提取上下文信息,所述第二遍编码过程中提取的所述上下文信息用于进行概率分布预测,获得的概率分布预测参数用于对所述伪锚点/>和非锚点/>进行熵编码和熵解码。
优选地,采用任意一种基于深度学习的端到端图像编码器,将输入图像x非线性变换为隐变量y,所述隐变量y输入到任意一种实现方式的超先验编码器中,得到包含隐变量结构信息的超先验信息;其中,所述隐变量结构信息包括对隐变量初步预测的参数(μ,σ),即高斯分布的均值μ和标准差σ。
优选地,采用标量量化或矢量量化的量化方式,将隐变量y从浮点数转化为能够进行无损熵编码的整型数,完成量化操作,得到量化后的隐变量
优选地,在所述第一遍编码过程中,不使用空间上下文信息,通过超先验信息或通道维度的上下文信息,获取隐变量的分布预测参数。
优选地,在所述第二遍编码过程中,基于所述锚点提取得到的内容自适应上下文信息作为所述伪锚点/>和非锚点/>的概率分布预测过程的参考信息。
优选地,根据所述分布预测参数,从码流中熵解码得到锚点伪锚点/>以及非锚点/>这三部分,将这三部分相加组合在一起得到量化后的隐变量/>将其输入到解码器得到最终的重建图像/>完成图像压缩。
根据本发明的第四个方面,提供了一种深度学习图像压缩系统,包括:
输入图像处理模块,该模块基于深度学习的编码器读入输入图像x,将所述输入图像x非线性变换为隐变量y;将所述隐变量y输入到超先验编码器中,得到需要传输的超先验码流并经过超先验解码器得到包含隐变量结构信息的超先验信息;
量化模块,该模块用于对得到的所述隐变量y进行量化操作得到量化后的隐变量
上下文提取模块,该模块用于提取内容自适应上下文信息,根据所述内容自适应上下文信息获取所述量化后的隐变量进行分布预测参数,并根据所述分布预测参数对所述量化后的隐变量/>进行熵编码,得到量化后隐变量的码流;根据所述分布预测参数进行熵解码,从所述量化后隐变量的码流中得到量化后的隐变量/>对所述量化后的隐变量/>进行重建,得到重建后的图像/>完成图像压缩;
其中,所述上下文提取模块采用上述中任一项所述的内容自适应上下文提取方法;其中:
所述第一遍编码过程对所述量化后的隐变量进行简单区域和复杂区域的划分,并将所述量化后的隐变量/>分为锚点/>伪锚点/>和非锚点/>其中,所述锚点/>用于在第二遍编码过程中提取上下文信息,所述第二遍编码过程中提取的所述上下文信息用于进行概率分布预测,获得的概率分布预测参数用于对所述伪锚点/>和非锚点/>进行熵编码和熵解码。
根据本发明的第五个方面,提供了一种计算机终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述中任一项所述的内容自适应上下文提取方法,或,执行上述中任一项所述的深度学习图像压缩方法。
根据本发明的第六个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述中任一项所述的内容自适应上下文提取方法,或,执行上述中任一项所述的深度学习图像压缩方法。
由于采用了上述技术方案,本发明与现有技术相比,具有如下至少一项的有益效果:
本发明提供的深度学习图像压缩方法及其内容自适应上下文提取方法及系统,采用的内容自适应上下文提取技术,能够提升深度学习图像压缩模型的压缩性能,并只带来较少的额外计算量,编解码延时基本不增加。
本发明提供的深度学习图像压缩方法及其内容自适应上下文提取方法及系统,可以利用隐变量的分布预测标准差,判断图像经过深度学习编码器变换后的隐变量的复杂度,并依据此决定简单区域和复杂区域的锚点数量,从而消除冗余的锚点,提高上下文信息的利用率,进而带来整体压缩性能的提升。
本发明提供的深度学习图像压缩方法及其内容自适应上下文提取方法及系统,根据隐变量的内容特性,消除冗余的锚点,使得使用上下文信息辅助编码的隐变量位置提高,提升整体的压缩效率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中内容自适应上下文提取方法的工作流程图。
图2为本发明一优选实施例中内容自适应上下文信息的提取过程流程图。
图3为本发明一优选实施例中自适应上下文提取中的解码过程示意图。
图4为本发明一实施例中内容自适应上下文提取系统的组成模块示意图。
图5为本发明一实施例中深度学习图像压缩方法的工作流程图。
图6为本发明一优选实施例中应用内容自适应上下文提取方法的深度学习图像压缩方法的流程示意图。
图7为本发明一优选实施例中应用内容自适应上下文信息提取方法的深度学习图像压缩方法的压缩方案示意图。
图8为本发明一实施例中深度学习图像压缩系统的组成模块示意图。
图9为应用本发明优选实施例提供的内容自适应上下文方法的端到端图像压缩模型与应用原始的棋盘格上下文模型方法的码率-失真曲线对比图;其中,(a)为Kodak数据集上的测试结果,(b)为CLIC数据集上的测试结果。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
本发明一实施例提供了一种用于深度学习端到端图像压缩的内容自适应上下文提取方法。
如图1所示,该方法包括:第一遍编码过程和第二遍编码过程;其中:
S1,第一遍编码过程,包括:
S11,对于输入图像,将其非线性变换到隐变量后,对隐变量进行简单区域和复杂区域的划分,并以此得到记录简单区域位置的掩膜Msimple,随后对隐变量进行量化操作得到量化后的隐变量
S12,使用掩膜Msimple从量化后的隐变量的简单区域中提取出非锚点/>的位置,并根据非锚点/>的位置的索引找到每一个简单区域非锚点的左上位置,将该位置设置为伪锚点/>并使用另一个掩膜Mpa对伪锚点/>的位置进行记录;
S13,采用棋盘格分布的掩膜Mckbd,从其中减掉掩膜Mpa,得到此时针对当前输入图像(即自适应于当前输入图像)的锚点位置的掩膜Ma;使用掩膜Ma从量化后的隐变量中提取得到锚点/>该过程中熵解码得到的锚点/>被保存用于第二遍编码中的上下文信息提取;
S2,第二遍编码过程,包括:
S21,基于第一遍编码过程中解码得到的锚点提取上下文信息,完成深度学习图像压缩中的内容自适应上下文提取。
下面结合一优选实施例,对本发明上述实施例提供的技术方案进一步说明。
如图2所示,该优选实施例提供的用于深度学习图像压缩的内容自适应上下文提取方法,包括:
S1,第一遍编码过程:
S11:对于深度学习端到端图像压缩方法中待编码的隐变量,根据对对隐变量分布的熵的预测情况,得到记录简单区域位置的掩膜Msimple,随后对隐变量进行量化操作得到量化后的隐变量用于后续的上下文提取过程;
S12:使用掩膜Msimple从量化后的隐变量的简单区域中提取出非锚点/>的位置,并根据非锚点/>的位置的索引找到每一个简单区域非锚点的左上位置,将其设置为伪锚点/>并再使用另一个掩膜Mpa对为伪锚点/>的位置进行记录;
S13:采用棋盘格分布的掩膜Mckbd,从其中减掉掩膜Mpa,得到自适应于当前输入图像的锚点位置的掩膜Ma;根据锚点位置的掩膜Ma从隐变量中提取得到锚点/>并且不使用空间上下文来对其进行熵编码,锚点/>将被保存用于之后第二遍编码中的上下文信息提取;
S2,第二遍编码过程:
S21:使用简单的卷积网络从内容自适应锚点提取上下文信息,完成深度学习图像压缩中的内容自适应上下文提取;由于此时锚点的分布不是固定的,在一优选实施例中可以使用普通的卷积操作进行上下文提取。
在S11的一优选实施例中,对隐变量进行简单区域和复杂区域的划分(复杂度分布的预测),并以此得到记录简单区域位置的掩膜Msimple,包括:
(可以基于超先验信息)得到隐变量的分布预测参数,分布预测参数包括:分布预测均值和分布预测标准差;
当分布预测标准差小于设定阈值时,判断该部分区域为简单区域,使用掩膜Msimple进行记录,其中,掩膜Msimple中为1的位置即表明该位置属于简单区域。
在S12的一优选实施例中,根据掩膜Msimple中记录的简单区域的位置,找到非锚点的位置分布,使用掩膜Mna进行保存,并根据掩膜Mna中记录的简单区域非锚点/>的位置的索引的位置,将每一个简单区域非锚点左上位置设为伪锚点/>并将伪锚点的位置设定为1,采用掩膜Mpa进行记录。
在S13的一优选实施例中,棋盘格分布的掩膜Mckbd,采用0与1按照棋盘格分布的结构;将棋盘格分布的掩膜Mckbd减去记录伪锚点位置的掩膜Mpa,得到自适应于当前输入图像的锚点位置的锚点分布掩膜,即为掩膜Ma;并在去除的伪锚点的空缺位置填充上第一遍编码时预测得到的分布预测均值(邻近非锚点的预测均值信息),掩膜Ma与量化后的隐变量做对应元素相乘得到内容自适应的锚点。将其在第一遍编码中进行熵编解码,并用于第二遍编码的上下文提取过程。
自适应上下文提取中的解码过程,如图3所示。
在S21的一优选实施例中,采用卷积网络构建上下文模型为:
其中,gcm(·)表示上下文模型,为第一遍编码中熵解码得到的锚点,μ1为隐变量的分布预测均值,Msimple为掩膜Msimple,记录简单区域非锚点的位置,⊙为对应元素相乘操作;
从已解码的锚点和第一遍编码中简单区域中非锚点的分布预测均值中提取上下文信息,完成深度学习图像压缩中的内容自适应上下文提取,该内容自适应上下文用于第二遍编码过程中的概率分布预测过程
本发明一实施例提供了一种用于深度学习图像压缩的内容自适应上下文提取系统。
如图4所示,该实施例提供的内容自适应上下文提取系统,包括:第一遍编码模块和第二遍编码模块;其中:
第一遍编码模块,包括:
区域划分单元,该单元用于对于输入图像,将其非线性变换到隐变量后,对隐变量进行简单区域和复杂区域的划分,并以此得到记录简单区域位置的掩膜Msimple,随后对隐变量进行量化操作得到量化后的隐变量
非锚点和伪锚点设定单元,该单元使用掩膜Msimple从量化后的隐变量的简单区域中提取出非锚点/>的位置,并根据非锚点/>的位置的索引找到每一个简单区域非锚点的左上位置,将该位置设置为伪锚点/>并使用另一个掩膜Mpa对伪锚点/>的位置进行记录;
锚点设定单元,该单元采用棋盘格分布的掩膜Mckbd,从其中减掉掩膜Mpa,得到此时针对当前输入图像(即自适应于当前输入图像)的锚点位置的掩膜Ma;使用掩膜Ma从量化后的隐变量中提取得到锚点/>该过程中熵解码得到的锚点/>被保存用于第二遍编码中的上下文信息提取;
第二遍编码模块,包括:
上下文提取单元,该单元基于第一遍编码过程中解码得到的锚点提取上下文信息,完成深度学习图像压缩中的内容自适应上下文提取。
需要说明的是,本发明提供的内容自适应上下文提取方法中的步骤,可以利用内容自适应上下文提取系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照方法的技术方案实现系统的组成,即,方法中的实施例可理解为构建系统的优选例,在此不予赘述。
本发明一实施例提供了一种深度学习端到端图像压缩方法。
如图5所示,该深度学习端到端图像压缩方法包括:
M1,基于深度学习的编码器读入输入图像x,将输入图像x非线性变换为隐变量y;将隐变量y输入到超先验编码器中,得到需要传输的超先验码流并经过超先验解码器得到包含隐变量结构信息的超先验信息;
M2,对得到的隐变量y进行量化操作得到量化后的隐变量该量化后的隐变量/>由浮点数变为整型数,作为需要进行熵编码的数据;
M3,提取内容自适应上下文信息,根据内容自适应上下文信息获取量化后的隐变量进行分布预测参数,并根据分布预测参数对量化后的隐变量/>进行熵编码,得到量化后隐变量的码流;
M4,根据分布预测参数进行熵解码,从量化后隐变量的码流中得到量化后的隐变量对量化后的隐变量/>进行重建,得到重建后的图像/>完成图像压缩;
其中,提取内容自适应上下文信息采用本发明上述实施例中任一项内容自适应上下文提取方法,或者,本发明上述实施例中任一项内容自适应上下文提取系统,其中:
第一遍编码过程对量化后的隐变量进行简单区域和复杂区域的划分,并将量化后的隐变量/>分为锚点/>伪锚点/>和非锚点/>其中,锚点/>用于在第二遍编码过程中提取上下文信息,第二遍编码过程中提取的上下文信息用于进行概率分布预测,获得的概率分布预测参数用于对伪锚点/>和非锚点/>进行熵编码和熵解码。
下面结合一优选实施例,对本发明上述实施例提供的技术方案进一步说明。
如图6所示,该优选实施例提供的深度学习端到端图像压缩方法,包括:
M1:基于深度学习的编码器读入输入图像x,将其非线性变换为隐变量y。隐变量y再输入到一个超先验编码器中,得到需要传输的超先验码流并,并经过超先验解码器重建得到包含隐变量结构信息的超先验信息。
M2:对非线性变换得到的隐变量y进行量化操作得到量化后的隐变量量化后的隐变量从浮点数变为整型数,并作为需要进行熵编码的数据。
M3:应用两遍编码方法,基于量化后的隐变量提取上下文信息的方法,根据内容自适应上下文信息获取量化后的隐变量/>进行分布预测参数,并根据分布预测参数对量化后的隐变量/>进行熵编码,得到量化后隐变量的码流。其中,第一遍编码过程对量化后的隐变量/>进行简单区域和复杂区域的划分,并将量化后的隐变量/>分为锚点/>伪锚点/>和非锚点/>其中,锚点/>用于在第二遍编码过程中提取上下文信息,第二遍编码过程中提取的上下文信息用于进行概率分布预测,获得的概率分布预测参数用于对伪锚点/>和非锚点/>进行熵编码和熵解码。
M4:根据分布预测参数,可以从码流中熵解码得到锚点非锚点/>和伪锚点/>将这三部分组合在一起后,得到量化后的隐变量/>将其输入到解码器中得到最终的重建图像/>
在M1的一优选实施例中,可以使用任一基于深度学习的端到端图像编码器,将输入图像非线性变换为隐变量y。隐变量y输入到任一实现方式的超先验编解码器中,得到超先验信息。其中,隐变量结构信息包括对隐变量初步预测的参数(μ,σ),即高斯分布的均值μ和标准差σ。
在M2的一优选实施例中,可以采用标量量化或是矢量量化等不同的量化方式,将隐变量从浮点数转化为可以进行无损熵编码的整型数,完成量化操作,得到量化后的隐变量
在M3的一优选实施例中,在第一遍编码过程中,不使用空间上下文信息,通过超先验信息或通道维度的上下文信息,获取隐变量的分布预测参数。
在M3的一优选实施例中,在第二遍编码过程中,基于锚点提取得到的内容自适应上下文信息作为伪锚点/>和非锚点/>的概率分布预测过程的参考信息。
进一步地,在M3中,在熵编码中概率预测分布预测过程中,使用上述内容自适应的提取上下文方法进行空域上下文的计算。隐变量被分为锚点伪锚点/>以及非锚点/>三部分。上下文信息从已解码的隐变量中提取得到,将其作为锚点/>作为其余部分隐变量的概率分布预测过程的参考信息。通过使用超先验信息以及非空间维度(第一遍编码中得到的分布预测参数的可选输入)的上下文信息,将隐变量划分为简单区域和复杂区域。简单区域中将冗余的锚点去除作为伪锚点/>进而实现在简单区域使用较少的空域上的参考点,而在复杂区域则使用棋盘格间隔分布的稠密的参考点分布。
在M4的一优选实施例中,编解码端都可以进行上述概率分布预测过程,并根据预测的概率分布参数,从码流中熵解码得到锚点伪锚点/>以及非锚点/>这三部分。将这三部分相加组合在一起得到量化后的隐变量/>将其输入到解码器得到最终的重建图像/>
如图7所示,为本发明实施例的应用内容自适应上下文信息提取方法的端到端深度学习图像压缩方案示意图。在该方案中,对于待编码压缩的图像,通过编码器非线性变换为隐变量后,对于量化后需要进行熵编码传输的隐变量,采用两遍编码的方式,利用第一遍编码的结果,从中提取内容自适应的上下文用于辅助剩余隐变量的熵编码过程。最后将从码流中熵解码得到的不同部分组合在一起输入到解码器得到重建图像。
本发明一实施例提供了一种深度学习图像压缩系统。
如图8所示,该实施例提供的深度学习图像压缩系统,包括:
输入图像处理模块,该模块基于深度学习的编码器读入输入图像x,将输入图像x非线性变换为隐变量y;将隐变量y输入到超先验编码器中,得到需要传输的超先验码流并经过超先验解码器得到包含隐变量结构信息的超先验信息;
量化模块,该模块用于对得到的隐变量y进行量化操作得到量化后的隐变量
上下文提取模块,该模块用于提取内容自适应上下文信息,根据内容自适应上下文信息获取量化后的隐变量进行分布预测参数,并根据分布预测参数对量化后的隐变量/>进行熵编码,得到量化后隐变量的码流;根据分布预测参数进行熵解码,从量化后隐变量的码流中得到量化后的隐变量/>对量化后的隐变量/>进行重建,得到重建后的图像/>完成图像压缩;
其中,上下文提取模块采用本发明上述实施例中任一项内容自适应上下文提取方法;其中:
第一遍编码过程对量化后的隐变量进行简单区域和复杂区域的划分,并将量化后的隐变量/>分为锚点/>伪锚点/>和非锚点/>其中,锚点/>用于在第二遍编码过程中提取上下文信息,第二遍编码过程中提取的上下文信息用于进行概率分布预测,获得的概率分布预测参数用于对伪锚点/>和非锚点/>进行熵编码和熵解码。
需要说明的是,本发明提供的深度学习图像压缩方法中的步骤,可以利用深度学习图像压缩系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照方法的技术方案实现系统的组成,即,方法中的实施例可理解为构建系统的优选例,在此不予赘述。
在本发明上述实施例提供的技术方案中,针对输入图像,本发明可以使用任一基于深度学习端到端图像压缩方法的编解码器将x变换为隐变量y。在对隐变量进行熵编码的过程中,使用两遍编码的方式可以兼顾压缩性能与解码延时。第一遍编码的过程中处理锚点,作为提取上下文信息的参考点;第二编码编码时则从第一遍已完成编码的锚点中提取上下文信息,用于预测剩余位置隐变量的概率分布,提高非锚点的编码效率。两遍编码的内部计算可以并行进行,因此对于编解码延时的影响是可以接受的。
本发明上述实施例提供的技术方案中,针对提取上下文信息的过程进行了改进,其中,根据第一遍编码中获取的分布预测参数,对隐变量的简单区域和复杂区域进行划分。输入图像x经过图像编码器后得到隐变量y,隐变量y再通过一个超先验编码器得到超先验信息h。通过超先验信息h或非空间维度的上下文(即分布预测参数的可选输入),可以得到对隐变量分布的均值和方差的估计值。
隐变量的熵的大小即在熵编码过程中编码时所需要的码率大小,可以较好的反应编码内容的复杂度。典型的,在使用高斯分布对作为隐变量的先验分布时,预测标准差的大小可以直接反应熵的大小,也即内容复杂度情况。通过比较预测标准差和预先设定的阈值大小,将隐变量划分成简单区域和复杂区域,并将简单区域的位置使用掩膜Msimple进行记录。
根据简单区域和复杂区域的位置,可以分配不同密度的参考点数量。对于复杂区域,使用棋盘格形式的锚点分布,每一非锚点的上下左右四个位置为锚点。而对于简单区域,每一非锚点只有其右上位置为锚点,其左上位置为伪锚点。伪锚点的编码也可以使用上下文信息辅助概率分布预测。简单区域中没有上下文信息辅助编码的锚点分布相比于复杂区域更为稀疏。
在针对量化后隐变量的熵编码过程中,采用两遍并行编码的方式。第一遍先对锚点/>进行编码,第二遍则对剩余伪锚点/>非锚点/>进行编码。在第一遍编码过程中,概率分布的预测过程不能使用空间上下文信息,只能使用解码得到的超先验信息以及可选的通道上下文来对锚点进行编解码。此时非锚点的分布参数φa由如下公式计算得到:
公式中,gep为分布参数预测模型,为解码后的超先验信息,0代表空间上下文的输入为空。
在第二遍编码中,此时解码完成的锚点已经可用,使用卷积网络从锚点提取上下文信息,并将其用于辅助剩余隐变量的熵编码的分布预测中。非锚点/>与伪锚点/>的分布预测参数计算过程如下公式所示。
φna=φ2-p⊙(1-Ma-Mpa)
φpa=φ2-pas⊙Mpa
第二遍编码中分布预测参数φ2-p过程中,除了使用解码后的超先验信息外,还可以从解码后的锚点/>中提取上下文信息。可选的,也可以从简单区域的非锚点的预测均值中提取。
在两遍编码结束后,将隐变量的锚点部分以及非锚点部分合并得到完整的解码后的隐变量。
整体模型在训练过程,可选地,将简单区域的由超先验信息预测得到的均值纳入重建损失函数中,加强超先验预测信息的准确度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
在本发明部分实施例中:
对于需要进行熵编码的隐变量其熵编码所需要的概率分布参数采用两遍快速编码的方式来得到,并根据这些预测参数进行算数编码来得到码率。在提取上下文信息的过程,使用内容自适应的方式,将量化后的隐变量/>分为锚点、伪锚点和非锚点三部分,使用卷积从锚点提取上下文信息来辅助伪锚点和非锚点的熵编码中的概率预测过程。
首先将锚点初始化为按照棋盘格间隔分配的情况。第一遍编码时,根据隐变量的复杂度,将隐变量划分为了简单区域与复杂区域。对于简单区域,减少其附近的锚点个数,将去除的冗余锚点置为伪锚点/>而对于复杂区域则保留间隔分配的较为稠密的锚点分布,并得到适应于图像内容的锚点。/>只使用超先验信息作为编码时的辅助信息。在第二遍编码中,根据解码得到的自适应的的锚点/>以及/>中的部分预测均值,使用卷积从其中提取得到上下文信息,用于剩余的非锚点/>与伪锚点/>的编码。最后,将锚点/>伪锚点和非锚点/>按照其位置关系组合在一起后,得到量化后解码器输入的隐变量/>
可以将隐变量划分为复杂区域和简单区域,并使用一个掩膜Msimple来记录其中的非锚点。对于经过编码器并进行量化后的隐变量我们使用其经过超先验网络得到的信息,来对其熵的大小进行判断,并将其作为复杂度判断的依据。典型的,隐变量被建模为高斯分布时,超先验信息包括了对隐变量初步预测的参数(μ,σ),即高斯分布的均值和标准差,标准差的大小可以反应高斯分布的熵的大小。将标准差σ作为判断隐变量复杂度的依据。通过设定的阈值,将标准差σ小于阈值的设定为简单区域,反之则为复杂区域。
根据简单区域与复杂区域的位置,可以定位到其中的锚点与非锚点,并将简单区域的非锚点左上的锚点置为伪锚点通过寻找到简单区域中的非锚点/>的位置,找到其左上的位置并使用另一个掩膜Mpa来记录伪锚点/>的位置。
可以从稠密的棋盘格分布的锚点中,去除掉伪锚点后,减少冗余的锚点个数。通过将棋盘格分布的掩膜Mckbd与记录伪锚点的掩膜Mpa相减,可以得到内容自适应的锚点分布掩膜Ma。该掩膜的计算只需要根据超先验信息即可得到,码流中无需传输额外的信息。
将去除的伪锚点的空缺位置填充上邻近非锚点的预测均值信息。在上下文模型的卷积输入中,除了已解码的之外,还有附近非锚点的均值信息作为输入,上下文模型gcm的输入可以通过如下公式表示:
在提取上下文时使用了由预测得到的均值信息,因此在压缩模型的训练过程中,也将预测均值纳入到重建损失中进行反向传播。
对于输入的待编码图像x,编码器通过卷积等方法将其非线性变换为隐变量y。隐变量经过量化和熵编码后得到待传输的码流。解码器则接受量化后的隐变量并将其变换回像素域的重建图像
超先验编码器从编码器输出的隐变量y中提取额外的信息,并将其也作为传输码流的一部分。超先验解码器则从超先验码流中解码得到超先验信息,用于辅助隐变量的概率分布预测过程。
对于待编码的量化后隐变量,上下文提取方案通过内容自适应的方式从隐变量选取一部分作为参考信息来辅助剩余隐变量的概率预测过程。提取得到的上下文信息与超先验信息一起输入到预测参数网络中得到对隐变量的概率分布预测参数。
根据预测的概率分布参数,熵编码模块对量化后的隐变量进行编码,得到所需的传输码流。
下面对本发明上述实施例提供的内容自适应上下文提取技术的结果进行评估,选择了Kodak以及CLIC数据集作为测试图片数据集。使用Minnen18,Cheng20-attn以及He2022三个模型作为基线模型。其中He2020为当前具备先进压缩性能的深度学习图像编码器。这三种基线模型都分别使用上述实施例的内容自适应上下文提取技术以及原始的棋盘格上下文模型进行定量的比较。
关于定量评估,我们使用码率-失真曲线进行衡量,并相应计算其BD-rate节省量。在码率-失真曲线中,位于上方的曲线可以在相同码率下实现更优的重建质量,具备更好的压缩性能。而BD-rate指标则可以定量指示出在相同的重建质量下,码率可以节省的百分比。另外,我们也对比了在使用我们的方法后对于编解码延迟的影响。
图9中(a)和(b)对比了在上述三个基线模型上使用棋盘格上下文模型以及实施例的内容自适应棋盘格上下文模型的R-D曲线对比,其中bpp(bits-per-pixel)表示每个像素需要的比特数,psnr为重建图像与原始图像的峰值信噪比。表1展示了对应的BD-rate增益大小。可以看出,本实施例的方法相比于原始的棋盘格上下文模型可以获得更优的压缩跨能。在Kodak数据集上,本实施例的方法可以取得最大3.29%的增益,而在CLIC数据集上,最大的增益达到4.48%。在当前压缩性能最好的模型He2022上,本实施例的方法也可以实现在Kodak和CLIC数据集上2.07%以及2.34%的码率节省效果。
表2展示了使用本实施例的内容自适应棋盘格上下文模型后,与原本的棋盘格上下文模型在三个不同的基线模型上的编解码延时情况。所有测试都是在单张3090GPU上进行。本实施例的方法只增加了少量的判断操作和掩膜操作,带来很少的额外计算量,因此可以实现编解码延时与原本的棋盘格上下文模型基本一致。
表1原始棋盘格上下文模型与本实施例方法的定量比较结果
表2Kodak数据集上平均编解码延时测试结果
本发明一实施例提供了一种计算机终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可用于执行上述实施例中任一项方法,或,运行本发明上述实施例中任一项系统。
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volat ilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:stat ic random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volat ile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤或系统各种的各个模块。具体可以参见前面方法和系统实施例中的相关描述。
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
根据本发明的第六个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述实施例中任一项方法,或,运行本发明上述实施例中任一项系统。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
本发明上述实施例提供的深度学习图像压缩方法及其内容自适应上下文提取方法,对于输入图像,将其通过编码器非线性变换到隐变量后,在熵编码提取上下文信息用于预测概率分布的过程中采用两遍编码的方法,第一遍编码提取出内容自适应的锚点,第二遍编码时从内容自适应的锚点提取上下文信息作为辅助预测信息,用于剩余隐变量的编码。在选取锚点分布时,利用超先验编解码器得到的超先验信息或通道维度上下文信息对隐变量不同区域的复杂度进行判断;从简单区域中去除冗余的伪锚点,使得简单区域的锚点分布更加稀疏;通过掩膜操作提取出内容自适应分布的锚点位置,并从其中计算上下文信息用于第二遍编码;将两遍编码的结果合并后,输入到解码器得到重建图像。本发明上述实施例的技术方案实现了更加高效的参考锚点的选取方案,能够在增加可忽略的计算复杂度的情况下提升整体压缩性能。
本发明上述实施例中未尽事宜均为本领域公知技术。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (10)
1.一种用于深度学习图像压缩的内容自适应上下文提取方法,其特征在于,包括:第一遍编码过程和第二遍编码过程;其中:
所述第一遍编码过程,包括:
对于输入图像,将其非线性变换到隐变量后,对所述隐变量进行简单区域和复杂区域的划分,并以此得到记录简单区域位置的掩膜Msimple,随后对所述隐变量进行量化操作得到量化后的隐变量
使用所述掩膜Msimple从量化后的隐变量的简单区域中提取出非锚点/>的位置,并根据所述非锚点/>的位置的索引找到每一个简单区域非锚点的左上位置,将该位置设置为伪锚点/>并使用另一个掩膜Mpa对所述伪锚点/>的位置进行记录;
采用棋盘格分布的掩膜Mckbd,从其中减掉掩膜Mpa,得到自适应于当前输入图像的锚点位置的掩膜Ma;使用所述掩膜Ma从所述量化后的隐变量中提取得到锚点/>该过程中熵解码得到的锚点/>被保存用于第二遍编码中的上下文信息提取;
所述第二遍编码过程,包括:
基于所述第一遍编码过程中解码得到的锚点提取上下文信息,完成深度学习图像压缩中的内容自适应上下文提取。
2.根据权利要求1所述的内容自适应上下文提取方法,其特征在于,所述对所述隐变量进行简单区域和复杂区域的划分,并以此得到记录简单区域位置的掩膜Msimple,包括:
获取所述隐变量的分布预测参数,所述分布预测参数包括:分布预测均值和分布预测标准差;
基于所述分布预测标准差,对所述隐变量进行简单区域和复杂区域的划分:
当所述预测标准差小于设定阈值时,判断该部分区域为简单区域,使用掩膜Msimple进行记录,其中,掩膜Msimple中为1的位置即表明该位置属于简单区域;
否则,该部分区域为复杂区域。
3.根据权利要求1所述的内容自适应上下文提取方法,其特征在于,所述根据所述非锚点的位置的索引找到每一个简单区域非锚点的左上位置,包括:
根据所述掩膜Msimple中记录的简单区域的位置,找到非锚点的位置分布,并使用掩膜Mna进行保存,并根据所述掩膜Mna中记录的所述非锚点/>的位置的索引,将每一个简单区域中非锚点的左上位置设为伪锚点/>并将所述伪锚点/>的位置设定为1,采用掩膜Mpa进行记录;
和/或
所述棋盘格分布的掩膜Mckbd,采用0与1按照棋盘格分布的结构;将所述棋盘格分布的掩膜Mckbd减去记录伪锚点位置的掩膜Mpa,得到自适应于当前输入图像的锚点位置的锚点分布掩膜,即为掩膜Ma;对于去除的伪锚点/>的空缺位置,从所述隐变量的分布预测均值中提取非锚点位置部分的值,并将其填入至所述空缺位置中;
所述掩膜Ma与所述量化后的隐变量做对应元素相乘,提取得到第二遍编码过程中所需的自适应锚点/>
4.根据权利要求1所述的内容自适应上下文提取方法,其特征在于,所述第二遍编码过程中,基于所述第一遍编码过程中熵解码得到的锚点提取上下文信息,包括:
采用卷积网络构建上下文模型为:
其中,gcm(·)表示上下文模型,为第一遍编码中熵解码得到的锚点,μ1为隐变量的分布预测均值,Msimple为掩膜Msimple,记录简单区域非锚点的位置,⊙为对应元素相乘操作;
从已解码的锚点和简单区域中隐变量的分布预测均值中提取出内容自适应上下文信息,完成深度学习图像压缩中的内容自适应上下文提取。
5.一种用于深度学习图像压缩的内容自适应上下文提取系统,其特征在于,包括:第一遍编码模块和第二遍编码模块;其中:
所述第一遍编码模块,包括:
区域划分单元,该单元用于对于输入图像,将其非线性变换到隐变量后,对所述隐变量进行简单区域和复杂区域的划分,并以此得到记录简单区域位置的掩膜Msimple,随后对所述隐变量进行量化操作得到量化后的隐变量
非锚点和伪锚点设定单元,该单元使用所述掩膜Msimple从量化后的隐变量的简单区域中提取出非锚点/>的位置,并根据所述非锚点/>的位置的索引找到每一个简单区域非锚点的左上位置,将该位置设置为伪锚点/>并使用另一个掩膜Mpa对所述伪锚点/>的位置进行记录;
锚点设定单元,该单元采用棋盘格分布的掩膜Mckbd,从其中减掉掩膜Mpa,得到自适应于当前输入图像的锚点位置的掩膜Ma;使用所述掩膜Ma从所述量化后的隐变量中提取得到锚点/>该过程中熵解码得到的锚点/>被保存用于第二遍编码中的上下文信息提取;
所述第二遍编码模块,包括:
上下文提取单元,该单元基于所述第一遍编码过程中解码得到的锚点提取上下文信息,完成深度学习图像压缩中的内容自适应上下文提取。
6.一种深度学习图像压缩方法,其特征在于,包括:
基于深度学习的编码器读入输入图像x,将所述输入图像x非线性变换为隐变量y;将所述隐变量y输入到超先验编码器中,得到需要传输的超先验码流并经过超先验解码器得到包含隐变量结构信息的超先验信息;
对得到的所述隐变量y进行量化操作得到量化后的隐变量
提取内容自适应上下文信息,根据所述内容自适应上下文信息获取所述量化后的隐变量进行分布预测参数,并根据所述分布预测参数对所述量化后的隐变量/>进行熵编码,得到量化后隐变量的码流;
根据所述分布预测参数进行熵解码,从所述量化后隐变量的码流中得到量化后的隐变量对所述量化后的隐变量/>进行重建,得到重建后的图像/>完成图像压缩;
其中,所述提取内容自适应上下文信息采用权利要求1-5中任一项所述的内容自适应上下文提取方法,其中:
所述第一遍编码过程对所述量化后的隐变量进行简单区域和复杂区域的划分,并将所述量化后的隐变量/>分为锚点/>伪锚点/>和非锚点/>其中,所述锚点/>用于在第二遍编码过程中提取上下文信息,所述第二遍编码过程中提取的所述上下文信息用于进行概率分布预测,获得的概率分布预测参数用于对所述伪锚点/>和非锚点/>进行熵编码和熵解码。
7.根据权利要求6所述的深度学习图像压缩方法,其特征在于,还包括如下任意一项或任意多项:
-采用任意一种基于深度学习的端到端图像编码器,将输入图像x非线性变换为隐变量y,所述隐变量y输入到任意一种实现方式的超先验编码器中,得到包含隐变量结构信息的超先验信息;其中,所述隐变量结构信息包括对隐变量初步预测的参数(μ,σ),即高斯分布的均值μ和标准差σ;
-采用标量量化或矢量量化的量化方式,将隐变量y从浮点数转化为能够进行无损熵编码的整型数,完成量化操作,得到量化后的隐变量
-在所述第一遍编码过程中,不使用空间上下文信息,通过超先验信息或通道维度的上下文信息,获取隐变量的分布预测参数;
-在所述第二遍编码过程中,基于所述锚点提取得到的内容自适应上下文信息作为所述伪锚点/>和非锚点/>的概率分布预测过程的参考信息;
-根据所述分布预测参数,从码流中熵解码得到锚点伪锚点/>以及非锚点/>这三部分,将这三部分相加组合在一起得到量化后的隐变量/>将其输入到解码器得到最终的重建图像/>完成图像压缩。
8.一种深度学习图像压缩系统,其特征在于,包括:
输入图像处理模块,该模块基于深度学习的编码器读入输入图像x,将所述输入图像x非线性变换为隐变量y;将所述隐变量y输入到超先验编码器中,得到需要传输的超先验码流并经过超先验解码器得到包含隐变量结构信息的超先验信息;
量化模块,该模块用于对得到的所述隐变量y进行量化操作得到量化后的隐变量上下文提取模块,该模块用于提取内容自适应上下文信息,根据所述内容自适应上下文信息获取所述量化后的隐变量/>进行分布预测参数,并根据所述分布预测参数对所述量化后的隐变量/>进行熵编码,得到量化后隐变量的码流;根据所述分布预测参数进行熵解码,从所述量化后隐变量的码流中得到量化后的隐变量/>对所述量化后的隐变量/>进行重建,得到重建后的图像/>完成图像压缩;
其中,所述上下文提取模块采用权利要求1-5中任一项所述的内容自适应上下文提取方法;其中:
所述第一遍编码过程对所述量化后的隐变量进行简单区域和复杂区域的划分,并将所述量化后的隐变量/>分为锚点/>伪锚点/>和非锚点/>其中,所述锚点/>用于在第二遍编码过程中提取上下文信息,所述第二遍编码过程中提取的所述上下文信息用于进行概率分布预测,获得的概率分布预测参数用于对所述伪锚点/>和非锚点/>进行熵编码和熵解码。
9.一种计算机终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-4中任一项所述的内容自适应上下文提取方法,或,执行权利要求6-7中任一项所述的深度学习图像压缩方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-4中任一项所述的内容自适应上下文提取方法,或,执行权利要求6-7中任一项所述的深度学习图像压缩方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310593759.4A CN116614627A (zh) | 2023-05-24 | 2023-05-24 | 深度学习图像压缩方法及其内容自适应上下文提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310593759.4A CN116614627A (zh) | 2023-05-24 | 2023-05-24 | 深度学习图像压缩方法及其内容自适应上下文提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116614627A true CN116614627A (zh) | 2023-08-18 |
Family
ID=87681407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310593759.4A Pending CN116614627A (zh) | 2023-05-24 | 2023-05-24 | 深度学习图像压缩方法及其内容自适应上下文提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116614627A (zh) |
-
2023
- 2023-05-24 CN CN202310593759.4A patent/CN116614627A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10462476B1 (en) | Devices for compression/decompression, system, chip, and electronic device | |
Guarda et al. | Point cloud coding: Adopting a deep learning-based approach | |
CN100534186C (zh) | 基于码率预分配的jpeg2000自适应率控制系统及方法 | |
CN103748876B (zh) | 有损压缩编码数据方法和设备以及相应的重构数据方法和设备 | |
KR20180131073A (ko) | 다채널 특징맵 영상을 처리하는 방법 및 장치 | |
CN113163203B (zh) | 深度学习特征压缩和解压缩方法、系统及终端 | |
CN101971633A (zh) | 压缩参考帧的视频编码系统 | |
CN111641832A (zh) | 编码方法、解码方法、装置、电子设备及存储介质 | |
CN111641826B (zh) | 对数据进行编码、解码的方法、装置与系统 | |
CN103716634B (zh) | 使用误差平面编码的数据压缩方法及装置 | |
CN113747163B (zh) | 基于上下文重组建模的图像编码、解码方法及压缩方法 | |
WO2024012263A1 (zh) | 一种视频编码处理方法、装置、设备及存储介质 | |
CN110677644B (zh) | 一种视频编码、解码方法及视频编码帧内预测器 | |
KR102245682B1 (ko) | 영상 압축 장치, 이의 학습 장치 및 방법 | |
CN114745551A (zh) | 处理视频帧图像的方法及电子设备 | |
CN101616325B (zh) | 一种视频编码中自适应插值滤波计算的方法 | |
CN116614627A (zh) | 深度学习图像压缩方法及其内容自适应上下文提取方法 | |
US20160191937A1 (en) | Video data processing system | |
CN112954350B (zh) | 一种基于帧分类的视频后处理优化方法及装置 | |
CN111163320A (zh) | 一种视频压缩方法及系统 | |
CN103069798A (zh) | 用于在实施变换域估计过程中对至少一个图像进行编码和解码的方法和装置, 对应信号以及计算机程序 | |
CN113747178A (zh) | 一种电力通道可视化场景下的图像边缘端压缩及后端恢复方法及系统 | |
CN112437308A (zh) | 一种WebP编码方法及装置 | |
US9838713B1 (en) | Method for fast transform coding based on perceptual quality and apparatus for the same | |
CN112468826A (zh) | 一种基于多层gan的vvc环路滤波方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |