CN109996071B - 基于深度学习的可变码率图像编码、解码系统及方法 - Google Patents
基于深度学习的可变码率图像编码、解码系统及方法 Download PDFInfo
- Publication number
- CN109996071B CN109996071B CN201910240535.9A CN201910240535A CN109996071B CN 109996071 B CN109996071 B CN 109996071B CN 201910240535 A CN201910240535 A CN 201910240535A CN 109996071 B CN109996071 B CN 109996071B
- Authority
- CN
- China
- Prior art keywords
- image
- code rate
- coding
- decoding
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
Abstract
本发明公开了一种基于深度学习的可变码率图像编码系统及方法,包括:正向多尺度分解变换网络模块,将输入原始图像分解为多个尺度的图像特征;量化模块,将图像特征量化成整数;自适应码率分配模块,根据给定的目标码率对量化成整数的图像特征进行块级别的码率分配;熵编解码模块,将进行码率分配后的图像特征编码为二进制码流;同时提供了一种可变码率图像解码系统及方法,用于解码上述编码系统及方法形成的编码。本发明使用深度卷积神经网络构建正反多尺度分解变换,利用大量数据进行训练得到最优模型参数,结合基于图像复杂度的自适应码率分配方法,在实际应用中可实现可变码率图像编解码。
Description
技术领域
本发明涉及一种图像编码系统及方法,特别是涉及一种基于深度学习的可变码率图像编码、解码系统及方法。
背景技术
如今多媒体数据占据了互联网的绝大部分流量。对于视频图像数据的压缩对于多媒体数据的存储和高效传输有着至关重要的作用。所以图像编码是一项具有重大实用价值的技术。
对于图像编码的研究已经有较长的历史了,研究人员提出了大量的方法,并制定了多种国际标准,比如JPEG,JPEG2000,WebP,BPG等图像编码标准。这些编码方法虽然在目前都得到了广泛应用,但是针对现在不断增长的图像数据量及不断出现的新媒体类型,这些传统方法显示出了某些局限性。由于这些方法都是针对某种类型的图像基于特征工程,手工设计的操作,因此对于不断出现的新媒体类型,比如虚拟现实图像,全景图像,广场图像等,缺乏自适应性。因此在未来的图像应用中,需要改进的或全新的编码方法。
近年来,开始有研究人员开展了基于深度学习图像编码方法的研究。有些研究人员已经取得了不错的成果,比如Ballé等人提出了一种端到端优化的图像编码方法,取得了超越目前最好的图像编码性能,甚至超越了目前最好的传统编码标准BPG。不过目前大多数基于深度卷积网络的图像编码都有一个缺陷,即一个训练好的模型针对一种输入图像只能输出一种编码结果,而不能根据实际需求,得到目标码率的编码结果。这个缺点严重限制了基于深度学习的图像编码的实际应用,因为根据带宽过存储需求,输出目标码率对于实际应用至关重要。
目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
发明内容
本发明针对现有技术中存在的上述不足,提供了一种基于深度学习的可变码率图像编码、解码系统及方法、同时提供了一种基于上述编码、解码系统及方法实现的编码器、解码器以及终端,结合深度学习技术,在保持优越编码性能的同时,实现输出目标码率的图像压缩。
本发明是通过以下技术方案实现的。
根据本发明的第一个方面,提供了一种基于深度学习的可变码率图像编码系统,包括:
正向多尺度分解变换网络模块,该模块基于深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征并发送至量化模块,其中每一个尺度的图像特征对应于一个质量等级的编码结果;
量化模块,将每一个尺度的图像特征量化成整数,并发送至自适应码率分配模块;
自适应码率分配模块,根据给定的目标码率对整数图像特征进行块级别的码率分配,得到当前图像块的目标码率,选择与当前图像块的目标码率最接近的整数图像特征作为编码结果发送至熵编码模块;
熵编码模块,将整数图像特征编码为二进制码流并输出。
优选地,所述正向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:卷积层采用标准的卷积神经网络层;归一化层采用广义归一化层;通道连接操作将特征图在通道维度上连接在一起,输出多个尺度的图像特征。
优选地,所述量化模块采用四舍五入量化、矢量量化、量化表量化等方式进行量化操作。
优选地,所述自适应码率分配模块采用基于图像复杂度的码率分配方法,将当前图像块复杂度与剩余图像块复杂度和的比值作为分配比率,将给定的目标码率按照分配比率分配到当前图像块,得到当前图像块的目标码率。
优选地,所述熵编码模块基于二进制数字编码,采用的熵编码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵编码模块中。
优选地,所述概率模型可以采用基于线性样条插值的概率模型,也可以采用其他概率密度估计模型,例如混合高斯模型、混合拉普拉斯模型、基于深度学习的概率估计模型等。
优选地,所述网络训练过程为:利用随机梯度下降算法,对概率模型参数进行优化,直到率失真损失收敛。
根据本发明的第二个方面,提供了一种可变码率图像解码系统,用于解码上述编码系统形成的编码,包括:
熵解码模块,对经过熵编码后输出的二进制码流进行熵解码,得到的图像特征并输出至反向多尺度分解变换网络模块;
反向多尺度分解变换网络模块,基于深度卷积神经网络,将熵解码得到的图像特征重构为解码图像并输出。
优选地,所述反向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:反卷积层采用标准的卷积神经网络层;反归一化层采用广义反归一化层;通道分离操作将熵解码得到的图像特征在通道维度上平均分成多组特征图输出。
优选地,所述熵解码模块基于二进制数字解码,采用的熵解码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用基于线性样条插值的概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵解码模块中。
根据本发明的第三个方面,提供了一种基于深度学习的可变码率图像编码方法,包括:
S1,采用深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征,输出得到多尺度图像特征;
S2,对S1中得到的每一个尺度图像特征量化为整数;
S3,根据给定的目标码率,结合各个尺度的预测码率和失真度,对S2中得到的量化成整数的多尺度图像特征逐图像块进行最优尺度分配;
S4,采用概率模型,对S3中得到的分配最优尺度后的图像特征进行熵编码,得到二进制码流并输出。
优选地,所述S4中,熵编码是将分配最优尺度后的图像特征编码为二进制码流,包括:分别对图像特征中的长、宽、最优尺度以及保留下来的特征进行熵编码;其中长和宽采用16比特进行二进制化,不进行算术编码;最优尺度中的每个元素采用8比特二进制化,不进行算术编码;保留下来的特征采用二进制算术编码。
优选地,还包括参数离线训练过程,步骤如下:
A1:在高清自然训练图像中随机裁剪图像块组成训练集,并对图像块进行随机翻转以扩充训练数据;
A2:利用随机梯度下降算法,对用于分解输入原始图像的网络参数以及用于熵编码的概率模型参数进行联合优化,直到率失真损失收敛。
优选地,在所述随机梯度下降算法中,损失函数采用各个尺度的率失真损失的平均值;其中每个尺度的率失真平衡因子根据尺度不同选取不同值,使得不同尺度对应不同质量等级的编码结果。
根据本发明的第四个方面,提供了一种基于深度学习的可变码率图像解码方法,用于解码上述编码方法形成的编码,包括:
s1,对经过熵编码得到的二进制码流进行熵解码,得到解码图像特征;
s2,采用深度卷积神经网络,对s1中得到的解码图像特征重构为解码图像并输出。
优选地,所述s2中,根据元信息,将解码图像特征进行重构,得到解码图像。
优选地,所述s1中,熵解码针对二进制码流进行解码,包括:对二进制码流依次解码,得到图像特征中的长、宽、最优尺度以及保留的图像特征。
根据本发明的第五个方面,提供了一种编码器,执行上述任一项所述的编码方法,将输入原始图像编码后形成二进制码流输出。
根据本发明的第六个方面,提供了一种解码器,执行上述任一项所述的解码方法,将经过编码后形成的二进制码流重构为解码图像。
根据本发明的第七个方面,提供了一种终端,安装有上述任一项所述的编码系统和/或解码系统;
或,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行上述任一项所述的编码方法和/或解码方法;
或,安装上述任一项所述的编码器和/或解码器。
与现有技术相比,本发明具有如下的有益效果:
1、本发明利用深度学习技术,学习得到自适应强的编码变换操作;
2、本发明正反多尺度分解变换网络可以将图像分解成不同质量等级的尺度,从而可以灵活地进行码率分配;
3、本发明可以输出和目标码率高度接近的编码结果;
4、本发明采用多尺度分解网络技术,可以将输入图像分解为多个尺度的特征集合,再结合基于复杂度的自适应码率分配方法,可以实现输出目标码率的图像压缩结果。
5、本发明的网络参数是在大量图像数据集上进行无监督离线学习得到,可以取得和最新的基于深度学习方法相当的编码性能。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例的基于深度学习的可变码率图像编码系统结构框图。
图2为本发明一实施例的正向多尺度分解变换网络结构图。
图3为本发明一实施例的反向多尺度分解变换网络结构图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
本发明实施例提供了一种基于深度学习的可变码率图像编码系统,系统包括如下模块:
模块一:正向多尺度分解变换网络模块,将输入图像分解成多个尺度的图像特征,不同特征对应于不同质量等级的编码模式(编码结果)。
模块二:量化模块,将每一个尺度的图像特征量化成整数,以便进行熵编码;
模块三:自适应码率分配模块,根据给定的目标码率对量化为整数后的图像特征进行块级别的码率分配;
模块四:熵编码模块,对进行码率分配后的整数图像特征进行熵编码。熵编码是指将图像特征编码为二进制码流。
进一步地,模块一中的正向多尺度分解变换网络模块是基于深度卷积神经网络构建而成,可以进行端到端的优化。正向多尺度分解变换网络模块的结构如图2所示,其中卷积是标准的卷积神经网络层。归一化层采用的是Ballé等人提出的广义归一化层。通道连接操作是将特征图在通道维度上连接在一起,输出一个完整的特征图,即多个尺度的图像特征。
进一步地,模块二中的量化模块是基于四舍五入、矢量量化、量化表等的标量量化操作。
进一步地,模块三中的自适应码率分配模块是基于图像复杂度的块级别码率分配操作。将当前图像块的复杂度和剩余图像块复杂度和的比值作为分配比率,将给定的目标码率按照分配比率分配到当前图像块,计算出当前图像块的目标码率,再选择和当前图像块目标码率最接近的尺度作为当前块的编码模式(编码结果)。
实际应用中,需要编码器输出期望的码率。给定的目标码率用来指导编码器输出期望的码率。在码率分配过程中,根据图像块的复杂度,将总体目标码率(即给定的目标码率)按比例分配到每个图像块,得到每个块的目标码率。
进一步地,模块四中的熵编码模块基于二进制数字编码,其熵编码模型在网络训练及测试过程中不断地统计更新得到。在训练时,可以采用基于线性样条插值的概率模型进行近似,也可以采用其他采用其他概率密度估计模型,例如混合高斯模型、混合拉普拉斯模型、基于深度学习的概率估计模型等;测试时的概率模型由训练完成后的概率模型离线计算得到并保存在编码端。
本发明实施例还提供的基于深度学习的可变码率图像编码方法,包括如下步骤:
步骤S1:采用深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征,输出得到多尺度图像特征;
步骤S2:对多尺度图像特征进行量化为整数;
步骤S3:根据输入(给定)的目标码率,结合各个尺度的预测码率和失真度,对量化成整数的多尺度图像特征逐图像块进行最优尺度分配;
步骤S4:采用概率模型,对分配最优尺度后的图像特征进行熵编码得到二进制码流。;
进一步地,步骤S4中要分别对图像长和宽,最优尺度图和保留下来的特征进行熵编码。其中长和宽直接采用16比特进行二进制化,不进行算术编码。最有尺度中的每个元素采用8比特二进制化,不进行算术编码。特征采用二进制算术编码,熵编码模型在训练过程中累计更新得到。
进一步地,基于深度学习的可变码率图像编码方法还包括参数离线训练过程,步骤如下:
A1:在高清自然训练图像中随机裁剪图像块组成训练集,并对图像块进行随机翻转以扩充训练数据;
A2:利用随机梯度下降算法,对用于分解输入原始图像的网络参数以及用于熵编码的概率模型参数进行联合优化,直到率失真损失收敛。
进一步地,在随机梯度下降算法中,损失函数采用各个尺度的率失真损失的平均值;其中每个尺度的率失真平衡因子根据尺度不同选取不同值,使得不同尺度对应不同质量等级的编码结果。
进一步地,步骤A1中,随机裁剪的图像块大小根据计算资源而定,例如,可以裁剪尺寸为256x256的图像块,如果资源允许,可以采用更大块。
进一步地,步骤A2中系统的参数包括正向多尺度分解变换网络的参数和熵编码中的概率模型参数,即用于分解输入原始图像的网络参数以及用于熵编码的概率模型参数。在步骤A2中,可以同时对下文中所述的解码系统中的反向多尺度分解变换网络的参数进行联合优化,即用于进行解码图像特征重构的网络参数。
进一步地,步骤A2中,在随机梯度下降算法中,损失函数是各个尺度的率失真损失的平均值。其中每个尺度的率失真平衡因子根据尺度不同选取不同值,使得不同尺度对应不同质量等级的编码结果。
进一步地,步骤A2中,整个系统的联合训练方法是对各个尺度的率失真优化的平均值进行梯度下降法,逐步迭代优化。训练之后的最优模型参数保存之后,直接用在图像编码方法中。
本发明实施例还提供了一种可变码率图像解码系统,用于解码上述编码系统形成的编码,包括:
熵解码模块,对经过熵编码后输出的二进制码流进行熵解码,得到的图像特征并输出至反向多尺度分解变换网络模块;
反向多尺度分解变换网络模块,基于深度卷积神经网络,将熵解码得到的图像特征重构为解码图像并输出。反向多尺度分解变换网络模块的结构如图3所示。
进一步地,反向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:反卷积层分别采用标准的卷积神经网络层;反归一化层分别采用广义反归一化层;通道分离操作将熵解码得到的图像特征在通道维度上平均分成多组特征图输出。
进一步地,熵解码模块基于二进制数字解码,采用的熵解码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用基于线性样条插值的概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵解码模块中。
利用该解码系统进行图像解码的步骤如下:
s1,对经过熵编码得到的二进制码流进行熵解码,得到解码图像特征;
s2,采用深度卷积神经网络,对s1中得到的解码图像特征重构为解码图像并输出。
进一步地,对二进制码流进行熵解码,依次解码得到图像长和宽,最有尺度图和保留下来的图像特征,即解码图像特征;
进一步地,根据元信息,组织好解码图像特征并送入反向多尺度分解变换网络模块,重构得到解码图像。
其中,保留下来的图像特征是指:图像经过前向变换的特征为所有特征,在码率控制时,根据率失真最优化规则,会舍弃一部分特征,只编码传输剩下来的特征。剩下来的特征就是保留下来的图像特征。
下面结合附图以及一具体实例对本发明上述实施例的技术方案进一步详细描述。
如图1所示,本发明上述实施例中提供的一种基于深度学习的可变码率图像编码、解码系统,包括:
1、一对正向、反向多尺度分解变换网络模块,一个量化模块,一个自适应码率分配模块和一对熵编码、解码模块。
2、正向、反向多尺度分解变换网络模块的结构如图2和图3所示,正向多尺度分解变换网络模块中包含一系列卷积层,归一化层,元素减法器和一个通道连接操作。反向多尺度分解变换网络模块中包含一系列反卷积层,反归一化层,元素加法器和一个通道分离操作。
3、量化模块是基于四舍五入的标量量化操作。
4、自适应码率分配模块基于内容复杂度逐图像块进行最优尺度分配。
5、熵编码、解码模块基于二进制数字编码,其中,熵编码模块将量化后的整数图像特征编码成二进制码流,熵解码模块将二进制码流解码成图像特征。
6、利用编码系统进行图像编码方法的步骤如下:
步骤S1、输入原始图像I,经过正向多尺度分解变换网络模块,得到4组不同尺度的图像特征集合,这个过程可以表示成式(1):
其中表时图像I经过正向变换网络,是网络参数集合,可以从数据中学习得到。{T1,T2,T3,T4}表示输出的四个不同尺度的图像特征集合,他们对应着不同的特征数量和重构质量。T1是最小的尺度,包含最少的特征数量,对应最低的编码码率和最差的重构质量。相反,T4包含了最多的特征,对应最高的码率最好的重构质量;
步骤S3、逐块进行最优尺度分配。首先计算当前第i个块的复杂度和剩余块复杂度之和的比值,如式(2):
其中D(i)表示第i个块最大尺度对应的失真。N代表图像中所有的块。得到比率ω(i)后,计算当前块的预分配的比特数:R(i)=ω(i)×Rremain,其中Rremain表示的是还剩余的码字预算。得到预分配给当前块的码字后,在所有尺度中选择一个有和R(i)最接近码字的块作为最优尺度,该实际码率记为R*(i)。当前块分配完成后,更新剩余预算码字:Rremain=Rremain-R*(i)。重复该步骤,直至对所有块的分配完成;
步骤S4、首先对图像的长和宽进行熵编码,直接采用16比特进行二进制化后,写进码流。再对最优尺度索引图进行熵编码,依次对每个元素采用8比特进行二进制化后,写进码流。最后对选择好的特征进行熵编码,采用二进制数字编码,熵编码模型由训练完成后的概率模型计算得到。
7、利用解码系统进行图像解码方法的步骤如下:
步骤s1熵解码对二进制码流进行解码,对二进制码流依次解码,得到图像特征中的长、宽、最优尺度以及保留的图像特征,即解码图像特征。
步骤s2,对得到的解码图像特征重构为解码图像并输出。组织好解码图像特征矩阵,举证空缺位置用零填充。将该矩阵输入到反向多尺度分解变换网络模块,重构得到解码图像。
对于系统中的正、反向多尺度分解变换网络模块以及熵编码概率模型中的参数的离线训练步骤如下:
步骤A1:在高清自然训练图像中随机裁剪256x256的图像块组成训练集,并对图像块进行随机翻转以扩充训练数据;
步骤A2:利用随机梯度下降算法对整个系统中的参数进行联合优化,直到损失收敛;
步骤A2中的优化方法是Adam优化方法。损失函数设为式(3):
式(3)中Rs代表第s个尺度的码率,由信息熵衡量。Ds代表其失真,由均方误差MSE衡量。λs代表改尺度的率失真折中因子,四个尺度的折中因子逐渐增大,比如可以设为λ1=128,λ2=256,λ3=512,λ4=1024。
步骤A2中的参数学习率设为10-4,当训练损失不再下降时,降为10-5。训练收敛后,保存参数,实际使用时直接加载使用即可。
基于上述编码方法,本发明实施例还提供了一种编码器,执行上述的编码方法,将输入原始图像编码后形成二进制码流输出。
基于上述解码方法,本发明实施例还提供了一种解码器,执行上述的解码方法,将经过编码后形成的二进制码流重构为解码图像。
基于上述编码系统、解码系统、编码方法、解码方法、编码器、解码器,本发明实施例还提供了一种终端,安装有上述任一项的编码系统和/或解码系统。
或者,在另一实施例中,提供了一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,处理器执行上述的编码方法和/或解码方法。
或者,在另一实施例中,提供了一种终端,安装上述的编码器和/或解码器。
本发明上述实施例所提供的一种基于深度学习的可变码率图像编码系统及方法,图像输入到系统后,经过正向多尺度分解变换网络模块后被分解为多个尺度的图像特征集合,对特征进行量化后再视频序列输入到系统中后根据目标码率进行自适应码率分配,分配后的特征经过熵编码得到二进制码流。同时提供了一种可变码率图像解码系统及方法,在解码时,首先对码流进行熵解码得到多尺度特征(即解码图像特征),最后经过反向多尺度分解变换网络得到解码图像。本发明上述实施例使用深度卷积神经网络构建正、反向多尺度分解变换网络模块,利用大量数据进行训练得到最优模型参数,结合基于图像复杂度的自适应码率分配方法,在实际应用中可实现可变码率图像编、解码。
本发明上述实施例中的具体参数仅为说明本发明技术方案的实施而举例,本发明在另外的实施例中也可以采用其他的具体参数,这对于本发明实现没有本质性的影响。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个模块、装置、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (15)
1.一种基于深度学习的可变码率图像编码系统,其特征在于,包括:
正向多尺度分解变换网络模块,该模块基于深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征并发送至量化模块,其中每一个尺度的图像特征对应于一个质量等级的编码结果;
量化模块,将每一个尺度的图像特征量化成整数,并发送至自适应码率分配模块;
自适应码率分配模块,根据给定的目标码率对整数图像特征进行块级别的码率分配,得到当前图像块的目标码率,选择与当前图像块的目标码率最接近的整数图像特征作为编码结果发送至熵编码模块;
熵编码模块,将整数图像特征编码为二进制码流并输出;
所述自适应码率分配模块采用基于图像复杂度的码率分配方法,将当前图像块复杂度与剩余图像块复杂度和的比值作为分配比率,将给定的目标码率按照分配比率分配到当前图像块,得到当前图像块的目标码率。
2.根据权利要求1所述的一种基于深度学习的可变码率图像编码系统,其特征在于,所述正向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:卷积层采用标准的卷积神经网络层;归一化层采用广义归一化层;通道连接操作将特征图在通道维度上连接在一起,输出多个尺度的图像特征。
3.根据权利要求1所述的一种基于深度学习的可变码率图像编码系统,其特征在于,所述熵编码模块基于二进制数字编码,采用的熵编码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵编码模块中。
4.根据权利要求3所述的一种基于深度学习的可变码率图像编码系统,其特征在于,所述网络训练过程为:利用随机梯度下降算法,对概率模型参数进行优化,直到率失真损失收敛。
5.一种可变码率图像解码系统,其特征在于,用于解码权利要求1所述系统形成的编码,包括:
熵解码模块,对经过熵编码后输出的二进制码流进行熵解码,得到图像特征并输出至反向多尺度分解变换网络模块;
反向多尺度分解变换网络模块,基于深度卷积神经网络将熵解码得到的图像特征重构为解码图像并输出。
6.根据权利要求5所述的一种可变码率图像解码系统,其特征在于,所述反向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:反卷积层采用标准的卷积神经网络层;反归一化层采用广义反归一化层;通道分离操作将熵解码得到的图像特征在通道维度上平均分成多组特征图输出。
7.根据权利要求5所述的一种可变码率图像解码系统,其特征在于,所述熵解码模块基于二进制数字解码,采用的熵解码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用基于线性样条插值的概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵解码模块中。
8.一种基于深度学习的可变码率图像编码方法,其特征在于,包括:
S1,采用深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征,输出得到多尺度图像特征;
S2,对S1中得到的每一个尺度图像特征量化为整数;
S3,根据给定的目标码率,结合各个尺度的预测码率和失真度,对S2中得到的量化成整数的多尺度图像特征逐图像块进行最优尺度分配;
S4,采用概率模型,对S3中得到的分配最优尺度后的图像特征进行熵编码,得到二进制码流并输出;
所述S4中,熵编码是将分配最优尺度后的图像特征编码为二进制码流,包括:分别对图像特征中的长、宽、最优尺度以及保留下来的特征进行熵编码;其中长和宽采用16比特进行二进制化,不进行算术编码;最优尺度中的每个元素采用8比特二进制化,不进行算术编码;保留下来的特征采用二进制算术编码。
9.根据权利要求8所述的一种基于深度学习的可变码率图像编码方法,其特征在于,还包括参数离线训练过程,步骤如下:
A1:在高清自然训练图像中随机裁剪图像块组成训练集,并对图像块进行随机翻转以扩充训练数据;
A2:利用随机梯度下降算法,对用于分解输入原始图像的网络参数以及用于熵编码的概率模型参数进行联合优化,直到率失真损失收敛。
10.根据权利要求9所述的一种基于深度学习的可变码率图像编码方法,其特征在于,在所述随机梯度下降算法中,损失函数采用各个尺度的率失真损失的平均值;其中每个尺度的率失真平衡因子根据尺度不同选取不同值,使得不同尺度对应不同质量等级的编码结果。
11.一种基于深度学习的可变码率图像解码方法,其特征在于,用于解码权利要求8所述方法形成的编码,包括:
s1,对经过熵编码得到的二进制码流进行熵解码,得到解码图像特征;
s2,采用深度卷积神经网络,对s1中得到的解码图像特征重构为解码图像并输出;
所述s1中,熵解码针对二进制码流进行解码,包括:对二进制码流依次解码,得到图像特征中的长、宽、最优尺度以及保留的图像特征。
12.根据权利要求11所述的一种基于深度学习的可变码率图像解码方法,其特征在于,所述s2中,根据元信息,将解码图像特征进行重构,得到解码图像。
13.一种编码器,其特征在于,执行权利要求8至10中任一项所述的编码方法,将输入原始图像编码后形成二进制码流输出。
14.一种解码器,其特征在于,执行权利要求11至12中任一项所述的解码方法,将经过编码后形成的二进制码流重构为解码图像。
15.一种终端,其特征在于,安装有权利要求1至4中任一项所述的编码系统和/或权利要求5至7中任一项所述的解码系统;
或,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行权利要求8至10中任一项所述的编码方法和/或权利要求11至12中任一项所述的解码方法;
或,安装有权利要求13所述的编码器和/或权利要求14所述的解码器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910240535.9A CN109996071B (zh) | 2019-03-27 | 2019-03-27 | 基于深度学习的可变码率图像编码、解码系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910240535.9A CN109996071B (zh) | 2019-03-27 | 2019-03-27 | 基于深度学习的可变码率图像编码、解码系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109996071A CN109996071A (zh) | 2019-07-09 |
CN109996071B true CN109996071B (zh) | 2020-03-27 |
Family
ID=67130774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910240535.9A Active CN109996071B (zh) | 2019-03-27 | 2019-03-27 | 基于深度学习的可变码率图像编码、解码系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109996071B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112235583B (zh) * | 2019-07-15 | 2021-12-24 | 华为技术有限公司 | 基于小波变换的图像编解码方法及装置 |
CN110378976B (zh) * | 2019-07-18 | 2020-11-13 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN110324638A (zh) * | 2019-07-29 | 2019-10-11 | 哈尔滨工业大学 | 混合视频编码标准中基于多尺度神经网络的帧内预测算法 |
CN110602494A (zh) * | 2019-08-01 | 2019-12-20 | 杭州皮克皮克科技有限公司 | 基于深度学习的图像编码、解码系统及编码、解码方法 |
CN110401834B (zh) * | 2019-08-06 | 2021-07-27 | 杭州微帧信息科技有限公司 | 一种基于深度学习的自适应视频编码方法 |
CN110956671B (zh) * | 2019-12-12 | 2022-08-02 | 电子科技大学 | 一种基于多尺度特征编码的图像压缩方法 |
CN113038134B (zh) * | 2019-12-25 | 2023-08-01 | 武汉Tcl集团工业研究院有限公司 | 一种图片处理方法、智能终端及存储介质 |
CN113132723B (zh) * | 2019-12-31 | 2023-11-14 | 武汉Tcl集团工业研究院有限公司 | 一种图像压缩方法及装置 |
CN111246209B (zh) * | 2020-01-20 | 2022-08-02 | 北京字节跳动网络技术有限公司 | 自适应编码方法、装置、电子设备及计算机存储介质 |
CN111294595B (zh) * | 2020-02-04 | 2022-01-07 | 清华大学深圳国际研究生院 | 一种基于深度强化学习的视频编码帧内码率控制方法 |
CN113315970B (zh) * | 2020-02-26 | 2023-08-01 | 武汉Tcl集团工业研究院有限公司 | 一种图像压缩方法、图像解码方法、智能终端及存储介质 |
US11948090B2 (en) * | 2020-03-06 | 2024-04-02 | Tencent America LLC | Method and apparatus for video coding |
CN114979711B (zh) * | 2021-02-25 | 2023-10-13 | 华为技术有限公司 | 音视频或图像分层压缩方法和装置 |
CN113840145B (zh) * | 2021-09-23 | 2023-06-09 | 鹏城实验室 | 一种面向人眼观看和视觉分析联合优化的图像压缩方法 |
CN114245140B (zh) * | 2021-11-30 | 2022-09-02 | 慧之安信息技术股份有限公司 | 一种基于深度学习的码流预测方法和装置 |
CN114095728B (zh) * | 2022-01-21 | 2022-07-15 | 浙江大华技术股份有限公司 | 一种端到端的视频压缩方法、装置和计算机可读存储介质 |
CN116614637B (zh) * | 2023-07-19 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备以及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517612A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 |
CN107277520A (zh) * | 2017-07-11 | 2017-10-20 | 中国科学技术大学 | 帧内预测的码率控制方法 |
CN108322221A (zh) * | 2017-01-18 | 2018-07-24 | 华南理工大学 | 一种用于深度卷积神经网络模型压缩的方法 |
CN108986124A (zh) * | 2018-06-20 | 2018-12-11 | 天津大学 | 结合多尺度特征卷积神经网络视网膜血管图像分割方法 |
CN109361919A (zh) * | 2018-10-09 | 2019-02-19 | 四川大学 | 一种联合超分辨率和去压缩效应的图像编码性能提升方法 |
-
2019
- 2019-03-27 CN CN201910240535.9A patent/CN109996071B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517612A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 |
CN108322221A (zh) * | 2017-01-18 | 2018-07-24 | 华南理工大学 | 一种用于深度卷积神经网络模型压缩的方法 |
CN107277520A (zh) * | 2017-07-11 | 2017-10-20 | 中国科学技术大学 | 帧内预测的码率控制方法 |
CN108986124A (zh) * | 2018-06-20 | 2018-12-11 | 天津大学 | 结合多尺度特征卷积神经网络视网膜血管图像分割方法 |
CN109361919A (zh) * | 2018-10-09 | 2019-02-19 | 四川大学 | 一种联合超分辨率和去压缩效应的图像编码性能提升方法 |
Non-Patent Citations (1)
Title |
---|
如何使用深度学习进行图片压缩;顶级程序员;《https://www.itcodemonkey.com/article/3232.html》;20180423;正文第1段至末段、图1-2 * |
Also Published As
Publication number | Publication date |
---|---|
CN109996071A (zh) | 2019-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109996071B (zh) | 基于深度学习的可变码率图像编码、解码系统及方法 | |
CN109889839B (zh) | 基于深度学习的感兴趣区域图像编码、解码系统及方法 | |
CN110602494A (zh) | 基于深度学习的图像编码、解码系统及编码、解码方法 | |
CN107481295B (zh) | 基于动态字节长度分配的卷积神经网络的图像压缩系统 | |
CN109451308B (zh) | 视频压缩处理方法及装置、电子设备及存储介质 | |
CN110248190B (zh) | 一种基于压缩感知的多层残差系数图像编码方法 | |
CN111641832A (zh) | 编码方法、解码方法、装置、电子设备及存储介质 | |
CN109379598B (zh) | 一种基于fpga实现的图像无损压缩方法 | |
CN111641826B (zh) | 对数据进行编码、解码的方法、装置与系统 | |
CN111246206B (zh) | 一种基于自编码器的光流信息压缩方法及装置 | |
WO2014138633A2 (en) | Systems and methods for digital media compression and recompression | |
CN110753225A (zh) | 一种视频压缩方法、装置及终端设备 | |
KR20200109904A (ko) | Dnn 기반 이미지 또는 비디오 코딩을 위한 시스템 및 방법 | |
Zhang et al. | Lossless image compression using a multi-scale progressive statistical model | |
CN110062231A (zh) | 基于多层卷积神经网络的图像压缩方法 | |
CN114222129A (zh) | 图像压缩编码方法、装置、计算机设备和存储介质 | |
CN115988215A (zh) | 可变码率图像压缩方法、系统、装置、终端及存储介质 | |
CN1159922C (zh) | 编码二进制形状信号的方法 | |
Yadav et al. | Flow-MotionNet: A neural network based video compression architecture | |
CN112437300B (zh) | 一种基于自适应区间重叠因子的分布式视频编码方法 | |
CN111050170A (zh) | 基于gan的图片压缩系统构建方法、压缩系统及方法 | |
CN115102934B (zh) | 点云数据的解码方法、编码方法、装置、设备及存储介质 | |
CN111107377A (zh) | 深度图像压缩方法及其装置、设备和存储介质 | |
CN113949880B (zh) | 一种极低码率人机协同图像编码训练方法及编解码方法 | |
GB2571818A (en) | Selecting encoding options |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |