CN113438481B - 训练方法、图像编码方法、图像解码方法及装置 - Google Patents

训练方法、图像编码方法、图像解码方法及装置 Download PDF

Info

Publication number
CN113438481B
CN113438481B CN202010208845.5A CN202010208845A CN113438481B CN 113438481 B CN113438481 B CN 113438481B CN 202010208845 A CN202010208845 A CN 202010208845A CN 113438481 B CN113438481 B CN 113438481B
Authority
CN
China
Prior art keywords
image
training
entropy
variable
quantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010208845.5A
Other languages
English (en)
Other versions
CN113438481A (zh
Inventor
周静
中川章
温思寒
谭志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN202010208845.5A priority Critical patent/CN113438481B/zh
Priority to JP2021024862A priority patent/JP2021150955A/ja
Priority to US17/182,433 priority patent/US11330264B2/en
Publication of CN113438481A publication Critical patent/CN113438481A/zh
Application granted granted Critical
Publication of CN113438481B publication Critical patent/CN113438481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本申请实施例提供一种训练方法、图像编码方法、图像解码方法及装置。图像编码装置包括:图像编码器,其对输入的图像数据进行编码得到潜在变量;量化器,其根据量化步长对所述潜在变量进行量化处理,生成量化的潜在变量;以及熵编码器,其使用熵模型对量化的潜在变量进行熵编码,形成码流。

Description

训练方法、图像编码方法、图像解码方法及装置
技术领域
本申请实施例涉及图像处理领域。
背景技术
随着计算机技术的发展,图像的应用越来越广泛。为了对图像文件进行高效的存储或传输,需要对图像进行编码,编码的结果能够被转换为码流。通过对码流进行解码,能够对图像进行再现。
深度神经网络(deep neural network)已经成为图像编码领域一个很有前途的研究方向。基于深度神经网络而设计的非线性变换编码方法比传统的图像编码方法有更好的性能,传统的图像编码方法例如是更好的便携图形(BPG)编码方法。
在基于深度神经网络的图像编码方法中,一个关键的挑战是如何实现码率(bitrate)和失真(distortion)程度的折中。其中,码率反映了图像的码流相对于图像的尺寸的大小,例如,码率可以等于码流的长度除以图像的长与宽的乘积所得到的商;失真反映了解码后得到的图像与原图像的差异。
通常,可以引入拉格朗日乘子来实现码率与失真程度的折衷,例如,在对基于深度神经网络的编码器进行训练时,可以基于损失函数(R+λ*D)进行训练,其中,R表示码率,D表示失真程度,λ是可调整的参数。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
在基于损失函数(R+λ*D)训练得到编码器的网络后,图像的码率和失真程度就被确定下来。
发明人发现,如果需要调整码率,通常是多次修改λ的取值,并且对应于每一个λ的取值,都需要对编码器的网络重新进行训练,并确定出码率最接近需要码率的编码器的网络,该调整码率的方法比较繁琐。
本申请实施例提供一种训练方法、图像编码方法、图像解码方法及装置,根据该训练方法得到的图像编码器能够方便地实现不同码率的调整。
根据本申请实施例的第一个方面,提供一种图像处理装置的训练装置,使用训练图像对图像编码器和图像解码器进行训练,所述训练装置包括:
第一获取单元,其获取所述图像编码器对输入的训练图像数据进行编码得到的潜在变量z;
第二获取单元,其获取所述图像解码器对所述潜在变量z进行解码得到的第一复原的图像数据,以及所述图像解码器对所述潜在变量z与噪声ε的和(z+ε)进行解码得到的第二复原的图像数据;
训练单元,其根据代价函数L对所述图像编码器和所述图像解码器进行训练,所述代价函数L与所述输入的训练图像数据x与所述第一复原的图像数据的偏差,以及所述第一复原的图像数据与所述第二复原的图像数据的偏差相关。
根据本申请实施例的第二个方面,提供一种图像编码装置,包括:
图像编码器,其对输入的图像数据x进行编码得到潜在变量z,所述图像编码器通过如上述第一方面所述的训练装置训练得到;
量化器,其根据量化步长Q对所述潜在变量z进行量化处理,生成量化的潜在变量;以及
熵编码器,其使用熵模型对量化的潜在变量进行熵编码,形成码流。
根据本申请实施例的第三个方面,提供一种图像解码装置,包括:
熵解码器,其使用熵模型对码流进行熵解码,形成量化的潜在变量;
解量化器,其根据量化步长Q对所述量化的潜在变量进行解量化处理,生成重构潜在变量;以及
图像解码器,其对所述重构潜在变量进行解码处理,得到复原的图像数据所述图像解码器通过如上述第一方面所述的训练装置训练得到。
根据本申请实施例的第四个方面,提供一种图像处理方法的训练方法,使用训练图像对图像编码器和图像解码器进行训练,所述训练方法包括:
获取所述图像编码器对输入的训练图像数据进行编码得到的潜在变量z;
获取所述图像解码器对所述潜在变量z进行解码得到的第一复原的图像数据,以及所述图像解码器对所述潜在变量z与噪声ε的和(z+ε)进行解码得到的第二复原的图像数据;
根据代价函数L对所述图像编码器和所述图像解码器进行训练,所述代价函数L与所述输入的训练图像数据x与所述第一复原的图像数据的偏差,以及所述第一复原的图像数据与所述第二复原的图像数据的偏差相关。
根据本申请实施例的第五个方面,提供一种图像编码方法,包括:
图像编码器对输入的图像数据x进行编码得到潜在变量z,所述图像编码器通过如上述第四方面所述的训练方法训练得到;
量化器根据量化步长Q对所述潜在变量z进行量化处理,生成量化的潜在变量;以及
熵编码器使用熵模型对量化的潜在变量进行熵编码,形成码流。
根据本申请实施例的第六个方面,提供一种图像解码方法,包括:
熵解码器使用熵模型对码流进行熵解码,形成量化的潜在变量;
解量化器根据量化步长Q对所述量化的潜在变量进行解量化处理,生成重构潜在变量;以及
图像解码器对所述重构潜在变量进行解码处理,得到复原的图像数据,所述图像解码器通过如上述第四方面所述的训练方法训练得到。
本申请实施例的有益效果之一在于:根据该训练方法得到的图像编码器能够方便地实现不同码率的调整。
参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本申请的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
参照以下的附图可以更好地理解本申请的很多方面。在本申请的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。此外,在附图中,类似的标号表示几个附图中对应的部件,并可用于指示多于一种实施方式中使用的对应部件。
在附图中:
图1是本申请实施例的图像编码装置和图像解码装置的一个示意图;
图2是本申请实施例中的训练装置的一个示意图;
图3是本申请实施例的量化器的量化处理和解量化器的解量化处理的一个示意图;
图4是本申请实施例的第一曲线和第二曲线的一个示意图;
图5是本申请实施例的图像编码方法的一个示意图;
图6是本申请实施例的图像解码方法的一个示意图;
图7是本申请实施例的训练方法的一个示意图;
图8是本申请实施例的电子设备的结构的一个示意图。
具体实施方式
参照附图,通过下面的说明书,本申请实施例的前述以及其它特征将变得明显。这些实施方式只是示例性的,不是对本申请的限制。下面参照附图对本申请的具体实施方式进行说明。
在本申请实施例中,术语“第一”、“第二”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。
在本申请实施例中,单数形式“一”、“该”等包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“所述”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”,术语“基于”应理解为“至少部分基于……”,除非上下文另外明确指出。
第一方面的实施例
本申请第一方面的实施例提供一种图像编码装置和图像解码装置。图1是图像编码装置和图像解码装置的一个示意图。
如图1所示,图像编码装置1可以将图像数据x进行处理,以形成码流(bit stream)100,码流100可以被存储或者通过传输介质被发送到图像解码装置2。图像解码装置2对接收到的码流100进行处理,从而形成复原的图像数据由此,输入到图像编码装置1的图像数据x在图像解码装置2被再现为图像数据/>
如图1所示,图像编码装置1可以包括:图像编码器11,量化器12以及熵编码器13。
图像编码器11对输入的图像数据x进行编码处理,从而得到潜在变量(latentvariable)z。图像编码器11可以基于深度神经网络进行编码处理,例如,图像编码器11可以通过基本卷积(basic convolution)层,和/或反卷积(deconvolution)层,和/或以广义分裂归一化(generalized divisive normalization,GDN)/逆广义分裂归一化(IGDN)为激活函数来实现。关于深度神经网络的概念和内容可以参考相关技术。
量化器12可以根据量化步长Q对图像编码器11输出的潜在变量z进行量化处理,生成量化的潜在变量潜在变量z是浮点型(float)的数据,通过量化处理,将浮点型的数据转变为有限长度的数据。
熵编码器13使用熵模型(entropy model)14对量化的潜在变量进行熵编码(entropy coding),形成码流100。码流100也称为比特流,是包含多个比特位的数据流。通过熵编码,难以存储和传输的量化的潜在变量/>被转换为便于存储和传输的码流100。此外,熵编码是基于熵原理的不丢失信息的编码,因此,码流100中包含的信息能够完整地反映量化的潜在变量/>中的信息。
在至少一个实施例中,熵模型14可以用于对潜在变量z的熵进行估算,熵编码器13可以基于熵模型14对潜在变量z的熵估算的结果进行熵编码。其中,熵模型14例如可以是因子熵模型(factorized entropy model)。
熵编码器13生成的码流100的码率(bit rate)R可以被表示为R=n/(W*H),其中,n表示码流100的长度,W、H分别表示图像数据x所对应的图像的宽度和长度,该宽度和长度都用像素的数量来表示。
熵编码器13生成的码流100可以被存储或者被发送到图像解码装置2。
如图1所示,图像解码装置2可以包括:图像解码器21、解量化器22以及熵解码器23。
熵解码器23使用熵模型14对接收到的码流100进行熵解码,形成量化的潜在变量熵解码的处理可以是熵编码器13的熵编码处理的逆向处理。
解量化器22根据量化步长Q对量化的潜在变量进行解量化处理,生成重构潜在变量/>解量化处理可以是量化处理的逆向处理。
图像解码器21对重构潜在变量进行解码处理,得到复原的图像数据/>图像解码器21可以基于深度神经网络进行解码处理,例如,图像解码器21可以通过基本卷积(basicconvolution)层,和/或反卷积(deconvolution)层,和/或以广义分裂归一化(generalizeddivisive normalization,GDN)/逆广义分裂归一化(IGDN)为激活函数来实现。关于深度神经网络的概念和内容可以参考相关技术。
在至少一个实施例中,图像编码器11和图像解码器21可以是基于用于生成分析的率失真优化导向自动编码器(RaDOGAGA,Rate-Distortion Optimization GuidedAutoencoder for Generative Analysis)模型的图像编码器和图像解码器,关于RaDOGAGA模型的详细原理,可以参照相关技术,例如下述网页中的说明:https://arxiv.org/abs/1910.04329。
在至少一个实施例中,图像编码器11和图像解码器21可以使用基于RaDOGAGA模型的训练装置来进行训练。
图2是本申请实施例中的训练装置的一个示意图。如图2所示,训练装置3可以包括:第一获取单元31,第二获取单元32以及训练单元33。
如图2所示,第一获取单元31获取图像编码器11对输入的训练图像数据x进行编码得到的潜在变量z。例如,z可以表示为下式(1):
z=fθ(x) (1)
在(1)式中,fθ表示图像编码器11的编码处理,该编码处理以θ作为参数(parameter)。
第二获取单元32获取图像解码器21对潜在变量z进行解码得到的第一复原的图像数据以及图像解码器21对潜在变量z与噪声ε的和(z+ε)进行解码得到的第二复原的图像数据/>例如,/>可以表示为下式(2):
在(2)式中,gφ表示图像解码器21的解码处理,该解码处理以φ作为参数(parameter)。此外,噪声ε可以是均匀的噪声(uniform noise)。
训练单元33根据代价函数L对图像编码器11和图像解码器21进行训练。其中,代价函数L与输入的训练图像数据x和第一复原的图像数据的偏差/>以及第一复原的图像数据/>与第二复原的图像数据/>的偏差/>相关。此外,训练单元33对图像编码器11和图像解码器21进行训练,是指:训练单元33对图像编码器11中的网络和图像解码器21中的网络进行训练。
在至少一个实施例中,代价函数L可以被表示为下式(3):
在(3)式的第一项log(Pz,ψ(z))中,Pz,ψ(z)表示潜在变量z的概率,该概率以潜在变量z和ψ作为参数(parameter)。通过图1中的熵模型14可以得到潜在变量z的累计密度函数(Cumulative Density Function,CDF),根据累积密度函数CDF,可以基于一元独立分布(univariate independent distribution)来估计概率Pz(z)。
此外,在熵模型14中,累计密度函数CDF可以符合下式(4a)、(4b)所示的关系:
在(4a)、(4b)式中,α表示潜在变量z的码率(bit rate)的量化步长,Rz表示潜在变量z的码率,其中H、W分别表示输入图像的高和宽。
在(3)式中,第二项用来计算图像编码器11和图像解码器21的重建损失(reconstruction loss),第三项/>反映图像与潜在变量空间(latent space)之间的缩放关系。λ1用于控制重建的程度(degree of reconstruction),λ2用于控制图像和潜在空间之间的缩放比例。
在(3)式的第二项和第三项/>中,D(x1,x2)是x1和x2之差的形变函数(distortion function)。用于图像编码领域的形变参数可以是均方误差(MSE)、峰值信噪比(PSNR)、多尺度结构相似性指数(MS-SSIM)或结构相似性指数(SSIM)。与上述形变参数对应地,形变函数D(x1,x2)可以是均方误差(MSE)形变函数、峰值信噪比(PSNR)形变函数、多尺度结构相似性指数(MS-SSIM)形变函数或结构相似性指数(SSIM)形变函数。
在(3)式的第二项中,h(D)可以是log(D),由此,损失函数的曲线在log(D)=0附近更加陡峭,从而使得图像编码器11和图像解码器21能够得到更好的重建特性和正交性。此外,本申请并不限于此,h(D)也可以是D。
在一个具体实例中:输入的训练图像x的形状为H*W*3,其中,H为训练图像x的高度,W为训练图像x的宽度,3表示3个通道;噪声ε取-0.5~0.5的值,α取值为0.2;在图像编码器11中,生成的每个特征图像的形状为H/16*W/16;在训练的第一阶段,形变函数D(x1,x2)使用最小均方误差(MSE)形变函数,h(D)=D;在训练的第二阶段,形变函数D(x1,x2)使用多尺度结构相似性指数(MS-SSIM)形变函数MSSSIM(x1,x2),h(D)=log(D),即,在训练的第二阶段,使用下式(5)的损失函数L对图像编码器11和图像解码器21进行训练:
在(5)式中,λ1可以为1,λ2可以大于100。
以上,结合图2,说明了训练装置3对图像编码器11和图像解码器21进行训练的过程。通过上述代价函数L训练得到的模型,其特征层空间与MS-SSIM空间是等距的关系,即特征层被优化为与形变函数的内积空间正交,其功能类似于联合图像专家组(JPEG)中所采用的离散余弦变换(Discrete Cosine Transform,DCT)。在训练的阶段也可以使用MSE(x1,x2)或SSIM(x1,x2)等作为D(x1,x2)。例如,以MSE(x1,x2)作为形变函数,那么也可以得到与MS-SSIM相类似的效果,即不同的量化步长可以得到与独立训练模型(R+λ*D)等效的PSNR值。
在本申请实施例的第一方面中,通过训练装置3的训练,能够得到图像编码器11和图像解码器21,具有该图像编码器11的图像编码装置1能够方便地实现不同码率的调整,此外,具有该图像解码器21的图像解码装置2能够适应不同的码率。
下面,说明图像编码装置1和图像解码装置2的与量化处理相关的操作。
在至少一个实施例中,量化器12的量化(quantized)处理可以为非均匀量化处理。其中,非均匀量化处理可以包括:以潜在变量z的概率分布峰值(或中心值)所对应的潜在变量z作为零点,使包含该零点的第一范围的潜在变量z对应于第一量化的潜在变量对于第一量化的潜在变量/>之外的其他量化的潜在变量/>各量化的潜在变量对应第二范围的潜在变量z,该第二范围不大于第一范围。其中,潜在变量z的概率分布峰值可以基于熵模型14而得到。
例如,量化器12可以使用如下的式(6)来进行量化处理:
其中,sign(z)表示潜在变量z的符号,例如,z大于0,sign(z)为正,z小于0,sign(z)为负;floor()表示向下取整;abs(z)表示取z的绝对值;offset是一个预先设定的偏移量,0≤offset≤0.5。
在本申请中,offset能够用于设定第一范围的长度,即,第一范围的长度为2*(1-offset)*Q。第二范围的长度等于量化步长Q。
在至少一个实施例中,offset不等于0.5,第二范围的长度小于第一范围的长度,量化器12进行的量化处理为非均匀量化处理。由此,在量化处理后,量化的潜在变量的熵更小。此外,本申请可以不限于此,例如,当offset等于0.5时,第二范围的长度等于第一范围的长度,量化器12进行的量化处理为均匀量化处理。
量化器12生成的量化的潜在变量经过熵编码器13进行熵编码,形成码流100。码流100被熵解码器23进行熵解码,从而在图像解码装置2中得到量化的潜在变量
在至少一个实施例中,解量化器22可以使用量化步长Q来进行解量化(dequantized)处理。例如,解量化器22可以使用如下的式(7)对熵解码器23输出的量化的潜在变量进行解量化处理,从而得到重构潜在变量/>
基于熵模型14可以得到重构潜在变量的累计密度函数(CDF),通过量化器12对z进行量化,基于量化步长可以将z量化到对应的代表值/>上,其中,代表值/>对应的z的区间上限(high bound)为zhigh和下限(low bound)为zlow,即在[zlow,zhigh]区间的z都会被量化为相应的/>其中,/>且0<ω<1。
根据zhigh和zlow,重构潜在变量的码率/>可以使用下式(10)得到:
图3是量化器12的量化处理和解量化器22的解量化处理的一个示意图。如图3所示,箭头31表示量化器12的量化处理,箭头32表示解量化器22的解量化处理。
如图3所示,通过例如式(6)的量化处理,潜在变量z被映射到量化的潜在变量上,例如:在301所示的第一范围(区间)内的潜在变量z都被映射到取值为0的量化的潜在变量/>上;在第一范围之外,潜在变量z被平均划分为多个第二范围(区间)302,在第二范围302内,潜在变量z被映射到该第二范围302对应的量化的潜在变量/>上。
如图3所示,通过例如式(7)的解量化处理,各量化的潜在变量被映射到对应的重构潜在变量/>上。
如图1所示,图像编码装置1还可以包括:第一量化步长调整器15。第一量化步长调整器15可以调整量化器12所使用的量化步长Q,从而调整码流100的码率(bit rate)。
如图1所示,图像解码装置2还可以包括:第二量化步长调整器25。第二量化步长调整器25可以调整解量化器22所使用的量化步长Q。例如,第二量化步长调整器25可以根据第一量化步长调整器15所调整的量化步长Q来调整解量化器22所使用的量化步长Q,由此,使得解量化器22与量化器12使用相同的步长Q。
在本申请的图像编码装置1中,图像编码器11是基于RaDOGAGA模型的图像编码器,通过对量化步长Q进行调整,能够实现对码率的调整,由此,能够方便且快捷地进行码率的调整。与之相对,在传统方式中,需要多次修改损失函数λ的取值,并且对应于每一个λ的取值,都需要对编码器的网络重新进行训练,并确定出码率最接近需要码率的编码器的网络,因而调整码率的过程较为复杂且耗时。
为了比较本申请的图像编码装置1与传统的图像编码装置的性能,基于通用测试数据集Kodak对本申请的图像编码装置1和传统的图像编码装置进行实验,并分别绘制二者的码率-失真程度曲线(R-D curve)。其中,传统的图像编码装置例如采用与Ballé[2017]相同的编码网络结构。为了绘制传统的图像编码装置的R-D曲线,针对不同的λ{4,8,16,32,64,96},分别对图像编解码网络进行训练,使用形变参数MS-SSIMdB来表示各图像编解码网络的失真程度,其中,MS_SSIMdB=-10log2(1-MS_SSIM)。这6个图像编解码网络分别对应的R和D被拟合为第一曲线。
对于本申请的图像编码装置1,图像编码器11的网络结构不必进行多次训练,而是调整量化步长Q,其中,Q∈{0.5,0.75,1,1.25,1.5,1.75,2,2.5,3,3.5,4},计算各量化步长分别对应的R和D。上述多个量化步长Q分别对应的R和D被拟合为第二曲线。
图4是第一曲线和第二曲线的一个示意图。在图4中,横轴表示码率R,单位是bpp(比特数每像素),纵轴是MS-SSIM表示的失真程度,单位是dB(分贝)。
在图4中,第一曲线41上的点“λ=64”可以表示用于训练该模型的损失函数为背景技术中所述的(R+λ*D),其中,λ=64,即,损失函数为(R+64*D),其余类推;第二曲线上的“Q=1”表示量化步长Q=1,其余类推。
如图4所示,第二曲线42的R-D特性与第一曲线41的R-D特性接近,即,本申请的图像编码装置1仅通过调整量化步长Q,无需对图像编码器11的网络结构进行多次训练,就能够调整码率,并且R-D特性并不降低,由此,本申请的图像编码装置1能够以简单且快速的方式进行码率调整。
第二方面的实施例
本申请实施例提供一种图像编码方法、图像解码方法和训练方法。
图5是本申请第二方面的实施例的图像编码方法的一个示意图,如图5所示,该图像编码方法包括:
操作51、图像编码器对输入的图像数据x进行编码得到潜在变量z;
操作52、量化器根据量化步长Q对所述潜在变量z进行量化处理,生成量化的潜在变量;以及
操作53、熵编码器使用熵模型对量化的潜在变量进行熵编码,形成码流。
如图5所示,该图像编码方法还包括:
操作54、第一量化步长调整器调整所述量化步长Q,以调整所述码流的码率(bitrate)。
在至少一个实施例中,量化器的量化处理为非均匀量化处理。其中,非均匀量化处理包括:
以潜在变量z的概率分布峰值所对应的潜在变量z作为零点,包含该零点的第一范围的潜在变量z对应于第一量化的潜在变量;对于第一量化的潜在变量之外的其他量化的潜在变量,各量化的潜在变量对应第二范围的潜在变量z,所述第二范围不大于所述第一范围。
其中,潜在变量z的概率分布峰值基于所述熵模型而得到。
关于图5中各操作的说明可以参考对图1中相应单元的说明。
图6是本申请第二方面的实施例的图像解码方法的一个示意图,如图6所示,该图像解码方法包括:
操作61、熵解码器使用熵模型对码流进行熵解码,形成量化的潜在变量;
操作62、解量化器根据量化步长Q对所述量化的潜在变量进行解量化处理,生成重构潜在变量;以及
操作63、图像解码器对所述重构潜在变量进行解码处理,得到复原的图像数据。
操作62中的解量化器根据量化步长进行解量化处理。
如图6所示,图像解码方法还包括:
操作64、第二量化步长调整器调整所述量化步长Q。
关于图6中各操作的说明可以参考对图1中相应单元的说明。
图7是本申请第二方面的实施例的训练方法的一个示意图,如图7所示,该训练方法包括:
操作71、获取所述图像编码器对输入的训练图像数据进行编码得到的潜在变量z;
操作72、获取所述图像解码器对所述潜在变量z进行解码得到的第一复原的图像数据,以及所述图像解码器对所述潜在变量z与噪声ε的和(z+ε)进行解码得到的第二复原的图像数据;
操作73、根据代价函数L对所述图像编码器和所述图像解码器进行训练,所述代价函数L与所述输入的训练图像数据x与所述第一复原的图像数据的偏差,以及所述第一复原的图像数据与所述第二复原的图像数据的偏差相关。
关于图7中各操作的说明可以参考对图2中相应单元的说明。
第三方面的实施例
本申请实施例还提供一种电子设备,包括有如第一方面的实施例所述的图像编码装置1,和/或图像解码装置2,和/或训练装置3,其内容被合并于此。该电子设备例如可以是计算机、服务器、工作站、膝上型计算机、智能手机,等等;但本申请实施例不限于此。
图8是本申请实施例的电子设备的结构的一个示意图。如图8所示,电子设备800可以包括:处理器(例如中央处理器CPU)810和存储器820;存储器820耦合到中央处理器810。其中该存储器820可存储各种数据;此外还存储信息处理的程序,并且在处理器810的控制下执行该程序。
在一个实施例中,图像编码装置1和/或图像解码装置2和/或训练装置3的功能可以被集成到处理器810中。其中,处理器810可以被配置为实现如第二方面的实施例所述的图像编码方法,和/或图像解码方法,和/或训练方法。
在另一个实施例中,图像编码装置1和/或图像解码装置2和/或训练装置3可以与处理器810分开配置,例如可以将图像编码装置1和/或图像解码装置2和/或训练装置3配置为与处理器810连接的芯片,通过处理器810的控制来实现图像编码装置1和/或图像解码装置2和/或训练装置3的功能。
该处理器810的具体实施可以参考第一方面至第二方面的实施例,此处不再赘述。
此外,如图8所示,电子设备800还可以包括:收发单元830等;其中,上述部件的功能与现有技术类似,此处不再赘述。值得注意的是,电子设备800也并不是必须要包括图8中所示的所有部件;此外,电子设备800还可以包括图8中没有示出的部件,可以参考现有技术。
本申请实施例还提供一种计算机可读程序,其中当在图像编码装置和/或图像解码装置和/或训练装置中执行该程序时,该程序使得计算机在该图像编码装置和/或图像解码装置和/或训练装置中执行如上面第二方面的实施例中的图像编码方法和/或图像解码方法和/或训练方法。
本申请实施例还提供一种存储有计算机可读程序的存储介质,其中该计算机可读程序使得计算机在图像编码装置和/或图像解码装置和/或训练装置中执行上面第二方面的实施例中的图像编码方法和/或图像解码方法和/或训练方法。
结合本申请实施例描述的图像编码装置或图像解码装置或训练装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如,图中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合,既可以对应于计算机程序流程的各个软件模块,亦可以对应于各个硬件模块。这些软件模块,可以分别对应于图中所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。
软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在图像编码装置或图像解码装置的存储器中,也可以存储在可插入图像编码装置或图像解码装置的存储卡中。
针对图中描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图中描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,还可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。
以上结合具体的实施方式对本申请进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本申请保护范围的限制。本领域技术人员可以根据本申请的精神和原理对本申请做出各种变型和修改,这些变型和修改也在本申请的范围内。
关于包括以上多个实施例的实施方式,还公开下述的附记。
1.一种图像处理装置的训练装置,使用训练图像对图像编码器和图像解码器进行训练,所述训练装置包括:
第一获取单元,其获取所述图像编码器对输入的训练图像数据进行编码得到的潜在变量z;
第二获取单元,其获取所述图像解码器对所述潜在变量z进行解码得到的第一复原的图像数据,以及所述图像解码器对所述潜在变量z与噪声ε的和(z+ε)进行解码得到的第二复原的图像数据;
训练单元,其根据代价函数L对所述图像编码器和所述图像解码器进行训练,所述代价函数L与所述输入的训练图像数据x与所述第一复原的图像数据的偏差,以及所述第一复原的图像数据与所述第二复原的图像数据的偏差相关。
2.一种图像编码装置,包括:
图像编码器,其对输入的图像数据x进行编码得到潜在变量z,所述图像编码器通过如附记1所述的训练装置训练得到;
量化器,其根据量化步长Q对所述潜在变量z进行量化处理,生成量化的潜在变量;以及
熵编码器,其使用熵模型对量化的潜在变量进行熵编码,形成码流。
3.如附记2所述的图像编码装置,其中,所述图像编码装置还包括:
第一量化步长调整器,其调整所述量化步长Q,以调整所述码流的码率。
4.如附记2所述的图像编码装置,其中,
所述量化器的所述量化处理为非均匀量化处理。
5.如附记4所述的图像编码装置,其中,
所述非均匀量化处理包括:
以所述潜在变量z的概率分布峰值所对应的潜在变量z作为零点,包含该零点的第一范围的潜在变量z对应于第一量化的潜在变量;
对于第一量化的潜在变量之外的其他量化的潜在变量,各量化的潜在变量对应第二范围的潜在变量z,所述第二范围不大于所述第一范围。
6.如附记5所述的图像编码装置,其中,
所述潜在变量z的概率分布峰值基于所述熵模型而得到。
7.一种图像解码装置,包括:
熵解码器,其使用熵模型对码流进行熵解码,形成量化的潜在变量;
解量化器,其根据量化步长Q对所述量化的潜在变量进行解量化处理,生成重构潜在变量;以及
图像解码器,其对所述重构潜在变量进行解码处理,得到复原的图像数据所述图像解码器通过如附记1所述的训练装置训练得到。
8.如附记7所述的图像解码装置,其中,
所述解量化器根据所述量化步长进行所述解量化处理。
9.如附记7所述的图像解码装置,其中,所述图像解码装置还包括:
第二量化步长调整器,其调整所述量化步长Q。
10.一种图像处理装置的训练方法,使用训练图像对图像编码器和图像解码器进行训练,所述训练方法包括:
获取所述图像编码器对输入的训练图像数据进行编码得到的潜在变量z;
获取所述图像解码器对所述潜在变量z进行解码得到的第一复原的图像数据,以及所述图像解码器对所述潜在变量z与噪声ε的和(z+ε)进行解码得到的第二复原的图像数据;
根据代价函数L对所述图像编码器和所述图像解码器进行训练,所述代价函数L与所述输入的训练图像数据x与所述第一复原的图像数据的偏差,以及所述第一复原的图像数据与所述第二复原的图像数据的偏差相关。
11.一种图像编码方法,包括:
图像编码器对输入的图像数据x进行编码得到潜在变量z,所述图像编码器通过如附记10所述的训练方法训练得到;
量化器根据量化步长Q对所述潜在变量z进行量化处理,生成量化的潜在变量;以及
熵编码器使用熵模型对量化的潜在变量进行熵编码,形成码流。
12.如附记11所述的图像编码方法,其中,所述图像编码方法还包括:
第一量化步长调整器调整所述量化步长Q,以调整所述码流的码率。
13.如附记11所述的图像编码方法,其中,
所述量化器的所述量化处理为非均匀量化处理。
14.如附记13所述的图像编码方法,其中,
所述非均匀量化处理包括:
以所述潜在变量z的概率分布峰值所对应的潜在变量z作为零点,包含该零点的第一范围的潜在变量z对应于第一量化的潜在变量;
对于第一量化的潜在变量之外的其他量化的潜在变量,各量化的潜在变量对应第二范围的潜在变量z,所述第二范围不大于所述第一范围。
15.如附记14所述的图像编码方法,其中,
所述潜在变量z的概率分布峰值基于所述熵模型而得到。
16.一种图像解码方法,包括:
熵解码器使用熵模型对码流进行熵解码,形成量化的潜在变量;
解量化器根据量化步长Q对所述量化的潜在变量进行解量化处理,生成重构潜在变量;以及
图像解码器对所述重构潜在变量进行解码处理,得到复原的图像数据,所述图像解码器通过如附记10所述的训练方法训练得到。
17.如附记16所述的图像解码方法,其中,
所述解量化器根据所述量化步长进行所述解量化处理。
18.如附记16所述的图像解码方法,其中,所述图像解码方法还包括:
第二量化步长调整器调整所述量化步长Q。

Claims (9)

1.一种图像处理装置的训练装置,使用训练图像对图像编码器和图像解码器进行训练,其特征在于,所述训练装置包括:
第一获取单元,其获取所述图像编码器对输入的训练图像数据进行编码得到的潜在变量;
第二获取单元,其获取所述图像解码器对所述潜在变量进行解码得到的第一复原的图像数据,以及所述图像解码器对所述潜在变量与噪声的和进行解码得到的第二复原的图像数据;
训练单元,其根据代价函数对所述图像编码器和所述图像解码器进行训练,所述代价函数与所述输入的训练图像数据与所述第一复原的图像数据的偏差,以及所述第一复原的图像数据与所述第二复原的图像数据的偏差相关。
2.一种图像编码装置,其特征在于,所述图像编码装置包括:
图像编码器,其对输入的图像数据进行编码得到潜在变量,所述图像编码器通过如权利要求1所述的训练装置训练得到;
量化器,其根据量化步长对所述潜在变量进行量化处理,生成量化的潜在变量;以及
熵编码器,其使用熵模型对所述量化的潜在变量进行熵编码,形成码流。
3.如权利要求2所述的图像编码装置,其中,所述图像编码装置还包括:
第一量化步长调整器,其调整所述量化步长,以调整所述码流的码率。
4.如权利要求2所述的图像编码装置,其中,
所述量化器的所述量化处理为非均匀量化处理。
5.如权利要求4所述的图像编码装置,其中,
所述非均匀量化处理包括:
以所述潜在变量的概率分布峰值所对应的潜在变量作为零点,包含该零点的第一范围的潜在变量对应于第一量化的潜在变量;
对于第一量化的潜在变量之外的其他量化的潜在变量,各量化的潜在变量对应第二范围的潜在变量,所述第二范围不大于所述第一范围。
6.如权利要求5所述的图像编码装置,其中,
所述潜在变量的概率分布峰值基于所述熵模型而得到。
7.一种图像解码装置,其特征在于,所述图像解码装置包括:
熵解码器,其使用熵模型对码流进行熵解码,形成量化的潜在变量;
解量化器,其根据量化步长对所述量化的潜在变量进行解量化处理,生成重构潜在变量;以及
图像解码器,其对所述重构潜在变量进行解码处理,得到复原的图像数据所述图像解码器通过如权利要求1所述的训练装置训练得到。
8.如权利要求7所述的图像解码装置,其中,
所述解量化器根据所述量化步长进行所述解量化处理。
9.如权利要求7所述的图像解码装置,其中,所述图像解码装置还包括:
第二量化步长调整器,其调整所述量化步长。
CN202010208845.5A 2020-03-23 2020-03-23 训练方法、图像编码方法、图像解码方法及装置 Active CN113438481B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010208845.5A CN113438481B (zh) 2020-03-23 2020-03-23 训练方法、图像编码方法、图像解码方法及装置
JP2021024862A JP2021150955A (ja) 2020-03-23 2021-02-19 訓練方法、画像符号化方法、画像復号化方法及び装置
US17/182,433 US11330264B2 (en) 2020-03-23 2021-02-23 Training method, image encoding method, image decoding method and apparatuses thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010208845.5A CN113438481B (zh) 2020-03-23 2020-03-23 训练方法、图像编码方法、图像解码方法及装置

Publications (2)

Publication Number Publication Date
CN113438481A CN113438481A (zh) 2021-09-24
CN113438481B true CN113438481B (zh) 2024-04-12

Family

ID=77746883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010208845.5A Active CN113438481B (zh) 2020-03-23 2020-03-23 训练方法、图像编码方法、图像解码方法及装置

Country Status (3)

Country Link
US (1) US11330264B2 (zh)
JP (1) JP2021150955A (zh)
CN (1) CN113438481B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4144087A1 (en) 2020-04-29 2023-03-08 Deep Render Ltd Image compression and decoding, video compression and decoding: methods and systems
US11849118B2 (en) * 2021-04-30 2023-12-19 Tencent America LLC Content-adaptive online training with image substitution in neural image compression
CN115103191A (zh) * 2022-06-14 2022-09-23 北京字节跳动网络技术有限公司 图像处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784359A (zh) * 2018-11-27 2019-05-21 北京邮电大学 图像生成方法、装置、设备及可读存储介质
CN110246212A (zh) * 2019-05-05 2019-09-17 上海工程技术大学 一种基于自监督学习的目标三维重建方法
CN110458904A (zh) * 2019-08-06 2019-11-15 苏州瑞派宁科技有限公司 胶囊式内窥镜图像的生成方法、装置及计算机存储介质
CN110517759A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 一种待标注图像确定的方法、模型训练的方法及装置
CN110730347A (zh) * 2019-04-24 2020-01-24 合肥图鸭信息科技有限公司 图像压缩方法、装置及电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103250412A (zh) 2010-02-02 2013-08-14 数码士有限公司 用于率失真优化的图像编码/解码方法和用于执行该方法的装置
US8964849B2 (en) 2011-11-01 2015-02-24 Blackberry Limited Multi-level significance maps for encoding and decoding
CN102724495A (zh) 2012-05-04 2012-10-10 西安电子科技大学 基于率失真的Wyner-Ziv帧量化方法
US10192327B1 (en) 2016-02-04 2019-01-29 Google Llc Image compression with recurrent neural networks
US10970765B2 (en) * 2018-02-15 2021-04-06 Adobe Inc. Generating user-customized items using a visually-aware image generation network
US11257254B2 (en) * 2018-07-20 2022-02-22 Google Llc Data compression using conditional entropy models
US11544606B2 (en) * 2018-09-14 2023-01-03 Disney Enterprises, Inc. Machine learning based video compression
EP3834137A1 (en) * 2018-09-27 2021-06-16 DeepMind Technologies Limited Committed information rate variational autoencoders
US11620521B2 (en) * 2018-11-14 2023-04-04 Nvidia Corporation Smoothing regularization for a generative neural network
US11604984B2 (en) * 2019-11-18 2023-03-14 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for machine learning based modeling
CA3109502A1 (en) * 2020-02-18 2021-08-18 Royal Bank Of Canada System and method for distributed non-linear masking of sensitive data for machine learning training
US11138409B1 (en) * 2020-09-02 2021-10-05 Tokenize, Inc. Biometric recognition and security system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784359A (zh) * 2018-11-27 2019-05-21 北京邮电大学 图像生成方法、装置、设备及可读存储介质
CN110730347A (zh) * 2019-04-24 2020-01-24 合肥图鸭信息科技有限公司 图像压缩方法、装置及电子设备
CN110246212A (zh) * 2019-05-05 2019-09-17 上海工程技术大学 一种基于自监督学习的目标三维重建方法
CN110458904A (zh) * 2019-08-06 2019-11-15 苏州瑞派宁科技有限公司 胶囊式内窥镜图像的生成方法、装置及计算机存储介质
CN110517759A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 一种待标注图像确定的方法、模型训练的方法及装置

Also Published As

Publication number Publication date
US20210297667A1 (en) 2021-09-23
JP2021150955A (ja) 2021-09-27
US11330264B2 (en) 2022-05-10
CN113438481A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
Cheng et al. Learned image compression with discretized gaussian mixture likelihoods and attention modules
CN113438481B (zh) 训练方法、图像编码方法、图像解码方法及装置
Mentzer et al. Conditional probability models for deep image compression
Cheng et al. Energy compaction-based image compression using convolutional autoencoder
CN111641832B (zh) 编码方法、解码方法、装置、电子设备及存储介质
CN1890711B (zh) 将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法
CN103329522B (zh) 用于使用字典编码视频的方法
CN113259676B (zh) 一种基于深度学习的图像压缩方法和装置
CN111009018A (zh) 基于深度神经网络的图像降维和重建方法
US10863188B2 (en) Method and apparatus for non-uniform mapping for quantization matrix coefficients between different sizes of quantization matrices in image/video coding
EP1964409A2 (en) Geometrical image representation and compression
KR20180080365A (ko) 영역-기반 이미지 압축
US20120183043A1 (en) Method for Training and Utilizing Separable Transforms for Video Coding
JP7168896B2 (ja) 画像符号化方法、及び画像復号方法
US7778468B2 (en) Decoding apparatus, dequantizing method, and program thereof
CN111641826A (zh) 对数据进行编码、解码的方法、装置与系统
CN114449276A (zh) 一种基于学习的超先验边信息补偿图像压缩方法
Al-Khafaji Image compression based on quadtree and polynomial
US6917717B2 (en) System and method for image compression using wavelet coding of masked images
Boopathiraja et al. A near lossless three-dimensional medical image compression technique using 3D-discrete wavelet transform
KR20070011148A (ko) 향상된 snr 스케일러빌리티 제공을 위한 양자화 장치 및방법
KR102245682B1 (ko) 영상 압축 장치, 이의 학습 장치 및 방법
Akbari et al. Downsampling based image coding using dual dictionary learning and sparse representations
EP4292284A2 (en) Encoder, decoder and methods for coding a picture using a convolutional neural network
CN1848960A (zh) 使用非标准化矢量量化编码器的符合视频标准的残差编码

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant