CN110383695A - 用于对数字图像或视频流进行编码和解码的方法和装置 - Google Patents

用于对数字图像或视频流进行编码和解码的方法和装置 Download PDF

Info

Publication number
CN110383695A
CN110383695A CN201880013165.9A CN201880013165A CN110383695A CN 110383695 A CN110383695 A CN 110383695A CN 201880013165 A CN201880013165 A CN 201880013165A CN 110383695 A CN110383695 A CN 110383695A
Authority
CN
China
Prior art keywords
block
image
prediction
weight
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880013165.9A
Other languages
English (en)
Other versions
CN110383695B (zh
Inventor
M·格兰齐
弗朗西斯科·韦尔多加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sisvel Technology SRL
Original Assignee
Sisvel Technology SRL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sisvel Technology SRL filed Critical Sisvel Technology SRL
Publication of CN110383695A publication Critical patent/CN110383695A/zh
Application granted granted Critical
Publication of CN110383695B publication Critical patent/CN110383695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3068Precoding preceding compression, e.g. Burrows-Wheeler transformation
    • H03M7/3071Prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • H04N19/45Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder performing compensation of the inverse transform mismatch, e.g. Inverse Discrete Cosine Transform [IDCT] mismatch
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Abstract

本发明涉及一种用于对数字图像或视频流进行编码的方法,包括:‑接收阶段,其中接收图像(f)的一部分;‑图形权重预测(GWP)阶段,其中,与涉及图像(f)的块(被预测的块)的图形相关联的权重矩阵(W)中的元素基于图像(f)中的至少一个在先前被编码的块(预测块)的被重构的、被去量化的和被逆变换的像素值来预测,所述权重矩阵(W)为包括象征了在构成所述图像(f)的一对像素之间的相似性水平的元素(wi,j)的矩阵,‑图形变换计算阶段,其中执行图像(f)的块的图形傅里叶变换,为所述块获得一组基于所预测的权重确定的系数;‑系数量化阶段,其中所述系数被量化;‑输出阶段,其中传输和/或储存包括有被变换和量化的系数的比特流。

Description

用于对数字图像或视频流进行编码和解码的方法和装置
技术领域
本发明涉及对数字图像进行编码和/或解码的方法和装置;特别地,所述方法和装置借助于所谓的基于图形的变换对数字图像进行编码和/或解码。
背景技术
对基于块的图像和视频压缩而言,离散余弦变换(DCT)是最常用的变换(见K.Sayood,Introduction to data compression(数据压缩简介),Newnes出版社,2012);实际上,离散余弦变换是流行的视频编码标准的基础,所述流行的视频编码标准比如是MPEG-2(运动图像专家组-其例如用于地面和卫星的标准清晰度视频广播并且作为DVD存储格式)、H.264/AVC(用于高清晰度视频广播,IP网络流和蓝光光盘)以及最近作为标准的H.265/HEVC(预计将会取代H.264/AVC在上述场景中的应用)。
离散余弦变换DCT的主要缺点之一在于,当块包含中断,则所得变换系数不是稀疏的,并且高频系数能够具有大的幅值。这会导致较高的比特率或者在中断周围的重构假象。
目前,已提出了基于图形的方法,根据该方法,高维数据自然地存在于图形的顶点上并且其能够被视为定义成图形信号的有限样本集合,其中在图形的每个定点处具有一个样本(见D.I.Shuman、S.K.Narang、P.Frossard、A.Ortega和P.Vandergheynst,“Theemergingfield of signal processing on graphs:Extending high-dimensional dataanalysis to networks and other irregular domains(图形信号处理的新兴领域:将高维数据分析扩展至网络和其他不规则域)”,IEEE信号处理期刊,第30卷,第3号,第83–98页,2013)。
在近些年来,研究人员已经研究了如何将经典的信号处理技术应用在图形领域中。
已经开发出了在图形领域中进行滤波、变换、调制和下采样的技术。
还已经提出了若干种图形变换,比如图形傅里叶变换(G.Taubin,“A signalprocessing approach to fair surface design(适当表面设计的信号处理方法)”,第22界计算机图形和交互技术年会的论文集,ACM,1995,第351–358页)。
一般来说,虽然图形变换被证明比传统的基于块的变换更有效率,但图形传输的开销可能很容易抵消编码效率所带来的好处。
因此,对于设计图形表示和相应图形变换非常重要的是,在图形被转移至解码器时同样也是高效的。
Sandryhaila等人的文献(“Nearest-neighbor image model(最邻近的图像模型)”,在ICIP 2012会议上发表)提出了将图像表示为节点和弧的图形,其中确定弧的权重从而最小化在接收器处的预期失真。然而,该论文并没有教导如何压缩图形权重,这导致在现实环境中难以应用该技术。
Ortega等人的文献(US 2011/206288 A1)描述了一种使用基于图形的像素预测的图像编码和解码系统。该文献教导了如何通过预测器的选择来编码和解码图片,然而,该文献并没有教导如何压缩图形权重,这导致在现实环境中难以应用该技术。
Kim、Narang和Ortega的文献(“Graph based transforms for depth videocoding(用于深度视频编码的基于图形的变换)”,在ICASSP 2012会议上发表)提出了寻找最佳的相邻矩阵,并且使用按照固定顺序的基于上下文的自适应二进制算术编码对其进行压缩;然而,该文献并未教导如何压缩图形权重,这导致在现实环境中难以应用该技术。
W.Hu、G.Cheung、A.Ortega和O.C.Au的文献(“Multiresolution graph Fouriertransform for compression of piecewise smooth images(用于压缩分段平滑图像的多分辨率图形傅里叶变换)”,在IEEE图像处理期刊中公开)提出了压缩分段平滑(PWS)图像(例如,深度图或动画图像),其中使用图形傅里叶变换(GFT)来最小化每个像素块的总信号表示成本,同时考虑信号变换系数的稀疏性以及变换描述的紧凑性。然而,该文献报告了关于自然图像的无法令人满意的结果,其中,描述图形所需的成本抵消了由自适应图形变换所提供的编码增益。
G.Shen、W.S.Kim、S.K.Narang、A.Ortega、J.Lee和H.Wey的文献(“Edgeadaptivetransforms for efficient depth map coding(用于有效深度图编码的边缘自适应变换)”,在图片编码研讨会议(PCS2010)上公开)提出了一种基于边缘自适应图形的变换(EATs)作为标准DCTs的替代方案,用于编码多视图视频编码系统中的视图合成的深度图。在H.264/AVC中,这些变换与DCT相结合,并且,变换模式选择算法被用于以速率-失真优化的方式在DCT和EAT之间进行选择。然而,出于与上面介绍的相同的原因,如果在自然图像上使用,该方法也会给出无法令人满意的结果。
Narang、Chao和Ortega的文献(“Critically sampled graph-based wavelettransforms for image coding(用于图像编码的基于关键采样图形的小批量变换)”,在APSIPA 2013会议上公开)提出了将图形编码为二进制未加权图形并且使用尺寸为(2N-1)×(N-1)的JBIG对其进行编码,其中N是原始图像中的像素的数量。该编码方案产生了具有高水平编码噪声的图像,这是因为该二进制未加权图形限制了可被编码的信息量。
G.Fracastoro、E.Magli的文献(“Predictive Graph Construction for imagecompression(用于图像压缩的预测图形构造)”,在IEEE关于图像处理的国际会议(ICIP),2015,第2204-2208页)描述了一种数字图像或视频流的编码和解码系统,其使用了基于图形的像素预测。该文献教导了如何量化图形权重矩阵的每个元素,其中每个元素借助于非线性函数(例如柯西函数)来进行处理。该文献教导了如何传输像素预测边缘图,代替更加笨重的权重矩阵。无论如何,需要在解码器上发送与图形权重相关的大量信息。
最近,在图形傅里叶变换(GFT)的背景下采用了帧内预测技术。对基于块的视频编码标准,比如H.264/AVC和H.265/HEVC而言,帧内预测是一种通行的工具,来自邻近块的一个或多个被解码的像素用于预测在当前块中的像素。
W.Hu、G.Cheung和A.Ortega的文献(“Intra-prediction and generalized graphFourier transform for image coding(用于图像编码的帧内预测和通用化的图形傅里叶变换)”,公开于IEEE信号处理期刊,第22卷,2015)提出了一种对残余像素预测的优化变换,这是基于图形傅里叶变换(GFT)的通用化版本。然而,该方法也需要在解码器处发送额外的信息,比如对象轮廓,用于识别在编码器处选择的变换和帧内预测。
为了更好地理解现有技术中的限制,以下提出了关于一种基于图形的编码-解码图像系统如何工作的简要说明。
根据现有技术的基于图形的解码-编码系统的结构在图1和图2中示出(关于其基础功能单元)。
参考图1和图2,假设图像f(或其块)具有等于的宽度和高度,从而使得其包括N个像素
此外,假设f被编码为灰度图像,每像素8比特,并且f也能够通过顶点和弧(V、A)的图形来表示,其中根据特定的适当标准的定义,V是图像的像素,而A是连接这些像素的弧。
描述图像像素的图形可表示为N×N矩阵(即具有N2个元素的矩阵),其被称为权重矩阵W,如稍后所讨论的。
图1示出了基于图形变换的图像编码器150和图像解码器170,其旨在显示现有技术关于权重矩阵W的传输/存储的限制。
编码器150至少包括:权重图形生成单元100、图形拉普拉斯单元(graphLaplacian unit)110以及图形变换单元120。
权重图形生成单元100用作输入所述N像素图像f,并且生成N×N权重矩阵W,其能够借助两个可供选择的方法来计算,如以下所描述的。
第一种方法使用预定义的非线性函数(例如高斯函数或柯西函数)来计算权重矩阵W。为了描述如何计算权重矩阵W,假设di,j代表在图像f的第i个像素fi和第j个像素fj之间的灰度空间中的距离,例如di,j能够被计算为在像素fi和fj的强度值之间的绝对差:
di,j=|fi-fj| (1)
因此,权重矩阵W的每个元素能够借助于以下的柯西方程来计算:
事实证明,连接像素fi和fj的弧的图形权重值,即wi,j,在fi和fj是相似像素的情况下,将接近于1(“高”弧权重),而在fi和fj不相似的情况下,wi,j将接近于0(“低”弧权重)。
图形拉普拉斯单元110生成变换矩阵U,其用作输入权重矩阵W。该单元被配置为用于读取W并且计算具有N×N尺寸的对角线矩阵E,从而使得其对角线的第i个元素等于进入第i个像素的所有弧的权重之和,如W中所述。
因此,E通过矩阵表示法来定义,如下所示:
在计算了对角线矩阵E之后,所述单元计算矩阵L(具有N×N尺寸),作为在对角线矩阵E与权重矩阵W之间的差;L是对称矩阵,称为W的拉普拉斯。该计算步骤以矩阵表示法进行总结,如下所示。
L=E-W (4)
最后,该单元计算N×N矩阵U,其被称为变换矩阵,其中U的列是特征向量L,即U的列是允许对角线化L的向量。
图形变换单元120用作输入图像f(其被视为具有N×1个分量的向量)和变换矩阵U,并且通过矩阵乘法来计算N×1系数向量f^:
f^=UT·f (5)
其中UT是U的转置矩阵。
随后,编码器将变换矩阵U(或可选地,能够由其计算出变换矩阵U的权重矩阵W)和系数向量f^通过带宽受限信道传输至接收器节点,或者将其储存在存储器上以供之后使用,例如用于解码目的。
解码器170至少包括图形拉普拉斯单元140和逆图形变换单元180,其被配置为从存储装置或者通过通信信道读取权重矩阵W和系数向量f^。为简单起见,假设解码器170可用的W和f^与通过编码器150生成的相同,这是因为在实际应用中采取了适当的措施来最小化在信息从编码器传输至解码器期间所发生的读/写错误或者信道错误。
图形拉普拉斯单元140(其在功能上类似位于发射器侧(单元110)的配对部件)用于输入权重矩阵W,以及生成如上所述用于编码器配对部件(counterpart)的变换矩阵U。
逆图形变换单元180采用U和f^作为输入,并且恢复原始图像f。为了执行这一任务,单元180通过生成N×N逆变换矩阵(UT)-1从而在内部反转矩阵UT,所述逆变换矩阵在这种情况下等于矩阵U,这是因为矩阵U是通过W的拉普拉斯矩阵的特征向量构成的;此后,所述单元通过以下矩阵乘法来恢复原始图像f,其被称为逆图形傅里叶变换:
f=(UT)-1·f^ (6)
显然,这第一种编码-解码方法需要编码器将权重矩阵W(其尺寸为N2个元素)和系数向量f^(其尺寸为N)传递至解码器。
图2示出了基于图形变换的另一图像编码器210和图像解码器230,其旨在显示现有技术关于边缘图(edge map)而非权重矩阵和系数向量f^的传输/存储的限制。
编码器210至少包括:边缘图生成单元215、重构权重图形生成单元212、图形拉普拉斯单元213以及图形变换单元216。
边缘图生成单元215用作输入所述N像素图像f,并且生成N×1边缘图f’:首先,N×N权重矩阵W使用通过关系式(2)给出的柯西方程来计算,其中考虑两个水平d和D(d<D)来量化像素距离di,j;以及,随后应用边缘预测算法,以便获得给出权重矩阵W的边缘图f’。
重构权重图形生成单元212用作输入所述N×1边缘图f’,以及通过恢复边缘预测算法输出重构N×N权重矩阵W’。
图形拉普拉斯单元213生成变换矩阵U,其用作输入重构权重矩阵W’,这是通过执行与所描述的单元110中相同的动作。
图形变换单元216用作输入图像f(其被视为具有N×1个分量的向量)和变换矩阵U,随后计算N×1系数向量f^,这是通过执行与所描述的单元120中相同的动作。
随后,编码器将边缘图f’和系数向量f^通过带宽受限信道传输至接收器节点,或者将其储存在存储器上以供之后使用,例如用于解码目的。
解码器230至少包括:重构权重图形生成单元232、图形拉普拉斯单元233和逆图形变换单元231,并且被配置为从存储设备或者通过通信信道读取边缘图f’和系数向量f^。
为简单起见,假设解码器230可用的f’和f^与通过编码器210生成的相同,这是因为在实际应用中采取了适当的措施来最小化在信息从编码器传输至解码器期间所发生的读/写错误或者信道错误。
重构权重图形生成单元232和图形拉普拉斯单元233在功能上类似位于发射器侧的配对部件。重构权重图形生成单元232用于输入边缘图f’并且生成重构权重矩阵W’,随后图形拉普拉斯单元233用于输入重构权重矩阵W’并且生成如上所述用于编码器配对部件的变换矩阵U。
逆图形变换单元231将U和f^用作输入和输出被恢复的图像f~,这是通过执行与所描述的单元180中相同的动作。
这第二种编码-解码方法需要编码器将边缘图f’和系数向量f^(这二者尺寸均为N)传递至解码器。
在真实世界的应用中,通信发生在带宽受限信道上,因此希望f^和W中的任一个(或两者)能够在其被放到信道上之前要经过某种有效形式的压缩。这同样适用于图像f在具有有限容量的存储器单元上的存储。
关于系数向量f^压缩的问题,其特性使得要能够通过现有的有损或无损的方法基于量化和熵编码方案来进行有效压缩。
量化被用于增加压缩量,而同时降低重构的保真水平。
GFT变换系数具有的光谱特性,其能够以现有技术中使用DCT系数所实现的类似的方式来使用。
相对地,权重矩阵W不能够借助于任何现有压缩技术来进行有效压缩,原因在于,其特性无法实现高效压缩。
发明内容
本发明旨在通过提出一种用于对数字图像或视频流进行编码和/或解码的方法和装置来解决上述的和其他的问题。
本发明的基本思想是对表示图像的图形进行编码,避免需要对图形权重或其(作为侧边信息的)边界图进行编码。
本发明教导了如何考虑在空间预测技术中使用的类似方法,以便代替像素有效地预测图形权重:构成图像的每个块的图形权重能够根据一个或多个相邻的在先前被编码的块的重构像素样本来预测。
特别地,公开了双向图形权重预测(GWP)模式。
此外,本发明能够与本领域已知的其他基于图形的帧内预测方法(其显示出有效的编码增益)联合使用。
附图简述
根据在附图中所示的、仅通过非限制性举例的方式提出的实施方式的描述,本发明的特征和其他优势将变得显而易见,其中:
-图1显示了根据现有技术的基于参考图形的图像编码-解码系统的方框图;
-图2显示了根据现有技术的基于参考图形的图像编码-解码系统的另一方框图;
-图3显示了根据本发明的、用于编码数字图像或视频流的装置的功能;
-图4显示了根据本发明的、用于解码数字图像或视频流的装置的功能;
-图5显示了灰度图像的示例(图5(a)),以及,所述灰度图像的示例性图像块(图5(b));
-图6a显示了对被表示为4连接的正方块网格图的图像或图像块进行向量化(序列化)的可能方法,以及,图6b显示了一向量,其中第i个元素对应于按光栅扫描顺序计数的块中的第i个像素;
-图7显示了一个方框图,其示出了根据本发明的、用于对数字图像或视频流进行压缩/解压缩的装置;
-图8显示了被划分成多个非叠加的块的图像,以及,块的扫描顺序的示例;
-图9显示了如本发明所公开的垂直权重预测模式;
-图10显示了如本发明所公开的水平权重预测模式;
-图11显示了一方框图,其示出了根据本发明的、用于对数字图像或视频流进行压缩的装置;
-图12显示了一方框图,其示出了根据本发明的、用于对数字图像或视频流进行解压缩的装置;
-图13显示了根据本发明实现的测试编码器-解码器对的性能;
-图14示出了角度权重预测模式,如本发明中所公开的。
具体实施方式
在本说明书中,任何对“实施方式”的引用将指明:关于本发明的实现方式所描述的特定配置、结构或特征被包括在至少一个实施方式中。因此,短语“在实施方式中”和其他类似的表述(其可能存在于说明书中的不同部分)将不必全部都关于同一实施方式。此外,任何特定配置、结构或特征能够以任何适当的方式在一个或多个实施方式中进行组合。因此,以下参考仅出于简化目的,而并不限制各种实施方式的保护范围或扩展。
关于图11,一种用于对数字图像或视频流进行压缩的装置1100(也称为编码装置1100)包括以下部分:
-处理单元1110,比如中央处理器单元(CPU),被配置为执行用于实现根据本发明的一个实施方式的对数字图像或视频流进行编码的方法的一组指令(所述方法将在本发明以下的说明书中进行详细描述);
-存储器单元1140,其包含与待压缩的图像相关的数据并且优选包含实现根据本发明的一个实施方式的对数字图像或视频流进行编码的方法的指令,其中,图像数据是所述图像的至少一部分的表示并且优选采用二进制格式,并且其中,所述存储器单元1140也可包含所述方法的指令的执行结果;
-输入单元1170(例如I/O单元),其能够通过CPU 1110配置成从(视频)源1000读取待处理的图像或视频流;此类输入单元例如可包括根据以下标准中的至少一个的适配器:USB、Firewire、RS232、IEEE 1284、以太网、Wi-Fi等等;
-图形权重预测(GWP)编码单元1120,其被配置为从存储器单元1140获取原始图像或视频流,执行用于获取与图像块相关的图形的垂直和水平权重预测模式的方法的多个阶段;特别地,执行对于每个块的权重预测,这要考虑在先前被编码的相邻的块的被重构(被去量化和逆变换)的像素强度,根据垂直和水平权重预测模式来获得与每个块的图形相关的垂直和水平预测权重,并随后将其储存到存储器单元1140中;
-图形编码单元1130,其被配置为执行根据本发明的一个实施方式的、用于对数字图像或视频流进行编码的方法的多个阶段;特别地,该单首先被配置为图像块或视频数据的图形傅里叶变换,其中所述图形傅里叶变换首先被确定为垂直预测权重的函数,并随后,被确定为水平预测权重的函数,为每个块获得一组与垂直预测模式相关的第一系数以及一组与水平预测模式相关的第二系数,这些系数根据预先确定的量化参数q来量化,并且将所得的被量化的系数的组储存回存储器单元1140中;
-预测模式选择单元1150,其被配置为执行根据本发明的一个实施方式的、用于编码数字图像或视频流的方法的多个阶段;特别地,该单元被配置为对每个被编码的块选择垂直或水平预测模式,这是通过在多组被量化的系数中选择对于每个块而言会产生最大数量的零系数的预测模式,并且发信通知(signalling)所选择的每个块的权重预测模式,这是例如通过使用关于每个预测模式的预定义的二进制字保存为二进制文件,并且将所得得二进制文件储存回存储器单元1140中;
-熵编码单元1160,其被配置为从存储器单元1140获取储存有所选择的模式信息的二进制文件以及所选择的被量化的系数的组,根据任一预定义的顺序(例如光栅扫描顺序或垂直扫描顺序)将被量化的系数按顺序排列,其与解码器1200中所使用的顺序相同,其中,采用所选择的模式信息和所选择的每个块的被量化的系数作为熵编码器的输入,所述熵编码器例如能够为基于上下文自适应二进制算术编码(CABAC)的编码器或者基于上下文自适应可变长度编码(CAVLC)的编码器;
-输出单元1180(例如网络或存储装置适配器),其能够通过CPU 1110配置为通过通信信道将处理结果传输至目的地1195(例如存储介质、远程客户端等等);此类输出单元例如可包括根据以下标准中的至少一个的适配器:以太网、SATA、SCSI等等;
-通信总线1190,其允许在CPU 1110、GWP编码单元1120、图形编码单元1130、存储器单元1140、预测模式选择单元1150、熵编码单元1160、输入单元1170和输出单元1180之间进行信息交换;作为使用通信总线1190的替代方案,能够借助于星型结构来连接CPU 1110、GWP编码单元1120、图形编码单元1130、存储器单元1140、预测模式选择单元1150、熵编码单元1160、输入单元1170以及输出单元1180。
视频源1000能够为实时图像的提供者(比如摄像头),或者是被存储的内容的提供者(比如磁盘或其他存储装置和储存设备)。中央处理单元(CPU)1110负责在由装置1100所执行的编码过程中启动适当的一系列由单元1120、1130、1150、1160所执行的操作。
这些单元能够借助于专用硬件组件(例如CPLD、FPGA等等)来实现,或者能够通过一组或多组由CPU 1110执行的指令来实现;在后一种情况下,单元1120、1130、1150、1160仅仅是逻辑(虚拟)单元。
当装置1100处于工作状态,CPU 1110首先从视频源获取图像,并将其加载到存储器单元1140中。
接下来,CPU 1110启动图形权重预测(GWP)编码单元1120,执行方法的多个阶段(见图3的步骤310),以便获得与图像块相关的图像的垂直和水平权重预测模式,并且将所得的垂直和水平预测权重储存回存储器单元1140中。
接下来,CPU 1110启动图形编码单元1130,其从存储器1140获取垂直和水平预测权重,执行根据本发明一个实施方式的用于对数字图像或视频流进行编码和量化的方法的多个阶段(见图3的步骤315、320),并且将所得的被量化的系数的组储存回存储器单元1140中。
随后,CPU 1110激活预测模式选择单元1150,其从存储器1140获取被量化的系数的组,执行根据本发明的用于选择所述被量化的系数的方法的多个阶段(见图3的步骤325),以及,将所选择的每个块的模式信息储存到存储器1140中。
接着,CPU 1110启动熵编码单元1160,其从存储器获取所选择的模式信息以及所选择的被量化的系数的组,执行根据本发明的用于按顺序排列所选择的被量化的系数的方法的多个阶段(见图3的步骤330),则该单元对所选择的模式信息和所选择的被量化的系数的序列进行熵编码,获得要被储存在存储器1140中的比特流。
此时,CPU 1110可处理在编码器侧1100不再需要的、来自存储器单元1140的数据。
最后,CPU 1110从存储器1140获取比特流,并将其放入信道中或将其存入存储介质1195中。
还参考图12,用于对数字图像或视频流进行解压缩的装置1200(也称作解码装置1200)包括以下部件:
-处理单元1210,比如中央处理单元(CPU),被配置成执行根据本发明的一个实施方式的、用于执行对数字图像或视频流进行解压缩的方法的一组指令(所述方法将在以下说明书中详细描述);
-存储器单元1240,其包含与所接收的压缩图像有关的数据并且优选包括实现根据本发明的一个实施方式的、用于解压缩数字图像或视频流的指令,其中,图像数据是所述图像的至少一部分的表示并优选采用二进制格式,并且其中,所述存储器单元1240还可包含所述方法的指令的执行结果;
-输入单元1280(例如网络或或存储装置适配器),其能够通过CPU 1210配置为从通信信道或存储介质1200读取被编码的图像或视频流;所述输入单元1280例如可包括根据以下标准中的至少一个的适配器:以太网、SATA、SCSI等等;
-熵解码单元1220,其被配置为:执行用于接收比特流并对其进行熵编码的方法的多个阶段,获得每个根据编码装置1100编码的图像块的被量化的系数的有序序列,并且还解码该序列块的相应模式预测信息;
-图形权重预测(GWP)解码单元1230,其被配置成执行用于根据被解码的块的模式信息来获得与序列块相关的图形的垂直或水平预测权重的方法的多个阶段;特别地,执行每个块的权重预测,这是通过考虑在先前被解码的相邻的块的被重构(被去量化和逆变换)的像素强度,获得与序列块的图形相关的垂直或水平预测权重;
-图形解码单元1250,其被配置为执行用于根据本发明的一个实施方式的对数字图形或视频流进行解压缩的方法的多个阶段;特别地,该单元被配置为对每个被解码的块的系数进行去量化,并且执行所述被去量化的系数的逆图形傅里叶变换,其中,所述图形傅里叶变换被确定为垂直或水平预测权重的函数,从而恢复被重构的图像;
-输出单元1270,比如视频适配器,其能够通过CPU 1210被配置为,优选地在显示装置1295上,再现和/或输出被处理(被解码或解压缩)的图像或视频流;所述输出单元例如可包括根据以下标准中的至少一个的适配器:VGA、S-video、HDMI、以太网等等;
-通信总线1290,其允许在CPU 1210、熵解码单元1220、图形权重预测解码单元1230、图形解码单元1250、存储器单元1240、输出单元1270和输入单元1280之间进行信息交换;作为使用通信总线1290的替代方案,能够借助于星型结构来连接CPU 1210、熵解码单元1220、图形权重预测解码单元1230、图形解码单元1250、存储器单元1240、输出单元1270以及输入单元1280。
对于前述编码装置1100,解码装置1200的CPU 1210还负责启动适当的一系列由单元1220、1230和1250所执行的操作。
这些单元还能够借助于专用硬件组件(例如CPLD、FPGA等等)来实现,或者能够通过一组或多组由CPU 1210执行的指令来实现;在后一种情况下,单元1220和1230仅仅是逻辑(虚拟)单元。
当装置1200处于工作状态,CPU 1210首先从信道或存储介质1195获取比特流,并且将其加载到存储器单元1240中。
然后,CPU 1210启动熵解码单元1220,其从存储器1240接收比特流,执行根据本发明的一个实施方式的方法的多个阶段,所述方法用于获得每个被编码的块的被量化的系数的有序序列和该序列块的相应模式预测信息(见图4的步骤400、405),并且将所述有序序列和模式预测信息储存到存储器单元1240中。
接下来,CPU 1210启动图形权重预测(GWP)解码单元1230,其从存储器1240获取被量化的系数的序列和该序列块的相应模式预测信息,执行根据本发明的一个实施方式的、用于获得与所述序列块相关的图形的垂直或水平权重预测模式的方法的多个阶段(见图4的步骤410),并且将所述垂直或水平权重预测模式储存到存储器单元1240中。
随后,CPU 1210启动图形解码单元1250,其从存储器1240获取每个块的预测权重,执行根据本发明的一个实施方式的方法的多个阶段,所述方法用于对每个块的系数进行去量化并且基于被重构的权重来执行所述被去量化的系数的逆图形傅里叶变换(见图4的步骤415、420),恢复被重构的图像(见图4的步骤420),并且将所恢复的图像或视频信号储存到存储器单元1240中。
在此时,CPU 1210可处理在解码器侧不再需要的、来自存储器的数据。
最后,CPU可从存储器1240获取所恢复的图像,并借助于输出单元1270将所述图像发送至显示单元1295。
应当注意的是,在附图中所描述的编码和解码装置可如何通过CPU 1210来控制,从而以流水线方式进行内部操作,使得能够缩短处理每个图像所需的总时间,即通过在同一时间执行多个指令(例如使用多于一个的CPU和/或CPU内核)。
还应当注意的是,在将编码装置1100的输出数据发送到信道上或者将其储存在存储单元上之前,还能够对编码装置1100的输出数据执行多种其他的操作,比如调制、信道编码(即错误保护)。
相反,在对解码装置1200的输入数据进行有效处理之前,还能够对解码装置1200的输入数据执行类似的逆操作,例如解调和纠错。这些操作与实施本发明无关,因此将被省略。
此外,在图11和图12中所示的方框图仅仅是示例性的,其允许理解本发明是如何工作的,以及如何由本领域技术人员实现。
本领域技术人员将会理解的是,这些图表对于在其中所示出的功能、相互关系和信号(其能够以多种等效的方式进行组合)而言没有任何限制性的意义;例如,看起来要通过不同逻辑块执行的操作能够通过硬件和软件资源的任意组合来实现,其也是用于实现不同的或全部的块的相同资源。
现在,将在以下对编码过程和解码过程进行详细描述。
编码
为了显示如何进行解码处理过程,假设要处理的图像优选为灰度图像,其中每个像素以8比特编码,从而使得所述像素的值能够借助于在0与255范围内的整数值来代表,见图5(a)中所示的f的例子。
在存在彩色的或多光谱的图像的情况下,编码过程需要在每个图像通道上进行迭代,例如RGB彩色空间中的彩色图像情况下的红、绿和蓝通道,或者在使用亮度/色度通道时的Y、U、V通道,或者任何其他彩色的或多频谱的通道组。
在下文中,为了简化表示,假设将所述图像细分为正方形块,这些正方形块的尺寸例如为4×4、8×8、16×16个像素,等等。
图5(b)显示了图5(a)中所示4×4像素的图形块。然而,所述处理能够被应用至任意形状(例如长方形)的块。
如果将加权图形构造成代表在一组节点(其代表可具有任意形状的、待编码的区域中的像素)之间的关系,甚至能够在不修改所提出的机制的情况下对非多边形(不规则)的形状进行处理。
还可参考图6(b),每个图像块通过N×1向量来代表,其中第i个元素优选对应于在块中按光栅扫描顺序计数的第i个像素;因此,图6(a)显示了从二维矩阵或图形形式开始矢量化图像块表示的可能方式,其中,节点代表像素并且弧代表水平和垂直相邻,并且其中,该块具有正方形形状且假设N为16。
每个第n个像素(节点)根据光栅扫描顺序从1到16进行编号,并且变换成向量f的第n个元素(见图6(b))。
因此,在本发明的实施方式中,例如像素6(f6)被认为仅与像素2(f2)、5(f5)、7(f7)和10(f10)相邻,而像素13(f13)则与像素9(f9)和14(f14)相邻。
此外,假设每个块具有4连接的网格图形拓扑,如图6(a)中所示,其最常用于基于图形的图像压缩,这是由于其边缘数量小于其他拓扑,因此编码成本有限。
参考图7,其现在描述了编码装置710的不同部分如何相互作用以压缩数字图像或视频流。
参考图3和图8,图形权重预测单元715优选执行以下步骤:
-初始编码305(其中要通过图形傅里叶变换(GFT)技术),第一块(例如图像810最左上角的块820)被图形变换,其中,图形拓扑是4连接的正方形网格,并且,图形权重{w}全部被设定为固定值μ∈(0,1)。
如果μ=1,则GFT变为与众所周知的可分离离散余弦变换(DCT)一致,也就是所谓的均匀GFT。因此,在第一块820上,GFT根据关系式(3)、(4)和(5)来执行,则所获得的系数f^根据预定义的参数q进行量化,从而使得当然,在作为第一个被编码的图像块上不可能进行GWP预测:这同样适用于任何以其他预定义的顺序(比如垂直扫描、锯齿形扫描或螺旋形扫描)初始编码的块;
-图形权重预测(GWP)310,其中与图像的给定块相关的图形的权重被预测,这是基于与所述给定块相邻的块相关的重构样本;特别地,可考虑选择图像块的预定义顺序,例如从左上向右(见图8的元素805),考虑第一块820的重构系数来预测块830的权重,接下来,通过在先前被编码的相邻的块(例如图8中所示的块840)的重构系数(即重构像素样本)来预测连续的块的权重。
通过这种方式,除了第一块820之外,能够根据相邻的在先前被编码的块的重构像素样本来预测构成图像的每个块的图形权重。
应当注意的是,在图像的相邻块之间的像素样本相关性允许预测图像的给定相邻块的图形权重。
这相对于本领域已知的方法而言是一种新的方式,其中,将像素样本相关性用于预测给定的相邻图像块的像素样本,这被称为空间预测。
而相对地,根据本发明的一个实施方式,图形权重(而非像素本身)基于重构(已被编码和解码的)像素值的至少一个块来预测,所述至少一个块是在根据针对编码器和解码器预先确定的编码顺序中位于当前块之前的。
一般来说,在先前被编码和解码(即被重构)的一个像素块、多于一个像素块或者所有像素块能够被用于预测当前块的权重矩阵。通常,在先前被重构的块的多个(一个或多个)像素被用于预测当前块。
在本发明的一个特别有利的实施方式中,仅考虑最接近当前块(其图形权重待预测)的一个块以便执行预测;这是因为,通常来说,越接近像素块则在像素之间的空间相关性越高,而由预测所导致的近似误差则越低。
在本发明的特定实施方式中,仅考虑与当前块相邻的一些块以执行预测;如果每个块具有至少一个边界像素,而该边界像素与其他块的边界像素邻接,则两个块是相邻的。例如在图8中,在块870之前编码的那些块中,块820、830、835和860与块870相邻。
因此,例如参考图8,按其中所考虑的特定的预定义的扫描顺序,在块870之前被编码和重构的块为第一行中所有的块(包括块820、830、835、840、850、805)以及块860。
因此,在原则上,这些块中的任意一个,无论是单独地抑或是按其任意组合,均能够被用于预测块870。
在本发明的特定实施方式中,仅与块870相邻的、在先前被重构的块被用于所述块870的GWP。因此,块820(对角线左上角)、830(垂直上方)、835(对角线右上角)和860(水平左侧)能够被单独地或任意组合地用于块870的GWP。
在本发明的另一个实施方式中,为简单起见,仅一个按照预定顺序在先前被重构的块有效地用于当前块的GWP,即便多于一个的块被认为是实现预测的候选块,而最终由于某种选择标准,这些候选块中仅一个被实际用作预测块。
在另一特定实施方式中,仅仅与当前块共有多个边界像素的块被考虑用于执行当前块的GWP。
在特定实施方式中,选择光栅扫描顺序作为预定义的顺序(如图8中所示),其中,仅一个(上方)垂直的或(左侧)水平的块被用于预测当前块。
由于该实施方式的特定的预先确定的顺序,放入圆括号内的表述“上方”和“左侧”是赘述的,并且能够被省略;其仅仅分别表明垂直或水平GWP模式。
如果与当前块相邻仅有一个水平或一个垂直的、在先前被重构的块,则仅将该现有的一个块用于预测。按预定顺序的第一个块不具有先前的块;因此,其不能够被预测,并且必须要进行计算(见图3的步骤305)。
在最后一个实施方式中,可考虑两个图形权重预测(GWP)模式:即垂直权重预测模式和水平权重预测模式。
参考块870,垂直权重预测模式考虑与相邻的在先前被编码的块830相关的重构样本;特别地,参考图9,块870的每一行i∈[1,3]的垂直权重能够通过以下公式给出:
而块870的每一列j∈[1,3]的水平权重能够在考虑相邻的在先前被编码的块830的参考行r的重构样本SV={xr,1,xr,2,xr,3,xr,4}组的情况下进行预测,从而使得
其中,函数f能够为非线性函数(例如柯西函数或高斯函数),从而使得在重构样本相似时,权重增大,如以上所讨论的(见关系式(2))。
在柯西函数的情况下,f能够被选择为:
在另一方面,参考块870,水平权重预测模式考虑与相邻的在先前被编码的块860相关的重构样本;特别地,参考图10,块870的每一列j∈[1,3]的水平权重能够通过以下公式给出:
而块870的每一行i∈[1,3]的垂直权重能够在考虑相邻的在先前被编码的块830的参考列r的重构样本SH={x1,r,x2,r,x3,r,x4,r}组的情况下进行预测,从而使得
重构样本x,对于垂直和水平权重预测模式二者而言,能够通过执行逆图形傅里叶变换来评估,这是根据去量化系数的关系式(6),如下:
其中,q为量化参数,而则为相邻的在先前被编码的块830或860的量化系数。
U为变换矩阵,其中U的列是通过关系式(4)给出的拉普拉斯矩阵L的特征向量,作为在考虑相邻的在先前被编码的块830或860的图形权重的情况下所获得的权重矩阵W的函数。
除了在图像边界上的块(在边界位置仅允许进行垂直或水平权重预测模式)之外,为每个块执行垂直和水平权重预测模式。
还是参考图3和图8,图形编码单元720优选执行以下步骤:
-图形变换计算315,其中计算图像块的图形傅里叶变换;参考块870,其系数能够通过以下数学表达式根据其像素样本f来确定:
其中,图形变换矩阵U由根据关系式(4)计算出的图形拉普拉斯矩阵L的特征向量得到,其中,L是根据垂直或水平权重预测模式评估的、块870的预测权重的函数,如以上关于单元310所解释的;
-系数量化320,其中通过使用系数量化参数q来量化通过关系式(12)给出的每个块的转换系数从而使得
还是参考图3,单元725优选执行以下步骤:
-选择模式预测325,其中为每个被编码的块选择垂直或水平预测模式,这是通过在量化的系数的组中选择对于每个块而言会产生最大数量的零系数的预测模式,并且发信通知所选择的每个块的权重预测模式,这是例如通过使用关于每个预测模式的预定义的二进制字保存为二进制文件。
例如,考虑如本实施方式中所讨论的垂直和水平预测模式,可以构成所述二进制文件B,从而使得每个所选择的块能够通过一比特被发信通知,所述一比特将垂直模式表示为“1”而将水平模式表示为“0”,反之亦然。在另一个较不优选的实施方式中,编码器不会产生不被解码装置读取或接收的文件,在这种情况下,需要再次影响用于选择当前块的预测块的选择模式预测。
还是参考图3,单元730优选执行以下步骤:
-熵编码330,其中根据预定义的顺序(列如光栅扫描顺序)将所选择的被量化的系数按顺序排列,其与解码器1200中所使用的顺序相同,其中采用所选择的模式信息(被存储在二进制文件中)和所选择的每个块的被量化的系数作为熵编码器的输入,所述熵编码器例如能够为基于上下文自适应二进制算术编码(CABAC)的编码器或者基于上下文自适应可变长度编码(CAVLC)的编码器。
总之,还是参考图7和图11,根据本发明的一个实施方式的、用于对数字图像或视频流进行编码的方法优选包括以下阶段:
-接收阶段,其中,图形f的至少一部分借助于输入单元1170接收;
-图形权重预测(GWP)阶段,其中,执行与图像块相关的图形的垂直和水平权重预测模式;特别地,每个块的权重预测通过考虑在先前被编码的相邻的图像块的、被重构(被去量化和逆变换)的像素强度来获得;
-图形变换计算阶段,其中,执行图像块或视频数据的图形傅里叶变换;特别地,所述图形傅里叶变换首先被确定为垂直预测权重的函数,并随后被确定为水平预测权重的函数,为每个块获得一组与垂直预测模式相关的第一系数,以及一组与水平预测模式相关的第二系数;
-系数量化阶段,其中,根据预先确定的量化参数q将图像块的一组垂直系数和一组水平系数进行量化;
-优选地,预测模式选择阶段,其中,为每个块选择具有最好编码效率的编码模式。在图像和视频编码的现有技术中可获得多种编码模式选择的解决方案。特别地,在本发明的一个实施方式中,能够选择垂直和水平权重预测模式,这是通过在被量化的系数的组中选择对于每个块而言会产生最大数量的零系数的预测模式,并且发信通知所选择的每个块的权重预测模式,这例如通过使用关于每个模式的预定义的二进制字保存为二进制文件。
其他方法通常是基于率失真理论和优化技术,例如基于拉格朗日函数的最小化。
-优选地,熵编码阶段,其中,二级制文件(其存储所选择的模式信息)和所选择的被量化的系数的组被熵编码,这例如是通过使用基于上下文自适应二进制算术编码(CABAC)的编码器;其中所选择的被量化的系数首先根据预定义的顺序(例如光栅扫描顺序)被按顺序排列,其与解码装置1200中所使用的顺序相同。
最终,由熵编码器输出的比特流能够借助于输出单元1180传输和/或存储。
解码
参考图7和图4,解码器750包括:熵解码单元755、图形权重预测(GWP)单元760和图形解码单元765。
熵解码单元755优选执行以下步骤:
-接收步骤400,其中,接收根据编码装置1100编码的比特流;
-熵解码405,其中,解码所接收的比特流,获得关于每个根据编码装置1100编码的图像块的被量化的系数的有序序列,并且还解码该序列块的模式预测信息。
图形权重预测单元760优选执行步骤410,其中,根据被解码的块的模式信息,获得与该序列块相关的图形的垂直或水平预测权重;特别地,执行关于每个块的权重预测,这是通过考虑在先前被解码的相邻的块的被重构(被去量化和逆变换)的像素强度,获得与序列块的图形相关的垂直或水平预测权重。
参考图8中所绘的块870,如果在本发明的一个实施方式中所接收的预测模式信息以二进制文件B的形式发信通知:垂直权重预测模式已被编码器用于块的GWP,随后,考虑相邻的在先前被解码的块830的重构系数来预测当前块870的图形权重。
然而,如果预测模式信息发信通知水平权重预测模式,则考虑相邻的在先前被解码的块860的重构系数来预测当前块870的图形权重。
对于垂直权重预测模式,根据关系式(7)和(8)预测权重,并且,对于水平权重预测模式,根据关系式(10)和(11)预测权重。
在没有预测模式信息通过编码器710生成或被通信至解码器750的实施方式中,解码器750为每个适用的块执行GWP预测,这是按照与编码器所采用的相同的方式;
图形解码单元760优选执行以下步骤:
-去量化步骤415,其中,每个被编码的块的系数根据量化参数q被去量化;参考块870,其量化的系数被去量化,使得
-逆图形变换计算420,其中,针对每个块,计算被去量化和变换的块系数的逆图形傅里叶变换,这是根据以下数学关系:
其中,图形变换矩阵U根据图形拉普拉斯矩阵L的特征向量获得,其根据关系式(4)计算,作为每个被编码的块(例如块870)的预测图形权重的函数;
-图像恢复步骤420,其中,被重构的图像信号被输出。
总之,根据本发明的一个实施方式的、用于解码数字图像或视频流的方法优选包括以下阶段:
-接收阶段,其中,根据编码装置1100编码的比特流借助于输入单元1280接收;
-优选地,熵解码阶段,其中,所接收的比特流被熵解码,获得关于每个根据编码装置1100编码的图像块的被量化的系数的有序序列,并且还解码该序列块的模式预测信息;
-图形权重预测阶段,其中,根据被解码的块的模式信息,获得与该序列块相关的图形的垂直或水平预测权重。
特别地,执行关于每个块的权重预测,这是通过考虑在先前被解码的相邻的块的被重构(被去量化和逆变换)的像素强度,获得与序列块的图形相关的垂直或水平预测权重。
-去量化阶段,其中,每个被编码的块的系数根据量化参数q被去量化;
-逆图形变换计算阶段,其中,对于图像块,执行被去量化的块系数的逆图形傅里叶变换,从而使得,所述逆图形傅里叶变换根据被解码的块的预测图形权重来确定;
-恢复图像阶段,其中,通过对块的像素二维矩阵进行重构而获得每个图像块,这是从相应的向量图f出发并考虑例如光栅扫描顺序,见图6(a)。应当注意的是,可为了这一目的考虑使用任何其他的顺序。
最终,被重构的图像能够借助于输出单元1270输出。
参考图13,将讨论由申请人所执行的性能测试的结果。在测试中,评估了根据本发明所实现的编码器-解码器对。
所有实验均针对一组标准图像,其包括摄影照片和计算机渲染的图像,其图像分辨率在从256×256直至4288×2848的范围内。所有彩色图像被转换成灰度。使用本发明所描述的全图像编码器估计GWP可实现的编码增益,其原型(prototype)以C++语言实现。
通过改变量化步长q,根据PSNR相对于每像素比特(bpp)的编码率来测量编码性能。块大小被固定为8像素,并且,根据关系式(9)以及柯西函数参数α=6.0来计算图形权重。
通过使用具有不同预测模式和变换变量的所提出的编码器来进行比较研究。
特别地,使用标准DCT而不对所有块进行预测(与统一的8×8图形上的GFT一致)作为基准,随后,添加如本发明所描述的两个所提出的垂直和水平GWP编码模式(GWP-GFT)。
此外,还存在一种基于三个编码模式(经典的DCT、使用ADST的垂直和水平帧内预测)的可供选择的解决方案,该解决方案由J.Han、A.Saxena、V.Melkote和K.Rose提出(“Jointly optimized spatial prediction and block transform for video andimage coding(针对视频和图像编码的联合优化的空间预测和块变换)”,发表于IEEE图像处理期刊,第21卷,2012年4月)。
该方法也称为IP-ADST。最后,通过将GWP-GGFT应用于帧内预测残差来联合使用ADST和GWP,这称为IP-GWP-GGFT。
在图13中示出了借助于在茶壶图像上使用所实验的方法获得的速率/失真曲线。能够利用所公开的垂直和水平图形权重预测模式来改善GFT的压缩能力。
此外还表明的是,本发明中所公开的技术还能够与常用的帧内预测模式和其他自适应变换(比如ADST)结合工作。
实验结果表明,本发明公开的技术能够改善压缩效率,相比于JPEG,提供了大约30%的BD率降低。
总之,所获得的结果表明,在本发明中所描述的方法能够胜过经典的固定变换,比如DCT。
编码和解码图像块所遵循的预先确定的扫描光栅顺序是纯示例性的;其仅反映了用于扫描图像的自然顺序。
能够使用其他预先确定的顺序,比如垂直扫描顺序,其中像素块的扫描是从最左列开始到最右列进行逐列扫描,而每个块列则从上至下进行扫描。
在另一实施方式中,使用在顺时针方向上的螺旋形扫描,该螺旋形扫描从任一角部块(比如最左上角的块)开始,并随后从左至右扫描第一行,随后从上至下扫描最后一列,随后从右至左扫描最后一行,随后从下至上扫描第一列直至第二行,依此类推,直至按照类似于顺时针方向漩涡的形式扫描完构成图像的所有块达到图像的中央部分为止。
在每个这样的实施方式中,相对于当前块在先前被编码和解码的块的组改变,这是因为预先定义的扫描顺序改变,并且本发明导致不同的候选块组用于预测当前块的图形权重。
扫描图像块的另一方法是按照Z字形图案扫描,其中块从一角部块开始按图像块网格上的对角线路径扫描,直到相对的角部块为止。
在一优选的实施方式中,仅一个在先前被编码和解码的图像块被有效地用于执行GWP;相反,也能够以任意组合使用两个或更多个这样的块以执行预测,这例如是通过将基于其附近块的不同预测权重用于当前块。
在一优选的实施方式中,从水平和垂直预测模式中选出仅一个预测模式用于执行GWP。
额外地或者替代性地,在先前被重构的其他相邻的块也能够被用作GWP预测的候选块。
例如,如果可能的话,通过考虑一个或多个对角线相邻的块还能够应用对角线预测模式。
在如图8所示的使用光栅扫描顺序的实施方式中,例如,也能够将对角线相邻的块820和835与水平和垂直的块830和860一起用作实现块870的GWP的候选块。
随后,将一个或多个选择标准应用至被放大的预测候选块组,并且确保最佳结果被选为预测块。
在本发明的另一实施方式中,待编码的图像可被预先过滤从而移除高频分量。适当滤波器的示例包括高斯滤波器或各向异性滤波器。
在另一实施方式中,本发明能够被调整,从而也被用于压缩彩色图像。
例如,在RGB图像的情况下,本发明能够被用于压缩R、G或B分量中的至少一个;由于这些分量通常具有强相关性,则有可能基于开始的一个块的这些分量来推断或预测其他的分量。
类似地,在YUV编码的彩色图像的情况下,根据本发明的一个实施方式能够压缩亮度分量Y,而色度分量U和V能够按照与其和Y的差信号(Y-U和Y-V)类似的方式被压缩和解压缩,考虑到色度分量相对于亮度分量的不同统计学特性可做出一些调整。
在另一实施方式中,本发明被整合到视频编码技术中,其中,还应考虑在不同图像之间的时间相关性。为此,与传统视频压缩标准下所使用的类似的预测机构能够与本发明组合使用,从而有效地压缩和解压缩视频信号。
在本说明书中所使用的术语图像和图像块作为输入二维信号必须以其最宽泛的含义来解释。
其能够涵盖从以下项直接推导或提取出的像素值:自然图像、人工图像、图像的预测误差、较高分辨率的图像的二次采样版本、所述类型图像中的任一部分等等。
所描述的用于导出图像或其一部分的单维矢量表示的矢量化过程仅仅是可选的,并且对于实现本发明而言是非必要的。其简单地允许图像输入数据的更紧凑的表示和较简单的数据结构,以及距离和权重矩阵的处理。
其他类型的表示和数据结构能够被用于输入图像或其块,并且相反地,还用于距离和权重矩阵,其结构通常依赖于输入图像数据的结构。
在描述本发明的实施方式时提及的图像块的尺寸是示例性的。在其他实施方式中,所述图像块能够为任何尺寸的,形成矩形或正方形,对于整个图像是均匀的或者对于图像的局部特征是自适应的。例如,对于具有较复杂边缘的图像区域而言,图像块可较小,并且,对于具有很小边缘或没有边缘的图像区域而言,图像块可较大。
在另一实施方式中,除了所公开的垂直和水平权重预测模式之外,能够考虑其他的权重预测模式。例如,可考虑统一权重预测模式、子块预测模式和/或角度权重预测模式。
在子块预测模式下,可采用两种或更多种不同的预测技术,以便预测所考虑的块的像素的图形权重。例如,考虑到块像素的细分,能够为位于偶数行中的像素执行第一权重预测模式,而能够为位于奇数行中的像素执行第二权重预测模式。
能够对如图14所示的任一角方向执行角度权重预测模式的一种可能实现方式。在该图中,虚线框1430代表8×8像素块,其要使用GFT进行变换,而灰色框表示能够用于权重预测的像素(在左侧和顶部的像素已被编码和解码)。
应当注意的是,在一些情况下,不能够启用顶部预测,例如在编码图像中的第一行块时;而对于图像中每一行的第一个块而言,其左侧也会发生相同的情况。
假设要预测像素1455的图形权重,该像素以实体黑色进行突出显示,并且位于8×8像素块1430中的坐标(2,6)处。为此,可定义预测方向θ∈[0,π],如图所示。给定目标像素和期望的方向,有可能找到在灰色条带1460和1465中的两个已解码的像素的交点。这两个像素能够被用来估计关于目标像素位置的垂直和水平权重,见图14b。
特别地,根据像素1460,可估计垂直权重wV t和wV b,即分别对应于垂直的顶部和底部的权重。这可以通过对左侧条带中当前预测的像素与其上方和下方相邻的像素进行比较来实现。
类似地,根据像素1465,可估计水平权重wH l和wH r,其关于图形中水平左侧和右侧连接。显然,根据期待的角度方向,在上方和左侧的某些预测点可能丢失(尚未编码或不可用)。
在这种情况下,能够将权重设定到缺省值,通常等于1。可注意到的是,设定θ=0,则得到以上所讨论的水平权重预测,而θ=π/2对应于垂直权重预测的情况。
在其他实施方式中,系数f^能够根据其他量化方案进行量化,比如向量量化、网格编码量化等等。
本发明说明书已经解决了一些可能的变体,但是对于本领域技术人员显而易见的是,也可实现其他实施方式,其中一些元素可以使用技术上等效的元素来替换。因此,本发明并不限于本文中所描述的说明性示例,但是也可对等效部分和元素进行多种修改、改进或替换,而不偏离如所附权利要求书中所阐明的基本发明构思。

Claims (21)

1.一种用于对数字图像或视频流进行编码的方法,包括:
-接收阶段,其中接收到图像(f)的一部分;
-图形权重预测(GWP)阶段,其中,与涉及所述图像(f)的块(被预测的块)的图形相关联的权重矩阵(W)中的元素基于所述图像(f)中的至少一个在先前被编码的块(预测块)的被重构的、被去量化的和被逆变换的像素值来预测,所述权重矩阵(W)为包括象征了在构成所述图像(f)的一对像素之间的相似性水平的元素(wi,j)的矩阵,
-图形变换计算阶段,其中执行所述图像(f)的块的图形傅里叶变换,为所述块获得一组基于所预测的权重确定的系数;
-系数量化阶段,其中所述系数被量化;
-输出阶段,其中传输和/或储存包括有被变换和量化的系数的比特流。
2.如权利要求1所述的编码方法,其中,至少一个预测块与被预测的块相邻,所述预测块具有至少一个边界像素,其与所述被预测的块的至少一个边界像素邻接。
3.如权利要求1或2所述的编码方法,其中,与多个预测块有关的被重构的像素值用于执行图像块的所述图形权重预测(GWP)阶段。
4.如权利要求1至3中任一项所述的编码方法,其中,为图像块执行多个图形权重预测(预测模式),并且,根据选择阶段的结果来选择所述预测模式中的一个。
5.如权利要求4所述的编码方法,其中,所述多个图形权重预测包括以下项:
-垂直预测模式,其使用与从上方和所述被预测的块相邻的块有关的像素值,以及
-水平预测模式,其使用与从左侧和所述被预测的块相邻的块有关的像素值。
6.如权利要求4或5所述的编码方法,其中,所述选择阶段包括以下项中的一个:
-通过在多组被量化的系数中选出对于所述块而言会产生最大数量的零系数的预测模式,从而选择预测模式;
-在基于拉格朗日函数的最小化的率失真理论和优化技术中选择预测模式。
7.如权利要求4至6中任一项所述的编码方法,包括发信通知阶段,其中发信通知信息(B)被插入到所述比特流中,所述发信通知信息(B)指明用于所述被预测的块的、所选择的预测模式。
8.一种用于对数字图像或视频流进行解码的方法,包括:
-接收阶段,其中接收被编码的比特流,所述被编码的比特流包括图像块的被量化的变换的系数;
-图形权重预测(GWP)阶段,其中,与涉及所述图像的块(被预测的块)的图形相关联的权重矩阵(W)中的元素基于所述图像(f)中的至少一个在先前被编码的块(预测块)的被重构的、被去量化的和被逆变换的像素值来预测,所述权重矩阵(W)为包括象征了在构成所述图像(f)的一对像素之间的相似性水平的元素(wi,j)的矩阵;
-去量化阶段,其中每个被解码的块的系数被去量化;
-逆图形变换计算阶段,其中对于所述图像的块而言,执行被去量化的块的系数的逆图形傅里叶变换,从而使得所述逆图形傅里叶变换基于所述被解码的块的预测图形权重来确定;
-恢复图像阶段,其中获得被重构的图像信号;以及
-输出阶段,其中输出和/或储存被重构的图像。
9.如权利要求8所述的解码方法,其中,至少一个预测块与被预测的块相邻,所述预测块具有至少一个边界像素,其与所述被预测的块的至少一个边界像素邻接。
10.如权利要求8或9所述的解码方法,其中,与多个预测块有关的被重构的像素值用于执行图像块的所述图形权重预测(GWP)阶段。
11.如权利要求8至10中任一项所述的解码方法,其中,为图像块执行多个图形权重预测(预测模式),并且,根据选择阶段的结果来选择所述预测模式中的一个。
12.如权利要求11所述的解码方法,其中,所述多个图形权重预测包括以下项:
-垂直预测模式,其使用与从上方和所述被预测的块相邻的块有关的像素值,以及
-水平预测模式,其使用与从左侧和所述被预测的块相邻的块有关的像素值。
13.如权利要求11或12所述的解码方法,其中,所述选择阶段包括以下项中的一个:
-通过在多组被量化的系数中选择对于所述块而言会产生最大数量的零系数的预测模式,从而选择预测模式;
-在基于拉格朗日函数的最小化的率失真理论和优化技术中选择预测模式。
14.如权利要求8至10中任一项所述的解码方法,包括发信读取阶段,其中将发信通知信息(B)从所接收的比特流读取出来并将其用于所述图形权重预测(GWP)阶段,所述发信通知信息(B)指明用于所述被预测的块的预测模式。
15.一种用于对数字图像或视频流进行编码的装置(1100),包括:
-输入单元(1170),其被配置为用于从源(1000)得到图像(f)中的至少一部分,
-输出单元(1180),其被配置为用于输出所得到的比特流中的至少一部分,
其特征在于,所述装置还包括:
-处理单元(1110),其被配置为执行一组用于实现对所述数字图像或视频流进行编码的方法的指令;
-存储器单元(1140),其包含与待编码的图像相关的数据和所述指令的执行结果;
-图形权重预测GWP编码单元(1120),其被配置为用于获得与涉及所述图像的块(被预测的块)的图形相关的权重矩阵(W)中的元素,其中所述元素基于所述图像(f)的至少一个在先前被编码的块(预测块)的被重构的、被去量化的和被逆变换的像素值来预测,所述权重矩阵(W)为包括象征了在构成所述图像(f)的一对像素之间的相似性水平的元素(wi,j)的矩阵;
-图形编码单元(1130),其被配置为执行所述图像(f)的块的图形傅里叶变换,为所述块获得一组基于所预测的权重确定的系数,以及被配置为对所述系数进行量化;
其中,所述输出单元(1180)被配置为用于输出比特流,所述比特流包括被变换和量化的系数。
16.如权利要求15所述的编码装置(1000),其中,至少一个预测块与被预测的块相邻,所述预测块具有至少一个边界像素,其与所述被预测的块的至少一个边界像素邻接。
17.如权利要求15或16所述的编码装置(1000),其中,与多个预测块有关的被重构的像素值用于执行图像块的所述图形权重预测(GWP)阶段。
18.一种用于对数字图像或视频流进行解码的装置(1200),包括:
-输入单元(1280),其被配置为从通信信道或存储介质(1195)读取被编码的图像或视频流;
-输出单元(1270),其输出被处理的图像或视频流;
其特征在于,所述装置还包括:
-处理单元(1210),其被配置为执行一组用于对所述被处理的图像或视频流进行解码的指令;
-存储器单元(1240),其包含与被编码的图像相关的数据和所述指令的执行结果;
-图形权重预测(GWP)解码单元(1230),其被配置为用于获得与涉及所述图像的块(被预测的块)的图形相关的权重矩阵(W)中的元素,其中所述元素基于所述图像(f)的至少一个在先前被编码的块(预测块)的被重构的、被去量化的和被逆变换的像素值来预测,所述权重矩阵(W)为包括象征了在构成所述图像(f)的一对像素之间的相似性水平的元素(wi,j)的矩阵;
-图形解码单元(1250),其被配置为对所述被解码的块的系数进行去量化,并且被配置成执行被去量化的系数的逆图形傅里叶变换,从而使得所述逆图形傅里叶变换基于所述被解码的块的预测图形权重来确定;
其中,所述输出单元(1270)被配置成从所述被解码的块开始恢复所述图像,并且输出所述图像。
19.如权利要求18所述的解码装置(1200),其中,至少一个预测块与被预测的块相邻,所述预测块具有至少一个边界像素,其与所述被预测的块的至少一个边界像素邻接。
20.如权利要求18或19所述的解码装置(1200),其中,与多个预测块有关的被重构的像素值用于执行图像块的所述图形权重预测(GWP)阶段。
21.一种计算机程序产品,其能够被加载到数字处理设备的存储器中,并且包括用于执行如前述权利要求1至14中任一项所述的方法的软件代码中的一些部分。
CN201880013165.9A 2017-03-03 2018-03-02 用于对数字图像或视频流进行编码和解码的方法和装置 Active CN110383695B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IT102017000024294 2017-03-03
IT102017000024294A IT201700024294A1 (it) 2017-03-03 2017-03-03 Metodo e apparato per codificare e decodificare immagini o flussi video digitali
PCT/IB2018/051333 WO2018158735A1 (en) 2017-03-03 2018-03-02 Method and apparatus for encoding and decoding digital images or video streams

Publications (2)

Publication Number Publication Date
CN110383695A true CN110383695A (zh) 2019-10-25
CN110383695B CN110383695B (zh) 2023-06-27

Family

ID=59337787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880013165.9A Active CN110383695B (zh) 2017-03-03 2018-03-02 用于对数字图像或视频流进行编码和解码的方法和装置

Country Status (5)

Country Link
US (1) US11432012B2 (zh)
EP (1) EP3590193B1 (zh)
CN (1) CN110383695B (zh)
IT (1) IT201700024294A1 (zh)
WO (1) WO2018158735A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112055203A (zh) * 2020-08-22 2020-12-08 浙江大华技术股份有限公司 帧间预测方法、视频编码方法及其相关装置
CN114627012A (zh) * 2022-03-09 2022-06-14 上海应用技术大学 基于自动编码器的老照片复原方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6998874B2 (ja) 2016-08-10 2022-02-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法及び復号方法
EP3637302A1 (en) * 2018-10-10 2020-04-15 Onfido Ltd Image set alignment
US11601135B2 (en) * 2020-02-27 2023-03-07 BTS Software Solutions, LLC Internet of things data compression system and method
CN115550660B (zh) * 2021-12-30 2023-08-22 北京国瑞数智技术有限公司 网络视频局部可变压缩方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101895756A (zh) * 2010-07-15 2010-11-24 北京大学 视频图像块的编码、解码、重构方法及系统
CN101990100A (zh) * 2009-07-30 2011-03-23 汤姆森许可贸易公司 一种解码方法以及编码方法
KR20110093532A (ko) * 2010-02-12 2011-08-18 삼성전자주식회사 그래프 기반 화소 예측을 이용한 영상 부호화/복호화 시스템 및 방법 그리고 깊이 맵 부호화 시스템 및 방법
CN102474608A (zh) * 2009-07-30 2012-05-23 汤姆森特许公司 解码代表图像序列的编码数据流的方法和编码图像序列的方法
CN103096075A (zh) * 2011-11-07 2013-05-08 索尼公司 视频数据编码和解码

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1578131A1 (en) * 2004-03-18 2005-09-21 STMicroelectronics S.r.l. Encoding/decoding methods and systems, computer program products therefor
EP2360927A3 (en) * 2010-02-12 2011-09-28 Samsung Electronics Co., Ltd. Image encoding/decoding system using graph based pixel prediction and encoding system and method
JP6268989B2 (ja) * 2013-11-29 2018-01-31 富士通株式会社 動画像符号化装置、動画像符号化方法及び動画像符号化用コンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101990100A (zh) * 2009-07-30 2011-03-23 汤姆森许可贸易公司 一种解码方法以及编码方法
CN102474608A (zh) * 2009-07-30 2012-05-23 汤姆森特许公司 解码代表图像序列的编码数据流的方法和编码图像序列的方法
KR20110093532A (ko) * 2010-02-12 2011-08-18 삼성전자주식회사 그래프 기반 화소 예측을 이용한 영상 부호화/복호화 시스템 및 방법 그리고 깊이 맵 부호화 시스템 및 방법
CN101895756A (zh) * 2010-07-15 2010-11-24 北京大学 视频图像块的编码、解码、重构方法及系统
CN103096075A (zh) * 2011-11-07 2013-05-08 索尼公司 视频数据编码和解码

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112055203A (zh) * 2020-08-22 2020-12-08 浙江大华技术股份有限公司 帧间预测方法、视频编码方法及其相关装置
CN112055203B (zh) * 2020-08-22 2024-04-12 浙江大华技术股份有限公司 帧间预测方法、视频编码方法及其相关装置
CN114627012A (zh) * 2022-03-09 2022-06-14 上海应用技术大学 基于自动编码器的老照片复原方法
CN114627012B (zh) * 2022-03-09 2024-04-19 上海应用技术大学 基于自动编码器的老照片复原方法

Also Published As

Publication number Publication date
CN110383695B (zh) 2023-06-27
US11432012B2 (en) 2022-08-30
IT201700024294A1 (it) 2018-09-03
EP3590193A1 (en) 2020-01-08
WO2018158735A1 (en) 2018-09-07
US20200014955A1 (en) 2020-01-09
EP3590193B1 (en) 2021-12-29

Similar Documents

Publication Publication Date Title
CN110383695A (zh) 用于对数字图像或视频流进行编码和解码的方法和装置
JP6356912B2 (ja) 最適化関数を用いてグラフベース予測を実行する方法及び装置
JP5957561B2 (ja) 大きいサイズの変換単位を用いた映像符号化、復号化方法及び装置
JP4116304B2 (ja) デジタル画像の圧縮方法
CN104811714B (zh) 使用平面表达的增强帧内预测编码
CN103931190B (zh) 编码设备、编码方法、解码设备和解码方法
US20160119618A1 (en) Moving-picture encoding apparatus and moving-picture decoding apparatus
EP3350992B1 (en) Methods and apparatuses for encoding and decoding digital images or video streams
CN108293125A (zh) 一种数字图像处理系统和方法
CN105187829A (zh) 变换系数块的编码、解码装置及方法
CN110024391B (zh) 用于编码和解码数字图像或视频流的方法和装置
WO2013158669A1 (en) Method and apparatus of quantization matrix coding
US20230091192A1 (en) Scanning orders for non-transform coding
CN105850136B (zh) 使用预测信号和变换编译信号预测视频信号的方法和装置
KR20180079314A (ko) 그래프 기반 리프팅 변환을 이용하여 비디오 신호를 인코딩, 디코딩하는 방법 및 장치
EP3022845A1 (en) Encoder and decoder, and method of operation
KR102113904B1 (ko) 보간을 이용한 연산 방법, 인코더, 및 디코더
EP3813372A1 (en) Sparse matrix representation using a boundary of non-zero coefficients
KR20120002712A (ko) 색공간 예측 방법 및 장치와 이를 이용한 영상 부호화/복호화 방법 및 장치
EP4354871A1 (en) Ai-based image encoding and decoding device, and method performed thereby
JP6846134B2 (ja) 映像符号化装置及び映像復号装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant