CN1947346A - 正交归一时空变换的基于提升的实现方式 - Google Patents

正交归一时空变换的基于提升的实现方式 Download PDF

Info

Publication number
CN1947346A
CN1947346A CNA2004800387235A CN200480038723A CN1947346A CN 1947346 A CN1947346 A CN 1947346A CN A2004800387235 A CNA2004800387235 A CN A2004800387235A CN 200480038723 A CN200480038723 A CN 200480038723A CN 1947346 A CN1947346 A CN 1947346A
Authority
CN
China
Prior art keywords
pixel
group
pass
pass data
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800387235A
Other languages
English (en)
Other versions
CN1947346B (zh
Inventor
D·S·图拉加
R·普里
A·塔巴塔拜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Electronics Inc
Original Assignee
Sony Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Electronics Inc filed Critical Sony Electronics Inc
Publication of CN1947346A publication Critical patent/CN1947346A/zh
Application granted granted Critical
Publication of CN1947346B publication Critical patent/CN1947346B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]

Abstract

用于对视频帧进行编码的方法和设备(图1)。按照一种实施方式,编码方法包括使用正交归一变换(图1的110)将一组像素共同变换成高通数据(图1的106)。该组像素包括至少一个参考像素和多个预测像素(图2)。该方法此外还包括使用参考像素和高通数据(图1的110)生成低通数据。

Description

正交归一时空变换的基于提升的实现方式
相关申请
本申请与2003年10月24日提交的美国临时专利申请序列号60/514342、2003年10月24日提交的60/514351、2003年11月7日提交的60/518135和2003年11月18日提交的60/523411有关并且要求这些在先申请的优先权,因此这些在先申请以引用的方式并入本文。
技术领域
本申请总地来说涉及视频压缩。更加具体地讲,本发明涉及视频编码中的空域-时域变换。
版权声明/许可
本专利文献的公开内容的一部分包含受版权保护的素材。版权所有人不反对任何人对专利文献或专利公开文本按照它出现在专利和商标局专利文件或记录中那样对其进行拓制,但是对别的方式不管怎样都保留所有的版权权益。此后的声明适用于下文中介绍的和附图中的软件和数据:Copyright2004,Sony Electronics,Inc.,保留所有版权。
背景技术
大量当前的视频编码算法都基于运动补偿预测编码方案。按照这样的方案,使用运动补偿来降低时间冗余度,同时通过对运动补偿的残余部分进行变换编码来降低空间冗余度。运动补偿预测编码方案的一个组成部分是运动补偿时域滤波(MCTF),进行运动补偿时域滤波是为了降低时间冗余度。
MCTF典型地包括沿着运动方向对帧进行时域滤波。MCTF可以与空域变换(例如,小波和离散余弦变换(DCT))和熵编码相结合,来创建编码位流。
在时域滤波期间,由于场景中运动的性质和对象的遮挡/未遮挡的影响,某些像素可能涉及不到或者可能涉及多次。涉及不到的像素称为不相关(unconnected)像素,而多次涉及的像素称为多次相关(connected)像素。由传统MCTF算法进行的不相关像素处理一般来说需要特殊的处理,这种处理会导致编码效率降低。在多次相关像素的情况下,传统MCTF算法一般来说会将整个时域变换实现为一连串局部时域变换,这样做会破坏变换的正交归一化,在解码器处造成量化噪声传播效应。
发明内容
介绍了一种用于对视频帧进行编码的方法和设备。一种示范性编码方法包括使用正交归一变换将一组像素共同变换成高通数据。该组像素包括至少一个参考像素和多个预测像素。该方法此外还包括使用参考像素和高通数据生成低通数据。
附图说明
通过下面给出的详细介绍并且通过本发明的各种实施方式的附图,本发明将会得到更加完全的理解,不过,不应将这些详细介绍和附图理解成是用来将本发明限制于具体的实施方式,而是仅仅用来解释和进行理解。
附图1是编码系统的一种实施方式的框图。
附图2图解说明示范性的相关、不相关和多次相关像素。
附图3图解说明多次相关像素的示范性时域滤波。
附图4图解说明示范性帧内预测处理。
附图5图解说明可以采用正交归一变换的示范性帧内预测策略。
附图6是按照本发明的某些实施方式利用正交归一变换的编码处理的流程图。
附图7是按照本发明的某些实施方式利用提升方案的编码处理的流程图。
附图8图解说明示范性双向滤波。
附图9是按照本发明的某些实施方式的对双向滤波利用提升方案的编码处理的流程图。
附图10是适于实现本发明的实施方式的计算机环境的框图。
具体实施方式
在下面的本发明的实施方式的详细介绍中,对附图进行了参照,在这些附图中,相同的附图标记代表相同的元件,并且在这些附图中通过图解说明而示出了可以实践本发明的具体实施方式。对这些实施方式进行了足够详细的介绍,以致使得本领域的技术人员能够实现本发明,并且要理解,也可以利用其它的实施方式,并且在不超出本发明范围的前提下,可以进行逻辑上、机械上、电气上、功能上和其它的改变。因此,不要从限定的意义上理解下面的详细介绍,本发明的范围仅仅由所附的权利要求限定。
我们从本发明的操作过程的概述开始。附图1图解说明编码系统100的一种实施方式。编码系统100依照诸如联合视频组(JVT)标准、运动画面专家组(MPEG)标准、H-26x标准之类的视频编码标准进行视频编码。编码系统100可以用硬件、软件和二者的组合来实现。在软件实现的情况下,编码系统100可以在各种各样的传统计算机可记录介质上进行存储和发布。在硬件实现的情况下,编码系统100的各个模块是用数字逻辑(例如,用集成电路)实现的。一些功能最好实现在计算机外围的专用数字逻辑装置中,以分担主计算机的处理负担。
该编码系统100包括信号接收器102、运动补偿时域滤波(MCTF)单元108、空域变换单元110和熵编码器112。信号接收器102负责接收具有多帧的视频信号和将单独的帧传递给MCTF单元108。按照一种实施方式,信号接收器102将输入视频分成画面组(GOP),将其作为一个整体对其进行编码。GOP可以包括预定数量的帧,或者GOP中帧的数量可以是在操作期间根据诸如带宽、编码效率和视频内容之类的参数动态确定的。例如,如果视频由快速场景变化和高速运动组成,则使GOP较短会比较有效率,而如果视频由大部分静止的对象构成,则使GOP较长会比较有效率。
MCTF单元108包括运动估测器104和时域滤波单元106。运动估测器104负责对所接收的帧进行运动估测。按照一种实施方式,运动估测器104将GOP的帧中的像素组或区域与同一GOP的其它帧中的相似像素组或区域进行匹配。因此,GOP中的其它帧是所处理的各个帧的参考帧。
按照一种实施方式,运动估测器104进行后向预测。例如,可以将GOP的一个或多个帧中的像素组或区域与同一GOP的一个或多个在前帧中的相似像素组或区域加以匹配。在这个例子中,GOP中的在前帧是所处理的各个帧的参考帧。
按照另一种实施方式,运动估测器104进行前向预测。例如,可以将GOP的一个或多个帧中的像素组或区域与同一GOP的一个或多个在后帧中的相似像素组或区域加以匹配。在这个例子中,GOP中的在后帧是所处理的各个帧的参考帧。
按照再另一种实施方式,运动估测器104进行双向预测。例如,可以将GOP的一个或多个帧中的像素组或区域与同一GOP的在前和在后帧的相似像素组或区域都加以匹配。在这个例子中,GOP中的在前和在后帧是所处理的各个帧的参考帧。
上面介绍的匹配的结果是,运动估测器104向时域滤波单元106提供运动向量并且为时域滤波单元106识别相似像素或块的集合。相似像素或块的集合包括来自一个或多个参考帧的一个或多个参考像素或块和正在加以预测的帧中的一个或多个预测像素或块。
按照一种实施方式,对于预测帧中的某些块或像素,运动估测器104可能在(多个)参考帧中找不到良好的预测依据。这样的像素称为不相关像素。附图2中示出了相关、不相关和多次相关像素的例子。
参照附图2,帧A是参考帧,而帧B是正在加以预测的帧。像素201、202和203是多次相关像素。像素204、205和206是不相关像素。剩下的像素是相关像素。
回过头来再看附图1,按照一种实施方式,运动估测器104为时域滤波单元106识别参考帧中的不相关像素,然后该时域滤波单元106进行不相关像素的特殊处理。另外,运动估测器104为空域变换单元110识别不相关像素,然后该空域变换单元110对它们进行如下所述的处理。
时域滤波单元106负责除掉依照运动向量的帧之间的时间冗余度和由运动估测器104提供的相似像素或块的标识符。按照一种实施方式,时域滤波单元106为相似像素或块的集合产生低通和高通系数。按照一种实施方式,时域滤波单元106通过使用正交归一变换(比如,正交归一变换矩阵)对多次相关像素或块的集合进行共同变换为多次相关像素或块产生低通和高通系数。按照另一种实施方式,使用提升方案来将多次相关像素的变换分成两个步骤:预测步骤和更新步骤。例如,预测步骤可以包括使用正交归一变换将多次相关像素或块的集合共同变换为高通系数,而更新步骤可以包括由一个或多个参考像素或块和在预测步骤中产生的相应的高通系数来生成一个或多个低通系数。
应当理解,上面介绍的滤波技术并不局限于多次相关像素或块,而是也可以对双向相关的像素、多参考帧的像素和单向相关的像素进行。
空域变换单元110负责使用例如小波变换或离散余弦变换(DCT)降低由MCTF单元108提供的帧中的空间冗余度。例如,空域变换110可以依照2D小波变换将从MCTF单元108接收到的帧变换为小波系数。
按照一种实施方式,空域变换单元110负责进行帧内预测(即,由帧内的像素进行的预测)。帧内预测可以例如对不相关像素或块、在帧内和帧外都有预测依据的像素或块等进行。按照一种实施方式,其中帧内预测是对不相关像素进行的,空域变换单元110在正在进行预测的帧内找到不相关像素或块的预测依据,并且进行不相关像素或块和相关预测依据的共同变换。按照一种实施方式,空域变换单元110使用正交归一变换(例如,正交归一变换矩阵)生成不相关像素或块的余量。
熵编码器112负责通过对从空间变换单元110接收到的系数应用熵编码技术来创建输出位流。熵编码技术也可以应用于由运动估测器104提供的运动向量和参考帧编号。将这一信息包含在输出位流中,以便使得解码能够进行。适当的熵编码技术的例子可以包括可变长编码和算术编码。
现在将结合附图3更加详细地讨论多次相关像素的时域滤波。
参照附图3,参考帧中的像素A与n个像素B1到Bn相关。现有的时域滤波方法一般使用Haar变换对像素对A和B1进行第一次变换,以得到低通系数L1和高通系数H1。然后,对由A和像素B2到Bn之一组成的各个对重复进行这一局部变换,产生低通系数L2到Ln和高通系数H2到Hn,从中丢弃掉低通系数L2到Ln。结果,为像素A、B1、B2、...、Bn产生了低通系数L1和一组高通系数H1、H2、...、Hn。不过,这种局部变换的连续进行破坏了变换的正交归一化,在解码器处造成量化噪声传播效应。
本发明的一种实施方式通过执行多次相关像素(例如,像素A、B1、B2、...、Bn)的共同变换降低了MCTF中的量化噪声传播效应。这一共同变换是使用正交归一变换来进行的,该正交归一变换可以是根据诸如Gram-Schmit正交归一化处理、DCT变换之类的正交归一化处理的应用而开发出来的。变换的正交归一属性消除了量化噪声传播效应。
按照一种实施方式,正交归一变换是联机创建的。按照另外一种可选方案,正交归一变换是脱机创建的并且存储在查询表中。
按照一种实施方式,正交归一变换是大小为(n+1)×(n+1)的变换矩阵,其中n是预测帧中预测像素的数量。正交归一变换的输入是多次相关像素(例如,A、B1、B2、...、Bn),并且输出是低通系数L1和高通系数H1、H2、...、Hn。利用3×3矩阵对附图3中所示的多次相关像素A、B1和B2进行的示范性酉变换(unitarytransformation)可以表示为下式:
L 1 0 H 1 0 H 2 0 = 1 3 1 3 1 3 2 6 - 1 6 - 1 6 0 1 2 - 1 2 A B 1 B 2 - - - ( 1 )
其中L0 1是低通系数,而H1 0和H2 0是分别对应于B1和B2的高通系数。
某些像素和块可以使用帧内预测来加以预测。帧内预测可以例如对不相关像素或块、在帧内或帧外都具有预测依据的像素或块等进行。例如,可以对在MTCF期间不能(例如,由MCTF单元108)从参考帧中找到好的预测依据的块进行帧内预测(即,由帧内的像素进行预测)。附图4表示可以例如由空域变换器110进行的像素的帧内预测。
参照附图4,使用像素A来预测像素X1、X2、X3和X4。该预测包括用余量(A,X1-A,X2-A,X3-A,X4-A)替换像素集合(A,X1,X2,X3,X4)。这样的预测并不相当于像素的正交归一变换,因此,会在解码器处导致量化噪声传播效应。
按照一种实施方式,将该组像素(A,X1,X2,X3,X4)共同变换为一组值,包括平均像素值和四个余值。这一共同变换是使用可以根据诸如Gram-Schmit正交归一处理、DCT变换等之类的正交归一处理的应用开发出来的正交归一变换进行的。变换的正交归一属性消除了量化噪声传播效应。
按照一种实施方式,正交归一变换是联机创建的。按照另外一种可选方案,正交归一变换是脱机创建的并且将其存储在查询表中。
按照一种实施方式,正交归一变换是大小为(n+1)×(n+1)的变换矩阵,其中n是预测帧中预测像素的数量。正交归一变换的输入包括预测依据A和一组预测像素X1、X2、...、Xn,而输出包括平均像素L和一组余量R1、R2、...、Rn。利用5×5矩阵对附图4中所示的预测像素X1到X4进行的示范性酉变换可以表达为下式:
L R 1 R 2 R 3 R 4 = 1 5 1 5 1 5 1 5 1 5 - 4 20 1 20 1 20 1 20 1 20 0 - 3 13 1 12 1 12 1 12 0 0 - 2 6 1 6 1 6 0 0 0 - 1 2 1 2 A X 1 X 2 X 3 X 4 - - - ( 2 )
其中L是平均像素值,而R1到R4分别是像素X1到X4的余量。
正交归一变换可以用于各种不同的帧内预测策略,包括,例如,垂直预测、水平预测、左下对角线预测、右下对角线预测、垂直向右预测、水平向下预测、垂直向左预测、水平向上预测等等。附图5表示可以采用正交归一变换的示范性帧内预测策略。
可以将用在表达式(1)或(2)中的矩阵重写为大小为n的通用正交归一变换矩阵,其中n代表预测像素的数量加一。大小为n的通用正交归一变换矩阵的整数形式可以表达为下式:
T = 1 1 1 1 . . . . . 1 - ( n - 1 ) 1 1 1 . . . . . 1 0 - ( n - 2 ) 1 1 . . . . . 1 0 0 - ( n - 3 ) 1 . . . . . 1 : : - - - : : : - - - 1 1 - - - ( 3 )
在下列表达式中可以给出相应的输入/输出关系:
[ L H 1 H 2 H 3 : : ] = [ 1 1 1 1 . . . . . 1 - ( n - 1 ) 1 1 1 . . . . . 1 0 - ( n - 2 ) 1 1 . . . . . 1 0 0 - ( n - 3 ) 1 . . . . . 1 : : - - - : : : - - - 1 1 ] [ P Y 1 Y 2 Y 3 : : ] - - - ( 4 )
其中P是预测依据(这里也称为参考像素),像素(Y1,Y2,Y3,...)是由P进行预测的像素,L是低通数据(例如,低通系数或平均像素值),而值(H1,H2,H3,...)是对应于预测像素的高通数据(例如,高通系数或余值)。
按照一种实施方式,可以使用来自不同帧的预测依据和来自当前帧的预测依据来预测当前帧中的像素。按照这种实施方式,使用空域和时域预测的组合来创建余(高通)值,并且为解码器提供了用于预测的模式。该模式可以指定时域预测、空域预测或空域和时域预测的组合。对于当前帧C0的高通余量可以表达为下式:
  H0=αP0+βP1-C0                               (5)
其中P0是来自不同(参考)帧的预测依据,P1是来自同一帧的预测依据,并且α+β=1,其中对于时域预测α=1并且仅对于帧内预测β=1。
附图6是按照本发明的某些实施方式利用正交归一变换的编码处理600的流程图。处理600可以由附图1的MCTF单元108或空域变换单元110执行。处理600可以由这样的处理逻辑来进行:该处理逻辑可以包括硬件(例如,电路、专用逻辑等)、软件(比如在通用计算机系统或专用机器上运行的软件)或二者的组合。
对于用软件实现的处理,流程图的说明使得本领域技术人员能够开发出这些程序,这些程序包括在适当配置的计算机上实施这些处理的指令(计算机的处理器执行来自计算机可读介质(包括存储器)的指令)。计算机可执行指令可以是用计算机编程语言写成的,或者可以包含在固件逻辑中。如果用编程语言进行的编写符合公认的标准,则这些指令可以在各种各样的硬件平台上运行并且可以针对各种各样的操作系统运行。此外,本发明的实施方式不是针对任何一种编程语言来加以介绍的。将会意识到,可以使用各种各样的编程语言来实现本文所阐述的教导。而且,在本领域中大家都知道,可以将具有这样或那样的形式(例如,程序、进程、处理、应用程序、模块、逻辑等)的软件说成是采取行动或造成结果。这样的表达方式仅仅是表述由计算机运行软件促使计算机的处理器来进行行动或产生结果的简述方式。将会意识到,在不超出本发明范围的前提下,可以将或多或少的操作加入到本文所介绍的处理中,并且本文所给出和介绍的方框的排列方式并没有暗示特定的顺序。
参照附图6,处理逻辑由识别一组相似的像素(处理方框602)开始。该组中的像素是相似的,因为它们由参考像素和可由这一参考像素预测出来的像素组成。按照一种实施方式,相似像素是在运动估测期间(例如,由运动估测器104)定义的,并且包括多次相关像素,其中参考像素来自第一(参考)帧并且预测像素来自第二(预测)帧。按照这种实施方式,处理600是以时域预测模式进行的。
按照另一种实施方式,相似像素是在空域变换期间(例如,由空域变换单元110)中定义的,并且包括来自同一帧的参考和预测像素(例如,在不相关像素的情况下),按照这一另一种实施方式,处理600是以空域预测模式进行的。
在处理方框604中,处理逻辑使用正交归一变换将该组相似像素共同变换为系数。按照一种实施方式,正交归一变换是大小为(n+1)×(n+1)的变换矩阵,其中n是预测像素的数量。按照一种实施方式,正交归一变换是使用Gram-Schmit正交归一处理开发出来的。
按照一种实施方式,其中处理600是以时域预测模式进行的,在处理方框604中产生的系数包括低通值和一组与预测值对应的高通值。
按照另一种实施方式,其中处理600是以空域预测模式进行的,在处理方框604中产生的系数包括平均像素值和一组与预测值对应的余值。
应当理解,处理600并不局限于像素的处理,而是也可用于处理帧区域(例如,在诸如JVT之类的基于块的编码方案中)。
按照某些实施方式,正交归一变换是使用提升方案进行的。这样的基于提升的实现方式分两个步骤来完成生成低通和高通数据的任务:预测步骤和更新步骤。在预测步骤中,由参考像素生成高通数据。在更新步骤中,使用参考像素和高通数据生成低通数据。当在时域预测模式下使用时,这种基于提升的实现方式有助于在编码器处实现较为简单的输入到输出的变换并且有助于在解码器处实现较为简单的从输出到输入的还原。
按照某些实施方式,基于提升的实现方式是针对帧内预测以空域预测模式来使用的。这样能够实现使用多个像素作为预测依据(例如,对一组像素Y1、...、Yn使用预测依据P1、...、Pm),因为提升实现方式能够创建相应的多个平均像素值和余值。此外,基于提升的实现方式为运用遍布帧的帧内预测提供了条件,因为它能够实现将预测依据块重新用作其它块的预测依据。随后,在解码器处,可以从经过解码的预测依据中恢复出相应的平均像素值,并且可以使用反向的预测步骤还原出预测像素。
附图7是按照本发明的某些实施方式利用提升方案的编码处理700的流程图。处理700可以由附图1的MCTF单元108或空域变换单元110执行。处理700可以由这样的处理逻辑进行:该处理逻辑包括硬件(例如,电路、专用逻辑等)、软件(比如在通用计算机系统或专用机器上运行的软件)或二者的组合。
参照附图7,处理逻辑由使用正交归一变换将一组像素共同变换为高通数据(处理方框702)开始。该组像素包括一个或多个参考像素和可由参考像素预测出来的像素。按照一种实施方式,该组像素是在运动估测期间(例如,由运动估测器104)定义的,并且包括多次相关像素,其中参考像素来自于参考帧并且预测像素来自于预测帧。按照这种实施方式,处理700是以时域预测模式进行的。按照一种实施方式,运动估测利用子像素内插处理。
按照另一种实施方式,该组像素是在空域变换期间(例如,由空域变换单元110)定义的,并且包括来自同一帧的参考和预测像素(例如,在不相关像素的情况下)。按照这一另一种实施方式,处理700是以空域预测模式进行的。
按照一种实施方式,正交归一变换是大小为n×n的变换矩阵,其中n=N+1,N是预测像素的数量。示范性正交归一变换可以表达为输入/输出矩阵表达式(4),只是没有第一个等式。
按照一种实施方式,其中处理700是以时域预测模式进行的,在处理方框702中产生的高通数据包括一组与预测值对应的高通值。
按照另一种实施方式,其中处理700是以空域预测模式进行的,在处理方框604中产生的高通数据包括一组与预测值对应的余值。
在处理方框704中,处理逻辑使用(多个)参考像素和高通数据生成低通数据。用于生成低通数据的示范性表达式可以表示为:
           L=nP+H1         (6)
其中L可以是低通系数或平均像素值,P是相应的预测依据,而H1可以是与第一预测像素对应的高通系数或与第一预测像素对应的余值。
按照一种实施方式,将基于提升的时域滤波的实现方式用于多参考帧和双向滤波。附图8图解说明示范性双向滤波。
参照附图8,像素Yb11到Yb1N与像素X01和X21双向相关关系(例如,它们与X01和X21的加权组合很好地匹配)。此外,像素Yu11到Yu1M与像素X01有单向相关关系。按照一种实施方式,分两个步骤进行帧1中像素的时域滤波。
附图9是按照本发明的某些实施方式对双向滤波利用提升方案的编码处理900的流程图。处理900可以由附图1的MCTF单元108执行。处理900可以由这样的处理逻辑进行:该处理逻辑可以包括硬件(例如,电路、专用逻辑等)、软件(比如在通用计算机或专用机器上运行的软件)或二者的组合。
在处理方框902中,处理逻辑使用正交归一变换对双向相关像素进行共同变换,以创建高通数据,和上面讨论的预测步骤中一样。例如,可以对双向相关像素Yb11到Yb1N进行共同变换,以创建高通系数Hb11到Hb1N。用于这样的滤波的示范性表达式可以表达为下式:
L H b 11 · · · H b 1 N = D N - 1 / 2 A N αX 01 + βX 21 Y b 11 · · · Y b 1 N - - - ( 7 )
其中α和β是像素X01和X21的线性组合所使用的加权值,而DN -1/2AN代表正交归一变换矩阵(例如,表达式(3)的矩阵T),其中DN -1/2是各项代表矩阵AN各行的范数(norm)的对角阵(用于正交归一化)。
按照一种实施方式,结果得到的值L并没有发送给解码器,而是由重构的像素X01和X21还原出来的。
接下来,处理逻辑使用正交归一变换对单向相关像素进行共同变换,以创建相应的的低通和高通数据。例如,可以对单向相关像素Yu11到Yu1M连同参考像素一起进行共同滤波,以创建相应的低通值L01和高通值Hu11到Hu1M。用于这一滤波的示范性表达式可以是下式:
L 01 H u 11 · · · H u 1 M = D N - 1 / 2 A M X 01 Y u 11 · · · Y u 1 M - - - ( 8 )
按照一种实施方式,解码器使用相反的处理:首先对与单向相关像素对应的值Hu11到Hu1M和L01进行反向滤波,以还原出X01和Yu11到Yu1M,然后使用反向预测步骤可以恢复出双向相关像素Yb11到Yb1N
本领域的技术人员应当理解,处理900并不局限于双向滤波,并且不失一般性地可以用于多参考帧。
下面附图10的说明是用来给出适用于实现本发明的计算机硬件和其它操作组成部分的概述,但并不是用来限制可应用的环境。附图10图解说明适于用作附图1的编码系统100或者仅仅是MCTF单元108或空域变换单元110的计算机系统的一种实施方式。
计算机系统1040包括处理器1050、存储器1055和与系统总线1065相连的输入/输出能力1060。存储器1055配置成用于存储指令,在这些指令由处理器1050执行时,执行本文介绍的方法。输入/输出1060还包括各种不同类型的计算机可读介质,包括可由处理器1050访问的任何类型的存储装置。本领域技术人员会立即认识到,术语“计算机可读介质/媒介”此外还涵盖了对数据信号进行编码的载波。还会意识到,系统1040是由在存储器1055中运行的操作系统软件来控制的。输入/输出和相关媒介1060存储着用于操作系统和本发明的方法的计算机可执行指令。附图1中所示的MCTF单元108或空域变换单元110可以是与处理器1050相连的独立组成部分,或者可以用由处理器1050执行的计算机可执行指令来实现。按照一种实施方式,计算机系统1040可以是通过输入/输出1060经因特网发送或接收图像数据的I SP(因特网服务提供方)的一部分或与之相连。显而易见,本发明并不局限于因特网访问和基于网页的因特网站点;也可以考虑直接连接和私人网络。
将会意识到,计算机系统1040是很多具有不同体系结构的可行计算机系统的一个例子。典型的计算机系统通常包括至少处理器、存储器和将存储器与处理器连起来的总线。本领域的技术人员立刻会意识到,本发明可以用其它计算机配置来实现,包括多处理器系统、迷你计算机、大型计算机等。本发明也可以在分布式运算环境下实现,在这种环境下,任务是由通过通信网络链接起来的远程处理装置执行的。
已经介绍了选择最佳比例因子的各种不同方面。虽然本文图解说明和介绍了具体实施方式,但是本领域的技术人员将会意识到,目的在于实现相同用途的任何方案都可以取代所给出的具体实施方式。本申请目的是用来覆盖本发明的任何修改或改变。

Claims (40)

1.一种计算机化编码方法,包括:
使用正交归一变换将一组像素共同变换为高通数据,该组像素包括至少一个参考像素和多个预测像素;和
使用所述至少一个参考像素和高通数据生成低通数据。
2.按照权利要求1所述的方法,其中所述像素组是由运动估测处理定义的。
3.按照权利要求2所述的方法,其中高通数据包括一组高通系数,并且低通数据包括低通系数。
4.按照权利要求1所述的方法,其中正交归一变换是变换矩阵。
5.按照权利要求4所述的方法,其中变换矩阵具有(n+1)×(n+1)的大小,其中n是所述多个预测像素的数量。
6.按照权利要求2所述的方法,其中所述像素组包括多次相关像素。
7.按照权利要求2所述的方法,其中所述至少一个参考像素来自于参考帧,所述多个预测像素来自于正在加以预测的帧。
8.按照权利要求1所述的方法,此外还包括:
定义所述像素组。
9.按照权利要求8所述的方法,其中所述至少一个参考像素和多个预测像素来自于正在加以预测的帧。
10.按照权利要求8所述的方法,其中所述多个系数包括平均像素值和一组余值。
11.按照权利要求9所述的方法,其中所述至少一个参考像素包括两个或多个参考像素。
12.按照权利要求2所述的方法,其中运动估测处理采用子像素内插。
13.一种计算机化编码方法,包括:
使用正交归一变换对多个双向相关像素进行共同变换,以创建与所述多个双向相关像素相对应的高通数据,所述多个双向相关像素包括来自于参考帧的参考像素和来自于预测真的第一组预测像素;和
使用正交归一变换对多个单向相关像素进行共同变换,以创建与所述多个单向相关像素对应的低通和高通数据,所述多个单向相关像素包括参考像素之一和来自于预测帧的第二组预测像素。
14.按照权利要求13所述的方法,其中所述多个双向相关像素和多个单向相关像素是由运动估测处理定义的。
15.按照权利要求13所述的方法,其中所述高通数据包括一组高通系数,所述低通数据包括低通系数。
16.按照权利要求13所述的方法,其中正交归一变换是变换矩阵。
17.一种计算机可读介质,该计算机可读介质提供当在处理器上执行时促使处理器执行这样一种方法的指令,该方法包括:
使用正交归一变换将一组像素共同变换为高通数据,该组像素包括至少一个参考像素和多个预测像素;和
使用所述至少一个参考像素和高通数据生成低通数据。
18.按照权利要求17所述的计算机可读介质,其中高通数据包括一组高通系数,并且低通数据包括低通系数。
19.按照权利要求17所述的计算机可读介质,其中正交归一变换是变换矩阵。
20.按照权利要求17所述的计算机可读介质,其中所述像素组包括多次相关像素。
21.按照权利要求20所述的计算机可读介质,其中所述至少一个参考像素来自于参考帧,所述多个预测像素来自于正在加以预测的帧。
22.按照权利要求17所述的计算机可读介质,其中所述至少一个参考像素和多个预测像素来自于正在加以预测的帧。
23.按照权利要求22所述的计算机可读介质,其中所述多个系数包括平均像素值和一组余值。
24.按照权利要求22所述的计算机可读介质,其中所述至少一个参考像素包括两个或多个参考像素。
25.一种计算机可读介质,该计算机可读介质提供当在处理器上执行时促使处理器执行这样一种方法的指令,该方法包括:
使用正交归一变换对多个双向相关像素进行共同变换,以创建与所述多个双向相关像素相对应的高通数据,所述多个双向相关像素包括来自于参考帧的参考像素和来自于预测真的第一组预测像素;和
使用正交归一变换对多个单向相关像素进行共同变换,以创建与所述多个单向相关像素对应的低通和高通数据,所述多个单向相关像素包括参考像素之一和来自于预测帧的第二组预测像素。
26.按照权利要求25所述的计算机可读介质,其中所述多个双向相关像素和多个单向相关像素是由运动估测处理定义的。
27.按照权利要求25所述的计算机可读介质,其中所述高通数据包括一组高通系数,所述低通数据包括低通系数。
28.按照权利要求25所述的计算机可读介质,其中正交归一变换是变换矩阵。
29.一种计算机化系统,包括:
存储器;和
至少一个与存储器相连的处理器,该至少一个处理器执行这样一组指令,该组指令促使所述至少一个处理器
使用正交归一变换将一组像素共同变换为高通数据,该组像素包括至少一个参考像素和多个预测像素;和
使用所述至少一个参考像素和高通数据生成低通数据。
30.按照权利要求29所述的系统,其中高通数据包括一组高通系数,并且低通数据包括低通系数。
31.按照权利要求29所述的系统,其中正交归一变换是变换矩阵。
32.按照权利要求29所述的系统,其中所述像素组包括多次相关像素。
33.按照权利要求29所述的系统,其中所述至少一个参考像素和多个预测像素来自于正在加以预测的帧。
34.按照权利要求33所述的系统,其中所述多个系数包括平均像素值和一组余值。
35.一种计算机化系统,包括:
存储器;和
至少一个与存储器相连的处理器,该至少一个处理器执行这样一组指令,该组指令促使所述至少一个处理器
使用正交归一变换对多个双向相关像素进行共同变换,以创建与所述多个双向相关像素相对应的高通数据,所述多个双向相关像素包括来自于参考帧的参考像素和来自于预测真的第一组预测像素;和
使用正交归一变换对多个单向相关像素进行共同变换,以创建与所述多个单向相关像素对应的低通和高通数据,所述多个单向相关像素包括参考像素之一和来自于预测帧的第二组预测像素。
36.按照权利要求35所述的系统,其中所述多个双向相关像素和多个单向相关像素是由运动估测处理定义的。
37.按照权利要求35所述的系统,其中所述高通数据包括一组高通系数,所述低通数据包括低通系数。
38.按照权利要求35所述的系统,其中正交归一变换是变换矩阵。
39.一种编码设备,包括:
用于使用正交归一变换将一组像素共同变换为高通数据的装置,该组像素包括至少一个参考像素和多个预测像素;和
用于使用所述至少一个参考像素和高通数据生成低通数据的装置。
40.一种编码设备,包括:
用于使用正交归一变换对多个双向相关像素进行共同变换、以创建与所述多个双向相关像素相对应的高通数据的装置,所述多个双向相关像素包括来自于参考帧的参考像素和来自于预测真的第一组预测像素;和
用于使用正交归一变换对多个单向相关像素进行共同变换、以创建与所述多个单向相关像素对应的低通和高通数据的装置,所述多个单向相关像素包括参考像素之一和来自于预测帧的第二组预测像素。
CN2004800387235A 2003-10-24 2004-10-25 计算机化编码方法及计算机化系统 Expired - Fee Related CN1947346B (zh)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US51435103P 2003-10-24 2003-10-24
US51434203P 2003-10-24 2003-10-24
US60/514,351 2003-10-24
US60/514,342 2003-10-24
US51813503P 2003-11-07 2003-11-07
US60/518,135 2003-11-07
US52341103P 2003-11-18 2003-11-18
US60/523,411 2003-11-18
US10/971,896 US7526025B2 (en) 2003-10-24 2004-10-22 Lifting-based implementations of orthonormal spatio-temporal transformations
US10/971,896 2004-10-22
PCT/US2004/035403 WO2005041554A2 (en) 2003-10-24 2004-10-25 Lifting-based implementations of orthonormal spatio-temporal transformations

Publications (2)

Publication Number Publication Date
CN1947346A true CN1947346A (zh) 2007-04-11
CN1947346B CN1947346B (zh) 2012-04-25

Family

ID=34528380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004800387235A Expired - Fee Related CN1947346B (zh) 2003-10-24 2004-10-25 计算机化编码方法及计算机化系统

Country Status (6)

Country Link
US (2) US7526025B2 (zh)
EP (1) EP1683340B1 (zh)
JP (1) JP2007511119A (zh)
KR (1) KR101045650B1 (zh)
CN (1) CN1947346B (zh)
WO (1) WO2005041554A2 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1673941A1 (en) * 2003-10-10 2006-06-28 Koninklijke Philips Electronics N.V. 3d video scalable video encoding method
EP1599046A1 (en) * 2004-05-19 2005-11-23 THOMSON Licensing Method for coding video data of a sequence of pictures
KR20060043867A (ko) * 2004-09-23 2006-05-15 엘지전자 주식회사 영상 신호의 인코딩 및 디코딩 방법
KR101365575B1 (ko) * 2007-02-05 2014-02-25 삼성전자주식회사 인터 예측 부호화, 복호화 방법 및 장치
US8705627B2 (en) * 2008-07-25 2014-04-22 Sony Corporation Image processing apparatus and method
US20100245672A1 (en) * 2009-03-03 2010-09-30 Sony Corporation Method and apparatus for image and video processing
US9973780B2 (en) * 2013-10-31 2018-05-15 Microsoft Technology Licensing, Llc Scaled video for pseudo-analog transmission in spatial domain
US20190273946A1 (en) * 2018-03-05 2019-09-05 Markus Helmut Flierl Methods and Arrangements for Sub-Pel Motion-Adaptive Image Processing

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5398078A (en) 1991-10-31 1995-03-14 Kabushiki Kaisha Toshiba Method of detecting a motion vector in an image coding apparatus
WO1994023385A2 (en) 1993-03-30 1994-10-13 Adrian Stafford Lewis Data compression and decompression
US5611822A (en) 1993-05-10 1997-03-18 Allegro Natural Dyes Llc Indigo dye process
JPH0738760A (ja) 1993-06-28 1995-02-07 Nec Corp 直交変換基底生成方式
US5621660A (en) 1995-04-18 1997-04-15 Sun Microsystems, Inc. Software-based encoder for a software-implemented end-to-end scalable video delivery system
US5764814A (en) 1996-03-22 1998-06-09 Microsoft Corporation Representation and encoding of general arbitrary shapes
US6310972B1 (en) * 1996-06-28 2001-10-30 Competitive Technologies Of Pa, Inc. Shape adaptive technique for image and video compression
CA2255900C (en) 1997-03-14 2002-08-06 Cselt - Centro Studi E Laboratori Telecommunicazioni S.P.A. Circuit for motion estimation in digitised video sequence encoders
US6430317B1 (en) 1997-12-31 2002-08-06 Sarnoff Corporation Method and apparatus for estimating motion using block features obtained from an M-ary pyramid
US6122017A (en) * 1998-01-22 2000-09-19 Hewlett-Packard Company Method for providing motion-compensated multi-field enhancement of still images from video
JP3606430B2 (ja) * 1998-04-14 2005-01-05 松下電器産業株式会社 画像整合性判定装置
US6418166B1 (en) * 1998-11-30 2002-07-09 Microsoft Corporation Motion estimation and block matching pattern
US6628714B1 (en) * 1998-12-18 2003-09-30 Zenith Electronics Corporation Down converting MPEG encoded high definition sequences to lower resolution with reduced memory in decoder loop
JP3732674B2 (ja) * 1999-04-30 2006-01-05 株式会社リコー カラー画像圧縮方法およびカラー画像圧縮装置
CN1205818C (zh) 2000-04-11 2005-06-08 皇家菲利浦电子有限公司 视频编码和解码方法
US6597739B1 (en) 2000-06-20 2003-07-22 Microsoft Corporation Three-dimensional shape-adaptive wavelet transform for efficient object-based video coding
JP3796432B2 (ja) * 2001-10-31 2006-07-12 キヤノン株式会社 フィルタ処理装置およびフィルタ処理方法
JP2003274411A (ja) * 2002-03-14 2003-09-26 Matsushita Electric Ind Co Ltd 画像符号化方法および画像復号方法
US7023923B2 (en) 2002-04-29 2006-04-04 Koninklijke Philips Electronics N.V. Motion compensated temporal filtering based on multiple reference frames for wavelet based coding
US7627037B2 (en) * 2004-02-27 2009-12-01 Microsoft Corporation Barbell lifting for multi-layer wavelet coding

Also Published As

Publication number Publication date
EP1683340A2 (en) 2006-07-26
WO2005041554A3 (en) 2006-09-21
US7526025B2 (en) 2009-04-28
KR20060095760A (ko) 2006-09-01
WO2005041554A2 (en) 2005-05-06
US20090175348A1 (en) 2009-07-09
US8379717B2 (en) 2013-02-19
US20050117638A1 (en) 2005-06-02
EP1683340B1 (en) 2017-08-30
EP1683340A4 (en) 2010-03-03
JP2007511119A (ja) 2007-04-26
CN1947346B (zh) 2012-04-25
KR101045650B1 (ko) 2011-07-01

Similar Documents

Publication Publication Date Title
JP4700491B2 (ja) 適応係数スキャン順序付け
CN1126065C (zh) 压缩和解压缩图象
Lian et al. Analysis and architecture design of block-coding engine for EBCOT in JPEG 2000
US8483277B2 (en) Method and apparatus for motion compensated temporal filtering using split update process
CN103650496A (zh) 用于在hevc中编码的基于像素的帧内预测
CN1906624A (zh) 使用匹配追踪的数据压缩
CN1495674A (zh) 运动向量补偿的内插装置和方法
CN111901596B (zh) 基于深度学习的视频混合编码与解码方法及装置、介质
US20150078435A1 (en) Method and apparatus for coding of spatial data
Chew et al. Low–memory video compression architecture using strip–based processing for implementation in wireless multimedia sensor networks
CN1144469C (zh) 编码和解码图像中的像素的运动向量的方法
US8379717B2 (en) Lifting-based implementations of orthonormal spatio-temporal transformations
US20110091123A1 (en) Coding apparatus and coding method
CN1320830C (zh) 噪声估计方法和设备、以及利用其编码视频的方法和设备
CN1926860A (zh) 用于降低量化噪声传播效应的最佳空域-时域变换
CN1194544A (zh) 带有运动补偿的编码和译码装置
CN1914926A (zh) 运动图像编码方法和设备以及运动图像解码方法和设备
US8243812B2 (en) Barbell lifting for wavelet coding
CN1784906A (zh) 编码和/或解码画面组的方法
Ahanonu et al. Lossless Multi-component Image Compression Based on Integer Wavelet Coefficient Prediction using Convolutional Neural Networks.
US20100074545A1 (en) Image compressing apparatus, image compressing method, image decompressing apparatus, and storage medium
US20080117983A1 (en) Method And Device For Densifying A Motion Field
CN1271571C (zh) 用于视频编码的预测图像生成方法
CN1154631A (zh) 图象解码装置
KR20090116200A (ko) 비트 플레인 영상의 변환 방법 및 장치, 역변환 방법 및장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120425

Termination date: 20211025