CN102939749B - 用于处理视频序列的方法和设备 - Google Patents

用于处理视频序列的方法和设备 Download PDF

Info

Publication number
CN102939749B
CN102939749B CN201080060562.5A CN201080060562A CN102939749B CN 102939749 B CN102939749 B CN 102939749B CN 201080060562 A CN201080060562 A CN 201080060562A CN 102939749 B CN102939749 B CN 102939749B
Authority
CN
China
Prior art keywords
picture
treated
pixel
prediction
neighbouring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080060562.5A
Other languages
English (en)
Other versions
CN102939749A (zh
Inventor
托马斯·西科拉
安德烈亚斯·克鲁茨
亚历山大·格兰茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN102939749A publication Critical patent/CN102939749A/zh
Application granted granted Critical
Publication of CN102939749B publication Critical patent/CN102939749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明尤其涉及用于处理编码的视频序列的方法,所述方法包括以下步骤:重构所述编码的视频序列并且提供多个邻近的图片;‑基于运动模型将所述邻近的图片中的每个或每个邻近的图片的至少相干区域变换到参考图片的坐标系中,并且由此生成包括经变换的图片的图片堆栈;‑使用加权函数组合所述经变换的图片的相应像素的像素幅度,以形成用于所述参考图片的至少一个图像像素的经处理的像素幅度;以及‑基于所述图像像素的所述至少一个经处理的像素幅度生成经处理的图片。

Description

用于处理视频序列的方法和设备
技术领域
本发明涉及用于处理视频序列的方法和设备。
背景技术
在现代通信系统中,视频压缩/编码是极为重要的。由于有限的带宽分配,经常采用通常所说的有损算法(例如,在最新发展的视频编码标准H.264/AVC[1]中)。这些算法使用像素的量化或变换系数来将比特率调整到信道容量。在许多应用中这导致或多或少的可见编码伪像。
本发明的目的
本发明的目的是提供用于有效处理有噪声的数字视频序列以便减少噪声用于预测视频编码和/或后滤波应用的方法。
本发明的另外的目的是提供能够有效处理有噪声的数字视频序列以便减少噪声用于预测视频编码和/或后滤波应用的设备系统。
发明内容
本发明的实施例涉及用于处理编码的视频序列的方法,所述方法包括下列步骤:
-重构所述编码的视频序列并且提供多个邻近的图片;
-基于运动模型将所述邻近的图片中的每一个或每个邻近的图片的至少相干区域变换到参考图片的坐标系中,并且由此生成包括经变换的图片的图片堆栈;
-使用加权函数组合所述经变换的图片的相应像素的像素幅度,以形成用于所述参考图片的至少一个图像像素的经处理的像素幅度;以及
-基于所述图像像素的所述至少一个经处理的像素幅度生成经处理的图片。
例如,所述编码的视频序列的重构可以通过解码所述编码的视频序列而被执行。
优选地,长度值被赋予所述经处理的图片,所述长度值定义了所述图片堆栈的所述邻近的图片的数量。
例如,可以通过将所述经处理的图片合并到所述重构的视频序列中而生成经滤波的视频序列。优选地赋值标记位以标志在所述视频序列中存在所述经处理的像素幅度。
所述变换邻近的图片的步骤可以包括变换在先的和后继的图片,相对于所述参考图片。
而且,可以虑及具有包括与所述经变换的图片的图像像素相对应的图像像素的空间相邻的图片的进一步的视频序列以形成所述图像像素的所述经处理的像素幅度。
而且,可以执行至少两个不同的处理模式,其中,在每个处理模式中,最大数量的图片被考虑用于生成所述图像堆栈,并且其中标志被赋值,其指示已在所述比特流中被执行的处理模式。
此外,所述方法可以包括生成编码的比特流的步骤。
上面提到的所述经处理的图片可以被用于预测图片。
根据另外的优选的实施例,所述方法也可以包括用于编码所述参考图片的下列步骤:
-定义多个图片堆栈,每个图片堆栈包括相对于所述参考图片的各个数量的邻近的图片;
-对于每个图片堆栈,基于运动模型,将所述邻近的图片中的每个或每个邻近的图片的至少相干区域变换到所述参考图片的坐标系中,并且由此生成经变换的图片的堆栈,并使用加权函数组合所述经变换的图片的相应像素的像素幅度,以形成用于所述参考图片的至少一个图像像素的经处理的像素幅度,并基于所述至少一个图像像素的所述经处理的像素幅度生成经处理的图片,并向每个经处理的图片赋予定义其单个图片堆栈长度的长度值;
-为每个经处理的图片生成预测的图片,所述预测的图片参考所述参考图片;
-使用所述经处理的图片编码所述参考图片并生成所述编码的比特流;
-向所述编码的比特流添加值,其指示被用于编码的所述图片的所述单个图片堆栈长度;以及
-将用于基于运动模型将所述邻近的图片中的每一个或每个邻近的图片的至少相干区域变换到参考图片的坐标系中的参数编码到所述编码的比特流。
例如,对于每个经处理的图片,可以确定所述预测的图片和所述参考图片之间的偏差,并且可以确定具有最小偏差的经处理的图片。然后,可以使用所述具有最小偏差的经处理的图片来编码所述参考图片。
具有最小偏差的所述经处理的图片可以通过计算所述经处理的图片和所述参考图片之间的绝对误差、平方误差、均方误差、均方根误差或所述误差测量的任何相关的度量而被确定。
除所述预测的图片之外,可以通过执行基于所述参考图片之前的至少一个图片的预测来生成未滤波的预测的图片。所述预测的图像和所述未滤波的预测的图像可以被分成块。可以基于所述预测的图像之一的相应块或所述未滤波的预测的图像的相应块来编码所述参考图片的每个块。对于每个块,可以提供标志,所述标志指示块是可以使用所述预测的图像之一而被编码还是可以使用所述经滤波的预测的图像而被编码。所述标志可以被包括到所述编码的比特流中。
此外,可以确定所述预测的图像的每个块和所述参考图像的每个相应块之间的偏差。此外,可以确定所述未滤波的预测的图像的每个块和所述参考图像的每个相应块之间的偏差。然后,可基于所述预测的图像之一的相应块或所述未滤波的预测的图像的相应块(依赖于那些中的哪个显示了最小偏差)来编码所述参考图片的每个块。
所述运动模型优选地是平移的、仿射的、透视的和/或抛物线的运动模型。
本发明还涉及能够执行上面所描述的方法中的任一个的解码器。
本发明还涉及能够执行上面所描述的方法中的任一个的编码器。
附图说明
为了通过其本发明的上面所述的和其他的优点被获得的方式将被容易地理解,将通过参考其特定的实施例(其仔附图中被示出)来呈现上面简要描述的本发明的更详细的描述。理解的是:这些图仅描绘了本发明的典型的实施例,并且因此不将被认为是其范围的限制,将通过使用附图而用附加的特征和细节来描述和解释本发明,其中:
图1以示例性的方式显示了H.264/AVC[1]的基本的编码结构;
图2以示例性的方式显示了长期全局运动参数的生成;
图3显示了针对在执行时间滤波之前生成一组空间对齐的图片的例子;
图4以示例性的方式显示了用于在混合视频编码环境中的后处理的时间滤波,其中使用分段和基于像素的GME在编码器和解码器两处执行时间滤波,并且其中被用于滤波的帧索引被传送到接收器;
图5显示了针对从先前解码的图片生成图片的滤波的版本It用于后处理的例子,其中图片缓冲器之内的图片可以是该序列的过去的和/或未来的图片以及来自多视图编码环境中的不同视图的图片;
图6以示例性的方式显示了用于后处理的时间滤波过程,其中来自一组对齐的图片的一个行yk被描绘;
图7以示例性的方式显示了用于混合视频编码环境中的后处理的时间滤波,其中使用分段和基于运动向量的GME在编码器和解码器两处执行时间滤波,并且其中被用于滤波的帧索引被传送到所述接收器;
图8以示例性的方式显示了用于混合视频编码环境中的后处理的时间滤波,其中使用基于像素的GME仅在所述解码器处执行所述时间滤波,并且其中被用于滤波的帧索引不被传送到所述接收器,并且其中所述编码器是不变的;
图9以示例性的方式显示了用于混合视频编码环境中的后处理的时间滤波,其中使用基于运动向量的GME仅在所述解码器处执行时间滤波,并且其中被用于滤波的帧索引不被传送到所述接收器,并且其中所述编码器是不变的;
图10以示例性的方式显示了用于混合视频编码环境中的后处理的时间滤波,其中使用基于像素的GME在所述编码器和所述解码器两处执行所述时间滤波,并且其中无分段被执行,并且其中被用于滤波的帧索引被传送到所述接收器;
图11以示例性的方式显示了用于混合视频编码环境中的后处理的时间滤波,其中使用基于运动向量的GME在所述编码器和所述解码器两处执行所述时间滤波,并且其中无分段被执行,并且其中被用于滤波的帧索引被传送到所述接收器;
图12以示例性的方式显示了用于混合视频编码环境中的后处理的时间滤波,其中使用基于像素的GME仅在所述解码器处执行所述时间滤波,并且其中分段被执行用于对象掩码传输;
图13以示例性的方式显示了用于混合视频编码环境中的后处理的时间滤波,其中使用基于运动向量的GME仅在所述解码器处执行时间滤波,并且其中分段被执行用于对象掩码传输;
图14以示例性的方式显示了用于混合视频编码环境中的运动估计增强的时间滤波,其中除通常的空间解块外,在该图片缓冲器之内的图片上使用基于像素的GME执行所述时间滤波,并且其中所述编码器通过最小化预测误差来决定是使用空间解块还是使用时间滤波;
图15显示了针对生成滤波的参考图片Ipb,t-1,filtered用于基于块的运动估计的例子,其中所述图片缓冲器内的图片可以是该序列的过去的和/或未来的图片以及来自多视图编码环境中的不同视图的图片;
图16以示例性的方式显示了用于在基于块的运动估计中生成滤波的参考图片Ipb,t-1,filtered的时间滤波过程,并且其中来自一组对齐的图片的一个行yk被描绘;
图17以示例性的方式显示了用于混合视频编码环境中的运动估计增强的时间滤波,其中除通常的空间解块外,在该图片缓冲器内的图片上使用基于运动向量的GME执行所述时间滤波,并且其中所述编码器通过最小化所述预测误差来决定是使用空间解块还是使用时间滤波;
图18以示例性的方式显示了用于混合视频编码环境中的运动估计增强的时间滤波,其中在通常的空间解块之后在该图片缓冲器内的图片上使用基于像素的GME执行所述时间滤波,并且其中所述编码器通过最小化所述预测误差来决定是使用空间解块还是使用时间滤波和空间解块的组合;
图19以示例性的方式显示了用于混合视频编码环境中的运动估计增强的时间滤波,其中在通常的空间解块之后在该图片缓冲器内的图片上使用基于运动向量的GME执行所述时间滤波,并且其中所述编码器通过最小化所述预测误差来决定是使用空间解块还是使用时间滤波和空间解块的组合;
图20以示例性的方式显示了用于混合视频编码环境中的运动估计增强的时间滤波,其中在通常的空间解块之前在该图片缓冲器内的图片上使用基于像素的GME执行所述时间滤波,并且其中所述编码器通过最小化所述预测误差来决定是使用空间解块还是使用空间解块和时间滤波的组合;
图21以示例性的方式显示了用于混合视频编码环境中的运动估计增强的时间滤波,其中在通常的空间解块之前在该图片缓冲器内的图片上使用基于运动向量的GME执行所述时间滤波,并且其中所述编码器通过最小化所述预测误差来决定是使用空间解块还是使用空间解块和时间滤波的组合;
图22以示例性的方式显示了作为混合视频编码环境中的附加的预测模式的时间滤波,其中使用基于像素的GME方法执行所述时间滤波;
图23显示了针对生成用于当前图片It的预测信号It,pred的例子,其中所述图片缓冲器内的图片可以是该序列的过去的和/或未来的图片以及来自多视图编码环境中的不同视图的图片;
图24以示例性的方式显示了时间预测过程以形成用于当前图片It的预测信号It,pred,来自一组对齐的图片的一个行yk被描绘;
图25以示例性的方式显示了作为混合视频编码环境中的附加的预测模式的时间滤波,其中使用基于运动向量的GME方法执行所述时间滤波;以及
图26以示例性的方式显示了作为附加的预测模式和用于运动估计增强的滤波的组合而被合并到通常的混合视频编码环境中的时间滤波,其中使用基于像素的GME方法执行时间滤波。
具体实施方式
在下文中所描述的发明通过针对预测视频编码和/或后处理利用全局运动时间滤波而使得能够有效处理有噪声的数字视频序列。因此,序列的图片或区域或多视图编码场景中的视图之间的全局运动被估计和补偿。这产生噪声减小的所述序列的表示,用于后滤波、运动估计增强乃至预测。
通常的混合视频编码器从原始信号中减去预测以生成残留数据。这些残留随后被逐块变换、量化并被发送到所述接收器。所述编码器也包括局部解码器。所述局部解码器重新调节所述量化的变换系数并将它们逆变换以生成所述残留数据的表示并且用它生成所述原始信号的表示。被存储在所述图片缓冲器中的一组先前解码的图片被使用以生成所述预测信号。在图1中描绘了典型的混合视频编码器。
当今视频编码中仍然存在的问题之一是变形,即块式伪像(blockingartifacts),其强烈地影响所述接收器处所感知的视觉质量和所述预测信号的客观质量。针对这些伪像主要存在两个原因。它们中的一个是变换系数的所述量化。取决于量化的粗糙度,这能够导致块边界之间的视觉干扰的边缘。第二来源是运动补偿的预测。在这里,根据已经被局部解码的时间邻近的图片,块被预测,并且因此在块边界处包含不连续。这些经常被复制到所述预测信号的内部中。达到所述局部解码的数据的客观质量提高是所期望的。用该方法,可以改善所述预测信号,这将意味着更少的残留数据并且因此意味着用于传输该视频信号所花费的更小的比特率。此外,解码所传送的数据之后的块式伪像的减少将导致所述视频信号的更好的主观感知。
对这些问题的解决方案的研究已经是广泛的。H.264/AVC标准[1]定义了解块滤波器,其是基于List等人的工作[2]。该算法首先尝试使用边界分析来区分不同种类的不连续。在这里,假设取决于邻近的块的种类(即,内编码的或互编码的),边界是或多或少尖锐的。第二步骤是水平和竖直边缘的空间滤波。尽管可以显著地改善主观质量和所述预测信号,在低比特率下在所述解码的视频中块式伪像仍然是可见的。
除像上面所述的那种空间技术之外,要传送的图片和其局部解码的时间上的邻居之间的时间相关已被使用以改善所述预测信号的质量。这些通常所说的运动补偿的预测(MCP)方案通过利用视频信号的连续图片之间的相似而实现压缩。
双-预测(B)和分层B图片编码[3]技术使用来自位于要被编码的当前图片的邻近中的一个或两个局部解码的图片的信息。在这里,使用基于块的运动估计技术来预测所述当前图片的宏块(macroblock)。如果多于一个的块被用于生成所述预测信号,则使用所有可能的候选者的加权平均。然而,仅使用平移运动模型来估计两个相应块之间的运动。分别在照相机变焦、旋转、剪切和透视变换的情况下,该模型没有充分地描述两个块之间的关系,导致不充分的预测。
通过Wiegand等人的工作[4],将先前解码的图片用于运动估计和补偿已经被扩展到参考图片选择中的可变的时间延迟。在长期记忆MCP中,用于宏块的空间位移向量可以指向仅受编码器和解码器之间的先前协商约束的任意远的参考图片。所述可变的时间延迟必须作为辅助信息而被传送到所述接收器,引起附加的比特率,这通过改进的MCP而被调整。在当前的H.264/AVC标准中的所有现有的协议子集(profile)中也已经强制采用该技术。
偕同可变的时间延迟(即,根据不是所述当前图片的直接的时间上的邻居的参考图片)的宏块的预测可以被扩展到来自若干图片的参考的叠加。这被称为多假设MCP并且已经例如在[5]中被提出。在这里,所述预测信号是若干MCP信号的线性叠加。因为所有这些块被各个运动向量和可变的时间延迟参考,故为了最佳性能,率失真(rate-distortion)优化(RDO)必须被采用。尽管如此,用于叠加的候选块是已经仅使用平移运动模型而被从先前解码的图片复制的块。这强加了与通常的基于块的MCP中的约束相似的约束。
在仿射多图片MCP[6]中,长期MCP的思想已经被扩展到使用偕同可变的时间延迟的先前解码的图片和其变形的版本。通过估计所述参考图片和要被解码的所述当前图片之间的全局运动参数来执行该变形。在[6]中,使用仿射的更高阶运动模型。随后在通常的长期图片缓冲器和它们的变形的表示的组上执行所述基于块的MCP。
MPEG-4第2部分/视觉的高级简单协议子集(Advanced Simple Profile)[7]定义了作为附加的预测模式的全局运动补偿(GMC)。不同于常规的MCP技术,要被编码的图片和其参考之间的运动不是在块的基础上使用平移运动模型而被估计,而是在图片的基础上针对更高阶的运动模型而被估计,该更高阶的运动模型通过描述变焦、旋转和剪切的参数扩展了所述平移模型。所述运动模型的参数必须作为辅助信息而被传送到所述编码器,这增加了附加的比特率。使用GMC,如下是可能的:以减少残留并因此减少传输所需的比特率的有效的方式预测关于所有不同种类的运动的大的相干区域。在MPEG-4视觉的标准化期间,被称为子画面(sprite)的技术已经被认为是序列的背景的模型。这些模型的优点在于:它非常有效地利用了统计上的长期依赖性。这些子画面可以被在线地或离线地生成,其被称作动态子画面或静态子画面。仅静态子画面是MPEG-4视觉标准的一部分。
在这里,基于全局运动估计(GME)呈现了用于先前解码的图片的时间滤波的方法。因为在此处呈现的算法能够减少量化噪声和块式伪像,故它既可以被用于解块目的以增强在所述接收器处的主观感知,又可以被用于预测信号增强并因此可以被用于比特率减小。不同于上面所呈现的最新发展的方法,它将长期记忆图片缓冲器与更高阶的运动模型的使用相组合来处理除仅平移和来自先前解码的图片的若干空间对齐的信号的叠加之外的其他种类的运动。
对于给定参考,包含块式伪像的若干时间上邻近的图片被变换到所述参考的坐标系中以构建空间对齐的图像的堆栈。对于该变换,全局运动(即,图片和其参考之间的照相机运动)必须是已知的。这可以使用基于更高阶的运动模型的任何GME算法而被完成。随后通过在所述图像堆栈中的所有空间对齐的图片的叠加来创建所述参考图片的滤波的版本。因此,使用时间平均减少了量化噪声和块式伪像。所述参考图片的所述滤波的表示可以随后被用于通常的混合视频编码中的若干目的。
本文件中所描述的发明针对若干应用,其包括上面所概述的方法的各种实施方式。
第一个应用是所述接收器处的后处理以改善所述重新构造的视频序列的主观感知。对于给定的要被显示到所述接收器的参考图片,将所述图片缓冲器中的可用的某组解码的图片叠加以生成增强的表示。可以在所述编码器处估计要被用于滤波的图片的索引,因为仅在那里原始图片是可获得的。滤波所述图片缓冲器的可能的子集并使用任何客观视频质量评估度量将其与所述原始图片相比较。如果在所述编码器处被估计,则最佳子集的索引被传送到所述接收器,产生附加的比特率。
第二个应用是使用基于块的运动估计增强MCP中的参考图片。通常地,使用来自所述图片缓冲器的局部解码的图片来执行运动估计。因为取决于量化步骤大小的粗糙度,该图片包含量化噪声和块式伪像,故基于块的运动估计导致次优的运动向量和高的残留值。可以使用此处所呈现的算法来增强所述参考图片。对于给定的要被用作用于MCP的参考的参考图片,也在所述图片缓冲器中可用的时间上邻近的图片被变换到其坐标系中并且被叠加。可以表明:使用所述参考图片的该滤波的表示,MCP导致改善的结果。此外,可以将所述时间滤波方法与如在最新发展的视频编码标准中定义的空间解块相组合。
第三个应用是除通常的内预测和互预测之外被合并到所述视频编码环境中的附加的预测模式。所述图片缓冲器中的可用的某组图片被直接变换到当前要被编码的图片的坐标系中并且被叠加。用该方式,可以使用来自时间邻居的信息有效地预测所述图片之内的大的区域。
可以分别使用在所述图片缓冲器之内的图片上的基于像素的全局运动估计和使用基于运动向量场的全局运动估计而实现所有实施例。此外,滤波不仅可以在时间邻近上进行而且可以在空间邻近的图片上进行,如在3D或多视图视频编码中的情况。在这里,滤波被扩展以处理来自每个视图的时间和空间上邻近的图片。此外,在所述滤波方法中甚至可以包括深度图。
全局运动时间滤波
用于在给定的信号中的噪声减少的简单技术是基于求平均的。我们假定编码和解码之后的块式伪像具有与白噪声相同的特性。用该方式,我们能够应用所述时间平均滤波思想,用于块式伪像和量化噪声减少。假定图像信号X的某组有噪声的表示Y的可用性,可以使用算术平均为每个像素x(m,n)减少变形。为了该目的,逐像素地计算图像信号X的N个版本的和。令
yk(m,n)=x(m,n)+nk(m,n)
为第k个图像的变形的像素值。平均值被计算为
其中r(m,n)是平均噪声信号。假定白噪声具有方差和自相关矩阵
R NN ( i , j ) = E N i ( m , n ) N j ( m , n ) = σ N 2 i = j 0 else .
使用时间滤波方法将该噪声的方差减少为1/N。所述平均噪声信号的方差随后可以被计算为
σ R 2 = E [ R 2 ( m , n ) ] = 1 N 2 Σ i = 1 N σ N 2 = σ N 2 N
因此,已经将该噪声的方差减少到1/N。
通常的混合视频编解码器的图片缓冲器包含来自所述视频序列的解码的图片。取决于量化的粗糙度,这些图片中的块式伪像和量化噪声是或多或少严重的。我们使用上面所呈现的理论背景作为有效的手段以增强所述解码的数据的质量。这导致更好的主观感知,并且也分别提升了所述编码器和所述解码器两者内的所生成的预测信号的质量。
因为已经用移动照相机记录了许多视频序列,这些序列的背景区域不是固定的。在理论考虑方面,这意味着:所述图片缓冲器不包含仅通过所述叠加的噪声而不同的一组相等信号,而是包含含有噪声的一组不同的信号。使用更高阶的运动模型,该问题可以被解决,所述更高阶的运动模型考虑了照相机执行的运动并且补偿了该运动以便所述信号被空间对齐。所述空间对齐的表示随后可以被认为是仅通过噪声而不同的相等信号。在大多数情况下,像众所周知的透视运动模型的8参数的更高阶的运动模型
x q = m 0 x p + m 1 y p + m 2 m 6 x p + m 7 y p + 1
y q = m 3 x p + m 4 y p + m 5 m 6 x p + m 7 y p + 1
足够好地描述了背景运动。在上面的等式中,(xp,yp)T是图片Ip中的像素的位置,并且(xq,yq)T是其在图片Iq中的相应位置。所述参数m0到m7借助于平移、缩放、旋转和透视变换描述了该运动。
可以使用任何GME算法来估计用于来自所述图片缓冲器的一对图片的运动模型。基本上,存在两类算法,即,基于像素的和基于运动向量的。尽管基于像素的技术工作非常好,它们缺少低的计算复杂度。然而,基于运动向量的方法经常是非常快的但是工作更差。
基于像素的算法可以是例如基于[8,9]的分层梯度下降方法。该算法首先为所述两个图片生成4阶梯图像金字塔以配准。所述图像金字塔包含原始图片、两个下采样的版本和上采样的域中的一个。对于下采样,使用5抽头Le-Gall小波滤波器,并且对于上采样,使用7抽头Daubechies小波滤波器。在最粗糙的解析度上执行第一梯度下降步骤并使用由Kanade等人提出的特征跟踪器[10]而用平移运动模型初始化所述第一梯度下降步骤。所述算法随后使用来自之前的步骤的运动参数作为初始化而在所述图像金字塔的所有其他的层中执行梯度下降步骤。用该方式,对于具有N个图片的序列,可以创建一组变换矩阵
T={W0,1,W1,2,...,WN-2,N-1}
和其描述时间上邻近的图片之间的短期位移的逆的对应矩阵
T inv = { W 0,1 - 1 , W 1,2 - 1 , . . . , W N - 2 , N - 1 - 1 }
其中
通过简单的矩阵乘法,这些短期运动模型可以随后被转换成长期参数集合。用该方式,来自该集合的任何任意对图片之间的运动被获得。在图2中描绘了长期运动模型的生成。
假定来自所述图片缓冲器的一组N个图片应被用于全局运动时间滤波。首先,必须选择参考坐标系。这可以是来自所述图片缓冲器的任何图片的坐标系或者甚至是当前要被编码的图片的坐标系。为了将图片变换到所选择的坐标系中,该图片和其参考之间的长期运动随后被补偿。用该方式,空间对齐的图片的堆栈被创建,其在图3中被示例性地示出。
所述堆栈中的图片随后被合并在一起以构建所述参考图片的经滤波的表示。为了该目的,使用通常所说的混合滤波器。所述混合滤波器可以是任何方式,例如,取决于到所述参考图片的时间距离的加权的算术平均的计算,或者只是被叠加的所有像素的中间值。取决于前景或背景运动的强度,前景对象从所述参考图片的所述经滤波的表示消失。因此,在一些应用中,可以在滤波之前在所述参考图片上执行附加的分段步骤,如此,所述接收器可以在滤波之后重新构建所述前景对象。
用于生成视频序列中的全局运动补偿的时间滤波的图片的技术也可以被应用于超分辨率图片构建,即,从具有较低的分辨率的若干表示生成图片的高分辨率副本的方法。用于超分辨率图片生成的算法是基于以下事实的:在来自序列的多个图片中正常观察任意像素。在运动补偿之后,该像素的经变换的坐标很少落在完全的整像素位置。因此,生成更高分辨率的版本是可能的。在下面描述的一些实施例中,该事实可以被利用,用于子像素运动估计准确度。因为所述时间滤波的图片无论如何被生成,人们也可以构建它的超分辨率版本,其取代通常的混合视频编码环境中的内建的内插。
应用场景
在本节中,呈现了被合并到通常的混合视频编码环境中的针对在第2节中提出的算法的三个可能的应用场景和各种实施例。
第一个场景描述了其作为用于所述接收器的后处理滤波器的用途,其中可以在所述编码器处评估最佳的可能的质量。
在第二个场景中,在编码器和解码器中的相同位置处将所述全局运动时间滤波方法用作通常的H.264/AVC解块滤波器。在此处,其目的是增强MCP并因此改善预测信号生成,以减少残留值和传输所需的比特率。此外,可以将所述时间滤波方法与通常的空间解块技术相组合。
最后一个场景向所述视频编码环境添加除通常的内预测和互预测之外的新的预测模式。在此处,所述编码器可以决定在RDO方面是使用所述通常模式中的一个来预测宏块还是使用所述新的全局运动时间滤波模式来预测宏块。
后处理
在第一优选的实施例中,上面所描述的方法可以被用于确保所述视频的最佳的可能的质量被呈现给所述接收器。在图4中可以看到被合并在通常的混合视频编码环境中的所述全局运动时间滤波算法。为简单起见,在此处不重要的信息已经被省略。在所述编码器和所述解码器两者处执行所述算法。在所述编码器侧,仅做此以从所述图片缓冲器中选择变形的时间上邻近的图片的最佳的可能的集合以生成当前图片的滤波的版本。
所述算法不被直接合并到所述编码器回路中,但是能够访问所述图片缓冲器和所述原始图片。取决于预测结构的种类,即,使用I-、P-,或B-图片,所述图片缓冲器包含所述当前图片It的一组时间邻居Ipb,t-i。然而,所述图片缓冲器还可以包含来自多视图编码环境中的不同视图的空间邻近的图片。一旦已经局部解码了所述当前图片,它也同时作为变形的表示Ipb,t而被存储在所述图片缓冲器之内。所述图片缓冲器内的所有元素或仅仅元素的子集可以随后被用于构建所述当前图片的经滤波的表示It,filtered
假定所述当前图片刚刚已被局部解码并且现在是所述图片缓冲器的一部分。所述全局运动时间滤波算法现在连续地将图片或仅所述图片的相干区域变换到Ipb,t的坐标系中。因此,必须知道所涉及的图片之间的长期运动参数。因此,在所述缓冲器中的图片或区域之间执行GME。通过将所述图片缓冲器的子集变换到Ipb,t的坐标系中,图像堆栈被创建,其被混合在一起以形成所述当前图片的初步滤波的表示。该算法可以为所述图片缓冲器的所有可能的子集创建初步表示。在此处,仅一组连续的图片被使用,因为取决于图片缓冲器大小,使用所有可能的子集会是计算复杂度的问题。
图5示出了所述图片缓冲器内的图片的示例性变换过程。可以看出:除其时间或空间邻居Ipb,t-1到Ipb,t-3之外,所述当前图片Ipb,t已被存储在所述图片缓冲器内。在该例子中,仅一些宏块的小的相干区域应被滤波,尽管所述算法不限于小的区域并且也可以在整个图片上被执行。可以看出:经受滤波的区域已经经历了在前的图片中的变换。可以通过补偿所述全局运动来逆反该变换。因此,已经使用在第2节中提出的所述GME算法估计了图片Ipb,t和其邻居之间的长期全局运动。所述区域被变换到图片Ipb,t的坐标系中,这创建了空间对齐的图片的图像堆栈。
该图像堆栈的一部分可以在图6中被看到。所描绘的是一行空间对齐的图片。要被滤波的区域内的像素被阴影化。在所述阴影的区域上使用给定滤波器将所述图片Ipb,t自身和其邻居I′pb,t-1到I′pb,t-3的经变换的表示混合在一起。由此,生成了初步滤波的表示。具有最高质量的表示被选择作为最终的经滤波的图片It,filtered。将用于所述生成的图片的数量或它们的索引作为辅助信息传送到所述接收器。
为了测量所述质量,使用所述背景区域上的客观质量评估度量(像PSNR或SSIM)将每个初步表示与所述原始图片It相比较。取决于经受滤波的区域,在质量评估之前附加的分段步骤(其将所述区域分成背景和前景区域)可能是必需的。这是由于以下事实:前景对象经常不同于所述全局运动而移动并且因此在所述经滤波的图片中消失。另一方面,如果完整的区域遵从所述全局运动,则无分段必须被执行。分段可以使用未压缩的数据或使用所述图片缓冲器在预处理步骤中发生。因为仅需要确保正确的二进制掩码,故该算法没有被进一步限定。在此处,我们使用基于各向异性扩散的背景减去技术[11]。使用该掩码,在所述接收器处重构已经在所述全局运动时间滤波步骤期间被去除的前景段是可能的。在所述编码器处,该掩码仅被用于将前景区域从所述质量测量中排除。前景区域稍后可以使用通常的空间解块技术而被滤波。
除通常的比特流之外,如果已经使用原始视频数据创建了所述二进制前景对象掩码,则所述编码器传送所述二进制前景对象掩码。用于生成所述经滤波的表示的图片的数量或其索引也被传送。用该方式,所述接收器可以通过重复所述生成步骤和所述前景段的重构来重构该序列。
在第二优选的实施例中,在所述编码器和所述解码器两者处执行时间滤波。这在图7中被描绘。所述时间滤波能够访问所述图片缓冲器和由运动补偿的预测所产生的运动向量两者。不同于第一优选的实施例,运动向量被用于GME。因此,所述解码器处的时间滤波也能够访问所述运动向量,以在所述编码器处重新产生所述结果。此外,附加的分段被执行以将前景区域从被滤波中排除。该实施例可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。
在第三优选的实施例中,所述编码器保持不变,并且因此所述编码的比特流保持不变。时间滤波仅在向所述接收器显示所述视频序列之前在所述解码器处被执行。使用基于像素的GME执行滤波。因为没有最适于滤波的帧索引被传送到所述接收器,故该方法必须滤波邻近的图片的预定义的集合或者利用不依赖于将所述原始图片作为参考的质量度量。该实施例在图8中被示例。其可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。
在第四优选的实施例中,时间滤波又仅在所述解码器处被执行。不同于所述第三优选的实施例,其利用由通常的视频编码器传送的运动向量场,用于GME。这可以在图9中被看到。该实施例可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。
在第五优选的实施例中,在所述编码器和所述解码器两者处执行时间滤波。不同于最初的两个实施例,没有附加的分段被执行,并且因此,没有前景对象掩码被传送到所述接收器。该方法可以在图10中被看到。时间滤波所需的GME是使用在所述图片缓冲器内的图片上的给定的基于像素的方法而被进行。该实施例可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。
在第六优选的实施例中,使用由运动补偿的预测提供的用于GME的运动向量场在所述编码器和所述解码器两者处执行时间滤波。参见图11中的示例性的框图。没有分段掩码在所述编码器处被生成。因此,被传送到所述接收器的附加的信息仅是用于滤波的一组参考索引。该实施例可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。
在第七优选的实施例中,仅在所述解码器处执行用于后处理的时间滤波,但是仍然使用所述原始数据在所述编码器处进行分段步骤以将二进制对象掩码传送到所述接收器。这在图12中被示例性地描绘。在此处,用基于像素的GME方法仅使用所述解码器处的图片缓冲器中的数据来执行时间滤波。
第八优选的实施例是对所述第七实施例的扩展。其在图13中被示出并且不同仅在于时间滤波的序列的计算,即,其使用由通常的比特流所提供的运动向量场。
预测1——运动估计增强
不同于上面所描述的实施例,所述全局运动时间滤波方法也可以直接被用于预测。图14示出了被合并到通常的混合视频编码环境的预测回路中的新技术的第九优选的实施例。为简单起见,不同于互预测的预测模式已经被省略。
通常的解块滤波器被嵌入到所述预测回路中作为用于MCP的预处理步骤,归因于它们的减少块式伪像的能力。这些伪像不但影响所感知的视觉质量,而且损害运动估计的结果。最新发展的解块滤波器工作良好,但是块式伪像仍然是可见的。因此,除通常的H.264/AVC解块滤波器之外所述全局运动时间滤波方法被使用。
不依赖于所使用的方法,总是在用于MCP的所述参考上执行滤波。在全局运动时间滤波的情况下,来自所述图片缓冲器的时间或空间邻近的图片的变换在混合和质量评估发生之前被执行。不同于由上所述的实施例,经滤波的图片必须被短时间存储。这是由于以下事实:滤波的表示必须作为用于运动估计的参考而是可获得的。
图15示出了将来自所述图片缓冲器的图片变换到用于MCP的所述参考的坐标系中的示例性的变换过程。将使用互预测来编码所述当前图片It。因此,其参考Ipb,t-1应被用于使用运动估计寻找块对应物。假定所述参考包含块式伪像,则可以通过使用所述全局运动时间滤波方法来减少这些伪像。来自所述时间邻居Ipb,t-2和Ipb,t-3的须经(are subject to)滤波的区域因此被变换到所述参考的坐标系中。如在第3.1节中所述的,必须知道运动补偿的过程中涉及的图片之间的长期运动。因此,GME也被合并到所述方法中。所述变换过程创建了空间对齐的图片的图像堆栈。
该图像堆栈的一部分可以在图16中被看到。所描绘的是一行空间对齐的图片。要被滤波的区域内的像素被阴影化。在所述阴影的区域上使用给定滤波器将所述图片Ipb,t-1(即用于MCP的所述参考)和来自其邻居I′pb,t-2和I′pb,t-3的所述经变换的区域混合在一起。由此,生成了初步滤波的表示。在例如PSNR或SSIM方面具有最高质量的表示可以被选择作为最终的经滤波的图片Ipb,t-1,filtered。因此,必须测试来自所述图片缓冲器的一定量的可能的子集,用于所述滤波过程。
在所述参考的最佳的可能的经滤波的表示是可获得的之后,其在MCP中被使用。使用所述通常解块的图片和所述时间滤波的图片两者作为参考来逐块地执行运动估计。针对使用平移运动向量的这样的块对应的例子可以在图15中被看到。来自所述参考的产生更小误差的块随后被用于运动补偿。尽管前景对象从所述时间滤波的图片中消失,必须被明确说明的是:此处不需要如在上面的一些实施例中所描述的附加的分段步骤。这是因为这些区域很可能产生比使用所述通常解块的图片(在其中前景段不消失)更高的误差。
对于子像素运动估计,可以生成超分辨率版本,和所有进一步的实施例的情况一样。
除通常的比特流之外,所述编码器必须将用于生成滤波的表示的图片的数量或其索引传送到所述接收器。此外,必须将用于每个块的滤波器类型作为辅助信息传送。为了重构所述视频信号,所述接收器解码所述通常的比特流、滤波器类型和帧索引并应用通常的解块或全局运动时间滤波,取决于用于每个块的滤波器的类型。
在第十优选的实施例中,除通常的空间解块之外执行时间滤波。不同于第九优选的实施例,使用由用于GME的运动补偿的预测所产生的运动向量场来执行时间滤波。所述编码器通过最小化所述预测误差来决定是使用通常的空间解块还是使用时间滤波。因此,最佳的可能的情况被用于运动估计。该实施例可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。该方法可以在图17中被看到。
在第十一优选的实施例中,在时间滤波发生之前执行通常的空间解块。这在图18中示出的框图中被示例。针对运动估计,所述编码器决定是使用空间解块还是使用空间解块和时间滤波的组合。在所述图片缓冲器内的图片上使用基于像素的GME执行所述时间滤波。与本节中的其他实施例相似,被用于滤波的图片索引(以及被用于滤波的图片或区域的滤波的类型)作为辅助信息被传送到所述接收器。该实施例可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。
在第十二优选的实施例中,在时间滤波发生之前执行通常的空间解块。不同于第十一优选的实施例,通过利用由运动补偿的预测所产生的运动向量场来执行所述时间滤波内的GME。这可以在图19中被看到。此外,所述编码器在图片或区域的基础上决定要被使用的技术。所述帧索引也被传送。该实施例可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。
在第十三优选的实施例中,除时间滤波和空间解块的组合之外,通常的空间解块被执行。在此处,在时间滤波之后执行所述空间解块。针对全局运动补偿,时间滤波使用基于像素的GME方法。取决于所生成的最佳预测信号,所述编码器决定要使用什么技术。帧索引和被用于图片和/或区域的技术被传送到所述接收器。该实施例可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。
第十四优选的实施例是对第十三优选的实施例的扩展。不同于所述第十三优选的实施例,由运动补偿的预测所产生的运动向量场被用于时间滤波器内的GME。此外,所述编码器决定是仅使用空间解块还是使用时间滤波和空间解块的组合。同样地,帧索引和被用于图片和/或区域的技术被传送到所述接收器。该实施例可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。
预测2——附加的预测模式
针对被合并到通常的混合视频编码环境中的全局运动时间滤波的第三组实施例描述了其作为附加的预测模式的用途。第十五优选的实施例在图22中被描绘。对该应用场景不重要的信息已经被省略。
在此处,所述方法被用作除通常的内预测和互预测之外的附加的预测模式。互预测中的MCP仅依赖于运动估计中所使用的块匹配技术。要被传输的变换参数的更粗糙的量化导致包含块式伪像和大量量化噪声的局部解码的图片。这影响了块匹配(其强烈地依赖于所述局部解码的图片的质量)的结果并因此导致错误的运动向量数据。此外,最新发展的块匹配技术仅传递平移运动向量,尽管精确到四分之一像素水平。两个连续的图片之间的移动可以通过平移运动模型而被近似的假设在一些情况下可能是正确的,但是在出现复杂的运动类型(像变焦、旋转、剪切和透视变换)时遇到其限制。必须被强调的是:这些问题不影响所述编码器的功能性,但是可能导致在减去原始图片和预测信号之后的不必要的高的残留数据。这又产生了要传送到所述接收器的比特的不需要的开销。
如下是可能的:将全局运动时间滤波用作附加的预测模式而显著地提高预测,并且因此减少所述预测误差,即残留数据。这可以被实现,因为要被编码的当前图片的时间滤波的表示是使用更高阶的运动模型(在该情况下是8参数透视运动模型)而被构建的。此外,它是使用若干时间或空间邻近的局部解码的图片而被构建的。取决于量化的水平,这些图片包含应当在经滤波的图片中被减少的块式伪像和量化噪声,针对其生成这些越多被考虑,它们之间的估计的运动越好。
图23示出了来自所述图片缓冲器的信息的示例性的变换过程,以构建用于所述当前图片的预测信号。假定当前要被编码的图片是It。随后可以使用先前解码的数据来预测整个图片,或仅来自它的小的相干区域。在所述例子中,图片It中的一些宏块经历先前图片中的变换过程。通过估计所述当前图片和包含在所述图片缓冲器中的那些图片之间的长期运动,人们可以补偿该运动。这产生了空间对齐的图片的图像堆栈。必须被明确说明的是:尽管图片It是所述全局运动估计的一部分,它不必被包括在所述混合过程中,因为所述解码器不了解它并且必须重新产生所述预测信号。
所述图像堆栈和所述混合过程可以在图24中被看到。所述图片Ipb,t-1到Ipb,t-3已经被变换到It的坐标系中,变成I′pb,t-1到I′pb,t-3。须经滤波的相干区域被标记为阴影的像素。相应的像素随后被混合在一起以形成用于所述当前图片It的预测信号It,pred
来自所述图片缓冲器的所有图片或仅图片的子集可以被考虑,用于生成预测信号。已构建了所述当前图片的所有可能的初步表示后,这些可以被使用以根据它们预测宏块。因为所述图片缓冲器内容总是可用的,分别在内部以及相互小片和图片中使用所述新的预测模式是可能的。对于任何宏块,所有可能的表示被使用并且在最小误差方面提供最佳预测的表示被选择。此外,所有通常的标准化的预测模式被测试,并且提供最小预测误差的预测模式被选择用于进一步处理。如果所述全局运动时间滤波预测被用于宏块,则除通常的比特流之外,所述编码器必须将被用于所述预测信号生成的图片的索引作为辅助信息传送到所述接收器。该实施例可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。
在第十六优选的实施例中,使用由运动补偿的预测所提供的运动向量场来执行所述附加的预测模式内的时间滤波。该方法在图25中被描绘。所述编码器又决定在率失真的意义上为每个区域选择什么种类的预测。帧索引作为辅助信息而被传送到所述接收器,用于所述解码器处的预测的重新产生。该实施例可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。
组合的应用
在第十七优选的实施例中,时间滤波被双重地合并到通常的混合视频编码环境中。该实施例在图26中作为框图而被描绘。在此处,时间滤波一方面作为附加的预测模式使用所述图片缓冲器中可用的图片而被执行。另一方面,除通常的解块之外,时间滤波被进行,用于运动估计增强。用该方式,所述编码器选择最佳的可能的预测模式和滤波方法以达到最优的率失真。该实施例可以被扩展到多视图编码场景,其中所述图片缓冲器由来自不同视图的空间邻近的图片构成。
该实施例仅充当针对所有先前描述的实施例的可能的组合的例子。
参考文献
1.T.Wiegand、G.J.Sullivan、G.和A.Luthra,“H.264/AVC视频编码标准的概述(Overview of the H.264/AVC Video Coding Standard)”,关于用于视频技术的电路和系统的IEEE学报,第13卷,第560-576页,2003年7月
2.P.List、A.Joch、J.Lainema、G.和M.Karczewicz,“自适应解块滤波器(Adaptive deblocking filter)”,关于用于视频技术的电路和系统的IEEE学报,第13卷,第614-619页,2003年7月
3.H.Schwarz、D.Marpe和T.Wiegand,“分层的B图片和MCTF的分析(Analysis ofHierarchical B Pictures and MCTF)”,会议论文集,关于多媒体和博览会的IEEE国际会议,2006年7月,第1929-1932页
4.T.Wiegand、X.Zhang和B.Girod,“长期记忆运动补偿的预测(Long-Term MemoryMotion-Compensated Prediction)”,关于用于视频技术的电路和系统的IEEE学报,第9卷,第70-80页,1999年
5.G.Sullivan,“用于低比特率视频的多假设运动补偿(Multi-hypothesismotion compensation for low bit-rate video)”,会议论文集,关于声学、语音和信号处理的IEEE国际会议ICASSP-93,第5卷,第437-440页,1993年4月
6.T.Wiegand、E.Steinbach和B.Girod,“仿射多图片运动补偿的预测(AffineMultipicture Motion-Compensated Prediction),关于用于视频技术的电路和系统的IEEE学报,第15卷,第197-209页,2005年2月
7.“音频-视觉对象的编码——第2部分:视觉”,MPEG-4视觉第1版,ISO/IEC 14496-2,1999年
8.A.Krutz、M.Frater和T.Sikora,“使用上采样的域的改进的图像配准(Improvedimage registration using the up-sampled domain)”,关于多媒体信号处理的国际会议(MMSP′06),加拿大维多利亚,2006年10月
9.F.Dufaux和Janusz Konrad,“用于视频编码的有效、健壮和快速的全局运动估计(Efficient,robust,and fast global motion estimation for video coding)”、关于图像处理的IEEE学报,第9卷,第497-501页,2000年
10.S.Baker和I.Matthews,“Lucas-Kanade20年,关于:统一框架(Lucas-Kanade20 years on:A unifying framework)”,计算机视觉的国际期刊,第56卷,第221-255页,2004年2月
11.A.Krutz、A.Glantz、T.Borgmann、M.Frater和T.Sikora,“使用局部背景子画面的基于运动的对象分段(Motion-Based Object Segmentation using Local BackgroundSprites)”,关于声学、语音和信号处理的IEEE国际会议的会议论文集(ICASSP 2009),台湾台北,2009年4月

Claims (18)

1.一种用于处理编码的视频序列的方法,所述方法包括以下步骤:
-重构所述编码的视频序列并且提供多个邻近的图片;
-基于运动模型将所述邻近的图片中的每个或每个邻近的图片的至少相干区域变换到参考图片的坐标系中,并且由此生成包括经变换的图片的图片堆栈;
-使用取决于到所述参考图片的时间距离的加权函数来组合所述经变换的图片的相应像素的像素幅度,以形成用于所述参考图片的至少一个图像像素的经处理的像素幅度;以及
-基于所述图像像素的所述至少一个经处理的像素幅度生成经处理的图片,
其中,通过将所述经处理的图片合并到经重构的视频序列中而生成经滤波的视频序列,以及
其中,标记位被赋值以标志在所述视频序列中存在所述经处理的像素幅度。
2.根据权利要求1所述的方法,其中长度值被赋予所述经处理的图片,所述长度值定义了所述图片堆栈的所述邻近的图片的数量。
3.根据权利要求1所述的方法,其中所述变换邻近的图片的步骤包括相对于所述参考图片,变换在先的和后继的图片。
4.根据权利要求1所述的方法,其中具有空间邻近的图片的另外的视频序列被考虑以形成所述图像像素的所述经处理的像素幅度,具有空间邻近的图片的另外的视频序列包括与所述经变换的图片的图像像素相对应的图像像素。
5.根据权利要求1所述的方法并且其进一步特征在于至少两种不同的处理模式;
-其中,在每个处理模式中,最大数量的图片被考虑,用于生成所述图片堆栈;并且
-其中,标志被赋值,其指示已在比特流中执行的处理模式。
6.根据权利要求1所述的方法,进一步包括生成编码的比特流的步骤。
7.根据权利要求1所述的方法,其中所述经处理的图片被用于预测图片。
8.根据前面的权利要求6-7中的任一项权利要求所述的方法,其进一步特征在于,执行下面的步骤,用于编码所述参考图片:
-定义多个图片堆栈,每个图片堆栈包括相对于所述参考图片的各个数量的邻近的图片;
-对于每个图片堆栈,基于运动模型,将所述邻近的图片中的每个或每个邻近的图片的至少相干区域变换到所述参考图片的坐标系中,并由此生成经变换的图片的堆栈,并且使用取决于到所述参考图片的时间距离的加权函数来组合所述经变换的图片的相应像素的像素幅度,以形成用于所述参考图片的至少一个图像像素的经处理的像素幅度,并且基于所述至少一个图像像素的所述经处理的像素幅度生成经处理的图片,并向每个经处理的图片赋予定义其单个图片堆栈长度的长度值;
-为每个经处理的图片生成预测的图片,所述预测的图片参考所述参考图片;
-使用所述经处理的图片编码所述参考图片并生成所述编码的比特流;
-向所述编码的比特流添加值,其指示被用于编码的所述图片的所述单个图片堆栈长度;以及
-将用于基于运动模型将所述邻近的图片中的每一个或每个邻近的图片的至少相干区域变换到参考图片的坐标系中的参数编码到所述编码的比特流。
9.根据权利要求8所述的方法,
-其中,除所述预测的图片之外,通过执行基于所述参考图片之前的至少一个图片的预测来生成未滤波的预测的图片;
-其中所述预测的图像和所述未滤波的预测的图像被分成块;
-其中基于所述预测的图像之一的相应块或所述未滤波的预测的图像的相应块来编码所述参考图片的每个块;
-其中,对于每个块,标志被提供,其指示是使用所述预测的图像之一来编码块还是使用所述未滤波的预测的图像来编码块;
-所述标志被包括到所述编码的比特流中。
10.根据权利要求8所述的方法,其中所述运动模型是平移的、仿射的、透视的和/或抛物线的运动模型。
11.一种用于处理编码的视频序列的解码器,包括:
-用于重构所述编码的视频序列并且提供多个邻近的图片的装置;
-用于基于运动模型将所述邻近的图片中的每个或每个邻近的图片的至少相干区域变换到参考图片的坐标系中,并且由此生成包括经变换的图片的图片堆栈的装置;
-用于使用取决于到所述参考图片的时间距离的加权函数来组合所述经变换的图片的相应像素的像素幅度,以形成用于所述参考图片的至少一个图像像素的经处理的像素幅度的装置;以及
-用于基于所述图像像素的所述至少一个经处理的像素幅度生成经处理的图片的装置,
其中,通过将所述经处理的图片合并到经重构的视频序列中而生成经滤波的视频序列,以及
其中,标记位被赋值以标志在所述视频序列中存在所述经处理的像素幅度。
12.根据权利要求11所述的解码器,其中长度值被赋予所述经处理的图片,所述长度值定义了所述图片堆栈的所述邻近的图片的数量。
13.根据权利要求11所述的解码器,其中用于变换邻近的图片的装置包括用于相对于所述参考图片,变换在先的和后继的图片的装置。
14.根据权利要求11所述的解码器,其中具有空间邻近的图片的另外的视频序列被考虑以形成所述图像像素的所述经处理的像素幅度,具有空间邻近的图片的另外的视频序列包括与所述经变换的图片的图像像素相对应的图像像素。
15.根据权利要求11所述的解码器,并且其进一步特征在于至少两种不同的处理模式;
-其中,在每个处理模式中,最大数量的图片被考虑,用于生成所述图片堆栈;并且
-其中,标志被赋值,其指示已在比特流中执行的处理模式。
16.一种用于编码参考图片的编码器,包括:
-用于定义多个图片堆栈的装置,每个图片堆栈包括相对于所述参考图片的各个数量的邻近的图片;
-用于对于每个图片堆栈,基于运动模型,将所述邻近的图片中的每个或每个邻近的图片的至少相干区域变换到所述参考图片的坐标系中,并由此生成经变换的图片的堆栈,并且使用取决于到所述参考图片的时间距离的加权函数来组合所述经变换的图片的相应像素的像素幅度,以形成用于所述参考图片的至少一个图像像素的经处理的像素幅度,并且基于所述至少一个图像像素的所述经处理的像素幅度生成经处理的图片,并向每个经处理的图片赋予定义其单个图片堆栈长度的长度值的装置;
-用于为每个经处理的图片生成预测的图片的装置,所述预测的图片参考所述参考图片;
-用于使用所述经处理的图片编码所述参考图片并生成所述编码的比特流的装置;
-用于向所述编码的比特流添加值的装置,所述值指示被用于编码的所述图片的所述单个图片堆栈长度;以及
-用于将用于基于运动模型将所述邻近的图片中的每一个或每个邻近的图片的至少相干区域变换到参考图片的坐标系中的参数编码到所述编码的比特流的装置。
17.根据权利要求16所述的编码器,
-其中,除所述预测的图片之外,通过执行基于所述参考图片之前的至少一个图片的预测来生成未滤波的预测的图片;
-其中所述预测的图像和所述未滤波的预测的图像被分成块;
-其中基于所述预测的图像之一的相应块或所述未滤波的预测的图像的相应块来编码所述参考图片的每个块;
-其中,对于每个块,标志被提供,其指示是使用所述预测的图像之一来编码块还是使用所述未滤波的预测的图像来编码块;
-所述标志被包括到所述编码的比特流中。
18.根据权利要求16所述的编码器,其中所述运动模型是平移的、仿射的、透视的和/或抛物线的运动模型。
CN201080060562.5A 2009-10-29 2010-10-28 用于处理视频序列的方法和设备 Active CN102939749B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US27998409P 2009-10-29 2009-10-29
US61/279,984 2009-10-29
PCT/EP2010/006855 WO2011050998A1 (en) 2009-10-29 2010-10-28 Method and device for processing a video sequence

Publications (2)

Publication Number Publication Date
CN102939749A CN102939749A (zh) 2013-02-20
CN102939749B true CN102939749B (zh) 2016-12-28

Family

ID=43618279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080060562.5A Active CN102939749B (zh) 2009-10-29 2010-10-28 用于处理视频序列的方法和设备

Country Status (5)

Country Link
US (1) US9445119B2 (zh)
EP (1) EP2494780B1 (zh)
JP (1) JP5791618B2 (zh)
CN (1) CN102939749B (zh)
WO (1) WO2011050998A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9230340B2 (en) * 2012-05-04 2016-01-05 Semiconductor Components Industries, Llc Imaging systems with programmable fixed rate codecs
AU2013261845A1 (en) * 2012-05-14 2014-12-11 Guido MEARDI Encoding and reconstruction of residual data based on support information
WO2014078068A1 (en) 2012-11-13 2014-05-22 Intel Corporation Content adaptive transform coding for next generation video
WO2014120367A1 (en) * 2013-01-30 2014-08-07 Intel Corporation Content adaptive parametric transforms for coding for next generation video
US10448008B1 (en) * 2013-04-30 2019-10-15 Pixelworks, Inc. Motion estimation based on block level bilateral filter and local motion model
US9514525B2 (en) * 2014-07-31 2016-12-06 Apple Inc. Temporal filtering for image data using spatial filtering and noise history
US9679387B2 (en) * 2015-02-12 2017-06-13 Mitsubishi Electric Research Laboratories, Inc. Depth-weighted group-wise principal component analysis for video foreground/background separation
CN108141606B (zh) * 2015-07-31 2022-03-01 港大科桥有限公司 用于全局运动估计和补偿的方法和系统
US10742986B2 (en) * 2015-11-09 2020-08-11 Netflix, Inc. High dynamic range color conversion correction
WO2017178782A1 (en) 2016-04-15 2017-10-19 Magic Pony Technology Limited Motion compensation using temporal picture interpolation
WO2017178827A1 (en) * 2016-04-15 2017-10-19 Magic Pony Technology Limited In-loop post filtering for video encoding and decoding
US10681370B2 (en) * 2016-12-29 2020-06-09 Qualcomm Incorporated Motion vector generation for affine motion model for video coding
KR20200073229A (ko) * 2017-10-27 2020-06-23 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 3차원 모델 부호화 장치, 3차원 모델 복호 장치, 3차원 모델 부호화 방법, 및, 3차원 모델 복호 방법
US11665365B2 (en) * 2018-09-14 2023-05-30 Google Llc Motion prediction coding with coframe motion vectors
US20220377356A1 (en) * 2019-11-15 2022-11-24 Nippon Telegraph And Telephone Corporation Video encoding method, video encoding apparatus and computer program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6807231B1 (en) * 1997-09-12 2004-10-19 8×8, Inc. Multi-hypothesis motion-compensated video image predictor
CN101371585A (zh) * 2006-01-09 2009-02-18 汤姆森特许公司 提供用于多视图视频编码的提供降低分辨率的更新模式的方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7206016B2 (en) * 2000-05-01 2007-04-17 Polycom, Inc. Filtering artifacts from multi-threaded video
US7606314B2 (en) * 2002-08-29 2009-10-20 Raritan America, Inc. Method and apparatus for caching, compressing and transmitting video signals
US20130107938A9 (en) * 2003-05-28 2013-05-02 Chad Fogg Method And Apparatus For Scalable Video Decoder Using An Enhancement Stream
KR100679026B1 (ko) * 2004-07-15 2007-02-05 삼성전자주식회사 비디오 코딩 및 디코딩을 위한 시간적 분해 및 역 시간적분해 방법과, 비디오 인코더 및 디코더
JP4495653B2 (ja) 2005-09-01 2010-07-07 日本放送協会 符号化歪み低減装置および符号化歪み低減プログラム
US8116576B2 (en) * 2006-03-03 2012-02-14 Panasonic Corporation Image processing method and image processing device for reconstructing a high-resolution picture from a captured low-resolution picture
CN101455084A (zh) 2006-03-30 2009-06-10 Lg电子株式会社 用于解码/编码视频信号的方法和装置
WO2007114368A1 (ja) * 2006-03-30 2007-10-11 Kabushiki Kaisha Toshiba 画像符号化装置及び方法並びに画像復号化装置及び方法
KR100934674B1 (ko) * 2006-03-30 2009-12-31 엘지전자 주식회사 비디오 신호를 디코딩/인코딩하기 위한 방법 및 장치
WO2007116551A1 (ja) * 2006-03-30 2007-10-18 Kabushiki Kaisha Toshiba 画像符号化装置及び画像符号化方法並びに画像復号化装置及び画像復号化方法
US8369417B2 (en) * 2006-05-19 2013-02-05 The Hong Kong University Of Science And Technology Optimal denoising for video coding
US8009732B2 (en) * 2006-09-01 2011-08-30 Seiko Epson Corporation In-loop noise reduction within an encoder framework
WO2008130367A1 (en) * 2007-04-19 2008-10-30 Thomson Licensing Adaptive reference picture data generation for intra prediction
JP5180550B2 (ja) * 2007-09-21 2013-04-10 株式会社日立製作所 画像処理装置及び画像処理方法
US8879631B2 (en) * 2007-11-30 2014-11-04 Dolby Laboratories Licensing Corporation Temporally smoothing a motion estimate
CN101878650B (zh) * 2007-11-30 2013-07-10 杜比实验室特许公司 时间图像预测的方法和系统
JPWO2009110160A1 (ja) * 2008-03-07 2011-07-14 株式会社東芝 動画像符号化/復号化方法及び装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6807231B1 (en) * 1997-09-12 2004-10-19 8×8, Inc. Multi-hypothesis motion-compensated video image predictor
CN101371585A (zh) * 2006-01-09 2009-02-18 汤姆森特许公司 提供用于多视图视频编码的提供降低分辨率的更新模式的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Affine multipicture motioncompensated prediction;Wiegand, T. and et al.;《IEEE Transactions on Circuits and Systems for Video Technology》;20050228;第15卷(第2期);全文 *

Also Published As

Publication number Publication date
JP5791618B2 (ja) 2015-10-07
CN102939749A (zh) 2013-02-20
US9445119B2 (en) 2016-09-13
WO2011050998A1 (en) 2011-05-05
US20120294362A1 (en) 2012-11-22
EP2494780A1 (en) 2012-09-05
EP2494780B1 (en) 2020-09-02
JP2013509763A (ja) 2013-03-14

Similar Documents

Publication Publication Date Title
CN102939749B (zh) 用于处理视频序列的方法和设备
US10021392B2 (en) Content adaptive bi-directional or functionally predictive multi-pass pictures for high efficiency next generation video coding
Woo et al. Overlapped block disparity compensation with adaptive windows for stereo image coding
EP3087744B1 (en) Projected interpolation prediction generation for next generation video coding
CN102282838B (zh) 针对多次曝光的增强动态范围图像和视频的方法和系统
TWI468020B (zh) Image processing apparatus and method
US20090290637A1 (en) Methods and Apparatus for Adaptive Reference Filtering
JP5623640B2 (ja) 高解像度の参照フレームを用いるビデオコーディング
EP1809041A1 (en) Error concealement for scalable video coding
CN110741640A (zh) 用于视频代码化中的运动补偿预测的光流估计
WO2015099816A1 (en) Content adaptive dominant motion compensated prediction for next generation video coding
KR20120118477A (ko) 샘플링 기반 초 해상도 비디오 인코딩 및 디코딩을 위한 방법 및 장치
CN101690234A (zh) 视频图像编码方法及解码方法、其装置、其程序以及记录有程序的记录介质
US8170110B2 (en) Method and apparatus for zoom motion estimation
AU2017331736A1 (en) Base anchored models and inference for the compression and upsampling of video and multiview imagery
KR20150135457A (ko) 복수의 입력 화상을 인코딩하는 방법, 프로그램을 격납하는 기억 매체 및 장치
JP4786612B2 (ja) 動画像符号化装置の予測動きベクトル生成装置
US8897585B2 (en) Prediction of pixels in image coding
KR20070075354A (ko) 비디오 신호의 디코딩/인코딩 방법 및 장치
GB2509702A (en) Scalable Image Encoding Including Inter-Layer Prediction
WO2014156647A1 (ja) 複数の入力画像をエンコーディングする方法、プログラムを格納する記憶媒体および装置
JP2009182763A (ja) 動画像符号化方法、動画像符号化装置、動画像符号化プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN103281533A (zh) 用于可伸缩视频编码中增强层运动估计的设备和方法
Wong et al. Horizontal scaling and shearing-based disparity-compensated prediction for stereo video coding
Gong et al. A coding scheme using global motion estimation for AVS P-frame

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant