CN101313579A - 可伸缩视频编码方法 - Google Patents

可伸缩视频编码方法 Download PDF

Info

Publication number
CN101313579A
CN101313579A CNA2005800521120A CN200580052112A CN101313579A CN 101313579 A CN101313579 A CN 101313579A CN A2005800521120 A CNA2005800521120 A CN A2005800521120A CN 200580052112 A CN200580052112 A CN 200580052112A CN 101313579 A CN101313579 A CN 101313579A
Authority
CN
China
Prior art keywords
image
rank
sports ground
resolution
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800521120A
Other languages
English (en)
Other versions
CN101313579B (zh
Inventor
G·科达拉
G·弗兰希尼
S·莱普索伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecom Italia SpA
Original Assignee
Telecom Italia SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecom Italia SpA filed Critical Telecom Italia SpA
Publication of CN101313579A publication Critical patent/CN101313579A/zh
Application granted granted Critical
Publication of CN101313579B publication Critical patent/CN101313579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/53Multi-resolution motion estimation; Hierarchical motion estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种可伸缩视频编码的运动估计方法,包括估计影像序列的运动场p的步骤,所述影像序列可用多个空间分辨率级别(K,…,K-m,…,K-M)表示,所述方法包括计算最低分辨率级别(m=K-M)的运动场pK-M(200),在达到最大分辨率级别(K)之前,重复下述步骤:上升一个分辨率级别(m=m-1);提取该分辨率级别的影像(300);和计算该分辨率级别的运动场pK-m(400)。通过光流方程式计算运动场,对于不同于最低分辨率级别的每个较高级别,所述光流方程式包含各个级别之间的正则化因子,所述正则化因子指出所考虑级别的解答和低一级的分辨率级别的解答之间的差异。正则化因子的高低不同的值意味在之后的处理迭代期间,在所考虑的分辨率下分量的程度不同的相关变化。于是,能够使解答或多或少地约束于某些空间级别,以便根据场景内容和可伸缩性需要,使性能最大化。

Description

可伸缩视频编码方法
技术领域
本发明涉及一种可伸缩视频编码方法。
背景技术
视频编码是由一系列的不同操作:运动估计、空间变换、量化、熵编码构成的复杂过程。第一个操作,运动估计在该过程中起主要的作用,其效率强烈影响可获得的压缩比。事实上,在这样的步骤中,通过采用通常区别后续影像(photogram)的高相似性,从相邻的影像开始计算影像的内容的预测。
下面,术语“参考影像”意味已处理的影像,以致它可由解码器重构。术语“当前影像”意味待编码的影像,即处理对象。参考影像被修改,以便近似当前影像。
后续影像之间的相似性可通过“失真”来表述。编码流由当前影像预测和当前影像本身之间的差异构成,以及由使解码器可以获得相同预测的附加信息构成,从而获得理想的重构。这样,通过使压缩系数达以最大,使编码信息能量最小化。
在传统的混合型标准(例如,MPEG-2,H.264/AVC)中,使用最多的运动估计技术是所谓的“块匹配”:整个当前影像被分成大小可变的许多小块,每个小块与参考影像上的具有最相似内容,从而使差分能量最小化的块相联系。于是,两个小块(一个在当前影像上,一个在参考影像上)推测起来是相同图像部分的标识;由于被拍摄对象的移动,或者由于照相机移动的缘故,当从一个影像转到下一个影像时,这样的图像部分通常存在偏移。于是,可将当前图像的每个小块与一个二维矢量联系起来,这样做表示所述小块相对于在先影像所经历的偏移。识别所述偏移的这种二维矢量被称为“运动矢量”(MV)。
从而,在编码流中,插入参考影像、MV和各个块与它们的预测之间的差异。
在高压缩比下,块匹配的使用对解码流引入一些视觉假象,但是块匹配表现为在混合编码器中(即,在包括用于补偿运动和空间压缩的预测的编码器中),计算运动估计的最有效方法。
随着新的视频编码技术的出现,根据不同于传统的DCT(离散余弦变换)的不同变换,比如“小波”变换,由于使用块匹配作为运动估计技术,发现效率降低。事实上,与按块运算的DCT相反,小波变换被应用于整个影像,于是,块匹配技术在小块边缘引入不连续,在变换域中,这形成高频分量的起源。这种高频分量大大限制了量化步骤中的性能。于是,需要一种新的运动表现。
已知一种基于块匹配的备选方法,即所谓的“光流”技术的运动估计设备,所述“光流”技术计算参考影像的光点畸变,以确定当前影像预测,而不招致块的使用。在B.Horn,B.Schunck的“Determiningoptical flow”,Artificial Intelligence,no.17,pp.185-203,1981中描述了光流技术。通过求解线性方程组,计算光流,所述线性方程组的系数是根据当前影像的空间和时间导数,即,根据就时间而论,相邻和/或后续像素之间的光点差异获得的。解答是一组二维矢量,一个矢量用于一个影像像素,称为“运动场”。
由光流产生的运动场可被确定,以致由于在线性方程组中增加正则化项的缘故,所述运动场是规律的,或者说“平滑的”。平滑的运动场产生残差的起源,所述残差并不表现出块匹配的典型不连续性,并且适合于借助小波变换分解。
存在迭代计算的运动场,以致每次迭代确定一个运动场(该运动场作为一项被插入运动场的总和中)的光流实施例。最终的总和是运动场。P.Giaccone,G.Jones的文章“Spatio-temporal approaches to thecompution of optical flow”,Proceedings of the British Machine VisionConference,1997举例说明使用光流技术以及特定的解答来建立第一运动场,其中第一运动估计基于一些显著点的识别和跟踪。
已知在视频编码环境中,通过光流应用多分辨率运动估计技术,如Moulin:P.Moulin,R.Krishnamurthy和J.Woods,“MultiscaleModeling and Estimation of Motion Fields for Video Coding”,IEEETransactions on Image Processing,vol.6,no.12,pp.1606-1620,December 1996中所述。
特别地,存在经由光流的运动估计实施例,所述实施例使用“由粗到细”(coarse-to-fine)过程,即,多分辨率过程。这种技术以和数的形式提供运动场的构成。所述和数的每一项对应于包含不同空间分辨率的金字塔的一级。这些过程的目的是克服光流算法在宽广的运动估计中,即在确定超过一定数目的像素的偏移量时遇到的困难。
实际上,这种技术如下操作。第一项由关于处于最低分辨率级别的影像估计的运动场构成。按照下面的方式产生之后的各项:
1.上升一个分辨率级别,并考虑处于该级别的影像。
2.通过插值进行扩展,并比例缩放先前计算的运动场。
3.利用由此产生的运动场使参考影像变形。
4.计算存在于变形影像和当前影像之间的运动场。这样的运动场将是该和数的一项,并将被加入到已计算的和数中。
5.如果未达到最高分辨率级别,那么从步骤1开始重复该过程。
于是,在这种技术中,关于较低级别计算的运动场被用作最终的运动场中的各项。
Eero P.Simoncelli的文献“Bayesian multi-scale differentialoptical flow”,in Handbook of Computer Vision and Applications,eds.B.Jahne,H.Haussecker和P.Geissler,Academic Press,1999距离描述一种多分辨率光流方案,包括能够在多个级别管理属于运动估计的不确定性的算法的使用。处于某一级别的运动场被模拟成由下面各级得到的运动和随机分量的总和。涉及多分辨率光流运动估计的其它文献是US05680487和US05241608。
光流可相对于传统编码被用在不同的环境中,具体地说,用在可伸缩视频编码(SVC),也称为“级别”编码的环境中。SVC技术目标是从单个的编码流开始,执行起源于位流的单个编码,根据所述位流,可能获得具有多种质量的流。事实上,根据这样的位流,考虑到空间维、时间(用“帧速率”来表示)维和质量(用“位速率”来表示)维,可能提取与具有所需分辨率(选自一组可能的分辨率)的视频流相关的新的位流。利用混合技术和基于小波的方法的方案已为人们所知。
对于在噪声信道上进行传送来说,可伸缩编码是重要的:事实上,通过在具有更好性能的信道上传送它们时,有可能保护最重要的级别(基本级别)。在具有可变位速率的信道上,可伸缩编码也是非常有用的:当频带被减小时,不传送不太重要的各层。可伸缩性的另一种有益应用在于渐进传输,即用户能够修正仅仅借助基本级别编码的视频预览,以便在数据库中执行选择;一旦做出决定,用户能够以最佳的质量接收视频。
在可伸缩编码器中,就空间可伸缩性来说,运动估计步骤非常复杂,性能受该步骤影响极大。事实上,由于细节的损失和混叠的出现,在全分辨率下计算的运动矢量的伸缩并不总是产生关于较低分辨率的最佳预测。不能从其它分辨率得到与每个空间分辨率相关的运动场的最佳解答。于是,不可能通过在有限的一组分辨率中唯一地计算最佳运动,确定所有分辨率的最佳运动。但是,插入位流中的运动表现必须是唯一的,以避免专用于运动场的位的过度占用。
从而,需要找到能够为所有受影响的分辨率优化性能的折衷。
存在以块匹配类型的运动估计为基础的方法,这些方法提供关于每个所提供分辨率的运动场的计算,并通过在编码流中插入能够为每个可伸缩性级别保持良好性能的折衷,单义地表示运动信息。下面的方法随折衷的计算模式而不同:
在P0644695A2中,从在基本层和在增强层计算的估计开始,通过利用由每个级别的估计有效性(用残余能量来表示)引导的加权函数,执行最终运动场计算。
D.Taubman,N.Mehrseresht,R.Leung,“SVC TechnicalContribution:Overview of recent technology developments atUNSW”,ISO/IEC JTC1/SC29/WG11/M10868,2004描述一种自适应处理,所述处理根据估计有效性,向在空间滤波期间计算的来自于高频频带的运动信息赋予可变权重。
尽管上述文献说明了借助于关于不同可伸缩性级别的折衷,以多分辨率分析为基础的运动估计算法,不过申请人注意到通过应用块匹配,总是出现运动估计。但是,如果被应用于可伸缩编码,那么块匹配存在困难,因为不知道如何实现能够如实地表现不同的空间分辨率的运动场。
发明内容
申请人研究了使光流技术适合于可伸缩编码场景的问题,尤其是修改光流算法过程的问题,以便在可伸缩视频编码的多分辨率环境中的空间可伸缩性的情况下,改进运动估计设备的性能。
申请人发现通过对最低空间分辨率进行光流计算,随后在增加测量所考虑的分辨率级别的解答和较低分辨率的下一分辨率级别的解答之间的相似性的约束条件的情况下,对更高的分辨率进行类似的处理,能够实现估计设备性能的改进。
当进行解码时,通过应用一组小波滤波器(离散小波变换-DWT),依据与最高分辨率相关的运动场(当通过下面说明的方法编码时计算的运动场),获得不同分辨率的运动场。
实现为正则化项的上述约束条件使已与关于较低的分辨率计算的运动场不同(尤其是在低通分量方面)的解答恶化。正则化项量化待计算的运动场与下面一个级别的已计算的运动场之间的差异。为此,对待计算的运动场应用低通小波滤波,之后是子采样,以降低分辨率。
随后通过称为“正则化因子”的因子,可设置由正则化施加的影响,所述正则化因子确定各个级别之间的相似性。高的正则化因子使某一分辨率的分量在这里描述的处理的后续迭代期间几乎不变化。相反,如果正则化因子较低,那么某一分辨率的分量在后续迭代期间受到变化,尤其是如果在较高的级别出现的细节不同于可在较低的级别中看到的那些细节移动的话。
于是可能使解答或多或少地约束于某些空间级别,以便根据场景内容和可伸缩性需要使性能最大化。
关于较低级别计算的运动场只被用作优化标准的一部分,而不用作最终的运动场中的项。当解码时,为了获得可在某一分辨率应用的运动场,执行低通小波滤波,以消除高频分量,随后对结果进行子采样就足够了。
于是,本发明的技术在多分辨率视频编码中增加了创新的正则化项。
该过程的最终结果由在最高级别计算的运动场构成。本质上,所述最终结果包含每个分辨率级别的最佳运动场(在光流的意义上)的近似值作为分量。于是,本发明的技术允许将属于多分辨率运动场的误差分布在所使用的各个分辨率之间。
所提出的关于小波类视频编码器研究的解决方案也可用在混合编码器中。
于是,按照本发明的一个方面,本发明涉及一种可伸缩视频编码的运动估计方法,所述方法包括估计影像序列的运动场的步骤,所述影像序列可用包括在最低分辨率级别和最高分辨率级别之间的多个空间分辨率级别表示,其中估计运动场的步骤包括借助函数的最小化,计算每个空间分辨率级别的运动场的步骤,其中,对于不同于最低空间分辨率级别的每个级别,所述函数包括级别之间的正则化项,所述正则化项指示关于所考虑级别的最小化的解答与关于比所考虑级别低一级的空间分辨率级别的最小化的解答之间的差异。表述“最小化的解答”意味允许获得所考虑的函数的最小值的解答。
最好,可通过光流方程式来表述上述函数。换句话说,通过光流方程式计算运动场,对于不同于最低空间分辨率级别的级别来说,所述光流方程式包括上面所述的各个级别之间的正则化项。对于最低分辨率级别来说,不存在这样的项。
最好,从最低空间分辨率级别到最高空间分辨率级别依次执行计算不同于最低空间分辨率级别的每个级别的运动场的步骤。
对于每个空间分辨率级别,运动场包括初始运动场和增量运动场,计算运动场的步骤最好包括计算增量运动场,并将增量运动场与初始运动场相加。
对于不同于最低空间分辨率级别的一般空间分辨率级别K-m,各个级别之间的正则化项可被表示成:
F 3 ( q K - m ) = | | E ( q K - m + p K - m 0 ) - p K - m - 1 | | 2
其中E是滤波和子采样运算符,p0是初始运动场,q是增量运动场;但是,具有坐标x,y的一般点的增量运动场q适合于表示成
q ( x , y ) = δu ( x , y ) δv ( x , y )
其中δu和δv是增量运动场的水平分量和垂直分量。
滤波和子采样运算符E最好是小波变换的低通分量。
对于不同于最低空间分辨率级别的每个级别,最小化最好可被表示成:
q=argmin{F1(q)+λF2(q)+μF3(q)}
其中F1(q)是表示近似误差的项,F2(q)是表示运动场正则性的项,λ和μ是两个正则化因子。
对于最小空间分辨率级别,最小化最好可被表示成:
q=argmin{F1(q)+λF2(q)}
此外,考虑到一般分辨率级别K-m上后续时刻t和t+1的两个影像gt和gt+1,表示近似误差的项可被表示成:
F1(q)=||AK-mq-(M(gt,u0,v0)-gt+1)||2
其中:u0和v0是初始运动场的水平分量和垂直分量,
AK-m是由包含影像gt+1的空间导数的两个对角子矩阵构成的矩阵,表示成 A K - m = diag ( g t + 1 ( x ) ) diag ( g t + 1 ( y ) ) ,
M是适合于按照下述方式使一般影像g失真的运动运算符:
M(g,u,v)(x,y)=g(x-u(x,y),y-v(x,y))
表示运动场正则性的项可被表示成F2(q)=||Hq||2,其中H是二阶导数运算符,所述二阶导数运算符可被表示成:
H = d 2 dx 2 d 2 dy 2 d 2 dx 2 d 2 dy 2
在计算运动场的步骤之前,所述方法最好还包括从位于最高空间分辨率级别的影像开始,构建位于不同空间分辨率级别的影像的步骤。
此外,对于每个空间分辨率级别,构建影像的步骤最好包括对位于最高分辨率级别的影像进行滤波和子采样,这样的滤波和子采样步骤被执行多次,其次数与使该空间分辨率级别和最高空间分辨率级别分开的级数相等。
滤波和子采样步骤最好包括下述步骤:
-沿各行的低通滤波;
-对各列进行子采样;
-沿各列的低通滤波;和
-对各行进行子采样。
本发明还涉及一种传送编码视频图像的方法,包括下述步骤:按照上述方法对视频图像编码,传送编码图像,接收编码图像和对接收的编码图像解码。
最好,解码步骤包括对所述编码视频图像应用至少一次小波变换,以便获得处于所需分辨率级别的影像序列。
上述方法适合于由处理器以程序的形式(以步骤序列的形式)执行。于是,本发明还涉及一种处理器程序,所述处理器程序可被直接装入数据处理系统的存储器中,并且当被执行时,适合于实现前面描述的方法。本发明最后涉及一种系统,所述系统包含执行前述方法的步骤的装置。
附图说明
下面参考附图说明本发明,附图表示了本发明的非限制性实施例,其中:
图1举例表示对视频图像编码和解码的系统;
图2表示可应用本发明的编码技术的多个分辨率级别的视频图像序列;
图3表示包括在本发明的编码方法中的滤波和子采样步骤;
图4表示与本发明的方法的步骤相关的流程图。
具体实施方式
参见图1,1表示传送视频信号的系统,包括图像编码器2和图像解码器3。图像编码器2适合于接收由视频摄影设备(比如数字摄像机)产生的视频信号,对信号S编码以产生对应的编码视频信号SC,最后在已知类型的传输介质4,比如光纤连接上传送这样的编码信号。解码器3适合于接收编码信号SC,对编码信号SC解码,以提取信号SD,信号SD类似于信号S,但是不一定等于S。
信号S被编码,以致能够在一组可能的分辨率级别中选择的一个空间分辨率级别对编码的信号S解码。
于是,在下面的说明中,将假定多分辨率金字塔的存在,以表现具有M+1个级别的影像和运动场,其中最高的级别具有索引K,最低的级别具有索引K-M。
图2表示在时间t=1,t=2...t=T的与相同的视频相关,但是对应于三个不同的分辨率级别K、K-m和K-M的三个影像序列。具体地说,第一个影像序列f1 K,f2 K,...,fT K与最高分辨率(级别K)相关,第二个影像序列f1 K-m,f2 K-m,...,fT K-m与中间分辨率(级别K-m)相关,第三个影像序列f1 K-M,f2 K-M,...,fT K-M与最低分辨率(级别K-M)相关。
当收到未编码的视频信号,包括最高分辨率级别的影像序列时,编码器2在较低的分辨率级别下执行影像构成。如图3中的流程图中所示,为了在比最高分辨率低的分辨率级别下构建影像,对最大分辨率的影像应用下述一系列操作:
-沿各行的低通滤波(步骤10);
-各列的子采样(步骤20);
-沿各列的低通滤波(步骤30);和
-各行的子采样(步骤40)。
这一系列的操作将用字母B表示。
为了在比最高分辨率低m个级别的分辨率下构建影像,上述一连串的操作被应用m次。称为Bm的该操作等同于二维图像的离散小波变换(DWT)的对应低通分量的计算。随后,通过下面的关系式,根据在时间t的最高分辨率K的对应影像,获得在时间t的K-m级(即,最高分辨率以下m级)的影像:
f t K - m = B m f t K - - - ( 1 )
在不同级别下的影像的构成之后,在不同的级别下执行运动场计算。在本发明中,当通过迭代过程进行编码时,获得运动场。这种过程首先通过使光流类型(optical flow type)的函数最小化,计算最低分辨率下的运动场,以便随后通过沿着分辨率金字塔上升,直到到达最高分辨率为止,计算越来越高的分辨率的运动场,对于最高分辨率来说,将计算最终的运动场。
在所有其它分辨率下,通过使成本函数最小化,计算运动场,在所述成本函数中,一项表示待计算的解答与已经获得的下面一个级别的解答之间的相似性。通过求解方程组,能够获得最小化。
我们假定一般分辨率K-m和一般时间常数t。所考虑的在时间t和t+1与这样的分辨率相关的两个影像是 g t = f t K - m g t + 1 = f t + 1 K - m .
按照光流技术,构建矩阵,所述矩阵包含两个对角线上的关于笛卡尔坐标x和y的一阶空间导数,其它矩阵元素等于0。
A K - m = diag ( g t + 1 ( x ) ) diag ( g t + 1 ( y ) ) - - - ( 2 )
假定用(x,y)表示的像素在一个影像和另一个影像之间被移动矢量,
p 0 ( x , y ) = u 0 ( x , y ) v 0 ( x , y ) - - - ( 3 )
用水平u0(x,y)和垂直v0(x,y)运动场初始化光流。
为求解光流而将被最小化的函数的第一项是:
F1(q)=||AK-mq-(M(gt,u0,v0)-gt+1)||2    (4)
其中变量q是将被加到初始运动场中的增量运动场
q ( x , y ) = δu ( x , y ) ) δv ( x , y ) ) ,
M是关于初始化定义的、并且适合于按照运动场u和v使影像失真的运动运算符:
M(g,u,v)(x,y)=g(x-u(x,y),y-v(x,y)) (5)
(同时对包含非整数数字的场u和v,以及对影像边缘的运动进行必要的修改)。
于是,根据上面所述,运动场p可被表述成p=q+p0,即,被表述成初项和增量项之和。
上面的项F1(q)是表示近似误差的项。
光流的第一项并不单义地确定运动场。按照Horn和Schunck的经典公式表示,需要增加与运动场的二阶导数的能量相等的一项。所述导数用等于:
H = d 2 dx 2 d 2 dy 2 d 2 dx 2 d 2 dy 2 - - - ( 6 )
的运算符H表述,运动场的二阶导数的能量变成:
F2(q)=||Hq||2                            (7)
借助适当的正则化因子,第二项F2表示运动场正则性(即,细节“贫乏”)。
按照本发明,除了最低分辨率级别之外,在所有分辨率级别,向待最小化的函数的两个标准项F1和F2增加一个第三项F3。项F3被用于保持待估计的场(处于空间分辨率级别K-m)和先前计算的场(处于级别K-m-1)之间的相似性。为了量化这样的相似性,考虑较低分辨率(级别K-m-1)的场和当前场(处于级别K-m)之间的差异。
通过运算符B,低通分量可被表示成
B B p K - m = Ep K - m = E ( q + p K - m 0 ) , - - - ( 8 )
其中运算符E对水平场和垂直场滤波和子采样。对由初始场p0和待计算的增量场q构成的场执行该运算。
这样,第三项是
F 3 ( q ) = | | E ( q + p K - m 0 ) - p K - m - 1 | | 2 - - - ( 9 )
借助适当的正则化因子,这样的第三项是由下级的分辨率继承的约束条件。换句话说,第三项是级别之间的正则化项。
由这三项F1,F2和F3,按照下面说明的算法可以获得最终的运动场。
在最低分辨率下,计算运动场
p K - M = q + p K - M 0 - - - ( 10 )
其中pK-M 0是初始场,q是增量场。而q可通过下面的(光流)方程式来表示:
q = arg min q ∈ P K - M { F 1 ( q ) + λ F 2 ( q ) } - - - ( 11 )
λ是正则化因子。约束条件q∈PK-M表明该分辨率位于分辨率级别K-M。
在高于最低分辨率的所有分辨率,即一般级别K-m下,运动场被计算为
p K - m = q + p K - m 0 , - - - ( 12 )
其中pK-m 0是初始场,q是增量场。而q可通过下面的(光流)函数来表示:
q = arg min q ∈ P K - m { F 1 ( q ) + λ F 2 ( q ) + μ F 3 ( q ) } - - - ( 13 )
λ和μ是正则化因子。约束条件q∈PK-m表明可在分辨率级别K-m得到解答。
方程式(13)的和的三项F1(q)、F2(q)和F3(q)分别表示近似误差,运动场正则性和由下级的分辨率继承的约束条件。如果因子λ较高,那么对于所得到的运动场,优先考虑正则性,即,低的细节内容。如果因子μ较高,那么优先考虑所得到的运动场相对于关于较低分辨率计算的运动场所具有的相似性。
通过正规方程求解方程式(13)
A K - m λH μE T A K - m λH μE q = A K - m λH μE T M ( g t , u 0 , v 0 ) - g t + 1 0 μ ( p K - m - 1 - E P K - m 0 ) - - - ( 14 )
下面将参考图4中的流程图,说明运动场计算。
在第一步骤(方框100)中,变量m被初始化为M,以便将分辨率级别K-m初始化为最低级别K-M。在级别K-M,在时间t和时间t+1分别考虑两个影像ft和ft+1,并提取相应的影像 g t = f t K - M g t + 1 = f t + 1 K - M .
随后通过使可按照方程式(10)和(11)表述的函数最小化,计算运动场PK-M(方框200)。
随后升高一个级别,上到级别m-1,并对于新的分辨率级别提取影像(方框300)。
随后通过使可通过方程式(12)和(13)表述的函数最小化,计算运动场pk-m(方框400)
随后检查是否达到最高级别(m=0)(方框500)。如果达到最高级别,那么该过程结束。如果未达到最高级别,那么通过上升一个级别,从方框300重新开始该过程。
在结束该过程时,获得最终的运动场pk

Claims (17)

1、一种可伸缩视频编码方法,包括估计影像序列(f1,f2,...,fT)的运动场(p)的步骤,所述影像序列可用包含在最低分辨率级别(K-M)和最高分辨率级别(K)之间的多个空间分辨率级别(K,...,K-m,...,K-M)表示,
其特征在于,估计运动场的步骤包括借助函数的最小化,计算每个所述空间分辨率级别的运动场的步骤,其中,对于不同于最低空间分辨率级别的每个级别,所述函数包括级别之间的正则化项,所述正则化项表示关于所考虑级别的所述最小化的解答与关于比所考虑级别低一级的空间分辨率级别的所述最小化的解答之间的差异。
2、按照权利要求1所述的方法,其中从最低空间分辨率级别到最高空间分辨率级别顺序地执行计算不同于最低空间分辨率级别的每个级别的运动场的步骤。
3、按照权利要求1或2所述的方法,其中对于每个空间分辨率级别,所述运动场包括初始运动场(p0)和增量运动场(q),计算运动场(p)的所述步骤包括计算增量运动场(q),并将增量运动场(q)与初始运动场(p0)相加。
4、按照权利要求3所述的方法,其中对于不同于最低空间分辨率级别的一般空间分辨率级别K-m,各个级别之间的所述正则化项可被表示成:
F 3 ( q K - m ) = | | E ( q K - m + p K - m 0 ) - p K - m - 1 | | 2 ,
其中E是滤波和子采样运算符,p0是初始运动场,q是增量运动场,具有坐标x,y的一般点的所述增量运动场q适合于表示成
q ( x , y ) = δu ( x , y ) δv ( x , y ) ,
其中δu和δv是增量运动场的水平分量和垂直分量。
5、按照权利要求4所述的方法,其中所述滤波和子采样运算符E是小波变换的低通分量。
6、按照权利要求4所述的方法,其中对于不同于最低空间分辨率级别的每个级别,所述最小化可被表示成:
q=arg min{F1(q)+λF2(q)+μF3(q)}
其中F1(q)是表示近似误差的项,F2(q)是表示运动场正则性的项,λ和μ是两个正则化因子。
7、按照权利要求6所述的方法,其中对于所述最小空间分辨率级别,所述最小化可被表示成:
q=arg min{F1(q)+λF2(q)}。
8、按照权利要求6或7所述的方法,其中考虑到一般分辨率级别K-m上的后续时刻t和t+1的两个影像gt和gt+1,表示近似误差的项可被表示成:
F1(q)=||AK-mq-(M(gt,u0,v0)-gt+1)||2
其中:u0和v0是初始运动场的水平分量和垂直分量,
AK-m是由包含影像gt+1的空间导数的两个对角子矩阵构成的矩阵,表示成 A K - m = diag ( g t + 1 ( x ) ) diag ( g t + 1 ( y ) ) ,
M是适合于按照下述方式使一般影像g失真的运动运算符:
M(g,u,v)(x,y)=g(x-u(x,y),y-v(x,y))。
9、按照权利要求6或7所述的方法,其中表示运动场正则性的项可被表示成F2(q)=||Hq||2,其中H是二阶导数运算符,所述二阶导数运算符可被表示成:
H = d 2 d x 2 d 2 dy 2 d 2 dx 2 d 2 dy 2 .
10、按照任意一个前述权利要求所述的方法,还包括在计算运动场的步骤之前,从位于最高空间分辨率级别的影像开始,建立位于不同空间分辨率级别的影像的步骤。
11、按照权利要求10所述的方法,其中对于每个空间分辨率级别,建立影像的步骤包括对位于最高分辨率级别的影像进行滤波和子采样(10-40),所述滤波和子采样步骤被执行多次,其次数与使所考虑的空间分辨率级别和最高空间分辨率级别分开的级数相等。
12、按照权利要求11所述的方法,其中滤波和子采样步骤包括下述步骤:
-沿各行低通滤波(10);
-对各列进行子采样(20);
-沿各列低通滤波(30);和
-对各行进行子采样(40)。
13、按照任意一个前述权利要求所述的方法,其中可通过光流方程式表达所述函数。
14、一种传送编码的视频图像的方法,包括下述步骤:按照权利要求1-13任意之一所述的方法对视频图像编码,传送编码的图像,接收编码的图像和对接收的编码图像解码。
15、按照权利要求14所述的方法,其中解码步骤包括对所述编码的视频图像应用至少一次小波变换,以便获得处于所需分辨率级别的影像序列。
16、一种计算机程序,所述计算机程序可被直接装入数据处理系统的存储器中,并且当运行时,适合于实现按照权利要求1-15任意之一所述的方法。
17、一种系统,所述系统包含执行按照权利要求1-15任意之一所述方法的步骤的装置。
CN2005800521120A 2005-09-29 2005-09-29 可伸缩视频编码方法 Active CN101313579B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2005/002920 WO2007036759A1 (en) 2005-09-29 2005-09-29 Method for scalable video coding

Publications (2)

Publication Number Publication Date
CN101313579A true CN101313579A (zh) 2008-11-26
CN101313579B CN101313579B (zh) 2010-11-03

Family

ID=36572221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800521120A Active CN101313579B (zh) 2005-09-29 2005-09-29 可伸缩视频编码方法

Country Status (5)

Country Link
US (1) US8625678B2 (zh)
EP (1) EP1938611B8 (zh)
JP (1) JP4906864B2 (zh)
CN (1) CN101313579B (zh)
WO (1) WO2007036759A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101347000B (zh) 2005-12-21 2010-09-01 意大利电信股份公司 用于确定立体视觉中密集差异区的方法
US8005140B2 (en) * 2006-03-17 2011-08-23 Research In Motion Limited Soft decision and iterative video coding for MPEG and H.264
US8675726B2 (en) * 2010-02-18 2014-03-18 Blackberry Limited Method and encoder for constrained soft-decision quantization in data compression
KR102166520B1 (ko) 2010-04-13 2020-10-16 지이 비디오 컴프레션, 엘엘씨 샘플 영역 병합
NO2991355T3 (zh) 2010-04-13 2018-04-14
BR122020007923B1 (pt) 2010-04-13 2021-08-03 Ge Video Compression, Llc Predição interplano
RS64605B1 (sr) 2010-04-13 2023-10-31 Ge Video Compression Llc Kodiranje videa primenom podele sa više stabala na slikama
US20110299605A1 (en) * 2010-06-04 2011-12-08 Apple Inc. Method and apparatus for video resolution adaptation
US9319690B2 (en) * 2012-04-23 2016-04-19 Telecom Italia S.P.A. Method and system for image analysis
JP2015536108A (ja) * 2012-10-07 2015-12-17 ヌメリ リミテッド 映像圧縮方法
US10349069B2 (en) * 2012-12-11 2019-07-09 Sony Interactive Entertainment Inc. Software hardware hybrid video encoder
CN104519239A (zh) * 2013-09-29 2015-04-15 诺基亚公司 用于视频防抖的方法和装置
WO2015113608A1 (en) * 2014-01-30 2015-08-06 Huawei Technologies Co., Ltd. Method for recognizing objects
EP3016390A1 (en) * 2014-10-28 2016-05-04 Alcatel Lucent Method and device for transmission of a video
US10462490B2 (en) * 2015-11-06 2019-10-29 Raytheon Company Efficient video data representation and content based video retrieval framework

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0285902A3 (de) * 1987-04-07 1990-10-10 Siemens Aktiengesellschaft Verfahren zur Datenreduktion digitaler Bildsequenzen
US5241608A (en) * 1988-11-25 1993-08-31 Eastman Kodak Company Method for estimating velocity vector fields from a time-varying image sequence
US5680487A (en) * 1991-12-23 1997-10-21 Texas Instruments Incorporated System and method for determining optical flow
CA2127151A1 (en) 1993-09-21 1995-03-22 Atul Puri Spatially scalable video encoding and decoding
JP3628776B2 (ja) * 1995-10-25 2005-03-16 沖電気工業株式会社 動きベクトル検出装置
US6957350B1 (en) * 1996-01-30 2005-10-18 Dolby Laboratories Licensing Corporation Encrypted and watermarked temporal and resolution layering in advanced television
JP2000270335A (ja) * 1999-03-16 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 動画像符号化方法、動画像復号方法、および動画像符号化装置、動画像復号装置、ならびに前記方法を記録した記録媒体
WO2002001881A2 (en) * 2000-06-30 2002-01-03 Koninklijke Philips Electronics N.V. Encoding method for the compression of a video sequence
US6717622B2 (en) * 2001-03-30 2004-04-06 Koninklijke Philips Electronics N.V. System and method for scalable resolution enhancement of a video image
DE60202771T2 (de) * 2001-06-26 2006-01-05 Koninklijke Philips Electronics N.V. Videokodierungsverfahren
US7627037B2 (en) * 2004-02-27 2009-12-01 Microsoft Corporation Barbell lifting for multi-layer wavelet coding

Also Published As

Publication number Publication date
JP2009510869A (ja) 2009-03-12
CN101313579B (zh) 2010-11-03
US20090304090A1 (en) 2009-12-10
US8625678B2 (en) 2014-01-07
EP1938611B1 (en) 2014-04-30
JP4906864B2 (ja) 2012-03-28
WO2007036759A1 (en) 2007-04-05
EP1938611A1 (en) 2008-07-02
EP1938611B8 (en) 2014-07-16

Similar Documents

Publication Publication Date Title
CN101313579B (zh) 可伸缩视频编码方法
EP0614318B1 (en) Video encoder and decoder
US5617144A (en) Image processing system using pixel-by-pixel motion estimation and frame decimation
US8630340B2 (en) Method for encoding and decoding video information, a motion compensated video encoder and a corresponding decoder
CN1284375C (zh) 运动图象编码方法和运动图象编码设备
US6600786B1 (en) Method and apparatus for efficient video processing
JP2009510869A5 (zh)
CN1135146A (zh) 利用基于特征点的运动估算编码视频信号的装置
CN101584215B (zh) 综合空时预测
CN1134090A (zh) 编码/解码视频信号的方法与装置
CN1149233A (zh) 采用运动相关预测压缩视频信息的方法和装置
US5969766A (en) Method and apparatus for contour motion estimating a binary image by using a weighted block match algorithm
CN102017626B (zh) 编码和解码方法、编码器和解码器
CN1103164C (zh) 利用逐个像素的运动估算和跳帧方法的图像处理系统
US20030118101A1 (en) Method and system for image compression using block size heuristics
US5731851A (en) Method for determining feature points based on hierarchical block searching technique
CN1132984A (zh) 块匹配运动估算方法
Francois et al. Coding algorithm with region-based motion compensation
WO2000064148A1 (en) Method and apparatus for efficient video processing
US5579050A (en) Apparatus for encoding a video signal using a search grid
CN1127266C (zh) 通过亮度估算进行编码的方法和装置
CN1142733A (zh) 应用基于特征点的运动估算的图象处理系统
CN1137211A (zh) 用在图象编码系统中的改进的运动补偿方法
Cho et al. An object-oriented coder using block-based motion vectors and residual image compensation
Hwang et al. Multistage motion vector quantization for video coding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant