CN101061723A

CN101061723A - 涉及覆盖和无覆盖的运动向量域的投射

Info

Publication number: CN101061723A
Application number: CNA200580039903XA
Authority: CN
Inventors: R·B·M·克莱恩古尼韦克; R·维特布鲁德; R·布拉斯彭宁
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-11-22
Filing date: 2005-11-17
Publication date: 2007-10-24
Also published as: US20090147851A1; WO2006054257A1; KR20070090207A; EP1817912A1; JP2008521324A

Abstract

一种用于高效视频信号压缩的方法，包括：a)通过使用第二视频画面(123)和第三视频画面的像素数据计算在第三视频画面(125)的时间位置(t3)的第一运动向量域(MvI)；b)计算在第二视频画面(123)的时间位置(t2)的第二运动向量域(Mv2)，在这个第二运动向量域中，由具有基本上等于前景对象(101)的运动的大小的前景运动向量的位置组成的前景运动区域(rFG2)，基本上与前景对象(101)的像素位置空间并置而不与背景对象(103，103’)的像素空间并置；c)基于第二运动向量域(Mv2)校正第一运动向量域(MvI)的未覆盖区域中的错误前景运动向量(rERR)；d)确定在相应于用前景对象覆盖背景对象的像素的第一运动向量域的区域(COV)中，投射到将来画面的相同的空间位置上的两个向量，哪个是前景运动向量(vFG)以及哪个是背景运动向量(vBG)；e)将第一运动向量域的运动向量投射到将被预测的第四视频画面(127)的时间位置(t4)上，获得第三运动向量域(Mv3)，包括在将两个向量投射到第三运动向量域(Mv3)的相同空间位置的情况下分配前景运动向量(vFG)；以及f)通过使用用于确定将从至少一个先前图像(125)取得的像素的位置的第三运动向量域(Mv3)来预测第四视频画面(127)。

Description

涉及覆盖和无覆盖的运动向量域的投射

技术领域

本发明涉及一种视频压缩的方法和装置、一种视频解压缩的方法和装置、实施该方法的软件，以及数字电视单元、视频信号记录器和包括视频压缩和/或解压缩装置的便携式视频装置。

背景技术

视频压缩的需求是用更小数量的比特来真实地(即用尽可能小的可视赝像)表示一个画面序列。当前的视频压缩标准比如MPEG-2和AVC(先进视频编码)使用运动预测来编码画面组(GOP)。一个画面组从仅基于其自身内容被单独编码的所谓内编码(I)画面开始，随后是预测(P、B)画面，它们是基于其中I画面的对象位于P或B画面以及校正画面中的运动预测来再现的(称为残留)。运动预测典型地通过计算/传输针对将被预测画面的时间瞬时的运动向量域，以及通过从过去取回对象的像素来完成。通过这种方式将被预测画面的每个像素被保证具有一个分配值。也可设想将先前画面的像素投射到将被预测画面，但是这并不十分优选，因为其在将被预测画面中引入了像素的双重和未分配区域的问题。

在压缩视频流中有用于编码像素数据(即内编码画面和像素残留)的一定数量的所需比特和用于编码预测所需的运动向量域的一定数量的比特。在过去提出了多种策略用于减小需要用于像素的比特数量(例如量化的自适应)，然而需要用于运动向量的比特的百分率占了整体的较大的数量，特别是对于较低比特率的应用，因此对于这些运动向量也可以实现一些压缩。

现有技术的压缩方法(例如MPEG-2)的缺点是它们仅使用运动向量的非常简单的预测：在运动向量域中，用于一个块的运动向量相对于它的左邻被差分编码(即如果左向量具有16个像素/帧的大小并且右向量是18个像素/帧，那么右向量具有其值为2的压缩差分值，比其实际值需要更少比特)。这种被称为“差分脉冲编码调制”是一种很旧并且不是十分有效的策略。

发明内容

本发明的一个目的是提供一种相对有效的视频压缩方法，尤其具有一种对于编码运动向量实现减小数量的比特的策略。

实现该对象的方法包括：

a)通过使用第二视频画面和第三视频画面的像素数据计算在第三视频画面的时间位置的第一运动向量域(Mv1)；

b)计算在第二视频画面的时间位置的第二运动向量域(Mv2)，在这个第二运动向量域中，由具有基本上等于前景对象的运动的大小的前景运动向量的位置组成的前景运动区域(rFG2)，基本上与前景对象(101)的像素位置空间并置(collocate)而不与背景对象的像素空间并置；

c)基于第二运动向量域校正第一运动向量域中的错误前景运动向量(rERR)；

d)确定在相应于用前景对象覆盖背景对象的像素的第一运动向量域的区域中，投射到将来画面的相同的空间位置上的两个向量，哪个是前景运动向量以及哪个是背景运动向量；

e)将第一运动向量域的运动向量投射到将被预测的第四视频画面的时间位置上，获得第三运动向量域，包括在将两个向量投射到第三运动向量域的相同空间位置的情况下分配前景运动向量；以及

f)通过使用用于确定将从至少一个先前图像取得的像素的位置的第三运动向量域来预测第四视频画面。

前五个步骤形成了画面预测的运动向量域预测部分。如果想要减小分配给运动向量编码的比特数量，可使用允许接收机/解压缩器预测运动向量的算法，因为对于可被预测的所有信息，很少或没有数据必需被压缩/传输。然而，运动向量的预测应当是精确的，否则将被预测画面的像素的预测就会是错误的，将导致要么是严重的赝像，要么是大量的校正数据。在本申请中提出了外插运动向量域。对于已解压画面的向量域可在接收机/解压缩器侧用运动估计计算(尽管如果没有如下用可观的错误来完成)。需要用于画面预测的向量域(从过去获得)不能简单地被计算，至少不是用经典地2-画面运动估计器，因为这需要将被预测画面本身在解压缩器中存在。然而运动向量域可被外插：有可能对象的运动向量与对象本身一起向将来移动。压缩器可用“镜像算法”预测解压缩器能够预测什么(运动向量域和形成的预测画面)以及根据压缩的质量说明需要计算和传输校正残留到哪。预测运动向量域或者可使用传输的校正运动向量域(典型地包含需要少量比特的小校正运动向量，在本方法中多用于独立封闭(覆盖/未覆盖)区域)来精确调整，或者不传输运动向量的校正，形成的画面预测用较高比特数量的残留画面来完全校正错误。

在两个最新解压缩视频画面上使用经典运动估计(例如全搜索或光流)来获得第一运动向量域产生了一个问题，因为获得的运动域对于好质量的域外插来说错误太多。特别在未覆盖区域中，运动向量被不正确地估计。然而通过使用来自先前画面的信息，可校正错误的第一向量域。例如在三个最新解压缩画面上的三个画面运动估计器可被设计，其具有与所有前景对象精确匹配的向量(特别当使用例如“3DRS”运动估计器时，向量的大小也非常接近对象的真实运动(精确)，即其不产生假的向量而是良好匹配的、一致的、精确的向量域)。特别的其将不示出分配给背景像素的前景运动向量。当然在运动估计的精确度中这对于二次项效应基本上是真实的。如果例如对16×16的像素块计算运动向量，典型的向量域将会在几乎与前景对象配置的块中溢出到少量的背景像素。

通过这种精确地匹配第二运动向量域，意味着第一运动向量域可被校正使得其也变得精确匹配。例如前景和背景运动之间的边界可在第二运动向量域中确定以及它们的位置可被投射到第一运动向量域，在向量域中给出了正确定位的边界。

通过精确匹配第一运动向量域允许两种策略(强调其不同仅在于进一步的修改因此具有发明的单一性)来最终预测画面序列的新画面。或者用于像素获取的第三向量域通过外插校正的第一运动向量域来确定，或者如下所述，像素可被外插到它们自身的将来，这种情况下不需要第三运动向量域。

在任何情况下，需要进一步的步骤来执行外插。即首先将会有导致双重分配的覆盖区域，对于它将要投射的正确(前景)向量或像素必需被识别。其次在将被预测的画面/向量域中将会有未分配区域，对于它需要一种额外的预测例如内插，或例如仅用画面残留校正。

在本方法的实施例中，第二运动向量域的计算基于第三视频画面、第二视频画面和第一视频画面例如用三画面运动估计器来完成。

在另一个实施例或前实施例的修改中，在第一运动向量中对错误前景运动向量的校正包括：

在第二运动向量域(Mv2)中检测未覆盖区域；

基于这个未覆盖区域在第一运动向量域(Mv1)中获得错误运动向量的区域(rERR)；以及

将背景运动向量分配到错误运动向量区域(rERR)的像素。

一种简单的方式是仅确定未覆盖区域的位置并且分配背景运动向量而不是计算的前景运动向量，因为对于大多视频序列这些将是正确的向量。

分配的背景向量是例如来自没有投射的区域外部的背景向量。因为未覆盖区域与背景运动的复杂度(例如简单转换或弱透视)相比较来说典型地不是很大，仅在未覆盖区域之外正确估计的背景运动向量对于这个问题区域之内的运动向量通常将是好的预测。注意尽管对于第三运动向量域Mv3，未覆盖区域是否包含正确背景运动向量(用于获取预测)或实际任何运动向量并没有关系，理想的还是第一运动向量域Mv1具有大致正确的背景运动向量(或至少前景运动向量和背景运动向量之间的边界被相对精确的定位)，因为该第一运动向量将用于时间外插，因此例如在第三运动向量域中的未覆盖区域的尺寸将由其确定。然而例如Mv3的稍微较大或较小的未分配区域可以仍然用残留向量域来进行后校正。在可替换方法中由稍微不精确的背景运动向量产生的类似错误像素投射也可用像素残留画面来校正。

在另一种实施例中，在两个向量投射到第三运动向量域的相同空间位置的情况下，被分配的前景运动向量是两个投射向量中的前景之一。

有多种方式来进行前景和背景向量的识别，用于内插以及也用于解决双重分配。例如在具有前景和背景的统一平移运动的情况下，可确定整体前景和背景运动向量(这可对于整体模型例如对于在背景和/和前景上的缩放、透视转换等统一化)。随后在双重分配情况下使用的前景运动向量可以是整体前景运动向量。然而使用局部测量的实际运动向量更好(其投射到双重分配的点)。可用各种策略比如查找其SAD(用于前景向量的好的块匹配与用于背景向量的坏匹配对比；当然可仅查找其中重建画面可用的过去)或用整体前景运动向量计算差异来确定这种局部向量是否是前景或背景向量。

在第三运动向量域的未分配的未覆盖区域可不分配运动向量(比用残留画面校正更好的预测)或分配给出有用的运动向量，该有用的运动向量对被预测画面的实际像素值在该时刻是什么给出了合理的第一预测(比用背景运动向量从先前画面中的前景对象提取所获得的更好的预测)。

用于在Mv3的未覆盖区域的有用向量的分配的可能性是例如：

最小化预测误差(例如块SAD)从全搜索(例如接近前景运动向量值)获得的向量，其可以是对于在Mv3的整个未覆盖区域的一个向量或用于未覆盖区域的不同子区域的多个向量。

从不正确位置中的背景获得的前景运动向量，仍然产生对于像素的好的预测(例如正确的平均值，导致了较低残留)。

零向量

也可分配“零获取”编码，在该情况下另一种算法可给出第一预测，比如像素外插。

一种应用与对于进一步预测获得良好匹配校正的第一向量域的相同构思的不同压缩方法，包括：

a)通过使用第二视频画面(123)和第三视频画面的像素数据计算在第三视频画面(125)的时间位置(t3)的第一运动向量域(MvI)；

b)计算在第二视频画面(123)的时间位置(t2)的第二运动向量域(Mv2)，在这个第二运动向量域中，由基本上等于前景对象(101)的运动的前景运动向量的位置组成的前景运动区域(rFG2)，基本上与前景对象(101)的像素位置空间并置而不与背景对象(103，103’)的像素空间并置；

c)基于第二运动向量域(Mv2)校正第一运动向量域(MvI)中的错误前景运动向量(rERR)；

d)确定在相应于用前景对象覆盖背景对象的像素的第一运动向量域的区域(COV)中，投射到将来画面的相同的空间位置上的两个向量，哪个是前景运动向量(vFG)以及哪个是背景运动量(vBG)；

e)将第三视频画面(125)的已校正的第一运动向量域(Mv1)的运动向量投射到被初始化为零的第四视频画面(127)，包括在双重投射的情况下仅投射具有前景运动向量(vFG)的像素。

上述压缩方法和实施例包含在解压缩期间在接收侧发生情况的镜像(差异在最后的重建即残留添加)，因此根据本发明的目的公开了多种方法和装置。

一种视频信号解压缩的方法，包括：

a)通过使用先前解压缩的第二视频画面和第三视频画面的像素数据计算在先前解压缩的第三视频画面的时间位置的第一运动向量域；

b)计算在第二视频画面的时间位置的第二运动向量域，在这个第二运动向量域中，由基本上等于前景对象的运动的前景运动向量的位置组成的的前景运动区域，基本上与前景对象的像素位置空间并置而不与背景对象的像素空间并置；

c)基于第二运动向量域校正第一运动向量域中的错误前景运动向量；

f)通过使用用于确定将要从至少一个先前图像取得的像素的位置的第三运动向量域，来预测第四视频画面。

一种视频信号解压缩的方法，包括：

b)计算在第二视频画面的时间位置的第二运动向量域，在这个第二运动向量域中，由基本上等于前景对象的运动的前景运动向量的位置组成的前景运动区域，基本上与前景对象的像素位置空间并置而不与背景对象的像素空间并置；

e)将第三视频画面的已校正的第一运动向量域的运动向量投射到被初始化为零的第四视频画面，包括在双重投射的情况下仅投射具有前景运动向量的像素。

一种视频信号(解)压缩装置，包括：

a)第一运动估计单元(605)，配置为通过使用第二视频画面(123)和第三视频画面的像素数据计算在第三视频画面(125)的时间位置(t3)的第一运动向量域(Mv1)；

b)第二运动估计单元(607)，配置为计算在第二视频画面(123)的时间位置(t2)的第二运动向量域(Mv2)，在这个第二运动向量域中，由基本上等于前景对象(101)的运动的前景运动向量的位置组成的前景运动区域(rFG2)，基本上与前景对象(101)的像素位置空间并置而不与背景对象(103，103’)的像素空间并置；

c)校正单元(609)，配置为基于第二运动向量域(Mv2)校正第一运动向量域(MvI)中的错误前景运动向量；

d)前景/背景检测器(621)，配置为确定在相应于用前景对象覆盖背景对象的像素的第一运动向量域的区域(COV)中，投射到将来画面的相同的空间位置上的两个向量，哪个是前景运动向量(vFG)以及哪个是背景运动向量(vBG)；

e)投射单元(619)，配置为将第一运动向量域的运动向量投射到将被预测的第四视频画面(127)的时间位置(t4)上，获得输出第三运动向量域(Mv3)，包括在两个向量投射到第三运动向量域(Mv3)的相同空间位置的情况下分配前景运动向量(vFG)；

f)内插单元(617)，配置为在没有发生来自第一向量域的向量投射的第三运动向量域(Mv3)的空间位置(UNCOV)分配好的预测运动向量；以及

g)画面预测单元(625)，配置为通过使用用于确定将从至少一个先前图像取得的像素的位置的第三运动向量域(Mv3)，来预测第四视频画面(127)。

一种视频信号(解)压缩装置，包括：

e)画面预测单元(625)，配置为将第三视频画面(125)的已校正的第一运动向量域(Mv1)的运动向量投射到已被初始化为零的第四视频画面(127)，并配置为在双重投射的情况下仅投射具有前景运动向量的像素。

从上述方法或实施例之一产生的压缩视频信号，仅包括对于运动预测画面的时间位置的残留运动向量，考虑到空间结构其残留由于仅能用于校正瞬时预测的运动向量域所以是可清楚识别的。

作为经典信号(例如MPEG-2)该信号将包含更少的运动向量，以及残留可典型的示出与封闭区域的关联。

压缩或解压缩装置可典型的结合到数字电视单元的各种实现中，例如具有显示器的独立电视接收机、机顶盒、比如无线LCD电视的无线视频装置等。

压缩或解压缩装置还可结合到视频信号记录器比如读/写盘记录器(光盘、硬盘等)或pc家用数据库服务器。

压缩或解压缩装置还可结合到便携式视频装置比如便携式pc，便携式助理或娱乐装置、手机电视等中，其可包括例如照相机，其捕获的画面可根据本发明进行压缩。

装置和方法都可被应用到家用和专业的娱乐系统中，比如电视录音棚，由供应商译码到较低容量的网络等。

附图说明

根据本发明的压缩和解压缩方法的这些和其它方面将参考以下的实施方式和实施例，并且参考其目的仅在于不限制特定说明而是阐明更多通用概念的附图，变得清楚和明显，并且其中虚线被用于表示该部件是可选的。

在附图中：

图1示意性地示出根据本发明的能够用于第四画面的预测的第一运动向量域的校正；

图2示意性地示出第一运动向量域的两画面运动估计的步骤；

图3示意性地示出为获得第二运动向量域的三画面运动估计的步骤；

图4象征性地示出根据本发明的第一运动向量域的校正；

图5示意性地示出根据本发明的已校正的第一运动向量域的投射来获得第三运动向量域；

图6示意性地示出根据本发明的视频压缩/解压缩装置。

具体实施方式

图1示意性地示出了在连续视频画面的时间图表100中，通过查找例如存在于第三视频画面125中的各像素的每个区域(例如8×8的块)来估计/计算得到的第一运动向量域Mv1用于于先前视频画面即第二视频画面123中的像素的相应区域(即像素灰度值的大约相同的位置分布)。应当注意的是只要获得了运动向量，可应用其它现有技术的运动估计技术，例如基于光流的方法。优选的可使用基于所谓的“3DRS”块的运动估计(参见例如WO01/88852)，因为其给出了一致(无噪声)的向量域。

注意为了简化对于相同时刻有效的视频画面(即它们的像素)和运动向量域都画在彼此上方，使得可以示出它们的几何配置(在实际中可通过仅示出像素灰度值并且通过表示用于对象中的特定像素的已计算的运动向量的颜色编码来代替它们的颜色，来显示这个)。仅示出了一个维度(例如沿着通过画面的x轴的水平线)。为了能够示出对象的形状，例如汽车形状的前景对象101，使用了一种透视，使得对象平面将其部分围绕着选择的水平画面线。运动向量域通过椭圆示出在沿着视频画面的位置，指示大约恒定的速率的区域，例如发现在第一运动向量域中的区域rBG是零背景运动。为了不进一步使得讨论复杂化，假设仅有一个前景对象沿着画面帧随时间朝连续的x位置101、105运动，以及一个静止的背景。本领域技术人员可很容易验证所提出的方法对于更复杂的向量域来说也能进行，并且需要额外的信息来解决更复杂的向量域而不引入过多错误的，这将在下面描述。然而应当提及的是在视频压缩系统中错误不是非常重要的，因为在向量域或预测图像中的错误都可通过添加校正残留来校正，其代价是要传送额外的比特。

3DRS和基于第二和第三视频画面估计的所有其它向量域的问题是其是不正确的，并且因此不能简单地用于预测随后的第四个视频画面127，无论是通过从第三视频画面125将像素投射到它，还是通过建立对第四视频画面127的瞬时时刻t4有效并且可用于从第三视频画面125获取像素的第三运动向量域Mv3。

这种运动估计“在先前画面中查找匹配”的问题是在未覆盖区域中正确的(背景)运动向量不能被估计。其原因在图2中示意性地示出，其示出了图1的视频画面的子集200，用于说明第一向量域的估计(注意对于本领域技术人员来说应当清楚，不考虑术语“第一”，第一和第二向量域的计算时刻相互交换)。在前景区域中没有问题，因为前景物体105不是封闭的，因此始终存在于连续画面中。这对于覆盖区域COV中的背景对象也是同样成立的。在先前画面中的背景中可找到房屋对象201，因此在向量域区域和前景以及覆盖区域中的视频画面物体之间有很好的匹配。作为第一近似的通过分析来自过去的运动在第一运动向量域Mv1中获得的向量，例如第一运动向量v1，对于从这个时刻t3到将来的运动的剩余也是有效的(第二运动向量v2是v1的反转)，在该近似中的误差将在以下参考图5描述。

应当注意的是，对于一些运动估计器基本上具有对二次项效应很好的匹配。如果例如对于8×8块来计算向量，仅为一个块分配一个向量，因此落在主要包括前景对象像素的块内的背景对象的少量像素将被分配错误的向量。

然而在未覆盖区域UNCOV2中将会有一个问题(区域中的错误运动向量rERR)，因为第二房屋对象203不能在先前视频画面中找到匹配，因为在该时刻第二房屋对象仍然被前景对象101覆盖为不可见。可以算术地示出对于3DRS运动估计器，典型的分配一个前景运动向量而不是正确的背景运动向量，因为正确的背景运动向量从通过将前景运动向量投射到先前画面确定的前景对象中获得数据，该前景对象通常比从背景中的不正确位置获得的像素更加不像第二房屋对象203。其它运动估计器可为未覆盖区域产生任何种类的错误运动向量。

有两种用于解决不正确运动向量的策略，它们对于阐述本发明是非常重要的。

1)可通过发送残留的运动向量更新来校正错误向量。这是本发明尽可能要避免的，因为发送额外数据降低了压缩系数。

2)可使用更先进的运动估计策略，例如基于既来自过去又来自将来的画面估计运动。这可在编码器中完成，因为所有的画面都是可用的。然而当发送尽可能少的信息到解码器时，尤其是向量域的信息，解码器需要能够作出丢失信息的预测。编码器仿效解码器的预测并且可校正不满意的预测。解码器还不具有第四视频画面127的信息，因为这是将被预测和重建的，因此基于三画面的运动估计是不可能的。

然而基于三画面的运动估计可为先前的运动向量域即第二运动向量域Mv2完成。

借助于图3，现描述用于实现良好匹配的第二运动向量域的优选实施例(良好匹配意味着基本上所有的前景像素被分配给前景运动向量，但是更重要的是基本上所有的背景像素被分配了一个背景运动向量。引入了“基本上”是因为在实际实现中由于例如块尺寸仍然会有小的误差，然而由于覆盖/未覆盖的封闭产生的匹配误差的支配效果不存在于良好匹配的运动向量域中)，即三画面运动估计。然而应当强调的是也可应用其它方法，只要第二运动向量域Mv2被很好匹配，因为对于下面的视频对象的这种精确匹配将被用于校正错误的第一运动向量域Mv1。例如根据WO01/88852的原理，可仅从2画面运动估计在第二和第三视频画面的时间位置上获得部分匹配向量域。特别是当存在关于对象种类(尤其是其为前景对象)的更高认知时，部分校正第二运动向量域Mv2(即未覆盖区域周围的运动向量)可被用于校正第一运动向量域Mv1错误的未覆盖区域。一种用于检测前景对背景的对象/运动向量的好的示例性启示是前景对象通常在画面帧的中心附近，而边界附近的像素属于背景。

图3描述了用于获得第二运动向量域Mv2的示例性的3画面运动估计。可以看出，表示分配的背景和前景向量的区域的椭圆rBG1’、rFG2和rBG2’基本上与对象位置匹配。这可通过例如以下策略实现：

a)计算后向(从过去)匹配(用第一例如背景运动向量预测候选者v3)和前向(到将来)匹配(用相同预测大小但是相反符号的向量v5)

b)对至少一个其它候选运动向量做同样的工作，其应当近似于前景运动向量(向量v13和v15)

c)为用于向过去和将来的运动的将被检测的至少两个向量检查匹配误差(例如根据经典的“绝对差之合[SAD]”标准或根据现有技术的更先进的匹配标准)：典型地应当是一个良好匹配的像素块/区域(低SAD)和三个更高的SAD。随后最低SAD为该像素或像素块确定哪个是正确向量。可基于4个SAD使用更先进的策略来获得正确向量。

因为对于该运动估计总能找到对于背景像素区域(向将来或过去)的良好匹配向量域的匹配。

其它运动估计也可被用于获得好匹配的第二运动向量域，例如基于画面123周围的两个2画面运动估计，例如在WO2003/067523中所述。

图4描述了怎样校正给出好匹配的第二运动向量域Mv2的第一运动向量域Mv1的例子。优选首先在良好匹配的第二运动向量域Mv2中通过例如WO2000/011863中描述的指向远离彼此的运动向量(发散对象)检测未覆盖区域。然后对于良好匹配向量域前景/背景边界的位置在正确的几何位置(x，y)上被找到。在第一运动向量域Mv1中该边界应当位于被点A的前景运动向量取代的点A的几何位置上(即在点B)。向量域有可能错误地靠近由在邻近点A的Mv2中估计的背景向量取代的点A的位置(点C)。这意味着在点A和C之间的错误估计区域之外的向量，即例如在点D的向量将是正确估计的背景向量。

为了预测区域rERR中的正确向量，可使用不同的预测模型，例如在统一背景运动的情况下，在点D找到的向量将被分配到rERR中的所有点/块/部分。在透视背景运动的情况下，其参数可在正确的背景运动区域上估计，并且随后该模型被用于计算区域rERR中的最可能运动。可使用这个校正的第一运动向量域Mv1，对于像素值预测不会引起太多的错误，甚至对于第一运动向量域没有(小的)校正运动残留被编码/传输(随后通过编码的像素值残留来完全产生校正)。

除了上述的其他校正策略也可被应用，例如未覆盖区域可被更加粗略地估计(例如简单地，多个比对任一侧的最大可能运动向量差更大的像素)，以及校正可基于运动的整体认知(例如背景是静止的)。然而校正的上述精确版本[也称为运动向量域的重定时](其精确度可被进一步提高)对于复杂运动场景是优选的(例如对于火车进入站台，第一根静止的柱子在火车的背景，但是相邻的静止柱子在前景)。

现在已经描述了本发明的核心：对将被预测的图像尽可能逼近地计算第一“不正确”的运动向量域Mv1(为了避免比如加速度带来的问题)，计算良好匹配的第二运动向量域Mv2，并且例如通过重定时的方式基于第二运动向量域Mv2来校正第一运动向量域Mv1使其具有良好匹配的第一运动向量域Mv1。对于第四视频画面127的预测的下一步，可使用两个不同的策略，要么是像素获得策略(在视频压缩中更普遍)要么是投射(由于某些困难的原因它没那么通用)。强调的是视频压缩的这两种方法具有发明的单一性，因为它们都使用通过考虑对先前良好匹配的运动向量域的认知来校正最接近可推导的运动向量域的新颖且有创造性的单个通用的创造性概念，以上体现在本发明的核心的上述特定技术特征中。

图5说明了第三向量域Mv3的生成，其可被随后用于从第三视频画面125向将被预测的第四视频画面127获得像素。为了获得向量域，第一向量域Mv1的所有向量沿着它们的方向投射到第三向量域Mv3中的新位置，例如

v₃(x+v₁ ^x(x，y)，y+v₁ ^y(x，y))＝v₁(x，y) [公式1]其中例如v₁ ^x(x，y)是在第一向量域v₁中位于位置(x，y)的向量的x分量。在该投射下的假设是至少在这两个视频画面上有线性(没有加速速或慢加速)的运动。例如位于位置E的向量被复制到位置F，如v3BG所示(画得小一些来与到第三运动向量域的新位置/第四视频画面自身的投射相区别)。如果投射不与第三运动向量域Mv3中的位置精确重合，将会有一些分配的向量(例如对于每个像素、块等)，例如因为相邻向量的值之间的小误差，可应用内插步骤，例如相邻向量的x和y分量的线性内插(在现有技术中已知的)。

仅对于第一向量域Mv1的估计对于在覆盖和未覆盖区域中的这种投射还会有问题。例如，在覆盖区域COV中，两个向量投射到相同位置111上，即正确的前景运动向量vFG和不正确的背景运动向量vBG。为了避免这种情形并且确保始终分配正确的前景运动向量，可例如标记或排除某些背景运动向量，使得它们的投射不会发生，而是仅投射前景运动向量。要标记的区域(参见叉标记xxx)可通过计算在第三和第四视频画面中的前景和背景运动区域之间的边界的位置(在第三视频画面的帧中)而重新找到。可设计可替换的算法来完成同样的任务，例如检查当在第三运动向量域Mv3中分配向量时向量是否已经被分配，并且验证首先分配的实际上是前景还是背景运动向量(例如通过使用模板计算前景和背景运动向量之间的差)，并且在后者情况下用第二投射向量代替它。

其次，将会有没有向量投射的区域UNCOV。类似的策略可被用于填充第一运动向量域Mv1的未覆盖区域，例如背景向量的零级保持拷贝、透视建模等等。然而因为如下所示，获得预测无论如何不能用正确背景运动向量从先前画面获得正确像素，就没有必要浪费多个计算来改善这些运动向量来获得理论上的正确运动向量，因为这些错误仍然可以用视频画面像素残留来校正。一种选择是在这些位置不进行分配(即该处的向量典型的表现得像被初始化的零向量)。更智能的操作是填充前景运动向量，其将从背景中的不正确位置获得。然而因为背景的不同部分彼此之间比前景更像(例如背景可近似于均匀的)，这将导致更低的残留。

用给定运动向量域取回对于本领域技术人员来说是熟知的，所以不用多余的图来解释。预测的(以及如果需要用其他小校正运动向量域来校正)第三运动向量域Mv3的每个向量指向第三视频画面125中的像素或像素组，该(组)像素被复制到相应于被使用的各运动向量的第三运动向量域Mv3中的位置的第四视频画面127中的位置。这种预测的视频画面有两个问题：

a)大多像素区域看起来很像压缩视频序列的原始画面，然而由于比如照明、不正确或不精确预测的运动等因素会有小的误差。

b)在未覆盖区域背景运动向量从先前画面中不正确的位置不正确地取回数据。

两种情况都可通过添加包含剩余R＝T-P(其中T是真实视频画面P是上述预测)的正确画面(所谓残留)来处理，其典型的需要更少比特来用于其描述。

代替将运动向量域投射到将被预测的画面127的新的时刻t4并且从过去获得像素，校正的第一运动向量域Mv1也可被用于从第三视频画面125投射像素到第四视频画面127。在这种情况下对什么是前景和背景的认知被类似地利用：

a)在双重像素投射的情况下仅前景像素(即具有前景运动向量的像素)被投射，以及

b)在没有像素投射时，典型的在基于在未覆盖区域之外的背景像素的值未覆盖区域中的可能像素值的第一预测/内插之后，对残留编码(例如简单复制未覆盖区域之外的第一背景像素，或用于预测未覆盖区域之内的像素的可能图案的更复杂的纹理预测模型。一个例子是使用MarkovRandom Field(马可夫随机场)空洞填补)。

所以在没有发生像素投射的区域中，不需要进一步操作。因为它们可从压缩/传输的残留中完全重建，但是为了节约比特最好是一些(固定或可变并且例如由压缩流元数据中的指示符指示的多个可用预测方法之一)预测被解压缩器使用，因为这就达到了更小的残留。

图6示意性地示出了具有压缩和解压缩功能的装置600(典型的是专用的ASIC或程序化的通用处理器，或用于视频压缩的另一种当前应用的系统)。本领域技术人员明了怎样将上述方法的特征置于单独的视频压缩器和视频解压缩器中。

装置具有用于输入视频信号Vin的输入端，该信号典型的存储在存储器601中。输入视频信号典型的从网络637中获得，该网络意味着涉及空中电视传输、因特网、家庭数据网络、便携室外通信等等的任何网络。

首先描述压缩功能，在该情况下Vin是未压缩信号(如果其是模拟的将被首先数字化-未示出)。第一运动估计单元605被配置为从存储器提取两个连续画面并且执行上述的2画面运动估计。这可用原始画面完成，但是为了镜像解压缩器所能做的(并且对于根据已解码画面不能预测的特征仅传输残留数据)，优选使用根据本发明的预测画面，甚至更优选根据全压缩方案(即通过DCT转换、量化等)的压缩/解压缩画面。形成的“错误的”第一运动向量域被写入第二存储器603用于运动向量和运动向量域。相类似地，第二运动估计单元607执行三画面运动估计。可选地，第三运动估计单元606可被包括，被配置来考虑存在于压缩侧的所有种类的数据执行高质量运动估计(将来视频画面、操作人员的标注比如插入视频图形对象的数据等)，以及被配置来将用于第一(以及当使用获得策略时是第三)运动向量域的更新运动向量存储到存储器603。校正单元609根据上述方法用第二运动向量域Mv2校正第一运动向量域Mv1。在示例性实施例中校正单元609包括覆盖/未覆盖检测器614，配置为检测第二和/或第一运动向量域中的覆盖和未覆盖区域(例如上述基于向量的值或基于视频画面本身，比如从视频画面对象匹配获得的SAD)。重定时器613配置为将不同运动的区域的边界投射到不同的时刻，以及校正器611配置为重新配置运动向量，重定时器613和校正器611都包括在校正单元609中。此外还包括运动向量域预测单元615。其包括前景/背景检测器621，用于检测哪个运动向量是前景以及哪个是背景运动向量(至少在覆盖区域中)。可应用各种基于向量或基于像素的前景/背景策略(参见例如WO01/89225)。运动向量域预测单元615还包括投射单元619或如图5所示投射向量到不同的时刻。其还包括内插单元617用于将向量分配到没有发生投射的区域。来自运动向量域预测单元615的输出是第三运动向量域Mv3。

画面预测单元625将原始画面、先前预测画面(特别是预测的第三视频画面125)、用于投射预测的第一运动向量域，Mv1、以及用于获得预测的第三运动向量域Mv3作为输入。随后其可根据上述两种策略之一(投射或获得)应用将被重建的第四视频画面127的预测。被包括的差值计算单元623计算残留画面作为根据本发明的画面预测和原始画面之间的差异，并在画面存储器601中存储该残留。

最后为了完成压缩的视频流，(符合标准的)压缩单元650执行对于例如MPEG2、AVC等现有技术的压缩器已知的操作，例如DCT转换、流格式化等。压缩的输出信号Vout’(运动向量和像素数据)可被存储在数据存储设备643上，可在网络637上传输，等等。

现在将描述解压缩的功能(其的大部分已经被描述，因为压缩器可反映出解压缩所能预测的)。输入信号Vin现在被压缩并且典型的包括内帧I(其为被整体压缩的画面，即不用其它画面的数据就可重建的)和用于运动预测画面P的更新数据。此外，向量域数据被传输用于进行视频画面预测。用于本方法的压缩和解压缩的传输数据将与用于标准(例如MPEG2或AVC)压缩的传输数据不同，特别是将会有更少的运动向量数据，因为根据本发明大多运动向量域数据在解压缩器中被预测，因此需要更少的更新数据。可通过使得输入信号可度量设计一种与标准解压缩器合理兼容的方案。第一层635包括像素数据和仅仅少量比特的运动向量数据633，而第二层包含用于标准压缩器的“整个”运动向量数据。根据本发明该第二层不需要被解压缩器接收。通过标准解压缩器的解压缩画面的质量将会稍微下降。

存储器601包括残留画面和已经完全解压缩画面的数据。第一运动估计单元605配置为从存储器中提取两个已经解压缩的画面并且执行上述的2画面运动估计，并且同样应用到三画面运动估计。校正单元609、运动向量域预测单元615和画面预测单元625执行与上述完全相同的功能，但是现在是在实际上接收的压缩视频数据和视频画面和从其预测的运动向量域上进行，而不是解压缩器会在压缩器中进行的预测。视频预测单元625的输出是非常类似于原始序列的画面，并且它们被存储在存储器601中。注意到已作必要修正单元650解压缩单元651在输入端被需要来完成拆包，反DCT等，使得实际写入到画面存储器601中的是数字画面，即像素图像。最后视频画面的解压缩序列可被调节单元652(其可例如执行数字/模拟转换、编码为电视标准比如PAL等)调整到输出信号Vout，并且该输出信号可被传输到例如显示器641。

对于压缩来说非常典型的，解压缩器与仿效该行为的压缩器完成基本同样的事情，仅仅压缩器通过从原始画面中减去获得的预测来确定残留，而解压缩器将接收的解压缩残留添加到预测上。注意预测还可涉及多个先前画面：例如向量可被双倍用于从在前-先前画面中获得像素并且其可与从先前画面中获得的像素进行平均。

注意权利要求2或4的基于三画面的估计、权利要求3的重定时、权利要求5的前景向量确定策略以及权利要求6的背景向量确定策略的进一步具体的算法实施例可被权利要求1的或者在可替换的权利要求7中出现的(解压缩方法)步骤的任何组合来代替，以及基本(解)压缩装置(典型的IC或软件激活的处理器)的相应装置可被进一步配置为执行相应的功能。包括基本(解)压缩器的装置(数字电视单元、视频信号记录器、便携式视频装置)，根据实际实现(例如能够接收和显示压缩视频的便携设备仅需要解压缩器，但是如果包括存储器，则还需要压缩器，例如用于压缩(在数字化之后)模拟信号)可包括单个或多个压缩器或解压缩器或二者。

在本文中公开的算法部分可实际上通过硬件(例如应用特定IC的各部分)或在专用数字信号处理器或通用处理器等上运行的软件来(例如整体地或部分地)实现。

在计算机程序产品的情况下应当理解激活处理器(通用或专用目的)的指令集合的物理实现在一系列装载步骤后(其可包括中间转换步骤比如转换到中间语言以及最终处理器语言)让指令进入处理器，并执行本发明的任何特征功能。特别的，计算机程序产品可实现为例如盘或磁带的载体上的数据、存在于存储器中的数据、在网络链路(有线或无线)上移动的数据，或纸上的程序代码。除了程序代码之外，需要用于程序的特征数据还可体现为计算机程序产品。

运行本方法所需的一些步骤可以是已经存在于处理器的功能中，而不是在计算机程序产品中被描述，比如数据输入和输出步骤。

应当注意的是上述实施例旨在说明而不是限制本发明。除了权利要求中所组合的本发明的元件组合之外，元件的其他组合也是可能的。元件的任何组合可通过单独专用的元件来实现。

权利要求的括号内的任何标记目的不是在于限制本发明。术语“包括”不排除权利要求中没有列出的其他元件或方面的存在。元件前的术语“一”不排除多个这种元件的存在。

Claims

1.一种视频信号压缩方法，包括：

a)通过使用第二视频画面(123)和第三视频画面的像素数据计算在第三视频画面(125)的时间位置(t3)的第一运动向量域(Mv1)；

b)计算在第二视频画面(123)的时间位置(t2)的第二运动向量域(Mv2)，在这个第二运动向量域(Mv2)中，由具有基本上等于前景对象(101)的运动的大小的前景运动向量的位置组成的前景运动区域(rFG2)，基本上与前景对象(101)的像素位置空间并置而不与背景对象(103，103’)的像素空间并置；

c)基于第二运动向量域(Mv2)校正第一运动向量域(Mv1)的未覆盖区域中的错误前景运动向量(rERR)；

d)确定在相应于用前景对象覆盖背景对象的像素的第一运动向量域的区域(COV)中，投射到将来画面的相同的空间位置上的两个向量，哪个是前景运动向量(vFG)以及哪个是背景运动向量(vBG)；

e)将第一运动向量域的运动向量投射到将被预测的第四视频画面(127)的时间位置(t4)上，获得第三运动向量域(Mv3)，包括在将两个向量投射到第三运动向量域(Mv3)的相同空间位置的情况下分配前景运动向量(vFG)；以及

f)通过使用用于确定将从至少一个先前图像(125)取得的像素的位置的第三运动向量域(Mv3)来预测第四视频画面(127)。

2.如权利要求1所述的视频信号压缩方法，其中第二运动向量域(Mv2)的计算基于第三视频画面(125)、第二视频画面(123)和第一视频画面(121)完成。

3.如权利要求1或2所述的视频信号压缩方法，其中在第一运动向量域(Mv1)中的错误前景运动向量的校正包括：

在第二运动向量域(Mv2)中检测未覆盖区域；

将背景运动向量分配到错误运动向量区域(rERR)的像素。

4.如权利要求2所述的视频信号压缩方法，其中第二运动向量域(Mv2)的计算用三画面运动估计完成。

5.如权利要求1所述的视频信号压缩方法，其中在两个向量投射到第三运动向量域(Mv3)中的相同空间位置的情况下，被分配的前景运动向量(vFG)是两个投射向量中的一个前景向量。

6.如权利要求1所述的视频信号压缩方法，其中分配给没有发生来自第一向量域的向量的投射的空间位置的向量，是相对于背景向量给出第四画面的像素的好的预测的向量。

7.一种视频信号压缩方法，包括：

c)基于第二运动向量域(Mv2)校正第一运动向量域(MvI)的未覆盖区域中的错误前景运动向量；

8.一种视频信号解压缩的方法包括：

a)通过使用先前解压缩的第二视频画面(123)和第三视频画面的像素数据计算在先前解压缩的第三视频画面(125)的时间位置(t3)的第一运动向量域(Mv1)；

c)基于第二运动向量域(Mv2)校正第一运动向量域(Mv1)的未覆盖区域中的错误前景运动向量；

f)通过使用用于确定将要从至少一个先前图像(125)取得的像素的位置的第三运动向量域(Mv3)来预测第四视频画面(127)。

9.一种视频信号解压缩的方法包括：

d)确定在相应于用前景对象覆盖背景对象的像素的第一运动向量域的区域(COV)中，投射到将来画面的相同的空间位置上的两个向量，哪个是前景运动向量(vFG)以及哪个是背景运动向量(vBG)；以及

10.一种视频信号压缩装置(600)包括：

f)内插单元(617)，配置为在没有发生来自第一向量域的向量投射的第三运动向量域(Mv3)的空间位置(UNCOV)分配运动向量，其在该位置得到了真实像素的好的预测；以及

11.一种视频信号压缩装置包括：

e)画面预测单元(625)，配置为将第三视频画面(125)的已校正的第一运动向量域(Mv1)的运动向量投射到已被初始化为零的第四视频画面(127)，并配置为在双重投射的情况下仅投射具有前景运动向量(vFG)的像素。

12.一种视频信号解压缩装置(600)包括：

a)第一运动估计单元(605)，配置为通过使用先前解压缩的第二视频画面(123)和第三视频画面的像素数据计算在先前解压缩的第三视频画面(125)的时间位置(t3)的第一运动向量域(Mv1)；

g)画面预测单元(625)，配置为通过使用用于确定将从至少一个先前图像(125)取得的像素的位置的第三运动向量域(Mv3)，来预测第四视频画面(127)。

13.一种视频信号解压缩装置包括：

14.一种如权利要求1或权利要求7所述的方法产生的压缩视频信号，仅包括对于运动预测画面的时间位置的残留运动向量，考虑到空间结构该残留由于仅能用于校正瞬时预测的运动向量域所以是可清楚识别的。

15.一种包括对应于权利要求1的每个步骤a到f的相应处理器可读装置的计算机程序产品，使得处理器执行权利要求1所述的方法。

16.一种包括对应于权利要求7的每个步骤a到e的相应处理器可读装置的计算机程序产品，使得处理器执行权利要求7所述的方法。

17.一种包括对应于权利要求8的每个步骤a到f的相应处理器可读装置的计算机程序产品，使得处理器执行权利要求8所述的方法。

18.一种包括对应于权利要求9的每个步骤a到e的相应处理器可读装置的计算机程序产品，使得处理器执行权利要求9所述的方法。

19.一种包括如权利要求12或13所述的视频解压缩装置(600)的数字电视单元。

20.一种包括如权利要求10或11所述的视频压缩装置(600)的视频信号记录器。

21.一种包括如权利要求12或13所述的视频解压缩装置(600)和权利要求10或11所述的视频压缩装置(600)的便携式视频装置。