CN1270542C

CN1270542C - 视频图像压缩方法

Info

Publication number: CN1270542C
Application number: CNB028040589A
Authority: CN
Inventors: 埃里克·皮尔; 萨米·萨利宁
Original assignee: Gamecluster Ltd Oy
Current assignee: Gamecluster Ltd Oy
Priority date: 2001-01-24
Filing date: 2002-01-23
Publication date: 2006-08-16
Anticipated expiration: 2022-01-23
Also published as: ES2729193T3; WO2002060183A1; JP4004408B2; US20040095999A1; EP1364535B1; EP1364535A1; FI109633B; CN1494804A; US7894525B2; KR100879324B1; JP2004517590A; FI20010143A0; KR20040012714A

Abstract

一种压缩视频信息的方法(800，820)，装置(900)和程序，所述方法包括步骤：利用摄影机参数和深度图，将下一图像的点投影(803)至三维空间；和从三维空间将投影的点，投影(805)至参考图像表面，从而获得估算下一图像与参考图像之间的变化的运动矢量。

Description

视频图像压缩方法

技术领域

本发明涉及数字视频压缩方法。这种方法特别适用于加速数字视频的压缩和/或提高结果质量。本发明更特别适用于视频材料是从三维模型合成产生的情况。

背景技术

运动视频图像由单个的静止图像组成，向观察者连续显示这些静止图像，其速度之高足以产生运动的感觉。在运动视频图像的有关信息被存储或发送时，视频压缩的目标是减少描述运动视频图像所需求的数据量。

目前，众所周知的基本上实现这个目标的所有已知的视频压缩方法，是从图像中识别和除去重复的信息。实际上这意味着识别图像之间的变化，并告知接收机如何利用先前的图像(或某个别的早先经过压缩的图像)，建构下一图像。

基于先前的图像建构新的图像的一种方法，是识别图像的各部分如何在参考图像和下一图像之间运动。寻求运动参数的过程称作运动估算，它通常是基于在参考图像的邻近区域一块一块地进行的。图像一般以某种固定方式分割为若干块，但分割(即块的大小和块的安排)也可换一种方式，例如与运动估算同时进行，因而在分割时考虑所检测的运动情况。然后，使用运动矢量告知解压缩器下一图像中块的运动方向和距离。有关块分割和块的运动矢量的信息，使解压缩器能利用早先重构的参考图像，估算原来的下一图像。解压缩器的这个动作称为运动补偿，在下一图像的运动补偿估算中，模仿原来的下一图像。

运动补偿通常不会产生下一图像的精确复制，所以由图像压缩器建立对运动补偿图像的校正。压缩器一般确定校正图像，作为运动补偿图像和原来的下一图像之间的差。这个校正图像称为差图像。

在压缩器侧的运动估算，要求在二维搜索空间反复搜索。在大多数标准化视频压缩算法中，提取下一图像的块，再将它与参考图像的邻近块比较。然后，将所发现的最相似的块与被搜索的块之间的位置差，作为运动矢量。由于在反复搜索过程中要求大量操作，所以在目前的计算机或硬件视频压缩系统中，对运动矢量作周密的搜索是不切实际的。

普遍采用的视频压缩系统利用若干巧妙的技术并采取某些折衷方法，试图避免沉重的计算带来的负担。一种方法是限制进行搜索的区域，这样也就限制了能表示出来的最大运动矢量长度。另一方法是基于邻近块的运动矢量，估算块的运动矢量。但是，这些方法要在压缩过程的效率和质量方面进行妥协。

发明内容

本发明的目的是建立一种视频压缩的有效方法。优选的方法能比目前已知的方法明显更有效地压缩视频，而不损害质量。

本发明的这些和其他目的，通过确定由摄影机的移动引起的运动矢量，在视频压缩中利用这些运动矢量，而达到。

根据本发明的一种压缩视频信息方法，其特点在于所述方法包括步骤：利用摄影机参数和深度图，将下一图像的点投影至三维空间；和从三维空间将投影的点，投影至参考图像表面，从而获得估算下一图像与参考图像之间的变化的运动矢量，其中所述深度图是从存储在计算机的显示控制器的存储器中的深度图获得的。根据本发明的一种压缩视频信息的设备，其特点在于所述设备包括：利用摄影机参数和深度图，将下一图象的点投影至三维空间的装置，将投影的点从三维空间投影至参考图象表面的装置，从而获得估算下一图像与参考图像之间的变化的运动矢量，其中从存储在计算机的显示控制器的存储器中的深度图，获得该深度图。

从属权利要求描述本发明的某些优选实施例。

本发明的基本原理是，当要压缩的视频从已知的缩合模型产生时，或者能创建视频场景的深度图模型时，运动估算过程就有新的可能情况发生。

当视频场景的深度图已知时，这意味着(直觉的)有可能在三维空间确定出现在场景中的目标的位置。用更精确的术语说，在图像表面上的点被投影向三维空间。三维空间既可对应于合成的模型，也可对应于真实世界。当摄影机位置和方向的变化已知是介于参考图像与下一图像之间时，就能从摄影机的移动，并利用目标在三维空间(或投影至三维空间)的已知位置，确定下一图像的考虑摄影机的移动后的运动矢量。如果在感觉上除了摄影机的移动以外没有别的变化(即在涉及参考图像和下一图像的时间过程中，目标没有运动)，那么，这些运动矢量就能精确描述与参考图像有关的下一图像。

要压缩的图像可以是真实的三维世界的图像。在这种情况下，能确定或估计目标相对于摄影机的位置，因为图像本身揭示了投影至一个平面的目标位置信息，并且，例如利用距离感测器可获得目标对摄影机的距离信息。另一种情况是视频图像可起源于合成模型。在计算机图形中，当确定一个合成模型的视图时，必须找出哪些目标是观察者能看见的，哪些则不是。一般使用z-缓冲器；待显示的每一象素的深度值(z-值)存储至z-缓冲器中，只描绘新的象素，如果它的z-值小于已在同一位置上的象素的话。z-缓冲器是视图的深度图，这种深度图一般是每当在计算机绘图中生成合成模型的视图时产生的。

涉及摄影机的移动的运动矢量可以按块确定，并在视频压缩中直接用作块的运动矢量。换句话说，涉及摄影机的移动的运动矢量可用作初始值，而更精确的块运动矢量，可通过例如搜索邻近摄影机的移动的运动矢量所指区域中的相似块来确定。

除了确定下一图像中的块的运动矢量以外，也能确定下一图像的运动矢量场。运动矢量场一般涉及运动矢量信息，它有比块更精细的尺度。运动矢量场通常在象素尺度上描述运动。运动矢量场可直接在象素水平上确定，类似于对块的处理。这是简单明了的，因为深度图一般确定下一图像的距离信息。另一种方法，能在块水平上确定运动矢量场，利用这些块特定运动矢量场内插象素特定运动矢量场。

运动矢量场可用作参考图像扭曲场。这表示当形成下一图像的运动补偿估算时，除了参考图像部分的平面转换外，也能收缩/扩展和/或旋转参考图像的部分。在运动补偿中利用运动矢量场，要求解压缩器能从它所接收的信息生成运动矢量场，并根据参考图像扭曲参考图像。解压缩器可使用例如内插方法，它是解压缩器在在被压缩的信息流开始时指定的，或者换一种方法，压缩器和解压缩器可协商由它们双方支持的内插方法。在压缩图像序列时，一般不需要改变内插方法，但在解压缩器被告知新的内插方法时，也可以这样做。

为了图像重构的精确度，压缩器一般不用较早的图像作为参考图像。一般来说，压缩器使用对解压缩器有用的相同信息重构参考图像。重构的参考图像以后用于确定运动估算和校正图像。下面详细描述本发明，术语参考图像既可以是较早的原始图像本身，也可以是较早图像的重构，取决于图像压缩的细节。

附图说明

通过附图中的示例，对本发明加以说明，附图中：

图1a示出想像的视频图像；

图1b示出与图1a的图像有关的深度图；

图2a示出同样场景的新图像，其时摄影机已移动；

图2b示出新的视频图像的深度图；

图3示出图1a和2a的视频图像的摄影机位置；

图4示出利用深度图信息，从能反向投影的视频图像中的一个点向三维空间投影时的几何关系；

图5示出在摄影机固定的情况下，应用本发明于已知的计算机游戏的情形；

图6示出摄影机近似直线地向前移动时的情形；

图7示出摄影机从右向左旋转时的情形；

图8a，8b，8c示出根据本发明的一个实施例的方法流程图；和

图9示出根据本发明的又一实施例的视频压缩器。

具体实施方式

下面参考图1-4说明本发明。

根据本发明的方法要求下列数据以便从参考图像和下一压缩图像着手：实际图像和图像的摄影机参数。与下一图像相应的深度图也是需要的。深度图一般是二维阵列数据，它描述实际图像的各象素中的可视目标离摄影机有多远。

图1a和2a表示例如两个视频图像：在图1a中表示的视频图像I0，在图2a中表示的视频图像I1。图像I0和I1涉及同一场景，但对于图I0和I1来说，摄影机观察场景的位置和方向是不同的。

图像的摄影机参数定义摄影机位置、摄影机方向和摄影机观察距离。摄影机位置K一般表示三维空间中的点(或指向这个位置的矢量)。摄影机方向一般以三个摄影机方向矢量Kx、Ky和Kz表示。观察距离Dv是摄影机离图像平面的距离。图4示出这些摄影机参数K、Kx、Ky、Kz和Dv。

图像平面中的点的x和y坐标一般定义为图像平面上的点的距离(在方向矢量Kx和Ky定义的方向上)，那里，由矢量Kz定义的方向直交于图像表面；这个交点一般是图象的中心点。图4示出坐标x的上述定义；在图4中坐标以x1标记，图4涉及图像I1。

图1b和2b示出图像I0和I1的深度图：灰色暗影越深，从摄影机至图像的那个点上目标的距离越远。深度图Z确定在矢量Kz方向上从摄影机至目标O的距离。图4表示如何利用x1、y1、Z1(x1、y1)和图像I1的摄影机参数，确定图I1点(x1、y1)上的目标O在三维空间中的位置。换句话说，图4示出图像表面的点(x1、y1)向三维空间P’的点投影。

当图像是从合成模型生成的视图时，深度图Z通常生成作为图像创建过程的副产品，如上面所讨论的。当图像是真实世界的图像时，能用例如距离感测器确立深度图。

下面作为一个例子，我们来考虑一种情况，即图1a中的视频图像I0起图2a所示视频图像I1的参考图像的作用。再有，作为一个例子，我们来考虑图像I0和I1中包括人的头部的图像块。

为了计算研究中的块的运动矢量的有效近似，我们要找出象素p1(图2a)曾在参考图像I0中的什么地方，假定图像I0和I1之间的所有变化都是由摄影机参数的变化引起的。这个先前的位置称为p0(图1a)。为寻求p0(x0和y0)的x和y分量，首先利用图像I1的摄影机参数，将图像点p1反向投影至三维空间P’，然后再利用参考图像的摄影机参数，将三维空间的点投影至参考图像I0的表面。两个图像中的点的位置差(通常定义为带符号的差(p0-p1)是用于视频压缩中的运动矢量。

从图像表面I至三维空间的投影，用下列公式进行：

P^{'} = K + \frac{x * Z (x, y)}{Dv} * \overset{&OverBar;}{K} x + \frac{y * Z (x, y)}{Dv} * \overset{&OverBar;}{K} y + Z (x, y) * \overset{&OverBar;}{K} z

这里，x和y是图像表面上的点的坐标，Z(x，y)是点(x，y)的深度图值。从三维空间至图像表面的投影，可用从上面的公式解x，y和Z(x，y)的所得的公式进行。这两个公式是三维计算机绘图的已知基本公式。坐标、摄影机参数和深度图可用与上述稍有不同的方法定义，但技术人员显然明白，要相应地修改投影公式。

这个计算运动矢量的方法，考虑所有由摄影机参数中的变化引起的视频图像中的变化。不考虑摄影机所看到的场景中的可能变化时，首先可利用下一图像的摄影机参数将下一图像的象素/块投影至三维空间，然后利用参考图像的摄影机参数再投影到参考图像的表面。下面，我们将涉及下一图像中某一目标的点记为p1，而参考图像中的则记为p_ref。但是，当下一图像被压缩时，p_ref的值一般是未知的，运动补偿的目标正是要确定p_ref的估算。

我们把下一图像点p1的一次投影记为p1’(这是三维空间的一个点)，再次投影的点记为p1”(这是参考图像表面上的点(x1”，y1”)，它有深度值z1”)。如果p1和p1”所在区域中的视频图像的变化只是由摄影机参数中的变化引起的，那么p1”等于或接近于p_ref。图1-3说明这种情况。估算p”是否等于或接近于p_ref的一种可能的方法，是将深度值z1与参考图像深度图的值Z0(x1”，y1”)进行比较。如果图像中的变化是由摄影机参数的变化引起的，这些值就能紧密相符合。在这种情况下，一般不需要为p1寻求比p1”-p1更精确的运动矢量。

如果摄影机所看到的场景发生变化，像上述那样再次投影下一图像的点，在图像的那些区域给出的就是不精确的运动矢量。在计算上便宜的、估算是否可能需要确定更精确的运动矢量的方法，是将深度值z1”与深度值Z0(x1”，y1”)比较。如果这个比较不产生紧密相符，那么更精确的运动补偿矢量可用常规搜索方法确定。值p1”-p1可用作这些常规的运动矢量搜索方法的初始值。在标准的视频压缩方法中，运动矢量通常不单独就每一象素来计算，而是以固定尺寸例如8×8或16×16象素的块代替。由于这个原因，本发明的投影方法也更适用于这类块，以节省计算工作量。通过例如对块内的深度值取平均，并用平均深度值和块的中心x和y坐标作为投影的点坐标，就能这样做。

图5，6和7各表示用这种投影方法，就已知的计算机游戏的视频帧计算而得的运动矢量场。在这个计算机游戏中，虚拟的摄影机附接在武器上，并可随游戏者的意愿在周围移动和旋转。在些图表示游戏的视频帧被划分为若干块，并在运动估算过程中使用。图5-7表示游戏的视频帧，视频帧被划分为块。

在图5中，摄影机是稳定的，因而用投影方法计算的运动矢量不出现。图6表示游戏者向前运动的情形，图7表示游戏者从右向左旋转的情形。如从图5-7可看出的，用所述投影方法产生的运动矢量给出更为直觉的运动视图。

代替用作基于块的视频压缩的输入数据。用所述投影方法计算的运动矢量能换个用法：用作参考图像扭曲场。一般来说，参考图像中的每一象素的运动矢量，通过基于块的矢量场的(例如双直线的)内插来计算。另一种方法，通过逐个象素地对象素投影，也能产生运动矢量场。用这种方法，要求连同压缩数据一起，传输/存储描述运动矢量场的信息。如果在图像压缩和图像解压缩两者进行参考图像扭曲，实际图像压缩算法部分应该校正扭曲的参考图像与下一图像之间的差。

使用扭曲方法对压缩比和视图质量是有利的，因为它扩展了能以运动矢量表示的操作形态。当正常的基于块的视频压缩时，仅有的能用来从参考图像建构下一图像的操作是转化的块复制，扭曲方法正确地再现由摄影机的移动引起的图像的定标和旋转。以常用的反复搜索方法寻求旋转和定标参数，会使视频压缩在计算上花费过高，因为它们实际上将两个新维度加到搜索空间。

作为两个例子，图8示出根据本发明两个实施例的视频压缩方法800和820的流程图。在步骤801中，获得下一图像并建立有关下一图像摄影机参数的信息，在步骤802中，建立有关下一图像深度图的信息。在步骤803中，利用摄影机参数和下一图像的深度图将下一图像的块投影至三维空间。在步骤804中，建立有关参考图像摄影机参数的信息，以及在步骤805中，已投影至三维空间的点被投影至参考图像表面。

在步骤806中，如上所述，利用投影结果确定运动矢量。在步骤807中，确定涉及摄影机参数的运动矢量是否足够精确。如上所论，通过将参考图像深度图值Z0(x1”，y1”)与二次投影的图像点p1”的深度值z1进行比较，可实现这一步骤。一般是为差值确定一个阈值，如果深度值彼此充分接近，就不需要更精确的运动矢量。在步骤808中，如果需要，就用涉及摄影机参数的运动矢量作为初始值，搜索更精确的运动矢量；这里，任何搜索运动补偿矢量的方法都是可使用的。搜索最好只在运动矢量不够精确的图像区域中进行。

图8b表示如何继续执行视频压缩方法800。在这种方法中，以图像压缩中的常规途径运用运动矢量。在步骤809中，利用运动矢量进行有关下一图像的运动补偿估算。然后，在步骤810中，利用下一图像和运动补偿估算，确定差图像。在步骤811中，发送和/或存储描述运动矢量的信息，以便进一步应用。在步骤812中，发送和/或存储描述差图像的信息。在步骤813中，利用所发送/存储的信息生成新参考图像；新的参考图像可涉及每一压缩图像而生成，或者，同一参考图像可用于若干压缩图像。此后，方法800从步骤801继续。

图8c表示如何继续执行方法820。在方法820中，步骤821确定运动矢量场。如上论，确定运动矢量场的一种可能途径是从块特定的运动矢量内插象素特定的值。在步骤822中，用运动矢量场作为扭曲场确定下一图像的运动补偿估算。然后类似于方法800，继续执行方法820。

在新的图像材料进入视图的图像边缘，运动补偿估算是不精确的。当按照现在的方法计算的运动矢量指向参考图像外部时，可观察到这种情况。但是，差图像处理运动补偿估算中的不精确性也是这种情况。

作为一个例子，图9简要示出根据本发明一个实施例的视频压缩器900。视频压缩器有存储参考图像的装置901，接收下一图像的装置902，和确定用来估计下一图像和参考图像之间变化的运动矢量的装置903。它还包括建立有关下一图像深度图和摄影机参数的信息的装置904，和存储参考图像的摄影机参数的装置905。装置904可安排例如从距离感测器接收距离信息，或者从三维显示控制器的存储器接收/获取信息。确定运动矢量估算的装置903安排计算下一图像的点向三维空间的投影，和三维空间的点向参考图像的投影。

视频压缩器还可包括存储有关参考图像深度图的信息的装置(可利用与存储摄影机参数用的存储装置905同样的存储装置实现)，和估算运动矢量精度的装置906。估算运动矢量精度的装置可安排在需要时以常规搜索方法确定更精确运动矢量。

视频压缩器一般还包括建立下一图像运动补偿估算的装置907，和确定下一图像和运动补偿估算之间的差图像的装置908。建立下一图像运动补偿估算的装置907可安排使用运动矢量，或换一种方式，可安排建构运动矢量场的按照运动矢量场对参考图像进行扭曲。

进一步，它一般还包括发送/存储描述运动矢量和差图像的信息的装置909。利用所发送/存储的信息建构新的参考图像的装置910，一般也是视频压缩器的组成部分。

根据本发明的装置或计算机程序，可安排按照根据本发明的任何方法运作。例如，用于压缩视频信息的设备，可以包括利用摄影机参数和深度图，将下一图象的点投影至三维空间的装置，和将投影的点从三维空间投影至参考图象表面的装置，从而获得估算下一图像与参考图像之间的变化的运动矢量，其中从存储在计算机的显示控制器的存储器中的深度图，获得该深度图。

所述方法开辟了压缩的视频应用的新的可能性，因为常规的运动补偿视频压缩通常要求的处理器和其他资源限制了实时视频压缩对设备的要求。实时压缩视频流所需要的计算的能力，现在可以用来提高结果的质量，同时压缩多路视频流，或者，在适当的地方与图像压缩同时完成其他任务。

从前面的描述看来，很显然，对技术人员来说，在本发明的范围内可以做出各种修改。尽管本发明的一些优选实施例已详细描述过，但明显的是，对它们的许多修改和变形是可能的，所有这些修改和变形都在所附独立权利要求规定的本发明的范围之内。

Claims

1.一种压缩视频信息的方法(800，820)，其特征在于：

所述方法包括步骤：

利用摄影机参数和深度图，将下一图像的点投影至三维空间(803)；和

从三维空间将投影的点，投影至参考图像表面，从而获得估算下一图像与参考图像之间的变化的运动矢量，其中所述深度图是从存储在计算机的显示控制器的存储器中的深度图获得的(805)。

2.根据权利要求1所述的方法，其特征在于：

获得的运动矢量用于加速压缩。

3.根据权利要求1或2所述的方法，其特征在于：

所述方法进一步包括步骤：

—通过将投影至三维空间的点的深度值与投影至参考图像表面的点的深度图进行比较，估算所得到的运动矢量的精确度。

4.根据权利要求1所述的方法，其特征在于：

这样得到的运动矢量用作图像压缩运动矢量，或者所得到的运动矢量用作图像压缩运动矢量搜索用的初始值(808)，这取决于所得到的运动矢量的估算精确度。

5.根据权利要求1或4所述的方法，其特征在于：

所述方法包括步骤：

利用所得到的和/或所搜索到的运动矢量，确定下一图像的运动矢量场；和

用运动矢量场作为参考图像的扭曲场，确定下一图像的运动补偿估算。

6.根据权利要求1所述的方法，其特征在于：

确定固定尺寸图像块的运动矢量，并且，对每一块，只确定一个运动矢量。

7.根据权利要求6所述的方法，其特征在于：

利用深度图，对每一图像块确定一个平均深度，并且，块的中心点是投影的点。

8.一种用于视频信息的运动补偿压缩的设备(900)，包括：

用于存储参考图像的装置(901)；

用于接收下一图像的装置(902)；和

用于确定估算下一图像与参考图像之间的变化的运动矢量的确定运动矢量估算的装置(903)，

其特征在于：所述设备进一步包括：

用于建立有关下一图像的深度图和摄影机参数的信息的装置(904)；和

用于存储有关参考图像的摄影机参数的信息的装置，

并且，用于确定运动矢量估算的装置(903)，被安排利用下一图像的深度图和摄影机参数，计算下一图像的点至三维空间的投影，和利用参考图像的摄影机参数，计算三维空间中的点至参考图像的投影。

9.根据权利要求8所述的设备，其特征在于：

所述设备进一步包括：

用于存储有关参考图像深度图的信息的装置；和

用于估算运动矢量的精确度的装置(905)。

10.用于压缩视频信息的设备，其特征在于：

所述设备包括：

利用摄影机参数和深度图，将下一图象的点投影至三维空间的装置，

将投影的点从三维空间投影至参考图象表面的装置，从而获得估算下一图像与参考图像之间的变化的运动矢量，其中从存储在计算机的显示控制器的存储器中的深度图，获得该深度图。