CN101496412A

CN101496412A - 具有域变换的基于网络的视频压缩

Info

Publication number: CN101496412A
Application number: CNA2007800281889A
Authority: CN
Inventors: 齐英永
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2006-08-03
Filing date: 2007-07-31
Publication date: 2009-07-29
Also published as: WO2008019262A2; US20080031325A1; KR20090047506A; KR101131756B1; WO2008019262A3; TW200830886A; EP2047688A2; JP2009545931A

Abstract

本发明描述用于执行具有域变换的基于网格的视频压缩/解压缩的技术。视频编码器将图像分割成若干像素网格，处理所述像素网格以获得预测误差块，并对所述预测误差块进行编码以产生所述图像的经编码数据。所述网格可具有任意多边形形状，且所述块可具有预定的形状，例如正方形。所述视频编码器可处理所述像素网格以获得预测误差网格，且可接着将所述预测误差网格变换为预测误差块。或者，所述视频编码器可将所述像素网格变换为像素块，且可接着处理所述像素块以获得所述预测误差块。所述视频编码器还可执行基于网格的运动估计以确定用于产生所述预测误差的参考网格。

Description

具有域变换的基于网格的视频压缩

技术领域

本发明揭示内容大体来说涉及数据处理，且更具体来说涉及用于执行视频压缩的技术。

背景技术

视频压缩广泛用于各种应用，例如：数字电视、视频广播、视频会议、视频通话、数字视频光盘(DVD)等。视频压缩利用连续视频帧之间的相似性来显著地减少待发送或存储的数据的量。此数据减少对于其中传输带宽及/或存储空间受到限制的应用尤其重要。

视频压缩通常通过将每一视频帧分割成若干图片元素正方形块(像素)并处理所述帧的每一块而实现。对帧的块的处理可包含识别另一帧中与正被处理的块极为相似的另一块、确定所述两个块之间的差异及对所述差异进行编码。所述差异还称为预测误差、纹理、预测残余等。找到另一紧密匹配的块(或参考块)的过程常常被称为运动估计。术语“运动估计”及“运动预测”常常互换使用。对所述差异的编码还称为纹理编码，且可借助各种编码工具(例如，离散余弦变换(DCT))来实现。

基于块的运动估计可用于几乎所有被广泛接受的视频压缩标准，例如，所属技术领域中众所周知的MPEG-2、MPEG-4、H-263及H-264。对于基于块的运动估计，像素块的运动由一小组运动向量来表征或界定。运动向量指示正被编码的块与参考块之间的垂直及水平位移。例如，当为一块界定一个运动向量时，假定所述块中的所有像素均移动相同的量，且所述运动向量界定所述块的平移运动。当一块或子块的运动较小、为平移运动且跨越所述块或子块而均匀时，基于块的运动估计可良好地起作用。然而，实际的视频常常不遵从这些条件。例如，在视频会议期间，一个人的面部或唇部活动常常包含旋转及变形以及平移运动。另外，在低位速率应用中，相邻块的运动向量的非连续性可能会造成令人懊恼的阻塞影响。在许多情形下，基于块的运动估计不提供良好的性能。

发明内容

本文中描述用于执行具有域变换的基于网格的视频压缩/解压缩的技术。所述技术可提供优于基于块的视频压缩/解压缩的经改善性能。

在一实施例中，视频编码器将图像或帧分割成若干像素网格，处理所述像素网格以获得预测误差块，并将对所述预测误差块进行编码以为所述图像产生经编码数据。所述网格可具有任意多边形形状，且所述块可具有预定形状，例如，预定大小的正方形。所述视频编码器可处理所述像素网格以获得预测误差网格，且可接着将所述预测误差网格变换为预测误差块。或者，所述视频编码器可将所述像素网格变换为像素块，且可接着处理所述像素块以获得所述预测误差块。所述视频编码器还可执行基于网格的运动估计以确定用于产生预测误差的参考网格。

在一实施例中，视频解码器基于图像的经编码数据获得预测误差块，处理所述预测误差块以获得像素网格，并组合所述像素网格以重构所述图像。所述视频解码器可将预测误差块变换为预测误差网格，基于运动向量导出所预测的网格，且基于预测误差网格及所预测的网格导出像素网格。或者，所述视频解码器可基于运动向量导出所预测的块，基于预测误差块及所预测的块来导出像素块，并将像素块变换为像素网格。

下文将进一步详细描述本发明揭示内容的各方面及实施例。

附图说明

当结合附图参照下文所述详细说明时，本发明揭示内容的各方面及实施例将变得更明显，在所有图式中相同的参考字符识别对应的元件。

图1显示具有域变换的基于网格的视频编码器。

图2显示具有域变换的基于网格的视频解码器。

图3显示已分割成若干网格的例示性图像。

图4A及4B图解说明目标网格的运动估计。

图5图解说明两个网格与一块之间的域变换。

图6显示一帧的所有网格的域变换。

图7显示用于执行具有域变换的基于网格的视频压缩的过程。

图8显示用于执行具有域变换的基于网格的视频解压缩的过程。

图9显示无线装置的方块图。

具体实施方式

本文中使用的措词“例示性”意指“用作实例、例证或图解说明”。在本文中描述为“例示性”的任何实施例或设计未必解释为比其它实施例或设计更优选或更有利。

本文中描述用于执行具有域变换的基于网格的视频压缩/解压缩的技术。基于网格的视频压缩是指其中每一帧被分割成若干网格而不是若干块的视频压缩。大体来说，所述网格可以是任何多边形形状(例如，三角形、四边形、五边形等)。在下文所详细描述的实施例中，所述网格为四边形(QUAD)，其中每一QUAD具有四个顶点。域变换是指将网格变换为块，或反之亦然。块具有预定形状且通常为正方形，但也可为矩形。所述技术允许使用基于网格的运动估计，此可具有优于基于块的运动估计的经改善性能。所述域变换通过将这些网格变换为块并使得能够使用经设计以用于块的编码工具来使得网格能够被有效地纹理编码。

图1显示具有域变换的基于网格的视频编码器100的实施例的方块图。在视频编码器100内，网格创建单元110接收视频帧并将所述帧分割成若干像素网格。术语“帧”及“图像”常常可互换使用。可如下文所描述来对帧中的每一像素网格进行编码。

加法器112接收待编码的像素网格，其被称为目标网格m(k)，其中k识别所述帧内的一特定网格。大体来说，k可以是座标、指数等。加法器112还接收所预测的网格

其为所述目标网格的近似。加法器110从目标网格减去所预测的网格，并提供预测误差网格T_m(k)。所述预测误差也被称为纹理、预测残余等。

如下文所描述，单元114对预测误差网格T_m(k)执行网格-到-块域变换，并提供预测误差块T_b(k)。可使用用于块的各种编码工具来处理所述预测误差块。在图1所示实施例中，单元116对所述预测误差块执行DCT并提供DCT系数块。量化器118量化所述DCT系数并提供量化系数C(k)。

单元122对所述量化系数执行逆DCT(IDCT)并提供经重构的预测误差块

单元124对所述经重构的预测误差块执行块-到-网格域变换并提供经重构的预测误差网格

与

分别是T_m(k)与T_b(k)的近似，且含有来从各种变换及量化的可能误差。加法器126对所预测的网格

与经重构的预测误差网格求和并将经解码网格

提供给帧缓冲器128。

如下所述，运动估计单元130估计所述目标网格的仿射运动，并提供所述目标网格的运动向量Mv(k)。仿射运动可包括平移运动以及旋转、剪切、按比例缩放、变形等。所述运动向量表达所述目标网格相对于参考网格的仿射运动。所述参考网格可来从先前帧或将来帧。运动补偿单元132基于所述运动向量确定所述参考网格并为加法器112及126产生所预测的网格。所述所预测的网格具有与目标网格相同的形状，而所述参考网格可具有与目标网格相同的形状或不同的形状。

编码器120接收目标网格的各种信息，例如，来从量化器118的量化系数、来从单元130的运动向量、来从单元110的目标网格表示等。单元110可提供当前帧的网格表示信息，例如，所述帧中所有网格的座标及指示每一网格的顶点的指数列表。编码器120可对所述量化系数执行熵编码(例如，霍夫曼(Huffman)编码)以减少待发送的数据量。编码器120可计算每一块的量化系数的范数，且可仅在所述范数超过一阈值的情形下对所述块进行编码，其可指示所述目标网格与所述参考网格之间存在充分的差异。编码器120还可组合所述帧网格的数据及运动向量，对定时对准、嵌入标头及语法等执行格式化。编码器120产生用于传输及/存储的数据包或位流。

如上文所描述，可将目标网格与参考网格进行比较，且可对所得的预测误差进行编码。还可在不与参考网格进行比较的情形下直接对目标网格进行编码，且可将其称为帧内网格。通常将帧内网格发送给第一视频帧，且还周期性地发送以防止预测误差的累积。

图1显示具有域变换的基于网格的视频编码器的例示性实施例。在此实施例中，单元110、112、126、130及132对可为QUAD的网格进行操作，视所编码的图像而定，所述QUAD可具有任意的形状及大小。单元116、118、120及122对固定大小的块进行操作。单元114执行网格-到-块域变换，且单元124执行块-到-网格域变换。下文将详细描述视频编码器100的有关单元。

在基于网格的视频编码器的另一实施例中，将所述目标网格域变换为目标块，且还将参考网格域变换为所预测的块。从所述目标块减去所预测的块以获得预测误差块，此可使用基于块的编码工具来处理。还可以其它方式借助其它设计来执行基于网格的视频编码。

图2显示具有域变换的基于网格的视频解码器200的实施例的方块图。视频解码器200可用于图1中的视频解码器100。在视频解码器200内，解码器220从视频编码器100接收包或经编码数据位流并以与编码器120所执行的编码互补的方式来将所述包或位流解码。可如下文所描述将图像的每一网格解码。

解码器220为经解码目标网格提供量化系数C(k)、运动向量Mv(k)及网格表示。单元222对所述量化系数执行IDCT并提供经重构的预测误差块单元224对所述经重构的预测误差块执行块-到-网格域变换，并提供经重构的预测误差网格

加法器226对经重构的预测误差网格与来从运动补偿单元232的预测网格

求和，并将经解码网格

提供给帧缓冲器228及网格组合单元230。运动补偿单元232基于目标网格的运动向量Mv(k)来确定来从帧缓冲器228的参考网格并产生所预测的网格

单元222、224、226、228及232分别以与图1中的单元122、124、126、128及132类似的方式来操作。单元230接收并组合视频帧的经解码网格并提供经解码帧。

所述视频编码器可将目标网格及所预测的网格变换为块，且可基于目标及所预测的块产生预测误差块。在此情形下，所述视频解码器将对经重构的预测误差块与预测块求和以获得经解码块，且将接着对经解码块执行块-到-网格域变换以获得经解码网格。域变换单元224将在加法器226之后移动，且运动补偿单元232将提供所预测的块而非所预测的网格。

图3显示已分割成若干网格的例示性图像或帧。大体来说，可将一帧分割成任何数目的网格。如图3中所图解说明，这些网格可为不同形状及大小，此可由所述帧的内容来确定。

将帧分割成若干网格的过程称为网格创建。可以各种方式来执行网格创建。在一实施例中，用空间或空间-时间分段法、多边形近似及三角测量法来执行网格创建，此将在下文简要描述。

空间分段是指基于帧的内容将帧分段成若干区域。可使用所属技术领域中已知的各种算法来获得合理的图像分段。例如，可使用一种称为JSEG且由邓(Deng)等人在1999年6月版“色彩图像分段(Color Image Segmentation)”第二卷第446-451页Proc.IEEE CSCC可视图案识别(CVPR)(Proc.IEEE CSCC Visual PatternRecognition(CVPR))中所描述的分段算法来实现空间分段。作为另一实例，可使用由布莱克(Black)等人在1996年版的“对多个运动的稳健估计：参数及分段平滑”63，(1)第75-104页计算机视觉图像理解(Comput.Vis.Image Underst.)中所描述的分段算法来估计两个帧之间的密光流。

可如下执行帧的空间分段。

·使用JSEG来执行所述帧的初始空间分段。

·计算两个相邻帧之间的密光流(像素运动)。

·如果初始区域具有高运动向量方差，则将所述初始空间分段区域分成两个更小的区域。

·如果所述初始空间分段的两个区域具有类似的平均运动向量且其联合方差相对低，则将所述初始区域合并成一个区域。

基于像素运动性质，使用所述分离及合并步骤来改进所述初始空间分段。

多边形近似是指用多边形来近似所述帧的每一区域。可将基于共用区域边界的近似算法用于多边形近似。此算法如下操作。

·对于每一对相邻区域，找到其共用边界，例如，沿其共用界限的具有端点P_a及P_b的曲线。

·最初，所述两个端点P_a及P_b是所述两个区域之间的曲线边界的多边形近似点。

·确定所述曲线边界上距连接端点P_a及P_b的直线的垂直距离最大的点P_n。如果此距离超过阈值d_max，则在点P_n处选择新的多边形近似点。接着对从P_a到P_n的曲线边界以及从P_n到P_b的曲线边界递归地应用所述过程。

·如果不添加新的多边形近似点，则从P_a到P_b的直线是这两个端点之间曲线边界的勉强近似。

·最初可使用大d_max值。一旦所有边界均已与节段近似，则可减少(例如，减半)d_max且可重复所述过程。此可继续进行直到d_max小到足以实现充分精确的多边形近似。

三角测量法是指创建三角形且最终在每一多边形内创建QUAD网格。可如J.R.舒卡克(J.R.Shewchuk)在1996年5月版“三角形：设计2D质量网格产生器及德劳内三角仪(Triangle：Engineering a 2D Quality Mesh Generator and DelaunayTriangulator)”第203-222页的应用计算机几何学：面向几何学引擎服务器计算机科学讲稿1148(Appl.Comp.Geom.：Towards Geom.Engine，ser.Lecture Notes inComputer Science，1148)中所描述来执行三角测量法。此文件描述了在每一多边形内产生德劳内(Delaunay)网格以及迫使所述多边形的边缘为所述网格的一部分。所述多边形边界被规定为平面直线图形内的区段，且如果可能，则所创建的三角形的所有角均大于20度。可在三角测量法过程期间为每个四边形添加多达四个内部节点。可接着使用合并算法来组合所述相邻三角形以形成QUAD网格。所述三角测量法的结果是被分割成若干网格的帧。

返回参照图1，运动估计单元130可估计当前帧每一网格的运动参数。在一实施例中，独立地估计每一网格的运动，以使一个网格的运动估计不会影响相邻网格的运动估计。在一实施例中，在一两步骤过程中执行网格的运动估计。第一步骤估计所述网格的平移运动。第二步骤估计所述网格其它类型的运动。

图4A图解说明对目标网格410的平移运动的估计。将当前帧的目标网格410与当前帧之前或之后的另一帧中的候选网格420进行比较。候选网格420从目标网格410平移或移位达(Δx，Δy)，其中Δx表示沿水平或x方向的平移量，且Δy表示沿垂直或y方向的平移量。可通过计算目标网格410中像素的(例如，颜色或灰度)强度及候选网格420中对应像素的强度之间的度量来执行网格410与420之间的匹配。所述度量可以是均方误差(MSE)、平均绝对差或某一其它适当的度量。

可将目标网格410与当前帧之前的先前帧及/或当前帧之后的将来帧中的不同(Δx，Δy)平移的候选网格进行匹配。每一候选网格具有与目标网格相同的形状。所述平移可限定于一特定搜索区。如上文针对候选网格420所描述，可计算每一候选网格的度量。将导致最佳度量(例如，最小MSE)的移位选择为目标网格的平移运动向量(Δx_t，Δy_t)。具有最佳度量的候选网格被称为选定网格，且具有选定网格的帧被称为参考帧。所述选定网格及参考帧在第二阶段中使用。可将所述平移运动向量计算到整数像素准确度。可在第二步骤中实现子像素准确度。

在第二步骤中，使选定网格翘曲以确定是否可获得与目标网格更好的匹配。可使用翘曲来确定由旋转、剪切、变形、按比例缩放等造成的运动。在一实施例中，通过一次移动一个顶点同时保持其它三个顶点固定来翘曲选定网格。目标网格的每一顶点与翘曲网格的一对应的顶点相关，如下所示：

[\begin{matrix} x_{i}^{'} \\ y_{i}^{'} \end{matrix}] = [\begin{matrix} x_{i} \\ y_{i} \end{matrix}] + [\begin{matrix} Δ x_{t} \\ Δ y_{t} \end{matrix}] + [\begin{matrix} Δ x_{i} \\ Δ y_{i} \end{matrix}],

具中i∈{1，2，3，4}，方程式(1)

其中i为所述网格中四个顶点的指数，

(Δx_t，Δy_t)为第一步骤中所获得的平移运动向量，

(Δx_i，，Δy_i)为翘曲网格的顶点i的额外位移，

(x_i，y_i)为目标网格的顶点i的座标，且

(x_i′，y_i′)为翘曲网格的顶点i的座标。

对于目标网格中的每一像素或点，可如下基于8-参数双线性变换来确定翘曲网格中对应的像素或点：

[\begin{matrix} x^{'} \\ y^{'} \end{matrix}] = [\begin{matrix} a_{1} & a_{2} & a_{3} & a_{4} + Δ x_{t} \\ a_{5} & a_{6} & a_{7} & a_{8} + Δ y_{t} \end{matrix}] \cdot [\begin{matrix} xy \\ x \\ y \\ 1 \end{matrix}],

方程式(2)

其中a₁、a₂、...、a₈为八个双线性变换系数，

(x，y)为目标网格中像素的座标，且

(x′，y′)为翘曲网格中对应像素的座标。

为确定所述双线性变换系数，可针对四个顶点来计算方程式(2)并可将其表达为如下：

[\begin{matrix} x_{1}^{'} \\ y_{1}^{'} \\ x_{2}^{'} \\ y_{2}^{'} \\ x_{3}^{'} \\ y_{3}^{'} \\ x_{4}^{'} \\ y_{4}^{'} \end{matrix}] = [\begin{matrix} x_{1} y_{1} & x_{1} & y_{1} & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & x_{1} y_{1} & x_{1} & y_{1} & 1 \\ x_{2} y_{2} & x_{2} & y_{2} & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & x_{2} y_{2} & x_{2} & y_{2} & 1 \\ x_{3} y_{3} & x_{3} & y_{3} & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & x_{3} y_{3} & x_{3} & y_{3} & 1 \\ x_{4} y_{4} & x_{4} & y_{4} & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & x_{4} y_{4} & x_{4} & y_{4} & 1 \end{matrix}] \cdot [\begin{matrix} a_{1} \\ a_{2} \\ a_{3} \\ a_{4} + Δ x_{t} \\ a_{5} \\ a_{6} \\ a_{7} \\ a_{8} + Δ y_{t} \end{matrix}] .

方程式(3)

目标网格及翘曲网格的四个顶点的座标(x_i，y_i)及(x_i′，y_i′)是已知的。座标(x_i′，y_i′)包含来自翘曲的额外位移(Δx_i，Δy_i)，如方程式(1)中所示。

方程式(3)可以如下矩阵形式来表达：

x＝B·a，方程式(4)

其中x为翘曲网格四个顶点的座标的8×1向量，

B为方程式(3)中等式右侧的8×8矩阵，且

a为双线性变换系数的8×1向量。

可如下获得所述双线性变换系数：

a＝B^-1·x.方程式(5)

在第二步骤中，仅针对目标网格计算矩阵B^-1一次。这是因为矩阵B含有目标网格顶点的座标，其在翘曲期间不会改变。

图4B图解说明第二步骤中目标网格的非平移运动的估计。选定网格430的四个顶点中的每一顶点均可在小搜索区内移动，同时保持其它三个顶点固定。通过移动一个顶点达(Δx_i，Δy_i)且其它三个顶点固定，可获得翘曲网格440。通过如下步骤将目标网格(图4B中未显示)与翘曲网格440进行匹配：(a)确定翘曲网格440中对应于目标网格中的像素的像素(例如，如方程式(2)中所示)；及(b)基于目标网格中像素的强度及翘曲网格440中对应像素的强度来计算度量。所述度量可以是MSE、平均绝对差或某一其它适当的度量。

对于既定顶点，可将目标网格与通过所述顶点的不同(Δx_i，Δy_i)位移而得到的若干翘曲网格进行匹配。可为每一翘曲网格计算度量。将导致最佳度量(例如，最小MSE)的(Δx_i，Δy_i)位移选作所述顶点的额外运动向量(Δx_i，Δy_i)。可对所述四个顶点中的每一者执行相同的处理以获得所述四个顶点的四个额外运动向量。

在图4A及4B所示的实施例中，目标网格的运动向量包括平移运动向量(Δx_t，Δy_t)及四个顶点的四个额外运动向量(Δx_i，Δy_i)，其中i＝1、2、3、4。可组合这些运动向量(例如(Δx′_i，Δy′_i)＝(Δx_t，Δy_t)+(Δx_i，Δy_i))以获得目标网格的四个顶点的四个仿射运动向量(Δx′_i，Δy′_i)，其中i＝1、2、3、4。所述仿射运动向量表达各种类型的运动。

可通过上文描述的两步骤过程来估计目标网格的仿射运动，此可减少计算。还可以其它方式来估计所述仿射运动。在另一实施例中，通过如上文所描述首先估计平移运动且接着同时移动多个(例如，所有四个)顶点穿过一搜索空间来估计仿射运动。在又一实施例中，通过在没有首先估计所述平移运动的情形下一次移动一个顶点来估计所述运动。在又一实施例中，通过在没有首先估计所述平移运动的情形下同时移动所有四个顶点来估计仿射运动。大体来说，一次移动一个顶点可提供足够好的运动估计，比同时移动所有四个顶点需要更少的计算。

运动补偿单元132从运动估计单元130接收仿射运动向量并产生所述目标网格的所预测网格。所述仿射运动向量界定所述目标网格的参考网格。所述参考网格可具有与目标网格相同的形状或不同的形状。单元132可用一组双线性变换系数对参考网格执行网格-到-网格域变换，以获得具有与目标网格相同形状的所预测网格。

域变换单元114将具有任意形状的网格变换为具有预定形状(例如，正方形或矩形)的块。可如下地使用8-系数双线性变换将所述网格映射到单元正方形块：

[\begin{matrix} 0 \\ 0 \\ 0 \\ 1 \\ 1 \\ 1 \\ 1 \\ 0 \end{matrix}] = [\begin{matrix} x_{1} y_{1} & x_{1} & y_{1} & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & x_{1} y_{1} & x_{1} & y_{1} & 1 \\ x_{2} y_{2} & x_{2} & y_{2} & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & x_{2} y_{2} & x_{2} & y_{2} & 1 \\ x_{3} y_{3} & x_{3} & y_{3} & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & x_{3} y_{3} & x_{3} & y_{3} & 1 \\ x_{4} y_{4} & x_{4} & y_{4} & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & x_{4} y_{4} & x_{4} & y_{4} & 1 \end{matrix}] \cdot [\begin{matrix} c_{1} \\ c_{2} \\ c_{3} \\ c_{4} \\ c_{5} \\ c_{6} \\ c_{7} \\ c_{8} \end{matrix}],

方程式(6)

其中c₁、c₂、...、c₈是网格-到-块域变换的8个系数。

方程式(6)具有与方程式(3)相同的形式。然而，在方程式左边的向量中，方程式(3)中四个网格顶点的座标被方程式(6)中四个块顶点的座标取代，因此(u₁，v₁)＝(0，0)取代(x₁′，y₁′)，(u₂，v₂)＝(0，1)取代(x′₂，y′₂)，(u₃，v₃)＝(1，1)取代(x′₃，y′₃)，且(u₄，v₄)＝(1，0)取代(x′₄，y′₄)。此外，方程式(3)中的系数a₁、a₂、...、a₈的向量被方程式(6)中的系数c₁、c₂、...、c₈的向量取代。方程式(6)使用系数c₁、c₂、...、c₈将目标网格映射到单元正方形块。方程式(6)可以如下的矩阵形式来表达：

u＝B·c，方程式(7)

其中u是所述块的四个顶点的座标的8×1向量，

c是网格-到-块域变换的系数的8×1向量。

可如下获得所述域变换系数c：

c＝B^-1·u，方程式(8)

其中在运动估计期间计算矩阵B^-1。

可如下执行所述网格-到-块域变换：

[\begin{matrix} u \\ v \end{matrix}] = [\begin{matrix} c_{1} & c_{2} & c_{3} & c_{4} \\ c_{5} & c_{6} & c_{7} & c_{8} \end{matrix}] \cdot [\begin{matrix} xy \\ x \\ y \\ 1 \end{matrix}] .

方程式(9)

方程式(9)将目标网格中座标(x，y)处的像素或点映射到所述块中座标(u，v)处的对应像素或点。可将目标网格中的像素中的每一者映射到所述块中的对应像素。所述经映射的像素的座标可不是整数值。可对所述块中经映射的像素执行内插以获得整数座标处的像素。可接着使用基于块的编码工具来处理所述块。

域变换单元124如下使用8-系数双线性变换将单元正方形块变换为网格：

[\begin{matrix} x_{1} \\ y_{1} \\ x_{2} \\ y_{2} \\ x_{3} \\ y_{3} \\ x_{4} \\ y_{4} \end{matrix}] = [\begin{matrix} 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 1 & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 1 & 1 \\ 1 & 1 & 1 & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 & 1 & 1 & 1 \\ 0 & 1 & 0 & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 1 & 0 & 1 \end{matrix}] \cdot [\begin{matrix} d_{1} \\ d_{2} \\ d_{3} \\ d_{4} \\ d_{5} \\ d_{6} \\ d_{7} \\ d_{8} \end{matrix}],

方程式(10)

其中d₁d₂、...、d₈是用于块-到-网格域变换的8个系数。

方程式(10)具有与方程式(3)相同的形式。然而，在方程式右边的矩阵中，方程式(3)中四个网格顶点的座标被方程式(10)中四个块顶点的座标取代，因此(u₁，v₁)＝(0，0)取代(x₁，y₁)，(u₂，v₂)＝(0，1)取代(x₂，y₂)，(u₃，v₃)＝(1，1)取代(x₃，y₃)，且(u₄，v₄)＝(1，0)取代(x₄，y₄)。此外，方程式(3)中的系数a₁、a₂、...、a₈的向量被方程式(10)中的系数d₁、d₂、...、d₈的向量取代。方程式(10)使用系数d₁、d₂、...、d₈将所述单元正方形块映射到所述网格。

方程式(10)可以如下矩阵形式来表达：

y＝S·d.方程式(11)

其中y是所述网格的四个顶点的座标的8×1向量，

S是方程式(10)中等式右边的8×8矩阵，且

d是块-到-网格域变换的系数的8×1向量。

可如下获得所述域变换系数d：

d＝S^-1·x，方程式(12)

其中矩阵S^-1可被计算一次且用于所有网格。

可如下执行所述块-到-网格域变换：

[\begin{matrix} x \\ y \end{matrix}] = [\begin{matrix} d_{1} & d_{2} & d_{3} & d_{4} \\ d_{5} & d_{6} & d_{7} & d_{8} \end{matrix}] \cdot [\begin{matrix} uv \\ u \\ v \\ 1 \end{matrix}] .

方程式(13)

图5图解说明两个网格与一块之间的域变换。可基于方程式(9)将网格510映射到块520。可基于方程式(13)将块520映射到网格530。可基于方程式(2)将网格510映射到网格530。可如上文所描述来确定这些域变换的系数。

图6显示针对帧610的所有网格所执行的域变换。在此实例中，使用网格-到-块域变换分别将帧610的网格612、614及616映射到帧620的块622、624及626。还可使用块-到-网格域变换分别将帧620的块622、624及626映射到帧610的网格612、614及616。

图7显示用于执行具有域变换的基于网格的视频压缩的过程700的实施例。将一图像分割成若干像素网格(块710)。处理所述像素网格以获得预测误差块(块720)。将对所述预测误差块进行编码以产生所述图像的经编码数据(块730)。

可处理所述像素网格以获得预测误差网格，可对所述预测误差网格进行域变换以获得预测误差块。或者，可对像素网格进行域变换以获得像素块，可对所述像素块进行处理以获得预测误差块。在块720的实施例中，对像素网格执行运动估计以获得这些网格的运动向量(块722)。可通过如下步骤来执行像素网格的运动估计：(1)估计所述像素网格的平移运动；及(2)通过在一搜索空间上一次变动一个顶点同时保持剩余顶点固定来估计其它类型的运动。基于具有所述运动向量所确定的顶点的参考网格来导出所预测网格(块724)。基于像素网格及所预测网格导出预测误差网格(块726)。对预测误差网格进行域变换以获得预测误差块(块728)。

每一网格均可以是具有任意形状的四边形，且每一块均可以是预定大小的正方形。可根据双线性变换将所述网格变换为块。如(例如)方程式(6)到(8)中所示，可基于网格顶点来确定每一网格的一组系数。如(例如)方程式(9)中所示，可基于所述网格的所述组系数将每一网格变换为一块。

所述编码可包含(a)对每一预测误差块执行DCT以获得DCT系数块；及(b)对所述DCT系数块执行熵编码。可确定每一预测误差块的度量，且如果所述度量超过阈值，则可对预测误差块进行编码。可使用经编码的预测误差块来重构预测误差网格，预测误差网格又可用来重构所述图像。所述经重构的图像可用于另一图像的运动估计。

图8显示用于执行具有域变换的基于网格的视频解压缩的过程800的实施例。基于图像的经编码数据来获得预测误差块(块810)。处理预测误差块以获得像素网格(块820)。组合所述像素网格以重构所述图像(块830)。

在块820的一实施例中，将预测误差块域变换为预测误差网格(块822)，基于运动向量导出所预测网格(块824)，且基于预测误差网格及所预测网格导出像素网格(块826)。在块820的另一实施例中，基于运动向量导出所预测块，基于预测误差块及所预测块导出像素块，且对所述像素块进行域变换以获得像素网格。在这两个实施例中，可基于所述像素网格的运动向量来确定每一像素网格的参考网格。可对所述参考网格进行域变换以获得所预测网格或块。可通过以下步骤来实现块-到-网格域变换：(1)基于对应网格的顶点来确定一块的一组系数；及(2)基于所述组系数将所述块变换为对应的网格。

本文中所描述的视频压缩/解压缩技术可提供改善的性能。每一视频帧可由若干网格来表示。可将所述视频视为每一网格从一个帧到下一帧的连续仿射或透视变换。仿射变换包含平移、旋转、按比例缩放及剪切，且透视变换额外地包含透视翘曲。基于网格的视频压缩的一个优点是运动估计的灵活性及精确度。网格不再仅限制于平移运动，而是其可具有一般及真实类型的仿射/透视运动。对于仿射变换，每一网格内的像素运动均为网格顶点的运动向量的双线性内插或一阶近似。相反，在基于块的方法中，每一块或子块内的像素运动均为所述块/子块的顶点或中心处的运动的最接近相邻或零阶近似。

基于网格的视频压缩可能够比基于块的视频压缩更为精确地模拟运动。更为精确的运动估计可减少视频的时间冗余。因此，在某些情形下，可不需要预测误差(纹理)的编码。经编码的位流可由具有帧内帧(I-帧)的临时更新的网格帧序列来支配。

基于网格的视频压缩的另一优点是帧间内插。可通过内插邻近帧的网格格栅来创建实际上无限数目的中间帧，从而产生所谓的无帧视频。网格格栅内插是平滑且连续的，从而当所述网格为一场景的精确表示时几乎不会产生赝像。

所述域变换提供一种处理具有不规则形状的网格的预测误差(纹理)的有效方式。所述域变换还允许将1-帧的网格(或帧内网格)映射到块。可使用所属技术领域中可用的各种基于块的编码工具来对纹理块及帧内网格有效地进行编码。

本文中所描述的视频压缩/解压缩技术可用于通信、计算、联网、个人电子装置等。下文描述无线通信技术的例示性使用。

图9显示无线通信系统中无线装置900的实施例的方块图。无线装置900可以是蜂窝电话、终端、手持机、个人数字助理(PDA)或某一其它装置。所述无线通信系统可以是码分多址(CDMA)系统、全球移动通信系统(GSM)或某一其它系统。

无线装置900能够经由接收路径及传输路径提供双向通信。在所述接收路径上，基站所传输的信号由天线912接收并提供给接收器(RCVR)914。接收器914调节并数字化所接收的信号，并将样本提供给数字区段920以进行进一步处理。在所述传输路径上，传输器(TMTR)916接收待从数字区段920传输的数据，处理及调节所述数据，并产生经调制信号，所述经调制信号经由天线912传输到基站。

数字区段920包含各种处理、存储器及接口单元，例如：调制解调器处理器922、应用程序处理器924、显示器处理器926、控制器/处理器930、内部存储器932、图形处理器940、视频编码器/解码器950及外部总线接口(EBI)960。调制解调器处理器922执行数据传输及接收的处理，例如，编码、调制、解调及解码。应用程序处理器924执行诸如多路呼叫、网页浏览、媒体播放器及使用者接口等各种应用程序的处理。显示器处理器926执行处理以促进视频、图形及文本在显示单元980上的显示。图形处理器940执行图形应用的处理。视频编码器/解码器950执行基于网格的视频压缩及解压缩，且可实施图1中的视频编码器100以进行视频压缩且实施图2中的视频解码器200以进行视频解压缩。视频编码器/解码器950可支持诸如放像摄像机、视频回放、视频会议等视频应用。

控制器/处理器930可引导数字区段920内各种处理及接口单元的操作。存储器932及970为处理单元存储程序代码及数据。EBI 960促进数字区段920与主存储器970之间的数据传送。

数字区段920可实施有一个或一个以上数字信号处理器(DSP)、微处理器、精简指令集计算机(RISC)等。数字区段920还可制造在一个或一个以上专用集成电路(ASIC)或某一其它类型的集成电路(IC)上。

本文中所描述的视频压缩/解压缩技术可通过各种手段来实施。例如，可在硬件、固件、软件或其组合中实施这些技术。对于硬件实施方案来说，用于执行视频压缩/解压缩的处理单元可实施在一个或一个以上ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、其它经设计以执行本文中所描述功能的电子单元或其组合内。

对于固件及/或软件实施方案来说，可用执行本文中所描述功能的模块(例如，程序、功能等)来实施所述技术。所述固件及/或软件代码可存储在存储器(例如，图9中的存储器932及/或970)中并由处理器(例如，处理器930)执行。所述存储器可实施在所述处理器内部或所述处理器外部。

提供所揭示实施例的先前说明以使所属技术领域的技术人员能够制作或使用本发明揭示内容。所属技术领域的技术人员将易知对这些实施例的各种修改，且可将本文中所界定的一般原理应用于其它实施例，此并不违背本发明揭示内容的精神及范围。因此，本发明并不打算限定于本文中所示实施例，而是将赋予其与本文所揭示原理及新颖特征相一致的最宽广范围。

Claims

1、一种设备，其包括：

至少一个处理器，其经配置以将一图像分割成若干像素网格，处理所述像素网格以获得预测误差块，且对所述预测误差块进行编码以产生所述图像的经编码数据；及

存储器，其耦合到所述至少一个处理器。

2、如权利要求1所述的设备，其中每一网格均为具有任意形状的四边形，且其中每一块均为预定大小的正方形。

3、如权利要求1所述的设备，其中所述至少一个处理器经配置以处理所述像素网格，以获得预测误差网格并将所述预测误差网格变换为所述预测误差块。

4、如权利要求1所述的设备，其中所述至少一个处理器经配置以将所述像素网格变换为像素块并处理所述像素块以获得所述预测误差块。

5、如权利要求1所述的设备，其中所述至少一个处理器经配置以根据双线性变换将所述网格变换为所述块。

6、如权利要求1所述的设备，其中所述至少一个处理器经配置以基于所述网格的顶点为每一网格确定一组系数，且基于所述网格的所述组系数将每一网格变换为块。

7、如权利要求1所述的设备，其中所述至少一个处理器经配置以对所述像素网格执行运动估计以获得所述像素网格的运动向量。

8、如权利要求7所述的设备，其中所述至少一个处理器经配置以基于所述运动向量导出所预测的网格，且基于所述像素网格及所述所预测的网格确定预测误差。

9、如权利要求1所述的设备，其中对于每一像素网格，所述至少一个处理器经配置以确定具有由所述像素网格的所估计运动确定的顶点的参考网格，且基于所述像素网格及所述参考网格导出预测误差网格。

10、如权利要求9所述的设备，其中所述至少一个处理器经配置以通过估计所述像素网格的平移运动来确定所述参考网格。

11、如权利要求9所述的设备，其中所述至少一个处理器经配置以通过在一搜索空间上一次变动一个顶点同时保持剩余顶点固定来确定所述参考网格。

12、如权利要求1所述的设备，其中对于每一预测误差块，所述至少一个处理器经配置以为所述预测误差块确定度量，且如果所述度量超过阈值，则对所述预测误差块进行编码。

13、如权利要求1所述的设备，其中对于每一预测误差块，所述至少一个处理器经配置以对所述预测误差块执行离散余弦变换(DCT)以获得DCT系数块，并对所述DCT系数块执行熵编码。

14、如权利要求1所述的设备，其中所述至少一个处理器经配置以基于经编码的预测误差块来重构预测误差网格，基于所述经重构的预测误差网格来重构所述图像，并将所述经重构的图像用于运动估计。

15、如权利要求14所述的设备，其中所述至少一个处理器经配置以基于对应的经重构预测误差网格的顶点为每一经编码的预测误差块确定一组系数，且基于所述经编码块的所述组系数将每一经编码的预测误差块变换为所述对应的经重构预测误差网格。

16、如权利要求1所述的设备，其中所述至少一个处理器经配置以将第二图像分割成若干第二像素网格，将所述第二像素网格变换为像素块，且对所述像素块进行编码以产生所述第二图像的经编码数据。

17、一种方法，其包括：

将一图像分割成若干像素网格；

处理所述像素网格以获得预测误差块；及

对所述预测误差块进行编码以产生所述图像的经编码数据。

18、如权利要求17所述的方法，其中所述处理所述像素网格包括

处理所述像素网格以获得预测误差网格，及

将所述预测误差网格变换为所述预测误差块。

19、如权利要求17所述的方法，其中所述处理所述像素网格包括

将所述像素网格变换为像素块，及

处理所述像素块以获得所述预测误差块。

20、如权利要求17所述的方法，其中所述处理所述像素网格包括

基于所述网格的顶点为每一网格确定一组系数，及

基于所述网格的所述组系数将每一网格变换为块。

21、一种设备，其包括：

用于将一图像分割成若干像素网格的分割装置；

用于处理所述像素网格以获得预测误差块的处理装置；及

用于对所述预测误差块进行编码以产生所述图像的经编码数据的编码装置。

22、如权利要求21所述的设备，其中所述用于处理所述像素网格的装置包括

用于处理所述像素网格以获得预测误差网格的装置，及

用于将所述预测误差网格变换为所述预测误差块的装置。

23、如权利要求21所述的设备，其中所述用于处理所述像素网格的装置包括

用于将所述像素网格变换为像素块的装置，及

用于处理所述像素块以获得所述预测误差块的装置。

24、如权利要求21所述的设备，其中所述用于处理所述像素网格的装置包括

用于基于所述网格的顶点为每一网格确定一组系数的装置，及

用于基于所述网格的所述组系数将每一网格变换为块的装置。

25、一种设备，其包括：

至少一个处理器，其经配置以基于图像的经编码数据获得预测误差块，处理所述预测误差块以获得像素网格，且组合所述像素网格以重构所述图像；及

存储器，其耦合到所述至少一个处理器。

26、如权利要求25所述的设备，其中所述至少一个处理器经配置以根据双线性变换将所述块变换为所述网格。

27、如权利要求25所述的设备，其中所述至少一个处理器经配置以基于对应网格的顶点为每一块确定一组系数，且基于所述块的所述组系数将每一块变换为所述对应的网格。

28、如权利要求25所述的设备，其中所述至少一个处理器经配置以将所述预测误差块变换为预测误差网格，基于运动向量导出所预测的网格，并基于所述预测误差网格及所述所预测的网格导出所述像素网格。

29、如权利要求28所述的设备，其中所述至少一个处理器经配置以基于所述运动向量确定参考网格并将所述参考网格变换为所述所预测的网格。

30、如权利要求25所述的设备，其中所述至少一个处理器经配置以基于运动向量导出所预测的块，基于所述预测误差块及所述所预测的块导出像素块，并将所述像素块变换为所述像素网格。

31、一种方法，其包括：

基于图像的经编码数据获得预测误差块；

处理所述预测误差块以获得像素网格；及

组合所述像素网格以重构所述图像。

32、如权利要求31所述的方法，其中所述处理所述预测误差块包括

基于对应网格的顶点为每一块确定一组系数，及

基于所述块的所述组系数将每一块变换为所述对应网格。

33、如权利要求31所述的方法，其中所述处理所述预测误差块包括

将所述预测误差块变换为预测误差网格，

基于运动向量导出所预测的网格，及

基于所述预测误差网格及所述所预测的网格导出所述像素网格。

34、如权利要求31所述的方法，其中所述处理所述预测误差块包括

基于运动向量导出所预测的块，

基于所述预测误差块及所述所预测的块导出像素块，及

将所述像素块变换为所述像素网格。

35、一种设备，其包括：

用于基于图像的经编码数据获得预测误差块的获得装置；

用于处理所述预测误差块以获得像素网格的处理装置；及

用于组合所述像素网格以重构所述图像的组合装置。

36、如权利要求35所述的设备，其中所述用于处理所述预测误差块的装置包括

用于基于对应网格的顶点为每一块确定一组系数的装置，及

用于基于所述块的所述组系数将每一块变换为所述对应网格的装置。

37、如权利要求35所述的设备，其中所述用于处理所述预测误差块的装置包括

用于将所述预测误差块变换为预测误差网格的装置，

用于基于运动向量导出所预测的网格的装置，及

用于基于所述预测误差网格及所述所预测的网格导出所述像素网格的装置。

38、如权利要求35所述的设备，其中所述用于处理所述预测误差块的装置包括

用于基于运动向量导出所预测的块的装置，

用于基于所述预测误差块及所述所预测的块导出像素块的装置，及

用于将所述像素块变换为所述像素网格的装置。