CN104584544B

CN104584544B - 使用一般化平面编码的随机深度缓冲器压缩

Info

Publication number: CN104584544B
Application number: CN201380044313.0A
Authority: CN
Inventors: M·安德松; C·J·蒙克贝里; T·G·阿可尼内-默勒; J·N·哈塞尔格伦
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2012-09-27
Filing date: 2013-06-27
Publication date: 2016-12-07
Anticipated expiration: 2033-06-27
Also published as: CN104584544A; WO2014051793A1; US9111392B2; US20140085300A1; KR20150038428A; KR101713041B1; DE112013003714T5

Abstract

与静态基元不同，在深度函数是平面处，移动和离焦三角形的深度函数是在时间和透镜参数中的有理函数。紧凑深度函数可用于设计有效的深度缓冲器压缩器/解压缩器，这明显降低总深度缓冲器带宽使用。此外，这个压缩器/解压缩器实质上在需要执行的操作的数量上更简单，这使它比以前的方法对硬件实现更经得起检验。

Description

使用一般化平面编码的随机深度缓冲器压缩

相关申请的交叉引用

本申请要求2012年9月27日提交的临时申请序列号61/706,177的优先权，该临时申请通过引用被明确地并入本文。

技术领域

概括地说，本发明涉及深度缓冲，具体地说，本发明涉及使用一般化平面编码的随机深度缓冲器压缩的方法和装置。

背景技术

深度缓冲是解决在光栅化管线中的对象之间的可见度的标准技术。深度缓冲器保存每一个样本的深度值，表示与样本重叠的所有以前渲染的三角形的当前最靠近的深度。可以用很多方式定义深度值d。

在具有每像素很多样本的随机光栅化器中，深度缓冲器带宽要求比平常高得多，且深度数据如果可能的话应被压缩。大部分深度缓冲器压缩方案利用以下的事实：来自三角形的深度值可由平面表示。不幸的是，对于移动和离焦三角形，这不再是真。

在静态(2D)光栅化器中，深度函数可被表示为平面。这由很多深度压缩方案利用。平面编码不同于其它算法，因为它利用直接来自光栅化器的信息，且因此在压缩器中使用与在光栅化器中的完全相同的平面等式表示。深度信息被存储为一组平面和每一个图块(tile)的每样本平面选择掩码(mask)。当存在与图块重叠的几个三角形时，存储平面等式和选择掩码比仅仅存储每样本深度更紧凑。然而，当太多的三角形与图块重叠时，多个深度平面的存储成本比直接存储每样本深度值高。对于每一个图块，深度压缩可接着被禁用，或另一压缩算法被应用(其通常不能压缩以及平面编码)。

虽然平面编码对静态二维光栅化非常有用，它对为较高阶光栅化使用静态平面并不是足够的，其中深度函数更加复杂。

发明内容

本发明提供了一种计算机执行的方法，包括：使用硬件处理器计算经历运动模糊或景深中的至少一个的三角形的深度函数系数；对于多个图块中的每一个，使用硬件处理器计算每样本覆盖；以及在硬件图块深度压缩器中使用所述每样本覆盖来存储图块的样本的压缩深度。

本发明还提供了一种用于深度缓冲器压缩的装置，包括：用于计算经历运动模糊或景深中的至少一个的三角形的深度函数系数的单元；用于对于多个图块中的每一个，计算每样本覆盖和深度的单元；以及用于在图块深度压缩器中使用所述每样本覆盖来存储图块的样本的压缩深度的单元。

本发明还提供了一种用于深度缓冲器压缩的装置，包括：控制装置，其计算经历运动模糊或景深中的至少一个的三角形的深度函数系数，对于多个图块中的每一个，计算每样本覆盖，并且在图块深度压缩器中使用所述每样本覆盖来存储图块的样本的压缩深度；光栅化器，其耦合到所述控制装置；以及压缩器，其耦合到控制装置。

本发明还提供了一种用于深度缓冲器压缩的方法，包括：对于多个图块中的每一个，对于经历运动模糊和景深的重叠三角形，使用硬件处理器来存储在两个不同的时间表示所述三角形的三角形顶点位置；以及在图块深度压缩器中使用这些顶点位置来计算每样本覆盖，以存储图块的样本的压缩深度。

附图说明

关于下面的附图描述了一些实施例：

图1是一个实施例的示意性描述；

图2是根据一个实施例的序列的流程图；

图3是具有由四层指示的每像素四个样本的4x 4像素的运动模糊的描绘；

图4是对离焦模糊的描绘；

图5是一个实施例的系统描绘；以及

图6是一个实施例的正视图。

具体实施方式

平面编码可被一般化以包括随机效应，例如运动模糊和景深。深度函数系数在光栅化器中被计算并传递到压缩器。标准平面编码以形式d＝A*x+B*Y+C使用每深度函数(即，平面)三个系数，以表示三角形的深度。当三角形经历随机效应例如运动模糊和景深时，深度函数不再是平面。然而，我们仍然可通过存储每三角形更多的系数来得到以形式d＝f(x,y,u,v,t)的深度函数。

在一些实施例中，这种方法的益处包括实质上比前面的方法更有效的压缩算法。这通过直接根据光栅化器设置来提供深度函数的分析表示而变得可能，避免了在压缩器中找到较低阶表示的成本，如在以前的方法中的。与以前的平面压缩方法不同，这种方法非常适合于运动模糊和景深效应，且对于这些情况不崩溃。此外，因为这种方法在分析表示上操作，它在一些实施例中可同样适用于浮点精度深度缓冲器。

可在运动模糊和景深的情况下分析深度函数的数学表达式。虽然表达式可能表现得有些复杂，它们可被有效地简化，且深度函数的紧凑形式可用于设计用于随机光栅化的具有实质上更好的平均压缩比的算法。

通常，压缩器和解压缩器存在于深度系统中。压缩/解压缩应用于图块，其一般是在矩形屏幕-空间区内部的深度样本的集合。

假定我们有具有裁剪空间顶点位置的三角形。在均匀(homogeneous)光栅化中，二维均匀(2DH)边缘等式e_k＝n_k·x对应于图像平面位置x＝(x,y,1)和边缘平面的距离计算，边缘平面穿过原点，例如n₂＝p₀×p₁。

任意每顶点属性A_k可内插(interpolated)在三角形上。可通过估计和标准化对应的2DH边缘等式来找到三角形的每一个重心坐标B₀,B₁,B₂，使得

可然后通过标准重心内插来找到给定的样本点x的内插属性A：

A (x, y) = {ΣA}_{k} B_{k} = \frac{A_{0} ϵ_{0} + A_{1} ϵ_{1} + A_{2} ϵ_{2}}{ϵ_{0} + ϵ_{1} + ϵ_{2}} - - - (1)

通过单独地内插z和w来形成深度值d，且然后执行除法：

d (x, y) = \frac{z (x, y)}{w (x, y)} = \frac{{Σz}_{k} B_{k}}{{Σw}_{k} B_{k}} = \frac{{Σz}_{k} e_{k}}{{Σw}_{k} e_{k}} - - - (2)

如果我们考虑分母，我们看到：

∑w_ke_k＝(∑w_kp_i×p_j)·x (3)＝(0,0,det(p_k,p_i,p_j))·(x,y,1)＝det(p_k,p_i,p_j)，

其独立于(x,y)。这是由原点和三角形跨越的四面体的带符号体积的六倍，这可用于检测三角形是否面向背面。

如果我们使用标准保护矩阵，使得(z_cam,1)到裁剪空间((z,w)的变换可被表示为(参看标准Direct3D投影矩阵)：

z＝az_cam+b,w＝z_cam， (4)

然后可简化深度函数。系数a和b只取决于z_ne _ar和z_far。组合等式2和4并简化给了我们：

d (x, y) = \frac{z (x, y)}{w (x, y)} = a + \frac{{bΣe}_{k}}{{Σw}_{k} e_{k}} - - - (5)

我们现在得到2D深度函数，其今天广泛用于渲染系统。然而，等式5可增大，使得它对在较高维度中采样的深度成立。例如，添加运动模糊和景深意味着z、w和边缘等式是快门时间t和透镜位置(u,v)的函数。因此我们可以更一般的形式写出深度函数：

d (x, y, ...) = a + \frac{{bΣe}_{k} (x, y, ...)}{{Σw}_{k} (x, y, ...) e_{k} (x, y, ...)}, - - - (6)

其中…应以新的增加的维度代替。

对于包括运动模糊和离焦模糊的较高阶光栅化，静态平面等式不适合于表示深度函数，因为深度函数在那些情况下复杂得多。对于运动模糊，深度函数是例如三次有理多项式。因此，平面编码方法被一般化，以便也处理运动模糊和离焦模糊。

一般化平面编码(GPE)算法几乎与静态平面编码相同，除了运动模糊的平面等式和/或离焦平面等式使用更多的存储空间，以及深度函数估计起来更昂贵以外。这可在等式6中看到，等式6基于更复杂的边缘等式e_k和分量。然而，对特定情况的系数的所需数量可实质上减小，这使在压缩表示中适应更多的平面变得可能。这又促成更高的压缩比和更快的深度估计。

类似于静态平面编码，一般化深度(例如运动和离焦模糊)的压缩表示包括可变数量的一般化平面等式，以及每样本的平面选择器位掩码。如果在压缩表示中存在至多n个平面等式，则每一个样本对于平面选择器位掩码需要位。接着，我们对较高阶光栅化简化深度函数。

我们通过建立以矩阵形式的时间相关的属性内插来开始对运动模糊的深度函数推导。然后，我们继续前进到减小确切地表示三角形的内插深度所需的系数的数量。

存储运动模糊三角形的深度函数的一种方法是保留在t＝0和t＝1时的所有顶点位置，其由总共4x3x2＝24个坐标值(例如浮点)组成。如果投影矩阵是已知的并可全局地被存储，则只需要3x3x2＝18个坐标值，因为z然后可使用例如等式4从w得到。在下面的讨论中，我们显示深度函数可如何被重写并简化以只包含13个值，这实现更有效的存储。

在下面的推导中，我们假设顶点在每一个框架内的裁剪空间中线性地移动。因此，顶点位置p_k变成时间的函数：

p_k(t)＝q_k+td_k (7)

其中d_k是顶点k的对应的运动矢量。因为顶点依赖于时间，2DH边缘等式形成t的二次多项式：

e_k(x,y,t)＝(p_i(t)×p_j(t))·x＝(f_kt²+g_kt+h_k)·x (8)

其中

h_k＝q_i×q_j,g_k＝q_i×d_j+d_i×q_j,f_k＝d_i×d_j (9)

为了方便，我们以矩阵形式重写边缘等式：

e_k(x,y,t)＝t₂C_kx^T，其中

且t₂＝(1,t,t²)，x＝(x,y,1)，以及C_k是如上所述的3x3矩阵。

通过组合矩阵概念和等式1，我们有如何将顶点属性A_k内插在运动模糊的三角形上的一般表达式：

A (x, y, t) = \frac{t_{2} ({ΣA}_{k} C_{k}) x^{T}}{t_{2} {ΣC}_{k} x^{T}} - - - (11)

然而，如果属性本身随着t而改变，例如我们得到用于将时间相关属性内插在三角形上的一般表达式，有三次的分子：

A (x, y, t) = \frac{t_{2} (Σ (A_{k}^{0} + {tA}_{k}^{d}) C_{k}) x^{T}}{t_{2} {ΣC}_{k} x^{T}} = \frac{{tC}_{A} x^{T}}{t_{2} {ΣC}_{k} x^{T}} - - - (12)

其中t＝(1,t,t²,t³)，且顶点属性A_k与每一个C_k相乘并被求和以形成4x3系数矩阵C_A。这个形式可用于将w_clip属性内插在像素中心处。

为了计算深度函数我们执行裁剪空间顶点位置的z-和w-分量的重心内插，这些顶点位置现在是t的线性函数，例如z(t))＝q_z+td_z和w(t)＝q_w+td_w。

让我们考虑深度函数d(x,y,t)：

d (x, y, t) = \frac{z (x, y, t)}{w (x, y, t)} = \frac{t_{2} (Σ (q_{k} + {td}_{k_{z}}) C_{k}) x^{T}}{t_{2} (Σ (q_{k_{w}} + {td}_{k_{w}}) C_{k}) x^{T}} = \frac{{tC}_{z} x^{T}}{t_{2} C_{w} x^{T}}, - - - (13)

其中4x3矩阵：

且4x3矩阵C_w被对应地定义。我们现在有以方便的形式的深度函数，但是所需要的系数的数量不比直接存储顶点位置的少。我们现在将检查系数矩阵C_z和C_w的内容，以便简化它们的表达式。

使用等式14和C_k的定义，我们可将C_w的第一行和最后一行表示为：

\begin{matrix} C_{w_{0}} = {Σq}_{k_{w}} h_{k} = {Σq}_{k_{w}} q_{i} \times q_{j} = (0, 0, \det (q_{k}, q_{i}, q_{j})), \\ C_{w_{3}} = {Σd}_{k_{w}} f_{k} = {Σd}_{k_{w}} d_{i} \times d_{j} = (0, 0, \det (d_{k}, d_{i}, d_{j})), \end{matrix} - - - (15)

其中在最后一个步骤中，项对于x和y-分量抵消到零。两个其余的行看起来有点儿更复杂，但使用类似的推导和简化，我们得到：

\begin{matrix} C_{w_{1}} = Σ q_{k_{w}} g_{k} + d_{k_{w}} h_{k} \\ = Σ q_{k_{w}} (d_{i} \times q_{j} + q_{i} \times d_{j}) + d_{k_{w}} (q_{i} \times q_{j}) \\ = Σ (0,0 Σ \det (d_{k}, q_{i} q_{j})) \end{matrix}

C_{w_{2}} = Σ q_{k_{w}} f_{k} + d_{k_{w}} g_{k} = (0,0, Σ \det (q_{k}, d_{i}, d_{j})) .

使用这些表达式，我们可将tC_wx^T公式化为独立于(x,y)的t的二次函数：

tC_wx^T＝Δ₀+Δ₁t+Δ₂t²+Δ₃t³， (16)

其中：

Δ₀＝det(q_k,q_i,q_j)，

Δ₁＝∑det(q_k,q_i,q_j)

Δ₂＝∑det(q_k,d_i,d_j)

Δ₃＝det(d_k,d_i,d_j)。

不同地表达，分母tC_wx^T是移动三角形的背面状态，例如独立于(x,y)的det(p₀(t),p₁(t),p₂(t))。

作为这些简化的结果，我们揭露了tC_wx^T没有对x和y的相关性，并简化到只需要4个系数的t的三次多项式。因此，使用这个分析，我们显示深度函数可由12(对于C_z)+4(对于C_w)＝16个系数表示，这应与存储所有顶点位置所需的24个系数比较。这个公式实质上更紧凑。

如果我们使用标准投影矩阵，根据等式4，我们可进一步简化深度函数。如果我们返回到等式14并从投影矩阵插入约束，即，q_z＝aq_w+b和我们得到：

C_{z} = Σ (q_{k_{z}} {\overset{&OverBar;}{C}}_{k} + d_{k_{z}} {\underset{&OverBar;}{C}}_{k}) = Σ (({aq}_{k_{w}} + b) {\overset{&OverBar;}{C}}_{k} + {ad}_{k_{w}} {\underset{&OverBar;}{C}}_{k}) = {aC}_{w} + b Σ {\overset{&OverBar;}{C}}_{k}, - - - (17)

我们组合这个结果与等式13以最后得到：

d (x, y, t) = \frac{{tC}_{z} x^{T}}{{tC}_{w} x^{T}} = \frac{t ({aC}_{w} + b Σ {\overset{&OverBar;}{C}}_{k}) x^{T}}{{tC}_{w} x^{T}} = a + b \frac{t (Σ {\overset{&OverBar;}{C}}_{k}) x^{T}}{{tC}_{w} x^{T}} = a + b \frac{t_{2} (Σ C_{k}) x^{T}}{Δ_{0} + Δ_{1} t + Δ_{2} t^{2} + Δ_{3} t^{3}} - - - (18)

如可在上面看到的，我们将深度函数的表示从24个标量值降至13个(假设a和b由图形应用程序接口(API)给出)。

接着，我们考虑具有公共运动矢量的所有三个三角形顶点的特殊情况的额外优化，即，纯平移(translation)。在下面的示例中，我们假设使用标准投影矩阵(即等式4)。每一个三角形顶点的所平移的裁剪空间位置p′＝(p′_x,p′_y,p′_w)是：p′＝p+d，其中d＝(d_x,d_y,d_w)是裁剪空间(xyw)中的矢量。

在所有运动矢量对三角形的三个顶点相等的情况下，我们可得到简化的深度函数。注意，系数f_k＝0，且

det(d_i,d_j,d_k)＝det(d,d,d)＝0

det(q_i,d_j,d_k)＝det(q_i,d,d)＝0。

此外，下式成立：

∑g_k＝∑d×(q_j-q_i)＝d×∑(q_j-q_i)＝0 (19)

深度函数可接着被简化为：

d (x, y, t) = a + b \frac{{xΣh}_{k}}{Δ_{0} + Δ_{1} t} - - - (20)

我们将深度函数的表示从18个标量值降至5个(再次假设a和b由图形API给出)。

没有与对运动模糊有的一样多的机会来简化离焦模糊的深度函数。如果我们简单地存储所有顶点位置，则需要4x3＝12个坐标值。然而如果投影矩阵是已知的，则数量减少到3x3＝9。我们假设照相机焦距和透镜高宽(aspect)是全局地已知的。在下面的章节中，我们将显示对于离焦三角形如何将深度函数的存储要求减少到8个标量系数。

当景深被启用时，裁剪空间顶点位置在xy中根据透镜坐标(u,v)的函数被修剪。顶点位置被表示为：

p＝q+cu′， (21)

其中c是混淆半径的带符号裁剪空间圆圈，u′＝(u,ξv,0)，且ξ是调节透镜高宽比的标量系数。我们使用这些顶点来建立边缘等式：

e_k(x,y,u,v)＝(p_i(u,v)×p_j(u,v))·x＝(q_i×q_j+u′×(c_iq_i×c_jq_i))·x＝(h_k+u′×m_k)·x₁

其中我们引入m_k＝(c_iq_j-c_jq_i)和h_k＝q_i×q_j以简化概念。在u＝(u,kv,1)的情况下，我们可以以矩阵形式将边缘等式写为：

e_k(x,y,u,v)＝uC_kx^T， (22)

其中：

C_{k} = [\begin{matrix} 0 & - m_{k_{w}} & m_{k_{y}} \\ m_{k_{w}} & 0 & - m_{k_{y}} \\ h_{k_{x}} & h_{k_{y}} & h_{k_{w}} \end{matrix}] - - - (23)

类似于运动模糊情况，我们可将深度函数如下表示为(x,y,u,v)的有理函数：

d (x, y, u, v) = \frac{z (x, y, u, v)}{w (x, y, u, v)} = \frac{{uC}_{z} x^{T}}{{uC}_{w} x^{T}}, - - - (24)

其中且通过结合观察：

{Σq}_{k_{w}} m_{k_{w}} = {Σq}_{k_{w}} (c_{i} q_{j_{w}} - c_{j} q_{i_{w}}) = 0, - - - (25)

和在等式15中的顶行，C_w减少到单列，类似于运动模糊情况。因此，分母可被写为：

{uC}_{w} x^{T} = [\begin{matrix} 0 & 0 & {Σq}_{k_{w}} m_{k_{w}} u \\ 0 & 0 & - {Σq}_{k_{w}} m_{k_{x}} ξ v \\ 0 & 0 & \det (q_{0}, q_{1}, q_{2}) \end{matrix}] x^{T} = Δ_{u} u + Δ_{v} v + Δ_{0}, - - - (26)

再次，这等于det(p₀(u,v),p₁(u,v),p₂(u,v))，其也是离焦三角形的背面状态。

如果我们在如在等式4中的投影矩阵上引入限制，则C_z可以用下列方式被表示：

C_{z} = {Σq}_{k_{z}} C_{k} = Σ ({aq}_{k_{w}} + b) C_{k} = {aC}_{w} + {bΣC}_{k} . - - - (27)

如果我们进一步假设混淆半径的裁剪空间圆圈遵循透镜模型，则它可被写为使用此，我们看到：

\begin{matrix} Σ m_{k_{w}} = Σ (c_{i} p_{j_{w}} - c_{j} p_{i_{w}}) \\ = Σ (({αp}_{i_{w}} + β) p_{j_{w}} - ({αp}_{j_{w}} + β) p_{i_{w}}) \\ = α Σ (p_{i_{w}} p_{j_{w}} - p_{j_{w}} p_{i_{w}}) + β Σ (p_{j_{w}} - p_{i_{w}}) = 0 \end{matrix}

且∑C_k采取形式：

{ΣC}_{k} = [\begin{matrix} 0 & 0 & {Σm}_{k_{y}} \\ 0 & 0 & - {Σm}_{k_{x}} \\ {Σh}_{k_{x}} & {Σh}_{k_{y}} & {Σh}_{k_{w}} \end{matrix}] - - - (28)

使用此，我们显示：

d (x, y, u, v) = \frac{{uC}_{z} x^{T}}{{uC}_{w} x^{T}} = a + b \frac{Σ h_{k} \cdot x + Σ m_{k_{y}} u - Σ m_{k_{x}} ξ v}{Δ_{u} u + Δ_{v} v + Δ_{0}} - - - (29)

其可以用8个标量系数来表示(假定a和b是已知的)。分母在每一个变量中线性的。

算法可在借助包含深度编码译码器(压缩器和解压缩器)、深度缓存、挑选(culling)数据、以及图块表的深度系统来进行扩大的软件或硬件光栅化器中实现。为了减小设计空间，我们选择512位的缓存线尺寸，即，64个字节，其对于我们的目的是合理和现实的尺寸。这个选择的含意是使用512·n位存储的图块可被一直压缩到512·m位，其中1≤m<n，以便得到带宽使用。应注意，可使用任何实际缓存线尺寸，且512位仅用作示例。

因此在一些实施例中，图1所示的图形管线10可包括至少光栅化器12，其可以是基于软件或硬件的。它向压缩器14提供深度函数系数。压缩器14得到来自深度缓存16的深度数据和来自图块表18的图块信息。在一些实施例中，压缩器14和光栅化器12可由控制装置11控制。控制装置可以是处理器或控制器，作为示例。

即使运动模糊是三维的且离焦模糊使用四维，同样的图块概念也可用于这两种情况，以便简化讨论。可在图3和4中找到我们的概念的解释。在图3中，示出4x4像素的运动模糊，其中有由四个不同的层指示的每像素四个样本。总共有4x4x4个样本。如果n层用作用于压缩的图块尺寸，则我们将这样的图块表示为4x4xn。作为示例，如果每层被压缩为单独的图块，则我们用4x4x1表示这些图块。

在图4中，相同的概念用于离焦模糊，但具有不同的含义。在这里，透镜分成2x 2个较小的透镜区，且与以前一样，每像素有四个样本。再次，由四层表示。然而对于离焦模糊，4x4xn意味着n层区一起被压缩为图块。

参考图2，可在软件、固件和/或硬件中实现序列20。在软件和固件实施例中，它可由存储在一个或多个非暂时性计算机可读介质例如磁性、光学或半导体存储设备中的计算机执行的指令实现。在一些实施例中，例如图1所示的控制装置可用于这个目的。

序列20通过向光栅化器提供三角形来开始，如在块22指示的。光栅化器设置计算直接传递到图块深度压缩器的深度函数系数，如在块24中指示的。随机光栅化器对每一个图块计算深度中的每样本覆盖，如在块26指示的。然后图块深度压缩器采用覆盖掩码、每样本深度和深度函数系数作为输入。如果样本深度可由深度函数表示，则图块以压缩形式被存储，如在块28中指示的。

对于每8x8x1个图块挑选，我们每一个使用30位存储图块的z_min和z_max，其每一个用于完成Z-最大挑选和Z-最小挑选。除了最小和最大值以外，我们还对每组16个样本分配一位，或相当于未压缩样本的一个缓存线，以指示是否它们中的全部被清除。这每8x8x1个图块共计4个清除位，且所以对于挑选和清除位，每8x8x1个图块总共需要64位。

通过小缓存访问的或存储在片上存储器中的图块表存储每一个图块的图块头部。在一个实施例中，图块头部可存储四位，其中一个组合(0000b)指示图块未压缩地被存储，而其余15个组合用于指示不同的压缩模式。这四位可使用与挑选图块尺寸比较不同的图块尺寸，因为算法通常根据哪个图块尺寸被使用而相当不同地执行。例如，对于深度偏移压缩算法，较小的图块尺寸通常是有利的，而较大的图块尺寸可能对一般化平面编码(GPE)更好，一般化平面编码是存在于这个专利申请中的方法。

一般化平面编码器的一个实现如下。对于运动模糊编码器，我们让光栅化器转发关于应用到每一个三角形的运动的类型的信息。我们支持的三种不同类型的运动是静态(无运动)、仅仅平移、以及任意线性每顶点运动。此外，光栅化器转发指示哪个样本位置在三角形内部的覆盖掩码。对这些样本估计深度，并执行深度测试。任何以前绘制的三角形的深度函数被移除，如果它们的样本索引由进入的三角形的覆盖掩码覆盖。场编码器的深度以完全相同的方式工作，除了对离焦模糊没有被转发的特殊类型以外。应注意，我们的方法也同时对运动模糊和景深起作用。然而，在这种情况下，最紧凑的表示是对三角形的所有三个顶点仅仅存储在时间0和时间1时的每顶点(x,y,w)。虽然该表示未被优化，算法起作用并提供与上面描述的相同的优点。

新三角形可如下被添加到压缩表示。三角形可被光栅化到屏幕上的每一个覆盖的图块以得到其每样本覆盖和深度值。在每一个图块内，通过对紧凑表示解压缩来执行深度测试(以得到每一个覆盖的样本的所存储的深度值)。如果任何样本通过深度测试，则通过为当前三角形添加深度函数系数并更新位掩码来更新压缩的表示。如果没有样本通过深度测试，则不更新当前压缩的表示和位掩码。

下面，我们对同时的运动模糊和景深的情况讨论深度函数的情况。与只有运动模糊或只有景深的情况相反，存储作为(x,y,u,v,t)的函数的深度函数的系数的数量大于仅仅存储当t＝0和t＝1的三个三角形顶点。因此，我们不明确得到和简化以这种形式的深度函数，但直接使用顶点数据来工作。

对同时的运动模糊和景深的情况表示深度函数的一种方式是仅仅存储在被表示为q_i的t＝0、以及表示为r_i的t＝1时的三个三角形顶点。当访问图块时，给定样本的深度值可接着通过下列操作从这个数据得到：

1.首先估计样本的(u,v,t)位置的顶点位置，例如

p_i(u,v,t)＝(1-t)q_i+td_i+c_i(t)(u,ξv,0)

2.使用这些顶点位置来得到以形式d(x,y)＝Ax+By+C的静态深度平面等式

3.估计样本的(x,y)位置的深度平面等式

这个深度函数表示的存储成本是2x3x4＝24个标量值，其可被减小到2x3x3＝18个标量值，如果投影矩阵的z映射是已知的，即，z_clip＝a_zcam+b，w_clip＝z_cam。如前面所示的，如果我们对同时的运动模糊和景深的情况得到并简化深度函数，则它可以用25个标量值表示，这从存储方面来说更昂贵。

图5示出系统300的实施例。在实施例中，系统300可以是介质系统，虽然系统300不限于这个背景。例如，系统300可合并到个人计算机(PC)、膝上型计算机、超级膝上型计算机、平板、触控板、便携式计算机、手持计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视机、智能设备(例如智能电话、智能平板计算机或智能电视机)、移动互联网设备(MID)、消息发送设备、数据通信设备等。

在实施例中，系统300包括耦合到显示器320的平台302。平台302可从内容设备接收内容，例如内容服务设备330或内容分发设备340或其它类似的内容源。包括一个或多个导航特征的导航控制器350可用于与例如平台302和/或显示器320交互作用。下面更详细描述这些部件中的每一个。

在实施例中，平台302可包括芯片组305、处理器310、存储器312、存储设备314、图形子系统315、应用316和/或无线电装置318的任何组合。芯片组305可提供在处理器310、存储器312、存储设备314、图形子系统315、应用316和/或无线电装置318当中的相互通信。例如，芯片组305可包括能够提供与存储设备314的相互通信的存储适配器(未绘出)。

处理器310可被实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器、x86指令集兼容处理器、多核心、或任何其它微处理器或中央处理单元(CPU)。在实施例中，处理器310可包括双核处理器、双核移动处理器等。

存储器312可被实现为易失性存储器设备，例如但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、或静态RAM(SRAM)。

存储设备314可被实现为非易失性存储设备，例如但不限于磁盘驱动器、光盘驱动器、磁带驱动器、内部存储设备、附加存储设备、闪存、配有电池的SDRAM(同步DRAM)、和/或网络可访问的存储设备。在实施例中，存储设备314可包括例如当多个硬盘驱动器被包括时增加对有价值的数字媒体的存储性能增强保护的技术。

图形子系统315可执行诸如静止图像的图像或视频的处理，以用于显示。图形子系统315可以是例如图形处理单元(GPU)或视觉处理单元(VPU)。模拟或数字接口可用于通信地耦合图形子系统315和显示器320。例如，接口可以是高清多媒体接口、DisplayPort、无线HDMI、和/或符合无线HD的技术中的任一个。图形子系统315可集成到处理器310或芯片组305中。图形子系统315可以是通信地耦合到芯片组305的独立卡。

本文描述的图形和/或视频处理技术可在各种硬件架构中实现。例如，图形和/或视频功能可集成在芯片组中。可选地，可使用分立图形和/或视频处理器。作为又一实施例，图形和/或视频功能可由通用处理器(包括多核处理器)实现。在另一实施例中，可在消费电子设备中实现功能。

无线电装置318可包括能够使用各种适当的无线通信技术发送和接收信号的一个或多个无线电装置。这样的技术可涉及跨一个或多个无线网络的通信。示例性无线网络包括(但不限于)无线局域网(WLAN)、无线个人区域网(WPAN)、无线城域网(WMAN)、蜂窝网络、以及卫星网络。在跨这样的网络的通信中，无线电装置318可根据以任何版本的一个或多个可应用的标准来操作。

在实施例中，显示器320可包括任何电视机型监视器或显示器。显示器320可包括例如计算机显示屏、触摸屏显示器、视频监视器、电视机型设备、和/或电视机。显示器320可以是数字的和/或模拟的。在实施例中，显示器320可以是全息显示器。此外，显示器320可以是可接收视觉投影的透明表面。这样的投影可传送各种形式的信息、图像、和/或对象。例如，这样的投影可以是用于移动增强显示(MAR)应用的视觉覆盖。在一个或多个软件应用316的控制下，平台302可在显示器320上显示用户界面322。

在实施例中，内容服务设备330可以由任何国家、国际和/或独立服务作为主机，且因此可由平台302经由例如互联网访问。内容服务设备330可耦合到平台302和/或显示器320。平台302和/或内容服务设备330可耦合到网络360以将媒体信息传递至/从(例如发送和/或接收)网络360。内容分发设备340也可耦合到平台302和/或显示器320。

在实施例中，内容服务设备330可包括有线电视盒、个人计算机、网络、电话、启用互联网的设备或能够分发数字信息和/或内容的电器、以及能够经由网络360或直接地在内容提供者和平台302和/或显示器320之间单向或双向地传递内容的任何其它类似设备。将认识到，可将内容经由网络360单向和/或双向地传递至/从系统300中的任一个部件和内容提供者。内容的示例可包括任何媒体信息，包括例如视频、音乐、医疗和游戏信息等。

内容服务设备330接收内容，例如有线电视节目，包括媒体信息、数字信息、和/或其它内容。内容提供者的示例可包括任何有线或卫星电视或无线电或互联网内容提供者。所提供的示例并不意在限制本发明的实施例。

在实施例中，平台302可从具有一个或多个导航特征的导航控制器350接收控制信号。控制器350的导航特征可用于与例如用户界面322交互作用。在实施例中，导航控制器350可以是指点设备，其可以是允许用户将空间(例如连续和多维的)数据输入到计算机中的计算机硬件部件(特别是人机接口设备)。很多系统例如图形用户界面(GUI)和电视机和监视器允许用户使用物理手势来控制和提供数据给计算机或电视机。

可在显示器(例如显示器320)上通过指针、光标、聚焦环、或显示在显示器上的其它视觉指示器的运动来仿效控制器350的导航特征的运动。例如，在软件应用316的控制下，位于导航控制器350上的导航特征可映射到例如显示在用户界面322上的虚拟导航特征。在实施例中，控制器350可以不是单独的部件，而集成到平台302和/或显示器320中。然而实施例并不限于在本文所示或所述的元件或上下文中。

在实施例中，驱动器(未示出)可包括使用户能够像电视机一样(例如当被启动时在初始引导之后通过触摸按钮)即时地打开和关闭平台302的技术。当平台被“关闭”时，程序逻辑可允许平台302将内容流式传送到媒体适配器或其它内容服务设备330或内容分发设备340。此外，芯片组305可包括例如对5.1环绕声音频和/或高分辨率7.1环绕声音频的硬件和/或软件支持。驱动器可包括集成图形平台的图形驱动器。在实施例中，图形驱动器可包括外围部件互连(PCI)Express图形卡。

在各种实施例中，在系统300中示出的任一个或多个部件可以被集成。例如，平台302和内容服务设备330可以被集成，或平台302和内容分发设备340可以被集成，或例如平台302、内容服务设备330、以及内容分发设备340可以被集成。在各种实施例中，平台302和显示器320可以是集成单元。例如显示器320和内容服务设备330可以被集成，或显示器320和内容分发设备340可以被集成。这些示例并不意在限制本发明。

在各种实施例中，系统300可被实现为无线系统、有线系统、或这两者的组合。当被实现为无线系统时，系统300可包括适合于通过无线共享介质(例如一个或多个天线、发射机、接收机、收发机、放大器、滤波器、控制逻辑等)进行通信的部件和接口。无线共享介质的示例可包括无线频谱(例如RF频谱等)的部分。当被实现为有线系统时，系统300可包括适合于通过有线通信介质(例如输入/输出(I/O)适配器、使I/O适配器与对应的有线通信介质连接的物理连接器、网络接口卡(NIC)、磁盘控制器、视频控制器、音频控制器等)进行通信的部件和接口。有线通信介质的示例可包括电线、电缆、金属引线、印刷电路板(PCB)、底板、交换机结构、半导体材料、双绞线、同轴电缆、光纤等。

平台302可建立一个或多个逻辑或物理通道以传递信息。信息可包括媒体信息和控制信息。媒体信息可以指表示用来给用户的内容的任何数据。内容的示例可包括例如来自语音对话、视频会议、流式视频、电子邮件(“email”)消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等的数据。来自语音对话的数据可以是例如说话信息、静默期、背景噪声、舒适噪声、音调等。控制信息可以指表示用来给自动化系统的命令、指令或控制字的任何数据。例如，控制信息可用于按规定路线发送媒体信息通过系统，或指示节点以预定方式处理媒体信息。然而实施例并不限于图5所示或所述的元件或上下文中。

如上所述，系统300可体现在变化的物理风格或形状因子中。图6示出小形状因子设备400的实施例，系统300可体现在其中。在实施例中，例如设备400可被实现为具有无线能力的移动计算设备。移动计算设备可以指例如具有处理系统和移动功率源或电源(例如一个或多个电池)的任何设备。

如上所述，移动计算设备的示例可包括个人计算机(PC)、膝上型计算机、超级膝上型计算机、平板、触控板、便携式计算机、手持计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视机、智能设备(例如智能电话、智能平板计算机或智能电视机)、移动互联网设备(MID)、消息发送设备、数据通信设备等。

移动计算设备的示例也可包括布置成由人佩戴的计算机，例如手腕计算机、手指计算机、戒指计算机、眼镜计算机、皮带夹计算机、臂带计算机、鞋计算机、衣服计算机、以及其它可佩戴的计算机。在实施例中，例如移动计算设备可被实现为能够执行计算机应用以及语音通信和/或数据通信的智能电话。虽然作为示例可使用被实现为智能电话的移动计算设备描述一些实施例，可认识到，也可使用其它无线移动计算设备来实现其它实施例。实施例并不被限制在这个上下文中。

在一些实施例中，处理器310可与照相机322和全球定位系统传感器320进行通信。耦合到处理器310的存储器312可存储用于在软件和/或固件实施例中实现图1和2所示的序列的计算机可读指令。特别是，序列可由存储计算机实现的指令的一个或多个非暂时性存储设备实现。

如图6所示，设备400可包括壳体402、显示器404、输入/输出(I/O)设备406、以及天线408。设备400也可包括导航特征412。显示器404可包括用于显示对于移动计算设备合适的信息的任何适当的显示单元。I/O设备406可包括用于将信息输入到移动计算设备中的任何适当的I/O设备。I/O设备406的示例可包括字母数字键盘、数字小键盘、触控板、输入键、按钮、开关、摇臂开关、麦克风、扬声器、语音识别设备和软件等。信息也可通过麦克风的方式输入到设备400中。这样的信息可由语音识别设备数字化。实施例并不被限制在这个上下文中。

可使用硬件元件、软件元件、或这两者的组合来实现各种实施例。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体设备、芯片、微芯片、芯片组等。软件的示例可包括软件部件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、功能、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号、或其任何组合。确定实施例是否使用硬件元件和/或软件元件来实现可根据任何数量的因子(例如期望计算速率、功率水平、耐热性、处理循环预算、输入数据速率、输出数据速率、存储器资源、数据总线速度和其它设计或性能约束)而改变。

至少一个实施例的一个或多个方面可由存储在代表在处理器内的各种逻辑的机器可读介质上的代表性指令实现，指令在被机器读取时使机器制造逻辑以执行在本文描述的技术。被称为“IP核心”的这样的表示可存储在有形机器可读介质上并被提供到各种消费者或制造设施以装入实际上制造逻辑或处理器的制造机器中。

一个或多个实现的前述描述提供例证和描述，但并不意为详尽的或将本发明的范围限制到所公开的精确形式。修改和变化按照上面的教导是可能的，或可从本发明的各种实现的实践来获取。

可在各种硬件架构中实现本文描述的图形处理技术。例如，图形功能可集成在芯片组内。可选地，可使用分立图形处理器。作为又一实施例，图形功能可由通用处理器(包括多核处理器)实现。

在整个这个说明书中对“一个实施例”或“实施例”的提及意味着关于该实施例描述的特定的特征、结构、或特性被包括在本发明内包含的至少一个实现中。因此，短语“一个实施例”或“在实施例中”的出现并不一定指同一实施例。此外，特定的特征、结构、或特性可以其它适当的形式而不是在所示的特定实施例中建立，且所有这样的形式可包括在本申请的权利要求内。

虽然关于有限数量的实施例描述了本发明，本领域中的技术人员从其将认识到很多修改和变化。意图是所附权利要求涵盖如落在本发明的真实精神和范围内的所有这样的修改和变化。

Claims

1.一种计算机执行的方法，包括：

使用硬件处理器计算经历运动模糊或景深中的至少一个的三角形的深度函数系数；

对于多个图块中的每一个，使用硬件处理器计算每样本覆盖；以及

在硬件图块深度压缩器中使用所述每样本覆盖来存储图块的样本的压缩深度。

2.如权利要求1所述的方法，包括使用光栅化器来进行计算。

3.如权利要求2所述的方法，包括使用软件光栅化器来进行计算。

4.如权利要求2所述的方法，包括直接根据光栅化器设置来准备深度函数的表示。

5.如权利要求2所述的方法，包括将关于运动类型的信息从所述光栅化器转发到所述压缩器。

6.如权利要求1所述的方法，包括对于运动模糊使用仅仅16个系数来表示深度函数。

7.如权利要求1所述的方法，包括对于景深使用仅仅13个系数来表示深度函数。

8.如权利要求1所述的方法，包括使用投影矩阵来减少深度函数系数的数量。

9.如权利要求1所述的方法，包括将指示压缩模式的图块头部存储在图块表中。

10.如权利要求1所述的方法，包括通过下列步骤来将三角形添加到压缩表示：将所述三角形光栅化到每一个覆盖的图块以获得其每样本覆盖和深度值；在每一个图块内执行深度测试；并且如果任何样本通过所述深度测试，则更新所述压缩表示。

11.如权利要求1所述的方法，包括减少深度函数系数的数量。

12.一种用于深度缓冲器压缩的装置，包括：

用于计算经历运动模糊或景深中的至少一个的三角形的深度函数系数的单元；

用于对于多个图块中的每一个，计算每样本覆盖和深度的单元；以及

用于在图块深度压缩器中使用所述每样本覆盖来存储图块的样本的压缩深度的单元。

13.如权利要求12所述的装置，所述装置还包括用于使用光栅化器来进行计算的单元。

14.如权利要求13所述的装置，所述装置还包括用于使用软件光栅化器来进行计算的单元。

15.如权利要求13所述的装置，所述装置还包括用于直接根据光栅化器设置来准备深度函数的表示的单元。

16.如权利要求13所述的装置，所述装置还包括用于将关于运动类型的信息从所述光栅化器转发到所述压缩器的单元。

17.如权利要求12所述的装置，所述装置还包括用于对于运动模糊使用仅仅16个系数来表示深度函数的单元。

18.如权利要求12所述的装置，所述装置还包括用于对于景深使用仅仅13个系数来表示深度函数的单元。

19.如权利要求12所述的装置，所述装置还包括用于使用投影矩阵来减少深度函数系数的数量的单元。

20.如权利要求12所述的装置，所述装置还包括用于将指示压缩模式的图块头部存储在图块表中的单元。

21.如权利要求12所述的装置，所述装置还包括用于减少深度函数系数的数量的单元。

22.一种用于深度缓冲器压缩的装置，包括：

控制装置，其计算经历运动模糊或景深中的至少一个的三角形的深度函数系数，对于多个图块中的每一个，计算每样本覆盖，并且在图块深度压缩器中使用所述每样本覆盖来存储图块的样本的压缩深度；

光栅化器，其耦合到所述控制装置；以及

压缩器，其耦合到控制装置。

23.如权利要求22所述的装置，其中所述光栅化器是软件光栅化器。

24.如权利要求22所述的装置，所述控制装置直接根据光栅化器设置来准备深度函数的表示。

25.如权利要求22所述的装置，所述光栅化器对于运动模糊使用仅仅16个系数来表示深度函数。

26.如权利要求22所述的装置，所述光栅化器对于景深使用仅仅13个系数来表示深度函数。

27.如权利要求22所述的装置，所述光栅化器使用投影矩阵来减少深度函数系数的数量。

28.如权利要求22所述的装置，所述控制装置将指示压缩模式的图块头部存储在图块表中。

29.如权利要求22所述的装置，所述光栅化器减少深度函数系数的数量。

30.一种用于深度缓冲器压缩的方法，包括：

对于多个图块中的每一个，对于经历运动模糊和景深的重叠三角形，使用硬件处理器来存储在两个不同的时间表示所述三角形的三角形顶点位置；以及

在图块深度压缩器中使用这些顶点位置来计算每样本覆盖，以存储图块的样本的压缩深度。