CN111602403B

CN111602403B - 用于生成图像数据比特流的装置和方法

Info

Publication number: CN111602403B
Application number: CN201980007187.9A
Authority: CN
Inventors: B·克龙; C·韦雷坎普; P·L·E·万德瓦勒
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2018-01-05
Filing date: 2019-01-04
Publication date: 2022-08-16
Anticipated expiration: 2039-01-04
Also published as: TW201939959A; US20200413097A1; US11122295B2; JP7252238B2; RU2020125985A; KR20200102507A; CN111602403A; JP2021510251A; BR112020013511A2; KR102587230B1; RU2020125985A3; WO2019134979A1; TWI787429B; EP3735776B1; EP3735776A1; EP3509308A1

Abstract

一种装置包括：存储部(201)，其存储针对表示来自不同查看姿态(位置和取向)的场景的图像的图像部分集合和相关联的深度数据。可预测性处理器(203)针对场景的查看姿态的图像集合中的图像部分生成可预测性量度。针对第一查看姿态的第一图像部分的可预测性量度指示对于来自图像部分集合中的不包括第一图像部分的图像部分的第一子集的针对第一查看姿态的视口的图像的至少部分的预测的预测质量的估计。选择器(205)响应于可预测性量度来选择图像部分集合的图像部分的第二子集；以及比特流生成器(207)用于生成包括来自图像部分的子集的图像数据和深度数据的图像比特流。

Description

用于生成图像数据比特流的装置和方法

技术领域

本发明涉及生成图像数据比特流，并且具体但并非排他地涉及生成提供场景的自适应三维表示的图像数据比特流。

背景技术

近年来，随着不断开发和引入新的服务以及利用和消费视频的方法，图像和视频应用的种类和范围已经大大增加。

例如，一种越来越流行的服务是以这样的方式提供图像序列：查看者能够主动地并且动态地与系统进行交互以改变绘制的参数。在许多应用中，非常吸引人的特征是改变查看者的有效查看位置和查看方向(查看姿态)的能力，诸如，例如允许查看者在所呈现的场景中移动并且“环顾四周”。

这样的特征能够具体使得能够向用户提供虚拟现实体验。这可以允许用户在虚拟环境中(相对)自由地走动，并且动态地改变他的位置和他所看的地方。通常，这样的虚拟现实应用基于场景的三维模型，其中该模型被动态地评估以提供特定的请求视图。该方案从例如用于计算机和控制台的游戏应用(诸如在第一人称射击游戏的游戏类别中)是公知的。

特别对于虚拟现实应用，还期望所呈现的图像是三维图像。实际上，为了优化查看者的沉浸感，通常优选的是：用户将所呈现的场景体验为三维场景。实际上，虚拟现实体验应当优选允许用户选择他/她自己的位置、相机视点以及相对于虚拟世界的时刻。

支持基于(尤其是三维)场景的表示的各种服务的主要问题在于需要大量数据。这导致高的资源要求，诸如针对大型存储资源的需求。然而，在许多情景中，最大的限制不是存储或处理要求，而是通信要求。如果要求表示场景的数据必须通过带宽受限的通信信道(内部或外部)进行通信，则非常期望尝试减少需要通信的数据量。

例如，在许多情景中并且对于许多应用，可以使用客户端服务器方案，其中，执行例如虚拟现实应用的远程客户端被耦合到中央服务，该中央服务通过带宽受限的链路提供所需的场景数据。然而，多视图表示通常将与高比特率相关联(即使没有深度信息也要求高比特率，并且实际上在这种情况下，这可能常常甚至更高，因为将需要更多视图)。例如，具有运动自由度的虚拟现实回放将要求以观察者在3D空间中移动的速度的场景的不同视图。在实践中很难解决在这样的通信信道上提供足够数据的挑战。

已经提出了若干种格式，用于在带宽受限的通信信道上有效地流送3D几何结构和纹理信息，并且尤其是用于与诸如互联网的网络一起使用时。例如，MPEG全向MediA格式(OMAF)标准将包括360视频的分片流(3个自由度(DoF))，其利用HTTP上的动态自适应流送(MPEG DASH)。OMAF的未来版本有望支持有限运动视差(3DoF+)。

如所提到的，在实践中，具有深度编码的多视图中最紧迫的问题通常不是存储需求，而是传输带宽和延迟。为了获得流畅的体验，图像应当即时到达头戴式装置。然而，尽管开发的格式和编码试图降低数据速率，但是通常仍然是关于在客户端处能够实现的质量和用户体验的主要限制。

因此，用于生成和使用图像数据比特流的经改进的方案将是有利的。具体地，一种允许改善的操作、方便的操作、改善的场景表示、增加的灵活性、方便的实现方式、方便的操作、减少的数据量、减少的数据存储、分布式和/或处理资源需求、改善的适应性和/或改善的性能将是有利的。

发明内容

因此，本发明试图优选单独地或者以任意组合来减轻、缓解或消除上文所提到的缺点中的一个或多个缺点。

根据本发明的一方面，提供了一种用于生成图像数据比特流的装置，所述装置包括：存储部，其用于存储表示来自不同查看姿态的场景的图像部分集合以及相关联的深度数据；可预测性处理器，其用于生成针对场景的查看姿态的图像部分集合中的图像部分的可预测性量度，针对第一查看姿态的第一图像部分的可预测性量度指示对于来自图像部分集合中的不包括第一图像部分的图像部分的第一子集的针对第一查看姿态的视口的图像的至少部分的预测的预测质量的估计；选择器，其用于响应于可预测性量度而选择图像部分集合的图像部分的第二子集；以及比特流生成器，其用于生成包括来自图像部分的第二子集的图像数据和深度数据的图像比特流；其中，所述选择器被布置为响应于确定多个连续图像部分形成区域而选择所述多个连续图像部分，所述区域具有低于针对所述区域的内部部分的第一阈值的可预测性量度和高于针对所述区域的边界部分的第二阈值的可预测性量度。

本发明可以提供比特流的经改进的生成，所述比特流提供场景的表示，诸如，例如提供场景的自适应三维表示，例如用于虚拟现实应用。所述方法可以在许多情景中提供降低的复杂性。在许多情景中，其可以提供针对比特流的大大降低的数据速率和/或改善的质量。在许多情景中都能够实现改善的质量/数据速率权衡。

针对图像部分和查看姿态的可预测性量度可以指示针对该查看姿态的场景的图像的图像部分的预测质量，其中，在使用针对其确定了可预测性量度的图像部分内执行预测。

针对图像部分的相关联的深度数据可以是指示从针对图像部分的视点到图像部分中的对象的距离的深度数据。

根据本发明的任选特征，可预测性处理器被布置为生成针对第一图像部分的可预测性量度，以指示第一图像部分的预测的预测质量。

这可以在许多情景和实施例中提供特别有效和高性能的操作。可以提供比特流对场景的特定属性和/或比特流的使用的经改进的适应。

针对第一图像部分的可预测性量度可以指示根据所存储的图像部分集合的一个或多个其他图像部分对第一图像部分的预测的质量。

根据本发明的任选特征，图像部分的第一子集仅包括已经被包含在比特流中的图像部分。

这可以在许多情景和实施例中提供特别有效和高性能的操作，并且可以具体地允许一种方法，其中当需要额外数据时才提供图像部分，以便比特流的接收器合成足够质量的视图图像。

根据本发明的任选特征，选择器还被布置为响应于针对目标查看姿态的图像部分集合的可见性量度来选择图像部分的第二子集，针对图像部分的所述可见性量度指示所述图像部分与针对所述目标查看姿态的视口的接近程度。

这可以在许多情景和实施例中提供特别有效和高性能的操作。其可以提供比特流生成对场景的特定属性和/或比特流的使用的经改进的适应。

根据本发明的任选特征，被存储在所述存储部中的所述图像部分集合中的至少一些图像部分是预编码的图像部分。

这可以提供特别有效的方法，并且可以实质上减少装置的计算要求以便生成比特流。例如，图像部分可以被编码一次，并且随后每次生成比特流时可以重新使用所存储的经编码的图像部分。

所述装置可以被布置为从存储部中取回经编码的图像部分，并且将其包括在比特流中，而无需对图像部分的任何图像编码或转码。

根据本发明的任选特征，图像部分集合包括针对不同查看姿态的场景的多面体投影的面。

这可以在许多情景和实施例中提供特别有效和高性能的操作。其还可以允许与许多其他图像处理算法兼容。

根据本发明的任选特征，所述图像部分对应于图像的预定分区。

这可以在许多实施例中提供经改进的性能，并且可以在许多实施例中提供对于基于比特流的视图合成特别有用的数据的更有效的选择。

根据本发明的任选特征，所述装置还包括分区器，其用于基于图像的像素值和针对图像的深度值中的至少一项来响应于图像的分区而生成图像部分集合的至少一些图像部分。

这可以在许多情景和实施例中提供特别有效和低复杂度的操作。其还可以允许与许多其他图像处理算法兼容。

根据本发明的任选特征，图像部分集合的至少一些图像部分是纹理图集图像的图像部分，所述纹理图集图像包括来自场景的网格和纹理表示的纹理部分。

根据本发明的任选特征，所述选择器被布置为响应于从远程源接收到的目标查看姿态而选择针对图像部分的第二子集的图像部分。

这可以在许多实施例中提供特别吸引人的操作，并且可以例如允许一种系统，其中，所述装置可以动态地生成比特流，所述比特流向例如其中虚拟查看者在场景中移动的虚拟现实应用来提供最基本的信息。

所述选择器被布置为响应于确定多个连续图像部分形成这样的区域，该区域的预测质量量度低于该区域内部部分的第一阈值并且预测质量量度高于该区域的边界部分的第二阈值，来选择多个连续图像部分。

这可以在许多情景和实施例中提供特别有效和高性能的操作。

根据本发明的任选特征，至少一些图像部分是重叠的。

根据本发明的任选特征，可预测性处理器被布置为响应于针对第一图像部分的相关联的深度数据来生成针对第一图像部分的可预测性量度。

这可以在许多实施例中提供特别有利的可预测性量度，并且例如可以允许低复杂度的实现方式，其仍然允许非常准确和有效的适应。

根据本发明的一方面，提供一种生成图像数据比特流的方法，所述方法包括：存储表示来自不同查看姿态的场景的图像部分集合和相关联的深度数据；针对场景的查看姿态的图像部分集合中的图像部分生成可预测性量度，针对第一查看姿态的第一图像部分的可预测性量度指示对于来自图像部分集合中的不包括第一图像部分的图像部分的第一子集的针对第一查看姿态的视口的图像的至少部分的预测的预测质量的估计；响应于可预测性量度而选择图像部分集合的图像部分的第二子集；并且生成包括来自图像部分的第二子集的图像数据和深度数据的图像比特流；其中，所述选择包括响应于确定多个连续图像部分形成区域而选择所述多个连续图像部分，所述区域具有低于针对所述区域的内部部分的第一阈值的可预测性量度和高于针对所述区域的边界部分的第二阈值的可预测性量度。

参考下文描述的(一个或多个)实施例，本发明的这些和其他方面、特征和优点将变得显而易见并得以阐明。

附图说明

将参考附图仅以示例的方式描述本发明的实施例，在附图中：

图1图示了根据本发明的一些实施例的图像处理系统的元件的示例；

图2图示了根据本发明的一些实施例的比特流生成装置的示例；

图3图示了场景和相关联的预测质量属性的示例；

图4图示了根据本发明的一些实施例的用于比特流的锚点图像部分的选择的示例；

图5图示了场景的图像的拼片的示例；

图6图示了根据本发明的一些实施例的用于比特流的锚点图像部分的选择的示例；

图7图示了场景的视图的示例；并且

图8图示了根据本发明的一些实施例的用于比特流的锚点图像部分的选择的示例。

具体实施方式

以下描述聚焦于适于为虚拟现实应用生成图像数据流的本发明的实施例。然而，将意识到，本发明并不限于该应用，而是可以应用于例如许多不同的图像处理和绘制应用。

图1示出了可体现本发明构思的实施例的示例和变型的系统的示例。

在该示例中，以图像绘制装置101的形式的客户端被布置为从不同的视点生成表示场景的图像，即，可以生成与针对场景的不同查看姿态的不同视口相对应的图像。图像绘制装置101被布置为接收包括图像部分以及相关联的深度的图像数据比特流，由此提供场景的局部三维图像表示。然后，可以基于接收到的数据，生成与给定视口和姿态相对应的适当图像。在该示例中，从作为远程服务器操作的比特流生成装置103接收图像数据比特流。比特流生成装置103被布置为经由网络105来提供图像数据比特流，该网络105例如可以是互联网。在特定示例中，远程服务器103是虚拟现实服务器，其为图像绘制装置101提供表示三维环境的三维图像数据，以生成例如对应于所述环境中的虚拟用户移动的视图。

在本领域中，术语“放置”或“姿态”用作例如对象、相机的位置和/或方向/取向以及位置和方向/取向的组合的通用术语，或者视图实际上通常指代姿态或放置。因此，放置或姿态指示可以包括六个值/分量/自由度，其中每个值/分量通常描述对应对象的位置/处所或取向/方向的个体属性。当然，在许多情况下，例如，如果一个或多个组件被认为是固定的或不相关的，则放置或姿态可以利用较少的分量进行考虑或表示(例如，如果所有对象都被认为处于相同的高度并且具有水平取向，则四个分量可以提供对象的姿态的完整表示)。在下文中，术语“姿态”被用于指代可以由一到六个值(对应于最大可能的自由度)表示的位置和/或取向。该描述将聚焦在姿态具有最大自由度的实施例和示例上，即，位置和取向中的每项的三个自由度导致总共六个自由度(6DoF)。姿态因此可以由表示六个自由度的六个值的集合或向量来表示，并且因此姿态向量可以提供三维位置和/或三维方向指示。然而，将意识到，在其他实施例中，姿态可以由更少的值来表示。

在许多应用中，在服务器处存在的场景的三维图像表示可以使用例如深度感测相机根据捕获现实实世界场景或环境来生成。这允许视觉属性与三维信息一起被捕获。为了充分地捕获场景，采用了对应于不同查看姿态的通常非常高数量的捕获的使用。在一些应用中，可以使用数百或甚至数千幅图像(具有相关联的深度信息)来提供来自不同查看姿态的整个场景的准确和详细的表示。

场景的虚拟数据表示是提供有利的用户体验的关键因素。要求描述场景的数据提供视觉属性以及空间属性两者的准确表示。同时，减少表示场景所需的数据量至关重要，因为在许多应用中，这往往是能够实现的质量的限制因素。

具体地，要求向图像绘制装置101提供足够的信息，以允许其局部地生成与期望的查看姿态相对应的合适图像，例如通过执行本领域技术人员已知的视点转移。然而，与此同时，要求将发送的数据量保持为低并且将延迟保持在低水平。在许多情景中，受限的通信带宽是寻求以高质量和低延迟提供高质量用户体验的限制因素。

另外，从深度感测相机的捕获到环境/场景的数据表示的转换通常非常具有挑战性，并且可能引入错误或伪影。例如，在一些应用中，所捕获的数据可以被用于开发现实世界场景的三维模型。然后可以通过从特定视点评估模型来生成被提供有三维虚拟现实体验的用户的查看图像。在其他应用中，可以直接从所捕获的图像和深度信息来生成针对特定视口或视点的图像，例如通过选择最接近的捕获的图像中的一个或多个并且执行视点转移以对应于期望的视点，或者在一些情况下，通过直接使用所捕获的图像。

在当前情况下，通过图像集合以及深度数据在图像域中表示场景。在许多实施例中，图像可以提供反映针对给定查看姿态的给定视点的视图的视觉信息，并且深度数据可以表示图像中像素或对象的深度。具体而言，每幅图像可以对应于针对场景的给定查看姿态的给定捕获，其中深度数据是伴随的深度图，这对于技术人员而言是已知的。在一些实施例中，图像可以例如是纹理图集图像或纹理图，并且深度数据可以是提供场景的网格和纹理表示的网格，这将在后面更详细地描述。

比特流生成装置103可以相应地包括表示来自查看姿态集合的表示场景的图像和相关联的深度数据，并且具体地，图像和深度数据可以是捕获的数据。比特流生成装置103因此通过针对查看姿态的离散集合的具有深度的图像集合来存储3D场景的表示。针对可获得这样的图像的查看姿态也将被称为锚点查看姿态，而所述图像将被称为锚点视图图像。

所述图像可以进一步被划分成图像部分，并且通常比特流生成装置103可以包括针对锚点姿态的锚点图像部分的大的集合。在一些实施例中，可以通过(主动地)分割或划分锚点图像来生成图像部分。在其他实施例中，图像部分可以例如包括可用于给定锚点姿态的所有数据，即，图像部分可以是针对给定锚点的整幅图像。

比特流生成装置103因此包括通过图像部分的集合和相关联的深度图的场景的(可能是部分但是通常基本上是完整的)三维图像表示。

针对每个光强度/纹理图像部分，比特流生成装置103存储相关联的深度图，所述深度图为光强度/纹理图像部分的像素提供深度信息。所述深度图通常可以包括深度值，所述深度值指示在与深度值的位置相对应的查看方向上从给定查看位置到对象的距离。深度值可以例如具有随着从视点到对象的距离增加而增大的值，或者具有随着从视点到对象的距离增加而减小的值。在许多实施例中，深度值可以被提供为不等值。

深度和图像(纹理)信息的提供可以提供额外信息，从而允许由图像绘制装置101的改进的处理。具体地，其可以允许或促进或改善针对除了锚点查看姿态之外的其他查看姿态的视图图像的生成。

为了促进这样的处理，期望在查看姿态之间的距离尽可能小。具体地，在锚点姿态之间的大间距导致可见的去遮挡(de-occlusion)区域，并且需要非常准确的深度图或网格模型来合成中间视图。绘制单元能够通过组合多个锚点来填充去遮挡区域，但是这需要更多的资源进行传输、解码和绘制，并且往往会降低质量。

然而，在锚点之间的小间距导致比特率的增加，这对于诸如允许自由移动的虚拟现实应用之类的应用而言通常是特别高的。其原因是(与普通视频相反)，具有深度的光场根据三个空间维度而变化。这意味着由于数据的高维度，固定元素的编码成本(而非残差)很高。

在图1的系统中，可以提供一种经改进的方法，其中，取决于可预测性量度来自适应地选择图像部分和相关联的深度数据并且将其包含在比特流中。

图2图示了比特流生成装置103的一些元件的示例。

在示例中，比特流生成装置103包括存储部201，其存储图像部分的集合以及相关联的深度数据。

比特流生成装置103还包括可预测性处理器203，可预测性处理器203被布置为生成针对图像集合的图像部分的可预测性量度。可以针对场景的查看姿态生成可预测性量度。生成针对给定图像部分和查看姿态的可预测性，以基于不包括针对其生成可预测性量度的图像部分的图像部分的子集来指示与针对给定查看姿态的视图端口相对应的(全部或部分)图像的预测质量。

因此，针对给定查看姿态和给定图像部分生成可预测性量度，其反映了能够从集合的图像部分中预测出针对该查看姿态的视图端口的图像部分的程度，但是排除了针对其生成可预测性量度的图像部分。

例如，针对与来自客户端的当前目标查看姿态相对应的查看姿态的给定图像部分可以生成可预测性量度。如果不使用给定的图像部分，则该可预测性量度可以相应地指示能够预测针对查看姿态的图像的程度。

作为另一示例，可以针对所述视图部分的查看姿态的给定图像部分来生成可预测性量度。在这样的情况下，该可预测性量度可以具体指示从所存储的图像部分集合中的其他图像部分预测给定图像部分自身的程度。

在许多实施例中，可以为多个或可能所有存储的图像部分生成可预测性量度和/或可以为每个图像部分生成多个可预测性量度(对应于不同的查看姿态)。在一些实施例中，所有可预测性量度可以生成一次，并且可能在开始特定应用之前生成。在一些实施例中，可预测性量度可以在需要其时动态地生成。

可预测性处理器203被耦合到选择器205，选择器205被布置为响应于可预测性量度来选择图像部分集合的图像部分的子集。例如，选择器203可以选择可预测性量度测量低的一些图像部分，而不选择可预测性量度高的图像部分。

选择器205被耦合到比特流生成器207，比特流生成器207被布置为生成图像比特流，以包括来自图像部分的子集的图像数据和深度数据。然而，如果给定图像部分未被选择为包含在子集中(而是被选择为从子集中排除)，则图像部分将不被包含在比特流中。

在不同的实施例中，从其生成可预测性量度的图像部分的子集可以是不同的。例如，在许多实施例中，其可以包括(仅)从比特流中已经包含的图像部分中选择的图像部分，并且因此给定姿态和图像部分的可预测性量度可以基于已经被提供给客户端的图像部分来反映针对该姿态的图像的可预测性。

在其他实施例中，所述子集可以例如是根据固定的要求来确定的。例如，可以选择用于确定针对图像部分的姿态的给定图像部分的可预测性量度的子集作为最接近的N个图像部分。

还将意识到，可以在不同的实施例中使用用于生成图像部分的子集的不同方法。例如，在一些实施例中，可以使用动态并且顺序的方法。例如，在操作期间，可以从客户端接收目标查看姿态指示。然后，比特流生成装置103可以继续针对姿态周围的邻域中的每个图像部分(例如，针对N个最近的图像部分)来生成姿态的可预测性量度，其中，预测仅基于已经被发送给图像绘制装置101的图像部分。然后，选择器205可以选择具有最低可预测性量度的图像部分，并且将其包含在将被(或者已经被)包含在比特流中的图像部分的子集中。还可以确定可预测性量度是否指示针对给定目标姿态的足够高的预测质量。如果否，则可以重复该过程，但是这次，刚包含的图像部分也被包含在用于预测的基本图像部分的子集中。因此，比特流生成装置103可以迭代地添加附近的图像部分，直到能够以足够高的质量预测期望的目标视口为止。

在一些实施例中，不必个体地考虑每个图像部分。例如，在一些实施例中，可以针对场景的由多个姿态和图像部分覆盖的部分生成通用的可预测性量度(例如，基于考虑场景的内容/属性，诸如视图中对象的数量，如稍后将更详细描述的)。

类似地，选择不一定基于仅考虑针对给定图像部分的可预测性量度。例如，在一些实施例中，针对所选择的图像部分的姿态的空间密度可以取决于邻域可预测性量度(通常对于多个图像部分是共同的)。作为示例，在其中可预测性量度被认为是高的区域中(例如，由于考虑到场景的复杂度低)，可以针对每个第三锚点视图位置包括图像部分。相反，在可预测性量度被认为低的情况下(例如，由于考虑到场景的复杂性高)，可以选择针对所有锚点视图位置的图像部分以包含在比特流中。

所述方法可以提供具有降低的总体数据速率的比特流的适应的和经改进的生成，但是仍然允许图像绘制装置101针对给定查看姿态并且以要求的质量水平来生成所要求的视图。所述方法可以减少传输的数据中的冗余，并且由此改善质量比特率比(图1)。

例如，图3的示例图示了不同质量的三个示例性场景以及相关联的曲线，其指示了根据捕获场景的锚点图像的数量的潜在视图合成质量。

简单场景301的外观可以随着角度和位置而变化很小。例如，其可能包含粗糙的喷涂表面，并且几乎没有遮挡。图像绘制装置101仅需要很少的锚点图像部分/图像，以便生成该简单场景的许多不同视图。相反，复杂场景303将具有随角度和位置而变化很大的外观。例如，其可以包括镜面和金属元素或具有自遮挡的对象，诸如一束花。为了捕获这样的复杂场景，需要许多锚点图像部分/图像，并且图像绘制装置101相应地需要大量锚点图像部分，以便生成不同的视图。典型的场景305将是简单部分与复杂部分的组合，并且利用针对复杂场景所需的足够数量的锚点来捕获这样的场景将导致大的冗余。所描述的自适应选择可用锚点图像部分的子集以包括在比特流中的方法可以实质上减少比特流中所包含的数据的冗余度，并且由此实质上降低比特率而不导致最终质量的对应损失。在许多实施例中，所述方法可以通过将锚点图像分成多个部分并且基于可预测性来决定待传输哪些图像和图像部分来降低冗余度。

图4图示了具有远距背景401和前景对象403的场景的示例。具有深度的图像是从一系列查看姿态405捕获的，从而导致针对不同查看姿态的锚点图像/图像部分的集合。在该示例中，采用选择性传输策略，其中，可以跳过整个锚点。锚点图像全部在大的距离处对背景401成像，但是在阵列中心处的锚点图像在其视场中还包括在近距离处的对象403。通常，这导致中心图像的变化远大于朝向边缘的图像(对于小的视点变化，靠近对象的不规则物的图像变化要比背景图像变化大得多)。因此，从相邻锚点图像预测中心锚点图像比从相邻锚点图像预测边缘锚点图像要困难得多，并且因此，针对中心图像的可预测性量度明显低于边缘图像。因此，与边缘图像(包含在图4中由被填充的对应姿态指示所指示的比特流中的图像)相比，比特流中包括更大比例的中心图像(具有相关联的深度图)。因此，在该示例中，选择器205被布置为通过响应于针对锚点图像(以及针对锚点图像的查看姿态)的可预测性量度而改变空间采样率来选择要包含在比特流中的锚点图像。

图5示出了其中在图像绘制装置101处生成用于虚拟现实回放的等矩形图像的应用的示例。比特流生成装置103提供用于生成等矩形图像的图像部分，并且具体地，该图像部分可以对应于图像的拼片。与每个拼片相关联的还有深度图，所述深度图用于基于图像的绘制。当查看者改变位置和取向时，在图像绘制装置101处，拼片被从服务器/比特流生成装置103流送到查看者应用。来自服务器的所需锚点更新的空间频率随拼片/查看方向而变化。这在图6中被图示出，其示出了锚点姿态/位置的水平网格。在该示例中，所提供的锚点图像的空间密度针对等矩形图像的不同拼片而变化，这取决于针对拼片的可预测性量度的变化。

例如，如在图7中所图示的，对于当前的虚拟用户查看姿态，等矩形图像/视口的三个(相邻)拼片T₁、T₂、T₃对应于稍微不同的(相邻)视角间隔。这些视角间隔/拼片中的两个T₁、T₂包括附近不规则对象，而第三拼片T₃没有。因此，比特流生成装置103可以生成用于与拼片T₁、T₂、T₃相对应的图像部分的可预测性量度，并且将确定对于前两个拼片T₁、T₂比最后一个拼片T₃更低的可预测性量度。因此，可以继续确定对于前两个拼片T₁、T₂比第三拼片T₃更高的空间采样密度。因此，对于与前两个拼片T₁、T₂相对应的图像部分，可以包括所有图像部分(对应于图6的右图)，而对于第三拼片T₃，仅包括每三个(在两个方向上)的锚点图像部分(对应于图6的左图)。

在一些实施例中，可以在应用期间动态地确定要在比特流中包括哪些锚点图像。在其他实施例中，可以基于对例如场景、锚点图像和/或存储的图像部分的分析来执行初始静态确定。

在一些这样的实施例中，关于哪些锚点要从服务器/比特流生成装置103取回以及哪些锚点在客户端/图像绘制装置101处预测的信息可以最初(在应用的开始)被传送给客户端侧，例如以视图的形式，其指示哪些图像部分将(或者可以)可用于图像绘制装置101。

如由先前的示例所指示的，可以使用不同的方法和算法来确定针对不同图像部分和姿态的可预测性量度。

所述可预测性量度可以指示：基于锚点图像的不包括针对其生成可预测性量度的锚点图像的子集，针对给定查看姿态使用基于深度图像绘制(视图合成)的新合成图像能够达到的质量。

可预测性量度可以通过考虑反映或影响合成图像的质量的特征或特性来直接或间接地确定。

在可以确定更直接的可预测性量度的一些实施例中，这可以例如涉及比特流生成装置103执行对锚点图像部分的视图合成并且将实际存储的图像部分与合成版本进行比较。如果差异较小，则可预测性量度被认为是高的。更具体而言，当根据一个或多个附近图像部分(通常在6DoF空间中)进行预测时，可预测性量度可以根据测得的均方误差、PSNR、VQM、MS-SSIM或图像部分的另一度量被确定为视图合成质量。通常，使用图像部分和深度图(或纹理和网格)的模拟绘制来完成该预测。

在其他实施例中，可以响应于对场景的属性的考虑而生成可预测性量度。具体而言，在许多实施例中，可响应于场景的复杂性的指示而生成可预测性量度。具体而言，可以基于针对图像部分的深度数据来生成可预测性量度。例如，如果深度数据指示存在相对靠近的一个或多个对象，则能够假设图像部分包括难以从其他锚点图像部分针对其他(通常是靠近的)查看姿态进行预测的对象。

作为特定示例，可以响应于图像部分中出现的最小深度(从相机/视点到对象的距离)来生成针对图像部分的可预测性量度。如果图像部分中的所有对象都远离相机，则观察者的小幅(6DoF)运动将不改变图像部分内部的相对纹理。该运动将导致整个图像部分的近似仿射变换。例如，图像部分将作为整体来旋转、移动或缩放。通常从客户端处具有深度的附近图像中非常好地预测该变换。这样的预测通常可以具有这样高的质量，以至于视图合成就足够了，并且确实不需要发送残差信号。

通常可以基于深度数据、图像数据或者深度数据和图像数据两者来确定可预测性量度。例如，如果深度数据指示针对图像部分的场景/深度数据中存在大的深度变化，其中，例如相对频繁和相对急剧的梯级变化，则可以将这视为场景/当前视图复杂并且难以预测的指示。类似地，如果图像在具有非常不同的视觉属性的图像分段方面具有大的变化，其中，在分段之间存在显著和突然的变化，则这可以被视为场景的高复杂度的指示，并且因此指示难以预测。相反，如果深度和/或视觉变化较低，则可以认为场景具有相对较低的复杂度，并且由于可能将能够生成更准确的预测图像，因此可以增加可预测性量度。

所述方法可以例如反映：在具有相对大量的小对象的场景中，与具有很少或没有对象的场景相比，通常需要更高数量的捕获的姿态，并且因此预测更加困难。

在一些实施例中，可预测性处理器203可以具体地被布置为响应于深度数据的深度变化来确定可预测性量度。

可以生成深度变化估计，其试图反映与在不同深度处相对高数量的不同对象的存在相对应的多个深度转换的存在(或不存在)。例如，这可以通过以下步骤来实现：基于深度图中的深度转换来识别分段，并且然后确定找到了多少个这样的分段。将意识到，许多其他方法可以被用于确定合适的深度变化测量。

在一些实施例中，可预测性处理器203被布置为响应于由针对图像部分的深度数据所指示的到对象的距离而确定可预测性量度。具体而言，可预测性量度可以随着与对象的距离增加而增加。

这可以反映出，当对象离相机相对远时，可以认为场景不太复杂，因为这通常提供不同方面的经改善的可见性，并且当更改视图姿态时导致减少的更改。其还趋于导致由场景的其他部分的对象的较少遮挡。因此，预测通常将更准确。

类似地，当对象相对靠近相机时，场景可以被认为更复杂，因为其需要更详细的捕获以准确地反映对象中的变化，并且还导致对象通常遮挡场景的较大部分，由此需要额外锚点姿态以允许去遮挡。这可能导致预测更加困难和不准确。

在一些实施例中，选择器205可以被布置为响应于针对目标查看姿态的图像部分的可见性量度而进一步选择要包含在比特流中的图像部分。目标查看姿态可以具体地对应于将由图像绘制装置101为其合成图像的查看姿态，并且可以如稍后将描述地从图像绘制装置101动态地提供。

可见性量度可以指示图像部分对于目标查看姿态是否可见，并且具体而言，指示其是否将在针对目标查看姿态的合适视口内。具体而言，针对图像部分的可见性量度可以指示对于目标查看姿态，图像部分与视口有多靠近。如果其足够靠近视口或者在视口之内(并且例如可预测性量度足够低)，则图像部分被包含在比特流中。如果离视口太远，则不包含于其中。

在许多情景中，这可以提供经改善的性能。例如，对于客户端来说，具有明显小于内容的视口是非常典型的。例如，头戴式装置可能仅具有100度的视场，而内容是360度。

目标查看姿态的视口通常可以是期望需要图像来表示视口的视口。

作为特定示例，选择器205可以针对这样的未来视口考虑以下规则：

·几乎确认在未来视口的外部的部分不必被传输。

·不太可能在未来视口内部并且在客户端处其他部分针对其可用的部分不必被传输。

·可见但能从另一部分预测的部分将在客户端处可用，而不必被传输。

·对于图像中不确认在未来视口的外部的任何难以预测的像素，应当从一个锚点选择至少一部分。

在不同的实施例中，可以使用不同的方法来选择图像部分的预测子集，其形成确定针对给定姿态/图像部分组合的可预测性量度的基础。在许多实施例中，可以简单地将预测子集选择为最靠近给定姿态的可能预定数量的锚点图像或图像部分，因为这些通常是用于预测的最佳候选者。在其他实施例中，可以使用更复杂和更多资源需求的方法。例如，可以考虑锚点图像部分的不同可能集合来执行预测，并且可以选择最佳预测，并且可以使用锚点图像部分的对应集合。

在许多实施例中，锚点图像部分的预测子集被限制为仅包括被包含在比特流中的图像部分。通常，所考虑的图像部分是先前已经被包含在比特流中的图像部分，但是在一些实施例中，预测子集还可以包括尚未被发送但是已经被选择包含在比特流中的图像部分(或者由于适合用作预测的基础图像，因此与当前图像部分一起被选择)。

这样的方法可以导致非常有效的比特流生成，其中，当并且仅当图像绘制装置101不能够仅基于已经可用于图像绘制装置101的图像部分本地生成足够质量的图像时，才将新的图像部分基本上提供给图像绘制装置101。具体而言，在这样的实施例中，可预测性量度可以指示当仅基于已经存在于客户端/图像绘制装置101处的锚点图像部分来合成针对给定姿态的图像时能够实现的质量。

在许多实施例中，图像绘制装置101可以被布置为响应于由比特流生成装置103从图像绘制装置101接收的目标查看姿态而生成比特流并且选择图像部分。具体而言，当虚拟用户在虚拟环境中四处移动时，图像绘制装置101可以连续地发送当前视图姿态作为目标视图姿态的指示(或者例如，可以预测目标视图姿态以减少滞后)。

比特流生成装置103可以从图像绘制装置101接收目标查看姿态，并且可以继续基于目标查看姿态来选择合适的图像部分以包括在被流送到图像绘制装置101的比特流中。具体而言，比特流生成装置103可以确定针对目标查看姿态的可预测性量度，其指示基于已经被发送给图像绘制装置101并且因此在图像绘制装置101处已经可用于视图/图像合成的图像部分，能够生成针对于目标查看姿态相对应的视口的图像的程度。

如果可预测性量度指示预测质量足够高，则对于当前目标查看姿态，没有另外的图像部分被添加到比特流中(例如，除非待发送给图像绘制装置101的图像部分的缓存器足够空)。然而，如果可预测性量度指示预测质量不够高，则将一个或多个图像部分被添加到比特流。在一些实施例中，可以使用预定的选择，例如，可以添加最近的图像部分(或多个图像部分)(并且因此，可以认为针对该(这些)图像部分生成了可预测性量度)。然后，该方法可能被迭代，同时将在先前迭代中选择的(一个或多个)图像部分包含在针对当前迭代的预测集合中。在其他实施例中，比特流生成装置103可以基于包括不同图像部分来生成可预测性量度，并且然后可以选择导致最高可预测性量度的(一个或多个)图像部分。

将意识到，在不同的实施例中，图像部分可以是不同的事务。例如，在一些实施例中，每个图像部分可以是整幅捕获的图像(可能包括整个完整的半球图像)。

在许多实施例中，所述图像部分可以是局部视图，诸如具体地对应于相对低视角间隔的图像分段，诸如，例如在10°至45°的范围内(例如，在水平和垂直方向两者上)。例如，与针对给定查看姿态的矩形视口相对应的矩形图像可以被划分为多个图像部分，这些图像部分能够被个体地选择以包含在比特流中(例如，图5的示例中的拼片)。

在一些实施例中，图像部分可以对应于图像的预定分区。例如，如在图5的示例中，可以将矩形图像划分为预定的多个正方形拼片，其中每个正方形对应于可个体选择的图像部分。作为特定示例，每个图像部分可以是编码块图像，诸如，例如16×16像素宏块。

这样的方法可以允许低复杂度的实现方式，然而，仍然可以提供出色的性能。

在一些实施例中，图像部分(或者至少一些图像部分)可以是针对不同查看姿态的场景的多面体投影的面，诸如，例如立方体图中的正方形或二十面体中的三角形。

具体而言，对于给定的视点，半球视图可以被分成一起形成半球几何结构的一组对应的平面多边形。在许多实施例中，这将便于视图合成操作，并且还将便于将正在接收的新图像部分与先前接收或预测的图像部分进行集成。与等角投影相比，并且由于具有平面的多面体投影，在标准GPU上绘制图像的成本较低，因为较少数量的三角形能够准确地描述与投影相关联的形状。对于具有足够数量的面的多面体投影(如二十面体投影)，平均投影畸变要小于等矩形投影。此外，面提供图像的自然分区。

在一些实施例中，比特流生成装置103可以包括分区器209，其被布置为通过对锚点图像进行分区来生成至少一些图像部分。在一些实施例中，该分区可以是预定的，例如，分区器209可以使用常规拼片来对图像分区。

然而，在许多实施例中，可以生成更自由形状的分区或分段，并且具体地，可以通过取决于图像和/或深度图的属性的分割来生成图像部分。例如，这可以允许特定对象由不同的图像部分来表示，背景由另一个体的图像部分来表示等。

确实，可能经常发生图像包括背景和一些前景对象的情况。将前景对象加上背景边缘被包含在图像部分中是有利的，因为前景对象通常比背景对象更难以预测。更一般而言，用于选择的良好图像部分具有较低的内部可预测性和在部分边缘附近较高的可预测性。

因此，通过将图像分割成合适的图像部分，能够实现特别有效的操作。

将意识到，可以使用用于图像分割的任何合适的方法，而不背离本发明。例如，可以生成分段以具有一致的颜色和/或强度，或者对应于诸如面的识别出的对象图像，或者例如可以生成对应于具有相似深度值等的区域的分段。将意识到，本领域技术人员将知道大量的分割算法和标准。

在许多实施例中，选择器205被布置为响应于确定多个连续图像部分形成区域而选择多个连续图像部分，所述区域具有低于区域的内部的第一阈值的预测质量量度和高于区域的边缘部分的第二阈值的预测质量量度(其中，在许多实施例中，第一阈值可能低于第二阈值)。

在许多这样的方法中，在图像部分的边缘上具有低可预测性将导致在该边缘在期望视口内时也选择相邻图像部分。这可以避免或减轻使用具有低边缘可预测性的图像部分在正被绘制的部分的边缘上的绘制伪影。以这种方式，图像部分可以链接以形成具有低内部可预测性但是具有高外部(边缘)可预测性的组。

这样的方法可以通过图8的示例来图示，图8图示了球体的拼片图像，其中每个拼片对应于图像部分。链接共享穿过低可预测像素的边缘的拼片。共享通过低可预测区域的边缘的任何两个部分都具有链接的选择标准，使得要么传输所有图像部分，要么不传输任何图像部分。

在一些实施例中，当确定是否链接图像部分时，比特流生成装置103可以具体地考虑边缘处的可预测性。然而，在其他实施例中，该选择可以仅基于考虑针对整个图像部分的可预测性量度。例如，如果针对给定图像部分的可预测性量度低于给定阈值(意味着难以预测)，则还将包括所有相邻图像部分。可以迭代这种方法，导致图像部分被包含，直到其具有高可预测性量度。通过对原始图像部分进行分组，这将导致有效生成具有较低内部可预测性和较高边缘可预测性的较大图像部分。

在一些实施例中，至少一些图像部分是重叠的。

在许多实施例中，允许重叠的图像部分使得两个相邻的图像部分两者都包括用于重叠的边界区域的图像数据可能是有益的。这可能导致针对比特流生成装置103的存储需求增加，并且可能增加比特流的数据速率。然而，在许多实施例中，其可以允许改善的编码效率(例如，如果编码块不与图像部分之间的边界对齐)。此外，重叠区域可以实质上促进新图像部分与例如可以在图像绘制装置101处预测或先前生成的其他图像部分的混合。

尽管先前的描述聚焦在使用标准图像和深度图的表示上，但是将意识到，在其他实施例中，可以使用其他方法。

例如，图像可以包括纹理图集图像，所述纹理图集图像包括来自场景的网格和纹理表示的纹理部分。这样的表示的示例可以例如在A.Collet等人的High-qualitystreamable free-viewpoint video.ACM Transactions on Graphics(TOG),Proceedingof ACM SIGGRPAH 2015，第34卷，第4期，2015年8月中找到。

在这样的示例中，锚点图像可以对应于最适合于从锚点位置(区域)查看的纹理图集。与(不连续的)网格组合的纹理图集可以形成对象或场景的几何模型。在这种情况下，图像部分可以例如是对应于场景中的一个表面的这样的图集中的一种纹理。

作为特定示例，场景可能包含具有低可预测性的一些对象，例如镜面对象(诸如金属灯具)或者具有自遮挡的对象(诸如一束花)。比特流生成装置103可以将锚点图像部分划分为不同的级别。级别0锚点图像部分可以包含场景中的所有对象(包括背景)，因此将流送至少一个级别0锚点(几何模型)。当查看者在空间中导航时，级别0的锚点选择将改变。

另外，为了考虑一些对象的外观的角度依赖性，较高级别的锚点可能包含部分场景模型。即使这样，也可以基于查看者位置仅流送这样的锚点的部分。该决定基于级别1+锚点中的部分的可预测性。

在一些实施例中，图像部分(或者其中的至少一些)可以被预编码。因此，其可以以其中其能够被直接包含在比特流中而无需任何转码或(重新)编码要求的格式进行编码和存储。而是，可以简单地从存储部201中取回将要被包含在比特流中的图像部分，并且将其添加到比特流中，而无需进行编码操作。这可以极大地降低比特流生成装置103处的复杂度和资源需求，并且提供非常有效的操作。

能够以包括硬件、软件、固件或者其任何组合的任何适当形式来实施本发明。本发明可以任选地至少部分地实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和组件可以以任何合适的方式在物理、功能和逻辑上实施。实际上，可以在单个单元中、在多个单元中或者作为其他功能单元的部分来实施功能。这样，本发明可以在单个单元中实施，或者可以在物理上和功能上分布在不同的单元、电路和处理器之间。

尽管已经结合一些实施例描述了本发明，但是本发明并不旨在限于在本文中所阐述的特定形式。而是，本发明的范围仅由所附权利要求限制。另外，尽管看起来可能结合特定实施例描述了特征，但是本领域技术人员将认识到，可以根据本发明组合所描述的实施例的各种特征。在权利要求中，术语“包括”不排除其他元件或步骤的存在。

此外，尽管被个体地列出，但是多个单元、元件、电路或方法步骤可以由例如单个电路、单元或处理器来实施。另外，尽管个体特征可以被包含在不同的权利要求中，但是这些特征可以被有利地组合，并且包括在不同的权利要求中并不意味着特征的组合是不可行和/或不利的。同样地，在一种权利要求类别中包括特征并不意味着对该类别的限制，而是指示该特征适当地同样适用于其他权利要求类别。此外，在权利要求中的特征的次序并不暗示特性必须以任何特定次序工作，并且特别地，方法权利要求中的各个步骤的次序并不暗示必须以该次序执行步骤。而是，可以以任何合适的次序执行步骤。另外，单数引用不排除多个。因此，对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅作为说明示例而提供，而不应当被解释为以任何方式限制权利要求的范围。

Claims

1.一种用于生成图像数据比特流的装置，所述装置包括：

存储部(201)，其用于存储表示来自不同查看姿态的场景的图像部分集合和相关联的深度数据；

可预测性处理器(203)，其用于生成针对所述场景的查看姿态的所述图像部分集合中的图像部分的可预测性量度，针对第一查看姿态的第一图像部分的可预测性量度指示对于来自所述图像部分集合中的不包括所述第一图像部分的图像部分的第一子集的针对所述第一查看姿态的视口的图像的至少部分的预测的预测质量的估计；

选择器(205)，其用于响应于所述可预测性量度而选择所述图像部分集合的图像部分的第二子集；以及

比特流生成器(207)，其用于生成图像比特流，所述图像比特流包括来自所述图像部分的第二子集的图像数据和深度数据；

其中，所述选择器(205)被布置为响应于确定多个连续图像部分形成区域而选择所述多个连续图像部分，所述区域具有低于针对所述区域的内部部分的第一阈值的可预测性量度和高于针对所述区域的边界部分的第二阈值的可预测性量度。

2.根据权利要求1所述的装置，其中，所述可预测性处理器(203)被布置为生成针对所述第一图像部分的所述可预测性量度，以指示对所述第一图像部分的预测的预测质量。

3.根据权利要求1或2所述的装置，其中，所述图像部分的第一子集仅包括已经被包含在所述比特流中的图像部分。

4.根据权利要求1或2所述的装置，其中，所述选择器(205)还被布置为响应于针对目标查看姿态的所述图像部分集合的可见性量度而选择所述图像部分的第二子集，针对图像部分的所述可见性量度指示所述图像部分与针对所述目标查看姿态的视口的接近程度。

5.根据权利要求1或2所述的装置，其中，被存储在所述存储部(201)中的所述图像部分集合中的至少一些图像部分是预编码的图像部分。

6.根据权利要求1或2所述的装置，其中，所述图像部分集合包括针对不同查看姿态的所述场景的多面体投影的面。

7.根据权利要求1或2所述的装置，其中，所述图像部分对应于所述图像的预定分区。

8.根据权利要求1或2所述的装置，还包括分区器(209)，所述分区器用于基于所述图像的像素值和针对所述图像的深度值中的至少一项响应于图像的分区而生成所述图像部分集合中的至少一些图像部分。

9.根据权利要求1或2所述的装置，其中，所述图像部分集合的至少一些图像部分是纹理图集图像的图像部分，所述纹理图集图像包括来自所述场景的网格和纹理表示的纹理部分。

10.根据权利要求1或2所述的装置，其中，所述选择器(205)被布置为响应于从远程源接收到的目标查看姿态而选择针对所述图像部分的第二子集的图像部分。

11.根据权利要求1或2所述的装置，其中，至少一些图像部分是重叠的。

12.根据权利要求1或2所述的装置，其中，所述可预测性处理器(203)被布置为响应于针对所述第一图像部分的所述相关联的深度数据而生成针对所述第一图像部分的所述可预测性量度。

13.一种生成图像数据比特流的方法，所述方法包括：

存储表示来自不同查看姿态的场景的图像部分集合和相关联的深度数据；

生成针对所述场景的查看姿态的所述图像部分集合中的图像部分的可预测性量度，针对第一查看姿态的第一图像部分的可预测性量度指示对于来自所述图像部分集合中的不包括所述第一图像部分的图像部分的第一子集的针对所述第一查看姿态的视口的图像的至少部分的预测的预测质量的估计；

响应于所述可预测性量度而选择所述图像部分集合的图像部分的第二子集；并且

生成图像比特流，所述图像比特流包括来自所述图像部分的第二子集的图像数据和深度数据；

其中，所述选择包括响应于确定多个连续图像部分形成区域而选择所述多个连续图像部分，所述区域具有低于针对所述区域的内部部分的第一阈值的预测性量度和高于针对所述区域的边界部分的第二阈值的预测性量度。

14.一种存储有计算机程序的计算机可读介质，所述计算机程序包括计算机程序代码，所述计算机程序代码用于当所述计算机程序由计算机运行时执行根据权利要求13的所有步骤。