CN117616760A

CN117616760A - 图像生成

Info

Publication number: CN117616760A
Application number: CN202280046779.3A
Authority: CN
Inventors: C·韦雷坎普; B·W·D·范格斯特
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2021-06-29
Filing date: 2022-06-24
Publication date: 2024-02-27
Also published as: KR20240026222A; TW202310614A; CA3225432A1; EP4114008A1; WO2023274879A1; EP4364426A1

Abstract

一种装置包括接收器(601)，所述接收器接收针对真实世界场景并与捕获姿势区域链接的捕获视频数据。存储设备(615)存储真实世界场景的3D网格模型。绘制器(605)生成针对观看姿势的视口的输出图像。所述绘制器(605)包括：第一电路(607)，其被布置为通过将捕获视频数据投影到所述观看姿势来生成针对所述输出图像的第一图像数据；以及第二电路(609)，其被布置为响应于三维网格模型而确定针对所述输出图像的第一区域的第二图像数据。第三电路(611)生成所述输出图像以包括所述第一图像数据中的至少一些并且包括针对所述第一区域的第二图像数据。第四电路(613)基于所述观看姿势相对于所述捕获姿势区域的偏差来确定所述第一区域。

Description

图像生成

技术领域

本发明涉及一种图像生成方法，并且特别地但非排他地涉及针对不同视点的三维视频信号的图像的生成。

背景技术

近年来，随着不断开发和引入利用和消费视频和图像的新服务和方式，图像和视频应用的种类和范围已大幅增加。

例如，一种日益流行的服务是以这样的方式提供图像序列：观看者能够主动地和动态地与场景的视图交互，使得观看者可以改变场景中的观看位置或方向，其中，所呈现的视频适应于从改变的位置或方向呈现视图。

三维视频捕获、分布和呈现正在一些应用和服务中变得日益流行和需要。一种特定的方法被称为沉浸式视频，并且通常包括提供真实世界场景(并且常常地实时事件)的视图，其允许小的观看者移动，诸如相对小的头部移动和旋转。例如，允许在观看者的小的头部移动之后的基于本地客户端的视图生成的例如体育赛事的实时视频广播可以提供用户坐在看台上观看体育赛事的印象。用户可以例如环顾四周，并且将具有类似于观众在看台上的该位置处的体验的自然体验。最近，具有位置跟踪和3D交互的显示设备已日益普遍，该显示设备支持基于真实世界场景的3D捕获的应用。这样的显示设备非常适合于提供增强的三维用户体验的沉浸式视频应用。

为了为真实世界场景提供这样的服务，通常从不同的位置捕获场景，并且其中，使用不同的相机捕获姿势。因此，多相机捕获以及例如6DoF(6自由度)处理的相关性和重要性正迅速增加。应用包括实况音乐会、实况体育和远程呈现。选择一个人自己视点的自由度通过增加常规视频上的存在感丰富了这些应用。此外，可以设想沉浸式情形，其中，观察者可以导航并与实况捕获的场景交互。对于广播应用，这可能要求在制作端进行实时深度估计，并且在客户端设备处进行实时视图合成。深度估计和视图合成两者引入误差，并且这些误差取决于所采用的算法的实施细节。在许多这样的应用中，常常提供三维场景信息，该三维场景信息允许对相对接近于(一个或多个)参考视点的视点进行高质量视图图像合成，但是如果视点与参考视点偏离太多则其恶化。

相对于彼此偏移的一组视频相机可以捕获场景，以便提供三维图像数据，例如以来自偏移位置的多幅2D图像的形式和/或作为图像数据加上深度数据。绘制设备可以动态地处理三维数据，以在这些视图位置/方向改变时生成不同视图位置/方向的图像。绘制设备可以动态地执行例如视点移位或投影以动态地跟随用户移动。

关于例如沉浸式视频的问题在于，观看空间是有限的，观看空间是其中观看者具有足够质量的体验的空间。随着观看者移动到观看空间之外，由合成视图图像引起的退化和误差变得越来越显著，并且可能导致不可接受的用户体验。由于所提供的3D视频数据没有为视图合成提供足够的信息(例如去遮挡数据)，所生成的视图图像中的误差、伪影和不准确度可能具体地发生。

例如，通常当多个相机被用于捕获场景的3D表示时，虚拟现实耳机上的回放往往在空间上限于靠近于原始相机位置的虚拟视点。这确保了虚拟视点的绘制质量不示出伪影，该伪影通常是缺失信息(遮挡数据)或3D估计误差的结果。

在所谓的甜点观看区内部，可以使用与视图混合组合的标准纹理映射，直接从一个或多个具有相关联的深度图或网格的参考相机图像进行绘制。

在甜点观看区之外，图像质量降低，并且常常达到不可接受的程度。在当前应用中，这可以通过向观看者呈现不能足够准确地绘制的场景的部分的模糊图片或甚至黑色图片来解决。然而，这样的方法往往是次优的，并且往往提供次优的用户体验。EP 3 422711A1公开了绘制系统的示例，其中，引入模糊以使用户偏离场景的未由场景的不完整表示所表示的部分。

因此，改进的方法将是有利的。特别地，允许改进的操作、增加的灵活性、改进的沉浸式用户体验、降低的复杂性、便利的实施方式、增加的感知合成图像质量、改进的绘制、增加的(可能虚拟的)用户移动自由度、改进的用户体验和/或改进的性能和/或操作的方法将是有利的。

发明内容

因此，本发明试图优选地单独地或以任何组合来缓解、减轻或消除上文所提到的缺点中的一个或多个。

根据本发明的一方面，提供了一种装置，包括：第一接收器，其被布置为接收针对真实世界场景的捕获视频数据，所述视频数据与捕获姿势区域链接；存储设备，其被布置为存储所述真实世界场景的至少部分的三维网格模型；第二接收器，其被布置为接收观看姿势；绘制器，其被布置为生成针对所述观看姿势的视口的输出图像；其中，所述绘制器包括：第一电路，其被布置为通过将捕获视频数据投影到所述观看姿势来生成针对所述输出图像的至少部分的针对所述视口的第一图像数据；第二电路，其被布置为根据所述三维网格模型来生成针对所述输出图像的至少第一区域的针对输出视口的第二图像数据；第三电路，其被布置为生成所述输出图像以包括所述第一图像数据中的至少一些并且包括针对所述第一区域的所述第二图像数据；以及第四电路，其被布置为根据所述观看姿势相对于所述捕获姿势区域的偏差来确定所述第一区域。

在许多实施例和情形中，本发明可以提供改进的用户体验。对于许多应用，其可以允许图像质量与移动自由度之间的改进的权衡。所述方法在许多情况下可以提供更沉浸式的用户体验，并且可以高度适合于沉浸式视频应用。所述方法可以减小针对不同观看姿势的感知质量退化。所述方法可以例如向用户提供针对位置和/或取向的更大变化范围的改进的体验。在许多实施例中，所述方法可以提供对真实世界场景的捕获的降低的要求。例如，可以使用更少的相机。可以降低对捕获多少场景的要求。在许多实施例中，所述方法可以降低数据通信要求，并且例如可以允许较低滞后交互式服务。

所述方法例如可以允许改进的沉浸式视频体验。

姿势可以是位置和/或取向。姿势区域可以是连续的一组姿势。所述捕获姿势区域可以是以下区域：针对其，捕获视频数据提供允许生成具有满足质量准则的质量的图像数据的数据。所述输出图像可以是图像序列的图像，并且可以具体地是视频序列的帧/图像。

所述三维网格模型还可以包括至少一个像素图，所述像素图具有链接到所述三维网格模型的三维网格的顶点的像素值。

根据本发明的任选特征，所述绘制器被布置为：将所述第一区域确定为由所述第一电路生成的第一图像数据的质量不满足质量准则的区域。

在一些实施例中，所述绘制器被布置为：确定包括所述第一图像数据的中间图像；将所述第一区域确定为所述中间图像的图像数据的质量不满足质量准则的区域。

在许多实施例中，这可以提供改进的和/或便利的操作。它可以提供用于确定所述第一区域的特别有效的方法，所述方法可以特别适合于提供有吸引力的用户体验。

根据本发明的任选特征，所述第三电路被布置为根据所述观看姿势与所述捕获姿势区域之间的差异来确定所述第一区域。

在许多实施例中，所述第三电路可以被布置为根据所述观看姿势与所述捕获姿势区域之间的距离来确定所述第一区域。所述距离可以根据适合的距离度量来确定。所述距离度量可以反映所述观看姿势相对于所述捕获姿势区域的位置和/或取向上的距离。

根据本发明的任选特征，所述差异是角度差异。

在许多实施例中，这可以提供改进的和/或便利的操作。

根据本发明的任选特征，所述绘制器被布置为根据捕获视频数据来调整所述第二图像数据。

在许多实施例中，这可以提供改进的用户体验。在许多情形中，它可以提供要生成的更一致和相干的输出图像，并且可以降低根据视频数据生成的输出图像的部分与根据所述三维网格模型生成的输出图像的部分之间的差异的感知可见性。

根据本发明的任选特征，所述绘制器被布置为根据所述三维网格模型来调整所述第一数据。

根据本发明的任选特征，所述绘制器被布置为根据所述第一图像数据来调整所述第二图像数据。

根据本发明的任选特征，所述绘制器被布置为根据所述第二图像数据来调整所述第一图像数据。

根据本发明的任选特征，所述绘制器被布置为根据所述第一图像数据来调整所述三维网格模型。

根据本发明的任选特征，所述装置还包括模型生成器，所述模型生成器用于根据捕获视频数据来生成所述三维网格模型。

在许多实施例中，这可以提供改进的操作和/或便利的实施方式。

根据本发明的任选特征，所述第一接收器被布置为从远程源接收所述视频数据；并且还从所述远程源接收所述三维网格模型。

根据本发明的任选特征，所述第二电路被布置为根据所述观看姿势相对于捕获区的偏差来改变针对所述第一区域的细节水平。

这在许多实施例中可以提供进一步改进的用户体验，并且可以提供对观看者姿势变化的改进的感知适应。

根据本发明的任选特征，所述第一接收器还被布置为接收针对所述真实世界场景的第二捕获视频数据，所述第二捕获视频数据与第二捕获姿势区域链接；并且其中，所述第一电路还被布置为通过将所述第二捕获视频数据投影到所述观看姿势来确定针对所述输出图像的至少部分的第三图像数据；并且所述第三电路被布置为根据所述观看姿势相对于所述第二捕获姿势区域的偏差来确定所述第一区域。

在许多情形和实施例中，这可以提供增强的用户体验。

根据本发明的一方面，一种方法包括：

接收针对真实世界场景的捕获视频数据，所述视频数据与捕获姿势区域链接；存储所述真实世界场景的至少部分的三维网格模型；接收观看姿势；生成针对所述观看姿势的视口的输出图像；其中，生成所述输出图像包括：通过将捕获视频数据投影到所述观看姿势来生成针对所述输出图像的至少部分的针对所述视口的第一图像数据；根据所述三维网格模型来生成针对所述输出图像的至少第一区域的针对输出视口的第二图像数据；生成所述输出图像以包括所述第一图像数据中的至少一些并且包括针对所述第一区域的所述第二图像数据；并且根据所述观看姿势相对于所述捕获姿势区域的偏差来确定所述第一区域。

本发明的这些和其他方面、特征和优点将根据在下文中所描述的(一个或多个)实施例而显而易见并且将参考在下文中所描述的(一个或多个)实施例得到阐述。

附图说明

将参考附图仅通过示例的方式描述本发明的实施例，其中：

图1图示了根据本发明的一些实施例的视频分布系统的元件的示例。

图2图示了3D场景的捕获的示例；

图3图示了可以针对特定观看姿势生成的视图的示例；

图4图示了可以针对特定观看姿势生成的视图的示例；

图5图示了可以针对特定观看姿势生成的视图的示例；

图6图示了根据本发明的一些实施例的视频绘制设备的元件的示例。

图7图示了可以针对特定观看姿势生成的视图的示例；

图8图示了可以针对特定观看姿势生成的视图的示例；

图9图示了使用两组捕获相机捕获3D场景的示例。

具体实施方式

以下描述将集中于沉浸式视频应用，但是将意识到，所描述的原理和概念可以用于许多其他应用和实施例。

在许多方法中，沉浸式视频可以由例如不使用任何远程视频服务器、或甚至不具有对任何远程视频服务器的任何访问权的独立设备本地提供给观看者。然而，在其他应用中，沉浸式应用可以基于从远程或中央服务器接收的数据。例如，视频数据可以从远程中央服务器提供给视频绘制设备，并且可以被本地处理以生成期望的沉浸式视频体验。

图1图示了沉浸式视频系统的这样的示例，其中，视频绘制设备101例如经由诸如互联网的网络105与移除沉浸式视频服务器103联络。服务器103可以被布置为同时支持潜在大量的客户端视频绘制设备101。

沉浸式视频服务器103可以例如通过发送描述真实世界场景的三维视频数据来支持沉浸式视频体验。数据可以特别地描述场景的视觉特征和几何性质，该视觉特征和几何性质由一组(可能3D)相机对真实世界的实时捕获生成。

例如，如图2所示，一组相机可以以适合的捕获配置(例如，成行)个体偏移地布置，并且可以各自捕获场景203的图像。捕获数据可以被用于生成3D视频数据流，其可以从沉浸式视频服务器103发送到远程视频绘制设备。

3D视频数据可以例如是视频流，并且可以例如直接包括来自多个相机的捕获图像和/或可以例如包括经处理的数据，诸如根据捕获图像生成的图像加上深度数据。将意识到，用于生成3D视频数据的许多技术和方法是已知的，并且可以使用任何适合的方法和3D视频数据格式/表示而不减损本发明。

沉浸式视频绘制设备101被布置为接收并处理接收到的3D视频数据以生成动态地反映用户姿势的变化的输出视频流，从而提供所呈现的视图适应于观看/用户姿势/放置变化的沉浸式视频体验。

在本领域中，术语放置和姿势被用作位置和/或方向/取向的常用术语。例如，对象、相机、头部或视图的位置和方向/取向的组合可以被称为姿势或放置。因此，放置或姿势指示可以包括六个值/分量/自由度，其中，每个值/分量通常描述对应对象的位置/定位或取向/方向的个体性质。当然，在许多情况下，可以利用更少的分量来考虑或表示放置或姿势，例如，如果一个或多个分量被认为是固定的或不相关的(例如，如果所有对象被认为处于相同的高度并具有水平取向，则四个分量可以提供对象的姿势的完整表示)。在以下中，术语姿势被用于指代可以由一至六个值(对应于最大可能的自由度)表示的位置和/或取向。术语姿势可以由术语放置替换。术语姿势可以由术语位置和/或取向替换。术语姿势可以由术语位置和取向(如果姿势提供位置和取向两者的信息)、由术语位置(如果姿势提供(可能仅)位置的信息)或由取向(如果姿势提供(可能仅)取向的信息)替换。

所生成的视图图像的质量将取决于可用于视图合成操作的图像和深度信息。其还取决于所要求的重新投影和视图移位的数量。

例如，视图移位通常导致在例如用于视图移位的主图像中可能不可见的图像的部分的去遮挡。如果来自其他图像的数据已经捕获到去遮挡对象，则这样的孔可能由这些数据填充，但是通常还可能的是，针对新视点被去遮挡的图像部分也从其他源视图中缺失。在该情况下，视图合成需要基于例如周围数据来估计数据。去遮挡过程固有地倾向于引入不准确度、伪影和误差的过程。此外，这往往随着视图移位量而增加，并且特别地在视图合成期间缺失数据(孔)的可能性随着与图像的捕获姿势的距离增加而增加。

可能的失真的另一来源可能是不完美的深度信息。深度信息常常由深度图提供，其中，深度值已经通过深度估计(例如通过源图像之间的差异估计)或测量结果(例如测距)生成，这是不完美的，并且因此深度值可能包括误差和不准确度。视图移位基于深度信息，并且不完美的深度信息导致(一幅或多幅)合成图像中的误差或不准确度。合成视点距原始相机视点越远，合成目标视图图像中的失真越严重。

因此，随着观看姿势移动得越来越远离捕获姿势，合成图像的质量将倾向于退化。如果观看姿势距捕获姿势足够远，则图像质量降低到不可接受的程度，并且可能体验不佳的用户体验。

图3-5图示了与移动远离捕获姿势相关联的问题。图3图示了示例，其中，合成视口与捕获相机的视口紧密对准，并且因此可以使用基于深度图像的绘制与得到的高质量图像从捕获相机预测针对观看姿势视口的特定图像。相反，在图4和图5的示例中，观看姿势与捕获姿势的不同之处在于视口的角度方向与捕获视口不同。如图所示，角度观看方向的变化导致没有为图像的大的部分(在图像的右侧或左侧的示例中)提供适合的图像数据。此外，将信息从图像数据外推到未知区中可以提供一些改进的感知，但如图所示，可能导致非常可观的退化和失真，并且导致场景的不现实的表示。

观看姿势可能通过位置和/或视角的偏差而与捕获姿势不同，并且这些偏差的效果可能不同。位置的改变，诸如平移，可能倾向于增加前景对象后面的去遮挡区，并且可能由于3D(深度/几何结构)估计不确定性而增加视图合成的不可靠性。旋转离开捕获相机角度的视点的角度变化可能导致例如没有图像数据可用于新视口的大的区(如图4和图5所示)。

上述问题可能导致不佳的沉浸式效果，因为显示器的完整视场(例如常常典型地110度)被填充，并且头部旋转不引入新内容。而且，空间背景经常缺失，并且当图像模糊或否则低质量时，导航可能更困难。已经提出了多种不同的方法来解决这些问题，但这些方法往往是次优的，并且特别地不期望地限制用户移动或引入不期望的用户效果。

图6图示了视频绘制装置/系统/设备，其可以提供在许多情形中可以实现更期望的用户体验的性能和方法。装置可以特别地是图1的视频绘制设备101。

视频绘制设备包括第一接收器601，该第一接收器被布置为接收针对真实世界场景的捕获视频数据。在示例中，视频数据由视频服务器103提供。

视频数据是真实世界场景的捕获视频数据，并且通常可以是根据由相对于彼此偏移的多个相机对场景的捕获所生成的三维视频数据。视频数据可以例如是来自不同相机的多个视频流，或者可以例如是与深度信息一起的针对一个或多个捕获位置的视频数据。将意识到，用于捕获真实世界场景的视频数据、用于生成表示捕获的(三维)视频数据以及用于传递/分布视频数据的许多不同方法是已知的，并且可以使用任何适合的方法而不减损本发明。

在许多实施例中，3D视频数据可以包括多视图图像，并且因此可以包括来自不同视点的场景的多幅(同时)图像。在许多实施例中，3D视频数据可以采取图像和深度图表示的形式，其中，图像/帧连同相关联的深度图一起被提供。3D图像数据可以特别地是多视图加上深度表示，其针对每个帧包括来自不同视点的至少两幅图像，其中，图像中的至少一幅具有相关联的深度图。将意识到，如果接收到的数据例如是不具有显式深度图的多视图数据表示，则可以使用适合的深度估计算法来生成深度图，诸如特别地使用多视图表示的不同图像的基于差异估计的方法。

在特定示例中，第一接收器601可以使用多幅同时的图像和(一个或多个)深度图(其此后也将被称为源图像和源深度图)的序列来接收描述3D场景的MVD(多视图和深度)视频数据。将意识到，对于视频流，可以提供这样的3D图像的时间序列。

接收到的视频数据被链接到捕获姿势区域，该捕获姿势区域通常是场景中在(一个或多个)捕获姿势近侧的区域，并且通常是包括捕获姿势的区域。捕获姿势区域可以是表示捕获姿势和/或观看姿势的一个、多个或所有参数的间隔的范围。例如，如果姿势由二维位置表示，则捕获姿势区域可以由对应的两个位置的范围表示，即，作为二维区。在其他实施例中，姿势可以由六个参数表示，诸如通常三个位置参数和三个取向参数，并且捕获姿势区域可以由对六个参数的限制给出，即姿势和捕获姿势区域的完整6DoF表示。

在一些示例中，捕获姿势区域可以是与对应于所提供的捕获视频数据的视口(视图位置和取向)的单个姿势相对应的单个捕获姿势。捕获姿势区域可以是指示/包括场景已经被捕获的一个或多个姿势的一组姿势。

在一些实施例中，捕获姿势区域可以直接从视频数据的源提供，并且它可以特别地包括在接收到的视频数据流中。在一些实施例中，它可以特别地被提供为视频数据流的元数据。在图2的示例中，视频数据可以基于位于可以被传递到视频绘制设备101的捕获姿势区域205内的一行相机205来提供。

在一些实施例中，视频绘制设备可以被布置为直接使用如接收到的捕获姿势区域。在其他实施例中，视频绘制设备可以被布置为修改捕获姿势区域或者其自身可以生成捕获姿势区域。

例如，在一些实施例中，接收到的数据可以仅包括对应于给定捕获姿势的视频数据，但不指示捕获姿势本身、任何扩展区域或图像数据对于除给定捕获姿势之外的其他姿势的观看合成多么适合。在这样的情况下，接收器601可以例如前进到基于接收到的捕获姿势来生成捕获姿势区域。例如，可以考虑所提供的视频数据被链接到参考姿势，并且因此对于该参考姿势，可以直接绘制视频数据而没有任何视图移位或投影。然后可以相对于该参考姿势测量所有姿势，并且可以将捕获姿势区域确定为参考姿势，或者例如确定为以参考姿势为中心的预定区域。当用户移动时，可以相对于该参考姿势来表示/测量观看姿势。

在一些实施例中，捕获姿势区域可以简单地被认为对应于单个姿势，诸如例如接收到的视频数据的姿势。在其他实施例中，接收器401可以前进到生成扩展的捕获姿势区域，例如通过执行作为到捕获姿势的差异或距离的函数的质量退化的评价。例如，对于偏离捕获姿势不同量的各种测试姿势，第一接收器601可以评价对应视口的多大比例由图像数据覆盖以及多大比例对应于例如去遮挡区/对象或者例如由于视口在未由捕获相机覆盖的场景的部分上延伸而没有提供数据的区/对象。捕获姿势区域可以例如被确定为6维区域，其中，未由图像数据覆盖的对应视口的比例小于给定阈值。将意识到，用于评价作为捕获姿势与观看姿势之间的偏差的函数的质量水平或退化的许多其他方法是可能的，并且可以使用任何适合的操作。

作为另一示例，第一接收器601可以例如将捕获姿势区域修改为包括具有到最近的捕获姿势(例如，当提供多个相机姿势时到最近的相机姿势)或者到与视频图像一起提供的接收到的捕获姿势区域的最近姿势的小于给定阈值的距离的所有姿势的区域。距离可以根据任何适合的距离度量来确定，该距离度量可能包括位置距离和角度(取向)距离两者的考虑。

将意识到，在其他实施例中，可以使用用于确定捕获姿势区域的其他方法，并且用于确定反映一组姿势的捕获姿势区域(对于该组姿势，认为可以以适合的质量生成图像)的特定方法将取决于特定实施例的要求和偏好。

图6的视频绘制装置还包括第二接收器603，其被布置为接收针对观看者(并且特别地在三维场景中)的观看姿势。观看姿势表示观看者观看场景的位置和/或取向，并且它可以特别地提供应该为其生成场景的视图的姿势。

将意识到，用于确定和提供观看姿势的许多不同方法是已知的，并且可以使用任何适合的方法。例如，第二接收器603可以被布置为从由用户穿戴的VR耳机、眼睛跟踪器等接收姿势数据。在一些实施例中，可以确定相对观看姿势(例如，可以确定从初始姿势的变化)，并且这可以与参考姿势有关，诸如例如相机姿势或捕获姿势区域的中心。

第一和第二接收器601、603可以以任何适合的方式实施，并且可以从任何适合的源接收数据，包括本地存储器、网络连接、无线电连接、数据介质等。

接收器可以被实施为一个或多个集成电路，诸如专用集成电路(ASIC)。在一些实施例中，接收器可以被实施为一个或多个编程处理单元，诸如例如在适合的(一个或多个)处理器上运行的固件或软件，该处理器诸如为中央处理单元、数字信号处理单元或微控制器等。将意识到，在这样的实施例中，处理单元可以包括板载或外部存储器、时钟驱动电路、接口电路、用户接口电路等。这样的电路还可以被实施为处理单元的部分、为集成电路和/或为分立电子电路。

第一和第二接收器601、603耦合到视图合成或投影电路或绘制器605，其被布置为根据接收到的三维视频数据生成视图帧/图像，其中，生成视图图像以表示来自观看姿势的三维场景的视图。因此，绘制器605根据接收到的视频数据和观看姿势生成针对3D场景的视图图像/帧的视频流。在以下中，将参考单幅图像的生成来描述绘制器605的操作。然而，将意识到，在许多实施例中，图像可以是图像的序列的部分，并且特别地可以是视频序列的帧。实际上，所描述的方法可以应用于输出视频序列的多个帧/图像，并且常常地所有帧/图像。

将意识到，常常可以生成包括针对右眼的视频序列和针对左眼的视频序列的立体视频序列。因此，如果图像被呈现给用户，例如经由AR/VR耳机，则看起来会好像从观看姿势看到3D场景一样。

绘制器605通常被布置为基于深度信息执行接收到的视频图像的视图移位或投影。这通常将包括诸如移位像素(改变像素位置以反映对应于视差变化的适当的差异)、去遮挡(通常基于来自其他图像的填充)、组合来自不同图像的像素等的技术，如对本领域技术人员来说将已知的。

将意识到，许多算法和方法已知用于合成图像，并且任何适合的方法可以由绘制器605使用。

因此，图像合成设备可以生成针对场景的视图图像/视频。此外，由于观看姿势可以动态地改变，对应于用户在场景中四处移动，因此可以连续更新场景的视图以反映观看姿势的变化。对于静态场景，可以使用相同的源视图图像来生成输出视图图像，但是对于视频应用，可以使用不同的源图像来生成不同的视图图像，例如，可以为每幅输出图像接收新的一组源图像和深度。因此，处理可以是基于帧的。

绘制器605被布置为从针对观看姿势的侧向移动的不同角度生成场景的视图。如果观看姿势改变使得其在不同的方向/取向上，则绘制器605被布置为从不同的角度生成三维场景对象的视图。因此，随着观看姿势改变，场景对象可以被感知为静态的，并且在场景中具有固定的取向。观看者可以有效地从不同的方向移动和看到对象。

视图合成电路205可以以任何适合的方式实施，包括作为一个或多个集成电路，诸如专用集成电路(ASIC)。在一些实施例中，接收器可以被实施为一个或多个编程处理单元，诸如例如在(一个或多个)适合的处理器上运行的固件或软件，诸如中央处理单元、数字信号处理单元或微控制器等。将意识到，在这样的实施例中，处理单元可以包括板载或外部存储器、时钟驱动电路、接口电路、用户接口电路等。这样的电路还可以被实施为处理单元的部分、为集成电路和/或为分立电子电路。

如先前所提到的，关于视图合成的问题在于，质量随着视图被合成的观看姿势与所提供的场景视频数据的捕获姿势越来越不同而降低。实际上，如果观看姿势移动得离捕获姿势区域太远，则生成的图像可能是不可接受的，具有实质性伪影和误差。

视频绘制设备还包括用于存储真实世界场景的至少部分的三维网格模型的存储设备615。

网格模型提供了场景的至少部分的三维描述。网格模型可以包括由生成面的边互连的一组顶点。网格模型可以提供大量的例如三角形或矩形面，从而提供了场景的元素的三维表示。通常，网格例如通过顶点的三维位置来描述。

在许多实施例中，网格模型还可以包括纹理数据，并且可以提供指示针对网格的面的纹理的针对网格的纹理信息。在许多实施例中，三维网格模型可以包括至少一个像素图，其具有链接到三维网格模型的三维网格的顶点的像素值。

真实世界场景的网格模型可以提供场景的三维信息的准确而实际的表示，该三维信息在视频绘制设备中用于提供针对与捕获姿势区域很大程度上不同的观看姿势的改进的图像数据。

在许多实施例中，网格模型可以提供场景的静态表示，并且在许多实施例中，视频信号可以提供场景的动态(通常实时)表示。

例如，场景可以是足球场或体育场，并且可以生成模型来表示场景的永久部分，诸如球场、球门、边线、看台等。所提供的视频数据可以是特定游戏的捕获，并且将包括诸如玩家、教练、观众等的动态元素。

绘制器605包括第一电路607，该第一电路被布置为通过将接收到的捕获视频数据投影到观看姿势来确定针对输出图像的至少部分的图像数据。因此，第一电路607被布置为根据接收到的视频数据生成针对当前观看姿势的视口的图像数据。第一电路607可以应用任何适合的视图移位和重新投影处理来生成针对观看姿势的视口的图像数据，并且可以特别地生成对应于当前视口(作为针对当前观看姿势的视口)的全部或部分中间图像。投影/视图移位可以来自视频数据的(一个或多个)捕获姿势，诸如特别地可以是从一个或多个捕获相机的捕获姿势到当前观看姿势的投影。如先前所提到的，可以使用任何适合的方法，包括用于视差移位、去遮挡等的技术。

绘制器605还包括第二电路609，该第二电路被布置为响应于三维网格模型而确定针对至少第一区域的输出视口的第二图像数据。因此，第二电路609被布置为根据存储的网格模型生成针对当前观看姿势的视口的图像数据，该网格模型包括通常考虑的纹理信息。第二电路609可以应用用于根据网格模型生成针对给定视图姿势的图像数据的任何适合的方法，包括采用用于根据观看者姿势将顶点映射到输出图像中的图像位置，基于顶点位置和纹理填充区等的技术。第二电路609可以特别地生成对应于针对当前观看姿势的视口的第二中间图像。第二中间图像可以是部分图像，并且可以包括针对视口的仅一个或多个区域的图像数据。

将意识到，已知从三维数据(包括从捕获视频数据和从三维网格模型)合成图像数据的许多不同的方法、算法和技术，并且可以使用任何适合的方法和算法而不减损本发明。

适当的视图合成算法的示例可以例如在以下中找到：

“A review on image-based rendering”

Yuan HANG,Guo-Ping ANG

Virtual Reality&Intelligent Hardware，2019年2月第1期第1卷，第39-54页

https://doi.org/10.3724/SP.J.2096-5796.2018.0004

或者

“AReview of Image-Based Rendering Techniques”

Shum；Kang

Proceedings of SPIE-The International Society for Optical Engineering4067:2-13,2000年5月

DOI:10.1117/12.386541

或例如在关于3D绘制的维基百科文章中：

https://en.wikipedia.org/wiki/3D_rendering。

因此，绘制器605可以以两种单独的方式生成针对当前视点的图像数据，即一种基于接收到的视频数据，并且一种基于存储的网格模型。

绘制器605还包括第三电路611，该第三电路被布置为生成输出图像以包括第一图像数据和第二图像数据两者。特别地，对于至少第一区域，生成输出图像以包括根据网格模型生成的第二图像数据，并且对于第一区域之外的输出图像的至少部分，生成输出图像以包括根据视频信号生成的第一图像数据。

在许多情形中，生成输出图像以包括针对其中所得的图像质量被认为足够高的所有区的第一图像数据，并且第二图像数据被包括以针对图像质量未被认为足够高的区。

绘制器605包括第四电路613，该第四电路被布置为确定输出图像的一个或多个区域，第二图像数据应被用于该一个或多个区域，即，针对该一个或多个区域，根据网格模型而不是根据视频数据生成的图像数据应包括在输出图像中。第四电路613被布置为响应于观看姿势相对于捕获姿势区域的偏差而确定第一这样的区域。因此，绘制器605可以被布置为确定输出图像的区域，其中，基于视频的图像数据由基于模型的图像数据替换，其中，区域取决于观看姿势以及其与捕获姿势区域如何不同。

在一些实施例中，第四电路613可以被布置为根据观看姿势与捕获姿势区域之间的差异来确定第一区域。例如，如果这些之间的距离(根据适合的距离度量)小于给定阈值，则不定义区域，即，根据接收到的视频数据生成整个输出图像。然而，如果距离大于阈值，则第四电路613可以确定被认为可能具有不足质量的区域，并且可以控制第二电路609以将第二图像数据用于该区域。例如，可以基于变化的方向(通常在6DoF空间中)来确定区域。

例如，视频绘制设备可以被布置为使用图形包并且利用在捕获导出的合成图像之后绘制到视口的图形模型对场景进行建模，使得当观看姿势与捕获姿势区域相差太大时，其数据由一个或多个区域中生成的模型替换。

作为特定示例，第四电路613可以被布置为考虑观看姿势的水平角度方向(例如反映观看者转动他/她的头部)。只要观看姿势反映了低于给定阈值角度的水平角旋转，就唯一地基于视频数据生成对应于观看姿势的视口的输出图像。然而，如果观看姿势指示角旋转高于该阈值，则第四电路613可以确定存在图像的左侧或右侧的区域，其相反将由第二图像数据填充。区域是在输出图像的左侧还是右侧将取决于由观看姿势所指示的旋转方向(即，观看者是向左还是向右旋转他们的头部)，并且区域的大小可以取决于角旋转多么大。图7和图8示出了该方法可以如何改进图4和图5的图像的示例。

在观看姿势移动得距捕获姿势区域太远的情况下，合成视图的图像质量将退化。在这种情况下，用户体验通常可以通过提供在评价场景的静态图形模型时生成的数据来代替低质量或例如模糊的数据而基本上改进。这可以特别地向观看者提供他/她在场景中的位置的改进的空间背景。

应当注意，在典型的实际系统中，期望能够使用具有有限视场的捕获相机，因为它可以例如允许对于给定传感器分辨率以更高的分辨率捕获更远的对象。使用例如180度广角透镜获得相同的分辨率将要求具有非常高分辨率的传感器，这并不总是实际的，这在相机和处理硬件方面更昂贵，并且对处理和通信更需要资源。

如先前所提到的，在一些实施例中，视频绘制设备可以基于观看姿势与捕获姿势区域之间的距离来确定使用基于模型的图像数据的区域，并且特别地确定是否应当包括这样的区域。在一些实施例中，基于观看姿势与捕获姿势区域的偏差来确定区域可以基于考虑偏差对可以使用视频数据针对观看姿势合成的图像数据的质量的影响。

在一些实施例中，第一电路607可以基于接收到的视频数据从(一个或多个)适当的捕获姿势到观看姿势的投影来生成中间图像。

第四电路613然后可以前进到评价所得到的中间图像，并且可以特别地确定针对图像的不同部分/区/区域的质量度量。质量度量可以例如基于用于生成图像数据的算法或过程来确定。例如，可以通过视差移位生成的图像数据可以被分配高质量值，该高质量值还可以取决于移位多么大而分级(例如，对于远程背景，视差移位可以是零，并且因此可能对例如视差估计中的误差和噪声不敏感)。通过将其他图像数据外推到去遮挡区中而生成的图像数据可以被分配较低的质量值，该较低的质量值还可以取决于需要将数据外推多远、相邻区中的纹理变化的程度等而分级。

第四电路613然后可以评价所确定的质量度量，以确定质量不满足质量准则的一个或多个区域。简单的准则可以简单地是将区域确定为质量度量低于阈值的区。更复杂的准则可以例如包括对区域的最小大小或形状的要求。

然后，第二电路609可以前进到生成输出图像作为来自中间图像的基于视频的(合成的)图像数据和基于模型的图像数据的组合。例如，可以通过在由第四电路613确定为不具有足够图像质量的区域中由基于模型的图像数据重写基于中间视频的图像的图像数据来生成输出图像。

通常，将意识到，可以使用用于评估质量的不同方法。

例如，可以确定针对不同原因的深度质量，并且可以基于深度质量来确定要使用模型数据的(一个或多个)区域，诸如特别地，使用被认为具有低于阈值的质量的深度数据生成的图像区域。

为了明确地确定深度数据质量，(在编码器侧或解码器侧)可以计算重新投影误差。这意指来自图像数据(其特别地可以是数据的多视图集合)的视图被重新投影(使用深度)到另一已知视图，通常来自多视图集合。然后，色差度量(每个像素或在区域上平均)可以用作质量的指示。遮挡/去遮挡可能不期望地影响该误差计算。当像素的深度与翘曲深度之间的绝对差异小于阈值时，这可以通过仅累积度量中的误差来避免。这样的过程可以例如被用于识别被认为不够可靠的深度数据。当为期望的任意视点生成新图像时，由于使用这样的不可靠的深度数据而生成的区域可以由从模型生成的图像数据识别和重写。

在一些情况下，小的总扭曲误差可能不是用于任意新视点的绘制质量的充分指示。例如，当任意新视点在原始捕获视点附近，诸如在观看区的中心附近时，即使所使用的深度数据的深度质量相对低，绘制的质量通常仍将导致相对高的质量。因此，可以通过考虑深度质量和识别由不良质量深度数据产生的区域来确定区域，但是还可以受限于其他参数，诸如执行移位多么大(并且特别地受限于生成图像的视点与为图像数据定义的捕获姿势区域之间的距离)。

确定任意视点的绘制质量的另一种方式是将针对视点的合成图像的图像特征统计数据与一幅或多幅参考图像的图像特征统计数据进行比较。相关的统计数据可以例如是曲率。曲率可以直接针对颜色通道之一计算，或者可以使用局部滤波器窗口进行求和。作为备选方案，可以首先使用边缘/轮廓检测，在其之后可以计算曲率统计数据。可以在合成视图中的给定区域上计算统计数据。然后，该区域可以翘曲为一个或多个参考视图，并且与此处区域中的统计数据进行比较。由于使用了(较大的)区域，因此评价变得不太取决于确切的像素对应关系。作为诸如曲率的物理意义特征的备选方案，深度神经网络可以被用于基于多个参考视图来计算视图不变质量特征。这样的方法可以在区域中应用和评价，从而允许确定低质量的区域。

在一些情况下，所谓的“无参考”度量可以被用于评估合成视图的质量而不使用任何参考。通常训练预测图像质量的神经网络。

可以在不明确地确定观看姿势相对于捕获姿势区域之间的偏差或差异的情况下确定这样的质量度量(即，这样的确定可以在反映观看姿势偏离捕获姿势区域的质量测量结果中是间接的)。

如先前所描述的，视频绘制设备可以存储场景的网格模型，并且通常它还存储具有链接到三维网格模型的三维网格的顶点的像素值的像素图。像素图可以特别地是指示视觉性质(强度、颜色、纹理)的图，其中，映射将网格链接到反映局部视觉性质的像素图的部分。像素图可以特别地是纹理图，并且场景的模型可以是网格加上纹理模型和表示。

在一些实施例中，服务器103可以被布置为向视频绘制设备发送模型信息，并且因此第一接收器601可以被布置为从服务器103接收模型数据。在一些实施例中，模型数据可以与视频数据组合成单个数据流，并且第一接收器601可以被布置为在接收到数据时本地存储数据。在一些实施例中，可以独立于视频数据并且例如在不同的时间处和/或从不同的源接收模型数据。

在一些实施例中，视频绘制设备可以被布置为本地地生成模型，并且可以特别地被布置为根据接收到的视频数据生成模型。视频绘制设备可以特别地包括模型生成器617，该模型生成器被布置为响应于捕获视频数据来生成三维网格模型。

模型生成器617可以例如包括一些预定信息，诸如例如对场景是房间的预期(在其中有例如一些预定对象(比如球门))，并且可以被布置为通过组合和调整这些参数来生成模型。例如，可以基于接收到的视频数据来确定房间的纹理和尺寸，并且可以基于视频数据来确定房间中的预定对象的位置。

在一些实施例中，可以从接收到的多视图视频中推断(简单的)图形模型。例如，平面表面(如地板、天花板、墙壁)可以被检测并转换为图形。可以任选地从视频数据中提取伴随的纹理。这样的推理不需要在逐帧的基础上导出，而是可以随着时间而累积和改进。当呈现/绘制给观看者时，由于缺失细节，这样的相对简单的视觉元素可能不太有趣，但与没有图像或失真的图像相比较，它们可以提供更好的体验。它们常常可以保持观看者沉浸其中，并且能够在不感到迷失方向的情况下进行导航(VR)。

在一些实施例中，模型生成器可以被布置为采用对象检测技术来识别场景中存在的对象或人。这样的对象然后可以由现有的图形模型或化身来表示。对象或身体姿势可以任选地被确定并应用于图形表示。

将意识到，用于检测对象和场景特性的各种技术和方法是已知的，并且可以使用任何适合的方法而不偏离本发明。

在一些实施例中，可以从远程源提供网格模型，该远程源特别地可以是服务器103。在这样的情况下，服务器103可以例如采用上文所描述的方法中的一些。

在一些实施例中，网格模型可以是预生成的，并且可以如上所述表示场景的静态部分。例如，在捕获事件(例如足球比赛)之前，可以执行第二公共网络元件707的静态部分的专用捕获。例如，可以在场景周围移动相机以提供用于开发更准确的网格模型的图像。模型的开发还可以基于例如来自专用3D扫描器的输入和/或模型的手动调整。这样的方法可能更麻烦，但是可以提供更准确的模型。对于可以对许多用户和/或事件重新使用同一模型的事件，它可能特别有用。例如，可能投入大量努力来开发足球场的准确模型，但是这可以为数百万观看者和许多比赛/事件重新使用。

在一些实施例中，绘制器605可以被布置为根据模型处理和/或数据来调整基于视频数据的处理和/或数据。备选地或者额外地，绘制器605可以被布置为根据基于视频数据的处理和/或数据来调整模型处理和/或数据。

例如，网格模型可以定义球门的部件，诸如门柱和横杆。视频数据可以包括从当前观看姿势可见的球门的部分的数据，并且这可以由可以提供针对球门的剩余部分的数据的网格模型来补充。然而，所生成的图像数据可以被调整为使得不同的数据更紧密地匹配。例如，横杆的部分可以从视频数据生成，并且横杆的部分可以从网格模型生成。在这样的示例中，数据可以适于在这些部分之间提供更好的接口。例如，数据可以被调整为使得横杆在生成的输出图像中形成线性对象。例如，这可以通过移位针对从一个源生成的横杆的图像数据来实现，使得其与来自另一个源的横杆的图像数据对齐并具有相同的方向。绘制器605可以被布置为调整基于模型的图像数据以与接收到的基于视频的图像数据对齐，可以被布置为调整接收到的基于视频的图像数据以与基于模型的图像数据对齐，或者可以对两者进行调整使得它们彼此对齐。

在一些实施例中，调整可以直接基于生成的图像数据，但是在其他实施例中，调整可以使用适合的方法直接基于网格模型数据。类似地，在一些实施例中，视频绘制设备可以被布置为根据生成的基于视频的图像数据来调整网格模型。例如，视频绘制设备可以例如通过移动一些顶点来修改模型，而不是调整基于模型的图像数据以与基于视频的图像数据对齐，直到这导致生成与基于视频的图像数据对齐的基于模型的图像数据。

特别地，在一些实施例中，绘制器605可以被布置为响应于捕获视频数据而调整所生成的基于模型的图像数据。例如，来自基于模型的图像的颜色可能偏离实际捕获颜色。这可能归因于(动态)环境，如照明或阴影条件或模型的准确度的限制。绘制器605可以相应地修改颜色以(更紧密地)匹配捕获数据的颜色。

作为调整基于模型的图像的示例，对于两幅中间图像，即对于基于视频和基于模型的中间图像两者，可以在整个图像区上对颜色分布进行采样。随后，可以在基于模型的图像上应用使颜色分布的差异最小化的单一颜色偏移。一个改进是应用链接到颜色分布中的组件或簇的多个颜色偏移。另一个改进是对分布进行采样并将偏移应用于特定的空间视觉元素(例如表面)。

在一些实施例中，绘制器605可以被布置为响应于三维网格模型而调整所生成的基于视频的图像数据。

例如，可以修改所生成的基于视频的图像的颜色以更紧密地匹配由网格模型记录的颜色，或者可以针对线旋转基于视频的图像以更紧密地匹配由网格模型产生的颜色。

在一些实施例中，绘制器605可以被布置为响应于所生成的基于模型的图像数据而调整所生成的基于视频的图像数据。

例如，基于模型的图像数据中的线性图像结构的方向可以被用于校正基于视频的图像数据中的相同类型的结构的失真。特别地，这可以使用滤波操作来完成，该滤波操作使用如在基于模型的图像中检测到的线的取向和位置的知识。

在一些实施例中，绘制器605可以被布置为响应于所生成的基于视频的图像数据而调整所生成的基于模型的图像数据。

例如，先前提供的调整基于模型的图像的颜色的示例也可以被用于直接修改所存储的模型的颜色(例如纹理图)，从而允许对未来的图像/帧应用校正。

在一些实施例中，绘制器605可以被布置为响应于所生成的基于视频的图像数据而调整三维网格模型。

例如，用于照亮模型的光源的位置可以被修改为匹配体育场中的光照条件(但可能不使用光源位置的知识，因为这可能不可用)。作为另一示例，顶点的位置可以适于导致与基于视频的图像数据相匹配的生成的基于模型的中间图像。例如，可以针对靠近过渡的顶点的稍微变化的位置生成不同的基于模型的图像，并且可以选择导致与基于视频的图像的最接近匹配的图像(例如导致跨边缘的线的最接近对准)。网格模型中的顶点位置然后可以被修改为针对选择的图像的位置。

在一些实施例中，第二电路609被布置为响应于观看姿势与捕获区的偏差而改变针对第一区域的细节水平。特别地，对于观看姿势与捕获姿势区域之间的增加的差异，可以减少细节水平。细节水平可以例如通过对象的数目来反映，或者模型的特征被包括在生成的图像数据中。

在一些实施例中，中间图像可以逐渐地彼此混合。

在一些实施例中，第一接收器601可以被布置为接收针对第二捕获姿势区域的场景的另外的捕获视频数据。例如，如图9所示，场景可以由不同位置处的两个不同的相机装备901、903捕获。

在这样的实施例中，视频绘制设备可以将类似的方法应用于两个捕获姿势区域，并且特别地，第一电路607可以被布置为基于针对第二捕获姿势的视频数据来确定针对当前观看姿势的视口的输出图像的第三图像数据。然后可以考虑第一图像数据和第二图像数据两者来生成输出图像。例如，图像数据可以在从第一捕获姿势导出的图像数据与从第二捕获姿势导出的图像数据之间进行选择，基于该选择允许执行最佳合成。

在一些实施例中，第二电路609可以在逐图像的基础上(或者对于图像组)简单地在源之一之间进行选择。然而，在其他实施例中，可以针对不同区域或者甚至针对每个个体像素个体地执行选择。

例如，输出图像可以从来自最接近的捕获姿势区域的视频数据生成，除了这导致去遮挡之处之外。对于这些区，如果这不导致针对该区的像素的去遮挡，则可以相反从来自最远捕获姿势区域的视频数据生成图像数据。

在这样的方法中，第四电路613还可以被布置为根据相对于第一和第二捕获姿势区域两者的观看姿势的考虑来生成输出图像的第一区域，即基于网格模型填充的输出图像的区域。

作为低复杂性示例，基于网格模型的数据可以被用于当前观看姿势相对于两个捕获姿势区域被去遮挡的所有区。

在一些实施例中，场景的捕获可以来自两个或更多个不同的区域，并且可以提供链接到两个不同的捕获姿势区域的视频数据。对于给定观看姿势，视频绘制设备可以考虑针对多个不同的捕获姿势区域的偏差或差异，以便确定可以或应该基于网格模型数据生成的图像的区。

可以提供：

一种装置，包括：

第一接收器(601)，其被布置为接收针对真实世界场景的捕获视频数据，所述视频数据与捕获姿势区域链接；

存储设备(615)，其被布置为存储所述真实世界场景的至少部分的三维网格模型；

第二接收器(603)，其被布置为接收观看姿势；

绘制器(605)，其被布置为生成针对所述观看姿势的视口的输出图像；

其中，绘制器(605)包括：

第一电路(607)，其被布置为通过将捕获视频数据投影到所述观看姿势来生成针对所述输出图像的至少部分的针对所述视口的第一图像数据；

第二电路(609)，其被布置为响应于所述三维网格模型而确定针对所述输出图像的至少第一区域的针对输出视口的第二图像数据；

第三电路(611)，其被布置为生成所述输出图像以包括所述第一图像数据中的至少一些并且包括针对所述第一区域的所述第二图像数据。

这样的装置可以包括：

第四电路(613)，其被布置为响应于针对所述第一区域的第一图像数据的图像质量度量而确定所述第一区域；

第四电路(613)，其被布置为确定包括第一图像数据的中间图像；并且将第一区域确定为中间图像的图像数据的质量不满足质量准则的区域；和/或

第四电路(613)，其被布置为响应于针对第一数据的质量度量而确定第一区域。

这样的装置和/或第四电路可以不确定观看姿势相对于捕获姿势区域的偏差和/或差异。

在许多实施例中，该方法可以提供特别有吸引力的用户体验。作为示例，可以考虑由中心线处的相机装备和靠近球门的第二相机装备捕获的足球比赛。观看者可以采取靠近中心线的观看姿势，并且被呈现有高质量的比赛图像。然后，用户可以决定虚拟地移动以靠近球门，并且当到达该目的地时可以基于定位在球门附近的相机装备向用户提供比赛的高质量视频。然而，与在位置之间传输的传统方法相反，可以向用户提供位置从中心线到球门的连续变化的体验(例如，模拟用户在位置之间物理行走)。然而，由于可能没有足够的视频数据来准确地根据中心线与球门之间的位置绘制视图，因此视频数据可以针对根据模型数据绘制的图像的至少部分。在许多情形中，这可以提供比用户简单地从一个位置传输到另一个位置的传统体验改进且更沉浸式的体验。

因此，所描述的方法可以生成针对视图姿势/视口的图像。图像可以从两种基本上不同类型的数据生成，并且特别地自适应地生成以包括根据不同类型的数据生成的区域，即，一个区域从真实世界场景的捕获视频数据生成，并且另一个区域从针对真实世界场景的3D网格模型数据生成。

该方法可以在许多情形中特别地解决真实世界场景的捕获在许多情况中不完整的问题。该方法可以允许生成场景的改进的输出图像/视图和/或允许真实世界场景的减少的视频捕获。

与通过对可用数据进行外推来生成没有捕获视频数据可用的场景区域的图像的常规方法相反，所描述的方法可以使用场景的两种基本上不同的表示，并且在生成单幅图像时将这些组合。第一种类型是捕获视频数据，并且第二种类型是三维网格模型。因此，可以使用捕获视频数据和3D网格模型数据两者。特别地，网格模型数据可以被用于补充捕获视频数据，使得仍然可以呈现捕获视频数据没有提供任何信息的所生成的图像的部分。

该方法可以自适应地组合两种基本上不同类型的场景表示，以提供改进的图像质量，并且特别地，它可以允许为捕获视频数据完全没有信息的场景的视图生成图像数据。

作为示例，例如，所描述的方法可以允许为给定视点生成图像，该给定视点包括完全没有捕获视频数据的场景的部分，并且在该情况下甚至可以包括没有任何捕获数据的场景特征和对象。

所描述的方法可以提供许多有利的效果。

特别地，可以生成图像，其为更多的视图姿势并为可以实现的给定捕获情形提供真实世界场景特征的改进的视图。例如，可以显示场景的部分，其否则对于给定视图姿势将是不可能的，包括捕获视频不包含任何数据的对象的呈现。该方法确实可以促进捕获，包括允许更少的相机用于捕获，同时仍然允许以某种形式观看场景的大部分(潜在地全部)。

该方法还可以例如减少针对场景的视频数据的通信所要求的数据速率。捕获可以减少到场景的较小部分，因为用模型数据替换场景的部分可以被认为是可接受的(例如，足球场的比赛区可以由视频相机实时捕获，而体育场的上部可以由静态3D网格模型数据表示)。由于视频数据通常是动态和实时的，因此在实践中往往要求高得多的数据速率。在实践中，通过3D网格数据来表示例如体育场的上部所要求的数据速率将远低于如果它需要由视频相机捕获并由视频数据来表示。

该方法可以允许基本上改进的用户体验，包括通常增加的自由度。技术效果是可以减少由视频数据的不完整捕获引起的对移动的限制(例如与D1相比较)。

在许多情况下，该方法还可以促进实施方式和/或减少复杂性和/或减少计算负担。例如，可以实现视频捕获的减少的编码/解码，可以实现便利的绘制(基于3D网格模型的绘制通常比捕获视频的绘制更不复杂和计算密集)。

本发明可以以任何适合的形式实施，包括硬件、软件、固件或这些的任何组合。本发明可以任选地至少部分地实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何适合的方式在物理上、功能上和逻辑上实施。事实上，功能可以在单个单元中、在多个单元中或作为其他功能单元的部分来实施。这样一来，本发明可以在单个单元中实施，或者可以在物理上和功能上分布在不同的单元、电路和处理器之间。

在本申请中，对术语“响应于”、“基于”、“取决于”和“作为……的函数”之一的任何引用应被认为是对术语“响应于/基于/取决于/作为……的函数”的引用。任何术语应被认为是任何其他术语的公开，并且仅单个术语的使用应被认为是包括其他备选方案/术语的简短注释。

尽管已经结合一些实施例描述了本发明，但是本发明并不旨在限于本文所阐述的特定形式。相反，本发明的范围仅由随附的权利要求限定。此外，尽管特征可能看起来是结合特定实施例来描述的，但是本领域技术人员将认识到，所描述的实施例的各种特征可以根据本发明进行组合。在权利要求中，术语“包括”不排除存在其他元件或步骤。

此外，尽管个体地列出，但是可以通过例如单个电路、单元或处理器来实施多个模块、元件、电路或方法步骤。此外，尽管个体特征可以包括在不同的权利要求中，但是这些特征可以可能有利地组合，并且包括在不同权利要求中并不隐含特征的组合是不可行和/或有利的。而且，将特征包括在一类权利要求中并不隐含对该类别的限制，而是指示该特征在适当时同样适用于其他权利要求类别。此外，权利要求中的特征的顺序并不隐含特征必须工作的任何特定的顺序，并且特别是方法权利要求中个体步骤的顺序不隐含步骤必须以该顺序执行。相反，可以以任何适合的顺序执行步骤。另外，单数引用并不排除复数。因此，对“一”、“一个”、“第一”、“第二”等的引用并不排除多个。权利要求中的附图标记仅仅作为澄清示例而提供，不应被解释为以任何方式限制权利要求的范围。

通常，装置和方法的示例由以下实施例指示。

实施例：

1、一种装置，包括：

第二接收器(603)，其被布置为接收观看姿势；

其中，所述绘制器(605)包括：

第三电路(611)，其被布置为生成所述输出图像以包括所述第一图像数据中的至少一些并且包括针对所述第一区域的所述第二图像数据；以及

第四电路(613)，其被布置为响应于所述观看姿势相对于所述捕获姿势区域的偏差而确定所述第一区域。

2、根据权利要求1所述的装置，其中，所述绘制器(605)被布置为：

确定包括所述第一图像数据的中间图像；

将所述第一区域确定为中间图像的图像数据的质量不满足质量准则的区域。

3、根据权利要求1或2所述的装置，其中，所述第三电路(609)被布置为响应于所述观看姿势与所述捕获姿势区域之间的差异而确定所述第一区域。

4、根据权利要求3所述的装置，其中，所述差异是角度差异。

5、根据任一前述权利要求所述的装置，其中，所述绘制器(605)被布置为响应于所捕获的图像数据而调整所述第二图像数据。

6、根据任一前述权利要求所述的装置，其中，所述绘制器(605)被布置为响应于所述三维网格模型而调整所述第一数据。

7、根据任一前述权利要求所述的装置，其中，所述绘制器(605)被布置为响应于所述第一图像数据而调整所述第二图像数据。

8、根据任一前述权利要求所述的装置，其中，所述绘制器(605)被布置为响应于所述第二图像数据而调整所述第一图像数据。

9、根据任一前述权利要求所述的装置，其中，所述绘制器(605)被布置为响应于所述第一图像数据而调整所述三维网格模型。

10、根据任一前述权利要求所述的装置，还包括模型生成器(617)，所述模型生成器用于响应于捕获视频数据而生成所述三维网格模型。

11、根据任一前述权利要求所述的装置，其中，所述第一接收器(601)被布置为：从远程源(103)接收所述视频数据；并且还从所述远程源(103)接收所述三维网格模型。

12、根据任一前述权利要求所述的装置，其中，所述第二电路(609)被布置为响应于所述观看姿势相对于所述捕获区的所述偏差而改变针对所述第一区域的细节水平。

13、根据任一前述权利要求所述的装置，其中，所述第一接收器(601)还被布置为接收针对所述真实世界场景的第二捕获视频数据，所述第二捕获视频数据与第二捕获姿势区域链接；

并且其中，所述第一电路(607)还被布置为通过将所述第二捕获视频数据投影到所述观看姿势来确定针对所述输出图像的至少部分的第三图像数据；

并且所述第三电路被布置为响应于所述观看姿势相对于所述第二捕获姿势区域的偏差而确定所述第一区域。

14、一种方法，包括：

接收针对真实世界场景的捕获视频数据，所述视频数据与捕获姿势区域链接；

存储所述真实世界场景的至少部分的三维网格模型；

接收观看姿势；

生成针对所述观看姿势的视口的输出图像；

其中，生成所述输出图像包括：

通过将捕获视频数据投影到所述观看姿势来生成针对所述输出图像的至少部分的针对所述视口的第一图像数据；

响应于所述三维网格模型而确定针对所述输出图像的至少第一区域的针对输出视口的第二图像数据；

生成所述输出图像以包括所述第一图像数据中的至少一些并且包括针对所述第一区域的所述第二图像数据；并且

响应于所述观看姿势相对于所述捕获姿势区域的偏差而确定所述第一区域。

Claims

1.一种装置，包括：

第二接收器(603)，其被布置为接收观看姿势；

其中，所述绘制器(605)包括：

第二电路(609)，其被布置为根据所述三维网格模型来生成针对所述输出图像的至少第一区域的针对所述视口的第二图像数据；

第四电路(613)，其被布置为根据所述观看姿势相对于所述捕获姿势区域的偏差来确定所述第一区域。

2.根据权利要求1所述的装置，其中，所述绘制器(605)被布置为：

将所述第一区域确定为由所述第一电路(607)生成的第一图像数据的质量不满足质量准则的区域。

3.根据权利要求1或2所述的装置，其中，所述第三电路(609)被布置为根据所述观看姿势与所述捕获姿势区域之间的差异来确定所述第一区域。

4.根据权利要求3所述的装置，其中，所述差异是角度差异。

5.根据任一前述权利要求所述的装置，其中，所述绘制器(605)被布置为根据所述捕获视频数据来调整所述第二图像数据。

6.根据任一前述权利要求所述的装置，其中，所述绘制器(605)被布置为根据所述三维网格模型来调整所述第一数据。

7.根据任一前述权利要求所述的装置，其中，所述绘制器(605)被布置为根据所述第一图像数据来调整所述第二图像数据。

8.根据任一前述权利要求所述的装置，其中，所述绘制器(605)被布置为根据所述第二图像数据来调整所述第一图像数据。

9.根据任一前述权利要求所述的装置，其中，所述绘制器(605)被布置为根据所述第一图像数据来调整所述三维网格模型。

10.根据任一前述权利要求所述的装置，还包括模型生成器(617)，所述模型生成器用于根据所述捕获视频数据来生成所述三维网格模型。

11.根据任一前述权利要求所述的装置，其中，所述第一接收器(601)被布置为：从远程源(103)接收所述视频数据；并且还从所述远程源(103)接收所述三维网格模型。

12.根据任一前述权利要求所述的装置，其中，所述第二电路(609)被布置为根据所述观看姿势相对于所述捕获区的所述偏差来改变针对所述第一区域的细节水平。

13.根据任一前述权利要求所述的装置，其中，所述第一接收器(601)还被布置为接收针对所述真实世界场景的第二捕获视频数据，所述第二捕获视频数据与第二捕获姿势区域链接；

并且所述第三电路被布置为根据所述观看姿势相对于所述第二捕获姿势区域的偏差来确定所述第一区域。

14.一种方法，包括：

存储所述真实世界场景的至少部分的三维网格模型；

接收观看姿势；

生成针对所述观看姿势的视口的输出图像；

其中，生成所述输出图像包括：

根据所述三维网格模型来生成针对所述输出图像的至少第一区域的针对所述视口的第二图像数据；

根据所述观看姿势相对于所述捕获姿势区域的偏差来确定所述第一区域。

15.一种包括计算机程序代码模块的计算机程序产品，当所述程序在计算机上运行时所述计算机程序代码模块适于执行权利要求14的所有步骤。