CN113614776A

CN113614776A - 表示场景的图像信号

Info

Publication number: CN113614776A
Application number: CN202080022449.1A
Authority: CN
Inventors: B·W·D·范格斯特; B·克龙
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2019-03-19
Filing date: 2020-02-14
Publication date: 2021-11-05
Also published as: JP2022525526A; GB2596962A; WO2020187506A1; ES2883750A2; MX2021011157A; CA3133865A1; GB2596962B; DE112020001322T5; TW202046716A; US20220174259A1; ZA202107934B; EP3712843A1; BR112021018301A2; KR20210141596A; GB202114892D0; ES2883750R1; EP3942519A1; JP7462668B2

Abstract

生成图像信号包括接收表示场景的源图像的接收器(401)。组合图像生成器(403)根据所述源图像来生成组合图像。每幅组合图像源自所述源图像的至少两幅图像的仅部分。评估器(405)确定针对所述源图像元素的预测质量量度，其中，针对第一源图像元素的预测质量量度指示所述第一源图像中的像素值与针对所述元素中的像素的预测像素值之间的差异。所述预测像素值是由来自所述组合图像的像素的预测产生的像素值。确定器(407)确定所述源图像的片段，包括预测质量量度指示高于阈值的差异的元素。图像信号生成器(409)生成图像信号，所述图像信号包括表示组合图像的图像数据以及表示所述源图像的片段的图像数据。

Description

表示场景的图像信号

技术领域

本发明涉及表示场景的图像信号，并且特别地但不排他地涉及表示场景的图像信号的生成以及作为虚拟现实应用的部分而根据该图像信号来渲染图像。

背景技术

近年来，随着不断开发和引入新的服务以及利用和使用视频的方式，图像和视频应用的种类和范围已大大增加。

例如，一种越来越流行的服务是以如下的方式提供图像序列：使得观看者能够主动和动态地与系统交互以改变渲染的参数。在许多应用中，一个非常吸引人的功能是能够更改观看者的有效观看位置和观看方向的能力，例如允许观看者在呈现的场景中移动并“环顾四周”。

这样的特征可以具体地允许将虚拟现实体验提供给用户。这可以允许用户在虚拟环境中例如(相对)自由地移动，并动态地改变其位置和他所看的位置。通常，这样的虚拟现实应用基于场景的三维模型，其中该模型被动态评估以提供特定的请求视图。针对计算机和控制台，根据例如第一人称射击游戏类别的游戏应用中，这种方法是众所周知的。

尤其对于虚拟现实应用，还期望所呈现的图像是三维图像。实际上，为了优化观看者的沉浸感，通常优选的是，用户将呈现的场景体验为三维场景。实际上，虚拟现实体验应该优选地允许用户选择相对于虚拟世界的他/她自己的位置、相机视点以及时间。

通常，虚拟现实应用固有地受限于它们基于场景的预定模型，并且通常基于虚拟世界的人工模型。经常希望基于现实世界捕获来提供虚拟现实体验。但是，在许多情况下，这样的方法是受限制的，或者倾向于要求根据真实世界的捕获物来构建真实世界的虚拟模型。然后通过评估该模型来生成虚拟现实体验。

然而，许多当前的方法倾向于是次优的，并且倾向于通常具有较高的计算或通信资源要求和/或以例如降低的质量或受限的自由度提供次优的用户体验。

在许多系统中，例如特别是当基于真实世界场景时，提供场景的图像表示，其中，图像表示包括针对场景中一个或多个捕获点/视点的图像和深度。图像加深度表示提供了一种特别是真实世界场景的非常有效的表征，其中表征不仅通过捕获真实世界场景而相对容易生成，而且非常适合渲染器合成针对其他视点的视图而不是针对那些被捕获的视点的视图。例如，渲染器可以被布置为动态生成匹配当前本地观看者姿态的视图。例如，可以动态地确定观看者姿态，并且基于所提供的图像和例如深度图来动态地生成视图以匹配该观看者姿态。

然而，对于给定的图像质量，这种图像表示往往导致非常高的数据速率。为了提供对场景的良好捕获并且特别是为了解决遮挡现象，期望从彼此靠近并且覆盖大范围的位置的捕获位置来捕获场景。因此，期望相对大量的图像。此外，相机的捕获视口经常交叠，并且因此图像集倾向于包括大量冗余信息。这样的问题往往与特定的捕获配置无关，并且具体地与是否使用线性或例如圆形捕获配置无关。

因此，尽管许多传统的图像表示和格式可以在许多应用程序和服务中提供良好的性能，但它们至少在一些情况下倾向于是次优的。

因此，用于处理和生成包括场景的图像表示的图像信号的改进的方法将是有利的。特别地，允许改进操作、增加灵活性、改进虚拟现实体验、降低数据速率、提高效率、便于分发、降低复杂性、便于实施、降低存储要求、提高图像质量、改进渲染、改进用户体验、改进图像质量与数据速率之间的权衡和/或改进性能和/或操作将的系统和/或方法将是有利的。

发明内容

因此，本发明寻求单独地或以任何组合来优选地减弱、减轻或消除上述缺点中的一个或多个。

根据本发明的一个方面，提供了一种生成图像信号的装置，所述装置包括：接收器，其用于接收表示来自不同的观察姿态的场景的多幅源图像；组合图像生成器，其用于根据所述源图像来生成多幅组合图像，每幅组合图像是从所述多幅源图像中的至少两幅源图像的集合导出的，所述组合图像的每个像素表示针对射线姿态的场景，并且针对每幅组合图像的射线姿态包括至少两个不同的位置，针对像素的射线姿态表示在针对像素的观察方向和来自针对像素的观察位置的射线的姿态；评估器，其用于确定所述多幅源图像的元素的预测质量量度，针对第一源图像的元素的预测质量量度指示所述第一源图像中的针对元素中的像素的像素值与针对所述元素中的像素的预测像素值之间的差异，所述预测像素值是根据所述多幅组合图像预测所述元素中的像素而得到的像素值；确定器，其用于确定所述源图像的片段，所述片断包括预测质量量度指示高于阈值的差异的元素包括预测质量量度指示高于阈值的差异的元素；以及图像信号生成器，其用于生成图像信号，所述图像信号包括表示所述组合图像的图像数据以及表示所述源图像的所述片段的图像数据。

本发明可以提供场景的改进表示并且可以在许多实施例和场景中提供相对于图像信号的数据速率的渲染图像的改进的图像质量。在许多实施例中，可以提供更有效的场景表示，例如允许通过降低的数据速率而实现给定的质量。该方法可以提供用于渲染场景的图像的更灵活和有效的方法，并且可以允许改进对例如场景属性的适应。

在许多实施例中，所述方法可以采用适合灵活、高效和高性能虚拟现实(VR)应用的场景的图像表示。在许多实施例中，其可以允许或实现具有在图像质量和数据率之间显著改善的折衷的VR应用。在许多实施例中，它可以允许改善的感知到的图像质量和/或降低的数据率。

该方法可以适用于例如支持在接收端适应移动和头部旋转的广播视频服务。

源图像具体可以是具有相关深度信息的光强度图像，例如深度图。

该方法可以特别允许针对分别前景和背景信息优化组合图像，其中，所述片段在特别合适的情况下提供额外的数据。

图像信号生成器可以被布置为使用组合图像的比片段的编码更有效的编码。然而，片段通常可以表示组合图像的数据的相对较小的比例。

根据本发明的任选的特征，所述组合图像生成器被布置为通过来自所述多幅源图像的第一组合图像的像素的视图合成来生成所述多幅组合图像中的所述至少第一组合图像，其中，所述第一组合图像的每个像素表示针对射线姿态的场景，并且针对所述第一图像的所述射线姿态包括至少两个不同的位置。

这在许多实施例中可以提供特别有利的操作，并且可以例如允许针对观察姿态生成组合图像，在观察姿态中它们可以(通常组合地)提供场景的特别有利表示。

根据本发明的任选的特征，对于第一组合图像的至少90％的像素，垂直向量与像素叉乘向量之间的点乘是非负的，针对像素的像素叉乘向量是针对像素的射线方向与从针对不同观察姿态的中心点到针对像素的射线位置的向量之间的叉乘。

在许多实施例中，这可以提供特别有效和有利的组合图像的生成。它可以特别提供一种用于确定组合图像的低复杂度方法，所述方法通过倾向于提供朝向侧视图的偏置视图来提供对背景数据的有利表示。

根据本发明的任选的特征，所述组合图像生成器被布置为通过来自所述多幅源图像的第二组合图像的像素的视图合成来生成所述多幅组合图像中的第二组合图像，其中，第二组合图像的每个像素表示针对射线姿态的场景，并且针对所述第二图像的所述射线姿态包括至少两个不同的位置。并且其中，对于所述第二组合图像的至少90％的像素，垂直向量和像素叉乘向量之间的点乘是非正的。

在许多实施例中，这可以提供特别有效和有利的组合图像的生成。它可以特别提供一种用于确定组合图像的低复杂度方法，所述方法通过倾向于提供朝向不同侧视图的偏置视图来提供对背景数据的有利表示。

根据本发明的任选的特征，所述第一组合图像的所述射线姿态被选择为靠近包括多幅源图像的不同观察姿态的区域的边界。

这在许多实施例中可以提供有利的操作并且可以例如通过图像信号来提供改进的背景信息，从而促进和/或改进基于图像信号的视图合成。

根据本发明的任选的特征，所述第一组合图像的所述射线姿态中的每个被确定为距包括多幅源图像的不同观察姿态的区域的边界小于第一距离，所述第一距离不超过所述边界上的点之间最大内部距离的50％。

这在许多实施例中可以提供有利的操作并且可以例如通过图像信号来提供改进的背景信息，从而促进和/或改进基于图像信号的视图合成。在一些实施例中，所述第一距离不超过最大内部距离的25％或10％。

在一些实施例中，组合图像的至少一个观察姿态被确定为小于距包括所述多幅源图像的不同观察姿态的区域的边界的第一距离，所述第一距离不超过不同观察姿态中的两个观察姿态之间的最大距离的20％、10％、或者甚至5％。

在一些实施例中，所述组合图像的至少一个观察姿态被确定为距不同观察姿态的中心点至少最小距离，所述最小距离是沿着通过中心点和至少一个观察姿态的线从中心点到包括多幅源图像的不同观察姿态的区域的边界的距离的至少50％、75％或者甚至90％。

根据本发明的任选的特征，所述组合图像生成器被布置为针对所述多幅组合图像中的第一组合图像的每个像素：确定所述视图源图像中存在对应像素的每幅视图源图像中的对应像素，所述对应像素是表示与所述第一组合图像的像素相同的射线方向的像素；选择针对所述第一组合图像的所述像素的像素值作为视图源图像中的对应像素的像素值，针对所述视图源图像，所述对应像素表示针对不同观察姿态距中心点具有最大距离的射线，所述最大距离位于沿着垂直于针对所述对应像素的射线方向的第一轴的第一方向。

根据本发明的任选的特征，所述对应像素包括将每幅源图像重新采样为表示围绕所述观察姿态的视球表面的至少部分的图像表示，并且将对应像素确定为在图像表示中具有相同位置。

这可以提供对对应的像素的特别有效和准确的确定。

视球表面可以例如由等距柱状图或立方图表示来表示。视球的每个像素可以具有射线方向，并且对源图像重新采样可以包括将视球的像素值设置为射线方向相同的源图像的像素值。

根据本发明的任选的特征，所述组合图像生成器被布置为针对第二组合图像的每个像素：选择针对所述第二组合图像中的像素的像素值作为所述视图源图像中对应像素的像素值，对于所述视图源图像，对应像素表示在与所述第一方向相反的方向与中心点具有最大距离的射线。

在许多实施例中，这可以提供特别有效和有利的组合图像的生成。它可以特别提供一种用于确定组合图像的低复杂度方法，所述方法通过倾向于提供朝向侧视图的偏置视图来提供对背景数据的有利表示。此外，所述第二组合图像可以通过提供从相反方向的侧视图来补充所述第一组合图像，从而与所述第一组合图像组合以提供对场景的特别有利的表示并且特别是背景信息的表示。

根据本发明的任选的特征，所述组合图像生成器被布置为：对于第三组合图像中的每个像素：选择针对所述第三组合图像中的像素的像素值作为所述视图源图像中对应像素的像素值，对于所述视图源图像，对应像素表示在与所述第一方向距所述中心点具有最小距离的射线。

在许多实施例中，这可以提供特别有效和有利的组合图像的生成。所述第三组合图像可以通过提供场景的更正面视图来补充(一幅或多幅)所述第一(和第二)组合图像，这可以提供对场景中前景对象的改进表示。

根据本发明的任选的特征，所述组合图像生成器被布置为：对于第四组合图像中的每个像素：选择针对所述第四组合图像中的像素的像素值作为视图源图像中对应像素的像素值，对于所述视图源图像，对应像素表示针对所述对应像素在沿垂直于对应像素的射线方向的第二轴的第二方向与中心点具有最大距离的射线，所述第一轴与所述第二轴具有不同的方向。

在许多实施例中，这可以提供特别有效和有利的组合图像的生成，并且可以提供场景的改进表示。

根据本发明的任选的特征，所述组合图像生成器被布置为生成针对所述第一组合图像的原点数据，所述原点数据指示哪幅源图像是针对所述第一组合图像的每个像素的原点；并且所述图像信号生成器被布置为在所述图像信号中包括原点数据。

在许多实施例中，这可以提供特别有利的操作。

根据本发明的可选特征，所述图像信号生成器被布置为在图像信号中包括源观察姿态数据，所述源观察姿态数据指示针对所述源图像的不同观察姿态。

在许多实施例中，这可以提供特别有利的操作。

根据本发明的一个方面，提供了一种接收图像信号的装置，所述装置包括：用于接收图像信号的接收器，所述图像信号包括：多幅组合图像，每幅组合图像表示从表示来自不同观察姿态的场景的多幅源图像中的至少两幅源图像的集合导出的图像数据，组合图像的每个像素表示针对射线姿态的场景，并且针对每幅组合图像的射线姿态包括至少两个不同的位置，针对像素的射线姿态表示在针对所述像素的观察方向上并且自针对所述像素的视图位置起的射线的姿态；针对所述多幅源图像的片段的集合的图像数据，针对第一源图像的片段包括所述第一源图像的至少一个像素，对于所述至少一个像素，针对来自所述多幅组合图像的所述片段的预测的预测质量量度低于阈值；以及用于处理所述图像信号的处理器。

根据本发明的一个方面，提供了一种生成图像信号的方法，所述方法包括：接收表示来自不同的观察姿态接收的场景的多幅源图像；根据所述源图像来生成多幅组合图像，每幅组合图像是多幅源图像中的至少两幅源图像的集合导出的，组合图像的每个像素表示针对射线姿态的场景，并且针对每幅组合图像的射线姿态包括至少两个不同的位置，针对像素的射线姿态表示在针对像素的观察方向和针对像素的观察位置的射线的姿态；确定多幅源图像的元素的预测质量量度，针对第一源图像的元素的预测质量量度指示第一源图像中的针对元素中的像素的像素值与针对所述元素中的像素的预测像素值之间的差异，预测像素值是根据所述多幅组合图像预测所述元素中的像素而得到的像素值；确定所述源图像的片段，包括预测质量量度指示高于阈值的差异的元素；并且生成图像信号，所述图像信号包括表示组合图像的图像数据以及表示源图像的片段的图像数据。

根据本发明的一个方面，提供了一种处理图像信号的方法，所述方法包括：接收图像信号，所述图像信号包括：多幅组合图像，每幅组合图像表示从表示来自不同观察姿态的场景的多幅源图像中的至少两幅源图像的集合导出的图像数据，组合图像的每个像素表示针对射线姿态的场景，并且针对每幅组合图像的射线姿态包括至少两个不同的位置，针对像素的射线姿态表示在针对所述像素的观察方向上并且自针对所述像素的视图位置起的射线的姿态；针对所述多幅源图像的片段的集合的图像数据，针对第一源图像的片段包括所述第一源图像的至少一个像素，对于所述至少一个像素，针对来自所述多幅组合图像的所述片段的预测的预测质量量度低于阈值；并且对所述图像信号进行处理。

根据本发明的一个方面，提供了一种图像信号，包括：多幅组合图像，每幅组合图像表示从表示来自不同观察姿态的场景的多幅源图像中的至少两幅源图像的集合导出的图像数据，组合图像的每个像素表示针对射线姿态的场景，并且针对每幅组合图像的射线姿态包括至少两个不同的位置，针对像素的射线姿态表示在针对所述像素的观察方向上并且自针对所述像素的视图位置起的射线的姿态；针对所述多幅源图像的片段的集合的图像数据，针对第一源图像的片段包括所述第一源图像的至少一个像素，对于所述至少一个像素，针对来自所述多幅组合图像的所述片段的预测的预测质量量度低于阈值。

参考下文描述的(一个或多个)实施例，本发明的这些和其他方面、特征和优势将变得显而易见并将得以阐述。

附图说明

仅以范例的方式参考附图描述本发明的实施例，其中，

图1图示了用于提供虚拟现实体验的布置的示例；

图2图示了针对场景的捕获布置的示例；

图3图示了针对场景的捕获布置的示例；

图4图示了根据本发明一些实施例的装置的元件的示例；

图5图示了根据本发明一些实施例的装置的元件的示例；

图6图示了根据本发明的一些实施例的像素选择的示例；并且

图7图示了根据本发明的一些实施例的像素选择的示例；

图8图示了根据本发明的一些实施例生成的组合图像的射线姿态布置的元素的示例；

图9图示了根据本发明的一些实施例生成的组合图像的射线姿态布置的元素的示例；

图10图示了根据本发明的一些实施例生成的组合图像的射线姿态布置的元素的示例；

图11图示了根据本发明的一些实施例生成的组合图像的射线姿态布置的元素的示例；

图12图示了根据本发明的一些实施例生成的组合图像的射线姿态布置的元素的示例；并且

图13图示了根据本发明的一些实施例生成的组合图像的射线姿态布置的元素的示例。

具体实施方式

允许用户在虚拟世界中四处移动的虚拟体验正变得越来越流行，并且正在开发满足这些需求的服务。但是，提供有效的虚拟现实服务非常具有挑战性，特别是如果体验是基于对真实世界环境的捕获，而不是基于完全虚拟生成的人造世界的话。

在许多虚拟现实应用中，确定观众姿态输入，以反映场景中虚拟观看者的姿态。然后，虚拟现实设备/系统/应用为与观看者姿态相对应的观看者生成与场景的视图和视口相对应的一幅或多幅图像。

通常，虚拟现实应用以针对左眼和右眼的单独视图图像的形式生成三维输出。然后可以通过合适的方式将这些呈现给用户，例如通常是VR头戴套件的左右眼显示器。在其他实施例中，图像可以例如被呈现在自动立体显示器上(在这种情况下，可以针对观看者的姿态生成大量的观看图像)，或者实际上在一些实施例中，可以仅生成单个二维图像(例如，使用常规的二维显示器)。

观看者或姿态输入可以在不同应用中以不同方式确定。在许多实施例中，可以直接跟踪用户的身体运动。例如，调查用户区域的相机可以检测并跟踪用户的头部(或者甚至是眼睛)。在许多实施例中，用户可以佩戴可以由外部和/或内部器件跟踪的VR头戴套件。例如，头戴套件可以包括加速度计和陀螺仪，所述加速度计和陀螺仪提供有关头戴套件并且因此头部的移动和旋转的信息。在一些示例中，VR头戴套件可以发送信号或包括(例如视觉)识别符，其使得外部传感器能够确定VR头戴套件的移动。

在一些系统中，观看者姿态可以通过手动方式提供，例如通过用户手动控制操纵杆或类似的手动输入。例如，用户可以通过用一只手控制第一模拟操纵杆来手动在场景中四处移动虚拟观看者，并通过用另一只手手动移动第二模拟操纵杆来手动控制虚拟观看者的观看方向。

在一些应用中，可以使用手动和自动方法的组合来生成输入观看者姿态。例如，头戴套件可以跟踪头部的取向，并且场景中观看者的移动/位置可以由用户使用操纵杆来控制。

图像的生成基于虚拟世界/环境/场景的适当表示。在一些应用中，可以为场景提供完整的三维模型，并且可以通过评估该模型来确定来自特定观看者姿态的场景的视图。

在许多实际系统中，场景可以由包括图像数据的图像表示来表示。图像数据通常可以包括与一个或多个捕获或锚定姿态相关联的图像，并且具体地可以包括针对一个或多个视口的图像，其中，每个视口对应于特定姿态。可以使用包括一幅或多幅图像的图像表示，其中每幅图像表示针对给定视点姿态的给定视口的视图。针对其提供图像数据的这样的观察姿态或位置通常被称为锚定姿态或位置或捕获姿态或位置(因为图像数据通常可以对应于具有与捕获姿态相对应的位置和取向的定位在场景中的相机捕获的图像或者将是所述图像)。

许多典型的VR应用程序可以在这种图像表示的基础上继续提供与当前观看者姿态的场景的视口相对应的视图图像，图像被动态更新以反映观看者姿态的变化，并且其中，图像是基于表示(可能的)虚拟场景/环境/世界的图像数据。应用程序可以通过执行本领域技术人员已知的视图合成和视图移位算法来进行此。

在本领域中，术语放置和姿态用作针对位置和/或方向/取向的通用术语。例如对象、相机、头部或视图的位置和方向/取向的组合可以被称为姿态或放置。因此，放置或姿态指示可包括六个值/分量/自由度，其中每个值/分量通常描述相应对象的位置/定位或取向/方向的单独属性。当然，在许多情况下，放置或姿态可利用较少的分量表示，例如，如果一个或多个分量被认为是固定的或不相关的(例如，如果所有对象都被认为处于相同的高度并具有水平方向，则四个分量可以提供对象姿态的完整表示)。在下文中，术语“姿态”用于表示可以由一到六个值(对应于最大可能的自由度)表示的位置和/或取向。

许多VR应用都是基于具有最大自由度的姿态，即，每个位置和取向的三个自由度导致总共六个自由度。因此，姿态可以由表示六个自由度的六个值的集合或向量表示，因此姿态向量可以提供三维位置和/或三维方向指示。然而，将意识到，在其他实施例中，姿态可以由更少的值表示。

姿态可以是取向和位置中的至少一个。姿态值可以指示取向值和位置值中的至少一个。

基于为观看者提供最大自由度的系统或实体通常是指具有6个自由度(6DoF)。许多系统和实体仅提供方向或位置，通常将其称为具有3个自由度(3DoF)。

在一些系统中，VR应用可以由例如不使用或者甚至不能访问任何远程VR数据或处理的独立设备本地地提供给观看者。例如，诸如游戏主机的设备可以包括：用于存储场景数据的存储器，用于接收/生成观看者姿态的输入部，以及用于从场景数据生成对应图像的处理器。

在其他系统中，VR应用可以在远离观看者的地方实现和执行。例如，用户本地的设备可以检测/接收移动/姿态数据(所述移动/姿态数据被发送到处理该数据)以生成观看者姿态的远程设备。然后，远程设备可以基于描述场景的场景数据来针对观看者的姿态生成合适的观看图像。然后将观看图像传输到观看者所在的本地设备。例如，远程设备可以直接生成由本地设备直接呈现的视频流(通常是立体声/3D视频流)。因此，在这样的示例中，除了发送运动数据以及呈现接收到的视频数据之外，本地设备可以不执行任何VR处理。

在许多系统中，功能可以分布在本地设备和远程设备上。例如，本地设备可以处理接收到的输入和传感器数据以生成观看者姿态，所述观看者姿态被连续地发送到远程VR设备。然后，远程VR设备可以生成相应的视图图像，并将其发送到本地设备以用于呈现。在其他系统中，远程VR设备可能不直接生成视图图像，而是可能选择相关的场景数据并将其传输到本地设备，然后本地设备可以生成呈现的视图图像。例如，远程VR设备可以识别最近的捕获点并提取对应的场景数据(例如，来自捕获点的球面图像和深度数据)，并将其发送到本地设备。然后，本地设备可以处理接收到的场景数据，以生成针对特定当前观看姿态的图像。观看姿态通常将对应于头部姿态，并且通常可以等效地认为对观看姿态的引用对应于对头部姿态的引用。

在许多应用中，尤其是对于广播服务，源可以以独立于观看者姿态的场景的图像(包括视频)表示形式传输场景数据。例如，针对单个捕获位置的单个视球的图像表示可以被发送到多个客户端。各个客户端然后可以本地合成对应于当前观看者姿态的视图图像。

一个引起特别关注的应用是支持有限量的移动，使得所呈现的视图被更新以跟随与仅进行小头部移动和头部旋转的基本上静态的观察者相对应的小移动和旋转。例如，坐着的观看者可以转动他的头并稍微移动它，呈现的视图/图像被调整以跟随这些姿态变化。这种方法可以提供高度的和沉浸式的例如视频体验。例如，观看体育赛事的观众可能觉得他出现在竞技场的特定地点。

这种有限自由度的应用程序具有提供改进体验的优点，同时不需要从许多不同位置准确表示场景，从而显著降低捕获要求。类似地，需要提供给渲染器的数据的量可以大大减少。实际上，在许多场景中，仅需要为单个视点提供图像和通常的深度数据，其中，本地渲染器能够根据此来生成所需的视图。

该方法可能特别适用于需要通过带宽受限的通信信道将数据从源传送到目的地的应用，例如广播或客户端服务器应用。

图1图示了VR系统的这样示例，其中，远程VR客户端设备101例如经由诸如因特网的网络105与VR服务器103联络。服务器103可以被布置为同时支持潜在大量的客户端设备101。

VR服务器103可以例如通过传输包括图像数据形式的图像表示的图像信号来支持广播体验，所述像数据可以由客户端设备使用来本地合成与适当姿态相对应的视图图像。

在许多应用中，例如图1的应用，因此可能期望捕获场景并生成可以有效地包含在图像信号中的有效图像表示。然后可以将图像信号传输到各种设备，这些设备可以本地合成除捕获姿态之外的其他观察姿态的视图。为了这样做，图像表示通常可以包括深度信息，并且例如可以提供具有关联深度的图像。例如，可以使用立体捕获结合视差估计或使用距离传感器来获得深度图，并且这些深度图可以与光强度图像一起提供。

然而，这种方法的一个特殊问题是改变观察姿态可能会改变遮挡特性，从而导致在给定捕获图像中不可见的背景片段对于不同的观察姿态变得可见。

为了解决这个问题，通常使用相对大量的相机来捕获场景。图2示出了由圆形8视图相机装置捕获的示例。在该示例中，相机面向外。可以看出，不同的相机以及不同的捕获/源图像可能具有场景不同部分的可见性。例如，背景区域1仅从相机2可见。然而，也可以看出，从多个相机可以看到很多场景，因此产生了大量的冗余信息。

图3显示了相机的线性集合的示例。同样，相机提供场景不同部分的信息，例如，c1是捕获区域2的唯一相机，c3是捕获区域4的唯一相机，而c4是捕获区域3的唯一相机。同时，场景的一些部分是由多于一台相机拍摄的。例如，所有相机都捕获前景对象fg1和fg2的正面，其中一些相机提供比其他相机更好的捕获。图3示出了四个相机的示例A和两个相机的示例B。可以看出，四相机设置提供了更好的捕获，包括捕获场景的一部分(背景bg的区域4)，但当然也生成更大量的数据，包括更多的冗余数据。

多视图捕获相对于单个中心视图的缺点显然是图像数据量的增加。另一个缺点是生成的大量像素，即需要处理的并且解码器需要产生的像素率。这也需要增加回放期间视图合成的复杂性和资源使用。

在下文中，将描述使用捕获视图的更有效且冗余更少的图像表示的特定方法。它寻求保留图像数据的一些空间和时间相干性，从而使视频编码器更加高效。它降低了播放站点的比特率、像素率和视图合成的复杂性。

该表示包括多幅组合图像，每幅组合图像从两幅或更多幅源图像(其具体可以是捕获的3D图像，例如表示为图像加深度图)生成，通常仅考虑每幅源图像的部分。经组合的图像可为视图合成提供参考并提供大量场景信息。可以生成组合图像以偏向场景的更多外部视图，并且具体地偏向捕获区域的边界。在一些实施例中，还可以提供一个或多个中央组合图像。

在许多实施例中，每幅组合图像表示来自不同视图位置的视图，即每幅图像可以包括至少对应于不同视图/捕获/锚姿态的像素。具体地，组合图像的每个像素可以表示对应于针对原点/位置和方向/方向的射线，所述射线源自所述原点/位置并且瞄准所述方向/方向并结束于由针对像素的像素值表示的场景点/对象。组合图像的至少两个像素可以具有不同的射线原点/位置。例如，在一些实施例中，组合图像的像素可以被分成N组，其中组中的所有像素具有相同的射线原点/位置，但是对于各个组而言其不相同。N可以是二或更大。在一些实施例中，N可以等于行中的最大水平像素的数量(和/或组合图像中的列数)，并且实际上在一些实施例中，N可以等于像素数，即所有像素都可能具有唯一的射线原点/姿态。

因此，像素的射线姿态可以表示针对原点/位置与由像素表示的场景点之间的射线的原点/位置、和/或取向/方向。原点/位置具体可以是像素的视图位置，并且取向/方向可以是像素的观察方向。它可以有效地表示针对所述像素在射线方向上在射线位置处将被捕获的光射线，并且从而反射像素值所表示的射线。

每个像素因此可以表示从观察方向上的视图位置看到的场景。视图位置和观察方向相应地定义了射线。每个像素可以具有来自针对像素的观察位置和针对像素的观察方向的相关联的观察射线。每个像素表示针对(视图)射线姿态的场景，射线姿态是来自针对像素的视点/位置并且针对观察方向的射线的姿态。像素可以具体表示视图射线与场景对象(包括背景)相交的场景点(场景中的点)。像素可以表示从场景点到观察位置并在观察方向上的光射线。观察射线可以是从观察位置在与场景点相交的方向上的射线。

此外，组合图像由已被识别为未从组合图像充分好地预测的捕获视图的片段或片段补充。因此，定义并包括许多并且通常相对较多的、通常较小的片段以具体表示所捕获图像的个体部分，所述个体部分可以提供关于未由组合图像充分表示的场景的元素的信息。

该表示的优点是可以向要传输的图像数据的不同部分提供不同的编码。例如，可以对组合图像应用高效和复杂的编码和压缩，因为这将趋向于构成图像信号的最大部分，而效率较低的编码通常可以应用于片段。此外，可以生成非常适合高效编码的组合图像，例如通过被生成为类似于常规图像，从而允许使用高效的图像编码方法。相比之下，根据图像的特定特性，片段的属性可能变化更大，并且因此可能更难以高效编码。然而，这不是问题，因为这些段往往提供更少的图像数据。

图4图示了用于生成图像信号的设备的示例，所述图像信号包括来自如上所述的不同源观察姿态(锚点姿态)的场景的多幅源图像的表示。该装置也将被称为图像信号发送器400。图像信号发送器400可以例如被包括在图1的VR服务器103中。

图5图示了用于基于接收到的包括场景的多幅图像的表示的图像信号来呈现视图图像的装置的示例。该装置可以具体地接收由图4的装置生成的图像数据信号并且继续处理它以便针对特定观察姿态渲染图像。图5的装置也将被称为图像信号接收器500。图像信号接收器500可以例如被包括在图1的客户端设备101中。

图像信号发送器400包括图像源接收器401，其被布置为接收场景的多幅源图像。源图像可以表示来自不同观察姿态的场景视图。源图像通常可以是捕获到的图像，例如由相机装备中的相机捕获到的。源图像可以例如包括来自一排等距捕获相机或来自一圈相机的图像。

在许多实施例中，源图像可以是包括具有相关联深度信息的2D图像的3D图像。2D图像具体可以是来自对应的捕获姿态的场景视口的视图图像，并且2D图像可以伴随有深度图像或包括针对2D图像的每个像素的深度值的图。2D图像可以是纹理图。2D图像可以是光强度图像。

深度值例如可以是视差值或距离值，例如由z坐标指示。在一些实施例中，源图像可以是具有相关联的3D网格的纹理图形式的3D图像。在一些实施例中，这样的纹理图和网格表示可以在由图像信号发送器400进一步处理之前由图像源接收器转换成图像加深度表示。

图像源接收器401相应地接收表征和表示来自不同源观察姿态的场景的多幅源图像。这样的一组源图像将允许使用诸如本领域技术人员已知的视图移位之类的算法来针对其他姿态生成视图图像。因此，图像信号发送器400被布置为生成包括源图像的图像数据的图像信号并将该数据发送到远程设备用于本地渲染。然而，直接发送所有源图像将需要不可行的高数据速率并且将包含大量冗余信息。图像信号发送器400被布置为通过使用如前所述的图像表示来降低数据速率。

具体地，输入源接收器401被耦合到组合图像生成器403，组合图像生成器403被布置为生成多幅组合图像。组合图像包括从多幅源图像导出的信息。在不同的实施例中，用于导出组合图像的确切方法可能不同，稍后将更详细地描述具体示例。在一些实施例中，组合图像可以通过选择来自不同源图像的像素来生成。在其他实施例中，组合图像可以替代地或额外地通过来自源图像的视图合成来生成组合图像中的一幅或多幅。

然而，尽管每幅组合图像包括来自至少两个并且通常更多源图像的贡献，但通常对于每幅组合图像仅考虑个体源图像的部分。因此，对于用于生成给定组合图像的每幅源图像，有一些像素被排除/丢弃。因此，为特定组合图像生成的像素值不依赖于这些像素的像素值。

可以生成组合图像，使得每幅图像不仅代表一个视图/捕获/锚位置，而是代表两个或更多个视图/捕获/锚位置。具体地，针对一幅组合图像中至少一些像素的射线原点/位置将不同，并且因此一幅组合图像可以表示来自不同方向的场景视图。

组合图像生成器403可以因此被布置为根据源图像来生成多幅组合图像，其中，每幅组合图像从至少两幅源图像的集合导出，并且其中，第一组合图像的导出通常仅包括这些至少两幅源图像中的每幅图像的一部分。此外，给定组合图像的每个像素表示射线姿态的场景，并且针对每幅组合图像的射线姿态可以包括至少两个不同的位置。

组合图像生成器403被耦合到评估器405，评估器405被馈送组合图像和源图像。评估器405被布置为确定针对源图像的元素的预测质量量度。元素可以是个体像素并且评估器405可以被布置为确定针对每幅源图像的每个像素的预测质量量度。在其他实施例中，元素可以包括多个像素并且每个元素可以是一组像素。例如，可以为例如4x4或16x16像素块的块来确定预测质量量度。这可以降低被确定的段或片段的粒度，但是可以显著降低处理复杂性和资源使用。

生成针对给定元素的预测质量量度以指示针对元素中的像素的第一源图像中的像素值与针对元素中的像素的预测像素值之间的差异。因此，一个元素可以由一个或多个像素组成，并且该元素的预测质量量度可以指示针对原始源图像中那些像素的像素值与针对将根据组合图像的预测得到的像素的像素值之间的差异。

将理解的是，可以在不同的实施例中使用用于确定预测质量量度的不同方法。具体地，在许多实施例中，评估器405可以继续从组合图像实际执行对每幅源图像的预测。然后它可以为每幅个体图像和每个个体像素确定原始像素值和预测像素值之间的差异。应当理解，可以使用任何合适的差异量度，例如简单的绝对差、应用于例如多个颜色通道的像素值分量的加和平方根差等。

这样的预测因此可以模拟可以由图像信号接收器500执行的预测/视图合成以生成用于源图像的观察姿态的视图。因此，预测质量量度反映了组合图像的接收器能够多好地仅基于组合图像来生成原始源图像。

针对来自组合图像的源图像的预测图像可以是针对根据组合图像通过视图合成生成的源图像的观察姿态的图像。视图合成通常包括观察姿态移位，并且通常包括视图位置移位。视图合成可以是视图移位图像合成。

从第二图像预测第一图像具体地可以是基于第二图像(及其观察姿态)的处于第一图像的观察姿态的图像的视图合成。因此，从第二图像预测第一图像的预测操作可以是第二图像从与其相关联的观察姿态到第一图像的观察姿态的观察姿态移位。

应当理解，在不同的实施例中可以使用用于视图合成和预测的不同方法和算法。在许多实施例中，可以使用视图合成/预测算法，所述算法采用要针对其生成合成图像的合成观察姿态和多个输入图像(输入图像中的每幅与不同的观察姿态相关联)作为输入。视图合成算法然后可以基于通常可以包括纹理图和深度两者的输入图像来生成针对该观察姿态的合成图像。

许多这样的算法是已知的，并且可以使用任何合适的算法而不偏离本发明。作为这种方法的示例，可以首先针对每个输入图像生成中间合成/预测图像。这可以例如通过首先基于图像的深度图为输入图像生成网格来实现。然后可以基于几何计算将网格从输入图像的观察姿态扭曲/移动到合成观察姿态。然后可以将所得网格的顶点投影到中间合成/预测图像上，并且纹理图可以叠加在该图像上。这样的过程可以例如使用根据例如标准图形管线已知的顶点处理和片段着色器来实现。

以此方式，可以为每个输入图像生成用于合成观察姿态的中间合成/预测图像(以下简称为中间预测图像)。

然后可以将中间预测图像组合在一起，例如通过加权组合/求和或通过选择组合。例如，在一些实施例中，针对合成观察姿态的合成/预测图像的每个像素可以通过从中间预测图像中选择最靠前的像素来生成，或者可以通过针对所有中间预测图像的相应像素值的加权求和来生成该像素，其中，针对给定中间预测图像的权重取决于针对该像素确定的深度。组合操作也称为混合操作。

在一些实施例中，可以在不执行完全预测的情况下执行预测质量量度，而是可以使用预测质量的间接度量。

预测质量量度可以例如通过评估视图偏移中涉及的过程的参数来间接确定。例如，在执行观察姿态转换时产生图元(通常是三角形)的几何失真(拉伸)的量。几何失真越大，所述图元表示的任何像素的预测质量量度就越低。

评估器405因此可以确定针对多幅源图像的元素的预测质量量度，其中第一源图像的元素的预测质量量度指示根据所述多幅组合图像预测的元素中的像素的预测像素值元素中像素的第一源图像中的像素值的差异。

评估器405被耦合到确定器407，确定器407被布置为确定源图像的片段，这些片段包括如下的元素，针对所述元素预测质量量度指示差异高于阈值/预测质量量度指示预测质量低于阈值。

片段可以对应于由评估器405确定并且其预测质量量度低于质量阈值的独立元素。然而，在许多实施例中，确定器407可以被布置为通过对这样的元素进行分组来生成片段，并且实际上分组还可以包括预测质量量度高于阈值的一些元素。

例如，在一些实施例中，确定器407可以被布置为通过将具有低于质量阈值的预测质量量度的所有相邻元素(以下分别称为低预测质量量度和低质量元素)分组来生成片段。

在其他实施例中，确定器407可以例如被布置为将给定尺寸和形状的片段拟合到图像，使得它们包括尽可能多的低质量元素。

确定器407相应地生成包括低质量元素并且因此不能从组合图像足够准确地预测的片段的集合。通常，所述片段将对应于低比例的源图像，并且因此对应于相对少量的图像数据和像素。

确定器407和组合图像生成器403被耦合到接收组合图像和片段的图像信号生成器409。图像信号生成器409被布置为生成图像信号，所述图像信号包括表示组合图像的图像数据和表示片段的图像数据。

图像信号生成器409可以具体地对组合图像和片段进行编码，并且可以具体地以不同方式进行编码，并且针对组合图像并且针对片段使用不同的算法和编码标准。

通常，如果图像是视频信号的帧，则使用高效图像编码算法和标准或高效视频编码算法和标准对组合图像进行编码。

片段的编码通常效率较低。例如，可以将片段组合成片段图像，其中每幅图像通常可以包括来自多幅源图像的片段。然后可以使用标准图像或视频编码算法对这样的组合片段图像进行编码。然而，由于这种组合片段图像的混合和部分性质，编码的效率通常低于正常的完整图像。

作为另一个示例，由于片段的稀疏特性，它们可能不被存储在完整的帧/图像中。在一些实施例中，例如可以使用VRML(虚拟现实建模语言)来将段表示为3D空间中的网格。

段的图像数据通常可以伴随有指示段的原点的元数据，例如原始图像坐标和相机/源图像原点。

在示例中，图像信号被发送到作为VR客户端设备101的部分的图像信号接收器500。图像信号接收器500包括从图像信号发送器400接收图像信号的图像信号接收器501。图像信号接收器501被布置为对接收的图像信号进行解码以恢复组合的图像和片段。

图像信号接收器501被耦合到图像处理器503，图像处理器503被布置为处理图像信号，特别是组合图像和片段。

在许多实施例中，图像处理器503可以被布置为基于组合的图像和片段来合成针对不同观察姿态的视图图像。

在一些实施例中，图像处理器503可以继续首先合成源图像。其片段被包括在图像信号中的合成源消息的部分然后可以被提供的片段的图像数据替换。得到的源图像然后可以用于传统的图像合成。

在其他实施例中，可以直接使用组合的图像和片段，而无需首先恢复源图像。

应当理解，图像信号发送器400和图像信号接收器500包括用于传送图像信号所需的功能，包括用于对图像信号进行编码、调制、发送、接收等的功能。应当理解，这样的功能将取决于各个实施例的偏好和要求，并且这样的技术对于本领域技术人员来说是已知的，因此为了清楚和简洁，这里将不再进一步讨论。

在不同的实施例中，可以使用不同的方法来生成组合图像。

在一些实施例中，组合图像生成器403可以被布置为通过从源图像中选择像素来生成组合图像。例如，对于组合图像中的每个像素，组合图像生成器403可以选择源图像之一中的一个像素。

图像和/或深度图包括具有可以被认为表示场景的对应图像属性(光强度/强度或深度)的值的像素，所述射线沿着具有来自射线原点(位置)的射线方向(取向)。射线原点通常是针对图像的图像观察姿态，但在某些表示中可能基于像素而变化(例如对于全向立体，其中这样的图像可以被认为具有对应于全向立体圆中心的观察姿态，但每个像素具有与全向立体圆上的位置相对应的单独观察姿态)。射线方向通常可以在像素基础上变化，特别是对于所有像素具有相同射线原点(即存在单个公共图像观察姿态)的图像。射线原点和/或方向也经常被称为射线姿态或射线投影姿态。

因此，每个像素都与作为射线/直线原点的位置相关联。每个像素还与方向链接，所述方向是来自原点的射线/直线的方向。因此，每个像素与由位置/原点和来自该位置/原点的方向定义的射线/直线链接。像素值由在像素的射线和场景对象(包括背景)的第一个交叉点处的场景的适当属性给出。因此，像素值表示沿着起源于射线原点位置并具有与像素相关联的射线方向的射线/直线的场景的属性。像素值表示沿着具有像素的射线姿态的射线的场景的属性。

组合图像生成器403因此可以针对正被生成的组合图像中的给定第一像素来将源图像中的对应像素确定为表示相同射线方向的像素。相应的像素因此可以是表示相同射线方向但可能具有不同位置的像素，因为源图像可能对应于不同位置。

因此，原则上，组合图像生成器403可以针对组合图像的给定像素来确定射线方向，并且然后确定源图像中具有相同(在给定相似度要求内)射线方向的所有像素并且将这些考虑为对应的像素。因此，对应的像素通常将具有相同的射线方向但不同的射线位置/原点。

来自不同源观察姿态图像的视图可以例如被重新采样，使得对应的图像坐标具有对应的射线方向。例如，当源视图以部分等距柱状投影格式表示时，它们被重新采样为完整的360°/180°版本。例如，可以围绕整个视图源配置来定义视图球体。该视球可以被划分为像素，其中每个像素具有射线方向。对于给定的源图像，可以通过将针对给定射线方向的视球像素值设置为源视图中具有相同射线方向的像素的像素值来将每个像素重新采样为视球表示。

将源图像重新采样到全视球表面表示上通常产生N个部分填充的图像，因为单幅图像通常具有有限的视口，并且N是源图像的数量。然而，视口趋向于交叠，并且因此视球表面表示的集合趋向于针对任何给定方向提供多个像素值。

组合图像生成器403现在可以通过在对应像素之间进行选择来继续生成至少一个但通常为多幅组合图像。

具体地，可以生成第一组合图像以覆盖场景的一部分。例如，可以生成具有预定尺寸的组合图像以覆盖视球表示中的特定像素区域，从而描述场景的该部分。在一些实施例中，组合图像中的每幅可以覆盖整个场景并且包括整个视球表面。

对于第一组合图像中的每个像素，组合图像生成器403现在可以考虑视球表示中的对应像素并继续选择像素中的一个。组合图像生成器403具体可以通过以下方式来生成第一组合图像：选择针对组合图像的像素值作为视图源图像中对应像素的像素值，所述对应像素表示沿着垂直于针对对应像素的射线方向的第一轴的第一方向上距中心点距离最大的射线。

从中心点到射线方向的距离可以被确定为中心点的射线与针对组合图像的那个像素的对应像素之间的距离。

该选择可由图6举例说明，所述图基于具有中心点C的圆形源观察姿态配置的示例。

在该示例中，考虑确定具有射线方向rc的组合图像的像素。相机/源视图1-4捕获这个方向，并且因此存在四个对应的像素。这些对应像素中的每个表示不同的姿态，因此表示源自不同位置的射线，如图所示。因此，射线与组合图像rc的射线之间存在偏移距离p1-p4，对应于中心点C与射线在其向后延伸(穿过轴601)时的距离。

图6还示出了垂直于射线rc的方向/轴601。对于第一组合图像，组合图像生成器403现在可以选择对应像素，对于所述对应像素，该方向上的射线距离最大。因此，在这种情况下，组合图像像素值将被选为相机/视图1的像素值，因为p1是该方向上的最大距离。

组合图像生成器403通常还可以通过执行相同的操作但是选择在相反方向上具有最大距离的对应像素来进一步确定第二组合图像(可以认为生成第一和第二组合图像可以通过如果距离在与轴相同的方向上测量为正而在另一个方向上测量为负，则分别选择相对于第一个方向的最大正距离和负距离)。因此，在这种情况下，组合图像生成器403将选择组合图像像素值作为相机/视图4的像素值，因为p4是该方向上的最大距离。

在许多实施例中，组合图像生成器403还可以通过执行相同的操作但选择在任何方向上具有最小距离(最小绝对距离)的对应像素来继续生成第三组合图像。因此，在这种情况下，组合图像生成器403将选择组合图像像素值作为相机/视图3的像素值，因为p3是最小距离。

以此方式，组合图像生成器403因此可以针对场景的相同部分(并且可能为整个场景)生成三幅组合图像。其中，一幅图像将对应于从一个方向提供场景最侧面视图的像素选择，一幅表示从相反方向最侧面的场景视图，一幅代表场景的最中央视图。这可由图7说明，图7示出了分别为中心组合图像和两个侧向组合图像从每个视图/相机选择的观察方向。

由此产生的图像提供场景的非常有效的表示，其中一幅组合图像通常提供前景对象的最佳表示，而另外两个组合以提供背景聚焦数据。

在一些实施例中，组合图像生成器403可以被布置为还通过根据垂直于射线方向但不同于先前使用的轴方向的轴方向选择相应的像素来生成一个或多幅组合图像。这种方法可能适用于非平面源观察姿态配置(即三维配置)。例如，对于球形源观察姿态配置，可以考虑多于两个平面。例如，可以考虑0度、60度和120度的平面，或者可以考虑两个正交平面(例如左右平面和上下平面)。

在一些实施例中，组合图像可以通过来自源图像的视图合成/预测来生成。图像生成器103可以具体地根据不同的视图位置，并且具体地根据与源图像的视图位置不同的视图位置，来生成表示场景视图的组合图像。此外，与传统的图像合成相反，组合图像不被生成来表示来自单个视图/捕获位置的场景的视图，而是可以从不同的视图位置甚至在同一组合图像内表示场景。因此，可以通过从源图像通过视图合成/预测生成用于组合图像的像素的像素值来生成组合图像，但是像素值表示不同的视图位置。

具体地，对于组合图像中的给定像素，可以执行视图合成/预测以确定对应于该像素的特定射线姿态的像素值。这可以针对组合图像的所有像素重复，但至少一些像素具有不同位置的射线姿态。

例如，单幅组合图像可以提供对应于例如围绕整个源观察姿态配置的视球表面的场景的360°表示。然而，场景的不同部分的视图可以根据同一组合图像内的不同位置来表示。图8示出了组合图像包括表示两个不同射线位置(因此像素视图位置)的像素的示例，即用于表示一个半球的像素的第一射线原点801和表示另一个半球的第二射线原点803。对于这些射线位置/原点中的每一个，为像素提供不同的射线方向，如箭头所示。在特定示例中，源观察姿态配置包括圆形布置的八个源视图(1-8)。每个相机视图仅提供一个部分视图，例如90°视图，但视图之间有交叠。对于组合图像中的给定像素，可能存在关联的射线姿态，并且该射线姿态的像素值可以通过来自源视图的视图合成/预测来确定。

原则上，组合图像的每个像素可以单独合成，但是在许多实施例中，针对多个像素执行组合合成。例如，可以从视图源图像(例如使用位置2、1、8、7、6、5、4)针对第一位置801合成单幅180°图像，并且可以针对来自视图源图像第二位置803合成单幅180°图像(例如，使用位置6、5、4、3、2、1、8)。然后可以通过组合这些来生成组合图像。如果单独合成的图像是交叠的，则可以使用组合或混合来生成组合图像。替代地，组合图像的交叠部分可以通过例如分配保留颜色或深度值来弱化。从而提高视频编码效率。

在许多实施例中，可以生成组合图像中的一幅或多幅以从提供场景的更侧向观察的视点表示场景。例如，在图8中，视图圆的中心对应于源观察姿态的中心点和针对组合图像的射线的原点位置的中心。然而，针对给定射线原点801、803的射线方向不在主要的径向方向，而是提供场景的侧视图。具体地，在该示例中，第一射线原点801和第二原点803都提供向左方向的视图，即，当从中心点面向射线原点801、803时，两者的射线方向都向左。

图像生成器103可以继续生成表示场景的不同视图的第二组合图像，并且具体而言通常可以有利地生成与第一视图互补但是在相反方向上看的场景的第二视图。例如，图像生成器103可以生成第二组合图像，其使用相同的射线原点但是射线方向在相反的方向上。例如，图像生成器103可以生成对应于图9的配置的第二组合图像。

这两幅图像可以提供场景的非常有利的并且互补的表示，并且通常可以提供场景的背景部分的改进表示。

在许多实施例中，组合图像还可以包括生成的一幅或多幅图像以提供更正面的视图，诸如例如对应于图10的配置的图像。在许多实施例中，这样的示例可以提供前景对象的正面的改进表示。

应当理解，在不同的实施例中可以使用不同的射线原点配置，并且特别地可以使用更多的原点。例如，图11和12示出了两个互补配置的示例，用于生成侧视组合图像，其中射线原点分布在曲线(特别是圆形)上，在这种情况下围绕视源配置(通常会选择这样的曲线来紧密拟合源查看姿态配置)。附图仅示出圆/曲线的部分的原点和姿态，并且应当理解，在许多实施例中将生成全球面或360°视图。

图7实际上可以被认为是图示另一种示例性配置，其中基于围绕中心点的圆上的八个射线位置生成三幅组合图像。对于第一组合图像，选择绕径向为圆形的方向，对于第二图像，选择绕右旋90°角的射线方向，并且对于第三幅图像，选择绕左旋90°角的射线方向。这种组合图像的组合可以提供场景的高效组合表示。

在一些实施例中，图像生成器103因此可以被布置为通过来自源图像的视图合成来生成针对特定射线姿态的组合图像的像素值。对于不同的组合图像，可以不同地选择射线姿态。

具体地，在许多实施例中，可以选择一幅图像的射线姿态以提供来自射线原点的场景的侧视图，并且可以选择另一图像的射线姿态以提供互补的侧视图。

具体地，第一组合图像的射线姿态可以使得垂直向量和像素叉乘向量之间的点乘对于第一组合图像的至少90％(有时95％或什至全部)像素是非负的。针对像素的像素叉乘向量被确定为像素的射线方向与从不同源观察姿态的中心点到像素的射线位置的向量之间的叉乘。

源观察姿态的中心点可以生成为针对源观察姿态的平均或平均位置。例如，每个坐标(例如x、y、z)可以被单独平均并且所得的平均坐标可以是中心点。应该注意的是，针对配置的中心点并不(必然)位于包含源观察姿态的最小圆/球体的中心。

因此，对于给定像素，从中心点到射线原点的向量是场景空间中的向量，其定义了从中心点到该像素的视图位置的距离和方向。射线方向可以由具有相同方向的(ny)向量表示，即它可以是从射线原点到由像素表示的场景点的向量(并且因此也可以是场景空间中的向量)。

这两个向量之间的叉乘将垂直于两者。对于水平面(在场景坐标系中)，向左的射线方向(从中心点看)将产生具有向上分量的叉乘向量，即在x，y，z场景坐标系中具有正z分量，其中，z指示高度。无论射线原点如何，对于任何左向视图，叉乘向量都将向上，例如，对于图8的所有像素/射线姿态，它都将向上。

相反，对于右向视图，对于所有射线姿态，叉乘向量将向下，例如，对于图9的所有像素/射线姿态，将导致负z坐标。

场景空间中的垂直向量与所有具有正z坐标的向量之间的点乘将相同，具体而言，向上指向的垂直向量为正，向下指向的垂直向量为负。相反，对于负z坐标，向上指向的垂直向量的点乘将为负，而向下指向的垂直向量的点乘将为正。因此，点乘对于右侧射线姿态具有相同的符号，并且对于所有左侧射线姿态具有相反的符号。

在某些情况下，可能会产生零向量或点乘(例如，对于视图圆上的极点)，并且对于此类射线姿态，符号将不与向左或向右视图不同。

应当理解，上述考虑经必要修改后，也适用于三维表示，例如射线原点位于球体上的情况。

因此，在一些实施例中，组合图像的至少90％，并且在一些实施例中至少95％或甚至所有像素导致不具有不同符号的点乘，即至少许多像素将具有指向同一侧的侧视图。

在一些实施例中，组合图像可以被生成为具有保护带或者例如一些特定边缘像素可以具有点乘可能不满足要求的特定情况。但是，对于绝大多数像素来说，满足了要求，并且像素提供了相应的侧视图。

此外，在许多实施例中，至少两幅组合图像满足这些要求，但是点乘的符号相反。因此，对于一幅组合图像，至少90％的像素可以表示向右视图，而对于另一组合图像，至少90％的像素可以表示向左视图。

可以针对提供特别有利的场景视图的姿态生成组合图像。发明人已经意识到，在许多场景中，针对导致场景主要部分的更侧向视图的观察姿态生成组合图像可能特别有利，并且进一步地，对于源视图的给定配置，它可以有利于生成至少一些靠近配置的极端位置而不是靠近配置中心的视图。

因此，在许多实施例中，针对靠近对应于源观察姿态配置的区域的边界的射线姿态生成组合图像中的至少一个并且通常至少两个。

该区域可以具体地是空间区域(空间中的点的合集或集合)，其由可以使用至少一些视图位置作为多边形的直线的顶点形成的最大多边形界定。多边形可以是平面图形，所述图形由在环中闭合以形成闭合链或回路的有限直线段链为界，并且这可以包括诸如图2A的一维配置(也称为退化多边形)。对于三维配置，所述区域可以对应于由至少一些源视图位置形成的最大可能多面体。因此，所述区域可以是最大的多边形或多面体，其可以使用源视图位置中的至少一些作为多边形或多面体的线的顶点来形成。

作为替代，包括多幅源图像的不同观察姿态的区域可以是包括所有视角位置的最小线、圆或球体。该区域具体可以是包括所有源视图位置的最小球体。

因此，在许多实施例中，组合图像中的至少一个的射线姿态被选择为靠近包括源观察姿态配置的区域的边界。

在许多实施例中，组合图像的至少一个射线位置被确定为小于距区域边界的第一距离，其中该第一距离不超过区域边界上的点之间的(内部)距离最大值的50％或者在许多情况下不超过25％或10％。因此，从观察姿态的位置来看，到边界的最小距离可以不超过到边界的最大距离的50％、25％或10％。

这可以通过图13来说明，图13示出了由黑点指示的源视点的示例。图13还图示了与包括观察姿态的最小球体相对应的区域。在该示例中，视图配置是平面的二维配置，并且考虑球体减少到考虑圆1301。图13还示出了针对靠近球体/圆/区域的边界的组合图像的射线姿态1303。具体来说，到区域边界/边缘的最小距离dmin比到区域边界/边缘的最大距离dmax小得多(大约10％)。

在一些实施例中，组合图像的射线姿态可以被确定为小于距区域边界的第一距离，其中第一距离不超过两个源观察姿态之间的最大距离的20％，或者通常甚至10％或5％。在该区域被确定为包括所有源视图位姿的最小球体/圆的示例中，两个视图位姿之间的最大距离等于球体/圆的直径，因此组合图像视图位姿可以被选择为使得最小距离dmin满足此要求。

在一些实施例中，组合图像的射线姿态可以被确定为距不同观察姿态的中心点的至少最小距离，其中最小距离是沿着通过中心点和射线姿态的线从中心点到边界的距离的至少50％，并且经常甚至是75％或90％。

在一些实施例中，组合图像的两个观察姿态被选择为使得它们之间的距离是与通过过观察姿态线相交的边界的两点之间的最大距离的至少80％，有时甚至是90％或95％。例如，如果通过两个姿态画一条线，则两个姿态之间的距离至少是该线与圆的交点之间距离的80％、90％或95％。

在一些实施例中，第一组合图像的两个射线姿态之间的最大距离是包括多幅源图像的不同观察姿态的区域的边界的点之间的最大距离的至少80％。

发明人已经认识到，为靠近包括源观察姿态的区域的边界/边缘的位置生成组合图像的方法可能特别有利，因为它倾向于提供场景中背景对象的增加的信息。大多数背景数据通常由相对于中心视点具有最大侧向距离的相机或图像区域捕获。这可以有利地与更中心的组合图像组合，因为这倾向于为前景对象提供改进的图像信息。

在许多实施例中，图像信号生成器409可以被布置为还包括针对生成的图像数据的元数据。具体地，组合图像生成器403可以为组合图像生成原点数据，其中原点数据指示哪幅源图像是组合图像中的个体像素的原点。图像信号生成器409然后可以将该数据包括在生成的图像信号中。

在许多实施例中，图像信号生成器409可以包括指示源图像的观察姿态的源观察姿态数据。数据可以具体包括定义每幅源图像/视图的位置和方向的数据。

图像信号可以相应地包括元数据，所述元数据可能单独地为每个像素指示提供像素值的位置和方向，即射线姿态指示。因此，图像信号接收器500可以被布置为处理该数据以执行例如视图合成。

例如，对于通过选择对应像素生成的三个视图中的每个像素，可以包括指示源视图身份的元数据。这可能得到三个标签图，一个针对中心视图，并且两个针对侧视图。标签然后可以进一步链接到特定的观察姿态数据，包括例如相机光学和装置几何配置。

应当理解，为了清楚起见，以上描述已经参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，显而易见的是，可以在不背离本发明的情况下使用不同功能电路、单元或处理器之间的任何合适的功能分布。例如，被示为由分别的处理器或控制器执行的功能可以由相同的处理器执行。因此，对特定功能单元或电路的引用仅被视为对用于提供所描述的功能的合适设备的引用，而不是指示严格的逻辑或物理结构或组织。

本发明可以以任何合适的形式实现，包括硬件、软件、固件或这些的任何组合。本发明可以任选地至少部分地实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何合适的方式来物理地、功能地和逻辑地实现。实际上，功能可以在单个单元中、在多个单元中或作为其他功能单元的一部分来实现。这样，本发明可以在单个单元中实现，或者可以在不同的单元、电路和处理器之间物理地和功能地分布。

尽管已经结合一些实施例描述了本发明，但是并不旨在将本发明限于这里阐述的特定形式。相反，本发明的范围仅受所附权利要求的限制。另外，尽管可能看起来结合特定实施例描述了特征，但是本领域技术人员将认识到，可以根据本发明组合所描述的实施例的各种特征。在权利要求中，术语“包括”不排除存在其他元件或步骤。

此外，尽管单独列出，但是多个设备、元件、电路或方法步骤可以通过例如单个电路、单元或处理器来实现。另外，尽管各个特征可以包括在不同的权利要求中，但是这些特征可以有利地组合，并且包含在不同的权利要求中并不意味着特征的组合是不可行和/或不利的。在一类权利要求中包含特征并不意味着对该类别的限制，而是指示该特征在合适时同样适用于其他权利要求类别。此外，权利要求中的特征的顺序并不意味着特征必须工作的任何特定顺序，并且特别地，方法权利要求中的各个步骤的顺序并不意味着必须以该顺序执行这些步骤。而是，可以以任何合适的顺序来执行这些步骤。另外，单数引用不排除多个。因此，对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅被提供用于地使示例清楚，不应被解释为以任何方式限制权利要求的范围。

所描述的方法可以提供：

一种用于生成图像信号的装置，所述装置包括：

接收器(401)，其用于接收表示来自不同的观察姿态的场景的多幅源图像；

组合图像生成器(403)，其用于根据所述源图像来生成多幅组合图像，每幅组合图像从所述多幅源图像中的至少两幅源图像的集合导出，组合图像的每个像素表示针对射线姿态的场景，并且针对每幅组合图像的射线姿态包括至少两个不同位置；

评估器(405)，其用于确定多幅源图像的元素的预测质量量度，针对第一源图像的元素的预测质量量度指示所述第一源图像中的针对元素中的像素的像素值与针对所述元素中的像素的预测像素值之间的差异，所述预测像素值是根据所述多幅组合图像预测所述元素中的像素而得到的像素值；

确定器(407)，其用于确定所述源图像的片段，所述片断包括预测质量量度指示高于阈值的差异的元素；以及

图像信号生成器(409)，其用于生成图像信号，所述图像信号包括表示所述组合图像的图像数据以及表示所述源图像的所述片段的图像数据。

一种用于接收图像信号的装置，所述装置包括：

接收器(501)，其用于接收图像信号，所述图像信号包括：

多幅组合图像，每幅组合图像表示从表示来自不同观察姿态的场景的多幅源图像中的至少两幅源图像的集合导出的图像数据，组合图像的每个像素表示针对射线姿态的场景，并且针对每幅组合图像的射线姿态包括至少两个不同位置；

针对所述多幅源图像的片段的集合的图像数据，针对第一源图像的片段包括所述第一源图像的至少一个像素，对于所述至少一个像素，针对来自所述多幅组合图像的所述片段的预测的预测质量量度低于阈值；以及

处理器(503)，其用于处理所述图像信号。

一种生成图像信号的方法，所述方法包括：

接收表示来自不同的观察姿态的场景的多幅源图像；

根据所述源图像来生成多幅组合图像，每幅组合图像从所述多幅源图像中的至少两幅源图像的集合导出，组合图像的每个像素表示针对射线姿态的场景，并且针对每幅组合图像的射线姿态包括至少两个不同位置；

确定多幅源图像的元素的预测质量量度，针对第一源图像的元素的预测质量量度指示第一源图像中的针对元素中的像素的像素值与针对所述元素中的像素的预测像素值之间的差异，所述预测像素值是根据所述多幅组合图像预测所述元素中的像素而得到的像素值；

确定所述源图像的包括预测质量量度指示高于阈值的差异的元素的片段；并且

生成图像信号，所述图像信号包括表示所述组合图像的图像数据以及表示所述源图像的片段的图像数据。

一种处理图像信号的方法，所述方法包括：

接收图像信号，所述图像信号包括：

多幅组合图像，每幅组合图像表示从表示来自不同观察姿态的场景的多幅源图像中的至少两幅源图像的集合导出的图像数据，组合图像的每个像素表示针对射线姿态的场景，并且针对每幅组合图像的射线姿态包括至少两个不同位置；针对所述多幅源图像的片段的集合的图像数据，针对第一源图像的片段包括所述第一源图像的至少一个像素，对于所述至少一个像素，针对来自所述多幅组合图像的所述片段的预测的预测质量量度低于阈值；并且

处理所述图像信号。

一种图像信号，其包括多幅组合图像，每幅组合图像表示从表示来自不同观察姿态的场景的多幅源图像中的至少两幅源图像的集合导出的图像数据，组合图像的每个像素表示针对射线姿态的场景，并且针对每幅组合图像的射线姿态包括至少两个不同位置；针对所述多幅源图像的片段的集合的图像数据，针对第一源图像的片段包括所述第一源图像的至少一个像素，对于所述至少一个像素，针对来自所述多幅组合图像的所述片段的预测的预测质量量度低于阈值。

从属权利要求的特征可适用于这些方法。

Claims

1.一种用于生成图像信号的装置，所述装置包括：

组合图像生成器(403)，其用于根据所述源图像来生成多幅组合图像，每幅组合图像是从所述多幅源图像中的至少两幅源图像的集合导出的，组合图像的每个像素表示针对射线姿态的所述场景，并且针对每幅组合图像的所述射线姿态包括至少两个不同的位置，针对像素的射线姿态表示在针对所述像素的观察方向并且来自所述像素的观察位置的射线的姿态；

评估器(405)，其用于确定所述多幅源图像的元素的预测质量量度，针对第一源图像的元素的预测质量量度指示所述第一源图像中的针对所述元素中的像素的像素值与针对所述元素中的像素的预测像素值之间的差异，所述预测像素值是根据所述多幅组合图像预测所述元素中的像素而得到的像素值；

确定器(407)，其用于确定所述源图像的片段，所述片段包括预测质量量度指示高于阈值的差异的元素；以及

2.根据权利要求1所述的装置，其中，所述组合图像生成器(403)被布置为通过来自所述多幅源图像的第一组合图像的像素的视图合成来生成所述多幅组合图像中的至少所述第一组合图像，其中，所述第一组合图像的每个像素表示针对射线姿态的所述场景，并且针对所述第一图像的所述射线姿态包括至少两个不同的位置。

3.根据权利要求2所述的装置，其中，对于所述第一组合图像的至少90％的像素，垂直向量与像素叉乘向量之间的点乘是非负的，针对像素的像素叉乘向量是针对像素的射线方向与从针对不同观察姿态的中心点到针对所述像素的射线位置的向量之间的叉乘。

4.根据权利要求3所述的装置，其中，所述组合图像生成器(403)被布置为通过来自所述多幅源图像的第二组合图像的像素的视图合成来生成所述多幅组合图像中的所述第二组合图像，其中，所述第二组合图像的每个像素表示针对射线姿态的所述场景，并且针对所述第二图像的所述射线姿态包括至少两个不同的位置；并且

其中，对于所述第二组合图像的至少90％的像素，所述垂直向量与像素叉乘向量之间的点乘是非正的。

5.根据权利要求2所述的装置，其中，所述第一组合图像的所述射线姿态被选择为靠近包括所述多幅源图像的不同观察姿态的区域的边界。

6.根据权利要求2或3所述的装置，其中，所述第一组合图像的所述射线姿态中的每个射线姿态被确定为距包括所述多幅源图像的所述不同观察姿态的区域的边界小于第一距离，所述第一距离不超过所述边界上的点之间最大内部距离的50％。

7.根据任一前述权利要求所述的装置，其中，所述组合图像生成器(403)被布置为针对所述多幅组合图像中的第一组合图像的每个像素：

确定所述视图源图像中存在对应像素的每幅视图源图像中的对应像素，所述对应像素是表示与所述第一组合图像的所述像素相同的射线方向的像素；

选择针对所述第一组合图像的所述像素的像素值作为视图源图像中的所述对应像素的像素值，其中，所述对应像素表示具有距针对不同所述观察姿态距中心点的最大距离的射线，所述最大距离位于沿着垂直于针对所述对应像素的射线方向的第一轴的第一方向。

8.根据权利要求7所述的装置，其中，确定所述对应像素包括：将每幅源图像重新采样为表示围绕所述观察姿态的视球表面的至少部分的图像表示，并且将对应像素确定为在所述图像表示中具有相同位置。

9.根据权利要求7或8所述的装置，其中，所述组合图像生成器(403)被布置为针对第二组合图像的每个像素：

选择针对所述第二组合图像中的所述像素的像素值作为所述视图源图像中的所述对应像素的像素值，其中，所述对应像素表示在与所述第一方向相反的方向上具有距所述中心点的最大距离的射线。

10.根据权利要求7-9中的任一项所述的装置，其中，所述组合图像生成器(403)被布置为：

针对第三组合图像中的每个像素：

选择针对所述第三组合图像中的所述像素的像素值作为所述视图源图像中的所述对应像素的像素值，其中，所述对应像素表示在具有距所述中心点的最小距离的射线。

11.根据权利要求7-10中的任一项所述的装置，其中，所述组合图像生成器(403)被布置为：

针对第四组合图像中的每个像素：

选择针对所述第四组合图像中的像素的像素值作为视图源图像中的所述对应像素的像素值，其中，所述对应像素表示在沿垂直于针对所述对应像素的射线方向的第二轴的第二方向上具有距中心点最大距离的射线，所述第一轴与所述第二轴具有不同的方向。

12.根据权利要求7-11中的任一项所述的装置，其中，所述组合图像生成器(403)被布置为生成第一组合图像的原点数据，所述原点数据指示所述源图像中的哪幅是针对所述第一组合图像的每个像素的原点；并且所述图像信号生成器(409)被布置为在所述图像信号中包括所述原点数据。

13.根据前述权利要求中的任一项所述的装置，其中，所述图像信号生成器(403)被布置为在所述图像信号中包括源观察姿态数据，所述源观察姿态数据指示针对所述源图像的不同观察姿态。

14.一种用于接收图像信号的装置，所述装置包括：

接收器(501)，其用于接收图像信号，所述图像信号包括：

多幅组合图像，每幅组合图像表示从表示来自不同观察姿态的场景的多幅源图像中的至少两幅源图像的集合导出的图像数据，组合图像的每个像素表示针对射线姿态的所述场景，并且针对每幅组合图像的所述射线姿态包括至少两个不同的位置，针对像素的射线姿态表示在针对所述像素的观察方向上并且来自针对所述像素的观察位置的射线的姿态；

处理器(503)，其用于处理所述图像信号。

15.一种生成图像信号的方法，所述方法包括：

接收表示来自不同的观察姿态的场景的多幅源图像；

根据所述源图像来生成多幅组合图像，每幅组合图像是从所述多幅源图像中的至少两幅源图像的集合导出的，组合图像的每个像素表示针对射线姿态的所述场景，并且针对每幅组合图像的所述射线姿态包括至少两个不同的位置，针对像素的射线姿态表示在针对所述像素的观察方向和来自针对像素的观察位置的射线的姿态；

确定所述多幅源图像的元素的预测质量量度，针对第一源图像的元素的预测质量量度指示所述第一源图像中的针对所述元素中的像素的像素值与针对所述元素中的像素的预测像素值之间的差异，所述预测像素值是根据所述多幅组合图像预测所述元素中的像素而得到的像素值；

确定所述源图像中包括所述预测质量量度指示高于阈值的差异的元素的片段；并且

生成图像信号，所述图像信号包括表示所述组合图像的图像数据以及表示所述源图像的所述片段的图像数据。

16.一种处理图像信号的方法，所述方法包括：

接收图像信号，所述图像信号包括：

多幅组合图像，每幅组合图像表示从表示来自不同观察姿态的场景的多幅源图像中的至少两幅源图像的集合导出的图像数据，组合图像的每个像素表示针对射线姿态的场景，并且针对每幅组合图像的射线姿态包括至少两个不同的位置，针对像素的射线姿态表示在针对所述像素的观察方向上并且自针对所述像素的视图位置起的射线的姿态；针对所述多幅源图像的片段的集合的图像数据，针对第一源图像的片段包括所述第一源图像的至少一个像素，对于所述至少一个像素，针对来自所述多幅组合图像的所述片段的预测的预测质量量度低于阈值；并且

处理所述图像信号。

17.一种图像信号，包括：

多幅组合图像，每幅组合图像表示从表示来自不同观察姿态的场景的多幅源图像中的至少两幅源图像的集合导出的图像数据，组合图像的每个像素表示针对射线姿态的所述场景，并且针对每幅组合图像的所述射线姿态包括至少两个不同的位置，针对像素的射线姿态表示在针对所述像素的观察方向上并且来自针对所述像素的观察位置的射线的姿态；针对所述多幅源图像的片段的集合的图像数据，针对第一源图像的片段包括所述第一源图像的至少一个像素，对于所述至少一个像素，针对来自所述多幅组合图像的所述片段的预测的预测质量量度低于阈值。

18.一种包括计算机程序代码模块的计算机程序产品，当所述程序在计算机上运行时，所述计算机程序代码模块适于执行根据权利要求15或16所述的所有步骤。