CN113170213B - 图像合成 - Google Patents

图像合成 Download PDF

Info

Publication number
CN113170213B
CN113170213B CN201980077224.3A CN201980077224A CN113170213B CN 113170213 B CN113170213 B CN 113170213B CN 201980077224 A CN201980077224 A CN 201980077224A CN 113170213 B CN113170213 B CN 113170213B
Authority
CN
China
Prior art keywords
image
image portion
depth
portions
depth transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980077224.3A
Other languages
English (en)
Other versions
CN113170213A (zh
Inventor
C·韦雷坎普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP18196617.7A external-priority patent/EP3629585A1/en
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN113170213A publication Critical patent/CN113170213A/zh
Application granted granted Critical
Publication of CN113170213B publication Critical patent/CN113170213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种图像合成装置包括:接收器(301),其用于接收来自图像源的表示不同观看姿态下的场景的图像的图像部分和相关联的深度数据;存储装置(311),其存储针对图像部分集合中的每个图像部分的深度转变度量,其中,针对图像部分的所述深度转变度量指示所述图像部分中的深度转变的方向;确定器(305),其确定绘制观看姿态;图像合成器(303),其根据所接收的图像部分来合成至少一幅图像;选择器,其被布置为响应于所述深度转变度量而选择所述图像部分集合中的第一图像部分;以及检索器(309),其从所述图像源检索所述第一图像部分。对针对所述绘制观看姿态的图像部分的合成基于所述第一图像部分。

Description

图像合成
技术领域
本发明涉及图像合成及其图像数据流的生成,并且特别地但非排他性地涉及基于图像的用于例如虚拟现实应用和服务的图像部分的图像合成。
背景技术
近年来,随着不断开发和引入新的服务以及利用和消费视频的方式,图像和视频应用的种类和范围已大大增加。
例如,一种越来越流行的服务是以这样的方式提供图像序列,即,使得观看者能够主动地和动态地与系统交互以改变绘制的参数。在许多应用中,一个非常吸引人的特征是改变观看者的有效观看位置和观看方向(观看姿态)的能力,例如允许观看者在呈现的场景中移动并“环顾四周”。
这样的特征能够特别实现向用户提供的虚拟现实体验。这可以允许用户在虚拟环境中(相对)自由地走动并动态地改变他的位置和他看的地方。通常,这样的虚拟现实应用基于场景的三维模型,其中该模型被动态评价以提供特定的请求视图。这种方法从例如用于(例如在第一人称射击游戏的游戏类别中的)计算机和控制台的游戏应用是众所周知的。
特别是对于虚拟现实应用,还期望所呈现的图像是三维图像。实际上,为了优化观看者的沉浸感,通常优选的是,用户将所呈现的场景体验为三维场景。实际上,虚拟现实体验应当优选地允许用户选择他/她自己的位置、相机视点以及相对于虚拟世界的时刻。
支持基于(特别是三维)场景表示的各种服务的主要问题是要求大量数据。这导致对资源的高要求,例如对大型存储资源的需求。然而,在许多场景中,最大的限制不是存储要求或处理要求,而是通信要求。如果要求表示场景的数据必须通过带宽受限的通信信道(无论是内部的还是外部的)进行通信,则非常希望尝试减少需要通信的数据量。
例如,在许多场景中并且对于许多应用,可以使用客户端服务器方法,其中,执行例如虚拟现实应用的远程客户端被耦合到中央服务,该中央服务通过带宽受限的链路提供所要求的场景数据。然而,多视图表示通常将与高比特率相关联(即使没有深度信息也要求高比特率,并且实际上在这种情况下可能要求更高,因为将需要更多视图)。例如,具有运动自由的虚拟现实回放将要求以观察者移动通过3D空间的速度的不同场景视图。在实践中很难解决在这样的通信信道上提供足够数据的挑战。
已经提出了几种格式来在带宽受限的通信信道上有效地流传输3D几何和纹理信息,并且特别是与诸如互联网之类的网络一起使用时的情况。例如,MPEG全向MediA格式(OMAF)标准将包括360视频的分片流(3个自由度(DoF)),其利用HTTP上的动态自适应流(MPEG DASH)。OMAF的未来版本有望支持有限运动视差(3DoF+)。
如上所述,在实践中,具有深度编码的多视图中的最紧迫的问题通常不是存储要求,而是传输带宽和等待时间。为了具有流畅的体验,图像应及时到达头戴式设备。然而,虽然开发的格式和编码试图降低数据速率,但是它通常仍是关于客户端能够实现的质量和用户体验的主要限制。
此外,为了维持所生成图像具有足够高的质量,重要的是适当的数据可用于视图合成。特别地,从不同视点合成图像会引起视差移位,该视差移位取决于对象的深度。因此,该移位会引起去遮挡,该去遮挡会在图像中显露出孔,这些孔必须由来自其他视点的数据来填充或者通过外推法来填充,然而,外推法往往是次优的。因此,在所要求的数据速率与被提供给合成器的数据量之间存在关键的折衷。
因此,用于生成和使用图像数据流的改进的方法将是有利的。特别地,允许改进的操作,便利的操作,改进的场景表示,提高的灵活性,便利的实施,便利的操作,降低的数据速率,减少的数据存储、分配和/或处理资源要求,提高的适应性,提高的图像质量和/或提高的性能的方法将是有利的。
发明内容
因此,本发明试图优选以单独方式或任意组合方式减轻、缓解或消除一个或多个上述缺点。
根据本发明的一个方面,提供了一种图像合成装置,所述图像合成装置包括:接收器,其用于从图像源接收所接收的图像部分和相关联的深度数据,所述图像部分是表示不同观看姿态下的场景的图像的部分;确定器,其用于确定绘制观看姿态;存储装置,其包括针对所接收的图像部分的图像部分集合中的每个图像部分的深度转变度量,针对图像部分的所述深度转变度量指示所述图像部分中的深度转变的方向;选择器,其用于响应于所述绘制观看姿态和所述深度转变度量而选择所述图像部分集合中的第一图像部分;以及检索器,其用于从所述图像源检索所述第一图像部分;图像合成器,其用于根据包括所述第一图像部分的所接收的图像部分来合成至少一幅图像。
本发明可以例如在自由视点视频系统中为图像合成和分配系统提供改进的操作和/或提高的性能。该方法可以为适应视图的虚拟/人工/增强现实体验提供特别有利的性能。该方法可以在许多情况下提供降低的复杂度。在许多情况下,该方法可以提供大大降低的比特流数据速率和/或提高的质量。在许多情况下都能够实现改善的质量/数据速率折衷。
在许多实施例中,该方法特别可以减少或减轻因图像合成而出现的去遮挡错误和伪影。
针对图像部分的相关联的深度数据可以是指示从针对图像部分的视点到图像部分中的对象的距离的深度数据。
图像合成器可以被布置为根据第一图像部分来合成图像区域/合成图像的部分。该合成可以包括从第一图像部分的观看姿态到绘制观看姿态的观看姿态移位。
针对图像部分的深度转变度量可以指示在图像平面(特别可以是图像部分/图像部分的图像的图像平面(或平行平面))中的深度转变的方向。该方向可以是从进一步向前到进一步向后(从前景到背景)的转变的图像平面方向,或者可以例如是从进一步向后到进一步向前(从背景到前景)的转变的图像平面方向。
图像源可以是远程源,例如,远程服务器。针对观看姿态的图像通常可以被划分成多个图像部分,但是一幅或多幅图像可以被划分成单个图像部分,即,图像部分可以对应于针对观看姿态的全体图像。
图像部分集合是由接收器接收的图像部分集合,并且可以是完整集合或其子集。
台阶转变可以是图像部分中的深度的主要转变或最大转变。
在一些实施例中,选择器还可以被布置为响应于针对目标观看姿态的图像部分集合的可见性量度而选择图像部分的第二子集。
在一些实施例中,图像部分是预编码的图像部分。
在一些实施例中,图像部分集合包括针对不同观看姿态的场景的多面体投影的面。
在一些实施例中,图像部分对应于图像的预定分区。
在一些实施例中,该装置还包括分区器,该分区器用于响应于基于图像的像素值和图像的深度值中的至少一个对图像的分区而生成图像部分集合中的至少一些图像部分。在一些实施例中,至少一些图像部分是重叠的。
根据本发明的任选特征,所述深度转变度量指示所述深度转变的大小。
在许多实施例中,这可以提供提高的性能。深度转变的大小可以例如是深度台阶的绝对值或深度梯度或深度梯度向量的幅值。
根据本发明的任选特征,所述选择器被布置为响应于所述图像部分集合中的所述图像部分的观看姿态与所述绘制观看姿态之间的差异而进一步选择所述第一图像部分。
这可以进一步提高性能,并且可以例如减少由于大视图移位操作而导致的错误或伪影。
根据本发明的任选特征,所述选择器被布置为确定受到以下约束的所述图像部分集合:属于所述图像部分集合的任何图像部分的观看姿态与所述绘制观看姿态之间的差异低于阈值。
这可以进一步提高性能,同时维持较低的复杂度和资源要求。
根据本发明的任选特征,所述选择器被布置为将所述图像部分集合确定为表示所述场景的与要由所述图像合成器合成的图像的图像区段相同的区域的图像部分,所述图像部分集合中的所述图像部分表示不同观看姿态下的所述图像区域。
该方法可以提供改进的图像合成,并且在许多情况下特别可以减少因去遮挡而产生的错误和伪影。
根据本发明的任选特征,所述图像部分集合包括不同观看姿态下的并且与要合成的图像的相同部分相对应的图像部分。
该方法可以提供改进的图像合成,并且在许多情况下特别可以减少因去遮挡而产生的错误和伪影。
根据本发明的任选特征,所述选择器被布置为将对所述第一图像部分的选择偏向于以下图像部分:针对该图像部分,所述深度转变的从前向后的深度转变的方向与从针对所述图像部分的观看姿态到所述绘制观看姿态的方向相反。
这可以提供特别有效的性能,并且在许多情况下可以提供特别有效的方法来减少在执行观看姿态移位时因去遮挡而产生的错误和伪影。
该方向可以是图像平面方向,并且特别可以是图像部分/图像部分的图像的图像平面(或平行平面)中的图像平面方向。图像部分的从前向后的深度转变的方向可以是图像平面中从更加前景对象/区/像素到更加背景对象/区/像素的转变的方向。从针对图像部分的观看姿态到绘制观看姿态的方向可以是图像部分/图像的图像平面中的方向。它可以是从沿着正交于图像平面的方向的观看姿态到图像平面的投影到沿着正交于图像平面的方向的绘制观看姿态到图像平面的投影的方向。该偏向可以取决于图像平面中的方向之间的相关度/对齐度。
将意识到,无需明确地计算或确定图像平面中的方向和点以执行偏向。
选择器可以被布置为通过响应于代价函数而执行选择来偏置选择,该代价函数对于从前向后的转变的方向与(例如在图像平面中的)观看姿态到绘制观看姿态差异的方向之间的提高的对齐度具有增大的值。
根据本发明的任选特征,对所述至少一幅图像的所述合成包括根据所述第一图像部分来合成所述至少一幅图像的图像部分。
该方法可以提供针对不同绘制观看姿态的图像的改进的合成。
根据本发明的任选特征,所述深度转变度量表示超过阈值的深度梯度的平均值。
在许多实施例中,这可以提供特别有利的性能。
根据本发明的一个方面,提供了一种用于生成图像数据流的装置,所述装置包括:接收器,其用于从远程源接收图像部分请求;存储装置,其用于存储图像部分集合和相关联的深度数据,所述图像部分是表示不同观看姿态下的场景的图像的部分;度量生成器,其用于提供针对所述图像部分集合中的每个图像部分的深度转变度量,针对图像部分的所述深度转变度量指示所述图像部分中的深度转变的方向;选择器,其用于响应于所述图像部分请求和所述深度转变度量而从所述图像部分集合中选择图像部分;以及发送器,其用于将所选择的图像部分和相关联的深度发送到所述远程源。
根据本发明的任选特征,所述发送器被布置为将针对所述图像部分集合的所述深度转变度量发送到所述远程源。
根据本发明的任选特征,所述图像部分请求包括观看姿态指示,并且所述选择器被布置为响应于所述深度转变度量和所述观看姿态指示而选择图像部分。
根据本发明的一个方面,提供了一种合成图像的方法,所述方法包括:从图像源接收所接收的图像部分和相关联的深度数据,所述图像部分是表示不同观看姿态下的场景的图像的部分;确定绘制观看姿态;存储针对所接收的图像部分的图像部分集合中的每个图像部分的深度转变度量,针对图像部分的所述深度转变度量指示所述图像部分中的深度转变的方向;响应于所述绘制观看姿态和所述深度转变度量而选择所述图像部分集合中的第一图像部分;从所述图像源检索所述第一图像部分;并且根据包括所述第一图像部分的所接收的图像部分来合成至少一幅图像。
根据本发明的一个方面,提供了一种生成图像数据流的方法,所述方法包括:从远程源接收图像部分请求;存储图像部分集合和相关联的深度数据,所述图像部分是表示不同观看姿态下的场景的图像的部分;提供针对所述图像部分集合中的每个图像部分的深度转变度量,针对图像部分的所述深度转变度量指示所述图像部分中的深度转变的方向;响应于所述图像部分请求和所述深度转变度量而从所述图像部分集合中选择图像部分;并且将所选择的图像部分和相关联的深度发送到所述远程源。
参考下文描述的(一个或多个)实施例,本发明的这些和其他方面、特征和优点将变得显而易见并且得到阐明。
附图说明
将参考附图并仅通过举例的方式描述本发明的实施例,在附图中:
图1图示了根据本发明的一些实施例的图像处理系统的元件的示例;
图2图示了根据本发明的一些实施例的图像数据流生成装置的元件的示例;
图3图示了场景和相关联的预测质量属性的示例;
图4图示了参考/锚图像和相关联的深度图的示例;
图5图示了参考/锚图像和合成图像的示例;
图6图示了参考/锚图像和合成图像的示例;
图7图示了参考/锚图像和合成图像的示例;
图8图示了合成图像的示例;并且
图9图示了参考/锚图像和合成图像的示例。
具体实施方式
以下描述集中于适用于虚拟现实应用的图像合成和图像数据流生成的本发明的实施例。然而,将意识到,本发明不限于该应用,而是可以应用于例如许多不同的图像处理和绘制应用。
图1图示了可以体现本发明构思的实施例的示例和变型的系统的示例。
在该示例中,以图像合成装置101的形式的客户端被布置为生成表示不同视点下的场景的图像,即,可以生成与针对场景的不同观看姿态的不同视口相对应的图像。图像合成装置101被布置为接收图像数据流,该图像数据流包括图像部分以及相关联的深度,从而提供场景的部分三维图像表示。然后,可以基于所接收的数据来生成与给定的视口和姿态相对应的适当图像。在该示例中,从作为远程服务器而操作的图像数据流生成装置103接收图像数据流。图像数据流生成装置103被布置为经由网络105来提供图像数据流,该网络105可以例如是互联网。该布置可以对应于客户端服务器布置,并且因此图像合成装置101也将被称为客户端,并且数据流生成装置103也将被称为服务器。
在特定示例中,图像数据流生成装置103是虚拟现实服务器,其为图像合成装置101提供表示三维环境的三维图像数据,以生成与例如环境中的虚拟用户移动相对应的视图。
在本领域中,术语“放置状态”或“姿态”用作例如对象、相机的位置和/或方向/取向以及位置和方向/取向的组合的通用术语,或者实际上,视图通常被称为姿态或放置状态。因此,放置状态或姿态指示可以包括六个值/分量/自由度,其中,每个值/分量通常描述对应对象的位置/定位或取向/方向的独立属性。当然,在许多情况下,例如,如果一个或多个部件被认为是固定的或不相关的,则可以用较少的部件来考虑或表示放置状态或姿态(例如,如果所有对象都被认为处于相同的高度并且具有水平取向,则四个部件可以提供对象姿态的完整表示)。在下文中,术语“姿态”用于指代可以由一至六个值(对应于最大可能的自由度)表示的位置和/或取向。该描述将集中在其中姿态具有最大自由度的实施例和示例上,即,位置和取向中的每个的三个自由度引起总共六个自由度(6DoF)。姿态因此可以由表示六个自由度的六个值的集合或向量来表示,因此姿态向量可以提供三维位置和/或三维方向指示。然而,将意识到,在其他实施例中,姿态也可以由更少的值来表示。
在许多应用中,服务器处呈现的场景的三维图像表示可以通过使用例如深度感测相机根据对真实世界的场景或环境的捕获来生成。这允许视觉属性与三维信息一起被捕获。为了充足地捕获场景,使用了与不同观看姿态相对应的通常非常高数量的捕获结果。在一些应用中,可以使用几百或甚至几千幅图像(具有相关联的深度信息)来提供不同观看姿态下的整个场景的准确详细表示。
场景的虚拟数据表示是提供有利的用户体验的关键因素。要求描述场景的数据提供对视觉属性和空间属性这两者的准确表示。同时,减少表示场景所需的数据量至关重要,因为在许多应用中,这往往是针对能够实现的质量的限制因素。
特别地,要求向图像合成装置101提供足够的信息,以允许其在本地生成与期望观看姿态相对应的合适图像,例如通过执行视点移位来实现这一点,这对于本领域技术人员来说是已知的。然而,同时要求尽可能将发送的数据量保持为低并且将等待时间保持为最小。在许多情况下,受限的通信带宽是寻求以高质量和低等待时间提供高质量用户体验的限制因素。
另外,从深度感测相机的捕获到环境/场景的数据表示的转换通常非常具有挑战性,并且可能会引入错误或伪影。例如,在一些应用中,所捕获的数据可以用于开发现实世界场景的三维模型。然后可以通过从特定视点评价模型来生成被提供有三维虚拟现实体验的用户的观看图像。在其他应用中,可以直接根据所捕获的图像和深度信息来生成针对特定视口或视点的图像,其方法例如为选择最接近的捕获图像中的一幅或多幅图像并执行视点移位以对应于所期望的视点,或者在一些情况下为直接使用所捕获的图像。
在当前情况下,在图像域中用图像集合和深度数据来表示场景。在许多实施例中,图像可以提供反映给定观看姿态的视图的视觉信息,并且深度数据可以表示图像中像素或对象的深度。特别地,每幅图像可以对应于针对场景的给定观看姿态的给定捕获结果,其中,深度数据是伴随的深度图,这对于本领域技术人员来说将是已知的。在一些实施例中,图像可以例如是纹理图集图像或纹理图,并且深度数据可以是提供场景的网格和纹理表示的网格,这将在后面更详细地描述。
图像数据流生成装置103因此可以包括表示观看姿态集合下的场景的图像和相关联的深度数据,并且特别地,图像和深度数据可以是捕获的数据。图像数据流生成装置103因此存储通过针对离散观看姿态集合的具有深度的图像集合得到的3D场景表示。可获得这样的图像的观看姿态也将被称为参考或锚观看姿态,而这些图像将被称为参考或锚观看图像。在通过针对离散的参考视点/位置/姿态存储的观看数据描述/引用场景的系统中,这些内容在本领域也被称为锚视点/位置/姿态,并且在下文中,术语“参考”和“锚”将等效/相同地使用。通常,当已经通过捕获不同点/位置/姿态下的图像来捕获真实世界环境时,这些捕获点/位置/姿态也是参考/锚点/位置/姿态。
在一些实施例中,参考/锚观看图像可以例如是完整的半球形图像,其覆盖例如360°方位角范围和180°仰角范围。在其他实施例中,锚图像可以覆盖较小的视角,例如,360°或180°方位角范围和40°仰角范围。
锚图像还可以被划分成图像部分,并且典型地,图像数据流生成装置103可以存储针对锚姿态的大量这样的锚图像部分。在一些实施例中,可以通过(主动)分割或划分锚图像来生成图像部分。在其他实施例中,图像部分可以例如包括针对给定锚姿态可用的所有数据,即,图像部分可以是针对给定锚姿态的全体图像。图像部分可以特别通过平铺锚观看图像来生成。替代地,可以使用重叠的图像部分。
图像部分常常仍然可能相对较大,并且例如锚图像可以被划分成4至20个较小的图像部分/图块。例如,每个图像部分可以具有60°方位角和22.5°仰角。
图像数据流生成装置103因此包括通过图像部分集合和相关联的深度图得到的场景的(可能是部分的,但通常基本上是完整的)三维图像表示。图像数据流生成装置103可以向图像合成装置101提供相关数据,以允许其从期望的绘制观看姿态在本地合成图像,该期望的绘制观看姿态通常可以不同于锚/参考观看姿态。另外,该系统可以支持灵活动态的操作,其中,相关图像数据被连续地发送到图像合成装置101,使得它能够执行合成。因此,图像数据流生成装置103不仅仅将所有存储的数据发送到图像合成装置101以进行处理。这样的方法将是不切实际的,因为它将要求传送和存储极其大量的数据,而这在大多数应用中是不可行的。此外,它将不适合用于场景可能改变的动态场景。
图像数据流生成装置103可以特别从图像合成装置101接收对数据的请求(例如以图像合成装置101提供针对要执行的合成的观看姿态指示的形式)。随着请求的改变(例如由于用户移动其头部以环顾四周),要求新的图像数据并且将其从图像数据流生成装置103发送到图像合成装置101,以允许其合成所要求的视图。因此,可以由图像数据流生成装置103生成连续的图像数据流并将其发送到图像合成装置101。
然而,图1的方法不是发送全体锚图像,而是基于作为图像部分的流的数据流。特别地,当要求合成时,图像数据流生成装置103可以将适当的图像部分发送到图像合成装置101。由于仅要求发送所需的图像部分,因此该方法可以降低数据速率要求。同时,图像部分可用足够大以提供有效的管理和编码等。
然而,对于这样的系统,关键问题是选择并优先处理从图像数据流生成装置103向图像合成装置101发送哪些图像部分。
对于每个光强度/纹理图像部分,图像数据流生成装置103存储相关联的深度图,该深度图提供针对光强度/纹理图像部分的像素的深度信息。该深度图通常可以包括深度值,该深度值指示在与深度值的位置相对应的观看方向上从给定观看位置到对象的距离。对于从视点到对象的距离增大,深度值可以例如增大;或者对于从视点到对象的距离增大,深度值可以例如减小。在许多实施例中,深度值可以被提供为视差值。
深度信息和图像(纹理)信息的提供可以提供额外信息,从而允许图像合成装置101进行改进的处理。特别地,它可以允许或便于或改进针对除了锚观看姿态之外的其他观看姿态的观看图像的生成。
为了便于进行这样的处理,期望观看姿态之间的距离尽可能小。特别地,锚姿态之间的较大间距会引起可见的去遮挡区并且要求非常准确的深度图或网格模型来合成中间视图。绘制单元能够通过组合多个锚来填充去遮挡区,但是这要求更多的资源进行传输、解码和绘制,并且往往会降低质量。
然而,锚之间的小间距会引起比特率的增大,这对于诸如允许自由移动的虚拟现实应用之类的应用而言通常是特别高的。其原因是(相比于普通视频),具有深度的光场根据三个空间维度而变化。这意味着由于数据的高维度性,对固定元素(而非残差)的编码代价很高。
在下文中,将描述一种方法,该方法可以在许多情况下提供提高的性能,并且特别可以减轻或减少遮挡错误和伪影,同时仍维持低的数据速率和复杂度。它可以实施灵活高效的系统。该方法基于在确定哪些图像部分应被发送到图像合成装置101并用于合成时考虑特定的深度方面。特别地,发明人已经认识到,通过考虑指示图像部分中的深度转变的方向并且通常还有深度转变的大小的深度转变度量,可以提供改进的选择,该选择在许多情况下可以提供提高的性能和图像质量,特别是可以改善和减少因去遮挡而产生的伪影。
针对图像部分的深度转变度量可以指示在图像平面(特别可以是图像部分/图像部分的图像的图像平面(或平行平面))中的深度转变的方向。
首先将关于其中图像数据流生成装置103可以是相对较低的复杂度和“哑”服务器的实施例来描述该方法,在这个意义上,图像合成装置101要做出关于要发送哪个(哪些)图像部分的很多决定。特别地,图像合成装置101可以简单地(迭代地)请求特定的图像部分,并且图像数据流生成装置103可以简单地提供所请求的图像部分。
在这样的实施例中,图像数据流生成装置103可以包括存储装置201,该存储装置201被布置为存储图像部分集合(也被称为锚或参考图像部分)和表示不同观看姿态下的场景的图像的相关联的深度数据。例如,存储装置201可以包括针对不同锚姿态的多幅不同锚图像的图块。
图像数据流生成装置103还可以包括请求接收器203,该请求接收器203被布置为从远程源接收图像部分请求,该远程源在特定示例中是图像合成装置101。在该示例中,每个所接收的图像部分请求可以请求要发送到图像合成装置101的特定图像部分。例如,图像部分请求可以识别特定锚图像的特定图块。
请求接收器203被耦合到选择器205,选择器205进一步被耦合到存储装置201。选择器205可以响应于图像部分请求而选择对应的图像部分并从存储装置201中检索它。例如,选择器205可以包括查找表,该查找表将图像部件请求的标识转换为存储装置201中的适当位置,然后可以检索在该位置处的数据。
选择器205还被耦合到发送器207,该发送器207被馈送检索到的图像部分。发送器207被布置为将检索到的图像部分发送到图像合成装置101。因此,响应于接收到请求特定图像部分的图像部分请求,图像数据流生成装置103检索所请求的图像部分并将其发送回图像数据流生成装置103。图像部分的发送还包括针对图像部分的相关联的深度数据的发送。
另外,图像数据流生成装置103包括度量处理器209,该度量处理器209被布置为生成针对在存储装置201中存储的图像部分的深度转变度量。因此,对于图像部分集合(通常为但不是一定包括所有存储的图像部分)中的每个图像部分,确定深度转变度量。针对图像部分的深度转变度量是至少指示图像部分中的深度转变的方向并且通常还指示深度转变的大小的度量。深度转变通常可以是在图像中发生的最大深度转变。
例如,可以生成针对图像部分的深度转变度量,以指示从前向后的最大深度转变的方向。深度转变度量可以特别指示这是在从右到左还是从左到右的方向上发生的。因此,在许多实施例中,深度转变度量的方向指示可以是一维方向,并且特别可以是水平方向。在许多实施例中,这将是特别有利的方法,因为在大多数实施例中,视图移位是在水平方向上的(反映人眼的水平配置,并且观看高度通常不变)。
在许多实施例中,度量处理器209还确定深度转变的大小,并且特别可以确定该台阶的深度梯度。
作为特定示例,度量处理器209可以基于图像部分的深度图将图像部分划分成具有基本相同的深度值的不同分割部分。在一些实施例中,这种分割还可以考虑视觉因素,例如通过确定分割部分边界以确保分割部分内的区域具有基本相同的视觉属性(例如,相同的纹理或颜色)来实现。
然后,度量处理器209可以针对两个分割部分之间的边界的每个点(例如,像素)确定深度梯度,包括梯度的大小和方向这两者。例如,可以确定边界左侧的一小组像素的深度平均值与边界右侧的一小组像素的深度平均值之间的深度台阶并将其用作深度梯度,其中,符号指示方向。然后可以通过合适的空间低通滤波器对所得到的深度梯度进行低通滤波,并且可以识别出最大滤波深度梯度并将其用作针对该图像部分的深度转变度量。因此,生成指示图像部分中的深度转变的属性的单个值。在一些实施例中,深度转变度量可以是指示在水平方向上的深度转变度量的方向的单个比特。例如,只可以使用确定的符号位。
在许多实施例中,可以确定深度转变度量以反映表示在针对图像部分的深度图中存在的最主要的深度台阶的梯度向量。
作为示例,深度转变度量可以被确定为表示超过阈值的深度梯度的平均值。可以通过确定深度梯度幅值超过给定阈值的像素子集的平均值来确定深度转变度量。例如,度量处理器209可以针对图像部分中的所有像素确定深度梯度,例如确定为当前像素左侧的一组像素的深度值减去当前像素右侧的一组像素的深度值。然后(可能在空间低通滤波之后)可以继续进行操作以拒绝所有低于给定阈值的梯度值,并且将深度转变度量确定为其余梯度值的平均值。
在使用三角形网格表示的情况下,可以通过分析三角形网格中的相邻顶点之间的3D位置的差异来确定深度转变度量。合适的深度转变度量可以是网格中任意两个连接顶点之间出现的最大3D距离。
将意识到,度量处理器209可以在任何合适的时间(例如特别是在接收到锚图像时)确定深度转变度量。还将意识到,在一些实施例中,度量处理器209可以被布置为通过从远程源(主动地或被动地)检索深度转变度量来确定深度转变度量。例如,可以在内容生成期间确定深度转变度量并将其与锚图像一起提供给图像数据流生成装置103。
在该示例中,图像数据流生成装置103被布置为将深度转变度量发送到图像合成装置101,该图像合成装置101被布置为在确定要检索哪个图像部分时使用该数据。如将更详细地描述的,在一些实施例中,可以不将深度转变度量发送到图像合成装置101,但是可以由图像数据流生成装置103使用深度转变度量在本地确定要向图像合成装置101发送哪些图像部分。
在将深度转变度量发送到图像合成装置101的示例中,这可以在任何合适的时间以任何合适的格式来完成。例如,在一些实施例中,可以在服务的设置期间将整个深度转变度量集合发送到图像合成装置101。这在许多实施例中会是符合实际的,因为表示深度转变度量所要求的数据会非常小。例如,如前所述,在许多实施例中,深度转变度量可以由指示图像部分中的主要深度转变的水平方向的单个比特来表示。对于采用例如100幅锚图像(每幅图像被划分成例如10个图像部分)的典型实施方式,整个深度转变度量集合可以由少于1kbits来表示。即使对于(例如通过一个8位字)包括大小的实施例,整个深度转变度量集合也可以由少于1KB的数据来表示。
在其他实施例中,例如当深度转变度量由长字长来表示并且存在大量图像部分时,图像数据流生成装置103可以被布置为将深度转变度量数据动态发送到图像合成装置101。例如,当将新的图像部分发送到图像合成装置101时,图像数据流生成装置103可以包括针对在所发送的图像部分的邻域中的所有图像部分的深度转变度量数据,因为这些是将来选择的候选者。
图3图示了根据本发明的一些实施例的图像合成装置101的元件的示例。图3的图像合成装置101可以特别与图2的图像数据流生成装置103互通工作。
图像合成装置101包括数据接收器301,该数据接收器301被布置为从图像数据流生成装置103接收数据流。特别地,数据接收器301在适当时接收不同锚图像的图像部分。
图像合成装置101还包括图像合成器303,该图像合成器303被馈送从图像数据流生成装置103接收的图像部分。另外,图像合成装置101包括姿态确定器305,该姿态确定器305被布置为确定用来绘制图像的绘制观看姿态。
可以在不同应用中以不同方式确定绘制观看姿态输入。在许多实施例中,可以直接跟踪用户的身体移动。例如,调查用户区的相机可以检测并跟踪用户的头部(或者甚至眼睛)。在许多实施例中,用户可以佩戴能够由外部单元和/或内部单元跟踪的VR头戴式设备。例如,头戴式设备可以包括加速度计和陀螺仪,该加速度计和陀螺仪提供关于头戴式设备以及因此头部的移动和旋转的信息。在一些示例中,VR头戴式设备可以发送信号或者包括(例如视觉)标识符,其使得外部传感器能够确定VR头戴式设备的位置。
在一些系统中,可以通过手动途径(例如由用户手动控制操纵杆或类似的手动输入部)来提供绘制观看姿态。例如,用户可以通过以下操作在虚拟场景中手动移动虚拟观看者:用一只手控制第一模拟操纵杆,并且通过用另一只手手动移动第二模拟操纵杆来手动控制虚拟观看者注视的方向。
在一些应用中,可以使用手动方法与自动方法的组合来生成绘制观看姿态。例如,头戴式设备可以跟踪头部的取向,并且观看者在场景中的移动/位置可以由用户使用操纵杆来控制。
绘制观看姿态被馈送到图像合成器303,该图像合成器303被布置为合成与绘制观看姿态相对应的图像。图像合成器303可以被特别布置为执行视点移位等以从新的视点合成图像。将意识到,技术人员将会知道用于这样的视图移位/合成的许多不同的方法和算法,并且可以使用任何合适的方法。
图像合成器303可以被特别布置为基于图像部分来执行图像合成。特别地,当合成图像时,图像合成器303可以将图像划分成多个图像部分、区域或图块。对于每个图像部分,图像合成器303可以选择一个或多个所接收的图像部分,并且将视点移位应用于(一个或多个)图像部分,以在合成图像中生成对应的图像部分。
为了能够合成针对当前绘制观看姿态所要求的观看图像,图像合成装置101包括用于从图像数据流生成装置103检索必要的图像部分的功能。
特别地,图像合成装置101包括合成选择器307,该合成选择器307被布置为选择应当从图像数据流生成装置103检索哪个(哪些)图像部分并将其用于合成。合成选择器307被耦合到检索器309,该检索器309被布置为从图像数据流生成装置103检索所选择的(一个或多个)图像部分。检索器309可以例如被布置为使用合适的消息格式向图像数据流生成装置103发送图像部分请求。例如,图像部分请求可以直接识别所期望的(一个或多个)图像部分。作为响应,图像数据流生成装置103将发送所请求的图像部分。
图像合成装置101还包括度量存储装置311,该度量存储装置311被布置为存储从图像数据流生成装置103接收的深度转变度量。下面的描述将假定针对所有可能的图像部分的深度转变度量被存储并且在图像合成装置101中可用,例如因为这些内容是在服务初始化时下载的。度量存储装置311因此存储针对已经接收的图像部分的深度转变度量,并且更重要地还存储针对尚未接收的图像部分的深度转变度量。
将意识到,在一些实施例中,可以在操作期间接收深度转变度量,并且可以在任何给定时间仅将针对图像部分的子集的深度转变度量存储在度量存储装置311中。例如,可以发送针对最后请求的图像部分的图像姿态的邻域中的图像姿态的图像部分的深度转变度量。例如,图像数据流生成装置103可以在接收到对图像部分的请求时还继续识别具有满足距离准则的锚姿态的所有锚图像/图像部分。该距离准则可以包括所请求的图像部分取向,以例如仅选择针对其他观看位置的图像部分的子集,但是在许多实施例中,图像数据流生成装置103可以简单地识别具有锚观看姿态的锚图像,该锚观看姿态的位置足够接近所请求的视图的位置并且包括这些图像的所有图像部分。然后,可以确定已经针对所识别的图像部分发送了哪些深度转变度量,并且将其余的深度转变度量与图像部分一起发送。
合成选择器307被布置为从图像部分集合中选择第一图像部分。第一图像部分被选择用于由图像合成器303针对绘制观看姿态进行合成的图像的图像部分/区域(或由此确定的图像部分/区域,例如通过模型评价(例如对用户的移动进行建模)来预测未来的绘制观看姿态而确定的图像部分/区域)。
特别地,可以通过合成不同图像部分并然后组合这些部分来执行对合成图像的合成。因此,对于合成图像的给定图像部分,图像合成器303可以通过将视点移位应用于从图像数据流生成装置103接收的所接收的锚图像部分来生成输出图像。可以对合成图像的所有图像部分重复该操作以生成完整图像。然而,由于基于图像部分的合成,不同图像部分之间的边界处可能存在一些不一致。在许多实施例中,这些不一致足够小以至于不会引起不可接受的伪影和降级。另外,在许多实施例中,图像合成器303可以被布置为执行后处理以减轻这样的不一致。例如,深度调整可以应用于图像部分边缘周围的网格,以生成一致的深度图,纹理可以叠加在该深度图上。作为另一示例,可以在边缘处将合成图像部分混合在一起以提供平滑转变而没有强烈的不一致。
针对合成图像的给定图像部分,合成选择器307可以被布置为选择应当用于对合成图像的该图像部分(也将被称为合成图像部分)进行合成的锚视点。因此,对于给定的合成图像部分,合成选择器307被布置为选择哪个图像部分应当被用作从其执行视点移位的参考/锚图像部分。可以从所有可用图像部分(包括从锚图像,这些锚图像不一定是具有最接近绘制观看姿态的锚姿态的那些锚图像)中选择该图像部分。
因此,选择器205通常将被布置为从锚图像部分集合中选择针对要由图像合成器303合成的图像的图像区段(图像部分)的锚观看姿态/图像部分。该锚图像部分集合可以特别是与合成图像部分相对应的那些锚图像部分,并且特别是表示场景的相同区域的那些锚图像部分。通常,对于合成图像和锚图像使用相同的分割,并且对于接近锚姿态的绘制观看姿态,对应的图像部分仅仅是在它们各自的图像中具有相同位置的图像部分。
选择器可以被布置为通过应用包括对锚图像部分的深度转变度量的考虑在内的判定准则来选择第一图像部分作为用于对合成图像部分的合成的图像部分。选择准则可以包括其他考虑因素,并且通常还可以考虑绘制观看姿态与针对锚图像部分的锚姿态之间的观看姿态的差异。
在许多实施例中,绘制观看姿态可以用于选择候选锚图像部分集合,选择器205可以基于深度转变度量在候选锚图像部分集合之间选择第一图像部分。例如,可以通过在相反方向上的两个最接近的锚图像中选择对应的锚图像部分来确定候选锚图像部分集合。例如,可以选择最接近绘制观看姿态的左侧和右侧的锚图像,并且将这两幅图像中处于与合成图像部分相同的图像位置的图像部分选择为候选者。
方向可以是图像平面方向,并且特别可以是图像部分/图像部分的图像的图像平面(或平行平面)中的图像平面方向。图像部分的从前向后的深度转变的方向可以是图像平面中从更加前景对象/区/像素到更加背景对象/区/像素转变的方向。从针对图像部分的观看姿态到绘制观看姿态的方向可以是图像部分/图像的图像平面中的方向。它可以是从沿着正交于图像平面的方向的观看姿态到图像平面的投影到沿着正交于图像平面的方向的绘制观看姿态到图像平面的投影的方向。
在其他实施例中,可以选择锚姿态满足给定的接近度要求(例如,欧几里德距离低于阈值)的锚图像或图像部分而落入候选集合。
然后,选择器205可以评价候选图像部分的深度转变度量以选择图像部分。
合成选择器307特别可以根据深度转变的方向来选择第一图像部分。特别地,合成选择器307可以被布置为选择从前向后的主/主要深度转变发生的方向与所要求的视点移位的方向相反的锚图像部分,而不是选择从前向后的主/主要深度转变发生的方向与所要求的视点移位的方向相同的锚图像部分。例如,如果两个候选锚图像部分包括从前景对象到背景的主要深度转变并且背景在前景对象的右侧,则从前向后的深度转变将在朝右的方向上。如果第一候选锚图像部分是针对绘制观看姿态的左侧的锚姿态的并且第二候选锚图像部分是针对绘制观看姿态的右侧的锚姿态的,则选择器205将选择第二候选锚观看姿态,而不是第一候选者。
在许多实施例中,使用了更加渐进的方法。例如,可以针对多个锚图像部分(例如,绘制观看姿态的给定距离内的所有图像部分)确定代价量度,该代价度量取决于包括深度转变度量在内的多个参数。例如,可以确定代价量度,其随着绘制观看姿态与图像部分的锚姿态之间的距离的增大而增大,并且还根据从绘制观看姿态到锚姿态的向量与由深度转变度量表示的主要深度转变的方向之间的对齐而减小。合成选择器307然后可以选择对于其来说代价量度最小化的锚姿态。
在一些这样的实施例中,还可以考虑深度转变的大小。例如,深度转变大小越大,代价函数越高。作为另一示例,深度转变大小超过阈值可以使代价函数增大固定值。
选择器可以将对第一图像部分的选择特别偏向于以下图像部分:针对该图像部分,深度转变的从前向后的深度转变的方向与从针对图像部分的观看姿态到绘制观看姿态的方向相反。如上所述,该偏向可以特别是仅选择两个方向彼此充分相反(例如,彼此之间的角度大于例如90°、120°或150°)的图像部分。
选择器因此可以考虑两个方向,例如,两者都在图像部分/图像的图像平面中的方向。方向例如是用向量表示的。
一个方向是台阶从前向后的方向,即,台阶从前景到背景的方向。例如,对于图像部分,该方向可以是从左到右的,例如从前景到背景的最大转变的方向可以是从左到右的。作为特定示例,图像部分的左侧可以是前景对象(例如,树的树干的部分),而右侧可以是背景(例如,天空)。对于这样的示例,因此,台阶从前向后的方向是从左到右的方向,即,深度转变的从前向后的深度转变是在从左到右的方向上。
选择器还可以考虑第二方向,该第二方向是从针对图像部分的观看姿态(即,图像部分的锚姿态)到绘制观看姿态的。例如,绘制观看姿态可以被偏移到针对图像部分的锚姿态的右侧,在这种情况下,方向是从左到右的方向,或者绘制观看姿态可以被偏移到锚姿态的左侧,在这种情况下,方向是是从右到左的方向。
选择器可以基于这两个方向之间的关系来偏置选择。特别地,选择器将选择偏向于这些方向彼此相反的图像部分。例如,可以通过考虑相对方向的代价函数来引入偏置,并且针对方向之间的提高的对齐(方向之间的减小的角度)来增大代价值。
该偏置可以取决于图像平面中的方向之间的相关度/对齐度。
将意识到,不需要明确计算或确定图像平面中的方向和点以执行偏置。
这样的方法反映了发明人的认识,即,当两个方向相反时,主深度转变将引起在移位到绘制观看姿态时发生较多的遮挡,并因此使得必要的去遮挡操作较少,而当两个方向都处于相同方向时,主深度转变将引起在移位到绘制观看姿态时发生较少的遮挡(并因此使背景发生较多的去遮挡),并因此使必要的去遮挡操作较多。
因此,特定选择偏置可以提供在实际实施中提供实质性优点的特定选择偏置。
合成选择器307因此选择第一图像部分以用于合成要针对绘制观看姿态合成的图像的特定图像部分。该选择可以被馈送到图像合成器303,然后图像合成器303基于所选择的锚图像部分来继续执行合成。在所选择的锚图像部分已经被接收并且先前被存储的情况下,图像合成器303可以检索图像部分并将其用于合成。
在图3的图像合成装置101中,该选择也被馈送到检索器309,该检索器309继续从图像数据流生成装置103请求所选择的锚图像。在许多实施例中,该检索可以被布置为取决于是否已经接收到图像部分,即,检索器309可以首先评价是否已经接收到合适的锚图像部分并且始终将其存储,如果没有接收到,则检索器309可以从图像数据流生成装置103请求图像部分。
将意识到,在由图像数据流生成装置103提供给图像合成装置101的所选择的锚图像部分中可能存在延迟,并且图像合成装置101可以以不同方式补偿这样的延迟。例如,合成选择器307可以基于根据用户输入生成的预测绘制观看姿态来执行选择。作为另一示例,与所请求的绘制观看姿态相比,可以将延迟引入到用于合成的绘制观看姿态,以适应传输延迟。
所描述的方法特别可以使用基于图像部分/图块的发送和具有相关联的深度(例如,深度图和/或网格)的图像数据的绘制来提供实际的流回放。对于给定的用户观看方向和给定的3D场景深度分布,该系统会试图优先发送图像部分(例如,预定义的图块),使得首先发送对图像质量影响最大的图像部分(优先级较高),并且稍后发送对图像质量影响较小的图块。
所描述的方法利用深度转变度量来确定接下来应发送哪个(哪些)图像部分,并由此确定图像部分的发送的优先级和顺序。该方法可以例如使用预先计算的深度台阶的大小和方向作为深度转变度量,该深度转变度量被发送并被存储为元数据。然后可以使用该数据来评价应将哪个图像部分从图像数据流生成装置103发送到图像合成装置101。
发明人已经认识到:该方法可以提供提高的性能,并且特别地,该方法可以减少或减轻因视点移位引起的去遮挡而可能发生的错误或伪影。
可以通过考虑图4的情况来说明该问题,图4示出了左眼图像和右眼图像以及下面的相关联的深度图。深度图编码是这样的:白色表示靠近相机,而黑色表示远离相机。该示例示出了背景对象前面的前景对象。为简单起见,假定背景仅仅是恒定的白色背景,在下面的描述中能够将其忽略。
能够使用基于深度图像的绘制,根据具有相关联的深度图的左图像或根据具有相关联的深度图的右图像来合成中间视点。作为替代方案,可以将深度图转换为网格,并且可以使用标准图形纹理映射(使用左图像或右图像作为参考)来合成中间视点。
在该示例中,如果使用左图像来合成中间视点,则如图5所示,保留了图案化的背景对象的信息。之所以如此,是因为图像中存在的前景对象与背景对象之间的单个深度台阶边缘被取向为不会出现额外的去遮挡并且仅当从左图像执行视图移位时由两个对象的相对视差移位产生遮盖/遮挡。
然而,如果中间视点是使用右图像合成的,则如图6所示,背景对象被部分去遮挡。之所以如此,是因为当相对于左图像执行视差移位时,图像中存在的单个深度台阶边缘会引起去遮挡。在该示例中,由于根据右图像绘制中间视点时会发生背景对象的“去遮盖”或去遮挡,因此中间视点的合成带有错误/伪影。局部背景对象是“拉伸的”或者根据所使用的特定绘制方法形成了孔。
图5和图6图示了当图像中存在单个深度台阶并且其具有已知取向时能够从单个观点实现正确的视图合成。然而,通常在图像中将存在多个对象,因此将以不同的深度台阶方向呈现许多深度台阶。在图7中图示了这种情况,其中,对图4-6的示例扩展出第三对象,该第三对象位于前景对象的后面。在这种情况下,在使用左参考/锚观看图像的情况下和在使用右参考/锚观看图像的情况下,都会发生去遮挡。因此,在示例中,图像现在包含在相反方向上的两个深度台阶(对于两个背景对象,台阶从前向后分别在左方向和右方向上)。使用左图像或右图像无法正确合成中间观看图像,因为在两种情况下都将发生去遮挡。
然而,在执行基于图像部分的合成的所描述的方法中,这可以实现,并且使用深度转变度量来选择存在哪些图像部分并将其用于合成可以解决该问题。
这可以通过图8的示例来说明,在图8中,图7的图像均由12个图像部分/图块来表示。每个图块对应于图像的可能重叠区域。平铺的第一个优点是能够减少需要发送的数据量,因为可以只选择图像中接近绘制观看姿态并且小的视点移位需要图像更新的部分。包含较少3D复杂度的图块以及距离绘制观看姿态较远的图块可能具有较小的更新优先级,因为可以使用不同的视点(其已在客户端出现)以可接受的质量对其进行绘制。
因此,平铺具有流式发送六自由度(6DoF)图像的优点,因为它可以允许更灵活更精细地提供图像数据。然而,另外,发明人已经认识到,可以根据绘制观看姿态(因此在示例中根据用户的位置和移动)和深度转变度量,通过在回放期间选择图块来解决遮挡问题。在如图8所示的平铺结构的情况下,现在能够使用来自不同参考/锚视点的图块的组合来构成针对更复杂场景的中间视点,其中,图块的选择取决于主要深度转变在图块中的方向(可能还有大小),如前所述。在图9中图示了用于图8的示例的示例性的基于图块的合成。该方法可以特别提高去遮挡性能,因为它减少了冲突的深度转变的量,并且因此减少了去遮挡,以选择哪个锚图像/图像部分用于视图移位操作。
作为该方法的非常特别的示例,图像合成装置101可以在每个图块的6DoF回放期间使用以下步骤从附近的参考锚图块集合中选择最佳参考锚图块:
1、确定其锚点位置pi最接近当前绘制观看姿态pviewer的N个参考锚图像部/图块i的集合;
2、读取包含反映每个参考视点i的主要深度梯度向量的深度转变度量的元数据;
3、针对每个图块,选择基于深度转变度量的代价函数被最小化的锚图块。
合适的深度转变度量可以是主要深度梯度向量,并且合适的代价函数可以是主要深度梯度向量与连接参考视图位置和观看者位置的向量(在参考视图平面上)的投影的内积的倒数。
例如,令qi≡pviewer-pi为连接锚/参考观看姿态i和绘制观看姿态的位置的向量。令dij为从附近的锚点姿态pi指向图块j中心的方向向量。注意,能够根据图块在完整图像中的位置以及用于创建锚图像(例如,透视图或等距柱状图像)的特定投影来计算该方向向量。令平面P为与dij正交的平面。现在我们能够确定位于平面P中并且按照定义与视图方向向量dij正交的qi的分量。令表示该分量。现在,为图块j选择的参考视点i应当在所有附近的视点i上使内积最大化(对应于使作为内积的倒数的代价函数最小化):
如果向量和gij具有相同的方向,则观看者相对于参考视点i被定位为使得遮盖/遮挡发生在遮挡/深度台阶处。因此,上面给出的内积的最大值是一个有用的决策度量。
先前的示例集中于在图像合成装置101处执行对选择哪个图像部分的决策的示例,并且特别是实施“智能”图像合成装置101和“哑”图像数据流生成装置103的方法。
然而,在一些实施例中,该决策算法可以例如在图像数据流生成装置103中执行。例如,图像合成装置101可以被布置为将绘制观看姿态直接发送到图像数据流生成装置103。图像数据流生成装置103可以在本地存储所生成的深度转变度量数据,并且参考合成选择器307描述的过程可以替代地由选择器205来执行。然后,可以将所选择的锚图像部分与例如应当基于所接收的锚图像部分合成哪幅合成图像的哪个图像部分的指示一起发送到图像合成装置101。
在这样的实施例中,图像合成装置101不需要执行复杂的选择,并且不需要接收和存储深度转变度量数据。而是,图像合成装置101可以简单地接收锚图像部分并且执行所指示的合成。因此,这样的方法可以允许实施低复杂度的图像合成装置101。
在一些实施例中,图像部分可以对应于图像的预定分区。例如,如在图8和图9的示例中,可以将矩形图像划分成预定的多个正方形图块,其中,每个正方形对应于可独立选择的图像部分。
这样的方法可以允许低复杂度的实施方式,但是仍然可以提供出色的性能。
在一些实施例中,图像部分(或至少一些图像部分)可以是针对的不同观看姿态的场景的多面投影的面,例如,在立方体图中的正方形或在二十面体中的三角形。
特别地,对于给定的视点,半球视图可以被划分成一起形成半球几何构造的对应的平面多边形的集合。在许多实施例中,这将便于视图合成操作,并且还将便于将正在接收的新的图像部分与先前接收的或预测的图像部分进行集成。与等距柱状投影相比,由于具有平坦面的多面投影,在标准GPU上绘制图像较为便宜,因为较少数量的三角形能够准确地描述与投影相关联的形状。对于具有足够数量的面的多面体投影(如二十面体投影)来说,平均投影变形要小于等距柱状投影的情况。此外,面提供对图像的自然分区。
在一些实施例中,图像数据流生成装置103可以包括分区器,该分区器被布置为通过对锚图像分区来生成至少一些图像部分。在一些实施例中,这种分区可以是预定的,例如,分区器可以使用常规平铺对图像分区。
然而,在许多实施例中,可以生成更加自由形状的分区或分割部分,并且特别地,可以通过取决于图像和/或深度图的属性的分割来生成图像部分。这可以例如允许特定对象由不同图像部分来表示,背景由另一独立的图像部分来表示等。
将意识到,可以使用任何合适的图像分割方法,而会不背离本发明。例如,可以生成具有一致的颜色和/或强度的分割部分或对应于诸如面之类的识别出的对象图像的分割部分,或者可以例如生成对应于具有相似深度值的区的分割部分等。将意识到,大量的分割算法和准则对于本领域技术人员而言将是已知的。
在一些实施例中,至少一些图像部分是重叠的。
在许多实施例中,允许重叠的图像部分而使得两个相邻的图像部分都包括针对重叠的边界区域的图像数据会是有益的。这会引起存储需求增加,并且会提高比特流的数据速率。然而,在许多实施例中,它可以允许提高编码效率(例如在编码块未与图像部分之间的边界对齐的情况下)。此外,重叠区域可以大大便于新的图像部分与(例如可能先前已经在图像合成装置101处生成的)其他图像部分的混合。
虽然先前的描述集中在使用标准图像和深度图进行的表示上,但是将意识到,在其他实施例中,也可以使用其他方法。
例如,图像可以包括纹理图集图像,该纹理图集图像包括来自场景的网格和纹理表示的纹理部分。这样的表示的示例可以在A.Collet等人的文章“High-qualitystreamable free-viewpoint video,ACM Transactions on Graphics(TOG)”(ACMSIGGRAPH 2015会议论文集,第34卷,第4期,2015年8月)中找到。
在这样的示例中,锚图像可以对应于最适合用于从锚点位置(区域)观看的纹理图集。与(不相交的)网格相结合的纹理图集可以形成对象或场景的几何模型。在这种情况下,图像部分可以例如是这样的图集中的一种与场景中的一个表面相对应的纹理。
在一些实施例中,图像部分(或它们中的至少一些)可以被预先编码。因此,它们可以以其中它们能够被直接包括在位流中的格式进行编码和存储,而没有任何代码转换或(重新)编码的要求。而是,可以简单地从存储装置中检索将要被包括在位流中的图像部分并将其添加到位流中,而无需进行编码操作。这可以极大地降低图像数据流生成装置103处的复杂度和资源要求并提供非常有效的操作。
在一些实施例中,可以基于针对图像部分的深度数据来确定深度转变度量。然而,所描述的原理和方法并不限于针对图像部分的深度数据(例如,接收到的并用于合成的数据)与深度转变度量之间的任何特定关系。还应注意,深度数据与深度转变度量之间不存在任何特定关系,或者以任何特定方式生成深度转变度量绝不是技术上的必要条件或实际要求。
实际上,在许多实施例中,可以通过评价和处理针对图像部分的深度数据来生成深度转变度量。另外,在许多实施例中,这的确可以由合成装置基于所接收的深度数据来执行。然而,在许多其他实际实施例中,可以例如在图像源处确定深度转变度量。例如,服务器可以生成深度转变度量,并且独立于深度数据而简单地将其提供给合成装置。在这样的实施例中,服务器可以基于深度数据来生成深度转变度量,但是这并不是必须的,并且实际上有可能在不考虑所生成的深度数据的情况下生成深度转变度量。例如,可以基于对图像部分的分析来确定深度转变度量(例如,可以分析图像以确定主要背景颜色(例如,覆盖最大区的颜色),然后分析图像部分以识别该颜色的区。如果该区与图像部分的侧面相邻,则能够基于该侧面是左侧还是右侧来确定深度转变的方向)。实际上,在一些实施例中,深度转变度量可以由操作者手动输入。因此,在许多实施例中,可以完全独立于针对图像部分的深度数据来确定针对图像部分的深度转变度量。不会由此产生技术上的困难,并且优选方法完全取决于个体实施例的要求和偏好。
还将意识到,能够以任何合适方式来使用(一幅或多幅)合成图像,并且这仅取决于在哪个上下文中应用所描述的原理的偏好。在许多典型的应用中,的确可以直接显示(一幅或多幅)合成图像,从而生成例如个人VR体验。然而,在其他实施例中,可以例如将(一幅或多幅)合成图像存储在合适的存储装置中或流式发送到潜在的大群人等中。的确,可以在适当时根据期望将合成图像用作任何其他图像。
还应注意,所描述的选择构思能够被实施在客户端侧、服务器侧,或者实际上是分布式的。
能够以包括硬件、软件、固件或它们的任意组合的任何合适形式来实施本发明。本发明可以任选地被至少部分地实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何合适方式在物理上、功能上和逻辑上实施。实际上,可以在单个单元中,在多个单元中或作为其他功能单元的部分来实施功能。正因如此,本发明可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元、电路和处理器之间。
虽然已经结合一些实施例描述了本发明,但是本发明并不旨在限于本文中阐述的特定形式。而是,本发明的范围仅由权利要求来限制。另外,虽然看起来是结合特定实施例描述了特征,但是本领域技术人员将认识到,可以根据本发明组合所描述的实施例的各种特征。在权利要求中,术语“包括”并不排除其他元件或步骤的存在。
此外,虽然被单独列出,但是多个单元、元件、电路或方法步骤可以由例如单个电路、单元或处理器来实施。另外,虽然各个特征可能被包括在不同的权利要求中,但是这些特征也可以被有利地组合,并且被包括在不同的权利要求中并不意味着特征的组合是不可行和/或不利的。而且,在一个权利要求类别中包括特征并不意味着限制于该类别,而是指示该特征在适当时等同地适用于其他权利要求类别。此外,权利要求中的特征的顺序并不意味着特征必须起作用的任何特定顺序,并且特别地,方法型权利要求中的各个步骤的顺序并不意味着必须以该顺序执行步骤。而是,可以以任何合适的顺序执行步骤。另外,单数引用并不排除多个。因此,对“一”、“一个”、“第一”、“第二”等的引用并不排除多个。权利要求中的附图标记仅作为说明性示例而提供且不应被解释为以任何方式限制权利要求的范围。

Claims (15)

1.一种图像合成装置,所述图像合成装置包括:
接收器(301),其用于从图像源接收所接收的图像部分和相关联的深度数据,所述图像部分是表示不同观看姿态下的场景的图像的部分;
确定器(305),其用于确定绘制观看姿态;
存储装置(311),其包括针对所接收的图像部分的图像部分集合中的每个图像部分的深度转变度量,针对图像部分的所述深度转变度量指示所述图像部分中的深度转变的方向;
选择器,其用于响应于所述绘制观看姿态和所述深度转变度量而选择所述图像部分集合中的第一图像部分;以及
检索器(309),其用于从所述图像源检索所述第一图像部分;
图像合成器(303),其用于根据包括所述第一图像部分的所接收的图像部分来合成至少一幅图像。
2.根据权利要求1所述的图像合成装置,其中,所述深度转变度量指示所述深度转变的大小。
3.根据前述权利要求中的任一项所述的图像合成装置,其中,所述选择器(307)被布置为响应于所述图像部分集合中的所述图像部分的观看姿态与所述绘制观看姿态之间的差异而进一步选择所述第一图像部分。
4.根据权利要求3所述的图像合成装置,其中,所述选择器(307)被布置为确定受到以下约束的所述图像部分集合:属于所述图像部分集合的任何图像部分的观看姿态与所述绘制观看姿态之间的差异低于阈值。
5.根据前述权利要求中的任一项所述的图像合成装置,其中,所述选择器(307)被布置为将所述图像部分集合确定为表示所述场景的与要由所述图像合成器(303)合成的图像的图像区段相同的区域的图像部分,所述图像部分集合中的所述图像部分表示不同观看姿态下的所述图像区域。
6.根据前述权利要求中的任一项所述的图像合成装置,其中,所述图像部分集合包括不同观看姿态下的并且与要合成的图像的相同部分相对应的图像部分。
7.根据前述权利要求中的任一项所述的图像合成装置,其中,所述选择器(307)被布置为将对所述第一图像部分的选择偏向于以下图像部分:针对该图像部分,所述深度转变的从前向后的深度转变的方向与从针对所述图像部分的观看姿态到所述绘制观看姿态的方向相反。
8.根据前述权利要求中的任一项所述的图像合成装置,其中,对所述至少一幅图像的所述合成包括根据所述第一图像部分来合成所述至少一幅图像的图像部分。
9.根据前述权利要求中的任一项所述的图像合成装置,其中,所述深度转变度量表示超过阈值的深度梯度的平均值。
10.一种用于生成图像数据流的装置,所述装置包括:
接收器(203),其用于从远程源接收图像部分请求;
存储装置(201),其用于存储图像部分集合和相关联的深度数据,所述图像部分是表示不同观看姿态下的场景的图像的部分;
度量生成器(203),其用于提供针对所述图像部分集合中的每个图像部分的深度转变度量,针对图像部分的所述深度转变度量指示所述图像部分中的深度转变的方向;
选择器(205),其用于响应于所述图像部分请求和所述深度转变度量而从所述图像部分集合中选择图像部分;以及
发送器(207),其用于将所选择的图像部分和相关联的深度发送到所述远程源。
11.根据权利要求10所述的装置,其中,所述发送器(207)被布置为将针对所述图像部分集合的所述深度转变度量发送到所述远程源。
12.根据权利要求10或11所述的装置,其中,所述图像部分请求包括观看姿态指示,并且所述选择器(205)被布置为响应于所述深度转变度量和所述观看姿态指示而选择图像部分。
13.一种合成图像的方法,所述方法包括:
从图像源接收所接收的图像部分和相关联的深度数据,所述图像部分是表示不同观看姿态下的场景的图像的部分;
确定绘制观看姿态;
存储针对所接收的图像部分的图像部分集合中的每个图像部分的深度转变度量,针对图像部分的所述深度转变度量指示所述图像部分中的深度转变的方向;
响应于所述绘制观看姿态和所述深度转变度量而选择所述图像部分集合中的第一图像部分;
从所述图像源检索所述第一图像部分;并且
根据包括所述第一图像部分的所接收的图像部分来合成至少一幅图像。
14.一种生成图像数据流的方法,所述方法包括:
从远程源接收图像部分请求;
存储图像部分集合和相关联的深度数据,所述图像部分是表示不同观看姿态下的场景的图像的部分;
提供针对所述图像部分集合中的每个图像部分的深度转变度量,针对图像部分的所述深度转变度量指示所述图像部分中的深度转变的方向;
响应于所述图像部分请求和所述深度转变度量而从所述图像部分集合中选择图像部分;并且
将所选择的图像部分和相关联的深度发送到所述远程源。
15.一种计算机程序产品,包括计算机程序代码单元,所述计算机程序代码单元适于当所述程序在计算机上运行时执行权利要求14的所有步骤。
CN201980077224.3A 2018-09-25 2019-09-16 图像合成 Active CN113170213B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18196617.7A EP3629585A1 (en) 2018-09-25 2018-09-25 Image synthesis
EP18196617.7 2018-09-25
PCT/EP2019/074617 WO2020064381A1 (en) 2018-09-25 2019-09-16 Image synthesis

Publications (2)

Publication Number Publication Date
CN113170213A CN113170213A (zh) 2021-07-23
CN113170213B true CN113170213B (zh) 2024-06-04

Family

ID=

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105612742A (zh) * 2013-10-14 2016-05-25 皇家飞利浦有限公司 重新映射深度图以用于3d观看
CN106068527A (zh) * 2014-03-07 2016-11-02 高通股份有限公司 用于立体数据的深度感知增强
CN106165415A (zh) * 2014-04-07 2016-11-23 诺基亚技术有限公司 立体观看
WO2016202837A1 (en) * 2015-06-16 2016-12-22 Koninklijke Philips N.V. Method and apparatus for determining a depth map for an image
CN107646126A (zh) * 2015-07-16 2018-01-30 谷歌有限责任公司 用于移动设备的相机姿态估计
WO2018060334A1 (en) * 2016-09-29 2018-04-05 Koninklijke Philips N.V. Image processing
CN108369743A (zh) * 2015-08-28 2018-08-03 帝国科技及医学学院 使用多方向相机地图构建空间

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105612742A (zh) * 2013-10-14 2016-05-25 皇家飞利浦有限公司 重新映射深度图以用于3d观看
CN106068527A (zh) * 2014-03-07 2016-11-02 高通股份有限公司 用于立体数据的深度感知增强
CN106165415A (zh) * 2014-04-07 2016-11-23 诺基亚技术有限公司 立体观看
WO2016202837A1 (en) * 2015-06-16 2016-12-22 Koninklijke Philips N.V. Method and apparatus for determining a depth map for an image
CN107646126A (zh) * 2015-07-16 2018-01-30 谷歌有限责任公司 用于移动设备的相机姿态估计
CN108369743A (zh) * 2015-08-28 2018-08-03 帝国科技及医学学院 使用多方向相机地图构建空间
WO2018060334A1 (en) * 2016-09-29 2018-04-05 Koninklijke Philips N.V. Image processing

Similar Documents

Publication Publication Date Title
KR102641527B1 (ko) 이미지 합성
KR102587230B1 (ko) 이미지 데이터 비트스트림을 생성하기 위한 장치 및 방법
JP7480163B2 (ja) 画像の奥行きマップの処理
CN113170213B (zh) 图像合成
JP7493496B2 (ja) 画像合成
US20220167013A1 (en) Apparatus and method of generating an image signal
US11823323B2 (en) Apparatus and method of generating an image signal
RU2778456C2 (ru) Устройство и способ формирования двоичного потока данных изображения
US20220174259A1 (en) Image signal representing a scene
RU2817803C2 (ru) Сигнал изображения, представляющий сцену

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant