CN116746142A - 图像合成系统及其方法 - Google Patents

图像合成系统及其方法 Download PDF

Info

Publication number
CN116746142A
CN116746142A CN202280011192.9A CN202280011192A CN116746142A CN 116746142 A CN116746142 A CN 116746142A CN 202280011192 A CN202280011192 A CN 202280011192A CN 116746142 A CN116746142 A CN 116746142A
Authority
CN
China
Prior art keywords
image
region
view
viewing
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280011192.9A
Other languages
English (en)
Inventor
B·W·D·范格斯特
B·克龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN116746142A publication Critical patent/CN116746142A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity

Abstract

一种图像合成装置包括第一接收器(201)和第二接收器(203),所述第一接收器被布置为接收描述三维场景的至少部分的三维图像数据,所述第二接收器被布置为接收观看者的观看姿态。图像区域电路(207)确定所述三维图像数据中的至少第一图像区域,并且深度电路(209)根据所述三维图像数据的深度数据来确定所述第一图像区域的深度指示。区域电路(211)确定针对所述第一图像区域的第一区域。视图合成电路(205)根据所述三维图像数据来生成视图图像,其中,所述视图图像表示从所述观看姿态看到的所述三维场景的视图。所述视图合成电路(205)被布置为响应于所述深度指示以及所述观看姿态与所述第一区域之间的距离而调整所述视图图像中的所述第一图像区域的透明度。

Description

图像合成系统及其方法
技术领域
本发明涉及图像合成系统,并且特别地但非排他性地涉及支持用于沉浸式视频应用的视图合成的图像合成装置。
背景技术
近年来,随着不断开发和引入新的利用和消费视频的服务和方式,图像和视频应用的种类和范围大大增加了。
例如,一种越来越流行的服务是以如下方式提供图像序列:观看者能够与系统主动且动态地交互以改变渲染的参数。在许多应用中,一个非常有吸引力的特征是能够改变观看者的有效的观看位置和观看方向,例如允许观看者在所呈现的场景中四处移动和环顾四周。
这样的特征能够特别允许向用户提供虚拟现实体验。这可以允许用户例如在虚拟环境中(相对)自由地移动并且动态地改变他的位置以及他正在观看的地方。通常,这样的虚拟现实(VR)应用基于场景的三维模型,其中,该模型正被动态地评价以提供具体请求的视图。从例如用于计算机和控制台的游戏应用中(例如在第一人称射击者的类型中),这种方法是众所周知的。其他示例包括增强现实(AR)应用或混合现实(MR)应用。
已经提出的视频服务或应用的示例是沉浸式视频,其中,在例如VR头戴式设备上回放视频以提供三维体验。对于沉浸式视频,观看者具有在所呈现的场景中环顾四周和四处移动的自由,使得这可以被感知为从不同的视点观看的感觉。然而,在许多典型方法中,移动的量被限制到例如名义视点周围的相对较小的区,该名义视点通常对应于已经执行了从其看到的场景的视频捕捉的视点。在这样的应用中,常常提供三维场景信息,该三维场景信息允许针对相对靠近(一个或多个)参考视点的视点的高质量视图图像合成,但是如果视点与参考视点偏离太多,则该三维场景信息劣化。
沉浸式视频通常也可以被称为6自由度(6DoF)或3DoF+视频。MPEG沉浸式视频(MIV)[1]是一种新兴的标准,其中,在现有视频编解码器之上使用元数据来实现和标准化沉浸式视频。
沉浸式视频的问题是观看空间(观看空间是其中观看者具有足够质量的6DoF体验的3D空间)是有限的。随着观看者移动到观看空间外部,因合成视图图像导致的劣化和错误变得越来越显著,并且可能导致不可接受的用户体验。由于所提供的3D视频数据没有为视图合成提供足够的信息(例如,去遮挡数据),因此在具体情况下在所生成的视图图像中可能发生错误、伪影和不准确。
例如,可以以场景的具有深度的多视图(MVD)表示的形式提供沉浸式视频数据。可以由多个在空间上有差别的相机捕捉场景,并且可以一起提供所捕捉的图像和深度图。然而,这样的表示没有包括足够的图像数据来用于被去遮挡的区的可能性随着视点与从其捕捉MVD数据的参考视点越来越不同而显著增加。因此,当观看者远离名义位置移动时,针对新视点的应当被去遮挡但在源视图中缺失的图像部分无法直接根据描述这样的图像部分的图像数据来合成。而且,不完美的深度图可能在执行视图合成时导致失真,并且在具体情况下成为视图扭曲的部分,该视图扭曲是合成操作的组成部分。合成的视点距原始相机视点越远,合成视图中的失真就越严重。因此,当用户从观看空间移动时,所渲染的视图图像的质量劣化,并且即使对于在观看空间外部的相对较小的移动,质量通常也可能变得不可接受。
为了解决这个基本问题,MPEG沉浸式视频(MIV)标准ISO/IEC JTC1 SC29 WG11(MPEG)N19212的第五版工作草案包括用于处理在观看空间外部的这样的移动的建议。该标准建议当观看者移动到观看空间外部时可以执行的不同操作和模式:
然而,虽然这些方法在一些场景中可以提供期望的性能,但是它们往往并非对于所有应用和服务都是理想的。它们可能在具体情况下相对复杂或不切实际,并且可能常常导致不太理想的用户体验。特别地,VHM_RENDER模式、VHM_EXTRAP模式导致失真视图但保持观看者取向,而VHM_FADE模式、VHM_RESET模式、VHM_STRETCH模式、VHM_ROTATE模式防止失真但最多打破沉浸,或者甚至可能使观看者感觉迷失方向。
因此,改进的方法将是有利的。特别地,允许改进的操作、提高的灵活性、改善的沉浸式用户体验、降低的复杂性、方便的实施、提高的合成图像质量、改进的渲染、增加的(可能是虚拟的)用户移动自由度、改善的用户体验和/或改进的性能和/或操作的方法将是有利的。
发明内容
因此,本发明试图优选地单独地或以任何组合减轻、缓解或消除上述缺点中的一个或多个缺点。
根据本发明的一个方面,提供了一种图像合成装置,所述图像合成装置包括:第一接收器,其被布置为接收描述三维场景的至少部分的三维图像数据;图像区域电路,其被布置为确定所述三维图像数据中的至少第一图像区域;深度电路,其被布置为根据针对所述第一图像区域的所述三维图像数据的深度数据来确定所述第一图像区域的深度指示;区域电路,其被布置为确定针对所述第一图像区域的第一区域;第二接收器,其被布置为接收观看者的观看姿态;视图合成电路,其被布置为根据所述三维图像数据来生成视图图像,所述视图图像表示从所述观看姿态看到的所述三维场景的视图;其中,所述视图合成电路被布置为响应于所述深度指示以及所述观看姿态与所述第一区域之间的距离而调整所述视图图像中的所述第一图像区域的透明度,所述视图合成电路被布置为随着所述观看姿态与所述第一区域之间的距离增加而增加透明度并且随着所述深度指示指出所述第一图像区域的深度减小而增加透明度。
在许多实施例和场景中,本发明可以提供改善的用户体验。对于例如AR、VR和/或MR应用,本发明可以允许改进图像质量与移动自由度之间的权衡。在许多情况下,该方法可以提供更具沉浸感的用户体验,并且可以非常适合用于沉浸式视频应用。该方法可以减少对质量劣化的感知,并且可以例如降低视图图像中的显著伪影或错误将导致体验感知是人为的或错误的风险。该方法可以例如向用户提供在场景中具有连贯且一致的移动的改善的体验。
该方法可以例如允许基于场景的有限捕捉的改进的AR/VR/MR应用。
透明度可以是半透明度。第一区域可以是三维图像数据被指定为据其足以进行图像合成的一组观看姿态。这样的指定可以响应于满足合成质量准则,所述合成质量准则包括第一图像区域的图像表示的质量度量超过阈值的要求,所述图像表示是(由视图合成电路)根据接收到的三维数据生成的。视图合成电路可以被布置为针对不同观看姿态确定针对根据三维图像数据生成的图像表示的质量度量。第一区域可以被生成为包括其中质量度量超过阈值的观看姿态。
三维图像数据可以是三维场景的全部或部分描述。姿态可以是位置和/或取向。
三维图像数据可以包括一组多视图图像。三维图像数据可以包括深度信息,例如,一幅或多幅图像的深度图。三维图像数据可以包括针对不同观看姿态的场景的多幅图像。三维图像数据可以包括场景的多视图加深度(MVD)表示。
图像区域可以对应于图像目标。在一些实施例中,术语第一图像区域可以用术语第一图像目标或第一场景目标代替。在一些实施例中,第一图像区域可以是单个像素。在一些实施例中,术语第一图像区域可以用术语第一像素代替。
可以使用任何合适的距离或差异度量来确定距离,即,可以对观看姿态与观看区域之间的距离使用任何合适的距离度量。
图像区域可以被具体生成为对应于输入图像中不对应于背景区域的区域。第一图像区域可以是不包括背景像素的图像区域。第一图像区域可以是表示场景的前景目标的图像区域。前景目标可以是不是背景目标的目标。
根据本发明的任选特征,所述视图合成电路被布置为:如果所述观看姿态与所述第一区域之间的所述距离超过阈值,则生成所述图像区域完全透明的所述视图图像。
这可以提供有利且通常高效的操作,并且可以允许在许多场景中改善用户体验。特别地,如果观看姿态与观看区域差异太大,则通常可能引起前景目标变得不可见。特别地,在许多场景中,使例如前景目标消失而不是以显著降低的质量来呈现可以为许多用户提供更直观的体验。
阈值可以取决于深度指示。在一些实施例中,阈值可以是零。
根据本发明的任选特征,所述视图合成电路被布置为:如果所述距离不超过所述阈值,则生成所述图像区域不完全透明的所述视图图像。
这可以提供有利且通常高效的操作,并且/或者可以允许在许多场景中改善用户体验。
根据本发明的任选特征,所述视图合成电路被布置为:如果所述距离不超过所述阈值,则生成所述图像区域不透明的所述视图图像。
这可以提供有利且通常高效的操作,并且/或者可以允许在许多场景中改善用户体验。在许多实施例中,其中,例如前景目标被感知为完全存在(完全不透明)或完全不可见/不存在(完全透明)可以是有利的。
根据本发明的任选特征,图像合成还包括:所述图像区域电路确定针对所述第一图像区域的第二区域,并且其中,所述视图合成电路被布置为:如果所述观看姿态在所述第二区域内部,则生成所述图像区域不透明的所述视图图像;如果所述观看姿态在所述第二区域外部并且在所述第一区域内部,则生成所述图像区域部分透明的所述视图图像;并且如果所述观看姿态在所述第一区域外部,则生成所述图像区域完全透明的所述视图图像。
在许多实施例中,这可以提供改善的用户体验。该方法可以例如在观看姿态足够接近捕捉姿态时呈现被感知为完全存在/不透明的前景目标,在观看姿态离捕捉姿态太远时呈现被感知为完全不存在/透明的前景目标,并且其中,透明度在这些区域之间逐渐增加。
第二观看区域可以在第一区域内部/被第一区域包围。
根据本发明的任选特征,所述第一区域取决于所述深度指示。
在许多实施例中,这可以提供有利的操作和/或改善的用户体验。
在一些实施例中,所述图像区域电路可以被布置为响应于深度指示而调整第一观看区域的形状和大小中的至少一项。
根据本发明的任选特征,所述第一区域取决于所述图像区域的形状复杂性。
在许多实施例中,这可以提供有利的操作和/或改善的用户体验。
在一些实施例中,所述图像区域电路可以被布置为响应于形状复杂性度量而调整所述第一观看区域的形状和大小中的至少一项。
在一些实施例中,所述图像区域电路可以被布置为响应于针对所述图像区域的视差变化度量而调整所述第一观看区域的形状和大小中的至少一项。
视差变化度量可以指示针对给定视点偏移的图像区域的像素的视差变化。
根据本发明的任选特征,所述第一区域取决于针对所述图像区域的视图偏移/姿态变化灵敏度。
在许多实施例中,这可以提供有利的操作和/或改善的用户体验。
根据本发明的任选特征,所述第一区域取决于针对在所述三维图像数据中包括的所述第一图像区域的去遮挡数据的量。
在许多实施例中,这可以提供有利的操作和/或改善的用户体验。
根据本发明的任选特征,用于根据所述距离来确定所述透明度的函数包括关于所述观看姿态的变化的滞后。
在许多实施例中,这可以提供有利的操作和/或改善的用户体验。
根据本发明的任选特征,所述三维图像数据还包括针对所述三维图像的至少一幅输入图像的图像区域的指示,并且所述图像区域电路被布置为响应于图像区域的所述指示而确定所述第一图像区域。
在许多实施例中,这可以提供有利的操作和/或改善的用户体验。该方法可以降低复杂性和/或计算负担。
根据本发明的任选特征,所述三维图像数据还包括针对所述三维图像的至少一幅输入图像的给定区域的指示,并且所述区域电路被布置为响应于所述给定区域的所述指示而确定所述第一区域。
在许多实施例中,这可以提供有利的操作和/或改善的用户体验。该方法可以降低复杂性和/或计算负担。
根据本发明的任选特征,所述视图合成电路被布置为针对所述视图图像的至少第一像素在根据多视图图像的不同图像导出的多个候选像素值之间进行选择,并且所述视图合成电路被布置为:针对高于阈值的所述距离选择最后方像素,并且针对低于所述阈值的所述距离选择最前方像素,最后方像素与指示距所述观看姿态最远的深度的深度值相关联,并且最前方像素与指示最接近所述观看姿态的深度的深度值相关联。
在许多实施例中,这可以提供有利的操作和/或改善的用户体验。
特别地,它可以允许有效且低复杂性的操作。
根据本发明的一个方面,提供了一种图像信号,所述图像信号包括:三维图像数据,其描述三维场景的至少部分;以及数据字段,其指示所述三维图像数据的渲染是否必须包括响应于所述三维图像数据的图像的图像区域的深度指示和针对所述渲染图像的观看姿态与所述图像区域的参考区域之间的距离而调整所述图像区域在渲染图像中的透明度。
根据本发明的任选特征,所述图像信号还包括对所述图像区域的指示和对所述参考区域的指示中的至少一项。
根据本发明的一个方面,提供了一种图像信号装置,所述图像信号装置被布置为生成如上所述的图像信号。
根据本发明的一个方面,提供了一种图像合成的方法,所述图像合成的方法包括:接收描述三维场景的至少部分的三维图像数据;确定所述三维图像数据中的至少第一图像区域;根据针对所述第一图像区域的所述三维图像数据的深度数据来确定所述第一图像区域的深度指示;确定针对所述第一图像区域的第一区域;接收观看者的观看姿态;根据所述三维图像数据来生成视图图像,所述视图图像表示从所述观看姿态看到的所述三维场景的视图;并且生成所述视图图像包括响应于所述深度指示以及所述观看姿态与所述第一区域之间的距离而调整所述视图图像中的所述第一图像区域的透明度,所述透明度随着所述观看姿态与所述第一区域之间的距离增加而增加并且随着所述深度指示指出所述第一图像区域的深度减小而增加。
参考下文描述的(一个或多个)实施例,本发明的这些和其他方面、特征和优点将是明显的并且得到阐明。
附图说明
将参考附图仅通过示例的方式描述本发明的实施例,在附图中:
图1图示了3D目标的图像和深度捕捉的示例;并且
图2图示了根据本发明的一些实施例的图像合成装置的元件的示例。
具体实施方式
三维视频捕捉、分发和呈现在一些应用和服务中变得越来越流行和令人期待。特定方法被称为沉浸式视频,并且通常包括提供现实世界场景并且常常是实时事件的视图,其允许小的观看者移动,例如,相对较小的头部移动和旋转。例如,允许在小的观看者头部移动后基于本地客户端生成视图的例如体育赛事的实时视频广播可以提供用户坐在看台中观看体育赛事的印象。用户能够例如环顾四周并且将具有与观众处于看台中的该位置处的体验类似的自然体验。最近,具有基于现实世界场景的3D捕捉的位置跟踪和3D交互支持应用的显示设备越来越普遍。这样的显示设备非常适合用于提供增强的三维用户体验的沉浸式视频应用。
为了为现实世界场景提供此类服务,通常从不同位置且在使用不同相机捕捉姿态的情况下捕捉场景。因此,多相机捕捉和例如6DoF(6个自由度)处理的相关性和重要性迅速增加。应用包括现场音乐会、现场体育和远程呈现。自由选择自己的视点通过提高常规视频上的存在感而丰富了这些应用。此外,能够设想沉浸式场景,其中,观看者可以导航并切与现场捕捉的场景交互。对于广播应用,这可能需要在产生侧的实时深度估计和在客户端设备处的实时视图合成。深度估计和视图合成这两者都引入了误差,并且这些误差取决于算法的实施细节。
在本领域中,术语放置和姿态用作针对位置和/或方向/取向的常用术语。例如目标、相机、头部或视图的位置和方向/取向的组合可以被称为姿态或放置。因此,放置或姿态指示可以包括六个值/分量/自由度,其中,每个值/分量通常描述对应目标的位置/定位或取向/方向的个体属性。当然,在许多情况下,可以用更少的分量来考虑或表示放置或姿态,例如,如果一个或多个分量被认为是固定的或不相关的(例如,如果所有目标都被认为处于相同的高度并且具有水平取向,则四个分量就可以提供目标的姿态的完整表示)。在下文中,术语姿态是用于指可以由一至六个值(对应于最大可能的自由度)表示的位置和/或取向。术语姿态可以由术语放置代替。术语姿态可以由术语位置和/或取向代替。术语姿态可以由术语位置和取向(如果姿态提供位置和取向这两者的信息)、由术语位置(如果姿态提供(可能仅)位置的信息)或由取向(如果姿态提供(可能仅)取向的信息)代替。
用于表示场景的常用方法被称为具有深度的多视图(MVD)表示和捕捉。在这样的方法中,场景由具有相关联的深度数据的多幅图像表示,其中,图像表示通常来自有限捕捉区域的不同观看姿态。实际上,可以通过使用包括多个相机和深度传感器的相机装备来捕捉图像。
在图1中示出了这样的捕捉系统的示例。该图示出了要捕捉的场景,该场景包括在背景103前面的场景目标101。多个捕捉相机105被定位在捕捉区域105中。捕捉的结果可以是通过多视图图像和深度表示(即,通过针对多个捕捉姿态提供图像和深度)对3D场景的表示。因此,多视图图像和深度表示可以提供对来自捕捉区的3D场景的描述。因此,表示3D场景的数据可以提供对来自捕捉区的3D场景的表示,视觉数据从该捕捉区提供对3D场景的描述。
MVD表示可以用于执行视图合成,由此能够生成来自给定观看姿态的场景的视图图像。观看姿态可能需要将MVD表示的图像的视图移位到观看姿态,使得来自观看姿态的场景的(一个或多个)视图的图像可以被生成并渲染给用户。视图移位和合成基于深度数据,其中,例如(一个或多个)MVD图像和观看姿态图像中的位置之间的视差移位取决于场景中的对应目标的深度。
所生成的视图图像的质量将取决于可用于视图合成操作的图像和深度信息。它还取决于所需的视图移位量。
例如,视图移位通常导致图像的在例如用于视图移位的主图像中可能不可见的部分的去遮挡。如果这些图像已经捕捉了去遮挡元素,则这些孔可以由来自其他图像的数据填充,但是通常也可能的是,针对新视点去遮挡的图像部分也从其他源视图中丢失。在这种情况下,视图合成需要基于例如周围数据来估计数据。去遮挡过程固有地倾向于成为引入不准确性、伪影和误差的过程。此外,这倾向于随着视图移位的量而增加,并且具体地,视图合成期间丢失数据(孔)的可能性随着距图像的捕捉姿态的距离增加而增加。
可能失真的另一个来源可能是不完美的深度信息。通常,深度信息由深度图提供,其中,深度值已经通过不完美的深度估计(例如,通过源图像之间的视差估计)或测量(例如,测距)生成,并且因此深度值可能包括误差和不准确性。视图移位基于深度信息,并且不完美的深度信息导致(一个或多个)合成图像中的误差或不准确性。合成视点离原始相机视点越远,合成目标视图图像中的失真越严重。
因此,随着观看姿态移动得越来越远离捕捉姿态,合成图像的质量将倾向于劣化。如果观看姿态足够远离捕捉姿态,则图像质量降低到不可接受的程度,并且可能体验到不良的用户体验。
已经提出了许多不同的方法来解决这些问题,但是这些方法往往是次优的,并且特别是不期望地限制用户移动或引入不期望的用户效果。图2图示了可以提供可以在许多场景中实现更期望的用户体验的性能和方法的视图合成装置/系统。
图2图示了可以用于生成用于例如沉浸式视频体验的视图图像的图像合成装置的示例。图像合成装置包括第一接收器201,第一接收器201被布置为接收描述三维场景的至少部分的三维图像数据。3D图像数据可以具体地描述由不同位置处的相机捕捉的现实世界场景。
在许多实施例中,3D图像数据可以包括多视图图像,并且因此可以包括来自不同视点的场景的多个(同时)图像。在许多实施例中,3D图像数据可以是图像和深度图表示的形式,其中,提供单幅图像和相关联的深度图。以下描述将集中于一个实施例,其中,3D图像数据是包括来自不同视点的至少两幅图像的多视图加深度表示,其中,至少一幅图像具有相关联的深度图。应当理解,如果接收到的数据是例如没有显式深度图的多视图数据表示,则可以使用合适的深度估计算法(诸如特别是使用多视图表示的不同图像的视差估计方法)来生成深度图。
因此,在具体示例中,第一接收器201使用多幅图像和(一个或多个)深度图(其此后也将被称为源图像和源深度图)来接收描述3D场景的MVD图像数据。应当理解,对于视频体验,提供了这种3D图像的时间序列。
图像合成系统还包括第二接收器203,第二接收器203被布置为接收观看者(并且具体地在三维场景中)的观看姿态。观看姿态表示观看者观看场景的位置和/或取向,并且它可以具体地提供应当生成场景的视图的姿态。应当理解,用于确定和提供观看姿态的许多不同方法是已知的,并且可以使用任何合适的方法。例如,第二接收器203可以被布置为从用户佩戴的VR头戴式设备、从眼睛跟踪器等接收姿态数据。
第一接收器和第二接收器可以以任何合适的方式实施,并且可以从任何合适的源接收数据,包括本地存储器、网络连接、无线电连接、数据介质等。
接收器可以被实施为一个或多个集成电路,诸如专用集成电路(ASIC)。在一些实施例中,接收器可以被实施为一个或多个编程处理单元,例如被实施为在(一个或多个)合适的处理器(诸如中央处理单元、数字信号处理单元或微控制器等)上运行的固件或软件。应当理解,在这些实施例中,处理单元可以包括板载或外部存储器、时钟驱动电路、接口电路、用户接口电路等。这些电路还可以被实施为处理单元的一部分、被实施为集成电路和/或被实施为分立电子电路。
第一接收器201和第二接收器203耦合到视图合成电路205,视图合成电路205被布置为从接收到的三维图像数据生成至少一个视图图像,其中,视图图像被生成以表示三维场景从观看姿态的视图。因此,视图合成电路205根据接收到的图像数据和观看姿态生成3D场景的视图图像。
应当理解,通常生成包括右眼的视图图像/目标和左眼的视图图像/目标的立体图像/图像目标。因此,如果视图图像例如经由AR/VR头戴式设备渲染给用户,则看起来好像从观看姿态看到3D场景。
因此,视图合成电路205通常被布置为基于深度执行多视图图像的视图移位。这通常将包括诸如移位像素(改变像素位置以反映对应于视差变化的适当视差)、去遮挡(通常基于来自其他图像的填充)、组合来自不同图像的像素等的技术,如本领域技术人员将已知的。
应当理解,用于合成图像的许多算法和方法是已知的,并且任何合适的方法可以被视图合成电路205使用。
因此,图像合成装置可以生成3D场景的视图图像。此外,由于观看姿态可以对应于用户在场景中四处移动而动态地改变,因此可以连续地更新3D场景的视图以反映观看姿态的变化。对于静态场景,可以使用相同的源视图图像来生成输出视图图像,但是对于视频应用,可以使用不同的源图像来生成不同的视图图像,例如,可以针对每个输出图像接收源图像和深度的新集合。因此,处理可以是基于帧的。在下文中,为了描述的清楚和简洁,将考虑静态场景。然而,应当理解,该方法同样适用于动态场景,简单地通过基于针对给定时间/帧接收的源图像和深度来生成针对该时间/帧的输出视图图像。
视图合成电路205被布置为生成从针对观看姿态的侧向移动的不同角度看到的场景视图和场景目标。如果观看姿态改变而使得其处于不同的方向/取向,则视图合成电路205被布置为生成从不同角度看到的三维场景目标的视图。因此,当观看姿态改变时,场景目标能够被感知为是静态的并且在场景中具有固定的取向。观看者可以有效地移动目标并且可以从不同的方向看到目标。
视图合成电路205可以以任何合适的方式实施,包括被实施为一个或多个集成电路,诸如专用集成电路(ASIC)。在一些实施例中,接收器可以被实施为一个或多个编程处理单元,例如被实施为在(一个或多个)合适的处理器上(诸如中央处理单元、数字信号处理单元或微控制器等)运行的固件或软件。应当理解,在这些实施例中,处理单元可以包括板载或外部存储器、时钟驱动电路、接口电路、用户接口电路等。这些电路还可以被实施为处理单元的一部分、被实施为集成电路和/或被实施为分立电子电路。
如前所述,视图合成的问题在于,随着合成视图的观看姿态越来越不同于所提供的场景图像数据的捕捉姿态,质量降低。实际上,如果观看姿态移动得离捕捉姿态太远,则所生成的图像可能是不可接受的,具有大量伪影和错误。
图2的装置包括可以解决和减轻这些问题的功能并实施可以解决和减轻这些问题的方法。特别地,视图合成电路205可以被布置为确定针对3D图像中的图像区域的第一区域,并且根据观看姿态与观看区域之间的距离来调整该图像区域的透明度。第一区域将在下文中被称为第一区域/所述第一区域,或更频繁地被称为(第一)观看区域/所述(第一)观看区域。
视图合成电路205可以根据观看姿态与观看区域的接近程度来调整例如目标的透明度,并且特别地,视图合成电路205随着观看姿态到观看区域的距离的增加而增加透明度。作为特定示例,如果观看者移动使得观看姿态离观看区域/捕捉姿态太远,则前景目标中的一个或多个可以被渲染为完全透明。在这样的示例中,如果观看姿态移动得离捕捉姿态太远,则前景目标可以例如变得不可见并且从场景中消失,而不是被渲染/渲染有大量错误和伪影。
图像区域的透明度的调整还取决于图像区域的深度指示,并且特别地,透明度可以针对减小的深度而增加。因此,透明度基于多个考虑因素来调整,并且具体地取决于图像区域的深度和观看姿态与观看区域之间的距离两者。
在许多场景和应用中,这可以提供相对于渲染严重劣化的前景目标的改善的用户体验。该方法反映了发明人的认识:可以通过不同地处理不同深度处的区域/目标来实现改进的性能,并且具体地,更前方的区域/目标往往比更后方的区域/目标(并且具体地,比背景)在质量上显著更多地劣化。
视图合成电路205还包括图像区域电路207,图像区域电路207被布置为确定3D图像中的一幅或多幅图像区域,并且具体地确定多视图图像表示中的图像中的一个的图像区域。图像区域可以例如被确定为对应于场景目标或场景目标的一部分。在一些实施例中,图像区域可以被确定为相对较小的区域,例如小于比如10,000、1000、100或甚至10个像素的区域。实际上,在一些实施例中,图像区域可以仅是单个像素。
图像区域可以是目标(具体地,场景目标)。
可以使用不同的方法来确定一幅或多幅图像区域。例如,在一些实施例中,每个像素可以被认为是单独的图像区域。在其他实施例中,例如,输入图像可以被平铺成不同的图块,其中,每个图块是图像区域。例如,可以执行预定的平铺,因此每幅图像区域可以对应于预定的图像区域。
然而,在许多实施例中,可以执行图像区域的动态确定。例如,可以将图像分割成被认为对应于场景目标或其一部分的多幅图像片段。例如,分割可以响应于诸如像素颜色和亮度的图像性质。因此,可以生成具有类似视觉性质并且因此被认为可能是同一目标的一部分的图像区域。分割可以替代地或另外地基于检测图像中的过渡并使用这样的过渡作为图像区域之间的边界的指示。
在许多实施例中,图像区域的确定可以替代地或另外地基于深度图/深度信息的考虑。例如,除了考虑视觉均匀性外部或作为考虑视觉均匀性的替代方案,图像区域还可以考虑深度均匀性,使得图像区域被形成为具有类似的深度,从而使得它们更可能属于相同的场景目标。类似地,深度过渡可以被识别并用于找到图像区域的边缘。
在一些实施例中,可以检测场景目标,并且可以识别与目标相对应的图像区域。
应当理解,已知许多不同的方法和算法用于确定图像区域并且特别是用于目标检测/估计和/或图像分割,并且可以使用任何合适的方法。
在上述示例中,基于3D图像生成图像区域。在一些实施例中,可以基于接收到的描述图像区域的元数据来确定图像区域。例如,可以在还包括标识一幅或多幅图像区域的元数据的比特流中接收3D图像。例如,可以接收针对每个像素或像素块(例如,对于每个宏块)标识像素是背景像素还是前景像素的元数据。然后可以将图像区域确定为前景像素的连续区域。
图像区域电路207耦合到深度指示电路209,深度指示电路209被布置为确定每幅图像区域的深度指示。深度指示指出图像区域的深度。
图像区域的深度指示可以是反映图像区域的深度性质的任何指示或值,并且特别地可以是反映图像区域的深度的任何指示。
应当理解,可以使用用于从三维图像数据的深度数据确定这种深度指示的任何合适的函数或算法,并且所使用的具体确定和深度指示可以取决于各个实施例的具体性质和要求。
在许多实施例中,针对图像区域的深度指示可以被确定为根据针对图像区域的深度值给出的深度值,深度值被包括在三维图像数据的深度数据中。三维图像数据的深度数据的深度值与深度指示之间的函数和关系将取决于具体实施例。
深度指示可以例如通过考虑图像区域中的像素的所有深度值并将深度指示确定为例如图像区域的像素的平均、中值、最大或最小深度来确定。在一些实施例中,深度指示可以简单地是对二元值或图像区域所属于的深度间隔的指示。例如,深度指示可以简单地是对对应图像区域是背景还是前景的指示。当然,许多其他选项是可能的和有利的,并且可以用于提供各个实施例所需的效果和性能。实际上,以上仅仅是示例,并且用于生成对图像区域的深度的指示的许多其他选项是可能的,并且可以在不脱离本发明的情况下使用。
输入源接收器401和深度指示电路209耦合到视图合成电路205,视图合成电路205被提供有描述所确定的观看区域和相关联的深度指示的数据。
视图合成装置还包括观看区域电路211,观看区域电路211被布置为确定(一个或多个)图像区域的观看区域。在确定/生成多幅图像区域的一些实施例中,观看区域电路211可以被布置为生成对所有或一些图像区域公共的观看区域。在其他实施例中,可以针对每个单独的图像区域生成单独的观看区域。因此,不同的图像区域可以链接到相同或不同的观看区域。
观看区域/第一区域可以是针对图像区域的名义区域或参考区域。可以将针对图像区域的参考或名义区域确定为满足准则的区域。确切的准则可以取决于具体实施例。在许多实施例中,准则可以例如是几何准则,并且可以将观看/名义/参考区域确定为满足关于图像区域和/或针对第一图像区域的捕捉区域的几何准则的区域。例如,3D图像数据可以提供表示来自一个或多个捕捉区域和/或点的三维场景的视图的图像数据。观看区域可以被确定为满足相对于捕捉区域/点的几何准则的区域。观看区域可以具体地被确定为满足相对于捕捉区域/点的接近度准则的区域。
图像区域的观看区域可以是被认为可以以给定的最低质量合成/视图移位图像区域的姿态区域,并且可以具体地是一组姿态,对于该组姿态,表示提供允许生成视图图像的数据,其中,图像区域具有足够高的质量。因此,对于相对于观看区域落入观看区域内的观看姿态,认为可以针对图像区域生成足够质量的观看图像。对于在观看区域外部的观看姿态,可以认为不能保证可以针对图像区域生成足够质量的观看图像。
观看区域(通常由其边界、轮廓或边缘表示)的确切选择/确定/表征当然将取决于各个实施例的具体偏好和要求。例如,在一些实施例中,观看区域可以被确定为直接对应于捕捉区,即,它可以是由捕捉姿态跨越的区域。在许多实施例中,可以确定观看区域包括姿态,对于该姿态,姿态与最近的捕捉姿态之间的距离测量满足准则。
在一些实施例中,观看区域可以被确定为满足相对于三维图像数据的捕捉区域的接近度准则的区域。确切的接近度要求将取决于各个实施例的要求和偏好。
在一些实施例中,观看区域可以被确定为针对图像区域的合成的图像质量度量超过阈值的区域。所使用的图像质量度量可以取决于实施方式的具体偏好。例如,在一些实施例中,质量度量可以被确定为从接收到的3D图像数据执行合成所需的视图移位幅度的函数,和/或被确定为必须通过插值等来补偿多少去遮挡的估计。在一些实施例中,观看区域可以是静态的,并且可以具体地对于所有图像区域是相同的。在其他实施例中,可以响应于(一个或多个)图像区域的性质而动态地确定观看区域。在这种情况下,不同的图像区域可以具有不同的观看区域,并且可以针对每幅图像区域具体地确定观看区域。
在许多实施例中,观看区域可以被定义为RN空间的姿态的子集,其中,N可以是所考虑的维度的数量。在许多实施例中,诸如特别是许多6DoF应用,N等于6,并且通常将对应于指示位置的三个坐标/维度和指示取向(/方向/旋转)的三个坐标。在一些实施例中,N可以小于6,对应于未被考虑的(并且具体地被忽略的或被认为是固定的)一些维度。
在一些实施例中,仅考虑位置维度或坐标,并且在一些实施例中,仅考虑取向维度。然而,在许多实施例中,考虑至少一个位置维度和一个取向维度。
观看区域通常是至少二维的,并且包括至少两个坐标/维度具有不同值的姿态。在许多实施例中,观看区域至少是三维的,并且包括至少三个坐标/维度具有不同值的姿态。观看区域通常至少是二维或三维区。观看区域通常包括在至少两个维度上变化的姿态。
在许多实施例中,观看区域包括具有不同取向的姿态。因此,观看区域通常对于至少一个取向坐标/维度具有非零延伸。
在大多数实施例中,观看区域具有至少一个取向维度和至少一个位置维度的延伸。因此,在大多数实施例中,位置和取向两者都被系统考虑。
在许多实施例中,观看区域可以简单地被确定为到参考或优选观看姿态的预定距离小于给定阈值的姿态区域。在其他实施例中,可以相对于给定捕捉区域测量距离。如稍后将描述的,在一些实施例中,可以应用更复杂的考虑,其中,观看区域取决于多个不同的参数等。然而,通常,应当理解,可以使用用于确定(一个或多个)图像区域的观看区域的任何合适的方法,并且该方法不限于确定(一个或多个)观看区域的任何特定方式。
虽然在许多实施例中,针对给定图像区域的观看区域可以被确定为可能从接收到的3D图像数据实现给定图像区域的高质量合成的区域,但是这不是必需的,并且可以使用其他方法。例如,观看区域可以被确定为期望使用户偏向的区域。例如,对于游戏或虚拟现实应用,可能期望使用户偏向特定位置或区域。这样的方法可以例如用于将用户朝向虚拟目标正前方的位置偏置,但是3D图像数据中的该目标由基本上从目标的一侧或两侧捕捉的图像数据表示。因此,自适应透明度可以用于使用户偏向可能不提供最佳合成质量但可能优选用于其他目的(包括与合成质量/过程无关的目的)的位置。
在许多实施例中,观看区域电路211可以被布置为响应于三维图像数据的至少一个捕捉姿态而确定第一区域。观看区域电路211可以具体地被布置为响应于满足三维图像数据的一个或多个捕捉姿态的接近度准则而确定第一区域。例如,第一区域可以被确定为满足相对于三维图像数据的至少一个捕捉姿态的接近度准则的区域。
在许多实施例中,第一区域可以是参考其提供三维图像数据的捕捉区域。
三维图像数据可以提供链接到捕捉/参考姿态的三维图像数据。捕捉/参考姿态可以是感知/捕捉三维图像数据中的至少一些的姿态。第一区域可以被确定为接近捕捉/参考姿态的位置(满足接近度准则,例如从第一区域内的姿态到参考/捕捉姿态的距离小于给定距离)。
在一些情况下,可以为三维图像数据提供多于一个参考/捕捉姿态。在这种情况下,观看区域的确定可以包括选择一个、多个或所有参考/捕捉姿态,并将观看区域确定为满足与所选择的捕捉/参考姿态中的至少一个的接近度准则的姿态区域。
在许多实施例中,第一(观看)区域和第一图像区域可以是不重叠的。在许多实施例中,没有姿态(并且可能没有位置)属于第一(观看)区域和第一图像区域两者。
观看区域可以被确定为根据期望的特定偏好提供自适应透明度的基础的任何参考或名义区域。
第一观看区域可以是指示观看姿态的优选区域的优选观看区域。
在一些实施例中,接收到的数据可以包括对观看区域的指示或可以用于确定观看区域的参数。因此,接收到的数据可以包括描述或允许确定名义和/或参考区域的数据。然后,该名义/参考区域可以用作所描述的自适应透明度的参考,以提供期望的效果。
例如,3D图像数据可以通过如前所述的MVD捕捉来生成,并且与图像和深度图、对捕捉区域的指示或直接观看区域一起可以被包括在3D图像数据中。
视图合成电路205被布置为基于接收到的3D图像并且因此在具体示例中基于MVD图像和深度来生成针对观看姿态的场景的图像(具体地,用于VR头戴式设备的立体图像集合)。
然而,视图合成电路205还被布置为基于观看姿态和(一个或多个)观看区域之间的关系来执行(一个或多个)图像区域的自适应渲染并且具体地,基于观看姿态与(一个或多个)图像区域的观看区域之间的关系来调整(一个或多个)图像区域的透明度。
视图合成电路205被具体地布置为响应于图像区域的深度指示以及观看姿态与观看区域之间的距离而调整视图图像中的图像区域的透明度/半透明度。视图合成电路205被布置为调整透明度,使得透明度随着观看姿态与第一区域之间的距离增加并且随着深度指示指出第一图像区域的深度减小而增加。
例如,透明度可以根据深度指示以及观看姿态与观看区域之间的距离来确定。该函数随着深度指示是单调的,并且具体地随着指示深度减小的深度指示而单调增加。深度被认为朝向背景增加。该函数也是观看姿态与第一区域之间的距离的单调递增函数。
在下文中,将参考被称为第一图像区域的一幅图像区域来描述该方法,但是应当理解,可以针对更多并且通常所有的所识别的图像区域重复该方法。还应当理解,在一些实施例中,透明度可以被确定为对于多幅图像目标是共同的。
作为特定示例,在一些实施例中,视图合成电路205可以被布置为观看姿态与观看区域之间的距离越大,则增加透明度。例如,当观看姿态在观看区域内时,图像区域可以以完全不透明度被渲染,但是随着观看姿态越来越多地移动到观看区域外部,透明度可以增加,直到在给定距离处,图像区域被渲染为完全透明,即,对于更远离观看区域的观看姿态,由图像区域表示的图像目标可能变得不可见,而不是显示图像区域,可以显示图像的背景。
因此,在这样的示例中,当应用于沉浸式视频应用时,超过观看区域的观看姿态可能导致所有图像区域变得不可见和完全透明,使得仅渲染沉浸式视频场景的背景。在这样的示例中,前景目标可以由背景代替。背景可以例如在可用时从MVD表示的不同图像生成,或如果数据不可用则通过修复来生成。这种方法可以通过使前景目标完全透明来产生最终形式的去遮挡。这可能需要或基于以下预期:遮挡数据可从3D图像数据获得(遮挡数据由3D图像数据制成),或可以在运行中生成(例如,从周围区域修复)。
这样的方法可以有效地扩展其中,场景以高质量完全渲染/渲染的主要观看空间和其中,仅示出背景的次要观看空间。实际上,发明人已经认识到,次要观看空间的感知质量仍然可以保持较高,因为背景和更远的目标的图像质量退化往往比更近的前景目标更小。因此,随着观看者越来越远离观看区域移动,不是渲染质量越来越差的前景目标,而是这些目标可能变得不可见,但是背景并且因此一般场景仍然可见。可以向用户提供这样的体验,其中,靠近观看者的较差质量的渲染图像消失,但是场景作为整体仍然剩余并且仍然具有足够的质量。虽然对于一些应用和场景,这样的体验对于用户可能看起来不自然,但是在许多实施例和应用中,它可以提供实质上更有利且通常直观的用户体验。例如,当注意到前景目标开始消失时,用户可以直观地意识到他已经移动到远处并且将开始朝向观看区域移回。此外,在一些情况下,用户可以远离观看区域移动,以便能够看到前景目标周围,即看到其后面的目标或背景。在这种情况下,前景目标变得透明并允许用户透视它可能是非常期望的体验。此外,与用于解决当用户移动得太远离期望的观看区域时质量下降的问题的其他提出的方法相反,该方法可以允许用户仍然体验到他在场景中的位置的感知的一致性,并且例如将能够导航到更期望的位置。该方法可以在许多场景中提供更沉浸式的体验。
视图合成电路205被布置为确定第一图像区域的透明度,并且生成具有所确定的透明度的第一图像区域的视图图像。视图合成电路205因此被布置为生成视图图像,其中,第一图像区域以响应于深度指示以及观看姿态与第一区域之间的距离而确定的透明度被生成。视图合成电路205可以通过确定(经调整的)透明度并将(经调整的)透明度应用于第一图像区域来调整视图图像中的第一图像区域的透明度。响应于深度指示以及观看姿态与观看区域之间的距离而确定(经调整的)透明度。经调整的透明度可以具体地被确定为第一图像区域中的目标/分量/部分的α值,并且视图合成电路205可以被布置为使用这些目标/分量/部分的α值来生成视图图像。应当理解,用于基于这种透明度/α值生成视图图像的算法是本领域技术人员已知的,并且因此在本文中将不再更详细地描述。
因此,例如目标的透明度可以取决于不同的距离。在许多实施例中,对深度指示的依赖性提供了对从观看姿态到目标的距离的依赖性,即,在确定透明度时使用(到观看姿态的)目标距离。另外,从观看姿态到观看区域的距离可以用于调整目标的透明度。因此,还考虑了反映观看姿态(相对于观看区域)的变化的观看姿态变化距离。例如,对于对应于捕捉区域的观看区域,透明度根据目标距离和观看姿态改变距离两者来调整。这样的考虑可以提供显著改进的效果。
可以具体地进行调整,使得透明度/半透明度随着目标深度/目标距离的减小而增加,并且随着观看姿态和观看区域之间的距离的增加(即,随着观看姿态改变距离的增加)而增加。
不同的考虑可以具有不可分开的和/或非线性的和/或倍增的效果。例如,可以应用沿着以下行的调整:
在许多实施例中,透明度对深度指示和(到观看区域的)观看姿态距离的依赖性可以是不可分开的,并且可以是非线性的和/或倍增的。
调整可以是深度指示和观看姿态距离的建设性组合。具体地,通过A表示观看姿态和观看区域之间的距离并且通过B表示深度指示,用于第一图像区域的透明度的函数f(A,B)可以具有以下性质:
·对于任何B,在f(A,B)和A之间存在非负相关性
·对于任何A,在f(A,B)和B之间存在非负相关性
·对于一些B,在f(A,B)和A之间存在正相关
·对于一些A,在f(A,B)和B之间存在正相关。
在先前的示例中,基于接收到的3D图像或元数据来确定(一个或多个)图像区域。在示例中,图像区域可以是对3D输入图像的参考,并且可以具体地是用于视图合成的图像中的一个(诸如最接近的MVD图像)中的区域。在其他实施例中,图像区域可以例如参考输出图像。例如,对于输入3D输入图像的图像目标或区域,可以考虑目标或区域的深度来确定输出图像中的对应区域。例如,可以确定深度所需的视差偏移,并且可以确定输出图像中与一个或多幅输入图像中的图像目标相对应的图像区域。通常,图像区域将由通过来自不同图像的平移计算的最前方像素填充(因为这将是人沿着该观看线将看到的),但是在当前方法中,可以基于观看姿态和观看区域之间的距离来调整该图像区域的一个或多个像素的透明度。具体地,对于输出视图图像的图像区域中的给定像素,最前方像素值(或在仅一幅图像在视差移位之后提供像素的情况下的唯一像素)的透明度取决于像素。
图像区域可以是三维输入图像的输入图像中的图像区域。图像区域可以是三维多视图输入图像的输入图像的图像区域。图像区域可以是三维输入图像的输入图像中的为合成输出视图图像中的图像区域提供最前方像素的图像区域。图像区域可以是与合成输出视图图像中的给定像素区域相对应的输入图像中的图像区域。
像素的透明度可以具体地是α值,并且因此至少一个像素的α值可以取决于观看姿态和观看区域之间的距离。像素值的透明度可以反映进一步向后的场景目标(包括背景)可见的程度。具体地,对于输出视图图像中的像素,像素值可以被生成为从3D输入图像(通常通过视差移位)生成的最前方像素值和另一后向像素值的组合。另一后向像素值可以是从3D输入图像生成的像素值(通常通过视差移位或通过填充)。另一后向像素值可以是背景像素。
作为具体示例,可以通过针对输出视图图像中的每个像素找到每个视图输入图像中的对应源像素来生成输出视图图像。给定输入图像中的源像素可以被确定为在由从源图像到输出视图图像的视点移位导致的视差移位之后导致源像素处于输出像素的位置处的像素。对于一些源图像,可能不存在这样的像素(例如,它可以是去遮挡像素),并且因此视图合成电路205可以识别不超过源图像的数量但是可以更小的多个源像素。源像素中的每一个进一步与深度相关联。通常,将选择具有最低深度(即,最靠近源相机)的源像素,因为这将对应于最前面的目标,并且因此将是观看者在由像素表示的视图方向上从观看姿态看到的目标。然而,在当前方法的示例中,如果观看姿态落在观看区域内(或在观看区域的阈值距离内),则视图合成电路205可以继续使用该方法,否则视图合成电路205可以继续选择离后方最远的源像素,即离观看姿态最远的源像素。通常,该像素将是背景像素。因此,这将有效地使由最前面的像素表示的目标完全透明或不可见,并且将渲染背景,而不是渲染该目标。在这种方法中,源图像中的图像区域可以被确定为在视图移位/扭曲之后处于给定输出像素的位置处的像素。
应当理解,可以包括进一步的考虑。例如,如果该组源像素都对应于非背景目标(例如,如果它们的距离小于阈值),则可以确定没有源像素适合于输出图像,并且替代地,可以例如通过从邻域背景像素填充来找到合适的值。
因此,在一些示例中,视图合成电路205可以被布置为针对输出图像的至少第一像素在来自输入多视图图像的图像区域的多个候选像素值之间进行选择。在该示例中,选择可以基于像素的深度,但是这可以取决于观看姿态和第一观看区域之间的距离是否低于阈值。如果是,则视图合成电路205选择最远的前向像素,否则它选择最远的后向像素。
最后方像素可以是与深度值相关联的像素,该深度值指示最靠近后方和/或距观看姿态最远的深度。最前方像素可以是与指示最靠近前方/最靠近观看姿态的深度的深度值相关联的像素。最后方像素可以是距观看姿态最远的像素。最后方像素可以是最接近观看姿态的像素。
这样的方法可以提供非常有效的实施,其中,对现有方法的修改允许低复杂性算法,其中,当观看姿态移动得离观看区域太远时,前景目标可能变得不可见/消失。
在一些实施例中,视图合成电路205可以被布置为:如果观看姿态与观看区域之间的距离(为简洁起见,此后称为观看距离)超过可以为零的给定阈值,则生成具有完全透明的图像区域的视图图像。因此,在这种情况下,如果观看距离足够高,则视图合成电路205可以渲染具有完全不可见/不存在的前景目标的视图图像。
类似地,在一些实施例中,视图合成电路(205)可以另外地或替代地被布置为:如果观看距离不超过阈值,则生成图像区域不透明的视图图像。因此,在这种情况下,如果观看距离足够低,则视图合成电路205可以渲染具有完全可见/渲染的前景目标的视图图像。
方法可以被组合,使得前景目标完全存在或完全不存在(完全不透明或完全透明),这取决于观看距离是否超过阈值。
在一些实施例中,这可能是非常期望的效果,并且可以例如向用户提供他已经从优选姿态移动太远并且他应当朝向观看区域移回的清楚指示。
在许多实施例中,视图合成电路205被布置为生成视图图像以在应用透明度的情况下渲染第一图像区域,其中,透明度根据第一图像区域的深度指示以及观看姿态与第一区域之间的距离两者来确定。
当透明度小于完全不透明度时,视图图像是针对第一图像区域生成的,以包括对另一视觉元素的贡献。表示第一图像区域的视图图像的像素的像素光强度值可以被生成为来自第一图像区域的至少一个视觉元素的贡献和来自至少一个其他视觉元素的贡献的加权组合。另一个视觉元素可以具体地是从观看姿态在第一图像区域后面的目标(包括场景的背景)。然而,在一些场景中,至少一个其他视觉元素可能是不直接对应于场景的元素,例如特定的视觉特性(例如黑色或灰色背景)。来自第一图像区域的(一个或多个)视觉元素的贡献的加权可以增加以降低透明度。来自不属于第一图像区域的(一个或多个)视觉元素的贡献的加权可以增加以增加透明度。
因此,可以生成视图图像,其中,第一图像区域越来越多地透视以便增加透明度。通常,增加的透明度将提供增加视图图像中的第一图像区域的“透视度”的效果,使得第一图像区域后面的场景将变得部分可见。因此,通常,增加透明度将允许第一图像区域后面的场景目标通过第一图像区域变得越来越可见。具体地,在许多实施例中,场景的背景可以通过第一图像区域变得越来越可见。
在一些实施例中,可以通过包括来自不是场景的一部分而是例如具有固定或恒定视觉性质(诸如均匀颜色或预定纹理)的元素的视觉贡献来生成透明度。
因此,在许多实施例中,随着透明度增加,第一图像区域可以变得越来越透视,并且因此其中,第一图像区域的(一个或多个)目标逐渐消失。在大多数实施例中,第一图像区域后面的场景的可见性然后将变得可见,并且因此第一图像区域的(一个或多个)目标将逐渐淡出以揭示其后面的场景。
视图合成电路205可以被布置为通过增加来自第一图像区域对与第一图像区域相对应的视图图像中的像素(的光强度像素值)的(相对)贡献来应用(经调整的)透明度,以便降低透明度。
替代地或另外地,视图合成电路205可以被布置为通过增加来自不是第一图像区域的元素对与第一图像区域相对应的视图图像中的像素(的光强度像素值)的(相对)贡献来应用(经调整的)透明度,以便增加透明度。
在许多实施例中,视图合成电路205可以被布置为调整视图图像中的第一图像区域的透明度,使得对于增加的透明度,在第一图像区域后面的三维场景的一部分变得越来越可见。
在许多实施例中,视图合成电路205可以被布置为调整视图图像中的第一图像区域的透明度,使得对于增加的透明度,第一图像区域后面的三维场景的一部分提供对视图图像的增加的贡献。在一些实施例中,可以包括滞后,使得根据观看距离当前是高于还是低于阈值来调整阈值。因此,为了将不透明目标变为透明,需要用户移动以将观看距离从低于给定的第一值增加到超过给定的第一值,并且为了将透明目标变为不透明,需要用户移动以将观看距离从超过给定的第二值减小到低于给定的第二值,其中,第一值高于第二值。这种方法可以避免其中前景目标在被感知为存在或不存在之间闪烁的乒乓效应。
因此,在一些实施例中,作为距离的函数的透明度可以包括关于观看姿态的变化的滞后。
滞后可以是与速率无关的滞后。作为距离的函数的透明度可以是滞后回线。透明度的值可以取决于距离的变化方向。在一些实施例中,视图合成电路205可以被布置为生成具有图像区域(特别是前景目标)的透明度的更渐进变化的视图图像。例如,在一些实施例中,透明度(通常由视野中的α值表示)可以随着观看距离的增加而逐渐增加。透明度可以是观看距离的单调递增函数。
这种生成部分透明目标的方法可以与二元方法组合。例如,代替仅确定单个观看区域,可以确定一个在另一个内的两个观看区域。在这样的实施例中,如果观看姿态在内部观看区域内部,则视图图像可以被生成为具有不透明的图像区域,并且如果观看姿态在外部观看区域外部,则视图图像可以被生成为具有完全透明的图像区域。对于两个区域之间的观看者姿态,透明度可以作为到内部观看区域的距离的单调递增函数而逐渐增加(或等效地作为到外部观看区域的距离的单调递增函数而逐渐减小)。这种方法可以提供逐渐的用户体验,其中,当观看者移动时,目标不会立即出现或消失,而是逐渐过渡通过中间区域。在这样的方法中,目标可以逐渐出现/消失,这可以例如在由于该效果而经历观看不适的情况下减轻。
在一些实施例中,超过观看区域超过给定量的观看姿态可能导致仅沉浸式视频场景的背景被可视化。因此,观看者保持其沉浸。为此,前景目标可以在可用时由背景代替,或在不可用时被。
该方法可以利用仅渲染/合成背景的次要观看区来扩展场景被完全渲染/合成的主要观看区域。虽然大于主要观看区域,但是次要观看区域也可能受到限制,因为在观看合成中涉及深度图。
因此,在一些实施例中,如果观看距离超过阈值,则可以例如不再渲染场景。例如,在这种情况下可以应用先前描述的现有技术模式中的一种。
在上述示例中,主要参考一个观看区域描述了该方法,但是如所提到的,该方法可以单独地应用于不同的图像区域。可以针对不同的图像区域确定不同的观看区域。例如,根据深度,可以将图像区域分类为一组预定类别,其中,这些类别中的每一个与不同大小的图像区域相关联。
该方法可以具体地被实施为使得如果观看姿态超出主要视图空间,则前景目标在可用时由背景代替,并且在不可用时被修复。缺失数据的修复区域的大小可能很大。这取决于前景目标的大小和其他视图中的背景信息的可用性。在一些实施例中,仅移除具有可从其他视图获得的实质背景的前景目标,即,透明度可以取决于数据是否可用于去遮挡。这样的前景目标通常是最小的目标,并且在最前方/最前面。修复区域可能导致背景的一些模糊的感知。然而,这种模糊可能是不显著的或可接受的,并且通常可以是时间稳定的。已经发现,即使可能发生背景的一些模糊,任何视觉失真也被感知为比现有方法更少干扰。
在许多实施例中,观看区域可以动态地取决于不同的参数,并且特别地取决于影响合成操作的质量的参数。例如,在3D输入图像中提供的数据越多,可以针对给定观看姿态合成的视图图像的质量越好,并且因此质量劣化可能越低。在一些实施例中,观看区域电路211被布置为根据质量影响参数来调整观看区域,并且具体地调整观看区域的大小和形状中的至少一个。
在许多实施例中,图像区域的观看区域可以取决于图像区域的视图移位灵敏度/观看姿态变化灵敏度。图像区域的视图移位敏感度/观看姿态变化敏感度可以反映图像区域对由执行视图移位/观看姿态变化合成引起的失真的敏感度。图像区域的视点改变敏感度可以指示图像区域对观看姿态的改变的敏感度。
这可以用于细化操作。例如,相对靠近相机且相对复杂的目标可具有比相对较远且平坦的目标更小的观看区域。
在一些实施例中,观看区域电路211被布置为根据针对图像区域/目标的深度指示来调整针对该图像区域/目标的观看区域。具体地,观看区域电路211可以被布置为响应于针对观看区域的深度指示而调整针对图像区域的观看区域的形状和尺寸中的至少一个。
在许多实施例中,深度指示越向后指示图像区域,图像区域的大小可以增加。例如,相对靠近观看姿态的目标的观看区域小于相对远离观看姿态的目标的观看区域。因此,目标越靠近前景,观看区域越小,并且因此在前景目标变得不可见之前观看姿态的移动越小。
通常,目标越靠近观看者,质量劣化可能会增加,并且因此通过使观看区域适应深度指示,可以实现更有梯度的用户体验,其中,更灵活地调整目标的透明度以反映质量劣化。
在一些实施例中,针对给定图像区域的观看区域并且具体地观看区域的大小和/或形状取决于图像区域的形状复杂性。在一些实施例中,观看区域电路211被布置为响应于形状复杂性度量而调整第一观看区域的形状和大小中的至少一项。
视图合成的视图移位部分往往对于图像区域/目标的简单形状比对于更复杂的图像区域/目标引入更少的失真。例如,与复杂形状相比,简单形状往往在相邻像素之间具有更大的一致性并且具有更少的去遮挡。因此,可以增加图像区域的观看区域的大小以增加形状复杂性。
在不同的实施例中,可以根据不同的度量来确定形状复杂性。例如,形状复杂性可以是代数复杂性。例如,可以根据观看区域由多少侧面表示、这些侧面之间的角度等来确定形状复杂性。
在一些实施例中,图像区域的观看区域可以取决于图像区域的视差变化度量。视图合成电路205可以被布置为响应于图像区域的视差变化量度来调整图像区域的观看区域的形状和大小中的至少一项。视差变化量度可以指示针对给定视点偏移的图像区域的像素的视差变化。视差变化度量可以具体地是图像区域的深度变化度量。
观看区域电路211可以例如被布置为针对图像区域中的大视差或深度变化来确定观看区域更小。如果存在深度的大的变化,并且因此存在执行视点移位时所需的视差,则更可能引入失真或不准确性。它可以例如导致更多的去遮挡。因此,给定图像区域的视差或深度变化越大,观看区域可以越小,并且因此,在图像区域开始变得透明之前,观看姿态的偏差越小。
观看区域电路211可以被布置为基于为观看区域提供的深度信息的深度质量来确定图像区域的观看区域。目标的深度质量可以是对目标可以从第一(真实)相机视图重新投影到第二(真实)相机视图的程度的指示。例如具有(低形状复杂性)的地板表面将可能具有高深度质量。在许多实施例中,深度质量可以相对容易地确定。例如,可以基于输入图像的深度数据来执行MVD表示的输入图像到MVD表示的另一输入的位置的视图移位。可以将图像区域的结果与MVD表示的输入图像中的对应数据进行比较,并且深度质量可以基于该比较。合成图像越接近输入图像,深度质量越高。
针对图像区域的观看区域可以取决于针对被包括在三维图像数据中的图像区域的去遮挡数据的量。在许多实施例中,观看区域电路211可以被布置为根据在接收到的3D数据中有多少去遮挡数据可用于图像区域来调整图像区域的观看区域的形状和尺寸中的至少一个。
例如,如果接收到的3D图像数据包括以基本上不同的角度从捕捉姿态观看图像区域的另一图像,则这可以提供可以允许改进的去遮挡的大量附加数据。可用的去遮挡数据越多,可以使观看区域越大。这可以反映出存在的可用去遮挡数据越多,视图移位可能引起的劣化越小。
多视图表示的输入图像中的图像区域的去遮挡数据的量可以例如通过执行表示的所有不同视图图像到输入图像的捕捉姿态的视图移位来确定。然后,可以将由这种视图合成确定的图像区域的数据并且具体地深度与原始图像区域进行比较。差异越高,可以认为存在的去遮挡数据越多,因为差异可以反映不同的图像已经捕捉了在当前输入图像姿态的视线中的不同目标。
在一些实施例中,可用的去遮挡数据越多,可以使观看区域越小。这可以反映出存在的可用去遮挡数据越多,生成背景的准确视图将越容易,并且因此在去除前景图像区域/目标之后渲染的场景的质量越高。
实际上,由于如果去遮挡数据不可用,则去遮挡可能需要修复,因此对于使前景目标不可见的渲染也可能发生质量劣化。这可以例如取决于前景目标的大小和其他视图中的背景信息的可用性。在一些实施例中,仅具有可从其他视图获得的实质背景的前景目标可以被移除。因此,如果去遮挡数据不可用,则可以生成非常大(并且可能无限)的观看区域,而如果去遮挡数据可用于在没有前景目标的情况下合成背景,则可以确定小的观看区域。这些通常是最小的目标并且在最前面。
可以如何调整观看区域的上述示例也可以应用于透明度对观看距离的依赖性,即,因此函数也可以取决于上述任何参数以影响观看区域确定。
在一些实施例中,所描述的视图合成装置可以执行操作以确定图像区域,并且例如将接收到的数据划分为前景图像区域和背景图像区域。类似地,在先前的描述中,执行操作以确定不同图像区域的观看区域。然而,在一些实施例中,接收到的输入数据可以包括描述图像区域和/或观看区域的数据。
例如,图2的视图合成装置可以是基于解码器的实施方式,并且可以从编码器接收输入数据。除了提供3D图像数据外部,图像数据流还可以包括针对输入图像中的至少一个描述图像区域的附加数据。
例如,接收到的3D图像数据可以针对(例如,多视图表示的)给定输入图像包括图像区域图,该图像区域图针对每个像素指示该像素是前景像素还是背景像素。在其他实施例中,3D图像数据可以例如针对每个非背景像素指示像素所属于的图像区域的身份。
在这样的实施例中,图像区域电路207可以被布置为响应于接收到的数据指示来确定图像区域。例如,它可以将每一前景像素视为图像区域。作为另一实例,它可以将一组连续前景像素分组成图像区域。如果接收到的数据包括图像区域的标识,则图像区域电路207可以将被提供相同标识的像素分组成图像区域。
在一些实施例中,接收到的3D数据可以包括对应当应用的观看区域的指示。观看区域可以是应当应用于所有图像区域/目标的固定观看区域,或例如,可以针对不同的图像区域或针对与图像区域相关联的不同性质定义不同的观看区域。
在这种情况下,观看区域电路211可以响应于接收到的对观看区域的指示而确定观看区域。例如,它可以简单地使用在接收到的数据中定义的观看区域。
使用包括这种信息的数据流的优点在于,它可以显著降低解码器侧的复杂性和资源需求。这例如对于数据被分发到许多解码器并且因此集中式操作可以减少总体资源需求并且可以向不同用户提供一致体验的实施例可能是重要的。通常,用于控制的更多信息和/或选项也可以在编码器侧是可获得的。例如,观看区域或图像区域的手动确定可能是实用的。
在许多实施例中,诸如编码器的图像信号装置可以被布置为生成图像信号,该图像信号包括3D图像数据并且还包括指示是否应当应用所描述的用于渲染的方法的数据字段/标志。
因此,图像信号装置可以生成图像信号,所述图像信号包括描述三维场景的至少部分的三维图像数据;以及数据字段,所述数据字段指示所述三维图像数据的渲染是否应当包括响应于渲染图像中的三维图像数据的图像的图像区域的深度指示和所述渲染图像的观看姿态与所述图像区域的观看区域之间的距离而调整所述图像区域的透明度。
作为具体示例,可以将所描述的方法作为附加操作模式添加到被提供在MPEG沉浸式视频(MIV)标准ISO/IEC JTC1 SC29 WG11(MPEG)N19212的第五工作草案中的可能模式列表。包括用于处理观看空间外的这种移动的建议。例如,可以使用未分配值(例如,在7和63之间)的模式ID位来指示可以采用所描述的使一个或多个前景目标透明的方法。
如上所述,在一些实施例中,图像区域确定可以基于合成装置(解码器)或图像信号装置(编码器)中的处理。在解码器处这样做使得解码(在计算上)更昂贵。在编码器处这样做是更可行的,但是需要将关于背景区域的信息发送到解码器。优选的折衷可以取决于实施例。
在下文中,将描述基于将图像二元分成前景(FG)和背景(BG)并且其中图像区域对应于FG区域/像素的特定方法。在特定示例中,在编码器侧执行分割成FG和BG。
该方法遵循以下步骤:
1.计算每个源视图的密集FG/BG分割。因此,在颜色和深度属性旁边,每个像素具有FG或BG标签。
2.a)可以使用MIV“实体”扩展将FG/BG分割图发送到解码器。为此,MIV编码器可以作为附加输入接收包含所获得的每像素FG/BG分割的二元实体图。然后,所得到的比特流具有元数据,该元数据标识每个矩形纹理图集补块、实体ID(例如“背景”标签),并且经由“占用”将该标签细化到像素水平。这允许解码器重建分割图。b)替代地,将新的“背景”标志添加到专门用于此目的的标准。
3.用于背景观看的第二观看空间被放入比特流元数据中。MIV标准目前不支持多个观看空间。然而,它允许为(主要)观看空间指定“保护带大小”。这有效地产生了更大的次要观看空间,但是具有与主要观看空间(观看区域)相同的形状。替代地,可以采用对MIV标准的修改来允许多个观看空间,或应当选择非标准化方式。
在解码器处,密集的FG/BG标签从解码的比特流重构并附接到渲染图元(例如三角形)的顶点。当使用例如OpenGL用于视图合成时,可以将标签放入“纹理”中并由顶点着色器采样。任选地,顶点着色器可以将分割标签作为属性附接到顶点。当观看者移动超出观看空间边界时:通过将其输出值设置在有效剪辑空间外部,直接丢弃具有FG标签的所有顶点;或在稍后阶段中使用所附接的分割标签以在那里丢弃它。(几何和片段着色器具有丢弃图元的直接手段)。在视图合成过程中丢弃前景目标可能会增加丢失数据的大小。修复丢失数据的过程在正常解码过程中已经可用,并且将不再进一步描述。
可以使用不同的方法将图像分割成前景和背景(FG/BG分割)。该过程的核心可以是连接性度量,即反映相邻像素如何连接的度量。在示例中,世界坐标空间距离(米)可以用于此目的。通过使用深度图,每个像素具有世界空间(x,y,z)坐标。当两个相邻像素具有低于某个阈值(例如,2cm,取决于深度图质量)的距离时,它们被认为是连接的。我们定义了不同的目标,这些目标是仅连接到它们自身或地板表面的像素聚类(区域)。
可以使用以下步骤来执行FG/BG分割:
1.找到底面表面。在该实施例中,我们期望所选择的世界坐标系的z分量(高度)与底面表面正交。如果不是,则可以采取另外的步骤来使其如此。对于图像中的所有像素,我们找到z分量(高度)的最小值(‘z-底面’)。为了稳健地这样做,例如取最小z值的1个百分位数的平均值。我们标记图像中的具有接近“z-底面”的z值的所有像素。为此目的而使用阈值(可能与连接阈值相同)。
2.对于图像中的未标记像素,我们进行连通分量分析。
3.找到“可用隐藏层”的区域,意味着其中背景数据可从其他源视图获得的前景像素的区域。为了找到针对某个源视图的这些:从所有其他可用源视图合成该源视图的深度图。只有在具有反向Z缓冲(OpenGL:glDepthFunc(GL_TRUE))的情况下,意味着在合成过程中优先考虑背景。对于正常的视图合成,优先考虑前景。通过使用反向Z缓冲,合成结果包含所有可用的背景。它是失真图像,其中,许多前景目标已经消失或被背景侵蚀。它仅用于分析:通过对原始深度图和反向合成深度图之间的差异进行切片(阈值化),通过二元像素图识别具有可用隐藏层的前景区域。
4.具有显著隐藏层部分的分量被分类为“前景”。然后通过将具有“可用隐藏层”的连接分量的面积除以该分量的整个面积来确定重要性。该分数越大,背景被指示它是前景目标的该分量遮挡得越多。任选地,“前景”分类可以被附加有其分量编号,以将它们与其他前景目标区分开。
5.未分类的像素被分类为“背景”。
本发明可以以包括硬件、软件、固件或这些项目的任意组合的任意适合形式来实施。任选地,本发明可以被至少部分地实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何合适的方式在物理上,在功能上和在逻辑上实施。实际上,功能可以被实施在单个单元中,在多个单元中,或被实施为其他功能单元的部分。正因如此,本发明可以被实施在单个单元中,或可以在物理上和在功能上被分布在不同的单元、电路和处理器之间。
根据本领域中的标准术语,术语像素可以用于指代与像素相关联的性质,诸如由像素表示的场景的部分/元素的光强度、深度、位置。例如,像素的深度或像素深度可以被理解为是指由该像素表示的目标的深度。类似地,像素的亮度或像素亮度可以被理解为是指由该像素表示的目标的亮度。
虽然已经结合一些实施例描述了本发明,但是本发明并不旨在限于本文阐述的特定形式。相反,本发明的范围仅由权利要求书来限制。另外,虽然可以结合特定实施例来描述特征,但是本领域技术人员将认识到:可以根据本发明来组合所描述的实施例的各个特征。在权利要求中,术语包括并不排除其他元件或步骤的存在。
此外,虽然被单独列出,但是可以通过例如单个电路、单元或处理器来实施多个模块、元件、电路或方法步骤。另外,虽然个体特征可以被包括在不同的权利要求中,但是这些特征也可能被有利地组合,并且特征被包括在不同的权利要求中并不意味着特征的组合不是可行的和/或有利的。而且,特征被包括在一种类型的权利要求中并不意味着特征限于这种类型,而是指示在适当情况下该特征等同地适用于其他类型的权利要求。此外,权利要求中的特征的顺序并不意味着特征必须以此工作的任何特定顺序,并且特别地,在方法权利要求中的各个步骤的顺序并不意味着步骤必须以此顺序来执行。相反,可以以任何合适的顺序执行步骤。另外,单数引用并不排除多个。因此,对“一”、“一个”、“第一”、“第二”等的引用并不排除多个。在权利要求中提供的附图标记仅用于澄清示例,不应被解释为以任何方式对权利要求的范围的限制。
通常,图像合成装置、图像信号、图像合成的方法和实施所述方法的计算机程序的示例由下面的实施例指示。
实施例:
实施例1、一种图像合成装置,包括:
第一接收器(201),其被布置为接收描述三维场景的至少部分的三维图像数据;
图像区域电路(207),其被布置为确定所述三维数据中的至少第一图像区域;
深度电路(209),其被布置为根据所述三维图像数据的深度数据来确定所述第一图像区域的深度指示;
观看区域电路(211),其被布置为确定所述第一图像区域的第一观看区域;
第二接收器(203),其被布置为接收观看者的观看姿态;
视图合成电路(205),其被布置为从所述三维图像数据生成视图图像,所述视图图像表示从所述观看姿态的所述三维场景的视图;其中,所述视图合成电路(205)被布置为响应于所述深度指示以及所述观看姿态与所述第一观看区域之间的距离而调整所述视图图像中的所述第一图像区域的透明度。
实施例2、根据实施例1所述的图像合成装置,其中,所述视图合成电路(205)被布置为:如果所述距离超过阈值,则生成所述图像区域完全透明的视图图像。
实施例3、根据实施例2所述的图像合成装置,其中,所述视图合成电路(205)被布置为:如果所述距离不超过所述阈值,则生成所述图像区域不完全透明的视图图像。
实施例4、根据实施例2所述的图像合成装置,其中,所述视图合成电路(205)被布置为:如果所述距离不超过所述阈值,则生成所述图像区域不透明的视图图像。
实施例5、根据前述实施例中的任一项所述的图像合成装置,还包括所述图像区域电路(207),所述图像区域电路确定所述第一图像区域的第二观看区域,并且其中,所述视图合成电路(205)被布置为:如果观看姿态在第二观看区域内部,则生成所述图像区域不透明的视图图像,如果观看姿态在第二观看区域外部并且在第一观看区域内部,则生成所述图像区域部分透明的视图图像,并且如果观看姿态在第一观看区域外部,则生成所述图像区域完全透明的视图图像。
实施例6、根据任一前述实施例所述的图像合成装置,其中,所述第一观看区域取决于所述深度指示。
实施例7、根据任一前述实施例所述的图像合成装置,其中,所述第一观看区域取决于所述图像区域的形状复杂性。
实施例8、根据前述实施例中的任一项所述的图像合成装置,其中,所述第一观看区域取决于所述图像区域的视图移位灵敏度。
实施例9、根据任一前述实施例所述的图像合成装置,其中,所述第一观看区域取决于包括在所述三维图像数据中的所述第一图像区域的去遮挡数据的量。
实施例10、根据前述实施例中的任一项所述的图像合成装置,其中,用于根据所述距离确定所述透明度的函数包括关于所述观看姿态的变化的滞后。
实施例11、根据任一前述实施例所述的图像合成装置,其中,所述三维图像数据还包括针对所述三维图像的至少一幅输入图像的图像区域的指示,并且所述图像区域电路(207)被布置为响应于图像区域的所述指示而确定所述第一图像区域。
实施例12、根据任一前述实施例所述的图像合成装置,其中,所述三维图像数据还包括针对所述三维图像的至少一幅输入图像的观看区域的指示,并且所述观看区域电路(211)被布置为响应于所述观看区域的所述指示而确定所述第一观看区域。
实施例13、根据前述实施例中的任一项所述的图像合成系统,其中,所述视图合成电路(205)被布置为针对所述视图图像的至少第一像素在从多视图图像的不同图像导出的多个候选像素值之间进行选择,并且所述视图合成电路(205)被布置为针对高于阈值的距离选择最后方像素,并且针对低于所述阈值的距离选择最前方像素
实施例14、一种图像信号,包括:
三维图像数据,其描述三维场景的至少部分;以及
数据字段,其指示所述三维图像数据的渲染是否必须包括响应于渲染图像中的所述三维图像数据的图像的图像区域的深度指示和所述渲染图像的观看姿态与所述图像区域的观看区域之间的距离而调整所述图像区域的透明度。
实施例15、根据实施例14所述的图像信号,还包括对所述图像区域的指示和对所述观看区域的指示中的至少一项。
实施例16、一种图像信号装置,被布置为根据实施例14或实施例15生成图像信号。
实施例17、一种图像合成的方法,所述方法包括:
接收描述三维场景的至少部分的三维图像数据;
确定所述三维数据中的至少第一图像区域;
根据所述三维图像数据的深度数据来确定所述第一图像区域的深度指示;
确定所述第一图像区域的第一观看区域;
接收观看者的观看姿态;
从所述三维图像数据生成视图图像,所述视图图像表示从所述观看姿态的所述三维场景的视图;并且生成所述视图包括响应于所述深度指示以及所述观看姿态与所述第一观看区域之间的距离而调整所述视图图像中的所述第一图像区域的透明度。
实施例18、一种包括计算机程序代码模块的计算机程序产品,当所述程序在计算机上运行时,所述计算机程序代码模块适于执行实施例17所述的所有步骤。
在所附权利要求中更具体地限定了本发明。

Claims (18)

1.一种图像合成装置,包括:
第一接收器(201),其被布置为接收描述三维场景的至少部分的三维图像数据;
图像区域电路(207),其被布置为确定所述三维图像数据中的至少第一图像区域;
深度电路(209),其被布置为根据针对所述第一图像区域的所述三维图像数据的深度数据来确定所述第一图像区域的深度指示;
区域电路(211),其被布置为确定针对所述第一图像区域的第一区域;
第二接收器(203),其被布置为接收观看者的观看姿态;
视图合成电路(205),其被布置为根据所述三维图像数据来生成视图图像,所述视图图像表示从所述观看姿态看到的所述三维场景的视图;其中,所述视图合成电路(205)被布置为响应于所述深度指示以及所述观看姿态与所述第一区域之间的距离而调整所述视图图像中的所述第一图像区域的透明度,所述视图合成电路(205)被布置为随着所述观看姿态与所述第一区域之间的距离增加而增加透明度并且随着所述深度指示指出所述第一图像区域的深度减小而增加透明度。
2.根据权利要求1所述的图像合成装置,其中,所述视图合成电路(205)被布置为:如果所述观看姿态与所述第一区域之间的所述距离超过阈值,则生成所述图像区域完全透明的所述视图图像。
3.根据权利要求2所述的图像合成装置,其中,所述视图合成电路(205)被布置为:如果所述距离不超过所述阈值,则生成所述图像区域不完全透明的所述视图图像。
4.根据权利要求2所述的图像合成装置,其中,所述视图合成电路(205)被布置为:如果所述距离不超过所述阈值,则生成所述图像区域不透明的所述视图图像。
5.根据任一前述权利要求所述的图像合成装置,还包括:所述图像区域电路(207)被布置为确定针对所述第一图像区域的第二区域,并且其中,所述视图合成电路(205)被布置为:如果所述观看姿态在所述第二区域内部,则生成所述图像区域不透明的所述视图图像;如果所述观看姿态在所述第二区域外部并且在所述第一区域内部,则生成所述图像区域部分透明的所述视图图像;并且如果所述观看姿态在所述第一区域外部,则生成所述图像区域完全透明的所述视图图像。
6.根据任一前述权利要求所述的图像合成装置,其中,所述第一区域取决于所述深度指示。
7.根据任一前述权利要求所述的图像合成装置,其中,所述第一区域取决于所述图像区域的形状复杂性。
8.根据任一前述权利要求所述的图像合成装置,其中,所述第一区域取决于针对所述图像区域的观看姿态变化灵敏度。
9.根据任一前述权利要求所述的图像合成装置,其中,所述第一区域取决于针对在所述三维图像数据中包括的所述第一图像区域的去遮挡数据的量。
10.根据任一前述权利要求所述的图像合成装置,其中,用于根据所述距离来确定所述透明度的函数包括关于所述观看姿态的变化的滞后。
11.根据任一前述权利要求所述的图像合成装置,其中,所述三维图像数据还包括针对所述三维图像的至少一幅输入图像的图像区域的指示,并且所述图像区域电路(207)被布置为响应于图像区域的所述指示而确定所述第一图像区域。
12.根据任一前述权利要求所述的图像合成装置,其中,所述三维图像数据还包括针对所述三维图像的至少一幅输入图像的给定区域的指示,并且所述区域电路(211)被布置为响应于所述给定区域的所述指示而确定所述第一区域。
13.根据任一前述权利要求所述的图像合成系统,其中,所述视图合成电路(205)被布置为针对所述视图图像的至少第一像素在根据多视图图像的不同图像导出的多个候选像素值之间进行选择,并且所述视图合成电路(205)被布置为:针对高于阈值的所述距离选择最后方像素,并且针对低于所述阈值的所述距离选择最前方像素,最后方像素与指示距所述观看姿态最远的深度的深度值相关联,并且最前方像素与指示最接近所述观看姿态的深度的深度值相关联。
14.一种图像信号,包括:
三维图像数据,其描述三维场景的至少部分;以及
数据字段,其指示所述三维图像数据的渲染是否必须包括响应于所述三维图像数据的图像的图像区域的深度指示和针对所述渲染图像的观看姿态与所述图像区域的参考区域之间的距离而调整所述图像区域在渲染图像中的透明度。
15.根据权利要求14所述的图像信号,还包括对所述图像区域的指示和对所述参考区域的指示中的至少一项。
16.一种图像信号装置,其被布置为生成根据权利要求14或权利要求15的图像信号。
17.一种图像合成的方法,所述方法包括:
接收描述三维场景的至少部分的三维图像数据;
确定所述三维图像数据中的至少第一图像区域;
根据针对所述第一图像区域的所述三维图像数据的深度数据来确定所述第一图像区域的深度指示;
确定针对所述第一图像区域的第一区域;
接收观看者的观看姿态;
根据所述三维图像数据来生成视图图像,所述视图图像表示从所述观看姿态看到的所述三维场景的视图;并且生成所述视图图像包括响应于所述深度指示以及所述观看姿态与所述第一区域之间的距离而调整所述视图图像中的所述第一图像区域的透明度,所述透明度随着所述观看姿态与所述第一区域之间的距离增加而增加并且随着所述深度指示指出所述第一图像区域的深度减小而增加。
18.一种包括计算机程序代码模块的计算机程序产品,当所述程序在计算机上运行时,所述计算机程序代码模块适于执行根据权利要求17所述的所有步骤。
CN202280011192.9A 2021-01-21 2022-01-13 图像合成系统及其方法 Pending CN116746142A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21152810.4A EP4033754A1 (en) 2021-01-21 2021-01-21 An image synthesis system and method therefor
EP21152810.4 2021-01-21
PCT/EP2022/050573 WO2022157052A1 (en) 2021-01-21 2022-01-13 An image synthesis system and method therefor

Publications (1)

Publication Number Publication Date
CN116746142A true CN116746142A (zh) 2023-09-12

Family

ID=74205674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280011192.9A Pending CN116746142A (zh) 2021-01-21 2022-01-13 图像合成系统及其方法

Country Status (8)

Country Link
US (1) US20240080431A1 (zh)
EP (2) EP4033754A1 (zh)
JP (1) JP2024504337A (zh)
KR (1) KR20230133974A (zh)
CN (1) CN116746142A (zh)
CA (1) CA3208634A1 (zh)
TW (1) TW202239201A (zh)
WO (1) WO2022157052A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4125252B2 (ja) * 2004-03-02 2008-07-30 株式会社東芝 画像生成装置、画像生成方法、及び画像生成プログラム
JP6407460B1 (ja) * 2018-02-16 2018-10-17 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム

Also Published As

Publication number Publication date
US20240080431A1 (en) 2024-03-07
JP2024504337A (ja) 2024-01-31
EP4282155A1 (en) 2023-11-29
KR20230133974A (ko) 2023-09-19
WO2022157052A1 (en) 2022-07-28
CA3208634A1 (en) 2022-07-28
TW202239201A (zh) 2022-10-01
EP4033754A1 (en) 2022-07-27

Similar Documents

Publication Publication Date Title
US10368046B2 (en) Method and apparatus for generating a three dimensional image
JP7480163B2 (ja) 画像の奥行きマップの処理
CN113170213A (zh) 图像合成
EP3616399B1 (en) Apparatus and method for processing a depth map
US20240080431A1 (en) An image synthesis system and method therefor
EP4114008A1 (en) Image generation
US20220174259A1 (en) Image signal representing a scene
KR102659115B1 (ko) 이미지 생성 장치 및 그를 위한 방법
KR20220090574A (ko) 이미지 합성 시스템 및 그를 위한 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination