CN113795863A - 用于图像的深度图的处理 - Google Patents

用于图像的深度图的处理 Download PDF

Info

Publication number
CN113795863A
CN113795863A CN202080033592.0A CN202080033592A CN113795863A CN 113795863 A CN113795863 A CN 113795863A CN 202080033592 A CN202080033592 A CN 202080033592A CN 113795863 A CN113795863 A CN 113795863A
Authority
CN
China
Prior art keywords
depth
depth map
image
value
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080033592.0A
Other languages
English (en)
Inventor
C·韦雷坎普
B·W·D·范格斯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN113795863A publication Critical patent/CN113795863A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20012Locally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

一种处理深度图的方法包括接收(301)图像和对应的深度图。基于对应的深度图的至少第二深度图的深度值来更新(303)对应的深度图的第一深度图的深度值。更新基于根据其他图确定的候选深度值的加权组合。针对来自第二深度图的候选深度值的权重是基于对应于正在更新的深度的第一图像中的像素值与在一个位置处的第三图像中的像素值之间的相似性来确定的,所述位置是使用候选深度值通过将正在更新的深度值的位置投影到第三图像来确定的。以这种方式可以生成更一致的深度图。

Description

用于图像的深度图的处理
技术领域
本发明涉及针对图像的深度图的处理,并且具体地但不排他地,涉及对支持用于虚拟现实应用的视图合成的深度图的处理。
背景技术
近年来,随着不断开发和引入的利用和消费视频的新服务以及方式,图像和视频应用的种类和范围已经显著增加了。
例如,一种越来越流行的服务是以查看者能够主动和动态地与系统交互以改变呈现的参数的方式提供图像序列。在许多应用中一个非常吸引人的特征是能够改变查看者的有效查看位置和查看方向,例如允许查看者在所呈现的场景中移动和“环顾四周”。
这种特征能够具体地允许向用户提供虚拟现实体验。这可以允许用户在虚拟环境中例如(相对)自由地移动并动态地改变他的位置和他正在看的地方。通常,这种虚拟现实应用基于场景的三维模型,动态地评估该模型以提供具体的请求视图。这种方法是众所周知的,例如用于计算机和游戏机的游戏应用程序,如第一人称射击游戏。
还希望所呈现的图像是三维图像,特别是对于虚拟现实应用。实际上,为了优化查看者的沉浸感,通常,对于用户更优选地是体验作为三维场景的所呈现的场景。实际上,虚拟现实体验应该优选地允许用户选择他/她自己的位置、相机视点以及相对于虚拟世界的时间中的时刻。
许多虚拟现实应用程序基于预定的场景的模型,并且通常基于虚拟世界的人工模型。通常希望基于现实世界捕捉来提供虚拟现实体验。
在许多系统中,如具体地当基于真实世界场景时,提供场景的图像表示,其中,图像表示包括针对场景中的一个或多个捕捉点/视点的图像和深度。图像加深度表示提供一种对具体地是真实世界场景的非常有效的表征,其中,表征不仅通过对真实世界场景的捕捉相对容易生成,而且非常适合呈现器合成捕捉到的那些视图以外的其他视点的视图。例如,呈现器可以被布置为动态生成匹配当前本地查看者姿势的视图。例如,可以动态地确定查看者姿势,并且可以基于图像和例如所提供的深度图来动态地生成视图以匹配该查看者姿势。
在许多实际系统中,可以使用校准过的多视图相机装备来允许用户相对于捕捉场景采取不同视角的回放。应用包括在体育比赛期间选择个人视点,或在增强现实或虚拟现实耳机上回放所捕捉的3D场景。
You Yang等人在“Cross-View Multi-Lateral Filter for CompressedMultiView Depth Video”(IEEE TRANSACTIONS ON IMAGE PROCESSING.,2019年1月1日(2019-01-01),第28卷第1部分,第302-315页,XP055614403,US ISSN:1057-7149,DOI:10.1109/TIP.2018.2867740)中公开了一种交叉视图多边过滤方案,以改善具有深度压缩的非对称多视图视频框架内的压缩后的深度图/视频的质量。通过该方案,经由从不同时隙的当前和相邻视点中选择的非局部候选者来增强失真的深度图。具体地,这些候选者被聚类成一个表示交叉视图、空间和时间优先的物理上和语义上的交叉关系的宏超像素(macrosuper pixel)。
WOLFF KATJA等人在“Point Cloud Noise and Outlier Removal forImageBased 3D Reconstruction”(2016FOURTH INTERNATIONAL CONFERENCE ON 3DVISION(3DV),IEEE,2016年10月25日(2016-10-25),第1178-25页,XP033027617,DOI:10.1109/3DV.2016.20)公开了一种算法,其使用输入图像和对应的深度图来去除几何或光度学上与通过输入隐含的彩色表面不一致的像素。这允许标准表面重建方法执行较少的平滑,并因此获得更高的质量。
为了提供离散捕捉的视点之间的平滑过渡以及捕捉的视点之外的一些外推,通常提供深度图并将其用于预测/合成来自这些其他视点的视图。
深度图通常使用在捕捉相机之间的(多视图)立体匹配或更直接地通过使用深度传感器(基于结构光线或飞行时间)来生成。但是,从深度传感器或视差估计过程获得的这种深度图固有地具有误差以及可能导致合成视图中的误差和不准确性。这使查看者的体验降级。
因此,用于生成和处理深度图的改进的方法将是有利的。具体地,允许改进的操作、增加的灵活性、改进的虚拟现实体验、降低的复杂性、便利的实施方式、改进的深度图、提高的合成图像质量、改进的呈现、改进的用户体验和/或改进的性能和/或操作的系统和/或方法将是有利的。
发明内容
因此,本发明寻求优选地单独或以任何组合减轻、缓和或消除一个或多个上述缺点。
根据本发明的一个方面,提供一种处理深度图的方法,所述方法包括:接收表示来自不同查看姿势的场景的多幅图像及对应的深度图;基于对应的深度图的至少第二深度图的深度值来更新对应的深度图的第一深度图的深度值,第一深度图针对第一图像,并且第二深度图针对第二图像;更新包括:确定第一深度图中的第一深度图位置处的针对第一深度图的第一深度像素的第一候选深度值,第一候选深度值是响应于第二深度图中的第二深度图位置处的第二深度图的第二深度像素的至少一个第二深度值来确定的;通过对针对第一深度图位置的多个候选深度值的加权组合来确定针对第一深度像素的第一深度值,所述加权组合包括通过第一权重加权的第一候选深度值;其中,确定第一深度值包括:确定针对第一深度图位置的第一图像中的第一图像位置,确定多幅图像中的第三图像中的第三图像位置,第三图像位置对应于基于第一候选深度值的第一图像位置到第三图像的投影;确定指示针对第三图像位置的第三图像中的图像像素值与针对第一图像位置的第一图像中的图像像素值之间的差的第一匹配误差指示,并且,响应于第一匹配误差指示确定第一权重。
所述方法可以在许多实施例中提供改进的深度图,并且可以具体地提供具有增加的一致性的一组深度图。当基于图像和更新后的深度图来合成图像时,所述方法可以允许改进的视图一致性。
发明人已经认识到深度图之间的不一致可能通常比深度图之间一致的误差或噪声更容易感知,并且特定方法可以提供更一致的更新后的深度图。所述方法可以用作深度细化算法,其改进针对场景的一组多视图图像的深度图的质量。
所述方法可以便于在许多实施例中的实施,并且可以以相对较低的复杂性和资源需求来实施。
图像中的位置可以直接对应于在对应的深度图中的位置,反之亦然。图像中的位置与对应的深度图中的位置之间可以存在一对一的对应性。在许多实施例中,像素位置在图像和对应的深度图中可以是相同的,并且对应的深度图可以包括针对图像中的每个像素的一个像素。
在一些实施例中,权重可以是二进制的(例如一或零),并且加权组合可以是选集(selection)。
应当理解,术语投影通常是指场景中的三维空间坐标到图像或深度图中的二维图像坐标(u,v)的投影。但是,投影也可以指从一幅图像或深度图到另一幅图像或深度图,即从针对一个姿势的一组图像坐标(u1,v1)到针对另一个姿势的另一组图像坐标(u2,v2)的针对场景点的维度图像坐标(u,v)之间的映射。针对对应于不同查看姿势/位置的图像的图像坐标之间的这种投影通常考虑对应的空间场景点,并且具体地通过考虑场景点的深度来执行。
在一些实施例中,确定第一深度值包括:将第一深度图位置投影到对应的深度图中的第三深度图中的第三深度图位置,第三深度图针对第三图像,并且投影基于第一候选深度值,确定第一匹配误差指示,所述第一匹配误差指示指示针对第三深度图位置的第三图像中的图像像素值与针对第一深度图位置的第一图像中的图像像素值之间的差,并且,响应于第一匹配误差指示来确定第一权重。
根据本发明的可选特征,确定第一候选深度值包括,基于第一深度图的的第二值和第一原始深度值中的至少一个,通过第一图像的第一查看姿势和第二图像的第二查看姿势之间的投影确定相对于第一深度图位置的第二深度图位置。
这在许多实施例中可以提供具体有利的性能,并且可以特别地允许在许多场景中具有改进的一致性的改进的深度图。
投影可以基于第一原始深度值,从第二深度图位置到第一深度图位置,并且因此是从第二查看姿势到第一查看姿势。
投影可以基于第二深度值,从第二深度图位置到第一深度图位置,并且因此是从第二查看姿势到第一查看姿势。
原始深度值可以是第一深度图的未更新深度值。
原始深度值可以是如由接收器接收到的第一深度图的深度值。
在一些实施例中,确定第一深度值包括:将第一深度图位置投影到对应的深度图的第三深度图中的第三深度图位置,第三深度图针对第三图像并且投影基于第一候选深度值,确定第一匹配误差指示,所述第一匹配误差指示指示针对第三深度图位置的第三图像中的图像像素值与针对第一深度图位置的第一图像中的图像像素值之间的差,并且,响应于第一个匹配误差指示确定第一权重。
根据本发明的可选特征,加权组合包括从响应于第一深度图位置确定的第二深度图的区域确定的候选深度值。
这可以在许多实施例中提供增加的深度图一致性。第一候选深度值可以从区域的一个或多个深度值导出。
根据本发明的可选特征,第二深度图的区域被确定为第二深度图位置周围的区域,并且,第二深度图位置被确定为等于第一深度图中的第一深度图位置的第二深度图中的深度图位置。
这可以允许考虑合适的深度值的低复杂度和低资源但有效的确定。
根据本发明的可选特征,第二深度图的区域被确定为,在第一深度位置处的通过来自基于第一深度图中的原始深度值的第一深度图位置的投影所确定的第二深度图中的位置周围的区域。
在许多实施例中,这可以提供增加的深度图一致性。原始深度值可以是由接收器接收到的第一深度图的深度值。
根据本发明的可选特征,方法还包括,确定第二匹配误差指示,所述第二匹配误差指示指示针对第二深度图位置的第二图像中的图像像素值与该第一深度图位置的第一图像中的图像像素值之间的差;并且其中,确定第一权重也响应于第二匹配误差指示。
这在许多实施例中可以提供改进的深度图。
根据本发明的可选特征,方法还包括,确定附加的匹配误差指示,所述附加的匹配误差指示指示对应于第一深度图位置的针对深度图位置的其他图像中的图像像素值与针对第一深度图位置的第一图像中的图像像素值之间的差;并且其中,确定第一权重也响应于附加的匹配误差指示。
这在许多实施例中可以提供改进的深度图。
根据本发明的可选特征,加权组合包括第一深度图位置周围区域中的第一深度图的深度值。
这在许多实施例中可以提供改进的深度图。
根据本发明的可选特征,第一权重取决于第一候选深度值的置信度值。
这可以在许多场景中提供改进的深度图。
根据本发明的可选特征,仅更新置信度值低于阈值的第一深度图的深度值。
这可以在许多场景中提供改进的深度图,并且可以具体地降低将准确的深度值更新为不太准确的深度值的风险。
根据本发明的可选特征,方法还包括,选择第二深度图的一组深度值以包括在所述加权组合中,其满足所述一组深度值的深度值必须具有高于阈值的置信度值的要求。
这可以在许多场景中提供改进的深度图。
根据本发明的可选特征,方法还包括:将给定深度图中针对给定深度值的给定深度图位置投影到多个对应的深度图中的对应位置;确定针对一组深度值的变化度量,所述一组深度值包括给定深度值和多个对应的深度图中的对应位置处的深度值;并且,响应于变化度量来确定针对给定深度图位置的置信度值。
这可以提供对可以产生改进的深度图的置信度值的具体有利的确定。
根据本发明的可选特征,方法还包括:将在给定深度图中的针对给定深度值的给定深度图位置投影到另一深度图中的对应位置,所述投影基于给定深度值;将另一深度图中的对应位置投影到给定深度图中的测试位置,所述投影基于另一深度图中对应位置处的深度值;响应于给定深度图位置与测试位置之间的距离来确定针对给定深度图位置的置信度值。
这可以提供可以产生改进的深度图的置信度值的具体有利的确定。
根据本发明的一个方面,提供一种用于处理深度图的装置,所述装置包括:接收器,其用于接收表示来自不同查看姿势的场景的多幅图像和对应的深度图;更新器,其用于基于对应的深度图的至少第二深度图的深度值来更新对应的深度图的第一深度图的深度值,第一深度图针对第一图像,并且第二深度图针对第二图像;所述更新包括:确定第一深度图中的第一深度图位置处的针对第一深度图的第一深度像素的第一候选深度值,第一候选深度值是响应于第二深度图中的第二深度图位置处的第二深度图的第二深度像素的至少一个第二深度值而确定的;通过针对第一深度图位置的多个候选深度值的加权组合来确定针对第一深度像素的第一深度值,加权组合包括由第一权重加权的第一候选深度值;其中,确定第一深度值包括:确定针对第一深度图位置的第一图像中的第一图像位置,确定多幅图像中的第三图像中的第三图像位置,第三图像位置基于第一候选深度值对应于第一图像到第三图像的投影;确定第一匹配误差指示,所述第一匹配误差指示指示针对第三图像位置的第三图像中的图像像素值与针对第一图像位置的第一图像中的图像像素值之间的差,并且,响应于第一匹配误差指示来确定第一权重。
参考下文描述的实施例,本发明的这些和其他方面、特征和优点将是显而易见的并被阐明。
附图说明
将仅通过范例的方式,参考附图来描述本发明的实施例,其中
图1示出了用于提供虚拟现实体验的装置的范例;
图2示出了根据本发明的一些实施例的用于处理深度图的装置的元素的范例;
图3示出了根据本发明的一些实施例的处理深度图的方法的元素的范例;
图4示出了用于捕捉场景的相机设置的范例;
图5示出了根据本发明的一些实施例的更新深度图的方法的元素的范例;
图6示出了根据本发明的一些实施例确定权重的方法的要素的范例;
图7示出了根据本发明的一些实施例对深度图和图像的处理的范例。
具体实施方式
以下描述集中于适用于虚拟现实体验的本发明的实施例,但是应当理解,本发明不限于该应用,而是可以应用于许多其他系统和应用,如包括视图合成的具体应用。
允许用户在虚拟世界中四处走动的虚拟体验正变得越来越流行,并且正在开发服务以满足这种需求。然而,提供高效的虚拟现实服务非常具有挑战性,具体地,如果体验基于对真实世界环境的捕捉而不是完全虚拟生成的人工世界。
在许多虚拟现实应用中,确定查看者姿势输入,反映场景中虚拟查看者的姿势。虚拟现实装置/系统/应用然后生成对于对应于查看者姿势的查看者的对应于场景的视图和视口的一幅或多幅图像。
通常,虚拟现实应用生成针对左眼和右眼的单独视图图像形式的三维输出。然后可以通过合适的方式将这些呈现给用户,如通常是VR头戴式耳机的单独的左眼和右眼显示器。在其他实施例中,图像可以例如被呈现在自动立体显示器上(在这种情况下,可以针对查看者姿势生成大量视图图像),或者实际上在一些实施例中,可以仅生成单个二维图像(例如,使用传统的二维显示器。
查看者姿势输入可以在不同应用中以不同方式确定。在许多实施例中,可以直接跟踪用户的身体运动。例如,调查用户区域的相机可以检测和跟踪用户的头部(或者甚至眼睛)。在许多实施例中,用户可以佩戴能够通过外部和/或内部方式跟踪的VR头戴式耳机。例如,头戴式耳机可以包括加速度计和陀螺仪,提供有关头戴式耳机和由此头部的运动和旋转的信息。在一些范例中,VR头戴式耳机可以传输信号或包括(例如视觉)标识符,使外部传感器能够确定VR头戴式耳机的移动。
在一些系统中,观察者姿势可以通过手动方式提供,例如由用户手动控制操纵杆或类似的手动输入。例如,用户可以通过用一只手控制第一模拟操纵杆,以及通过用另一只手手动移动第二模拟操纵杆来手动控制虚拟查看者正在注视的方向来手动地在场景中四处移动虚拟查看者。
在一些应用中,可以使用手动和自动方法的组合来生成输入查看者姿势。例如,头戴式耳机可以跟踪头部的取向,并且可以由用户使用操纵杆来控制查看者在场景中的移动/位置。
图像的生成基于虚拟世界/环境/场景的合适表示。在一些应用中,可以为场景提供完整的三维模型,并且能够通过评估该模型来确定来自特定查看者姿势的场景的视图。
在许多实际系统中,场景可以由包括图像数据的图像表示来表示。图像数据通常可以包括与一个或多个捕捉或锚定姿势相关联的一幅或多幅图像,并且具体地可以包括针对一个或多个视口的图像,其中每个视口对应于特定姿势。可以使用包括一幅或多幅图像的图像表示,其中每幅图像表示针对给定查看姿势的给定视口的视图。为其提供图像数据的此类查看姿势或位置通常也称为锚定姿势或位置,或捕捉姿势或位置(因为图像数据通常可以对应于由以对应于捕捉姿势的位置和取向定位在场景中的相机捕捉或将由其捕捉的图像)。
图像通常与深度信息相关联,并且具体地,通常提供深度图像或深度图。这种深度图可以为对应图像中的每个像素提供深度值,其中深度值指示从相机/锚定/捕捉位置到由像素描绘的对象/场景点的距离。因此,像素值可以被认为表示从场景中的对象/点到相机的捕捉设备的射线,并且针对像素的深度值可以反映该射线的长度。
在许多实施例中,图像的分辨率和对应的深度图可以是相同的,因此对于图像中的每个像素可以包括个体深度值,即,深度图可以包括针对图像的每个像素的一个深度值。在其他实施例中,分辨率可以是不同的,并且例如深度图可以具有较低的分辨率,使得一个深度值可以应用于多幅图像像素。下面的描述将关注于图像的分辨率和对应的深度图相同,并且因此对于每个图像像素(图像的像素),存在单独的深度图像素(深度图的像素)的实施例。
深度值可以是指示用于像素的深度的任何值,因此它可以是指示从相机位置到由给定像素描绘的场景的对象的距离的任何值。深度值可以例如是视差值、z坐标、距离度量等。
许多典型的VR应用可以在这种图像加深度表示的基础上继续提供,与用于当前查看者姿势的场景的视口相对应的视图图像,以及用于反映查看者姿势变化的正在进行动态更新的图像,以及正在基于表示(可能的)虚拟场景/环境/世界的图像数据生成的图像。应用可以通过执行本领域普通技术人员已知的视图合成和视图移位算法来做到这一点。
在本领域中,术语放置和姿势被用作针对位置和/或方向/取向的通用术语。例如对象、相机、头部或视图的位置和方向/取向的组合可以被称为姿势或放置。因此,放置或姿势指示可以包括六个值/分量/自由度,每个值/分量通常描述对应对象的位置/定位或取向/方向的个体属性。当然,在许多情况下,放置或姿势可以被认为具有更少的分量或用更少的分量表示,例如,如果一个或多个分量被认为是固定的或不相关的(例如,如果所有对象都被认为处于相同的高度并且具有水平取向,四个分量可以提供对象姿势的完整表示)。在下文中,术语姿势用于指可以由一到六个值(对应于最大可能的自由度)表示的位置和/或取向。
许多VR应用基于具有最大自由度的姿势,即,每个位置和取向的三个自由度,产生总共六个自由度。姿势因此可以由表示六个自由度的六个值的集合或向量来表示,并且因此,姿势向量可以提供三维位置和/或三维方向指示。然而,应当理解,在其他实施例中,姿势可以由更少的值来表示。
姿势可以是取向和位置中的至少一个。姿势值可以指示取向值和位置值中的至少一个。
基于为查看者提供最大自由度的系统或实体通常被称为具有6个自由度(6DoF)。许多系统和实体仅提供取向或位置,并且这些通常被称为具有3个自由度(3DoF)。
在一些系统中,VR应用可以通过例如不使用、甚至无法访问任何远程VR数据或处理的独立设备在本地提供给查看者。例如,诸如游戏控制台的设备可以包括用于存储场景数据的存储器、用于接收/生成查看者姿势的输入、以及用于根据场景数据生成对应图像的处理器。
在其他系统中,VR应用程序可以远离查看者远程实施和执行。例如,用户本地的设备可以检测/接收运动/姿势数据,所述数据被传输到处理数据以生成查看者姿势的远程设备。远程设备然后可以基于描述场景的场景数据来生成针对查看者姿势的合适的视图图像。然后将视图图像传输到对其进行呈现的查看者本地的设备。例如,远程设备可以直接生成由本地设备直接呈现的视频流(通常是立体/3D视频流)。因此,在这样的范例中,除了传输运动数据和呈现接收到的视频数据之外,本地设备可以不执行任何VR处理。
在许多系统中,功能可以分布在本地设备和远程设备上。例如,本地设备可以处理接收到的输入和传感器数据,以生成连续传输到远程VR设备的查看者姿势。远程VR设备然后可以生成对应的视图图像并将这些视图图像传输到本地设备以供呈现。在其他系统中,远程VR设备可以不直接生成视图图像,而是可以选择相关的场景数据并将其传输到本地设备,然后本地设备可以生成被呈现的视图图像。例如,远程VR设备可以识别最近的捕捉点并提取对应的场景数据(例如来自捕捉点的球面图像和深度数据),并将其传输到本地设备。本地设备然后可以处理接收到的场景数据,以生成用于特定的当前查看姿势的图像。查看姿势通常对应于头部姿势,并且对查看姿势的引用通常可以等效地被认为对应于对头部姿势的引用。
在许多应用中,尤其是对于广播服务,源可以以独立于查看者姿势的场景的图像(包括视频)表示的形式传输场景数据。例如,针对单个捕捉位置的用于单个视图球体的图像表示可以被传输到多个客户端。个体客户端然后可以在本地合成对应于当前查看者姿势的视图图像。
一个特别吸引人关注的应用是支持有限量的移动,使得所呈现的视图被更新,以跟随与仅进行很小的头部移动和头部旋转的基本上静态的查看者相对应的很小的移动和旋转。例如,坐着的查看者能够转动他的头部并稍微移动头部,所呈现的视图/图像被调整,以跟随这样的姿势变化。这种方法可以提供高度地且身临其境的(例如视频)体验。例如,观看体育赛事的查看者可以感觉他出现在竞技场的具体地点。
这种有限自由度的应用具有提供改进的体验的优点,同时不需要来自许多不同位置的准确的场景表示,从而显着降低捕捉要求。类似地,需要提供给呈现器的数据量能够大大减少。实际上,在许多场景中,用于单个视点的图像和通常的深度数据需要被提供有能够从中生成所需视图的本地呈现器。
所述方法可以具体是特别适用于需要通过带宽受限的通信信道将数据从源传输到目的地的应用,例如广播或客户端服务器应用。
图1示出了VR系统的这样一个范例,其中,远程VR客户端设备101经由诸如因特网的网络105与VR服务器103联络。服务器103可以被布置为同时支持潜在的大量客户端设备101。
VR服务器103可以例如通过以图像数据形式传输包括图像表示的图像信号来支持广播体验,客户端设备可以使用所述图像数据在本地合成与适当的姿势相对应的视图图像。
图2示出了用于处理深度图的装置的范例性实施方式的范例元素。所述装置可以具体实施在VR服务器103中,并将以此进行说明。图3示出了用于由图2的设备执行的处理深度图的方法的流程图。
装置/VR服务器103包括执行步骤301的接收器201,在步骤301中,接收表示来自不同查看姿势的场景的多幅图像和对应的深度图。
图像包括光线强度信息,并且图像的像素值反映光线强度值。在一些范例中,像素值可以是单个值,例如针对灰度图像的亮度,但在许多实施例中,像素值可以是(子)值的集合或向量,例如针对彩色图像的颜色通道值(例如,可以提供RGB或Yuv值)。
针对图像的深度图可以包括针对相同视口的深度值。例如,对于针对给定视图/捕捉/锚定姿势的图像的每个像素,对应的深度图包括具有深度值的像素。因此,图像中的相同位置及其对应的深度图分别提供对应于像素的射线的光线强度和深度。在一些实施例中,深度图可以具有较低的分辨率,并且例如,一个深度图像素可以对应于多个图像像素。然而,在这种情况下,深度图中的位置与深度图中的位置(包括子像素位置)之间仍然可以存在直接的一一对应关系。
为了简洁和避免复杂,以下描述将关注于仅提供三幅图像和对应的深度图的范例。还假设这些图像是通过从三个不同查看位置捕捉场景并具有图4中所示的相同取向的相机的线性排列提供的。
应当理解,在许多实施例中,通常接收大量的图像,并且通常从更大量的捕捉姿势捕捉场景。
接收器被馈送到深度图更新器,为简洁起见,在下文中,所述更新器简称为更新器203。更新器203执行步骤303,在步骤303中,更新一个或多个(通常是所有)接收到的深度图。更新包括基于至少第二接收到的深度图的深度值来更新第一接收到的深度图的深度值。因此,执行交叉深度图和交叉查看姿势更新,以生成改进的深度图。
在范例中,更新器203被耦合到图像信号生成器205,所述图像信号生成器205执行步骤305,在步骤305中,图像信号生成器205生成包括接收到的图像以及更新后的深度图的图像信号。图像信号然后可以例如被传输到VR客户端设备101,在那里它可以用作用于合成针对当前查看者姿势的视图图像的基础。
在范例中,深度图更新因此在VR服务器103中执行,更新后的深度图被分发到VR客户端设备101。然而,在其他实施例中,深度图更新可以例如在VR客户端设备101中执行。例如,接收器201可以是VR客户端设备101的一部分,并且从VR服务器103接收图像和对应的深度图。然后可以由更新器203更新接收到的深度图,并且代替图像信号生成器205,装置可以包括呈现器或视图图像合成器,其被布置为基于图像和更新后的深度图来生成新的视图。
在其他实施例中,所有处理都可以在单个设备中执行。例如,同一设备可以接收直接捕捉到的信息,并且例如通过视差估计来生成初始深度图。可以更新所产生的深度图,并且设备的合成器可以动态地生成新的视图。
因此,所描述的功能的位置和更新后的深度图的具体使用将取决于各个实施例的偏好和要求。
深度图的更新相应地基于表示来自不同空间位置和针对不同图像的深度的一个或多个其他深度图。所述方法利用了以下认识:对于深度图,不仅个体深度值或深度图的绝对准确性或可靠性对于产生感知质量很重要,而且不同深度图之间的一致性也非常重要。
事实上,启发式获得的见解是,当深度图之间的误差或不准确度不一致时,即它们随源视图而变化时,它们被视为特别有害的,因为它们有效地导致当查看者改变位置时感知到虚拟场景剧烈震动。
这种视图一致性在深度图估计过程中并不总是得到充分执行。例如,当使用独立的深度传感器以获得针对每个视图的深度图时就是这种情况。在这种情况下,深度数据是完全独立捕捉的。在另一种极端情况下,在所有视图都用于估计深度(例如使用平面扫描算法)的情况下,结果可能仍然不一致,因为结果将取决于所使用的具体的多视图视差算法及其参数设置。下面描述的具体方法可以在许多场景中缓解此类问题,并且可以更新深度图以产生改进的深度图之间的一致性,并且因此产生改进的感知图像质量。所述方法可以改进针对一组场景的多视图图像的深度图的质量。
图5示出了对一个深度图的一个像素执行更新的流程图。可以针对一些或所有深度图像素重复所述方法,以生成更新后的第一深度图。然后还可以针对其他深度图重复所述过程。
深度图(以下称为第一深度图)中的像素(以下称为第一深度像素)的更新在步骤501中开始,其中,为第一深度像素确定第一候选深度值。第一深度图中的第一深度像素的位置称为第一深度图位置。对应的术语用于仅更改数字标签的其他视图。
响应于至少一个第二深度值来确定第一候选深度值,所述第二深度值是在第二深度图中的第二深度图位置处的第二深度像素的深度值。因此,第一候选深度值是根据另一个深度图的一个或多个深度值来确定的。第一候选深度值具体地可以是基于在第二深度图中包含的信息对针对第一深度像素的正确深度值的估计。
步骤501之后是步骤503,其中通过针对第一深度图位置的多个候选深度值的加权组合为第一深度像素确定更新的第一深度值。在步骤503中确定的第一候选深度值被包括在加权组合中。
因此,在步骤501中,确定针对后续组合的多个候选深度值中的一个。在大多数实施例中,可以在步骤501中通过对针对第二深度图中的其他深度值和/或针对其他深度图中的深度值重复针对第一候选深度值描述的过程来确定多个候选深度值。
在许多实施例中,可以以其他方式或从其他源确定一个或多个候选深度值。在许多实施例中,候选深度值中的一个或多个可以是来自第一深度图的深度值,如第一深度像素的邻域中的深度值。在许多实施例中,原始第一深度值,即由接收器201接收的针对第一深度图中的第一深度像素的深度值,可以被包括作为候选深度值之一。
因此,更新器205可以执行包括如上所述确定的至少一个候选深度值的候选深度值的加权组合。任何其他候选深度值的数量、属性、原点等将取决于各个实施例的偏好和要求以及所需的准确的深度更新操作。
例如,在一些实施例中,加权组合可以仅包括在步骤501中确定的第一候选深度值和原始深度值。在这种情况下,可以例如仅确定针对第一候选深度值的单个权重,并且针对原始深度值的权重可以是恒定的。
作为另一范例,在一些实施例中,加权组合可以是大量候选深度值的组合,所述大量候选深度值包括从其他深度图和/或位置确定的值、原始深度值、第一深度图中的邻域中的深度值、或者实际上甚至基于可选深度图(例如使用不同深度估计算法的深度图)中的深度值。在这种更复杂的实施例中,可以例如针对每个候选深度值确定权重。
应当理解,可以使用任何合适形式的加权组合,包括例如非线性组合或选择组合(其中一个候选深度值的权重给定为1,并且所有其他候选深度值的权重给定为0)。然而,在许多实施例中,可以使用线性组合,具体地使用加权平均。
因此,作为具体范例,针对深度图/视图k中的图像坐标(u,v)的更新后的深度值
Figure BDA0003337391170000151
可以是其中至少一个如步骤501所述生成的i∈{1,…,n}个候选深度值zi的集合的加权平均值。在这种情况下,加权组合可以对应于如下给出的滤波器函数:
Figure BDA0003337391170000152
其中,
Figure BDA0003337391170000153
是用于视图k的像素位置(u,v)处的更新后深度值,zi是第i个输入候选深度值,wi是第i个输入候选深度值的权重。
所述方法使用用于确定第一候选深度值的权重(即,第一权重)的具体方式。将参考图6的流程图和图7的图像和深度图描述所述方式。
图7示出了其中提供/考虑三幅图像和三个对应的深度图的范例。第一图像701与第一深度图703一起提供。类似地,第二图像705与第二深度图707一起提供,并且第三图像709与第三深度图711一起提供。以下描述将关注于基于来自第二深度图707的深度值并进一步考虑第三图像709来确定针对第一深度图703的第一深度值的第一权重。
(针对第一候选深度值的)第一权重的确定因此基于第二深度图707中的第二深度图位置处的针对第二深度像素的一个或多个第二深度值,为第一深度像素/第一深度图位置来确定。具体地,如图7中箭头713所示,可以将第一候选深度值确定为第二深度图707中的对应位置处的第二深度值。
第一权重的确定在步骤601开始,其中,更新器确定如箭头715所示的对应于第一深度图位置的第一图像701中的第一图像位置。通常,这可以只是相同的位置和图像坐标。对应于第一图像位置的第一图像701中的像素被称为第一图像像素。
更新器203然后在步骤603中继续,以基于第一候选深度值来确定多幅图像的第三图像709中的第三图像位置,其中第三图像位置对应于第一图像位置到第三图像的投影。可以从由箭头717指示的第一图像701的图像坐标的直接投影来确定第三图像位置。
更新器203相应地继续将第一图像位置投影到第三图像709中的第三图像位置。投影基于第一候选深度值。因此,第一图像位置到第三图像709的投影基于一个深度值,所述深度值能够被认为是基于第二深度图707确定的对第一深度值的估计。
在一些实施例中,第三图像位置的确定可以是基于深度图位置的投影。例如,更新器203可以继续将第一深度图位置(第一深度像素的位置)投影到如箭头719所示的第三深度图711中的第三深度图位置。投影基于第一候选深度值。因此,第一深度图位置到第三深度图711的投影基于一个深度值,该深度值能够被认为是基于第二深度图707确定的对第一深度值的估计。
然后可以将第三图像位置确定为如箭头721所示的对应于第三深度图位置的第三图像709中的图像位置。
应当理解,这两种方式是等效的。
从一个深度图/图像到不同的深度图/图像的投影可以是对表示与在一个深度图/图像中的深度图/图像位置相同的场景点的不同深度图/图像中的深度图/图像位置的确定。由于深度图/图像表示不同的查看/捕捉姿势,视差效应将导致针对场景中的给定点的图像位置的偏移。偏移将取决于查看姿势的变化和场景中的点的深度。从一幅图像/深度图到另一幅图像/深度图的投影相应地也可以被称为图像/深度图位置偏移或确定。
作为范例,将一个视图(l)中的图像坐标(u,v)l及其深度值zl(u,v)投影到相邻视图(k)的对应图像坐标(u,v)k中可以例如对于透视相机通过以下步骤来执行:
1.图像坐标(u,v)l未使用zl投影在用于相机(l)的相机内在参数(焦距和主点)的3d空间(x,y,z)l中。
2.使用它们的相对外部参数(相机旋转矩阵R和平移向量t),相机(l)的坐标系中的未投影点(x,y,z)l被转换为相机(k)的坐标系(x,y,z)k。
3.最终点(x,y,z)k(使用k的相机内在值)投影到相机(k)的图像平面上,产生图像坐标(u,v)k
对于其他相机投影类型,例如等距柱状投影(ERP)可以使用类似的机制。
在所描述的方式中,基于第一候选深度值的投影可以被认为是对应于确定针对具有第一候选深度值的深度的第一深度图/图像位置的场景点的第三深度图/图像位置(以及针对第一和第三查看姿势之间的查看姿势的变化)。
不同的深度将产生不同的偏移,并且在当前情况下,针对第一深度图703和第一图像701的第一查看姿势与针对第三深度图711和第三图像709的第三查看姿势之间的图像和深度图位置中的偏移基于第二深度图707中的至少一个深度值。
在步骤603中,更新器203相应地确定第三深度图711和第三图像709中的位置,如果第一候选深度值确实是针对第一深度值和第一图像像素的正确值,则该位置将反映与第一图像701中的第一图像像素相同的场景点。第一候选深度值从正确值的任何偏差都可能导致在第三图像709中确定不正确的位置。应当注意,这里的场景点是指在与像素相关联的射线上的场景点,但是它们可能不一定是针对两个查看姿势的最前面的场景点。例如,如果从第一查看姿势看到的场景点被从第二个查看姿势看到的(更多的)前景对象遮挡,则深度图以及图像的深度值可能表示不同的场景点,并因此具有可能非常不同的值。
步骤603之后是步骤605,其中,基于分别在第一图像位置和第三图像位置处的第一和第三图像701、709的内容生成第一匹配误差指示。具体地,检索在第三图像位置处的第三图像的图像像素值。在一些实施例中,该图像像素值可以被确定为第三图像709中的图像像素值,第三深度图711中的第三深度图位置为其提供被确定的深度值。应当理解,在许多实施例中,即在对于第三深度图711和第三图像709使用相同分辨率的情况下,直接确定对应于第一深度图位置(箭头719)的第三图像709中的位置相当于确定第三深度图711中的位置,并检索对应的图像像素。
类似地,更新器203继续提取第一图像位置处的第一图像701中像素值。然后继续确定指示这两个图像像素值之间的差的第一匹配误差指示。应当理解,可以使用任何合适的差值度量,例如简单的绝对差值、应用到例如多颜色通道的像素值分量的和平方根差,等等。
因此,更新器203确定605第一匹配误差指示,所述第一匹配误差指示指示针对第三图像位置的第三图像中的图像像素值与针对第一图像位置的第一图像中的图像像素值之间的差。
更新器203然后继续到步骤607,其中,响应于第一匹配误差指示来确定第一权重。应当理解,用于根据第一匹配误差指示来确定第一权重的具体方式可以取决于各个实施例。在许多实施例中,可以使用包括例如其他匹配误差指示的复杂的考虑,稍后将提供更多范例。
作为低复杂度的范例,在一些实施例中第一权重可以被确定为第一匹配误差指示的单调递减函数,并且在许多实施例中没有考虑任何其他参数。
例如,在加权组合仅包括第一候选深度值和第一深度像素的原始深度值的范例中,该组合可以对原始深度值应用固定的权重,第一匹配误差指示越低,第一权重增加(通常还包括权重归一化)。
可以认为第一匹配误差指示反映第一和第三图像在表示给定场景点方面的匹配程度。如果第一图像和第三图像之间没有遮挡差,并且如果第一候选深度值是正确值,则图像像素值应该相同并且第一匹配误差指示应该为零。如果第一候选深度值从正确值偏离,则第三图像中的图像像素可能不直接对应于同一个场景点,从而第一匹配误差指示可能增加。如果遮挡发生变化,则误差可能非常高。因此,第一匹配误差指示可以提供第一候选深度值对于第一深度像素的准确度和适合度的良好指示。
在不同的实施例中,可以使用不同的方式从第二深度图的一个或多个深度值中确定第一候选深度值。类似地,可以使用不同的方式来确定为加权组合生成哪些候选值。具体地,可以从第二深度图的深度值中生成多个候选值,并且可以根据关于图6描述的方式为这些候选值中的每一个单独计算权重。
在许多实施例中,确定使用哪些第二深度值来导出第一候选深度值取决于第一深度图与第二深度图之间的投影,从而确定两个深度图中的对应位置。具体地,在许多实施例中,第一候选深度值可以被确定为第二深度图位置处的第二深度值,所述第二深度图位置被认为对应于第一深度图位置,即,选择第二深度值作为被认为表示相同场景点的深度值。
确定对应的第一深度图位置和第二深度图位置可以基于从第一深度图到第二深度图的投影,即,可以基于原始第一深度值,或者其可以基于从第二深度图到第一深度图的投影,即,可以基于第二深度值。在一些实施例中,可以执行在两个方向上的投影并且例如可以使用这些投影的平均值。
因此,确定第一候选深度值可以包括基于第二值和第一深度图的第一原始深度值中的至少一个,通过在第一图像的第一查看姿势与第二图像的第二查看姿势之间的投影,确定相对于第一深度图位置的第二深度图位置。
例如,对于给定的第一深度图中的第一像素,更新器203可以提取深度值并且使用它来将对应的第一深度图位置投影到第二深度图中的对应的第二深度图位置。然后它可以提取在该位置处的第二深度值并将其用作第一候选深度值。
作为另一范例,对于给定的第二深度图中的第二像素,更新器203可以提取深度值并且使用它来将对应的第二深度图位置投影到第一深度图中的对应的第一深度图位置。然后它可以提取第二深度值并将其用作在第一深度图位置处的针对第一深度像素的第一候选深度值。
在这样的实施例中,第二深度图中的深度值被直接用作第一候选深度值。但是,由于两个深度图像素表示(在没有遮挡的情况下)到同一场景点但来自不同视点的距离,因此深度值可以是不同的。在许多实际实施例中,这种从不同位置处的相机/查看姿势到同一场景点的距离的差值是微不足道的并且能够被忽略。因此,在许多实施例中,可以假设相机完全对齐并且看向相同的方向并且具有相同的位置。在那种情况下,如果对象是平坦的并且与图像传感器平行,则深度在两个对应深度图中可能确实是完全相同的。从这种情况的偏离通常小到可以忽略不计。
然而,在一些实施例中,从第二深度值确定第一候选深度值可以包括修改深度值的投影。这可以基于更详细的几何计算,包括考虑两个视图的投影几何。
在一些实施例中,可以使用多于单个第二深度值来生成第一候选深度值。例如,可以在不同深度值之间执行空间插值,以补偿未与像素的中心对齐的投影。
作为另一范例,在一些实施例中,第一候选深度值可以被确定为空间滤波的结果,其中以第二深度图位置为中心的核心被应用于第二深度图。
下面的描述将关注于每个候选深度值仅取决于单个第二深度值并且还等于第二深度值的实施例。
在许多实施例中,加权组合还可以包括从不同的第二深度值确定的多个候选深度值。
具体地,在许多实施例中,加权组合可以包括来自第二深度图的区域的候选深度值。该区域通常可以基于第一深度图位置来确定。具体地,第二深度图位置可以通过如前所述的投影(在任一方向或两个方向上)来确定,并且该区域可以被确定为该第二深度图位置周围的区域(例如,具有预定的轮廓)。
该方式可以相应地为第一深度图中的第一深度像素提供候选深度值的集合。对于每个候选深度值,更新器203可以执行图6的方法,以确定用于加权组合的权重。
该方式的一个具体优点是,选择用于候选深度值的第二深度值并不过度重要,因为随后的权重确定将适当地权衡好和坏的候选者。因此,在许多实施例中,可以使用相对低复杂度的方法来选择候选值。
在许多实施例中,所述区域可以例如简单地被确定为由基于原始第一深度值从第一深度图到第二深度图的投影确定的第二深度图中的位置周围的预定区域。实际上,在许多实施例中,甚至可以通过简单地将所述区域选择为与第一深度图中相同的第二深度图中的深度图位置周围的区域来替换投影。因此,该方式可以通过选择在与第一深度图中的第一像素的位置相同的第二深度图中的位置周围的区域中的第二深度值来简单地选择深度值的候选集合。
这种方式在实践中可以减少资源使用但提供有效的操作。当所述区域的大小与深度图之间发生的位置/视差偏移相比相对较大时,所述方式可以是具体适合的。
如前所述,可以使用许多不同的方法来确定用于加权组合中各个候选深度值的权重。
在许多实施例中,还可以响应于为其他图像而不是第三图像确定的附加匹配误差指示来确定第一权重。在许多实施例中,所描述的方法可以用于为所有其他图像而不是第一图像生成匹配误差指示。然后可以生成组合匹配误差指示,例如作为这些匹配误差指示的平均值,并且可以基于此确定第一权重。
具体地,第一权重可以取决于匹配误差指标,所述匹配误差指标是来自被过滤到所有其他视图的视图的独立的匹配误差的函数l≠k。用于确定用于候选Zi的权重的一个范例指标是:
wi(zi)=minl≠k(ekl(zi)),
其中,ekl(zi)是给定候选Zi的视图k与l之间的匹配误差。匹配误差可以例如取决于针对单个像素的色差,或者可以被计算为像素位置(u,v)周围的空间平均值。代替计算视图l≠k的最小匹配误差,可以例如使用平均值或中值。在许多实施例中,评估函数可以优选地是稳健的以匹配由遮挡引起的误差异常值。
在许多实施例中,可以为第二图像(即,为从其生成第一候选深度值的视图)确定第二匹配误差指示。该第二匹配误差指示的确定可以使用与针对第一匹配误差指示所描述的相同的方法,并且可以生成第二匹配误差指示来指示针对第二深度图位置的第二图像中的图像像素值与针对第一个深度图位置的第一图像中的图像像素值的差异。
然后可以响应于第一匹配误差指示和第二匹配误差指示(以及可能的其他匹配误差指示或参数)来确定第一权重。
在一些实施例中,这种权重确定不仅可以考虑例如平均匹配误差指示,还可以考虑匹配指示之间的相对差异。例如,如果第一匹配误差指示相对较低而第二匹配误差指示相对较高,则这可能是由于第二图像中相对于第一图像(而不是第三图像中)发生遮挡。因此,第一权重可以被减小或者甚至被设置为零。
权重考虑的其他范例可以例如使用统计度量值,例如中值匹配误差或其他分位数。与上述类似的推理适用于此。例如,如果我们有一个九个相机的线性相机阵列,所有相机都看向同一方向,我们可以假设中央相机围绕对象边缘向左四个锚点或向右四个锚点将始终查看未遮挡区域。在这种情况下,用于候选者的良好的总权重可以只是八个匹配误差总数中最低的四个的函数。
在许多实施例中,加权组合可以包括第一深度图本身的其他深度值。具体地,第一深度位置周围的第一深度图中的深度像素的集合可以包括在加权组合中。例如,预定的空间内核可以应用于第一深度图,产生第一深度图的低通滤波。然后可以调整对空间低通滤波的第一深度图值和来自其他视图的候选深度值的加权,例如通过对低通滤波的深度值应用固定的权重并对第一候选深度值应用可变的第一权重。
在许多实施例中,权重的确定,具体地第一权重的确定也取决于针对深度值的置信度值。
深度估计和测量本质上是有噪声的,并且可能出现各种误差和变化。除了深度估计之外,许多深度估计和测量算法还可以生成指示所提供的深度估计有多可靠的置信度值。例如,视差估计可以基于检测不同图像中的匹配区域,并且可以生成置信度值来反映匹配区域的相似程度。
可以以不同方式使用置信度值。例如,在许多实施例中,针对第一候选深度值的第一权重可以取决于针对第一候选深度值的置信度值,并且具体地是用于生成第一候选深度值的第二深度值的置信度值。第一权重可以是针对第二深度值的置信度值的单调递增函数,因此第一权重可以为了增加用于生成第一候选深度值的基础深度值的置信度而增加。因此,加权组合可以向被认为是可靠和准确的深度值偏置。
在一些实施例中,用于深度图的置信度值可以用于选择更新哪些深度值/像素以及对于哪些深度像素保持深度值不变。具体地,更新器203可以被布置为仅选择置信度值低于阈值的第一深度图的深度值/像素进行更新。
因此,更新器203不是更新第一深度图中的所有像素,而是具体地识别被认为不可靠的深度值并且仅更新这些值。这在许多实施例中可以产生改进的整体深度图,因为能够防止例如非常准确和可靠的深度估计被从来自其他视点的深度值生成的更多不确定值所取代。
在一些实施例中,或者通过对不同的候选深度值的贡献或者对相同的候选深度值的贡献包括在加权组合中的第二深度图的深度值的集合可以取决于用于深度值的置信度值。具体地,可以仅包括具有高于给定阈值的置信度值的深度值,并且可以从处理中丢弃所有其他深度值。
例如,更新器203最初可以通过扫描第二深度图并移除置信度值低于阈值的所有深度值来生成修改后的第二深度图。然后可以使用修改后的第二深度图执行先前描述的处理,其中,如果在第二深度图中不存在这样的第二深度值,则绕过需要第二深度值的所有操作。例如,如果不存在第二深度值,则不生成用于第二深度值的候选深度值。
在一些实施例中,更新器203还可以被布置为生成针对深度值的置信度值。
在一些实施例中,可以针对这些深度图中的对应位置,响应于其他深度图中的深度值的变化来确定针对给定深度图中的给定深度值的置信度值。
更新器203可以首先将针对确定了置信度值的给定深度值的深度图位置投影到多个其他深度图中的对应位置,并且通常投影到所有这些位置。
具体地,对于深度图k中的图像坐标(u,v)k处的给定深度值,确定其他深度图(通常针对相邻视图)的集合L。对于这些深度图(l∈L)中的每一个,通过重新投影计算用于l∈L的对应的图像坐标(u,v)l
更新器203然后可以考虑在这些对应位置处的这些其他深度图中的深度值。可以继续确定在对应位置处的针对这些深度值的变化度量。可以使用任何合适的变化的度量,例如方差度量。
更新器203然后可以继续从这种变化度量确定用于给定深度图位置的置信度值,并且具体地,增加的变化程度可以指示降低的置信度值。因此,置信度值可以是变化度量的单调递减函数。
具体地,对于l∈L,给定深度值zk和在(u,v)l处的对应的相邻深度值的集合zl,可以基于这些深度值的一致性计算置信度指标。例如,这些深度值的方差可以用作置信度指标。低方差则意味着高置信度。
通常希望使这种确定对于可能由被场景中的对象或相机边界潜在地遮挡的对应图像坐标(u,v)k产生的异常值更稳健。实现此目的的一种具体方式是在相机视图(k)的相对侧选择两个相邻视图l0和l1,并使用深度差的最小值
Figure BDA0003337391170000241
在一些实施例中,针对给定深度图中的给定深度值的置信度值能够通过评估从对应的给定深度位置到另一深度图的投影,然后使用两个深度的两个深度值将其投影回来所产生的误差来确定。
因此,更新器203可以首先基于给定深度值将给定深度图位置投影到另一深度图。然后检索该投影位置处的深度值,并基于该其他深度值将另一深度图中的位置投影回原始深度图。这会产生一个测试位置,如果用于投影的两个深度值完美匹配(例如考虑到相机和捕捉属性和几何形状),则所述测试位置确实与原始深度图位置相同。但是,任何噪声或误差都会产生两个位置之间的差。
更新器203可以对应地继续响应于给定深度图位置与测试位置之间的距离来确定用于给定深度图位置的置信度值。距离越小,置信度值越高,因此可以将置信度值确定为距离的单调递减函数。在许多实施例中,可以考虑到多个其他深度图,从而考虑距离。
因此,在一些实施例中,可以基于运动向量的几何一致性来确定置信度值。令dkl表示2D运动向量,所述2D运动向量将给定其深度zk的像素(u,v)k带到相邻视图l。相邻视图l中的每个对应像素位置(u,v)l都有其自己的深度zl,这产生一个返回到视图k的向量dlk。在零误差的理想情况下,所有这些向量都准确映射回原始点(u,v)k。但是,总体上,情况并非如此,对于置信度不足的区域当然也不是如此。因此,用于缺乏置信度的好的度量是反向投影位置的平均误差。该误差指标可以表述为:
Figure BDA0003337391170000242
其中,f((u,v)l;zl)表示使用深度值zl从相邻视图l反向投影的视图k中的图像坐标。范数‖·‖可以是L1或L2或任何其他范数。置信度值可以被确定为该值的单调递减函数。应当理解,术语“候选”并不暗示对深度值的任何限制,并且术语候选深度值可以指包括在加权组合中的任何深度值。
应当理解,为了清楚起见,以上描述已经参考不同的功能电路、单元和处理器描述了本发明的实施例。但是,显然可以使用不同功能电路、单元或处理器之间的任何合适的功能分布而不偏离本发明。例如,图示为由独立的处理器或控制器执行的功能可以由相同的处理器或控制器执行。因此,对特定功能单元或电路的参考仅被视为对用于提供所描述的功能的合适的手段的参考,而不是指示严格的逻辑或物理结构或组织。
本发明能够以任何合适的形式来实施,包括硬件、软件、固件或这些的任何组合。本发明可以可选地至少部分地被实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元素和分量可以以任何合适的方式在物理上、功能上和逻辑上实施。实际上,功能可以在单个单元中、在多个单元中或作为其他功能单元的一部分来实施。因此,本发明可以在单个单元中实施,或者可以在物理上和功能上分布在不同的单元、电路和处理器之间。
尽管已经结合一些实施例描述了本发明,但并非旨在限于本文阐述的具体形式。相反,本发明的范围仅由所附权利要求限制。此外,尽管似乎结合具体实施例描述了特征,但是本领域普通技术人员将认识到,根据本发明可以组合所描述实施例的各种特征。在权利要求中,术语包括不排除其他元素或步骤的存在。
此外,虽然单独列出,但多个装置、元素、电路或方法步骤可以通过例如单个电路、单元或处理器来实施。此外,虽然单独的特征可以包括在不同的权利要求中,但这些可以有利地组合,并且在不同的权利要求中的包括并不意味着特征的组合是不可行的和/或有利的。此外,在一个权利要求类别中的特征的包含并不意味着对这一类别的限制,而是表明该特征在适当时同样适用于其他权利要求类别。此外,权利要求中的特征的顺序并不暗示这些特征必须以任何特定的顺序工作,具体地是,方法权利要求中的各个步骤的顺序并不暗示这些步骤必须按此顺序执行。相反,可以以任何合适的顺序执行步骤。此外,单数引用不排除复数。因此,对“一”、“一个”、“第一”、“第二”等的引用并不排除多个。术语“第一”、“第二”、“第三”等用作标记,因此并非暗示对提供对应特征的清晰识别的任何其他限制,并且不应被解释为以任何方式限制权利要求的范围。权利要求中的附图标记仅作为说明范例提供,不应被解释为以任何方式限制权利要求的范围。

Claims (15)

1.一种处理深度图的方法,所述方法包括:
接收(301)表示来自不同查看姿势的场景的多幅图像和对应的深度图;
基于所述对应的深度图的至少第二深度图的深度值来更新(303)所述对应的深度图的第一深度图的深度值,所述第一深度图针对第一图像,并且所述第二深度图针对第二图像;所述更新(303)包括:
确定(501)在所述第一深度图中的第一深度图位置处的针对所述第一深度图的第一深度像素的第一候选深度值,所述第一候选深度值是响应于在所述第二深度图中的第二深度图位置处的所述第二深度图的第二深度像素的至少一个第二深度值而确定的;
通过对针对所述第一深度图位置的多个候选深度值的加权组合来确定(503)针对所述第一深度像素的第一深度值,所述加权组合包括由第一权重加权的所述第一候选深度值;
其中,确定(503)所述第一深度值包括:
确定(601)针对所述第一深度图位置的所述第一图像中的第一图像位置,
基于所述第一候选深度值,确定(603)所述多幅图像中的第三图像中的第三图像位置,所述第三图像位置对应于所述第一图像位置到所述第三图像的投影;
确定(605)第一匹配误差指示,所述第一匹配误差指示指示针对所述第三图像位置的所述第三图像中的图像像素值与针对所述第一图像位置的所述第一图像中的图像像素值之间的差,并且
响应于所述第一匹配误差指示来确定(607)所述第一权重。
2.根据权利要求1所述的方法,其中,确定(501)第一候选深度值包括基于第二值和所述第一深度图的第一原始深度值中的至少一个,通过在所述第一图像的第一查看姿势与所述第二图像的第二查看姿势之间的投影来确定相对于所述第一深度图位置的所述第二深度图位置。
3.根据权利要求1或2所述的方法,其中,所述加权组合包括从响应于所述第一深度图位置确定的所述第二深度图的区域确定的候选深度值。
4.根据权利要求3所述的方法,其中,所述第二深度图的所述区域被确定为所述第二深度图位置周围的区域,并且所述第二深度图位置被确定为等于所述第一深度图中的所述第一深度图位置的所述第二深度图中的深度图位置。
5.根据权利要求3所述的方法,其中,所述第二深度图的所述区域被确定为基于在所述第一深度图位置处的所述第一深度图中的原始深度值通过从所述第一深度图位置的投影所确定的所述第二深度图中的位置周围的区域。
6.根据任一前述权利要求所述的方法,还包括确定第二匹配误差指示,所述第二匹配误差指示指示针对所述第二深度图位置的所述第二图像中的图像像素值与针对所述第一深度图位置的所述第一图像中的所述图像像素值之间的差;并且其中,确定所述第一权重也响应于所述第二匹配误差指示。
7.根据任一前述权利要求所述的方法,还包括确定附加匹配误差指示,所述附加匹配误差指示指示针对对应于所述第一深度图位置的深度图位置的其他图像中的图像像素值与针对所述第一深度图位置的所述第一图像中的所述图像像素值之间的差;并且其中,确定所述第一权重也响应于所述附加匹配误差指示。
8.根据任一前述权利要求所述的方法,其中,所述加权组合包括所述第一深度图位置周围区域中的所述第一深度图的深度值。
9.根据任一前述权利要求所述的方法,其中,所述第一权重取决于所述第一候选深度值的置信度值。
10.根据任一前述权利要求所述的方法,其中,仅更新置信度值低于阈值的所述第一深度图的深度值。
11.根据任一前述权利要求所述的方法,还包括选择所述第二深度图的深度值的集合,以包括在所述加权组合中,以满足所述深度值的所述集合的深度值必须具有高于阈值的置信度值的要求。
12.根据任一前述权利要求所述的方法,还包括:
将针对给定深度图中的给定深度值的给定深度图位置投影到多幅对应的深度图中的对应位置;
确定针对深度值的集合的变化度量,所述深度值的集合包括所述给定深度值和在所述多幅对应的深度图中的所述对应位置处的深度值;并且
响应于所述变化度量来确定针对所述给定深度图位置的置信度值。
13.根据任一前述权利要求所述的方法,还包括:
将针对给定深度图中的给定深度值的给定深度图位置投影到另一深度图中的对应位置,所述投影基于所述给定深度值;
将所述另一深度图中的所述对应位置投影到所述给定深度图中的测试位置,所述投影基于所述另一深度图中的所述对应位置处的深度值;
响应于所述给定深度图位置与所述测试位置之间的距离来确定针对所述给定深度图位置的置信度值。
14.一种用于处理深度图的装置,所述装置包括:
接收器(201),其用于接收(301)表示来自不同查看姿势的场景的多幅图像和对应的深度图;
更新器(203),其用于基于所述对应的深度图的至少第二深度图的深度值来更新(303)所述对应的深度图的第一深度图的深度值,所述第一深度图针对第一图像,并且所述第二个深度图针对第二图像;所述更新(303)包括:
确定(501)在所述第一深度图中的第一深度图位置处的所述第一深度图的第一深度像素的第一候选深度值,所述第一候选深度值是响应于所述第二深度图中的第二深度图位置处的所述第二深度图的第二深度像素的至少一个第二深度值而确定的;
通过对针对所述第一深度图位置的多个候选深度值的加权组合来确定(503)针对所述第一深度像素的第一深度值,所述加权组合包括由第一权重加权的所述第一候选深度值;
其中,确定(503)所述第一深度值包括:
确定(601)针对所述第一深度图位置的所述第一图像中的第一图像位置,
基于所述第一候选深度值来确定(603)所述多幅图像中的第三图像中的第三图像位置,所述第三图像位置对应于所述第一图像位置到所述第三图像的投影;
确定(605)第一匹配误差指示,所述第一匹配误差指示指示针对所述第三图像位置的所述第三图像中的图像像素值与针对所述第一图像位置的所述第一图像中的图像像素值之间的差,并且
响应于所述第一匹配误差指示来确定(607)所述第一权重。
15.一种包括计算机程序代码单元的计算机程序产品,当所述程序在计算机上运行时,所述计算机程序代码单元适于执行根据权利要求1-13所述的所有步骤。
CN202080033592.0A 2019-03-05 2020-03-03 用于图像的深度图的处理 Pending CN113795863A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19160805.8 2019-03-05
EP19160805.8A EP3706070A1 (en) 2019-03-05 2019-03-05 Processing of depth maps for images
PCT/EP2020/055565 WO2020178289A1 (en) 2019-03-05 2020-03-03 Processing of depth maps for images

Publications (1)

Publication Number Publication Date
CN113795863A true CN113795863A (zh) 2021-12-14

Family

ID=65729098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080033592.0A Pending CN113795863A (zh) 2019-03-05 2020-03-03 用于图像的深度图的处理

Country Status (9)

Country Link
US (1) US20220148207A1 (zh)
EP (2) EP3706070A1 (zh)
JP (1) JP7480163B2 (zh)
KR (1) KR20210134956A (zh)
CN (1) CN113795863A (zh)
BR (1) BR112021017545A2 (zh)
CA (1) CA3131980A1 (zh)
TW (1) TW202101374A (zh)
WO (1) WO2020178289A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4013049A1 (en) * 2020-12-09 2022-06-15 Koninklijke Philips N.V. Apparatus and method for processing a depth map
US20230083014A1 (en) * 2021-09-14 2023-03-16 Black Sesame Technologies Inc. Depth estimation based on data fusion of image sensor and depth sensor frames
EP4344237A1 (en) * 2022-09-21 2024-03-27 Koninklijke Philips N.V. Generation of depth maps for images
CN117805607B (zh) * 2024-02-29 2024-05-07 山西漳电科学技术研究院(有限公司) 发电厂直流系统直流级差配合试验方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010087955A1 (en) 2009-01-30 2010-08-05 Thomson Licensing Coding of depth maps
US20120274626A1 (en) * 2011-04-29 2012-11-01 Himax Media Solutions, Inc. Stereoscopic Image Generating Apparatus and Method
JP5949314B2 (ja) 2012-08-20 2016-07-06 株式会社日本自動車部品総合研究所 視差マップ生成装置および視差マップ生成装置用のプログラム
CN104662589B (zh) * 2012-08-21 2017-08-04 派力肯影像公司 用于使用阵列照相机捕捉的图像中的视差检测和校正的系统和方法
GB2524478A (en) * 2014-03-20 2015-09-30 Nokia Technologies Oy Method, apparatus and computer program product for filtering of media content
GB2532003A (en) * 2014-10-31 2016-05-11 Nokia Technologies Oy Method for alignment of low-quality noisy depth map to the high-resolution colour image
JP7054803B2 (ja) 2017-07-21 2022-04-15 パナソニックIpマネジメント株式会社 カメラパラメタセット算出装置、カメラパラメタセット算出方法及びプログラム
US11024046B2 (en) * 2018-02-07 2021-06-01 Fotonation Limited Systems and methods for depth estimation using generative models
FR3088510A1 (fr) * 2018-11-09 2020-05-15 Orange Synthese de vues

Also Published As

Publication number Publication date
WO2020178289A1 (en) 2020-09-10
JP7480163B2 (ja) 2024-05-09
TW202101374A (zh) 2021-01-01
US20220148207A1 (en) 2022-05-12
KR20210134956A (ko) 2021-11-11
JP2022522504A (ja) 2022-04-19
EP3935602A1 (en) 2022-01-12
EP3706070A1 (en) 2020-09-09
CA3131980A1 (en) 2020-09-10
BR112021017545A2 (pt) 2021-11-09

Similar Documents

Publication Publication Date Title
JP7480163B2 (ja) 画像の奥行きマップの処理
US11501118B2 (en) Digital model repair system and method
CN113170213A (zh) 图像合成
TW201941595A (zh) 用於產生視圖影像之設備及方法
CN113366825B (zh) 用于生成表示场景的图像信号的装置和方法
EP3932081B1 (en) Apparatus and method of generating an image signal
JP7471307B2 (ja) シーンの画像表現
EP3716217A1 (en) Techniques for detection of real-time occlusion
JP7377861B2 (ja) 画像生成装置及び方法
EP4114008A1 (en) Image generation
US20220174259A1 (en) Image signal representing a scene
WO2022157052A1 (en) An image synthesis system and method therefor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination