CN112703729B - 从由多台照相机捕获的图像并行确定的深度信息生成对象的表示 - Google Patents

从由多台照相机捕获的图像并行确定的深度信息生成对象的表示 Download PDF

Info

Publication number
CN112703729B
CN112703729B CN201980059924.XA CN201980059924A CN112703729B CN 112703729 B CN112703729 B CN 112703729B CN 201980059924 A CN201980059924 A CN 201980059924A CN 112703729 B CN112703729 B CN 112703729B
Authority
CN
China
Prior art keywords
image
cameras
depth information
images
common
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980059924.XA
Other languages
English (en)
Other versions
CN112703729A (zh
Inventor
吴城磊
余守壹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Technologies LLC
Original Assignee
Meta Platforms Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meta Platforms Technologies LLC filed Critical Meta Platforms Technologies LLC
Publication of CN112703729A publication Critical patent/CN112703729A/zh
Application granted granted Critical
Publication of CN112703729B publication Critical patent/CN112703729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/506Illumination models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/507Depth or shape recovery from shading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/514Depth or shape recovery from specularities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/56Cameras or camera modules comprising electronic image sensors; Control thereof provided with illuminating means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Graphics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

具有不同方位的多台照相机捕获相对于照相机位于目标位置的对象的图像。来自每个照相机的图像被并行处理,以根据由每个图像捕获设备并行捕获的图像内的不同区域之间的对应关系来确定深度信息。基于来自每个照相机的图像的阴影信息和来自图像的立体信息,并行修改图像的深度信息。在各种实施例中,通过最小化来自图像的具有公共深度的部分的强度和来自由多个照相机捕获的图像的阴影信息的图像的部分的强度的总能量来细化深度信息。来自多个图像的经修改的深度信息被组合以生成位于目标位置的对象的重建。

Description

从由多台照相机捕获的图像并行确定的深度信息生成对象的 表示
技术领域
本公开总体上涉及包括指向目标位置的多台照相机的配置,并且更具体地涉及根据由多台照相机捕获的图像生成位于目标位置的对象的三维重建。
背景技术
照相机分辨率的提高增加了三维视觉系统的普及。在三维视觉系统中,对象的图像由一个或更多个照相机捕获。捕获的图像被提供给计算设备,计算设备分析图像以生成对象的三维图形重建。
然而,组合对象的不同视图的图像来生成对象的三维图形重建是计算密集型的。计算资源的这种使用增加了生成对象的图形重建的时间。生成对象的图形重建的时间增加,将三维视觉系统的潜在用途限制到了可以容忍从图像捕获到生成对象的图形重建的延迟的实现方式。
发明内容
为了在虚拟现实(VR)环境或增强现实(AR)环境中捕获要再现的对象的图像或视频数据,多台照相机被定位成聚焦在对象所处的目标位置上。照相机具有相对于彼此和相对于目标位置的特定定位。这允许每个照相机捕获位于目标位置的对象的不同图像。每个照相机耦合到控制台,控制台从每个照相机接收位于目标位置的对象的图像。控制台处理接收到的图像,以生成位于目标位置的对象的图形表示。
为了生成位于目标位置的对象的图形表示,控制台并行处理来自每个照相机的图像,以确定深度信息。例如,不同的处理器将图形处理单元(GPU)上的图块匹配过程(patch-match process)应用于不同照相机在公共时间捕获的图像。为了提高收敛性并另外减少计算时间,对不同照相机在公共时间捕获的图像应用从粗到细的图块匹配过程;在各种实施例中,首先将图块匹配过程应用于由不同照相机在公共时间捕获的粗分辨率的图像,并且初始化在公共时间捕获的细分辨率的图像,以用更少的迭代运行图块匹配过程。为了提高所确定的深度信息的准确性,控制台修改对于从每个照相机接收的图像所确定的深度信息。在各种实施例中,控制台通过基于来自立体信息的强度和来自各种图像的阴影信息的强度优化能量函数来修改对于各种图像所确定的深度信息。例如,对于在公共时间从多台照相机(例如,从每个照相机)接收的图像,控制台基于对于不同图像所确定的深度信息,确定图像的对应于公共深度的部分的全局强度。例如,控制台将从不同照相机接收的图像的部分的全局强度确定为在公共时间从不同照相机接收的图像中的具有公共深度信息或深度信息在彼此的阈值量内的部分的平均强度。此外,控制台基于从图像计算出的阴影信息,确定在公共时间从照相机接收的图像的不同部分的强度。控制台通过将在公共时间从不同照相机接收的图像的不同部分的全局强度与从在公共时间接收自照相机的图像的不同部分的阴影信息所确定的强度相组合,为在公共时间从照相机接收的图像生成总能量;在各种实施例中,控制台对在公共时间从不同照相机接收的图像的不同部分的全局强度与从在公共时间接收自照相机的图像的不同部分的阴影信息所确定的强度进行求和。在各种实施例中,控制台对在公共时间从不同照相机接收的图像的不同部分的全局强度和从相应图像的阴影信息中计算出的强度之间的强度差进行求和。控制台还可以将正则化值(regularization value)与图像的部分的深度估计和从照相机接收的图像的相应相邻部分的深度估计相组合;正则化值考虑了图像的彼此相邻的部分的深度估计之间的相似性。
对于在公共时间从不同照相机接收的每个图像,控制台通过最小化在公共时间接收的每个图像的总能量来修改对于图像所确定的深度信息。控制台使用任何合适的一个或更多个过程来并行最小化在公共时间接收的每个图像的总能量。例如,控制台使用图形处理单元(GPU)将高斯-牛顿方法应用于在公共时间从每个照相机接收的图像,以最小化在公共时间接收的每个图像的总能量,这修改了为从多个照相机接收的图像确定的深度信息。控制台组合来自多个图像的修改后的深度信息,以生成位于目标位置的对象的重建。
根据第一方面,提供了一种系统,包括:多个照相机,每个照相机具有相对于彼此的特定位置,并且被配置为捕获位于目标位置的对象的图像;以及耦合到多个照相机中的每一个的控制台,该控制台被配置为:从多个照相机中的每一个接收对象的一个或更多个图像,并行确定从多个照相机中的每一个接收的图像的深度信息;基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在公共时间从多个照相机中的每个照相机接收的图像所确定的深度信息;并且通过组合从多个照相机中的每一个接收的图像的修改后的深度信息来生成对象的重建。
在一些实施例中,“基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在公共时间从多个照相机中的每个接收的图像确定的深度信息”可以包括:识别在公共时间从多台照相机接收的图像;确定所识别的图像中具有公共深度信息的部分的全局强度;基于所识别的图像的阴影信息,确定所识别的图像的具有不同深度的部分的强度;通过将所识别的图像的具有各种公共深度的部分的全局强度与基于为所识别的图像的部分确定的阴影信息的强度相组合来生成所识别的图像的能量;并且修改所识别的图像的部分的深度,以最小化所识别的图像的能量。
在一些实施例中,“通过将所识别的图像的具有各种公共深度的部分的全局强度与基于为所识别的图像的部分确定的阴影信息的强度相组合来生成所识别的图像的能量”还可以包括:将正则化值与所识别的图像的具有各种公共深度的部分的深度估计以及所识别的图像的一个或更多个对应相邻部分的深度估计相组合。
在一些实施例中,控制台可以包括多个处理器,每个处理器被配置为在公共时间从照相机接收图像,确定从照相机接收的图像的深度信息,并且基于每个图像的具有公共深度的部分的强度和从每个图像的阴影信息所确定的图像的部分的强度,并行地修改对于在公共时间从照相机接收的图像确定的深度信息。
每个处理器可以包括图形处理单元。
控制台还可以被配置为存储生成的对象的重建。
根据第二方面,提供了一种方法,包括:捕获相对于多个照相机位于目标位置的对象的图像,每个照相机捕获对象的至少一个图像;并行确定从多个照相机中的每一个捕获的图像的深度信息;基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在公共时间从多个照相机中的每个照相机接收的图像所确定的深度信息;以及通过组合从多个照相机中的每一个接收的图像的修改后的深度信息来生成对象的重建。
在一些实施例中,“基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在公共时间从多个照相机中的每个接收的图像所确定的深度信息”可以包括:识别在公共时间从多台照相机接收的图像;确定所识别的图像中具有公共深度的部分的全局强度;基于所识别的图像的阴影信息,确定所识别的图像中具有不同深度的部分的强度;通过将所识别的图像中具有各种公共深度的部分的全局强度与基于为所识别的图像的部分确定的阴影信息的强度相组合来生成所识别的图像的能量;以及修改所识别的图像的部分的深度,以最小化所识别的图像的能量。
在一些实施例中,“通过将所识别的图像中具有各种公共深度的部分的全局强度与基于为所识别的图像的部分确定的阴影信息的强度相组合来生成所识别的图像的能量”可以进一步包括:将正则化值与所识别的图像中具有各种公共深度的部分的深度估计与所识别的图像的一个或更多个对应相邻部分的深度估计相组合。
在一些实施例中,“并行确定由多个照相机中的每一个捕获的图像的深度信息”可以包括:并行确定由不同照相机在公共时间捕获的图像的深度信息,其中不同处理器确定由不同照相机在公共时间捕获的图像的深度信息。
在一些实施例中,“基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在公共时间从多个照相机中的每个照相机接收的图像所确定的深度信息”可以包括:并行修改对于不同照相机在公共时间捕获的图像所确定的深度信息,其中不同处理器修改对于不同照相机在公共时间捕获的图像所确定的深度信息。
在一些实施例中,本发明可以进一步包括:存储所生成的对象的重建。
本发明可以进一步包括:通过显示设备呈现所生成的对象的重建。
本发明还可以包括:将所生成的对象的重建传输到客户端设备。
应当理解,在本发明的上下文中,第一方面的系统的任何特征可以与第二方面的方法兼容,并且包括第二方面的方法的特征,并且在相反的情况下,经过必要的修改,也可以成立。
根据第三方面,提供了一种计算机程序产品,包括其上编码有指令的计算机可读存储介质,当由处理器执行时,所述指令使得处理器:获得相对于多个照相机位于目标位置的对象的图像,每个照相机捕获对象的至少一个图像;并行确定从多个照相机中的每一个捕获的图像的深度信息;基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在公共时间从多个照相机中的每个照相机接收的图像所确定的深度信息;并且通过组合从多个照相机中的每一个接收的图像的修改后的深度信息来生成对象的重建。
在计算机程序产品的一些实施例中,“基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在公共时间从多个照相机中的每个接收的图像所确定的深度信息”可以包括:识别在公共时间从多台照相机接收的图像;确定所识别的图像中具有公共深度信息的部分的全局强度;基于所识别的图像的阴影信息,确定所识别的图像中具有不同深度的部分的强度;通过将所识别的图像中具有各种公共深度的部分的全局强度与基于为所识别的图像的部分确定的阴影信息的强度相组合来生成所识别的图像的能量;并且修改所识别的图像的部分的深度,以最小化所识别的图像的能量。
在计算机程序产品的一些实施例中,“通过将所识别的图像中具有各种公共深度的部分的全局强度与基于为所识别的图像的部分确定的阴影信息的强度相组合来生成所识别的图像的能量”可以包括:组合正则化值、所识别的图像中具有各种公共深度的部分的全局强度以及为所识别的图像中具有相应公共深度的部分确定的强度。
在计算机程序产品的一些实施例中,“并行确定由多个照相机中的每一个捕获的图像的深度信息”可以包括:并行确定由不同照相机在公共时间捕获的图像的深度信息,其中不同处理器确定由不同照相机在公共时间捕获的图像的深度信息。
在计算机程序产品的一些实施例中,“基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在公共时间从多个照相机中的每一个接收的图像所确定的深度信息”可以包括:并行修改对于不同照相机在公共时间捕获的图像所确定的深度信息,其中不同处理器修改对于不同照相机在公共时间捕获的图像所确定的深度信息。
计算机程序产品的计算机可读存储介质还可以具有编码在其上的指令,当由处理器执行时,该指令使得处理器:存储所生成的对象的重建。
应当理解,在本发明的上下文中,第三方面的计算机程序产品的任何特征可以与第二方面的方法和/或第一方面的系统兼容,并且包括它们的特征,并且在每种相反的情况下,经过必要的修改,这也成立。
附图说明
图1是根据一个实施例的系统环境的框图,该系统环境包括被配置成捕获目标定位处的对象的图像的多台照相机。
图2是根据一个实施例的方法的流程图,该方法用于从由相对于彼此不同定位的多台照相机捕获的对象的图像中生成对象的表示。
图3是根据一个实施例,从由相对于彼此不同定位的多台照相机捕获的对象的图像中生成对象的表示的过程流程图。
附图仅为了说明的目的而描绘本公开的实施例。本领域中的技术人员从下面的描述中将容易认识到本文示出的结构和方法的替代实施例可以被采用而不偏离本文所述的本公开的原理或者所推崇的益处。
具体实施方式
系统综述
图1是系统环境100的框图,系统环境100包括被配置成捕获位于目标位置120的对象的图像的多台照相机110A-F。每个照相机110A-F耦合到控制台130。在其他实施例中,系统环境100中包括任何合适数量的照相机110A-F。此外,在其他实施例中,系统环境100中可以包括不同的和/或附加的组件。
每个照相机110A-F捕获位于目标位置120的对象的图像。因此,每个照相机110A-F被配置为具有目标位置120的焦点或焦点在目标位置120内。另外,每个照相机110A-F相对于系统环境100中的每个其他照相机110A-F具有特定位置。例如,照相机110A具有相对于照相机110B的特定位置以及相对于照相机110D的特定位置。照相机110A-F相对于彼此的不同位置使得每个照相机110A-F捕获位于目标位置120的对象的不同部分的图像。在各种实施例中,照相机110A-F相对于彼此定位,使得每个照相机110A-F仍然具有重叠的视场,包括位于目标位置120的对象的不同部分。
每个照相机110A-F基于由位于目标位置120的对象反射的具有不同波长的光来捕获图像。在一些实施例中,每个照相机110A-F捕获由位于目标位置120的对象反射的公共波长范围内的光的图像。例如,每个照相机110A-F捕获由位于目标位置120的对象反射的红外光。作为另一个例子,每个照相机110A-F捕获由位于目标位置的对象反射的可见光。或者,不同的照相机110A-F捕获由位于目标位置120的对象反射的具有不同波长范围的光。例如,照相机110A、110C、110E捕获由位于目标位置120的对象反射的红外光,而照相机110B、110D、110F捕获由位于目标位置120的对象反射的可见光。每个照相机110A-F具有诸如焦距、焦点、帧速率、ISO、传感器温度、快门速度、光圈、分辨率等参数;可以修改照相机110A-F的一个或更多个参数。在一些实施例中,照相机110A-F具有高帧速率和高分辨率。在各种实施例中,照相机110A-F捕获位于目标位置120的对象的二维图像。在一些实施例中,照相机110A-F捕获位于目标位置120的对象的二维图像。
在一些实施例中,一个或更多个照明源相对于照相机110A-F和目标位置120定位。一个或更多个照明源被定位成照亮目标位置120,这允许照亮位于目标位置的对象。照明源可以位于相对于照相机110A-F中的一个或更多个的离散定位处。或者,照明源耦合到照相机110A-F中的一个或更多个。示例照明源包括发光二极管(LED),其发射可见光波段(即,~380nm至750nm)、红外波段(即,~750nm至1mm)、紫外波段(即,10nm至380nm)、电磁光谱的一些其他部分或它们的某些组合中的光。在一些实施例中,不同的照明源具有不同的特性。例如,不同的照明源发射具有不同波长或不同时间相干性的光,时间相干性描述不同时间点的光波之间的相关性。此外,由不同照明源发射的光可以以不同的频率或幅度(即,变化的强度)被调制,或者在时域或频域中被复用。
一个或更多个照明源耦合到控制台130,控制台130向一个或更多个照明源提供控制信号。例如,控制台130向照明源提供控制信号,该控制信号修改由照明源发射的光的强度。作为另一个例子,控制台130向照明源提供控制信号,该控制信号修改照明源发射光的方向或者修改由照明源发射的光的聚焦。
控制台130是耦合到每个照相机110A-F的计算设备,并且被配置为接收由照相机110A-F中的一个或更多个捕获的图像。另外,控制台130被配置为向一个或更多个照相机110A-F发送修改照相机的一个或更多个参数的控制信号。例如,从控制台130提供给照相机110A的控制信号修改照相机110A的焦点或者修改照相机110A的变焦。
此外,控制台130接收由多台照相机110A-F捕获的图像,并生成位于目标位置120处并包括在从多台照相机110A-F接收的图像中的对象的重建。当生成对象120的重建时,控制台130并行处理从多台照相机110A-F接收的图像。如下面结合图2和图3进一步描述的,控制台130基于由不同照相机110A-F捕获的图像中的区域之间的对应关系来并行确定来自各种图像的深度信息,并且并行确定由不同照相机110A-F捕获的图像中的阴影信息。使用阴影信息,控制台130并行细化从对应关系确定的深度信息。当细化从图像确定的深度信息时,控制台130优化图像的总能量,该能量基于从多个照相机110A-F捕获的图像的具有公共深度的部分的阴影信息确定的强度和根据阴影信息确定的多个照相机110A-F捕获的图像的部分的强度。在各种实施例中,控制台130通过基于由多个照相机110A-F捕获的图像的具有公共深度的部分的强度和根据阴影信息确定的由多个照相机110A-F捕获的图像的部分的强度来最小化图像的总能量进而细化图像的深度信息,如下面结合图2和图3进一步描述的。控制台130组合来自多个图像的细化后的深度信息,以生成位于目标位置120的对象的重建。
从由多台照相机捕获的图像生成对象的组合图像
图2是一种方法的一个实施例的流程图,该方法用于从由在相对于彼此不同定位的多台照相机110A-F捕获的对象的图像生成对象的表示。在各种实施例中,该方法可以包括不同于结合图2描述的步骤或附加步骤。另外,在各种实施例中,该方法可以以与结合图2描述的顺序不同的顺序来执行步骤。
多台照相机110A-F位于在相对于彼此的定位处,并且被定位成捕获位于目标位置120处的对象的图像。这允许不同的照相机110A-F捕获位于目标位置120的对象的不同部分的图像。如结合图1进一步描述的,每个照相机110A-F具有影响照相机110A-F的图像捕获的一个或更多个参数。
至少一组多台照相机110A-F中的每一个捕获205位于目标位置120的对象的图像。如以上结合图1进一步描述的,不同照相机110A-F相对于彼此的定位导致不同照相机110A-F捕获205位于目标位置120的对象的不同部分的图像。在各种实施例中,多台照相机110A-F中的每一个捕获205位于目标位置120的对象的一个或更多个图像。
控制台130从多个照相机110A-F接收位于目标位置120的对象的图像,并确定210每个接收图像的部分的深度信息。控制台130并行确定210从每个照相机110A-F接收205的图像的深度信息。例如,控制台130包括多个处理器,例如图形处理单元,并且每个处理器确定210从照相机110A-F接收205的图像的深度信息。例如,控制台130中包括的每个处理器对应于照相机110A-F,因此处理器确定210从对应于该处理器的照相机110A-F接收205的图像的深度信息。在各种实施例中,控制台130在公共时间从多台照相机110A-F接收图像,并且控制台130并行地确定210在公共时间从多台照相机110A-F接收的图像的深度信息。并行确定从多台照相机110A-F接收的图像的深度信息允许控制台130更快地确定多个图像的深度信息。在各种实施例中,控制台130为在公共时间从每个照相机110A-F接收的图像中的每个像素初始化随机深度,并定义在从照相机110A-F接收的图像中的特定像素的阈值距离内的像素的最近邻场。从照相机110A-F接收的图像中的被确定为具有至少阈值精度的像素的深度随后被传播到相邻像素。随后,评估候选深度,并且像素的深度被修改为候选深度,从而提高精度。在各种实施例中,前述步骤被迭代地应用于从照相机110A-F接收的图像。例如,控制台对每个图像迭代地执行前面的步骤设定的次数(例如,4次)。在各种实施例中,控制台130对从多个照相机110A-F接收的图像应用从粗到细的图块匹配过程,以确定210对应于每个图像中的不同像素的深度信息。对由不同照相机110A-F捕获的图像并行应用图块匹配过程允许控制台130更有效地从多个图像获得深度信息。
为了提高所确定的深度信息的准确性,控制台130修改215对于从每个照相机110A-F接收205的图像所确定210的深度信息。在各种实施例中,控制台130通过基于来自立体信息的强度和来自各种图像的阴影信息的强度优化能量函数来修改215针对各种图像所确定210的深度信息。例如,对于在公共时间从多台照相机110A-F(例如,从每个照相机110A-F)接收的图像,控制台130基于为不同图像确定210的深度信息,确定图像的对应于公共深度的部分的全局强度。例如,控制台130将从不同照相机110A-F接收的图像的部分的全局强度确定为在公共时间从不同照相机110A-F接收的图像中的具有公共深度信息或深度信息在彼此的阈值量内的部分的平均强度。另外,控制台130基于来自图像的阴影信息来确定在公共时间从照相机110A-F接收的图像的不同部分的强度。控制台130对在公共时间从不同照相机110A-F接收的图像的不同部分的全局强度和在公共时间从不同照相机110A-F的阴影信息计算的强度之间的强度差进行求和。控制台130还可以将正则化值与图像的部分的深度估计和从照相机接收的图像的相应相邻部分的深度估计相组合;正则化值考虑了图像的彼此相邻的部分的深度估计之间的相似性。
对于在公共时间从不同照相机110A-F接收的每个图像,控制台130通过最小化在公共时间接收的每个图像的总能量来修改215对于图像所确定210的深度信息。控制台130使用任何合适的一个或更多个过程并行地最小化在公共时间接收的每个图像的总能量。例如,控制台130经由图形处理单元(GPU)将高斯-牛顿法应用于在公共时间从每个照相机110A-F接收的图像,以最小化在公共时间接收的每个图像的总能量,这修改215了为从多个照相机110A-F接收的图像确定210的深度信息。然而,在其他实施例中,控制台130可以对在公共时间从不同照相机110A-F接收的图像所确定的总能量应用任何合适的一个或更多个过程,该过程最小化每个接收到的图像的总能量,以修改215为在公共时间接收的每个图像所确定210的深度信息。
根据在公共时间从多台照相机110A-F接收的图像的修改后的深度信息,控制台130生成220在公共时间位于目标位置的对象的表示。在各种实施例中,控制台130将任何合适的一个或更多个方法应用于在公共时间接收的每个图像的修改后的深度信息,该方法将每个图像中的修改后的深度信息组合成公共时间的对象的单一三维表示。例如,控制台130根据在公共时间接收的每个图像的修改后的深度信息执行泊松重建,以生成220在公共时间的对象的表示。控制台130可以随后经由显示设备呈现对象的表示,存储对象的表示,将对象的表示发送到客户端设备用于呈现,或者执行与对象的表示的任何其他合适的交互。在各种实施例中,控制台130基于在不同的公共时间从多台照相机110A-F接收的图像的修改后的深度信息来生成220对象的多个表示,并维护对象的一系列表示。例如,该一系列表示对应于在一时间间隔期间对象的外观,这允许该一系列表示描绘该时间间隔期间对象外观的变化或描绘该时间间隔期间对象的移动。在各种实施例中,对象的一系列表示可以随后经由显示设备显示,由控制台130存储,或者从控制台130传输到客户端设备。然而,在各种实施例中,控制台130可以执行关于对象的一系列表示的任何合适的动作。
图3是从由相对于彼此不同定位的多台照相机110A-F捕获的对象的图像中生成对象的表示的过程流程图。如以上结合图1和图2进一步描述的,多台照相机110A-F捕获位于目标定位120的对象的图像305A-F。不同的照相机110A-F捕获位于目标位置120的对象的不同部分的图像305A-F。控制台130从多台照相机110A-F接收图像305A-F,且并行地从每个图像305A-F确定310深度信息。如以上结合图2进一步描述的,控制台130可以执行任何合适的一种或更多种方法来从图像305A-F确定310深度信息。在各种实施例中,控制台130包括多个处理器(例如,图形处理单元),并且每个处理器并行地从不同的接收到的图像确定310深度信息。例如,每个图像305A-F包括时间戳,并且控制台识别具有公共时间戳的图像305A-F;控制台130的不同处理器并行处理具有公共时间戳的不同图像305A-F,以并行确定310具有公共时间戳的不同图像的深度信息。
控制台130还并行修改315从每个图像305A-F确定310的深度信息。在各种实施例中,控制台130维护能量函数,该能量函数基于具有特定时间戳的图像305A-F的部分的强度信息和具有特定时间戳的其他图像305A-F的部分的强度信息来确定每个图像305A-F的能量。修改315从每个图像305A-F确定310的深度信息的示例在上面结合图2进一步被描述。控制台130中包括的不同处理器并行修改315从每个图像305A-F确定的深度信息310;例如,每个处理器修改315从不同图像305A-F确定310的深度信息。通过并行地确定310和修改315来自多个图像305A-F的深度信息,控制台130更快速和有效地从各种图像305A-F获得和细化深度信息。
使用来自多个图像305A-F的修改后的深度信息,控制台130生成320包括在捕获的图像305A-F中的对象的表示。在各种实施例中,该表示是通过组合图像305A-F和图像305A-F的修改后的深度信息而生成320的包括在图像305A-F中的对象的三维表示。由于多个图像的深度信息被并行确定和修改,控制台130生成320对象的表示的总时间减少,而多个图像的深度信息的并行修改增加了该表示的准确性。
结论
为了说明的目的提出了本公开的实施例的前述描述;它并不旨在是无遗漏的或将专利权利限制到所公开的精确形式。相关领域中的技术人员可以认识到,按照上面的公开,许多修改和变化是可能的。
本公开的实施例可以包括人工现实系统或结合人工现实系统来被实现。人工现实是一种在呈现给用户之前已经以某种方式进行了调整的现实形式,其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(mixed reality,MR)、混杂现实(hybrid reality)或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或者与所捕获的(例如,现实世界)内容组合的所生成的内容。人工现实内容可以包括视频、音频、触觉反馈、或其某种组合,且其中任何一个都可以在单个通道中或在多个通道中被呈现(例如向观众产生三维效果的立体视频)。此外,在一些实施例中,人工现实还可以与应用、产品、附件、服务或其某种组合相关联,这些应用、产品、附件、服务或其某种组合用于例如在人工现实中创建内容和/或在人工现实中以其他方式被使用(例如在人工现实中执行活动)。可以在各种平台(包括连接到主计算机系统的头戴式显示器(HMD)、独立的HMD、移动设备或计算系统、或者能够向一个或更多个观众提供人工现实内容的任何其他硬件平台)上实现提供人工现实内容的人工现实系统。
本描述的一些部分从对信息的操作的算法和符号表示方面描述了实施例。数据处理领域的技术人员通常使用这些算法描述和表示来向本领域的其他技术人员有效地传达他们工作的实质。这些操作虽然在功能上、计算上或逻辑上进行了描述,但应理解为将由计算机程序或等效电路、微代码等来实现。此外,将操作的这些布置称为模块有时候也被证明是方便的而不失一般性。所描述的操作和它们的相关模块可以体现在软件、固件、硬件或其任何组合中。
可以利用一个或更多个硬件或软件模块单独地或与其他设备组合地来执行或实现本文描述的任何步骤、操作或过程。在一个实施例中,利用包括包含计算机程序代码的计算机可读介质的计算机程序产品来实现软件模块,计算机程序代码可以由计算机处理器执行,用于执行所描述的任何或全部步骤、操作或过程。
实施例也可以涉及用于执行本文的操作的装置。该装置可以被特别构造成用于所需的目的,和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这种计算机程序可以存储在非暂时性的、有形的计算机可读存储介质中,或者任何类型的适于存储电子指令的介质中,其可以耦合到计算机系统总线。此外,说明书中提到的任何计算系统可以包括单个处理器,或者可以是采用多处理器设计来提高计算能力的架构。
实施例也可以涉及由本文所述的计算过程产生的产品。这样的产品可以包括由计算过程产生的信息,其中信息被存储在非暂时性的、有形的计算机可读介质上且可以包括计算机程序产品或本文所述的其他数据组合的任何实施例。
最后,在说明书中使用的语言主要为了可读性和指导目的而被选择,并且它可以不被选择来描绘或限制专利权利。因此,意图是本专利权利的范围不受该详细描述限制,而是受在基于此的申请上所发布的任何权利要求限制。因此,实施方案的公开内容意图对本专利权利的范围是说明性的,而不是限制性的,在所附的权利要求中阐述了本专利权利的范围。

Claims (15)

1.一种系统,包括:
多个照相机,每个照相机具有相对于彼此的特定位置,并且被配置为捕获位于目标位置的对象的图像;以及
控制台,其耦合到所述多个照相机中的每个照相机,所述控制台被配置成:
从所述多个照相机中的每个照相机接收所述对象的一个或更多个图像,
并行确定从所述多个照相机中的每个照相机接收的图像的深度信息;
基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在公共时间从所述多个照相机中的每个照相机接收的图像所确定的深度信息,包括:
识别在所述公共时间从多台照相机接收的图像;
确定所识别的图像中具有公共深度信息的部分的全局强度,其中,所述全局强度被确定为所识别的图像中具有公共深度信息的部分的平均强度;
基于所识别的图像的阴影信息,确定所识别的图像的具有不同深度的部分的强度;
通过将所识别的图像中具有各种公共深度的部分的全局强度与基于为所识别的图像的部分确定的阴影信息的强度相组合来生成所识别的图像的能量;和
修改所识别的图像的部分的深度,以最小化所识别的图像的能量;和
通过组合从所述多个照相机中的每个照相机接收的图像的修改后的深度信息来生成所述对象的重建。
2.根据权利要求1所述的系统,其中通过将所识别的图像中具有各种公共深度的部分的全局强度与基于为所识别的图像的部分确定的阴影信息的强度相组合来生成所识别的图像的能量还包括:
将正则化值与所识别的图像中具有各种公共深度的部分的深度估计和所识别的图像的一个或更多个对应相邻部分的深度估计相组合。
3.根据权利要求1或权利要求2所述的系统,其中所述控制台包括多个处理器,每个处理器被配置为在所述公共时间从照相机接收图像,确定从所述照相机接收的图像的深度信息,并且基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的图像的部分的强度,并行地修改对于在所述公共时间从所述照相机接收的图像所确定的深度信息。
4.根据权利要求3所述的系统,其中每个处理器包括图形处理单元。
5.根据权利要求1或权利要求2所述的系统,其中所述控制台还被配置成存储所生成的所述对象的重建。
6.一种方法,包括:
捕获相对于多个照相机位于目标位置的对象的图像,每个照相机捕获所述对象的至少一个图像;
并行确定从所述多个照相机中的每个照相机捕获的图像的深度信息;
基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在公共时间从所述多个照相机中的每个照相机接收的图像所确定的深度信息,包括:
识别在所述公共时间从多台照相机接收的图像;
确定所识别的图像中具有公共深度的部分的全局强度,其中,所述全局强度被确定为所识别的图像中具有公共深度信息的部分的平均强度;
基于所识别的图像的阴影信息,确定所识别的图像中具有不同深度的部分的强度;
通过将所识别的图像中具有各种公共深度的部分的全局强度与基于为所识别的图像的部分确定的阴影信息的强度相组合来生成所识别的图像的能量;和
修改所识别的图像的部分的深度,以最小化所识别的图像的能量;以及
通过组合从所述多个照相机中的每个照相机接收的图像的修改后的深度信息来生成所述对象的重建。
7.根据权利要求6所述的方法,其中通过将所识别的图像中具有各种公共深度的部分的全局强度与基于为所识别的图像的部分确定的阴影信息的强度相组合来生成所识别的图像的能量还包括:
将正则化值与所识别的图像中具有各种公共深度的部分的深度估计和所识别的图像的一个或更多个对应相邻部分的深度估计相组合。
8.根据权利要求6所述的方法,其中并行确定由所述多个照相机中的每个照相机捕获的图像的深度信息包括:
并行确定由不同照相机在所述公共时间捕获的图像的深度信息,其中不同处理器确定由不同照相机在所述公共时间捕获的图像的深度信息。
9.根据权利要求6所述的方法,其中,基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在所述公共时间从所述多个照相机中的每个照相机接收的图像所确定的深度信息包括:
并行修改对于不同照相机在所述公共时间捕获的图像所确定的深度信息,其中不同处理器修改对于不同照相机在所述公共时间捕获的图像所确定的深度信息。
10.根据权利要求6至9中任一项所述的方法,所述方法还包括选自以下中的一项或更多项:
存储所生成的所述对象的重建;
经由显示设备呈现所生成的所述对象的重建;
将所生成的所述对象的重建传输到客户端设备。
11.一种其上编码有指令的计算机可读存储介质,当由处理器执行时,所述指令使得所述处理器:
获得相对于多个照相机位于目标位置的对象的图像,每个照相机捕获所述对象的至少一个图像;
并行确定从所述多个照相机中的每个照相机捕获的图像的深度信息;
基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在公共时间从所述多个照相机中的每个照相机接收的图像所确定的深度信息,包括:
识别在所述公共时间从多台照相机接收的图像;
确定所识别的图像中具有公共深度信息的部分的全局强度,其中,所述全局强度被确定为所识别的图像中具有公共深度信息的部分的平均强度;
基于所识别的图像的阴影信息,确定所识别的图像中具有不同深度的部分的强度;
通过将所识别的图像中具有各种公共深度的部分的全局强度与基于为所识别的图像的部分确定的阴影信息的强度相组合来生成所识别的图像的能量;和
修改所识别的图像的部分的深度,以最小化所识别的图像的能量;以及
通过组合从所述多个照相机中的每个照相机接收的图像的修改后的深度信息来生成所述对象的重建。
12.根据权利要求11所述的计算机可读存储介质,
其中,通过将所识别的图像中具有各种公共深度的部分的全局强度与基于为所识别的图像的部分确定的阴影信息的强度相组合来生成所识别的图像的能量包括:
组合正则化值、所识别的图像中具有各种公共深度的部分的全局强度、以及为所识别的图像中具有相应公共深度的部分确定的强度。
13.根据权利要求11所述的计算机可读存储介质,其中并行确定由所述多个照相机中的每个照相机捕获的图像的深度信息包括:
并行确定由不同照相机在所述公共时间捕获的图像的深度信息,其中不同处理器确定由不同照相机在所述公共时间捕获的图像的深度信息。
14.根据权利要求11所述的计算机可读存储介质,其中,基于每个图像的具有公共深度的部分的强度和根据来自每个图像的阴影信息确定的每个图像的部分的强度,并行修改对于在所述公共时间从所述多个照相机中的每个照相机接收的图像所确定的深度信息包括:
并行修改对于不同照相机在所述公共时间捕获的图像所确定的深度信息,其中不同处理器修改对于不同照相机在所述公共时间捕获的图像所确定的深度信息。
15.根据权利要求11至14中任一项所述的计算机可读存储介质,其中,所述计算机可读存储介质还具有编码在其上的指令,当由所述处理器执行时,所述指令使得所述处理器:
存储所生成的所述对象的重建。
CN201980059924.XA 2018-09-14 2019-09-12 从由多台照相机捕获的图像并行确定的深度信息生成对象的表示 Active CN112703729B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/131,660 2018-09-14
US16/131,660 US10616550B1 (en) 2018-09-14 2018-09-14 Generating a representation of an object from depth information determined in parallel from images captured by multiple cameras
PCT/US2019/050804 WO2020056130A1 (en) 2018-09-14 2019-09-12 Generating a representation of an object from depth information determined in parallel from images captured by multiple cameras

Publications (2)

Publication Number Publication Date
CN112703729A CN112703729A (zh) 2021-04-23
CN112703729B true CN112703729B (zh) 2023-12-15

Family

ID=68069877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980059924.XA Active CN112703729B (zh) 2018-09-14 2019-09-12 从由多台照相机捕获的图像并行确定的深度信息生成对象的表示

Country Status (4)

Country Link
US (1) US10616550B1 (zh)
EP (1) EP3850834A1 (zh)
CN (1) CN112703729B (zh)
WO (1) WO2020056130A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104145276A (zh) * 2012-01-17 2014-11-12 厉动公司 用于通过光学成像进行的对象检测和表征的增强对比度
CN105631851A (zh) * 2014-11-24 2016-06-01 奥多比公司 深度图生成
EP3288259A1 (en) * 2016-08-25 2018-02-28 Oculus VR, LLC Array detector for depth mapping
CN108463740A (zh) * 2016-01-15 2018-08-28 欧库勒斯虚拟现实有限责任公司 使用结构化光和飞行时间的深度映射

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8638989B2 (en) * 2012-01-17 2014-01-28 Leap Motion, Inc. Systems and methods for capturing motion in three-dimensional space
CN103297677B (zh) * 2012-02-24 2016-07-06 卡西欧计算机株式会社 生成重构图像的图像生成装置以及图像生成方法
JP6165681B2 (ja) * 2014-06-27 2017-07-19 富士フイルム株式会社 画像表示装置及び画像表示方法
US9373189B2 (en) * 2014-11-13 2016-06-21 Adobe Systems Incorporated Constructing 3D surfaces for multi-color objects

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104145276A (zh) * 2012-01-17 2014-11-12 厉动公司 用于通过光学成像进行的对象检测和表征的增强对比度
CN105631851A (zh) * 2014-11-24 2016-06-01 奥多比公司 深度图生成
CN108463740A (zh) * 2016-01-15 2018-08-28 欧库勒斯虚拟现实有限责任公司 使用结构化光和飞行时间的深度映射
EP3288259A1 (en) * 2016-08-25 2018-02-28 Oculus VR, LLC Array detector for depth mapping

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Object-centered surface reconstruction: Combining multi-image stereo and shading》;P FUA ET AL;《INTERNATIONAL JOURNAL OF COMPUTER VISION》;19950901;全文 *
基于MRF与纹理特征的图像深度信息估计;陈婷婷等;《哈尔滨商业大学学报(自然科学版)》;20150415(第02期);全文 *
基于三维虚拟视觉的导视系统设计研究;张媛;《计算机仿真》;20160615(第06期);全文 *

Also Published As

Publication number Publication date
WO2020056130A1 (en) 2020-03-19
US10616550B1 (en) 2020-04-07
CN112703729A (zh) 2021-04-23
EP3850834A1 (en) 2021-07-21

Similar Documents

Publication Publication Date Title
US7447380B2 (en) Efficient method for creating a viewpoint from plurality of images
EP2986932B1 (en) Determining depth data for a captured image
US20120242795A1 (en) Digital 3d camera using periodic illumination
KR100695174B1 (ko) 가상 입체음향을 위한 청취자 머리위치 추적방법 및 장치
US9373174B2 (en) Cloud based video detection and tracking system
US9049369B2 (en) Apparatus, system and method for projecting images onto predefined portions of objects
JP7337091B2 (ja) 飛行時間カメラの低減された出力動作
US10599269B2 (en) Near touch interaction
KR20040030081A (ko) 3d 화상 회의 시스템
US11682165B2 (en) Methods and systems for augmenting depth data from a depth sensor, such as with data from a multiview camera system
WO2014107538A1 (en) Stereo image matching
CN111149357A (zh) 3d 360度深度投影仪
US20180213201A1 (en) Generating a disparity map based on stereo images of a scene
CN112633181B (zh) 数据处理方法、系统、装置、设备和介质
US20190012789A1 (en) Generating a disparity map based on stereo images of a scene
WO2023177436A1 (en) Motion correction for time-of-flight depth imaging
TW201734708A (zh) 使用頻域為基礎之處理之三維成像
CN112703729B (zh) 从由多台照相机捕获的图像并行确定的深度信息生成对象的表示
KR20120056668A (ko) 3차원 정보 복원 장치 및 그 방법
US11727658B2 (en) Using camera feed to improve quality of reconstructed images
Mahotra et al. Real-time computation of disparity for hand-pair gesture recognition using a stereo webcam
Klyueva et al. Object occlusion recognition to increase an accuracy of ToF-tracking in augmented reality systems
Priyanka et al. An innovative approach for occlusion elimination in 3D reconstruction
Sengupta et al. Occlusion Handling in Augmented Reality Using Background-Foreground Segmentation and Projective Geometry

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: California, USA

Applicant after: Yuan Platform Technology Co.,Ltd.

Address before: California, USA

Applicant before: Facebook Technologies, LLC

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant