CN111567036A

CN111567036A - 视频捕捉系统和方法

Info

Publication number: CN111567036A
Application number: CN201880085866.3A
Authority: CN
Inventors: S·H·里姆; T·A·拉奇
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-12-07
Filing date: 2018-08-30
Publication date: 2020-08-21
Also published as: EP3721617A1; WO2019112663A1; US10694146B2; US10122969B1; US20190182453A1

Abstract

视频捕捉技术包括：确定主体相对于多个相机的位置；至少基于所确定的位置从各相机中选择前景相机；获取由该前景相机捕捉的RGB图像；分割RGB图像以标识与该主体对应的前景部分，其中该前景部分的总高度是RGB图像的总高度的第一百分比；从前景部分生成前景图像；产生合成图像，包括合成前景图像和背景图像以产生合成图像的一部分，其中该合成图像中的前景图像的总高度是该合成图像的总高度的第二百分比，并且该第二百分比显著小于该第一百分比；以及使得合成图像被显示在远程系统上。

Description

视频捕捉系统和方法

背景

视频会议技术已经变得越来越普遍。此类技术现已在全球范围内用于各种各样的个人和企业通信。例如，在电话会议或其他视频会议会话期间，个人可以通过由数字相机捕捉并传送给参与者的图像和声音来“互动”和参与面对面的对话。人们越来越依赖此类基于网络的视频会议以及视频聊天应用和服务，诸如

Google

和

然而，参与者不保持相对静止的视频会议在图像捕捉和显示质量方面继续面临重大挑战。

在一些情况下，可能存在一些视频会议，其中参与者希望在其环境中移动、和/或其中可能在一个房间中存在多个参与者向其他远程用户或接收方传送数据。其中存在(一个或多个)参与者相对于相机或彼此的位置实时变化的视频会议会话可能会妨碍为远程用户捕捉该(一个或多个)参与者的一致或可靠视图。例如，当参与者靠近视频相机移动时(诸如与靠近相机的显示器进行交互时)，参与者可能会遮挡远程用户对环境的查看。这可能会因多个参与者的存在而更加复杂。在此类情形中，辨别静止参与者的面部和/或表情的能力可能会受到限制。尽管已经采用了各种技术来提高视频会议的质量，但在视频会议会话中捕捉和演示视频的新的和改进的想法方面仍然存在很大空间。

概述

公开了一种视频捕捉系统。该视频捕捉系统包括：多个相机，该多个相机被配置成捕捉RGB图像；以及前景相机选择器，该前景相机选择器被配置成基于第一主体相对于多个相机的第一位置来选择多个相机中的一个作为第一前景相机。此外，该系统包括：前景分割器，该前景分割器被配置成接收由第一前景相机捕捉的第一RGB图像，并标识该第一RGB图像的第一前景部分，其中该第一前景部分对应于第一主体，并且其中该第一前景部分的总高度为第一RGB图像的总高度的第一百分比。此外，该系统包括：前景图像生成器，该前景图像生成器被配置成根据第一RGB图像的第一前景部分生成第一前景图像；以及图像合成器。图像合成器被配置成根据第一前景图像和第一背景图像生成第一合成图像的第一部分，其中第一合成图像中的第一前景图像的总高度是第一合成图像的总高度的第二百分比，并且第二百分比显著小于第一百分比。该系统还包括：图像编码器，该图像编码器被配置成对第一合成图像进行编码以传输到远程系统。

在另一实现中，公开了一种方法，其中该方法包括：确定第一主体相对于多个相机的第一位置；至少基于所确定的第一位置从多个相机中选择第一前景相机；以及获取由第一前景相机捕捉的第一RGB图像。该方法进一步包括：分割第一RGB图像以标识第一RGB图像的第一前景部分，该第一前景部分对应于第一主体，其中第一前景部分的总高度为第一RGB图像的总高度的第一百分比；以及根据第一RGB图像的第一前景部分生成第一前景图像。此外，该方法包括：产生第一合成图像，包括合成第一前景图像和第一背景图像以产生第一合成图像的一部分，其中第一合成图像中的第一前景图像的总高度是第一合成图像的总高度的第二百分比，并且第二百分比显著小于第一百分比；以及然后使得第一合成图像被显示在远程系统上。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的概念的选集。本概述并不旨在标识所要求保护的主题的关键特征或必要特征，亦非旨在用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本公开的任一部分中提及的任何或所有缺点的实现。

附图简述

附图仅通过示例而非限制的方式描绘了根据本教导的一种或多种实现。在附图中，相同的附图标记指代相同或相似的元素。此外，应当理解，附图不必按比例绘制。

图1例示了视频捕捉系统的示例，该视频捕捉系统被布置并操作以向第二地理位置处的远程显示系统提供描绘第一地理位置处的主体的视频流。

图2例示了图1中例示的视频捕捉系统的分解图的示例。

图3例示了视频捕捉系统的示例。

图4A例示了场景的俯视图的示例，其中在视频会议会话期间所有参与者都坐在桌子旁。

图4B例示了由视频捕捉系统针对图4A中的场景捕捉的RGB图像的示例。

图5A例示了在针对图4A和4B描述的视频会议会话期间的场景的俯视图的示例。

图5B例示了由视频捕捉系统针对图5A中的场景捕捉的RGB图像的示例。

图6A例示了在针对图4A-5B描述的视频会议会话期间的场景的俯视图的示例。

图6B例示了由视频捕捉系统针对图6A中的场景捕捉的RGB图像的示例。

图6C例示了用于生成合成图像的背景图像和前景图像的示例。

图7A例示了在针对图4A-6C描述的视频会议会话期间的场景的俯视图的示例。

图7B例示了由视频捕捉系统针对图7A中的场景捕捉的RGB图像的示例。

图7C例示了用于为图7A和7B中例示的场景生成合成图像的各种办法。

图8A例示了在针对图4A-7C描述的视频会议会话期间的场景的俯视图的示例。

图8B例示了由视频捕捉系统针对图8A中的场景捕捉的RGB图像的示例。

图9A例示了在针对图4A-8B描述的视频会议会话期间的场景的俯视图的示例。

图9B例示了由视频捕捉系统针对图9A中的场景捕捉的RGB图像的示例。

图9C例示了其中两个背景相机被选择，并且由所选择的背景相机捕捉的RGB图像的各部分被缝合以产生背景图像的示例。

图9D例示了其中针对两个前景主体生成两个相应的前景图像，并且从图9C中生成的两个前景图像和背景图像生成合成图像的示例。

图10例示了其中两个视频捕捉系统彼此块相邻以提供更大的视频捕捉系统的示例。

图11例示了示出可以在其上实现本公开的各方面的示例计算机系统的框图。

详细描述

在下面的详细描述中，通过示例的方式阐述了许多具体细节以提供对相关教导的透彻理解。然而，显然的是，可以在没有此类细节的情况下实践本教导。在其他实例中，为了避免不必要地混淆本教导的各方面，众所周知的方法、程序、组件和/或电路系统在相对较高的层次上进行了描述而没有详细说明。在以下材料中，方向指示(诸如“顶部”或“左侧”)仅是为了在以下讨论期间提供参考框架，除非明确指出，否则不打算指示所描述的物品的所需、期望或预期的取向。

图1例示了视频捕捉系统100的示例，该视频捕捉系统100被布置并操作以向第二地理位置150处的远程显示系统160提供描绘第一地理位置120处的主体的视频流。在图1和4A-9D所例示的各示例中，视频捕捉系统100(其也可被称为“本地视频捕捉系统100”)被具体化为包括用于呈现图像的显示屏105的交互式显示系统，尽管注意到视频捕捉系统100不限于此类实施例。例如，在一些实现中，视频捕捉系统100可以不包括显示屏，或者可以包括用于受限和/或次要目的的显示屏。在图1中，显示屏105被定位成向在第一地理位置120处的用户呈现图像。在一些示例中，视频捕捉系统100可被配置成显示来自参与与视频捕捉系统100的视频会议会话的一个或多个远程系统(诸如来自远程显示系统160)的图像和/或视频流。例如，视频捕捉系统100可以被安装在墙壁上(如图1所示)或支架上。在一些示例中，显示屏105还被配置成用作触摸屏以接收用户输入。在此示例中，第一地理位置120是会议室，其中用户134、136和138坐在桌子125旁，而用户132站在更靠近视频捕捉系统100的位置。图1所例示的示例并非旨在限制可以在其中使用视频捕捉系统100的应用或环境。而且，为了更紧凑地例示第一地理位置120的各特征，在图1中示出的桌子125比在下面的图4A-9D中更近。

在图1所例示的示例中，视频捕捉系统100被配置成，除其他外，在视频会议会话中充当端点。在图1所例示的时刻，四个用户132、134、136和138正在经由视频捕捉系统100参与视频会议会话。在视频会议会话中，用户132、134、136和138也可被称为“参与者”。术语“视频会议”适用于电子通信，其中包括由第一参与者系统捕捉的图像的视频流由至少第二参与者系统接收并显示，并且可以包括但不要求第一参与者系统显示由第二参与者系统提供的视频流。所例示的视频会议会话包括第二地理位置150处的另一远程参与者155，该远程参与者经由被配置成充当视频会议会话中的端点的远程显示系统160(其也可被称为“远程参与系统”)来参与。在一些示例中，远程显示系统160可以基本类似于所例示的视频捕捉系统100的实施例。然而，远程显示系统160可以包括传统的视频会议系统，该传统的视频会议系统被适配成显示为视频会议会话接收的视频流，但其不包括或不实现本文描述的用于视频捕捉系统100的各种特征。远程显示系统160经由数据通信网络(图1中未示出)接收视频流。注意，对视频捕捉系统100的使用不必限于视频会议活动。例如，视频捕捉系统100可以提供虚拟白板或运行任意计算机程序应用，并且在显示屏105上显示针对此类其他活动的信息和/或用户界面。此类其他活动可以与视频会议同时执行。

视频捕捉系统100包括多个RGB(红绿蓝)相机110a、110b、110c和110d(统称为“RGB相机110”)。尽管图1所例示的示例包括四个RGB相机110，但在其他实现中，可以存在两个或更多个RGB相机110。在一些示例中，RGB相机110中的一些或全部被定位在显示屏105的后面，以从通过显示屏105接收的光捕捉图像，诸如在图1的示例中针对四个RGB相机110a、110b、110c和110d所例示的那样。通过将RGB相机110放置在显示屏105的后面，通常可以使主体视线更朝向RGB相机110取向，更多数量的RGB相机110可被更容易地包括，RGB相机110可以被布置成从更自然的角度捕捉主体的图像，以及RGB相机110不需要附加的非显示用户面对的表面(诸如边框)。RGB相机110被定位成使得，当视频捕捉系统100被操作时，在大多数情况下，最左边的RGB相机110和最右边的RGB相机110跨越至少足够大的水平距离，以获取位于靠近RGB相机110中的一个或多个且在RGB相机110中的一个或多个的视野(FOV)内的人类主体周围的视图。例如，在图1中，用户132的图像被包括在由RGB相机110d捕捉的图像140d中，而用户132在由RGB相机110a大约同时捕捉的图像140a中不可见。在一些示例中，RGB相机110a可以被定位在小于或大约等于RGB相机110d的高度的高度处。RGB相机110的各种其他布置和数量也是有效的，例如但不限于，阵列、沿多条平行线或沿垂直线(例如，在垂直于图1所例示的横向取向的纵向取向上操作时增加水平跨度)。

在一些实现中，视频捕捉系统100包括一个或多个深度相机(统称为“深度相机115”)。在一些示例中，深度相机115中的一些或全部被定位在显示屏105的后面，以通过显示屏105捕捉用于深度估计的光，诸如在图1的示例中针对两个深度相机115a和115b所例示的那样。通过将深度相机115放置在显示屏105的后面，更多数量的深度相机115可被更容易地包括，并且深度相机115不需要附加的非显示的面对用户的表面。深度估计也可被称为“估计深度”、“距离估计”或“估计距离”。如下面更详细地描述的，使用深度相机115获取的深度估计可被用于，除其他外，确定主体何时邻近视频捕捉系统100、确定视频捕捉系统100与主体之间的距离、确定主体相对于RGB相机110中的一个或多个的位置、和/或标识深度图像中的不连续性以及用于针对主体执行图像分割的相关深度图像数据。

如将在后续示例中更详细地描述的，视频捕捉系统100被配置成从多个RGB相机110中选择前景相机，以捕捉所标识的主体(例如，人类主体)的一个或多个图像。在本公开的各部分中，术语“前景”可被缩写为“FG”。对于图1的讨论，参与者132也可以被称为“主体132”。在一些实现中，可以至少基于主体132相对于各RGB相机110的位置来选择前景相机；例如，通过标识一个RGB相机110，其中主体132被预期或以其他方式被确定为位于该RGB相机的视场(FOV)内。在一些实现中，深度相机115可被用于确定主体132的位置。在图1所示的示例中，RGB相机110d已经被选择为主体132的前景相机，并且主体132的图像已经被所选择的RGB相机110d捕捉在RGB图像140d中。图像分割被执行以标识与主体132相对应的RGB图像140d的前景部分，其被用于生成主体132的前景图像142。

附加地，视频捕捉系统100被配置成从多个RGB相机110中选择背景相机，以捕捉主体132后面的背景区域的至少一部分的一个或多个图像。在本公开的各部分中，术语“背景”可被缩写为“BG”。在一些实现中，可以至少基于主体相对于各RGB相机110的位置来选择背景相机；例如，通过标识一个相机，其中主体被预期占用很少或不占用该相机的FOV。在图1所示的示例中，RGB相机110a已经被选择为背景相机，并且背景图像140a已经从所选择的RGB相机110a获取。背景图像140a可以仅跨越RGB相机110a的总FOV的一部分。在此特定示例中，背景图像140a包括桌子125以及参与者134、136和138的图像，但是未示出主体132。

在图1所示的示例中，与主体132相对应的RGB图像140d的前景部分被缩小以生成前景图像142，并且从背景图像140a和前景图像142生成合成图像145。未由前景相机捕捉但由背景相机捕捉的背景部分在结果合成图像145中可见。例如，在合成图像145中，主体132不遮挡桌子125或桌子125后面的门。此外，与原始RGB图像140d相比，主体132的图像占据合成图像145的明显更小的部分。此外，在此特定示例中，前景图像142相对于合成图像145中的背景特征的位置不对应于主体132相对于由RGB相机110中的一个或多个捕捉的那些背景特征的位置。例如，在原始RGB图像140d中，主体132被看到处于参与者134、136和138的右侧；然而，在合成图像145中，主体132被看到处于参与者134、136和138的左侧。

合成图像145被数字地编码，例如但不限于，编码为视频流的帧。然后，经编码的图像被提供给远程显示系统160，从而使得合成图像145至少部分地被显示为远程显示系统160上的图像170，诸如经由远程显示系统160所执行的视频会议应用程序。类似的处理可以基于由RGB相机110捕捉的图像执行以生成多个合成图像，这些图像用于在传送到参与视频会议会话的远程显示系统的视频流中编码的帧序列。尽管在图1中，图像170被例示为占据远程显示系统160的整个显示表面，但图像170可被显示在显示表面的子部分中；例如，图像170可被显示在用户界面的窗口或视频显示区域中。视频捕捉系统100可以以类似的方式显示从一个或多个远程系统接收到的图像。

图2例示了图1中例示的视频捕捉系统100的分解图。为了清楚和讨论的目的，参照水平轴210、纵向轴220和横向轴230来呈现图2。相对于水平轴210，正方向(用“+”例示)可被称为“前向”方向，负方向(用“-”例示)可被称为“后向”方向。相对于纵向轴220，正方向(用“+”例示)可被称为“朝上”方向，负方向(用“-”例示)可被称为“朝下”方向。显示屏105被布置成垂直于水平轴210，并且被配置成响应于从包括在视频捕捉系统100中的控制器250接收到的信号，通过显示屏105的前(和用户可见的)表面205(在此示例中，其也是视频捕捉系统100的前表面205)发光。在一些示例中，显示屏105包括多个显示面板。显示屏105可以使用诸如液晶显示器(LCD)、有机发光二极管型显示器(OLED)、基于量子点的显示器或允许RGB相机110通过显示屏105捕捉适当图像的各种其他发光显示器之类的技术来实现。由RGB相机110a、110b、110c和110d从显示屏105前面的场景240接收到的光穿过显示屏105的各个RGB相机显示区域210a、210b、210c和210d(统称为“RGB相机显示区域210”)。由深度相机115a和115b从场景240接收到的光穿过显示屏105的各个深度相机显示区域215a和215b(统称为“深度相机显示区域215”)。一个或多个场景照明源(图2中未例示)也可以位于显示屏105的后面。例如，深度相机215中的每一个可以包括集成的IR照明源。

可以使用各种配置来允许RGB相机110通过显示屏105捕捉图像。在一些实现中，显示屏105是前向发射的显示屏(诸如基于OLED的前向发射的显示屏)，其被布置成使得由显示屏105发射的光的一小部分或基本上没有通过显示屏105的后表面发射。例如，一些基于OLED的前向发射的显示屏具有约5％的后向发射显示光。在一些实现中，图像校正被执行以校正后向发射光；例如，RGB相机显示区域的图像内容可被用于估计和减去或以其他方式校正由RGB相机捕捉的后向发射光的影响。对于前向发射的显示屏105，RGB相机110和/或深度相机115可以在任何时候捕捉图像，而独立于与显示屏105的操作的同步。

在一些实现中，由RGB相机110执行的图像捕捉操作至少与显示屏105的RGB相机110的相应RGB相机显示区域210的操作同步。例如，当RGB相机110的相应RGB相机显示区域210不发射光时，RGB相机110的图像捕捉周期可被执行，例如但不限于，与显示刷新周期同步，或者通过在图像捕捉操作期间在RGB相机显示区域210中显示变暗图像(包括，例如，黑色图像)。在一些实现中，由深度相机115执行的深度图像捕捉操作类似地至少与其相应的深度相机显示区域215的操作同步。在图1和2中的示例视频捕捉系统100中，每个RGB相机110都被定位在距离显示屏105的横向中线206朝上(和远离)大约相同的第一距离处。然而，在其他实现中，RGB相机110相对于彼此和/或横向中线206的位置可以变化。

视频捕捉系统100还包括控制器250。控制器250包括逻辑子系统、数据保持子系统、显示控制器、和通信子系统，并且通信地耦合到显示屏105、RGB相机110和深度相机115。逻辑子系统可以包括例如一个或多个处理器，该一个或多个处理器被配置成根据此类指令执行指令并与视频捕捉系统100的其他元件进行通信，以实现涉及视频捕捉系统100的本公开的各个方面。此类方面包括但不限于配置和控制视频捕捉系统100的其他元件、输入和命令，与其他计算机系统进行通信和/或处理由RGB相机110和深度相机115捕捉的图像。数据保持子系统包括一个或多个存储器设备(诸如但不限于DRAM设备)和/或一个或多个存储设备(诸如但不限于闪存设备)。数据保持子系统包括一种或多种其上存储有指令的介质，该指令可由逻辑子系统执行，这使逻辑子系统实现涉及视频捕捉系统100的本公开的各个方面。此类指令可以作为固件、操作系统、设备驱动程序、应用程序或其他可执行程序的一部分被包括在内。通信子系统被布置成允许视频捕捉系统100与其他计算机系统进行通信。此类通信可以经由例如有线或无线数据通信来执行。

视频捕捉系统100还包括外壳260，该外壳260被布置成机械地耦合到显示面板105并包封视频捕捉系统100的内部组件(包括RGB相机110、深度相机215和控制器250)。外壳260也可以被称为“壳体”。在此示例中，当所例示的视频捕捉系统100被组装时，RGB相机110全部被单个外壳260包围，并位于单个显示屏105的后面。

尽管在图1和2中视频显示系统100的各种元件和特征被描述为集成到单个设备中，但是在其他实现中，视频捕捉系统100的各种元件和特征可跨多个设备实现。例如，控制器250的一部分可以由不被外壳260包封的计算机系统提供，多个RGB相机110中的一些或全部可以被包括在一个或多个单个设备中而非被定位在显示屏105的后面，和/或各深度相机115中的一些或全部可以被包括在一个或多个单个设备中而非被定位在显示屏105的后面。

图3例示了示出实施本文所描述的各种特征的示例视频捕捉系统300中包括的特征的示例示意图。视频捕捉系统300可以包括以上针对图1和2中的视频捕捉系统100所描述的任何特征。附加地，针对视频系统300所描述的各特征可以被包括在视频捕捉系统100中。尽管图3所例示的各特征的各方面可以被描述为侧重于被应用于以生成一个当前帧图像362，但是可以理解，这些特征将类似地被应用于以生成附加帧图像，诸如用于视频流的一系列帧图像。

如以上针对视频捕捉系统100所描述的，视频捕捉系统300包括被布置成从不同位置捕捉场景301的RGB图像的多个RGB相机310。由RGB相机310捕捉的RGB图像可包括场景301的背景部分302(或“背景302”)的图像和/或场景301的前景部分303的图像，其可以包括邻近RGB相机310的人类前景主体304(或另一前景主体)。在一些实现中，视频捕捉系统300包括显示屏305，并且RGB相机310位于显示屏305的后面以使用通过显示屏305接收的光来捕捉RGB图像，如图1和图2所例示的。

图3例示了当前的RGB图像314，其具有由RGB相机310中的至少一个在大约第一时间捕捉的并且用于生成与该第一时间相对应的当前帧图像362的至少一个RGB图像。当前的RGB图像314包括由RGB相机310捕捉的至少一个RGB图像，其不包括在用于生成先前的帧图像的RGB图像314中。有多种方法可以实现这一点。在一些实现中，以与生成新的帧图像大致相同的速率从RGB相机310中的每一个获取新图像。例如，在将以第一频率(诸如但不限于24Hz、30Hz或60Hz)生成新的当前帧图像362的情况下，RGB相机310中的每一个可被操作以便以第一频率捕捉新的RGB图像；对于30Hz的帧速率和四个RGB相机，这将等于每秒120个新的RGB图像。在一些实现中，更选择性地为当前RGB图像314获取新的RGB图像，其中基于来自RGB相机310的第一子集的RGB图像将不用于生成当前帧图像362的确定，当前RGB图像314可以不包括来自RGB相机310的第一子集的新RGB图像。例如，当不存在前景主体304时，仅来自RGB相机310中的一个的RGB图像可被用于生成“仅背景”帧图像。作为另一示例，对于一些帧，仅需要新的RGB图像来生成前景图像(诸如但不限于，以比前景图像更慢的速率生成新的背景图像的情况，或者从不同的图像源(诸如选定的视频或静止图像)生成背景图像的情况)。对RGB相机310的第一子集的选择可以至少基于使用从深度相机315获取的深度图像作出的距离确定，该距离确定可以单独和/或以不同速率来确定。对RGB相机310的第一子集的选择可以至少基于前景主体304的预测位置，由于人类主体相对于帧频移动速度较慢，因此在许多情况下对人类主体短期内有效。通过减少用于获取新的当前RGB图像314以生成当前帧图像362的RGB相机310的数量，用于RGB相机310的功率和带宽被减少，并且用于处理从RGB相机310获取的图像的能量和计算资源的量被减少。

在不同的实现中，本文所描述的视频捕捉系统可以被配置成优化对近距离人类主体(例如，在视频捕捉系统的2米之内的人类主体)的捕捉，诸如采用RGB相机310的各种布置(其也可以被应用于图1和图2中的RGB相机110)。在一些实现中，多个RGB相机310可以被布置成使得当第一RGB相机310的背景302的视图例如被人类前景主体304阻挡或部分地遮挡时，其余RGB相机310中的至少一个被定位成允许基本上完全捕捉背景302或背景302的特定部分。换言之，在第一RGB相机310被遮挡时，第二RGB相机310可以用于继续捕捉背景302的被遮挡的部分。在一些实现中，如先前在图1中由相应的RGB相机110a和110d捕捉到的RGB图像140a和140d中所例示的，其余未受遮挡的RGB相机310相对于受遮挡的第一RGB相机310横向定位以便有效地获取人类前景主体304“周围”的视图。

例如，在一些实现中，人类前景主体304可以在视频捕捉系统300附近行走。在此期间，人类前景主体304可能与第一RGB相机310相邻，从而至少部分地遮挡了第一RGB相机310的背景302的视图。然而，由于其余的RGB相机310的布置，视频捕捉系统300可以经由其余的RGB相机310中的一个或多个继续获取背景302的基本完整的图像。在一个实现中，RGB相机310被布置成使得最左边的RGB相机和最右边的RGB相机跨越至少大到足以继续捕捉可能被遮挡的背景302的一个或多个图像的水平距离。因此，在视频捕捉系统300的普通操作中，当人类前景主体304站在第一RGB相机附近时，其余RGB相机310中的一个或多个将有效地为第一RGB相机310捕捉被人类前景主体304遮挡的背景302的一个或多个区域的图像。因此，在一些实现中，RGB相机310的布置允许系统补偿至少一个相机的FOV中的一个或多个遮挡。

在不同实现中，RGB相机310的布置也可以配置成确保对位于RGB相机310附近的人类前景主体的最佳捕捉。因此，尽管通常可以以各种布置来设置RGB 310相机，但是在一些实现中，RGB相机310中的每一个以通常与基于人类的呈现会话相关联的尺寸一致的方式被定位。应当理解，在至少一些实现中，此布置允许RGB相机310中的每一个在人类前景主体304面向RGB相机310、邻近RGB相机310并且与RGB相机310的光轴横向对准的同时捕捉人类前景主体304的面部和大部分躯干。在一些实现中，RGB相机310相对于彼此的物理布置可以考虑人类形状和大小的典型范围(例如，基于大约在155至185cm之间的人类高度)，以及一般房间配置(例如，基于视频捕捉系统300或其中包括的RGB相机310安装在RGB相机310前面的地板上方的假定高度处)。例如，在包括显示屏305的一些实现中，RGB相机310中的一些或全部将被放置在与显示屏305的横向中线大致相同的第一距离处(如由图2中例示的RGB相机110在横向中线206上方的定位所示)。例如，此第一距离可以对应于操作中的预期或平均眼睛高度，从而有助于主体的注视与RGB相机310的对准。此外，在一些情况下，RGB相机310可以被定位成使得RGB相机310中的一个或多个通常与显示屏305的横向中线相邻或邻近。因此，在一些实现中，RGB相机310中的一个或多个可被定位成确保对每个参与者的捕捉，无论他们在前景还是在背景中。

在一些实现中，视频捕捉系统300包括被配置成捕捉具有从深度相机315到场景301中的表面的估计距离的深度图像319(其可以被称为“深度图”)的一个或多个深度相机315。在一些实现中，深度相机315可以是飞行时间(TOF)深度相机(门控或基于相位)，其被配置成确定深度相机发射的红外光脉冲从场景301中的表面反射并由包括在深度相机中的像素传感器元件接收的时间。针对像素传感器确定的“飞行时间”对应于深度相机与场景301中对应于像素传感器的方向和/或角度区域的相应表面之间的距离。在一些实现中，深度相机315可以基于由深度照相机315投射的结构化红外光从场景301的反射来估计距离。在一些实现中，深度相机315可以包括能够捕捉RGB图像和深度图像两者的混合传感器。在一些实现中，可使用用于立体深度估计的两个或两个以上相机来实现深度相机315。例如，RGB相机310中的两者可以被用于立体深度估计。在一些实现中，视频捕捉系统300包括显示屏305，并且深度相机315位于显示屏305的后面以使用通过显示屏305接收的光来捕捉深度图像，如图1和图2所例示的。在一些实现中，以比用于新的当前帧图像362的帧速率低得多的速率从深度相机315获取新的深度图像。在一些实现中，深度相机315可以被选择性地用于当前深度图像319，类似于上文描述的RGB相机310被选择性地用于当前RGB图像314。用于减少深度图像生成和处理的量的此类办法在减少功率和处理要求方面特别有效。

在一些实现中，视频捕捉系统300包括RGB图像处理器312，该RGB图像处理器312被配置成执行对RGB图像314的处理(包括预处理)以供视频捕捉系统300的其他元件使用。此类处理的各示例包括但不限于：校正由镜头引起的光学畸变(其在由广角RGB图像相机捕捉的外围图像中可能是实质性的)、颜色校正、噪声降低和/或反卷积，以减少由包括在显示屏305中的结构引起的衍射的影响。在一些示例中，用于此类反卷积的值可以作为在视频捕捉系统300的制造或安装期间执行的校准过程的一部分而生成。在一些实现中，视频捕捉系统300包括深度图像处理器317，其被配置成对深度图像319执行类似处理。在一些实现中，由RGB图像处理器312和/或深度图像处理器317执行的部分或全部处理也针对利用RGB图像314和/或深度图像319的其他系统的利益而进行，诸如但不限于，骨骼跟踪系统和/或基于姿势的用户输入的姿势识别系统。图像处理的各示例在于2005年8月18日公布的题为“System and Method for Head Size Equalization in 360 Degree Panoramic Images(360度全景图像中头部尺寸均衡的系统和方法)”的美国专利申请No.2005/0180656，以及于2006年2月9日公布的题为“Real-Time Wide-Angle Image Correction System andMethod for Computer Image Viewing(用于计算机图像查看的实时广角图像校正系统和方法)”的美国专利申请No.2006/0028735中被描述。

在一些实现中，视频捕捉系统300可以包括图像数据存储320以保留由RGB相机310和/或深度相机315捕捉的图像的图像数据和元数据。例如，最近捕捉的RGB图像314可以被临时存储在图像数据存储320中以提供丢失的RGB图像数据以生成以后的合成图像。视频捕捉设备中包含的任何元素都可以提供要存储在图像数据存储320中的图像数据和/或检索由图像数据存储320存储的图像数据。

在一些实现中，视频捕捉系统300包括深度图像分割器325，其被配置成接收和分割当前深度图像319。在一些示例中，当前深度图像319在与用于生成当前帧图像362的当前RGB图像314被RGB相机314捕捉的大致相同的时间被捕捉。在一些实现中，深度图像分割器325被配置成至少基于深度图像319中位于所标识的前景部分的边缘周围的不连续性来分割深度图像319以标识深度图像319的前景部分。在一些示例中，深度图像分割器325可以丢弃或忽略超过第一阈值距离的深度估计。深度图像分割器325可执行对深度图像319的附加处理，诸如确定所标识的前景部分相对于视频捕捉系统300的距离和/或位置。

视频捕捉系统300包括前景主体定位器330，其被配置成确定当前在视频捕捉系统300和/或RGB相机310附近是否存在任何前景主体，并确定每个当前前景主体的相应位置。此确定可以至少部分地基于深度图像319和/或由深度图像分割器325标识的任何前景部分。在一些示例中，前景主体定位器330可以丢弃或忽略由深度图像分割器325标识的前景部分，该前景部分具有超过第二阈值距离的确定距离和/或在为视频捕捉系统300定义的前景空间之外的确定位置。在一些实现中，前景主体定位器330不依赖于由深度相机315捕捉的深度图像319，而是至少基于RGB图像319来进行其确定。例如，诸如但不限于面部识别和/或光流分析之类的RGB图像处理技术可以有效地确定存在前景主体并估计前景主体的位置。在一些示例中，前景主体定位器330确定前景主体存在，并部分地基于从图像存储320检索到的图像数据来估计前景主体的位置。替换地，前景主体定位器330可以在连续帧之间保持内部状态，例如但不限于针对先前帧确定的前景主体位置。在一些实现中，包括在视频捕捉系统300系统中和/或位于其他地方的话筒阵列可以被用于确定当前正在讲话的主体的位置。在一些实现中，可以至少基于确定前景主体当前或最近正在讲话来选择性地标识前景主体。

视频捕捉系统300包括前景相机选择器335，其被配置成针对由前景主体定位器330标识的每个前景主体，选择RGB相机310中的一个作为前景相机，当前RGB图像314将从该相机中被获取以生成前景主体的前景图像。结果，前景相机选择器335为每个前景主体选择原始或源RGB图像314。用于前景主体的前景相机的选择可以至少基于由前景主体定位器330所确定的前景主体相对于各RGB相机110的位置。用于前景主体的前景相机的选择可以至少基于前景主体朝向各RGB相机310的取向。例如，在可以为前景主体选择RGB相机310中的两个或多个的情况下，前景相机选择器335可以基于确定前景主体的身体、躯干、头部和/或注视被取向成更朝向所选择的前景相机来选择前景相机。在一些实现中，前景相机选择器335可以基于由视频捕捉系统300中包括的前景分割器340执行的至少一个或多个前景分段来选择前景相机。例如，由前景分割器340在相应的第一和第二RGB图像314中为前景主体标识的第一和第二前景部分的位置、大小、形状和/或区域可被用于选择第一RGB相机310作为前景主体的前景相机。

前景分割器340被配置成接收RGB图像314，并为由前景主体定位器330标识的前景主体标识RGB图像314的前景部分。例如，前景分割器340被用于标识由前景相机选择器335选择的前景相机所捕捉的当前RGB图像314的前景部分。各种图像分割技术可以被应用以标识RGB图像314的前景部分。在一些实现中，机器学习和推理技术(诸如语义分割或语义标记)可以被使用。在一些实现中，至少基于在RGB图像314中检测到的亮度、颜色或其他边界，和/或通过纹理、颜色和/或强度将邻近像素分组在一起来标识RGB图像314的前景部分。在一些示例中，诸如但不限于GrabCut方法的一种或多种图形能量最小化技术可以被用于图像分割。

在一些实现中，由深度图像分割器325标识的第一深度图像319的第一前景部分可被用于标识由相应第一RGB相机310捕捉的第一RGB图像314中的相应位置。例如，包括在第一前景部分中的像素的深度估计可以转换为第一坐标系中的相应第一三维(3D)点(诸如，但不限于，用于捕捉第一深度图像319的第一深度相机315的相机坐标系)，其可被转换为第一RGB相机310的第二相机坐标系中的第二3D点和/或第一RGB图像314中的对应像素位置。对于为标识第一RGB图像314中的相应位置而执行的转换、变换和/或其他计算，可以独立或组合地使用各种技术，包括但不限于：对二维(2D)和/或3D点和/或向量的旋转和/或平移(包括，例如，使用一个或多个变换矩阵)；对深度相机和/或RGB相机的光学失真校正(包括，例如，对复杂非对称光学失真的校正)；几何变换，诸如但不限于仿射变换(线性共形(缩放、平移、旋转)和剪切)、投影变换(投影、同形和共线)和分段线性变换(例如，分别应用于图像三角形区域的仿射变换)；和/或非线性图像变换，诸如但不限于多项式变换、非均匀缩放、圆形或径向失真(筒形、枕形、胡须形和多阶)和切向失真(例如，使用布朗模型)。此类技术可以使用各种技术来实现，诸如但不限于矩阵运算、数值逼近(诸如泰勒级数或牛顿-拉夫森)和/或映射/插值。通过标识第一RGB图像314中与第一前景部分对应的附加像素位置，初始图像分割可以被执行，其可以使用其他图像分割技术来细化。

在一些示例中，尽管第一深度图像319的第一前景部分可以以相对高的精度提供深度估计值(例如，16位深度估计值)，但是深度估计值可以被量化为相对少数量的深度箱(depth bin)，以用于标识第一RGB图像314中的相应位置。在一些实现中，深度箱可以各自具有相同厚度；例如，每个深度箱可以具有10cm的厚度和相应的范围。在一些实现中，深度箱可以具有不同的厚度；例如，深度箱可以随着与深度相机的距离的增加而增加厚度。这反映了随着距离的增加，对距离变化的敏感度降低。在使用此类深度箱的实现中，对于深度相机315的每个深度箱，可以为RGB相机310中的每一个生成转换矩阵。例如，在具有将深度估计量化为10个深度箱之一的四个RGB相机310的假设视频捕捉系统300中，每个深度箱将有四个转换矩阵(每个转换矩阵针对四个RGB相机310中的相应的一个)，每个深度相机315总共有40个转换矩阵。通过使用这些深度箱及其各自的预先计算的转换矩阵，将深度估计转换为RGB图像314中的像素位置所涉及的计算量将大大减少，而不会显著降低由前景分割器340进行的图像分割的转换精度。此过程减少了能耗和执行实时图像分割所需的计算资源量。

深度图像和/或RGB图像前景/背景分割的各种技术在于2015年10月29日公布的题为“Depth Image Processing(深度图像处理)”的美国专利申请No.2015/0310256；于2015年9月3日公的布题为“Depth Sensing Using an RGB Camera(使用RGB相机的深度传感)”的美国专利申请No.2015/0248765；于2014年5月8日公布的题为“Foreground andBackground Image Segmentation(前景和背景图像分割)”的美国专利申请No.2014/0126821；于2013年8月15日公布的题为“Up-Sampling Binary Images for Segmentation(二值图像的上采样分割)”的美国专利申请No.2013/0208983；于2013年5月23日公布的题为“Environment and/or Target Segmentation(环境和/或目标分割)”的美国专利申请No.2013/0129227；于2013年5月23日公布的题为“Motion Detection Using Depth Images(使用深度图像的运动检测)”的美国专利申请No.2013/0129155；于2013年3月7日公布的题为“Method and System to Segment Depth Images and to Detect Shapes in Three-Dimensionally Acquired Data(三维数据中深度图像分割与形状检测的方法与系统)”的美国专利申请No.2013/0057654中被描述。

视频捕捉系统300包括前景图像生成器345，该前景图像生成器345被配置成从由前景分割器340标识的RGB图像314的前景部分生成前景图像。所生成的前景图像随后与背景图像合成，以生成与RGB图像相对应的帧图像362(当由图像合成器360生成时也可被称为“合成图像362”)。前景部分的总高度是RGB图像的总高度的第一百分比(小于或等于100％)。前景图像生成器345被配置成调整RGB图像的前景部分的大小(例如，通过将前景部分按比例缩放至较少数量的像素)以生成前景图像，使得经生成的前景图像的总高度和/或合成图像362中前景图像的总高度是合成图像362的总高度的第二百分比，其中第二百分比显著小于第一百分比。同样地，由所生成的前景图像占据的合成图像462的总面积的第三百分比显著小于由前景部分占据的RGB图像的总面积的第四百分比。

在一些实现中，在确定前景主体的注视方向不取向成朝向前景相机的情况下，前景图像中的眼睛可被重新绘制以描绘成朝向前景相机的视线。是否执行此类重新绘制取决于前景主体的面部和/或头部的检测取向。例如，如果前景主体的面部被取向成距离前景相机太远，则眼睛不会被重新绘制以避免显示不自然的注视。用于取向估计的技术在于2015年12月3日公布的题为“Object Orientation Estimation(对象取向估计)”的美国专利申请No.2015/0348269中被描述。

视频捕捉系统300包括背景相机选择器350，该背景相机选择器350被配置成选择多个RGB相机310中的一个或多个作为背景相机，将从其中获取RGB图像314以生成背景图像。结果，背景相机选择器350为每个前景主体选择原始或源RGB图像314。在前景主体定位器330确定当前不存在前景主体的情况下，背景相机选择器350可以简单地选择默认背景相机(例如，居中的RGB相机310)或者选择与前一帧相同的背景相机。

当一个或多个前景主体已经被前景主体定位器330标识出时，对背景相机的选择可以至少基于前景主体定位器330为前景主体确定的位置。例如，背景相机选择器350可以使用所确定的前景主体的位置和/或横向范围来确定该前景主体不遮挡所选择的背景相机，或者，至少前景主体不遮挡所选择的背景相机捕捉用于生成合成图像362的背景302的感兴趣区域的至少一部分。在一些实现中，对背景相机的选择可以基于由前景图像生成器345生成的前景图像将位于合成图像362中的多个区域中的至少一个。例如，如果前景图像将覆盖在第一RGB相机310的当前视图中被遮挡的背景302的一部分，则第一RGB相机310仍然可以被选择为背景相机。在一些实现中，背景相机选择器350可以基于由前景分割器340执行的至少一个或多个前景分割来选择背景相机，该前景分割器340指示RGB图像314的哪些部分实际上被遮挡。在一些实现中，背景相机选择器350可以至少基于在RGB图像314中的一个或多个中检测到的一个或多个面部是否将可见来选择背景相机。用于面部检测的技术在于2014年5月15日公布的题为“Real-Time Face Detection Using Pixel Pairs(使用像素对的实时面部检测)”的美国专利申请No.2014/0133758中被讨论。在可以独立地使用多个RGB相机310来捕捉感兴趣的背景302的整个区域的情况下，对背景相机的选择可以至少基于为前一帧选择的背景相机或者该多个RGB相机310中的哪一个被更中心地定位。在一些实现中，语义标记/分割可以被用于标识感兴趣的背景对象，该感兴趣的背景对象被优先示为布置在背景图像中以用于生成合成图像。

在一些情况下，RGB相机310中的每一个都无法独立地捕捉感兴趣的背景302的整个区域。在此类情况下，背景相机选择器350可以选择多个背景相机，使得由所选择的背景相机捕捉的当前RGB图像314整体上包括感兴趣的背景302的全部或大部分区域的图像数据。然后，可以将该图像数据缝合在一起以生成合成图像362的背景图像。注意，在一些实现中，可以诸如通过因子的加权组合来组合上述用于选择背景相机的两个或多个因素，以选择一个或多个背景相机。用于缝合在一起的技术在于2015年5月14日公布的题为“Creationof Rectangular Images from Input Images(从输入图像创建矩形图像)”的美国专利申请No.2015/0131924和在于2013年5月23日公布的题为“Environment and/or TargetSegmentation(环境和/或目标分割)”的美国专利申请No.2013/0129227中被讨论。

视频捕捉系统300包括背景图像生成器355，其被配置成接收与由背景相机选择器350选择的背景相机相对应的一个或多个当前RGB图像314，并从接收到的当前RGB图像314生成背景图像。在已经选择了多个背景相机的情况下，各个当前RGB图像314的所选部分(诸如通过全景缝合)来组合以生成背景图像。在一些实现中，如果在对应于背景相机的一个或多个当前RGB图像314中没有捕捉背景302的区域的一部分，则可以从图像存储320检索来自一个或多个先前捕捉的RGB图像的对应RGB图像数据。在一些示例中，诸如当前的RGB图像314或上述组合图像之类的RGB图像数据可以被裁剪和/或调整大小以生成目标尺寸的背景图像。

在一些实现中，背景图像生成器355可以选择性地不使用当前的RGB图像314来生成当前帧的背景图像。在一些示例中，用户可以指定静态图像用作背景图像，并且响应于用户指令，背景图像生成器355将选择性地使用指定的静态图像或其一部分作为经生成的背景图像。类似地，用户可以指定视频作为背景图像的源，并且响应于用户指令，背景图像生成器355将选择性地使用来自指定视频的帧来生成背景图像。在一些示例中，响应于用户指令“冻结”背景图像，背景图像生成器355将选择性地重用针对前一帧生成的背景图像，直到“解冻”的用户指令被接收到。在一些示例中，背景图像生成器355可以响应于用户指令，在显示从当前RGB图像314生成的背景302的图像和应用程序界面的图像(诸如但不限于电子白板、幻灯片演示程序、文件查看器、电子表格程序、文字处理程序、web浏览器和/或CAD(计算机辅助绘图)程序)之间选择性地切换。

视频捕捉系统300包括图像合成器360，其被配置成为帧图像362生成合成图像，其中由前景图像生成器345生成的针对当前帧的一个或多个前景图像与背景图像(诸如从背景图像生成器355接收到的针对当前帧图像362的背景图像)的合成。每个前景图像的位置可以由图像合成器360自动确定。例如，由于前景主体的视图通常在前景图像的底部被截断，因为前景主体的较低部分在相应RGB相机310的FOV之外，所以前景图像可以自动地沿着合成图像362的底边被定位。在一些实现中，图像合成器360可以基于先前帧的一个或多个合成图像中相同前景主体的前景图像的至少一个位置来确定合成图像362中前景图像的横向位置。例如，随着时间的推移，从合成图像362添加和/或移除其他主体的前景图像时，第一前景主体的前景图像可以保持在一致的位置处。在一些实现中，用户可以指定前景图像出现在合成图像中的位置和/或其中的区域。

在一些实现中，沿着前景图像的边缘执行alpha混合(例如，在合成前对前景图像执行线性alpha混合，或作为合成的一部分)或模糊(例如，高斯模糊)，以减少由于过度包含的图像分割而在前景图像中包含的背景像素的影响。在一些示例中，如果前景图像的底部边缘未定位在合成图像362的底部边缘处，则与对前景图像的其他边缘执行的alpha混合相比，可以沿着前景的底部边缘执行更渐进的alpha混合。

注意，在前景主体定位器330未标识当前帧的任何前景主体的情况下，由背景图像生成器355为当前帧生成的背景图像可被用于帧图像362(如由图3中的背景图像生成器355和帧图像362之间的虚线箭头)。

在一些实现中，视频捕捉系统300包括图像/视频编码器365，其将帧图像362编码为视频流中一系列帧图像的一部分。在一些实现中，视频捕捉系统300包括视频会议模块370，该视频会议模块370被配置成经由网络390与一个或多个远程系统(诸如地理位置384处的远程显示系统380)建立和/或参与视频会议会话。网络390可以包括例如一个或多个有线或无线数据通信网络和/或互联网。视频会议模块370可以被实现为由视频捕捉系统300执行的应用程序。在一些实现中，视频捕捉系统300可以包括虚拟网络摄像头模块(图3中未例示)，该虚拟网络摄像头模块被配置成对于应用程序(包括例如视频会议模块370)表现为网络摄像头或其他视频相机。因此，经由虚拟网络摄像头模块，帧图像362(包括由图像合成器360生成的合成图像)可以被传统的视频会议应用程序使用。通过将由图像/视频编码器365编码的视频流传送到远程系统380以进行视频会议会话，视频捕捉系统300使帧图像362以及由视频捕捉系统300生成的其他此类帧图像成为在远程显示系统380中包括的显示单元385上向远程参与者382显示的信息。在一些示例中，视频捕捉系统300可以被配置成经由网络390与一个或多个外部服务375交互。例如，外部服务375可被用于在视频捕捉系统300和其他远程系统之间建立视频会议会话。

尽管图3例示了由视频捕捉系统300执行的各种操作，但是在不同的实现方式中，某些所述的操作是由其他系统执行的，诸如外部服务375和/或远程参与者系统380。在一些示例中，外部服务375可以包括以下各项中的全部或部分：图像存储320、深度图像分割器325、前景主体定位器330、前景相机选择器335、前景分割器340、前景图像生成器345、背景相机选择器350、背景图像生成器355、图像合成器360、图像/视频编码器365和/或视频会议模块370。在一些示例中，远程参与者系统380可以包括图像合成器360的全部或部分，并且被配置成接收单独的背景图像和前景图像以由远程参与者系统进行合成。在一些实现中，可以以比新的前景图像更低的帧速率来生成新的背景图像。例如，可以以30Hz的第一帧速率生成前景图像，而可以以第一帧速率一半的第二帧速率(15Hz)生成背景图像。这允许减少用于传送背景图像数据的带宽，并减少为生成和处理背景图像而执行的处理。

对于图4A-9D中的附图，显示屏105具有16：9的纵横比，其对角线尺寸约为213厘米。RGB相机110a、110b、110c和110d沿着基本平行于横轴230的线等距放置，其中RGB相机110a和110d的光轴之间的距离为约150厘米。显示屏105的横向中线(例如，图2中所例示的横向中线206)被水平放置在地板上方约137厘米处，并且RGB相机110的光轴位于显示屏105的垂直中心上方约23厘米处，将RGB相机110的光轴放置在离地板约160厘米处，把它们放置在站立的人类主体的眼睛水平处。通过将RGB相机110放置在眼睛水平高度处，主体的眼睛更可能与RGB相机110对准。深度相机115a的光轴从水平轴210向上1度和向左11度取向，并且深度相机115b的光轴从水平轴210向上1度和向右11度取向，从而为深度相机115提供增加的组合FOV。深度相机115a的光学中心在横向方向上距离深度相机215b的光学中心大约66厘米。深度相机115的光学中心位于RGB相机110的光轴下方约13厘米处。RGB相机110和深度相机115分别以16：9的纵横比和大约100度的水平FOV捕捉图像。这些尺寸和布置被描述以更充分地描述图4A-9D中的例示，并且不是本文描述的示例的必要特征。

图4A例示了示例场景400的俯视图，其中在经由图1和2中例示的视频捕捉系统100进行视频会议会话期间，图1所示的四名参与者132、134、136和138均坐在一张桌子125旁，并进一步例示了由视频捕捉系统100针对场景400捕捉的深度图像420a和420b。图4B例示了由视频捕捉系统100针对场景400捕捉的RGB图像430a、430b、430c和430c。深度图像420a和420b已经由相应深度相机115a和115b针对场景400捕捉。由于专利说明的限制，在图4A、5A、6A、7A、8A和9A中例示的深度图像仅用几个不同等级的阴影例示。例如，在区域422a和422b中看到的最暗的阴影级别对应于大约3.5米或更大的深度估计。例如，在区域424a和424b中看到的第二级别阴影对应于在大约2.1米至大约3.5米的范围内的深度估计。此范围内的深度估计例示了桌子125的一部分、参与者132和138的轮廓、参与者134和136的一部分、场景400会议室左右两侧的墙壁和会议室的天花板。第一和第二深度图像420a和420b中的深度估计均不小于该范围的约2米。RGB图像430a、430b、430c和430d已经由相应的RGB相机110a、110b、110c和110d针对场景400捕捉。在每个RGB图像430a、430b、430c和430d中，桌子125，参与者132、134、136和138以及会议室的各种特征是可见的。

对于图4A和4B中的场景400，深度图像分割器325没有标识出深度图像420a和420b的任何前景部分，并且前景主体定位器330没有标识出前景主体。基于没有标识出前景主体并且RGB相机110c具有中心位置，背景相机选择器350将RGB相机110c选择作为背景相机。从RGB图像430c为场景400生成帧图像，而无需合成前景图像。

图5A例示了在针对图4A和4B描述的视频会议会话期间的示例场景500的俯视图，其中站立参与者132已经朝向视频捕捉系统100前进，并且进一步例示由视频捕捉系统100针对场景500捕捉的深度图像520a和520b。图5B例示了由视频捕捉系统100针对场景500捕捉的RGB图像530a、530b、530c和530c。深度图像520a和520b已经由相应深度相机115a和115b针对场景500捕捉。深度图像520a与深度图像420a基本不变。在深度图像520b中，在深度图像520b的区域522中例示了对于参与者132在大约2米至大约2.6米的范围内的深度估计。RGB图像530a、530b、530c和530d已经由相应RGB相机110a、110b、110c和110d针对场景500捕捉，并反映了参与者132的新位置。

图5A例示了用于视频捕捉系统100的示例阈值距离510和示例前景空间515的范围，深度图像分割器325和/或前景主体定位器330可以使用其中之一。在场景500中，尽管参与者132已经朝向视频捕捉系统100靠近，但是在深度图像520b的区域522中，与参与者132相对应的深度估计大于阈值距离510，并且参与者132保持在前景空间515之外。图5A中例示的阈值距离510和前景空间515的形状、位置和距离通常是为了讨论而例示的，并且可能在各种实现中是不同的。在一些实现中，阈值距离510和/或前景空间515的形状和位置可以由用户定义和/或调整；例如，在设置过程期间。

对于图5A和5B中的场景500，深度图像分割器325没有标识出深度图像520a和520b的任何前景部分，并且前景主体定位器330没有标识出前景主体。基于没有标识出前景主体并且RGB相机110c具有中心位置和/或先前RGB相机110c已经被选择作为背景相机，背景相机选择器350再次将RGB相机110c选择作为背景相机。与场景400一样，从RGB图像530c为场景500生成帧图像，而无需合成前景图像。

图6A例示了在针对图4A-5B描述的视频会议会话期间的示例场景600的俯视图，其中站立参与者132进一步朝向视频捕捉系统100前进，并且进一步例示由视频捕捉系统100针对场景600捕捉的深度图像620a和620b。图6B例示了由视频捕捉系统100针对场景600捕捉的RGB图像630a、630b、630c和630c。深度图像620a和620b已经由相应深度相机115a和115b针对场景600捕捉。深度图像620a与深度图像520a基本不变。在深度图像620b中，存在具有深度估计的部分622，该部分622与深度图像620b的周围区域(诸如区域624和626)之间的边缘基本上不连续。RGB图像630a、630b、630c和630d已经由相应RGB相机110a、110b、110c和110d针对场景600捕捉，并反映了参与者132的新位置。

在场景600中，参与者132已经完全进入了阈值距离510和前景空间515之内。基于上文提及的部分622与深度图像620b的周围区域之间的不连续性，深度图像分割器325将部分622标识为深度图像620b的前景部分622。在一些示例中，深度图像分割器325可以进一步确定所标识的前景部分622的距离和/或位置。基于例如所确定的距离小于阈值距离510和/或所确定的位置在前景空间515内，前景主体定位器330标识与参与者132相对应的前景主体。在图5A-9D中，参与者132也可以被称为“前景主体132”或“前景人类主体132”。作为确定存在前景主体132的结果，将为场景600生成合成帧图像。

图6C例示了其中背景图像645和前景图像670被生成并用于生成图6A和6B所例示的场景600的合成图像690的示例。对于前景主体132，前景相机选择器335选择RGB相机110d作为前景相机。尽管如在RGB图像630c和630d中可以看到的，前景主体132在横向方向上完全位于RGB相机110c和110d两者的FOV内，前景相机选择器335可以基于例如前景主体132的注视更被取向成更朝向RGB相机110d和/或前景主体132更接近RGB相机110d的FOV的中心，并且相应地在RGB图像630d中的失真小于在RGB图像630c中的失真来选择RGB相机110d。由所选择的前景相机捕捉的RGB图像630d由前景分割器340接收，对于前景主体132，前景分割器340分割RGB图像630d以标识RGB图像630d的前景部分660(例如，通过区分包括在前景部分660中的像素和背景像素665)。分割可以基于与深度图像620b的前景部分622中包括的深度估计相对应的对RGB图像630d中的像素的标识来执行。前景图像生成器345通过将前景部分660从总高度662调整大小(例如，使用比例缩放)为减小的总高度672来生成前景主体132的前景图像670。

背景相机选择器选择RGB相机110a作为场景600的唯一背景相机。例如，可以至少基于先前已经被选择成背景相机的RGB相机110a来选择RGB相机110a。因此，背景图像生成器355使用由所选择的背景相机捕捉的RGB图像110a来生成场景600的背景图像645。在此特定示例中，背景图像生成器335标识原始RGB图像630a的子部分640(具有高度642)，并将该子部分640缩放到目标高度647以用作背景图像645。对原始RGB图像的子部分的此类使用可被执行以增大感兴趣的背景区域(例如，包括桌子125的区域或包括就座参与者134、136和138的面部的区域)的大小，并且由于RGB相机110a是广角相机，所以感兴趣的背景区域的大小可能小于期望值。对原始RGB图像的子部分的此类使用可被执行以定位背景图像元素(例如，检测到的面部)使得它们在一个或多个前景图像和背景图像合成在一起之后保持可见。

对于场景600，图像合成器360从前景图像670和背景图像645生成合成帧图像690。在图6C中，前景部分660的总高度662是RGB图像630d的总高度632的第一百分比(大约74％)。合成图像690中的前景图像670的总高度672是合成图像692的总高度692的第二百分比(大约60％)，其显著小于第一百分比。在此特定示例中，与针对图1中的合成图像145的描述非常相似，合成图像690中前景图像670的横向位置不对应于场景600中前景主体132的实际物理布置。

图7A例示了在针对图4A-6C描述的视频会议会话期间的示例场景700的俯视图，其中站立参与者132非常邻近视频捕捉系统100，并且进一步例示由视频捕捉系统100针对场景700捕捉的深度图像720a和720b。图7B例示了由视频捕捉系统100针对场景700捕捉的RGB图像730a、730b、730c和730c。深度图像720a和720b已经由相应深度相机115a和115b针对场景700捕捉。深度图像720a与深度图像620a基本不变。在深度图像720b中，存在具有深度估计的部分722(包括子部分724和726)，该部分722与深度图像720b的周围区域之间的边缘基本上不连续，如图6A中针对深度图像620b所讨论的。RGB图像730a、730b、730c和730d已经由相应RGB相机110a、110b、110c和110d针对场景700捕捉，并反映了参与者132在场景700中的新位置。

图7C例示了用于为图7A和7B中例示的场景700生成合成图像的各种办法。尽管可以为场景700生成合成图像(如上面针对图6A-6C中的场景600所描述的那样)，但得到的合成图像可能沿着合成图像740a的线(其中前景图像可能从左侧突然变为右侧、背景图像实质性地改变以适应被向右移动的前景图像、前景图像中的手臂750a不成比例、并且前景主体不朝向前景相机)或合成图像740b的线(其中背景中的感兴趣区域的大小已减小以容纳更宽的前景图像，并且前景图像中的手臂750b明显不成比例)。提供改进结果的解决方案包括但不限于，如合成图像760a中例示的移除不成比例的前景图像部分(其中手臂750b被移除)，并且如合成图像760b中例示的重新定位前景图像以裁剪前景图像不成比例的部分。在一些实现中，响应于基于触摸的用户输入的交互式用户界面元素被呈现在显示屏105的可能减少具有此类不成比例的部分的图像的出现的部分中。例如，交互式用户界面元素可以被定位在显示屏105的右端或左端处或附近，该显示屏被配置成用作触摸屏以接收用户输入，使得经由手指或手持设备的输入更可能发生在远离RGB相机110的光轴的位置(例如包括RGB相机110的FOV之外的位置)处。在一些示例中，可以至少基于检测到的前景主体的位置来动态地定位和/或重新定位此类交互式用户界面元素。例如，响应于前景主体的相应横向移动，交互式用户界面元素可以从左端移动到右端。作为另一示例，动态定位和/或重新定位可以包括选择显示屏105的多个区域之一，其中基于触摸的输入发生在远离RGB相机110中的一个或多个的光轴位置处。。在一些示例中，可以针对前景主体确定可能被用于基于触摸的输入的手或肢体(例如，基于过去的用户输入事件来确定主导手)，以及根据确定哪只手被确定为主导来执行动态定位或重新定位。例如，为了避免左手侧的前景主体穿过前景相机的FOV，可以优选前景相机的左侧位置(如用户在观看显示屏时所看到的)。在一些示例中，用户界面可以被选择性地定位以使用户界面的显示区域比用户界面的输入部分更靠近RGB相机110的光轴，从而引导前景主体的视线朝向RGB相机110，同时还引导前景主体的输入交互远离RGB相机110。

图8A例示了在针对图4A-7C描述的视频会议会话期间的示例场景800的俯视图，其中站立参与者132通常邻近视频捕捉系统100，并且在视频捕捉系统100的前方横向移动。换言之，站立参与者132已经从视频捕捉系统100的左侧(从上面观看)移动到视频捕捉系统100的右侧。图8A进一步例示了由场景800的视频捕捉系统100捕捉的深度图像820a和820b。图8B例示了由视频捕捉系统100针对场景800捕捉的RGB图像830a、830b、830c和830c。深度图像820a和820b已经由相应深度相机115a和115b针对场景800捕捉。在深度图像820a中，存在具有深度估计的部分822，该部分822与深度图像720b的周围区域之间的边缘基本上不连续，如图6A中针对深度图像620b所讨论的。RGB图像730a、730b、730c和730d已经由相应RGB相机110a、110b、110c和110d针对场景700捕捉，并反映了参与者132在场景700中的新位置。对于场景800，使用RGB相机110a作为前景相机并且使用RGB相机110c作为背景相机来生成合成图像，这与先前描述的一样。从图7A-7C中的场景700到场景800，所选择的前景和背景相机已经根据站立参与者132的横向位置而改变，使得从场景700到场景800，RGB相机110中的每一个被选择并用作前景相机，并且RGB相机110中的每一个被选择并用作背景相机。这解说了根据一个或多个前景主体的移动，每个RGB相机110对于前景和背景RGB图像捕捉的有效性。

图9A例示了在针对图4A-8B描述的视频会议会话期间的示例场景900的俯视图，其中另一站立参与者134也站立并走进视频捕捉系统100的邻近区域，并且进一步例示由视频捕捉系统100针对场景900捕捉的深度图像920a和920b。图9B例示了由视频捕捉系统100针对场景900捕捉的RGB图像930a、930b、930c和930c。深度图像920a和920b已经由相应深度相机115a和115b针对场景900捕捉。深度图像920a与深度图像820a基本保持不变，除了深度图像920a除了与参与者132相对应的部分922之外，进一步包括与参与者134相对应的部分944。部分922和924两者都具有沿着部分922和924与深度图像920a的周围区域之间的边缘基本上不连续的深度估计。在深度图像920b中，存在具有深度估计的部分926，该部分926与深度图像920b的周围区域之间的边缘基本上不连续。RGB图像930a、930b、930c和930d已经由相应RGB相机110a、110b、110c和110d针对场景900捕捉，并反映了参与者134与视频捕捉系统100和深度相机115b的距离。

图9C例示了其中两个背景相机被选择，并且由所选择的背景相机捕捉的RGB图像的各部分被缝合以产生背景图像955的示例。在此示例中，RBG相机110中的两者已被选作背景相机，并且已经获取了由所选择的背景相机捕捉的RGB图像930a和930c。RGB图像930c的一部分940和RGB图像930a的一部分942被选择(例如，基于部分940和942未被遮挡)并且被缝合在一起成为缝合图像945。然后将具有高度952和背景图像955的期望纵横比的缝合图像的部分950缩放到高度957以生成背景图像955。

图9D例示了其中针对两个前景主体生成两个相应的前景图像980和984，并且从图9C中生成的两个前景图像980和984和背景图像955生成合成图像990的示例。RGB相机110a被选择作为参与者132的前景相机，并且RGB相机110c被选择作为参与者134的前景相机。相应的RGB图像930a和930c(具有各自的高度932a和932c)被检索，前景部分960和970(具有各自的高度962和972)如前所述被分割，并且前景图像980和984(具有各自的高度982和986)从前景部分960和970被生成。然后将两个前景图像980和984与来自图9C的背景图像955合成，以生成场景900的合成图像990。

图10例示了其中两个视频捕捉系统1020和1040彼此块相邻以提供更大的视频捕捉系统1010的示例。第一和第二视频捕捉系统1020和1040以横向取向定位并且水平地彼此相邻。两个视频捕捉系统1020和1040通信地耦合在一起，以作为单个较大的视频捕捉系统1010一起运行，该系统被配置成使用被布置在显示屏1025和1045后面的RGB相机1030a、1030b、1030c、1030d、1050a、1050b、1050c和1050d，以及深度相机1035a、1035b、1055a和1055b。各个视频捕捉系统1020和1040，以及较大的视频捕捉系统1010，可以包括本文针对视频捕捉系统所述的各种特征。多个系统的其他数量、取向和布置可被使用，诸如但不限于，相互垂直取向和水平取向的多个系统，以及系统数组(例如，一个2x2数组)。以纵向取向和水平取向相互定位的多个系统，以及系统阵列(例如，2x2阵列)。此类布置提供了更多的相机和更宽的FOV。附加地，可以在多个视频捕捉系统之间执行多处理。

图11例示了示出可以在其上实现本公开的各方面的示例计算机系统1100的框图。计算机系统1100包括用于传送信息的总线1102或其他通信机制，以及与总线1102耦合的用于处理信息的处理器1104。计算机系统1100还包括主存储器1106(诸如随机存取存储器(RAM)或其他动态存储设备)，其耦合到总线1102以用于存储将由处理器1104执行的信息和指令。主存储器1106还可以用于在执行由处理器1104执行的指令期间存储临时变量或其他中间信息。计算机系统1100可以实现例如视频捕捉系统100和300、远程显示系统160和380和/或外部服务375中的一个或多个或部分。

计算机系统1100可以进一步包括只读存储器(ROM)1108或耦合到总线1102的其他静态存储设备以用于存储用于处理器1104的静态信息和指令。诸如闪存或其他非易失性存储器之类的存储设备1110可以耦合至总线1102以用于存储信息和指令。

计算机系统1100可以经由总线1102耦合到显示器1112(诸如液晶显示器(LCD))以用于显示信息。一个或多个用户输入设备(诸如示例用户输入设备1114)可被耦合到总线1102，并且可被配置成用于接收各种用户输入(诸如用户命令选择)并将这些输入传递给处理器1104或主存储器1106。用户输入设备1114可以包括提供用户输入模式或选项的物理结构或虚拟实现或者两者，用于控制例如通过显示器1112或通过其他技术对用户可见的光标，并且此类模式或操作可以包括例如虚拟鼠标、轨迹球或光标方向键。

计算机系统1100可以包括以重叠或交错的方式执行相应程序指令的处理器1104的相应资源。指令可以从诸如存储设备1110的另一机器可读介质读入主存储器1106。在一些示例中，硬有线电路系统可被用于代替软件指令或与软件指令结合使用。如本文所使用的术语“机器可读介质”是指参与提供使机器以特定方式操作的数据的任何介质。此类介质可以采取包括但不限于非易失性介质、易失性介质和传输介质的形式。非易失性介质可以包括例如光盘或磁盘，诸如存储设备1110。传输介质可以包括光路、电或声信号传播路径，以及可以包括声波或光波(诸如在无线电波和红外数据通信期间生成的声波或光波)，其能够承载可由物理机制检测到的指令以输入到机器。

计算机系统1100还可以包括耦合到总线1102的通信接口1118以用于耦合到连接到本地网络1122的网络链路1120的双向数据通信。网络链路1120可以通过一个或多个网络向其他数据设备提供数据通信。例如，网络链路1120可以通过本地网络1122提供到主机1124或到由互联网服务提供商(ISP)1126操作的数据设备的连接以通过互联网1128访问服务器1130，例如，以获取应用程序的代码。

尽管各种实施例已经被描述，但是描述意图是示例性的而不是限制性的，并且应理解，在各实施例的范围内的更多的实施例和实现是可能的。尽管在附图中示出了特征的许多可能组合并且在此详细描述中进行了讨论，但是所公开特征的许多其他组合也是可能的。除非特别限制，否则任何实施例的任何特征可以与任何其他实施例中的任何其他特征或元素组合或可以替代任何其他实施例中的任何其他特征或元素。因此，将理解，本公开中示出和/或讨论的任何特征可以以任何适当的组合一起实现。因此，除了根据所附权利要求书及其等同物之外，不限制实施例。同样，可以在所附权利要求书的范围内进行各种修改和改变。

虽然前面已经描述了被认为是最佳模式和/或其他示例的内容，但是可以理解，其中可以进行各种修改，并且这里公开的主题可以以各种形式和示例来实现，并且教导可被应用于许多应用中，其中只有一些已经在此被描述。所附权利要求书旨在要求落入本教导真实范围内的任何和所有应用、修改和变化。

除非另有说明，否则本说明书(包括所附权利要求书)中列出的所有尺寸、数值、额定值、位置、大小、尺寸和其他规格均为近似值，并不精确。它们旨在具有与它们所涉及的功能以及它们所涉及的领域中的习惯相一致的合理范围。

保护范围仅受所附权利要求书的限制。当根据本说明书和随后的起诉历史进行解释时，该范围旨在并且应当解释为与权利要求中使用的语言的普通含义相一致，并且涵盖所有结构和功能上的等同物。尽管如此，所有权利要求均不打算包含不满足专利法第101、102或103节要求的主题，也这些主题不应以此类方式被解释。在此，否认任何对此类主题的非故意包含的行为。

除以上所述外，任何陈述或说明的意图或解释均不应导致任何组成部分、步骤、特征、对象、利益、优势或对公众的贡献，不管在权利要求书中是否记载。

将理解的是，本文中使用的术语和表达关于其相应的各自的调查和研究领域具有与此类术语和表达相一致的普通含义，除非本文另外阐述了特定含义。诸如第一和第二等的关系术语可以仅用于将一个实体或动作与另一实体或动作区分开，而不必要求或暗示这种实体或动作之间的任何实际的此类关系或顺序。术语“包含”、“包含”或其任何其他变体旨在覆盖非排他性包含，使得包括一系列元素的过程、方法、物品或装置不仅仅包括那些元素，还可以包括未明确列出的或此类过程、方法、物品或装置所固有的其他元素。在没有进一步限制的情况下，以“一”或“一个”开头的元素并不妨碍在包含该元素的过程、方法、物品或装置中存在其他相同元素。

本公开的摘要是为了允许读者快速确定本技术公开的性质而提供的。提交摘要的同时要明白，将不用它来解释或限制权利要求的范围或含义。另外，在前面的详细描述中，可以看到，出于将本公开连成一个整体的目的而将各种特征组合在一起放在各个实施例中。此公开方法将不被解释为反映权利要求所要求的特征多于在每项权利要求中明确陈述的特征的意图。相反，如下面的权利要求所反映的，本发明的主题在于少于单个所公开的示例的所有特征。从而，据此将所附权利要求结合进详细描述中，其中每个权利要求都独立地代表单独的要求保护的主题。

Claims

1.一种视频捕捉系统，包括：

多个相机，所述多个相机被配置成捕捉RGB图像；

前景相机选择器，所述前景相机选择器被配置成基于第一主体相对于所述多个相机的第一位置来选择所述多个相机中的一个作为第一前景相机；

前景分割器，所述前景分割器被配置成接收由所述第一前景相机捕捉的第一RGB图像，并标识所述第一RGB图像的第一前景部分，所述第一前景部分对应于所述第一主体，其中所述第一前景部分的总高度为所述第一RGB图像的总高度的第一百分比；

前景图像生成器，所述前景图像生成器被配置成根据所述第一RGB图像的所述第一前景部分生成第一前景图像；

图像合成器，所述图像合成器被配置成根据所述第一前景图像和第一背景图像生成第一合成图像的第一部分，其中所述第一合成图像中的所述第一前景图像的总高度是所述第一合成图像的总高度的第二百分比，并且所述第二百分比显著小于所述第一百分比；以及

图像编码器，所述图像编码器被配置成对所述第一合成图像进行编码以传输到远程系统。

2.如权利要求1所述的系统，其特征在于，进一步包括显示屏，其中所述多个相机中的每一个被定位成通过所述显示屏捕捉RGB图像。

3.如权利要求1所述的系统，其特征在于，进一步包括：

背景相机选择器，所述背景相机选择器被配置成选择所述多个相机中的一个作为第一背景相机，其中所述第一背景相机与所述第一前景相机不同；以及

背景图像生成器，所述背景图像生成器被配置成接收由所述第一背景相机捕捉的第二RGB图像，并至少基于所述第二RGB图像来生成所述第一背景图像。

4.如权利要求1的所述系统，其特征在于：

所述前景相机选择器进一步被配置成基于第二主体相对于所述多个相机的第二位置来选择所述多个相机中的一个作为第二前景相机；

所述前景分割器进一步被配置成接收由所述第二前景相机捕捉的第二RGB图像，并标识所述第二RGB图像的第二前景部分，所述第二前景部分对应于所述第二主体，其中所述第二前景部分的总高度为所述第二RGB图像的总高度的第三百分比；

所述前景图像生成器进一步被配置成根据所述第二RGB图像的所述第二前景部分生成第二前景图像；以及

所述图像合成器进一步被配置成根据所述第二前景图像和所述第一背景图像生成所述第一合成图像的第二部分，其中所述第一合成图像中的所述第二前景图像的总高度是所述第一合成图像的总高度的第四百分比，并且所述第四百分显著小于所述第三百分比。

5.如权利要求1所述的系统，其特征在于，进一步包括：

一个或多个深度相机，所述一个或多个深度相机被配置成捕捉由所述多个相机捕捉的场景的一部分的深度图像；以及

深度图像分割器，所述深度图像分割器被配置成接收与由所述第一前景相机捕捉到所述第一RGB图像的时间对应的第一深度图像，并至少基于所述第一深度图像中位于所述第一深度图像的所述第一部分边缘周围的不连续性来标识所述第一部分；以及

其中所述前景分割器进一步被配置成标识所述第一RGB图像中与所述深度图像的所述第一部分的深度估计对应的位置，并至少基于所标识的位置来标识所述第一RGB图像的所述第一前景部分。

6.一种方法，包括：

确定第一主体相对于多个相机的第一位置；

至少基于所确定的第一位置从所述多个相机中选择第一前景相机；

获取由所述第一前景相机捕捉的第一RGB图像；

分割所述第一RGB图像以标识所述第一RGB图像的第一前景部分，所述第一前景部分对应于所述第一主体，其中所述第一前景部分的总高度为所述第一RGB图像的总高度的第一百分比；

根据所述第一RGB图像的所述第一前景部分生成第一前景图像；

产生第一合成图像，包括合成所述第一前景图像和第一背景图像以产生所述第一合成图像的一部分，其中所述第一合成图像中的所述第一前景图像的总高度是所述第一合成图像的总高度的第二百分比，并且所述第二百分比显著小于所述第一百分比；以及

使得所述第一合成图像被显示在远程系统上。

7.如权利要求6所述的方法，其特征在于，所述多个相机中的每一个被定位成通过所述显示屏捕捉RGB图像。

8.如权利要求6所述的方法，其特征在于，进一步包括：

从所述多个相机中选择第一背景相机，其中所述第一背景相机与所述第一前景相机不同；

获取由所述第一背景相机捕捉的第二RGB图像；以及

根据所述第二RGB图像的至少一部分生成所述第一背景图像。

9.如权利要求6所述的方法，其特征在于，进一步包括：

确定第二主体相对于所述多个相机的第二位置；

至少基于所确定的第二位置从所述多个相机中选择第二前景相机；

获取由所述第二前景相机捕捉的第二RGB图像；

分割所述第二RGB图像以标识所述第二RGB图像的第二前景部分，所述第二前景部分对应于所述第二主体，其中所述第一前景部分的总高度为所述第二RGB图像的总高度的第三百分比；

根据所述第二RGB图像的所述第二前景部分生成第二前景图像；

其中所述产生所述第一合成图像进一步包括合成所述第二前景图像和所述第一背景图像以产生所述第一合成图像的一部分，其中所述第一合成图像中的所述第二前景图像的总高度是所述第一合成图像的总高度的第四百分比，并且所述第四百分比显著小于所述第三百分比。

10.如权利要求6所述的方法，其特征在于，进一步包括：

获取与由所述第一前景相机捕捉到所述第一RGB图像的时间对应的深度图像；

至少基于所述深度图像中位于所述深度图像的第一部分边缘周围的不连续性来标识所述第一部分；以及

标识所述第一RGB图像中与所述深度图像的所述第一部分的深度估计对应的位置；

其中所述分割所述第一RGB图像以标识所述第一前景部分至少基于所标识的位置。

11.如权利要求3的所述系统，其特征在于：

所述背景相机选择器被进一步配置成选择所述多个相机中的一个作为第二背景相机；以及

所述背景图像生成器进一步被配置成接收由所述第二背景相机捕捉的第三RGB图像，并通过将所述第二RGB图像的一部分和所述第三RGB图像的一部分缝合在一起来生成所述第一背景图像。

12.如权利要求3所述的系统，其特征在于，进一步包括显示屏，其中：

所述多个相机中的每一个被定位成通过所述显示屏捕捉RGB图像；以及

所述多个相机中的每一个在垂直于所述显示屏的横向中线的第一方向上与所述显示屏的横向中线相距大约第一距离。

13.如权利要求1所述的系统，其特征在于，所述前景图像生成器或所述图像合成器进一步被配置成将alpha渐变应用于所述第一前景图像的边缘部分。

14.如权利要求8所述的方法，其特征在于，进一步包括：

从所述多个相机中选择第二背景相机；

获取由所述第二背景相机捕捉的第三RGB图像；以及

通过将所述第二RGB图像的一部分与所述第三RGB图像的一部分缝合在一起以生成所述第一背景图像。

15.如权利要求8所述的方法，其特征在于，所述第一前景相机被定位在第一高度处，并且所述第一背景相机被定位在小于或大约等于所述第一高度的第二高度处。