CN105794202A - 用于视频和全息投影的深度键合成 - Google Patents

用于视频和全息投影的深度键合成 Download PDF

Info

Publication number
CN105794202A
CN105794202A CN201480050609.8A CN201480050609A CN105794202A CN 105794202 A CN105794202 A CN 105794202A CN 201480050609 A CN201480050609 A CN 201480050609A CN 105794202 A CN105794202 A CN 105794202A
Authority
CN
China
Prior art keywords
scope
certain depth
digital
image
visual image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480050609.8A
Other languages
English (en)
Other versions
CN105794202B (zh
Inventor
阿什利·克劳德
本杰明·康韦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VENTANA 3D LLC
Original Assignee
VENTANA 3D LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VENTANA 3D LLC filed Critical VENTANA 3D LLC
Publication of CN105794202A publication Critical patent/CN105794202A/zh
Application granted granted Critical
Publication of CN105794202B publication Critical patent/CN105794202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/2224Studio circuitry; Studio devices; Studio equipment related to virtual studio applications
    • H04N5/2226Determination of depth image, e.g. for foreground/background separation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • H04N5/275Generation of keying signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0092Image segmentation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Abstract

根据本文的实施例,深度键合成是利用基于深度的数学函数检测数字图像中的特定所需部分/对象的过程,以便于将这些特定部分/对象分隔用于进一步处理。在一个具体实施例中,从视频捕捉设备捕捉数字视觉图像,并且确定该数字视觉图像内的一个或多个对象,这些对象在视频捕捉设备的特定深度范围内。由此,可以将一个或多个对象从不在特定深度范围内的数字视觉图像的部分分离开来,并且处理该一个或多个被分离的对象以脱离数字视觉图像的、不在特定深度范围内的部分进行视觉显示。并且,在某些实施例中,数字图像的被检测的部分(被分离的部分)可以与另一图像层叠,例如用于电影制作,或者被用于全息投影。

Description

用于视频和全息投影的深度键合成
相关申请
本申请要求Crowder等人于2013年9月12日递交的美国临时专利申请No.61/876,950,以及于2014年5月23日递交的美国专利申请No.14/285,950、题为“DEPTHKEYCOMPOSITINGFORVIDEOANDHOLOGRAPHICPROJECTIONANDASSOCIATEDLIVESTREAMINGENTERTAINMENTSYSTEM(用于视频和全息投影的深度键合成以及相关的直播流送娱乐系统)”的优先权,其所有公开内容通过引用被合并于此。
技术领域
本公开通常涉及视频处理,并且更具体地,涉及例如用于直播流送(livestreaming)技术的基于键的合成。
背景技术
色度键控或色度键合成通常是根据颜色将两个电影图像层叠在一起的后期制作技术。例如,如在本领域熟知的,可以在“绿屏幕”(尽管可以使用任意颜色)前拍摄人或物体,并且通过软件来用其他背景图像替换绿色。然而,此类方法的一个问题是它需要单色背景,其中人或物体必须位于摄影机和单色之间以便于正常运作色度键控。另一问题是必须仔细地计划好环境,以使得人和物体上没有出现该单色(例如,绿色)的任何东西,例如,衬衫或领带,否则软件会错误地将该颜色检测成要替换的东西,导致背景图像的奇怪伪影出现在人或对象上。
不需要单色背景的类似技术可以根据通过骨架识别确定被跟踪的用户来移除背景对象。具体来说,这种技术利用各种图像处理技术来将单个人选择和跟踪为前景,并且从场景中移除其余背景。然而,显然该技术当前不允许将多个人设为前景,也不允许将任何非人类的对象看作是前景(或其一部分)。而且,该技术要求静止的背景(例如,被跟踪的人应该站在相对整洁的空间里,避免站在指向传感器的非常亮的光源或者非常黑暗的背景前面,并且避免持有大型反射物品)并且该人或物体不能离开画面。
发明内容
根据本文的实施例,深度键合成是利用基于深度的数学函数检测数字图像中的特定所需部分/对象的过程,以便于将这些特定部分/对象分隔用于进一步处理。在一个具体实施例中,从视频捕捉设备捕捉数字视觉图像,并且确定该数字视觉图像内的一个或多个对象,这些对象在视频捕捉设备的特定深度范围内。由此,可以将一个或多个对象从数字视觉图像的、不在特定深度范围内的部分分离开来,并且处理一个或多个被隔离的对象以脱离数字视觉图像的、不在特定深度范围内的部分进行视觉显示。
例如,在一个实施例中,数字图像的被检测的部分可以与另一图像层叠在一起,例如,用于电影制作。在另一实施例中,被检测的部分/对象可以被投影到创建全息显示的全息投影系统上(例如,与全黑背景层叠)。在另一实施例中,被检测的部分/对象可以被输入到将视频或具体地将全息投影流送(stream)至远程接收器的编码软件中。在又一实施例中,被流送的视频(或全息投影)可以伴有直播的流音乐和/或灯光控制,例如,用于在一个或多个远程场地联播音乐会或艺术家。其它具体的实施例、扩展或实现细节也在下文进行了描述。
附图说明
通过参考以下描述结合附图可以更好的理解本文的实施例,其中,相似的参考标号指示相同或功能类似的元素,其中:
图1示出计算设备的示例;
图2示出通信网络的示例;
图3A-3B示出基于深度的视频捕捉设备的示例;
图4A-4D示出基于深度的视频捕捉的示例;
图5示出增强的图像处理的示例;
图6示出已知的全息技术的示例;以及
图7示出用于深度键合成的示例性简化过程。
具体实施方式
本文的实施例通常可以由一个或多个计算设备(例如,个人计算机、膝上型电脑、服务器、专门配置的计算机、基于云的计算设备等)的集合来执行,这些计算设备可以经由各种本地和/或网络连接来互连。本文所述的各种动作可以与这些设备中的一个或多个特定地相关,然而本文对特定类型的设备的引用不意味着限制本文实施例的范围。
图1是可以用于本文所述的一个或多个实施例的示例性计算设备100的示意性框图。说明性设备可以包括通过系统总线180互连的至少一个网络接口110、一个或多个音频/视频(A/V)接口115、至少一个处理器120、存储器130、和用户接口组件170(例如,键盘、监视器、鼠标等)、以及电源190。其它组件可以被添加到本文的实施例中,并且本文所列举的组件只是说明性的。
(一个或多个)网络接口110包含用于在耦合至计算机网络的链路上传输数据的机械、电气和信令电路。A/V接口115包含用于向/自一个或多个A/V设备(例如,摄影机、共鸣板、照明板、显示投影仪等)传输数据的机械、电气、信令电路。存储器130包括由处理器120寻址的、用于存储与本文所述的实施例相关联的软件程序和数据结构的多个存储位置。处理器120可以包括适用于执行软件程序和操作数据结构139的硬件元件和硬件逻辑。通常部分驻留于存储器130中并且由处理器执行的操作系统132通过调用支持在机器上执行的软件处理和/或服务的操作来功能性地组织机器。这些软件处理和/或服务可以包括说明性的深度键合成处理134、实时流送处理136和(一个或多个)A/V处理过程138。
其它处理器和存储器(包括各种计算机可读介质)可以被用于存储和执行关于本文所述的技术的程序指令对本领域的技术人员而言是显而易见的。而且,虽然描述示出了各种处理,但明确考虑到了各种处理可以被体现为被配置为根据本文的技术(例如,根据类似处理的功能性)进行操作的模块。此外,虽然处理被分别示出,但是本领域的技术人员应该理解处理可以是其它处理的例程或模块。
说明性地,本文所述技术的某些方面可以由硬件、软件和/或固件执行,例如,根据本文所述的各种处理和组件,它们可以包含由处理器120和/或相关的硬件组件执行的计算机可执行指令以执行与本文所述的技术相关的功能。
图2示出示例性简化通信网络,在下文对该通信网络的各种组件进行更具体地描述。具体来说,网络200包括一个或多个源A/V组件210、一个或多个“播放”计算设备220(例如,本地计算设备100)、通信网络230(例如,公共互联网或其它通信介质,例如,专用网络)、一个或多个“卫星”计算设备240(例如,远程计算设备100)、以及一个或多个远程A/V组件250。
深度键合成
如上文提到的,色度键控或色度键合成通常是基于颜色将两个电影图像层叠在一起的后期制作技术。然而,色度键合成具有各种限制,例如,需要单色背景或在一些情况下需要静态背景(没有新的对象或光照可以被引进画面中)以及仔细计划的服装或目标着色以避免不需要的图像伪影(artifacts)。其它限制包括昂贵和耗时的后期制作工作以及没有针对变化着的环境进行实时调整的能力。其它技术(例如,基于通过骨架识别来确定被跟踪的用户的那些技术)也有不足,例如,不能够处理多个人、非人类对象、杂乱空间、非常黑暗的背景或非常亮的光源、离开或进入画面的人等。
因此本文的技术解决了如何能够在任意环境中拍摄人或物体的问题,同时不论使用什么背景都允许将人或物体从它周围的环境实时分离,并且同时允许他们离开或者重新进入画面。具体来说,本文的技术基于深度从视频场景中可视地捕捉人和/或物体,并且将场景中被捕捉的部分从背景实时分离。
为了以这种方式完成基于深度的键控,本文所用的视频捕捉设备可以包括能够检测对象距离的摄影机。一种市售的此类示例性摄影机是可以从MICROSOFT得到的KINECT摄影机。说明性地,如图3A所示,基于深度的视频捕捉设备300可以包括两个主要的组件,也就是视频摄影机310和深度捕捉组件320。例如,视频摄影机310可以包括“红、绿、蓝”(RGB)摄影机(也被称为彩色视频图像阵列(VGA)摄影机),并且可以是任意适合的速率(例如,30或60帧每秒(fps))以及任意适合的分辨率(例如,640x480或更大,诸如“高清晰度”分辨率,例如,1080p、4K等)。
深度捕捉组件320可以包括两个独立的透镜,如图3B所示,例如,将捕捉空间浸浴(bathe)在红外(IR)光中的IR发射器322,以及从IR发射器接收被捕捉空间内的对象反射的IR光的IR摄影机324。例如,被检测到的IR光越亮,对象离摄影机就越近。IR摄影机的一个具体示例是单色CMOS(互补金属氧化物半导体)传感器。显然,IR摄影机324(或普遍地,深度捕捉组件320)可以(尽管不需要)具有与视频摄影机310相同的帧速率和分辨率(例如,30fps和640x480分辨率)。还需要注意的是虽然视频摄影机310和深度捕捉组件320被示作是集成设备,但这两个组件可以被分开放置(包括分开放置说明性IR发射器322和IR摄影机324),只要有足够的校准来基于分开放置的组件之间的深度协作确定视频图像的部分。
基于从摄影机300(例如,源A/V组件210)将图像输入至播放计算设备220,相应的深度键合成处理134使能够利用捕捉的深度信息(例如,IR信息)(例如,经由用户接口170手动地或者由处理本身自动地)设置/定义所需的深度范围。例如,图4A示出可以由视频摄影机310捕捉的示例性源图像410。相反地,图4B示出可以由深度捕捉组件320捕捉的示例性基于深度的图像420,例如,由IR摄影机324基于来自IR发射器322的反射IR光而捕捉的IR图像。具体来说,图4B中的图像420可以被(手动地或自动地)限制为例如基于对象的IR反射亮度只示出所需深度范围的给定对象(人、物体等)。
根据本文的一个或多个实施例,所选用来生成图4B的图像420的深度范围可以被即时调整(例如,由技术员手动调整或基于对象检测技术动态调整),以便于控制可以由摄影机“看到”的东西。例如,因此本文的技术使能在直播事件中进行对象跟踪,例如,各个表演者绕着舞台移动。例如,如图4C所示,示出了示例场景的鸟瞰图,其中所需的深度范围430可以通过“近”深度阈值434设置和“远”深度阈值432来设置。作为示例,可以提示用户按键盘上的‘-’和‘+’键来分别减小或增大近阈值,以及按‘<’或‘>’键来相应地分别减小或增大远阈值。其它技术(以及特定的用户输入/键)可以被使用,例如,分别定义中心深度(距摄影机的距离)并且然后定义在中心深度周围捕捉的距离的深度,或者分别定义近深度阈值或远深度阈值,然后定义更远或更近深度(相对于近或远深度阈值而言)。这还可以与其它身体跟踪算法相结合(例如,如下文所述)。
然后通过将来自图4A的视频图像410叠加图4B中的图像420的深度信息(例如,IR摄影机信息),本文的技术“裁掉”不在所需深度范围内的任何东西,从而允许摄影机“看见”(显示)在设置范围内的任何东西,如图4D的合成图像440所示。通过这种方式,背景图像可以被移除,将所需人/物体从视频摄影机310捕捉的视觉图像的其余部分分离。(需要注意的是前景图像也可以由此被移除,例如,用于与本文具体提到的那些视觉效果不同的各种视觉效果)。
通过保持一致的深度范围430,移动物体或人可以进入或离开深度范围,从而出现在或消失于视图中。然而,同时如上文提到的,通过允许动态和实时调整深度范围,可以随着移动物体或人的移动对其进行“跟踪”,以便相应地保持在深度范围内。
在上文提到的一个实施例中,显然当人在摄影机的视野内四处移动时,身体跟踪算法(例如,骨架跟踪算法)可以被用于跟踪人的深度。例如,在一个实施例中,(一旦被聚焦在所需深度范围内的特定个体上)被骨架跟踪的(一个或多个)个体的透视(相对尺寸)可能导致对深度范围的相应改变:例如,尺寸减小暗示远离摄影机的移动,从而相应增大聚焦深度,而尺寸增大暗示朝向摄影机的移动,从而相应地减小聚焦深度。还可以使用其它骨架技术,例如,简单增大或减小深度(例如,朝向或远离摄影机扫描聚焦深度)或通过增大深度范围的总体尺寸(例如,以放宽深度范围的方式移动近深度阈值或远深度阈值中的一个或两个)。
在可替换实施例中,如果能够进行身体跟踪,那么设定的深度范围可以保持不变,但离开深度范围的人的身体仍然可以被跟踪并且从深度范围外的其余场景分离。例如,身体跟踪算法可以被用于确保人保持“被捕捉”,即使他们走出指定的深度范围之外,这允许将某些对象留在深度范围中用于捕捉而人具有移动出深度范围的自由并且仍然被捕捉。例如,图4C中假设在指定的深度范围430中存在对象例如椅子。如果人走出深度范围430,而在该实施例中能够进行身体跟踪,那么不论他或她在被捕捉的图像空间内移动到哪里,椅子都将停留在场景的被分离的部分,人的身体也一样。相反地,在上文身体跟踪调整深度范围的实施例中,只有在人移动至与椅子相对应的深度时,椅子才可以进入被动态调整的深度范围430的“视野”并且变成被隔离的图像的一部分。
因此,通过启用任一类型的身体跟踪,操作者将不需要手动调整最小/最大深度以将表演者保持在场景内。例如,一旦深度范围被设置,如果身体跟踪被启用并且人移出了深度范围,那么他们仍然可以被跟踪并且被包含在被剪切的镜头内,无论是通过动态调整深度范围还是通过在整个捕捉场景内明确跟随人的身体。(需要注意的是手动的深度调整或“滑动器”设置近阈值或远阈值可以有效保持在场景中包含非人对象。)
根据本文所描述的一个或多个额外实施例,其它过滤特征还可以调整合成影像440的区域,例如通过管理高斯函数、“圆盘模糊”效果、或其其它技术来平滑或锐化与视频图像410分离的区域的边缘。还可能使用其它先进的技术,例如,骨架跟踪算法,它使得能够获得所需深度范围内的个体的更接近的剪切和更好的图像。通过添加柔化和模糊剪切图像的边缘能力,深度分离的图像被显示(或叠加)显示为具有看上去光滑/真实的边缘。
通过本文的技术还可以使另外的图像处理特征可用,以便提供更好的功能。例如,在一个实施例中,视频摄影机310和IR摄影机324(例如,以及可选的IR发射器322或者完整的深度捕捉组件320)可以在拍摄站立的人时被垂直旋转以获得更好的分辨率(例如,以便以垂直延伸的方式调整摄影机的纵横比),例如,当不需要在站立的人的任一侧的对象时。因此,在该实施例中,最终剪切的图像可以被旋转(例如,90度),所以当人/物体被投影/叠加在其最终显示应用中时是在正确的方位(例如,如下所述)。此外,在另一实施例中,剪切的图像可以被(例如,水平和/或垂直地)翻转以正确地显示(例如,当拍摄吉他弹奏者时,所显示的图像可能需要被翻转以显示吉他演奏者正在正确的手上演奏吉他,这取决于显示的方法,例如,投影、反射、数字处理等)。另外,在一个实施例中,剪裁的图像可以被重新调整尺寸(例如,更大或更小、更宽或更瘦、更高或更低)以使人/物体在被显示时具有实际的尺寸。此外,在又一实施例中,后期处理技术可以被用于在剪切的图像周围添加场景,例如,使最终结果是“全屏”图像(例如,剪切的人站在生成的或单独拍摄的背景场景中等等)。例如,在一个具体示例中,“地面”可以被输入在人/对象的下面并且阴影可以被添加在地面上以创造更真实的视觉效果(特别是对于全息图像),如图5所示。
应用
上文的深度键合成技术可以被应用于各种环境,无论是用于电影制作、直播流送、联播或预先录制的应用。例如,本文的技术可以被用于替代当前在电影制作中所使用的现有色度键合成技术。电影中的背景移除对创造某些特定的效果来说是有必要的,其中真实的个体或物体需要被插入到不同的或数字创建的场景中。另一应用是全息显示,迄今为止,全息显示被限制于需要在具有纯全黑背景摄影棚中拍摄个体/对象,或者在单色背景下并且经过后期编辑(例如,色度键控)。然而,本文的深度色度键控允许个体/物体在具有任意背景的任何地方被拍摄,还提供了获取所需的分离个体/物体的图像/视频的能力。对电影而言,个体/物体可以因此通过后期制作处理被插入场景或直播预制的背景层中。另一方面,全息图可以在不进行后期编辑的情况下被创建,这使得能够实时创建全息图,被实时创建的全息图然后可以被直播流送至多个位置。
例如,再次参考图2,播放场地可以包括源A/V组件210,例如,表演艺术家正在亲自表演的地方(例如,唱片骑师(DJ)放唱片的地方)。然后本文的技术可以被用于从该播放位置向远程A/V组件250所位于的卫星场地流送(中继、发送、重播等)音频和视频。例如,在播放位置的DJ可以将相关的音频、视频、甚至相应的电子效果(光、烟火等)直接流送至具有同样高音质的卫星场地的A/V系统,就如同音乐人/艺术家正在当面表演/演唱。
通过将表演者的视频图像流送成视频流并且将其投影到全息投影系统上,真实的音乐会或夜总会体验可以传遍全球以用于直播娱乐体验。例如,全息地将音乐会直播流送至世界各地的卫星地点同时保持现场音乐会的体验帮助艺术家得到新的市场和新的收益来源,同时还为全世界的更多粉丝带来现场场景。卫星场地可以被配置为拥有与实际表演相同的音乐会感觉:强烈的灯光效果、优越的声音品质、酒吧、商品等。唯一的不同是表演者不是物理地存在,而是来自播放场地的全息投影。音乐是从播放场地的共鸣板被直接流送并且被发送至卫星场地处的最先进的系统。利用高级的LED屏幕和激光,灯光秀可以与表演一起发生。
例如,一旦通过上文的技术获得所需图像,那么所需图像可以被输入至允许直播流送视频的编码软件,同时伴随的音频可以被分别引入计算机和程序。在一个实施例中,视频/音频可以被直接传输至远程/卫星计算机,或者可以被首先上传至安全网页,然后从(一个或多个)远程地点下载,例如通过在卫星场地的安全计算机打开该网页。
通过引用的方式,图6示出可以结合本文的一个或多个直播流送实施例使用的全息投影系统600的示例。例如,此类系统600可以模仿众所周知的“佩珀尔幻像”,例如,Maass于1999年2月2日发布的、题为“在舞台背景中显示移动图像的设备”(DeviceforDisplayingMovingImagesintheBackgroundofaStage)的美国专利No.5,865,519中所述的,或者其它适合的全息投影技术。具体来说,被流送的(或录制的、生成的)艺术家(或其它对象)的图像可以被投影到反射面上,以便使它出现在成角度的屏幕上,并且观众看到的是艺术家或物体而非屏幕(例如,在大约45度处)。(需要注意的是佩珀尔幻像是19世纪末的舞台技巧,其在舞台下方使用现场人物而不是人物的投影图像)。如果屏幕是透明的,则这允许其它对象(例如,其它现场艺术家)站在屏幕的背景中,并且从观众角度看好像是站在全息投影的旁边。需要注意的是本文可以用任何二维的全息图像技术,而图6的图示仅仅是一个示例性实施例。还可以使用三维全息图像,但是要求多个摄影机角度、多个相应的深度范围、以及更大的数据处理。
通过与具有卓越的灯光和音响系统的全世界顶级的演出场所合作,对(直播或预录制的)播放场地的视听方面的,特别是以全息形式的直播流送,在全球各地重新创造了真实的音乐会体验。显然,一些表演可以在随后的时间被保存和流送,例如,当音乐会是在对当前卫星城市不便的时区表演时,其被延时流送或播放(也就是说,被保存和发送为文件,而不经过流送)。
除了音乐会和夜总会,本文的技术还可以被用于零售空间、电影特效、贸易展、电影院大堂、会议、演讲、零售窗口展示、个人形象等。显然,本文的技术将允许顾客的图像被插入全息显示中。例如,在商场的顾客可以站在摄影机前并且他们的全息图可以出现在站在名人旁边的全息广告显示屏中。
通过一般参考上文所述的技术,图7根据一个或多个本文所述的实施例示出用于深度键合成的示例性简化过程。过程700可以在步骤705处开始,并且继续至步骤710,在步骤710处,如上文更详细的描述,从视频捕捉设备捕捉数字视觉图像。说明性地,在一个实施例中,在步骤715处,用来自位于视频捕捉设备处的(例如,与视频捕捉设备集成的)光源的红外(IR)光浸浴被捕捉的数字视觉图像的捕捉空间,并且在步骤720中,确定捕捉空间内的对象反射的IR光的亮度,以便于在步骤725中将特定深度范围定义成反射IR亮度的相应范围(例如,手动调整距离阈值和/或动态调整对象跟踪算法)。
在步骤730中,确定在视频捕捉设备的特定深度范围内的数字视觉图像内的一个或多个对象。在一个具体实施例中,确定在视频捕捉设备的特定深度范围内的数字视觉图像内的一个或多个对象是基于该一个或多个对象具有在特定深度范围的反射IR亮度的相应范围内的特定反射IR亮度。
在步骤735中,该一个或多个对象可以从数字视觉图像的、不在特定深度范围内的部分分离,并且在步骤740中可以处理该一个或多个被分离的对象以脱离数字视觉图像的、不在特定深度范围内的部分进行视觉显示。例如,如上文提到的,此类处理可以包括应用图像过滤、旋转、翻转、重新调整尺寸、在该一个或多个被分离的对象周围加入其它图像、准备将该一个或多个被分离的对象用于全息显示等。
简化过程700在步骤745中结束,显然还具有继续捕捉图像、分离对象、跟踪对象、调整深度范围等选项。而且,在步骤740中的处理可以继续,例如,保存被分离(并且被处理的)图像、显示被分离的图像、流送被分离的图像等,例如,用于电影制作和/或全息显示。
应该注意的是虽然如上文所述过程700内的某些步骤可以按上文所述被选择,但是图7中所示的步骤只是用于说明的示例,并且可以根据需求包含或排除某些其它步骤。此外,虽然示出了步骤的特定顺序,但是该排序只是示例性的,在不背离本文实施例的范围的情况下任意合适的步骤配置可以被利用。
本文的技术可以有利地提供用于各种应用的视频和全息投影的深度键合成,例如,电影、直播流送娱乐系统等。具体来说,如上文所述,本文的技术不会遇到与色度键合成(绿屏)技术相同的问题,并且所需要的全部就是计算机(笔记本电脑)、基于深度的视频摄影机和光。此外,对表演艺术家而言,向卫星位置直播流送事件,具体来说是全息地直播流送,是增加曝光的重要方式,同时在没有额外花费的情况下增加了额外的收益来源。此外,在场地接收全息直播流可能仅花费向(一个或多个)表演艺术家现场表演支付的费用的一小部分。
因此,本文所述的实施例提供了用于视频和全息投影的深度键合成以及各种其它特征。虽然已经示出和描述了说明性实施例,但应该理解的是可以在本文实施例的精神和范围内进行各种其它调整和修改。例如,虽然已经从视频捕捉的角度描述了实施例,但静止图片(静态图像)也可以从本文的技术中受益,并且“视频”不需要将实施例限制为运动或时序摄影。
上文的描述已经涉及具体实施例。然而,对所述的实施例可以进行其它改变和修改以获得它们优势中的一些或全部将是显而易见的。例如,明显可以预期到本文所述的某些部件和/或元件可以被实现为被存储在有形(非暂态)计算机可读介质(例如,磁盘/CD/RAM/EEPROM等)上的软件,该计算机可读机制具有在计算机、硬件、固件、或其组合上执行的程序指令。因此,该描述只是通过举例的方式做出并且不在其它方面限制本文实施例的范围。因此,所附权利要求的目的在于覆盖落入本文实施例的真实精神和范围内的所有此类变体和修改。

Claims (20)

1.一种方法,包括:
从视频捕捉设备捕捉数字视觉图像;
确定所述视频捕捉设备的特定深度范围内的、所述数字视觉图像内的一个或多个对象;
将所述一个或多个对象从所述数字视觉图像的、不在所述特定深度范围内的部分分离;以及
处理一个或多个被分离的对象以脱离所述数字视觉图像的、不在所述特定深度范围内的部分进行视觉显示。
2.根据权利要求1所述的方法,还包括:
用来自位于所述视频捕捉设备处的源的红外(IR)光浸浴被捕捉的数字视觉图像的捕捉空间;
确定所述捕捉空间内的对象反射的IR光的亮度;以及
将所述特定深度范围定义为反射IR亮度的相应范围;
其中,确定所述视频捕捉设备的特定深度范围内的、所述数字视觉图像内的所述一个或多个对象是基于:所述一个或多个对象具有在所述特定深度范围的反射IR亮度的相应范围内的特定反射IR亮度。
3.根据权利要求2所述的方法,其中,IR光源与所述视频捕捉设备相集成。
4.根据权利要求1所述的方法,还包括:
由技术员手动调整所述特定深度范围。
5.根据权利要求4所述的方法,其中,调整包括:调整近距离阈值和远距离阈值,其中,所述近距离阈值和所述远距离阈值定义所述特定深度范围。
6.根据权利要求4所述的方法,其中,调整包括:调整中心距离和距所述中心距离的距离,其中,所述中心距离和距所述中心距离的距离定义所述特定深度范围。
7.根据权利要求1所述的方法,包括:
动态调整所述特定深度范围。
8.根据权利要求7所述的方法,其中,动态调整是基于对象检测技术。
9.根据权利要求8所述的方法,其中,所述对象检测技术包括骨架跟踪算法。
10.根据权利要求1所述的方法,其中,处理包括:
将图像过滤应用于所述一个或多个被分离的对象。
11.根据权利要求1所述的方法,其中,处理包括:
旋转所述一个或多个被分离的对象。
12.根据权利要求1所述的方法,其中,处理包括:
翻转所述一个或多个被分离的对象。
13.根据权利要求1所述的方法,其中,处理包括:
调整所述一个或多个被分离的对象的尺寸。
14.根据权利要求1所述的方法,其中,处理包括:
应用后期制作技术以在所述一个或多个被分离的对象周围添加其它图像。
15.根据权利要求1所述的方法,其中,处理包括:
准备将所述一个或多个被分离的对象用于全息显示。
16.根据权利要求1所述的方法,其中,所述数字视觉图像是静止图像。
17.一种装置,包括:
处理器,该处理器被配置为执行软件处理;以及
存储器,该存储器被配置为存储图像处理过程,所述图像处理过程存储由所述处理器执行用于以下步骤的指令:
确定捕捉数字视觉图像的视频捕捉设备的特定深度范围内的、在所述数字视觉图像内的一个或多个对象;
将所述一个或多个对象从所述数字视觉图像的、不在所述特定深度范围内的部分分离;以及
处理一个或多个被分离的对象以脱离所述数字视觉图像的、不在所述特定深度范围内的部分进行视觉显示。
18.根据权利要求17所述的装置,还包括:
所述视频捕捉设备,该视频捕捉设备被配置为捕捉所述数字视觉图像;以及
红外(IR)光源,该红外光源在所述视频捕捉设备处并且被配置为用IR光浸浴被捕捉的数字视觉图像的捕捉空间;
其中,所述图像处理过程还存储用于以下步骤的指令:
确定所述捕捉空间内的对象反射的IR光的亮度;以及
将所述特定深度范围定义为反射IR亮度的相应范围;
其中,确定所述视频捕捉设备的所述特定深度范围内的、所述数字视觉图像内的所述一个或多个对象是基于:所述一个或多个对象具有在所述特定深度范围的反射IR亮度的相应范围内的特定反射IR亮度。
19.根据权利要求17所述的装置,其中,所述图像处理装置还存储用于调整所述特定深度范围的指令。
20.一种包含指令的有形非暂态计算机可读介质,所述指令由处理器执行来:
确定捕捉数字视觉图像的视频捕捉设备的特定深度范围内的、在所述数字视觉图像内的一个或多个对象;
将所述一个或多个对象从所述数字视觉图像的、不在所述特定深度范围内的部分分离;以及
处理一个或多个被分离的对象以脱离所述数字视觉图像的、不在所述特定深度范围内的部分进行视觉显示。
CN201480050609.8A 2013-09-12 2014-09-12 用于视频和全息投影的深度键合成 Active CN105794202B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361876950P 2013-09-12 2013-09-12
US61/876,950 2013-09-12
US14/285,905 2014-05-23
US14/285,905 US9679369B2 (en) 2013-09-12 2014-05-23 Depth key compositing for video and holographic projection
PCT/US2014/055339 WO2015038862A1 (en) 2013-09-12 2014-09-12 Depth key compositing for video and holographic projection

Publications (2)

Publication Number Publication Date
CN105794202A true CN105794202A (zh) 2016-07-20
CN105794202B CN105794202B (zh) 2019-08-20

Family

ID=52625211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480050609.8A Active CN105794202B (zh) 2013-09-12 2014-09-12 用于视频和全息投影的深度键合成

Country Status (5)

Country Link
US (1) US9679369B2 (zh)
EP (1) EP3044952A4 (zh)
CN (1) CN105794202B (zh)
CA (1) CA2923885A1 (zh)
WO (1) WO2015038862A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713892B (zh) * 2016-12-29 2018-06-29 歌尔科技有限公司 一种vr设备的显示方法和vr设备
CN113709439A (zh) * 2017-04-11 2021-11-26 杜比实验室特许公司 分层的增强型娱乐体验

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104023221B (zh) * 2014-06-23 2016-04-13 深圳超多维光电子有限公司 立体图像视差调节方法和装置
US10091435B2 (en) * 2016-06-07 2018-10-02 Disney Enterprises, Inc. Video segmentation from an uncalibrated camera array
WO2018154458A1 (en) * 2017-02-21 2018-08-30 Nxtgen Technology, Inc. Hologram karaoke jukebox
CN107564020B (zh) * 2017-08-31 2020-06-12 北京奇艺世纪科技有限公司 一种图像区域确定方法及装置
TWI658431B (zh) * 2017-10-02 2019-05-01 緯創資通股份有限公司 影像處理方法、影像處理裝置及電腦可讀取記錄媒體
CN107908384A (zh) * 2017-11-18 2018-04-13 深圳市星野信息技术有限公司 一种实时显示全息人像的方法、装置、系统及存储介质
US11428933B2 (en) * 2019-05-13 2022-08-30 Light Field Lab, Inc. Light field display system for performance events
WO2021040688A1 (en) * 2019-08-26 2021-03-04 Light Field Lab, Inc. Light field display system for sporting events
US11496691B2 (en) 2019-12-16 2022-11-08 Disney Enterprises, Inc. Realistic illumination of a character for a scene
CN114782901B (zh) * 2022-06-21 2022-09-09 深圳市禾讯数字创意有限公司 基于视觉变动分析的沙盘投影方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102547479A (zh) * 2010-12-09 2012-07-04 微软公司 媒体元数据的生成与供应
US20120306904A1 (en) * 2011-06-02 2012-12-06 Yoostar Entertainment Group, Inc. Image processing
CN103052935A (zh) * 2010-07-30 2013-04-17 苹果公司 用于对对象的前后位置进行重新排序的装置、方法和图形用户接口
EP2600309A2 (en) * 2011-11-29 2013-06-05 Microsoft Corporation Foreground subject detection

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE29515073U1 (de) 1995-09-20 1995-12-07 Maaß, Uwe, 51491 Overath Vorrichtung zum Darstellen sich bewegender Bilder im Hintergrund einer Bühne
JP2005275795A (ja) 2004-03-24 2005-10-06 Namco Ltd プログラム、情報記憶媒体及び画像生成システム
EP2071515A1 (en) 2007-12-11 2009-06-17 Honda Research Institute Europe GmbH Visually tracking an object in real world using 2D appearance and multicue depth estimations
US8418068B1 (en) * 2008-12-05 2013-04-09 Brian Backus System, software application, and method for customizing a high-resolution image via the internet
US20100182340A1 (en) 2009-01-19 2010-07-22 Bachelder Edward N Systems and methods for combining virtual and real-time physical environments
US8523667B2 (en) 2010-03-29 2013-09-03 Microsoft Corporation Parental control settings based on body dimensions
JP5943785B2 (ja) * 2012-09-12 2016-07-05 キヤノン株式会社 撮像装置、撮像システム、画像処理装置、および、撮像装置の制御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103052935A (zh) * 2010-07-30 2013-04-17 苹果公司 用于对对象的前后位置进行重新排序的装置、方法和图形用户接口
CN102547479A (zh) * 2010-12-09 2012-07-04 微软公司 媒体元数据的生成与供应
US20120306904A1 (en) * 2011-06-02 2012-12-06 Yoostar Entertainment Group, Inc. Image processing
EP2600309A2 (en) * 2011-11-29 2013-06-05 Microsoft Corporation Foreground subject detection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GVILI R: "depth keying", 《OPTOMECHATRONIC MICRO/NANO DEVICES AND COMPONTENTS》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713892B (zh) * 2016-12-29 2018-06-29 歌尔科技有限公司 一种vr设备的显示方法和vr设备
CN113709439A (zh) * 2017-04-11 2021-11-26 杜比实验室特许公司 分层的增强型娱乐体验
CN113709439B (zh) * 2017-04-11 2024-05-14 杜比实验室特许公司 用于渲染视觉对象的方法、装置及系统

Also Published As

Publication number Publication date
CN105794202B (zh) 2019-08-20
EP3044952A4 (en) 2017-05-17
US20150070467A1 (en) 2015-03-12
EP3044952A1 (en) 2016-07-20
WO2015038862A1 (en) 2015-03-19
US9679369B2 (en) 2017-06-13
CA2923885A1 (en) 2015-03-19

Similar Documents

Publication Publication Date Title
CN105794202B (zh) 用于视频和全息投影的深度键合成
US10750154B2 (en) Immersive stereoscopic video acquisition, encoding and virtual reality playback methods and apparatus
US10841535B2 (en) Configured transparent communication terminals
US11176707B2 (en) Calibration apparatus and calibration method
JP5594850B2 (ja) 代替現実システム制御装置、代替現実システム、代替現実システム制御方法、プログラム、および記録媒体
US9743060B1 (en) System and method for presenting and viewing a spherical video segment
US9848169B2 (en) Transparent projection communication terminals
CN105264876B (zh) 低成本电视制作的方法及系统
US10129506B2 (en) Advanced transparent projection communication terminals
US20140178029A1 (en) Novel Augmented Reality Kiosks
US20170134714A1 (en) Device and method for creating videoclips from omnidirectional video
US9615054B1 (en) Transparent communication devices
JP2022177053A (ja) 情報処理システム、情報処理方法、および情報処理プログラム
US20140306995A1 (en) Virtual chroma keying in real time
CN105938541B (zh) 利用数字内容增强现场表演的系统和方法
US20180124374A1 (en) System and Method for Reducing System Requirements for a Virtual Reality 360 Display
EP3776480A1 (en) Method and apparatus for generating augmented reality images
KR20190031220A (ko) Vr 콘텐츠 제공 시스템 및 방법
US20200371420A1 (en) Entertainment presentation systems and method
EP3948796A1 (en) Method and apparatus for generating three dimensional images
KR101743874B1 (ko) 복수의 공연객체들의 협업을 이용한 동영상 컨텐츠 생성 시스템 및 방법
JP2024004671A (ja) 動画収録システム、動画収録方法およびプログラム
WO2023081755A1 (en) Systems and methods for providing rapid content switching in media assets featuring multiple content streams that are delivered over computer networks
KR20140114940A (ko) 3d 가상스튜디오시스템 및 3d 가상스튜디오 영상합성방법
Mills et al. BRITISH BROADCASTING CORPORATION

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant