CN113038111A - 用于图像捕获和处理的方法、系统和介质 - Google Patents

用于图像捕获和处理的方法、系统和介质 Download PDF

Info

Publication number
CN113038111A
CN113038111A CN202110288593.6A CN202110288593A CN113038111A CN 113038111 A CN113038111 A CN 113038111A CN 202110288593 A CN202110288593 A CN 202110288593A CN 113038111 A CN113038111 A CN 113038111A
Authority
CN
China
Prior art keywords
pixels
camera
viewer
computer
party
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110288593.6A
Other languages
English (en)
Other versions
CN113038111B (zh
Inventor
R·J·莫塔
G·L·冯德兰
M·B·斯里坎斯
B·D·米勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Priority to CN202110288593.6A priority Critical patent/CN113038111B/zh
Publication of CN113038111A publication Critical patent/CN113038111A/zh
Application granted granted Critical
Publication of CN113038111B publication Critical patent/CN113038111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • H04N7/144Constructional details of the terminal equipment, e.g. arrangements of the camera and the display camera and display on the same optical axis, e.g. optically multiplexing the camera and display for eye to eye contact
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Abstract

本公开涉及用于图像捕获和处理的方法、系统和介质。公开了为沉浸式增强现实、实况显示墙、头戴式显示器、视频会议和类似应用,基于观看者的视点(POV)来使用相机阵列捕获场景图像并处理所捕获图像的操作、系统和计算机可读介质。在一个具体实施中,公开的主题通过组合由相机阵列捕获的图像向观看者提供完整视图。在另一具体实施中,公开的主题在观看者从一个位置移动到另一个位置时跟踪观看者的POV,并根据其变化的POV显示图像。观看者POV的变化包括在X、Y和Z维度上的移动。

Description

用于图像捕获和处理的方法、系统和介质
本申请是申请日为2017年7月7日的、名称为“光场捕获”的发明专利申请No.201780044547.3的分案申请。
技术领域
本公开涉及光场捕获,具体地说,涉及一种用于图像捕获和处理的方法、系统和介质。
背景技术
近年来,沉浸式增强现实、显示墙、头戴式显示器和视频会议的使用有所增加。例如,视频会议是在两方或更多方之间进行的在线会议,其中每一方都可以听到其他方的语音并看到图像。在两方之间的视频会议中,每一方都通过每处地点的终端,例如台式计算机系统、平板电脑系统、电视屏幕、显示墙或智能电话参与会议。终端通常包括麦克风以捕获音频,网络摄像头以捕获图像,一组硬件和/或软件以处理捕获的音频和视频信号,网络连接以在各方之间传输数据,扬声器以播放语音,以及显示器以显示图像。在这种传统的设置中,观看者只能看到其相对方及其场景的固定视点。具体地讲,观看者只能看到由相对方的网络摄像头捕获的内容。此外,当观看者在会议期间从一个位置移动到另一个位置时,他的视点(POV)可能会发生变化。然而,由于相对方地点处图像捕获的限制,观看者始终仅能从相同视点观看图像。
发明内容
本公开描述了一种技术,该技术涉及并可以用于为沉浸式增强现实、实况显示墙、头戴式显示器和视频会议应用进行图像捕获和处理。在一个实施方案中,公开的主题通过组合由相机阵列捕获的图像向观看者提供完整视图。在另一个实施方案中,公开的主题在观看者从一个位置移动到另一个位置时跟踪观看者的视点(POV),并根据其变化的POV显示图像。观看者POV的变化包括例如在X、Y和Z维度上的移动。
根据一个实施方案,例如,在视频会议期间,每一方都通过终端参与。每个终端包括显示器、相机阵列、图像处理单元(例如,包括硬件和/或软件)和网络连接(例如,通过电缆和/或无线连接)。每个相机阵列可包括多个相机。相机阵列可捕获图像(例如,颜色RGB、YUV、YCC等)。而且,相机阵列可以捕获深度,捕获计算深度的信息(例如,结构化光、飞行时间、立体图像等)或计算距每一方的其他装置的深度,并同时跟踪这一方的POV(例如,由这一方的头部和/或眼睛位置代表)。通过网络连接,代表观看者的POV的数据可由观看者的终端传输,并被发言者的终端接收。发言者终端之内的图像处理单元可以基于观看者的POV处理所捕获的发言者图像。具体地讲,图像处理操作可以包括基于观看者的POV从所捕获图像修剪像素并识别剩余的像素的剔除操作。该剔除操作的目的是减少要处理的数据的量。由于经处理的数据最终会从一方传输到另一方,剔除减少了要传输的数据量,节省了带宽,并减少了延迟。在剔除后,该图像处理单元可以将保留的像素从个体相机的三维(3D)空间映射到二维(2D)显示空间。接下来,通过网络连接,被映射像素的数据可由发言者的终端传输,并被观看者的终端接收。随后,观看者终端之内的图像处理单元可混合被映射的像素并组装图像准备显示(即,“帧”)。发言者的POV可以单独地由观看者的终端用于处理所捕获的观看者图像。观看者终端之内的图像处理操作可以是在发言者终端之内描述的那些的“镜像”过程。本领域的普通技术人员应当认识到,此处使用术语“发言者”和“观看者”来帮助解释所公开的概念。在视频会议中,每一方相对于其相对方都充当发言者和观看者。因此,上文在观看者和发言者地点处描述的图像捕获和处理操作是在每个地点同时且连续发生于终端之内的。这为每一方提供了基于该方的POV对其相对方的帧(即,实况视频)进行的连续显示。此外,在每个地点,相机阵列可以自身独立或被集成到显示器中。对于诸如沉浸式增强现实、实况显示墙和头戴式显示器的可能始终只有一个观看者的应用而言,终端可以是非对称的,仅在捕获地点有相机阵列以捕获要在观看者的显示器上观看的场景,而在观看者的地点可以没有相机阵列。观看者的POV可由与相机阵列分开、专用于跟踪目的的一个或多个相机或其他设备跟踪,且发言者的POV可以不被跟踪。
附图说明
图1示出了根据一个实施方案的两方之间的数据传输。
图2示出了根据一个实施方案的简化图像捕获和处理操作的流程图。
图3A示出了根据一个实施方案的对应于变化的观看者POV的像素位置的变化。
图3B示出了根据另一个实施方案的对应于变化的观看者POV的像素位置的变化。
图4示出了根据一个实施方案的集成到显示器中的例示性相机阵列。
图5示出了根据一个实施方案的显示器图块和边界相机。
图6示出了根据一个实施方案的观看者的POV对像素选择的影响。
图7A示出了根据一个实施方案的基于观看者的POV的剔除方法。
图7B示出了根据另一个实施方案的基于观看者的POV的剔除方法。
图8示出了根据一个实施方案,基于观看者的POV和对发言者场景中最近物体的了解的剔除方法。
图9A示出了根据一个实施方案,确定对应于相机的收缩视场在竖直方向上的下边缘的像素位置的方法。
图9B示出了根据一个实施方案,确定对应于相机的收缩视场在竖直方向上的上边缘的像素位置的方法。
图10示出了根据一个实施方案的图像捕获和处理操作的流程图。
图11示出了根据一个实施方案的,包括图像存储的图像捕获和处理操作的流程图。
图12示出了根据一个实施方案的,包括像素压缩和解压缩的图像捕获和处理操作的流程图。
图13示出了根据一个实施方案的,包括像素重新分布的图像捕获和处理操作的流程图。
图14示出了根据另一个实施方案的,包括像素重新分布的图像捕获和处理操作的流程图。
图15示出了根据一个实施方案的计算机系统。
具体实施方式
本公开涉及为沉浸式增强现实、实况显示墙、头戴式显示器和视频会议应用,基于观看者的视点(POV)来使用相机阵列捕获场景图像并处理所捕获图像的操作、系统和计算机可读介质。为了简化解释并且不引入任何限制,本公开使用两方之间的示例性视频会议来说明所公开的概念。本文使用的术语“相机”、“图像捕获设备”或“数字图像捕获设备”意在表示任何能够捕获数字图像的仪器。在以下描述中,为了解释的目的,阐述了很多具体细节,以便提供对发明构思的彻底理解。作为该描述的一部分,本公开的附图中的一些附图以框图或流程图形式表示结构和设备,以避免模糊公开的主题。为了清晰起见,可能未对实际具体实施的所有特征进行描述。此外,本公开中所使用的语言已主要被选择用于可读性和指导性目的,并且可能没有被选择为划定或限定本发明的主题,从而诉诸于所必需的权利要求以确定此类发明主题。在本公开中提到“一个实施方案”、“另一个实施方案”或“实施方案”意指包括在本发明的至少一个实施方案中的结合该实施方案所述的特定特征、结构或特性,并且多次提到“一个实施方案”或“实施方案”不应被理解为必然地全部参考相同的实施方案。
应当理解,在任何实际具体实施的开发中(如在任何开发项目中那样),必须要作出许多决策以实现开发者的特定目标(例如,符合与系统和商务相关的约束条件),并且这些目标可在不同具体实施之间变化。还应当理解,此类开发工作可能是复杂并且耗时的,但尽管如此,对于在受益于本公开而设计和实施图像处理系统的那些普通技术人员而言,这仍然是他们的日常工作。
图1示出了根据一个实施方案的在例示性视频会议100中两方之间的数据传输。在图1中,两方,即110和115,均通过每处地点的终端,例如台式计算机系统、平板电脑系统、电视屏幕、显示墙或智能电话参与视频会议。每个终端分别包括相机阵列120和125,以及显示器130和135。相机阵列120和125可以分别集成到其对应的显示器130和135中。每个相机阵列也可以其他方式布置,例如,独立于显示器的周边或其拐角周围。在每个地点,每个显示器和相机阵列对提供至少三种功能——(1)捕获场景的图像,包括计算深度的信息,(2)跟踪对应方的POV(例如,由用户的眼睛和/或头部位置表示),以及(3)显示其相对方的图像。例如,相机阵列120捕获图像(例如,颜色RGB、YUV、YCC等),包括计算深度的信息,并且跟踪观看者110的POV(例如,由他的眼睛和/或头部位置表示),而相机阵列125捕获图像,包括计算深度的信息,并跟踪发言者115的POV(例如,由她的眼睛和/或头部位置表示)。相机阵列可以捕获其他类型的图像,例如,灰度级和/或仅彩色图像。每一方的POV也可由与相机阵列分开、专用于跟踪目的的一个或多个相机或其他设备跟踪。通过两个终端之间的网络连接,观看者110的POV可以从其终端被传输到发言者115的终端,反之亦然,发言者115的POV可以从其终端被传输到观看者110的终端。网络连接可基于电缆连接和/或无线连接。发言者115的终端然后可基于观看者110的POV处理所捕获的发言者115的图像,观看者110的终端可基于发言者115的POV处理所捕获的观看者110的图像。然后可通过网络连接将经处理的数据从一方的终端传输到其相对方的终端。最后,每个终端可接收数据,完成保留的图像处理操作,并分别针对每方在显示器130和135上显示帧。
图2示出了根据一个实施方案的简化图像捕获和处理操作200的流程图。在操作200中,第一相机阵列捕获可以包括发言者的第一场景的图像(框205),并且可以跟踪发言者的POV(框210)。同时,发言者的终端可获取代表观看者(即,其相对方)POV的数据(框215)。接下来,操作200可基于观看者的POV从发言者的所捕获图像修剪(或剔除)像素,并识别保留的像素(框220)。在剔除之后,操作200可将保留的像素从个体相机的3D空间映射到2D显示空间(框225)。在映射之后,操作200可混合映射的像素以构成用于显示的图块(框230)。上述构成的图块可被传输到观看者的终端(框235)。可在观看者的终端(此处未示出)处将构成的图块组装成帧。单独地,发言者的终端也可从观看者接收构成的图块(框240)。可由发言者的终端将图块组装成表示观看者场景的帧(框245)。可应用最新翘曲操作来补偿发言者POV的变化(需注意,发言者现在充当观看者),在从观看者向发言者传输所构成图块期间可能发生这种情况(框250)。最后,可以在发言者的显示器上查看该帧(框255)。
可能存在关于要从一个终端向另一个终端传输的数据的变体。如上所述,发言者的终端可将构成的图块传输到观看者的终端,而观看者的终端随后可将构成的图块组装成帧(例如,框245,但在观看者的终端处)。在另一个实施方案中,发言者的终端可将映射的像素传输到观看者的终端。随后,观看者的终端可完成图像操作的其余部分,包括图块构成和帧组装(例如,框230和245,但在观看者的终端处)。在另一个实施方案中,发言者的终端可将所捕获图像的像素传输到观看者的终端。随后,观看者的终端可完成其他图像操作(例如,框220-230和245,但在观看者的终端处)。在另一个实施方案中,发言者的终端可将构成的图块组装成帧(例如,框245,但在发言者的终端处)并向观看者发送组装成的帧。另外,对于诸如沉浸式增强现实、实况显示墙和头戴式显示器之类的应用,可能始终仅有一个观看者。另选地,在一些实施方案中,终端可以是非对称的,相机阵列仅在捕获地点以捕获场景,以在观看者的显示器上查看,而在观看者的地点没有相机显示器。观看者的POV可由与相机阵列分开、专用于跟踪目的的一个或多个相机或其他设备跟踪。而且,操作200可能不需要跟踪发言者的POV(或可能移除框210)。
图3A和图3B被提供以说明一些基本的图像捕获的概念来帮助理解所公开的概念。图3A示出了显示器330,其被假定为平行于世界空间中X-Y-Z坐标系的Y轴(即,在X-Y平面中)。观看者310通过从物体320以特定POV向他自己反射的光线340看到物体320。假设显示器330配备有图像捕获元件,捕获光线340的像素处于光线340和显示器330之间的交点处(即,像素350)。在观看者310例如沿Z轴从位置360A移动到360B并到360C时,观看者310的POV可能变化,并且像素350相应地沿Y轴在显示器330上向上移动。相同的原则适用于观看者310沿Y轴从位置370A移动到370B并到370C时,如图3B所示。观看者310的POV可能改变,并且像素350沿着Y轴在显示器330上相应地向下移动。简而言之,在观看者310改变其观察位置时,其POV可能变化并且根据其POV捕获图像的像素可相应地改变。即使当显示器330不平行于Y轴且/或观看者310同时沿X-Y-Z轴的两个或更多轴改变其位置时,本领域的普通技术人员也应当理解这种关系。
如果有无限大数量的相机填充整个显示器,则显示器基本上成为理想的“光场”相机。这种理想的“光场”相机可捕获从场景以各种角度反射到观看者的所有光线。此外,如果光线的方向是已知的,观看者可确定显示器上的哪个像素捕获从场景的一个特定点从以特定观察角反射到观看者位置的光线。观看者然后可以选择该像素以根据其POV显示特定点的图像。然而,在实践中,仅可使用有限数量的相机(例如,相机的稀疏阵列)来捕获图像。图4示出了根据一个实施方案的相机阵列440。在图4中,相机阵列440被集成到显示器430中。相机阵列440也可以其他方式布置,例如,独立于显示器430的周边或在其拐角周围。在实践中,相机阵列440包括有限数量(例如,9、25、49、81和121个)的相机450。相机450可捕获从物体420在各种方向上反射的光线460。然而,因为相机阵列440仅包括有限数量的相机450,并非所有光线都被相机捕获。例如,从物体420反射到观看者410的光线470未被相机阵列440捕获,这样在显示器430上生成对应于未捕获光线470的“缺失”像素480。
可使用由相机阵列440捕获的图像的像素来合成缺失像素。在一个实施方案中,可使用最近相机捕获的图像中围绕缺失像素的像素来合成缺失像素。参见图5,假定被集成到显示器530中,相机阵列540包括多个相机。相机阵列540中每四个相邻相机形成矩形“图块”(例如,图块552、554和556)。根据相机阵列540的布置,由相机阵列540形成的图块可以是不同的形状,例如,矩形、三角形、圆形或甚至3D形状。“缺失”像素580对应于从物体520反射到观看者510位置的未捕获光线570。由于“缺失”像素580落在了图块556内部,所以边界相机541-544是围绕“缺失”像素580的最近相机。因此,可使用来自由边界相机541-544捕获的图像的像素来合成“缺失”像素580。在一个实施方案中,像素合成可采用图像混合,并可以进一步采用不同的混合方式。例如,图像混合操作可基于来自边界相机捕获的图像的像素之内插。图像混合操作可以发生于像素被映射到2D显示空间中之后。将像素映射到2D显示空间中可包括从个体相机的3D空间到3D世界空间的第一变换,以及基于观看者510的位置,投影像素从3D空间到2D显示空间的第二变换。在一个实施方案中,可将这两种变换组合成单个变换以改善计算效率。
例如,在实践中,视频会议中的一方不仅看到场景的一个单点的帧,而是从他/她的POV看到整个场景。通过观看者的视场(FOV)的范围来跟踪场景的光线,场景的不同部分可能距相机阵列中的不同相机最近。因此,可通过组合来自不同相机的部分来组装映射到观看者POV的帧。相机捕获其FOV内的图像。FOV是图像捕获单元(例如人的视觉系统或相机)可在其焦点位置处捕获的角度范围。FOV取决于几个因素,例如,孔的形状和尺寸,以及图像捕获单元的焦距。数字相机的典型FOV在水平和竖直方向上均为大约70度,而人类视觉系统的平均FOV在水平和竖直方向上分别为大约180度和135度。有了更大的FOV,图像捕获单元可捕获场景的更宽部分。相反,有了更小的FOV,图像捕获单元可捕获场景的更窄部分。由于相机的FOV通常低于人类视觉系统,当一方加入仅使用单个相机的视频会议时,每方的视图将是有限的。观看者可仅查看相机允许他看到的内容,例如,仅相机在相对方地点捕获且仅来自相机的POV的内容。更好地理解这一约束的一种方式是将相机设想为观看者前方的窗口。如果物体位于窗口之内(即,在相机的FOV内部),则观看者可看到它。不过,如果物体落在窗口外部(即,在相机的FOV外部),则观看者不能看到它。因此,随着窗口变小,观看者将会看到越来越少的场景。相反,随着窗口放大,观看者将看到越来越多的场景。最后,如果窗口变得足够大,观看者可能会看到场景的“完整”视图,该视图填充其整个FOV。此外,当观看者将其POV从一个方向改变到另一个方向时,例如从左到右、从上到下或从远到近,他将相应地看到场景的不同部分。
在一个实施方案中,相机阵列用于捕获场景的图像,并且作为测量观看者在观看者地点处的POV的工具,并且向其相对方(发言者)提供此信息。POV可由观看者的眼睛和/或头部在X、Y和Z维度中的位置表示。发言者的终端使用此信息处理所捕获的发言者场景的图像,以向观看者提供与其(观看者)特定POV对应的帧。这样,它向观看者提供显示,如同他是从第一视点观看发言者场景一般。在另一个实施方案中,公开的主题组合相机阵列捕获的图像,并向观看者提供完整视图,如同他前方没有“窗口”一般。在另一个实施方案中,公开的主题将每个相机捕获的图像的不同部分组装成表示最好地匹配观看者的变化POV的场景的帧。例如,当观看者从一个位置移动到另一个位置时,来自不同相机的不同像素将具有到场景中该位置的最近光线,从而导致使用每个相机的不同部分构成帧。
根据本公开的图像捕获和处理操作开始于像素层级;首先从相机阵列中选择个体像素。一旦选择了个体像素,就可以基于在图块之内所选择的像素构成个体图块。一旦构成了个体图块,就可以将它们组装在一起以提供完整的帧。从所捕获的图像选择像素依据的是观看者的POV。参考图6可以更好地理解这种情况。图6示出了根据一个实施方案的,发言者620地点处的显示器630和相机阵列640。未示出观看者610的地点,因为本文的解释集中于在公开的实施方案中基于观看者610的POV在发言者620的地点进行的操作。本领域的普通技术人员应该理解,在观看者610的地点,可以有第二显示器和第二相机阵列。相机阵列640包括多个相机,包括相机662和664。为了简化说明,假定多个相机都具有相同的FOV(70度)且在相同方向上取向。在另一个实施方案中,多个相机可具有不同的FOV和彼此不同的取向。由于每个相机都具有设定的场景视点,每个相机仅从该视点拍摄场景,没有一个相机可从观看者的视点提供场景的完整视图。另外,当观看者610从一个位置移动到另一个位置时,其POV可能改变,他可以看到场景的不同视点。因此,为了组装出表示观看者610完整视图的帧,组合由相机阵列640捕获的所有图像。另外,为了根据观看者610的POV提供帧,可根据其变化的POV从不同的相机中选择不同部分的像素。例如,在位置650A,观看者610主要看到发言者620的上部。因此,相机662从位置650A具有发言者620前额的最佳视点,而相机664在相同位置具有发言者620颈部的最佳视点。因此,在组装对应于位置650A处观看者610的POV的帧时,相机662可以比相机664贡献更多像素。相比之下,当他移动到位置650B时,观看者610主要看到发言者620的下部。因此,在根据其在位置650B处的POV组装帧时,相机662可以比相机664贡献更少像素。在观看者相对于相机的POV接近相机FOV的边缘时(例如,距相机中线35度),该相机将向最终帧逐渐贡献越来越少的像素。在极端情况下,在观看者POV变得大于35度时,观看者所看到的超过相机的FOV,从而相机将不会对最终帧贡献任何像素。在实践中,对于几乎所有观察位置,帧组装将利用来自所有相机的像素:一组相机可以贡献其像素中的一些以填充帧的一个部分(例如,一个图块),帧的下一个部分(例如,下一个图块)将由来自下一组相机的像素填充,以此类推,直到组装出整个帧。
为了提高效率,可在早期阶段采用“剔除”操作。剔除是在给定特定观看者位置的情况下,消除明显不会对最终帧做出贡献的像素的操作。剔除可被认为是轻权重鉴别步骤,对提供给包含将对所组装帧有贡献的像素的区域的像素进行修剪。保留的像素可能仍然包含最终不做贡献的像素,但可以确定的是,那些被修剪的将不做贡献。因为像素最终将被处理并从一方传输到另一方,剔除减少了处理以及需要通过网络传输的数据量,这样节省了带宽并减少了延迟。在观看者的POV对应于与图块的边界相机的一个或多个的给定空间关系时,剔除可以从图块消除像素。图7A和图7B示出了根据一些实施方案的,基于观看者的POV的剔除方法。图7A示出了被边界相机(包括上边界相机741和下边界相机742)围绕的图块750。为了构成图块750,可以安全地消除由边界相机741-742捕获的图像的特定像素。例如,在观看者710的POV向上(例如,观看者710的眼睛和/或头部位置在相机742下方)时,可以消除对应于下边界相机742的下半FOV的像素。在图7B中,观看者710改变他的POV以成为向下(例如,观看者710的眼睛和/或头部位置高于相机741)。在这种情况下,可以消除对应于上边界相机741的上半FOV的像素。换句话讲,可以通过剔除来修剪对应于图7A和图7B中阴影区域的边界相机的像素。当观看者的眼睛和/或头部位置超过图块的左边界和/或右边界时,也可以向个体图块左边界和/或右边界处的相机应用剔除操作。
图8示出了根据一个实施方案的,基于观看者的POV和对发言者场景中最近物体的了解的另一种剔除方法。在图8中,在竖直方向上针对个体相机(例如相机844)界定了缩小的FOV,在剔除之后仅保留缩小FOV之内的像素。相机844的缩小FOV由通过其相邻相机(例如,相机842和846)的主光线的交点界定,场景中最近物体(例如,物体820)相对于相机具有最小距离。相机844的FOV在竖直方向上从边缘852跨越到边缘854(例如,70度)。第一主光线862通过相机842“行进”到观看者810并在点866处与场景中物体820的最小距离相交。第二主光线864通过相机846“行进”到观看者810并在点868处与最小距离相交。相机844在竖直方向上缩小的FOV可由边缘856和858界定,其中边缘856连接相机844的镜头中心和点866,并且边缘858连接相机844的镜头中心和点868。与其初始FOV的相比,相机844的这一缩小FOV减小了阴影区域,如图8所示。相机844在这一缩小FOV外部的像素(即,对应于阴影区域)可以被消除。类似地,也可在水平方向上界定相机844的缩小FOV。
图9A示出了根据一个实施方案的,确定对应于相机在竖直方向上的缩小FOV下边缘的像素位置的方法。相机944在竖直方向上的缩小FOV的下边缘958可由相机944和点968的相对位置界定。图9A中示出了若干坐标以绘示相机944、其相邻相机946和观看者910在3D世界空间中X-Y-Z坐标系的Y-Z平面中的位置。具体地讲,Ty、TileStart.y和ViewerPose.y分别表示相机944、相机946和观看者910的Y坐标。ViewerPose.Z和MinimumDist分别表示观看者910和场景中的最近物体920的Z坐标。还提供了相机944的放大视图以示出相机944中对应于下边缘958的像素的位置。在放大视图中,相机944包括镜头972和像素974,其中两者之间的距离为焦距。相机944中对应于下边界线958的像素的Y坐标为CulledPixelY。根据图9A,可通过公式(1)计算CulledPixelY:
CulledPixelY=(ScaledY-Vy, (I)
其中Vy、ScaledY、Focal Length和MinimumDist表示图9A中所示的量。此外,可通过公式(2)计算(ScaledY-Vy):
Figure BDA0002981456800000111
其中Ty、TileStart.y、ViewerPose.y和ViewerPose.z表示图9A中所示的量。将方程(2)代入方程(1),则可以通过如下方式确定CulledPixelY:
Figure BDA0002981456800000121
需注意,对于相机的缩小FOV的下边缘,CulledPixelY的符号可被定义为负。这是因为所捕获图像在Y-Z平面中的(0,z)位置可以被定义在相机光学中心处相机的主点。根据该定义,CulledPixelY的符号对于缩小FOV的下边缘通常为负,且对于缩小FOV的上边缘为正。
图9B示出了根据一个实施方案的,确定对应于相机在竖直方向上的缩小FOV上边缘的像素位置的类似方法。参考图9B,相机944在竖直方向上的缩小FOV的上边缘956可由相机944和点966的相对位置界定。图9B中示出了若干坐标以绘示相机944、其相邻相机942和观看者910在3D世界空间的X-Y-Z坐标系的Y-Z平面中的位置。具体地讲,Ty、TileEnd.y和ViewerPose.y分别表示相机944、相机942和观看者910的Y坐标。ViewerPose.Z和MinimumDist分别表示观看者910和场景中的最近物体920的Z坐标。还提供了相机944的放大视图以示出相机944中对应于上边缘956的像素的位置。在放大视图中,相机944包括镜头972和像素974,其中两者之间的距离为焦距。相机944中对应于上边界线956的像素的Y坐标为CulledPixelY。根据图9B,可通过公式(4)计算CulledPixelY:
CulIedPixelY=(ScaledY-Vy, (4)
其中Vy、ScaledY、Focal Length和MinimumDist表示图9B中所示的量。
此外,可通过公式(5)计算(ScaledY-Vy):
Figure BDA0002981456800000122
其中Ty、TileEnd.y、ViewerPose.y和ViewerPose.z表示图9B中所示的量。将方程(5)代入方程(4),则可以通过方程(6)计算CulledPixelY:
Figure BDA0002981456800000131
类似地,该方法可以应用于计算对应于相机在水平方向上的缩小FOV的左边缘和/或右边缘的像素的位置。
如上所述,图块的构成(或呈现)基于观看者的POV。然后可以通过网络连接从发言者(观看者的相对方)向观看者传输构成的图块,并可以在观看者的终端处组装并显示帧。呈现图块和显示帧之间的延迟,即所谓的呈现到显示延迟,可能达到几十到几百毫秒。在呈现到显示延迟期间,观看者的POV可能会发生变化。在一些实施方案中,可以补偿观看者POV在延迟期间的变化及其对所组装帧的显示的影响。例如,观看者POV的跟踪可包括运动预测。运动预测可恰好在显示之前(或在呈现到显示延迟之后)提供对预期观看者的POV的估计。可以在像素剔除和后续操作中使用这一估计的观看者POV而不是呈现之前实测的观看者POV。此外,还可包括最新翘曲操作,其可使用显示之前最后时刻测量的观看者POV调节所组装的帧。可基于例如观看者的眼睛和/或头部位置的变化来确定观看者POV的变化。可基于在显示之前最后时刻对观看者眼睛和/或头部位置的跟踪来测量,或者基于观看者的运动模型来预测观看者眼睛和/或头部位置的变化,或者组合测量和建模两者。给定观看者POV变化的估计,可相应地使(观看者从发言者接收的)所构成的图块中的像素翘曲,以近似观看者的正确视图(其中“正确”视图对应于恰好向观看者显示发言者视图之前发言者的观看者POV)。例如,在最简单的形式中,可平移、旋转和/或缩放组装的帧以适应观看者的POV在呈现到显示延迟之前和之后的变化。在更高级的方法中,基于观看者的初始POV,可以将所构成图块(可能还具有关联的深度信息)中的像素反向变换到3D世界空间或个体相机的3D空间。接下来,基于观看者的新(或改变的)POV,例如,对于观看者的左眼和右眼两者,可将像素变换(或映射)回到2D显示空间。然后可使用新映射的像素来调节帧的显示。替代翘曲操作可将每个个体图块镶嵌到纹理映射的网格中。可将网格的顶点反向变换到3D空间,然后将其变换回2D显示空间,如上所述。这样可针对每个图块获取失真的网格,其近似观看者的正确视图。这种替代翘曲操作可防止由于观看者POV变化而引入非遮挡区域(或“孔”)。
参考图10,根据一个实施方案的示例性图像操作1000捕获可包括发言者的第一场景的图像,包括计算深度的信息(框1005)。可基于所捕获的图像来跟踪发言者的POV(框1010)。发言者的POV也可使用与相机阵列分开、专用于跟踪目的的一个或多个相机或其他设备跟踪。通过网络连接,代表其相对方,即观看者的POV的数据可从观看者的终端传输,并被发言者的终端接收(框1015)。接下来,可剔除所捕获的发言者图像的像素以识别保留的像素(框1020)。剔除操作可采用观看者的POV和/或对发言者场景中最近物体的了解,如上所述。可以在剔除时消除某些像素(例如,对应于FOV的一半和/或在个体相机的缩小FOV外部)。然后将保留的剔除像素从个体相机的3D空间映射到2D显示空间(框1025)。映射操作可为观看者的左眼和右眼投射像素。像素剔除和映射操作可重复自身,直到处理了由相机阵列捕获的图像(框1030)。像素剔除和映射操作可由发言者终端之内的专用硬件,例如,专用处理器(图块处理器)实施。每个相机可以有一个图块处理器,或者几个相机可以有一个图块处理器。一旦像素剔除和映射完成,操作1000就移动到帧组装。操作1000可始于像素选择,其中可基于观看者的POV从不同相机选择不同像素(框1035)。所选择的像素可用于合成缺失像素,其继而构成个体图块(框1040)。如上所述,像素合成和图块构成可采用不同的图像混合技术,例如内插。合成和构成操作可重复自身,直到构成所有用于显示的图块(框1045)。最后,可通过网络连接将诸如所构成图块和发言者POV的数据从发言者的终端传输到观看者的终端(框1050)。单独地,发言者的终端也可从观看者的终端接收数据(框1055),该数据可包括基于在观看者地点处捕获的图像的构成图块。接下来,操作1000可将所构成图块组装成表示观看者场景的帧(框1060)。可应用最新翘曲操作来补偿发言者POV的变化(需注意,发言者现在充当观看者),如上所述,在呈现到显示延迟期间可能发生这种情况(框1065)。最后,可在发言者的终端处显示帧(框1070)。该帧可被组装并向观看者的左眼和右眼两者显示。图块构成和帧组装操作可由发言者终端之内的专用硬件(例如,帧组装器)实施。
如上所述,此处使用术语“发言者”和“观看者”来帮助解释所公开的概念。在诸如视频会议的应用中,每一方相对于其相对方都充当发言者和观看者。因此,图10中的操作1000连续发生于每一方的终端之内(例如,一个终端中的操作是另一种终端中操作的镜像过程)。这为每一方提供了基于该方的POV对其相对方的帧(即,实况视频)进行的连续显示。此外,可能存在关于要从一个终端向另一个终端传输的数据的变体。如上所述,发言者的终端可将构成的图块传输到观看者的终端,而观看者的终端随后可将构成的图块组装成帧(例如,框1060,但在观看者的终端处)。在另一个实施方案中,发言者的终端可将所捕获图像的映射像素传输到观看者的终端。随后,观看者的终端可完成图像操作的其余部分,包括图块构成和帧组装(例如,框1035-1045和1060,但在观看者的终端处)。在另一个实施方案中,发言者的终端可将所捕获图像的像素传输到观看者的终端。随后,观看者的终端可完成其他图像操作(例如,框1020-1045和1060,但在观看者的终端处)。在另一个实施方案中,发言者的终端可将构成的图块组装成帧(例如,框1060,但在发言者的终端处)并向观看者的终端发送组装成的帧。另外,在诸如沉浸式增强现实、实况显示墙和头戴式显示器之类的应用中,可能始终仅有一个观看者。另选地,在一些实施方案中,操作1000可能不需要跟踪发言者的POV(或可能移除框1010)。
图11示出了根据另一个实施方案的另一示例性图像操作1100的流程图。操作1100基本类似于图10中所示的操作1000。参见图11,类似于图10中的框1005,第一相机阵列捕获第一场景的图像,包括计算深度的信息(框1105)。捕获的图像可被存储到介质,诸如本地存储器、便携式存储器或其他类型的远程或云存储器(框1107)。存储的图像将来可用于回放或其他图像处理中。存储的图像可被发送到观看者(框1109)。一旦接收到所存储的图像(框1111),它们就可被处理以为观看者组装帧。该图像处理操作基本类似于上文在图10中所述的。框1120-1145和1160-1170所示的一组操作可以与框1020-1045和1060-1070所示的一组操作相同,只是框1120-1145和1160-1170发生于观看者的终端处,而框1020-1045和1060-1070发生于发言者的终端处。换句话讲,它们可以是仅发生在不同终端处的相同操作。此外,在图11中,观看者的POV可在其自身终端处容易地获取(框1115)。需注意,操作1100可不包括最新翘曲操作(例如,框1065),因为并非在所有具体实施中都需要最新翘曲。
图12示出了根据另一个实施方案的另一示例性图像操作1200的流程图。操作1200基于图10中所示的操作1000。操作1200可包括操作1000的所有框,除了额外的数据压缩和解压缩操作(框1247和1257)。参见图12,可在传输之前压缩映射的像素(框1247)。然后可在接收之后将压缩的像素解压缩(框1254)。如上所述,操作1000可使用一组硬件(例如,图块处理器)实施像素剔除和映射,并使用不同组的硬件(例如,帧组装器)实施图块构成和帧组装。可在不同的硬件之间传输像素数据。压缩像素减少了要传输的数据量并提高了链路效率。另外,如上所述,对于诸如沉浸式增强现实、实况显示墙和头戴式显示器之类的应用,可能始终仅有一个观看者。另选地,在一些实施方案中,操作1200可能不需要跟踪发言者的POV(或可能移除框1010)。
图13示出了根据另一个实施方案的另一示例性图像操作1300的流程图。操作1300基于图10中所示的操作1000。操作1300可包括操作1000的所有框,除了额外的像素重新分布操作(框1307)。如上所述,可以有多个图块处理器负责像素剔除和映射的操作。参见图13,可在剔除之前在图块处理器间重新分布所捕获图像的像素(框1307)。像素重新分布可允许终端分配硬件资源以更有效率地管理图像处理。如上所述,在一些实施方案中,操作1300可能不需要跟踪发言者的POV(或可能移除框1010)。
也可在不同的阶段进行像素重新分布,如图14所示。在图14中,图像操作1400基于图10中所示的操作1000。操作1400可包括操作1000的所有框,除了额外的像素重新分布操作(框1427)。参见图14,可在映射之后在图块处理器间重新分布像素。类似地,在一些实施方案中,操作1400可能不需要跟踪发言者的POV(或可能移除框1010)。
参考图15,可由代表性计算机系统1500(例如,通用计算机系统,诸如台式计算机、膝上型电脑、笔记本电脑或平板电脑系统)执行根据本公开所公开的图像捕获和处理操作。计算机系统1500可包括一个或多个处理器1505、存储器1510、一个或多个存储设备1515、图形硬件1520、设备传感器1525(例如,3D深度传感器、接近传感器、环境光传感器、加速度计和/或陀螺仪)、图像捕获模块1530、通信接口1535、用户接口适配器1540和显示器适配器1545——所有这些都可经由可由一个或多个连续(如图所示)或不连续通信链路构成的系统总线或背板1550进行耦接。存储器1510可包括由一个或多个处理器1505和图形硬件1520使用的一种或多种不同类型的介质(通常为固态)。例如,存储器1510可包括存储器高速缓存、只读存储器(ROM)、和/或随机存取存储器(RAM)。存储装置1515可包括一个或多个非暂态存储介质,包括例如磁盘(固定盘、软盘和可移除盘)和磁带、光学介质(诸如CD-ROM和数字视频光盘(DVD)),以及半导体存储器设备(诸如电可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM))。存储器1510和存储装置1515可用于保持媒体(例如音频、图像和视频文件)、偏好信息、设备配置文件信息、被组织成一个或多个模块且以任何期望的计算机编程语言编写的计算机程序指令或代码和任何其他合适的数据。当被一个或多个处理器1505和/或图形硬件1520执行时,此类计算机程序代码可实施本文所述方法中的一者或多者。图像捕获模块1530可包括一个或多个图像传感器、一个或多个透镜组件和任何存储器、机械致动器(例如,实现镜头移动),以及用于捕获图像的处理元件。图像捕获模块1530还可向处理器1505和/或图形硬件1520提供信息。通信接口1535可用于将计算机系统1500连接到一个或多个网络。例示性网络包括但不限于本地网络(诸如USB网络)、组织的局域网以及广域网(诸如互联网)。通信接口1535可使用任何合适的技术(例如,有线或无线技术)和协议(例如,传输控制协议(TCP)、互联网协议(IP),用户数据报协议(UDP)、互联网控制消息协议(ICMP)、超文本传输协议(HTTP)、邮局协议(POP)、文件传输协议(FTP)和互联网消息访问协议(IMAP))。用户接口适配器1540可用于连接麦克风1560、扬声器1565、键盘1570、指针设备1580和其他用户界面设备,诸如触控板和/或触摸屏以及独立的图像捕获元件(未示出)。显示器适配器1545可用于连接可提供触摸输入能力的一个或多个显示单元1585。处理器1505可以是片上系统诸如存在于移动设备中的那些片上系统,并且可包括一个或多个专用图形处理单元(GPU)。处理器1505可基于精简指令集计算机(RISC)架构或复杂指令集计算机(CISC)架构或任何其他合适的架构,并且可包括一个或多个处理内核。图形硬件1520可以是用于处理图形和/或帮助处理器1505执行计算任务的专用计算硬件。在一个实施方案中,图形硬件1520可包括一个或多个可编程GPU,并且每个此类单元可包括一个或多个处理内核。

Claims (20)

1.一种非暂态计算机可读介质,包括计算机可读代码,所述计算机可读代码能够由一个或多个处理器执行来:
从第一相机和第二相机获得一场景的图像数据,其中所述图像数据包括多个像素;
从一个或多个第三相机确定经由显示设备观看所述场景的一方的视点;
基于所述视点选择所述多个像素的子集;
将所述多个像素的所述子集从与第一相机和第二相机相关联的三维(3D)空间映射到二维(2D)空间;以及
基于所映射的所述多个像素的所述子集生成帧。
2.根据权利要求1所述的非暂态计算机可读介质,其中生成所述帧的计算机可读代码还包括用于以下操作的计算机可读代码:
基于所映射的所述多个像素的所述子集生成多个图块;以及
把所述多个图块组装成所述帧。
3.根据权利要求2所述的非暂态计算机可读介质,其中所述像素子集的第一部分是由第一相机捕获的并且其中所述像素子集的第二部分是由第二相机捕获的。
4.根据权利要求1至3中任一项所述的非暂态计算机可读介质,还包括把所述帧发送到远程设备用于显示的计算机可读代码。
5.根据权利要求1至3中任一项所述的非暂态计算机可读介质,其中选择所述像素子集的计算机可读代码包括用于以下操作的计算机可读代码:
基于所述一方的所述视点识别一个或多个边界相机,其中所述一个或多个边界相机是从第一相机和第二相机中的一个或多个中选择的;以及
从所述多个像素中丢弃从所述一个或多个边界相机捕获的像素。
6.根据权利要求1至3中任一项所述的非暂态计算机可读介质,还包括用于以下操作的计算机可读指令:
接收所述一方的更新的视点的指示;以及
基于所述一方的所述更新的视点对所述帧应用翘曲函数。
7.根据权利要求6所述的非暂态计算机可读介质,其中接收所述一方的更新的视点的所述指示的指令还包括用于监视从由所述一方的眼睛位置和所述一方的头部位置组成的组中选择的至少一者的计算机可读代码。
8.一种非暂态计算机可读介质,包括计算机可读代码,所述计算机可读代码能够由一个或多个处理器执行来:
从第一相机和第二相机获得一场景的图像数据,其中所述图像数据包括多个像素;
使用一个或多个第三相机确定经由第一远程设备观看所述场景的一方的视点;
基于所述一方的所述视点选择所述多个像素的子集;
将所述多个像素的所述子集从与第一相机和第二相机相关联的三维(3D)空间映射到二维(2D)空间;以及
将所映射的所述多个像素发送到第二远程设备。
9.根据权利要求8所述的非暂态计算机可读介质,还包括用于以下操作的计算机可读代码:
基于所映射的所述多个像素的所述子集生成帧,
其中将所映射的所述多个像素发送的计算机可读代码包括发送所述帧的计算机可读代码。
10.根据权利要求9所述的非暂态计算机可读介质,其中基于所映射的所述多个像素的所述子集生成帧的指令还包括用于以下操作的指令:
基于所映射的所述多个像素的所述子集生成多个图块;以及
把所述多个图块组装成所述帧。
11.根据权利要求9所述的非暂态计算机可读介质,其中将所映射的所述多个像素发送的计算机可读代码包括发送所述多个图块的计算机可读代码。
12.根据权利要求8至11中任一项所述的非暂态计算机可读介质,其中选择所述像素子集的计算机可读代码包括用于以下操作的计算机可读代码:
基于所述一方的所述视点识别一个或多个边界相机,其中所述一个或多个边界相机是从第一相机和第二相机中的一个或多个中选择的;以及
从所述多个像素中丢弃由所述一个或多个边界相机捕获的像素。
13.根据权利要求12所述的非暂态计算机可读介质,其中所述一个或多个边界相机中的每一个被识别为具有与第二方的视点至少部分重叠的视场的相机。
14.一种用于生成环境的视图的系统,包括:
一个或多个处理器;以及
包括计算机可读代码的计算机可读介质,所述计算机可读代码能够由所述一个或多个处理器执行来:
从第一相机和第二相机获得一场景的图像数据,其中所述图像数据包括多个像素;
使用一个或多个第三相机确定经由显示设备观看所述场景的一方的视点;
基于所述一方的所述视点选择所述多个像素的子集;
将所述多个像素的所述子集从与第一相机和第二相机相关联的三维(3D)空间映射到二维(2D)空间;以及
基于所映射的所述多个像素的所述子集生成帧。
15.根据权利要求14所述的系统,其中生成所述帧的计算机可读代码包括:
基于所映射的所述多个像素的所述子集生成多个图块;以及
把所述多个图块组装成所述帧。
16.根据权利要求15所述的系统,其中所述像素子集的第一部分是由第一相机捕获的并且其中所述像素子集的第二部分是由第二相机捕获的。
17.根据权利要求14所述的系统,还包括把所述帧发送到远程设备用于显示的计算机可读代码。
18.根据权利要求14所述的系统,其中选择所述像素子集的计算机可读代码包括用于以下操作的计算机可读代码:
基于所述一方的所述视点识别一个或多个边界相机,其中所述一个或多个边界相机是从第一相机和第二相机中的一个或多个中选择的;以及
从所述多个像素中丢弃由所述一个或多个边界相机捕获的像素。
19.根据权利要求14所述的系统,还包括用于以下操作的计算机可读指令:
接收所述一方的更新的视点的指示;以及
基于所述一方的所述更新的视点对所述帧应用翘曲函数。
20.根据权利要求19所述的系统,其中接收所述一方的更新的视点的所述指示的指令还包括用于监视从由所述一方的眼睛位置和所述一方的头部位置组成的组中选择的至少一者的计算机可读代码。
CN202110288593.6A 2016-07-18 2017-07-07 用于图像捕获和处理的方法、系统和介质 Active CN113038111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110288593.6A CN113038111B (zh) 2016-07-18 2017-07-07 用于图像捕获和处理的方法、系统和介质

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201662363681P 2016-07-18 2016-07-18
US62/363,681 2016-07-18
US15/275,074 2016-09-23
US15/275,074 US9681096B1 (en) 2016-07-18 2016-09-23 Light field capture
US15/588,228 2017-05-05
US15/588,228 US10178371B2 (en) 2016-07-18 2017-05-05 Light field capture
CN202110288593.6A CN113038111B (zh) 2016-07-18 2017-07-07 用于图像捕获和处理的方法、系统和介质
CN201780044547.3A CN109479114B (zh) 2016-07-18 2017-07-07 用于图像捕获和处理的方法、系统和介质
PCT/US2017/041219 WO2018017347A1 (en) 2016-07-18 2017-07-07 Light field capture

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201780044547.3A Division CN109479114B (zh) 2016-07-18 2017-07-07 用于图像捕获和处理的方法、系统和介质

Publications (2)

Publication Number Publication Date
CN113038111A true CN113038111A (zh) 2021-06-25
CN113038111B CN113038111B (zh) 2024-04-05

Family

ID=59009290

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201780044547.3A Active CN109479114B (zh) 2016-07-18 2017-07-07 用于图像捕获和处理的方法、系统和介质
CN202110288593.6A Active CN113038111B (zh) 2016-07-18 2017-07-07 用于图像捕获和处理的方法、系统和介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201780044547.3A Active CN109479114B (zh) 2016-07-18 2017-07-07 用于图像捕获和处理的方法、系统和介质

Country Status (4)

Country Link
US (3) US9681096B1 (zh)
EP (1) EP3485635B1 (zh)
CN (2) CN109479114B (zh)
WO (1) WO2018017347A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114827465A (zh) * 2022-04-19 2022-07-29 京东方科技集团股份有限公司 图像采集方法、装置及电子设备
WO2023040616A1 (zh) * 2021-09-15 2023-03-23 中兴通讯股份有限公司 终端设备、视频通话的方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018064502A1 (en) * 2016-09-30 2018-04-05 Visbit Inc. View-optimized light field image and video streaming
US10921613B2 (en) 2017-06-01 2021-02-16 NewSight Reality, Inc. Near eye display and related computer-implemented software and firmware
DE102017216843B4 (de) * 2017-09-22 2024-03-21 Audi Ag Verfahren und System zum Anzeigen zumindest eines Raumausschnitts, wobei der Raumausschnitt abhängig von einer Augenposition einer Person angezeigt wird
KR102604738B1 (ko) 2017-12-22 2023-11-22 삼성전자주식회사 와핑 처리를 수행하는 그래픽 프로세서, 이를 포함하는 렌더링 시스템 및 그래픽 프로세서 동작방법
US11089265B2 (en) * 2018-04-17 2021-08-10 Microsoft Technology Licensing, Llc Telepresence devices operation methods
US10554928B2 (en) * 2018-04-17 2020-02-04 Microsoft Technology Licensing, Llc Telepresence device
CN110505433B (zh) * 2018-05-18 2021-06-11 视联动力信息技术股份有限公司 一种数据处理方法和视联网视频会议平台
CN109257584B (zh) * 2018-08-06 2020-03-10 上海交通大学 360度视频传输的用户观看视点序列预测方法
WO2020210937A1 (en) * 2019-04-15 2020-10-22 Shanghai New York University Systems and methods for interpolative three-dimensional imaging within the viewing zone of a display
US11082659B2 (en) 2019-07-18 2021-08-03 Microsoft Technology Licensing, Llc Light field camera modules and light field camera module arrays
US11270464B2 (en) * 2019-07-18 2022-03-08 Microsoft Technology Licensing, Llc Dynamic detection and correction of light field camera array miscalibration
US11553123B2 (en) * 2019-07-18 2023-01-10 Microsoft Technology Licensing, Llc Dynamic detection and correction of light field camera array miscalibration
US11064154B2 (en) * 2019-07-18 2021-07-13 Microsoft Technology Licensing, Llc Device pose detection and pose-related image capture and processing for light field based telepresence communications
CN112307848B (zh) * 2019-08-01 2024-04-30 惠普发展公司,有限责任合伙企业 检测视频会议中的欺骗说话者
DE102020003522B4 (de) * 2020-06-12 2022-04-14 Jochen Ohligs Vorrichtung zur Darstellung von Bildern sowie Verwendung einer solchen Vorrichtung
US11295483B1 (en) 2020-10-01 2022-04-05 Bank Of America Corporation System for immersive deep learning in a virtual reality environment
WO2022087322A1 (en) * 2020-10-21 2022-04-28 H2Vr Holdco, Inc. Off-axis color correction in dynamic image capture of video wall displays
US11336833B1 (en) * 2021-02-26 2022-05-17 Microsoft Technology Licensing, Llc Remote user field of view-based camera orienting
US20230206409A1 (en) * 2021-12-23 2023-06-29 Dell Products L.P. Method and System of Identifying and Correcting Environmental Illumination Light Sources Reflecting onto Display Surface
US11652653B1 (en) * 2022-08-11 2023-05-16 Sandipan Subir Chaudhuri Conferencing between remote participants

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110199497A1 (en) * 2010-02-12 2011-08-18 Nvidia Corporation Display System, Method, and Computer Program Product for Capturing Images Using Multiple Integrated Image Sensors
US20120236107A1 (en) * 2011-03-14 2012-09-20 Polycom, Inc. Methods and System for Simulated 3D Videoconferencing
US20130271553A1 (en) * 2011-09-30 2013-10-17 Intel Corporation Mechanism for facilitating enhanced viewing perspective of video images at computing devices
US20160014391A1 (en) * 2014-07-08 2016-01-14 Zspace, Inc. User Input Device Camera
US20160105640A1 (en) * 2014-10-10 2016-04-14 Microsoft Corporation Telepresence experience

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3229824B2 (ja) * 1995-11-15 2001-11-19 三洋電機株式会社 立体映像表示装置
US6239830B1 (en) * 1998-01-21 2001-05-29 New York University Displayer and method for displaying
US6250928B1 (en) * 1998-06-22 2001-06-26 Massachusetts Institute Of Technology Talking facial display method and apparatus
US6208373B1 (en) * 1999-08-02 2001-03-27 Timothy Lo Fong Method and apparatus for enabling a videoconferencing participant to appear focused on camera to corresponding users
JP3886769B2 (ja) 2001-10-26 2007-02-28 富士通株式会社 補正画像生成装置および補正画像生成プログラム
US7878910B2 (en) * 2005-09-13 2011-02-01 Igt Gaming machine with scanning 3-D display system
EP2263190A2 (en) * 2008-02-13 2010-12-22 Ubisoft Entertainment S.A. Live-action image capture
US8228327B2 (en) * 2008-02-29 2012-07-24 Disney Enterprises, Inc. Non-linear depth rendering of stereoscopic animated images
US20100259595A1 (en) 2009-04-10 2010-10-14 Nokia Corporation Methods and Apparatuses for Efficient Streaming of Free View Point Video
WO2012055444A1 (en) * 2010-10-29 2012-05-03 IT-Universitetet i København Method of determining reflections of light
US9615064B2 (en) * 2010-12-30 2017-04-04 Pelco, Inc. Tracking moving objects using a camera network
US8675067B2 (en) 2011-05-04 2014-03-18 Microsoft Corporation Immersive remote conferencing
US8405740B2 (en) 2011-06-24 2013-03-26 Eastman Kodak Company Guidance for image capture at different locations
US8525829B2 (en) * 2011-09-19 2013-09-03 Disney Enterprises, Inc. Transparent multi-view mask for 3D display systems
WO2013144807A1 (en) * 2012-03-26 2013-10-03 Primesense Ltd. Enhanced virtual touchpad and touchscreen
US8908004B2 (en) * 2012-06-14 2014-12-09 Cisco Technology, Inc. Flattened light reflection for telepresence
US8957943B2 (en) * 2012-07-02 2015-02-17 Bby Solutions, Inc. Gaze direction adjustment for video calls and meetings
US8976224B2 (en) * 2012-10-10 2015-03-10 Microsoft Technology Licensing, Llc Controlled three-dimensional communication endpoint
US8890812B2 (en) * 2012-10-25 2014-11-18 Jds Uniphase Corporation Graphical user interface adjusting to a change of user's disposition
WO2014145722A2 (en) 2013-03-15 2014-09-18 Digimarc Corporation Cooperative photography
US10210629B2 (en) * 2014-02-14 2019-02-19 Sony Interactive Entertainment Inc. Information processor and information processing method
US9843713B2 (en) * 2014-04-02 2017-12-12 Nebulys Technologies, Inc. Systems and methods for video communication
CN104156947B (zh) * 2014-07-23 2018-03-16 小米科技有限责任公司 图像分割方法、装置及设备
US10264247B2 (en) * 2015-02-03 2019-04-16 Misapplied Sciences, Inc. Multi-view displays
US9607428B2 (en) * 2015-06-30 2017-03-28 Ariadne's Thread (Usa), Inc. Variable resolution virtual reality display system
US9716875B2 (en) * 2015-09-18 2017-07-25 Intel Corporation Facilitating quantization and compression of three-dimensional graphics data using screen space metrics at computing devices
US9743040B1 (en) * 2015-12-03 2017-08-22 Symantec Corporation Systems and methods for facilitating eye contact during video conferences
US10089788B2 (en) * 2016-05-25 2018-10-02 Google Llc Light-field viewpoint and pixel culling for a head mounted display device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110199497A1 (en) * 2010-02-12 2011-08-18 Nvidia Corporation Display System, Method, and Computer Program Product for Capturing Images Using Multiple Integrated Image Sensors
US20120236107A1 (en) * 2011-03-14 2012-09-20 Polycom, Inc. Methods and System for Simulated 3D Videoconferencing
US20130271553A1 (en) * 2011-09-30 2013-10-17 Intel Corporation Mechanism for facilitating enhanced viewing perspective of video images at computing devices
US20160014391A1 (en) * 2014-07-08 2016-01-14 Zspace, Inc. User Input Device Camera
US20160105640A1 (en) * 2014-10-10 2016-04-14 Microsoft Corporation Telepresence experience

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023040616A1 (zh) * 2021-09-15 2023-03-23 中兴通讯股份有限公司 终端设备、视频通话的方法
CN114827465A (zh) * 2022-04-19 2022-07-29 京东方科技集团股份有限公司 图像采集方法、装置及电子设备

Also Published As

Publication number Publication date
CN109479114A (zh) 2019-03-15
EP3485635A1 (en) 2019-05-22
US10178371B2 (en) 2019-01-08
US20190260979A1 (en) 2019-08-22
EP3485635B1 (en) 2022-08-31
CN113038111B (zh) 2024-04-05
CN109479114B (zh) 2021-03-23
WO2018017347A1 (en) 2018-01-25
US20180020201A1 (en) 2018-01-18
US9681096B1 (en) 2017-06-13
US10659757B2 (en) 2020-05-19

Similar Documents

Publication Publication Date Title
CN109479114B (zh) 用于图像捕获和处理的方法、系统和介质
US9159135B2 (en) Systems, methods, and computer program products for low-latency warping of a depth map
KR20170017700A (ko) 360도 3d 입체 영상을 생성하는 전자 장치 및 이의 방법
US20200357128A1 (en) Image reconstruction for virtual 3d
US10659742B2 (en) Image generating apparatus and image display control apparatus
MX2007012650A (es) Sistema y metodo para igualacion de tamano de cabeza de imagenes panoramicas de 360 grados.
KR20200052846A (ko) 데이터 처리 시스템
JP7358448B2 (ja) 画像生成装置、ヘッドマウントディスプレイ、および画像生成方法
WO2017128887A1 (zh) 全景图像的校正3d显示方法和系统及装置
JP5225313B2 (ja) 画像生成装置、画像生成方法、及びプログラム
KR101725024B1 (ko) 룩업테이블 기반의 실시간 360도 vr 동영상 제작 시스템 및 이를 이용한 360도 vr 동영상 제작 방법
JPWO2019078033A1 (ja) 再生装置および方法、並びに、生成装置および方法
US20220222842A1 (en) Image reconstruction for virtual 3d
WO2018052100A1 (ja) 画像処理装置、画像処理方法、画像処理プログラム
KR101704362B1 (ko) 룩업테이블 기반의 실시간 파노라마 영상 제작 시스템 및 이를 이용한 실시간 파노라마 영상 제작 방법
US10802390B2 (en) Spherical omnipolar imaging
CN114358112A (zh) 视频融合方法、计算机程序产品、客户端及存储介质
US20210125399A1 (en) Three-dimensional video processing
US20210304494A1 (en) Image processing apparatus, 3d data generation apparatus, control program, and recording medium
US20220108420A1 (en) Method and system of efficient image rendering for near-eye light field displays
US20230260199A1 (en) Information processing device, information processing method, video distribution method, and information processing system
WO2019026183A1 (ja) 画像生成装置および画像生成方法
US20210297649A1 (en) Image data output device, content creation device, content reproduction device, image data output method, content creation method, and content reproduction method
US20240112394A1 (en) AI Methods for Transforming a Text Prompt into an Immersive Volumetric Photo or Video
US11928775B2 (en) Apparatus, system, method, and non-transitory medium which map two images onto a three-dimensional object to generate a virtual image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant