CN115997379A - 用于立体渲染的图像fov的复原 - Google Patents
用于立体渲染的图像fov的复原 Download PDFInfo
- Publication number
- CN115997379A CN115997379A CN202180052089.4A CN202180052089A CN115997379A CN 115997379 A CN115997379 A CN 115997379A CN 202180052089 A CN202180052089 A CN 202180052089A CN 115997379 A CN115997379 A CN 115997379A
- Authority
- CN
- China
- Prior art keywords
- frame
- frames
- processor
- blank
- patch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/122—Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/285—Analysis of motion using a sequence of stereo image pairs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/128—Adjusting depth or disparity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/239—Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
- G06T2207/10021—Stereoscopic video; Stereoscopic image sequence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/133—Equalising the characteristics of different image components, e.g. their average brightness or colour balance
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
一种装置,其包括存储器和处理器。所述存储器接收从相机阵列捕获的场景的多个帧。所述处理器从所述多个帧中选择第一帧和第二帧。所述处理器还将所述第一帧和所述第二帧矫正和对准到参考帧,其中所述第二帧的空白区域具有比所述第一帧的空白区域更大的面积。所述处理器还将所述第一帧变换成与所述第二帧具有接近最佳的重叠。所述处理器将所述变换的第一帧中的补片插入所述第二帧的空白区域。
Description
技术领域
本公开一般涉及图像处理设备和过程。更具体地,本公开涉及用于复原经由多视角相机装备设置捕获的用于立体渲染的图像视场(FOV)的方法和装置。
背景技术
一维(1D)或二维(2D)平行相机阵列是捕获多视角和光场视频的常见方式。捕获的帧需要变换,以使它们在三维(3D)自动立体显示器中可见。然而,图像或视频的变换可导致多视角视频或光场内容的可用FOV的明显损失。此种FOV的损失导致内容不理想。本公开中描述的技术旨在复原使用平行相机阵列设置捕获的图像或视频的可用FOV。
发明内容
本公开提供了用于复原经由平行相机设置捕获的用于立体渲染的图像FOV的方法和装置。
附图说明
为更全面地理解本公开及其优点,现参考结合附图的以下描述,在附图中相同的附图标记表示相同的部分:
图1示出了根据本公开实施例的示例通信系统;
图2和图3示出了根据本公开实施例的示例电子设备;
图4示出了根据本公开的使用相机阵列和显示器的立体渲染系统的示例端到端管线;
图5A和图5B示出了根据本公开的来自第一相机和第二相机的示例可用FOV。
图6A至图6F示出了根据本公开的图像阵列的示例FOV复原;
图7A至图7D示出了根据本公开的示例分级FOV复原;
图8A和图8B示出了根据本公开的分级FOV复原的示例方法;以及
图9示出了根据本公开的用于复原经由平行相机设置捕获的用于立体渲染的图像的FOV的示例方法。
具体实施方式
本公开提供了用于复原经由平行相机设置捕获的用于立体渲染的图像FOV的方法和装置。
在第一实施例中,一种装置包括至少一个存储器和至少一个处理器,处理器可操作地耦合到存储器。至少一个存储器配置成接收从相机阵列捕获的场景的多个帧。至少一个处理器配置成从多个帧中选择第一帧和第二帧。至少一个处理器还配置成将第一帧和第二帧矫正并对准到参考帧,其中第二帧的空白区域具有比第一帧的空白区域更大的面积。至少一个处理器还配置成将第一帧变换成在FOV的重叠区域中与第二帧具有接近最佳的重叠。在完美的重叠中,来自第一帧的每个点(任何深度处的特征点)将具有与第二帧中的对应点相同的像素坐标。然而,由于这两个帧属于物理上分离的相机,我们可能找不到第一帧的2D到2D变换,使得变换后的第一帧可完美地重叠在第二帧上。因此,我们在两个帧之间找到了接近最佳的重叠,使得源自场景中某一深度处的平面(最常见的是,对应于会聚平面的深度平面)的所有特征点与第二帧中的对应特征点重叠。此外,至少一个处理器配置成将来自变换后的第一帧的补片插入到第二帧的空白区域中。
在第二实施例中,一种方法包括接收从相机阵列捕获的场景的多个帧;以及从多个帧中选择第一帧和第二帧。方法还包括将第一帧和第二帧矫正和对准到参考帧,其中第二帧的空白区域具有比第一帧的空白区域更大的面积。方法还包括将第一帧变换成与第二帧具有接近最佳的重叠。另外,方法包括将来自变换后的第一帧的补片插入到第二帧的空白区域中。
在第三实施例中,非暂时性机器可读介质存储指令,当执行指令时,使处理器接收从相机阵列捕获的场景的多个帧;并从多个帧中选择第一帧和第二帧。指令在被执行时还使得处理器将第一帧和第二帧矫正和对准到参考帧,其中第二帧的空白区域具有比第一帧的空白区域更大的面积。指令在被执行时还使得处理器将第一帧变换成与第二帧具有接近最佳的重叠。另外,指令在被执行时使得处理器将来自变换后的第一帧的补片插入到第二帧的空白区域中。
通过以下附图、描述和权利要求,其他技术特征对于本领域的技术人员可以是显而易见的。
在进行以下详细描述之前,阐述贯穿本专利文献中使用的某些单词和短语的定义可以是有利的。术语“耦合”及其派生词指两个或多个元件之间的任何直接或间接通信,无论这些元件是否彼此物理接触。术语“发送”、“接收”和“通信”及其派生词包括直接和间接通信。术语“包含”和“包括”及其派生词意味着包括但不限于。术语“或”为包括性的,意味着和/或。短语“与……相关联”及其派生词意指包括、被包括在……内、与……互连、包括、被包括在……内、连接到……或与……连接、耦合到……或与……耦合、可与……通信、与……协作、交错、并列、与……紧邻、被结合到……或与……结合、具有、具有……特性、具有与……的关系或与……有关系等。术语“控制器”是指控制至少一个操作的任何设备、系统或其部分。此类控制器可以用硬件或者硬件和软件和/或固件的组合来实现。无论是本地的还是远程的,与任何特定控制器相关联的功能可以是集中式或分布式。短语“至少一个”,当与项目列表一起使用时,意味着可使用所列项目中的一个或多个的不同组合,并且可以仅需列表中的一个项目。例如,“A、B和C中的至少一个”包括以下组合中的任何一个:A、B、C、A和B、A和C、B和C以及A和B和C。
此外,下文所描述的各种功能可以由一个或多个计算机程序实现或支持,每个计算机程序由计算机可读程序代码形成并体现于计算机可读介质中。术语“应用程序”和“程序”是指一个或多个适用于以合适的计算机可读程序代码实现的计算机程序、软件部件、指令集、过程、函数、对象、类、实例、相关数据或其部分。短语“计算机可读程序代码”包括任何类型的计算机代码,包括源代码、对象代码和可执行代码。短语“计算机可读介质”包括能由计算机接入的任何类型的介质,诸如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字视频光盘(DVD)或任何其他类型的存储器。“非暂时性”计算机可读介质排除了传输瞬时电信号或其他信号的有线、无线、光或其他通信链路。非暂时性计算机可读介质包括可永久存储数据的介质,以及可存储数据并随后重写数据的介质,诸如可重写光盘或可擦除存储器装置。
贯穿本专利文献提供了其他某些词语和短语的定义。本领域的普通技术人员应理解,在许多情况(如果不是大多数情况)下,此类定义适用于此类所定义词语和短语的先前以及将来使用。
下文描述的图1至图9以及用于描述本公开的原理的各种实施例仅仅是为了说明,并且不应以任何方式解释为限制本公开的范围。本领域技术人员将理解,本公开的原理可以在任何类型的适当布置的设备或系统中实现。
图1示出了根据本公开实施例的示例通信系统100。图1所示的通信系统100的实施例仅用于说明。在不脱离本公开的范围的情况下,可使用通信系统100的其他实施例。
通信系统100包括网络102,该网络有助于通信系统100中的各种部件之间的通信。例如,网络102可在网络地址之间传达I P分组、帧中继帧、异步传送模式(ATM)单元或其他信息。网络102在一个或多个位置处包括一个或多个局域网(LAN)、城域网(MAN)、广域网(WAN)、全球网(诸如互联网)的所有或一部分、或一个或多个任何其他通信系统。
在本示例中,网络102有助于服务器104与各种客户端设备106至116之间的通信。客户端设备106至116可以例如为智能电话、平板计算机、膝上型计算机、个人计算机、可佩带设备或HMD。服务器104可表示一个或多个服务器。每个服务器104包括可向一个或多个客户端设备,诸如客户端设备106至116,提供计算服务的任何合适的计算或处理设备。每个服务器104可例如包括一个或多个处理装置、存储指令和数据的一个或多个存储器、以及有助于通过网络102的通信的一个或多个网络接口。如下文更详细描述的,服务器104可向一个或多个显示设备,诸如客户端设备106至116,发送包括从线性相机阵列捕捉的一个或多个FOV复原帧的压缩比特流。在某些实施例中,每个服务器104可包括编码器。
每个客户端设备106至116表示通过网络102与至少一个服务器(诸如,服务器104)或其他计算设备交互的任何合适的计算或处理设备。客户端设备106至116包括台式计算机106、移动电话或移动设备108(诸如智能电话)、PDA 110、膝上型计算机112、平板计算机114和HMD 116。然而,任何其他或附加客户端设备可用于通信系统100中。智能手机代表一类移动设备108,它们是具有移动操作系统和用于语音、短消息服务(SMS)和互联网数据通信的集成的移动宽带蜂窝网络连接的手持设备。3D显示器可显示包括一个或多个立体渲染图像的立体图像。在某些实施例中,任何客户端设备106至116可包括编码器、解码器或两者。例如,移动设备108可从线性相机阵列接收多个帧,然后立体渲染要发送给客户端设备106至116中的一个的多个帧。
在此示例中,一些客户端设备108至116与网络102间接通信。例如,电子设备108和PDA 110经由一个或多个基站118(诸如蜂窝基站或eNodeB(eNB))通信。而且,膝上型计算机112、平板计算机114和HMD 116经由一个或多个无线接入点120(诸如I EEE 802.11无线接入点)通信。应注意,这些仅用于说明且每个客户端设备106至116可以直接与网络102通信或经由任何合适的中间设备或网络而间接与网络102通信。在某些实施例中,服务器104或任何客户端设备106至116可用于矫正和对准多个帧,将每个帧变换为相邻帧,将来自变换后的帧的补片插入到相邻帧中,并将包括复原的多个帧的比特流发送到另一个客户端设备,诸如任何客户端设备106至116。
在某些实施例中,任何客户端设备106至114将信息安全地且有效地传输到另一设备,诸如服务器104。同样,任何客户端设备106至116可触发自身与服务器104之间的信息传输。任何客户端设备106至114在经由支架附接到头戴式耳机时可充当VR显示器,并且类似地用作HMD 116。例如,当移动设备108附接到支架系统并戴在用户的眼睛上时,其功能可类似于HMD116。移动设备108(或任何其它客户端设备106至116)可以触发自身与服务器104之间的信息传输。
在某些实施例中,客户端设备106至116或服务器104中的任何一个可创建立体帧、压缩立体帧、发送立体帧、接收立体帧、渲染立体帧或其组合。例如,服务器104然后可压缩立体帧以生成比特流,然后将该比特流发送到客户端设备106至116中的一个或多个。另举示例,客户端设备106至116之一可压缩立体帧以生成比特流,然后将该比特流发送到客户端设备106至116中的另一个或发送到服务器104。
尽管图1示出了通信系统100的一个示例,但是可对图1进行各种改变。例如,通信系统100可包括呈任何合适的布置的任何数量的每一部件。一般地,计算和通信系统具有多种配置,并且图1不会将本公开的范围限制到任何特定配置。虽然图1示出了其中可以使用本专利文档中所公开的各种特征的一个操作环境,这些特征可以用于任何其他合适的系统中。
图2和图3示出了根据本公开实施例的示例电子设备。具体地,图2示出了示例服务器200,并且服务器200可代表图1中的服务器104。服务器200可代表一个或多个编码器、解码器、本地服务器、远程服务器、集群计算机以及充当无缝资源的单个池、基于云的服务器等的部件。服务器200可由图1的客户端设备106至116中的一个或多个或另一个服务器访问。
如图2所示,服务器200包括总线系统205,该总线系统支持至少一个处理设备(诸如处理器210)、至少一个存储设备215、至少一个通信接口220与至少一个输入/输出(I/O)单元225之间的通信。服务器200可表示一个或多个本地服务器、一个或多个压缩服务器或一个或多个编码服务器,诸如编码器。在某些实施例中,编码器可执行解码。
处理器210执行可存储在存储器230中的指令。处理器210可包括呈任何合适的布置的任何合适数量和类型的处理器或其他装置。示例性类型的处理器210包括微处理器、微控制器、数字信号处理器、现场可编程门阵列、应用专用集成电路以及离散电路。在某些实施例中,处理器210可对存储在存储设备215中的立体帧进行编码。在某些实施例中,对立体帧进行编码也对立体帧进行解码,以确保当重建立体帧时,立体帧与编码之前的立体帧相匹配。
存储器230和永久存储装置235是表示能够存储和有助于信息(诸如数据、程序代码、或在临时或永久基础上其它合适的信息)的检索的任何结构的存储设备215的示例。存储器230可表示随机存取存储器或任何其它合适的易失性或非易失性存储设备。例如,存储在存储器230中的指令可包括用于接收从线性相机阵列捕获的场景的多个帧的指令;用于从多个帧中选择第一帧和第二帧的指令;用于将第一帧和第二帧矫正和对准到参考帧的指令,其中第二帧的空白区域具有比第一帧的空白区域更大的面积;将第一帧变换成与第二帧具有接近最佳的重叠;以及将来自变换后的第一帧的补片插入第二帧的空白区域。永久存储装置235可含有支持更长期数据存储的一个或多个部件或设备,诸如只读存储器、硬盘驱动器、闪存存储器或光盘。
通信接口220支持与其他系统或设备的通信。例如,通信接口220可包含有助于图1的网络102上的通信的网络接口卡或无线收发器。通信接口220可支持通过任何合适的物理或无线通信链路的通信。例如,通信接口220可将包含立体帧的比特流传输到另一个设备,诸如客户端设备106至116之一。
I/O单元225允许数据的输入和输出。例如,I/O单元225可通过键盘、鼠标、小键盘、触摸屏、或其他合适的输入设备提供用于用户输入的连接。I/O单元225还可将输出发送到显示器、打印机或其他合适的输出设备。然而,应注意,可省略I/O单元225,诸如当经由网络连接发生与服务器200的I/O交互时。
应注意,虽然图2被描述为表示图1的服务器104,但是相同或类似结构可用于各种客户端设备106至116中的一个或多个中。例如,台式计算机106或膝上型计算机112可具有与图2所示的结构相同或类似的结构。
图3示出了示例电子设备300,并且电子设备300可代表图1中的客户端设备106至116中的一个或多个。电子设备300可是移动通信设备,诸如移动站、用户站、无线终端、台式计算机(类似于图1的台式计算机106)、便携式电子设备(类似于图1的移动设备108、PDA110、膝上型计算机112、平板计算机114或HMD 116)等。在某些实施例中,图1的客户端设备106到116中的一个或多个可包含与电子设备300相同或类似的配置。在某些实施例中,电子设备300是编码器、解码器或两者。例如,电子设备300可用于数据传输、图像或视频压缩、图像或视频解压缩、编码、解码和媒体渲染应用程序。
如图3所示,电子设备300包含天线305、射频(RF)收发器310、发射(TX)处理电路315、麦克风320和接收(RX)处理电路325。RF收发器310可包括例如RF收发器、蓝牙收发器、WI-FI收发器、ZI GBEE收发器、红外收发器以及各种其他无线通信信号。电子设备300还包括扬声器330、处理器340、输入/输出(I/O)接口(I F)345、输入端350、显示器355、存储器360和传感器365。存储器360包括操作系统(OS)361和一个或多个应用程序362。
RF收发器310从天线305接收从接入点(诸如基站、WI FI路由器或蓝牙设备)或网络102(诸如WI-FI、蓝牙、蜂窝、5G、LTE、LTE-A、Wi MAX或任何其他类型的无线网络)的其他设备发送的传入RF信号。RF收发器310对输入的RF信号进行下变频转换,以产生中频或基带信号。将中频或基带信号发送到RX处理电路325,该RX处理电路通过对基带或中频信号进行滤波、解码和/或数字化来生成经处理的基带信号。RX处理电路325将经处理的基带信号发射到扬声器330(诸如针对语音数据)或处理器340以供进一步处理(诸如针对网络浏览数据)。
TX处理电路315从麦克风320接收模拟或数字语音数据或从处理器340接收其他传出基带数据。传出基带数据可包括网络数据、电子邮件或交互式视频游戏数据。TX处理电路315对传出基带数据进行编码、多路复用和/或数字化,以生成经处理基带或中频信号。RF收发器310从TX处理电路315接收传出的经处理的基带或中频信号,并且将基带或中频信号上变频转换为经由天线305传输的RF信号。
处理器340可包括一个或多个处理器或其他处理设备。处理器340可执行存储在诸如OS 361的存储器360中的指令,以便控制电子设备300的整体操作。例如,处理器340可根据公知原理来控制RF收发器310、RX处理电路325和TX处理电路315接收前向信道信号和发送反向信道信号。处理器340可包括呈任何合适的布置的任何合适数量和类型的处理器或其他装置。例如,在某些实施例中,处理器340包括至少一个微处理器或微控制器。示例性类型的处理器340包括微处理器、微控制器、数字信号处理器、现场可编程门阵列、应用专用集成电路和离散电路。
处理器340还能够执行驻留在存储器360中的其他过程和程序,诸如接收和存储数据的操作。处理器340可根据执行进程的需要来将数据移入或移出存储器360。在某些实施例中,处理器340配置成基于OS 361或响应于从外部源或操作员接收的信号来执行一个或多个应用362。例如,应用362可包括编码器、解码器、VR或AR应用、相机应用(用于静止图像和视频)、视频电话呼叫应用、电子邮件客户端、社交媒体客户端、SMS消息客户端和虚拟助理等。在某些实施例中,处理器340配置成接收和发送媒体内容。
处理器340还耦合到I/O接口345,该I/O接口向电子设备300提供连接到其他设备(诸如客户端设备106至114)的能力。I/O接口345是这些附件与处理器340之间的通信路径。
处理器340还耦合到输入端350和显示器355。电子设备300的操作员可使用输入端350来将数据或输入键入到电子设备300中。输入端350可是键盘、触摸屏、鼠标、轨迹球、语音输入端或能够充当用户接口以允许用户与电子设备300交互的其他设备。例如,输入端350可包括语音识别处理,由此允许用户输入语音命令。在另一个示例中,输入端350可包括触摸面板、(数字)笔传感器、键或超声输入设备。触摸面板能够以诸如电容性方案、压敏方案、红外方案或超声方案中的至少一个方案识别例如触摸输入。输入端350可通过向处理器340提供附加输入来与传感器365和/或相机相关联。在某些实施例中,传感器365包括一个或多个惯性测量单元(I MU)(诸如加速度计、陀螺仪和磁力计)、运动传感器、光学传感器、相机、压力传感器、心率传感器、高度计等。输入350还可包含控制电路。在电容性方案中,输入端350可识别触摸或接近度。
显示器355可是液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)、有源矩阵OLED(AMOLED)或能够诸如从网站、视频、游戏和图像等渲染文本和/或图形的其他显示器。显示器355可大小设定成配合在HMD内。显示器355可是能够形成立体显示器的单个显示屏或多个显示屏。在某些实施例中,显示器355是平视显示器(HUD)。显示器355可显示3D对象,诸如立体帧。
存储器360耦合到处理器340。存储器360的一部分可包括RAM,并且存储器360的另一部分可包括闪存存储器或其他ROM。存储器360可包括表示能够存储和有助于信息(诸如数据、程序代码和/或其他合适的信息)的检索的任何结构的永久存储装置(未示出)。存储器360可包含支持更长期数据存储的一个或多个部件或设备,诸如只读存储器、硬盘驱动器、快闪存储器或光盘。存储器360还可包含媒体内容。媒体内容可包括各种类型的媒体,诸如图像、视频、三维内容、VR内容、AR内容、3D点云、立体帧等。
电子设备300还包括一个或多个传感器365,传感器可计量物理量或检测电子设备300的激活状态,并将所计量或所检测到的信息转换成电信号。例如,传感器365可包括用于触摸输入的一个或多个按钮、相机、姿势传感器、I MU传感器(诸如陀螺仪或陀螺仪传感器和加速度计)、眼睛跟踪传感器、气压传感器、磁性传感器或磁力计、握持传感器、接近传感器、颜色传感器、生物物理传感器、温度/湿度传感器、照度传感器、紫外光(UV)传感器、肌电(EMG)传感器、脑电(EEG)传感器、心电(ECG)传感器、I R传感器、超声波传感器、虹膜传感器、指纹传感器、颜色传感器(诸如红绿蓝(RGB)传感器)等。传感器365还可包括用于控制包括在其中的传感器中的任一个的控制电路。
尽管图2和图3示出电子设备的示例,但可对图2和图3进行各种改变。例如,可组合、进一步细分或省略图2和图3中的各种部件,并且可根据特定需要添加附加部件。作为特定示例,处理器340可划分为多个处理器,诸如一个或多个中央处理单元(CPU)和一个或多个图形处理单元(GPU)。另外,在置于计算和通信中时,电子设备和服务器可具有多种配置,并且图2和图3不会将本公开限制为任何特定电子设备或服务器。
图4示出了根据本公开的使用相机阵列和显示器的立体渲染系统400的示例端到端管线。图4所示的立体渲染系统400的实施例仅用于说明。图4不将本公开的范围限制于电子设备的任何特定实现。
如图4所示,可使用线性多相机阵列402、立体渲染处理器404和显示器406来执行图像阵列600的立体渲染。相机阵列402、立体渲染处理器404和显示器406可分别对应于图3所示的电子设备300的成像传感器365、处理器340和显示器355。
相机阵列402可由成像传感器阵列构成。可调整成像传感器的取向,以将各个成像传感器的FOV对准投影平面。在某些实施例中,成像传感器的取向可固定到指定距离的投影平面。成像传感器可线性对准并均匀间隔开。在某些实施例中,基于距中心图像传感器或相机阵列402的中心的距离,成像传感器可不均匀地间隔开。成像传感器可同时捕获图像帧或视频帧。
立体渲染处理器404可将捕获的图像或视频帧处理成立体帧,以便在显示器406上输出。立体渲染处理器404可包括矫正和对准(RA)处理器408和转换处理器410。RA处理器408可对来自相机阵列402的每一帧应用几何变换,以在所捕捉的场景中的特定深度处创建“会聚平面”或零视差平面。对应于会聚平面的帧中的像素具有零值,会聚平面前面的帧中的像素具有负值,以及会聚平面后面的帧中的像素具有正值。这种类型的矫正和对准提供了可在显示器406上正确显示的帧。FOV的任何损失都是这种几何变换的不良副作用。转换处理器410可将经矫正和对准的帧转换成合适的表示,诸如拼接视频,以用于显示。
显示器406可显示来自立体渲染处理器404的经处理的帧。显示器406可是3D显示器,诸如窥镜显示器。显示器406允许从显示器406上的角度观看来自单独成像传感器的每一个的不同帧。
尽管图4示出了立体渲染系统400,但是可以对图4进行各种改变。例如,立体渲染系统400中各个部件的大小、形状和尺寸可根据需要或期望而变化。此外,立体渲染系统400中描述的各种部件的数量和放置可根据需要或期望而变化。此外,虽然描述为一系列步骤,但是立体渲染系统400中的各个步骤可以重叠、并行发生或者发生任意次数。此外,立体渲染系统400可以用于任何其他合适的成像过程,并且不限于上述特定过程。
图5A和图5B示出了根据本公开的来自第一相机504和第二相机506的示例可用FOV500、502。特别地,图5A示出了会聚的可用FOV 500,以及图5B示出了非会聚的可用FOV 502。图5A和图5B中所示的可用FOV 500、502的实施例仅用于说明。图5A和图5B不将本公开的范围限制于相机阵列的任何特定实现。
如图5A和图5B所示,立体和自动立体渲染系统通常采用离轴会聚模式,其中立体相机对,诸如第一相机504和第二相机506,或者立体渲染系统400的多个相机向内移动,使得对应于第一相机504的第一FOV 508和对应于第二相机506的第二FOV 510会聚为投影平面512处的会聚可用FOV 500,如图5A所示。离轴会聚模式也称为“平行轴非对称视锥体透视投影”。平行轴非对称视锥体透视投影模式是创建立体对的理想方式,因为它与人类视觉的工作方式非常接近。离轴会聚模式产生会聚的可用FOV 500。会聚可用FOV 500表示来自第一FOV 508和第二FOV 510的投影平面512上的最大FOV量。
相反,如图4B所示,几个立体和多相机捕获装备安装了其传感器不能移动的物理相机,使得第一相机504的光轴和第二相机506的光轴平行,并在投影平面512处产生非会聚的可用FOV 502。这些立体图像帧或视频帧不可以直接用于通过自动立体渲染系统观看,因此可对图像应用平移和/或剪切变换。然而,这些技术导致第一FOV 508和/或第二FOV 510的显著裁剪。
尽管图5A和图5B示出了可用的FOV 500、502,但是可以对图5A和图5B进行各种改变。例如,图5A和图5B的可用FOV 500、502和相应部件的大小、形状和尺寸可根据需要或期望而变化。此外,在可用FOV 500、502的操作中使用的各种部件的数量和放置可根据需要或期望而变化。此外,可用FOV 500、502可以用于任何其他合适的成像过程,并且不限于上述特定过程。
图6A至图6F示出了根据本公开的图像阵列600的示例FOV复原。具体地,图6A示出了图像阵列600,图6B示出了变换后的图像阵列602,图6C示出了变换后的图像阵列602的可用FOV 604,图6D示出了来自变换后的图像阵列602的空白区域606,图6E示出了变换后的图像阵列600的分级复原608,以及图6F示出了放大的第一变换帧00。图6A至图6F所示的实施例仅用于说明。图6A至图6F不将本公开的范围限制于电子设备的任何特定实现。
如图6A所示,从一维(1D)25×1线性相机阵列中捕获一组视频帧,在该阵列中,相同的相机沿水平轴排列。图像阵列600的帧00-24由在线性装备中设置的具有平行相机设置的相机阵列402捕获。对应于相机或光学传感器的FOV的每一帧中的原始FOV可是大约66°。第一帧00对应于线性相机阵列402的第一端处的成像传感器,以及帧24对应于线性相机阵列402的与第一端相对的第二端处的成像传感器。图像阵列600中描绘的场景是靠墙的桌子,桌子上铺满填充玩具,并且在每一侧都有盆栽植物。第一帧00捕获场景左侧的最远点,第25帧24捕获场景右侧的最远点。参考帧610对应于所示实施例中的第13帧12。通常,用于FOV复原的参考帧610利用从朝向相机阵列402的中心的相机捕获的帧。然而,这不是限制性的,并且图像阵列600中的任何帧都可被选择作为默认或参考帧。所示实施例中的参考帧610描绘了整个桌子和所有填充玩具以及桌子的两侧上的每个盆栽植物的一部分。
如图6B所示,使用具有平行光轴的多相机设置捕获的图像帧00-24或视频帧的感应平移和/或剪切浪费了大部分FOV。FOV复原需要平移变换之后的相应帧。除了参考帧610(帧12)之外,在每个帧00-24中沿水平方向的裁剪清晰可见。此外,图像的裁剪量与相机阵列402中相应相机距中心相机的距离成比例。这种裁剪导致所渲染的立体内容的实际或可用FOV减少。对于本文给出的说明性示例,可用的FOV从66°减少到大约24°,如图6C所示。FOV复原旨在复原由于应用于图像帧和/或视频帧的移位和/或剪切变换而丢失的FOV,图像帧和/或视频帧是从多相机阵列402中的相机的物理平行排列获得的,以用于在自动立体显示器(诸如显示器406)中进行渲染。
如图6C所示,FOV 612基于相机阵列402中参考帧610中的场景区域。从参考帧610的左侧FOV边界614到右侧FOV边界616,FOV 612包括盆栽植物的一部分、桌子上的许多填充玩具以及另一盆栽植物的一部分。可用FOV604是基于从每个相机观看的场景的区域确定的。换句话说,可用FOV 604的左侧可用FOV边界618基于位于相机阵列402右侧最远的相机的成像传感器。可用FOV 604的右侧可用FOV边界620基于位于相机阵列402左侧最远的相机上的成像传感器。作为说明性示例,图6D示出了空白区域606,该空白区域对应于参考帧610中相应帧没有捕获到的区域。例如,对应于位于相机阵列402中最左边的相机的帧00捕获参考帧610左边的场景,如图6A所示。第一空白区域606a对应于参考帧610中未在第一帧00中捕获的区域。类似地,第二空白区域606b、第三空白区域606c、第四空白区域606d和第五空白区域606e分别对应于参考帧610中没有在第二帧01、第三帧02、第四帧03和第五帧04中捕获的区域。第一空白区域606a确定右边可用FOV边界620,以及第二十五空白区域确定左边可用FOV边界618。
如图6E和图6F所示,分级复原608可用于填充变换图像阵列602中每一帧的空白区域606。作为说明性示例,图6E示出了用于填充第一帧00的第一空白区域606a的过程,以及为了便于描述,图6F示出了放大的空白区域606。因为在序列中离第一帧00较远的每个帧在取向和差异上具有越来越大的差异,所以使用来自离第一相机较远的相机捕获的帧的补片来填充空白区域606更明显。然而,来自更靠近第一相机的相机的帧也具有空白区域606。在某些实施例中,第一帧00中的第一空白区域606a和第二帧01中的第二空白区域606b之间的差异可被确定为第一帧01的空白区域606的空白部分622和帧01的区域中的补片。
在某些实施例中,空白部分622和补片624可基于不同的标准来确定。例如,空白部分622和补片624可基于空白部分622的每一个的空白区域606的等分面积来确定。在这种情况下,将基于第一帧00的空白区域606a和另一帧之间的差异来确定对应补片的帧,该差异超过等分的空白部分大小。在另一个示例中,空白部分622的大小可基于为补片624跳过特定数量的帧来确定。帧的数量可以是相同的,诸如两个帧,也可以是不同的,诸如图6E所示。在确定第一空白部分622a之后,确定相应的第一空白补片624a。在说明性示例中,从第五帧04复制第一空白补片624a,并将其插入第一空白部分622a。从第八帧07复制第二空白补片624b,并将其插入第二空白部分622b。从第十帧09复制第三空白补片624c,并将其插入第三空白部分622c。从第十二帧11复制第四空白补片624d,并将其插入第四空白部分622d。从第十四帧13复制第五空白补片624e,并将其插入第五空白部分622e。如果最终补片超过最终空白部分,则可使用部分空白补片,或者可用参考帧610的相应部分来填充剩余空白部分。
在某些实施例中,帧可包括会聚平面上的特征点624。特征点624可用于识别帧之间的平移。特征点624的平移可用于识别空白区域606的尺寸。例如,树袋熊可位于如图6A所示的框架的会聚平面上。因此,树袋熊的横向平移显示为在帧03和帧04之间移动。如果帧04被用作第一帧或参考帧,则树袋熊的横向平移可以用于确定帧03的空白区域。
在某些实施例中,在第一帧中识别特征点,并在第二帧中识别对应的特征点。然后,使用特征点在帧之间估计几何变换矩阵(诸如单应矩阵)。可从几何变换矩阵的平移分量中确定空白区域的尺寸。
在某些实施例中,首先使用运动推断结构(Sf M)和多视图立体视觉(MVS)来重建密集3D场景几何结构。如果相机内部和外部参数是已知的(例如,经由相机校准),则在3D重建期间使用这些参数。否则,多个相机的位置和取向可以根据未校准和/或非结构化的3D重建技术来确定,例如COLMAP中使用的参数。根据场景中局部几何结构的最佳表示,可以使用点云、网格或者点云和网格两者的混合来表示重建的场景几何结构。通过从与对应于序列中每个图像的真实相机相同的位置和取向投影(重新成像)重建的3D几何结构,使用具有适当宽的FOV或非对称视锥体的虚拟透视相机来生成对应于每个图像中空白区域606的补片。此外,图像内嵌技术可以用于填充投影图像补片中的任何遮挡孔洞。最后,将图像补片扩大到平移和/或剪切的图像的每一个中,以填充FOV 612的空白区域606。
在某些实施例中,可以通过用虚拟相机阵列对重建的3D几何结构进行再成像来生成来自不同视点的一组完整图像,而不仅仅是空白区域606。在某些实施例中,虚拟相机具有比原始物理相机更大的FOV,但是采用与原始物理相机相同类型的平行轴配置。基于物理相机的FOV、自动立体显示器所需的FOV或FOV以及投影平面的深度来确定虚拟相机的FOV。新生成的图像(具有较大的FOV)经历自动立体观看所需的相同类型的平移和/或剪切变换。
在某些实施例中,在生成一组完整图像时,虚拟相机可以采用虚拟传感器移位或非对称视锥体。虚拟相机阵列中特定虚拟相机的传感器偏移量或视锥体的不对称度是虚拟相机距中心或参考相机的距离的函数(并且随着该距离的增大而增加)。由于传感器移位或非对称视锥体,生成的图像可通过自动立体显示器直接观看。
在某些实施例中,可以使用专门用于视图外推的基于深度学习的视图合成技术来合成平移和/或剪切图像中的每一个中的空白区域606。然而,不是直接使用预训练用于视图外推的网络,而是使用稍微修改的架构来使网络能够利用来自序列中其他图像的场景信息。
在另一个实施例中,可使用增量和迭代的新视图外推,其中从一组真实图像和先前合成的视图合成新视图,从而增量地增加该组相机图像内的FOV重叠。像前面讨论的方法一样,视图外推算法不需要完全盲,相反,它可使用来自集合中其他图像的信息。
在上述技术中生成的补片可能表现出略微不同的图像特征(诸如颜色变化、尺寸变化等。)因此,可以在边界处应用过滤,以将原始图像与合成的空白区域606无缝地结合。
在又一个实施例中,原始图像(在平移和/或剪切变换之前)用于形成场景的分层深度表示,诸如多平面图像(MPI)。层深度图像可以经由深度学习网络获得,如用于新视图合成的局部光场融合。根据虚拟相机的位置和取向,通过组合分层深度的各部分,可从场景的类似MPI的表示中重建场景的新视图。因此,基于MPI的视图合成技术可与上述几何重投影技术结合使用,以复原平移和/或剪切图像的每一个中FOV的缺失区域。
在另一个实施例中,可以有意地扰动物理相机阵列402中的几个相机的旋转,以产生不同程度的前束配置,从而增加相机阵列402中的几个相机子集之间的FOV重叠。旋转的角度可以取决于场景的几何形状和场景离相机阵列402的距离。由于具有会聚光轴的相机在FOV中将具有明显的重叠,所以在平移和/或剪切变换期间,FOV的损失可被最小化。在又一个实施例中,这种相机前束技术可与本公开中讨论的前述方法相结合,以用于复原FOV。
尽管图6A至图6F示出了图像阵列600的FOV复原,但是可以对图6A至图6F进行各种改变。例如,图像阵列600及其各个部件的大小、形状和尺寸可根据需要或期望而变化。此外,图像阵列600的各种图像的数量和排列可根据需要或期望而变化。此外,图像阵列600可以用于任何其他合适的成像过程,并且不限于上述特定过程。
图7A至图7D示出了根据本公开的示例分级FOV复原。特别地,图7A示出了分级复原700;图7B示出了分级复原700之前的示例性矫正和对准帧702;图7C示出了示例复原帧714;以及图7D示出了补片边界处的示例性不连续性703。图7A至图7D所示的分级FOV复原700的实施例仅用于说明。图7A至图7D不将本公开的范围限制于电子设备的任何特定实现。
如图7所示,分级FOV复原700可用于填充帧00-24中每一帧的空白区域606。分级FOV复原700按照从参考帧610开始的顺序对每个帧执行复原。然而,整个空白区域606是从相邻帧修补的。然而,因为按顺序处理每个帧,所以补片包括来自当前帧和参考帧之间(包括参考帧)的每个帧的补片。相机阵列402中的多个相机704捕获多个帧。
除了参考帧之外,每个帧都进行矫正并与参考帧对准,以生成第一帧702a、第二帧702b、第三帧702c等。相对于参考视图610来矫正和对准图像帧(或视频帧)。例如,如果使用1D线性装备捕获图像,其中校准数据是可用的,则首先使用内部和外部相机参数来矫正图像。然后,可以通过在每个图像中识别源自场景中的所选的会聚平面的共同特征,并使用图像对中的共同特征来寻找几何变换矩阵(诸如单应矩阵)来对准图像。然后,使用估计的变换矩阵来对准图像,以将它们渲染成适合于经由3D显示器显示。在对准过程之后,位于会聚平面上的这些公共特征点(图像点)在每个图像中具有相同的像素坐标。这个矫正和对准的步骤也在图像中产生“空白”区域,这导致光场中FOV的净损失。在第一帧和第二帧中的会聚平面处识别特征点。可使用所识别的特征点来确定第一帧和第二帧之间的变换矩阵。可根据变换矩阵的平移分量来确定补片的大小。
在矫正和对准之后,每个帧包括各自的空白区域606。第一帧702a具有第一空白区域606a,其小于第二帧702b的第二空白区域606b,这两个区域都小于第三帧702c的第三空白区域606c。
对参考帧610执行第一变换706a,以生成第一变换帧708a,其具有对应于来自第二相机704b的第一帧702a的取向。换句话说,第一变换调整参考帧610以具有与第一帧702a接近最佳的重叠。第一变换706a调整第一相机704a的参数与第二相机704b的参数之间的参考帧610。第一相机704a位于相机阵列402的中心,以及第二相机704b位于第一相机704a的一侧。无论第一相机704a和第二相机704b具有平行的光轴还是非对称视锥体,参考帧610和第一帧702a具有稍微不同的视角。第一变换706a用于适应参考帧610的视角和第一帧702a的视角之间的差异。从对应于第一帧702a中的第一空白区域606a的第一变换帧708a中选择第一补片区域710a。执行第一复原功能712a,以将来自第一变换帧708a的第一补片区域710a插入到第一帧702a的第一空白区域606a中,以生成第一复原帧714a。
对第一复原帧714a执行第二变换706b,以生成对应于来自第三相机704c的第二帧702b的第二变换帧708b。第二变换706b在第二相机704b的参数与第三相机704c的参数之间调整第一复原帧714a。第三相机704c比第二相机704b更远离相机阵列402的中心。无论第二相机704b和第三相机704c具有平行的光轴还是非对称视锥体,第一帧702a和第二帧702b都具有略微不同的视角。第二变换706b用于适应第一帧702a的视角和第二帧702b的视角之间的差异。从对应于第二帧702b中的第二空白区域606b的第二变换帧708b中选择第二补片区域710b。执行第二复原功能712b,以将来自第二变换帧708b的第二补片区域710b插入到第二帧702b的第二空白区域606b中,以生成第二复原帧714b。然后,可以将补片添加到当前选择的图像,如下表1所示。
[表1]
对第二复原帧714b执行第三变换706c,以生成对应于来自第四相机704d的第三帧702c的第三变换帧708c。第三变换706c在第三相机704c的参数与第四相机704d的参数之间调整第二复原帧714b。第四相机704d比第三相机704c更远离相机阵列402的中心。无论第三相机704c和第四相机704d具有平行的光轴还是非对称视锥体,第二帧702b和第三帧702c都具有略微不同的视角。第三变换706c用于适应第二帧702b的视角和第三帧702c的视角之间的差异。从对应于第三帧702c中的第三空白区域606c的第三变换帧708c中选择第三补片区域710c。执行第三复原功能712c,以将来自第三变换帧708c的第三补片区域710c插入到第三帧702c的第三空白区域606c中,以生成第三复原帧714c。该过程可扩展到相机阵列402中的任意数量的相机。
如图7B和图7C所示,可执行分级复原700来复原帧702中空白区域606的丢失FOV。可将一个或多个补片区域710复制并插入到相应的空白区域606中。
在某些实施例中,参考(或刚复原的FOV)图像可以使用基于深度的图像扭曲技术来扭曲,诸如基于深度图像的渲染(DI BR),以从其FOV将被复原的所选图像的视点来渲染参考图像。如果深度图可直接从许多深度感测技术中的一种获得,诸如LI DAR、立体相机、结构光感测等,则可以直接使用深度图。或者,可以使用基于立体的深度估计技术来估计每个视图的深度图。
分级复原的一些优点是,来自最近视点的补片在透视和遮挡关系方面具有最小的差异。对于基于深度的扭曲,扭曲后补片产生最少量的去遮挡孔洞。这些补片的亮度也最接近。因此,在复原的图像714中,可最小化补片边界处的亮度不连续性。
如图7D所示,尽管分级FOV复原方法具有上述优点,但亮度和其他不连续性仍可能出现在补片边界处。此外,如果不采用基于深度的扭曲来扭曲参考(或刚复原的图像),则深度不连续性可能出现在远离会聚平面的区域中的补片边界处。示例图像中的会聚平面被设置为非常接近经过坐着的人的平面。图像右侧的白色竖直线显示了补片边界。插入A显示了远离会聚平面的区域,这些区域在补片边界处表现出深度不连续性。插入B和插入C显示了非常接近会聚平面的区域,这些区域在补片边界处没有表现出深度不连续性。
在某些实施例中,可在边界处使用阿尔法混合,同时将补片添加到图像以复原丢失的FOV,从而创建平滑过渡。一旦确定了补片尺寸,就生成了掩模(MP),该掩模在补片边界附近具有线性梯度(从0到1)部分,然后在该区域的其余部分中具有常数值1。掩模的尺寸与补片的尺寸相匹配。梯度部分的宽度可以与深度不连续的程度和期望的平滑程度成比例地改变。还可以通过从1中减去MP来生成互补掩模(MI)。然后,可以将补片添加到当前选择的图像,如等式1和等式2所示。
等式1 pat ch = from_i mage[:, w - pw :, :]
等式2 t o_i mage[:, w - pw :, :] = MI * t o_i mage[:, w - pw :, :]+MP*pat ch
在某些实施例中,如果对应的深度图可用,则可以基于深度将可变的模糊量应用到补片,以减少深度不连续的影响。在本公开中讨论的丢失FOV的重建的所有实施例采用FOV缺失部分的自动检测(即,在矫正和对准期间每个视图中的FOV丢失)。
在某些实施例中,根据速度和复杂度之间的权衡,可以使用以下两种方法中的一种来确定经矫正和对准的视图中FOV的缺失部分的尺寸和位置。第一种方法可根据几何变换矩阵的平移分量来确定FOV的空白区域的大小,该几何变换矩阵是使用源自参考视图中的会聚平面的特征点和目标视图中的对应特征点来估计的,目标视图中的对应特征点的FOV将在对准之前被复原。第二种方法通过将目标视图与紧邻的先前FOV复原的视图(或参考视图)进行比较,并在目标视图中找到不重叠的区域,来确定FOV的空白区域的大小。虽然第一种方法简单快速,但不如第二种更复杂的方法准确。
尽管图7A至图7D示出了分级FOV复原700,但是可以对图7A至图7D进行各种改变。例如,分级FOV复原700中各个部件的大小、形状和尺寸可根据需要或期望而变化。此外,分级FOV复原700的各种部件的数量和放置可根据需要或期望而变化。此外,分级FOV复原700可以用于任何其他合适的成像过程,并且不限于上述特定过程。
图8A和图8B示出了根据本公开的分级FOV复原的示例方法。具体地,图8A示出了用于分级FOV复原的示例方法800;以及图8B示出了用于分级FOV复原的示例方法801。为了便于解释,图8A和图8B的方法800、801被描述为使用图4的立体渲染处理器404来执行。然而,方法800、801可以与任何其他合适的系统和任何其他合适的处理器一起使用。方法800、801描述了从相机阵列402获取图像阵列,诸如图像阵列600的FOV复原。参考帧610是对应于在相机阵列402中心的相机704a的帧。处理器404按顺序处理相机阵列402的剩余帧。
如图8A所示,在步骤802,处理器404接收帧,并确定该帧是否与参考帧相邻。“接收”可指从远程电子设备无线接收、通过有线连接从外部电子设备接收、或者从电子设备的存储器从存储装置加载。从参考帧开始按顺序接收帧。当从参考帧的多个方向捕获帧时,处理器404可确定从参考帧开始处理帧的第一方向。
在步骤804,当在步骤802中确定接收的帧与参考帧相邻时,处理器404选择参考帧作为第一帧。由于帧是从参考帧开始按顺序处理的,所以参考帧是FOV复原直接相邻帧时选择的初始第一帧。选择参考帧作为步骤810至816的第一帧。
在步骤806,当在步骤802中确定接收的帧不与参考帧相邻时,处理器404选择先前的立体渲染帧作为第一帧。接收帧不直接与参考帧相邻意味着至少一个帧先前已经被处理过。处理器404确定最近处理的帧,该帧被选为步骤810至816的第一帧。
在步骤808,处理器404选择接收的帧作为第二帧。对于步骤810至816,紧邻第一图像的未复原视图被指定为第二图像。接收的帧包括空白区域606。在从参考帧610顺序移开的每一帧中增大空白区域606的大小。空白区域606基于在接收帧或第二帧中捕获的场景区域与在参考帧中捕获的场景区域之间的差异。
在步骤810,处理器404估计将第一图像与第二图像相关联的2D-2D变换矩阵。由于第一图像和第二图像的稍微不同的取向,生成2D-2D变换矩阵来变换第一帧,以在与第二帧相似的取向上出现。换句话说,扭曲第一帧,以与第二帧具有接近最佳的重叠。几何变换的示例可以包括单应变换矩阵或仿射变换矩阵,其扭曲参考图像,使得在重叠区域中扭曲的参考图像和选择的图像之间存在接近最佳的重叠(如普氏重叠)。应注意,由于两幅图像之间透视的基本差异,除了会聚平面附近或会聚平面处的点之外,重叠不会在任何地方都是精准的。
在步骤812,处理器404使用估计的变换矩阵扭曲第一图像。将2D-2D变换矩阵应用到第一帧,以生成第一帧的扭曲版本。一系列帧中的第一帧不受影响。也即,临时存储帧的扭曲版本。在某些实施例中,可将2D-2D变换矩阵应用于第一帧的区域,该区域对应于第二帧中空白区域606的区域。在某些实施例中,能够以产生第二帧的空白区域606的方式将2D-2D变换矩阵应用于第一帧的区域。换句话说,为了正确地扭曲第一帧,扭曲可能需要空白区域606的区域之外的区域。
在步骤814,处理器404确定要从扭曲的第一图像复制的补片的尺寸。可将第二帧中的空白区域606的尺寸确定为来自第一帧的补片的尺寸。处理器404可将空白区域606的面积确定为第二帧中捕获的场景的面积与参考帧中捕获的场景的面积之差。可从用于在矫正和对准期间对准图像的所述几何变换矩阵的平移分量中导出补片的尺寸。
在步骤816,处理器404从扭曲的第一图像复制补片,并将补片插入或添加到第二图像。处理器404基于在步骤814中确定的补片尺寸来选择补片。处理器404将来自第一帧的补片插入第二帧的空白区域。
在步骤818,处理器404确定是否已经为参考帧当前侧的所有帧复原了FOV。由于在参考帧的每一侧捕获了一个以上的帧,处理器404在步骤810至816中顺序处理每个帧。当确定在第二帧之后存在帧时,方法800返回到步骤806。当第二帧是参考帧一侧的一系列帧中的最后一帧时,方法800进行到步骤820。在上面的表1以及等式1和等式2中提供了该步骤的伪代码。
在步骤820,处理器404确定是否已经在参考帧的所有侧上复原了FOV。处理器404可确定在与参考帧直接相邻的帧上是否还未处理空白区域。如果空白区域存在于与参考帧直接相邻的帧中,则方法800返回到步骤802。如果空白区域不再存在于与参考帧直接相邻的帧中,则完成FOV复原。对于1D相机阵列装备,可在两侧复原FOV,以及对于2D相机阵列装备,可在四侧复原FOV。
如图8B所示,在步骤822中,处理器404可选择视图作为参考视图。参考视图可是对应于在相机阵列中心的相机的帧、对应于在相机阵列末端的相机的帧或者参考帧的任何其他选择。
在步骤824中,处理器404将来自相机阵列中的相机的每个帧与所选择的参考帧进行矫正和对准。每一帧的FOV是基于相应帧与参考帧相比共同捕获的场景数量来确定的。这在除参考帧之外的每个帧中产生空白区域。由于参考帧会与其自身进行比较,因此参考帧捕获的整个场景就是FOV。
在步骤826中,处理器404确定真实相机的数量和密度是否足以产生合适的几何结果。当处理器404确定真实相机的数量和密度不足以产生合适的几何结果时,方法801继续方法800的操作。当处理器404确定真实相机的数量和密度足以产生合适的几何结果时,方法801进行到步骤828。
在步骤828中,处理器404估计内部和外部相机参数。参数示例可包括高度、取向等,这对于相机阵列中的每个相机可是不同的。
在步骤830中,处理器404重建场景的密集几何表示。处理器404可使用当前帧来构建密集几何表示。从相机阵列捕获的帧可用于构建点云或其他3D模型。
在步骤832中,处理器404可在重建场景周围,按照场景中真实相机的相应位置和相应取向放置虚拟相机。在步骤834中,处理器404可横向移动虚拟相机的图像平面,以便对矫正和对准期间丢失的每个虚拟相机中的场景的一些部分进行重新成像。在步骤836中,处理器404可使用2D图像内嵌技术来填充重新成像的补片中的孔洞。在步骤840中,处理器404可将补片添加到对应的经矫正和对准的视图中,以复原FOV。
尽管图8A和图8B示出了用于分级FOV复原的示例方法800、801,但是可以对图8A和图8B进行各种改变。例如,虽然示出为一系列步骤,但图8A和图8B中的各个步骤可以重叠、并行发生或发生任意次数。
图9示出了根据本公开的用于复原经由平行相机设置捕获的用于立体渲染的图像的FOV的示例方法900。为了便于解释,图9的方法900被描述为使用图9的处理器404来执行。然而,方法900可以与任何其他合适的系统和任何其他合适的处理器一起使用。
如图9所示,在步骤902,处理器404从线性相机阵列接收场景捕获的多个帧。“接收”可指从远程电子设备无线接收、通过有线连接从外部电子设备接收、或者从电子设备的存储器从存储装置加载。从参考帧开始按顺序接收帧。当从参考帧的多个方向捕获帧时,处理器404可确定从参考帧开始处理帧的第一方向。
在步骤904,处理器404从多个帧中选择第一帧和第二帧。第一帧可是参考帧。相对于捕获第一帧和第二帧中的每一个的线性相机阵列402中的相机的位置,第二帧可与第一帧直接相邻。
在步骤906,处理器404将第一帧和第二帧矫正和对准到参考帧,其中第二帧的空白区域具有比第一帧的空白区域更大的面积。对第一帧和第二帧中的每一个的矫正和对准分别产生具有第一帧和第二帧的原始信息的帧,该原始信息在参考帧的FOV内。所得的第一帧和第二帧可各自具有空白区域,各个空白区域具有不同的尺寸。当第一帧是参考帧时,第一帧可以不具有空白区域。
在步骤908,处理器404变换第一帧以匹配第二帧的取向。处理器404可估计第一帧和第二帧之间的变换矩阵。处理器404可使用变换矩阵将第一帧扭曲到第二帧的取向。扭曲将第一帧修改为与第二帧具有接近最佳的重叠。应用变换矩阵来创建场景中特定深度处的零视差平面的会聚平面。
在步骤910,处理器404将来自变换后的第一帧的补片插入第二帧的空白区域。基于第二帧的空白区域来确定补片的大小。一旦将补片插入到第二帧的空白区域,第二帧马上被复原到参考帧的FOV。
可从包括第三帧的参考帧开始按顺序对每个帧重复步骤904至910。也从线性相机阵列的第二方向上的参考帧开始按顺序对每个帧重复步骤904至910,包括第四帧。
尽管图9示出了用于复原经由平行相机设置捕获的用于立体渲染的图像的FOV的方法900的一个示例,但是可以对图9进行各种改变。例如,虽然示出为一系列步骤,但图9中的各个步骤可以重叠、并行发生或发生任意次数。
虽然已经用示例性实施例描述了本公开,但是可以向本领域技术人员提出各种改变和修改。本公开旨在包含落入所附权利要求书范围内的此类变化和修改。本申请中的任何描述都不应被理解为暗示任何特定的元件、步骤或功能是必须包括在权利要求范围内的基本要素。专利主题的范围由权利要求限定。
Claims (15)
1.一种装置,包括:
至少一个存储器,其配置成接收从相机阵列捕获的场景的多个帧;以及
至少一个处理器,其可操作地耦接到所述至少一个存储器,所述处理器配置成:
从所述多个帧中选择第一帧和第二帧;
将所述第一帧和所述第二帧矫正和对准到参考帧,其中所述第二帧的空白区域具有比所述第一帧的空白区域更大的面积;
将所述第一帧变换成与所述第二帧具有接近最佳的重叠;以及
将所述变换的第一帧中的补片插入所述第二帧的空白区域。
2.如权利要求1所述的装置,其中所述处理器还配置成:
从所述多个帧中选择第三帧,
将所述第三帧矫正和对准到参考帧,其中所述第三帧的空白区域具有比所述第二帧的空白区域更大的面积,
变换包括所述补片的所述第二帧,以与所述第三帧具有接近最佳的重叠,以及
将来自所述变换的第二帧的第二补片和经变换的补片插入所述第三帧的空白区域。
3.如权利要求1所述的装置,其中:
所述第一帧是位于所述多个帧的中心的参考帧,以及
所述处理器还配置成:
选择第四帧,所述第四帧在所述第一帧的与所述第二帧相对的一侧上,
将所述第四帧矫正和对准到参考帧,其中所述第四帧的空白区域具有比所述第一帧的空白区域更大的面积,
将所述第一帧变换成与所述第四帧具有接近最佳的重叠;以及
将所述变换的第一帧中的第三补片插入所述第四帧的空白区域。
4.如权利要求1所述的装置,其中,为了将所述第一帧变换为与所述第二帧具有接近最佳的重叠,所述处理器还配置成:
估计所述第一帧和所述第二帧之间的变换矩阵,以及
使用所述变换矩阵扭曲所述第一帧。
5.如权利要求1所述的装置,其中所述第一帧是参考帧。
6.如权利要求1所述的装置,其中所述处理器还配置成:
通过找到所述第一帧和所述第二帧之间的不重叠区域,从所述变换的第一帧确定所述补片的尺寸。
7.如权利要求1所述的装置,其中所述处理器还配置成:
识别所述第一帧和所述第二帧中会聚平面处的特征点;
使用所述识别的特征点确定所述第一帧和所述第二帧之间的变换矩阵;以及
从所述变换矩阵的平移分量确定所述补片的尺寸。
8.一种方法,包括:
接收从相机阵列捕获的场景的多个帧;
从所述多个帧中选择第一帧和第二帧;
将所述第一帧和所述第二帧矫正和对准到参考帧,其中所述第二帧的空白区域具有比所述第一帧的空白区域更大的面积;
将所述第一帧变换成与所述第二帧具有接近最佳的重叠;以及
将所述变换的第一帧中的补片插入所述第二帧的空白区域。
9.如权利要求8所述的方法,还包括:
从所述多个帧中选择第三帧;
将所述第三帧矫正和对准到参考帧,其中所述第三帧的空白区域具有比所述第二帧的所述空白区域更大的面积;
变换包括所述补片的所述第二帧,以与所述第三帧具有接近最佳的重叠;以及
将来自所述变换的第二帧的第二补片和经变换的补片插入所述第三帧的空白区域。
10.如权利要求8所述的方法,其中:
所述第一帧是位于所述多个帧的中心的参考帧,以及
所述方法还包括:
选择第四帧,所述第四帧在所述第一帧的与所述第二帧相对的一侧上,
将所述第四帧矫正和对准到参考帧,其中所述第四帧的空白区域具有比所述第一帧的所述空白区域更大的面积;
将所述第一帧变换成与所述第四帧具有接近最佳的重叠;以及
将所述变换的第一帧中的第三补片插入所述第四帧的空白区域。
11.如权利要求8所述的方法,其中,为了将所述第一帧变换为与所述第二帧具有接近最佳的重叠,所述方法包括:
估计所述第一帧和所述第二帧之间的变换矩阵,以及
使用所述变换矩阵扭曲所述第一帧。
12.如权利要求8所述的方法,其中所述第一帧是参考帧。
13.如权利要求8所述的方法,还包括:
通过找到所述第一帧和所述第二帧之间的不重叠区域,从所述变换的第一帧确定所述补片的尺寸。
14.如权利要求8所述的方法,还包括:
识别所述第一帧和所述第二帧中会聚平面处的特征点;
使用所述识别的特征点确定所述第一帧和所述第二帧之间的变换矩阵;以及
从所述变换矩阵的平移分量确定所述补片的尺寸。
15.一种非暂时性计算机可读介质,其包括指令,所述指令在被执行时致使处理器用于:
接收从相机阵列捕获的场景的多个帧;
从所述多个帧中选择第一帧和第二帧;
将所述第一帧和所述第二帧矫正和对准到参考帧,其中所述第二帧的空白区域具有比所述第一帧的空白区域更大的面积;
将所述第一帧变换成与所述第二帧具有接近最佳的重叠;以及
将所述变换的第一帧中的补片插入所述第二帧的空白区域。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063070053P | 2020-08-25 | 2020-08-25 | |
US63/070,053 | 2020-08-25 | ||
US17/408,237 | 2021-08-20 | ||
US17/408,237 US11758101B2 (en) | 2020-08-25 | 2021-08-20 | Restoration of the FOV of images for stereoscopic rendering |
PCT/KR2021/011390 WO2022045779A1 (en) | 2020-08-25 | 2021-08-25 | Restoration of the fov of images for stereoscopic rendering |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115997379A true CN115997379A (zh) | 2023-04-21 |
Family
ID=80353666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180052089.4A Pending CN115997379A (zh) | 2020-08-25 | 2021-08-25 | 用于立体渲染的图像fov的复原 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11758101B2 (zh) |
EP (1) | EP4154527A4 (zh) |
CN (1) | CN115997379A (zh) |
WO (1) | WO2022045779A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230097584A1 (en) * | 2021-09-27 | 2023-03-30 | Ford Global Technologies, Llc | Object pose estimation |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011135246A (ja) * | 2009-12-24 | 2011-07-07 | Sony Corp | 画像処理装置、撮像装置、および画像処理方法、並びにプログラム |
US8774267B2 (en) | 2010-07-07 | 2014-07-08 | Spinella Ip Holdings, Inc. | System and method for transmission, processing, and rendering of stereoscopic and multi-view images |
CN102971770B (zh) * | 2011-03-31 | 2016-02-10 | 松下电器产业株式会社 | 进行全周围立体图像的描绘的图像描绘装置、图像描绘方法 |
WO2013067683A1 (en) | 2011-11-08 | 2013-05-16 | Industrial Technology Research Institute | Method and image acquisition system for rendering stereoscopic images from monoscopic images |
US10275935B2 (en) | 2014-10-31 | 2019-04-30 | Fyusion, Inc. | System and method for infinite synthetic image generation from multi-directional structured image array |
US9930315B2 (en) | 2015-04-29 | 2018-03-27 | Lucid VR, Inc. | Stereoscopic 3D camera for virtual reality experience |
EP3403403B1 (en) | 2016-01-12 | 2023-06-07 | Shanghaitech University | Calibration method and apparatus for panoramic stereo video system |
US9934615B2 (en) | 2016-04-06 | 2018-04-03 | Facebook, Inc. | Transition between binocular and monocular views |
US10257501B2 (en) * | 2016-04-06 | 2019-04-09 | Facebook, Inc. | Efficient canvas view generation from intermediate views |
US9811946B1 (en) * | 2016-05-30 | 2017-11-07 | Hong Kong Applied Science and Technology Research Institute Company, Limited | High resolution (HR) panorama generation without ghosting artifacts using multiple HR images mapped to a low resolution 360-degree image |
GB2568647B (en) | 2016-09-19 | 2022-04-20 | Tau Tech Llc | Multi-camera imaging systems |
CN110546951B (zh) | 2017-04-27 | 2021-10-26 | 谷歌有限责任公司 | 合成立体视觉图像内容捕获 |
JP7149322B2 (ja) | 2017-07-17 | 2022-10-06 | ビュージックス コーポレーション | 両眼式バーチャルイメージング装置の画像シフト補正 |
EP3493148A1 (en) | 2017-11-30 | 2019-06-05 | Thomson Licensing | View synthesis for unstabilized multi-view video |
DE102018130770A1 (de) | 2017-12-13 | 2019-06-13 | Apple Inc. | Stereoskopische Wiedergabe von virtuellen 3D-Objekten |
-
2021
- 2021-08-20 US US17/408,237 patent/US11758101B2/en active Active
- 2021-08-25 WO PCT/KR2021/011390 patent/WO2022045779A1/en unknown
- 2021-08-25 EP EP21862076.3A patent/EP4154527A4/en active Pending
- 2021-08-25 CN CN202180052089.4A patent/CN115997379A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US11758101B2 (en) | 2023-09-12 |
WO2022045779A1 (en) | 2022-03-03 |
US20220070426A1 (en) | 2022-03-03 |
EP4154527A4 (en) | 2023-10-25 |
EP4154527A1 (en) | 2023-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102431117B1 (ko) | 포인트 클라우드 맵핑 | |
US11373338B2 (en) | Image padding in video-based point-cloud compression CODEC | |
US10984589B2 (en) | Systems and methods for reference-model-based modification of a three-dimensional (3D) mesh data model | |
US11348283B2 (en) | Point cloud compression via color smoothing of point cloud prior to texture video generation | |
EP3560195B1 (en) | Stereoscopic omnidirectional imaging | |
CN106797460B (zh) | 三维视频的重建 | |
Kuster et al. | Gaze correction for home video conferencing | |
WO2020192706A1 (zh) | 物体三维模型重建方法及装置 | |
US9684953B2 (en) | Method and system for image processing in video conferencing | |
EP2328125B1 (en) | Image splicing method and device | |
US10497140B2 (en) | Hybrid depth sensing pipeline | |
US11095854B2 (en) | Viewpoint-adaptive three-dimensional (3D) personas | |
CN111247562A (zh) | 使用混合变换的点云压缩 | |
EP3434021B1 (en) | Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices | |
US11415935B2 (en) | System and method for holographic communication | |
KR20200031678A (ko) | 장면의 타일식 3차원 이미지 표현을 생성하기 위한 장치 및 방법 | |
US20230018560A1 (en) | Virtual Reality Systems and Methods | |
CN107197135B (zh) | 一种视频生成方法及视频生成装置 | |
KR101725024B1 (ko) | 룩업테이블 기반의 실시간 360도 vr 동영상 제작 시스템 및 이를 이용한 360도 vr 동영상 제작 방법 | |
JP6575999B2 (ja) | 照明情報取得装置、照明復元装置、およびこれらのプログラム | |
CN115997379A (zh) | 用于立体渲染的图像fov的复原 | |
US20140347352A1 (en) | Apparatuses, methods, and systems for 2-dimensional and 3-dimensional rendering and display of plenoptic images | |
CN105282534B (zh) | 用于嵌入立体图像的系统及方法 | |
KR102146839B1 (ko) | 실시간 가상현실 구축을 위한 시스템 및 방법 | |
RU2771957C2 (ru) | Устройство и способ для генерации мозаичного представления трехмерного изображения сцены |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |