CN110942441A - 具有流估计和图像超分辨率的多相机阵列图像的视图插补 - Google Patents

具有流估计和图像超分辨率的多相机阵列图像的视图插补 Download PDF

Info

Publication number
CN110942441A
CN110942441A CN201910783930.1A CN201910783930A CN110942441A CN 110942441 A CN110942441 A CN 110942441A CN 201910783930 A CN201910783930 A CN 201910783930A CN 110942441 A CN110942441 A CN 110942441A
Authority
CN
China
Prior art keywords
image
neural network
convolutional neural
resolution
intermediate image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910783930.1A
Other languages
English (en)
Inventor
宾迪塔·乔杜里
张帆
奥斯卡·内斯塔雷斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN110942441A publication Critical patent/CN110942441A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/20Linear translation of whole images or parts thereof, e.g. panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/951Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及具有流估计和图像超分辨率的多相机阵列图像的视图插补。论述了与从多视图图像插补中间视图图像有关的技术。这种技术包括对表示场景的视图的第一图像和第二图像进行下采样,基于将第一CNN应用到缩减的第一图像和第二图像来生成视差图,利用视差图来平移缩减的第一图像和第二图像,将第二CNN应用到平移的缩减第一图像和平移的缩减第二图像以及视差图以生成缩减的中间图像,并且利用图像超分辨率卷积神经网络将缩减的中间图像扩增到具有第一图像和第二图像的分辨率的中间图像。

Description

具有流估计和图像超分辨率的多相机阵列图像的视图插补
技术领域
本公开大体地涉及图像处理领域,具体地涉及使用深度学习的具有流估计和图像超分辨率的多相机阵列图像的视图插补。
背景技术
在多视图相机阵列图像(例如,来自场景的两个或更多个视图的图像)的情境中,在呈现给观看者的二维静态图像中创建深度的感觉和感知使得图像更有吸引力。例如,运动视差效果可被用于向用户呈现更有吸引力的图像,使得利用多相机阵列系统从不同视点捕获场景并且合成中间视图,从而使得当图像被从不同的角度观看时观看者可感知到场景中的深度信息。
用于合成中间视图的当前技术包括估计图像对之间的光流并且使用估计的流来预测中间图像。一些光流技术使用提供有限准确度的朴素数学方法,而其他光流技术使用基于补丁的方法来预测中间图像,这在有限的一组场景中提供良好的准确度,但在其能够处理的视差方面是有限的并且在计算上是非常密集的。
在多视图相机阵列或其他多视图情境中就准确度和计算效率两者改进中间视图合成,可能是有利的。正是考虑到这些和其他考虑事项,所以需要本改进。随着在多种情境中显示多视图图像和中间合成图像的愿望变得更普遍,这种改进可能变得至关重要。
发明内容
本公开的实施例提供了用于实现卷积神经网络(CNN)的系统。该系统包括:存储第一图像和第二图像存储器,其中第一图像和第二图像包括场景的不同视图并且具有第一分辨率;以及与存储器耦合的处理器。该处理器:对第一图像和第二图像进行缩减以提供第一缩减图像和第二缩减图像;至少部分地基于将第一卷积神经网络应用到第一输入体积来生成至少一个视差图,第一输入体积包括第一缩减图像和第二缩减图像,其中视差图包括视差值来平移第一缩减图像和第二缩减图像;至少部分地基于视差图来确定第一平移缩减图像和第二平移缩减图像;将第二卷积神经网络应用到第二输入体积以生成缩减的中间图像,第二输入体积包括第一平移缩减图像和第二平移缩减图像以及视差图,缩减的中间图像包括第一平移缩减图像和第二平移缩减图像之间的视图;至少部分地基于将图像超分辨率卷积神经网络应用到缩减的中间图像来生成具有第一分辨率的中间图像;并且提供中间图像来呈现给观看者。
另外,本公开的实施例提供了由上述系统执行的用于从多视图图像生成中间图像的方法,以及包括指令的计算机可读介质,所述指令当在计算设备上运行时使得该计算设备执行用于从多视图图像生成中间图像的方法。
附图说明
在附图中以示例方式而非限制方式图示了本文描述的素材。为了图示的简单和清晰,附图中图示的元素不一定是按比例绘制的。例如,为了清晰,一些元素的尺寸相对于其他元素可被夸大。另外,在认为适当时,附图标记在附图之间被重复以指示出对应的或相似的元素。在附图中:
图1图示了用于从多视图图像生成中间视图的示例设备;
图2图示了用于从示范性左右图像生成示例中间视图的示例系统;
图3图示了示例视图合成网络,包括示例图像扭曲子网络和示例颜色预测子网络;
图4图示了示例光流卷积神经网络;
图5图示了示例图像超分辨率卷积神经网络;
图6A、6B、6C和6D分别图示了利用本文论述的技术生成的示例右输入图像、示例左输入图像、示例视差图和示例中间图像;
图7是图示出用于训练视图合成网络和图像超分辨率CNN的示例过程的流程图;
图8是图示出用于从多视图图像生成中间图像的示例过程的流程图;
图9是用于从多视图图像生成中间图像的示例系统的示意图;
图10是示例系统的示意图;并且
图11图示了全都根据本公开的至少一些实现方式布置的示例设备。
具体实施方式
现在参考附图描述一个或多个实施例或实现方式。虽然论述了具体配置和布置,但应当理解这么做只是为了说明。相关领域的技术人员将认识到,在不脱离描述的精神和范围的情况下,可以采用其他配置和布置。相关领域的技术人员将会清楚,本文描述的技术和/或布置也可用在与本文所述不同的各种其他系统和应用中。
虽然接下来的描述阐述了可在诸如片上系统(SoC)体系结构之类的体系结构中显现的各种实现方式,但本文描述的技术和/或布置的实现方式不限于特定的体系结构和/或计算系统,而是可由任何体系结构和/或计算系统为类似的目的而实现。例如,采用例如多个集成电路(IC)芯片和/或封装的各种体系结构和/或诸如机顶盒、智能电话等等之类的各种计算设备和/或消费电子(CE)设备可实现本文描述的技术和/或布置。另外,虽然接下来的描述可阐述许多具体细节,例如逻辑实现方式、系统组件的类型和相互关系、逻辑分区/集成选择等等,但要求保护的主题可在没有这种具体细节的情况下实现。在其他情况下,可能没有详细示出一些素材,例如控制结构和完整软件指令序列,以免模糊本文公开的素材。
本文公开的素材可以用硬件、固件、软件或者其任何组合来实现。本文公开的素材也可实现为存储在机器可读介质上的指令,这些指令可被一个或多个处理器读取和执行。机器可读介质可包括用于以机器(例如计算设备)可读的形式存储或传输信息的任何介质和/或机构。例如,机器可读介质可包括只读存储器(ROM);随机访问存储器(RAM);磁盘存储介质;光存储介质;闪存设备;电的、光的、声的或者其他形式的传播信号(例如,载波、红外信号、数字信号等等),以及其他。
说明书中提及“一个实现方式”、“一实现方式”、“一示例实现方式”等等指示的是所描述的实现方式可包括特定的特征、结构或特性,但可能不一定每个实施例都包括该特定特征、结构或特性。另外,这种短语不一定指同一实现方式。另外,当联系一实施例来描述特定的特征、结构或特性时,认为联系其他实现方式(无论本文是否明确描述)来实现这种特征、结构或特性是在本领域技术人员的知识范围内的。
本文描述了与多视图图像的视图插补有关的方法、设备、装置、计算平台和物品,用于利用包括视图合成网络和图像超分辨率卷积神经网络在内的卷积神经网络来确定中间图像。
如上所述,生成场景的视图之间的中间视图可能是有利的。例如,可经由第一和第二相机获得场景的第一视图和第二视图(例如,左视图和右视图)。在一些情境中,希望显示中间视图(通常是就好像由第一和第二相机之间半程(halfway)处的相机拍摄的视图)。就本文使用的而言,术语“中间图像”或“中间视图”指的是来自两个其他图像或视图的感知位置之间的感知位置的图像或视图。例如,中间图像可以是就好像是从两个其他图像的图像捕获(或查看)位置之间的位置捕获(或查看)的图像。例如,中间视图可以是来自其他视图之间半程的,但是其他视图之间的任何视图都可被实现。通过提供中间视图,与由相机获得的视图相比,观看者或用户可被呈现场景的更多视图。这种观看相对于二维静态图像带来了深度感和增强的感知。
在一些实施例中,以第一分辨率获得场景的第一和第二图像,使得第一和第二图像包括(同一)场景的不同视图。第一和第二图像被缩减到小于第一分辨率的第二分辨率以生成并提供第一和第二缩减图像。就本文使用的而言,术语“分辨率”指的是图像中的像素的数目,使得每个像素具有表示用于提供图像的亮度或色度通道的强度的一个或多个值。更高的分辨率或更大的分辨率相对于更低的或更小的分辨率指示更多的图像像素。利用第一和第二缩减图像,至少部分地通过将第一卷积神经网络应用到包括第一和第二缩减图像的第一输入体积(input volume)来生成至少一个视差图。就本文使用的而言,术语“卷积神经网络”指的是包括至少一个卷积层的网络,该卷积层利用输入特征图卷积一个或多个滤波器以生成输出特征图。所述的视差图可具有任何适当的值或数据结构来将第一和第二缩减图像平移到中间视图图像。在一实施例中,应用第一卷积神经网络生成两个视差图;一个用于将第一图像平移到第二图像,第二个用于将第二图像平移到第一图像。先前所述的缩减提供了第一卷积神经网络的应用,以相对于缩减图像的具有增大的视差,以获得的改善的性能。在一实施例中,第一卷积神经网络是如本文进一步论述的编码器-解码器体系结构卷积神经网络。在一实施例中,第一卷积神经网络被应用两次:一次应用到第一输入体积,一次应用到包括第一和第二缩减图像的(利用论述的(一个或多个)视差图)扭曲或平移的版本的输入体积。第二次应用还生成一个或多个视差图,这些视差图被用于再次扭曲或平移(先前已扭曲或平移)的第一和第二缩减图像。第一卷积神经网络的这种重复提供了有利的误差校正。此外,由于同一卷积神经网络被应用两次,所以它们有利地共享了存储器使用。
所得到的第一和第二平移缩减图像(例如,平移一次或两次的)和一个或多个视差图被组合成第二输入体积。诸如体积卷积神经网络之类的第二卷积神经网络被应用到第二输入体积以生成所得到的表示第一和第二缩减图像之间的插补视图的缩减的中间图像。第一卷积神经网络提供了图像扭曲,并且第二卷积神经网络提供了颜色预测。第一和第二卷积神经网络一起提供了以缩减的分辨率生成第一和第二缩减图像之间的合成视图的视图合成网络(例如,视图合成网络生成缩减的中间图像)。
通过向缩减的中间图像应用图像超分辨率卷积神经网络以生成具有高于缩减的中间图像的分辨率的中间图像来生成(例如,具有被接收来处理的第一和第二图像的第一分辨率的)中间图像。在一实施例中,图像超分辨率卷积神经网络包括多个相邻的卷积层,然后是解卷积层,从而使得多个相邻的卷积层和解卷积层生成具有比缩减的中间图像的分辨率更大的分辨率的特征图像。缩减的中间图像也被扩增(例如,经由具有跨步解卷积(strided deconvolution)的双线性上采样)并且扩增的中间图像和特征图像(它们具有相同分辨率)被组合(例如,相加)以提供扩增的图像。扩增的图像可具有期望的分辨率或者这种处理(例如,应用多个相邻卷积层,然后是解卷积层,以生成第二特征图像,对先前扩增的图像进行扩增,并且组合两次扩增的图像和第二特征图像)可被重复任意多次以达到期望的分辨率。
论述的视图合成网络和图像超分辨率卷积神经网络在实现之前可被预训练,如本文进一步论述的。本文论述的技术提供了许多优点。例如,基于光流的视图合成技术通常要求地面真值光流信息来进行训练,这对于大规模数据是难以获得的。与之相对照,本文论述的视图合成网络作为中间步骤预测光流并且在输出处直接生成期望的输出图像(例如,缩减的中间图像),从而有利地消除了训练期间对于光流地面真值的需要。此外,论述的技术对于视图合成之前由于缩减引起的原始图像中的宽范围的视差(例如,高达150至250像素)是适用的。所得到的缩减的中间图像随后被利用超分辨率网络来扩增,带来了改善的可用视差和图像质量上的适度损耗或没有损耗。
如本文进一步论述的,插补多视图图像以确定中间图像包括应用视图合成网络和图像超分辨率卷积神经网络。视图合成网络例如对左和右图像对进行缩减并且将所得到的缩减的左右图像作为输入来生成中间(例如,居间)视图图像作为输出。视图合成网络被利用地面真值图像三元组(例如,左、右图像和中间图像)以端到端方式进行预训练。如本文所述,视图合成网络隐式地估计光流并且将其用在颜色预测子网络中来预测中间图像。图像超分辨率卷积神经网络将由视图合成网络生成的中间图像扩增到左右图像对的原始分辨率。论述的缩减有利地降低了视图插补的计算成本,这种成本降低大于使用图像超分辨率卷积神经网络进行扩增的额外成本,从而带来了净计算节省。论述的网络的系统可被部署在包括具有能够捕获场景并且创建具有嵌入的深度信息的图像的两个或更多个相机的移动系统的任何系统上。在一些实施例中,论述的系统被用作独立的网络,用于诸如视频插补、全景生成、具有6个自由度(degree of freedom,DoF)的虚拟现实内容创建生成等等之类的应用。
图1图示了根据本公开的至少一些实现方式布置的用于从多视图图像生成中间视图的示例设备100。如图1中所示,设备100包括图像信号处理器101、左相机104和右相机105,其中图像信号处理器101实现视图合成网络102和图像超分辨率卷积神经网络(CNN)103。设备100可实现在任何适当外形参数的设备中,例如个人计算机、膝上型计算机、平板设备、平板手机、智能电话、数字相机、游戏机、可穿戴设备、显示设备、一体化设备、二合一设备,等等。例如,设备100可执行如本文所述的中间视图插补。在一些实施例中,作为左相机104和右相机105的附加或替换,设备100可从存储器、另一设备、渲染引擎等等获得用于中间视图插补的多视图图像。
如图所示,左相机104接收来自场景121的入射光122。左相机104基于曝光于入射光122而生成左图像111。左相机104可以是任何适当的成像设备,例如RGB相机等等。类似地,右相机105接收来自场景121的入射光123,并且基于曝光于入射光123,生成右图像112。左相机104和右相机105可以是任何适当的成像设备,例如RGB相机等等。在一些实施例中,设备100经由通信信道(未示出)从另一设备接收左图像111和右图像112。在一些实施例中,从设备100的存储器(未示出)获得左图像111和右图像112以进行处理。左图像111和右图像112可包括任何适当的图像数据、图片数据、帧数据等等或者表示任何适当分辨率的图片的任何数据结构。在一实施例中,左图像111和右图像112是各自对于其像素具有R(红)、G(绿)和B(蓝)值的RGB图像数据。在一实施例中,左图像111和右图像112具有1920×1080像素的分辨率。
虽然在这里是对于左和右相机104、105和左图像111和右图像112图示和论述的,但本文论述的技术可对于相机和图像的任何适当布置实现。在一些实施例中,相机可被布置在彼此上下,并且/或者图像可以是顶和底图像。此外,为了呈现的清晰起见,设备100被示为具有两个相机,左相机104和右相机105。然而,设备100可包括任何数目的相机来生成相机阵列131,这种相机在x方向上间隔开(以提供水平相机阵列)、在y方向上间隔开(以提供垂直相机阵列)、或者既在x方向也在y方向上间隔开(以提供相机栅格)以生成任何数目的图像。可将任何这种图像配对并且可为图像对确定中间图像。从而,可生成任何数目的中间图像。此外,可生成这种图像对之间的多于一个中间图像。例如,可形成好像在图像对之间的半程位置(或任何其他位置)的一个中间图像,或者可形成好像在图像对之间的不同位置的多个中间图像。这里,不失一般性,这种图像对的图像通常被标注为第一和第二或者左和右图像,并且在其间插补的图像被标注为中间图像。
如图所示,图像信号处理器101接收左图像111和右图像112作为输入图像对113并且图像信号处理器101实现视图合成网络102和图像超分辨率CNN 103以生成中间图像114。注意,在应用视图合成网络102之前,左图像111和右图像112被缩减到较低分辨率以生成缩减的左右图像,缩减的左右图像被视图合成网络102处理以生成缩减的中间图像(例如,具有较低分辨率的中间图像)。缩减的中间图像随后被图像超分辨率CNN 103处理以生成中间图像114,中间图像114通常具有与左图像111和右图像112相同的分辨率。如图1中所示,中间图像114插补或近似一视图,就好像该视图是从虚拟相机106(虚拟相机106当然不是设备100的组件)获得的并且接收了入射光124一样。虽然是对于经由图像信号处理器101的实现方式图示的,但视图合成网络102和图像超分辨率CNN103(以及缩减模块和/或其他图像处理操作)可经由任何适当的处理器或者其组合来实现,例如中央处理器、图形处理器等等。
图2图示了根据本公开的至少一些实现方式布置的用于从示范性左图像和右图像生成示例中间视图的示例系统200。例如,系统200可由设备100的图像信号处理器101实现。如图2中所示,系统200包括图像大小调整模块201、视图合成网络102和图像超分辨率CNN103。还如图所示,视图合成网络102实现图像扭曲子网络203和颜色预测子网络204,其中图像扭曲子网络203执行隐式的光流估计202。此外,图像超分辨率CNN 103实现超分辨率操作205来生成中间图像114。
如图所示,系统200接收如关于图1论述的左图像111和右图像112(例如,作为输入图像对113)。图像大小调整模块201对左图像111和右图像112进行缩减以生成左缩减图像211和右缩减图像212。可利用诸如下采样技术之类的任何一个或多个适当的技术来对左图像111和右图像112进行缩减。此外,左图像111和右图像112可按任何适当的比例被缩减,例如在每个维度缩减中被缩减二倍、在每个维度缩减中被缩减四倍,等等。在一实施例中,左图像111和右图像112具有1920×1080像素分辨率并且左缩减图像211和右缩减图像212具有480×288像素分辨率,但是可以使用任何适当的分辨率。如前所述,使用左缩减图像211和右缩减图像212相对于左图像111和右图像112对于计算和存储器存储节省、减少的计算时间和增大的处理更大视差的能力可能是有利的。
左缩减图像211和右缩减图像212被视图合成网络102接收,视图合成网络102如前所述包括图像扭曲子网络203和颜色预测子网络204。在一实施例中,左缩减图像211和右缩减图像212被组合成输入体积。在一实施例中,输入体积包括以堆叠方式组合的左缩减图像211和右缩减图像212,使得左缩减图像211和右缩减图像212的每个颜色通道被对齐。在一实施例中,输入体积大小是左缩减图像211和右缩减图像212的分辨率乘以左缩减图像211和右缩减图像212的颜色通道的数目之和。例如,对于具有480×288像素分辨率的RGB左缩减图像211和右缩减图像212,输入体积可以是480×288×6,其中6表示左缩减图像211和右缩减图像212中每一者的R、G和B通道。包括卷积神经网络的视图合成网络102生成扭曲或平移的缩减图像215、216和视差图213、214。
就本文使用的而言,关于图像的术语“扭曲”或“平移”指的是图像被空间上修改以表示中间视图。这里,术语“扭曲”和“平移”是可互换使用的。例如,给定包括视差值(例如,像素偏移值)的视差图,该视差图可将图像扭曲或平移成扭曲或平移的图像。在一些实施例中,视差图213包括将左缩减图像211平移到中间视图或者平移到右缩减图像212的视差值。在前一实施例中,视差图213被应用到左缩减图像211以生成平移缩减图像215。在后一实施例中,视差图213的值的一半被应用到左缩减图像211以生成平移缩减图像215。类似地,视差图214可包括视差值来将右缩减图像212平移到中间视图或平移到左缩减图像211,从而使得在前一实施例中,视差图214被应用到右缩减图像212,并且在后一实施例中,视差图214的值的一半被应用到右缩减图像212以生成平移缩减图像216。在论述的实施例中,生成了两个视差图213、214。在其他实施例中,生成单个视差图,并将其用于平移左缩减图像211和右缩减图像212(例如,单个视差图在正方向上被应用到左缩减图像211并且在逆方向上被应用到右缩减图像212,或者反之)。下面进一步论述示范性图像扭曲子网络203。
颜色预测子网络204接收平移缩减图像215、216和视差图213、214(或者单个视差图)。在一实施例中,平移缩减图像215、216和视差图213、214被组合成输入体积。在一实施例中,输入体积平移缩减图像215、216和视差图213、214被以堆叠方式组合,使得平移缩减图像215、216的每个颜色通道像视差图213、214的视差值那样对齐。在一实施例中,输入体积大小是平移缩减图像215、216的分辨率乘以平移缩减图像215、216的颜色通道的数目和视差图的数目的总和。例如,对于具有480×288像素分辨率的RGB平移缩减图像215、216和两个全分辨率视差图,输入体积可以是480×288×8,其中8表示平移缩减图像215、216的总共6个R、G和B通道和2个视差值通道。包括卷积神经网络的颜色预测子网络204生成缩减的中间图像217。注意,缩减的中间图像217表示左缩减图像211和右缩减图像212的视图之间的中间视图并且缩减的中间图像217具有比左图像111和右图像112更低的分辨率。颜色预测子网络204可包括任何适当的卷积神经网络,例如体积神经网络。
缩减的中间图像217被图像超分辨率CNN 103接收,图像超分辨率CNN 103包括如本文进一步论述的卷积神经网络。图像超分辨率CNN 103将缩减的中间图像217逐渐扩增到中间图像114,中间图像114具有与左图像111和右图像112相同的分辨率。注意,中间图像114表示与左图像111和右图像112具有相同分辨率的左图像111和右图像112之间的中间视图。中间图像114可被提供来呈现给用户,例如通过将中间图像114发送到显示设备、将中间图像114存储到存储器以供以后呈现、将中间图像114传送到另一设备以便呈现,等等。
图3图示了根据本公开的至少一些实现方式布置的包括示例图像扭曲子网络203和示例颜色预测子网络204的示例视图合成网络102。如图3中所示,图像扭曲子网络203包括第一光流卷积神经网络(CNN)311和第二光流卷积神经网络(CNN)312,并且颜色预测子网络204包括体积(3D)卷积神经网络(CNN)321。还如图所示,视图合成网络102接收左缩减图像211和右缩减图像212。
视图合成网络102可按如上所述地将左缩减图像211和右缩减图像212组合成输入体积301以供光流卷积神经网络311处理。例如,输入体积301可包括左缩减图像211和右缩减图像212,其中左缩减图像211和右缩减图像212被以堆叠方式组合使得左缩减图像211和右缩减图像212的每个颜色通道被对齐。也就是说,输入体积301的深度是通过跨左缩减图像211和右缩减图像212对齐像素值来提供的。就本文使用的而言,以堆叠方式组合图像和/或视差图指的是像素的值被对齐以向输入体积提供深度。光流CNN 311向左缩减图像211和右缩减图像212应用预定义的CCN体系结构和预定义的CNN权重以生成一个或多个视差图331。就本文相对于CNN使用的而言,术语“体系结构”指的是CNN关于以下各项的结构:诸如卷积层、上采样层、汇聚层之类的各种层的数目、类型和排列,来自这种层的特征图之间的连接,等等。CNN的体系结构可与CNN的CNN权重形成对照,CNN权重被预训练并且定义了在CNN的体系结构中应用的参数。体系结构和参数或权重都是在实现之前预定义的,但要注意,体系结构是在预训练之前定义的,预训练确定CNN参数或权重。
一个或多个视差图331被用于平移或扭曲左缩减图像211和右缩减图像212以提供平移左图像332和平移右图像333。在一实施例中,一个或多个视差图331估计光流f=(Δx,Δy),并且视图合成网络102扭曲左缩减图像211IL(x,y)和右缩减图像212IR(x,y)以将平移左图像332生成为IL(x+Δx/2,y+Δy/2)并将平移右图像333生成为IR(x-Δx/2,y-Δy/2)。在另一实施例中,视差图331包括两个视差图,一个将左缩减图像211平移成平移左图像332,另一个将右缩减图像212平移成平移右图像333。
图4图示了根据本公开的至少一些实现方式布置的示例光流卷积神经网络400。例如,光流卷积神经网络(CNN)400可实现为光流CNN311、光流CNN 312或者这两者。如图4中所示,光流CNN 400接收输入401并且包括编码器部分450和解码器部分460。输入401可以是本文论述的任何适当的输入或输入体积,例如输入体积301或输入体积302。编码器部分450以不同的分辨率从输入401提取特征,其中有效接收域(例如,与连续卷积层的数目成比例)随着分辨率的减小而减小。解码器部分460利用来自编码器部分450中的相应层的跳过连接443组合提取的特征以估计水平和垂直方向上每个像素(例如,(x,y))处的光流。来自汇聚层412、414、416、418、420(例如,汇聚层412、414、416、418、420的输出)和卷积层分组411、413、415、417、419的最终卷积层(例如,卷积层输出)的跳过连接443将低水平图像细节传播到更高水平以在训练期间没有监督的情况下获得改进的光流预测。注意,光流CNN 400生成输出402,输出402可包括如本文对于例如视差图331和视差图334论述的一个或多个视差图。
此外,光流CNN 400是包括编码器部分450和解码器部分460的编码器-解码器卷积神经网络,以使得编码器部分450生成特征图,这些特征图被前馈到解码器部分460,这将它们连接到解码器部分460的输出。也就是说,光流CNN 400具有编码器网络(例如,编码器部分450)来将输入映射到特征表示(例如,特征图),并且具有解码器网络(例如,解码器部分460)来经由跳过连接443将特征表示(例如,特征图)作为输入、处理它们并且产生输出。在光流CNN 400的情境中,编码器-解码器卷积神经网络包括编码器部分450和解码器部分460,编码器部分450具有编码器层来以不同的分辨率(例如,随着穿过编码器部分450而递减)从输入体积提取特征(例如,特征图),并且解码器部分460利用与编码器层分别对应的跳过连接443组合所提取的特征(例如,特征图)以估计光流。
在图4中,层被标注为使得:标注c指示卷积层(以及修正线性单元ReLU),标注p指示汇聚层(例如,2×2最大汇聚,但是可以使用任何汇聚技术),并且标注u指示上采样层(例如,2×2上采样,但是可使用任何适当的上采样大小)。例如,卷积层可包括n k×k卷积,然后是修正线性单元(rectified linear unit,ReLU)操作,例如泄漏ReLU(例如,具有斜率0.2)操作。在一些实施例中,卷积层也可包括缩放操作。
例如,卷积层分组411可包括两个32(例如,n=32)3×3(例如,k=3)卷积层。例如,在第一卷积层,多个卷积滤波器或核被应用到输入401。这种卷积滤波器或核被与输入401卷积。例如,在卷积层302处应用的多个卷积滤波器或核可包括具有等于2的步幅(但是可以使用任何适当的步幅)的32个3×3卷积滤波器(例如,每个卷积滤波器与32个得到的特征图之一相关联)。每个卷积层可生成表示提取的特征的特征图。此外,卷积层分组411后面是汇聚层412,汇聚层412执行汇聚(例如,最大汇聚)来生成相对于由卷积层分组411的卷积层生成的特征图具有较低分辨率的特征图。
如图所示,卷积层分组413可包括两个64(例如,n=64)3×3(例如,k=3)卷积层,从而使得在第一卷积层,多个卷积滤波器或核被应用到汇聚层412的输出。如上所述,每个卷积层可生成表示提取的特征的特征图。这种特征可随着穿过光流CNN 400而变得更抽象。卷积层分组413后面是汇聚层414,汇聚层414执行汇聚(例如,最大汇聚)来生成具有更低分辨率的特征图。汇聚层414的输出被提供到卷积层分组415,卷积层分组415应用例如三个128(例如,n=128)3×3(例如,k=3)卷积层,从而使得每个卷积层可生成表示提取的特征的特征图。卷积层分组415后面是汇聚层416,汇聚层414执行汇聚(例如,最大汇聚)来生成具有更低分辨率的特征图。
类似地,汇聚层416的输出被提供到卷积层分组417,卷积层分组417应用例如三个256(例如,n=256)3×3(例如,k=3)卷积层,从而使得每个卷积层可生成表示提取的特征的特征图,并且卷积层分组417后面是汇聚层418,汇聚层418执行汇聚(例如,最大汇聚)来生成具有更低分辨率的特征图。此外,汇聚层418的输出被提供到卷积层分组419,卷积层分组419应用例如三个512(例如,n=512)3×3(例如,k=3)卷积层,从而使得每个卷积层可生成表示提取的特征的特征图,并且卷积层分组419后面是汇聚层420,汇聚层420执行汇聚(例如,最大汇聚)来生成具有更低分辨率的特征图。
如图所示,汇聚层420后面是卷积层421,卷积层421应用例如256(例如,n=256)3×3(例如,k=3)卷积层来生成特征图。所得到的特征图在连接422处被与来自汇聚层420的输出(例如特征图)相组合。连接422、424、426、428、430、432、434、436、438、440利用任何一个或多个适当的技术(例如加法、串接、按通道串接,等等)来组合相关特征图。来自连接422的所得到的特征图在上采样层423处被上采样(例如,2×2上采样)。来自上采样层423的特征图在连接424处被与来自卷积层分组419的最终卷积层的输出特征图相组合。
来自连接424的所得到的特征图被提供到卷积层425,卷积层425应用例如256(例如,n=256)3×3(例如,k=3)卷积层。来自卷积层425的特征图在连接426处被与来自汇聚层418的输出特征图相组合。来自连接426的所得到的特征图在上采样层427处被上采样(例如,2x2上采样)。来自上采样层427的特征图在连接428处被与来自卷积层分组417的最终卷积层的输出特征图相组合。
所得到的来自连接428的特征图被提供到卷积层429,卷积层429应用例如128(例如,n=128)3×3(例如,k=3)卷积层并且来自卷积层429的特征图在连接430处被与来自汇聚层416的输出特征图相组合。来自连接430的所得到的特征图在上采样层431处被上采样(例如,2×2上采样)。来自上采样层431的特征图在连接432处被与来自卷积层分组415的最终卷积层的输出特征图相组合。所得到的来自连接432的特征图被提供到卷积层433,卷积层433应用例如64(例如,n=64)3×3(例如,k=3)卷积层并且来自卷积层433的特征图在连接434处被与来自汇聚层414的输出特征图相组合。来自连接434的所得到的特征图在上采样层435处被上采样(例如,2×2上采样)。来自上采样层435的特征图在连接436处被与来自卷积层分组413的最终卷积层的输出特征图相组合。所得到的来自连接436的特征图被提供到卷积层437,卷积层437应用例如32(例如,n=32)3×3(例如,k=3)卷积层并且来自卷积层437的特征图在连接438处被与来自汇聚层412的输出特征图相组合。来自连接438的所得到的特征图在上采样层439处被上采样(例如,2×2上采样)。来自上采样层439的特征图在连接440处被与来自卷积层分组411的最终卷积层的输出特征图相组合。
所得到的来自连接440的特征图被提供到卷积层441,卷积层441应用例如16(例如,n=16)3×3(例如,k=3)卷积层并且来自卷积层441的特征图被提供到卷积层442。卷积层442应用例如8(例如,n=8)3×3(例如,k=3)卷积层并且来自卷积层442的特征图被提供到输出层以生成输出402。
现在返回图3,如图所示,视图合成网络102可将平移左图像332和平移右图像333组合成输入体积302以由光流卷积神经网络312处理。在一实施例中,输入体积302包括平移左图像332和平移右图像333,平移左图像332和平移右图像333被以堆叠方式组合以使得平移左图像332和平移右图像333的每个颜色通道被对齐。在一实施例中,输入体积302的大小是平移左图像332和平移右图像333的分辨率乘以平移左图像332和平移右图像333的颜色通道的数目的总和,例如,对于具有480×288像素分辨率的RGB平移左图像332和平移右图像333,大小为480×288×6,其中6表示平移左图像332和平移右图像333中每一者的R、G和B通道。
光流CNN 312接收输入体积302并且光流CNN 312向平移左图像332和平移右图像333应用预定义的CNN体系结构和预定义的CNN权重以生成一个或多个视差图334。如对于视差图331和左缩减图像211和右缩减图像212所述,一个或多个视差图334被用于对平移左图像332和平移右图像333进行平移或扭曲以提供(两次)平移左图像335和(两次)平移右图像336。在一实施例中,一个或多个视差图334估计光流f=(Δx,Δy),并且视图合成网络102扭曲平移左图像332IL(x,y)和平移右图像333IR(x,y)以将平移左图像335和平移右图像336分别生分量为IL(x+Δx/2,y+Δy/2)和IR(x-Δx/2,y-Δy/2)平移左图像335和平移右图像336。在另一实施例中,视差图334包括两个视差图,一个将平移左图像332平移到平移左图像335,另一个将平移右图像333平移到平移右图像336。
光流CNN 312可实现任何适当的CNN。在一实施例中,光流CNN312实现如关于图4所论述的光流CNN 400。在一实施例中,光流CNN311和光流CNN 312实现相同的CNN体系结构和不同的CNN参数。在一实施例中,光流CNN 311和光流CNN 312实现相同CNN体系结构和CNN参数。这种实现相同的CNN体系结构和CNN参数提供了诸如光流CNN 312对光流CNN 311的输出中的光流估计和扭曲的误差进行校正之类的优点,并且由于体系结构和参数共享,有利地降低了实现中的存储器要求。
继续参考图3,视图合成网络102可将平移左图像335和平移右图像336和一个或多个视差图334组合成输入体积303以供3D CNN 321处理。在一实施例中,输入体积303包括平移左图像335和平移右图像336和一个或多个视差图334,它们被以堆叠方式组合以使得平移左图像335和平移右图像336的每个颜色通道和每个视差图334被对齐。在一实施例中,输入体积303的大小是平移左图像335和平移右图像336的分辨率乘以平移左图像335和平移右图像336的颜色通道的数目和视差图334的数目的总和。在一实施例中,对于具有480×288像素分辨率的RGB平移左图像335和平移右图像336,输入体积303具有480×288×8的大小,其中8表示平移左图像335和平移右图像336中每一者的R、G和B通道和2个视差图。在一实施例中,对于具有480×288像素分辨率的RGB平移左图像335和平移右图像336,输入体积303具有480×288×7的大小,其中7表示平移左图像335和平移右图像336中每一者的R、G和B通道和1个视差图。
3D CNN 321接收输入体积303并且3D CNN 321向输入体积303(例如,平移左图像335和平移右图像336和(一个或多个)视差图334)应用预定义的CNN体系结构和预定义的CNN权重以生成缩减的中间图像217。3D CNN 321可以是任何适当的CNN,例如具有任何数目的特征提取层的体积或3D CNN。在一实施例中,3D CNN 321的每个3D卷积层实现n个k×k×k 3D滤波器或核,从而在一些实施例中例如k=3。例如,3D CNN 321的每个3D卷积层可实现3×3×3滤波器、核或矩阵。3D CNN321的实现通过在输入体积303中组合来自平移左图像335和平移右图像336(例如,两个扭曲的图像)和(一个或多个)视差图334(例如,预测的光流)的信息来为尤其是在遮挡边界周围的缩减的中间图像217(例如,3D CNN 321的最终输出)准确地预测了像素值。
如前所述,参考图2,缩减的中间图像217被图像超分辨率CNN 103接收,图像超分辨率CNN 103将缩减的中间图像217逐渐地扩增成中间图像114(例如,具有与左图像111和右图像112相同的分辨率)。
图5图示了根据本公开的至少一些实现方式布置的示例图像超分辨率卷积神经网络103。如图5中所示,图像超分辨率卷积神经网络(CNN)103接收缩减的中间图像217并且生成中间图像114。图像超分辨率CNN103包括多个阶段,例如第一阶段550和第二阶段560。虽然是对于两个阶段550、560图示的,但图像超分辨率CNN 103可实现任何数目的阶段。注意,图像超分辨率CNN 103具有拉普拉斯(Laplacian)金字塔体系结构,该体系结构有利地将学习任务分解成具有渐增的缩放比例的多个阶段550、560,从而使得输入(例如,缩减的中间图像217)在阶段550、560的每一者处以最小的误差被逐渐扩增到期望的高分辨率,并且使得相同的网络可被用于获得具有不同分辨率的扩增的图像。
如图所示,第一阶段550包括卷积层511、卷积块512、514、516、加法器513、515、517、解卷积层518(包括泄漏ReLU)、卷积层527、上采样模块526和加法器528。类似地,第二阶段560包括卷积块519、521、523、加法器520、522、524、解卷积层525(包括泄漏ReLU)、卷积层531、上采样模块529和加法器530。阶段550、560的每一者包括卷积层后跟解卷积层的堆叠,其输出(例如,特征图像502、505)被与输入(例如,以适当缩放比例的缩减的中间图像217)相加(例如,经由加法器528、530)以得到最终输出(例如,中间图像114)。由于高分辨率图像和低分辨率图像的低水平细节都保持相同,所以图像超分辨率CNN 103在训练期间只学习由特征图像502、505表示的图像之间的差别。就本文使用的而言,术语“特征图像”指的是具有图像差别信息的图像,从而特征图像可不生成完全形成的图像。如图所示,图像超分辨率CNN 103的卷积层被分离成任何数目的卷积层(例如五个卷积层)的块(例如,卷积块512、514、516、519、521、523)。在一实施例中,每个阶段内的块在它们之间共享相同的权重(例如,以有利地降低存储器要求)并且加法器513、515、517、520、522、524提供块之间的残余连接以保持并传播精细细节。解卷积层518、525的步幅确定中间图像114相对于缩减的中间图像217的缩放因子。在一些实施例中,解卷积层518、525各自的步幅是二,得到净缩放因子4。
与图4一样,在图5中,层和块被标注成使得标注c指示卷积层(和ReLU),标注cb指示卷积层块,包括数个相邻卷积层,并且标注d指示解卷积层(例如,具有为2的步幅)。例如,卷积层可包括n k×k卷积,其后是修正线性单元(ReLU)操作。在一些实施例中,卷积层也可包括缩放操作。
如图所示,卷积层511接收缩减的中间图像217。在一实施例中,缩减的中间图像217是RGB图像。在一实施例中,缩减的中间图像217是仅限亮度通道的图像。例如,缩减的中间图像217可被从RGB转换到具有亮度分量(例如,YCbCr或YUV)的颜色通道,并且色度分量(Y)可被从处理中隔离。卷积层应用卷积层来生成特征图。卷积层如本文所述可应用任何数目n的任何大小k×k的卷积滤波器。例如,可应用3×3滤波器。
所得到的特征图被提供给卷积块512和加法器513。如前所述,卷积块512包括某个数目的(例如,5个)相邻卷积层,这些卷积层被应用到所得到的特征图以生成来自卷积块512的特征图。例如,卷积块512可包括卷积层的堆叠。如图所示,来自卷积层511的特征图和来自卷积块512的特征图在加法器513处被相加(例如,经由按元素求和)。例如,加法器513通过将来自卷积层511的特征图与来自卷积块512的特征图相加来提供残余连接。这种残余连接可提供图像超分辨率CNN 103来估计特征中的变化,这可使得训练更容易。
来自加法器513的特征图被提供给加法器515和卷积块514,卷积块514包括某个数目的(例如,5个)相邻卷积层,这些卷积层被应用到来自加法器513的特征图以生成特征图。来自卷积块514和加法器513的特征图在加法器515处被相加(例如,经由按元素求和)。来自加法器515的特征图被提供给加法器517和卷积块516,卷积块516包括某个数目的(例如,5个)相邻卷积层,这些卷积层被应用到来自加法器515的特征图以生成特征图。来自卷积块516和加法器515的特征图在加法器517处被相加(例如,经由按元素求和)。
来自加法器515的特征图被提供给解卷积层518,解卷积层518对特征图执行解卷积(例如,使用解卷积滤波器的上采样)并且所得到的特征图被提供给卷积模块527,卷积模块527执行卷积以生成特征图像502。如图所示,特征图像502相对于缩减的中间图像217具有的分辨率。在一实施例中,特征图像502具有比缩减的中间图像217更高的分辨率,但具有比中间图像114(以及左图像111和右图像112,请参见图1)更低的分辨率。
此外,经由上采样模块526利用任何一个或多个适当的技术来对缩减的中间图像217进行扩增或上采样以生成具有与特征图像502相同分辨率的图像501。可利用诸如具有跨步解卷积的双线性上采样、双三次插补等等之类的任何一个或多个适当的技术来对缩减的中间图像217进行扩增。图像501在加法器528处被与特征图像502相组合以生成中间图像503。如前所述,中间图像可具有比缩减的中间图像217更高的分辨率,但具有比中间图像114更低的分辨率。在一些实施例中,中间图像503可被提供作为输出图像。在一实施例中,中间图像503具有期望的分辨率,并且可只使用第一阶段550来生成中间图像114。
可替代地,如图5中所示,第二阶段560可被应用来生成中间图像114。如图所示,来自解卷积层518的特征图被提供给卷积块519和加法器520。卷积块519包括某个数目的(例如,5个)相邻卷积层,这些卷积层被应用到特征图以生成特征图。来自卷积块519的特征图和来自解卷积层518的特征图在加法器520处被相加(例如,经由按元素求和)。
来自加法器520的特征图被提供给加法器522和卷积块521,卷积块521包括某个数目的(例如,5个)相邻卷积层,这些卷积层被应用到来自加法器520的特征图以生成特征图。来自卷积块521和加法器520的特征图在加法器522处被相加(例如,经由按元素求和)。来自加法器522的特征图被提供给加法器524和卷积块523,卷积块523包括某个数目的(例如,5个)相邻卷积层,这些卷积层被应用到来自加法器522的特征图以生成特征图。来自卷积块523和加法器522的特征图在加法器524处被相加(例如,经由按元素求和)。
来自加法器524的特征图被提供给解卷积层525,解卷积层525对特征图执行解卷积(例如,使用解卷积滤波器的上采样)并且所得到的特征图被提供给卷积模块527,卷积模块527执行卷积以生成特征图像505。特征图像505相对于缩减的中间图像217和中间图像503具有增大的分辨率。在一实施例中,特征图像505具有左图像111和右图像112的分辨率,请参见图1(例如,中间图像114的期望分辨率)。
经由上采样模块529利用任何一个或多个适当的技术(例如,具有跨步解卷积的双线性上采样、双三次插补等等)对中间图像503进行扩增或上采样以生成具有与特征图像505相同分辨率的图像504。图像504在加法器530处被与特征图像505相组合以生成中间图像114。在一些实施例中,中间图像114是经由图像超分辨率CNN 103的第三或第四阶段生成的,该第三或第四阶段包括如对于阶段550、560所论述的组件。在一些实施例中,由图像超分辨率CNN 103生成的中间图像是仅限亮度通道的图像。在一实施例中,通过利用诸如双三次插补之类的任何一个或多个适当的技术对缩减的中间图像217的色度通道(例如,UV或CrCb)进行扩增、将这些通道组合到具有亮度通道的颜色空间图像中(例如,组合到YUV或YrCb图像中)并且将具有亮度通道的颜色空间图像转换到RGB图像或任何其他适当的颜色空间,来从生成自图像超分辨率CNN 103的中间图像(例如,仅Y通道)生成中间图像114。
图6A、6B、6C和6D分别图示了根据本公开的至少一些实现方式布置的利用本文论述的技术生成的示例右输入图像、示例左输入图像、示例视差图和示例中间图像。在图6A中,左图像111示出了由左相机获得的场景的示例图像,并且在图6B中,右图像112示出了由与左相机垂直对齐的右相机获得的场景的示例图像,如参考图1所述。如前所述,可获得场景的任何数目的图像和相机并且可利用本文论述的技术生成其间的中间图像。在一实施例中,多相机系统包括彼此之间相等间隔的相机的线状阵列(例如,多达15个HD相机或更多)。相机从跨越宽视野(field of view,FOV)的不同视点捕获场景的图像。本文论述的技术解决了如下问题:利用捕获的图像合成处于中间视点的图像,以使得例如当观看者移动其头部时,他们可从系统的OFV内的任何角度流畅地观看捕获的场景。
在图6A和6B的示例中,左图像111和右图像112之间的视差在60到250像素的范内(例如,在下采样到左缩减图像211和右缩减图像212后为15-60像素)。图6C图示了由图像扭曲子网络203生成的示例视差图334。在图6C的图示中,较暗的像素表示较大的视差值,而较亮的像素表示较小的像素值。
图6D图示了经由系统200生成的示例中间图像114。如图所示,视图合成网络和图像超分辨率CNN 103提供了具有视觉上可忽略的伪影和模糊的中间图像(例如,预测居间图像)。与之相对照,先前的技术表现出大量的伪影,尤其是在遮挡边界处,并且在一些情况下提供完全模糊的图像。此外,由图6C表现出的有利地在没有地面真值数据的情况下训练的光流估计与利用地面真值数据的光流估计技术相比是有益的。
图7是图示出根据本公开的至少一些实现方式布置的用于训练视图合成网络102和图像超分辨率CNN 103的示例过程700的流程图。过程700可包括如图7中所示的一个或多个操作701-708。过程700可由本文论述的任何设备或系统执行来训练本文论述的任何视图合成网络和图像超分辨率CNN。过程700或其一些部分可对任何训练、训练集合等等重复。由过程700生成的参数权重例如可被存储到存储器并且经由处理器来实现。
过程700开始于操作701,在该操作中获得图像的训练语料库。例如,训练语料库可包括图像的集合,使得每个集合包括第一(例如,左)图像、第二(例如,右)图像和第一图像和第二图像之间的视图的中间图像,从而使得该中间图像提供用于训练的地面真值。在一实施例中,训练语料库的图像具有相同分辨率并且每个图像是RGB图像,但是可实现任何适当的颜色空间。在一实施例中,多相机系统中的每个相机捕获大小为1920×1080像素的RGB图像,并且为了训练视图合成网络102,第n-1图像和第n+1图像被用作第一和第二图像,而第n图像被用作地面真值中间图像。对于15相机系统,n的值可在2到14的范围内,但是可使用任何适当的系统。在一些实施例中,可从二相机系统获得图像的训练语料库。
处理从操作701继续到操作702-704,并且随后在操作705-708继续。注意,视图合成网络102和图像超分辨率CNN 103被分开训练。这种训练可使用在操作701获得的相同的图像训练语料库,或者训练语料库可以是不同的。
首先参考操作702-704,处理在操作702继续,在该操作中训练语料库的图像被调整大小(例如,下采样)到任何适当的大小。在一实施例中,以上所述的1920×1080像素RGB图像被缩小尺寸到480×288像素RGB图像。此外,缩小尺寸的第一和第二图像(例如,左和右或L/R图像)被串联成如本文所述的输入体积。例如,每个输入体积可以是480×288×6,其中6指示两个图像的RGB通道。此外,对于第一图像和第二图像的每个输入体积,相关中间图像被提供作为地面真值图像来训练视图合成网络102。
处理在操作703继续,在该操作中视图合成网络102被训练。注意,视图合成网络102的体系结构(如参考图3和图4所述)被定义并且网络的参数权重在操作703处实现的训练阶段中被训练。在一实施例中,视图合成网络102被以端到端方式训练。在一实施例中,利用上文所述的每个图像训练集合基于反向传播训练技术来生成用于网络的实现的视图合成网络102参数权重,包括滤波器权重。在一实施例中,用于训练视图合成网络102的目标函数是沙博尼耶(Charbonnier)损耗(例如,L1损耗的变体)和图像梯度L1损耗的总和,该总和被利用亚当(Adam)优化器来优化。在一实施例中,初始学习率被设置到10-5,并且如果训练损耗在5个纪元(epoch)中都没有变化则被减小10倍,直到学习率达到10-10为止。在一实施例中,如前所述,每个卷积层后跟着斜率为0.2的泄漏ReLU层。在一实施例中,执行数据增强以使得网络更鲁棒。这种数据增强可包括以下各项中的一个或多个:时间和水平翻转(例如,允许网络学习预测双向流)、旋转(例如,通过随机选择的90°、180°或270°的角度)以及缩放(例如,将整个图像缩放到480×288和/或将其缩放到640×480并且从其取得大小为480×288的一个或多个随机裁剪)。在一实施例中,原始图像具有大约250像素的最大视差并且网络被训练为处理最高达60像素的视差。
处理在操作704继续,在该操作中视图合成网络102的所得到的参数权重被输出。例如,预定义的视图合成网络102体系结构和在训练之后所得到的视图合成网络102参数权重可被存储到存储器和/或发送到另一设备以用于如本文所述的实现方式。
现在参考操作705-708,处理在操作705继续,在该操作中获得图像以训练图像超分辨率CNN 103。这种图像可包括用于上采样的较低分辨率图像和地面真值较高分辨率图像。在一实施例中,较低分辨率图像是通过将经训练的视图合成网络102应用到在操作701获得的训练语料库的第一图像和第二图像(在缩减之后)来生成的并且地面真值较高分辨率是第一图像和第二图像(没有缩减)的中间图像。
处理在操作706继续,在该操作中在操作705获得的训练图像的图像被转换成具有亮度通道的颜色空间(例如,YCbCr、YUV等等)并且亮度通道(Y)被提取来进行训练。例如,图像超分辨率CNN 103可如本文所述地对仅限亮度的图像进行操作。在一实施例中,图像超分辨率CNN 103的输入图像是480×288亮度图像(例如,具有480×288×1的输入体积)并且输出和地面真值图像是1920×1080亮度图像。在实现方式中,如本文所述地,随后通过在双三次插补之后将从图像超分辨率CNN 103输出的Y通道与输入图像CbCr通道串接并且将所得到的图像(例如,在YCbCr颜色空间中)转换成RGB图像来生成所得到的中间图像。
处理在操作707继续,在该操作中图像超分辨率CNN 103被训练。注意,图像超分辨率CNN 103的体系结构(如参考图5所述)被定义并且网络的参数权重在操作707处实现的训练阶段中被训练。在一实施例中,图像超分辨率CNN 103被以端到端方式训练。在一实施例中,利用上文所述的每个图像训练集合基于反向传播训练技术来生成用于网络的实现的图像超分辨率CNN 103参数权重,包括滤波器权重。在一实施例中,用于图像超分辨率CNN 103的目标函数是沙博尼耶损耗(例如,L1损耗的变体)和图像梯度L1损耗的总和,该总和被利用亚当优化器来优化。在一实施例中,初始学习率被设置到10-5,并且如果训练损耗在5个纪元中都没有变化则被减小10倍,直到学习率达到10-10为止。在一实施例中,执行数据增强以使得网络更鲁棒。这种数据增强可包括时间和水平翻转、旋转和缩放中的一个或多个。
处理在操作708继续,在该操作中图像超分辨率CNN 103的所得到的参数权重被输出。例如,预定义的图像超分辨率CNN 103体系结构和在训练之后所得到的图像超分辨率CNN 103参数权重可被存储到存储器和/或发送到另一设备以用于如本文所述的实现方式。
图8是图示出根据本公开的至少一些实现方式布置的用于从多视图图像生成中间图像的示例过程800的流程图。过程800可包括如图8中所示的一个或多个操作801-806。过程800可形成中间图像生成过程的至少一部分。作为非限制性示例,过程800在实现阶段期间可形成如本文所述的设备100执行的中间图像生成过程的至少一部分。此外,本文将参考图9的系统900来描述过程800。
图9是根据本公开的至少一些实现方式布置的用于从多视图图像生成中间图像的示例系统900的示意图。如图9中所示,系统900可包括一个或多个中央处理单元(CPU)901(即,(一个或多个)中央处理器)、图形处理单元902(即,图形处理器)以及存储器库903。还如图所示,图形处理单元902可包括或实现视图合成网络102和图像超分辨率CNN103。这种模块可被实现来执行如本文所述的操作。在系统900的示例中,存储器库903可存储输入图像数据、缩减图像数据、CNN特性和参数数据、特征图、特征图像、视差图或者本文论述的任何其他数据或数据结构。
如图所示,在一些示例中,视图合成网络102和图像超分辨率CNN103是经由图形处理单元902实现的。在其他示例中,视图合成网络102和图像超分辨率CNN 103的一者或两者或一些部分是经由中央处理单元901或者系统900的图像处理单元(未示出)实现的。在另外的其他示例中,视图合成网络102和图像超分辨率CNN 103的一者或两者或一些部分可经由图像处理流水线、图形流水线等等来实现。
图形处理单元902可包括任何数目和类型的可提供如本文所述的操作的图形处理单元。这种操作可经由软件或硬件或者其组合来实现。例如,图形处理单元902可包括专用于操纵从存储器库903获得的图像数据、CNN数据等等的电路。中央处理单元900可包括任何数目和类型的可以为系统900提供控制和其他高级别功能和/或提供如本文所述的任何操作的处理单元或模块。存储器库903可以是任何类型的存储器,例如易失性存储器(例如,静态随机访问存储器(SRAM)、动态随机访问存储器(DRAM)等等)或者非易失性存储器(例如,闪存等等),等等。在非限制性示例中,存储器库903可由缓存存储器实现。在一实施例中,视图合成网络102和图像超分辨率CNN 103的一者或两者或一些部分是经由图形处理单元902的执行单元(execution unit,EU)实现的。EU可例如包括可编程逻辑或电路,例如可提供多种多样的可编程逻辑功能的一个或多个逻辑核。在一实施例中,视图合成网络102和图像超分辨率CNN 103的一者或两者或一些部分是经由诸如固定功能电路之类的专用硬件实现的。固定功能电路可包括专用逻辑或电路并且可提供一组固定功能入口点,这些固定功能入口点可映射到用于固定目的或功能的专用逻辑。在一些实施例中,视图合成网络102和图像超分辨率CNN 103的一者或两者或一些部分是经由专用集成电路(ASIC)实现的。ASIC可包括定制来执行本文论述的操作的集成电路。
返回对图8的论述,过程800开始于操作801,在该操作中第一图像和第二图像被缩减以提供第一缩减图像和第二缩减图像,使得第一图像和第二图像是场景的不同视图的并且具有第一分辨率。可利用任何一个或多个适当的技术来缩减第一图像和第二图像。如前所述,视差图生成之前的这种缩减有利地以降低的计算复杂度提供了增大的视差能力。
处理在操作802继续,在该操作中通过向包括第一缩减图像和第二缩减图像的第一输入体积应用第一卷积神经网络来生成至少一个视差图,使得视差图包括视差值来平移第一缩减图像和第二缩减图像。在一实施例中,第一卷积神经网络是第一编码器-解码器卷积神经网络并且生成至少一个视差图包括将第一编码器-解码器卷积神经网络应用到第一输入体积来生成第一视差图和第二视差图。在一实施例中,第一编码器-解码器卷积神经网络包括编码器部分和解码器部分,其中,编码器部分具有编码器层来以不同的分辨率从第一输入体积提取特征,并且解码器部分利用与编码器层分别对应的跳过连接来组合所提取的特征以估计光流。
在一实施例中,第一卷积神经网络包括生成至少一个视差图的第一编码器-解码器卷积神经网络,生成至少一个视差图包括将第一编码器-解码器卷积神经网络应用到第一输入体积以生成第一视差图和第二视差图,利用第一视差图和第二视差图来平移第一缩减图像和第二缩减图像以生成第三平移缩减图像和第四平移缩减图像,并且将第二编码器-解码器卷积神经网络应用到包括第三平移缩减图像和第四平移缩减图像的第三输入体积以生成至少一个视差图。在一实施例中,第一编码器-解码器卷积神经网络和第二编码器-解码器卷积神经网络具有相同的体系结构并且实现相同的神经网络权重。在一实施例中,第一编码器-解码器卷积神经网络和第二编码器-解码器卷积神经网络各自包括编码器部分和解码器部分,其中,编码器部分具有编码器层来以不同的分辨率从第一输入体积和第三输入体积提取特征,并且解码器部分利用与编码器层分别对应的跳过连接来组合所提取的特征以估计光流。
处理在操作803继续,在该操作中至少部分地基于视差图来确定第一平移缩减图像和第二平移缩减图像。可利用任何一个或多个适当的技术来确定第一平移缩减图像和第二平移缩减图像,例如将视差图应用到第一缩减图像和第二缩减图像以将第一缩减图像和第二缩减图像平移到第一平移缩减图像和第二平移缩减图像。
处理在操作804继续,在该操作中,第二卷积神经网络被应用到包括第一平移缩减图像和第二平移缩减图像以及视差图的第二输入体积以生成包括第一平移缩减图像和第二平移缩减图像之间的视图的缩减的中间图像。第二卷积神经网络可包括任何适当的卷积神经网络。在一实施例中,第二卷积神经网络是体积卷积神经网络。操作803和804从而利用第一缩减图像和第二缩减图像生成了具有缩减的分辨率的中间图像。
处理在操作805继续,在该操作中至少部分地基于将图像超分辨率卷积神经网络应用到缩减的中间图像来生成具有第一分辨率(例如,具有输入的左图像和右图像的分辨率)的中间图像。图像超分辨率卷积神经网络将缩减的中间图像扩增到原始分辨率。图像超分辨率卷积神经网络可包括任何适当的卷积神经网络,并且可利用任何一个或多个适当的技术来应用图像超分辨率卷积神经网络。在一实施例中,应用图像超分辨率卷积神经网络包括向缩减的中间图像应用多个相邻卷积层和跟随在多个相邻卷积层之后的解卷积层以生成具有大于缩减的中间图像的第三分辨率的第二分辨率的特征图像,对缩减的中间图像进行上采样以生成具有第二分辨率的第二中间图像,并且组合特征图像和第二中间图像以生成上采样的中间图像。在一实施例中,上采样的中间图像具有第一分辨率。在一实施例中,多个相邻卷积层被分离成块,从而使得每个块包括预定数目的卷积层并且每个块实现相同的神经网络权重,并且使得在卷积层的每个块之间提供残余连接,其中残余连接组合每个块的输入和输出。
在一实施例中,应用图像超分辨率卷积神经网络还包括向上述的上采样的中间图像应用多个第二相邻卷积层和跟随在多个第二相邻卷积层之后的第二解卷积层以生成具有第一分辨率的第二特征图像,对上采样的中间图像进行上采样以生成具有第一分辨率的第三中间图像,并且组合第二特征图像和第三中间图像以生成最终上采样中间图像。在一实施例中,最终上采样中间图像具有第一分辨率。
在一实施例中,图像超分辨率卷积神经网络只被应用到亮度通道并且缩减的中间图像在第一颜色空间中。在一实施例中,过程800还包括将缩减的中间图像转换到包括亮度通道和一个或多个第二通道的第二颜色空间,分离亮度通道和一个或多个第二通道以使得图像超分辨率卷积神经网络只被应用到缩减的中间图像的亮度通道,对缩减的中间图像的一个或多个第二通道进行扩增,并且将只具有亮度通道的图像超分辨率卷积神经网络的输出图像与缩减的中间图像的被扩增的一个或多个第二通道串接以生成中间图像。
处理在操作806继续,在该操作中中间图像被提供来呈现给观看者。中间图像可被提供来呈现给观看者或用户,例如通过将中间图像发送到显示设备、将中间图像存储到存储器以便以后呈现或者将中间图像传送到另一设备以供呈现。
在一实施例中,论述的神经网络被预训练。在一实施例中,过程800还包括分开训练视图合成网络和图像超分辨率卷积神经网络以确定视图合成网络参数和图像超分辨率卷积神经网络参数,使得视图合成网络包括第一卷积神经网络和第二卷积神经网络。在一实施例中,第一卷积神经网络是编码器-解码器卷积神经网络,该编码器-解码器卷积神经网络包括编码器部分和解码器部分,其中,该编码器部分具有编码器层来以不同的分辨率从第一输入体积提取特征并且该解码器部分利用与编码器层中的一些相对应的跳过连接来组合提取的特征以估计光流,第二卷积神经网络是体积卷积神经网络,并且图像超分辨率卷积神经网络包括:多个相邻卷积层和跟随在多个相邻卷积层之后的解卷积层,用于生成具有比缩减的中间图像的第三分辨率更大的第二分辨率的特征图像;上采样器,用于对缩减的中间图像上采样以生成具有第二分辨率的第二中间图像;以及加法器,用于组合特征图像和第二中间图像以生成上采样的中间图像。
过程800可提供基于多视图图像生成中间图像。过程800可对任何数目的输入多视图图像、多视图图片、多视图视频图片或帧等等串行或并行地重复任意多次。
本文描述的系统的各种组件可以用软件、固件和/或硬件和/或其任何组合实现。例如,本文论述的设备或系统的各种组件可至少部分由计算片上系统(SoC)的硬件提供,例如可存在于计算系统中,例如计算机、膝上型计算机、平板设备或智能电话中。例如,这种组件或模块可经由多核SoC处理器实现。本领域技术人员可认识到,本文描述的系统可包括在相应附图中没有描绘的额外组件。
虽然本文论述的示例过程的实现方式可包括按图示顺序进行示出的所有操作,但本公开不限于此,并且在各种示例中,这里的示例过程的实现方式可只包括示出的操作的子集,包括按与图示不同的顺序执行的操作,或者包括额外的操作。
此外,本文论述的操作中的任何一个或多个可响应于由一个或多个计算机程序产品提供的指令来进行。这种程序产品可包括提供指令的信号承载介质,所述指令当被例如处理器执行时可提供本文描述的功能。计算机程序产品可在任何形式的一个或多个机器可读介质中提供。从而,例如,包括一个或多个图形处理单元或处理器核的处理器可响应于被一个或多个机器可读介质传达到处理器的程序代码和/或指令或指令集而进行这里的示例过程的一个或多个块。一般而言,机器可读介质可以以程序代码和/或指令或指令集的形式传达软件,所述程序代码和/或指令或指令集可使得本文描述的任何设备和/或系统实现本文论述的所述操作、模块或组件的至少一些部分。
按照在本文描述的任何实现方式中使用的,术语“模块”指的是被配置为提供本文描述的功能的软件逻辑、固件逻辑、硬件逻辑和/或电路的任何组合。软件可实现为软件封装、代码和/或指令集或指令,并且如本文描述的任何实现方式中使用的“硬件”例如可单一地或者组合地包括硬连线电路、可编程电路、状态机电路、固定功能电路、执行单元电路和/或存储被可编程电路执行的指令的固件。模块可集体地或者个体地实现为形成更大系统的一部分的电路,例如集成电路(IC)、片上系统(SoC),等等。
图10是根据本公开的至少一些实现方式布置的示例系统1000的示意图。在各种实现方式中,系统1000可以是计算系统,但是系统1000不限于此情境。例如,系统1000可被包含到以下各项中:个人计算机(personal computer,PC)、膝上型计算机、超便携膝上型计算机、平板设备、平板手机、触摸板、便携计算机、手持计算机、掌上计算机、个人数字助理(personal digital assistant,PDA)、蜂窝电话、组合蜂窝电话/PDA、电视、智能设备(例如,智能电话、智能平板或智能电视)、移动互联网设备(mobile internet device,MID)、消息传递设备、数据通信设备、外围设备、游戏机、可穿戴设备、显示设备、一体化设备、二合一设备,等等。
在各种实现方式中,系统1000包括耦合到显示器1020的平台1002。平台1002可从内容设备接收内容,其中内容设备例如是(一个或多个)内容服务设备1030或(一个或多个)内容递送设备1040或其他类似的内容源,例如相机或相机模块之类的。包括一个或多个导航特征的导航控制器1050可用于与例如平台1002和/或显示器1020交互。在下文更详细地描述这些组件的每一者。
在各种实现方式中,平台1002可包括芯片集1005、处理器1010、存储器1012、天线1013、存储装置1014、图形子系统1015、应用1016和/或无线电装置1018的任何组合。芯片集1005可提供处理器1010、存储器1012、存储装置1014、图形子系统1015、应用1016和/或无线电装置1018之间的相互通信。例如,芯片集1005可包括能够提供与存储装置1014的相互通信的存储适配器(未图示)。
处理器1010可实现为复杂指令集计算机(Complex Instruction Set Computer,CISC)或精简指令集计算机(Reduced Instruction Set Computer,RISC)处理器、x86指令集兼容处理器、多核或者任何其他微处理器或中央处理单元(CPU)。在各种实现方式中,处理器1010可以是(一个或多个)双核处理器、(一个或多个)双核移动处理器,等等。
存储器1012可实现为易失性存储器设备,例如——但不限于——随机访问存储器(RAM)、动态随机访问存储器(DRAM)或静态RAM(SRAM)。
存储装置1014可实现为非易失性存储设备,例如但不限于磁盘驱动器、光盘驱动器、磁带驱动器、内部存储设备、附接存储设备、闪存、电池后备SDRAM(同步DRAM)和/或网络可访问存储设备。在各种实现方式中,例如当包括多个硬盘驱动器时,存储装置1014可包括技术来为有价值的数字媒体增加存储性能增强保护。
图形子系统1015可执行对诸如静态图像、图形或视频之类的图像的处理以进行显示。图形子系统1015例如可以是图形处理单元(graphics processing unit,GPU)、视觉处理单元(visual processing unit,VPU)或者图像处理单元。在一些示例中,图形子系统1015可执行如本文所述的扫描图像渲染。模拟或数字接口可用于通信地耦合图形子系统1015和显示器1020。例如,该接口可以是高清晰度多媒体接口、显示端口、无线HDMI和/或无线HD符合技术中的任何一者。图形子系统1015可被集成到处理器1010或芯片集1005中。在一些实现方式中,图形子系统1015可以是通信地耦合到芯片集1005的独立设备。
本文描述的图像处理技术可在各种硬件体系结构中实现。例如,图像处理功能可被集成在芯片集内。可替代地,可使用分立的图形和/或图像处理器和/或专用集成电路。作为另外一种实现方式,图像处理可由包括多核处理器在内的通用处理器提供。在另外的实施例中,这些功能可实现在消费者电子设备中。
无线电装置1018可包括能够利用各种适当的无线通信技术来发送和接收信号的一个或多个无线电装置。这种技术可涉及跨一个或多个无线网络的通信。示例无线网络包括(但不限于)无线局域网(wireless local area network,WLAN)、无线个人区域网(wireless personal area network,WPAN)、无线城域网(wireless metropolitan areanetwork,WMAN)、蜂窝网络和卫星网络。在跨这种网络通信时,无线电装置1018可根据任何版本的一个或多个适用的标准操作。
在各种实现方式中,显示器1020可包括任何平板监视器或显示器。显示器1020例如可包括计算机显示屏幕、触摸屏显示器、视频监视器、类似电视机的设备和/或电视机。显示器1020可以是数字的和/或模拟的。在各种实现方式中,显示器1020可以是全息显示器。另外,显示器1020可以是可接收视觉投影的透明表面。这种投影可传达各种形式的信息、图像和/或对象。例如,这种投影可以是移动增强现实(mobile augmented reality,MAR)应用的视觉覆盖。在一个或多个软件应用1016的控制下,平台1002可在显示器1020上显示用户界面1022。
在各种实现方式中,(一个或多个)内容服务设备1030可由任何国家的、国际的和/或独立的服务所容宿并从而例如是平台1002经由互联网可访问的。(一个或多个)内容服务设备1030可耦合到平台1002和/或显示器1020。平台1002和/或(一个或多个)内容服务设备1030可耦合到网络1060以向和从网络1060传输(例如,发送和/或接收)媒体信息。(一个或多个)内容递送设备1040也可耦合到平台1002和/或显示器1020。
在各种实现方式中,(一个或多个)内容服务设备1030可包括有线电视盒、个人计算机、网络、电话、能够递送数字信息和/或内容的具备互联网能力的设备或家电以及能够经由网络1060或直接地在内容提供者与平台1002和/或显示器1020之间单向或双向地传输内容的任何其他类似设备。将会明白,可经由网络1060单向地和/或双向地向和从系统1000中的组件的任何一者和内容提供者传输内容。内容的示例可包括任何媒体信息,例如包括视频、音乐、医疗和游戏信息,等等。
(一个或多个)内容服务设备1030可接收内容,例如有线电视节目,包括媒体信息、数字信息和/或其他内容。内容提供者的示例可包括任何有线或卫星电视或无线电台或互联网内容提供者。提供的示例并不意图以任何方式限制根据本公开的实现方式。
在各种实现方式中,平台1002可从具有一个或多个导航特征的导航控制器1050接收控制信号。导航控制器1050的导航特征例如可用于与用户界面1022交互。在各种实施例中,导航控制器1050可以是指点设备,该指点设备可以是允许用户将空间(例如,连续的和多维的)数据输入到计算机中的计算机硬件组件(具体而言是人机接口设备)。诸如图形用户界面(GUI)、电视机和监视器之类的许多系统允许用户利用物理手势控制计算机或电视机和向其提供数据。
导航控制器1050的导航特征的移动可被在显示器上显示的指针、光标、聚焦环或其他视觉指示物的移动复制在显示器(例如,显示器1020)上。例如,在软件应用1016的控制下,位于导航控制器1050上的导航特征例如可被映射到在用户界面1022上显示的虚拟导航特征。在各种实施例中,导航控制器1050可不是单独的组件,而是可被集成到平台1002和/或显示器1020中。然而,本公开并不限于本文示出或描述的元素或者情境。
在各种实现方式中,例如,当被启用时,驱动器(未示出)可包括使得用户能够在初始启动之后通过触摸按钮像电视机那样即刻开启和关闭平台1002的技术。程序逻辑可允许平台1002即使在平台被“关闭”时也可将内容流送到媒体适配器或(一个或多个)其他内容服务设备1030或(一个或多个)内容递送设备1040。此外,芯片集1005可包括对例如5.1环绕立体声音频和/或高清晰度10.1环绕立体声音频的硬件和/或软件支持。驱动器可包括用于集成图形平台的图形驱动器。在各种实施例中,图形驱动器可包括高速外围组件互连(peripheral component interconnect,PCI)图形卡。
在各种实现方式中,系统1000中示出的组件中的任何一个或多个可被集成。例如,平台1002和(一个或多个)内容服务设备1030可被集成,或者平台1002和(一个或多个)内容递送设备1040可被集成,或者平台1002、(一个或多个)内容服务设备1030和(一个或多个)内容递送设备1040可被集成。在各种实施例中,平台1002和显示器1020可以是集成的单元。例如,显示器1020和(一个或多个)内容服务设备1030可被集成,或者显示器1020和(一个或多个)内容递送设备1040可被集成。这些示例并不意图限制本公开。
在各种实施例中,系统1000可实现为无线系统、有线系统或者两者的组合。当实现为无线系统时,系统1000可包括适合于通过无线共享介质通信的组件和接口,例如一个或多个天线、发送器、接收器、收发器、放大器、滤波器、控制逻辑,等等。无线共享介质的示例可包括无线频谱的一些部分,例如RF频谱等等。当实现为有线系统时,系统1000可包括适合于通过有线通信介质通信的组件和接口,例如输入/输出(I/O)适配器、将I/O适配器与相应的有线通信介质连接的物理连接器、网络接口卡(network interface card,NIC)、盘控制器、视频控制器、音频控制器,等等。有线通信介质的示例可包括导线、电缆、金属引线、印刷电路板(PCB)、背板、交换结构、半导体材料、双绞线、同轴电缆、光纤,等等。
平台1002可建立一个或多个逻辑或物理信道来传输信息。该信息可包括媒体信息和控制信息。媒体信息可以指表示打算给用户的内容的任何数据。内容的示例例如可包括来自语音交谈的数据、视频会议、流视频、电子邮件(“email”)消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等等。来自语音交谈的数据可例如是话音信息、静默时段、背景噪声、舒适噪声、音调,等等。控制信息可以指表示打算给自动化系统的命令、指令或控制字的任何数据。例如,控制信息可用于将媒体信息路由过系统,或者指示节点以预定的方式处理媒体信息。然而,实施例并不限于图10中示出或描述的元素或情境。
如上所述,系统1000可实现为不同的物理风格或外形参数。图11图示了根据本公开的至少一些实现方式布置的示例小外形参数设备1100。在一些示例中,系统1000可经由设备1100实现。在其他示例中,本文论述的其他系统、组件或模块或者其一些部分可经由设备1100实现。在各种实施例中,例如,设备1100可实现为具有无线能力的移动计算设备。移动计算设备例如可以指具有处理系统和移动电源或供电电源(例如一个或多个电池)的任何设备。
移动计算设备的示例可包括个人计算机(PC)、膝上型计算机、超便携膝上型计算机、平板设备、触摸板、便携计算机、手持计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、智能设备(例如,智能电话、智能平板或智能移动电视)、移动互联网设备(MID)、消息传递设备、数据通信设备、相机(例如,傻瓜相机、超级变焦相机、数码单反(digital single-lens reflex,DSLR)相机),等等。
移动计算设备的示例还可包括被布置为由机动车辆或机器人实现的或者被人穿戴的计算机,例如手腕计算机、手指计算机、戒指计算机、眼镜计算机、皮带扣计算机、臂环计算机、鞋子计算机、衣服计算机和其他可穿戴计算机。在各种实施例中,例如,移动计算设备可实现为除了语音通信和/或数据通信以外还能够执行计算机应用的智能电话。虽然作为示例一些实施例可利用被实现为智能电话的移动计算设备来描述,但可明白其他实施例也可利用其他无线移动计算设备来实现。实施例不限于此情境中。
如图11中所示,设备1100可包括具有正面1101和背面1102的外壳。设备1100包括显示器1104、输入/输出(I/O)设备1106、彩色相机1121、彩色相机1122和集成天线1108。例如,彩色相机1121和彩色相机1122可输入如本文所述的图像数据(例如,左图像和右图像)。设备1100还可包括导航特征1112。I/O设备1106可包括用于将信息输入到移动计算设备中的任何适当的I/O设备。I/O设备1106的示例可包括字母数字键盘、数字小键盘、触摸板、输入键、按钮、开关、麦克风、扬声器、语音识别设备和软件,等等。信息也可经由麦克风(未示出)被输入到设备1100中或者可被语音识别设备数字化。如图所示,设备1100可包括彩色相机1121、1122,以及集成到设备1100的背面1102(或者别处)中的闪光灯1110。在其他示例中,彩色相机1121、1122和闪光灯1110可被集成到设备1101的正面1100,或者正面和背面的相机集合都可被提供。彩色相机1121、1122和闪光灯1110可以是相机模块的组件以发源彩色图像数据,该彩色图像数据可被处理成图像或流视频,该图像或流视频例如被输出到显示器1104和/或从设备1100经由天线1108远程传输。
各种实施例可利用硬件元件、软件元件或者两者的组合来实现。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等等)、集成电路、专用集成电路(application specific integrated circuit,ASIC)、可编程逻辑器件(programmable logic device,PLD)、数字信号处理器(digital signal processor,DSP)、现场可编程门阵列(field programmable gate array,FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片集,等等。软件的示例可包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(application program interface,API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或其任何组合。确定一实施例是否利用硬件元件和/或软件元件实现可根据任何数目的因素而变化,例如期望的计算速率、电力水平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度和其他设计或性能约束。
至少一个实施例的一个或多个方面可由存储在机器可读介质上的表示处理器内的各种逻辑的代表性指令实现,该逻辑当被机器读取时使得该机器制造逻辑来执行本文描述的技术。这种被称为IP核的表示可被存储在有形机器可读介质上并且被提供给各种客户或制造设施以加载到实际制作该逻辑或处理器的制造机器中。
虽然已参考各种实现方式描述了本文记载的某些特征,但此描述并不打算被从限制意义上来解释。因此,对本公开所属领域的技术人员来说显而易见的对本文描述的实现方式的各种修改以及其他实现方式被认为落入本公开的精神和范围内。
将会认识到,实施例不限于这样描述的实施例,而是可在带有修改和变更的情况下实现,而不脱离所附权利要求的范围。例如,上述实施例可包括特征的特定组合。然而,上述实施例不限于此,并且在各种实现方式中,上述实施例可包括仅从事这种特征的子集,从事这种特征的不同顺序,从事这种特征的不同组合和/或从事除明确列出的那些特征以外的额外特征。实施例的范围因此应当参考所附权利要求以及这种权利要求有权享有的等同物的完整范围来确定。

Claims (25)

1.一种用于实现卷积神经网络CNN的系统,包括:
存储器,其存储第一图像和第二图像,其中所述第一图像和所述第二图像包括场景的不同视图并且具有第一分辨率;以及
与所述存储器耦合的处理器,该处理器:
对所述第一图像和所述第二图像进行缩减以提供第一缩减图像和第二缩减图像;
至少部分地基于将第一卷积神经网络应用到第一输入体积来生成至少一个视差图,所述第一输入体积包括所述第一缩减图像和所述第二缩减图像,其中所述视差图包括视差值来平移所述第一缩减图像和所述第二缩减图像;
至少部分地基于所述视差图来确定第一平移缩减图像和第二平移缩减图像;
将第二卷积神经网络应用到第二输入体积以生成缩减的中间图像,所述第二输入体积包括所述第一平移缩减图像和所述第二平移缩减图像以及所述视差图,所述缩减的中间图像包括所述第一平移缩减图像和所述第二平移缩减图像之间的视图;
至少部分地基于将图像超分辨率卷积神经网络应用到所述缩减的中间图像来生成具有所述第一分辨率的中间图像;并且
提供所述中间图像来呈现给观看者。
2.如权利要求1所述的系统,其中,所述第一卷积神经网络包括第一编码器-解码器卷积神经网络,并且其中所述处理器生成所述至少一个视差图包括所述处理器:
将所述第一编码器-解码器卷积神经网络应用到所述第一输入体积以生成第一视差图和第二视差图;
利用所述第一视差图和所述第二视差图来平移所述第一缩减图像和所述第二缩减图像以生成第三平移缩减图像和第四平移缩减图像;并且
将第二编码器-解码器卷积神经网络应用到第三输入体积以生成所述至少一个视差图,所述第三输入体积包括所述第三平移缩减图像和所述第四平移缩减图像。
3.如权利要求2所述的系统,其中,所述第一编码器-解码器卷积神经网络和第所述二编码器-解码器卷积神经网络具有相同的体系结构并且实现相同的神经网络权重。
4.如权利要求3所述的系统,其中,所述第一编码器-解码器卷积神经网络和所述第二编码器-解码器卷积神经网络各自包括编码器部分和解码器部分,其中,所述编码器部分具有编码器层来以不同的分辨率从所述第一输入体积和所述第三输入体积提取特征,并且所述解码器部分利用与所述编码器层分别对应的跳过连接来组合所提取的特征以估计光流。
5.如权利要求1所述的系统,其中,所述第一卷积神经网络包括编码器-解码器卷积神经网络,所述处理器生成所述至少一个视差图包括所述处理器:将所述编码器-解码器卷积神经网络应用到所述第一输入体积以生成第一视差图和第二视差图,并且所述编码器-解码器卷积神经网络包括编码器部分和解码器部分,其中,所述编码器部分具有编码器层来以不同的分辨率从所述第一输入体积提取特征,并且所述解码器部分利用与所述编码器层分别对应的跳过连接来组合所提取的特征以估计光流。
6.如权利要求1到5中任一项所述的系统,其中,所述第二卷积神经网络包括体积卷积神经网络。
7.如权利要求1到6中任一项所述的系统,其中,所述处理器应用所述图像超分辨率卷积神经网络包括所述处理器:
向所述缩减的中间图像应用多个相邻卷积层和跟随在所述多个相邻卷积层之后的解卷积层以生成特征图像,所述特征图像具有比所述缩减的中间图像的第三分辨率大的第二分辨率;
对所述缩减的中间图像进行上采样以生成具有所述第二分辨率的第二中间图像;并且
组合所述特征图像和所述第二中间图像以生成上采样的中间图像。
8.如权利要求7所述的系统,其中,所述多个相邻卷积层被分离成块,其中每个块包括预定数目的卷积层并且每个块实现相同的神经网络权重,并且其中在卷积层的每个块之间提供残余连接,所述残余连接组合每个块的输入和输出。
9.如权利要求7所述的系统,其中,所述处理器应用所述图像超分辨率卷积神经网络还包括所述处理器:
向所述上采样的中间图像应用多个第二相邻卷积层和跟随在所述多个第二相邻卷积层之后的第二解卷积层以生成具有所述第一分辨率的第二特征图像;
对所述上采样的中间图像进行上采样以生成具有所述第一分辨率的第三中间图像;并且
组合所述第二特征图像和所述第三中间图像以生成最终上采样中间图像。
10.如权利要求1到9中任一项所述的系统,其中,所述缩减的中间图像在第一颜色空间中,所述处理器还:
将所述缩减的中间图像转换到第二颜色空间,所述第二颜色空间包括亮度通道和一个或多个第二通道;
分离所述亮度通道和所述一个或多个第二通道,其中所述图像超分辨率卷积神经网络只被应用到所述缩减的中间图像的亮度通道;
对所述缩减的中间图像的所述一个或多个第二通道进行扩增;并且
将只具有亮度通道的所述图像超分辨率卷积神经网络的输出图像与所述缩减的中间图像的被扩增的一个或多个第二通道串接以生成所述中间图像。
11.如权利要求1到10中任一项所述的系统,所述处理器还:
分开训练视图合成网络和所述图像超分辨率卷积神经网络以确定视图合成网络参数和图像超分辨率卷积神经网络参数,其中所述视图合成网络包括所述第一卷积神经网络和所述第二卷积神经网络。
12.如权利要求1所述的系统,其中,所述第一卷积神经网络包括编码器-解码器卷积神经网络,所述编码器-解码器卷积神经网络包括编码器部分和解码器部分,其中所述编码器部分具有编码器层来以不同的分辨率从所述第一输入体积提取特征,并且所述解码器部分利用与所述编码器层分别对应的跳过连接来组合所提取的特征以估计光流,所述第二卷积神经网络包括体积卷积神经网络,并且所述图像超分辨率卷积神经网络包括:多个相邻卷积层和跟随在所述多个相邻卷积层之后的解卷积层,用于生成具有比所述缩减的中间图像的第三分辨率大的第二分辨率的特征图像;上采样器,用于对所述缩减的中间图像进行上采样以生成具有所述第二分辨率的第二中间图像;以及加法器,用于组合所述特征图像和所述第二中间图像以生成上采样的中间图像。
13.一种用于从多视图图像生成中间图像的由计算机实现的方法,包括:
对第一图像和第二图像进行缩减以提供第一缩减图像和第二缩减图像,其中所述第一图像和所述第二图像包括场景的不同视图并且具有第一分辨率;
至少部分地基于将第一卷积神经网络应用到第一输入体积来生成至少一个视差图,所述第一输入体积包括所述第一缩减图像和所述第二缩减图像,其中所述视差图包括视差值来平移所述第一缩减图像和所述第二缩减图像;
至少部分地基于所述视差图来确定第一平移缩减图像和第二平移缩减图像;
将第二卷积神经网络应用到第二输入体积以生成缩减的中间图像,所述第二输入体积包括所述第一平移缩减图像和所述第二平移缩减图像以及所述视差图,所述缩减的中间图像包括所述第一平移缩减图像和所述第二平移缩减图像之间的视图;
至少部分地基于将图像超分辨率卷积神经网络应用到所述缩减的中间图像来生成具有所述第一分辨率的中间图像;并且
提供所述中间图像来呈现给观看者。
14.如权利要求13所述的方法,其中,所述第一卷积神经网络包括第一编码器-解码器卷积神经网络,并且其中生成所述至少一个视差图包括:
将所述第一编码器-解码器卷积神经网络应用到所述第一输入体积以生成第一视差图和第二视差图;
利用所述第一视差图和第二视差图来平移所述第一缩减图像和所述第二缩减图像以生成第三平移缩减图像和第四平移缩减图像;并且
将第二编码器-解码器卷积神经网络应用到第三输入体积以生成所述至少一个视差图,所述第三输入体积包括所述第三平移缩减图像和所述第四平移缩减图像。
15.如权利要求14所述的方法,其中,所述第一编码器-解码器卷积神经网络和所述第二编码器-解码器卷积神经网络具有相同的体系结构并且实现相同的神经网络权重,并且其中所述第一编码器-解码器卷积神经网络和所述第二编码器-解码器卷积神经网络各自包括编码器部分和解码器部分,其中,所述编码器部分具有编码器层来以不同的分辨率从所述第一输入体积和所述第三输入体积提取特征,并且所述解码器部分利用与所述编码器层分别对应的跳过连接来组合所提取的特征以估计光流。
16.如权利要求13所述的方法,其中,所述第一卷积神经网络包括编码器-解码器卷积神经网络,生成所述至少一个视差图包括:将所述编码器-解码器卷积神经网络应用到所述第一输入体积以生成第一视差图和第二视差图,并且所述编码器-解码器卷积神经网络包括编码器部分和解码器部分,其中,所述编码器部分具有编码器层来以不同的分辨率从所述第一输入体积提取特征,并且所述解码器部分利用与所述编码器层分别对应的跳过连接来组合所提取的特征以估计光流。
17.如权利要求13到16中任一项所述的方法,其中,所述第二卷积神经网络包括体积卷积神经网络。
18.如权利要求13到17中任一项所述的方法,其中,应用所述图像超分辨率卷积神经网络包括:
向所述缩减的中间图像应用多个相邻卷积层和跟随在所述多个相邻卷积层之后的解卷积层以生成特征图像,所述特征图像具有比所述缩减的中间图像的第三分辨率大的第二分辨率;
对所述缩减的中间图像进行上采样以生成具有所述第二分辨率的第二中间图像;并且
组合所述特征图像和所述第二中间图像以生成上采样的中间图像。
19.如权利要求18所述的方法,其中,所述多个相邻卷积层被分离成块,其中每个块包括预定数目的卷积层并且每个块实现相同的神经网络权重,并且其中在卷积层的每个块之间提供残余连接,所述残余连接组合每个块的输入和输出。
20.如权利要求18所述的方法,其中,应用所述图像超分辨率卷积神经网络还包括:
向所述上采样的中间图像应用多个第二相邻卷积层和跟随在所述多个第二相邻卷积层之后的第二解卷积层以生成具有所述第一分辨率的第二特征图像;
对所述上采样的中间图像进行上采样以生成具有所述第一分辨率的第三中间图像;并且
组合所述第二特征图像和所述第三中间图像以生成最终上采样中间图像。
21.如权利要求13到20中任一项所述的方法,其中,所述缩减的中间图像在第一颜色空间中,所述方法还包括:
将所述缩减的中间图像转换到第二颜色空间,所述第二颜色空间包括亮度通道和一个或多个第二通道;
分离所述亮度通道和所述一个或多个第二通道,其中所述图像超分辨率卷积神经网络只被应用到所述缩减的中间图像的亮度通道;
对所述缩减的中间图像的所述一个或多个第二通道进行扩增;并且
将只具有亮度通道的所述图像超分辨率卷积神经网络的输出图像与所述缩减的中间图像的被扩增的一个或多个第二通道串接以生成所述中间图像。
22.如权利要求13到21中任一项所述的方法,还包括:
分开训练视图合成网络和所述图像超分辨率卷积神经网络以确定视图合成网络参数和图像超分辨率卷积神经网络参数,其中所述视图合成网络包括所述第一卷积神经网络和所述第二卷积神经网络。
23.如权利要求13所述的方法,其中,所述第一卷积神经网络包括编码器-解码器卷积神经网络,所述编码器-解码器卷积神经网络包括编码器部分和解码器部分,其中所述编码器部分具有编码器层来以不同的分辨率从所述第一输入体积提取特征,并且所述解码器部分利用与所述编码器层分别对应的跳过连接来组合所提取的特征以估计光流,所述第二卷积神经网络包括体积卷积神经网络,并且所述图像超分辨率卷积神经网络包括:多个相邻卷积层和跟随在所述多个相邻卷积层之后的解卷积层,用于生成具有比所述缩减的中间图像的第三分辨率大的第二分辨率的特征图像;上采样器,用于对所述缩减的中间图像进行上采样以生成具有所述第二分辨率的第二中间图像;以及加法器,用于组合所述特征图像和所述第二中间图像以生成上采样的中间图像。
24.至少一种机器可读介质,包括:
多个指令,所述指令响应于在计算设备上被执行而使得所述计算设备执行根据权利要求13-23中任一项所述的方法。
25.一种设备,包括:
用于执行根据权利要求13-23中任一项所述的方法的装置。
CN201910783930.1A 2018-09-25 2019-08-23 具有流估计和图像超分辨率的多相机阵列图像的视图插补 Pending CN110942441A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/141,426 US10547823B2 (en) 2018-09-25 2018-09-25 View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning
US16/141,426 2018-09-25

Publications (1)

Publication Number Publication Date
CN110942441A true CN110942441A (zh) 2020-03-31

Family

ID=65230114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910783930.1A Pending CN110942441A (zh) 2018-09-25 2019-08-23 具有流估计和图像超分辨率的多相机阵列图像的视图插补

Country Status (2)

Country Link
US (2) US10547823B2 (zh)
CN (1) CN110942441A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530342A (zh) * 2020-05-26 2021-03-19 友达光电股份有限公司 显示方法
CN113132706A (zh) * 2021-03-05 2021-07-16 北京邮电大学 基于逆向映射的可控位置虚拟视点生成方法及装置
CN113393382A (zh) * 2021-08-16 2021-09-14 四川省人工智能研究院(宜宾) 一种基于多维度视差先验的双目图片超分辨率重建方法
CN115908992A (zh) * 2022-10-22 2023-04-04 北京百度网讯科技有限公司 双目立体匹配的方法、装置、设备以及存储介质
CN116668632A (zh) * 2023-04-28 2023-08-29 青岛尘元科技信息有限公司 全息视频的播放方法、装置、设备及存储介质
TWI822032B (zh) * 2022-05-05 2023-11-11 國立陽明交通大學 影片播放系統、可攜式影片播放裝置及影片增強方法

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489887B2 (en) * 2017-04-10 2019-11-26 Samsung Electronics Co., Ltd. System and method for deep learning image super resolution
CN107169927B (zh) * 2017-05-08 2020-03-24 京东方科技集团股份有限公司 一种图像处理系统、方法及显示装置
CN109218727B (zh) * 2017-06-30 2021-06-25 书法报视频媒体(湖北)有限公司 视频处理的方法和装置
CN110956575B (zh) * 2018-09-26 2022-04-12 京东方科技集团股份有限公司 转变图像风格的方法和装置、卷积神经网络处理器
US11055819B1 (en) * 2018-09-27 2021-07-06 Amazon Technologies, Inc. DualPath Deep BackProjection Network for super-resolution
US11265446B2 (en) * 2018-10-18 2022-03-01 Sony Corporation Frame handling for ML-based upscaling
WO2020098360A1 (en) * 2018-11-15 2020-05-22 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, system, and computer-readable medium for processing images using cross-stage skip connections
US20220014723A1 (en) * 2018-12-03 2022-01-13 Google Llc Enhancing performance capture with real-time neural rendering
CN111353944B (zh) * 2018-12-20 2024-05-28 深圳市中兴微电子技术有限公司 一种图像重建方法、装置及计算机可读存储介质
US10997690B2 (en) * 2019-01-18 2021-05-04 Ramot At Tel-Aviv University Ltd. Method and system for end-to-end image processing
US10410120B1 (en) * 2019-01-25 2019-09-10 StradVision, Inc. Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
US10452980B1 (en) * 2019-01-25 2019-10-22 StradVision, Inc. Learning method and learning device for extracting feature from input image by using convolutional layers in multiple blocks in CNN, resulting in hardware optimization which allows key performance index to be satisfied, and testing method and testing device using the same
CN111627051B (zh) * 2019-02-27 2023-12-15 中强光电股份有限公司 电子装置及用以估计光流的方法
US10965932B2 (en) * 2019-03-19 2021-03-30 Intel Corporation Multi-pass add-on tool for coherent and complete view synthesis
US11019364B2 (en) * 2019-03-23 2021-05-25 Uatc, Llc Compression of images having overlapping fields of view using machine-learned models
KR20200140096A (ko) * 2019-06-05 2020-12-15 삼성전자주식회사 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
KR20200142883A (ko) * 2019-06-13 2020-12-23 엘지이노텍 주식회사 카메라 장치 및 카메라 장치의 이미지 생성 방법
CN114008661A (zh) * 2019-06-25 2022-02-01 华为技术有限公司 图像处理方法、装置及其计算机程序产品
KR20210001324A (ko) * 2019-06-27 2021-01-06 삼성전자주식회사 인공 신경망 모델 및 이를 포함하는 전자 장치
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法
CN110446071A (zh) * 2019-08-13 2019-11-12 腾讯科技(深圳)有限公司 基于神经网络的多媒体处理方法、装置、设备及介质
KR102569447B1 (ko) * 2019-08-19 2023-08-24 삼성전자주식회사 복호화 장치 및 그 동작방법, 및 ai 업 스케일 장치 및 그 동작방법
US10839565B1 (en) 2019-08-19 2020-11-17 Samsung Electronics Co., Ltd. Decoding apparatus and operating method of the same, and artificial intelligence (AI) up-scaling apparatus and operating method of the same
US11140422B2 (en) * 2019-09-25 2021-10-05 Microsoft Technology Licensing, Llc Thin-cloud system for live streaming content
US10964034B1 (en) * 2019-10-30 2021-03-30 Nvidia Corporation Vertical disparity detection in stereoscopic images from optical flow data
CN110827200B (zh) * 2019-11-04 2023-04-07 Oppo广东移动通信有限公司 一种图像超分重建方法、图像超分重建装置及移动终端
CN111008986B (zh) * 2019-11-20 2023-09-05 天津大学 一种基于多任务半卷积的遥感图像分割方法
KR20210067788A (ko) * 2019-11-29 2021-06-08 삼성전자주식회사 전자 장치, 시스템 및 그 제어 방법
KR20210067783A (ko) * 2019-11-29 2021-06-08 삼성전자주식회사 전자 장치, 그 제어 방법 및 시스템
US11636602B1 (en) * 2020-02-12 2023-04-25 Scale AI, Inc. Prelabeling for semantic segmentation tasks
US20210279841A1 (en) * 2020-03-09 2021-09-09 Nvidia Corporation Techniques to use a neural network to expand an image
CN113496521B (zh) * 2020-04-08 2022-10-18 复旦大学 利用多张彩色图片生成深度图像与相机外参的方法及装置
CN111626927B (zh) * 2020-04-09 2023-05-30 上海交通大学 采用视差约束的双目图像超分辨率方法、系统及装置
CN111563838B (zh) * 2020-04-24 2023-05-26 维沃移动通信有限公司 图像处理方法及电子设备
US11436703B2 (en) * 2020-06-12 2022-09-06 Samsung Electronics Co., Ltd. Method and apparatus for adaptive artificial intelligence downscaling for upscaling during video telephone call
US11842460B1 (en) * 2020-06-19 2023-12-12 Apple Inc. Burst image fusion and denoising using end-to-end deep neural networks
US11688100B1 (en) * 2020-06-19 2023-06-27 Apple Inc. Systems and methods for multi-sensor image enhancement
CN111951203A (zh) * 2020-07-01 2020-11-17 北京大学深圳研究生院 视点合成方法、装置、设备及计算机可读存储介质
KR20230044148A (ko) * 2020-07-31 2023-04-03 구글 엘엘씨 비제약 이미지 데이터에 강건한 뷰 합성
US11783510B2 (en) * 2020-08-25 2023-10-10 Nvidia Corporation View generation using one or more neural networks
CN112037129B (zh) * 2020-08-26 2024-04-19 广州视源电子科技股份有限公司 图像超分辨率重建方法、装置、设备及存储介质
US11941783B2 (en) * 2020-08-28 2024-03-26 Apple Inc. Scaler de-ringing in image processing circuitry
KR20220030084A (ko) * 2020-09-02 2022-03-10 삼성전자주식회사 영상 처리 방법 및 장치
US20210004969A1 (en) * 2020-09-23 2021-01-07 Intel Corporation Multi-level optical flow estimation framework for stereo pairs of images based on spatial partitioning
US11683358B2 (en) * 2020-11-04 2023-06-20 Microsoft Technology Licensing, Llc Dynamic user-device upscaling of media streams
KR20220064045A (ko) 2020-11-11 2022-05-18 삼성전자주식회사 영상을 생성하는 방법 및 장치와 영상 생성을 위한 신경망을 트레이닝하는 방법
CN114494087A (zh) * 2020-11-12 2022-05-13 安霸国际有限合伙企业 无监督的多尺度视差/光流融合
WO2022120285A1 (en) * 2020-12-04 2022-06-09 Beijing Dajia Internet Information Technology Co., Ltd. Network based image filtering for video coding
AU2020281143B1 (en) * 2020-12-04 2021-03-25 Commonwealth Scientific And Industrial Research Organisation Creating super-resolution images
US11490078B2 (en) 2020-12-29 2022-11-01 Tencent America LLC Method and apparatus for deep neural network based inter-frame prediction in video coding
KR20220107831A (ko) * 2021-01-26 2022-08-02 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
US20240046503A1 (en) * 2021-02-09 2024-02-08 Carnegie Mellon University Fast object search based on the cocktail party effect
CN113592709B (zh) * 2021-02-19 2023-07-25 腾讯科技(深圳)有限公司 图像超分处理方法、装置、设备及存储介质
KR20220121533A (ko) * 2021-02-25 2022-09-01 삼성전자주식회사 어레이 카메라를 통해 획득된 영상을 복원하는 영상 복원 방법 및 영상 복원 장치
US20230146466A1 (en) * 2021-11-09 2023-05-11 Stryker Corporation Systems and methods for displaying intraoperative image data
US20230269385A1 (en) * 2022-02-24 2023-08-24 Sharp Kabushiki Kaisha Systems and methods for improving object tracking in compressed feature data in coding of multi-dimensional data
WO2023215006A1 (en) * 2022-05-03 2023-11-09 Innopeak Technology, Inc. Streamable 4d video system
US20240281927A1 (en) * 2023-02-22 2024-08-22 CYENS CoE Systems and methods of optimized deep learning for image reconstruction

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733714B2 (en) * 2017-11-09 2020-08-04 Samsung Electronics Co., Ltd Method and apparatus for video super resolution using convolutional neural network with two-stage motion compensation

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530342A (zh) * 2020-05-26 2021-03-19 友达光电股份有限公司 显示方法
TWI729826B (zh) * 2020-05-26 2021-06-01 友達光電股份有限公司 顯示方法
CN112530342B (zh) * 2020-05-26 2023-04-25 友达光电股份有限公司 显示方法
CN113132706A (zh) * 2021-03-05 2021-07-16 北京邮电大学 基于逆向映射的可控位置虚拟视点生成方法及装置
CN113393382A (zh) * 2021-08-16 2021-09-14 四川省人工智能研究院(宜宾) 一种基于多维度视差先验的双目图片超分辨率重建方法
CN113393382B (zh) * 2021-08-16 2021-11-09 四川省人工智能研究院(宜宾) 一种基于多维度视差先验的双目图片超分辨率重建方法
TWI822032B (zh) * 2022-05-05 2023-11-11 國立陽明交通大學 影片播放系統、可攜式影片播放裝置及影片增強方法
CN115908992A (zh) * 2022-10-22 2023-04-04 北京百度网讯科技有限公司 双目立体匹配的方法、装置、设备以及存储介质
CN115908992B (zh) * 2022-10-22 2023-12-05 北京百度网讯科技有限公司 双目立体匹配的方法、装置、设备以及存储介质
CN116668632A (zh) * 2023-04-28 2023-08-29 青岛尘元科技信息有限公司 全息视频的播放方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US10855966B2 (en) 2020-12-01
US20200162715A1 (en) 2020-05-21
US20190045168A1 (en) 2019-02-07
US10547823B2 (en) 2020-01-28

Similar Documents

Publication Publication Date Title
US10855966B2 (en) View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning
US10930054B2 (en) Method and system of robust virtual view generation between camera views
CN109618090B (zh) 对通过使用广角透镜捕获的图像的图像失真校正的方法和系统
US20230306603A1 (en) Deep learning for dense semantic segmentation in video with automated interactivity and improved temporal coherence
US11928753B2 (en) High fidelity interactive segmentation for video data with deep convolutional tessellations and context aware skip connections
US20190130208A1 (en) Local tone mapping to reduce bit depth of input images to high-level computer vision tasks
US10957027B2 (en) Virtual view interpolation between camera views for immersive visual experience
CN112399178A (zh) 视觉质量优化的视频压缩
US11722653B2 (en) Multi-pass add-on tool for coherent and complete view synthesis
EP3149706B1 (en) Image refocusing for camera arrays
CN113852821A (zh) 使用深度学习的视频编解码器辅助实时视频增强
US20210004969A1 (en) Multi-level optical flow estimation framework for stereo pairs of images based on spatial partitioning
US10771758B2 (en) Immersive viewing using a planar array of cameras
WO2013169384A1 (en) Systems, methods, and computer program products for compound image demosaicing and warping
CN108370437B (zh) 多视点视频稳定化
NL2029657B1 (en) Accurate optical flow estimation in stereo pairs of equirectangular images
EP3132608B1 (en) Fallback detection in motion estimation
CN114257733A (zh) 具有视点偏移的全向图像的图像处理的方法和系统
US12106493B2 (en) Accurate optical flow estimation in stereo pairs of equirectangular images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination