CN115334233A

CN115334233A - 滑动变焦效果的产生方法和系统

Info

Publication number: CN115334233A
Application number: CN202210443213.6A
Authority: CN
Inventors: 陈志玮; 丛培贵; 王耀笙; 林俊辰; 林嘉庆
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2021-05-10
Filing date: 2022-04-25
Publication date: 2022-11-11
Anticipated expiration: 2042-04-25
Also published as: US20220358619A1; TWI792990B; CN115334233B; TW202245459A

Abstract

本发明提供滑动变焦效果的产生方法和系统，可生成逼真图像。在一个实施例中，本发明的滑动变焦效果的方法可包括：在主位置捕捉主图像，该主图像至少包括给定尺寸的前景对象和背景；基于要应用于该背景的放大因子和前景对象的估计尺寸来计算一个或多个侧视图位置；引导用户在该一个或多个侧视图位置捕捉一个或多个侧视图图像；将该给定尺寸的前景对象叠加到放大的该背景上；和使用来自该一个或多个测试图图像的侧视图信息对该叠加后的图像执行图像修复。

Description

滑动变焦效果的产生方法和系统

技术领域

本发明涉及摄像技术，更进一步涉及滑动变焦效果的产生方法及系统。

背景技术

滑动变焦(Dolly zoom)是摄影(photography)和拍摄(filming)中用于产生透视失真(perspective distortion)效果的技术。在滑动变焦过程中，摄像机(camera)向前或向后滑动(即移动)，而被拍摄对象保持在原位。当摄像机移动以改变拍摄位置时，摄像机的变焦镜头(zoom lens)会改变其视角(Field Of View，FOV)，以使前景对象(foregroundobject)在图像序列中保持相同尺寸。当摄像机镜头拉近(zoom in)(当镜头拉近时，焦距变大，视角变小)或镜头拉远(zoom out)(当镜头拉远时，焦距变小，视角变大)时，FOV会发生变化。在变焦过程中，背景(background)似乎会相对前景对象改变尺寸。

摄像机可以通过“摄像机靠近镜头拉远(dolly-in and zoom-out)”或“摄像机远离镜头拉近(dolly-out and zoom-in)”来产生滑动变焦效果。当将摄像机靠近(dolly in)和将镜头拉远(zoom out)时，拍摄图像中主体的尺寸保持不变，背景被缩小。当将摄像机远离(dolly out)而将镜头拉近(zoom in)时，拍摄图像中的主体尺寸保持不变，背景被放大。通常，创建滑动变焦效果需要精密的设备和摄影专业知识。对于业余爱好者来说，协调摄像机的移动和变焦操作是一项挑战。

已经开发了数字图像处理技术来仿真滑动变焦效果。这些技术的一个目的是使滑动变焦效果容易创建。然而，这些技术中的一些从捕捉的图像推断像素值由此产生模糊或不真实的图像。因此，在创建滑动变焦效果时需要改进图像处理技术。

发明内容

本发明提供滑动变焦效果的产生方法和系统，可生成逼真图像。

在一个实施例中，本发明的滑动变焦效果的方法可包括：在主位置捕捉主图像，该主图像至少包括给定尺寸的前景对象和背景；基于要应用于该背景的放大因子和前景对象的估计尺寸来计算一个或多个侧视图位置；引导用户在该一个或多个侧视图位置捕捉一个或多个侧视图图像；将该给定尺寸的前景对象叠加到放大的该背景上；和使用来自该一个或多个测试图图像的侧视图信息对该叠加后的图像执行图像修复。

在另一个实施例中，本发明的用于产生滑动变焦效果的系统，包括：摄像机，用于在主位置捕捉主图像，该主图像至少包括给定尺寸的前景对象和背景；处理硬件；和存储指令的存储器，当处理硬件执行这些指令时，会导致处理硬件执行如下操作：基于要应用于该背景的放大因子和前景对象的估计尺寸来计算一个或多个侧视图位置；引导用户在该一个或多个侧视图位置捕捉一个或多个侧视图图像；将该给定尺寸的前景对象叠加到放大的该背景上；和使用来自该一个或多个测试图图像的侧视图信息对该叠加后的图像执行图像修复。

综上所述，本发明实施例使用来自侧视图图像的侧视图信息来修复前景对象与放大后的背景叠加后的图像，由此可生成逼真图像。

附图说明

图1图示了根据一个实施例的滑动变焦效果的示例。

图2图示了根据一个实施例的用于产生压缩感效果的方法。

图3是图示根据一个实施例的滑动变焦单元的框图。

图4是图示根据另一实施例的滑动变焦单元的框图。

图5是根据一个实施例的用于产生自动滑动变焦效果的设备的示意图。

图6图示了根据一个实施例的摄像机位置、前景对象和背景之间的几何关系。

图7是图示根据一个实施例的摄像机远离镜头拉近方法的流程图。

图8是说明根据一个实施例的摄像机靠近镜头拉远方法的流程图。

图9图示了根据另一个实施例的摄像机位置、前景对象和背景之间的几何关系。

图10是示出根据一个实施例的用于执行自动滑动变焦图像处理的系统的框图。

具体实施方式

在说明书及权利要求书当中使用了某些词汇来指称特定的组件。本领域技术人员应可理解，硬件制造商可能会用不同的名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。在通篇说明书及权利要求当中所提及的“包含”及“包括”为一开放式的用语，故应解释成“包含但不限定于”。“大体上”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性连接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表该第一装置可直接电性连接于该第二装置，或通过其它装置或连接手段间接地电性连接至该第二装置。以下所述为实施本发明的较佳方式，目的在于说明本发明的精神而非用以限定本发明的保护范围，本发明的保护范围当视权利要求书所界定者为准。

接下面的描述为本发明预期的最优实施例。这些描述用于阐述本发明的大致原则而不应用于限制本发明。本发明的保护范围应在参考本发明的权利要求书的基础上进行认定。

本发明的实施例提供了一种方法、设备、系统和计算器产品，可以在由摄像机捕捉的图像中自动产生滑动变焦效果。捕捉的图像包括前景对象和背景。滑动变焦效果在背景放大或缩小时保持前景对象的尺寸。

对于“摄像机远离镜头拉近(dolly-out zoom-in)”(也即，压缩感)效果，用户首先在原始位置使用图像捕捉设备以焦距(F)拍摄主照片。用户识别主照片的前景中的目标，并识别背景放大因子。然后，该设备会引导用户在偏离原始位置的位置拍摄侧视图照片。可以使用相同的焦距(F)拍摄侧视图照片。该设备执行图像分割以从主照片中提取目标，并将提取的目标(保持相同尺寸)叠加到放大的背景上以产生扭曲的图像(warped image)。根据主照片和侧视图照片提供的信息，设备可以将扭曲的图像处理成处理后的照片，处理后的照片包括目标(与主照片中的目标尺寸相同)和背景(已通过放大因子进行了调整)。

在一个实施例中，该设备通过对在主照片中被目标遮挡并在背景放大后曝光的背景区域执行修复操作来生成处理后的照片。这些背景区域也称为“孔洞”(hole)。修复操作利用主照片和侧视图照片中的信息来填充孔洞。因此，孔洞的像素值是从真实图像源生成的，这与从附近点推断像素值的传统方法不同。因此，设备引导的侧视图机制可以生成具有压缩感效果的逼真图像。

对于“摄像机靠近镜头拉远(dolly-in zoom-out)”(也即，延伸感)效果，用户首先在原始位置使用图像捕捉设备以焦距(Fa)拍摄主照片。用户识别主照片的前景中的目标，并识别背景缩小因子。设备自动将焦距减小到Fb，其中Fa>Fb，并在相同的原始位置拍摄第二张照片。较小的焦距会增加缩小的背景中的视角(即，捕捉更多背景)。设备进行图像分割以从主照片中分割目标，并将分割后的目标(保持相同尺寸)叠加到缩小的背景上以产生具有延伸感效果的处理后的照片。

图1图标了图像序列中的滑动变焦效果的示例。图像序列(a)、(b)、(c)说明了压缩感(dolly-out zoom-in)的效果；即，在放大目标对象110的同时将摄像机从目标对象110移开。当摄像机移开并将镜头拉近时，摄像机的焦距变长并且可以看到更少的背景。相比之下，图像序列(c)、(b)、(a)说明了延伸感(dolly-in zoom-out)的效果；即，在缩小目标对象110的同时将摄像机移向目标对象110。当摄像机靠近和将镜头拉远时，摄像机的焦距变得更短，由此可以看到更多的背景。不同于背景对象120(例如，汽车)，目标对象110在所有三个图像中保持相同的尺寸，背景对象120在摄像机将镜头拉近(从(a)到(c))时变大并且在摄像机将镜头拉远(从(c)到(a))时变小。

图2示出了根据一个实施例的用于产生压缩感效果的方法200。方法200可以由诸如图像捕捉和处理设备之类的设备来执行。当设备在步骤210在主位置拍摄主图像(例如，主图像215)时，方法200开始。在步骤220，设备对主图像215执行对象分割。在步骤230，设备识别分割图像中给定尺寸的前景对象(例如，人235)。在一个实施例中，用户可以选择多个分割对象之一作为前景对象。用户的选择可以通过用户接口进行；例如，设备上的触摸面板。在步骤240，设备识别背景放大因子。在一个实施例中，用户可以通过用户接口输入放大因子。在步骤250，设备计算侧视图位置以引导用户拍摄侧视图图像(例如，侧视图图像253和254)。在步骤260，设备将给定尺寸的前景对象(例如，人235)叠加到放大的背景上，该放大的背景是主图像的背景被放大因子放大后形成的。如图像265所示，放大效果放大主图像被人235遮挡的区域266。区域266是人235后面的间隙或孔洞。在步骤270，设备使用来自侧视图图像253和254的信息执行图像修复以填充区域266。最终产生的结果是处理后的图像275，其包括给定尺寸(即，与主图像215中的尺寸相同)的前景对象和放大后的背景。

图3是图示根据一个实施例的滑动变焦单元300(“单元300”)的框图。单元300包括硬件和由硬件执行的软件。硬件的非限制性示例可以包括数字信号处理器、中央处理单元(CPU)、图形处理单元(GPU)、神经网络处理单元(NPU)等。单元300可以耦合到用于捕捉图像的摄像机和用于显示捕捉的图像和处理后的图像的显示器。在一个实施例中，单元300可以是执行图2中的方法200的设备的一部分。在图3的示例中，虚线箭头表示输入/输出数据的流向，而实线箭头表示操作顺序。

在一个实施例中，单元300包括引导侧视图定位单元310、深度估计器320、滑动变焦扭曲单元(或称之为滑动变焦仿射单元)330和图像修复单元340。参考图2中的图像，主图像311(例如，主图像215)被拍摄。深度估计器320估计主图像311的深度图(depth map)以使得能够识别前景对象。在一个实施例中，可以使用经过训练的神经网络来生成深度图。深度图还可用于估计前景对象的尺寸和到前景对象的距离。基于深度估计器320从主图像311和缩放参数312(例如，图2的步骤240中的背景放大因子)收集的信息，引导侧视图定位单元310生成侧视图引导(guide)。设备或设备的用户可以使用侧视图引导来识别侧视图位置并从侧视图位置获取侧视图图像321(例如，侧视图253和254)。深度估计器320进一步估计每个侧视图图像321的深度图。

根据缩放参数312，滑动变焦扭曲单元330将放大因子应用于主图像311的背景，并将尺寸不变的前景对象叠加到放大的背景上。结果是扭曲的图像，例如图像265。图像修复单元340将侧视图图像321中的信息应用于扭曲的图像以填充扭曲的图像中的孔洞。图像修复单元340的输出是滑动变焦处理后的图像341(例如，图像275)。

图4是示出根据另一实施例的滑动变焦单元400(“单元400”)的框图。单元400包括引导侧视图定位单元410、滑动变焦扭曲单元430和图像修复单元440。单元400不是通过深度估计器生成深度图，而是从摄像机(例如深度感应摄像机)获取图像及深度图。设备(单元400所在的设备)可以从主图像及其深度图411确定前景对象的信息，例如前景对象的尺寸和到前景对象的距离。基于前景对象的深度信息和缩放参数412(例如，图2的步骤240中的背景放大因子)，引导侧视图定位单元410生成侧视图引导。设备或设备的用户可以使用侧视图引导来识别侧视图位置并从侧视图位置获取侧视图图像(例如，侧视图253和254)和它们各自的深度图431。

滑动变焦扭曲单元430和图像修复单元440分别以与图3中的滑动变焦扭曲单元330和图像修复单元340相同的方式操作。图像修复单元440的输出是滑动变焦处理后的图像441(例如，图像275)。

图5是根据一个实施例的用于产生自动滑动变焦效果的设备500的示意图。在一个实施例中，设备500可以执行图2的方法200。设备500可以包括滑动变焦单元300(图3)或滑动变焦单元400(图4)。在一个实施例中，设备500包括图像捕捉单元550、对象分割单元560、引导侧视图定位单元510、滑动变焦扭曲单元530和图像修复单元540。每个单元可以通过在一个或多个处理器和存储在存储器中的指令控制下运行的专用电路或通用电路实现。因此，在一个实施例中，每个单元也可以称为电路。设备500还可以包括用于显示捕捉的图像和/或处理后的图像的显示器。设备500还可以包括用户接口(User Interface，UI)，用于与用户就主图像中的前景对象的识别和选择进行交互。作为示例，UI可以包括覆盖显示器以接收用户输入的触摸面板。用于接收用户输入的其他类型的UI也包括在本发明的范围内。

最初，图像捕捉单元550捕捉主图像。对象分割单元560用于定位主图像中的对象和对象边界。在一个实施例中，对象分割单元560可以根据神经网络来操作，该神经网络已经在用于对象分割的大量训练图像上进行训练。设备500可以自动地或者在用户的帮助下从分割结果中识别前景对象。设备500然后生成与前景对象相关的信息，例如前景对象的尺寸和深度。

引导侧视图定位单元510接收前景对象信息和缩放参数512，并输出侧视图位置以供图像捕捉单元550捕捉侧视图图像。滑动变焦扭曲单元530接收缩放参数512和其中已识别出前景对象的主图像，并输出扭曲的图像。图像修复单元540接收扭曲的图像并使用侧视图图像来填充扭曲的图像中的孔洞(例如，图2中的区域266)。

在一个实施例中，图像修复单元540使用神经网络542来执行图像修复并输出滑动变焦处理后的图像。神经网络542已经在用于图像修复的大量训练图像上进行了训练。修复操作用侧视图图像中的匹配图像像素填充扭曲的图像中的孔洞。神经网络542的非限制性示例包括卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(RecurrentNeural Network，RNN)、基于注意力的神经网络及其变体。神经网络542可以存储在设备500的存储器中。

图6图示了根据一个实施例的摄像机位置、前景对象(例如，目标650)和背景之间的几何关系。例如，摄像机位置P0和P1可以分别对应于图1中的图像(a)和(b)。参考图6的同时参照图2-5，由方法200产生的压缩感效果模拟将摄像机从P0拉到P1，同时放大目标。摄像机在P0拍摄主图像，并在移动平面610上横向移动以拍摄侧视图图像。从P1到背景、目标650和P0的距离分别为D_BGA、D_TA和D_BA。D_TA也称为前景深度，D_BA也称为模拟远离(dolly-out)距离。图6还显示了主图像中被目标650遮挡的背景区域和被目标650遮挡的放大后的背景。这两个遮挡区域之间的区别是被放大的背景暴露出来的孔洞，由侧视图信息填充。

设备500放大背景并保持目标的尺寸以产生压缩感效果。在一个实施例中，设备500使用几何关系(0.5x目标宽度)/摄像机移位大小＝D_TA/D_BA(或表示为：(0.5x Target_width)/Camera_shift＝D_TA/D_BA)计算侧视图位置，其中D_TA/D_BA是放大因子并且代表目标仿真空间。因此，摄像机移位大小＝0.5x目标宽度x D_TA/D_BA，其中摄像机移位大小表示主位置(拍摄主图像的位置)与侧视图位置之间的距离。

目标的宽度，即目标宽度，可以从深度、到目标一侧的角度θ和像素比获得。在一个实施例中，目标宽度＝(D_TA x tanθ)x(目标像素/图像像素宽度)，其中“目标像素(objectpixel)”是主图像的前景对象中的像素的数量，“图像像素宽度(image pixel width)”是主图像宽度中的像素的数量。例如，如果目标宽度＝100厘米且D_TA/D_BA＝1/2，摄像机移位大小＝0.5x 100厘米x1/2＝25厘米。

图7是图示根据一个实施例的滑动变焦方法700的流程图。更具体地，方法700是通过数字仿真的摄像机远离镜头拉近(dolly-out zoom-in)方法。方法700可以由图5中的设备500或具有图像捕捉和处理能力的另一电子设备来执行。方法700开始于步骤710，此时设备在主位置捕捉主图像，该主图像至少包括给定尺寸的前景对象和背景。在步骤720，设备基于要应用于背景的放大因子和前景对象的估计尺寸来计算一个或多个侧视图位置。在步骤730，设备引导用户在一个或多个侧视图位置捕捉一个或多个侧视图图像。在步骤740，设备将给定尺寸的前景对象叠加到放大的背景上。在步骤750，设备使用侧视图信息执行图像修复。

在一个实施例中，主位置和侧视图位置之间的距离可以基于放大因子和前景对象的估计宽度来计算。设备可以在用户接口上显示对该距离的指示，以引导用户到侧视图位置，并且设备可以在用户接口上指示用户已经到达侧视图位置。可以在第一侧视图位置(相较主位置具有计算的距离，且在主位置右侧)捕捉第一侧视图图像，并且可以在第二侧视图位置(相较主位置具有计算的距离，且在主位置左侧)捕捉第二侧视图图像。可以用相同的焦距捕捉主图像和一个或多个侧视图图像。

在一个实施例中，设备可以使用经过训练的神经网络来为主图像和一个或多个侧视图图像中的每一个生成相应的深度图。在另一个实施例中，当捕捉主图像和一个或多个侧视图图像中的每一个时，设备可以(例如，从设备的深度感测摄像机)获得相应的深度图。然后可以基于深度图识别前景对象和背景。

在一个实施例中，设备可以执行图像修复以利用从一个或多个侧视图图像获得的信息填充与前景对象相邻的背景区域。可以使用经过训练的神经网络来执行图像修复。在一个实施例中，步骤720-750可以以逐渐增加的放大因子重复以产生具有压缩感效果的图像序列。

已经描述了压缩感效果，以下公开描述了通过数字仿真创建延伸感效果。图8是图示根据一个实施例的摄像机靠近镜头拉远(dolly-in zoom-out)方法800的流程图。方法800可由设备或系统执行，例如图10中的系统1000或具有图像捕捉和处理能力的另一电子设备。方法800开始于步骤810，此时系统捕捉到至少包括给定尺寸的前景对象和背景的主图像(例如，主图像815)。在步骤820，系统从主图像中提取给定尺寸的前景对象(例如，目标825)。可以通过对象分割和/或用户输入来辅助该提取。在步骤830，系统使用减小的焦距捕捉第二图像(例如，图像835)。第二图像包括前景对象和缩小的背景，其中缩小增加了背景的视角覆盖范围。减小的焦距对应于缩小因子，该缩小因子可以由用户提供或由系统设置。系统可自动计算减小的焦距，并可自动调整焦距。在步骤840，系统将从主图像提取的给定尺寸的前景对象叠加到缩小的背景上。然后系统输出叠加的图像(例如，图像845)。在一个实施例中，步骤830和840可以以逐渐增加的缩小因子重复以产生具有延伸感效果的图像序列。

图9图示了根据另一个实施例的摄像机位置、前景对象(例如，目标950)和背景之间的几何关系。例如，摄像机位置P2和P3可以分别对应于图1中的图像(c)和(b)。传统的延伸感效果的创建方法是手动将摄像机从P2(焦距为fp2)移动到P3(焦距为fp3)，其中fp2>fp3，且选择fp3以保持图像中的目标尺寸。为了在不移动摄像机的情况下模拟延伸感效果，摄像机在P2处拍摄焦距为fp2的主图像，并在同一位置P2处将焦距减小到fp2'以拍摄广角视图(wide-angle view)图像。在图8的方法800中描述了用于产生模拟延伸感效果的步骤。

在一个实施例中，焦距fp2'可以通过执行图8的方法800的系统自动计算。图9分别显示了从P2到背景、目标950和P3的距离D_BGA、D_TA和D_BA。P3到背景的距离为D_BGB。这些距离可以由系统使用深度估计器或深度传感器测量或估计。图9还显示了主图像中的背景宽度和缩小的背景宽度(其中缩小的背景宽度的一半由D_BGL表示)。两种背景宽度的区别在于靠近图像边缘的区域，这些区域通过背景缩小暴露出来，并被广角视图信息填充。fp2'的计算公式如下：

fp2’＝fp3 x D_BGA/D_BGB，其中fp3＝fp2 x(D_TA-D_BA)/D_TA。

例如，当fp3＝17平方毫米、D_BGA＝300厘米和D_BGB＝200里面时，fp2’＝17平方毫米x300厘米/200厘米＝25.5平方毫米。

上述公式的推导如下：

由于D_BGB/fp3＝D_BGL/0.5x传感器尺寸，并且fp2'/0.5x传感器尺寸＝D_BGA/D_BGL，因此D_BGL＝D_BGB x 0.5x传感器尺寸/fp3，并且fp2'＝D_BGA x 0.5x传感器尺寸/D_BGL。因此，fp2'＝fp3 x D_BGA/D_BGB。

图10是示出根据一个实施例的用于执行自动滑动变焦图像处理的系统1000的框图。系统1000包括用于执行图2、7和8描述的方法的硬件和软件。系统1000包括处理硬件1010，处理硬件1010进一步包括一个或多个处理器1011，例如中央处理单元(CPU)、图形处理单元(GPU)、数字处理单元(DSP)、神经处理单元(NPU)、现场可编程门数组(FPGA)、专用集成电路(ASIC)和其他通用处理器和/或专用处理器。NPU可以执行张量操作；例如，根据存储在存储器1020中的经过训练的神经网络1022进行对象分割、深度估计和/或图像修复。张量操作的示例包括但不限于：卷积、反卷积、全连接操作、归一化、启动、池化、调整尺寸、逐元素算术、连接、切片等。

存储器1020耦合到处理硬件1010。存储器1020可以包括动态随机存取存储器(DRAM)、SRAM、闪存和其他非瞬态机器可读存储介质；例如，易失性或非易失性存储设备。存储器1020还可以包括存储设备，例如任何类型的固态或磁存储设备。在一个实施例中，存储器1020可以存储指令，这些指令在由处理硬件1010执行时使处理硬件1010执行上述自动滑动变焦操作，例如图2、7以及8中的方法200、700和800。在一个实施例中，存储器1020可以存储滑动变焦指令1025以供处理硬件1010执行对象分割、深度估计、侧视图位置计算、图像修复、焦距计算和调整等中的一项或多项操作。

系统1000还包括显示器1030和摄像机1040(也称为图像捕捉单元)。系统1000还可以包括与用户交互的用户接口1035。在一些实施例中，系统1000还可以包括网络接口1050以连接到有线和/或无线网络，用于发送和/或接收诸如图像数据的信号。可以理解，图10的实施例为了说明的目的而被简化。系统1000可能包括额外的硬件组件。

应该理解，系统1000可以执行与参考图2、7和8的流程图讨论的操作不同的操作，并且图2、7和8的流程图的操作可以通过本发明除系统1000之外实施例执行。

本文已经描述了各种功能组件、块或单元。如所属技术领域具有通常知识者将理解的，功能块将优选地通过电路(在一个或多个处理器和编码指令的控制下操作的专用电路或通用电路)实现，这些电路通常包括晶体管，这些晶体管被配置为根据本发明描述的功能和操作来控制这些电路的操作。

虽然图2、7和8的流程图显示了由本发明的某些实施例执行的操作的特定顺序，但应该理解，这种顺序是示例性的(例如，替代实施例可以以不同顺序执行操作、组合某些操作、重叠某些操作等)。

本发明虽以较佳实施例揭露如上，然其并非用以限定本发明的范围，任何本领域技术人员，在不脱离本发明的精神和范围内，当可做些许的更动与润饰，因此本发明的保护范围当视权利要求所界定者为准。

Claims

1.一种滑动变焦效果的产生方法，其特征在于，包括：

在主位置捕捉主图像，该主图像至少包括给定尺寸的前景对象和背景；

基于要应用于该背景的放大因子和前景对象的估计尺寸来计算一个或多个侧视图位置；

引导用户在该一个或多个侧视图位置捕捉一个或多个侧视图图像；

将该给定尺寸的前景对象叠加到放大的该背景上；和

使用来自该一个或多个侧视图图像的侧视图信息对该叠加后的图像执行图像修复。

2.如权利要求1所述的滑动变焦效果的产生方法，其特征在于，该计算一个或多个侧视图位置进一步包括：

基于该放大因子和该前景对象的估计宽度计算该主位置和该侧视图位置之间的距离。

3.如权利要求2所述的滑动变焦效果的产生方法，其特征在于，还包括：

在该主位置右侧相较于该主视图具有计算的该距离的第一侧视图位置捕捉第一侧视图图像；和

在该主位置左侧相较于该主视图具有计算的该距离的第二侧视图位置捕捉第二侧视图图像。

4.如权利要求1所述的滑动变焦效果的产生方法，其特征在于，该主图像和该一个或多个侧视图图像是用相同的焦距捕捉的。

5.如权利要求1所述的滑动变焦效果的产生方法，其特征在于，还包括：

基于从用户接口接收到的用户输入来确定该背景的该放大因子。

6.如权利要求1所述的滑动变焦效果的产生方法，其特征在于，还包括：

显示对该主位置和该侧视图位置之间的距离的指示；和

指示用户已到达该侧视图位置。

7.如权利要求1所述的滑动变焦效果的产生方法，其特征在于，还包括：

使用经过训练的神经网络为该主图像和该一个或多个侧视图图像中的每一个生成相应的深度图；和

根据该深度图识别该前景对象和该背景。

8.如权利要求1所述的滑动变焦效果的产生方法，其特征在于，还包括：

在拍摄该主图像和该一个或多个侧视图图像中的每一个时获得相应的深度图；和

使用经过训练的神经网络根据该深度图识别该前景对象和该背景。

9.如权利要求1所述的滑动变焦效果的产生方法，其特征在于，该执行图像修复还包括：

使用经过训练的神经网络执行图像修复，以使用从该一个或多个侧视图图像中获得的侧视图信息填充与该前景对象相邻的背景区域。

10.如权利要求1所述的滑动变焦效果的产生方法，其特征在于，该主图像为第一图像，该方法还包括：

使用减小的焦距拍摄第二图像，该第二图像包括该前景对象和缩小的该背景；和

将从该主图像中提取的给定尺寸的该前景对象叠加到该缩小的背景上。

11.一种用于产生滑动变焦效果的系统，其特征在于，包括：

摄像机，用于在主位置捕捉主图像，该主图像至少包括给定尺寸的前景对象和背景；

处理硬件；和

存储指令的存储器，当该处理硬件执行这些指令时，会导致该处理硬件执行如下操作：

将该给定尺寸的前景对象叠加到放大的该背景上；和

使用来自该一个或多个测试图图像的侧视图信息对该叠加后的图像执行图像修复。

12.如权利要求11所述的产生滑动变焦效果的系统，其特征在于，该处理硬件还用于：

13.如权利要求12所述的产生滑动变焦效果的系统，其特征在于，该一个或多个侧视图图像包括在第一侧视图位置捕捉的第一侧视图图像以及在第二侧视图位置捕捉的第二侧视图图像，其中该第一侧视图位置位于该主位置右侧且到该主位置具有计算的该距离，该第二侧视图位置位于该主位置左侧且到该主位置具有计算的该距离。

14.如权利要求11所述的产生滑动变焦效果的系统，其特征在于，该主图像和该一个或多个侧视图图像是用相同的焦距捕捉的。

15.如权利要求11所述的产生滑动变焦效果的系统，其特征在于，还包括用于接收用户输入的用户接口，其中该处理硬件进一步用于：根据该用户输入确定该背景的该放大因子。

16.如权利要求11所述的产生滑动变焦效果的系统，其特征在于，还包括用户接口，该用户接口可操作以显示对该主位置和该侧视图位置之间的距离的指示，并且指示用户已经到达该侧视图位置。

17.如权利要求11所述的产生滑动变焦效果的系统，其特征在于，还包括：

存储在存储器中的经过训练的神经网络，经过训练的该神经网络用于为该主图像和该一个或多个侧视图图像中的每一个生成相应的深度图。

18.如权利要求11所述的产生滑动变焦效果的系统，其特征在于，还包括：

深度感测摄像机，用于在捕捉该主图像和该一个或多个侧视图图像中的每一个时捕捉相应的深度图。

19.如权利要求11所述的产生滑动变焦效果的系统，其特征在于，还包括：

存储在存储器中的经过训练的神经网络，经过训练的该神经网络用于使用从该一个或多个侧视图图像获得的侧视图信息执行图像修复以填充与该前景对象相邻的背景区域。

20.如权利要求11所述的产生滑动变焦效果的系统，其特征在于，该主图像为第一图像，该摄像机还用于：

使用减小的焦距拍摄第二图像，该第二图像包括该前景对象和缩小的该背景，以及

其中该处理硬件进一步用于将从该主图像中提取的给定尺寸的前景对象叠加到该缩小的背景上。