CN115297255A

CN115297255A - 重新聚焦由全光照相机捕捉的图像的方法

Info

Publication number: CN115297255A
Application number: CN202210790910.9A
Authority: CN
Inventors: V.阿利; P.赫利尔; Q.K.N.董; P.佩雷斯
Original assignee: InterDigital CE Patent Holdings SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2015-09-29
Filing date: 2016-09-28
Publication date: 2022-11-04
Also published as: EP3357230A1; EP3151534A1; JP2021090208A; US20180288307A1; JP7178435B2; KR20180059802A; EP3357230B1; WO2017055348A1; JP6835853B6; JP6835853B2; EP4123368A1; JP2018536365A; CN108370411A; US10880466B2

Abstract

提供了一种用于重新聚焦由全光照相机捕捉的图像的方法和系统。在一个实施例中，该方法包括：获得由全光照相机捕捉的图像，其中图像与捕捉到的音频数据相关联；处理捕捉到的音频数据以检测主要音频源；确定主要音频源的位置；基于确定的位置重新聚焦图像以产生至少一个重新聚焦的图像；基于确定的位置处理捕捉到的音频数据以产生缩放的音频，缩放的音频包括与确定的位置相关联的音频，其中其他音频信号被滤除；以及将至少一个重新聚焦的图像与缩放的音频一起渲染。

Description

重新聚焦由全光照相机捕捉的图像的方法

本申请是国际申请日为2016年9月28日、中国申请号为201680067659.6、发明名称为“重新聚焦由全光照相机捕捉的图像的方法和基于音频的重新聚焦图像系统”的发明专利申请的分案申请。

技术领域

本公开通常涉及数字记录和摄影，并且更具体地涉及经由使用基于焦平面和深度选择的音频的全光照相机的数字记录和摄影。

背景技术

摄影通过记录光或其他电磁辐射来创建持久的图像。图像通过图像传感器以电子方式被捕捉或通过光敏材料以化学方式被捕捉。通常，在定时曝光期间，使用透镜将从对象反射或发射的光聚焦成照相机内部的光敏表面上的实像。使用电子图像传感器时，在每个像素处产生电荷，然后将其处理并存储在数字图像文件中以便以后使用。在经典摄影中，焦表面大致为平面或焦平面。焦表面垂直于照相机的光轴，并且景深沿着平面是恒定的。由于这些与景深的焦表面有关的规则，因为所捕捉的图像在范围上受限，因此所捕捉的图像在配置上是基本的。相比之下，光场或全光照相机提供更复杂的配置。

全光照相机使用位于主透镜的图像平面中并且在将一个微图像(也称为子图像)投影到其上的光传感器阵列前面的微透镜阵列。因此，每个微图像描绘所捕捉的场景的区域，并且与该微图像相关联的每个像素示出从主透镜出瞳上的某个子孔径位置的观看点来看该某个区域。然后，作为从光传感器阵列的各个部分获取的所有微图像的总和的结果，场景的原始图像被获得。该原始图像包含光场的角度信息。在理论和计算上，全光照相机提供了使用复杂配置来投影卓越图像捕捉的可能性，而这些配置在使用经典照相机时是不可用的。不幸的是，然而，存在已经限制了现有技术利用使用全光照相机可以实现的可能性的很多实际缺陷。当尝试捕捉视频内容时，这些限制更具挑战性。

发明内容

提供了一种用于重新聚焦由全光照相机捕捉的图像的方法和系统。在一个实施例中，全光照相机处于处理音频捕捉设备中。该方法包括以下步骤：确定与图像相关联的主要音频源的方向；通过滤除除了与所述主要音频源相关联的那些音频信号之外的所有其他音频信号创建音频缩放；以及基于所述创建的音频缩放执行所述图像的自动重新聚焦。

在不同的实施例中，提供了一种基于音频的重新聚焦图像系统，该系统包括：全光摄像机，用于捕捉视频图像；音频捕捉部件，用于捕捉与所述捕捉的图像相关联的声音；用于确定主要音频源的部件；用于执行音频信号分析以确定主要音频源的方向的部件；用于基于主要音频源的方向识别感兴趣的音频场景的部件；用于通过对感兴趣的音频场景进行波束成形建立音频缩放，以选择性地滤除除与所述主要音频源相关联的那些音频信号之外的所有其他音频信号的部件；以及用于基于创建的音频缩放提供所述图像的自动重新聚焦的部件。

附加的特征和优点通过本发明的技术来实现。本文详细描述了本发明的其他实施例和方面，并将其视为请求保护的本发明的一部分。为了更好地理解具有优点和特征的本发明，参考具体实施例和附图。

附图说明

参考附图，借助于下面的实施例和执行示例以非限制的方式将更好地理解和说明本发明，其中：

图1描绘了根据一个实施例的说明了用于执行自动重新聚焦功能的步骤的流程图；

图2A和2B描绘了根据图1的实施例的在执行处理步骤中所使用的系统的框图；

图3描绘了根据一个实施例的说明了主要音频方向和感兴趣区域的估计宽度的框图；

图4描绘了根据一个实施例的感兴趣的视频锥的图形说明；

图5和6提供了具有分布式麦克风阵列配置的系统的不同实施例；

图7描绘了图1的实施例的波束成形步骤的框图说明；

图8描绘了例如根据比如结合图2至图4使用的系统执行的波束成形功能；

图9描绘了例如根据结合图5和图6使用的系统执行的波束成形功能；以及

图10描绘了根据另一个实施例的具有分布式麦克风阵列的系统的框图。

在图1-10中，所表示的块是纯粹的功能实体，其不一定对应于物理上单独的实体。也就是说，它们可以以软件、硬件的形式开发，或者可以在包括一个或多个处理器的一个或多个集成电路中实现。

在任何可能的地方，贯穿附图将使用相同的附图标记来表示相同或相似的部分。

具体实施方式

应当理解，本发明的附图和具体实施例已经被简化以说明与本发明的明确理解相关的元素，同时为了清楚的目的而省略了在通常数字多媒体内容传送方法和系统中发现的许多其他元素。然而，因为这些元素在本领域中是众所周知的，所以本文不提供这些元素的详细讨论。本文的公开针对所有这些变型和修改。

图1是说明了使用一个或多个全光照相机提供对图像的自动聚焦的方法的一个实施例的流程图描绘。在一个实施例中，可以使用音频分量来计算图像的合适的焦平面和景深。使用图1的方法讨论了一种这样的技术。为了帮助理解，将结合在图2至图10中提供的实施例的系统配置来讨论图1的实施例的步骤。

在经典摄影中，焦表面是垂直于照相机的光轴的平面。在使用全光照相机时，由于用户交互保持在基本水平处，因此在拍摄静止图片时可以利用类似的重新聚焦属性。由于需要更复杂的计算，所以使用全光照相机进行视频捕捉和实时图像流不是这种情况。由于由全光照相机中的透镜阵列捕捉的场景和图像是从不同角度捕捉的，并且存在不同的选项以便选择场景中不同图像的清晰度，因此不同场景和图像的聚焦属性可具有挑战性。希望使用自动重新聚焦技术，但是在焦平面保持垂直于光轴的位置这样做很困难。这是因为在许多实例中，焦平面不能保持垂直于光轴，特别是在不断变化的视频或实时流广播中。其他示例也很容易想象。例如，考虑采用“全聚焦”模式的情况。在这种情况下，所捕捉的场景生成图像，无论距离如何，该图像都必须全部保持有意的清晰。这可以相当于无限景深和不垂直于光轴的任意聚焦平面。在不同的示例中，可以使用“交互式焦点”场，其允许用户指向并选择感兴趣的对象。在这种情况下，对于每个图像，必须将焦平面计算地放置在正确的距离处。在这种情况下，只有对于必须保持清晰聚焦的对象，焦点才垂直于光轴。在类似的情况下，只有靠近的对象被选择来产生清晰的图像。在这种情况下，景深被保持为小的数目不变，并且在距离处的所有场景元素与距离较近的场景元素相比被不同地计算。因此，当对象失焦时，它们会有意地模糊。而在另一种情况下，照相机被放置使得焦平面倾斜并且因此焦平面不垂直于光轴。

返回参考图1的实施例，在一个实施例中，可以应用本文使用的技术，使得可以最佳地投影图像(在下文中被定义为静止图像或视频捕捉)。如本领域技术人员可以理解的，图像/视频可以作为广播流、静止图片、记录的视频被提供或者由用户经由用户选择输入设备选择。在每种情况下，相应地执行光场分割，以分别识别该区域的深度或对象深度。然后定义垂直于光轴的焦平面，从而感兴趣的区域或对象如预期保持清晰聚焦。该技术可以被扩展到(具有或不具有对象跟踪的)视频捕捉以确保帧之间的时间一致性。在讨论如图1的实施例中所示的各个步骤之前，考虑可以被用于采用这些步骤的系统可能是有帮助的。图2A和2B描绘了根据本原理的每一个实施例的系统的框图。

图2A和2B的系统可以被利用以应用由图1的实施例提供的技术。在图2A和2B中，示出了使用一个或多个全光照相机和相关联的技术的自动重聚焦系统200。在一个实施例中，示出了显示器210。如本领域技术人员可以理解的，显示器210可以具有可以与计算机、电视机、投影屏幕、比如智能电话的移动设备和其他等结合使用的任何尺寸或形状。在附图中提供的示例中，为了帮助理解，使用了比如投影屏幕或电视显示器的大型显示器，但这仅仅是示例性的。

在一个实施例中，图2A可以合并图2B的所有组件。可替换地，如将讨论的，图2B可以包括不同的独立组件。为了帮助理解，因为单独的组件是视觉可识别的并因此更易于参考，因此现在将讨论图2B的实施例。

图2B描绘了具有显示器210的系统200。在一个实施例中，系统200包括基于全光或照相机阵列技术(本文也简称为全光照相机230)的光场视频捕捉设备230。音频捕捉设备220处于处理与照相机230的通信中。音频捕捉设备220包括一个或多个分布式麦克风阵列。在一个实施例中，音频系统220(即麦克风)相对于视频捕捉设备或全光照相机230被大致校准。在图2A和2B所描绘的示例中，提供了由数字290标记的一个或多个处理器。如虚线所指示的，处理器290处于处理与显示器210、全光照相机230和音频捕捉设备220的通信中。在存在多个处理器的情况下，多个处理器也处于处理彼此的通信中。(一个或多个)处理器可以被嵌入在显示器210、照相机230、音频捕捉设备220内的不同区域中，或者可替代地独立，如图2A和2B的示例中所示。因此，在其中一个或多个处理器被嵌入每个照相机230和/或音频捕捉设备220中的一个实施例中，照相机230和音频捕捉设备220可以彼此发送和接收数字数据并且处于处理彼此的通信中。另外，处理器可以与其他计算机或计算环境和网络(未示出)通信。

现在返回参考图1，在参考100所示的步骤中，确定与显示图像相关联的主要音频源。在一个实施例中，当在实时或记录的节目和/或广播期间，图像快速地以图像或视频的形式相互接连不断出现时，可以连续地确定主要音频源。在一个实施例中，可以使用音频处理技术来允许主要音频方向的提取，比如通过本领域技术人员可以理解的音频源定位算法。然后，如参考标记110所示，因为确定了音频的感兴趣方向，因此选择主要音频源的方向。在另一个实施例中，步骤105和110可以在一个步骤中组合，使得音频源定位算法输出主要音频源的方向，该主要音频源的方向然后将被视为待重新聚焦的目标源。

将图1的步骤105至110应用于由图2A和2B的实施例讨论的示例可以导致如图3所描绘的系统。

图3说明了一个实施例，其中使用音频处理技术来提取与主要音频源相关联的音频方向(即在图1的步骤110中)。在图3的实施例中，建立与至少一个主要音频方向相关联的感兴趣区域340。如参考标记302所示，确定主要音频方向，以及如305处所示，还计算感兴趣区域340的宽度。在一个示例中，对于主要点源而言，感兴趣区域的宽度可以是窄的，使得主要音频来自单个方向(单个人说话)。在另一个示例中，宽度将被设置为更大的分散或移动源。这可以是主要音频来自多个共同定位的源的情况，例如来自如参考标记320所示的如在图3的左上角中提供的屏幕中所示的、具有在舞台上的多个乐器和领唱的音乐乐队。

在一个示例中，在使用音频源定位算法来进一步建立音频方向的情况下，还执行音频信号分析以提供感兴趣区域的角度宽度的大致估计。然后使用音频源定位技术来定义感兴趣区域的角度范围，导致如图4中在410处所示的“感兴趣的锥体”。

在一个实施例中，如图5所示，通过使用现有技术的分布式麦克风阵列520，可以进一步增强沉浸式用户体验。在图6的实施例中，可以使用类似的分布式麦克风阵列系统620以便改善自动音频定位。在图6中，比如图1的步骤110中讨论的主要音频源是通过利用音频和视频信号来确定的以便确定感兴趣的方向。类似于图4，确定在这种情况下由于麦克风阵列620而被增强的感兴趣的视频锥体610。为了确定音频信号，使用定位算法并且将主要音频源的方向视为感兴趣的方向。为了确定视频信号，可以在一个实施例中使用对象跟踪算法。在这种情况下，场景中的运动对象的方向可潜在地被视为与主要音频源相关联的感兴趣方向。在一个实施例中，音频和视频也可以被组合以提供如在音频和视频单独情况下所检测到的候选者的后期融合，从而可以相应地应用它们来找到最佳感兴趣的方向。

返回参考图1，将执行由标记115参考的下一个步骤。在步骤115中，确定感兴趣的音频场景，并且在该音频场景上在步骤120处执行音频聚焦分析。为了执行音频聚焦或音频缩放，在确定感兴趣的音频方向之后，在音频场景内创建音频波束。在一个实施例中，如本领域技术人员可以理解的，使用波束成形来创建音频波束。波束成形或空间滤波是一种信号处理技术，它使用定向信号传输或接收以便实现空间选择性。这是通过以下面的方式组合相控阵列中的元素来实现的：在特定角度处的某些信号遭受建设性干扰，而其他信号遭受破坏性干扰。为了改变阵列的方向性，信号的相位和相对幅度被控制，从而创建相长和/或相消波干扰的图案。自适应波束成形被用于通过最佳空间滤波和干扰抑制来检测和估计在传感器阵列的输出端处的感兴趣信号。通过这种方式，可以为目标源选择来自仅某个信号图案的麦克风阵列的音频信号。音频焦点可以形成同时的多个波束，并且可以跟踪激活的扬声器。如由步骤120提供的波束成形的概念由图7的框图描绘进一步说明。

在一个实施例中，如图7所示，音频波束的宽度取决于麦克风阵列的大小和设置。如在710处所示的在图7的示例性描绘中，提供了生成声音的目标源。目标源750生成在760处示出的声波束。声音然后由麦克风阵列720接收并且使用音频波束成形技术来处理，以在视频和音频方面提供增强的目标源。噪音和其他干扰(780)被适当地滤除。所得到的音频波束760也在类似于图2至图4中所描绘的实施例中、在图8的图形描绘中被示出，并且在具有分布式麦克风阵列配置(类似于图5和6)的实施例中、在由图9的参考标记960使用的图形描述中被示出。

在图10中，使用了另一个实施例，其中音频系统包括分布式麦克风阵列系统1020。主要音频方向940被确定。随后，如参考标记1050所示，通过计算感兴趣区域之间的交点，可以在感兴趣深度上获得进一步的信息，从而进行其他步骤，比如如图1的步骤120中的波束成形。

在替代实施例(未示出)中，可以提供用户交互系统，其中用户选择(i)基于音频的所识别的候选方向中的方向和(ii)宽度。基于该选择，在一个实施例中，可以使用音频波束成形技术，比如所讨论的技术以聚焦来自特定选定方向的声音。依旧根据方向和宽度信息，最终的焦表面和景深随后被选择和渲染。

在图8至10的实施例中，波束成形输出信号x(t)。输出信号包含来自位置A和B的声音，而目标缩放平面可只包括来自位置B的声音。在这个示例中，来自位置B附近的麦克风的音频信号将被利用，使得最终音频输出将在一个实施例中被呈现为：

xx(t)＝alpha*x(t)+(1-alpha)*y(t)，

其中alpha是加权因子。在这个示例中，如图所示，alpha的较高值将意味着从本地麦克风位置B记录的音频信号对最终音频聚焦贡献更多。

现在返回参考图1，执行最后的步骤130。步骤130是由感兴趣的音频源驱动的视频重新聚焦步骤。感兴趣的锥体中的场景元素被聚焦渲染，然后焦表面的其余部分(和深度场)以有意义的方式自动推导出来。这使得能够获得新的、基于音频的引人入胜的自动和动态选择焦表面和景深的方式。通过这种方式，音频缩放功能也可以通过强相关的视频聚焦来丰富。

Claims

1.一种方法，包括：

获得由全光照相机捕捉的图像，其中，所述图像与捕捉到的音频数据相关联；

处理所述捕捉到的音频数据以检测主要音频源；

确定所述主要音频源的位置；

基于确定的位置重新聚焦所述图像以产生至少一个重新聚焦的图像；

基于所述确定的位置处理所述捕捉到的音频数据以产生缩放的音频，所述缩放的音频包括与所述确定的位置相关联的音频，其中，其他音频信号被滤除；以及

将所述至少一个重新聚焦的图像与所述缩放的音频一起渲染。