CN115049548A

CN115049548A - 恢复从阵列相机获得的图像的方法和装置

Info

Publication number: CN115049548A
Application number: CN202110782742.4A
Authority: CN
Inventors: 李世镐; 李硕; 南东暻
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-02-25
Filing date: 2021-07-12
Publication date: 2022-09-13
Also published as: KR20220121533A; EP4050553A1; US11734877B2; US20220270210A1

Abstract

提供了恢复从阵列相机获得的图像的方法和装置，所述方法包括：通过包括在阵列相机中的镜头元件获得多个图像，获得所述多个图像的全局参数，通过基于获得的全局参数对所述多个图像中的每个图像的视点进行变换来生成第一处理图像，获得每个第一处理图像的每个像素的局部参数，通过基于获得的局部参数对第一处理图像进行变换来生成第二处理图像，以及基于合成第二处理图像来生成目标视点的合成图像。

Description

恢复从阵列相机获得的图像的方法和装置

本申请要求于2021年2月25日在韩国知识产权局提交的第10-2021-0025724号韩国专利申请的优先权，该韩国专利申请的公开通过引用全部包含于此。

技术领域

本公开的示例实施例涉及一种用于恢复通过阵列相机获得的图像的技术的方法和设备。

背景技术

光学技术和图像处理技术的发展带来了在各种领域(诸如，多媒体内容、安全、识别等)中对拍摄装置的广泛使用。拍摄装置可被设置在例如移动装置、相机、车辆和计算机中，以拍摄图像或者获得用于识别对象或控制这样的装置的数据。拍摄装置的体积可由镜头的尺寸、镜头的焦距和传感器的尺寸确定。为了减小体积，可使用包括小镜头元件的多镜头阵列(MLA)。

发明内容

一个或更多个示例实施例可至少解决以上问题和/或缺点以及上面未描述的其他缺点。此外，示例实施例不需要克服上述缺点，并且示例实施例可不克服上述问题中的任意问题。

根据示例实施例的一方面，提供了一种恢复通过阵列相机获得的图像的图像恢复方法，所述图像恢复方法包括：通过包括在阵列相机中的镜头元件获得多个图像，获得所述多个图像的全局参数，通过基于获得的全局参数对所述多个图像中的每个图像的视点进行变换来生成第一处理图像，获得与每个第一处理图像对应的每个像素的局部参数，通过基于获得的局部参数对第一处理图像进行变换来生成第二处理图像，以及基于合成第二处理图像来生成目标视点的合成图像。

获得所述全局参数的步骤可包括：基于接收获得的所述多个图像作为输入的神经网络模型来获得所述全局参数。

获得所述全局参数的步骤可包括：获得包括在投影矩阵中的矩阵元素。

获得所述全局参数的步骤可包括：基于由阵列相机获得的场景的深度值，获得所述全局参数。

生成目标视点的合成图像的步骤可包括：通过对第二处理图像的像素进行组合来生成具有比第二处理图像的分辨率高的分辨率的合成图像。

生成目标视点的合成图像的步骤可包括：基于像素混洗从第二处理图像生成所述合成图像。

所述图像恢复方法还可包括：将获得的多个图像分别变换为多个高分辨率图像，其中，获得所述全局参数的步骤包括：基于接收所述多个高分辨率图像作为输入的神经网络模型来获得所述全局参数。

获得所述局部参数的步骤可包括：基于接收第一处理图像作为输入的神经网络模型来获得与每个第一处理图像对应的每个像素的像素位置的偏移值。

生成第二处理图像的步骤可包括：通过基于所述偏移值对与每个第一处理图像对应的每个像素执行图像变换来生成第二处理图像。

生成第一处理图像的步骤可包括：基于所述全局参数将获得的多个图像扭曲为具有所述目标视点的第一处理图像。

阵列相机的镜头元件可被设置在同一平面上并且彼此间隔相同的距离。

通过镜头元件获得的所述多个图像可以是分别与不同视点对应的多个视点图像。

一种非暂时性计算机可读存储介质可存储能够由处理器执行的指令，以执行所述图像恢复方法。

根据示例实施例的另一方面，提供了一种图像恢复装置，所述图像恢复装置包括：处理器；以及存储器，被配置为在其中存储将由处理器执行的指令，其中，处理器被配置为：接收与多个视点对应的多个图像，获得所述多个图像的全局参数，通过基于获得的全局参数对所述多个图像的视点进行变换来生成第一处理图像，获得与每个第一处理图像对应的每个像素的局部参数，通过基于获得的局部参数对第一处理图像进行变换来生成第二处理图像，以及通过合成第二处理图像来生成目标视点的合成图像。

处理器还可被配置为：基于接收获得的所述多个图像作为输入的神经网络模型来获得所述全局参数。

处理器还可被配置为：基于接收第一处理图像作为输入的神经网络模型来获得与每个第一处理图像对应的每个像素的像素位置的偏移值。

处理器还可被配置为：通过对第二处理图像的像素进行组合来生成具有比第二处理图像的分辨率高的分辨率的合成图像。

处理器还可被配置为：将接收到的所述多个图像变换为相应的高分辨率图像，并且基于接收所述高分辨率图像作为输入的神经网络模型来获得所述全局参数。

根据示例实施例的另一方面，提供了一种移动装置，所述移动装置包括：成像装置，被配置为获得与多个视点对应的多个图像；以及处理器，被配置为：获得所述多个图像的全局参数，通过基于获得的全局参数对所述多个图像的视点进行变换来生成第一处理图像，获得与每个第一处理图像对应的每个像素的局部参数，通过基于获得的局部参数对第一处理图像进行变换来生成第二处理图像，以及通过合成第二处理图像来生成目标视点的合成图像。

根据示例实施例的另一方面，提供了一种图像恢复装置，所述图像恢复装置包括：处理器；以及存储器，被配置为在其中存储将由处理器执行的指令，其中，处理器被配置为：接收与多个视点对应的多个图像，获得所述多个图像的全局参数，通过基于获得的全局参数对所述多个图像的视点进行变换来生成第一处理图像，通过基于接收第一处理图像作为输入的神经网络模型获得每个像素的位置的偏移值，来分别获得与第一处理图像对应的像素的局部参数，通过基于获得的局部参数对第一处理图像进行变换来生成第二处理图像，以及通过合成第二处理图像来生成目标视点的合成图像。

附图说明

通过结合附图描述特定示例实施例，以上和/或其他方面将更加清楚，其中，

图1是示出根据示例实施例的图像恢复的整体过程的示例的示图；

图2是示出根据示例实施例的包括阵列相机的移动装置的示例的示图；

图3是示出根据示例实施例的图像恢复方法的示例的流程图；

图4是示出根据示例实施例的生成目标视点的图像的示例的示图；

图5是示出根据示例实施例的执行图像扭曲(warping)的示例的示图；

图6是示出根据示例实施例的包括在阵列相机中的感测元件之间的位置关系的示例的示图；

图7是示出根据示例实施例的生成合成图像的示例的示图；

图8是示出根据示例实施例的生成合成图像的另一示例的示图；

图9是示出根据示例实施例的图像恢复装置的示例的示图；以及

图10是示出根据示例实施例的电子装置的示例的示图。

具体实施方式

下面参照附图更详细地描述示例实施例。

在以下描述中，相同的附图参考标号即使在不同的附图中也被用于相同的元件。提供说明书中定义的事项(诸如，详细的结构和元件)，以帮助对示例实施例的全面理解。然而，清楚的是，可在没有那些具体定义的事项的情况下实践示例实施例。此外，由于公知的功能或结构会以不必要的细节使描述模糊，因此没有详细描述公知的功能或结构。

虽然术语“第一”或“第二”被用于解释各种组件，但是组件不受这些术语的限制。这些术语应仅被用于将一个组件与另一组件区分开。例如，在根据本公开的构思的权利范围内，“第一”组件可被称为“第二”组件，或者类似地，并且“第二”组件可被称为“第一”组件。

将理解，当组件被称为“连接到”另一组件时，该组件可被直接连接或结合到另一组件，或者可存在中间组件。

如这里所使用的，除非上下文另有明确指示，否则单数形式也旨在包括复数形式。还应理解，术语“包含”和/或“包括”在本说明书中被使用时，说明存在所陈述的特征、整体、步骤、操作、元件、组件或其组合，但不排除存在或者添加一个或更多个其他特征、整体、步骤、操作、元件、组件和/或它们的组。诸如“……中的至少一个”的表述在元素的列表之后时修饰整列元素，而不修饰该列的单个元素。例如，表述“a、b和c中的至少一个”应被理解为仅包括a、仅包括b、仅包括c、包括a和b两者、包括a和c两者、包括b和c两者或者包括a、b和c的全部。

除非这里另有定义，否则这里使用的所有术语(包括技术术语或科学术语)具有与本领域普通技术人员通常理解的含义相同的含义。除非这里另有定义，否则通用词典中定义的术语应被解释为具有与相关领域中的上下文含义匹配的含义，并且不应被解释为理想或过于形式化的含义。

在下文中，将参照附图详细描述示例，并且在附图中，相同参考标号始终表示相同的元件。此外，在示例实施例的描述中，当认为在理解本申请的公开之后已知的结构或功能的详细描述将导致对示例实施例的模糊解释时，将省略这样的描述。

图1是示出根据示例实施例的图像恢复的整体过程的示例的示图。

参照图1，图像恢复装置(例如，图9的图像恢复装置900)可基于从场景感测到的信息来恢复图像。图像恢复装置包括与阵列相机对应的成像装置110。成像装置110包括布置有多个镜头元件的镜头阵列以及被配置为感测穿过镜头元件中的每个镜头元件的光的图像传感器。镜头阵列可以是多孔镜头(例如，复眼视觉(CEV)镜头)。图像传感器包括感测阵列112，在感测阵列112中，多个感测元件被布置在平面上。

可通过包括在图像传感器中的感测元件的数量以及入射到感测元件上的光量来确定将由成像装置110获得的图像的质量。可通过包括在感测阵列112中的感测元件的数量来确定将获得的图像的分辨率，并且可通过入射到感测元件上的光量来确定图像的灵敏度。可基于感测元件的尺寸来确定入射到感测元件上的光量。随着感测元件的尺寸增加，入射光量可增加，并且感测阵列112的动态范围也可增加，使得能够拍摄高分辨率图像。此外，随着包括在感测阵列112中的感测元件的数量增加，成像装置110可拍摄高分辨率图像。随着感测元件的尺寸增加，成像装置110可在低照度条件下拍摄高灵敏度图像时有效地操作。感测元件可以是被配置为感测穿过镜头阵列的光的装置，并且可以是例如包括互补金属氧化物半导体(CMOS)、电荷耦合器件(CCD)或光电二极管的图像感测元件。

成像装置110的体积可由包括在镜头阵列中的镜头元件的焦距确定。例如，为了使感测阵列112的感测元件收集由镜头元件折射的光，镜头元件和感测元件可能需要彼此间隔焦距来设置，从而成像装置110的体积可由镜头元件与感测元件之间的间隔确定。镜头元件的焦距可由成像装置110的视角和镜头元件的尺寸确定。例如，在视角被固定的情况下，焦距可与镜头元件的尺寸成比例地增加，并且镜头元件的尺寸可随着感测阵列112的尺寸增加而增加，以在特定视角范围中拍摄图像。因此，为了在保持视角和图像的分辨率的同时增加图像的灵敏度，因为在保持包括在感测阵列112中的感测元件的数量的同时每个感测元件的尺寸需要增加，所以感测阵列112的尺寸可能需要增加。在这种情况下，为了保持视角，感测阵列112的尺寸可增加，并且镜头元件的尺寸也可增加，从而镜头元件的焦距可增加，并且成像装置110的体积可相应地增加。

对于较小尺寸的成像装置110，镜头阵列可包括与多个视点对应的多个镜头元件。镜头元件可沿着镜头阵列的平面被布置。感测阵列112的感测元件可被划分为分别与镜头元件对应的感测区域。镜头阵列的平面和感测阵列112的平面可被彼此平行地设置，彼此间隔包括在镜头阵列中的镜头元件的焦距。镜头阵列可以是微镜头阵列(MLA)。随着包括在镜头阵列中的镜头元件中的每个镜头元件的尺寸减小，镜头元件的焦距可减小，从而成像装置110的厚度可由于焦距的减小而减小。因此，使用包括小尺寸的镜头元件的这样的镜头阵列，可实现薄相机。图像恢复装置可被设置在使用MLA的这样的薄相机结构中，以通过使用将在下文中描述的图像恢复方法更准确地执行图像对准来恢复高质量和高分辨率图像。

包括在镜头阵列中的镜头元件中的每个镜头元件可覆盖感测阵列112的与对应的镜头元件的镜头尺寸对应的感测区域。例如，如图1中所示，可根据镜头元件111的镜头尺寸确定感测阵列112中的被对应的镜头元件111覆盖的感测区域113。感测区域113可对应于特定视角范围内的光在穿过镜头元件111之后到达的感测阵列112上的区域。感测阵列112中的感测元件中的每个感测元件可感测穿过对应的镜头元件的光的强度值作为感测信息。

成像装置110可被划分为多个感测单元。可通过包括在镜头阵列中的镜头元件单元来将感测单元中的每个感测单元区分开。例如，感测单元可包括镜头元件111和由镜头元件111覆盖的感测区域113的感测元件。每个镜头元件被设置在成像装置110中的位置可对应于视点。视点可表示从其观察对象和/或拍摄对象的图像的点。可基于通过设置在视点处的镜头元件接收到的光来获得与镜头元件的各个视点对应的多个低分辨率图像(或视点图像)120。

可通过镜头阵列获得具有不同视点的低分辨率图像120，并且可能需要从获得的低分辨率图像120生成具有目标视点的高分辨率合成图像190的处理。将在下文中描述的图像恢复装置可通过重新布置和组合从镜头元件拍摄的低分辨率图像120来恢复或生成高分辨率合成图像190。根据示例实施例，图像恢复装置可基于获得的低分辨率图像120中的参考图像121来恢复高分辨率合成图像190。可通过与目标视点及其对应的感测区域116对应的镜头元件115来拍摄参考图像121。虽然参考图像121被示出为图1中的多个图像120之中的中心处的图像，但是示例的范围不限于此，并且可将另一位置处的图像(例如，图像122)用作参考图像。图像恢复装置可通过基于参考图像121对不同的低分辨率图像执行图像对准或图像扭曲来获得第一处理图像，通过对每个处理图像的每个像素的偏移执行修正(refinement)来获得第二处理图像，然后合成第二处理图像以获得高分辨率合成图像190。图像恢复装置可在不使用镜头元件中的每个镜头元件的内在相机参数和外在相机参数执行相机校准(calibration)的情况下，通过使用基于场景的深度值确定的投影矩阵执行低分辨率图像120之间的图像对准来更准确地执行图像对准，并且对每个图像的局部偏移值执行修正，从而获得更高质量的合成图像190。

图2是示出根据示例实施例的包括阵列相机的移动装置的示例的示图。

参照图2，阵列相机220可被设置在移动装置210(诸如，如图所示的智能电话)中，以拍摄多个图像。除了移动装置210之外，阵列相机220还可被设置在各种装置中，所述各种装置包括例如数字单镜头反射(DSLR)相机、车辆、无人机、监控相机(诸如，闭路电视(CCTV)相机)、网络摄像头相机、虚拟现实(VR)或增强现实(AR)相机等。阵列相机220可以以薄或弯曲结构来实现，以用作用于对象识别的相机。

阵列相机220可包括布置有多个镜头元件的镜头阵列，并且可被设置在移动装置210的正面或背面中。例如，阵列相机220在图2中被示出为被设置在移动装置210的背面。镜头元件可在同一平面上被布置得彼此靠近。阵列相机220可通过镜头元件获得不同视点的多个低分辨率图像，并且包括在移动装置210中的图像恢复装置可通过对经由阵列相机220获得的低分辨率图像进行处理来恢复或生成高分辨率合成图像。

图3是示出根据示例实施例的图像恢复方法的示例的流程图。可由这里描述的图像恢复装置(例如，图9的图像恢复装置900)执行将在下文中描述的图像恢复方法。图像恢复装置可通过恢复经由阵列相机获得的图像来生成高分辨率图像。

参照图3，在操作310，图像恢复装置通过包括在阵列相机中的多个镜头元件获得多个图像。阵列相机的镜头元件可在同一平面上被分开布置并且彼此间隔相同的间隔。通过镜头元件获得的图像可以是与镜头元件的不同视点对应的视点图像。

在操作320，图像恢复装置对在操作310获得的图像的全局参数进行估计。全局参数可表示将被应用于获得的图像的参数，并且被用于执行将图像的视点变换为目标视点的图像对准或图像扭曲。全局参数可包括例如旋转参数、平移参数和比例参数。旋转参数可指示一个视点与目标视点之间的旋转程度。平移参数可指示一个视点与目标视点之间的平移程度。比例参数可指示一个视点与目标视点之间的比例差。

可通过将投影矩阵应用于每个图像来执行图像对准，并且包括在投影矩阵中的矩阵元素可对应于全局参数。图像恢复装置可使用将获得的图像用作输入的神经网络模型来估计全局参数。神经网络模型可以是被训练为基于输入数据来输出全局参数的神经网络。输入数据可包括其中图像被连接的连接数据(concatenated data)或者其中从图像提取的特征图被组合的数据。这里使用的特征图可指示：从通过用于拍摄场景的单个镜头元件感测到的图像提取的特征数据和/或特征向量。例如，图像恢复装置可估计包括在投影矩阵中的八个矩阵元素，并且基于由阵列相机拍摄的场景的深度值来估计全局参数。

根据另一示例实施例，在操作310，图像恢复装置可获得多个图像并将获得的多个图像分别变换为高分辨率图像。图像恢复装置可使用将高分辨率图像用作输入的神经网络模型来估计全局参数。神经网络模型可以是这样的神经网络：被训练为通过将其中高分辨率图像被连接的连接数据或其中从高分辨率图像提取的特征图被组合的数据用作输入数据来输出用于执行图像对准的全局参数。

在操作330，图像恢复装置通过使用在操作320估计的全局参数对图像的视点进行变换来生成第一处理图像。图像恢复装置可使用全局参数将图像扭曲为具有目标视点的第一处理图像。图像恢复装置可确定将从神经网络模型得到的全局参数用作矩阵参数的投影矩阵，并且通过将所确定的投影矩阵应用于每个图像并将图像的各个视点变换为目标视点来生成第一处理图像。全局参数的一部分通常可被用于对图像的视点进行变换。

在操作340，图像恢复装置对第一处理图像的每个像素的局部参数进行估计。局部参数可表示被应用于第一处理图像的每个像素的参数，并且被用于校正每个像素的视差误差。可通过将第一处理图像用作输入而训练的神经网络模型来获得局部参数。图像恢复装置可使用神经网络模型来获得与每个第一处理图像的每个像素的像素位置相关联的偏移值作为局部参数。偏移值可包括由于未对准而发生的误差(例如，与对象的距离值相关联的误差、在图像对准中发生的误差等)。

在操作350，图像恢复装置通过使用在操作340估计的局部参数对第一处理图像进行变换来生成第二处理图像。图像恢复装置可通过基于与针对每个第一处理图像的每个像素获得的像素位置相关联的偏移值，对每个第一处理图像的每个像素执行图像变换来生成第二处理图像。偏移值可对应于像素的视差误差，并且图像恢复装置可通过校正视差误差来生成第二处理图像。

在操作360，图像恢复装置通过合成第二处理图像来生成目标视点的合成图像。图像恢复装置可对第二处理图像的像素进行组合，并生成分辨率比第二处理图像的分辨率高的合成图像。图像恢复装置可通过对第二处理图像执行像素混洗(pixel shuffling)来生成第二处理图像被重新对准以具有作为单个视点的目标视点的合成图像。像素混洗可包括通过将具有多个视点的第二处理图像中的指示相同和/或相似点的像素重新对准为彼此邻近来合成第二处理图像。合成图像可表示第二处理图像的像素通过图像配准(imageregistration)被配准的图像，并且可具有比第二处理图像的分辨率高或与第二处理图像的分辨率相等的分辨率。

图4是示出根据示例实施例的生成目标视点的图像的示例的示图。

参照图4，可通过成像装置(诸如，阵列相机)获得输入图像410。输入图像410可对应于具有比目标视点的图像430的分辨率低的分辨率的多个视点图像。可获得与包括在阵列相机中的相机的视点对应的这些视点图像。

获得目标视点的图像430的处理可包括全局变换和局部偏移修正，全局变换执行用于对输入图像410的视点进行变换的图像扭曲，局部偏移修正对单个图像的每个像素的像素位置值的偏移进行修正。图像恢复装置(例如，图9的图像恢复装置900)可执行用于输入图像410之间的图像对准的图像扭曲，并且使用被配置为对每个像素执行偏移修正的图像处理模型420，从具有低分辨率的输入图像410恢复或生成具有高分辨率的目标视点的图像430。

图像恢复装置可使用用于获得全局参数的神经网络模型422来计算全局参数θ，并且使用通过计算获得的全局参数θ来对视点图像进行变换。图像恢复装置可在不进行单独的校准处理的情况下，使用神经网络模型422来估计适合于成像装置的结构的全局参数。神经网络模型422可以是被训练为从输入图像410的信息输出全局参数的神经网络。神经网络可通过基于深度学习对处于非线性关系的输入数据和输出数据进行映射来基于图像配准执行图像恢复。深度学习可以是用于通过监督或无监督学习根据大数据集解决图像配准查询并对输入数据和输出数据进行映射的机器学习方法。神经网络可包括输入层、多个隐藏层以及输出层。可通过隐藏层传播通过输入层输入的输入数据，并且可从输出层输出输出数据。然而，数据可被直接输入到隐藏层而不是输入层，或者输出数据可从隐藏层而不是输出层被输出。可通过例如反向传播来训练神经网络。神经网络模型422可以是由例如卷积层和全连接层的组合实现的卷积神经网络(CNN)。图像恢复装置可通过对输入到卷积层的数据执行卷积滤波来提取特征数据。特征数据可表示其中图像的特征被提取的数据，并且指示例如基于卷积层的核的卷积运算的结果值。然而，神经网络模型422的结构或架构不限于前述内容，并且可通过各种组合来被实现。

根据示例实施例，图像恢复装置可使用神经网络模型422获得用于对单个视点进行变换的矩阵T_θ(G)424，如方程式1所示。例如，可将输入图像410输入到神经网络模型422，并且可从神经网络模型422获得包括在如方程式1所示的矩阵T_θ(G)424中的八个全局参数θ₁至θ₈。

[方程式1]

获得的全局参数θ₁至θ₈的一部分全局参数通常可被用于对另一输入图像或视点图像的视点进行变换的图像扭曲的处理。例如，在两个全局参数θ₄和θ₈被使用的情况下，图像恢复装置可计算从各个视点图像获得的全局参数θ₄和θ₈中的每个的代表值(诸如，平均值)，并且使用计算出的代表值来对每个视点图像的视点进行变换。平均值可仅作为示例而被描述，并且可将各种形式的值(例如，最大值和最小值)用作代表值。对于剩余的全局参数θ₁、θ₂、θ₃、θ₅、θ₆和θ₇，可使用从各个视点图像获得的全局参数。通过对全局参数的这样的共同使用，可减少训练或学习所需的全局参数的数量。

矩阵T_θ(G)424中的参数Z可指示输入图像410中的场景的深度值。例如，当镜头元件被布置在成像装置中的同一平面上并且感测元件被布置在同一平面上时，可认为从成像装置获得的视点图像中的场景或对象的深度值相同。当深度值被认为在视点图像之间相同时，参数Z可被认为在输入图像410之间相同。此外，当镜头元件和感测元件在分别布置镜头元件和感测元件的平面上在x方向和y方向上以相等的间隔被布置时，可能需要考虑镜头元件和感测元件的这样的布置的特性，以减少训练或学习所需的全局参数的数量。

在操作425，图像恢复装置可通过将基于全局参数的矩阵T_θ(G)424应用于输入图像410，来执行对输入图像410的视点进行变换的图像扭曲。通过图像扭曲，当输入图像410的视点被变换为作为目标视点的同一视点时，可获得第一处理图像。

在执行图像扭曲之后，图像恢复装置可使用神经网络模型426来计算第一处理图像中的每个局部位置的偏移值。偏移值可包括通过图像扭曲可能发生的误差(例如，视差误差)。神经网络模型426可以是这样的神经网络：被训练为计算在第一处理图像被输入并通过若干卷积层之后提取的特征值作为针对每个像素位置的偏移值。图像恢复装置可基于偏移值来估计将被应用于第一处理图像的每个像素的局部参数T_L(G)428。在操作429，图像恢复装置可生成第二处理图像，其中，通过将局部参数T_L(G)428应用于第一处理图像来对第一处理图像的每个像素的偏移值进行校正。偏移值可包括针对第一处理图像的每个像素位置的x轴方向上的位置偏移和y轴方向上的位置偏移。图像恢复装置可通过基于偏移值对第一处理图像的每个像素的位置进行修正或校正，来生成与目标视点的图像430对应的第二处理图像。图像恢复装置还可对其他第一处理图像执行与前述处理相同的处理，以生成对应的第二处理图像，并且通过合成第二处理图像来生成单个目标视点或参考视点的合成图像。图像恢复装置可通过像素混洗对第二处理图像的像素进行组合，来生成具有比第二处理图像的分辨率高的分辨率的合成图像。

图5是示出根据示例实施例的执行图像扭曲的示例的示图。

图像恢复装置可在不进行用于通过阵列相机获得的低分辨率视点图像之间的图像对准的相机校准的情况下，使用训练的神经网络模型来执行图像扭曲。如下，可通过两个不同的独立相机之间的图像变换模型执行视点图像的视点变换。

参照图5，示出了相对于单个三维(3D)点p0的两个不同相机的相应视点图像510和520中的二维(2D)位置p1和p2之间的关系。例如，在点p0在由第一相机拍摄的第一视点图像510中的位置p1的坐标为(x_c1,y_c1)且点p0在由第二相机拍摄的第二视点图像520中的位置p2的坐标为(x_c2,y_c2)，并且基于第一相机的坐标系表示的3D点p0的坐标为(X_c1,Y_c1,Z_c1)且基于第二相机的坐标系表示的3D点p0的坐标为(X_c2,Y_c2,Z_c2)的情况下，这些坐标之间的关系可由如下等式2至等式4表示。

[等式2]

[等式3]

[等式4]

等式2表示从3D到2D的投影，并且等式4表示从2D到3D的投影。等式3表示对单应性(homography)的应用。3D点之间的变换可由用16个独立参数表示的3D单应性表示，并且3D单应性可与通过将基于相机内在参数和相机外在参数的矩阵相乘而获得的矩阵相同，如等式5所示。

[等式5]

在等式5中，R和t分别表示指示旋转和平移的相机外在参数。K表示相机内在参数，并且T表示转置。

在假设如Z_c1＝Z_c2＝Z时视点图像中的场景的深度值相同的情况下，可基于依赖于Z的2D单应性来表示针对等式6中的(x_c2,y_c2)的变换等式，如等式7所示。

[等式6]

[等式7]

基于等式7，对视点图像进行图像扭曲所需的全局参数的数量可以是通过将为8的θ₁至θ₈的数量与相机的数量相乘而获得的值。参照等式7，可通过将包括八个独立全局参数的矩阵应用于视点图像的像素的坐标值来执行两个相机之间的针对具有相同深度值的3D点的图像扭曲或图像坐标变换。

图6是示出根据示例实施例的包括在阵列相机中的感测元件之间的位置关系的示例的示图。

当在阵列相机中布置有镜头元件的表面和在阵列相机中布置有感测元件的表面为同一平面时，由阵列相机拍摄的视点图像中的场景或对象的深度值可相同。此外，已知阵列相机中的布置镜头元件和感测元件的位置，相机之间的平移信息不会彼此独立。基于这样的约束，可用更少数量的全局参数来表示图像变换。例如，在以水平距离d和垂直距离d的等距间隔布置感测元件600的5×5阵列相机的感测元件(或镜头元件)600具有图6中所示的位置关系的情况下，从其拍摄视点图像的拍摄表面可存在于同一平面上，并且邻近感测元件之间的距离可相差水平距离d和垂直距离d。在假设设置在中心处的感测元件610的位置是(0,0)的情况下，感测元件612的位置可被定义为(-2d,-2d)，并且感测元件614的位置可被定义为(2d,d)。

当基于作为阵列相机中的参考的感测元件610将间隔预设为d并且在z方向上不存在移动时，通过平移的分量可与针对每个相机的间隔成比例地发生。在两个相机之间的图像变换中，通过平移发生的坐标平移分量可与深度值成反比，但与x方向和y方向上的平移量成比例。在包括在阵列相机中的每个相机的索引被表示为(i,j)的情况下，可基于相机布置信息由等式8来表示图像扭曲。

[等式8]

在等式8中，θ₄和θ₈可对应于当相机分别在x方向和y方向上移动间隔d时发生的图像坐标平移分量，并且被共同用于不同视点图像之间的图像扭曲。通过共同使用θ₄和θ₈，在5×5阵列相机的情况下执行图像扭曲所需的全局参数的数量可从200(＝8[θ₁至θ₈的数量]×25[包括在5×5阵列相机中的各个相机的数量])减少到152(＝6[θ₁、θ₂、θ₃、θ₅、θ₆和θ₇的数量]×25[包括在5×5阵列相机中的各个相机的数量]+2[θ₄和θ₈的数量])。

图7是示出根据示例实施例的生成合成图像的示例的示图。

参照图7，图像恢复装置可通过图像对准720将低分辨率输入图像710(例如，高度H×宽度W的25个视点图像C1至C25)的视点变换为目标视点来生成第一处理图像，并且通过对每个第一处理图像的像素位置的偏移值进行修正或校正来生成第二处理图像。这里，H表示沿着输入图像710的高度布置的像素的数量，W表示沿着输入图像710的宽度布置的像素的数量，H和W中的每个可以是大于或等于1的自然数。

图像恢复装置可通过执行高分辨率图像处理730来生成高分辨率合成图像740(例如，高度5H×宽度5W的合成图像)，高分辨率图像处理730通过合并或合成第二处理图像来恢复高分辨率图像。图像恢复装置可对第二处理图像执行包括像素连接和像素混洗的高分辨率图像处理730。

图8是示出根据示例实施例的生成合成图像的另一示例的示图。

参照图8，图像恢复装置可对低分辨率输入图像810(例如，高度H×宽度W的25个视点图像C1至C25)中的每个低分辨率输入图像执行图像变换820，以将它们变换为高分辨率图像。随后，图像恢复装置可在图像对准830的处理中执行将高分辨率图像变换为具有目标视点的相应图像的图像扭曲。通过由图像恢复装置对高分辨率图像执行的图像扭曲，该图像扭曲的准确度可高于从上面参照图7描述的示例获得的准确度。图像恢复装置可执行通过像素连接来合并或合成具有目标视点的图像的图像合成840，并生成高分辨率合成图像850(例如，高度5H×宽度5W的合成图像)。

图9是示出根据示例实施例的图像恢复装置的示例的示图。

参照图9，图像恢复装置900包括成像装置910、处理器920和存储器930。根据示例，成像装置910可被设置为与图像恢复装置900分开，或者以与图像恢复装置900一体的形式被实施。

成像装置910可获得与多个视点对应的多个图像。成像装置910可对应于阵列相机，阵列相机被配置为通过包括布置在不同位置的镜头元件的MLA来获得多个图像。成像装置910可拍摄包括与多个视点对应的多个视点图像的多镜头图像，并且处理器920可从多镜头图像生成输入数据。

存储器930可临时地或永久地存储执行这里描述的图像恢复方法所需的数据。例如，存储器930可在其中存储由成像装置910获得的图像、各种参数(例如，全局参数、局部参数等)、估计用于图像恢复的参数的神经网络模型以及合成图像。

处理器920可控制图像恢复装置900的整体操作，并且执行将在图像恢复装置900中执行的功能和指令。处理器920可从成像装置910接收与视点对应的图像，并且使用将获得的图像用作输入而训练的神经网络模型来估计图像的全局参数。处理器920可基于估计出的全局参数定义投影矩阵，并且通过将投影矩阵应用于每个图像从而对图像的视点进行变换来生成第一处理图像。处理器920可使用将第一处理图像用作输入而训练的神经网络模型来获得每个第一处理图像的每个像素的像素位置的偏移值作为局部参数。处理器920可通过对每个第一处理图像的每个像素的偏移值进行校正来生成第二处理图像，并且通过合成第二处理图像来生成目标视点的合成图像。处理器920可通过像素混洗对第二处理图像的像素进行组合，来生成具有比第二处理图像的分辨率高的分辨率的合成图像。然而，处理器920的操作不限于前述内容，并且处理器920可同时或顺序地执行上面参照图1至图8描述的操作或方法中的一个或更多个或全部。

图10是示出根据示例实施例的电子装置的示例的示图。

电子装置1000可表示被配置为执行上述图像恢复方法以生成高分辨率合成图像并执行上面参照图9描述的图像恢复装置900的功能的装置。电子装置1000可以是移动装置(诸如，以图像处理装置、智能电话、可穿戴装置、平板计算机、上网本、个人数字助理(PDA)、头戴式显示器(HMD)、相机装置等为例)。电子装置1000可被实施为用于车辆、无人机和闭路电视(CCTV)的视觉相机装置、用于视频通话的网络摄像头相机、360°图像拍摄相机装置、虚拟现实(VR)相机装置、增强现实(AR)相机装置等。

参照图10，电子装置1000包括处理器1010、存储器1020、成像装置1030、存储装置1040、输入装置1050、输出装置1060和通信装置1070。电子装置1000的这样的组件可通过通信总线1080彼此通信。

处理器1010可控制电子装置1000的整体操作，并且执行将在电子装置1000中执行的功能和指令。处理器1010可执行上面参照图1至图9描述的操作或方法中的一个或更多个或全部。

存储器1020可在其中存储处理器1010执行这里描述的图像恢复方法所需的信息。例如，存储器1020可存储将由处理器1010执行的指令以及软件或程序正在电子装置1000中被执行时的相关信息。存储器1020可包括随机存取存储器(RAM)、动态RAM(DRAM)、静态RAM(SRAM)或相关技术领域中已知的另一形式的非易失性存储器。

成像装置1030可包括阵列相机，并且获得分别与多个镜头元件对应的图像。电子装置1000可通过基于获得的图像执行图像恢复来生成高分辨率合成图像。

存储装置1040可包括计算机可读存储介质或装置，并且存储低分辨率图像和增强图像。存储装置1040可包括例如存储器、磁硬盘、光盘、闪存、电可擦除可编程只读存储器(EEPROM)等。

作为非限制性示例，输入装置1050可通过触觉输入、视频输入、音频输入和触摸输入从用户接收输入。作为非限制性示例，输入装置1050可包括键盘、鼠标、触摸屏、麦克风以及被配置为检测来自用户的输入并将检测到的输入传送到电子装置1000的其他装置。

输出装置1060可通过视觉、音频或触觉通道向用户提供电子装置1000的输出。作为非限制性示例，输出装置1060可包括显示器、触摸屏、扬声器、振动发生器以及被配置为向用户提供输出的其他装置。通信装置1070可通过有线或无线网络与外部装置通信。

可使用硬件组件和软件组件来实现这里描述的单元。例如，硬件组件可包括麦克风、放大器、带通滤波器、音频数字转换器、非暂时性计算机存储器和处理装置。可使用一个或更多个通用计算机或专用计算机(诸如，以处理器、控制器和算术逻辑单元(ALU)、数字信号处理器、微计算机、现场可编程门阵列(FPGA)、可编程逻辑单元(PLU)、微处理器或者能够以限定的方式响应和执行指令的任意其他装置为例)来实现处理装置。处理装置可运行操作系统(OS)以及在OS上运行的一个或更多个软件应用。处理装置还可响应于软件的运行来访问、存储、操纵、处理和创建数据。为了简洁起见，对处理装置的描述被用作单数；然而，本领域技术人员将理解，处理装置可包括多个处理元件和多种类型的处理元件。例如，处理装置可包括多个处理器、或者处理器和控制器。此外，不同的处理配置是可行的(诸如，并行处理器)。

软件可包括用于独立地或共同地指示或配置处理装置根据需要进行操作的计算机程序、代码、指令或其特定组合。可在任意类型的机器、组件、物理或虚拟装置、计算机存储介质或装置中永久地或临时地实施软件和数据，或者在能够向处理装置提供指令或数据或者由处理装置解释的传播的信号波中实施软件和数据。软件还可在联网的计算机系统上被分发，使得软件以分布式的方式被存储和执行。可由一个或更多个非暂时性计算机可读记录介质存储软件和数据。非暂时性计算机可读记录介质可包括可存储之后可由计算机系统或处理装置读取的数据的任意数据存储装置。

示例实施例包括非暂时性计算机可读介质，所述非暂时性计算机可读介质包括用于实现由计算机实施的各种操作的程序指令。介质还可单独地或与程序指令组合地包括数据文件、数据结构、表等。介质和程序指令可以是为了示例实施例而专门设计和构建的那些介质和程序指令，或者它们可以是对计算机软件领域的技术人员公知和可用的类型。非暂时性计算机可读介质的示例包括：磁介质(诸如，硬盘、软盘和磁带)；光学介质(诸如，CDROM盘)；磁光介质(诸如，软光盘)；以及被专门配置为存储和执行程序指令的硬件装置(诸如，只读存储器装置(ROM)和随机存取存储器(RAM))。程序指令的示例包括诸如由编译器产生的机器代码以及包含可由计算机使用解释器执行的更高级代码的文件。所描述的硬件装置可被配置为用作一个或更多个软件模块，以便执行上述示例实施例的操作，反之亦可。

前述示例实施例仅仅是示例性的，而不应被解释为限制性的。本教导可被容易地应用于其他类型的设备。此外，示例实施例的描述旨在是说明性的，而不限制权利要求的范围，并且许多替代、修改和变化对于本领域技术人员将是清楚的。

虽然已经参照附图描述了示例实施例，但是本领域普通技术人员将理解，在不脱离由所附权利要求及其等同物所限定的精神和范围的情况下，可在其中进行形式和细节上的各种改变。

Claims

1.一种恢复通过阵列相机获得的图像的图像恢复方法，所述图像恢复方法包括：

通过包括在阵列相机中的镜头元件获得多个图像；

获得所述多个图像的全局参数；

通过基于获得的全局参数对所述多个图像中的每个图像的视点进行变换来生成第一处理图像；

获得每个第一处理图像的每个像素的局部参数；

通过基于获得的局部参数对第一处理图像进行变换来生成第二处理图像；以及

基于合成第二处理图像来生成目标视点的合成图像。

2.如权利要求1所述的图像恢复方法，其中，获得所述全局参数的步骤包括：

基于接收获得的所述多个图像作为输入的神经网络模型来获得所述全局参数。

3.如权利要求2所述的图像恢复方法，其中，获得所述全局参数的步骤包括：

获得包括在投影矩阵中的矩阵元素。

4.如权利要求1所述的图像恢复方法，其中，获得所述全局参数的步骤包括：

基于由阵列相机获得的场景的深度值，获得所述全局参数。

5.如权利要求1所述的图像恢复方法，其中，生成目标视点的合成图像的步骤包括：

通过对第二处理图像的像素进行组合来生成具有比第二处理图像的分辨率高的分辨率的合成图像。

6.如权利要求5所述的图像恢复方法，其中，生成目标视点的合成图像的步骤包括：

基于像素混洗从第二处理图像生成所述合成图像。

7.如权利要求1所述的图像恢复方法，还包括：

将获得的所述多个图像分别变换为多个高分辨率图像，

其中，获得所述全局参数的步骤包括：

基于接收所述多个高分辨率图像作为输入的神经网络模型来获得所述全局参数。

8.如权利要求1至权利要求7中的任意一项所述的图像恢复方法，其中，获得所述局部参数的步骤包括：

基于接收第一处理图像作为输入的神经网络模型来获得每个第一处理图像的每个像素的像素位置的偏移值。

9.如权利要求8所述的图像恢复方法，其中，生成第二处理图像的步骤包括：

通过基于所述偏移值对每个第一处理图像的每个像素执行图像变换来生成第二处理图像。

10.如权利要求1至权利要求7中的任意一项所述的图像恢复方法，其中，生成第一处理图像的步骤包括：

基于所述全局参数将获得的所述多个图像扭曲为具有所述目标视点的第一处理图像。

11.如权利要求1至权利要求7中的任意一项所述的图像恢复方法，其中，阵列相机的镜头元件被设置在同一平面上并且彼此间隔相同的距离。

12.如权利要求1至权利要求7中的任意一项所述的图像恢复方法，其中，通过镜头元件获得的所述多个图像是分别与不同视点对应的多个视点图像。

13.一种存储指令的非暂时性计算机可读存储介质，所述指令能够由处理器执行，以执行如权利要求1至权利要求12中的任意一项所述的图像恢复方法。

14.一种图像恢复装置，包括：

处理器；以及

存储器，被配置为在其中存储将由处理器执行的指令，

其中，处理器被配置为：

接收与多个视点对应的多个图像，

获得所述多个图像的全局参数，

通过基于获得的全局参数对所述多个图像的视点进行变换来生成第一处理图像，

获得每个第一处理图像的每个像素的局部参数，

通过基于获得的局部参数对第一处理图像进行变换来生成第二处理图像，以及

通过合成第二处理图像来生成目标视点的合成图像。

15.如权利要求14所述的图像恢复装置，其中，处理器还被配置为：

16.如权利要求14所述的图像恢复装置，其中，处理器还被配置为：

17.如权利要求14至权利要求16中的任意一项所述的图像恢复装置，其中，处理器还被配置为：

18.如权利要求14至权利要求16中的任意一项所述的图像恢复装置，其中，处理器还被配置为：

将接收到的所述多个图像变换为相应的高分辨率图像，并且基于接收所述高分辨率图像作为输入的神经网络模型来获得所述全局参数。

19.一种移动装置，包括：

成像装置，被配置为获得与多个视点对应的多个图像；以及

处理器，被配置为：

获得所述多个图像的全局参数，

获得每个第一处理图像的每个像素的局部参数，

通过合成第二处理图像来生成目标视点的合成图像。