CN113971629A

CN113971629A - 图像恢复方法和装置

Info

Publication number: CN113971629A
Application number: CN202110034352.9A
Authority: CN
Inventors: 李世镐; 南东暻; 李硕
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-07-24
Filing date: 2021-01-12
Publication date: 2022-01-25
Also published as: EP3944182A1; US11651475B2; US20220028039A1; KR20220013183A; US12073534B2; EP3944182B1; US20230245277A1; KR102801383B1

Abstract

提供了一种图像恢复方法和装置。图像恢复装置获得包括针对每个视点的输入图像信息的输入数据，并且使用图像恢复模型从通过使用每个视点的全局变换信息和每个视点的视差信息扭曲输入图像信息而生成的扭曲图像信息生成输出图像。

Description

图像恢复方法和装置

本申请要求于2020年7月24日在韩国知识产权局提交的第10-2020-0092384号韩国专利申请的优先权，所述韩国专利申请的公开通过引用全部包含于此。

技术领域

与示例实施例一致的方法和设备涉及图像恢复。

背景技术

光学技术和图像处理技术的发展已经导致图像拍摄装置在广泛的应用领域(例如，多媒体内容、安全和目标识别)中的广泛使用。图像拍摄装置可设置在移动装置、相机、车辆、计算机等中，以拍摄图像、识别对象或获得用于控制装置的数据。图像拍摄装置的大小可通过透镜的大小、透镜的焦距、传感器的大小等而被确定。为了减小图像拍摄装置的大小，包括紧凑且小的透镜的多透镜可被使用。

发明内容

一个或多个示例实施例可至少解决以上问题和/或缺点以及以上未描述的其它缺点。此外，示例实施例不需要克服以上描述的缺点，并且示例实施例可不克服以上描述的问题中的任何问题。

根据示例实施例的一方面，提供了一种图像恢复方法，所述图像恢复方法包括：获得包括视点中的每个的输入图像信息的输入数据；从获得的输入数据估计视点中的每个的全局变换参数；从获得的输入数据估计视点中的每个的视差信息；通过使用全局变换参数和视差信息扭曲输入图像信息来生成视点中的每个的扭曲图像信息；和使用图像恢复模型从生成的扭曲图像信息生成所述多个视点的输出图像。根据公开的一方面，一种图像恢复方法包括：获得包括多个视点中的每个的相应的输入图像信息的输入数据；基于获得的输入数据估计所述多个视点中的每个的相应的全局变换参数；基于获得的输入数据估计所述多个视点中的每个的相应的视差信息；通过使用相应的全局变换参数和相应的视差信息相应的扭曲输入图像信息来生成所述多个视点中的每个的相应的扭曲图像信息；和使用图像恢复模型从生成的所述多个视点中的每个的相应的扭曲图像信息生成输出图像。

获得输入数据的步骤可包括：通过布置在不同位置处的多个透镜拍摄多个视点图像；和从拍摄的所述多个视点图像获得相应的输入图像信息。

获得相应的输入图像信息的步骤可包括：使用特征提取模型从所述多个视点图像中的每个提取相应的输入特征图作为相应的输入图像信息。

生成相应的扭曲图像信息的步骤可包括：通过使用全局变换参数将相应的输入图像信息变换到与目标视点对应的目标图像信息的像素坐标系来生成相应的变换图像信息；和通过使用相应的视差信息校正生成的相应的变换图像信息相对于目标图像信息的视差来生成相应的扭曲图像信息。

使用相应的全局变换参数进行变换的步骤可包括：使用与参考视差对应的单个深度，将相应的输入图像信息的所有像素扭曲到目标图像信息的像素坐标系。

扭曲的步骤可包括：使用全局变换参数计算相应的输入图像信息中的与目标图像信息的像素坐标系中的位置对应的坐标；在相应的输入图像信息中获得计算的坐标的像素值；和将相应的变换图像信息中的位置的像素值设置为与获得的像素值相等。

生成相应的扭曲图像信息的步骤可包括：通过扭曲从所述多个视点图像中的每个提取的特征图来生成扭曲特征图。

估计相应的全局变换参数的步骤可包括：通过全局池化操作获得从输入数据去除了空间维度分量的信息；和基于去除了空间维度分量的信息计算相应的全局变换参数。

计算相应的全局变换参数的步骤可包括：将与卷积神经网络的至少一个全连接层相关的操作应用于去除了空间维度分量的信息。

估计相应的视差信息的步骤可包括：相应的视点中的多个像素中的每个，通过对从输入数据提取的特征数据执行至少一个卷积滤波来估计相应的像素视差信息。

估计相应的像素视差信息的步骤可包括：以与输入数据的分辨率相同的分辨率计算相应的像素视差信息。

图像恢复模型可包括包含至少一个卷积层的神经网络，所述至少一个卷积层将卷积滤波应用于输入数据。

生成输出图像的步骤可包括：通过对包括在相应的扭曲图像信息中的像素执行像素混洗来生成通过单个视点重新对准的图像信息；和通过将图像恢复模型应用于生成的重新对准的图像信息来生成具有目标分辨率的输出图像。

输入数据可包括多个像素，并且生成输出图像的步骤可包括：在不感测与所述多个像素中的每个对应的相应的目标点的深度的情况下生成输出图像。

输出图像的分辨率可大于所述多个视点图像中的每个的相应的分辨率。

获得输入数据的步骤可包括：通过包括多透镜阵列的图像传感器拍摄包括多个视点图像的多透镜图像；和从拍摄的多透镜图像生成输入数据。

获得输入数据的步骤可包括：拍摄多个视点图像，所述多个视点图像中的每个通过多个图像传感器中的相应的图像传感器拍摄；和从拍摄的所述多个视点图像生成输入数据。

一种非暂时性计算机可读存储介质可存储指令，所述指令能够由处理器执行，以执行公开的上述方面的图像恢复方法。

根据公开的一方面，一种图像恢复装置包括：存储器，被配置为在其中存储图像恢复模型；和处理器，被配置为：获得包括多个视点中的每个的相应的输入图像信息的输入数据，基于获得的输入数据估计所述多个视点中的每个的相应的全局变换参数，基于获得的输入数据估计所述多个视点中的每个的相应的视差信息，通过使用相应的全局变换参数和相应的视差信息扭曲相应的输入图像信息来生成所述多个视点中的每个的相应的扭曲图像信息，以及使用图像恢复模型从所述多个视点中的每个的生成的相应的扭曲图像信息生成输出图像。

根据公开的一方面，一种相机装置包括：透镜阵列，包括：多个透镜，所述多个透镜中的每个与多个视点中的相应的视点对应；感测阵列，包括：多个感测元件，所述多个感测元件被配置为感测穿过透镜阵列的光，感测阵列被划分为与所述多个透镜对应的多个感测区域；和处理器，被配置为：获得包括所述多个视点中的每个的相应的输入图像信息的输入数据，基于获得的输入数据估计所述多个视点中的每个的相应的全局变换参数，基于获得的输入数据估计所述多个视点中的每个的相应的视差信息，通过使用相应的全局变换参数和相应的视差信息扭曲相应的输入图像信息来生成所述多个视点中的每个的相应的扭曲图像信息，以及使用图像恢复模型从所述多个视点中的每个的生成的相应的扭曲图像信息生成输出图像。

根据公开的一方面，一种移动终端包括：图像传感器，被配置为拍摄包括分别与多个视点对应的多个视点图像的多透镜图像；存储器，被配置为在其中存储图像恢复模型；和处理器，被配置为：获得包括所述多个视点中的每个的相应的输入图像信息的输入数据，基于获得的输入数据估计所述多个视点中的每个的相应的全局变换参数，基于获得的输入数据估计所述多个视点中的每个的相应的视差信息，通过使用相应的全局变换参数和相应的视差信息扭曲相应的输入图像信息来生成所述多个视点中的每个的相应的扭曲图像信息，以及使用图像恢复模型从所述多个视点中的每个的生成的相应的扭曲图像信息生成输出图像。

根据公开的一方面，一种图像恢复装置包括：存储器，被配置为：在其中存储扭曲模型和图像恢复模型；和处理器，被配置为：获得多个输入图像，每个输入图像与多个视点中的各个视点对应；使用扭曲模型，基于所述多个输入图像生成多个扭曲图像，每个扭曲图像与所述多个输入图像中的各个输入图像对应；和使用图像恢复模型，基于所述多个扭曲图像生成输出图像。

存储器还可被配置为存储特征提取模型，并且处理器还可被配置为：使用特征提取模型，基于所述多个输入图像生成多个特征图，每个特征图与所述多个输入图像中的相应的输入图像对应；和使用扭曲模型，基于所述多个特征图生成所述多个扭曲图像。

所述多个输入图像中的每个可包括相应的多个像素，并且处理器还可被配置为：使用扭曲模型，基于所述多个输入图像生成特征数据；基于特征数据，生成多个全局变换参数，每个全局变换参数与所述多个输入图像中的相应的输入图像对应；基于特征数据，生成基于特征数据的多个视差值，每个视差值与相应的所述多个像素中的一个像素对应；和基于所述多个全局变换参数并基于所述多个视差值，生成所述多个扭曲图像。

扭曲模型可包括第一卷积神经网络(CNN)，并且图像恢复模型可包括第二CNN。

扭曲模型可包括第一卷积神经网络(CNN)，图像恢复模型可包括第二CNN，并且特征提取模型可包括第三CNN。

附图说明

通过结合附图描述特定示例实施例，以上和/或其它方面将更加清楚，其中：

图1示出根据示例实施例的图像恢复的总体处理的示例；

图2示出根据示例实施例的图像恢复方法的示例的流程图；

图3示出根据示例实施例的使用扭曲(或变形)模型(warping model)和图像恢复模型的图像恢复的示例；

图4示出根据示例实施例的用于生成输入图像信息的特征提取模型的示例；

图5示出根据示例实施例的扭曲模型的示例；

图6示出根据示例实施例的扭曲操作的示例；

图7示出根据示例实施例的训练特征提取模型、扭曲模型和图像恢复模型的示例；

图8示出根据示例实施例的图像恢复的结果的示例；

图9示出根据示例实施例的图像恢复装置的示例；以及

图10示出根据示例实施例的计算装置的示例。

具体实施方式

现在将对示例实施例进行详细参照，示例实施例的示例在附图中示出，其中，相同的参考标号始终表示相同的元件。

下面的结构描述或功能描述仅是用于描述实施例的示例，并且示例性实施例的范围不受限于公开中提供的描述。本领域普通技术人员可对其进行各种改变和修改。

尽管使用术语“第一”或“第二”来解释各种组件，但是组件不受限于这些术语。这些术语应仅用于将一个组件与另一组件区分开。例如，“第一”组件可被称为“第二”组件，或者类似地，“第二”组件可被称为“第一”组件。

将理解，当组件被称为“连接到”另一组件时，该组件可直接连接或结合到另一组件，或者可存在中间组件。

除非上下文另有清楚地指示，否则如在此使用的，单数形式也意在包括复数形式。还应理解，术语“包含”和/或“包括”在本说明书中使用时，说明存在阐述的特征、整体、步骤、操作、元件、组件或它们的组合，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或它们的组。诸如“……中的至少一个”的表述在一列元素之后时，修饰整列元素，而非修饰列中的个体元素。例如，表述“a、b和c中的至少一个”应被理解为：仅包括a、仅包括b、仅包括c、包括a和b二者、包括a和c二者、包括b和c二者或者包括全部的a、b和c。

除非在此另有定义，否则在此使用的所有术语(包括技术术语或科学术语)具有与本领域普通技术人员通常理解的含义相同的含义。除非在此另有定义，否则通用词典中定义的术语应被解释为具有与相关领域中的上下文含义匹配的含义，并且不应被解释为理想的或过于形式的含义。

在下文中，将参照附图详细描述示例，并且附图中的相同的参考标号始终表示相同的元件。此外，在示例实施例的描述中，当认为在理解本申请的公开之后由此得知的结构或功能的详细描述将导致对示例实施例的模糊解释时，将省略这样的描述。

图1示出根据示例实施例的图像恢复的总体处理的示例。

根据示例实施例，图像恢复装置可基于从场景感测的信息来恢复图像。例如，图像恢复装置可通过成像装置110实现。成像装置110可包括透镜阵列和图像传感器。由成像装置110拍摄和恢复的图像的质量可通过包括在图像传感器中的感测元件的数量和入射到感测元件上的光的量而被确定。在此描述的感测元件可以是被配置为感测穿过透镜阵列的光的图像感测元件，并且包括(例如)互补金属氧化物半导体(CMOS)、电荷耦合器件(CCD)或光电二极管。

图像传感器可包括感测阵列112，在感测阵列112中，多个感测元件布置在平面上。例如，图像的分辨率可通过包括在感测阵列112中的感测元件的数量而被确定，图像的灵敏度可通过入射到感测元件上的光的量而被确定。进而，入射到感测元件上的光的量可基于感测元件的大小而被确定。因此，随着每个感测元件的大小增大，光的量也可增大，并且感测阵列112的动态范围可增大。因此，随着包括在感测阵列112中的感测元件的数量增大，成像装置110可拍摄高分辨率图像。另外，随着感测元件的大小增大，成像装置110可在以低光级拍摄高灵敏度图像时更有效地进行操作。

成像装置110的大小可通过透镜元件111的焦距而被确定。详细地，成像装置110的大小可通过透镜元件111与感测阵列112之间的间隔而被确定。这是因为，为了收集由透镜元件111折射的光，透镜元件111和感测阵列112需要以与透镜元件111的焦距相等的距离而彼此分开地布置。透镜元件111的焦距可通过成像装置110的视角和透镜元件111的大小而被确定。例如，当视角固定时，焦距可与透镜元件111的大小成比例地增大。随着感测阵列112的大小增大以拍摄特定视角范围的图像，透镜元件111的大小也可需要增大。如上所述，为了在保持视角和分辨率的同时增大图像的灵敏度，成像装置110的大小可增大。例如，为了在保持分辨率的同时增大灵敏度，在保持包括在感测阵列112中的感测元件的数量的同时，每个感测元件的大小可需要增大，因此感测阵列112的大小可增大。在该示例中，为了保持视角，感测阵列112的大小可增大，透镜元件111的大小也可增大。因此，透镜元件111的焦距可增大，成像装置110的大小可相应地增大。

根据示例实施例，为了减小成像装置110的大小，透镜阵列可包括与多个视点对应的多个透镜元件。透镜元件可布置在透镜阵列的平面上。感测阵列112可被划分成与透镜元件对应的感测区域。透镜阵列的平面可平行于感测阵列112的平面，并且与感测阵列112的平面分隔开透镜元件111的焦距。透镜阵列也可被称为多透镜阵列(MLA)。为了减小包括在透镜阵列中的每个透镜元件的大小(即，为了增大将被包括在透镜阵列中的相同区域中的透镜的数量)，透镜元件111的焦距可减小，从而成像装置110的厚度可减小。因此，能够实现薄的相机。在这种情况下，成像装置110可重新对准(realign)和连接(或串接，concatenate)通过透镜元件拍摄的低分辨率视点图像120，以恢复高分辨率输出图像190。

作为透镜阵列的个体透镜元件的透镜元件111可覆盖感测阵列112的与透镜元件111的透镜大小对应的感测区域113。由透镜元件111覆盖的感测阵列112的感测区域113可通过透镜元件111的透镜大小而被确定。感测区域113可以是感测阵列112中的特定视角范围内的光线在穿过透镜元件111之后到达的区域。感测区域113的大小可通过从感测区域113的中心到最外点的距离或对角长度表示，透镜大小可对应于对应的透镜的直径。

感测阵列112的每个感测元件可基于穿过透镜阵列的透镜的光线而生成感测信息。例如，感测元件可感测通过透镜元件111接收的光的强度作为感测信息。成像装置110可基于从感测阵列112输出的感测信息来确定对应于与包括在成像装置110的视图中的点相关联的原始信号的强度信息，并且基于确定的强度信息来恢复图像。

当感测信息的多样性被充分确保并且满秩(full rank)关系在感测信息和与包括在成像装置110的视图中的点对应的原始信号信息之间被建立时，与感测阵列112的最大分辨率对应的图像可被获得。感测信息的多样性可基于成像装置110的参数(诸如，包括在透镜阵列中的透镜的数量和包括在感测阵列112中的感测元件的数量)而被获得。

另外，由透镜元件111覆盖的感测区域113可包括非整数数量的感测元件。MLA结构可以以分数对准结构(fractional alignment structure)实现。例如，当包括在透镜阵列中的透镜元件具有相同的透镜大小时，包括在透镜阵列中的透镜元件的数量和包括在感测阵列112中的感测元件的数量可具有互质关系。例如，透镜阵列的透镜元件的数量L和感测阵列112的单个行或列中的感测元件的数量P之间的比率P/L可被确定为非整数。每个透镜元件可覆盖与对应于P/L的像素偏移相同数量的感测元件。

如上所述，通过分数对准结构，成像装置110的透镜元件的光学中心轴(OCA)可相对于感测阵列112稍微不同地布置。也就是说，透镜元件111可相对于感测元件偏心地布置。因此，透镜阵列的透镜元件可接收不同的光场(LF)信息。LF可表示指示从任意目标点发射并且从对象上的任意点反射的光线的方向和强度的场。LF信息可指示多个LF组合的信息。每个透镜元件的主光线的方向可变化，因此感测区域可接收不同的LF信息，感测区域可获得稍微不同的输入信息。通过稍微不同的输入信息，成像装置110可获得光学上更大量的感测信息。

尽管为了便于描述，仅示出图像传感器的感测阵列112，但是示例不限于此。图像传感器还可包括聚光透镜、滤色器(CF)等。滤色器可允许与感测元件期望的颜色对应的波长的光线穿过以被感测并且被透射到感测元件。因此，感测元件可生成与颜色对应的颜色强度值作为感测信息。滤色器可以以拜耳图案(Bayer pattern)布置，但是不限于此。聚光透镜可设置为分别与多个感测元件对应并且分别布置在感测元件上的多个聚光透镜，并且被配置为收集入射到感测元件上的光线。聚光透镜阵列可包括布置在感测阵列112的平面上的聚光透镜。

根据示例实施例，成像装置110可包括多个感测单元。感测单元的数量可以与包括在MLA中的透镜的数量相等。例如，感测单元可包括透镜元件111和由透镜元件111覆盖的感测区域113的感测元件。在成像装置110中，布置每个透镜元件的位置可对应于视点。视点可指示从其观察和/或拍摄对象的点。如上所述，透镜元件相对于感测阵列112以分数对准结构布置，因此对于每个视点可获得的信息可稍微不同。成像装置110可基于通过布置在该视点处的透镜元件接收的光来拍摄与视点对应的图像(在下文中，“视点图像”)。

根据示例实施例，成像装置110可通过布置在不同位置处的透镜拍摄多个视点图像。例如，成像装置110可根据针对与每个透镜对应的每个感测区域获得的感测信息来生成视点图像。也就是说，每个感测单元可获得视点图像。如上所述，感测单元可获得不同的LF信息，因此通过感测单元拍摄的视点图像可包括稍微不同的场景。例如，成像装置110可包括与N个感测单元对应的N个透镜。N个感测单元可单独地拍摄视点图像，因此成像装置110可获得N个视点图像。这里，N表示大于或等于2的整数。例如，如图1中所示，MLA可包括25(N＝5×5＝25)个透镜，图像传感器可拍摄25个低分辨率视点图像120。对于另一示例，多透镜图像可包括36(N＝6×6＝36)个视点图像。尽管以上描述了一个成像装置110包括多个感测单元，但是示例不限于此。例如，感测单元可以是独立的图像感测模块(例如，相机传感器)。在该示例中，每个感测单元可布置在与另一感测单元的位置不同的位置处。例如，感测单元可设置在多个无人机中的每个中，感测单元之间的位置关系可随着无人机移动而动态地改变。

参照图1，成像装置110可根据如上所述获得的各组感测信息来生成多个低分辨率视点图像120，并且基于生成的低分辨率视点图像120之中的目标图像121来恢复高分辨率输出图像190。目标图像121可通过与目标视点对应的目标感测单元(例如，与目标视点对应的透镜元件115和对应的感测区域116)拍摄。

尽管在图1中示出视点图像120之中的中心图像被确定为目标图像121，但是示例不限于此。例如，另一视点图像(例如，视点图像122)也可被用作目标图像。另外，成像装置110可使用另外的额外图像传感器的图像作为目标图像。额外的图像传感器可以是不同于成像装置110的独立传感器(例如，被配置为与成像装置110相比拍摄高分辨率图像的相机传感器)。

图2示出根据示例实施例的图像恢复方法的示例的流程图。图3示出根据示例实施例的使用扭曲(或变形)模型(warping model)和图像恢复模型的图像恢复的示例。

参照图2和图3，在操作210中，图像恢复装置获得包括针对多个视点中的每个的输入图像信息310的输入数据。输入数据可表示将被输入到扭曲模型320的数据，并且可包括与不同视点对应的多组输入图像信息310。输入数据可以是视点的输入图像信息310的组被连接的数据。例如，与视点之一对应的输入图像信息310可包括从视点拍摄的视点图像311、或者从视点图像311提取的与视点对应的特征图。在该示例中，输入数据可以是特征图被连接的数据。视点图像311可表示相应视点处的以由光学系统确定的视角拍摄的图像，并且可对应于来自感测元件的感测值的组，感测元件感测穿过与视点对应的透镜的光线。输入特征图312可指示从通过透镜感测以拍摄相应场景的视点图像311提取的特征数据和/或特征向量。然而，输入图像信息310不限于前述内容。例如，与视点对应的输入图像信息310可包括与视点对应的视点图像311自身，而不是输入特征图312。在下文中，将描述输入特征图312作为输入图像信息310的示例，并且将参照图4详细描述提取输入特征图312。

在操作220中，图像恢复装置从获得的输入数据估计每个视点的全局变换参数。换句话说，每个视点可对应于各自的全局变换参数。与视点之一对应的全局变换参数可以是用于将视点图像311的视点全局变换为目标视点的参数，并且可包括例如旋转参数、平移参数和尺度参数。与一个视点对应的旋转参数可指示视点的感测单元与目标视点的感测单元之间的旋转(例如，在三个轴上的旋转)的程度。与一个视点对应的平移参数可指示视点的感测单元与目标视点的感测单元之间的平移(例如，沿着三个轴中的每个的平移)的水平。与一个视点对应的尺度参数可指示视点的感测单元与目标视点的感测单元之间的尺度的差。将参照图5详细描述全局变换参数的估计。

在操作230中，图像恢复装置从获得的输入数据估计每个视点的视差(disparity)信息。换句话说，每个视点可对应于各自的视差信息。视差信息可表示用于校正全局变换的图像信息与目标图像信息之间的视差误差的信息，这将在操作240中描述。视差信息在此也可被称为视差校正信息。将参照图5详细描述视差信息的估计。

在操作240中，图像恢复装置通过使用全局变换参数和视差信息扭曲输入图像信息310来生成针对每个视点的扭曲图像信息330。换句话说，每个视点可对应于各自的扭曲图像信息。例如，扭曲图像信息330可包括通过将从输入图像提取的输入特征图312变换到拍摄目标图像的目标感测单元的像素坐标系而获得的扭曲特征图。然而，扭曲图像信息330不限于前述内容。例如，扭曲图像信息330可以是通过将输入图像变换到目标图像的像素坐标系而获得的扭曲图像自身。将参照图6详细描述使用全局变换参数和视差信息执行的扭曲。

在操作250中，图像恢复装置使用图像恢复模型340从生成的扭曲图像信息330生成针对视点的输出图像390。例如，首先，图像恢复装置可根据对生成的扭曲图像信息330执行像素混洗(shuffle)来生成根据单个视点重新对准的图像信息。像素混洗可表示将指示视点的特征图和/或视点的视点图像中的相同和/或相似点的像素重新对准或重新布置为彼此靠近的操作。通过像素混洗，根据单个视点重新对准的图像信息可被生成。然后，图像恢复装置可通过将图像恢复模型340应用于重新对准的图像信息来生成具有目标分辨率的输出图像390。输出图像390可以是例如通过基于目标图像的视点图像的像素的图像配准而获得的图像，输出图像390的目标分辨率可大于或等于单独的每个视点图像的分辨率。输出图像390可以是当视点图像根据单个视点整合时获得的图像391。

根据示例实施例，图像恢复模型340可以是被训练为从扭曲图像信息330输出输出图像390的模型。输入到图像恢复模型340的扭曲图像信息330可以是通过用于根据单个视点的重新对准的像素混洗获得的重新对准图像信息。图像恢复模型340可以是例如机器学习结构的神经网络。神经网络可通过基于深度学习将处于非线性关系的输入数据和输出数据映射到彼此来执行基于图像配准的图像恢复等。深度学习可以是用于解决来自大数据集的图像配准问题的机器学习方法，并且可通过有监督学习或无监督学习来映射输入数据和输出数据。例如，如所示，神经网络可包括输入层341、多个隐藏层342和输出层343。通过输入层341输入的数据可通过隐藏层342而被传播，随后从输出层343被输出。然而，数据可被直接输入到隐藏层342，或者数据可从隐藏层342而不是输入层341和输出层343被直接输出。尽管以上描述了图像恢复模型340包括神经网络的示例，但是示例不限于前述内容。在下文中将被描述的扭曲模型和特征提取模型的部分还可包括神经网络。例如，可通过反向传播来训练神经网络。在下文中，将参照图7详细描述图像恢复模型340的训练。

图像恢复模型340可通过卷积神经网络(CNN)实现。CNN可以是包括卷积层的神经网络，CNN的隐藏层342可包括将卷积滤波应用于输入数据的卷积层。例如，CNN可包括卷积层，卷积层的节点通过核连接。CNN可以是被预先训练为从多组扭曲图像信息330输出高分辨率的输出图像390的网络。图像恢复装置可通过对输入到卷积层的数据执行卷积滤波来提取特征数据。特征数据可以是图像的特征被抽象的数据，并且可指示从基于卷积层的核的卷积运算得到的值。图像恢复装置可使用核的元素的值对位置处的像素和该像素的邻近像素执行卷积运算。图像恢复装置可通过跨图像的像素扫过(sweep)核来计算每个像素的卷积运算值。图像恢复模型的卷积层可以以U-net架构连接，但是不限于此。

根据示例实施例，图像恢复装置可通过使用全局变换参数和视差信息执行扭曲来重构多个视点图像中的每个的特征图。在不预先给出信息(例如，相机参数和深度信息)的情况下，图像恢复装置可将特征图与目标视点对准。

图4示出根据示例实施例的用于生成输入图像信息的特征提取模型的示例。

参照图4，图像恢复装置通过布置在不同位置处的透镜拍摄多个视点图像411。在图4的示例中，视点图像411中的每个的分辨率是H×W，其中，H表示沿视点图像411中的每个的高度布置的像素的数量，W表示沿视点图像411中的每个的宽度布置的像素的数量。H和W中的每个可以是大于或等于1的整数。例如，如所示，图像恢复装置拍摄包括第一视点图像c₁至第九视点图像c₉的视点图像411。视点图像411中的每个可包括彩色图像，该彩色图像包括三个通道图像(红色通道图像、绿色通道图像和蓝色通道图像)，并且可对应于具有3×H×W维度的数据。换句话说，每个视点图像411可包括与3×H×W相等的像素数量的数据。

图像恢复装置从拍摄的视点图像411获得与每个视点对应的输入图像信息。例如，图像恢复装置使用特征提取模型410从视点图像411提取多个输入特征图412作为多组输入图像信息。

特征提取模型410包括一个或多个卷积层(如所示的conv)。特征提取模型410包括以残差块(如所示的ResBlock)的形式连接的卷积层。在图4的示例中，特征提取模型410包括针对每个视点的一个卷积层和M个残差块。这里，M表示大于或等于2的整数。残差块包括一个或多个卷积层。通过卷积层，残差块可从输入到残差块的数据提取特征数据，并且输出将提取的特征数据和输入到残差块的数据相加的结果。例如，第j残余块的输出可被输入到第j+1残差块。在该示例中，j表示大于或等于1并且小于或等于M-1的整数。图像恢复装置提取通过经由一个或多个残差块对视点图像411应用卷积滤波而获得的结果作为输入特征图412。在图4中，特征提取模型410被示出为包括根据每个视点独立区分的总共V×M个残差块。这里，V表示视点的数量，视点的数量大于或等于2的整数。在图4的示例中，V是9。然而，示例不限于前述内容。例如，图像恢复装置可按顺序将特征提取模型410的M个残差块应用于各自的视点。

例如，视点的输入特征图412可包括基于特征提取模型410从与视点对应的视点图像411中的一个提取的特征数据和/或特征向量。图像恢复装置生成与视点对应的输入特征图412，并且通过连接生成的输入特征图412来生成输入数据。例如，通过特征提取模型410的卷积层和残差块从视点的视点图像提取的特征图可被扩充因数D。在该示例中，D是大于或等于1的整数。例如，输入特征图412中的每个可具有H×W×D维度。在该示例中，总输入数据的维度随后可以是H×W×D×V。这里，描述D＝64的示例。

图5示出根据示例实施例的扭曲模型的示例。

参照图5，扭曲模型包括全局变换参数估计器530、视差估计器520和扭曲操作540。扭曲模型可包括多个卷积运算和多个池化操作。

图像恢复装置生成从输入数据510提取的特征数据。例如，特征数据可以是从输入数据510池化的池化数据。例如，图像恢复装置将卷积滤波511应用于输入数据510。在该示例中，可从具有V×H×W×64维度的输入数据510提取具有H×W×128维度的特征数据。图像恢复装置将池化层512和卷积层513应用于特征数据以进行下采样。然后可将特征数据的维度减小到H/2×W/2×128。图像恢复装置再次应用池化层514以进行下采样，因此生成具有H/4×W/4×128维度的池化数据。尽管在图5中示出了池化层将数据的高度和宽度减小一半，但是示例不限于前述内容。

图像恢复装置通过全局变换参数估计器530估计全局变换参数。例如，图像恢复装置通过全局池化操作531获得从输入数据510去除了空间维度分量的信息。全局池化操作531可以是全局平均池化操作。作为全局平均池化操作的结果，具有1×128维度的去除了空间维度分量的信息被获得。图像恢复装置从去除了空间维度分量的信息计算全局变换参数。例如，图像恢复装置将与例如卷积神经网络的一个或多个全连接(FC)层532相关的操作应用于去除了空间维度分量的信息。FC层532可在数量上设置为多个FC层。全局变换参数可具有1×(V×param)维度。这里，“param”表示针对每个视点的全局变换参数的维度，因为总共需要七个参数，所以“param”是7。七个参数针对每个视点而被计算，并且包括针对三个轴中的每个的旋转参数、针对三个轴中的每个的平移参数以及尺度参数。在图5的示例中，V＝9，因此全局变换参数的维度是1×63。然而，示例不限于前述内容，并且所需参数的数量(param)可根据全局变换算法而变化。例如，当作为用于全局变换的另一模型，二维(2D)仿射变换模型被使用时，可需要六个参数而不是七个参数。

图像恢复装置通过对从输入数据510池化的池化数据执行一次或多次卷积滤波来估计相对于每个视点的针对每个像素的视差信息。例如，图像恢复装置在521和522对从输入数据510下采样的池化数据执行两次卷积滤波。在图5的示例中，卷积滤波的结果是H/4×W/4×128维度的特征数据。图像恢复装置在对卷积滤波的结果进行上采样523的同时计算具有与输入数据510的分辨率相同的分辨率的针对每个像素的视差信息。例如，视差信息的维度是H×W×(2×V)。在图5的示例中，V＝9，因此视差信息的维度是H×W×18。在该示例中，针对V个视点中的每个计算包括针对H×W个像素中的每个的水平轴(例如，x轴)上的视差和垂直轴(例如，y轴)上的视差的总共两个视差值。

扭曲模型的每个层的配置不限于图5中示出的示例，层的数量和维度可根据设计而改变。

图像恢复装置通过使用如上所述计算的全局变换参数和视差信息将扭曲操作540应用于输入数据510的输入特征图来生成扭曲图像信息550。在下文中，将参照图6详细描述扭曲操作540。

图6示出根据示例实施例的扭曲操作的示例。

根据示例实施例，图像恢复装置可通过使用全局变换参数将针对每个视点的输入图像信息变换到与目标视点对应的目标图像信息的像素坐标系来生成变换图像信息。图像恢复装置可使用视差信息校正变换图像信息相对于目标图像信息的视差。在下文中，将参照图6描述全局变换和视差校正。

图像恢复装置可执行向后扭曲，以使用与参考视差对应的单个深度将输入图像信息的所有像素向后扭曲到与目标图像对应的像素坐标系。在下文中，将详细描述向后扭曲的示例。例如，图像恢复装置可使用包括在全局变换参数中的旋转参数、平移参数和尺度参数来计算输入图像信息中的与基于目标图像信息的像素坐标系的位置对应的坐标。图像恢复装置可将在输入图像信息中计算的坐标的像素值确定为变换图像信息中的位置处的像素值。在下文中，将详细描述全局变换。

视差可指示在同一目标点的位置方面的两个图像之间的差异(例如，像素坐标的差异)。根据示例实施例，与目标图像的视差可被设置为针对每个输入图像的参考视差。参考视差可被设置为任意值。基于参考视差，可确定从图像传感器到目标点的虚拟距离(例如，深度值)。

例如，如图6中所示，N个视点图像之中的第i视点图像的图像信息可被扭曲到与目标视点图像的图像信息对应的像素坐标系，从而扭曲图像信息可被生成。如上所述，图像恢复装置可通过扭曲从第i视点图像提取的特征图来从扭曲图像信息生成扭曲特征图。在这种情况下，第i视点图像的图像信息可指示通过第i感测单元C_i 612从第i视点图像提取的第i特征图，目标视点图像的图像信息可指示通过目标感测单元C_T 611从目标视点图像提取的目标特征图。

以上描述的世界坐标系可指示具有世界中的点作为参照的三维(3D)坐标系。另外，以上描述的相机坐标系可指示具有相机的位置作为参照的3D坐标系。例如，感测单元的主点可被用作原始点或起始点，感测单元的光轴方向可由z轴指示，感测单元的垂直方向可由y轴指示，感测单元的水平方向可由x轴指示。在此描述的像素坐标系也可被称为图像坐标系，并且指示图像中的像素的2D坐标。

例如，如所示，与图像传感器分离的目标点的世界坐标可以是(X，Y，Z)。在该示例中，通过N个感测单元之中的第i感测单元C_i 612感测的与目标点对应的像素坐标可以是(u'，v')，通过目标感测单元C_T 611感测的与目标点对应的像素坐标可以是(u，v)。然而，仅用通过每个感测单元感测的像素值可能不容易确定到目标点的准确距离。根据示例实施例，图像恢复装置可假设输入图像信息相对于目标图像信息已经具有参考视差，并且可使用与假设的视差对应的距离值将输入图像信息扭曲到目标图像信息的像素坐标系。这里，可执行向后扭曲。

如由以下等式1所示，图像恢复装置可通过对目标图像信息的每个像素的像素坐标(u_T，v_T)进行归一化来计算目标感测单元C_T 611的归一化坐标(x_T，y_T)。

[等式1]

在等式1中，

表示目标感测单元C_T 611分别在x轴和y轴上的主点。

表示目标感测单元C_T 611分别相对于x轴和y轴的焦距。如由等式1所示，图像恢复装置可通过使用目标感测单元C_T 611的主点作为原始点并将其除以焦距来对目标感测单元C_T 611的每个像素进行归一化。这里，当每个感测单元的主点和焦距信息未知时，图像的中心位置可被用作主点，任意值可被使用为焦距。

另外，如由以下等式2所示，图像恢复装置可相对于归一化坐标(x_T，y_T)使用与参考视差对应的单个深度z来计算目标感测单元C_T 611的3D相机坐标(X_T，Y_T，Z_T)。

[等式2]

X_T＝x_T·z

Y_T＝y_T·z

Z_T＝z_T·z

通过将归一化坐标(x_T，y_T)中的每个与深度z相乘，图像恢复装置可获得如由以上等式2所示的X_T和Y_T。因此，图像恢复装置可计算具有目标感测单元C_T 611的光轴作为参照的3D相机坐标。

如由以下等式3所示，图像恢复装置可将如由以上等式2所示的使用视差变换的目标图像信息的3D相机坐标变换为第i感测单元C_i 612的3D相机坐标(X_i，Y_i，Z_i)。

[等式3]

在等式3中，R_i表示世界坐标系中的目标感测单元C_T 611与第i感测单元C_i 612之间的旋转信息。T_i表示世界坐标系中的目标感测单元C_T 611与第i感测单元C_i 612之间的并行平移信息。旋转信息也可被称为旋转参数，平移信息也可被称为平移参数。如由以上等式3所示，图像恢复装置可通过使用旋转参数R_i和平移参数T_i变换3D相机坐标(X_T，Y_T，Z_T)来计算与目标感测单元C_T 611的每个像素对应的第i感测单元C_i 612的3D相机坐标(X_i，Y_i，Z_i)。

旋转参数R_i可指示世界坐标系中的目标感测单元C_T 611与第i感测单元C_i 612之间的旋转矩阵。平移参数T_i可指示世界坐标系中的目标感测单元C_T611与第i感测单元C_i612之间的平移矩阵。平移参数T_i可包括例如由

表示的三个参数。旋转参数R_i可例如从三个参数

被确定。如由以下等式4所示，旋转参数R_i可从三个参数

被计算。

[等式4]

在等式4中，α表示相对于z轴的偏航(yaw)旋转角。β表示相对于y轴的俯仰(pitch)旋转角。γ表示相对于x轴的滚动(roll)旋转角。

另外，如由以下等式5所示，图像恢复装置可对3D相机坐标(X_i，Y_i，Z_i)进行归一化，3D相机坐标(X_i，Y_i，Z_i)基于从目标图像信息的每个像素坐标计算的第i感测单元C_i 612。

[等式5]

x_i＝X_i/Z_i

y_i＝Y_i/Z_i

如由以上等式5所示，图像恢复装置可在基于第i感测单元C_i 612的3D相机坐标中将X_i和Y_i除以深度Z_i，因此获得针对第i感测单元C_i 612的归一化坐标(x_i，y_i)。这里，如由以下等式6所示，图像恢复装置可考虑感测单元具有不同焦距的情况，并且可将归一化坐标(x_i，y_i)与尺度参数(s_i)相乘。

[等式6]

x_i←s_i*x_i

y_i←s_i·y_i

然后，如由以下等式7所示，图像恢复装置可从第i感测单元C_i 612的归一化坐标(x_i，y_i)计算与第i图像信息对应的像素坐标系的像素坐标(u′，v′)。

[等式7]

u′＝f_x ⁽ⁱ⁾·x_i+c_x ⁽ⁱ⁾

v′＝f_y ⁽ⁱ⁾·y_i+c_y ⁽ⁱ⁾

在等式7中，c_x ⁽ⁱ⁾和c_y ⁽ⁱ⁾分别表示第i感测单元C_i 612相对于x轴和y轴的主点。另外，f_x ⁽ⁱ⁾和f_y ⁽ⁱ⁾分别表示第i感测单元C_i 612相对于x轴和y轴的焦距。

通过以上等式1至等式7，图像恢复装置可将目标感测单元C_T 611的像素坐标(u，v)变换为第i感测单元C_i 612的像素坐标(u′，v′)。图像恢复装置可将扭曲图像信息B_i 613的像素坐标(u，v)的像素值确定为第i图像信息的像素坐标(u′，v′)的像素值。换句话说，扭曲图像信息B_i 613可将第i图像信息的像素坐标(u′，v′)的像素值与目标感测单元C_T 611的像素坐标(u，v)相关联。当从目标感测单元C_T 611的像素坐标(u，v)变换的坐标不存在于第i图像信息中时，图像恢复装置可执行填充(例如，零填充)。基于以上等式1至等式7的一系列坐标变换和将变换坐标中的像素值确定为扭曲图像信息的值的操作可被称为向后扭曲。尽管为了便于描述，以时间序列方式描述了向后扭曲，但是示例不限于此。例如，可使用基于等式1至等式7的运算被组合的运算(例如，统一矩阵运算)。

尽管以上全局变换被描述为使用单个深度来执行，但是输入图像信息的每个像素的深度可不同。除了全局变换(例如，全局扭曲)之外，图像恢复装置可额外执行视差校正。例如，如由以下等式8所示，图像恢复装置可校正每个像素相对于x轴和y轴的视差。

[等式8]

在等式8中，d^T→i([x_T，y_T]^T)表示从当前坐标(x_T，y_T)到第i感测单元的视差值。包括以上等式8的整个扭曲操作可由以下等式9表示。

[等式9]

[x_i，y_i]^T＝G([x_T，y_T]^T)+d^T→i([x_T，y_T]^T)

在等式9中，G([x_T，y_T]^T)指示等式1至等式7的一系列运算。

图7示出根据示例实施例的训练特征提取模型、扭曲模型和图像恢复模型的示例。

参照图7，例如，特征提取模型710、扭曲模型720和图像恢复模型740可以是机器学习模型，并且包括神经网络。例如，特征提取模型710可包括图4中示出的结构的神经网络，扭曲模型720可包括图5中示出的结构的神经网络，图像恢复模型740可包括U-net结构的神经网络。训练被完成之前的特征提取模型710、扭曲模型720和图像恢复模型740可分别被称为临时特征提取模型710、临时扭曲模型720和临时图像恢复模型740。

训练装置可基于训练数据来训练临时特征提取模型710、临时扭曲模型720和临时图像恢复模型740。训练数据可包括一对训练输入和训练输出。训练输入可以是从多个视点拍摄的低分辨率视点图像，训练输出可以是与训练输入对应的单个视点的高分辨率图像。训练装置可训练临时特征提取模型710、临时扭曲模型720和临时图像恢复模型740，使得从训练输入输出训练输出。例如，训练装置可在将训练输入传播到临时特征提取模型710、临时扭曲模型720和临时图像恢复模型740的同时计算至少一个损失值，并且基于计算的损失值来更新模型的参数(例如，连接权重)。训练装置可更新模型的连接权重，使得损失值减小。训练装置可重复地执行训练，直到损失值变得小于或等于阈值损失值。当损失值小于或等于阈值损失值时，训练装置可完成训练。

例如，如所示，训练装置可将作为训练输入的训练视点图像701应用于特征提取模型710。训练装置可将使用特征提取模型710从训练视点图像701提取的临时特征图传播到扭曲模型720。这里，由多相机或多镜头相机拍摄的视点图像之间的位置关系通常可被固定或预定。因此，对每个视点的全局变换可能需要在输入图像上被不变地执行。作为允许针对每个视点的全局变换参数在训练期间对于每个批(batch)具有相同值或相似值的约束，损失值可被定义为由以下等式10所示。

[等式10]

以上等式10可定义几何一致性损失l_Geo 791。在等式10中，B表示在训练期间使用的批的大小。v表示指示视点的索引，并且是大于或等于1且小于或等于N的整数。N表示视点的总数。

表示与第v视点图像对应的第b批的全局变换参数，其中，b表示指示批的索引并且大于或等于1且小于或等于B。

表示所有批的第v视点图像的平均全局变换参数。因此，l_Geo 791可以是批的全局变换参数的方差。训练装置可通过最小化变化l_Geo 791来更新扭曲模型720的参数，使得针对每个批输出一致的全局变换参数。

训练装置可使用扭曲模型720从临时特征图计算临时扭曲特征图702。训练装置可使用卷积层将临时扭曲特征图702变换为低分辨率扭曲图像703(例如，作为彩色图像的RGB图像)。如由以下等式11所示，训练装置可使用低分辨率彩色图像和下采样到低分辨率的训练输出图像来计算低分辨率(LR)损失l_LR 792。

[等式11]

在等式11中，

表示从第v视点对准到目标视点的临时低分辨率扭曲图像。I_LR表示通过对训练输出图像进行下采样而获得的实验确定的(即，真值(ground truth))低分辨率图像。|| ||表示L2范数。N表示视点的总数。通过使用等式11的损失的训练，模型的参数可被更新，使得视点图像与目标视点对准。

训练装置可从临时扭曲特征图702生成具有目标分辨率的临时输出图像704。例如，训练装置可对临时扭曲特征图702执行像素混洗730以获得目标分辨率，并且使用U-net结构的临时图像恢复模型740来生成临时输出图像704。如由以下等式12所示，训练装置可计算恢复的临时输出图像704与真值图像之间的高分辨率损失l_HR 793。

[等式12]

l_HR＝||I_SR-I_HR||²

在等式12中，I_HR表示作为真值给出的训练输出图像，I_sR表示恢复为具有目标分辨率的临时输出图像704。等式12可表示训练输出图像与临时输出图像704之间的L2损失。

如由等式13所示，可使用等式10至等式12中表示的损失来计算整个图像恢复网络的总损失。

[等式13]

l＝l_HR+λ_LRl_LR+λ_geol_geo

在等式13中，λ_LR和入_geo分别表示等式11的l_LR 792的权重和几何一致性损失l_Geo791的权重。训练装置可更新特征提取模型710、扭曲模型720和图像恢复模型740的参数，使得基于等式13将被计算的损失减小。例如，训练装置可通过更新每个模型的参数来最小化总损失。再例如，训练装置可通过更新每个模型的参数来重复执行训练直到总损失变得小于或等于阈值损失值，并且当总损失小于或等于阈值损失值时完成训练。这里，通过基于以上等式10至等式13的损失，训练装置可训练模型，使得视点图像在没有相机参数和深度值的真值的情况下被对准。

当训练被完成时，可去除用于将临时扭曲特征图702变换为低分辨率扭曲图像703的卷积层。

图8示出根据示例实施例的图像恢复的结果的示例。图8示出输入图像810、全局变换图像820以及通过视差校正获得的图像830。

参照图8，由于感测单元之间的视差，输入图像810(例如，视点图像)之间可存在未对准。例如，如所示，通过目标感测单元C_T拍摄的图像中的棋盘图案上的点815是矩形空间的角。在该示例中，通过第一感测单元C₁和第九感测单元C₉拍摄的图像中的同一像素坐标的点811和819是棋盘图案上的不同点。

在输入图像810被变换为全局变换图像820之后，与输入图像810中的差异相比，通过目标感测单元C_T拍摄的图像中的点825与通过第一感测单元C₁和第九感测单元C₉拍摄的图像中的同一像素坐标的点821和829之间的差异减小但未去除。

在除了全局变换之外还通过视差校正获得的图像830中，通过目标感测单元C_T拍摄的图像中的点835与通过第一感测单元C₁和第九感测单元C₉拍摄的图像中的同一像素坐标的点831和839匹配。换句话说，通过视差校正去除了全局变换图像820中存在的剩余差异。尽管为了便于描述，在图8中示出了图像，但是在以上参照图1至图7描述的示例中，可针对每个视点匹配特征图的点。

例如，当在没有视差校正的情况下应用全局变换时，图像恢复的结果示出峰值信噪比(PSNR)为37.88分贝(dB)，并且结构相似性(SSIM)为0.9721。当在没有全局变换的情况下应用视差校正时，图像恢复结果示出PSNR＝39.50dB并且SSIM＝0.9794。然而，当使用在没有几何一致性损失的情况下训练的模型将全局变换和视差校正两者应用于图像恢复时，图像恢复的结果示出PSNR＝39.37dB并且SSIM＝0.9790。当使用用几何一致性损失训练的模型将全局变换和视差校正两者应用于图像恢复时，图像恢复结果示出PSNR＝39.67dB并且SSIM＝0.9803。与示出PSNR＝37.34dB并且SSIM＝0.9731的用残差通道注意力网络(RCAN)的图像恢复的结果以及示出PSNR＝36.66dB并且SSIM＝0.9668的用增强可变形卷积网络(EDVR)的图像恢复的结果相比，在此描述的图像恢复方法可恢复更清楚和更高分辨率的图像。

图9示出根据示例实施例的图像恢复装置的示例。

参照图9，图像恢复装置900包括图像传感器910、处理器920和存储器930。然而，图像恢复装置900不限于前述内容，并且可被集成到图像传感器中或者由包括透镜阵列和图像传感器的成像装置实现。

图像传感器910可获得多组输入图像信息。图像传感器910可获得通过布置在不同位置处的透镜拍摄的多个视点图像作为多组输入图像信息。图像传感器910可包括被配置为分别获得多组输入图像信息的感测单元。例如，图像传感器910可包括N个感测单元以获得N组输入图像信息。例如，包括MLA的图像传感器910可拍摄包括分别与多个视点对应的多个视点图像的多透镜图像。处理器920可从通过图像传感器910拍摄的多透镜图像生成输入数据。然而，示例不限于单个图像传感器910包括N个感测单元的前述示例，而是N个图像传感器中的每个可包括单个感测单元。在这种情况下，每个图像传感器可拍摄视点图像，处理器920可从拍摄的视点图像生成输入数据。图像传感器可实现在单个装置中。然而，实例不限于前述内容，并且图像传感器可分别被设置在可独立移动的装置(例如，无人机)中。

处理器920可获得包括针对每个视点的输入图像信息的输入数据。处理器920可从获得的输入数据估计每个视点的全局变换参数。处理器920可从获得的输入数据估计每个视点的视差信息。处理器920可通过使用全局变换参数和视差信息扭曲输入图像信息来生成针对每个视点的扭曲图像信息。处理器920可使用图像恢复模型从生成的扭曲图像信息生成针对视点的输出图像。处理器920可在不感测与每个像素对应的目标点的深度的情况下生成输出图像。输出图像可具有大于单独的每个视点图像的分辨率的目标分辨率。例如，目标分辨率可大于或等于通过将单独的视点图像的所有分辨率相加而获得的分辨率。然而，目标分辨率不限于前述示例，并且可小于或等于通过将视点图像的所有分辨率相加而获得的分辨率。

处理器920不限于前述中描述的操作，而是可同时或顺序地执行以上参照图1至图8描述的操作和方法中的一个或多个或全部。

具有不同拍摄方向和拍摄位置的相机可拍摄不同场景。例如，当对未对准的多组视点图像信息执行基于CNN的图像恢复(例如，RCAN)时，在恢复的图像中可能出现伪影。根据示例实施例，图像恢复装置900可基于视点图像的非对准来恢复图像。图像中的区域可具有不同深度，因此针对图像中的每个区域可存在视差。因此，基于单个深度的全局变换可能无法实现准确的图像对准。处理器920除了估计的全局变换参数之外，还可使用估计的视差信息。

存储器930可临时地或永久地存储用于执行在此描述的图像恢复方法所需的数据。例如，存储器930可存储视点图像、输入图像信息、扭曲图像信息以及输出图像。另外，存储器930可存储特征提取模型及其参数、扭曲模型及其参数和图像恢复模型及其参数。每个模型的参数可被预先训练。如上所述，图像恢复模型可以是包括对输入数据应用卷积滤波的至少一个卷积层的神经网络，模型的参数可以是连接权重。

图10示出根据示例实施例的计算装置的示例。

计算装置1000可以是被配置为使用以上描述的图像恢复方法来生成高分辨率图像的装置。根据示例实施例，计算装置1000可对应于以上参照图9描述的图像恢复装置900。计算装置1000可以是移动终端(例如，图像处理装置、智能手机、可穿戴装置、平板计算机、上网本、膝上型计算机、台式计算机、个人数字助理(PDA)、头戴式显示器(HMD)、相机装置等)。计算装置1000还可由设置在例如车辆、无人机、闭路电视(CCTV)等中的视觉相机装置来实现。另外，计算装置1000可由例如用于视频通话的网络摄像机装置、用于拍摄360度(°)图像的虚拟现实(VR)相机装置、VR以及增强现实(AR)相机装置等来实现。

参照图10，计算装置1000包括处理器1010、存储装置1020、相机1030、输入装置1040、输出装置1050以及网络接口1060。处理器1010、存储装置1020、相机1030、输入装置1040、输出装置1050以及网络接口1060可通过通信总线1070彼此通信。

处理器1010可执行计算装置1000中的功能和指令。例如，处理器1010可处理存储在存储装置1020中的指令。处理器1010可执行以上参照图1至图9描述的操作中的一个或多个或全部。

存储装置1020可存储用于处理器1010处理所需的信息或数据。存储装置1020可包括非暂时性计算机可读存储介质或装置。存储装置1020可存储将由处理器1010执行的指令，并且在软件或应用正由计算装置1000执行的同时存储有关信息。

相机1030可拍摄多个输入图像。尽管在此使用静止图像来表示图像，但是图像不限于静止图像。相机1030可拍摄各自包含一或多个图像帧的多个图像。例如，相机1030可生成与多个透镜中的每个对应的帧图像。在该示例中，计算装置1000可使用以上描述的特征提取模型、扭曲模型和图像恢复模型从分别与单独的帧对应的多个输入图像生成每个帧的高分辨率输出图像。

输入装置1040可通过触觉输入、视频输入、音频输入或触摸输入从用户接收输入。输入装置1040可包括例如键盘、鼠标、触摸屏、麦克风和可检测来自用户的输入并发送检测到的输入的其它装置。

输出装置1050可通过视觉通道、听觉通道或触觉通道向用户提供计算装置1000的输出。输出装置1050可包括例如显示器、触摸屏、扬声器、振动发生器和可向用户提供输出的其它装置。网络接口1060可通过有线网络或无线网络与外部装置通信。根据示例实施例，输出装置1050可向用户提供通过使用视觉信息、听觉信息和触觉信息中的至少一个处理数据而获得的结果。例如，计算装置1000可通过显示器可视化生成的高分辨率输出图像。

在此描述的单元可使用硬件组件和软件组件来实现。例如，硬件组件可包括麦克风、放大器、带通滤波器、音频数字转换器、非暂时性计算机存储器以及处理装置。处理装置可使用一个或多个通用计算机或专用计算机(诸如，以处理器、控制器和算术逻辑单元(ALU)、数字信号处理器、微计算机、现场可编程门阵列(FPGA)、可编程逻辑单元(PLU)、微处理器为例)或能够以定义的方式响应并执行指令的任何其它装置来实现。处理装置可运行操作系统(OS)和在OS上运行的一个或多个软件应用。处理装置还可响应于软件的执行来访问、存储、操纵、处理和创建数据。为了简单起见，处理装置的描述被用作单数；然而，本领域技术人员将理解，处理装置可包括多个处理元件和多种类型的处理元件。例如，处理装置可包括多个处理器或处理器和控制器。另外，不同的处理配置是可行的(诸如，并行处理器)。

软件可包括计算机程序、代码段、指令或它们的一些组合，以独立地或共同地指示或配置处理装置如期望的那样进行操作。软件和数据可永久地或暂时地体现在任何类型的机器、组件、物理或虚拟设备、计算机存储介质或装置中，或者永久地或暂时地体现在能够将指令或数据提供到处理装置或者能够由处理装置解释的传播信号波中。软件还可被分布在联网的计算机系统上，使得软件以分布式的方式来存储和执行。软件和数据可由一个或多个非暂时性计算机可读记录介质来存储。非暂时性计算机可读记录介质可包括可存储其后可由计算机系统或处理装置读取的数据的任何数据存储装置。

示例实施例包括非暂时性计算机可读介质，该非暂时性计算机可读介质包括用于实现由计算机体现的各种操作的程序指令。介质还可单独地或与程序指令组合地包括数据文件、数据结构、表等。介质和程序指令可以是为了示例实施例的目的而专门设计和构造的那些介质和程序指令，或者它们可以是计算机软件领域的技术人员公知和可用的类型。非暂时性计算机可读介质的示例包括磁介质(诸如，硬盘、软盘和磁带)、光学介质(诸如，CD-ROM盘)、磁光介质(诸如，光软盘)以及被专门配置为存储和执行程序指令的硬件装置(诸如，只读存储器(ROM)和随机存取存储器(RAM))。程序指令的示例包括机器代码(诸如，由编译器产生的机器代码)和包含可由计算机使用解释器执行的高级代码的文件两者。描述的硬件装置可被配置为充当一个或多个软件模块，以便执行以上描述的示例实施例的操作，或者反之亦然。

在此描述的示例将被认为仅是描述性的，而不是出于限制的目的。每个示例中的特征或方面的描述将被认为可适用于其它示例中的类似特征或方面。如果描述的技术以不同的次序被执行，和/或如果描述的系统、架构、装置或电路中的组件以不同的方式被组合，和/或由其它组件或它们的等同物替换或补充，则可实现合适的结果。

虽然本公开包括特定的示例，但是对于本领域普通技术人员来说将清楚，在不脱离权利要求和它们的等同物的范围的情况下，可在这些示例中进行形式和细节上的各种改变。

Claims

1.一种图像恢复方法，包括：

获得包括多个视点中的每个的相应的输入图像信息的输入数据；

基于获得的输入数据估计所述多个视点中的每个的相应的全局变换参数；

基于获得的输入数据估计所述多个视点中的每个的相应的视差信息；

通过使用相应的全局变换参数和相应的视差信息扭曲相应的输入图像信息来生成所述多个视点中的每个的相应的扭曲图像信息；和

使用图像恢复模型从生成的所述多个视点中的每个的相应的扭曲图像信息生成输出图像。

2.根据权利要求1所述的图像恢复方法，其中，获得输入数据的步骤包括：

通过布置在不同位置处的多个透镜拍摄多个视点图像；和

从拍摄的所述多个视点图像获得所述多个视点中的每个的相应的输入图像信息，并且

其中，获得所述多个视点中的每个的相应的输入图像信息的步骤包括：

使用特征提取模型从所述多个视点图像中的每个提取相应的输入特征图作为相应的输入图像信息。

3.根据权利要求1所述的图像恢复方法，其中，生成所述多个视点中的每个的相应的扭曲图像信息的步骤包括：

通过使用相应的全局变换参数将相应的输入图像信息变换到与目标视点对应的目标图像信息的像素坐标系，来生成相应的变换图像信息；和

通过使用相应的视差信息校正生成的相应的变换图像信息相对于目标图像信息的视差，来生成相应的扭曲图像信息，

其中，使用相应的全局变换参数进行变换的步骤包括：

使用与参考视差对应的单个深度，将相应的输入图像信息的所有像素扭曲到目标图像信息的像素坐标系，

其中，扭曲的步骤包括：

使用相应的全局变换参数计算相应的输入图像信息中的与目标图像信息的像素坐标系中的位置对应的坐标；

在相应的输入图像信息中获得计算的坐标的像素值；和

将相应的变换图像信息中的位置的像素值设置为与获得的像素值相等。

4.根据权利要求2至3中的任一项所述的图像恢复方法，其中，生成相应的扭曲图像信息的步骤包括：

通过扭曲从所述多个视点图像中的每个提取的特征图来生成扭曲特征图。

5.根据权利要求1至3中的任一项所述的图像恢复方法，其中，估计相应的全局变换参数的步骤包括：

通过全局池化操作获得从输入数据去除了空间维度分量的信息；和

基于去除了空间维度分量的信息获得相应的全局变换参数，

其中，获得相应的全局变换参数的步骤包括：

将与卷积神经网络的至少一个全连接层相关的操作应用于去除了空间维度分量的信息。

6.根据权利要求1至3中的任一项所述的图像恢复方法，其中，估计相应的视差信息的步骤包括：

针对相应的视点中的多个像素中的每个，通过对从输入数据提取的特征数据执行至少一个卷积滤波来估计相应的像素视差信息，

其中，估计相应的像素视差信息的步骤包括：

以与输入数据的分辨率相同的分辨率获得相应的像素视差信息。

7.根据权利要求1至3中的任一项所述的图像恢复方法，其中，输入数据包括多个像素，并且

其中，生成输出图像的步骤包括：

在不感测与所述多个像素中的每个对应的对应的目标点的深度的情况下生成输出图像。

8.根据权利要求2至3中的任一项所述的图像恢复方法，其中，输出图像的分辨率大于所述多个视点图像中的每个的相应的分辨率。

9.一种图像恢复装置，包括：

存储器，被配置为存储图像恢复模型；和

处理器，被配置为：

获得包括多个视点中的每个的相应的输入图像信息的输入数据，

基于获得的输入数据估计所述多个视点中的每个的相应的全局变换参数，

基于获得的输入数据估计所述多个视点中的每个的相应的视差信息，

通过使用相应的全局变换参数和相应的视差信息扭曲相应的输入图像信息来生成针对所述多个视点中的每个的相应的扭曲图像信息，以及

使用图像恢复模型从所述多个视点中的每个的生成的相应的扭曲图像信息生成输出图像。

10.一种相机装置，包括：

透镜阵列，包括：多个透镜，所述多个透镜中的每个与多个视点中的相应的视点对应；

感测阵列，包括：多个感测元件，所述多个感测元件被配置为感测穿过透镜阵列的光，感测阵列被划分为与所述多个透镜对应的多个感测区域；和

处理器，被配置为：

获得包括所述多个视点中的每个的相应的输入图像信息的输入数据，

通过使用相应的全局变换参数和相应的视差信息扭曲相应的输入图像信息来生成所述多个视点中的每个的相应的扭曲图像信息，以及