CN114257759B

CN114257759B - 用于图像补全的系统

Info

Publication number: CN114257759B
Application number: CN202111109973.5A
Authority: CN
Inventors: 维姆·阿贝洛斯; 加布里埃尔·奥思迈祖里; 马里千; 斯塔马蒂奥斯·格奥尔古利斯; 卢克·范古尔
Original assignee: Katholieke Universiteit Leuven; Eidgenoessische Technische Hochschule Zurich ETHZ; Toyota Motor Corp
Current assignee: Katholieke Universiteit Leuven; Eidgenoessische Technische Hochschule Zurich ETHZ; Toyota Motor Corp
Priority date: 2020-09-22
Filing date: 2021-09-18
Publication date: 2024-05-10
Anticipated expiration: 2041-09-18
Also published as: EP3971821A1; JP2022051700A; CN114257759A; JP7281754B2; US20220092746A1

Abstract

公开了一种用于图像补全的系统。该系统包括：坐标生成模块，该坐标生成模块被配置为接收具有第一视场的过去帧和当前帧，并生成一组坐标图，一个坐标图用于所接收的过去帧中的每一个；以及帧聚合模块，该帧聚合模块被配置为接收过去帧、当前帧和坐标图作为输入，并且基于所述输入合成具有第二视场的当前帧。

Description

用于图像补全的系统

技术领域

本公开涉及一种用于图像补全(completion)的系统。

背景技术

在追求智能机器感知中，有必要赋予系统(如自主汽车和机器人)超越其立即可见视场(field-of-view，FoV)的场景内容感知能力。这需要将这些系统训练和配置为根据过去的信息预测附加FoV信息，例如利用来自过去狭窄FoV帧的信息来推断更宽FoV处的当前场景。

据本申请的发明人所知，现有技术中从未解决过从窄FoV至宽FoV的FoV外推。可以预想到解决这个问题的一些挑战。首先，输入窄FoV帧和输出宽FoV帧之间可能存在较大的图像大小差异。在视频输出中实现足够的时间一致性的同时，必须消除这种差异。第二，宽FoV帧中的某些区域可能显著变化，甚至可能根本不会出现在过去的窄FoV帧中的任何一个中。因此，在宽FoV帧中需要幻构许多细节。并且第三，窄FoV帧中包含的信息和宽FoV地面真值之间可能存在模糊性。根据帧区域而变化的这种模糊性可能误导预测训练过程。

现有技术中的相关问题可以在基于视频的图像合成领域中找到。例如，视频修复的旨在在窄FoV帧中幻构根据可见像素调节的缺失像素。类似地，未来视频预测集中在根据过去和现在的帧幻构未来帧，所有这些在窄FOV内。

视频外推一般采用基于2D或3D几何图形的图像扭曲和拼接技术来混合相邻窄FoV帧的所观察的像素，以扩展FoV。然而，视频外推不能解决在窄FoV中没有观察到的像素的问题。

新颖的视图合成旨在通过混合所观察的像素从不同的视点生成给定对象或场景的图像，以及对主要用于去除遮蔽的几个缺失像素进行幻构。该技术非常依赖高精度的多视图几何图形来产生良好的结果，尤其是在应用于视频场景时。

发明内容

本公开提供了一种用于图像补全的系统，包括：

坐标生成模块，该坐标生成模块被配置为接收第一过去帧和第一当前帧，第一过去帧和第一当前帧具有第一视场(FoV)，并且生成一组坐标图，一个坐标图用于所接收的第一过去帧和第一当前帧中的每一个，其中对应于第一过去帧的坐标图提供第一过去帧到第一当前帧的坐标系的空间映射；

帧聚合模块，该帧聚合模块被配置为接收第一过去帧、第一当前帧和坐标图作为输入，并且基于所述输入合成具有第二FoV的第二当前帧。

根据实施例，第一和第二FoV可以相等或不同。

在实施例中，第二FoV大于第一FoV。例如，第二FoV可以具有比第一FoV更大的像素宽度和/或长度。

根据应用，第一FoV可以被视为“窄FoV”，以及第二FoV可以被视为“宽FoV”。

在实施例中，第一FoV和第二FoV可以在初始化时被指定为系统的参数。

通过坐标图，坐标生成模块因此能够将包含在过去帧中的信息传播到第一当前帧的坐标系。这允许来自过去帧的信息与来自第一当前帧的信息相结合。具体而言，帧聚合模块使用坐标图来适当地扭曲来自过去帧的信息，以实现它们的最终组合。

在实施例中，坐标生成模块可以包括：

深度网络，该深度网络被配置为接收第一过去帧，并为所接收的第一过去帧中的每一个生成深度图；

姿态网络，该姿态网络被配置为接收由所接收的第一过去帧和第一当前帧形成的时间相邻帧的帧对，并为所接收的帧对中的每一个生成相对相机姿态；以及

坐标计算模块，该坐标计算模块被配置为基于深度网络和姿态网络的输出来生成该组坐标图。

用于给定帧的深度图指示，对于帧中的每个像素，相机和由像素代表的对象之间的距离的估计值。

对应于时间相邻帧(I_t-i,I_t-i+1)的相对相机姿态p_t-i代表相机位置从时间(t-j)到时间(t-j+1)的相对旋转和平移的估计值。

在实施例中，坐标计算模块可以被配置为，对于每个第一过去帧，计算从第一当前帧到过去帧的刚性流，并且基于所计算的刚性计算用于第一过去帧的坐标图。从第一当前帧到第一过去帧的刚性流指示将被应用于第一当前帧的像素以将第一当前帧扭曲到第一过去帧的相应像素位移。

在实施例中，帧聚合模块可以被配置为使用由坐标生成模块生成的该组坐标图，将包含在所接收的第一过去帧中的信息传播到第一当前帧的坐标系。

在实施例中，帧聚合模块可以包括：

编码器，该编码器被配置为基于第一过去帧和第一当前帧中的每一个生成多个特征图；

扭曲模块，该扭曲模块被配置为，对于第一过去帧和第一当前帧中的每一个，使用与所述每一帧相关联的相应坐标图来扭曲与所述每一帧相关联的多个特征图，以生成用于所述每一帧的多个扭曲特征图；以及

基于注意力的特征聚合(attention-based feature aggregation，AFA)模块，该基于注意力的特征聚合模块被配置为在所有第一过去帧和第一当前帧上聚合所生成的扭曲特征图，以生成一组聚合特征图。

在实施例中，AFA模块可以被配置为在聚合中针对第一过去帧和第一当前帧中的每个帧，基于帧相对于第一当前帧的定时强调帧的区域特定的特征。

在实施例中，AFA模块可以被配置为对于(第一过去帧和第一当前帧中的)较旧的帧，强调距帧的中心更远的帧区域(例如，距中心超过预定距离的区域)；并且对于较新的帧，强调帧的中心附近的帧区域(例如，距中心小于预定距离的区域)。这种聚合方案背后的见解是，相比于在较近的帧中，在较旧的帧中更有可能观察到距中心较远的帧区域，并且具有较低的深度/姿态误差。相比之下，相比于在较旧的帧中，在较近的帧中更有可能观察到帧的中心附近的帧区域，并且具有较低的深度/姿态误差。由此，提高了对深度/姿态误差的鲁棒性。

在实施例中，AFA模块可以被配置为，对于第一过去帧和第一当前帧中的每个帧：

为与所述每个帧相关联的扭曲特征图中的每一个生成相应的逐帧空间注意力图；以及

将与所述每帧相关联的扭曲特征图中的每一个与相应的空间注意力图相乘，以生成相应的特征图。

在实施例中，AFA模块还可以被配置为在所有第一过去帧和第一当前帧上对所生成的相应特征图进行求和，以生成该组聚合特征图。

在实施例中，帧聚合模块还可以包括U-net模块，该U-net模块被配置为基于该组聚合特征图生成具有第二FoV的第二当前帧。

在实施例中，该U-net模块可以包括：

上下文归一化子模块，该上下文归一化子模块被配置为接收该组聚合特征图，并扩展修复(out-paint)第二当前帧的落在第一当前帧的视场之外的区域；

解码器子模块，该解码器子模块被配置为接收由上下文归一化子模块输出的特征图，并且处理由上下文归一化子模块输出的所述特征图以修复落入第一当前帧的视场内的(在第一过去和/或第一当前帧中的)遮挡或未观察到的区域；以及

门控自注意力(gated self-attention，GSA)子模块，该门控自注意力子模块被配置为接收由解码器子模块输出的特征图，并在空间上聚合由解码器子模块输出的所述特征图。

在实施例中，GSA子模块可以被配置为基于根据特征向量(或像素)在帧中的空间位置每特征向量(即，每像素)动态生成的权重，在空间上聚合由解码器子模块输出的特征图。

在实施例中，具有第二FoV的估计的帧和与这个第二FoV相关联的地面真值之间的模糊性水平可以在第二FoV帧中的一个区域到另一区域间不同(即，模糊性水平和位置之间存在相关性)。由此，基于根据位置动态生成的权重来聚合特征图允许基于被聚合的特征向量的模糊性水平来动态地调整特征聚合。因此，模糊性的影响被减少，从而提高了特征聚合性能。

在实施例中，所提出的系统可以包括幻构不确定性模块，该幻构不确定性模块被配置为生成与第二当前帧相关联的不确定性图。

通过生成与第二当前帧相关联的不确定性图，幻构不确定性模块提供了解释第二当前帧的每个像素处的幻构不确定性的机制。这可以帮助使用图像补全系统的系统更好地处理由图像补全系统生成的任何附加FoV信息。这种系统可以是决策系统，诸如自动驾驶汽车、自主机器人和VR/AR系统，仅举几个例子。

在训练期间，不确定性图可以用于对损失函数进行空间加权，以减少监督不匹配(监督不匹配是预测结果和地面真值之间的不匹配；空间位移可能导致监督失配很大，即使预测结果在视觉上是可接受的，从而导致训练收敛困难)。具体而言，不确定性图对损失函数的加权减弱了具有高幻构不确定性的像素对损失函数值的影响，并有助于调和训练目标。

在实施例中，幻构不确定性模块可以被配置为生成不确定性图，以最小化包含幻构不确定性的损失函数。

在实施例中，幻构不确定性模块可以被配置为基于预测第二当前帧中将具有高幻构不确定性的区域和将具有低幻构不确定性的那些区域来生成不确定性图。

在实施例中，由深度网络和帧聚合模块接收的第一过去帧的一部分可以被由帧聚合模块生成并对应于第一过去帧的所述部分的第二过去帧(具有第二FoV)代替。这有助于提高所生成的宽FoV帧视频中的时间一致性(即颜色和结构抖动)。

在实施例中，在将第二过去帧提供给帧聚合模块之前，第二过去帧可以各自与由幻构不确定性模块生成的相应不确定性图级联。由此，不确定性图被用于将置信度信号引入帧聚合模块的输入，该置信度信号反映了第二过去帧中的每一个的估计置信度水平。这允许系统考虑每估计的第二过去帧的每像素幻构不确定性。

在实施例中，上述特征中的任何一个可以被实施为计算机程序的指令。由此，本公开提供了一种包括指令的计算机程序，当由处理器执行时，这些指令使得处理器实施如上所述的用于图像补全的系统。

计算机程序可以使用任何编程语言，并且可以采取源代码、目标代码或介于源代码和目标代码之间的代码的形式，诸如部分编译的代码，或者任何其他期望的形式。

计算机程序可以记录在计算机可读介质上。因此，本公开还涉及其上记录有如上所述的计算机程序的计算机可读介质。计算机可读介质可以是能够存储计算机程序的任何实体或设备。

附图说明

从下面参考附图仅作为说明而非限制给出的对本公开的某些实施例的描述中，本公开的另外的特征和优点将变得显而易见，在附图中：

图1示出了根据实施例的示例图像补全系统；

图2示出了图1的系统的示例计算机实施方式；

图3示出了根据实施例的示例坐标生成模块；

图4示出了根据实施例的示例帧聚合模块；

图5示出了根据实施例的在帧聚合模块中使用的示例基于注意力的特征聚合(AFA)模块；

图6示出了根据实施例的在帧聚合模块中使用的示例U-net；

图7A示出了示例窄FoV帧；

图7B示出了根据实施例的基于图7A的示例窄FoV帧生成的示例注意力图；以及

图8是示出了相对于宽FoV地面真值的估计宽FoV帧中的模糊性的示例。

具体实施方式

图1示出了根据本公开的实施例的用于图像补全的示例系统100。提供示例系统100是为了说明而不是限制本公开的实施例的目的。

如图1所示，示例系统100基于包括坐标生成模块102和帧聚合模块104的两级递归框架。还可以提供幻构不确定性模块106。

坐标生成模块102被配置为接收第一过去帧108和第一当前帧116，并生成一组坐标图110，每个所接收的第一过去帧一个坐标图。对应于第一过去帧的坐标图提供了第一过去帧到第一当前帧的空间映射。在实施例中，第一过去帧108和第一当前帧116具有第一FoV(例如，208×128个像素)。

帧聚合模块104被配置为从模块102接收第一过去帧108和第一当前帧116以及坐标图110。帧聚合模块104被配置成基于所接收的输入合成第二当前帧112。在实施例中，第二当前帧112具有第二FoV。

第二FoV可以等于或不同于第一FoV。在实施例中，第二FoV大于第一FoV。例如，第二FoV可以具有比第一FoV更大的像素宽度和/或长度。例如，在第一FoV是208×128个像素的情况下，第二个FoV可以是416×128个像素。

在实施例中，为了提高所生成的第二帧(具有第二FoV)中的时间一致性，输入到模块102和104中的第一过去帧的一部分可以用由帧聚合模块104生成的它们相对应的第二帧来替换。

帧聚合模块104可以被配置为使用坐标图110将包含在过去帧(其包括第一过去帧，并且可选地还包括第二过去帧)中的信息传播到第一当前帧的坐标系。

在实施例中，帧聚合模块104可以被配置为基于每个输入帧生成多个特征图。特征图可以是多尺度特征图。

帧聚合模块104可以使用对应于给定过去帧的坐标图110来扭曲(warp)与过去帧相关联的多个特征图。对于第一当前帧，因为它已经在正确的坐标系中，所以不需要扭曲，并且扭曲特征图对应于原始特征图。

随后，帧聚合模块104可以被配置为聚合所有帧上的扭曲特征图，以生成聚合特征图。在实施例中，扭曲特征图的聚合使用基于注意力的特征聚合方案。基于注意力的特征聚合方案被训练来学习在帧当中选择有用的特征，以便解决由深度/姿态误差(即坐标图中的误差)和由帧不一致引起的问题。这在特征级上改善了多帧信息的融合。

帧聚合模块104可以被配置为基于聚合特征图生成第二当前帧112。

在实施例中，帧聚合模块104可以使用基于上下文归一化的技术来扩展修复(外推)落在第一FoV之外的区域。

在实施例中，帧聚合模块104可以使用门控卷积技术来修复(补全)落入第一FoV内的被遮挡或未被观察到的区域。

在实施例中，帧聚合模块104可以实施门控自注意力(GSA)机制，以允许系统适应于具有不同模糊性水平的观察。GSA机制可以被配置为基于根据局部信息动态生成的权重(模糊性因区域而异)来空间聚合特征图。

在实施例中，帧聚合模块104可以实施不确定性机制。具体而言，幻构不确定性模块106可以被提供来生成与第二当前帧112相关联的不确定性图114。不确定性图用于解释每个像素处的幻构不确定性。在训练期间，不确定性图可以用于对损失函数进行空间加权，以减少监督不匹配(监督不匹配是预测结果和地面真值之间的不匹配；空间位移可能导致监督失配很大，即使预测结果在视觉上是可接受的，从而导致训练收敛困难)。具体而言，不确定性图对损失函数的加权减弱了具有高幻构不确定性的像素对损失函数值的影响，并有助于调和训练目标。

在实施例中，系统100可以在诸如图2中示出的计算机系统200的计算机系统上实施。具体而言，系统100及其模块和机制中的任何一个可以被实施为包括指令的计算机程序，这些指令当被计算机系统200的处理器202执行时，使得处理器202执行本文描述的系统100的方法或功能。在实施例中，计算机程序可以被记录在计算机系统200的计算机可读介质204上。

下面，参考图3至图8呈现系统100的详细操作。

不失一般性，将针对其中第二FoV比第一FoV更大(就宽度和/或长度而言)的特定实施例来描述系统100。例如，第一FoV可以是208×128个像素，并且第二FoV可以是416×128个像素。因此，为了简化，第一FoV将被称为“窄FoV”，以及第二FoV将被称为“宽FoV”。如基于本文中的教导本领域技术人员将理解的那样，实施例不受这个特定实施例限制。

为了简化呈现，从当前窄FoV帧I_t的用于生成当前宽FoV帧O_t的处理角度来描述系统100的操作。因此，系统100可以被认为是FoV外推系统。然而，如上所述，系统100不限于FoV外推。

图3示出了根据实施例的示例坐标生成模块300。提供示例坐标生成模块300是为了说明而不是限制本公开的实施例的目的。示例坐标生成模块300可以是坐标生成模块102的实施例。

如图3所示，坐标生成模块300包括深度网络302、姿态网络304和坐标计算模块306。

深度网络302被配置成接收多个过去帧。过去帧可能包括窄FoV帧和过去宽FoV帧。出于说明的目的，在以下描述中假设深度网络302接收k个帧。k个帧可以包括(k-j)个过去窄FoV帧(在图3中表示为I_t-k、……、I_t-j-1)和j个过去宽FoV帧(在图3中表示为O_t-j、……、O_t-1)。在实施例中，k可以等于5，以及j可以在1和5之间。

例如，过去帧可以是RGB帧、深度帧或语义分割帧。这些帧可以从相同的相机源或不同的相机源导出，并被转换为相同的相机参考。

深度网络302为所接收的k个帧中的每一个生成深度图d。在实施例中，深度网络302生成分别对应于过去窄FoV帧I_t-k、……、I_t-j-1的深度图d_t-k、……、d_t-j-1，并且生成分别对应于过去的宽FoV帧O_t-j、……、O_t-1的深度图d_t-j、……、d_t-1。

像素深度估计对于本领域技术人员来说是众所周知的，并且本文中将不描述。在实施例中，深度网络302可以被实施为完全卷积的U-ne，如“Clément Godard,Oisin Mac Aodha,Michael Firman,Gabriel Brostow,Digging into self-supervised monoculardepth estimation(自监督单目深度估计的研究),arXiv:1806.01260,in ICCV,2019”中详细描述的那样。具体而言，深度网络302可以包括众所周知的VGG16BN编码器和具有几个卷积层的解码器。输入可以是RGB图像帧(3个通道)，并且输出是相同分辨率的深度图(1个通道)。

姿态网络304接收k对窄FoV帧作为输入，并为k个帧对中的每一个生成相对相机姿态。在实施例中，k个帧对包括帧对(I_t-k,I_t-k+1)、……、(I_t-1,I_t)，即,在时间t(当前)窄FoV帧和k-1个过去窄FoV帧上的相邻帧对。所得到的相对相机姿态被表示为p_t-k、……、p_t-1。

对应于相邻窄FOV帧(I_t-i,I_t-i+1)的相对相机姿态p_t-i代表相机位置从时间(t-j)到时间(t-j+1)的相对旋转和平移的估计值。

相对相机姿态估计对于本领域技术人员来说是众所周知的，并且本文中将不描述。在实施例中，姿态网络304可以如“Clément Godard,Oisin Mac Aodha,Michael Firman,Gabriel Brostow,Digging into self-supervised monoculardepthestimation,arXiv:1806.01260,in ICCV,2019”中详细描述的那样来实施。具体而言，姿态网络304可以包括接收一对RGB图像(3+3通道)作为输入并产生6通道矢量作为输出的ResNet18编码器。

坐标计算模块306被配置为基于深度网络302和姿态网络304的输出来计算k个坐标图308。在实施例中，计算分别对应于(k-j)个过去窄FoV帧(I_t-k、……、I_t-j-1)的(k-j)个图(e_t-k、……、e_t-j+1)，和分别对应于j个过去宽FoV帧(O_t-j、……、O_t-1)的j个图(e_t-j、……、e_t-1)。

对应于过去(窄或宽FoV)帧的坐标图提供了过去帧到当前窄FoV帧I_t的空间映射。换句话说，坐标图为过去帧的每个像素指示其在当前帧I_t中的相对应的坐标。

在实施例中，用于过去帧I_i或O_i(i＝t-k、……、t-1)的坐标图通过首先根据下式计算从当前帧I_t到过去帧的刚性流矩阵而获得：

其中K表示相机的固有矩阵，表示从过去帧I_i到当前帧的相对相机姿态，c_i代表当前帧I_i中的像素的齐次(或投射)坐标的矩阵，并且D_i(c_i)代表位置c_i的深度值。

从当前帧I_t到过去帧的刚性流指示将应用于当前帧I_t的像素以将当前帧I_t扭曲到过去帧的相应像素位移。

使用所计算的刚性流，可以计算空间上匹配当前帧I_t和过去帧的坐标图坐标图/>可以通过将刚性流添加到常规2D网格(2个通道)中来获得(例如，是3×3的2D网格，其值为[[[1,1,1],[2,2,2],[3,3,3]],[[1,2,3],[1,2,3],[1,2,3]]])。最后，坐标图被反转以获得坐标图e_i，其在空间上将过去帧与当前的帧I_t匹配。在反转坐标图/>以获得坐标图e_i中，如果当前帧I_t的像素(x0,y0)在空间上与坐标图/>中过去帧的像素(u0,v0)匹配，则过去帧的像素(u0,v0)将在空间上与坐标图e_i中当前帧I_t的像素(x0,y0)匹配。

图4示出了根据实施例的示例帧聚合模块400。提供示例性帧聚合模块400是为了说明而不是限制本公开的实施例的目的。示例帧聚合模块400可以是帧聚合模块104的实施例。

如图4所示，示例帧聚合模块400包括编码器402、扭曲模块404、基于注意力的特征聚合(AFA)模块406和U-net模块408。

编码器402被配置为接收k+1帧作为输入。在初始化时，k+1个帧对应于k个过去窄FoV帧(即，I_t-1、……、I_t-k)，并对应于当前窄FoV帧I_t。在j次迭代之后，为了提高时间一致性，对应于过去窄帧{I_t-i}_i＝1,...,j的输入利用先前的输出{O_t-i}_i＝1,...,j以及它们的相关联的不确定性图{U_t-i}_i＝1,...,j替换(O_t-j和U_t-j可以逐通道彼此级联)。为了简化的目的，图4示出了已经进行了j次迭代后的编码器输入。

编码器402被配置成基于每个所接收的输入帧生成多个(N个)特征图410。

在实施例中，多个特征图410可以是多尺度特征图(即，具有不同的空间尺度或大小)。在实施例中，N可以等于3，尽管可以使用更大的数字。

在实施例中，编码器402可以包括被配置为基于输入帧生成第一特征图的第一卷积层。第一特征图可以是具有大小H×W×C的张量，其中H是帧高，W是帧宽，以及C是通道数量。例如，C可以等于128。第一特征图可以被称为“0级”特征图。

编码器402还可以包括第二卷积层，该第二卷积层被配置为接收第一特征图并基于第一特征图生成中间第二特征图。中间第二特征图可以具有大小H1×W1×C，其中H1和W1中的至少一个分别低于H和W。然后，中间第二特征图被添加到相同大小的第一特征图的缩小版本(即，H1×W1×C)，以生成具有大小H1×W1×C的第二特征图。第二特征图可以被称为“1级”特征图。

可以相对于第二特征图重复上述过程，以获得具有大小H2×W2×C的第三特征图，其中H2和W2中的至少一个分别低于H和W。第三特征图可以被称为“2级”特征图。

然后，为k+1个输入帧中的每一个生成的特征映射410被提供给扭曲模块404。

附加地，扭曲模块404从坐标计算模块306接收k个坐标图308。如上所述，k个坐标图308包括分别对应于(k-j)个过去窄FoV帧(I_t-k、……、I_t-j-1)的(k-j)个图(e_t-k、……、e_t-j+1)，和分别对应于j个过去宽FoV帧(O_t-j、……、O_t-1)的j个图(e_t-j、……、e_t-1)。

在实施例中，对于过去帧中的每一个(即，(k-j)个过去窄FoV帧(I_t-k、……、I_t-j-1)和j个过去宽FoV帧(O_t-j、……、O_t-1)中的每一个)，扭曲模块404可以被配置为使用对应于该帧的相应坐标图来将与该帧相关联的特征图410传播到当前窄FoV帧I_t。特征图410的传播根据坐标图来扭曲特征图410，以生成用于该帧的多个扭曲特征图412。

在实施例中，扭曲模块404使用如Jaderberg,Max,Karen Simonyan,and AndrewZisserman,"Spatial transformer networks,"In NIPS.2015中详细描述的双线性采样以基于坐标图308来传播多尺度特征图410。

注意，对应于当前窄FoV帧I_t的特征图410没有被扭曲模块404扭曲，因为它们已经在当前帧的坐标系中。由此，特征图412与用于当前窄FoV帧I_t的特征图410相同。

扭曲特征图412(其例如可以是不同的级，0级、1级和2级)然后被提供给AFA模块406，该模块被配置为在所有k+1个帧上聚合扭曲特征图412，以生成聚合特征图414。由窄FoV帧产生的扭曲特征图可以用零填充，以具有与由宽FoV帧产生的扭曲特征图相同的大小。

在实施例中，AFA模块406可以如图5所示实施，该图5示出了根据本公开的实施例的示例AFA模块500。提供示例AFA模块500仅仅是为了说明的目的，而不是对实施例的限制。

如图5所示，示例AFA模块500包括各自被配置为接收对应于k+1个帧中的给定帧的扭曲特征图412(例如，0级、1级和2级)的多个通道。

在每个通道内，相应帧的扭曲特征图412各自被馈送到卷积层502，随后是softmax归一化模块504，以生成相应的逐帧空间注意力图506。在实施例中，生成0级空间注意力图、1级空间注意力图和2级空间注意力图。出于说明目的，图7B示出了对应于图7A中示出的示例窄FoV帧的序列的示例0级注意力图。

扭曲特征图412中的每一个然后乘以其相应空间注意力图506，以生成相应特征图508。因此，对于每个帧，获得多个特征图508(例如，0级、1级和2级)。

如上所述的空间注意力图的使用允许聚焦或选择每个帧的特定特征，以便随后与其他帧的聚合。在实施例中，空间注意力图506被配置为对于k+1个帧中的较旧帧(例如帧t-k到t-j-1)强调距帧的中心更远的帧区域(例如距中心超过预定距离的区域)；并且对于k+1个帧中的较新帧(例如，帧t-j到t)强调帧的中心附近的帧区域(例如距中心小于预定距离的区域)。

然后在所有帧上对所得到的特征图508求和，以生成聚合特征图414。在实施例中，这包括在所有帧上将所有0级特征图508一起求和、将所有1级特征图508一起求和、以及将所有2级特征映射508一起求和。

回到图4，聚合特征图414然后被提供给U-net模块408。U-net模块408被配置成基于聚合特征图414合成当前宽FoV帧O_t。附加地，在实施例中，U-net模块408还输出与宽FoV帧O_t相关联的不确定性图U_t。不确定性图用于解释(说明)每个像素处的幻构不确定性，并通过减少监督模糊性来指导学习。

在实施例中，U-net模块408实施用于幻构缺失区域的机制，例如通过修复(补全)落在窄FoV内的被遮挡或未被观察到的区域和/或扩展修复(外推)落在窄FoV外的区域。图像修复和扩展修复是本领域已知的技术。具体而言，图像修复旨在通过扭曲幻构缺失像素，或者生成根据相邻(空间或时间维度)可见像素而调节的缺失像素。图像扩展修复通常采用基于2D或3D几何图形的图像扭曲和拼接技术来混合相邻窄FoV帧的观察到的像素，以扩展FoV。

可选地，U-net模块408可以包括门控自注意力(GSA)机制。GSA机制的动机是通常估计的宽FoV帧和宽FoV地面真值之间的模糊性水平在宽FoV帧中的一个区域到另一区域间不同。例如，如图8所示，宽FoV帧中的像素可以大致分为四个类别：(a)当前帧中观察到的窄FoV像素(例如帧的区域802)，对于这些像素没有模糊性；(b)来自具有精确传播的过去帧的所传播的像素(例如区域806a和806b)，对于这些像素模糊性较低；(c)来自具有噪声传播的过去帧的所传播的像素(例如，区域808a和808b)，其特征在于中等模糊性水平；以及(d)对应于未观察到的区域(例如区域804)的像素，对于这些像素模糊性水平较高。如下文进一步描述的那样，GSA机制被配置为确保模型可适用于具有不同模糊性水平的观察。

在实施例中，U-net模块408可以如图6所示实施，该图6示出了根据本公开的实施例的示例U-net模块600。提供示例U-net模块600仅仅是为了说明的目的，而不是对实施例的限制。

如图6所示，U-net模块600包括瓶颈模块604和解码器模块618。

在实施例中，瓶颈模块604包括多个连续的层604-1、…、604-6。6个层604-1、…、604-6可以各自被实施为残差扩张卷积层。这种层可以通过等式y＝x+conv(x)来描述，其中y是层输出，x是层输入，以及conv(x)表示输入x的扩张卷积。

在实施例中，解码器模块618包括上下文归一化子模块608、解码器子模块610、门控自注意力(GSA)子模块612和上采样模块614。

上下文归一化子模块608可以被配置为扩展修复(外推)落在窄FoV之外的区域。

在实施例中，子模块608包括多个上下文归一化层608-1、608-2和608-3。在实施例中，归一化层608-1、608-2和608-3各自可以如“Y.Wang,X.Tao,X.Shen and J.Jia,"Wide-Context Semantic Image Extrapolation,"in 2019IEEE/CVF Conference on ComputerVision and Pattern Recognition(CVPR),Long Beach,CA,USA,2019pp.1399-1408”中描述的那样实施。由此，层608-1、608-2和608-3可以被配置成将平均值和方差从观察到的区域特征转移到未观察到的区域特征。

然而，与在Wang等人中不同，其中在输入中给出掩码的情况下，可以使用在传播过去帧之后指示未观察到的区域的聚合掩码。由此，可以认识到，在过去帧中已经观察到大量的宽视角信息，并且这个信息可以简单地传播到当前宽FoV帧中，而不是被幻构。

解码器子模块610可以被配置成修复(补全)落在窄FoV内的被遮挡或未被观察到的区域。

在实施例中，子模块610包括多个解码器层610-1、610-2、610-3和610-4。解码器层610-1、610-2、610-3和610-4中可以各自被实现为如“Jiahui Yu,Zhe Lin,Jimei Yang，Xiaohui Shen，Xin Lu，Thomas S.Huang，“Free-form image inpainting with gatedconvolution，”in Proceedings of the IEEE/CVF International Conference onComputer Vision(ICCV)，2019，pp.4471-4480”中所述的门控卷积层。

GSA子模块612可以被配置为利用自注意力来执行特征聚合。具体而言，与使用固定预训练权重的卷积核(以组合来自附近位置的特征)来执行特征聚合的传统卷积算子不同，子模块612可以被配置为基于特征向量的位置来动态地生成每特征向量(即，每个像素)的核权重。在实施例中，由于模糊性与位置直接相关(如上文参考图8所述)，所以可以基于被聚合的特征向量的模糊性水平来动态地调整每特征向量的核权重。因此，模糊性的影响被减少，从而提高了特征聚合性能。

在实施例中，GSA子模块612包括多个GSA层612-1、612-2和612-3。GSA层612-1、612-2和612-3可以各自被实施为如“Hengshuang Zhao，Jiaya Jia，and Vladlen Koltun，“Exploring self-attention for image recognition，”In Conference on ComputerVision and Pattern Recognition(CVPR)，2020”中所述的逐片的自注意力块。具体而言，逐片的自注意力块可以由以下等式描述：

其中α(x_R(i))_j＝γ(δ(x_R(i)))，y_i表示新的聚合特征，R(i)表示聚合覆盖区(例如，3×3或7×7个像素)，x_R(i)表示对应于聚合覆盖区中的特征向量片的张量，α(x_R(i))j表示在张量α(x_R(i))中位置j处的注意向量(即，权重向量)并且在空间上对应于张量x_R(i)中的特征向量x_j，β是生成特征向量β(x_j)的函数，并且⊙是Hadamard积。

函数β和γ是分别经由一个卷积层实施的映射。函数δ组合来自片x_R(i)的特征向量x_j，并且可以使用级联操作来实施。

在实施例中，为了减少训练期间消失梯度的影响，自注意力块可以被以下残差结构包(wrap)：z＝Conv_r(y)+x，其中Conv_r表示残差卷积层，y是自注意力块的输出，以及x是自注意力块的输入。

在另一实施例中，自注意力还可以包括门控机制以处理具有高模糊性的区域，表述为：

g＝sigmoid(Conv_g(z))⊙tanh(Conv_a(z))

其中Conv_g和Conv_a表示门控卷积层和注意力卷积层。门控机制控制信息在网络中流动通过的(多个)路径。特别地，在实施例中，门控机制可以被配置为仅允许模糊性高于某一水平的特征向量流过网络和/或限制模糊性高于某一水平的特征向量的流动。因此可以提高图像质量。

在实施例中，瓶颈模块604可以被配置为经由第一层604-1接收聚合特征图602-1作为输入，并且生成经修改的聚合特征图606。特征图602-1可以是具有大小(H/4×W/4×C)的2级聚合特征图，其中H是帧高度，W是帧宽度，以及C是通道数量。特征图606可以具有与特征图602-1相同的大小。

上下文归一化层608-1、608-2和608-3被配置成接收相应聚合特征图602-1、602-2和602-3。聚合特征图602-1、602-2和602-3可以分别对应于2级、1级和0级聚合特征图。作为示例，特征图602-1可以具有大小(H/4×W/4×C)，特征图602-2可以具有大小(H/2×W/2×C)，以及特征图602-3可以具有大小(H×W×C)，其中H是帧高度，W是帧宽度，以及C是通道数量。

在实施例中，上下文归一化层608-1、608-2和608-3被配置为分别馈送解码器层610-1、610-2和610-3，这些解码器层又被配置为分别馈送GSA层612-1、612-2和612-3。

在接收上下文归一化层608-1、608-2和608-3的相应输出的同时，解码器层610-1、610-2和610-3还分别接收瓶颈模块604的输出606、GSA层612-1的输出(由上采样模块614-1上采样)和GSA层612-2的输出(由上采样模块614-2上采样)作为输入。例如，解码器层610-1、610-2和610-3的组合输入可以具有大小(H’x W’x 2C)，并且这些层的输出可以具有大小(H’x W’x 2C)，其中对于层610-1、610-2和610-3，H’分别＝H/4、H/2和H，以及W’分别＝W/4、W/2和W。

解码器层610-4接收GSA层612-3的输出作为输入，并生成包括当前宽FoV帧O_t的输出616。

回到图1，如上所提及那样，在实施例中，系统100可以包括幻构不确定性模块106。具体而言，幻构不确定性模块106可以被提供来生成与所生成的宽FoV帧112相关联的不确定性图114。不确定性图用于解释宽FoV帧的每个像素处的幻构不确定性。

附加地，不确定性图可以用于通过衰减具有高幻构不确定性的像素对损失函数值的影响来调和训练目标，从而减少监督失配并加快训练收敛。

在实施例中，幻构不确定性模块106可以被训练成基于预测宽FoV帧中将具有高幻构不确定性的区域和将具有低幻构不确定性的那些区域来生成不确定性图。所生成的不确定性图通过为宽FoV帧的每像素分配估计的幻构不确定性来反映这个预测。

在实施例中，幻构不确定性模块106可以被训练成生成不确定性图114，以最小化包含幻构不确定性的损失函数。

在实施例中，包含幻构不确定性的损失函数是像素级重建L1损失函数。

在实施例中，包含幻构不确定性的损失函数由下式给出：

其中O_t是当前宽FoV帧，W_t是地面真值宽FoV帧，U_t是与O_t相关联的预测的不确定性图，M_view是超窄视图区域的掩码，并且⊙算子表示逐元素乘法。损失函数按像素计算，并且然后在所有像素上被平均。

根据上面的等式，注意到由(1-M_view)给出的窄FoV区域没有被不确定性图U_t加权。这是因为这个区域对应于在窄FoV帧中观察到的像素。最右的U_t项是正则化项，其有助于稳定损失梯度。

在实施例中，为了使不确定性U_t更易于解释并进一步稳定训练过程，使用sigmoid函数将U_t约束在范围(0，1)内。

附加地，如图4所示，先前生成的不确定性图{U_t-i}_i＝1...j可以在当前输入中用于充当置信度信号。在实施例中，这通过将过去的不确定性图与各个过去的估计的宽FoV帧级联来完成。

尽管上面已经参照某些特定实施例描述了本发明，但是应当理解的是，本发明不受特定实施例的特殊性的限制。在所附权利要求的范围内，可以在上述实施例中进行多种变化、修改和改进。

Claims

1.一种用于图像补全的系统，其特征在于包括：

坐标生成模块，所述坐标生成模块被配置为接收多个第一过去帧和第一当前帧，所述多个第一过去帧和所述第一当前帧具有第一视场；并且生成一组坐标图，一个坐标图用于所接收的多个第一过去帧中的每一帧，其中对应于第一过去帧的所述坐标图提供所述第一过去帧到所述第一当前帧的坐标系的空间映射；

帧聚合模块，所述帧聚合模块被配置为接收所述多个第一过去帧、所述第一当前帧和所述坐标图作为输入，并且基于所述输入合成具有等于或大于所述第一视场的第二视场的第二当前帧，

其中所述帧聚合模块包括：

编码器，所述编码器被配置为基于所述多个第一过去帧和所述第一当前帧中的每一个生成多个特征图；

扭曲模块，所述扭曲模块被配置为，对于所述多个第一过去帧中的每一个和所述第一当前帧，使用与所述每一帧相关联的相应坐标图来扭曲与所述每一帧相关联的所述多个特征图，以生成用于所述每一帧的多个扭曲特征图；以及

基于注意力的特征聚合模块，所述基于注意力的特征聚合模块被配置为在所有所述多个第一过去帧和所述第一当前帧上聚合所生成的扭曲特征图，以生成一组聚合特征图。

2.根据权利要求1所述的系统，其中所述坐标生成模块包括：

深度网络，所述深度网络被配置为接收所述多个第一过去帧，并为所接收的多个第一过去帧中的每一个生成深度图；

姿态网络，所述姿态网络被配置为接收由所接收的多个第一过去帧和所述第一当前帧形成的时间相邻帧的帧对，并为所接收的帧对中的每一个生成相对相机姿态；以及

坐标计算模块，所述坐标计算模块被配置为基于所述深度网络和所述姿态网络的输出来生成所述一组坐标图。

3.根据权利要求1或权利要求2所述的系统，其中所述帧聚合模块被配置为使用由所述坐标生成模块所生成的一组坐标图，将包含在所接收的多个第一过去帧中的信息传播到所述第一当前帧的坐标系。

4.根据权利要求1所述的系统，其中所述基于注意力的特征聚合模块被配置为在所述聚合中针对所述多个第一过去帧中的每一帧和所述第一当前帧，基于所述帧相对于所述第一当前帧的定时来强调所述帧的区域特定的特征。

5.根据权利要求4所述的系统，其中所述基于注意力的特征聚合模块被配置为对于所述多个第一过去帧中的每一帧和所述第一当前帧：

为与所述每一帧相关联的扭曲特征图中的每一个扭曲特征图生成相应的逐帧空间注意力图；以及

将与所述每一帧相关联的扭曲特征图中的每一个扭曲特征图与相应的空间注意力图相乘，以生成相应的特征图。

6.根据权利要求5所述的系统，其中所述基于注意力的特征聚合模块还被配置为在所有所述多个第一过去帧和所述第一当前帧上对所生成的相应特征图进行求和，以生成所述一组聚合特征图。

7.根据权利要求6所述的系统，其中所述帧聚合模块还包括被配置为基于所述一组聚合特征图来生成所述第二当前帧的U-net模块，所述U-net模块包括：

上下文归一化子模块，所述上下文归一化子模块被配置为接收所一述组聚合特征图，并扩展修复所述第二当前帧的落在所述第一当前帧的视场之外的区域；

解码器子模块，所述解码器子模块被配置为接收由所述上下文归一化子模块输出的特征图，并且处理由所述上下文归一化子模块输出的特征图以修复落入所述第一当前帧的视场内的遮挡或未观察到的区域；以及

门控自注意力子模块，所述门控自注意力子模块被配置为接收由所述解码器子模块输出的特征图，并在空间上聚合由所述解码器子模块输出的特征图。

8.根据权利要求7所述的系统，其中所述门控自注意力子模块被配置为基于根据特征向量的空间位置针对每个所述特征向量动态生成的权重，在空间上聚合由所述解码器子模块输出的特征图。

9.根据权利要求1或2所述的系统，包括：

幻构不确定性模块，所述幻构不确定性模块被配置为生成与所述第二当前帧相关联的不确定性图。

10.根据权利要求9所述的系统，其中所述幻构不确定性模块被配置为生成所述不确定性图，以最小化包含幻构不确定性的损失函数。

11.根据权利要求9所述的系统，其中所述幻构不确定性模块被配置为基于预测所述第二当前帧中将具有高幻构不确定性的区域和将具有低幻构不确定性的那些区域来生成所述不确定性图。

12.根据权利要求1或2所述的系统，其中由深度网络和所述帧聚合模块接收的所述多个第一过去帧的一部分被第二过去帧替换，所述第二过去帧具有由所述帧聚合模块生成的第二视场并且对应于所述多个第一过去帧的所述部分。

13.根据权利要求12所述的系统，其中在将所述第二过去帧提供给所述帧聚合模块之前，所述第二过去帧各自与由幻构不确定性模块生成的相应不确定性图级联。