CN113436266A

CN113436266A - 图像处理系统、图像处理方法、训练神经网络的方法和执行该方法的记录介质

Info

Publication number: CN113436266A
Application number: CN202110297910.0A
Authority: CN
Inventors: 维姆·阿贝鲁斯
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-03-23
Filing date: 2021-03-19
Publication date: 2021-09-24
Also published as: US20210295561A1; EP3885970A1; US11967131B2

Abstract

本发明涉及用于处理至少一个摄像机的图像的系统。该摄像机具有预定摄像机参数，该预定摄像机参数包括镜头畸变和相对于预定义参考系的摄像机姿势。该系统包括：具有预定义架构的经训练的神经网络，该神经网络配置为接收摄像机的图像作为输入并响应于此来预测至少一个特性，其中神经网络架构包括至少一个静态特征图，该至少一个静态特征图配置为对包括镜头畸变和/或摄像机姿势的预定摄像机参数进行编码。

Description

图像处理系统、图像处理方法、训练神经网络的方法和执行该方法的记录介质

技术领域

本公开涉及图像处理的领域，尤其涉及用于处理图像的系统，所述系统具有带有至少一个静态特征图(feature map)的神经网络。本公开还涉及用于处理图像的方法、用于训练神经网络的方法和用于执行这些方法的记录介质。

背景技术

处理图像可以用于检测图像上可见的各种对象。因此，这种处理对于自动车辆(部分或完全自驾驶)以及对于其他类型的自动的系统是特别有用的，因为这些系统必须能够基于由摄像机采集的图像来理解它们的周围环境。

自动车辆和其他机器人平台需要它们的环境的丰富、简洁且详细的表示，该表示捕获静态世界的几何形状和布局以及其它动态智能体(Agent)的姿势和尺寸两者。这种表示经常为包括路径规划、碰撞避免和导航的所有决策提供基础。

在此背景下，使用神经网络(例如，用于处理图像的卷积神经网络)以便产生表示已经变得普遍。

然而，已经注意到，由于卷积神经网络仅使用局部滤波器，并且具有有限的空间范围(感受域)，卷积神经网络可能不能良好地对空间信息进行编码，参考例如：

Liu,R.,Lehman,J.,Molino,P.,Such,F.P.,Frank,E.,Sergeev,A.,Yosinski,J.:An intriguing failing of convolutional neural networks and the coordconvsolution.In:Advances in Neural Information Processing Systems.(2018)9605–9616，

Facil,J.M.,Ummenhofer,B.,Zhou,H.,Montesano,L.,Brox,T.,Civera,J.:Camconvs:camera-aware multi-scale convolutions for single-view depth.In:Proceedings of the IEEE conference on computer vision and patternrecognition.(2019)11826–11835

Islam,M.A.,Jia,S.,Bruce,N.D.:How much position information doconvolutional neural networks encode？arXiv preprint arXiv:2001.08248(2020)

空间信息尽管在解决许多任务中可能是有用的。

除了此挑战之外，已经注意到，神经网络并没有良好地推广到新视点。此外，已经注意到，神经网络没有良好地推广到不同的摄像机(不同的分辨率、焦距、畸变、……)。

尽管已经提出了使用对像素绝对位置进行编码的特征图以解决空间信息的缺乏(参考Liu等人，如以上引用的)，但它们简单地使用图像坐标，没有解决任何其他以上提及的问题。

发明内容

当前，仍然期望提供克服现有技术的一个或多个缺陷的用于处理图像的系统和方法。具体地，仍然期望由此提供包括能够更有效地对空间信息进行编码的神经网络的系统，更具体地，该系统能够良好地推广到新视点，包括良好地推广到不同的摄像机。

因此，根据本公开的实施例，提供了用于处理至少一个摄像机的图像的系统。摄像机具有预定摄像机参数，该预定摄像机参数包括镜头畸变和相对于预定义参考系的摄像机姿势。该系统包括：

具有预定义架构的经训练的神经网络，神经网络配置为接收摄像机的图像作为输入并响应于此来预测至少一个特性，其中

神经网络的架构包括至少一个静态特征图，该至少一个静态特征图配置为对包括镜头畸变和/或摄像机姿势的预定摄像机参数进行编码。

换言之，提出了将空间信息明确地编码到神经网络中。这可以通过添加对摄像机固有参数和视点进行编码的静态特征图来完成。术语“静态”用于指示它们是固定参数，不受对网络进行(重新)训练的影响。

这些固有参数可以由包含相对于摄像机视向的每个像素的视角的图(map)来表示。

通过提供这种系统，考虑用于通用摄像机的所有固有摄像机参数成为可能(具体地，可以取代于假设小孔模型而对镜头畸变进行建模)。此外，提出了使用特征图以编码“全局摄像机姿势”，考虑固有和外部摄像机参数两者。目标是不仅推广到其他摄像机，而且还推广到其他视点。

尽管Islam等人(以上所引用的)说明了一些位置信息可以被编码在卷积神经网络中，但是它示出了该信息是不完美的。此外，信息的强度强烈取决于网络架构。

摄像机姿势可以由相对于参考系的摄像机旋转和/或摄像机平移来定义。

预定摄像机参数可以包括光学摄像机参数。

摄像机可以包括定义镜头畸变的镜头。

神经网络的架构可以包括至少一个第一静态特征图，该至少一个第一静态特征图配置为：对预定光学摄像机参数和镜头畸变进行编码，用于当预测至少一个特性时考虑针对每个图像像素的3D空间中的视角，和/或对摄像机旋转进行编码，用于当预测至少一个特性时考虑相对于参考系的摄像机旋转。

预定光学摄像机参数可以包括摄像机的摄像机分辨率和焦距中的至少一者。

第一静态特征图针对每个图像像素或针对相邻图像像素的组可以包括表示视角和/或摄像机旋转的3D法向量。

神经网络的架构可以进一步包括至少一个第二静态特征图，该至少一个第二静态特征图配置为对摄像机平移进行编码，用于当预测至少一个特性时考虑相对于参考系的摄像机平移。

神经网络的架构可以进一步包括第三特征图，该第三特征图配置为针对每个像素对深度信息进行编码。所述深度信息表示例如摄像机和图像的场景之间的距离。

参考系可以被定义为系统和/或摄像机外部的外部参考系，外部参考系具体地相对于系统和/或摄像机处于预定义位置和取向。

参考系可以是基于系统的另一摄像机的姿势来定义的。

至少一个静态特征图可以被预定义和/或配置为在神经网络训练期间保持不变。

神经网络可以包括预定义数量的层，每个层包括至少一个通道，其中，除了预定义通道之外，或替代预定义通道，至少一个静态特征图可以被添加到至少一个层中。

该系统可以进一步包括一个或多个数码摄像机，和/或数据存储器，以存储经训练的神经网络，和/或处理器，以使用神经网络来处理图像。

本公开还涉及用于处理至少一个摄像机的图像的计算机实现方法，摄像机具有预定摄像机参数，该预定摄像机参数包括镜头畸变和相对于预定义参考系的摄像机姿势，该方法包括以下步骤：

将图像输入到经训练的神经网络，该经训练的神经网络接收摄像机的图像作为输入并响应于此来预测至少一个特性，其中

神经网络的架构包括至少一个静态特征图，该至少一个静态特征图对包括镜头畸变和/或摄像机姿势的预定摄像机参数进行编码。

该方法可以包括与上述系统的功能或特征相对应的其它步骤或特征。

本公开涉及用于训练用于处理摄像机的图像的神经网络的计算机实现方法，

该方法包括以下步骤：

提供具有预定义架构的神经网络，神经网络配置为接收摄像机的图像作为输入并响应于此来预测至少一个特性，

提供用于训练神经网络的一个或多个摄像机的训练图像的训练集，

针对摄像机提供至少一个静态特征图以用于训练神经网络，或在多个摄像机的情况下分别针对每个摄像机提供至少一个静态特征图，

通过针对每个训练图像使用静态特征图，基于训练图像来训练神经网络。

至少一个静态特征图可以配置为对包括镜头畸变和/或相对于相应摄像机的预定义参考系的摄像机姿势的预定摄像机参数进行编码。

本公开还涉及记录介质，能够由计算机读取并且在其上记录有计算机程序，该计算机程序包括用于执行根据前述的方法的任一项的步骤的指令。

除非另有矛盾，否则意图是可以对上述要素与说明书内的要素进行组合。

应该理解的是，前面的一般描述和下面的详细描述都只是示例性和解释性的，并且不限制本公开。

附图说明

并入该说明书中并构成该说明书的一部分的附图与说明书一起说明本公开的实施例，并且用于解释其原理。

图1示出根据本公开的实施例的系统的框图；

图2示出根据本公开的实施例的可以被编码到(多个)静态特征图中的信息的示意性概要；

图3示出根据本公开的实施例的3D协调系统中的示例性摄像机参考系；

图4示出根据本公开的实施例的示出世界坐标和摄像机坐标之间的关系的示例性小孔摄像机模型，以及

图5示出根据本公开的实施例的具有静态特征图的神经网络层的示例。

具体实施方式

现在将详细参考本公开的示例性实施例，其示例在附图中说明。只要可能，贯穿这些附图将使用相同的附图标记来指代相同或相似的部分。

图1示出根据本公开的实施例的系统10的框图。该系统配置为执行根据本公开的方法。具体地，该系统可以配置为执行例如由经训练的神经网络给出的计算机指令。

例如，该系统可以包括处理器11(例如，至少一个CPU和/或GPU)和用于执行所述指令的存储器13。存储器13可以是非易失性存储器，并且它可以包括例如根据本公开的方法的所述指令(即，经训练的神经网络和/或计算机程序)。所述方法可以由用于处理图像(例如，用于语义分割或任何其它图像处理任务)的处理器11执行。具体地，存储器可以存储经训练的人工神经网络(ANN)，该经训练的人工神经网络可以由处理器11执行以执行以下描述的方法。

系统10可以进一步包括和/或连接到采集模块12，该采集模块12配置为采集图像(例如，一个或多个摄像机，尤其是仅用于获得该系统的环境的单目环绕视图图像的(多个)单目摄像机)。例如，系统可以包括多个摄像机，多个摄像机一起获得系统环境的全景(例如，360°)图像，具体地没有任何深度信息。替代性地，它可以仅包括一个旋转摄像机。

采集模块12(即，(多个)摄像机)具有预定摄像机参数，该预定摄像机参数包括镜头畸变和相对于系统和相对于预定义参考系(例如，由系统或任何其它外部对象给出)的特定摄像机姿势。

经训练的神经网络(例如是卷积神经网络(Convolutional Neural Network，CNN))具有预定义架构并且配置为接收采集模块的图像作为输入并且响应于此来预测至少一个特性(例如，语义图像片段)。

此外，神经网络的架构包括至少一个静态特征图，该至少一个静态特征图配置为对包括镜头畸变和/或摄像机姿势的预定摄像机参数进行编码。将在下文中在图2至图4的上下文中更详细地描述所述(多个)静态特征图。

系统可以是机器人系统或车辆30的一部分。换言之，系统(尤其是其采集模块12可以配置为自动地移动。在该场景中，当该系统包括多个摄像机时，期望将它们产生的图像彼此“校准”。在该场景中，参考系期望地是基于该系统的另一摄像机的姿势来定义的。例如，通过插入所有摄像机视点的各个的全局姿势参数作为附加通道，可以针对所有摄像机视点训练单个神经网络。

替代性地，参考系可以被定义为系统和/或摄像机外部的参考系。所述外部参考系可以特别地相对于系统和/或摄像机处于预定义位置和取向。例如，摄像机可以具有局部地固定的位置(例如，在塔上或另外在相对于地水平面的预定高度处)，并且参考系可以由地平面定义。因此，静态特征图(即，全局姿势特征图)还可以用于对相对于相关全局参考系(例如，地平面)的已知摄像机位置进行编码。

图2示出了根据本公开的实施例的可以被编码到(多个)静态特征图中的信息的示意性概要。

如图2所示，提出将空间信息明确地编码到神经网络中。这通过添加对摄像机固有参数和视点进行编码的静态特征图来完成。在此上下文中，“静态”用于指示它们是固定参数，不受对网络进行(重新)训练的影响。该系统的一般概要在图2中示出。固有参数由包含相对于摄像机视向的每个像素的视角的图来表示。

图3示出根据本公开的实施例的3D协调系统中的示例性摄像机参考系。

每个摄像机参考系XYZ可以使用刚性变换P_i变换为全局参考X’Y’Z’。这里，将摄像机i相对于选择的全局参考系的姿势称为P_i＝[R_i t_i]，其中R_i∈SO(3)是旋转分量，并且

是平移分量(意味着P_i是一般刚性变换)。图2中说明了这种姿势/变换。

摄像机模型

提出引入标准摄像机模型(为了清楚性，并且引入符号和标记)。该摄像机模型中的参数将用于生成所提出的固定特征图。

在此背景下，图4示出了根据本公开的实施例的示例性小孔摄像机模型，该模型示出了世界坐标与摄像机坐标之间的关系。

具有焦距f_x和f_y的校准矩阵K，其中s是传感器轴之间的偏斜因子，并且(c_x,c_y)是摄像机光学中心(在像素坐标中)，还参考图4。

包含来自校准矩阵K的固有摄像机参数、和外部参数两者的摄像机矩阵P：欧几里德、刚性体变换[R t]。

摄像机矩阵P允许将3D世界坐标p_w＝(x_w,y_w,z_w,1)映射到图像坐标p_i＝(x_i,y_i1,d)。

p_i～Pp_w(3)

针对图像空间(u,v)中的每个像素，还期望镜头畸变应当被考虑：

其中r²＝x′²+y′²，p₁和p₂是切向畸变参数并且k₁、k₂、k₃、k₄、k₅、k₆是径向畸变系数。

像素视角

从摄像机校准数据，所有像素可以被映射回3D视角向量。这需要反转以上映射(现在从畸变的摄像机坐标到未畸变的观看向量)。

x″←(u-c_x)/f_x

y″←(v-c_y)/f_y

(x′，y′)＝undistort(x"，y″，distCoeffs) (6)

[x y z]^T←R*[x′ y′ 1]^T

[x y z]^T←[x y zl^T/||x y z||

其中undistort是从归一化的畸变点坐标估计归一化的原始点坐标的近似迭代算法(参见例如Mallon,J.,Whelan,P.F.:Precise radial un-distortion of images.In:Proceedings of the 17th International Conference on Pattern Recognition,2004.ICPR 2004.Volume 1.,IEEE(2004)18–21)，并且distCoeffs是畸变参数，(并且如以上的，(u,v)是图像空间像素坐标，R是相对于全局参考系的摄像机旋转)。

尽管在这个示例中，使用3D归一化的向量来呈现视角，但是也可以使用其他表示(例如欧拉角、四元数、轴角表示、……)。

级联固定特征图

这些(由3D单位向量表示的)每像素视角可以被添加(例如，沿着通道维度级联)到神经网络架构中作为固定特征图通道(注意，可以针对具有不同于原始图像分辨率的维度的层对它们进行重采样)。参见图5用于示例，其示出根据本公开的实施例的具有静态特征图的神经网络层。

对于网络中的任何层L，除了现有动态的、通道的之外(或替代现有的、动态的通道中的一些)，可以添加所提出的静态全局姿势特征图。这些通道允许L+1层使用编码的全局姿势信息。该信息可以(隐式地)对于任何L+x层可用。

可使用以下附加的固定特征图的任一者(组合)：

·局部每像素视角(来自摄像机校准矩阵K和畸变参数)

·全局每像素视角(来自摄像机校准矩阵K+摄像机相对旋转矩阵R)

·相对的摄像机3D位置(X,Y,Z)，由摄像机相对平移向量t表示

·对背景场景深度的估计(例如，从LIDAR扫描和基于运动的背景分割获得)，

由例如摄像机中心与场景背景之间的距离表示。

出于摄像机校准的目的，在以上部分中讨论的关于级联固定特征图的固有和外部参数两者可以使用标准计算机视觉摄像机校准技术来获得。

贯穿说明书，包括权利要求书，术语“包括一”应当理解为与“包括至少一个”同义，除非另外说明。此外，在说明书(包括权利要求书)中阐述的任何范围应当被理解为包括其端值，除非另外说明。所描述的要素的特定值应当被理解为在本领域技术人员已知的公认的制造或工业公差内，并且术语“基本上”和/或“大约”和/或“总体上”的任何使用应当被理解为意味着落入这种公差内。

尽管在这里已经参考具体实施例描述了本公开，但理解的是，这些实施例仅是本公开的原理和应用的说明。

本说明书和实施例仅旨在被认为是示例性的，本公开的真实范围由以下权利要求书指示。

Claims

1.用于处理至少一个摄像机的图像的系统，所述摄像机具有预定摄像机参数，该预定摄像机参数包括镜头畸变和相对于预定义参考系的摄像机姿势，其特征在于，所述系统包括：

具有预定义架构的经训练的神经网络，所述神经网络配置为接收所述摄像机的图像作为输入并响应于此来预测至少一个特性，其中

所述神经网络的架构包括至少一个静态特征图，该至少一个静态特征图配置为对包括所述镜头畸变和/或所述摄像机姿势的所述预定摄像机参数进行编码。

2.根据权利要求1所述的系统，其特征在于，

所述摄像机姿势由相对于所述参考系的摄像机旋转和/或摄像机平移来定义，和/或

所述预定摄像机参数包括光学摄像机参数，和/或

所述摄像机包括定义所述镜头畸变的镜头。

3.根据权利要求2所述的系统，其特征在于，

所述神经网络的架构包括至少一个第一静态特征图，该至少一个第一静态特征图配置为：

对预定光学摄像机参数和所述镜头畸变进行编码，用于当预测所述至少一个特性时考虑针对每个图像像素的3D空间中的视角，和/或

对所述摄像机旋转进行编码，用于当预测所述至少一个特性时考虑相对于所述参考系的所述摄像机旋转。

4.根据权利要求3所述的系统，其特征在于，

所述预定光学摄像机参数包括所述摄像机的摄像机分辨率和焦距中的至少一者。

5.根据权利要求3或4所述的系统，其特征在于，

所述第一静态特征图针对每个图像像素或针对相邻图像像素的组包括表示所述视角和/或所述摄像机旋转的3D法向量。

6.根据权利要求2至5中任一项所述的系统，其特征在于，

所述神经网络的所述架构进一步包括至少一个第二静态特征图，该至少一个第二静态特征图配置为对所述摄像机平移进行编码，用于当预测所述至少一个特性时考虑相对于所述参考系的所述摄像机平移。

7.根据权利要求1至6中任一项所述的系统，其特征在于，

所述神经网络的架构进一步包括第三特征图，该第三特征图配置为针对每个像素对深度信息进行编码。

8.根据权利要求1至7中任一项所述的系统，其特征在于，

所述参考系被定义为所述系统和/或所述摄像机外部的外部参考系，所述外部参考系具体地相对于所述系统和/或所述摄像机处于预定义位置和取向，或

所述参考系是基于所述系统的另一摄像机的姿势来定义的。

9.根据权利要求1至8中任一项所述的系统，其特征在于，

所述至少一个静态特征图被预定义和/或配置为在神经网络训练期间保持不变。

10.根据权利要求1至9中任一项所述的系统，其特征在于，

所述神经网络包括预定义数量的层，每个层包括至少一个通道，其中，除了预定义通道之外，或替代所述预定义通道，所述至少一个静态特征图被添加到至少一个层中。

11.根据权利要求10所述的系统，

其特征在于，进一步包括一个或多个数码摄像机，和/或

数据存储器，以存储所述经训练的神经网络，和/或

处理器，以使用所述神经网络来处理所述图像。

12.用于处理至少一个摄像机的图像的计算机实现方法，所述摄像机具有预定摄像机参数，该预定摄像机参数包括镜头畸变和相对于预定义参考系的摄像机姿势，其特征在于，所述方法包括以下步骤：

将所述图像输入到经训练的神经网络，该经训练的神经网络接收所述摄像机的所述图像作为输入并响应于此来预测至少一个特性，其中

所述神经网络的架构包括至少一个静态特征图，该至少一个静态特征图对包括所述镜头畸变和/或所述摄像机姿势的所述预定摄像机参数进行编码。

13.用于训练用于处理摄像机的图像的神经网络的计算机实现方法，

其特征在于，所述方法包括以下步骤：

提供具有预定义架构的所述神经网络，所述神经网络配置为接收所述摄像机的图像作为输入并响应于此来预测至少一个特性，

提供用于训练所述神经网络的一个或多个摄像机的训练图像的训练集，

针对所述摄像机提供至少一个静态特征图以用于训练所述神经网络，或在所述多个摄像机的情况下分别针对每个摄像机提供至少一个静态特征图，

通过针对每个训练图像使用所述静态特征图，基于所述训练图像来训练所述神经网络。

14.根据权利要求13所述的方法，其特征在于，

所述至少一个静态特征图配置为对包括镜头畸变和/或相对于相应摄像机的预定义参考系的摄像机姿势的预定摄像机参数进行编码。

15.记录介质，能够由计算机读取并且在其上记录有计算机程序，该计算机程序包括用于执行根据权利要求12至14中任一项所述的方法的步骤的指令。