CN117015792A

CN117015792A - 有凹图像放大用于自动驾驶生成物体检测标签的系统和方法

Info

Publication number: CN117015792A
Application number: CN202280021903.0A
Authority: CN
Inventors: 尼古拉斯·勒布伦; 德瓦·拉曼南; 蒙恬·李; 奇特什瓦兰·塔瓦马尼
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2021-03-16
Filing date: 2022-03-09
Publication date: 2023-11-07
Also published as: DE112022001546T5; US20220301099A1; WO2022198175A1

Abstract

公开用于处理高分辨率图像的系统和方法。方法包括使用显著性模型生成接收的高分辨率图像的显著图。显著图包括与高分辨率图像的多个像素中的每一个相关联的显著性值。方法然后包括使用显著图生成表示将扭曲图像中的一个或多个第一像素坐标逆映射到高分辨率图像中的一个或多个第二像素坐标的反变换函数，并且使用反变换函数实施用于将高分辨率图像转换为扭曲图像的图像扭曲。扭曲图像是至少一个区域的分辨率高于扭曲图像的一个或多个其他区域的有凹图像。

Description

有凹图像放大用于自动驾驶生成物体检测标签的系统和方法

相关申请的交叉引用

本申请要求2021年3月16日提交的专利申请号为63/161,895的美国临时申请和2022年2月24日提交的专利申请号为17/652,348的美国专利申请的优先权，两者通过引用其全部内容的方式合并于此进行公开。

背景技术

对于自主操作的移动机器人来说，当移动机器人在其环境中移动时应该能够了解定位并且尽可能避开物体。例如，机器人可以获取其环境的图像，处理它们以识别和定位物体，然后绘制在图像中识别的物体周围的路径。因此，高效处理高分辨视频流或图像对比如自动驾驶这样的许多机器人应用是很重要的。比如自主车辆这样的机器人可以具有多个高分辨率摄像机来例如获取图像数据以用于物体检测和追踪。这样的自主车辆也可以使用比如RADAR或LIDAR这样的其他传感器以获取关于环境的附加数据。然而，这样的“过度感应”设置为基于视觉的算法(例如，用于物体检测)提供独特的挑战，因为视觉传感器不断地产生数据流，并且对于基于视觉的算法来说使用数据并且及时地汇报世界的状况是重要的。当基于视觉的算法用于处理视频流(即，一系列连续图像)时，这被进一步地加剧。

尽管存在比如量化、模型压缩和推理优化这样的许多技术使基于视觉的算法运行得更快，图像下采样仍然是满足延迟限制的最常见的方法之一。然而，这种朴素方法极大地限制了物体检测算法识别小物体的能力，因为图像下采样消除图像传感器的高像素密度的优势。一些其他方法利用时间信息以减少调用基于视觉的算法的次数。这样的方法在简单的数据集上工作得很好并且通常设计用于离线图像处理，但不适合用于自主车辆场景，在自主车辆场景情况下几乎每一帧中都会出现多个新的物体。

本文件描述针对解决上面描述的难题和/或其他问题的方法和系统。

发明内容

本公开包括实施公开的处理高分辨率图像(例如，以及由车辆接收的图像)的系统和方法。方法可以包括接收高分辨率图像以及使用显著性模型(saliency model)生成接收的图像的显著图(saliency map)。显著图可以包括与高分辨率图像的多个像素中的每一个相关联的显著性值。方法也包括使用显著图生成表示将扭曲图像中的一个或多个第一像素坐标逆映射到高分辨率图像中的一个或多个第二像素坐标的反变换函数，以及使用反变换函数实施用于将高分辨率图像转换为扭曲图像的图像扭曲。可选地，扭曲图像可以是至少一个区域的分辨率高于扭曲图像的一个或多个其他区域的有凹图像(foveated image)。扭曲图像可以保存到数据存储。

在各种实施方式中，方法也可以包括生成扭曲图像的参照系中的一个或多个边界框预测(例如，使用扭曲图像)。可以使用反变换函数将扭曲图像中的一个或多个边界框预测的坐标转换为高分辨率图像的参照系中的一个或多个边界框预测的第二坐标。可选地，一个或多个边界框预测的第二坐标可以用于控制自主车辆的导航。

在一个或多个场景中，方法可以包括基于包括高分辨率图像的视频流的至少一个先验帧中的一个或多个边界框预测生成显著性模型，并且在此情况下在至少一个先验帧之后捕获高分辨率图像。此外和/或可替代地，可以基于包括训练数据集的数据集范围先验中的一个或多个边界框预测生成显著性模型。

在各种实施方式中，扭曲图像中具有较高分辨率的至少一个区域具有高的可能性包括感兴趣的物体。可选地，可以降低扭曲图像的一个或多个其他区域的分辨率。

在一些实施方式中，可以使用反变换函数通过以下方式实施用于将高分辨率图像转换为扭曲图像的图像扭曲：通过为扭曲图像中的多个像素中的每一个找到高分辨率图像中的输入像素，以及从高分辨率图像中与输入像素相邻的一个或多个像素对那些像素的强度或颜色进行双线性插值。

可选地，反变换函数可以是使用反向传播进行训练的可微分函数。

此外和/或可替代地，可以对于显著图的多个边中的每一个引入对称性以用于裁剪正规化扭曲图像。

实施系统可以包括：处理器；以及包括编程指令的非暂时性计算机可读存储介质，编程指令配置成使处理器实施用于操作自动化系统的方法。此外和/或可替代地，非暂时性计算机可读存储介质和编程指令可以包括在计算机程序产品中。

附图说明

图1说明自主车辆系统的示例高层次概述；

图2说明用于使用有凹扭曲图像生成边界框预测的示例方法；

图3说明使用本公开的方法生成的示例显著图；

图4说明使用本公开的方法生成的示例扭曲图像；

图5说明边界框预测从扭曲图像空间到原始图像空间的示例转换；

图6图7提供有助于理解如何根据本解决方案控制机器人系统(例如自主车辆)的框图；

图7说明自主车辆的示例系统和部件；

图8是说明自主车辆的可能电子子系统和/或外部电子装置的各种元件的框图。

具体实施方式

传统的机器人不能像人类一样感知其环境。例如，机器人可以通过以统一的分辨率获取部分或全部其环境的图像来“看到”其环境，并且检查图像中的每个像素以用于物体检测。这个过程可能花费太多时间和太多精力来识别相对于机器人移动的物体。此外，机器人可能花费过多的时间来处理空的或不相关的像素。

例如，如所讨论的，尽管自主车辆中的大量视觉传感器确保宽广的视野并且多模态方法提供互补的感应能力；这样的“过度感应”设置也为比如物体检测这样的基于视觉的算法提供独特的挑战(比如增加延迟、提高处理能力等)。尽管光探测和测距(LiDAR)传感对检测三维(3D)物体是可靠的，但其低光束密度可以限制其以下性能：检测远处的物体，理解物体边界的精确范围，或进行细粒度的语义识别。高分辨率图像传感器可以帮助解决这些，因为它们的包含在颜色空间中的高像素密度和丰富的信息。尽管全局图像下采样已经用于满足图像处理的延迟约束，但它也消除图像传感器的高像素密度的优势。本文件描述图像处理的改进，保持自主车辆的基于视觉的算法(例如，用于物体检测)所需的高密度，同时减少图像处理延迟、计算需求和存储容量需求。

本公开的系统和方法利用适应性注意处理方法来生成有凹扭曲图像，有凹扭曲图像弹性放大对感兴趣的物体保持高分辨率的某些区域，同时保持小的输入画布。产生的“有凹图像”具有在每个图像上空间变化的分辨率，在放大或有凹区域具有最佳分辨率以及在其他地方具有低分辨率。这样的放大区域可以包括感兴趣的物体。这种以在每个图像上空间变化的分辨率获取图像的概念在此被称为“有凹”。

使用本公开的方法，输入图像是下采样和扭曲的，使得扭曲图像中的显著性区域具有更高的分辨率。放大区域是被认为具有高概率包括物体的那些区域，并且它们的信号可以来自数据集范围先验或帧级先验(先前帧中边界框预测—即，预测的物体位置)信息。这是因为在物体检测数据集中感兴趣的物体通常只覆盖图像的一部分。这样的区域放大允许算法更好地使用高分辨率输入图像以在不产生处理这样的高分辨率输入图像的成本的情况下执行物体检测。此外，与现有的处理扭曲空间中的图像的下采样方法将在扭曲空间中产生边界框输出不同，目前的公开进一步地描述输出使用原始未扭曲图像空间中的扭曲图像生成的边界框预测标签。

例如，本公开的方法可以用于图像中的物体检测、提高流媒体性能(用于在任何时刻评估感知算法的输出)等，用于控制自主车辆的导航。

在描述图像扭曲和边界框预测方法的细节之前，提供关于自主车辆(自动车辆)系统的一些背景信息是有用的。图1显示可以与下面的讨论有关的自主车辆子系统的高层次概述。将在本文件的后面在图8的讨论中描述这样的系统内的特定部件。子系统的某些部件可以体现为是自主车辆的车载计算系统101的一部分的处理器硬件和计算机可读编程指令。

子系统可以包括感知系统102，感知系统102包括捕获关于移动活动体和出现在车辆的周围环境中的其他物体的信息的传感器。示例传感器包括摄像机、LiDAR传感器和雷达传感器。由这样的传感器捕获到的数据(比如数字图像、包括一系列图像帧的视频、LiDAR点云数据、或雷达数据)被称为感知数据。感知系统可以包括一个或多个处理器以及具有编程指令和/或训练过的人工智能模型的计算机可读存储器，在自主车辆的运行期间，编程指令和/或训练过的人工智能模型将处理感知数据以识别物体并且为场景中检测到的每个物体分配分类标签和唯一标识符。在自主车辆的部署期间，自主车辆从自主车辆的感知系统的一个或多个传感器接收感知数据。感知数据可以包括表示环境中的一个或多个物体的数据。分类标签可以包括比如车辆、骑行者、行人、建筑物等这样的类别。识别物体并且为物体分配分类标签的方法在本领域是众所周知的，并且可以使用任何合适的分类程序，比如为场景中检测到的物体进行边界框预测以及使用卷积神经网络或其他计算机视觉模型的那些分类程序。在(2020年4月在电气和电子工程师协会接入上公布的)“尤尔特塞夫等人，自动驾驶调查：常用实践和新兴技术”(“Yurtsever et al.,A Survey of AutonomousDriving:Common Practices and Emerging Technologies”(published in IEEE Access,April 2020))中描述一些这样的程序。

车辆的感知系统102可以向车辆的预测系统103传递感知数据。预测系统(也可以被称为预警系统)将包括处理器和计算机可读编程指令，计算机可读编程指令配置成处理从感知系统接收到的数据并且预测感知系统检测的其他活动体的预测行为。

车辆的感知系统以及车辆的预测系统将向车辆的运动规划系统104和控制系统105传递数据和信息，使得接收系统可以评估这样的数据并且对这样的数据发起任何数量的反应动作。运动规划系统104和控制系统105包括和/或共享一个或多个处理器和计算机可读编程指令，计算机可读编程指令配置成处理从其他系统接收的数据，确定车辆的轨迹，以及向车辆硬件输出根据确定的轨迹移动车辆的指令。这样的指令可以引起的示例动作包括使车辆的制动控制系统致动，使车辆的加速度控制子系统提高车辆的速度，或使车辆的转向控制子系统转向车辆。各种运动规划技术是众所周知的，例如如在(2016年4月)IEEE智能交通系统学报17卷4期上公布的冈萨雷斯等人的“自动车辆的运动规划技术概述”中描述的(Gonzalez et al.,“A Review of Motion Planning Techniques for AutomatedVehicles,”published in IEEE Transactions on Intelligent TransportationSystems,vol.17,no.4(April 2016))。

在非自主车辆实施例中，比如在由人类操作员驱动的车辆的情况下，运动规划系统104可以体现为是包括在车辆内的电子装置的一部分的处理器硬件和计算机可读硬件，比如仪表板导航系统或操作员的移动电子装置。在这样的情况下，电子装置可以通过显示器、音频扬声器或两者输出由运动规划系统规划的轨迹。此外，感知系统102的某些部分可以包括电子装置的收发器，收发器通过无线通信从远程服务器接收某些感知数据(比如天气数据)。

车辆的车载计算系统101将与远程服务器106通信。远程服务器106是在车辆运行时通过无线连接或在车辆停放在停靠设施或服务设施时通过有线或无线连接与车辆的车载计算系统101通信的外部电子装置。远程服务器106可以接收在车辆运行过程中车辆收集的数据，比如感知数据和操作数据。远程服务器106也可以将数据或其他信息传输到车辆，比如软件更新、高清(HD)地图更新、机器学习模型更新和其他信息。

现在参考图2，公开说明用于生成有凹扭曲图像以及用于使用有凹扭曲图像生成边界框预测的示例方法的流程图。如根据本公开可以领会的是，方法内的操作顺序不限于如在附图中所说明的顺序执行，但可以以适用且根据本公开的一种或多种不同的顺序执行。在各种实施例中，方法可以被预定以基于一个或多个预先确定的事件运行，和/或可以在自主车辆的运行期间连续地运行。

在202，系统可以从传感器(例如，摄像机)、数据存储、和/或系统100的另一部件接收描述图像的图像数据。例如，可以由单目摄像机(例如，摄像机)等捕获图像。在一些示例中，图像包括彼此叠加的3层(或通道)信息—红(R)层、绿(G)层和蓝(B)层。这种图像也可以被称为RGB图像。在其他示例中，图像可以是灰度图像、红外图像、紫外图像、或任何其他类型的图像。图像可以存储在本地和/或远离移动平台(例如，图1的远程服务器106)的数据存储上。图像可以在用作为图像处理算法或比如物体检测模型这样的机器学习模型的输入之前具有需要减少(即，下采样)的分辨率和/或尺寸。

在204，系统可以生成对应于接收的图像的显著图。显著图不均匀地为图像中的每个像素分配显著性值。像素的显著性值定义图像内像素的重要性和/或显著性(即，显著图量化像素级的重要性)。换句话说，显著图是图像的独特或显著特征的地形表示。显著性值的范围可以是例如【0，1】(或任何其他数字值)，其中更高的值可以指示图像内的更高的像素重要性和/或显著性(反之亦然)。显著性值可以可选地在图像有凹过程中用作为更高分辨率区域中的潜在兴趣或包含的指示。具体地，显著图可以在创建扭曲图像的过程中用于将潜在的更高分辨率像素(更高的显著性值)与较低的分辨率或下采样像素(较低的显著性值)相区别。显著性值可以基于例如基于物体的显著性、基于注意的显著性等分配给图像像素。

基于注意的显著性突出显示典型的人可能会看的图像中的区域。例如，人通常不逐像素地处理整个图像的细节。相反，人眼获取不均匀分辨率的图像：密集布满感光视锥细胞的视网膜的中心部分，以相对较好的分辨率获取每个图像的中心部分。并且以较低密度的感光视杆细胞和视锥细胞覆盖的视网膜的外围部分，以较低的分辨率获取每个图像的外围部分。为了考虑图像分辨率的空间变化，人在他的或她的视野中的不同点之间快速地移动他的或她的眼睛，并且比图像的其他部分更关注某些物体或区域。例如，如果有的话，人可以在相对长的一段时间内关注场景(比如脸、人、车辆、交通信号灯等)的有趣部分上或有趣部分附近的点，并且在较短的一段时间内关注场景(比如树、人行道等)的不太有趣的部分上或不太有趣的部分附近的点。因此，与对应于不太有趣的区域的图像的像素相比，对应于更有趣的区域的图像中的像素可以分配更高的显著性值。场景的有趣位置可以事先存储在数据库中和/或使用在包括先前识别的场景的有趣部分的训练数据集上训练的机器学习模型进行预测。

一方面，与某些其他物体(例如，背景物体)相比，基于物体的显著性为某些物体(例如，前景物体、移动物体等)的像素分配更高的显著性值。可以基于规则集和/或自动地学习来确定各种物体的这样的物体显著性。

系统可以使用例如机器学习模型(例如，神经网络)生成显著图，机器学习模型已经被训练成基于从视频流中的先前图像帧(帧级先验)接收的信息和/或数据集范围先验信息(例如，训练数据集)而将显著性值分配给图像中的像素。具体地，机器学习模型被训练成将从视频流中的先前图像帧接收的信息和/或数据集范围先验信息用作为显著性信号源。例如，模型可以使用对应于已经被处理的视频流的图像帧(例如，紧接在所分析的图像帧之前的图像帧)中令人沮丧的物体的边界框预测以用于分配显著性值。这允许重新采样，使得背景像素可以在下采样图像中为感兴趣的物体留出空间。可替代地和/或此外，模型可以基于对应于所分析的图像的边界框预测生成显著图，根据训练数据集中的地面真值边界框的集合确定边界框预测。例如，系统可以聚合(例如，确定平均值)或从训练数据集学习与场景中的哪里预期某些类型的物体(例如，人行道、地平线、植被等)有关的统计数据。

为了学习或训练可以推广到帧级或数据集级先验的显著性模型，系统可以确定用于将边界框(无论来自数据集还是先前帧)转换为显著图。例如，系统可以使用将边界框作为数据点的核密度估计(KDE)。更准确地说，给定一组具有中心c_i、高度h_i和宽度w_i的边界框检测B，系统可以使用下面的方程式建模或为帧f生成作为正态分布的总和的显著图S_f：

其中，a和b分别是(可以通过反向传播学习)核密度估计(KDE)公式的振幅和带宽的超参数；N是边界框的数量。

可选地，显著图也可以将边界框标签纳入到考虑以例如基于感兴趣的物体类来筛选和/或分配显著性值。

S_f可以应用于先前的帧预测以获得特定于帧的时间先验(表示为S_i)，或应用于训练集中所有的边界框的集合以获得数据集范围先验(表示为S_D)。在前一种情况下，KDE公式可以在每一个先前帧的检测中有凹图像。对于每个视频序列中的第一帧，这通常默认为统一的显著图。在后一种情况下，对于训练数据集，地平线倾向于在图像的中心，并且因此物体更有可能在那里出现。

系统可以可选地在训练数据集中平均生成的显著图以产生数据集范围先验(S_D)。例如，如果在训练数据集中地平线倾向于位于图像的中心，并且因此物体更有可能在这样的中心出现，则数据集范围先验(S_D)可以在数据集层面上捕获这种偏差，然而S_i关注时间偏差。系统也可以将S_d和S_i进行平均以捕获两种偏差。

系统可以可选地通过添加(1/k²)来处理显著图S_f，其中K是核k的边长，并且归一化K使得总和为1以便避免极端扭曲。

可以使用任何现在或以后已知的技术生成和/或训练用于生成显著图的机器学习模型，比如但不限于核密度估计(KDE)和卷积神经网络(CNN)，两者是可微分的并且可以通过最后的任务损失来学习参数。在KDE中，系统可以将边界框中心用作为具有与边界框的面积的平方根成正比的宽度的数据点。在CNN中，系统可以将边界框表示为N×4矩阵，其中N是边界框的数量的固定最大值。如果有少于N个物体，则输入可以对这个维度进行零填充。一旦已经生成模型，系统就也可以将模型应用于训练数据集中的所有边界框以获得数据集范围先验。

显著性模型然后可以基于感兴趣的物体将出现在接收的图像中的类似定位的边界框(作为数据集范围先验或特定帧先验)内的假设来生成接收的图像的显著图。具体地，模型可以将边界框信息转换为显著图。例如，图像的有趣部分(例如，车辆，脸等)和/或前景物体可以基于先前处理的图像帧和/或数据集范围先验中的边界框预测而被识别，并且用于生成显著图。在一些实施方式中，系统可以使用基于视频图像系列中的第一帧的数据集范围先验确定的边界框检测来生成显著图，并且使用每一个先前帧的边界框检测为视频图像系列中的后续图像帧生成显著图。

可选地，显著图可以以其他(任何现在或以后已知的)算法为基础，算法考虑比如背景(例如，道路周围的植被可能不那么显著)、视频流中物体出现的频率、图像对比度(例如，包括地平线的图像的中心可能更显著)、视觉注意系统(即，与人类视觉系统的行为和神经元结构有关)等用于生成显著图这样的图像或流媒体视频中的任意数量的因素。

在图3中说明示例显著图301，其中不同区域的显著性与它在地图中的亮度直接成正比(或作为灰度值)。

随后，系统执行扭曲(206)以根据接收的图像创建具有区域放大(有凹扭曲图像)的下采样图像。在各种实施例中，图像可以被扭曲以放大具有更高的显著性值同时保持小的输入画布的图像的区域。因此，扭曲图像中的放大区域是具有更高的可能性包括感兴趣的物体(和/或其他方面对比如物体检测模型这样的图像处理算法很重要的物体)的那些区域。

扭曲函数(例如，像神经网络一样的机器学习模型)可以被训练用于有凹和扭曲接收的图像，给出用于将像素坐标从输入图像转换为扭曲图像的空间转换函数T。

具体地，空间变换函数(例如，神经网络或其他机器学习模型)被定义将边界框位置(来自先前视频帧和/或数据范围先验)映射到扭曲参数。二维(2D)转换可以写成：

T:(x,y)→(x’,y’)

其中，(x，y)和(x′，y′)分别是接收的图像和扭曲图像中的像素的输入和输出坐标。因为图像像素通常是离散的，需要插值以在非积分坐标下采样值。图像扭曲W_T然后将图像I作为输入，根据给定的转换T采样像素强度值，以及如下输出扭曲图像I′：

I’(T(x,y))＝I(x,y)

根据输入I的离散像素位置的朴素向前扭曲可能导致需要“飞溅”到I的像素网格上的非积分的目标像素位置，这可以产生比如孔洞这样的伪影。为了克服这一点，可以经由反向映射通过以下方式来实施图像扭曲：在每个目标像素网格位置迭代、计算其逆映射T^-1以找到其相应的输入坐标(其可以是非积分的)以及根据相邻的输入像素网格点(即，覆盖网格)双线性插值其颜色/强度，公式如下：

I’(x,y)＝I(T^-1(x,y))。

由于重点是边界框的像素坐标的变换，W_T的实施只需要反变换T^-1(而不是T)的知识。可以使用显著图确定反变换T^-1。例如，可以通过显著图S对T^-1进行参数化，使得变换具有卷积形式(因此快)并且其中输入空间(x，y)中的每个像素可以用力S(x，y)吸引从原始图像中提取的样本，导致在扭曲过程中在显著性区域进行更多采样。由于T^-1是可微分的，可以用反向传播训练T^-1。例如，包括地面真值边界框预测的训练数据集可以用于通过使用估计的显著图来创建扭曲图像、识别扭曲图像中的边界框、执行反向传播以预测原始图像中的边界框以及将预测的边界框与地面真值数据相比较来确定损失函数来训练T^-1，损失函数可以最小化到理想值以获得训练过的反变换模型T^-1。

可选地，通过使用网格生成器并且在整个网格上应用变换函数T^-1，可以用分批操作替换在变换过程中的像素迭代。在这样的示例中，空间变换函数可以包括网格生成器和网格图像采样器。具体地，空间变换器可以在接收的图像上覆盖均匀的网格，并且使用变换函数T将接收的图像的一个或多个像素从覆盖网格转换为目标网格。

例如，如图4所示，尽管目标网格410(b)上的像素411(b)可以具有积分坐标，覆盖网格410(a)上的相应像素411(a)具有非积分坐标并且位于四个积分坐标之间。因此，系统执行插值以根据像素411(a)周围的四个积分坐标强度值的平均值确定像素411(b)的强度。

图4进一步地说明示例接收的图像401和使用本公开的方法生成的相应扭曲图像402。如图所示，某些感兴趣的物体421(a)、421(b)等与在接收的图像401中的相应表示相比在扭曲图像中被放大。

为了确保在使用下采样图像执行物体检测过程中预测的边界框的轴线对准，系统可以将扭曲(即，变换)限制为沿着接收的图像的二个维度是可分离的，使得T^-1(x，y)＝(T^-1 _x(x)，T^-1 _y(y))。对于每个维度，显著图可以用于使用下面的方程式引导扭曲：

其中，k是距离核(例如，高斯核)，并且S(x′,y′)为接收的图像生成的显著图。

通常，显著性引导的空间变换的卷积形式倾向于裁剪图像，这对于图像分类可能是可接受的，在此情况下边界周围存在大的余量。然而，物体检测中的任何裁剪创建错过物体的机会。在某些实施方式中，可以使用显著图上的反射填充，同时在上述方程式中应用引力核，以便减少反裁剪正规化。具体地，反射填充引入关于显著图的每条边的对称性，消除沿着垂直图像边缘的所有水平偏移，反之亦然，从而取消裁剪。典型地，物体检测对裁剪的容忍度比图像分类对裁剪的容忍度低，因为物体不仅在中心出现而且在图像的边缘附近出现，并且先前的图像扭曲方法很容易受到这个问题的影响。上述对扭曲公式的反裁剪修改克服这样的问题。

在208，系统可以将扭曲图像输入到任何现在或以后已知的物体检测模型中以输出扭曲图像中的边界框预测。这样的边界框预测本质上是空间性的并且通常是扭曲的。

系统可以使用上述确定的反变换模型T^-1以将边界框预测的坐标从扭曲图像空间反变换到接收的图像空间(210)中的坐标。换句话说，扭曲图像中的预测边界框的像素坐标转换为接收的图像中的像素坐标。由于通过反向映射T^-1实施标准图像扭曲，反向映射已经在训练过的模型或网络中计算，并且可以直接应用于预测边界框的像素坐标，具体地，下面的方程式可以用于生成接收的图像中的边界框预测：

f’(I,T)＝T^-1(f(W_T (I)))

其中，f(.)是返回预测检测的边界框像素坐标的非线性函数。

图5说明反变换为接收的图像(502)的边界框预测的扭曲图像中的示例边界框预测(501)。扭曲图像和/或边界框预测(在未扭曲空间中)可以被存储以例如用于自主车辆的导航。

由于对于许多物体检测算法来说，标签L本身是空间定义的(例如，边界框坐标或语义像素标签)，从扭曲图像生成的标签可能是扭曲的。为了产生一致的输出(例如，用于计算训练过程中的边界框损失)，这些扭曲输出需要转换为接收的图像的原始空间。因此，上述反变换函数输出反向扭曲标签。应该注意的是尽管上面的描述将边界框标签用作为示例，但本公开不如此限制，并且任何可以用于为比如语义像素标签这样的其他类型的空间定义标签生成扭曲图像和未扭曲图像的标签。因此，上面描述的方法可以用于最小化给定图像标签对的训练集所学习的物体检测模型的损失(f(I)，L)。

上述公开描述弹性放大图像的某些区域同时保持小的输入画布以生成下采样扭曲图像的注意方法。放大区域是被认为高概率包括物体的那些区域，它们的信号可以来自根据最近的物体预测计算的数据集范围先验或帧级先验。例如，通过基于KDE的映射实施放大以将边界框转换为扭曲参数，扭曲参数然后输入图像采样器中以生成具有某些放大区域的扭曲图像。扭曲图像可以输入物体检测模型中，然后是可微分的反向映射的物体检测模型以得到原始图像空间中的边界框输出。这样的区域放大在不产生高分辨率处理的成本的情况下允许基于图像的算法更好地使用高分辨率输入。

一旦检测到边界框，就可选地确定检测的物体(例如，比如车辆、行人等这样的物体的特定实例)在边界框内的轨迹。确定物体轨迹的技术是众所周知的。物体轨迹然后可选地用于控制移动平台(例如，自主车辆)的自主操作。例如，预测的长方体用于确定相应物体的轨迹。物体轨迹然后可以用于促进平台轨迹的生成，使移动平台遵循平台轨迹。随后，执行212，在212结束方法200或执行其他操作。

在方法200中生成的预测(例如，长方体)实例掩码以及人行道语义掩码可以由移动平台用于物体轨迹预测、一般场景理解、平台轨迹生成和/或碰撞避免。图7中提供的框图，对理解如何根据基于修改的图像估计的物体相关信息实现平台控制是有用的。在图6中执行的全部或部分操作可以由移动平台(例如，图1中的101)的车载计算装置和/或远程计算装置(例如，图1的远程服务器106)执行。

在框602中，检测移动平台的位置。可以基于从移动平台的位置传感器(例如，图7的位置传感器760)输出的传感器数据进行这种检测。这种传感器数据可以包括但不限于GPS数据。指定移动平台的检测位置的信息620然后传递到框606。

在框604中，在移动平台附近检测物体。基于从移动平台的摄像机(例如，图7的摄像机762)输出的传感器数据和/或通过移动平台的LiDAR系统(例如，图7的LiDAR系统764)生成的LiDAR数据集进行这种检测。在上面关于图2讨论实现基于图像的感知的方式。关于检测的物体的基于图像的感知信息622传递至框606。这种信息包括但不限于长方体信息(例如，物体的位置、物体的取向和物体的空间范围)，物体的初始预测轨迹、物体的速度和/或物体的分类。初始预测的物体轨迹可以包括但不限于在物体的行进方向上指向的直线路径。

在框606中，使用来自框602和604的信息生成平台轨迹。用于确定平台轨迹的技术在本领域是众所周知的。可以在此没有限制地使用用于确定平台轨迹的任何已知或将要已知的技术。例如，在某些场景中，这样的技术包括确定移动平台的轨迹，当物体在移动平台前面时移动平台的轨迹将要经过物体，物体具有与移动平台移动的方向对齐的行进方向，并且物体具有大于阈值的长度。目前的解决方案不限于这个场景的细节。可以基于信息620、基于图像的感知信息622和/或预先存储在移动平台的数据存储中的道路地图626来确定平台轨迹624。平台轨迹624可以表示光滑路径，光滑路径不具有在其他方面给乘客带来不适的突然变化。例如，通过沿着道路的给定车道行驶的路径定义平台轨迹，在给定的时间量内未预测到物体在给定车道中行驶。然后将平台轨迹624提供给框608。

在框608中，基于平台轨迹624生成转向角和速度指令。转向角和速度指令提供给框610以用于动态控制。

值得注意的是，本文件在自主车辆的背景下描述目前的解决方案。然而，目前的解决方案不限于自主车辆应用。可以在比如机器人应用、雷达系统应用、度量应用、和/或系统性能应用这样的其他应用中使用目前的解决方案。

现在参照图7，提供用于比如自主车辆这样的移动平台700的说明性系统架构的图示。如图7所示，移动平台700包括发动机或马达702以及用于测量移动平台的各种参数的各种传感器704-718。在气体动力或具有燃料动力发动机的混合动力移动平台中，传感器可以包括例如发动机温度传感器704、电池电压传感器706、发动机每分钟转数(RPM)传感器708和节气门位置传感器710。如果移动平台是电动或混合动力移动平台，则移动平台可以具有电动马达，并且相应地将具有比如电池监测系统712(以测量电池的电流、电压和/或温度)、马达电流传感器714和马达电压传感器716、以及比如解析器和编码器718这样的马达位置传感器这样的传感器。

例如，对两种类型的移动平台常见的运行参数传感器包括：比如加速度计、陀螺仪和/或惯性测量单元这样的定位传感器736；速度传感器738；以及里程表传感器740。移动平台也可以具有时钟742，系统使用时钟742来确定在运行期间的移动平台时间。时钟742可以被编码到车载计算装置中，时钟742可以是单独的装置，或可能多个时钟是可用的。

移动平台也将包括操作以搜集关于移动平台正在其中行驶的环境的信息的各种传感器。例如，这些传感器可以包括：位置传感器760(例如，全球定位系统(GPS)装置)；以及比如一个或多个基于图像的传感器(例如，摄像机)这样的感知传感器762，无线电探测和测距传感器(radar)、声纳传感器、光探测和测距传感器(LiDAR系统764)等。传感器也可以包括比如降水传感器和/或环境温度传感器这样的环境传感器768。感知传感器可以使移动平台能够检测在移动平台700的给定距离范围内的在任何方向上的物体，而环境传感器收集关于移动平台的行驶区域内的环境条件的数据。

在运行期间，信息从传感器通信到车载计算装置720。车载计算装置720可以(i)使传感器信息从移动平台通信至外部装置(例如，图1的计算装置101)和/或(ii)使用传感器信息来控制移动平台的操作。例如，车载计算装置720可以：通过制动控制器732控制制动；通过转向控制器724控制方向；通过(气体动力车辆中的)节气门控制器226或马达转速控制器728(比如电动车辆中的电流电平控制器)控制速度和加速度；控制(具有变速器的车辆中的)差动齿轮控制器730；和/或控制其他控制器。

地理位置信息可以从位置传感器760通信到车载计算装置720，车载计算装置720然后可以访问对应于位置信息的环境地图以确定比如街道、建筑物、停车标志和/或停止/通行信号这样的已知环境固定特征。

在某些场景中，车载计算装置720检测移动物体并且当进行这样的检测时执行操作。例如，车载计算装置720可以为检测的物体生成一个或多个可能的物体轨迹，并且分析可能的物体轨迹以在自主车辆遵循给定的平台轨迹时评估物体和自主车辆之间的碰撞风险。如果风险不超过可接受阈值，则车载计算装置720可以使移动平台200遵循给定的平台轨迹。如果风险超过可接受阈值，则车载计算装置720执行操作以：(i)确定替代平台轨迹并且分析如果移动平台遵循这个替代平台轨迹则是否可以避免碰撞；或(ii)使移动平台执行机动(例如，制动、加速或转向)。

移动平台也可以通过比如那些已知为车辆与车辆、车辆与物体或其他V2X通信链路这样的一个或多个无线通信链路从通信装置(比如收发器、信标和/或智能手机)接收状态信息、描述性信息或关于其环境中的装置或物体的其他信息。术语“V2X”指的是车辆和车辆可以遇到或在车辆环境中有影响的任何物体之间的通信。

此外，自主车辆可以包括可以生成和输出界面的车载显示装置(在这里未示出)，传感器数据、车辆状态信息或由本文件中描述的进程生成的输出在界面上向车辆的乘员显示。显示装置可以包括或单独装置可以是以音频格式呈现这样的信息的音频扬声器。

在本文件中讨论的各种实施例中，描述可以陈述车辆或车辆的车载计算装置可以实施编程指令，编程指令使车辆的车载计算装置做出决定并且使用决定控制一个或多个车辆系统的操作。然而，实施例不限于这种设置，因为在各种实施例中，分析、做出决策和或操作控制可以完全或部分地由与车辆的车载计算装置电子通信的其他计算装置处理。这样的其他计算装置的示例包括与车辆中乘坐的人相关联的电子装置(比如智能手机)以及通过无线通信网络与车辆电子通信的远程服务器。

图8描述可以包括在比如自主车辆的内部处理系统或远程服务器这样的系统的任何电子元件中的内部硬件的示例。电力总线800用作使硬件的其他图示组件互相连接的信息高速公路。处理器805是系统的中央处理装置，配置成执行计算和逻辑操作，计算和逻辑操作是执行编程指令所需的。如在本文件以及在权利要求中所使用的，术语“处理器”和“处理装置”可以指的是单个处理器或共同执行一组操作的一组处理器中的任何数量的处理器，比如中央处理单元(CPU)、图形处理单元(GPU)、远程服务器或这些的组合。只读存储器(ROM)、随机存取存储器(RAM)、闪存、硬盘驱动以及能够存储电子数据的其他装置构成存储装置825的示例。存储装置可以包括单个装置或装置集合，数据和/或指令存储在单个装置或装置集合中。各种实施例可以包括计算机可读介质，计算机可读介质包含配置成使一个或多个处理器执行在前面附图的背景下描述的功能的编程指令。

可选的显示界面830可以允许来自总线800的信息以视觉、图形或字母数字格式在比如车辆的仪表盘内显示系统这样的显示装置835上显示。也可以提供音频接口和音频输出(比如扬声器)。可以使用比如无线天线、射频识别(RFID)标签和/或短程或近场通信收发器这样的各种通信装置840发生与外部装置的通信，每一个通信装置可以可选地通过一个或多个通信系统与装置的其他部件通信连接。通信装置840可以配置成通信地连接到通信网络，比如因特网、局域网或蜂窝电话数据网络。

硬件也可以包括允许从比如键盘或小键盘、操纵杆、触摸屏、触摸板、遥控器、指向装置和/或麦克风这样的输入装置850接收数据的用户界面传感器845。也可以从可以捕获视频和/或静止图像的摄像机820接收数字图像帧。系统也可以从比如加速度计、陀螺仪或惯性测量单元这样的运动和/或位置传感器870接收数据。当在自主车辆的背景下使用时，系统也可以包括数据以及通过LiDAR系统860接收数据。上述公开的特征和功能以及替代可以组合成许多其他不同的系统或应用程序。可以在硬件或软件或嵌入式软件中实施各种组件。可以由本领域的技术人员做出各种目前无法预见或未预料到的替代、修改、变化或改进，替代、修改、变化或改进中的每一个也旨在由公开的实施例包含。

因此，本公开包括实施公开的处理高分辨率图像(例如，以及由车辆接收的图像)的系统和方法。在各种场景中，方法可以包括接收高分辨率图像以及使用显著性模型生成接收的图像的显著图。显著图可以包括与高分辨率图像的多个像素中的每一个相关联的显著性值。方法也包括使用显著图生成表示扭曲图像中的一个或多个第一像素坐标到高分辨率图像中的一个或多个第二像素坐标的逆映射的反变换函数，以及使用反变换函数实施将高分辨率图像转换为扭曲图像的图像扭曲。可选地，扭曲图像可以是至少一个区域的分辨率高于扭曲图像的一个或多个其他区域的有凹图像。扭曲图像可以保存到数据存储。

在任何上述实施例中，方法也可以包括生成扭曲图像的参照系中的一个或多个边界框预测(例如，使用扭曲图像)。可以使用反变换函数将扭曲图像中的一个或多个边界框预测的坐标变换为高分辨率图像的参照系中的一个或多个边界框预测的第二坐标。可选地，一个或多个边界框预测的第二坐标可以用于控制自主车辆的导航。

在任何上述实施例中，方法可以包括基于包括高分辨率图像的视频流的至少一个先验帧中的一个或多个边界框预测生成显著性模型，并且在此情况下在至少一个先验帧之后捕获高分辨率图像。此外和/或可替代地，可以基于包括训练数据集的数据集范围先验中的一个或多个边界框预测生成显著性模型。

在任何上述实施例中，扭曲图像中具有较高分辨率的至少一个区域具有高的可能性包括感兴趣的物体。可选地，可以降低扭曲图像的一个或多个其他区域的分辨率。

在任何上述实施例中，可以使用反变换函数实施用于将高分辨率图像转换为扭曲图像的图像扭曲，通过为扭曲图像的多个像素中的每一个找到高分辨率图像中的输入像素，以及从与输入像素相邻的高分辨率图像中的一个或多个像素对那些像素的强度或颜色进行双线性插值。

可选地，反变换函数可以是使用反向传播进行训练的可微函数。

此外和/或可替代地，在任何上述实施例中，可以对于显著图的多个边中的每一个引入对称性以用于裁剪正规化扭曲图像。

在任何上述实施例中，实施系统可以包括：处理器；以及包括编程指令的非暂时性计算机可读存储介质，编程指令配置成使处理器实施用于操作自动化系统的方法。此外和/或可替代地，非暂时性计算机可读存储介质和编程指令可以包括在计算机程序产品中。

上面提供的与本公开有关的术语包括：

术语“车辆”指的是能够运载一个或多个人类乘员和/或货物并且由任何形式的能量提供动力的任何移动形式的交通工具。术语“车辆”包括但不限于轿车、卡车、货车、火车、自主车辆、飞机、无人驾驶飞机等。“自主车辆”(或“AV”)是具有处理器、编程指令和在不需要人类操作员的情况下可由处理器控制的传动系部件的车辆。自主车辆可以是完全自主的，因为大多数或所有的驾驶条件和功能都不需要人类操作员，或自主车辆可以是半自主的，因为在某些条件下或某些操作可能需要人类操作员，或因为人类操作员可以超驰控制车辆的自主系统并且可以控制车辆。

“机器学习模型”或“模型”指的是在没有被明确编程的情况下的一组算法例程和参数，算法例程和参数可以基于一组输入特征预测真实世界过程的输出(例如，物体轨迹的预测、患者的诊断或治疗、基于用户搜索查询的合适推荐等)。可以在训练过程中确定软件例程的结构(例如，子程序的数量以及子程序之间的关系)和/或参数的值，训练过程可以使用正在建模的真实世界过程的实际结果。这样的系统或模型被理解为必然植根于计算机技术，并且实际上，在没有计算技术的情况下这样的系统或模型不能实施或甚至不能存在。尽管机器学习系统利用各种类型的统计分析，但在没有明确编程且植根于计算机技术的情况下通过学习能力将机器学习系统与统计分析相区别。

典型的机器学习流水线可以包括根据样本数据集(被称为“训练集”)建立机器学习模型，根据一个或多个附加样本数据集(被称为“验证集”和/或“测试集”)评估模型以决定是否保留模型以及衡量模型有多好，并且在“生产”中使用模型以根据由应用服务捕获的实时输入数据做出预测或决定。训练集、验证集和/或测试集，以及机器学习模型通常难以获得并且应该保密。目前的公开描述用于提供保护数据集以及机器学习模型的隐私和完整性的安全机器学习流水线的系统和方法。

术语“边界框”指的是表示物体的位置的矩形框。边界框可以通过对应于方框的第一角(比如右上角)的x-和y-轴坐标【x_max，y_max】，连同对应于与第一角相对的矩形的角(比如左下角)对应的x-和y-轴坐标【x_min，y_min】用数据来表示。边界框可以被计算为包含物体的所有点的最小的矩形，可选地加上附加空间以允许有误差范围。物体的点可以是通过一个或多个传感器检测的那些，比如由摄像机捕获的图像的像素，或由LiDAR传感器捕获的电云的点。

术语“物体”，当指的是通过车辆感知系统检测或由仿真系统仿真的物体时，旨在包括静止物体和移动(或潜在移动)活动体，除非通过使用术语“活动体”或“静止物体”另有明确规定。

“电子装置”或“计算装置”指的是包括处理器和存储器的装置。每个装置可以具有其自己的处理器和/或存储器，或处理器和/或存储器可以与如虚拟机或容器设置中的他装置共享。存储器将包含或接收编程指令，当由处理器执行时，编程指令使电子装置根据编程指令执行一个或多个操作。

术语“存储器”、“存储装置”、“数据可读介质”、“数据存储”、“数据存储设施”等各自指的是非暂时性装置，计算机可读数据、编程指令或两者存储在非暂时性装置上。除非另有明确规定，术语“存储器”、“存储装置”、“计算机可读介质”、“数据存储”、“数据存储设施”等旨在包括单个装置实施例，一起或共同存储一组数据或指令的多个存储装置以及这种装置内的单独扇区的实施例。

术语“处理器”和“处理装置”指的是配置成执行编程指令的电子装置的硬件组件，比如微处理器或其他逻辑电路。处理器和存储器可以是微控制器、定制可配置的集成电路、可编程系统级芯片，或可以被编程以执行各种功能的其他电子装置。除非另有明确规定，单一术语“处理器”或“处理装置”旨在包括单个处理装置实施例和一起或共同执行过程的多个处理装置的实施例。

在本文件中，术语“通信链路”和“通信路径”意指有线或无线路径，第一装置通过有线或无线路径向一个或多个其他装置发送通信信号和/或从一个或多个其他装置接收通信信号。如果装置能够通过通信链路发送和/或接收数据，则装置是“通信地连接”。“电子通信”指的是无论通过有线还是无线网络以及无论直接还是间接通过一个或多个中间装置而在两个或两个以上电子装置之间通过一个或多个信号来传输数据。

在本文件中，当比如“第一”和“第二”这样的顺序的相关术语用于修饰名词时，这样的使用仅旨在将项目彼此区分开，并且不旨在要求顺序排列，除非明确规定。

Claims

1.一种用于处理高分辨率图像的方法，所述方法包括通过处理器：

接收高分辨率图像；

使用显著性模型生成所述高分辨率图像的显著图，所述显著图包括与所述高分辨率图像的多个像素中的每一个相关联的显著性值；

使用所述显著图生成表示将扭曲图像中的一个或多个第一像素坐标逆映射到所述高分辨率图像中的一个或多个第二像素坐标的反变换函数；

使用所述反变换函数实施用于将所述高分辨率图像转换为所述扭曲图像的图像扭曲，所述扭曲图像是至少一个区域的分辨率高于所述扭曲图像的一个或多个其他区域的有凹图像；以及

将所述扭曲图像保存到数据存储。

2.根据权利要求1所述的方法，进一步地包括：

使用物体检测模型生成在所述扭曲图像的参照系中的一个或多个边界框预测；以及

使用所述反变换函数将所述扭曲图像中的一个或多个边界框预测的第一坐标转换为所述高分辨率图像的参照系中的一个或多个边界框预测的第二坐标。

3.根据权利要求2所述的方法，进一步地包括使用一个或多个边界框预测的第二坐标来控制自主车辆的导航。

4.根据权利要求1所述的方法，进一步地包括基于视频流的至少一个先验帧中的一个或多个边界框预测生成显著性模型，所述高分辨率图像是所述视频流的一部分并且在至少一个先验帧之后被捕获。

5.根据权利要求1所述的方法，进一步地包括基于包括训练数据集的数据集范围先验中的一个或多个边界框预测生成显著性模型。

6.根据权利要求1所述的方法，其中所述扭曲图像中具有较高分辨率的至少一个区域具有高的可能性包括感兴趣的物体。

7.根据权利要求1所述的方法，进一步地包括降低所述扭曲图像的一个或多个其他区域的分辨率。

8.根据权利要求1所述的方法，其中使用所述反变换函数实施用于将所述高分辨率图像转换为所述扭曲图像的所述图像扭曲包括对所述扭曲图像的多个像素中的每一个：

找到所述高分辨率图像中的输入像素；以及

从与所述输入像素相邻的所述高分辨率图像中的一个或多个像素对像素的强度或颜色进行双线性插值。

9.根据权利要求1所述的方法，其中所述反变换函数是使用反向传播进行训练的可微分函数。

10.根据权利要求1所述的方法，进一步地包括对于所述显著图的多个边的每一个引入对称性以用于裁剪正规化所述扭曲图像。

11.一种用于处理高分辨率图像的系统，所述系统包括：

处理器；以及

包括编程指令的非暂时性计算机可读介质，所述编程指令在由所述处理器执行时将使所述处理器：

接收高分辨率图像；

使用所述显著图生成表示扭曲图像中的一个或多个第一像素坐标逆映射到所述高分辨率图像中的一个或多个第二像素坐标的反变换函数；

将所述扭曲图像保存到数据存储。

12.根据权利要求11所述的系统，进一步地包括编程指令，所述编程指令在由所述处理器执行时，将使所述处理器：

使用物体检测模型生成所述扭曲图像的参照系中的一个或多个边界框预测；以及

13.根据权利要求12所述的系统，进一步地包括编程指令，所述编程指令在由所述处理器执行时将使所述处理器使用一个或多个边界框预测的第二坐标来控制自主车俩的导航。

14.根据权利要求11所述的系统，进一步地包括编程指令，所述编程指令在由所述处理器执行时将使所述处理器基于视频流的至少一个先前帧中的一个或多个边界框预测生成所述显著性模型，所述高分辨率图像是所述视频流的一部分并且在至少一个先验帧之后被捕获。

15.根据权利要求11所述的系统，进一步地包括编程指令，所述编程指令在由所述处理器执行时将使所述处理器基于包括训练数据集的数据集范围先验中的一个或多个边界框预测生成所述显著性模型。

16.根据权利要求11所述的系统，其中所述扭曲图像中具有较高分辨率的至少一个区域具有高可能性包括感兴趣的物体。

17.根据权利要求11所述的系统，进一步地包括编程指令，所述编程指令在由所述处理器执行时将使所述处理器降低所述扭曲图像的一个或多个其他区域的分辨率。

18.根据权利要求11所述的系统，其中在由所述处理器执行时将使所述处理器使用所述反变换函数实施用于将所述高分辨率图像转换为所述扭曲图像的所述编程指令进一步地包括编程指令，所述编程指令使所述处理器对于所述扭曲图像中的多个像素中的每一个：

找到所述高分辨率图像中的输入像素；以及

从与所述输入像素相邻的所述高分辨率图像中的一个或多个像素对像素的强度或颜色进行双线插值。

19.根据权利要求11所述的系统，其中所述反变换函数是使用反向传播进行训练的可微分函数。

20.一种用于处理高分辨率图像的计算机程序产品，所述计算机程序产品包括存储编程指令的存储器，所述编程指令配置成使处理器：

接收高分辨率图像；

将所述扭曲图像保存到数据存储。