CN115830569A

CN115830569A - 诊断和改进可移动对象的深度学习模型的视觉分析系统

Info

Publication number: CN115830569A
Application number: CN202211135607.1A
Authority: CN
Inventors: 何文彬; 苟良; 邹林灿; 任骝
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-09-17
Filing date: 2022-09-19
Publication date: 2023-03-21
Also published as: US20230085938A1; JP2023044674A; DE102022209528A1

Abstract

本文公开了用于诊断用于自主驾驶的对象检测机器学习模型的系统和方法的实施例。从安装在车辆中或车辆上的示出场景的相机接收输入图像。使用情境感知空间表示机器学习模型来导出场景内的可移动对象的空间分布。利用空间对抗机器学习模型，在场景中生成最初不在输入图像中的看不见的对象。通过空间对抗机器学习模型，将所述看不见的对象移动到不同的位置，以使对象检测机器学习模型失败。交互式用户界面使得用户能够分析对象检测机器学习模型关于没有看不见的对象的场景和具有看不见的对象的场景的性能。

Description

诊断和改进可移动对象的深度学习模型的视觉分析系统

技术领域

本公开涉及用于诊断和改进针对自主驾驶中可移动对象的深度学习模型的视觉分析系统。

背景技术

自主驾驶允许车辆能够感测其环境，并在很少或没有人工输入的情况下安全移动。许多系统使自主驾驶成为可能。一个这样的系统是语义分割。语义分割涉及从安装在车辆中或车辆上的相机取得图像，在像素级将输入图像分割成语义上有意义的区域，并为每个区域分配语义标签，诸如行人、汽车、道路等。

深度卷积神经网络（CNN）在自主驾驶的感知系统中发挥着越来越重要的作用，包括对象检测和语义分割。尽管CNN的性能优越，但出于安全考虑，在将它们部署到自主驾驶汽车之前，需要对模型的准确性和鲁棒性进行彻底的评估。一方面，应该对具有大量语义类和数据源的对象分析模型的准确性，以充分理解模型何时以及为什么可能失败。另一方面，标识和理解模型的潜在脆弱性对于提高模型对未知驾驶场景的鲁棒性至关重要。

发明内容

根据实施例，提供了一种用于诊断用于自主驾驶的对象检测机器学习模型的计算机实现的方法。该计算机实现的方法包括：从示出场景的相机接收输入图像；利用情境感知空间表示机器学习模型导出场景内可移动对象的空间分布；利用空间对抗机器学习模型来在场景中生成不在输入图像中的看不见的对象；经由空间对抗机器学习模型，将看不见的对象移动到不同的位置，以使对象检测机器学习模型失败；以及输出交互式用户界面，该交互式用户界面使得用户能够分析对象检测机器学习模型关于没有看不见的对象的场景和具有看不见的对象的场景的性能。

根据一个实施例，提供了一种用于诊断具有人在回路的用于自主驾驶的对象检测机器学习模型的系统。该系统包括用户界面。该系统包括存储从示出车辆外部场景的相机接收的输入图像的存储器，该存储器进一步存储与情境感知空间表示机器学习模型相对应的程序指令，所述情境感知空间表示机器学习模型被配置为确定场景内的对象的空间信息，并且该存储器进一步存储与空间对抗机器学习模型相对应的程序指令，所述空间对抗机器学习模型被配置为生成看不见的对象并将其插入到场景中。该系统包括通信地耦合到存储器的处理器，并且所述处理器被编程为：经由语义分割生成场景的语义掩模，利用情境感知空间表示机器学习模型基于语义掩模来确定场景内可移动对象的空间分布，利用空间对抗机器学习模型来在场景中生成不在输入图像中的看不见的对象，利用空间对抗机器学习模型将所述看不见的对象移动到不同的位置，以使对象检测机器学习模型失败，并且在用户界面上输出视觉分析，该视觉分析允许用户分析对象检测机器学习模型关于没有看不见的对象的场景和具有看不见的对象的场景的性能。

根据一个实施例，一种系统包括存储器，所述存储器存储（i）从示出车辆外部场景的相机接收的输入图像，（ii）与输入图像相关联的语义掩模，（iii）与情境感知空间表示机器学习模型相对应的程序指令，所述情境感知空间表示机器学习模型被配置为确定场景内的对象的空间信息，以及（iv）与空间对抗机器学习模型相对应的程序指令，所述空间对抗机器学习模型被配置为生成看不见的对象并将其插入到场景中。该系统包括一个或多个处理器，所述一个或多个处理器与存储器通信，并且被编程为经由情境感知空间表示机器学习模型将场景内的可移动对象的坐标编码到潜在空间中，并且利用解码器重构坐标以确定可移动对象的空间分布。所述一个或多个处理器进一步被编程为经由空间对抗机器学习模型，通过（i）采样场景的一部分的潜在空间坐标以映射边界框，（ii）从存储器中检索具有相似边界框坐标的对象，以及（iii）将对象放置到边界框中，来在场景中生成不在输入图像中的看不见的对象。所述一个或多个处理器进一步被编程为经由空间对抗机器学习模型，利用空间对抗机器学习模型将看不见的对象移动到不同的位置，以试图使对象检测机器学习模型失败。所述一个或多个处理器进一步被编程为在用户界面上输出视觉分析，该视觉分析允许用户分析对象检测机器学习模型关于没有看不见的对象的场景和具有看不见的对象的场景的性能。

附图说明

图1是根据实施例的执行视觉分析工具及其底层机器学习模型的系统的示意图。

图2是根据实施例的从输入图像产生预测掩模的机器学习模型的示意图。

图3是根据实施例的系统的示意图，该系统被配置为诊断和提高关于可移动对象的语义分割模型的准确性和鲁棒性。

图4是根据实施例的情境感知空间表示机器学习模型的示意图。

图5是根据实施例的空间对抗机器学习模型的示意图。

图6是根据实施例的被配置为在用户界面上输出MatrixScape视图或区域的系统的示意图。

图7是根据实施例的城市驾驶场景的语义分割模型的性能景观视图，作为在用户界面上可见的MatrixScape视图的示例。

图8是根据实施例的两个数据集的比较的框图，在这种情况下是训练或原始数据集和对抗数据集，其中每个块可以被展开以看到由该块表示的图像。

图9是由本文公开的（一个或多个）处理器实现的方法或算法的流程图。

具体实施方式

本文描述了本公开的实施例。然而，应当理解，所公开的实施例仅仅是示例，其他实施例可以采取各种且替代的形式。附图不一定按比例；一些特征可以被放大或缩小以示出特定组件的细节。因此，本文公开的具体结构和功能细节不应被解释为限制性的，而仅仅是作为教导本领域技术人员以各种方式采用实施例的代表性基础。如本领域普通技术人员应当理解的，参考任一附图图示和描述的各种特征可以与一个或多个其他附图中图示的特征相组合，以产生没有明确图示或描述的实施例。所图示的特征的组合提供了典型应用的代表性实施例。然而，对于特定的应用或实现，可能期望与本公开的教导一致的特征的各种组合和修改。

自主汽车需要感知和理解驾驶场景，以做出正确的决策。语义分割通常用于自主驾驶系统中，以识别驾驶区域并检测道路上的重要对象，诸如行人、汽车等。虽然语义分割可用于各种技术——即，不仅仅是图像——中，但是本公开聚焦于图像数据的语义分割，其将图像（例如，从安装在车辆中或车辆上的相机拍摄的）划分成像素级的语义上有意义的区域，并将每个区段分类到类中（例如，道路、行人、车辆、汽车、建筑物等）。图1示出了一个工作中的语义分割的示例。输入图像被馈入一个或多个机器学习模型，该模型输出预测掩模。预测掩模是将输入图像中看到的各种项目划分成多个区段并将每个区段分类到类中的图像。相似的类可以用相似的颜色或阴影来着色或遮蔽。语义分割允许自主车辆系统更好地理解车辆周围的对象，以便可以控制车辆安全驾驶。

当前自主驾驶的视觉分析解决方案主要聚焦于对象检测，而语义分割模型在该领域的研究较少。评估和诊断语义分割模型何时以及为什么可能无法检测关键对象是具有挑战性的。通常存在大量数据集要测试，并且因此快速标识故障情况并诊断这些错误、尤其是与场景情境相关的错误的根本原因是具有挑战性的。例如，行人可能被语义分割模型遗漏，因为他穿着与情境中的交通锥颜色相似的衣服。此外，尽管模型在其通常的情境中看到大多数对象，诸如开阔区域和人行道中的行人，但是存在一些先前未看到的取决于情境的位置，诸如卡车和柱子之间的人，其可能无法被语义分割模型检测到。揭示这些潜在的风险并评估对象探测器在这些边缘情况下的空间鲁棒性是具有挑战性的。

深度卷积网络（CNN）在用于自主驾驶的感知系统中扮演着越来越重要的角色，诸如对象检测和语义分割。尽管CNN的性能优越，但是由于安全考虑，在将它们部署到自主汽车之前，需要对它们进行彻底的评估，为此，视觉分析被广泛用于分析、解释和理解复杂CNN的行为。已经提出了一些视觉分析方法来分析CNN，这些方法主要聚焦于模型解释和诊断。模型解释旨在通过直接可视化神经元和特征图或者利用可解释的替代模型（例如，线性模型）来打开CNN的黑盒。模型诊断聚焦于通过总结和比较模型的预测结果以及分析潜在的漏洞来评估和理解模型的性能。

在本文公开的实施例中，系统首先从给定的驾驶场景中学习对象的情境感知空间表示，诸如定位、大小和长宽比。利用这种空间表示，系统可以（1）估计不同驾驶场景中对象的空间信息（例如，可能的定位、大小和长宽比）的分布，（2）总结和解释模型关于对象的空间信息的性能，以及（3）通过考虑场景情境将新的对象适当地插入驾驶场景来生成新的测试用例。在实施例中，该系统还随后使用对抗学习来通过在所学习的空间表示内扰乱或改变对象的定位和大小来有效地生成看不见的测试示例。然后，视觉分析系统可视化并且分析模型在自然和对抗数据上的性能，并导出可行的见解，以提高模型的准确性和空间鲁棒性。所有这些都是在可以由人类操作的交互式视觉分析系统中完成的。

更具体地说，如下面将关于附图进一步描述的，本文公开了一种视觉分析系统，用于评估、解释和改进用于自主驾驶中的关键对象检测的语义分割模型。视觉分析系统使用情境感知表示学习（图4）来学习给定场景中可移动对象的空间分布。该模型通过将边界框坐标编码到低维潜在空间中，并且然后利用解码器重构所述框来学习空间信息。该系统还使用语义掩模作为条件输入，以迫使空间分布取决于场景情境。以这种方式，潜在维度捕获可移动对象的可解释空间分布。这有助于系统向用户提供可视工具，以帮助可视地理解关于对象的信息，诸如其定位（例如，左到右，或近到远）。它还有助于解释对象的整体性能。如将要描述的，该系统还包括空间对抗机器学习模型（图5），以在情境内的不同位置生成看不见的对象，并测试模型的鲁棒性。给定一个驾驶场景，系统可以生成另一个可移动对象，通过对其位置的微小有意义的改变来使检测器失败。这可以通过从空间潜在空间中采样对象的可能位置来完成。该位置取决于给定的场景掩模。可以改变潜在维度以生成可能使检测器失败的新位置。对抗梯度估计可以实现这一点。潜在维度上的最小改变量可以指示空间鲁棒性。利用原始数据和生成对抗数据，视觉分析系统可以产生用户界面，以使得人类能够分析和改进语义分割模型（图6-图8）。这些图将在下面更详细地描述。

图2描绘了能够并且被配置为执行本文公开的系统的总体系统100，包括视觉分析工具及其底层机器学习模型。系统100可以包括至少一个计算系统102。计算系统102可以包括至少一个处理器104，其可操作地连接到存储单元108或存储器。处理器104可以包括实现中央处理单元（CPU）106的功能的一个或多个集成电路。CPU 106可以是实现诸如x86、ARM、Power或MIPS指令集系列之一的指令集的市场上可买到的处理单元。在操作期间，CPU 106可以执行从存储器单元108检索的存储的程序指令。存储的程序指令可以包括控制CPU 106的操作以执行本文描述的操作的软件。在一些示例中，处理器104可以是片上系统（SoC），其将CPU 106、存储器单元108、网络接口和输入/输出接口的功能集成到单个集成设备中。计算系统102可以实现用于管理操作的各方面的操作系统。

存储器单元108可以包括用于存储指令和数据的易失性存储器和非易失性存储器。非易失性存储器可以包括固态存储器，诸如NAND闪存、磁和光存储介质，或者当计算系统102被停用或失去电力时保留数据的任何其他合适的数据存储设备。易失性存储器可以包括存储程序指令和数据的静态和动态随机存取存储器（RAM）。例如，存储器单元108可以存储机器学习模型110或算法、用于机器学习模型110的训练数据集112和原始源数据集115。

计算系统102可以包括网络接口设备122，其被配置为提供与外部系统和设备的通信。例如，网络接口设备122可以包括如由电气和电子工程师协会（IEEE）802.11标准族定义的有线和/或无线以太网接口。网络接口设备122可以包括用于与蜂窝网络（例如，3G、4G、5G）通信的蜂窝通信接口。网络接口设备122可以进一步被配置为向外部网络124或云提供通信接口。

外部网络124可以被称为万维网或互联网。外部网络124可以在计算设备之间建立标准通信协议。外部网络124可以允许在计算设备和网络之间容易地交换信息和数据。一个或多个服务器130可以与外部网络124通信。所述一个或多个服务器130可以具有被配置为执行本文公开的系统的存储器和处理器。

计算系统102可以包括输入/输出（I/O）接口120，其可以被配置为提供数字和/或模拟输入和输出。I/O接口120可以包括用于与外部设备通信的附加串行接口（例如，通用串行总线（USB）接口）。

计算系统102可以包括人机接口（HMI）设备118，其可以包括使得系统100能够接收控制输入的任何设备。输入设备的示例可以包括人机接口输入，诸如键盘、鼠标、触摸屏、语音输入设备和其他类似设备。计算系统102可以包括显示设备132。计算系统102可以包括用于向显示设备132输出图形和文本信息的硬件和软件。显示设备132可以包括电子显示屏、投影仪、打印机或其他合适的设备，用于向用户或操作者显示信息，并允许用户充当人在回路操作者，以通过视觉分析系统交互式地诊断机器学习模型。计算系统102可以进一步被配置为允许经由网络接口设备122与远程HMI和远程显示设备进行交互。HMI 118和显示器132可以共同向用户提供用户界面（例如，分析系统的视觉组件），这允许人类用户和（一个或多个）处理器104之间的交互。

系统100可以使用一个或多个计算系统来实现。虽然该示例描绘了实现所有所描述的特征的单个计算系统102，但是意图是各种特征和功能可以由彼此通信的多个计算单元来分离和实现。所选择的特定系统架构可能取决于各种因素，并且图1所示的系统仅仅是一个示例。

系统100可以实现机器学习算法110，该算法被配置为分析原始源数据集115。原始源数据集115可以包括原始或未处理的传感器数据或图像数据，其可以代表机器学习系统的输入数据集。原始源数据集115可以包括视频、视频片段、图像、基于文本的信息以及原始或部分处理的传感器数据（例如，对象的雷达图）。在一些示例中，机器学习算法110可以是被设计成执行预定功能的神经网络算法。例如，神经网络算法可以被配置在汽车应用中以标识图像或图像序列中的项目（例如，行人、标志、建筑物、天空、道路等），并且甚至注释图像以包括这样的项目的标签。机器学习算法110可以依赖于或包括（例如）CNN来执行这些功能。

计算机系统100可以存储用于机器学习算法110的训练数据集112。训练数据集112可以表示用于训练机器学习算法110的先前构建的数据的集合。机器学习算法110可以使用训练数据集112来学习与神经网络算法相关联的加权因子。训练数据集112可以包括源数据集，该源数据集具有机器学习算法110尝试经由学习过程复制的对应产出或结果。在该示例中，训练数据集112可以包括场景中有和没有项目的源图像或视频以及所述项目的对应存在和位置信息。

机器学习算法110可以使用训练数据集112作为输入在学习模式下操作。机器学习算法110可以使用来自训练数据集112的数据在多次迭代上执行。随着每次迭代，机器学习算法110可以基于所实现的结果更新内部加权因子。例如，机器学习算法110可以将输出结果（例如，注释、潜在变量、对抗噪声等）与包括在训练数据集112中的那些进行比较。由于训练数据集112包括预期结果，因此机器学习算法110可以确定何时性能是可接受的。在机器学习算法110达到预定的性能水平（例如，与关联于训练数据集112的产出100%一致）之后，可以使用不在训练数据集112中的数据来执行机器学习算法110。经训练的机器学习算法110可以应用于新的数据集，以生成带注释的数据。

图3提供了视觉分析系统300的概观，该视觉分析系统300被配置为诊断和提高语义分割模型关于可移动对象的准确性和鲁棒性。一般而言，系统300包括情境感知空间对抗机器学习模型和空间对抗机器学习模型这二者，以产生交互式视觉分析系统。系统300在302处使用原始数据，该原始数据包括放置在检测到的对象上的基准真值边界框，以及根据本文描述的方法从原始数据创建的对应掩模。系统300使用情境感知表示学习模型304来学习给定场景中可移动对象的空间分布。系统300还使用空间对抗机器学习模型306来测试模型鲁棒性，该模型在情境内的不同位置生成看不见的对象（例如，对抗数据308）。利用原始数据302和生成的对抗数据308，系统300产生交互式视觉分析用户界面310，以允许用户关于整个系统300利用人在回路来分析和改进语义分割模型。下文将进一步描述情境感知空间对抗机器学习模型304、空间对抗机器学习模型306和交互式视觉分析用户界面310中的每一个。

图4中更详细地示出了情境感知空间对抗机器学习模型304。情境感知空间对抗机器学习模型304通过首先将边界框坐标编码（例如，经由编码器）到低维潜在空间中，并且然后利用解码器重构这些框来学习空间信息。具体而言，模型304被配置为以给定的驾驶场景为条件提取可移动对象的空间信息的潜在表示——诸如定位、大小和长宽比。条件变分自动编码器（CVAE）适于执行情境感知空间表示学习，其包括两个主要组件：编码器

和解码器

，其中

和

是相应深度神经网络的权重。给定驾驶场景中的对象，其边界框

经由编码器被编码成潜在向量

402，具有驾驶场景的基准真值分割（例如，在每个像素定位处具有语义类标签的掩模）

作为条件。然后使用解码器

将潜在向量映射到重构的边界框

中，解码器

也以语义分割掩模作为条件。因此，条件输入

使得模型能够学习情境感知空间表示。换句话说，语义掩模被用作条件输入，以迫使空间分布取决于场景情境。以这种方式，潜在维度捕获可移动对象的可解释空间分布。

在一个实施例中，可以利用两个损失来训练CVAE，包括重构损失

和潜在损失

。重构损失用于测量输入边界框

和重构边界框

之间的差异，对于该差异，

和

之间的平均绝对误差被确定为

。潜在损失可以是近似后验分布和高斯先验之间的Kullback-Leibler散度D_KL。训练者可以使用

来解开潜在表示，其将重构损失

和潜在损失

与权重

相组合，即

。在通过实验发现的一个实施例中，

可以被设置为2e-3，以平衡重构精度和潜在表示的解开。

在训练之后，编码器和解码器可以用于数据汇总和生成。利用编码器，每个边界框可以被映射到捕获其空间信息的潜在向量402中，所述空间信息诸如相对于驾驶场景的定位和大小。潜在向量的维度也具有语义含义，诸如左到右、近到远、以及小到大。这在312处被示出为示例，其可以被提供在交互式视觉分析用户界面310内或作为其一部分，其中y轴可以是对象有多近或多远的第一潜在维度，并且x轴可以是左到右的第二潜在维度。潜在向量用于总结语义分割模型关于对象的空间信息的性能。给定从潜在空间抽取的样本，解码器可以在给定的驾驶场景中生成对象的可能定位和大小（例如，在掩模404内示出的边界框），其用于指导对抗示例的生成以用于鲁棒性测试。

返回参考图3，关于空间对抗机器学习模型306，空间对抗机器学习模型306的目标是：给定驾驶场景，生成另一个可移动对象，以通过其位置的改变来使检测器失败。可以基于所学习的空间表示来生成对抗示例，以便测试和改进语义分割模型的鲁棒性。对抗示例可以经由两个步骤来生成：（1）以语义一致的方式将新的对象适当地插入到驾驶场景中，以及（2）扰动潜在表示来调整场景中对象的空间变换（例如，定位和大小）以经由对抗学习来欺骗目标模型。这两个步骤在图5中示出，图5是空间对抗机器学习模型306的更详细视图。具体地，第一步骤（例如，对象插入502）包括通过对所学习的空间潜在空间进行采样以插入新的对象来获得对象的情境感知的可能定位。第二步骤（例如，空间对抗学习504）包括通过利用对抗学习搜索潜在空间来扰动对象的定位和大小，以使模型失败。

关于对象插入502，给定驾驶场景，系统适当地将新的对象插入场景中用于对抗搜索。现有的对象不会在场景中改变或移动，以避免引入不必要的伪影。为了使插入的对象符合场景语义（例如，行人不应被放置在天空中），利用所学习的空间表示来对可能的定位进行采样。例如，如502所示，首先使用解码器

和目标驾驶场景

的语义分割掩模

从潜在空间中抽取样本

并将其映射到边界框

中。然后，搜索（例如，存储在本文描述的存储器中的）所有训练数据以找到具有与所生成的框

最相似的边界框的对象，并且缩放和平移所检索的对象以适应边界框

。选择具有相似边界框的对象的原因是为了在缩放和平移后保持对象的保真度。为了将新的对象无缝地混合到驾驶场景中，泊松混合可以用于将对象的颜色和照明与周围情境相匹配。同时，可以在对象的边界上应用高斯模糊来减轻边界伪影。

关于空间对抗学习504，这是为了在场景中适当且高效地移动插入的对象而进行的，使得整个对象检测机器学习模型不能适当地检测它。这种想法是扰动插入对象的空间潜在表示，以找到最快的方式来移动对象从而欺骗目标模型。具体地，在一个实施例中，给定具有放置在边界框

中的对象

的驾驶场景

，通过搜索新的边界框

以放置对象来生成对抗示例，从而使得模型f不能正确预测经变换的对象的分割。为了确定模型是否失败，在具有经变换的对象

的新场景

上对其进行评估，并且将其与新的语义分割掩模

进行比较。然后计算经变换的对象

的模型性能，并将其与模型性能阈值进行比较，并且如果模型性能小于模型性能阈值，则模型失败。

为了确保新的边界框

关于驾驶场景在语义上有意义，系统可以在潜在空间中执行对抗搜索，而不是直接操纵边界框。为了找到产生对抗示例的具有最小改变的潜在向量

，系统可以采用黑盒附接方法，使得不需要明确知道语义分割模型的架构。首先，梯度估计方法与自然进化策略一起使用，以在潜在空间中找到使模型性能以最快速度下降的梯度方向。然后，潜在向量

可以以预定义的步长沿着梯度方向迭代移动，直到模型性能小于阈值。在移动对象时，仅需要应用高斯模糊来将对象与驾驶场景混合，因为焦点应当放置在由对象的空间信息的改变引起的模型的性能改变上，而不是由泊松混合引入的颜色偏移上。

利用对抗示例，系统可以解释目标模型的鲁棒性。为此，对于每个对象

，空间鲁棒性得分

被定义为通过每个潜在维度的标准偏差来归一化的潜在向量

和

之间的平均绝对误差，即

。该得分捕获了使模型失败所需的潜在空间的改变量。

在数据预处理（例如，表示和对抗学习）之后，系统可以收集原始（即，训练、验证和测试）和对抗数据以及模型的预测，以驱动提供给用户的视觉分析系统的用户界面。具体地，对于每个对象，提取其空间信息（例如，边界框、大小、潜在表示），并且提取性能度量（例如，模型性能、基准真值类和预测类）。在一个实施例中，对象的像素可以被预测为不同的类，其中对象的预测类被定义为具有最大数量像素的类。对于对抗学习，可以提取鲁棒性和梯度方向来分析攻击模式。

返回参考图3，利用原始数据302和生成对抗数据308，系统可以经由HMI设备118、显示器132等向用户呈现视觉分析系统的用户界面310。图3所示的用户界面310是用户界面如何在屏幕上显现给用户的概览或示意图。一般来说，存在三个区域供用户交互和查看：概要区域320、MatrixScape区域322以及驾驶场景区域324，如下面详细描述的那样。这些区域中的每一个可以被提供在显示器132上的单个窗口或窗格上，或者每个区域可以被四处移动或最小化，使得用户可以定制每个区域在用户界面上显示的时间和位置。

概要区域320包括对象关键性质的数据配置和统计的概要。所示出的数据可以包括数据的基本配置，包括数据划分、实例类和感兴趣的模型。此外，条形图用于示出对象关键性质的直方图，包括开发对象的大小（上图）、模型性能（中图）和模型鲁棒性（下图）。概要区域320提供模型性能的概览，并使得用户能够过滤数据以用于在MatrixScape区域322中的详细分析。例如，用户可以选择在概要区域内的各种实例类（例如，行人、汽车、卡车、公交车、火车、建筑物等），该概要区域交互地更新MatrixScape区域322中显示的数据。此外，用户可以在条形图上刷动，以通过限制对象大小、模型性能和/或鲁棒性的范围来进一步过滤数据。

在图6-7中更详细地示出了MatrixScape区域322。MatrixScape区域322从数据属性的不同方面（图6，区域a）并以不同的细节级别（图6，区域b和c）示出了许多对象的性能景观。该视图被设计成帮助用户通过跨不同语义类、数据源和模型版本比较模型性能来标识感兴趣的数据子集，并了解在情境中在对象空间信息上的模型性能。

图6示出了根据一个实施例的MatrixScape区域322的设计示意图。具有不同类型属性（a）的对象首先基于不同的分类属性被分组，并被可视化为块（b）的矩阵。可以将对象划分成组，以提供关于用户选择的分类属性（诸如基准真值/预测类、数据源或模型版本）的对象性能的概览。例如，当基于它们的基准真值类（例如，行人、汽车等）和预测类对对象进行分组时，用户可以具有模型性能的混淆矩阵视图（b1），其中每个块的大小表示其中对象的数量，并且颜色表示这些对象的平均模型性能或鲁棒性得分。用户可以在数据/模型比较（b2）中跨不同数据源或模型版本比较模型的性能，该比较按数据源或模型来组织基准真值类。用户还可以只基于一个分类属性对对象进行分组，以可视化数据分布（b3）。例如，如（b3）所示，可以通过基于基准真值类对对象进行分组来获得对象的类的分布。

在标识矩阵内感兴趣的数据块后，用户可以突出显示或选择任何一个框，以查看更详细的视图。图6示出了一个示例，其中用户已经选择了混淆矩阵（b1）的右下角的框，表示某个基准真值类和某个预测类的模型性能。结果是提供了更详细的视图（c）的MatrixScape视图。在详细视图中示出的对象基于数字属性（c1）聚合到仓（bin）中，所述属性诸如所学习的潜在表示、大小和模型性能。类似于（b）中的块视图，用户可以改变数字属性来聚合对象。例如，用户可以选择两个潜在维度，并使用这些维度上的对象潜在表示来聚合对象。在聚合之后，模型性能的空间模式可以通过为每个仓选择代表性对象并使用不同的视觉编码或表示来可视化该对象来进行可视化，诸如模型性能或鲁棒性（c3）、图像补片（c3）和语义分割补片（c4）。用户可以定义如何选择每个仓的代表性对象。此外，当仅使用一个数字属性时，可以为每个块（c5）（例如，在直方图中）可视化选择属性的数据分布。

图7示出了用于城市驾驶场景的语义分割模型的性能景观视图的示例，作为MatrixScapes视图的示例。块视图（a）基于对象基准真值和预测类被组织为混淆矩阵。在该示例中，类（基准真值和预测这二者）包括汽车、行人、自行车、骑行者、摩托车、卡车、公交车、建筑物、火车、植物、道路、栅栏、杆、人行道、交通标志、墙、地形、交通灯和天空。当然，本文公开的系统可以利用不同的、更多或更少的类。每个块的大小表示其中对象的数量，并且颜色表示这些对象的平均模型性能或鲁棒性得分。在该示例中，用户已经选择了比较行人的基准真值类和行人的预测类的框。通过选择该框，可以向用户提供在详细视图（b）中可视化的各个对象的性能景观。在该示例中，基于所学习的空间表示的两个维度来聚合对象，使得对象的空间分布可以被可视化和概括。例如，第一维度（潜在维度1）表示行人的水平定位，并且另一维度（潜在维度3）表示行人到车辆的距离。可以使用不同的视觉编码来可视化对象，诸如性能得分（在b中示出），其中每种颜色表示在那些潜在维度上的模型性能，图像补片（c）和语义分割补片（d），其有助于用户理解模型性能的空间模式。用户可以悬停在（b）中所示的性能得分矩阵中的任何块上或者选择该块，并且用户界面可以输出图像的街道视图，在该图像中检测到该对象，该对象周围具有边界框。这允许用户容易地点击（b）中所示的矩阵内的不同框，并且看到产生这样的结果性能得分的真实图像。潜在元素（左到右，近到远）和被检测对象的实际定位之间的相关性由图7中选择的各种图像示出。

为了帮助用户比较块视图中的数据组，可以基于行和列包含的对象总数或块内对象数量的变化来对行和列进行排序。例如，图8示出了用于两个数据集的行人检测的模型性能的框图，其中每行表示一个数据集（例如，训练/原始数据集和对抗数据集），并且每列表示行人的预测类。基于原始数据集和对抗数据集之间的差异对列进行排序，使得用户可以高效地标识两个数据集差异最大的类。

为了研究该图示示例中在行人分割方面的模型性能，用户可以从图8的框图（a）中看到，与原始/训练数据相比，对抗数据具有更多行人被错误分类为特定类，诸如骑行者、植物、建筑物、杆和栅栏。通过缩放或选择对抗数据中的那些单独的块，并可视化基准真值分割，如（b）所示，用户可以看到大多数错误分类是由行人和周围情境之间的交互引起的。例如，行人被放置在建筑物、杆和栅栏前，使模型失败。为了提高与这些类交互的行人的模型性能，可以生成更多与这些类交互的行人，并用于重新训练模型。

图9示出了可以由本文描述的（一个或多个）处理器通过访问存储在本文公开的存储器中的所存储图像、机器学习模型程序指令等来实现的流程图。在902，从存储器中检索输入图像。输入图像可以是从相机拍摄的原始图像，和/或从输入图像导出的相关联预测掩模（例如，参见图2）。在904，处理器导出场景内可移动对象的空间分布。这可以利用情境感知空间表示机器学习模型304来完成。这样做时，可以对处理器进行编程，以将可移动对象的坐标编码到潜在空间中，并且利用解码器重构坐标（例如，见图4）。移动对象的坐标可以是与可移动对象相关联的边界框的坐标，所述边界框被放置在语义掩码中的对象周围。在906，处理器被编程为在场景中生成不在输入图像中的看不见的对象。换句话说，相机看到的输入图像中未示出的新的对象将被插入到图像中。这可以利用空间对抗机器学习模型306来执行。在这样做时，处理器可以被编程为对场景的一部分的潜在空间坐标进行采样，以映射边界框，从存储器中检索具有相似边界框坐标的对象，并且将该对象放置在边界框中（例如，参见图5）。在910，处理器被编程为将看不见的对象移动到不同的位置，以试图使对象检测机器学习模型失败。这可以利用空间对抗机器学习模型，通过扰动看不见的对象的空间潜在表示，以及在潜在空间中找到与对象检测机器学习模型的不利性能相对应的梯度方向来完成。换句话说，新的对象被移动到对象检测机器学习模型难以正确标识和分类所述新的对象的位置。在910，处理器可以输出交互式用户界面，其示例在图6-图8中示出并参考图6-图8讨论。

虽然上面描述了示例性实施例，但这并不意味着这些实施例描述了权利要求所包含的所有可能的形式。说明书中使用的词语是描述性的词语，而不是限制性的，并且应当理解，在不脱离本公开的精神和范围的情况下，可以进行各种改变。如前所述，各种实施例的特征可以被组合以形成可能没有被明确描述或说明的本发明的进一步实施例。虽然各种实施例可能已经被描述为在一个或多个期望的特性方面提供优势或优于其他实施例或现有技术实现，但是本领域的普通技术人员认识到，所述一个或多个特征或特性可以被折衷以实现期望的整体系统属性，这取决于特定的应用和实现。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、适销性、外观、包装、大小、适用性、重量、可制造性、组装容易度等。因此，在任何实施例关于一个或多个特性被描述为不如其他实施例或现有技术实现合期望的程度上，这些实施例不在本公开的范围之外，并且对于特定应用可能是合期望的。

Claims

1.一种用于诊断用于自主驾驶的对象检测机器学习模型的计算机实现的方法，所述计算机实现的方法包括：

从示出场景的相机接收输入图像；

利用情境感知空间表示机器学习模型导出场景内可移动对象的空间分布；

利用空间对抗机器学习模型在场景中生成不在输入图像中的看不见的对象；

经由空间对抗机器学习模型，将看不见的对象移动到不同的位置，以使对象检测机器学习模型失败；和

输出交互式用户界面，所述交互式用户界面使得用户能够分析对象检测机器学习模型关于没有看不见的对象的场景和具有看不见的对象的场景的性能。

2.根据权利要求1所述的计算机实现的方法，其中导出步骤包括将可移动对象的坐标编码到潜在空间中，并且利用解码器重构坐标。

3.根据权利要求2所述的计算机实现的方法，进一步包括生成场景的语义掩模，其中所述语义掩模被用作导出步骤的输入，使得所述可移动对象的空间分布基于所述语义掩模。

4.根据权利要求3所述的计算机实现的方法，其中，可移动对象的坐标是与可移动对象相关联的边界框的坐标。

5.根据权利要求4所述的计算机实现的方法，其中，所述边界框的坐标被编码成潜在向量，所述潜在向量基于所述语义掩模内的像素的语义类标签来调节。

6.根据权利要求1所述的计算机实现的方法，其中所述生成步骤包括（i）对场景的一部分的潜在空间坐标进行采样以映射边界框，（ii）从存储器中检索具有相似边界框坐标的对象，以及（iii）将所述对象放置在边界框中。

7.根据权利要求6所述的计算机实现的方法，进一步包括利用泊松混合将对象混合到场景中。

8.根据权利要求1所述的计算机实现的方法，其中移动步骤包括扰动看不见的对象的空间潜在表示。

9.根据权利要求8所述的计算机实现的方法，其中移动步骤包括在潜在空间中寻找与以最大速率降低的对象检测机器学习模型的性能相对应的梯度方向。

10.根据权利要求1所述的方法，其中，所述交互式用户界面包括表，所述表示出了所述对象检测机器学习模型关于对象的基准真值类和所述对象的对应预测类的性能。

11.一种用于诊断具有人在回路的用于自主驾驶的对象检测机器学习模型的系统，所述系统包括：

用户界面；

存储器，存储从示出车辆外部场景的相机接收的输入图像，所述存储器进一步存储与情境感知空间表示机器学习模型相对应的程序指令，所述情境感知空间表示机器学习模型被配置为确定场景内的对象的空间信息，并且所述存储器进一步存储与空间对抗机器学习模型相对应的程序指令，所述空间对抗机器学习模型被配置为生成看不见的对象并将其插入到场景中；和

处理器，通信地耦合到所述存储器，并且被编程为：

经由语义分割生成场景的语义掩模，

利用情境感知空间表示机器学习模型，基于语义掩模确定场景内可移动对象的空间分布，

利用空间对抗机器学习模型在场景中生成不在输入图像中的看不见的对象，

利用所述空间对抗机器学习模型将所述看不见的对象移动到不同的位置，以使所述对象检测机器学习模型失败，以及

在用户界面上输出视觉分析，所述视觉分析允许用户分析对象检测机器学习模型关于没有看不见的对象的场景和具有看不见的对象的场景的性能。

12.根据权利要求11所述的系统，其中，所述处理器进一步被编程为将所述可移动对象的坐标编码到潜在空间中，并且利用解码器重构所述坐标，以确定所述可移动对象的空间分布。

13.根据权利要求12所述的系统，其中，所述可移动对象的坐标是与所述可移动对象相关联的边界框的坐标。

14.根据权利要求13所述的系统，其中，所述边界框的坐标被编码到潜在向量中，所述潜在向量基于语义掩模内的像素的语义类标签来调节。

15.根据权利要求11所述的系统，其中所述处理器被进一步编程为：

对场景的一部分的潜在空间坐标进行采样以映射边界框，

从存储器中检索具有相似边界框坐标的对象，以及

将对象放置在边界框中。

16.根据权利要求15所述的系统，其中，所述处理器进一步被编程为利用泊松混合将所述对象混合到所述场景中。

17.根据权利要求11所述的系统，其中，所述处理器进一步被编程为扰动所述看不见的对象的空间潜在表示。

18.根据权利要求17所述的系统，其中，所述处理器进一步被编程为确定潜在空间中与对象检测机器学习模型的性能降低相对应的梯度方向。

19.根据权利要求11所述的系统，其中，所述处理器进一步被编程为在用户界面上显示表，所述表示出了对象检测机器学习模型关于对象的基准真值类和对应的对象预测类的性能。

20.一种系统，包括：

存储器，存储（i）从示出车辆外部场景的相机接收的输入图像，（ii）与输入图像相关联的语义掩模，（iii）与情境感知空间表示机器学习模型相对应的程序指令，所述情境感知空间表示机器学习模型被配置为确定场景内的对象的空间信息，以及（iv）与空间对抗机器学习模型相对应的程序指令，所述空间对抗机器学习模型被配置为生成看不见的对象并将其插入到场景中；和

一个或多个处理器，与所述存储器通信，并且被编程为：

经由情境感知空间表示机器学习模型，将场景内的可移动对象的坐标编码到潜在空间中，并且利用解码器重构坐标以确定可移动对象的空间分布，

经由空间对抗机器学习模型，通过（i）对场景的一部分的潜在空间坐标进行采样以映射边界框，（ii）从存储器中检索具有相似边界框坐标的对象，以及（iii）将对象放置在边界框中，来在场景中生成不在输入图像中的看不见的对象，

经由所述空间对抗机器学习模型，利用所述空间对抗机器学习模型将所述看不见的对象移动到不同的位置，以试图使对象检测机器学习模型失败，以及