CN118103882A

CN118103882A - 使用模拟内容的基于视觉的系统训练

Info

Publication number: CN118103882A
Application number: CN202280069670.1A
Authority: CN
Inventors: P·段; P·李; N·德赛
Original assignee: Tesla Inc
Current assignee: Tesla Inc
Priority date: 2021-08-19
Filing date: 2022-08-18
Publication date: 2024-05-28
Also published as: CN118103883A; CN117980969A

Abstract

本申请的各方面对应于使用组合的输入集合来生成或训练机器学习算法，以在使用仅基于视觉系统的处理的车辆中使用。网络服务可以从目标车辆接收第一输入集合(例如，第一数据集合)，所述第一输入集合包含在第一时间点捕获的视觉系统数据。所述网络服务可以从所述目标车辆接收第二输入集合(例如，第二数据集合)，所述第二输入集合包含在第二时间点捕获的视觉系统数据。所述第二时间点在所述第一时间点之后。基于第二地面真值标记和值集合，所述网络服务然后可以确定或导出第一地面真值标记和值集合的标记和相关联的值。

Description

使用模拟内容的基于视觉的系统训练

相关申请的交叉引用

本申请要求题为“用于自动车辆操作和训练的增强系统和方法(ENHANCEDSYSTEMS AND METHODS FOR AUTONOMOUS VEHICLE OPERATION AND TRAINING)”并且于2021年8月19日提交的美国临时申请第63/260,439号以及题为“用于自动车辆操作和训练的增强系统和方法(ENHANCED SYSTEMS AND METHODS FOR AUTONOMOUS VEHICLE OPERATIONAND TRAINING)”并且于2021年12月9日提交的美国临时申请第63/287,936号的优先权。美国临时申请第63/260,439号和第63/287,936号通过引用整体并入本文。

背景技术

一般而言，计算装置和通信网络可以用于交换数据和/或信息。在常见的应用中，计算装置可以通过通信网络从另一计算装置请求内容。例如，计算装置可以收集各种数据并利用软件应用通过网络(例如，互联网)与服务器计算装置交换内容。

一般而言，如电动车辆、内燃机车辆、混合动力车辆等各种车辆可以配置有各种传感器和组件，以促进车辆的操作或车辆中包含的一个或多个系统的管理。在某些情况下，车主或车辆用户可能希望利用基于传感器的系统来促进车辆的操作。例如，车辆通常可以包含促进位置服务的硬件和软件功能，或者可以访问提供位置服务的计算装置。在另一实例中，车辆还可以包含导航系统或访问可以生成与提供给车辆乘员和用户的导航或方向信息相关的信息的导航组件。在仍另外的实例中，车辆可以包含视觉系统以促进导航和位置服务、安全服务或其它操作服务/组件。

附图说明

本文参考某些实施例的附图来描述本公开，所述实施例旨在说明但不限制本公开。应当理解，并入本说明书并构成本说明书的一部分的附图是为了说明本文所公开的概念，并且可能未按比例绘制。

图1描绘了根据本申请的一个或多个方面的用于针对车辆中的视觉系统生成模拟内容模型和训练集合数据的说明性环境的框图；

图2A展示了根据本申请的一个或多个方面的对应于车辆的环境；

图2B根据本申请的一个或多个方面的车辆的说明性视觉系统；

图3描绘了根据本申请的各方面的用于实施视觉信息处理组件的说明性架构；

图4A-4B是图1的说明性环境的框图，展示了基于模拟模型内容生成用于机器学习算法的视觉系统训练数据；并且

图5是根据说明性实施例的展示由模拟内容服务实施的模拟模型内容生成例程的流程图。

具体实施方式

一般而言，本公开的一个或多个方面涉及车辆中的视觉系统的配置和实施。通过说明性实例的方式，本申请的各方面涉及在仅依靠视觉系统来实现各种操作功能的车辆中使用的机器学习算法的配置和训练。更具体地，本申请的各方面涉及利用捕获的视觉系统数据集合来促进地面真值标记的自动生成。说明性地，仅视觉系统与可以将基于视觉的系统与一个或多个另外传感器系统(如基于雷达的系统、基于激光雷达的系统、声呐系统等)相结合的车辆形成对比。

仅视觉系统可以配置有机器学习算法，所述机器学习算法可以仅处理来自视觉系统的输入，所述视觉系统可以包含安装在车辆上的多个摄像头。机器学习算法可以生成识别对象并指定所识别对象的特征/属性的输出，如相对于车辆测量的定位、速度、加速度。然后，来自机器学习算法的输出可以用于进一步处理，如用于导航系统、位置系统、安全系统等。

根据本申请的各方面，网络服务可以根据监督学习模型配置机器学习算法，其中机器学习算法使用训练集合进行训练，所述训练集合包含捕获的视觉系统信息和标记的数据，其包含所识别的对象和指定的特征/属性，如定位、速度、加速度等。生成训练数据集合和训练机器学习算法以形成机器学习算法的传统方法通常需要手动确定捕获的视觉系统信息的地面真值标记和相关联的值。此类手动方法不太适合大规模实施，其中捕获的视觉系统数据可以对应于大量要处理的单独捕获的数据。基于每个单独捕获的视觉系统帧(或帧集合)中通常不完整或模糊的图像数据，针对捕获的视觉系统数据生成地面真值标记数据的自动化方法可能效率低。例如，捕获的视觉系统数据的特定帧可能对检测到的对象和属性值如定位(例如横摆角)、距离、速度等有多种潜在的解释。因此，一些自动化系统可能包含需要另外的传感器/输入，如雷达、激光雷达或其它检测系统，以确认或识别对象和相关联属性/值。

说明性地，网络服务可以从目标车辆接收第一输入集合(例如，第一数据集合)，所述第一输入集合包含在第一时间点捕获的视觉系统数据。然后，网络服务至少处理与捕获的视觉系统数据相关联的地面真值标记数据，以确定初始地面真值标记和值集合。所述网络服务可以从所述目标车辆接收第二输入集合(例如，第二数据集合)，所述第二输入集合包含在第二时间点捕获的视觉系统数据。所述第二时间点在所述第一时间点之后。然后，网络服务至少处理与捕获的视觉系统数据相关联的地面真值标记数据，以确定第二地面真值标记和值集合。

基于第二地面真值标记和值集合，所述网络服务然后可以确定第一地面真值标记和值集合的标记和相关联的值。更具体地，网络服务可以利用较晚时间点产生的已知的地面真值标记和值来确定或更新较早时间点的视觉系统数据的处理应该是什么。例如，与多个潜在方向属性(例如横摆角率)相关的第一实例的地面真值数据将被解析为引起适当最终位置的适当横摆角率。在另一实例中，可以基于第二时间点的定位值的确定来解析与检测到的对象的定位计算值相关的地面真值标记值。

说明性地，所生成的数据集合允许用可能无法以其它方式从最初处理视觉数据中获得的另外的信息或属性/特征来补充先前收集的地面真值数据/视觉数据。然后，所得所处理的内容属性可以形成后续生成训练数据的基础。然后，网络服务可以处理整个视觉数据集合并生成带有数据标记的内容。因此，网络服务基于组合的数据集合的训练生成更新的机器学习算法。经训练的机器学习算法可以被传输到仅基于视觉的车辆。

尽管将根据说明性实施例和特征的组合来描述各个方面，但是相关领域的技术人员将理解，实例和特征的组合本质上是说明性的并且不应被解释为限制性的。更具体地，本申请的各方面可以适用于各种类型的车辆，包含具有不同推进系统的车辆，如组合发动机、混合动力发动机、电动发动机等。仍进一步地，本申请的各方面可以适用于可以并入不同类型的传感器、感测系统、导航系统或位置系统的各种类型的车辆。因此，所述说明性实例不应被解释为限制性的。类似地，本申请的各方面可以与可以促进车辆操作的其它类型的组件组合或实施，包含自动驾驶应用、驾驶员便捷应用等。

图1描绘了根据本申请的一个或多个方面的用于针对车辆中的视觉系统生成模拟内容模型和训练集合数据的说明性环境100的框图。系统100可以包括网络，所述网络连接车辆102集合、一个或多个另外的客户端装置104以及网络服务110。说明性地，与网络服务110相关联的各个方面可以被实施为与一种或多种功能或服务相关联的一个或多个组件。这些组件可以对应于由一个或多个外部计算装置实施或执行的软件模块，所述外部计算装置可以是单独的独立外部计算装置。因此，网络服务110的组件应当被视为服务的逻辑表示，不需要在一个或多个外部计算装置上的任何特定实施。

如图1所描绘的网络106连接系统的装置和模块。网络可以连接任何数量的装置。在一些实施例中，网络服务提供者通过网络向客户端装置提供基于网络的服务。网络服务提供者实施基于网络的服务，并且是指可以是虚拟化或裸机的网络可访问的计算资源(如计算、存储或网络资源、应用或服务)的大型共享池。网络服务提供者可以提供对可配置计算资源共享池的按需网络访问，所述计算资源可以响应于客户命令以编程方式提供和发布。这些资源可以动态提供和重新配置以适应可变负载。因此，“云计算”或“基于网络的计算”的概念可以被视为通过网络作为服务分发的应用，以及可以被视为提供这些服务的网络服务提供者中的硬件和软件。在一些实施例中，网络可以是内容分发网络。

说明性地，所述车辆102集合对应于配置有用于识别对象并表征所识别对象的一个或多个属性的仅基于视觉的系统的一个或多个车辆。所述车辆102集合配置有机器学习算法，如实施监督学习模型的机器学习算法，所述机器学习算法被配置成仅利用视觉系统输入来识别对象并表征所识别对象的属性，如定位、速度和加速度属性。所述车辆102集合可以被配置成没有任何另外的检测系统，如雷达检测系统、激光雷达检测系统等。

说明性地，网络服务110可以包含多个基于网络的服务，所述多个基于网络的服务可以响应于应用于本申请的各方面的仅基于视觉的系统的机器学习算法的配置/请求来提供功能。如图1所展示的，基于网络的服务110可以包含视觉信息处理组件112，所述视觉信息处理组件可以从车辆102获得数据集合，处理数据集合以形成用于机器学习算法的训练材料并且生成用于仅基于视觉的车辆102的机器学习算法。基于网络的服务可以包含用于维护与本申请的各方面相关联的各种信息的多个数据存储，包含车辆数据存储114和机器学习算法数据存储116。图1中的数据存储本质上是逻辑的并且可以以各种方式在网络服务110中实施。

出于展示的目的，图2A展示了根据本申请的一个或多个方面的对应于车辆102的环境。环境包含本地传感器输入的集合，其可以提供用于车辆的操作的输入或如本文所描述的信息的集合。本地传感器的集合可以包含一个或多个传感器或基于传感器的系统，所述传感器或基于传感器的系统包含在车辆中或在操作期间由车辆以其它方式访问。本地传感器或传感器系统可以集成到车辆中。可替代地，本地传感器或传感器系统可以由与车辆相关联的接口提供，如物理连接、无线连接或其组合。

在一个方面，本地传感器可以包含向车辆提供输入的视觉系统，如对象的检测、检测到的对象的属性(例如定位、速度、加速度)、环境条件的存在(例如雪、雨、冰、雾、烟等)等。将参考图2B描述安装在车辆上以形成视觉系统的说明性摄像头集合。如先前所描述的，车辆102将依靠此类视觉系统来实现定义的车辆操作功能，而无需其它传统检测系统的帮助或代替其它传统检测系统。

在又另一方面，本地传感器可以包含一个或多个定位系统，所述一个或多个定位系统可以从外部源获得参考信息，从而在确定车辆的定位信息时允许不同程度的准确度。例如，定位系统可以包含用于处理来自GPS源、无线局域网(WLAN)接入点信息源、蓝牙信息源、射频识别(RFID)源等的信息的各种硬件和软件组件。在一些实施例中，定位系统可以从多个来源获得信息的组合。说明性地，定位系统可以从各种输入源获得信息并确定车辆的定位信息，特别是当前位置的海拔。在其它实施例中，定位系统还可以确定行进相关的操作参数，如行进方向、速度、加速度等。定位系统可以被配置为用于多种目的的车辆的一部分，包含自动驾驶应用、增强驾驶或用户辅助导航等。说明性地，定位系统可以包含有助于识别各种车辆参数或过程信息的处理组件和数据。

在仍另一方面，本地传感器可以包含一个或多个用于识别导航相关信息的导航系统。说明性地，导航系统可以从定位系统获得定位信息，并且识别有关所识别位置的特征或信息，如海拔、道路坡度等。导航系统还可以基于针对车辆用户提供或预期的方向来识别多车道道路中建议的或预期的车道位置。类似于位置系统，导航系统可以被配置为用于多种目的的车辆的一部分，包含自动驾驶应用、增强驾驶或用户辅助导航等。导航系统可以与定位系统组合或集成。说明性地，定位系统可以包含有助于识别各种车辆参数或过程信息的处理组件和数据。

本地资源进一步包含可以托管在车辆或车辆可访问的计算装置(例如，移动计算装置)上的一个或多个处理组件214。处理组件可以说明性地访问来自各种本地传感器或传感器系统的输入并处理输入的数据，如本文所描述。出于本申请的目的，将关于与说明性方面相关的一个或多个功能来描述处理组件。例如，车辆102中的处理组件将收集并传输与所收集的视觉信息相对应的第一数据集合。

环境可以进一步包含各种另外的传感器组件或感测系统，其可操作以提供关于根据一种或多种操作状态使用的各种操作参数的信息。所述环境可以进一步包含用于处理输出的一个或多个控制组件，如通过通信输出传输数据、在存储器中生成数据、将输出传输到其它处理组件等。

现在参考图2B，将描述车辆的说明性视觉系统200。视觉系统200包含可以在车辆操作期间捕获图像数据的摄像头组合。如上文所描述的，可以以特定频率接收单独的图像信息，使得所展示的图像表示图像的特定时间戳。在一些实施例中，图像信息可以表示高动态范围(HDR)图像。例如，不同的曝光可以组合形成HDR图像。作为另一实例，来自图像传感器的图像可以被预处理以将其转换为HDR图像(例如，使用机器学习模型)。

如图2B中所展示的，所述摄像头集合可以包含捕获图像数据的前置摄像头202集合。前置摄像头可以安装在车辆的挡风玻璃区域，以具有稍高的高度。如图2B中所展示的，前置摄像头202可以包含被配置成生成合成图像的多个单独的摄像头。例如，摄像头外壳可以包含三个指向前方的图像传感器。在此实例中，第一图像传感器可以具有广角(例如，鱼眼)透镜。第二图像传感器可以具有普通或标准透镜(例如，35mm等效焦距、50mm等效焦距等)。第三图像传感器可以具有变焦或窄透镜。这样，车辆就可以在前方获得三个不同焦距的图像。视觉系统200进一步包含安装在车辆的门柱上的摄像头204集合。视觉系统200可以进一步包含安装在车辆前保险杠上的两个摄像头206。另外，视觉系统200可以包含安装在后保险杠、行李箱或车牌支架上的后置摄像头208。

摄像头202、204、206和208集合全都可以将捕获的图像提供给一个或多个处理组件214，如专用控制器/嵌入式系统。例如，处理组件214可以包含被配置成快速处理与机器学习模型相关联的信息的一个或多个矩阵处理器。在一些实施例中，处理组件212可以用于执行与通过卷积神经网络的前向传递相关联的卷积。例如，输入数据和权重数据可以进行卷积。处理组件212可以包含进行卷积的多个乘法累加单元。作为实例，矩阵处理器可以使用已组织或格式化的输入和权重数据以促进更大的卷积运算。可替代地，图像数据可以被传输到通用处理组件。

说明性地，各个摄像头可以作为用于处理的视觉数据的单独输入来操作或被单独地考虑。在其它实施例中，摄像头数据的一个或多个子集可以被组合以形成合成图像数据，如三个前置摄像头202。如图2B中进一步展示的，在涉及并入仅视觉系统的车辆(如车辆102)的实施例中，在210处将不包含检测系统。

现在参考图3，将描述用于在一个或多个本地资源或网络服务上实施视觉信息处理组件112的说明性架构。视觉信息处理组件112可以是提供与用于对象识别、导航、位置服务等的机器学习算法相关联的功能的组件/系统的一部分。

图3的架构本质上是说明性的，并且不应被解释为需要视觉信息处理组件112的任何特定硬件或软件配置。图3中所描绘的视觉信息处理组件112的总体架构包含可以用于实施本公开的各方面的计算机硬件和软件组件的布置。如所展示的，视觉信息处理组件112包含处理单元302、网络接口304、计算机可读介质驱动器306和输入/输出装置接口308，所有这些全都可以通过通信总线彼此通信。视觉信息处理组件112的组件可以是物理硬件组件或在虚拟化环境中实施。

网络接口304可以提供到一个或多个网络或计算系统的连接性，如图1的网络。因此，处理单元302可以通过网络从其它计算系统或服务接收信息和指令。处理单元302还可以与存储器310进行通信，并且进一步通过输入/输出装置接口308为任选的显示器(未示出)提供输出信息。在一些实施例中，视觉信息处理组件112可以包含比图3所示的组件更多(或更少)的组件。

存储器310可以包含处理单元302执行以便实施一个或多个实施例的计算机程序指令。存储器310通常包含RAM、ROM或其它持久性或非暂态存储器。存储器310可以存储接口软件312和操作系统314，所述操作系统提供计算机程序指令以供处理单元302在视觉信息处理组件112的一般管理和操作中使用。存储器310可以进一步包含用于实施本公开的各方面的计算机程序指令和其它信息。例如，在一个实施例中，存储器310包含传感器接口组件316，所述传感器接口组件从如车辆102等车辆、数据存储、其它服务等获得信息(例如，捕获的视频信息)。

存储器310进一步包含视觉信息处理组件318，用于获得和处理捕获的视觉系统信息，并且根据本文所描述的车辆的各种操作状态生成捕获的视觉信息的另外或替代的地面真值标记信息。存储器310可以进一步包含自动标记处理组件320，用于自动生成用于训练机器学习算法的标记，如本文所描述。说明性地，在一个实施例中，视觉信息处理组件112可以训练多种机器学习算法，如用于静态对象检测、动态对象检测等。

现在转向图4A-4B，将描述环境组件处理视觉系统数据并生成模拟内容系统数据以更新机器学习算法的训练模型的说明性交互。在(1)处，一个或多个车辆102可以收集并传输输入集合(例如，第一数据集合)。第一数据集合说明性地对应于由车辆102的视觉系统200收集的视频图像数据和任何相关联的元数据或其它属性。

说明性地，车辆102可以被配置成收集视觉系统数据并传输所收集的数据。说明性地，车辆102可以包含视觉系统中的处理能力，以至少部分地生成捕获的视觉系统信息的地面真值标记信息。在其它实施例中，车辆102可以将捕获的视觉系统信息(带有或不带有任何地面真值标记)传输到另一服务，如在网络110中。然后，另外的服务可以添加(手动或自动)地面真值标记信息。例如，所收集的视觉系统数据可以基于周期性时间范围或各种收集/传输标准来传输。仍进一步地，在一些实施例中，车辆102还可以被配置成识别特定场景或位置，如通过地理坐标或其它标识符，这将引起所收集的数据的收集和传输。

说明性地，网络服务接收并处理从车辆102收集的视觉系统数据和地面真值标记。更具体地，在(3)处，网络服务可以从目标车辆接收第一输入集合(例如，第一数据集合)，所述第一输入集合包含在第一时间点捕获的视觉系统数据。然后，网络服务至少处理与捕获的视觉系统数据相关联的地面真值标记数据，以确定初始地面真值标记和值集合。在第一时间点的处理的第一捕获视觉系统数据可以形成初始地面真值标记和值集合，其可以包含一个或多个不确定值或多个可能值。第一地面真值标记数据集合的生成可以基于一种或多种机器学习算法。

在(4)处，网络服务可以从所述目标车辆接收第二输入集合(例如，第二数据集合)，所述第二输入集合包含在第二时间点捕获的视觉系统数据。所述第二时间点在所述第一时间点之后。在一个实施例中，第一视觉系统数据和第二视觉系统数据的捕获可以基于捕获频率。例如，车辆102的视觉系统可以基于20Hz、21Hz、22Hz、23Hz、24Hz、25Hz、26Hz、27Hz、28Hz、29Hz、30Hz、40Hz(和其间的所有中间值)；50Hz(和其间的所有中间值)、60Hz(和其间的所有中间值)、70Hz(和其间的所有中间值)、80Hz(和其间的所有中间值)、90Hz(和其间的所有中间值)等的捕获频率捕获。然后，网络服务至少处理与捕获的视觉系统数据相关联的地面真值标记数据，以确定第二地面真值标记和值集合。

在(5)处，基于第二地面真值标记和值集合，所述网络服务然后可以确定第一地面真值标记和值集合的标记和相关联的值。更具体地，网络服务可以利用较晚时间点产生的已知的地面真值标记和值来确定或更新较早时间点的视觉系统数据的处理应该是什么。例如，与多个潜在方向属性(例如横摆角率)相关的第一实例的地面真值数据将被解析为引起适当最终位置的适当横摆角率。在另一实例中，可以基于第二时间点的定位值的确定来解析与检测到的对象的定位计算值相关的地面真值标记值。在此实施例中，网络服务说明性地通过使用第二捕获的视频数据集合提供的已知结果来导出或验证第一数据集合的地面真值标记和值。用于导出值的具体过程可以基于地面真值标记数据的类型。例如，导出检测对象的定位估计可以基于第二捕获的视觉数据集合中检测到的对象的测量定位值(例如，实际位置)。在另一实例中，可以基于计算第二捕获的视觉数据集合中的定位数据和过期时间来导出速度估计。在仍其它实施例中，导出静态对象或动态对象的识别可以基于匹配或更新来自第二捕获的视觉数据集合的识别的静态对象或动态对象。因此，相关领域的技术人员将理解，可以针对(5)处的第一视觉数据集合和第二视觉数据集合应用各种技术。

在(6)处，可以存储所得地面真值标记和值。另外，标记和值可以被传输或以其它方式提供给另外的服务。

现在转向图4B，一旦视觉信息处理组件112视觉信息处理组件112接收到训练集合，在(1)处网络服务110处理训练集合。在(2)处，视觉信息处理组件112基于组合的数据集合的训练生成更新的机器学习算法。说明性地，网络服务110可以利用各种机器学习模型来生成更新的机器学习算法。

现在转向图5，将描述用于处理所收集的视觉以提供自动标记的例程500。例程500说明性地由视觉信息处理组件112实施。如上文所描述的，例程500可以在包含视觉系统数据和捕获的视觉系统数据的地面真值标记数据的目标车辆102可进行处理之后实施。说明性地，车辆102可以被配置成收集视觉系统数据并传输所收集的数据和相关联的地面真值标记。例如，所收集的视觉系统数据可以基于周期性时间范围或各种收集/传输标准来传输。仍进一步地，在一些实施例中，车辆102还可以被配置成识别特定场景或位置，如通过地理坐标或其它标识符，这将引起所收集的数据的收集和传输。在其它实施例中，车辆102可以将捕获的视觉系统信息(带有或不带有任何地面真值标记)传输到另一服务，如在网络110中。然后，另外的服务可以添加(手动或自动)地面真值标记信息。说明性地，视觉信息处理组件112接收并处理从车辆102收集的视觉系统数据和地面真值标记。

更具体地，在框502处，视觉信息处理组件112可以从目标车辆接收第一输入集合(例如，第一数据集合)，所述第一输入集合包含在第一时间点捕获的视觉系统数据。然后，网络服务至少处理与捕获的视觉系统数据相关联的地面真值标记数据，以确定初始地面真值标记和值集合。在第一时间点的处理的第一捕获视觉系统数据可以形成初始地面真值标记和值集合，其可以包含一个或多个不确定值或多个可能值。第一地面真值标记数据集合的生成可以基于一种或多种机器学习算法。

在框504处，视觉信息处理组件112可以从所述目标车辆接收第二输入集合(例如，第二数据集合)，所述第二输入集合包含在第二时间点捕获的视觉系统数据。所述第二时间点在所述第一时间点之后。在一个实施例中，第一视觉系统数据和第二视觉系统数据的捕获可以基于捕获频率。例如，车辆102的视觉系统可以基于20Hz(和其间的所有中间值)、30Hz(和其间的所有中间值)、40Hz(和其间的所有中间值)；50Hz(和其间的所有中间值)、60Hz(和其间的所有中间值)、70Hz(和其间的所有中间值)、80Hz(和其间的所有中间值)、90Hz(和其间的所有中间值)等的捕获频率捕获。然后，视觉信息处理组件112至少处理与捕获的视觉系统数据相关联的地面真值标记数据，以确定第二地面真值标记和值集合。

在框506处，基于第二地面真值标记和值集合，视觉信息处理组件112然后可以确定第一地面真值标记和值集合的标记和相关联的值。更具体地，网络服务可以利用较晚时间点产生的已知的地面真值标记和值来确定或更新较早时间点的视觉系统数据的处理应该是什么。例如，与多个潜在方向属性(例如横摆角率)相关的第一实例的地面真值数据将被解析为引起适当最终位置的适当横摆角率。在另一实例中，可以基于第二时间点的定位值的确定来解析与检测到的对象的定位计算值相关的地面真值标记值。在此实施例中，网络服务说明性地通过使用第二捕获的视频数据集合提供的已知结果来导出或验证第一数据集合的地面真值标记和值。用于导出值的具体过程可以基于地面真值标记数据的类型。例如，导出检测对象的定位估计可以基于第二捕获的视觉数据集合中检测到的对象的测量定位值(例如，实际位置)。在另一实例中，可以基于计算第二捕获的视觉数据集合中的定位数据和过期时间来导出速度估计。在仍其它实施例中，导出静态对象或动态对象的识别可以基于匹配或更新来自第二捕获的视觉数据集合的识别的静态对象或动态对象。因此，相关领域的技术人员将理解，可以针对框506处的第一视觉数据集合和第二视觉数据集合应用各种技术。

在框508处，可以存储所得地面真值标记和值。另外，标记和值可以被传输或以其它方式提供给另外的服务。例程500在框510处结束。如上文所描述的，视觉信息处理组件112基于组合的数据集合的训练生成更新的机器学习算法。说明性地，视觉信息处理组件112可以利用各种机器学习模型来生成更新的机器学习算法。例如，可以基于检测到的对象或地面真值标记的类型形成多种机器学习算法。

前述公开并不旨在将本公开限制于所公开的精确形式或特定使用领域。因此，经考虑根据本公开，本公开的各个替代实施例和/或修改，无论是本文明确描述的还是暗示的，都是可能的。已经如此描述了本公开的实施例，本领域普通技术人员将认识到，可以在形式和细节上做出改变而不脱离本公开的范围。因此，本公开仅由权利要求限制。

在前述说明书中，已经参照具体实施例对本公开进行了描述。然而，如本领域技术人员将理解的，在不脱离本公开的精神和范围的情况下，可以对本文所公开的各个实施例进行修改或以其它方式以各种其它方式实施。因此，此描述被认为是说明性的，并且是为了教导本领域技术人员制作和使用所公开的决策和控制算法的各个实施例的方式。应当理解的是，本文所示和描述的本公开的形式被视为代表性实施例。等效元件、材料、过程或步骤可以替代本文代表性地展示和描述的那些。此外，本公开的某些特征可以独立于其它特征的使用而被利用，这对于本领域技术人员在受益于本公开的此描述之后将是显而易见的。用于描述本公开并且要求保护本公开的表达，如“包含(including)”、“包括(comprising)”、“并入(incorporating)”、“由……组成(consisting of)”、“具有(have)”、“是(is)”旨在以非排他性的方式进行解释，即允许也存在未明确描述的项、组件或元件。提及单数也应被解释为涉及复数。

进一步地，本文所公开的各个实施例应被理解为说明性和解释性的，并且决不应被解释为对本公开的限制。所有接合提及(例如，附接、固定、耦合、连接等)仅用于帮助读者理解本公开，并且可能不产生限制，特别是关于本文所公开的系统和/或方法的定位、方向或使用。因此，接合提及(如果有的话)应作广义解释。此外，此类接合提及并不一定意味着这两个元件直接相互连接。

另外，所有数字术语，如但不限于“第一”、“第二”、“第三”、“一级”、“次级”、“主要”或任何其它普通和/或数字术语，也应仅视为作为标识符，以帮助读者理解本公开的各种元件、实施例、变化和/或修改，并且可以不产生任何限制，特别是关于任何元件、实施例、变化和/或修改相对于或对于另一元件、实施例、变化和/或修改的顺序或偏好。

还将理解，附图/图中描绘的元件中的一个或多个元件也可以以更加分离或集成的方式来实施，或者甚至在某些情况下被移除或呈现为不可操作，这根据特定应用是有用的。

Claims

1.一种用于管理车辆中的视觉系统的系统，所述系统包括：

多个车辆，所述多个车辆包含用于根据至少一种机器学习算法生成和处理从一个或多个视觉系统捕获的视觉数据的系统，其中所述从一个或多个视觉系统捕获的视觉数据与地面真值标记相关联；

一个或多个计算系统，所述一个或多个计算系统包含处理装置和存储器，所述处理装置和所述存储器执行计算机可执行指令以实施视觉系统信息处理组件，所述视觉系统信息处理组件能够操作以生成所述至少一种机器学习算法以便由所述多个车辆执行，所述至少一种机器学习算法由集合训练数据生成；以及

一个或多个计算系统，所述一个或多个计算系统包含处理装置和存储器，所述处理装置和所述存储器执行计算机可执行指令以实施视觉系统处理服务，所述视觉系统处理服务能够操作以：

获得与在车辆的操作中捕获的图像相关联的第一视觉系统捕获信息，所述第一视觉系统捕获信息与第一时间实例相关联；

获得与在所述车辆的所述操作中捕获的图像相关联的第二视觉系统捕获信息，所述第二视觉系统捕获信息与第二时间实例相关联，所述第二时间实例在所述第一时间实例之后；

获得与所述第二视觉系统捕获信息相关联的地面真值数据标记和值；

基于与所述第二视觉系统捕获信息相关联的所获得的地面真值数据标记和值，确定或更新与所述第一视觉系统捕获信息相关联的地面真值数据标记和值中的至少一项；并且

存储所述第一时间实例和所述第二时间实例的地面真值标记和值集合。

2.根据权利要求1所述的系统，其中第一地面真值数据标记和值以及第二地面真值数据标记和值对应于速度。

3.根据权利要求1所述的系统，其中第一地面真值数据标记和值以及第二地面真值数据标记和值对应于横摆角。

4.根据权利要求1所述的系统，其中第一地面真值数据标记和值以及第二地面真值数据标记和值对应于检测到的对象的定位。

5.根据权利要求1所述的系统，其中所述视觉系统处理服务能够操作以在获得与所述第二视觉系统捕获信息相关联的所述地面真值数据标记和值之前确定与所述第一视觉系统捕获信息相关联的初始地面真值数据标记和值集合。

6.根据权利要求1所述的系统，其中所述视觉系统处理服务能够操作以确定与所述第二视觉系统捕获信息相关联的所述地面真值数据标记和值。

7.一种用于管理车辆中的视觉系统的方法，所述系统包括：

基于与所述第二视觉系统捕获信息相关联的所获得的地面真值数据标记和值，确定或更新与所述第一视觉系统捕获信息相关联的地面真值数据标记和值中的至少一项；以及

8.根据权利要求7所述的方法，其中第一地面真值数据标记和值以及第二地面真值数据标记和值对应于速度。

9.根据权利要求7所述的方法，其中第一地面真值数据标记和值以及第二地面真值数据标记和值对应于横摆角。

10.根据权利要求7所述的方法，其中第一地面真值数据标记和值以及第二地面真值数据标记和值对应于检测到的对象的定位。

11.根据权利要求7所述的方法，其进一步包括在获得与所述第二视觉系统捕获信息相关联的所述地面真值数据标记和值之前确定与所述第一视觉系统捕获信息相关联的初始地面真值数据标记和值集合。

12.根据权利要求7所述的方法，其进一步包括确定与所述第二视觉系统捕获信息相关联的所述地面真值数据标记和值。

13.根据权利要求7所述的方法，其中获得与在车辆的所述操作中捕获的图像相关联的第一视觉系统捕获信息，所述第一视觉系统捕获信息与第一时间实例相关联，并且获得与在所述车辆的所述操作中捕获的图像相关联的第二视觉系统捕获信息，所述第二视觉系统捕获信息与第二时间实例相关联，所述第一时间实例之后的所述第二时间实例基于捕获速率。

14.根据权利要求13所述的方法，其中所述捕获速率是24赫兹。

15.一种用于管理车辆中的视觉系统的方法，所述系统包括：

获得与第一视觉系统捕获信息和第二视觉系统捕获信息相关联的地面真值数据标记和值，其中所述第一视觉系统捕获信息与第一时间实例相关联，并且其中所述第二视觉系统捕获信息与第二时间实例相关联，所述第二时间实例在所述第一时间实例之后；

基于与所述第二视觉系统捕获信息相关联的所获得的地面真值数据标记和值，更新与所述第一视觉系统捕获信息相关联的地面真值数据标记和值；以及

16.根据权利要求15所述的方法，其中第一地面真值数据标记和值以及第二地面真值数据标记和值对应于速度、横摆角或检测到的对象的定位中的至少一者。

17.根据权利要求15所述的方法，其进一步包括在获得与所述第二视觉系统捕获信息相关联的所述地面真值数据标记和值之前确定与所述第一视觉系统捕获信息相关联的初始地面真值数据标记和值集合。

18.根据权利要求15所述的方法，其进一步包括确定与所述第二视觉系统捕获信息相关联的所述地面真值数据标记和值。

19.根据权利要求15所述的方法，其进一步包括获得与在车辆的操作中捕获的图像相关联的第一视觉系统捕获信息。

20.根据权利要求19所述的方法，其进一步包括获得与在所述车辆的所述操作中捕获的图像相关联的第二视觉系统捕获信息，所述第二视觉系统捕获信息基于捕获速率。