CN117461060A

CN117461060A - 使用图像和消息信息的对象检测

Info

Publication number: CN117461060A
Application number: CN202280040108.6A
Authority: CN
Inventors: U·尼尔森; M·查理
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2021-06-11
Filing date: 2022-04-15
Publication date: 2024-01-26

Abstract

公开了用于执行对象检测和跟踪的技术。在一些实现中，提供了一种用于执行对象检测和跟踪的过程。该过程可包括用于进行以下操作的步骤：在跟踪对象处获得包括目标对象的图像；在该跟踪对象处获得与该目标对象相关联的第一消息集合；基于与该目标对象相关联的第一消息集合来确定针对该图像中的该目标对象的限界框；以及从该图像中提取子图像。在一些方法中，该过程可进一步包括用于使用对象检测模型来检测该目标对象在该子图像内的位置的步骤。还提供了系统和机器可读介质。

Description

使用图像和消息信息的对象检测

公开领域

本公开的各方面一般涉及对象检测和跟踪。在一些实现中，描述了用于基于图像和一个或多个消息中所包括的信息来执行对象检测和跟踪的示例。

公开背景

对象检测和跟踪可用于(例如，从数字图像或视频剪辑的视频帧中)标识对象并随时间跟踪对象。对象检测和跟踪可用于不同领域，包括交通、视频分析、安全系统、机器人、航空等。在一些领域中，跟踪对象可以确定环境中其他对象(例如，目标对象)的定位，使得跟踪对象可以精确地导航通过环境。为了做出准确的运动和轨迹规划决策，跟踪对象还可以具有估计各种目标对象特性(诸如姿态(例如，包括定位和取向)和大小)的能力。

概述

以下给出了与本文所公开的一个或多个方面相关的简化概述。由此，以下概述既不应被认为是与所有构想的方面相关的详尽纵览，以下概述也不应被认为标识与所有构想的方面相关的关键性或决定性要素或描绘与任何特定方面相关联的范围。相应地，以下概述的唯一目的是在以下给出的详细描述之前以简化形式呈现与关于本文所公开的机制的一个或多个方面相关的某些概念。

公开了用于执行对象检测和跟踪的系统、方法、设备和计算机可读介质。根据至少一个示例，提供了一种用于执行对象检测和跟踪的装置。该装置可包括至少一个存储器和至少一个处理器(例如，配置在电路系统中)，该至少一个处理器耦合到该至少一个存储器。该至少一个处理器被配置成：在跟踪对象处获得包括目标对象的图像；在该跟踪对象处获得与该目标对象相关联的第一消息集合；基于与该目标对象相关联的第一消息集合来确定针对该图像中的该目标对象的限界框；从该图像中提取子图像，其中该子图像包括该图像的在该限界框内的区域；以及使用对象检测模型来检测该目标对象在该子图像内的位置。

在另一示例中，提供了一种用于执行对象检测和跟踪的方法。该方法包括：在跟踪对象处获得包括目标对象的图像；在该跟踪对象处获得与该目标对象相关联的第一消息集合；基于与该目标对象相关联的第一消息集合来确定针对该图像中的该目标对象的限界框；从该图像中提取子图像，其中该子图像包括该图像的在该限界框内的区域；以及使用对象检测模型来检测该目标对象在该子图像内的位置。

在另一示例中，提供了一种非瞬态计算机可读介质。该非瞬态计算机可读存储介质包括用于使得计算机或处理器进行以下操作的至少一条指令：在跟踪对象处获得包括目标对象的图像；在该跟踪对象处获得与该目标对象相关联的第一消息集合；基于与该目标对象相关联的第一消息集合来确定针对该图像中的该目标对象的限界框；从该图像中提取子图像，其中该子图像包括该图像的在该限界框内的区域；以及使用对象检测模型来检测该目标对象在该子图像内的位置。

在另一示例中，提供了一种用于执行对象检测和跟踪的设备。该设备包括：用于在跟踪对象处获得包括目标对象的图像的装置；用于在该跟踪对象处获得与该目标对象相关联的第一消息集合的装置；用于基于与该目标对象相关联的第一消息集合来确定针对该图像中的该目标对象的限界框的装置；用于从该图像中提取子图像的装置，其中该子图像包括该图像的在限界框内的区域；以及用于使用对象检测模型来检测该目标对象在该子图像内的位置的装置。

在一些方面，该设备是以下或以下的一部分：交通工具(例如，交通工具的计算机系统中的一个或多个组件或芯片)、移动设备(例如，移动电话或所谓的“智能电话”或其他移动设备)、可穿戴设备、扩展现实设备或系统(例如，虚拟现实(VR)设备、增强现实(AR)设备或混合现实(MR)设备)、个人计算机、膝上型计算机、服务器计算机、机器人设备或系统、航空系统或其他设备。在一些方面，该设备包括用于捕捉一个或多个图像的一个或多个相机。在一些方面，该设备进一步包括用于显示一个或多个图像、通知和/或其他可显示数据的显示器。在一些方面，上述设备可包括一个或多个传感器，其可被用于确定该设备的位置、该设备的状态(例如，跟踪状态、温度、湿度水平、和/或其他状态)、和/或用于其他目的。

基于附图和详细描述，与本文所公开的各方面相关联的其他目标和优点对本领域技术人员而言将是显而易见的。

附图简述

给出附图以帮助对本公开的各方面进行描述，且提供附图仅用于解说各方面而非对其进行限定。

图1是解说根据一些示例的多个交通工具在道路上行驶的图像；

图2是解说根据一些示例的用于确定对象的大小、定位和取向的系统的示例的框图；

图3是解说根据本公开的各方面的交通工具的计算系统的示例的框图；

图4是解说根据一些示例的由跟踪对象在其上对目标对象执行对象检测和跟踪的显示器的概念图；

图5A-5C是解说根据一些示例的从对象坐标系到相机坐标系的坐标变换的示例的示图；

图5D是解说根据一些示例的对象坐标系上的三维点到图像上的二维点的投影的示例的示图；

图5E是解说根据一些示例的图像上的二维点到相机坐标系的反投影的示例的示图；

图6解说了根据一些示例的跨多个图像执行的对象检测和跟踪过程；

图7是解说根据一些示例的深度神经网络的示例的框图；

图8是解说根据一些示例的Cifar-10神经网络的示例的示图；

图9A-9C是解说根据一些示例的单发对象检测器的示例的示图；

图10A-10C是解说根据一些示例的You Only Look Once(你只看一次)(YOLO)检测器的示例的示图；

图11是解说根据一些示例的用于使用本文所描述的技术执行对象检测和跟踪的过程的示例的流程图；以及

图12是根据一些示例的可用于实现本文所描述的技术的一些方面的示例性计算设备的框图。

详细描述

出于解说性目的，以下提供了本公开的某些方面和实施例。可设计替换方面而不脱离本公开的范围。另外，本公开中众所周知的元素将不被详细描述或将被省去以免湮没本公开的相关细节。本文中所描述的一些方面和实施例可以独立应用并且它们中的一些可以组合应用，这对本领域技术人员来说是显而易见的。在下面的描述中，出于解释的目的，阐述了具体细节以便提供对本申请的实施例的透彻理解。然而，显然的是，可以在没有这些具体细节的情况下实践各实施例。各附图和描述不旨在是限制性的。

以下描述仅提供了示例实施例，并且并不旨在限定本公开的范围、适用性或配置。相反，对示例性实施例的以下描述将向本领域技术人员提供用于实现示例性实施例的赋能描述。应当理解，在不脱离所附权利要求书中阐述的本申请的精神和范围的情况下，可以对元件的功能和布置作出各种改变。

术语“示例性”和/或“示例”在本文中用于意指“用作示例、实例或解说”。本文中描述为“示例性”和/或“示例”的任何方面不必被解释为优于或胜过其他方面。同样地，术语“本公开的各方面”不要求本公开的所有方面都包括所讨论的特征、优点或操作模式。

对象检测可用于检测或标识图像或帧中的对象。可以执行对象跟踪来随时间跟踪检测到的对象。例如，可以获得对象的图像，并且可以对该图像执行对象检测，以检测该图像中的一个或多个对象。在一些情形中，用于检测对象的对象检测器可以将检测到的对象分类为一类别或门类的对象。对象检测器可以生成限界区域以标识对象在该图像中的位置。在一些情形中，限界区域可以显示在图像中，以便向观看显示器的用户标识对象。各种类型的系统可被用于对象检测，包括基于机器学习的对象检测器(例如，使用一个或多个深度神经网络)。

对象检测和跟踪可用于驾驶系统、视频分析、安全系统、机器人系统、航空系统、扩展现实(XR)系统(例如，增强现实(AR)系统、虚拟现实(VR)系统、混合现实(MR)系统等)，以及其他系统。在此类系统中，跟踪环境中的其他对象(称为目标对象)的对象(称为跟踪对象)可以确定其他对象的定位和大小。确定环境中的目标对象的定位和大小允许跟踪对象通过做出智能运动规划和轨迹规划决策来准确地对环境导航。

如以上提及的，在一些情形中，机器学习模型(例如，深度神经网络)可被用于执行对象检测和定位。基于机器学习的对象检测可以是计算密集型的，可能难以在检测速度是高优先级的上下文中实现，以及其他困难。例如，基于机器学习的对象检测可以是计算密集型的，因为它们通常在整个图像上运行，并且(隐式地或显式地)以各种尺度捕捉距跟踪对象(例如，跟踪或自我交通工具)不同距离的目标对象(例如，目标交通工具)。可以由基于神经网络的对象检测器考虑的众多尺度的示例在以下参照图9A-图9C和图10A-图10C示出和描述。另外，为了能够以各种尺度检测对象，基于机器学习的对象检测器用大量带注释的数据进行训练(这可以是计算和时间密集型的)。此外，基于机器学习的对象检测仅在目标对象(例如，目标交通工具)在图像中可见并且没有被其他对象(例如，诸如遮挡交通工具的大卡车)或障碍物遮挡时才可以奏效。

在一些情形中，可以基于接收到的消息来检测对象。例如，跟踪交通工具可以通过使用在无线信道上接收的消息确定针对目标交通工具的限界框，来确定目标交通工具相对于跟踪交通工具的定位。例如，消息可以是蜂窝车联网(V2X或C-V2X)、专用短程通信(DSRC)消息和/或其他类型的无线消息。此类办法具有计算高效并且不受遮挡影响的优点。然而，基于消息的办法的缺点是不准确。例如，跟踪对象和目标对象两者(例如，跟踪交通工具和目标交通工具)的全局定位估计可能具有特定的不确定性或误差(诸如1米(m))，从而导致至高达2m的相对定位估计误差(针对跟踪对象的1m以及针对目标对象的1m)。在此类示例中，图像上的计算出的限界框可偏离目标至高达一半，这将是显著的并且潜在地误导跟踪对象的操作者(例如，交通工具的驾驶员)。

在本文中描述了提供改进对象检测和跟踪的解决方案的系统、装置(设备)、过程(方法)和计算机可读介质(统称为“系统和技术”)。本文所描述的系统和技术可以应用于任何场景，诸如需要快速检测的场景、计算资源受限的场景等等。在一些方面，对图像的选择区域(例如，已知(或极有可能)包含目标对象的图像区域)执行对象检测(例如，基于机器学习(ML)的对象检测或其他类型的对象检测)。通过将检测操作限制于这些选择图像区域，可以提高检测速度和准确性，同时还减少计算开销。

在一些办法中，跟踪对象(例如，跟踪交通工具)的检测和跟踪系统可以接收或获得包含目标对象(例如，目标交通工具)的图像。检测和跟踪系统可以使用图像来执行对象检测和跟踪过程。在一些示例中，检测和跟踪系统可以接收由跟踪交通工具(或跟踪对象)从目标交通工具(或目标对象)无线接收的一个或多个消息。检测和跟踪系统可以基于被包括在一个或多个消息的集合(其中该消息集合可以包括一个消息或多个消息)中的信息来确定针对目标对象的限界框。在一些实现中，消息可以是(或者可以包括)车联网(V2X)、DSRC和/或包括指示目标对象的运动参数和/或姿态参数的信息的其他类型的无线消息。作为示例，由跟踪交通工具从目标交通工具接收的V2X和/或DSRC消息可以包括指示目标交通工具的速度、大小和/或姿态(例如，三维(3D)定位和3D取向)的信息。在一些实现中，接收到的消息可包括各种类型的定位信息，诸如纬度、经度和/或位置不确定性估计。尽管本文所解说的若干个示例是在接收到的V2X和/或DSRC消息的上下文中讨论的，但是将理解，可以使用其他手段来接收(或推导出)定位和/或不确定性信息。例如，纬度、经度和/或不确定性信息可以使用几乎任何定位或位置确定技术来确定，而不脱离所公开技术的范围。

在一个解说性示例中，目标交通工具可以向跟踪交通工具无线地传送V2X和/或DSRC消息，该消息包括相对于全局参考系(诸如地球中心、地球固定(ECEF)参考系)表示的目标交通工具的大小、定位、取向和速度估计。可以使用全球定位系统(GPS)、全球导航卫星系统(GNSS)和/或基于使用GPS接收机或收发机、GNSS接收机或收发机和/或其他接收机或收发机接收的信息的其他基于位置的估计来确定或获得定位、取向和速度估计。跟踪交通工具可以相对于相同的全局参考系确定其自身的定位和取向估计。使用跟踪对象和目标对象的定位和取向，跟踪对象的检测和跟踪系统可以计算目标交通工具相对于跟踪交通工具的物体参考系的相对定位。

在一些示例中，当确定限界框时，跟踪对象的检测和跟踪系统可以考虑一个或多个因素(例如，基于接收到的消息集合中的信息)。该一个或多个因素可以包括与目标对象相关联的姿态估计(例如，3D取向和/或定位)、与目标对象相关联的大小或大小估计、跟踪对象的姿态估计、和/或与目标和/或跟踪对象的姿态估计相关联的不确定性(或误差)。在一些办法中，跟踪对象和/或目标对象的姿态估计可以关联于与估计跟踪对象和/或目标对象中的任一者(或两者)的定位和/或取向相对应的不确定性度量。作为示例，定位或位置估计可以基于地理定位测量，诸如使用GPS、GNSS和/或其他基于定位的估计进行的测量。此类测量可以包括在进行限界框确定时可计及的已知的不确定性和/或可确定的测量误差。如此，跟踪对象的检测和跟踪系统可以确定为目标对象确定的限界框的大小，以计及前述定位估计不确定性度量。例如，可以基于姿态估计的不确定性来增加基于接收到的消息(例如，V2X、DSRC和/或其他类型的消息)中所包括的大小和/或姿态信息而确定的初始限界框大小。基于估计不确定性来确定限界框或重新调整限界框的大小可以导致图像的在计算出的限界框内的区域包括目标对象的高统计置信度。

在一些方面，检测和跟踪系统可以提取或裁剪在所确定的限界框内的图像区域(例如，在基于估计不确定性确定或增加限界框大小之后)，以产生或生成子图像。检测和跟踪系统可以使用所提取的子图像来标识目标对象的精确位置(例如，使用对象检测模型)。在一些方面，检测和跟踪系统可以将子图像预处理(例如，通过缩放子图像)到特定的宽度和/或高度。在一些情形中，子图像被缩放到的宽度和/或高度与可被用于对子图像执行对象检测的检测模型的输入配置相称。作为示例，检测和跟踪系统可以将子图像缩放到与对象检测模型的输入层相对应的预定尺寸(例如，具有预定宽度和/或预定高度)，该对象检测模型是(或包括)基于机器学习(ML)的分类器，诸如深度神经网络。随后，检测和跟踪系统的对象检测模型可以对经缩放图像执行对象检测，以检测对象在该图像中的定位和/或位置。在一些情形中，对象检测模型可以生成最终的限界框，其指示对象在图像中的位置或定位。在一些示例中，对象检测模型可以输出或以其他方式使限界框显示在显示器上(例如，在交通工具的数字显示器(诸如包括显示器的数字镜)上)。

在一些情形中，检测和跟踪系统可以随时间(例如，使用对象跟踪器)跟踪目标对象的位置(例如，在检测到对象的图像或帧之后的一个或多个图像或帧中)。尽管取决于期望的实现，可以使用各种对象跟踪器，但是在一些示例中，对象跟踪器可以是(或者可包括)卡尔曼(Kalman)滤波器、扩展卡尔曼滤波器、粒子滤波器、其任何组合和/或其他对象跟踪器。对象跟踪可以跨例如由跟踪对象接收的(例如，由图像捕捉设备(诸如跟踪对象的相机、光探测和测距(LiDAR)传感器和/或雷达传感器)捕捉的)多个相继图像(或帧)执行。

对象跟踪可用于更新显示器，诸如跟踪对象的显示设备(例如，数字镜)，以指示目标对象的位置和/或姿态的变化(例如，通过在检测到对象的图像之后的一个或多个图像中显示相对于该对象的经更新限界框)。如以下进一步详细讨论的，检测和跟踪系统可以使用由跟踪对象经由目标对象所传送的一个或多个消息(例如，V2X和/或DSRC消息)接收的速度和/或姿态信息来对相继图像执行对象跟踪。

本文使用交通工具作为跟踪对象和目标对象的解说性示例来描述各示例。然而，普通技术人员将理解，本文所描述的系统和相关技术可被包括在用于检测和/或跟踪一个或多个图像中的任何类型的对象的任何其他系统或设备中并由其执行。可执行本文所描述的技术或可包括用于执行本文所描述的技术的各组件的其他系统的示例包括机器人系统、扩展现实(XR)系统(例如，增强现实(AR)系统、虚拟现实(VR)系统、混合现实(MR)系统等)、视频分析、安全系统、航空系统等等。可检测到的其他类型的对象的示例包括人或行人、基础设施(例如，道路、标志等)，等等。在一个解说性示例中，跟踪交通工具可以执行本文所描述的一种或多种技术，以检测一个或多个图像中的行人或基础设施对象(例如，路标)。

在一些示例中，这些系统和技术可用于交通工具上的一个或多个数字显示镜(例如，后视镜和侧视镜)，其组合从安装在该交通工具上的一个或多个面向外的相机捕捉的图像，以向交通工具的驾驶员提供该交通工具周围的环境的无遮挡视图。例如，系统和技术可以数字地修改显示在镜子上的图像，以在镜子上叠加附加信息。例如，系统和技术可以显示在由数字显示镜显示的环境的一部分中突出显示或以其他方式标识一个或多个目标交通工具、道路对象和/或交通工具周围的其他信息的信息(例如，一个或多个限界框)。当操纵交通工具时(例如，在变道、并线等期间)，此类信息对于驾驶员可以是有用的。

将参照附图描述该申请的各个方面。图1是解说包括在道路上行驶的众多交通工具的环境的图像100。交通工具包括跟踪交通工具102(作为跟踪对象的示例)、目标交通工具104、目标交通工具106和目标交通工具108(例如，作为跟踪对象的示例)。跟踪交通工具102可以跟踪目标交通工具104、106和108，以便对环境导航。例如，跟踪交通工具102可以确定目标交通工具104的定位和大小，以确定何时减速、加速、变道和/或执行某个其他功能。虽然交通工具102被称为跟踪交通工具102，并且交通工具104、106和108被称为目标交通工具(参考图1)，但是如果并且当交通工具104、106和108在跟踪其他交通工具时，它们也可被称为跟踪交通工具，在该情况下其他交通工具成为目标交通工具。

图2是解说交通工具204的交通工具计算系统250的示例的框图。交通工具204是UE的示例，其可以通过Uu接口与网络(例如，eNB、gNB、定位信标、位置测量单元和/或其他网络实体)通信，并且可以通过PC5接口(或其他设备到设备直接接口)使用V2X通信来与其他UE通信。如图所示，交通工具计算系统250可至少包括功率管理系统251、控制系统252、信息娱乐系统254、智能交通系统(ITS)255、一个或多个传感器系统256以及通信系统258。在一些情形中，交通工具计算系统250可包括任何类型的处理设备或系统或可以使用任何类型的处理设备或系统(诸如一个或多个中央处理单元(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、应用处理器(AP)、图形处理单元(GPU)、视觉处理单元(VPU)、神经网络信号处理器(NSP)、微控制器、专用硬件、其任何组合和/或其他处理设备或系统)来实现。

控制系统252可以被配置成控制交通工具204、功率管理系统251、计算系统250、信息娱乐系统254、ITS255和/或交通工具204的一个或多个其他系统(例如，制动系统、转向系统、除ITS255之外的安全系统、驾驶室系统和/或其他系统)的一个或多个操作。在一些示例中，控制系统252可以包括一个或多个电子控制单元(ECU)。ECU可以控制交通工具中的一个或多个电气系统或子系统。可被包括作为控制系统252的一部分的特定ECU的示例包括引擎控制模块(ECM)、动力系控制模块(PCM)、传输控制模块(TCM)、制动控制模块(BCM)、中央控制模块(CCM)、中央定时模块(CTM)等。在一些情形中，控制系统252可以从一个或多个传感器系统256接收传感器信号，并且可以与交通工具计算系统250的其他系统通信以操作交通工具204。

交通工具计算系统250还包括功率管理系统251。在一些实现中，功率管理系统251可以包括功率管理集成电路(PMIC)、备用电池和/或其他组件。在一些情形中，交通工具计算系统250的其他系统可以包括一个或多个PMIC、电池和/或其他组件。功率管理系统251可以为交通工具204执行功率管理功能，诸如管理对计算系统250和/或交通工具的其他部件的供电。例如，功率管理系统251可以鉴于功率波动(诸如基于启动交通工具的引擎)而提供稳定的供电。在另一示例中，功率管理系统251可以执行热监视操作(诸如通过检查环境和/或晶体管结温度)。在另一示例中，功率管理系统251可以基于检测到某个温度水平来执行某个功能，诸如使得冷却系统(例如，一个或多个风扇、空调系统等)冷却交通工具计算系统250的某些组件(例如，控制系统252，诸如一个或多个ECU)，关闭交通工具计算系统250的某些功能性(例如，限制信息娱乐系统254，诸如通过关闭一个或多个显示器、与无线网络断开连接等)，以及其他功能。

交通工具计算系统250进一步包括通信系统258。通信系统258可包括用于向网络(例如，通过Uu接口向gNB或其他网络实体)和/或向其他UE(例如，通过PC5接口、WiFi接口、蓝牙^TM接口和/或其他无线和/或有线接口向另一交通工具或UE)传送信号以及从网络和/或从其他UE接收信号的软件和硬件组件两者。例如，通信系统258被配置成通过任何合适的无线网络(例如，3G网络、4G网络、5G网络、WiFi网络、蓝牙^TM网络和/或其他网络)无线地传送和接收信息。通信系统258包括用于执行无线通信功能性的各种组件或设备，其包括原始装备制造商(OEM)订户身份模块(称为SIM或SIM卡)260、用户SIM 262和调制解调器264。虽然交通工具计算系统250被示为具有两个SIM和一个调制解调器，但是在一些实现中，计算系统250可以具有任何数目的SIM(例如，一个SIM或多于两个SIM)和任何数目的调制解调器(例如，一个调制解调器、两个调制解调器或多于两个调制解调器)。

SIM是可以安全地存储特定订户或用户的国际移动订户身份(IMSI)号码和相关密钥(例如，加密-解密密钥)的设备(例如，集成电路)。IMSI和密钥可被用于标识和认证特定UE上的订户。OEM SIM 260可由通信系统258用于建立用于基于交通工具的操作的无线连接，诸如用于进行紧急呼叫(eCall)功能、与交通工具制造商的通信系统通信(例如，用于软件更新等)，以及其他操作。OEM SIM 260对于OEM SIM支持关键服务(诸如用于在发生车辆事故或其他紧急情况下拨打紧急电话的eCall)可以很重要。例如，eCall可以包括在交通工具事故的情况下自动拨打紧急号码(例如，美国的“9-1-1”，欧洲的“1-1-2”等)，并且将交通工具的位置传达给紧急服务(诸如警察局、消防局等)的服务。

用户SIM 262可以被通信系统258用于执行无线网络接入功能，以支持用户数据连接(例如，用于进行电话呼叫、消息接发、信息娱乐相关服务等)。在一些情形中，用户的用户设备可以通过接口(例如，通过PC5、蓝牙^TM、WiFI^TM、通用串行总线(USB)端口和/或其他无线或有线接口)与交通工具计算系统250连接。一旦连接，用户设备就可以将无线网络接入功能性从用户设备传递给交通工具的通信系统258，在该情形中，用户设备可以停止无线网络接入功能性的执行(例如，在通信系统258正在执行无线接入功能性的时段期间)。通信系统258可以开始与基站交互以执行一个或多个无线通信操作，诸如促成电话呼叫、传送和/或接收数据(例如，消息接发、视频、音频等)，以及其他操作。在此类情形中，交通工具计算系统250的其他组件可被用于输出由通信系统258接收到的数据。例如，(以下所描述的)信息娱乐系统254可以在一个或多个显示器上显示由通信系统258接收到的视频，和/或可以使用一个或多个扬声器来输出由通信系统258接收到的音频。

调制解调器是调制一个或多个载波信号以编码用于传输的数字信息，并且解调信号以解码所传送的信息的设备。调制解调器264(和/或通信系统258的一个或多个其他调制解调器)可被用于OEM SIM 260和/或用户SIM 262的数据通信。在一些示例中，调制解调器264可以包括4G(或LTE)调制解调器，并且通信系统258的另一调制解调器(未示出)可以包括5G(或NR)调制解调器。在一些示例中，通信系统258可以包括一个或多个蓝牙^TM调制解调器(例如，用于蓝牙^TM低能量(BLE)或其他类型的蓝牙通信)、一个或多个WiFi^TM调制解调器(例如，用于DSRC通信和/或其他WiFi通信)、宽带调制解调器(例如，超宽带(UWB)调制解调器)、其任何组合和/或其他类型的调制解调器。

在一些情形中，调制解调器264(和/或通信系统258的一个或多个其他调制解调器)可被用于执行V2X通信(例如，与其他交通工具进行V2V通信、与其他设备进行D2D通信、与基础设施系统进行V2I通信、与行人UE进行V2P通信等)。在一些示例中，通信系统258可以包括用于执行V2X通信(例如，通过PC5接口的侧链路通信)的V2X调制解调器，在该情形中，V2X调制解调器可以与用于无线网络接入功能(例如，用于通过网络/Uu接口的网络通信和/或除了V2X通信之外的侧链路通信)的一个或多个调制解调器分开。

在一些实现中，V2X通信可以包括交通工具之间的通信(例如，交通工具到交通工具(V2V))、交通工具与基础设施之间的通信(例如，交通工具到基础设施(V2I))、交通工具与行人之间的通信(例如，交通工具到行人(V2P))和/或交通工具与网络服务器之间的通信(交通工具到网络(V2N))。对于V2V、V2P和V2I通信，可以在交通工具之间在不经过网络、eNB或gNB的情况下直接发送数据分组(例如，使用PC5接口、使用802.11DSRC接口等)。例如，启用V2X的交通工具可以使用短程直接通信模式，其提供360°非视线(NLOS)感知，从而补充车载视线(LOS)传感器(诸如相机、无线电探测和测距(RADAR)、光探测和测距(LIDAR)以及其他传感器)。无线技术和车载传感器的结合使V2X交通工具能够目视观察、听到和/或预计潜在的驾驶危险(例如，在盲路口处、在恶劣天气条件下和/或在其他场景中)。V2X交通工具还可以理解来自其他启用V2X的交通工具(基于V2V通信)、基础设施系统(基于V2I通信)和用户设备(基于V2P通信)的警报或通知。基础设施系统可以包括道路、红绿灯、路标、桥梁、收费站和/或其他可以使用V2I消息接发与交通工具通信的基础设施系统。在一些情形中，V2X通信可以利用多种操作模式。在版本12中引入的LTE侧链路(例如，用于D2D通信)包括两种操作模式，称为模式1和模式2。模式1和模式2两者的设计目标都是以增加等待时间为代价来延长移动设备的电池寿命。取决于期望的实现，侧链路通信可以根据3GPP通信协议侧链路(例如，使用根据LTE、5G等的PC5侧链路接口)、Wi-Fi直接通信协议(例如，DSRC协议)、或者使用任何其他设备到设备通信协议来执行。

在一些示例中，可使用一个或多个无执照国家信息基础设施(U-NII)频带来执行侧链路通信。例如，可在与U-NII-4频带(5.850–5.925GHz)、U-NII-5频带(5.925–6.425GHz)、U-NII-6频带(6.425–6.525GHz)、U-NII-7频带(6.525–6.875GHz)、U-NII-8频带(6.875–7.125GHz)或可适于执行侧链路通信的任何其他频带相对应的频带中执行侧链路通信。然而，在一些方面，连接交通工具可以受益于高度可靠和低等待时间的V2X通信，并且因此模式1和2可能不适合这种应用。

针对V2V通信设计了两种附加通信模式(模式3和模式4)。在模式3中，蜂窝网络(例如，eNB、gNB或其他网络实体)选择和管理由交通工具用于执行直接V2X通信的无线电资源。在模式4中，交通工具自主选择用于直接V2X通信的无线电资源。模式4可以在没有蜂窝覆盖的情况下操作，并且在一些情形中可以被认为是基于安全应用不能取决于蜂窝覆盖的可用性的基线V2X模式。模式4可包括供交通工具选择无线电资源的分布式调度方案，并且可包括对分布式拥塞控制的支持。

在一些示例中，通信系统258可以是或可以包括远程信息处理控制单元(TCU)。在一些实现中，TCU可以包括网络接入设备(NAD)(在一些情形中也称为网络控制单元或NCU)。NAD可包括调制解调器264、图2中未示出的任何其他调制解调器、OEM SIM 260、用户SIM262和/或用于无线通信的其他组件。在一些示例中，通信系统258可以包括全球导航卫星系统(GNSS)。在一些情形中，GNSS可以是一个或多个传感器系统256的一部分，如下所述。GNSS可以为交通工具计算系统250提供执行一个或多个位置服务、导航服务和/或可利用GNSS功能性的其他服务的能力。

在一些情形中，通信系统258可以进一步包括用于传送和接收无线通信的一个或多个无线接口(例如，包括用于每个无线接口的一个或多个收发机和一个或多个基带处理器)、用于通过一个或多个硬连线连接来执行通信的一个或多个有线接口(例如，串行接口(诸如通用串行总线(USB)输入、照明连接器和/或其他有线接口))，和/或可以允许交通工具204与网络和/或其他UE通信的其他组件。

交通工具计算系统250还可以包括可以控制内容的信息娱乐系统254和交通工具204的可以被用于输出内容的一个或多个输出设备。信息娱乐系统254也可以被称为交通工具内信息娱乐(IVI)系统或车内娱乐(ICE)系统。内容可以包括导航内容、媒体内容(例如，视频内容、音乐或其他音频内容、和/或其他媒体内容)以及其他内容。一个或多个输出设备可以包括一个或多个图形用户接口、一个或多个显示器、一个或多个扬声器、一个或多个扩展现实设备(例如，VR、AR和/或MR头戴式设备)、一个或多个触觉反馈设备(例如，被配置成振动座椅、方向盘和/或交通工具204的其他部分的一个或多个设备)和/或其他输出设备。

在一些示例中，计算系统250可以包括智能交通系统(ITS)255。在一些示例中，ITS255可被用于实现V2X通信。例如，ITS255的ITS栈可以基于来自ITS的应用层的信息来生成V2X消息。在一些情形中，应用层可以确定是否已经满足某些条件以生成供ITS255使用的消息和/或生成要被发送到其他交通工具(用于V2V通信)、行人UE(用于V2P通信)和/或基础设施系统(用于V2I通信)的消息。在一些情形中，通信系统258和/或ITS255可以(例如，经由CAN总线从交通工具的其他组件)获得汽车接入网(CAN)信息。在一些示例中，通信系统258(例如，TCU NAD)可以经由CAN总线获得CAN信息，并且可以将CAN信息发送到ITS栈。CAN信息可以包括交通工具相关信息，诸如交通工具的航向、交通工具的速度、制动信息以及其他信息。CAN信息可以持续地或周期性地(例如，每1毫秒(ms)、每10ms等)提供给ITS255。

可以基于安全性相关应用和/或其他应用(包括与道路安全、交通效率、信息娱乐、商业和/或其他应用相关的应用)使用CAN信息来确定用于确定是否要生成消息的条件。在一个解说性示例中，ITS255可以执行变道辅助或协商。例如，使用CAN信息，ITS255可以确定交通工具204的驾驶员正试图将车道从当前车道改变到毗邻车道(例如，基于转向灯被激活，基于用户顺转到或转向到毗邻车道等)。基于确定交通工具204正试图改变车道，ITS255可以确定已经满足变道条件，该变道条件与要被发送到毗邻车道中位于该交通工具附近的其他交通工具的消息相关联。ITS255可以触发ITS栈生成一个或多个消息以供传输到其他交通工具，这些消息可被用于与其他交通工具协商变道。应用的其他示例包括前方碰撞警告、自动紧急制动、车道偏离警告、行人回避或保护(例如，当在交通工具204附近检测到行人时，诸如基于与用户的UE的V2P通信)、交通标志识别等。

ITS255可以使用任何合适的协议来生成消息(例如，V2X消息)。ITS255可以使用的协议的示例包括一个或多个汽车工程学会(SAE)标准(诸如SAE J2735、SAE J2945、SAEJ3161和/或其他标准)，这些标准由此通过援引且出于所有目的被整体纳入于此。

ITS255的安全层可以用于安全地对来自ITS堆栈的消息进行签名，这些消息被发送到被配置用于V2X通信的其他UE并由其验证，诸如其他交通工具、行人UE和/或基础设施系统。安全层还可以验证从此类其他UE接收的消息。在一些实现中，签名和验证过程可以基于交通工具的安全上下文。在一些示例中，安全上下文可包括一个或多个加密－解密算法、用于使用加密－解密算法生成签名的公钥和/或私钥、和/或其他信息。例如，由ITS栈生成的每个ITS消息都可以由安全层签名。可以使用公钥和加密－解密算法来导出签名。接收到经签名消息的交通工具、行人UE和/或基础设施系统可以验证签名以确保该消息来自经授权的交通工具。在一些示例中，该一个或多个加密－解密算法可包括一个或多个对称加密算法(例如，高级加密标准(AES)、数据加密标准(DES)和/或其他对称加密算法)、使用公钥和私钥的一个或多个非对称加密算法(例如，Rivest-Shamir-Adleman(RSA)和/或其他非对称加密算法)和/或其他加密－解密算法。

在一些示例中，ITS255可以基于从其他UE接收到的消息来确定要执行的某些操作(例如，基于V2X的操作)。这些操作可以包括安全相关的和/或其它操作，诸如用于道路安全、交通效率、信息娱乐、商业和/或其它应用的操作。在一些示例中，这些操作可以包括使得交通工具(例如，控制系统252)执行自动功能，诸如自动制动、自动转向(例如，在特定车道上保持航向)、与其他交通工具的自动变道协商，以及其他自动功能。在一个解说性的示例中，通信系统258可以从另一交通工具(例如，通过PC5接口)接收指示该另一交通工具即将急停的消息。响应于接收到该消息，ITS255可以生成消息或指令，并且可以将该消息或指令发送到控制系统252，这可以使得控制系统252自动制动交通工具以使得其在对该另一交通工具产生影响之前停下来。在其他解说性示例中，操作可以包括触发以下消息的显示：向驾驶员警告另一交通工具在交通工具旁边的车道上的消息、警告驾驶员停下交通工具的消息、向驾驶员警告行人在即将到来的人行横道上的消息、向驾驶员警告收费站在交通工具的某个距离内(例如，1英里内)的消息等。

在一些示例中，ITS255可以从其他UE(例如，交通工具、RSU等)接收大量消息，在该情形中，ITS255将认证(例如，解码和解密)这些消息中的每个消息和/或确定哪些操作要执行。如此大量的消息可导致交通工具计算系统250的较大计算负载，这会导致计算系统250的温度升高。如以下更详细描述的，一个或多个功能性可基于交通工具计算系统250(或其组件)的温度超过或接近一个或多个热能级而从交通工具204转移到另一设备(例如，用户设备、RSU等)。转移一个或多个功能性可以减少交通工具204上的计算负载，从而帮助降低组件的温度。

计算系统250进一步包括一个或多个传感器系统256(例如，第一传感器系统到第N传感器系统，其中N是等于或大于0的值)。当包括多个传感器系统时，(诸)传感器系统456可包括不同类型的传感器系统，其可以布置在交通工具204的不同部件上或不同部件中。(诸)传感器系统456可以包括一个或多个相机传感器系统、光探测和测距(LIDAR)传感器系统、无线电探测和测距(RADAR)传感器系统、电磁探测和测距(EmDAR)传感器系统、声音导航和测距(SONAR)传感器系统、声音探测和测距(SODAR)传感器系统、全球导航卫星系统(GNSS)接收器系统(例如，一个或多个全球定位系统(GPS)接收器系统)、加速度计、陀螺仪、惯性测量单元(IMU)、红外传感器系统、激光测距仪系统、超声波传感器系统、次声传感器系统、话筒、其任何组合和/或其他传感器系统。应当理解，可以包括任何数目的传感器或传感器系统作为交通工具204的计算系统250的一部分。

尽管交通工具计算系统250被示为包括某些组件和/或系统，但本领域普通技术人员将领会，交通工具计算系统250可包括比图2中所示的那些组件更多或更少的组件。例如，交通工具计算系统250还可包括一个或多个输入设备和一个或多个输出设备(未示出)。在一些实现中，交通工具计算系统250还可以包括(例如，作为控制系统252、信息娱乐系统254、通信系统258和/或(诸)传感器系统456的一部分或与其分开的)至少一个处理器和至少一个存储器，该至少一个存储器具有由该至少一个处理器执行的计算机可执行指令。至少一个处理器与至少一个存储器通信和/或电连接到(被称为“耦合到”或“通信地耦合到”)该至少一个存储器。该至少一个处理器可包括例如一个或多个微控制器、一个或多个中央处理单元(CPU)、一个或多个现场可编程门阵列(FPGA)、一个或多个图形处理单元(GPU)、一个或多个应用处理器(例如，用于运行或执行一个或多个软件应用)和/或其他处理器。至少一个存储器可包括例如只读存储器(ROM)、随机存取存储器(RAM)(例如，静态RAM(SRAM))、电可擦除可编程只读存储器(EEPROM)、闪存、一个或多个缓冲器、一个或多个数据库和/或其他存储器。存储在至少存储器中或上的计算机可执行指令可被执行以执行本文所描述的一个或多个功能或操作。

图3解说了由各种UE使用的不同通信机制的示例。在一个示例中，图3解说了使用PC5信令接口彼此通信的交通工具304、交通工具305和路侧单元(RSU)303。另外，交通工具304和交通工具305可以使用网络(Uu)接口与基站302(示为BS 302)通信。在一些示例中，基站302可以包括gNB。图3还解说了用户设备307使用网络(Uu)接口与基站302通信。如下所述，可以基于一个或多个特性或因素(例如，温度、湿度等)将功能性从交通工具(例如，交通工具304)迁移到用户设备(例如，用户设备307)。在一个解说性示例中，V2X功能性可以从交通工具304转移到用户设备307，随后用户设备307可以通过PC5接口与其他交通工具(例如，交通工具305)通信，如图3中所示。

虽然图3中示出了PC5接口，但是各种UE(例如，交通工具、用户设备等)和(诸)RSU可以使用任何合适类型的直接接口(诸如802.11DSRC接口、蓝牙^TM接口和/或其他接口)直接通信。例如，交通工具可以通过直接通信接口(例如，使用PC5和/或DSRC)与用户设备通信，交通工具可以通过直接通信接口与另一交通工具通信，用户设备可以通过直接通信接口与另一用户设备通信，UE(例如，交通工具、用户设备等)可以通过直接通信接口与RSU通信，RSU可以通过直接通信接口与另一RSU通信，等等。

如上所述，本文描述了提供对对象检测和跟踪的改进的系统和技术。图4是解说显示器400的概念图，跟踪对象可以在显示器400上执行对象检测和跟踪，以检测和跟踪一个或多个目标对象(例如，如图4中所示的目标交通工具)。在一些实例中，显示器400可以被配置成显示包含被跟踪对象(未解说)跟踪的对象的图像(或图像帧)。在图4的示例中，跟踪对象可以包括跟踪交通工具(也称为自我交通工具)。显示器400可以是显示屏、数字镜或其他显示设备，其被配置成显示信息和图像，以促成跟踪设备(诸如交通工具)的导航、规划和/或寻径功能。作为实例，目标对象402可以是交通工具，并且跟踪对象可以是另一交通工具(未解说)，其正在执行检测和跟踪操作以改进导航和安全性。如图4的示例中解说的，显示器400可以被配置成显示图像(诸如图像401)，其可以是例如由图像捕捉设备(诸如相机)从跟踪对象周围的环境中采集的。将理解，目标对象和跟踪对象可以包括各种其他对象类型，诸如其他类型的交通工具，而不脱离所公开技术的范围。

在操作中，跟踪对象可以接收(或捕捉)传感器数据，诸如周围环境的图像数据。传感器数据可以包括来自各种传感器类型(包括一个或多个光探测和测距(LiDAR)传感器、雷达传感器和/或超声传感器等)的数据。附加地，跟踪对象可以从目标对象402接收一个或多个消息(例如，第一消息集合)。在一些实现中，消息可以包括一个或多个消息(例如，V2X消息、DSRC消息或其他类型的消息)，例如，其包括目标对象402的速度、姿态和/或大小信息。姿态可以包括三维(3D)定位(例如，包括水平(x)、垂直(y)和深度(z)维度)和3D取向(例如，包括俯仰、滚动和偏航)。

在一些方面，跟踪对象可以使用采集的传感器数据(例如，图像数据、LiDAR数据和/或雷达数据等)对目标对象402执行跟踪。作为示例，相机图像数据可以被提供给跟踪系统，以确定跟踪对象的大小，以及估计或确定目标对象402的各种运动学属性，诸如目标对象的速度、加速度和/或姿态。目标对象402的所确定的大小和姿态可被用于围绕目标对象402放置初始限界框404。如图4中所示，初始限界框404的大小被设定为涵盖图像401的包围目标对象402的区域。基于所确定的运动学属性，跟踪系统可以推断(或确定)目标对象402的位置，即使在其中不能直接采集针对目标对象402的传感器数据的实例中亦如此，诸如在其中目标对象402从跟踪对象的一个或多个传感器(诸如一个或多个相机)的视场中被遮挡的实例中。在此类办法中，跟踪系统可以利用机器学习模型，例如，以确定或预测目标对象的运动学属性，以及确定或预测目标对象402的轨迹。关于使用机器学习技术的进一步细节将在以下参照图7进行讨论。

在一些办法中，跟踪对象可以将接收到的或采集的传感器数据与接收到的消息中的信息进行比较，例如，以验证或核实消息信息。作为示例，跟踪对象可以将从所采集的相机图像数据确定的目标对象402的各种特征(例如，目标对象的位置、大小和/或姿态)与由所接收到的消息中的信息报告的目标对象402的对应特征进行比较。以此方式，所采集的传感器信息可被用于验证消息信息，例如，以确定所报告的消息信息是否不正确。在一些实现中，跟踪对象可以将不正确报告的消息信息分类为错误的或“欺骗的”。

在一些方面，跟踪对象可以使用接收到的消息中的信息对目标对象402执行跟踪。例如，使用接收到的图像数据，跟踪对象的对象检测和跟踪系统可以确定(或计算)标识目标对象402在图像中的定位或位置的初始限界框404。如图4中所示，初始限界框404的大小被设定为涵盖图像401的包围目标对象402的区域。

在一些情形中，消息(例如，V2X、DSRC等)中所包括的跟踪对象的姿态(例如，3D定位和取向)在全局参考系中(例如，在ECEF参考系中)。跟踪对象的对象检测和跟踪系统可以将跟踪对象的姿态从全局参考系投影到图像的二维(2D)平面(称为图像平面)。由目标对象传送并由跟踪对象接收的一个或多个消息(例如，V2X、DSRC等)中所包括的姿态信息可以包括描述相对于全局参考系e(例如，ECEF参考系)的目标对象定位的平移向量t_eo和描述相对于全局参考系e的目标对象取向的旋转矩阵R_eo。如以上提及的，姿态信息可以由目标对象基于由目标对象接收到的GPS/GNSS信息来确定。此外，跟踪对象可以(例如，基于接收到的GPS/GNSS信息来)确定描述相对于全局参考系e的跟踪对象定位和取向(例如，相机定位和取向)的平移向量t_ec和旋转矩阵R_ec。跟踪对象的对象检测和跟踪系统随后可以通过确定平移向量来确定目标交通工具相对于跟踪交通工具(例如，跟踪交通工具相机)的定位在此，(.)^T标示转置运算符。跟踪对象的对象检测和跟踪系统可以通过确定旋转矩阵来确定目标交通工具相对于跟踪交通工具的取向/>

图5A-图5E示出了可被用于此类投影的坐标变换的解说性示例。例如，图5A-5C是解说从对象坐标系到相机坐标系的坐标变换的示例的示图。图5A解说了相机坐标系的原点502(也称为相机中心)、来自对象坐标系中的多个3D点的3D点X_O以及对象坐标系的原点504。还示出了变换矩阵T_co。如图5A、图5B和图5C中解说的，对象坐标系上的点(包括点X_O)被变换成相机坐标系上的点(包括点X_C)。在一些示例中，可以使用以下等式来计算变换：

在该等式中，R包括相机的旋转参数(例如，俯仰、偏航和/或滚动)，并且t是平移向量(例如，相机的物理位置)。旋转和平移是相机的固有参数。旋转参数R可以用以下等式表达：

在以上等式中，α是偏航(水平旋转)，β是俯仰(上下旋转)，并且γ是滚动(侧到侧旋转)。相对于相机的俯仰、滚动和偏航可以被概念化为：偏航是相机相对于地面的水平旋转(例如，相对于水平轴从左到右)，俯仰是相机相对于地面的垂直旋转(例如，相对于水平轴上下)，以及滚动是相机相对于水平线的侧到侧旋转(例如，相对于水平轴的侧到侧)。平移向量t可以被表达为：

这种映射也被称为投影变换。相机的固有参数可以表达如下：

在以上矩阵中，f_x和f_y分别是相机沿x轴和y轴的焦距；(x_c,y_c)是图像平面505的中心；并且S是偏斜因子。当3D相机参考系508不精确地垂直于图像平面505时，发生偏斜。相机的固有参数K接下来可被用于将P’从3D相机参考系508映射到图像平面505。

图5D是解说(来自图5A-图5C的)对象坐标系上的3D点X_O到图像上的2D点的投影的示例的示图。对象坐标系上的3D点X_O可包括图像中所解说的对象的3D模型上的顶点。在一些示例中，可以使用以下等式将3D点X_O投影到图像上的2D点：

继续图5A-图5D的示例，图5E是解说图像上的2D点到相机坐标系的反投影的示例的示图。给定2D图像，可以确定来自每个像素的光线方向。然而，深度(从原点502(或相机中心)到3D点的距离)是未知的。例如，2D像素点506的反投影可以如下被计算为方向向量：

在以上矩阵中，f_x和f_y分别是相机沿x轴和y轴的焦距；(x_c,y_c)是图像平面505的中心；并且S是偏斜因子。当3D相机参考系508不精确地垂直于图像平面505时，发生偏斜。

返回图4，在一些实现中，可以基于与确定跟踪对象和/或目标对象402的姿态相关联的不确定性度量来调整最初计算的限界框404的大小。例如，跟踪对象和/或目标对象的姿态测量的不确定性可被用于调整初始限界框404的大小。作为示例，可以基于初始限界框404的尺寸以及跟踪对象和目标对象402的姿态的不确定性度量来确定新的限界框406。如图4的示例中解说的，限界框406可以被配置成包含图像401的子图像408，该子图像408具有涵盖目标对象402的高统计似然。子图像408随后可以从限界框406中被提取，并由跟踪对象的对象检测和跟踪系统用来执行对目标对象402的对象检测和跟踪。作为示例，跟踪对象的对象检测和跟踪系统可以执行检测和跟踪，以标识和跟踪交通工具(作为目标对象402的示例)的定位(或位置)和移动，以便促成跟踪对象的导航和规划操作。

在一些办法中，可以使用基于机器学习(ML)的分类器(诸如深度神经网络)对子图像408执行对象检测。在此类实例中，子图像408可以在被提供给检测模型之前被进一步预处理。例如，子图像408的高度和/或宽度可以被调整或缩放，例如以在子图像408被提供给检测模型之前增大或减小子图像408的像素高度和/或宽度。在一个解说性示例中，所提取的子图像408可以被缩放到固定的规范大小(例如，使得子图像是100像素宽、200像素宽、100像素高、200像素高或其他宽度和/或高度)。对象检测模型随后可以对经提取和缩放的子图像408执行对象检测。因为子图像比原始图像小，所以执行对象检测的计算负担显著降低(因为需要由对象检测器处理的图像区域更少)。此外，因为图像中跟踪对象的尺度已经被归一化(基于子图像到固定大小的缩放)，所以基于机器学习的对象检测器可以被训练为处理具有该宽度的跟踪对象(例如，跟踪交通工具)的图像。对象检测和跟踪系统可以将子图像缩放回原始大小，并且可以计及子图像定位，这可以导致对象检测和跟踪系统在原始数字显示器中(例如，在全数字显示镜图像中)获得目标对象的准确限界框。

跟踪对象的对象检测和跟踪系统可以使用一个或多个对象跟踪器在一个或多个后续图像(其在执行了对象检测的图像之后)中执行对目标对象402的后续和连续跟踪。关于通过多个图像检测和跟踪目标对象的进一步细节将参照图6进一步详细讨论。

具体而言，图6解说了跨多个图像601(例如，601A–601G)执行的对象检测和跟踪过程600。目标对象(例如，目标对象402)的跟踪可以从针对第一图像601A执行的初始对象检测(在图6中示为初始检测604)开始。如以上讨论的，可以在从接收到的图像(例如，图像401)中提取的子图像(例如，子图像408)内检测到目标对象(例如，目标对象402)。在一些示例中，对象检测不仅标识目标对象在子图像中的定位或位置，而且标识目标对象在图像中的定位或位置。目标对象的后续位置(例如，在后续图像中)可以使用对象跟踪器(诸如卡尔曼滤波器、扩展卡尔曼滤波器、粒子滤波器或其组合)来执行。在一些情形中，此类滤波器的状态是目标对象(例如，目标交通工具)在跟踪对象的参考系(例如，跟踪或自我交通工具参考系)中的相对定位。例如，可以在3D空间中跟踪目标对象(与目标对象在图像平面中的投影相反)。在一些示例中，可以使用由对象检测模型确定的定位信息(例如，目标对象的水平和垂直定位状态)和/或来自从目标对象接收的一个或多个消息(例如，V2X和/或DSRC消息)的姿态信息来初始化对象跟踪器。例如，从对象检测中准确检测到的限界框可被用于初始化对象跟踪器的水平和垂直定位状态(例如，通过使用上述反投影技术将限界框投影到图像平面，诸如基于等式(6))，并且从消息(例如，V2X和/或DSRC消息)导出的姿态信息可被用于初始化对象跟踪器的深度定位状态。

在图6的示例中，例如，基于在对从图像601A提取的子图像(例如，子图像408)执行对象检测之后从目标对象接收的一个或多个V2X和/或DSRC消息，可以在图像601B–601F中跟踪目标对象位置和/或姿态(在图6中示为跟踪608)。例如，如以上所提及的，V2X消息可包括指示目标对象(例如，目标交通工具)的速度的速度信息。速度可包括方向(例如，包括水平(x)和垂直(y)方向)和速度。对象跟踪器可以通过将限界框从先前图像(例如，作为图像601B之前的图像的图像601A)中的定位移动因变于速度的量来确定限界框在当前图像(例如，图像601B)中的定位。例如，在一些情形中，消息(例如，V2X或DSRC消息)中所包括的速度信息可以在3D中给出。对象检测和跟踪系统可以使用3D速度信息来确定目标交通工具的经更新的3D定位。对象检测和跟踪系统随后可以将交通工具的经更新定位投影到相机图像平面上(例如，通过执行以上关于图5A-图5E描述的投影)。交通工具的经投影定位定义了新限界框。在一些示例中，3D速度向量可以被投影到相机图像平面上，并且该投影的速度向量可被用于直接移动限界框。

在一些情形中，跟踪对象可以从目标对象接收后续V2X和/或DSRC消息，其包括经更新信息(包括目标交通工具的经更新速度)。当V2X和/或DSRC收到消息指示目标交通工具的经更新速度时，跟踪交通工具的对象检测和跟踪系统可以使用经更新速度来执行目标跟踪。例如，如果接收到的相对于图像601A的一个或多个V2X和/或DSRC消息指示目标交通工具的第一速度，则跟踪交通工具的对象检测和跟踪系统可以使用第一速度来针对图像601B、601C和601D执行目标交通工具的对象跟踪。在此类示例中，跟踪交通工具可以接收包括目标交通工具的经更新速度(称为第二速度)的一个或多个附加V2X和/或DSRC消息。对象检测和跟踪系统可以使用第二速度来针对帧601E和601F执行对象跟踪。

通过使用接收到的无线消息(例如，各种V2X消息集合)对后续图像执行跟踪，可以在其中目标对象可能被图像中的其他对象遮挡的实例中执行跟踪。对象跟踪器(例如，滤波器)的传播在计算上是便宜的，因为对象跟踪器状态相对较小。此外，当基于无线消息(诸如V2X和/或DSRC消息)中所包括的速度估计时，与基于GPS、GNSS等的定位估计相比，对象跟踪器是高度准确的(例如，精确到5至10cm/s的数量级)。继关于图4所解说的示例，可以对(例如，被显示在数字镜设备上的)后续图像执行目标对象402(交通工具)的跟踪，即使目标对象被后续图像中的其他对象(诸如道路上的其他交通工具)遮挡亦如此。

在一些实现中，可以对后续图像中的目标对象重复对象检测过程。在图6的示例中，针对图像601G重复对象检测(在图6中示为检测606)。将理解，对象检测的节奏可以基于多种因素，包括但不限于计算资源的可用性、消息接收频率、一个或多个收到消息集合的不确定性度量(例如，指示速度和/或姿态估计的误差量)、和/或图像采集的帧率602等。作为实例，检测可以每秒执行一次、每半秒执行一次等。在一些情形中，与基于上述不确定性确定的大小相比，从较大图像中提取的子图像可以变得更紧或更小，因为关于目标对象在原始图像(例如，数字显示镜图像)中的定位的更佳先验信息可从用于跟踪目标对象(例如，目标交通工具)的对象跟踪器(例如，滤波器)中获得。

通过周期性地重复检测过程，所得的准确限界框可以用于更新被用于跟踪目标对象的对象跟踪器(例如，滤波器)。目标检测的重复可以防止使用对象跟踪确定的限界框的漂移(并且进而防止在数字显示器(诸如跟踪交通工具的数字显示镜)上显示的限界框的漂移)。此外，周期性地重复对象检测可以导致跨若干图像保持高准确度的对象检测和定位(例如，达延长的时间段)，同时还通过限制对象检测模型的使用来减少计算开销。

如以上提及的，对象检测和跟踪系统可以使用基于机器学习的对象检测器(例如，基于深度神经网络)来执行对象检测。图7是深度神经网络700的解说性示例，该深度神经网络700可被用于对包含目标对象(例如，如上所讨论的位于子图像408中的目标对象402)的子图像执行对象检测。深度神经网络700包括输入层720，其被配置成摄取输入数据，诸如包含要对其执行检测的目标对象的经预处理(经缩放)子图像。在一个解说性示例中，输入层720可包括表示输入图像或视频帧的像素的数据。神经网络700包括多个隐藏层722a、722b至722n。隐藏层722a、722b至722n包括“n”个隐藏层，其中“n”是大于或等于1的整数。可以使隐藏层的数目包括给定应用所需要的尽可能多的层。神经网络700进一步包括输出层724，其提供由隐藏层722a、722b至722n执行的处理所产生的输出。在一个解说性示例中，输出层724可以提供针对图像或输入视频帧中的对象的分类。该分类可以包括标识对象类型的类别(例如，人、狗、猫或其他对象)。

神经网络700是互连节点的多层神经网络。每个节点可表示信息片段。与这些节点相关联的信息在不同的层之间共享，并且每个层在信息被处理时保留信息。在一些情形中，神经网络700可以包括前馈网络，在该情形中不存在网络的输出被反馈给自身的反馈连接。在一些情形中，神经网络700可以包括递归神经网络，其可以具有允许在读进输入时跨节点携带信息的环路。

可以在各节点之间通过各个层之间的节点到节点互连来交换信息。输入层720的节点可以激活第一隐藏层722a中的一组节点。例如，如图所示，输入层720的每个输入节点连接到第一隐藏层722a的每个节点。隐藏层722a、722b至722n的节点可以通过向每个输入节点的信息应用激活函数来变换该信息。从该变换导出的信息可以随后被传递到并且可以激活下一隐藏层722b的节点，这些节点可以执行它们自己指定的函数。示例函数包括卷积、上采样、数据变换、和/或任何其他合适的函数。隐藏层722b的输出可以随后激活下一隐藏层的节点，依此类推。最后隐藏层722n的输出可以激活输出层724的一个或多个节点，在这些节点处提供输出。在一些情形中，虽然神经网络700中的节点(例如，节点726)被示为具有多个输出线，但节点具有单个输出并且所有线被示为从表示相同输出值的节点输出。

在一些情形中，每个节点或各节点之间的互连可以具有权重，该权重是从神经网络700的训练推导出的参数集。一旦神经网络700被训练，其就可被称为经训练神经网络，该经训练神经网络可被用于将一个或多个对象分类。例如，各节点之间的互连可以表示习得的与互连节点有关的信息片段。互连可以具有可以(例如，基于训练数据集)被调谐的可调数值权重，从而允许神经网络700对输入自适应并且能够随着越来越多数据被处理而进行学习。

神经网络700被预训练以使用不同的隐藏层722a、722b至722n来处理来自输入层720中的数据的特征，以便通过输出层724来提供输出。在其中神经网络700被用于标识图像中的对象的示例中，可以使用包括图像和标签两者的训练数据来训练神经网络700。例如，可以将训练图像输入到网络中，其中每个训练图像具有指示每个图像中的一个或多个对象的类别的标签(基本上，向网络指示对象是什么以及它们具有什么特征)。在一个解说性示例中，训练图像可包括数字2的图像，在这种情形中，图像的标签可以是[0 0 1 0 0 0 0 00 0]。

在一些情形中，神经网络700可以使用称为反向传播的训练过程来调整节点的权重。反向传播可以包括前向传递、损失函数、反向传递和权重更新。针对一次训练迭代执行前向传递、损失函数、后向传递和参数更新。对于每组训练图像，该过程可以重复某个次数的迭代，直到神经网络700被训练得足够好，以使得层的权重得到准确调谐。

对于标识图像中的对象的示例，前向传递可以包括将训练图像传递通过神经网络700。权重最初在神经网络700被训练之前被随机化。图像可以包括例如表示图像的像素的数字数组。数组中的每个数字可包括从0到255的值，其描述了数组中该定位的像素强度。在一个示例中，数组可包括具有28行和28列像素以及3个颜色分量(例如红色、绿色和蓝色、或者亮度和两个色度分量，等等)的28×28×3数字数组。

对于神经网络700的第一次训练迭代，输出将很可能包括不给予对任何特定类别的偏好的值(由于权重是在初始化时随机选择的)。例如，如果输出是具有对象包括不同类别的概率的向量，则针对每个不同类别的概率值可以相等或至少非常相似(例如，对于十个可能的类别，每个类别可具有0.1的概率值)。利用初始权重，神经网络700无法确定低级特征，并且由此不能准确地确定对象的分类可能是什么。损失函数可用于分析输出中的误差。可使用任何合适的损失函数定义。损失函数的一个示例包括均方误差(MSE)。MSE被定义为其计算实际答案减去预测(输出)答案的平方的二分之一的总和。损失可以被设置为等于E_总共的值。

对于第一训练图像，损失(或误差)将较高，因为实际值将与预测输出大不相同。训练的目标是最小化损失量，以使得预测输出与训练标签相同。神经网络700可以通过确定哪些输入(权重)对网络的损失贡献最大来执行后向传递，并且可以调整权重以使得损失减少并最终被最小化。

可以计算损失相对于权重的导数(标示为dL/dW，其中W是特定层的权重)，以确定对网络损失贡献最大的权重。在计算出导数后，可以通过更新所有滤波器的权重来执行权重更新。例如，可以更新权重，以使得其沿梯度的相反方向变化。权重更新可被标示为其中w标示权重，w_i标示初始权重，并且η标示学习率。学习率可以被设置为任何合适的值，其中高学习率包括较大的权重更新，而较低值指示较小的权重更新。

神经网络700可包括任何合适的深度网络。一个示例包括卷积神经网络(CNN)，其包括输入层和输出层，其中在输入层与输出层之间具有多个隐藏层。以下参照图14描述了CNN的示例。CNN的隐藏层包括一系列卷积层、非线性层、池化层(用于下采样)和全连通层。神经网络700可包括除CNN之外的任何其他深度网络，诸如自编码器、深度置信网络(DBN)、递归神经网络(RNN)等。

图8是解说Cifar-10神经网络800的示例的示图。

在一些情形中，Cifar-10神经网络可以被训练为对特定对象进行分类，诸如仅交通工具。

如图所示，Cifar-10神经网络800包括各种卷积层(Conv1层802、Conv2/Relu2层808和Conv3/Relu3层814)、众多池化层(Pool1/Relu1层804、Pool2层810和Pool3层816)以及混合在其中的整流线性单元层。还提供了归一化层Norm1 806和Norm2 812。终极层是ip1层818。另一种可用于对图像中的对象进行检测或分类的基于深度学习的检测器包括SSD检测器，其是一种可应用于多个对象门类或类别的快速单发对象检测器。传统上，SSD模型被设计成使用附加到神经网络顶部的多个特征图的多尺度卷积限界框输出。此类表示允许SSD高效地对不同的框形状建模，诸如当给定图像中对象的大小未知时。然而，使用本文所描述的系统和技术，子图像提取和子图像的宽度和/或高度缩放可以允许对象检测和跟踪系统避免必须处理不同的框形状。相反，检测和跟踪系统的对象检测模型可以对经缩放图像执行对象检测，以便检测对象(例如，目标交通工具)在该图像中的定位和/或位置。

图9A-9C是解说对不同框形状建模的单发对象检测器的示例的示图。图9A包括图像，并且图9B和图9C包括解说SSD检测器(其具有VGG深度网络基本模型)如何操作的示图。例如，SSD将对象与不同纵横比的默认框相匹配(在图9B和图9C中示为虚线矩形)。特征图的每个元素都具有与其相关联的数个默认框。与真值框的交并比超过阈值(例如，0.4、0.5、0.6或其他合适的阈值)的任何默认框都被认为是对象的匹配。例如，两个8x8框(图9B中的框902和框904)与猫匹配，并且一个4x4框(图9C中的框906)与狗匹配。SSD具有多个特征图，其中每个特征图负责不同尺度的对象，从而允许其标识跨大范围尺度的对象。例如，图9B的8x8特征图中的框小于图9C的4x4特征图中的框。在一个解说性示例中，SSD检测器总共可具有六个特征图。

对于每个单元中的每个默认框，SSD神经网络输出长度为c的概率向量，其中c是类别数目，其表示该框包含每个类别的对象的概率。在一些情形中，包括背景类别，其指示框中没有对象。SSD网络还(针对每个单元中的每个默认框)输出偏移向量，该偏移向量具有四个条目，其包含使默认框与底层对象的限界框相匹配所需的预测偏移。向量以格式(cx,cy,w,h)给出，其中cx指示中心x，cy指示中心y，w指示宽度偏移，并且h指示高度偏移。只有当默认框中的确包含对象时，这些向量才有意义。对于图9A中所示的图像，所有概率标签将指示背景类别，除了三个匹配框(两个用于猫，一个用于狗)。

如以上提及的，使用本文所描述的系统和技术，尺度数目被减少到经缩放的子图像，对象检测模型可以对该子图像执行对象检测以检测对象(例如，目标交通工具)的定位。

另一种基于深度学习的检测器可以由对象检测模型用来检测或分类图像中的对象，包括You only look once(你只看一次)(YOLO)检测器，其是SSD对象检测系统的替代方案。图10A-10C是解说根据一些示例的You Only Look Once(你只看一次)(YOLO)检测器的示例的示图。具体而言，图10A包括图像，并且图10B和图10C包括解说YOLO检测器如何操作的示图。YOLO检测器可以将单个神经网络应用于完整的图像。如图所示，YOLO网络将图像划分成区域，并预测针对每个区域的限界框和概率。这些限界框由预测的概率加权。例如，如图10A所示，YOLO检测器将图像划分成13乘13单元的网格。每个单元负责预测五个限界框。提供了指示预测的限界框实际包围对象的确定程度的置信度分数。该分数不包括对可能在该框中的对象的分类，但是指示框的形状是否合适。预测的限界框在图10B中示出。具有更高置信度分数的框具有更厚的边框。

每个单元还为每个限界框预测一个类。例如，提供了所有可能类的概率分布。可以检测任何数目的类，诸如自行车、狗、猫、人、汽车或其他合适的对象类。限界框的置信度分数和类别预测被组合成最终分数，该最终分数指示该限界框包含特定类型的对象的概率。例如，图10B中图像左侧具有粗边框的灰色框85％确定它包含对象类“狗”。存在169个网格单元(13x 13)，并且每个单元预测5个限界框，这导致总共1745个限界框。许多限界框将具有非常低的分数，在该情形中，仅保留最终分数高于阈值(例如，高于30％概率、40％概率、50％概率或其他合适阈值)的框。图10C示出了具有最终预测的限界框和类(包括狗、自行车和汽车)的图像。如图所示，从生成的总共1745个限界框中，仅保留图10C所示的三个限界框，因为它们具有最好的最终分数。

图11是解说根据本公开的一些方面的用于执行对象检测和跟踪的方法1100的示例的流程图。在一些实现中，过程1100可以包括在步骤1102，在跟踪对象处获得包括目标对象的图像。如以上讨论的，可以在跟踪对象(诸如包括所公开技术的对象检测和跟踪系统的交通工具)处接收(或捕捉)图像。在此类办法中，图像可以由一个或多个交通工具传感器(诸如一个或多个交通工具相机，其被配置成记录/捕捉跟踪对象周围的环境中各种目标对象(例如，其他交通工具)的图像)采集。

在一些实现中，过程1100可以包括在步骤1104，在该跟踪对象处获得与该目标对象相关联的第一消息集合。除了以上关于图4和6讨论的示例，接收到的消息可包括由目标对象传送并由跟踪对象接收的无线消息(例如，车联网(V2X)无线消息、专用短程通信(DSRC)无线消息和/或其他类型的消息)。如此，消息(例如，V2X消息、DSRC消息等)可以指定关于目标对象的速度、姿态和/或大小信息。

在一些示例中，过程1100可以包括在步骤1106，基于与该目标对象相关联的第一消息集合来确定针对该图像中的该目标对象的限界框。在一些示例中，限界框可以基于跟踪对象和/或目标对象的姿态估计、大小估计和/或速度估计。在一些方法中，限界框也可以基于关于跟踪对象和/或目标对象的位置、姿态和/或大小的不确定性的度量(或估计)。如此，限界框的图像区域可以被调整大小(增大或减小)以计及这些不确定性度量。作为示例，由限界框覆盖的图像区域可以基于限界框在给定已知的不确定性度量的情况下涵盖目标对象的统计似然来配置。

在一些示例中，过程1100可以包括在步骤1108，从图像中提取子图像，其中该子图像包括该图像的在该限界框内的区域。在一些办法中，可以对子图像进行预处理，例如，以将子图像调整(缩放)到预定的高度和/或宽度(大小)，以为由检测模型摄取作准备。

在一些示例中，过程1100可包括在步骤1110，使用对象检测模型来检测对象在该子图像内的位置。在一些方面，对象检测模型可以是(或者可以包括)机器学习分类器，其被配置成标识子图像内的一个或多个交通工具。

附加地，在一些方面，过程1100可以包括用于(例如，通过一个或多个后续图像或帧)跟踪所检测到的对象的步骤。作为示例，跟踪对象可以接收与目标对象相关联的第二消息集合(例如，V2X消息、DSRC消息等)，并且使用对象跟踪器基于第二消息集合来跟踪目标对象在该图像中的变化位置。取决于期望的实现，可以使用不同类型的对象跟踪器。例如，对象跟踪器可以是(或可以包括)卡尔曼滤波器、扩展卡尔曼滤波器、粒子滤波器或其组合。在一些实现中，使用第一消息集合、对象在子图像中的检出位置或其组合来初始化对象跟踪器。

在一些示例中，本文中所描述的过程(例如，过程1100和/或本文中所描述的其他过程)可由计算设备或装置(例如，交通工具计算机系统)执行。在一个示例中，过程1100可以由图2的交通工具204执行。在另一示例中，过程1100可以由具有图12中所示的计算系统1200的计算设备来执行。例如，具有图12中所示的计算架构的交通工具可以包括图2的交通工具204的各组件，并且可以实现图11的操作。

在一些情形中，计算设备或装置可包括各种组件，诸如一个或多个输入设备、一个或多个输出设备、一个或多个处理器、一个或多个微处理器、一个或多个微型计算机、一个或多个相机、一个或多个传感器和/或被配置成执行本文所描述的过程的各步骤的(诸)其他组件。在一些示例中，计算设备可包括显示器、被配置成传达和/或接收数据的一个或多个网络接口、其任何组合、和/或(诸)其他组件。该一个或多个网络接口可被配置成传达和/或接收有线和/或无线数据，包括根据3G、4G、5G和/或其他蜂窝标准的数据、根据WiFi(802.11x)标准的数据、根据蓝牙^TM标准的数据、根据网际协议(IP)标准的数据和/或其他类型的数据。

计算设备的各组件可以用电路系统来实现。例如，各组件可包括和/或可使用电子电路或其他电子硬件(其可包括一个或多个可编程电子电路(例如，微处理器、图形处理单元(GPU)、数字信号处理器(DSP)、中央处理单元(CPU)和/或其他合适的电子电路))来实现，和/或可包括和/或可使用计算机软件、固件、或其任何组合来实现，以执行本文描述的各种操作。

过程1100被解说为逻辑流程图，该逻辑流程图的操作表示能够在硬件、计算机指令、或其组合中实现的操作序列。在计算机指令的上下文中，各操作表示存储在一个或多个计算机可读存储介质上的计算机可执行指令，这些指令在由一个或多个处理器执行时执行所叙述的操作。一般而言，计算机可执行指令包括执行特定功能或实现特定数据类型的例程、程序、对象、组件、数据结构等。描述各操作的顺序并不旨在被理解为是限制，并且任何数目的所描述操作可以按任何顺序被组合和/或并行进行以实现各过程。

附加地，过程1100和/或本文描述的其他过程可以在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可被实现为在一个或多个处理器上共同执行的代码(例如，可执行指令、一个或多个计算机程序、或一个或多个应用)、由硬件或其组合来实现。如以上提及的，代码可以被存储在计算机可读或机器可读存储介质上，例如以包括可由一个或多个处理器执行的多条指令的计算机程序的形式。计算机可读或机器可读存储介质可以是非瞬态的。

图12是解说用于实现本文技术的某些方面的系统的示例的示图。具体而言，图12解说了计算系统1200的示例，该计算系统1200可以是例如构成内部计算系统的任何计算设备、远程计算系统、相机、或其任何组件，其中该系统的各组件使用连接1205彼此处于通信。连接1205可以是使用总线的物理连接，或至处理器1210的直接连接(诸如在芯片组架构中)。连接1205还可以是虚拟连接、联网连接、或逻辑连接。

在一些实施例中，计算系统1200是分布式系统，其中本公开中所描述的功能可以分布在数据中心、多个数据中心、对等网络等等内。在一些实施例中，所描述的系统组件中的一个或多个系统组件表示许多此类组件，每个组件执行针对该组件描述的一些或全部功能。在一些实施例中，各组件可以是物理或虚拟设备。

示例系统1200包括至少一个处理单元(CPU或处理器)1210和连接1205，其将包括系统存储器1215(诸如只读存储器(ROM)1220和随机存取存储器(RAM)1225)的各种系统组件耦合到处理器1210。计算系统1200可以包括与处理器1210直接连接、紧邻处理器1210、或集成为处理器1210的一部分的高速存储器的高速缓存1212。

处理器1210可以包括任何通用处理器和硬件服务或软件服务，诸如存储在存储设备1230中、被配置成控制处理器1210的服务1232、1234和1236，以及专用处理器，其中软件指令被纳入实际处理器设计中。处理器1210可以基本上是完全自包含计算系统，包含多个核或处理器、总线、存储器控制器、高速缓存等。多核处理器可以是对称的或非对称的。

为了实现用户交互，计算系统1200包括可以表示任何数目的输入机构的输入设备1245，诸如用于语音的话筒、用于姿势或图形输入的触敏屏、键盘、鼠标、运动输入、语音等等。计算系统1200还可以包括输出设备1235，该输出设备1235可以是数个输出机构中的一者或多者。在一些实例中，多模态系统可使得用户能够提供多种类型的输入/输出以与计算系统1200通信。计算系统1200可以包括通信接口1240，其一般可以管控和管理用户输入和系统输出。

通信接口可执行或促成使用有线和/或无线收发机接收和/或传输有线或无线通信，包括利用音频插孔/插头、话筒插孔/插头、通用串行总线(USB)端口/插头、端口/插头、以太网端口/插头、光纤端口/插头、专用有线端口/插头、无线信号传输、/>低能量(BLE)无线信号传输、/>无线信号传输、射频标识(RFID)无线信号传输、近场通信(NFC)无线信号传输、专用短程通信(DSRC)无线信号传输、802.11Wi-Fi无线信号传输、无线局域网(WLAN)信号传输、可见光通信(VLC)、微波接入全球互通(WiMAX)、红外(IR)通信无线信号传输、公共交换电话网(PSTN)信号传输、综合服务数字网(ISDN)信号传输、3G/4G/5G/LTE蜂窝数据网络无线信号传输、自组织网络信号传输、无线电波信号传输、微波信号传输、红外信号传输、可见光信号传输、紫外光信号传输、沿电磁频谱的无线信号传输、或其某种组合的那些通信。

通信接口1240还可包括一个或多个全球导航卫星系统(GNSS)接收机或收发机，其被用于基于从与一个或多个GNSS系统相关联的一个或多个卫星接收到一个或多个信号来确定计算系统1200的位置。GNSS系统包括但不限于基于美国的全球定位系统(GPS)、基于俄罗斯的全球导航卫星系统(GLONASS)、基于中国的北斗导航卫星系统(BDS)、以及基于欧洲的伽利略GNSS。对在任何特定硬件布置上进行操作不存在任何限制，并且因此可以容易地替换此处的基础特征以随着它们被开发而获得改进的硬件或固件布置。

存储设备1230可以是非易失性和/或非瞬态和/或计算机可读存储器设备，并且可以是能够存储可由计算机访问的数据的硬盘或其他类型的计算机可读介质，诸如盒式磁带、闪存卡、固态存储器设备、数字多功能碟、卡带、软磁盘、软盘、硬盘、磁带、磁条/磁性条、任何其他磁存储介质、闪存、忆阻器存储器、任何其他固态存储器、压缩碟只读存储器(CD-ROM)光碟、可重写压缩碟(CD)光碟、数字视频盘(DVD)光碟、蓝光碟(BDD)光碟、全息光盘、另一光学介质、安全数字(SD)卡、微型安全数字(microSD)卡、Memory Stick卡、智能卡芯片、EMV芯片、订户身份模块(SIM)卡、迷你/微型/纳米/微微SIM卡、另一集成电路(IC)芯片/卡、随机存取存储器(RAM)、静态RAM(SRAM)、动态RAM(DRAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存EPROM(FLASHEPROM)、高速缓存存储器(L1/L2/L3/L4/L5/L#)、电阻式随机存取存储器(RRAM/ReRAM)、相变存储器(PCM)、自旋转移扭矩RAM(STT-RAM)、另一存储器芯片或盒、和/或其组合。

存储设备1230可以包括软件服务、服务器、服务等等，当定义此类软件的代码由处理器1210执行时其使得系统执行功能。在一些实施例中，执行特定功能的硬件服务可包括存储在与必要的硬件组件(诸如处理器1210、连接1205、输出设备1235等)连接的计算机可读介质中的软件组件以执行功能。术语“计算机可读介质”包括但不限于便携式或非便携式存储设备、光存储设备、以及能够存储、包含或携带(诸)指令和/或数据的各种其他介质。计算机可读介质可包括其中可存储数据并且不包括载波和/或无线地或通过有线连接传播的瞬态电子信号的非瞬态介质。

非瞬态介质的示例可包括但不限于磁盘或磁带、光学存储介质(诸如压缩碟(CD)或数字多功能碟(DVD))、闪存、存储器或存储器设备。计算机可读介质可具有存储于其上的代码和/或机器可执行指令，它们可表示规程、功能、子程序、程序、例程、子例程、模块、软件包、类、或者指令、数据结构或程序语句的任何组合。可通过传递和/或接收信息、数据、自变量、参数或存储器内容来将代码段耦合至另一代码段或硬件电路。信息、自变量、参数、数据等可以经由任何合适的手段来传递、转发或传送，这些手段包括存储器共享、消息传递、令牌传递、网络传输等。

在上述描述中提供了具体细节以提供对本文中所提供的各实施例和各示例的透彻理解，但是本领域技术人员将认识到本申请并不限于此。因而，尽管本申请的解说性实施例已经在本文中详细描述，但是要理解，各个发明概念可以以其他各种方式被实施和采用，并且所附权利要求书不旨在被解释为包括这些变型，除非受到现有技术的限制。上述申请的各个特征和方面可以单独地或联合地使用。此外，各实施例可以在超出本文所描述的那些环境和应用的任何数目的环境和应用中来利用而不背离本说明书的更宽泛的精神和范围。相应地，本说明书和附图应被认为是解说性的而非限定性的。出于解说的目的，按照特定顺序来描述各方法。应当领会，在替换实施例中，各方法可以按与所描述的不同顺序来执行。

为了清楚说明，在一些实例中，本发明的技术可以被呈现为包括各个功能框，它们包括设备、设备组件、以软件或者硬件和软件的组合实施的方法中的步骤或例程。可使用除了附图中示出和/或本文所描述的那些组件之外的附加组件。例如，电路、系统、网络、过程和其他组件可以用框图形式示为组件以避免使这些实施例湮没在不必要的细节中。在其他实例中，可以在没有必要的细节的情况下示出公知的电路、过程、算法、结构和技术以避免混淆各实施例。

此外，本领域技术人员将领会，结合本文中所公开的方面描述的各种解说性逻辑块、模块、电路、和算法步骤可被实现为电子硬件、计算机软件、或两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、块、模块、电路、以及步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员可针对每种特定应用以不同方式来实现所描述的功能性，但此类实现决策不应被解读为致使脱离本公开的范围。

各个实施例在上文可被描述为过程或方法，该过程或方法被描绘为流程图、流程图示、数据流图、结构图或框图。尽管流程图可以将操作描述为顺序过程，但许多操作可以并行地或并发地执行。另外，可以重新排列操作的次序。过程在其操作完成时终止，但是过程可具有附图中未包括的附加步骤。过程可对应于方法、函数、规程、子例程、子程序等。当过程对应于函数时，它的终止可以对应于该函数返回调用方函数或主函数。

根据上述示例的过程和方法可以使用被存储的计算机可执行指令或以其他方式从计算机可读介质可用的计算机可执行指令来实现。这些指令可以包括例如致使或以其他方式将通用计算机、专用计算机或处理设备配置成执行某一功能或功能群的指令和数据。所使用的计算机资源的各部分可通过网络访问。计算机可执行指令可以是例如二进制文件、中间格式指令(诸如汇编语言)、固件、源代码。可用于存储指令、在根据所描述的示例的方法期间所使用的信息和/或所创建的信息的计算机可读介质的示例包括磁盘或光盘、闪存、提供有非易失性存储器的USB设备、联网存储设备等。

在一些实施例中，计算机可读存储设备、介质和存储器可包括包含比特流等的线缆或无线信号。然而，在被提及时，非瞬态计算机可读存储介质明确排除诸如能量、载波信号、电磁波以及信号本身等介质。

本领域技术人员将领会，信息和信号可使用各种不同技术和技艺中的任何一种来表示。例如，贯穿以上描述可能被述及的数据、指令、命令、信息、信号、位(比特)、码元以及码片可在一些情形中部分地取决于具体应用、部分地取决于所期望的设计、部分地取决于对应技术等而由电压、电流、电磁波、磁场或磁粒子、光场或光粒子、或其任何组合表示。

结合本文中所公开的各方面来描述的各种解说性逻辑块、模块和电路可使用硬件、软件、固件、中间件、微代码、硬件描述语言、或其任何组合来实现或执行，并且可采用各种形状因子中的任何形状因子。当以软件、固件、中间件或微代码实现时，用于执行必要任务的程序代码或代码段(例如，计算机程序产品)可被存储在计算机可读或机器可读介质中。处理器可执行必要任务。各形状因子的示例包括：膝上型设备、智能电话、移动电话、平板设备、或其他小形状因子的个人计算机、个人数字助理、机架式设备、自立设备等。本文描述的功能性还可用外围设备或插卡来实施。作为进一步的示例，此类功能性还可被实现于在单个设备上执行的不同芯片或不同过程之中的电路板上。

指令、用于传达这些指令的介质、用于执行它们的计算资源、以及用于支持此类计算资源的其他结构是用于提供本公开中所描述的功能的示例装置。

本文所描述的技术还可用电子硬件、计算机软件、固件、或其任何组合来实现。这些技术可以用各种设备中的任一种来实现，诸如通用计算机、无线通信设备手持机、或具有多种用途的集成电路设备，这些用途包括无线通信设备手持机和其他设备中的应用。被描述为模块或组件的任何特征可以一起被实现在集成逻辑器件中或被单独实现为分立但可相互操作的逻辑器件。如果以软件来实现，则这些技术可至少部分地由包括程序代码的计算机可读数据存储介质来实现，这些程序代码包括指令，这些指令在被执行时执行上述方法、算法、和/或操作中的一者或多者。计算机可读数据存储介质可形成计算机程序产品的一部分，其可包括封装材料。计算机可读介质可包括存储器或数据存储介质，诸如随机存取存储器(RAM)(诸如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪存、磁性或光学数据存储介质等等。这些技术附加地或替换地可至少部分地由携带或传达指令或数据结构形式的程序代码的计算机可读通信介质来实现，这些指令或数据结构可由计算机访问、读取、和/或执行，诸如传播的信号或波。

程序代码可由处理器执行，该处理器可包括一个或多个处理器，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或其他等效的集成或分立逻辑电路系统。此类处理器可被配置成执行本公开中所描述的任何技术。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如，DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其他此类配置。相应地，如本文所使用的术语“处理器”可以指任何上述结构、上述结构的任何组合、或适于实现本文所描述的技术的任何其他结构或装置。

本领域普通技术人员将领会，本文所使用的小于(“<”)和大于(“>”)符号或术语可以分别用小于等于(“≤”)和大于等于(“≥”)符号来代替而不背离本说明书的范围。

在各组件被描述为“被配置成”执行某些操作的情况下，可例如通过设计电子电路或其他硬件来执行操作、通过对可编程电子电路(例如，微处理器、或其他合适的电子电路)进行编程来执行操作、或其任何组合来实现此类配置。

短语“耦合到”是指任何组件直接或间接地物理连接到另一组件，和/或任何组件直接或间接地与另一组件处于通信(例如，通过有线或无线连接和/或其他合适的通信接口连接到该另一组件)。

权利要求语言或叙述集合中的“至少一者”和/或集合中的“一者或多者”的其他语言指示该集合中的一个成员或该集合中的多个成员(以任何组合)满足该权利要求。例如，叙述“A和B中的至少一者”或“A或B中的至少一者”的权利要求语言意指A、B、或者A和B。在另一示例中，叙述“A、B和C中的至少一者”或“A、B或C中的至少一者”的权利要求语言意指A、B、C、或A和B、或A和C、或B和C、或A和B和C。集合“中的至少一者”和/或集合“中的一者或多者”的语言并不将该集合限于该集合中所列举的项目。例如，叙述“A和B中的至少一者”或“A或B中的至少一者”的权利要求语言可以意指A、B或A和B，并且可附加地包括未在A和B的集合中列举的项目。

本公开的解说性方面包括以下方面：

方面1.一种用于执行对象检测和跟踪的装置，包括：至少一个存储器；以及耦合到该至少一个存储器的至少一个处理器，该至少一个处理器被配置成：在跟踪对象处获得包括目标对象的图像；在该跟踪对象处获得与该目标对象相关联的第一消息集合；基于与该目标对象相关联的第一消息集合来确定针对该图像中的该目标对象的限界框；从该图像中提取子图像，其中该子图像包括该图像的在该限界框内的区域；以及使用对象检测模型来检测该目标对象在该子图像内的位置。

方面2.如权利要求1所述的装置，其中该至少一个处理器被进一步配置成：接收与该目标对象相关联的第二消息集合；以及基于第二消息集合使用对象跟踪器来跟踪该目标对象在该图像中的变化位置。

方面3.如方面2的装置，其中第一消息集合和第二消息集合包括一个或多个车联网(V2X)无线消息、专用短程通信无线消息、或其组合。

方面4.如方面2或3中任一者的装置，其中该对象跟踪器是卡尔曼滤波器、扩展卡尔曼滤波器、粒子滤波器、或其组合。

方面5.如方面2至4中任一者的装置，其中该对象跟踪器是使用第一消息集合、该对象在该子图像中的检出位置、或其组合来初始化的。

方面6.如方面2至5中的任一者的装置，其中该至少一个处理器被进一步配置成：在该跟踪对象处获得包括该目标对象的新图像；在该跟踪对象处获得与该目标对象相关联的第二消息集合；以及使用对象跟踪器来确定针对该新图像中的该目标对象的新限界框。

方面7.如方面6的装置，其中该至少一个处理器被进一步配置成：从该新图像中提取新子图像，其中该新子图像包括该新图像的在该新限界框内的区域；以及使用该对象检测模型来检测该目标对象在该新子图像中的新位置。

方面8.如方面1至7中的任一者的装置，其中该对象检测模型包括机器学习分类器，该机器学习分类器被配置成标识该子图像内的一个或多个交通工具。

方面9.如方面1至8中的任一者的装置，其中，为了确定针对该图像中的该目标对象的限界框，该至少一个处理器被配置成：基于与该目标对象相关联的第一消息集合来确定该目标对象的大小估计；以及基于与该目标对象相关联的第一消息集合来确定该目标对象的姿态估计，其中该限界框基于该目标对象的大小估计、该目标对象的姿态估计、或其组合。

方面10.如方面9的装置，其中，为了确定针对该目标对象的限界框，该至少一个处理器被进一步配置成：确定该跟踪对象的姿态估计，并且其中该限界框进一步基于该跟踪对象的姿态估计。

方面11.如方面10的装置，其中该限界框的大小基于与该目标对象的姿态估计相关联的不确定性度量、与该跟踪对象的姿态估计相关联的不确定性度量、或其组合。

方面12.如方面1至11中的任一者的装置，其中为了从该图像中提取该子图像，该至少一个处理器被进一步配置成：将该子图像缩放到预定大小。

方面13.一种用于执行对象检测和跟踪的方法，该方法包括：在跟踪对象处获得包括目标对象的图像；在该跟踪对象处获得与该目标对象相关联的第一消息集合；基于与该目标对象相关联的第一消息集合来确定针对该图像中的该目标对象的限界框；从该图像中提取子图像，其中该子图像包括该图像的在该限界框内的区域；以及使用对象检测模型来检测该目标对象在该子图像内的位置。

方面14.如方面13的方法，进一步包括：接收与该目标对象相关联的第二消息集合；以及基于第二消息集合使用对象跟踪器来跟踪该目标对象在该图像中的变化位置。

方面15.如方面14的方法，其中第一消息集合和第二消息集合包括一个或多个车联网(V2X)无线消息、专用短程通信(DSRC)无线消息、或其组合。

方面16.如方面14或15中任一者的方法，其中该对象跟踪器基于卡尔曼滤波器、扩展卡尔曼滤波器、粒子滤波器、或其组合。

方面17.如方面14至16中任一者的方法，其中该对象跟踪器是使用第一消息集合、该对象在该子图像中的检出位置、或其组合来初始化的。

方面18.如方面14至17中任一者的方法，进一步包括：在该跟踪对象处获得包括该目标对象的新图像；在该跟踪对象处获得与该目标对象相关联的第二消息集合；以及使用对象跟踪器来确定针对该新图像中的该目标对象的新限界框。

方面19.如方面18的方法，进一步包括：从该新图像中提取新子图像，其中该新子图像包括该新图像的在该新限界框内的区域；以及使用该对象检测模型来检测该目标对象在该新子图像中的新位置。

方面20.如方面13至19中的任一者的方法，其中该对象检测模型包括机器学习分类器，该机器学习分类器被配置成标识该子图像内的一个或多个交通工具。

方面21.如方面13至20中的任一者的方法，其中确定针对该图像中的该目标对象的限界框包括：基于与该目标对象相关联的第一消息集合来确定该目标对象的大小估计；以及基于与该目标对象相关联的第一消息集合来确定该目标对象的姿态估计，其中该限界框基于该目标对象的大小估计、该目标对象的姿态估计、或其组合。

方面22.如方面21的方法，其中确定针对该目标对象的限界框包括：确定该跟踪对象的姿态估计，并且其中该限界框进一步基于该跟踪对象的姿态估计。

方面23.如方面22的方法，其中该限界框的大小基于与该目标对象的姿态估计相关联的不确定性度量、与该跟踪对象的姿态估计相关联的不确定性度量、或其组合。

方面24.如方面13至23中任一者的方法，其中从该图像中提取该子图像包括：将该子图像缩放到预定大小。

方面25.一种非瞬态计算机可读存储介质，包括用于使得计算机或处理器执行以下操作的至少一条指令：在跟踪对象处获得包括目标对象的图像；在该跟踪对象处获得与该目标对象相关联的第一消息集合；基于与该目标对象相关联的第一消息集合来确定针对该图像中的该目标对象的限界框；从该图像中提取子图像，其中该子图像包括该图像的在该限界框内的区域；以及使用对象检测模型来检测该目标对象在该子图像内的位置。

方面26.如方面25的非瞬态计算机可读存储介质，进一步包括用于使得该计算机或处理器执行以下操作的至少一条指令：接收与该目标对象相关联的第二消息集合；以及基于第二消息集合使用对象跟踪器来跟踪该目标对象在该图像中的变化位置。

方面27.如方面26的非瞬态计算机可读存储介质，其中第一消息集合和第二消息集合包括一个或多个车联网(V2X)无线消息、专用短程通信(DSRC)无线消息、或其组合。

方面28.如方面26或27中任一者的非瞬态计算机可读存储介质，其中该对象跟踪器基于卡尔曼滤波器、扩展卡尔曼滤波器、粒子滤波器、或其组合。

方面29.如方面26至28中任一者的非瞬态计算机可读存储介质，其中该对象跟踪器是使用第一消息集合、该对象在该子图像中的检出位置、或其组合来初始化的。

方面30.如方面26至29中任一者的非瞬态计算机可读存储介质，进一步包括用于使得该计算机或处理器执行以下操作的至少一条指令：在该跟踪对象处获得包括该目标对象的新图像；在该跟踪对象处获得与该目标对象相关联的第二消息集合；以及使用对象跟踪器来确定针对该新图像中的该目标对象的新限界框。

方面31.如方面30的非瞬态计算机可读存储介质，进一步包括用于使得该计算机或处理器执行以下操作的至少一条指令：从该新图像中提取新子图像，其中该新子图像包括该新图像的在该新限界框内的区域；以及使用该对象检测模型来检测该目标对象在该新子图像中的新位置。

方面32.如方面25至31中的任一者的非瞬态计算机可读存储介质，其中该对象检测模型包括机器学习分类器，该机器学习分类器被配置成标识该子图像内的一个或多个交通工具。

方面33.如方面25至32中的任一者的非瞬态计算机可读存储介质，其中，为了确定针对该图像中的该目标对象的限界框，该至少一条指令被进一步配置用于使得该计算机或处理器：基于与该目标对象相关联的第一消息集合来确定该目标对象的大小估计；以及基于与该目标对象相关联的第一消息集合来确定该目标对象的姿态估计，其中该限界框基于该目标对象的大小估计、该目标对象的姿态估计、或其组合。

方面34.如方面33的非瞬态计算机可读存储介质，其中，为了确定针对该目标对象的该限界框，该至少一条指令被进一步配置用于使得该计算机或处理器：确定该跟踪对象的姿态估计，并且其中该限界框进一步基于该跟踪对象的姿态估计。

方面35.如方面34的非瞬态计算机可读存储介质，其中该限界框的大小基于与该目标对象的姿态估计相关联的不确定性度量、与该跟踪对象的姿态估计相关联的不确定性度量、或其组合。

方面36.如方面25至35中任一者的非瞬态计算机可读存储介质，其中，为了从该图像中提取该子图像，该至少一条指令被进一步配置用于使得该计算机或处理器：将该子图像缩放到预定大小。

方面37.一种用于执行对象检测和跟踪的设备，包括：用于在跟踪对象处获得包括目标对象的图像的装置；用于在该跟踪对象处获得与该目标对象相关联的第一消息集合的装置；用于基于与该目标对象相关联的第一消息集合来确定针对该图像中的该目标对象的限界框的装置；用于从该图像中提取子图像的装置，其中该子图像包括该图像的在该限界框内的区域；以及用于使用对象检测模型来检测该目标对象在该子图像内的位置的装置。

方面38.如方面37的设备，进一步包括：用于接收与该目标对象相关联的第二消息集合的装置；以及用于基于第二消息集合使用对象跟踪器来跟踪该目标对象在该图像中的变化位置的装置。

方面39.如方面38的设备，其中第一消息集合和第二消息集合包括一个或多个车联网(V2X)无线消息、专用短程通信(DSRC)无线消息、或其组合。

方面40.如方面38或39中任一者的设备，其中该对象跟踪器基于卡尔曼滤波器、扩展卡尔曼滤波器、粒子滤波器、或其组合。

方面41.如方面38至40中任一者的设备，其中该对象跟踪器是使用第一消息集合、该对象在该子图像中的检出位置、或其组合来初始化的。

方面42.如方面38至41中任一者的设备，进一步包括：用于在该跟踪对象处获得包括该目标对象的新图像的装置；用于在该跟踪对象处获得与该目标对象相关联的第二消息集合的装置；以及用于使用对象跟踪器来确定针对该新图像中的该目标对象的新限界框的装置。

方面43.如方面42的设备，进一步包括：用于从该新图像中提取新子图像的装置，其中该新子图像包括该新图像的在该新限界框内的区域；以及使用该对象检测模型来检测该目标对象在该新子图像中的新位置。

方面44.如方面37至43中的任一者的设备，其中该对象检测模型包括机器学习分类器，该机器学习分类器被配置成标识该子图像内的一个或多个交通工具。

方面45.如方面37至44中的任一者的设备，其中用于确定针对该图像中的该目标对象的限界框的装置进一步包括：用于基于与该目标对象相关联的第一消息集合来确定该目标对象的大小估计的装置；以及用于基于与该目标对象相关联的第一消息集合来确定该目标对象的姿态估计的装置，其中该限界框基于该目标对象的大小估计、该目标对象的姿态估计、或其组合。

方面46.如方面45的设备，其中用于确定针对该目标对象的限界框的装置进一步包括：用于确定该跟踪对象的姿态估计的装置，并且其中该限界框进一步基于该跟踪对象的姿态估计。

方面47.如方面46的装置，其中该限界框的大小基于与该目标对象的姿态估计相关联的不确定性度量、与该跟踪对象的姿态估计相关联的不确定性度量、或其组合。

方面48.如方面37至47中任一者的设备，其中用于从该图像中提取该子图像的装置进一步包括：用于将该子图像缩放到预定大小的装置。

Claims

1.一种用于执行对象检测和跟踪的装置，包括：

至少一个存储器；以及

耦合至所述至少一个存储器的至少一个处理器，所述至少一个处理器被配置成：

在跟踪对象处获得包括目标对象的图像；

在所述跟踪对象处获得与所述目标对象相关联的第一消息集合；

基于与所述目标对象相关联的所述第一消息集合来确定针对所述图像中的所述目标对象的限界框；

从所述图像中提取子图像，其中所述子图像包括所述图像的在所述限界框内的区域；以及

使用对象检测模型来检测所述目标对象在所述子图像内的位置。

2.如权利要求1所述的装置，其中所述至少一个处理器被进一步配置成：

接收与所述目标对象相关联的第二消息集合；以及

基于所述第二消息集合使用对象跟踪器来跟踪所述目标对象在所述图像中的变化位置。

3.如权利要求2所述的装置，其中所述第一消息集合和所述第二消息集合包括一个或多个车联网(V2X)无线消息、专用短程通信无线消息、或其组合。

4.如权利要求2所述的装置，其中所述对象跟踪器是卡尔曼滤波器、扩展卡尔曼滤波器、粒子滤波器、或其组合。

5.如权利要求2所述的装置，其中所述对象跟踪器是使用所述第一消息集合、所述对象在所述子图像中的检出位置、或其组合来初始化的。

6.如权利要求2所述的装置，其中所述至少一个处理器被进一步配置成：

在所述跟踪对象处获得包括所述目标对象的新图像；

在所述跟踪对象处获得与所述目标对象相关联的第二消息集合；以及

使用所述对象跟踪器来确定针对所述新图像中的所述目标对象的新限界框。

7.如权利要求6所述的装置，其中所述至少一个处理器被进一步配置成：

从所述新图像中提取新子图像，其中所述新子图像包括所述新图像的在所述新限界框内的区域；以及

使用所述对象检测模型来检测所述目标对象在所述新子图像内的新位置。

8.如权利要求1所述的装置，其中所述对象检测模型包括机器学习分类器，所述机器学习分类器被配置成标识所述子图像内的一个或多个交通工具。

9.如权利要求1所述的装置，其中，为了确定针对所述图像中的所述目标对象的所述限界框，所述至少一个处理器被配置成：

基于与所述目标对象相关联的所述第一消息集合来确定所述目标对象的大小估计；

基于与所述目标对象相关联的所述第一消息集合来确定所述目标对象的姿态估计，其中所述限界框基于所述目标对象的所述大小估计、所述目标对象的所述姿态估计、或其组合。

10.如权利要求9所述的装置，其中，为了确定针对所述目标对象的所述限界框，所述至少一个处理器被进一步配置成：

确定所述跟踪对象的姿态估计，并且其中所述限界框进一步基于所述跟踪对象的所述姿态估计。

11.如权利要求10所述的装置，其中所述限界框的大小基于与所述目标对象的所述姿态估计相关联的不确定性度量、与所述跟踪对象的所述姿态估计相关联的不确定性度量、或其组合。

12.如权利要求1所述的装置，其中，为了从所述图像中提取所述子图像，所述至少一个处理器被进一步配置成：

将所述子图像缩放到预定大小。

13.一种用于执行对象检测和跟踪的方法，所述方法包括：

在跟踪对象处获得包括目标对象的图像；

14.如权利要求13所述的方法，进一步包括：

接收与所述目标对象相关联的第二消息集合；以及

15.如权利要求14所述的方法，其中所述第一消息集合和所述第二消息集合包括一个或多个车联网(V2X)无线消息、专用短程通信(DSRC)无线消息、或其组合。

16.如权利要求14所述的方法，其中所述对象跟踪器基于卡尔曼滤波器、扩展卡尔曼滤波器、粒子滤波器、或其组合。

17.如权利要求14所述的方法，其中所述对象跟踪器是使用所述第一消息集合、所述对象在所述子图像中的检出位置、或其组合来初始化的。

18.如权利要求14所述的方法，进一步包括：

在所述跟踪对象处获得包括所述目标对象的新图像；

19.如权利要求18所述的方法，进一步包括：

20.如权利要求13所述的方法，其中所述对象检测模型包括机器学习分类器，所述机器学习分类器被配置成标识所述子图像内的一个或多个交通工具。

21.如权利要求13所述的方法，其中确定针对所述图像中的所述目标对象的所述限界框包括：

基于与所述目标对象相关联的所述第一消息集合来确定所述目标对象的大小估计；以及

22.如权利要求21所述的方法，其中确定针对所述目标对象的所述限界框包括：

23.如权利要求22所述的方法，其中所述限界框的大小基于与所述目标对象的所述姿态估计相关联的不确定性度量、与所述跟踪对象的所述姿态估计相关联的不确定性度量、或其组合。

24.如权利要求13所述的方法，其中从所述图像中提取所述子图像包括：

将所述子图像缩放到预定大小。

25.一种非瞬态计算机可读存储介质，包括用于使得计算机或处理器执行以下操作的至少一条指令：

在跟踪对象处获得包括目标对象的图像；

26.如权利要求25所述的非瞬态计算机可读存储介质，进一步包括用于使得所述计算机或处理器执行以下操作的至少一条指令：

接收与所述目标对象相关联的第二消息集合；以及

27.如权利要求26所述的非瞬态计算机可读存储介质，其中所述第一消息集合和所述第二消息集合包括一个或多个车联网(V2X)无线消息、专用短程通信(DSRC)无线消息、或其组合。

28.一种用于执行对象检测和跟踪的设备，包括：

用于在跟踪对象处获得包括目标对象的图像的装置；

用于在所述跟踪对象处获得与所述目标对象相关联的第一消息集合的装置；

用于基于与所述目标对象相关联的所述第一消息集合来确定针对所述图像中的所述目标对象的限界框的装置；

用于从所述图像中提取子图像的装置，其中所述子图像包括所述图像的在所述限界框内的区域；以及

用于使用对象检测模型来检测所述目标对象在所述子图像内的位置的装置。

29.如权利要求28所述的设备，进一步包括：

用于接收与所述目标对象相关联的第二消息集合的装置；以及

用于基于所述第二消息集合使用对象跟踪器来跟踪所述目标对象在所述图像中的变化位置的装置。

30.如权利要求28所述的设备，其中所述对象检测模型包括机器学习分类器，所述机器学习分类器被配置成标识所述子图像内的一个或多个交通工具。