CN108572663A

CN108572663A - 目标跟踪

Info

Publication number: CN108572663A
Application number: CN201810177283.5A
Authority: CN
Inventors: P·高
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2017-03-08
Filing date: 2018-03-02
Publication date: 2018-09-25
Anticipated expiration: 2038-03-02
Also published as: US10430641B2; DE102018105140A1; US20180260613A1; CN108572663B

Abstract

提供了用于跟踪目标的方法和系统。系统包括数据接收模块，数据接收模块配置为接收三维成像数据和二维成像数据。三维目标识别模块配置为区分三维目标并输出三维目标数据。调整模块配置为基于二维成像数据调整三维目标数据并输出经调整的三维目标数据。跟踪模块配置为利用经调整的三维目标数据跟踪至少一个目标。

Description

目标跟踪

引言

本公开大体上涉及自主车辆，并且更具体地，涉及用于目标跟踪的系统和方法，以及另外更具体地，涉及自主车辆控制中的目标跟踪。

背景技术

自主车辆是一种能够感测其环境并且在很少或没有用户输入的情况下航行的车辆。自主车辆利用感测装置感测其环境，比如雷达、激光雷达、图像传感器等等。自主车辆系统进一步利用来自全球定位系统(GPS)技术的信息、导航系统、车辆到车辆通信、车辆到基础设施技术和/或线控系统来导航车辆。

车辆自动化已经被分类成数值级别，范围从对应于利用完全人类控制的无自动化的零到对应于不利用人类控制的完全自动化的五。各种自动的驾驶员辅助系统，比如巡航控制、自适应巡航控制以及泊车辅助系统，对应于较低的自动化级别，而真正的“无人驾驶”车辆对应于更高的自动化级别。

作为对自主车辆控制的一部分，识别并跟踪目标，例如，以允许基于所跟踪的目标来控制车辆速度、转向、制动等。

相应地，希望准确地跟踪目标。此外，希望准确地识别周围目标的数量、大小和尺寸。而且，通过随后对本发明的详细描述和所附权利要求书，并结合附图和本发明的背景技术，本发明的其他期望特征和特性将变得显而易见。

发明内容

提供了一种用于跟踪目标的系统。该系统包括数据接收模块，其配置为接收三维成像数据和二维成像数据。三维目标识别模块配置为区分三维目标并输出三维目标数据。调整模块配置为基于二维成像数据调整三维目标数据并输出经调整的三维目标数据。跟踪模块配置为利用经调整的三维目标数据跟踪目标。

调整模块可以包括投影子模块，其配置为将三维目标投影到二维成像数据的二维成像空间内，并输出二维目标数据。调整模块可以执行对二维目标数据的位置和/或尺寸调整操作并将二维目标数据变换到三维空间以获得经调整的三维目标数据。

调整模块可以配置为基于二维成像数据调整二维目标数据并输出经调整的二维目标数据。经调整的二维目标数据可以包括经调整的几何数据，比如经调整的位置和/或至少一个尺寸。

调整模块可以包括回归子模块，其配置为基于二维成像数据改善二维成像数据的某方面。回归子模块可以利用神经网络和/或运行边界框回归。该方面可以表示二维成像数据中至少一个目标的几何形状，比如尺寸和/或位置。

调整模块可以包括配准子模块，其配置为利用三维成像数据配准二维成像数据。配准可以是基于与二维成像数据和三维成像数据相关的校准数据。投影子模块配置为对已配准的二维和三维成像数据进行操作。从可以包括至少一个三维边界框的三维目标数据到可以包括至少一个二维边界框的二维成像数据的投影因此是已校准投影的位置。

调整模块可以包括二维到三维变换子模块，其配置为将经调整的二维目标数据变换成经调整的三维目标数据，以用于被跟踪模块使用。

调整模块可以配置为运行神经网络，以基于二维成像数据调整三维目标数据。神经网络可以在进行边界框回归时使用。相应地，三维目标数据和经调整的三维目标数据可以对应于至少一个三维边界框和至少一个调整三维边界框。

调整模块可以配置为利用由二维成像数据得到的至少一个目标的某方面，以便调整由三维目标数据表示的至少一个目标的相对应的某方面。该方面可以是几何形状，比如该至少一个目标的尺寸和/或位置。

三维目标识别模块可以配置为针对至少一个三维目标确定至少一个三维边界框作为三维目标数据。该三维边界框或三维目标数据可以表示该至少一个目标的候选区域。

调整模块可以配置为将该至少一个三维边界框投影到二维成像数据中的至少一个二维边界框内。调整模块可以配置为基于二维成像数据对至少一个二维边界框执行边界框回归，以获得至少一个经调整的二维边界框。调整模块可以配置为对至少一个经调整的边界框进行反向投影，以获得至少一个经调整的三维边界框作为经调整的三维目标数据。

该至少一个三维边界框可以构成该至少一个目标的尺寸和/或位置的第一估计，并且边界框回归可以基于比可以由三维成像数据得到的尺寸和/或位置数据更准确的可以由二维成像数据得到的尺寸和/或位置数据来校正估计的尺寸和/或位置。

三维成像数据可以从LIDAR成像装置获得。

二维成像数据可以从视觉照相机获得。

系统可以包括二维目标识别模块，其配置为基于二维成像数据区分至少一个二维目标以获得二维目标数据。

可以包含第二二维到三维变换模块，以将二维目标数据变换成进一步的三维目标数据。

跟踪模块可以配置为基于进一步的三维目标数据另外地跟踪至少一个进一步的目标。

第二二维到三维变换模块可以配置为接收预定的高度地图数据并基于至少一个二维目标到高度数据内的投影确定该至少一个二维目标在三维空间中的范围。高度数据可以将地面高度与位置数据相关联。通过投影可以确定地面交点，这使得能够估计目标的三维位置数据。

第二二维到三维变换模块可以配置为基于投影将二维目标数据变换成进一步的三维目标数据。

提供了一种车辆，其包括如上所述的目标跟踪系统和自主车辆控制系统，该自主车辆控制系统配置为基于来自跟踪模块的目标跟踪数据控制至少一个车辆特征。

车辆可以包括以上所述的目标跟踪系统的任何特征。

提供了一种用于跟踪目标的方法。该方法包括接收三维成像数据和接收二维成像数据。该方法包括基于三维成像数据估计目标的三维几何形状。该方法包括基于二维成像数据调整估计的目标的三维几何形状。该方法包括利用经调整的目标的三维几何形状跟踪该目标。

该方法可以包括：通过基于三维成像数据针对至少一个目标确定至少一个三维边界框来估计三维几何形状。

该方法可以包括：通过将至少一个三维边界框投影到在二维成像数据中配准的至少一个二维边界框内，调整估计的三维几何形状。

该方法可以包括：利用神经网络和/或进行边界框回归来调整估计的三维几何形状。边界框回归可以是基于在二维成像数据中出现的至少一个目标和基于至少一个二维边界框以调节至少一个二维边界框的几何形状。

该方法可以包括：反向投影以确定至少一个目标的经调整的三维几何形状。

该一个目标的几何形状可以由至少在目标上的至少一个维度上的位置和/或数据构成。至少一个目标的几何形状可以由针对该目标的边界框构成。

调整步骤可以基于比可以由三维成像数据得到的几何形状数据更准确的可以由二维成像数据得到的几何形状数据，由此允许对几何形状进行校正。

该方法可以包括基于跟踪步骤控制自主机器，比如自主车辆。

该方法可以包括基于二维成像数据的第二目标识别和区分步骤。

附图说明

以下将结合附图对本发明进行描述，其中相同的附图标记指代相同的元件，并且

图1是根据各种实施例示出了具有目标跟踪系统的自主车辆的功能框图；

图2是根据各种实施例示出了具有图1的一个或多个自主车辆的运输系统的功能框图；

图3是根据各种实施例示出了包括自主车辆的目标跟踪系统的自主驾驶系统的数据流程图；

图4是根据各种实施例的自主车辆的目标跟踪系统的模块和其他实体以及它们之间的数据流的示图；

图5是根据各种实施例示出了用于基于目标跟踪控制自主车辆的控制方法的流程图；以及

图6是根据各种实施例示出了针对已识别目标的二维到三维变换过程的流程图。

具体实施方式

以下详细描述在本质上仅仅是示范性的，而并不旨在限制应用和用途。另外，不存在被前述技术领域、背景技术、摘要或者以下详细描述中明确提出的任何表述的或暗示的理论约束的意图。如本文所使用的，术语“模块”指的是任何硬件、软件、固件、电子控制部件、处理逻辑和/或处理器装置，单独地或任意组合地，包括但不限于：专用集成电路(ASIC)、电子电路、处理器(共享、专用或组)和执行一个或多个软件或固件程序的存储器、组合逻辑电路，和/或提供所述功能的其他合适组件。

本公开的实施例在此可以按照功能和/或逻辑块组件和各种处理步骤进行描述。应该意识到，可通过被配置来执行特定功能的任意数量的硬件、软件和/或固件组件来实现这些块组件。例如，本公开的实施例可以采用各种集成电路组件，例如，存储器元件、数字信号处理元件、逻辑元件、查找表等等，它们可以在一个或多个微处理器或其他控制装置的控制下执行各种功能。此外，本领域技术人员可以意识到，本公开的实施例可以结合任意数量的系统来实践，并且本文所述的系统仅仅是本公开的示范性实施例。

为了简洁起见，关于信号处理、数据传输、信号发送、控制以及系统(和系统的单独运行的组件)的其他功能性方面的常规技术在本文中可能并未进行详细描述。此外，本文所包含的各个图中所示的连接线是要表示各个元件之间的示例性功能关系和/或物理联接。应当注意的是，在本公开的实施例中可以存在替代的或附加的功能关系或物理连接。

参考图1，根据各种实施例，大体显示为10的目标跟踪系统与车辆1010相关联。大体上，目标跟踪系统10识别三维或二维成像数据中的目标，基于二维成像数据改善目标的大小尺寸、位置和/或数量并输出表示目标的尺寸和位置的三维数据。目标跟踪系统10据此智能地控制车辆1010。

如图1中所示，车辆1010大体上包括底盘1012、车身1014、前车轮1016和后车轮1018。车身1014布置在底盘1012上并且基本上封闭了车辆1010的部件。车身1014和底盘1012可以共同地形成框架。车轮1016至1018各自在车身1014的相应拐角附近可旋转地联接到底盘1012。

在各种实施例中，车辆1010是自主车辆并且目标跟踪系统10被结合在该自主车辆1010内(以下称为自主车辆1010)。自主车辆1010，例如，是一种自动受控以将乘客从一个位置携载到另一个位置的车辆。车辆1010在所示实施例中被描绘成小客车，但是应当意识到，还可以使用任意其他车辆，包括摩托车、卡车、运动型多功能车(SUV)、娱乐车辆(RV)、船舶、飞行器等。在示范性实施例中，自主车辆1010是所谓的级别四或级别五自动化系统。级别四系统表示“高自动化”，指的是驾驶模式-由自动化驾驶系统具体执行动态驾驶任务的所有方面，即使人类驾驶员未能适当地响应请求以介入。级别五系统表示“完全自动化”，指的是在可以由人类驾驶员管理的全部道路和环境条件下，由自动化的驾驶系统全时执行动态驾驶任务的所有方面。

如图所示，自主车辆1010大体上包括推进系统1020、变速器系统1022、转向系统1024、制动系统1026、传感器系统1028、致动器系统1030、至少一个数据存储装置1032、至少一个控制器1034，以及通信系统1036。在各种实施例中，推进系统1020可以包括内燃机、诸如牵引马达的电机和/或燃料电池推进系统。变速器系统1022配置为根据可选择的速度比将来自推进系统1020的动力传递到车辆车轮1016至1018。根据各种实施例，变速器系统1022可以包括步进比率自动变速器、无级变速器或其他适当的变速器。制动系统1026配置为向车辆车轮1016至1018提供制动转矩。在各种实施例中，制动系统1026可以包括摩擦制动器、线控制动、诸如电机的再生制动系统和/或其他适当的制动系统。转向系统1024影响车辆车轮1016至1018的位置。尽管为了说明的目的被描绘为包括方向盘，在本公开范围内构想的一些实施例中，转向系统1024可以不包括方向盘。

传感器系统1028包括一个或多个感测装置1040a至1040n，它们感测自主车辆10的外部环境和/或内部环境的可观测状况。感测装置1040a至1040n可以包括但不限于，雷达、激光雷达、全球定位系统、光学相机、热成像相机、超声传感器和/或其他传感器。致动器系统1030包括一个或多个致动器装置42a至42n，其控制一个或多个车辆特征，诸如但不限于，推进系统20、变速器系统22、转向系统24以及制动系统26。在各种实施例中，车辆特征可以进一步包括内部和/或外部车辆特征，诸如但不限于，门、后备箱，以及客舱特征，比如空气、音乐、照明等(未标记)。

通信系统1036配置为将无线地将信息传送到其他实体1048或者从其他实体1048传送信息，诸如但不限于，(关于图2更详细进行描述的)其他车辆(“车辆对车辆”通信)、基础设施(“车辆对基础设施”通信)、远程系统、和/或个人装置。在示范性实施例中，通信系统1036是无线通信系统，其配置为通过利用IEEE802.11标准的无线局域网(WLAN)或者通过利用蜂窝数据通信进行通信。尽管如此，附加或替代的通信方法，比如专用短距离通信(DSRC)信道，也被认为在本公开的范围内。DSRC信道指的是专门针对机动车使用设计的单向或双向短距离到中距离无线通信信道以及对应的一组协议和标准。

数据存储装置1032存储数据，以用于在自动地控制自主车辆1010时使用。在各种实施例中，数据存储装置1032存储可导航环境的定义的地图。在各种实施例中，定义的地图可以由(关于图2进一步详细描述的)远程系统预定义并从其获取。例如，定义的地图可以由远程系统装配并(无线地和/或以有线方式)传送到自主车辆1010并存储在数据存储装置32中。如可以理解的，数据存储装置1032可以是控制器1034的一部分、与控制器1034相分离，或者部分为控制器1034且部分为分离的系统。

控制器1034包括至少一个处理器1044和计算机可读存储装置或介质1046。处理器1044可以是任意的定制或商用处理器、中央处理单元(CPU)、图形处理单元(GPU)、与控制器你1034相关联的若干处理器中的辅助处理器、基于半导体的微处理器(采用微芯片或芯片组的形式)、宏处理器、它们的任意组合，或者一般用于执行指令的任何装置。计算机可读存储装置或介质1046可以包括易失性和非易失性存储器，例如采用只读存储器(ROM)、随机存取存储器(RAM)以及不失效存储器(KAM)。KAM是一种永久或非易失性存储器，其可以用于在处理器1044断电时存储各种操作变量。计算机可读存储装置或介质1046可以利用大量已知的存储器装置的任一种来实施，比如PROM(可编程只读存储器)、EPROM(电可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、闪存、或能够存储数据的任何其他的电、磁、光或组合存储器装置，数据的一些表示被控制器1034用来控制自主车辆1010的可执行指令。

指令可以包括一个或多个单独的程序，其每一个包括用于执行逻辑功能的可执行指令的有序列表。当被处理器1034执行时，指令接收并处理来自传感器系统1028的信号，执行用于自动控制自主车辆1010的部件的逻辑操作、计算、方法和/或算法，以及基于该逻辑操作、计算、方法和/或算法生成到致动器系统1030的控制信号以自动地控制自主车辆1010的部件。尽管在图1中仅显示了一个控制器1034，自主车辆1010的实施例可以包括任意数量的控制器1034，其在任意合适的通信媒介或通信媒介的组合上进行通信，并且相互协作以处理传感器信号、执行逻辑操作、计算、方法和/或算法，以及生成控制信号来自动地控制自主车辆1010的特征。

在各种实施例中，控制器1034的一个或多个指令体现在目标跟踪系统10中，并且当被处理器44执行时，实施关于图4所述的模块和关于图5和图6所述用于跟踪目标的方法步骤。

现在参考图2，在各种实施例中，关于图1所述的自主车辆1010在某些地理区域中(例如，城市、学校或商业园区、购物中心、游乐园、活动中心等等)可以适用于在出租车或班车系统的背景下使用，或者可以仅仅由远程系统管理。例如，自主车辆1010可以与基于远程运输系统的自主车辆相关联。图2示出了运行环境的示范性实施例，大体上以1050示出，其包括基于远程运输系统1052自主车辆，该远程运输系统与关于图1所述的一个或多个自主车辆10a至10n相关联。在各种实施例中，运行环境1050进一步包括一个或多个用户装置1054，该一个或多个用户装置经由通信网络1056与自主车辆1010和/或远程运输系统1052进行通信。

通信网络1056支持运行环境1050所支持的装置、系统和部件之间所需的通信(例如，通过有形通信链路和/或无线通信链路)。例如，通信网络1056可以包括无线载波系统1060，比如蜂窝电话系统，包括多个小区发射塔(未示出)、一个或多个移动交换中心(MSC)(未示出)、以及将无线载波系统1060与陆地通信系统连接所需的任何其他联网部件。每个小区发射塔包括发送天线和接收天线以及基站，同时来自不同小区发射塔的基站直接或者通过诸如基站控制器的中间设备连接到MSC。无线载波系统1060可以实施任何合适的通信技术，包括例如数字技术，诸如CDMA(例如，CDMA2000)、LTE(例如，4G LTE或5G LTE)、GSM/GPRS，或者其他当前或新兴的无线技术。其他小区发射塔/基站/MSC布置也是可能的并且可以和无线载波系统60一起使用。例如，基站和小区发射塔可以共同位于相同的地点或者它们可以彼此远程地定位，每个基站可以负责单个小区发射塔或者单个基站可以服务不同的小区发射塔，或者不同的基站可以耦合到单个MSC，仅举了可能布置的几个例子。

除了包括无线载波系统1060之外，还可以包括采用卫星通信系统1064形式的第二无线载波系统，以提供与自主车辆1010a至1010n的单向或双向通信。这可以通过利用一个或多个通信卫星(未示出)和上行链路传输站(未示出)来实现。单向通信可以包括，例如卫星无线电服务，其中节目内容(新闻、音乐等)由传输站接收、打包用于上传、并且随后发送到卫星，卫星将该节目广播给用户。双向通信可以包括，例如卫星电话服务，利用卫星来在车辆1010和站点之间中继电话通信。可以利用卫星电话作为无线载波系统1060的附加或替代。

可以进一步包括陆地通信系统1062，其为连接到一个或多个陆线电话的传统路基电信网络，并且将无线载波系统1060连接到远程运输系统1052。例如，陆地通信系统1062可以包括公共交换电话网(PSTN)，比如那些用来提供固线电话、分组交换数据通信以及因特网基础架构的公共交换电话网。陆地通信系统1062的一个或多个段可以通过使用以下网络来实施：标准有线网络、光纤或其他光网络、电缆网络、电力线、诸如无线局域网(WLAN)的其他无线网络、或者提供宽带无线接入(BWA)的网络，或者它们的任意组合。此外，远程运输系统1052不必通过陆地通信系统1062进行连接，而是可以包括无线电话设备，从而其可以与无线网络直接通信，比如无线载波系统1060。

尽管在图2中仅显示了一个用户装置1054，运行环境1050的实施例可以支持任意数量的用户装置1054，包括由一个人拥有、操作或以其他方式使用的多个用户装置1054。运行环境1050所支持的各个用户装置1054可以利用任何合适的硬件平台来实施。就这一点而言，用户装置1054可以以任何常见的外形规格来实现，包括但不限于：台式计算机；移动计算机(例如，平板电脑、膝上型计算机、或上网本计算机)；智能电话；电子游戏装置；数字媒体播放器；成件家庭娱乐设备；数字相机或摄像机；可穿戴计算装置(例如，智能手表、智能眼镜、智能服装)；或者诸如此类。运行环境1050所支持的各个用户装置1054被实现为计算机实施的或基于计算机的装置，具有实现本文所述的各种技术和方法所需的硬件、软件、固件和/或处理逻辑。例如，用户装置1054包括采用可编程装置形式的微处理器，其包括存储在内部存储器结构中并被应用为接收二级制输入以创建二进制输出的一个或多个指令。在一些实施例中，用户装置1054包括能够接收GPS卫星信号并基于这些信号生成GPS坐标的GPS模块。在其他实施例中，用户装置1054包括蜂窝通信功能，从而该装置利用一个或多个蜂窝通信协议在通信网络1056上进行语音和/或数据通信，如本文中所讨论的。在各种实施例中，用户装置1054包括视觉显示器，比如触摸屏图形显示器或其他显示器。

远程运输系统1052包括一个或多个后端服务器系统，其可以是基于云的、基于网络的，或者驻留在由该远程运输系统1052所服务的特定园区或地理位置处。远程运输系统1052可以由现场顾问人工操纵、或者是自动顾问，或者两者的组合。远程运输系统1052可以与用户装置1054和自主车辆1010a至1010n进行通信，以调度乘车者、派遣自主车辆1010a至1010n，等等。在各种实施例中，远程运输系统1052存储账户信息，比如用户认证信息、车辆标识符、简档记录、行为模式以及其他相关的用户信息。

根据一典型的使用情形工作流程，远程运输系统1052的注册用户可以通过用户装置1054创建乘车请求。该乘车请求通常将表明乘客的期望搭车位置(或当前的GPS位置)、期望的目的地位置(其可以标识为预定义的车站和/或用户指定的乘客目的地)以及搭车时间。远程运输系统1052接收该乘车请求，处理该请求，以及(当一个可用时)派遣自主车辆10a至10n中选定的一个来在指定的搭车位置和在适当的时间搭载该乘客。远程运输系统1052还可以生成并向用户装置1054发送适当配置的确认消息或通知，从而使乘客知道车辆正在路上。

如可以理解的，本文所公开的主题提供了可以被认为是标准或基准自主车辆1010和/或自主车辆的远程运输网络1052的某些增强特征和功能。为此目的，自主车辆和基于自主车辆的远程运输系统可以被修改、增强或者以其他方式补充以提供以下更为详细描述的附加特征。

根据各种实施例，控制器1034实施如图3中所示的自主驾驶系统(ADS)170。也就是说，控制器1034的适当软件和/或硬件部件(例如，处理器1044和计算机可读存储装置1046)被用于提供结合车辆1010一起使用的自主驾驶系统1070。

在各种实施例中，自主驾驶系统1070的指令可以由功能或系统组成。例如，如图3中所示，自主驾驶系统1070可以包括传感器融合系统1074、定位系统1076、引导系统1078，以及车辆控制系统1080。如可以理解的，在各种实施例中，可以将指令组织成任意数量的系统(例如，组合的、进一步分割的等)，因为本公开并不限于当前示例。

在各种实施例中，传感器融合系统1074合成并处理传感器数据，以及预测车辆1010的环境的目标和特征的存在、位置、分类和/或路径。在各种实施例中，传感器融合系统1074可以合并来自多个传感器的信息，包括但不限于，相机、激光雷达、雷达，和/或任意数目的其他类型的传感器。

定位系统1076处理传感器数据连同其他数据，以确定车辆1010相对于环境的位置(例如，相对于地图的本地位置、相对于道路车道的确切位置、车辆前进方向、速度等)。引导系统1078处理传感器数据连同其他数据，以确定车辆1010将要遵循的路径。车辆控制系统1080生成控制信号，以用于依照确定的路径控制车辆1010。

在各种实施例中，控制器1034实施机器学习技术来辅助控制系统1034的功能，比如特征检测/分类、阻塞缓解、路径遍历、映射、传感器整合、地面实况确定，等等。

车辆控制系统1080配置为将车辆控制输出传送至致动器系统1030。在示范性实施例中，致动器1042包括转向控制、移位器控制、节气门控制以及制动控制。例如，转向控制可以控制图1中所示的转向系统1024。例如，移位器控制可以控制图1中所示的变速器系统1022。例如，节气门控制可以控制图1中所示的推进系统1020。例如，制动控制可以控制图1中所示的车轮制动系统1026。

如以上简要提及的，图1和图4的目标跟踪系统10包含在自主驾驶系统1070内，例如，作为定位系统1076的部分。本公开的各种实施例的目标跟踪系统10使得能够使用二维成像数据(例如，相机数据)来增强通过三维成像数据(例如，激光雷达数据)的目标检测。通过目标跟踪系统10，作为定位系统1076的一部分，目标可以被识别、定位，并且可以确定尺寸。控制数据可以至少部分通过目标跟踪系统10来确定，其部分促成来自车辆控制系统的车辆控制输出。

例如，如关于图4更详细示出的并且继续参考图3，目标跟踪系统10包括多个模块和其他系统部件，用于基于三维和二维成像数据跟踪目标的位置和尺寸。

在示范性实施例中，目标跟踪系统10通过传感器系统1028的传感器装置接收传感器数据，传感器系统108至少包括雷达、激光雷达和相机数据捕获装置12a、12b、12c。激光雷达数据捕获装置12a可以被认为是三维成像装置，因为其针对在和远离装置12a的距离方向正交的平面中的大量数据点，捕获涉及从激光雷达数据捕获装置12a到反射目标的距离的数据。尽管激光雷达数据捕获装置12a在此作为示范用于获取三维成像数据，也可以利用其它测距扫描器，比如雷达。激光雷达装置12a可以安装到车辆上，比如在车顶上。相机12c通常包括围绕车辆分布的多个相机12c。相机12c可以充足分布成允许360°的环视。

在示范性实施例中，激光雷达捕获装置12a包括一对激光发射装置和激光感测装置，用于通过测量激光脉冲从发射装置行进到目标并返回到感测装置所用的飞行时间(TOF)并由已知的光速计算距离来测量距离。激光雷达装置12a可以将多个激光/探测器对(例如，多至64个)组合到一个传感器中并且可以在千赫的范围内发射脉冲以允许每秒得到数百万个数据点的测量值。例如，30°至40°的垂直视场被覆盖，同时通过旋转激光/探测器对实现了全360°的水平视场，比如在高达每秒20次的旋转速度下。除了各个距离测量之外，激光雷达捕获装置12a还配置为测量校准的反射率，其使得能够更容易检测到像路标、车牌牌照和车道标记线那样的后向反射器。

相机12c配置为测量从目标反射到相机12c的光。图像通常是彩色的并且显示周围的视觉图像。不像激光雷达捕获装置12a和其他测距扫描器，相机图像不能在三维上测量距离。来自相机12c的图像由视频数据的单独帧形成。来自相机12c的图像是二维的。

已经发现，激光雷达成像可能剪除、合并、分割或丢失目标。这可能在有非反射性或低反射性目标(比如黑色汽车)情况下或者当波束以浅入射角瞄准在目标上时发生。而且，激光雷达波束可能发散并且在远离激光雷达装置12a的特定阈值距离处充分散开，从而可能丢失目标。然而，相机图像数据不会共同具有这些问题。相机图像更密，因此可以看得更远。此外，相机图像并不依赖反射的激光波束，因此在有低反射性目标的情况下较少出现问题。相比之下，对于得到距离数据而言相机图像没有那么有效。因此，本公开提供了组合使用诸如来自激光雷达和雷达装置12a、12b的三维成像数据和诸如来自相机12c的二维成像数据的系统和方法。具体地，激光雷达图像被用于提供对二维相机图像中感兴趣目标的位置和尺寸的第一估计，而二维相机数据被用来改善我们对目标的几何形状(例如，位置和尺寸)的估计。本公开通过从二维成像数据14b得到三维位置数据(目标姿态)，另外地或替代地使得能够跟踪已经在三维成像数据14a中全部或部分丢失的目标。

在示范性实施例中，目标跟踪系统10包括数据接收模块16，其配置为任选地通过传感器融合系统1074接收来自传感器系统1028的成像数据14。如此，数据接收模块16包括输入数据接口和输出数据接口以及执行指令的处理器，以根据需要将成像数据14引导到其他模块。处理器可以至少在上述的处理器1044上。具体地，数据接收模块16配置为从传感器系统1028接收三维成像数据14a和二维成像数据14b。成像数据14可以以二维和三维覆盖围绕车辆延伸的垂直平面。此类成像数据14的连续帧可以由数据接收模块16接收。

在示范性实施例中，目标跟踪系统10包括目标识别模块18，其配置为识别并区分成像数据14中的目标。具体地，目标跟踪系统10包括三维目标识别模块18a和二维目标识别模块18b，它们配置为分别对三维成像数据18a和二维成像数据18b进行操作。目标识别模块18进行目标识别分析，该分析可以包括背景去除和分割图像处理中的至少一个。该分析可以包括至少一个图像过滤操作。用于识别目标的图像处理对本领域技术人员而言是可用的。目标识别模块14被进一步配置为针对图像数据中每个已识别的目标确定边界框。用来识别目标和用于针对已识别的目标建立边界框20a、20b的图像处理通过运行图像处理指令的处理器来实现。

在示范性实施例中，对三维成像数据14a(例如，激光雷达数据)进行操作的目标识别模块18a被配置为针对已识别目标建立三维边界框20a。边界框20a可以由数据结构构成，该数据结构包括真实世界(相对于图像空间而言)中的三维位置坐标，例如，相对于车辆或激光雷达装置12a的x、y和z坐标(x为水平位置，y为垂直位置，而z为距离车辆或雷达装置12a的距离)，以及边界框的三维尺寸，比如长度、宽度和高度。边界框20a的位置数据可以定位成边界框20a的中心。从二维成像数据14b得到的边界框20b可以由标识边界框20b的位置和尺寸的数据结构构成。例如，边界框20b可以按照相对于真实空间的x坐标和y坐标(x为水平位置，y为垂直位置)的中心点位置以及高度和宽度尺寸来标识。

在示范性实施例中，目标跟踪系统10包括配准子模块24、三维到二维(3D到2D)变换模块26、视觉分类子模块32，以及作为调整模块50一部分的第一和第二2D到3D子模块36、38。调整模块50配置为同时以三维和二维形式接收边界框20a、20b作为候选区域，并且基于从相机12c获得的二维成像数据14b，调整以第一边界框20a、20b形式的候选区域的位置和/或尺寸。具体地，调整模块50配置为接收边界框20a、20b，利用二维成像数据14b运行神经网络处理引擎以便执行边界框回归，以由此根据二维成像数据14b中的目标的尺寸和位置更准确地表示边界框20a、20b的大小和尺寸。目标跟踪系统10包括神经网络引擎，其已经针对车辆所感兴趣的目标进行了训练，在一个实施例中，其包括训练的数据、采用计算机程序指令形式的训练的处理以及用于执行这些指令的处理器。形成神经网络引擎的训练的部分的此类感兴趣目标包括行人、路标、车辆、建筑物、街道照明等。此外，计算机程序指令可操作为执行边界框回归处理。

对于三维边界框20a，调整模块50配置为基于二维成像数据14b调整已区分的三维目标20a，并且输出经调整的三维目标40a。已区分的三维目标30a和经调整的二维目标通过由调整模块50操作的目标数据20a、30表示，在是实例中具体地作为边界框数据。在实施例中，调整模块50配置为执行将三维边界框20a变换成二维边界框30a投影处理，之后通过神经网络执行边界框回归以基于二维成像数据14b获得经调整的二维边界框30a，以及随后执行反向投影处理以将经调整的二维边界框转换成经调整的三维边界框40a。

有可能发生的是，捕获的三维数据14a例如来自激光雷达装置12a的三维数据具有目标的部分信息。例如，三维目标识别模块18a可能通过返回两个边界框20a错误地将目标确定为是两个目标，而现实中仅存在一个目标。这可能是由于作为一种可能情形的黑色汽车的原因而出现，激光雷达装置12a未从汽车的中部接收到反射，而仅从侧面接收到反射，从而激光雷达数据14a将汽车指示为被分割成两个。通过基于二维成像数据14b通过调整模块50对已区分目标数据20a进行调整，可以确定校正的目标数据34a、40a，其中在经调整的目标数据34a、40a中单独的目标数据20a或边界框20a被重新形成为合并的目标。在另一种场景中，激光雷达数据和通过目标识别模块18a进行的后续目标识别处理可以将多个目标解析为单个目标。例如，由目标识别模块18a运行的分割处理可以将多人分组成单个目标。调整模块50能够基于二维成像数据14b检测到实际上存在多个不同的人，并且因此输出校正的目标数据34a。相应地，在实施例中，通过基于二维成像数据14b改善从调整模块50获得的目标数据20a，调整模块50能够调整目标识别模块18a所确定的目标的尺寸、位置和数量。

还可能发生的是，激光雷达数据14a丢失了目标。这可能是由于长距离下激光雷达波束发散的原因或者当目标对于激光雷达波束实际上是非反射时发生。在这种情况下，二维成像数据14b来自相机12c。出于这样的原因，本公开提出仅仅基于二维成像数据14b运行目标识别、边界框回归以及二维到三维变换处理。以此方式，在一些实施例中，源自三维成像数据14a的目标数据20a可以利用二维成像数据14b改善。在附加的或替代的实施例中，用于在目标跟踪中使用的三维目标数据40b可以直接从二维成像数据14b得到，这在激光雷达数据不可用或者丢失目标的情况下尤其有用。将二维成像数据14b变为可用于目标跟踪的三维目标数据的方式在本文中将参考二维目标识别模块、视觉分类子模块以及第二二维到三维变换子模块38来描述。

在图4的示范性实施例中，为了便于解释，已经将调整模块50划分为多个子模块。配准子模块24与配置为确定成像数据14b在二维空间中的边界框的位置的校准数据22连通。校准数据22可以存储在数据存储装置1032中。配准子模块24输出对应于三维图像和二维图像的配准或空间相关性的配准数据，由此允许三维成像数据20a在二维图像空间中投影到正确位置。配准子模块24利用将在以下进一步详细描述的固有和非固有校准数据22来执行三维到二维图像配准。

校准数据22包括非固有和固有校准数据。非固有校准数据描述了相机12c相对于激光雷达装置12a或车辆1010姿态的姿态。非固有校准数据通过经将每个相机12关于激光雷达12a校准的非固有校准处理来确定。非固有校准处理使得能够确定激光雷达成像数据14a中的点与相机图像14b中的点之间的空间对应关系，并且还允许在激光成像数据14a和相机成像数据14b之间的时间同步。固有校准数据用于解释相机的失真和其他固有图像校正处理。

三维到二维变换子模块26配置为利用固有和非固有校准数据22将三维边界框20a的尺寸投影到二维图像空间内。相应地，配准子模块和三维到二维变换子模块26利用非固有和固有校准数据22一起操作以将三维边界框20a的位置和尺寸投影成二维边界框30a的位置和尺寸。配准子模块24和三维到二维变换模块26包括处理器以及配置为执行所需配准和变换处理的计算机可读指令。配准子模块和三维到二维变换模块26被配置为输出二维边界框30a作为用于以上所述的后续边界框回归的候选区域。应当意识到，三维到二维变换子模块26和配准子模块24在本文中被描述为独立的模块，但是可以提供单个模块以在集成的模块中进行配准和投影处理。

在图4的示范性实施例中，包括了视觉分类子模块32，其配置为从二维目标识别模块18b接收二维边界框20b以及从配准和三维到二维变换子模块24、26接收边界框30a。二维边界框20a是通过对二维成像数据14b进行目标识别和区分处理得到的，因此可以被称为“二维图像来源边界框”。相比之下，二维边界框30a是从三维成像数据14a得到并被投影到二维图像空间内，因此可以被称为“三维图像来源边界框”。视觉分类子模块32配置为对分别由二维和三维图像来源边界框20b、30a构成的候选区域运行神经网络，以实现分类和边界框回归。分类对于其他处理而言是有用的，但是并不直接与本公开相关。边界框回归处理的目的是利用神经网络来基于输入的二维成像数据14b，获得相比于由候选区域提供的粗糙估计更准确的目标尺寸。如此，由视觉分类子模块32(具体地为上述的神经网络引擎)执行的边界框回归能够更好地将边界框20b、30a拟合到对应的目标。以此方式，对应于经调整的已区分目标的经调整边界框34a、34b从调整模块50输出，具体地从其视觉分类子模块32输出。

由视觉分类子模块执行的边界框回归配置为接收二维成像数据14b和二维成像数据14b内的边界框30a、30b。边界框回归在二维成像数据14b内的边界框30a、30b上运行神经网络。神经网络输出更紧密拟合被分类目标的几何形状的分类和改善边界框。例如，采用远处汽车的保险杠作为示范性目标，通过配准子模块24和三维到二维变换子模块26，目标跟踪系统10能够确定保险杠的位置和尺寸作为候选区域30a。然而，候选区域30a实际上在一个或多个尺寸上比实际的保险杠更小，这可能是由于激光雷达入射角度、不良的反射性等原因。通过向视觉分类子模块32提供相对粗糙的候选区域30a，神经网络分析二维成像数据14b并能够确定出图像中保险杠的更为准确的尺寸，例如它们更宽且更高。视觉分类子模块32配置为输出具有调整后尺寸的经调整边界框34a。不仅能够基于二维成像数据14b更准确地确定目标尺寸，而且可以校正基于三维成像数据14a确定的被错误分割的目标。在两个目标实际上应当是一个的情况中，由三维图像来源边界框30a表示的目标的一个或两个的边界框回归可以回归到目标的实际几何形状，由此将多个边界框30a合并成一个或多个经调整的边界框34a。

在基于三维成像数据14a的边界框30a合并了多个目标的情况中，边界框回归能够将边界框分割以通过单个三维图像来源边界框30a确定多个回归后的边界框34。

在目标被三维成像数据14a部分或完全丢失的情况中，二维图像来源边界框20a可以用于填充丢失的目标数据。边界框20a仍然可以在作为候选区域的边界框20a上运行来获得更准确的尺寸，因此确定经调整的二维边界框34b。

在实施例中，由视觉分类子模块32执行的边界框回归在二维图像空间中表示更准确的尺寸。然而，在实施例中，跟踪系统42配置为在真实的三维空间中执行目标跟踪。相应地，第一二维到三维变换子模块36配置为将源自三维成像数据14a的经调整二维边界框34a变换成三维边界框40a。第一二维到三维变换子模块36配置为采用来自激光雷达装置12a的作为目标的输入距离数据，其可以通过三维边界框数据20a(其z坐标)得到确定。此外，相机12c的固有和非固有校准数据22可以用作进一步的输入。通过距离数据和校准数据，可以进行反向投影变换。也就是说，由配准和三维到二维子模块24、26所执行的变换，借此三维的目标跟踪数据20a被转换成二维图像空间中的坐标和尺寸，被反向。也就是说，第一二维到三维变换子模块36配置为将包括校正或调整尺寸的经调整或经校正目标数据34a变换成经校正的目标数据40a，其包括位置和/或尺寸，比如三维空间中目标的高度和/或宽度和/或长度。目标几何形状上的经校正数据40a被输出到跟踪系统42作为反馈，以更新其感兴趣目标的信息。跟踪系统42可以是以上关于图3所述的分类和分割模块1076的一部分。第一二维到三维变换子模块36包括处理器和计算机可读指令，用于执行尺寸变换处理以及引导接收二维目标数据34a和输出三维目标数据34a。

第一二维到三维变换子模块36无法变换源自二维数据14a的经调整边界框34b，这是因为利用三维数据的反向投影不可用。作为替代，目标跟踪系统10包括第二二维到三维变换子模块38，其对源自二维成像数据14b的经调整目标数据34b进行操作。与三维成像数据14b不同，二维成像数据14b不包括距离测量值。如此，第二二维到三维变换子模块38配置为利用几何形状分析并基于高度地图数据从二维成像数据14b得到距离数据。第二二维到三维变换子模块38配置为输出三维目标数据40a，在实施例中其由三维边界框40b构成。第二二维到三维变换子模块38包括处理器和软件指令，软件指令可以由处理器操作以执行所需的几何形状分析并引导接收经调整的二维目标数据34b以及引导输出经调整的三维目标数据40b。

第二二维到三维变换子模块38配置为接收二维的经调整的目标数据34b，在实施例中其由边界框34b构成，并且配置为将该二维的经调整的目标数据34b变换成三维的经调整的目标数据40b，例如三维的经调整的边界框40b。第二二维到三维变换子模块38配置为利用已训练的神经网络估计二维的经调整目标数据34b的姿态，该神经网络可以和以上参照视觉分类子模块32所述的神经网络相同，由此针对三维边界框40b确定三维尺寸。第二二维到三维变换子模块38被进一步配置为基于高度地图数据52估计三维位置，这将在以下详细进行讨论，以及在二维图像14b的二维域中的经调整边界框34b的高度。也就是说，目标的三维位置是基于二维图像数据14b和预定的高度地图数据52来确定，根据以下进一步描述的系统和方法，特别是关于图6。例如，二维到三维变换模块38配置为利用预映射的高度地图数据52实施几何计算。高度地图数据52使得能够基于二维的经调整的边界框34b估计距离车辆的距离。

更详细地说，高度地图数据52将高度信息与GPS位置数据相关联。高度地图数据52可以存储在数据存储装置1032中。为了增强精度GPS位置数据可以是差分GPS位置数据。以此方式，高度地图数据52能够针对勘测的GPS数据点，关联地面尤其是道路的高度。相应地，三维高度地图52是预先构建的并且可以用于系统10使用。高度地图数据52可以通过测绘车辆采集的激光雷达数据进行后处理。高度地图数据52可以包括映射拼贴(例如，10cm×10cm)，其在各个拼贴的位置处含有地面的高度，其中各个位置可是参考GPS的。

更详细地说，并且在一个示例中，第二二维到三维变换子模块38配置为确定至少一个相机12c的位置，该至少一个相机12c捕获相对于高度地图数据52的二维成像数据12c。也就是说，确定了相机12c在高度地图数据52中的位置或姿态。相机12c的姿态可以基于车辆1010在高度地图数据52中的姿态利用以下数据来确定，即：车辆的GPS数据，在高度地图数据52中的对应GPS数据，以及关于车辆和相机12c的大小和相对位置的预定信息，其可以例如通过校准数据22来确定。

第二二维到三维变换子模块38配置为将边界框34b的至少部分在二维图像数据14中它们的相应位置处投影到高度地图数据52的三维图像空间内。第二二维到三维变换子模块配置为基于高度地图数据52确定投影与地面的交点。通过相交的高度地图数据52，例如其贴片，能够估计边界框34b的三维位置，并且由此能够估计相应目标。在示范性实施例中，将边界框34b的垂直底部投影来找到高度地图数据52中的对应点，由于使得能够确定三维空间中距离相机12c的近似距离。由二维到三维变换子模块38进行的投影可以使用光纤跟踪算法。此外，为了准确地将二维数据投影到三维高度地图数据内，不仅需要基于GPS数据和预定尺寸信息使用的车辆和相机姿态，而且还需要关于相机12c的固有和非固有校准的校准数据22，其提供了视场信息。相机姿态可以通过预定的相机姿态数据54来确定，该相机姿态数据54可以存储在数据存储装置1032上并且可以结合到校准数据22中。投影算法(例如，基于光线跟踪)利用相机姿态数据54和相机校准数据22来将光线从相机图像数据14b中的边界框34b交叉到高度地图数据52内。基于该投影，第二二维到三维变换子模块38计算车辆和由边界框34b表示的已检测目标之间的相对距离。

第二二维到三维变换子模块38配置为将可以从视觉分类子模块32获得的边界框34b的三维姿态数据和如上所述获得的估计单位位置数据合并，以产生三维的经调整的边界框40b。三维的经调整的边界框40b通过和预定三维高度数据52相结合的二维成像数据14b获得。

第二二维到三维变换子模块38以及由其操作的算法，在相机成像数据14b中发现了以下事实，即假设平坦地表面、较近目标的底部或者表示它们的边界框34b在图像中将更低并且离地平线更远。然而，当地面不平坦时该假设是错误的。在一个实施例中，本公开利用高度地图数据52，甚至能补偿丘陵地形。

可以是分类和分割模块1076一部分的跟踪系统42被配置为基于经调整的边界框40a、40b三维地且实时地跟踪车辆1010周围的目标。考虑了源自三维成像数据14a的经调整目标数据40a，以及源自二维成像数据14b的经调整目标数据40b。跟踪系统42配置为通过处理器和适当配置的计算机刻度指令对经调整的目标数据40a、40b执行跟踪算法，以决定控制命令44。控制命令44通过自主驾驶系统1070被操作为辅助对车辆1010的控制。

图4的目标跟踪系统10的示范性实施例包含在自主驾驶系统1070中。除了其他可能的自主驾驶可行方案之外，自主驾驶系统1070配置为执行转向和速度控制操纵，以避免碰撞并部分基于控制命令44和已跟踪目标相配合地移动。自主驾驶系统1070部分基于控制数据44通过处理器操作已知的自主车辆控制计算机指令，如以上关于图3所描述的。

图5示出了描述本公开的用于跟踪目标的示范性方法和系统方面的流程图。图5的流程图的步骤可以由存储在计算机可读介质上的计算机程序指令实施，该计算机程序指令可以由处理器执行，比如至少一个处理器1044。例如步骤可以通过关于图4所述的模块和子模块来实现，并且还可以采用关于图4所述的自主驾驶系统1076的其他方面。

流程图描述了跟踪目标的示范性方法60。方法包括接收三维成像数据的步骤62和接收二维成像数据的步骤64。在示范性实施例中，三维成像数据14a由激光雷达装置12a捕获，而二维成像数据14b由视觉相机12c捕获。在实施例中，车辆周围的二维和三维数据图像可以是360°的环绕成像。数据通过数据接收模块16接收。三维数据14a可能由于反射性问题的原因裁切目标的尺寸，或者目标可能部分或完全被三维数据14a丢失。本文所述的方法和系统提出了图像处理技术，能够利用二维成像数据14b使三维数据完整或者校正三维数据。

在实施例中，方法60包括基于三维成像数据14a估计目标的三维几何形状的步骤66，其通过三维目标识别模块18a执行。在一个实施例中，步骤66包括识别并区分三维成像数据14a中的一个或多个目标。步骤66可以涉及滤除背景和分割图像分析处理以区分一个或多个目标。在一个实施例中，步骤66针对三维成像数据14a中各个已识别的目标确定并输出三维边界框20a。每个边界框20a包括三维位置和三维尺寸目标数据。

作为步骤66的附加或替代，方法60包括基于二维成像数据14b估计目标的二维几何形状的步骤68，其通过二维目标识别模块18b来执行。在一个实施例中，步骤68包括识别并区分二维成像数据14b中的一个或多个目标。步骤66可以涉及滤除背景和分割图像分析处理以区分一个或多个目标。在一个实施例中，步骤68针对二维成像数据14b中各个已识别的目标确定并输出二维边界框20b。每个边界框20b包括二维位置和二维尺寸目标数据。

方法60包括基于二维成像数据14b调整一个或多个目标的估计三维几何形状的步骤70，其通过配准和三维到二维变换子模块24、26来执行。也就是说，步骤70对步骤66输出的目标数据进行图像处理，以基于二维成像数据14b中一个或多个目标的几何形状调整或校正各个已识别和已区分目标的几何形状。在一个实施例中，步骤70包括将来自步骤66的三维边界框20a投影到在二维成像数据中配准的二维边界框30a内的子步骤70a。更具体地，固有和非固有校准数据22被用于将来自步骤66的一个或多个三维边界框20a定位并尺寸化到二维成像空间内。相应地，投影子步骤70a输出一个或多个边界框30a，其包括依照校准数据22定位的二维位置数据和二维尺寸数据，从而允许在三维成像数据14a和二维成像数据14b之间配准。

第一调整步骤70包括通过视觉分类子模块32执行边界框回归的子步骤70b。边界框回归是在一个或多个二维边界框30a上进行的。二维边界框30a被用作候选区域并和二维成像数据14b一起经过神经网络。基于二维成像数据14b，边界框回归子步骤70b能够校正或调整一个或多个边界框30a的位置和/或尺寸，以输出其经调整的二维版本34a。边界框回归子步骤利用来自三维成像数据来源边界框30a确定二维成像数据来源边界框20b中的对应目标，并且基于可以从原始二维数据20b获得的更精确的图像数据改善三维成像数据来源边界框30a，由此产生经调整的边界框34a。

在实施例中，第一调整步骤70包括将经调整的二维边界框34a变换成三维的经调整的边界框40a的子步骤70c。变换子步骤70c基于与二维图像捕获装置12c和三维图像捕获装置12a有关的校准数据22，并且基于从三维成像数据14a中已区分的目标20a得到的距离数据，将投影步骤70a反向。

第一调整步骤70采用三维目标数据或边界框20a并基于二维成像数据12c校正某方面，比如目标的尺寸、数量和/或位置。第一调整步骤70输出经校正的或经调整的三维目标数据或边界框34b。第一调整步骤70能够分割、合并或改变来自估计步骤66的目标数据20a的大小和/或位置。

作为第一调整步骤70的附加或替代，方法60可以进一步包括第二调整步骤72，其对从估计步骤68获得的二维目标数据20b进行操作以确定经调整的三维目标数据40b。在实施例中，第二调整步骤72包括执行边界框回归的子步骤72a。该子步骤复制了以上所述的子步骤70b。也就是说，包括二维位置和尺寸数据的估计二维边界框20b通过视觉分类子模块32运行的来执行边界框回归。边界框回归子步骤72利用神经网络和二维成像数据14b来改善边界框20b的位置、数量和/或大小，以确定经调整的二维边界框34b。

在实施例中，第二调整步骤72包括将由一个或多个二维边界框34b构成的经调整二维目标数据34b变换成三维目标数据或边界框40b。进行三维变换的子步骤72b不能复制以上所述的变换步骤70c，这是因为针对步骤68和72所依据操作的二维成像数据14b，距离数据并不可用。相应地，变换子步骤72b利用高度映射数据52，如以下关于图6所详细描述的。也就是说，图6详细描述了根据子步骤72b的一个实施方式，将源自二维成像数据的二维边界框34b变换成三维成像数据的示范性方法。

在图6的示范性二维到三维变换方法中，在步骤62处接收高度地图数据52。高度地图数据52与位置(例如GPS位置)和地面高度相关联。高度地图数据52可以是从诸如激光雷达装置的测距成像装置获得的已处理数据。

在步骤82中，相对于高度地图数据52估计相机姿态。也就是说，关于车辆和相机的尺寸的预定姿态数据54被检索且GPS数据从GPS传感器12d获得。该数据被合并以确定相对于高度地图数据的相机姿态，例如位置和尺寸。

在步骤86中，基于来自步骤82的相机姿态，将二维成像数据14b中的二维目标数据34b相对于高度地图数据52进行投影。也就是说，针对二维目标数据34b执行从相机12c到高度地图数据52内的光线跟踪。用于相机12c的校准数据22被用来配准二维成像数据14b和高度地图数据52。可以仅采用二维目标数据34b的一部分，具体地采用每个边界框34b的底部。

在步骤88中，确定来自步骤86的投影或光线追踪的地面交点。

在步骤90中，高度地图数据52被用来基于来自步骤88的地面交点至少估计距离相机12c和/或车辆的距离，使得可以为目标数据34b获得距离数据，任选地作为其他两个空间维度中单位位置的附加。通过距离数据以及任选的从步骤88的地面交点获得的其他尺寸空间信息，构建目标数据34b的三维位置数据。

在步骤92中，从视觉分类子模块32接收对应于目标数据34b的目标的三维尺寸，如前所述。这些来自视觉分类子模块的尺寸来源于对二维目标数据20b的神经网络分类处理。

在步骤94中，三维位置和尺寸从第二调整步骤72输出以用于在后续步骤中使用。

在图6的方法中，目标数据可以是如本文进一步描述般得到的边界框。

相应地，图5的方法使得能够基于通过GPS传感器12d确定的车辆位置且自行识别目标34b的相机图像14b的方位(投影)，得到由目标数据34b表示的目标的位置。高度地图数据52被用来查找由目标数据34b表示的目标的三维位置。具体地，从相机12d划假想线(表示来自图像14b的已识别目标34b的方位)以找到何处假想线与高度地图数据52相交。相交点可以利用高度地图数据52中的信息与已识别目标34b的三维位置相关联。

当三维成像数据14b不可用或者不完整时，第二调整步骤72能够基于二维成像数据14b确定大体由一个或多个边界框构成的三维目标数据40b。第二调整步骤72通常与对三维和二维成像数据14a、14b的组合操作并行进行，如关于步骤66和70或其替代所描述的。对于来自激光雷达装置12a的激光雷达波束发散到出现可能丢失目标的距离上的目标跟踪而言，通过步骤68和72所述的对二维成像数据的操作可能是特别有用的。

方法60进一步包括利用目标的经调整三维几何形状跟踪目标的步骤70。也就是说，第一调整步骤70输出以三维表示目标几何形状的目标数据40a，其中目标数据40a一般由三维边界框40a构成。此外，第二调整步骤72输出以三维表示另一目标几何形状的目标数据40b，其中目标数据40b一般由三维边界框40b构成。基于过去的三维目标数据和当前的三维目标数据40a、40b在真实空间中对目标的一个或两个进行跟踪。可以通过跟踪得到各种参数，包括已跟踪的一个或多个目标的速度和加速度。基于通过跟踪步骤74得到的参数，可以产生控制数据44，以用于通过自主驾驶系统1200执行对诸如自主车辆1010的自动化机器的控制功能。

方法60包括控制自动化机器的步骤76，在示范性实施例中该自动化机器是自主车辆1010。例如，机器1010的移动基于控制数据44进行控制。也就是说，可以基于控制数据44实施转向和速度控制。特别是，通过自主驾驶系统1200并部分基于控制数据44执行自主车辆控制。

尽管在本发明的前述详细描述中已经介绍了至少一个示范性方面，应当意识到存在大量变型。还应当意识到，示范性方面或多个示范性方面仅作为示例，而并不旨在以任何方式限制本发明的范围、应用或配置。更确切地说，之前的详细描述将为本领域技术人员提供用于实施本发明的示范性方面的便利路线图。应当理解的是，可以对示范性方面中描述的元件的功能和布置做出各种改变，而并不脱离所附权利要求书中所阐述的本发明的范围。

Claims

1.一种目标跟踪系统，包括：

数据接收模块，所述数据接收模块配置为通过处理器接收三维成像数据和二维成像数据；

三维目标识别模块，所述三维目标识别模块配置为通过处理器区分至少一个三维目标并输出三维目标数据；

调整模块，所述调整模块配置为通过处理器基于所述二维成像数据调整所述三维目标数据并输出经调整的三维目标数据；

跟踪模块，所述跟踪模块配置为通过处理器利用所述经调整的三维目标数据跟踪至少一个目标。

2.根据权利要求1所述的目标跟踪系统，其中所述调整模块包括投影子模块，所述投影子模块配置为将所述至少一个三维目标投影到所述二维成像数据的二维成像空间内并输出二维目标数据，其中所述调整模块配置为基于所述二维成像数据调整所述二维目标数据并输出经调整的二维目标数据。

3.根据权利要求2所述的目标跟踪系统，其中所述调整模块包括回归子模块，所述回归子模块配置为基于所述二维成像数据改善所述二维目标数据的方面。

4.根据权利要求3所述的目标跟踪系统，其中所述方面表示所述二维成像数据中的所述至少一个目标的数量、尺寸和/或位置。

5.根据权利要求2所述的目标跟踪系统，其中所述调整模块包括配准子模块，所述配准子模块配置为将所述二维成像数据与所述三维成像数据配准，并且其中所述投影子模块配置为对配准的二维成像数据和三维成像数据进行操作。

6.根据权利要求2所述的目标跟踪系统，其中所述调整模块包括二维到三维变换子模块，所述二维到三维变换子模块配置为将经调整的二维目标数据变换成经调整的三维目标数据，以用于被所述跟踪模块使用。

7.根据权利要求1所述的目标跟踪系统，其中所述调整模块配置为运行神经网络来基于所述二维成像数据调整所述三维目标数据。

8.根据权利要求1所述的目标跟踪系统，其中所述调整模块配置为利用由所述二维成像数据得到的所述至少一个目标的方面，以便调整由所述三维目标数据表示的至少一个目标的相对应的方面。

9.根据权利要求1所述的目标跟踪系统，其中所述三维目标识别模块配置为针对所述至少一个三维目标确定至少一个三维边界框作为所述三维目标数据。

10.一种控制方法，包括：

接收三维成像数据；

接收二维成像数据；

通过处理器基于所述三维成像数据估计至少一个目标的三维几何形状；

通过所述处理器基于所述二维成像数据调整所述至少一个目标的估计三维几何形状；

通过所述处理器利用所述至少一个目标的经调整的三维几何形状跟踪所述至少一个目标，以用于在自主车辆控制中使用。