CN116311216A

CN116311216A - 三维对象检测

Info

Publication number: CN116311216A
Application number: CN202211557626.3A
Authority: CN
Inventors: S·什里瓦斯塔瓦; 普纳杰·查克拉瓦蒂; 高拉夫·潘迪
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2021-12-14
Filing date: 2022-12-06
Publication date: 2023-06-23
Also published as: US20230186587A1; DE102022132847A1

Abstract

本公开提供了“三维对象检测”。可将图像输入到深度神经网络以基于高斯热图的中心来确定所述图像中与所述图像中所包括的对象相对应的点。所述深度神经网络可确定对应于所述对象的对象描述符并将所述对象描述符包括在附接到所述点的对象向量中。所述深度神经网络可确定对象参数，所述对象参数包括所述对象在全局坐标中的三维位置和所述对象的预测像素偏移。所述对象参数可以包括在所述对象向量中，并且所述深度神经网络可以基于所述点和所述对象向量来预测所述对象在全局坐标中的未来位置。

Description

三维对象检测

技术领域

本公开涉及车辆中的三维对象检测。

背景技术

图像可以由传感器获取并使用计算机进行处理以确定关于系统周围环境中的对象的数据。感测系统的操作可以包括获取关于系统环境中的对象的准确且及时的数据。计算机可以从一个或多个图像传感器获取图像，所述图像可以被处理以确定对象的位置。计算机可以使用从图像中提取的对象位置数据来操作系统，包括车辆、机器人、安全和对象跟踪系统。

发明内容

感测系统可以获取关于系统周围的环境的数据(例如图像数据)，并且处理所述数据以确定对象的身份和/或位置。例如，可以训练并然后使用深度神经网络(DNN)来确定由系统中的传感器获取的图像数据中的对象，所述系统包括车辆引导系统、机器人操作系统、安全系统、制造系统和产品跟踪系统。车辆引导可以包括车辆在包括多个对象的环境中在自主或半自主模式下的操作。机器人引导可以包括引导机器人末端执行器(例如夹持器)来拾取零件并对零件进行取向以在包括多个零件的环境中进行组装。安全系统包括其中计算机从观察安全区域的相机获取视频数据以向授权用户提供访问权限并检测包括多个用户的环境中的未经授权进入的特征。在制造系统中，DNN可以确定包括多个零件的环境中的一个或多个零件的位置和取向。在产品跟踪系统中，深度神经网络可以确定包括多个包裹的环境中的一个或多个包裹的位置和取向。

车辆引导在本文中将被描述为使用计算机来检测交通场景中的对象(例如，车辆和行人)并且基于检测到的对象来确定操作车辆的车辆路径的非限制性示例。交通场景是交通基础设施系统或车辆周围的环境，其可以包括道路的一部分以及包括车辆和行人等的对象。例如，车辆或交通基础设施系统中的计算装置可以被编程为从包括在车辆或交通基础设施系统中的一个或多个传感器获取一个或多个图像，检测图像中的对象，并且传送标识对象以及对象的位置的标签。

传感器可以包括获取对应于可见或红外波长的光的图像的视频或静态图像相机。传感器可以包括在车辆中或可以是固定的，并且可以安装在杆、建筑物或其他结构上，以给予传感器包括交通场景中的对象的交通场景的视野。传感器还可以包括通常发射红外波长的光的激光雷达传感器、发射无线电波的雷达传感器以及发射声波的超声波传感器。激光雷达传感器、雷达传感器和超声波传感器都测量到环境中的点的距离。在一些示例中，包括在车辆中的传感器可以获取交通场景的一个或多个图像并处理所述图像以确定所述图像中包括的对象的位置。对象的位置可以允许车辆中的计算装置确定在其上操作车辆的车辆路径。在一些示例中，包括在交通基础设施系统中的固定传感器可以提供关于交通场景中的对象的数据，以例如增强由包括在车辆中的传感器获取的数据。

有利地，本文描述的技术可以提高车辆中的计算装置使用单目RGB相机预测车辆周围环境中的对象的未来位置的能力。单目相机包括具有单个光轴的单个镜头组件，所述单个镜头组件在单个传感器或传感器组件上形成图像。RGB相机是获取包括单独的红色像素、绿色像素和蓝色像素的彩色图像数据的相机。可以使用深度神经网络(DNN)处理由单目RGB相机获取的图像，以根据单目RGB图像数据确定三维(3D)对象数据。例如，与立体RGB相机或激光雷达传感器相比，基于DNN处理根据单目RGB图像数据确定3D对象数据需要比较便宜的传感器和更少的计算资源来确定3D对象数据。

本文公开了一种方法，其包括将图像输入到深度神经网络以：基于高斯热图的中心来确定所述图像中与所述图像中所包括的对象相对应的点，确定对应于所述对象的对象描述符并将所述对象描述符包括在附接到所述点的对象向量中，以及确定对象参数，所述对象参数包括所述对象在全局坐标中的三维位置和所述对象的预测像素偏移。对象参数可以包括在对象向量中；并且可以基于所述点和所述对象向量来预测所述对象在所述全局坐标中的未来位置。可以通过基于所述对象的所述未来位置确定车辆路径来操作车辆。在车辆路径上操作车辆可以包括控制车辆动力传动系统、车辆转向和车辆制动器中的一者或多者。所述对象可以是移动对象。所述深度神经网络可以基于所述对象描述符在一个或多个图像数据帧中跟踪所述对象。

所述深度神经网络可以基于距相机的估计距离和与所述高斯热图的所述中心相对应的所述点来确定所述对象在所述全局坐标中的所述三维位置。可以基于所述对象在像素坐标中的横摆和所述对象在所述全局坐标中的所述三维位置来确定所述对象在所述全局坐标中的所述横摆。可以基于所述对象的所述预测像素偏移和所述对象的所述三维位置来确定所述对象在所述全局坐标中的所述未来位置。可以基于无监督学习来训练所述深度神经网络。可以基于根据一对或多对立体图像确定的地面实况来训练所述深度神经网络。可以基于对象类别预测损失函数、深度感知损失函数、三维预测损失函数、推动对象描述符损失函数和拉动对象描述符损失函数来训练所述深度神经网络。所述高斯热图可对应于所述对象的中心的位置的二维概率分布。所述对象的所述中心可基于与三维边界框的面相对应的二维边界框。所述三维边界框可由所述深度神经网络确定。

还公开了一种计算机可读介质，所述计算机可读介质存储用于执行上述方法步骤中的一些或全部的程序指令。还公开了一种计算机，所述计算机被编程用于执行上述方法步骤中的一些或全部，计算机包括计算机设备，其被编程为将图像输入到深度神经网络以：基于高斯热图的中心来确定所述图像中与所述图像中所包括的对象相对应的点，确定对应于所述对象的对象描述符并将所述对象描述符包括在附接到所述点的对象向量中，以及确定对象参数，所述对象参数包括所述对象在全局坐标中的三维位置和所述对象的预测像素偏移。对象参数可以包括在对象向量中；并且可以基于所述点和所述对象向量来预测所述对象在所述全局坐标中的未来位置。可以通过基于所述对象的所述未来位置确定车辆路径来操作车辆。在车辆路径上操作车辆可以包括控制车辆动力传动系统、车辆转向和车辆制动器中的一者或多者。所述对象可以是移动对象。

所述指令还可以包括用于指示所述深度神经网络基于所述对象描述符在一个或多个图像数据帧中跟踪所述对象的另外的指令。所述深度神经网络可以基于距相机的估计距离和与所述高斯热图的所述中心相对应的所述点来确定所述对象在所述全局坐标中的所述三维位置。可以基于所述对象在像素坐标中的横摆和所述对象在所述全局坐标中的所述三维位置来确定所述对象在所述全局坐标中的所述横摆。可以基于所述对象的所述预测像素偏移和所述对象的所述三维位置来确定所述对象在所述全局坐标中的所述未来位置。可以基于无监督学习来训练所述深度神经网络。可以基于根据一对或多对立体图像确定的地面实况来训练所述深度神经网络。可以基于对象类别预测损失函数、深度感知损失函数、三维预测损失函数、推动对象描述符损失函数和拉动对象描述符损失函数来训练所述深度神经网络。所述高斯热图可对应于所述对象的中心的位置的二维概率分布。所述对象的所述中心可基于与三维边界框的面相对应的二维边界框。所述三维边界框可由所述深度神经网络确定。

附图说明

图1是示例性交通基础设施系统的框图。

图2是交通场景的示例性图像的图示。

图3是交通场景的另一个示例性图像的图示。

图4是二维对象边界框和对象向量的示例性图像的图示。

图5是示例性对象向量的图示。

图6是示例性卷积神经网络的图示。

图7是交通场景的另一个示例性图像的图示。

图8是二维对象边界框的示例性图像的图示。

图9是使用对象向量来预测图像数据中的对象的未来位置的示例性过程的流程图。

图10是基于对象的预测未来位置来操作车辆的示例性过程的流程图。

具体实施方式

图1是可以包括交通基础设施系统105的感测系统100的图示，所述交通基础设施系统包括服务器计算机120和固定传感器122。感测系统100包括车辆110，所述车辆可在自主(“自主”本身在本公开中意指“完全自主”)模式、半自主模式和乘员驾驶(也被称为非自主)模式下操作。一个或多个车辆110的计算装置115可从传感器116接收关于车辆110的操作的数据。计算装置115可以自主模式、半自主模式或非自主模式操作车辆110。

计算装置115包括诸如已知的处理器和存储器。此外，存储器包括一种或多种形式的计算机可读介质，并且存储指令，所述指令可由处理器执行来执行包括如本文所公开的各种操作。例如，计算装置115可以包括编程以操作车辆制动、推进(例如，通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆110的加速度)、转向、气候控制、内部灯和/或外部灯等中的一者或多者，以及确定计算装置115(而不是人类操作员)是否以及何时控制此类操作。

计算装置115可以包括一个以上计算装置(例如，包括在车辆110中以用于监测和/或控制各种车辆部件的控制器等等(例如，动力传动系统控制器112、制动控制器113、转向控制器114等))，或例如经由如下文进一步所描述的车辆通信总线通信地耦合到所述一个以上计算装置。计算装置115通常被布置用于通过车辆通信网络(例如，包括车辆110中的总线，诸如控制器局域网(CAN)等)通信；另外或替代地，车辆110网络可以包括诸如已知的有线或无线通信机制，例如以太网或其他通信协议。

计算装置115可经由车辆网络向车辆中的各种装置(例如，控制器、致动器、传感器(包括传感器116)等)传输消息和/或从所述各种装置接收消息。替代地或另外，在计算装置115实际上包括多个装置的情况下，可使用车辆通信网络来用于在本公开中表示为计算装置115的装置之间的通信。此外，如下文所提及，各种控制器或感测元件(诸如传感器116)可经由车辆通信网络向计算装置115提供数据。

另外，计算装置115可被配置用于通过车辆对基础设施(V2I)接口111经由网络130与远程服务器计算机120(诸如云服务器)通信，如下所描述的，所述接口包括硬件、固件和软件，所述硬件、固件和软件准许计算装置115经由诸如无线互联网

或蜂窝网络的网络130与远程服务器计算机120通信。因此，V2I接口111可以包括被配置为利用各种有线和/或无线联网技术(例如，蜂窝、/>

以及有线和/或无线分组网络)的处理器、存储器、收发器等。计算装置115可被配置用于使用例如在邻近车辆110之间在移动自组网的基础上形成或通过基于基础设施的网络形成的车辆对车辆(V2V)网络(例如根据专用短程通信(DSRC)和/或类似的通信)通过V2I接口111与其他车辆110通信。计算装置115还包括诸如已知的非易失性存储器。计算装置115可以通过将数据存储在非易失性存储器中来记录数据，以便以后检索并经由车辆通信网络和车辆对基础设施(V2I)接口111传输到服务器计算机120或用户移动装置160。

如已经提及的，通常包括在存储在存储器中并可由计算装置115的处理器执行的指令中的是用于在没有人类操作员干预的情况下操作一个或多个车辆110部件(例如，制动、转向、推进等)的编程。使用在计算装置115中接收的数据(例如，来自传感器116的传感器数据、服务器计算机120等的数据)，计算装置115可在没有驾驶员的情况下进行各种确定和/或控制各种车辆110部件和/或操作以操作车辆110。例如，计算装置115可包括编程以调节车辆110操作行为(即，车辆110操作的物理表现)，诸如速度、加速度、减速度、转向等，以及策略性行为(即，通常以意图实现路线的有效的穿越的方式控制操作行为)，诸如车辆之间的距离和/或车辆之间的时间量、车道改变、车辆之间的最小间隙、左转跨过路径最小值、到特定位置处的到达时间以及从到达到穿过十字路口的十字路口(无信号灯)最短时间。

如本文所使用的术语控制器包括通常被编程来监测和/或控制特定车辆子系统的计算装置。示例包括动力传动系统控制器112、制动控制器113和转向控制器114。控制器可为诸如已知的电子控制单元(ECU)，可能包括如本文所描述的附加的编程。控制器可通信地连接到计算装置115并且从所述计算装置接收指令以根据指令来致动子系统。例如，制动控制器113可从计算装置115接收指令以操作车辆110的制动器。

用于车辆110的一个或多个控制器112、113、114可包括已知的电子控制单元(ECU)等，作为非限制性示例，包括一个或多个动力传动系统控制器112、一个或多个制动控制器113和一个或多个转向控制器114。控制器112、113、114中的每一个可包括相应的处理器和存储器以及一个或多个致动器。控制器112、113、114可被编程并且连接到车辆110通信总线，诸如控制器局域网(CAN)总线或局域互连网(LIN)总线，以从计算装置115接收指令并且基于指令而控制致动器。

传感器116可以包括已知的多种装置，以经由车辆通信总线提供数据。例如，固定到车辆110的前保险杠(未示出)的雷达可提供从车辆110到车辆110前方的下一车辆的距离，或者设置在车辆110中的全球定位系统(GPS)传感器可提供车辆110的地理坐标。例如，由雷达和/或其他传感器116提供的距离和/或由GPS传感器提供的地理坐标可由计算装置115用来自主或半自主地操作车辆110。

车辆110通常是能够自主和/或半自主操作并且具有三个或更多个车轮的基于地面的车辆110，例如，客车、轻型货车等。车辆110包括一个或多个传感器116、V2I接口111、计算装置115和一个或多个控制器112、113、114。传感器116可以收集与车辆110和车辆110的操作环境相关的数据。作为举例而非限制，传感器116可包括例如测高仪、相机、激光雷达、雷达、超声波传感器、红外传感器、压力传感器、加速度计、陀螺仪、温度传感器、压力传感器、霍尔传感器、光学传感器、电压传感器、电流传感器、机械传感器(诸如开关)等。传感器116可用来感测车辆110操作所处的环境，例如，传感器116可检测诸如天气状况(降雨、外部环境温度等)的现象、道路坡度、道路位置(例如，使用道路边缘、车道标记等)或目标对象(诸如邻近车辆110)的位置。传感器116还可以用于收集数据，包括与车辆110的操作相关的动态车辆110数据，诸如速度、横摆率、转向角度、发动机转速、制动压力、油压、施加到车辆110中的控制器112、113、114的功率电平、在部件之间的连接性以及车辆110的部件的准确且及时的性能。

车辆可被配备成以自主模式和乘员驾驶模式两者操作。半自主模式或完全自主模式意指车辆可由作为具有传感器和控制器的系统的一部分的计算装置部分地或完全地驾驶的操作模式。车辆可能被占用或未被占用，但是在任一种情况下，都可在没有乘员协助的情况下部分地或完全地驾驶车辆。出于本公开的目的，自主模式被定义为车辆推进(例如，经由包括内燃发动机和/或电动马达的动力传动系统)、制动和转向中的每一个由一个或多个车辆计算机控制的模式；在半自主模式中，车辆计算机控制车辆推进、制动和转向中的一个或多个。在非自主模式下，这些都不由计算机控制。

图2是交通场景202的图像200的图示。交通场景202包括道路204以及行人206、208和骑自行车的人210。行人206、208和骑自行车的人210可以统称为移动对象212。交通场景202的图像200可以由包括在车辆110中的传感器116获取。图像200可以由单目RGB相机获取。单目RGB相机可以是可以例如以高达每秒60帧的帧速率获取多个图像200作为RGB图像数据帧的摄像机。图像200也可以由包括在交通基础设施系统105中的固定传感器122获取。固定传感器122可被安装在相机支架上，相机支架可以包括交通信号杆、灯杆、专用杆或支架、建筑物、或现有结构(诸如桥梁、立交桥或标志杆)。固定传感器122可以是摄像机并且获取多个RGB彩色图像帧。由固定传感器122获取的图像200可以由包括在交通基础设施系统105中的服务器计算机120传送到车辆110中的计算装置115。

图3是交通场景302的图像300的图示。图像300包括分别围绕行人310、312和骑自行车的人314的二维(2D)边界框304、306、308。行人310、312和骑自行车的人314可以统称为移动对象322。行人310、312和骑自行车的人314的中心316、318、320分别被编码为2D图像300上的分别对应于2D边界框304、306、308的高斯热图324、326、328。高斯热图324、326、328是通过将变量编码为颜色来示出变量的量值的数据可视化技术。例如，变量的值可以被编码为对应于黑体辐射的颜色，其中增加的值被编码为从黑色到红色、橙色和黄色到白色的颜色。高斯热图324、326、328是与被编码为热图的对象的中心的位置的概率分布相对应的2D高斯函数。可以通过将图像300输入到DNN来确定2D边界框304、306、308。下面关于图6描述DNN。DNN识别图像300中的对象并构建与移动对象322相对应的三维(3D)边界框。为移动对象322选择与平行于图像平面的2D边界框304、306、308相对应的3D边界框的面，并且与高斯热图324、326、328的中心相对应的3D边界框的中心被投影到2D边界框304、306、308上以分别对应于行人310、312和骑自行车的人314的中心316、318、320。

图4是在用DNN处理之后的图像400的图示。图像400包括与来自图3中的图像300的移动对象322相对应的2D边界框402、404、406和中心416、418、420。图像400包括对关于移动对象322的数据进行编码的对象向量422、424、426。对象向量422、424、426分别位于移动对象322的中心416、418、420处，并且延伸到垂直于图像400的平面的第三维度中。

图5是对象向量500的图示。对象向量500包括对象参数502和对象描述符504。对象参数502和对象描述符504由DNN确定。对象描述符是描述图像400中的对象的每个实例的n维向量。对象参数502是关于由对象描述符504指定的对象的数据。对象参数502包括识别对象类别的k维独热向量。k维独热向量是具有k个元素的二进制向量(即，仅包括具有0或1的值的元素)，其中仅一个元素等于“1”并且其余元素等于“0”。例如，“1”元素的位置对应于对象的类别，诸如“行人”、“骑自行车的人”或“车辆”。

对象参数502还包括由对象向量500描述的从相机镜头到移动对象314的估计距离、对象的长度、对象的宽度和对象的高度。对象参数还包括cos(θ)和sin(θ)，其中θ是对象的局部横摆。局部横摆是对象相对于平面高斯热图的角度和对象距相机镜头的距离。可以通过将确定的对象类别标签与以像素为单位的对象的确定的2D横摆和距对象的距离组合来确定对象的3D边界框。可以在训练时确定对象类别的3D边界框库并将其包括在DNN中。例如，行人、自行车和车辆可以具有3D边界框，所述3D边界框可以基于所确定的距离和像素横摆来调整大小和旋转。基于重新调整大小和旋转的3D边界框，可以确定以像素坐标表示的3D中心。可以通过将3D边界框的3D中心投影到图像平面上来确定热图中心的2D坐标。可以如等式(1)和(2)所示计算热图在全局坐标x_3d,y_3d中的3D中心，其中x_2d和y_2d是热图中心的2D坐标，z是以米为单位的对象距相机的估计距离，f_x和f_y分别是相机镜头在x和y方向上的x和y焦距。

对象在单目RGB图像300中的外观仅取决于对象的局部取向，即对象的2D横摆。基于单目RGB图像的3D对象检测可以包括使局部横摆而不是全局横摆回归的DNN。回归局部横摆使DNN能够更好地确定对象取向。在这种背景下，回归是指由DNN对输入数据执行以获得输出数据的处理。然后，获得全局横摆需要使用等式(4)来计算射线角，然后可以使用所述射线角来计算对象全局横摆。

横摆_全局＝横摆_局部+射线_角度 (4)

DNN还可以预测对象的未来位置。因为模型输入以像素坐标表示，所以它通常需要较少的计算并且为DNN提供更准确的结果以预测也以像素坐标表示的对象像素偏移X_{px_偏移}和Y_{px_偏移}。为了获得对象的完整的真实世界姿态，可以预测对象与相机中心的距离偏移Z_偏移。为简单起见，假设对象在像素坐标和真实世界坐标中具有相同的横摆。替代地，可以预测横摆偏移，横摆_偏移，像素坐标横摆与真实世界坐标横摆之间的差值。给定当前对象2D中心416、418、420和下一帧偏移，可以确定对象在现实世界中的未来姿态。

对象向量500还包括对象描述符。对象描述符是定义特定对象的n维向量，并且可以用于通过在n维流形中找到最接近的匹配来通过图像数据帧跟踪对象。n维流形是n维空间中的n维表面，其包括被匹配的n维向量。可以使用无监督学习通过在帧中将对应于同一对象的描述符拉在一起同时将每个其他对象的描述符推开来训练DNN，以确定当前图像300中的对象描述符与先前图像中的对象描述符之间的最接近匹配。

将匹配的描述符拉在一起是指训练DNN以在重复输入类似的对象时生成类似的描述符。推开不匹配的描述符是指训练DNN以在输入不同的对象时生成不同的描述符。类似的对象具有类似的外观并且在图像中的位置类似。不同的对象具有不同的外观并且位于图像中的不同位置。例如，在人行横道中行走的行人将在连续的图像数据帧中具有足够类似的外观和位置，以在训练期间将匹配的描述符拉在一起。同时在同一人行横道中的两个不同的行人在连续的图像数据帧中的外观和位置将足够不同，以在训练期间将不匹配的描述符推开。将匹配的描述符拉在一起允许在一系列图像数据帧中跟踪移动对象。可以训练DNN以使用损失函数将匹配的描述符拉在一起并将不匹配的描述符推开，如下面关于图6所述。

图6是DNN 600的框图。DNN 600输入图像602并输出与包括在输入图像602中的移动对象322相对应的一个或多个对象向量610。DNN 600可以是卷积神经网络(CNN)。CNN包括卷积层604，所述卷积层使用多个卷积核对输入图像602进行卷积并将潜在变量606输出到全连接层608。全连接层608用多个线性和/或非线性代数函数处理潜在变量606，以确定与包括在输入图像602中的移动对象322相对应的一个或多个对象向量610。

可以使用训练数据集来训练DNN 600，所述训练数据集包括多个输入图像602和与输入图像602相对应的用户确定的地面实况。地面实况包括关于训练数据集中所包括的对象的真实世界位置的数据。关于训练数据集中的对象的真实世界位置的数据可以通过任何合适的技术来确定，诸如通过获取与包括在训练数据集中的图像602相对应的立体图像对。可以通过确定对应于同一真实世界位置的图像数据点之间的立体视差来处理立体图像对。立体视差测量两个立体图像中的图像数据点的位移，并且可以与两个立体相机之间的距离组合以确定从立体相机到真实世界坐标中的点的距离。

在训练期间，可以随机地选择对应于卷积核和代数函数的参数，并且处理输入图像602以确定一个或多个对象向量610。可以将对象向量610与对应于输入图像602的地面实况进行比较，并且可以确定损失函数。损失函数被输入到卷积层604和全连接层608，以选择导致二进制对象向量610与地面实况之间的最佳对应的卷积核和代数函数的参数，从而训练第二DNN 600。可以针对对象类别预测损失、对象深度预测损失、对象尺寸损失来确定损失函数，其中对象尺寸包括宽度、高度和长度以及对象描述符推动和拉动损失。

对象类别预测损失函数测量对象向量500中的对象类别预测参数与用户确定的地面实况对象类别的接近程度。对象类别预测损失L_c可以由以下等式确定：

其中y_c是地面实况对象类别，

是对象类别预测，σ(.)是Sigmoid函数，M是对象向量610的数量，并且在一个或多个对象向量610上对类别预测损失求和。γ是用于对高斯热图进行非常高的加权的用户选择的奇数整数，因为高斯热图占据图像602的一小部分。

深度预测损失函数测量输出对象向量610中的对象深度参数与通过处理与输入图像602相对应的一对立体图像确定的地面实况对象深度的接近程度。深度预测损失L_Z可以由以下等式确定：

其中M是对象向量610的数量，并且在M上对深度预测损失函数求和。Z是地面实况深度或到对象的距离，

是应用于预测深度的Sigmoid函数，并且ε是用户选择的较小的数字以避免除以零错误。深度Z被归一化到区间[0,1]，以与Sigmoid函数的输出相当。

三维预测损失函数(每个针对一个或多个移动对象322的长度、宽度和高度)测量移动对象322的预测尺寸与移动对象322的用户确定的地面实况长度、宽度和高度的接近程度。例如，长度预测损失L_l可以由以下等式确定：

其中

并且其中

是对应于对象类别n的平均对象长度。对象宽度和对象高度预测损失函数L_w和L_h根据类似的等式来确定。

DNN 600被训练为通过确定对象描述符拉动损失函数L_拉动和图像描述符拉动损失函数L_推动来以无监督方式预测对象描述符504。可以基于比较来自右立体图像和左立体图像对

的多个对象描述符来确定对象描述符拉动损失函数和推动损失函数。对象描述符拉动损失可以由以下等式确定：

对象描述符拉动损失函数为针对相同对象的实例确定的类似对象描述符提供低损失值，即，将对象描述符“拉动”得更近。对象描述符推动损失函数可以由以下等式确定：

其中

是用户确定的较小常数，例如＝1。当针对对象的不同实例的对象描述符504将对象描述符“推动”为不同时，对象描述符推动损失函数提供低损失函数。对象描述符推动损失函数通过在维持极限/>

的同时使项/>

最大化来实现这一点，以提供数值稳定性，否则对象描述符推动损失函数可以主导损失函数并防止其他损失函数影响训练。可以通过组合对象描述符拉动损失函数L_拉动和图像描述符拉动损失函数L_推动来确定对象描述符匹配函数L_区配：

L_匹配＝L_拉动+L_推动 (11)

可以基于预测的图像域偏移X_{px_偏移}和Y_{px_偏移}与地面实况偏移的匹配程度来确定对象偏移预测损失函数。可以基于将来自在时间t获取的图像数据帧的对象位置与基于在时间t-1、t-2等获取的视频数据帧确定的对象位置数据进行比较来确定地面实况偏移。对象偏移预测损失L_偏移可以通过与上面的等式(7)和(8)中描述的三维预测损失函数类似的方式来确定。总体损失函数L_总体可以被确定为先前描述的损失函数的总和：

L_总体＝L_c+L_Z+L_l+L_w+L_h+L_匹配+L_偏移 (12)

图7是示出用如关于图6所讨论的那样训练的DNN 600处理图像700以确定与行人734、736、738和车辆740、742相对应的边界框704、706、708、710、712、高斯热图714、716、718、720、722以及标签724、726、728、730、732的结果的交通场景702的图像700的图示。行人734、736、738和车辆740、742可以统称为移动对象744。DNN 600可以以六自由度(DoF)姿态检测和跟踪移动对象744。六DoF姿态包括以相对于三个正交x、y和z轴和分别相对于x、y和z轴测量的三个旋转坐标(侧倾、俯仰和横摆)的三个全局坐标来表示的对象的位置。从DNN600输出的对象向量610还基于预测的对象偏移X_px__偏移和Y_px__偏移来预测移动对象744的未来姿态。

图8是示出除了移动对象744之外还可以如何扩展上面关于图6讨论的DNN 600以识别和定位车辆110周围的环境中的对象的交通场景802的图像800的图示。图像800包括由DNN 600检测到的行车道标记804、806、808、810和交通信号灯812、814、816。行车道标记804、806、808、810和交通信号灯812、814、816可以统称为静态对象828。图8示出了遮挡感知车道分割和实例描述符回归。遮挡感知车道分割是在存在包括行人818、820、822和车辆824、826的遮挡对象的情况下外推行车道标记804、806、808、810的位置的能力。实例描述符是类似于对象描述符504的一维向量，但是在行车道标记实例的背景下，例如，它描述对应于行车道标记线的每个像素属于哪个行车道标记实例。根据图像800，DNN 600预测行车道标记804、806、808、810的线分割，然后将对应于车道线的像素中的每一个的深度作为如上文关于图5所述的三维对象向量500的一部分进行回归。这可以以无监督的方式完成，如上面关于图6所讨论的。可以使用如上关于图6所述的推动损失函数和拉动损失函数来对与每个行车道标记804、806、808、810实例相对应的对象描述符进行回归。推动损失函数和拉动损失函数可以训练DNN 600以确定对象描述符504车道实例，其允许同一车道实例上的像素点尽可能被拉得彼此靠近并被推离不同车道实例。

其他静态对象828(诸如交通信号灯812、814、816)也被表示为点，并且它们的2D中心被编码为高斯热图。诸如距相机的距离、交通信号颜色等附加信息可以如上面关于图5所描述的那样编码在三维对象向量中。如图8所示的静态对象数据可以与图7所示的移动对象744组合以从车辆110或交通基础设施系统105的角度产生完整的交通场景702、802表示。计算装置115可以使用来自对象描述符的偏移预测来跟踪移动对象744。计算装置115或服务器计算机120可以将基于移动对象744的跟踪数据和关于静态对象828的位置数据作为输入，并且确定车辆110在避开对象并遵守交通规则的同时行进的车辆路径。

图9是关于图1至图8描述的用于确定由包括在车辆110中的传感器116或包括在交通基础设施系统105中的传感器122获取的图像数据中的移动和静态对象744、828的过程900的流程图。过程900可以由计算装置115或服务器计算机120的处理器来实施，所述处理器将来自传感器116、122的图像数据视作输入，执行命令，并且输出对应于移动和静态对象744、828的对象向量610。过程900包括可以按所示次序执行的多个框。替代地或另外，过程900可以包括更少的框，或者可以包括以不同次序执行的框。

过程900开始于框902，其中计算装置115将单目RGB图像700输入到DNN 600。可以由包括在车辆110中的相机或包括在交通基础设施系统105中的相机获取单目RGB图像200。

在框904处，DNN 600确定与投影到与图像700的图像平面相对应的2D边界框上的3D对象的中心相对应的高斯热图，如上面关于图3所讨论的。

在框906处，DNN 600确定与包括在图像700中的静态和移动对象744、828相对应的对象向量500，如上面关于图4和图5所讨论的。

在框908处，DNN 600输出对象向量500，所述对象向量包括图像700中所包括的对象744、828的对象参数502和对象描述符504，如上面关于图6所述。

在框910处，对象向量500用于预测包括在图像700中的移动对象744的未来位置，如上面关于图6所讨论的。在框910之后，过程900结束。

图10是关于图1至图9描述的用于基于上面在图9中的过程900中描述的由DNN 600确定的移动对象744的未来位置来操作车辆110的过程的流程图的图示。过程1000可以由计算装置115的处理器实施，将来自传感器116的数据作为输入，并且执行命令，并且操作车辆110。过程1000包括可以按所示次序执行的多个框。过程1000可以替代地或另外包括更少的框，或者可以包括以不同次序执行的框。

过程1000开始于框1002，其中车辆110中的计算装置115下载与例如由包括在车辆110中的相机获取的图像700中所包括的移动对象744相对应的未来位置。

在框1004处，计算装置115基于与图像700中所包括的移动对象744相对应的未来位置来确定车辆路径。车辆路径是多项式函数，其包括当车辆沿着车辆路径行进时要施加到车辆运动的最大和最小横向加速度和纵向加速度。因为静态和移动对象744、828是由单个DNN 600使用单目RGB图像700确定的，所以可以使用比采用立体图像对或激光雷达或雷达测距成像时将需要的更便宜的传感器和更少的计算资源来更快地确定车辆路径。

在框1006处，计算装置115向控制器112、113、114输出命令以控制车辆动力传动系统、车辆转向和车辆制动器以控制车辆运动以沿着在框1004处确定的车辆路径操作车辆110。在框1006之后，过程1000结束。

诸如本文讨论的那些的计算装置通常各自包括命令，所述命令可由诸如上文所识别的那些的一个或多个计算装置执行并且用于实施上文描述的过程的框或步骤。例如，上文论述的过程框可体现为计算机可执行命令。

计算机可执行命令可由使用各种编程语言和/或技术创建的计算机程序来编译或解译，所述编程语言和/或技术包括但不限于以下的单一形式或组合形式：Java^TM、C、C++、Python、Julia、SCALA、Visual Basic、Java Script、Perl、HTML等。通常，处理器(例如，微处理器)接收例如来自存储器、计算机可读介质等的命令，并且执行这些命令，从而执行包括本文所描述的过程中的一者或多者的一个或多个过程。此类命令和其他数据可存储在文件中并且使用多种计算机可读介质来传输。计算装置中的文件通常是存储在诸如存储介质、随机存取存储器等计算机可读介质上的数据的集合。

计算机可读介质(也称为处理器可读介质)包括参与提供可由计算机(例如，由计算机的处理器)读取的数据(例如，指令)的任何非暂时性(例如，有形)介质。此类介质可采用许多形式，包括但不限于非易失性介质和易失性介质。指令可通过一种或多种传输介质来传输，所述一种或多种传输介质包括光纤、线、无线通信，包括构成耦合到计算机的处理器的系统总线的内部件。常见形式的计算机可读介质包括例如RAM、PROM、EPROM、FLASH-EEPROM、任何其他存储器芯片或盒式磁带、或计算机可从中读取的任何其他介质。

除非本文作出相反的明确指示，否则权利要求中使用的所有术语意在给出如本领域技术人员所理解的普通和通常的含义。具体地，除非权利要求叙述相反的明确限制，否则使用诸如“一个”、“该”、“所述”等单数冠词应被解读为叙述所指示的要素中的一者或多者。

术语“示例性”在本文中以表示示例的意义使用，例如，对“示例性小部件”的引用应被解读为仅指代小部件的示例。

修饰值或结果的副词“大约”意味着形状、结构、测量值、值、确定、计算等可能因材料、机加工、制造、传感器测量、计算、处理时间、通信时间等的缺陷而与确切描述的几何结构、距离、测量值、值、确定、计算等有偏差。

在附图中，相同的附图标记指示相同的元素。此外，可改变这些要素中的一些或全部。相对于本文描述的介质、过程、系统、方法等，应理解，尽管此类过程等的步骤或框已被描述为根据特定的有序顺序发生，但是此类过程可通过以本文描述的次序以外的次序执行所描述的步骤来实践。还应理解，可同时执行某些步骤，可添加其他步骤，或者可省略本文描述的某些步骤。换句话说，本文对过程的描述是出于说明某些实施例的目的而提供的，并且决不应解释为限制所要求保护的发明。

根据本发明，提供了一种计算机，所述计算机具有：处理器；和存储器，所述存储器包括可由处理器执行以进行以下操作的指令：将图像输入到深度神经网络以：基于高斯热图的中心来确定所述图像中与所述图像中所包括的对象相对应的点；确定对应于所述对象的对象描述符并将所述对象描述符包括在附接到所述点的对象向量中；确定对象参数，所述对象参数包括所述对象在全局坐标中的三维位置和所述对象的预测像素偏移；将所述对象参数包括在所述对象向量中；以及基于所述点和所述对象向量来预测所述对象在所述全局坐标中的未来位置。

根据一个实施例，所述指令包括用于通过基于所述对象的未来位置确定车辆路径来操作所述车辆的另外的指令。

根据一个实施例，在车辆路径上操作车辆包括控制车辆动力传动系统、车辆转向和车辆制动器中的一者或多者。

根据一个实施例，所述对象是移动对象。

根据一个实施例，所述深度神经网络基于所述对象描述符在一个或多个图像数据帧中跟踪所述对象。

根据一个实施例，所述深度神经网络基于距相机的估计距离和与所述高斯热图的所述中心相对应的所述点来确定所述对象在所述全局坐标中的所述三维位置。

根据一个实施例，基于所述对象在像素坐标中的横摆和所述对象在所述全局坐标中的所述三维位置来确定所述对象在所述全局坐标中的所述横摆。

根据一个实施例，基于所述对象的所述预测像素偏移和所述对象的所述三维位置来确定所述对象在所述全局坐标中的所述未来位置。

根据一个实施例，基于无监督学习来训练所述深度神经网络。

根据一个实施例，基于根据一对或多对立体图像确定的地面实况来训练所述深度神经网络。

根据一个实施例，基于对象类别预测损失函数、深度感知损失函数、三维预测损失函数、推动对象描述符损失函数和拉动对象描述符损失函数来训练所述深度神经网络。

根据本发明，一种方法包括：将图像输入到深度神经网络以：基于高斯热图的中心来确定所述图像中与所述图像中所包括的对象相对应的点；确定对应于所述对象的对象描述符并将所述对象描述符包括在附接到所述点的对象向量中；确定对象参数，所述对象参数包括所述对象在全局坐标中的三维位置和所述对象的预测像素偏移；将所述对象参数包括在所述对象向量中；以及基于所述点和所述对象向量来预测所述对象在所述全局坐标中的未来位置。

在本发明的一个方面，所述方法包括通过基于所述对象的所述未来位置确定车辆路径来操作车辆。

在本发明的一个方面，在所述车辆路径上操作所述车辆包括控制车辆动力传动系统、车辆转向和车辆制动器中的一者或多者。

在本发明的一个方面，其中所述对象是移动对象。

在本发明的一个方面，所述深度神经网络基于所述对象描述符在一个或多个图像数据帧中跟踪所述对象。

在本发明的一个方面，所述深度神经网络基于距相机的估计距离和与所述高斯热图的所述中心相对应的所述点来确定所述对象在所述全局坐标中的所述三维位置。

在本发明的一个方面，基于所述对象在像素坐标中的横摆和所述对象在所述全局坐标中的所述三维位置来确定所述对象在所述全局坐标中的所述横摆。

在本发明的一个方面，基于所述对象的所述预测像素偏移和所述对象的所述三维位置来确定所述对象在所述全局坐标中的所述未来位置。

在本发明的一个方面，基于无监督学习来训练所述深度神经网络。

Claims

1.一种方法，其包括：

将图像输入到深度神经网络以：

基于高斯热图的中心来确定所述图像中与所述图像中所包括的对象相对应的点；

确定对应于所述对象的对象描述符并将所述对象描述符包括在附接到所述点的对象向量中；

确定对象参数，所述对象参数包括所述对象在全局坐标中的三维位置和所述对象的预测像素偏移；

将所述对象参数包括在所述对象向量中；以及

基于所述点和所述对象向量来预测所述对象在所述全局坐标中的未来位置。

2.如权利要求1所述的方法，其还包括通过基于所述对象的所述未来位置确定车辆路径来操作车辆。

3.如权利要求2所述的方法，其中在所述车辆路径上操作所述车辆包括控制车辆动力传动系统、车辆转向和车辆制动器中的一者或多者。

4.如权利要求1所述的方法，其中所述对象是移动对象。

5.如权利要求1所述的方法，其中所述深度神经网络基于所述对象描述符在一个或多个图像数据帧中跟踪所述对象。

6.如权利要求1所述的方法，其中所述深度神经网络基于距相机的估计距离和与所述高斯热图的所述中心相对应的所述点来确定所述对象在所述全局坐标中的所述三维位置。

7.如权利要求6所述的方法，其中基于所述对象在像素坐标中的横摆和所述对象在所述全局坐标中的所述三维位置来确定所述对象在所述全局坐标中的所述横摆。

8.如权利要求7所述的方法，其中基于所述对象的所述预测像素偏移和所述对象的所述三维位置来确定所述对象在所述全局坐标中的所述未来位置。

9.如权利要求1所述的方法，其中基于无监督学习来训练所述深度神经网络。

10.如权利要求1所述的方法，其中基于根据一对或多对立体图像确定的地面实况来训练所述深度神经网络。

11.如权利要求1所述的方法，其中基于对象类别预测损失函数、深度感知损失函数、三维预测损失函数、推动对象描述符损失函数和拉动对象描述符损失函数来训练所述深度神经网络。

12.如权利要求1所述的方法，其中所述高斯热图对应于所述对象的中心的位置的二维概率分布。

13.如权利要求1所述的方法，其中所述对象的所述中心基于与三维边界框的面相对应的二维边界框。

14.如权利要求13所述的方法，其中所述三维边界框由所述深度神经网络确定。

15.一种系统，其包括被编程为执行如权利要求1至14中任一项所述的方法的计算机。