CN115640832A

CN115640832A - 对象姿态估计

Info

Publication number: CN115640832A
Application number: CN202210846975.0A
Authority: CN
Inventors: S·什里瓦斯塔瓦; 高拉夫·潘迪; 普纳杰·查克拉瓦蒂
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2021-07-20
Filing date: 2022-07-06
Publication date: 2023-01-24
Also published as: DE102022117019A1; US20230025152A1; US12008787B2

Abstract

本公开提供“对象姿态估计”。可将对象的深度图像输入到深度神经网络以确定所述对象的第一四自由度姿态。可将所述第一四自由度姿态和所述对象的三维模型输入到轮廓渲染程序以确定所述对象的第一二维轮廓。可基于对所述深度图像进行阈值化来确定所述对象的第二二维轮廓。可基于将所述对象的所述第一二维轮廓与所述对象的所述第二二维轮廓进行比较来确定损失函数。可基于所述损失函数来优化深度神经网络参数，并且可输出所述深度神经网络。

Description

对象姿态估计

技术领域

本公开涉及车辆中的深度神经网络。

背景技术

深度神经网络可被训练来执行各种计算任务。例如，可以训练神经网络以从图像中提取数据。计算装置可以使用由深度神经网络从图像中提取的数据来操作系统，所述系统包括车辆、机器人、安全性、产品制造和产品跟踪。图像可以由包括在系统中的传感器获取并使用深度神经网络进行处理以确定关于系统周围环境中的对象的数据。系统的操作可以依赖于获取关于系统环境中的对象的准确且及时的数据。

发明内容

可使用系统的训练数据集来训练深度神经网络(DNN)以确定由传感器获取的图像数据中的对象，所述系统包括车辆引导、机器人操作、安全性、制造和产品跟踪。车辆引导可包括车辆在自主或半自主模式下的操作。机器人引导可包括引导机器人末端执行器(例如夹持器)来拾取零件并对零件进行取向以进行组装。安全性系统包括其中计算机从观察安全区域的相机获取视频数据以向授权用户提供访问权限并检测未授权进入的特征。例如，安全性系统还可向授权用户提供对计算装置或蜂窝电话的访问权限。例如，在制造系统中，计算机中的DNN可通过确定人的手在特定时间相对于机器操作循环的位置来检测机器在制造操作中的不期望操作。例如，在产品跟踪系统中，深度神经网络可检测到人从搁架移除对象并将其放入购物车中，并且自动向人收取对象的费用。例如，其他产品跟踪系统包括用于运输的包裹分拣。

本文中将车辆引导描述为使用DNN来检测对象(例如车辆)的非限制性示例。例如，交通基础设施中的计算装置可以被编程为使用DNN获取数据中关于其环境检测对象的数据。所述数据可包括从静物相机或摄像机获取的图像数据和从包括激光雷达传感器的距离传感器(range sensor)获取的距离数据(range data)。可以训练DNN以标记和定位图像数据或距离数据中的对象。包括在交通基础设施系统中的计算装置可以使用检测到的对象的身份和位置来确定以自主或半自主模式操作车辆的车辆路径。车辆可以基于车辆路径通过确定命令来指示车辆的动力传动系统、制动和转向部件操作车辆以沿着所述路径行驶而操作。

可能需要大量带注释的视觉或距离图像(range image)来训练DNN以检测用于车辆引导的对象。带注释的视觉或距离图像是包括关于包括在视觉或距离图像中的对象的身份和位置的数据的图像。注释视觉或距离图像可能需要许多小时的用户输入和许多小时的计算机时间。例如，一些训练数据集包括数百万个图像，并且可能需要数百万小时的用户输入和计算机时间。本文讨论的技术通过获取配准的视觉和距离图像数据并使用距离图像数据来提供用于训练DNN的地面实况来改进DNN的训练以识别和定位对象。配准的视觉和距离数据(在本文中称为RGB-D(红、绿、蓝、距离)图像数据)是其中RGB或视觉图像和D或距离图像中的对应像素从外部环境中的同一点获取数据的图像数据。RGB-D相机的两个非限制性商业示例是Orbbec的Astra S 3D相机和Intel的Realsense D435；存在其他示例。距离图像数据提供地面实况数据以训练DNN，而无需注释视觉或距离图像数据，从而减少产生用于训练DNN的训练数据集所需的时间和计算机资源。地面实况是指从独立于DNN的源获取的可用于确定从DNN输出的结果的正确性的数据。

本文公开了一种方法，所述方法包括：将对象的深度图像输入到深度神经网络以确定所述对象的第一四自由度姿态，将所述第一四自由度姿态和所述对象的三维模型输入到轮廓渲染程序以确定所述对象的第一二维轮廓，以及对所述深度图像进行阈值化以确定所述对象的第二二维轮廓。基于将所述对象的所述第一二维轮廓与所述对象的所述第二二维轮廓进行比较来确定损失函数，基于所述损失函数来优化深度神经网络参数，以及输出所述深度神经网络。可基于x、y和z坐标以及x、y平面中的角度来确定所述第一四自由度姿态。可基于所述第一四自由度姿态来确定平移矩阵和旋转矩阵。所述平移矩阵和所述旋转矩阵可允许相对于所述第一四自由度姿态的微分。可通过确定所述对象的所述第一二维轮廓与所述对象的所述第二二维轮廓之间的距离来确定所述损失函数。所述距离可以是L1距离、倒角距离和质心距离中的一者或多者。

可通过将所述损失函数反向传播通过所述深度神经网络而基于所述损失函数优化深度神经网络参数。所述深度神经网络可为包括卷积层和全连接层的卷积神经网络。可基于计算机辅助设计数据或激光雷达扫描中的一者或多者来确定所述对象的所述三维模型。可基于应用于所述对象的红、绿、蓝图像和基准标记来确定所述对象的第二四自由度姿态。可基于将所述对象的所述第二四自由度姿态与所述对象的所述第一四自由度姿态进行比较来确定第二损失函数。可基于确定车辆的一个或多个四自由度姿态来确定车辆路径。可通过控制车辆动力传动系统、车辆制动器和车辆转向中的一者或多者来在车辆路径上操作车辆。所述微分可确定在哪个方向上改变后续处理过程的权重。

还公开了一种计算机可读介质，所述计算机可读介质存储用于执行上述方法步骤中的一些或全部的程序指令。还公开了一种被编程用于执行上述方法步骤中的一些或全部的计算机，所述计算机包括计算机设备，所述计算机设备被编程为：将对象的深度图像输入到深度神经网络以确定所述对象的第一四自由度姿态，将所述第一四自由度姿态和所述对象的三维模型输入到轮廓渲染程序以确定所述对象的第一二维轮廓，以及对所述深度图像进行阈值化以确定所述对象的第二二维轮廓。基于将所述对象的所述第一二维轮廓与所述对象的所述第二二维轮廓进行比较来确定损失函数，基于所述损失函数来优化深度神经网络参数，以及输出所述深度神经网络。可基于x、y和z坐标以及x、y平面中的角度来确定所述第一四自由度姿态。可基于所述第一四自由度姿态来确定平移矩阵和旋转矩阵。所述平移矩阵和所述旋转矩阵可允许相对于所述第一四自由度姿态的微分。可通过确定所述对象的所述第一二维轮廓与所述对象的所述第二二维轮廓之间的距离来确定所述损失函数。所述距离可以是L1距离、倒角距离和质心距离中的一者或多者。

所述指令可包括用于通过将所述损失函数反向传播通过所述深度神经网络而基于所述损失函数优化深度神经网络参数的另外的指令。所述深度神经网络可为包括卷积层和全连接层的卷积神经网络。可基于计算机辅助设计数据或激光雷达扫描中的一者或多者来确定所述对象的所述三维模型。可基于应用于所述对象的红、绿、蓝图像和基准标记来确定所述对象的第二四自由度姿态。可基于将所述对象的所述第二四自由度姿态与所述对象的所述第一四自由度姿态进行比较来确定第二损失函数。可基于确定车辆的一个或多个四自由度姿态来确定车辆路径。可通过控制车辆动力传动系统、车辆制动器和车辆转向中的一者或多者来在车辆路径上操作车辆。所述微分可确定在哪个方向上改变后续处理过程的权重。

附图说明

图1是示例性深度神经网络系统的框图。

图2是示例性深度神经网络的图示。

图3是示例性停车场的图示。

图4是车辆的三个示例性图像的图示。

图5是车辆的示例性三维模型的图示。

图6是车辆的示例性计算机辅助设计模型的图示。

图7是示例性自监督训练系统的图示。

图8是用于训练深度神经网络的示例性过程的流程图。

具体实施方式

图1是可以包括交通基础设施系统105的对象检测系统100的图示，所述交通基础设施系统包括服务器计算机120和传感器122。对象检测系统包括车辆110，所述车辆可在自主(“自主”本身在本公开中意指“完全自主”)模式、半自主模式和乘员驾驶(也被称为非自主)模式下操作。一个或多个车辆110的计算装置115可从传感器116接收关于车辆110的操作的数据。计算装置115可以自主模式、半自主模式或非自主模式操作车辆110。

计算装置115包括诸如已知的处理器和存储器。另外，存储器包括一种或多种形式的计算机可读介质，并且存储指令，所述指令可由处理器执行来执行包括如本文所公开的各种操作。例如，计算装置115可包括编程以操作车辆制动器、推进(例如，通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆110的加速度)、转向、气候控制、内部灯和/或外部灯等中的一者或多者，并且确定计算装置115(而不是人类操作员)是否以及何时控制此类操作。

计算装置115可以包括多于一个计算装置(例如，包括在车辆110中以用于监测和/或控制各种车辆部件的控制器等等(例如，动力传动系统控制器112、制动控制器113、转向控制器114等))，或例如经由如下文进一步所描述的车辆通信总线通信地耦合到所述多于一个计算装置。计算装置115通常被布置用于通过车辆通信网络(例如，包括车辆110中的总线，诸如控制器局域网(CAN)等)通信；另外地或可选地，车辆110网络可以包括诸如已知的有线或无线通信机制，例如以太网或其他通信协议。

计算装置115可经由车辆网络向车辆中的各种装置(例如，控制器、致动器、传感器(包括传感器116)等)传输消息和/或从所述各种装置接收消息。替代地或另外地，在计算装置115实际上包括多个装置的情况下，车辆通信网络可用于在本公开中表示为计算装置115的装置之间的通信。另外，如下文所提及，各种控制器或感测元件(诸如传感器116)可经由车辆通信网络向计算装置115提供数据。

另外，计算装置115可被配置用于通过车辆对基础设施(V对I)接口111经由网络130与远程服务器计算机120(诸如云服务器)通信，如下所描述的，所述接口包括硬件、固件和软件，所述硬件、固件和软件准许计算装置115经由诸如无线互联网

或蜂窝网络的网络130与远程服务器计算机120通信。因此，V对I接口111可包括被配置为利用各种有线和/或无线联网技术(例如，蜂窝、

和有线和/或无线分组网络)的处理器、存储器、收发器等。计算装置115可被配置用于使用例如在邻近车辆110之间在移动自组网的基础上形成或通过基于基础设施的网络形成的车辆对车辆(V对V)网络(例如根据专用短程通信(DSRC)和/或类似的通信)通过V对I接口111与其他车辆110通信。计算装置115还包括诸如已知的非易失性存储器。计算装置115可以通过将数据存储在非易失性存储器中来记录数据，以便以后检索并经由车辆通信网络和车辆对基础设施(V对I)接口111传输到服务器计算机120或用户移动装置160。

如已经提及的，通常包括在存储在存储器中并可由计算装置115的处理器执行的指令中的是用于在没有人类操作员干预的情况下操作一个或多个车辆110部件(例如，制动、转向、推进等)的编程。使用在计算装置115中接收的数据(例如，来自传感器116的传感器数据、服务器计算机120等的数据)，计算装置115可在没有驾驶员的情况下进行各种确定和/或控制各种车辆110部件和/或操作以操作车辆110。例如，计算装置115可包括编程以调节车辆110操作行为(即，车辆110操作的物理表现)，诸如速度、加速度、减速度、转向等，以及策略性行为(即，通常以意图实现路线的安全而有效的穿越的方式控制操作行为)，诸如车辆之间的距离和/或车辆之间的时间量、车道改变、车辆之间的最小间隙、左转跨过路径最小值、到特定位置处的到达时间以及从到达到穿过十字路口的十字路口(无信号灯)最短时间。

如本文所使用的术语控制器包括通常被编程来监测和/或控制特定车辆子系统的计算装置。示例包括动力传动系统控制器112、制动控制器113和转向控制器114。控制器可为诸如已知的电子控制单元(ECU)，可能包括如本文所描述的附加的编程。控制器可通信地连接到计算装置115并且从所述计算装置接收指令以根据指令来致动子系统。例如，制动控制器113可从计算装置115接收指令以操作车辆110的制动器。

用于车辆110的一个或多个控制器112、113、114可包括已知的电子控制单元(ECU)等，作为非限制性示例，包括一个或多个动力传动系统控制器112、一个或多个制动控制器113和一个或多个转向控制器114。控制器112、113、114中的每一者可包括相应的处理器和存储器以及一个或多个致动器。控制器112、113、114可被编程并且连接到车辆110通信总线，诸如控制器局域网(CAN)总线或局域互连网(LIN)总线，以从计算装置115接收指令并且基于指令而控制致动器。

传感器116可以包括已知的多种装置，以经由车辆通信总线提供数据。例如，固定到车辆110的前保险杠(未示出)的雷达可提供从车辆110到车辆110前方的下一车辆的距离，或者设置在车辆110中的全球定位系统(GPS)传感器可提供车辆110的地理坐标。例如，由雷达和/或其他传感器116提供的距离和/或由GPS传感器提供的地理坐标可由计算装置115用来自主或半自主地操作车辆110。

车辆110通常是能够自主和/或半自主操作并且具有三个或更多个车轮的陆基车辆110(例如，客车、轻型货车等)。车辆110包括一个或多个传感器116、V对I接口111、计算装置115和一个或多个控制器112、113、114。传感器116可以收集与车辆110和车辆110的操作环境相关的数据。作为举例而非限制，传感器116可包括例如测高仪、相机、激光雷达、雷达、超声波传感器、红外传感器、压力传感器、加速度计、陀螺仪、温度传感器、压力传感器、霍尔传感器、光学传感器、电压传感器、电流传感器、机械传感器(诸如开关)等。传感器116可用来感测车辆110操作所处的环境，例如，传感器116可检测诸如天气状况(降雨、外部环境温度等)的现象、道路坡度、道路位置(例如，使用道路边缘、车道标记等)或目标对象(诸如邻近车辆110)的位置。传感器116还可以用于收集数据，包括与车辆110的操作相关的动态车辆110数据，诸如速度、横摆率、转向角度、发动机转速、制动压力、油压、施加到车辆110中的控制器112、113、114的功率电平、在部件之间的连接性以及车辆110的部件的准确且及时的性能。

车辆可被配备成以自主模式和乘员驾驶模式两者操作。半自主模式或完全自主模式意指车辆可由作为具有传感器和控制器的系统的一部分的计算装置部分地或完全地驾驶的操作模式。车辆可能被占用或未被占用，但是在任一种情况下，都可在没有乘员协助的情况下部分地或完全地驾驶车辆。出于本公开的目的，自主模式被定义为车辆推进(例如，经由包括内燃发动机和/或电动马达的动力传动系统)、制动和转向中的每一个由一个或多个车辆计算机控制的模式；在半自主模式中，车辆计算机控制车辆推进、制动和转向中的一个或多个。在非自主模式下，这些都不由计算机控制。

图2是DNN 200的图示。DNN 200可为在包括在对象检测系统100中的计算装置115或服务器计算机120上执行的软件程序。在此示例中，DNN 200被示为卷积神经网络(CNN)。本文描述的技术也可适用于未被实现为CNN的DNN。被实现为CNN的DNN 200通常输入输入图像(IN)202作为输入数据。输入图像202由卷积层204处理以形成潜在变量206(即，DNN 200中的神经元之间传递的变量)。卷积层204包括多个层，每个层将输入图像202与卷积核进行卷积，所述卷积核变换输入图像202并使用诸如最大池化的算法来处理变换后的输入图像202，以在变换后的输入图像202由卷积层204处理时降低其分辨率。将由卷积层204输出的潜在变量206传递到全连接层208。全连接层208包括处理节点。全连接层208使用线性和非线性函数来处理潜在变量206以确定输出预测(OUT)210。在本文讨论的示例中，输出预测210包括对象标签和对象位置。DNN 200可以是在交通基础设施系统105中的服务器计算机120上执行的软件程序。服务器计算机120可以输入由具有包括在交通基础设施系统105中的RGB-D相机的传感器122获取的RGB图像。

可使用包括图像和对应的地面实况的训练数据集来训练DNN 200。DNN 200的训练数据集可包括数千或数百万个图像和对应的注释和地面实况。训练数据集的每个图像可被DNN 200处理多次。将响应于输入图像202而从DNN 200输出的预测210与和输入图像202相对应的地面实况进行比较以确定损失函数。损失函数是确定从DNN 200输出的预测210与对应于输入图像202的地面实况的紧密匹配程度的数学函数。将由损失函数确定的值输入到DNN 200的卷积层204和全连接层208，其中进行反向传播以确定对应于最小的损失函数的层的权重。反向传播是一种用于训练DNN 200(其中将损失函数输入到卷积层204和距输入最远的全连接层208并从后向前传送)并且通过选择使损失函数最小化的权重来确定每个层204、208的权重的技术。下面将关于图7讨论训练DNN 200以确定车辆的四自由度(DoF)姿态。

可以训练DNN以确定车辆的四自由度(DoF)姿态。可以通过在六DoF中确定对象的位置和取向来指定对象的三维姿态。六DoF包括相对于x、y和z正交坐标轴确定的x、y和z位置坐标以及分别围绕x、y和z轴的侧倾、俯仰和横摆旋转。在本文讨论的示例中，假设对象(车辆)由作为平行于x轴和y轴的平面的道路或其他表面(诸如停车场或停车处)支撑，并且因此假设侧倾和俯仰旋转为零。由平面表面支撑的车辆的四DoF姿态包括x、y、z和横摆的值，其中横摆是由x轴和y轴限定的平面中的角度。本文讨论的技术通过使用从由RGB-D相机获取的距离图像获取的四DoF数据来注释RGB图像数据来改进DNN的训练以确定车辆的四DoF姿态。以这种方式注释RGB图像数据可以提供大量(大于数千个)带注释的RGB图像以用于训练DNN，而无需手动注释，从而节省计算机资源和时间。

图3是停车场300的地面302的图示。停车场300是包括车辆110可以停放在其上的一个或多个地面302的结构。停车场300的地面302(即，车辆110可以在其上行驶的表面)可以由车辆110经由入口304进入，所述入口可以经由允许车辆110在地面302不在地平面上时进入所述停车场300的地面302的坡道或电梯进入。停车场300的地面302可以包括多个停车位置306，所述多个停车位置是地面302的被设计成允许车辆110暂时存放和取回的区域。停车场300可以包括具有附接到停车场300的多个RGB-D相机308的交通基础设施系统105。例如，多个RGB-D相机308可以附接到停车场300的地面302上方的天花板，这允许RGB-D相机308从上方观察在地面302上操作的车辆110。可以确定每个RGB-D相机308相对于停车场300的位置，并且因此确定由RGB-D相机308获取的图像中的车辆110的位置可以确定车辆110相对于停车场300的位置。服务器计算机120可以与RGB-D相机308通信以确定车辆110可以在其上操作以行进到停车位置306的车辆路径310。车辆路径310可以被传送到车辆110以允许车辆110自主地或半自主地操作以停放在停车位置306中并且稍后离开停车位置306并返回到入口304。

多个RGB-D相机308可以包括计算装置115，所述计算装置包括DNN软件程序，所述DNN软件程序允许RGB-D相机确定车辆110的一部分在RGB-D相机的视野中的四DoF姿态。基于车辆110的一个或多个四DoF姿态，交通基础设施系统105可以确定车辆路径310。车辆路径310可以包括多个位置，所述多个位置可以被称为“面包屑”，当例如通过多项式函数连结时，所述多个位置可以用于将车辆110操作到停车场300中的位置。例如，车辆路径310可以用于将车辆110从停车场300的地面302的入口304引导到停车位置306。当车辆110在停车场300中操作时，RGB-D相机308可以获取关于车辆110的位置的数据以确定车辆110是否正确地沿循由交通基础设施系统105确定的车辆路径310。在车辆110偏离车辆路径310的示例中，交通基础设施系统105可以向车辆110传输更新后的命令以校正车辆110的操作。除了停车场300之外，包括RGB-D相机308的交通基础设施系统105可以安装在制造设施、服务设施或充电站中以指导包括自主或半自主能力的车辆110的操作。

图4是包括来自RGB-D相机308的RGB图像402、深度图像404和二值图像406的图示。RGB图像402包括车辆408的一部分。RGB图像402包括Aruco标记410。Aruco标记410是可以使用由西班牙科尔多瓦的科尔多瓦大学的人工视觉应用研究组开发的ArUco软件库来处理并且在提交本文档起在uco.es网站可用的基准模式。可以将Aruco标记410应用于车辆408，并且一旦通过物理测量Aruco标记410确立了Aruco标记410相对于车辆408的位置，例如，使用ArUco软件库确定的RGB图像中的Aruco标记410的位置可以用于确定它们所附接到的车辆408的位置。Aruco标记410可以用作将在下面关于图7讨论的用于训练DNN 200以使用RGB-D相机定位车辆110的可选技术。

车辆412的深度图像404由RGB-D相机308的深度或距离部分的距离传感器(诸如激光雷达传感器)获取。在本文讨论的示例中，深度图像404与RGB图像402配准。这意味着对于图像402、404中的给定像素x、y位置，RGB图像402将包括位置的颜色，并且深度图像404将包括到相同位置的距离或范围。在RGB图像402和深度图像404未被配准的示例中，可以确定RGB图像402和深度图像404之间的每个像素的位置偏移，并且所述偏移用于配准RGB图像402和深度图像404。

车辆414的二值图像406是对深度图像404进行阈值化的结果。阈值化是其中选择阈值并且将具有大于或等于阈值的值的所有像素设置为“1”并且将具有小于阈值的值的所有像素设置为“0”的图像处理操作。对深度图像404进行阈值化以确定二值图像406允许确定通过对深度图像404进行阈值化形成的二值图像406与通过基于车辆的三维(3D)模型渲染深度图像而确定的二值图像中的车辆位置之间的车辆412位置的差异。本文讨论的技术可以通过将深度图像404输入到DNN来训练DNN 200以确定深度图像404中所包括的车辆412的四DoF姿态。通过确定可以用于将3D模型从输入姿态平移和旋转到与四DoF姿态相对应的姿态的平移和旋转矩阵，可以将四DoF姿态转换成用于输入到图像渲染软件程序的格式。平移在x、y平面中移动3D模型，并且旋转在选定的3D模型中心点处围绕z轴旋转3D模型。以这种方式转换四DoF姿态保留了四DoF姿态的可微分性。当使用四DoF姿态来确定用于训练DNN200的损失函数时，这很重要，如下面关于图7所讨论的。

可以将输出和转换的四DoF姿态与车辆的3D模型一起输入到图像渲染软件程序(例如，UnReal Engine，可从北卡罗来纳州卡里镇27518的Epic Games获得)，以生成包括车辆在输入的四DoF姿态下的3D渲染的经渲染的深度图像。车辆的3D模型可以基于车辆的计算机辅助设计(CAD)数据(下文关于图6讨论)，或者可以通过用激光雷达扫描仪扫描车辆来生成(下文关于图5讨论)，以生成3D模型数据。使用旋转和平移矩阵来旋转和平移3D模型数据，并且由渲染软件渲染3D模型以生成包括与四DoF姿态相对应的图像坐标处的3D模型的渲染版本的图像。可以对经渲染的深度图像进行阈值化以生成经渲染的二值图像。

可以将经渲染的二值图像与从深度图像404生成的二值图像406进行比较，以确定用于训练DNN 200的损失函数。经渲染的二值图像与从深度图像404生成的二值图像406之间的比较可以通过使用L1度量、倒角距离、质心距离或这些测度的组合确定二值图像406和经渲染的二值图像中的车辆位置的差异来确定。L1度量通过对每个图像的对应像素之间的x和y距离求和来测量两个二值图像之间的矢量距离。这有时也被称为“出租车”距离。倒角距离通过对距离进行加权来对两个二值图像中的对应像素之间的距离进行加权，例如，距离越大，权重就越大。质心距离找到对应于二值图像和经渲染的二值图像中的“1”像素的区域的中心，并测量中心之间的距离。二值图像与经渲染的二值图像之间的差异确定要通过DNN 200的层反向传播的损失函数。反向传播是一种用于将损失函数从DNN 200的最后层传输到第一层并基于在多次处理相同的输入数据同时改变权重的同时使损失函数最小化来为每个层选择权重的技术。

本文讨论的从经渲染的四DoF姿态和深度图像404确定损失函数的技术是可微分的。可微分意味着用于确定损失函数的函数相对于用于由DNN 200确定四DoF姿态的权重具有偏导数。这意味着，对于给定的损失函数，可以确定改变将减小损失函数的下一次处理过程的权重的方向。以这种方式，在多次处理过程中，可以确定使损失函数收敛到最小值的权重，从而训练DNN 200。

图5是通过例如用激光雷达扫描仪扫描真实世界车辆而生成的车辆502的3D模型500的图示。3D模型500可以被输入到图像渲染软件程序，并且根据四DoF姿态进行旋转、平移和缩放以产生车辆502的经渲染的自上而下的深度图像。可以对车辆502的经渲染的自上而下的深度图像进行阈值化以产生车辆502的经渲染的二值图像，所述经渲染的二值图像可以与基于通过RGB-D相机308获取的相同类型的车辆的深度图像404的二值图像406进行比较以形成用于训练DNN 200的损失函数。

图6是车辆602的CAD绘图600的图示。CAD绘图600是基于对应于车辆602的CAD数据的渲染。对应于车辆602的CAD数据包括构成车辆602的表面的位置、取向和纹理。可以将CAD数据输入到渲染软件程序以产生经渲染的自上而下的深度图像，所述经渲染的自上而下的深度图像可被阈值化以生成经渲染的二值图像，所述经渲染的二值图像可以与基于通过RGB-D相机308获取的相同类型的车辆的深度图像404的二值图像406进行比较以形成用于训练DNN200的损失函数。

图7是用于训练DNN 706以基于深度图像702输入来确定四D oF姿态的自监督训练系统700的图示。自监督训练系统700是在包括在交通基础设施系统105中的服务器计算机120或计算装置115上执行的软件程序。自监督训练系统700输入由深度生成传感器(例如，RGB-D相机308)获取的深度图像(DI)702。首先将深度图像702输入到大小调整程序(RS)704，所述程序将高分辨率深度图像702(例如，1K×1K像素(1000像素乘1000像素))减小到较低分辨率(例如256×256像素)。较低分辨率的深度图像被输入到DNN 706，在本文中也称为SiriusNet 706。DNN或SiriusNet 706与3D模型渲染器(3D)710一起包括在SiriusRenderNet 708中。DNN或SiriusNet 706输入低分辨率深度图像并输出估计的四DoF姿态(POSE)712作为

估计的四DoF姿态712与车辆的3D模型一起输入到3D模型渲染器710，所述车辆可以是与由RGB-D相机308成像以形成深度图像702的相同品牌和型号的车辆。3D模型渲染器710以与原始输入深度图像702相同的高分辨率生成经渲染的深度图像714。

3D模型渲染器710将经渲染的深度图像输出到第一轮廓处理器(SIL1)716，所述第一轮廓处理器对经渲染的深度图像进行阈值化以形成第一二值图像718。将输入的深度图像702传递到第二轮廓处理器(SIL2)，所述第二轮廓处理器对深度图像702进行阈值化以形成第二二值图像722。将两个二值图像718、722输入到轮廓误差(SERR)724以测量两个二值图像718、722之间的距离以根据以下等式生成二进制轮廓误差：

误差_轮廓＝f_{dmap_距离}(轮_廓经渲染，轮廓_深度) (1)

其中f_{dmap_距离}是基于L1距离、倒角距离和质心距离中的一者或多者，如上面关于图4所讨论的。轮廓误差被传递到损失函数(LOSS)726，所述损失函数生成要返回到DNN或SiriusNet 706的损失值，其中进行反向传播以通过使损失值最小化来确定权重。

除了使用深度图像702和经渲染的3D模型训练DNN或SiriusNet706之外，RGB-D相机308还可以与深度图像702同时获取车辆402的包括Aruco标记410的RGB图像的较小子集。因为这些图像需要经校准的Aruco标记410，所以它们通常需要比深度图像702更多的计算费用和时间来获取。使用Aruco标记410的优点是它们作为薄层应用于车辆并且不会干扰深度图像702。可以将包括Aruco标记410的RGB图像输入到ArUco软件库以确定RGB图像中的车辆的四DoF姿态。由ArUco软件库输出的四DoF姿态可以作为注释(ANNO)730(在本文中也称为地面实况)输入到自监督训练系统700。将注释730传递到姿态误差(POSE)728，其中将注释730与由SiriusNet706输出的四DoF姿态712进行比较。姿态误差728可以由以下等式确定：

其中(x，y，z横摆)是由ArUco软件库确定的四DoF姿态，

是由DNN或SiriusNet 706确定的四DoF姿态，并且f_{姿态_距离}是均方误差度量。姿态误差728可以在损失函数726处与轮廓误差724组合以生成组合损失值。基于姿态误差728生成的损失函数726可以用于DNN或SiriusNet 706的初始训练，以帮助使DNN或SiriusNet 706训练更快地收敛，然而，不需要姿态误差728来训练DNN或SiriusNet 706。

本文讨论的技术可以通过减少对诸如由Aruco标记410提供的带注释的地面实况图像的要求来改善DNN或SiriusNet 706的自监督训练。这允许使用由诸如RGB-D相机308的深度传感器获取的大量(高达一百万或更多)深度图像进行训练，而无需任何进一步的干预来确定四DoF姿态。唯一的要求是正在成像的车辆的3D模型可用于基于估计的姿态712生成3D模型。

图8是关于图1至图7所描述的用于基于深度图像702训练DNN 200的过程的流程图的图示。过程800可以由计算装置115或服务器计算机120的处理器实现，例如，将来自传感器的信息作为输入，并且执行命令，并且输出对象信息。过程800包括可按所示次序执行的多个框。替代地或另外，过程800可以包括更少的框，或者可以包括以不同次序执行的框。

过程800开始于框802，其中利用深度传感器获取深度图像702，所述深度传感器可以包括RGB-D相机308。例如，RGB-D相机308可以包括在交通基础设施系统105中，所述交通基础设施系统包括在诸如停车场300、制造设施、服务设施或电动车辆充电设施的结构中。将深度图像702输入到DNN或SiriusNet 706以确定至少部分地包括在深度图像702中的对象的四DoF姿态。例如，对象可以是车辆110。DNN 706可在包括在交通基础设施系统105中的服务器计算机120上执行。

在框804处，过程800通过将对象的四DoF姿态与对象的3D模型一起输入到3D渲染程序中以确定对象的经渲染的深度图像来确定第一轮廓图像。例如，3D模型可以是关于在框802处输入到DNN 706的深度图像702中包括的特定品牌和型号的车辆的CAD数据。可以基于用户确定的阈值对经渲染的深度图像进行阈值化以确定第一轮廓图像。

在框806处，过程800基于用户确定的阈值对来自框802的深度图像702进行阈值化，以确定为第二轮廓图像。

在框808处，过程800将第一轮廓图像与第二轮廓图像进行比较以确定如关于图7所讨论的损失函数。

在框810处，基于在框808处确定的损失函数来训练DNN 706。损失函数可以通过DNN 706层进行反向传播，以基于多次处理输入的深度图像并确定每个处理过程的损失函数来确定产生最小损失函数的权重。因为用于确定损失函数的步骤是可微分的，所以关于权重确定的偏导数可以指示在哪个方向上改变将减小损失函数并由此允许训练函数收敛的后续处理过程的权重，从而优化DNN 706。

在框812处，DNN 706可输出到包括在交通基础设施系统105中的服务器计算机120。DNN 706可以输入深度图像702并输出在诸如停车场300的结构中操作的车辆110的四DoF姿态712。服务器计算机120可以处理四DoF姿态712以确定包括在车辆路径310中的多个位置，在本文中被称为“面包屑”。例如，可以通过确定通过“面包屑”的多项式函数来基于“面包屑”确定车辆路径310。车辆路径310可由车辆110中的计算装置115用于通过控制车辆动力传动系统、车辆制动器和车辆转向中的一者或多者来操作车辆110，以致使所述车辆110沿着所述车辆路径310行进。在框812之后，过程800结束。

诸如本文讨论的那些的计算装置通常各自包括命令，所述命令可由诸如上文所识别的那些的一个或多个计算装置执行并且用于实施上文描述的过程的框或步骤。例如，上文论述的过程框可体现为计算机可执行命令。

计算机可执行命令可由使用各种编程语言和/或技术创建的计算机程序来编译或解译，所述编程语言和/或技术包括但不限于以下的单一形式或组合形式：Java^TM、C、C++、Python、Julia、SCALA、Visual Basic、Java Script、Perl、HTML等。通常，处理器(例如，微处理器)接收例如来自存储器、计算机可读介质等的命令，并且执行这些命令，从而执行包括本文所描述的过程中的一者或多者的一个或多个过程。此类命令和其他数据可存储在文件中并且使用多种计算机可读介质来传输。计算装置中的文件通常是存储在诸如存储介质、随机存取存储器等计算机可读介质上的数据的集合。

计算机可读介质(又被称为处理器可读介质)包括参与提供可以由计算机(例如，由计算机的处理器)读取的数据(例如，指令)的任何非暂时性(例如，有形)介质。此类介质可采取许多形式，包括但不限于非易失性介质和易失性介质。指令可通过一种或多种传输介质来传输，所述一种或多种传输介质包括光纤、线、无线通信，包括构成耦接到计算机的处理器的系统总线的内部件。常见形式的计算机可读介质包括例如RAM、PROM、EPROM、FLASH-EEPROM、任何其他存储器芯片或盒式磁带、或计算机可从中读取的任何其他介质。

除非本文作出相反的明确指示，否则权利要求中使用的所有术语意在给出如本领域技术人员所理解的普通和通常的含义。具体地，除非权利要求叙述相反的明确限制，否则使用诸如“一个”、“该”、“所述”等单数冠词应被解读为叙述所指示的要素中的一者或多者。

术语“示例性”在本文中以表示示例的意义使用，例如，对“示例性小部件”的引用应被解读为仅指代小部件的示例。

修饰值或结果的副词“大约”意味着形状、结构、测量值、值、确定、计算等可能因材料、机加工、制造、传感器测量、计算、处理时间、通信时间等的缺陷而与确切描述的几何结构、距离、测量值、值、确定、计算等有偏差。

在附图中，相同的附图标记指示相同的要素。另外，可改变这些要素中的一些或全部。相对于本文描述的介质、过程、系统、方法等，应理解，尽管此类过程等的步骤或框已被描述为根据特定的有序顺序发生，但是此类过程可通过以本文描述的次序以外的次序执行所描述的步骤来实践。还应理解，可同时执行某些步骤，可添加其他步骤，或者可省略本文描述的某些步骤。换句话说，本文对过程的描述是出于说明某些实施例的目的而提供的，并且决不应解释为限制所要求保护的发明。

根据本发明，提供了一种计算机，其具有：处理器；以及存储器，所述存储器包括可由所述处理器执行以进行以下操作的指令：将对象的深度图像输入到深度神经网络以确定所述对象的第一四自由度姿态；将所述第一四自由度姿态和所述对象的三维模型输入到轮廓渲染程序以确定所述对象的第一二维轮廓；对所述深度图像进行阈值化以确定所述对象的第二二维轮廓；基于将所述对象的所述第一二维轮廓与所述对象的所述第二二维轮廓进行比较来确定损失函数；基于所述损失函数优化深度神经网络参数；并且输出所述深度神经网络。

根据一个实施例，基于x、y和z坐标以及x、y平面中的角度来确定所述第一四自由度姿态。

根据一个实施例，所述指令包括用于基于所述第一四自由度姿态来确定平移矩阵和旋转矩阵的另外的指令。

根据一个实施例，所述平移矩阵和所述旋转矩阵允许相对于所述第一四自由度姿态的微分。

根据一个实施例，所述指令包括用于通过确定所述对象的所述第一二维轮廓与所述对象的所述第二二维轮廓之间的距离来确定损失函数的另外的指令。

根据一个实施例，所述距离是L1距离、倒角距离和质心距离中的一者或多者。

根据一个实施例，所述指令包括用于通过将所述损失函数反向传播通过所述深度神经网络而基于所述损失函数优化深度神经网络参数的另外的指令。

根据一个实施例，所述深度神经网络为包括卷积层和全连接层的卷积神经网络。

根据一个实施例，基于计算机辅助设计数据或激光雷达扫描中的一者或多者来确定所述对象的所述三维模型。

根据一个实施例，所述指令包括用于基于应用于所述对象的红、绿、蓝图像和基准标记来确定所述对象的第二四自由度姿态的另外的指令。

根据一个实施例，所述指令包括用于基于将所述对象的所述第二四自由度姿态与所述对象的所述第一四自由度姿态进行比较来确定第二损失函数的另外的指令。

根据一个实施例，所述指令包括用于基于确定车辆的一个或多个四自由度姿态来确定车辆路径的另外的指令。

根据一个实施例，所述指令包括用于通过控制车辆动力传动系统、车辆制动器和车辆转向中的一者或多者来在车辆路径上操作车辆的另外的指令。

根据本发明，一种方法包括：将对象的深度图像输入到深度神经网络以确定所述对象的第一四自由度姿态；将所述第一四自由度姿态和所述对象的三维模型输入到轮廓渲染程序以确定所述对象的第一二维轮廓；对所述深度图像进行阈值化以确定所述对象的第二二维轮廓；基于将所述对象的所述第一二维轮廓与所述对象的所述第二二维轮廓进行比较来确定损失函数；基于所述损失函数优化深度神经网络参数；并且输出所述深度神经网络。

在本发明的一个方面，基于x、y和z坐标以及x、y平面中的角度来确定所述第一四自由度姿态。

在本发明的一个方面，所述方法包括基于所述第一四自由度姿态来确定平移矩阵和旋转矩阵。

在本发明的一个方面，所述平移矩阵和所述旋转矩阵允许相对于所述第一四自由度姿态的微分。

在本发明的一个方面，所述方法包括通过确定所述对象的所述第一二维轮廓与所述对象的所述第二二维轮廓之间的距离来确定所述损失函数。

在本发明的一个方面，所述距离是L1距离、倒角距离和质心距离中的一者或多者。

在本发明的一个方面，所述方法包括通过将所述损失函数反向传播通过所述深度神经网络而基于所述损失函数优化深度神经网络参数。

Claims

1.一种方法，其包括：

将对象的深度图像输入到深度神经网络以确定所述对象的第一四自由度姿态；

将所述第一四自由度姿态和所述对象的三维模型输入到轮廓渲染程序以确定所述对象的第一二维轮廓；

对所述深度图像进行阈值化以确定所述对象的第二二维轮廓；

基于将所述对象的所述第一二维轮廓与所述对象的所述第二二维轮廓进行比较来确定损失函数；

基于所述损失函数来优化深度神经网络参数；以及

输出所述深度神经网络。

2.如权利要求1所述的方法，其中基于x、y和z坐标以及x、y平面中的角度来确定所述第一四自由度姿态。

3.如权利要求1所述的方法，其还包括基于所述第一四自由度姿态来确定平移矩阵和旋转矩阵。

4.如权利要求3所述的方法，其中所述平移矩阵和所述旋转矩阵允许相对于所述第一四自由度姿态的微分。

5.如权利要求1所述的方法，其还包括通过确定所述对象的所述第一二维轮廓与所述对象的所述第二二维轮廓之间的距离来确定所述损失函数。

6.如权利要求5所述的方法，其中所述距离是L1距离、倒角距离和质心距离中的一者或多者。

7.如权利要求1所述的方法，其还包括通过将所述损失函数反向传播通过所述深度神经网络而基于所述损失函数优化深度神经网络参数。

8.如权利要求1所述的方法，其中所述深度神经网络为包括卷积层和全连接层的卷积神经网络。

9.如权利要求1所述的方法，其中基于计算机辅助设计数据或激光雷达扫描中的一者或多者来确定所述对象的所述三维模型。

10.如权利要求1所述的方法，其还包括基于应用于所述对象的红、绿、蓝图像和基准标记来确定所述对象的第二四自由度姿态。

11.如权利要求10所述的方法，其还包括基于将所述对象的所述第二四自由度姿态与所述对象的所述第一四自由度姿态进行比较来确定第二损失函数。

12.如权利要求1所述的方法，其还包括基于确定车辆的一个或多个四自由度姿态来确定车辆路径。

13.如权利要求12所述的方法，其还包括通过控制车辆动力传动系统、车辆制动器和车辆转向中的一者或多者来在所述车辆路径上操作所述车辆。

14.如权利要求4所述的方法，其中所述微分确定在哪个方向上改变后续处理过程的权重。

15.一种系统，其包括被编程为执行权利要求1至14中任一项所述的方法的计算机。