CN115731524A

CN115731524A - 对象分割

Info

Publication number: CN115731524A
Application number: CN202211008350.3A
Authority: CN
Inventors: M·阿拉法; 尼基尔·纳格拉拉奥; 马科斯·保罗·杰拉尔多卡斯特罗; A·马利克
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2021-08-30
Filing date: 2022-08-22
Publication date: 2023-03-03
Also published as: DE102022121603A1

Abstract

本公开提供了“对象分割”。通过将第一传感器数据和第二传感器数据输入到深度神经网络来组合第一传感器数据和第二传感器数据。包括标记的片段的来自所组合的传感器数据的分割映射图可以基于所组合的第一传感器数据和第二传感器数据在深度神经网络中确定，其中标记的片段包括(a)与所组合的传感器数据中的对象相对应的像素，(b)包括在分割映射图中的相应标记的片段的危险概率。可以输出分割映射图和危险概率。

Description

对象分割

技术领域

本公开涉及车辆中的深度神经网络。

背景技术

深度神经网络可被训练来执行各种计算任务。例如，可以训练神经网络以从图像中提取数据。计算装置可以使用由深度神经网络从图像中提取的数据来操作系统，所述系统包括车辆、机器人、安全性、产品制造和产品跟踪。图像可以由包括在系统中的传感器获取并使用深度神经网络进行处理以确定关于系统周围环境中的对象的数据。系统的操作可以通过获取关于系统环境中的对象的准确且及时的数据而得到支持。

发明内容

可以训练深度神经网络(DNN)以确定由系统中的传感器获取的图像数据中的对象，所述系统包括车辆引导、机器人操作、安全性、制造和产品跟踪。车辆引导可以包括车辆在包括多个对象的环境中在自主或半自主模式下操作。机器人引导可以包括引导机器人末端执行器(例如夹持器)来拾取零件并对零件进行取向以在包括多个零件的环境中进行组装。安全系统包括其中计算机从观察安全区域的相机获取视频数据以向授权用户提供访问权限并检测包括多个用户的环境中的未经授权进入的特征。在制造系统中，DNN可以确定包括多个零件的环境中的一个或多个零件的位置和取向。在产品跟踪系统中，深度神经网络可以确定包括多个包裹的环境中的一个或多个包裹的位置和取向。

车辆引导在本文中将被描述为使用DNN来检测交通场景中的对象(例如，车辆和行人)并确定轨迹和与轨迹相对应的不确定性的非限制性示例。交通场景是交通基础设施系统或车辆周围的环境，其可以包括道路的一部分以及包括车辆和行人等的对象。例如，交通基础设施中的计算装置可以被编程为从包括在交通基础设施系统中的一个或多个传感器获取一个或多个图像并使用DNN来检测图像中的对象。图像可以从静态相机或摄像机获取并且可以包括从包括激光雷达传感器的距离传感器获取的距离数据。图像还可以从包括在车辆中的传感器获取。可以训练DNN以标记和定位对象并确定图像数据或距离数据中的轨迹和不确定性。包括在交通基础设施系统中的计算装置可以使用检测到的对象的轨迹和不确定性来确定以自主或半自主模式操作车辆的车辆路径。车辆可以基于车辆路径通过确定命令来指示车辆的动力传动系统、制动和转向部件操作车辆以沿着所述路径行驶而操作。

基于由深度神经网络确定的车辆路径操作的车辆可以受益于检测车辆路径上或附近的对象并确定是在车辆路径上继续、停止还是确定避开对象的新车辆路径。例如，可以安全地驶过诸如塑料袋、纸板箱或其他小的柔软对象的对象。在其他示例中，不应驶过小动物、尖锐对象或可能会受到伤害或损坏车辆的其他对象，并且车辆应停止或确定避开小动物或尖锐对象的新车辆路径。基于深度神经网络的对象检测和图像分割技术可以依赖于基于对象标签的手动分析和用户共识的训练来注释训练数据集。训练深度神经网络所需的数据集在编译方面可能是昂贵且耗时的，并且往往会受到标签模糊性和分布外问题的影响。标签模糊性是指由于多个用户在训练图像中手动标记对象而导致的意见差异。分布外问题是指某些类型的对象未包括在训练数据集中。标签模糊性和分布外问题使得难以训练深度神经网络以在真实世界中使用，在真实世界中输入数据不断变化并且包括先前未见过的对象类型。

因为真实世界包括不断变化且先前未见过的对象类型，所以训练数据集不可能是详尽的，并且经过训练的深度神经网络将遇到深度神经网络未针对其进行过训练的对象。向深度神经网络呈现深度神经网络未针对其进行过训练的数据可能会导致不可预测的结果。此外，在不利条件下被成像为图像中的少量像素的小而远的对象可能难以由深度神经网络可靠地检测到。在由多云或下雨的大气条件引起的弱光下获取的朦胧或模糊的图像(包括由水坑或冰和雪引起的反射)可能对检测对象造成困难，其中对象检测包括标记和定位图像中的对象。在其他示例中，传感器的透镜或透镜盖上的水滴、雪或冰可能会遮挡传感器视野中的小对象，并且在检测对象时造成困难。

本文讨论的技术通过训练深度神经网络以基于将诸如雷达、激光雷达和超声的传感器与图像传感器组合来执行类别不可知的对象检测来改进对车辆的视野中的对象的检测。类别不可知的对象检测是不依赖于标记检测到的对象，而仅估计大小和位置的对象检测。例如，车辆周围的环境(在本文中称为交通场景)可以包括诸如车辆、行人、道路、人行道、建筑物、植物等的对象。本文讨论的技术可以分割交通场景的图像以识别对应于对象的图像的区域，而不标记对象。另外，本文讨论的技术估计检测到的对象对应于可能受到伤害或损坏车辆的危险的概率，同时保持实时性能。本文讨论的技术通过检测高概率对应于不会被经过训练的深度神经网络标记和定位的危险的对象来改善车辆操作。

公开了一种方法，其包括：通过将第一传感器数据和第二传感器数据输入到深度神经网络来组合第一传感器数据和第二传感器数据；在深度神经网络中基于所组合的第一传感器数据和第二传感器数据来确定包括标记的片段的来自所组合的传感器数据的分割映射图，其中标记的片段包括(a)与所组合的传感器数据中的对象相对应的像素，(b)包括在分割映射图中的相应标记的片段的危险概率；以及输出分割映射图和危险概率。可以基于分割映射图和危险概率来操作车辆。可以通过控制车辆动力传动系统、车辆制动和车辆转向中的一者或多者来操作车辆。第一传感器数据可以是图像数据。图像数据可以包括以图像像素的矩形阵列布置的红色像素、绿色像素和蓝色像素。

第一传感器数据可以是雷达数据。雷达数据可以包括以雷达像素的矩形阵列布置的方位角、距离和雷达横截面。雷达数据可以包括在不同时间获取并通过补偿运动而组合的多个雷达扫描。深度神经网络可以是包括以沙漏配置布置的卷积层、最大池化层和上采样层的卷积神经网络。可以基于相机校准矩阵来组合第一传感器数据和第二传感器数据。可以基于地面实况分割映射图和地面实况危险概率来训练深度神经网络。危险概率可以分组为两个或更多个级别。所组合的传感器数据中的对象可以包括行人、车辆、道路、建筑物和树叶。可以基于分割映射图和危险概率确定车辆路径来操作车辆。

还公开了一种计算机可读介质，所述计算机可读介质存储用于执行上述方法步骤中的部分或全部的程序指令。还公开了一种计算机，所述计算机被编程为执行部分或全部上述方法步骤，所述计算机包括计算机设备，所述计算机设备被编程为：通过将第一传感器数据和第二传感器数据输入到深度神经网络来组合第一传感器数据和第二传感器数据；在深度神经网络中基于所组合的第一传感器数据和第二传感器数据来确定包括标记的片段的来自所组合的传感器数据的分割映射图，其中标记的片段包括(a)与所组合的传感器数据中的对象相对应的像素，(b)包括在分割映射图中的相应标记的片段的危险概率；并且输出分割映射图和危险概率。可以基于分割映射图和危险概率来操作车辆。可以通过控制车辆动力传动系统、车辆制动和车辆转向中的一者或多者来操作车辆。第一传感器数据可以是图像数据。图像数据可以包括以图像像素的矩形阵列布置的红色像素、绿色像素和蓝色像素。

计算机可以包括雷达数据作为第一传感器数据。雷达数据可以包括以雷达像素的矩形阵列布置的方位角、距离和雷达横截面。雷达数据可以包括在不同时间获取并通过补偿运动而组合的多个雷达扫描。深度神经网络可以是包括以沙漏配置布置的卷积层、最大池化层和上采样层的卷积神经网络。可以基于相机校准矩阵来组合第一传感器数据和第二传感器数据。可以基于地面实况分割映射图和地面实况危险概率来训练深度神经网络。危险概率可以分组为两个或更多个级别。所组合的传感器数据中的对象可以包括行人、车辆、道路、建筑物和树叶。可以基于分割映射图和危险概率确定车辆路径来操作车辆。

附图说明

图1是示例性对象检测系统的框图。

图2是交通场景的示例图像的图示。

图3是示例性对象分割系统的图示。

图4是示例性深度神经网络的图示。

图5是另一个示例性深度神经网络的图示

图6是深度神经网络中的示例性数据融合的图示。

图7是深度神经网络中的数据融合的另一个示例的图示。

图8是示例性分割的图像的图示。

图9是使用深度神经网络操作车辆的示例性过程的流程图。

具体实施方式

图1是可以包括交通基础设施系统105的对象检测系统100的图示，所述交通基础设施系统包括服务器计算机120和传感器122。对象检测系统100包括车辆110，所述车辆可在自主(“自主”本身在本公开中意指“完全自主”)模式、半自主模式和乘员驾驶(也被称为非自主)模式下操作。一个或多个车辆110的计算装置115可从传感器116接收关于车辆110的操作的数据。计算装置115可以自主模式、半自主模式或非自主模式操作车辆110。

计算装置115包括诸如已知的处理器和存储器。另外，存储器包括一种或多种形式的计算机可读介质，并且存储指令，所述指令可由处理器执行来执行包括如本文所公开的各种操作。例如，计算装置115可以包括编程以操作车辆制动、推进(例如，通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆110的加速度)、转向、气候控制、内部灯和/或外部灯等中的一者或多者，以及确定计算装置115(而不是人类操作员)是否以及何时控制此类操作。

计算装置115可以包括多于一个计算装置(例如，包括在车辆110中以用于监测和/或控制各种车辆部件的控制器等等(例如，动力传动系统控制器112、制动控制器113、转向控制器114等))，或例如经由如下文进一步所描述的车辆通信总线通信地耦合到所述多于一个计算装置。计算装置115通常被布置用于通过车辆通信网络(例如，包括车辆110中的总线，诸如控制器局域网(CAN)等)通信；另外地或可选地，车辆110网络可以包括诸如已知的有线或无线通信机制，例如以太网或其他通信协议。

计算装置115可经由车辆网络向车辆中的各种装置(例如，控制器、致动器、传感器(包括传感器116)等)传输消息和/或从所述各种装置接收消息。可替代地或另外地，在计算装置115实际上包括多个装置的情况下，可使用车辆通信网络来用于在本公开中表示为计算装置115的装置之间的通信。另外，如下文所提及，各种控制器或感测元件(诸如传感器116)可经由车辆通信网络向计算装置115提供数据。

另外，计算装置115可被配置用于通过车辆对基础设施(V2I)接口111经由网络130与远程服务器计算机120(诸如云服务器)通信，如下所描述的，所述接口包括硬件、固件和软件，所述硬件、固件和软件准许计算装置115经由诸如无线互联网(WI-

)或蜂窝网络的网络130与远程服务器计算机120通信。因此，V2I接口111可以包括被配置为利用各种有线和/或无线联网技术(例如，蜂窝、

以及有线和/或无线分组网络)的处理器、存储器、收发器等。计算装置115可被配置用于使用例如在邻近车辆110之间在移动自组网的基础上形成或通过基于基础设施的网络形成的车辆对车辆(V对V)网络(例如根据专用短程通信(DSRC)和/或类似的通信)通过V对I接口111与其他车辆110通信。计算装置115还包括诸如已知的非易失性存储器。计算装置115可以通过将数据存储在非易失性存储器中来记录数据，以便以后检索并经由车辆通信网络和车辆对基础设施(V2I)接口111传输到服务器计算机120或用户移动装置160。

如已经提及的，通常包括在存储在存储器中并可由计算装置115的处理器执行的指令中的是用于在没有人类操作员干预的情况下操作一个或多个车辆110部件(例如，制动、转向、推进等)的编程。使用在计算装置115中接收的数据(例如，来自传感器116的传感器数据、服务器计算机120等的数据)，计算装置115可在没有驾驶员的情况下进行各种确定和/或控制各种车辆110部件和/或操作以操作车辆110。例如，计算装置115可包括编程以调节车辆110操作行为(即，车辆110操作的物理表现)，诸如速度、加速度、减速度、转向等，以及策略性行为(即，通常以意图实现路线的安全而有效的穿越的方式控制操作行为)，诸如车辆之间的距离和/或车辆之间的时间量、车道改变、车辆之间的最小间隙、左转跨过路径最小值、到特定位置处的到达时间以及从到达到穿过十字路口的十字路口(无信号灯)最短时间。

如本文所使用的术语控制器包括通常被编程来监测和/或控制特定车辆子系统的计算装置。示例包括动力传动系统控制器112、制动控制器113和转向控制器114。控制器可为诸如已知的电子控制单元(ECU)，可能包括如本文所描述的附加的编程。控制器可通信地连接到计算装置115并且从所述计算装置接收指令以根据指令来致动子系统。例如，制动控制器113可从计算装置115接收指令以操作车辆110的制动器。

用于车辆110的一个或多个控制器112、113、114可包括已知的电子控制单元(ECU)等，作为非限制性示例，包括一个或多个动力传动系统控制器112、一个或多个制动控制器113和一个或多个转向控制器114。控制器112、113、114中的每一个可包括相应的处理器和存储器以及一个或多个致动器。控制器112、113、114可被编程并且连接到车辆110通信总线，诸如控制器局域网(CAN)总线或局域互连网(LIN)总线，以从计算装置115接收指令并且基于指令而控制致动器。

传感器116可以包括已知的多种装置，以经由车辆通信总线提供数据。例如，固定到车辆110的前保险杠(未示出)的雷达可提供从车辆110到车辆110前方的下一车辆的距离，或者设置在车辆110中的全球定位系统(GPS)传感器可提供车辆110的地理坐标。例如，由雷达和/或其他传感器116提供的距离和/或由GPS传感器提供的地理坐标可由计算装置115用来自主或半自主地操作车辆110。

车辆110通常是能够自主和/或半自主操作并且具有三个或更多个车轮的基于地面的车辆110(例如，客车、轻型货车等)。车辆110包括一个或多个传感器116、V2I接口111、计算装置115和一个或多个控制器112、113、114。传感器116可以收集与车辆110和车辆110的操作环境相关的数据。作为举例而非限制，传感器116可包括例如测高仪、相机、激光雷达、雷达、超声波传感器、红外传感器、压力传感器、加速度计、陀螺仪、温度传感器、压力传感器、霍尔传感器、光学传感器、电压传感器、电流传感器、机械传感器(诸如开关)等。传感器116可用来感测车辆110操作所处的环境，例如，传感器116可检测诸如天气状况(降雨、外部环境温度等)的现象、道路坡度、道路位置(例如，使用道路边缘、车道标记等)或目标对象(诸如邻近车辆110)的位置。传感器116还可以用于收集数据，包括与车辆110的操作相关的动态车辆110数据，诸如速度、横摆率、转向角度、发动机转速、制动压力、油压、施加到车辆110中的控制器112、113、114的功率电平、在部件之间的连接性以及车辆110的部件的准确且及时的性能。

车辆可被配备成以自主模式和乘员驾驶模式两者操作。半自主模式或完全自主模式意指车辆可由作为具有传感器和控制器的系统的一部分的计算装置部分地或完全地驾驶的操作模式。车辆可能被占用或未被占用，但是在任一种情况下，都可在没有乘员协助的情况下部分地或完全地驾驶车辆。出于本公开的目的，自主模式被定义为车辆推进(例如，经由包括内燃发动机和/或电动马达的动力传动系统)、制动和转向中的每一个由一个或多个车辆计算机控制的模式；在半自主模式中，车辆计算机控制车辆推进、制动和转向中的一个或多个。在非自主模式下，这些都不由计算机控制。

图2是交通场景200的图像的图示。交通场景200的图像可以由包括在交通基础设施系统105中的传感器122或包括在车辆110中的传感器116获取。交通场景200的图像包括行人202、204、206、208和道路236上的车辆214。交通场景200中还包括对象212。对象212可以是被吹过道路236的塑料袋、纸袋或一张纸等。例如，对象212是将由图像传感器成像但不会由雷达传感器检测到的对象的示例。

本文讨论的技术可以通过将图像数据和雷达数据输入到下面关于图4描述的对象分割系统400来检测对象212。对象分割系统400对图像数据和雷达数据执行传感器融合，分割融合的数据并输出对应于图像片段的分割的图像和危险概率。传感器融合是指当诸如在本文描述的对象分割系统400中实现的处理技术组合两种或更多种图像模态(即，来自两种不同类型的传感器的图像数据)，诸如视频数据的帧和雷达数据的帧，并将两种或更多种图像模态处理为一个图像时。诸如在对象分割系统中执行的图像分割意指基于图像像素的属性来确定图像数据中的邻接像素的区域。可以用于分割图像的图像像素的属性包括边缘和像素属性，诸如灰度或颜色值的相似性或图像纹理或图案的相似性。可以通过以两种或更多种模态比较图像的片段或区域中的像素值来确定危险概率。可以基于图像片段的大小和雷达横截面将低或高危险概率分配给对象。

例如，如果与对象212大小的图像片段相对应的图像片段反射光并且因此在视频数据帧中具有可见性，但是不反射雷达信号，并且因此具有低雷达横截面，则对象212可能是纸或塑料，并且在与车辆接触时不会导致不平整。不平整是与车辆的形状或外观的预期参数的变化或偏差。如果对象212大小的图像片段具有中等雷达横截面，则它可能对应于诸如小动物的生物，即，对象212可能受到伤害，但如果被车辆110接触，车辆110可能会免受损坏。如果对象212大小的图像片段具有高雷达横截面，则它可能对应于诸如金属或混凝土的固体对象，并且如果被接触，则会对应于对车辆110的可能损坏。本文讨论的技术可以将低雷达横截面对象212以及中等和高雷达横截面分类为低危险概率。

图3是基于多模态数据的对象分割系统300的图示。多模态数据是包括基于两种或更多种成像模式的图像的数据，所述成像模式包括静态相机或摄像机、雷达、激光雷达或超声。对象分割系统300可以是在包括在车辆110中的计算装置115上执行的软件程序，所述软件程序输入来自传感器116的数据。对象分割系统300还可以是在包括在交通基础设施系统105中的服务器计算机120上执行的软件程序，所述软件程序输入来自包括在交通基础设施系统105中的传感器122的数据。对象分割系统300接收来自雷达传感器的雷达数据302、来自相机或视频传感器的相机数据304以及可选地来自包括激光雷达传感器和超声传感器的传感器的其他类型的传感器数据306。雷达传感器传输电磁波(通常以微波频率)，并且接收和放大从环境中的对象反射的电磁波。发射和接收波之间的延迟可以指示从发射器到物体的距离，并且返回的信号的强度可以指示包括在对象中的材料的类型。对象反射雷达信号的能力被称为雷达横截面，并且通常是以下项的函数：包括在对象中的材料、对象的大小、对象相对于雷达波长的大小、对象中的表面相对于雷达波的角度以及雷达波相对于对象的偏振。通常，金属材料和致密材料(诸如岩石或混凝土)反射更大百分比的雷达波，有机材料反射中等量的雷达波，并且轻质材料(诸如木材、纸或玻璃纤维)对雷达波可以是透明的。

取决于传感器的类型，雷达、相机或其他数据302、304、306具有不同的空间分辨率。相机(包括静态相机和摄像机)通常以矩形阵列获取相机数据304，所述矩形阵列在覆盖传感器的视野的紧密排列的阵列中具有数十万或数百万个像素。例如，图像数据302可以是以像素的矩形阵列布置的红色像素、绿色像素和蓝色像素。例如，相机数据304可以包括灰度、红、绿、蓝(RGB)颜色或红外像素或其组合。雷达数据302通常具有比相机数据304低得多的空间分辨率，并且倾向于在不能返回足够的雷达信号以允许确定距离的位置处具有“丢失”或缺失数据。激光雷达传感器和超声传感器也具有比相机数据304更低的分辨率，并且还受到丢失的影响。

对象分割系统300包括预处理器(PRE)308，所述预处理器输入来自传感器的数据302、304、306并对准来自不同传感器的数据，使得来自不同类型的传感器的每个像素对应于环境中的相同位置。预处理器308还可以通过将像素标记为缺失数据或对来自相邻像素的数据进行插值来补偿数据丢失。预处理器308还补偿在车辆110移动通过环境时可以在不同时间获取的来自传感器的数据，以确保来自不同传感器的每个像素对应于环境中的相同位置。使用相机校准矩阵将雷达数据304投影在图像平面上，从而产生稀疏2D点云，所述稀疏2D点云包括像方位角、距离和雷达横截面的数据。预处理器308还可以通过组合来自在不同时间获取的多个雷达扫描的雷达数据302来补偿雷达数据302中的稀疏性，并且因此可以由于扫描之间的车辆110运动而具有不同的视野。预处理器308可以从包括在车辆110中的诸如GPS或基于加速度计的惯性测量单元(IMU)的传感器116获取运动数据，以确定车辆110在雷达扫描之间的运动。运动数据可以用于调整来自多个雷达扫描的雷达像素的位置，使得每个雷达像素对应于相同的真实世界位置。

相机图像可以具有三个通道(红色、绿色、蓝色)；该数据根据神经网络要求被归一化和处理。由于雷达数据本质上是稀疏的，因此可以任选地组合雷达数据的先前循环以获得信息增益，同时补偿运动。然后，神经网络的最终输入将是融合的稀疏雷达图像和RGB图像。预处理器308将来自两个或更多个传感器的对准的传感器数据310输出到DNN 312。DNN312输入来自两个或更多个传感器的对准的数据，执行传感器融合，并且输出分割的图像(SM)314和分割的图像314中的片段的危险概率(HP)316。关于图4讨论了DNN 312，并且关于图5和图6讨论了传感器融合。

图4是深度神经网络(DNN)400的图示。DNN 400可以是在计算装置115或服务器计算机120上执行的软件程序，并且可以包括在对象分割系统300中。在此示例中，DNN 400为卷积神经网络(CNN)。DNN 400可以输入图像(IN)402作为输入数据。图像402由编码阶段404、406、408、410、412和解码阶段414、416、418、420、422处理以确定输出图像(OUT)426。具有对输入数据进行下采样的编码阶段404、406、408、410、412，之后是对输入数据进行上采样的解码阶段414、416、418、420、422的DNN 400被称为沙漏配置。每个编码阶段404、406、408、410、412包括多个卷积层，之后是池化层。卷积层基于在DNN 400的训练期间确定的权重用卷积核来对输入图像402进行卷积。在卷积层之后，每个编码阶段404、406、408、410、412包括池化层。池化层通过将像素的邻域(例如2x2邻域)组合成对应于所述邻域的单个像素来降低输入数据的分辨率。池化的示例是最大池化，其中邻域被对应于邻域中的最大像素值的单个像素替换。编码阶段404、406、408、410、412中的每一者处理数据以从输入图像提取特征数据，同时降低分辨率。

在由编码阶段404、406、408、410、412进行处理之后，输入数据由解码阶段414、416、418、420、422处理。解码阶段414、416、418、420、422各自包括上采样层，之后是多个卷积层。上采样层通过复制输入像素数据以确定像素的邻域来增加输入数据的分辨率，以扭转编码阶段404、406、408、410、412中的最大池化层的影响。每个上采样层输入来自包括在编码阶段404、406、408、410、412中的池化层的池化索引424，其对应于要从解码阶段414、416、418、420、422输出的数据的分辨率。池化索引424引导上采样层，使得上采样数据对应于输入数据。在该示例中，由编码阶段404、406、408、410、412确定的特征是图像片段，并且解码阶段414、416、418、420、422将输入数据恢复到与输入图像402相同的分辨率。输入到解码阶段414、416、418、420、422的池化索引424确保由编码阶段404、406、408、410、412确定的片段被扩展以对应于包括在输入图像402中的对象边界。

最终编码阶段422包括Softmax层，所述Softmax层确定危险概率数据的Softmax函数，其中Softmax函数缩放危险数据以在区间[0,1]中发生并且由此对应于概率。Softmax函数是基于argmax函数的平滑近似。argmax函数将值“1”返回到一组值中的最大值，其中值是对应于从最后一个编码阶段412的倒数第二个层输出的危险概率数据的输出。假设值都是非负的，则将输出值除以最大值以将输出值缩放到0与1之间的间隔，这允许将值用作概率。

训练DNN 400以通过确定图像的训练数据集和对应的地面实况数据来确定图像片段。可以基于地面实况分割映射图和地面实况危险概率来训练DNN 400。地面实况数据是被处理以包括与对象和区域相对应的图像片段的图像数据，所述对象和区域对应于用DNN400处理输入图像402所期望的结果。可以通过手动处理包括在训练数据集中的图像402来确定地面实况数据。手动处理可以包括用户使用诸如Photoshop的图像处理软件来处理图像402以将图像像素分配给片段。Photoshop是购自Adobe Systems,Inc.(345Park Ave.SanJose,CA 95110)的图像处理软件程序。由对象分割系统300输出的样本分割的图像800在图8中示出。

可以通过多次处理输入图像402来训练DNN 400以分割输入图像402，每次将DNN400的输出与对应于输入图像的地面实况数据进行比较。基于DNN 400的输出与地面实况之间的差值来确定损失函数。损失函数通过解码阶段414、416、418、420、422和编码阶段404、406、408、410、412进行反向传播，并且调整卷积权重以最小化损失函数。反向传播是一种用于训练DNN 400的技术，其中将损失函数输入到解码阶段414、416、418、420、422和距输入最远的编码阶段404、406、408、410、412，并从后向前传送来为每个层选择权重。地面实况数据可以包括与输入图像402数据中的对象相对应的危险概率的估计值。DNN 400的训练可以包括确定包括在输出426数据中的片段的危险概率。

图5是DNN 500的图示，所述DNN被修改以输入图像(IM)502数据和雷达(RAD)524数据两者、执行图像502和雷达524数据的传感器融合并确定包括分割的图像和危险概率的输出(OUT)522数据。编码器阶段504、506、508、510、512包括如上面关于图4中的DNN400所讨论的卷积层和池化层。解码器阶段514、516、518、520包括如上面关于图4中的DNN 400所讨论的上采样层、卷积层和Softmax层。

DNN 500还包括池化层526、528、530，所述池化层输入雷达524数据并降低雷达524数据的分辨率，使得其可以分别在编码阶段504、506、508处与图像数据级联。组合的图像502和雷达524数据分别作为残差数据532、536、540、544从编码阶段504、506、508、510输出。残差数据532、536、540、544由瓶颈卷积层534、538、542、548处理。瓶颈卷积层534、538、542、548包括比先前层更少的处理节点，以减少数据中包括的状态的数量。减少的残差数据以对应的分辨率输出到解码阶段514、516、518、520。图6和图7包括关于将雷达524数据输入到编码阶段504、506、508、510以及将残差数据532、536、540、544输出到瓶颈卷积层534、538、542、548和解码阶段514、516、518、520的细节。

图6是示出在DNN 500的单个编码阶段600处的图像数据(IN1)602与雷达数据(RD1)610之间的数据融合的图示。瓶颈卷积层604是编码阶段600的最后一个卷积层。来自瓶颈卷积层604的输出被输出为残差数据608并输出到池化层606。雷达数据610被输入到雷达池化层612以降低雷达数据610的分辨率以匹配池化层606的输出。图像数据602和雷达数据610在组合器614处组合，所述组合器将图像数据602像素与雷达数据610像素级联。组合的图像数据602和雷达数据610是到随后的编码阶段的输出(OUT1)616，并且降低分辨率的雷达数据(RD2)618是到池化层以在随后的编码阶段506、508、510、512处进行组合(如图5所示)的输出。

图7是示出在DNN 500的单个解码器阶段700处的图像数据(IN1)702与残差数据(RES)706之间的数据融合的图示。图像数据702被输入到上采样层704，这增加了图像数据702的分辨率。残差数据706被输入到瓶颈卷积层708，这减少了残差数据706中包括的状态的数量而不降低空间分辨率。残差数据706和图像数据702由组合器710组合，所述组合器将残差数据706和图像数据702级联并将组合数据输出(OUT1)到后一解码器阶段514、516、518、520，如图5所示。

图8是来自对象分割系统300的分割图像800的图示。对象分割系统300包括分割图像800中包括的每个片段的危险概率。分割图像800包括道路802、行人804、806、808、810、车辆816、对象812和背景814的图像片段。分割图像800的对应于道路802、行人804、806、808、810、车辆816、对象812和背景814的部分在本文中统称为“片段”。片段索引800被分割但未标记。在分割的图像800中，对应于对象的邻近像素区域由数字(例如，“1”、“2”等)标识。没有试图将邻近区域标记为“行人”或“车辆”等。

虽然分割图像800不包括片段802、804、808、810、812、814、816的标签，但是分割的图像800确实包括对应于所识别区域的一部分的危险概率。例如，背景814和道路802将具有零危险概率，因此可能不包括危险概率，因为它们不会对获取数据的车辆110构成任何威胁。车辆816和行人804、806、808、810由于其雷达横截面以及在道路上或附近的存在而将具有高危险概率。可以基于大小、位置和雷达横截面将危险概率分组为两个或更多个危险概率。例如，分割的图像800中的危险概率可以被分组为对应于高危险概率或低危险概率的两个或更多个级别。例如，如果所识别片段的危险概率小于0.5，则可以为其分配低危险概率，并且如果危险概率大于0.5，则可以为其分配高危险概率。片段的危险概率可以基于位置(即，在道路中或不在道路中)、大小和雷达横截面。例如，基于对象812的位置和大小，如果对象812具有中等或高雷达横截面，则它可能被分配高危险概率。如果对象812具有低雷达横截面，则它可能被分配低危险概率。

在接收到分割的图像800和片段802、804、808、810、812、814、816的危险概率时，计算装置115或服务器计算机120可以确定车辆110的车辆路径。车辆路径是多项式函数，其可以被确定为避免与具有高危险概率的图像片段接触，同时维持车辆110的横向加速度和纵向加速度的上限和下限。计算装置115可以通过将命令传输到控制器112、113、114以控制车辆动力传动系统、车辆转向和车辆制动以使车辆110沿着车辆路径操作来操作车辆110。

图9是关于图1至图8描述的基于对象分割系统300确定图像分割和危险概率的过程的流程图的图示。过程900可以由计算装置115或服务器计算机120的处理器实现，将来自传感器的信息作为输入，并且执行命令，并且输出分割的图像和危险概率。过程900包括可按所示次序执行的多个框。替代地或另外，过程900可以包括更少的框，或者可以包括以不同次序执行的框。

过程900开始于框902，其中由包括在交通基础设施系统105或车辆110中的传感器116、122获取的图像被输入到如关于图3所描述的对象分割系统300以分割图像并基于多模态数据确定危险概率。多模态数据包括两种或更多种图像模式，包括图像数据，以及雷达、激光雷达和超声中的一者或多者。

在框904处，过程900预处理输入的两个或更多个图像模式以对准数据以确保每个图像的像素对应于现实世界中的相同位置。来自不同模式的图像可以具有不同的分辨率并且在不同的时间获取，因此需要进行处理以将一种模态的像素与另一种模态的像素对准，如上面关于图3所讨论的。

在框906处，过程900以沙漏配置将两个或更多个图像模态输入到DNN 500，所述DNN被修改以接受如上文关于图5、图6和图7所讨论的图像数据的多个模态。

在框908处，过程900将如上面关于图8所讨论的分割的图像800和危险概率输出到包括在车辆110中的计算装置115。

在框910处，车辆110中的计算装置115确定在其上操作车辆110的车辆路径。车辆路径也可以由交通基础设施系统105中的服务器计算机120确定。在接收到车辆路径后，车辆110中的计算装置115可以确定要传输到控制器112、113、114的命令以控制车辆动力传动系统、转向和制动以沿着确定的车辆路径来操作车辆110。在对象分割系统300包括在机器人控制系统中的示例中，分割和危险概率可以用于确定机器人臂的运动路径，所述运动路径避免接触包括在机器人控制系统中的传感器的视野中的对象。在对象分割系统300包括在制造系统中的示例中，分割和危险概率可以用于确定外来对象是否已经进入机器的工作空间并且可能导致部件组装出现问题。在安全系统中，例如，可以使用分割和危险概率来确定是否可以忽略传感器的视野中的对象。在框910之后，过程900结束。

诸如本文讨论的那些的计算装置通常各自包括命令，所述命令可由诸如上文所识别的那些的一个或多个计算装置执行并且用于实施上文描述的过程的框或步骤。例如，上文论述的过程框可体现为计算机可执行命令。

计算机可执行命令可由使用各种编程语言和/或技术创建的计算机程序来编译或解译，所述编程语言和/或技术包括但不限于以下的单一形式或组合形式：Java^TM、C、C++、Python、Julia、SCALA、Visual Basic、Java Script、Perl、HTML等。通常，处理器(例如，微处理器)接收例如来自存储器、计算机可读介质等的命令，并且执行这些命令，从而执行包括本文所描述的过程中的一者或多者的一个或多个过程。此类命令和其他数据可存储在文件中并且使用多种计算机可读介质来传输。计算装置中的文件通常是存储在诸如存储介质、随机存取存储器等计算机可读介质上的数据的集合。

计算机可读介质(又被称为处理器可读介质)包括参与提供可以由计算机(例如，由计算机的处理器)读取的数据(例如，指令)的任何非暂时性(例如，有形)介质。此类介质可采用许多形式，包括但不限于非易失性介质和易失性介质。指令可以由一种或多种传输介质传输，所述传输介质包括光纤、电线、无线通信，包括内部构件，所述内部构件包括耦合到计算机处理器的系统总线。常见形式的计算机可读介质包括例如RAM、PROM、EPROM、FLASH-EEPROM、任何其他存储器芯片或盒式磁带、或计算机可从中读取的任何其他介质。

除非本文作出相反的明确指示，否则权利要求中使用的所有术语意在给出如本领域技术人员所理解的普通和通常的含义。具体地，除非权利要求叙述相反的明确限制，否则使用诸如“一个”、“该”、“所述”等单数冠词应被解读为叙述所指示的要素中的一者或多者。

术语“示例性”在本文中以表示示例的意义使用，例如，对“示例性小部件”的引用应被解读为仅指代小部件的示例。

修饰值或结果的副词“大约”意味着形状、结构、测量值、值、确定、计算等可能因材料、机加工、制造、传感器测量、计算、处理时间、通信时间等的缺陷而与确切描述的几何结构、距离、测量值、值、确定、计算等有偏差。

在附图中，相同的附图标记指示相同的元素。另外，可改变这些要素中的一些或全部。相对于本文描述的介质、过程、系统、方法等，应理解，尽管此类过程等的步骤或框已被描述为根据特定的有序顺序发生，但是此类过程可通过以本文描述的次序以外的次序执行所描述的步骤来实践。还应理解，可同时执行某些步骤，可添加其他步骤，或者可省略本文描述的某些步骤。换句话说，本文对过程的描述是出于说明某些实施例的目的而提供的，并且决不应解释为限制所要求保护的发明。

根据本发明，提供了一种计算机，所述计算机具有：处理器；和存储器，所述存储器包括指令，所述指令可由处理器执行以：通过将第一传感器数据和第二传感器数据输入到深度神经网络来组合第一传感器数据和第二传感器数据；在深度神经网络中基于所组合的第一传感器数据和第二传感器数据来确定包括标记的片段的来自所组合的传感器数据的分割映射图，其中标记的片段包括(a)与所组合的传感器数据中的对象相对应的像素，(b)包括在分割映射图中的相应标记的片段的危险概率；以及输出分割映射图和危险概率。

根据实施例，所述指令还包括基于分割映射图和危险概率来操作车辆的指令。

根据实施例，所述指令还包括通过控制车辆动力传动系统、车辆制动和车辆转向中的一者或多者来操作车辆的指令。

根据实施例，所述第一传感器数据是图像数据。

根据实施例，所述图像数据包括以图像像素的矩形阵列布置的红色像素、绿色像素和蓝色像素。

根据实施例，所述第一传感器数据是雷达数据。

根据实施例，所述雷达数据包括以雷达像素的矩形阵列布置的方位角、距离和雷达横截面。

根据实施例，所述雷达数据包括在不同时间获取并通过补偿运动而组合的多个雷达扫描。

根据实施例，所述深度神经网络是包括以沙漏配置布置的卷积层、最大池化层和上采样层的卷积神经网络。

根据实施例，基于相机校准矩阵来组合第一传感器数据和第二传感器数据。

根据实施例，基于地面实况分割映射图和地面实况危险概率来训练深度神经网络。

根据实施例，危险概率分组为两个或更多个级别。

根据实施例，所组合的传感器数据中的对象包括行人、车辆、道路、建筑物和树叶。

根据本发明，一种方法包括：通过将第一传感器数据和第二传感器数据输入到深度神经网络来组合第一传感器数据和第二传感器数据；在深度神经网络中基于所组合的第一传感器数据和第二传感器数据来确定包括标记的片段的来自所组合的传感器数据的分割映射图，其中标记的片段包括(a)与所组合的传感器数据中的对象相对应的像素，(b)包括在分割映射图中的相应标记的片段的危险概率；以及输出分割映射图和危险概率。

在本发明的一个方面，所述方法包括基于分割映射图和危险概率操作车辆。

在本发明的一个方面，所述方法包括通过控制车辆动力传动系统、车辆制动和车辆转向中的一者或多者来操作车辆。

在本发明的一个方面，所述第一传感器数据是图像数据。

在本发明的一个方面，所述图像数据包括以图像像素的矩形阵列布置的红色像素、绿色像素和蓝色像素。

在本发明的一个方面，所述第一传感器数据是雷达数据。

在本发明的一个方面，所述雷达数据包括以雷达像素的矩形阵列布置的方位角、距离和雷达横截面。

Claims

1.一种方法，其包括：

通过将第一传感器数据和第二传感器数据输入到深度神经网络来组合所述第一传感器数据和所述第二传感器数据；

在所述深度神经网络中基于所组合的所述第一传感器数据和所述第二传感器数据来确定包括标记的片段的来自所述组合的传感器数据的分割映射图，其中所述标记的片段包括(a)与所述组合的传感器数据中的对象相对应的像素，(b)包括在所述分割映射图中的相应标记的片段的危险概率；以及

输出所述分割映射图和所述危险概率。

2.如权利要求1所述的方法，其还包括基于所述分割映射图和所述危险概率操作车辆。

3.如权利要求2所述的方法，其还包括通过控制车辆动力传动系统、车辆制动和车辆转向中的一者或多者来操作所述车辆。

4.如权利要求1所述的方法，其中所述第一传感器数据是图像数据。

5.如权利要求4所述的方法，其中所述图像数据包括以图像像素的矩形阵列布置的红色像素、绿色像素和蓝色像素。

6.如权利要求1所述的方法，其中所述第一传感器数据是雷达数据。

7.如权利要求6所述的方法，其中所述雷达数据包括以雷达像素的矩形阵列布置的方位角、距离和雷达横截面。

8.如权利要求6所述的方法，其中所述雷达数据包括在不同时间获取并通过补偿运动而组合的多个雷达扫描。

9.如权利要求1所述的方法，其中所述深度神经网络是包括以沙漏配置布置的卷积层、最大池化层和上采样层的卷积神经网络。

10.如权利要求1所述的方法，其中基于相机校准矩阵组合所述第一传感器数据和所述第二传感器数据。

11.如权利要求1所述的方法，其中基于地面实况分割映射图和地面实况危险概率训练所述深度神经网络。

12.如权利要求1所述的方法，其中所述危险概率分组为两个或更多个级别。

13.如权利要求1所述的方法，其中所述组合的传感器数据中的所述对象包括行人、车辆、道路、建筑物和树叶。

14.如权利要求2所述的方法，其还包括基于根据所述分割映射图和所述危险概率确定车辆路径来操作所述车辆。

15.一种系统，其包括被编程为执行权利要求1至14中任一项所述的方法的计算机。