CN110363058A

CN110363058A - 使用单触发卷积神经网络的用于避障的三维对象定位

Info

Publication number: CN110363058A
Application number: CN201910206899.5A
Authority: CN
Inventors: M.斯里瓦特萨; S.拉拉帕利; N.瓦斯米; M.S.阿希克; M.J.詹科拉; S.N.T.普里约
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-03-26
Filing date: 2019-03-19
Publication date: 2019-10-22
Anticipated expiration: 2039-03-19
Also published as: US20190291723A1; US11618438B2; CN110363058B

Abstract

接收场景的像素图像数据，其中像素图像数据包括场景中对象的二维表示。接收点云数据，该点云数据包括对应于对象的二维表示的场景内物理对象的三维点坐标。三维点坐标包括物理对象的深度信息。将点云数据映射到像素图像数据的图像平面，以形成集成的像素图像数据，其中像素图像数据的一个或多个像素具有与其集成的深度信息。基于集成的像素图像数据，使用卷积神经网络预测对象的三维边界框。

Description

使用单触发卷积神经网络的用于避障的三维对象定位

技术领域

本发明一般涉及一种用于避障的对象定位的方法、系统和计算机程序产品。更具体地，本发明涉及一种用于使用具有LIDAR/IR传感器的选择性采样的单触发卷积神经网络的用于避障的三维对象定位的方法、系统和计算机程序产品。

背景技术

三维(Three-dimensional，3D)对象定位是处理图像数据以检测、识别和/或确定包含在图像中的三维对象的尺寸的过程。3D对象定位和尺寸估计在许多不同的应用中是重要的，诸如用于自动驾驶汽车的避障、机器人导航或估计牲畜的尺寸。执行3D对象定位的传统系统通常直接在从光检测和测距(Light Detection and Ranging，LIDAR)系统或IR传感器获得的点云信息上工作，或者使用多级处理流水线(pipeline)，其中该多级处理流水线利用区域建议神经网络(region proposal neural network)来建议具有包含感兴趣对象的概率的区域，然后进行对象分类来对对象进行分类。点云信息是指一组三维坐标，通常是X、Y和Z坐标，用于表示场景中的3D对象。然而，这些传统系统受到点云信息不捕捉红-绿-蓝(red-green-blue，RGB)像素信息以及由于生成了许多区域建议而计算复杂的事实的限制。

发明内容

说明性实施例提供了一种方法、系统和计算机程序产品。方法的实施例包括接收场景的像素图像数据。在实施例中，像素图像数据包括场景中对象的二维表示。实施例进一步包括接收点云数据，该点云数据包括与对象的二维表示相对应的场景内的物理对象的三维点坐标，三维点坐标包括物理对象的深度信息。实施例进一步包括将点云数据映射到像素图像数据的图像平面，以形成集成的像素图像数据，其中像素图像数据的一个或多个像素具有与其集成的深度信息。该方法进一步包括基于集成的像素图像数据，使用卷积神经网络预测对象的三维边界框。

实施例进一步包括分割对象的三维边界框以形成分割的对象。实施例进一步包括估计分割的对象的对象尺寸。实施例进一步包括基于对象尺寸计算对象的路径信息。实施例进一步包括将路径信息发送到汽车控制系统，该路径信息指示汽车控制系统避开该对象。

实施例进一步包括将点云数据插值到图像数据的像素中的每一个，使得图像数据的每个像素具有与其集成的相关联的深度值。实施例进一步包括基于集成的像素图像数据，使用卷积神经网络预测对象的对象分类。在实施例中，从相机设备接收像素图像数据，并且从点云捕捉设备接收点云数据。

实施例进一步包括基于阈值确定需要对相机设备和点云捕捉设备中的一个或多个进行重新定向，以及计算指示相机设备和点云捕捉设备中的一个或多个重新定向到不同捕捉角度的重新定向信息。实施例进一步包括将重定向信息发送到相机设备和点云捕捉设备中的一个或多个。在实施例中，卷积神经网络是单流(single stream)卷积神经网络。

实施例包括计算机可用程序产品。计算机可用程序产品包括一个或多个计算机可读存储设备，以及存储在一个或多个存储设备中的至少一个上的程序指令。

实施例包括计算机系统。该计算机系统包括一个或多个处理器、一个或多个计算机可读存储器和一个或多个计算机可读存储设备、以及存储在一个或多个存储设备中的至少一个上的程序指令，该指令用于由一个或多个处理器中的至少一个经由一个或多个存储器中的至少一个来执行。

附图说明

在所附权利要求中阐述被认为是本发明特征的某些新颖特征。然而，当结合附图阅读时，通过参考以下说明性实施例的详细描述，将最好地理解本发明本身及其优选使用模式、进一步的目标和优点，其中：

图1描绘其中可以实现说明性实施例的数据处理系统网络的框图；

图2描绘其中可以实现说明性实施例的数据处理系统的框图；

图3描绘根据说明性实施例的示例双线性插值过程；

图4描绘根据说明性实施例的示例卷积神经网络(convolutional neuralnetwork，CNN)结构；

图5描绘根据说明性实施例的示例卷积神经网络(CNN)；

图6描绘根据说明性实施例的CNN的3D边界框输出的示例；和

图7描绘使用单触发卷积神经网络(CNN)的用于避障的三维对象定位的示例过程的流程图。

具体实施方式

这里描述的说明性实施例一般涉及使用单触发卷积神经网络的用于避障的三维对象定位。传统的对象定位系统在没有选择性子采样(subsampling)的情况下获得LIDAR数据。在一个或多个实施例中，相机捕捉场景的像素图像数据并且LIDAR子系统、IR传感器或另一合适的点云数据收集设备捕捉同一场景的点云数据。这里描述的一个或多个实施例将点云数据映射到图像平面，以形成集成的具有深度(RGBD)信息的RGB图像数据，并使用单触发卷积神经网络(CNN)处理RGBD信息，以从要被用于3D定位的RGBD图像数据中提取特征。在一个或多个实施例中，快速对象尺寸估计能够用于路径规划和避开对象。在一些实施例中，在特定相机或LIDAR角度没有完全捕捉对象的情况下，重新定位信息被计算并被发送到相机子系统和LIDAR子系统中的一个或多个，以指示特定子系统重新定位相机/LIDAR捕捉角度。

人工神经网络(Artificial Neural Network，ANN)，也简称为神经网络，是由许多简单、高度互联的处理元件(节点/过滤器)组成的计算系统，这些处理元件通过它们对外部输入的动态响应来处理信息。ANN是处理设备(算法和/或硬件)，其在哺乳动物大脑皮层的神经元结构之后但是在更小的规模上被松散地建模。一个大型ANN可能具有数百或数千个处理器单元，而哺乳动物的大脑具有数十亿个神经元，并且它们的整体交互和突现行为的幅度相应增加。前馈神经网络是一种人工神经网络，其中单元之间的连接不形成循环。

在机器学习中，卷积神经网络(CNN)是一种前馈人工神经网络，其中其节点(神经元/滤波器)之间的连接模式受到动物视觉皮层的组织的启发，其中动物视觉皮层的各个神经元被布置成对平铺视野的重叠区域做出响应。卷积网络模拟生物过程，并被配置为被设计成在处理数据(诸如数字图像)时使用最少量的预处理的多层感知器的变型。

卷积神经网络(CNN)是具有执行卷积任务的重叠的“接收场(reception field)”的网络。CNN在辨识图像特征方面特别有效，诸如通过将数字图像中的像素或像素区域与数字图像中的其它像素或像素区域区分。通常，CNN被设计成辨识图像或图像的一部分，诸如检测图像上辨识的对象的边缘。计算机视觉是CNN常用的一个领域。在一个或多个实施例中，单触发CNN是一种方法，其中如这里进一步描述的，一个CNN主干线(trunk)的单次通过足以使用相机数据和点云数据(例如，LIDAR数据)来对对象进行定位以及分类。

一个或多个实施例使用具有传感器的选择性采样信息的单触发CNN捕捉RGBD信息，用于及时避障。各种实施例描述用于以下各项的过程、系统和方法：基于RGBD信道对LIDAR进行选择性采样以表示场景，使用用于3D对象定位的单触发CNN使得神经元连接的新颖实现，以及如果需要，分析3D框以重新定向LIDAR系统和相机并且将3D对象定位应用于对象尺寸估计和避障。

在一个或多个实施例中，描述一种端到端过程，以从相机子系统收集场景的RGB图像数据、使用LIDAR子系统或IR传感器选择性地采样场景的点云数据、将点云数据映射到图像平面、使用一个流(单流)CNN来融合RGB图像数据和点云数据以同时识别对象以及在其3D坐标上回归、基于聚类分割对象、估计对象的尺寸并启用汽车内的汽车控制子系统的移动以及时避开障碍物。一个或多个实施例比使用区域建议随后进行分类的现有系统更有效，使得可以经由对象的有效检测来主动避障。

在用于避障的三维对象定位的过程的实施例中，汽车的相机子系统捕捉包括x、y像素坐标的场景的RGB图像数据。在实施例中，点云捕捉子系统，诸如LIDAR设备或IR传感器，捕捉包括场景内物理3D对象的X、Y、Z物理点坐标(例如，以米为单位)的点云数据。在所有方向上统一捕捉点云信息是昂贵的，并且可能导致场景的重要空间中的数据稀疏。在实施例中，相机子系统分析以高帧速率捕捉的RGB帧以识别场景中感兴趣的区域，确定LIDAR的定向信息，并将信息传输到LIDAR以指示LIDAR子系统在RGB图像数据中找到感兴趣区域的场景位置处定向捕捉和以高频采样。

在实施例中，数据处理子系统通过将点云点转换成相机坐标并将点投影到2D图像来将点云数据映射到图像平面。在实施例中，数据处理子系统计算捕捉时来自相机的RGB图像数据和由LIDAR捕捉深度云信息时的点云数据之间的转换，以考虑两个传感器的差异以及时间和参照系。在实施例中，点云点被投影到图像平面以获得相应的像素坐标。在特定实施例中，给定点云坐标中的3D点(X，Y，Z)，对应的像素坐标(x，y)是：

x＝X/Z*fx*rd/ru+cx

y＝Y/Z*fy*rd/ru+cy

归一化径向距离ru由以下公式给出：ru＝sqrt((X^2+Y^2)/(Z^2))。rd的值取决于3个失真系数k1、k2和k3：rd＝ru+k1*ru^3+k2*ru^5+k3*ru^7。变量fx和fy表示焦距，并且cx和cy表示相机系数。

在实施例中，数据处理子系统通过执行双线性插值来补偿点云数据的稀疏性，以在RGB数据的每个像素处获得点云点信息，从而获得其中RGB图像数据的每个像素具有相关联的深度值的RGB图像数据。在特定实施例中，数据处理子系统使用基于KDTree类索引搜索(KDTree-like index-based search)来有效地获得具有点云信息的最近像素。

在实施例中，数据处理系统使用单流CNN流水线来处理RGBD图像数据，并预测图像数据中的一个或多个对象的对象分类和每个对象周围的3D边界框坐标。在特定实施例中，使用单流CNN流水线来融合RGB和点云信息允许在磁盘上存储显著更少的参数以及提供高推理速度。在实施例中，数据处理子系统处理对象的3D边界框和定向，以确定对象的某些面是否不清晰(例如，太小)，并指示相机和LIDAR子系统将其自身重新定向到不同的捕捉角度，以重新捕捉图像数据和点云数据中的一个或多个，以获得用于使用CNN进行处理的更有利的数据。在一个或多个实施例中，在获得3D边界框之后，数据处理子系统确定LIDAR和相机是否需要被重新定向，以基于对边界框进行预测的置信度值和3D面尺寸获得对象姿态的更好估计。

在实施例中，数据处理子系统通过使用计算像素距离的深度信息来聚类像素从而分割每个对象以获得准确的对象尺寸。在特定实施例中，像素距离是深度差和R、G、B值的加权组合。在实施例中，数据处理子系统基于图像数据中极值点之间的距离来估计分割的对象的尺寸。在实施例中，数据处理子系统使用用于路径规划的对象的尺寸估计来生成路径信息，以指示汽车控制系统基于距离和对象的尺寸来避开障碍物。尽管各种实施例被描述为用于自动驾驶车辆的避障，但是应当理解，这里描述的原理可以用于其它应用，诸如测量牲畜、增强现实应用或机器人导航。

仅作为示例关于特定类型的3D对象定位、神经网络、传输、验证、响应、传感器、测量、设备、数据处理系统、环境、组件和应用来描述说明性实施例。这些和其它类似人工制品的任何具体表现形式并不旨在限制本发明。在说明性实施例的范围内，可以选择这些和其它类似人工制品的任何合适的表现形式。

此外，说明性实施例可以关于任何类型的数据、数据源或通过数据网络对数据源的访问来实现。在本发明的范围内，任何类型的数据存储设备可以在数据处理系统本地或通过数据网络向本发明的实施例提供数据。在说明性实施例的范围内，在使用移动设备描述实施例的情况下，适合与移动设备一起使用的任何类型的数据存储设备可以在移动设备本地或者通过数据网络向这种实施例提供数据。

仅作为示例使用特定的代码、设计、架构、协议、布局、示意图和工具来描述说明性实施例，而不限于说明性实施例。此外，为了描述清楚，在一些实例中，仅作为示例使用特定软件、工具和数据处理环境来描述说明性实施例。说明性实施例可以结合其它可比拟的或类似目的的结构、系统、应用或架构来使用。例如，在本发明的范围内，其它可比拟的移动设备、结构、系统、应用或架构可以与本发明的这些实施例结合使用。说明性实施例可以以硬件、软件或其组合来实现。

本公开中的示例仅用于描述的清楚，并不限于说明性实施例。根据本公开可以想到附加的数据、操作、动作、任务、活动和操纵，并且这些附加的数据、操作、动作、任务、活动和操纵在说明性实施例的范围内被考虑。

这里列出的任何优点仅仅是示例，并不旨在限制说明性实施例。附加的或不同的优点可以通过特定的说明性实施例来实现。此外，特定的说明性实施例可以具有上面列出的一些、全部优点或没有上面列出的优点。

参考附图，特别是参考图1和图2，这些附图是其中可以实现说明性实施例的数据处理环境的示例图。图1和图2仅仅是示例，并不旨在断言或暗示对可以实现不同实施例的环境的任何限制。基于以下描述，特定实施方式可以对描绘的环境做出许多修改。

图1描绘其中可以实现说明性实施例的数据处理子系统网络的框图。数据处理环境100是其中可以实现说明性实施例的子系统的网络。数据处理环境100包括相机子系统102、LIDAR子系统104、数据处理子系统106和汽车控制子系统108。在一个或多个实施例中，数据处理环境100安装在诸如小汽车的汽车内和/或汽车上。在一个或多个实施例中，网络提供在数据处理环境100内连接在一起的各种设备和计算机之间的通信链路。网络可以包括连接，诸如有线、无线通信链路或光纤电缆。

软件应用可以在数据处理环境100中的任何计算机上执行。诸如数据处理子系统106的数据处理系统可以包含数据，并且可以具有在其上执行的软件应用或软件工具。

仅作为示例，并且不暗示对这种架构的任何限制，图1描绘在实施例的示例实施方式中可用的某些组件。作为另一示例，在说明性实现例的范围内，如所示的，实施例可以跨若干数据处理系统和数据网络分布，而另一实施例可以在单个数据处理系统上实现。相机子系统102、LIDAR子系统104、数据处理子系统106和汽车控制子系统108也表示集群、分区和其它适于实现实施例的配置中的示例节点。

数据处理子系统106实现这里描述的神经网络(诸如卷积神经网络)的实施例。在实施例中，数据处理子系统106包括映射模块110、双线性插值模块112、CNN训练模块114、预测模块116、对象分割模块118、尺寸估计模块120和路径规划/避障模块122。在特定实施例中，映射模块110、双线性插值模块112、CNN训练模块114、预测模块116、对象分割模块118、尺寸估计模块120和路径规划/避障模块122中的一个或多个可以包含在软件应用中。

在实施例中，相机子系统102包括相机，该相机被配置为从场景获得包括x、y、z像素坐标的RGB图像信息。相机子系统102进一步分析RGB信息，以从RGB信息中确定一个或多个感兴趣区域，并将感兴趣区域信息发送到LIDAR子系统104。相机子系统102进一步被配置为基于从数据处理子系统106接收的重新定向指令来定向相机。相机子系统102进一步被配置为将RGB图像信息发送到数据处理子系统106。

在实施例中，LIDAR子系统104被配置为基于从相机子系统102接收的感兴趣角度/区域信息来获得包括场景的X、Y、Z坐标的点云信息。LIDAR子系统104进一步配置为基于从相机子系统102接收的感兴趣区域信息和/或从数据处理子系统106接收的重新定向信息来重新定向LIDAR。LIDAR子系统104进一步被配置为将点云信息发送到数据处理子系统106。

数据处理系统的映射模块110通过将点云点转换成相机坐标并将点投影成2D图像来将点云数据映射到图像平面。双线性插值模块112执行双线性插值，以在RGB数据的每个像素处获得点云点信息，从而获得其中RGB图像数据的每个像素具有相关联的深度值的RGB图像数据。

CNN训练模块114向预测模块116提供训练的CNN模型。预测模块116使用单流CNN流水线来处理RGBD图像数据，并预测图像数据中的一个或多个对象的对象分类以及围绕每个对象的3D边界框坐标。在实施例中，预测模块116处理对象的3D边界框和定向，以确定对象的某些面是否不清晰(例如，太小)，并且向相机子系统102和LIDAR子系统104发送重新定向信息，以指示相机和LIDAR将其自身重新定向到不同的角度，以重新捕捉图像数据和点云数据中的一个或多个，从而获得用于使用CNN进行处理的更有利的数据。

在实施例中，对象分割模块118通过使用计算像素距离的深度信息聚类像素来分割每个对象的3D边界框以获得每个对象的对象尺寸。在特定实施例中，像素距离是深度差和R、G、B值的加权组合。在实施例中，尺寸估计模块120基于分割的图像数据的3D边界框中的极值点之间的距离来估计分割的对象的尺寸。在实施例中，路径规划/避障模块122使用对象的尺寸估计来生成路径信息并将路径信息发送到汽车控制子系统108。路径信息指示汽车控制系统108基于对象的距离和尺寸避开障碍物。在特定实施例中，汽车控制子系统可以控制汽车的速度、加速度或方向中的一个或多个。

在描绘的示例中，数据处理环境100可以是因特网。网络可以表示使用传输控制协议/因特网协议(Transmission Control Protocol/Internet Protocol，TCP/IP)和其它协议来彼此通信的网络和网关的集合。因特网的核心是主节点或主计算机之间的数据通信链路的主干，包括成千上万的商业、政府、教育和其它路由数据和消息的计算机系统。当然，数据处理环境100也可以被实现为多个不同类型的网络，诸如例如内联网、局域网(localarea network，LAN)或广域网(wide area network，WAN)。图1旨在作为示例，而不是作为对不同说明性实施例的架构限制。

在其它用途中，数据处理环境100可以用于实现其中可以实现说明性实施例的客户端-服务器环境。客户端-服务器环境使得软件应用和数据能够跨网络分布，使得应用通过使用客户端数据处理系统和服务器数据处理系统之间的交互性来运转。数据处理环境100还可以采用面向服务的架构，其中跨网络分布的可互操作软件组件可以被打包在一起作为一致的业务应用。数据处理环境100也可以采取云的形式，并且采用服务交付的云计算模型，用于实现对可以利用最小的管理精力或与服务提供商的交互来快速提供和发布的可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的、按需的网络访问。

参考图2，该图描绘其中可以实现说明性实施例的数据处理系统的框图。数据处理系统200是计算机的示例，诸如图1中的服务器104和106，或者客户机110、112和114，或者用于说明性实施例的、实现过程的计算机可用程序代码或指令可以位于其中的另一类型的设备。

数据处理系统200也表示数据处理系统或其中的配置，诸如图1中的数据处理子系统106，其中实现说明性实施例的过程的计算机可用程序代码或指令可以位于其中。数据处理系统200仅作为示例被描述为计算机，而不限于此。以其它设备形式的实现方式可以修改数据处理系统200，诸如通过添加触摸接口，并且甚至从数据处理系统200中消除某些描绘的组件，而不脱离这里描述的数据处理系统200的操作和功能的一般描述。

在描绘的示例中，数据处理系统200采用集线器架构，包括北桥和存储器控制器集线器(North Bridge and memory controller hub，NB/MCH)202和南桥以及输入/输出(input/output，I/O)控制器集线器(South Bridge and input/output controller hub，SB/ICH)204。处理单元206、主存储器208和图形处理器210耦合到北桥和存储器控制器集线器(NB/MCH)202。处理单元206可以包含一个或多个处理器，并且可以使用一个或多个异构处理器系统来实现。处理单元206可以是多核处理器。在某些实施方式中，图形处理器210可以通过加速图形端口(accelerated graphics port，AGP)耦合到NB/MCH 202。

在描绘的示例中，局域网(LAN)适配器212耦合到南桥和I/O控制器集线器(SB/ICH)204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(read onlymemory，ROM)224、通用串行总线(universal serial bus，USB)和其它端口232以及PCI/PCIe设备234通过总线238耦合到南桥和I/O控制器集线器204。硬盘驱动器(Hard diskdrive，HDD)或固态驱动器(solid-state drive，SSD)226和CD-ROM 230通过总线240耦合到南桥和I/O控制器集线器204。PCI/PCIe设备234可以包括例如用于笔记本电脑的以太网适配器、附加卡和PC卡。PCI使用卡总线控制器，而PCIe不使用。ROM 224可以是例如快闪二进制输入/输出系统(binary input/output system，BIOS)。硬盘驱动器226和CD-ROM 230可以使用例如集成驱动电子设备(integrated drive electronic，IDE)、串行高级技术附件(serial advanced technology attachment，SATA)接口或者诸如外部SATA(external-SATA，eSATA)和微SATA(micro-SATA，mSATA)的变体。超级I/O(super I/O，SIO)设备236可以通过总线238耦合到南桥和I/O控制器集线器(SB/ICH)204。

诸如主存储器208、ROM 224或闪存(未示出)的存储器是计算机可用存储设备的一些示例。硬盘驱动器或固态驱动器226、CD-ROM 230和其它类似可用的设备是包括计算机可用存储介质的计算机可用存储设备的一些示例。

操作系统在处理单元206上运行。操作系统协调并提供对图2中数据处理系统200内各种组件的控制。操作系统可以是用于任何类型的计算平台(包括但不限于服务器系统、个人计算机和移动设备)的商业可用的操作系统。面向对象或其它类型的编程系统可以结合操作系统操作，并且从在数据处理系统200上执行的程序或应用向操作系统提供调用。

用于操作系统、面向对象编程系统以及应用或程序的指令位于存储设备上，诸如以硬盘驱动器226上的代码226A的形式，并且可以被加载到一个或多个存储器(诸如主存储器208)中的至少一个中，用于由处理单元206执行。说明性实施例的过程可以由使用计算机实现的指令的处理单元206来执行，这些指令可以位于存储器中，诸如例如主存储器208、只读存储器224或一个或多个外围设备中。

此外，在一种情况下，代码226A可以通过网络201A从远程系统201B下载，在该远程系统201B中，类似的代码201C存储在存储设备201D上。在另一情况下，代码226A可以通过网络201A下载到远程系统201B，在该远程系统201B中，下载的代码201C存储在存储设备201D上。

图1-图2中的硬件可以根据实现方式而变化。除了图1-图2中描绘的硬件之外或代替图1-图2中描绘的硬件，可以使用其它内部硬件或外围设备，诸如闪存、等效的非易失性存储器或光盘驱动器等。此外，说明性实施例的过程可以应用于多处理器数据处理系统。

在一些说明性示例中，数据处理系统200可以是个人数字助理(personal digitalassistant，PDA)，其通常配置有闪存，以提供用于存储操作系统文件和/或用户生成的数据的非易失性存储器。总线系统可以包括一个或多个总线，诸如系统总线、I/O总线和PCI总线。当然，总线系统可以使用任何类型的通信构造或架构来实现，其中该通信构造或架构提供附接到该构造或架构的不同组件或设备之间的数据传递。

通信单元可以包括用于传输和接收数据的一个或多个设备，例如调制解调器或网络适配器。存储器可以是例如主存储器208或高速缓存，诸如在北桥和存储器控制器集线器202中找到的高速缓存。处理单元可以包括一个或多个处理器或CPU。

图1-图2中描绘的示例和上述示例并不意味着暗示架构的限制。例如，除了采取移动或可穿戴设备的形式之外，数据处理系统200还可以是平板计算机、膝上型计算机或电话设备。

在计算机或数据处理系统被描述为虚拟机、虚拟设备或虚拟组件的情况下，虚拟机、虚拟设备或虚拟组件使用数据处理系统200中描绘的一些或所有组件的虚拟化表现形式以数据处理系统200的方式操作。例如，在虚拟机、虚拟设备或虚拟组件中，处理单元206被表现为主机数据处理系统中可用的所有或一些数量的硬件处理单元206的虚拟化实例，主存储器208被表现为主机数据处理系统中可用的主存储器208的全部或一些部分的虚拟化实例，并且盘226被表现为主机数据处理系统中可用的盘226的全部或一些部分的虚拟化实例。在这种情况下的主机数据处理系统由数据处理系统200表示。

对于图3，该图描绘根据说明性实施例的示例双线性插值过程300。在将点云点映射到图像像素之后，由于与图像数据相比，点云数据的采样间隔较低，因此一些图像像素可能不具有来自点云数据的相应深度数据。在其它情况下，由于存在难以获得点云数据的对象(诸如黑色金属对象或玻璃对象)，深度数据可能从点云数据中缺失。因此，在一个或多个实施例中，数据处理子系统106对图像数据的每个像素执行点云数据的双线性插值，以获得图像数据的每个像素的深度信息。在图3的示例中，x、y表示像素的坐标，并且X、Y、Z表示现实世界对象的点云点的坐标。为了找到对应于像素(x，y)的点云点(X，Y，Z)，数据处理子系统106使用KDTree算法在具有相关联的点云点的、以(x，y)为中心的四个象限中的每一个中找到最接近的点。四个最接近的像素由具有相关联的点云点(X₀，Y₀，Z₀)，(X₁，Y₁，Z₁)，(X₂，Y₂，Z₂)，(X₃，Y₃，Z₃)的(x₀，y₀)，(x₁，y₁)，(x₂，y₂)，(x₃，y₃)表示。

插值过程进一步包括找到值m和n，并如下确定像素坐标(x_m，y_m)：

x_m＝x_n＝x

y_m＝y_o+(x-x₀)*(y₁-y₀)/(x₁-x₀)

y_n＝y₃+(x-x₃)*(y₂-y₀)/(x₂-x₃)

插值过程进一步包括使用线性插值确定对应于像素坐标(x_m，y_m)的点云点(X，Y，Z)。

对于图4，该图描绘根据说明性实施例的示例卷积神经网络(CNN)结构400。CNN结构400包括输入402、多个卷积层404、多个全连接层406和输出408。卷积层404计算连接到输入中的局部区域的神经元的输出，每个神经元计算它们的权重与它们在输入中连接到的小区域之间的点积。在示例中，输入402接收RGBD数据并将该RGBD数据提供给卷积层404。在实施例中，卷积层404从RGBD数据中提取诸如对象的特征，并且全连接层406对对象进行分类。在特定实施例中，使用大量训练数据来训练卷积层404和全连接层406，并且卷积层404和全连接层406能够在其它模型上提高准确度，因为它们能够表示可能存在于数据中的非线性。输出408输出一个或多个对象的3D边界框坐标和分类概率。分类概率包括对象的对象分类的概率，诸如对象是汽车、标志、树还是人。

对于图5，该图描绘根据说明性实施例的示例卷积神经网络(CNN)500。CNN 500包括416x416x4(RGBD)输入，该输入包括416像素乘416像素的阵列，其中每个像素包括红色(red，R)、绿色(green，G)、蓝色(blue，B)和深度(depth，D)值。CNN 500的隐含层包括23个不同尺寸和滤波器的卷积层以及多个最大池化层。最大池化层将一层神经元簇的输出组合到下一层的单个神经元中。在实施例中，CNN 500的输出包括在RGBD输入数据中找到的一个或多个对象的分类概率和3D边界框坐标。在特定实施例中，3D边界框坐标包括指定3D边界框的维数和定向的x、y、高度(height，h)、宽度(width，w)、深度(depth，d)以及角度(α)。

对于图6，该图描绘根据说明性实施例的CNN的3D边界框输出的示例。在图6的实施例中，边界框602由CNN输出，以识别在RGBD数据中检测到的汽车的边界。

对于图7，该图描绘使用单触发卷积神经网络(CNN)的用于避障的三维对象定位的示例过程700的流程图。在一个或多个实施例中，过程700可以在数据处理子系统106的应用中实现。

在702中，数据处理子系统106从相机子系统102的相机接收场景的像素图像数据。在特定实施例中，像素图像数据包括多个x、y像素坐标的RGB图像数据。在704中，数据处理子系统106从点云捕捉子系统/设备(诸如LIDAR设备或IR传感器)接收场景的点云数据。在特定实施例中，点云数据包括场景内一个或多个物理3D对象的X、Y、Z物理点坐标(例如，以米为单位)。在特定实施例中，相机子系统分析以高帧速率捕捉的RGB帧，并指示LIDAR子系统在RGB图像数据中找到感兴趣对象的场景位置处以高频进行采样。

在706中，数据处理子系统106通过将点云点转换成相机坐标并将点云点投影到像素数据的2D图像来将点云数据映射到图像平面。在708中，数据处理子系统106将点云数据插值到图像像素中的每一个，使得图像数据的每个像素具有相关联的深度值。在特定实施例中，数据处理子系统106执行双线性插值，以在RGB数据的每个像素处获得点云点信息，从而获得RGB图像数据，其中RGB图像数据的每个像素具有相关联的深度值。在特定实施例中，数据处理子系统使用基于KDTree类索引搜索来有效地获得具有点云信息的最近像素。

在710中，数据处理子系统106使用CNN预测包括深度信息的图像数据中的一个或多个对象的对象分类概率和3D边界框坐标。在特定实施例中，CNN是单流CNN的单触发。在712中，数据处理子系统106基于阈值(诸如，对象的某些面是否不清晰(例如，太小))来确定是否需要对相机设备和点云捕捉设备(例如，LIDAR)中的一个或多个重新定向。如果需要重新定向，则在714中，数据处理子系统106计算指示相机设备和点云捕捉设备中的一个或多个将它们自己重新定向到不同的角度的重新定向信息。在716中，数据处理子系统106将重新定向信息发送到相机和点云捕捉设备中的一个或多个。响应于接收重新定向信息，相机和点云捕捉设备中的一个或多个重新定向捕捉角度，以重新捕捉图像数据和点云数据中的一个或多个，从而获得用于使用CNN进行处理的更有利的数据。

如果不需要重新定向，则在718中，数据处理子系统106通过使用计算像素距离的深度信息聚类像素来分割每个对象的3D边界框以形成分割的对象。在特定实施例中，像素距离是深度差和R、G、B值的加权组合。在720中，数据处理子系统106基于图像数据中极值点之间的距离来估计分割的对象的尺寸。在722中，数据处理子系统106使用对象的尺寸估计来计算路径信息，以指示汽车控制系统108基于对象的距离和尺寸来避开对象。在724中，数据处理子系统106将路径信息发送到汽车控制子系统108。响应于接收路径信息，汽车控制子系统108被配置成控制汽车的一个或多个系统以避开对象中的一个或多个。此后过程700结束。尽管各种实施例被描述为用于自动驾驶车辆的避障，但是应当理解，这里描述的原理可以用于其它应用，诸如测量牲畜、增强现实应用或机器人导航。

因此，在说明性实施例中提供了一种计算机实现的方法、系统或装置以及计算机程序产品，用于使用单触发卷积神经网络的用于避障的三维对象定位。在关于设备类型描述的实施例或其一部分的情况下，计算机实现的方法、系统或装置、计算机程序产品或其一部分被适配或配置为与该类型的设备的适当且可比拟的表现形式一起使用。

在实施例被描述为在应用中实现的情况下，软件即服务(Software as aService，SaaS)模型中应用的交付在说明性实施例的范围内被考虑。在SaaS模型中，通过在云基础设施中执行应用，实现实施例的应用的能力被提供给用户。用户可以通过诸如web浏览器(例如，基于web的电子邮件)的瘦客户端接口或其它轻量级客户端应用使用各种客户端设备来访问应用。用户不管理或控制包括网络、服务器、操作系统或云基础架构存储的底层云基础架构。在某些情况下，用户甚至可能无法管理或控制SaaS应用的功能。在一些其它情况下，应用的SaaS实现可能允许有限的用户特定应用配置设置的可能的例外。

本发明可以是以任何可能的集成的技术细节级别的系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种方法，包括：

接收场景的像素图像数据，所述像素图像数据包括场景中对象的二维表示；

接收点云数据，所述点云数据包括与对象的二维表示相对应的场景内的物理对象的三维点坐标，所述三维点坐标包括物理对象的深度信息；

将所述点云数据映射到所述像素图像数据的图像平面，以形成集成的像素图像数据，其中所述像素图像数据的一个或多个像素具有与其集成的深度信息；和

基于所述集成的像素图像数据，使用卷积神经网络预测对象的三维边界框。

2.如权利要求1所述的方法，进一步包括：

分割对象的三维边界框以形成分割的对象。

3.如权利要求2所述的方法，进一步包括：

估计所述分割的对象的对象尺寸。

4.如权利要求3所述的方法，进一步包括：

基于所述对象尺寸计算对象的路径信息。

5.如权利要求4所述的方法，将所述路径信息发送到汽车控制系统，所述路径信息指示所述汽车控制系统避开对象。

6.如权利要求1所述的方法，进一步包括：

将所述点云数据插值到图像数据的像素中的每一个，使得图像数据的每个像素具有与其集成的相关联的深度值。

7.如权利要求1所述的方法，进一步包括：

基于所述集成的像素图像数据，使用卷积神经网络预测对象的对象分类。

8.如权利要求1所述的方法，其中，从相机设备接收所述像素图像数据，并且从点云捕捉设备接收所述点云数据。

9.如权利要求8所述的方法，进一步包括：

基于阈值确定需要对所述相机设备和所述点云捕捉设备中的一个或多个进行重新定向；和

计算指示所述相机设备和所述点云捕捉设备中的一个或多个重新定向到不同捕捉角度的重新定向信息。

10.如权利要求9所述的方法，进一步包括：

将所述重新定向信息发送到所述相机设备和所述点云捕捉设备中的一个或多个。

11.如权利要求1所述的方法，其中卷积神经网络是单流卷积神经网络。

12.一种计算机可用程序产品，包括一个或多个计算机可读存储设备，以及存储在一个或多个存储设备中的至少一个上的程序指令，存储的程序指令包括：

接收场景的像素图像数据的程序指令，所述像素图像数据包括场景中对象的二维表示；

接收点云数据的程序指令，所述点云数据包括与对象的二维表示相对应的场景内的物理对象的三维点坐标，所述三维点坐标包括物理对象的深度信息；

将所述点云数据映射到所述像素图像数据的图像平面以形成集成的像素图像数据的程序指令，其中所述像素图像数据的一个或多个像素具有与其集成的深度信息；和

基于所述集成的像素图像数据使用卷积神经网络预测对象的三维边界框的程序指令。

13.如权利要求12所述的计算机可用程序产品，进一步包括：

分割对象的三维边界框以形成分割的对象的程序指令。

14.如权利要求13所述的计算机可用程序产品，进一步包括：

估计所述分割的对象的对象尺寸的程序指令。

15.如权利要求14所述的计算机可用程序产品，进一步包括：

基于所述对象尺寸计算对象的路径信息的程序指令。

16.如权利要求15所述的计算机可用程序产品，进一步包括：

将所述路径信息发送到汽车控制系统的程序指令，所述路径信息指示所述汽车控制系统避开对象。

17.如权利要求12所述的计算机可用程序产品，其中所述计算机可用代码存储在数据处理系统中的计算机可读存储设备中，并且其中所述计算机可用代码通过网络从远程数据处理系统传递。

18.如权利要求12所述的计算机可用程序产品，其中所述计算机可用代码存储在服务器数据处理系统中的计算机可读存储设备中，并且其中所述计算机可用代码通过网络下载到远程数据处理系统，以在与所述远程数据处理系统相关联的计算机可读存储设备中使用。

19.一种计算机系统，包括一个或多个处理器、一个或多个计算机可读存储器和一个或多个计算机可读存储设备、以及存储在一个或多个存储设备中的至少一个上的程序指令，所述程序指令用于由一个或多个处理器中的至少一个处理器经由一个或多个存储器中的至少一个存储器来执行，以执行权利要求1-11中任一项的方法。

20.一种计算机系统，所述系统包括分别用于执行权利要求1-11中任一项的方法的步骤的模块。