CN112639819A

CN112639819A - 使用多个传感器和复杂度降低的神经网络进行对象检测

Info

Publication number: CN112639819A
Application number: CN201980056227.9A
Authority: CN
Inventors: S·D·安丘; J·格洛斯纳; 王北楠
Original assignee: Optimum Semiconductor Technologies Inc
Current assignee: Optimum Semiconductor Technologies Inc
Priority date: 2018-07-05
Filing date: 2019-06-20
Publication date: 2021-04-09
Also published as: EP3818474A4; WO2020009806A1; EP3818474A1; KR20210027380A; US20210232871A1

Abstract

一种与使用多个传感器装置进行对象检测有关的系统和方法，包括接收包含多个点的范围数据，多个点中的每一个都与强度值和深度值相关联，基于所述多个点的强度值和深度值来确定围绕所述多个点中的点的集群的边界框，接收包括像素阵列的视频图像，确定视频图像中与边界框相对应的区域，以及将第一神经网络应用于区域以确定由所述范围数据和所述视频图像捕获的对象。

Description

使用多个传感器和复杂度降低的神经网络进行对象检测

相关申请的交叉引用

本申请要求2018年7月5日提交的美国临时申请62/694,096的优先权，其全部内容通过引用包含于此。

技术领域

本发明涉及从传感器数据检测对象，尤其涉及使用多个传感器和复杂度降低的神经网络进行对象检测的系统和方法。

背景技术

包括被编程为检测环境中的对象的硬件处理器的系统具有广泛的工业应用。例如，自动驾驶车辆可以配备有传感器(例如，光检测和测距(激光雷达)传感器和摄像机)以捕获车辆周围的传感器数据。此外，自动驾驶车辆可以配备有处理装置，以执行可执行代码以基于传感器数据来检测车辆周围的对象。

可以采用神经网络来检测环境中的对象。在本公开中提到的神经网络是人工神经网络，其可以在电路上实现以基于输入数据做出决策。神经网络可以包括一层或多层节点，其中每个节点可以以硬件实现为用于执行计算的计算电路元件。输入层中的节点可以将输入数据接收到神经网络。一层中的节点可以接收由前一层中的节点生成的输出数据。此外，该层中的节点可以执行某些计算并生成用于后续层的节点的输出数据。输出层的节点可以为神经网络生成输出数据。因此，神经网络可以包含多层节点，以执行从输入层向前传播到输出层的计算。神经网络被广泛用于对象检测。

附图说明

通过以下给出的详细描述和本公开的各种实施例的附图，将更充分地理解本公开。然而，不应将附图用于将本公开限制于特定实施例，而仅用于解释和理解。

图1示出了根据本公开的实施方式的使用多个传感器数据和神经网络检测对象的系统。

图2示出了根据本公开的实施方式的使用神经网络将激光雷达传感器和图像传感器相结合以检测对象的系统。

图3示出了示例性卷积神经网络。

图4描绘了根据本公开的实施方式的使用融合网来检测图像中的对象的方法的流程图。

图5描绘了根据本公开的实施方式的使用多个传感器装置来检测对象的方法的流程图。

图6描绘了根据本公开的一个或多个方面进行操作的计算机系统的框图。

具体实施方式

神经网络可以包括多层节点，包括输入层、输出层以及在输入层和输出层之间的隐藏层。每一层可以包括与节点值相关联的节点，这些节点值是通过连接当前层和前一层之间的节点的边从前一层计算得出的。计算从输入层通过隐藏层传播到输出层。边可以将一层中的节点连接到相邻层中的节点。相邻层可以是前一层或后一层。每个边可以与权重值相关联。因此，与当前层的节点相关联的节点值可以是前一层的节点值的加权总和。

神经网络的一种类型是卷积神经网络(CNN)，其中在隐藏层执行的计算可以是与前一层相关联的节点值和与边相关联的权重值的卷积。例如，处理装置可以将卷积操作应用于输入层并生成通过边连接到输入层的第一隐藏层的节点值，并将卷积操作应用于第一隐藏层以生成第二隐藏层的节点值，依此类推，直到计算到达输出层为止。处理装置可以将软组合操作应用于输出数据并生成检测结果。检测结果可以包括所检测的对象的身份及其位置。

与边相关联的拓扑和权重值是在神经网络训练阶段确定的。在训练阶段期间，训练输入数据可以前向传播(从输入层到输出层)馈送到CNN中。可以将CNN的输出数据与训练输出数据进行比较，以计算误差数据。基于误差数据，处理装置可以执行反向传播，其中根据判别分析来调节与边相关联的权重值。该前向传播和反向传播的过程可以被迭代，直到误差数据在验证过程中满足某些性能要求为止。然后可以将CNN用于对象检测。可以针对特定类别的对象(例如，人类对象)或多种类别的对象(例如，汽车、行人和树木)训练CNN。

CNN的操作包括对输入数据执行滤波操作。可以使用峰值能量噪声比(PNR)来测量CNN的性能，其中峰值表示输入数据与滤波器参数表示的模式之间的匹配。由于使用包括一种或多种类别的对象的训练数据来训练滤波器参数，因此峰值能量可以表示对象的检测。噪声能量可以是环境中噪声成分的度量。噪声可以是环境噪声。较高的PNR可以指示CNN具有更好的性能。当针对多种类别的对象训练CNN并且CNN要检测特定类别的对象时，噪声成分可以包括环境噪声以及属于目标类别以外的其他类别的对象，导致PNR可能包括峰值能量与噪声能量和其他类别的能量的总和之比。其他类别的对象的存在可能会导致PNR和CNN的性能的劣化。

例如，处理装置可以将CNN(针对多种类别的对象训练的复杂的CNN)应用于由高分辨率摄像机捕获的图像，以检测图像中的对象。摄像机可以具有4K分辨率，包括具有3840x2160像素阵列的图像。输入数据可以是高分辨率图像，并且可以进一步包括多种类别的对象(例如，行人、汽车、树木等)。为了容纳高分辨率图像作为输入数据，CNN可以包括复杂的节点网络和大量的层(例如，超过100个层)。CNN的复杂度以及输入数据中存在多种类别的对象可能会对PNR产生负面影响，从而对CNN的性能产生负面影响。

为了克服复杂的CNN的上述和其他缺陷，本公开的实施方式提供了一种系统和方法，其可以使用多个专门训练的紧凑型CNN来基于传感器数据检测对象。在一个实施方式中，系统可以包括激光雷达传感器和摄像机。激光雷达传感器中的传感元件(例如，脉冲激光检测传感元件)可以用摄像机的图像传感元件进行校准，从而可以将由激光雷达捕获的激光雷达图像中的每个像素唯一地映射到由摄像机捕获的视频图像中的相应像素。该映射指示两个映射的像素可以从物理世界的周围环境中的相同点得到。耦合到激光雷达传感器和摄像机的处理装置可以对由激光雷达传感器和摄像机捕获的传感器数据执行进一步处理。

在一个实施方式中，处理装置可以从原始激光雷达传感器数据计算点云。点云代表激光雷达传感器的坐标系中的3D位置。点云中的每个点可以对应于由激光雷达传感器检测到的周围环境中的物理点。点云中的点可以分为不同的集群(cluster)。点的集群可以对应于环境中的一个对象。处理装置可以将滤波操作和聚类操作应用于点云以确定在由激光雷达传感器捕获的2D激光雷达图像上围绕集群的边界框。处理装置可以进一步确定摄像机的图像阵列上与激光雷达图像中的边界框相对应的区域。处理装置可以提取该区域作为感兴趣区域(ROI)，该感兴趣区域可以比整个图像阵列的尺寸小得多。然后，处理装置可以将感兴趣区域馈送到CNN，以确定感兴趣区域是否包含对象。由于感兴趣区域远小于整个图像阵列，因此与针对完整视频图像训练的CNN相比，该CNN可以是复杂度要低得多的紧凑型神经网络。此外，由于紧凑型CNN处理包含一个对象的感兴趣区域，因此紧凑型CNN的PNR不太可能被属于其他类别的干扰对象降低。因此，本公开的实施方式可以提高对象检测的准确性。

图1示出了根据本公开的实施方式的使用多个传感器数据和神经网络来检测对象的系统100。如图1所示，系统100可以包括处理装置102、加速器电路104和存储器装置106。系统100可以可选地包括传感器，例如激光雷达传感器和摄像机。系统100可以是计算系统(例如，自动驾驶车辆上的计算系统)或片上系统(SoC)。处理装置102可以是诸如中央处理单元(CPU)、图形处理单元(GPU)或通用处理单元之类的硬件处理器。在一个实施方式中，处理装置102可以被编程为执行某些任务，包括将计算密集型任务委托给加速器电路104。

加速器电路104可以通信地耦合到处理装置102，以使用其中的专用电路来执行计算密集型任务。专用电路可以是专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器等。在一个实施方式中，加速器电路104可以包括多个计算电路元件(CCE)，其是可以被编程为执行某种类型的计算的电路单元。例如，为了实现神经网络，可以在处理装置102的指令下对CCE进行编程，以执行诸如加权求和以及卷积之类的操作。因此，每个CCE可以被编程为执行与神经网络的节点相关联的计算；加速器电路104的一组CCE可以被编程为神经网络中一层节点(可见层或隐藏层)；加速器电路104的多组CCE可以被编程为用作神经网络的多层节点。在一个实施方式中，除了执行计算之外，CCE还可以包括本地存储装置(例如，寄存器)(未示出)，以存储在计算中使用的参数(例如，突触权重)。因此，为了描述的简洁和简单，本公开中的每个CCE对应于实现与神经网络的节点相关联的参数的计算的电路元件。可以利用指令来对处理装置102进行编程，以构造神经网络的体系结构并针对特定任务训练神经网络。

存储器装置106可以包括通信地耦合到处理装置102和加速器电路104的存储装置。在一个实施方式中，存储器装置106可以将输入数据116存储到由处理装置102执行的融合网108，并且存储由融合网108生成的输出数据118。输入数据116可以是由诸如激光雷达传感器120和摄像机122之类的传感器捕获的传感器数据。输出数据可以是由融合网108做出的对象检测结果。对象检测结果可以是由传感器120、122捕获的对象的分类。

在一个实施方式中，处理装置102可以被编程为执行融合网代码108，该融合网代码108在被执行时可以基于包括激光雷达数据和视频图像两者的输入数据116来检测对象。代替利用基于摄像机122捕获的全尺寸和全分辨率图像来检测对象的神经网络，融合网108的实施方式可以采用几种复杂度降低的神经网络的组合，其中每个复杂度降低的神经网络以全尺寸和全分辨率图像内的区域为目标，以实现对象检测。在一个实施方式中，融合网108可以将卷积神经网络(CNN)110应用于激光雷达传感器数据，以检测围绕潜在对象的区域的边界框，基于边界框从视频图像中提取感兴趣区域，然后将一个或多个CNN 112、114应用到感兴趣区域，以检测边界框内的对象。由于对CNN 110进行了训练以确定边界框，因此CNN 110的计算复杂度可以比那些被设计用于对象检测的CNN小得多。此外，由于边界框的尺寸通常比全分辨率视频图像小得多，因此CNN 112、114可能较少受到噪声和其他类别的对象的影响，从而获得更好的PNR以进行对象检测。此外，在应用CNN 112、114之前对感兴趣区域进行分割可以进一步提高检测精度。

图2示出了根据本公开的实施方式的融合网200，其使用多个复杂度降低的神经网络来检测对象。融合网200可以被实现为处理装置102和加速器电路104上的软件和硬件的组合。例如，融合网200可以包括可由处理装置102执行的代码，该代码可以利用在加速器电路104上实现以执行对象检测的多个复杂度降低的CNN。如图2所示，融合网200可以接收由激光雷达传感器捕获的激光雷达传感器数据202，并且接收由摄像机捕获的视频图像204。激光雷达传感器可以发出激光束(例如，红外光束)。激光束可从环境中的对象表面反射回来。激光雷达可以测量与从对象表面反射回来的激光束相关联的强度值和深度值。强度值反映了返回激光束的强度，其中强度部分地由对象表面的反射率来确定。反射率与激光束的波长和表面材料的成分有关。深度值反映了从表面点到激光雷达传感器的距离。可以基于入射和反射激光束之间的相位差来计算深度值。因此，原始激光雷达传感器数据可以包括分布在三维物理空间中的点，其中每个点都与一对值(强度，深度)相关联。激光束在被激光雷达传感器接收之前，可能会从多个表面反射而发生偏转。偏转可能构成原始激光雷达传感器数据中的噪声成分。

融合网200可以进一步包括激光雷达图像处理206，以滤除原始激光雷达传感器数据中的噪声成分。应用于原始激光雷达传感器数据的滤波器可以是合适类型的平滑滤波器，例如低通滤波器、中值滤波器等。这些滤波器可以应用于强度值和/或深度值。滤波器还可以包括可以移除激光束的混响的波束形成器。

滤波后的激光雷达传感器数据可以进一步被处理以生成点云。点云是物理空间中3D点的集群。点的集群可以表示物理空间中对象的形状。每个集群可以对应于对象的表面。因此，点的每个集群可以是对象的潜在候选者。在一个实施方式中，可以根据深度值(或“Z”值)将激光雷达传感器数据划分为子范围。假设对象是分开的并且位于不同的距离范围内，则每个子范围可以对应于相应的点云。对于每个子范围，融合网200可以提取与子范围内的点相关联的强度值(或“I”值)。该提取可以产生多个二维激光雷达强度图像，每个激光雷达强度图像对应于特定的深度子范围。强度图像可以包括像素阵列，其像素值表示强度。在一个实施方式中，强度值可以被量化为预定数量的强度级别。例如，每个像素可以使用八个位来表示强度值的256个级别。

融合网200还可以通过阈值化将每个激光雷达强度图像转换为相应的二值强度图像(二进制图像)，其中每个激光雷达强度图像可以对应于特定深度子范围。该过程被称为对激光雷达强度图像进行二值化。例如，融合网200可以确定阈值。阈值可以表示对象应具有的最小强度值。融合网200可以将强度图像的强度值与阈值进行比较，并将阈值以上(或等于阈值)的任何强度值设置为“1”，并将阈值以下的任何强度值设置为“0”。这样，高强度值的每个集群可以对应于二值化激光雷达图像中高值的斑点(blob)。

融合网200可以使用卷积神经网络(CNN)208来检测围绕每个激光雷达强度图像中的点的每个集群的二维边界框。CNN的结构将在后面的部分中详细讨论。在一个实施方式中，可以在包括已知位置处的对象的训练数据上对CNN 208进行训练。训练后的CNN 208可以识别围绕潜在对象的边界框。

这些边界框可以被映射到视频图像中的相应区域，其可以用作用于对象检测的区域。可以基于激光雷达传感器和视频传感器之间的几何关系来预先确定激光雷达传感器的传感器阵列与摄像机的图像阵列之间的映射关系。如图2所示，融合网200可以接收由摄像机捕获的视频图像204。可以已经用激光雷达传感器以特定的映射关系校准了摄像机，因此，可以将视频图像上的像素位置唯一地映射到激光雷达传感器数据的强度图像。在一个实施方式中，视频图像可以包括N乘M个像素的阵列，其中N和M是整数值。在HDTV标准视频格式中，每个像素都与亮度值(L)和颜色值U和V(L与蓝色和红色值之间的缩放值)相关联。在其他实施方式中，视频图像的像素可以用其他颜色表示方案中定义的值表示，例如RGB(红色、绿色、蓝色)。可以使用线性或非线性变换将这些颜色表示方案映射到LUV表示。因此，在本公开中可以使用任何合适的颜色表示格式来表示像素值。为了描述的简洁，使用LUV表示来描述本公开的实施方式。

在一个实施方式中，代替从全分辨率视频图像(N×M像素)中检测对象，融合网200可以基于激光雷达传感器数据将用于对象检测的区域限制到由CNN 208识别的边界框。边界框通常比全分辨率视频图像小得多。每个边界框可能包含一个对象的一个候选者。

融合网200可以首先对LUV视频图像210执行图像处理。图像处理可以包括对LUV视频图像执行低通滤波器，然后对低通视频图像进行抽取(decimate)。对低通视频图像的抽取可以在x和y方向上将视频图像的分辨率缩小一个倍数(例如4、8或16)。融合网200可以将边界框应用于处理后的视频图像，以识别其中可能存在对象的感兴趣区域。对于每个识别的感兴趣区域，融合网200可以应用CNN 212以确定感兴趣区域是否包含对象。可以在训练数据上对CNN 212进行训练，以检测视频图像中的对象。该训练数据可以包括已经被标记为不同类别的对象的图像。训练结果是代表对象的一组特征。

当将CNN 212应用于视频图像中的感兴趣区域时，CNN 212可以计算表示感兴趣区域的特征与代表已知类别的对象的特征之间的相关性的输出。相关性中的峰值可以表示对属于该类别的对象的识别。在一个实施方式中，CNN 212可以包括一组紧凑型神经网络，每个紧凑型神经网络针对特定对象进行训练。感兴趣区域可以被馈送到CNN 212的不同的紧凑型神经网络中，以识别不同类别的对象。因为CNN 212被训练成检测小区域内的特定类别的对象，所以CNN 212的PNR不太可能受到类间对象干扰的影响。

代替使用LUV视频图像作为输入，本公开的实施方式可以使用视频图像的亮度(L)值作为输入。单独使用L值可以进一步简化计算。如图2所示，融合网200可以包括L图像处理214。类似于LUV图像处理210，L图像处理214还可以包括低通滤波和对L图像进行抽取。融合网200可以将边界框应用于处理后的L图像，以识别其中可能存在对象的感兴趣区域。对于L图像中的每个所识别的感兴趣区域，融合网200可以应用方向梯度直方图(HOG)滤波器。HOG滤波器可以对感兴趣区域内的梯度方向的发生进行计数。在不同方向上的梯度计数形成这些梯度的直方图。由于HOG滤波器在感兴趣的局部区域中操作，因此它对于几何和光度变换可以是不变的。因此，在存在几何和光度变换的情况下，由HOG滤波器提取的特征可以基本不变。HOG滤波器的应用可以进一步改善检测结果。

融合网200可以基于HOG特征来训练CNN 216。在一个实施方式中，CNN 216可以包括一组紧凑型神经网络，每个紧凑型神经网络是基于HOG特征针对特定类别的对象而训练的。因为CNN 216中的每个神经网络是针对特定类别的对象而训练的，所以这些紧凑型神经网络可以较高PNR检测对象的类别。

融合网200可以进一步包括软组合层218，其可以组合来自CNN 208、212、216的结果。软组合层218可以包括softmax函数。融合网200可以使用softmax函数基于来自CNN208、212、216的结果确定对象的类别。softmax可以选择与对象检测的更高可能性相关联的网络结果。

本公开的实施方式可以使用卷积神经网络(CNN)或任何适当形式的神经网络进行对象检测。图3示出了示例性卷积神经网络300。如图3所示，CNN 300可以包括输入层302。输入层302可以接收输入传感器数据，例如激光雷达传感器数据和/或视频图像。CNN 300可以进一步包括隐藏层304、306和输出层308。隐藏层304、306可以包括与特征值(A₁₁,A₁₂,...,A_1n,...,A₂₁,A₂₂,...A_2m)相关联的节点。层(例如304)中的节点可以通过边连接到相邻层(例如306)中的节点。每个边可以与权重值相关联。例如，输入层302和第一隐藏层304之间的边与权重值(F₁₁,F₁₂,...,F_1n)相关联；第一隐藏层304和第二隐藏层306之间的边与权重值F⁽¹¹⁾ ₁₁,F⁽¹²⁾ ₁₁,...,F⁽¹ⁿ⁾ ₁₁相关联；隐藏层306和输出层之间的边与权重值F⁽¹¹⁾ _m1,F⁽¹²⁾ _m2,...,F⁽¹ⁿ⁾ _m1相关联。第二隐藏层306的特征值(A₂₁,A₂₂,...,A_2m)可以计算如下：

其中A代表输入图像，以及*是卷积算子。因此，第二层中的特征图是从第一层计算出的相关性之和，并且可以类似地计算每层的特征图。最后一层可以表示为连接成一个大向量的所有行的字符串或表示为张量的数组。最后一层可以计算如下：

其中M_i是最后一层的特征，

是训练后的所有特征的列表。输入图像A与该所有特征的列表相关。在一个实施方式中，多个紧凑型神经网络被用于对象检测。每个紧凑型神经网络对应于一个相应类别的对象。可以通过分析激光雷达传感器数据来实现对象定位，并且对象检测仅限于感兴趣区域。

图4描绘了根据本公开的实施方式的使用融合网来检测图像中的对象的方法400的流程图。方法400可以由处理装置执行，该处理装置可以包括硬件(例如，电路、专用逻辑)、计算机可读指令(例如，在通用计算机系统或专用机器上运行)或两者的组合。方法400及其各个单独的功能、例程、子例程或操作可以由执行该方法的计算机装置的一个或多个处理器来执行。在某些实施方式中，方法400可以由单个处理线程执行。可替代地，方法400可以由两个或更多个处理线程执行，每个线程执行一个或多个单独的功能、例程、子例程或方法的操作。

为了简化说明，将本公开的方法描绘和描述为一系列动作。然而，根据本公开的动作可以以各种顺序和/或同时发生，并且具有本文未呈现和描述的其他动作。此外，可能不需要所有示出的动作来实现根据所公开的主题的方法。另外，本领域技术人员将理解并认识到，所述方法可以可替代地经由状态图或事件表示为一系列相互关联的状态。另外，应当理解，在本说明书中公开的方法能够被存储在制品上，以便于将这样的方法传输和转移到计算装置。如本文所使用的，术语“制品”旨在涵盖可从任何计算机可读装置或存储介质访问的计算机程序。在一个实施方式中，方法400可以由如图1所示的执行融合网108的处理装置102和支持CNN的加速器电路104执行。

参考图4，在402处，激光雷达传感器可以捕获激光雷达传感器数据，该数据包括环境中的对象的信息。在404处，摄像机可以捕获环境的视频图像。可以预先校准激光雷达传感器和摄像机，以便可以将激光雷达传感器阵列上的位置唯一地映射到视频图像阵列上的位置。

在406处，处理装置可将激光雷达传感器数据处理为点云，其中每个点可与强度值和深度值相关联。每个云可以对应于环境中的对象。在410处，处理装置可对点云执行第一滤波操作以基于深度值来分离云。在412处，如上所述，深度值可以被划分为子范围，并且云可以被不同子范围中的聚类点分开。在414处，处理装置可以执行第二滤波操作。第二个滤波操作可以包括将不同子范围的强度值进行二值化。在每个深度子范围内，将高于或等于阈值的强度值设置为“1”，并且将低于阈值的强度值设置为“0”。

在416处，处理装置可以进一步处理二值化强度激光雷达图像以确定集群的边界框。每个边界框可以围绕潜在对象的区域。在一个实施方式中，如上所述，第一CNN可以用于确定边界框。

在408处，处理装置可以从摄像机接收全分辨率图像。在418处，处理装置可以基于激光雷达传感器和摄像机之间的预定映射关系，将在416处确定的边界框投影到视频图像。这些边界框可以指定视频图像中对象的潜在区域。

在420处，处理装置可基于边界框提取这些感兴趣区域。可以将这些感兴趣区域输入到一组紧凑型CNN中，每个CNN被训练为检测特定类别的对象。在422处，处理装置可以将这些特定于类别的CNN应用于这些感兴趣区域，以检测该区域中是否存在特定类别的对象。在424处，处理装置可以基于软组合(例如，softmax函数)确定以确定该区域是否包含对象。因为方法400使用每个区域包含一个对象的局部感兴趣区域，并使用特定于类别的紧凑型CNN，所以由于改进的PNR，检测率更高。

图5描绘了根据本公开的实施方式的使用多个传感器装置来检测对象的方法500的流程图。

在502处，处理装置可以接收包括多个点的范围数据，多个点中的每一个与强度值和深度值相关联。

在504处，处理装置可以基于多个点的强度值和深度值来确定围绕点的集群的边界框。

在506处，处理装置可以接收包括像素阵列的视频图像。

在508处，处理装置可以确定视频图像中与边界框相对应的区域。

在510处，处理装置可以将第一神经网络应用于该区域以确定由范围数据和视频图像捕获的对象。

图6描绘了根据本公开的一个或多个方面进行操作的计算机系统的框图。在各种说明性示例中，计算机系统600可以对应于图1的系统100。

在某些实施方式中，计算机系统600可以(例如，经由诸如局域网(LAN)、内联网、外联网或因特网的网络)连接到其他计算机系统。计算机系统600可以在客户端-服务器环境中以服务器或客户端计算机的能力来操作，或者在对等或分布式网络环境中作为对等计算机来操作。计算机系统600可以由个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、Web设备、服务器、网络路由器、交换机或网桥、或者能够执行一组指令(顺序指令或其他指令)的任何装置来提供，这些指令指定了该装置要执行的动作。此外，术语“计算机”应包括单独地或共同地执行一组(或多组)指令以执行本文所描述的方法中的任何一个或多个的计算机的任何集合。

在另一方面，计算机系统600可以包括处理装置602、易失性存储器604(例如，随机存取存储器(RAM))、非易失性存储器606(例如，只读存储器(ROM)或电可擦除可编程ROM(EEPROM))和数据存储装置616，它们可以经由总线608相互通信。

处理装置602可以由诸如通用处理器(例如，复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、实现其他类型的指令集的微处理器或实现多种类型的指令集的组合的微处理器)或专用处理器(例如，专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或网络处理器)的一个或多个处理器来提供。

计算机系统600可以进一步包括网络接口装置622。计算机系统600还可以包括视频显示单元610(例如，LCD)、字母数字输入装置612(例如，键盘)、光标控制装置614(例如鼠标)和信号生成装置620。

数据存储装置616可以包括非暂时性计算机可读存储介质624，其上可以存储指令626，该指令626编码本文描述的方法或功能中的任何一个或多个，包括用于实施方法400或方法500的图1的融合网108的构造器的指令。

在计算机系统600执行指令626期间，指令626也可以全部或部分地驻留在易失性存储器604内和/或处理装置602内，因此，易失性存储器604和处理装置602也可以构成机器可读存储介质。

尽管在示意性示例中将计算机可读存储介质624示为单个介质，但是术语“计算机可读存储介质”应包括单个介质或多个介质(例如，集中式或分布式数据库、和/或关联的缓存和服务器)来存储一组或多组可执行指令。术语“计算机可读存储介质”还应包括能够存储或编码一组指令的任何有形介质，该组指令可以由计算机执行，从而使计算机执行本文所述的方法中的任何一种或多种。术语“计算机可读存储介质”应包括但不限于固态存储器、光学介质和磁性介质。

本文描述的方法、组件和特征可以由分立的硬件组件实现，或者可以集成在诸如ASICS、FPGA、DSP或类似装置的其他硬件组件的功能中。另外，方法、组件和特征可以由硬件装置内的固件模块或功能电路来实现。此外，可以以硬件装置和计算机程序组件的任何组合或以计算机程序来实现方法、组件和特征。

除非另有明确说明，否则诸如“接收”、“关联”、“确定”、“更新”之类的术语是指由计算机系统执行或实现的操作和实现的动作和过程，所述计算机系统将表示为计算机系统寄存器和存储器内的物理(电子)量的数据操纵和转换为类似地表示为计算机系统存储器或寄存器或其他这种信息存储、传输或显示装置内的物理量的其他数据。同样，本文所使用的术语“第一”、“第二”、“第三”、“第四”等意指在不同元件之间进行区分的标签，并且根据其数字名称可能不具有序数含义。

本文描述的示例还涉及用于执行本文描述的方法的设备。该设备可以被特别构造用于执行本文描述的方法，或者可以包括由存储在计算机系统中的计算机程序选择性地编程的通用计算机系统。这种计算机程序可以被存储在计算机可读的有形存储介质中。

本文所描述的方法和说明性示例与任何特定计算机或其他设备都不固有地相关。可以根据本文描述的教导来使用各种通用系统，或者可以证明构造更专用的设备来执行方法300和/或其各个功能、例程、子例程或操作中的每一个是方便的。在上面的描述中阐述了各种这些系统的结构的示例。

上面的描述意图是说明性的，而不是限制性的。尽管已经参考特定的说明性示例和实施方式描述了本公开，但是将认识到，本公开不限于所描述的示例和实施方式。本公开的范围应参考所附权利要求书以及权利要求书所赋予的等效物的全部范围来确定。

Claims

1.一种用于使用多个传感器装置检测对象的方法，包括：

由处理装置接收包括多个点的范围数据，所述多个点中的每一个与强度值和深度值相关联；

由所述处理装置基于所述多个点的强度值和深度值来确定围绕所述多个点中的点的集群的边界框；

由所述处理装置接收包括像素阵列的视频图像；

由所述处理装置确定所述视频图像中与所述边界框相对应的区域；以及

由所述处理装置将第一神经网络应用于所述区域，以确定由所述范围数据和所述视频图像捕获的对象。

2.根据权利要求1所述的方法，其中，所述多个传感器装置包括用于捕获所述范围数据的范围传感器以及用于捕获所述视频图像的摄像机。

3.根据权利要求1或2中任一项所述的方法，其中，由所述处理装置基于所述多个点的强度值和深度值来确定围绕点的集群的边界框还包括：

根据与所述多个点相关联的深度值将所述多个点分为多个层；以及

针对所述层中的每一个，

基于预定的阈值将与所述多个点相关联的强度值转换为二进制值；以及

将第二神经网络应用于所述二进制值以确定所述边界框。

4.根据权利要求3所述的方法，其中，所述第一神经网络或所述第二神经网络中的至少一个是卷积神经网络。

5.根据权利要求3所述的方法，其中，所述像素阵列中的每一个与亮度值(L)和两个颜色值(U，V)相关联。

6.根据权利要求5所述的方法，其中，由所述处理装置确定所述视频图像中与所述边界框相对应的区域还包括：

确定在指定所述范围传感器的传感器阵列的第一坐标系与指定所述摄像机的图像阵列的第二坐标系之间的映射关系；以及

基于所述边界框和所述映射关系确定所述视频图像中的区域，其中所述区域小于在全分辨率下的所述视频图像。

7.根据权利要求5所述的方法，其中，将第一神经网络应用于所述区域以确定由所述范围数据和所述视频图像捕获的对象包括：

将所述第一神经网络应用于与所述区域中的像素关联的亮度值(I)和两个颜色值(U，V)。

8.根据权利要求5所述的方法，其中，将第一神经网络应用于所述区域以确定由所述范围数据和所述视频图像捕获的对象包括：

将方向梯度直方图(HOG)滤波器应用于与所述区域中的像素相关联的亮度值；以及

将所述第一神经网络应用于与所述区域中的像素相关联的HOG滤波后的亮度值。

9.一种系统，包括：

传感器装置；

用于存储指令的存储装置；

通信地耦合到所述传感器装置和所述存储装置的处理装置，用于执行所述指令以：

接收包括多个点的范围数据，所述多个点中的每一个与强度值和深度值相关联；

基于所述多个点的强度值和深度值来确定围绕所述多个点中的点的集群的边界框；

接收包括像素阵列的视频图像；

确定所述视频图像中与所述边界框相对应的区域；以及

将第一神经网络应用于所述区域，以确定由所述范围数据和所述视频图像捕获的对象。

10.根据权利要求9所述的系统，其中，所述传感器装置包括用于捕获所述范围数据的范围传感器以及用于捕获所述视频图像的摄像机。

11.根据权利要求9或10中任一项所述的系统，其中，为了基于所述多个点的强度值和深度值来确定围绕点的集群的边界框，所述处理装置还用于：

针对所述层中的每一个，

将第二神经网络应用于所述二进制值以确定所述边界框。

12.根据权利要求11所述的系统，其中，所述第一神经网络或所述第二神经网络中的至少一个是卷积神经网络。

13.根据权利要求11所述的系统，其中，所述像素阵列中的每一个与亮度值(L)和两个颜色值(U，V)相关联。

14.根据权利要求13所述的系统，其中，为了确定所述视频图像中与所述边界框相对应的区域还包括：所述处理装置还用于：

15.根据权利要求13所述的系统，其中，为了将第一神经网络应用于所述区域以确定由所述范围数据和所述视频图像捕获的对象，所述处理装置用于：

将所述第一神经网络应用于与所述区域中的像素相关联的亮度值(I)和两个颜色值(U，V)。

16.根据权利要求15所述的系统，为了将第一神经网络应用于所述区域以确定由所述范围数据和所述视频图像捕获的对象，所述处理装置用于：

17.一种非暂时性机器可读存储介质，其存储指令，所述指令在被执行时使处理装置执行用于使用多个传感器装置检测对象的操作，所述操作包括：

由所述处理装置接收包括多个点的范围数据，所述多个点中的每一个与强度值和深度值相关联；

由所述处理装置接收包括像素阵列的视频图像；

18.根据权利要求18所述的非暂时性机器可读存储介质，其中，所述多个传感器装置包括用于捕获所述范围数据的范围传感器以及用于捕获所述视频图像的摄像机。

19.根据权利要求17或18中任一项所述的非暂时性机器可读存储介质，其中，由所述处理装置基于所述多个点的强度值和深度值来确定围绕点的集群的边界框还包括：

针对所述层中的每一个，

将第二神经网络应用于所述二进制值以确定所述边界框。

20.根据权利要求18所述的非暂时性机器可读存储介质，其中，所述第一神经网络或所述第二神经网络中的至少一个是卷积神经网络。