CN111201451B

CN111201451B - 基于场景的激光数据和雷达数据进行场景中的对象检测的方法及装置

Info

Publication number: CN111201451B
Application number: CN201880066076.0A
Authority: CN
Inventors: K·巴纳吉; M·何; S·加瓦拉朱
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2018-02-09
Filing date: 2018-11-22
Publication date: 2023-09-12
Anticipated expiration: 2038-11-22
Also published as: EP3525000A1; US11733386B2; WO2019154536A1; US20200301013A1; CN111201451A; EP3525000B1

Abstract

本公开涉及基于场景的激光雷达数据和雷达数据在场景中进行对象检测的概念：激光雷达数据和雷达数据被变换到公共坐标系。从雷达数据中提取不同的雷达点簇。从激光雷达数据中提取不同的激光雷达点簇并将每个激光雷达点簇与目标对象相关联。基于连续激光雷达图像之间相应激光雷达点簇的移动，估计目标对象的速度。将估计的目标对象的速度与对应的雷达点簇的速度信息进行比较，以识别对应的雷达点簇和激光雷达点簇。

Description

基于场景的激光数据和雷达数据进行场景中的对象检测的方法及装置

技术领域

本公开一般而言涉及环境传感器的技术领域，并且更具体地，涉及基于不同传感器的融合传感器数据的对象检测和/或分类。

背景技术

例如，自主汽车依靠各种传感器来感知其环境。为了建立其周围环境的一致模型(需要该模型以在其中进行安全操作)，可以融合不同传感器的数据。每种类型的传感器都有其自身的优点和缺点。例如，相机可以感知世界的颜色和纹理信息，并且擅长对对象进行分类。但是，它们的检测范围(range)是有限的，并且它们在有限的照明或不利的天气条件下表现不佳。LiDAR(光检测和测距)提供精确的距离(distance)信息，范围可以超过100m，并且能够检测小对象。它们在夜间也能很好地工作，但不提供颜色信息，并且它们的性能在大雨时会下降。雷达(无线电检测和测距)提供了精确的距离和速度信息，并且在恶劣的天气条件下也能很好地工作，但分辨率较低。

传感器融合大致可分为三个主要类别：低级传感器融合(LLF)、中级融合(MLF)和高级传感器融合(HLF)。HLF使用每个传感器单独地检测对象，并且随后融合这些检测。因此，利用有限的可用信息在本地进行对象检测。HLF一直是汽车OEM(原始设备制造商)最流行的融合技术，这主要是因为HLF使用了供应商提供的传感器对象列表并将它们集成到环境模型中。但是，由于传感器彼此之间未进行校准，因此该方法会引起振铃、像差和重复对象。防止发生这些问题的一种方法是融合原始传感器数据。这称为LLF。LLF本质上很复杂，并且面临一些挑战。需要对传感器进行准确的外部校准，以正确覆盖其对环境的感知。此外，传感器读数需要进行时间同步、速度同步以及自我运动补偿。传感器还具有不同的视野，并且需要使用多模式输入数据来训练模型，并且融合和检测算法需要能够实时运行。图1中的(a)和(b)示意性地示出了HLF和LLF数据融合体系架构。在HLF中，检测算法在每个传感器上运行以生成对象列表，然后将其馈送到融合模块中，在该融合模块中融合对象列表。在LLF中，将来自传感器的原始数据融合到融合模块中。之后，对融合数据进行检测。MLF是位于LLF之上的抽象，其中融合了从多个传感器数据中提取的特征。

鉴于这种背景，期望改进现有的用于融合传感器数据的对象检测概念。

发明内容

根据本公开的第一方面，提供了一种在由测距传感器的深度数据和相机的图像数据表示的场景中进行对象检测的方法。为了覆盖不同传感器对场景的感知，该方法包括将深度数据投影到图像数据上以生成投影深度数据。投影深度数据被编码为多通道信息以生成经编码的投影深度数据。然后，图像数据和经编码的投影深度数据被馈送到一个或多个卷积神经网络中，该卷积神经网络被配置为基于图像数据和经编码的投影深度数据来检测或分类场景中的对象。

在一些示例中，该方法包括将图像数据和经编码的投影深度数据馈送到卷积神经网络的一个或多个公共卷积层中以学习图像特征。然后将学得的图像特征馈送到卷积神经网络的一个或多个完全连接的层中，以检测或分类场景中的对象。这样的示例涉及LLF方法，其中多个通道的融合的混合数据被馈送到卷积神经网络中以学习特征，并且然后馈送通过完全连接的层以检测和分类对象(类分数)并预测对象的相应边界框。

在一些示例中，该方法包括将图像数据和经编码的投影深度数据馈送到相应的单独的卷积神经网络中以学习单独的特征、联接(例如，通过级联、求和、求平均等)学得的单独的特征，以及将联接的特征馈送到公共卷积神经网络中以检测或分类场景中的对象。这样的示例涉及MLF方法，其中每种数据类型的融合的混合数据被馈送到独立的卷积神经网络中以学习特征，并且然后学得的特征被级联并经由卷积神经网络馈送通过完全连接的层以检测和分类对象(类分数)并预测对象的相应边界框。

在一些示例中，对投影深度数据进行编码包括将相应的深度值编码为三通道颜色信息以生成经编码的投影深度数据。这样的示例涉及所谓的JET编码，JET编码是一种着色方案，其将每个像素i处的距离值d_i转换成三个通道，例如，每个通道具有8位值。这可以通过使用线性插值来实现。在其它示例中，对投影深度数据进行编码包括将相应的深度值编码到包括水平视差、地上高度和重力角的三个通道中以生成经编码的投影深度数据。这些示例涉及所谓的HHA编码，该编码将每个像素i处的距离值d_i转换成三个通道：水平视差、地上高度和重力角(HHA)。

在一些示例中，将深度数据投影到图像数据上包括生成包括用于将深度数据投影到图像数据上的旋转和平移部分的变换矩阵。这样的示例涉及在相机和测距传感器之间的所谓的外部校准，这是确定可以将测距传感器点投影到图像平面上的均匀(外部)变换矩阵T的处理。换句话说，测距传感器和相机之间的外部校准对应于找到它们各自坐标系之间的变换矩阵。外部校准可以将3D点变换成不同坐标系中的3D点。在这种情况下，它将来自测距传感器的3D点变换成相机坐标系中的3D点。除了所谓的外部校准(旋转+平移)，一些实施例还利用相机的固有校准。固有校准矩阵将3D点投影到2D图像上。即，投影(3D到2D)是通过固有相机矩阵完成的。

在一些示例中，生成变换矩阵包括确定最大化(相似度)函数的变换矩阵T

其中，N表示图像或帧的数量，i表示测距传感器点云X_i ^f中的第i个像素，并且E_i ^f表示从图像数据导出的边缘图像E中的第i个像素。

在一些示例中，测距传感器是LiDAR。但是，传送深度数据的其它测距传感器，诸如雷达或超声传感器，也是可能的。

在一些示例中，该方法还可以包括提供场景的附加雷达数据。场景的雷达数据被投影到图像数据和/或投影深度数据上。这样的示例涉及相机数据、LiDAR数据和雷达数据的融合，并且可以产生甚至更准确的结果。

在一些示例中，该方法还可以包括：基于从雷达数据中提取的位置和速度信息，将雷达数据分类为不同的雷达数据簇；以及为每个雷达数据簇计算相应的质心。这样的示例利用了雷达通常直接提供位置和径向速度测量的事实。

虽然雷达可以通过多普勒频移计算直接提供速度信息，但一些示例提议从深度数据(例如，LiDAR数据)中估计该属性。因此，该方法还可以包括：从深度数据(例如，LiDAR数据)中提取不同的点簇、将每个点簇与目标对象相关联、基于点簇的质心在连续帧之间的移动来估计目标对象的速度，以及将估计的目标对象的速度与对应的雷达数据簇的速度信息进行比较。

根据另一方面，本公开提供了一种用于在由测距传感器的深度数据和相机的图像数据表示的场景中进行对象检测的装置。该装置包括处理电路系统，该处理电路系统被配置为生成深度数据到图像数据上的投影。该处理电路系统还被配置为将深度数据的投影编码为三通道信息，以生成深度数据的编码投影。该装置包括一个或多个卷积神经网络，其被配置为基于图像数据和深度数据的编码投影来检测或分类场景中的对象。

在一些示例中，该装置包括：卷积神经网络的至少一个公共卷积层，其被配置为基于图像数据和深度数据的编码投影来学习图像特征；以及卷积神经网络的至少一个全连接的层，其被配置为基于学得的图像特征检测或分类场景中的对象。这样的示例涉及LLF方法，其中多个通道的融合的混合数据被馈送到卷积神经网络中以学习特征，并且然后馈送通过完全连接的层以检测和分类对象(类分数)并预测对象的边界框。

在一些示例中，该装置包括：第一卷积神经网络，被配置为基于图像数据学习第一特征；单独的第二卷积神经网络，被配置为基于深度数据的编码投影学习第二特征；处理器，被配置为联接学得的第一特征和第二特征；以及公共卷积神经网络，被配置为基于联接的特征检测或分类场景中的对象。这样的示例涉及MLF方法，其中每种数据类型的融合的混合数据被馈送到独立的CNN网络中以学习特征，并且然后学得的特征被级联并经由CNN馈送通过完全连接的层以检测和分类对象(类分数)并预测对象的边界框。

根据又一方面，本公开提供了一种车辆，该车辆包括：LiDAR，用于捕获车辆环境的深度图像数据；相机，用于捕获车辆环境的彩色图像数据；处理电路系统，被配置为生成深度图像数据到彩色图像数据上的投影，并将深度图像数据的投影编码为三通道信息，以生成深度图像数据的编码投影；以及一个或多个卷积神经网络，被配置为基于彩色图像数据和深度图像数据的编码投影来检测或分类车辆环境中的对象。

前述方面也可以可选地与以下方面结合。

根据本公开的另一方面，提供了一种基于场景的激光雷达数据和雷达数据进行场景中的对象检测的方法。该方法包括将激光雷达数据和雷达数据变换成公共坐标系、从雷达数据中提取不同的雷达点簇、从激光雷达数据中提取不同的激光雷达点簇并将每个激光雷达点簇与目标对象相关联、基于相应激光雷达点簇在连续激光雷达图像之间的移动来估计目标对象的速度，以及将估计的目标对象的速度与对应的雷达点簇的速度信息进行比较，以识别对应的雷达点簇和激光雷达点簇。

在一些示例中，将估计的目标对象的速度与对应的雷达点簇的速度信息进行比较包括将激光雷达点簇的质心的速度与雷达点簇的质心的速度进行比较。

在一些示例中，该方法还包括：如果对应的激光雷达点簇和雷达点簇的速度之间的差低于预定义的阈值，那么检测到对象(例如，另一个车辆)。

在一些示例中，该方法还提供场景的相机数据、将激光雷达数据投影到相机数据上以生成投影激光雷达数据、将投影激光雷达数据编码为多通道信息以生成经编码的投影激光雷达数据，以及将相机数据和经编码的投影激光雷达数据馈送到一个或多个卷积神经网络中，该卷积神经网络被配置为基于相机数据和经编码的投影激光雷达数据检测或分类场景中的对象。

在一些示例中，相机数据和经编码的投影激光雷达数据被馈送到卷积神经网络的公共卷积层中以学习图像特征，并将学得的图像特征馈送到卷积神经网络的完全连接的层中以检测或分类场景中的对象。

在一些示例中，相机数据和经编码的投影激光雷达数据被馈送到相应的单独的卷积神经网络中以学习单独的特征。学得的单独特征被联接，并且然后被馈送到公共卷积神经网络中，以检测或分类场景中的对象。

根据又一方面，本公开还提供了一种用于基于场景的激光雷达数据和雷达数据进行场景中的检测对象的装置。该装置包括处理电路系统，该处理电路系统被配置为将激光雷达数据和雷达数据变换成公共坐标系、从雷达数据中提取不同的雷达点簇、从激光雷达数据中提取不同的激光雷达点簇并将每个激光雷达点簇与目标对象相关联、基于相应的激光雷达点簇在连续激光雷达图像之间的移动来估计目标对象的速度，以及将估计的目标对象的速度与对应的雷达点簇的速度信息进行比较，以识别对应的雷达和激光雷达点簇。

本公开的实施例可以改善现有的校准方法并且导致更好的对象检测和定位准确度。例如，这对于开发和实现自主汽车是有帮助的。

附图说明

装置和/或方法的一些示例将在下面仅通过示例的方式并参考附图进行描述，其中

图1中的(a)和(b)示出了HLF和LLF体系架构的示例；

图2示出了对象检测方法的示意性流程图；

图3图示了使用来自视觉传感器的融合数据来实现对象检测的改进的示例方法；

图4图示了相机和LiDAR之间的外部校准的概念；

图5示出了示例边缘提取方法的可视化。(左侧)示出了经过校正的相机图像。(右侧)示出了使用Sobel运算符和高斯模糊的边缘提取图像；

图6示出了典型的人工神经网络的结构；

图7示出了卷积神经网络的结构；

图8图示了典型的CNN的体系架构，包含“狮子”的输入图像被馈送通过CNN并且被正确分类；

图9图示了卷积层的工作；

图10图示了池化层的工作；

图11示出了MLF体系架构，使用常规特征提取器(例如，CNN)在每个传感器上提取特征，然后将提取出的特征融合到融合模块中；

图12A、图12B示出了使用示例LFF方法和示例MLF方法的检测；

图13示出了示例传感器融合和对象检测管道的概述，左图可视化了传感器之间的外部校准并且仅被执行一次或仅在需要新校准时被执行，右图示出了周期性运行的传感器融合的管道和对象检测/定位；

图14图示了LiDAR、相机和雷达的外部校准的问题陈述，计算两个传感器之间的外部校准是指估计其坐标系之间的旋转R(R′)和平移t(t′)，从LiDAR到相机和从雷达到LiDAR的外部校准都是明确计算的；

图15图示了LiDAR和雷达坐标的测量结果，v_act表示目标车辆的实际速度，v_rad表示雷达返回的径向速度，并且P_x、P_y、v_x、和v_y表示从LiDAR检索到的位置和速度；

图16图示了基于场景的激光雷达数据和雷达数据在场景中进行对象检测的方法的流程图；以及

图17示出了具有相机、LiDAR和雷达传感器的车辆。

具体实施方式

现在将参考图示一些示例的附图更全面地描述各种示例。在各图中，为了清楚起见，线、层和/或区域的厚度可能被放大。

因此，虽然更多示例能够进行各种修改和替代形式，但是其一些具体示例在各图中示出并且将随后详细描述。但是，该详细描述不是将更多示例限于所描述的特定形式。更多示例可以涵盖落入本公开的范围内的所有修改、等同形式和替代形式。在整个各图的描述中，相同的附图标记指代相同或相似的元件，在提供彼此相同或相似的功能的情况下，当彼此相比较时它们可以完全相同地或以修改形式实现。

将理解的是，当元件被称为“连接到”或“耦合到”到另一个元件时，这些元件可以直接连接或耦合或经由一个或多个中间元件。如果两个元件A和B使用“或”组合，那么这应该被理解为公开了所有可能的组合，即，仅A、仅B以及A和B。相同组合的替代词语是“A和B中的至少一个”。对于两个以上元件的组合也是如此。

本文中用于描述特定示例的术语并不旨在限制更多示例。每当使用单数形式(诸如“一”、“一个”和“该”)并且仅使用单个元件既未明确定义也未隐式定义为强制性时，更多示例也可以使用多个元件来实现相同的功能。同样，当随后功能被描述为使用多个元件来实现时，更多示例可以使用单个元件或处理实体来实现相同的功能。将进一步理解的是，术语“包括”和/或“包含”在使用时指定存在所述特征、整数、步骤、操作、处理、动作、元件和/或部件，但不排除存在或添加一个或多个其它特征、整数、步骤、操作、处理、动作、元件、部件和/或其任何组。

除非另有定义，否则本文中使用的所有术语(包括技术和科学术语)均以其在示例所属领域的普通含义使用。

图2示出了由测距传感器的深度数据和相机的图像数据表示的场景中的对象检测的方法20的示意性流程图。

方法20包括将深度数据投影或变换21到图像数据上以生成投影深度数据。该动作也可以被称为校准，包括传感器之间的外部校准。方法20还包括将投影深度数据编码22为多通道信息以生成经编码的投影深度数据。然后可以将经编码的投影深度数据与图像数据融合或组合。然后，在动作23中，图像数据和经编码的投影深度数据(混合数据)可以被馈送到一个或多个卷积神经网络中，该卷积神经网络被配置为基于图像数据和经编码的投影深度数据来检测和/或分类场景中的对象。

方法20的不同动作将在下面更详细地描述。将详细介绍如何使用视觉和距离传感器的融合数据来实现目标检测的改进。这种传感器的示例是相机和LiDAR。但是，受益于本公开的技术人员将认识到，本文描述的概念不限于那些传感器，并且还可以应用于其它传感器类型。

相机的优点是价格便宜，并提供带有颜色的丰富且密集的信息。但是它们无法提供任何范围或深度信息，并且容易受到雨、雪和雾等天气条件的影响。另一方面，LiDAR具有提供距离信息的优点，并且不易受到天气的干扰，但缺点是价格昂贵、没有颜色信息并且由于具有移动零件而需要维护。提出使用这两种传感器的优点来提高对象检测准确度。提出使用来自相机的丰富密集颜色信息和来自LiDAR的距离信息。为了使用来自两种传感器的信息，需要对传感器进行外部校准，使得两种传感器都能看到同一场景。一旦获得相机和LiDAR之间的准确外部校正，就可以将LiDAR数据投影到相机图像上。然后，该融合数据可以用于改善对象检测。

如从图3中可以看到的，提出的示例处理中的主要任务是：

·校准相机和LiDAR(包括固有校准和外部校准)，

·融合来自相机和LiDAR的数据

·从融合数据生成混合数据，以及

·基于混合数据进行对象检测。

下面将详细介绍实现这些任务的示例算法。在本公开的上下文中的校准具有两个目的：通过消除传感器输出中的任何结构误差来改善传感器性能，以及确定多个传感器之间的几何关系。

相机校准或几何相机校准是指估计相机的镜头和图像传感器的参数的处理。大多数相机都是使用针孔相机模型建模的。针孔相机模型是没有镜头但具有小孔隙的简单相机模型。光线穿过孔隙，并将倒像投影在相机上。固有校准矩阵

可以用于根据下式将3D点(x₁，x₂，x₃)投影到2D图像平面上

其中f_y1和f_y2是以像素为单位的焦距，c_y1和c_y2是以像素为单位的图像中心坐标。s是偏斜因子，其说明像素的形状。大多数相机具有接近完美的矩形像素，这使得偏斜因子几乎等于0。

理想的针孔相机没有镜头，但是为了准确表示真实的相机，可以在模型中包括镜头。镜头带来的常见问题是变形。图像中通常会出现两种类型的变形，即径向变形和切向变形。对于(x，y)处的像素点，可以通过使用

x_corrected＝x(1+k₁r²+k₂r⁴+k₃r⁶)和

y_corrected＝y(1+k₁r²+k₂r⁴+k₃r⁶)

来校正径向变形。

(x_corrected，y_corrected)是输出图像上的校正点。k₁，k₂，k₃是径向变形系数。切向变形可以通过以下来校正：

x_corrected＝px+[2p₁xy+p₂(r²+2x²)和

y_corrected＝y+[p₁(r²+2y²)+2p₂xy]。

(x_corrected,y_corrected)是输出图像上的校正点。r是欧几里得距离r²＝x²+y²。p₁,p₂是切向变形系数。因此，相机的变形系数由(k₁,k₂,k₃,p₁,p₂)给出。

确定固有校准矩阵K的未知参数和未知变形系数(k₁,k₂,k₃,p₁,p₂)的处理被称为(固有)相机校准。这些未知参数可以使用几何方程式导出。校准算法的示例封闭形式解决方案需要在不同的朝向观察平面图案，然后基于最大似然准则进行非线性细化。

光检测和测距(LiDAR)传感器已经在自主汽车行业中变得流行，这是因为其具有非常高准确度且不依赖于天气条件的范围测量性质。LiDAR通常使用紫外线来确定到对象的距离。LiDAR的工作原理是在表面发射激光的快速脉冲，并且LiDAR中的接收器传感器测量每个脉冲反弹回所需的时间量。由于光速是恒定的，因此可以通过下式计算到对象的距离：

距离＝(光速×飞行时间)/2

在LiDAR中，激光束以测得的速度和位置旋转，从而使LiDAR能够知道周围环境的范围测量。LiDAR中使用的光源的波长决定了可以被测量的材料表面的最大分辨率和类型。使用最先进的LiDAR技术，有多个旋转激光束可以提供比单束LiDAR更密集的数据。例如，有16光束、32光束、64光束和128光束的LiDAR，其具有不同的视野和点云密度。当LiDAR正在旋转时，它们可以提供360°方位角视场(θ)和大约25°的高程视场LiDAR的固有校准是确定每个激光发射器到传感器的基本坐标系的变换矩阵的处理。LiDAR中的每个激光束都相对于垂直角度固定，并相对于旋转水平偏移。对于由LiDAR确定的每个点，应该应用旋转和水平校正因子，以获取3D空间中该点的确切位置。LiDAR的校准通常是由制造商完成并提供的，并且制造商遵循的处理并没有完全揭示出来。但是，本领域中存在各种未受监督的和受监督的固有LiDAR校准方法，为简洁起见，在此将不对其进行详细描述。

相机和LiDAR之间的外部校准是确定可以将LiDAR点投影到图像平面上的齐次变换矩阵(^cameraT_lidar)的处理。齐次变换矩阵将包括旋转矩阵(R)和平移矩阵(T)

^cameraT_lider＝[R_3×3 T_3×1]。

因此，将深度数据投影到图像数据上的动作21包括生成变换矩阵^cameraT_lidar，其包括用于将深度数据投影到图像数据上的旋转和平移部分。可以使用外部变换矩阵和相机固有矩阵，通过针孔相机模型根据下式开发的方程，将LiDAR测量点P_lidar投影到相机图像平面上作为2D点P_image

P_imaige＝K×^carneraT_lider×P_lider。

^cameraT_lidar是将LiDAR坐标系变换成相机坐标系的变换矩阵。P_image是相机图像平面中的点。K是通过使用针孔相机模型导出的相机固有矩阵。相机和LiDAR的外部校准是为了找到有效的^cameraT_lidar。由于传感器的特性，这具有挑战性。相机提供2D信息，并且LiDAR提供3D信息。

问题陈述是要找到可以准确地将点云数据(深度数据)从LiDAR投影到相机图像平面的校准参数。这将是齐次变换矩阵^cameraT_lidar，其可以有效地将所有LiDAR点投影到相机图像平面上。在本文描述的示例中，任务是找到总共有六个参数的准确^cameraT_lidar矩阵。这在图4中进行了图示，该图图示了相机和LiDAR之间的外部校准。目的是找到外部校准矩阵^cameraT_lidar，其将LiDAR点云数据变换到相机坐标系。在本文所示的示例中，^cameraT_lidar是3×4变换矩阵，其具有六个自由度，沿着X、Y和Z轴的三个平移参数和沿着X、Y和Z轴旋转的三个旋转参数，如图4所示。

为了找到相机和LiDAR之间的外部校准，本文提出从相机图像和LiDAR点云图像中提取边缘。然后可以针对不同的^cameraT_lidar值(假设)评估这些图像中边缘的相似度。该相似度分数可以用作良好的外部校准的度量。理想情况下，具有最大相似度分数的校准是最好的外部校准^cameraT_lidar。因此，目标是找到相机和LiDAR的外部校准，其可以将一系列LiDAR强度不连续性与相机图像边缘对齐。在以下各节中将详细介绍图像中的边缘提取、在点云中生成强度不连续性、制定相似度函数和优化器的详细信息。

可以对每个相机图像进行预处理以提取边缘。可以在两个步骤中导出边缘图像E：

·将图像转变成灰度。

·使用Sobel运算符从灰度图像中提取边缘。

可选地，可以模糊边缘以奖励与图像边缘几乎匹配的点云点。虽然该目的的一个选项是逆距离变换(IDT)，但另一个可能性是将IDT与侵蚀和膨胀配合使用，这可以提高对场景中阴影的鲁棒性。这里，提出为此目的使用高斯模糊，它也可以通过使边缘模糊来抑制边缘图像上的噪声。图5中示出了示例修整相机图像和对应的边缘提取模糊图像。左图示出了经过修整的相机图像。右图示出了使用Sobel运算符和高斯模糊的边缘提取图像。

可以处理来自LiDAR的点云以计算强度不连续性。为此，可以对点云P_i进行处理并将其变换成新的点云P_i ^new，其中可以如下为该P_i,j ^new中的每个点p分配值：

与使用范围不连续性不同，提出依赖强度不连续性。P_i,j ^new是指光束i的第j次测量的强度。从实验中可以观察到，使用强度值获得的校准结果好于使用范围测量获得的校准结果。使用强度不连续性更好校准的原因是，大多数带有边缘的平坦表面不具有任何范围不连续性，并且不同的材料不会展现范围不连续性而是展现强度不连续性。

一旦我们通过处理点云得出边缘图像E和强度不连续性P^new，我们就可以使用P_imaqe＝K×^cameraT_lidar×P_lidar将点云P^new中的所有点投影到图像平面上。我们提出定义相似度函数S，其用作有效外部校准的度量，如下所示：

其中，对于给定的外部变换T，点云X_i中的所有点都使用P_image＝K×^cameraT_lidar×P_lidar被投影到图像E上。相似度函数执行给定外部变换T的投影点云X与边缘图像E的按元素乘法，并返回点云X中所有点i上该乘法的总和。其中f遍历N帧。简而言之，相似度函数将某个外部校准矩阵T的每次激光扫描的强度不连续性总结为X倍于图像E的边缘。目的是找到外部变换矩阵^cameraT_lidar，其有效地将图像中的边缘与点云强度不连续性对齐，简而言之，使相似度函数S最大化。因此，生成或确定变换矩阵^cameraT_lidar包括确定使相似度函数S最大化的变换矩阵。由于固有变换T具有六个自由度，因此理想情况下，通过在整个六维搜索空间中搜索T的所有可能变换，使S最大化。目前，这种六维搜索无法实时有效地实现。相似度函数的搜索空间是高度非凸的，具有许多局部最大值。

找到使S最大化的准确的^cameraT_lidar是优化问题。该函数的最佳在线搜索可能是不可行的，并且该相似度函数没有分析方式的解决方案。可以在整个6维搜索空间中进行穷尽的网格搜索，以找到最佳校准。但是，这是穷尽的并且在计算上非常昂贵。另外，选择高效的网格尺寸始终具有挑战性。也可以使用粒子群优化来找到准确的校准。这种方法可能会像我们现有的方法那样在高维空间中陷入局部最优，并且在迭代处理中具有低的收敛速度。这里，提出使用通过二次逼近的边界优化(BOBYQA)：一种用于使S最大化的数值优化算法。BOBYQA解决了受约束的优化问题，而没有使用目标函数的导数。它使用通过插值形成二次模型的信任区域方法。简而言之，它是用于根据优化变量a≤x≤b的边界来找到黑盒函数F(x),的最小值或最大值的算法。F是为任何可行的x返回值F(x)的函数。BOBYQA对函数F采用二次逼近Q，使得它满足Q(y_i)＝F(y_i),i＝1,2,3,...,m。这些插值点是自动选择的。该二次模型用于通过使用最小化二次模型的二阶导数变化的Frobenius范数的技术来更新模型，从而解决信任区域半径下限较低的信任区域子问题。

由于我们目前无法实时确定S的全局最优值，因此可以执行离线校准处理来导出^cameraT_lidar，但是可以以很高的准确度跟踪外部校准。可以确定给定的外部校准C或外部变换^cameraT_lidar在阈值内是否正确。这里的思想是，对于给定的校准C，S_c是否是S的局部最优是确定校准是否正确的关键。可以执行半径为1的网格搜索，该搜索以所有六个维度上的给定校准C为中心，这会生成3⁶(729)个不同的S值，其中之一将是S_c本身，这是网格的中心。令F_c为S的728生成值中比S_c差的部分。思想是，当外部校准C正确时，这728个S值中的大多数应降低相似度分数，即，使F_c接近于1。如果给定的外部校准C不正确，那么这728个S值中的大多数将增加相似度分数，即，使F_c接近于0。

下一节将讨论来自相机和LiDAR传感器的原始数据融合。

为了融合或联接来自相机和LiDAR的数据，这些传感器之间的准确外部校准很重要。传感器之间不准确的外部校准可能会在融合数据中产生幻影对象和其它非期望的后果。前面的部分概述了如何在相机和LiDAR之间实现需要的准确外部校准。一旦确定了外部变换矩阵^cameraT_lidar和相机固有矩阵K，就可以使用P_image＝K×^cameraT_lidar×P_lidar将LiDAR点云投影到图像平面上。

在一个示例中，融合管道可以在机器人操作系统(ROS)中实现为中间件。相机和LiDAR原始数据主题的ROS订阅者负责在有来自传感器的新的传入数据时异步填充对应的消息缓冲区。例如，LIDAR可以以10Hz的频率生成数据，而相机可以以约30Hz的频率生成数据。融合处理可以在10ms的循环中运行，并且由于相机的数据速率更快，因此我们可以将来自相机的图像存储到图像缓冲区中。对于每个点云数据输入，可以在图像缓冲区中找到对该点云数据输入最近的图像。ROS时间戳可以用作确定最近的图像的参考。一旦找到最近的图像，就可以清除图像缓冲区，直到最近的图像的索引。可以使用^cameraT_lidar变换点云，然后使用相机固有矩阵K将其变换成最近图像的图像平面，从而产生融合的RGBD图像，其中RGB是图像信息，并且D是每个像素的深度信息。

提出了使用来自相机和LiDAR传感器的融合RGBD信息(D是相机图像中每个像素的深度信息)进行对象检测。用于对象检测的一种方法是将机器学习技术与神经网络一起使用，其中可以将标记的数据用于训练和评估神经网络。在对象识别的上下文中标记的数据是手动标记图像中每个关注对象的边界框，并为每个关注对象分配类别标签。手动进行数据标记非常昂贵且耗时，因为每个图像都需要使用边界框和类标记信息进行扩充。诸如对象检测之类的问题通常需要大量标记的数据集进行训练。由于获取标记数据非常昂贵，因此常用方法是使用类似问题的预训练网络。

有许多流行的基准数据集和像ImageNet这样的预训练网络可以用于图像数据。但是，对于来自LiDAR的深度数据，没有可用的预训练网络，也没有带有可以用于训练的深度信息的标记数据的任何可用的大规模基准数据集。一种提出的方法是以类似于具有三个通道(RGB)的图像数据的结构的方式来编码深度信息。这样我们就可以使用针对三通道图像数据设计的可用预训练网络和训练方法。为此，一种方法是使用JET着色方案。通过将JET着色方案应用于归一化深度值，获得三通道深度编码。即，编码投影深度数据的动作22可以包括将各个深度值编码为三通道颜色信息以生成经编码的投影深度数据。另一种方法是使用HHA编码(水平视差、地上高度、重力角)。通过从深度图像提取HHA特征来获得三通道深度编码。在这个示例中，编码22投影深度数据因此包括将各个深度值编码成包括水平视差、地上高度和重力角的三个通道，以生成经编码的投影深度数据。一旦我们将深度信息编码到类似于RGB的三个通道中，我们就具有六通道混合数据。取决于所使用的深度经编码的类型，我们或者具有RGB-JET或者具有RGB-HHA数据。

可以对投影的稀疏点云进行上采样，然后可以应用深度编码来生成混合数据。双边过滤可以用于对来自LiDAR的稀疏深度信息进行上采样。由于我们的深度图I已经相对于相机进行了校准，并且已投影到图像平面上，因此可以按下式对投影的深度图I进行上采样：

N是邻域掩码，并且下标_p表示深度图中像素位置_p处的强度值。D_p是稀疏输入深度图I的上采样深度图。G_σs和G_σr是权重，其针对函数距离对点进行惩罚。W_p是权重的归一化因子。

然后可以使用JET或HHA编码将上采样的深度图编码到三个通道中。

JET编码是一种着色方案，它将距离上采样深度图的距离值转换成三个各自具有8位值的通道。这可以使用线性插值来实现。可以首先使用深度图中的最大距离对深度图中的距离值进行归一化。像素i的归一化深度值d_i可以被转换到三通道RGB中作为r_i，g_i，bi，如下所示：

d_i＝d_i/max

r_i＝J(d_i-0.25)

g_i＝J(d_i)

b_i＝J(d_i+0.25)

这里，interpolate(val，y₀，x₀，y₁，x₁)是简单的线性函数，其按下式在点(x₀，y₀)和(x₁，y₁₎之间插值val

可以从上采样深度图中提取HHA特征。HHA编码将每个像素i处的距离值d_i转换成3个通道的水平视差、地上高度和重力角(HHA)作为h₁,h₂和a。HHA对像地心姿势这样的属性进行编码，这对于神经网络来说很难从有限的深度数据中学习。生成HHA的算法是已知的。原始点云可能不在地心系中。我们可以估计表面法线场(normal field)，并从当前的重力方向估计(即Y轴)开始，并估计所有水平和垂直表面。然后，我们基于水平和垂直表面的估计重新估计重力方向，从而更新重力估计。重复进行五次迭代，这将改善重力方向估计。该算法试图在尽可能多的点处找到与局部估计的表面法线方向基本对齐的方向。该算法从重力向量的估计开始，并通过以下两个步骤使用该估计对其进行迭代细化。

·如下估计水平和垂直表面：

g_i-1是当前重力估计，d是由局部表面法线与g_i-1形成的阈值，并且θ(a,b)给出了a和b之间的角度。

·估计与N_horz中的法线对齐并与N_ver中的法线正交的新重力方向g_i。这无非是找到具有的最小本征值的本征向量，如下所示：

下一节将说明使用机器学习技术进行对象检测的示例，并详细说明可以用于对象检测的不同示例网络体系架构。

用于对象检测的一种流行技术是使用神经网络。神经网络具有处理像图像流这样的高维数据的能力。神经网络的基本构建模块被称为神经元，它接收输入、执行具有神经元权重的点积并将其传递。神经网络接收输入并通过一系列层对其进行变换。每层都由许多神经元组成，每个神经元都连接到前一层中的所有神经元。最后一个完全连接的层被称为输出层。隐藏层是神经元连接到下一层中所有神经元的输入的地方，因此在网络输出中不可见(因此称为“隐藏层”)。规则神经网络的结构如图6所示。

称为卷积神经网络(CNN)的一类特殊的神经网络专门用于图像处理任务，如对象识别和分类。与常规神经网络不同，CNN的基本假设是：输入是图像，并且神经元沿着宽度、高度和深度在三个维度布置。图7示出了CNN块。CNN具有一系列的层，并且每层通过差分函数将激活变换成另一层。CNN中的主要层是卷积层、池化层和完全连接层。典型的CNN结构将是这些层的堆叠，如图8所示。CNN的基本思想是将原始图像从原始像素值逐层变换成最终图像类。

卷积层(conv层)是CNN的核心构建块。Conv层由许多过滤器组成，并且每个过滤器沿着宽度和高度在空间上较小，但延伸到输入体积的整个深度。因此，尺寸为5×5×3的示例过滤器是尺寸为5像素宽度、5像素高度并且跨越深度3的过滤器。一般而言，第一层具有三的深度，因为图像通常具有三个通道R，G，B。每个过滤器在输入体积的宽度和高度上滑动，并计算过滤器和输入像素值在任何位置之间的点积。这种滑动处理被称为卷积，因此该层被称为卷积层。当我们对过滤器在输入体积的宽度和高度上进行卷积时，我们生成了2D激活图，该图给出了过滤器在每个空间位置的响应。换句话说，网络学习过滤器，过滤器在其看到一些视觉特征(例如边缘或颜色不连续等)时会激活。在卷积之后，我们对每个conv层都有完整的过滤器，并且它们产生单独的2D激活图。这些激活图沿着深度维度堆叠以产生输出体积，该体积作为下一层的输入给出。

图9示出了卷积层的工作。深度、跨度和零填充等超级参数控制输出体积的尺寸。输出体积的深度对应于我们将使用的过滤器的数量。跨度是我们滑动过滤器所利用的单位，如果跨度为2，那么我们每次将过滤器滑动2个像素。大跨度值产生较小的输出体积。有时，输入体积的边界周围用零填充，以保留输入体积的空间尺寸，使得输入和输出具有相同的宽度和高度。对于尺寸为W_i×H_i×d_i的输入体积，输出体积尺寸W_o×H_o×D_o可以如下计算：

W_o＝(W_i-F)/S+1

H_o＝(H_i-F)/S+1

D_o＝D_i

K是过滤器的数量，F是过滤器的尺寸，S是跨度，P是填充量。

可以在conv层之间插入可选的池化层。该层的功能是逐渐减小表示形式的空间尺寸，以便减少参数的数量。这也有助于控制过度拟合。池层从深度切割输入层，并使用max运算符在空间上重新调整其尺寸。对于尺寸为W_i×H_i×d_i的输入体积，输出体积尺寸W_o×H_o×D_o如下计算：

W_o＝(W_i-F)/S+1

H_o＝(H_i-F)/S+1

D_o＝D_i

F是过滤器尺寸，S是跨度。有许多方法不使用池化层，但通过在conv层中使用较大的跨度来减小网络的尺寸。池化层的示例如图10所示，图10图示了在具有2×2过滤器和跨度为2的深度切片上的公共最大池化。

顾名思义，完全连接的层与前一层中的所有激活都具有完全连接，如图6所示。CNN的典型体系架构是由很少的conv层和后面跟着的池层组成的堆叠，并且重复该模式并将其转换成完全连接的层。最后一个连接的层是具有类分数的输出层。有许多流行的CNN体系架构，例如LeNET、AlexNet、ZFNet、GoogleNet、VGGNet、ResNet和CapsuleNet。VGGNet具有conv层，其过滤器为3×3，跨度为1，并且填充为1。池层的最大池化为2×2，并且跨度为2。

另一个众所周知的对象检测系统是基于区域的卷积神经网络(R-CNN)，它将区域提议的概念与由卷积网络计算的丰富特征相结合。R-CNN使用选择性搜索生成基本上是边界框的区域提议，即搜索图像并尝试根据颜色、强度等将相邻像素分组在一起。一旦生成区域提议，这些提议就被包装到区域中并传递给像AlexNet这样的标准CNN体系架构，并且AlexNet的最后一层具有支持向量机(SVM)来对对象进行分类。最后，对区域提议进行线性回归以生成更可靠的边界框。R-CNN相对较慢，因为它在预测处理中有多个步骤—这些步骤如下：

·生成区域提议

·通过训练CNN来计算提议的特征

·对区域进行分类

·线性回归以缩紧边界框

可以将R-CNN改进为快速R-CNN，以解决这些多个步骤，其中的关键更改是使用关注区域(RoI)池化。RoI池化的基本思想是，CNN每个图像只运行一次，而不是像在R-CNN中那样针对图像的每个区域提议运行CNN。因此，将创建图像的前向传递(forward pass)，并从该结果前向传递中提取特定区域提议的卷积特征。第二个更改是要有工作的联合训练框架来联合训练CNN分类器和边界框回归器作为单个模型。

快速R-CNN仍然具有通过选择性搜索生成区域提议的附加步骤，该步骤生成关注区域作为初始步骤。生成区域提议的这一附加步骤使处理变慢。更快速的R-CNN是在快速R-CNN之上构建的体系架构，其使得区域提议的这一步骤几乎无成本。更快速的R-CNN的思想是，区域提议取决于图像的特征，这些特征是通过CNN的前向传递而不是单独的选择性搜索来计算的。单个CNN用于生成区域提议以及对象分类。这是通过区域提议网络(RPN)实现的，该区域提议网络在CNN生成的图像特征上滑动窗口。在每个滑动窗口位置，网络预测多个区域提议，每个区域提议输出每个锚点的分数和边界框。RPN是卷积层，其输出层连接到对对象进行分类的分类层以及预测边界框的坐标的回归层。在每个滑动窗口位置，提议了K个区域，分类层具有2k个输出(对象或非对象)，并且回归层具有4k个输出(边界框的坐标)。RPN也是平移不变的。可以给与具有任意地面真值边界框的、具有大于0.7的“联合体上交叉”(IoU)的锚点对象标签或正标签。所有其它锚点被给与不是对象标签或负标签，并且IoU小于0.3的、具有地面真值边界框的锚点都被给与负标签。

可以使用多重损失函数来训练RPN，如下所示：

其中i是锚点的索引，p_i是锚点i的预测概率，如果锚点为正，那么p_i*为1，并且如果锚点为负，那么p_i*为0。这意味着不为正的标签不会对训练有所贡献。t_i是预测边界框坐标的向量。t_i*是正锚点的地面真值边界框坐标的向量。L_cls是分类损失，其是两个类(对象与非对象)的对数(log)损失。L_reg是回归损失，它是L_reg＝R(T_i-T_i*)，其中R是鲁棒损失。对于正锚点，p_i*＝1，并且对于其它，p_i*＝0。分类层的输出为{p_i}，并且回归层的输出为{ti}。对于边界框回归，可以如下参数化四个坐标：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a

t_w＝log(w/w_a)，t_h＝log(h/h_a)

/>

x,y,w,h是具有宽度和高度的预测边界框的坐标。x_a,y_a,w_a,h_a是具有宽度和高度的锚点边界框的坐标。x^*,y^*,w^*,h^*是具有宽度和高度的地面真值边界框的坐标。

这些预测的边界框可以从RPN传递到快速R-CNN，后者对对象进行分类并生成更严格的边界框。因此，基本上，更快速的R-CNN具有用于生成对象提议的RPN，该对象提议将使用某种基本的CNN体系架构被传递给快速R-CNN，以对对象进行分类并生成更紧密的边界框。本质上，更快速的R-CNN＝RPN+快速R-CNN。由于我们需要训练RPN和快速R-CNN，因此更快速的R-CNN可以使用4步交替训练方法，这4个步骤如下：

·RPN被训练，其中网络使用ImageNet预先训练的模型权重进行初始化，并针对区域提议进行端到端的微调。

·使用ImageNet预训练模型权重初始化的快速R-CNN使用先前训练的RPN的提议进行训练。

·检测层与RPN共享，并且仅训练特定于RPN的层。

·仅训练快速R-CNN层，从而固定共享的conv层。

这种方法使两个网络共享conv层，并使它成为训练RPN和快速R-CNN的统一方法。管道将拍摄图像、计算区域提议、并且然后计算基于CNN的特征。这些CNN可以在像具有一百万个图像和数千个标签的ImageNet这样的大型数据集上进行训练。然后针对我们的特定任务微调CNN。仅仅将深度图像馈送到CNN中是不好的，我们可以通过使用JET这样的编码或将地心嵌入作为HHA来编码深度信息并将其转换成RGB这样的结构，从而提高性能。

提出了使用更快速的R-CNN网络对融合的混合数据进行对象检测。如前所述，可以以多种方式实现多个传感器数据的融合。HLF在汽车原始设备制造商(OEM)中最受欢迎，因为它使用供应商提供的传感器对象列表，并将它们融合到环境模型中或对融合数据执行对象检测。但是由于传感器之间未进行校准，因此该方法会在融合的环境模型中引起像差和幻影对象。防止这种情况的一种方法是像LLF一样融合原始传感器数据。但是要实现LLF，还需要在传感器之间进行非常准确的外部校准。我们在本公开中使用的另一个提议被称为中级融合(MLF)，其中融合从多个传感器提取的特征。MLF使用从传感器提取的特征，而不是像HLF中那样使用对象列表或LLF中那样使用原始数据。图11示出了MLF的体系架构。使用常规特征提取器(例如，CNN)在每个传感器上提取特征，然后在融合模块中融合提取出的特征。为了使用LLF方法实现对象检测，可以将所有深度编码通道和RGB通道馈送到同一神经网络中，而对于使用MLF方法进行对象检测，每种数据类型(深度和RGB)被馈送到单独的网络中以计算特征并且然后在最后阶段融合。在MLF中使用单独的网络进行特征提取具有基于数据类型选择网络以进行特征提取的优势。

在本公开的实施例中，更快速的R-CNN可以用于对象检测。但是我们的示例输入数据是混合数据，其由六个通道组成，这些通道是RGB-HHA或RGB-JET，它们是由相机和LiDAR数据的融合所产生的，如前面所讨论的。对于LLF，提出修改更快速的R-CNN的输入层以接收六通道混合数据，如图12A所示。这里，将包括图像数据122和编码深度数据123的混合数据121馈送到公共卷积神经网络(CNN)125的一个或多个公共卷积层124中，以学习图像特征126。然后，将学得的图像特征126馈送到卷积神经网络的一个或多个完全连接的层127中，以检测或分类场景中的对象。更快速的R-CNN可以将VGG16体系架构用于CNN，并且可以使用例如ImageNet预训练权重进行初始化。为了说明六通道输入，可以将前三个通道(RGB)的过滤器权重复制到深度编码数据(JET/HHA)的其余三个通道。

由于图12B所示的MLF具有独立的网络，以从不同的数据类型(即RGB和深度编码数据)中提取特征，并在以后的阶段将这些特征组合在一起。这里，图像数据122和编码深度数据123被馈送到各个单独的卷积神经网络128、129中，以学习单独的特征130、131。学得的单独的特征130、131被级联以生成级联特征132。然后将级联特征132馈送到一个或多个完全连接的层134的公共卷积神经网络133中，以检测或分类场景中的对象。为了本公开的说明性目的，我们将具有VGG16体系架构的更快速的R-CNN用于CNN。我们使用两个分支，一个用于RGB，一个用于深度编码数据，这两个分支的体系架构相同，都包含来自更快速的R-CNN的VGG16的前四个卷积层块。在第五个完全连接的层处合并这些学得的卷积特征。也可以通过ImageNet的预训练权重初始化针对MLF的修改后的更快速的R-CNN。深度分支和RGB分支使用相同权重初始化。由于我们在第五个完全连接的层将相机和LiDAR的卷积网络合并在一起。可以将这一层的权重除以2，以解决合并来自RGB和深度的conv层导致的双重输入。

除了LidAR和相机之外，雷达可以可选地用在现有的传感器融合体系架构中。已经针对基于目标的相机雷达校准以及LiDAR雷达校准的主题进行了广泛的研究，其中主要使用参考目标，诸如金属面板和角反射镜。基于目标的校准技术利用专门设计的目标对象来最大化目标的雷达感知，这些目标实际上无法捕获有关目标尺寸或结构的信息。但是，为了与所提出的相机LiDAR校准算法一致，本公开还提出了可以与先前描述的实施例结合的无目标雷达校准方法(参见图13)。代替目标，它使用在环境中检测到的多个动态对象作为对应点。提出的用于LiDAR和雷达的外部校准的方法可以独自使用，或者可以作为所描述的相机和LiDAR传感器数据的组合的附加使用。

在后一种情况下，方法20还可以包括提供场景的雷达数据并将场景的雷达数据投影到图像数据和/或投影深度数据上。雷达在水平平面中扫描，并且仅提供2D坐标中的方位角信息。通过将3DLiDAR点投影到2D图像平面上，可以通过平面单应性估计来确定LiDAR与雷达坐标系之间的变换。如图14所示，LiDAR、图像和雷达的坐标分别为(X_l,Y_l,Z_l),(u,v)和(x_r,y_r)。使用齐次坐标，它们之间的变换可以描述为：

对于LiDAR到图像坐标转换(这里^IT_C＝K)，描述为：

对于雷达到图像坐标变换，其中H是3×3单应性矩阵。它具有8个DOF，并且h₃₃被设置为1。我们可以从同一时间帧捕获的LiDAR和雷达收集(x_r,y_r)和(u,v)对应关系。这些对应关系是具有匹配的速度的目标对象(例如，车辆)的坐标。每对对应的(x_r,y_r)和(u,v)坐标给出了两个线性独立的方程。我们可以使用四个对应的数据对和带有代数距离的最小二乘估计来求解H。

接下来，我们描述如何确定(x_r,y_r)和(u,v)的对应数据对。雷达同时提供位置和径向速度测量。可以针对一个目标对象(例如，车辆)返回点数据形式的若干测量。基于位置和速度，我们可以将点分类为簇，使得一个簇对应于一个目标。然后，我们可以计算每个簇的质心。因此，可以基于从雷达数据提取的位置和速度信息将雷达数据分类为不同的雷达数据簇，可以为每个雷达数据簇计算各自的质心。我们不依靠雷达测得的其它物理量，例如，雷达横截面(RCS)。RCS衡量对象被雷达检测的可检测程度，并受许多特征的影响，这些特征包括但不限于目标材料、尺寸和角度。因此，与目标车辆相比，不相关的对象(诸如不锈钢垃圾桶和人孔盖)通常具有更高的RCS值。此外，由于雷达光束撞击汽车的不同部位，入射角和反射角的变化会导致各个目标车辆的RCS值不一致。我们的分析表明，RCS在实际的城市场景中具有误导性。

虽然雷达通过多普勒频移计算直接提供了速度信息，但我们只能从LiDAR PC估计该属性。为了进行速度估计，我们首先在不同时间帧内从LiDAR PC提取簇。每个簇表示一个目标车辆。然后，在连续的时间帧内将属于同一车辆的簇集成到一个单个轨道中。然后，可以从连续帧之间的簇质心的位置差异中获得目标速度估计。最后，我们使用下式将这些估计的速度和位置转换成径向坐标

以符合雷达测量的格式。图15图示了LiDAR和雷达坐标的测量结果，v_act表示目标车辆的实际速度，v_rad表示雷达返回的径向速度，并且P_x,P_y,v_x,和v_y表示从LiDAR检索到的位置和速度。速度彼此匹配的LiDAR和雷达簇的质心形成用于单应性估计的对应数据对。因此，可以从深度数据中提取不同的点簇，并且每个点簇可以与目标对象相关联。可以基于点簇的质心在连续帧之间的移动来估计目标对象的速度。可以将估计的目标对象的速度与对应的雷达数据簇的速度信息进行比较。速度彼此匹配的那些目标对象形成用于单应性估计的对应数据对。

在图16中总结了之前描述的示例处理，其示出了基于场景的激光雷达(图像)数据和雷达(图像)数据在场景中进行对象检测的方法160的流程图。方法160包括将激光雷达数据和雷达数据变换到公共坐标系的动作161、从雷达数据提取162不同的雷达点簇的、从激光雷达数据中提取不同的激光雷达点簇并将每个激光雷达点簇与目标对象相关联的动作163、基于连续激光雷达图像之间相应激光雷达点簇的移动来估计164目标对象的速度，以及将估计的目标对象的速度与对应雷达点簇的速度信息进行比较165以识别对应的雷达和激光雷达点簇。

受益于本公开的技术人员将认识到的是，方法160的各种实施例可以与图2的方法20的各种实施例结合。

图17示出了包括LiDAR 171和相机172的车辆170，其中LiDAR171用于捕获车辆环境的深度图像数据，而相机172用于捕获车辆环境的图像数据。车辆170还包括处理电路系统173，其被配置为生成深度图像数据在图像数据上的投影，并且将深度图像数据的投影编码为多通道信息以生成深度图像数据的经编码的投影。处理电路系统173包括一个或多个卷积神经网络，其被配置为基于图像数据和深度图像数据的经编码的投影来检测或分类车辆环境中的对象。可选地，车辆170还可以包括一个或多个雷达传感器174。在这种情况下，处理电路系统173可以附加地被配置为将激光雷达图像数据和雷达图像数据变换到公共坐标系、从雷达图像数据中提取不同的雷达点簇、从激光雷达图像数据中提取不同的激光雷达点簇并将每个激光雷达点簇与目标对象相关联、基于连续激光雷达图像之间相应激光雷达点簇的移动来估计目标对象的速度，以及将估计的目标对象的速度与对应雷达点簇的速度信息进行比较以识别对应的雷达和激光雷达点簇。

总而言之，本公开的一些实施例提出使用早期融合的数据集来使用与特定传感器数据(例如，密集/稀疏)相关的深层神经网络来生成详尽的特征图，以编码场景的适当表示。可以在一些中间卷积层融合这种多传感器表示，以保留更好的定位以及更好的分类准确度。

另外，代替使用不一致的RCS值雷达融合技术，本公开提出依赖来自雷达的速度返回并且还确定性地跟踪并估计LiDAR点云中的对象速度。这可以产生正确的对象跟踪和定位，并因此产生雷达与LiDAR之间的稳健融合。这个处理是轻量级的，并且还可以与其它现有的相机-LiDAR融合管道实时运行。

与先前详细的示例和附图中的一个一起提到和描述的方面和特征也可以与其它示例中的一个或多个组合，以便替换其它示例的相似特征或以便附加地向其它示例引入特征。

当计算机程序在计算机或处理器上执行时，示例还可以是或涉及具有用于执行上述方法中的一个或多个的程序代码的计算机程序。各种上述方法的步骤、操作或处理可以由编程的计算机或处理器执行。示例还可以覆盖程序存储设备，诸如数字数据存储介质，它们是机器、处理器或计算机可读的，并且对指令的机器可执行程序、处理器可执行程序或计算机可执行程序进行编码。指令执行或促使执行上述方法的动作中的一些或全部。程序存储设备可以包括或可以是例如数字存储器、磁存储介质(诸如磁盘和磁带)、硬盘驱动器或光学可读数字数据存储介质。更多示例还可以涵盖被编程为执行上述方法的动作的计算机、处理器或控制单元，或者被编程为执行上述方法的动作的(现场)可编程逻辑阵列((F)PLA)或(现场)可编程门阵列((F)PGA)。

描述和附图仅仅说明了本公开的原理。此外，本文中列举的所有示例原则上明确地仅旨在用于教学目的，以帮助读者理解本公开的原理以及(一个或多个)发明人为进一步发展本领域做出的贡献。本文中列举本公开的原理、方面和示例以及其特定示例的所有陈述旨在涵盖其等同形式。

表示为“用于”执行某个功能“的装置”的功能块可以指被配置为执行某个功能的电路。因此，“用于某事的装置”可以被实现为“被配置为适于某事的装置”，诸如被配置为或适于相应任务的设备或电路。

附图中所示的各种元件的功能，包括标记为“装置”、“用于提供信号的装置”、“用于生成信号的装置”等的任何功能块，可以以专用硬件的形式实现，诸如“信号提供器”、“信号处理单元”、“处理器”、“控制器”等，以及能够与适当软件相关联地执行软件的硬件。当由处理器提供时，功能可以由单个专用处理器、由单个共享处理器或由多个单独的处理器提供，其中一些或全部可以被共享。但是，术语“处理器”或“控制器”到目前为止不仅限于专门能够执行软件的硬件，而是还可以包括数字信号处理器(DSP)硬件、网络处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、用于存储软件的只读存储器(ROM)、随机存取存储器(RAM)和非易失性存储器。还可以包括常规的和/或自定义的其它硬件。

框图例如可以图示实现本公开原理的高级电路图。类似地，流程图、流图、状态转移图、伪代码等可以表示各种处理、操作或步骤，其可以例如基本上在计算机可读介质中表示并且因此由计算机或处理器执行，无论是否明确示出了此类计算机或处理器。说明书或权利要求书中公开的方法可以由具有用于执行这些方法的各个动作的装置的设备来实现。

应该理解的是，说明书或权利要求书中公开的多个动作、处理、操作、步骤或功能的公开不能被解释为在特定次序内，除非例如出于技术原因而明确地或隐含地指出。因此，多个动作或功能的公开将不会将它们限制到特定的次序，除非出于技术原因这些动作或功能不可互换。此外，在某些示例中，单个动作、功能、处理、操作或步骤可以分别包括或可以分解成多个子动作、子功能、子处理、子操作或子步骤。除非明确排除，否则此类子动作可以包括在这单个动作的公开内并且是这单个动作的公开的一部分。

此外，以下权利要求据此被结合到详细描述中，其中每个权利要求可以独立地作为单独的示例。虽然每个权利要求可以独立地作为单独的示例，但是应该注意的是-虽然从属权利要求在权利要求中可以指与一个或多个其它权利要求的特定组合，但其它示例也可以包括从属权利要求与每个其它从属或独立权利要求的主题的组合。除非指出不意图特定的组合，否则本文明确地提出这样的组合。此外，意图是将权利要求的特征也包括到任何其它独立的权利要求中，即使这个权利要求没有直接依赖于该独立权利要求。

Claims

1.一种基于场景的激光雷达数据和雷达数据在场景中进行对象检测的方法，该方法包括：

将激光雷达数据和雷达数据变换到公共坐标系；

从雷达数据中提取不同的雷达点簇；

从激光雷达数据中提取不同的激光雷达点簇并将每个激光雷达点簇与目标对象相关联；

基于连续激光雷达图像之间相应激光雷达点簇的移动，估计目标对象的速度；以及

将估计的目标对象的速度与对应的雷达点簇的速度信息进行比较，以识别对应的雷达点簇和激光雷达点簇，

其中将估计的目标对象的速度与对应的雷达点簇的速度信息进行比较包括将激光雷达点簇的质心的速度与雷达点簇的质心的速度进行比较。

2.如权利要求1所述的方法，还包括

如果对应的激光雷达点簇和雷达点簇的速度之间的差异低于预定义的阈值，那么检测到对象。

3.如权利要求1或2所述的方法，还包括

提供场景的相机数据；

将激光雷达数据投影到相机数据上以生成投影激光雷达数据；

将投影激光雷达数据编码为多通道信息，以生成经编码的投影激光雷达数据；以及

将相机数据和经编码的投影激光雷达数据馈送到一个或多个卷积神经网络，所述卷积神经网络被配置为基于相机数据和经编码的投影激光雷达数据来检测或分类场景中的对象。

4.如权利要求3所述的方法，包括

将相机数据和经编码的投影激光雷达数据馈送到卷积神经网络的至少一个公共卷积层中，以学习图像特征；以及

将学得的图像特征馈送到卷积神经网络的至少一个完全连接的层中，以检测或分类场景中的对象。

5.如权利要求3所述的方法，包括

将相机数据和经编码的投影激光雷达数据馈送到相应的分别的卷积神经网络中，以学习分别的特征；

联接学得的分别的特征；以及

将联接的特征馈送到公共卷积神经网络中，以检测或分类场景中的对象。

6.如权利要求3所述的方法，其中对投影激光雷达数据进行编码包括将相应的深度值编码为三通道颜色信息，以生成经编码的投影激光雷达数据。

7.如权利要求3所述的方法，其中对投影激光雷达数据进行编码包括将相应的深度值编码到包括水平视差、地上高度和重力角的三个通道中，以生成经编码的投影激光雷达数据。

8.如权利要求3所述的方法，其中将激光雷达数据投影到相机数据上包括生成包括用于将激光雷达数据的坐标系变换到相机数据的坐标系上的旋转和平移部分的变换矩阵。

9.如权利要求8所述的方法，其中生成变换矩阵包括确定使以下表达式最大化的变换矩阵T

其中，N表示图像的数量，i表示激光雷达点云X_i ^f中的第i个像素，并且E_i ^f表示从相机数据导出的边缘图像E中的第i个像素。

10.一种基于场景的激光雷达数据和雷达数据在场景中进行对象检测的装置，该装置包括

处理电路系统，被配置为

将激光雷达数据和雷达数据变换到公共坐标系；

从雷达数据中提取不同的雷达点簇；

11.一种车辆，包括

激光雷达，用于捕获车辆环境的激光雷达数据；

雷达，用于捕获车辆环境的雷达数据；

处理电路系统，被配置为

将激光雷达数据和雷达数据变换到公共坐标系；

从雷达数据中提取不同的雷达点簇；