CN117409393A

CN117409393A - 一种焦炉机车激光点云与视觉融合障碍物检测方法及系统

Info

Publication number: CN117409393A
Application number: CN202311449859.6A
Authority: CN
Inventors: 张荣华; 龚达; 蒋昌名; 王保红; 郭锋; 魏琛; 于兵团; 李振宇; 王印飞
Original assignee: Beijing Tongchuang Xintong Technology Co ltd
Current assignee: Beijing Tongchuang Xintong Technology Co ltd
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-01-16

Abstract

本申请公开了一种焦炉机车激光点云与视觉融合障碍物检测方法及系统。具体包括通过摄像头和三维激光雷达进行数据采集，将三维激光雷达所获取的实时激光点云数据经过3D目标检测算法确定出障碍物3D边界框；使用不同焦距的摄像头采集图像通过卷积神经网络进行障碍物检测并实现单目测距；将二者传感器的检测结果投影到二维平面成BEV表示，最后通过近距离同类目标匹配，进行加权平均事后融合确定最终检测结果。通过事后融合降低误检率，提高了目标检测的准确性和鲁棒性，本发明实现了快速高效的实现了焦炉机车视觉与激光点云融合目标检测。

Description

一种焦炉机车激光点云与视觉融合障碍物检测方法及系统

技术领域

本发明涉及炼焦技术领域，特别涉及一种焦炉机车激光点云与视觉融合障碍物检测方法及系统。

背景技术

焦化企业焦炉轨道机车作业是炼焦行业工作的重点，目前轨道机车作业主要依赖于司机手动操控作业，对周围环境感知和安全防范完全依赖于司机的观察和监控摄像头画面。近年来随着技术的进步逐渐开始向无人化、自动化方向迈进，对于环境感知和安全防范方面还停留在采用栅栏的方式物理隔离。但焦化机车几乎每天都需要人工维护保养作业或者环保检查，作业区内无法完全杜绝人员进入，存在巨大的安全隐患。对于环境感知可以采用乘用车自动驾驶方案中的视觉检测、激光雷达目标检测、毫米波目标检测和超声波检测等人工智能技术手段。

在自动驾驶方案中超声波雷达环境感知距离较近可应用距离检测，毫米波雷达具有对于金属环境比较敏感的特性在焦炉作业区中误检较多，并且无规律无法有效滤除。对于视觉检测和激光雷达检测在该环境中比较受用。视觉对于环境感知还原度高、纹理丰富，激光雷达作业主动式传感器不依赖于光线，能够获取三维环境信息。两者传感器的数据融合在焦炉机车作业环境中和自动驾驶方案有所不同，自动驾驶方案中两者传感器进行严格的数据标定对车辆周围无死角感知。焦炉作业机车具有结构复杂、体积庞大、速度慢等特点无法做到无死角感知，也无需对两者传感器进行标定。自动驾驶方案中对于结果的输出必须是融合了两者传感器同一位置的数据，而该场景全天候作业过程中两者传感器对于环境感知是互补型，无法做到同时满足两者传感器检出同一位置数据。

发明内容

基于此，本申请实施例提供了一种焦炉机车激光点云与视觉融合障碍物检测方法及系统，能够对焦炉机车作业过程中对环境进行感知，视觉和激光雷达传感器进行目标检测数据融合实现车辆安全防范、紧急制动和减速。保障作业安全，规避出现安全事故。

第一方面，提供了一种焦炉机车激光点云与视觉融合障碍物检测方法，该方法包括：

S1，在焦炉机车头尾分别安装低时延近距离和远距离照射摄像头和三维激光雷达进行数据采集，并配置工控机/交换机获取所采集数据；

S2，将三维激光雷达所获取的实时激光点云数据进行量化并分配到规则区间中，然后使用Point-Based Network提取规则区间中所有点的特征，并使用3D encoder池化特征，并基于池化后的特征确定出3D边界框；

S3，获取摄像头所采集的输入图像并将其划分为单元格网格，并对各个单元格网格中使用卷积神经网络进行障碍物检测；

S4，对所确定出每个视觉检测目标通过相似三角形法进行单目测距，确定出每个视觉检测目标的坐标位置；

S5，将S2和S3中确定出的障碍物边界框投影到二维平面上生成BEV表示；其中，对于点云数据，将每个点的x和y坐标投影到BEV平面上，对于3D点云检测框，将检测边界框的底部四个角点的x和y坐标投影到BEV平面上；对于视觉检测框，将检测边界框的四个角点的x和y坐标投影到BEV平面上；

S6，在S5中生成的BEV表示中进行视觉检测目标和激光雷达检测目标的同类目标近距离匹配；其中，根据目标之间的距离和类概率来进行匹配；

S7，对视觉目标检测结果以及激光雷达目标检测结果进行融合，确定障碍物检测结果。

可选地，S2中基于池化后的特征确定出三维边界框，包括：

利用池化后的特征得到一个映射特征图；

使用Anchor-based detection head对映射特征图进行目标检测；其中，以centerpoint表示3D目标。

可选地，S3中获取摄像头所采集的输入图像并将其划分为单元格网格，并对各个单元格网格中使用卷积神经网络进行障碍物检测，具体包括：

获取输入图像并将其划分为单元格网格，每个单元负责预测其区域内对象的边界框和类概率，并使用不同大小和纵横比的锚盒来提高对各种形状和大小物体的检测。

可选地，对所确定出每个视觉检测目标通过相似三角形法进行单目测距，确定出每个视觉检测目标的坐标位置，还包括：

通过最小二乘法优化降低噪声，针对于S3中所确定出每个视觉检测目标的类概率，计算每个视觉检测目标的预测值与实际值之间的差异值；并以差异值的平方作为误差函数，调整模型的参数。

可选地，S7中对视觉目标检测结果以及激光雷达目标检测结果进行融合，确定障碍物检测结果，包括：

通过加权平均法对多个模型的输出进行加权平均，根据模型的性能或置信度赋予不同的权重，得到加权平均值作为障碍物检测结果。

第二方面，提供了一种焦炉机车激光点云与视觉融合障碍物检测系统，该系统包括：

获取单元，用于配置工控机/交换机，获取在焦炉机车头尾分别安装的低时延近距离和远距离照射摄像头和三维激光雷达所采集的数据；

激光点云处理模块，用于将三维激光雷达所获取的实时激光点云数据进行量化并分配到规则区间中，然后使用Point-BasedNetwork提取规则区间中所有点的特征，并使用3D encoder池化特征，并基于池化后的特征确定出3D边界框；

并将确定出的障碍物边界框投影到二维平面上生成BEV表示；其中，对于点云数据，将每个点的x和y坐标投影到BEV平面上，对于3D点云检测框，将检测边界框的底部四个角点的x和y坐标投影到BEV平面上；对于视觉检测框，将检测边界框的四个角点的x和y坐标投影到BEV平面上；

视觉图像处理模块，用于获取摄像头所采集的输入图像并将其划分为单元格网格，并对各个单元格网格中使用卷积神经网络进行障碍物检测；对所确定出每个视觉检测目标通过相似三角形法进行单目测距，确定出每个视觉检测目标的坐标位置；

匹配融合模块，用于将生成的BEV表示中进行视觉检测目标和激光雷达检测目标的同类目标近距离匹配；其中，根据目标之间的距离和类概率来进行匹配；

对视觉目标检测结果以及激光雷达目标检测结果进行融合，确定障碍物检测结果。

可选地，基于池化后的特征确定出三维边界框，包括：

利用池化后的特征得到一个映射特征图；

可选地，获取摄像头所采集的输入图像并将其划分为单元格网格，并对各个单元格网格中的视觉目标进行检测，确定出每个视觉检测目标的类概率，具体包括：

通过最小二乘法优化降低噪声，针对于所确定出每个视觉检测目标的类概率，计算每个视觉检测目标的预测值与实际值之间的差异值；并以差异值的平方作为误差函数，调整模型的参数。

可选地，对视觉目标检测结果以及激光雷达目标检测结果进行融合，确定障碍物检测结果，包括：

本发明的有益效果在于：实现了快速高效的实现了焦炉机车视觉与激光点云融合目标检测的方法。其中激光点云目标检测算法大大减少了对象检测器的搜索空间降低了算法对GPU的消耗，视觉检测为实时对象检测提供了快速高效的解决方案，适用于需要快速准确检测图像或视频中对象的应用。同类目标近距离匹配提高目标检测和跟踪的准确性和稳定性，在实际应用中提供更可靠的结果。事后融合输出提高了模型的性能和鲁棒性，从而更好地满足实际应用的需求。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

图1为本申请实施例提供的一种焦炉机车激光点云与视觉融合障碍物检测流程图；

图2为本申请实施例中进行单目测距的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本发明的描述中，术语“包括”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元，而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元，或者基于本发明构思进一步的优化方案所增加的步骤或单元。

具体地，请参考图1，其示出了本申请实施例提供的一种焦炉机车激光点云与视觉融合障碍物检测方法的流程图，该方法可以包括以下步骤：

S1，在焦炉机车头尾分别安装低时延近距离和远距离照射摄像头和三维激光雷达进行数据采集，并配置工控机/交换机获取所采集数据。

在本步骤中，具体在机车头尾分别安装低时延近距离和远距离照射摄像头和三维激光雷达。配置高性能工控机、交换机等实现算法部署和数据通讯。

S2，将三维激光雷达所获取的实时激光点云数据进行量化并分配到规则区间中，然后使用Point-Based Network提取规则区间中所有点的特征，并使用3D encoder池化特征，并基于池化后的特征确定出3D边界框。

在本步骤中实现了激光雷达输出的实时激光点云，3D目标backbone采用pointpillars。首先把点云进行量化到规则区间(regular bins)中。然后使用Point-BasedNetwork提取区间(bins)中所有点的特征。紧接着使用3D encoder池化特征。

Backbone网络的输出是一个映射特征图map-view feature-map，之后使用anchor-based detection head。对于3D boundingboxes来说，它们有不同的大小和方向，因此拟合一个axis-aligned 2D box到3D目标是困难的。其次，在训练的时候，anchor-based 3D detector依赖2D Box IoU来进行目标匹配，为不同的类或不同的数据集选择正/负阈值会产生不必要的负担。因此用centerpoint来表示3D目标。对于CenterPoint Head，提出了两个分支Centerheatmap head和Regression heads。对第一个head，目的是在任何检测到的目标的中心位置生成一个heatmap peak。在训练过程中，heatmap peak将通过将带标注的bounding box的三维中心投影到地图视图中而生成的二维高斯曲线作为目标。然后使用Focal loss进行训练。因为目标在map-view视角是比在image-view中稀疏的。如果直接使用标准的CenterNet进行训练，会导致非常稀疏的监督信号，大部分位置会被认为是背景。为了解决这个问题，通过扩大每个ground-truth目标中心的Gaussian peak，增大了target heatmap Y的positive supervision。除了中心点，还需要回归sub-voxellocationrefinement是用来减少来自于backbone中voxelization和striding的量化误差。height-above-ground有助于定位目标和增加遗漏的评价信息。方向性的预测使用了sine和cosine，作为一个连续的回归目标。结合以上信息，就可以得到一个3D边界框(3Dbounding box)。该方法与边界框不同，点没有固有方向。大大减少了对象检测器的搜索空间，同时允许backbone学习对象的旋转不变性及其相对旋转的旋转等效性。

S3，获取摄像头所采集的输入图像并将其划分为单元格网格，并对各个单元格网格中的视觉目标进行检测，确定出每个视觉检测目标的类概率。

在本步骤中的视觉检测与S2中的激光点云目标检测同步并发执行。该算法获取输入图像并将其划分为单元格网格。每个单元负责预测其区域内对象的边界框和类概率。使用不同大小和纵横比的锚盒来提高对各种形状和大小物体的检测。这些定位框是预定义的，并且用作预测对象位置的参考模板。输入图像通过卷积神经网络(CNN)提取特征。使用骨干网络，如Darknet或ResNet，从图像中捕捉高级特征。从骨干网络获得的特征图用于预测对象的边界框和类概率。将一系列卷积层应用于特征图以生成预测。网格中的每个单元预测多个边界框及其相应的置信度分数。边界框由它们相对于单元位置的坐标(x、y、宽度、高度)表示。为了消除重复检测并提高最终预测的准确性应用了非最大抑制。该技术去除了置信度较低的重叠边界框，只保留最有信心和不重叠的检测。与边界框一起预测每个检测到的对象的类概率。它根据最高类概率为每个边界框指定一个类标签。最终输出是一个边界框列表，以及它们相应的类标签和置信度分数。该算法为实时对象检测提供了快速高效的解决方案，适用于需要快速准确检测图像或视频中对象的应用。

S4，对所确定出每个视觉检测目标通过相似三角形法进行单目测距，确定出每个视觉检测目标的坐标位置。

本步骤中实现了单目测距，该方法是对S3中检测得到的已知物体条件下利用摄像机获得的目标图片得到深度信息。方法为相似三角形法，假设有一个宽度为w的目标或者物体。然后将这个目标放在距离相机为d的位置。如图2所示。

用相机对物体进行拍照并且测量物体的像素宽度p。这样就得出了距离公式：d/f＝w/p整理可以得出：d＝(w*f)/p，其中w为实际物体宽度或者高度，f为焦距可根据硬件设备获得，p为S3中检测得出的目标像素宽度或者高度与单位像素高或者宽的乘积。

同理可计算出S3中检测目标在画面中心线横向左右距离。之后通过最小二乘法优化降低噪声。通过最小化观测数据与模型之间的残差(即观测值与模型预测值之间的差异)的平方和来确定模型的参数。针对S3中多目标跟踪每个目标上一次的预测值作为实际观测数据，计算每个观测点的预测值与实际值之间的差异，即残差。通常使用残差的平方作为误差函数，因为平方可以消除正负差异并放大较大的误差。通过调整模型的参数，使得误差函数的平方和最小化。这可以通过求解误差函数对参数的偏导数，并令其为零来实现。这样可以得到一组最优的参数值，使得模型与观测数据之间的误差最小。

S5，将S2和S3中确定出的障碍物边界框投影到二维平面上生成BEV表示。

其中，对于点云数据，将每个点的x和y坐标投影到BEV平面上，对于3D点云检测框，将检测边界框的底部四个角点的x和y坐标投影到BEV平面上；对于视觉检测框，将检测边界框的四个角点的x和y坐标投影到BEV平面上。

在本步骤中具体实现了生成BEV表示，BEV(Bird's Eye View)表示是一种将三维场景投影到二维平面上的方法，常用于自动驾驶和目标检测等领域。生成BEV表示可以将三维点云数据或三维物体边界框投影到一个平面上，以便更方便地进行分析和处理。将S2中获取三维点云数据或三维物体边界框：首先需要获取场景中的三维点云数据或三维物体边界框。将三维点云数据或三维物体边界框投影到BEV平面上。对于点云数据，可以将每个点的x和y坐标投影到BEV平面上，得到一个二维点云表示。对于物体边界框，可以将边界框的底部四个角点的x和y坐标投影到BEV平面上，得到一个二维边界框表示。将S4中单目测距的结果将距离只作为Y坐标，检测目标在画面中心线横向左右距离作为X坐标。

S6，在S5中生成的BEV表示中进行视觉检测目标和激光雷达检测目标的同类目标近距离匹配。

其中，根据目标之间的距离和类概率来进行匹配。

在本步骤中具体实现了同类目标近距离匹配，S5中BEV表示中有视觉检测目标和激光雷达检测目标通过进行同类目标近距离匹配，根据目标之间的距离和相似性来判断它们是否属于同一目标，并进行目标分割和标记。同类目标近距离匹配可以用于解决目标ID的关联问题。当目标在连续的帧中出现时，由于目标的运动和视角变化，可能会导致目标ID的丢失或错误关联。通过进行同类目标近距离匹配，可以根据目标的特征和运动信息来判断目标是否属于同一目标，并进行目标ID的关联和更新。同类目标近距离匹配可以通过计算目标之间的距离、特征相似性或运动一致性等指标来实现。常用的方法包括基于距离的最近邻匹配、基于特征的相似性匹配和基于运动模型的卡尔曼滤波器匹配。同类目标近距离匹配在目标检测和目标跟踪任务中都具有重要的应用价值，可以提高目标检测和跟踪的准确性和稳定性，从而在实际应用中提供更可靠的结果。

在本步骤中具体实现了事后融合输出，在视觉目标检测算法和激光雷达目标检测算法的输出结果之后，对这些结果进行融合或整合，以得到最终的输出结果。事后融合输出常用于提高模型的准确性和鲁棒性。通过将多个模型的输出进行融合，可以综合各个模型的优势，减少单个模型的局限性，从而得到更准确和可靠的结果。本发明通过加权平均法(WeightedAveraging)对多个模型的输出进行加权平均，根据模型的性能或置信度赋予不同的权重，得到加权平均值作为最终输出。该方法可以提高模型的性能和鲁棒性，从而更好地满足实际应用的需求。

本申请实施例还提供的一种焦炉机车激光点云与视觉融合障碍物检测系统。系统包括：

视觉图像处理模块，用于获取摄像头所采集的输入图像并将其划分为单元格网格，并对各个单元格网格中的视觉目标进行检测，确定出每个视觉检测目标的类概率；对所确定出每个视觉检测目标通过相似三角形法进行单目测距，确定出每个视觉检测目标的坐标位置；

在本申请可选的实施例中，基于池化后的特征确定出三维边界框，包括利用池化后的特征得到一个映射特征图；使用Anchor-based detectionhead对映射特征图进行目标检测；其中，以centerpoint表示3D目标。

在本申请可选的实施例中，获取摄像头所采集的输入图像并将其划分为单元格网格，并对各个单元格网格中的视觉目标进行检测，确定出每个视觉检测目标的类概率，具体包括获取输入图像并将其划分为单元格网格，每个单元负责预测其区域内对象的边界框和类概率，并使用不同大小和纵横比的锚盒来提高对各种形状和大小物体的检测。

在本申请可选的实施例中，对所确定出每个视觉检测目标通过相似三角形法进行单目测距，确定出每个视觉检测目标的坐标位置，还包括通过最小二乘法优化降低噪声，针对于所确定出每个视觉检测目标的类概率，计算每个视觉检测目标的预测值与实际值之间的差异值；并以差异值的平方作为误差函数，调整模型的参数。

在本申请可选的实施例中，对视觉目标检测结果以及激光雷达目标检测结果进行融合，确定障碍物检测结果，包括通过加权平均法对多个模型的输出进行加权平均，根据模型的性能或置信度赋予不同的权重，得到加权平均值作为障碍物检测结果。

本申请实施例提供的焦炉机车激光点云与视觉融合障碍物检测系统用于实现上述焦炉机车激光点云与视觉融合障碍物检测方法，关于焦炉机车激光点云与视觉融合障碍物检测系统的具体限定可以参见上文中对于焦炉机车激光点云与视觉融合障碍物检测方法的限定，在此不再赘述。上述焦炉机车激光点云与视觉融合障碍物检测系统中的各个部分可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于设备中的处理器中，也可以以软件形式存储于设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种焦炉机车激光点云与视觉融合障碍物检测方法，其特征在于，所述方法包括：

S2，将三维激光雷达所获取的实时激光点云数据进行量化并分配到规则区间中，然后使用Point-Based Network提取规则区间中所有点的特征，并使用3D encoder池化特征，并基于池化后的特征确定出3D障碍物边界框；

S7，对视觉目标检测结果以及激光雷达目标检测结果进行事后融合，通过加权平均确定障碍物检测结果。

2.根据权利要求1所述的方法，其特征在于，S2中基于池化后的特征确定出三维边界框，包括：

利用池化后的特征得到一个映射特征图；

3.根据权利要求1所述的方法，其特征在于，S3中获取摄像头所采集的输入图像并将其划分为单元格网格，并对各个单元格网格中使用卷积神经网络进行障碍物检测，具体包括：

4.根据权利要求1所述的方法，其特征在于，对所确定出每个视觉检测目标通过相似三角形法进行单目测距，确定出每个视觉检测目标的坐标位置，还包括：

5.根据权利要求1所述的方法，其特征在于，S7中对视觉目标检测结果以及激光雷达目标检测结果进行融合，确定障碍物检测结果，包括：

6.一种焦炉机车激光点云与视觉融合障碍物检测系统，其特征在于，所述系统包括：

激光点云处理模块，用于将三维激光雷达所获取的实时激光点云数据进行量化并分配到规则区间中，然后使用Point-BasedNetwork提取规则区间中所有点的特征，并使用3Dencoder池化特征，并基于池化后的特征确定出3D边界框；

7.根据权利要求6所述的系统，其特征在于，基于池化后的特征确定出三维边界框，包括：

利用池化后的特征得到一个映射特征图；

8.根据权利要求6所述的系统，其特征在于，获取摄像头所采集的输入图像并将其划分为单元格网格，并对各个单元格网格中使用卷积神经网络进行障碍物检测，具体包括：

9.根据权利要求6所述的系统，其特征在于，对所确定出每个视觉检测目标通过相似三角形法进行单目测距，确定出每个视觉检测目标的坐标位置，还包括：

10.根据权利要求6所述的系统，其特征在于，对视觉目标检测结果以及激光雷达目标检测结果进行融合，确定障碍物检测结果，包括：