CN115953763B

CN115953763B - 一种用于矿区无人驾驶场景的目标检测方法及系统

Info

Publication number: CN115953763B
Application number: CN202310194799.1A
Authority: CN
Inventors: 王鑫; 潘子宇; 马宣; 程清水
Original assignee: Qingdao Vehicle Intelligence Pioneers Inc
Current assignee: Qingdao Vehicle Intelligence Pioneers Inc
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-06-30
Anticipated expiration: 2043-03-03
Also published as: CN115953763A

Abstract

本发明公开了一种用于矿区无人驾驶场景的目标检测方法及系统，包括：搭建由可见光相机和热红外相机构成的双目图像采集设备，其中，可见光相机的视场角大于热红外相机的视场角，可见光相机与热红外相机的光轴在同一水平线上；在无人驾驶过程中，根据实时采集到的可见光图像和热红外图像，利用预先训练好的目标检测模型来开展目标检测任务。本发明能够对通用的目标进行检测，在各种恶劣环境下也能够稳定运行，具有很好的泛化性。

Description

一种用于矿区无人驾驶场景的目标检测方法及系统

技术领域

本发明涉及多光谱图像目标检测技术领域，尤其是涉及一种用于矿区无人驾驶场景的目标检测方法及系统。

背景技术

图像目标检测技术，即在图像中识别出目标并实现定位，目前大多研究都是在单光谱图像上进行实验，比如RCNN系列和YOLO系列。但是基于可见光相机图像的目标检测在夜晚、大雾、扬尘和雨雪天气效果差；基于热红外图像的目标检测，对和环境温度一样的目标不能检测，例如长时间静止的车辆、栅栏和落石等。

在自动驾驶的图像目标检测任务中，需要尽可能的全天候的将视野范围内的物体都检测出来，这对目标检测方案提出了很大的挑战。于是，便有了多光谱图像检测方案，目前多光谱目标检测技术分为三个方向。

（1）前融合：在图像输入模型前，将多光谱图像沿着通道进行拼接，再通过网络检测目标。这类方案的优点是可以简单的对单光谱算法进行改动，就可以获得提升；缺点是不同光谱的相机所处位置和内参不同，直接进行拼接会导致同一个位置代表的目标无法完全重合，影响目标定位和分类。

（2）中间融合：建立一个多输入的模型，模型的中间层输出可以进行特征融合。这类方案的优点是通过特征级融合可以减少前融合中简单拼接导致的目标位置不匹配的问题，其难点在于如何设计一种特征融合结构，让不同光谱的特征能够有效融合，因此这种方法的缺点是难以设计和训练。

（3）后融合：使用多个模型，分别在不同的光谱图像上检测出目标，然后再将所有目标在同一个坐标系下融合。这类方案的优点是直接使用两个单光谱算法，可以分别优化，其缺点是算法运行时间成倍增加，如果要保持原有的实时处理速度，需要更好的硬件设备。

现有技术中提供了一种基于MBNet网络的多光谱行人检测算法。但该方案（1）只能用于检测行人，对其它类别目标不能很好的结合多光谱的特征；（2）运行速度较慢，根据单帧推理速度在1080TI上为70ms，如果需要部署到一些终端设备上，所建立的模型将不能达到实时运行的效果，在Xavier上测试则会达到近300ms，满意满足无人驾驶的实时性需求；（3）光照感知模块的设计，使用了白天、晚上作为标签来监督，导致生成的相关权重十分依赖此标签，从而在白天检测结果主要依赖可见光图像，晚上检测结果主要依赖热红外图像，然而当开展通用性的目标检测时，各个类别检测效果对不同光谱的特征依赖程度不同，这会导致一些类别结果很差；（4）整个检测模型中，浅层特征未融合深层语义信息，这会导致小目标检测效果较差。

发明内容

本发明的目的在于，需要提出一种基于多光谱融合技术的目标检测方案，从而满足能够应用于无人驾驶领域中的实时性需求以及能够对多种类通用性目标准确检测的需求。

为了解决上述技术问题，本发明实施例提供了一种用于矿区无人驾驶场景的目标检测方法，包括：搭建由可见光相机和热红外相机构成的双目图像采集设备，其中，所述可见光相机的视场角大于所述热红外相机的视场角，所述可见光相机与所述热红外相机的光轴在同一水平线上；在无人驾驶过程中，根据实时采集到的可见光图像和热红外图像，利用预先训练好的目标检测模型来开展目标检测任务。

优选地，所述目标检测方法还包括：对所述双目图像采集设备中的两种相机进行双目配准，其中，先将预设尺寸的标定板放置在两种相机的公共视野中，再将所述热红外相机的图像投影到所述可见光相机的图像中，分析在不同配准距离下不同的目标距离与所采集目标产生的不同像素误差之间的关系，从而确定最优配准距离。

优选地，所述最优配准距离为40m；所述可见光相机的分辨率为1920

1080，视场角为89°；所述热红外相机的分辨率为640/>

512，视场角为48.7°。

优选地，所述目标检测模型基于预先建立的神经网络基本模型训练而成，其中，所述神经网络基本模型由光谱特征提取模型和光谱特征融合模型来构成，所述光谱特征提取模型采用ResNet18网络结构实现，所述光谱特征提取模型具备多级用于提取光谱不同深度尺度特征的特征提取阶段块，在每级特征提取阶段块中的block模块中设置有用于将不同光谱在相应阶段块的输出特征进行充分融合的均值模态空间域注意力融合模型。

优选地，所述均值模态空间域注意力融合模型包括：用于将相应特征提取阶段块所输出的不同光谱的输出特征相加求均值的M操作块；与所述M操作块的输出端连接的输出通道为1的卷积块；与所述输出通道为1的卷积块的输出端连接的第一激活函数块，所述第一激活函数块采用sigmoid函数；以及用于将所述第一激活函数块的输出分别与不同光谱在当前阶段块的输出特征相乘的两个第一乘法操作块，其中，将与可见光光谱的输出特征相乘的第一乘法操作块的输出作为下一级热红外光谱的特征提取阶段块的输入，并且，将与热红外光谱的输出特征相乘的第一乘法操作块的输出作为下一级可见光光谱的特征提取阶段块的输入。

优选地，所述光谱特征融合模型包括：用于对最后一级特征提取阶段块的两种光谱输出特征进行拼接操作的热图块；对应于不同深度尺度的多个特征融合及目标检测模块，每个所述特征融合及目标检测模块用于将从所述热图块输出的拼接结果和对应阶段块所输出的两种光谱的输出特征进行融合、拼接和分类处理。

优选地，所述特征融合及目标检测模块包括：特征融合块，所述特征融合块用于将从所述热图块输出的拼接结果与对应阶段块所输出的两种光谱的输出特征进行融合；特征拼接块，所述特征拼接块用于将当前尺度下的融合后的多光谱特征与前一级尺度更小的特征拼接结果进行拼接，其中，最小尺度的特征拼接块将当前尺度下的多光谱特征融合结果的语义特征直接传输至下一级尺度中的特征拼接块中；目标输出块，所述目标输出块用于根据当前尺度下的特征拼接结果进行目标回归和分类处理。

优选地，所述特征融合块包括：用于将从所述热图块输出的拼接结果变换到对应尺度的缩放块；用于将所述缩放块所输出的特征分别与不同光谱在对应阶段块的输出特征相乘的两个融合乘法操作块；以及用于将所述两个融合乘法操作块输出的特征相加的融合加法操作块。

优选地，所述热图块包括：用于将所输出的不同光谱的输出特征进行拼接操作的拼接块；与所述拼接块的输出端连接的输出通道为2的卷积块；与所述输出通道为2的卷积块的输出端连接的第二激活函数块，所述第二激活函数块采用sigmoid函数。

另一方面，提供了一种用于矿区无人驾驶场景的目标检测系统，所述目标检测系统利用如上述所述的目标检测方法来实现，其中，所述目标检测系统包括：由可见光相机和热红外相机构成的双目图像采集设备，其中，所述可见光相机的视场角大于所述热红外相机的视场角，所述可见光相机与所述热红外相机的光轴在同一水平线上；检测控制器，其分别与所述可见光相机和所述热红外相机连接，用于在无人驾驶过程中，根据实时采集到的可见光图像和热红外图像，利用预先训练好的目标检测模型来开展目标检测任务。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本发明提出了一种用于矿区无人驾驶场景的目标检测方法及系统。该方法及系统本发明设计了能够实现多种类别（尤其是小目标）检测的目标检测模型，该模型的检测对象不会局限于行人，其检测精度高、运行效率高。另外，在矿区无人驾驶场景中，本发明能够对通用的目标进行有效检测，在各种恶劣环境下也能够稳定运行，具有很好的泛化性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中。

图1为本申请实施例的用于矿区无人驾驶场景的目标检测方法的步骤图。

图2为本申请实施例的用于矿区无人驾驶场景的目标检测方法中的双目图像采集设备的结构示意图。

图3为本申请实施例的用于矿区无人驾驶场景的目标检测方法中的双目配准分析参考曲线的示例图。

图4为本申请实施例的用于矿区无人驾驶场景的目标检测方法中的神经网络基本模型的结构示意图。

图5为本申请实施例的用于矿区无人驾驶场景的目标检测方法中的均值模态空间域注意力融合模型的结构示意图。

图6为本申请实施例的用于矿区无人驾驶场景的目标检测方法中的特征融合块的结构示意图。

图7为本申请实施例的用于矿区无人驾驶场景的目标检测系统的结构示意图。

在本申请中，所有附图均为示意性的附图，仅用于说明本发明的原理，并且未按实际比例绘制；

其中，附图标记列表如下：

stage2、stage3、stage4、stage5和stage6：不同深度尺度特征的特征提取阶段块；

MMSA：均值模态空间域注意力融合；

F _R：不同尺度级别下特征提取阶段块所输出的可见光的光谱特征；

F _T：不同尺度级别下特征提取阶段块所输出的热红外的光谱特征；

SAF块：特征融合块；

P6、P5、P4、P3：特征拼接块；

up：反卷积。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

在自动驾驶的图像目标检测任务中，需要尽可能的全天候的将视野范围内的物体都检测出来，这对目标检测方案提出了很大的挑战。于是，便有了多光谱图像检测方案，目前多光谱目标检测技术分为如下三个方向。

为了解决上述一个或多个技术问题，本申请提出了一种用于矿区无人驾驶场景的目标检测方法及系统。该方法及系统通过对双目采集设备的配置、双目配准的选取策略、检测模型中对MMSA结构和SAF结构等的设计来将实时采集到的多光谱图像进行有效且充分的多光谱融合，从而完成在矿区无人驾驶场景下的实时的、准确的目标检测任务。

图1为本申请实施例的用于矿区无人驾驶场景的目标检测方法的步骤图。下面参考图1对本发明实施例所述的目标检测方法的步骤流程进行说明。

在无人驾驶任务启动前，步骤S110在无人驾驶矿车上，搭建由可见光相机和热红外相机构成的双目图像采集设备，使得矿车在无人驾驶过程中能够采集到包含车辆周围运行环境信息在的目标图像，以便在实时驾驶过程中开展动态的目标检测任务。其中，可见光相机的视场角大于热红外相机的视场角，并且可见光相机的光轴与热红外相机的光轴在同一水平线上。

在步骤S110中需要搭建目标检测任务所需的双目图像采集设备。在本发明实施例中，双目图像采集设备使用一个可见光相机和一个热红外相机而组成。经过相机选型，可见光相机使用森云智能的SG2-OX03CC-5200-GMSL2F-H90S型号相机，其分辨率为1920x1080，视场角89°；热红外相机采用英睿的Asens M6相机，其分辨率为640x512，视场角48.7°。

图2为本申请实施例的用于矿区无人驾驶场景的目标检测方法中的双目图像采集设备的结构示意图。如图2所示，在双目图像采集设备的使用过程中，需要保持两个相机的光轴在同一水平线上。而且，图2还展示了为双目图像采集设备所设计的双目支架。

另外，本发明实施例所述的步骤S110还包括：对双目图像采集设备中的两种相机进行双目配准。具体地，首先，将预设尺寸的标定板放置在可见光相机和热红外相机的公共视野中，而后，将热红外相机的图像投影到可见光相机的图像中，分析在不同配准距离下不同的目标距离与所采集目标产生的不同像素误差之间的关系，从而确定最优配准距离。

具体来说，对于两个相机的图像配准，本发明实施例使用单应性矩阵来实现。其中，单应性矩阵就是一个平面到另一个平面的投影矩阵。在计算热红外相机的图像投影到可见光相机的图像时所需的单应性矩阵时，需要在两个相机的共同视野中，在平行于相机镜头的一个平面中，至少寻找四组一一对应的点。本发明实施例优选地使用一块1m×1m的标定板放置在公共视野中。

由于单应性矩阵配准只能完全校正匹配平面的目标，对其它距离的目标，会存在校正误差，其误差见公式（1），而本发明校准的目的在于尽量减少像素误差

对目标检测的影响

。

其中，f表示焦距，l _pix表示像素大小，d _x表示基线长度，d _t表示目标距离（即相机与被摄目标的距离），d _op表示配准距离（即标定时标定板与相机之间的距离）。

由于本发明实施例中使用的可见光相机视场角大于热红外相机，于是需要将热红外图像投影到可见光图像上。可见光相机的焦距为4mm，像素大小为3μm，设备基线长度为6cm。根据公式（1），当使用不同的配准距离（即标定时标定板的距离）时，会对不同距离的目标产生不同的像素误差，参见图3。

图3为本申请实施例的用于矿区无人驾驶场景的目标检测方法中的双目配准分析参考曲线的示例图。如图3所示，当d _op太小时，会导致远距离的目标误差过大；当d _op过大时，由于标定板只有1m×1m，这会导致选点误差过大，影响标定精度。鉴于距离目标越近，对配准误差的容忍度越高，因此，本发明实施例需要设置当目标距离大于20m时，像素误差要小于2pixel。为了使得双目相机的远处图像与近处图像的像素误差达到平衡，本发明实施例所述的最优配准距离为40m。

这样，在完成双目图像采集设备的配准和安装后，进入到步骤S120中。

继续参考图1，步骤S120在无人驾驶过程中，根据由双目图像采集设备实时采集到的可见光图像和热红外图像，利用预先训练好的目标检测模型来开展目标检测任务。需要说明的是，本发明实施例所述的目标检测模型是利用矿车在历史运行过程中实时采集的可见光环境图像和热红外图像，对预先建立的神经网络基本模型（MMFNet网络模型，即均值模态融合网络）进行训练而构建的。

如图4所示，本发明实施例所述的神经网络基本模型由光谱特征提取模型和光谱特征融合模型来构成。光谱特征提取模型采用ResNet18网络结构来实现。光谱特征提取模型具备多级用于提取不同光谱的不同深度尺度特征的特征提取阶段块。具体地，在对可见光光谱图像（rgb）进行不同深度尺度的特征提取时，设置有多级用于提取可见光光谱的不同深度尺度特征的特征提取阶段块（参见图4中与rgb模块依次连接的stage2、stage3、stage4、stage5和stage6），同时在对热红外光谱图像（thermal）进行不同深度尺度的特征提取时，也设置有多级用于提取热红外光谱的不同深度尺度特征的特征提取阶段块（参见图4中与thermal模块依次连接的stage2、stage3、stage4、stage5和stage6）。其中，对于同一编号的特征提取阶段块（例如，用于提取可见光光谱图像的stage2和用于提取热红外光谱图像的stage2）来说，所提取的深度尺度是相同的。

由此，在每级特征提取阶段块中的block模块中，设置有用于将不同光谱在相应阶段块的输出特征进行充分融合的均值模态空间域注意力融合模型。本发明实施例使用ResNet18网络结构作为光谱特征提取模型的backbone，用于提取不同光谱图像的不同尺度的特征。为了融合两种光谱的特征，本发明实施例设计了MMSA模型（即均值模态空间域注意力融合模型），其结构参见图4，并将MMSA模型结构嵌入到ResNet18网络结构中的Block模块中，从而可以充分融合两种不同光谱在同一尺度下的特征信息。

图5为本申请实施例的用于矿区无人驾驶场景的目标检测方法中的均值模态空间域注意力融合模型的结构示意图。如图5所示，均值模态空间域注意力融合模型包括：M操作块、输出通道为1的卷积块、第一激活函数块、以及两个第一乘法操作块。

M操作块用于将相应特征提取阶段块所输出的不同光谱的输出特征（F _R表示当前尺度级别下特征提取阶段块所输出的可见光的光谱特征，F _T表示当前尺度级别下特征提取阶段块所输出的热红外的光谱特征）相加求均值。输出通道为1的卷积块与M操作块的输出端连接。第一激活函数块与输出通道为1的卷积块的输出端连接。在一个实施例中，第一激活函数块采用sigmoid函数。两个第一乘法操作块用于将第一激活函数块的输出分别与不同光谱在当前阶段块的输出特征（F _R、F _T）相乘。最后，将与可见光光谱的输出特征相乘的第一乘法操作块的输出作为下一级热红外光谱的特征提取阶段块的输入，并且，将与热红外光谱的输出特征相乘的第一乘法操作块的输出作为下一级可见光光谱的特征提取阶段块的输入。

进一步，在MMSA结构中，M操作代表将可见光特征F _R和热红外特征F _T相加求均值，然后经过一个输出通道为1的卷积，使用sigmoid作为激活函数，再乘上对方的特征输出。MMSA结构在空间域中做了注意力增强的处理，使得融合后的特征可以根据不同位置的目标类别来选择不同程度的信息融合。

接下来，对光谱特征融合模型的结构进行具体说明。光谱特征融合模型包括：热图块（HeatMap块）和多个特征融合及目标检测模块。热图块用于对最后一级特征提取阶段块的两种光谱输出特征进行拼接操作。多个特征融合及目标检测模块对应于不同深度尺度的均值模态空间域注意力融合模型而设置。每个特征融合及目标检测模块的输入与热图块和对应的均值模态空间域注意力融合模型连接。每个特征融合及目标检测模块用于将从热图块输出的拼接结果和对应阶段块所输出的两种光谱的输出特征进行融合、拼接和分类处理。

进一步，热图块包括：拼接块、输出通道为2的卷积块和第二激活函数块。拼接块用于将所输出的不同光谱的输出特征（F _R、F _T）进行拼接（Concatenate）操作。输出通道为2的卷积块与拼接块的输出端连接。第二激活函数块与输出通道为2的卷积块的输出端连接。在一个实施例中，第二激活函数块采用sigmoid函数。

具体来说，本发明实施例在ResNet18网络结构输出的最小尺度特征上，设置一个热图块，用于对后续各个尺度的不同光谱特征进行融合。热图块是先将输入的两种特征进行拼接，然后经过一个输入通道为2 的卷积，最后再使用sigmoid作为激活函数，2个输出通道分别代表不同光谱的热图。在后续的模型训练的过程中，热图块会使用两种光谱分别的标签生成对应的热图，用来监督目标检测模型的生成。

进一步，参考图4，每个特征融合及目标检测模块包括：特征融合块（SAF块）、特征拼接块（P6、P5、P4、P3）和目标输出块（HEAD块）。

特征融合块用于将从热图块输出的拼接结果与对应阶段块所输出的两种光谱的输出特征进行融合。图6为本申请实施例的用于矿区无人驾驶场景的目标检测方法中的特征融合块的结构示意图。如图6所示，特征融合块包括：缩放块（Resize块）、两个融合乘法操作块和融合加法操作块。缩放块（Resize块）用于将从热图块输出的拼接结果变换到对应尺度的缩放块，所变换的尺度与当前特征融合模块所接收到的两种光谱的尺度相匹配。两个融合乘法操作块用于将缩放块所输出的特征分别与不同光谱在对应阶段块的输出特征（F _R、F _T）相乘。融合加法操作块用于将两个融合乘法操作块输出的特征相加。

由此，在对各个尺度的特征做融合时，本发明实施例先使用了SAF结构块，参见图6。在SAF结构块（特征融合块，主要用作分离注意力的融合）中，首先将输入的热图块的输出特征缩放到对应的尺度，然后将所获得的可见光特征与缩放后的可见光热图相乘，并将所获得的热红外特征与热红外热图相乘，最后将两种相乘结果再相加输出。

进一步，继续参考图4，特征拼接块（FPN块，简称P块）与特征融合块（SAF块）的输出连接。特征拼接块用于将当前尺度下的融合后的多光谱特征与前一级尺度更小的特征拼接结果进行拼接，从而将拼接结果输出至当前特征融合及目标检测模块中的目标输出块，同时，将当前拼接结果通过up操作上传至下一级尺度更大的特征拼接块内。其中，最小尺度的特征拼接块将当前尺度下的多光谱特征融合结果的语义特征直接传输至下一级尺度中的特征拼接块中。也就是说，本发明在特征融合及目标检测模块中引入了FPN（特征金字塔）结构块，即特征拼接块。每个特征拼接块主要用于将深层的语义特征逐级上传。其中，up操作使用的是反卷积操作。对于从待深层上传的特征来说，只需要将本层特征和其进行拼接操作（Concatenate）后，经过一系列卷积操作即可输出。

进一步，目标输出块（Head块）用于根据当前尺度下的特征拼接块所输出的特征拼接结果进行目标回归和分类处理。在本发明实施例中，Head块部分代表了对检测目标的回归和分类。Head块中使用了双分支结构来实现，即一个分支用于回归，一个用于分类。

这样，本发明实施例所训练出的目标检测模型能够根据可见光光谱和热红外光谱检测出不同深度尺度下的目标类别。本发明所构建的神经网络基本模型，使用了ResNet18作为backbone，减少了计算量，同时MMSA结构只在每个特征提取阶段下特征采样的时候来使用，由此，减少了不必要的融合。另外，所构建的模型通过引入MMSA结构和SAF结构，使训练好的目标检测模型不受光照影响，在空间域进行增强，对不同位置的不同类别的目标，有不同的增强权重，这有利于目标分类。此外，在所构建的网络结构中通过加入FPN结构，使浅层特征能够融合深层语义信息，所训练完的目标检测模型可更好的检测小目标。

进一步，本发明基于MMFNet网络结构所构建的目标检测模型，在Xavier系统上进行运行测试，其运行时间为60ms，较现有MBNet网络提升了近5倍。

另一方面，基于上述目标检测方法，本发明实施例还提供了一种用于矿区无人驾驶场景的目标检测系统。其中，该目标检测系统利用如上述所述的目标检测方法来实现。图7为本申请实施例的用于矿区无人驾驶场景的目标检测系统的结构示意图。

如图7所示，本发明实施例所述的目标检测系统包括：双目图像采集设备和检测控制器。具体地，双目图像采集设备由可见光相机和热红外相机构成。其中，可见光相机的视场角大于热红外相机的视场角，并且可见光相机的光轴与热红外相机的光轴在同一水平线上。检测控制器分别与可见光相机和热红外相机同时连接。检测控制器用于在无人驾驶过程中，根据实时采集到的可见光图像和热红外图像，利用预先训练好的目标检测模型来开展目标检测任务。

本发明公开了一种用于矿区无人驾驶场景的目标检测方法及系统。该方法及系统本发明设计了能够实现多种类别（尤其是小目标）检测的目标检测模型，该模型的检测对象不会局限于行人，其检测精度高、运行效率高。另外，在矿区无人驾驶场景中，本发明能够对通用的目标进行有效检测，在各种恶劣环境下也能够稳定运行，具有很好的泛化性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人员在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所披露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于矿区无人驾驶场景的目标检测方法，其特征在于，包括：

搭建由可见光相机和热红外相机构成的双目图像采集设备，其中，所述可见光相机的视场角大于所述热红外相机的视场角，所述可见光相机与所述热红外相机的光轴在同一水平线上；

在无人驾驶过程中，根据实时采集到的可见光图像和热红外图像，利用预先训练好的目标检测模型来开展目标检测任务，所述目标检测模型基于预先建立的神经网络基本模型训练而成，其中，所述神经网络基本模型由光谱特征提取模型和光谱特征融合模型来构成，所述光谱特征提取模型采用ResNet18网络结构实现，所述光谱特征提取模型具备多级用于提取光谱不同深度尺度特征的特征提取阶段块，在每级特征提取阶段块中的block模块中设置有用于将不同光谱在相应阶段块的输出特征进行充分融合的均值模态空间域注意力融合模型，其中，所述均值模态空间域注意力融合模型包括：

用于将相应特征提取阶段块所输出的不同光谱的输出特征相加求均值的M操作块；

与所述M操作块的输出端连接的输出通道为1的卷积块；

与所述输出通道为1的卷积块的输出端连接的第一激活函数块，所述第一激活函数块采用sigmoid函数；以及

用于将所述第一激活函数块的输出分别与不同光谱在当前阶段块的输出特征相乘的两个第一乘法操作块，其中，所述光谱特征融合模型包括：

用于对最后一级特征提取阶段块的两种光谱输出特征进行拼接操作的热图块；

对应于不同深度尺度的多个特征融合及目标检测模块，每个所述特征融合及目标检测模块用于将从所述热图块输出的拼接结果和对应阶段块所输出的两种光谱的输出特征进行融合、拼接和分类处理，所述特征融合及目标检测模块包括：

特征融合块，所述特征融合块用于将从所述热图块输出的拼接结果与对应阶段块所输出的两种光谱的输出特征进行融合；

特征拼接块，所述特征拼接块用于将当前尺度下的融合后的多光谱特征与前一级尺度更小的特征拼接结果进行拼接，其中，最小尺度的特征拼接块将当前尺度下的多光谱特征融合结果的语义特征直接传输至下一级尺度中的特征拼接块中；

目标输出块，所述目标输出块用于根据当前尺度下的特征拼接结果进行目标回归和分类处理。

2.根据权利要求1所述的目标检测方法，其特征在于，所述目标检测方法还包括：对所述双目图像采集设备中的两种相机进行双目配准，其中，

先将预设尺寸的标定板放置在两种相机的公共视野中，再将所述热红外相机的图像投影到所述可见光相机的图像中，分析在不同配准距离下不同的目标距离与所采集目标产生的不同像素误差之间的关系，从而确定最优配准距离。

3.根据权利要求2所述的目标检测方法，其特征在于，

所述最优配准距离为40m；

所述可见光相机的分辨率为1920

1080，视场角为89°；

所述热红外相机的分辨率为640

512，视场角为48.7°。

4.根据权利要求1所述的目标检测方法，其特征在于，

将与可见光光谱的输出特征相乘的第一乘法操作块的输出作为下一级热红外光谱的特征提取阶段块的输入，并且，将与热红外光谱的输出特征相乘的第一乘法操作块的输出作为下一级可见光光谱的特征提取阶段块的输入。

5.根据权利要求4所述的目标检测方法，其特征在于，所述特征融合块包括：

用于将从所述热图块输出的拼接结果变换到对应尺度的缩放块；

用于将所述缩放块所输出的特征分别与不同光谱在对应阶段块的输出特征相乘的两个融合乘法操作块；以及

用于将所述两个融合乘法操作块输出的特征相加的融合加法操作块。

6.根据权利要求1或5所述的目标检测方法，其特征在于，所述热图块包括：

用于将所输出的不同光谱的输出特征进行拼接操作的拼接块；

与所述拼接块的输出端连接的输出通道为2的卷积块；

与所述输出通道为2的卷积块的输出端连接的第二激活函数块，所述第二激活函数块采用sigmoid函数。

7.一种用于矿区无人驾驶场景的目标检测系统，其特征在于，所述目标检测系统利用如权利要求1~6中任一项所述的目标检测方法来实现，其中，所述目标检测系统包括：

由可见光相机和热红外相机构成的双目图像采集设备，其中，所述可见光相机的视场角大于所述热红外相机的视场角，所述可见光相机与所述热红外相机的光轴在同一水平线上；

检测控制器，其分别与所述可见光相机和所述热红外相机连接，用于在无人驾驶过程中，根据实时采集到的可见光图像和热红外图像，利用预先训练好的目标检测模型来开展目标检测任务。