CN115984543A

CN115984543A - 一种基于红外与可见光图像的目标检测算法

Info

Publication number: CN115984543A
Application number: CN202211171460.1A
Authority: CN
Inventors: 陈健斌; 温婉文; 熊欢畅; 关宏基; 莫文书; 吴有营; 王进通; 邹建俊
Original assignee: Guangdong Titan Intelligent Power Co ltd
Current assignee: Guangdong Titan Intelligent Power Co ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-04-18

Abstract

本发明提供一种有效实现可见光图像与红外图像性能互补，同时降低光照、雨雾等噪声干扰，大大提高目标检测技术泛化能力和稳定性的一种基于红外与可见光图像的目标检测算法。该算法将深度可分离卷积与残差结构相结合，构建并列的高效率特征提取网络，分别提取红外和可见光图像目标信息；同时引入自适应特征融合模块以自主学习的方式融合两支路对应尺度的特征，使两类图像信息互补；最后，利用特征金字塔结构将深层特征逐层与浅层融合，提升网络对不同尺度目标的检测精度。本发明用于图像目标识别检测领域。

Description

一种基于红外与可见光图像的目标检测算法

技术领域

本发明涉及图像目标识别检测领域，尤其涉及一种基于红外与可见光图像的目标检测算法。

背景技术

图像目标识别检测技术作为数字图像处理和模式识别领域中的一个重要分支，广泛的应用于自动驾驶、医疗图像、工业检测、智能机器人、智能视频监控等诸多场景。所谓目标检测即是通过分析目标特征信息，对视频或图像中感兴趣目标区域进行定位提取，并准确识别出各个区域的目标类别及其对应的包围框。目前，大多数目标检测算法主要基于可见光图像进行识别检测，可见光图像虽然包含丰富的纹理和细节信息，但通常实际场景中各目标所处环境错综复杂，造成目标存在遮挡、尺度变化范围大、光照不均以及噪声干扰等情况，使目测检测技术的落地仍存在较大挑战。而红外图像主要利用热辐射能量成像，受光照影响较少，但图像对比度低，目标纹理结构等特征损失严重，较大的限制了其在目标检测领域中的应用。为缓解了传统算法的弊端，研究者将深度学习方法应用于目标检测，通过端到端的训练方式，使目标检测精度得到大幅提升，具体采用以下几种方式：1、利用双通道深度残差卷积网络分别对可见光和红外图像进行特征提取，并通过计算特征欧氏距离结合注意力机制实现对感兴趣区域的目标检测；2、通过对两种图像中目标进行粗定位后再结合卷积网络对定位框进行决策融合，实现高效检测；3、利用差分最大损失函数指导红外和可见光两个支路的卷积网络提取目标特征，并设计特征增强和级联语义扩展模块提升对不同尺度目标的检测；4、利用改进YOLOv3网络对可见光和红外图像进行分别检测后再进行加权融合提升目标检测效果。可见，基于深度学习的红外与可见光融合的检测方法可以有效提升目标检测效果，但大多数方法采用分别提取特征后再融合检测，未能充分利用两类图像中目标特征进行信息互补。

因此，研究一种基于可见光与红外图像相结合的目标检测方法，可以有效实现性能互补，同时降低光照、雨雾等噪声干扰，对目标检测技术的发展以及实际场景的应用都有较大的促进作用。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供了一种有效实现可见光图像与红外图像性能互补，同时降低光照、雨雾等噪声干扰，大大提高目标检测技术泛化能力和稳定性的一种基于红外与可见光图像的目标检测算法。

本发明所采用的技术方案是：包括将深度可分离卷积与残差结构相结合，构建并列的高效率特征提取网络，所述特征提取网络由特征提取模块、特征融合模块以及检测模块三部分构成，其中所述特征提取模块针对红外和可见光图像，分由两个并列的相同结构支路构成，主要采用深度可分离卷积作为特征提取基本单元，结合LeakyReLU激活层、最大池化层、上采样等操作，对红外和可见光图像特征信息由浅到深的高效提取；所述特征融合模块通过线性组合方式对两支路池化层特征进行建模，利用自主学习方式实现红外与可见光信息共享，使两支路提取的特征进行互补；所述检测模块利用多个不同尺度的深层特征以逐层上采样融合的操作构建特征金字塔预测结构，提升网络对不同尺度目标的检测精度。

进一步地，所述特征提取模块由init模块和多个stage模块组成，所述init模块主要对原图进行特征预处理，采用步长为2的并列卷积和池化两条支路提取目标显著特征，降低图像维度的同时也过滤了部分噪声，保障后续结构对特征的深入提取；所述stage模块主要利用卷积层、激活层以残差结构方式构建，不同stage之间通过步长为2的2×2池化操作进行降维。

再进一步地，所述stage模块引入残差结构来避免网络层数过深造成训练时出现梯度消失、梯度爆炸等问题，并以LeakyReLU作为激活函数，降低神经元“坏死”概率，使网络更快收敛，

式中α表示的是偏移量，为一个较小数值的超参数，默认设置为0.02。

又进一步地，所述特征融合模块考虑到网络运行效率，将特征提取过程中每个尺度的最后一层进行融合，即所述init模块最后一层和所述stage模块之间的池化层进行融合，同时采用自主学习的线性加权方式来替代特征信息直接相加，避免融合时引入过多噪声。

还进一步地，融合计算公式如下

自主学习的线性加权计算公式(1)和(2)如下

其中，为待融合可见光特征图上坐标位置为(i,j)的像素值，同理，为待融合红外特征图上坐标位置为(i,j)的像素值，α_AA,α_AB,α_BA,α_BB为待学习的权重，y为融合后的对应特征图位置的输出，表示利用误差反向传播更新权重，由自主学习的线性加权计算公式(2)可以看出，当α_AA＝α_BB＝1，α_AB＝α_BA＝0时，表明该层特征信息并不融合，通过自主学习的方式决定红外和可见光图像特征信息的融合程度，进而达到最优组合。

更进一步地，所述检测模块以所述特征融合模块的输出作为输入，采用concat操作对所述init模块和所述stage模块两路特征拼接后作为检测输入(即fuse)，同时采用多个不同维度的融合特征(fuse2～fuse5)，以自上而下的方式构建特征金字塔检测结构。

最后，所述金字塔检测结构包括以下步骤，

步骤一：将融合后的深层特征通过点卷积调整特征通道与浅层特征一致；

步骤二：上采样至浅层特征尺度大小，并与浅层特征拼接；

步骤三：将拼接后的特征信息进行卷积操作，充分融合深层特征信息；

步骤四：将fuse5～fuse2的特征依次重复上述上采样拼接融合操作，使检测模块能充分获取全局以及局部特征信息；

步骤五：分别利用四个尺度的特征对目标类别和位置进行预测，并将预测结果通过极大值抑制算法筛选出最优目标检测框，进而实现对各目标的精准检测。

与现有技术相比，本发明的有益效果是：本发明针对现有基于可见光的目标检测算法存在的不足，提出了一种红外和可见光图像融合的目标检测方法。该算法将深度可分离卷积与残差结构相结合，构建并列的高效率特征提取网络，分别提取红外和可见光图像目标信息；同时引入自适应特征融合模块以自主学习的方式融合两支路对应尺度的特征，使两类图像信息互补；最后，利用特征金字塔结构将深层特征逐层与浅层融合，提升网络对不同尺度目标的检测精度。本发明所提网络能够充分融合红外和可见光图像中的有效信息，并在保障精度与效率的前提下实现目标识别与定位；同时，在实际变电站设备检测场景中，该网络也体现出较好的鲁棒性和泛化能力，可以高效完成检测任务。因此，本发明有效实现可见光图像与红外图像性能互补，同时降低光照、雨雾等噪声干扰，大大提高目标检测技术泛化能力和稳定性。

附图说明

图1是本发明的特征提取网络的结构图；

图2是所述init模块的示意图；

图3是所述stage模块的示意图；

图4是特征金字塔检测模块示意图；

图5是单支路与融合支路目标检测结果对比图；

图6是本发明与红外、可见光网络检测效果对比图；

图7是变电站实验检测效果对比图；

图8是特征交叉融合模块示意图。

具体实施方式

如图1所示，本发明包括包括将深度可分离卷积与残差结构相结合，构建并列的高效率特征提取网络，所述特征提取网络由特征提取模块、特征融合模块以及检测模块三部分构成，其中所述特征提取模块针对红外和可见光图像，分由两个并列的相同结构支路构成，主要采用深度可分离卷积作为特征提取基本单元，结合LeakyReLU激活层、最大池化层、上采样等操作，对红外和可见光图像特征信息由浅到深的高效提取；所述特征融合模块通过线性组合方式对两支路池化层特征进行建模，利用自主学习方式实现红外与可见光信息共享，使两支路提取的特征进行互补；所述检测模块利用多个不同尺度的深层特征以逐层上采样融合的操作构建特征金字塔预测结构，提升网络对不同尺度目标的检测精度。

其中，征提取作为目标检测的首要任务，其提取的特征好坏直接决定目标检测模型的优劣。对于传统目标检测而言，特征主要靠人工设计，如SIFT、HOG、Haar、DPM等，通过提取滑动窗口中相应特征并利用机器学习进行分类，实现目标检测。而基于深度学习的目标检测方法扩大了特征提取的范畴，利用端到端的训练学习方式来自动学习目标特征，避免了人工设计特征的局限。因此，基于深度学习的检测算法通常能够获得比传统方法更优的检测效果。基于此，本发明采用目前经典的深度学习网络，设计了适用于红外和可见光图像的并列双支路特征提取网络。

为有效提取图像中各目标浅层和深层特征，本发明所构建的特征提取结构采用多个不同特征尺度的子模块串联堆叠构成，详细结构如下表所示。

所述特征提取模块由init模块和多个stage模块组成，所述init模块(如图2)主要对原图进行特征预处理，采用步长为2的并列卷积和池化两条支路提取目标显著特征，降低图像维度的同时也过滤了部分噪声，保障后续结构对特征的深入提取；所述stage模块(如图3)主要利用卷积层、激活层以残差结构方式构建，不同stage之间通过步长为2的2×2池化操作进行降维。由于需要分别对红外和可见光图像进行特征提取，为避免网络计算量过大，stage模块采用深度可分离卷积替代传统卷积来提取特征，有效降低了网络参数以及计算量。深度可分离卷积相对于传统卷积虽然提取的特征信息有所降低，但双支路的信息融合可以较好的弥补特征缺失等问题。

所述stage模块引入残差结构来避免网络层数过深造成训练时出现梯度消失、梯度爆炸等问题，并以LeakyReLU作为激活函数，降低神经元“坏死”概率，使网络更快收敛，

式中α表示的是偏移量，为一个较小数值的超参数，默认设置为0.02，由LeakyReLU公式可以看出，当输入小于零时，函数的输出不为零，求导之后导数为固定值，从而避免进入负区间神经元不学习的问题。

通常情况下，可见光图像包含丰富的颜色、纹理等信息，能够提供较多的细节信息，但容易受到光照强度、天气等影响；而红外图像利用目标的热辐射能量大小进行成像，不受光照影响，但图像对比度较低，会损失部分目标的纹理、结构等外观特征。因此，通过融合红外和可见光图像信息，可以更好的增强和发现目标。基于此，本发明在特征提取结构基础上，设计了特征交叉融合模块，使提取的红外和可见光图像信息互补，融合结构如图8所示：

所述特征融合模块考虑到网络运行效率，将特征提取过程中每个尺度的最后一层进行融合，即所述init模块最后一层和所述stage模块之间的池化层进行融合(未画出init层，i取值为1,2,3,4)，同时采用自主学习的线性加权方式来替代特征信息直接相加，避免融合时引入过多噪声。具体的融合计算公式如下：

自主学习的线性加权计算公式(1)和(2)如下

对于基于深度学习的目标检测算法而言，目前的检测思路可根据预设框大致分为两类：AnchorBased和Anchor-free检测模型。AnchorBased需要事先预设多个包围框，预测时通过微调包围框实现检测。AnchorBased又分为Two-stage和One-stage检测模型，Two-stage模型检测思路主要分为三个部分：候选区域生成、基于卷积神经网络的特征提取和目标定位分类，典型的网络有R-CNN系列网络；One-stage模型则舍弃了候选框的生成过程，直接在特征图上对预设框进行微调实现检测，典型的网络有YOLO系列、SSD等网络。本发明基于于One-stage模型设计了特征金字塔检测模块，以所述特征融合模块的输出作为输入，采用concat操作对所述init模块和所述stage模块两路特征拼接后作为检测输入(即fuse)，同时采用多个不同维度的融合特征(fuse2～fuse5)，以自上而下的方式构建而成，如图4所示。而对于预设框的设置，利用k-means算法来对训练集中的标注框利用聚合，自动生成一组适用于对应场景的预设框。

所述金字塔检测结构包括以下步骤，

步骤二：上采样至浅层特征尺度大小，并与浅层特征拼接；

在本实施例中，实验分别采用搭载Titan Xp的高性能电脑以及NVIDIA JetsonTX2嵌入式平台进行实验。网络采用caffe深度学习框架进行构建，通过公开数据集和实际变电站数据集分别对网络的可行性和实际落地性进行测试。采用小批次梯度下降方法(mini batch SGD)来优化网络参数，并利用Momentum动量算法来加速优化，动量参数设置为0.9；初始学习率设置为0.001，学习策略采用step模式，即迭代训练3万次之后每迭代1万次学习率降低10倍；权值衰减系数设为0.0005防止过拟合；对于损失函数，由于目标检测是多任务模型，因此，训练时的损失为分类损失、置信度损失以及回归框损失的叠加，具体的损失函数参考YOLO网络计算方式。对于所提网络的精度及效率评价分别采用均值平均精度(mAP)和网络每秒处理图像数量(FPS)来评价。均值平均精度指各个类别的平均精度的平均值，而针对目标尺寸不同，又分为mAP_s、mAP_m、mAP_l来衡量网络对小中大目标的检测效果，以边界框面积32²和96²作为区分边界，计算公式如下：

其中，公式(3)(4)(5)中：C为类别；N(TruePositives)C指一张图像中的C类目标正确预测的数量；N(TotalObject)C指该图像中C类目标总数；PrecisionC指该图像中C类目标检测精度；N(TotalImage)C指训练集中含C类目标的图像数量；N(Classes)表示样本中类别数，APC指所有图像中C类目标的平均精度。式(8)为效率评价指标：N为图像数量，Tk指网络处理第k张图像所消耗的时间。

为有效验证所提方法的可行性，本实施例采用RGBT210数据集^]作为标准数据进行测试。RGBT210数据集由具有相同的成像参数红外和可见光摄像机在210种场景下采集的图像构成。该数据集包含约21万张图像，涵盖约20多种目标在不同时间段、不同光照强度下的红外和可见光图像对。由于该数据集较大，且大多数图像相似，为了能快速验证所提网络，从中筛选出了5000张相似度较低的图像进行测试。筛选出的图像包含汽车、行人、自行车、狗、风筝等10种类别，将其归一化图像尺寸为512×448，并以7:1:2的比例构建训练、验证及测试集，在搭载Titan Xp电脑上进行训练测试。实验首先对所提网络的单条支路进行测试，即删除融合模块和红外支路，只利用可见光支路进行目标检测。网络训练时设置batchsize为4，经过约10万次迭代收敛后，与同类型的目标网络对比结果如下表：

由上述表格可以看出，本发明所构建的可见光单支路网络与目前主流的高精度(Faster RCNN)和高效率(_Shuffle+SSD)目标检测网络相比，较好的平衡了网络性能。同时，网络以深度可分离卷积替代传统卷积，并引用了残差、LeakyReLU激活函数等网络构建策略，与同类型网络(YOLO)相比，所提网络以较小的精度损失来换取网络效率大幅提升。但相对于Faster RCNN，由于所提网络为单步检测，并且深度可分离卷积相对传统卷积损失部分了特征信息，所以造成精度有所降低。为进一步验证红外与可见光双支路结构的特征互补性以及所提特征融合结构的有效性，实验分别测试了可见光、红外以及融合后的网络性能，同时，针对两支路的融合结构，分别测试了直接相加(Eltwise)、拼接(Concat)以及本发明所提的自适应融合结构，实验测试结果如下表和图5：

由此可以看出，红外图像由于缺少较多细节信息，与可见光图像相比，目标检测效果较差；而可见光受光照等影响，也造成部分目标无法识别。通过两支路融合的方式，使图像特征信息更加丰富，网络检测精度也有较大提升，但由于引入了新的支路，网络效率有一定的下降。同时，不同的融合方式，对网络性能也有一定的影响，Eltwise和Concat融合方式虽然增加了特征信息，但也引入了较多噪声，而本发明所提方法较好的缓解了噪声的引入，使两支路的有效信息能更好的互补，检测精度也更高。为更好的验证所提网络的优势，实验与其他同类型的红外与可见光融合网络进行了测试对比，检测效果如图6所示。

变电站场景测试：标准数据集的测试结果有效的验证了所提网络的可行性，为了进一步验证该网络的泛化能力以及实际落地性，本发明采用实际变电站场景下的设备图像数据，对网络进行测试验证。在实际变电站场景中，大多数设备需要巡检机器人进行红外测温来监测设备状况，但由于实际环境复杂，如何避免其他设备干扰，准确定位出待测设备对机器人而言极为重要。基于此，本发明以搭载Jetson TX2变电站巡检机器人为测试平台，通过机器人搭载的可见光和红外相机对设备图像进行采集，并根据两相机参数，将采集的红外和可见光图像进行裁剪使各目标对齐。实验主要采集了断路器、绝缘子、冷控箱、变压器等6种变电站设备图像，涵盖了不同大小的目标，从中筛选出5000张重复率较低的图像，利用公开标注工具LabelImg对图像中的各个目标进行手动标注，并调整图像尺寸为512×448大小。将处理后的图像以7:1:2的比例构建训练、验证和测试集，在JetsonTX2平台上进行训练测试，检测效果如图7所示，根据实际场景中的实验结果可以看出，由于测试平台的计算性能较低，各网络的效率都相应的下降到较低水平，但总体来看，本发明所提网络与同类型高效率网络相比，基本达到相同的检测效率。尽管效率仍相对较低，但相对于巡检速度较慢的机器人而言，也基本能满足其实时检测的需求。同时，在检测精度方面，由于实际场景中的数据相对于标准数据集较为简单，各方法在检测精度上都有所提升，对于简单的设备环境，各算法基本都能实现准确检测，如图7第一排中对变电箱的检测；但对于相对复杂的环境，如图7第二三排中，存在目标过大、各目标相互影响、背景复杂的情况，使各算法检测效果受到较大影响。但通过整体对比，可以看出本发明所提网络的检测效果基本与高精度网络不相上下，并且可以达到高效率网络的检测效率。综上可见，本发明所提方法具有更强的鲁棒性及泛化能力，可以很好的适用于巡检机器人对变电站设备的检测，使机器人能够保持高精度高效率的完成检测任务。

本发明针对目前单一可见光目标检测算法存在的局限，提出了一种融合红外和可见光图像特征信息的深度神经网络目标检测方法。该方法以深度可分离卷积为基本特征提取单元，结合高效率LeakyReLU激活函数和残差结构构建并列的红外-可见光特征提取支路；为有效融合红外和可见光图像中目标特征信息，引入了自适应特征融合模块，利用自主学习的方式对两支路中的有效信息进行融合，避免了过多噪声的引入；同时，为保证网络对不同大小目标的准确检测，采用特征金字塔结构方式融合不同维度的特征信息，并利用多个尺度特征分别对目标进行预测，提升了对不同大小目标的检测效果。通过在标准数据集以及实际变电站设备检测场景中的实验结果表明，本发明所提网络有效的平衡了检测精度与效率，可以较好的应用于变电站巡检机器人完成设备检测任务。

最后需要强调的是，以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种变化和更改，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于红外与可见光图像的目标检测算法，其特征在于：包括将深度可分离卷积与残差结构相结合，构建并列的高效率特征提取网络，所述特征提取网络由特征提取模块、特征融合模块以及检测模块三部分构成，其中所述特征提取模块针对红外和可见光图像，分由两个并列的相同结构支路构成，主要采用深度可分离卷积作为特征提取基本单元，结合LeakyReLU激活层、最大池化层、上采样等操作，对红外和可见光图像特征信息由浅到深的高效提取；所述特征融合模块通过线性组合方式对两支路池化层特征进行建模，利用自主学习方式实现红外与可见光信息共享，使两支路提取的特征进行互补；所述检测模块利用多个不同尺度的深层特征以逐层上采样融合的操作构建特征金字塔预测结构，提升网络对不同尺度目标的检测精度。

2.根据权利要求1所述的一种基于红外和可见光图像的目标检测算法，其特征在于：所述特征提取模块由init模块和多个stage模块组成，所述init模块主要对原图进行特征预处理，采用步长为2的并列卷积和池化两条支路提取目标显著特征，降低图像维度的同时也过滤了部分噪声，保障后续结构对特征的深入提取；所述stage模块主要利用卷积层、激活层以残差结构方式构建，不同stage之间通过步长为2的2×2池化操作进行降维。

3.根据权利要求2所述的一种基于红外和可见光图像的目标检测算法，其特征在于：所述stage模块引入残差结构来避免网络层数过深造成训练时出现梯度消失、梯度爆炸等问题，并以LeakyReLU作为激活函数，降低神经元“坏死”概率，使网络更快收敛，

4.根据权利要求3所述的一种基于红外和可见光图像的目标检测算法，其特征在于：所述特征融合模块考虑到网络运行效率，将特征提取过程中每个尺度的最后一层进行融合，即所述init模块最后一层和所述stage模块之间的池化层进行融合，同时采用自主学习的线性加权方式来替代特征信息直接相加，避免融合时引入过多噪声。

5.根据权利要求4所述的一种基于红外和可见光图像的目标检测算法，其特征在于：融合计算公式如下

自主学习的线性加权计算公式(1)和(2)如下

其中，

为待融合可见光特征图上坐标位置为(i,j)的像素值，同理，

为待融合红外特征图上坐标位置为(i,j)的像素值，α_AA,α_AB,α_BA,α_BB为待学习的权重，y为融合后的对应特征图位置的输出，表示利用误差反向传播更新权重，由自主学习的线性加权计算公式(2)可以看出，当α_AA＝α_BB＝1，α_AB＝α_BA＝0时，表明该层特征信息并不融合，通过自主学习的方式决定红外和可见光图像特征信息的融合程度，进而达到最优组合。

6.根据权利要求5所述的一种基于红外和可见光图像的目标检测算法，其特征在于：所述检测模块以所述特征融合模块的输出作为输入，采用concat操作对所述init模块和所述stage模块两路特征拼接后作为检测输入(即fuse)，同时采用多个不同维度的融合特征(fuse2～fuse5)，以自上而下的方式构建特征金字塔检测结构。

7.根据权利要求6所述的一种基于红外和可见光的图像目标检测算法，其特征在于：所述金字塔检测结构包括以下步骤，

步骤二：上采样至浅层特征尺度大小，并与浅层特征拼接；