CN112070111B

CN112070111B - 一种适配多波段图像的多目标检测方法和系统

Info

Publication number: CN112070111B
Application number: CN202010738211.0A
Authority: CN
Inventors: 王高峰; 张非非; 闾曾怡; 张学谦; 任一翔; 金秉阳; 茅泓锴
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2023-11-28
Anticipated expiration: 2040-07-28
Also published as: CN112070111A

Abstract

本发明公开了一种适配多波段图像的多目标检测方法和系统，首先对输入的多波段图像数据进行预处理，得到尺寸统一、特征匹配的多波段图像序列；再使用自编码神经网络方法生成保留多波段图像显著特征的特征融合图；应用标注工具及共享标注方式构建多波段图像联合数据集；训练并验证由卷积神经网络搭建的多波段检测模型Multiband‑net，得到包含权重参数的模型文件；调用模型文件实现对可见光、红外、二者融合图像的跨波段灵活检测，输出检测结果图像及视频。本发明的方法可以广泛应用于深度学习训练过程，提升目标检测模型精度及跨波段检测的泛化性能，系统分类模型在可见光和红外波段的平均精度分别达到84.89％、87.95％，在适配的不同波段上均取得更优的检测性能。

Description

一种适配多波段图像的多目标检测方法和系统

技术领域

本申请涉及深度学习领域，图像处理技术领域，具体涉及一种基于图像配准及特征融合技术的多波段图像联合数据集制作方法，以及基于该方法的多波段图像联合数据集训练得到多波段目标检测神经网络模型的方法及系统。

背景技术

多目标检测是计算机视觉领域的基础问题，是解决目标识别、目标追踪、语义分割、图像描述、场景理解和事件检测等更高层次视觉任务的基础，并且在人工智能和信息技术的许多领域都有广泛的应用，如机器人视觉、自动驾驶、基于内容的图像检索、智能视频监控等。基于多波段特征融合的多目标检测技术正成为目前研究热点领域，尤其是基于可见光波段与红外波段特征融合的检测技术，通过对多波段传感器获取的同一场景的图像进行综合处理，融合可见光波段色彩、纹理等丰富细节信息以及红外波段显著边缘梯度特征和稳定成像能力，以生成更丰富、更可靠的图像信息，降低检测系统冗余性，增强系统在复杂气象和光线条件下执行检测功能的环境适应能力，提升系统的全天候工作能力，加强系统的目标识别检测能力。基于该技术的多目标检测和跟踪等军事领域和医学成像、智能交通、安检系统等民用领域都有广泛的应用，对国防事业和经济建设具有重要意义。

实际应用中，基于特征融合的检测系统在传感器层面存在可见光图像、红外图像、可见光与红外特征融合图像等多种模态数据输入，而目前基于单波段的深度学习训练方法得到的模型都只能在单波段具备有效性，跨波段检测的泛化性能不足，导致检测系统需调用不同模型以匹配不同场景需求下输入数据模态的切换，增加了系统的冗余度和操作的复杂性。

发明内容

为了解决多波段检测需求下检测模型冗余度增加的问题，提升检测系统整体检测准确性和跨波段检测泛化性，本发明提供一种适配多波段图像的多目标检测方法和系统，具体是一种可同时适配可见光和红外多波段图像的多目标检测神经网络模型的构建方法和检测系统，包含一种基于图像配准及特征融合技术的多波段图像联合数据集制作方法，以及一种多波段目标检测神经网络模型的构建方法，通过训练、测试并调用模型实现对多波段目标的高精度检测。

本发明首先对可见光和红外多波段异源传感器成像元件进行畸变校正，然后对不同波段图像进行空间特征点配准并裁剪，得到场景一致、尺寸统一的多波段图像序列；其次应用多源数据融合网络实现多波段的特征信息的融合，得到融合图像序列；进一步地，通过手动标注和共享标注方式构建不同波段数据集合多波段联合数据集；再然后训练并验证由卷积神经网络搭建的检测模型MultiBand-NET；再调用该MultiBand-NET模型实现对多波段目标的高精度检测。具体方案如下：

一种适配多波段图像的多目标检测方法，包括如下步骤：

S1：通过多波段的图像采集装置采集得到经过畸变校正和空间配准的尺寸统一、特征匹配的可见光和红外图像序列；所述的畸变校正是指使用移动平面棋盘格的摄像机标定方法分别计算可见光摄像头和红外成像传感器的成像元件内、外参数和畸变系数标定，校正透镜畸变效应，得到目标原有的外形信息；所述的空间配准是使用SIFT特征匹配算法利用尺度不变性变换对可见光图像与红外图像中目标的边缘、角点分别进行匹配，以达到尺寸统一、特征匹配的可见光和红外图像序列；

S2：使用自编码神经网络方法生成可见光图像与红外图像的特征融合图，最大限度保留可见光与红外源图像的多波段显著特征；

S3：通过手工标注方式制作可见光图像序列的目标分类标注文件，得到可见光图像数据集V；可以使用计算机视觉领域图像标注的公开工具集进行手动标注，包括LabelImg、Labelme、RectLabel、CVAT、VOTT、Boobs等图像和视频标注工具；

S4：通过共享标注方式将可见光标注文件共享至具备相同特征分布的红外图像序列，得到红外图像数据集I；

S5：通过共享标注方式将可见光标注文件共享至具备相同特征分布的融合图像序列，得到融合图像数据集F；

S6：分别将V、I数据集中的图像序列、标注文件序列以相同排列方式组织存储目录结构，得到可见光波段(V)和红外波段(I)图像的多波段联合数据集VI；

S7：分别将V、I、F数据集中的图像序列、标注文件序列以相同排列方式组织存储目录结构，得到可见光波段(V)、红外波段(I)、融合图像(F)的多波段联合数据集VIF；

S8：使用目标检测神经网络算法框架加载VIF数据集进行训练；所述目标检测神经网络算法框架包括单阶段的YOLO、CenterNet检测网络，或双阶段的FasterRCNN、MaskRCNN检测网络；

S9：对训练数据集样本进行划分，得到训练集、验证集、测试集；优选比例为训练集：验证集：测试集＝80％：4％：16％；

S10：调用深度学习框架TensorFlow和Keras中的卷积层、池化层、损失函数与激活函数模块，构建多波段图像的目标检测网络模型MultiBand-NET，包含由DBL卷积网络单元、ResidualBlock残差网络单元构成的特征提取骨干网络，以及由Upsample上采样模块、Concat拼接融合层、Detection检测模块构成的多尺度检测头网络；

S11：设置训练超参数，包括预设网络输入图像尺寸宽度width数值、高度height数值、通道数channels数值，预设目标类别classes数值，预设目标多尺度边界框Anchors数组，输出通道数filters，学习率learning_rate，动量参数momentum，优化函数，权重衰减系数decay，训练迭代次数Epoches，训练批量参数batchsize；

S12：模型训练过程如下：加载训练集，加载预训练网络模型，采用随机初始化参数方式开始进行迭代训练，利用验证集对每一轮训练后的模型进行验证，在训练集和验证集关于检测模型损失函数评价指标Loss、val_loss均稳定收敛之后，为防止过拟合，停止模型训练，保存模型参数并得到检测模型MultiBand-NET，最后调用test函数在Test测试集上检测训练完成的检测模型，模型的评价指标为分类精度AP值、全局平均精度mAP值；

S13：得到最终的检测模型MultiBand-NET后，运行detector检测函数应用检测模型执行检测任务，通过调用系统图像传感器设备IO接口，对输入图像数据进行逐帧目标检测，检测模型输出帧画面中预设目标的boundingbox坐标、class分类结果、置信度概率值信息，调用opencv绘图函数绘制检测结果到原图像，在原帧图像上boundingbox坐标对应位置绘制boundingbox矩形框，矩形框左上角绘制分类标识文字和置信度概率值，并逐帧输出检测结果图像到系统窗口，同步将输出的检测结果图像数据保存为视频文件，形成检测记录。

本发明中的图像数据集，包括VOC、COCO、YOLO格式数据集。

所述步骤S3-S7中的多波段联合数据集的制作过程具体为：

1)可见光波段图像数据集V，对应的图像序列为{V₁,V₂,V₃,…,V_i}，经过手动标注后对应的标注文件序列为

2)与可见光图像序列一一配准对应的红外波段图像数据集I，对应的图像序列为{I₁,I₂,I₃,…,I_i}，直接使用可见光波段标注序列作为红外波段标注序列，使用批处理脚本修改标注文件名称，得到对应的标注文件序列为

3)由可见光波段图像与红外波段图像经过特征融合得到的融合数据集F，对应的融合图像序列为{F₁,F₂,F₃,…,F_i}，直接使用可见光波段标注序列作为融合图像标注序列，使用批处理脚本修改标注文件名称，得到对应的标注文件序列为

4)联合可见光数据集V与红外数据集I，将可见光图像序列{V₁,V₂,V₃,…,V_i}与红外图像序列{I₁,I₂,I₃,…,I_i}按照排列方式P₁进行混合排列，得到联合图像序列按照相同排列方式P₁将可见光图像标注序列/>与红外图像标注序列/>进行混合排列，得到对应的联合标注序列/>联合图像序列与联合标注序列共同构成联合数据集VI；

5)联合可见光数据集V、红外数据集I与融合数据集F，在上述第4)步得到的VI数据集基础上，将VI数据集图像序列与融合数据集图像序列{F₁,F₂,F₃,…,F_i}按照排列方式P₂进行混合排列，得到联合图像序列/>按照相同排列方式P₂将VI数据集标注序列/>与融合图像标注序列/>进行混合排列，得到对应的联合标注序列/>联合图像序列与联合标注序列共同构成联合数据集VIF。

此外，本发明还提供一种适配多波段图像的多目标检测系统。

通过本发明方法构建的检测模型融合了不同波段特征提取能力，与现有技术相比，本发明的有益效果在于可以在可见光及红外多波段同时取得高精度指标，具体为：

1)在输入为可见光波段图像时，模型由于融合了红外波段可靠边缘梯度信息的特征提取能力，其在可见光波段的检测精度要优于只在可见光波段图像构建所得模型的精度；

2)在输入为红外波段图像时，模型由于融合了可见光波段丰富纹理信息的特征提取能力，其在红外波段的检测精度要优于只在红外波段图像上构建所得模型的精度；

本发明方法在多波段均能取得更优精度指标，达到1+1＞2的检测准确度效果，使用本发明方法构建的多波段检测模型的多目标检测系统可以更灵活高效地执行多波段检测任务。

附图说明

图1是本发明中多波段图像联合数据集制作流程示意图

图2是本发明中多波段检测模型训练及检测流程示意图

图3是本发明中多波段联合数据集制作方法示意图。

图4是实施例中可见光和红外摄像头畸变校正前后图象对比。

图5是实施例中SIFT算法对双摄像头图像进行场景匹配，左图为红外图像边缘检测结果；右图为可见光图像边缘检测结果。

图6是实施例中多波段特征融合生成网络示意图。

图7是实施例中多波段检测模型测试平均精确度数据mAP、分类精确度数据AP值示意图，左列为可见光输入条件下测试数据图，右列为红外图像输入条件下测试数据图。

具体实施方式

下面结合图示详细描述本申请的实施例，对本发明的技术方案做进一步的描述。具体实施场景为野生动物物种保护领域，对熊猫、猴子、狮子3类物种进行多目标检测识别，采用YOLO目标检测框架框架构建初始网络模型结构。

参照图1，本实施例提供的一种基于图像配准及特征融合技术的多波段图像联合数据集制作方法，包括如下步骤：

S1：参照图3，通过多波段的图像采集装置采集得到经过畸变校正和空间配准的尺寸统一、特征匹配的可见光和红外图像序列；

其中畸变校正操作通过使用移动平面棋盘格的摄像机标定方法分别计算可见光摄像头和红外成像传感器的成像元件内、外参数和畸变系数标定，校正透镜畸变效应，得到目标原有的无畸变外形信息，可见光摄像头和红外成像元件畸变校正前后效果对比参见图4；

其中空间配准操作通过使用SIFT特征匹配算法利用尺度不变性变换对可见光图像与红外图像中目标的边缘、角点分别进行匹配，以达到尺寸统一、特征匹配的可见光和红外图像序列，配准效果参见图5；

S2：参见图6，使用自编码神经网络方法生成可见光图像与红外图像的特征融合图，最大限度保留可见光与红外源图像的多波段显著特征；所述的自编码神经网络方法是基于卷积神经网络构建的红外与可见光图像融合自编码器网络架构，包含编码器、融合层、解码器三部分，分别提取可见光图像和红外图像的所有显著特征，加以融合生成多波段特征融合图；其中，编码器将输入的可见光图像、红外图像序列进行卷积操作，实现数据降维，得到包含多波段显著特征的低维特征图；然后通过融合层将低维度可见光和红外特征图进行加权融合；最后通过解码器网络将低维融合特征图进行上采样复原至原图尺寸的高维特征融合图像；

S3：参见图1，通过手工标注方式制作可见光图像序列的目标分类标注文件，得到可见光图像数据集V；

S4：参见图1，通过共享标注方式将可见光标注文件共享至具备相同特征分布的红外图像序列，得到红外图像数据集I；

S5：参见图1，通过共享标注方式将可见光标注文件共享至具备相同特征分布的融合图像序列，得到融合图像数据集F；

S6：参见图1，分别将V、I数据集中的图像序列、标注文件序列以相同排列方式组织存储目录结构，得到可见光波段(V)和红外波段(I)图像的多波段联合数据集VI；

参照图2，本实施例提供的一种基于前述构建的多波段图像联合数据集VI进行深度学习训练得到的多波段多目标检测神经网络模型的方法和系统，包括如下步骤：

S8：使用本领域公开的目标检测神经网络算法框架YOLO进行模型构建和训练；

S9：对训练数据集样本进行划分，得到Train训练集、Val验证集、Test测试集；

S10：调用深度学习框架TensorFlow和Keas中的卷积层、池化层、损失函数与激活函数模块，构建多波段图像的目标检测网络模型，包含由DBL卷积网络单元、ResidualBlock残差网络单元构成的特征提取骨干网络，以及由Upsample上采样模块、Concat拼接融合层、Detection检测模块构成的多尺度检测头网络；

S11：设置训练超参数，包括预设网络尺寸宽度width＝416px，高度height＝416px，通道数channels＝3，预设目标类别classes＝3分类，预设目标多尺度边界框数量num＝9，预设边界包围框数组anchors＝[(14,17),(20,25),(27,34),(38,43),(54,52),(61,70),(80,57),(84,87),(125,140)]，输出通道数filters＝24，学习率learning_rate＝0.001，动量参数momentum＝0.9，优化函数＝Adam，权重衰减系数decay＝0.0005，预设训练迭代次数Epoches＝100轮，训练批量参数batchsize＝16；

S12：模型训练过程如下：加载Train训练集，加载预训练网络模型，采用随机初始化参数方式开始进行迭代训练，利用Val验证集对每一轮训练后的模型进行验证，在训练集和验证集关于检测模型损失函数评价指标Loss、val_loss均稳定收敛之后，保存训练完成的检测模型X，最后调用test函数在Test测试集上检测训练完成的检测模型X，模型的评价指标为分类精度AP值、全局平均精度mAP值；以训练轮数Epoches为横轴，以Loss值为纵轴对训练过程进行可视化，经过几十轮的训练之后，Loss值先大幅下降然后无限逼近某个loss值，最后在该值附近保持小范围的波动，而接下来的几十轮训练中，Loss值不再跟随训练轮数的增加而增大或减小，则视为模型已经收敛，保存模型参数，停止训练，防止过拟合；最终得到的收敛模型MultiBand-NET性能测试及对比如下表所示：

以上测试列表中具体测试数据细节参照图7，模型性能测试主要采用mAP平均精确度指标进行，可以综合评估模型对多分类的检测准确度和召回率，mAP值越高表示模型性能越好，如表所示，通过本发明方法构建的多波段联合数据集及训练方法得到的模型，可以在可见光及红外多波段同时取得高精度指标，且其在可见光波段精度84.89＞可见光模型测试精度83.85，其在红外波段精度87.95＞红外波段模型测试精度82.54，均取得更优精度指标，实现了1+1＞2的检测效果。

S13：应用模型进行多波段目标检测，得到最终的检测模型MultiBand-NET后，运行detector检测函数执行检测任务，加载前述训练好的检测模型X，调用系统图像传感器IO接口，对输入图像画面进行逐帧目标检测，输出帧画面中预设目标的boundingbox坐标、class分类结果、置信度概率值信息，调用opencv绘图函数在原帧画面上boundingbox坐标对应位置绘制boundingbox矩形框，矩形框左上角绘制分类标识文字和置信度概率值，并逐帧输出绘制画面到系统窗口，同步将输出的检测画面数据保存为视频文件，形成检测记录。

根据本发明的另一方面，本发明为解决其技术问题，本发明还提供了一种基于构建的多波段检测模型的多目标检测系统，包含如下模块：

多波段数据同步采集预处理模块，参照图1，用于制作数据集以及模型测试时提供场景一致、尺寸统一的多波段图像数据，通过移动平面棋盘格的摄像机标定方法分别计算可见光摄像头和红外成像传感器的成像元件内、外参数和畸变系数标定，校正透镜畸变效应，得到目标原有的外形信息；然后使用SIFT特征匹配算法利用尺度不变性变换对可见光图像与红外图像中目标的边缘、角点分别进行匹配，以达到场景一致、尺寸统一、特征匹配的可见光和红外图像序列；

特征融合网络模块，参照图6，使用基于卷积神经网络构建的自编码网络，生成最大限度保留可见光和红外不同波段显著特征的融合数据图像。其中的编码器网络将输入的可见光图像、红外图像序列进行卷积操作，实现数据降维，得到包含多波段显著特征的低维特征图；然后通过融合层将低维度可见光和红外特征图进行加权融合；最后通过解码器网络将低维融合特征图进行上采样复原至原图尺寸的高维特征融合图像。由于编码器网络和解码器网络采用COCO数据集80分类共20000张图像进行融合训练，融合效果优异，利于目标检测任务。

标签制作及数据集构建模块，参照图1，用于通过标注工具对可见光波段图片进行分类目标标注，生成xml、txt标注文件，并对应至红外波段和融合图片序列，形成多波段联合数据集，将数据集样本划分如下，训练集：验证集：测试集＝80％：4％：16％，用于神经网络模型训练；

检测模型建立模块，参照图2，用于调用深度学习框架TensorFlow和Keras中的卷积层、池化层、损失函数与激活函数模块，构建多波段图像的目标检测网络模型MultiBand-NET，包含由DBL卷积网络单元、ResidualBlock残差网络单元构成的特征提取骨干网络，以及由Upsample上采样模块、Concat拼接融合层、Detection检测模块构成的多尺度检测头网络；

检测模型训练模块，参照图2，用于调用train函数利用所述训练集对构建的所述检测模型MultiBand-NET进行迭代训练，加载预训练网络模型，采用随机初始化参数方式开始开始迭代训练，利用验证集对每一轮训练后的模型进行验证，在训练集和验证集关于检测模型损失函数评价指标Loss、val_loss均稳定收敛之后，保存训练完成得到的包含检测模型MultiBand-NET网络结构信息和权重参数的模型权重文件，最后调用test函数在测试集上检测训练完成的检测模型，模型的评价指标为分类精度AP值、全局平均精度mAP值；以训练轮数Epoches为横轴，以Loss值为纵轴对训练过程进行可视化，经过几十轮的训练之后，Loss值先大幅下降然后无限逼近某个loss值，最后在该值附近保持小范围的波动，而接下来的几十轮训练中，Loss值不再跟随训练轮数的增加而增大或减小，则视为模型已经收敛，保存模型参数，停止训练，防止过拟合；若训练集和验证集的Loss值不稳定，则重新获取与之前不同的数据集，并修改批量和学习率超参数；

检测模型应用模块，参照图2，用于在得到最终的检测模型MultiBand-NET后，运行detector检测函数应用检测模型执行检测任务，通过调用系统图像传感器设备IO接口，对输入图像数据进行逐帧目标检测，检测模型输出帧画面中预设目标的boundingbox坐标、class分类结果、置信度概率值信息，调用opencv绘图函数绘制检测结果到原图像，在原帧图像上boundingbox坐标对应位置绘制boundingbox矩形框，矩形框左上角绘制分类标识文字和置信度概率值，并逐帧输出检测结果图像到系统窗口，同步将输出的检测结果图像数据保存为视频文件，形成检测记录。

本实施例中，可见光摄像头为晟悦120°广角摄像头，24位彩色CMOS芯片，分辨率为1920x1080；红外摄像头为FLIR Boson非制冷远红外热像机芯，镜头焦距4.3mm，水平视角50°，分辨率为320x256。

本实施例中，训练环境硬件配置可以为Nvidia GTX1070Ti，编程环境可以为Tensorflow GPU，系统部署环境硬件配置可以为Nvidia JetsonTX2，本发明对此不做限定。

该实施例是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于上述实施例，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.一种适配多波段图像的多目标检测方法，其特征在于，包括如下步骤：

S1：通过多波段的图像采集装置采集得到经过畸变校正和空间配准的尺寸统一、特征匹配的可见光和红外图像序列；

S3：通过手工标注方式制作可见光图像序列的目标分类标注文件，得到可见光图像数据集V；

S8：使用目标检测神经网络算法框架加载VIF数据集进行训练；

S9：对训练数据集样本进行划分，得到训练集、验证集、测试集；

2.根据权利要求1所述的一种适配多波段图像的多目标检测方法，其特征在于，所述步骤S1中，所述的多波段的图像采集装置包含可见光摄像头、红外热成像传感器的计算机装置；所述的畸变校正是指使用移动平面棋盘格的摄像机标定方法分别计算可见光摄像头和红外成像传感器的成像元件内、外参数和畸变系数标定，校正透镜畸变效应，得到目标原有的外形信息；所述的空间配准是使用SIFT特征匹配算法利用尺度不变性变换对可见光图像与红外图像中目标的边缘、角点进行匹配，以达到尺寸统一、特征匹配的可见光和红外图像序列。

3.根据权利要求1所述的一种适配多波段图像的多目标检测方法，其特征在于，所述步骤S2中的可见光与红外图像的特征融合图生成方法，是基于卷积神经网络构建的红外与可见光图像融合自编码器网络架构，包含编码器、融合层、解码器三部分，分别提取可见光图像和红外图像的所有显著特征，加以融合生成多波段特征融合图；其中，编码器将输入的可见光图像、红外图像序列进行卷积操作，实现数据降维，得到包含多波段显著特征的低维特征图；然后通过融合层将低维度可见光和红外特征图进行加权融合；最后通过解码器网络将低维融合特征图进行上采样复原至原图尺寸的高维特征融合图像。

4.根据权利要求1所述的一种适配多波段图像的多目标检测方法，其特征在于，所述步骤S3-S7中的多波段联合数据集的制作过程具体为：

5.根据权利要求1所述的一种适配多波段图像的多目标检测方法，其特征在于，所述步骤S8中所述的目标检测神经网络算法框架，包括单阶段的YOLO、CenterNet检测网络，双阶段的FasterRCNN、MaskRCNN检测网络。

6.根据权利要求1所述的一种适配多波段图像的多目标检测方法，其特征在于，所述步骤S9中的训练数据集样本按照如下比例划分,训练集：验证集：测试集＝80％：4％：16％。

7.根据权利要求1所述的一种适配多波段图像的多目标检测方法，其特征在于，所述步骤S11中的超参数值如下：

输入图像为RGB格式，尺寸宽度width＝416、高度height＝416、通道数channels＝3，预设目标类别classes＝训练数据集已标注目标分类数，预设目标多尺度边界框数量num＝9，预设边界包围框数组

anchors＝[(14,17),(20,25),(27,34),(38,43),(54,52),(61,70),(80,57),(84,87),(125,140)]，输出通道数filters＝24，学习率learning_rate＝0.001，动量参数momentum＝0.9，优化函数＝Adam，权重衰减系数decay＝0.0005，预设训练迭代次数Epoches＝100轮，训练批量参数batchsize＝16。

8.根据权利要求1所述的一种适配多波段图像的多目标检测方法，其特征在于，所述步骤S12训练过程中，以训练轮数Epoches为横轴，以Loss值为纵轴对训练过程进行可视化，当训练之后，Loss值先大幅下降然后无限逼近某个loss值，最后在该值附近保持波动，且在接下来的训练中，Loss值不再跟随训练轮数的增加而增大或减小，则视为模型已经收敛。

9.一种适配多波段图像的多目标检测系统，其特征在于，包含如下模块：

多波段数据同步采集预处理模块，用于数据集制作、模型测试时提供场景一致、尺寸统一的多波段图像数据，通过移动平面棋盘格的摄像机标定方法分别计算可见光摄像头和红外传感器的成像元件内、外参数和畸变系数标定，校正透镜畸变效应，得到目标原有的外形信息；然后使用SIFT特征匹配算法利用尺度不变性变换对可见光图像与红外图像中目标的边缘、角点分别进行匹配，以达到场景一致、尺寸统一、特征匹配的可见光和红外图像序列；

特征融合网络模块，使用基于卷积神经网络构建的自编码网络，生成最大限度保留可见光和红外不同波段显著特征的融合数据图像；其中的编码器网络将输入的可见光图像、红外图像序列进行卷积操作，实现数据降维，得到包含多波段显著特征的低维特征图；然后通过融合层将低维度可见光和红外特征图进行加权融合；最后通过解码器网络将低维融合特征图进行上采样复原至原图尺寸的高维特征融合图像；所述的编码器网络和解码器网络采用COCO数据集80分类共20000张图像进行融合训练；

标签制作及数据集构建模块，用于通过标注工具对可见光波段图片进行分类目标标注，生成标注文件，并对应至红外波段和融合图片序列，形成多波段联合数据集，将数据集样本划分为训练集、验证集、测试集，用于神经网络模型训练；

检测模型建立模块，用于调用深度学习框架TensorFlow和Keras中的卷积层、池化层、损失函数与激活函数模块，构建多波段图像的目标检测网络模型MultiBand-NET，包含由DBL卷积网络单元、ResidualBlock残差网络单元构成的特征提取骨干网络，以及由Upsample上采样模块、Concat拼接融合层、Detection检测模块构成的多尺度检测头网络；

检测模型训练模块，用于调用train函数利用所述训练集对构建的所述检测模型MultiBand-NET进行迭代训练，加载预训练网络模型，采用随机初始化参数方式开始迭代训练，利用验证集对每一轮训练后的模型进行验证，在训练集和验证集关于检测模型损失函数评价指标Loss、val_loss均稳定收敛之后，保存训练完成得到的包含检测模型MultiBand-NET网络结构信息和权重参数的模型权重文件，最后调用test函数在测试集上检测训练完成的检测模型，模型的评价指标为分类精度AP值、全局平均精度mAP值；当模型收敛，保存模型参数，停止训练；若训练集和验证集的Loss值不稳定，则重新进行数据增强获取与之前不同的数据集，并修改批量和学习率超参数；

检测模型应用模块，用于在得到最终的检测模型MultiBand-NET后，运行detector检测函数应用检测模型执行检测任务，通过调用系统图像传感器设备IO接口，对输入图像数据进行逐帧目标检测，检测模型输出帧画面中预设目标的boundingbox坐标、class分类结果、置信度概率值信息，调用opencv绘图函数绘制检测结果到原图像，在原帧图像上boundingbox坐标对应位置绘制boundingbox矩形框，矩形框左上角绘制分类标识文字和置信度概率值，并逐帧输出检测结果图像到系统窗口，同步将输出的检测结果图像数据保存为视频文件，形成检测记录。