CN112070111B - 一种适配多波段图像的多目标检测方法和系统 - Google Patents
一种适配多波段图像的多目标检测方法和系统 Download PDFInfo
- Publication number
- CN112070111B CN112070111B CN202010738211.0A CN202010738211A CN112070111B CN 112070111 B CN112070111 B CN 112070111B CN 202010738211 A CN202010738211 A CN 202010738211A CN 112070111 B CN112070111 B CN 112070111B
- Authority
- CN
- China
- Prior art keywords
- image
- detection
- training
- visible light
- infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 155
- 238000012549 training Methods 0.000 claims abstract description 97
- 230000004927 fusion Effects 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000013135 deep learning Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 37
- 238000002372 labelling Methods 0.000 claims description 33
- 238000012360 testing method Methods 0.000 claims description 26
- 238000012795 verification Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 9
- 238000004519 manufacturing process Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000003384 imaging method Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 5
- 238000003331 infrared imaging Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000002156 mixing Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000001360 synchronised effect Effects 0.000 claims description 2
- 238000001931 thermography Methods 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 abstract description 3
- 238000013145 classification model Methods 0.000 abstract 1
- 230000023004 detection of visible light Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 4
- 238000003708 edge detection Methods 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种适配多波段图像的多目标检测方法和系统,首先对输入的多波段图像数据进行预处理,得到尺寸统一、特征匹配的多波段图像序列;再使用自编码神经网络方法生成保留多波段图像显著特征的特征融合图;应用标注工具及共享标注方式构建多波段图像联合数据集;训练并验证由卷积神经网络搭建的多波段检测模型Multiband‑net,得到包含权重参数的模型文件;调用模型文件实现对可见光、红外、二者融合图像的跨波段灵活检测,输出检测结果图像及视频。本发明的方法可以广泛应用于深度学习训练过程,提升目标检测模型精度及跨波段检测的泛化性能,系统分类模型在可见光和红外波段的平均精度分别达到84.89%、87.95%,在适配的不同波段上均取得更优的检测性能。
Description
技术领域
本申请涉及深度学习领域,图像处理技术领域,具体涉及一种基于图像配准及特征融合技术的多波段图像联合数据集制作方法,以及基于该方法的多波段图像联合数据集训练得到多波段目标检测神经网络模型的方法及系统。
背景技术
多目标检测是计算机视觉领域的基础问题,是解决目标识别、目标追踪、语义分割、图像描述、场景理解和事件检测等更高层次视觉任务的基础,并且在人工智能和信息技术的许多领域都有广泛的应用,如机器人视觉、自动驾驶、基于内容的图像检索、智能视频监控等。基于多波段特征融合的多目标检测技术正成为目前研究热点领域,尤其是基于可见光波段与红外波段特征融合的检测技术,通过对多波段传感器获取的同一场景的图像进行综合处理,融合可见光波段色彩、纹理等丰富细节信息以及红外波段显著边缘梯度特征和稳定成像能力,以生成更丰富、更可靠的图像信息,降低检测系统冗余性,增强系统在复杂气象和光线条件下执行检测功能的环境适应能力,提升系统的全天候工作能力,加强系统的目标识别检测能力。基于该技术的多目标检测和跟踪等军事领域和医学成像、智能交通、安检系统等民用领域都有广泛的应用,对国防事业和经济建设具有重要意义。
实际应用中,基于特征融合的检测系统在传感器层面存在可见光图像、红外图像、可见光与红外特征融合图像等多种模态数据输入,而目前基于单波段的深度学习训练方法得到的模型都只能在单波段具备有效性,跨波段检测的泛化性能不足,导致检测系统需调用不同模型以匹配不同场景需求下输入数据模态的切换,增加了系统的冗余度和操作的复杂性。
发明内容
为了解决多波段检测需求下检测模型冗余度增加的问题,提升检测系统整体检测准确性和跨波段检测泛化性,本发明提供一种适配多波段图像的多目标检测方法和系统,具体是一种可同时适配可见光和红外多波段图像的多目标检测神经网络模型的构建方法和检测系统,包含一种基于图像配准及特征融合技术的多波段图像联合数据集制作方法,以及一种多波段目标检测神经网络模型的构建方法,通过训练、测试并调用模型实现对多波段目标的高精度检测。
本发明首先对可见光和红外多波段异源传感器成像元件进行畸变校正,然后对不同波段图像进行空间特征点配准并裁剪,得到场景一致、尺寸统一的多波段图像序列;其次应用多源数据融合网络实现多波段的特征信息的融合,得到融合图像序列;进一步地,通过手动标注和共享标注方式构建不同波段数据集合多波段联合数据集;再然后训练并验证由卷积神经网络搭建的检测模型MultiBand-NET;再调用该MultiBand-NET模型实现对多波段目标的高精度检测。具体方案如下:
一种适配多波段图像的多目标检测方法,包括如下步骤:
S1:通过多波段的图像采集装置采集得到经过畸变校正和空间配准的尺寸统一、特征匹配的可见光和红外图像序列;所述的畸变校正是指使用移动平面棋盘格的摄像机标定方法分别计算可见光摄像头和红外成像传感器的成像元件内、外参数和畸变系数标定,校正透镜畸变效应,得到目标原有的外形信息;所述的空间配准是使用SIFT特征匹配算法利用尺度不变性变换对可见光图像与红外图像中目标的边缘、角点分别进行匹配,以达到尺寸统一、特征匹配的可见光和红外图像序列;
S2:使用自编码神经网络方法生成可见光图像与红外图像的特征融合图,最大限度保留可见光与红外源图像的多波段显著特征;
S3:通过手工标注方式制作可见光图像序列的目标分类标注文件,得到可见光图像数据集V;可以使用计算机视觉领域图像标注的公开工具集进行手动标注,包括LabelImg、Labelme、RectLabel、CVAT、VOTT、Boobs等图像和视频标注工具;
S4:通过共享标注方式将可见光标注文件共享至具备相同特征分布的红外图像序列,得到红外图像数据集I;
S5:通过共享标注方式将可见光标注文件共享至具备相同特征分布的融合图像序列,得到融合图像数据集F;
S6:分别将V、I数据集中的图像序列、标注文件序列以相同排列方式组织存储目录结构,得到可见光波段(V)和红外波段(I)图像的多波段联合数据集VI;
S7:分别将V、I、F数据集中的图像序列、标注文件序列以相同排列方式组织存储目录结构,得到可见光波段(V)、红外波段(I)、融合图像(F)的多波段联合数据集VIF;
S8:使用目标检测神经网络算法框架加载VIF数据集进行训练;所述目标检测神经网络算法框架包括单阶段的YOLO、CenterNet检测网络,或双阶段的FasterRCNN、MaskRCNN检测网络;
S9:对训练数据集样本进行划分,得到训练集、验证集、测试集;优选比例为训练集:验证集:测试集=80%:4%:16%;
S10:调用深度学习框架TensorFlow和Keras中的卷积层、池化层、损失函数与激活函数模块,构建多波段图像的目标检测网络模型MultiBand-NET,包含由DBL卷积网络单元、ResidualBlock残差网络单元构成的特征提取骨干网络,以及由Upsample上采样模块、Concat拼接融合层、Detection检测模块构成的多尺度检测头网络;
S11:设置训练超参数,包括预设网络输入图像尺寸宽度width数值、高度height数值、通道数channels数值,预设目标类别classes数值,预设目标多尺度边界框Anchors数组,输出通道数filters,学习率learning_rate,动量参数momentum,优化函数,权重衰减系数decay,训练迭代次数Epoches,训练批量参数batchsize;
S12:模型训练过程如下:加载训练集,加载预训练网络模型,采用随机初始化参数方式开始进行迭代训练,利用验证集对每一轮训练后的模型进行验证,在训练集和验证集关于检测模型损失函数评价指标Loss、val_loss均稳定收敛之后,为防止过拟合,停止模型训练,保存模型参数并得到检测模型MultiBand-NET,最后调用test函数在Test测试集上检测训练完成的检测模型,模型的评价指标为分类精度AP值、全局平均精度mAP值;
S13:得到最终的检测模型MultiBand-NET后,运行detector检测函数应用检测模型执行检测任务,通过调用系统图像传感器设备IO接口,对输入图像数据进行逐帧目标检测,检测模型输出帧画面中预设目标的boundingbox坐标、class分类结果、置信度概率值信息,调用opencv绘图函数绘制检测结果到原图像,在原帧图像上boundingbox坐标对应位置绘制boundingbox矩形框,矩形框左上角绘制分类标识文字和置信度概率值,并逐帧输出检测结果图像到系统窗口,同步将输出的检测结果图像数据保存为视频文件,形成检测记录。
本发明中的图像数据集,包括VOC、COCO、YOLO格式数据集。
所述步骤S3-S7中的多波段联合数据集的制作过程具体为:
1)可见光波段图像数据集V,对应的图像序列为{V1,V2,V3,…,Vi},经过手动标注后对应的标注文件序列为
2)与可见光图像序列一一配准对应的红外波段图像数据集I,对应的图像序列为{I1,I2,I3,…,Ii},直接使用可见光波段标注序列作为红外波段标注序列,使用批处理脚本修改标注文件名称,得到对应的标注文件序列为
3)由可见光波段图像与红外波段图像经过特征融合得到的融合数据集F,对应的融合图像序列为{F1,F2,F3,…,Fi},直接使用可见光波段标注序列作为融合图像标注序列,使用批处理脚本修改标注文件名称,得到对应的标注文件序列为
4)联合可见光数据集V与红外数据集I,将可见光图像序列{V1,V2,V3,…,Vi}与红外图像序列{I1,I2,I3,…,Ii}按照排列方式P1进行混合排列,得到联合图像序列按照相同排列方式P1将可见光图像标注序列/>与红外图像标注序列/>进行混合排列,得到对应的联合标注序列/>联合图像序列与联合标注序列共同构成联合数据集VI;
5)联合可见光数据集V、红外数据集I与融合数据集F,在上述第4)步得到的VI数据集基础上,将VI数据集图像序列与融合数据集图像序列{F1,F2,F3,…,Fi}按照排列方式P2进行混合排列,得到联合图像序列/>按照相同排列方式P2将VI数据集标注序列/>与融合图像标注序列/>进行混合排列,得到对应的联合标注序列/>联合图像序列与联合标注序列共同构成联合数据集VIF。
此外,本发明还提供一种适配多波段图像的多目标检测系统。
通过本发明方法构建的检测模型融合了不同波段特征提取能力,与现有技术相比,本发明的有益效果在于可以在可见光及红外多波段同时取得高精度指标,具体为:
1)在输入为可见光波段图像时,模型由于融合了红外波段可靠边缘梯度信息的特征提取能力,其在可见光波段的检测精度要优于只在可见光波段图像构建所得模型的精度;
2)在输入为红外波段图像时,模型由于融合了可见光波段丰富纹理信息的特征提取能力,其在红外波段的检测精度要优于只在红外波段图像上构建所得模型的精度;
本发明方法在多波段均能取得更优精度指标,达到1+1>2的检测准确度效果,使用本发明方法构建的多波段检测模型的多目标检测系统可以更灵活高效地执行多波段检测任务。
附图说明
图1是本发明中多波段图像联合数据集制作流程示意图
图2是本发明中多波段检测模型训练及检测流程示意图
图3是本发明中多波段联合数据集制作方法示意图。
图4是实施例中可见光和红外摄像头畸变校正前后图象对比。
图5是实施例中SIFT算法对双摄像头图像进行场景匹配,左图为红外图像边缘检测结果;右图为可见光图像边缘检测结果。
图6是实施例中多波段特征融合生成网络示意图。
图7是实施例中多波段检测模型测试平均精确度数据mAP、分类精确度数据AP值示意图,左列为可见光输入条件下测试数据图,右列为红外图像输入条件下测试数据图。
具体实施方式
下面结合图示详细描述本申请的实施例,对本发明的技术方案做进一步的描述。具体实施场景为野生动物物种保护领域,对熊猫、猴子、狮子3类物种进行多目标检测识别,采用YOLO目标检测框架框架构建初始网络模型结构。
参照图1,本实施例提供的一种基于图像配准及特征融合技术的多波段图像联合数据集制作方法,包括如下步骤:
S1:参照图3,通过多波段的图像采集装置采集得到经过畸变校正和空间配准的尺寸统一、特征匹配的可见光和红外图像序列;
其中畸变校正操作通过使用移动平面棋盘格的摄像机标定方法分别计算可见光摄像头和红外成像传感器的成像元件内、外参数和畸变系数标定,校正透镜畸变效应,得到目标原有的无畸变外形信息,可见光摄像头和红外成像元件畸变校正前后效果对比参见图4;
其中空间配准操作通过使用SIFT特征匹配算法利用尺度不变性变换对可见光图像与红外图像中目标的边缘、角点分别进行匹配,以达到尺寸统一、特征匹配的可见光和红外图像序列,配准效果参见图5;
S2:参见图6,使用自编码神经网络方法生成可见光图像与红外图像的特征融合图,最大限度保留可见光与红外源图像的多波段显著特征;所述的自编码神经网络方法是基于卷积神经网络构建的红外与可见光图像融合自编码器网络架构,包含编码器、融合层、解码器三部分,分别提取可见光图像和红外图像的所有显著特征,加以融合生成多波段特征融合图;其中,编码器将输入的可见光图像、红外图像序列进行卷积操作,实现数据降维,得到包含多波段显著特征的低维特征图;然后通过融合层将低维度可见光和红外特征图进行加权融合;最后通过解码器网络将低维融合特征图进行上采样复原至原图尺寸的高维特征融合图像;
S3:参见图1,通过手工标注方式制作可见光图像序列的目标分类标注文件,得到可见光图像数据集V;
S4:参见图1,通过共享标注方式将可见光标注文件共享至具备相同特征分布的红外图像序列,得到红外图像数据集I;
S5:参见图1,通过共享标注方式将可见光标注文件共享至具备相同特征分布的融合图像序列,得到融合图像数据集F;
S6:参见图1,分别将V、I数据集中的图像序列、标注文件序列以相同排列方式组织存储目录结构,得到可见光波段(V)和红外波段(I)图像的多波段联合数据集VI;
参照图2,本实施例提供的一种基于前述构建的多波段图像联合数据集VI进行深度学习训练得到的多波段多目标检测神经网络模型的方法和系统,包括如下步骤:
S8:使用本领域公开的目标检测神经网络算法框架YOLO进行模型构建和训练;
S9:对训练数据集样本进行划分,得到Train训练集、Val验证集、Test测试集;
S10:调用深度学习框架TensorFlow和Keas中的卷积层、池化层、损失函数与激活函数模块,构建多波段图像的目标检测网络模型,包含由DBL卷积网络单元、ResidualBlock残差网络单元构成的特征提取骨干网络,以及由Upsample上采样模块、Concat拼接融合层、Detection检测模块构成的多尺度检测头网络;
S11:设置训练超参数,包括预设网络尺寸宽度width=416px,高度height=416px,通道数channels=3,预设目标类别classes=3分类,预设目标多尺度边界框数量num=9,预设边界包围框数组anchors=[(14,17),(20,25),(27,34),(38,43),(54,52),(61,70),(80,57),(84,87),(125,140)],输出通道数filters=24,学习率learning_rate=0.001,动量参数momentum=0.9,优化函数=Adam,权重衰减系数decay=0.0005,预设训练迭代次数Epoches=100轮,训练批量参数batchsize=16;
S12:模型训练过程如下:加载Train训练集,加载预训练网络模型,采用随机初始化参数方式开始进行迭代训练,利用Val验证集对每一轮训练后的模型进行验证,在训练集和验证集关于检测模型损失函数评价指标Loss、val_loss均稳定收敛之后,保存训练完成的检测模型X,最后调用test函数在Test测试集上检测训练完成的检测模型X,模型的评价指标为分类精度AP值、全局平均精度mAP值;以训练轮数Epoches为横轴,以Loss值为纵轴对训练过程进行可视化,经过几十轮的训练之后,Loss值先大幅下降然后无限逼近某个loss值,最后在该值附近保持小范围的波动,而接下来的几十轮训练中,Loss值不再跟随训练轮数的增加而增大或减小,则视为模型已经收敛,保存模型参数,停止训练,防止过拟合;最终得到的收敛模型MultiBand-NET性能测试及对比如下表所示:
以上测试列表中具体测试数据细节参照图7,模型性能测试主要采用mAP平均精确度指标进行,可以综合评估模型对多分类的检测准确度和召回率,mAP值越高表示模型性能越好,如表所示,通过本发明方法构建的多波段联合数据集及训练方法得到的模型,可以在可见光及红外多波段同时取得高精度指标,且其在可见光波段精度84.89>可见光模型测试精度83.85,其在红外波段精度87.95>红外波段模型测试精度82.54,均取得更优精度指标,实现了1+1>2的检测效果。
S13:应用模型进行多波段目标检测,得到最终的检测模型MultiBand-NET后,运行detector检测函数执行检测任务,加载前述训练好的检测模型X,调用系统图像传感器IO接口,对输入图像画面进行逐帧目标检测,输出帧画面中预设目标的boundingbox坐标、class分类结果、置信度概率值信息,调用opencv绘图函数在原帧画面上boundingbox坐标对应位置绘制boundingbox矩形框,矩形框左上角绘制分类标识文字和置信度概率值,并逐帧输出绘制画面到系统窗口,同步将输出的检测画面数据保存为视频文件,形成检测记录。
根据本发明的另一方面,本发明为解决其技术问题,本发明还提供了一种基于构建的多波段检测模型的多目标检测系统,包含如下模块:
多波段数据同步采集预处理模块,参照图1,用于制作数据集以及模型测试时提供场景一致、尺寸统一的多波段图像数据,通过移动平面棋盘格的摄像机标定方法分别计算可见光摄像头和红外成像传感器的成像元件内、外参数和畸变系数标定,校正透镜畸变效应,得到目标原有的外形信息;然后使用SIFT特征匹配算法利用尺度不变性变换对可见光图像与红外图像中目标的边缘、角点分别进行匹配,以达到场景一致、尺寸统一、特征匹配的可见光和红外图像序列;
特征融合网络模块,参照图6,使用基于卷积神经网络构建的自编码网络,生成最大限度保留可见光和红外不同波段显著特征的融合数据图像。其中的编码器网络将输入的可见光图像、红外图像序列进行卷积操作,实现数据降维,得到包含多波段显著特征的低维特征图;然后通过融合层将低维度可见光和红外特征图进行加权融合;最后通过解码器网络将低维融合特征图进行上采样复原至原图尺寸的高维特征融合图像。由于编码器网络和解码器网络采用COCO数据集80分类共20000张图像进行融合训练,融合效果优异,利于目标检测任务。
标签制作及数据集构建模块,参照图1,用于通过标注工具对可见光波段图片进行分类目标标注,生成xml、txt标注文件,并对应至红外波段和融合图片序列,形成多波段联合数据集,将数据集样本划分如下,训练集:验证集:测试集=80%:4%:16%,用于神经网络模型训练;
检测模型建立模块,参照图2,用于调用深度学习框架TensorFlow和Keras中的卷积层、池化层、损失函数与激活函数模块,构建多波段图像的目标检测网络模型MultiBand-NET,包含由DBL卷积网络单元、ResidualBlock残差网络单元构成的特征提取骨干网络,以及由Upsample上采样模块、Concat拼接融合层、Detection检测模块构成的多尺度检测头网络;
检测模型训练模块,参照图2,用于调用train函数利用所述训练集对构建的所述检测模型MultiBand-NET进行迭代训练,加载预训练网络模型,采用随机初始化参数方式开始开始迭代训练,利用验证集对每一轮训练后的模型进行验证,在训练集和验证集关于检测模型损失函数评价指标Loss、val_loss均稳定收敛之后,保存训练完成得到的包含检测模型MultiBand-NET网络结构信息和权重参数的模型权重文件,最后调用test函数在测试集上检测训练完成的检测模型,模型的评价指标为分类精度AP值、全局平均精度mAP值;以训练轮数Epoches为横轴,以Loss值为纵轴对训练过程进行可视化,经过几十轮的训练之后,Loss值先大幅下降然后无限逼近某个loss值,最后在该值附近保持小范围的波动,而接下来的几十轮训练中,Loss值不再跟随训练轮数的增加而增大或减小,则视为模型已经收敛,保存模型参数,停止训练,防止过拟合;若训练集和验证集的Loss值不稳定,则重新获取与之前不同的数据集,并修改批量和学习率超参数;
检测模型应用模块,参照图2,用于在得到最终的检测模型MultiBand-NET后,运行detector检测函数应用检测模型执行检测任务,通过调用系统图像传感器设备IO接口,对输入图像数据进行逐帧目标检测,检测模型输出帧画面中预设目标的boundingbox坐标、class分类结果、置信度概率值信息,调用opencv绘图函数绘制检测结果到原图像,在原帧图像上boundingbox坐标对应位置绘制boundingbox矩形框,矩形框左上角绘制分类标识文字和置信度概率值,并逐帧输出检测结果图像到系统窗口,同步将输出的检测结果图像数据保存为视频文件,形成检测记录。
本实施例中,可见光摄像头为晟悦120°广角摄像头,24位彩色CMOS芯片,分辨率为1920x1080;红外摄像头为FLIR Boson非制冷远红外热像机芯,镜头焦距4.3mm,水平视角50°,分辨率为320x256。
本实施例中,训练环境硬件配置可以为Nvidia GTX1070Ti,编程环境可以为Tensorflow GPU,系统部署环境硬件配置可以为Nvidia JetsonTX2,本发明对此不做限定。
该实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于上述实施例,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。
Claims (9)
1.一种适配多波段图像的多目标检测方法,其特征在于,包括如下步骤:
S1:通过多波段的图像采集装置采集得到经过畸变校正和空间配准的尺寸统一、特征匹配的可见光和红外图像序列;
S2:使用自编码神经网络方法生成可见光图像与红外图像的特征融合图,最大限度保留可见光与红外源图像的多波段显著特征;
S3:通过手工标注方式制作可见光图像序列的目标分类标注文件,得到可见光图像数据集V;
S4:通过共享标注方式将可见光标注文件共享至具备相同特征分布的红外图像序列,得到红外图像数据集I;
S5:通过共享标注方式将可见光标注文件共享至具备相同特征分布的融合图像序列,得到融合图像数据集F;
S6:分别将V、I数据集中的图像序列、标注文件序列以相同排列方式组织存储目录结构,得到可见光波段(V)和红外波段(I)图像的多波段联合数据集VI;
S7:分别将V、I、F数据集中的图像序列、标注文件序列以相同排列方式组织存储目录结构,得到可见光波段(V)、红外波段(I)、融合图像(F)的多波段联合数据集VIF;
S8:使用目标检测神经网络算法框架加载VIF数据集进行训练;
S9:对训练数据集样本进行划分,得到训练集、验证集、测试集;
S10:调用深度学习框架TensorFlow和Keras中的卷积层、池化层、损失函数与激活函数模块,构建多波段图像的目标检测网络模型MultiBand-NET,包含由DBL卷积网络单元、ResidualBlock残差网络单元构成的特征提取骨干网络,以及由Upsample上采样模块、Concat拼接融合层、Detection检测模块构成的多尺度检测头网络;
S11:设置训练超参数,包括预设网络输入图像尺寸宽度width数值、高度height数值、通道数channels数值,预设目标类别classes数值,预设目标多尺度边界框Anchors数组,输出通道数filters,学习率learning_rate,动量参数momentum,优化函数,权重衰减系数decay,训练迭代次数Epoches,训练批量参数batchsize;
S12:模型训练过程如下:加载训练集,加载预训练网络模型,采用随机初始化参数方式开始进行迭代训练,利用验证集对每一轮训练后的模型进行验证,在训练集和验证集关于检测模型损失函数评价指标Loss、val_loss均稳定收敛之后,为防止过拟合,停止模型训练,保存模型参数并得到检测模型MultiBand-NET,最后调用test函数在Test测试集上检测训练完成的检测模型,模型的评价指标为分类精度AP值、全局平均精度mAP值;
S13:得到最终的检测模型MultiBand-NET后,运行detector检测函数应用检测模型执行检测任务,通过调用系统图像传感器设备IO接口,对输入图像数据进行逐帧目标检测,检测模型输出帧画面中预设目标的boundingbox坐标、class分类结果、置信度概率值信息,调用opencv绘图函数绘制检测结果到原图像,在原帧图像上boundingbox坐标对应位置绘制boundingbox矩形框,矩形框左上角绘制分类标识文字和置信度概率值,并逐帧输出检测结果图像到系统窗口,同步将输出的检测结果图像数据保存为视频文件,形成检测记录。
2.根据权利要求1所述的一种适配多波段图像的多目标检测方法,其特征在于,所述步骤S1中,所述的多波段的图像采集装置包含可见光摄像头、红外热成像传感器的计算机装置;所述的畸变校正是指使用移动平面棋盘格的摄像机标定方法分别计算可见光摄像头和红外成像传感器的成像元件内、外参数和畸变系数标定,校正透镜畸变效应,得到目标原有的外形信息;所述的空间配准是使用SIFT特征匹配算法利用尺度不变性变换对可见光图像与红外图像中目标的边缘、角点进行匹配,以达到尺寸统一、特征匹配的可见光和红外图像序列。
3.根据权利要求1所述的一种适配多波段图像的多目标检测方法,其特征在于,所述步骤S2中的可见光与红外图像的特征融合图生成方法,是基于卷积神经网络构建的红外与可见光图像融合自编码器网络架构,包含编码器、融合层、解码器三部分,分别提取可见光图像和红外图像的所有显著特征,加以融合生成多波段特征融合图;其中,编码器将输入的可见光图像、红外图像序列进行卷积操作,实现数据降维,得到包含多波段显著特征的低维特征图;然后通过融合层将低维度可见光和红外特征图进行加权融合;最后通过解码器网络将低维融合特征图进行上采样复原至原图尺寸的高维特征融合图像。
4.根据权利要求1所述的一种适配多波段图像的多目标检测方法,其特征在于,所述步骤S3-S7中的多波段联合数据集的制作过程具体为:
1)可见光波段图像数据集V,对应的图像序列为{V1,V2,V3,…,Vi},经过手动标注后对应的标注文件序列为
2)与可见光图像序列一一配准对应的红外波段图像数据集I,对应的图像序列为{I1,I2,I3,…,Ii},直接使用可见光波段标注序列作为红外波段标注序列,使用批处理脚本修改标注文件名称,得到对应的标注文件序列为
3)由可见光波段图像与红外波段图像经过特征融合得到的融合数据集F,对应的融合图像序列为{F1,F2,F3,…,Fi},直接使用可见光波段标注序列作为融合图像标注序列,使用批处理脚本修改标注文件名称,得到对应的标注文件序列为
4)联合可见光数据集V与红外数据集I,将可见光图像序列{V1,V2,V3,…,Vi}与红外图像序列{I1,I2,I3,…,Ii}按照排列方式P1进行混合排列,得到联合图像序列按照相同排列方式P1将可见光图像标注序列/>与红外图像标注序列/>进行混合排列,得到对应的联合标注序列/>联合图像序列与联合标注序列共同构成联合数据集VI;
5)联合可见光数据集V、红外数据集I与融合数据集F,在上述第4)步得到的VI数据集基础上,将VI数据集图像序列与融合数据集图像序列{F1,F2,F3,…,Fi}按照排列方式P2进行混合排列,得到联合图像序列/>按照相同排列方式P2将VI数据集标注序列/>与融合图像标注序列/>进行混合排列,得到对应的联合标注序列/>联合图像序列与联合标注序列共同构成联合数据集VIF。
5.根据权利要求1所述的一种适配多波段图像的多目标检测方法,其特征在于,所述步骤S8中所述的目标检测神经网络算法框架,包括单阶段的YOLO、CenterNet检测网络,双阶段的FasterRCNN、MaskRCNN检测网络。
6.根据权利要求1所述的一种适配多波段图像的多目标检测方法,其特征在于,所述步骤S9中的训练数据集样本按照如下比例划分,训练集:验证集:测试集=80%:4%:16%。
7.根据权利要求1所述的一种适配多波段图像的多目标检测方法,其特征在于,所述步骤S11中的超参数值如下:
输入图像为RGB格式,尺寸宽度width=416、高度height=416、通道数channels=3,预设目标类别classes=训练数据集已标注目标分类数,预设目标多尺度边界框数量num=9,预设边界包围框数组
anchors=[(14,17),(20,25),(27,34),(38,43),(54,52),(61,70),(80,57),(84,87),(125,140)],输出通道数filters=24,学习率learning_rate=0.001,动量参数momentum=0.9,优化函数=Adam,权重衰减系数decay=0.0005,预设训练迭代次数Epoches=100轮,训练批量参数batchsize=16。
8.根据权利要求1所述的一种适配多波段图像的多目标检测方法,其特征在于,所述步骤S12训练过程中,以训练轮数Epoches为横轴,以Loss值为纵轴对训练过程进行可视化,当训练之后,Loss值先大幅下降然后无限逼近某个loss值,最后在该值附近保持波动,且在接下来的训练中,Loss值不再跟随训练轮数的增加而增大或减小,则视为模型已经收敛。
9.一种适配多波段图像的多目标检测系统,其特征在于,包含如下模块:
多波段数据同步采集预处理模块,用于数据集制作、模型测试时提供场景一致、尺寸统一的多波段图像数据,通过移动平面棋盘格的摄像机标定方法分别计算可见光摄像头和红外传感器的成像元件内、外参数和畸变系数标定,校正透镜畸变效应,得到目标原有的外形信息;然后使用SIFT特征匹配算法利用尺度不变性变换对可见光图像与红外图像中目标的边缘、角点分别进行匹配,以达到场景一致、尺寸统一、特征匹配的可见光和红外图像序列;
特征融合网络模块,使用基于卷积神经网络构建的自编码网络,生成最大限度保留可见光和红外不同波段显著特征的融合数据图像;其中的编码器网络将输入的可见光图像、红外图像序列进行卷积操作,实现数据降维,得到包含多波段显著特征的低维特征图;然后通过融合层将低维度可见光和红外特征图进行加权融合;最后通过解码器网络将低维融合特征图进行上采样复原至原图尺寸的高维特征融合图像;所述的编码器网络和解码器网络采用COCO数据集80分类共20000张图像进行融合训练;
标签制作及数据集构建模块,用于通过标注工具对可见光波段图片进行分类目标标注,生成标注文件,并对应至红外波段和融合图片序列,形成多波段联合数据集,将数据集样本划分为训练集、验证集、测试集,用于神经网络模型训练;
检测模型建立模块,用于调用深度学习框架TensorFlow和Keras中的卷积层、池化层、损失函数与激活函数模块,构建多波段图像的目标检测网络模型MultiBand-NET,包含由DBL卷积网络单元、ResidualBlock残差网络单元构成的特征提取骨干网络,以及由Upsample上采样模块、Concat拼接融合层、Detection检测模块构成的多尺度检测头网络;
检测模型训练模块,用于调用train函数利用所述训练集对构建的所述检测模型MultiBand-NET进行迭代训练,加载预训练网络模型,采用随机初始化参数方式开始迭代训练,利用验证集对每一轮训练后的模型进行验证,在训练集和验证集关于检测模型损失函数评价指标Loss、val_loss均稳定收敛之后,保存训练完成得到的包含检测模型MultiBand-NET网络结构信息和权重参数的模型权重文件,最后调用test函数在测试集上检测训练完成的检测模型,模型的评价指标为分类精度AP值、全局平均精度mAP值;当模型收敛,保存模型参数,停止训练;若训练集和验证集的Loss值不稳定,则重新进行数据增强获取与之前不同的数据集,并修改批量和学习率超参数;
检测模型应用模块,用于在得到最终的检测模型MultiBand-NET后,运行detector检测函数应用检测模型执行检测任务,通过调用系统图像传感器设备IO接口,对输入图像数据进行逐帧目标检测,检测模型输出帧画面中预设目标的boundingbox坐标、class分类结果、置信度概率值信息,调用opencv绘图函数绘制检测结果到原图像,在原帧图像上boundingbox坐标对应位置绘制boundingbox矩形框,矩形框左上角绘制分类标识文字和置信度概率值,并逐帧输出检测结果图像到系统窗口,同步将输出的检测结果图像数据保存为视频文件,形成检测记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010738211.0A CN112070111B (zh) | 2020-07-28 | 2020-07-28 | 一种适配多波段图像的多目标检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010738211.0A CN112070111B (zh) | 2020-07-28 | 2020-07-28 | 一种适配多波段图像的多目标检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112070111A CN112070111A (zh) | 2020-12-11 |
CN112070111B true CN112070111B (zh) | 2023-11-28 |
Family
ID=73656716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010738211.0A Active CN112070111B (zh) | 2020-07-28 | 2020-07-28 | 一种适配多波段图像的多目标检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112070111B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112730454A (zh) * | 2020-12-23 | 2021-04-30 | 中国人民解放军空军工程大学 | 基于光学、红外热波与超声波融合的复合材料的损伤智能检测方法 |
CN112633376A (zh) * | 2020-12-24 | 2021-04-09 | 南京信息工程大学 | 基于深度学习的点云数据地物分类方法、系统与存储介质 |
CN113034378B (zh) * | 2020-12-30 | 2022-12-27 | 香港理工大学深圳研究院 | 一种区分电动汽车与燃油汽车的方法 |
CN112924037A (zh) * | 2021-02-26 | 2021-06-08 | 河北地质大学 | 基于图像配准的红外体温检测系统及检测方法 |
CN112949633B (zh) * | 2021-03-05 | 2022-10-21 | 中国科学院光电技术研究所 | 一种基于改进YOLOv3的红外目标检测方法 |
CN112861860B (zh) * | 2021-03-11 | 2024-04-19 | 南京大学 | 一种基于上下边界提取的自然场景下文字检测方法 |
CN112949579A (zh) * | 2021-03-30 | 2021-06-11 | 上海交通大学 | 一种基于密集卷积块神经网络的目标融合检测系统及方法 |
CN113077491B (zh) * | 2021-04-02 | 2023-05-02 | 安徽大学 | 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 |
CN113139512B (zh) * | 2021-05-14 | 2023-09-29 | 辽宁工程技术大学 | 基于残差和注意力的深度网络高光谱影像分类方法 |
CN113313078B (zh) * | 2021-07-02 | 2022-07-08 | 昆明理工大学 | 一种基于模型优化的轻量化夜间红外图像行人检测方法及系统 |
CN113688722B (zh) * | 2021-08-21 | 2024-03-22 | 河南大学 | 基于图像融合的红外行人目标检测方法 |
CN113791691B (zh) * | 2021-09-18 | 2022-05-20 | 中国科学院自动化研究所 | 一种脑电信号波段定位方法及装置 |
CN113963240B (zh) * | 2021-09-30 | 2022-12-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多源遥感图像融合目标综合检测方法 |
CN114694211B (zh) * | 2022-02-24 | 2024-04-19 | 合肥工业大学 | 非接触式多生理参数的同步检测方法和系统 |
CN115797788B (zh) * | 2023-02-17 | 2023-04-14 | 武汉大学 | 基于深度学习的多模态铁路设计要素遥感特征提取方法 |
CN116977868B (zh) * | 2023-06-07 | 2024-03-01 | 珠江水利委员会珠江水利科学研究院 | 一种基于特征匹配的影像乘积融合方法、系统及存储介质 |
CN117253125B (zh) * | 2023-10-07 | 2024-03-22 | 珠江水利委员会珠江水利科学研究院 | 一种空-谱互注图像融合方法、系统及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052976A (zh) * | 2017-12-13 | 2018-05-18 | 中国兵器装备集团自动化研究所 | 一种多波段图像融合识别方法 |
CN108875669A (zh) * | 2018-06-28 | 2018-11-23 | 武汉市哈哈便利科技有限公司 | 一种基于可见光与红外图像融合的商品识别技术 |
CN109685078A (zh) * | 2018-12-17 | 2019-04-26 | 浙江大学 | 基于自动标注的红外图像识别方法 |
CN110795991A (zh) * | 2019-09-11 | 2020-02-14 | 西安科技大学 | 一种基于多信息融合的矿用机车行人检测方法 |
AU2020100178A4 (en) * | 2020-02-04 | 2020-03-19 | Huang, Shuying DR | Multiple decision maps based infrared and visible image fusion |
-
2020
- 2020-07-28 CN CN202010738211.0A patent/CN112070111B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052976A (zh) * | 2017-12-13 | 2018-05-18 | 中国兵器装备集团自动化研究所 | 一种多波段图像融合识别方法 |
CN108875669A (zh) * | 2018-06-28 | 2018-11-23 | 武汉市哈哈便利科技有限公司 | 一种基于可见光与红外图像融合的商品识别技术 |
CN109685078A (zh) * | 2018-12-17 | 2019-04-26 | 浙江大学 | 基于自动标注的红外图像识别方法 |
CN110795991A (zh) * | 2019-09-11 | 2020-02-14 | 西安科技大学 | 一种基于多信息融合的矿用机车行人检测方法 |
AU2020100178A4 (en) * | 2020-02-04 | 2020-03-19 | Huang, Shuying DR | Multiple decision maps based infrared and visible image fusion |
Non-Patent Citations (1)
Title |
---|
特征融合的卷积神经网络多波段舰船目标识别;刘峰;沈同圣;马新星;光学学报;第37卷(第10期);1015002 * |
Also Published As
Publication number | Publication date |
---|---|
CN112070111A (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112070111B (zh) | 一种适配多波段图像的多目标检测方法和系统 | |
CN113673425B (zh) | 一种基于Transformer的多视角目标检测方法及系统 | |
CN115601549B (zh) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 | |
CN109685078B (zh) | 基于自动标注的红外图像识别方法 | |
CN111553949A (zh) | 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法 | |
CN110070571B (zh) | 一种基于深度相机的毛竹形态参数检测方法 | |
CN111246098B (zh) | 机器人拍照方法、装置、计算机设备和存储介质 | |
CN112597920A (zh) | 基于YOLOv3剪枝网络的实时物体检测系统 | |
CN115457396B (zh) | 一种基于遥感影像的地表目标地物检测方法 | |
CN115170792B (zh) | 红外图像处理方法、装置及设备、存储介质 | |
CN114037640A (zh) | 图像生成方法及装置 | |
CN114973028B (zh) | 一种航拍视频图像实时变化检测方法及系统 | |
CN116778288A (zh) | 一种多模态融合目标检测系统及方法 | |
CN116994135A (zh) | 一种基于视觉与雷达融合的船舶目标检测方法 | |
CN110287798B (zh) | 基于特征模块化和上下文融合的矢量网络行人检测方法 | |
CN115047455A (zh) | 一种轻量化的sar图像舰船目标检测方法 | |
CN113255797B (zh) | 一种基于深度学习模型的危险品检测方法和系统 | |
CN113869262A (zh) | 一种基于Unet模型的目标区域用地信息的预测方法和装置 | |
CN114972864A (zh) | 一种基于混洗特征增强的高光谱和激光雷达融合分类方法 | |
CN111401203A (zh) | 基于多维图像融合的目标识别方法 | |
CN115346009B (zh) | 基于高光谱数据和倾斜三维数据的地理实体语义建模方法 | |
CN110222599A (zh) | 一种基于高斯映射的步态识别方法 | |
CN113361544B (zh) | 图像采集设备及其外参修正方法、装置及存储介质 | |
CN113537397B (zh) | 基于多尺度特征融合的目标检测与图像清晰联合学习方法 | |
CN116229297B (zh) | 一种测绘数据处理方法、系统、介质及计算机 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |