CN116630608A - 一种用于复杂场景下的多模态目标检测方法 - Google Patents
一种用于复杂场景下的多模态目标检测方法 Download PDFInfo
- Publication number
- CN116630608A CN116630608A CN202310611640.5A CN202310611640A CN116630608A CN 116630608 A CN116630608 A CN 116630608A CN 202310611640 A CN202310611640 A CN 202310611640A CN 116630608 A CN116630608 A CN 116630608A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- network
- target
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 67
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000010586 diagram Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000000295 complement effect Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000003909 pattern recognition Methods 0.000 abstract description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/143—Sensing or illuminating at different wavelengths
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉与模式识别领域,公开一种用于复杂场景下的多模态目标检测方法,用于解决单模态目标检测方法无法对复杂场景的目标进行精确检测的难题。本发明的多模态目标检测方法先基于YOLOv5模型构建双输入的双流主干网络用来获取红外和可见光图像的多尺度特征,再基于注意力机制和中间融合策略搭建跨模态特征融合模块用于融合多模态特征和解决模态平衡问题,之后将拍摄、配准并划分好的训练集图像对输入到所搭建的检测网络中进行训练获取最佳结果的权重文件,最后将权重文件和测试集图像对载入模型中获得带有检测框和置信度的红外和可见光图像对。本发明的方法可以实现对复杂场景下的目标进行检测,且精度更高、参数更少、实时性良好。
Description
技术领域
本发明属于计算机视觉与模式识别领域,具体涉及一种用于复杂场景下的多模态目标检测方法。
背景技术
目标检测是计算机视觉与模式识别的主要技术之一,是智能化、信息化的重要技术手段,在遥感目标识别、自动驾驶和工业自动化领域都发挥着重要作用。然而,单一模态下的图像信息存在诸多不足,容易受限于低光照度、遮挡这些环境因素影响,导致检测结果不够稳定可靠。以可见光为例,由于其成像方法的特性,在低光照度的情况下捕获的特征缺乏足够的细节,前景和背景之间的轮廓边界模糊,导致检测方法难以准确定位和识别出目标。因此,越来越多的研究者关注多模态目标检测技术,使用多传感器获取多模态信息来提升目标检测模型的识别精度。
Hwang等在2015年的CVPR上发表一篇关于多模态的数据集,该数据集以行人检测为背景,提供可见光和红外两种模态对齐的图像,取名为Kai st,从此开启了多模态目标检测领域的大门。Zhang等学者基于此数据集提出了名为CIAN方法,在跨模态交互注意力的引导下,将两个跨模态中间特征图收敛为一个统一的特征图,进一步融合多模态特征信息。Zheng等以SDD检测模型为主体提出GFD-SSD,使用两种不同的新型门控融合单元来学习由两个主干网络中间层生成的跨模态特征图。Zhang等提出了一种自适应的多模态特征融合方法,该方法结合了模态内和模态间注意力机制,允许网络学习多模态特征并动态加权和融合。Cao等基于通道注意力机制提出MCFF模块,根据光照条件动态汇集来自RGB和热模态的特征,以获取更好的融合效果。
基于以上的研究内容,可知多模态的图像可为检测带来检测精度的提升。但由于跨图像模态之间存在巨大的差异,可能会导致特征模态不平衡问题,给多模态检测方法的部署应用带来困难,因此需要充分结合交叉模态的互补性来产生鲁棒性的特征。
发明内容
本发明的目的在于克服现有技术的不足,提供一种用于复杂场景下的多模态目标检测方法,所述目标检测方法可以实现对具有复杂场景的图像对进行检测,抑制特征模态不平衡问题,检测的精度高,且实时性更好。
本发明解决上述技术问题的技术方案是:
一种用于复杂场景下的多模态目标检测方法,包括以下步骤:
(S1)、使用红外和可见光两种不同模态相机在复杂场景对检测目标主体进行拍照采集图像对,并将拍摄到的图像放入图像集A中;
(S2)、将图像集A中的图像对放入图像配准算法中进行配准,得到配准后的图像集B;
(S3)、将图像集B中的每对图像放入标注软件进行目标类别和位置信息的标注得到图像集C,再将图像集C中任意选择图像对按照8:2划分训练图像集D和测试图像E;
(S4)、基于YOLOv5框架搭建双流目标检测网络,并基于注意力机制搭建跨模态特征融合模块;
(S5)、将图像集D输入到基于YOLOv5框架的双流目标检测网络中进行训练和优化,得到训练后的最优权重文件;
(S6)、将训练好的权重文件载入到双流检测网络,并将图像集E放入网络进行测试,得到带有检测框和置信度的图像对。
优选的,在步骤(S1)中,所述的复杂场景包括但不限于低光照度、雾霾、遮挡、伪装和森林。
优选的,在步骤(S2)中,使用图像配准算法对齐错位的图像对,使跨模态图像对中的目标位置保持一致。
优选的,在步骤(S3)中,对配准后其中一个模态的图像集Before中的目标进行位置和类别标注。将标注后的图像集After随机分配获得训练集和测试集,最后将标签文件转化为适合YOLO训练的txt格式文件。
优选的,在步骤(S4)中,双流检测网络的构建包括以下步骤:
(S4-1)、使用CSPDarkNet网络搭建两个并行的主干网络分别用于提取红外图像和可见光图像的多尺度特征信息,网络下采样通道数分别为64、128、256、512与1024。在两个并行主干网络深层次512通道数处即第四阶段后,将此层的特征沿着通道维度进行拼接,用于融合深层次的语义和特征信息,为了减少模型参数量,使用1×1大小的卷积运算将拼接后1024通道数再次压缩为512,并使用卷积进一步下采样;
(S4-2)、基于注意力机制和中间融合策略搭建跨模态特征融合模块,既保留了模态的原始特征,又可根据差异特征进行补偿,充分结合交叉模态的互补性来产生鲁棒性特征解决跨模态间的特征不平衡问题,为提升融合效率,模块被多次插入到双流主干网络的不同阶段;
(S4-3)、将融合跨模态差异特征的特征图以相加的方式融入到双流主干网络中,增强主干网络中的特征图,同时将增强后不同尺度的特征图进行线性叠加输入到检测层;
(S4-4)、在检测层,使用特征金字塔层聚合多尺度特征,充分融合目标的上下文信息,提高检测精度和效率;
(S4-5)、在网络训练之前,使用K-means聚类算法从数据集中获得锚框先验用于预测边界框的生成。
优选的,在步骤(S4-2)中,主干网络由两个并行的双流CSPDarkNet组成,其中一个CSPDarkNet输出为可见光图像特征图FR,另一个CSPDarkNet输出为红外图像特征图FI;首先对这两个特征图做减法操作,获得模态间的差异特征图;其次,对红外和可见光特征图分别沿着水平坐标和垂直坐标做平均池化操作得到两个新的特征图,再把他们拼接起来并发送到一个共享的1×1卷积核变换函数进行信息交互,之后再将拼接的特征图分开,经过两个不同的1×1卷积核变换后得到新的输出,在此输出上使用sigmoid作为激活函数获得注意力权重,将权重与差异特征图相乘可获得互补特征图,最后将互补特征图与可见光特征图FR和红外特征图FI相加即可获得加强后特征图,整个过程的表达式如下:
其中σ表示sigmoid函数,f1×1表示进行1×1卷积运算,GAP表示沿着两个空间范围(H,1)或(1,W)进行平均池化,⊙代表点乘操作。
优选的,在步骤(S5)中,网络训练的损失函数包含3部分,即分类损失Lcls,目标损失Lobj和回归定位损失Lbox,总损失等于这三个损失之和:
L=Lcls+Lobj+Lbox (2)
分类损失和目标损失都是基于二值交叉熵定义,其表达式如下:
其中yi为标签值,p为预测概率,N为总类别数;对于回归定位损失,则使用改进的CIoU loss进行计算,该损失函数定义如下:
其中IoU为交并比的值,eangle为b与bgt两个边界框中心点位置的角度偏移系数项,用于惩罚过大的方向角偏移,ρ2(.)是边界框中心点欧式距离计算,c2代表b与bgt最小外接矩形的对角线距离,v为预测框和真值框宽高平方差构建的形状惩罚项,α为平衡系数。
本发明与现有技术相比具有以下的有益效果:
1、本发明的用于复杂场景下多模态目标检测方法结合了部分图像融合的主干网络构造想法,以通道拼接方法实现深层次特征融合。使用CSPDarkNet网络搭建两个并行的主干网络分别用于提取红外图像和可见光图像的多尺度特征信息,在两个并行主干网络深层次即512通道数处,将双流主干提取的特征沿着通道维度进行拼接以用于融合交互深层次的语义和特征信息,使用1×1大小的卷积运算将拼接后1024通道数再次压缩为512,并使用卷积进一步下采样,并将通道数拓展为1024。此方案可高效减少参数,同时获得良好的检测结果。
2、本发明的用于复杂场景下多模态目标检测方法结合了差分放大器电路共模信号被抑制、差分模信号被放大这一特性,基于注意力机制提出了一种差分融合模块用于交互跨模态的特征信息,既保留了模态的原始特征,又可根据差异特征进行补偿,增强原始特征信息,以解决跨模态特征不平衡的问题。
3、本发明的用于复杂场景下多模态目标检测方法分类和目标损失都是基于常用的二值交叉熵损失函数,而定位损失结合CIoU loss的特性重新构建,在距离惩罚项上引入了角度偏移系数,进一步限定预测框的位置偏移,使其更加贴近于真实的边界框的位置;与此同时,还改进了形状惩罚项代替CIoU长宽一致性参数,使用更加严格的平方差作为惩罚项,使得预测框的真实大小更加符合真实位置边界框。
附图说明
图1为本发明的用于复杂场景下的多模态目标检测方法流程框图。
图2为本发明的用于复杂场景下的多模态目标检测方法网络结构具体流程示意图。
图3为本发明的用于复杂场景下的多模态目标检测方法的跨模态特征融合模块示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
参见图1,本发明的用于复杂场景下的多模态目标检测方法包括以下步骤:
(S1)、使用红外和可见光两种不同模态相机在复杂场景对检测目标主体进行拍照采集图像对,并将拍摄到的图像放入图像集A中,所述的复杂场景包括但不限于低光照度、雾霾、遮挡、伪装和森林;
(S2)、由于使用两种模态不同的相机进行拍摄,镜头之间存在一定的视角差,不同模态图像中的同一目标位置存在错位,需要借助图像配准算法矫正,将图像集A中的图像对放入图像配准算法中进行配准,得到配准后的图像集B;
(S3)、将图像集B中的每对图像放入标注软件labelme进行目标类别和位置信息的标注得到图像集C,再将标签文件转化为适合YOLO训练的txt格式文件,最后将图像集C中任意选择图像对按照8:2划分训练图像集D和测试图像E;
(S4)、基于YOLOv5框架搭建双流目标检测网络,并基于注意力机制搭建跨模态特征融合模块;
(S5)、将图像集D载入到基于YOLOv5框架的双流目标检测网络中进行训练和优化,使用SGD算法作为优化器,达到设定的训练轮次时停止更新权重和偏置参数,最后保留训练后的最优权重文件;
(S6)、将训练好的权重文件载入到双流检测网络,并将图像集E放入网络进行测试,得到带有检测框和置信度的图像对。
参见图1,对于具有复杂背景的图像,将多模态工作引入到目标检测任务中可提升信息的丰富度,进一步提升检测的准确性。对于多模态输入的目标检测而言,特征模态不平衡问题是至关重要的,不同模态的错位和整合不足可能会导致特征的贡献和表示不均匀。RGB和热模态特征在行人形态、纹理和性质方面是不同的。融合模块设计的指导思想是在跨模态特征空间中保留和增强鲁棒性特征,抑制冗余和干扰特征,互补差异特征。我们结合最新的注意力机制工作和差分放大电路特性,提出了一种用于多模态目标检测、轻量化和高效的跨模态特征融合方法,我们的解决方案是将跨模态特征进行分解处理,模态内的特定特征如颜色和热特征应该被保留,模态之间的特征差异应进行互补增强。注意力机制中调整了通道的压缩率,因此可以以极少的参数量实现高效的跨模态特征融合。此外,为获得多尺度的融合特征,融合模块被插入到双流主干网络不同的尺度的特征层以实现跨模态信息的互补增强。我们的发明在两个并行主干网络深层次512通道数即第四阶段后,将此层的特征沿着通道维度进行拼接,用于融合深层次的语义和特征信息,再使用1×1大小的卷积运算将拼接后1024通道数再次压缩为512,较于一般完全对称的双流主干网络搭建方法,我们的方法在提升检测效果的同时,还大幅度的减少网络参数量。我们的方法还引入了更多的损失函数惩罚项限定算法生成的预测边界框的位置偏移和大小,使其更加符合标签中的真值框,进一步提升方法目标检测的准确度。通过上述设置,使得本发明的多模态目标检测方法具有精度高、参数少的特点。
参见图2,在步骤(S4)中,双流检测网络的构建包括以下步骤:
(S4-1)、使用CSPDarkNet网络搭建两个并行的主干网络分别用于提取红外图像和可见光图像的多尺度特征信息,网络下采样通道数分别为64、128、256、512与1024。在两个并行主干网络深层次即512通道数处,将此层的特征沿着通道维度进行拼接,用于融合深层次的语义和特征信息,为了减少模型参数量,使用1×1大小的卷积运算将拼接后1024通道数再次压缩为512,并使用卷积进一步下采样;
(S4-2)、结合差分放大电路的放大特性,基于注意力机制和中间融合策略搭建跨模态特征融合模块;此模块既保留了模态的原始特征,又可根据差异特征进行补偿,充分结合交叉模态的互补性来产生鲁棒性特征解决跨模态间的特征不平衡问题,为提升融合效率,模块被多次插入到双流主干网络的不同阶段;
(S4-3)、将融合跨模态差异特征的特征图以相加的方式融入到双流主干网络中,增强主干网络中的特征图,同时将增强后不同尺度的特征图进行线性叠加输入到检测层;
(S4-4)、在检测层,使用特征金字塔层聚合多尺度特征,充分融合目标的上下文信息,提高检测精度和效率;
(S4-5)、在网络训练之前,使用K-means聚类算法从数据集中获得锚框先验用于预测边界框的生成。
参见图1,在步骤(S5)中,网络训练的损失函数包含3部分,即分类损失Lcls、目标损失Lobj和回归定位损失Lbox,总损失等于这三个损失之和:
L=Lcls+Lobj+Lbox(1)
分类损失和目标损失都是基于二值交叉熵定义,其表达式如下:
其中yi为标签值,p为预测概率,N为总类别数;对于回归定位损失,则使用改进的CIoU loss进行计算,该损失函数定义如下:
其中IoU为交并比的值,eangle为b与bgt两个边界框中心位置的角度偏移系数项,用于惩罚过大的方向角偏移,ρ2(.)是边界框中心点欧式距离计算,用于惩罚,c2代表b与bgt最小外接矩形的对角线距离,v为预测框和真值框宽高平方差构建的形状惩罚项,α为平衡系数。
参见图3,以下则对跨模态特征融合模块搭建方法进行阐述:
在步骤(S4-2)中,主干网络由两个并行的双流CSPDarkNet组成,其中一个CSPDarkNet输出为可见光图像特征图FR,另一个CSPDarkNet输出为红外图像特征图FI;首先对这两个特征图做减法操作,获得模态间的差异特征图;其次,对红外和可见光特征图分别沿着水平坐标和垂直坐标做平均池化操作得到两个新的特征图,再把他们拼接起来并发送到一个共享的1×1卷积核变换函数进行信息交互,之后再将拼接的特征图分开,经过两个不同的1×1卷积核变换后得到新的输出,在此输出上使用sigmoid作为激活函数获得注意力权重,将权重与差异特征图相乘可获得互补特征图,最后将互补特征图与可见光特征图FR和红外特征图FI相加即可获得加强后特征图,整个过程的表达式如下:
其中σ表示sigmoid函数,f1×1表示进行1×1卷积运算,GAP表示沿着两个空间范围(H,1)或(1,W)进行平均池化,⊙代表点乘操作。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种用于复杂场景下的多模态目标检测方法,其特征在于,包括以下步骤:
(S1)、使用红外和可见光两种不同模态相机在复杂场景对检测目标主体进行拍照采集图像对,并将拍摄到的图像放入图像集A中;
(S2)、使用图像配准算法对图像集A中的图像对进行配准,得到配准后的图像集B;
(S3)、将图像集B中的每对图像放入标注软件进行目标类别和位置信息的标注得到图像集C,再将图像集C中任意选择图像对按照8:2划分训练图像集D和测试图像E;
(S4)、基于YOLOv5框架搭建双流目标检测网络,并基于注意力机制搭建跨模态特征融合模块;
(S5)、将图像集D输入到基于YOLOv5框架的双流目标检测网络中进行训练和优化,得到训练后的最优权重文件;
(S6)、将训练好的权重文件载入到双流检测网络,并将图像集E放入网络进行测试,得到带有检测框和置信度的图像对。
2.根据权利要求1所述的用于复杂场景下多模态目标检测方法,其特征在于,在步骤(S1)中,所述的复杂场景包括但不限于低光照度、雾霾、遮挡和伪装。
3.根据权利要求1所述一种用于复杂场景下的多模态目标检测方法,其特征在于,在步骤(S2)中,使用图像配准算法对齐错位的图像对,使跨模态图像对中的目标位置保持一致。
4.根据权利要求1所述一种用于复杂场景下的多模态目标检测方法,其特征在于,在步骤(S3)中,对配准后其中一个模态的图像集Before中的目标进行位置和类别标注。将标注后的图像集After随机分配获得训练集和测试集,最后将标签文件转化为适合YOLO训练的txt格式文件。
5.根据权利要求1所述一种用于复杂场景下的多模态目标检测方法,其特征在于,在步骤(S4)中,双流检测网络的构建包括以下步骤:
(S4-1)、使用CSPDarkNet网络搭建两个并行的主干网络分别用于提取红外图像和可见光图像的多尺度特征信息,网络下采样通道数分别为64、128、256、512与1024。在两个并行主干网络深层次512通道数处即第四阶段后,将此层的特征沿着通道维度进行拼接以用于融合深层次的语义和特征信息,为了减少模型参数量,使用1×1大小的卷积运算将拼接后1024通道数再次压缩为512,并使用卷积进一步下采样,并将通道数拓展为1024;
(S4-2)、基于注意力机制和中间融合策略搭建跨模态特征融合模块,既保留了模态的原始特征,又可根据差异特征进行补偿,充分结合交叉模态的互补性来产生鲁棒性特征解决跨模态间的特征不平衡问题,为提升融合效率,模块被多次插入到双流主干网络的不同阶段;
(S4-3)、将融合跨模态差异特征的特征图以相加的方式融入到双流主干网络中,增强主干网络中的特征图,同时将增强后不同尺度的特征图进行线性叠加输入到检测层;
(S4-4)、在检测层,使用特征金字塔层聚合多尺度特征,充分融合目标的上下文信息,提高检测精度和效率;
(S4-5)、在网络训练之前,使用K-means聚类算法从数据集中获得锚框先验用于预测边界框的生成。
6.根据权利要求4所述的一种用于复杂场景下的多模态目标检测方法,其特征在于,在步骤(S4-2)中,主干网络由两个并行的双流CSPDarkNet组成,其中一个CSPDarkNet输出为可见光图像特征图FR,另一个CSPDarkNet输出为红外图像特征图FI;首先对这两个特征图做减法操作,获得模态间的差异特征图;其次,对红外和可见光特征图分别沿着水平坐标和垂直坐标做平均池化操作得到两个新的特征图,再把他们拼接起来并发送到一个共享的1×1卷积核变换函数进行信息交互;之后再将拼接的特征图分开,经过两个不同的1×1卷积核变换后得到新的输出,在此输出上使用sigmoid作为激活函数获得注意力权重,将权重与差异特征图相乘可获得互补特征图,最后将互补特征图与可见光特征图FR和红外特征图FI相加即可获得加强后特征图,整个过程的表达式如下:
其中σ表示sigmoid函数,f1×1表示进行1×1卷积运算,GAP表示沿着两个空间范围(H,1)或(1,W)进行平均池化,⊙代表点乘操作。
7.根据权利要求1所述一种用于复杂场景下的多模态目标检测方法,其特征在于,在步骤(S5)中,网络训练的损失函数包含3部分,即分类损失Lcls,目标损失Lobj和回归定位损失Lbox,总损失等于这三个损失之和:
L=Lcls+Lobj+Lbox (2)
分类损失和目标损失都是基于二值交叉熵定义,其表达式如下:
其中yi为标签值,p为预测概率,N为总类别数;对于回归定位损失,则使用改进的CIoUloss进行计算,该损失函数定义如下:
其中IoU为交并比的值,eangle为预测框b与真值框bgt两个边界框中心点位置的角度偏移系数项,用于惩罚预测框过大的方向角偏移,ρ2(.)是边界框中心点欧式距离计算,c2代表b与bgt最小外接矩形的对角线距离,v为预测框和真值框宽高平方差构建的形状惩罚项,α为平衡系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310611640.5A CN116630608A (zh) | 2023-05-29 | 2023-05-29 | 一种用于复杂场景下的多模态目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310611640.5A CN116630608A (zh) | 2023-05-29 | 2023-05-29 | 一种用于复杂场景下的多模态目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116630608A true CN116630608A (zh) | 2023-08-22 |
Family
ID=87609486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310611640.5A Pending CN116630608A (zh) | 2023-05-29 | 2023-05-29 | 一种用于复杂场景下的多模态目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630608A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912649A (zh) * | 2023-09-14 | 2023-10-20 | 武汉大学 | 基于相关注意力引导的红外与可见光图像融合方法及系统 |
CN117152142A (zh) * | 2023-10-30 | 2023-12-01 | 菲特(天津)检测技术有限公司 | 一种轴承缺陷检测模型构建方法及系统 |
CN117541944A (zh) * | 2023-11-07 | 2024-02-09 | 南京航空航天大学 | 一种多模态红外小目标检测方法 |
CN117765378A (zh) * | 2024-02-22 | 2024-03-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
-
2023
- 2023-05-29 CN CN202310611640.5A patent/CN116630608A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912649A (zh) * | 2023-09-14 | 2023-10-20 | 武汉大学 | 基于相关注意力引导的红外与可见光图像融合方法及系统 |
CN116912649B (zh) * | 2023-09-14 | 2023-11-28 | 武汉大学 | 基于相关注意力引导的红外与可见光图像融合方法及系统 |
CN117152142A (zh) * | 2023-10-30 | 2023-12-01 | 菲特(天津)检测技术有限公司 | 一种轴承缺陷检测模型构建方法及系统 |
CN117152142B (zh) * | 2023-10-30 | 2024-02-02 | 菲特(天津)检测技术有限公司 | 一种轴承缺陷检测模型构建方法及系统 |
CN117541944A (zh) * | 2023-11-07 | 2024-02-09 | 南京航空航天大学 | 一种多模态红外小目标检测方法 |
CN117541944B (zh) * | 2023-11-07 | 2024-06-11 | 南京航空航天大学 | 一种多模态红外小目标检测方法 |
CN117765378A (zh) * | 2024-02-22 | 2024-03-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
CN117765378B (zh) * | 2024-02-22 | 2024-04-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112884064B (zh) | 一种基于神经网络的目标检测与识别方法 | |
CN116630608A (zh) | 一种用于复杂场景下的多模态目标检测方法 | |
CN112183471A (zh) | 一种现场人员防疫口罩规范佩戴的自动检测方法及系统 | |
CN107103589B (zh) | 一种基于光场图像的高光区域修复方法 | |
CN113326735B (zh) | 一种基于YOLOv5的多模态小目标检测方法 | |
CN112767478B (zh) | 一种基于表观指导的六自由度位姿估计方法 | |
CN114783024A (zh) | 基于YOLOv5的公共场所戴口罩的人脸识别系统 | |
Shi et al. | An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds | |
CN116091892A (zh) | 一种基于卷积神经网络的快速目标检测方法 | |
CN111368775A (zh) | 一种基于局部上下文感知的复杂场景密集目标检测方法 | |
CN114708566A (zh) | 一种基于改进YOLOv4的自动驾驶目标检测方法 | |
CN116071676A (zh) | 一种基于注意力导向金字塔融合的红外小目标检测方法 | |
CN116798070A (zh) | 一种基于光谱感知和注意力机制的跨模态行人重识别方法 | |
CN117746467A (zh) | 一种模态增强和补偿的跨模态行人重识别方法 | |
CN111507416A (zh) | 一种基于深度学习的吸烟行为实时检测方法 | |
CN111126155A (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN117333908A (zh) | 基于姿态特征对齐的跨模态行人重识别方法 | |
CN116721398A (zh) | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 | |
CN116883981A (zh) | 一种车牌定位识别方法、系统、计算机设备及存储介质 | |
CN116824333A (zh) | 一种基于深度学习模型的鼻咽癌检测系统 | |
CN116824330A (zh) | 一种基于深度学习的小样本跨域目标检测方法 | |
Li et al. | A real-time vehicle window positioning system based on nanodet | |
CN112069997B (zh) | 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置 | |
CN113361475A (zh) | 一种基于多阶段特征融合信息复用的多光谱行人检测方法 | |
CN107330436A (zh) | 一种基于尺度判据的全景图像sift优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |