CN117036886A - 一种伪装目标检测方法、装置、设备及存储介质 - Google Patents
一种伪装目标检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117036886A CN117036886A CN202311038281.5A CN202311038281A CN117036886A CN 117036886 A CN117036886 A CN 117036886A CN 202311038281 A CN202311038281 A CN 202311038281A CN 117036886 A CN117036886 A CN 117036886A
- Authority
- CN
- China
- Prior art keywords
- detection
- visible light
- image
- target
- camouflage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 245
- 230000004927 fusion Effects 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims description 24
- 230000002776 aggregation Effects 0.000 claims description 17
- 238000004220 aggregation Methods 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000000701 chemical imaging Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000000779 smoke Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种伪装目标检测方法、装置、设备及存储介质,该方法通过可见光和红外相机同时获取目标和背景的颜色、纹理及温度等多维度差异信息,并通过在YOLOv5的主干网络中添加NAM注意力机制,提升了网络对目标和背景的特征区分能力,实现有效伪装目标检测识别,且能够全天候工作。同时,该方法提供的可见光和红外图像检测结果的决策级融合策略,无需进行大量额外的I OU计算,实现了保留可见光和红外图像中置信度更高的检测结果,同时一定程度上剔除置信度较低的假目标。
Description
技术领域
本发明涉及目标检测技术领域,特别是涉及一种基于可见光和红外融合的伪装目标检测方法、装置、设备及存储介质。
背景技术
在现代信息化战争中,对敌方信息的获取能力成为了决定一场战争胜负的关键因素。高精度的光电侦察技术能够有效提供敌方重要军事目标的相关信息,因而被广泛应用于战场环境侦察。在信息化战争中,被发现即意味着被摧毁,因此为了应对侦察技术,提高武器装备和人员的生存能力,通常会对武器装备和人员进行一定程度的伪装。
随着现代伪装技术的发展,常规侦察手段的效能逐渐降低。例如,随着伪装迷彩服的不断改进升级,针对不同作战环境,身着草地、雪地、沙漠等各式迷彩伪装服的目标,与周围环境的颜色纹理等特征高度融合,依靠人眼以及传统成像手段已经很难对伪装目标和背景进行区分。
近年来,基于深度学习的目标检测技术常被用于进行伪装目标检测,然而在草地、雪地、沙漠等各种战场环境下的伪装目标通常具有与环境高度融合的颜色、纹理等特征,现有的YOLO系列、SINet、BASNet等技术常在可见光图像中对伪装目标进行检测识别,所利用的目标信息单一,难以应对复杂场景下具有良好伪装的目标。同时,由于可见光图像易受光照、气候、烟雾等影响,无法充分获取目标和背景的差异信息,且无法全天候工作,这将进一步降低伪装目标检测效果。
当前的一些伪装目标检测技术采用复杂的高光谱成像系统,提高了检测精度,但所需处理的数据量巨大,难以实时进行动态场景的伪装目标检测。同时,进一步增加了伪装目标检测的成本和系统复杂度。
此外,现有伪装目标检测系统通常仅对目标在场景中的位置和类别进行标注,仍然缺乏目标和场景的颜色、纹理及细节信息等,可视化效果较差,难以通过人眼直接对目标的身份等信息进行识别,从而影响人工对战场态势进行决策判断。
现有技术中提供了一种基于改进Scaled-YOLOv4的伪装人员目标检测方法,在Scaled-YOLOv4模型中设计一个包括两个感受野区块和两个有效通道注意力模块的自上而下路径特征增强网络结构以代替原路径聚合网络,形成改进的Scaled-YOLOv4模型,提升了伪装目标检测精度。然而,该技术通过改进Scaled-YOLOv4网络结构,一定程度上提升伪装目标检测精度,但难以应对具有与周围环境高度融合的颜色、纹理等特征的伪装目标,且无法全天候工作。
现有技术中还提供了一种基于空-谱特征融合的高光谱伪装目标检测方法,将深度学习和空谱特征提取相结合,建立一种适用于光谱特征学习和目标空间定位的3D网络模型,将异常检测和空谱约束加入模型以提高检测精度。同时,提出一种基于空间感受域的假阳/阴性祛除训练方法进一步调整网络,提高网络训练效果。然而,该方法采用高光谱成像系统,能够提升伪装目标检测精度,但数据量巨大,系统复杂,成本较高,难以进行实时动态伪装目标检测。
可见,随着现代伪装技术的不断改进升级,在草地、雪地、沙漠等各种战场环境下的伪装目标通常具有与环境高度融合的颜色纹理等特征,仅依靠简单的浅层颜色纹理等信息难以区分目标和背景。因此,需要开发一种能够对目标和背景进行有效特征提取并具备良好特征区分能力的算法,从而实现对伪装目标的有效检测识别。
在复杂战场环境中,光照、气候、烟雾等都会影响对伪装目标的检测识别。为了充分利用伪装目标和背景的差异信息,提高对伪装目标的检测识别能力。同时,为了应对各种复杂的战场环境,实现全天候进行伪装目标检测。需要构建一套具备多源信息获取与处理,并全天候工作的伪装目标检测系统。
针对战场环境的复杂多变,需要持续对战场环境进行实时动态监测,从而及时准确地发现目标。因此,需要打造一种具备良好实时性和高精度的伪装目标检测系统。
伪装目标通常与背景高度融合,难以通过人眼进行直接观察识别,为了提升伪装目标和背景的可视化效果,方便人工对战场态势进行决策判断。因此,在进行伪装目标检测系统开发时,需要同时提升伪装目标和背景的可视化效果。
发明内容
鉴于上述问题,本发明提供用于克服上述问题或者至少部分地解决上述问题的一种伪装目标检测方法、装置、设备及存储介质。
本发明提供了如下方案:
一种伪装目标检测方法,包括:
确定待进行目标检测的可见光图像以及红外图像;
通过将所述可见光图像以及所述红外图像分别输入到目标检测网络进行多源图像目标检测,以得到可见光检测结果以及红外检测结果;
将所述可见光检测结果以及所述红外检测结果通过决策融合层进行加权融合,得到目标检测识别结果;
其中,所述目标检测网络包括改进的YOLOv5网络结构,所述改进的YOLOv5网络结构的主干网络包括NAM注意力机制模块,所述改进的YOLOv5网络结构包括6×6大小的卷积层;所述改进的YOLOv5网络结构的颈部网络层包括多尺度特征路径聚合模块;所述改进的YOLOv5网络结构的输出层采用BCE loss计算目标分类损失和置信度损失。
优选地:所述NAM注意力机制模块设置于所述改进的YOLOv5网络结构的主干网络的跨阶段局部网络层中。
优选地:所述NAM注意力机制模块包括通道注意力子模块以及空间注意力子模块;
所述通道注意力子模块采用批量归一化中的缩放因子来衡量通道的方差及其重要性;所述空间注意力子模块采用所述缩放因子对空间维度进行像素归一化。
优选地:所述多尺度特征路径聚合模块包括特征金字塔网络结构和路径聚合网络结构。
优选地:所述决策融合层中利用所述可见光图像以及所述红外图像的伪装目标检测精度进行自适应权重分配,以便为检测精度更高的图像分配更大权重,提高融合检测结果的可靠性。
优选地:分别对所述可见光图像以及所述红外图像进行目标检测精度检测,根据检测结果计算得到每张图像中目标的平均精确率APv,APt,v,t分别代表所述可见光图像和所述红外图像;
将所述可见光图像和所述红外图像检测结果的置信度分别乘以对应权重,表示公式如下:
其中,Confv,Conft分别为修正前的所述可见光图像检测结果和所述红外图像检测结果置信度,Cv,Ct分别为修正后的所述可见光图像检测结果和所述红外图像检测结果置信度;
将完成置信度修正的所述可见光图像检测结果和所述红外图像检测结果进行合并,按照置信度大小进行排序,并执行非极大值抑制,去除同一目标的可见光图像和红外图像重复检测结果,保留置信度最高的检测框作为该目标最终的决策级融合检测结果。
优选地:利用所述自适应权重分配结果,对所述可见光图像以及所述红外图像进行加权融合显示,并在融合图像上绘制所述目标检测识别结果。
一种伪装目标检测装置,包括:
图像确定单元,用于确定待进行目标检测的可见光图像以及红外图像;
检测结果获取单元,用于通过将所述可见光图像以及所述红外图像分别输入到目标检测网络进行多源图像目标检测,以得到可见光检测结果以及红外检测结果;
检测结果融合单元,用于将所述可见光检测结果以及所述红外检测结果通过决策融合层进行加权融合,得到目标检测识别结果;
其中,所述目标检测网络包括改进的YOLOv5网络结构,所述改进的YOLOv5网络结构的主干网络包括NAM注意力机制模块,所述改进的YOLOv5网络结构包括6×6大小的卷积层;所述改进的YOLOv5网络结构的颈部网络层包括多尺度特征路径聚合模块;所述改进的YOLOv5网络结构的输出层采用BCE loss计算目标分类损失和置信度损失。
一种伪装目标检测设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述的伪装目标检测方法。
一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述的伪装目标检测方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本申请实施例提供的一种伪装目标检测方法、装置、设备及存储介质,该方法通过可见光和红外相机同时获取目标和背景的颜色、纹理及温度等多维度差异信息,并通过在YOLOv5的主干网络中添加NAM注意力机制,提升了网络对目标和背景的特征区分能力,实现有效伪装目标检测识别,且能够全天候工作。
同时,该方法提供的可见光和红外图像检测结果的决策级融合策略,无需进行大量额外的IOU计算,实现了保留可见光和红外图像中置信度更高的检测结果,同时一定程度上剔除置信度较低的假目标。
另外,该方法利用可见光和红外图像检测精度进行自适应权重分配,为目标信息更明显的图像分配更大权重,实现了可见光和红外图像加权融合显示,提升了目标和背景的可视化效果,有利于人工对战场态势进行决策判断。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种伪装目标检测方法的流程图;
图2是本发明实施例提供的一种伪装目标检测方法的系统框架图;
图3是本发明实施例提供的多源图像目标检测模型示意图;
图4是本发明实施例提供的NAM注意力机制模块示意图;
图5是本发明实施例提供的伪装目标检测结果示意图;
图6是本发明实施例提供的可见光和红外图像融合目标检测结果示意图;
图7是本发明实施例提供的一种伪装目标检测装置的示意图;
图8是本发明实施例提供的一种伪装目标检测设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,为本发明实施例提供的一种伪装目标检测方法,如图1所示,该方法可以包括:
S101:确定待进行目标检测的可见光图像以及红外图像;
S102:通过将所述可见光图像以及所述红外图像分别输入到目标检测网络进行多源图像目标检测,以得到可见光检测结果以及红外检测结果;
S103:将所述可见光检测结果以及所述红外检测结果通过决策融合层进行加权融合,得到目标检测识别结果;
其中,所述目标检测网络包括改进的YOLOv5网络结构,所述改进的YOLOv5网络结构的主干网络包括NAM注意力机制模块,所述改进的YOLOv5网络结构包括6×6大小的卷积层;所述改进的YOLOv5网络结构的颈部网络层包括多尺度特征路径聚合模块;所述改进的YOLOv5网络结构的输出层采用BCE loss计算目标分类损失和置信度损失。
具体的,所述NAM注意力机制模块设置于所述改进的YOLOv5网络结构的主干网络的跨阶段局部网络层中。所述NAM注意力机制模块包括通道注意力子模块以及空间注意力子模块;
所述通道注意力子模块采用批量归一化中的缩放因子来衡量通道的方差及其重要性;所述空间注意力子模块采用所述缩放因子对空间维度进行像素归一化。
进一步的,所述多尺度特征路径聚合模块包括特征金字塔网络结构和路径聚合网络结构。
所述决策融合层中利用所述可见光图像以及所述红外图像的伪装目标检测精度进行自适应权重分配,以便为检测精度更高的图像分配更大权重,提高融合检测结果的可靠性。
分别对所述可见光图像以及所述红外图像进行目标检测精度检测,根据检测结果计算得到每张图像中目标的平均精确率APv,APt,v,t分别代表所述可见光图像和所述红外图像;
将所述可见光图像和所述红外图像检测结果的置信度分别乘以对应权重,表示公式如下:
其中,Confv,Conft分别为修正前的所述可见光图像检测结果和所述红外图像检测结果置信度,Cv,Ct分别为修正后的所述可见光图像检测结果和所述红外图像检测结果置信度;
将完成置信度修正的所述可见光图像检测结果和所述红外图像检测结果进行合并,按照置信度大小进行排序,并执行非极大值抑制,去除同一目标的可见光图像和红外图像重复检测结果,保留置信度最高的检测框作为该目标最终的决策级融合检测结果。
为了更好的展示检测结果,本申请实施例还可以提供利用所述自适应权重分配结果,对所述可见光图像以及所述红外图像进行加权融合显示,并在融合图像上绘制所述目标检测识别结果。
本申请实施例提供的伪装目标检测方法,通过可见光和红外相机同时获取目标和背景的颜色、纹理及温度等多维度差异信息,并通过在YOLOv5网络中添加NAM注意力机制提升了网络对目标和背景的特征区分能力,实现有效伪装目标检测识别,且能够全天候工作。
同时,该方法设计了一种决策融合策略,利用可见光和红外图像的伪装目标检测精度进行自适应权重分配,为检测精度更高的图像分配更大权重。然后对加权后的可见光和红外检测结果使用非极大值抑制(NMS:Non-Maximum Suppression)获得最终决策级融合检测结果,无需进行大量额外的IOU计算,实现了保留可见光和红外图像中置信度更高的检测结果,同时一定程度上剔除置信度较低的假目标。
另外,该方法利用可见光和红外图像检测精度进行自适应权重分配,为目标信息更明显的图像分配更大权重,实现了可见光和红外图像加权融合显示,提升了目标和背景的可视化效果,有利于人工对战场态势进行决策判断。
下面对本申请实施例提供的伪装目标检测方法进行详细介绍。
本申请实施例提供的基于可见光和红外融合的伪装目标检测方法的系统框架如图2所示,主要包括以下步骤:
构建多源图像数据集:
首先收集了CPD等公开迷彩伪装数据集共4278张图像,并将其中的伪装目标二值化分割标签转换为目标检测所需的YOLO格式。然后收集了LLVIP可见光和红外图像数据集,并对原始可见光和红外视频手动选取特征点进行了图像配准。最后将数据集按照8:2的比例划分为训练集和测试集。
具体实现时,首先收集了CPD等公开迷彩伪装数据集共4278张图像,并将其中的伪装目标二值化分割标签使用opencv提取外接矩形框转换为目标检测所需的YOLO格式[cls,x,y,w,h],其中cls是目标类别索引,x,y是归一化的矩形框中心点坐标,w,h是归一化的矩形框宽高。然后收集了LLVIP可见光和红外图像数据集,由于可见光和红外成像机理的差异,难以通过传统的SIFT等特征匹配算法对两种模态的图像进行精确配准,因此对原始可见光和红外视频采用手动选取特征点的方式进行了图像配准。最后将两个数据集分别按照8:2的比例划分为训练集和测试集。
构建多源图像目标检测模型:
在YOLOv5网络的基础上,首先在Backbone中引入了NAM注意力机制模块,然后在Neck层利用多尺度特征路径聚合模块进行特征聚合,最后将检测头输出的可见光和红外图像的检测结果进行加权融合,得到最终的伪装目标检测识别结果。
所使用的目标检测模型是在YOLOv5网络的基础上改进得到的,网络结构包括主干网络Backbone、颈部网络Neck层、输出层和决策融合层。通过使用两个改进的YOLOv5网络,构建了最终的多源图像目标检测模型如图3所示。
在主干网络中,首先使用一个6×6大小的卷积层作为焦点层,然后使用包含跨阶段局部网络层(CSP)的7个卷积层和效率更高的改进空间金字塔池化层SPPF(SPP:SpatialPyramid Pooling空间金字塔池化)。在焦点层中使用对于现有一些GPU设备更加高效的6×6大小的卷积层,替换原来的Focus模块。在CSP层中引入了NAM注意力机制模块(NAM:Normalization-based Attention Module基于归一化的注意力模块),通过为目标和背景分配不同的注意力权值,提升网络对目标和背景的特征区分能力。NAM注意力机制是一种高效且轻量级的注意力机制,采用了CBAM的模块集成形式,包含通道和空间注意力子模块。
如图4所示,对于通道注意力子模块,使用批量归一化(BN)中的缩放因子来衡量通道的方差及其重要性,用公式表示为:
将BN的缩放因子应用于空间维度进行像素归一化,得到空间注意力子模块,用公式表示为:
在颈部网络中,同时采用特征金字塔网络(FPN:Feature Pyramid Network)和路径聚合网络(PAN)结构,PAN是FPN结构的改进,FPN是自顶向下,将高层的强语义特征向下传递,增强了语义信息,但没有传递定位信息,通过在FPN后面添加一个自底向上的金字塔,将底层的强定位特征向上传递,增强了定位信息,从而实现精准定位。同时在PAN结构中加入了CSP结构,能够加快网络中推理信息的传输和加强网络的特征融合。
在输出层中,采用BCE loss计算目标分类损失和置信度损失,采用GIOU Loss计算目标矩形框定位损失。输出层共有3个输出通道,经过3个卷积层后有3个输出,由于仅对伪装人员进行检测,其大小分别为20×20×18、40×40×18、80×80×18。
在决策融合层中,利用可见光和红外图像的伪装目标检测精度进行自适应权重分配,为检测精度更高的图像分配更大权重,从而提高融合检测结果的可靠性。融合策略的具体步骤如下:
首先利用两个完成训练的目标检测模型,分别对可见光和红外图像进行测试,根据检测结果计算得到每张图像中目标的平均精确率APv,APt,其中v,t分别代表可见光和红外图像。
然后将可见光和红外图像检测结果的置信度分别乘以对应权重,用公式表示如下:
其中,Confv,Conft分别为修正前的可见光和红外检测结果置信度,Cv,Ct分别为修正后的可见光和红外检测结果置信度。
最后将完成置信度修正的可见光和红外检测结果进行合并,按照置信度大小进行排序,并再次执行非极大值抑制(NMS),去除同一目标的可见光和红外图像重复检测结果,保留置信度最高的检测框作为该目标最终的决策级融合检测结果。
通过上述融合操作,可以对可见光和红外图像中同时检测到的目标,取置信度最高的检测框作为最终决策级融合检测结果;对于仅在可见光或者红外图像中检测到的目标,其置信度会被修正,保留修正后置信度依然较高的目标,去除置信度较低的假目标。
模型训练:
使用训练数据集分别在可见光和红外图像上对目标检测模型进行训练。
首先使用迷彩伪装训练数据集对改进的YOLOv5网络进行训练,验证改进YOLOv5网络的伪装目标检测效果。然后使用可见光和红外训练数据集分别在可见光和红外图像上对目标检测模型进行训练。
模型测试:
使用完成训练的可见光和红外目标检测模型,分别对测试数据集中可见光和红外图像进行测试,并将两者的检测结果进行加权融合,得到最终的检测识别结果。
首先使用迷彩伪装测试数据集验证改进YOLOv5网络的性能,伪装目标检测结果如图5所示。
其中第一行为YOLOv5网络的检测识别结果,第二行为在YOLOv5网络基础上添加NAM注意力机制后的检测识别结果。
图5的结果显示,通过在YOLOv5网络中添加NAM注意力机制,可以增加网络的特征区分能力,从而提升网络对伪装目标的识别能力。
然后使用完成训练的可见光和红外目标检测模型,分别对测试数据集中可见光和红外图像进行测试,并将两者的检测结果进行加权融合,得到最终的检测识别结果如图6所示。
其中第一列为可见光图像检测结果,第二列为红外图像检测结果,第三列为融合检测结果。
在第一、二行中,红外图像和可见光图像检测结果分别丢失了一个行人目标,融合检测结果有效综合利用了可见光和红外图像的信息,提升了网络对场景中目标的检测识别能力,完整地检测到了场景中的多个目标。
多源图像融合显示:
首先利用可见光和红外图像的伪装目标检测精度进行自适应权重分配,为目标信息更明显的图像分配更大权重,然后对可见光和红外图像进行加权融合显示,并在融合图像上绘制最终的检测识别结果。
采用决策融合层中计算得到的可见光和红外图像权重,对可见光和红外图像进行加权融合显示,并在融合图像上绘制最终的检测识别结果。图6的融合检测结果中展示了可见光和红外图像融合显示的效果,提升了夜晚场景中目标和背景的可视化效果。
总之,本申请提供的伪装目标检测方法,通过可见光和红外相机同时获取目标和背景的颜色、纹理及温度等多维度差异信息,并通过在YOLOv5的主干网络中添加NAM注意力机制,提升了网络对目标和背景的特征区分能力,实现有效伪装目标检测识别,且能够全天候工作。
同时,由于目前对于双波段目标检测及其决策融合策略的研究较少,部分融合策略需要进行大量的IOU计算,不适用于目标密集的场景。因此该方法设计的可见光和红外图像检测结果的决策级融合策略,无需进行大量额外的IOU计算,实现了保留可见光和红外图像中置信度更高的检测结果,同时一定程度上剔除置信度较低的假目标。
另外,该方法利用可见光和红外图像检测精度进行自适应权重分配,为目标信息更明显的图像分配更大权重,实现了可见光和红外图像加权融合显示,提升了目标和背景的可视化效果,有利于人工对战场态势进行决策判断。
参见图7,本申请实施例还可以提供一种伪装目标检测装置,如图7所示,该装置可以包括:
图像确定单元701,用于确定待进行目标检测的可见光图像以及红外图像;
检测结果获取单元702,用于通过将所述可见光图像以及所述红外图像分别输入到目标检测网络进行多源图像目标检测,以得到可见光检测结果以及红外检测结果;
检测结果融合单元703,用于将所述可见光检测结果以及所述红外检测结果通过决策融合层进行加权融合,得到目标检测识别结果;
其中,所述目标检测网络包括改进的YOLOv5网络结构,所述改进的YOLOv5网络结构的主干网络包括NAM注意力机制模块,所述改进的YOLOv5网络结构包括6×6大小的卷积层;所述改进的YOLOv5网络结构的颈部网络层包括多尺度特征路径聚合模块;所述改进的YOLOv5网络结构的输出层采用BCE loss计算目标分类损失和置信度损失。
本申请实施例还可以提供一种伪装目标检测设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述的伪装目标检测方法的步骤。
如图8所示,本申请实施例提供的一种伪装目标检测设备,可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
在本申请实施例中,处理器10可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行伪装目标检测方法的实施例中的操作。
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,存储器11中至少存储有用于实现以下功能的程序:
确定待进行目标检测的可见光图像以及红外图像;
通过将所述可见光图像以及所述红外图像分别输入到目标检测网络进行多源图像目标检测,以得到可见光检测结果以及红外检测结果;
将所述可见光检测结果以及所述红外检测结果通过决策融合层进行加权融合,得到目标检测识别结果;
其中,所述目标检测网络包括改进的YOLOv5网络结构,所述改进的YOLOv5网络结构的主干网络包括NAM注意力机制模块,所述改进的YOLOv5网络结构包括6×6大小的卷积层;所述改进的YOLOv5网络结构的颈部网络层包括多尺度特征路径聚合模块;所述改进的YOLOv5网络结构的输出层采用BCE loss计算目标分类损失和置信度损失。
在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能(比如文件创建功能、数据读写功能)所需的应用程序等;存储数据区可存储使用过程中所创建的数据,如初始化数据等。
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
通信接口12可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图8所示的结构并不构成对本申请实施例中伪装目标检测设备的限定,在实际应用中伪装目标检测设备可以包括比图8所示的更多或更少的部件,或者组合某些部件。
本申请实施例还可以提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述的伪装目标检测方法的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加上必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种伪装目标检测方法,其特征在于,包括:
确定待进行目标检测的可见光图像以及红外图像;
通过将所述可见光图像以及所述红外图像分别输入到目标检测网络进行多源图像目标检测,以得到可见光检测结果以及红外检测结果;
将所述可见光检测结果以及所述红外检测结果通过决策融合层进行加权融合,得到目标检测识别结果;
其中,所述目标检测网络包括改进的YOLOv5网络结构,所述改进的YOLOv5网络结构的主干网络包括NAM注意力机制模块,所述改进的YOLOv5网络结构包括6×6大小的卷积层;所述改进的YOLOv5网络结构的颈部网络层包括多尺度特征路径聚合模块;所述改进的YOLOv5网络结构的输出层采用BCE loss计算目标分类损失和置信度损失。
2.根据权利要求1所述的伪装目标检测方法,其特征在于,所述NAM注意力机制模块设置于所述改进的YOLOv5网络结构的主干网络的跨阶段局部网络层中。
3.根据权利要求2所述的伪装目标检测方法,其特征在于,所述NAM注意力机制模块包括通道注意力子模块以及空间注意力子模块;
所述通道注意力子模块采用批量归一化中的缩放因子来衡量通道的方差及其重要性;所述空间注意力子模块采用所述缩放因子对空间维度进行像素归一化。
4.根据权利要求1所述的伪装目标检测方法,其特征在于,所述多尺度特征路径聚合模块包括特征金字塔网络结构和路径聚合网络结构。
5.根据权利要求1所述的伪装目标检测方法,其特征在于,所述决策融合层中利用所述可见光图像以及所述红外图像的伪装目标检测精度进行自适应权重分配,以便为检测精度更高的图像分配更大权重,提高融合检测结果的可靠性。
6.根据权利要求5所述的伪装目标检测方法,其特征在于,分别对所述可见光图像以及所述红外图像进行目标检测精度检测,根据检测结果计算得到每张图像中目标的平均精确率APv,APt,v,t分别代表所述可见光图像和所述红外图像;
将所述可见光图像和所述红外图像检测结果的置信度分别乘以对应权重,表示公式如下:
其中,Confv,Conft分别为修正前的所述可见光图像检测结果和所述红外图像检测结果置信度,Cv,Ct分别为修正后的所述可见光图像检测结果和所述红外图像检测结果置信度;
将完成置信度修正的所述可见光图像检测结果和所述红外图像检测结果进行合并,按照置信度大小进行排序,并执行非极大值抑制,去除同一目标的可见光图像和红外图像重复检测结果,保留置信度最高的检测框作为该目标最终的决策级融合检测结果。
7.根据权利要求5所述的伪装目标检测方法,其特征在于,利用所述自适应权重分配结果,对所述可见光图像以及所述红外图像进行加权融合显示,并在融合图像上绘制所述目标检测识别结果。
8.一种伪装目标检测装置,其特征在于,包括:
图像确定单元,用于确定待进行目标检测的可见光图像以及红外图像;
检测结果获取单元,用于通过将所述可见光图像以及所述红外图像分别输入到目标检测网络进行多源图像目标检测,以得到可见光检测结果以及红外检测结果;
检测结果融合单元,用于将所述可见光检测结果以及所述红外检测结果通过决策融合层进行加权融合,得到目标检测识别结果;
其中,所述目标检测网络包括改进的YOLOv5网络结构,所述改进的YOLOv5网络结构的主干网络包括NAM注意力机制模块,所述改进的YOLOv5网络结构包括6×6大小的卷积层;所述改进的YOLOv5网络结构的颈部网络层包括多尺度特征路径聚合模块;所述改进的YOLOv5网络结构的输出层采用BCE loss计算目标分类损失和置信度损失。
9.一种伪装目标检测设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的伪装目标检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-7任一项所述的伪装目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311038281.5A CN117036886A (zh) | 2023-08-17 | 2023-08-17 | 一种伪装目标检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311038281.5A CN117036886A (zh) | 2023-08-17 | 2023-08-17 | 一种伪装目标检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117036886A true CN117036886A (zh) | 2023-11-10 |
Family
ID=88638834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311038281.5A Pending CN117036886A (zh) | 2023-08-17 | 2023-08-17 | 一种伪装目标检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036886A (zh) |
-
2023
- 2023-08-17 CN CN202311038281.5A patent/CN117036886A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Single image haze removal via region detection network | |
CA2949844C (en) | System and method for identifying, analyzing, and reporting on players in a game from video | |
CN112597941B (zh) | 一种人脸识别方法、装置及电子设备 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN110363134B (zh) | 一种基于语义分割的人脸遮挡区定位方法 | |
CN107563299B (zh) | 一种利用ReCNN融合上下文信息的行人检测方法 | |
Li et al. | Deep dehazing network with latent ensembling architecture and adversarial learning | |
CN109472193A (zh) | 人脸检测方法及装置 | |
CN112560619B (zh) | 一种基于多聚焦图像融合的多距离鸟类精准识别方法 | |
CN109766828A (zh) | 一种车辆目标分割方法、装置及通信设备 | |
CN111325051A (zh) | 一种基于人脸图像roi选取的人脸识别方法及装置 | |
CN113065645A (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN112561973A (zh) | 训练图像配准模型的方法、装置和电子设备 | |
CN111274988B (zh) | 一种基于多光谱的车辆重识别方法及装置 | |
CN115482523A (zh) | 轻量级多尺度注意力机制的小物体目标检测方法及系统 | |
CN114399734A (zh) | 一种基于视觉信息的森林火灾预警方法 | |
CN103870847A (zh) | 一种低照度环境下对地监控的运动目标检测方法 | |
CN113822198A (zh) | 基于uav-rgb图像和深度学习的花生生长监测方法、系统及介质 | |
CN110827375B (zh) | 一种基于微光图像的红外图像真彩着色方法及系统 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN107369138A (zh) | 基于高阶统计模型的图像最优化显示方法 | |
CN109886780B (zh) | 基于眼球跟踪的商品目标检测方法及装置 | |
Aparna | Swarm intelligence for automatic video image contrast adjustment | |
CN110751163B (zh) | 目标定位方法及其装置、计算机可读存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |