CN118247492B - 目标检测方法、装置、计算机设备及可读存储介质 - Google Patents
目标检测方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN118247492B CN118247492B CN202410619491.1A CN202410619491A CN118247492B CN 118247492 B CN118247492 B CN 118247492B CN 202410619491 A CN202410619491 A CN 202410619491A CN 118247492 B CN118247492 B CN 118247492B
- Authority
- CN
- China
- Prior art keywords
- feature map
- attention
- decoding
- label
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 113
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000000605 extraction Methods 0.000 claims description 54
- 238000012545 processing Methods 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 42
- 238000012544 monitoring process Methods 0.000 claims description 33
- 238000010586 diagram Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000012546 transfer Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 101100510299 Oryza sativa subsp. japonica KIN7A gene Proteins 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种目标检测方法、装置、计算机设备及可读存储介质,涉及目标检测技术领域,解决了目前存在采用基于数据驱动的算法,对红外图像中红外弱小目标的识别精度较低的问题。该方法包括:根据基于深度可分离卷积的注意力编码单元对红外图像的特征进行交替编码,得到第一特征图,以及第二特征图,随后基于标签监督单元对第一特征图与标签进行融合,得到具有标签信息的第三特征图,接着基于具有标签信息的第三特征图和具有目标通道数的第二特征图利用基于深度可分离卷积的注意力解码单元进行交替解码,得到解码后的特征图,最后利用sigmoid函数给出目标检测结果。
Description
技术领域
本申请属于目标检测技术领域,更具体地,涉及一种目标检测方法、装置、计算机设备及可读存储介质。
背景技术
随着计算机网络的快速发展,红外弱小目标检测技术也得到了快速发展,红外弱小目标检测技术能够在红外图像中准确地探测和辨识那些具有较低热信号或较小尺寸的目标物体。利用这种技术,即使那些潜在目标在红外图像中显得微不足道,如人体、车辆和无人机等,也能够有效地被发现。红外弱小目标检测广泛应用于军事侦察、安防监控、无人驾驶、边境巡逻等领域,为提高安全性和实时响应能力提供了重要支持。精准的红外弱小目标检测可增强对特定目标的识别能力,并帮助人们更好地理解和应对复杂环境下的潜在风险或威胁。
基于数据驱动的算法,例如卷积神经网络(CNN)或其他深度学习架构,通过多层次的卷积、池化和全连接等操作,从输入的红外图像中提取高级特征。这类算法具有较好的鲁棒性和准确性,能够有效地处理目标尺寸、形态的变化,并且能够同时处理多个目标。然而,由于上述神经网络对远距离特征捕获的能力不足,使得该模型将红外弱小目标从背景中分离的效果较差,即,对红外图像中红外弱小目标的识别精度较低。
发明内容
有鉴于此,本发明提供了一种目标检测方法、装置、计算机设备及可读存储介质,主要目的在于解决目前存在采用基于数据驱动的算法,对红外图像中红外弱小目标的识别精度较低的问题。
依据本申请第一方面,提供了一种目标检测方法,包括:
响应于目标检测请求,获取所述目标检测请求携带的红外图像,以及确定目标检测算法,所述目标检测算法包括依次连接的基于深度可分离卷积的注意力编码单元、标签监督单元、基于深度可分离卷积的注意力解码单元和sigmoid函数,所述红外图像包括红外弱小目标;
根据所述基于深度可分离卷积的注意力编码单元对所述红外图像的特征进行交替编码,得到具有通道与空间之间交叉维度信息的第一特征图,以及具有目标通道数的第二特征图;
基于所述标签监督单元对所述第一特征图与标签进行融合,得到具有标签信息的第三特征图;
基于所述具有标签信息的第三特征图和所述具有目标通道数的第二特征图利用所述基于深度可分离卷积的注意力解码单元进行交替解码,得到解码后的特征图;
利用所述sigmoid函数对所述解码后的特征图进行处理,得到具有红外弱小目标信息的检测结果。
可选地,所述基于深度可分离卷积的注意力编码单元包括双卷积编码头、多个注意力编码子单元,所述双卷积编码头与所述多个注意力编码子单元中的第一个注意力编码子单元的输入端连接,所述多个注意力编码子单元中每个注意力编码子单元与其相邻的注意力编码子单元连接;
所述根据所述基于深度可分离卷积的注意力编码单元对所述红外图像的特征进行交替编码,得到具有通道与空间之间交叉维度信息的第一特征图,以及具有目标通道数的第二特征图,包括:
利用所述双卷积编码头对所述红外图像进行两次编码,得到具有第一通道数的第一中间特征图,其中,所述双卷积编码头包括两个深度可分离卷积层;
基于所述多个注意力编码子单元中的第一个注意力编码子单元对所述第一中间特征图进行处理,得到具有第二通道数的第二中间特征图输入至第二个注意力编码子单元中,以及得到具有通道与空间之间第一交叉维度信息的第一输出特征图,继续利用所述第二个注意力编码子单元对所述第二中间特征图进行处理,得到具有第三通道数的第三中间特征图,以及得到具有通道与空间之间第二交叉维度信息的第二输出特征图,重复上述操作,直至所述多个注意力编码子单元中的最后一个注意力编码子单元完成处理任务;
确定所述最后一个注意力编码子单元输出的具有目标通道数的最终中间特征图为所述第二特征图;
基于每个注意力编码子单元输出的具有通道与空间之间交叉维度信息的输出特征图确定所述第一特征图。
可选地,每个注意力编码子单元包括依次连接的三元组注意力提取模块、最大池化层、深度可分离卷积层;
对每个注意力编码子单元执行以下操作:基于注意力编码子单元中的三元组注意力提取模块对输入的具有第一预设通道数的中间特征图进行处理,得到具有通道与空间之间交叉维度信息的特征图,将所述具有通道与空间之间交叉维度信息的特征图作为输出特征图,以及利用所述注意力编码子单元中的最大池化层对所述具有通道与空间之间交叉维度信息的特征图进行下采样,得到变换尺寸的特征图,通过所述注意力编码子单元中的深度可分离卷积层将所述变换尺寸的特征图的通道进行扩宽,得到具有第二预设通道数的中间特征图,所述第一预设通道数小于所述第二预设通道数。
可选地,所述标签监督单元包括多个标签监督模块;所述基于所述标签监督单元对所述第一特征图与标签进行融合,得到具有标签信息的第三特征图,包括:
从所述第一特征图提取多个具有通道与空间之间交叉维度信息的输出特征图,其中,每个输出特征图作为一标签监督模块的输入特征图;
对每个标签监督模块执行以下操作:确定标签监督模块对应的输入标签,以及确定所述标签监督模块对应的输入特征图,基于所述标签监督模块对所述输入标签和所述输入特征图进行融合,得到具有标签信息的特征图,其中,所述标签监督模块对应的输入标签与所述标签监督模块上一相邻的标签监督模块对应的输入标签具有关联关系;
将多个具有标签信息的特征图进行组合,得到所述第三特征图。
可选地,所述基于深度可分离卷积的注意力解码单元包括转换三元组注意力提取模块,多个注意力解码子单元、双卷积解码头,所述多个注意力解码子单元的输入端与所述转换三元组注意力提取模块连接,所述多个注意力解码子单元的输出端与所述双卷积解码头连接,所述多个注意力解码子单元中每个注意力解码子单元与其相邻的注意力解码子单元连接;
所述基于所述具有标签信息的第三特征图和所述具有目标通道数的第二特征图利用所述基于深度可分离卷积的注意力解码单元进行交替解码,得到解码后的特征图,包括:
利用所述转换三元组注意力提取模块对所述具有目标通道数的第二特征图进行处理,得到具有空间与通道之间中转交叉维度信息的中转特征图;
从所述第三特征图中提取多个具有标签信息的特征图,每个具有标签信息的特征图作为一注意力解码子单元的输入特征图;
基于所述多个注意力解码子单元中的第一个注意力解码子单元对所述中转特征图和对应的具有标签信息的特征图进行处理,得到具有空间与通道之间第一目标交叉维度信息的第一解码特征图,继续利用与所述第一个注意力解码子单元相邻的注意力解码子单元对所述第一解码特征图和对应的具有标签信息的特征图进行处理,得到具有空间与通道之间第二目标交叉维度信息的第二解码特征图,重复上述操作,直至所述多个注意力解码子单元中的最后一个注意力解码子单元完成处理任务;
确定所述最后一个注意力解码子单元输出的具有空间与通道之间最终交叉维度信息的目标解码特征图,并利用所述双卷积解码头对所述目标解码特征图进行两次解码,得到所述解码后的特征图,其中,所述双卷积解码头包括两个深度可分离卷积层。
可选地,每个注意力解码子单元包括依次连接的双线性插值模块、通道拼接模块、深度可分离卷积层和三元组注意力提取模块;
对每个注意力解码子单元执行以下操作:基于注意力解码子单元中的双线性插值模块对与上一相邻三元组注意力提取模块输出的具有空间与通道之间第一预设目标交叉维度信息的解码特征图进行上采样,得到解码特征图,确定所述注意力解码子单元对应的具有标签信息的特征图,基于所述注意力解码子单元中的通道拼接模块对所述具有标签信息的特征图和所述解码特征图进行通道拼接,得到拼接后的特征图,利用所述注意力解码子单元中的深度可分离卷积层对所述拼接后的特征图的通道进行扩宽,得到扩宽通道后的特征图,利用所述注意力解码子单元中的三元组注意力提取模块对所述扩宽通道后的特征图进行处理,得到具有空间与通道之间第二预设目标交叉维度信息的解码特征图,所述第二预设目标交叉维度信息的信息量大于所述第一预设目标交叉维度信息的信息量。
可选地,所述确定目标检测算法之前,所述方法还包括:
确定初始目标检测算法,所述初始目标检测算法包括依次连接的基于深度可分离卷积的初始注意力编码单元、初始标签监督单元、基于深度可分离卷积的初始注意力解码单元和sigmoid函数;
获取图像训练集,所述图像训练集包括多个训练图像,且每个训练图像包括至少一个红外弱小目标;
采用所述图像训练集对所述初始目标检测算法中的所述基于深度可分离卷积的初始注意力编码单元、所述初始标签监督单元、所述基于深度可分离卷积的初始注意力解码单元进行训练,得到所述目标检测算法,所述目标检测算法包括依次连接的训练后的基于深度可分离卷积的注意力编码单元、训练后的标签监督单元、训练后的基于深度可分离卷积的注意力解码单元和所述sigmoid函数。
依据本申请第二方面,提供了一种目标检测装置,包括:
获取模块,用于响应于目标检测请求,获取所述目标检测请求携带的红外图像,以及确定目标检测算法,所述目标检测算法包括依次连接的基于深度可分离卷积的注意力编码单元、标签监督单元、基于深度可分离卷积的注意力解码单元和sigmoid函数,所述红外图像包括红外弱小目标;
编码模块,用于根据所述基于深度可分离卷积的注意力编码单元对所述红外图像的特征进行交替编码,得到具有通道与空间之间交叉维度信息的第一特征图,以及具有目标通道数的第二特征图;
融合模块,用于基于所述标签监督单元对所述第一特征图与标签进行融合,得到具有标签信息的第三特征图;
解码模块,用于基于所述具有标签信息的第三特征图和所述具有目标通道数的第二特征图利用所述基于深度可分离卷积的注意力解码单元进行交替解码,得到解码后的特征图;
处理模块,用于利用所述sigmoid函数对所述解码后的特征图进行处理,得到具有红外弱小目标信息的检测结果。
依据本申请第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。
依据本申请第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
借由上述技术方案,本申请提供了一种目标检测方法、装置、计算机设备及可读存储介质,本申请通过目标检测算法中的基于深度可分离卷积的注意力编码单元对红外图像的特征进行交替编码,以进行特征增强和信息聚合,并利用标签监督单元将特征图与标签进行融合,增加特征图的语义信息以完成深度的标签监督,之后通过基于深度可分离卷积的注意力解码单元进行交替解码,进一步扩宽特征图的通道,以及进一步丰富通道与空间之间的关联性,有效聚合编码和解码过程中的远距离上下文依赖,最后得到具有丰富语义信息、丰富通道与空间之间的关联性和丰富通道信息的最终特征图,再通过sigmoid函数判断目标位置并输出包含目标位置的检测结果,通过上述过程可以准确识别出红外图像中的红外弱小目标,进而有效提高了对红外图像中红外弱小目标的识别精度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种目标检测方法的流程图;
图2示出了本申请实施例提供的另一种目标检测方法的流程图;
图3示出了本申请实施例提供的另一种目标检测方法的目标检测算法的结构示意图;
图4示出了本申请实施例提供的另一种目标检测方法的三元组注意力提取模块的结构示意图;
图5示出了本申请实施例提供的另一种目标检测方法的标签监督模块的结构示意图;
图6示出了本申请实施例提供的另一种目标检测方法的检测技术流程图;
图7A示出了本申请实施例提供的一种目标检测装置的结构示意图;
图7B示出了本申请实施例提供的一种目标检测装置的结构示意图;
图8示出了本申请实施例提供的一种计算机设备的装置结构示意图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
本申请实施例提供了一种目标检测方法,如图1所示,包括:
101、响应于目标检测请求,获取目标检测请求携带的红外图像,以及确定目标检测算法。
在本申请实施例中,目标检测算法是通过预先训练获取到的最优目标检测算法,该目标检测算法包括依次连接的基于深度可分离卷积的注意力编码单元、标签监督单元、基于深度可分离卷积的注意力解码单元和sigmoid函数,在接收到目标检测请求之后,从该目标检测请求中提取其携带的红外图像,该红外图像包括红外弱小目标,也包括其他目标和背景,红外弱小目标可以理解为具有较低热信号或较小尺寸的目标物体。
102、根据基于深度可分离卷积的注意力编码单元对红外图像的特征进行交替编码,得到具有通道与空间之间交叉维度信息的第一特征图,以及具有目标通道数的第二特征图。
在本申请实施例中,深度可分离卷积使用卷积核大小为3×3的深度可分离卷积,深度可分离卷积可对红外图像的通道数扩宽,有效丰富特征图的通道信息,确定目标检测算法之后,可以根据目标检测算法中的基于深度可分离卷积的注意力编码单元对红外图像的特征进行交替编码,以进行特征增强和信息聚合,获得具有通道与空间之间交叉维度信息的第一特征图,同时,也会获得具有目标通道数的第二特征图。
103、基于标签监督单元对第一特征图与标签进行融合,得到具有标签信息的第三特征图。
在本申请实施例中,步骤102中的基于深度可分离卷积的注意力编码单元会输出两个特征图,一个是具有丰富的通道与空间之间交叉维度信息的第一特征图,另一个是具有丰富的目标通道数的第二特征图。红外弱小目标检测的关键是捕获深层次的语义信息,因此,利用标签监督单元对具有丰富的通道与空间之间交叉维度信息的第一特征图和标签进行融合,得到具有标签信息的第三特征图,即,第三特征图具有丰富的语义信息。需要说明的是标签监督单元接受两个输入,一个是第一特征图,另一个是标签,这个标签可以理解为位置标签,位置标签在训练的时候已经配置于标签监督单元,用于计算损失函数,位置标签的具体形式为标签单通道的二值图,例如,如果第一特征图大小为C×H×W,融合后的第三特征图大小为(C+1)×H×W。标签监督单元也可以理解为将标签与特征图按照通道维度进行拼接,输出融合标签后的特征图。
104、基于具有标签信息的第三特征图和具有目标通道数的第二特征图利用基于深度可分离卷积的注意力解码单元进行交替解码,得到解码后的特征图。
在本申请实施例中,与基于深度可分离卷积的注意力编码单元的交替编码对应,目标检测算法中还需要有个交替解码的单元,即,基于深度可分离卷积的注意力解码单元,基于之前获取的具有标签信息的第三特征图和具有目标通道数的第二特征图利用基于深度可分离卷积的注意力解码单元进行交替解码,得到解码后的特征图。
105、利用sigmoid函数对解码后的特征图进行处理,得到具有红外弱小目标信息的检测结果。
在本申请实施例中,利用sigmoid函数对解码后的特征图进行处理,得到具有红外弱小目标信息的检测结果,即,通过sigmoid函数判断目标位置并输出包含目标位置的二值图,在二值图中,目标的值为1,背景区域的值为0。sigmoid函数为:
,
其中,F final为解码后的特征图。
本申请实施例提供的方法,通过目标检测算法中的基于深度可分离卷积的注意力编码单元对红外图像的特征进行交替编码,以进行特征增强和信息聚合,并利用标签监督单元将特征图与标签进行融合,增加特征图的语义信息以完成深度的标签监督,之后通过基于深度可分离卷积的注意力解码单元进行交替解码,进一步扩宽特征图的通道,以及进一步丰富通道与空间之间的关联性,有效聚合编码和解码过程中的远距离上下文依赖,最后得到具有丰富语义信息、丰富通道与空间之间的关联性和丰富通道信息的最终特征图,再通过sigmoid函数判断目标位置并输出包含目标位置的检测结果,通过上述过程可以准确识别出红外图像中的红外弱小目标,进而有效提高了对红外图像中红外弱小目标的识别精度。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施方式,本申请实施例提供了另一种目标检测方法,如图2所示,该方法包括:
201、对初始目标检测算法进行训练,得到目标检测算法。
在本申请实施例中,需要首先获取初始目标检测算法,初始目标检测算法中包括四个单元,这四个单元为依次连接的基于深度可分离卷积的初始注意力编码单元、初始标签监督单元、基于深度可分离卷积的初始注意力解码单元和sigmoid函数;之后获取图像训练集,该图像训练集包括多个训练图像,且每个训练图像包括至少一个红外弱小目标;最后采用图像训练集对初始目标检测算法中的基于深度可分离卷积的初始注意力编码单元、初始标签监督单元、基于深度可分离卷积的初始注意力解码单元进行训练,得到目标检测算法,目标检测算法包括依次连接的训练后的基于深度可分离卷积的注意力编码单元、训练后的标签监督单元、训练后的基于深度可分离卷积的注意力解码单元和sigmoid函数。
202、响应于目标检测请求,获取目标检测请求携带的红外图像,以及确定目标检测算法。
在本申请实施例中,目标检测算法包括依次连接的基于深度可分离卷积的注意力编码单元、标签监督单元、基于深度可分离卷积的注意力解码单元和sigmoid函数,基于深度可分离卷积的注意力编码单元还包括双卷积编码头、多个注意力编码子单元,双卷积编码头与多个注意力编码子单元中的第一个注意力编码子单元的输入端连接,多个注意力编码子单元中每个注意力编码子单元与其相邻的注意力编码子单元连接。标签监督单元包括多个标签监督模块。基于深度可分离卷积的注意力解码单元包括转换三元组注意力提取模块,多个注意力解码子单元、双卷积解码头,多个注意力解码子单元的输入端与转换三元组注意力提取模块连接,多个注意力解码子单元的输出端与双卷积解码头连接,多个注意力解码子单元中每个注意力解码子单元与其相邻的注意力解码子单元连接。
203、根据基于深度可分离卷积的注意力编码单元对红外图像的特征进行交替编码,得到具有通道与空间之间交叉维度信息的第一特征图,以及具有目标通道数的第二特征图。
在本申请实施例中,如图3所示,双卷积编码头包括两个深度可分离卷积层,深度可分离卷积层可选用卷积核大小为3×3的深度可分离卷积,双卷积编码头对红外图像进行两次编码,通过两次编码初步将红外图像的通道数扩宽,最后得到具有第一通道数的第一中间特征图,有效丰富了第一中间特征图的通道信息,第一中间特征图表示为:
,
,
其中,F 0为第一中间特征图,DWConv 3为卷积核大小为3×3的深度可分离卷积,I in为输入的红外图像,R为实数域,C 0为第一中间特征图的通道数,H为第一中间特征图的高度,W为第一中间特征图的宽度。
之后,基于多个注意力编码子单元中的第一个注意力编码子单元对第一中间特征图进行处理,得到具有第二通道数的第二中间特征图,这个第二中间特征图要输入第二个注意力编码子单元中,以及得到具有通道与空间之间第一交叉维度信息的第一输出特征图,继续利用第二个注意力编码子单元对第二中间特征图进行处理,得到具有第三通道数的第三中间特征图,以及得到具有通道与空间之间第二交叉维度信息的第二输出特征图,重复上述操作,直至多个注意力编码子单元中的最后一个注意力编码子单元完成处理任务。例如,注意力编码子单元的数量为4个,最上面的第一个注意力编码子单元对第一中间特征图进行处理,经过处理之后通道的数量增多了,且通道与空间之间实现了跨维度交互,会输出两个特征图,即第二中间特征图和第一输出特征图,这两个特征图有些差别,虽然每个特征图中通道数以及空间与通道的维度交互特征均被增强了,但是二者侧重不同,第一输出特征图会侧重通道与空间之间的维度交互特征,第二中间特征图侧重通道信息。之后将第二中间特征图输入到第二个注意力编码子单元中,第二个注意力编码子单元会继续对第二中间特征图进行处理,得到第三通道数的第三中间特征图,以及具有通道与空间之间第二交叉维度信息的第二输出特征图,这里需要注意的是,经过第二个注意力编码子单元的处理,通道信息会进一步增强,且通道与空间之间的维度交互特征也会进一步增强。接着将第三中间特征图输入第三个注意力编码子单元中,第三个注意力编码子单元会继续对第三中间特征图进行处理,得到第四通道数的第四中间特征图,以及具有通道与空间之间第三交叉维度信息的第三输出特征图。最后将第四中间特征图输入最后一个注意力编码子单元中,最后一个注意力编码子单元会继续对第四中间特征图进行处理,经过处理之后得到具有目标通道数的最终中间特征图,也就是第二特征图,也会得到具有通道与空间之间第四交叉维度信息的第四输出特征图,需要说明的是,上述第一输出特征图、第二输出特征图、第三输出特征图和第四输出特征图都作为标签监督单元的输入特征,即第一特征图。
进一步地,每个注意力编码子单元还包括依次连接的三元组注意力提取模块、最大池化层、深度可分离卷积层,由于每个注意力编码子单元的结构是相同的,以一个注意力编码子单元进行说明,由于三元组注意力(TRA)提取模块的上一层是深度可分离卷积层,因此,三元组注意力提取模块对上一层的深度可分离卷积层输出的具有第一预设通道数的特征图进行处理。三元组注意力(TRA)可以有效实现跨维度交互,如图4所示,其由三个分支组成,每个分支负责捕获输入的空间维度和通道维度之间的交叉维度,例如,给定一个形状为(C0×H×W)的输入张量,每个分支负责聚合空间维度H或W与通道维度C0之间的跨维交互特征;通过简单地排列每个分支中的输入张量F 0,通过维度变换对F 0进行预处理:
,
,
,
其中,F HCW、F WHC、F CHW分别表示特征图的高度H、宽度W以及通道数C0互相变换后的特征图。
然后使用最大池化和空间池化传递张量来实现跨维交互特征:
,
其中,f maxpool表示最大池化函数,f avgpool表示平均池化函数,、、分别表示经过最大池化和空间池化处理后的特征图。
随后,通过一个内核大小为3×3的深度卷积层、批量归一化层与sigmoid激活层生成注意力权重,在图4中,深度卷积层、批量归一化层与sigmoid激活层整合到了一起,统称为DBS,其中,在下面公式中,f DBS1为深度卷积层对应的函数,f DBS2为批量归一化层对应的函数,f DBS3为sigmoid激活层对应的函数。
,
其中,表示深度卷积层对应的函数f DBS1输出的特征图、表示批量归一化层对应的函数f DBS2输出的特征图、表示sigmoid激活层对应的函数f DBS3输出的特征图。
然后再将其排列回原始输入形状,并求平均值得到最终的输出F ti。
,
其中,i表示第i个注意力编码子单元,表示旋转函数的逆向旋转。
需要说明的是,三元组注意力(TRA)提取模块作为一个即插即用的模块,具有轻量且高效的特性,能够有效的全局的表示通道和空间之间的关联性,从而有效的聚合编解码过程中的远距离上下文依赖。
进一步地,经过三元组注意力提取模块处理之后得到了具有通道与空间之间交叉维度信息的特征图,一方面,这个具有通道与空间之间交叉维度信息的特征图可以作为标签监督单元的输入,另一方面,将该具有通道与空间之间交叉维度信息的特征图输入最大池化层,最大池化层对经过注意力特征提取的特征图进行下采样操作,并使用卷积核大小为3×3的深度可分离卷积进一步扩宽通道信息,即,
,
重复上述步骤,对输入特征进行连续四次的下采样和水平编码,得到了不同尺寸的特征图F ti(i=0,1,2,3),作为标签监督单元的输入。需要说明的是,下采样操作涉及到了图像的尺寸变换,其他的注意力编码等都称作水平编码,即图像尺寸没有变换。
需要说明的是,第一预设通道数小于第二预设通道数,第一预设通道数和第二预设通道数分别为第一通道数至目标通道数中的一个,例如,第一通道数、第二通道数、第三通道数以及第四通道数(目标通道数)。
204、基于标签监督单元对第一特征图与标签进行融合,得到具有标签信息的第三特征图。
在本申请实施例中,红外弱小目标检测的关键是捕获深层次的语义信息。因此,将具有丰富通道与空间之间交叉维度信息的特征图进行深度标签监督。红外弱小目标一般只有几个像素,那么说其是“人”或者“无人机”都是没有意义的,因此弱小目标检测算法本质上是目标分割模型,用到的标签可以理解为包含目标位置的二值图,标签融合后会作为特征图的一部分,进行后续特征提取与计算。本申请中的标签监督单元包括多个标签监督模块,如图3所示,标签监督模块的数量为4个,跟注意力编码子单元的数量一致,如图5所示,标签监督模块接受两个输入:特征F ti和标签L i;
,
,
其中,i=0,1,2,3,C i为特征F ti的通道数,H i为特征F ti的高度,W i为特征F ti的宽度。
需要说明的是,对标签监督模块输入的标签在一开始训练时就配置于网络的,用于计算损失函数,标签的具体形式为标签单通道的二值图。
由于标签监督单元中有四个标签监督模块,下一个标签监督模块与当前标签监督模块的关系为:
,
其中,i=1,2,3;也就是说,采用平均池化层来调整原始标签L 0,使其完全匹配低级特征的尺度。这个原始标签为一开始就输入网络的标签。将标签与特征图按照通道维度进行拼接,再通过深度卷积将特征图恢复为特征图的尺寸。
具体地,由上述内容可知,每个输出特征图作为一标签监督模块的输入特征图,以一个标签监督模块为例,首先确定该标签监督模块对应的标签,以及确定标签监督模块对应的输入特征图,之后基于标签监督模块对输入标签和输入特征图进行融合,得到具有标签信息的特征图。每个标签监督模块输出一个具有标签信息的特征图,这些具有标签信息的特征图组成了第三特征图。
205、基于具有标签信息的第三特征图和具有目标通道数的第二特征图利用基于深度可分离卷积的注意力解码单元进行交替解码,得到解码后的特征图。
在本申请实施例中,基于深度可分离卷积的注意力解码单元包括转换三元组注意力提取模块,多个注意力解码子单元、双卷积解码头,多个注意力解码子单元的输入端与转换三元组注意力提取模块连接,多个注意力解码子单元的输出端与双卷积解码头连接,多个注意力解码子单元中每个注意力解码子单元与其相邻的注意力解码子单元连接。
具体地,如图3所示,利用转换三元组注意力提取模块对具有目标通道数的第二特征图进行处理,得到具有空间与通道之间中转交叉维度信息的中转特征图,这里的转换三元组注意力(TRA-1)提取模块起到一个中转的作用,即作为编码向解码转换的进一步注意力特征提取;从第三特征图中提取多个具有标签信息的特征图,每个具有标签信息的特征图作为一注意力解码子单元的输入特征图;基于多个注意力解码子单元中的第一个注意力解码子单元对中转特征图和对应的具有标签信息的特征图进行处理,得到具有空间与通道之间第一目标交叉维度信息的第一解码特征图,继续利用与第一个注意力解码子单元相邻的注意力解码子单元对第一解码特征图和对应的具有标签信息的特征图进行处理,得到具有空间与通道之间第二目标交叉维度信息的第二解码特征图,重复上述操作,直至多个注意力解码子单元中的最后一个注意力解码子单元完成处理任务。确定最后一个注意力解码子单元输出的具有空间与通道之间最终交叉维度信息的目标解码特征图F out0,并利用双卷积解码头对目标解码特征图进行两次解码,得到解码后的特征图,也即输出特征F final,其中,
,
需要说明的是,双卷积解码头包括两个深度可分离卷积层,深度可分离卷积为卷积核大小为3×3的深度可分离卷积。例如,注意力解码子单元的数量可以为4个,与标签监督模块的数量一致。
进一步地,每个注意力解码子单元又包括依次连接的双线性插值模块、通道拼接模块、深度可分离卷积层和三元组注意力提取模块。如图3所示,以一个注意力解码子单元进行说明,双线性插值模块接收上一个三元组注意力提取模块输出的具有空间与通道之间第一预设目标交叉维度信息的解码特征图,并对该特征图进行上采样,例如,给定输入特征F in,通过双线性插值对特征图进行上采样,得到输出特征F out,其中,
,
。
需要说明的是,双线性插值是一种常用的图像插值方法,用于在已知离散采样点上估算其他位置的像素值,双线性插值的原理是基于线性插值的思想,但在两个维度上进行插值:
,
其中,P表示待插值点,Q表示四个定位点,w表示待插值点与四个定位点的线性插值权重。在每次上采样后,通过卷积核大小为3×3的深度卷积层对特征进行压缩,得到的上采样特征图F outi,其中,
,
,
其中,F ini表示输入特征图,f 3×3表示卷积核大小为3的深度可分离卷积,f bilinear表示插值函数。
进一步地,通过上采样得到的解码特征图确定注意力解码子单元对应的具有标签信息的特征图,基于注意力解码子单元中的通道拼接模块对具有标签信息的特征图和解码特征图进行通道拼接,得到拼接后的特征图,利用注意力解码子单元中的深度可分离卷积层对拼接后的特征图的通道进行扩宽,得到扩宽通道后的特征图,利用注意力解码子单元中的三元组注意力提取模块对扩宽通道后的特征图进行处理,得到具有空间与通道之间第二预设目标交叉维度信息的解码特征图。
需要说明的是,上述以一个注意力解码子单元为例来说明,这个注意力解码子单元可以为第一个,也可以为第二个,也可以为第三个等等,上述的第二预设目标交叉维度信息的信息量一定大于第一预设目标交叉维度信息的信息量。
206、利用sigmoid函数对解码后的特征图进行处理,得到具有红外弱小目标信息的检测结果。
对上述实施例进行总结,如图6所示,对于输入的红外图像,通过双卷积编码头对红外图像的特征进行两次编码,得到第一中间特征图,之后采用三元组注意力(TRA)提取模块进行注意力特征的提取,得到具有丰富通道与空间之间维度交叉特征的特征图,一方面将该特征图输出,另一方面作为最大池化层的输入,采用最大池化层对该特征图进行下采样,得到通道进一步扩宽的特征图,重复三元组注意力(TRA)提取模块的注意力特征提取与最大池化层的下采样,总计4次,通过每次的三元组注意力(TRA)提取模块的注意力特征提取与最大池化层的下采样,输出4个具有丰富空间与通道之间交叉维度信息的特征图;这4个特征图作为标签监督单元的输入,通过标签监督单元获得4个具有丰富标签信息的特征图,而在最后一次重复的最大池化层的下采样之后,输出具有目标通道数的特征图,这个特征图输入转换三元组注意力(TRA-1)提取模块,通过这个转换三元组注意力提取模块进行进一步注意力特征提取,得到中转特征图;之后,通过双线性插值模块对中转特征图进行上采样,得到解码特征图,通过通道拼接模块将解码特征图和对应的具有丰富标签信息的特征图进行通道拼接,得到拼接后的特征图,再利用深度可分离卷积层对拼接后的特征图进行进一步通道扩宽,得到扩宽通道后的特征图,利用三元组注意力(TRA)提取模块对扩宽通道后的特征图进行进一步注意力特征提取,得到具有丰富空间与通道之间交叉维度信息的特征图,重复双线性插值模块的上采样、通道拼接模块的通道拼接、三元组注意力(TRA)提取模块的注意力特征提取,总计4次,最终输出具有空间与通道之间最终交叉维度信息的目标解码特征图,利用双卷积解码头对目标解码特征图进行两次解码,得到解码后的特征图。最后利用sigmoid函数对解码后的特征图进行处理,得到具有红外弱小目标信息的检测结果。
本申请实施例提供的方法,通过目标检测算法中的基于深度可分离卷积的注意力编码单元对红外图像的特征进行交替编码,以进行特征增强和信息聚合,并利用标签监督单元将特征图与标签进行融合,增加特征图的语义信息以完成深度的标签监督,之后通过基于深度可分离卷积的注意力解码单元进行交替解码,进一步扩宽特征图的通道,以及进一步丰富通道与空间之间的关联性,有效聚合编码和解码过程中的远距离上下文依赖,最后得到具有丰富语义信息、丰富通道与空间之间的关联性和丰富通道信息的最终特征图,再通过sigmoid函数判断目标位置并输出包含目标位置的检测结果,通过上述过程可以准确识别出红外图像中的红外弱小目标,进而有效提高了对红外图像中红外弱小目标的识别精度。
进一步地,作为图1所述方法的具体实现,如图7A所示,本发明实施例提供了一种目标检测装置,包括:获取模块701、编码模块702、融合模块703、解码模块704和处理模块705。
该获取模块701,用于响应于目标检测请求,获取所述目标检测请求携带的红外图像,以及确定目标检测算法,所述目标检测算法包括依次连接的基于深度可分离卷积的注意力编码单元、标签监督单元、基于深度可分离卷积的注意力解码单元和sigmoid函数,所述红外图像包括红外弱小目标;
该编码模块702,用于根据所述基于深度可分离卷积的注意力编码单元对所述红外图像的特征进行交替编码,得到具有通道与空间之间交叉维度信息的第一特征图,以及具有目标通道数的第二特征图;
该融合模块703,用于基于所述标签监督单元对所述第一特征图与标签进行融合,得到具有标签信息的第三特征图;
该解码模块704,用于基于所述具有标签信息的第三特征图和所述具有目标通道数的第二特征图利用所述基于深度可分离卷积的注意力解码单元进行交替解码,得到解码后的特征图;
该处理模块705,用于利用所述sigmoid函数对所述解码后的特征图进行处理,得到具有红外弱小目标信息的检测结果。
在具体的应用场景中,该编码模块702,还用于所述基于深度可分离卷积的注意力编码单元包括双卷积编码头、多个注意力编码子单元,所述双卷积编码头与所述多个注意力编码子单元中的第一个注意力编码子单元的输入端连接,所述多个注意力编码子单元中每个注意力编码子单元与其相邻的注意力编码子单元连接;所述根据所述基于深度可分离卷积的注意力编码单元对所述红外图像的特征进行交替编码,得到具有通道与空间之间交叉维度信息的第一特征图,以及具有目标通道数的第二特征图,包括:利用所述双卷积编码头对所述红外图像进行两次编码,得到具有第一通道数的第一中间特征图,其中,所述双卷积编码头包括两个深度可分离卷积层;基于所述多个注意力编码子单元中的第一个注意力编码子单元对所述第一中间特征图进行处理,得到具有第二通道数的第二中间特征图输入至第二个注意力编码子单元中,以及得到具有通道与空间之间第一交叉维度信息的第一输出特征图,继续利用所述第二个注意力编码子单元对所述第二中间特征图进行处理,得到具有第三通道数的第三中间特征图,以及得到具有通道与空间之间第二交叉维度信息的第二输出特征图,重复上述操作,直至所述多个注意力编码子单元中的最后一个注意力编码子单元完成处理任务;确定所述最后一个注意力编码子单元输出的具有目标通道数的最终中间特征图为所述第二特征图;基于每个注意力编码子单元输出的具有通道与空间之间交叉维度信息的输出特征图确定所述第一特征图。
在具体的应用场景中,该编码模块702,还用于每个注意力编码子单元包括依次连接的三元组注意力提取模块、最大池化层、深度可分离卷积层;对每个注意力编码子单元执行以下操作:基于注意力编码子单元中的三元组注意力提取模块对输入的具有第一预设通道数的中间特征图进行处理,得到具有通道与空间之间交叉维度信息的特征图,将所述具有通道与空间之间交叉维度信息的特征图作为输出特征图,以及利用所述注意力编码子单元中的最大池化层对所述具有通道与空间之间交叉维度信息的特征图进行下采样,得到变换尺寸的特征图,通过所述注意力编码子单元中的深度可分离卷积层将所述变换尺寸的特征图的通道进行扩宽,得到具有第二预设通道数的中间特征图,所述第一预设通道数小于所述第二预设通道数。
在具体的应用场景中,该融合模块703,还用于所述标签监督单元包括多个标签监督模块;所述基于所述标签监督单元对所述第一特征图与标签进行融合,得到具有标签信息的第三特征图,包括:从所述第一特征图提取多个具有通道与空间之间交叉维度信息的输出特征图,其中,每个输出特征图作为一标签监督模块的输入特征图;对每个标签监督模块执行以下操作:确定标签监督模块对应的输入标签,以及确定所述标签监督模块对应的输入特征图,基于所述标签监督模块对所述输入标签和所述输入特征图进行融合,得到具有标签信息的特征图,其中,所述标签监督模块对应的输入标签与所述标签监督模块上一相邻的标签监督模块对应的输入标签具有关联关系;将多个具有标签信息的特征图进行组合,得到所述第三特征图。
在具体的应用场景中,该解码模块704,还用于所述基于深度可分离卷积的注意力解码单元包括转换三元组注意力提取模块,多个注意力解码子单元、双卷积解码头,所述多个注意力解码子单元的输入端与所述转换三元组注意力提取模块连接,所述多个注意力解码子单元的输出端与所述双卷积解码头连接,所述多个注意力解码子单元中每个注意力解码子单元与其相邻的注意力解码子单元连接;所述基于所述具有标签信息的第三特征图和所述具有目标通道数的第二特征图利用所述基于深度可分离卷积的注意力解码单元进行交替解码,得到解码后的特征图,包括:利用所述转换三元组注意力提取模块对所述具有目标通道数的第二特征图进行处理,得到具有空间与通道之间中转交叉维度信息的中转特征图;从所述第三特征图中提取多个具有标签信息的特征图,每个具有标签信息的特征图作为一注意力解码子单元的输入特征图;基于所述多个注意力解码子单元中的第一个注意力解码子单元对所述中转特征图和对应的具有标签信息的特征图进行处理,得到具有空间与通道之间第一目标交叉维度信息的第一解码特征图,继续利用与所述第一个注意力解码子单元相邻的注意力解码子单元对所述第一解码特征图和对应的具有标签信息的特征图进行处理,得到具有空间与通道之间第二目标交叉维度信息的第二解码特征图,重复上述操作,直至所述多个注意力解码子单元中的最后一个注意力解码子单元完成处理任务;确定所述最后一个注意力解码子单元输出的具有空间与通道之间最终交叉维度信息的目标解码特征图,并利用所述双卷积解码头对所述目标解码特征图进行两次解码,得到所述解码后的特征图,其中,所述双卷积解码头包括两个深度可分离卷积层。
在具体的应用场景中,该解码模块704,还用于每个注意力解码子单元包括依次连接的双线性插值模块、通道拼接模块、深度可分离卷积层和三元组注意力提取模块;对每个注意力解码子单元执行以下操作:基于注意力解码子单元中的双线性插值模块对与上一相邻三元组注意力提取模块输出的具有空间与通道之间第一预设目标交叉维度信息的解码特征图进行上采样,得到解码特征图,确定所述注意力解码子单元对应的具有标签信息的特征图,基于所述注意力解码子单元中的通道拼接模块对所述具有标签信息的特征图和所述解码特征图进行通道拼接,得到拼接后的特征图,利用所述注意力解码子单元中的深度可分离卷积层对所述拼接后的特征图的通道进行扩宽,得到扩宽通道后的特征图,利用所述注意力解码子单元中的三元组注意力提取模块对所述扩宽通道后的特征图进行处理,得到具有空间与通道之间第二预设目标交叉维度信息的解码特征图,所述第二预设目标交叉维度信息的信息量大于所述第一预设目标交叉维度信息的信息量。
在具体的应用场景中,如图7B所示,所述装置还包括:训练模块706。
该训练模块706,用于确定初始目标检测算法,所述初始目标检测算法包括依次连接的基于深度可分离卷积的初始注意力编码单元、初始标签监督单元、基于深度可分离卷积的初始注意力解码单元和sigmoid函数;获取图像训练集,所述图像训练集包括多个训练图像,且每个训练图像包括至少一个红外弱小目标;采用所述图像训练集对所述初始目标检测算法中的所述基于深度可分离卷积的初始注意力编码单元、所述初始标签监督单元、所述基于深度可分离卷积的初始注意力解码单元进行训练,得到所述目标检测算法,所述目标检测算法包括依次连接的训练后的基于深度可分离卷积的注意力编码单元、训练后的标签监督单元、训练后的基于深度可分离卷积的注意力解码单元和所述sigmoid函数。
本申请实施例提供的装置,通过目标检测算法中的基于深度可分离卷积的注意力编码单元对红外图像的特征进行交替编码,以进行特征增强和信息聚合,并利用标签监督单元将特征图与标签进行融合,增加特征图的语义信息以完成深度的标签监督,之后通过基于深度可分离卷积的注意力解码单元进行交替解码,进一步扩宽特征图的通道,以及进一步丰富通道与空间之间的关联性,有效聚合编码和解码过程中的远距离上下文依赖,最后得到具有丰富语义信息、丰富通道与空间之间的关联性和丰富通道信息的最终特征图,再通过sigmoid函数判断目标位置并输出包含目标位置的检测结果,通过上述过程可以准确识别出红外图像中的红外弱小目标,进而有效提高了对红外图像中红外弱小目标的识别精度。
需要说明的是,本发明实施例提供的一种目标检测装置所涉及各功能单元的其他相应描述,可以参考图1和图7A、图7B中的对应描述,此处不再赘述。
在示例性实施例中,参见图8,还提供了一种计算机设备,该计算机设备包括总线、处理器、存储器和通信接口,还可以包括输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的目标检测方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的目标检测方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (9)
1.一种目标检测方法,其特征在于,包括:
响应于目标检测请求,获取所述目标检测请求携带的红外图像,以及确定目标检测算法,所述目标检测算法包括依次连接的基于深度可分离卷积的注意力编码单元、标签监督单元、基于深度可分离卷积的注意力解码单元和sigmoid函数,所述红外图像包括红外弱小目标;
根据所述基于深度可分离卷积的注意力编码单元对所述红外图像的特征进行交替编码,得到具有通道与空间之间交叉维度信息的第一特征图,以及具有目标通道数的第二特征图;
基于所述标签监督单元对所述第一特征图与标签进行融合,得到具有标签信息的第三特征图;
基于所述具有标签信息的第三特征图和所述具有目标通道数的第二特征图利用所述基于深度可分离卷积的注意力解码单元进行交替解码,得到解码后的特征图;
利用所述sigmoid函数对所述解码后的特征图进行处理,得到具有红外弱小目标信息的检测结果;
所述标签监督单元包括多个标签监督模块,所述基于所述标签监督单元对所述第一特征图与标签进行融合,得到具有标签信息的第三特征图,包括:
从所述第一特征图提取多个具有通道与空间之间交叉维度信息的输出特征图,其中,每个输出特征图作为一标签监督模块的输入特征图;
对每个标签监督模块执行以下操作:确定标签监督模块对应的输入标签,以及确定所述标签监督模块对应的输入特征图,基于所述标签监督模块对所述输入标签和所述输入特征图进行融合,得到具有标签信息的特征图,其中,所述标签监督模块对应的输入标签与所述标签监督模块上一相邻的标签监督模块对应的输入标签具有关联关系;
将多个具有标签信息的特征图进行组合,得到所述第三特征图。
2.根据权利要求1所述的目标检测方法,其特征在于,所述基于深度可分离卷积的注意力编码单元包括双卷积编码头、多个注意力编码子单元,所述双卷积编码头与所述多个注意力编码子单元中的第一个注意力编码子单元的输入端连接,所述多个注意力编码子单元中每个注意力编码子单元与其相邻的注意力编码子单元连接;
所述根据所述基于深度可分离卷积的注意力编码单元对所述红外图像的特征进行交替编码,得到具有通道与空间之间交叉维度信息的第一特征图,以及具有目标通道数的第二特征图,包括:
利用所述双卷积编码头对所述红外图像进行两次编码,得到具有第一通道数的第一中间特征图,其中,所述双卷积编码头包括两个深度可分离卷积层;
基于所述多个注意力编码子单元中的第一个注意力编码子单元对所述第一中间特征图进行处理,得到具有第二通道数的第二中间特征图输入至第二个注意力编码子单元中,以及得到具有通道与空间之间第一交叉维度信息的第一输出特征图,继续利用所述第二个注意力编码子单元对所述第二中间特征图进行处理,得到具有第三通道数的第三中间特征图,以及得到具有通道与空间之间第二交叉维度信息的第二输出特征图,重复上述操作,直至所述多个注意力编码子单元中的最后一个注意力编码子单元完成处理任务;
确定所述最后一个注意力编码子单元输出的具有目标通道数的最终中间特征图为所述第二特征图;
基于每个注意力编码子单元输出的具有通道与空间之间交叉维度信息的输出特征图确定所述第一特征图。
3.根据权利要求2所述的目标检测方法,其特征在于,每个注意力编码子单元包括依次连接的三元组注意力提取模块、最大池化层、深度可分离卷积层;
对每个注意力编码子单元执行以下操作:基于注意力编码子单元中的三元组注意力提取模块对输入的具有第一预设通道数的中间特征图进行处理,得到具有通道与空间之间交叉维度信息的特征图,将所述具有通道与空间之间交叉维度信息的特征图作为输出特征图,以及利用所述注意力编码子单元中的最大池化层对所述具有通道与空间之间交叉维度信息的特征图进行下采样,得到变换尺寸的特征图,通过所述注意力编码子单元中的深度可分离卷积层将所述变换尺寸的特征图的通道进行扩宽,得到具有第二预设通道数的中间特征图,所述第一预设通道数小于所述第二预设通道数。
4.根据权利要求1所述的目标检测方法,其特征在于,所述基于深度可分离卷积的注意力解码单元包括转换三元组注意力提取模块,多个注意力解码子单元、双卷积解码头,所述多个注意力解码子单元的输入端与所述转换三元组注意力提取模块连接,所述多个注意力解码子单元的输出端与所述双卷积解码头连接,所述多个注意力解码子单元中每个注意力解码子单元与其相邻的注意力解码子单元连接;
所述基于所述具有标签信息的第三特征图和所述具有目标通道数的第二特征图利用所述基于深度可分离卷积的注意力解码单元进行交替解码,得到解码后的特征图,包括:
利用所述转换三元组注意力提取模块对所述具有目标通道数的第二特征图进行处理,得到具有空间与通道之间中转交叉维度信息的中转特征图;
从所述第三特征图中提取多个具有标签信息的特征图,每个具有标签信息的特征图作为一注意力解码子单元的输入特征图;
基于所述多个注意力解码子单元中的第一个注意力解码子单元对所述中转特征图和对应的具有标签信息的特征图进行处理,得到具有空间与通道之间第一目标交叉维度信息的第一解码特征图,继续利用与所述第一个注意力解码子单元相邻的注意力解码子单元对所述第一解码特征图和对应的具有标签信息的特征图进行处理,得到具有空间与通道之间第二目标交叉维度信息的第二解码特征图,重复上述操作,直至所述多个注意力解码子单元中的最后一个注意力解码子单元完成处理任务;
确定所述最后一个注意力解码子单元输出的具有空间与通道之间最终交叉维度信息的目标解码特征图,并利用所述双卷积解码头对所述目标解码特征图进行两次解码,得到所述解码后的特征图,其中,所述双卷积解码头包括两个深度可分离卷积层。
5.根据权利要求4所述的目标检测方法,其特征在于,每个注意力解码子单元包括依次连接的双线性插值模块、通道拼接模块、深度可分离卷积层和三元组注意力提取模块;
对每个注意力解码子单元执行以下操作:基于注意力解码子单元中的双线性插值模块对与上一相邻三元组注意力提取模块输出的具有空间与通道之间第一预设目标交叉维度信息的解码特征图进行上采样,得到解码特征图,确定所述注意力解码子单元对应的具有标签信息的特征图,基于所述注意力解码子单元中的通道拼接模块对所述具有标签信息的特征图和所述解码特征图进行通道拼接,得到拼接后的特征图,利用所述注意力解码子单元中的深度可分离卷积层对所述拼接后的特征图的通道进行扩宽,得到扩宽通道后的特征图,利用所述注意力解码子单元中的三元组注意力提取模块对所述扩宽通道后的特征图进行处理,得到具有空间与通道之间第二预设目标交叉维度信息的解码特征图,所述第二预设目标交叉维度信息的信息量大于所述第一预设目标交叉维度信息的信息量。
6.根据权利要求1所述的目标检测方法,其特征在于,所述确定目标检测算法之前,所述方法还包括:
确定初始目标检测算法,所述初始目标检测算法包括依次连接的基于深度可分离卷积的初始注意力编码单元、初始标签监督单元、基于深度可分离卷积的初始注意力解码单元和sigmoid函数;
获取图像训练集,所述图像训练集包括多个训练图像,且每个训练图像包括至少一个红外弱小目标;
采用所述图像训练集对所述初始目标检测算法中的所述基于深度可分离卷积的初始注意力编码单元、所述初始标签监督单元、所述基于深度可分离卷积的初始注意力解码单元进行训练,得到所述目标检测算法,所述目标检测算法包括依次连接的训练后的基于深度可分离卷积的注意力编码单元、训练后的标签监督单元、训练后的基于深度可分离卷积的注意力解码单元和所述sigmoid函数。
7.一种目标检测装置,其特征在于,包括:
获取模块,用于响应于目标检测请求,获取所述目标检测请求携带的红外图像,以及确定目标检测算法,所述目标检测算法包括依次连接的基于深度可分离卷积的注意力编码单元、标签监督单元、基于深度可分离卷积的注意力解码单元和sigmoid函数,所述红外图像包括红外弱小目标;
编码模块,用于根据所述基于深度可分离卷积的注意力编码单元对所述红外图像的特征进行交替编码,得到具有通道与空间之间交叉维度信息的第一特征图,以及具有目标通道数的第二特征图;
融合模块,用于基于所述标签监督单元对所述第一特征图与标签进行融合,得到具有标签信息的第三特征图;
解码模块,用于基于所述具有标签信息的第三特征图和所述具有目标通道数的第二特征图利用所述基于深度可分离卷积的注意力解码单元进行交替解码,得到解码后的特征图;
处理模块,用于利用所述sigmoid函数对所述解码后的特征图进行处理,得到具有红外弱小目标信息的检测结果;
所述标签监督单元包括多个标签监督模块;所述融合模块还用于:从所述第一特征图提取多个具有通道与空间之间交叉维度信息的输出特征图,其中,每个输出特征图作为一标签监督模块的输入特征图;对每个标签监督模块执行以下操作:确定标签监督模块对应的输入标签,以及确定所述标签监督模块对应的输入特征图,基于所述标签监督模块对所述输入标签和所述输入特征图进行融合,得到具有标签信息的特征图,其中,所述标签监督模块对应的输入标签与所述标签监督模块上一相邻的标签监督模块对应的输入标签具有关联关系;将多个具有标签信息的特征图进行组合,得到所述第三特征图。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410619491.1A CN118247492B (zh) | 2024-05-20 | 2024-05-20 | 目标检测方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410619491.1A CN118247492B (zh) | 2024-05-20 | 2024-05-20 | 目标检测方法、装置、计算机设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118247492A CN118247492A (zh) | 2024-06-25 |
CN118247492B true CN118247492B (zh) | 2024-08-30 |
Family
ID=91562594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410619491.1A Active CN118247492B (zh) | 2024-05-20 | 2024-05-20 | 目标检测方法、装置、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118247492B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115757844A (zh) * | 2022-11-28 | 2023-03-07 | 武汉理工大学重庆研究院 | 一种医学图像检索网络训练方法、应用方法及电子设备 |
CN118015332A (zh) * | 2024-01-03 | 2024-05-10 | 河海大学 | 一种遥感影像显著性目标检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784897B (zh) * | 2021-01-20 | 2024-03-26 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备和存储介质 |
CN114092716B (zh) * | 2021-11-30 | 2024-07-26 | 深圳万兴软件有限公司 | 基于U2net的目标检测方法、系统、计算机设备及其存储介质 |
-
2024
- 2024-05-20 CN CN202410619491.1A patent/CN118247492B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115757844A (zh) * | 2022-11-28 | 2023-03-07 | 武汉理工大学重庆研究院 | 一种医学图像检索网络训练方法、应用方法及电子设备 |
CN118015332A (zh) * | 2024-01-03 | 2024-05-10 | 河海大学 | 一种遥感影像显著性目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118247492A (zh) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder | |
US20220114750A1 (en) | Map constructing method, positioning method and wireless communication terminal | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN115937655A (zh) | 多阶特征交互的目标检测模型及其构建方法、装置及应用 | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
CN109635662A (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN108038486A (zh) | 一种文字检测方法 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN116311214B (zh) | 车牌识别方法和装置 | |
CN111476133A (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN116309536A (zh) | 一种路面裂缝检测方法及存储介质 | |
CN113781504A (zh) | 一种基于边界引导的道路场景语义分割方法 | |
CN117314938B (zh) | 一种基于多尺度特征融合译码的图像分割方法及装置 | |
CN113393435A (zh) | 一种基于动态上下文感知滤波网络的视频显著性检测方法 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN118247492B (zh) | 目标检测方法、装置、计算机设备及可读存储介质 | |
CN116758092A (zh) | 图像分割方法、装置、电子设备及存储介质 | |
CN111539435A (zh) | 语义分割模型构建方法及图像分割方法、设备、存储介质 | |
CN114429524B (zh) | 单目视觉下的三维目标检测模型的构建方法及检测方法 | |
Shi et al. | AdaFI-FCN: an adaptive feature integration fully convolutional network for predicting driver’s visual attention | |
CN114120076A (zh) | 基于步态运动估计的跨视角视频步态识别方法 | |
CN113298814A (zh) | 一种基于渐进指导融合互补网络的室内场景图像处理方法 | |
CN115988260A (zh) | 一种图像处理方法、装置及电子设备 | |
CN112733934A (zh) | 复杂环境下的多模态特征融合道路场景语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |