CN117409190B - 一种实时红外图像目标检测方法、装置、设备及存储介质 - Google Patents
一种实时红外图像目标检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117409190B CN117409190B CN202311694194.5A CN202311694194A CN117409190B CN 117409190 B CN117409190 B CN 117409190B CN 202311694194 A CN202311694194 A CN 202311694194A CN 117409190 B CN117409190 B CN 117409190B
- Authority
- CN
- China
- Prior art keywords
- encoder
- image
- convolution
- infrared image
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 111
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 230000002776 aggregation Effects 0.000 claims abstract description 67
- 238000004220 aggregation Methods 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000012795 verification Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 239000002131 composite material Substances 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 239000000284 extract Substances 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种实时红外图像目标检测方法、装置、设备及存储介质。检测方法包括以下步骤:准备训练数据集,对数据集进行划分并且预处理;构建包括三个编码器、信息聚合模块和解码器的网络模型;利用准备好的训练数据集对网络模型进行训练,直至达到预设阈值;利用准备好的验证数据集对网络模型进行再次训练和微调,获得最终模型;将获得最终模型的参数进行固化,保存模型。本发明新型的神经网络框架解决了现有的红外图像目标检测精度不够高以及检测实时性不强的问题,使得红外图像目标检测能够在保持较高检测精度的同时具有更快的检测速度,更符合实际应用要求。
Description
技术领域
本发明涉及红外图像目标检测技术领域,尤其涉及一种实时红外图像目标检测方法、装置、设备及存储介质。
背景技术
红外图像目标检测是一种利用红外传感器获取的红外图像数据进行目标识别和检测的技术。与可见光图像相比,红外图像能够在低照度、夜间或恶劣天气条件下提供更好的目标检测性能。红外图像目标检测具有广泛的应用领域,包括军事、安防、航空航天和环境监测等。在军事侦察和安防监控等应用场景中,目标检测的实时性是至关重要的。然而,目前的红外图像目标检测方法难以在运算快速性和性能鲁棒性之间取得平衡。因此,如何在保持准确性的同时提高算法的实时性仍然是一项挑战。
中国授权公告号为“CN116012659B”,名称为“一种红外目标检测方法、装置、电子设备及存储介质”,该方法首先对红外图像进行目标增强,检测增强图像的候选区域,计算候选区域的特征向量,将特征向量输入至预先构建的分类网络,得到候选区域为红外目标的概率和候选区域为非红外目标的概率;该目标检测方法采用目标增强的方法提高检测准确率,存在检测效率低的问题。
综上所述,如何设计一种新型的检测方法,以解决了现有的红外图像目标检测精度不够高以及检测实时性不强的问题,是目前本领域技术人员亟待解决的问题。
发明内容
本发明实施例的主要目的在于提出一种实时红外图像目标检测方法、装置、设备及存储介质,旨在设计一种新型的检测方法,使得红外图像目标检测能够在保持较高检测精度的同时具有更快的检测速度。
本发明解决上述技术问题的技术方案是,提供一种实时红外图像目标检测方法,包括以下步骤:
1)准备训练数据:
将数据集划分为训练集、验证集和测试集;
对训练集中的原图像和其对应标签进行预处理;
2)构建网络模型:
网络模型包括三个编码器、信息聚合模块和解码器;
三个编码器分别用于提取图像的边缘信息、细节信息和语义信息;信息聚合模块用于有效地在网络中多个尺度上聚合三个编码器提取的特征图;解码器用于输出检测的结果图;
3)训练网络模型:
选择损失函数开始网络训练,最小化输出检测结果框与真实标签的损失函数值,直到训练次数达到初始设定阈值或损失函数的值达到预设范围时,网络模型训练完成,保存网络模型参数;
4)微调网络模型:
使用验证集对网络模型进行调整,优化网络模型参数。
进一步地,所述准备训练数据的步骤中,
数据集为红外图像FLIR数据集,对红外图像经过高斯拉普拉斯算子得到梯度图像,对红外图像进行降采样操作得到原图像的1/2分辨率图,通过裁剪和尺寸变化等预处理将训练图像尺寸调整为416416。
进一步地,所述构建网络模型的步骤中,
三个编码器分别为第一编码器、第二编码器、第三编码器,第一编码器由卷积块一、卷积块二和卷积三组成;第二编码器由卷积块四、卷积块五和卷积六组成;第三编码器由卷积块七、卷积块八、卷积块九、卷积块十和卷积块十一和一个上采样层组成;
其中,第三编码器中的上采样层是亚像素卷积上采样;所有卷积块的组成结构相同,包括卷积层、归一化层和激活函数。
进一步地,所述构建网络模型的步骤中,所述信息聚合模块由聚合模块一、聚合模块二、聚合模块三和聚合模块四组成;所有聚合模块组成结构相同,由全局平均池化、空洞卷积层、11卷积层、激活函数、S函数、连接操作、矩阵乘法操作和矩阵对应元素相乘操作组成。
进一步地,所述构建网络模型的步骤中,所述解码器由yolov5网络的预训练完成的检测头组成;检测头由一组包含卷积层和激活函数的卷积块和全连接层组成;所有卷积层的卷积核大小为nn,所有激活函数均使用线性整流函数。
进一步地,所述训练网络模型的步骤中,
所述损失函数为复合损失函数,包括目标检测位置损失、目标检测存在性损失、目标分类损失和候选框坐标损失;位置损失采用均方误差作为位置偏差度量,目标存在性损失采用二元交叉熵损失度量,目标分类损失采用多类别交叉熵损失度量,候选框坐标损失采用均方误差度量,总损失由上述损失加权组合来计算。
进一步地,所述微调网络模型步骤之后还包括:
5)固化网络模型:
固定网络模型的网络参数,确定最终的红外图像目标检测模型.
为解决上述技术问题,本发明还提出一种实时红外图像目标检测装置,所述实时红外图像目标检测装置包括:
图像获取模块:用于处理输入的原红外图像,获取后续模块可处理的图像;获取方式其一是对输入原红外图像应用高斯拉普拉斯算子获取梯度图,其二是对输入原红外图像进行下采样操作,获取其1/2分辨率图;
图像处理模块:用于处理提取红外图像中的目标特征;包括第一编码器、第二编码器、第三编码器及信息聚合模块,第一编码器处理提取图像获取模块输出的梯度图,第二编码器处理提取原图像,第三编码器处理提取图像获取模块输出的1/2分辨率图,信息聚合模块在多个不同尺度上聚合三个编码器提取的红外图像目标特征信息;
图像输出模块:用于输出预测特征图;包括解码器。
为解决上述技术问题,本发明还提出一种计算机设备,所述计算机设备包括输入/输出单元、中央处理器、存储器,以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的一种实时红外图像目标检测方法的步骤。
为解决上述技术问题,本发明还提出一种计算机存储介质,所述计算机存储介质存储有计算机可执行程序代码,所述代码运行时,实现如上所述的一种实时红外图像目标检测方法的步骤。
与现有技术相比,本发明提供了一种实时红外图像目标检测方法、装置、设备及存储介质,具备以下有益效果:
1、本发明提供的一种实时红外图像目标检测方法,设计了一种信息聚合模块,在聚合模块中使用了注意力机制设计,用以捕获全局特征信息后为重要通道分配更高权重信息,在保留各自特性的前提下,从多个尺度上聚合了所输入支路的特征图,提高了网络的特征提取能力,从而有效提高检测结果的精度;
2、本发明提供的一种实时红外图像目标检测方法,在第三编码器的上采样层采用亚像素卷积上采样操作,可以更平滑地恢复上采样图像的细节,减少失真和模糊,提升特征图的表示能力,从而提高检测的精度;
3、本发明提供的一种实时红外图像目标检测方法,在设计的卷积块中添加跳跃连接,减少了网络参数,从而使得整个网络的深度变浅且更为轻量,有助于提升检测过程中的网络推理速度;
4、本发明提供的一种实时红外图像目标检测装置,在图像处理模块中设计了一种新型的多支路结构的红外图像目标检测框架,充分利用了输入图像的梯度图像信息和原图像的细节信息来提高检测精度,以及利用了处理低分辨率图像的快速性,在保证检测效果的同时,提升了红外图像目标检测的检测速度;
5、本发明的计算机可读存储介质,由于具有可以在执行时运行上述方法的代码,因而也具有上述方法具有的优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明所述的实时红外图像目标检测方法的流程图;
图2为本发明所述的实时红外图像目标检测方法的网络结构图;
图3为本发明所述的卷积块的结构图;
图4为本发明所述的信息聚合模块的网络结构图;
图5为本发明和现有技术的相关指标对比表;
图6为本发明所述的实时红外图像目标检测装置的示意图;
图7为本发明所述的实时红外图像目标检测装置的处理流程示意图。
附图标号说明:900、计算机设备;901、中央处理器;902、只读存储器;903、随机存储器;904、总线;905、输入/输出接口;906、输入部分;907、输出部分;908、存储部分;909、通信部分;910、驱动器;911、可拆卸介质。
具体实施方式
下面将结合本发明说明书附图中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“若干”、“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提出一种实时红外图像目标检测方法,旨在设计一种新型的检测方法、装置、设备及存储介质,使得红外图像目标检测能够在保持较高检测精度的同时具有更快的检测速度。
下面将在具体实施例中对本发明提出的实时红外图像目标检测方法进行说明:
实施例1:在本实施例的技术方案中,如图1所示,一种实时红外图像目标检测方法,包括以下步骤:
步骤1:准备训练数据:
将数据集划分为训练集、验证集和测试集;
对训练集中的原图像和其对应标签进行预处理;
可以理解地,选择红外图像数据集FLIR,将数据集划分为训练集、验证集和测试集;对红外图像经过高斯拉普拉斯算子得到梯度图像,对红外图像进行降采样操作得到原图像的1/2分辨率图,通过裁剪和尺寸变化等预处理将所有训练图像尺寸调整为,完成准备训练数据。
步骤2:构建网络模型:
网络模型包括三个编码器、信息聚合模块和解码器;
三个编码器分别用于提取图像的边缘信息、细节信息和语义信息;信息聚合模块用于有效地在网络中多个尺度上聚合三个编码器提取的特征图;解码器用于输出检测的结果图;
步骤3:训练网络模型:
选择损失函数开始网络训练,最小化输出检测结果框与真实标签的损失函数值,直到训练次数达到初始设定阈值或损失函数的值达到预设范围时,网络模型训练完成,保存网络模型参数;
可以理解地,选择复合损失,包括目标检测位置损失、目标检测存在性损失、目标分类损失和候选框坐标损失,其中位置损失采用均方误差作为位置偏差度量,目标存在性损失采用二元交叉熵损失度量,目标分类损失采用多类别交叉熵损失度量,候选框坐标损失采用均方误差度量,总损失由上述损失加权组合来计算。开始网络训练,最小化输出检测结果框与真实标签的损失函数值,直到训练次数达到初始设定阈值或损失函数的值达到预设范围,即认为网络模型已训练完成,保存网络模型参数。
步骤4:微调网络模型:
使用验证集对网络模型进行调整,优化网络模型参数。
进一步地,使用验证集对网络模型进行调整,优化网络模型参数,进一步提高目标检测性能,得到能够实现最优检测效果的网络模型
进一步地,所述准备训练数据的步骤中,
数据集为红外图像FLIR数据集,对红外图像经过高斯拉普拉斯算子得到梯度图像,对红外图像进行降采样操作得到原图像的1/2分辨率图,通过裁剪和尺寸变化等预处理将训练图像尺寸调整为416416。
进一步地,所述构建网络模型的步骤中,
三个编码器分别为第一编码器、第二编码器、第三编码器,第一编码器由卷积块一、卷积块二和卷积三组成;第二编码器由卷积块四、卷积块五和卷积六组成;第三编码器由卷积块七、卷积块八、卷积块九、卷积块十和卷积块十一和一个上采样层组成;
其中,第三编码器中的上采样层是亚像素卷积上采样;所有卷积块的组成结构相同,包括卷积层、归一化层和激活函数。
进一步地,所述构建网络模型的步骤中,所述信息聚合模块由聚合模块一、聚合模块二、聚合模块三和聚合模块四组成;所有聚合模块组成结构相同,由全局平均池化、空洞卷积层、11卷积层、激活函数、S函数、连接操作、矩阵乘法操作和矩阵对应元素相乘操作组成。
进一步地,所述构建网络模型的步骤中,所述解码器由yolov5网络的预训练完成的检测头组成;检测头由一组包含卷积层和激活函数的卷积块和全连接层组成;所有卷积层的卷积核大小为nn,所有激活函数均使用线性整流函数
进一步地,所述训练网络模型的步骤中,
所述损失函数为复合损失函数,包括目标检测位置损失、目标检测存在性损失、目标分类损失和候选框坐标损失;位置损失采用均方误差作为位置偏差度量,目标存在性损失采用二元交叉熵损失度量,目标分类损失采用多类别交叉熵损失度量,候选框坐标损失采用均方误差度量,总损失由上述损失加权组合来计算。
进一步地,所述微调网络模型步骤之后还包括:
步骤5:固化网络模型:
固定网络模型的网络参数,确定最终的红外图像目标检测模型.
为解决上述技术问题,本发明还提出一种实时红外图像目标检测装置,所述实时红外图像目标检测装置包括:
图像获取模块:用于处理输入的原红外图像,获取后续模块可处理的图像;获取方式其一是对输入原红外图像应用高斯拉普拉斯算子获取梯度图,其二是对输入原红外图像进行下采样操作,获取其1/2分辨率图;
图像处理模块:用于处理提取红外图像中的目标特征;包括第一编码器、第二编码器、第三编码器及信息聚合模块,第一编码器处理提取图像获取模块输出的梯度图,第二编码器处理提取原图像,第三编码器处理提取图像获取模块输出的1/2分辨率图,信息聚合模块在多个不同尺度上聚合三个编码器提取的红外图像目标特征信息;
图像输出模块:用于输出预测特征图;包括解码器。
为解决上述技术问题,本发明还提出一种计算机设备,所述计算机设备包括输入/输出单元、中央处理器、存储器,以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的一种实时红外图像目标检测方法的步骤。
为解决上述技术问题,本发明还提出一种计算机存储介质,所述计算机可读存储介质存储有计算机可执行程序代码,所述代码运行时,实现如上所述的一种实时红外图像目标检测方法的步骤。
实施例2:如图1所示,一种实时红外图像目标检测方法,该方法具体包括如下步骤:
步骤1,准备训练数据:选择红外图像数据集FLIR,将数据集划分为训练集、验证集和测试集;首先对红外图像经过高斯拉普拉斯算子得到梯度图像,高斯拉普拉斯算子LOG(x,y)的具体计算公式如下所示:
其中,表示当前像素值,/>表示高斯标准差。
再对红外图像进行降采样操作得到原图像的1/2分辨率图,通过裁剪和尺寸变化等预处理将所有训练图像尺寸调整为416416,完成准备训练数据。
步骤2,构建网络模型:如图2所示,网络模型主要包括三个编码器、一个信息聚合模块和一个解码器;三个编码器分别以梯度图像、原图像和原图像的1/2分辨率图像作为输入,三个编码器分别用于提取图像的边缘信息、细节信息和语义信息;信息聚合模块用于从多个尺度上有效聚合三个编码器提取的特征图;解码器由yolov5网络预训练完成的检测头组成,用于输出最终的检测结果。
第一编码器由卷积块一、卷积块二和卷积三组成;第二编码器由卷积块四、卷积块五和卷积六组成;第三编码器由卷积块七、卷积块八、卷积块九、卷积块十和卷积块十一和一个上采样层组成。其中,第三编码器中的上采样层是亚像素卷积上采样;其中,所有卷积块的组成结构相同,如图3所示,卷积块由卷积层一、卷积层二、卷积层三、归一化层一、归一化层二、归一化层三和激活函数组成,其中,所有卷积层的卷积核大小均为33,激活函数为线性整流函数。
信息聚合模块由聚合模块一、聚合模块二、聚合模块三和聚合模块四组成。其中,所有信息聚合模块组成结构相同,如图4所示,两个输入特征在通道维度上进行拼接,然后分别输入两个支路,接着两条支路的输出在通道维度上进行拼接,再经过激活函数后作为权重分别与原输入特征进行矩阵相乘操作,得到两个带有权重的特征图,最终将两个带有权重的特征图进行拼接输出;两条支路中一条支路由全局平均池化、11卷积层一、激活函数和1/>1卷积层二组成,另一条支路由空洞卷积层、全局最大池化、激活函数和1/>1卷积层三组成;捕获全局特征信息后为重要通道分配更高权重信息,在保留两个输入各自特性的前提下有效聚合两种输入特征图,从而有效提升后续检测结果的精度。类似地,各个聚合模块在网络中不同的尺度上均进行同样的操作,从而完成整个多尺度信息聚合的过程。其中,所有卷积层的卷积核大小均为3/>3,激活函数为线性整流函数。
第三编码器的上采样层是亚像素卷积上采样操作,检测头由一组包含卷积层、激活函数的卷积块和全连接层组成。
步骤3,选择复合损失,包括目标检测位置损失、目标检测存在性损失、目标分类损失和候选框坐标损失,其中目标检测位置损失采用均方误差作为位置偏差的度量,目标检测位置损失的具体计算公式如下:
其中,表示格子的数量,/>表示每个格子预测的边界框数,/>是一个指示函数,表示格/>中的边界框/>是否负责检测目标物体,((/>))是预测框的中心坐标,((/>))是真实框的中心坐标。
目标存在性损失用于判断每个格子是否包含目标。使用二元交叉熵损失来度量目标存在性损失,目标存在性损失的具体计算公式如下:
其中,表示格子/>中的边界框/>预测的目标存在性分数,/>是s函数。
目标分类损失负责对目标物体进行分类,使用多类别交叉熵损失来度量分类损失,目标分类损失的具体计算公式如下:
其中,表示类别数量,/>表示格子/>中的边界框/>预测的第/>个类别的概率,/>是真实标签的第/>个类别的概率。
候选框坐标损失用于度量预测框的位置坐标相对于真实框的偏差,使用均方误差来度量位置坐标的损失,候选框坐标损失的具体计算公式如下:
其中,和/>分别表示预测框的宽度和高度,/>和/>示真实框的宽度和高度。
总损失由上述四个部分的损失函数组成,可以通过加权组合来计算,总损失L的具体计算公式如下:
其中,、/>、/>和/>表示不同损失函数的权衡控制参数。
开始网络训练,设定训练次数为500,训练过程的学习率设置为0.001,既能保证网络快速拟合,而不会导致网络过拟合;网络参数优化器选择随机梯度下降算法;损失函数函数值阈值设定为0.005左右,小于0.005就可以认为整个网络的训练已基本完成,保存网络参数。
步骤4,微调网络模型:使用FLIR数据集中验证集对网络模型进行调整,优化网络模型参数,进一步提高目标检测性能,评估其泛化能力,得到能够实现最优检测效果的网络模型。
步骤5,固化网络模型:完成网络模型调整后,固定网络参数,确定最终的红外图像目标检测模型;若后续需要进行红外图像目标检测任务时,可以直接将待检测图像输入至网络模型中,得到检测结果。本发明和现有技术的相关指标对比表如图5所示。从表中可知,本发明提出的方法比现有方法的平均准确度均值高出3%,检测速度提升47%,这些指标也进一步说明了本发明提出的方法具有更好的检测效果。
实施例3:如图6所示,本实施例提供一种实时红外图像目标检测装置,可以执行上述方法的实施例。该装置包括:
图像获取模块:用于处理输入的原红外图像,获取后续模块可处理的图像;获取方式其一是对输入原红外图像应用高斯拉普拉斯算子获取梯度图,其二是对输入原红外图像进行下采样操作,获取其1/2分辨率图;
图像处理模块:用于处理前一模块输出的图像,其结构包括第一编码器、第二编码器、第三编码器和信息聚合模块;具体处理过程为:由第一编码器处理提取的梯度图像,经过三个卷积块的特征提取,第二编码器处理原图像,同样经过三个卷积块的特征提取,对应地,编码器一和编码器二的每个卷积块的输出均分别输出到信息聚合模块中的聚合模块一、聚合模块二和聚合模块三中进行信息聚合。此外,由第三编码器处理1/2分辨率图,经过五个卷积块的特征提取后,再通过一个上采样层输入到聚合模块四,同第一编码器和第二编码器的聚合输出结果进行聚合,作为本模块的输出。
图像输出模块:用于输出预测特征图,其组成为解码器,内部是yolov5的检测头,此模块处理前一模块的输出,输出最终的预测结果图像。
实施例4:本发明提供一种计算机设备,如图7所示,表示一种适于用来实现本申请实施例的电子设备900的结构示意图。
如图7所示,电子设备900包括中央处理器901,其可以根据存储在只读存储器902中的包括所述的一种实时红外图像目标检测等程序或者从存储部分908加载到随机存储器903中的包括所述的一种实时红外图像目标检测等程序而执行技术方案步骤一到五等各种适当的动作和处理。在随机存储器903中,还存储有设备900操作所需的各种程序和数据。输入/输出接口905、中央处理器901、只读存储器902以及随机存储器903均连接到总线904。
输入部分906,包括红外摄像头、键盘、鼠标等;输出部分907,包括阴极射线管、液晶显示器等以及扬声器等;存储部分908,包括硬盘等;通信部分909,包括网络接口卡如LAN卡、调制解调器;驱动器910等均连接到输入/输出接口905;可拆卸介质911连接驱动器910。
实施例5:本发明还提供了一种计算机存储介质,该存储介质可以包含在上述实施例描述的设备/装置中,也可以作为独立存在,未装配到该设备/装置中。该计算机可读存储介质存有一个或多个程序,当执行这些程序时,可实现根据本发明实施例的实时红外图像目标检测方法。根据本发明实施例,计算机可读存储介质可以是非易失性存储介质,例如便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器设备、磁存储器设备,或者它们的任意合适组合。本发明的计算机可读存储介质,由于具有可以在执行时运行如实施例1和2所述方法的代码,可以节省运算量,提高效率。
以上实施例中,卷积、卷积、空洞卷积、池化、激活函数、归一化、归一化指数函数、S函数、线性整流函数、矩阵乘法操作和对应元素乘法等实现是本领域技术人员公知的算法,具体流程和方法可在相应的教科书或技术文献中查阅。
此外,所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种实时红外图像目标检测方法,其特征在于,包括以下步骤:
1)准备训练数据:
将数据集划分为训练集、验证集和测试集;
对训练集中的原图像和其对应标签进行预处理;
2)构建网络模型:
网络模型包括三个编码器、信息聚合模块和解码器;
三个编码器分别以梯度图像、原图像和原图像的1/2分辨率图像作为输入,三个编码器分别用于提取图像的边缘信息、细节信息和语义信息;信息聚合模块用于有效地在网络中多个尺度上聚合三个编码器提取的特征图;解码器用于输出检测的结果图;
其中,三个编码器分别为第一编码器、第二编码器、第三编码器,第一编码器处理提取的梯度图像,经过三个卷积块的特征提取,第二编码器处理原图像,同样经过三个卷积块的特征提取,第一编码器和第二编码器的每个卷积块的输出均分别输出到信息聚合模块中的聚合模块一、聚合模块二和聚合模块三中进行信息聚合;由第三编码器处理1/2分辨率图,经过五个卷积块的特征提取后,再通过一个上采样层输入到聚合模块四,同第一编码器和第二编码器的聚合输出结果进行聚合,作为本模块的输出;
3)训练网络模型:
选择损失函数开始网络训练,最小化输出检测结果框与真实标签的损失函数值,直到训练次数达到初始设定阈值或损失函数的值达到预设范围时,网络模型训练完成,保存网络模型参数;
4)微调网络模型:
使用验证集对网络模型进行调整,优化网络模型参数。
2.根据权利要求1所述的实时红外图像目标检测方法,其特征在于,所述准备训练数据的步骤中,
数据集为红外图像FLIR数据集,对红外图像经过高斯拉普拉斯算子得到梯度图像,对红外图像进行降采样操作得到原图像的1/2分辨率图,通过裁剪和尺寸变化等预处理将训练图像尺寸调整为416×416。
3.根据权利要求1所述的实时红外图像目标检测方法,其特征在于,所述构建网络模型的步骤中,
三个编码器分别为第一编码器、第二编码器、第三编码器,第一编码器由卷积块一、卷积块二和卷积三组成;第二编码器由卷积块四、卷积块五和卷积六组成;第三编码器由卷积块七、卷积块八、卷积块九、卷积块十和卷积块十一和一个上采样层组成;
其中,第三编码器中的上采样层是亚像素卷积上采样;所有卷积块的组成结构相同,包括卷积层、归一化层和激活函数。
4.根据权利要求3所述的实时红外图像目标检测方法,其特征在于,所述构建网络模型的步骤中,所述信息聚合模块由聚合模块一、聚合模块二、聚合模块三和聚合模块四组成;所有聚合模块组成结构相同,由全局平均池化、空洞卷积层、1×1卷积层、激活函数、S函数、连接操作、矩阵乘法操作和矩阵对应元素相乘操作组成。
5.根据权利要求4所述的实时红外图像目标检测方法,其特征在于,所述构建网络模型的步骤中,所述解码器由yolov5网络的预训练完成的检测头组成;检测头由一组包含卷积层和激活函数的卷积块和全连接层组成;所有卷积层的卷积核大小为n× n,所有激活函数均使用线性整流函数。
6.根据权利要求1所述的实时红外图像目标检测方法,其特征在于,所述训练网络模型的步骤中,
所述损失函数为复合损失函数,包括目标检测位置损失、目标检测存在性损失、目标分类损失和候选框坐标损失;位置损失采用均方误差作为位置偏差度量,目标存在性损失采用二元交叉熵损失度量,目标分类损失采用多类别交叉熵损失度量,候选框坐标损失采用均方误差度量,总损失由上述损失加权组合来计算。
7.根据权利要求1所述的实时红外图像目标检测方法,其特征在于,所述微调网络模型步骤之后还包括:
5)固化网络模型:
固定网络模型的网络参数,确定最终的红外图像目标检测模型。
8.一种实时红外图像目标检测装置,其特征在于,所述实时红外图像目标检测装置包括:
图像获取模块:用于处理输入的原红外图像,获取后续模块可处理的图像;获取方式其一是对输入原红外图像应用高斯拉普拉斯算子获取梯度图,其二是对输入原红外图像进行下采样操作,获取其1/2分辨率图;
图像处理模块:用于处理提取红外图像中的目标特征;包括第一编码器、第二编码器、第三编码器及信息聚合模块,第一编码器处理提取图像获取模块输出的梯度图,第二编码器处理提取原图像,第三编码器处理提取图像获取模块输出的1/2分辨率图,第一编码器处理提取的梯度图像,经过三个卷积块的特征提取,第二编码器处理原图像,同样经过三个卷积块的特征提取,对应地,编码器一和编码器二的每个卷积块的输出均分别输出到信息聚合模块中的聚合模块一、聚合模块二和聚合模块三中进行信息聚合,由第三编码器处理1/2分辨率图,经过五个卷积块的特征提取后,再通过一个上采样层输入到聚合模块四,同第一编码器和第二编码器的聚合输出结果进行聚合,作为本模块的输出,信息聚合模块在多个不同尺度上聚合三个编码器提取的红外图像目标特征信息;
图像输出模块:用于输出预测特征图;包括解码器。
9.一种计算机设备,其特征在于:所述计算机设备包括输入/输出单元、中央处理器、存储器,以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的一种实时红外图像目标检测方法的步骤。
10.一种计算机存储介质,其特征在于:所述计算机存储介质存储有计算机可执行程序代码,所述代码运行时,实现如权利要求1至7中任一项所述的一种实时红外图像目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311694194.5A CN117409190B (zh) | 2023-12-12 | 2023-12-12 | 一种实时红外图像目标检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311694194.5A CN117409190B (zh) | 2023-12-12 | 2023-12-12 | 一种实时红外图像目标检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117409190A CN117409190A (zh) | 2024-01-16 |
CN117409190B true CN117409190B (zh) | 2024-02-20 |
Family
ID=89494708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311694194.5A Active CN117409190B (zh) | 2023-12-12 | 2023-12-12 | 一种实时红外图像目标检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409190B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689664B (zh) * | 2024-02-04 | 2024-05-14 | 杭州灵西机器人智能科技有限公司 | 一种无损检测方法、系统、装置及介质 |
CN117710379B (zh) * | 2024-02-06 | 2024-05-10 | 杭州灵西机器人智能科技有限公司 | 一种无损检测模型构建方法、无损检测方法、装置及介质 |
CN117974960B (zh) * | 2024-03-28 | 2024-06-18 | 临沂大学 | 一种双光融合动态超分辨率分层感知方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627052A (zh) * | 2022-02-08 | 2022-06-14 | 南京邮电大学 | 一种基于深度学习的红外图像漏气漏液检测方法及系统 |
CN116824630A (zh) * | 2023-06-09 | 2023-09-29 | 武汉理工大学 | 一种轻量化红外图像行人目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113971732A (zh) * | 2021-10-18 | 2022-01-25 | 中科院成都信息技术股份有限公司 | 小目标检测方法、装置、可读存储介质及电子设备 |
-
2023
- 2023-12-12 CN CN202311694194.5A patent/CN117409190B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627052A (zh) * | 2022-02-08 | 2022-06-14 | 南京邮电大学 | 一种基于深度学习的红外图像漏气漏液检测方法及系统 |
CN116824630A (zh) * | 2023-06-09 | 2023-09-29 | 武汉理工大学 | 一种轻量化红外图像行人目标检测方法 |
Non-Patent Citations (4)
Title |
---|
Attentional Feature Fusion;Yimian Dai,et al.;2021 IEEE Winter Conference on Applications of Computer Vision (WACV);20211231;全文 * |
PE-YOLO: Pyramid Enhancement Network for Dark Object Detection;Xiangchen Yin,et al.;arXiv;20230720;全文 * |
Refined Division Features Based on Transformer for Semantic Image Segmentation;Tianping Li,et al.;International Journal of Intelligent Systems;20230819;全文 * |
Research on an Underwater Object Detection Network Based on Dual-Branch Feature Extraction;Xiao Chen,et al.;Electronics;20230811;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117409190A (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117409190B (zh) | 一种实时红外图像目标检测方法、装置、设备及存储介质 | |
CN113065558B (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN110378381B (zh) | 物体检测方法、装置和计算机存储介质 | |
CN109800629B (zh) | 一种基于卷积神经网络的遥感图像目标检测方法 | |
CN109035172B (zh) | 一种基于深度学习的非局部均值超声图像去噪方法 | |
CN111461213B (zh) | 一种目标检测模型的训练方法、目标快速检测方法 | |
CN109087337B (zh) | 基于分层卷积特征的长时间目标跟踪方法及系统 | |
CN113822352B (zh) | 基于多特征融合的红外弱小目标检测方法 | |
CN110245587B (zh) | 一种基于贝叶斯迁移学习的光学遥感图像目标检测方法 | |
CN116704476B (zh) | 一种基于改进Yolov4-tiny算法的交通标志检测方法 | |
CN114255403A (zh) | 基于深度学习的光学遥感图像数据处理方法及系统 | |
CN116469020A (zh) | 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法 | |
CN115311550B (zh) | 遥感影像语义变化检测方法、装置、电子设备及存储介质 | |
CN116883873A (zh) | 一种面向空地应用的红外小目标检测方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN113963333B (zh) | 一种基于改进yolof模型的交通标志牌检测方法 | |
CN117496154A (zh) | 基于概率图表征边缘的高分辨率遥感影像语义分割方法 | |
CN117218545A (zh) | 基于LBP特征与改进Yolov5的雷达图像检测方法 | |
CN117392187A (zh) | 基于空间注意力模型的sar图像变化检测方法及设备 | |
Dey et al. | A robust FLIR target detection employing an auto-convergent pulse coupled neural network | |
CN116953702A (zh) | 基于演绎范式的旋转目标检测方法及装置 | |
CN111104965A (zh) | 车辆目标识别的方法及装置 | |
CN113706580B (zh) | 一种基于相关滤波跟踪器的目标跟踪方法、系统、设备及介质 | |
CN113920391B (zh) | 一种基于生成尺度自适应真值图的目标计数方法 | |
CN115909086A (zh) | 基于多级增强网络的sar目标检测识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |