CN115331183A - 改进YOLOv5s的红外目标检测方法 - Google Patents
改进YOLOv5s的红外目标检测方法 Download PDFInfo
- Publication number
- CN115331183A CN115331183A CN202211026972.9A CN202211026972A CN115331183A CN 115331183 A CN115331183 A CN 115331183A CN 202211026972 A CN202211026972 A CN 202211026972A CN 115331183 A CN115331183 A CN 115331183A
- Authority
- CN
- China
- Prior art keywords
- infrared
- network
- module
- detection
- yolov5s
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
Abstract
本发明涉及红外目标检测领域,具体涉及一种改进YOLOv5s的红外目标检测方法。该方法包括如下步骤:1)获取红外图像数据;2)构建红外图像数据集T,划分训练集T为Ttrain和测试集Ttest;3)构建YOLOv5s网络模型;4)在主干网络每个卷积层中增加不同尺度的CBAM模块;5)在颈部网络原有的FPN+PAN结构上添加小目标检测层;6)使用Ghost‑Bottleneck替换颈部网络原有的CSP模块;7)在检测头部,优化损失函数;8)输入红外图像,根据权重自动识别红外目标的种类及数量。本发明能够有效提高在红外目标图像检测任务中的综合性能,在保证处理精度的同时,其模型更小,具备快速部署的能力。
Description
技术领域
本发明涉及红外目标检测领域,具体涉及一种改进YOLOv5s的红外目标检测方法。
背景技术
随着智能科技的发展与社会的进步,红外成像技术在国内外已经普遍应用于安防监控、医疗科学、工业检测、军事国防等领域。由于其重要的应用研究价值,红外图像的目标检测在计算机视觉领域受到广泛的关注。尽管众多目标检测模型在自然图像任务中已经取得较为突出的成就,但是针对红外图像的检测任务。红外目标检测问题仍是目标检测领域一个具有很大挑战性的课题。
相对于可见光图像,红外成像作用距离远、隐蔽性好,并且在一些特定场景如夜间及恶劣天气等也能获得较好的图像质量,能够突出显示敏感目标。因此,针对红外目标的检测技术一直以来都是红外图像处理中的研究重点。在实际场景中,红外目标通常会被复杂的背景与噪声掩盖,并且相对可见光图像,红外图像的分辨率较低。因此,传统的红外图像目标检测方法受特定应用场景的限制,算法的检测速度慢,泛化能力差,已经难以满足在多样化场景下进行实时检测的应用。近年来,随着深度学习的快速发展,使其成为红外目标检测任务中一项热门的领域。它通过卷积神经网络,利用大量的训练数据自主学习并提取图像的全局特征,相较于传统的检测方法具有更好的检测性能,但是在红外目标检测领域,其仍然存在计算准确率和计算成本上的不足。本专利基于YOLOv5s目标检测模型,优化并设计出改进的YOLOv5s红外目标检测模型,相较于原模型具有更高的准确率和更低的计算成本,并且更有利于设备的部署。
发明内容
针对上述存在的问题,提出一种处理精度高、计算成本低的改进YOLOv5s的红外目标检测模型。
为了实现上述目的,本发明采用的技术方案如下:一种改进YOLOv5s的红外目标检测方法,包括如下步骤:
1)获取红外图像数据;
2)构建红外图像数据集T,划分训练集T为Ttrain和测试集Ttest;
3)构建YOLOv5s网络模型,所述YOLOv5s网络模型包括主干网络、颈部网络和头部;所述主干网络包括Focus模块、SPP模块、CBS模块和CSP模块;所述颈部网络包括CBS模块、CSP模块;所述头部包括检测头;其中,所述主干网络CSP模块由支路1和支路2组成,支路1由卷积层、批量归一化和SiLU激活函数组成,支路2由卷积层、批量归一化、SiLU激活函数和n个残差单元组成;所述颈部网络CSP模块结构由支路3和支路4组成,支路3和支路4均由卷积层、批量归一化和SiLU激活函数组成;
4)在主干网络每个卷积层中增加不同尺度的CBAM模块;
5)在颈部网络原有的FPN+PAN结构上添加小目标检测层;
6)使用Ghost-Bottleneck替换颈部网络原有的CSP模块;
7)在检测头部,采用EIoU Loss,在原损失函数的基础上将长宽比的影响因子拆开,分别计算目标框和锚框的长和宽的损失以优化损失函数;
8)输入红外图像,进行红外目标检测,将获取到的红外图像输入到训练权重为w的模型中,模型根据权重自动识别红外目标的种类及数量。
进一步的,上述步骤2)包括如下步骤:
2.1)基于道路上车载红外热成像视频分帧后的图像进行数据集的制作,包括街道、公路等常规交通场景;
2.2)基于数据集中的标注进行标签分类;
2.3)按9:1比例将红外图像数据集T划分为训练集Ttrain和测试集Ttest。
进一步的,上述步骤4)包括如下步骤:
4.1)获取融合感受野的特征图U,CBAM对输入特征图x分别使用通道注意力模块和空间注意力模块提取不同尺寸特征图的上下文特征与位置信息;
式中,σ表示Sigmond函数,W0∈Rc×c/r,W1∈Rc×c/r,两个输入共享权重W0和W1,ReLU激活函数后接W0。
4.3)空间注意力模块通过使用两个池化操作来聚合特征映射x的通道信息,生成两个2D映射:
式中,σ表示Sigmond函数,f7×7表示滤波器大小为7×7的卷积运算,
4.4)通道注意力图与空间注意力图融合得到多个感受野的特征图U,U∈H×W×C。
进一步的,上述步骤5)包括如下步骤:
5.1)将原有的3组特征映射扩展为4组,其中增加的检测层是由前一层特征映射继续下采样,并联合骨干网络的第一级CSP模块的输出得到的低级别、高分辨率的特征图;
5.2)在5.1所述的检测层后增加一个预测头H1用于小目标检测,结合其他三个预测头提升网络对多尺度目标的检测性能;
进一步的,上述步骤7)中,所述EIoU_Loss损失函数转换公式如下:
本发明提供一种改进YOLOv5s的红外目标检测方法,该方法能够有效提高在红外目标图像检测任务中的综合性能,在保证处理精度的同时,其模型更小,具备快速部署的能力,对红外目标检测领域的发展具有重要意义。
附图说明
图1为本发明中基于YOLOv5s的红外目标检测方法流程图。
图2为本发明中YOLOv5s网络结构图。
图3为本发明中CBAM模块结构图。
图4为本发明中通道注意力模块结构图。
图5为本发明中空间注意力模块结构图。
图6为本发明中Ghost-BottleNeck结构图。
具体实施方式
下面结合附图以及具体实施例对本发明做进一步的说明,需要指出的是,下面仅以一种优选的技术方案对本发明的技术方案以及设计原理进行详细阐述,但本发明的保护范围并不限于此。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。
本发明实施例提供的基于YOLOv5s红外目标检测方法流程见图1,包括如下步骤:
1)选取真实拍摄的红外图像数据;
2)构建红外图像数据集T,划分训练集T为Ttrain和测试集Ttest;作为本发明的优选实施例,包括如下步骤:
2.1)基于FLIR红外数据集,选取真实道路上车载红外热成像视频分帧后的图像进行数据集的制作,该数据集包含4000余张图像,涵盖街道、公路等常规交通场景;
2.2)基于公共数据集中的标注进行标签分类,包括:行人、汽车以及自行车;
2.3)按9:1比例将红外图像数据集T划分为训练集Ttrain和测试集Ttest;
3)构建YOLOv5s网络模型,所述YOLOv5s网络模型包括主干网络、颈部网络和头部;所述主干网络包括Focus模块、SPP模块、CBS模块和CSP模块;所述颈部网络包括CBS模块、CSP模块;所述头部包括检测头;其中,所述主干网络CSP模块由支路1和支路2组成,支路1由卷积层、批量归一化和SiLU激活函数组成,支路2由卷积层、批量归一化、SiLU激活函数和n个残差单元组成;所述颈部网络CSP模块结构由支路3和支路4组成,支路3和支路4均由卷积层、批量归一化和SiLU激活函数组成;
4)在主干网络每个卷积层中增加不同尺度的CBAM模块;作为本发明的优选实施例,包括如下步骤:
4.1)获取融合感受野的特征图U,CBAM对输入特征图x分别使用通道注意力模块和空间注意力模块提取不同尺寸特征图的上下文特征与位置信息;
4.2)通道注意力模块分别使用平均池化层与最大池化层聚合特征图的空间信息,针对特征图x生成两个不同的空间上下文信息:和这两个描述符被转发到一个共享网络,形成通道注意力图Mc∈C×1×1,计算公式如下:
式中,σ表示Sigmond函数,W0∈Rc/r×c,W1∈Rc×c/r,两个输入共享权重W0和W1,ReLU激活函数后接W0。
4.3)空间注意力模块通过使用两个池化操作来聚合特征映射x的通道信息,生成两个2D映射:
4.4)通道注意力图与空间注意力图融合得到多个感受野的特征图U,U∈H×W×C;
5)在颈部网络原有的FPN+PAN结构上添加小目标检测层;作为本发明的优选实施例,包括如下步骤:
5.1)将原有的3组特征映射扩展为4组,其中增加的检测层是由前一层特征映射继续下采样,并联合骨干网络的第一级CSP模块的输出得到的低级别、高分辨率的特征图;
5.2)在5.1所述的检测层后增加一个预测头H1用于小目标检测,结合其他三个预测头提升网络对多尺度目标的检测性能;
6)使用Ghost-Bottleneck替换颈部网络原有的CSP模块;
7)在检测头部,采用EIoU Loss,在原损失函数的基础上将长宽比的影响因子拆开,分别计算目标框和锚框的长和宽的损失以优化损失函数;其中,EIoU_Loss损失函数转换公式如下:
8)输入红外图像,进行红外目标检测,将获取到的红外图像输入到训练权重为w的模型中,模型根据权重自动识别红外目标的种类及数量。
为体现本发明实施例的检测效果,将本发明实施例与现有目标检测模型进行实验对比与结果分析,各项指标的对比如下表所示:
由表中数据可知,本发明实施的改进方法在红外目标检测方面有更高的检测准确率(达到89.1%),更低的计算成本,模型的占存更小,同时保持较快的检测速度。
Claims (4)
1.一种改进YOLOv5s的红外目标检测方法,其特征是:包括如下步骤,
1)获取红外图像数据;
2)构建红外图像数据集T,划分训练集T为Ttrain和测试集Ttest;
3)构建YOLOv5s网络模型,所述YOLOv5s网络模型包括主干网络、颈部网络和头部;所述主干网络包括Focus模块、SPP模块、CBS模块和CSP模块;所述颈部网络包括CBS模块、CSP模块;所述头部包括检测头;其中,所述主干网络CSP模块由支路1和支路2组成,支路1由卷积层、批量归一化和SiLU激活函数组成,支路2由卷积层、批量归一化、SiLU激活函数和n个残差单元组成;所述颈部网络CSP模块结构由支路3和支路4组成,支路3和支路4均由卷积层、批量归一化和SiLU激活函数组成;
4)在主干网络每个卷积层中增加不同尺度的CBAM模块;
5)在颈部网络原有的FPN+PAN结构上添加小目标检测层;
6)使用Ghost-Bottleneck替换颈部网络原有的CSP模块;
7)在检测头部,采用EIoU Loss,在原损失函数的基础上将长宽比的影响因子拆开,分别计算目标框和锚框的长和宽的损失以优化损失函数;
8)输入红外图像,进行红外目标检测,将获取到的红外图像输入到训练权重为w的模型中,模型根据权重自动识别红外目标的种类及数量。
2.根据权利要求1所述的改进YOLOv5s的红外目标检测方法,其特征是:所述步骤2)包括如下步骤,
2.1)基于道路上车载红外热成像视频分帧后的图像进行数据集的制作,包括街道、公路等常规交通场景;
2.2)基于数据集中的标注进行标签分类;
2.3)按9:1比例将红外图像数据集T划分为训练集Ttrain和测试集Ttest。
3.根据权利要求1所述的改进YOLOv5s的红外目标检测方法,其特征是:所述步骤4)包括如下步骤,
4.1)获取融合感受野的特征图U,CBAM对输入特征图x分别使用通道注意力模块和空间注意力模块提取不同尺寸特征图的上下文特征与位置信息;
式中,σ表示Sigmond函数,W0∈Rc/r×c,W1∈Rc×c/r,两个输入共享权重W0和W1,ReLU激活函数后接W0;
4.3)空间注意力模块通过使用两个池化操作来聚合特征映射x的通道信息,生成两个2D映射:
4.4)通道注意力图与空间注意力图融合得到多个感受野的特征图U,U∈H×W×C。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211026972.9A CN115331183A (zh) | 2022-08-25 | 2022-08-25 | 改进YOLOv5s的红外目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211026972.9A CN115331183A (zh) | 2022-08-25 | 2022-08-25 | 改进YOLOv5s的红外目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115331183A true CN115331183A (zh) | 2022-11-11 |
Family
ID=83929044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211026972.9A Pending CN115331183A (zh) | 2022-08-25 | 2022-08-25 | 改进YOLOv5s的红外目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115331183A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116342894A (zh) * | 2023-05-29 | 2023-06-27 | 南昌工程学院 | 基于改进YOLOv5的GIS红外特征识别系统及方法 |
CN116665015A (zh) * | 2023-06-26 | 2023-08-29 | 中国科学院长春光学精密机械与物理研究所 | 一种基于YOLOv5的红外序列图像弱小目标检测方法 |
CN116994151A (zh) * | 2023-06-02 | 2023-11-03 | 广州大学 | 基于SAR图像和YOLOv5s网络的海上舰船目标识别方法 |
CN117649610A (zh) * | 2024-01-30 | 2024-03-05 | 江西农业大学 | 一种基于YOLOv5的害虫检测方法及系统 |
CN117975040A (zh) * | 2024-03-28 | 2024-05-03 | 南昌工程学院 | 基于改进YOLOv5的GIS红外图像识别系统与方法 |
-
2022
- 2022-08-25 CN CN202211026972.9A patent/CN115331183A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116342894A (zh) * | 2023-05-29 | 2023-06-27 | 南昌工程学院 | 基于改进YOLOv5的GIS红外特征识别系统及方法 |
CN116342894B (zh) * | 2023-05-29 | 2023-08-08 | 南昌工程学院 | 基于改进YOLOv5的GIS红外特征识别系统及方法 |
CN116994151A (zh) * | 2023-06-02 | 2023-11-03 | 广州大学 | 基于SAR图像和YOLOv5s网络的海上舰船目标识别方法 |
CN116994151B (zh) * | 2023-06-02 | 2024-06-04 | 广州大学 | 基于SAR图像和YOLOv5s网络的海上舰船目标识别方法 |
CN116665015A (zh) * | 2023-06-26 | 2023-08-29 | 中国科学院长春光学精密机械与物理研究所 | 一种基于YOLOv5的红外序列图像弱小目标检测方法 |
CN116665015B (zh) * | 2023-06-26 | 2024-04-02 | 中国科学院长春光学精密机械与物理研究所 | 一种基于YOLOv5的红外序列图像弱小目标检测方法 |
CN117649610A (zh) * | 2024-01-30 | 2024-03-05 | 江西农业大学 | 一种基于YOLOv5的害虫检测方法及系统 |
CN117649610B (zh) * | 2024-01-30 | 2024-05-28 | 江西农业大学 | 一种基于YOLOv5的害虫检测方法及系统 |
CN117975040A (zh) * | 2024-03-28 | 2024-05-03 | 南昌工程学院 | 基于改进YOLOv5的GIS红外图像识别系统与方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Drone-based RGB-infrared cross-modality vehicle detection via uncertainty-aware learning | |
CN110570371B (zh) | 一种基于多尺度残差学习的图像去雾方法 | |
CN115331183A (zh) | 改进YOLOv5s的红外目标检测方法 | |
CN112949633B (zh) | 一种基于改进YOLOv3的红外目标检测方法 | |
CN111242127B (zh) | 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法 | |
CN111339839B (zh) | 一种密集型目标检测计量方法 | |
CN111695448B (zh) | 一种基于视觉传感器的路侧车辆识别方法 | |
Hong et al. | Highway crack segmentation from unmanned aerial vehicle images using deep learning | |
CN112215074A (zh) | 基于无人机视觉的实时目标识别与检测追踪系统及方法 | |
CN112990065B (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN117830788B (zh) | 一种多源信息融合的图像目标检测方法 | |
CN113436210B (zh) | 一种融合上下文逐级采样的道路图像分割方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN116363535A (zh) | 基于卷积神经网络的无人机航拍影像中的船舶检测方法 | |
Tao et al. | F-PVNet: Frustum-level 3-D object detection on point–voxel feature representation for autonomous driving | |
CN117834839A (zh) | 基于移动终端的多视角3d智能成像测量系统 | |
Liangjun et al. | MSFA-YOLO: A Multi-Scale SAR Ship Detection Algorithm Based on Fused Attention | |
Wang et al. | Hierarchical Kernel Interaction Network for Remote Sensing Object Counting | |
CN109740405B (zh) | 一种非对齐相似车辆前窗差异信息检测方法 | |
CN116129327A (zh) | 一种基于改进YOLOv7算法的红外车辆检测方法 | |
CN115512263A (zh) | 一种面向高空坠物的动态视觉监测方法及装置 | |
Cai et al. | CNXResNet: A Light-weight Backbone based on PP-YOLOE for Drone-captured Scenarios | |
CN110738113B (zh) | 一种基于邻近尺度特征滤除与转移的物体检测方法 | |
Wang et al. | AFE-Net: Attention-Guided Feature Enhancement Network for Infrared Small Target Detection | |
CN113762099B (zh) | 一种基于路侧rsu的实时点云三维重构方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |