CN116597276A - 一种基于改进YOLOv5模型的目标检测方法 - Google Patents
一种基于改进YOLOv5模型的目标检测方法 Download PDFInfo
- Publication number
- CN116597276A CN116597276A CN202310612488.2A CN202310612488A CN116597276A CN 116597276 A CN116597276 A CN 116597276A CN 202310612488 A CN202310612488 A CN 202310612488A CN 116597276 A CN116597276 A CN 116597276A
- Authority
- CN
- China
- Prior art keywords
- model
- improved
- training
- map
- yolov5
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000011176 pooling Methods 0.000 claims abstract description 19
- 230000004913 activation Effects 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000007547 defect Effects 0.000 claims abstract description 4
- 230000006872 improvement Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000009901 attention process Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于改进YOLOV5模型的目标检测方法,包括以下步骤:构建数据集;在YOLOV5模型Neck层中嵌入CBAM注意力机制;针对SPPF结构中的最大池化操作增大感受野的同时会丢失目标信息的弊端,采用空洞卷积代替最大池化操作,在不丢失目标信息的前提下增大感受野,进一步提升模型的特征提取精度;修改SPPF中卷积层的激活函数,从而提升模型的检测速度;利用新的损失函数引入所需回归之间的向量角度,重新定义距离损失,以网络最小化损失提升模型的回归精度;将改进后的模型在训练集上训练出最佳模型;最后将改进后的模型与原始YOLOv5模型使用相同数据集训练,通过评价指标分别对模型进行对比和评估。本发明可以实现加强小目标检测效率和提高模型检测精度。
Description
技术领域:
本发明属于目标检测领域,具体涉及一种基于改进YOLOv5模型的目标检测方法。
背景技术:
目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割,它由图像分类任务发展而来,区别在于不仅仅只对一张图像中的单一类型目标进行分类,而是要同时完成一张图像里可能存在的多个目标的分类和定位,其中分类是指给目标分配类别标签,定位是指确定目标的外围矩形框的顶点坐标。
目前主流深度学习目标检测算法大概可以分成两大类别:(1)两阶段目标检测算法,这类检测算法将检测问题划分为两个阶段,第一阶段先产生候选区域,包含目标大概的位置信息,第二阶段对候选区域进行分类和位置精修。这类算法的典型代表有R-CNN、FastR-CNN、FasterR-CNN、Mask R-CNN等。(2)一阶段目标检测算法,这类检测算法不需要候选区域阶段,可以通过一个阶段直接产生物体的类别概率和位置坐标值,比较典型的算法有YOLO、SSD以及RetinaNet等。
在目标检测过程中,由于图像中各类目标物体的外观、姿态、形状、数量各异,以及光照、遮挡等多种因素的干扰,导致目标发生畸变,使目标检测难度增加。
为了解决上述问题,本发明提出了一种基于改进YOLOV5模型的目标检测方法。为实现高性能的目标检测模型,提出在YOLOV5模型的Neck层中的每个检测层前嵌入CBAM注意力机制,CBAM注意力机制对模型的性能有较好的提高;对于在YOLOV5模型中的SPPF结构中的最大池化操作增大感受野的同时会丢失目标信息的弊端,采用空洞卷积代替最大池化操作,在不丢失目标信息的前提下增大感受野,进一步提升模型的特征提取精度;同时修改了SPPF中卷积层的激活函数,从而提升模型的检测速度。最后针对目标检测领域真实框与预测框之间不匹配的问题,利用新的损失函数从而引入所需回归之间的向量角度,重新定义距离损失,有效的降低回归的自由度,加快网络收敛,以网络最小化损失以提升模型的回归精度。
发明内容:
本发明提出一种基于改进YOLOv5模型的目标检测方法,该方法可以加强小目标检测效率和提高模型检测精度。
为实现上述目的,本发明包括以下步骤:
步骤1:构建数据集,数据集包括训练集、验证集和测试集。
步骤2::对YOLOv5模型进行改进,具体改进措施如下:
(1)在YOLOV5模型的Neck层中的每个检测层前嵌入CBAM注意力机制,CBAM注意力机制对模型的性能有较好的提高,相比于传统的仅关注通道或仅关注空间的注意力机制方案,CBAM注意力机制将两者结合使用,能够获得更好的效果。
(2)YOLOV5主干网络主要由四个CSP模块以及一个SPPF构成。修改SPPF结构中的最大池化层,为减少特征丢失,改为空洞卷积。
(3)同时将SPPF结构中的卷积层SiLU激活函数均改为LeakyReLU激活函数来提高模型的检测效率。
(4)修改回归损失函数,YOLOv5的损失由三部分组成,分类损失采用的是BCEloss,是计算正样本的分类损失;置信度损失采用的也是BCE loss,它指的是网络预测的目标边界框与GT box的CIoU;最后边框信息的回归损失计算采用CIoU函数。使用SIOU作为回归损失函数来代替CIoU函数,改进后的损失函数可以进一步降低训练数据的真实值与预测值之间的损失,从而提升模型鲁棒性。
步骤3:模型构建完成的基础之上,将数据集输入模型进行训练。训练前,将数据集图片和标签按照8:1:1的比例分为训练集、验证集和测试集,之后输出训练完成后的目标检测模型。
步骤4:为验证模型性能,采用以下指标进行评估模型的检测性能:精确率(Precision,P)、召回率(Recall,R)、平均精度(averageprecision,AP)、平均精度均值(meanaverageprecision,mAP)。
在本发明步骤1中,准备好YOLO网络需要的数据标注格式,进而将数据集图片和标签按照8:1:1的比例分为训练集、验证集和测试集。
在本发明步骤2的(1)中,在YOLOV5模型的Neck层中的每个检测层前嵌入CBAM模块。
CBAM在处理图像的特征时会先通过一个通道注意力模块,利用通道注意力机制的工作原理为每个通道都加上一个权重,之后再与初始的输入特征图做乘法融合得到一个新的特征图,随后将其送入空间注意力机制模块中,为特征图添加上空间注意力信息的权重,再通过与前一层的特征进行加权融合得到最终添加了混合注意力的特征图。
在本发明步骤2的(2)中,对SPPF模块进行改动,SPPF全称为空间金字塔池化,其作用是将前面得到任意大小的特征图转换成固定大小的特征向量,以实现局部特征和全局特征的featherMap级别的融合。传统YOLOv5模型中的SPPF结构中,内涵三个5*5尺度的最大池化的操作。
空洞卷积是在标准卷积的基础上增加参数dilated rate,这个参数就是在卷积核中填充dilated rate-个0,在具体实现时,采用对输入的间隔dilated rate-1采样,从而实现在同样感受野时,减少参数量和运算量,同时减少最大池化操作的特征丢失。可采用3*3dilation rate为2的空洞卷积代替5*5的最大池化操作。
在本发明步骤2的(3)中,将SPPF结构中的卷积层SiLU激活函数均改为LeakyReLU激活函数。使用激活函数LeakyReLU能够有效的提升特征提取的速度。
Leaky ReLU是ReLU函数的改良之后的版本,由于在负数取值范围内加入了负数梯度值a,从而防止了模型出现Die ReLU问题。其中leak是很小的常数,这样不仅保留了一些负轴的值,从而使得负轴的信息不会全部丢失。修改后的SPPF卷积层由ConvBNSiLU变为ConvBNLeakyReLU。
在本发明步骤2的(4)中,使用SIoU来作为回归损失函数代替CIoU函数,SIoU损失函数由4个cost函数组成,分别是Angle cost、Distancecost、Shapecost和IoUcost;SIoU通过引入了所需回归之间的向量角度,重新定义了距离损失,有效降低了回归的自由度,加快网络收敛,进一步提升了回归精度。
SIoU的定义如下:
其中,Lbox是回归损失函数,Λ是LF组件,Δ是距离损失,Ω是形状损失,pt是衡量距离损失和角度损失的权重,ωt表示预测框和标签框的相似度;
在本发明步骤3中,得到改进后的目标检测模型,训练模型并调参优化模型,输出训练完成后的目标检测模型。
在本发明步骤4中,为了评价改进后的模型的优势,将改进后的模型与原始YOLOv5模型对比。使用相同数据集训练后,用精确率(Precision,P)、召回率(Recall,R)、平均精度(averageprecision,AP)、平均精度均值(meanaverageprecision,mAP)分别对模型进行对比和评价。
评价指标公式如下:
其中,TP表示被正确预测出来的目标数量,FP表示被检测为目标的背景数量,TP表示被检测为背景的目标数量,PA为各类别的平均精度,NC为类别数量。
附图说明:
图1为本发明的流程图。
图2为本发明改进后的YOLOv5模型的整体网络结构图。
图3为CBAM注意力机制原理图。
图4为本发明改进后的YOLOv5模型的SPPF结构图。
具体实施方式:
为了使本发明的技术方案能够清楚和完整地描述,下面结合附图,对本发明作进一步的详细说明。
如图1所示,本发明具体包括以下四个步骤:
步骤1:构建数据集,准备好YOLO网络需要的数据标注格式,进而将数据集图片和标签按照8:1:1的比例分为训练集、验证集和测试集。
步骤2:对YOLOv5模型进行改进,具体改进措施如下:
(1)在YOLOV5模型的Neck层中的每个检测层前嵌入CBAM注意力机制,改进后的YOLOV5模型整体网络结构如图2所示。
CBAM注意力机制从空间与通道两个维度提升模型关注目标特征的能力,使模型在检测不同大小的物体时能关注重要的特征,提升特征提取能力。
CBAM模块是一个简单且有效的轻量级注意力模块,其原理图如图3所示。它可以实现端到端的训练方式。给定一张中间特征图作为输入,CBAM首先通过通道注意力模块(Channel Attention Module,CAM)利用特征图通道间的关系生成通道注意力图,然后与输入特征残差相乘,将得到的注意力图与输人特征图进行自适应特征细化,同理,将经过通道自适应细化后的特征图沿着空间注意力模块(Spatial Attention Module,SAM)生成空间注意力图,最后残差相乘输出空间自适应细化后的特征。
整体注意力过程公式如下所示:
式中表示加权相乘,特征F经过通道注意力模块输出F′,然后作为输入经过空间注意力模块得到最终输出结果F″。
在YOLOV5模型Neck层中嵌入CBAM模块,能够提高算法的检测精度,让网络更加专注于有用的信息。
(2)YOLOV5主干网络主要由四个CSP模块以及一个SPPF构成。本发明对SPPF结构进行了改动。传统YOLOv5网络中的SPPF部分,内涵三个5*5尺度的最大池化的操作。
在对于池化操作增大感受野的同时会丢失目标信息的弊端,采用空洞卷积代替最大池化操作,在不丢失目标信息的前提下增大感受野,进一步提升模型的特征提取精度。
空洞卷积存在一个参数,名为膨胀率(dilated rate),它代表着卷积核相邻元素的间距。
在感受野方面,空洞卷积等效卷积核尺寸公式为:
S'kennel=Skennel+(Skennel-1)×(d-1)
其中,Skennel为卷积核尺寸,d为膨胀率,S'kennel为等效卷积核尺寸。因此,一个尺寸为3x3的卷积核可以起到5x5、7x7的卷积核的效果。
采用空洞卷积结构可以在不增加参数量且不改变输出特征图分辨率的情况下,大大增加其感受野,使特征图包含更大范围的信息量。
空洞卷积具体操作为:采用3*3dilation rate为2的空洞卷积代替5*5的最大池化操作。在标准卷积的基础上增加参数dilated rate,在卷积核中填充dilated rate-个0,在具体实现时,采用对输入的间隔dilated rate-1采样,从而实现在同样感受野时,减少参数量和运算量,同时减少最大池化操作的特征丢失。
(3)修改SPPF中卷积层的激活函数,从而提升模型的检测速度。将SPPF结构中的卷积层SiLU激活函数均改为LeakyReLU激活函数
修改后的SPPF卷积层由ConvBNSiLU变为ConvBNLeakyReLU。LeakyReLU激活函数的具体公式如下所示:
y=max(0,x)+leak×min(0,x)
结合上文提到的使用空洞卷积代替最大池化操作以及激活函数更改后的SPPF结构如图4所示。
(4)修改回归损失函数,采用SIoU Loss损失函数替换CIoU Loss损失函数。SIoU通过引入了所需回归之间的向量角度,重新定义了距离损失,有效降低了回归的自由度,加快网络收敛,进一步提升了回归精度。
SIoU损失函数的计算公式如下所示
SIoU损失函数可以改善目标检测的训练和推理,通过在损失函数成本中引入方向性,与YOLOv5原模型中的损失函数CIoU相比,它在训练阶段实现了更快的收敛,并且在推理方面具有更好的性能。
步骤3:模型构建完成的基础之上,设置初始学习率、batch size、epoch迭代次数以及训练数据集上最大训练次数epoch等参数。通过最小化损失函数,调整参数,实现精准预测。
将训练集输入到改进的网络模型进行训练,并调参优化模型,输出训练完成后的目标检测模型。
步骤4:将改进后的模型与原始YOLOv5模型对比,使用相同数据集训练后,用精确率(Precision,P)、召回率(Recall,R)、平均精度(averageprecision,AP)、平均精度均值(meanaverageprecision,mAP)分别对模型进行对比和评价。
(1)Precision表示精确率,表示算法识别检测的结果中,真正存在的目标所占有的比例,准确率越高代表了模型的检测精度越高。
具体的计算公式如下:
(3)Recall表示召回率,表示在算法的识别检测结果中,被准确识别出来的正确目标占类总目标的比例。
具体的计算公式如下:
(3)精度均值(AP)则反映精确率、召回率曲线以及坐标轴所包围的面积,检测中AP的值越大,表示算法检测效果越好,检测精度越高。mAP则为每个类计算出AP值后再取其均值所得。
具体公式如下:
利用实验数据可绘制模型的PR曲线,曲线所围面积即为AP该指标被用来评估模型对于单个类别的目标检测性能表现,将所有类别的AP值取平均得到mAP。mAP的值在0-1之间,mAP值越接近于1表示模型的性能越好,检测能力越强。
以上所述是结合附图对本发明的实施例进行的详细介绍,需要指出的是,对于本技术领域的普通技术人员在依据本发明的前提下,可以做出若干变化和修改,上述变化和修改的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (6)
1.一种基于改进YOLOv5模型的目标检测方法,其特征在于,该方法包括以下步骤:
步骤1:构建数据集,将数据集图片和标签按照8:1:1的比例分为训练集、验证集和测试集。
步骤2:对YOLOv5模型进行改进,具体改进措施如下:
(1)在YOLOV5模型的Neck层中的每个检测层前嵌入CBAM注意力机制,从空间与通道两个维度提升模型关注目标特征的能力,使模型在检测不同大小的物体时能关注重要的特征,提升特征提取能力。
(2)对SPPF结构进行改动。在对于池化操作增大感受野的同时会丢失目标信息的弊端,采用空洞卷积代替最大池化操作,在不丢失目标信息的前提下增大感受野,进一步提升模型的特征提取精度。
(3)将SPPF结构中的卷积层SiLU激活函数均改为LeakyReLU激活函数。
(4)修改回归损失函数,采用SIoU Loss损失函数替换CIoU Loss损失函数。SIoU通过引入了所需回归之间的向量角度,重新定义了距离损失,有效降低了回归的自由度,加快网络收敛,进一步提升了回归精度。
步骤3:模型构建完成的基础之上,将训练集输入到改进的网络模型进行训练,并调参优化模型,输出训练完成后的目标检测模型。
步骤4:将改进后的模型与原始YOLOv5模型对比,使用相同数据集训练后,用精确率(Precision,P)、召回率(Recall,R)、平均精度(averageprecision,AP)、平均精度均值(meanaverageprecision,mAP)分别对模型进行对比和评价。
2.根据权利要求1所述的一种基于改进YOLOv5模型的目标检测方法,其特征在于,在步骤2的(1)中,CBAM首先通过通道注意力模块利用特征图通道间的关系生成通道注意力图,然后与输入特征残差相乘,将得到的注意力图与输人特征图进行自适应特征细化,同理,将经过通道自适应细化后的特征图沿着空间注意力模块生成空间注意力图,最后残差相乘输出空间自适应细化后的特征。
整体注意力过程公式如下所示:
3.根据权利要求1所述的一种基于改进YOLOv5模型的目标检测方法,其特征在于,在步骤2的(2)中,采用3*3dilation rate为2的空洞卷积代替5*5的最大池化操作。在标准卷积的基础上增加参数dilated rate,在卷积核中填充dilated rate-个0,在具体实现时,采用对输入的间隔dilated rate-1采样,从而实现在同样感受野时,减少参数量和运算量,同时减少最大池化操作的特征丢失。
4.根据权利要求1所述的一种基于改进YOLOv5模型的目标检测方法,其特征在于,在步骤2的(3)中,将SPPF结构中的卷积层SiLU激活函数均改为LeakyReLU激活函数。、LeakyReLU激活函数的具体公式如下所示:
y=max(0,x)+leak×min(0,x)。
5.根据权利要求1所述的一种基于改进YOLOv5模型的目标检测方法,其特征在于,在步骤2的(4)中,SIoU损失函数可以改善目标检测的训练和推理,通过在损失函数成本中引入方向性,与YOLOv5原模型中的损失函数CIoU相比,它在训练阶段实现了更快的收敛,并且在推理方面具有更好的性能。
6.根据权利要求1所述的一种基于改进YOLOv5模型的目标检测方法,其特征在于,在步骤4中,利用实验数据可绘制模型的PR曲线,曲线所围面积即为AP该指标被用来评估模型对于单个类别的目标检测性能表现,将所有类别的AP值取平均得到mAP。mAP的值在0-1之间,mAP值越接近于1表示模型的性能越好,检测能力越强。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310612488.2A CN116597276A (zh) | 2023-05-29 | 2023-05-29 | 一种基于改进YOLOv5模型的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310612488.2A CN116597276A (zh) | 2023-05-29 | 2023-05-29 | 一种基于改进YOLOv5模型的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116597276A true CN116597276A (zh) | 2023-08-15 |
Family
ID=87611416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310612488.2A Pending CN116597276A (zh) | 2023-05-29 | 2023-05-29 | 一种基于改进YOLOv5模型的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116597276A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994244A (zh) * | 2023-08-16 | 2023-11-03 | 临海市特产技术推广总站(临海市柑桔产业技术协同创新中心) | 一种基于Yolov8的柑橘树体果实产量评估方法 |
-
2023
- 2023-05-29 CN CN202310612488.2A patent/CN116597276A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994244A (zh) * | 2023-08-16 | 2023-11-03 | 临海市特产技术推广总站(临海市柑桔产业技术协同创新中心) | 一种基于Yolov8的柑橘树体果实产量评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021244079A1 (zh) | 智能家居环境中图像目标检测方法 | |
CN111126472B (zh) | 一种基于ssd改进的目标检测方法 | |
CN108288088B (zh) | 一种基于端到端全卷积神经网络的场景文本检测方法 | |
CN111652321B (zh) | 一种基于改进yolov3算法的海上船舶检测方法 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN111179217A (zh) | 一种基于注意力机制的遥感图像多尺度目标检测方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN114758288B (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN112836639A (zh) | 基于改进YOLOv3模型的行人多目标跟踪视频识别方法 | |
CN110569782A (zh) | 一种基于深度学习目标检测方法 | |
CN111626200A (zh) | 一种基于Libra R-CNN的多尺度目标检测网络和交通标识检测方法 | |
CN111178451A (zh) | 一种基于YOLOv3网络的车牌检测方法 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN113822278A (zh) | 一种无受限场景车牌识别方法 | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
CN116597276A (zh) | 一种基于改进YOLOv5模型的目标检测方法 | |
CN115311502A (zh) | 基于多尺度双流架构的遥感图像小样本场景分类方法 | |
CN114332921A (zh) | 基于改进聚类算法的Faster R-CNN网络的行人检测方法 | |
CN116071331A (zh) | 一种基于改进ssd算法的工件表面缺陷检测方法 | |
CN115861229A (zh) | 一种基于YOLOv5s元器件封装缺陷X射线检测方法 | |
CN117333845A (zh) | 一种基于改进YOLOv5s的小目标交通标志实时检测方法 | |
CN117611911A (zh) | 一种基于改进YOLOv7的单帧红外弱小目标检测方法 | |
Liu et al. | SLPR: A deep learning based Chinese ship license plate recognition framework | |
Yang et al. | An improved algorithm for the detection of fastening targets based on machine vision | |
CN114550134A (zh) | 基于深度学习的交通标志检测与识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |