CN117132767B - 一种小目标检测方法、装置、设备及可读存储介质 - Google Patents
一种小目标检测方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN117132767B CN117132767B CN202311375564.9A CN202311375564A CN117132767B CN 117132767 B CN117132767 B CN 117132767B CN 202311375564 A CN202311375564 A CN 202311375564A CN 117132767 B CN117132767 B CN 117132767B
- Authority
- CN
- China
- Prior art keywords
- module
- grouping
- target detection
- representing
- yolov8
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 114
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 41
- 230000008447 perception Effects 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 53
- 238000005070 sampling Methods 0.000 claims description 31
- 230000004927 fusion Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种小目标检测方法、装置、设备及可读存储介质,涉及计算机视觉技术领域,包括获取待检测图像;构建改进后的YOLOv8目标检测算法,改进后的YOLOv8目标检测算法包括分组增强模块,分组增强模块包括分组模块、瓶颈模块和空间注意力模块,分组模块用于对输入特征进行分组,瓶颈模块用于对分组后的特征进行残差处理,空间注意力模块用于对残差处理后的特征进行空间感知;通过改进后的YOLOv8目标检测算法对待检测图像进行目标检测识别。本申请通过分组来学习不同组中重要的信息,挖掘出小目标稀少的特征,并通过瓶颈模块获得更丰富的梯度流信息及基于空间注意力模块来增强小目标的位置信息,有效提高了小目标的检测精度。
Description
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种小目标检测方法、装置、设备及可读存储介质。
背景技术
小目标的定义主要有两种:一种是在MS-COCO (Microsoft COCO: CommonObjects in Context) 中定义为像素值小于32×32的物体,另一种是当物体的尺寸小于原图尺寸的0.1倍就可以认为是相对小目标。由于小目标本身尺度小且在图像中信息量较少,因此容易造成目标模糊、细节特征不明显等,从而制约了小目标检测性能的进一步发展。
现有的目标检测算法对于中大型目标已经取得了较好的检测结果,但对于小目标检测的效果却远低于中大型目标的检测效果。比如,通过目前的YOLOv8算法(其是一种快速、准确的实时目标检测算法,可用于实现图像分类、物体检测和实例分割任务等)进行小目标检测时,就无法捕获小目标稀疏的特征,以致小目标检测结果的精度较差。
发明内容
本申请提供一种小目标检测方法、装置、设备及可读存储介质,以有效提高小目标的检测精度。
第一方面,提供了一种小目标检测方法,包括以下步骤:
获取待检测图像;
构建改进后的YOLOv8目标检测算法,所述改进后的YOLOv8目标检测算法包括分组增强模块,所述分组增强模块包括分组模块、瓶颈模块和空间注意力模块,所述分组模块用于对输入特征进行分组,所述瓶颈模块用于对分组后的特征进行残差处理,所述空间注意力模块用于对残差处理后的特征进行空间感知;
通过所述改进后的YOLOv8目标检测算法对所述待检测图像进行目标检测识别。
一些实施例中,所述分组增强模块的计算公式为:
式中,表示分组增强模块输出的特征,/>表示输入特征,/>表示SiLU激活函数,/>表示/>经过分组模块分组后得到的第i组输出特征,/>表示通过瓶颈模块进行残差处理,/>表示通过空间注意力模块进行空间感知,/>表示第i组输出特征依次经过/>和/>处理后输出的特征。
一些实施例中,所述改进后的YOLOv8目标检测算法还包括上采样模块,所述上采样模块包括反卷积模块、双线性插值模块以及分组学习融合模块;
所述反卷积模块和所述双线性插值模块用于对输入特征进行并行的上采样处理;
所述分组学习融合模块用于对反卷积模块输出的第一上采样特征以及双线性插值模块输出的第二上采样特征进行切块处理,并基于预设的可学习参数组对切块后的特征进行可学习的特征组融合,以增强特征表达。
一些实施例中,所述上采样模块的计算公式为:
式中,表示上采样模块输出的特征,/>表示SiLU激活函数,/>表示与第一上采样特征对应的第一子块特征,/>表示与第一子块特征对应的可学习参数组,/>表示与第二上采样特征对应的第二子块特征,/>表示与第二子块特征对应的可学习参数组。
一些实施例中,所述改进后的YOLOv8目标检测算法还包括角点回归损失函数,所述角点回归损失函数包括角点损失和交并比损失。
一些实施例中,所述角点回归损失函数的表达式为:
式中,表示角点回归损失函数,/>表示交并比损失函数,/>表示角点损失函数,/>预测框为,真实框为/>。
一些实施例中,在构建改进后的YOLOv8目标检测算法时,基于通过数据增强后的样本数据集对改进后的YOLOv8目标检测算法进行训练。
第二方面,提供了一种小目标检测装置,包括:
获取单元,其用于获取待检测图像;
构建单元,其用于构建改进后的YOLOv8目标检测算法,所述改进后的YOLOv8目标检测算法包括分组增强模块,所述分组增强模块包括分组模块、瓶颈模块和空间注意力模块,所述分组模块用于对输入特征进行分组,所述瓶颈模块用于对分组后的特征进行残差处理,所述空间注意力模块用于对残差处理后的特征进行空间感知;
检测单元,其用于通过所述改进后的YOLOv8目标检测算法对所述待检测图像进行目标检测识别。
第三方面,提供了一种小目标检测设备,包括:存储器和处理器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现前述的小目标检测方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,以实现前述的小目标检测方法。
本申请提供了一种小目标检测方法、装置、设备及可读存储介质,包括获取待检测图像;构建改进后的YOLOv8目标检测算法,所述改进后的YOLOv8目标检测算法包括分组增强模块,所述分组增强模块包括分组模块、瓶颈模块和空间注意力模块,所述分组模块用于对输入特征进行分组,所述瓶颈模块用于对分组后的特征进行残差处理,所述空间注意力模块用于对残差处理后的特征进行空间感知;通过所述改进后的YOLOv8目标检测算法对所述待检测图像进行目标检测识别。本申请通过分组来学习不同组中重要的信息,以挖掘出小目标稀少的特征,并通过瓶颈模块来获得更丰富的梯度流信息以及基于空间注意力模块来增强小目标的位置信息,进而有效提高小目标的检测精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种小目标检测方法的流程示意图;
图2为本申请实施例提供的改进后的YOLOv8目标检测算法的结构示意图;
图3为本申请实施例提供的GEM模块的结构示意图;
图4为本申请实施例提供的SAM模块的结构示意图;
图5为本申请实施例提供的FDBUM模块的结构示意图;
图6为本申请实施例提供的GLAdd模块的结构示意图;
图7为本申请实施例提供的真实框与预测框的关系示意图;
图8为本申请实施例提供的一种小目标检测设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种小目标检测方法、装置、设备及可读存储介质,以有效提高小目标的检测精度。
图1是本申请实施例提供的一种小目标检测方法,包括以下步骤:
步骤S10:获取待检测图像;
步骤S20:构建改进后的YOLOv8目标检测算法,所述改进后的YOLOv8目标检测算法包括分组增强模块,所述分组增强模块包括分组模块、瓶颈模块和空间注意力模块,所述分组模块用于对输入特征进行分组,所述瓶颈模块用于对分组后的特征进行残差处理,所述空间注意力模块用于对残差处理后的特征进行空间感知;其中,所述分组增强模块的计算公式为:
式中,表示分组增强模块输出的特征,/>表示输入特征,/>表示SiLU激活函数,/>表示/>经过分组模块分组后得到的第i组输出特征,/>表示通过瓶颈模块进行残差处理,/>表示通过空间注意力模块进行空间感知,/>表示第i组输出特征依次经过/>和/>处理后输出的特征。
示范性的,参见图2所示,在本实施例中,以YOLOv8算法为基础模型框架,为了使网络能够捕获小目标稀疏的特征,设计了一种新的分组增强特征模块(Group-wise EnhanceModule,GEM)来替代YOLOv8算法中原始的C2f模块,以形成改进后的YOLOv8目标检测算法。该GEM模块包括分组模块、瓶颈模块和空间注意力模块,其中,分组模块用于对输入特征进行分组,瓶颈模块用于对分组后的特征进行残差处理,空间注意力模块用于对残差处理后的特征进行空间感知。该GEM模块不仅可以通过分组来学习不同组中重要的信息,使得网络能够挖掘出小目标稀少的特征,以提供更多具有鉴别性的特征,且可获得更丰富的梯度流信息以及能够增强小目标的位置信息,进而有效提高YOLOv8目标检测算法的小目标检测精度。
以下结合图3对本实施例中的分组增强模块GEM的具体工作原理进行解释说明:
首先,通过分组模块对输入的图像特征按通道进行Split操作,以得到多份分组特征,需要说明的是,分组特征的具体份数可根据实际需求确定,比如可设置为4,则输入的图像特征经过Split操作后被均分为4份,其可用公式表示为:
式中,为输入特征,/>为第i组输出特征,i为{1,2,3,4}。
通过Split操作将图像特征按通道均分为4份后,将其分别送入对应的瓶颈模块Bottleneck中,经过BottleNeck层的残差连接后,将残差连接结果输入至对应的空间注意力模块SAM进行空间感知。
其中,BottleNeck层包含多个卷积核跳跃连接组成,可其处理过程可表示为;SAM模块由最大池化MaxPool、平均池化AvgPool和7×7的卷积组成,其处理过程可表示为,GEM模块的具体处理过程可用如下公式表示:
参见图4所示,SAM模块首先对输入特征(即input feature,也即BottleNeck层中最后一个卷积模块的输出)分别沿着通道方向进行全局池化和平均池化;然后将全局池化和平均池化的结果,按照通道进行拼接;接着对拼接结果进行卷积Conv操作,并在卷积完毕后通过Sigmoid激活函数处理,再和input feature相乘,完成空间感知。
可以理解的是,分组特征在经过BottleNeck层后可以获得更丰富的梯度流信息,然后经过SAM模块来增强目标的位置信息;之后再将各个SAM模块输出的分组特征进行通道维度拼接,然后将拼接结果与原始输入特征/>进行跳跃连接,最后用激活函数SiLU处理,其可表示为:
其中,表示通道维度的拼接,/>代表激活函数SiLU。
进一步的,所述改进后的YOLOv8目标检测算法还包括上采样模块,所述上采样模块包括反卷积模块、双线性插值模块以及分组学习融合模块;
所述反卷积模块和所述双线性插值模块用于对输入特征进行并行的上采样处理;
所述分组学习融合模块用于对反卷积模块输出的第一上采样特征以及双线性插值模块输出的第二上采样特征进行切块处理,并基于预设的可学习参数组对切块后的特征进行可学习的特征组融合,以增强特征表达。其中,所述上采样模块的计算公式为:
式中,表示上采样模块输出的特征,/>表示SiLU激活函数,/>表示与第一上采样特征对应的第一子块特征,/>表示与第一子块特征对应的可学习参数组,/>表示与第二上采样特征对应的第二子块特征,/>表示与第二子块特征对应的可学习参数组。
示范性的,应当理解的是,传统的双线性插值上采样方法往往会使得细节退化,使用反卷积则可以获得更具梯度性的特征,不过其会产生棋盘效应。而本实施例则提出了一种包含了反卷积和双线性插值的上采样模块FDBUM(Fused Deconv-Bilinear UpsamplingModule)来代替YOLOv8算法中原始的上采样模块,以构成改进后的YOLOv8目标检测算法;通过该FDBUM模块对图像特征进行上采样,可使得特征在上采样过程中能保持较好的细节信息又能避免棋盘效应。
具体的,参见图5所示,FDBUM模块包括反卷积模块BIUpsample、双线性插值模块DeConv以及分组学习融合模块GLAdd。FDBUM模块的具体工作原理为:首先通过BIUpsample模块和DeConv模块分别对输入特征并行反卷积和双线性插值,卷积核为3×3大小,步长为2,以将输入特征的高H以及宽W放大为原来的两倍,其可表示为:
式中,X表示输入特征,且输入特征X的通道数、高和宽分别为C、和/>,/>表示双线性插值,/>表示经过双线性插值后所输出的上采样后的特征,/>表示反卷积,/>表示经过反卷积后所输出的上采样后的特征。
为了让上采样后的特征在进行融合时能够突出重要信息,抑制无关信息,参见图6所示,本实施例中的GLAdd模块将分别对和/>进行切块,根据通道维度和空间维度将特征切分成/>大小的子块/>和/>,/>,其中:/>;且为反卷积和双线性插值输出的上采样后的特征分别对应设置可学习参数组/>和/>,且/>和/>的大小均为/>,。
之后,GLAdd模块将经过切块后的子块特征和/>与对应的可学习参数组/>和分别相乘后,再使子块/>的相乘结果和子块特征/>的相乘结果对应相加,然后将其拼接成与特征/>和/>具有相同大小的形状,最后通过激活函数增加神经网络的非线性功能,可表示为:
其中,表示拼接操作,/>表示SiLU激活函数,拼接后的/>的形状与/>和/>形状一致。由此可见,通过将反卷积放大后的特征和双线性插值放大后的特征进行切块分组,并对每一组赋予一个可学习参数,然后进行可学习的特征组融合,从而增强特征表达,以避免融合后造成的背景特征干扰。
进一步的,所述改进后的YOLOv8目标检测算法还包括角点回归损失函数,所述角点回归损失函数包括角点损失和交并比损失。其中,所述角点回归损失函数的表达式为:
式中,表示角点回归损失函数,/>表示交并比损失函数,/>表示角点损失函数,/>预测框为/>,真实框为/>。
示范性的,需要说明的是,传统的边界框回归损失函数采用中心点和边比等作为损失的组成部分,当预测框与真实框的距离较近时中心点损失无法提供更严格的约束,或者当预测框与真实框的边比相同但其大小并不相同时无法对边界框进行回归。而本实施例则提出了一种新的角点回归损失函数,能够更为严格的监督,使得预测框能够更好更快地回归。
具体的,角点回归损失函数由角点损失和交并比损失两部分构成,其中,角点损失函数为:
其中,参见图7所示,预测框为/>,真实框为/>。
最终的角点回归损失函数为:
可以理解的是,本实施例中边界框角点回归损失函数相较于传统的边界框损失函数能够提供更为严格的监督,促进角点的直接回归,使得预测框能更好更快地回归。
综上,参见图2所示,本实施例中改进后的YOLOv8目标检测算法包括Backbone层、Neck层和Head层;Backbone层包括CBS模块、GEM模块以及空间金字塔池化模块SPPF,其中,CBS模块包括卷积层Conv、批归一化层Batchnorm2d和SiLU激活函数层,SPPF模块中包括卷积层和池化层;Neck层包括CBS模块、Concat模块、GEM模块以及FDBUM模块;Head层包括检测头Detect以及回归损失函数Loss。由此可见,在本实施例中,将传统YOLOv8目标检测算法中的所有C2f替换为GEM模块,且使用FDBUM模块取代传统YOLOv8目标检测算法中的上采样方法,最后利用角点回归损失函数来进行边界框回归。因此,本实施例可通过GEM模块来挖掘更多具有鉴别性的特征,并通过FDBUM模块使得特征上采样能够包含丰富的细节性信息,以有效抑制背景噪声干扰,最后使用角点回归损失函数/>以达到更好更快收敛的目的。
进一步的,在构建改进后的YOLOv8目标检测算法时,基于通过数据增强后的样本数据集对改进后的YOLOv8目标检测算法进行训练。
示范性的,本实施例中,在构建改进后的YOLOv8目标检测算法时,将对训练集进行预处理以及数据增强,得到完备的样本数据集,以用于改进后的YOLOv8目标检测算法的训练。具体的,对初始样本数据集中的图像进行缩放和拉伸,得到640×640像素的图片数据;然后对得到的图片数据进行数据增强,优选可通过调整饱和度和曝光度操作、平移、左右翻转、Mosaic和混合等方式进行数据增强,以增加样本数量,并对待识别目标的特征参数进行处理,从而得到数据增强后的样本数据集,然后通过其对改进后的YOLOv8目标检测算法进行训练。
步骤S30:通过所述改进后的YOLOv8目标检测算法对所述待检测图像进行目标检测识别。
示范性的,在本实施例中,通过迭代训练和更新参数得到最终的改进后的YOLOv8目标检测算法后,将待检测图像输入至该改进后的YOLOv8目标检测算法,即可通过该改进后的YOLOv8目标检测算法对待检测图像进行目标检测识别。
具体的,基于Backbone层对待检测图像进行放缩以及卷积操作,从而获得初始的特征图;基于Neck层对得到的初始特征图进行二次提取,获得不同尺度的中间特征图,即利用该算法中的多尺度来预测提升小目标检测性能;将获得的不同尺度的中间特征图输入Head层,然后通过三个尺度的检测头(即图2中的Detect)预测得到最终结果,即预测框Bbox和分类结果Cls;并基于本实施例中的角点回归损失函数PIoU和分布焦点损失函数DFL对预测框Bbox进行回归,且根据二分类交叉熵损失函数BCE对分类结果Cls进行损失计算,进而通过最小化该损失来优化模型。
由此可见,本实施例有效提升了网络对小目标稀少信息的提取,可获取更丰富更有鉴别性的特征,能够更加精确地识别小目标。
需要说明的是,本申请实施例中的各步骤的步骤标号,其并不限制本申请技术方案中各操作的前后顺序。
本申请实施例还提供了一种小目标检测装置,其特征在于,包括:
获取单元,其用于获取待检测图像;
构建单元,其用于构建改进后的YOLOv8目标检测算法,所述改进后的YOLOv8目标检测算法包括分组增强模块,所述分组增强模块包括分组模块、瓶颈模块和空间注意力模块,所述分组模块用于对输入特征进行分组,所述瓶颈模块用于对分组后的特征进行残差处理,所述空间注意力模块用于对残差处理后的特征进行空间感知;
检测单元,其用于通过所述改进后的YOLOv8目标检测算法对所述待检测图像进行目标检测识别。
进一步的,所述分组增强模块的计算公式为:
式中,表示分组增强模块输出的特征,/>表示输入特征,/>表示SiLU激活函数,/>表示/>经过分组模块分组后得到的第i组输出特征,/>表示通过瓶颈模块进行残差处理,/>表示通过空间注意力模块进行空间感知,/>表示第i组输出特征依次经过/>和/>处理后输出的特征。
进一步的,所述改进后的YOLOv8目标检测算法还包括上采样模块,所述上采样模块包括反卷积模块、双线性插值模块以及分组学习融合模块;
所述反卷积模块和所述双线性插值模块用于对输入特征进行并行的上采样处理;
所述分组学习融合模块用于对反卷积模块输出的第一上采样特征以及双线性插值模块输出的第二上采样特征进行切块处理,并基于预设的可学习参数组对切块后的特征进行可学习的特征组融合,以增强特征表达。
进一步的,所述上采样模块的计算公式为:
式中,表示上采样模块输出的特征,/>表示SiLU激活函数,/>表示与第一上采样特征对应的第一子块特征,/>表示与第一子块特征对应的可学习参数组,/>表示与第二上采样特征对应的第二子块特征,/>表示与第二子块特征对应的可学习参数组。
进一步的,所述改进后的YOLOv8目标检测算法还包括角点回归损失函数,所述角点回归损失函数包括角点损失和交并比损失。
进一步的,所述角点回归损失函数的表达式为:
式中,表示角点回归损失函数,/>表示交并比损失函数,/>表示角点损失函数,/>预测框为,真实框为/>。
进一步的,所述装置还包括训练单元,其用于在构建改进后的YOLOv8目标检测算法时,基于通过数据增强后的样本数据集对改进后的YOLOv8目标检测算法进行训练。
需要说明的是,所属本领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各单元的具体工作过程,可以参考前述小目标检测方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的小目标检测设备上运行。
本申请实施例还提供了一种小目标检测设备,包括:通过系统总线连接的存储器、处理器和网络接口,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行,以实现前述的小目标检测方法的全部步骤或部分步骤。
其中,网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
处理器可以是CPU,还可以是其他通用处理器、DSP(Digital Signal Processor,数字信号处理器)、ASIC( Application Specific Integrated Circuit,专用集成电路)、FPGA( Field Programmable Gate Array,现场可编程逻辑门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器,或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据系统的使用所创建的数据等。此外,存储器可以包括高速随存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、SMC( Smart Media Card,智能存储卡)、SD( Secure digital,安全数字)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现前述的小目标检测方法的全部步骤或部分步骤。
本申请实施例实现前述的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、ROM(Read-Only memory,只读存储器)、RAM(Random Access memory,随机存取存储器)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种小目标检测方法,其特征在于,包括以下步骤:
获取待检测图像;
构建改进后的YOLOv8目标检测算法,所述改进后的YOLOv8目标检测算法包括分组增强模块,所述分组增强模块包括分组模块、瓶颈模块和空间注意力模块,所述分组模块用于对输入特征进行分组,所述瓶颈模块用于对分组后的特征进行残差处理,所述空间注意力模块用于对残差处理后的特征进行空间感知,通过所述分组增强模块替换原始YOLOv8算法中的C2f模块;
通过所述改进后的YOLOv8目标检测算法对所述待检测图像进行目标检测识别;
其中,所述改进后的YOLOv8目标检测算法还包括上采样模块,所述上采样模块包括反卷积模块、双线性插值模块以及分组学习融合模块;
所述反卷积模块和所述双线性插值模块用于对输入特征进行并行的上采样处理;
所述分组学习融合模块用于对反卷积模块输出的第一上采样特征以及双线性插值模块输出的第二上采样特征进行切块处理,并基于预设的可学习参数组对切块后的特征进行可学习的特征组融合,以增强特征表达;
其中,所述上采样模块的计算公式为:
式中,/>表示上采样模块输出的特征,/>表示SiLU激活函数,/>表示与第二上采样特征对应的第二子块特征,/>表示与第二子块特征对应的可学习参数组,/>表示与第一上采样特征对应的第一子块特征,表示与第一子块特征对应的可学习参数组。
2.如权利要求1所述的小目标检测方法,其特征在于,所述分组增强模块的计算公式为:
式中,/>表示分组增强模块输出的特征,/>表示输入特征,/>表示SiLU激活函数,/>表示/>经过分组模块分组后得到的第i组输出特征,/>表示通过瓶颈模块进行残差处理,/>表示通过空间注意力模块进行空间感知,/>表示第i组输出特征依次经过/>和/>处理后输出的特征。
3.如权利要求1所述的小目标检测方法,其特征在于:所述改进后的YOLOv8目标检测算法还包括角点回归损失函数,所述角点回归损失函数包括角点损失和交并比损失。
4.如权利要求3所述的小目标检测方法,其特征在于,所述角点回归损失函数的表达式为:
式中,/>表示角点回归损失函数,/>表示交并比损失函数,/>表示角点损失函数,/>预测框为/>,真实框为/>。
5.如权利要求1所述的小目标检测方法,其特征在于:
在构建改进后的YOLOv8目标检测算法时,基于通过数据增强后的样本数据集对改进后的YOLOv8目标检测算法进行训练。
6.一种小目标检测装置,其特征在于,包括:
获取单元,其用于获取待检测图像;
构建单元,其用于构建改进后的YOLOv8目标检测算法,所述改进后的YOLOv8目标检测算法包括分组增强模块,所述分组增强模块包括分组模块、瓶颈模块和空间注意力模块,所述分组模块用于对输入特征进行分组,所述瓶颈模块用于对分组后的特征进行残差处理,所述空间注意力模块用于对残差处理后的特征进行空间感知,通过所述分组增强模块替换原始YOLOv8算法中的C2f模块;
检测单元,其用于通过所述改进后的YOLOv8目标检测算法对所述待检测图像进行目标检测识别;
其中,所述改进后的YOLOv8目标检测算法还包括上采样模块,所述上采样模块包括反卷积模块、双线性插值模块以及分组学习融合模块;
所述反卷积模块和所述双线性插值模块用于对输入特征进行并行的上采样处理;
所述分组学习融合模块用于对反卷积模块输出的第一上采样特征以及双线性插值模块输出的第二上采样特征进行切块处理,并基于预设的可学习参数组对切块后的特征进行可学习的特征组融合,以增强特征表达;
其中,上采样模块的计算公式为:
式中,/>表示上采样模块输出的特征,/>表示SiLU激活函数,/>表示与第二上采样特征对应的第二子块特征,/>表示与第二子块特征对应的可学习参数组,/>表示与第一上采样特征对应的第一子块特征,/>表示与第一子块特征对应的可学习参数组。
7.一种小目标检测设备,其特征在于,包括:存储器和处理器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现权利要求1至5中任一项所述的小目标检测方法。
8.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,以实现权利要求1至5中任一项所述的小目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311375564.9A CN117132767B (zh) | 2023-10-23 | 2023-10-23 | 一种小目标检测方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311375564.9A CN117132767B (zh) | 2023-10-23 | 2023-10-23 | 一种小目标检测方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117132767A CN117132767A (zh) | 2023-11-28 |
CN117132767B true CN117132767B (zh) | 2024-03-19 |
Family
ID=88854847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311375564.9A Active CN117132767B (zh) | 2023-10-23 | 2023-10-23 | 一种小目标检测方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117132767B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705521A (zh) * | 2021-09-05 | 2021-11-26 | 吉林大学第一医院 | 一种结合YOLO-MobilenetV3人脸检测的头部姿态估计方法 |
KR20220004607A (ko) * | 2020-12-25 | 2022-01-11 | 아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디. | 목표 검출방법, 전자장치, 노변장치와 클라우드 컨트롤 플랫폼 |
CN114092824A (zh) * | 2020-08-23 | 2022-02-25 | 西南科技大学 | 结合密集注意力和并行上采样的遥感图像道路分割方法 |
CN114202672A (zh) * | 2021-12-09 | 2022-03-18 | 南京理工大学 | 一种基于注意力机制的小目标检测方法 |
CN114299303A (zh) * | 2021-12-07 | 2022-04-08 | 集美大学 | 一种船舶目标检测方法、终端设备及存储介质 |
CN115205667A (zh) * | 2022-08-02 | 2022-10-18 | 江苏大学 | 一种基于YOLOv5s的密集目标检测方法 |
CN115410030A (zh) * | 2022-07-25 | 2022-11-29 | 杭州电子科技大学 | 目标检测方法、装置、计算机设备及存储介质 |
CN115588150A (zh) * | 2022-09-21 | 2023-01-10 | 杭州云象网络技术有限公司 | 基于改进YOLOv5-L的宠物犬视频目标检测方法及系统 |
-
2023
- 2023-10-23 CN CN202311375564.9A patent/CN117132767B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092824A (zh) * | 2020-08-23 | 2022-02-25 | 西南科技大学 | 结合密集注意力和并行上采样的遥感图像道路分割方法 |
KR20220004607A (ko) * | 2020-12-25 | 2022-01-11 | 아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디. | 목표 검출방법, 전자장치, 노변장치와 클라우드 컨트롤 플랫폼 |
CN113705521A (zh) * | 2021-09-05 | 2021-11-26 | 吉林大学第一医院 | 一种结合YOLO-MobilenetV3人脸检测的头部姿态估计方法 |
CN114299303A (zh) * | 2021-12-07 | 2022-04-08 | 集美大学 | 一种船舶目标检测方法、终端设备及存储介质 |
CN114202672A (zh) * | 2021-12-09 | 2022-03-18 | 南京理工大学 | 一种基于注意力机制的小目标检测方法 |
CN115410030A (zh) * | 2022-07-25 | 2022-11-29 | 杭州电子科技大学 | 目标检测方法、装置、计算机设备及存储介质 |
CN115205667A (zh) * | 2022-08-02 | 2022-10-18 | 江苏大学 | 一种基于YOLOv5s的密集目标检测方法 |
CN115588150A (zh) * | 2022-09-21 | 2023-01-10 | 杭州云象网络技术有限公司 | 基于改进YOLOv5-L的宠物犬视频目标检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
BL-YOLOv8: An Improved Road Defect Detection Model Based on YOLOv8;Xueqiu Wang et al.;《sensors》;全文 * |
Improved YOLOv8 Detection Algorithm in X-ray Contraband Liyao;Liyao Lu;《advances in Artificial Intelligence and Machine Learning》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117132767A (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508681B (zh) | 生成人体关键点检测模型的方法和装置 | |
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
CN112634209A (zh) | 一种产品缺陷检测方法和装置 | |
CN112651979B (zh) | 肺部x光图像分割方法、系统、计算机设备及存储介质 | |
CN112330696B (zh) | 人脸分割方法、装置及计算机可读存储介质 | |
CN111079685A (zh) | 一种3d目标检测方法 | |
CN109919145B (zh) | 一种基于3d点云深度学习的矿卡检测方法及系统 | |
CN110245621B (zh) | 人脸识别装置及图像处理方法、特征提取模型、存储介质 | |
CN112712546A (zh) | 一种基于孪生神经网络的目标跟踪方法 | |
WO2021164280A1 (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
CN109726195A (zh) | 一种数据增强方法及装置 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN110599453A (zh) | 一种基于图像融合的面板缺陷检测方法、装置及设备终端 | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN116994140A (zh) | 基于遥感影像的耕地提取方法、装置、设备和介质 | |
CN112883926A (zh) | 表格类医疗影像的识别方法及装置 | |
CN111095295B (zh) | 物体检测方法和装置 | |
CN111881914B (zh) | 一种基于自学习阈值的车牌字符分割方法及系统 | |
CN113160078A (zh) | 雨天交通车辆图像去雨方法、装置、设备及可读存储介质 | |
CN117132767B (zh) | 一种小目标检测方法、装置、设备及可读存储介质 | |
CN115965844B (zh) | 基于视觉显著性先验知识的多聚焦图像融合方法 | |
CN116798041A (zh) | 图像识别方法、装置和电子设备 | |
CN111241891A (zh) | 一种人脸图像切图方法、装置及计算机可读存储介质 | |
CN115578624A (zh) | 农业病虫害模型构建方法、检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |