CN116612292A - 一种基于深度学习的小目标检测方法 - Google Patents
一种基于深度学习的小目标检测方法 Download PDFInfo
- Publication number
- CN116612292A CN116612292A CN202310617739.6A CN202310617739A CN116612292A CN 116612292 A CN116612292 A CN 116612292A CN 202310617739 A CN202310617739 A CN 202310617739A CN 116612292 A CN116612292 A CN 116612292A
- Authority
- CN
- China
- Prior art keywords
- loss
- frame
- prediction
- module
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 67
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 230000006870 function Effects 0.000 claims abstract description 36
- 230000000694 effects Effects 0.000 claims abstract description 6
- 230000004927 fusion Effects 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的小目标检测方法,其方法为:第一步、获取图像样本,构建训练集;第二步、小目标检测模型的构建;第三步:将待检测的图像,利用上述第二步得到的小目标检测模型实现目标检测,有益效果:通过训练得到用于检测的改进版YOLO模型,使得整体网络结构不再臃肿,不仅压缩了网络模型,有效减少了计算量,并且更有效地利用了浅层次网络中提取的特征信息,在识别小目标物体上达到了理想的效果。采用基于双参数加权的完全交并比损失函数能让网络模型更加关注高交并比值目标,并有效提升小目标物体的检测准确度。
Description
技术领域
本发明涉及一种小目标检测方法,特别涉及一种基于深度学习的小目标检测方法。
背景技术
目前,深度学习技术在计算机视觉领域取得了长足的进步。目标检测在输入图像中检测出所有感兴趣的目标,并确定这些目标出现的位置及对应的类别。传统的目标检测算法先通过滑动窗口获得大量候选区域,再对初步定位的区域提取特征,最后根据提取的特征使用训练的分类器进行检测。传统目标检测算法运算量大,并且识别效果和准确率并不理想。基于深度学习的目标检测方法主要分为两类,即两阶段目标检测和一阶段目标检测。YOLOv5作为一阶段目标检测算法,将对象检测重新定义为一个回归问题,使用CSPDarkNet-53作为主干网络对输入图像进行特征提取,并采用特征金字塔网络(FeaturePyramid Network,FPN)和路径聚合网络(Path Aggregation Network,PAN)进行多尺度特征融合,得到三个不同尺度的输出特征层,最终经过预测部分检测出物体类别和位置。当前的方法虽然对目标检测的速度和精度都有了一定程度的提高,但无法兼顾较小的局部特征,不足以在一些应用场景下应对小目标检测任务的精度要求,因此需要改进多尺度特征融合结构,优化损失函数计算,以便提升基于深度学习的目标检测模型对于小目标的检测性能。
发明内容
本发明的目的是为了解决现有的小目标检测方法中存在的无法兼顾较小的局部特征,不足以在一些应用场景下应对小目标检测任务的精度要求的问题,而提供的一种基于深度学习的小目标检测方法。
本发明提供的基于深度学习的小目标检测方法,其方法包括的步骤如下:
第一步、获取图像样本,构建训练集;
第二步、小目标检测模型的构建,具体步骤如下:
步骤1、在输入端对输入图像采用马赛克增强的方式进行数据预处理;
步骤2、通过主干网络来提取图像的特征;
步骤3、通过基于特征金字塔的结构将提取的特征进行处理得到多尺度融合特征;
在输入图像上进行深度卷积,不断进行下采样操作,再对高层特征进行上采样,对具有相同尺寸的特征图在通道维度上进行拼接操作,达到特征融合目的,即通过结合自上而下和自下而上方法获得较强的语义特征,运用浅层的细节信息提升模型对于小目标的检测性能;
步骤4、采用综合矩形框损失、分类损失和置信度损失的损失函数,其中矩形框损失是通过基于双参数加权的完全交并比损失来计算的,对深度网络进行训练,得到小目标检测模型,矩形框损失等同于基于双参数加权的完全交并比损失Lossαβ-CIoU,具体公式如下:
其中b和bgt分别表示预测框和真实框的中心点,ρ表示两个中心点之间的欧式距离,c表示预测框和真实框的最小闭包区域的对角线距离,δ是权重参数,v用来衡量预测框宽高比和真实框宽高比的相似度,IoU是预测框与真实框的交并比,其中:
第三步:将待检测的图像,利用上述第二步得到的小目标检测模型实现目标检测,具体步骤如下:
在输入端对待检测的图像进行自适应黑边填充预处理;通过主干网络对输入图像进行特征提取;通过基于特征金字塔的网络结构将提取到的特征进行处理,得到多尺度的融合特征;通过预测端对于得到的多尺度融合特征图进行网格化预测,由预测出来的物体目标框和置信度获得图像的目标检测效果。
第二步的步骤2中的主干网络包括CBS卷积模块、CSP1_x模块和SPPF模块,在CBS模块中,Conv为卷积层,用于提取特征,通过对输入图像进行采样从而获得更加丰富的特征信息;BN为批量归一化,利用优化方差大小和均值分布,加速模型训练;SiLU为Swish激活函数,是Sigmoid加权线性组合。
第二步的步骤3中包含CBS模块、Upsample、Concat和CSP2_x模块,特征金字塔浅层的特征图语义信息较少,主要反映细节信息,其所携带的位置信息更强,深层的特征所携带的语义信息较丰富,而位置信息更弱,特征金字塔结构的思想就是通过特征融合把深层的语义信息与浅层的细节信息相结合,兼顾了细节和整体,基于FPN结构进行改进的具体实现过程如下:
网络主干部分的快速空间金字塔池化模块的输出经过1个卷积核大小为1×1的CBS模块,再通过采用最近邻差值方式的2倍上采样后与第6层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,经过1个CSP2_x模块后,作为预测端的其中一个输入;在CSP2_x模块后继续通过1个卷积核大小为1×1的CBS模块和最近邻差值方式的2倍上采样,与第4层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,再经过1个CSP2_x模块后,作为预测端的第二个输入;继续通过1个卷积核大小为1×1的CBS模块和最近邻差值方式的2倍上采样,与第2层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,再经过CSP2_x模块后,作为预测端的第三个输入,此时获得3个不同尺寸的融合特征图。
第二步步骤4中得到小目标检测模型的具体步骤如下:
1)、网络模型的预测部分中,在3个不同尺寸的特征图上划分网格,每个网格都预设3个不同宽高比的锚框,用来预测和回归目标,预测时采取跨网格扩充的策略,即当1个GT的中心点落在某个检测层上的某个网格中,除了中心点所在的网格之外,其左、上、右、下4个邻域的网格中,靠近GT中心点的两个网格中的锚框也会参与预测和回归,具体公式如下所示:
bx=2σ(tx)-0.5+cx
by=2σ(ty)-0.5+cy
bw=pw×(2σ(tw))2
bh=ph×(2σ(th))2 (1)
其中bx、by、bw、bh表分别示预测框的中心点坐标、宽度和高度,cx、cy分别表示预测框中心点所在网格的左上角坐标,tx、ty分别控制预测框的中心点相对于网格左上角坐标的偏移量大小,tw、th分别控制预测框的宽高相对于锚框宽高的缩放比例,pw、ph分别表示先验锚框的宽和高,公式中使用Sigmoid函数处理偏移量,使预测的偏移值保持在(0,1)范围内,从而使得预测框中心点坐标的偏移量保持在(-0.5,1.5)范围内;
2)、对特征图的每个网格进行预测之后,将得到的预测信息与真实信息进行对比,从而调整模型的改进方向,损失函数能够衡量预测信息和真实信息之间的差距,若预测信息越接近真实信息,则损失函数值越小,损失函数主要包含三个方面:矩形框损失Lossbbox、分类损失Losscls和置信度损失Lossobj,具体公式如下:
Loss=boxgain×Lossbbox+clsgain×Losscls+objgain×Lossobj (2)
其中boxgain为矩形框损失的权重系数,设置为0.05,clsgain为分类损失的权重系数,设置为0.5,objgain为置信度损失的权重系数,设置为1.0;
对于矩形框损失,使用基于交并比的损失函数进行计算,交并比能够衡量目标检测中预测框与真实框的重叠程度,若预测框为A,真实框为B,则交并比的具体公式如下:
YOLOv5计算矩形框损失,公式如下:
其中b和bgt分别表示预测框和真实框的中心点,ρ表示两个中心点之间的欧式距离,c表示预测框和真实框的最小闭包区域的对角线距离,δ是权重参数,v用来衡量预测框和真实框宽高比的相似度,具体公式如下:
在此基础上采用基于双参数加权的完全交并比损失Lossαβ-CIoU的计算矩形框损失,具体公式如下:
对于分类损失,使用二元交叉熵函数计算,具体公式如下:
其中y为输入样本对应的标签,正样本为1,负样本为0,p为模型预测该输入样本为正样本的概率;
对于置信度损失,根据网格对应的预测框与真实框的αβ-CIoU值作为该预测框的置信度标签,并结合二元交叉熵函数进行计算,具体公式如下:
Lossobj=-Lable×log P-(1-Lable)×log(1-P) (8)
其中Lable为置信度标签矩阵,P为预测置信度矩阵;
对于不同尺度上检测到的置信度损失,按照检测层尺度从大到小的顺序,将对应尺度默认的权重系数分别改进为3.0、1.0、0.4,即用于检测小目标的大尺度特征图上的损失权重系数为3.0,能使得网络在训练时侧重于小目标;
3)、通过上述的损失函数,对网络模型进行多轮训练,在训练中不断调整参数,损失函数值逐渐减低,直至模型达到收敛,得到训练好的目标检测模型。
本发明的有益效果:
本发明提供的基于深度学习的小目标检测方法预先利用公开的图像数据集对YOLOv5 v6.1的模型进行改进,通过训练得到用于检测的改进版YOLO模型,该模型包括输入部分、主干部分,多尺度特征融合网络部分和预测部分。该方法改进特征融合部分的网络结构,使用FPN代替原先网络模型中的FPN+PAN结构,使得整体网络结构不再臃肿,不仅压缩了网络模型,有效减少了计算量,并且更有效地利用了浅层次网络中提取的特征信息,在识别小目标物体上达到了理想的效果。采用基于双参数加权的完全交并比损失函数能让网络模型更加关注高交并比值目标,并有效提升小目标物体的检测准确度。
附图说明
图1为本发明所述的利用公开的目标检测数据集训练模型的流程示意图。
图2为本发明所述的改进的目标检测网络模型结构示意图。
图3为本发明所述的CSB模块结构示意图。
图4为本发明所述的CSP1_x模块结构示意图。
图5为本发明所述的SPPF模块结构示意图。
图6为本发明所述的CSP2_x模块结构示意图。
图7为本发明所述的FPN结构示意图。
具体实施方式
请参阅图1至图7所示:
本发明提供的基于深度学习的小目标检测方法;
所需条件:普通PC机,操作系统采用Ubuntu 18.04.3,显卡NVIDIA GeForce RTX2080Ti,深度学习框架为Pytorch 1.8.1,编译环境Python3.6.13。
具体步骤如下:
第一步、获取图像样本,构建训练集;
第二步、小目标检测模型的构建,具体步骤如下:
步骤1、将待训练的图像数据集进行马赛克增强数据预处理。采用马赛克数据增强的方式,从数据集中每次随机读取4张图片分别进行翻转、缩放、色域变化等操作,再将4张图片按照左上、左下、右上、右下排列拼接成一张新的图片,主要用于丰富数据集并在训练过程中提升小目标检测的性能;
在本申请实施例中,目标检测数据集为VisDrone目标检测数据集。可以根据实际应用进行选取,本申请实施例不加以限定。
步骤2、通过主干网络提取图像特征,主要包括CBS卷积模块、CSP1_x模块和SPPF模块。在CBS模块中,Conv为卷积层,用于提取特征,通过对输入图像进行采样从而获得更加丰富的特征信息;BN为批量归一化,利用优化方差大小和均值分布,加速模型训练;SiLU为Swish激活函数,是Sigmoid加权线性组合,该模块结构如图3所示。另包含CSP1_x模块,如图4所示;SPPF模块如图5所示。通过以上模块提取图像特征;
步骤3、通过基于FPN结构的特征融合部分,将提取的图像特征进行多尺度融合,该部分包含CBS模块、Upsample、Concat、CSP2_x模块,CSP2_x模块结构如图6所示,FPN结构如图7所示。特征金字塔浅层的特征图语义信息较少,主要反映细节信息,其所携带的位置信息更强,深层的特征所携带的语义信息较丰富,而位置信息更弱。特征金字塔结构的思想就是通过特征融合把深层的语义信息与浅层的细节信息相结合,兼顾了细节和整体。基于FPN结构进行改进的具体实现过程如下:
网络主干部分的快速空间金字塔池化模块的输出经过1个卷积核大小为1×1的CBS模块,再通过采用最近邻差值方式的2倍上采样后与第6层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,经过1个CSP2_x模块后,作为预测端的其中一个输入;在CSP2_x模块后继续通过1个卷积核大小为1×1的CBS模块和最近邻差值方式的2倍上采样,与第4层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,再经过1个CSP2_x模块后,作为预测端的第二个输入;继续通过1个卷积核大小为1×1的CBS模块和最近邻差值方式的2倍上采样,与第2层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,再经过CSP2_x模块后,作为预测端的第三个输入,此时获得3个不同尺寸的融合特征图。
步骤4、采用综合矩形框损失、分类损失和置信度损失的损失函数,其中矩形框损失是通过基于双参数加权的完全交并比损失来计算的,对深度网络进行训练,得到小目标检测模型。具体如下:
1)、网络模型的预测部分中,在3个不同尺寸的特征图上划分网格,每个网格都预设3个不同宽高比的锚框,用来预测和回归目标。预测时采取跨网格扩充的策略,即当1个GT的中心点落在某个检测层上的某个网格中,除了中心点所在的网格之外,其左、上、右、下4个邻域的网格中,靠近GT中心点的两个网格中的锚框也会参与预测和回归,具体公式如下所示:
其中bx、by、bw、bh表分别示预测框的中心点坐标、宽度和高度,cx、cy分别表示预测框中心点所在网格的左上角坐标,tx、ty分别控制预测框的中心点相对于网格左上角坐标的偏移量大小,tw、th分别控制预测框的宽高相对于锚框宽高的缩放比例,pw、ph分别表示先验锚框的宽和高。公式中使用Sigmoid函数处理偏移量,使预测的偏移值保持在(0,1)范围内,从而使得预测框中心点坐标的偏移量保持在(-0.5,1.5)范围内。
2)、对特征图的每个网格进行预测之后,将得到的预测信息与真实信息进行对比,从而调整模型的改进方向。损失函数可以衡量预测信息和真实信息之间的差距,若预测信息越接近真实信息,则损失函数值越小。本发明的损失函数主要包含三个方面:矩形框损失(Lossbbox)、分类损失(Losscls)、置信度损失(Lossobj)具体公式如下:
Loss=boxgain×Lossbbox+clsgain×Losscls+objgain×Lossobj (2)
其中boxgain为矩形框损失的权重系数,本发明设置为0.05,clsgain为分类损失的权重系数,本发明设置为0.5,objgain为置信度损失的权重系数,本发明设置为1.0。
对于矩形框损失,使用基于交并比的损失函数进行计算。交并比可以衡量目标检测中预测框与真实框的重叠程度,若预测框为A,真实框为B,则交并比的具体公式如下:
YOLOv5计算矩形框损失,公式如下:
其中b和bgt分别表示预测框和真实框的中心点,ρ表示两个中心点之间的欧式距离,c表示预测框和真实框的最小闭包区域的对角线距离,δ是权重参数,v用来衡量预测框和真实框宽高比的相似度,具体公式如下:
本发明在此基础上采用基于双参数加权的完全交并比损失Lossαβ-CIoU的计算矩形框损失,具体公式如下:
对于分类损失,使用二元交叉熵函数计算,具体公式如下:
其中y为输入样本对应的标签(正样本为1,负样本为0),p为模型预测该输入样本为正样本的概率。
对于置信度损失,根据网格对应的预测框与真实框的αβ-CIoU值作为该预测框的置信度标签,并结合二元交叉熵函数进行计算,具体公式如下:
Lossobj=-Lable×log P-(1-Lable)×log(1-P) (8)
其中Lable为置信度标签矩阵,P为预测置信度矩阵。
对于不同尺度上检测到的置信度损失,按照检测层尺度从大到小的顺序,将对应尺度默认的权重系数分别改进为3.0、1.0、0.4,即用于检测小目标的大尺度特征图上的损失权重系数为3.0,能使得网络在训练时侧重于小目标。
3)、通过上述的损失函数,对网络模型进行多轮训练,在训练中不断调整参数,损失函数值逐渐减低,直至模型达到收敛,得到训练好的目标检测模型。
第三步、将待检测的图像,利用上述第二步得到的小目标检测模型实现目标检测,具体实现过程如下。
先对输入图像进行自适应图片缩放,将原始图片自适应添加最少黑边,再将处理后的待检测图像输入主干网络提取特征;通过FPN结构的特征融合部分将提取的特征进行处理得到多尺度融合特征图;通过预测端处理多尺度融合特征图预测出物体的类别、边界框以及置信度;由预测出来的物体类别、置信度、边界框信息获得图像最终的目标检测效果。
Claims (4)
1.一种基于深度学习的小目标检测方法,其特征在于:其方法包括的步骤如下:
第一步、获取图像样本,构建训练集;
第二步、小目标检测模型的构建,具体步骤如下:
步骤1、在输入端对输入图像采用马赛克增强的方式进行数据预处理;
步骤2、通过主干网络来提取图像的特征;
步骤3、通过基于特征金字塔的结构将提取的特征进行处理得到多尺度融合特征;
在输入图像上进行深度卷积,不断进行下采样操作,再对高层特征进行上采样,对具有相同尺寸的特征图在通道维度上进行拼接操作,达到特征融合目的,即通过结合自上而下和自下而上方法获得较强的语义特征,运用浅层的细节信息提升模型对于小目标的检测性能;
步骤4、采用综合矩形框损失、分类损失和置信度损失的损失函数,其中矩形框损失是通过基于双参数加权的完全交并比损失来计算的,对深度网络进行训练,得到小目标检测模型,矩形框损失等同于基于双参数加权的完全交并比损失Lossαβ-CIoU,具体公式如下:
其中b和bgt分别表示预测框和真实框的中心点,ρ表示两个中心点之间的欧式距离,c表示预测框和真实框的最小闭包区域的对角线距离,δ是权重参数,v用来衡量预测框宽高比和真实框宽高比的相似度,IoU是预测框与真实框的交并比,其中:
第三步:将待检测的图像,利用上述第二步得到的小目标检测模型实现目标检测,具体步骤如下:
在输入端对待检测的图像进行自适应黑边填充预处理;通过主干网络对输入图像进行特征提取;通过基于特征金字塔的网络结构将提取到的特征进行处理,得到多尺度的融合特征;通过预测端对于得到的多尺度融合特征图进行网格化预测,由预测出来的物体目标框和置信度获得图像的目标检测效果。
2.根据权利要求1所述的一种基于深度学习的小目标检测方法,其特征在于:所述的第二步的步骤2中的主干网络包括CBS卷积模块、CSP1_x模块和SPPF模块,在CBS模块中,Conv为卷积层,用于提取特征,通过对输入图像进行采样从而获得更加丰富的特征信息;BN为批量归一化,利用优化方差大小和均值分布,加速模型训练;SiLU为Swish激活函数,是Sigmoid加权线性组合。
3.根据权利要求1所述的一种基于深度学习的小目标检测方法,其特征在于:所述的第二步的步骤3中包含CBS模块、Upsample、Concat和CSP2_x模块,特征金字塔浅层的特征图语义信息较少,主要反映细节信息,其所携带的位置信息更强,深层的特征所携带的语义信息较丰富,而位置信息更弱,特征金字塔结构的思想就是通过特征融合把深层的语义信息与浅层的细节信息相结合,兼顾了细节和整体,基于FPN结构进行改进的具体实现过程如下:
网络主干部分的快速空间金字塔池化模块的输出经过1个卷积核大小为1×1的CBS模块,再通过采用最近邻差值方式的2倍上采样后与第6层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,经过1个CSP2_x模块后,作为预测端的其中一个输入;在CSP2_x模块后继续通过1个卷积核大小为1×1的CBS模块和最近邻差值方式的2倍上采样,与第4层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,再经过1个CSP2_x模块后,作为预测端的第二个输入;继续通过1个卷积核大小为1×1的CBS模块和最近邻差值方式的2倍上采样,与第2层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,再经过CSP2_x模块后,作为预测端的第三个输入,此时获得3个不同尺寸的融合特征图。
4.根据权利要求1所述的一种基于深度学习的小目标检测方法,其特征在于:所述的第二步的步骤4中得到小目标检测模型的具体步骤如下:
1)、网络模型的预测部分中,在3个不同尺寸的特征图上划分网格,每个网格都预设3个不同宽高比的锚框,用来预测和回归目标,预测时采取跨网格扩充的策略,即当1个GT的中心点落在某个检测层上的某个网格中,除了中心点所在的网格之外,其左、上、右、下4个邻域的网格中,靠近GT中心点的两个网格中的锚框也会参与预测和回归,具体公式如下所示:
bx=2σ(tx)-0.5+cx
by=2σ(ty)-0.5+cy
bw=pw×(2σ(tw))2
bh=ph×(2σ(th))2 (1)
其中bx、by、bw、bh表分别示预测框的中心点坐标、宽度和高度,cx、cy分别表示预测框中心点所在网格的左上角坐标,tx、ty分别控制预测框的中心点相对于网格左上角坐标的偏移量大小,tw、th分别控制预测框的宽高相对于锚框宽高的缩放比例,pw、ph分别表示先验锚框的宽和高,公式中使用Sigmoid函数处理偏移量,使预测的偏移值保持在(0,1)范围内,从而使得预测框中心点坐标的偏移量保持在(-0.5,1.5)范围内;
2)、对特征图的每个网格进行预测之后,将得到的预测信息与真实信息进行对比,从而调整模型的改进方向,损失函数能够衡量预测信息和真实信息之间的差距,若预测信息越接近真实信息,则损失函数值越小,损失函数主要包含三个方面:矩形框损失Lossbbox、分类损失Losscls和置信度损失Lossobj,具体公式如下:
Loss=boxgain×Lossbbox+clsgain×Losscls+objgain×Lossobj (2)
其中boxgain为矩形框损失的权重系数,设置为0.05,clsgain为分类损失的权重系数,设置为0.5,objgain为置信度损失的权重系数,设置为1.0;
对于矩形框损失,使用基于交并比的损失函数进行计算,交并比能够衡量目标检测中预测框与真实框的重叠程度,若预测框为A,真实框为B,则交并比的具体公式如下:
YOLOv5计算矩形框损失,公式如下:
其中b和bgt分别表示预测框和真实框的中心点,ρ表示两个中心点之间的欧式距离,c表示预测框和真实框的最小闭包区域的对角线距离,δ是权重参数,v用来衡量预测框和真实框宽高比的相似度,具体公式如下:
在此基础上采用基于双参数加权的完全交并比损失Lossαβ-CIoU的计算矩形框损失,具体公式如下:
对于分类损失,使用二元交叉熵函数计算,具体公式如下:
其中y为输入样本对应的标签,正样本为1,负样本为0,p为模型预测该输入样本为正样本的概率;
对于置信度损失,根据网格对应的预测框与真实框的αβ-CIoU值作为该预测框的置信度标签,并结合二元交叉熵函数进行计算,具体公式如下:
Lossobj=-Lable×logP-(1-Lable)×log(1-P) (8)
其中Lable为置信度标签矩阵,P为预测置信度矩阵;
对于不同尺度上检测到的置信度损失,按照检测层尺度从大到小的顺序,将对应尺度默认的权重系数分别改进为3.0、1.0、0.4,即用于检测小目标的大尺度特征图上的损失权重系数为3.0,能使得网络在训练时侧重于小目标;
3)、通过上述的损失函数,对网络模型进行多轮训练,在训练中不断调整参数,损失函数值逐渐减低,直至模型达到收敛,得到训练好的目标检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310617739.6A CN116612292A (zh) | 2023-05-29 | 2023-05-29 | 一种基于深度学习的小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310617739.6A CN116612292A (zh) | 2023-05-29 | 2023-05-29 | 一种基于深度学习的小目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116612292A true CN116612292A (zh) | 2023-08-18 |
Family
ID=87685131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310617739.6A Pending CN116612292A (zh) | 2023-05-29 | 2023-05-29 | 一种基于深度学习的小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612292A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824467A (zh) * | 2023-08-30 | 2023-09-29 | 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) | 一种排水管道流量智能测量方法 |
CN116843999A (zh) * | 2023-09-04 | 2023-10-03 | 四川泓宝润业工程技术有限公司 | 一种基于深度学习的动火作业中气瓶检测方法 |
CN117237614A (zh) * | 2023-11-10 | 2023-12-15 | 江西啄木蜂科技有限公司 | 基于深度学习的湖面漂浮物小目标检测方法 |
CN117315670A (zh) * | 2023-09-26 | 2023-12-29 | 天津市金超利达科技有限公司 | 一种基于计算机视觉的水表读数区域检测方法 |
-
2023
- 2023-05-29 CN CN202310617739.6A patent/CN116612292A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824467A (zh) * | 2023-08-30 | 2023-09-29 | 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) | 一种排水管道流量智能测量方法 |
CN116824467B (zh) * | 2023-08-30 | 2023-11-07 | 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) | 一种排水管道流量智能测量方法 |
CN116843999A (zh) * | 2023-09-04 | 2023-10-03 | 四川泓宝润业工程技术有限公司 | 一种基于深度学习的动火作业中气瓶检测方法 |
CN116843999B (zh) * | 2023-09-04 | 2023-12-08 | 四川泓宝润业工程技术有限公司 | 一种基于深度学习的动火作业中气瓶检测方法 |
CN117315670A (zh) * | 2023-09-26 | 2023-12-29 | 天津市金超利达科技有限公司 | 一种基于计算机视觉的水表读数区域检测方法 |
CN117237614A (zh) * | 2023-11-10 | 2023-12-15 | 江西啄木蜂科技有限公司 | 基于深度学习的湖面漂浮物小目标检测方法 |
CN117237614B (zh) * | 2023-11-10 | 2024-02-06 | 江西啄木蜂科技有限公司 | 基于深度学习的湖面漂浮物小目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116612292A (zh) | 一种基于深度学习的小目标检测方法 | |
US10121245B2 (en) | Identification of inflammation in tissue images | |
CN110580699A (zh) | 基于改进Faster RCNN算法的病理图像细胞核检测方法 | |
CN111914698B (zh) | 图像中人体的分割方法、分割系统、电子设备及存储介质 | |
CN111353544B (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN110751619A (zh) | 一种绝缘子缺陷检测方法 | |
CN112926486A (zh) | 一种舰船小目标的改进RFBnet目标检测算法 | |
CN111626145B (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN114332921A (zh) | 基于改进聚类算法的Faster R-CNN网络的行人检测方法 | |
CN111027526A (zh) | 一种提高车辆目标检测识别检测效率的方法 | |
CN113920468A (zh) | 一种基于跨尺度特征增强的多分支行人检测方法 | |
CN117456376A (zh) | 一种基于深度学习的遥感卫星影像目标检测方法 | |
CN117593264A (zh) | 一种改进的联合YOLOv5和知识蒸馏的汽车发动机缸孔内壁检测方法 | |
CN111553361B (zh) | 一种病理切片标签识别方法 | |
CN116740572A (zh) | 一种基于改进yolox的海上船舰目标检测方法和系统 | |
CN116758340A (zh) | 基于超分辨率特征金字塔和注意力机制的小目标检测方法 | |
Li et al. | Synthetic data generation based on local-foreground generative adversarial networks for surface defect detection | |
Wang et al. | Cascading classifier with discriminative multi-features for a specific 3D object real-time detection | |
CN113192018B (zh) | 基于快速分割卷积神经网络的水冷壁表面缺陷视频识别方法 | |
CN115775226A (zh) | 基于Transformer的医学图像分类方法 | |
CN114927236A (zh) | 一种面向多重目标图像的检测方法及系统 | |
CN115100457A (zh) | 一种联合深度学习与cfar的sar图像目标检测方法 | |
CN114332754A (zh) | 基于多度量检测器的Cascade R-CNN行人检测方法 | |
CN114387489A (zh) | 电力设备识别方法、装置和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |