CN117079163A - 一种基于改进yolox-s的航拍图像小目标检测方法 - Google Patents
一种基于改进yolox-s的航拍图像小目标检测方法 Download PDFInfo
- Publication number
- CN117079163A CN117079163A CN202311079484.9A CN202311079484A CN117079163A CN 117079163 A CN117079163 A CN 117079163A CN 202311079484 A CN202311079484 A CN 202311079484A CN 117079163 A CN117079163 A CN 117079163A
- Authority
- CN
- China
- Prior art keywords
- yolox
- improved
- model
- network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 96
- 238000012549 training Methods 0.000 claims abstract description 59
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/86—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using syntactic or structural representations of the image or video pattern, e.g. symbolic string recognition; using graph matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于改进YOLOX‑S的航拍图像小目标检测方法,包括采集航拍目标图像数据,构建数据集;进行基本图像预处理和Mosaic图像增强;进行融合坐标注意力机制的多尺度特征提取和基于双向特征金字塔网络的多尺度特征融合;进行神经网络训练,并计算损失函数,再进行模型更新;利用训练后的改进型YOLOX‑S网络模型进行检测推理。本发明的有益效果是:本发明融入更浅层级的特征图,可以得到更丰富的特征信息,从而提高检测精度;引入注意力机制,使网络能够更加关注目标特征信息,忽略背景信息的干扰,从而提高小目标的检测准确率和精度。
Description
技术领域
本发明涉及目标检测技术领域,更确切地说,它涉及一种基于改进YOLOX-S的航拍图像小目标检测方法。
背景技术
航拍图像目标检测是对空中拍摄的俯视图像中的目标进行定位和分类的技术。随着计算机视觉技术和无人机技术的飞速发展,采用无人机搭载云台相机进行地面目标的检测与定位技术也得到了迅速的发展。由于无人机能够对目标采取主动式的检测、跟踪和定位,使其在侦查和导航上具有很大的优势,因此这项技术被广泛应用于电力巡检、野生动物监视、交通监控等民用领域。因此研究航拍图像目标检测技术具有十分重大的意义。
近年来,随着深度学习技术的迅速发展,航拍图像目标检测技术已经取得了重大的进步,如YOLO、SSD、Faster R-CNN等模型被用于航拍图像目标检测中,通过对大量的数据进行训练,这些模型能够快速、准确地识别和定位目标,具有较高的识别精度和实时性。
尽管航拍图像目标检测技术发展迅猛,复杂背景下的航拍图像小目标检测仍面临着许多挑战。目前的YOLOX-S算法在处理小目标检测时特征表达能力不足,导致检测效果不佳。而航拍图像通常易受背景干扰、背景复杂多变、目标占比小、目标尺度变化大,这些因素使得目标检测比较困难。特别是在小目标的检测方面,小目标常常隐藏在复杂的背景中,加之小目标的尺寸通常很小,容易被周围的干扰物所遮挡,这给目标检测带来了极大的困难。此外,小目标的对比度较低,往往与周围背景融为一体,难以被准确地检测和识别。
发明内容
本发明的目的是针对现有技术的不足,提出了一种基于改进YOLOX-S的航拍图像小目标检测方法。
第一方面,提供了基于改进YOLOX-S的航拍图像小目标检测方法,包括:
S1、改进型YOLOX-S网络模型训练;
S1包括:
S101、采集航拍目标图像数据,构建数据集;所述数据集包括训练集、验证集和测试集;
S102、进行基本图像预处理和Mosaic图像增强;
S103、进行融合坐标注意力机制的多尺度特征提取和基于双向特征金字塔网络的多尺度特征融合;
S104、进行神经网络训练,并计算损失函数,再进行模型更新;
S2、利用训练后的改进型YOLOX-S网络模型进行检测推理;
S2包括:
S201、向训练后的改进型YOLOX-S网络模型输入待检测航拍目标图像;
S202、进行图像特征提取与回归预测;
S203、对检测结果进行处理和输出。
作为优选,S103中,在主干特征提取网络融入对浅层级特征的进一步提取,并在YOLOX-S模型的各个卷积block处引入坐标注意力机制模块,使得模型在训练过程能够自适应的提取关键的前景目标信息,抑制背景信息。
作为优选,S103中,在检测头网络中新增了浅层图像特征细粒度预测头。
作为优选,S103中,YOLOX-S网络模型的颈部网络由FPN+PAN结构替换为BiFPN结构。
作为优选,S104中,训练过程采用交叉熵损失函数来计算类别损失,采用FocalLoss来计算置信度损失,采用EIoU Loss来计算预测框损失。
作为优选,S104中,前向传播完成后,采用梯度下降的方式对模型反向传播,更新模型的网络参数,若模型收敛或达到最大迭代数,将训练好的模型作为最终使用的模型;若模型未达到收敛或未达到最大迭代数,则继续执行模型训练过程。
作为优选,S202中,在特征提取与融合后,通过分类和回归分支对目标物体进行识别和位置预测,在分类分支中,利用softmax函数将特征映射到不同类别的概率上;在回归分支中,利用边界框回归的方式预测目标物体的位置信息,包括目标物体的中心坐标和宽高。
作为优选,S203包括:
S2031、合并多层检测头检测结果;
S2032、执行非极大值抑制;
S2033、解码检测结果,并进行输出。
第二方面,提供了一种基于改进YOLOX-S的航拍图像小目标检测系统,用于执行第一方面任一所述的基于改进YOLOX-S的航拍图像小目标检测方法,包括:
训练模块,用于改进型YOLOX-S网络模型训练;
训练模块包括:
采集单元,用于采集航拍目标图像数据,构建数据集;所述数据集包括训练集、验证集和测试集;
处理单元,用于进行基本图像预处理和Mosaic图像增强;
提取单元,用于进行融合坐标注意力机制的多尺度特征提取和基于双向特征金字塔网络的多尺度特征融合;
训练单元,用于进行神经网络训练,并计算损失函数,再进行模型更新;
检测模块,用于利用训练后的改进型YOLOX-S网络模型进行检测推理;
检测模块包括:
输入单元,用于向训练后的改进型YOLOX-S网络模型输入待检测航拍目标图像;
预测单元,用于进行图像特征提取与回归预测;
输出单元,用于对检测结果进行处理和输出。
第三方面,提供了一种计算机存储介质,所述计算机存储介质内存储有计算机程序;所述计算机程序在计算机上运行时,使得计算机执行第一方面任一所述的基于改进YOLOX-S的航拍图像小目标检测方法。
本发明的有益效果是:本发明融入更浅层级的特征图,可以得到更丰富的特征信息,从而提高检测精度;将YOLOX-S模型颈部网络的FPN+PAN结构替换为BiFPN结构,显著减少模型参数量,实现更多层次特征的融合;引入注意力机制,使网络能够更加关注目标特征信息,忽略背景信息的干扰,从而提高小目标的检测准确率和精度;通过改善模型的预测框损失函数与置信度损失函数,可以加强模型对目标位置识别的能力。
附图说明
图1为本发明改进YOLOX-S网络模型训练流程图;
图2为本发明Mosaic图像增强流程示意图;
图3为原YOLOX-S模型网络结构图;
图4为改进型YOLOX-S模型网络结构图;
图5为本发明改进YOLOX-S网络模型推理流程图;
图6为一个实施例中基于改进YOLOX-S模型的航拍图像小目标检测方法的检测结果示意图;
图7为一个实施例中基于改进YOLOX-S模型的航拍图像小目标检测方法的检测结果示意图;
图8为一个实施例中基于改进YOLOX-S模型的航拍图像小目标检测方法的检测结果示意图。
具体实施方式
下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
实施例1:
本申请实施例1提供了基于改进YOLOX-S的航拍图像小目标检测方法,能够处理复杂背景下的目标检测问题,能够有效解决目标数量多、尺度变化大、背景复杂、遮挡等问题,具有更强的适应性和鲁棒性,并且在检测相对较小的目标时,改进的模型能够更好地检测到细小、模糊的目标。此外,可以快速进行目标检测,满足实时、准确检测和识别的需求。
具体的,本发明提供的基于改进YOLOX-S的航拍图像小目标检测方法包括:
S1、改进型YOLOX-S网络模型训练;
如图1所示,S1包括:
S101、采集航拍目标图像数据,构建数据集;所述数据集包括训练集、验证集和测试集。
具体的,从互联网、已有数据集或其他来源中搜集与目标对象相关的图像数据,并将其分类为不同的类别。将数据集划分为训练集、验证集,其中训练集用于模型训练,验证集用于模型调参和选择最优模型。使用Labelme软件对数据进行标注,将标注的数据转换为VOC格式,生成JPEG图像和对应的XML标注文件。
S102、进行基本图像预处理和Mosaic图像增强。
其中,对获得的原始数据集进行图像预处理,包括图像尺寸变换和图像随机裁剪。调整图像大小,将输入图像缩放到固定合适的大小,随机对图像进行水平、垂直翻转或者旋转,再对图像进行归一化和标准化处理。比如,通过图像尺寸变换,原始数据集中不同尺寸大小的图像变为长宽分别为固定值D=640维,便于后续模型训练。通过图像随机裁剪,将训练图像部分随机擦除,从而在训练过程中提高模型精度和模型稳定性。
Mosaic数据增强方法的主要思想是将四张图片进行随机缩放、随机裁减、随机排布,再拼接到一张图上作为训练数据。Mosaic图像增强流程如图2所示,首先,从数据集中随机挑选四张图,并对每张图分别执行随机缩放、随机翻转、色域变换等操作;然后,在指定范围内随机选取四角分界线,并将四张图像填充进分界线划分的四个区域中,图像超出边界的像素直接丢弃,至此,该张训练图像的制作完成。以上流程重复多次,直到本批次所有增强图像制作完毕。
S103、进行融合坐标注意力机制的多尺度特征提取和基于双向特征金字塔网络的多尺度特征融合。
S103包括:
S1031、进行融合坐标注意力机制的多尺度特征提取。
需要说明的,浅层级的特征图,可以得到更丰富的特征信息,本发明在主干特征提取网络融入对浅层级特征的进一步提取,并在YOLOX-S模型的各个卷积block处引入坐标注意力机制模块,使得模型在训练过程能够自适应的提取关键的前景目标信息,抑制背景信息。
示例地,原YOLOX-S模型网络结构如图3所示,第一层主干特征提取网络先通过Focus切片操作将输入图像下采样2倍,得到尺度为P1的特征图。然后经过三次CSP结构,分别得到下采样4倍、8倍和16倍的特征图,尺度分别为P2,P3,P4。接着SPP中的最大池化又将特征图缩小2两倍,尺度变为P5。模型中间层FPN和PAN对骨干网络中尺度为P3,P4,P5的特征图,通过上采样和下采样,进行了自顶向下和自底向上的融合,最终输出尺度为P3′,P4′,P5′的特征图进行检测。
针对复杂场景下目标尺寸小的问题,而浅层的特征图尺度大感受野小,包含的小目标特征信息多,因此本发明对浅层级特征进一步加强提取,然后将各层级的特征图进行融合,得到更丰富的特征信息,从而提高检测精度。改进后的多尺度特征网络如图4所示。若输入图像大小为640×640,本发明从改进后的第一层特征提取主干网络的P2,P3,P4,P5层提取出160×160,80×80,40×40,20×20四种不同分辨率的特征图作为BiFPN网络的输入。
针对复杂背景下小目标对比度较低,容易与周围背景融为一体的问题,在目标检测网络中引入注意力机制,使网络能够更加关注目标特征信息,忽略背景信息的干扰,从而提高小目标的检测准确率和精度。在本实施例中向模型中引入了坐标注意力机制模块(Coordinate Attention,CA),CA注意力机制能够为模型的性能带来最大程度的提升,克服性能和复杂性之间的矛盾,并且该模块仅包含少量参数,可以有效的提升模型的精度,带来明显的性能提升。
具体地,CA采用了坐标信息嵌入和坐标注意力生成两个步骤,来编码通道关系和长距离依赖的精确位置信息。由于通道注意力中使用的全局池化难以保留位置信息,CA将全局池化改为一对一维编码操作,分别在水平坐标和竖直坐标两个方向,用大小为(H,1)和(1,W)的池化核对输入特征的每个通道进行编码。如果第c个通道高度为h,宽度为w,那么它在两个方向上输出的注意力图如下式所示:
为简单高效地利用两张特征图,CA通过坐标注意力生成部分生成包含位置信息和通道关系信息的特征图。首先将上面生成的两个特征图连接起来,然后用一个1×1的核进行卷积操作变换,再将生成的特征向量分成两个向量,然后分别用两个1×1卷积变换,得到与输入维度相同的特征向量,最后拓展两个特征向量,得到输出权重,计算公式如下式所示:
本实施例在模型骨干网络、中间层和输出端设计了三种融合模块:CA-Backbone、CA-Neck和CA-Prediction。如图4所示,在骨干网络中,CA融合在三个CSP结构后面,构成CA-Backbone结构。骨干网络通过深层卷积结构进行特征提取,并将特征图下采样成不同的尺度。在改进型YOLOX-S模型中,骨干网络经过三次CSP操作,一次SPP操作,将输入图像分别下采样到4倍、8倍、16倍、32倍,然后这些特征图作为输入,输入到BiFPN中进行特征融合,因此选择将CA模块加在这些层后面,可以丰富骨干网络提取的特征信息。
在中间层,CA模块加在CSP结构后,构成CA-Neck结构。中间层BiFPN网络运用双向融合思想将高层特征与低层特征进行融合。在前向传播之外重新构造自顶向下,自底向上的双向通道,对来自主干网不同尺度的特征信息进行融合,通过上采样与下采样统一特征分辨率尺度,并在同一尺度的特征间添加双横向连接,缓解因网络层级过多造成的特征信息丢失。因此将CA模块加在这里,可在融合后的特征图上实现坐标注意力重构。
在输出端,将CA模块融合在不同尺度特征图输出之前,构成CA-Prediction结构。输出端最终输出下采样4倍、8倍、16倍、32倍的特征图进行预测,将CA模块加在这些特征图输出之前,提高预测的定位精度。
S103还包括:S1032、基于双向特征金字塔网络的多尺度特征融合。
本发明将颈部网络中的FPN+PAN结构替换为BiFPN结构,双向特征金字塔网络通过从高分辨率层次向下和从低分辨率层次向上传递信息,可以有效地捕捉到不同尺度下的语义和细节信息,使得网络能够提取更多更具细粒度的目标特征。
具体的,通过BiFPN结构中的双向通路以及横向连接增进不同尺度特征图之间的联系,使得浅层特征图中的位置、细节信息与深层特征图中的高维语义信息充分融合,在四种不同的尺度上保证特征图语义信息的丰富程度。在输入到自上而下的通路之前,为了减小运算开销,保证检测速度,先通过点对点卷积对每种分辨率的输入通道数进行压缩,统一为128个通道并且在自底向上和自定向下的路线中将所有特征图的通道数限定为128以减小运算量。保证检测速度,在最后的自下向上的通路中于四个不同的层级输出四种分辨率的特征图,用来预测出最后的检测结果。
BiFPN结构中使用加权特征融合机制,计算公式为:
其中,wi表示第i个学习权重,wj表示第j个可学习权重,ε=0.0001为设定值,Ii表示第i个分辨率不同的输入特征。
并且,本发明在检测头网络中新增了浅层图像特征细粒度预测头。即本发明在检测头网络中新增了一个检测分支,该检测分支能够更好地融合对更浅层高分辨率的图像特征图,实现对小目标的精准预测。
S104、进行神经网络训练,并计算损失函数,再进行模型更新。
损失函数是模型学习的风向标,一个好的目标函数,能够使模型快速收敛并达到更高的预测精度,本发明通过引入EIoU Loss和Focal Loss分别改善模型的预测框损失函数与置信度损失函数。
原YOLOX-S模型的损失函数的计算公式由三个部分组成,如下式所示,分别是类别损失losscls、置信度损失lossobj和边界框位置回归损失lossreg。其中类别损失与置信度损失均采用二值交叉熵损失函数计算,而位置损失采用传统的IOU_Loss实现。
Loss=wioulossreg+lossobj+losscls
在本实施例中,改进YOLOX-S的损失函数主要考虑置信度损失与位置损失,其中置信度损失采用Focal_Loss,其主要解决的是在单阶段的目标检测器中正负样本不平衡的问题。Focal_Loss通过给予正样本较大的权重,给予负样本更小的权重,使得正样本在损失函数中的贡献更大,有利于提高网络模型对正样本的识别能力。Focal_Loss的计算公式如下所示:
Focal_Loss=-αt(1-pt)γlog(pt)
式中,(1-pt)γ为调制因子;γ是可调的专注参数,范围为[0,5];αt是用于调节样本权重参数α的函数,其计算方式和pt是类似的,即y=1时取α,在其它情况时取1-α;pt表示的模型预测属于前景目标的概率p的函数,式子如下所示:
原YOLOX-S模型位置损失采用的IOU_Loss,存在两个不足:一是预测框与目标框不相交时,IOU_Loss是不能反映两个框的距离远近的,此时IOU的值一直为0,损失函数不可导,无法回传梯度进一步学习;二是对于确定大小的预测框与目标框,相同的IOU值不能反映两个框的相交情况,那么,本实施例中边界框的回归损失采用EIOU_Loss函数来计算YOLOX-S的边界框回归损失。
EIOU_Loss将长宽比的影响因子拆开,分别计算目标框与预测框的长和宽。EIOU_Loss主要组成包括三部分,分别是重叠损失、中心距离损失和宽高损失,计算公式如下所示:
式中,cw和ch两框的最小外接矩形的宽和高。
前向传播完成后,本发明采用梯度下降的方式对模型反向传播,更新模型的网络参数,若模型收敛或达到最大迭代数,将训练好的模型作为最终使用的模型;若模型未达到收敛或未达到最大迭代数,则继续执行模型训练过程。
此外,训练完成后,将模型的参数权重进行保存,并将数据集训练过程中得到的特征进行保存,用来检测新输入目标图像。
S2、利用训练后的改进型YOLOX-S网络模型进行检测推理。
训练完成后,对新输入的航拍图像进行目标检测,经过图像尺寸变换后,输入到训练好的神经网络中。
S2包括:
S201、向训练后的改进型YOLOX-S网络模型输入待检测航拍目标图像;
S202、进行图像特征提取与回归预测;
S203、对检测结果进行处理和输出。
实施例2:
在实施例1的基础上,本申请实施例2提供了一种更具体的基于改进YOLOX-S的航拍图像小目标检测方法,包括:
S1、改进型YOLOX-S网络模型训练;
S2、利用训练后的改进型YOLOX-S网络模型进行检测推理。
具体的,如图5所示,S2包括:
S201、向训练后的改进型YOLOX-S网络模型输入待检测航拍目标图像。
此外,还进行了基本图像预处理,包括缩放、裁剪、归一化等操作,将图像转换为模型输入所需的格式。
S202、进行图像特征提取与回归预测。
S202中,在特征提取与融合后,通过分类和回归分支对目标物体进行识别和位置预测,在分类分支中,利用softmax函数将特征映射到不同类别的概率上;在回归分支中,利用边界框回归的方式预测目标物体的位置信息,包括目标物体的中心坐标和宽高。
S203、对检测结果进行处理和输出。
S203包括:
S2031、合并多层检测头检测结果。将多层检测头的检测结果解码并进行合并,得到更准确的目标检测结果。
根据不同尺度的特征图进行回归边界框的解码,得到不同尺度的检测结果。具体而言根据不同尺度的特征图大小和回归头预测值,将每个检测框的中心点坐标和框大小转换到原图像坐标系下,并将所有的检测结果按照置信度从高到低进行排序。
S2032、执行非极大值抑制。在得到多个目标检测框后,通过非极大值抑制算法去除重叠度较高的冗余框,得到更加准确的目标框。
由于同一个目标可能会在不同的尺度、不同的特征图上被检测到,因此需要采用非极大值抑制(NMS)的方法去除冗余的检测框,只保留置信度最高的检测框作为最终的预测结果。
S2033、解码检测结果,并进行输出。将目标检测框的坐标、大小等信息进行解码,得到最终的检测结果。
将模型输出的预测框参数(中心坐标、宽高、类别概率)转换为真实坐标值,对于每个预测框,根据类别概率值,选择最可能的类别标签作为预测结果。
需要说明的,本实施例中与实施例1相同或相似的部分可相互参考,在本申请中不再赘述。
实施例3:
在实施例1、2的基础上,本申请实施例3提供了另一种基于改进YOLOX-S的航拍图像小目标检测方法。
将互联网上收集的24369张目标图像作为原始数据,按6:2:2的比例将数据集分为训练集、验证集、测试集三个部分,包括飞机、轮船、车辆、行人等4种目标类型。其中训练集用于模型训练,验证集用于模型调参和选择最优模型,测试集用于评估模型性能。
实验过程:将训练集的图片进行缩放处理,使其宽度和高度统一规范为640×640像素,将其输入到检测模型中进行训练,训练使用VOC 2012数据集预训练模型,每批次训练样本(batch size)设置为16,训练迭代(epoch)90次,学习率设置为0.01,实验过程中,采用SGD优化器对模型参数进行更新,整个实验在RTX-2080Ti GPU上完成。测试阶段,将裁剪的图片拼接后计算AP值。拼接时,使用NMS去除图片中重复的检测框,IOU阈值设为0.5。
在IOU为0.5的情况下,测试集飞机、轮船、车辆、行人的平均检测准确率为94.6%,并且对小目标的检测结果较好。由此证明模型在检测目标时具有较高的准确性,可以较好地应用于实际应用场景中。图6、图7、图8为利用上述模型检测时的部分检测效果实例。
需要说明的,本实施例中与实施例1、2相同或相似的部分可相互参考,在本申请中不再赘述。
实施例4:
在实施例1的基础上,本申请实施例提供了一种基于改进YOLOX-S的航拍图像小目标检测系统,包括:
训练模块,用于改进型YOLOX-S网络模型训练;
训练模块包括:
采集单元,用于采集航拍目标图像数据,构建数据集;所述数据集包括训练集、验证集和测试集;
处理单元,用于进行基本图像预处理和Mosaic图像增强;
提取单元,用于进行融合坐标注意力机制的多尺度特征提取和基于双向特征金字塔网络的多尺度特征融合;
训练单元,用于进行神经网络训练,并计算损失函数,再进行模型更新;
检测模块,用于利用训练后的改进型YOLOX-S网络模型进行检测推理;
检测模块包括:
输入单元,用于向训练后的改进型YOLOX-S网络模型输入待检测航拍目标图像;
预测单元,用于进行图像特征提取与回归预测;
输出单元,用于对检测结果进行处理和输出。
具体的,本实施例所提供的系统为实施例1提供的方法对应的系统,因此,在本实施例中与实施例1相同或相似的部分,可相互参考,在本申请中不再赘述。
Claims (10)
1.一种基于改进YOLOX-S的航拍图像小目标检测方法,其特征在于,包括:
S1、改进型YOLOX-S网络模型训练;
S1包括:
S101、采集航拍目标图像数据,构建数据集;所述数据集包括训练集、验证集和测试集;
S102、进行基本图像预处理和Mosaic图像增强;
S103、进行融合坐标注意力机制的多尺度特征提取和基于双向特征金字塔网络的多尺度特征融合;
S104、进行神经网络训练,并计算损失函数,再进行模型更新;
S2、利用训练后的改进型YOLOX-S网络模型进行检测推理;
S2包括:
S201、向训练后的改进型YOLOX-S网络模型输入待检测航拍目标图像;
S202、进行图像特征提取与回归预测;
S203、对检测结果进行处理和输出。
2.根据权利要求1所述的基于改进YOLOX-S的航拍图像小目标检测方法,其特征在于,S103中,在主干特征提取网络融入对浅层级特征的进一步提取,并在YOLOX-S模型的各个卷积block处引入坐标注意力机制模块,使得模型在训练过程能够自适应的提取关键的前景目标信息,抑制背景信息。
3.根据权利要求2所述的基于改进YOLOX-S的航拍图像小目标检测方法,其特征在于,S103中,在检测头网络中新增了浅层图像特征细粒度预测头。
4.根据权利要求3所述的基于改进YOLOX-S的航拍图像小目标检测方法,其特征在于,S103中,YOLOX-S网络模型的颈部网络由FPN+PAN结构替换为BiFPN结构。
5.根据权利要求4所述的基于改进YOLOX-S的航拍图像小目标检测方法,其特征在于,S104中,训练过程采用交叉熵损失函数来计算类别损失,采用FocalLoss来计算置信度损失,采用EIoU Loss来计算预测框损失。
6.根据权利要求5所述的基于改进YOLOX-S的航拍图像小目标检测方法,其特征在于,S104中,前向传播完成后,采用梯度下降的方式对模型反向传播,更新模型的网络参数,若模型收敛或达到最大迭代数,将训练好的模型作为最终使用的模型;若模型未达到收敛或未达到最大迭代数,则继续执行模型训练过程。
7.根据权利要求6所述的基于改进YOLOX-S的航拍图像小目标检测方法,其特征在于,S202中,在特征提取与融合后,通过分类和回归分支对目标物体进行识别和位置预测,在分类分支中,利用softmax函数将特征映射到不同类别的概率上;在回归分支中,利用边界框回归的方式预测目标物体的位置信息,包括目标物体的中心坐标和宽高。
8.根据权利要求7所述的基于改进YOLOX-S的航拍图像小目标检测方法,其特征在于,S203包括:
S2031、合并多层检测头检测结果;
S2032、执行非极大值抑制;
S2033、解码检测结果,并进行输出。
9.一种基于改进YOLOX-S的航拍图像小目标检测系统,其特征在于,用于执行权利要求1至8任一所述的基于改进YOLOX-S的航拍图像小目标检测方法,包括:
训练模块,用于改进型YOLOX-S网络模型训练;
训练模块包括:
采集单元,用于采集航拍目标图像数据,构建数据集;所述数据集包括训练集、验证集和测试集;
处理单元,用于进行基本图像预处理和Mosaic图像增强;
提取单元,用于进行融合坐标注意力机制的多尺度特征提取和基于双向特征金字塔网络的多尺度特征融合;
训练单元,用于进行神经网络训练,并计算损失函数,再进行模型更新;
检测模块,用于利用训练后的改进型YOLOX-S网络模型进行检测推理;
检测模块包括:
输入单元,用于向训练后的改进型YOLOX-S网络模型输入待检测航拍目标图像;
预测单元,用于进行图像特征提取与回归预测;
输出单元,用于对检测结果进行处理和输出。
10.一种计算机存储介质,其特征在于,所述计算机存储介质内存储有计算机程序;所述计算机程序在计算机上运行时,使得计算机执行权利要求1至8任一所述的基于改进YOLOX-S的航拍图像小目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311079484.9A CN117079163A (zh) | 2023-08-25 | 2023-08-25 | 一种基于改进yolox-s的航拍图像小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311079484.9A CN117079163A (zh) | 2023-08-25 | 2023-08-25 | 一种基于改进yolox-s的航拍图像小目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117079163A true CN117079163A (zh) | 2023-11-17 |
Family
ID=88716794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311079484.9A Pending CN117079163A (zh) | 2023-08-25 | 2023-08-25 | 一种基于改进yolox-s的航拍图像小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079163A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542049A (zh) * | 2024-01-09 | 2024-02-09 | 吉林建筑大学 | 基于深度学习的图像识别方法及系统 |
CN117593674A (zh) * | 2024-01-18 | 2024-02-23 | 南昌大学 | 一种轻量级无人机航拍目标实时检测方法 |
CN117953350A (zh) * | 2024-03-26 | 2024-04-30 | 杭州豪悦护理用品股份有限公司 | 基于改进的YOLOv7网络模型的纸尿裤图像检测方法 |
-
2023
- 2023-08-25 CN CN202311079484.9A patent/CN117079163A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542049A (zh) * | 2024-01-09 | 2024-02-09 | 吉林建筑大学 | 基于深度学习的图像识别方法及系统 |
CN117542049B (zh) * | 2024-01-09 | 2024-03-26 | 吉林建筑大学 | 基于深度学习的图像识别方法及系统 |
CN117593674A (zh) * | 2024-01-18 | 2024-02-23 | 南昌大学 | 一种轻量级无人机航拍目标实时检测方法 |
CN117593674B (zh) * | 2024-01-18 | 2024-05-03 | 南昌大学 | 一种轻量级无人机航拍目标实时检测方法 |
CN117953350A (zh) * | 2024-03-26 | 2024-04-30 | 杭州豪悦护理用品股份有限公司 | 基于改进的YOLOv7网络模型的纸尿裤图像检测方法 |
CN117953350B (zh) * | 2024-03-26 | 2024-06-11 | 杭州豪悦护理用品股份有限公司 | 基于改进的YOLOv7网络模型的纸尿裤图像检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113780296B (zh) | 基于多尺度信息融合的遥感图像语义分割方法及系统 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN112183203B (zh) | 一种基于多尺度像素特征融合的实时交通标志检测方法 | |
CN117079163A (zh) | 一种基于改进yolox-s的航拍图像小目标检测方法 | |
CN112149547B (zh) | 基于图像金字塔引导和像素对匹配的遥感影像水体识别方法 | |
CN111079739B (zh) | 一种多尺度注意力特征检测方法 | |
CN110689012A (zh) | 一种端到端的自然场景文本识别方法及系统 | |
CN113780149A (zh) | 一种基于注意力机制的遥感图像建筑物目标高效提取方法 | |
CN113255589B (zh) | 一种基于多卷积融合网络的目标检测方法及系统 | |
CN110781850A (zh) | 道路识别的语义分割系统和方法、计算机存储介质 | |
CN110659601B (zh) | 基于中心点的深度全卷积网络遥感图像密集车辆检测方法 | |
CN112784756B (zh) | 人体识别跟踪方法 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN113591617B (zh) | 基于深度学习的水面小目标检测与分类方法 | |
CN116229452B (zh) | 一种基于改进的多尺度特征融合的点云三维目标检测方法 | |
CN112766409A (zh) | 一种遥感图像目标检测的特征融合方法 | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN111723660A (zh) | 一种用于长形地面目标检测网络的检测方法 | |
CN116052095B (zh) | 一种用于智慧城市全景视频监控的车辆重识别方法 | |
CN114037640A (zh) | 图像生成方法及装置 | |
CN111507353B (zh) | 一种基于文字识别的中文字段检测方法及系统 | |
CN114627441A (zh) | 非结构化道路识别网络训练方法、应用方法及存储介质 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN117217368A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |