CN117557779A - 一种基于yolo的多尺度目标检测方法 - Google Patents

一种基于yolo的多尺度目标检测方法 Download PDF

Info

Publication number
CN117557779A
CN117557779A CN202311573230.2A CN202311573230A CN117557779A CN 117557779 A CN117557779 A CN 117557779A CN 202311573230 A CN202311573230 A CN 202311573230A CN 117557779 A CN117557779 A CN 117557779A
Authority
CN
China
Prior art keywords
module
feature
convolution
network
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311573230.2A
Other languages
English (en)
Inventor
张媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Normal University
Original Assignee
Chongqing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Normal University filed Critical Chongqing Normal University
Priority to CN202311573230.2A priority Critical patent/CN117557779A/zh
Publication of CN117557779A publication Critical patent/CN117557779A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于YOLO的多尺度目标检测方法,包括以下步骤:采集检测图片,形成训练集,对数据集图像进行预处理;目标定位损失函数,同时对DenseNet‑121密集连接结构进行改进;多尺度感受野融合模块:多尺度感受野融合模块根据三个分支的语义特征进行多尺度融合,得到融合后的三种不同尺度的特征图;多尺度融合结构框架,在输出的几个不同尺寸的特征层之后加入空间金字塔结构,将经过空间金字塔模块后的特征图分别与上一层的特征图进行融合,构成四个尺寸的多尺寸预测机制;目标检测模块:使用融合后的三种不同尺度的特征图分别预测不同大小的物体。本发明解决了轻量级目标检测网的感受野不够,语义特征不足的问题。

Description

一种基于YOLO的多尺度目标检测方法
技术领域
本发明涉及目标检测技术领域,更具体的说,它涉及一种基于YOLO的多尺度目标检测方法。
背景技术
目标检测是对图像中感兴趣目标进行识别和定位的技术,解决了图像中物体是什么和在哪里的问题,在很多领域都有着非常重要的作用。目标检测算法经常需要被应用在一些需要实时处理图像(如视频、监控画面等)的地方,所以对算法的实时性也提出了要求,通常称处理图像的速度达到30FPS以上的算法为实时目标检测算法,随着深度学习时代的来临,目标检测方法已经从基于手工特征提取的传统检测算法发展为基于深度学习的目标检测算法,通过深层次的神经网络学习更为复杂的特征信息,以进一步增强模型对图像的表达能力。目前基于深度学习的目标检测算法主要分为两个方向:二阶段检测算法和一阶段检测算法。二阶段检测算法以R-CNN系列为代表,使用最广泛的有Fast RCNN、FasterRCNN等,这类基于区域的检测算法首先要从图片中搜索出一些可能存在对象的候选区,然后再对每个候选区进行对象识别。而以YOLO、SSD和RetinaNet等为代表的一阶段检测算法则是直接在网络中提取特征来预测物体分类和位置,是一种端对端的目标检测方法,大大加快了检测速度,为了更加适用于移动场景,需要为了移动场景专门定制的轻量化网络,解决移动场景下的内存受限,计算力受限的问题,才能够使得轻量级目标检测网能很好的部署到移动场景中。
发明内容
(一)解决的技术问题
针对现有技术中存在的问题,本发明提供了一种基于YOLO的多尺度目标检测方法,以解决背景技术中提到的技术问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种基于YOLO的多尺度目标检测方法,包括以下步骤:
步骤一:采集检测图片,形成训练集,对数据集图像进行预处理;将图像数据调整到网络设定的尺寸,YOLOv5算法主要采用的数据增强方式是Mosaic方法,将不同的图片进行拼接,形成新的图片以增加鲁棒性;
步骤二:目标定位损失函数,同时对DenseNet-121密集连接结构进行改进,即将过渡层中的池化层替换为步长为2的3*3卷积层,并使用此改进后的DenseNet-121结构替换原骨干网络中的残差结构,对输入图像进行下采样操作;
步骤三:多尺度感受野融合模块:多尺度感受野融合模块根据三个分支的语义特征进行多尺度融合,得到融合后的三种不同尺度的特征图;
步骤四:多尺度融合结构框架,在输出的几个不同尺寸的特征层之后加入空间金字塔结构,将经过空间金字塔模块后的特征图分别与上一层的特征图进行融合,构成四个尺寸的多尺寸预测机制;将经过第二次下采样,已经获得部分特征信息的104*104特征图与经过2倍上采样的52*52特征图进行融合,与尺寸为52*52,26*26和13*13的特征图共同进行特征预测,再使用convolutional 3*3结构以及双层1*1卷积结构进行进一步卷积操作;
步骤五:目标检测模块:使用融合后的三种不同尺度的特征图分别预测不同大小的物体,同时,损失计算模块:采用Distance-IoU Loss来计算损失函数,提升检测框的回归精度,得到最终的目标检测网络。
本发明进一步设置为,所述目标定位损失函数包括将对角线长度和宽高比关系结合,建立一个新的损失函数;将其引入YOLOv5进行训练,得到实验数据;寻找宽高比和最小外接矩形框的关系,对损失函数进行优化,并将其引入YOLOv5进行训练,得到实验数据;思考标定框和预测框是否有新的位置关系,并尝试用新的关系对损失函数进行改进,将其引入YOLOv5进行训练,得到实验数据;比较不同损失函数对算法预测框准确度的影响,选择表现更好的损失函数作为改进算法的损失函数,已达到使算法定位准确度更高的要求。
本发明进一步设置为,所述多尺度融合结构框架包括在颈部网络高层的骨干网络连接处引入1×1卷积遍历高层特征图,以减小高层网络的通道数,在保持高层信息不丢失的情况下降低计算量,使改进算法的速度有一个提升。
本发明进一步设置为,所述多尺度融合结构框架还包括在颈部网络的采用分别上采样加融合下采样的方式,增加对骨干网络特征的利用层数,增加可利用信息,达到增加算法精度的目标。
本发明进一步设置为,所述多尺度融合结构框架还包括对颈部网络的第一步对算法速度进行了提升,为第二步预计增加的计算量进行一定控制;通过设立选择不同的层数进行对比实验,找到一个FPS没有明显下降,而准确度得到提升的算法框架。
本发明进一步设置为,所述步骤二还包括特征提取:将训练集输入到特征提取模块中提取语义特征,将提取到的语义特征在不同尺度上抽取三个分支,送入多尺度感受野融合模块;特征提取模块包括依次连接的第一1x1卷积、第一3x3卷积以及通道无缩放卷积块NEP;所述通道无缩放卷积块NEP包括依次连接的第一层网络、第二层网络、注意力模块ECA、第三层网络,第一层网络为第一Ghost模块,第二层网络为3x3的深度可分离卷积块,第三层网络为第二Ghost模块,所述第一Ghost模块、第二Ghost模块均包括依次连接的第二1x1卷积和第二3x3的深度可分离卷积,所述第一Ghost模块、第二Ghost模块替代常用的1x1卷积块;注意力模块ECA在全局平均池化后得到的一维特征图上,通过一个权重共享的1维卷积来学习通道无缩放卷积块NEP的各通道权重,而其中1维卷积核k×1的大小代表着模块的跨通道信息交互率,k会随着通道数的变化而动态调整;然后将得到的各通道权重分配到通道无缩放卷积块NEP的各特征通道上,最后通过权重重新分配后的通道进行权重特征融合,将得到的权重特征融合通过第二Ghost模块得到语义特征。
本发明进一步设置为,当特征提取模块中使用通道无缩放卷积块NEP对当前特征图进行下采样时,扩充通道数,解决因为下采样而带来的特征信息丢失问题。
本发明进一步设置为,通道无缩放卷积块NEP的深度可分离卷积步长为2时,不使用残差连接;通道无缩放卷积块NEP的深度可分离卷积步长为1,加入残差连接。
本发明进一步设置为,所述步骤一中对数据集图像进行预处理;将图像数据调整到网络设定的尺寸包括对图像进行颜色增强、平移变化、水平以及垂直翻转;使用线性插值法将所有图像数据大小放缩到416*416。
(三)有益效果
与现有技术相比,本发明提供了一种基于YOLO的多尺度目标检测方法,具备以下有益效果:
本发明提出的轻量级目标检测方法,使用了Ghost模块作为基础的通道调整与通道特征融合模块,在普通的1x1卷积基础上,引入了3x3的深度可分离卷积,解决了轻量级目标检测网的感受野不够,语义特征不足的问题。并通过引入ECA模块,来重新分配通道权重,充分利用轻量级卷积的可用通道容量。并且保证NEP模块在计算的过程中通道无缩放,减少了特征信息的丢失,有效的提高网络的检测精度。因此本发明所提出的网络结构,解决了深度卷积神经网络参数复杂度过高的问题,且精度较目前主流的轻量级目标检测算法有一定的提升,参数精度在量化为8bit后,能够进一步减小模型大小,同时实现高精度的目标检测,此外,改进的算法框架将在MSCOCO数据集上进行训练和测试,使新的算法在基本维持YOLO算法FPS的情况下,使其拥有更好的检测准确度指标,此外,本发明创造解决了YOLO v3在复杂场景中目标尺寸大小不同和小目标重叠距离较近时无法准确识别的问题。使用DenseNet密集连接网络来提高特征提取网络提取信息的能力,同时优化多尺度预测机制,构建第四个尺度的预测层对不同层次的信息进行融合,使得网络能都学习到能够提高小目标识别率的位置信息。
附图说明
图1为本发明中的整体结构流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。下面将参考附图并结合实施例来详细说明本发明。
需要指出的是,除非另有指明,本申请使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
实施例1:
请参阅图1,一种基于YOLO的多尺度目标检测方法,包括以下步骤:
步骤一:采集检测图片,形成训练集,对数据集图像进行预处理;将图像数据调整到网络设定的尺寸,YOLOv5算法主要采用的数据增强方式是Mosaic方法,将不同的图片进行拼接,形成新的图片以增加鲁棒性;
步骤二:目标定位损失函数,同时对DenseNet-121密集连接结构进行改进,即将过渡层中的池化层替换为步长为2的3*3卷积层,并使用此改进后的DenseNet-121结构替换原骨干网络中的残差结构,对输入图像进行下采样操作;
步骤三:多尺度感受野融合模块:多尺度感受野融合模块根据三个分支的语义特征进行多尺度融合,得到融合后的三种不同尺度的特征图;
步骤四:多尺度融合结构框架,在输出的几个不同尺寸的特征层之后加入空间金字塔结构,将经过空间金字塔模块后的特征图分别与上一层的特征图进行融合,构成四个尺寸的多尺寸预测机制;将经过第二次下采样,已经获得部分特征信息的104*104特征图与经过2倍上采样的52*52特征图进行融合,与尺寸为52*52,26*26和13*13的特征图共同进行特征预测,再使用convolutional 3*3结构以及双层1*1卷积结构进行进一步卷积操作;
步骤五:目标检测模块:使用融合后的三种不同尺度的特征图分别预测不同大小的物体,同时,损失计算模块:采用Distance-IoU Loss来计算损失函数,提升检测框的回归精度,得到最终的目标检测网络。
在进一步实施例中,所述目标定位损失函数包括将对角线长度和宽高比关系结合,建立一个新的损失函数;将其引入YOLOv5进行训练,得到实验数据;寻找宽高比和最小外接矩形框的关系,对损失函数进行优化,并将其引入YOLOv5进行训练,得到实验数据;思考标定框和预测框是否有新的位置关系,并尝试用新的关系对损失函数进行改进,将其引入YOLOv5进行训练,得到实验数据;比较不同损失函数对算法预测框准确度的影响,选择表现更好的损失函数作为改进算法的损失函数,已达到使算法定位准确度更高的要求。
在进一步实施例中,所述多尺度融合结构框架包括在颈部网络高层的骨干网络连接处引入1×1卷积遍历高层特征图,以减小高层网络的通道数,在保持高层信息不丢失的情况下降低计算量,使改进算法的速度有一个提升。
实施例2:
一种基于YOLO的多尺度目标检测方法,包括以下步骤:
步骤一:采集检测图片,形成训练集,对数据集图像进行预处理;将图像数据调整到网络设定的尺寸,YOLOv5算法主要采用的数据增强方式是Mosaic方法,将不同的图片进行拼接,形成新的图片以增加鲁棒性;
步骤二:目标定位损失函数,同时对DenseNet-121密集连接结构进行改进,即将过渡层中的池化层替换为步长为2的3*3卷积层,并使用此改进后的DenseNet-121结构替换原骨干网络中的残差结构,对输入图像进行下采样操作;
步骤三:多尺度感受野融合模块:多尺度感受野融合模块根据三个分支的语义特征进行多尺度融合,得到融合后的三种不同尺度的特征图;
步骤四:多尺度融合结构框架,在输出的几个不同尺寸的特征层之后加入空间金字塔结构,将经过空间金字塔模块后的特征图分别与上一层的特征图进行融合,构成四个尺寸的多尺寸预测机制;将经过第二次下采样,已经获得部分特征信息的104*104特征图与经过2倍上采样的52*52特征图进行融合,与尺寸为52*52,26*26和13*13的特征图共同进行特征预测,再使用convolutional 3*3结构以及双层1*1卷积结构进行进一步卷积操作;
步骤五:目标检测模块:使用融合后的三种不同尺度的特征图分别预测不同大小的物体,同时,损失计算模块:采用Distance-IoU Loss来计算损失函数,提升检测框的回归精度,得到最终的目标检测网络。
在进一步实施例中,所述多尺度融合结构框架还包括在颈部网络的采用分别上采样加融合下采样的方式,增加对骨干网络特征的利用层数,增加可利用信息,达到增加算法精度的目标。
在进一步实施例中,所述多尺度融合结构框架还包括对颈部网络的第一步对算法速度进行了提升,为第二步预计增加的计算量进行一定控制;通过设立选择不同的层数进行对比实验,找到一个FPS没有明显下降,而准确度得到提升的算法框架。
在进一步实施例中,所述步骤二还包括特征提取:将训练集输入到特征提取模块中提取语义特征,将提取到的语义特征在不同尺度上抽取三个分支,送入多尺度感受野融合模块;特征提取模块包括依次连接的第一1x1卷积、第一3x3卷积以及通道无缩放卷积块NEP;所述通道无缩放卷积块NEP包括依次连接的第一层网络、第二层网络、注意力模块ECA、第三层网络,第一层网络为第一Ghost模块,第二层网络为3x3的深度可分离卷积块,第三层网络为第二Ghost模块,所述第一Ghost模块、第二Ghost模块均包括依次连接的第二1x1卷积和第二3x3的深度可分离卷积,所述第一Ghost模块、第二Ghost模块替代常用的1x1卷积块;注意力模块ECA在全局平均池化后得到的一维特征图上,通过一个权重共享的1维卷积来学习通道无缩放卷积块NEP的各通道权重,而其中1维卷积核k×1的大小代表着模块的跨通道信息交互率,k会随着通道数的变化而动态调整;然后将得到的各通道权重分配到通道无缩放卷积块NEP的各特征通道上,最后通过权重重新分配后的通道进行权重特征融合,将得到的权重特征融合通过第二Ghost模块得到语义特征。
实施例3:
一种基于YOLO的多尺度目标检测方法,包括以下步骤:
步骤一:采集检测图片,形成训练集,对数据集图像进行预处理;将图像数据调整到网络设定的尺寸,YOLOv5算法主要采用的数据增强方式是Mosaic方法,将不同的图片进行拼接,形成新的图片以增加鲁棒性;
步骤二:目标定位损失函数,同时对DenseNet-121密集连接结构进行改进,即将过渡层中的池化层替换为步长为2的3*3卷积层,并使用此改进后的DenseNet-121结构替换原骨干网络中的残差结构,对输入图像进行下采样操作;
步骤三:多尺度感受野融合模块:多尺度感受野融合模块根据三个分支的语义特征进行多尺度融合,得到融合后的三种不同尺度的特征图;
步骤四:多尺度融合结构框架,在输出的几个不同尺寸的特征层之后加入空间金字塔结构,将经过空间金字塔模块后的特征图分别与上一层的特征图进行融合,构成四个尺寸的多尺寸预测机制;将经过第二次下采样,已经获得部分特征信息的104*104特征图与经过2倍上采样的52*52特征图进行融合,与尺寸为52*52,26*26和13*13的特征图共同进行特征预测,再使用convolutional 3*3结构以及双层1*1卷积结构进行进一步卷积操作;
步骤五:目标检测模块:使用融合后的三种不同尺度的特征图分别预测不同大小的物体,同时,损失计算模块:采用Distance-IoU Loss来计算损失函数,提升检测框的回归精度,得到最终的目标检测网络。
在进一步实施例中,当特征提取模块中使用通道无缩放卷积块NEP对当前特征图进行下采样时,扩充通道数,解决因为下采样而带来的特征信息丢失问题。
在进一步实施例中,通道无缩放卷积块NEP的深度可分离卷积步长为2时,不使用残差连接;通道无缩放卷积块NEP的深度可分离卷积步长为1,加入残差连接。
在进一步实施例中,所述步骤一中对数据集图像进行预处理;将图像数据调整到网络设定的尺寸包括对图像进行颜色增强、平移变化、水平以及垂直翻转;使用线性插值法将所有图像数据大小放缩到416*416。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于YOLO的多尺度目标检测方法,其特征在于,包括以下步骤:
步骤一:采集检测图片,形成训练集,对数据集图像进行预处理;将图像数据调整到网络设定的尺寸,YOLOv5算法主要采用的数据增强方式是Mosaic方法,将不同的图片进行拼接,形成新的图片以增加鲁棒性;
步骤二:目标定位损失函数,同时对DenseNet-121密集连接结构进行改进,即将过渡层中的池化层替换为步长为2的3*3卷积层,并使用此改进后的DenseNet-121结构替换原骨干网络中的残差结构,对输入图像进行下采样操作;
步骤三:多尺度感受野融合模块:多尺度感受野融合模块根据三个分支的语义特征进行多尺度融合,得到融合后的三种不同尺度的特征图;
步骤四:多尺度融合结构框架,在输出的几个不同尺寸的特征层之后加入空间金字塔结构,将经过空间金字塔模块后的特征图分别与上一层的特征图进行融合,构成四个尺寸的多尺寸预测机制;将经过第二次下采样,已经获得部分特征信息的104*104特征图与经过2倍上采样的52*52特征图进行融合,与尺寸为52*52,26*26和13*13的特征图共同进行特征预测,再使用convolutional 3*3结构以及双层1*1卷积结构进行进一步卷积操作;
步骤五:目标检测模块:使用融合后的三种不同尺度的特征图分别预测不同大小的物体,同时,损失计算模块:采用Distance-IoU Loss来计算损失函数,提升检测框的回归精度,得到最终的目标检测网络。
2.根据权利要求1所述的一种基于YOLO的多尺度目标检测方法,其特征是:所述目标定位损失函数包括将对角线长度和宽高比关系结合,建立一个新的损失函数;将其引入YOLOv5进行训练,得到实验数据;寻找宽高比和最小外接矩形框的关系,对损失函数进行优化,并将其引入YOLOv5进行训练,得到实验数据;思考标定框和预测框是否有新的位置关系,并尝试用新的关系对损失函数进行改进,将其引入YOLOv5进行训练,得到实验数据;比较不同损失函数对算法预测框准确度的影响,选择表现更好的损失函数作为改进算法的损失函数,已达到使算法定位准确度更高的要求。
3.根据权利要求1所述的一种基于YOLO的多尺度目标检测方法,其特征是:所述多尺度融合结构框架包括在颈部网络高层的骨干网络连接处引入1×1卷积遍历高层特征图,以减小高层网络的通道数,在保持高层信息不丢失的情况下降低计算量,使改进算法的速度有一个提升。
4.根据权利要求1所述的一种基于YOLO的多尺度目标检测方法,其特征是:所述多尺度融合结构框架还包括在颈部网络的采用分别上采样加融合下采样的方式,增加对骨干网络特征的利用层数,增加可利用信息,达到增加算法精度的目标。
5.根据权利要求1所述的一种基于YOLO的多尺度目标检测方法,其特征是:所述多尺度融合结构框架还包括对颈部网络的第一步对算法速度进行了提升,为第二步预计增加的计算量进行一定控制;通过设立选择不同的层数进行对比实验,找到一个FPS没有明显下降,而准确度得到提升的算法框架。
6.根据权利要求2所述的一种基于YOLO的多尺度目标检测方法,其特征是:所述步骤二还包括特征提取:将训练集输入到特征提取模块中提取语义特征,将提取到的语义特征在不同尺度上抽取三个分支,送入多尺度感受野融合模块;特征提取模块包括依次连接的第一1x1卷积、第一3x3卷积以及通道无缩放卷积块NEP;所述通道无缩放卷积块NEP包括依次连接的第一层网络、第二层网络、注意力模块ECA、第三层网络,第一层网络为第一Ghost模块,第二层网络为3x3的深度可分离卷积块,第三层网络为第二Ghost模块,所述第一Ghost模块、第二Ghost模块均包括依次连接的第二1x1卷积和第二3x3的深度可分离卷积,所述第一Ghost模块、第二Ghost模块替代常用的1x1卷积块;注意力模块ECA在全局平均池化后得到的一维特征图上,通过一个权重共享的1维卷积来学习通道无缩放卷积块NEP的各通道权重,而其中1维卷积核k×1的大小代表着模块的跨通道信息交互率,k会随着通道数的变化而动态调整;然后将得到的各通道权重分配到通道无缩放卷积块NEP的各特征通道上,最后通过权重重新分配后的通道进行权重特征融合,将得到的权重特征融合通过第二Ghost模块得到语义特征。
7.根据权利要求2所述的一种基于YOLO的多尺度目标检测方法,其特征是:当特征提取模块中使用通道无缩放卷积块NEP对当前特征图进行下采样时,扩充通道数,解决因为下采样而带来的特征信息丢失问题。
8.根据权利要求1所述的一种基于YOLO的多尺度目标检测方法,其特征是:通道无缩放卷积块NEP的深度可分离卷积步长为2时,不使用残差连接;通道无缩放卷积块NEP的深度可分离卷积步长为1,加入残差连接。
9.根据权利要求1所述的一种基于YOLO的多尺度目标检测方法,其特征是:所述步骤一中对数据集图像进行预处理;将图像数据调整到网络设定的尺寸包括对图像进行颜色增强、平移变化、水平以及垂直翻转;使用线性插值法将所有图像数据大小放缩到416*416。
CN202311573230.2A 2023-11-23 2023-11-23 一种基于yolo的多尺度目标检测方法 Pending CN117557779A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311573230.2A CN117557779A (zh) 2023-11-23 2023-11-23 一种基于yolo的多尺度目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311573230.2A CN117557779A (zh) 2023-11-23 2023-11-23 一种基于yolo的多尺度目标检测方法

Publications (1)

Publication Number Publication Date
CN117557779A true CN117557779A (zh) 2024-02-13

Family

ID=89816447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311573230.2A Pending CN117557779A (zh) 2023-11-23 2023-11-23 一种基于yolo的多尺度目标检测方法

Country Status (1)

Country Link
CN (1) CN117557779A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118298165A (zh) * 2024-06-05 2024-07-05 中南民族大学 轻量化小目标检测系统及方法
CN118314333A (zh) * 2024-06-07 2024-07-09 南开大学 一种基于Transformer架构的红外图像目标检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118298165A (zh) * 2024-06-05 2024-07-05 中南民族大学 轻量化小目标检测系统及方法
CN118314333A (zh) * 2024-06-07 2024-07-09 南开大学 一种基于Transformer架构的红外图像目标检测方法

Similar Documents

Publication Publication Date Title
CN113807355B (zh) 一种基于编解码结构的图像语义分割方法
CN113392960B (zh) 一种基于混合空洞卷积金字塔的目标检测网络及方法
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及系统
CN111968150B (zh) 一种基于全卷积神经网络的弱监督视频目标分割方法
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN110569851B (zh) 门控多层融合的实时语义分割方法
CN111696110B (zh) 场景分割方法及系统
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN114943963A (zh) 一种基于双分支融合网络的遥感图像云和云影分割方法
CN112784756B (zh) 人体识别跟踪方法
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN117557779A (zh) 一种基于yolo的多尺度目标检测方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
WO2023036157A1 (en) Self-supervised spatiotemporal representation learning by exploring video continuity
Wang et al. TF-SOD: a novel transformer framework for salient object detection
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN112700476A (zh) 一种基于卷积神经网络的红外船视频跟踪方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN110633706A (zh) 一种基于金字塔网络的语义分割方法
CN114943888A (zh) 基于多尺度信息融合的海面小目标检测方法、电子设备及计算机可读介质
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN117218643A (zh) 一种基于轻量化神经网络的水果识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination