CN117392640A - 一种基于改进YOLOv8s的交通标志牌检测方法 - Google Patents
一种基于改进YOLOv8s的交通标志牌检测方法 Download PDFInfo
- Publication number
- CN117392640A CN117392640A CN202311348446.9A CN202311348446A CN117392640A CN 117392640 A CN117392640 A CN 117392640A CN 202311348446 A CN202311348446 A CN 202311348446A CN 117392640 A CN117392640 A CN 117392640A
- Authority
- CN
- China
- Prior art keywords
- yolov8s
- improved
- feature
- feature map
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000011176 pooling Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000010586 diagram Methods 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 17
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 claims description 16
- 101150064138 MAP1 gene Proteins 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 101150085973 CTSD gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/582—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于改进YOLOv8s的交通标志牌检测方法,包括获取训练集图片和待检测图片,还包括以下步骤:设计基于YOLOv8s的改进模型;使用所述训练集图片对所述YOLOv8s的改进模型进行训练,并保存权重;将所述待检测图片输入训练好的YOLOv8s的改进模型进行预测;输出预测结果。本发明提出的一种基于改进YOLOv8s的交通标志牌检测方法,引入选择性核注意力模块SK,自适应的选择融合不同感受野的分支提取的特征信息,提高网络对重要特征的关注度,引入新的SPD‑Conv模块,取代每一个步长卷积和池化层,提高在低分辨率和小目标检测时的模型精度。
Description
技术领域
本发明涉及交通标识识别的技术领域,特别是一种基于改进YOLOv8s的交通标志牌检测方法。
背景技术
在自动驾的交通场景下,对交通标志的检测仍然面临一些挑战。例如多尺度问题,在实时的驾驶过程中,交通标尺的尺寸会因车辆的行驶而变化,为了车辆有足够的时间处理复杂的交通问题,因而要求检测算法有能力在交通标志处于小尺寸时进准确识别,小目标检测是亟待解决的挑战之一。
在现有技术当中,大多数采用卷积神经网络进行交通标识牌的检测和识别。由于卷积操作的局部感受野和权重共享的特性,网络可能无法充分捕捉到不同空间位置的信息。这导致了特征图中的位置信息差异,从而忽略掉一些重要特征信息。同时,由于常规卷积的池化和步长,会导致细粒度信息的丢失和较低效率的特征表示的学习,在检测交通标志等小目标时出现性能下降的问题。
申请公开号为CN116778456A的中国专利申请公开了一种基于改进YOLOv5s的交通标志检测方法,在检测交通标志的过程中,引入多层GhostBottleneck网络,并通过引入注意力机制模块(CBAM)来聚焦和增强有效特征,能有效提取小目标特征信息,并抑制背景噪声,提高复杂背景下交通标志的检测能力。该方法的缺点是①CBAM是基于通道和空间的注意力机制,需要较大的计算资源和计算复杂度,导致检测速率下降。②GhostBottleneck采用了轻量化的卷积方式,对小目标的特征提取能力不足。
发明内容
为了解决上述的技术问题,本发明提出的一种基于改进YOLOv8s的交通标志牌检测方法,引入具有选择性的核注意力模块SK,自适应的选择融合不同感受野的分支提取的特征信息,提高网络对重要特征的关注度补,引入新的SPD-Conv模块,取代每一个步长卷积和池化层,提高在低分辨率和小目标检测时的模型精度。
本发明的目的是提供一种基于改进YOLOv8s的交通标志牌检测方法,包括获取训练集图片和待检测图片,还包括以下步骤:
步骤1:设计基于YOLOv8s的改进模型;
步骤2:使用所述训练集图片对所述YOLOv8s的改进模型进行训练,并保存权重;
步骤3:将所述待检测图片输入训练好的YOLOv8s的改进模型进行预测;
步骤4:输出预测结果。
优选的是,所述YOLOv8s的改进模型至少包括SK注意力模块和SPD-Conv模块。
在上述任一方案中优选的是,所述SK注意力模块包括拆分、融合和选择三个阶段。
在上述任一方案中优选的是,在拆分阶段,将输入特征图输入卷积核大小分别为3×3和5×5的两个分支,经过卷积、归一化以及Relu函数激活后得到中间特征图1和中间特征图2,所述中间特征图1和所述中间特征图2分别为不同感受野下提取的特征图。
在上述任一方案中优选的是,融合阶段包括:
1)对所述中间特征图1和所述中间特征图2进行逐元素求和得到多尺度融合特征图;
2)使用全局平均池化对所述多尺度融合特征图进行降维,得到1×1×C的特征向量s,其中,C为特征图的通道数;
3)所述特征向量s经过全连接层和激活函数后得到特征向量z,此向量包含了对每个分支的注意力权重。
在上述任一方案中优选的是,选择阶段包括:
1)将所述特征向量z经过ac和bc两个全连接层,并将得到的函数值与所述中间特征图1和所述中间特征图2进行相乘得到加权特征图1和加权特征图2;
2)将所述加权特征图1和所述加权特征图2进行逐元素求和得到最终特征图。
在上述任一方案中优选的是,所述SPD-Conv模块由SPD层和一个非跨步卷积层两部分组成。
在上述任一方案中优选的是,在所述SPD层,根据比例因子对特征图的进行切片。
在上述任一方案中优选的是,在所述SPD层,对任意大小特征图H×W×C,按照比例因子scale进行切片操作,得到scale×scale个特征子图,每个特征子图大小为(H/scale)×(W/scale)×C,将特征子图沿通道维度进行拼接,得到(H/scale)×(W/scale)×C1的特征图X’,其中C1=C×scale2,即特征图X从空间维度减少了一个比例因子,通道维度增加一个比例因子,其中,H为高度,W为宽度。
在上述任一方案中优选的是,在所述SPD-Conv模块中,通过非跨步卷积对特征图维度进行变换。
在上述任一方案中优选的是,在所述SPD-Conv模块中选用WIoU v3作为损失函数,损失函数WIoU v3的生成方法包括:
步骤11:根据距离度量构建了距离注意力,得到包含两层注意力机制的WIoUv1;
步骤12:在所述WIoU v1的基础上,针对交叉熵单调聚焦机制,构造单调聚焦系数,得到WIoU v2;
步骤13:在所述WIoU v2的基础上,引入离群度β,得到WIoU v3。在上述任一方案中优选的是,两层注意力机制包括LWIoU和RWIoU,
LWIoU=RWIoULIoU
其中,LIoU为IoU损失函数,x和y为检测框的中心点坐标,xgt和ygt为真实边界框的中心点坐标,Wg和Hg为最小包围框的尺寸,*表示将Wg和Hg从计算图中分离。
在上述任一方案中优选的是,所述IoU损失函数LIoU的计算公式为
LIoU=1-IoU
其中,A为预测边界框,B为真实边界框。
在上述任一方案中优选的是,所述离群度β的计算公式为
其中,表示梯度增益。
在上述任一方案中优选的是,所述离群度β的数值小说明预测框的质量较高,则为其分配一个小的梯度增益;而对所述离群度β的数值大的预测框分配大的梯度增益。
在上述任一方案中优选的是,所述WIoU v3定义为
LWIoUv3=rRWIoULIoU
其中,α和δ为超参数。
在上述任一方案中优选的是,当预测框的离群度β满足等于阈值B的时候,预测框将获得最高的增益。
本发明提出了一种基于改进YOLOv8s的交通标志牌检测方法,使用WIoU减轻这种影响,强化边界框损失的拟合能力,提高边界框回归的鲁棒性。
附图说明
图1为按照本发明的基于改进YOLOv8s的交通标志牌检测方法的一优选实施例的流程图。
图2为按照本发明的基于改进YOLOv8s的交通标志牌检测方法的另一优选实施例的流程图。
图3为按照本发明的基于改进YOLOv8s的交通标志牌检测方法的一优选实施例的网络结构示意图。
图4为按照本发明的基于改进YOLOv8s的交通标志牌检测方法的SK模块的一实施例的结构示意图。
图5为按照本发明的基于改进YOLOv8s的交通标志牌检测方法的SPD模块的一实施例的结构示意图。
图6为按照本发明的基于改进YOLOv8s的交通标志牌检测方法的在cctsdb上的一实施例的交通标志检测结果示意图。
图7为按照本发明的基于改进YOLOv8s的交通标志牌检测方法的在TT100K上的一实施例的交通标志检测结果示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1所示,一种基于改进YOLOv8s的交通标志牌检测方法,执行步骤100,获取训练集图片和待检测图片。
执行步骤110,设计基于YOLOv8s的改进模型,所述YOLOv8s的改进模型至少包括SK注意力模块和SPD-Conv模块。
所述SK注意力模块包括拆分、融合和选择三个阶段。
在拆分阶段,将输入特征图输入卷积核大小分别为3×3和5×5的两个分支,经过卷积、归一化以及Relu函数激活后得到中间特征图1和中间特征图2,所述中间特征图1和所述中间特征图2分别为不同感受野下提取的特征图。
融合阶段包括:
1)对所述中间特征图1和所述中间特征图2进行逐元素求和得到多尺度融合特征图;
2)使用全局平均池化对所述多尺度融合特征图进行降维,得到1×1×C的特征向量s,其中,C为特征图的通道数;
3)所述特征向量s经过全连接层和激活函数后得到特征向量z,此向量包含了对每个分支的注意力权重。
选择阶段包括:
1)将所述特征向量z经过ac和bc两个全连接层,并将得到的函数值与所述中间特征图1和所述中间特征图2进行相乘得到加权特征图1和加权特征图2;
2)将所述加权特征图1和所述加权特征图2进行逐元素求和得到最终特征图。
所述SPD-Conv模块由SPD层和一个非跨步卷积层两部分组成。在所述SPD层,根据比例因子对特征图的进行切片,对任意大小特征图H×W×C,按照比例因子scale进行切片操作,得到scale×scale个特征子图,每个特征子图大小为(H/scale)×(W/scale)×C,将特征子图沿通道维度进行拼接,得到(H/scale)×(W/scale)×C1的特征图X’,其中C1=C×scale2,即特征图X从空间维度减少了一个比例因子,通道维度增加一个比例因子,其中,H为高度,W为宽度。
在所述SPD-Conv模块中,通过非跨步卷积对特征图维度进行变换。
在所述SPD-Conv模块中选用WIoU v3作为损失函数,损失函数WIoU v3的生成方法包括:
执行步骤111,根据距离度量构建了距离注意力,得到包含两层注意力机制的WIoUv1,两层注意力机制包括LWIoU和RWIoU,
LWIoU=RWIoULIoU
其中,LIoU为IoU损失函数,x和y为检测框的中心点坐标,xgt和ygt为真实边界框的中心点坐标,Wg和Hg为最小包围框的尺寸,*表示将Wg和Hg从计算图中分离。所述IoU损失函数LIoU的计算公式为
LIoU=1-IoU
其中,A为预测边界框,B为真实边界框。
执行步骤112,在所述WIoU v1的基础上,针对交叉熵单调聚焦机制,构造单调聚焦系数,得到WIoU v2。
执行步骤113,在所述WIoU v2的基础上,引入离群度β,得到WIoU v3,所述离群度β的计算公式为
其中,表示梯度增益。
所述离群度β的数值小说明预测框的质量较高,则为其分配一个小的梯度增益;而对所述离群度β的数值大的预测框分配大的梯度增益。由实验证明,当离群度β=C时,(C为定值,由超参数决定),其梯度增益最大,小于C时梯度增益单调递增,大于C时梯度增益单调递减,对离群度而言,其大小不需要设计阈值,只是与锚框的质量相关并为之分配相应梯度增益。这里说的离群度小是与质量较差锚框的较大利群度作比较。
所述WIoU v3定义为
LWIoUv3=rRWIoULIoU
其中,α和δ为超参数。
当预测框的离群度β满足等于阈值B的时候,预测框将获得最高的增益。
执行步骤120,使用所述训练集图片对所述YOLOv8s的改进模型进行训练,并保存权重。
执行步骤130,将所述待检测图片输入训练好的YOLOv8s的改进模型进行预测。
执行步骤140,输出预测结果。
实施例二
在自动驾驶的交通场景下,对交通标志的检测仍然面临一些挑战。例如多尺度问题,在实时的驾驶过程中,交通标尺的尺寸会因车辆的行驶而变化,为了车辆有足够的时间处理复杂的交通问题,因而要求检测算法有能力在交通标志处于小尺寸时进准确识别,小目标检测是亟待解决的挑战之一。本发明的处理流程如图2所示。
为了解决上述问题,本文基于YOLOv8s进行了改进,具体为:引进了针对低分辨率和小物体的新的卷积模块SPD-Conv,以卷积的方式替代池化和步长卷积操作,减少在特征提取过程中细节信息的丢失;针对交通标志这样的小目标,取消了原本的大目标检测头,将P2级浅层特征与深层特征融合,再经过SK注意力模块,根据特征信息自适应调整适合小目标检测感受野,以获得更丰富更全面的特征信息,最后将特征图输入到解耦头作为极小目标检测头。在预测阶段,使用WIoUv3损失为边界框损失函数,使用动态非单调聚焦机制的思想,提出了一种更好的梯度增益分配策略,有效提升网络的回归准确率。改进的网络结构图3所示。
SK模块
由于交通标志检测过程中存在的多尺度问题,而在传统的CNN中,卷积层通常使用固定的卷积核大小来提取特征,这可能导致不同尺度的特征信息被忽略或混合在一起。这种情况下,网络可能无法充分利用不同尺度的特征信息,从而限制了检测器性能。因此本文引入SK注意力模块,该模块允许网络在不同尺度上选择和调整特征的重要性。通过引入具有不同大小的卷积核的分支结构,SK注意力机制可以从多个尺度上捕捉特征信息。这样可以提高网络对不同尺度特征的感知能力,并更好地适应不同尺度的目标。同时SK注意力模块通过学习自适应的权重来选择不同分支的特征。这些权重表示了每个分支对最终特征表示的贡献程度。通过自适应地调整这些权重,SK注意力机制可以根据特定任务和输入数据的要求,自动选择最具有代表性的特征,从而提高检测器在交通标志检测时处理多尺度变化的能力。SK模块结构如图4所示。
SK注意力模块可由三个阶段组成,分别是拆分、融合和选择,以下过程以双分支为例进行介绍。(1)在拆分阶段,将输入特征图输入卷积核大小分别为3×3和5×5的两个分支,经过卷积、归一化以及Relu函数激活后得到中间特征图1和中间特征图2。分别是不同感受野下提取的特征图。(2)在融合阶段,对两个分支的特征图进行逐元素求和得到多尺度融合特征图。然后使用全局平均池化对特征图进行降维,得到1×1×C的特征向量s,s经过全连接层和激活函数后得到向量z,此向量包含了对每个分支的注意力权重。(3)在选择阶段,将特征向量z经过ac和bc两个函数,并将得到的函数值与特征图1特征图2进行相乘得到加权特征图1和加权特征图2,最后将加权后的特征图进行逐元素求和得到最终特征图。由于在全局池化后,使用了一个小型的多层感知机来计算每个分支的注意力权重。这些权重表示了每个分支对最终特征表示的贡献程度。所以可以根据注意力权重的大小,自适应地选择和调整不同分支的特征。
SPD模块
由于跨步卷积操作或者池化操作,会导致细粒度信息的丢失和较低效率的特征表示学习,因此在对低分辨率图像以及小目标图像检测时会出现性能降低的现象,SPD-Conv是一种新的CNN模块,可以替代跨步卷积或者池化操作进行下采样,以减少细节信息的丢失,更加适应于交通标志等小目标检测任务。
SPD-Conv模块由两部分组成,分别是space-to-depth(SPD)层和一个非跨步卷积层。在SPD层,根据比例因子对特征图的进行切片,以达到下采样的目的。对任意大小特征图H×W×C(H为高度,W为宽度,C为通道数),按照比例因子scale进行切片操作,得到scale×scale个特征子图,每个特征子图大小为(H/scale)×(W/scale)×C,将特征子图沿通道维度进行拼接,得到H/scale)×(W/scale)×C1的特征图X’,其中C1=C×scale2,即特征图X从空间维度减少了一个比例因子,通道维度增加一个比例因子。再通过非跨步卷积对特征图维度进行变换,这是因为非跨步卷积可以尽可能的保留所有特征信息。SPD-Conv与跨步卷积或者池化操作同样将特征图进行“缩小”,但是SPD-Conv可以最大化利用每个像素点的信息,避免了信息的非歧视性丢失。
本文采用scale=2的比例因子对特征图进行操作,仅将SPD层移入到骨干网络中,减少细粒度信息的丢失,以提高模型对小目标的检测的准确率。SPD层结构如图5所示。
WloUv3
边界框损失函数作为目标检测任务损失函数中的重要组成部分,其良好的定义可以为检测器的性能带来显著提升。
IoU定义为预测框与真实框的交并比,表示两者的重叠程度。
IoU损失定义为:
LIoU=1-IoU (2)
然而这样的IoU损失函数存在致命缺陷,当预测框与真实框没有重叠时,IoU为0,会导致反向传播过程中梯度消失。因此为了改善IoU损失的不足,大量研究已经提出了很多基于此方法的改进,比如加入距离度量惩罚项提出DIoU,在DIoU基础上加入纵横一致性考虑提出CIoU,也就是YOLOv8模型中使用的边界框损失函数。然而在CIoU中对纵横比的描述是相对值,存在一定的模糊,也并没有考虑难易样本之间的平衡问题,而WIoU采用了动态聚焦机制,构造了基于注意力机制的边界框损失,在锚框与目标框较好地重合时削弱几何度量的惩罚,不过多地干预训练将使模型有更好的泛化能力。
WIoUv1根据距离度量构建了距离注意力,得到定义如下的包含两层注意力机制的WIoUv1:
LWIoU=RWIoULIoU (3)
其中,x和y表示检测框的中心点坐标,Wg和Hg表示最小包围框的尺寸,上标*表示将Wg和Hg从计算图中分离,以防止惩罚项产生阻碍收敛的梯度。
在WIoU v1的基础上,进一步设计了一种针对交叉熵单调聚焦机制,构造单调聚焦系数使模型聚焦于困难示例,提高分类性能,从而得到WIoU v2。而在WIoU v3中引入了离群度,定义为:
离群度小则说明预测框的质量较高,则为其分配一个小的梯度增益;而对离群度大的预测框分配大的梯度增益,这样可以防止低质量示例产生较大的有害梯度,使边界框回归聚焦于高质量的预测框。WIoU v3定义为:
其中,α和δ为超参数,当β=δ时,r=1。当预测框的离群度β满足等于某一定值B的时候,预测框将获得最高的增益。这也使得WIoU v3在每一时刻都能做出最符合当前情况的梯度增益分配策略。
实施例三
本发明提出的方法在数据集cctsdb和tt100k上进行和测试。中国科学院发布的中国交通标志数据集包含1100张图像,中国科学技术大学在ctsd的基础上加入了5200张从高速公路上采集的图像提出中国交通标志检测基准ctsdb数据集,共一万七千余张图像。涉及三种类型交通标志,包括夜晚与白天。TT100k数据集也是在中国收集的公共数据集,包含16000张图片,由27000的交通标志实例组成。
为了验证本文所提出的检测算法性能,由于本文的改进方法是基于yolov8s提出的,其是yolov8系列中深度较小的模型。对于每个模型的输入都采用640*640,分别在cctsdb和tt100k数据集上进行了实验,实验结果如表1和表2所示,检测结果如图6和图7所示。
表1cctsdb数据集上与主流单阶段算法对比
表2tt100k数据集上与主流单阶段算法对比
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种基于改进YOLOv8s的交通标志牌检测方法,包括获取训练集图片和待检测图片,还包括以下步骤:
步骤1:设计基于YOLOv8s的改进模型;
步骤2:使用所述训练集图片对所述YOLOv8s的改进模型进行训练,并保存权重;
步骤3:将所述待检测图片输入训练好的YOLOv8s的改进模型进行预测;
步骤4:输出预测结果。
2.如权利要求1所述的基于改进YOLOv8s的交通标志牌检测方法,其特征在于,所述YOLOv8s的改进模型至少包括SK注意力模块和SPD-Conv模块。
3.如权利要求2所述的基于改进YOLOv8s的交通标志牌检测方法,其特征在于,所述SK注意力模块包括拆分、融合和选择三个阶段。
4.如权利要求3所述的基于改进YOLOv8s的交通标志牌检测方法,其特征在于,在拆分阶段,将输入特征图输入卷积核大小分别为3×3和5×5的两个分支,经过卷积、归一化以及Relu函数激活后得到中间特征图1和中间特征图2,所述中间特征图1和所述中间特征图2分别为不同感受野下提取的特征图。
5.如权利要求4所述的基于改进YOLOv8s的交通标志牌检测方法,其特征在于,融合阶段包括:
1)对所述中间特征图1和所述中间特征图2进行逐元素求和得到多尺度融合特征图;
2)使用全局平均池化对所述多尺度融合特征图进行降维,得到1×1×C的特征向量s,其中,C为特征图的通道数;
3)所述特征向量s经过全连接层和激活函数后得到特征向量z,此向量包含了对每个分支的注意力权重。
6.如权利要求5所述的基于改进YOLOv8s的交通标志牌检测方法,其特征在于,选择阶段包括:
1)将所述特征向量z经过ac和bc两个全连接层,并将得到的函数值与所述中间特征图1和所述中间特征图2进行相乘得到加权特征图1和加权特征图2;
2)将所述加权特征图1和所述加权特征图2进行逐元素求和得到最终特征图。
7.如权利要求6所述的基于改进YOLOv8s的交通标志牌检测方法,其特征在于,所述SPD-Conv模块由SPD层和一个非跨步卷积层两部分组成。
8.如权利要求7所述的基于改进YOLOv8s的交通标志牌检测方法,其特征在于,在所述SPD层,对任意大小特征图H×W×C,按照比例因子scale进行切片操作,得到scale×scale个特征子图,每个特征子图大小为(H/scale)×(W/scale)×C,将特征子图沿通道维度进行拼接,得到(H/scale)×(W/scale)×C1的特征图X’,其中C1=C×scale2,即特征图X从空间维度减少了一个比例因子,通道维度增加一个比例因子,其中,H为高度,W为宽度。
9.如权利要求8所述的基于改进YOLOv8s的交通标志牌检测方法,其特征在于,在所述SPD-Conv模块中选用WIoU v3作为损失函数,损失函数WIoU v3的生成方法包括:
步骤11:根据距离度量构建了距离注意力,得到包含两层注意力机制的WIoUv1;
步骤12:在所述WIoU v1的基础上,针对交叉熵单调聚焦机制,构造单调聚焦系数,得到WIoU v2;
步骤13:在所述WIoU v2的基础上,引入离群度β,得到WIoU v3。
10.如权利要求8所述的基于改进YOLOv8s的交通标志牌检测方法,其特征在于,两层注意力机制包括LWIoU和RWIoU,
LWIoU=RWIoULIoU
其中,LIoU为IoU损失函数,x和y为检测框的中心点坐标,xgt和ygt为真实边界框的中心点坐标,Wg和Hg为最小包围框的尺寸,*表示将Wg和Hg从计算图中分离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311348446.9A CN117392640A (zh) | 2023-10-18 | 2023-10-18 | 一种基于改进YOLOv8s的交通标志牌检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311348446.9A CN117392640A (zh) | 2023-10-18 | 2023-10-18 | 一种基于改进YOLOv8s的交通标志牌检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117392640A true CN117392640A (zh) | 2024-01-12 |
Family
ID=89466114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311348446.9A Pending CN117392640A (zh) | 2023-10-18 | 2023-10-18 | 一种基于改进YOLOv8s的交通标志牌检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392640A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710827A (zh) * | 2024-02-06 | 2024-03-15 | 华东交通大学 | 基于改进RetinaNet的遥感图像目标检测模型 |
-
2023
- 2023-10-18 CN CN202311348446.9A patent/CN117392640A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710827A (zh) * | 2024-02-06 | 2024-03-15 | 华东交通大学 | 基于改进RetinaNet的遥感图像目标检测模型 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509978B (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN111126472A (zh) | 一种基于ssd改进的目标检测方法 | |
CN112507777A (zh) | 一种基于深度学习的光学遥感图像舰船检测与分割方法 | |
CN108537824B (zh) | 基于交替反卷积与卷积的特征图增强的网络结构优化方法 | |
CN113505792B (zh) | 面向非均衡遥感图像的多尺度语义分割方法及模型 | |
CN113486764B (zh) | 一种基于改进的YOLOv3的坑洼检测方法 | |
Tian et al. | Small object detection via dual inspection mechanism for UAV visual images | |
CN111368769A (zh) | 基于改进锚点框生成模型的船舶多目标检测方法 | |
CN111582091B (zh) | 基于多分支卷积神经网络的行人识别方法 | |
CN111832453B (zh) | 基于双路深度神经网络的无人驾驶场景实时语义分割方法 | |
CN111860587B (zh) | 一种用于图片小目标的检测方法 | |
CN117392640A (zh) | 一种基于改进YOLOv8s的交通标志牌检测方法 | |
CN114973011A (zh) | 一种基于深度学习的高分辨率遥感影像建筑物提取方法 | |
CN113807188A (zh) | 基于锚框匹配和Siamese网络的无人机目标跟踪方法 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN111798469A (zh) | 基于深度卷积神经网络的数字图像小数据集语义分割方法 | |
CN115565056A (zh) | 基于条件生成对抗网络的水下图像增强方法及系统 | |
CN111179272A (zh) | 一种面向道路场景的快速语义分割方法 | |
CN112686233B (zh) | 基于轻量化边缘计算的车道线识别方法及装置 | |
CN112101113B (zh) | 一种轻量化的无人机图像小目标检测方法 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及系统 | |
CN116403133A (zh) | 一种基于YOLO v7改进的车辆检测算法 | |
CN112990336B (zh) | 基于竞争注意力融合的深度三维点云分类网络构建方法 | |
CN114494284A (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
CN114708423A (zh) | 基于改进Faster RCNN的水下目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |