CN116721398A - 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 - Google Patents
一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 Download PDFInfo
- Publication number
- CN116721398A CN116721398A CN202310865846.0A CN202310865846A CN116721398A CN 116721398 A CN116721398 A CN 116721398A CN 202310865846 A CN202310865846 A CN 202310865846A CN 116721398 A CN116721398 A CN 116721398A
- Authority
- CN
- China
- Prior art keywords
- module
- attention
- cross
- yolov5
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 77
- 230000004927 fusion Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000010586 diagram Methods 0.000 claims abstract description 15
- 239000010410 layer Substances 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 27
- 230000007246 mechanism Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000013461 design Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 4
- 239000002355 dual-layer Substances 0.000 claims description 4
- 238000007500 overflow downdraw method Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 101100481876 Danio rerio pbk gene Proteins 0.000 claims description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 2
- 101100481878 Mus musculus Pbk gene Proteins 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000001629 suppression Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 9
- 230000008859 change Effects 0.000 abstract description 4
- 238000005286 illumination Methods 0.000 abstract description 2
- 210000003739 neck Anatomy 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 102100031315 AP-2 complex subunit mu Human genes 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 101000796047 Homo sapiens AP-2 complex subunit mu Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000016507 interphase Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法,该方法通过对原有Yolov5的骨干、颈部、解耦网络的结构进行优化改进,使得检测器能够充分融合多尺度特征信息和增强对交通标志这类小目标的检测,注重对浅层特征图使用,更有利于对小目标的检测,同时只使用两个检测解耦头的方法以达到更高的精度。该方法能够有效的应对光照变化,形变,尺度变化,干扰物影响等多种挑战,提供高精度,高鲁棒性的目标检测,有助于模型进行精确的推断。
Description
技术领域
本发明属于图像处理领域,更具体地说涉及一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法。
背景技术
随着智能交通的快速兴起,车辆自动驾驶技术逐渐成为研究热点,ADT等研究自动驾驶技术机构运用计算机技术,人工智能,传感器等多种技术结合,通过感知自身以及周围环境的信息,依靠感知的信息,做出抉择判断,对车辆进行控制实施命令,以达到自动驾驶的目的。交通标志检测与识别是实现自动驾驶的一项重要任务,然而,受到恶劣天气、光照变化、交通标志形状损坏颜色褪色、受到遮挡等因素影响,同时,交通标志是一种小物体检测,在图像中占据的像素有限,携带的信息有限,模型只能捕获很少的外观信息,这使得交通标志检测在计算机视觉领域是一项具有挑战性的任务。近些年来,交通标志检测问题得到了广泛的注意,大量学者对交通标志检测进行了深入的研究。
在当前CNN卷积神经网络等深度学习发展技术中,基于深度学习的目标检测模型通常分为两阶段和单阶段。两阶段的检测器会将检测问题划分为两个阶段,首先通过对感兴趣区域进行区域建议的方法生成候选区域,确定背景和前景,然后对提出的候选区域进行准确分类和精确定位,通常精度高,但检测速度较慢,过程比较冗杂,其具有代表性的算法有:Faster-RCNN、Cascade-RCNN、VFNET、CenterNet等。而单阶段的检测器不需要产生候选区域,直接通过物体产生分类结果和位置坐标信息,因此其检测速度快,方法简单,但检测精度有所损失,其具有代表性的算法有:YOLO、FCOS、DETR、EffiencentDet等。单阶段检测器在精度损失不大前提下,检测速度优于两阶段的检测器,能够满足交通标志检测的实时性,因此本发明所研究的主要基于单阶段目标YOLO(You Only Look Once)的检测方法。
深度学习中Attention注意力机制是一种类人类视觉神经网络的一种方法,人类通过关注焦点注意有效地找到复杂场景中的显着区域。然而,Hard注意力存在基于最大采样或随机采样的方式来选择信息,无法使用在反向传播算法进行训练,因此软注意力广泛在计算机视觉中使用。SE注意力通过全局平均池化的方法将通道转换成向量,然后特征图根据侧网络的输出进行加权。CBAM注意力机制,使用空间特征关系补充注意力通道关系,空间注意力部分通过通道的平均池化和最大池化计算出。卷积注意力计算开销小,但是无法捕获位置信息,无法学习序列中的顺序关系。自注意力机制通过为图像提供位置信息并计算特征图中各点之间的相似度,减少了对外部信息的依赖,不仅能够学习图像的序列顺序信息并且能够更专注于大小上下文中的重要区域,有效的捕获数据和特征之间的相关性。
目前,基于传统的交通标志检测算法如通过颜色、形状等几何信息、定向梯度直方图(histograms of oriented gradient)的方法存在开销成本大、鲁棒性差、缺乏实时性等缺陷,这些方法都不能有效的满足自动驾驶技术对精度和检测速度的需求。基于卷积神经网络的交通标志检测算法,伴随着网络层数的递增,其提取的特征图的感受野也越大,图像的深层语义信息也越强,但浅层特征图包含的纹理、空间位置信息丢失,导致特征图中的细小物体信息丢失,而传统的单阶段目标检测器中,通常只采用最后一层特征图进行回归和定位,这就造成小目标在最后一个特征图上的有效信息较少,对于交通标志等小目标的检测能力降低,不同层之间语义存在鸿沟,并且受限于单向的信息流传递,高级语义信息和低级空间信息并未得到充分使用的问题。
针对于现存的交通标志小目标检测算法存在的上述问题,亟需设计一种新的改进型Yolov5目标检测方法。
发明内容
(一)技术问题
基于现存的交通标志目标检测算法存在的问题,本发明提出了一种基于跨阶段路由模块和残差信息融合模块的Yolov5目标检测方法,通过对原有Yolov5的骨干、颈部、解耦网络的结构进行优化改进,使得检测器能够充分融合多尺度特征信息和增强对交通标志这类小目标的检测,注重对浅层特征图使用,更有利于对小目标的检测,同时只使用两个检测解耦头的方法以达到更高的精度。该方法能够有效的应对光照变化,形变,尺度变化,干扰物影响等多种挑战,提供高精度,高鲁棒性的目标检测,有助于模型进行精确的推断。
(二)技术方案
本发明提供了一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法,该方法对原有的Yolov5网络进行了改进,具体包括:
(1)跨阶段路由注意力模块
在Yolov5网络中,将骨干网络中的第6层和第8层的C3模块都替换为跨阶段路由注意力模块,且将第2层、第4层、第6层和第9层的特征图信息依次作为输入信号P2、P3、P4和P5输入到颈部网络中;所述跨阶段路由注意力模块的构成方式为:首先将特征图的通道数一份为二,第一部分通过注意力机制进行特征增强信息,另一部分则经过跨阶段与增强后的特征进行输出合并,最后再使用残差结构进行语义的局部增强;
(2)多尺度特征融合方法
颈部网络中,通过骨干网络得到i代表骨干网络中提取的第i层特征图,i∈{0,1,3,4},f0~f3分别对应于输入信号P5~P2,其中Ci∈{1024,512,256,128};Si代表经过多级信息融合模块后的输出的结果,其经过多尺度特征融合网络的数学化公式表示为:
S0=f0
Si=MRI(fi,Si-1) i=1,4
Si=MRI(fi,Si-1,fi+1) i=2,3
Si=MRI(Si-3,Si-4) i=5,7
Si=MRI(Si-3,Si-4,Si-1) i=6
其中,MRI函数的含义是多尺度的特征融合模块函数,能基于拼接和上采样进行各个参数的多尺度特征的融合;
(3)双分支预测解耦头
解耦头中,使用了颈部网络中相对更浅的P2和P3层对应的特征图的两层输出,以将其分别进行双分支预测解耦输出作为最终的预测结果。
优选的,所述基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法的检测目标为交通标志。
在另外一方面,本发明还公开了一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测系统,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述任一项所述的基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法。
在另外一方面,本发明还公开了一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述任一项所述的基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法。
(三)有益效果
相对于现有技术,基于跨阶段路由模块和残差信息融合模块的Yolov5目标检测方法具备如下优势:
(1)本发明的技术方案是基于Yolov5网络模型做的改进,本发明提出基于跨阶段路由注意力模块(CSB模块)和基于MRI模块的多尺度残差信息融合的Yolov5目标检测方法。通过对特征图进行加强特征提取,能有效的捕获数据中的依赖关系,建立全局信息于局部信息之间的交互,快速关注最相关的区域;残差信息融合模块能够加强对融合后的多尺度特征图语义信息增强,采用更深的感受野与浅层感受野融合的方法,能够有效的提高对交通标志目标检测的准确性,充分的使用了多尺度特征图之间的不同特征信息,三者相互配合使本发明的检测器能获取更好的小目标检测效果。
(2)此外,在目标检测过程中,骨干网络用于对输入的图片进行特征提取,通过逐渐减小特征图的尺寸,增强特征的语义信息,捕获图像中的结构、纹理、边缘等信息,然后将提取的特征被送入颈部特征融合网络中,特征融合网络用于进一步处理骨干网络中的提取的特征,将来自不同骨干网络层级之间的特征图进行跨尺度特征融合操作。本发明通过上采样以及拼接等方法,将不同尺度的特征图融合,再将得到的特征图输入到本发明所提出的残差信息融合模块,加强对融合后的多尺度特征图进行语义信息增强,将高层分辨率语义信息丰富的特征与低分辨率空间信息准确的特征进行融合,获得全面的特征。最后解耦的双分支预测头在特征被增强的基础上执行分类和边界框回归,最终能快速生成更准确的交通标志等小目标的检测结果。且通过试验对比可知,本发明在各个指标上获得了最好的表现,这证明了本发明提出的方法的针对交通标志目标检测上的优越性能。
附图说明
图1是现有技术中YOLOV5的网络结构示意图;
图2是本发明中基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测器的整体结构图;
图3是本发明中跨阶段路由注意力模块CSB中BRA注意力机制的结构图;
图4是本发明中跨阶段路由模块(CSB模块)的结构图;
图5为本发明中MRI模块的结构图;
图6为本发明中基于多尺度双向特征融合的颈部网络的简化结构图;
图7为本发明中耦合头Couple Head与解耦头Decouple Head的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
为了提高交通标志的检测精度和检测速度,以获得更好的检测效果,本发明的网络结构在现有技术中的YOLOV5网络基础上进行了改进,相对于图1现有技术中原有的YOLOV5的网络,本发明主要采取的方案主要分为三个部分的改进内容,在骨干网络中最后几层中的两层选择添加了基于小目标的CSB结构(即跨阶段路由注意力模块),以替换原有的C3模块,且CSB结构中引入了BRA注意力机制对骨干网络深层特征中小物体目标的特征进行加强;其次,本发明针对于交通标志,对原有的颈部的PANET做了改进,设计了一种全新的融合网络替换了Yolov5中的颈部网络,使用MRI模块用于对多尺度的特征进行融合。最后,本发明在网络最后预测部分只使用了两个浅层的解耦检测头用于替代了Yolo原始的解耦头,同时引入了FocalEIOU损失函数替代YOLOV5原来的CIOU损失函数。
参见图2所示,本发明新的基于跨阶段路由模块和残差信息融合模块的Yolov5目标检测方法具体包括以下方面的改进:
一、跨阶段路由注意力模块(简称CSB模块)
本发明设计了一个跨阶段路由注意力模块,如图2所示,在Yolov5原始网络中,将骨干网络中的第6层和第8层的C3模块都替换为CSB模块,且将第2层、第4层、第6层和第9层(SPPF层)的信息依次作为输入信号P2、P3、P4和P5输入到颈部网络中,CSB模块用于对交通标志的小目标进行加强特征提取,该方法能有效的捕获数据中的依赖关系,本发明使用的路由注意力方法能够建立全局信息于局部信息之间的交互,快速关注最相关的区域,其具备高并行性,有利于后续对模型的训练和推理。
具体的,如图4所示,本发明中的CSB模块的构成方式为:首先将特征图的通道数一份为二,第一部分通过注意力机制进行特征增强信息,另一部分则经过跨阶段与增强后的特征进行输出合并,最后再使用残差结构进行语义的局部增强。
具体的,本发明的CSB模块另一部分通道中的注意力机制既可以为现有技术中的双层路由注意力模块(Bi-level Routing Attetion),也可以优选为如图3所示的本发明特地改进设计的BRA注意力机制,从而与跨阶段路由注意力模块CSB的跨越结构配合后,使其具备快速关注最相关的区域和具备高并行性的功能。
如图3所示,本发明针对双层路由注意力模块改进设计的BRA注意力机制的构成方式为:
BRA注意力机制中,任取单元X∈RC×H×W作为输入,以Y∈rC×H×W作为输出,首先本发明将特征图划分为P×P块相互不重叠的区域,然后将这些区域按照空间维度展平,得到个特征向量,然后将得到的特征向量输入通过线性映射推导出其中C是特征图的通道数,H和W分别是特征图的宽和高,P是特征图划分的块数;
Q=XrWQ,K=XrWK,V=XrWV
这里的WQ,KQ,VQ∈RC×C都是参数矩阵,代表映射图像中Query,Key,Value的线性映射权重矩阵,然后将Q与K的按特征向量划分的区域求平均值得到Qr,
Ar=Mean(Q)×Mean(K)
然后将Qr与Kr进行相乘操作计算最相关的相似度得到 S为,将得到的相似度矩阵使用topK算子保留关系最密切的前K个区域出的索引,得到区域路由索引Ik;最后将邻近的缩影与原始的K与V连接起来;
Kg=gather(IK,K),Vg=gather(IK,V)
其中
然后将得到Kg和Vg与原始的Q进行自注意力计算,同时将得到的Vr通过深度可分离卷积与自注意力的结果进行残差计算;
BRA(X)=Attention(Q,Kg,Vg)+DwConv(Vg)
得到最终的结果O∈RC×H×W,其中,Mean为均值函数,softmax为归一化指数函数,gather是维度拼接函数,DwConv为深度可分离卷积函数。
由此可知,本发明改进的注意力模块BRA对原双层路由注意力模块的注意力结构进行了一定程度的修改,且删除了最后一个阶段的深度可分离卷积和与自注意力的残差,这样的方法在粗区域级别过滤掉不相关的区域,通过邻接矩阵,保留部分相关区域的路由,通过路由找到了两个语义相关的区域,通过该方法不断查询相关性的区域并将向量组合起来,而不会分散其他不相关标记的注意力,因此它具有良好的性能和高计算效率。且交通标志作为小目标物体,在骨干网络中深层网络的特征图,其包含的小目标的物体像素少,本发明的设计跨阶段路由注意力模块CSB的最终目的是为了让模型在深层特征图中关注特征图中的小目标邻近物体,使其能够快速关注更多有效区域。
二、多尺度特征融合方法
如图2所示,针对骨干网络(backbone)的四层次输入信号P2~P5,颈部网络进行了多尺度特征融合,使用融合不同大小的多级特征图能够增加特征的语义信息与位置信息,尤其针对检测小目标物体时,提升效果是显著性的。
对此,本发明设计了一种新颖的多尺度双向特征融合网络来实现对特征图融合,使用了不同尺度的特征图作为输入,浅层特征注重细节和位置信息,有助于定位,深层特征包含丰富的语义信息更有助于分类,本发明通过卷积操作将不同尺度的特征图改变成为相同大小,使得不同尺度不同通道数的特征图也可以共享相同的通道维度,更有利于多尺度的特征融合,但同时也带来了额外少量的计算开销,尽管如此,本发明仍保证了交通标志目标的实时性,基于轻量级的YOLOV5改进网络结构的检测精度有极大的提高,证明本发明方法的有效性。
参见图6可知,通过骨干网络得到i代表骨干网络中提取的第i层特征图,i∈{0,1,3,4},f0~f3分别对应于输入信号P5~P2,其中Ci∈{1024,512,256,128};Si代表经过多级信息融合模块后的输出的结果,其经过多尺度特征融合网络的数学化公式表示为:
S0=f0
Si=MRI(fi,Si-1) i=1,4
Si=MRI(fi,Si-1,fi+1) i=2,3
Si=MRI(Si-3,Si-4) i=5,7
Si=MRI(Si-3,Si-4,Si-1) i=6
其中,MRI函数的含义是多尺度的特征融合模块函数,其能基于拼接和上采样进行各个参数的多尺度特征的融合。
由于不同尺度的特征图具备不同的空间信息和语义信息,经常会出现尺度融合导致信息的不匹配和信息丢失、上下文信息不匹配、信息重叠和信息丢失等问题,模型难以理解图像中的语义信息而导致模型性能下降。YOLOV5中原有的C3模块提高了网络的感受野和网络的深度,但并不能够有效的结合不同尺度的特征图融合,其没有明确的机制来促进跨层特征的重用,在融合特征通过拼接操作进行特征拼接实现后,可能会出现浅层特征融合深层特征中融合信息不充分,出现小目标信息丢失的问题。本发明针对C3模块的不足,设计了P2~P5的多级信息融合模块,在拼接操作之后将原网络融合模块替换成多级信息融合模块,其目的是用于增强对不同尺度特征图之间的语义信息,同时进一步增加特征图的感受野,使得特征映射包含更多的语义信息,使在深层特征中,减少对交通标志这类小目标的信息的损失,使得网络能够学习到交通标志这类小目标的特征信息,提高模型检测的精准率。多级信息融合模块具有更加深层的网络,其方法能够更好的拟合学习特征,且更有助于梯度传输。
参见图5可知,本发明对于多尺度融合的MRI函数的定义如下:
MRI(X)=Concat(Conv(X),ResBlock(X))+Conv(X)
ResBlock(X)=SiLU(Conv(X)+Conv(X))+X
其中,ResBlock是残差块函数,Concat是连接块函数,Conv是基础卷积块函数,SiLU是silu激活函数,X是特征图信息。
首先,本发明通过两个1x1卷积改变了融合特征图的通道数,使其变成原始通道的一半,然后通过堆叠多个残差融合特征模块加强融合特征图的语义信息,同时增加其感受野兼顾全局信息与局部信息,更有利于上下文信息的获取,改善多尺度信息融合出现的信息丢失。同时本发明将双分支拼接的图片与输入原始特征图的残差堆叠,实现不同尺度特征图的语义信息加强,缓解了的多尺度融合容易出现的信息丢失,有效的提高了模型的鲁棒性。
三、双分支预测解耦头
本发明研究了GTSDB、CCTSDB数据集,发现在这些交通标志数据集上,存在大量的中小型目标交通标志实例,交通标志目标检测对任务的实时性有很强的要求。因此,参见图1和图7可知,本发明直接将检测大型对象的检测层去除,同时使用了相对更浅的P2和P3层对应的特征图的输出,以将其进行双分支预测解耦;其Decouple Head解耦头只使用了颈部网络中MRI输出的头两个浅层的检测头作为最终的预测结果,且其可为常规解耦头。本发明使用的检测头是从低级高辨率的特征图生成,其结合了深层特征图的语义信息,对交通标志这类小物体更加敏感,不仅能够提高对小物体检测精度,同时还能减少数据冗余,实现检测模型轻量化,能够保证检测任务的实时性。
后续试验数据和研究可表明,分类更关注目标的纹理内容,定位更关注目标的边缘信息,同时综合考虑到相关算子表征能力和硬件上计算开销这两者的平衡,故本发明采用了解耦检测头结构替换了Yolov5中的耦合头,从而加快网络收敛速度和提高精度。
四、Focal EIOU损失函数
双分支预测解耦中的预测头接受到特征向量,预测出类别、置信度、矩形框,其对应Yolov5中三部分损失,分别为分类损失、边界框回归损失以及目标置信度损失。Yolov5的损失函数可以由下式表示
其中λ,μ,φ为权重参数,N代表检测头数量,h代表标签分配到先验框的目标个数,S代表图片分割成的网格数,LBox代表边界框损失,Lobj代表置信度损失,LCls代表分类损失。其中分类损失与目标的置信度损失都是由二元交叉熵损失计算,其公式由下式表达
y模型预测值,为标签真实值,而边界框回归损失由CIOU计算得到。交通标志检测是一个具备挑战性的任务,在交通标志的数据集中存在部分图片恶劣天气、交通标志被遮挡重叠等困难样本。然而,在CIOU损失计算中并未考虑到难易样本的平衡问题,容易在训练过程中模型预测更多更加容易的类别,从而影响最终的检测结果。为解决上述问题,本发明采用Focal EIOU代替CIOU作为边界框回归损失计算,EIOU包含三部分:重叠部分,中心距离损失,宽高损失,EIOU由下式所示:
其中ρ2(b,bgt)表示预测框中心点与真实框中心点的欧氏距离,h,w代表预测框的宽度和高度,hgt,wgt代表真实框的宽度和高度,hc,wC是覆盖两个框的最小封闭框的宽度和高度,Focal EIOU的计算公式由下式所示
LFocal-EIO=IOUrLEIOU
其中,IOU是边界回归框的交并体的值,γ是控制异常值抑制程度的参数。
由此可知,本发明设计了一个跨阶段路由注意力模块CSB,用于对交通标志的小目标进行加强特征提取,该方法能有效的捕获数据中的依赖关系,本发明使用的路由注意力方法能够建立全局信息于局部信息之间的交互,快速关注最相关的区域,其具备高并行性,有利于对模型的训练和推理。此外,本发明针对于交通标志这一小目标,将原始颈部结构中的网络替换,设计了一种新颖的双向特征融合网络方法,并设计了MRI模块用于加强对融合后的多尺度特征图进行语义信息增强,在保证实时性的前提下,提高检测的精度,减少额外的计算开销。最后,针对于交通标志小目标,本发明为了充分利用浅层特征,相较于原始Yolov5模型,本发明使用了更浅层的特征图作为多尺度的特征图输入,同时本发明只使用两个浅层的检测头作为最终的预测结果。此外,还可在双分支预测解耦中使用了FocalEIOU损失函数代替CIOU作为边界框回归损失计算,以提高检测结果的准确性。
在另外一个实施例中,为了验证本发明上述提出的基于跨阶段路由模块和残差信息融合模块的Yolov5目标检测方法的性能,本发明提出的改进方法在TT-100K,CCTSDB,GTSDB三个数据集上进行了验证。
表1在TT-100K数据集上与其它的跟踪器对比的详细数据
Method | Inputsize | Backbone | AP50 | mAP |
M2Det | 800×800 | ResNet50 | 65.6 | 29.4 |
Faster R-CNN+FPN | 1024×1024 | ResNet50 | 93.1 | 59.2 |
Cascade R-CNN | 1024×1024 | ResNet50 | 94.4 | 61.3 |
RetinaNet | 1024×1024 | ResNet50 | 91.3 | 65.3 |
EfficientDet-d4 | 1024×1024 | EfficientDet-B4 | 79.9 | 61.3 |
Libra R-CNN | 1024×1024 | ResNet50 | 92.4 | 67.3 |
ATSS | 1024×1024 | ResNet50 | 91.8 | 66.7 |
YOLOv3 | 640×640 | Darknet-53 | 94.0 | 66.9 |
YOLOv5 | 640×640 | CSP V5 | 93.2 | 66.4 |
本发明方法 | 640×640 | - | 96.7 | 73.0 |
表2在GTSDB数据集上与其它的跟踪器对比的详细数据
表3在CCTSDB数据集上与其它的跟踪器对比的详细数据
Method | Inputsize | Parms | Backbone | mAP |
Faster R-CNN | 1333×800 | 25.7M | ResNet50 | 56.58 |
SSD | 1333×800 | 18.7M | ResNet50 | 49.20 |
RetinaNet | 1333×800 | 28.3M | ResNet50 | 57.78 |
Libra R-CNN | 1333×800 | 32.4M | ResNet50 | 61.35 |
Dynamic R-CNN | 1333×800 | 33.2M | ResNet50 | 60.01 |
Sparse-R-CNN | 1333×800 | 124M | ResNet50 | 59.65 |
YOLOv3 | 640×640 | 61.5M | Darknet-53 | 82.40 |
YOLOv4 | 640×640 | 45.0M | CSPDarknet-53 | 83.20 |
YOLOv5 | 640×640 | 46.5M | Modified CSP V5 | 84.60 |
本发明方法 | 640×640 | 51.2M | - | 86.1 |
其中,表1为在TT-100K数据集上本发明方法与其它的跟踪器对比的详细数据,表2在为GTSDB数据集上本发明方法与其它的跟踪器对比的详细数据,表3为在CCTSDB数据集上与其它的跟踪器对比的详细数据。由上表1-3可知,本发明的方法在TT-100K、CCTSDB和GTSDB的诸多评估指标上均有较好的效果评分,其性能明显优于YOLOV5等算法,故其特别适合应用于交通标志等诸多小目标的快速和高精度检测工作。
此外,上述本发明基于跨阶段路由模块和残差信息融合模块的Yolov5目标检测方法可以转换为软件程序指令,既可以使用包括处理器和存储器的软件分析系统来运行实现,或者也可以通过非暂态计算机可读存储介质中存储的计算机指令来实现。
最后,本发明的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法,其特征在于,该方法对原有的Yolov5网络进行了改进,具体包括:
(1)跨阶段路由注意力模块
在Yolov5网络中,将骨干网络中的第6层和第8层的C3模块都替换为跨阶段路由注意力模块,且将第2层、第4层、第6层和第9层的特征图信息依次作为输入信号P2、P3、P4和P5输入到颈部网络中;所述跨阶段路由注意力模块的构成方式为:首先将特征图的通道数一份为二,第一部分通过注意力机制进行特征增强信息,另一部分则经过跨阶段与增强后的特征进行输出合并,最后再使用残差结构进行语义的局部增强;
(2)多尺度特征融合方法
颈部网络中,通过骨干网络得到i代表骨干网络中提取的第i层特征图,i∈{0,1,3,4},f0~f3分别对应于输入信号P5~P2,其中Ci∈{1024,512,256,128};Si代表经过多级信息融合模块后的输出的结果,其经过多尺度特征融合网络的数学化公式表示为:
S0=f0
Si=MRI(fi,Si-1)i=1,4
Si=MRI(fi,Si-1,fi+1)i=2,3
Si=MRI(Si-3,Si-4)i=5,7
Si=MRI(Si-3,Si-4,Si-1)i=6
其中,MRI函数的含义是多尺度的特征融合模块函数,能基于拼接和上采样进行各个参数的多尺度特征的融合;
(3)双分支预测解耦头
解耦头中,使用了颈部网络中相对更浅的P2和P3层对应的特征图的两层输出,以将其分别进行双分支预测解耦输出作为最终的预测结果。
2.根据权利要求1所述的基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法,其特征在于,所述跨阶段路由注意力模块中的注意力机制为改进设计的BRA注意力机制,所述BRA注意力机制的构成方式为:
BRA注意力机制中,任取单元X∈RC×H×W作为输入,以Y∈RC×H×W作为输出,首先本发明将特征图划分为P×P块相互不重叠的区域,然后将这些区域按照空间维度展平,得到个特征向量,然后将得到的特征向量输入通过线性映射推导出/>其中C是特征图的通道数,H和W分别是特征图的宽和高,P是特征图划分的块数;
Q=XrWQ,K=XrWK,V=XrWV
这里的WQ,WK,WV∈RC×C都是参数矩阵,代表映射图像中Query,Key,Value的线性映射权重矩阵,然后将Q与K的按特征向量划分的区域求平均值得到Qr,
Ar=Mean(Q)×Mean(K)
然后将Qr与Kr进行相乘操作计算最相关的相似度得到 S为,将得到的相似度矩阵使用topK算子保留关系最密切的前K个区域出的索引,得到区域路由索引Ik;最后将邻近的缩影与原始的K与V连接起来;
Kg=gather(IK,K),Vg=gather(IK,V)
其中然后将得到Kg和Vg与原始的Q进行自注意力计算,同时将得到的Vr通过深度可分离卷积与自注意力的结果进行残差计算;
BRA(X)=Attention(Q,Kg,Vg)+DwConv(Vg)
得到最终的结果O∈TC×H×W,其中,Mean为均值函数,softmax为归一化指数函数,gather是维度拼接函数,DwConv为深度可分离卷积函数。
3.根据权利要求1所述的基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法,其特征在于,所述跨阶段路由注意力模块中的注意力机制为双层路由注意力模块。
4.根据权利要求1所述的基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法,其特征在于,所述MRI函数的定义具体如下:
MRI(X)=Concat(Conv(X),ResBlock(X))+Conv(X)
ResBlock(X)=SiLU(Conv(X)+Conv(X))+X
其中,ResBlock是残差块函数,Concat是连接块函数,Conv是基础卷积块函数,SiLU是silu激活函数(SigmoidLinear Unit),X是特征图信息。
5.根据权利要求1所述的基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法,其特征在于,还包括:
(4)FocalEIOU损失函数
双分支预测解耦中的预测头接受到特征向量,预测出类别、置信度、矩形框,其对应Yolov5中三部分损失,分别为分类损失、边界框回归损失以及目标置信度损失,Yolov5的损失函数可以由下式表示
其中λ,μ,φ为权重参数,N代表检测头数量,h代表标签分配到先验框的目标个数,S代表图片分割成的网格数,LBox代表边界框损失,LObj代表置信度损失,LCls代表分类损失;其中分类损失与目标的置信度损失都是由二元交叉熵损失计算,其公式由下式表达
y模型预测值,为标签真实值,而边界框回归损失由CIOU计算得到;采用Focal EIOU代替CIOU作为边界框回归损失计算,EIOU包含三部分:重叠部分,中心距离损失,宽高损失,EIOU由下式所示:
其中ρ2(b,bgt)表示预测框中心点与真实框中心点的欧氏距离,h,w代表预测框的宽度和高度,hgt,wgt代表真实框的宽度和高度,hc,wC是覆盖两个框的最小封闭框的宽度和高度,Focal EIOU的计算公式由下式所示
LFocal-EIOU=IOUrLEOOU
其中,IOU是边界回归框的交并体的值,γ是控制异常值抑制程度的参数。
6.根据权利要求1所述的基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法,其特征在于,所述基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法的检测目标为交通标志。
7.一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测系统,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一项所述的基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一项所述的基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310865846.0A CN116721398A (zh) | 2023-07-14 | 2023-07-14 | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310865846.0A CN116721398A (zh) | 2023-07-14 | 2023-07-14 | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116721398A true CN116721398A (zh) | 2023-09-08 |
Family
ID=87871614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310865846.0A Pending CN116721398A (zh) | 2023-07-14 | 2023-07-14 | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116721398A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894002A (zh) * | 2024-03-18 | 2024-04-16 | 杭州像素元科技有限公司 | 一种危险物小目标检测模型的构建方法及装置 |
CN117894002B (zh) * | 2024-03-18 | 2024-06-07 | 杭州像素元科技有限公司 | 一种危险物小目标检测模型的构建方法及装置 |
-
2023
- 2023-07-14 CN CN202310865846.0A patent/CN116721398A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894002A (zh) * | 2024-03-18 | 2024-04-16 | 杭州像素元科技有限公司 | 一种危险物小目标检测模型的构建方法及装置 |
CN117894002B (zh) * | 2024-03-18 | 2024-06-07 | 杭州像素元科技有限公司 | 一种危险物小目标检测模型的构建方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN112395951B (zh) | 一种面向复杂场景的域适应交通目标检测与识别方法 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN113095152B (zh) | 一种基于回归的车道线检测方法及系统 | |
CN112767478B (zh) | 一种基于表观指导的六自由度位姿估计方法 | |
Gu et al. | Embedded and real-time vehicle detection system for challenging on-road scenes | |
CN116704273A (zh) | 一种自适应红外可见光双模融合检测方法 | |
Barodi et al. | An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
Li et al. | Real-time tracking algorithm for aerial vehicles using improved convolutional neural network and transfer learning | |
Wu et al. | Vehicle detection based on adaptive multi-modal feature fusion and cross-modal vehicle index using RGB-T images | |
Zhang et al. | Front vehicle detection based on multi-sensor fusion for autonomous vehicle | |
Yang et al. | SiamMMF: multi-modal multi-level fusion object tracking based on Siamese networks | |
Poostchi et al. | Feature selection for appearance-based vehicle tracking in geospatial video | |
Li et al. | An outstanding adaptive multi-feature fusion YOLOv3 algorithm for the small target detection in remote sensing images | |
Wang et al. | Summary of object detection based on convolutional neural network | |
CN116912763A (zh) | 一种融合步态人脸模态的多行人重识别方法 | |
Li et al. | A real-time vehicle window positioning system based on nanodet | |
CN114359493B (zh) | 一种用于无人船生成三维语义地图的方法和系统 | |
CN116721398A (zh) | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 | |
CN111666953B (zh) | 一种基于语义分割的潮汐带测绘方法及设备 | |
CN114581841A (zh) | 一种复杂交通环境下利用深度学习法检测弱小目标的方法 | |
CN111695552A (zh) | 多特征融合的水下目标建模及优化方法 | |
CN116503603B (zh) | 一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |