CN116091892A - 一种基于卷积神经网络的快速目标检测方法 - Google Patents
一种基于卷积神经网络的快速目标检测方法 Download PDFInfo
- Publication number
- CN116091892A CN116091892A CN202310104561.5A CN202310104561A CN116091892A CN 116091892 A CN116091892 A CN 116091892A CN 202310104561 A CN202310104561 A CN 202310104561A CN 116091892 A CN116091892 A CN 116091892A
- Authority
- CN
- China
- Prior art keywords
- network
- frame
- target
- prediction
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 66
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000013461 design Methods 0.000 claims abstract description 13
- 230000001965 increasing effect Effects 0.000 claims abstract description 5
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000005764 inhibitory process Effects 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 2
- 230000006872 improvement Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于卷积神经网络的快速目标检测方法,FastDet网络主干网络包含通道拆分、跨阶段通道拼接、残差连接和通道混洗操作;颈部网络改进于YOLOv4Tiny,将原有的FPN改为交叉型FPN,进一步加强了特征融合,同时引入ECA注意力模块,加强对重点通道的关注度;检测头借鉴YOLOX设计思想,将类别预测和置信度、回归预测进行解耦,加快网络训练收敛速度,提升最终精度;正样本匹配部分采用改进版SimOTA*策略,确保了训练初期以及应对困难样本时能够匹配合适的正样本,稳定网络训练;损失函数部分采用SIOU损失,同时考虑重叠区域、中心点距离、边框的宽高与角度,最终优化边框回归精度。该方法作为一个通用的轻量级目标检测器,经过训练后应用于诸多计算机视觉任务。
Description
技术领域
本发明属于计算机视觉技术领域,特别是涉及一种基于卷积神经网络的快速目标检测方法。
背景技术
目标检测一直以来都是计算机视觉领域的一项重要且富有挑战性的课题。其任务是给定一幅图片,判断图片中是否存在给定类别的物体或目标,例如行人、车辆、茶杯等等,如果图片中存在给定类别的目标,则返回它们在图片中的位置和各自所属的类别,其中返回的位置信息通常采用紧紧包围目标的矩形边界框坐标来表示。近年来,随着深度学习的发展,目标检测在现实场景中得到了广泛的应用,包括智能机器人、公共安全、智慧交通、缺陷检测、自动驾驶、人机交互、医学图像辅助、智能视频监控等等。作为近些年各类计算机顶级会议和期刊的热门关键词,目标检测也是许多复杂和高层视觉任务的前提与基础,包括图像分割、目标跟踪、场景理解、图像显著性检测等。
然而,为了应对复杂目标的检测问题,主流的目标检测模型都会采用庞杂的网络结构设计,动辄上百层的卷积结构的堆叠以及多支路并联的思想,使得目前效果最好的一批目标检测网络只能部署在实验室的服务器中,而无法部署到实际的应用场景中,限制了基于卷积神经网络的目标检测在边缘设备上应用的发展。鉴于此,模型轻量化的思想被提出。最近几年,模型轻量化发展迅速,常采用的方法有神经网络模型压缩、神经网络结构搜索(Neural Architecture Search,NAS)和人工设计的轻量化模块。模型压缩常采用剪枝、权值共享、参数量化等方式,能有效降低模型内存消耗;神经网络结构搜索一般采用强化学习、进化算法、梯度表示等方法在既定的搜索空间进行搜索,通常能找到一系列精度高速度快的模型;人工设计的轻量化模块包括使用1×1卷积、全局平均池化层(Global AveragePooling,GAP)、组卷积、深度可分离卷积等方式,减少参数量,提高运行速度。
发明内容
本发明目的在于解决现有目标检测模型为了追求精确率使得算法复杂度极高,不适合部署于移动端和边缘设备上的问题。提出一种基于卷积神经网络的快速目标检测算法,它的速度与业内主流轻量级目标检测模型相比更快,未来可以应用到更多低算力设备上。
为了实现本发明目的,本发明一种基于卷积神经网络的快速目标检测方法,包括以下步骤:
步骤1、对需要检测的图像进行预处理;
步骤2、将预处理后的图像送入FastDet网络,FastDet网络是一种轻量级卷积神经网络,包括轻量级卷积模块FastLayer、ECA注意力机制、交叉FPN结构以及解耦的检测头;预处理后的图像依次经过主干网络、颈部网络和检测头,经过网络的特征提取,输出两张预测特征图;
步骤3、对FastDet网络进行训练,通过FastDet网络输出的特征图与图像标签计算得到损失,将损失通过反向传播一步步更新网络权值,从而使得网络具有检测特定目标的能力;
步骤4、基于训练好的模型,对FastDet网络输出的两个特征图进行解码得到所检测出的目标类别和边框信息,执行非极大值抑制过滤重复预测框;将最终预测框还原回原图尺度,绘制预测边框,完成目标检测。
进一步地,步骤1具体为,将需要检测的图像缩放到预设大小,并将每个像素值除以255归一化到0~1之间;由于网络总共进行了5次宽高维的减半,需要确保缩放后的图片边长是32的倍数。
进一步地,步骤2具体为,将预处理后的图像送入FastDet网络,依次经过主干网络、颈部网络和检测头;其中主干网络包含通道拆分、跨阶段局部拼接、残差连接和通道混洗操作,具有优秀特征提取能力和执行速度;颈部网络包括ECA注意力机制和交叉FPN结构,能够加强特征融合能力;检测头设计成解耦的形式以及anchor-free的框架流程,加速网络训练收敛速度。
进一步地,主干特征网络采用独立设计的FastLayer卷积模块进行特征提取,FastLayer卷积模块是一种包含通道拆分、跨阶段局部拼接、残差连接以及通道混洗的卷积模块;具体来说,FastLayer模块首先会经过步幅为2的3×3卷积将特征图的宽和高减半;随后包含两个分支,左侧分支不进行任何处理,右侧分支先保存临时值,随后经过一系列步幅为1的3×3卷积后再与临时值相加,用于简化学习过程、预防梯度消失以及减少重复计算;随后,两个分支进行通道维的拼接,以此来进行通道升维操作,避免引入过多参数;最后进行分组数为4的通道混洗操作,在不引入额外参数的同时,使通道充分融合;需要注意的是,以上所描述的卷积代指一组标准操作,即卷积加激活函数加批归一化。
进一步地,颈部网络包括ECA注意力机制和交叉FPN结构设计;颈部网络基于YOLOv4Tiny,在其基础上额外添加了一个26×26特征图经过步幅为2的卷积与13×13特征图拼接的结构,形成一个交叉FPN结构,用于使浅层特征的位置信息和深层特征的语义信息能够相互融合,加强特征提取的能力;此外,在颈部网络的重点位置插入了4个ECA注意力模块,重点位置是指主干网络到颈部网络以及颈部网络到检测头的过渡部分;ECA注意力机制是对SE模块的改进,采用一维卷积替代全连接实现高效的局部跨通道交互,提取通道间的依赖关系,其中一维卷积核大小会由输入通道动态确定,采用公式:
其中,C代表输入张量的通道数,k代表一维卷积核大小。
进一步地,解耦的检测头对检测目标的类别预测和边框、置信度预测进行解耦,并设计成anchor-free的框架;检测头的解耦使类别和置信度、边框回归两类区别较大的成分分离,用于加快网络收敛速度和训练精度;anchor-free的设计用于简化网络预测,去除繁琐的锚框聚类步骤,增强模型泛化能力,提升模型的执行速度。
进一步地,步骤3具体为,训练时,两个特征图将通过改进的SimOTA*正样本匹配策略来确定正负样本,随后计算边框回归损失、置信度损失和类别损失,其中边框回归损失采用SIOU方法,置信度损失和类别损失都采用二元交叉熵损失;最后通过反向传播来更新网络权值。
进一步地,改进的SimOTA*正样本匹配策略是指在训练初期及面对检测困难目标时所产生的正样本选定随机性问题,也即由原版算法确定的动态正样本个数小于1时,根据目标大小和中心点位置,人工为其分配合适的正样本,具体如下,首先根据预先设定的面积阈值将检测目标分配到对应的特征图,当确认所分配的特征图后,再为其分配该特征图上的多个特征点,选择一个介于0到1阈值T(学习能力较强的网络,例如一些复杂的网络可以选取较低的阈值,可以分配更多正样本从而加速网络学习,提高网络检测能力;学习能力较弱的网络,例如轻量级网络可以选取较高的阈值,从而避免分配太多正样本,超出网络学习能力上限),当目标的x坐标映射到特征图时,满足:
则为其额外分配所映射特征图栅格右上角的特征点,当目标的y坐标映射到特征图时,满足:
则为其额外分配所映射特征图栅格左下角的特征点;当同时满足以上两式时,则为其额外分配所映射特征图栅格右下角的特征点;其中xgt和ygt代表目标中心点位置映射到特征图时的x和y坐标值;针对模型的学习能力,调节合适的阈值T,为模型始终分配合适的正样本,促进网络学习。
进一步地,训练时采用SIOU边框损失;SIOU边框损失考虑了四部分:中心点距离、重叠面积、宽高值以及角度,其计算公式如下:
IOU表示重叠情况,有:
其中B代表预测框,BGT代表目标框;
Δ度量了两个边框的距离和角度损失,有:
γ=2-sin(2×α)
其中,γ根据目标框和预测框的相对位置,将角度情况融入到距离损失中;ρx和ρy分别体现目标框和预测框中心点之间的x轴距离和y轴距离的远近;
Ω表示形状损失,即预测框宽高与目标框宽高的相似度,有:
其中,wgt,hgt,w,h分别代表目标框宽高值和预测框宽高值,ωw和ωh分别体现了目标框和预测框之间宽度值与高度值的接近程度。
进一步地,步骤4具体为,预测时,两个特征图直接进行解码;对于特征图中每个预测点,将置信度与最大类别预测相乘,选取乘积大于预设阈值的预测点,执行非极大值抑制过滤重复预测框;将最终预测框还原回原图尺度,绘制预测边框,完成目标检测。
与现有技术相比,本发明的显著进步在于:1)本发明采用独立设计的主干特征提取网络,在对图片特征进行有效提取的同时,具有较高执行速度;2)结合ECA注意力模块并结合交叉FPN结构,提升模型特征融合能力;3)解耦的检测头和anchor-free的检测框架可以加速网络训练收敛、提升网络精确率和泛化性;4)改进版SimOTA*的应用使得网络训练更加稳定,并提升最终精度;采取SIOU边框回归损失,进一步提升边框回归效果。
为更清楚说明本发明的功能特性以及结构参数,下面结合附图及具体实施方式进一步说明。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明中主干网络结构图;
图2为本发明中颈部网络结构图;
图3为本发明中ECA注意力机制结构图;
图4为本发明中检测头结构图;
图5为本发明中改进版SimOTA*正样本匹配机制示意图;
图6为一种基于卷积神经网络的快速目标检测方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图6所示,一种基于卷积神经网络的快速目标检测方法,具体包括以下步骤:
1)对需要检测的图像进行预处理;
2)将预处理后的图像送入FastDet网络,所述FastDet网络是一种轻量级卷积神经网络,包括轻量级卷积模块FastLayer、ECA注意力机制、交叉FPN结构以及解耦的检测头;预处理后的图像依次经过主干网络、颈部网络和检测头,经过网络的特征提取,输出两张预测特征图;
3)训练阶段,通过FastDet网络输出的特征图与图像标签计算得到损失,将损失通过反向传播一步步更新网络权值,从而使得网络具有检测特定目标的能力。训练时,两个特征图将通过改进版SimOTA*正样本匹配策略来确定正负样本,随后计算边框回归损失、置信度损失和类别损失,其中边框回归损失采用更准确的SIOU方法,置信度损失和类别损失都采用二元交叉熵损失。最后通过反向传播来更新网络权值。
4)基于训练好的模型,对FastDet网络输出的两个特征图进行解码得到所检测出的目标类别和边框信息,执行非极大值抑制过滤重复预测框;将最终预测框还原回原图尺度,绘制预测边框,完成目标检测。预测时,两个特征图直接进行解码。对于特征图中每个预测点,将置信度与最大类别预测相乘,选取乘积大于所设定阈值(例如0.3)的预测点,执行非极大值抑制过滤重复预测框。将最终预测框还原回原图尺度,绘制预测边框,完成目标检测。
实施例
图1为本发明提出的一个基于卷积神经网络的轻量级快速的主干网络,对于尺寸为416×416的输入图片,网络的前两个卷积会将图片宽高缩减到104×104,同时通道扩张到64,随后特征图依次进入三个FastLayer卷积块进一步进行特征提取,最终输出两个不同尺度的特征图:26×26和13×13。
FastLayer的设计结合了ResNet、CSPNet的设计结构和ShuffleNetv2关于设计高效网络的四条准则。在FastLayer中,第一个卷积首先会进行宽高的减半,随后分成两个分支,左分支不做任何处理,右分支进行一系列标准3×3卷积后,再加上标准卷积前的值,最后左右分支按照通道维拼接。
该网络结构符合ShuffleNetv2中所提到的四个设计准则:1、保持输入和输出通道数相同,该主干网络共包含15个卷积层,其中13个卷积层满足该准则,占主干网络总卷积的86.7%,从而使得内存访问成本最小化;2、不采用组卷积,因为组卷积在硬件层面上未进行优化,虽然参数量降低,但是速度却未有明显提升;3、该网络分支结构十分简单,防止由过多分支导致速度变慢的问题;4、不采用频繁的残差连接,而是仅在FastLayer右分支的卷积块后引入,整个主干网络总共只有3个残差连接,防止过多元素级运算带来的延迟问题。
图2为本发明提出的结合ECA注意力机制的交叉FPN结构。针对两个特征图输出,常规方法仅包含一个由13×13特征图上采样与26×26特征图拼接的简单FPN结构。FastDet的颈部网络则额外添加了一个26×26特征图经过步幅为2的卷积与13×13特征图拼接的结构,形式上可以看作交叉FPN。这样,浅层特征的位置信息和深层特征的语义信息能够相互融合,进一步加强特征提取的能力。
图3为ECA注意力机制结构图。为了加强网络关注重点通道的能力,FastDet的颈部结构设计中添加了4个ECA注意力机制,分别放在了主干网络输出部分和交叉FPN拼接后的部分,以此实现高效的局部跨通道交互,提取通道间依赖关系。为了提取通道间依赖关系,常采取全局平均池化后接全连接层的设计,为了应对全连接层带来的巨额参数量,会先进行维度缩减再进行维度扩张,然而这种结构不利于学习通道间依赖关系。基于此,ECA采用一维卷积来替代全连接层实现整合通道信息的操作,并且不会引入过量参数,执行速度快,是轻量级卷积神经网络常采用的组件。其中一维卷积核大小会由输入通道动态确定,采用公式:
其中,C代表输入张量的通道数,k代表一维卷积核大小。
图4为FastDet检测头部分,对于两个输出特征图26×26和13×13,检测头的形式保持一致。检测头首先经过一个1×1卷积将通道降维到合适的大小,随后分成两路,左分支负责类别预测,右分支负责回归和置信度预测。两个分支先分别经过一个3×3卷积进行最后的特征提取,随后再经过最后一层卷积输出对应的预测信息。检测头的解耦使类别分类和置信度、回归预测两类区别较大的成分分离,可以加快网络收敛速度和训练精度。而anchor-free的设计可以简化网络预测,去除繁琐的锚框聚类步骤,增强算法泛化能力,提升模型的执行速度。
FastDet输出两个尺度的特征图,每个特征图的每个特征点的通道数都为4+1+C,其中4表示边框偏移预测,1表示置信度预测,C表示类别预测。边框解码的公式如下:
bx=tx+cx#(2)
by=ty+cy#(3)
其中t代表网络输出的值,b代表对应的解码后的值。
在计算损失时,置信度损失采用二元交叉熵损失:
其中ci代表特征图上第i个特征点置信度输出值,则代表该特征点是否被选定为正样本,正样本为1,反之为0。类别损失同样采用二元交叉熵损失,同时采用软标签的策略,将标签乘以预测框与所负责预测的真实框的IOU,公式如下:
其中表示选定为正样本的预测点,pi(c)代表特征图上第i个特征点针对类别c的输出,代表该特征点是否确实为对应类别,对应类别为1,反之为0。而对于边框损失,FastDet采用了SIOU损失函数,SIOU引入了角度损失,期望预测框首先回归到目标框最近的坐标轴,然后只需再沿着另一个轴继续回归,有效减少了回归的自由度,大大提升了回归速度和结果的精确度。
具体来说,SIOU考虑了四部分:中心点距离、重叠面积、宽高值以及角度。其计算公式如下:
IOU表示重叠情况,有:
其中B代表预测框,BGT代表目标框。
Δ度量了两个边框的距离和角度损失,有:
γ=2-sin(2×α)#(13)
Ω表示形状损失,即预测框宽高与目标框宽高的相似度,有:
其中,wgt,hgt,w,h分别代表目标框宽高值和预测框宽高值。
边框总体损失即为:
最终,FastDet的总体损失如下式,其中Npos代表被选定为正样本的预测点个数:
针对SimOTA在训练初期以及应对检测困难样本上表现出的正样本选择随机性问题,本发明对SimOTA进行改进,得到改进版SimOTA*。具体而言,当SimOTA针对某一目标得出的动态k值小于1时,不再按照原算法分配特征点,而是按照目标面积大小和中心坐标的具体位置来动态分配多个正样本。为了决定不同大小的目标应该分配到哪个特征图上,受实验中得到的统计信息启发,本发明采用k-means聚类的思想,对数据集按照IOU匹配准则进行k-means聚类,得到两个聚类中心,再将聚类中心的面积进行加权平均即可得到符合条件的阈值Tf,加权平均的公式如下:
其中n代表所属聚类簇中元素的个数,S代表所属聚类簇的面积均值。
目标面积小于阈值Tf时交由26×26特征图负责,目标面积大于阈值Tf时交由13×13特征图负责。当确认所分配的特征图后,SimOTA*会按照目标中心点具体位置分配多个正样本,示意图如图5所示。具体实施时,需要针对网络的学习能力确认一个介于0和1的阈值T,当目标的x坐标映射到特征图时,满足:
则为其额外分配所映射特征图栅格右上角的特征点,当目标的y坐标映射到特征图时,满足:
则为其额外分配所映射特征图栅格左下角的特征点。当同时满足以上两式时,则为其额外分配所映射特征图栅格右下角的特征点。其中xgt和ygt代表目标中心点位置映射到特征图时的x和y坐标值。实验中常采取T=0.75的设置。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于卷积神经网络的快速目标检测方法,其特征在于,包括以下步骤:
步骤1、对需要检测的图像进行预处理;
步骤2、将预处理后的图像送入FastDet网络,所述FastDet网络是一种轻量级卷积神经网络,包括轻量级卷积模块FastLayer、ECA注意力机制、交叉FPN结构以及解耦的检测头;预处理后的图像依次经过主干网络、颈部网络和检测头,经过网络的特征提取,输出两张预测特征图;
步骤3、对FastDet网络进行训练,通过FastDet网络输出的特征图与图像标签计算得到损失,将损失通过反向传播一步步更新网络权值,从而使得网络具有检测特定目标的能力;
步骤4、基于训练好的模型,对FastDet网络输出的两个特征图进行解码得到所检测出的目标类别和边框信息,执行非极大值抑制过滤重复预测框;将最终预测框还原回原图尺度,绘制预测边框,完成目标检测。
2.根据权利要求1所述的一种基于卷积神经网络的快速目标检测方法,其特征在于,步骤1具体为,将需要检测的图像缩放到预设大小,并将每个像素值除以255归一化到0~1之间;由于网络总共进行了5次宽高维的减半,需要确保缩放后的图片边长是32的倍数。
3.根据权利要求1所述的一种基于卷积神经网络的快速目标检测方法,其特征在于,步骤2具体为,将预处理后的图像送入FastDet网络,依次经过主干网络、颈部网络和检测头;其中主干网络包含通道拆分、跨阶段局部拼接、残差连接和通道混洗操作;颈部网络包括ECA注意力机制和交叉FPN结构,能够加强特征融合能力;检测头设计成解耦的形式以及anchor-free的框架流程,加速网络训练收敛速度。
4.根据权利要求3所述的一种基于卷积神经网络的快速目标检测方法,其特征在于,所述主干特征网络采用独立设计的FastLayer卷积模块进行特征提取,所述FastLayer卷积模块是一种包含通道拆分、跨阶段局部拼接、残差连接以及通道混洗的卷积模块;具体来说,FastLayer模块首先会经过步幅为2的3×3卷积将特征图的宽和高减半;随后包含两个分支,左侧分支不进行任何处理,右侧分支先保存临时值,随后经过一系列步幅为1的3×3卷积后再与临时值相加,用于简化学习过程、预防梯度消失以及减少重复计算;随后,两个分支进行通道维的拼接,以此来进行通道升维操作,避免引入过多参数;最后进行分组数为4的通道混洗操作,在不引入额外参数的同时,使通道充分融合。
5.根据权利要求3所述的一种基于卷积神经网络的快速目标检测方法,其特征在于,所述颈部网络包括ECA注意力机制和交叉FPN结构设计;所述颈部网络基于YOLOv4 Tiny,在其基础上额外添加了一个26×26特征图经过步幅为2的卷积与13×13特征图拼接的结构,形成一个交叉FPN结构,用于使浅层特征的位置信息和深层特征的语义信息能够相互融合,加强特征提取的能力;此外,在颈部网络的重点位置插入了4个ECA注意力模块,重点位置是指主干网络到颈部网络以及颈部网络到检测头的过渡部分;ECA注意力机制是对SE模块的改进,采用一维卷积替代全连接实现高效的局部跨通道交互,提取通道间的依赖关系,其中一维卷积核大小会由输入通道动态确定,采用公式:
其中,C代表输入张量的通道数,k代表一维卷积核大小。
6.根据权利要求3所述的一种基于卷积神经网络的快速目标检测方法,其特征在于,所述解耦的检测头对检测目标的类别预测和边框、置信度预测进行解耦,并设计成anchor-free的框架;检测头的解耦使类别和置信度、边框回归两类区别较大的成分分离,用于加快网络收敛速度和训练精度;anchor-free的设计用于简化网络预测,去除繁琐的锚框聚类步骤,增强模型泛化能力,提升模型的执行速度。
7.根据权利要求1所述的一种基于卷积神经网络的快速目标检测方法,其特征在于,步骤3具体为,训练时,两个特征图将通过改进的SimOTA*正样本匹配策略来确定正负样本,随后计算边框回归损失、置信度损失和类别损失,其中边框回归损失采用SIOU方法,置信度损失和类别损失都采用二元交叉熵损失;最后通过反向传播来更新网络权值。
8.根据权利要求7所述的一种基于卷积神经网络的快速目标检测方法,其特征在于,所述改进的SimOTA*正样本匹配策略是指在训练初期及面对检测困难目标时所产生的正样本选定随机性问题,也即由原版算法确定的动态正样本个数小于1时,根据目标大小和中心点位置,人工为其分配合适的正样本,具体如下,首先根据预先设定的面积阈值将检测目标分配到对应的特征图,当确认所分配的特征图后,再为其分配该特征图上的多个特征点,选择一个介于0到1阈值T,当目标的x坐标映射到特征图时,满足:
则为其额外分配所映射特征图栅格右上角的特征点,当目标的y坐标映射到特征图时,满足:
则为其额外分配所映射特征图栅格左下角的特征点;当同时满足以上两式时,则为其额外分配所映射特征图栅格右下角的特征点;其中xgt和ygt代表目标中心点位置映射到特征图时的x和y坐标值;针对模型的学习能力,调节合适的阈值T,为模型始终分配合适的正样本,促进网络学习。
9.根据权利要求7所述的一种基于卷积神经网络的快速目标检测方法,其特征在于,训练时采用SIOU边框损失;SIOU边框损失考虑了四部分:中心点距离、重叠面积、宽高值以及角度,其计算公式如下:
IOU表示重叠情况,有:
其中B代表预测框,BGT代表目标框;
Δ度量了两个边框的距离和角度损失,有:
γ=2-sin(2×α)
其中,γ根据目标框和预测框的相对位置,将角度情况融入到距离损失中;ρx和ρy分别体现目标框和预测框中心点之间的x轴距离和y轴距离的远近;
Ω表示形状损失,即预测框宽高与目标框宽高的相似度,有:
其中,wgt,hgt,w,h分别代表目标框宽高值和预测框宽高值,ωw和ωh分别体现了目标框和预测框之间宽度值与高度值的接近程度。
10.根据权利要求1所述的一种基于卷积神经网络的快速目标检测方法,其特征在于,步骤4具体为,预测时,两个特征图直接进行解码;对于特征图中每个预测点,将置信度与最大类别预测相乘,选取乘积大于预设阈值的预测点,执行非极大值抑制过滤重复预测框;将最终预测框还原回原图尺度,绘制预测边框,完成目标检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310104561.5A CN116091892A (zh) | 2023-02-13 | 2023-02-13 | 一种基于卷积神经网络的快速目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310104561.5A CN116091892A (zh) | 2023-02-13 | 2023-02-13 | 一种基于卷积神经网络的快速目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116091892A true CN116091892A (zh) | 2023-05-09 |
Family
ID=86211863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310104561.5A Pending CN116091892A (zh) | 2023-02-13 | 2023-02-13 | 一种基于卷积神经网络的快速目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091892A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116405127A (zh) * | 2023-06-09 | 2023-07-07 | 北京理工大学 | 水声通信前导信号检测模型的压缩方法和装置 |
CN116524328A (zh) * | 2023-06-28 | 2023-08-01 | 中国科学院长春光学精密机械与物理研究所 | 基于改进的轻量化网络的目标识别方法及系统 |
CN117437697A (zh) * | 2023-12-20 | 2024-01-23 | 广州思德医疗科技有限公司 | 卧姿人体检测模型的训练方法、卧姿人体检测方法及系统 |
CN117671243A (zh) * | 2023-12-07 | 2024-03-08 | 百鸟数据科技(北京)有限责任公司 | 一种小目标检测方法、装置、计算机设备和存储介质 |
CN118015397A (zh) * | 2024-01-16 | 2024-05-10 | 深圳市锐明像素科技有限公司 | 自动驾驶的困难样本的确定方法及装置 |
-
2023
- 2023-02-13 CN CN202310104561.5A patent/CN116091892A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116405127A (zh) * | 2023-06-09 | 2023-07-07 | 北京理工大学 | 水声通信前导信号检测模型的压缩方法和装置 |
CN116405127B (zh) * | 2023-06-09 | 2023-09-12 | 北京理工大学 | 水声通信前导信号检测模型的压缩方法和装置 |
CN116524328A (zh) * | 2023-06-28 | 2023-08-01 | 中国科学院长春光学精密机械与物理研究所 | 基于改进的轻量化网络的目标识别方法及系统 |
CN116524328B (zh) * | 2023-06-28 | 2023-09-15 | 中国科学院长春光学精密机械与物理研究所 | 基于改进的轻量化网络的目标识别方法及系统 |
CN117671243A (zh) * | 2023-12-07 | 2024-03-08 | 百鸟数据科技(北京)有限责任公司 | 一种小目标检测方法、装置、计算机设备和存储介质 |
CN117437697A (zh) * | 2023-12-20 | 2024-01-23 | 广州思德医疗科技有限公司 | 卧姿人体检测模型的训练方法、卧姿人体检测方法及系统 |
CN117437697B (zh) * | 2023-12-20 | 2024-04-30 | 广州思德医疗科技有限公司 | 卧姿人体检测模型的训练方法、卧姿人体检测方法及系统 |
CN118015397A (zh) * | 2024-01-16 | 2024-05-10 | 深圳市锐明像素科技有限公司 | 自动驾驶的困难样本的确定方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116091892A (zh) | 一种基于卷积神经网络的快速目标检测方法 | |
CN110930454B (zh) | 一种基于边界框外关键点定位的六自由度位姿估计算法 | |
WO2020151166A1 (zh) | 多目标跟踪方法、装置、计算机装置及可读存储介质 | |
CN109753903A (zh) | 一种基于深度学习的无人机检测方法 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN111882586B (zh) | 一种面向剧场环境的多演员目标跟踪方法 | |
CN113744311A (zh) | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 | |
CN101971190A (zh) | 实时身体分割系统 | |
CN108564598B (zh) | 一种改进的在线Boosting目标跟踪方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
Cepni et al. | Vehicle detection using different deep learning algorithms from image sequence | |
CN111126278A (zh) | 针对少类别场景的目标检测模型优化与加速的方法 | |
CN116630608A (zh) | 一种用于复杂场景下的多模态目标检测方法 | |
CN111931572B (zh) | 一种遥感影像的目标检测方法 | |
CN116721414A (zh) | 一种医学图像细胞分割与跟踪方法 | |
CN111882581B (zh) | 一种深度特征关联的多目标跟踪方法 | |
CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及系统 | |
CN114241250A (zh) | 一种级联回归目标检测方法、装置及计算机可读存储介质 | |
CN115546499A (zh) | 一种基于CNN与ViT融合的递进式辅助目标检测方法及系统 | |
CN116310688A (zh) | 基于级联融合的目标检测模型及其构建方法、装置及应用 | |
CN117456167A (zh) | 一种基于改进YOLOv8s的目标检测算法 | |
CN113313720B (zh) | 对象分割方法和装置 | |
CN116883457B (zh) | 一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法 | |
CN117710965A (zh) | 基于改进YOLOv5的小目标检测方法 | |
CN116110009A (zh) | 一种基于深度学习的道路车辆检测与跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |