CN113298032A - 基于深度学习的无人机视角图像的车辆目标检测方法 - Google Patents
基于深度学习的无人机视角图像的车辆目标检测方法 Download PDFInfo
- Publication number
- CN113298032A CN113298032A CN202110665507.9A CN202110665507A CN113298032A CN 113298032 A CN113298032 A CN 113298032A CN 202110665507 A CN202110665507 A CN 202110665507A CN 113298032 A CN113298032 A CN 113298032A
- Authority
- CN
- China
- Prior art keywords
- feature
- channels
- convolution
- size
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 230000000007 visual effect Effects 0.000 title claims abstract description 26
- 238000013135 deep learning Methods 0.000 title claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 83
- 230000004927 fusion Effects 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 30
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 35
- 238000010586 diagram Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 abstract description 26
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
一种基于深度学习的无人机视角图像的车辆目标检测方法,包括:S100.构建特征提取模块,获得特征提取模块特征图;S200.根据S100所得特征提取模块特征图构建轻量特征融合模块,获得多尺度目标特征图;S300.根据S200所得多尺度目标特征图构建多尺度特征检测模块;S400.结合S100‑S300构建的特征提取模块、轻量特征融合模块和多尺度特征检测模块,构造基于轻量特征融合模块的无人机视角车辆目标快速检测网络,对数据集进行网络训练,实现对车辆目标进行检测。本发明采取引入并行池化层构建轻量特征融合模块的方法,根据特征融合模块提取的多尺度特征构建多尺度特征检测模块,在限制网络规模的情况下,提高对无人机视角图像车辆目标特性的适应能力。
Description
技术领域
本发明涉及的是图像处理目标检测领域,特别涉及一种基于深度学习的无人机视角图像的车辆目标检测方法。
背景技术
基于无人机视角图像的车辆目标检测一直是目标识别领域的研究热点,在民用和军用领域,车辆均为十分重要的战略目标。随着深度学习的兴起,早期手工特征已逐渐不能满足逐渐复杂的光学遥感视觉识别任务,而深度学习在计算机视觉的广泛应用中显示出了较强的特征表示能力。如何设计适合无人机视角图像车辆目标的深度学习检测网络,成为了无人机视角车辆目标检测的重大挑战。
为了提升深度学习目标检测网络的各方面性能,研究学者们相继提出许多有价值的目标检测方法。基于深度学习的目标检测方法主要分为两大类:基于区域提名的两阶段检测和基于回归的单阶段检测。Girshick于2014年提出了一种两目标检测框架R-CNN,通过提取候选区域,训练CNN网络结合SVM和回归器进行目标检测,其对比传统目标检测算法在准确率上有突破性进展,但其识别过程划分为三部分,消耗大量的时间与存储资源用于三步之间的资源转存。后续提出SPP-Nets通过空间金字塔池化使网络输入图片没有尺寸限制,加快了训练网络的时间。R-CNN的后续衍生网络Fast R-CNN结合SPP-Nets和Overfeat的特点,引入ROI池化概念,同时合并CNN特征提取和分类回归两部分,取得更好地检测效果同时加快了网络的训练速度。之后的两阶段检测集大成之作Faster R-CNN将前两代算法中的区域提名整合到CNN中,实现了检测网络的端到端形式,进一步减少了时间的损耗。
另一类单阶段检测网络将检测任务表述成一个统一的、端到端的回归问题,不进行区域提名,只处理一次图片同时得到位置和分类。Joseph Redmon于2016年提出YOLO系列算法,其通过划分等分的网格分配预测的样本,相比于基于区域提名的检测方法,全局处理使得背景错误较少,但相对牺牲了小物体检测精度。单阶段网络检测速度相较两阶段网络有了突破性进展,已能做到实时检测。之后的SSD网络是单阶段模型早期的集大成者,引入两阶段模型的anchorbox机制同时使用多尺度特征图,达到接近两阶段模型精度的同时,拥有比两阶段模型快一个数量级的速度。在YOLO的后续版本YOLOv2中,同样引入anchor机制,YOLOv3中则采用近似ResNet的特征提取网络并引入多尺度,在COCO数据集上mAP达到57.9%。
虽然基于深度学习的光学图像检测方法发展较为迅速,但针对车辆目标的特性,目前的目标检测方法仍存在很大问题。无人机视角图像中的车辆目标由于自身车型变化与拍摄分辨率变化存在检测目标尺度变化大的特性,同时其存在无人机拍摄视角变化产生的多种目标形变,往往需要深层网络或者图像金字塔等大型特征融合结构,重新调节尺度并聚合特征图,但计算量大大增加,才能对目标特征进行很好地表征。这与无人机视角图像车辆目标检测的应用平台——机载嵌入式平台的有限计算资源形成矛盾。目前的无人机视角图像目标检测方法很难保持对于车辆目标高检测精度的同时满足机载嵌入式平台对网络规模的制约。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于深度学习的无人机视角图像的车辆目标检测方法。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种基于深度学习的无人机视角图像的车辆目标检测方法,包括:
S100.构建特征提取模块,获得特征提取模块特征图;
S200.根据S100所得特征提取模块特征图构建轻量特征融合模块,获得多尺度目标特征图;
S300.根据S200所得多尺度目标特征图构建多尺度特征检测模块;
S400.结合S100-S300构建的特征提取模块、轻量特征融合模块和多尺度特征检测模块,构造基于轻量特征融合模块的无人机视角车辆目标快速检测网络,对数据集进行网络训练,实现对车辆目标进行检测。
进一步地,S100中,特征提取模块包含5个特征提取子模块顺序连接,其中:第一特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为64,卷积步长为2的卷积层和一个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为32,卷积核尺寸为3×3的卷积层通道数为64。
进一步地,第二特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为128,卷积步长为2的卷积层和2个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为64,卷积核尺寸为3×3的卷积层通道数为128。
进一步地,第三特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为256,卷积步长为2的卷积层和8个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为128,卷积核尺寸为3×3的卷积层通道数为256。
进一步地,第四特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为512,卷积步长为2的卷积层和8个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为256,卷积核尺寸为3×3的卷积层通道数为512。
进一步地,第五特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为1024,卷积步长为2的卷积层和4个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为512,卷积核尺寸为3×3的卷积层通道数为1024。
进一步地,第一特征提取子模块输入为将416*416尺寸的3通道输入图片进行卷积操作得到416*416尺寸的32通道的特征图,输出为208*208尺寸的64通道的特征图;第二特征提取子模块输入为第一特征提取子模块输出的208*208尺寸的64通道的特征图,输出为104*104尺寸的128通道的特征图;第三特征提取子模块输入为第二特征提取子模块输出的104*104尺寸的128通道的特征图,输出为52*52尺寸的256通道的特征图;第四特征提取子模块输入为第三特征提取子模块输出的52*52尺寸的256通道的特征图,输出为26*26尺寸的512通道的特征图;第五特征提取子模块输入为第四特征提取子模块输出的26*26尺寸的512通道的特征图,输出为13*13尺寸的1024通道的特征图。
进一步地,S200中,轻量特征融合模块由承接子模块和融合子模块组成;其中:承接子模块由一个卷积核尺寸为1×1通道数为512的卷积层、一个卷积核尺寸为3×3通道数为1024的卷积层和一个卷积核尺寸为1×1通道数为512的卷积层顺序连接而成;融合子模块包含4个多尺度支路和1个连接层;4个支路输入均为承接子模块输出特征图,将4个支路的输出特征图输入连接层,即获得对应4个尺度目标的融合特征图。
进一步地,S300中,多尺度特征检测模块分为三条尺度支路,其中:第一尺度支路包括2个支路子模块,每个支路子模块包括1个卷积核尺寸为1×1通道数为512的卷积层和1个卷积核尺寸为3×3通道数为1024的卷积层;第二尺度支路包括3个支路子模块,每个支路子模块包括1个卷积核尺寸为1×1通道数为256的卷积层和1个卷积核尺寸为3×3通道数为512的卷积层;第三尺度支路包括3个支路子模块,每个支路子模块包括1个卷积核尺寸为1×1通道数为128的卷积层和1个卷积核尺寸为3×3通道数为256的卷积层。
进一步地,S400中,网络训练以网络损失值为依据,损失函数分为四部分:边框中心坐标损失、边框宽高损失、置信度损失和类别损失。具体训练流程中,对输入训练集图片划分网格,在各网格内通过预设尺寸的候选框生成预测框,通过预测框参数和标注真实框参数计算损失函数,计算完训练集内所有图片得到本次迭代损失函数值,完成一次迭代。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明公开了一种基于深度学习的无人机视角图像的车辆目标检测方法,采取引入并行池化层构建轻量特征融合模块的方法,根据特征融合模块提取的多尺度特征构建多尺度特征检测模块,在限制网络规模的情况下,提高对无人机视角图像车辆目标特性的适应能力。通过将引入轻量特征融合网络模块,可以有效提升深度学习网络对于车辆目标的检测效率。解决机载嵌入式无人机视角图像车辆目标检测中车辆目标尺度变化大、机载嵌入式平台计算量严重受限的问题。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例1中,一种基于深度学习的无人机视角图像的车辆目标检测方法的流程图;
图2为本发明实施例1中,轻量特征融合模块示意图;
图3为本发明实施例1中,网络训练损失函数计算流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中存在的问题,本发明实施例提供一种基于深度学习的无人机视角图像的车辆目标检测方法。
实施例1
本实施例公开了一种基于深度学习的无人机视角图像的车辆目标检测方法,如图1,包括:
S100.构建特征提取模块,获得特征提取模块特征图;具体的,构建特征提取模块,获得特征提取模块特征图;所述特征提取模块包含5个特征提取子模块顺序连接,分别记为第一特征提取子模块、第二特征提取子模块、第三特征提取子模块、第四特征提取子模块和第五特征提取子模块。每个子模块包括数量不等的残差块结构,逐层提取高维语义特征。
在本实施例中,具体的实施过程作以下说明,特征提取子模块所采用的残差块结构由一个卷积核尺寸为1×1的卷积层、一个卷积核尺寸为3×3的卷积层和一个shortcut层构成。其中残差块输入特征图经过两层卷积层后生成的特征图与其自身共同输入shortcut层,在层内进行矩阵相加运算,得到残差块输出特征图。
定义Ic为卷积层输入特征图尺寸,Oc为卷积层输出特征图尺寸,kc为卷积层卷积核尺寸,pc为卷积层衬垫大小,sc为卷积步长,fc为卷积层滤波器个数,nc为滤波器中卷积核个数。定义Im为池化层输入特征图尺寸,Om为池化层输出特征图尺寸,km为池化层池化尺寸,pm为池化层衬垫大小,sm为池化步长。
网络中卷积层对每个通道维度的特征图执行二维卷积操作,即将卷积核在二维数据上滑窗,对当前输入的卷积核尺寸部分的数据进行矩阵乘法,将结果汇为单个输出像素。输出特征为在输入数据相同位置上的加权和,权值为卷积核参数。为保证输出特征图与输入特征图尺寸相同,本发明使用衬垫算法,即用额外零像素填充边缘,保证滑动时的卷积核可以允许原始边缘像素位于其中心,同时延伸到边缘之外的零像素,从而产生与输入相同大小的输出。填充的零数量由衬垫大小pc决定,输入特征图尺寸填充后变为Ic+2*pc。卷积层输出特征图尺寸执行本发明技术方案时卷积步长恒为1。每层卷积层存在等同于输出特征图通道数的滤波器,每个滤波器中存在等同于输入特征图通道数的卷积核个数,每个滤波器中每个卷积核在各自对应的输入通道上进行二维卷积操作,得到的特征图对应位置相加再加上偏置,最终得到等同于滤波器个数的输出特征图。
为保证检测网络实际效果,本发明建议在S100构建的特征提取模块,后续S200构建的轻量特征融合模块,和S300构建的多尺度特征检测模块中所有卷积操作后均引入非线性函数作为激励函数,提高深层神经网络的特征表达能力,本实施例采用LeakyRelu函数作为激活函数,其函数计算公式为f(x)=max(0.01x,x)。同时为了保证检测网络在S400网络训练中能快速收敛,本发明建议在卷积操作后引入批量归一化,引入可学习重构参数β=E[x(k)],其中x(k)为k维卷积层输出特征图,k维批量归一化输出 该操作主要针对S400网络训练进行优化,能改善网络梯度,允许更大的学习率,大幅提高训练速度并减少对初始化的强烈依赖。也可以采用小学习率和初始化训练权重优化S400,执行本发明技术方案时则无需进行批量归一化操作。
第一特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为64,卷积步长为2的卷积层和一个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为32,卷积核尺寸为3×3的卷积层通道数为64。第一特征提取子模块输入为将416*416尺寸的3通道输入图片进行卷积操作得到416*416尺寸的32通道的特征图,输出为208*208尺寸的64通道的特征图。
第二特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为128,卷积步长为2的卷积层和2个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为64,卷积核尺寸为3×3的卷积层通道数为128。第二特征提取子模块输入为第一特征提取子模块输出的208*208尺寸的64通道的特征图,输出为104*104尺寸的128通道的特征图。
第三特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为256,卷积步长为2的卷积层和8个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为128,卷积核尺寸为3×3的卷积层通道数为256。第三特征提取子模块输入为第二特征提取子模块输出的104*104尺寸的128通道的特征图,输出为52*52尺寸的256通道的特征图。
第四特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为512,卷积步长为2的卷积层和8个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为256,卷积核尺寸为3×3的卷积层通道数为512。第四特征提取子模块输入为第三特征提取子模块输出的52*52尺寸的256通道的特征图,输出为26*26尺寸的512通道的特征图。
第五特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为1024,卷积步长为2的卷积层和4个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为512,卷积核尺寸为3×3的卷积层通道数为1024。第五特征提取子模块输入为第四特征提取子模块输出的26*26尺寸的512通道的特征图,输出为13*13尺寸的1024通道的特征图。
S200.根据S100所得特征提取模块特征图构建轻量特征融合模块,获得多尺度目标特征图。
在本实施例中,具体的实施过程作以下说明,轻量特征融合模块核心为多个并行最大池化层,网络中最大池化层对每个通道维度的特征图进行最大池化操作,即将特征图不重叠地分割成若干个池化尺寸大小的小块,每个小块内只取最大的数字,再舍弃其他节点后,保持原有的平面结构得到输出特征图。最大池化层可对提取到的特征信息进行降维,一方面使特征图变小,简化网络计算复杂度并在一定程度上避免过拟合的出现,一方面进行特征压缩,提取主要特征,同时还能提供一定的旋转不变性。若池化步长为1,则为保证输出特征图与输入特征图尺寸相同,本发明使用与卷积层相同的衬垫算法,输入特征图尺寸填充后变为Im+2*pm。池化层输出特征图尺寸否则不采用衬垫算法。
一般进行构建时,根据当前的数据集判断轻量特征融合模块构建于特征提取模块后还是检测模块中。实施例指定构建于特征提取模块后,构建时可以调整位置,构建者根据S300的多尺度特征检测模块设计,保证检测模块所采用的多张不同尺寸特征图在轻量特征融合模块之后即可。网络构建实现为现有技术,本发明的技术方案直接采用特征提取模块输出特征图作为轻量特征融合模块输入,轻量特征融合模块输出特征图直接作为后续S300多尺度特征检测模块输入。
为便于实施参考起见,本发明进一步提供实施例的轻量特征融合塔构建具体方式如下:如图2所示,具体流程中轻量特征融合模块由两部分组成,分别为承接子模块和融合子模块。其中承接子模块由一个卷积核尺寸为1×1通道数为512的卷积层、一个卷积核尺寸为3×3通道数为1024的卷积层和一个卷积核尺寸为1×1通道数为512的卷积层顺序连接而成。承接子模块输入为S100所得特征提取模块输出特征图,输出为13*13尺寸的512通道的特征图。
融合子模块包含4个多尺度支路和1个连接层。其中支路1由1个池化步长为1池化核尺寸为13*13的最大池化层构成。此支路输出特征图对应最大的感受野信息,其提取的特征对于大型运输车辆和载客车辆更为敏感。支路2由1个池化步长为1池化核尺寸为9*9的最大池化层构成。此支路输出特征图对应较大的感受野信息,其提取的特征对于中型运输车辆和载客车辆更为敏感。支路3由1个池化步长为1池化核尺寸为5*5的最大池化层构成。此支路输出特征图对应中型的感受野信息,其提取的特征对于正常尺寸车辆更为敏感。支路4为承接子模块的输入特征图不经任何处理,此支路输出特征图对应最小的感受野信息,其提取的特征对于小型车辆更为敏感。
4个支路输入均为承接子模块输出特征图。随后,将4个支路的输出特征图输入连接层,即获得对应4个尺度目标的融合特征图。所述连接层,是指将输入的特征图按先后顺序,在通道维度上拼接,即连接层输出特征图通道数等于输入特征图通道数之和,在本实施例代码实现中,直接进行特征图数组在通道维度上的合并。
S300.根据S200所得多尺度目标特征图构建多尺度特征检测模块。
在S200所得多尺度融合特征图之后构建多种尺度的卷积层用于分类和检测。本实施例采用3种尺度特征图(13*13,26*26,52*52),增强网络对多尺度车辆目标的检测能力。
具体流程中多尺度特征检测模块分为三条尺度之路。多尺度特征检测模块分为三条尺度之路,其中:
第一尺度支路包括2个支路子模块,分别记为支路子模块1、支路子模块2,每个支路子模块包括1个卷积核尺寸为1×1通道数为512的卷积层和1个卷积核尺寸为3×3通道数为1024的卷积层。第一尺度支路以S200中轻量特征融合模块输出特征图作为输入,支路子模块2输出特征图输入到卷积核尺寸为1*1通道数为18的卷积层,输出18个检测结果参数。
所述结果参数包括三个预测框的各6种属性,分别为边框横坐标,边框纵坐标,边框宽,边框高,变框置信度和类别概率共18个参数。本实施例以将所有车辆目标标注为类别1为例,也可以将车辆目标标注为多个类别,执行本发明技术方案时则输出参数量根据类别数有所变化,输出检测结果参数个数Np通过Np=3*(5+Nc)式子获得,其中Nc为无人机视角图像车辆数据集车辆类别标注个数。本实施例中多尺度特征检测模块的卷积层除去最后一层卷积核尺寸为1*1,通道数为18的卷积层外,均采用LeakyRelu函数作为激活函数,并引入批量归一化操作。
第二尺度支路分别以第一尺度支路中的支路子模块2中卷积核尺寸为1×1的卷积层的输出上采样之后的特征图,以及S100中特征提取模块的特征提取子模块4输出特征图作为输入,包括连接层和3个支路子模块,分别记为支路子模块1、支路子模块2,支路子模块3。每个支路子模块包括1个卷积核尺寸为1×1通道数为256的卷积层和1个卷积核尺寸为3×3通道数为512的卷积层,支路子模块3输出特征图输入到卷积核尺寸为1*1通道数为18的卷积层,输出结果参数组成同第一尺度支路。
所述的第二尺度支路上采样操作,是指对输入特征图,通过一个尺寸为1×1通道数为256的卷积层后,在像素点值之间采用合适的插值算法插入新的元素,使输入特征图长宽均变为自身2倍。本实施例采用双线性插值法,本领域人员可自行根据具体情况设定插值方法。
第三尺度支路分别以第二尺度支路中的支路子模块3中卷积核尺寸为1×1的卷积层的输出上采样之后的特征图,以及S100中特征提取模块的特征提取子模块3输出特征图作为输入,包括连接层和3个支路子模块,分别记为支路子模块1、支路子模块2,支路子模块3。每个支路子模块包括1个卷积核尺寸为1×1通道数为128的卷积层和1个卷积核尺寸为3×3通道数为256的卷积层,支路子模块3输出特征图输入到卷积核尺寸为1*1通道数为18的卷积层,输出结果参数组成同第一尺度支路。
所述第三尺度支路上采样操作,是指对输入特征图,通过一个尺寸为1×1通道数为128的卷积层后,在像素点值之间采用合适的插值算法插入新的元素,使输入特征图长宽均变为自身2倍。插值方法同第二尺度支路。
S400.结合S100-S300构建的特征提取模块、轻量特征融合模块和多尺度特征检测模块,构造基于轻量特征融合模块的无人机视角车辆目标快速检测网络,对数据集进行网络训练,实现对车辆目标进行检测。
网络训练以网络损失值为依据,当损失值随迭代次数下降至不再大范围波动时,视为网络收敛,获得网络权重值。如图3所示,本发明损失函数分为四部分:边框中心坐标损失、边框宽高损失、置信度损失和类别损失。具体训练流程中,对输入训练集图片划分网格,在各网格内通过预设尺寸的候选框生成预测框,通过预测框参数和标注真实框参数计算损失函数,计算完训练集内所有图片得到本次迭代损失函数值,完成一次迭代。
实施例过程训练涉及参数如下表一:
表一
其中Batch与Subdivisions参数控制一次送入网络训练的图片张数,Resizewidth与Resize height为网络训练输入图片归一化后尺寸,Learning rate为网络训练学习率,决定网络收敛速度,Max batches为网络训练迭代最大次数,Policy为网络训练学习率下降策略,本实施例选择steps策略,即每训练到一定迭代次数,学习率变为自身的十分之一,设置10000次和20000次迭代时各下降一次学习率。本领域技术人员可以需要根据具体情况设定其他方式,或者参照本发明实施例提供的方式自行设置表中数值。
本实施例公开了一种基于深度学习的无人机视角图像的车辆目标检测方法,采取引入并行池化层构建轻量特征融合模块的方法,根据特征融合模块提取的多尺度特征构建多尺度特征检测模块,在限制网络规模的情况下,提高对无人机视角图像车辆目标特性的适应能力。通过将引入轻量特征融合网络模块,可以有效提升深度学习网络对于车辆目标的检测效率。解决机载嵌入式无人机视角图像车辆目标检测中车辆目标尺度变化大、机载嵌入式平台计算量严重受限的问题。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
Claims (10)
1.一种基于深度学习的无人机视角图像的车辆目标检测方法,其特征在于,包括:
S100.构建特征提取模块,获得特征提取模块特征图;
S200.根据S100所得特征提取模块特征图构建轻量特征融合模块,获得多尺度目标特征图;
S300.根据S200所得多尺度目标特征图构建多尺度特征检测模块;
S400.根据S100-S300构建的特征提取模块、轻量特征融合模块和多尺度特征检测模块,构造基于轻量特征融合模块的无人机视角车辆目标快速检测网络,对数据集进行网络训练,实现对车辆目标进行检测。
2.如权利要求1所述的一种基于深度学习的无人机视角图像的车辆目标检测方法,其特征在于,S100中,特征提取模块包含5个特征提取子模块顺序连接,其中:第一特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为64,卷积步长为2的卷积层和一个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为32,卷积核尺寸为3×3的卷积层通道数为64。
3.如权利要求2所述的一种基于深度学习的无人机视角图像的车辆目标检测方法,其特征在于,第二特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为128,卷积步长为2的卷积层和2个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为64,卷积核尺寸为3×3的卷积层通道数为128。
4.如权利要求2所述的一种基于深度学习的无人机视角图像的车辆目标检测方法,其特征在于,第三特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为256,卷积步长为2的卷积层和8个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为128,卷积核尺寸为3×3的卷积层通道数为256。
5.如权利要求2所述的一种基于深度学习的无人机视角图像的车辆目标检测方法,其特征在于,第四特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为512,卷积步长为2的卷积层和8个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为256,卷积核尺寸为3×3的卷积层通道数为512。
6.如权利要求2所述的一种基于深度学习的无人机视角图像的车辆目标检测方法,其特征在于,第五特征提取子模块包含一个用于特征图尺度降维的卷积核尺寸为3×3通道数为1024,卷积步长为2的卷积层和4个残差块,残差块中卷积核尺寸为1×1的卷积层通道数为512,卷积核尺寸为3×3的卷积层通道数为1024。
7.如权利要求2所述的一种基于深度学习的无人机视角图像的车辆目标检测方法,其特征在于,第一特征提取子模块输入为将416*416尺寸的3通道输入图片进行卷积操作得到416*416尺寸的32通道的特征图,输出为208*208尺寸的64通道的特征图;第二特征提取子模块输入为第一特征提取子模块输出的208*208尺寸的64通道的特征图,输出为104*104尺寸的128通道的特征图;第三特征提取子模块输入为第二特征提取子模块输出的104*104尺寸的128通道的特征图,输出为52*52尺寸的256通道的特征图;第四特征提取子模块输入为第三特征提取子模块输出的52*52尺寸的256通道的特征图,输出为26*26尺寸的512通道的特征图;第五特征提取子模块输入为第四特征提取子模块输出的26*26尺寸的512通道的特征图,输出为13*13尺寸的1024通道的特征图。
8.如权利要求1所述的一种基于深度学习的无人机视角图像的车辆目标检测方法,其特征在于,S200中,轻量特征融合模块由承接子模块和融合子模块组成;其中:承接子模块由一个卷积核尺寸为1×1通道数为512的卷积层、一个卷积核尺寸为3×3通道数为1024的卷积层和一个卷积核尺寸为1×1通道数为512的卷积层顺序连接而成;融合子模块包含4个多尺度支路和1个连接层;4个支路输入均为承接子模块输出特征图,将4个支路的输出特征图输入连接层,即获得对应4个尺度目标的融合特征图。
9.如权利要求1所述的一种基于深度学习的无人机视角图像的车辆目标检测方法,其特征在于,S300中,多尺度特征检测模块分为三条尺度支路,其中:
第一尺度支路包括2个支路子模块,每个支路子模块包括1个卷积核尺寸为1×1通道数为512的卷积层和1个卷积核尺寸为3×3通道数为1024的卷积层;第二尺度支路包括3个支路子模块,每个支路子模块包括1个卷积核尺寸为1×1通道数为256的卷积层和1个卷积核尺寸为3×3通道数为512的卷积层;第三尺度支路包括3个支路子模块,每个支路子模块包括1个卷积核尺寸为1×1通道数为128的卷积层和1个卷积核尺寸为3×3通道数为256的卷积层。
10.如权利要求1所述的一种基于深度学习的无人机视角图像的车辆目标检测方法,其特征在于,S400中,网络训练以网络损失值为依据,损失函数分为四部分:边框中心坐标损失、边框宽高损失、置信度损失和类别损失;具体训练流程中,对输入训练集图片划分网格,在各网格内通过预设尺寸的候选框生成预测框,通过预测框参数和标注真实框参数计算损失函数,计算完训练集内所有图片得到本次迭代损失函数值,完成一次迭代。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110665507.9A CN113298032A (zh) | 2021-06-16 | 2021-06-16 | 基于深度学习的无人机视角图像的车辆目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110665507.9A CN113298032A (zh) | 2021-06-16 | 2021-06-16 | 基于深度学习的无人机视角图像的车辆目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113298032A true CN113298032A (zh) | 2021-08-24 |
Family
ID=77328342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110665507.9A Pending CN113298032A (zh) | 2021-06-16 | 2021-06-16 | 基于深度学习的无人机视角图像的车辆目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298032A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947144A (zh) * | 2021-10-15 | 2022-01-18 | 北京百度网讯科技有限公司 | 用于对象检测的方法、装置、设备、介质和程序产品 |
CN114241792A (zh) * | 2022-02-28 | 2022-03-25 | 科大天工智能装备技术(天津)有限公司 | 一种车流量检测方法及系统 |
CN114925746A (zh) * | 2022-04-19 | 2022-08-19 | 淮阴工学院 | 一种基于Air-Net的目标检测方法 |
CN117409298A (zh) * | 2023-12-15 | 2024-01-16 | 西安航空学院 | 针对路面车辆识别的多尺寸目标精确识别方法及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052826A (zh) * | 2020-09-18 | 2020-12-08 | 广州瀚信通信科技股份有限公司 | 基于YOLOv4算法的智慧执法多尺度目标检测方法、装置、系统及存储介质 |
-
2021
- 2021-06-16 CN CN202110665507.9A patent/CN113298032A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052826A (zh) * | 2020-09-18 | 2020-12-08 | 广州瀚信通信科技股份有限公司 | 基于YOLOv4算法的智慧执法多尺度目标检测方法、装置、系统及存储介质 |
Non-Patent Citations (3)
Title |
---|
RENN: ""目标检测--Yolov4(一)"", 《知乎》 * |
周威: ""YOLO V4 — 网络结构和损失函数解析(超级详细!) - 知乎"", 《知乎》 * |
周威: "YOLO V4 — 网络结构和损失函数解析(超级详细!) - 知乎", 《知乎》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947144A (zh) * | 2021-10-15 | 2022-01-18 | 北京百度网讯科技有限公司 | 用于对象检测的方法、装置、设备、介质和程序产品 |
CN113947144B (zh) * | 2021-10-15 | 2022-05-17 | 北京百度网讯科技有限公司 | 用于对象检测的方法、装置、设备、介质和程序产品 |
US11620815B2 (en) | 2021-10-15 | 2023-04-04 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and device for detecting an object in an image |
CN114241792A (zh) * | 2022-02-28 | 2022-03-25 | 科大天工智能装备技术(天津)有限公司 | 一种车流量检测方法及系统 |
CN114925746A (zh) * | 2022-04-19 | 2022-08-19 | 淮阴工学院 | 一种基于Air-Net的目标检测方法 |
CN114925746B (zh) * | 2022-04-19 | 2023-08-01 | 淮阴工学院 | 一种基于Air-Net的目标检测方法 |
CN117409298A (zh) * | 2023-12-15 | 2024-01-16 | 西安航空学院 | 针对路面车辆识别的多尺寸目标精确识别方法及设备 |
CN117409298B (zh) * | 2023-12-15 | 2024-04-02 | 西安航空学院 | 针对路面车辆识别的多尺寸目标精确识别方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796037B (zh) | 基于轻量级感受野金字塔的星载光学遥感图像舰船目标检测方法 | |
CN110135267B (zh) | 一种大场景sar图像细微目标检测方法 | |
CN113298032A (zh) | 基于深度学习的无人机视角图像的车辆目标检测方法 | |
CN111191583B (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN111160269A (zh) | 一种人脸关键点检测方法及装置 | |
CN112633350B (zh) | 一种基于图卷积的多尺度点云分类实现方法 | |
CN108288270B (zh) | 一种基于通道修剪与全卷积深度学习的目标检测方法 | |
CN110826596A (zh) | 一种基于多尺度可变形卷积的语义分割方法 | |
CN113628249B (zh) | 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法 | |
CN110059586B (zh) | 一种基于空洞残差注意力结构的虹膜定位分割系统 | |
CN112529146B (zh) | 神经网络模型训练的方法和装置 | |
CN111882031A (zh) | 一种神经网络蒸馏方法及装置 | |
CN113326930A (zh) | 数据处理方法、神经网络的训练方法及相关装置、设备 | |
US20230137337A1 (en) | Enhanced machine learning model for joint detection and multi person pose estimation | |
CN111192240B (zh) | 一种基于随机接入记忆的遥感图像目标检测方法 | |
CN113421276A (zh) | 一种图像处理方法、装置及存储介质 | |
CN116452937A (zh) | 基于动态卷积与注意力机制的多模态特征目标检测方法 | |
CN115601692A (zh) | 数据处理方法、神经网络模型的训练方法及装置 | |
CN114511785A (zh) | 基于瓶颈注意力模块的遥感图像云检测方法及系统 | |
CN114067126A (zh) | 一种红外图像目标检测方法 | |
CN113869262A (zh) | 一种基于Unet模型的目标区域用地信息的预测方法和装置 | |
CN117351363A (zh) | 基于Transformer的遥感影像建筑物提取方法 | |
CN117274333A (zh) | 一种基于多尺度深度特征图融合的多光谱图像配准方法 | |
CN115376195B (zh) | 训练多尺度网络模型的方法及人脸关键点检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210824 |
|
RJ01 | Rejection of invention patent application after publication |